CN100393132C

CN100393132C - 采用运动描述符归纳视频的方法

Info

Publication number: CN100393132C
Application number: CNB028022149A
Authority: CN
Inventors: A·迪瓦卡兰; R·拉德哈里什南; K·A·佩克
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-04-27
Filing date: 2002-04-22
Publication date: 2008-06-04
Anticipated expiration: 2022-04-22
Also published as: JP2004520760A; CN1465191A; US20030007555A1; JP4267327B2; EP1382207A1; WO2002089490A1; US7110458B2; EP1382207B1

Abstract

本发明的方法测定压缩视频中的运动活性的强度。使用运动活性的强度把视频分割成累积运动活性相等的段。其次，从各段选择关键帧。以时间顺序把选择了的关键帧连结起来，形成视频的归纳。

Description

采用运动描述符归纳视频的方法

技术领域

本发明一般地涉及视频，特别涉及压缩视频的归纳。

背景技术

希望自动地生成视频的归纳，特别是生成压缩数字视频的归纳。

压缩视频格式

MPEG(活动图像专家组)采用了作为数字信号来压缩视频的标准的规格。MPEG规格通过仅偶然作成有关图像的整帧信息，实现了高的数据压缩率。完整的图像帧、即帧内编码帧多称为^「I帧_」或^「固定帧_」，它包含对一切其它帧独立的整帧信息。图像差帧、即帧间编码帧多称为^「B帧_」及^「P帧_」、或^「预测帧_」，在I帧间将其编码、它只反映与基准帧的图像差、即余额。

通常，把视频序列的各帧分割成更小的图像元素、即像素数据的块。对各块进行离散余弦变换(DCT)操作，把统计上依赖的空域像素变换成独立频域DCT系数。对于称为^「宏块_」的、每一个为8×8或16×16像素的块进行DCT操作，提供编码信号。

由于DCT系数通常是能量集中的，故在1个宏块中只须少量的系数就包含了图像信息的主要部分。例如，当宏块包含目标的边缘边界时，该块的能量在系数的矩阵范围内包含较大的DC系数及随机分布的AC系数。

另一方面，非边缘宏块通常以同样大的DC系数、及实质上比与该块有关联的其它系数大的少量的相邻AC系数为特征。通常，在对DCT系数进行了自适应量化后，对其进行游长编码及可变长编码。因此，发送数据的宏块通常包含不到8×8矩阵的码字。

帧内编码帧数据、即编码P或B帧数据的宏块包含只表示预测像素与宏块中的实际像素之间之差的DCT系数。帧内编码帧数据及帧间编码帧数据的宏块还包含：采用了的量化级、宏块的地址指示符或位置的指示符、及宏块的类型等信息。后者的信息多称为^「标题_」或^「内务操作_」信息。

从上一个I帧或P帧来预测各P帧。从夹住各B帧的I帧或P帧来预测该B帧。预测编码过程包含生成表示I帧的哪个宏块的位移量与当前正在编码的B帧或P帧的宏块匹配得最密切的、常常称为^「运动矢量_」的位移矢量。对于每一个像素，从正在编码的P帧或B帧的块中减掉I帧中匹配块的像素数据，就出现了余额。变换了的余额及矢量，形成P帧或B帧编码数据的一部分。

视频分析

可以把视频分析作为打算理解视频内容的视频处理来定义。视频的理解可以是从^「低级_」的语法理解(检测视频中的段边界等)、到^「高级_」的语义理解(检测视频的种类等)各种各样的。低级的理解通过分析彩色、运动、结构、形状等低级的特征而生成内容描述来进行。其次，可采用该内容描述来索引视频。

视频归纳

视频归纳作成传送视频语义的视频紧凑的表示。在紧凑的表示中可包含：^「关键帧_」、^「关键段_」、或关键帧与关键段的组合。作为一例，网球比赛的视频归纳可包含两帧，即：取入了双方选手的第1帧、及取入了拿着奖品的获胜者的第2帧。在更详细且更长的归纳中，还可包含取入了比赛中为得胜所需的最后一分的全部帧。确实能够以手动来生成这样的归纳，但对此要花时间及费用。因而，希望自动。

自动视频归纳方法是周知的。希望参照S.Pfeifer等着^「自动地概括数字电影_」(可视通信图像显示杂志，Vo l.7，no.4，pp 345～353，1996年12月)及Hanjal；c等著^「一种基于无人管理组的用于自动视频概括的综合方案-有效性分析_」(IEEE有关视频技术的电路及系统议事录Vo l.9，No.8，1999年12月)。

现有的视频归纳方法几乎专门集中于以彩色为基础的归纳。Pfeiffer等人在视频归纳的作成中，把运动与其它特征组合起来使用。但是，Pfeiffer等人的方法只不过是简单地采用了忽略了的能够考虑组合起来的特征间的相关性之加权组合而已。有时，也通过归纳方法，采用运动特征来抽出关键帧。

如图1所示，现有技术的视频归纳方法几乎都强调基于彩色特征的分组。这是因为在压缩区域内容易抽出彩色特征，且具有抗噪声性。典型的方法是，以视频序列A101作为输入，应用以彩色为基础的归纳处理100，作成视频归纳S(A)102。视频归纳包含：整个序列的归纳、或者序列中感兴趣的段即关键帧的集之中的某一种。

方法100通常包含以下步骤。第1，按照彩色特征把视频帧分组。第2，把组作成容易访问的分层数据结构。第3，从各组抽出关键帧或关键序列，生成归纳。

运动活性描述符

视频还可以直观地作为具有各种级的活性、即作用强度来理解。较高级的活性之例，是在运动视频中的得分机会。另一方面，新闻视频具有较低级的活性。最近提出的MPEG-7图像规格提供与视频中的运动活性有关联的描述符。

作为运动活性的一个尺度，有运动矢量之大小的平均及分散。希望参照Peker等著^「运动活性强度的自动测量_」(SPIE有关媒体数据库的存储及检索会议论文集，2001年1月)。然而，根据用途可有很多种变形。

关键帧的集的逼真度

找出单一的关键帧的最简单方法是从序列中选择任意的帧，但在视频的内容具有比用单一帧能够传送的多的信息的情况下，以单一关键帧为基础的方法便不起作用了。可以把视频段的第1帧指配为第1关键帧，其次，在特征空间中把距第1帧最远的帧指配为第2关键帧。希望参照M.M.Yeung及B.Liu著^「视频镜头的有效匹配及分组_」(IEEEICIP论文集，华盛顿D.C.，1995年)。H.S.Chang、S.Sull及S.U.Lee著^「用于基于内容检索的有效视频索引方案_」(I EEE有关视频技术的电路及系统议事录，Vo l.9，No.8，1999年)记述了其它多数关键帧生成技巧及基于关键帧集的逼真度尺度的关键帧生成技巧。把逼真度尺度作为在视频序列中的关键帧集S与帧集R之间的半豪斯道夫(Semi-Hausdorff)距离(d_hs)来定义。半豪斯道夫距离的实际定义如下。

假定集Si在i＝1，...，m的情况下包含m个帧，帧集Ri在i＝1，...，n的情况下包含n个帧。假定2个帧Si及Ri间的距离为d(Si，Ri)。把各帧Ri的di如下定义。

如果di＝min(d(Sk，Ri))，K＝0..m，

则S与R之间的半豪斯道夫距离由下式给出，

dsh＝S，R)＝ma×(di)，i＝1..n

换言之，首先，对于全部的i，测定在帧Ri与在帧集S中将其表示得最好的帧之间的距离di。其次，求出按照上述计算出来的距离di的最大值。该距离表示，关键帧集S何等良好地表示R。表示得越良好，S与R之间的半豪斯道夫距离就越小。例如，在明显的情况下，在集S及R相同时，半豪斯道夫距离为零。另一方面，如果距离大则表明，R帧中至少有1帧由关键帧集S的任一帧都不能良好地将其表示出来。

几乎现有不同点的尺度都满足在上述定义中采用的距离空间中的距离方面所需要的特性。也可以采用M.J.Swain及D.H.Ballard著^「彩色索引_」(计算机图像杂志，Vo l.7，no.1，pp.11～32，1991年)记述的、如下定义的彩色直方图交叉距离。

在M×N尺寸的2个图像fi及fj的k箱彩色直方图为Hi及Hj的情况下，该2个图像间的不同点由下式给出。

d (f_{i}, f_{j}) = 1 - \frac{1}{MxN} Σ_{k = 1}^{K} \min {H_{i} (k), H_{j} (k)}

希望注意，不同点在范围[0，1]内。

发明内容

本发明的目的是提供单独使用运动特征、特别是运动活性特征，或将其与彩色及结构的特征等其它低级的特征组合起来使用，进行自动视频归纳的方法。

本发明以下述的考虑为基础。视频的运动活性是表示视频归纳的相对难度的很好的标准。运动量越大，该视频的归纳就越困难。视频归纳可通过所包含的帧数，例如关键帧数、或关键段的帧数等进行定量描述。

视频运动活性的相对强度与彩色特征的变化密切相关。换言之，运动活性的强度大时，彩色特征的变化也大的可能性大。彩色特征的变化大时，在以彩色特征为基础的归纳中包含较多的帧，由此彩色特征的变化小时，归纳中包含较少的帧。换句话说，这是考虑到由从视频选择的关键帧构成的视觉归纳的逼真度的情况。如果通过保持关键帧数一定使归纳的长度一定，则镜头的运动活性的强度越大、其归纳的逼真度就越低。

例如，在^「讲话的头像_」视频中，通常运动活性的级较低，此外，彩色变化同样也极小。在归纳以关键帧为基础时，为了视频的归纳用1个关键帧就足够了。在使用关键段时，为了视觉的视频归纳用1秒钟的帧序列就足够了。另一方面，在运动比赛项目中的得分机会里运动活性强度及彩色变化非常大，因而为了归纳需要几个关键帧、即几秒钟。

更详细地说，本发明通过首先测定压缩视频中的运动活性的强度，来提供进行视频归纳的方法。其次，使用该运动活性的强度，不进行长时间的彩色基础的计算、从视频中选择关键帧。

本发明还在归纳容易的段中使用运动基础的方法、在归纳困难的段中使用彩色基础的方法，由此提供把运动基础的关键帧抽出与彩色基础的关键帧抽出组合起来的方法。归纳容易的段通过由1个或多个关键帧构成的、迅速抽出的归纳来表示，另一方面，彩色基础的归纳处理从归纳困难的各段抽出帧序列。以时间顺序把单一帧及抽出的帧序列连结起来，形成视频的归纳。

更详细地说，本发明的方法测定压缩视频中的运动活性的强度。为了把视频分割成累积运动活性相等的段，而使用运动活性的强度。其次，从各段选择关键帧。以时间顺序把选择了的关键帧连结起来，形成视频的归纳。在一实施形态中，选择各段的第1帧及段的最后帧，形成归纳。在另一实施形态中，与运动活性有关、从各段选择中央的帧，分割为基于累积运动活性强度的2分割。

附图说明

图1为现有技术的视频归纳方法的框图。

图2为表示MPEG测试视频的，运动活性与对于该活性具有不能允许的逼真度的镜头之比例的曲线图。

图3为表示在规定阈值以下的镜头持续时间之比例与对于该比例具有不能允许的逼真度的镜头之比例的曲线图。

图4为示出本发明的视频归纳方法的框图。

图5为比较按照本发明选择了第1帧的情况与选择了中央帧的情况之曲线图。

图6为视频2分割的框图。

具体实施方式

本发明采用运动特征、还可选地采用彩色特征，来归纳压缩视频。因而，本发明的归纳方法最初从压缩视频测定这些特征。

特征抽出

彩色特征

可以采用已知的技巧正确地抽出I帧的DC系数。在P帧及B帧的情况下，可以采用完全不进行解压的运动矢量来近似DC系数。例如，希望参照Yeo等著^「有关从MPEG视频抽出DC序列_」(IEEE ICIPVol.2，1995年)。为了抽出彩色特征，可以把DC图像的YUV值变换到另一彩色空间中。

在最一般使用的技巧中，采用彩色直方图。彩色直方图已广泛用于图像及视频的索引及检索中。希望参照Smith等著^「利用彩色和结构的自动图像检索_」(IBEE有关图形分析及机械智能议事录，1996年)。通常，在3信道RGB彩色空间中，各信道有4个箱，在彩色直方图中总计需要64(4×4×4)个箱。

运动特征

可以从P帧及B帧的运动矢量抽出及测定运动信息。由于运动矢量通常是对实际光学流的粗糙的、散布的近似，故在此只定性地使用运动矢量。记述了很多抽出运动矢量的不同方法。希望参照：Tan等著^「一种用于摄像机运动参数估计的新方法_」(IEEE有关图像处理的国际会议论文集，Vol.2，pp.722～726，1995年)；Tan等著^「带有应用于视频的注释的，从压缩视频迅速估计摄像机运动_」(IEEE有关视频技术的电路及系统议事录，1999年)；Kobla等著^「用于识别运动视频的，慢动重放序列的检测_」(IEEE有关多媒体信号处理的专题讨论会论文集，1999年)；Kobla等著^「采用Video Trails的特技编辑检测：与现有技术的比较_」(SPIE有关图像及视频数据库的存储及检索等VII次会议论文集，1999)；Kobla等著^「在MPEG视频中采用DCT及运动矢量信息的压缩域视频索引技术_」(SPIE有关图像及视频数据库的存储及检索第V次会议论文集，SPIE Vol.3022，pp.200～211，1997年)；以及Meng等著^「CVEPS-压缩视频编辑及分析系统_」(ACM多媒体96年会议论文集，1996)。

如上所述，几乎所有现有技术的归纳方法都以彩色特征的分组为基础，得到彩色描述符。彩色描述符在定义上具有较高的抗噪声性，而不包含视频的运动特征。但是，由于运动描述符具有抗噪声性较低的倾向，故并未广泛用于视频的归纳中。

Divakaran等人申请的美国专利申请第09/406，444号^「视频序列的活性描述符_」(2000年8月9日提出，通过参照在本说明书中引用)记述了，使用从压缩视频中的运动矢量导出的运动特征、确定视频中的运动活性及视频中的运动活性的空间分布之方法。如上述专利申请中所记述，这样的描述符关于视频阅览用途是有用的。在本说明书中，把这样的运动描述符应用于新的视频归纳中。

在本说明书中，认为运动是指示视频场景发生了何等变化的有力的指示器。因而，要把运动作为^「可归纳性_」的尺度来使用。作为例子，在把汽车高速追赶与例如新闻广播员的镜头进行比较的情况下，恐怕前者会包含更多的^「变化_」吧。因而，为了在视觉上归纳汽车高速追赶需要比新闻广播员的镜头更多的资源。

不方便的情况在于，没有简单的、客观的尺度来测试：运动实际上是否与场景的变化有关联。但是，由于场景的变化大多还伴有彩色特征的变化，故研究按上述定义了的彩色基础的逼真度与运动活性强度之间的关系。

假定镜头A的关键帧的集为集S_A、镜头B的关键帧的集为集S_B。在集S_A与集S_B此二者包含同数的关键帧、镜头A的运动活性强度比镜头B的运动活性强度大的情况下，集S_A的逼真度比集S_B的逼真度低。换言之，镜头A因其运动活性强度较大，故其^「可归纳性_」比镜头B小。

运动活性强度获得可归纳性的证明

从MPEG-1格式的MPEG-7测试集抽出标准的新闻视频节目的彩色特征及运动特征。最初，把节目区分成多个镜头。其次，对于各镜头，通过计算各P帧的运动矢量大小的标准偏差从全部P帧抽出运动活性特征，同时，从全部I帧抽出64箱RGB直方图。这些都在压缩区域中。

其次，把P帧组中的以前的P帧的运动活性描述符平均，由此对各I帧确定运动活性描述符。因而，直方图及运动活性值全部与I帧有关联。全部镜头的运动活性通过把按上述计算出来的每一个运动活性值平均而得到。以下，把镜头中的I帧的集作为按上述定义了那样的帧集R来处理。运动活性能够以运动矢量的平均大小为基础。

简单的归纳方法如上述那样，采用镜头的第1帧来生成该镜头的单一关键帧。因而，把第1I帧作为关键帧使用，如上述那样来判定其逼真度。通过分析^「讲话的头像_」序列之例，根据经验判断为即使具有逼真度高到0.2的关键帧其质量也是足够的。因而，可以把镜头分成两类，即关键帧具有0.2以下dsh(关键帧具有可允许的逼真度)的第一类；以及关键帧具有比0.2大的dsh(关键帧具有不允许的逼真度)的第2类。

如表A所示那样，还可以把镜头分成从活性非常小到非常大的5类。

表1

活性值	σ的范围(运动矢量大小的标准偏差)
活性值	σ的范围(运动矢量大小的标准偏差)	1(非常低)	0≤σ＜3.9
2(低)	3.9≤σ＜10.7	1(非常低)	0≤σ＜3.9
2(低)	3.9≤σ＜10.7	3(中)	10.7≤σ＜17.1
4(高)	17.1≤σ＜32	3(中)	10.7≤σ＜17.1
4(高)	17.1≤σ＜32	5(非常高)	32≤σ

其次，如图2所示，关于标准新闻节目的视频(西班牙语新闻)，在这些类202的每一类中把具有比0.2大的dsh的镜头的持续时间作为比例201来判定。随着从运动活性非常小向非常大增加，dsh之值始终在增加。换言之，随着镜头运动活性的增加，其可归纳性的容易程度在减小。

进而，单一关键帧的逼真度对于运动活性强度非常小的类的镜头之90％是可允许的。在取自其它新闻节目(来自MPEG7测试集的葡萄牙语新闻节目等)及NBC的新闻节目的新闻节目中，可观察到相同的结构。但是，实验的证明表示：在新闻节目中，镜头的运动活性强度是其可归纳性的直接标准。

由于新闻节目的内容是各种各样的，故想使其结果适合于宽范围的内容。由于在运动活性中使用MPEG7的阈值，故内容并不左右其结果。

图3表示：具有阈值T以下的运动活性强度的镜头中的、具有不允许的逼真度的镜头持续时间之比例302；以及对于302具有T以下的运动活性的节目中的镜头持续时间之全比例301。该图表示，关于西班牙语的新闻节目可以把镜头的第1帧作为对于镜头的30％具有可允许逼真度的关键帧来使用。对于其它新闻节目也得到同样的结果。因而，在活性非常小的镜头中使用MPEG-7的运动活性阈值，可以发现利用第1帧能否良好地归纳镜头。

归纳的方法

上述结果表示，每当运动活性增加时，信息就增加。因而，能够以连续的关键帧间的累积运动活性之差是均匀的方式来取样视频的关键帧。于是，各关键帧提供与前一个关键帧相同的信息增加量。

因而，如图4所示，首先测定输入视频序列401中的累积运动活性(410)。所谓累积强度意味着，(归一化了的)累积在视频开始时为0.0，在终了时为1.0，在某一中间位置上为0.5。按照运动活性把视频在^「中央_」分割开来，在视频的第1部分的运动级非常高的情况下，该第1部分具有比第2部分少得多的帧。与此相反，则成为活性的大部分位于视频后一半的情况。例如，当活性之半出现在1小时视频的最后6分钟(10％)之内时，在完整的视频为每秒钟30帧、1小时有108000个帧的情况下，累积运动为(0.5)的运动^「中央_」位于帧108000～10800。换言之，运动活性在本质上是视频帧上的时间扭曲。为了累积运动，在活性级高的期间内所需要的帧数，比在活性级低的期间内少。此外，实际上，在视频的不运动的部分(例如，^「静止_」镜头)中，完全没有运动的累积。

其次，把视频序列分割成n-1段(420)。本发明分割开来的各段具有大致等量的累积运动活性强度。再有，第1段421的帧数多，但累积运动的量与帧数少的第2段相同。其次，选择各段的第1帧及序列的最后一帧，而得到n个关键段。其次，把段按时间序顺连结起来而形成归纳。例如，为了得到3个关键帧409，把序列分割成每一个具有相当于整个序列的累积运动活性之半的累积运动活性的2个段421、422。其次，选择第1及第2段的第1帧及序列的最后一帧。

在只选择单一关键帧的情况下，在累积运动活性刻度中间位置上的关键帧恐怕是最好的。因而，用于得到n个关键帧的最佳方法是，首先，把视频分割成累积运动活性相等的n个段，其次，对于各段选择在累积运动活性刻度中间位置上的帧作为关键帧。于是，最终的关键帧的集由上述那样得到的每一段的关键帧构成。显然，该方法起到良好的作用。图5把在选择了第1帧的情况下(上曲线)及与此不同在选择了中央帧的情况下(下曲线)得到的结果，对于非常低、低、中、及高级活性501～504加以比较。在全部情况下，在选择中央帧时可得到稍好的结果。

换言之，基于运动活性的强度进行视频的非均匀次取样。例如，在视频中的全作用出现在视频的前一半的情况下，保证从全部视频的前一半引出关键帧。这也可以作为活性基础的时间轴扭曲、及其之后的在扭曲了的时间轴上的均匀取样来解释。希望注意，这由于完全不需要彩色的比较，故是非常高速的过程。

虽然该方法是最佳的，但是存在着没有渐进性这样的缺点。例如，最佳的单一关键帧是，其累积运动活性是整个序列的累积运动活性之半的帧。然而，所选择的关键帧的对由：累积运动活性为整个段的累积运动活性之1/4的帧、及为其3/4的帧构成。因而，在最佳关键帧的对中，没有与最佳单一关键帧共同的帧。这意味着，不能把对于较低的数(例如n-1)的关键得到的结果充分利用到每个数n的关键帧上。因而，如下述那样来使用上述最佳技巧的逐步逼进。

从第1帧及最后一帧开始，把视频序列的每一半反复分成累积运动活性相等的部分，得到1、3、5、9这样个数的最佳关键帧。也可以使用任意其它数(例如3)的幂。然而，在数字计算机中，2的幂容易计算。

如果使用上述方法则希望注意，也可以选择任意数的关键帧，直到选择阈值数的帧为止。阈值可以这样来确定：通过手动，或者利用对话型应用程序，或者通过对于表A中描述了的MPEG-7强度的每一类、设置关键帧数的固定表。例如，对于大多数新闻视频，用5个关键帧就足够了。在中、高及非常高的类别的视频中，可需要比5帧多的关键帧。

在上述方法中，在具有存在着尺寸及活性大的运动的区域的段中把运动矢量的平均大小作为运动活性的尺度来使用，在具有大的全局运动的段中把最短的运动矢量的大小作为运动活性的尺度来使用，但是希望理解：也可以使用其它统计学上的运动因素(偏差、中央值、分散、歪扭及陡度等)。如表A所示，在MPEG-7的运动活性描述符中，把运动矢量大小的标准偏差之量化了的标准偏差作为运动活性强度的尺度来使用。也可以把未量化的运动矢量大小的标准偏差作为运动活性的尺度来使用。

产业上利用的可能性

最后，希望注意，本发明只在压缩领域中使用计算。因而，即使把任意现有技术的彩色基础的关键帧抽出应用于压缩区域中，本发明的方法也比现有那些方法高速得多。因而，为了帮助现有的彩色基础的抽出可以这样来使用本发明的方法，按照MPEG-7把本发明用于低的作用阈值以下的视频之大部分中，只把彩色基础的技巧用于作用较高的段中。此外，也可以完全不依赖于彩色基础的计算，在整个视频中只使用本发明的方法。这恐怕是在计算上最快的选择了。

通过较为理想的实施形态之例描述了本发明，但是可以理解，在本发明的精神及范围内可进行各种其它应用及变更。因而，同时记述权利要求范围之目的是，色罗落入本发明精神及范围内的全部变形及变更。

Claims

1.一种归纳压缩视频的方法，其特征在于包含：

测定上述压缩视频中的累积运动活性强度；

按照上述累积运动活性强度，从上述压缩视频中选择关键帧；

基于上述累积运动活性强度利用2分割把上述压缩视频分割成多个段，第1分割生成包含整个视频的1个段，第2分割生成每一个具有大致等量的累积运动活性强度的2个段，其后的各分割基于上述累积运动活性强度把以前分割的段2等分、直到生成规定数的段为止；

按照上述累积运动活性强度，从各段中选择中央的帧作为上述关键帧之一；以及

以时间顺序把上述关键帧连结起来，形成上述压缩视频的归纳。

2.根据权利要求1中所述的方法，其特征在于，上述段的数目是比上述归纳中所希望的关键帧的数目小的数。

3.根据权利要求1中所述的方法，其特征在于，从运动矢量的平均大小测定上述运动活性强度。

4.根据权利要求1中所述的方法，其特征在于，从运动矢量的中央的大小测定上述运动活性强度。

5.根据权利要求1中所述的方法，其特征在于，从运动矢量大小的标准偏差测定上述运动活性强度。

6.一种生成压缩视频的渐进性的归纳的方法，其特征在于，

包含：以渐进的顺序从上述压缩视频中选择关键帧，直到到达终了条件为止；以及

以时间顺序把上述关键帧连结起来，形成上述压缩视频的上述渐进性的归纳，

上述渐进性的顺序包含：

选择上述压缩视频的第1帧作为第1关键帧；

选择上述压缩视频的最后一帧作为第2帧；

测定上述压缩视频中的累积运动活性强度，按照该累积运动活性强度从上述压缩视频中选择中央的帧作为第3关键帧；

按照上述运动活性强度把上述压缩视频分割为2个相等的段，按照各段的累积运动活性强度选择中央的帧作为第4关键帧及第5关键帧；以及

按照上述运动活性强度把以前分割了的各段反复分割成2个小的、大小相等的段，按照上述累积运动活性强度从大到小的各段中选择又一个中央的帧作为其次的2个关键帧、一直到到达上述终了条件为止。