CN100393132C - 采用运动描述符归纳视频的方法 - Google Patents

采用运动描述符归纳视频的方法 Download PDF

Info

Publication number
CN100393132C
CN100393132C CNB028022149A CN02802214A CN100393132C CN 100393132 C CN100393132 C CN 100393132C CN B028022149 A CNB028022149 A CN B028022149A CN 02802214 A CN02802214 A CN 02802214A CN 100393132 C CN100393132 C CN 100393132C
Authority
CN
China
Prior art keywords
mentioned
frame
video
activity intensity
compressed video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB028022149A
Other languages
English (en)
Other versions
CN1465191A (zh
Inventor
A·迪瓦卡兰
R·拉德哈里什南
K·A·佩克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1465191A publication Critical patent/CN1465191A/zh
Application granted granted Critical
Publication of CN100393132C publication Critical patent/CN100393132C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Abstract

本发明的方法测定压缩视频中的运动活性的强度。使用运动活性的强度把视频分割成累积运动活性相等的段。其次,从各段选择关键帧。以时间顺序把选择了的关键帧连结起来,形成视频的归纳。

Description

采用运动描述符归纳视频的方法
技术领域
本发明一般地涉及视频,特别涉及压缩视频的归纳。
背景技术
希望自动地生成视频的归纳,特别是生成压缩数字视频的归纳。
压缩视频格式
MPEG(活动图像专家组)采用了作为数字信号来压缩视频的标准的规格。MPEG规格通过仅偶然作成有关图像的整帧信息,实现了高的数据压缩率。完整的图像帧、即帧内编码帧多称为I帧固定帧,它包含对一切其它帧独立的整帧信息。图像差帧、即帧间编码帧多称为B帧P帧、或预测帧,在I帧间将其编码、它只反映与基准帧的图像差、即余额。
通常,把视频序列的各帧分割成更小的图像元素、即像素数据的块。对各块进行离散余弦变换(DCT)操作,把统计上依赖的空域像素变换成独立频域DCT系数。对于称为宏块的、每一个为8×8或16×16像素的块进行DCT操作,提供编码信号。
由于DCT系数通常是能量集中的,故在1个宏块中只须少量的系数就包含了图像信息的主要部分。例如,当宏块包含目标的边缘边界时,该块的能量在系数的矩阵范围内包含较大的DC系数及随机分布的AC系数。
另一方面,非边缘宏块通常以同样大的DC系数、及实质上比与该块有关联的其它系数大的少量的相邻AC系数为特征。通常,在对DCT系数进行了自适应量化后,对其进行游长编码及可变长编码。因此,发送数据的宏块通常包含不到8×8矩阵的码字。
帧内编码帧数据、即编码P或B帧数据的宏块包含只表示预测像素与宏块中的实际像素之间之差的DCT系数。帧内编码帧数据及帧间编码帧数据的宏块还包含:采用了的量化级、宏块的地址指示符或位置的指示符、及宏块的类型等信息。后者的信息多称为标题内务操作信息。
从上一个I帧或P帧来预测各P帧。从夹住各B帧的I帧或P帧来预测该B帧。预测编码过程包含生成表示I帧的哪个宏块的位移量与当前正在编码的B帧或P帧的宏块匹配得最密切的、常常称为运动矢量的位移矢量。对于每一个像素,从正在编码的P帧或B帧的块中减掉I帧中匹配块的像素数据,就出现了余额。变换了的余额及矢量,形成P帧或B帧编码数据的一部分。
视频分析
可以把视频分析作为打算理解视频内容的视频处理来定义。视频的理解可以是从低级的语法理解(检测视频中的段边界等)、到高级的语义理解(检测视频的种类等)各种各样的。低级的理解通过分析彩色、运动、结构、形状等低级的特征而生成内容描述来进行。其次,可采用该内容描述来索引视频。
视频归纳
视频归纳作成传送视频语义的视频紧凑的表示。在紧凑的表示中可包含:关键帧关键段、或关键帧与关键段的组合。作为一例,网球比赛的视频归纳可包含两帧,即:取入了双方选手的第1帧、及取入了拿着奖品的获胜者的第2帧。在更详细且更长的归纳中,还可包含取入了比赛中为得胜所需的最后一分的全部帧。确实能够以手动来生成这样的归纳,但对此要花时间及费用。因而,希望自动。
自动视频归纳方法是周知的。希望参照S.Pfeifer等着自动地概括数字电影(可视通信图像显示杂志,Vo l.7,no.4,pp 345~353,1996年12月)及Hanjal;c等著一种基于无人管理组的用于自动视频概括的综合方案-有效性分析(IEEE有关视频技术的电路及系统议事录Vo l.9,No.8,1999年12月)。
现有的视频归纳方法几乎专门集中于以彩色为基础的归纳。Pfeiffer等人在视频归纳的作成中,把运动与其它特征组合起来使用。但是,Pfeiffer等人的方法只不过是简单地采用了忽略了的能够考虑组合起来的特征间的相关性之加权组合而已。有时,也通过归纳方法,采用运动特征来抽出关键帧。
如图1所示,现有技术的视频归纳方法几乎都强调基于彩色特征的分组。这是因为在压缩区域内容易抽出彩色特征,且具有抗噪声性。典型的方法是,以视频序列A101作为输入,应用以彩色为基础的归纳处理100,作成视频归纳S(A)102。视频归纳包含:整个序列的归纳、或者序列中感兴趣的段即关键帧的集之中的某一种。
方法100通常包含以下步骤。第1,按照彩色特征把视频帧分组。第2,把组作成容易访问的分层数据结构。第3,从各组抽出关键帧或关键序列,生成归纳。
运动活性描述符
视频还可以直观地作为具有各种级的活性、即作用强度来理解。较高级的活性之例,是在运动视频中的得分机会。另一方面,新闻视频具有较低级的活性。最近提出的MPEG-7图像规格提供与视频中的运动活性有关联的描述符。
作为运动活性的一个尺度,有运动矢量之大小的平均及分散。希望参照Peker等著运动活性强度的自动测量(SPIE有关媒体数据库的存储及检索会议论文集,2001年1月)。然而,根据用途可有很多种变形。
关键帧的集的逼真度
找出单一的关键帧的最简单方法是从序列中选择任意的帧,但在视频的内容具有比用单一帧能够传送的多的信息的情况下,以单一关键帧为基础的方法便不起作用了。可以把视频段的第1帧指配为第1关键帧,其次,在特征空间中把距第1帧最远的帧指配为第2关键帧。希望参照M.M.Yeung及B.Liu著视频镜头的有效匹配及分组(IEEEICIP论文集,华盛顿D.C.,1995年)。H.S.Chang、S.Sull及S.U.Lee著用于基于内容检索的有效视频索引方案(I EEE有关视频技术的电路及系统议事录,Vo l.9,No.8,1999年)记述了其它多数关键帧生成技巧及基于关键帧集的逼真度尺度的关键帧生成技巧。把逼真度尺度作为在视频序列中的关键帧集S与帧集R之间的半豪斯道夫(Semi-Hausdorff)距离(dhs)来定义。半豪斯道夫距离的实际定义如下。
假定集Si在i=1,...,m的情况下包含m个帧,帧集Ri在i=1,...,n的情况下包含n个帧。假定2个帧Si及Ri间的距离为d(Si,Ri)。把各帧Ri的di如下定义。
如果di=min(d(Sk,Ri)),K=0..m,
则S与R之间的半豪斯道夫距离由下式给出,
dsh=S,R)=ma×(di),i=1..n
换言之,首先,对于全部的i,测定在帧Ri与在帧集S中将其表示得最好的帧之间的距离di。其次,求出按照上述计算出来的距离di的最大值。该距离表示,关键帧集S何等良好地表示R。表示得越良好,S与R之间的半豪斯道夫距离就越小。例如,在明显的情况下,在集S及R相同时,半豪斯道夫距离为零。另一方面,如果距离大则表明,R帧中至少有1帧由关键帧集S的任一帧都不能良好地将其表示出来。
几乎现有不同点的尺度都满足在上述定义中采用的距离空间中的距离方面所需要的特性。也可以采用M.J.Swain及D.H.Ballard著彩色索引(计算机图像杂志,Vo l.7,no.1,pp.11~32,1991年)记述的、如下定义的彩色直方图交叉距离。
在M×N尺寸的2个图像fi及fj的k箱彩色直方图为Hi及Hj的情况下,该2个图像间的不同点由下式给出。
d ( f i , f j ) = 1 - 1 MxN Σ k = 1 K min { H i ( k ) , H j ( k ) }
希望注意,不同点在范围[0,1]内。
发明内容
本发明的目的是提供单独使用运动特征、特别是运动活性特征,或将其与彩色及结构的特征等其它低级的特征组合起来使用,进行自动视频归纳的方法。
本发明以下述的考虑为基础。视频的运动活性是表示视频归纳的相对难度的很好的标准。运动量越大,该视频的归纳就越困难。视频归纳可通过所包含的帧数,例如关键帧数、或关键段的帧数等进行定量描述。
视频运动活性的相对强度与彩色特征的变化密切相关。换言之,运动活性的强度大时,彩色特征的变化也大的可能性大。彩色特征的变化大时,在以彩色特征为基础的归纳中包含较多的帧,由此彩色特征的变化小时,归纳中包含较少的帧。换句话说,这是考虑到由从视频选择的关键帧构成的视觉归纳的逼真度的情况。如果通过保持关键帧数一定使归纳的长度一定,则镜头的运动活性的强度越大、其归纳的逼真度就越低。
例如,在讲话的头像视频中,通常运动活性的级较低,此外,彩色变化同样也极小。在归纳以关键帧为基础时,为了视频的归纳用1个关键帧就足够了。在使用关键段时,为了视觉的视频归纳用1秒钟的帧序列就足够了。另一方面,在运动比赛项目中的得分机会里运动活性强度及彩色变化非常大,因而为了归纳需要几个关键帧、即几秒钟。
更详细地说,本发明通过首先测定压缩视频中的运动活性的强度,来提供进行视频归纳的方法。其次,使用该运动活性的强度,不进行长时间的彩色基础的计算、从视频中选择关键帧。
本发明还在归纳容易的段中使用运动基础的方法、在归纳困难的段中使用彩色基础的方法,由此提供把运动基础的关键帧抽出与彩色基础的关键帧抽出组合起来的方法。归纳容易的段通过由1个或多个关键帧构成的、迅速抽出的归纳来表示,另一方面,彩色基础的归纳处理从归纳困难的各段抽出帧序列。以时间顺序把单一帧及抽出的帧序列连结起来,形成视频的归纳。
更详细地说,本发明的方法测定压缩视频中的运动活性的强度。为了把视频分割成累积运动活性相等的段,而使用运动活性的强度。其次,从各段选择关键帧。以时间顺序把选择了的关键帧连结起来,形成视频的归纳。在一实施形态中,选择各段的第1帧及段的最后帧,形成归纳。在另一实施形态中,与运动活性有关、从各段选择中央的帧,分割为基于累积运动活性强度的2分割。
附图说明
图1为现有技术的视频归纳方法的框图。
图2为表示MPEG测试视频的,运动活性与对于该活性具有不能允许的逼真度的镜头之比例的曲线图。
图3为表示在规定阈值以下的镜头持续时间之比例与对于该比例具有不能允许的逼真度的镜头之比例的曲线图。
图4为示出本发明的视频归纳方法的框图。
图5为比较按照本发明选择了第1帧的情况与选择了中央帧的情况之曲线图。
图6为视频2分割的框图。
具体实施方式
本发明采用运动特征、还可选地采用彩色特征,来归纳压缩视频。因而,本发明的归纳方法最初从压缩视频测定这些特征。
特征抽出
彩色特征
可以采用已知的技巧正确地抽出I帧的DC系数。在P帧及B帧的情况下,可以采用完全不进行解压的运动矢量来近似DC系数。例如,希望参照Yeo等著有关从MPEG视频抽出DC序列(IEEE ICIPVol.2,1995年)。为了抽出彩色特征,可以把DC图像的YUV值变换到另一彩色空间中。
在最一般使用的技巧中,采用彩色直方图。彩色直方图已广泛用于图像及视频的索引及检索中。希望参照Smith等著利用彩色和结构的自动图像检索(IBEE有关图形分析及机械智能议事录,1996年)。通常,在3信道RGB彩色空间中,各信道有4个箱,在彩色直方图中总计需要64(4×4×4)个箱。
运动特征
可以从P帧及B帧的运动矢量抽出及测定运动信息。由于运动矢量通常是对实际光学流的粗糙的、散布的近似,故在此只定性地使用运动矢量。记述了很多抽出运动矢量的不同方法。希望参照:Tan等著一种用于摄像机运动参数估计的新方法(IEEE有关图像处理的国际会议论文集,Vol.2,pp.722~726,1995年);Tan等著带有应用于视频的注释的,从压缩视频迅速估计摄像机运动(IEEE有关视频技术的电路及系统议事录,1999年);Kobla等著用于识别运动视频的,慢动重放序列的检测(IEEE有关多媒体信号处理的专题讨论会论文集,1999年);Kobla等著采用Video Trails的特技编辑检测:与现有技术的比较(SPIE有关图像及视频数据库的存储及检索等VII次会议论文集,1999);Kobla等著在MPEG视频中采用DCT及运动矢量信息的压缩域视频索引技术(SPIE有关图像及视频数据库的存储及检索第V次会议论文集,SPIE Vol.3022,pp.200~211,1997年);以及Meng等著CVEPS-压缩视频编辑及分析系统(ACM多媒体96年会议论文集,1996)。
如上所述,几乎所有现有技术的归纳方法都以彩色特征的分组为基础,得到彩色描述符。彩色描述符在定义上具有较高的抗噪声性,而不包含视频的运动特征。但是,由于运动描述符具有抗噪声性较低的倾向,故并未广泛用于视频的归纳中。
Divakaran等人申请的美国专利申请第09/406,444号视频序列的活性描述符(2000年8月9日提出,通过参照在本说明书中引用)记述了,使用从压缩视频中的运动矢量导出的运动特征、确定视频中的运动活性及视频中的运动活性的空间分布之方法。如上述专利申请中所记述,这样的描述符关于视频阅览用途是有用的。在本说明书中,把这样的运动描述符应用于新的视频归纳中。
在本说明书中,认为运动是指示视频场景发生了何等变化的有力的指示器。因而,要把运动作为可归纳性的尺度来使用。作为例子,在把汽车高速追赶与例如新闻广播员的镜头进行比较的情况下,恐怕前者会包含更多的变化吧。因而,为了在视觉上归纳汽车高速追赶需要比新闻广播员的镜头更多的资源。
不方便的情况在于,没有简单的、客观的尺度来测试:运动实际上是否与场景的变化有关联。但是,由于场景的变化大多还伴有彩色特征的变化,故研究按上述定义了的彩色基础的逼真度与运动活性强度之间的关系。
假定镜头A的关键帧的集为集SA、镜头B的关键帧的集为集SB。在集SA与集SB此二者包含同数的关键帧、镜头A的运动活性强度比镜头B的运动活性强度大的情况下,集SA的逼真度比集SB的逼真度低。换言之,镜头A因其运动活性强度较大,故其可归纳性比镜头B小。
运动活性强度获得可归纳性的证明
从MPEG-1格式的MPEG-7测试集抽出标准的新闻视频节目的彩色特征及运动特征。最初,把节目区分成多个镜头。其次,对于各镜头,通过计算各P帧的运动矢量大小的标准偏差从全部P帧抽出运动活性特征,同时,从全部I帧抽出64箱RGB直方图。这些都在压缩区域中。
其次,把P帧组中的以前的P帧的运动活性描述符平均,由此对各I帧确定运动活性描述符。因而,直方图及运动活性值全部与I帧有关联。全部镜头的运动活性通过把按上述计算出来的每一个运动活性值平均而得到。以下,把镜头中的I帧的集作为按上述定义了那样的帧集R来处理。运动活性能够以运动矢量的平均大小为基础。
简单的归纳方法如上述那样,采用镜头的第1帧来生成该镜头的单一关键帧。因而,把第1I帧作为关键帧使用,如上述那样来判定其逼真度。通过分析讲话的头像序列之例,根据经验判断为即使具有逼真度高到0.2的关键帧其质量也是足够的。因而,可以把镜头分成两类,即关键帧具有0.2以下dsh(关键帧具有可允许的逼真度)的第一类;以及关键帧具有比0.2大的dsh(关键帧具有不允许的逼真度)的第2类。
如表A所示那样,还可以把镜头分成从活性非常小到非常大的5类。
表1
活性值   σ的范围(运动矢量大小的标准偏差)
  1(非常低)   0≤σ<3.9
  2(低)   3.9≤σ<10.7
  3(中)   10.7≤σ<17.1
  4(高)   17.1≤σ<32
  5(非常高)   32≤σ
其次,如图2所示,关于标准新闻节目的视频(西班牙语新闻),在这些类202的每一类中把具有比0.2大的dsh的镜头的持续时间作为比例201来判定。随着从运动活性非常小向非常大增加,dsh之值始终在增加。换言之,随着镜头运动活性的增加,其可归纳性的容易程度在减小。
进而,单一关键帧的逼真度对于运动活性强度非常小的类的镜头之90%是可允许的。在取自其它新闻节目(来自MPEG7测试集的葡萄牙语新闻节目等)及NBC的新闻节目的新闻节目中,可观察到相同的结构。但是,实验的证明表示:在新闻节目中,镜头的运动活性强度是其可归纳性的直接标准。
由于新闻节目的内容是各种各样的,故想使其结果适合于宽范围的内容。由于在运动活性中使用MPEG7的阈值,故内容并不左右其结果。
图3表示:具有阈值T以下的运动活性强度的镜头中的、具有不允许的逼真度的镜头持续时间之比例302;以及对于302具有T以下的运动活性的节目中的镜头持续时间之全比例301。该图表示,关于西班牙语的新闻节目可以把镜头的第1帧作为对于镜头的30%具有可允许逼真度的关键帧来使用。对于其它新闻节目也得到同样的结果。因而,在活性非常小的镜头中使用MPEG-7的运动活性阈值,可以发现利用第1帧能否良好地归纳镜头。
归纳的方法
上述结果表示,每当运动活性增加时,信息就增加。因而,能够以连续的关键帧间的累积运动活性之差是均匀的方式来取样视频的关键帧。于是,各关键帧提供与前一个关键帧相同的信息增加量。
因而,如图4所示,首先测定输入视频序列401中的累积运动活性(410)。所谓累积强度意味着,(归一化了的)累积在视频开始时为0.0,在终了时为1.0,在某一中间位置上为0.5。按照运动活性把视频在中央分割开来,在视频的第1部分的运动级非常高的情况下,该第1部分具有比第2部分少得多的帧。与此相反,则成为活性的大部分位于视频后一半的情况。例如,当活性之半出现在1小时视频的最后6分钟(10%)之内时,在完整的视频为每秒钟30帧、1小时有108000个帧的情况下,累积运动为(0.5)的运动中央位于帧108000~10800。换言之,运动活性在本质上是视频帧上的时间扭曲。为了累积运动,在活性级高的期间内所需要的帧数,比在活性级低的期间内少。此外,实际上,在视频的不运动的部分(例如,静止镜头)中,完全没有运动的累积。
其次,把视频序列分割成n-1段(420)。本发明分割开来的各段具有大致等量的累积运动活性强度。再有,第1段421的帧数多,但累积运动的量与帧数少的第2段相同。其次,选择各段的第1帧及序列的最后一帧,而得到n个关键段。其次,把段按时间序顺连结起来而形成归纳。例如,为了得到3个关键帧409,把序列分割成每一个具有相当于整个序列的累积运动活性之半的累积运动活性的2个段421、422。其次,选择第1及第2段的第1帧及序列的最后一帧。
在只选择单一关键帧的情况下,在累积运动活性刻度中间位置上的关键帧恐怕是最好的。因而,用于得到n个关键帧的最佳方法是,首先,把视频分割成累积运动活性相等的n个段,其次,对于各段选择在累积运动活性刻度中间位置上的帧作为关键帧。于是,最终的关键帧的集由上述那样得到的每一段的关键帧构成。显然,该方法起到良好的作用。图5把在选择了第1帧的情况下(上曲线)及与此不同在选择了中央帧的情况下(下曲线)得到的结果,对于非常低、低、中、及高级活性501~504加以比较。在全部情况下,在选择中央帧时可得到稍好的结果。
换言之,基于运动活性的强度进行视频的非均匀次取样。例如,在视频中的全作用出现在视频的前一半的情况下,保证从全部视频的前一半引出关键帧。这也可以作为活性基础的时间轴扭曲、及其之后的在扭曲了的时间轴上的均匀取样来解释。希望注意,这由于完全不需要彩色的比较,故是非常高速的过程。
虽然该方法是最佳的,但是存在着没有渐进性这样的缺点。例如,最佳的单一关键帧是,其累积运动活性是整个序列的累积运动活性之半的帧。然而,所选择的关键帧的对由:累积运动活性为整个段的累积运动活性之1/4的帧、及为其3/4的帧构成。因而,在最佳关键帧的对中,没有与最佳单一关键帧共同的帧。这意味着,不能把对于较低的数(例如n-1)的关键得到的结果充分利用到每个数n的关键帧上。因而,如下述那样来使用上述最佳技巧的逐步逼进。
从第1帧及最后一帧开始,把视频序列的每一半反复分成累积运动活性相等的部分,得到1、3、5、9这样个数的最佳关键帧。也可以使用任意其它数(例如3)的幂。然而,在数字计算机中,2的幂容易计算。
如果使用上述方法则希望注意,也可以选择任意数的关键帧,直到选择阈值数的帧为止。阈值可以这样来确定:通过手动,或者利用对话型应用程序,或者通过对于表A中描述了的MPEG-7强度的每一类、设置关键帧数的固定表。例如,对于大多数新闻视频,用5个关键帧就足够了。在中、高及非常高的类别的视频中,可需要比5帧多的关键帧。
在上述方法中,在具有存在着尺寸及活性大的运动的区域的段中把运动矢量的平均大小作为运动活性的尺度来使用,在具有大的全局运动的段中把最短的运动矢量的大小作为运动活性的尺度来使用,但是希望理解:也可以使用其它统计学上的运动因素(偏差、中央值、分散、歪扭及陡度等)。如表A所示,在MPEG-7的运动活性描述符中,把运动矢量大小的标准偏差之量化了的标准偏差作为运动活性强度的尺度来使用。也可以把未量化的运动矢量大小的标准偏差作为运动活性的尺度来使用。
产业上利用的可能性
最后,希望注意,本发明只在压缩领域中使用计算。因而,即使把任意现有技术的彩色基础的关键帧抽出应用于压缩区域中,本发明的方法也比现有那些方法高速得多。因而,为了帮助现有的彩色基础的抽出可以这样来使用本发明的方法,按照MPEG-7把本发明用于低的作用阈值以下的视频之大部分中,只把彩色基础的技巧用于作用较高的段中。此外,也可以完全不依赖于彩色基础的计算,在整个视频中只使用本发明的方法。这恐怕是在计算上最快的选择了。
通过较为理想的实施形态之例描述了本发明,但是可以理解,在本发明的精神及范围内可进行各种其它应用及变更。因而,同时记述权利要求范围之目的是,色罗落入本发明精神及范围内的全部变形及变更。

Claims (6)

1.一种归纳压缩视频的方法,其特征在于包含:
测定上述压缩视频中的累积运动活性强度;
按照上述累积运动活性强度,从上述压缩视频中选择关键帧;
基于上述累积运动活性强度利用2分割把上述压缩视频分割成多个段,第1分割生成包含整个视频的1个段,第2分割生成每一个具有大致等量的累积运动活性强度的2个段,其后的各分割基于上述累积运动活性强度把以前分割的段2等分、直到生成规定数的段为止;
按照上述累积运动活性强度,从各段中选择中央的帧作为上述关键帧之一;以及
以时间顺序把上述关键帧连结起来,形成上述压缩视频的归纳。
2.根据权利要求1中所述的方法,其特征在于,上述段的数目是比上述归纳中所希望的关键帧的数目小的数。
3.根据权利要求1中所述的方法,其特征在于,从运动矢量的平均大小测定上述运动活性强度。
4.根据权利要求1中所述的方法,其特征在于,从运动矢量的中央的大小测定上述运动活性强度。
5.根据权利要求1中所述的方法,其特征在于,从运动矢量大小的标准偏差测定上述运动活性强度。
6.一种生成压缩视频的渐进性的归纳的方法,其特征在于,
包含:以渐进的顺序从上述压缩视频中选择关键帧,直到到达终了条件为止;以及
以时间顺序把上述关键帧连结起来,形成上述压缩视频的上述渐进性的归纳,
上述渐进性的顺序包含:
选择上述压缩视频的第1帧作为第1关键帧;
选择上述压缩视频的最后一帧作为第2帧;
测定上述压缩视频中的累积运动活性强度,按照该累积运动活性强度从上述压缩视频中选择中央的帧作为第3关键帧;
按照上述运动活性强度把上述压缩视频分割为2个相等的段,按照各段的累积运动活性强度选择中央的帧作为第4关键帧及第5关键帧;以及
按照上述运动活性强度把以前分割了的各段反复分割成2个小的、大小相等的段,按照上述累积运动活性强度从大到小的各段中选择又一个中央的帧作为其次的2个关键帧、一直到到达上述终了条件为止。
CNB028022149A 2001-04-27 2002-04-22 采用运动描述符归纳视频的方法 Expired - Fee Related CN100393132C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/845,009 2001-04-27
US09/845,009 US7110458B2 (en) 2001-04-27 2001-04-27 Method for summarizing a video using motion descriptors

Publications (2)

Publication Number Publication Date
CN1465191A CN1465191A (zh) 2003-12-31
CN100393132C true CN100393132C (zh) 2008-06-04

Family

ID=25294185

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028022149A Expired - Fee Related CN100393132C (zh) 2001-04-27 2002-04-22 采用运动描述符归纳视频的方法

Country Status (5)

Country Link
US (1) US7110458B2 (zh)
EP (1) EP1382207B1 (zh)
JP (1) JP4267327B2 (zh)
CN (1) CN100393132C (zh)
WO (1) WO2002089490A1 (zh)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7181691B2 (en) * 1999-09-16 2007-02-20 Sharp Laboratories Of America, Inc. Audiovisual information management system with presentation service
JP3810268B2 (ja) * 2000-04-07 2006-08-16 シャープ株式会社 オーディオビジュアルシステム
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US8020183B2 (en) * 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US20030061610A1 (en) * 2001-03-27 2003-03-27 Errico James H. Audiovisual management system
US7904814B2 (en) * 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US20030121040A1 (en) * 2001-07-02 2003-06-26 Ferman A. Mufit Audiovisual management system
US20030206710A1 (en) * 2001-09-14 2003-11-06 Ferman Ahmet Mufit Audiovisual management system
US7474698B2 (en) * 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US6847680B2 (en) * 2001-12-17 2005-01-25 Mitsubishi Electric Research Laboratories, Inc. Method for detecting talking heads in a compressed video
US8214741B2 (en) * 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
US7657907B2 (en) * 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US20040197088A1 (en) * 2003-03-31 2004-10-07 Ferman Ahmet Mufit System for presenting audio-video content
KR20040087150A (ko) * 2003-04-04 2004-10-13 삼성전자주식회사 디지털 데이터 복제 장치 및 그 방법
EP1538536A1 (en) * 2003-12-05 2005-06-08 Sony International (Europe) GmbH Visualization and control techniques for multimedia digital content
WO2005074296A1 (en) * 2004-01-05 2005-08-11 Koninklijke Philips Electronics N.V. Coding method and corresponding coded signal
US8949899B2 (en) * 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
US7594245B2 (en) * 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US7646924B2 (en) * 2004-08-09 2010-01-12 David Leigh Donoho Method and apparatus for compressed sensing
US8089563B2 (en) * 2005-06-17 2012-01-03 Fuji Xerox Co., Ltd. Method and system for analyzing fixed-camera video via the selection, visualization, and interaction with storyboard keyframes
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
KR101420885B1 (ko) 2005-11-15 2014-07-17 이슘 리서치 디벨롭먼트 컴퍼니 오브 더 히브루 유니버시티 오브 예루살렘, 엘티디. 비디오 시놉시스 생성 방법 및 시스템
US8689253B2 (en) * 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
KR100850791B1 (ko) * 2006-09-20 2008-08-06 삼성전자주식회사 방송 프로그램 요약 생성 시스템 및 그 방법
US8000533B2 (en) * 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
EP2119224A1 (en) 2007-02-01 2009-11-18 Yissum Research Development Company, of The Hebrew University of Jerusalem Method and system for video indexing and video synopsis
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
CN100594713C (zh) * 2008-04-21 2010-03-17 中国科学院计算技术研究所 一种产生视频大纲的方法和系统
US20110110649A1 (en) * 2008-06-19 2011-05-12 Thomson Licensing Adaptive video key frame selection
BRPI0921986A2 (pt) * 2008-11-25 2018-06-05 Thomson Licensing métodos e aparelho para filtralçao por eliminação de artefatos à base de matrizes esparsas para codificação e decodificação de vídeo
GB0901263D0 (en) * 2009-01-26 2009-03-11 Mitsubishi Elec R&D Ct Europe Detection of similar video segments
JP4999015B2 (ja) * 2009-08-27 2012-08-15 株式会社Kddi研究所 動画像データの分類装置
US8599316B2 (en) * 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
US8619150B2 (en) * 2010-05-25 2013-12-31 Intellectual Ventures Fund 83 Llc Ranking key video frames using camera fixation
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US8467610B2 (en) 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination
US8467611B2 (en) 2010-12-10 2013-06-18 Eastman Kodak Company Video key-frame extraction using bi-level sparsity
US20120148149A1 (en) 2010-12-10 2012-06-14 Mrityunjay Kumar Video key frame extraction using sparse representation
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
JP6257337B2 (ja) * 2014-01-14 2018-01-10 日本放送協会 画像選択装置
US20150208072A1 (en) * 2014-01-22 2015-07-23 Nvidia Corporation Adaptive video compression based on motion
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
US9584817B2 (en) 2014-03-31 2017-02-28 Sony Corporation Video transmission system with color prediction and method of operation thereof
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
KR101650153B1 (ko) * 2015-03-19 2016-08-23 네이버 주식회사 만화 데이터 편집 방법 및 만화 데이터 편집 장치
KR102527811B1 (ko) 2015-12-22 2023-05-03 삼성전자주식회사 타임랩스 영상을 생성하는 장치 및 방법
CN108243339B (zh) * 2016-12-27 2021-02-26 浙江大学 图像编解码方法及装置
US10638127B2 (en) * 2017-05-15 2020-04-28 Qualcomm Incorporated Adaptive anchor frame and quantization parameter decision in video coding
CN108966042B (zh) * 2018-09-10 2020-12-18 合肥工业大学 一种基于最短路径的视频摘要生成方法及装置
US10855988B2 (en) 2018-12-19 2020-12-01 Qualcomm Incorporated Adaptive prediction structures
CN109726765A (zh) * 2019-01-02 2019-05-07 京东方科技集团股份有限公司 一种视频分类问题的样本提取方法及装置
US11789949B2 (en) * 2020-06-25 2023-10-17 Command Alkon Incorporated Method and system of performing an operation on a single-table, multi-tenant database and partition key format therefor
US20230169794A1 (en) * 2021-11-30 2023-06-01 Irina Kezele Method, device, and medium for adaptive inference in compressed video domain

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1026635A2 (en) * 1999-02-01 2000-08-09 Hyundai Electronics Industries Co., Ltd. Motion descriptor generating apparatus by using accumulated motion histogram and a method therefore

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191411A (ja) * 1994-11-08 1996-07-23 Matsushita Electric Ind Co Ltd シーン判別方法および代表画像記録・表示装置
EP0712097A2 (en) * 1994-11-10 1996-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for manipulating motion units for computer articulated figure animation
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
JP4000623B2 (ja) * 1997-05-26 2007-10-31 ソニー株式会社 映像信号記録装置及び映像信号記録方法
US6125229A (en) * 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6104441A (en) * 1998-04-29 2000-08-15 Hewlett Packard Company System for editing compressed image sequences
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US6985623B2 (en) * 2002-06-10 2006-01-10 Pts Corporation Scene change detection by segmentation analysis

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1026635A2 (en) * 1999-02-01 2000-08-09 Hyundai Electronics Industries Co., Ltd. Motion descriptor generating apparatus by using accumulated motion histogram and a method therefore

Also Published As

Publication number Publication date
JP2004520760A (ja) 2004-07-08
CN1465191A (zh) 2003-12-31
US20030007555A1 (en) 2003-01-09
JP4267327B2 (ja) 2009-05-27
EP1382207A1 (en) 2004-01-21
WO2002089490A1 (en) 2002-11-07
US7110458B2 (en) 2006-09-19
EP1382207B1 (en) 2011-09-28

Similar Documents

Publication Publication Date Title
CN100393132C (zh) 采用运动描述符归纳视频的方法
KR100869038B1 (ko) 컨텐츠 에디터, 비디오 컨텐츠 검출기, 커머셜 및 컨텐츠 검출 방법
EP1211644B1 (en) Method for describing motion activity in video
US6778708B1 (en) Compressed bit-stream segment identification and descriptor
US6956904B2 (en) Summarizing videos using motion activity descriptors correlated with audio features
EP0780776B1 (en) Apparatus for detecting a cut in a video
US6813313B2 (en) Method and system for high-level structure analysis and event detection in domain specific videos
CN100380441C (zh) 检测给定类型节目的方法和设备、无声检测器和接收器
JP4424590B2 (ja) スポーツ映像の分類装置
CN103442262B (zh) 基于电视终端视频节目的用户收视行为分析方法及系统
EP1067800A1 (en) Signal processing method and video/voice processing device
US7003154B1 (en) Adaptively processing a video based on content characteristics of frames in a video
US20030095602A1 (en) Unusual event detection using motion activity descriptors
EP0780844A2 (en) Cut browsing and editing apparatus
US7656951B2 (en) Digital video processing method and apparatus thereof
Kim et al. Statistical traffic modeling of MPEG frame size: experiments and analysis
KR100311739B1 (ko) 동영상장면변환검출방법
KR100772788B1 (ko) 동영상의 움직임 활동 특징 기술 방법 및 장치
CN101770647A (zh) 视频流数据文件的处理方法及设备
CN101594534B (zh) 一种压缩视频poi快速检测方法
JP2006293513A (ja) 先行シーンの存在を利用した特定シーンの映像の抽出方法及び装置
KR100304370B1 (ko) 억제 색 히스토그램을 이용한 객체의 대표색과 그의 부가정보추출, 색인화 및 검색 방법
JP4507351B2 (ja) 信号処理装置及び方法
JP2001045499A (ja) フレームを識別する方法及びシステム、フレームを表す記述子、並びにフレームを識別する記述子
Horita et al. Quality estimation of monochrome video using quality of each frame

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080604

Termination date: 20180422

CF01 Termination of patent right due to non-payment of annual fee