CN1685344A - 用于概括未知视频内容的方法 - Google Patents

用于概括未知视频内容的方法 Download PDF

Info

Publication number
CN1685344A
CN1685344A CNA2003801000757A CN200380100075A CN1685344A CN 1685344 A CN1685344 A CN 1685344A CN A2003801000757 A CNA2003801000757 A CN A2003801000757A CN 200380100075 A CN200380100075 A CN 200380100075A CN 1685344 A CN1685344 A CN 1685344A
Authority
CN
China
Prior art keywords
video
segmentation
cluster
comprise step
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003801000757A
Other languages
English (en)
Other versions
CN100428229C (zh
Inventor
阿贾伊·迪瓦卡瑞恩
卡迪尔·A·佩凯尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN1685344A publication Critical patent/CN1685344A/zh
Application granted granted Critical
Publication of CN100428229C publication Critical patent/CN100428229C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

一个方法概括未知视频内容。首先,选择视频的低水平特征。然后,根据低水平特征将视频划分成分段。将分段分组成不相交的聚类,其中,每个聚类包含有相似的分段。根据低水平特征对聚类加标记,并指派表征聚类的参数。发现标记中的高水平模式,并使用这些模式从视频中提取帧,从而形成未知视频内容的内容自适应摘要。

Description

用于概括未知视频内容的方法
技术领域
本发明通常涉及计算机化视频处理,具体涉及用于概括视频内容的方法和系统。
背景技术
数据挖掘是从大规模数据库和Internet中提取信息。数据挖掘已经应用于市场、金融、传感器和生物数据的分析。数据挖掘不应当与对数据进行搜索以得到已知模式的模式匹配混为一谈。
基本上,数据挖掘是发现数据中“有兴趣的”和以前未知的模式。有兴趣的模式通常是根据特定模式的重新出现频率来定义的。因为数据挖掘并不假设任何预定的模式,所以它常常被描述为无监督的学习。
数据挖掘从大量数据中推导出规则、趋势、规律和相关。数据挖掘常常基于人工智能(AI)、基于记忆的推理(MBR)、关联规则生成、决策树(DT)、神经元分析、统计分析、聚类和时间序列分析。
聚类在数据中识别出相关信息的同类组。现有技术的聚类假定数据中间的关系是已知的。聚类已经在统计学、模式识别和机器学习方面进行了广泛的研究。聚类应用的例子包含市场分析中的顾客群划分、传感数据中信号数据库的子类识别。
聚类技术在广义上能够分成划分(positional)技术和分层(hiearchical)技术。划分聚类将数据分成K个聚类,使得每个聚类中的数据都比其它不同聚类中的数据彼此更相似。K的值能够由用户进行赋值,或通过迭代确定以使聚类准则最小。
分层聚类是划分的嵌套序列。凝聚(agglomerative)分层聚类将数据置于原子聚类中,然后将这些原子聚类合并成越来越大的聚类,直至所有数据均在单一大聚类中。分裂(divisive)分层聚类则颠倒这一过程,其中从一个聚类中的所有数据开始,并将这个聚类细分成更小的聚类,例如见Jain等人的“数据聚类算法”Prentice Hall,1988,Piramuthu等人的“SOM神经网络与分层聚类方法之比较”,EuropeanJournal of Operational Research,93(2):402-417,1996年9月,Michaud的“四种聚类技术”,FGCS Journal,Special Issue on DataMining,1997,和Zait等人的“聚类方法的比较研究”,FGCS Journal,Special Issue on Data Mining,1997。
大部分数据挖掘方法减少输入数据的维数。在高维数据空间中形成的聚类不可能是有意义的聚类,因为在高维数据空间任意位置的预期平均点密度较低。减少数据维数的已知技术包含主成分分析(PCA)、因子分析、奇异值分解(SVD)和小波。主成分分析也被称为Karhunen-Loeve展开,其求解出能够说明数据特征方差的较低维表示,而因子分析则求出数据特征中的相关性。Jain等人在“特征选择算法:评估,技术报告”,计算机科学系,密执安州立大学,East Lansing,Mich.,1996中描述了用于图像分析领域的技术。
用于分析顾客购买模式的流行数据挖掘技术是对不明显关联或关联规则的识别。明显关联的例子是购买婴儿代乳品的顾客也同时会购买尿布。然而,1992年发现在傍晚时间人们会经常一起购买啤酒和尿布。这样的关联是不明显关联的典型例子。正常情况下,人们不会将尿布和啤酒联系为强相关的购买项目,因为啤酒通常不被认为是婴儿代乳品。这样的方法也被称为购物篮分析法(market-basketanalysis)。
关联定义如下。如果有具有n个项I1,...,In的集合和选择这n项中的一个子集的事务,例如数据库或操作,则在两项Ii和Ij之间的关联被定义为规则R,用于被选入该子集的两项Ii和Ij中的任何事务。规则R的条件被定义为Ii项的出现。规则R的结果被定义为Ij项的出现。规则R的支持度被定义为具有项Ii和Ij的事务的百分比。规则R的组合被定义为同一事务中Ii和Ij都出现。规则R的置信度被定义为组合的支持度与条件支持度之比。最后,规则R的改进被定义为该规则的支持度与条件Ii的支持度和结果Ij的支持度的乘积之比。
当关联的支持度和置信度都很高时,关联就是强的。例如,对于杂货店的交易,牛奶与每个其它售出的物品有很强的相关性,因此支持度很高,因为大部分交易将牛奶作为其中一项。然而,对于例如像贺卡这样的某些项,置信度很低,因为这些都不是被频繁购买的项目。
最后,关联的改进也需要很强,因为小于1的改进表明条件没有预测出比使用其本身组合的原始概率具有任何更好精度的组合。因此即使该规则的支持度和置信度都很高,但如果相应的改进不大于1,则该规则没有提供比纯随机更好的优势。下面,我们将描述视频特性的“标签聚类”的关联的使用,而不是顾客的“购买项”。
时间序列分析根据数据的时间间隔的函数将数据值关联。例如,时间序列分析已经用于发现股票价格、销售量、气候数据和EKG分析中的模式。通常假定存在产生时间序列的基础确定性过程,并且该过程不是随机的。然而真实世界现象的时间序列数据经常与不确定性数据,例如不可避免的随机噪声相互混杂。
通常,使用例如欧几里得距离或其某种变型的相似度测量对时间序列进行比较。然而,欧几里得距离测量往往不可靠。较健壮的相似度测量是基于动态时间翘曲(DTW)技术,见Berndt等人的“发现时间序列中的模式:动态规划方法”,知识发现和数据挖掘进展,AAA/MIT Press,Menlo Park,CA.pp.229-248,1966。DTW试图通过有选择性地伸展和收缩时间轴来对准时间序列数据。
直至现在,大多数数据挖掘技术已经把目光聚焦在文本数据、数值数据和线性(一维)信号上。然而,现在海量的信息容易以具有空间和时间维度的多维图像、电影和视频的形式获取。
某些现有技术对视频进行初步的内容分析。最常见的方法是使用一组标记样本训练专家系统,因此这些技术是基于监督学习的,而不是基于无监督的数据挖掘,见Xu等人的“足球视频中的分割和结构分析算法和系统”,IEEE国际多媒体会议及其博览会,东京,日本,2001年8月22-25,Xu等人在2001年4月20日提交的美国专利申请09/839,924,“域特定视频中的高级结构分析和事件检测的方法和系统”,Naphade等人的“概率多媒体对象(multijects):多媒体系统中的索引和检索新方法”,1998年第五届IEEE图像处理国际会议论文集,第三卷,pp.536-540。
现有无监督视频分析技术大部分是内容中立的(content neutral)。例如,已经通过从识别出的分段中选择关键帧对视频进行概括。该分段通过检测场景或“快照”的变化,例如,音量的减弱或突然变化来确定出来。场景所描述的是非实质性的。所选择的特定帧通常是按照某种准则能够良好地代表快照中的其它帧。其它技术利用摄像机角度或视场的变化,例如镜头的缩放。这样的内容中立技术已经取得了适度的成功,并要求补充的内容特定的技术,以得到语义上满意的性能。
然而,一般来说,与基于内容的视频挖掘相关的问题没有充分地加以理解。
例如,不清楚如果不进行相当大的修改,是否能够将著名的分类和回归树(CART)应用于视频挖掘中。CART方法将独立的变量分成小组的数据集,并将常值函数赋给该小数据集。在分类树中,常值函数是一种取有限小值集合,例如是和否、或低、中和高的函数。在回归树中,响应的平均值适于赋给连接较少(small connected)的数据集。
因此,希望提供一种用于挖掘从场景中探测的多维时间序列数据,即通过摄像机获取的帧序列-视频的系统和方法。视频挖掘对于视频中发现有兴趣的模式方面特别有用,其中例如编辑模型、新闻视频特征或体育视频模式等等的域和内容的先验模型不容易获取。
发明内容
一个方法概括未知视频内容。首先,选择视频的低水平特征。然后,根据低水平特征,将视频划分成分段。
将分段分组成不相交(disjoint)的聚类,其中,每个聚类包含有相似的分段。根据低水平特征对聚类加标记,并分配表征聚类的参数。
发现标记中的高水平模式,并使用这些模式从视频中提取帧,以形成未知视频内容的内容自适应摘要。
附图说明
图1是根据本发明的视频挖掘方法100的流程图;
图2是高尔夫视频的时间序列图;
图3是本发明使用的点跨距矩阵(point cross-distance matrix);
图4是具有重复模式的点跨距矩阵;
图5是准对角最小成本路径的图表;
图6是具有阈值角度的最小路径的图表。
具体实施方式
图1示出的是根据本发明的视频挖掘方法100的步骤。本发明对于挖掘视频特别有用,其中内容中的模式不是先验已知的,例如监视或家庭视频。发现的模式可以用于视频的“盲(blind)”概括。“盲”概括的意思是指不必需要知道待概括的视频的内容或类型。我们的方法对于例如广播新闻、体育报道、电影放映等等经过仔细准备的视频同样有用。因此我们的方法允许对内容和产品风格存在不同差异的视频进行盲概括(blind summarization)。
我们从任意的、也许是未知内容和产品风格的视频101开始。该视频包含可视和音频数据。首先我们选择110该内容的低级特征102,例如特征组可以由运动活性(motion activity)、色彩、音频、文本等等构成,例如MPEG-7描述符。可以用一个或多个选择的特征102进行挖掘,每个挖掘轮次的结果可以组合以推断160输入视频101的更高级理解。我们使用所选择的特征产生视频101的时间序列200。
图2是基于运动活性的高尔夫比赛视频的时间序列200的例子。图2画出的是高尔夫视频中运动活性的水平,它是时间的函数。根据帧数在x轴201标明时间,沿y轴202标明运动活性,它是自前一帧以来宏块中移动的像素的平均数。未加工(raw)的运动活性用曲线203来表示。我们将运动活性数据划分为高211、中212和低213水平的运动活性。
我们观察后跟运动活性陡峭上升的低运动活性的长伸展,并且用尖峰标记上升沿,如图所示。这样的尖峰对应于击球。直到击球时,运动活性通常很低。在击球期间和紧接在击球之后,摄像机迅速地跟随球的运动,因此产生了运动活性的“上升沿”。
根据我们的发明,视频101的帧序列中的运动活性构成时间序列。视频帧的色彩直方图是另一个多维时间序列。视频中的时间序列数据也可以包含例如语义标记(例如,MPEG-7描述符)和音频信号的符号值。
我们的方法100基于视频的时间序列200测量130低水平特征的相似表示,例如运动情形中的高、中或低,居主导的蓝、绿或褐色可以是另一种表示。我们提供了“软”匹配,其中小的差异不会使匹配无效。如上所述,我们通过数据平滑或限定低水平特征102的阈值来做到这一点。如果使用了多个特征,该时间序列数据可以进行加权处理。例如,在最终结果中,可以赋给色彩比运动活性更大的权重。在推断160期间低水平特征之间的联系是松散的,因此,我们宁愿将我们的数据挖掘技术分别应用到每个特征中,并通过融合160通过对所选择的低水平特征102进行视频挖掘而分别得到的聚类数据151,推断出更高水平的模式161。
与只寻找具有指定分辨率的相似对的现有技术相反,我们的匹配寻找140大时间序列(例如从视频获得的时间序列200)中所有时间分辨率下的所有可能匹配对。
为了在时间序列S(i)200中挖掘所有的时间模式103,我们需要具有各种尺寸w的多分辨率窗口:
w∶S(1∶w),S(2∶w+1),...,S(N-w+1∶N)。
应当注意的是,我们不是显式地构建多分辨率窗口w。相反,我们的窗口w是通过跨距矩阵300进行隐式定义的,我们所做的是求出这些隐式定义的窗口。这使得我们能够在所有分辨率下求出所有的匹配。下面将更详细地描述我们的隐式窗口发现技术。
我们测量130时间序列数据200之间的所有点跨距(pointcross-distance)300,以发现140最小距离400,并且因此将该视频101聚类150。问题是如何求出相似度,其中多分辨率窗口具有不同尺寸。
如图3所示,我们使用点距矩阵300解决这个问题。尺寸为w的两个窗口之间的距离301测量如下:
D w ( x i , x j ) = Σ k = 0 w - 1 ( x i + k - x j + k ) 2 .
于是,
D1(xi,xj)=(xi+k-xj+k)2,并且
D w ( x i , x j ) = Σ k = 0 w - 1 D 1 ( x i + k , x j + k ) - - - ( 1 )
图3示出的是点距矩阵300的例子,其中一个窗口301是xi-xi+w,另一个窗口302是xj-xj+w。线301表示方程(1)。曲线311和312分别表示时间序列200。即,同一时间序列是沿x轴和y轴,换句话说,测量是自相关的。
点距矩阵300可以被搜索以得到点跨距较短的对角线。在图3的表示中,按灰度级对距离进行着色(render),其中较短的距离比较长的距离更亮一些,因此,所有距离是0的主对角线是白的,因为测量是自相关的。
作为一个优点,矩阵300不限于任何给定的窗口尺寸w。因此,可以求出具有短距离值的所有可能路径,其中短是针对某个阈值距离值TD而言的。如果使用时间翘曲(time warping),路径能够“接近”或基本斜至图3的主对角线。
如图4所示,我们通过使用适于我们的视频内容挖掘的多定标(multi-scale)技术(例如小波)对时间序列进行子抽样来进行多分辨率分析。这产生平滑矩阵400。我们的方法自动地在不同窗口尺寸w上进行匹配,以揭示出时间序列中所有重复的时间模式401-402。
动态时间翘曲(DTW)用于在一定的限度内“伸展”和“压缩”时间,以允许具有不同时间长度的视频的相似分段之间具有良好对准。就分段来说,我们的意思是指帧序列。动态规划可以用于求出提供最佳匹配的分段的时间翘曲。DTW求出一定约束条件
(i,j),1≤I≤N,1≤j≤M
下的栅格中的最佳路径,其中N和M是两个分段的长度,每个栅格点(i,j)分别是两个分段的第i点和第j点之间的距离。
我们使用动态规划求出点跨距矩阵中的点对之间的最小成本路径。希望路径基本上对角,即基本上与主对角线310平行。此外,我们希望路径通过矩阵中的低跨距值,其中低由某个阈值TD来定义。在图3和4中,这些路径是白的,或准白的对角曲线分段。
最小成本的可能定义是沿该路径的跨距值的平均值。我们也对允许的路径提出某些约束,即路径500保持对角方向的取向,见图5。一种可能的约束集合是沿着路径的每一步可以是下移一步、右移一步,或对角移动一步,如图所示。
此外,如图6所示,对角线与路径两个端点间的连线之间的阈值角应当小于α°,其中0≤α≤45°。这样的路径成本准则和约束可以通过动态规划来表达,以求出点跨距矩阵中两点之间的最小成本有效路径。
即使不是精确对角的,那些获得的有效路径仍然指定时间序列中两个相应子序列的动态时间翘曲。因此,我们使用动态规划求出两个子序列之间的良好匹配的适当时间翘曲,并且求出跨距矩阵中两点之间的最小成本路径。
动态规划允许我们求出矩阵中两个给定点之间的最小成本路径。我们感兴趣的是求出矩阵中所有可能点对之间的最小成本路径,并选出成本低于给定阈值的路径。
做到这一点的强力方式(brute force way)是针对每个可能的点对执行动态规划过程。因为跨距矩阵是对称的,即时间序列的第i个样本和第j个样本之间的距离等于第j个样本和第i个样本之间的距离,我们只需要处理矩阵的上半部分,其中只有N2/2个点和N4/4个点对。然而,处理步骤的数量可以减少以增加我们的方法的效率。
首先,如图6所示,我们要求对角线与通过该路径两端点间的连线之间的角度小于α°。因此,对于每个点,我们求出到这样的点的最小成本路径,该点位于与对角线603成+α601度的线和与对角线603成-α602度的线之间。而且,我们提出路径上所有点应当具有低于阈值T的值的约束条件。在这种情形下,我们可以对整个矩阵限定阈值,并且求出只在高于阈值的点集之间的最小成本路径。
在已经求出所有这样的点之间的最小路径成本之后,我们将端点彼此接近的较短路径合并成较长路径。我们也合并其中一个是另一个的超集的路径。我们去掉两端点间的欧几里得距离短于一定长度的路径。保留的路径集为我们提供多分辨率下视频的所有相似子序列对。
在现有技术中,进行使用动态时间翘曲(例如,使用动态规划求出跨距矩阵中的最小成本路径)相似以查询较大时间序列中的给定时间序列模式,见Park等人“序列数据库中不同长度相似子序列的有效搜索”,数据工程国际会议(ICDE),pp.23-32,2000。
我们的技术也可以用于在语音分析环境中求出两个序列之间的良好对准,见Sakoe等人的“口语识别的动态规划算法优化”,IEEETrans.Acoust.,Speech,Signal Process.,ASSP 26,pp.43-49,1978,并且可用于基因和蛋白质序列分析,见Aach等人的“使用时间翘曲算法对准基因表达时间序列”,Bioinformatics,17:495-508,2001。然而,那些方法只求出给定的跨距矩阵中具有给定起始点的一条路径,相反,我们求出所有的路径。
在现有技术中,时间序列中子序列的自相似性通常通过使用固定窗口大小w,并且算出原始序列上移动窗之间的跨距来进行计算,见Agrawal等人“序列数据库中的有效相似性搜索”,第四届数据组织和算法基础国际会议论文集,和“计算机科学的讲义注释”,730,SpringerVerlag,p.,69-84。
跨距矩阵的其它现有技术使用具有点图的形式,其中矩阵元素是1或0,表明恰好匹配或没有匹配。它们已经被用于定量分析并作为可视工具,见Church等人的“点图:探测数百万行文本和代码的自相似性的程序”,计算和图形学统计期刊,2(2):153-174,1993,或用于沿对角线分割自相似区域,但不自动求出相似子序列对,见Jeffry,“求解主题边界的自动算法”,第32届计算语言学学会年会论文集,1994。我们的方法可以用于任何这样的应用中。
哈夫(Hough)变换可以用于将多个短路径合并成曲线。哈夫变换将矩阵400中特定形状的特征分离出来。由于不能进行特征的简单分析描述,我们可使用哈夫变换。作为一个优点,哈夫变换容忍特征边界描述中的差距(gap),并相对地不受数据中噪声的影响。此外,哈夫变换对于发现特征的全局描述特别有用,其中解类别的数量不是先验已知的,正如这里的情形那样。
我们使用Hough变换的动机在于每个输入距离特征指示出它对全局一致性模式的贡献。我们通过将特征空间量化为有限区间或累加器单元来实现Hough变换,其中随着这条路径上的累加器单元的递加,累加器单元显示出离散化的路径。累加器阵列的结果峰强有力地表示出特征空间中存在相应路径的证据。我们使用Hough变换识别出最佳拟合一组给定的边的路径。
当然,应当理解的是,可以利用使用时间序列的自相关性寻找匹配分段的其它技术。例如,可以使用点积(dot product)的技术。在这种情形中,该积的大小表明相似程度。对于例如连续帧的色彩直方图的多维时间序列,可以使用直方图交会法(histogram intersection)。
使用DTW求出匹配窗口之后,我们将相似分段分组并标记150成聚类151。对于分段,我们的意思是指视频中直接对应于具有相似特征的窗口的帧序列。因此,使用时间序列数据对相似分段的识别基本上允许我们将该视频进行划分并将相似的分段分组成聚类。
我们同等使用术语“标记”和“项”,如上述针对关联所定义的那样。当我们称之为聚类时,我们的意思是指聚类经过了标记,例如,高运动活性的帧的聚类,或视频声道中噪声很大的聚类。通过使用利用不同特征所获得的关联和标记152的融合,允许我们推断160聚类151中的高水平模式。因此这些模式可以用于将视频101盲概括170成摘要171。概括基本上按照高水平模式161提取视频中所选取的帧。
在步骤160中,我们求出聚类的标记之间的关联。一种类型的关联是寻找时间相关的“标记”。相关性可以是同时的,也可以是时间偏移的,例如许多运动和大噪声表明在娱乐视频中的“动作”事件,或许多之后接着鼓掌欢迎和欢呼的运动表明在体育视频中的“得分”事件。
我们发现标记之间的关联如下。每个聚类的标记被认为等价于上述的“项”。因此,我们产生含有标记Li的出现的条件和含有标记Lj的出现的结果。在这种情形下,时间轴上的每个点具有相应的事务,它含有与多于一个视频特征102相对应的标记。
例如,我们能够拥有两组标记,第一组与高、中、低的运动活性的描述相对应,第二组与音频语义类别有关,其中标记将表明例如观众掌声、欢呼声、音乐等等的音频类别中的成员关系。于是,我们能够发现在体育视频中高运动活性和观众掌声/欢呼声之间的关联。应当注意的是,即使使用了更复杂的标记,仍然能够通过直接计算求出这种关联。也可求出标记组合之间的复合关联。
因此,强关联可以帮助我们发现视频101中相应的常见和非常见模式,因为模式越常见,支持度就越高。
因此,视频101的摘要171含有常见和非常见事件的组合,这取决于用户的需要。在一个极端的例子中,摘要171含有具有强关联的稀有事件。在另一个极端的例子中,摘要含有具有强关联的常见事件。
因此,聚类150通过基于上述的距离度量将所有相似分段聚类来开始。对部分重叠的分段进行划分,使得它们或者具有同样的重叠,或者完全不重叠。聚类对可以使用凝聚过程进行合并以形成更大的聚类。我们定义集合S含有至少一个相似聚类对中的所有分段。于是,集合SC∪S是整个视频101,集合SC是集合S的补集。对聚类进行标记,例如A,B,C,...,且A∪B∪C...=S。集合SC可以被认为是“废弃”的聚类,即对于A、B和C等等不是“有意义的”。
因此,聚类150产生各种长度和各种相互距离的非重叠分段的集合S。每个聚类151具有下列相关参数:聚类的紧密性,即聚类中分段的相似程度;聚类中分段的数目;聚类中分段的总长度(帧或时间);分段的最接近点之间的平均距离(表明整个视频中分段的散布)。
聚类中每个分段具有下列参数:到其它聚类中心的平均距离,它表明分段在包含其的聚类中的代表性;及其长度(帧或时间)。
因此,概括成本函数C172可以在所需要的摘要长度,待包含在摘要171中的所选分段的集合R的总长度,(即,RS),S中每个分段和R中最靠近分段之间的平均距离之间折衷一个绝对差。这表明集合R(概括171)表示集合S的适合程度,当然集合S是整个视频101。我们可以增加一个项以在时间上支持R的紧密性,或者相反。因此摘要171是集合S的子集R,其使成本函数172最小化。
于是摘要可以用于例如“智能”快进和倒退的视频控制的新特征,以及在面临没有任何先验域知识时进行的即刻重新定位。
应当明白,可以在本发明的宗旨和范围内对其进行各种其它的调整和修正。因此,附加的权利要求的目的是涵盖本发明的真正宗旨和范围内的所有这样的变化和修正。

Claims (21)

1.一种用于概括未知视频内容的方法,包括步骤:
选择视频的低水平特征;
根据低水平特征将视频划分成分段;
将分段分组成多个不相交的聚类,每个聚类包含相似的分段;
根据低水平特征标记多个聚类;
发现标记中的高水平模式;和
根据高水平模式从视频中提取帧,以形成未知视频内容的内容自适应摘要。
2.根据权利要求1的方法,其中,摘要是基于常见和不常见模式的组合。
3.根据权利要求1的方法,其中,视频内容的制作风格是未知的。
4.根据权利要求1的方法,其中,视频包括可视和音频数据。
5.根据权利要求1的方法,其中,从包括运动活性,颜色,文本,音频,语义描述符及其组合的组中选择低水平特征。
6.根据权利要求1的方法,还包括步骤:
基于视频的选定低水平特征由视频产生时间序列数据;和
对时间序列数据进行自相关以确定相似分段。
7.根据权利要求6的方法,还包括步骤:
平滑时间序列数据。
8.根据权利要求6的方法,还包括步骤:
对时间序列数据加权。
9.根据权利要求1的方法,还包括步骤:
通过关联,将多个聚类相关联,以推断出高水平模式。
10.根据权利要求1的方法,其中,以多个时间分辨率发现所有相似分段。
11.根据权利要求6的方法,还包括步骤:
对点跨距矩阵中的时间序列数据进行自相关,以测量表示分段相似性的点跨距。
12.根据权利要求11的方法,其中,通过点跨距矩阵中基本上对角的线来表示点跨距。
13.根据权利要求6的方法,还包括步骤:
对时间序列数据进行时间翘曲以发现相似分段。
14.根据权利要求13的方法,其中,通过动态规划执行时间翘曲。
15.根据权利要求1的方法,还包括步骤:
在时间上对标记进行相关。
16.根据权利要求15的方法,其中,时间相关是同时的。
17.根据权利要求1的方法,还包括步骤:
生成标记出现的条件和结果,以发现高水平模式。
18.根据权利要求9的方法,其中,强关联与常见和不常见模式相对应。
19.根据权利要求1的方法,其中,分组还包括步骤:
将重叠的分段进行划分,以使重叠分段具有相同的重叠或没有重叠。
20.根据权利要求1的方法,还包括步骤:
为每个聚类分配参数,聚类参数包括聚类紧密度,聚类中分段的数量,按帧测量的聚类中分段的总长度,和分段的最接近点之间的平均距离,用于表示视频中分段的散布。
21.根据权利要求1的方法,还包括步骤:
估计成本函数,以确定所需的摘要长度。
CNB2003801000757A 2002-11-01 2003-10-15 用于概括未知视频内容的方法 Expired - Fee Related CN100428229C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/285,787 US7143352B2 (en) 2002-11-01 2002-11-01 Blind summarization of video content
US10/285,787 2002-11-01

Publications (2)

Publication Number Publication Date
CN1685344A true CN1685344A (zh) 2005-10-19
CN100428229C CN100428229C (zh) 2008-10-22

Family

ID=32175254

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801000757A Expired - Fee Related CN100428229C (zh) 2002-11-01 2003-10-15 用于概括未知视频内容的方法

Country Status (6)

Country Link
US (1) US7143352B2 (zh)
EP (1) EP1456779B1 (zh)
JP (1) JP2006508565A (zh)
CN (1) CN100428229C (zh)
DE (1) DE60313283T2 (zh)
WO (1) WO2004040480A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频
CN102739957A (zh) * 2011-03-31 2012-10-17 卡西欧计算机株式会社 能够确定被摄体的运动的图像处理装置及图像处理方法
CN104978961A (zh) * 2015-05-25 2015-10-14 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN106576151A (zh) * 2014-10-16 2017-04-19 三星电子株式会社 视频处理装置和方法
CN107562374A (zh) * 2017-08-14 2018-01-09 重庆大学 一种非易失性存储器时序数据压缩的量化方法
CN109691124A (zh) * 2016-06-20 2019-04-26 皮克索洛特公司 用于自动生成视频亮点的方法和系统

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US7305133B2 (en) * 2002-11-01 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in video content using association rules on multiple sets of labels
US20060200346A1 (en) * 2005-03-03 2006-09-07 Nortel Networks Ltd. Speech quality measurement based on classification estimation
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
WO2007057893A2 (en) 2005-11-15 2007-05-24 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for producing a video synopsis
US20100005485A1 (en) * 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US20070226624A1 (en) * 2006-02-23 2007-09-27 Peker Kadir A Content-based video summarization using spectral clustering
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
WO2007127695A2 (en) 2006-04-25 2007-11-08 Elmo Weber Frank Prefernce based automatic media summarization
US8229156B1 (en) 2006-08-08 2012-07-24 Google Inc. Using curve invariants to automatically characterize videos
AU2007345938B2 (en) 2007-02-01 2011-11-10 Briefcam, Ltd. Method and system for video indexing and video synopsis
JP2010531561A (ja) * 2007-06-15 2010-09-24 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアファイルのサマリを自動的に生成する方法及び装置
US8488901B2 (en) * 2007-09-28 2013-07-16 Sony Corporation Content based adjustment of an image
US8630497B2 (en) * 2007-11-27 2014-01-14 Intelliview Technologies Inc. Analyzing a segment of video
WO2009154597A1 (en) * 2008-06-19 2009-12-23 Thomson Licensing Adaptive video key frame selection
US8587668B2 (en) * 2008-07-25 2013-11-19 Anvato, Inc. Method and apparatus for detecting near duplicate videos using perceptual video signatures
US8325796B2 (en) 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
US8345990B2 (en) 2009-08-03 2013-01-01 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
US8786597B2 (en) 2010-06-30 2014-07-22 International Business Machines Corporation Management of a history of a meeting
US8687941B2 (en) 2010-10-29 2014-04-01 International Business Machines Corporation Automatic static video summarization
US20120173577A1 (en) * 2010-12-30 2012-07-05 Pelco Inc. Searching recorded video
US9154799B2 (en) 2011-04-07 2015-10-06 Google Inc. Encoding and decoding motion via image segmentation
US9262670B2 (en) 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
CN103065153B (zh) * 2012-12-17 2016-06-15 西南科技大学 一种基于色彩量化和聚类的视频关键帧提取方法
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
US9420237B2 (en) 2013-07-09 2016-08-16 Globalfoundries Inc. Insight-driven augmented auto-coordination of multiple video streams for centralized processors
EP2869236A1 (en) * 2013-10-31 2015-05-06 Alcatel Lucent Process for generating a video tag cloud representing objects appearing in a video content
US9639761B2 (en) 2014-03-10 2017-05-02 Mitsubishi Electric Research Laboratories, Inc. Method for extracting low-rank descriptors from images and videos for querying, classification, and object detection
JP6378503B2 (ja) * 2014-03-10 2018-08-22 国立大学法人 筑波大学 要約映像データ作成システム及び方法並びにコンピュータプログラム
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
US9451335B2 (en) 2014-04-29 2016-09-20 At&T Intellectual Property I, Lp Method and apparatus for augmenting media content
US9392272B1 (en) 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
US10664687B2 (en) 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US9578324B1 (en) 2014-06-27 2017-02-21 Google Inc. Video coding using statistical-based spatially differentiated partitioning
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
EP3157264B1 (en) * 2015-10-17 2019-02-20 Tata Consultancy Services Limited Multi-sensor data summarization
US10474745B1 (en) 2016-04-27 2019-11-12 Google Llc Systems and methods for a knowledge-based form creation platform
US11039181B1 (en) 2016-05-09 2021-06-15 Google Llc Method and apparatus for secure video manifest/playlist generation and playback
US10785508B2 (en) 2016-05-10 2020-09-22 Google Llc System for measuring video playback events using a server generated manifest/playlist
US10595054B2 (en) 2016-05-10 2020-03-17 Google Llc Method and apparatus for a virtual online video channel
US10750248B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for server-side content delivery network switching
US11069378B1 (en) 2016-05-10 2021-07-20 Google Llc Method and apparatus for frame accurate high resolution video editing in cloud using live video streams
US10771824B1 (en) 2016-05-10 2020-09-08 Google Llc System for managing video playback using a server generated manifest/playlist
US10750216B1 (en) 2016-05-10 2020-08-18 Google Llc Method and apparatus for providing peer-to-peer content delivery
US11032588B2 (en) 2016-05-16 2021-06-08 Google Llc Method and apparatus for spatial enhanced adaptive bitrate live streaming for 360 degree video playback
EP3559808A1 (en) * 2016-12-21 2019-10-30 Telefonaktiebolaget LM Ericsson (PUBL) Allocation of resources for a plurality of hosts
US11481575B2 (en) * 2018-09-26 2022-10-25 Yahoo Assets Llc System and method for learning scene embeddings via visual semantics and application thereof
JP7249580B2 (ja) * 2019-02-28 2023-03-31 富士通株式会社 付与方法、付与プログラム及び付与装置
US20220292285A1 (en) * 2021-03-11 2022-09-15 International Business Machines Corporation Adaptive selection of data modalities for efficient video recognition

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435660B1 (en) * 1989-12-29 1997-06-04 Canon Kabushiki Kaisha Method of evaluating objects based upon image processing, and inspection apparatus using said method
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US6278446B1 (en) * 1998-02-23 2001-08-21 Siemens Corporate Research, Inc. System for interactive organization and browsing of video
JP3762835B2 (ja) * 1998-05-21 2006-04-05 富士通株式会社 データ分解装置、その方法、及び記録媒体
US6731788B1 (en) * 1999-01-28 2004-05-04 Koninklijke Philips Electronics N.V. Symbol Classification with shape features applied to neural network
US6369835B1 (en) * 1999-05-18 2002-04-09 Microsoft Corporation Method and system for generating a movie file from a slide show presentation
SE9902328A0 (sv) * 1999-06-18 2000-12-19 Ericsson Telefon Ab L M Förfarande och system för att alstra sammanfattad video
US7178107B2 (en) * 1999-09-16 2007-02-13 Sharp Laboratories Of America, Inc. Audiovisual information management system with identification prescriptions
US7016540B1 (en) * 1999-11-24 2006-03-21 Nec Corporation Method and system for segmentation, classification, and summarization of video images
US7356082B1 (en) * 1999-11-29 2008-04-08 Sony Corporation Video/audio signal processing method and video-audio signal processing apparatus
JP3621323B2 (ja) * 2000-02-28 2005-02-16 日本電信電話株式会社 映像登録・検索処理方法および映像検索装置
US6763069B1 (en) * 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content
US6813313B2 (en) * 2000-07-06 2004-11-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for high-level structure analysis and event detection in domain specific videos
US6697523B1 (en) * 2000-08-09 2004-02-24 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion and color descriptors
US7203620B2 (en) * 2001-07-03 2007-04-10 Sharp Laboratories Of America, Inc. Summarization of video content
JP4615166B2 (ja) * 2001-07-17 2011-01-19 パイオニア株式会社 映像情報要約装置、映像情報要約方法及び映像情報要約プログラム
US7296231B2 (en) * 2001-08-09 2007-11-13 Eastman Kodak Company Video structuring by probabilistic merging of video segments
US20030206710A1 (en) * 2001-09-14 2003-11-06 Ferman Ahmet Mufit Audiovisual management system
US7260439B2 (en) * 2001-11-01 2007-08-21 Fuji Xerox Co., Ltd. Systems and methods for the automatic extraction of audio excerpts
US6956904B2 (en) * 2002-01-15 2005-10-18 Mitsubishi Electric Research Laboratories, Inc. Summarizing videos using motion activity descriptors correlated with audio features
TW569148B (en) * 2002-04-09 2004-01-01 Ind Tech Res Inst Method for locating facial features in an image
US7035435B2 (en) * 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US7047494B2 (en) * 2002-05-07 2006-05-16 Hewlett-Packard Development Company, L.P. Scalable video summarization
US7305133B2 (en) * 2002-11-01 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in video content using association rules on multiple sets of labels
US7103222B2 (en) * 2002-11-01 2006-09-05 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in multi-dimensional time series using multi-resolution matching
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388390A (zh) * 2009-04-01 2012-03-21 微软公司 按位置聚类视频
CN102739957A (zh) * 2011-03-31 2012-10-17 卡西欧计算机株式会社 能够确定被摄体的运动的图像处理装置及图像处理方法
CN106576151A (zh) * 2014-10-16 2017-04-19 三星电子株式会社 视频处理装置和方法
CN104978961A (zh) * 2015-05-25 2015-10-14 腾讯科技(深圳)有限公司 一种音频处理方法、装置及终端
CN104978961B (zh) * 2015-05-25 2019-10-15 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端
CN105228033A (zh) * 2015-08-27 2016-01-06 联想(北京)有限公司 一种视频处理方法及电子设备
CN105228033B (zh) * 2015-08-27 2018-11-09 联想(北京)有限公司 一种视频处理方法及电子设备
CN109691124A (zh) * 2016-06-20 2019-04-26 皮克索洛特公司 用于自动生成视频亮点的方法和系统
US10970554B2 (en) 2016-06-20 2021-04-06 Pixellot Ltd. Method and system for automatically producing video highlights
CN109691124B (zh) * 2016-06-20 2021-07-27 皮克索洛特公司 用于自动生成视频亮点的方法和系统
CN107562374A (zh) * 2017-08-14 2018-01-09 重庆大学 一种非易失性存储器时序数据压缩的量化方法

Also Published As

Publication number Publication date
JP2006508565A (ja) 2006-03-09
DE60313283T2 (de) 2007-12-20
EP1456779B1 (en) 2007-04-18
WO2004040480A1 (en) 2004-05-13
CN100428229C (zh) 2008-10-22
DE60313283D1 (de) 2007-05-31
US7143352B2 (en) 2006-11-28
EP1456779A1 (en) 2004-09-15
US20040085339A1 (en) 2004-05-06

Similar Documents

Publication Publication Date Title
CN100428229C (zh) 用于概括未知视频内容的方法
CN1685359A (zh) 未知多维数据中发现模式的计算方法
CN1685345A (zh) 用于挖掘视频内容的方法
US10922350B2 (en) Associating still images and videos
WO2017070656A1 (en) Video content retrieval system
CN113158023B (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
Wang et al. Video event detection using motion relativity and feature selection
CN111182364B (zh) 一种短视频版权检测方法及系统
Ikizler-Cinbis et al. Web-based classifiers for human action recognition
CN1692357A (zh) 用于在视频的未知内容中发现模式的计算机化方法
O'Hara et al. Are you using the right approximate nearest neighbor algorithm?
US20190171899A1 (en) Automatic extraction of attributes of an object within a set of digital images
CN1252647C (zh) 一种基于内容的镜头检索方法
Lin et al. Video retrieval for shot cluster and classification based on key feature set
Chen et al. Video Shot Boundary Detection and Sports Video Classification Algorithm Based on Particle Filter
Zhai Generic Object Regions Matching Based VLAD Model for Image Retrieval
Kim et al. A Recursive Matching Method for Content-based Image Retrieval
Wu et al. Multi-view sequence-data representation and non-metric distance-function learning
Florez Knowledge Extraction in Video Through the Interaction Analysis of Activities
Tran Automatic tag correction in videos: an approach based on frequent pattern mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081022

Termination date: 20131015