CN1774717B

CN1774717B - 利用内容分析来概括音乐视频的方法和设备

Info

Publication number: CN1774717B
Application number: CN2004800099098A
Authority: CN
Inventors: L·阿格尼霍特里; N·迪米特罗瓦; J·肯德
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-04-14
Filing date: 2004-04-02
Publication date: 2012-06-27
Anticipated expiration: 2024-04-02
Also published as: EP1616275A1; US7599554B2; WO2004090752A1; US20060210157A1; CN1774717A; JP2006525537A; KR20060008897A; KR101109023B1

Abstract

提供了一种用于利用内容分析在多媒体流(505)中分段和概括音乐视频(507)的方法和设备。音乐视频(507)是通过估计与多媒体流相关的多个内容特征而在多媒体流(505)中被分段的。多个内容特征包括下列中的至少两个特征：面部存在特征；电视正文存在特征；彩色直方图特征；音频特征；照相机剪辑特征；以及对从至少一个音乐视频的副本中获得的关键词的分析。利用模式识别引擎(1000)来处理所述多个内容特征，所述模式识别引擎诸如是贝叶斯置信网络、或者利用一个或多个视频分段规则(1115)，以在多媒体流(505)中识别音乐视频(507)。利用该音乐视频(507)的副本(T)，根据副本中的单词的重复，在至少一个音乐视频(507)中检测合唱。可以将所提取出的合唱用于音乐视频(507)的概要的自动生成。

Description

利用内容分析来概括音乐视频的方法和设备

本申请要求了于2003年4月14日提交的美国临时申请号为60/462,777的权益；并且涉及于1999年11月17日提交的名为“VideoStream Classifiable Symbol Isolation Method and System(可分类视频流的符号分离方法和系统)”的序列号为09/441,943的美国专利申请，将上述两篇申请在此引入以供参考。

本发明涉及视频概括技术，更特别地，涉及用于索引和概括音乐视频的方法和设备。

音乐视频节目在许多电视频道上是可得到的，该频道包括Fuse、VH1、MTV和MTV2。尽管许多普及的网站、诸如WWW.buymusic.com允许用户浏览并获取单首歌曲的音频部分，但是录像机及其它基于视频的应用仅仅允许用户获取整个节目，该整个节目包括具有多个音乐视频的节目。目前没有自动获取单个音乐视频的方法。因此，如果观众录下包括一个或多个音乐视频的整个节目，则所述记录也将包括所有非音乐视频部分、诸如广告和解说。为了观看音乐视频，观众必须向前快进记录经过非音乐视频部分，直到到达所期望的音乐视频部分。另外，视频回放装置的大量的记录容量被用来记录不必要的资料、诸如广告及其它谈话。

内容分析方法已经被提出或建议以便提供对节目的特定部分、诸如高光部分的高级访问。已为包括新闻、运动和电影的许多类型的节目开发出了视频概括方法。例如“InforMedia Project”是创建主要基于语音识别、自然语言理解和字幕文本的每个视频的简短简介的数字视频库系统。参见A.Hauptmann和M.Smith所著的“Text，Speech，and Vision for Video Segmentation：The Informedia Project”(人工智能美国协会(AAAI)，1995年秋季关于用于集成语言和视觉的计算模型的讨论会(1995年))。

然而，在音乐分析和检索领域内的研究已经主要集中在音频方面上。例如，B.Logan和S.Chu在2000年关于Acoustics，Speech andSignal Processing的国际会议上发表的“Music SummarizationUsing Key Phrases”公开了用于在选择流行音乐以供产生音频缩略的过程中查找关键短语的算法。作为一篇音频新产品的测量的申请，J.Foote于1999年11月发表的“Visualizing Music and Audio UsingSelf Similarity”(Proc.ACM Multimedia′99，77-80)介绍了音频“梗概(gisting)”。音频新产品分数是基于相似性矩阵的，所述相似性矩阵根据从音频中提取的特征来比较音频的帧。因此，尽管音乐内容分析是研究的活跃领域，但是仍需要有改进的技术以供进行音乐视频的分析和概括。还需要有在多媒体数据流中分段音乐视频并且准备包括相关音乐视频信息的每个音乐视频的概要的方法和设备。

总体上，提供了一种用于在多媒体流中利用内容分析来分段和概括音乐视频的方法和设备。依照本发明，在多媒体流中通过估计与多媒体流相关的多个内容特征来分段音乐视频。多个内容特征包括至少两个以下特征：面部存在特征；电视正文存在特征；彩色直方图特征；音频特征、照相机剪辑特征；以及对从至少一个音乐视频的副本中获得的关键词的分析。利用诸如贝叶斯置信网络(Bayesian BeliefNetwork)之类的模式识别引擎或一个或多个视频分段规则来处理多个内容特征，以便在多媒体流中识别音乐视频。

根据本发明的一个方面，面部存在特征估计多媒体流中的面部显示中的模式。最初，将几个可能的面部类型标记的其中之一分配给每个图像帧。然后，根据所分配的面部类型标记来集群图像帧，并且在面部类型标记簇中分析模式以便检测视频边界。根据本发明的另一方面，彩色直方图特征估计多媒体流的彩色内容中的模式。为每个图像帧获取彩色直方图，然后，根据该直方图来集群图像帧。在直方图簇中分析模式以便检测视频边界。照相机剪辑特征估计多媒体流中的照相机剪辑和运动中的模式。公开音频特征以便估计多媒体流的音频内容中的模式。例如，可以分别如通过正在升高的音量和正在降低的音量所指示的那样，估计多媒体流的音量以便检测歌曲的开始和结束。

根据本发明的另一方面，在至少一个音乐视频中检测到合唱。访问与所接收到的多媒体流的音乐视频相关联的副本并且根据副本中的单词的重复来检测合唱。例如，可以从隐藏式(closed)字幕信息中获取副本。所提取出的合唱可以用来自动生成音乐视频的概要。所产生的概要能够依照用户偏好而被展现给用户，并且可以用来依照用户偏好检索出音乐视频。

将参考下列详细说明和附图来获得对本发明更彻底的理解以及本发明进一步的特征和优点。

图1举例说明了其中能够操作本发明的示例性的常规视频显示系统；

图2举例说明了根据本发明一个实施例的、用于在图1的示例性视频显示系统中索引和概括音乐视频的系统；

图3举例说明了包含结合了本发明特征的音乐视频概要过程的存储器；

图4举例说明了包含与本发明的实施例一起使用的音乐视频概要块的存储器；

图5是举例说明结合了本发明特征的音乐索引和概括过程的示例性实施方式的流程图；

图6是结合了本发明特征的示例性面部特征分析过程的流程图；

图7是结合了本发明特征的示例性照相机变化分析过程的流程图；

图8是结合了本发明特征的示例性彩色直方图分析过程的流程图；

图9是结合了本发明特征的示例性音频特征分析过程的流程图；

图10举例说明了结合了本发明特征的示例性贝叶斯置信网络；

图11是描述视频分段过程的示例性实施方式的流程图；

图12提供了由本发明监视的各种特征的示例性时线图像；

图13是合唱检测过程的示例性实施方式的流程图；和

图14示出了能用于从视频中查找元素以便自动产生概要的贝叶斯置信网络。

图1举例说明了根据本发明一个实施例的示例性视频回放装置150和电视机105。视频回放装置150从外部源那里接收输入电视信号，所述外部源诸如是电缆电视业务供应商、本地天线、因特网业务供应商(ISP)、DVD或VHS磁带播放机。视频回放装置150将电视信号从观众选择的频道传输到电视机105。可以由用户手动地选择频道或者可以利用用户预先编程的记录装置来自动地选择频道。可替换地，可以根据来自于用户的个人观看历史中的节目简档的信息，通过记录装置来自动地选择频道和视频节目。尽管本发明是在示例性的电视接收器的环境中描述的，但是本领域的技术人员将认识到，可以容易地修改本发明的示例性实施例以供任何类型的视频显示系统使用。

在记录模式中，视频回放装置150可以解调输入射频(RF)电视信号以便产生基带视频信号，所述基带视频信号被记录和存储在位于视频回放装置150内或连接到视频回放装置150的存储介质上。在播放模式中，视频回放装置150从存储介质中读取用户所选择的已存储的基带视频信号(即，节目)并将该信号传输到电视机105。视频回放装置150可以包括能够接收数字信号、记录数字信号、与数字信号相交互和播放数字信号的这类录像机。

视频回放装置150可以包括使用记录磁带、或使用硬盘、或使用固态存储器、或使用任何其它类型的记录设备的这类录像机。如果视频回放装置150是盒式磁带录像机(VCR)，则视频回放装置150将输入电视信号存储到盒式磁带并从盒式磁带中检索出输入电视信号。如果视频回放装置150是基于盘驱动的装置、诸如ReplayTV^TM记录器或TiVO^TM记录器，则视频回放装置150将输入电视信号存储到计算机磁性硬盘而非盒式磁带并从计算机磁性硬盘而非盒式磁带中检索出输入电视信号，并且从硬盘中检索出已存储的电视信号。在其它实施例中，视频回放装置150可以进行存储和从本地读/写(R/W)数字化视频光盘(DVD)或读/写(R/W)光盘(CD-RW)进行检索。本地存储介质可以是固定的(例如，硬盘驱动器)或可以是可拆卸的(例如，DVD、CD-ROM)。

视频回放装置150包括：从用户操作的遥控装置125那里接收命令(诸如频道上调、频道下调、音量上调、音量下调、记录、播放、快进(FF)、反向倒带等等)的红外线(IR)传感器160。电视机105是包括屏幕110、红外线(IR)传感器115和一个或多个手动控件120(由虚线所示)的常规电视。IR传感器115还从用户所操作的遥控装置125那里接收命令(诸如音量上调、音量下调、通电、断电)。

应当注意的是，视频回放装置150不限于从特定类型的源接收特定类型的输入电视信号。如上所述，外部源可以是电缆业务供应商、常规的RF广播天线、圆盘式卫星电视天线、因特网连接，或是另一个本地存储装置、诸如DVD播放机或VHS磁带播放机。在一些实施例中，视频回放装置150甚至可以不必能进行记录，但是可能局限于播放从可拆卸的DVD或CD-ROM中检索出的电视信号。因此，输入信号可以是数字信号、模拟信号或网际协议(IP)分组。

然而，为了在解释本发明的原理时简单和清楚起见，下述说明书应该总体上涉及这样的实施例，其中视频回放装置150从电缆业务供应商那里接收输入电视信号(模拟的和/或数字的)。尽管如此，本领域的技术人员将理解本发明的原理可以容易地适合于与无线广播电视信号、本地存储系统、包含MPEG数据的IP分组的输入流等等一起使用。当在电视105的屏幕110上显示音乐视频时，音乐视频的起始通常在视频图像的底部显示文本字幕180(电视正文)。文本字幕180通常包含歌曲的名称、唱片的名称、艺术家或创建组的名称、版本的日期及其它类似的信息。文本字幕180还通常被显示在音乐视频的末尾处。文本字幕180将还被称为电视正文块180。音乐视频概要控制器270能够访问全部已存储的音乐视频概要文件360的列表190，并能够在电视105的屏幕110上显示该列表190。也就是说，列表190显示(1)已经在多媒体数据流中检测出的所有音乐视频的音乐视频概要文件，并显示(2)记录的每个音乐视频的艺术家或创建组的身份。利用遥控装置125和IR传感器160，用户向音乐视频概要控制器270发送“播放音乐视频概要”控制信号以便选择下一个要播放列表190中的哪一个音乐视频概要文件。照此，用户选择播放音乐视频概要文件的顺序。

图2更详细地举例说明了根据本发明一个实施例的示例性视频回放装置150。视频回放装置150包括：IR传感器160、视频处理器210、MPEG2编码器220、硬盘驱动器230、MPEG2解码器/NTSC编码器240和录像机(VR)控制器250。视频回放装置150还包括：包含帧抓取器265的视频单元260、包含隐藏式字幕解码器275的音乐视频概要控制器270以及存储器280。帧抓取器265从MPEG2解码器/NTSC编码器240的输出中捕获并存储视频帧。隐藏式字幕解码器265对MPEG2解码器/NTSC编码器240的NTSC输出信号中的隐藏式字幕文本进行解码。尽管隐藏式字幕解码器275在图2中被示出位于音乐视频概要控制器270之内，但是隐藏式字幕解码器275不是必需位于音乐视频概要控制器270之内。

VR控制器250指挥视频回放装置150的全部操作，其包括观看模式、记录模式、播放模式、快进(FF)模式、反向倒带模式及其它类似的功能。音乐视频概要控制器270依照本发明的原理来指挥音乐视频概要的创建、存储和播放。

在观看模式中，VR控制器250使来自于电缆业务供应商的输入电视信号被解调并被视频处理器210处理，并且被传输到电视机105，同时将视频信号存储或不存储在硬盘驱动器230上(或从硬盘驱动器230中检索出视频信号)。视频处理器210包含射频(RF)前端电路，其用于从电缆业务供应商那里接收输入电视信号，调谐成用户选择的频道，并将所选择的RF信号转换成适合于在电视机105上显示的基带电视信号(例如，超视频信号)。视频处理器210还能够在播放模式期间(在视频单元260的视频缓冲器265中进行缓冲之后)从MPEG2解码器/NTSC编码器240中接收常规的NTSC信号并将基带电视信号传输到电视机105。

在记录模式中，VR控制器250使输入电视信号被存储在硬盘驱动器230上。在VR控制器250的控制下，MPEG2编码器220从电缆业务供应商那里接收输入模拟电视信号并将接收到的RF信号转换成MPEG2格式以供存储在硬盘驱动器230上。可替换地，如果视频回放装置150被耦合到传输MPEG2数据的源，则输入MPEG2数据可以绕过MPEG2编码器220并直接被存储在硬盘驱动器230上。

在播放模式中，VR控制器250指挥硬盘驱动器230将所存储的电视信号(即，节目)流动到MPEG2解码器/NTSC编码器240，所述MPEG2解码器/NTSC编码器240将来自于硬盘驱动器230的MPEG2数据转换成例如视频处理器210传输到电视机105的超视频(S-Video)信号。

应当注意的是，用于MPEG2编码器220和MPEG2解码器/NTSC编码器240的MPEG2标准的选择仅仅是作为举例说明。在本发明的可选实施例中，MPEG编码器和解码器可以遵循MPEG-1、MPEG-2和MPEG-4标准中的一个或多个，或遵循一个或多个其它类型的标准。

为了说明本申请和随后的权利要求，将硬盘驱动器230定义成包含既可读又可写的任何大容量存储装置，该大容量存储装置包括但不限于用于读/写数字化视频光盘(DVD-RW)、可重写CD-ROM、VCR磁带等等的常规磁盘驱动器和光盘驱动器。实际上，硬盘驱动器230不必被固定于常规意义上，所述常规意义就是它永久地被嵌入视频回放装置150中。而是，硬盘驱动器230包括专用于视频回放装置150以供存储所记录的视频节目的任何大容量存储装置。因此，硬盘驱动器230可以包括附装的外设驱动器或可移动的磁盘驱动器(不论是嵌入的还是附装的)，比如具有几个读/写DVD或可重写CD-ROM的投币式自动电唱机(未示出)。正如在图2中示意性地举例说明的那样，这种类型的可移动磁盘驱动器能够接收和读取可重写CD-ROM盘235。

此外，在本发明的一个有利实施例中，硬盘驱动器230可以包括视频回放装置150可经由网络连接(例如，网际协议(IP)连接)而访问和控制的外部大容量存储装置，例如包括用户的家庭个人计算机(PC)中的磁盘驱动器或位于用户的因特网业务供应商(ISP)处的服务器上的磁盘驱动器。

VR控制器250从与视频处理器210所接收的视频信号有关的视频处理器210中获取信息。当VR控制器250判定视频回放装置150正在接收视频节目时，VR控制器250判断该视频节目是否是已被选择将要记录的一个视频节目。如果该视频节目将被记录，则VR控制器250就按先前所描述的方式使该视频节目记录在硬盘驱动器230上。如果该视频节目不是将被记录，则VR控制器250就按先前所描述的方式使视频处理器210对该视频节目进行处理并且将其传输到电视机105。

在本发明的示例性实施例中，存储器280可以包括随机存取存储器(RAM)或随机存取存储器(RAM)和只读存储器(ROM)的组合。存储器280可以包括非易失性随机存取存储器(RAM)、诸如快闪存储器。在电视机105的一个可替换的有利实施例中，存储器280可以包括大容量存储数据装置、诸如硬盘驱动器(未示出)。存储器280还可以包括读取读/写DVD或可重写CD-ROM的附装的外设驱动器或可移动磁盘驱动器(不论是嵌入的还是附装的)。正如在图2中示意性地举例说明的那样，这种类型的可移动磁盘驱动器能够接收和读取可重写的CD-ROM盘285。

图3举例说明了包含本发明的音乐视频概要计算机软件300的存储器280的所选部分。存储器280包含操作系统接口程序310、音乐视频分段应用程序320、音乐视频识别应用程序330、音乐视频概括应用程序340、音乐视频概要块350和音乐视频概要文件360。音乐视频概要控制器270和音乐视频概要计算机软件300共同包括能够实现本发明的音乐视频概要控制系统。操作系统接口程序310对音乐视频概要计算机软件300与VR控制器250和音乐视频概要控制器270的操作系统之间的操作进行协调。

图4举例说明了作为本发明的有利实施例的一部分的一组音乐视频概要块350。本发明的音乐视频概要控制器270存储它获取关于音乐视频概要块(例如，音乐视频概要块410)中的音乐视频的信息。如图4中所示，该组音乐视频概要块350包括N个音乐视频概要块(410、470、...、480)，其中N为整数。图4中所示的示例性的音乐视频概要块410举例说明了每个音乐视频概要块可以包含的信息的类型。示例性音乐视频概要块410分别包含了标题、唱片、艺术家、录音室和版本日期块420、430、440、450和460。这些类目都是说明性的而非穷举的。也就是说，其它类型的信息(未示出)也可被存储在本发明的音乐视频概要块当中。

假定音乐视频概要控制器270接收包含音乐视频的多媒体数据流。正如将在下面更充分描述的那样，音乐视频概要控制器270能够：(1)在多媒体数据流中分段音乐视频并将它们与多媒体数据流的其余部分分开，(2)识别每个分段后的音乐视频并获取关于作为每个音乐视频的主体的歌曲的信息，(3)为包含文本、音频和视频分段的每个音乐视频创建音乐视频概要文件，(4)存储音乐视频概要文件，以及(4)响应于用户请求，按照用户所选择的顺序显示音乐视频概要文件。

在一个实施例中，音乐视频概要控制器270通过查找每个音乐视频的首尾来在多媒体数据流中分段音乐视频。根据本发明的一个方面，音乐视频是利用诸如面部的存在或面部的识别这类的一个或多个图像特征或者诸如音频分类技术这类的一个或多个音频特征来分段的，以便从非音乐成分到音乐成分地检测音频成分上的变化，这通常认为是新歌曲的开始。在进一步的变形中，分段过程采用超直方图(或彩色群集技术)来检测彩色上的变化、诸如从暗图像到亮图像的变化，这也可认为是新歌曲的开始。

在又一个变形中，音乐视频概要控制器270执行音乐视频分段应用程序320中的计算机指令以搜索音乐视频首尾处的电视正文块180。当两个电视正文块180相同时，那么它们之间的视频部分代表由这两个电视正文块180识别的音乐视频。当音乐视频被显示在电视105的屏幕110上时，音乐视频的开始通常在视频图像的底部显示文本字幕180。文本字幕180通常包含歌曲的名称、唱片的名称、艺术家或创建组的名称、版本的日期及其它类似的信息。文本字幕180还通常显示于音乐视频的末尾。文本字幕180还将被称为电视正文块180。

当音乐视频概要控制器270分段新的音乐视频时，那么音乐视频概要控制器270执行音乐视频识别应用程序330中的计算机指令以便例如从电视正文块180中提取识别音乐视频的信息。音乐视频概要控制器270可以利用如下申请中公开的方法来获取电视正文块180的文本，所述申请是由Lalitha Agnihotri、Nevenka Dimitrova和HermanElenbass在1999年11月17日提交的名为“Video StreamClassifiable Symbol Isolation Method and System(可分类视频流的符号分离法和系统)”的序列号为09/441,943的美国专利申请。

音乐视频概要控制器270可以访问存储器280中的数据库(未示出)(或者可以访问位于因特网上的数据库)以查找歌曲、唱片、艺术家或唱片公司的一览表，以便与音乐视频概要控制器270从电视正文块180中获取的信息进行比较。音乐视频概要控制器270在其中一个音乐视频概要块350当中存储它获取关于存储器280中的音乐视频的信息。针对每个独立的音乐视频的音乐视频信息被存储在独立的音乐视频概要块(例如，音乐视频概要块410)当中。

在某些情况下，音乐视频概要控制器270可能不能定位或识别任何电视正文块180。在这种情况下，音乐视频概要控制器270可以将歌曲的少数几行的副本与歌曲歌词的副本的数据库进行比较，以便找到文本匹配。音乐视频概要控制器270选择代表歌曲的少数几行的文本的“搜索串”。在一个实施例中，“搜索串”文本可以从隐藏式字幕解码器275中获得。接着，音乐视频概要控制器270访问存储器280中的歌曲歌词(未示出)的数据库(或者访问位于诸如WWW.lyrics.com之类的因特网上的歌曲歌词的数据库)以便查找歌曲歌词的一览表。然后，音乐视频概要控制器270将该“搜索串”文本与歌曲歌词的数据库中的副本进行比较以便查找歌曲的身份。在歌曲的身份已得到确定之后，能够容易地从数据库中访问艺术家的名称及其它信息。下面将参照图7更充分地描述音乐视频概要控制器270通过将“搜索串”文本与歌曲歌词的数据库相比较来搜索并定位音乐视频信息的方法。

正如前面提到的那样，音乐视频概要控制器270获取音乐视频信息并在音乐视频概要块350中存储该音乐信息。然后，对于每个音乐视频概要块(例如，音乐视频概要块410)，音乐视频概要控制器270访问歌曲歌词并根据歌曲歌词来识别歌曲的“合唱”。通常，歌曲的合唱被识别为歌曲歌词的数据库中的合唱。可替换地，也可以选择重复若干次的歌曲歌词的一部分作为歌曲的合唱。这可以通过利用隐藏式字幕解码器275或者通过比较部分音频轨道以找出相似的音频模式来实现。根据本发明的另一方面，音乐视频的合唱部分是在不需要访问独立的数据库的情况下通过分析往往表示合唱的重复短语的相关副本来识别的。例如，可以从隐藏式字幕信息中获取副本。

对于多数听众而言，歌曲的“合唱”比歌曲的头几行更能识别歌曲的特性。音乐视频概要控制器270能继而将歌曲歌词的副本中的合唱与对应于合唱的多媒体文件的音频和视频部分相匹配。然后，音乐视频概要控制器270将对应于合唱的多媒体文件的音频和视频部分的拷贝放在音乐视频概要文件360当中。

音乐视频概要控制器270在存储器280中存储每个音乐视频的每个音乐视频概要文件360。响应于接收用户请求，音乐视频概要控制器270能够访问特定的音乐视频概要文件360并通过电视105来播放音乐视频概要文件360(包括音频和视频部分)。可替换地，音乐视频概要控制器270能够访问全部已存储的音乐视频概要文件360的列表190并在电视105的屏幕110上显示该列表190。也就是，列表190显示：(1)所有已经在多媒体数据流中检测出的音乐视频的音乐视频概要文件；和(2)所记录的每个音乐视频的艺术家或创建组的身份。列表190可选地根据用户偏好被呈现以个性化该列表中存在的信息内容。使用遥控装置125和IP传感器160，用户将“播放音乐视频概要”控制信号发送给音乐视频概要控制器270以便选择下一个播放列表190中的哪一个音乐视频概要文件。照此，用户选择播放音乐视频概要文件的顺序。

图5是提供本发明用来索引和概括音乐视频的技术概述的流程图500。如图5中所示，所述方法在步骤510，音乐视频概要控制器270最初将所接收到的包含音乐视频507的多媒体流505分成它的音频、视频和副本成分。然后，在步骤520，音乐视频概要控制器270从音频、视频和副本成分中提取许多特征，如在下面进一步论述的那样。例如，可以从隐藏式字幕信息中获取副本，其中利用软件为每个文本行插入时间戳。此时，所有特征包括有时间戳的、无任何歌曲边界指示的数据流。

初始的歌曲边界是在步骤530中按照进一步在下面结合图10和11所论述的方式，利用视觉、听觉和文本特征加以确定的。此后，利用初始的边界和副本信息，在步骤540中确定合唱位置和合唱关键短语，正如进一步在下面结合图13论述的那样。在步骤545和550，根据合唱信息，利用来自于Web站点的信息来确定例如标题、艺术家名称、风格和歌曲的歌词。

然后，在步骤560，例如利用一个或多个所获取的歌曲歌词、音频分类、视觉景色边界(根据彩色信息)和重叠文本来确定歌曲边界。本发明考虑到Web站点上的歌词和副本中的歌词不总是绝对匹配。根据歌词，利用初始边界信息和歌词来调整歌曲的边界。可替换地，如果副本信息是不可用的，则可以在所提取的电视正文上利用光学字符识别(OCR)技术来分析标题页以便找出视频信息、诸如艺术家名称、歌曲标题、年代和记录标记信息，并且可以使用Web信息来核对来自于OCR步骤的输出。利用这一信息，能够从Web站点中获取歌曲的歌词并且可以利用文本信息来执行合唱检测方法。(这里所涉及的是：这些已下载的歌词没有时间戳并且存在对准的问题。)优选地，所述副本是利用语音到文本的音频分析而获得的。在一个变形中，已下载的副本和利用语音到文本生成器而产生的副本可以被综合起来以获得更准确的副本。

在具有每个歌曲的边界和视听特征的情况下，继而分别在步骤565和570利用确定最佳代表性的帧和歌曲概要的最佳视频剪辑来概括歌曲，正如在下面结合图14所论述的那样。最佳代表性的帧包括来自于艺术家的特写、具有歌曲信息、艺术家、标记、唱片和年代的标题图像。在步骤575，在歌曲概要库中存储歌曲概要。在步骤580中，用户例如能够利用基于Web的音乐视频检索应用程序来访问节目概要。

依照本发明的音乐视频概括是基于单个歌曲的识别和概括来进行的。在节目级，概要包括歌曲的列表。在下一级，每个歌曲包括标题、艺术家以及代表该歌曲的所选多媒体元素。

边界检测

音乐视频概括包括两种类型的边界检测。首先，必须自动地检测歌曲边界。尔后，必须检测合唱的边界。正如上面结合图5所论述的那样，本发明利用视觉、音频和副本特征来执行边界检测。视觉特征包括：电视正文的存在、面部检测(和/或识别)、不连续的剪辑和彩色直方图。

利用电视正文的存在进行的边界检测

对于详细论述的采用电视正文的存在的边界检测的适用技术，例如参见N.Dimitrova等人所著的名为“MPEG-7 VideoTextDescription Scheme for Superimposed Text(重叠文本的MPEG-7电视正文描述方案)”(Int′1 Signal Processing and ImageCommunications Journal(国际信号处理和图像通信杂志)，2000年9月)，或参见于2002年6月20日提交的名为“System and Method forIndexing and Summarizing Music Videos(用于索引和概括音乐视频的系统和方法)”的序列号为10/176,239的美国专利申请(代理人档案号：US020206)，将上述每一篇都引入于此作为参考。

电视正文的检测提供了检测边界的可靠方法，因为诸如艺术家和标题之类的电视正文信息是按照使人容易阅读和识别的方式而出现在每个音乐视频的起始和末尾处的。因此，电视正文存在于歌曲的起始处能帮助勾划歌曲之间的边界。例如，通过确保文本框包含歌曲的歌曲标题信息或者确保在诸如屏幕的左下部分之类的给定位置上找到文本框，能够改善电视正文检测性能。可以将歌曲的标题页用作歌曲早已开始的一个指示符，以便确定歌曲的开始。

利用面部检测(或识别)进行的边界检测

根据本发明的一个方面，能够根据图像帧中的面部的检测来识别歌曲的可能边界。图6是结合了本发明特征的示例性面部特征分析过程600的流程图。如图6所示，在步骤610，面部特征分析过程600最初给每个图像帧分配几种可能的面部类型标记的其中一个。例如，面部特征分析过程600可以根据帧是否主要由肩部拍摄(S)、全身拍摄(F)、面部特写镜头(C)或多人(M)组成来给每个帧分配标记。已分配的面部类型标记的示例性时线图像被包括在图12中，如下所述。然后，在步骤620，根据已分配的面部类型标记来群集图像帧。最后，在步骤630，在面部类型标记的簇中分析模式以检测视频边界。程序控制继而终止。下面进一步结合图10和11来论述在步骤630中所执行的模式分析。

照此，随着时间的过去，面部特征分析过程600将寻找同类的图像序列模式(假定这些帧是相同的视频的部分)。脱离这样的模式将假定新的视频或非视频资料已经开始。对于执行面部检测和标记的适用技术的详细论述，例如参见N.Dimitrova等人所著的名为“VideoClassification Using Object Tracking(利用目标跟踪进行视频分类)，International Journal of Image and Graphics(图像与图形的国际性刊物)”(图像和视频数据库方面的专刊，第1卷，第3期(2001年8月))，将该篇引入于此作为参考。

尽管面部对于查找主要的表演艺术家而言是相当重要的，但是应当注意的是，音乐视频是执行视频面部检测的有挑战性的一类。面部存在由于例如特技效果和用各种颜色加亮的缘故而可能不会在视频中完全被检测出来。另外，面部往往是处于对角线或水平位置中的，例如当表演者正在跳舞或睡眠时。

在其它变形中，面部识别也可以任选地被执行，以便按众所周知的方式根据每个帧中识别的艺术家来分配身份标记。图像序列中新艺术家的出现表示新视频的开始。面部识别的性能可以任选地通过使用包含受欢迎的或期待的艺术家的面部图像的数据库而得以改善。

利用不连续剪辑(照相机变化)进行的边界检测

根据本发明的一个方面，歌曲的可能边界能够根据在图像序列方面变化的照相机的模式的检测来加以识别。图7是结合了本发明特征的示例性照相机变化分析过程700的流程图。如图7中所示，在步骤710，照相机变化分析过程700最初确定视频序列中的照相机剪辑的频率。对于用于确定照相机剪辑的频率的适用技术的详细论述，例如参见名为“Significant Scene Detection and Frame Filtering fora Visual Indexing System(用于视觉索引系统的显著场景检测和帧过滤)”的美国专利No.6137544，将该篇引入于此作为参考。

尔后，在步骤730，照相机变化分析过程700分析照相机剪辑频率数据中的模式以便检测视频边界。下面进一步结合图10和11来论述在步骤730所执行的模式分析。应当注意：剪辑变化在音乐视频中是非常频繁的。事实上，我们的数据显示：平均剪辑距离在商业广告时间比在歌曲期间更高。这是很不寻常的，因为对于多数的其它风格来说，商业广告时间呈现出比节目更低的剪辑距离。在进一步的变形中，可以提供附加的照相机变化标记以表征照相机运动的类型、诸如拍摄全景、俯仰运动和变焦距。

利用彩色直方图进行的边界检测

根据本发明的另一方面，能够根据彩色变化特征来识别歌曲的可能边界。在示例性实施例中采用超直方图方法来推论呈现相似颜色的帧族。图8是结合了本发明特征的示例性彩色直方图分析过程800的流程图。如图8所示，在步骤810，彩色直方图分析过程800最初获取每个图像帧的彩色直方图。通常，彩色直方图能够被认为是表征对应帧的彩色组分的标记图(signature)。然后，在步骤820，根据直方图来群集图像帧(如图12所示)。最后，在步骤830，在直方图簇中分析模式以检测视频边界。程序控制继而终止。下面进一步结合图10和11来论述在步骤830所执行的模式分析。在群集阶段考虑的图像帧的历史例如可以限于一分钟，因为任何具有相似颜色的先前帧可以不必是相关的。

照此，随着时间的过去，彩色直方图分析过程800将寻找同类的图像序列模式(假定这些帧是相同的视频的部分)。脱离这样的模式将假定新的视频或非视频资料已经开始。例如，由于电影的风格，给定歌曲在视频里自始至终可能都具有主色。另外，每个歌曲之间的商业广告时间将通常呈现不同的主色。彩色直方图允许呈现相似颜色的帧族被识别出来。通常，随着新的歌曲出现，调色板变化和新歌曲的帧都被群集到新的族中。因此，彩色直方图法在检测音乐视频的可能开始和结尾时是有用的。

对于彩色直方图的更详细论述，例如参见L.Agnihotri andN.Dimitrova所著的“Video Clustering Using Superhistograms inLarge Video Archives(在大视频档案文件中利用超直方图进行视频群集)”(Visual 2000，法国里昂(2000年11月))，或者N.Dimitrova等人所著的“Superhistograms for Video Representation(用于视频表示的超直方图)”(IEEE ICIP，1999年，日本神户(1999年))，将这两篇文献引入于此作为参考。

利用音频特征进行的边界检测

根据本发明的另一方面，能够根据音频特征来识别歌曲的可能边界。图9是结合了本发明特征的示例性音频特征分析过程900的流程图。如图9所示，在步骤910，音频特征分析过程900最初将几种可能音频类型标记的其中一种分配给每个音频帧。应当注意，音频帧的持续时间可能不同于图像帧的持续时间。例如，音频特征分析过程900可以根据音频帧是否主要包含下列内容来给每个音频帧分配标记：1)音乐，2)语音，3)带有背景音乐的语音，4)多个人交谈，5)噪音，6)带有噪音的语音，7)静音，8)正在升高的音量或9)正在降低的音量。然后，在步骤920，根据已分配的音频类型标记来群集音频帧。最后，在步骤930，在音频类型标记簇中分析模式以检测视频边界。程序控制继而终止。下面进一步结合图10和11来论述在步骤930所执行的模式分析。例如，模式分析可以在歌曲的首尾处寻找静音或正在升高的音量以指示歌曲的开始，或寻找正在降低的音量以指示歌曲的末尾。

照此，随着时间的过去，音频特征分析过程900将寻找同类的音频序列模式(假定这些音频帧是相同的视频的部分)。脱离这样的模式将假定新的视频或非视频资料已经开始。对于用于执行音频分段和分类的适用技术的详细论述，例如参见D.Li等人所著的“Classification of General Audio Data for Content-BasedRetrieval(基于内容的检索的普通音频数据的分类)”(PatternRecognition Letters 2000(2000年))，将该篇文献引入于此作为参考。

利用副本特征进行的边界检测

根据本发明的另一方面，能够根据例如可以从隐藏式字幕信息中获取的音频副本来识别歌曲的可能边界。通常，在文本副本中利用关键词分析(或自相关分析)来识别段落。特别是，获得并分析单词的直方图以便检测新的歌曲。一套新的关键词的识别将假定新的视频或非视频资料已经开始。对于用于执行副本“段落”的适用技术的详细论述，例如参见N.Stokes等人所著的“Segmenting Broadcast NewsStreams Using Lexical Chains(利用词汇链来分段广播的新闻节目流)”(Proc.of Starting Artificial Intelligence ResearchersSymposium(STAIRS)(2002年))，将该篇文献引入于此作为参考。

利用低级特征进行的边界检测

除了上述特征之外，本发明还可以直接使用直接从内容导出的许多低级的特征、诸如每个图像帧中的边缘的数目或形状或局部和全局运动，并且监视任何模式并在这些低级特征中脱离这样的模式。另外，也可以分析低级音频特征、诸如唛耳频率倒谱系数(Mel FrequencyCepstral Coefficient)(MFCC)、线性预测系数(LPC)、间距变化、带宽、音量和音调。

对视觉、音频和副本特征的分析

正如先前所示的，本发明利用视觉、音频和副本特征来执行边界检测，这在上面已经结合图5至9作了描述。在图10中所示的一个示例性实施例中，利用诸如贝叶斯置信网络(BBN)1000之类的模式识别引擎来监控视觉、音频和副本特征，以便将视频流分段成单独的视频。在图11中所示的可替换的实施例中，利用基于规则的试探过程1100来处理视觉、音频和副本特征以便将视频流分段成单独的视频。通常，这两个示例性实施例都根据上述论述的所有不同特征、利用近似边界来分段视频。

图10举例说明了结合了本发明特征的示例性贝叶斯置信网络1000。贝叶斯置信网络1000监控视觉、音频和副本特征以便将视频流分段成单独的视频。通常，贝叶斯置信网络已被用于识别复杂的模式并且用于学习和识别预定义的活动。贝叶斯置信网络1000是利用视频序列来训练的，所述视频序列早已按照已知的方式被标记有分段信息。

如图10中所示，贝叶斯置信网络1000包括具有多个状态1010-1至101O-N的第一层1010，每一层都与本发明所监控的不同特征相关联。每个状态的输入都是经过给定窗口的平均特征值。例如，对于面部存在特征，所述输入例如可以是：与前20个第二窗口相比，经过当前的20个第二窗口，在每个图像中是否存在面部数目上的变化。同样，对于彩色直方图特征，所述输入例如可以是：在当前的窗口是否检测出了新的簇。

贝叶斯置信网络1000包括根据与状态相关联的单个特征来为每个对应状态确定当前时窗是否对应于与视频的起始或末尾相关联的转变P_trans的概率的第二层1020。例如，概率P_facechng表示面部变化特征数据所表明的面部变化的概率。在末级1030中，贝叶斯置信网络1000利用应用贝叶斯推断以根据跨每个被监控的特征的概率来判断是否存在歌曲间断。在进一步的变形中，可以采用神经网络或自回归移动平均(ARMA)技术来预测歌曲边界。

用于判断当前时窗是否对应于在状态1030下的分段的条件概率可以按如下来计算。

上述等式给出了用于计算条件概率的一般情况。对于在图10中给出的模型，所述概率可以按如下来计算：

其中v是电视正文，f是面部，a是不连续剪辑，c是颜色，t是副本，而a是有关音频的分析。

图11是描述视频分段过程1100的示例性实施方式的流程图。正如先前所示的，视频分段过程1100利用基于规则的试探技术来处理视觉、音频和副本特征以便将视频流分段成单独的视频。如图11中所示，在步骤1110，视频分段过程1100最初估计被监控的视频、音频和副本特征值。尔后，在步骤1120，视频分段过程1100将一个或多个预定义的视频分段规则1115应用于所述特征值。例如，给定的应用程序可以定义视频分段规则，若电视正文存在和彩色直方图特征两者的概率值都超出预定义的阈值则规定应该被识别的视频分段。在进一步的示例中，视频分段规则能够规定：若电视正文存在和至少N个其它被监控的特征的概率值超出预定义的阈值则视频分段应该被识别。

在步骤1130，执行测试以便判断是否检测出了新的视频。如果在步骤1130判定新的视频尚未被检测出，则程序控制返回到步骤1110以便按上述方式继续监控图像流。然而如果在步骤1130判定新的视频已被检测出，则在步骤1140就识别新的视频分段。程序控制能继而终止或返回到步骤1110以便视情况而定按照上述方式继续监视图像流。

由贝叶斯置信网络1000或视频分段过程1100执行的监控特征的处理能够认定这样的事实，即：副本比视觉流和音频流更迟开始。从视觉的角度，在歌曲开始之后通常出现几秒的电视正文标题页也被获取。利用歌曲的视觉彩色边界和音频域中的音乐分类的开始来对准开始边界。

图12提供了已分配的面部类型标记1210、彩色直方图簇1220和电视正文存在1230的示例性时线图像。如图12所示，对准每个被监控的特征的特征数据，以便检测视频分段。本发明采用贝叶斯置信网络1000或视频分段过程1100以便根据由每个单独的特征表明的转变时期来识别两个视频之间的或视频和非视频资料之间的转变1240。

合唱检测

为了确定歌曲的合唱，早先的研究已经集中于音乐音频特征。为了在歌曲中查找重复的分段而使用的常见手段就是执行自相关分析。在流行歌曲中重复合唱至少两次。通常在多数的歌曲中重复三次或更多次。

根据本发明的其它特征，歌曲的合唱是利用副本(隐藏式字幕信息)来检测的。通常，合唱是通过检测包含重复的单词的歌曲部分来识别的。应当注意，隐藏式字幕不是理想的，而是例如可能包含排字错误或删节。图13是合唱检测过程1300的示例性实施方式的流程图。如图13所示的和下文中论述的那样，合唱检测过程1300在步骤1310中通过对隐藏式字幕执行关键短语检测、在步骤1320中执行潜在的合唱检测、在步骤1330中执行合唱候选确认以及在步骤1340中执行无规律的合唱检测和后分析来识别合唱分段。最后，在步骤1350执行自相关分析以识别任何合唱。

关键短语识别(步骤1310)

合唱包含最经常重复的歌曲中的歌词。通过检测和群集所述短语，能够识别出合唱分段的临时位置。为了选择包含合唱的潜在部分，对出现在歌曲中的短语的计数标记(tally)(计数值)进行编译。这些短语是取自副本的并且代表电视屏幕上的整行文本或者已用诸如逗号或句点之类的分隔符分开的行的部分。对于每个新的短语，判断所述短语是否存在于计数标记中并且对于该短语将计数器增加。否则，为新的短语创建新的收集器并且对于那个收集器将计数器初始化为一。对每首歌曲的全部文本都重复这个过程。在歌曲的末尾，把重复的短语指定为关键短语。

候选合唱检测(步骤1320)

合唱分段的潜在候选是那些包含两次或多次出现关键短语的分段。为了查找这些分段，识别在其上出现每个关键短语的时间戳。对于关键短语的每个时间戳，标明潜在的合唱。如果这种潜在的合唱是在另一个合唱的n秒范围之内，则就合并它们。根据许多歌曲的检验，假定合唱很少超过30秒长(n＝30)。

合唱候选确认(步骤1330)

只有那些包含两个或多个关键短语的候选才被选为合唱。如果选择了超过三个合唱，则按如下定义的具有最大密度的关键短语的三个合唱被确定：

密度＝合唱中关键短语的数量/合唱的持续时间

无规律的合唱检测和后分析(步骤1340)

对于所述概括，只需要正确地确定一次合唱。将向用户显现的“关键合唱”识别出。考虑到不同合唱的持续时间(15-30秒并不罕见)，在歌曲之内存在很大的不定性。这种不定性给预测合唱的位置和长度带来挑战。选择三个合唱中具有中间长度的合唱。第一个合唱可能优选是其余的合唱以便也使“引导(lead)”随着第一个合唱一起进入歌曲中。同样，合唱在歌曲内的放置是可变的。最终的合唱分析被用来选择与其它合唱具有合理距离的合唱。

自相关分析(步骤1350)

在音频内容分析中，研究人员已经使用了自相关以便找出合唱。例如参见J.Foote所著的“Visualizing Music and Audio Using SelfSimilarity(利用自相似性的可视化音乐和音频)”(Proc.ACMMultimedia′99，77-80，佛罗里达州奥兰多(1999年11月))，将该篇文献引入于此作为参考。本发明在副本上使用自相关分析来可视化歌曲的结构。为了查找自相关函数，在二维空间中编排副本中的所有单词并依据两个维度上的单词是否相同来用1和0填充矩阵。然后，对角地投影这个矩阵以便确定在这个角度上的峰值，所述峰值现在指示合唱出现在歌曲中的什么地方。

音乐视频概要

音乐视频概要包含来源于不同媒介(音频、视频和副本)中的视频的内容元素。在示例性的实施方式中，采用贝叶斯置信网络来捕获音乐视频的普通内容元素以及音乐事件的转变并且捕获组合的结构。BBN能用来将歌曲建模成例如那些具有乐器加诗句(V)和合唱(C)事件的歌曲。给定歌曲中的音乐事件的顺序例如可能是VVCVCC。然而，许多歌曲可能具有更复杂的结构、诸如合唱和诗句之间的桥接部分，而且在许多歌曲中甚至没有重复的合唱，而是整首歌曲是一个单独的整体诗句。利用BBN解决手段，即使丢失其中一个音乐事件，也仍然能够获得一个合理的概要。

图14示出了能用来对用于从构成概要的视频中查找元素的功能进行建模的贝叶斯置信网络1400。用于确定重要分段的条件概率可以按如下来计算。

上述等式给出了用于计算条件概率的一般情况。对于图14中给出的模型，所述概率可以按如下来计算：

其中

因为在示例性的实施例中有四个媒介元素，所以m的值为四(4)。取决于能够采取的概率的值的数量，n的值针对每个媒介元素而变化。例如，P(标题)的值可以是取决于用文本覆盖的图像的百分率、以0.1为步长的0和1之间的值。因此，在这里n是10。可以想象，在双亲节点中还能够包括诸如运动、音频-纹理和领导乐器/歌手高亮显示(highlight)之类的附加特征。

选择标准为每个媒介元素决定了将出现在概要中的内容。所述概要是来自于按如下定义的选择函数的输出。

音乐视频的概要是包含所有上述选择函数的输出的集合：

除了来源于视频的这些元素之外，还能够添加高级信息、诸如艺术家、标题和唱片之类的。这种高级信息例如能够从因特网中被提取出来以完成概要。

当然，贝叶斯置信网络仅仅是一种用来对概要的重要元素的选择进行建模的方法。人们可以考虑应用如H.Sundaram等人所著的“AUtility Framework for the Automatic Generation of Audio-Visual Skims(用于自动生成视听浏览的实用性构架)”(ACMMultimedia 2002，Juan Les Pin(2002年12月1-5日))中所述的Sundaram的利用最大化构架，或者如Yu-Fei Ma等人所著的“A UserAttention Model for Video Summarization(视频概括的用户注意力模型)”(ACM Multimedia 2002，Juan Les Pin(2002年12月1-5日))中所述的Ma的针对概括的用户注意力模型。这些模型都是用于概括的再生模型。他们对算法的设计者决定的什么是重要的进行建模。无人监督的机器学习技术能够被应用于音乐视频可视化和概括以便查找固有的结构模式和高亮显示部分。

可以为所显示的用户界面和信息类型而个性化概要。用户能够选择他们想要接收进来的概要的接口类型以及所展现的概要的特定内容。诸如更少的信息或更多的信息以及信息的放置之类的差别可以根据用户设置加以变更。用户还可以选择什么应该被包含在概要中。用户能够填写简略调查以表示他们想要看的信息类型。

正如在本领域中已知的那样，这里所论述的方法和设备可以以产品来发布，所述产品本身包括其中包含有计算机可读代码装置的计算机可读介质。计算机可读程序代码装置是可结合计算机系统来操作的，从而实现所有或一些步骤以执行这里所述的方法或创建这里所述的设备。计算机可读介质可以是可记录介质(例如，软盘、硬盘、光盘或存储卡)或者可以是传输介质(例如，包括光导纤维的网络、万维网、电缆或使用时分多路访问、码分多路访问的无线信道或其它射频信道)。任何能够存储信息的适用于与计算机系统一起使用的已知或已开发的介质都可以使用。计算机可读代码装置是允许计算机读取指令和数据的任何机构、诸如磁性介质上的磁性变化或光盘表面上的高度变化。

在此描述的计算机系统和服务器中的每一个都包含将配置相关的处理器来实施这里公开的方法、步骤和功能的存储器。存储器往往是分布式的或局部的，并且处理器往往是分布式或单独的。存储器往往被实施为电学的、磁性的或光学的存储器，或是这些或其它类型的存储装置的任意组合。此外，术语“存储器”应被足够广泛地解释成包含任何能够从相关处理器所访问的可编址空间中的地址中读取的信息或写入到上述地址中的信息。利用这个定义，网络上的信息仍然在存储器内，因为相关的处理器能够从所述网络中检索出所述信息。

将要理解的是，在这里所示的和所描述的实施例和变形仅仅是为了说明本发明的原理，而本领域的技术人员在不脱离本发明的范围和精神的情况下可以实施各种修改。

Claims

1.一种用于在多媒体流(505)中分段音乐视频(507)的方法，所述方法包括：

接收包括至少一个音乐视频(507)的多媒体流(505)；

通过估计与所述多媒体流(505)相关的多个内容特征(1210，1220，1230)，分段所述多媒体流(505)中的所述至少一个音乐视频(507)，利用模式识别引擎(1000)和一个或多个视频分段规则(1115)之一来处理所述多个内容特征(1210，1220，1230)；和

通过从所述至少一个音乐视频(507)中提取识别信息，确定所述至少一个音乐视频(507)的身份。

2.如权利要求1所述的方法，进一步包括生成所述至少一个音乐视频(507)的概要(410)的步骤。

3.如权利要求2所述的方法，其中根据个性化偏好，向用户呈现所述至少一个音乐视频(507)的所述概要(410)。

4.如权利要求1所述的方法，其中可以由用户根据个性化偏好来检索所述至少一个音乐视频(507)。

5.如权利要求1所述的方法，其中利用贝叶斯置信网络(1000)来处理所述多个内容特征(1210，1220，1230)，以分段所述至少一个音乐视频(507)。

6.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括面部存在特征，以估计所述多媒体流(505)中的面部呈现中的模式。

7.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括确定电视正文何时出现在所述多媒体流(505)中的电视正文存在特征。

8.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括彩色直方图特征，以估计所述多媒体流(505)的彩色内容中的模式。

9.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括照相机剪辑特征，以估计所述多媒体流(505)中的照相机剪辑和运动中的模式。

10.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括对从所述至少一个音乐视频(507)的副本中获得的关键词的分析。

11.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括对直接地从所述多媒体流中导出的低级特征的分析。

12.如权利要求11所述的方法，其中所述低级特征包括许多边缘或形状或局部或全局运动中的一个或多个。

13.如权利要求1所述的方法，其中所述多个内容特征(1210，1220，1230)包括音频特征。

14.如权利要求13所述的方法，其中所述音频特征估计所述多媒体流(505)的音量。

15.如权利要求13所述的方法，其中所述音频特征估计唛耳频率倒谱系数(MFCC)、线性预测系数(LPC)或间距带宽、音量或音调的变化中的一个或多个。

16.如权利要求1所述的方法，其中确定所述至少一个音乐视频的身份的步骤进一步包括：从外部源中获取用于所述至少一个音乐视频的识别信息。

17.一种用于在多媒体流(505)中分段音乐视频(507)的设备，所述设备包括：

用于接收包括至少一个音乐视频(507)的多媒体流(505)的装置；

用于将与所述多媒体流(505)相关的多个内容特征(1210，1220，1230)应用于模式识别引擎(1000)以便分段所述多媒体流(505)中的所述至少一个音乐视频(507)的装置；和

用于通过从所述至少一个音乐视频(507)中提取识别信息来确定所述至少一个音乐视频(507)的身份的装置。

18.如权利要求17所述的设备，其中所述模式识别引擎(1000)是贝叶斯置信网络。

19.如权利要求17所述的设备，其中所述模式识别引擎(1000)是神经网络。

20.如权利要求17所述的设备，其中所述模式识别引擎(1000)采用自回归移动平均技术。

21.如权利要求17所述的设备，其中所述多个内容特征(1210，1220，1230)包括下列特征中的至少两个特征：面部存在特征；电视正文存在特征；彩色直方图特征；照相机剪辑特征；以及对从所述至少一个音乐视频(507)的副本中获得的关键词的分析。

22.一种用于在多媒体流(505)中分段音乐视频(507)的设备，所述设备包括：

用于接收包括至少一个音乐视频(507)的多媒体流(505)的装置；

用于将与所述多媒体流(505)相关的多个内容特征(1210，1220，1230)应用于一个或多个视频分段规则(1115)以便分段所述多媒体流(505)中的所述至少一个音乐视频(507)的装置；和

23.如权利要求22所述的设备，其中所述多个内容特征(1210，1220，1230)包括下列特征中的至少两个特征：面部存在特征；电视正文存在特征；彩色直方图特征；照相机剪辑特征；以及对从所述至少一个音乐视频(507)的副本中获得的关键词的分析。

24.如权利要求22所述的设备，其中所述一个或多个视频分段规则(1115)定义用于所述多个内容特征(1210，1220，1230)的阈值，以确定何时视频分段已出现。