CN1290039C

CN1290039C - 自动进行音频内容分析的系统和方法

Info

Publication number: CN1290039C
Application number: CNB991270800A
Authority: CN
Inventors: 德拉古丁·皮特科维奇; 杜尔斯·比特里斯·庞塞龙; 萨维萨·斯里尼瓦桑
Original assignee: International Business Machines Corp
Current assignee: Hu Lu limited liability company
Priority date: 1999-01-19
Filing date: 1999-12-28
Publication date: 2006-12-13
Anticipated expiration: 2019-12-28
Also published as: KR20000076488A; TW469422B; CN1261181A; JP2000259168A; US6185527B1; KR100380947B1; JP3531729B2

Abstract

对一个音频流进行索引的系统和方法，以用于随后的信息检索和快速浏览，找要旨和概述音频流，这个系统和方法包括使用特殊的音频预滤波，以使仅索引被一个语音识别引擎所产生的相关语音段。一个信息检索系统在对词识别索引后被使用，公开了可以改善该信息检索系统的查准率和查全率的特殊索引特征。本发明包括将音频流分成间隔，每一个间隔包括一个或者多个段。对一个间隔的每一个段，它判断这个段是否具有一个或者多个预定音频特征。

Description

自动进行音频内容分析的系统和方法

技术领域

本发明一般涉及包括从视频中提取出来的音频流的音频流，更特别地，涉及用于对音频流进行分类和做索引，以支持随后对音频流所进行的检索，找要旨，总结，浏览，和一般搜寻的系统和方法。

背景技术

伴随着计算机普通应用的快速增长，特别是多媒体计算机应用的快速增长，从例如音频-视频应用中继续制造出大量音频，并且然后将音频使用电子的形式来保存。如本发明所认识到的，当音频文件的数量增加时，快速使用被保存的音频流和有效地仅使用已存在的音频文件目录或者其它已经存在的访问装置就变得更困难了。例如，访问从视频获得的一个音频流，基于一个用户的查询来检索信息，或者提供音频流的一个概述，或者使一个用户浏览或者找一个音频流的要旨是很理想的方式。所以，本发明认识到需要有效地搜寻特定音频流的不断增长的需求，这个特定的音频流是一个用户所希望访问的，但是它被与其它成千的音频流一起保存。

传统的信息检索技术是基于这样一个假设：源文本，是从音频推导出的或者不是，是没有噪声和错误的。但是，当从音频推导出一个源文本时，上述假设就有问题了。这是因为语音识别引擎被用于将一个音频流转换为一个计算机保存的文本，并且因为这个任务本身是不精确的，并且本质上是困难的，所以这种转换实际上是不可能没有错误并且不可能不对文本引入噪声。例如，在一个音频流中的特定词可能不会被正确识别(例如，说“land”将被翻译成“lamb”)或者根本不能识别，由此消除了查全率能力和一个信息检索系统的查准率。“查准率”意味着一个系统仅检索“正确”文档的能力，而“查全率”指一个系统检索尽可能多的正确文档的能力。理想的是，我们已经认识到，有可能解决语音识别引擎在将音频流转换为文本时的限制，并且因为解决这些限制，有可能改善一个信息检索系统的查准率和查全率。

除了上述考虑，本发明认识到在许多情形下，一个用户可能希望调用一个数字保存音频流来听，但是这个用户可能不希望听或者访问整个音频流的信息，而仅希望听或者访问某一个特定部分的音频流信息。实际上，一个用户仅希望听一个音频流或者多个音频流的概要，或者仅希望理解一个音频流的要旨。例如，一个用户仅希望听音频流中与特定题目相关的部分，或者音频流中某个特定人所讲的部分，或者在记录程序的情形下，一个用户希望仅听这个程序中非商业部分。类似地，一个用户可能希望“快速地听”音频。例如，一个用户可能希望快速地听完一个音频流中“不太感兴趣”的部分(例如商业部分)，而以一个可理解的速度来听“感兴趣”的部分。

但是，过去所做的音频内容分析努力，例如日本专利公开8063184和10049189和欧洲专利公开702351中所公开的那些，已经基本上不是集中在上述考虑上，而是简单地集中在改善语音识别计算机输入装置的准确性上，或者集中在改善数字处理语音的质量上。而对他们所作努力有效的是，这些过去所做到努力没有考虑基于流中音频事件的索引，由此也没有访问音频的索引，来支持随后对计算机保存的音频流所进行的搜寻，找要旨，和概述。

美国专利5,199,077公开了用于语音编辑和索引的词识别。这个方法用于单个说话者音频或者视频记录的关键字索引。上述日本专利公开8063184和10049189指作为改善语音识别准确性的音频内容分析。另外，日本专利公开8087291A使用了改善语音识别系统速度的音频分析。上述欧洲专利公开EP702351A包括了识别和记录音频事件，以帮助识别不知道的短语和语音。美国专利5,655,058描述了基于说话者的身份来对音频数据进行分段的一个方法，而欧洲专利公开EP780777A描述了语音识别系统处理一个音频文件，来提取所说的词来检索音频。

这些系统中所公开的方法的目的是用于改善用于识别的准确性和性能。所公开的索引和检索系统是基于说话者身份的，或者是音频带上语音识别的直接应用，和使用词作为搜寻词。

发明内容

相反，本发明的目的是检索，分类和概述真实世界的、如这里所理解的、很少包括单个说话者，仅包括单个语音段的清晰音频的音频。认识到这些考虑，本发明使用下面完全提出的系统和方法，改善了前述词识别技术，其中音乐和噪声被从语音段中分段，语音识别被应用到清晰语音段，建立了一个考虑了音频分析结果的先进检索系统。

已经描述了其它分析音频内容的技术，包括在Erling等在1996年IEEE多媒体上发表的、题为“基于内容的音频分类，搜寻和检索”(以后称作“Musclefish”)中所公开的方法。但是，Musclefish用于对声音进行分类的方法不是由探索式判断规则驱动的，而是由统计分析来驱动的。如本发明所认识到的，探索式判断规则在对声音进行分类时比统计规则更可靠，并且与一个基于统计的系统相比，基于一个规则的分类方法能够更准确地对声音进行分类。进一步，Musclefish系统仅用于短音频流(少于15秒)。这使它在从长流中检索信息时会产生不准确性。

另外，还描述了其它对音频作索引的方法，包括Pfeiffer等在ACM多媒体96(1996)发表的、题为“自动音频内容分析”(以后称作“MoCA”)中的公开的方法。与许多类似的方法类似，但是，MoCA方法是与域相关的，即它寻找来标识与特定视频事件类型，例如暴力相关的音频。本发明认识到，许多音频和多媒体应用将从基于其内容的音频分段，分类和搜寻的更一般能力，特别是基于一个或者多个预定音频事件的音频分段，分类和搜寻的更一般能力中获益。

已经公开了一个方法，用于实现在长的、没有结构的音频流，包括已经被从音频-视频数据中提取的音频流中进行可靠的信息检索，另外这个方法称作“词识别”。本发明使用特殊的音频预滤波来标识与域/应用相关的声音边界，来仅检索被一个语音识别引擎所产生的相关语音段，来在下面所公开的其它应用中实现随后的可靠词识别。为了达到这个目的，本发明分析了音频流的内容来用相关的可信度标识与内容相关的，与应用相关的，与类型相关的清晰语音边界。然后，本发明使用被一个语音识别引擎所产生的可信度并且将这个可信度与本发明的权重组合来仅检索音频被选择部分的一个抄本(即相关语音)，如语音识别引擎所产生的。这样，本发明不寻找方法来本质上改善语音识别引擎，但是通过改善检索音频流的方法，来改善信息检索系统的查准率和查全率(这可以使用语音识别引擎)。

本发明可以根据本发明的步骤进行编程，来被实现为一个通用计算机程序，以对音频信号进行分类和索引，音频信号在这里还可被称作音频流，包括从视频中提取的音频，用于随后将这个音频流的一个视觉概述提供给一个用户来允许这个用户浏览或者，快速掠过流，并且仅播放那些感兴趣的音频段，和/或者对音频流做索引以用于信息检索。

本发明可以被体现为一个制造的论文-一个机器部件-它被一个数字处理装置所使用，并且确实体现为被这个数字处理装置执行来实现本发明逻辑的一个指令程序。本发明在促使一个数字处理装置执行这里所描述的本发明方法步骤的一个精确机器部件中实现。从其它方面来说，一个计算机程序被公开，它是可以被一个数字处理装置阅读的，并且确实体现为一个计算机程序。这个计算机程序产品将一个计算机可阅读媒质与执行下面所公开的逻辑的程序代码部件组合在一起。并且，一个用计算机实现的方法被公开来执行这里的逻辑。

所以，从一方面来说，用计算机实现的、用于分析一个音频信号的方法包括检测在一个或者多个音频信号间隔中的音频事件，并且每一个间隔包括一个或者多个段的临时序列。音频事件被分析，以用相关的可信度来标识语音边界，并且然后这个方法使用探索式判断规则，基于语音边界和可信度来对音频信号作索引，来改善查准率。另外，这个方法使用一个相关的权重来对音频信号中至少一个词的替代做索引，来改善随后所进行的一个或者多个的查全率：使用这个索引进行词识别，概述，和快速浏览音频信号。

本发明提供一个用计算机实现的方法，用于分析一个音频信号，包括：检测音频信号中一个或者多个间隔中的音频事件，每一个间隔包括一个或者多个段的临时序列；根据音频事件对音频信号进行索引；以及使用所述音频信号的索引来对音频信号进行快速浏览、找要旨或概述，其中，检测步骤包括：判断一个间隔的段是否具有一个或者多个预定音频特征，每一个预定音频特征表示包括至少音乐和语音的至少一个相应音频事件；对判断步骤作出响应，将间隔与相应的音频事件相关，来对间隔进行分类；以及至少是部分地根据间隔类型来对音频信号进行索引。

另一方面，一个计算机被公开来对一个音频信号进行分类和作索引。如下面所详细提出的，这个计算机具体体现为计算机可使用代码装置，包括将这个音频信号分成间隔的逻辑装置，每一个间隔包括一个或者多个段。然后，逻辑装置判断一个间隔的段是否有一个或者多个预定音频特征，这也可以被称作“音频特征”，其中每一个音频特征表示至少一个相应的音频事件。另外，逻辑装置通过对判断装置作出响应，将间隔与相应音频事件相关，来对间隔进行分类。进一步，提供逻辑装置来判断至少一个间隔组是否与一个预定元图案集合中的一个元图案匹配，并且当判断间隔组与一个元图案匹配时，逻辑装置将这个间隔组与一个元图案类别相关。然后，逻辑装置基于间隔类别和元图案类别来对音频信号做索引。

在一个优选实施方式中，逻辑装置使用一个语音识别引擎仅处理音频信号中相关部分来从信号中翻译词。这个引擎产生被识别的词和它们的替代词，并且提供开信度。在一个简单的实施方式中，我们仅检索可信度为90％或者更高的长词(三个字符或者更多)。一个更通用的方法是根据权重来检索被识别的词和替代词，其中权重决定于识别的可信度，替代词的可信值(如果有)，被识别词的长度和是否。

另外在一个优选实施方式中，每一个预定音频特征是基于下面中的一个或者多个：音频信号至少一部分的过零率(ZCR)，音频信号至少一部分的能量，音频信号至少一部分的频谱能量(SE)密度，和频率(F)。另外，在这个优选实施方式中，预定音频事件集合包括音乐，语音，沉默，和关于音乐的语音。就元图案来说，预定图案集合包括，但是不局限于连续非中断语音(例如一个新闻广播或者教育节目)，和与语音结合的音乐(例如商业目的的)，其中阅读图案集合是探索式定义的。

另外，进一步，本发明希望基于语音中“感兴趣的事件”例如语音中的重音，语音中的停顿来对包括语音的音频流进行分类和索引，并且总结语音中的想法。所以，提供了方法来判断至少已经被分类为语音的一个间隔的每一个采样序列中的一个最主要的频率。当它们包括一个主要频率的高M％频率时，语音间隔与语音中的重音相关，其中M是一个探索判断的数字，优选是1。另一方面，当它们包括一个主要频率的低M％频率时，语音间隔与语音中的总结想法相关。进一步，如果临时序列间隔，所有临时序列间隔均与语音中的重音相关，定义了比一个预定时间间隔大的一个时间间隔，整个序列被索引为语音中的一个重要想法。

在一个特定的优选实施方式中，提供了在对间隔进行分类以前，归一化段的逻辑装置。另外，逻辑装置提供间隔的索引和元图案类别，来使用信号的索引对音频信号进行快速浏览，找要旨和概述。

为了判断一个间隔的一个段是否具有一个或者多个预定音频特征，提供了装置来判断与这个段相关的一个或者多个音频特征是否等于一个相应的阈值。如果是，与这个音频特征的一个计数器就增加1，在已经测试完一个间隔中所有段以后，将这些计数器与间隔中段的数目进行比较，然后根据这个比较来对这个间隔进行分类。

另一方面，一个计算机程序产品包括可以被一个数字处理装置阅读的一个计算机程序保存装置，和这个程序保存装置上的一个程序方法。这个程序方法包括可以被这个数字处理装置执行的程序代码部件，以执行检索至少一个音频信号的方法步骤，以随后对信号进行概述，来允许一个用户使用这个概述来仅浏览和/或者播放感兴趣的音频类型。根据本发明，这个方法步骤包括将音频信号分成间隔，其中每一个间隔包括一个或者多个段，这个方法还包括判断一个间隔的段是否具有从特征集合中选择出的一个或者多个预定音频特征，这个特征集合包括音频信号至少一部分的过零率，音频信号至少一部分的能量，音频信号至少一部分的频谱能量密度，和音频信号至少一部分的频率。如本发明所提到的，每一个音频特征表示包括至少音乐和语音的至少一个相应音频事件。通过将间隔与相应的音频事件，和至少部分是根据间隔类别的音频信号索引相关，来对间隔进行分类。

附图说明

通过参考附图，可以更好地理解本发明的细节，包括其结构和操作，其中类似的标号指类似的部分，其中：

图1是本发明系统的一个原理图；

图2是本发明的整体索引逻辑的一个流图；

图3是判断段音频特征的逻辑的一个流图；

图4是判断一个段是否是沉默的逻辑的一个流图；

图5是判断一个段是否是语音的逻辑的一个流图；

图6是图5所显示的逻辑的后续流图；

图7是判断一个段是否是音乐的逻辑的一个流图；

图8是图7所显示的逻辑的后续流图；

图9是判断一个段是否是关于音乐的语音的逻辑的一个流图；

图10是图9所显示的逻辑的后续流图；

图11是显示用于快速浏览，找要旨和进行概述的逻辑的一个流图；

图12是显示用于根据词和根据音频中“感兴趣的事件”来进一步对一个音频流进行分类和索引的逻辑的一个流图；

图13是显示用于判断语音采样是否表示语音的重音，语音中总结想法，和语音中重要想法的逻辑的一个流图；

图14是判断是否提供了谐波的逻辑的一个流图；

图15是显示从被索引的音频流中总结出来的概述的一个流图；和

图16是概述已经被索引的音频流的一个屏幕的示意图。

具体实施方式

开始参考图1，用于分析音频内容(包括音频-视觉数据的音频内容)来索引，分类和检索音频的一个系统被显示，一般地称作10。在所显示的这个特定结构中，系统10包括一个数字处理装置，例如一个计算机12。在一个预期的实施方式中，这个计算机12可以是如所显示的Armonk N.Y.国际商用机器公司(IBM)制造的一个个人计算机，或者计算机12可以是任何一个计算机，包括商标为AS400并且配备IBM网络工作站的计算机。或者，这个计算机12可以是一个Unix计算机，或者OS/服务器，或者Windows NT服务器，或者IBM RS/6000250工作站，其内存为128MB，并且运行AIX3.2.5，或者一个IBM的便携式计算机。

这个计算机12包括一个音频引擎14，图1原理性地显示了音频引擎14，音频引擎14可以作为一系列计算机可执行指令，被这个计算机12中的一个处理器执行。这些指令可以驻留在例如计算机12的RAM中。

替代地，这些指令可以被保存在具有一个计算机可阅读媒质的一个数据保存装置中，例如图1所显示的一个计算机磁盘16，这个计算机磁盘16可以与计算机12的一个软盘驱动器17一起工作。或者，指令可以被保存在一个DASD阵列，磁带，传统硬盘驱动器，电子只读存储器，光存储装置，或者其它合适的数据保存装置上。在本发明的一个示例性实施方式中，计算机可执行指令是C++代码。

图1还显示了系统10可以包括该技术领域所熟知的计算机外设，包括一个输出装置例如一个视频显示器18和/或者打印机20，和一个输入装置例如一个计算机键盘22和/或者一个鼠标24。可以使用其它输出装置，例如其它计算机，等等。类似地，可以使用除了键盘22和鼠标24以外的输入装置，例如跟踪球，键盘片，触摸屏幕和语音识别装置。

这个计算机12可以经过一个数据传输路径25访问包括音频数据的一个电保存数据库26。这个音频数据可以被从一个合适的音频源28输入到数据库26中。应理解，这个音频数据可以直接从音频源28被输入到引擎14，音频源28可以是模拟或者数字音频源，例如一个广播网络或者收音机台。还应理解，数据库26可以被保存在本地计算机12中，在这个情形下，路径25是一个局域网或者广域网例如互联网。为了描述简短，这个引擎14访问一个语音识别引擎29。这个语音识别引擎29可以是任何合适的语音识别引擎，例如其代理人与本发明的代理人相同的美国专利号5,293,584中所公开的语音识别引擎，在这里，该专利号用作参考。这个语音识别引擎29可以是本发明代理人的“大词汇连续语音识别”系统。

为了演示本发明的应用，即概述和快速浏览，参考图15。从模块300开始，使用下面提出的探索式定义规则索引一个接收的音频流。然后，在模块302，对每一个用户的请求，显示被索引音频的一个概述。这样一个概述304被显示在图16的显示屏幕306上，应理解，显示屏幕306可以被提供在显示器18(图1)上。如所显示的，概述304可以包括音频类型，音频类型包括噪声，语音，音乐，被强调的语音，笑声，动物的声音，等等。

移动到图15的模块308，这个用户从一个播放选项菜单310(图16)选择一个观看或者播放选项，并且根据这个用户选择，被选择的音频被“变细”，即进行播放而不插入没有选择的音频。如所显示的，这个用户可以选择使用临时序列播放在模块302中选择的音频类型，或者通过相关，即被选择音频类型的可信度或者可能性。如果这个用户选择“相关”，这个过程移动到图15的模块312，来分析被索引的音频，以仅播放对这个用户来说感兴趣的音频事件。

正在被播放的音频身份被显示在屏幕306上一个播放窗口314中。如果这个音频是从视频推导出的，这个视频可以被播放在窗口314中。这个用户还可以选择一个“前一个”按钮316来选择前一个音频剪辑，可以选择一个“下一个”按钮318来选择下一个音频剪辑，并且选择一个“播放”按钮320来听被选择的剪辑，即促使播放被选择的剪辑。如上述，但是，本发明还有其它的应用，包括通过词识别进行信息检索。与应用无关，本发明有效检索音频的能力使随后的应用能够更容易地进行，并且在词识别情形下，可以更准确，而改善了查全率。

所以，现在回到本发明索引音频流的逻辑，参考图2。从模块30开始，音频流被音频引擎14接收。应理解，可以使用快速傅立叶变换(FFT)函数来对流进行变换，然后在下述步骤以前，FFT的低幅度噪声分量被从信号中滤出。

移动到模块31，流被分成临时连续的间隔，例如2秒的持续时间，每一个间隔被分成一个或者多个持续100毫秒(100ms)的段。但是，本发明的范围内，可以使用不同持续时间的间隔和段。

从模块31，逻辑移动到模块32，来测试每一个段，以通过判断每一个段的音频特征，如下面所完全提出的，判断段是否可以被最佳分类成一预定音频事件集合中的一个音频事件集合。本发明优选实施方式中的这些预定音频事件包括沉默，音乐，和关于音乐的语音。如果不能够对一个段进行分类，它被标记为不能判断类型的段。

下面逻辑移动到模块33，其中通过将间隔与音频事件中的一个进行相关，即根据在模块32中所获得的、关于其段的测试结果，每一个间隔被与上述音频事件中的一个相关。然后，在模块34中，判断间隔的一个临时序列(如需要，通过容许某些偶然“丢失”的间隔)是否与探索式预定元图案类型集合中的一个匹配。根据在模块33中所获得的间隔类型，来在音频流中识别出现在音频信号或者流中的元图案。例如，30秒的短、交替的音乐，语音，和关于音乐的语音的任何顺序的序列可以与一个预定“商业”元图案类型匹配，这样在模块35中被分类为组成正在被判断的特定元图案类型。或者，一系列语音-音乐-语音间隔类型可以与探索式预定来建立一个“教育/培训”类型的一个元图案匹配。其它元图案，例如“卡通”和“新闻”可以类似地被探索式预定。实际上，元图案的元图案可以被探索式预定义，例如定义一个元图案“广播新闻中断”为连续地4个并且仅4个商业元图案。所以，位于本发明的范围内的很多元图案类型可以被探索式定义。现在，可以理解，一个元图案基本上是一个预定各种分类间隔序列。

从模块35，过程移动到模块36，来使用语音识别引擎29(图1)来处理被选择的音频流部分。语音识别引擎29将它处理的音频流部分转换为文本，文本由包括字母-数字的字符的词表示。重要地，在模块36中不需要处理整个音频流。而是，仅部分音频流，例如在模块35中被分类为“新闻广播”的部分音频流，可以被发送到语音识别引擎，以进行处理。如这里所认识到的，使用一个语音识别引擎处理一个长的、没有结构的、包括几个不同类型域/应用的语音边界的音频流可以在语音识别引擎的输出中产生错误。例如，当一个语音识别引擎试图将具有语音和音乐的一个段转换为文本时，这个语音识别引擎可以产生很多错误。所以，仅处理特定(相关)类型的域/应用语音段可以减少传统语音识别引擎的内在缺点所产生的错误。

如模块36所显示的，虽然被选择的音频部分被转换为文本，两个权重，即“可信度”权重和“强调”权重可以用于至少部分，优选是全部被产生的词。这些权重部分是基于一个特定的词是否是从一个“被强调”的语音段推导出来的，如下面进一步所描述的。

下面，在模块37中，仅对满足下述两个准则的词，进入一个“做”循环：词的长度必须至少是“N”个字符，其中“N”是优选等于例如3的一个整数，和词必须从语音识别引擎29返回并且具有至少90％的可信度。可信度可以是可能性的一个范围，如果需要。本发明这样利用语音识别引擎的特征来将长时间说话更准确地转换为文本，与将短说话词转换为文本时语音识别引擎的准确性相比。模块37中的步骤可以看作是其中长度少于“N”的词没有被索引的一个滤波器。作为一个替代，所有长度的词在模块37中均可以被考虑，长度短的词在较后的时候被删除，或者在检索的时候排队位置较低。

“做”循环进行到模块38，其中语音识别引擎29被查询来替代正在被测试的词。在模块39中，优选将头两个替代标识为正在被测试的词的索引词，尽管可以考虑所有替代，如果需要。类似于正在被测试的词，权重被分配给替代词。类似地，可以使用替代词格子，而不是多个替代词。然后，在模块40中，使用词和替代，以及相应的权重来索引流，以用于一个信息检索系统所进行的随后的检索，例如该技术领域所熟知的“Okapi”系统。记住上述公开，可以理解，为了支持基于查询的、随后进行的文本信息检索，在模块40中仅需要索引相关的语音段。

对检索来说，如本发明所认识到的，不存在于一个词识别系统的词汇表中的词将不会出现在所产生的副本中；所以，如果进行查询，这些词汇表中没有的词就不会返回任何结果。记住这点，一个检索系统，例如“Okapi”系统，可以被修改，以使当不返回任何结果时，这个检索系统访问从一组类似的域(例如，广播新闻，办公室记者，或者医药)推导出的一个词典来扩展或者用这个词典中的词来替代查询中词汇表中没有的词。

如上述，对每一个词计算权重(和其替代，如果有)。被分配到一个词的权重决定于几个因素，包括这个语音识别引擎所返回的相关可信度，反文档频率，和词是否是“被强调”的。在一个特殊优选实施方式中，如下述来决定一个词的权重：

如果

α₁＝0.5和α₂＝1+α₁(经验公式决定)；

l_d＝文档“d”的长度，l是平均文档长度；

q_k＝查询中第k^th项；

C_d(qk)是文档“d”的查询项“k”的计数；

EC_d(q_k)＝E_dk是文档“d”的查询项“k”的期望计数；

C_q(q_k)是查询项“q”中第k项的计数；

E_q(q_k)＝E_qk是查询项“q”中第k项的期望计数；

n(q_k)＝包括项q_k的文档的数目；

n’(q_k)＝包括项q_k的文档的期望数目；

Q’＝包括如上述所有替代词的查询中项的总数目，N是文档的总数；

p_i(q_k)＝表示来自词识别引擎的，第k查询项的第i次出现的可信度的权重；

e_i(q_k)＝表示第k查询项的第i次出现的重要的权重；

然后，第k查询项的反文档频率＝idf(q_k)：

idf(q_k)＝log{(N-n’(q_k)+α₁)/(n’(q_k)+α₁)}

和相对于查询“q”来对文档“d”进行排序的相对分＝S(d，q)：

S(d，q)＝{E_dk*E_qk*idf(q_k)}/{α₁+α₂(l_d/l’)+E_dk}的从k＝1到Q’的和

其中

E_dk＝关于文档“d”的{p_i(q_k)*e_i(q_k)}的从i＝1到Q’的和，和

E_qk＝关于查询“q”的{p_i(q_k)*e_i(q_k)}的从i＝1到Q’的和。

当查询被敲入，并且所有项具有相同的重要性时，e_i(q_k)是一个常数，例如“e”。另一方面，当用户希望修改一个项的重要性时，他或者她能够敲一个前缀字符，例如“+word”，在这个情形下，e_i(q_k)是0和1(包括1)之间的一个缺省值，由系统选择。如果说出了查询，由此以及强调了项，就使用下面寻找语音重音的逻辑来判断每一项的重音前缀，并且e_i(q_k)是0和1之间的一个值。

图3显示了处理音频流中每一段的进一步细节。从模块44开始，进入一个DO循环，其中对每一第k个段，在模块46中判断一个或者多个声音特征，并且在模块48中归一化。更特别地，在模块46中，可以判断每一个段的过零率(ZCR)，能量(E)，和谱能量密度(RS_i)，以及位于各种预定范围i的频率。如下面所提出的，可以使用所有或者仅这些音频特征的一个子集。

“过零率”意味着一段中，音频信号幅度过零的次数。“能量”意味着每一个段的音频信号平方幅度和。相反，每一段的谱能量密度通过多个RS_i值来建立，每第i个频率范围有一个RS_i值，这个值定义为这个段中所出现的每第i个频率范围中的频率平方和。仅通过示例，第一频率范围R1是0-1000赫兹，第二频率范围R2是1000-8000赫兹，第三判断范围R3是8000-16,000赫兹，第四频率范围R4大于16,000赫兹。

但是，可以使用除了上面提到的优选特征外的音频特征。例如，可以使用亮度(作为一个对数频率保存的短形式傅立叶幅度谱的质心)，还有带宽，谐波性(声音线谱对一个理想谐波谱的偏离)，和音调。

在模块48中，被计算的音频特征被统计性地归一化。一个测量音频特征的归一化版本是被测量音频特征和这个特征在所有段中的平均值，之间的差的系数，和特征对所有段的标准偏差。例如，一段的归一化谱能量密度NR_i如下：

NR_i＝(RS_i-mean(RS_i))/σ_Rsi

现在参考图4，本发明通过其来测试音频段的逻辑可以被看到。应理解，图4-10显示了优选探索集合，并且伴随有优选阈值，以定义对语音，沉默，音乐等等进行的各种测试，并且可以定义其它特定探索和/或者阈值。从模块50开始，对一个间隔中的每一段进入一个DO循环。进行到判断模块52，它判断与正在被测试的段中的所有被采样频率相比，段中位于第一频率段R1中的频率百分比是否大于90％，当优选采样频率44KHz和段持续时间100毫秒被使用时，每段就获得了20个采样。

如果段中大于90％的采样频率位于第一频率带R1中，处理移动到模块54，来标识或者否则标记或者将段分类为“沉默”。从模块54，或者如果测试是负的就从判断模块52，逻辑进行到判断模块56来判断这个间隔中的最后一个段是否已经被测试，并且如果没有，逻辑移动到模块58，来获得下一段，由此返回到判断模块52。但是当已经测试完最后一段时，逻辑在状态60结束。

图5显示了用于判断一段是否是一段语音的本发明的测试。从模块62开始，对一个间隔中的每一段，进入到一个DO循环。进行到判断模块64，它判断与正在被测试的段中的所有被采样频率相比，段中位于第三频率段R3中的频率百分比是否大于15％。如果是，在模块66中，一个SpeechFreq计数器就增加一个单位。

从模块66，或者如果测试是负的就从判断模块64，逻辑进行到判断模块68来判断正在被测试的段的过零率(ZCR)是否大于6。如果是，在模块70中，一个SpeechZcr计数器就增加一个单位。从模块70，或者如果测试是负的就从判断模块68，逻辑进行到判断模块72来判断这个间隔中的最后一个段是否已经被测试，并且如果没有，逻辑移动到模块74，来获得下一段，由此返回到判断模块64。但是当已经测试完最后一段时，逻辑进行到图6。

如本发明所认识到的，可以使用音频中出现(或者没有出现)谐波频率来判断音频是音乐或者是语音。典型地，使用谱分析来对音乐谐波或者和音分段来进行音调分析，和判断一段音乐的结构。但是，本发明使用不出现检测的音乐谐波来作为对语音的一个可靠测试。

所以，如图6所显示的，在测试完一个间隔的段后，为了将间隔分类为“语音”，在优选实施方式中必须满足3个条件。更特别地，从判断模块73开始，它判断这个间隔是否已经被根据图14所显示的逻辑被标记为“谐波”，如下述。如果没有(表示这个间隔是语音)，过程移动到判断模块74，其中它判断SpeechFreq计数器的值是否大于这个间隔中段数目的40％。换句话说，在判断模块74中，它判断这个正在被测试间隔中至少40％的段满足图5判断模块64的条件。如果是，逻辑然后移动到判断模块76，来对语音进行第二个测试，即判断SpeechZcr计数器的值是否少于正在被测试间隔的段数目的20％。换句话说，在判断模块76中，它判断正在被测试间隔的至少20％段满足图5判断模块68的条件。如果没有满足图6中判断模块74，76中任何一个的测试条件，或者如果在判断模块73中发现这个间隔是“谐波”的，这个逻辑在状态78结束；否则，这个间隔被分类为“语音”并且在结束前进行索引，在模块80中。应理解，还在图6的过程末尾，根据Speech计数器的值可以产生一个可信度，可信度表示被分类为“语音”的一个间隔在随后将间隔序列与元图案匹配中实际上是语音的可能性。

现在参考图7，显示了用于判断一个段是否是音乐的本发明测试。从模块82开始，对一个间隔中的每一段，进入到一个DO循环。进行到判断模块84，它判断与正在被测试的段中的所有被采样频率相比，段中位于第三频率段R3中的频率百分比是否大于15％。如果是，在模块86中，一个MusicFreq计数器就增加一个单位。

从模块86，或者如果测试是负的就从判断模块84，逻辑进行到判断模块88来判断正在被测试的段的过零率(ZCR)是否少于5。如果是，在模块90中，一个MusicZcr计数器就增加一个单位。从模块90，或者如果测试是负的就从判断模块88，逻辑进行到判断模块92来判断正在被测试段(如图3的模块48所判断的)的归一化谱能量密度NR₃是否大于10万(100,000)。如果是，在模块94中，一个MusicSpectralEn计数器就增加一个单位。从模块94，或者如果测试是负的就从判断模块92，逻辑进行到判断模块96来判断这个间隔中的最后一个段是否已经被测试，并且如果没有，逻辑移动到模块98，来获得下一段，由此返回到判断模块84。但是当已经测试完最后一段时，逻辑进行到图8。

在测试完一个间隔的段后，为了将这个间隔分类为“音乐”，必须满足3个条件中的任何一个条件。更特别地，从判断模块100开始，它判断MusicFreq计数器的值是否大于这个间隔中段数目的80％。如果是，然后逻辑移动到模块102来将这个间隔分类为“音乐”，索引这个间隔，并且结束。但是，如果段没有通过判断模块100中的第一测试，逻辑进行到判断模块104来使用音乐的第二测试，即判断MusicZcr计数器的值是否大于这个正在被测试间隔中段数目的95％。如果满足了第二测试，然后逻辑移动到模块102来将这个间隔分类为“音乐”；否则，逻辑进行到判断模块106来使用音乐的第三测试。

在判断模块106，它判断MusicSpectralEn计数器值是否大于段数目的80％。如果满足这个测试，然后这个间隔在模块102中被分类为“音乐”。仅当所有3个音乐测试均没有通过时，逻辑在状态108结束，而不将段分类为“音乐”。

现在参考图9，显示了用于判断一个段是否是关于音乐的语音的本发明测试。从模块110开始，对一个间隔中的每一段，进入到一个DO循环。进行到判断模块112，它判断与正在被测试的段中的所有被采样频率相比，段中位于第三频率段R3中的频率百分比是否大于15％。如果是，在模块114中，一个SOMFreq计数器就增加一个单位。

从模块114，或者如果测试是负的就从判断模块112，逻辑进行到判断模块116来判断正在被测试的段的过零率(ZCR)是否大于5并且少于10。如果是，在模块118中，一个SOMZcr计数器就增加一个单位。从模块118，或者如果测试是负的就从判断模块116，逻辑进行到判断模块120来判断正在被测试段的归一化谱能量密度NR₃是否大于9万(90,000)。如果是，在模块122中，一个SOMSpectralEn计数器就增加一个单位。从模块122，或者如果测试是负的就从判断模块120，逻辑进行到判断模块124来判断这个间隔中的最后一个段是否已经被测试，并且如果没有，逻辑移动到模块126，来获得下一段，由此返回到判断模块112。但是当已经测试完最后一段时，逻辑进行到图10。

在测试完一个间隔的段后，为了将这个间隔分类为“关于音乐的语音”，必须满足2个条件中的一个条件，它们组合中的一个。从判断模块128开始，它判断SOMZcr计数器的值是否大于这个间隔中段数目的70％。如果是，然后逻辑移动到模块130来将这个间隔分类为“关于音乐的语音”，索引这个间隔，并且结束。但是，如果段没有通过判断模块128中的第一测试，逻辑进行到判断模块132来使用关于音乐的语音的第二组合测试中的第一子测试。特别地，在判断模块132中判断SOMFreq计数器的值是否少于这个正在被测试间隔中段数目的50％。如果满足了第一子测试，然后逻辑移动到判断模块134来进行第二子测试，以判断SOMZCR计数器的值是否大于这个间隔中段数目的15％。如果这个子测试的结果是正的，逻辑移动到判断模块136来判断SOMSpectralEn计数器值是否大于段数目的10％。仅当第二组合测试中的所有3个子测试均被满足时，这个逻辑移动到模块130将这个间隔分类为“关于音乐的语音”；如果判断模块132，134，136中任何一个子测试没有通过时，逻辑在状态138结束，而不将段分类为“关于音乐的语音”。在保存这个间隔前，任何没有被分类为沉默，语音，音乐，或者关于音乐的语音的间隔被分类为“不能判断”。

如上面参考图2所讨论的，一旦一个音频流的间隔已经被分类，间隔的临时序列被与预保存的元图案类型匹配，来判断一组是否与元图案中的一个匹配。然后，这个音频流被进一步根据元图案进行索引。图11显示了一旦被索引，以概述流，快速浏览流和找到流的要旨，一个用户如何搜寻音频流。

从模块140开始，接收了一个用户关于音频流的请求。在模块142，对这个用户请求作出响应，并且使用前面所提到的、所产生的音频流的索引，检索音频流中被请求的部分。例如，一个用户可能希望访问“教育音频，而没有商业信息”，并且仅那些满足“教育”元图案的音频流部分返回到模块144。换句话说，满足这个请求的间隔，或者多个间隔，和/或者其索引在模块144中被以临时顺序返回。

应理解，对例如一个“概述”音频流的用户请求作出响应，音频流的索引可以在模块144中被提供。这样一个列表的提供是音频流的一个概述。使用这个索引，这个用户滚动浏览音频流的间隔，并且现在那些他或者它所希望听，希望快速掠过和/或者对这个流“找要旨”。

除了上述公开的、用于对音频流做索引的方法外，图12和13显示了可以用于对音频进行索引的其它方法，特别是通过在已经被分类为“语音”的音频事件中探索式定义“感兴趣事件”。从图12的模块146开始，这里检测具有语音的一个音频流中音调的改变。在第一逻辑分支后，这个方法移动到模块148来将语音输入到一个语音识别系统，例如其代理人为本发明的代理人，并且这里用作参考的、美国专利号5,293,584中所公开的系统。进行到模块150，语音识别系统的输出-词-被用于索引音频流。

除了在模块150中，通过词内容来索引这个音频流外，从模块146后，逻辑经过一第二分支到模块152，其中语音中“感兴趣事件”被标识，如下面参考图13进一步讨论的。组成语音中“感兴趣的事件”，和对“感兴趣事件”的测试被探索式定义。如图12所表示的，“感兴趣事件”可以包括语音中的重音，语音中的停顿，语音中总结想法。

移动到模块154，当音频流包括语音时，使用通过一系列“感兴趣事件”间隔建立的元图案来进一步对这个语音流进行索引。这样一个元图案的示例是下述感兴趣事件“重要想法”的元图案。并且，在模块156中，可以根据这里的各“感兴趣事件”来索引音频流。

现在参考图13，显示了语音判断3个优选“感兴趣事件”/其元图案的出现的一个方法。从模块160开始，获得音频流的采样。在一个优选实施方式中，每一个采样的持续时间为10毫秒。

进行到模块162，决定每一个采样的主要频率。在决定主要频率的期间，本发明的优选实施方式考虑了下述8个频率带：

R1-100赫兹到3,000赫兹R2-3,000赫兹到4,000赫兹

R3-4,000赫兹到5,000赫兹R4-5,000赫兹到6,000赫兹

R5-6,000赫兹到6,500赫兹R6-6,500赫兹到7,000赫兹

R7-7,000赫兹到7,500赫兹R8-7,500赫兹到8,000赫兹

对每一个采样，如下述来计算主要频率：

R_nFreq＝第n带中频率的数目，n＝1到8，被采样的总数除，其中主要频率范围定义为R_nFreq值(8个)中最大的一个值。

移动到模块164，使用一个直方图来归一化主要频率。已经决定和归一化音频流采样的主要频率，这个处理移动到模块166，来标识主要频率为上1％频率的采样，并且进一步标识其主要频率为低1％频率的采样。

第一分支到判断模块168，这个逻辑判断音频流中的任何序列是否包括100个或者更多连续其主要频率在低1％中的采样。应理解，可以使用更短或者更长的时间间隔。如果发现了这样一个序列，逻辑进行到模块170来对这个序列进行分类和索引，以作为语音中一个总结想法，并且这是在以状态172结束前进行的。否则，在判断模块168分支的逻辑结束于状态172。

另外，逻辑分支到判断模块174，其中这个逻辑判断音频流中的任何序列是否包括100个或者更多连续的、其主要频率位于上1％内中的采样。应理解，可以使用更短或者更长的时间间隔。如果发现了这样一个序列，逻辑进行到模块176来对这个序列进行分类和索引，以作为语音中重音，并且这是在以状态172结束前进行的。否则，在判断模块174分支的逻辑结束于状态172。

如图13所显示的，当发现了语音序列中的一个重音时，逻辑从模块176进行到判断模块178，其中它判断被强调序列是否持续了至少3秒。但是，可以使用更短或者更长的持续时间。如果发现了这样一个延长的被强调序列，逻辑在模块180中对这个序列进行分类和索引，以作为语音中一个重要想法，从模块180，或者当其测试是负的时，从判断模块178，逻辑结束于状态172。

应理解，本发明用于判断语音中感兴趣事件的探索式定义进一步包括考虑音调改变的速率，幅度，幅度改变的速率，以及其它声音特征。

图14显示了用于判断一个间隔是否是“谐波”的逻辑，优选用于图6的上述测试中。从模块200开始，对一个间隔中每一段，进入一个“DO”循环。移动到判断模块202，它判断一系列所产生的频率f_R是否与前一段所产生的频率f_R序列相同。

就所产生的频率f_R来说，如本发明所认识到的，如果下述关系成立：f₂＝(I/(I+1))*f₁，其中I是≥2的一个整数，一个频率f₁具有至少一个音乐谐波频率f₂。当同时出现f₂和f₁时，所产生的频率f_R出现，其中f_R＝f₁/I。在判断模块202的测试中所使用的是这个产生频率f_R。

如果判断模块202中的判断是负的，逻辑移动到判断模块204来判断是否已经测试最后一个段，如果没有，逻辑在模块206中检索下一个段，然后返回到判断模块202。另一方面，当判断模块202的判断是正时，逻辑进行到模块208，将正在被测试的段标记为“谐波”。

当已经测试完最后段时，逻辑从判断模块204进行到判断模块210。在判断模块210，它判断任何“谐波”段的序列是否至少等于一个预定时间间隔，例如2秒。如果不是，逻辑在状态212结束。否则，间隔在模块214中被标记为“谐波”，以用于例如图6的测试中。

虽然这里显示和已经详细描述的特定自动进行音频内容分析以识别词，做索引，分类和检索的系统和方法完全能够达到本发明上述目的，但是应理解，它是本发明的优选实施方式，这样它是本发明广泛期望的主题的一个示例，本发明的范围完全包括该领域技术人员很清楚的修改，所以，本发明的范围仅能够用后附权利要求书来进行限制。

Claims

1.一个用计算机实现的方法，用于分析一个音频信号，包括：

检测音频信号中一个或者多个间隔中的音频事件，每一个间隔包括一个或者多个段的临时序列；

根据音频事件对音频信号进行索引；以及

使用所述音频信号的索引来对音频信号进行快速浏览、找要旨或概述，

其中，检测步骤包括：

判断一个间隔的段是否具有一个或者多个预定音频特征，每一个预定音频特征表示包括至少音乐和语音的至少一个相应音频事件；

对判断步骤作出响应，将间隔与相应的音频事件相关，来对间隔进行分类；以及

至少是部分地根据间隔类型来对音频信号进行索引。

2.如权利要求1的这个方法，进一步包括：

用于使用从音频信号中翻译词的一个语音识别引擎来仅处理音频信号中的相关部分；

用于从这个引擎接收对至少一些词的替代词；

用于从这个引擎接收对至少一些词的可信度和替代词；和

用于至少是部分根据可信度来索引词和替代词。

3.如权利要求2的这个方法，其中仅接收长度长于“N”个字符并且其可信度大于百分之“x”的替代词，其中N是一个整数，x是0到100之间的一个数。

4.如权利要求3的这个方法，其中根据相应的权重来索引词和替代词。

5.如权利要求1的这个方法，进一步包括探索式地定义音频事件。

6.如权利要求3的这个方法，其中检测步骤进一步包括：

判断至少一组间隔是否与一预定元图案集合中的一元图案匹配；和

当判断这组间隔与一个元图案匹配时，将这组间隔与一个元图案类型相关，其中根据间隔类型和元图案类型来索引音频信号。

7.如权利要求1的这个方法，其中每一个预定音频特征是基于下面的一个或者多个：至少一部分音频信号的过零率，至少一部分音频信号的能量，至少一部分音频信号的的谱能量密度，和至少一部分音频信号的频率。

8.如权利要求1的这个方法，其中音频事件进一步包括沉默，关于音乐的语音，语音中的重音，语音的停顿，和语音中总结想法。

9.如权利要求2的这个方法，进一步包括：

在分类步骤前，归一化段。

10.如权利要求1的这个方法，其中用于判断一个间隔的段是否具有一个或者多个预定音频特征的步骤包括：

对一个间隔中的每一段，判断与这个段相关的一个或者多个预定音频特征是否等于一个相应的阈值；

当预定音频特征等于相应阈值时，增加与一个或者多个预定音频特征相应的一个或者多个计数器；和

将一个或者多个计数器与这个间隔中段的总数目相比，根据比较步骤来执行对间隔的分类。

11.如权利要求10的这个方法，进一步包括：

判断在对间隔进行分类的步骤期间被分类为语音的至少一个间隔中的一个或者多个主要频率；

当一个或者多个段包括前M％的主要频率时，将一个或者多个段与语音中的重音相关，其中M是一个数；和

当一个或者多个段包括后M％的主要频率时，将一个或者多个段与语音中的总结想法相关。

12.如权利要求11的这个方法，进一步包括判断所有均与语音中的重音相关的临时序列段是否定义了比一个预定时间间隔长的一个时间间隔，如果是，就对临时序列段进行索引，以作为语音中一个重要想法。