CN1290039C - 自动进行音频内容分析的系统和方法 - Google Patents

自动进行音频内容分析的系统和方法 Download PDF

Info

Publication number
CN1290039C
CN1290039C CNB991270800A CN99127080A CN1290039C CN 1290039 C CN1290039 C CN 1290039C CN B991270800 A CNB991270800 A CN B991270800A CN 99127080 A CN99127080 A CN 99127080A CN 1290039 C CN1290039 C CN 1290039C
Authority
CN
China
Prior art keywords
interval
audio
voice
section
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB991270800A
Other languages
English (en)
Other versions
CN1261181A (zh
Inventor
德拉古丁·皮特科维奇
杜尔斯·比特里斯·庞塞龙
萨维萨·斯里尼瓦桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hu Lu limited liability company
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1261181A publication Critical patent/CN1261181A/zh
Application granted granted Critical
Publication of CN1290039C publication Critical patent/CN1290039C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/64Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/046Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for differentiation between music and non-music signals, based on the identification of musical parameters, e.g. based on tempo detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Abstract

对一个音频流进行索引的系统和方法,以用于随后的信息检索和快速浏览,找要旨和概述音频流,这个系统和方法包括使用特殊的音频预滤波,以使仅索引被一个语音识别引擎所产生的相关语音段。一个信息检索系统在对词识别索引后被使用,公开了可以改善该信息检索系统的查准率和查全率的特殊索引特征。本发明包括将音频流分成间隔,每一个间隔包括一个或者多个段。对一个间隔的每一个段,它判断这个段是否具有一个或者多个预定音频特征。

Description

自动进行音频内容分析的系统和方法
技术领域
本发明一般涉及包括从视频中提取出来的音频流的音频流,更特别地,涉及用于对音频流进行分类和做索引,以支持随后对音频流所进行的检索,找要旨,总结,浏览,和一般搜寻的系统和方法。
背景技术
伴随着计算机普通应用的快速增长,特别是多媒体计算机应用的快速增长,从例如音频-视频应用中继续制造出大量音频,并且然后将音频使用电子的形式来保存。如本发明所认识到的,当音频文件的数量增加时,快速使用被保存的音频流和有效地仅使用已存在的音频文件目录或者其它已经存在的访问装置就变得更困难了。例如,访问从视频获得的一个音频流,基于一个用户的查询来检索信息,或者提供音频流的一个概述,或者使一个用户浏览或者找一个音频流的要旨是很理想的方式。所以,本发明认识到需要有效地搜寻特定音频流的不断增长的需求,这个特定的音频流是一个用户所希望访问的,但是它被与其它成千的音频流一起保存。
传统的信息检索技术是基于这样一个假设:源文本,是从音频推导出的或者不是,是没有噪声和错误的。但是,当从音频推导出一个源文本时,上述假设就有问题了。这是因为语音识别引擎被用于将一个音频流转换为一个计算机保存的文本,并且因为这个任务本身是不精确的,并且本质上是困难的,所以这种转换实际上是不可能没有错误并且不可能不对文本引入噪声。例如,在一个音频流中的特定词可能不会被正确识别(例如,说“land”将被翻译成“lamb”)或者根本不能识别,由此消除了查全率能力和一个信息检索系统的查准率。“查准率”意味着一个系统仅检索“正确”文档的能力,而“查全率”指一个系统检索尽可能多的正确文档的能力。理想的是,我们已经认识到,有可能解决语音识别引擎在将音频流转换为文本时的限制,并且因为解决这些限制,有可能改善一个信息检索系统的查准率和查全率。
除了上述考虑,本发明认识到在许多情形下,一个用户可能希望调用一个数字保存音频流来听,但是这个用户可能不希望听或者访问整个音频流的信息,而仅希望听或者访问某一个特定部分的音频流信息。实际上,一个用户仅希望听一个音频流或者多个音频流的概要,或者仅希望理解一个音频流的要旨。例如,一个用户仅希望听音频流中与特定题目相关的部分,或者音频流中某个特定人所讲的部分,或者在记录程序的情形下,一个用户希望仅听这个程序中非商业部分。类似地,一个用户可能希望“快速地听”音频。例如,一个用户可能希望快速地听完一个音频流中“不太感兴趣”的部分(例如商业部分),而以一个可理解的速度来听“感兴趣”的部分。
但是,过去所做的音频内容分析努力,例如日本专利公开8063184和10049189和欧洲专利公开702351中所公开的那些,已经基本上不是集中在上述考虑上,而是简单地集中在改善语音识别计算机输入装置的准确性上,或者集中在改善数字处理语音的质量上。而对他们所作努力有效的是,这些过去所做到努力没有考虑基于流中音频事件的索引,由此也没有访问音频的索引,来支持随后对计算机保存的音频流所进行的搜寻,找要旨,和概述。
美国专利5,199,077公开了用于语音编辑和索引的词识别。这个方法用于单个说话者音频或者视频记录的关键字索引。上述日本专利公开8063184和10049189指作为改善语音识别准确性的音频内容分析。另外,日本专利公开8087291A使用了改善语音识别系统速度的音频分析。上述欧洲专利公开EP702351A包括了识别和记录音频事件,以帮助识别不知道的短语和语音。美国专利5,655,058描述了基于说话者的身份来对音频数据进行分段的一个方法,而欧洲专利公开EP780777A描述了语音识别系统处理一个音频文件,来提取所说的词来检索音频。
这些系统中所公开的方法的目的是用于改善用于识别的准确性和性能。所公开的索引和检索系统是基于说话者身份的,或者是音频带上语音识别的直接应用,和使用词作为搜寻词。
发明内容
相反,本发明的目的是检索,分类和概述真实世界的、如这里所理解的、很少包括单个说话者,仅包括单个语音段的清晰音频的音频。认识到这些考虑,本发明使用下面完全提出的系统和方法,改善了前述词识别技术,其中音乐和噪声被从语音段中分段,语音识别被应用到清晰语音段,建立了一个考虑了音频分析结果的先进检索系统。
已经描述了其它分析音频内容的技术,包括在Erling等在1996年IEEE多媒体上发表的、题为“基于内容的音频分类,搜寻和检索”(以后称作“Musclefish”)中所公开的方法。但是,Musclefish用于对声音进行分类的方法不是由探索式判断规则驱动的,而是由统计分析来驱动的。如本发明所认识到的,探索式判断规则在对声音进行分类时比统计规则更可靠,并且与一个基于统计的系统相比,基于一个规则的分类方法能够更准确地对声音进行分类。进一步,Musclefish系统仅用于短音频流(少于15秒)。这使它在从长流中检索信息时会产生不准确性。
另外,还描述了其它对音频作索引的方法,包括Pfeiffer等在ACM多媒体96(1996)发表的、题为“自动音频内容分析”(以后称作“MoCA”)中的公开的方法。与许多类似的方法类似,但是,MoCA方法是与域相关的,即它寻找来标识与特定视频事件类型,例如暴力相关的音频。本发明认识到,许多音频和多媒体应用将从基于其内容的音频分段,分类和搜寻的更一般能力,特别是基于一个或者多个预定音频事件的音频分段,分类和搜寻的更一般能力中获益。
已经公开了一个方法,用于实现在长的、没有结构的音频流,包括已经被从音频-视频数据中提取的音频流中进行可靠的信息检索,另外这个方法称作“词识别”。本发明使用特殊的音频预滤波来标识与域/应用相关的声音边界,来仅检索被一个语音识别引擎所产生的相关语音段,来在下面所公开的其它应用中实现随后的可靠词识别。为了达到这个目的,本发明分析了音频流的内容来用相关的可信度标识与内容相关的,与应用相关的,与类型相关的清晰语音边界。然后,本发明使用被一个语音识别引擎所产生的可信度并且将这个可信度与本发明的权重组合来仅检索音频被选择部分的一个抄本(即相关语音),如语音识别引擎所产生的。这样,本发明不寻找方法来本质上改善语音识别引擎,但是通过改善检索音频流的方法,来改善信息检索系统的查准率和查全率(这可以使用语音识别引擎)。
本发明可以根据本发明的步骤进行编程,来被实现为一个通用计算机程序,以对音频信号进行分类和索引,音频信号在这里还可被称作音频流,包括从视频中提取的音频,用于随后将这个音频流的一个视觉概述提供给一个用户来允许这个用户浏览或者,快速掠过流,并且仅播放那些感兴趣的音频段,和/或者对音频流做索引以用于信息检索。
本发明可以被体现为一个制造的论文-一个机器部件-它被一个数字处理装置所使用,并且确实体现为被这个数字处理装置执行来实现本发明逻辑的一个指令程序。本发明在促使一个数字处理装置执行这里所描述的本发明方法步骤的一个精确机器部件中实现。从其它方面来说,一个计算机程序被公开,它是可以被一个数字处理装置阅读的,并且确实体现为一个计算机程序。这个计算机程序产品将一个计算机可阅读媒质与执行下面所公开的逻辑的程序代码部件组合在一起。并且,一个用计算机实现的方法被公开来执行这里的逻辑。
所以,从一方面来说,用计算机实现的、用于分析一个音频信号的方法包括检测在一个或者多个音频信号间隔中的音频事件,并且每一个间隔包括一个或者多个段的临时序列。音频事件被分析,以用相关的可信度来标识语音边界,并且然后这个方法使用探索式判断规则,基于语音边界和可信度来对音频信号作索引,来改善查准率。另外,这个方法使用一个相关的权重来对音频信号中至少一个词的替代做索引,来改善随后所进行的一个或者多个的查全率:使用这个索引进行词识别,概述,和快速浏览音频信号。
本发明提供一个用计算机实现的方法,用于分析一个音频信号,包括:检测音频信号中一个或者多个间隔中的音频事件,每一个间隔包括一个或者多个段的临时序列;根据音频事件对音频信号进行索引;以及使用所述音频信号的索引来对音频信号进行快速浏览、找要旨或概述,其中,检测步骤包括:判断一个间隔的段是否具有一个或者多个预定音频特征,每一个预定音频特征表示包括至少音乐和语音的至少一个相应音频事件;对判断步骤作出响应,将间隔与相应的音频事件相关,来对间隔进行分类;以及至少是部分地根据间隔类型来对音频信号进行索引。
另一方面,一个计算机被公开来对一个音频信号进行分类和作索引。如下面所详细提出的,这个计算机具体体现为计算机可使用代码装置,包括将这个音频信号分成间隔的逻辑装置,每一个间隔包括一个或者多个段。然后,逻辑装置判断一个间隔的段是否有一个或者多个预定音频特征,这也可以被称作“音频特征”,其中每一个音频特征表示至少一个相应的音频事件。另外,逻辑装置通过对判断装置作出响应,将间隔与相应音频事件相关,来对间隔进行分类。进一步,提供逻辑装置来判断至少一个间隔组是否与一个预定元图案集合中的一个元图案匹配,并且当判断间隔组与一个元图案匹配时,逻辑装置将这个间隔组与一个元图案类别相关。然后,逻辑装置基于间隔类别和元图案类别来对音频信号做索引。
在一个优选实施方式中,逻辑装置使用一个语音识别引擎仅处理音频信号中相关部分来从信号中翻译词。这个引擎产生被识别的词和它们的替代词,并且提供开信度。在一个简单的实施方式中,我们仅检索可信度为90%或者更高的长词(三个字符或者更多)。一个更通用的方法是根据权重来检索被识别的词和替代词,其中权重决定于识别的可信度,替代词的可信值(如果有),被识别词的长度和是否。
另外在一个优选实施方式中,每一个预定音频特征是基于下面中的一个或者多个:音频信号至少一部分的过零率(ZCR),音频信号至少一部分的能量,音频信号至少一部分的频谱能量(SE)密度,和频率(F)。另外,在这个优选实施方式中,预定音频事件集合包括音乐,语音,沉默,和关于音乐的语音。就元图案来说,预定图案集合包括,但是不局限于连续非中断语音(例如一个新闻广播或者教育节目),和与语音结合的音乐(例如商业目的的),其中阅读图案集合是探索式定义的。
另外,进一步,本发明希望基于语音中“感兴趣的事件”例如语音中的重音,语音中的停顿来对包括语音的音频流进行分类和索引,并且总结语音中的想法。所以,提供了方法来判断至少已经被分类为语音的一个间隔的每一个采样序列中的一个最主要的频率。当它们包括一个主要频率的高M%频率时,语音间隔与语音中的重音相关,其中M是一个探索判断的数字,优选是1。另一方面,当它们包括一个主要频率的低M%频率时,语音间隔与语音中的总结想法相关。进一步,如果临时序列间隔,所有临时序列间隔均与语音中的重音相关,定义了比一个预定时间间隔大的一个时间间隔,整个序列被索引为语音中的一个重要想法。
在一个特定的优选实施方式中,提供了在对间隔进行分类以前,归一化段的逻辑装置。另外,逻辑装置提供间隔的索引和元图案类别,来使用信号的索引对音频信号进行快速浏览,找要旨和概述。
为了判断一个间隔的一个段是否具有一个或者多个预定音频特征,提供了装置来判断与这个段相关的一个或者多个音频特征是否等于一个相应的阈值。如果是,与这个音频特征的一个计数器就增加1,在已经测试完一个间隔中所有段以后,将这些计数器与间隔中段的数目进行比较,然后根据这个比较来对这个间隔进行分类。
另一方面,一个计算机程序产品包括可以被一个数字处理装置阅读的一个计算机程序保存装置,和这个程序保存装置上的一个程序方法。这个程序方法包括可以被这个数字处理装置执行的程序代码部件,以执行检索至少一个音频信号的方法步骤,以随后对信号进行概述,来允许一个用户使用这个概述来仅浏览和/或者播放感兴趣的音频类型。根据本发明,这个方法步骤包括将音频信号分成间隔,其中每一个间隔包括一个或者多个段,这个方法还包括判断一个间隔的段是否具有从特征集合中选择出的一个或者多个预定音频特征,这个特征集合包括音频信号至少一部分的过零率,音频信号至少一部分的能量,音频信号至少一部分的频谱能量密度,和音频信号至少一部分的频率。如本发明所提到的,每一个音频特征表示包括至少音乐和语音的至少一个相应音频事件。通过将间隔与相应的音频事件,和至少部分是根据间隔类别的音频信号索引相关,来对间隔进行分类。
附图说明
通过参考附图,可以更好地理解本发明的细节,包括其结构和操作,其中类似的标号指类似的部分,其中:
图1是本发明系统的一个原理图;
图2是本发明的整体索引逻辑的一个流图;
图3是判断段音频特征的逻辑的一个流图;
图4是判断一个段是否是沉默的逻辑的一个流图;
图5是判断一个段是否是语音的逻辑的一个流图;
图6是图5所显示的逻辑的后续流图;
图7是判断一个段是否是音乐的逻辑的一个流图;
图8是图7所显示的逻辑的后续流图;
图9是判断一个段是否是关于音乐的语音的逻辑的一个流图;
图10是图9所显示的逻辑的后续流图;
图11是显示用于快速浏览,找要旨和进行概述的逻辑的一个流图;
图12是显示用于根据词和根据音频中“感兴趣的事件”来进一步对一个音频流进行分类和索引的逻辑的一个流图;
图13是显示用于判断语音采样是否表示语音的重音,语音中总结想法,和语音中重要想法的逻辑的一个流图;
图14是判断是否提供了谐波的逻辑的一个流图;
图15是显示从被索引的音频流中总结出来的概述的一个流图;和
图16是概述已经被索引的音频流的一个屏幕的示意图。
具体实施方式
开始参考图1,用于分析音频内容(包括音频-视觉数据的音频内容)来索引,分类和检索音频的一个系统被显示,一般地称作10。在所显示的这个特定结构中,系统10包括一个数字处理装置,例如一个计算机12。在一个预期的实施方式中,这个计算机12可以是如所显示的Armonk N.Y.国际商用机器公司(IBM)制造的一个个人计算机,或者计算机12可以是任何一个计算机,包括商标为AS400并且配备IBM网络工作站的计算机。或者,这个计算机12可以是一个Unix计算机,或者OS/服务器,或者Windows NT服务器,或者IBM RS/6000250工作站,其内存为128MB,并且运行AIX3.2.5,或者一个IBM的便携式计算机。
这个计算机12包括一个音频引擎14,图1原理性地显示了音频引擎14,音频引擎14可以作为一系列计算机可执行指令,被这个计算机12中的一个处理器执行。这些指令可以驻留在例如计算机12的RAM中。
替代地,这些指令可以被保存在具有一个计算机可阅读媒质的一个数据保存装置中,例如图1所显示的一个计算机磁盘16,这个计算机磁盘16可以与计算机12的一个软盘驱动器17一起工作。或者,指令可以被保存在一个DASD阵列,磁带,传统硬盘驱动器,电子只读存储器,光存储装置,或者其它合适的数据保存装置上。在本发明的一个示例性实施方式中,计算机可执行指令是C++代码。
图1还显示了系统10可以包括该技术领域所熟知的计算机外设,包括一个输出装置例如一个视频显示器18和/或者打印机20,和一个输入装置例如一个计算机键盘22和/或者一个鼠标24。可以使用其它输出装置,例如其它计算机,等等。类似地,可以使用除了键盘22和鼠标24以外的输入装置,例如跟踪球,键盘片,触摸屏幕和语音识别装置。
这个计算机12可以经过一个数据传输路径25访问包括音频数据的一个电保存数据库26。这个音频数据可以被从一个合适的音频源28输入到数据库26中。应理解,这个音频数据可以直接从音频源28被输入到引擎14,音频源28可以是模拟或者数字音频源,例如一个广播网络或者收音机台。还应理解,数据库26可以被保存在本地计算机12中,在这个情形下,路径25是一个局域网或者广域网例如互联网。为了描述简短,这个引擎14访问一个语音识别引擎29。这个语音识别引擎29可以是任何合适的语音识别引擎,例如其代理人与本发明的代理人相同的美国专利号5,293,584中所公开的语音识别引擎,在这里,该专利号用作参考。这个语音识别引擎29可以是本发明代理人的“大词汇连续语音识别”系统。
为了演示本发明的应用,即概述和快速浏览,参考图15。从模块300开始,使用下面提出的探索式定义规则索引一个接收的音频流。然后,在模块302,对每一个用户的请求,显示被索引音频的一个概述。这样一个概述304被显示在图16的显示屏幕306上,应理解,显示屏幕306可以被提供在显示器18(图1)上。如所显示的,概述304可以包括音频类型,音频类型包括噪声,语音,音乐,被强调的语音,笑声,动物的声音,等等。
移动到图15的模块308,这个用户从一个播放选项菜单310(图16)选择一个观看或者播放选项,并且根据这个用户选择,被选择的音频被“变细”,即进行播放而不插入没有选择的音频。如所显示的,这个用户可以选择使用临时序列播放在模块302中选择的音频类型,或者通过相关,即被选择音频类型的可信度或者可能性。如果这个用户选择“相关”,这个过程移动到图15的模块312,来分析被索引的音频,以仅播放对这个用户来说感兴趣的音频事件。
正在被播放的音频身份被显示在屏幕306上一个播放窗口314中。如果这个音频是从视频推导出的,这个视频可以被播放在窗口314中。这个用户还可以选择一个“前一个”按钮316来选择前一个音频剪辑,可以选择一个“下一个”按钮318来选择下一个音频剪辑,并且选择一个“播放”按钮320来听被选择的剪辑,即促使播放被选择的剪辑。如上述,但是,本发明还有其它的应用,包括通过词识别进行信息检索。与应用无关,本发明有效检索音频的能力使随后的应用能够更容易地进行,并且在词识别情形下,可以更准确,而改善了查全率。
所以,现在回到本发明索引音频流的逻辑,参考图2。从模块30开始,音频流被音频引擎14接收。应理解,可以使用快速傅立叶变换(FFT)函数来对流进行变换,然后在下述步骤以前,FFT的低幅度噪声分量被从信号中滤出。
移动到模块31,流被分成临时连续的间隔,例如2秒的持续时间,每一个间隔被分成一个或者多个持续100毫秒(100ms)的段。但是,本发明的范围内,可以使用不同持续时间的间隔和段。
从模块31,逻辑移动到模块32,来测试每一个段,以通过判断每一个段的音频特征,如下面所完全提出的,判断段是否可以被最佳分类成一预定音频事件集合中的一个音频事件集合。本发明优选实施方式中的这些预定音频事件包括沉默,音乐,和关于音乐的语音。如果不能够对一个段进行分类,它被标记为不能判断类型的段。
下面逻辑移动到模块33,其中通过将间隔与音频事件中的一个进行相关,即根据在模块32中所获得的、关于其段的测试结果,每一个间隔被与上述音频事件中的一个相关。然后,在模块34中,判断间隔的一个临时序列(如需要,通过容许某些偶然“丢失”的间隔)是否与探索式预定元图案类型集合中的一个匹配。根据在模块33中所获得的间隔类型,来在音频流中识别出现在音频信号或者流中的元图案。例如,30秒的短、交替的音乐,语音,和关于音乐的语音的任何顺序的序列可以与一个预定“商业”元图案类型匹配,这样在模块35中被分类为组成正在被判断的特定元图案类型。或者,一系列语音-音乐-语音间隔类型可以与探索式预定来建立一个“教育/培训”类型的一个元图案匹配。其它元图案,例如“卡通”和“新闻”可以类似地被探索式预定。实际上,元图案的元图案可以被探索式预定义,例如定义一个元图案“广播新闻中断”为连续地4个并且仅4个商业元图案。所以,位于本发明的范围内的很多元图案类型可以被探索式定义。现在,可以理解,一个元图案基本上是一个预定各种分类间隔序列。
从模块35,过程移动到模块36,来使用语音识别引擎29(图1)来处理被选择的音频流部分。语音识别引擎29将它处理的音频流部分转换为文本,文本由包括字母-数字的字符的词表示。重要地,在模块36中不需要处理整个音频流。而是,仅部分音频流,例如在模块35中被分类为“新闻广播”的部分音频流,可以被发送到语音识别引擎,以进行处理。如这里所认识到的,使用一个语音识别引擎处理一个长的、没有结构的、包括几个不同类型域/应用的语音边界的音频流可以在语音识别引擎的输出中产生错误。例如,当一个语音识别引擎试图将具有语音和音乐的一个段转换为文本时,这个语音识别引擎可以产生很多错误。所以,仅处理特定(相关)类型的域/应用语音段可以减少传统语音识别引擎的内在缺点所产生的错误。
如模块36所显示的,虽然被选择的音频部分被转换为文本,两个权重,即“可信度”权重和“强调”权重可以用于至少部分,优选是全部被产生的词。这些权重部分是基于一个特定的词是否是从一个“被强调”的语音段推导出来的,如下面进一步所描述的。
下面,在模块37中,仅对满足下述两个准则的词,进入一个“做”循环:词的长度必须至少是“N”个字符,其中“N”是优选等于例如3的一个整数,和词必须从语音识别引擎29返回并且具有至少90%的可信度。可信度可以是可能性的一个范围,如果需要。本发明这样利用语音识别引擎的特征来将长时间说话更准确地转换为文本,与将短说话词转换为文本时语音识别引擎的准确性相比。模块37中的步骤可以看作是其中长度少于“N”的词没有被索引的一个滤波器。作为一个替代,所有长度的词在模块37中均可以被考虑,长度短的词在较后的时候被删除,或者在检索的时候排队位置较低。
“做”循环进行到模块38,其中语音识别引擎29被查询来替代正在被测试的词。在模块39中,优选将头两个替代标识为正在被测试的词的索引词,尽管可以考虑所有替代,如果需要。类似于正在被测试的词,权重被分配给替代词。类似地,可以使用替代词格子,而不是多个替代词。然后,在模块40中,使用词和替代,以及相应的权重来索引流,以用于一个信息检索系统所进行的随后的检索,例如该技术领域所熟知的“Okapi”系统。记住上述公开,可以理解,为了支持基于查询的、随后进行的文本信息检索,在模块40中仅需要索引相关的语音段。
对检索来说,如本发明所认识到的,不存在于一个词识别系统的词汇表中的词将不会出现在所产生的副本中;所以,如果进行查询,这些词汇表中没有的词就不会返回任何结果。记住这点,一个检索系统,例如“Okapi”系统,可以被修改,以使当不返回任何结果时,这个检索系统访问从一组类似的域(例如,广播新闻,办公室记者,或者医药)推导出的一个词典来扩展或者用这个词典中的词来替代查询中词汇表中没有的词。
如上述,对每一个词计算权重(和其替代,如果有)。被分配到一个词的权重决定于几个因素,包括这个语音识别引擎所返回的相关可信度,反文档频率,和词是否是“被强调”的。在一个特殊优选实施方式中,如下述来决定一个词的权重:
如果
α1=0.5和α2=1+α1(经验公式决定);
ld=文档“d”的长度,l是平均文档长度;
qk=查询中第kth项;
Cd(qk)是文档“d”的查询项“k”的计数;
ECd(qk)=Edk是文档“d”的查询项“k”的期望计数;
Cq(qk)是查询项“q”中第k项的计数;
Eq(qk)=Eqk是查询项“q”中第k项的期望计数;
n(qk)=包括项qk的文档的数目;
n’(qk)=包括项qk的文档的期望数目;
Q’=包括如上述所有替代词的查询中项的总数目,N是文档的总数;
pi(qk)=表示来自词识别引擎的,第k查询项的第i次出现的可信度的权重;
ei(qk)=表示第k查询项的第i次出现的重要的权重;
然后,第k查询项的反文档频率=idf(qk):
idf(qk)=log{(N-n’(qk)+α1)/(n’(qk)+α1)}
和相对于查询“q”来对文档“d”进行排序的相对分=S(d,q):
S(d,q)={Edk*Eqk*idf(qk)}/{α12(ld/l’)+Edk}的从k=1到Q’的和
其中
Edk=关于文档“d”的{pi(qk)*ei(qk)}的从i=1到Q’的和,和
Eqk=关于查询“q”的{pi(qk)*ei(qk)}的从i=1到Q’的和。
当查询被敲入,并且所有项具有相同的重要性时,ei(qk)是一个常数,例如“e”。另一方面,当用户希望修改一个项的重要性时,他或者她能够敲一个前缀字符,例如“+word”,在这个情形下,ei(qk)是0和1(包括1)之间的一个缺省值,由系统选择。如果说出了查询,由此以及强调了项,就使用下面寻找语音重音的逻辑来判断每一项的重音前缀,并且ei(qk)是0和1之间的一个值。
图3显示了处理音频流中每一段的进一步细节。从模块44开始,进入一个DO循环,其中对每一第k个段,在模块46中判断一个或者多个声音特征,并且在模块48中归一化。更特别地,在模块46中,可以判断每一个段的过零率(ZCR),能量(E),和谱能量密度(RSi),以及位于各种预定范围i的频率。如下面所提出的,可以使用所有或者仅这些音频特征的一个子集。
“过零率”意味着一段中,音频信号幅度过零的次数。“能量”意味着每一个段的音频信号平方幅度和。相反,每一段的谱能量密度通过多个RSi值来建立,每第i个频率范围有一个RSi值,这个值定义为这个段中所出现的每第i个频率范围中的频率平方和。仅通过示例,第一频率范围R1是0-1000赫兹,第二频率范围R2是1000-8000赫兹,第三判断范围R3是8000-16,000赫兹,第四频率范围R4大于16,000赫兹。
但是,可以使用除了上面提到的优选特征外的音频特征。例如,可以使用亮度(作为一个对数频率保存的短形式傅立叶幅度谱的质心),还有带宽,谐波性(声音线谱对一个理想谐波谱的偏离),和音调。
在模块48中,被计算的音频特征被统计性地归一化。一个测量音频特征的归一化版本是被测量音频特征和这个特征在所有段中的平均值,之间的差的系数,和特征对所有段的标准偏差。例如,一段的归一化谱能量密度NRi如下:
NRi=(RSi-mean(RSi))/σRsi
现在参考图4,本发明通过其来测试音频段的逻辑可以被看到。应理解,图4-10显示了优选探索集合,并且伴随有优选阈值,以定义对语音,沉默,音乐等等进行的各种测试,并且可以定义其它特定探索和/或者阈值。从模块50开始,对一个间隔中的每一段进入一个DO循环。进行到判断模块52,它判断与正在被测试的段中的所有被采样频率相比,段中位于第一频率段R1中的频率百分比是否大于90%,当优选采样频率44KHz和段持续时间100毫秒被使用时,每段就获得了20个采样。
如果段中大于90%的采样频率位于第一频率带R1中,处理移动到模块54,来标识或者否则标记或者将段分类为“沉默”。从模块54,或者如果测试是负的就从判断模块52,逻辑进行到判断模块56来判断这个间隔中的最后一个段是否已经被测试,并且如果没有,逻辑移动到模块58,来获得下一段,由此返回到判断模块52。但是当已经测试完最后一段时,逻辑在状态60结束。
图5显示了用于判断一段是否是一段语音的本发明的测试。从模块62开始,对一个间隔中的每一段,进入到一个DO循环。进行到判断模块64,它判断与正在被测试的段中的所有被采样频率相比,段中位于第三频率段R3中的频率百分比是否大于15%。如果是,在模块66中,一个SpeechFreq计数器就增加一个单位。
从模块66,或者如果测试是负的就从判断模块64,逻辑进行到判断模块68来判断正在被测试的段的过零率(ZCR)是否大于6。如果是,在模块70中,一个SpeechZcr计数器就增加一个单位。从模块70,或者如果测试是负的就从判断模块68,逻辑进行到判断模块72来判断这个间隔中的最后一个段是否已经被测试,并且如果没有,逻辑移动到模块74,来获得下一段,由此返回到判断模块64。但是当已经测试完最后一段时,逻辑进行到图6。
如本发明所认识到的,可以使用音频中出现(或者没有出现)谐波频率来判断音频是音乐或者是语音。典型地,使用谱分析来对音乐谐波或者和音分段来进行音调分析,和判断一段音乐的结构。但是,本发明使用不出现检测的音乐谐波来作为对语音的一个可靠测试。
所以,如图6所显示的,在测试完一个间隔的段后,为了将间隔分类为“语音”,在优选实施方式中必须满足3个条件。更特别地,从判断模块73开始,它判断这个间隔是否已经被根据图14所显示的逻辑被标记为“谐波”,如下述。如果没有(表示这个间隔是语音),过程移动到判断模块74,其中它判断SpeechFreq计数器的值是否大于这个间隔中段数目的40%。换句话说,在判断模块74中,它判断这个正在被测试间隔中至少40%的段满足图5判断模块64的条件。如果是,逻辑然后移动到判断模块76,来对语音进行第二个测试,即判断SpeechZcr计数器的值是否少于正在被测试间隔的段数目的20%。换句话说,在判断模块76中,它判断正在被测试间隔的至少20%段满足图5判断模块68的条件。如果没有满足图6中判断模块74,76中任何一个的测试条件,或者如果在判断模块73中发现这个间隔是“谐波”的,这个逻辑在状态78结束;否则,这个间隔被分类为“语音”并且在结束前进行索引,在模块80中。应理解,还在图6的过程末尾,根据Speech计数器的值可以产生一个可信度,可信度表示被分类为“语音”的一个间隔在随后将间隔序列与元图案匹配中实际上是语音的可能性。
现在参考图7,显示了用于判断一个段是否是音乐的本发明测试。从模块82开始,对一个间隔中的每一段,进入到一个DO循环。进行到判断模块84,它判断与正在被测试的段中的所有被采样频率相比,段中位于第三频率段R3中的频率百分比是否大于15%。如果是,在模块86中,一个MusicFreq计数器就增加一个单位。
从模块86,或者如果测试是负的就从判断模块84,逻辑进行到判断模块88来判断正在被测试的段的过零率(ZCR)是否少于5。如果是,在模块90中,一个MusicZcr计数器就增加一个单位。从模块90,或者如果测试是负的就从判断模块88,逻辑进行到判断模块92来判断正在被测试段(如图3的模块48所判断的)的归一化谱能量密度NR3是否大于10万(100,000)。如果是,在模块94中,一个MusicSpectralEn计数器就增加一个单位。从模块94,或者如果测试是负的就从判断模块92,逻辑进行到判断模块96来判断这个间隔中的最后一个段是否已经被测试,并且如果没有,逻辑移动到模块98,来获得下一段,由此返回到判断模块84。但是当已经测试完最后一段时,逻辑进行到图8。
在测试完一个间隔的段后,为了将这个间隔分类为“音乐”,必须满足3个条件中的任何一个条件。更特别地,从判断模块100开始,它判断MusicFreq计数器的值是否大于这个间隔中段数目的80%。如果是,然后逻辑移动到模块102来将这个间隔分类为“音乐”,索引这个间隔,并且结束。但是,如果段没有通过判断模块100中的第一测试,逻辑进行到判断模块104来使用音乐的第二测试,即判断MusicZcr计数器的值是否大于这个正在被测试间隔中段数目的95%。如果满足了第二测试,然后逻辑移动到模块102来将这个间隔分类为“音乐”;否则,逻辑进行到判断模块106来使用音乐的第三测试。
在判断模块106,它判断MusicSpectralEn计数器值是否大于段数目的80%。如果满足这个测试,然后这个间隔在模块102中被分类为“音乐”。仅当所有3个音乐测试均没有通过时,逻辑在状态108结束,而不将段分类为“音乐”。
现在参考图9,显示了用于判断一个段是否是关于音乐的语音的本发明测试。从模块110开始,对一个间隔中的每一段,进入到一个DO循环。进行到判断模块112,它判断与正在被测试的段中的所有被采样频率相比,段中位于第三频率段R3中的频率百分比是否大于15%。如果是,在模块114中,一个SOMFreq计数器就增加一个单位。
从模块114,或者如果测试是负的就从判断模块112,逻辑进行到判断模块116来判断正在被测试的段的过零率(ZCR)是否大于5并且少于10。如果是,在模块118中,一个SOMZcr计数器就增加一个单位。从模块118,或者如果测试是负的就从判断模块116,逻辑进行到判断模块120来判断正在被测试段的归一化谱能量密度NR3是否大于9万(90,000)。如果是,在模块122中,一个SOMSpectralEn计数器就增加一个单位。从模块122,或者如果测试是负的就从判断模块120,逻辑进行到判断模块124来判断这个间隔中的最后一个段是否已经被测试,并且如果没有,逻辑移动到模块126,来获得下一段,由此返回到判断模块112。但是当已经测试完最后一段时,逻辑进行到图10。
在测试完一个间隔的段后,为了将这个间隔分类为“关于音乐的语音”,必须满足2个条件中的一个条件,它们组合中的一个。从判断模块128开始,它判断SOMZcr计数器的值是否大于这个间隔中段数目的70%。如果是,然后逻辑移动到模块130来将这个间隔分类为“关于音乐的语音”,索引这个间隔,并且结束。但是,如果段没有通过判断模块128中的第一测试,逻辑进行到判断模块132来使用关于音乐的语音的第二组合测试中的第一子测试。特别地,在判断模块132中判断SOMFreq计数器的值是否少于这个正在被测试间隔中段数目的50%。如果满足了第一子测试,然后逻辑移动到判断模块134来进行第二子测试,以判断SOMZCR计数器的值是否大于这个间隔中段数目的15%。如果这个子测试的结果是正的,逻辑移动到判断模块136来判断SOMSpectralEn计数器值是否大于段数目的10%。仅当第二组合测试中的所有3个子测试均被满足时,这个逻辑移动到模块130将这个间隔分类为“关于音乐的语音”;如果判断模块132,134,136中任何一个子测试没有通过时,逻辑在状态138结束,而不将段分类为“关于音乐的语音”。在保存这个间隔前,任何没有被分类为沉默,语音,音乐,或者关于音乐的语音的间隔被分类为“不能判断”。
如上面参考图2所讨论的,一旦一个音频流的间隔已经被分类,间隔的临时序列被与预保存的元图案类型匹配,来判断一组是否与元图案中的一个匹配。然后,这个音频流被进一步根据元图案进行索引。图11显示了一旦被索引,以概述流,快速浏览流和找到流的要旨,一个用户如何搜寻音频流。
从模块140开始,接收了一个用户关于音频流的请求。在模块142,对这个用户请求作出响应,并且使用前面所提到的、所产生的音频流的索引,检索音频流中被请求的部分。例如,一个用户可能希望访问“教育音频,而没有商业信息”,并且仅那些满足“教育”元图案的音频流部分返回到模块144。换句话说,满足这个请求的间隔,或者多个间隔,和/或者其索引在模块144中被以临时顺序返回。
应理解,对例如一个“概述”音频流的用户请求作出响应,音频流的索引可以在模块144中被提供。这样一个列表的提供是音频流的一个概述。使用这个索引,这个用户滚动浏览音频流的间隔,并且现在那些他或者它所希望听,希望快速掠过和/或者对这个流“找要旨”。
除了上述公开的、用于对音频流做索引的方法外,图12和13显示了可以用于对音频进行索引的其它方法,特别是通过在已经被分类为“语音”的音频事件中探索式定义“感兴趣事件”。从图12的模块146开始,这里检测具有语音的一个音频流中音调的改变。在第一逻辑分支后,这个方法移动到模块148来将语音输入到一个语音识别系统,例如其代理人为本发明的代理人,并且这里用作参考的、美国专利号5,293,584中所公开的系统。进行到模块150,语音识别系统的输出-词-被用于索引音频流。
除了在模块150中,通过词内容来索引这个音频流外,从模块146后,逻辑经过一第二分支到模块152,其中语音中“感兴趣事件”被标识,如下面参考图13进一步讨论的。组成语音中“感兴趣的事件”,和对“感兴趣事件”的测试被探索式定义。如图12所表示的,“感兴趣事件”可以包括语音中的重音,语音中的停顿,语音中总结想法。
移动到模块154,当音频流包括语音时,使用通过一系列“感兴趣事件”间隔建立的元图案来进一步对这个语音流进行索引。这样一个元图案的示例是下述感兴趣事件“重要想法”的元图案。并且,在模块156中,可以根据这里的各“感兴趣事件”来索引音频流。
现在参考图13,显示了语音判断3个优选“感兴趣事件”/其元图案的出现的一个方法。从模块160开始,获得音频流的采样。在一个优选实施方式中,每一个采样的持续时间为10毫秒。
进行到模块162,决定每一个采样的主要频率。在决定主要频率的期间,本发明的优选实施方式考虑了下述8个频率带:
R1-100赫兹到3,000赫兹R2-3,000赫兹到4,000赫兹
R3-4,000赫兹到5,000赫兹R4-5,000赫兹到6,000赫兹
R5-6,000赫兹到6,500赫兹R6-6,500赫兹到7,000赫兹
R7-7,000赫兹到7,500赫兹R8-7,500赫兹到8,000赫兹
对每一个采样,如下述来计算主要频率:
RnFreq=第n带中频率的数目,n=1到8,被采样的总数除,其中主要频率范围定义为RnFreq值(8个)中最大的一个值。
移动到模块164,使用一个直方图来归一化主要频率。已经决定和归一化音频流采样的主要频率,这个处理移动到模块166,来标识主要频率为上1%频率的采样,并且进一步标识其主要频率为低1%频率的采样。
第一分支到判断模块168,这个逻辑判断音频流中的任何序列是否包括100个或者更多连续其主要频率在低1%中的采样。应理解,可以使用更短或者更长的时间间隔。如果发现了这样一个序列,逻辑进行到模块170来对这个序列进行分类和索引,以作为语音中一个总结想法,并且这是在以状态172结束前进行的。否则,在判断模块168分支的逻辑结束于状态172。
另外,逻辑分支到判断模块174,其中这个逻辑判断音频流中的任何序列是否包括100个或者更多连续的、其主要频率位于上1%内中的采样。应理解,可以使用更短或者更长的时间间隔。如果发现了这样一个序列,逻辑进行到模块176来对这个序列进行分类和索引,以作为语音中重音,并且这是在以状态172结束前进行的。否则,在判断模块174分支的逻辑结束于状态172。
如图13所显示的,当发现了语音序列中的一个重音时,逻辑从模块176进行到判断模块178,其中它判断被强调序列是否持续了至少3秒。但是,可以使用更短或者更长的持续时间。如果发现了这样一个延长的被强调序列,逻辑在模块180中对这个序列进行分类和索引,以作为语音中一个重要想法,从模块180,或者当其测试是负的时,从判断模块178,逻辑结束于状态172。
应理解,本发明用于判断语音中感兴趣事件的探索式定义进一步包括考虑音调改变的速率,幅度,幅度改变的速率,以及其它声音特征。
图14显示了用于判断一个间隔是否是“谐波”的逻辑,优选用于图6的上述测试中。从模块200开始,对一个间隔中每一段,进入一个“DO”循环。移动到判断模块202,它判断一系列所产生的频率fR是否与前一段所产生的频率fR序列相同。
就所产生的频率fR来说,如本发明所认识到的,如果下述关系成立:f2=(I/(I+1))*f1,其中I是≥2的一个整数,一个频率f1具有至少一个音乐谐波频率f2。当同时出现f2和f1时,所产生的频率fR出现,其中fR=f1/I。在判断模块202的测试中所使用的是这个产生频率fR
如果判断模块202中的判断是负的,逻辑移动到判断模块204来判断是否已经测试最后一个段,如果没有,逻辑在模块206中检索下一个段,然后返回到判断模块202。另一方面,当判断模块202的判断是正时,逻辑进行到模块208,将正在被测试的段标记为“谐波”。
当已经测试完最后段时,逻辑从判断模块204进行到判断模块210。在判断模块210,它判断任何“谐波”段的序列是否至少等于一个预定时间间隔,例如2秒。如果不是,逻辑在状态212结束。否则,间隔在模块214中被标记为“谐波”,以用于例如图6的测试中。
虽然这里显示和已经详细描述的特定自动进行音频内容分析以识别词,做索引,分类和检索的系统和方法完全能够达到本发明上述目的,但是应理解,它是本发明的优选实施方式,这样它是本发明广泛期望的主题的一个示例,本发明的范围完全包括该领域技术人员很清楚的修改,所以,本发明的范围仅能够用后附权利要求书来进行限制。

Claims (12)

1.一个用计算机实现的方法,用于分析一个音频信号,包括:
检测音频信号中一个或者多个间隔中的音频事件,每一个间隔包括一个或者多个段的临时序列;
根据音频事件对音频信号进行索引;以及
使用所述音频信号的索引来对音频信号进行快速浏览、找要旨或概述,
其中,检测步骤包括:
判断一个间隔的段是否具有一个或者多个预定音频特征,每一个预定音频特征表示包括至少音乐和语音的至少一个相应音频事件;
对判断步骤作出响应,将间隔与相应的音频事件相关,来对间隔进行分类;以及
至少是部分地根据间隔类型来对音频信号进行索引。
2.如权利要求1的这个方法,进一步包括:
用于使用从音频信号中翻译词的一个语音识别引擎来仅处理音频信号中的相关部分;
用于从这个引擎接收对至少一些词的替代词;
用于从这个引擎接收对至少一些词的可信度和替代词;和
用于至少是部分根据可信度来索引词和替代词。
3.如权利要求2的这个方法,其中仅接收长度长于“N”个字符并且其可信度大于百分之“x”的替代词,其中N是一个整数,x是0到100之间的一个数。
4.如权利要求3的这个方法,其中根据相应的权重来索引词和替代词。
5.如权利要求1的这个方法,进一步包括探索式地定义音频事件。
6.如权利要求3的这个方法,其中检测步骤进一步包括:
判断至少一组间隔是否与一预定元图案集合中的一元图案匹配;和
当判断这组间隔与一个元图案匹配时,将这组间隔与一个元图案类型相关,其中根据间隔类型和元图案类型来索引音频信号。
7.如权利要求1的这个方法,其中每一个预定音频特征是基于下面的一个或者多个:至少一部分音频信号的过零率,至少一部分音频信号的能量,至少一部分音频信号的的谱能量密度,和至少一部分音频信号的频率。
8.如权利要求1的这个方法,其中音频事件进一步包括沉默,关于音乐的语音,语音中的重音,语音的停顿,和语音中总结想法。
9.如权利要求2的这个方法,进一步包括:
在分类步骤前,归一化段。
10.如权利要求1的这个方法,其中用于判断一个间隔的段是否具有一个或者多个预定音频特征的步骤包括:
对一个间隔中的每一段,判断与这个段相关的一个或者多个预定音频特征是否等于一个相应的阈值;
当预定音频特征等于相应阈值时,增加与一个或者多个预定音频特征相应的一个或者多个计数器;和
将一个或者多个计数器与这个间隔中段的总数目相比,根据比较步骤来执行对间隔的分类。
11.如权利要求10的这个方法,进一步包括:
判断在对间隔进行分类的步骤期间被分类为语音的至少一个间隔中的一个或者多个主要频率;
当一个或者多个段包括前M%的主要频率时,将一个或者多个段与语音中的重音相关,其中M是一个数;和
当一个或者多个段包括后M%的主要频率时,将一个或者多个段与语音中的总结想法相关。
12.如权利要求11的这个方法,进一步包括判断所有均与语音中的重音相关的临时序列段是否定义了比一个预定时间间隔长的一个时间间隔,如果是,就对临时序列段进行索引,以作为语音中一个重要想法。
CNB991270800A 1999-01-19 1999-12-28 自动进行音频内容分析的系统和方法 Expired - Lifetime CN1290039C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/234,663 1999-01-19
US09/234,663 US6185527B1 (en) 1999-01-19 1999-01-19 System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval

Publications (2)

Publication Number Publication Date
CN1261181A CN1261181A (zh) 2000-07-26
CN1290039C true CN1290039C (zh) 2006-12-13

Family

ID=22882300

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991270800A Expired - Lifetime CN1290039C (zh) 1999-01-19 1999-12-28 自动进行音频内容分析的系统和方法

Country Status (5)

Country Link
US (1) US6185527B1 (zh)
JP (1) JP3531729B2 (zh)
KR (1) KR100380947B1 (zh)
CN (1) CN1290039C (zh)
TW (1) TW469422B (zh)

Families Citing this family (229)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6360234B2 (en) 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6163510A (en) * 1998-06-30 2000-12-19 International Business Machines Corporation Multimedia search and indexing system and method of operation using audio cues with signal thresholds
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
GB2361339B (en) * 1999-01-27 2003-08-06 Kent Ridge Digital Labs Method and apparatus for voice annotation and retrieval of multimedia data
US6891931B1 (en) * 1999-02-26 2005-05-10 Bellsouth Intellectual Property Corporation Methods and systems for enabling return to same position in a review of messages in a voice mail system using tag or identifier stored in the voice mail system
US6345252B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6424946B1 (en) * 1999-04-09 2002-07-23 International Business Machines Corporation Methods and apparatus for unknown speaker labeling using concurrent speech recognition, segmentation, classification and clustering
US6345253B1 (en) * 1999-04-09 2002-02-05 International Business Machines Corporation Method and apparatus for retrieving audio information using primary and supplemental indexes
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US9171545B2 (en) * 1999-04-19 2015-10-27 At&T Intellectual Property Ii, L.P. Browsing and retrieval of full broadcast-quality video
US7877774B1 (en) * 1999-04-19 2011-01-25 At&T Intellectual Property Ii, L.P. Browsing and retrieval of full broadcast-quality video
US6519564B1 (en) * 1999-07-01 2003-02-11 Koninklijke Philips Electronics N.V. Content-driven speech-or audio-browser
US7313808B1 (en) 1999-07-08 2007-12-25 Microsoft Corporation Browsing continuous multimedia content
US7293280B1 (en) * 1999-07-08 2007-11-06 Microsoft Corporation Skimming continuous multimedia content
JP2001125900A (ja) * 1999-10-29 2001-05-11 Yazaki Corp 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体
US6876729B1 (en) * 1999-11-16 2005-04-05 Avaya Technology Corp. Bookmarking voice messages
US6925436B1 (en) * 2000-01-28 2005-08-02 International Business Machines Corporation Indexing with translation model for feature regularization
US6513003B1 (en) * 2000-02-03 2003-01-28 Fair Disclosure Financial Network, Inc. System and method for integrated delivery of media and synchronized transcription
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
US6868440B1 (en) * 2000-02-04 2005-03-15 Microsoft Corporation Multi-level skimming of multimedia content using playlists
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US7260564B1 (en) * 2000-04-07 2007-08-21 Virage, Inc. Network video guide and spidering
US7962948B1 (en) * 2000-04-07 2011-06-14 Virage, Inc. Video-enabled community building
US7222163B1 (en) * 2000-04-07 2007-05-22 Virage, Inc. System and method for hosting of video content over a network
US8171509B1 (en) 2000-04-07 2012-05-01 Virage, Inc. System and method for applying a database to video multimedia
US6760699B1 (en) * 2000-04-24 2004-07-06 Lucent Technologies Inc. Soft feature decoding in a distributed automatic speech recognition system for use over wireless channels
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
AUPR082400A0 (en) 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US6728676B1 (en) * 2000-10-19 2004-04-27 International Business Machines Corporation Using speech recognition to improve efficiency of an inventory task
US8230323B2 (en) * 2000-12-06 2012-07-24 Sra International, Inc. Content distribution system and method
US20020095330A1 (en) * 2001-01-12 2002-07-18 Stuart Berkowitz Audio Advertising computer system and method
US7379973B2 (en) * 2001-01-12 2008-05-27 Voicegenie Technologies, Inc. Computer-implemented voice application indexing web site
US7072328B2 (en) 2001-01-12 2006-07-04 Voicegenie Technologies Inc. Computer-implemented voice markup language-based server
US7366759B2 (en) * 2001-02-22 2008-04-29 Parity Communications, Inc. Method and system for characterizing relationships in social networks
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
KR100798524B1 (ko) 2001-02-23 2008-01-28 팝캣처 에이비 매체 신호 검색 및 레코딩 방법 및 장치
EP1417583B1 (en) * 2001-02-23 2006-10-11 Popcatcher Ab Method for receiving a media signal
DE10109648C2 (de) * 2001-02-28 2003-01-30 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7233899B2 (en) * 2001-03-12 2007-06-19 Fain Vitaliy S Speech recognition system using normalized voiced segment spectrogram analysis
US7072908B2 (en) * 2001-03-26 2006-07-04 Microsoft Corporation Methods and systems for synchronizing visualizations with audio streams
US6907570B2 (en) * 2001-03-29 2005-06-14 International Business Machines Corporation Video and multimedia browsing while switching between views
US8924383B2 (en) * 2001-04-06 2014-12-30 At&T Intellectual Property Ii, L.P. Broadcast video monitoring and alerting system
US7039585B2 (en) 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US6785656B2 (en) * 2001-06-05 2004-08-31 Xm Satellite Radio, Inc. Method and apparatus for digital audio playback using local stored content
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
US7225126B2 (en) * 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US7031444B2 (en) * 2001-06-29 2006-04-18 Voicegenie Technologies, Inc. Computer-implemented voice markup system and method
EP1410380B1 (en) * 2001-07-20 2010-04-28 Gracenote, Inc. Automatic identification of sound recordings
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
US6995309B2 (en) * 2001-12-06 2006-02-07 Hewlett-Packard Development Company, L.P. System and method for music identification
JP3886372B2 (ja) * 2001-12-13 2007-02-28 松下電器産業株式会社 音響変節点抽出装置及びその方法、音響再生装置及びその方法、音響信号編集装置、音響変節点抽出方法プログラム記録媒体、音響再生方法プログラム記録媒体、音響信号編集方法プログラム記録媒体、音響変節点抽出方法プログラム、音響再生方法プログラム、音響信号編集方法プログラム
KR20030059503A (ko) * 2001-12-29 2003-07-10 한국전자통신연구원 사용자별 선호도에 따른 맞춤형 음악 서비스 시스템 및 방법
US7027983B2 (en) 2001-12-31 2006-04-11 Nellymoser, Inc. System and method for generating an identification signal for electronic devices
KR20030070179A (ko) 2002-02-21 2003-08-29 엘지전자 주식회사 오디오 스트림 구분화 방법
US8046792B2 (en) * 2002-03-20 2011-10-25 Tvworks, Llc Multi-channel audio enhancement for television
US7489687B2 (en) * 2002-04-11 2009-02-10 Avaya. Inc. Emergency bandwidth allocation with an RSVP-like protocol
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US6996390B2 (en) * 2002-06-26 2006-02-07 Microsoft Corporation Smart car radio
SE524162C2 (sv) * 2002-08-23 2004-07-06 Rickard Berg Förfarande för att behandla signaler
AU2003248029B2 (en) * 2002-09-17 2005-12-08 Canon Kabushiki Kaisha Audio Object Classification Based on Statistically Derived Semantic Information
US7466334B1 (en) 2002-09-17 2008-12-16 Commfore Corporation Method and system for recording and indexing audio and video conference calls allowing topic-based notification and navigation of recordings
US8176154B2 (en) 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
US20040073690A1 (en) * 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040064306A1 (en) * 2002-09-30 2004-04-01 Wolf Peter P. Voice activated music playback system
US7076427B2 (en) * 2002-10-18 2006-07-11 Ser Solutions, Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
WO2004036544A2 (en) * 2002-10-18 2004-04-29 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
AU2003282940C1 (en) * 2002-10-18 2009-07-16 Unify Inc. Methods and apparatus for audio data monitoring and evaluation using speech recognition
US8055503B2 (en) * 2002-10-18 2011-11-08 Siemens Enterprise Communications, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US7133828B2 (en) * 2002-10-18 2006-11-07 Ser Solutions, Inc. Methods and apparatus for audio data analysis and data mining using speech recognition
US7191129B2 (en) * 2002-10-23 2007-03-13 International Business Machines Corporation System and method for data mining of contextual conversations
CN100397387C (zh) * 2002-11-28 2008-06-25 新加坡科技研究局 数字声音数据的摘要制作方法和设备
FR2850783A1 (fr) * 2003-01-30 2004-08-06 France Telecom Dispositif pour indexer un signal audio continu de duree indeterminee
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
EP1465192A1 (en) * 2003-04-04 2004-10-06 Thomson Licensing S.A. Method for detection of acoustic events in audio signals
US7130623B2 (en) * 2003-04-17 2006-10-31 Nokia Corporation Remote broadcast recording
WO2005010866A1 (en) * 2003-07-23 2005-02-03 Nexidia Inc. Spoken word spotting queries
US7232948B2 (en) * 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US7546173B2 (en) * 2003-08-18 2009-06-09 Nice Systems, Ltd. Apparatus and method for audio content analysis, marking and summing
EP1656662B1 (en) * 2003-08-22 2016-06-01 Unify Inc. System for and method of automated quality monitoring
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US7379875B2 (en) 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US20050097120A1 (en) * 2003-10-31 2005-05-05 Fuji Xerox Co., Ltd. Systems and methods for organizing data
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
DE60318451T2 (de) * 2003-11-12 2008-12-11 Sony Deutschland Gmbh Automatische Zusammenfassung für eine Vorschlagsmaschine von Fernsehprogrammen beruhend auf Verbraucherpräferenzen
EP1531456B1 (en) * 2003-11-12 2008-03-12 Sony Deutschland GmbH Apparatus and method for automatic dissection of segmented audio signals
DE60318450T2 (de) * 2003-11-12 2008-12-11 Sony Deutschland Gmbh Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
US20050137867A1 (en) * 2003-12-17 2005-06-23 Miller Mark R. Method for electronically generating a synchronized textual transcript of an audio recording
GB2409560B (en) 2003-12-23 2007-07-25 Ibm Interactive speech recognition model
TWI259719B (en) * 2004-01-14 2006-08-01 Mitsubishi Electric Corp Apparatus and method for reproducing summary
US20050154987A1 (en) * 2004-01-14 2005-07-14 Isao Otsuka System and method for recording and reproducing multimedia
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US8064580B1 (en) 2004-09-03 2011-11-22 Confinement Telephony Technology, Llc Telephony system and method with improved fraud control
JP4220449B2 (ja) * 2004-09-16 2009-02-04 株式会社東芝 インデキシング装置、インデキシング方法およびインデキシングプログラム
US7818179B2 (en) * 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US8305507B2 (en) * 2005-02-25 2012-11-06 Samsung Display Co., Ltd. Thin film transistor array panel having improved storage capacitance and manufacturing method thereof
US8005675B2 (en) * 2005-03-17 2011-08-23 Nice Systems, Ltd. Apparatus and method for audio analysis
US7634407B2 (en) * 2005-05-20 2009-12-15 Microsoft Corporation Method and apparatus for indexing speech
US7440894B2 (en) * 2005-08-09 2008-10-21 International Business Machines Corporation Method and system for creation of voice training profiles with multiple methods with uniform server mechanism using heterogeneous devices
US7825319B2 (en) * 2005-10-06 2010-11-02 Pacing Technologies Llc System and method for pacing repetitive motion activities
US20110072955A1 (en) 2005-10-06 2011-03-31 Turner William D System and method for pacing repetitive motion activities
US7688686B2 (en) * 2005-10-27 2010-03-30 Microsoft Corporation Enhanced table of contents (TOC) identifiers
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
KR100695009B1 (ko) * 2005-12-01 2007-03-14 한국전자통신연구원 소프트웨어 기반 프리필터링을 이용한 스트림 데이터 처리시스템 및 그 방법
JP5145939B2 (ja) * 2005-12-08 2013-02-20 日本電気株式会社 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
US7653342B2 (en) * 2006-02-16 2010-01-26 Dell Products L.P. Providing content to a device when lost a connection to the broadcasting station
CN101063970B (zh) * 2006-04-24 2014-03-26 亿览在线网络技术(北京)有限公司 一种基于音频特征码识别技术的音频文件管理方法和系统
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
US7668721B2 (en) * 2006-05-22 2010-02-23 Microsoft Corporation Indexing and strong verbal content
EP2021979B1 (en) * 2006-05-30 2012-03-21 Yissum Research Development Company of the Hebrew University of Jerusalem Pattern matching
TWI312945B (en) * 2006-06-07 2009-08-01 Ind Tech Res Inst Method and apparatus for multimedia data management
CN101489469B (zh) * 2006-07-10 2012-12-12 埃森哲环球服务有限公司 用于提供反馈的移动个人服务平台
JP4453687B2 (ja) * 2006-08-03 2010-04-21 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
US20080046406A1 (en) * 2006-08-15 2008-02-21 Microsoft Corporation Audio and video thumbnails
JP4728972B2 (ja) * 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
US7617337B1 (en) 2007-02-06 2009-11-10 Avaya Inc. VoIP quality tradeoff system
WO2008096336A2 (en) * 2007-02-08 2008-08-14 Nice Systems Ltd. Method and system for laughter detection
US20080221876A1 (en) * 2007-03-08 2008-09-11 Universitat Fur Musik Und Darstellende Kunst Method for processing audio data into a condensed version
GB2451419A (en) * 2007-05-11 2009-02-04 Audiosoft Ltd Processing audio data
US7930420B2 (en) * 2007-06-25 2011-04-19 University Of Southern California Source-based alert when streaming media of live event on computer network is of current interest and related feedback
US20090006551A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Dynamic awareness of people
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
JP5060224B2 (ja) * 2007-09-12 2012-10-31 株式会社東芝 信号処理装置及びその方法
US20090132252A1 (en) * 2007-11-20 2009-05-21 Massachusetts Institute Of Technology Unsupervised Topic Segmentation of Acoustic Speech Signal
US8185539B1 (en) * 2008-08-12 2012-05-22 Foneweb, Inc. Web site or directory search using speech recognition of letters
CN101493987B (zh) * 2008-01-24 2011-08-31 深圳富泰宏精密工业有限公司 手机声控遥控系统及方法
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US8229921B2 (en) * 2008-02-25 2012-07-24 Mitsubishi Electric Research Laboratories, Inc. Method for indexing for retrieving documents using particles
GB2457897A (en) * 2008-02-27 2009-09-02 N S C Natural Speech Comm Ltd Audio File Management, Search and Indexing Method and System
US8311188B2 (en) * 2008-04-08 2012-11-13 Cisco Technology, Inc. User interface with voice message summary
US8489992B2 (en) * 2008-04-08 2013-07-16 Cisco Technology, Inc. User interface with visual progression
US8380741B2 (en) * 2008-08-29 2013-02-19 Nec Corporation Text mining apparatus, text mining method, and computer-readable recording medium
WO2010023938A1 (ja) * 2008-08-29 2010-03-04 日本電気株式会社 テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US20100161604A1 (en) * 2008-12-23 2010-06-24 Nice Systems Ltd Apparatus and method for multimedia content based manipulation
JP5398602B2 (ja) * 2009-03-20 2014-01-29 本田技研工業株式会社 言語処理装置
KR100999655B1 (ko) * 2009-05-18 2010-12-13 윤재민 디지털 비디오 레코더 시스템 및 그것의 운용방법
US9196254B1 (en) * 2009-07-02 2015-11-24 Alon Konchitsky Method for implementing quality control for one or more components of an audio signal received from a communication device
TWI416367B (zh) * 2009-12-16 2013-11-21 Hon Hai Prec Ind Co Ltd 電子裝置及音訊資料的版權保護方法
US8417524B2 (en) * 2010-02-11 2013-04-09 International Business Machines Corporation Analysis of the temporal evolution of emotions in an audio interaction in a service delivery environment
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
KR101582436B1 (ko) * 2010-05-04 2016-01-04 샤잠 엔터테인먼트 리미티드 미디어의 동기화 방법 및 시스템
US20110307258A1 (en) * 2010-06-10 2011-12-15 Nice Systems Ltd. Real-time application of interaction anlytics
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
US9292667B1 (en) 2010-11-10 2016-03-22 Amazon Technologies, Inc. Location based community
US8825661B2 (en) 2010-11-30 2014-09-02 International Business Machines Corporation Systems and methods for two stream indexing of audio content
KR20120064582A (ko) * 2010-12-09 2012-06-19 한국전자통신연구원 멀티미디어 컨텐츠 검색 방법 및 장치
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
EP2793223B1 (en) * 2010-12-30 2016-05-25 Dolby International AB Ranking representative segments in media data
US8825478B2 (en) * 2011-01-10 2014-09-02 Nuance Communications, Inc. Real time generation of audio content summaries
EP2666160A4 (en) * 2011-01-17 2014-07-30 Nokia Corp AUDIO SCENE PROCESSING APPARATUS
CN102622353B (zh) * 2011-01-27 2013-10-16 天脉聚源(北京)传媒科技有限公司 一种固定音频检索方法
US8719022B2 (en) * 2011-04-29 2014-05-06 Nexidia Inc. Compressed phonetic representation
KR102017333B1 (ko) 2011-08-26 2019-09-02 구글 엘엘씨 미디어 항목이 표시되고 있다는 신뢰도를 결정하기 위한 시스템 및 방법
US9443518B1 (en) 2011-08-31 2016-09-13 Google Inc. Text transcript generation from a communication session
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
CN104285452A (zh) * 2012-03-14 2015-01-14 诺基亚公司 空间音频信号滤波
JP5242826B1 (ja) * 2012-03-22 2013-07-24 株式会社東芝 情報処理装置及び情報処理方法
CN102664007B (zh) * 2012-03-27 2016-08-31 上海量明科技发展有限公司 用于生成字符标识内容的方法、客户端及系统
US9275139B2 (en) 2012-03-30 2016-03-01 Aurix Limited “At least” operator for combining audio search hits
US9378752B2 (en) * 2012-09-05 2016-06-28 Honda Motor Co., Ltd. Sound processing device, sound processing method, and sound processing program
US8484017B1 (en) * 2012-09-10 2013-07-09 Google Inc. Identifying media content
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US8612211B1 (en) 2012-09-10 2013-12-17 Google Inc. Speech recognition and summarization
US9087508B1 (en) * 2012-10-18 2015-07-21 Audible, Inc. Presenting representative content portions during content navigation
US20140161263A1 (en) * 2012-12-10 2014-06-12 Microsoft Corporation Facilitating recognition of real-time content
WO2014091281A1 (en) * 2012-12-13 2014-06-19 Nokia Corporation An apparatus aligning audio signals in a shared audio scene
US9374629B2 (en) 2013-03-15 2016-06-21 The Nielsen Company (Us), Llc Methods and apparatus to classify audio
US9734208B1 (en) * 2013-05-13 2017-08-15 Audible, Inc. Knowledge sharing based on meeting information
WO2014191054A1 (en) * 2013-05-31 2014-12-04 Longsand Limited Processing of audio data
EP3025295A4 (en) * 2013-07-26 2016-07-20 Greeneden Us Holdings Ii Llc SYSTEM AND METHOD FOR DISCOVERING AND EXPLORING CONCEPTS
US10061822B2 (en) 2013-07-26 2018-08-28 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts and root causes of events
US9971764B2 (en) * 2013-07-26 2018-05-15 Genesys Telecommunications Laboratories, Inc. System and method for discovering and exploring concepts
GB2518663A (en) * 2013-09-27 2015-04-01 Nokia Corp Audio analysis apparatus
US10297287B2 (en) 2013-10-21 2019-05-21 Thuuz, Inc. Dynamic media recording
US9514753B2 (en) 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
CN104700831B (zh) * 2013-12-05 2018-03-06 国际商业机器公司 分析音频文件的语音特征的方法和装置
EP2899723A1 (en) * 2013-12-16 2015-07-29 Thomson Licensing Method for accelerated restitution of audio content and associated device
AU2015229701A1 (en) * 2014-03-10 2016-09-29 Veritone, Inc. Engine, system and method of providing audio transcriptions for use in content resources
US10229686B2 (en) 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US11863848B1 (en) 2014-10-09 2024-01-02 Stats Llc User interface for interaction with customized highlight shows
US10433030B2 (en) 2014-10-09 2019-10-01 Thuuz, Inc. Generating a customized highlight sequence depicting multiple events
US10536758B2 (en) 2014-10-09 2020-01-14 Thuuz, Inc. Customized generation of highlight show with narrative component
US10419830B2 (en) 2014-10-09 2019-09-17 Thuuz, Inc. Generating a customized highlight sequence depicting an event
JP2016126481A (ja) * 2014-12-26 2016-07-11 ブラザー工業株式会社 デバイス制御プログラム、デバイス制御方法及びデバイス制御装置
CN104715033A (zh) * 2015-03-16 2015-06-17 太原理工大学 一种阶梯式音频检索方法
US10959648B2 (en) 2015-06-25 2021-03-30 The University Of Chicago Wearable word counter
US10789939B2 (en) 2015-06-25 2020-09-29 The University Of Chicago Wearable word counter
US10134424B2 (en) * 2015-06-25 2018-11-20 VersaMe, Inc. Wearable word counter
US10178350B2 (en) * 2015-08-31 2019-01-08 Getgo, Inc. Providing shortened recordings of online conferences
US9548046B1 (en) * 2015-10-01 2017-01-17 VersaMe, Inc. Continuous analysis word counter
EP3244408A1 (en) * 2016-05-09 2017-11-15 Sony Mobile Communications, Inc Method and electronic unit for adjusting playback speed of media files
US20170371615A1 (en) * 2016-06-22 2017-12-28 Qualcomm Incorporated Alerting a user to a change in an audio stream
US10642889B2 (en) 2017-02-20 2020-05-05 Gong I.O Ltd. Unsupervised automated topic detection, segmentation and labeling of conversations
WO2018170876A1 (en) * 2017-03-24 2018-09-27 Microsoft Technology Licensing, Llc A voice-based knowledge sharing application for chatbots
CN107086040B (zh) * 2017-06-23 2021-03-02 歌尔股份有限公司 语音识别能力测试方法和装置
CN107390872A (zh) * 2017-07-24 2017-11-24 沙洲职业工学院 一种声控计算机
US10547708B2 (en) 2017-10-25 2020-01-28 International Business Machines Corporation Adding conversation context from detected audio to contact records
US10657202B2 (en) 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
US11276407B2 (en) 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
KR102036721B1 (ko) * 2018-05-16 2019-10-25 주식회사 한글과컴퓨터 녹음 음성에 대한 빠른 검색을 지원하는 단말 장치 및 그 동작 방법
US11594028B2 (en) 2018-05-18 2023-02-28 Stats Llc Video processing for enabling sports highlights generation
US11264048B1 (en) 2018-06-05 2022-03-01 Stats Llc Audio processing for detecting occurrences of loud sound characterized by brief audio bursts
US11025985B2 (en) 2018-06-05 2021-06-01 Stats Llc Audio processing for detecting occurrences of crowd noise in sporting event television programming
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11375293B2 (en) * 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
CN109547695A (zh) * 2018-12-12 2019-03-29 山东交通学院 基于声音分类算法定向捕捉画面的全息视频监控系统及方法
US10831824B1 (en) * 2019-07-01 2020-11-10 Koye Corp. Audio segment based and/or compilation based social networking platform
CN110718229A (zh) * 2019-11-14 2020-01-21 国微集团(深圳)有限公司 录音回放攻击的检测方法及对应检测模型的训练方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
AU2868092A (en) * 1991-09-30 1993-05-03 Riverrun Technology Method and apparatus for managing information
US5436653A (en) 1992-04-30 1995-07-25 The Arbitron Company Method and system for recognition of broadcast segments
US5293584A (en) 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5404510A (en) 1992-05-21 1995-04-04 Oracle Corporation Database index design based upon request importance and the reuse and modification of similar existing indexes
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
US5606643A (en) * 1994-04-12 1997-02-25 Xerox Corporation Real-time audio recording system for automatic speaker indexing
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5787387A (en) 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5764852A (en) 1994-08-16 1998-06-09 International Business Machines Corporation Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events
JPH0863184A (ja) 1994-08-18 1996-03-08 Matsushita Electric Ind Co Ltd 音声認識方法
JPH0887292A (ja) 1994-09-16 1996-04-02 Glory Ltd 単語音声認識装置
US5712953A (en) 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US5794249A (en) 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
US6098082A (en) 1996-07-15 2000-08-01 At&T Corp Method for automatically providing a compressed rendition of a video program in a format suitable for electronic searching and retrieval
JPH1049189A (ja) 1996-07-30 1998-02-20 Matsushita Electric Ind Co Ltd 音声認識装置
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same

Also Published As

Publication number Publication date
KR20000076488A (ko) 2000-12-26
TW469422B (en) 2001-12-21
CN1261181A (zh) 2000-07-26
JP2000259168A (ja) 2000-09-22
US6185527B1 (en) 2001-02-06
KR100380947B1 (ko) 2003-04-21
JP3531729B2 (ja) 2004-05-31

Similar Documents

Publication Publication Date Title
CN1290039C (zh) 自动进行音频内容分析的系统和方法
CN110557589B (zh) 用于整合记录的内容的系统和方法
US10133538B2 (en) Semi-supervised speaker diarization
US8775174B2 (en) Method for indexing multimedia information
EP1531478A1 (en) Apparatus and method for classifying an audio signal
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
CN1662956A (zh) 大量说话人识别(id)系统及其相应方法
US20030187642A1 (en) System and method for the automatic discovery of salient segments in speech transcripts
CN1703734A (zh) 从声音确定音符的方法和装置
CN1604081A (zh) 内容标识系统
CN1463419A (zh) 同步文本/可视信息与音频重放
CN102799605A (zh) 一种广告监播方法和系统
CN1664819A (zh) 通过对信息新颖性和动态学的分析来个性化新闻馈送的原理和方法
CN1822000A (zh) 一种自动检测新闻事件的方法
CN1666252A (zh) 为声音信号分配声级的方法和装置
US11501546B2 (en) Media management system for video data processing and adaptation data generation
CN112052154A (zh) 一种测试用例的处理方法、装置
EP1531457B1 (en) Apparatus and method for segmentation of audio data into meta patterns
EP1542206A1 (en) Apparatus and method for automatic classification of audio signals
Tzanetakis Audio-based gender identification using bootstrapping
Liu et al. NewsBR: a content-based news video browsing and retrieval system
CN116860950B (zh) 一种术语对话机器人语料更新方法及系统
Sano et al. Automatic real-time selection and annotation of highlight scenes in televised soccer
Melih et al. Audio source type segmentation using a perceptually based representation
Gauvain et al. Invited Talk: Processing Broadcast Audio for Information Access

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20161207

Address after: American California

Patentee after: Hu Lu limited liability company

Address before: American New York

Patentee before: International Business Machines Corp.

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20061213