CN1262570A - 用于对语音说话方式进行断点的通信装置和方法 - Google Patents

用于对语音说话方式进行断点的通信装置和方法 Download PDF

Info

Publication number
CN1262570A
CN1262570A CN00101631.8A CN00101631A CN1262570A CN 1262570 A CN1262570 A CN 1262570A CN 00101631 A CN00101631 A CN 00101631A CN 1262570 A CN1262570 A CN 1262570A
Authority
CN
China
Prior art keywords
energy
voice
frame
speech
microprocessor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN00101631.8A
Other languages
English (en)
Other versions
CN1121678C (zh
Inventor
威廉·M·库什那
阿德里尔斯·帕里凯蒂斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1262570A publication Critical patent/CN1262570A/zh
Application granted granted Critical
Publication of CN1121678C publication Critical patent/CN1121678C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

能够用于对语音说话方式进行断点的一个通信装置,微处理器(110)分析一个语音信号来决定一个语音采集窗口内的语音波形参数,比较语音波形参数来决定语音说话的开始和结束端点,还从根据语音说话能量质心的一个帧索引号开始,并且分析在这个帧索引号前面的和后面的帧来决定端点。由于将累加帧能量与语音采集窗口内的总能量相比来决定是否出现了附加语音帧,所以说话中的间隙和停顿不会产生一个错误的端点判断。

Description

用于对语音说话方式进行断点的通信装置和方法
本发明一般涉及具有语音识别技术的电子装置。更特别地,本发明涉及具有与说话者相关的语音识别技术的便携式通信装置。
随着对小型化、便携式电子装置的需求的增长,消费者希望使用能够增强和扩展便携式电子装置用途的附加特征。这些电子装置包括CD播放器,双向无线通信装置,蜂窝电话,计算机,个人助理,语音记录器,和类似的装置。特别地,消费者希望仅使用声音通信就能够输入信息和控制电子装置。应理解,声音通信包括语音,声学的和其它非接触性通信。通过使用声音来进行输入和控制,一个用户可以操作电子装置而不需要与其接触,并且可以以比使用一个键盘更快的速度来输入信息和输入控制命令。另外,声音输入及控制装置消除了对键盘和其它直接接触输入装置的需要,这样可以允许制造尺寸更小的电子装置。
声音输入及控制装置需要正确地使用起支撑作用的语音识别技术。基本地,语音识别技术分析一个语音数据采集窗口内的一个语音波形,以将这个波形与被保存在存储器中的词模型进行匹配。如果发现语音波形与一个词模型相互匹配,语音识别技术就向电子装置提供一个信号,将这个语音波形识别为与这个词模型相关的词。
一般通过将从一个特定词的语音波形中推导出来的参数保存在存储器中,来产生一个词模型。在与说话者无关的语音识别装置中,使用某种方式,对所期望的一个抽样人群所说的一个词的语音波形的参数进行平均,来产生这个词的一个词模型。通过让不同人说同一个词,并对其语音参数进行平均,这个词的模型对大多数人来说应该是可以使用的,尽管很可能不会对所有人均适用。
在与说话者有关的电子装置中,用户通过当被电子装置提示时就说出一个特定词来训练这个装置。然后,这个语音识别技术根据从用户的输入来产生一个词模型。语音识别技术可能会提示这个用户重复这个词很多次,然后以某种方式平均语音波形参数,来产生词模型。
为了正确地操作语音识别技术,一致地识别语音说话方式的开始和结束端点是很重要的。不一致地识别说话的端点很可能会把一个词截断,并且很可能会在被语音识别技术获得的语音波形中包括外来噪声。词被截断和/或者噪声很可能会产生训练很差的模型,并且当所获得的语音波形不与任何词模型匹配时,使语音识别技术不能正确地工作。另外,词被截断和/或者噪声很可能会促使语音识别技术将所获得的语音波形错误地识别为另一个词。在与说话者相关的语音识别装置中,当语音识别技术仅允许几个训练说话方式时,因为端点很差而引起的问题就变得更严重了。
现有技术描述了使用阈值能量比较,过零分析,和互相关的技术。这些方法依次从左到右,从右到左,或者从语音波形的中心向周围来分析语音特征。在这些技术中,对包括停顿或者间隙的说话方式进行分析是有问题的。典型地,一个说话中的停顿或者间隙是由词的本质、用户的风格所决定的,是由包括多个词的说话方式所决定的。某些技术在间隙处对词或者句子进行截断,并且错误地假定已经达到了说话的端点。其它技术使用一个最大间隙尺寸准则来将被检测的、带停顿的说话的部分组合成一单句话。在这样的技术中,比一个预定阈值长的停顿将促使一句话的部分会被排除在这句话的外面。
所以,需要能够一致地识别一个语音采集窗口内一个完整语音句的开始和结束端点。另外,还需要能够确保一句说话中被停顿或者间隙分隔开的词或者词的部分能够被包括在一句话的边界内。
本发明的基本目的是提供用于对语音说话方式进行断点的一个通信装置和方法。本发明的另一个目的是确保被间隙和停顿分隔开的词和词的部分能够被包括在一句话的边界内。如下面将要更细致地讨论的,本发明克服了现有技术的缺陷,实现了本发明的这些目的和其它目的。
本发明提供了能够用于断开语音说话并且能够将被间隙和停顿分隔开的词和词的部分包括在一句话的边界内的一个通信装置。这个通信装置包括一个微处理器,这个微处理器与通信接口电路,音频电路,存储器,一个可选的键盘,一个显示器,和一个振动器/蜂鸣器相连。音频电路连接到一个麦克风和一个扬声器。音频电路包括滤波与放大电路,和一个模拟-数字转换器。这个微处理器包括一个语音/噪声分类器,和语音识别技术。
微处理器分析一个语音信号来决定在一个语音采集窗口内的语音波形参数。这个微处理器利用这些语音波形参数来决定语音说话的开始和结束端点。为了做这个决定,这个微处理器根据语音说话的能量质心来在一个帧的索引处开始,并且分析在这个帧索引前面的和后面的帧来决定端点。当识别了一个潜在的端点时,这个微处理器将这个潜在端点处的累加能量与语音采集窗口内的总能量相比,以决定附加的语音帧是否已经出现。所以,说话中的间隙和停顿不会产生一个错误的端点判断。
当参考附图来阅读本发明时,能够更好地理解本发明。
图1是能够用于对语音说话方式进行断点的一个通信装置的一个框图;和
图2是描述对语音说话方式进行断点的一个流图。
图1是根据本发明的一个通信装置100的一个框图。通信装置100可以是一个蜂窝电话,一个便携式电话装置,一个双向收音机,一个计算机或者个人助理的一个数据接口,或者类似的电子装置。通信装置100包括微处理器110,微处理器110与通信接口电路115,存储器120,音频电路130,键盘140,显示器150,和振动器/蜂鸣器160相连。
微处理器110可以是包括一个数字信号处理器或者其它类型数字计算引擎的任何类似微处理器。优选地,微处理器110包括一个语音/噪声分类器和语音识别技术。可以使用一个或者多个附加的微处理器(没有显示)来提供语音/噪声分类器,语音识别技术,和本发明的断点。
通信接口电路115连接到微处理器110。这个通信接口电路是用于发送和接收数据。在个蜂窝电话中,通信接口电路115将包括一个发送器,接收器,和一个天线。在一个计算机中,通信接口电路115将包括一个到中央处理单元的数据链路。
存储器120可以是任何类型的永久或者临时存储器,例如随机访问存储器(RAM),只读存储器(ROM),磁盘,和其它类型的电子数据保存装置,存储器120的类型可以是这些类型中的一种,或者是几种的组合。优选地,存储器120具有连接到微处理器110的RAM123和ROM125。
音频电路130连接到麦克风133和扬声器135,另外,它还可以连接到通信装置100中发现的另一个麦克风或者扬声器。音频电路130优选地包括放大与滤波电路(没有显示)和一个模拟-数字转换器(没有显示)。虽然优选是采用音频电路130,但是麦克风133和扬声器135可以直接连接到微处理器110,当它执行所有或者部分音频电路130的功能时。
键盘140可以是一个电话键盘,一个计算机键盘,一个触摸屏幕显示器,或者类似的触摸式输入装置。但是,如果具有本发明的语音输入和控制能力,键盘140就不是必需的。
显示器150可以是一个LED显示器,一个LCD显示器,或者其它类型的可视屏幕,以显示来自微处理器110的信息。显示器150还可以包括一个触摸屏幕显示器。在一个替代的实施方式(没有显示)中,触摸屏幕和显示用屏幕显示器是分开的。
工作中,音频电路130在由微处理器110所设置的一个语音采集窗口内,经过麦克风133接收声音通信。语音采集窗口是用于接收声音通信的一个预定时间段。语音采集窗口的持续时间受存储器120的可用数量的限制。虽然可以选择任何时间段,但是优选的,语音采集窗口的范围是1到5秒。
声音通信包括语音,其它声学通信,和噪声。噪声可以是背景噪声和由用户所产生的噪声,包括脉冲噪声(砰的声音,滴答的声音,噼啪的声音,等等),音调噪声(口哨声音,嘀嘀的声音,铃声等等),或者风的噪声(呼吸的声音,其它空气流动的声音,等等)。
优选地,音频电路130在将声音通信作为一个语音信号发送到微处理器110以前,对它进行滤波和量化。微处理器110将语音信号保存在存储器120中,
微处理器110在使用语音识别技术处理语音信号以前,分析语音信号。微处理器110将语音采集窗口分成很多帧。虽然可以使用任何时间长度的帧,但是优选采用持续时间相同、且长为10毫秒的帧。对每一个帧来说,微处理器110使用下述方程来决定帧能量:
Figure A0010163100091
,  n=1,2,…,N
参数fegyn与一帧采样数据的能量相关。这可以是实际的帧能量或者是实际帧能量的某种函数。Xi是语音采样。I是在一个数据帧  n中的采样数目。N是语音采集窗口内帧的总数。
另外,微处理器110将每一个帧依次从1到帧的总数N编号。尽管可以按照声音波形流的顺序(从左到右)来对所有帧进行计数,或者按照反声音波形流的顺序(从右到左)来对所有帧进行计数,但是优选地,使用按照声音流的顺序来对帧进行计数。所以,每一个帧有一个帧号码,n,与帧在语音采集窗口内的位置相应。
微处理器110具有一个语音/噪声分类器,来判断每一个帧是语音或者是噪声。可以使用任何类型的语音/噪声分类器。但是,当这个分类器的准确性增加时,本发明的性能就会增强。如果这个分类器将一个帧识别为语音,这个分类器将给这个帧分配SN标志为1。如果这个分类器将一个帧识别为噪声,这个分类器就给这个帧分配SN标志为0。SN标志是用于对帧进行分类的一个控制值。
然后,微处理器根据下述方程来决定语音信号的其它语音波形参数:
Nfegyn=fegyn-Bfegy,n=1,2,...,N
归一化帧能量,Nfegyn是对噪声进行调节的帧能量。偏置帧能量Bfegy是噪声能量的一个估计值。它可以是一个理论上的值,或者是经验数值。它还可以被测量,例如语音采集窗口内前面几个帧的噪声。
Figure A0010163100101
,n=1,2,...,N
累加帧能量,sumNfegyn是直至当前帧的所有前面归一化帧能量的和。总的窗口能量是在N处的累加帧能量,N是语音采集窗口内的帧的总数。 icom = NINT [ Σ n = 1 N n · Nfeg y n Σ n = 1 N Nfegy n ]
参数,icom是语音说话的能量质心的帧索引。语音信号可以被认为是沿时间轴分布的一个可变“质量”。使用fegy参数作为模拟质量,可以使用前面的方程来决定能量质心的位置。NINT是最近的整数函数。
epkindx={nMAX(fegyn)},n=1,2,...,N
参数,epkindx是峰值能量帧的帧索引号。
除了这些参数,微处理器110可能决定会用于识别语音说话的端点的其它与语音或者信号相关的参数。在决定了语音波形参数后,微处理器110识别一句话的开始和结束端点。
图2是描述对语音说话方式进行断点的方法的一个流图。在步骤205中,这个用户激活语音识别技术,当通信装置100被打开时,这个激活过程可以自动地进行。替代地,这个用户可以激发一个机械的或者电子的开关,或者使用一个语音命令来激活语音识别技术。一旦被激活,微处理器110就提示用户进行语音输入。
在步骤210中,这个用户向麦克风133提供语音输入。语音采集窗口的开始和结束由微处理器110发信号来进行通知。这个信号可以是通过扬声器135发出的一个蜂鸣声,可以是显示器150上的一个打印或者闪烁的消息,可以是通过振动器/蜂鸣器160发出的一个蜂鸣或者振动,或者类似的提示消息。
在步骤215中,微处理器110分析语音信号来决定前面所讨论的语音波形参数。
在步骤220到235中,微处理器110决定所计算能量质心是否位于说话的语音范围内。如果在能量质心前面的或者后面的一定数量帧是噪声帧,能量质心就不可能位于说话的语音范围内。在这个情形下,微处理器110使用峰值能量索引作为开始点来决定端点。虽然已经选择围绕能量质心的噪声帧的百分数作为判断因素,但是应理解,替代地,可以选择语音帧的百分数。
在步骤220中,微处理器110判断在能量质心前面的M1帧中的噪声帧的百分数是否大于或者等于Valid1。虽然M1可以是任何数目的帧,但是优选地,M1的范围在5到20帧之间。Valid1是在质心前面的噪声帧的百分数,并且表示能量质心没有位于一个语音范围内。虽然Valid1可以是包括100%的任何一个百分数,但是优选地,Valid1的范围位于70%到100%。如果在能量质心前面M1帧中的噪声帧的百分数大于或者等于Valid1,然后,帧索引号被设置成等于峰值能量索引,epkindx,在步骤235中。如果在能量质心前面M1帧中的噪声帧的百分数小于Valid1,然后,方法进行到步骤225。
在步骤225中,微处理器110判断在能量质心后面M2帧中的噪声帧的百分数是否大于或者等于Valid2。虽然M2可以是任何数目的帧,但是优选地,M2的范围在5到20帧之间。Valid2是在质心后面的噪声帧的百分数,并且表示能量质心没有位于一个语音范围内。虽然Valid2可以是包括100%的任何一个百分数,但是优选地,Valid2的范围位于70%到100%。如果在能量质心后面M2帧中的噪声帧的百分数大于或者等于Valid2,然后,帧索引号被设置成等于峰值能量索引,epkindx,在步骤235中。如果在能量质心后面M2帧中的噪声帧的百分数小于Valid2,然后,在步骤230中帧索引号被设置成等于能量质心索引,icom。在步骤230中或者步骤235中设置帧索引后,方法进行到步骤240。
在步骤240到260中,微处理器110判断语音说话的开始端点。微处理器110从帧索引开始,基本上是从说话语音范围内的一个位置开始,并且分析在这个帧索引号前面的帧来识别一个潜在的开始端点。当识别了一个潜在的开始端点后,微处理器110检查在这个潜在开始端点处的累加帧能量是否小于或者等于总窗口能量的一个百分数。如果这个潜在的开始端点是这个说话的开始端点,在这个帧的累加帧能量无论如何应该是非常的少。在这个潜在开始端点处的累加帧能量表示附加的语音帧是否出现了。使用这个方式,说话中的间隙和停顿不会产生一个开始端点的错误判断。
在步骤240中,微处理器110将STRPNT设置成帧索引号。STRPNT是被作为开始端点而被测试的帧。虽然STRPNT开始与帧索引号相等,但是微处理器110将减少STRPNT,直到发现了开始端点。
在步骤245中,微处理器110判断在STRPNT前面M3帧中的噪声帧的百分数是否大于或者等于Test1。虽然M3可以是任何数目的帧,但是优选地,M3的范围在5到20帧之间。Test1是表示STRPNT是一个端点的噪声帧的百分数。虽然Test1可以是包括100%的任何一个百分数,但是优选地,Test1的范围位于70%到100%。
如果在能量质心前面M3帧中的噪声帧的百分数小于Test1,然后STRPNT不是一个端点。这个方法进行到步骤250,其中微处理器110将STRPNT减少X帧,X可以是任何数目的帧,但是优选地,X的范围在1到3帧之间。然后,这个方法继续进行到步骤245。
如果在STRPNT前面M3帧中的噪声帧的百分数大于或者等于Test1,然后STRPNT可能是一个端点。在步骤255中,微处理器110判断在STRTNP处的累加能量是否小于或者等于总窗口能量的一个最小百分数,EMINP。如果STRTNP是开始端点,然后在STRTNP处的累加能量无论如何应该是很小的。如果STRTNP不是开始端点,然后,累加能量将表示出现了附加的语音帧。EMINP是总窗口能量的一个最小百分数。虽然EMINP可以是包括0%的任何一个百分数,但是优选地,EMINP的范围位于5%到15%。如果在STRTNP处的累加能量大于总窗口能量的一个最小百分数EMINP,然后STRPNT不是一个端点。这个方法进行到步骤250,其中微处理器110将STRPNT减少X帧。然后,这个方法继续进行到步骤245。
如果在STRTNP处的累加能量小于或者等于总窗口能量的一个最小百分数EMINP,然后STRPNT是开始端点。这个方法进行到步骤260,其中语音开始索引号等于STRPNT的当前值。这个方法继续进行到步骤265,其中微处理器110决定结束端点。
在步骤265到285中,微处理器110判断语音说话的结束端点。微处理器110从帧索引开始,基本上是从说话语音范围内的一个位置开始,并且分析在这个帧索引号后面的帧来识别一个潜在的结束端点。当识别了一个潜在的结束端点后,微处理器110检查在这个潜在结束端点处的累加帧能量是否大于或者等于总窗口能量的一个百分数。如果这个潜在的结束端点是这个说话的结束端点,在这个帧的累加帧能量即使不是总窗口能量也应该是总窗口能量中的绝大部分。在这个潜在结束端点处的累加帧能量表示附加的语音帧是否出现了。使用这个方式,说话中的间隙和停顿不会产生一个结束端点的错误判断。
在步骤265中,微处理器110将ENDPNT设置成帧索引号。ENDPNT是被作为结束端点而被测试的帧。虽然ENDPNT开始与帧索引号相等,但是微处理器110将增加ENDPNT,直到发现了结束端点。
在步骤270中,微处理器110判断在ENDPNT后面M4帧中的噪声帧的百分数是否大于或者等于Test2。虽然M4可以是任何数目的帧,但是优选地,M4的范围在5到20帧之间。Test2是表示ENDPNT是一个端点的噪声帧的百分数。虽然Test2可以是包括100%的任何一个百分数,但是优选地,Test2的范围位于70%到100%。
如果在能量质心后面M4帧中的噪声帧的百分数小于Test2,然后ENDPNT不是一个端点。这个方法进行到步骤275,其中微处理器110将ENDPNT增加Y帧,Y可以是任何数目的帧,但是优选地,Y的范围在1到3帧之间。然后,这个方法继续进行到步骤275。
如果在ENDPNT后面M4帧中的噪声帧的百分数大于或者等于Test2,然后ENDPNT可能是一个端点。在步骤280中,微处理器110判断在ENDPNT处的累加能量是否大于或者等于总窗口能量的一个最大百分数,EMAXP。如果ENDPNT是结束端点,然后在ENDPNT处的累加能量应该大于或者等于总窗口能量的一个百分数。EMAXP是总窗口能量的一个最大百分数。虽然EMAXP可以是包括100%的任何一个百分数,但是优选地,EMAXP的范围位于80%到100%。如果在ENDPNT处的累加能量小于总窗口能量的一个最大百分数EMAXP,然后ENDPNT不是一个端点。这个方法进行到步骤275,其中微处理器110将ENDPNT增加Y帧。然后,这个方法继续进行到步骤270。
如果在ENDPNT处的累加能量大于或者等于总窗口能量的一个最大百分数EMAXP,然后ENDPNT的当前值是结束端点。这个方法进行到步骤285,其中语音结束索引号等于ENDPNT的当前值。
已经联系图中所显示的实施方式描述了本发明。但是,可以使用其它实施方式,并且可以进行改变来执行本发明中相同的功能,而不会偏离它。所以,应明确,后附权利要求书覆盖了所有落在本发明很宽范围内的这种变化和修改。因此,本发明不局限于任何单个的实施方式,而应被解释成包括后附权利要求书所规定的内容和范围。

Claims (10)

1.能够用于对语音说话方式进行断点的一个通信装置,包括:至少一个具有一个语音/噪声分类器的微处理器,其中,所述至少一个微处理器分析一个语音信号来决定一个语音采集窗口内的语音波形参数,其中语音波形参数包括一个累加帧能量,语音波形的一个能量质心,和一个总窗口能量,
其中所述至少一个微处理器通过联系能量质心分析语音采集窗口内的帧来识别一个潜在的端点,和
其中所述至少一个微处理器通过将在潜在端点处的累加帧能量与总窗口能量相比来证实这个潜在的端点是一个端点;
一个麦克风,用于向所述至少一个微处理器提供语音信号;和
至少一个通信输出机制。
2.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置,其中所述至少一个微处理器证实能量质心是位于数据采集窗口的一个语音范围内。
3.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置,进一步包括:
音频电路,与所述麦克风和所述至少一个微处理器相连,所述音频电路具有一个模拟-数字转换器。
4.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置,
其中所述至少一个微处理器具有语音识别技术,和
其中所述至少一个微处理器使用语音识别技术来从语音信号中产生一个语音识别信号。
5.如权利要求4的能够用于对语音说话方式进行断点的一个通信装置,进一步包括:
通信接口电路,被连接来从所述至少一个微处理器接收语音识别信号。
6.用于对语音说话方式进行断点的一个方法,其中语音说话具有一个开始端点和一个结束端点,这个方法包括步骤:
(a)分析二个语音信号来决定一个语音采集窗口内的语音波形参数,其中语音波形参数包括一个累加帧能量,语音波形的一个能量质心,和一个总窗口能量;
(b)通过分析在这个能量质心前面的、语音采集窗口内的帧中的至少一个噪声和语音,来识别一个潜在的开始端点;  和
(c)通过将这个潜在开始端点处的累加帧能量与总窗口能量相比,来证实这个潜在的开始端点是一个开始端点。
7.如权利要求6的能够用于对语音说话方式进行断点的一个方法,进一步包括步骤:
(d)当这个潜在开始端点处的累加帧能量大于或者等于总窗口能量的一个预定百分数时,重复步骤(b)和(c)。
8.如权利要求6的能够用于对语音说话方式进行断点的一个方法,进一步包括步骤:
(d)通过分析在能量质心后面的、位于语音采集窗口内的帧来识别一个潜在的结束端点;
(e)通过将在这个潜在结束端点处的累加帧能量与总窗口能量相比,来证实这个潜在结束端点是一个结束端点;
(f)当在这个潜在开始端点处的累加帧能量大于总窗口能量的一第一预定百分数时,重复步骤(b)和(c);和
(g)当在这个潜在结束端点处的累加帧能量小于总窗口能量的一第二预定百分数时,重复步骤(d)和(e)。
9.如权利要求6的能够用于对语音说话方式进行断点的一个方法,其中步骤(a)包括证实能量质心是位于语音采集窗口的一个语音范围内的子步骤(a1)。
10.如权利要求9的能够用于对语音说话方式进行断点的一个方法,其中步骤(b)包括中间步骤:分析在这个能量质心前面的帧,和分析在这个能量质心后面的帧。
CN00101631.8A 1999-01-22 2000-01-21 用于对语音进行断点的通信装置和方法 Expired - Lifetime CN1121678C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/235,952 1999-01-22
US09/235,952 US6321197B1 (en) 1999-01-22 1999-01-22 Communication device and method for endpointing speech utterances

Publications (2)

Publication Number Publication Date
CN1262570A true CN1262570A (zh) 2000-08-09
CN1121678C CN1121678C (zh) 2003-09-17

Family

ID=22887528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN00101631.8A Expired - Lifetime CN1121678C (zh) 1999-01-22 2000-01-21 用于对语音进行断点的通信装置和方法

Country Status (3)

Country Link
US (1) US6321197B1 (zh)
CN (1) CN1121678C (zh)
GB (1) GB2346999B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763844B (zh) * 2004-10-18 2010-05-05 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
CN1830024B (zh) * 2003-07-28 2010-06-16 摩托罗拉公司 在无线通信系统中用于终止接收的方法和装置
CN106101094A (zh) * 2016-06-08 2016-11-09 联想(北京)有限公司 音频处理方法、发送端设备、接收端设备及音频处理系统
CN107068147A (zh) * 2015-10-19 2017-08-18 谷歌公司 语音端点确定
CN110415729A (zh) * 2019-07-30 2019-11-05 安谋科技(中国)有限公司 语音活动检测方法、装置、介质和系统

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2355833B (en) 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US6724866B2 (en) * 2002-02-08 2004-04-20 Matsushita Electric Industrial Co., Ltd. Dialogue device for call screening and classification
US7310517B2 (en) * 2002-04-03 2007-12-18 Ricoh Company, Ltd. Techniques for archiving audio information communicated between members of a group
KR100463657B1 (ko) * 2002-11-30 2004-12-29 삼성전자주식회사 음성구간 검출 장치 및 방법
US8583439B1 (en) * 2004-01-12 2013-11-12 Verizon Services Corp. Enhanced interface for use with speech recognition
US7689404B2 (en) * 2004-02-24 2010-03-30 Arkady Khasin Method of multilingual speech recognition by reduction to single-language recognizer engine components
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
JP5038097B2 (ja) * 2007-11-06 2012-10-03 株式会社オーディオテクニカ リボン型マイクロホンおよびリボン型マイクロホンユニット
US8628478B2 (en) 2009-02-25 2014-01-14 Empire Technology Development Llc Microphone for remote health sensing
US8866621B2 (en) * 2009-02-25 2014-10-21 Empire Technology Development Llc Sudden infant death prevention clothing
US8824666B2 (en) * 2009-03-09 2014-09-02 Empire Technology Development Llc Noise cancellation for phone conversation
US20100286545A1 (en) * 2009-05-06 2010-11-11 Andrew Wolfe Accelerometer based health sensing
US8193941B2 (en) 2009-05-06 2012-06-05 Empire Technology Development Llc Snoring treatment
US8433564B2 (en) * 2009-07-02 2013-04-30 Alon Konchitsky Method for wind noise reduction
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation
JP6066471B2 (ja) * 2012-10-12 2017-01-25 本田技研工業株式会社 対話システム及び対話システム向け発話の判別方法
CN104142915B (zh) 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
CN110520925B (zh) 2017-06-06 2020-12-15 谷歌有限责任公司 询问结束检测

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4370521A (en) * 1980-12-19 1983-01-25 Bell Telephone Laboratories, Incorporated Endpoint detector
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US5023911A (en) * 1986-01-10 1991-06-11 Motorola, Inc. Word spotting in a speech recognition system without predetermined endpoint detection
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
JP3611223B2 (ja) * 1996-08-20 2005-01-19 株式会社リコー 音声認識装置及び方法
US5899976A (en) * 1996-10-31 1999-05-04 Microsoft Corporation Method and system for buffering recognized words during speech recognition
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6134524A (en) * 1997-10-24 2000-10-17 Nortel Networks Corporation Method and apparatus to detect and delimit foreground speech
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1830024B (zh) * 2003-07-28 2010-06-16 摩托罗拉公司 在无线通信系统中用于终止接收的方法和装置
CN1763844B (zh) * 2004-10-18 2010-05-05 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
CN107068147A (zh) * 2015-10-19 2017-08-18 谷歌公司 语音端点确定
CN106101094A (zh) * 2016-06-08 2016-11-09 联想(北京)有限公司 音频处理方法、发送端设备、接收端设备及音频处理系统
CN110415729A (zh) * 2019-07-30 2019-11-05 安谋科技(中国)有限公司 语音活动检测方法、装置、介质和系统
CN110415729B (zh) * 2019-07-30 2022-05-06 安谋科技(中国)有限公司 语音活动检测方法、装置、介质和系统

Also Published As

Publication number Publication date
US6321197B1 (en) 2001-11-20
CN1121678C (zh) 2003-09-17
GB0008337D0 (en) 2000-05-24
GB2346999B (en) 2001-04-04
GB2346999A (en) 2000-08-23

Similar Documents

Publication Publication Date Title
CN1121678C (zh) 用于对语音进行断点的通信装置和方法
CN1160698C (zh) 噪声信号中语音的端点定位
US7266494B2 (en) Method and apparatus for identifying noise environments from noisy signals
CN1228761C (zh) 用于经噪声补偿的话音识别的系统和方法
CN1205601C (zh) 用于与说话者无关的话音识别系统的构造话音模板的方法和设备
JP3002204B2 (ja) 時系列信号認識装置
CN1185626C (zh) 修改语音信号的系统和方法
CN1168070C (zh) 分布式语音识别系统
CN1306472C (zh) 分布式语音识别系统中用于发送语音活动的系统和方法
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN1284133C (zh) 使用声学特征矢量修正进行语音识别的设备和方法
EP0077194B1 (en) Speech recognition system
US7027983B2 (en) System and method for generating an identification signal for electronic devices
CN1271593C (zh) 一种语音信号检测方法
CN1675684A (zh) 具有后端声音活动检测的分布式语音识别设备和方法
KR20010014352A (ko) 음성 통신 시스템에서 음성 강화를 위한 방법 및 장치
CA2456625A1 (en) Method and apparatus for determining emotional arousal by speech analysis
CN1160450A (zh) 从连续语音中识别讲话声音的系统及其应用方法
CN1862464A (zh) 具有运动识别能力的便携式终端及其运动识别方法
CN103578470A (zh) 一种电话录音数据的处理方法及系统
CN1819016A (zh) 语音处理装置
CN1742322A (zh) 噪声减小和视听语音活动检测
CN101176149A (zh) 用于音调噪声鲁棒的信号处理系统
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILITY, INC.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20110126

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20110126

Address after: Illinois Instrunment

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

CP02 Change in the address of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160612

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20030917