CN1262570A

CN1262570A - 用于对语音说话方式进行断点的通信装置和方法

Info

Publication number: CN1262570A
Application number: CN00101631.8A
Authority: CN
Inventors: 威廉·M·库什那; 阿德里尔斯·帕里凯蒂斯
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1999-01-22
Filing date: 2000-01-21
Publication date: 2000-08-09
Anticipated expiration: 2020-01-21
Also published as: US6321197B1; CN1121678C; GB0008337D0; GB2346999B; GB2346999A

Abstract

能够用于对语音说话方式进行断点的一个通信装置,微处理器(110)分析一个语音信号来决定一个语音采集窗口内的语音波形参数,比较语音波形参数来决定语音说话的开始和结束端点,还从根据语音说话能量质心的一个帧索引号开始,并且分析在这个帧索引号前面的和后面的帧来决定端点。由于将累加帧能量与语音采集窗口内的总能量相比来决定是否出现了附加语音帧,所以说话中的间隙和停顿不会产生一个错误的端点判断。

Description

用于对语音说话方式进行断点的通信装置和方法

本发明一般涉及具有语音识别技术的电子装置。更特别地，本发明涉及具有与说话者相关的语音识别技术的便携式通信装置。

随着对小型化、便携式电子装置的需求的增长，消费者希望使用能够增强和扩展便携式电子装置用途的附加特征。这些电子装置包括CD播放器，双向无线通信装置，蜂窝电话，计算机，个人助理，语音记录器，和类似的装置。特别地，消费者希望仅使用声音通信就能够输入信息和控制电子装置。应理解，声音通信包括语音，声学的和其它非接触性通信。通过使用声音来进行输入和控制，一个用户可以操作电子装置而不需要与其接触，并且可以以比使用一个键盘更快的速度来输入信息和输入控制命令。另外，声音输入及控制装置消除了对键盘和其它直接接触输入装置的需要，这样可以允许制造尺寸更小的电子装置。

声音输入及控制装置需要正确地使用起支撑作用的语音识别技术。基本地，语音识别技术分析一个语音数据采集窗口内的一个语音波形，以将这个波形与被保存在存储器中的词模型进行匹配。如果发现语音波形与一个词模型相互匹配，语音识别技术就向电子装置提供一个信号，将这个语音波形识别为与这个词模型相关的词。

一般通过将从一个特定词的语音波形中推导出来的参数保存在存储器中，来产生一个词模型。在与说话者无关的语音识别装置中，使用某种方式，对所期望的一个抽样人群所说的一个词的语音波形的参数进行平均，来产生这个词的一个词模型。通过让不同人说同一个词，并对其语音参数进行平均，这个词的模型对大多数人来说应该是可以使用的，尽管很可能不会对所有人均适用。

在与说话者有关的电子装置中，用户通过当被电子装置提示时就说出一个特定词来训练这个装置。然后，这个语音识别技术根据从用户的输入来产生一个词模型。语音识别技术可能会提示这个用户重复这个词很多次，然后以某种方式平均语音波形参数，来产生词模型。

为了正确地操作语音识别技术，一致地识别语音说话方式的开始和结束端点是很重要的。不一致地识别说话的端点很可能会把一个词截断，并且很可能会在被语音识别技术获得的语音波形中包括外来噪声。词被截断和/或者噪声很可能会产生训练很差的模型，并且当所获得的语音波形不与任何词模型匹配时，使语音识别技术不能正确地工作。另外，词被截断和/或者噪声很可能会促使语音识别技术将所获得的语音波形错误地识别为另一个词。在与说话者相关的语音识别装置中，当语音识别技术仅允许几个训练说话方式时，因为端点很差而引起的问题就变得更严重了。

现有技术描述了使用阈值能量比较，过零分析，和互相关的技术。这些方法依次从左到右，从右到左，或者从语音波形的中心向周围来分析语音特征。在这些技术中，对包括停顿或者间隙的说话方式进行分析是有问题的。典型地，一个说话中的停顿或者间隙是由词的本质、用户的风格所决定的，是由包括多个词的说话方式所决定的。某些技术在间隙处对词或者句子进行截断，并且错误地假定已经达到了说话的端点。其它技术使用一个最大间隙尺寸准则来将被检测的、带停顿的说话的部分组合成一单句话。在这样的技术中，比一个预定阈值长的停顿将促使一句话的部分会被排除在这句话的外面。

所以，需要能够一致地识别一个语音采集窗口内一个完整语音句的开始和结束端点。另外，还需要能够确保一句说话中被停顿或者间隙分隔开的词或者词的部分能够被包括在一句话的边界内。

本发明的基本目的是提供用于对语音说话方式进行断点的一个通信装置和方法。本发明的另一个目的是确保被间隙和停顿分隔开的词和词的部分能够被包括在一句话的边界内。如下面将要更细致地讨论的，本发明克服了现有技术的缺陷，实现了本发明的这些目的和其它目的。

本发明提供了能够用于断开语音说话并且能够将被间隙和停顿分隔开的词和词的部分包括在一句话的边界内的一个通信装置。这个通信装置包括一个微处理器，这个微处理器与通信接口电路，音频电路，存储器，一个可选的键盘，一个显示器，和一个振动器/蜂鸣器相连。音频电路连接到一个麦克风和一个扬声器。音频电路包括滤波与放大电路，和一个模拟-数字转换器。这个微处理器包括一个语音/噪声分类器，和语音识别技术。

微处理器分析一个语音信号来决定在一个语音采集窗口内的语音波形参数。这个微处理器利用这些语音波形参数来决定语音说话的开始和结束端点。为了做这个决定，这个微处理器根据语音说话的能量质心来在一个帧的索引处开始，并且分析在这个帧索引前面的和后面的帧来决定端点。当识别了一个潜在的端点时，这个微处理器将这个潜在端点处的累加能量与语音采集窗口内的总能量相比，以决定附加的语音帧是否已经出现。所以，说话中的间隙和停顿不会产生一个错误的端点判断。

当参考附图来阅读本发明时，能够更好地理解本发明。

图1是能够用于对语音说话方式进行断点的一个通信装置的一个框图；和

图2是描述对语音说话方式进行断点的一个流图。

图1是根据本发明的一个通信装置100的一个框图。通信装置100可以是一个蜂窝电话，一个便携式电话装置，一个双向收音机，一个计算机或者个人助理的一个数据接口，或者类似的电子装置。通信装置100包括微处理器110，微处理器110与通信接口电路115，存储器120，音频电路130，键盘140，显示器150，和振动器/蜂鸣器160相连。

微处理器110可以是包括一个数字信号处理器或者其它类型数字计算引擎的任何类似微处理器。优选地，微处理器110包括一个语音/噪声分类器和语音识别技术。可以使用一个或者多个附加的微处理器(没有显示)来提供语音/噪声分类器，语音识别技术，和本发明的断点。

通信接口电路115连接到微处理器110。这个通信接口电路是用于发送和接收数据。在个蜂窝电话中，通信接口电路115将包括一个发送器，接收器，和一个天线。在一个计算机中，通信接口电路115将包括一个到中央处理单元的数据链路。

存储器120可以是任何类型的永久或者临时存储器，例如随机访问存储器(RAM)，只读存储器(ROM)，磁盘，和其它类型的电子数据保存装置，存储器120的类型可以是这些类型中的一种，或者是几种的组合。优选地，存储器120具有连接到微处理器110的RAM123和ROM125。

音频电路130连接到麦克风133和扬声器135，另外，它还可以连接到通信装置100中发现的另一个麦克风或者扬声器。音频电路130优选地包括放大与滤波电路(没有显示)和一个模拟-数字转换器(没有显示)。虽然优选是采用音频电路130，但是麦克风133和扬声器135可以直接连接到微处理器110，当它执行所有或者部分音频电路130的功能时。

键盘140可以是一个电话键盘，一个计算机键盘，一个触摸屏幕显示器，或者类似的触摸式输入装置。但是，如果具有本发明的语音输入和控制能力，键盘140就不是必需的。

显示器150可以是一个LED显示器，一个LCD显示器，或者其它类型的可视屏幕，以显示来自微处理器110的信息。显示器150还可以包括一个触摸屏幕显示器。在一个替代的实施方式(没有显示)中，触摸屏幕和显示用屏幕显示器是分开的。

工作中，音频电路130在由微处理器110所设置的一个语音采集窗口内，经过麦克风133接收声音通信。语音采集窗口是用于接收声音通信的一个预定时间段。语音采集窗口的持续时间受存储器120的可用数量的限制。虽然可以选择任何时间段，但是优选的，语音采集窗口的范围是1到5秒。

声音通信包括语音，其它声学通信，和噪声。噪声可以是背景噪声和由用户所产生的噪声，包括脉冲噪声(砰的声音，滴答的声音，噼啪的声音，等等)，音调噪声(口哨声音，嘀嘀的声音，铃声等等)，或者风的噪声(呼吸的声音，其它空气流动的声音，等等)。

优选地，音频电路130在将声音通信作为一个语音信号发送到微处理器110以前，对它进行滤波和量化。微处理器110将语音信号保存在存储器120中，

微处理器110在使用语音识别技术处理语音信号以前，分析语音信号。微处理器110将语音采集窗口分成很多帧。虽然可以使用任何时间长度的帧，但是优选采用持续时间相同、且长为10毫秒的帧。对每一个帧来说，微处理器110使用下述方程来决定帧能量：

， n＝1，2，…，N

参数fegy_n与一帧采样数据的能量相关。这可以是实际的帧能量或者是实际帧能量的某种函数。X_i是语音采样。I是在一个数据帧 n中的采样数目。N是语音采集窗口内帧的总数。

另外，微处理器110将每一个帧依次从1到帧的总数N编号。尽管可以按照声音波形流的顺序(从左到右)来对所有帧进行计数，或者按照反声音波形流的顺序(从右到左)来对所有帧进行计数，但是优选地，使用按照声音流的顺序来对帧进行计数。所以，每一个帧有一个帧号码，n，与帧在语音采集窗口内的位置相应。

微处理器110具有一个语音/噪声分类器，来判断每一个帧是语音或者是噪声。可以使用任何类型的语音/噪声分类器。但是，当这个分类器的准确性增加时，本发明的性能就会增强。如果这个分类器将一个帧识别为语音，这个分类器将给这个帧分配SN标志为1。如果这个分类器将一个帧识别为噪声，这个分类器就给这个帧分配SN标志为0。SN标志是用于对帧进行分类的一个控制值。

然后，微处理器根据下述方程来决定语音信号的其它语音波形参数：

Nfegy_n＝fegy_n-Bfegy，n＝1，2，...，N

归一化帧能量，Nfegy_n是对噪声进行调节的帧能量。偏置帧能量Bfegy是噪声能量的一个估计值。它可以是一个理论上的值，或者是经验数值。它还可以被测量，例如语音采集窗口内前面几个帧的噪声。

，n＝1，2，...，N

累加帧能量，sumNfegy_n是直至当前帧的所有前面归一化帧能量的和。总的窗口能量是在N处的累加帧能量，N是语音采集窗口内的帧的总数。

icom = NINT [\frac{Σ_{n = 1}^{N} n \cdot Nfeg y_{n}}{Σ_{n = 1}^{N} {Nfegy}_{n}}]

参数，icom是语音说话的能量质心的帧索引。语音信号可以被认为是沿时间轴分布的一个可变“质量”。使用fegy参数作为模拟质量，可以使用前面的方程来决定能量质心的位置。NINT是最近的整数函数。

epkindx＝{nMAX(fegy_n)}，n＝1，2，...，N

参数，epkindx是峰值能量帧的帧索引号。

除了这些参数，微处理器110可能决定会用于识别语音说话的端点的其它与语音或者信号相关的参数。在决定了语音波形参数后，微处理器110识别一句话的开始和结束端点。

图2是描述对语音说话方式进行断点的方法的一个流图。在步骤205中，这个用户激活语音识别技术，当通信装置100被打开时，这个激活过程可以自动地进行。替代地，这个用户可以激发一个机械的或者电子的开关，或者使用一个语音命令来激活语音识别技术。一旦被激活，微处理器110就提示用户进行语音输入。

在步骤210中，这个用户向麦克风133提供语音输入。语音采集窗口的开始和结束由微处理器110发信号来进行通知。这个信号可以是通过扬声器135发出的一个蜂鸣声，可以是显示器150上的一个打印或者闪烁的消息，可以是通过振动器/蜂鸣器160发出的一个蜂鸣或者振动，或者类似的提示消息。

在步骤215中，微处理器110分析语音信号来决定前面所讨论的语音波形参数。

在步骤220到235中，微处理器110决定所计算能量质心是否位于说话的语音范围内。如果在能量质心前面的或者后面的一定数量帧是噪声帧，能量质心就不可能位于说话的语音范围内。在这个情形下，微处理器110使用峰值能量索引作为开始点来决定端点。虽然已经选择围绕能量质心的噪声帧的百分数作为判断因素，但是应理解，替代地，可以选择语音帧的百分数。

在步骤220中，微处理器110判断在能量质心前面的M1帧中的噪声帧的百分数是否大于或者等于Valid1。虽然M1可以是任何数目的帧，但是优选地，M1的范围在5到20帧之间。Valid1是在质心前面的噪声帧的百分数，并且表示能量质心没有位于一个语音范围内。虽然Valid1可以是包括100％的任何一个百分数，但是优选地，Valid1的范围位于70％到100％。如果在能量质心前面M1帧中的噪声帧的百分数大于或者等于Valid1，然后，帧索引号被设置成等于峰值能量索引，epkindx，在步骤235中。如果在能量质心前面M1帧中的噪声帧的百分数小于Valid1，然后，方法进行到步骤225。

在步骤225中，微处理器110判断在能量质心后面M2帧中的噪声帧的百分数是否大于或者等于Valid2。虽然M2可以是任何数目的帧，但是优选地，M2的范围在5到20帧之间。Valid2是在质心后面的噪声帧的百分数，并且表示能量质心没有位于一个语音范围内。虽然Valid2可以是包括100％的任何一个百分数，但是优选地，Valid2的范围位于70％到100％。如果在能量质心后面M2帧中的噪声帧的百分数大于或者等于Valid2，然后，帧索引号被设置成等于峰值能量索引，epkindx，在步骤235中。如果在能量质心后面M2帧中的噪声帧的百分数小于Valid2，然后，在步骤230中帧索引号被设置成等于能量质心索引，icom。在步骤230中或者步骤235中设置帧索引后，方法进行到步骤240。

在步骤240到260中，微处理器110判断语音说话的开始端点。微处理器110从帧索引开始，基本上是从说话语音范围内的一个位置开始，并且分析在这个帧索引号前面的帧来识别一个潜在的开始端点。当识别了一个潜在的开始端点后，微处理器110检查在这个潜在开始端点处的累加帧能量是否小于或者等于总窗口能量的一个百分数。如果这个潜在的开始端点是这个说话的开始端点，在这个帧的累加帧能量无论如何应该是非常的少。在这个潜在开始端点处的累加帧能量表示附加的语音帧是否出现了。使用这个方式，说话中的间隙和停顿不会产生一个开始端点的错误判断。

在步骤240中，微处理器110将STRPNT设置成帧索引号。STRPNT是被作为开始端点而被测试的帧。虽然STRPNT开始与帧索引号相等，但是微处理器110将减少STRPNT，直到发现了开始端点。

在步骤245中，微处理器110判断在STRPNT前面M3帧中的噪声帧的百分数是否大于或者等于Test1。虽然M3可以是任何数目的帧，但是优选地，M3的范围在5到20帧之间。Test1是表示STRPNT是一个端点的噪声帧的百分数。虽然Test1可以是包括100％的任何一个百分数，但是优选地，Test1的范围位于70％到100％。

如果在能量质心前面M3帧中的噪声帧的百分数小于Test1，然后STRPNT不是一个端点。这个方法进行到步骤250，其中微处理器110将STRPNT减少X帧，X可以是任何数目的帧，但是优选地，X的范围在1到3帧之间。然后，这个方法继续进行到步骤245。

如果在STRPNT前面M3帧中的噪声帧的百分数大于或者等于Test1，然后STRPNT可能是一个端点。在步骤255中，微处理器110判断在STRTNP处的累加能量是否小于或者等于总窗口能量的一个最小百分数，EMINP。如果STRTNP是开始端点，然后在STRTNP处的累加能量无论如何应该是很小的。如果STRTNP不是开始端点，然后，累加能量将表示出现了附加的语音帧。EMINP是总窗口能量的一个最小百分数。虽然EMINP可以是包括0％的任何一个百分数，但是优选地，EMINP的范围位于5％到15％。如果在STRTNP处的累加能量大于总窗口能量的一个最小百分数EMINP，然后STRPNT不是一个端点。这个方法进行到步骤250，其中微处理器110将STRPNT减少X帧。然后，这个方法继续进行到步骤245。

如果在STRTNP处的累加能量小于或者等于总窗口能量的一个最小百分数EMINP，然后STRPNT是开始端点。这个方法进行到步骤260，其中语音开始索引号等于STRPNT的当前值。这个方法继续进行到步骤265，其中微处理器110决定结束端点。

在步骤265到285中，微处理器110判断语音说话的结束端点。微处理器110从帧索引开始，基本上是从说话语音范围内的一个位置开始，并且分析在这个帧索引号后面的帧来识别一个潜在的结束端点。当识别了一个潜在的结束端点后，微处理器110检查在这个潜在结束端点处的累加帧能量是否大于或者等于总窗口能量的一个百分数。如果这个潜在的结束端点是这个说话的结束端点，在这个帧的累加帧能量即使不是总窗口能量也应该是总窗口能量中的绝大部分。在这个潜在结束端点处的累加帧能量表示附加的语音帧是否出现了。使用这个方式，说话中的间隙和停顿不会产生一个结束端点的错误判断。

在步骤265中，微处理器110将ENDPNT设置成帧索引号。ENDPNT是被作为结束端点而被测试的帧。虽然ENDPNT开始与帧索引号相等，但是微处理器110将增加ENDPNT，直到发现了结束端点。

在步骤270中，微处理器110判断在ENDPNT后面M4帧中的噪声帧的百分数是否大于或者等于Test2。虽然M4可以是任何数目的帧，但是优选地，M4的范围在5到20帧之间。Test2是表示ENDPNT是一个端点的噪声帧的百分数。虽然Test2可以是包括100％的任何一个百分数，但是优选地，Test2的范围位于70％到100％。

如果在能量质心后面M4帧中的噪声帧的百分数小于Test2，然后ENDPNT不是一个端点。这个方法进行到步骤275，其中微处理器110将ENDPNT增加Y帧，Y可以是任何数目的帧，但是优选地，Y的范围在1到3帧之间。然后，这个方法继续进行到步骤275。

如果在ENDPNT后面M4帧中的噪声帧的百分数大于或者等于Test2，然后ENDPNT可能是一个端点。在步骤280中，微处理器110判断在ENDPNT处的累加能量是否大于或者等于总窗口能量的一个最大百分数，EMAXP。如果ENDPNT是结束端点，然后在ENDPNT处的累加能量应该大于或者等于总窗口能量的一个百分数。EMAXP是总窗口能量的一个最大百分数。虽然EMAXP可以是包括100％的任何一个百分数，但是优选地，EMAXP的范围位于80％到100％。如果在ENDPNT处的累加能量小于总窗口能量的一个最大百分数EMAXP，然后ENDPNT不是一个端点。这个方法进行到步骤275，其中微处理器110将ENDPNT增加Y帧。然后，这个方法继续进行到步骤270。

如果在ENDPNT处的累加能量大于或者等于总窗口能量的一个最大百分数EMAXP，然后ENDPNT的当前值是结束端点。这个方法进行到步骤285，其中语音结束索引号等于ENDPNT的当前值。

已经联系图中所显示的实施方式描述了本发明。但是，可以使用其它实施方式，并且可以进行改变来执行本发明中相同的功能，而不会偏离它。所以，应明确，后附权利要求书覆盖了所有落在本发明很宽范围内的这种变化和修改。因此，本发明不局限于任何单个的实施方式，而应被解释成包括后附权利要求书所规定的内容和范围。

Claims

1.能够用于对语音说话方式进行断点的一个通信装置，包括：至少一个具有一个语音/噪声分类器的微处理器，其中，所述至少一个微处理器分析一个语音信号来决定一个语音采集窗口内的语音波形参数，其中语音波形参数包括一个累加帧能量，语音波形的一个能量质心，和一个总窗口能量，

其中所述至少一个微处理器通过联系能量质心分析语音采集窗口内的帧来识别一个潜在的端点，和

其中所述至少一个微处理器通过将在潜在端点处的累加帧能量与总窗口能量相比来证实这个潜在的端点是一个端点；

一个麦克风，用于向所述至少一个微处理器提供语音信号；和

至少一个通信输出机制。

2.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置，其中所述至少一个微处理器证实能量质心是位于数据采集窗口的一个语音范围内。

3.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置，进一步包括：

音频电路，与所述麦克风和所述至少一个微处理器相连，所述音频电路具有一个模拟-数字转换器。

4.如权利要求1的能够用于对语音说话方式进行断点的一个通信装置，

其中所述至少一个微处理器具有语音识别技术，和

其中所述至少一个微处理器使用语音识别技术来从语音信号中产生一个语音识别信号。

5.如权利要求4的能够用于对语音说话方式进行断点的一个通信装置，进一步包括：

通信接口电路，被连接来从所述至少一个微处理器接收语音识别信号。

6.用于对语音说话方式进行断点的一个方法，其中语音说话具有一个开始端点和一个结束端点，这个方法包括步骤：

(a)分析二个语音信号来决定一个语音采集窗口内的语音波形参数，其中语音波形参数包括一个累加帧能量，语音波形的一个能量质心，和一个总窗口能量；

(b)通过分析在这个能量质心前面的、语音采集窗口内的帧中的至少一个噪声和语音，来识别一个潜在的开始端点；和

(c)通过将这个潜在开始端点处的累加帧能量与总窗口能量相比，来证实这个潜在的开始端点是一个开始端点。

7.如权利要求6的能够用于对语音说话方式进行断点的一个方法，进一步包括步骤：

(d)当这个潜在开始端点处的累加帧能量大于或者等于总窗口能量的一个预定百分数时，重复步骤(b)和(c)。

8.如权利要求6的能够用于对语音说话方式进行断点的一个方法，进一步包括步骤：

(d)通过分析在能量质心后面的、位于语音采集窗口内的帧来识别一个潜在的结束端点；

(e)通过将在这个潜在结束端点处的累加帧能量与总窗口能量相比，来证实这个潜在结束端点是一个结束端点；

(f)当在这个潜在开始端点处的累加帧能量大于总窗口能量的一第一预定百分数时，重复步骤(b)和(c)；和

(g)当在这个潜在结束端点处的累加帧能量小于总窗口能量的一第二预定百分数时，重复步骤(d)和(e)。

9.如权利要求6的能够用于对语音说话方式进行断点的一个方法，其中步骤(a)包括证实能量质心是位于语音采集窗口的一个语音范围内的子步骤(a1)。

10.如权利要求9的能够用于对语音说话方式进行断点的一个方法，其中步骤(b)包括中间步骤：分析在这个能量质心前面的帧，和分析在这个能量质心后面的帧。