CN1130689C

CN1130689C - 语音识别系统中评估发声的方法

Info

Publication number: CN1130689C
Application number: CN99101815.XA
Authority: CN
Inventors: 爱德华·斯普伦格; 杰弗里·A·穆昂尔; 威廉·M·库什纳
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 1998-01-30
Filing date: 1999-02-01
Publication date: 2003-12-10
Anticipated expiration: 2019-02-01
Also published as: US6226612B1; GB2333877B; GB2333877A; CN1231469A

Abstract

本公开内容提供在讲话者有关系统的框架内为检测词汇外发声而计算标准填料或废料模型的手段。具体说，本方法包括以下步骤：在语音识别系统中接收新训练数据(202)；计算新训练数据的统计参数(204)；根据统计参数为新训练数据计算全局统计参数(206)；及根据全局统计参数更新废料模型(208)。当用户录用词汇时在线地执行以上步骤。废料模型最好是表示用户当前录用的全部语音数据的平均讲话者模型。废料模型优选地作为录用词汇过程的副产品而获取。

Description

语音识别系统中评估发声的方法

技术领域

本发明涉及语音识别系统，更具体地涉及一种语音识别系统中评估发声的方法。

背景技术

大部分讲话者有关语音识别系统设有能力检测由于词汇外(OOV)词或者被环境噪音所严重破坏的发声所引起的识别误差。其结果是，不必要的识别误差可能使用户失望和使本来可靠的语音识别系统的可察觉的优点显示不出来。

误差检测是语音识别系统为改善它们总体可用性所必需的手段。对于一个单独的词，命令和控制型识别器而言，会遇到三类识别误差。第一类误差称为删除误差，当输入发声或来被识别为任何词或被识别为环境噪音时即发生的类误差。在此情况下，用户接口应恰当处理此类误差并重新提示用户重复该发声。第二类误差是插入误差，当用户来说任何词而系统识别一个不正确词时，发生这类误差。最后，第三类误差是替代误差，识别到不正确词而不是正确发声时发生此类误差。当用户或说有效词汇中词或不留意地输入OOV发声时这都能发生。

在讲话者有关识别系统中，当用户试图选用他们并未录用的词或当它们已忘记以前录用过词的准确发声时，通常会输入词汇外发声。语音识别器也会将特别响的背景噪音或背景谈话误认为有效输入发声。所造成的替代和插入误差会最具有危害性，因系统可能因此启动非法操作，而以后用户还必须取消此操作，识别并恰当地处理这两类识别误差的能力可以显著提高语音识别系统的总体性能。此外，在语音识别系统用于手忙或眼忙情况(如开车时)的事件中，系统应避免要求用户付出不必要的注意力。

已研究和实施了许多供单独的和连续型的识别系统用于检测识别误差的涉及基于阈值的可靠度度量的技术。已使用基于N-最佳Viterbi研究结果的可靠度度量。虽然这些技术对识别一定替代误差是有用的，但它们不是用于识别OOV的发生的合适方法。当考虑到低成本DSP实施时，基于N-最佳研究方法的可靠度度量的不断增大的计算复杂性会是明显的缺点。

现有技术的涉及OOV发声的排斥的讲话者无关系统是基于显工废料或填料模型的，该模型是在OOV发声的多讲话者数据库上离线训练的。该模型的特征是语音识别系统数据存储中词汇项目的参数化表示。模型的典型表示包括犹如动态时间反卷(DTW)型识别器中使用的常规模板，犹如隐藏马尔柯夫模型(HMM)识别器中现有的统计学表示，或用于表示多层人工神经网络(ANN)特征的一组加权系数。在显式废料模型中，当输入发声对应于一个OOV项目时，由标准Viterbi译码器得出的最佳匹配对应于废料模型。此方法学通常不适用于讲话者有关系统，因OOV发声数据库无法事先用于训练具体用户的离线模型的。此外，只为了训练在线废料模型的目的而要求用户提供一系列输入记号而不是正规用户词汇的一部分的做法也是不现实的。

但另一个原先用于关键词辨认应用中的现有技术方法并不要求显式的真料模型。此方法基于平均局部废料值，该均值是从每个时间值的N-最佳值中计算而得。例如，一个值可定义为一个时间段，在此时间段内自语音信号中提取出某些有关参数。此帧即成为识别器操作中的时间单元，一旦完成译码过程，将所识别发声的端点处的局部废料值求和，即可算出总废料值。然而，这种方法的缺点是总废料值在后处理步骤中计算，同时它依赖于对应于最佳词汇匹配的端点。这种方法也必然包括废料模型与所识别发声的完全对准，而这种强迫的对准可能不如依赖于单独模型用于处理OOV发生的技术有效和准确。

发明内容

因此，需要一种在讲话者有关系统的框架中计算用于检测OOV发声的标准废料模型的方法。根据本发明一个方面，在此提供一种在语音识别系统中评估发声的方法，所述方法包括以下步骤：在所述语音识别系统中接收新训练数据；为所述新训练数据计算统计参数；根据所述统计参数为所述新训练数据计算全局统计参数；以及根据所述全局统计参数更新一个废料模型。

根据本发明另一个方面，在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：接收用户供给的训练数据；计算所述新训练数据统计参数；根据所述均值和所述协方差为所述新训练数据计算全局均值和全局方差；以及根据所述全局均值和所述全局协方差更新废料模型。

根据本发明另一个方面，在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：根据先前接收的训练数据计算全局均值和全局协方差；接收新训练数据；计算所述新训练数据的均值和协方差；根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差；以及根据更新的全局均值和更新的全局协方差更新废料模型。

根据本发明另一个方面，在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：根据先前接收的训练数据计算全局均值和全局协方差；接收新训练数据；计算所述新训练数据的均值和协方差；根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差；根据更新的全局均值和更新的全局协方差为所有数据更新单状态HMM模型；为运行所述讲话者有关语音识别系统接收新数据；将所述新数据的模型与先前存放于所述讲话者有关语音识别系统中的众多模型进行比较；判断所述众多模型中哪一个是所有数据中的单状态HMM模型；将所述数据中的所述单状态HMM模型乘以补偿加权系数；以及如果废料模型被自一系列有效模型中选出为最佳模型，则排除所述发声。

附图说明

图1是根据本发明的语音识别系统训练模块的功能框图。

图2是根据本发明的讲话者有关声音识别系统中一种用于生成和更新废料模型的方法的流程图；

图3是根据本发明的语音识别系统用的识别模型的功能框图；以及

图4是一个流程图，用于显示一种根据本发明用于检测有效发声和排除词汇外发声的方法；以及

图5是一个流程图，用于显示一种根据本发明的替代实施例的检测有效发声和排除词汇外发声的方法。

具体实施方式

本公开内容描述一种在线建模技术，它能排除不同操作环境中的OOV词和一些其它替代型误差。由于本公开内容中描述的方法提供更坚实的误差处理机制，减少用户可能碰到的烦恼，因此它改善了讲话者有关系统的总体可用性。本公开内容中描述的方法试图在不同环境条件下控制和减少替代或插入误差的出现，与此同时还度图尽少地排除些相反地可以正确地识别的发声(即误报警率)。

具体说，本公开内容提供了一种在讲话者有关系统的框架中计算用于检测OOV发声的标准填料(或废料)模型的方法。当用户录用词汇时该方法在线地被执行，而废料模型作为录用词汇过程的副产品而被生成。因此，该方法不需要任何附加计算，而只需要最少的附加存储量。本公开内容的方法不需离线估算废料模型参数，也不需用户在此训练过程中提供可能的OOV发声。此公开内容中描述的为料模型可考虑为一个平均讲话者模型，表示当今用户录用的全部语音数据，并优选地在特征上和拓扑结构上类似于模型存储库中可用的所有其它正规词汇模型。

当以与所有其它和标准词汇项目关连的模型相同的方式处理废料模型时，最好使用加权系数以调整其局部补偿。与现有技术方法不同，为确认输入发声的有效性，不需要后处理或词端点计算。因为模型复杂性通常小于与正规词汇项目相关连的模型，因此本发明的技术对识别器的总体实时性能并无重大影响，而与此同时却对于可能的识别误差的辨别提供附加保证。

在识别阶段，本发明的方法既与OOV项目匹配，也与那些和现有词汇模型中的一个关无很好匹配的词汇内发声匹配。考虑到训练阶段期间唯一可用数据是有效语音数据，用于确定废料模型的可能方法可以基于由用户随时提供的所有语音数据的均值。此平均或全局讲话者模型将然后在识别阶段中用于包涵甚广的模型的目的。与此包涵甚广的或废料模型相关连的值将比当讲出有效发声时正确模型的值更坏。另一方面，当存在OOV发声或由周围噪音严重歪曲的发声时，可以预料废料模型的值比与表示有效发声的模型相关连的任何值更好些。

讲话者有关系统中所用训练算法非常适用于确定这类废料模型。根据本发明，废料模型作为训练过程副产品而生成，而其估算无需附加计算。讲话者有关系统最好基于HMM技术，其中每个HMM状态最好由单个高斯密度表征。每个高斯密度的参数，即平均向量和协方差矩阵最好如下计算。每个HMM状态的均值是根据模型的每个状态中的特征向量赋值估算的。协方差矩阵是根据在所有现有词汇项目的所有状态下存储起来以保证对环境变化的足够坚实性的数据来计算的。当更多词汇项目由用户训练时，将全局协方差矩阵更新以反映新数据。协方差矩阵及其相关的全局均值的精细化是用增量方式计算的，将现有统计学特性更新以考虑附加训练发声。此计算可由下列等式形式表示：

Σ_{N} = \frac{1}{1 + \frac{N_{o}}{N}} {\frac{1}{N} [Σ_{k = 1}^{N} X_{k} {Xk}^{T}] - (1 + \frac{N_{o}}{N}) M_{N} M_{N}^{T} + \frac{N_{o}}{N} (Σ_{O} + M_{o} N_{o}^{T})}

其中[M_o∑_o]是先前迭代全局样本均值和样本协方差估值，M_N是根据将被训练的重复的现有词汇项目的参数化的语音 X的N个样本的样本均值，及∑_N是基于先前统计学数据和现有数据两者的新全局协方差矩阵估值。然后每当用户训练一个新词汇项目时重复此更新过程。当可用更多数据时，可获得更坚实的协方差估值，后者然后替代所有训练的词汇项目的先前估值。这些表示所有用户语音的统计学信息的全局协方差和均值估值也可用于表征一个单状态废料模型。当用户进一步增加词汇项目时，全局协方差估值被精细化，同时废料模型的统计学特性也如此。

现转向图1，一个功能框图显示根据本方法的用于训练声音标记和生成废料模型的语音识别系统的部件。该功能块可用技术中熟知的数字信号处理器，也可用其它一些合适电路实施。训练记号102作为对特征提取块104的输入被接收。虽然示出两个训练记号，但根据本发明，可应用任何数量的训练记号，包括一个训练记号。

特征提取块104在逐帧的基础上分析训练记号的谱特性并提取表征这些记号的有关参数。特征提取块104为每帧数据产生语音的参数化表示，例如LPC或倒频谱特征向量。此块还提供词端点检测以便在每个发声的开端和末端处检测和消除噪音以维持训练记号间的一致性。

基于帧的参数化表示被输入至初始分段化块106，后者将训练数据与隐藏马尔柯夫模型(HMM)的状态线性地对齐，并为每个HMM状态计算初始均值向量。该初始模型接着在Viterbi译码器108中用作种籽以产生训练数据的最佳HMM状态对准。块110使用此对准将每个HMM状态的均值向量更新。还有，在块116中使用全局均值/全局协方差的先前估值和新训练数据的均值/协方差统计数据来计算更新的全局均值向量和全局协方差矩阵。新训练的声音标记的计算的状态均值向量和全局协方差作为训练的HMM114存放于模型库112中。此外，使用全局均值向量和协方差将废料HMM118更新。

现转向图2，其中显示了用于为待训练的新声音标记确定全局协方差参数和更新废料模型的优选步骤。这些步骤最好由数字信号处理器完成。步202中训练模块自前端接收与训练记号102相关联的特征向量。步204中在此新训练数据的基础上计算均值和协方差参数。步206中在步204所确定的均值和协方差的先前估值和新统计学数据的基础上，使用新均值和协方差更新全局均值和全局协方差。这两步可由例如全局更新块116的更新块完成。最后，步208中使用新统计学估值来更新废料模型参数和所有标记模型。

在识别阶段，以与由用户训练的所有其它有效模型相同的方式处理废料模型。为每个时间帧计算局部值，同时可将加权系数用于此值上。可以根据周围的信噪比(SNR)调整此用于控制废料模型值的加权系数，以便将误排除的次数减至最少而同时仍允许检测到相当高百分比的OOV发声。在完成识别过程时，如废料模型选为输入发声的最佳匹配，则有一误差消息送回至用户接口。该系统接着可通知用户该问题并可能重新提示用户以重复该词或选择在词汇中录用的发声。

现转向图3，功能框图显示根据本发明用于排除OOV项目的识别模块的各块。这些功能块可在例如数字信号处理器或其它一些合适电路中实施。检测的声音样本302由特征提取块304接收。接着由特征提取块304提取有关参数输入至Viterbi译码器306以确定所检测语音与存放于模型库308中的现有模型中的一个模型的最佳对准。识别模块生成一些值以将所检测语音与每个模型比较。所检测语音也与废料模型比较以确定所检测语音是否为OOV项目。可根据用户说话的背景条件或环境将优化废料加权系数310应用于废料模型以减少OOV误检测的数量。然后生成一个具有有效词汇词或排除的OOV项目的形式的表示所识别标记的Viterbi译码器输出312。

现转向图4，流程图显示用于完成识别和检测词汇外(OOV)词的优选步骤。这些步骤最好由数字信号处理器或其它一些合适电路完成。步402中识别器自前端接收特征向量帧。然后步404中识别器根据作为Viterbi译码器内发生的统计学模式匹配的一部分的当前数据帧为每个模型完成局部值计算。步406中识别器判断所计算值是否对应于废料模型。如计算是基于废料模型的，则步408中识别器可将废料模型补偿乘上加权系数。步409中将累计的有效路径值加以更新。步410中识别器判断是否所有数据帧都已评估。如所有帧都已评估，则步412中识别器确定具有最好总体累计值的标记。步414中识别器然后判断具有最佳值的标记是否为废料模型。如该具有最佳值的标记是废料模型，则步416中识别器将排除该发声并将此事件的反馈提供给用户接口。否则步418中识别器将输出识别的标记。

现转向图5，流程图显示用于完成词汇外(OOV)词的识别和检测的替代实施例。这些步骤最好用数字信号发生器或其它一些合适电路完成。步502中识别器将自前端接收的整个发声的所有特征向量帧缓冲地存储起来。步504中根据所有数据帧完成累计值计算，作为Viterbi译码器内发生的模式匹配过程的一部分。步506中识别器然后判断所计算累计值是否对应于废料模型。如该计算基于废料模型，则步508中识别器可将废料模型累计补偿乘上加权系数。接着步510中识别器确定具有最佳累计值的标记。其次，步512中识别器判断具有最佳累计值的标记是否为废料模型。如此标记为废料模型，则步514中识别器将排除该发声。否则步516中识别器将输出识别的标记。

总的来说，本公开内容描述了一种能够排除OOV词和不同运行环境下其它一些替代类型误差的在线建模技术。本公开内容中描述的方法试图在不同环境条件下控制和减少替代误差或插入误差的发生而同时尝试将误报警率降至最小。由于此方法提供了更为坚实的误差处理机制，因而它改善了讲话者有关系统的总体可用性，并进一步减少用户的可能出现的烦恼。

虽然本发明是在上述描述和附图中加以描述和解释的，但应理解此描述只是应用例子而已，熟悉技术的人可在不背离本发明实质的情况下做出许多变动和修改。虽然本发明能具体应用于便携式蜂窝式无线电话中，但本发明可应用于任何使用语音识别的设备，包括任何无线通信设备，电话基础结构设备，寻呼机，电子组编器或计算机。申请人的发明只限制于下述权利要求书。

Claims

1.一种在语音识别系统中评估发声的方法，所述方法包括以下步骤：

在所述语音识别系统中接收新训练数据；

为所述新训练数据计算统计参数；

根据所述统计参数为所述新训练数据计算全局统计参数；以及

根据所述全局统计参数更新一个废料模型。

2.权利要求1的评估发声的方法，其中所述为所述新训练数据计算统计参数的步骤包括为所述新训练数据计算均值和协方差。

3.权利要求1的评估发声的方法，其中所述计算全局统计参数的步骤包括为所述新训练数据计算全局均值和全局协方差。

4.权利要求1的评估发声的方法，其中所述计算全局统计参数的步骤包括根据先前全局统计参数和所述统计参数为所述新训练数据计算全局统计参数。

5.权利要求1的评估发声的方法，其中所述计算全局统计参数的步骤包括根据在开始训练过程之前自可用的训练数据的数据库中推导出的先前全局均值和先前全局方差及所述新数据的所述均值和所述方差来计算全局统计参数。

6.权利要求1的评估发声的方法，其中所述更新废料模型的步骤包括生成单状态HMM。

7.权利要求1的评估发声的方法，进一步包括接收新识别数据并将所述新识别数据的模型与先前存放于所述语音识别系统中的众多模型进行比较的步骤。

8.权利要求7的评估发声的方法，其中所述比较所述新识别数据的模型的步骤进一步包括在逐帧基础上搜索数据和为每帧所述新识别数据生成每个模型的更新值的步骤。

9.权利要求8的评估发声的方法，进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。

10.权利要求9的评估发声的方法，其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。

11.权利要求10的评估发声的方法，其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。

12.权利要求9的评估发声的方法，进一步包括以下步骤：如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型，则排除所述发声。

13.权利要求9的评估发声的方法，其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。

14.权利要求7的评估发声的方法，其中所述比较所述新识别数据的模型的步骤包括在逐个模型基础上搜索数据和为所述新识别数据的每个模型生成一个更新值。

15.权利要求14的评估发声的方法，进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。

16.权利要求15的评估发声的方法，其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。

17.权利要求16的评估发声的方法，其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。

18.权利要求15的评估发声的方法，进一步包括以下步骤：如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型，则排除所述发声。

19.权利要求15的评估发声的方法，其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。

20.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：

接收用户供给的训练数据；

计算所述新训练数据统计参数；

为所述新训练数据计算全局均值和全局协方差；以及

根据所述全局均值和所述全局协方差更新废料模型。

21.权利要求20的评估发声的方法，其中所述计算全局统计参数的步骤包括根据所述新训练数据的先前全局统计参数和所述统计参数计算一个全局协方差。

22.权利要求20的评估发声的方法，共中所述计算一个全局协方差的步骤包括根据在开始训练过程之前自可用的训练数据的数据库中接收的先前全局均值和先前全局协方差及所述新数据的所述均值和所述协方差计算全局统计参数。

23.权利要求20的评估发声的方法，其中所述更新废料模型的步骤包括生成一个单状态HMM。

24.权利要求20的评估发声的方法，进一步包括接收新识别数据和将所述新识别数据的模型与先前存放于所述语音识别系统中的众多模型进行比较的步骤。

25.权利要求24的评估发声的方法，其中所述比较所述新识别数据的模型的步骤进一步包括在逐帧基础上搜索数据和为每一帧所述新识别数据生成每个模型的更新值的步骤。

26.权利要求25的评估发声的方法，进一步包括当评估所述废料模型时使用定标系数将所述更新值加权的步骤。

27.权利要求26的评估发声的方法，其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。

28.权利要求27的评估发声的方法，其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。

29.权利要求26的评估发声的方法，进一步包括以下步骤：如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型，则排除所述发声。

30.权利要求26的评估发声的方法，其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。

31.权利要求24的评估发声的方法，其中所述比较所述新识别数据的模型的步骤包括在逐个模型基础上搜索数据。

32.权利要求31的评估发声的方法，进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。

33.权利要求32的评估发声的方法，其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。

34.权利要求33的评估发声的方法，其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。

35.权利要求32的评估发声的方法，进一步包括以下步骤：如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型，则排除所述发声。

36.权利要求32的评估发声的方法，其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。

37.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：

根据先前接收的训练数据计算全局均值和全局协方差；

接收新训练数据；

计算所述新训练数据的均值和协方差；

根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差；以及

根据更新的全局均值和更新的全局协方差更新废料模型。

38.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法，所述方法包括以下步骤：

根据先前接收的训练数据计算全局均值和全局协方差；

接收新训练数据；

计算所述新训练数据的均值和协方差；

根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差；

根据更新的全局均值和更新的全局协方差为所有数据更新单状态HMM模型；

为运行所述讲话者有关语音识别系统接收新数据；

将所述新数据的模型与先前存放于所述讲话者有关语音识别系统中的众多模型进行比较；

判断所述众多模型中哪一个是所有数据中的单状态HMM模型；

将所述数据中的所述单状态HMM模型乘以补偿加权系数；以及

如果废料模型被自一系列有效模型中选出为最佳模型，则排除所述发声。