CN1130689C - 语音识别系统中评估发声的方法 - Google Patents

语音识别系统中评估发声的方法 Download PDF

Info

Publication number
CN1130689C
CN1130689C CN99101815.XA CN99101815A CN1130689C CN 1130689 C CN1130689 C CN 1130689C CN 99101815 A CN99101815 A CN 99101815A CN 1130689 C CN1130689 C CN 1130689C
Authority
CN
China
Prior art keywords
sounding
assessment
model
data
updating value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN99101815.XA
Other languages
English (en)
Other versions
CN1231469A (zh
Inventor
爱德华·斯普伦格
杰弗里·A·穆昂尔
威廉·M·库什纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Google Technology Holdings LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1231469A publication Critical patent/CN1231469A/zh
Application granted granted Critical
Publication of CN1130689C publication Critical patent/CN1130689C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本公开内容提供在讲话者有关系统的框架内为检测词汇外发声而计算标准填料或废料模型的手段。具体说,本方法包括以下步骤:在语音识别系统中接收新训练数据(202);计算新训练数据的统计参数(204);根据统计参数为新训练数据计算全局统计参数(206);及根据全局统计参数更新废料模型(208)。当用户录用词汇时在线地执行以上步骤。废料模型最好是表示用户当前录用的全部语音数据的平均讲话者模型。废料模型优选地作为录用词汇过程的副产品而获取。

Description

语音识别系统中评估发声的方法
技术领域
本发明涉及语音识别系统,更具体地涉及一种语音识别系统中评估发声的方法。
背景技术
大部分讲话者有关语音识别系统设有能力检测由于词汇外(OOV)词或者被环境噪音所严重破坏的发声所引起的识别误差。其结果是,不必要的识别误差可能使用户失望和使本来可靠的语音识别系统的可察觉的优点显示不出来。
误差检测是语音识别系统为改善它们总体可用性所必需的手段。对于一个单独的词,命令和控制型识别器而言,会遇到三类识别误差。第一类误差称为删除误差,当输入发声或来被识别为任何词或被识别为环境噪音时即发生的类误差。在此情况下,用户接口应恰当处理此类误差并重新提示用户重复该发声。第二类误差是插入误差,当用户来说任何词而系统识别一个不正确词时,发生这类误差。最后,第三类误差是替代误差,识别到不正确词而不是正确发声时发生此类误差。当用户或说有效词汇中词或不留意地输入OOV发声时这都能发生。
在讲话者有关识别系统中,当用户试图选用他们并未录用的词或当它们已忘记以前录用过词的准确发声时,通常会输入词汇外发声。语音识别器也会将特别响的背景噪音或背景谈话误认为有效输入发声。所造成的替代和插入误差会最具有危害性,因系统可能因此启动非法操作,而以后用户还必须取消此操作,识别并恰当地处理这两类识别误差的能力可以显著提高语音识别系统的总体性能。此外,在语音识别系统用于手忙或眼忙情况(如开车时)的事件中,系统应避免要求用户付出不必要的注意力。
已研究和实施了许多供单独的和连续型的识别系统用于检测识别误差的涉及基于阈值的可靠度度量的技术。已使用基于N-最佳Viterbi研究结果的可靠度度量。虽然这些技术对识别一定替代误差是有用的,但它们不是用于识别OOV的发生的合适方法。当考虑到低成本DSP实施时,基于N-最佳研究方法的可靠度度量的不断增大的计算复杂性会是明显的缺点。
现有技术的涉及OOV发声的排斥的讲话者无关系统是基于显工废料或填料模型的,该模型是在OOV发声的多讲话者数据库上离线训练的。该模型的特征是语音识别系统数据存储中词汇项目的参数化表示。模型的典型表示包括犹如动态时间反卷(DTW)型识别器中使用的常规模板,犹如隐藏马尔柯夫模型(HMM)识别器中现有的统计学表示,或用于表示多层人工神经网络(ANN)特征的一组加权系数。在显式废料模型中,当输入发声对应于一个OOV项目时,由标准Viterbi译码器得出的最佳匹配对应于废料模型。此方法学通常不适用于讲话者有关系统,因OOV发声数据库无法事先用于训练具体用户的离线模型的。此外,只为了训练在线废料模型的目的而要求用户提供一系列输入记号而不是正规用户词汇的一部分的做法也是不现实的。
但另一个原先用于关键词辨认应用中的现有技术方法并不要求显式的真料模型。此方法基于平均局部废料值,该均值是从每个时间值的N-最佳值中计算而得。例如,一个值可定义为一个时间段,在此时间段内自语音信号中提取出某些有关参数。此帧即成为识别器操作中的时间单元,一旦完成译码过程,将所识别发声的端点处的局部废料值求和,即可算出总废料值。然而,这种方法的缺点是总废料值在后处理步骤中计算,同时它依赖于对应于最佳词汇匹配的端点。这种方法也必然包括废料模型与所识别发声的完全对准,而这种强迫的对准可能不如依赖于单独模型用于处理OOV发生的技术有效和准确。
发明内容
因此,需要一种在讲话者有关系统的框架中计算用于检测OOV发声的标准废料模型的方法。根据本发明一个方面,在此提供一种在语音识别系统中评估发声的方法,所述方法包括以下步骤:在所述语音识别系统中接收新训练数据;为所述新训练数据计算统计参数;根据所述统计参数为所述新训练数据计算全局统计参数;以及根据所述全局统计参数更新一个废料模型。
根据本发明另一个方面,在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:接收用户供给的训练数据;计算所述新训练数据统计参数;根据所述均值和所述协方差为所述新训练数据计算全局均值和全局方差;以及根据所述全局均值和所述全局协方差更新废料模型。
根据本发明另一个方面,在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:根据先前接收的训练数据计算全局均值和全局协方差;接收新训练数据;计算所述新训练数据的均值和协方差;根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差;以及根据更新的全局均值和更新的全局协方差更新废料模型。
根据本发明另一个方面,在此提供一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:根据先前接收的训练数据计算全局均值和全局协方差;接收新训练数据;计算所述新训练数据的均值和协方差;根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差;根据更新的全局均值和更新的全局协方差为所有数据更新单状态HMM模型;为运行所述讲话者有关语音识别系统接收新数据;将所述新数据的模型与先前存放于所述讲话者有关语音识别系统中的众多模型进行比较;判断所述众多模型中哪一个是所有数据中的单状态HMM模型;将所述数据中的所述单状态HMM模型乘以补偿加权系数;以及如果废料模型被自一系列有效模型中选出为最佳模型,则排除所述发声。
附图说明
图1是根据本发明的语音识别系统训练模块的功能框图。
图2是根据本发明的讲话者有关声音识别系统中一种用于生成和更新废料模型的方法的流程图;
图3是根据本发明的语音识别系统用的识别模型的功能框图;以及
图4是一个流程图,用于显示一种根据本发明用于检测有效发声和排除词汇外发声的方法;以及
图5是一个流程图,用于显示一种根据本发明的替代实施例的检测有效发声和排除词汇外发声的方法。
具体实施方式
本公开内容描述一种在线建模技术,它能排除不同操作环境中的OOV词和一些其它替代型误差。由于本公开内容中描述的方法提供更坚实的误差处理机制,减少用户可能碰到的烦恼,因此它改善了讲话者有关系统的总体可用性。本公开内容中描述的方法试图在不同环境条件下控制和减少替代或插入误差的出现,与此同时还度图尽少地排除些相反地可以正确地识别的发声(即误报警率)。
具体说,本公开内容提供了一种在讲话者有关系统的框架中计算用于检测OOV发声的标准填料(或废料)模型的方法。当用户录用词汇时该方法在线地被执行,而废料模型作为录用词汇过程的副产品而被生成。因此,该方法不需要任何附加计算,而只需要最少的附加存储量。本公开内容的方法不需离线估算废料模型参数,也不需用户在此训练过程中提供可能的OOV发声。此公开内容中描述的为料模型可考虑为一个平均讲话者模型,表示当今用户录用的全部语音数据,并优选地在特征上和拓扑结构上类似于模型存储库中可用的所有其它正规词汇模型。
当以与所有其它和标准词汇项目关连的模型相同的方式处理废料模型时,最好使用加权系数以调整其局部补偿。与现有技术方法不同,为确认输入发声的有效性,不需要后处理或词端点计算。因为模型复杂性通常小于与正规词汇项目相关连的模型,因此本发明的技术对识别器的总体实时性能并无重大影响,而与此同时却对于可能的识别误差的辨别提供附加保证。
在识别阶段,本发明的方法既与OOV项目匹配,也与那些和现有词汇模型中的一个关无很好匹配的词汇内发声匹配。考虑到训练阶段期间唯一可用数据是有效语音数据,用于确定废料模型的可能方法可以基于由用户随时提供的所有语音数据的均值。此平均或全局讲话者模型将然后在识别阶段中用于包涵甚广的模型的目的。与此包涵甚广的或废料模型相关连的值将比当讲出有效发声时正确模型的值更坏。另一方面,当存在OOV发声或由周围噪音严重歪曲的发声时,可以预料废料模型的值比与表示有效发声的模型相关连的任何值更好些。
讲话者有关系统中所用训练算法非常适用于确定这类废料模型。根据本发明,废料模型作为训练过程副产品而生成,而其估算无需附加计算。讲话者有关系统最好基于HMM技术,其中每个HMM状态最好由单个高斯密度表征。每个高斯密度的参数,即平均向量和协方差矩阵最好如下计算。每个HMM状态的均值是根据模型的每个状态中的特征向量赋值估算的。协方差矩阵是根据在所有现有词汇项目的所有状态下存储起来以保证对环境变化的足够坚实性的数据来计算的。当更多词汇项目由用户训练时,将全局协方差矩阵更新以反映新数据。协方差矩阵及其相关的全局均值的精细化是用增量方式计算的,将现有统计学特性更新以考虑附加训练发声。此计算可由下列等式形式表示: Σ N = 1 1 + N o N { 1 N [ Σ k = 1 N X k Xk T ] - ( 1 + N o N ) M N M N T + N o N ( Σ O + M o N o T ) }
其中[Moo]是先前迭代全局样本均值和样本协方差估值,MN是根据将被训练的重复的现有词汇项目的参数化的语音 X的N个样本的样本均值,及∑N是基于先前统计学数据和现有数据两者的新全局协方差矩阵估值。然后每当用户训练一个新词汇项目时重复此更新过程。当可用更多数据时,可获得更坚实的协方差估值,后者然后替代所有训练的词汇项目的先前估值。这些表示所有用户语音的统计学信息的全局协方差和均值估值也可用于表征一个单状态废料模型。当用户进一步增加词汇项目时,全局协方差估值被精细化,同时废料模型的统计学特性也如此。
现转向图1,一个功能框图显示根据本方法的用于训练声音标记和生成废料模型的语音识别系统的部件。该功能块可用技术中熟知的数字信号处理器,也可用其它一些合适电路实施。训练记号102作为对特征提取块104的输入被接收。虽然示出两个训练记号,但根据本发明,可应用任何数量的训练记号,包括一个训练记号。
特征提取块104在逐帧的基础上分析训练记号的谱特性并提取表征这些记号的有关参数。特征提取块104为每帧数据产生语音的参数化表示,例如LPC或倒频谱特征向量。此块还提供词端点检测以便在每个发声的开端和末端处检测和消除噪音以维持训练记号间的一致性。
基于帧的参数化表示被输入至初始分段化块106,后者将训练数据与隐藏马尔柯夫模型(HMM)的状态线性地对齐,并为每个HMM状态计算初始均值向量。该初始模型接着在Viterbi译码器108中用作种籽以产生训练数据的最佳HMM状态对准。块110使用此对准将每个HMM状态的均值向量更新。还有,在块116中使用全局均值/全局协方差的先前估值和新训练数据的均值/协方差统计数据来计算更新的全局均值向量和全局协方差矩阵。新训练的声音标记的计算的状态均值向量和全局协方差作为训练的HMM114存放于模型库112中。此外,使用全局均值向量和协方差将废料HMM118更新。
现转向图2,其中显示了用于为待训练的新声音标记确定全局协方差参数和更新废料模型的优选步骤。这些步骤最好由数字信号处理器完成。步202中训练模块自前端接收与训练记号102相关联的特征向量。步204中在此新训练数据的基础上计算均值和协方差参数。步206中在步204所确定的均值和协方差的先前估值和新统计学数据的基础上,使用新均值和协方差更新全局均值和全局协方差。这两步可由例如全局更新块116的更新块完成。最后,步208中使用新统计学估值来更新废料模型参数和所有标记模型。
在识别阶段,以与由用户训练的所有其它有效模型相同的方式处理废料模型。为每个时间帧计算局部值,同时可将加权系数用于此值上。可以根据周围的信噪比(SNR)调整此用于控制废料模型值的加权系数,以便将误排除的次数减至最少而同时仍允许检测到相当高百分比的OOV发声。在完成识别过程时,如废料模型选为输入发声的最佳匹配,则有一误差消息送回至用户接口。该系统接着可通知用户该问题并可能重新提示用户以重复该词或选择在词汇中录用的发声。
现转向图3,功能框图显示根据本发明用于排除OOV项目的识别模块的各块。这些功能块可在例如数字信号处理器或其它一些合适电路中实施。检测的声音样本302由特征提取块304接收。接着由特征提取块304提取有关参数输入至Viterbi译码器306以确定所检测语音与存放于模型库308中的现有模型中的一个模型的最佳对准。识别模块生成一些值以将所检测语音与每个模型比较。所检测语音也与废料模型比较以确定所检测语音是否为OOV项目。可根据用户说话的背景条件或环境将优化废料加权系数310应用于废料模型以减少OOV误检测的数量。然后生成一个具有有效词汇词或排除的OOV项目的形式的表示所识别标记的Viterbi译码器输出312。
现转向图4,流程图显示用于完成识别和检测词汇外(OOV)词的优选步骤。这些步骤最好由数字信号处理器或其它一些合适电路完成。步402中识别器自前端接收特征向量帧。然后步404中识别器根据作为Viterbi译码器内发生的统计学模式匹配的一部分的当前数据帧为每个模型完成局部值计算。步406中识别器判断所计算值是否对应于废料模型。如计算是基于废料模型的,则步408中识别器可将废料模型补偿乘上加权系数。步409中将累计的有效路径值加以更新。步410中识别器判断是否所有数据帧都已评估。如所有帧都已评估,则步412中识别器确定具有最好总体累计值的标记。步414中识别器然后判断具有最佳值的标记是否为废料模型。如该具有最佳值的标记是废料模型,则步416中识别器将排除该发声并将此事件的反馈提供给用户接口。否则步418中识别器将输出识别的标记。
现转向图5,流程图显示用于完成词汇外(OOV)词的识别和检测的替代实施例。这些步骤最好用数字信号发生器或其它一些合适电路完成。步502中识别器将自前端接收的整个发声的所有特征向量帧缓冲地存储起来。步504中根据所有数据帧完成累计值计算,作为Viterbi译码器内发生的模式匹配过程的一部分。步506中识别器然后判断所计算累计值是否对应于废料模型。如该计算基于废料模型,则步508中识别器可将废料模型累计补偿乘上加权系数。接着步510中识别器确定具有最佳累计值的标记。其次,步512中识别器判断具有最佳累计值的标记是否为废料模型。如此标记为废料模型,则步514中识别器将排除该发声。否则步516中识别器将输出识别的标记。
总的来说,本公开内容描述了一种能够排除OOV词和不同运行环境下其它一些替代类型误差的在线建模技术。本公开内容中描述的方法试图在不同环境条件下控制和减少替代误差或插入误差的发生而同时尝试将误报警率降至最小。由于此方法提供了更为坚实的误差处理机制,因而它改善了讲话者有关系统的总体可用性,并进一步减少用户的可能出现的烦恼。
虽然本发明是在上述描述和附图中加以描述和解释的,但应理解此描述只是应用例子而已,熟悉技术的人可在不背离本发明实质的情况下做出许多变动和修改。虽然本发明能具体应用于便携式蜂窝式无线电话中,但本发明可应用于任何使用语音识别的设备,包括任何无线通信设备,电话基础结构设备,寻呼机,电子组编器或计算机。申请人的发明只限制于下述权利要求书。

Claims (38)

1.一种在语音识别系统中评估发声的方法,所述方法包括以下步骤:
在所述语音识别系统中接收新训练数据;
为所述新训练数据计算统计参数;
根据所述统计参数为所述新训练数据计算全局统计参数;以及
根据所述全局统计参数更新一个废料模型。
2.权利要求1的评估发声的方法,其中所述为所述新训练数据计算统计参数的步骤包括为所述新训练数据计算均值和协方差。
3.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括为所述新训练数据计算全局均值和全局协方差。
4.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括根据先前全局统计参数和所述统计参数为所述新训练数据计算全局统计参数。
5.权利要求1的评估发声的方法,其中所述计算全局统计参数的步骤包括根据在开始训练过程之前自可用的训练数据的数据库中推导出的先前全局均值和先前全局方差及所述新数据的所述均值和所述方差来计算全局统计参数。
6.权利要求1的评估发声的方法,其中所述更新废料模型的步骤包括生成单状态HMM。
7.权利要求1的评估发声的方法,进一步包括接收新识别数据并将所述新识别数据的模型与先前存放于所述语音识别系统中的众多模型进行比较的步骤。
8.权利要求7的评估发声的方法,其中所述比较所述新识别数据的模型的步骤进一步包括在逐帧基础上搜索数据和为每帧所述新识别数据生成每个模型的更新值的步骤。
9.权利要求8的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。
10.权利要求9的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。
11.权利要求10的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。
12.权利要求9的评估发声的方法,进一步包括以下步骤:如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。
13.权利要求9的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。
14.权利要求7的评估发声的方法,其中所述比较所述新识别数据的模型的步骤包括在逐个模型基础上搜索数据和为所述新识别数据的每个模型生成一个更新值。
15.权利要求14的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。
16.权利要求15的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。
17.权利要求16的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。
18.权利要求15的评估发声的方法,进一步包括以下步骤:如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。
19.权利要求15的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。
20.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:
接收用户供给的训练数据;
计算所述新训练数据统计参数;
为所述新训练数据计算全局均值和全局协方差;以及
根据所述全局均值和所述全局协方差更新废料模型。
21.权利要求20的评估发声的方法,其中所述计算全局统计参数的步骤包括根据所述新训练数据的先前全局统计参数和所述统计参数计算一个全局协方差。
22.权利要求20的评估发声的方法,共中所述计算一个全局协方差的步骤包括根据在开始训练过程之前自可用的训练数据的数据库中接收的先前全局均值和先前全局协方差及所述新数据的所述均值和所述协方差计算全局统计参数。
23.权利要求20的评估发声的方法,其中所述更新废料模型的步骤包括生成一个单状态HMM。
24.权利要求20的评估发声的方法,进一步包括接收新识别数据和将所述新识别数据的模型与先前存放于所述语音识别系统中的众多模型进行比较的步骤。
25.权利要求24的评估发声的方法,其中所述比较所述新识别数据的模型的步骤进一步包括在逐帧基础上搜索数据和为每一帧所述新识别数据生成每个模型的更新值的步骤。
26.权利要求25的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数将所述更新值加权的步骤。
27.权利要求26的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。
28.权利要求27的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。
29.权利要求26的评估发声的方法,进一步包括以下步骤:如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。
30.权利要求26的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。
31.权利要求24的评估发声的方法,其中所述比较所述新识别数据的模型的步骤包括在逐个模型基础上搜索数据。
32.权利要求31的评估发声的方法,进一步包括当评估所述废料模型时使用定标系数为所述更新值加权的步骤。
33.权利要求32的评估发声的方法,其中所述为所述更新值加权的步骤包括根据环境条件使用定标系数调整所述更新值。
34.权利要求33的评估发声的方法,其中所述为所述更新值加权的步骤进一步包括感测所述环境条件中变化的步骤。
35.权利要求32的评估发声的方法,进一步包括以下步骤:如果所述废料模型在与所有其它有效模型一起评估时被选为最佳模型,则排除所述发声。
36.权利要求32的评估发声的方法,其中所述为所述更新值加权的步骤包括在逐帧基础上为所述更新值加权。
37.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:
根据先前接收的训练数据计算全局均值和全局协方差;
接收新训练数据;
计算所述新训练数据的均值和协方差;
根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差;以及
根据更新的全局均值和更新的全局协方差更新废料模型。
38.一种在用于接收数据的讲话者有关语音识别系统中评估发声的方法,所述方法包括以下步骤:
根据先前接收的训练数据计算全局均值和全局协方差;
接收新训练数据;
计算所述新训练数据的均值和协方差;
根据所述新训练数据的所述均值和所述协方差更新所述全局均值和所述全局协方差;
根据更新的全局均值和更新的全局协方差为所有数据更新单状态HMM模型;
为运行所述讲话者有关语音识别系统接收新数据;
将所述新数据的模型与先前存放于所述讲话者有关语音识别系统中的众多模型进行比较;
判断所述众多模型中哪一个是所有数据中的单状态HMM模型;
将所述数据中的所述单状态HMM模型乘以补偿加权系数;以及
如果废料模型被自一系列有效模型中选出为最佳模型,则排除所述发声。
CN99101815.XA 1998-01-30 1999-02-01 语音识别系统中评估发声的方法 Expired - Lifetime CN1130689C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/016,214 US6226612B1 (en) 1998-01-30 1998-01-30 Method of evaluating an utterance in a speech recognition system
US016214 1998-01-30
US016,214 1998-01-30

Publications (2)

Publication Number Publication Date
CN1231469A CN1231469A (zh) 1999-10-13
CN1130689C true CN1130689C (zh) 2003-12-10

Family

ID=21775968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99101815.XA Expired - Lifetime CN1130689C (zh) 1998-01-30 1999-02-01 语音识别系统中评估发声的方法

Country Status (3)

Country Link
US (1) US6226612B1 (zh)
CN (1) CN1130689C (zh)
GB (1) GB2333877B (zh)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7640007B2 (en) * 1999-02-12 2009-12-29 Fisher-Rosemount Systems, Inc. Wireless handheld communicator in a process control environment
US6806847B2 (en) * 1999-02-12 2004-10-19 Fisher-Rosemount Systems Inc. Portable computer in a process control environment
US7230582B1 (en) * 1999-02-12 2007-06-12 Fisher-Rosemount Systems, Inc. Wearable computer in a process control environment
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
DE19929462A1 (de) * 1999-06-26 2001-02-22 Philips Corp Intellectual Pty Verfahren zum Training eines automatischen Spracherkenners
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6850886B2 (en) * 1999-10-21 2005-02-01 Sony Corporation System and method for speech verification using an efficient confidence measure
FR2801716B1 (fr) * 1999-11-30 2002-01-04 Thomson Multimedia Sa Dispositif de reconnaissance vocale mettant en oeuvre une regle syntaxique de permutation
US6633845B1 (en) * 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
US6606595B1 (en) * 2000-08-31 2003-08-12 Lucent Technologies Inc. HMM-based echo model for noise cancellation avoiding the problem of false triggers
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20040006470A1 (en) * 2002-07-03 2004-01-08 Pioneer Corporation Word-spotting apparatus, word-spotting method, and word-spotting program
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
US7480615B2 (en) * 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
KR100612843B1 (ko) * 2004-02-28 2006-08-14 삼성전자주식회사 은닉 마코프 모델를 위한 확률밀도함수 보상 방법, 그에따른 음성 인식 방법 및 장치
CN101027716B (zh) * 2004-09-23 2011-01-26 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别系统
US20060287867A1 (en) * 2005-06-17 2006-12-21 Cheng Yan M Method and apparatus for generating a voice tag
US7471775B2 (en) * 2005-06-30 2008-12-30 Motorola, Inc. Method and apparatus for generating and updating a voice tag
US7877674B2 (en) * 2006-07-25 2011-01-25 Broadcom Corporation Method and system for redundancy-based decoding of voice content in a wireless LAN system
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7970614B2 (en) * 2007-05-08 2011-06-28 Nuance Communications, Inc. Continuous adaptation in detection systems via self-tuning from target population subsets
US8521766B1 (en) * 2007-11-12 2013-08-27 W Leo Hoarty Systems and methods for providing information discovery and retrieval
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US7974411B2 (en) * 2008-01-31 2011-07-05 International Business Machines Corporation Method for protecting audio content
US7978853B2 (en) * 2008-01-31 2011-07-12 International Business Machines Corporation System and computer program product for protecting audio content
TWI360109B (en) * 2008-02-05 2012-03-11 Htc Corp Method for setting voice tag
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US20100076764A1 (en) * 2008-09-19 2010-03-25 General Motors Corporation Method of dialing phone numbers using an in-vehicle speech recognition system
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
CN101826263B (zh) * 2009-03-04 2012-01-04 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
US9438741B2 (en) * 2009-09-30 2016-09-06 Nuance Communications, Inc. Spoken tags for telecom web platforms in a social network
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
GB2495110B (en) * 2011-09-28 2014-03-19 Toshiba Res Europ Ltd Antenna combining
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US8521523B1 (en) * 2012-06-20 2013-08-27 Google Inc. Selecting speech data for speech recognition vocabulary
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US20140337030A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Adaptive audio frame processing for keyword detection
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3207467A4 (en) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9607618B2 (en) 2014-12-16 2017-03-28 Nice-Systems Ltd Out of vocabulary pattern learning
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10672380B2 (en) 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
US5719921A (en) * 1996-02-29 1998-02-17 Nynex Science & Technology Methods and apparatus for activating telephone services in response to speech
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
CA2262091A1 (en) * 1996-07-29 1998-02-05 British Telecommunications Public Limited Company Pattern recognition

Also Published As

Publication number Publication date
US6226612B1 (en) 2001-05-01
GB2333877B (en) 2001-08-08
GB2333877A (en) 1999-08-04
CN1231469A (zh) 1999-10-13

Similar Documents

Publication Publication Date Title
CN1130689C (zh) 语音识别系统中评估发声的方法
Gales et al. Mean and variance adaptation within the MLLR framework
AU712412B2 (en) Speech processing
Juang et al. Hidden Markov models for speech recognition
EP0966736B1 (en) Method for discriminative training of speech recognition models
US8515758B2 (en) Speech recognition including removal of irrelevant information
JPH09127972A (ja) 連結数字の認識のための発声識別立証
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
US6961702B2 (en) Method and device for generating an adapted reference for automatic speech recognition
US9530432B2 (en) Method for determining the presence of a wanted signal component
WO1997010587A1 (en) Signal conditioned minimum error rate training for continuous speech recognition
NZ316124A (en) Pattern recognition for speech recognising noise signals signatures
WO1997010587A9 (en) Signal conditioned minimum error rate training for continuous speech recognition
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
US7885812B2 (en) Joint training of feature extraction and acoustic model parameters for speech recognition
CN1391211A (zh) 对识别系统中的参数进行训练的方法和系统
US20090012791A1 (en) Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
EP1116219B1 (en) Robust speech processing from noisy speech models
US7236930B2 (en) Method to extend operating range of joint additive and convolutive compensating algorithms
JPH064097A (ja) 話者認識方法
JP2570448B2 (ja) 標準パターン学習方法
US7280961B1 (en) Pattern recognizing device and method, and providing medium
Boulianne et al. Optimal tying of HMM mixture densities using decision trees
Hashimoto et al. Bayesian context clustering using cross validation for speech recognition
Herbig et al. Detection of unknown speakers in an unsupervised speech controlled system

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MOTOROLA MOBILE CO., LTD.

Free format text: FORMER OWNER: MOTOROLA INC.

Effective date: 20101230

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20101230

Address after: Illinois Instrunment

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: Motorola, Inc.

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY, Inc.

CP02 Change in the address of a patent holder

Address after: Illinois State

Patentee after: MOTOROLA MOBILITY, Inc.

Address before: Illinois Instrunment

Patentee before: MOTOROLA MOBILITY, Inc.

TR01 Transfer of patent right

Effective date of registration: 20160616

Address after: California, USA

Patentee after: Google Technology Holdings LLC

Address before: Illinois State

Patentee before: MOTOROLA MOBILITY LLC

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20031210