CN1156821C

CN1156821C - 具有互补语言模型的识别引擎

Info

Publication number: CN1156821C
Application number: CNB008079404A
Authority: CN
Inventors: E; E·特伦; S·贝斯林; ϣ; M·乌尔里希
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Huawei Technologies Co Ltd
Priority date: 1999-03-26
Filing date: 2000-03-07
Publication date: 2004-07-07
Anticipated expiration: 2020-03-07
Also published as: JP4485694B2; EP1171871B1; KR20010108413A; JP2002540478A; WO2000058945A1; DE60005326D1; US6526380B1; EP1171871A1; AU3164800A; DE60005326T2; CN1351744A; ATE250270T1

Abstract

一种用于识别口语单词序列的巨大词汇量语音识别系统(300)，它包括输入装置，用于接收表示口语单词序列的时序的输入模式(320)。该系统进一步包括多个大词汇量的语音识别器(331、332、333)，每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器(350)，该控制器用于将输入模式导入多个语音识别器中，并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。

Description

具有互补语言模型的识别引擎

技术领域

本发明涉及一种识别口语单词序列的巨大词汇量识别系统，该系统包括：用于接收表示口语单词序列的时序输入模式的输入装置；利用与语音识别器关联的大词汇量识别模型按照词汇表中的单词序列识别输入模式的大词汇量语音识别器。

背景技术

US5819220公开了一种用于识别因特网环境中的语音的系统。该系统具体以利用语音访问万维网(WWW)上的信息资源为目标。从传统语音识别领域中遇到的问题来看，将语音识别系统建立成Web的接口面临着非常困难的问题。由于用户实际上能虚拟地访问任何主题的任何文件，因此主要问题是系统需要支持巨大的词汇量。如果不能支持巨大词汇量，就很难建立适合巨大词汇量的诸如语言模型等适当识别模型。在已知系统中利用了包括统计学上为N个单词符列的语言模型和声模型的预定识别模型。利用Web-触发的单词组可动态地改变识别模型。HTML(超文本链接标示语言)文件包括诸如超文本链接的链接，它用于识别将包括到可能促进单词识别搜索的最终词组中的词组。以这种方式通过结合万维网-触发的词组使用于计算语音识别计分的词组产生移置。

已知的系统需要适当的巨大词汇量模型作为能在适配后获得增阶模型的起动模型。实际上，可将增阶模型看成是对当前识别语境(context)最佳的传统大词汇量模型。正如前面所指出的，很难建立合适的巨大词汇量模型，如果其仅用作起动模型也是如此。对诸如识别特定万维网网点或HTML文件的输入而言，某种识别任务又产生了另一个问题，其类似于在搜索引擎或诸如书店等大型电子商店中出现的问题。在该情况下所能说出的单词的数量巨大。传统大词汇量模型通常不能有效覆盖可能单词的整个范围。利用较少的单词移置起动模型不会产生良好的识别模型。假设起动模型已经相当好，但是适当的移置会需要巨大数量的附加词组和相当大数量的处理。

发明内容

本发明的一个目的是提供一种能更好地处理巨大词汇量的识别系统。

为实现该目的，系统的特征在于：该系统包括数量为N的多个大词汇量语音识别器，每个识别器都与相应的、不同的大词汇量识别模型关联；每个识别模型都以巨大词汇量的特定部分为目标；而且该系统包括控制器，所述控制器能将输入模式导入多个语音识别器，并从被多个语音识别器识别的单词序列中选择被识别的单词序列。

通过利用若干个识别器，其中每个识别器具有以巨大词汇量的一部分为目标的特定识别模型，可将为巨大词汇量建立识别模型的任务分解成为特定语境建立大词汇量模型的易管理任务。这些语境可包括健康、娱乐、计算机、艺术、商务、教育、行政管理、科学、新闻、旅游等。可以理解的是通常这些语境中的每个会在词汇上重叠，例如在语言的常用单词上。在这些通用单词的统计上或在这些语境所特有的行话上这些语境会有差别。通过利用若干个这种模型识别输入，利用适当受过训练的模型可识别较宽范围的话语。利用若干模型的另一个优点是能允许识别过程中进行更好的鉴别。如果使用一个巨大的词汇表，则仅能识别某一话语的一种特定含义(和拼写)。举例来说，如果用户发出一个声音类似“color”的单词，大部分被识别的单词序列将包括非常常用的单词“color”。不太可能识别出单词“collar”(时装语境)，或醋渍鳕鱼卷中的“collar”(食物语境)，或锁骨(健康语境)。这些特定词汇在巨大词汇表中不会有太多被识别的机会，其中不可避免地由频繁出现的常用单词的单词序列占据优势。通过利用若干模型，每个模型将从中识别一个或多个候选单词序列，然后据此能进行选择。即使在最终的选择中选择了单词序列“color”，也可以将可选择的单词序列“collar”呈现给用户。

优选地，在用户不经历识别过程中明显延迟的意义上，识别器要并行操作。这可通过利用分离的识别引擎且每个引擎具有自己的处理资源来实现。可选择的是，这可通过利用功率足够大的串行处理器、且串行处理器利用传统时间分段技术并行地执行识别任务来实现。

应当注意的是，利用并行语音识别引擎是公知的。US5754978描述了并行利用识别引擎的内容。所有引擎具有较高精度，例如95％。如果引擎的5％的不准确度不重叠，就能提高识别精度。为确保不准确度不会完全重叠，引擎是不同的。可以选择的是，引擎可以类似，在该情况下，一个引擎的输入信号会受到轻微干扰或一个引擎受到轻微干扰。比较器根据引擎输出之间的一致度比较被识别的文本并接受或拒绝该文本。由于该系统需要精确的识别引擎，其不存在巨大词汇表，因此该系统不能提供解决巨大词汇量识别的方案。系统也不使用以巨大词汇表的特定部分为目标的不同模型。

WO98/10413描述了一种对话系统，该系统具有任选数量的且能并行操作的语音识别模块。该模块以语音识别的特定类型为目标，这些特定类型是例如孤立的数单词识别、连续数识别、少量词汇的单词识别、孤立的大词汇量识别、连续词汇识别、关键词识别、单词序列识别、字母识别等。对话系统预先知道用户将提供哪种类型的输入，于是起动一个或多个特定模块。例如，如果用户需要说一个数，对话引擎就起动孤立的数字识别和连续数识别，允许用户说出作为数单词或作为连续数的数码。该系统没有提供处理巨大词汇量的方案。

可以预先确定根据本发明的系统识别模型。优选地，根据本发明的一个实施例，利用模型选择器动态地选择至少一个可有效用于识别的模型。该选择取决于用户输入的语境，其类似于询问或命令主题。优选地，模型选择器选择许多识别模型。实际上，至少一个模型会代表普通主题的常用日常词汇。一般该模型经常会用到。

在根据本发明的另一个实施例中，文件定义识别语境。正如从属权利要求5所述的，这可以通过扫描文件中出现的单词并确定最适合识别这些单词的识别模型(例如，与文件共同的单词或单词系列最多的那些模型)来完成。

在根据本发明的另一个实施例中，在网页中显示语境(或多个语境)，例如利用嵌入标记来识别语境。例如，网页还可以通过链接来显示语境(或语境识别符)。

在依照本发明的另一个实施例中，系统有效地试图识别适合当前识别任务的那些识别模型。除当时有效用于识别的识别模型外，还要检验其它模型的适用性。通过利用一个或多个附加识别器可将该检验作为后台任务执行，其检查未用模型能否比有效使用的一个模型给出更好的结果。可以选择的是，例如当用户不说话时，现行识别器可用于检验识别器的大量性能被留置时的检验模型。该检验可包括用户的所有输入。特别是如果用户已经给出了大量语音输入，检验优选地限于最近的输入。通过这种方式，无论用户多快地改变主题，也能选择到适当模型。确定哪一个模型最适合、即提供最高识别精度的模型的标准最好基于类似记分或置信量度的识别性能指标进行。

在根据本发明的另一个实施例中，识别模型分层设置。这会简化选择合适模型。优选地，识别从若干个相对普通的模型开始。如果某个普通模型证明能给出良好的识别结果，则检验较特别模型以进一步提高识别。若干较普通模型可共用一些较特别模型。如果某一时刻特别模型的识别结果变差，就可尝试等级位于特定模型之上的若干较普通模型。这就能实现从一个语境到一个语境的平稳变换。举例来说，用户从提供有关普通健康语境的输入开始。在某一时刻可以检测到，开始用户集中在较特定的医疗中心或机构的语境上，甚至涉及到最特定的健康农庄语境。具体地，如果健康农庄处于有吸引力的区域，这将鼓励用户移至较普通的度假或旅游语境，或者更准确地说是健康农庄区域的旅游。

再根据本发明的另一个实施例中，可通过分离的识别服务器进行识别。在因特网语境中，这种服务器可以是网络上的分散站，或该服务器与诸如搜索引擎或类似于电子书店等服务提供者的现有网站结合。具体地，为许多用户操作的识别服务器需要能够支持适合于大部分用户的词汇表。若干特定大词汇量模型的使用使该系统能更好地、高识别精度地执行该任务。

附图说明

参照附图中示出的实施例的说明将使本发明的这些和其它方面更清楚。

图1表示大/巨大词汇量识别器的结构；

图2表示完整的单词模型；

图3表示根据本发明的系统的方框图；

图4表示识别模型的层级；以及

图5表示根据本发明分布的系统的方框图。

具体实施方式

诸如大词汇量连续语音识别系统的语音识别系统通常使用识别模型集合来识别输入模式。例如，可利用声模型和词汇表识别单词，并利用语言模型改进基本识别结果。图1表示大词汇量连续语音识别系统100的典型结构〔参见L.Rabiner，B-H.Juang，“Fundamental ofspeech recognition”，Prentice Hall 1993，434到454页〕。系统100包括频谱分析子系统110和单元匹配子系统120。在频谱分析子系统110中对语音输入信号(SIS)进行频谱和/或时间(temporally)分析，以便计算特征的表示向量(观测向量，OV)。通常，对语音信号进行数字化处理(例如以6.67kHz的速度采样)，并例如通过实施预强调对其进行预处理。例如将连续样值集合(批处理)成与32毫秒的语音信号相对应的帧。例如，帧相继局部重叠16微秒。通常利用线性预测编码(LPC)的频谱分析方法为每个帧计算特征表示向量(观测向量)。例如，特征向量可具有24、32或63个分量。大词汇量连续语音识别的标准方法是假定语音生成的概率模型，借此确定的单词序列W＝w₁w₂w₃...w_q产生声观测向量序列Y＝y₁y₂y₃...y_T。通过确定单词序列w₁w₂w₃...w_q可从统计学上减小识别误差，所述单词序列最可能形成观测向量的观测序列Y＝y₁y₂y₃...y_T(随时间t＝1，...，T)，其中观测向量是频谱分析子程序110的输出。这导致确定了最大后验概率：

maxP(W|Y)，对于所有可能的单词序列W。

通过对条件概率施用Baye定理，P(W|Y)将由下式给出：

P(W|Y)＝P(W|Y).P(W)/P(Y)

由于P(Y)与W无关，因此最可能的单词序列给出如下：

arg max P(Y|W).P(W)适合对所有可能的单词序列W

在单元匹配子系统120中，声模型构成了等式(1)的第一项。声模型可用于为给定单词串W估算观测向量序列Y的概率P(Y|W)。对于大词汇量系统，这通常通过将观测向量与语音识别单元的目录进行匹配来执行。语音识别单元由声参考序列表示。可以使用各种形式的语音识别单元。举例来说，可用一个语音识别单元表示整个单词或甚至一组单词。单词模型(WM)为给定词汇表的每个单词提供声参考序列的录音。对于整个单词用语音识别单元表示的系统，在单词模型与语音识别单元之间存在直接关系。其它系统，特别是大词汇量的系统，可用于层级基于诸如音素、双音素或音节等的子单词单元以及诸如fenenes和fenones的派生单元的语言识别单元。对于这种系统，单词模型由字典134和子单词模型132给定，所述字典134描述了与词汇表中的单词相关的子单词序列，子单词模型132描述了涉及语音识别单元的声参考序列。单词模型合成器136根据子单词模型132和字典134合成单词模型。图2表示基于子单词单元得到系统单词模型220，其中通过三个每个具有四个声参考序列(251，252，253，254；261到264；271到274)的子单词模型序列(250，260，270)为所示单词建立模型。图2所示的单词模型是基于Hidden MarkovModel(HMM)，该模型广泛用于随机建立模型语音信号。利用这种模型，每个识别单元(单词模型或子单词模型)通常以HMM为特征，其参数由训练数据组估算出来。对于大词汇量的语音识别系统，由于需要大量训练数据为较大单元充分训练HMM，因此通常使用有限的子单词单元组，其数量例如为40。HMM状态与声参考对应。已知有多种为参考建立模型的技术，它们包括不连续的或连续的概率密度。与一个特定话语相关的每个声参考序列也称为发音的声录音。可以理解的是，如果使用除HMM外的其它识别技术，声录音的细节将会不同。

图1的单词级别匹配系统130将观测向量与所有语音识别单元的序列进行匹配，并提供向量与序列之间的匹配可能性。如果使用子单词单元，则可通过利用字典134对匹配进行约束，以便使可能的子单词单元序列限于字典134中的序列。这减少了可能的单词序列输出。

对于完全识别，优选的是也利用句子级别匹配系统140，该匹配系统基于语言模型(LM)进一步对匹配进行限制，以便使被研究的路径是与作为正确序列的单词序列相对应的那些路径，其中所述正确序列是由语言模型确定的。因而这些语言模型构成了等式(1)的第二项P(W)。将声模型与语言模型的结果相结合产生了单元匹配子系统120的输出，该输出就是被识别的句子(RS)152。模式识别中使用的语言模型可包括语言和识别任务的句法和/或语义约束142。基于句法约束的语言模型通常是指语法144。语言模型使用的语法144提供了单词序列W＝w₁w₂w₃...w_q的概率，原则上其由下式给出：

P(W)＝P(w₁)P(w₂|w₁).P(w₃|w₁w₂)...P(w_q|w₁w₂w₃...w_q)

由于实际上不能为给定语言中的所有单词和所有序列长度可靠地估算条件单词概率，因此广泛使用N个字母组的单词模型。在N个字母组模型中，项P(w_j|w₁w₂w₃...w_j-1)与P(w_j|w_j+N+1...w_j-1)接近。实际上使用双字母组或三字母组。在三字母组中，项P(w_j|w₁w₂w₃...w_j-1)与P(w_j|w_j-2w_j-1)接近。

图3表示根据本发明的语音识别系统300的方框图。为将被识别的语音转换成文本或类似表达的应用而具体描述了系统工作的例子。这些原文表达可用于口授目的，其中将文本表达输入(enter)到例如单词处理器或用于确定数据库中的字段等的文本字段中。对于口授，当前大词汇量识别器可支持高达60000个单词的有效词汇表和字典。很难获得足够的相关数据建立精度足够高地识别更大量单词的模型。通常，用户可将有限数量的单词增添到有效词汇表/字典中。这些单词可从300000到500000个单词的后台词汇表(其还包括单词的声录音)中检索到。为了口授或类似目的，例如巨大词汇表可由至少100000个有效单词或甚至超过300000个有效单词组成。可以理解的是，具体对于通过单击链接产生完全不同语境的因特网环境来说，优选的是能有效地识别许多后台词汇表的单词。对于其它诸如识别名称的识别任务，通常将其模型建立成具有附属于它的某种优先命名概率形式的平面目录，但对于它不具备高质量的语言模型，因此总是将超过50000个单词的词汇表归入巨大词汇表。

可以理解的是，识别结果不需要用于口授目的。其同样可用作诸如对话系统等其它系统的输入，其中根据被识别的语音从数据库中检索信息，或象订一本书或预定旅行那样进行操作。

在图3中示出了独立系统300，其优选利用诸如PC的计算机实施。标记310表示用于从用户处接收语音表示信号的互连装置。例如，话筒可与互连装置310连接。可以理解的是，例如，也可以通过电话或网络从远处预先录下或检索语音表示信号。系统300包括接口320，用以接收来自用户的输入。例如，这也可以利用传统的声卡实现。如果接口具有用于接收模拟形式语音的输入端，则接口优选包括用于将模拟语音转化成适合于语音识别系统330进一步处理的格式的数字样本。如果接口具有用于接收数字形式语音的输入端，优选地，转换器能够将数字数据转化成可进一步处理的合适的数字格式。例如，正象针对图1的频谱分析子系统110所描述的，语音识别系统330通常分析输入信号。根据本发明，语音识别系统330包括多个大词汇量的语音识别器，每个识别器都与对应的、不同的大词汇量识别模型关联。正如图3的标记335所示，对于图1所述的典型识别，各识别器可共用图1中不受模型约束的频谱分析子系统110。图3表示利用三个分离的识别器331、332和333。识别器可使用相同算法，其中差别在于所用的诸如词汇表和语言模型的模型。语言识别最好与说话者无关，并能允许连续语音输入。实质上，语音识别是公知的，而在许多文件中已经公开了该内容，这些文件包括例如与US序列号08/425304(PDH91136)对应的EP92202782.6，与US序列号08/751377(PDH91138)对应的EP92202783.4，与US5634083(PDH93034)对应的EP94200475.5，所有这些申请都转让给本申请的受让人。从识别器几乎在同一时刻独立识别同一语音输入的意义上看，识别器“并行”操作。这可利用每个识别器的单独资源来实现，这些资源例如是“并行”操作处理器中的单独处理器或处理单元，其中并行操作处理器例如是VLIW处理器。利用具有足够高性能的传统顺序处理器也可能获得类似的“并行”性能，其中每个识别器执行独立任务。优选地，在系统已经接收到单词后的单词识别过程中不会出现明显延迟的意义上，识别是实时的。

根据本发明，每个大词汇量的语音识别器与各自的、不同的大词汇量识别模型关联，其中每个识别模型以巨大词汇表的特定部分为目标。优选地从存储器340装载模型。在此为了说明，识别模型意指用于一个识别任务的相关模型组。例如，参照图1，巨大词汇表一个特定部分的识别模型由单词模型(字典134和子单词模型132)和语言模型(语法144和语义约束142)构成。当然，在各识别模型之间通常会存在重叠。这些重叠通常发生在部分词汇上。语言模型也可能局部甚至完全相同。在简单系统中，识别模型的数量对应于识别器的数量；每个识别器与专有的识别模型关联成固定的一对一关系。优选地，正如在下面将详细描述的那样，系统包括的模型比有效识别器多。图中示出了8个模型341到348。

识别器的输入被导入到控制器350中，以便作出对被识别单词序列的最终选择。各识别器331到333可仅产生一个被识别的单词序列。可以选择的是，也可以产生多个序列(例如可用词序表示)。优选地，各识别器的结果可包括诸如可能性或置信量度的信息，以使控制器350选择最可能的单词序列。控制器350也担负着将语音输入导入识别器的任务。如果有效识别器的数量不变，该导入就是固定的，在该情况下控制器350没有导入的特定任务。

在优选实施例中，系统包括的识别模型(M)比有效识别器(N)多。模型选择器360用于根据识别语境为至少一个语音识别器从M个模型中选择关联的识别模型。模型选择器360可为每个有效识别器选择模型。然而，优选的是覆盖常用词汇的基础识别模型总是有效。在该情况下，至少一个模型不需由模型选择器360来选择，它被固定地指配给某个识别器。

在另一实施例中，根据与语音输入相关的文件确定的语境选择至少一个识别模型。例如，如果用户口授有关健康主题的文件，则一个识别器可装载对识别有关健康的语音最佳的特定识别模型。例如，用户可通过从与系统模型相对应的可能语境目录中进行选择来明确确定文件的语境。在该情况下，例如，系统300可利用窗口中的选择箱以传统方式将这样一种目录呈现给用户。例如，系统也可以通过扫描已在文件中出现的文本或至此为止的口语并检查哪一个模型最适合识别该文本(例如，哪一个模型与此范围的文本具有最多的相同单词或单词序列)自动地确定语境。另外，语境识别符也可以与文件关联起来，系统300获得该识别符以确定最适合的模型。对于涉及诸如HTML网页的网页的语音，优选的是，在文件中确定文件的语境，或使文件语境与文件相关联。这能以标签的形式来完成，并由与语音相关的初始网页的创建者将其密封起来。例如标签能以类似运动、健康、娱乐等的文本主题形式明确确定语境。该确定也可以是非直接的，例如它可以是诸如语境编号的识别符的形式，或者甚至是确定语境位置的链接(例如超文本链接)。在后一种情况下，系统300能从隐含的语境确定中导出实际语境(例如通过将语境编号映射给一个识别模型，或通过访问超文本链接而获得语境信息)。

在一个优选实施例中，模型选择器360通过检查哪一个可用识别模型最适合当时的识别，从而能积极设法改进识别。为此模型选择器360至少控制一个检验识别器，该识别器示为识别器334。检验识别器334与一个还没有被有效识别器331到333利用的识别模型耦合。也将部分(或者甚至全部)接收到的语音馈入到检验识别器中。将检验识别的输出与控制器350的选择输出或各有效识别器331到333的输出作比较。如果检验识别器334的识别结果优于有效识别器331到333中一个的识别结果，则装入该检验识别模型(即，检验识别器334使用时的模型)，使其供一个有效识别器使用。优选地，换掉给出最差识别结果的识别模型(可能除基础识别模型以外，该模型总是被使用着)。

优选的是，按照从具有较普通语境的模型到具有更特定语境的模型的顺序对识别模型进行分层设置。图4表示这样一个层级体系，其具有四个最普通的模型410、420、430和440，例如它们分别覆盖了普通主题：娱乐、健康、旅游和计算机。通过分析主题内所有发表的表示文本而建立普通模型。实际上，如何由表示文本建立模型是公知的。健康普通模型可与诸如涉及医药、外科、食物/膳食、医院/医疗中心的这些较低层级(即更特殊的模型)关联。通过利用涉及那些更特定主题的文本创建这些模型中的每一个。在该图中，模型422可涉及医院/医疗中心。在这些语境中可进行进一步细分，其中，例如，模型424可覆盖健康农庄。通过分析涉及健康农庄的文本，将自动创建一个识别模型，由于健康农庄的文件通常描述了周围区域，因此该识别模型还适于识别涉及某个旅行主题的语音。这使同一模型适于作为层级在旅游模型类目中的模型432下面的模型。如果利用某一模型的识别获得了良好的识别结果，则模型选择器360利用更特定的模型进行识别。该更特定的模型(即等级较低的模型)可用作较普通模型的代替模型。也可以除使用较普通模型外还使用该更特定模型。优选的是，与层级系统中和较普通模型等级相同的其它在层级上无关连的模型相比，仅利用较特定模型取代较普通模型来增加识别会更好。例如，如果运动和健康模型在层级上无关联(例如两个都在最高级)，利用运动模型可得到较好的识别结果，然后利用更特定的运动模型。这其中不需要使用较特定的健康模型。实际上，如果健康模型的识别结果非常低，则终止利用该模型的识别，这有利于利用较特定的运动模型增加识别。如果存在若干较特定的运动模型，例如足球、篮球、田径运动、汽车赛等，则检验所有这些模型。也可以简单地基于特定模型的词汇与已被识别语音的一致性进行选择。如果在某一时刻利用特定模型的识别给出较低的结果，则优选地利用至少一个层级高于该特定模型的模型继续进行识别。

在优选实施例中，如图5所示，识别系统是分布式的。分布式系统包括服务器站540和至少一个用户站。所示为三个用户站510、520和530，其中仅为用户站520示出了进一步的细节。可利用传统计算机技术实现该站。例如，用户站520可由台式个人计算机或工作站构成，而服务器站540可由PC服务器或工作站服务器构成。计算机可在计算机处理器中装载的适当程序的控制下运行。服务器站540和用户站510、520和530通过网络550连接。例如，网络550可以是office环境下的局域网、或宽域网、优选为因特网的任何合适网络。为了通过网络550进行通信，这些站分别包括通信装置522和542。可以使用任何适于结合网络550一起使用的通信装置。通常，通过结合硬件和软件构成通信装置，所述硬件是例如通信接口或调制解调器，软件是支持诸如因特网TCP/IP协议的特定通信协议的软件驱动器的形式。用户站520包括例如通过接口528从用户处接收语音的装置。用户站520进一步包括对语音信号进行预处理以便使其适合于向服务器站540传送的装置。例如，用户站可包括与图1的频谱分析子系统110类似的频谱分析子系统526。服务器站540执行如针对图3的系统300描述的所有其它任务。例如，服务器站540包括具有多个识别器的识别系统543(与图3的识别系统335类似)、控制器544(与图3的控制器350类似)、模型选择器545(与图3的选择器360类似)、和存储模型的存储器546(与图3的存储器340类似)。

Claims

1.一种识别语音单词序列的巨大词汇量语音识别系统，该系统包括：

输入装置，用于接收表示语音单词序列的时序输入模式；以及

大词汇量语音识别器，用于利用与语音识别器相关联的大词汇表识别模型从词汇表识别单词序列的输入模型；

其特征在于

该系统包括数量为N的多个大词汇量语音识别器，每个识别器与各自的不同大词汇量识别模型相关联；每个识别模型以巨大词汇表的一个特定部分为目标；以及

该系统包括控制器，控制器用于将输入模式导入多个语音识别器中，并从多个语音识别器识别的单词序列中选择被识别的单词序列。

2.根据权利要求1所述的系统，其中所述系统包括M个大词汇量识别模型，M＞N，而且所述系统包括模型选择器，该模型选择器用于根据识别语境为至少一个语音识别器从M个模型中选择相关联的识别模型。

3.根据权利要求2所述的系统，其中与语音输入相关的文件确定至少一个识别语境。

4.根据权利要求3所述的系统，其中文件为万维网WWW页，在文件中确定文件的语境，或使文件语境与文件相关联。

5.根据权利要求3所述的系统，其中模型选择器用于根据文件中的单词或与文件相关的单词选择识别模型。

6.根据权利要求2所述的系统，其中模型选择器用于：

从还没有被一个识别器使用的N-M个识别模型中选择检验识别模型；

控制检验识别器利用检验识别模型识别至少部分输入模式；以及

如果检验识别器的识别结果优于一个识别器的识别结果，则利用检验识别模型进行识别。

7.根据权利要求1所述的系统，其中将识别模型按从具有普通语境的模型到具有特定语境的模型的顺序进行分层排列，其中，如果与关联于另一个识别模型的至少一个识别器的识别结果相比，利用层级中高级别的与层级有关联的普通模型的识别获得了较好的识别结果，则模型选择器可利用特定的模型进行识别。

8.根据权利要求1所述的系统，其中系统包括通过网络相连的用户站和服务器站；用户站可用于从用户处接收输入模式，并将表示输入模式的信号传输到服务器站中；服务器站包括识别器和控制器。