CN102176310B

CN102176310B - 具有巨大词汇量的语音识别系统

Info

Publication number: CN102176310B
Application number: CN2011101288722A
Authority: CN
Inventors: Z·萨费
Original assignee: Nuance Communications Austria GmbH
Current assignee: Nuance Communications Inc
Priority date: 2005-12-08
Filing date: 2006-12-06
Publication date: 2013-08-21
Anticipated expiration: 2026-12-06
Also published as: US20080294441A1; JP2013068970A; US8140336B2; EP1960997B1; CN101326572B; CN101326572A; US8666745B2; WO2007066297A1; CN102176310A; US20120136662A1; JP5322655B2; US20130185073A1; DE602006012218D1; ATE457510T1; EP1960997A1; RU2008127509A; JP5968774B2; US8417528B2; JP2009518677A

Abstract

本发明涉及语音识别，例如用于识别连续语音中的单词的系统。所公开的语音识别系统能够识别大量的单词，在原理上甚至能够识别无限量的单词。所述语音识别系统包括单词识别器，其通过单词图导出最佳路径，其中，基于最佳路径把单词分配给语音。单词分值是通过将音素语言模型应用于单词图的每个单词而获得的。此外，本发明涉及根据声音块识别单词的装置和方法，还涉及用于实现所述方法的计算机可读代码。

Description

具有巨大词汇量的语音识别系统

本申请是申请日为2006年12月06日、申请号为200680046025.9、发明名称为“具有巨大词汇量的语音识别系统”的中国专利申请的分案申请。

技术领域

本发明涉及根据声音块识别单词的语音识别系统，尤其涉及连续语音识别器。此外，本发明还涉及根据声音块识别单词的装置和方法，以及实现所述方法的计算机可读代码。

背景技术

在语音识别系统中，输入声音块是由计算机系统将声音块的口头内容的声音特征转换成所识别出的单词来处理的。语音识别是一项复杂的工作，涉及许多步骤。第一步骤通常包括某种声学特征的提取，其中，根据声学资源从声音块中提取表示单词或单词部分的声音特征。随后对声音特征进行评分，声学分值描述了特定单词或单词部分在声音块中的给定位置产生某一特征的概率。图形匹配技术用于根据声音特征的序列确定单词或单词部分的可能序列。以图形结构将单词或单词部分和所分配的分值进行排序，在下一步骤中，通过此图导出最可能的单词序列。将最可能的单词序列记为识别出的单词。

美国专利6,542,866 B1公开了针对一段输入信号生成多个特征向量的方法和装置。解码器生成路径分值，此路径分值指明了此段输入信号表示某一单词的概率。路径分值是通过选择用于每一段的最佳特征向量而生成的。路径分值基于该段的不同特征向量。

现有技术的系统被视为仅能够识别有限量单词的大词汇量连续语音识别器(LVCSR)。除了上述声学处理和图形匹配之外，这样的系统基于用户词典(ULX)和标准单词语言模型(LM)。ULX根据单词部分的序列(音素)识别系统知道的单词。单词LM用于对单词的序列进行评分，由此对高于声学水平的语言水平实现建模。对于每个已知单词而言，标准单词LM基于单词历史统计量，单词历史共由n个单词组成。这样的LM在大规模词库上进行训练，从而观测到足够大量的单词历史，从而获得重要的统计量。通常，对于具有约64000个建模单词的三元文法LM(n＝3)而言，所需要的词库具有百万量级的单词规模。因此，通过最新水平的LVCSR来提高可识别单词的数量的主要困难是，需要收集足够大的词库。虽然用户词典和计算机能力在稳步提高，从而可以处理更多的单词，但是，可以识别出的单词量仍然有限。

本发明的发明人已经认识到，能够识别原理上无限量单词的改进的语音识别系统是大有裨益的，因此设计出了本发明。优选情况下，本发明单独或以组合方式减少、削减或消除了现有技术的一个或多个以上或其它缺点。

发明内容

根据本发明的一方面，提供了一种语音识别系统，其根据声音块识别单词，所述语音识别系统包括：

-单词识别器，其通过单词图导出最佳路径，其中，每个单词都分配了一个单词分值和一个音标，并且，基于最佳路径把单词分配给声音块，

其中，单词图中的每个单词的单词分值包括通过将音素语言模型(LM)应用于单词图的每个单词而获得的单词分值。

语音识别系统通常是计算机化的系统，其中，把语音作为声音块输入，例如，由用户通过麦克风作为语音直接输入，由计算机系统作为语音文件输入，由能够输出语音的模拟设备作为声音块输入，等等。语音识别系统可以用作连续语音的在线或离线识别器，以及用作“指令&控制命令”识别器。在这种情况下，(文法)句法信息可以取代音素LM，或与音素LM组合起来使用。语音识别系统可以例如用作用户和计算机系统之间的接口系统。

语音识别系统可以产生单词图，其中，给每个单词都分配了一个单词分值和一个音标，或者，这种单词图可由另一源端产生或提供，并可由单词识别器使用。单词图使得每个单词的单词分值包括通过将音素语言模型(LM)应用于单词图的每个单词而获得的单词分值。可以把单词分值取为声学音素分值和音素LM分值之和。通常，分值是所发现的概率的负对数。

本发明的优点是有很多原因的。由于单词图基于音标和音素LM，所以不再需要单词LM，并且，可识别单词量不受限于识别系统的单词LM中的单词量。可识别单词量只受限于在容许单词词典中储存的单词量，从而，可以获得巨大量甚至无限量的单词。巨大量的单词可以得到处理，因为音素语言模型把音素用作基本单元。因此，系统只需要在音素级而非单词级上进行语言建模。巨大词汇量处理的一个有益结果是，仅有极少量的词汇表外单词(OOV)，甚至几乎没有，因此不需要专门处理这些情况和由OOV单词引起的主要错误。此外，与传统的单词LM相比，使用音素LM模型能更加高效地处理未见过的单词，因为音素LM知道未见过的单词的概率，其通过回退(backing-off)而非使用传统的单词LM所用的恒定惩罚因数(penalty)。此外，由于单词图基于把音素语言模型应用于单词图的每个单词，故而不需要LM自适应，即使可以进行LM自适应，也可以扩展语音识别系统，使其包括任何音素LM自适应技术。这可以用于例如单词序列在形态上不正确的自由风格文本。此外，因为语音识别基于音素LM，所以，系统可以设置用来处理自由风格语言、非预期的单词序列或者甚至随机的单词序列，其优于传统的基于单词的统计LM。传统的识别系统在这种情况下将执行得很差，而本发明的识别系统的执行情况则是可以接受的。

根据本发明的系统的一个优选实施例在从属权利要求2中进行了限定，其中，语音识别系统基于包括多于200.000个单词的允许单词词典，例如多于一百万个单词，例如多于十亿个单词，或者更多个单词，例如实际上无限量的单词。除了单词的字形表示和音标之外，词典的每个单词项还可以包括单词的词干。允许单词词典还被称为大量单词词典(HwLex)。由于巨大数量的单词可由系统处理，所以不需要HwLex自适应，但是，可以进行HwLex自适应，其中，添加新的单词并生成相应的数据。可以在无任何音素LM自适应的情况下使HwLex达到适应。

根据本发明的系统的优选实施例在从属权利要求3和4中进行了限定，其中，语音识别系统还包括音素识别器，其从声音块中提取音素图，音素图用于给每个边界分配一个音素，其中，单词图中的单词的音标基于音素图，并且其中，给每个音素分配一个声学音素分值。音素识别器可以通过应用诸如Mel频率倒谱系数(MFCC)、线性预测编码(LPC)、相对谱系数(RASTA)、感知线性预测(PLP)等任何标准声学特征提取技术而自动处理声音块。声学建模可以基于任何基于音素的声学建模，例如隐性马尔可夫模型(HMM)、带有(任何)状态模型的音素模型(拉普拉斯或高斯分布的混合)。音素识别核心可以是任何基于图形匹配的核心。

根据本发明的系统的一个优选实施例在从属权利要求5中进行了限定，其中，语音识别系统还包括单词音素图生成器，其把音素图转换成单词音素图，单词音素图用于给每个边界分配一个单词和相关的音标。根据音素图提供单词音素图是有益的，因为这样在单词音素图和相应音素之间建立起了直接关联，从而可将音素序列解码成单词序列。

根据本发明的系统的一个优选实施例在从属权利要求6中进行了限定，其中，确定音素序列假设，并将其添加到音素图中，其中，单词音素图基于扩展的音素图。音素序列假设由音素序列假设生成器添加到音素图中。用音素序列假设扩展音素图是有益的，因为这样音素序列假设可以至少在一定程度上补偿音素识别器的声学误差(如果出现这些误差的话)。此外，由于假设产生，所以，还可以至少在一定程度上识别出不清楚的语音。

根据本发明的系统的一个优选实施例在从属权利要求7中进行了限定，其中，通过应用允许单词词典(HwLex)，对扩展音素图进行滤波，从而把包括不在词典中存在的单词的扩展音素图的音素序列剔除掉。这样确保只处理允许的单词。此外，将滤波步骤整合到音素序列假设生成器中是有益的，因为这样可以确保：不考虑不相关的音素序列，即，与任何允许单词都不匹配的那些音素序列；因此，可以更高效地处理扩展音素图。

根据本发明的一个优选实施例在从属权利要求8中进行了限定，其中，提供时间同步的单词音素图，其中，从单词音素图中把时间前后均无关联的单词剔除掉。这样确保把单词音素图的死路径剔除掉，从而更高效地处理单词语音序列。

优选情况下，从属权利要求6至8的实施例可以组合起来，从而确保在单词音素图中只考虑相关的音素序列。

根据本发明的系统的一个优选实施例在从属权利要求9中进行了限定，其中，语音识别系统还包括单词图生成器，其将单词音素图转换成单词图，单词图用于给每个边界分配一个单词。根据音素分析而非直接单词解码来分配声音块的可能单词是有益的，因为用音素作为基本单元比用单词作为基本单元更加高效。

根据本发明的系统的一个优选实施例在从属权利要求10中进行了限定，其中，音素语言模型是m元文法语言模型或紧凑的变元文法模型(variagram)。这些类型的语言模型是众所周知的，因而确保了具有鲁棒性的语言模型。

根据本发明的第二方面，提供了根据声音块识别单词的方法，其中，通过单词图导出最佳路径，其中给每个单词都分配了一个单词分值，并且，基于最佳路径把单词分配给声音块，单词图中的每个单词的分值包括通过将音素语言模型应用于单词图的每个单词而获得的单词分值。

根据本发明的第三方面，提供了根据声音块识别单词的装置，所述装置包括：

-语音传感器，其根据声音块捕获语音，

-语音识别系统，

-输出模块，其输出所识别出的单词，

其中，所述语音识别系统包括：

-单词识别器，其通过单词图导出最佳路径，其中，给每个单词都分配了一个单词分值，并且，基于最佳路径把单词分配给声音块，以及

其中，单词图中的每个单词的单词分值包括通过将音素语言模型应用于单词图的每个单词而获得的单词分值。

语音传感器可以是麦克风或其它装置，只要把捕获到的语音转换成数字表示形式从而能在语音识别系统中进行处理即可。输出模块可以是以数字形式或非数字形式(例如，以文本形式)输出单词的任何类型的模块。所述装置可以如录音机、任何形式的语音控制装置等等之类的装置。

根据本发明的第三方面，提供了计算机可读代码，其用于实现本发明第二方面的方法。

通常，在本发明的保护范围内，本发明的各方面可以以任何可能的方式进行组合和结合。参照下面描述的实施例，本发明的这些和其它方面、特征和/或优点将是显而易见的。

附图说明

下面将参照附图仅通过举例方式描述本发明的实施例，其中：

图1示出了单词识别器的实施例，

图2示出了创建HwLex的实施例，

图3示出了执行声学训练的实施例，

图4示出了创建音素LM的实施例，

图5示出了音素识别器的实施例，

图6示出了单词音素图生成器的实施例，

图7示出了单词图生成器的实施例。

具体实施方式

在标准大词汇量连续语音识别器(LVCSR)等结构中，用户词典(ULX)和语言模型(LM)是基本部件。它们一起限制了可识别单词的量。

本文介绍的语音识别系统克服了此限制，我们把本文介绍的语音识别系统称为巨大连续语音识别器(HVCSR)，因为它能够识别巨大量的单词，在原理上能够识别无限量的单词。HVCSR不具有传统的LM，它运用所谓的大量单词词典(HwLex)而非传统的ULX来确定实际使用的语言的允许单词。HwLex将实际语言单词及其音标存储起来。下面将进一步详细描述HwLex。与LVCSR相比，在HVCSR中，信息源组合不同，从而能够处理大量的可识别单词。通常，HwLex太大，以至于不能像在整合的LVCSR中那样将其作为音素树整合到识别处理过程中。

图1示出了根据本发明的巨大词汇量连续语音识别器(HVCSR)的实施例。该识别器利用三个源端：HwLex 12、声学资源29和音素LM 36，下面将结合图2-4进一步对其进行论述。

在第一步骤中，将音素识别器41应用于声音块40。音素识别器通过使用声学资源29对来临的声音块进行处理，从而产生音素图42并将其输出。音素图是可能音素的表示形式，其中，每个音素具有一个声学分值，此声学分值表示在特定音频位置发出给定音素的概率。

在下一步骤中，把单词音素图生成器43应用于所产生的音素图。单词音素图生成器的输出是单词音素图44。还可以获得每个单词边界的音标。单词音素生成器具有两项任务：

生成音素序列假设，并用其扩展音素图，

将扩展的音素图转换成单词音素图。

生成器生成与可在音素图中找到的音素序列假设相类似的音素序列假设，并用该假设扩展音素图。然后，通过运用HwLex 12来解析扩展的音素图，从而对那些仅包括允许单词序列的图路径进行滤波。HwLex对于每个单词而言可以具有多个允许音标，它们也可以被视为主要的音素序列假设。HwLex解析的结果是，建立起了在图路径上识别单词的单词音素图44。

在下一个处理步骤中，单词图生成器45将单词音素图转换成单词图。这里，将音素LM 36应用于单词音素图，从而对不同的单词序列假设进行评分。它用平均历史长度m去对音素历史进行建模——如果需要的话还跳过单词边界，m通常为8-10。因此，音素LM还捕获到用单词LM(二元文法、三元文法)表示的信息。音素LM分值有助于确定在当前音频位置发出实际单词序列的概率。由于假设重新组合，单词音素图发生改变，以及，不再需要此音素内容信息，所以生成了单词图46。

在最后的处理步骤中，最佳路径计算器47根据单词图选择最可能的单词序列，如识别出的单词48所示。

如上所述，HwLex将实际语言单词及其音标存储起来。这使得它可以识别语言的允许单词，并检索描述它们发音的音素序列。在一些非理想的情况下，单词发音较标准发音有所不同。例如，这样的情况是语音太快、语音不清楚等等。为了在这些情况下也能识别，HwLex可以含有单词的“降级的”发音。形式上，这些可以根据标准发音通过插入、删除或替代音素而导出来。这些有偏差的发音的生成可以基于仿真方法或更自然的方法。例如，仿真方法借助于某种语音距离衡量指标通过应用正确标准而从标准发音导出这些发音变体。例如，语音距离衡量指标可以是待比较的发音间的音素差别数。距离衡量指标标准可以依靠发音变体的音素长度。词干在一定程度上可以用于识别不清楚的语音，因为它不会由于表达不清楚而发生改变或者而仅发生很小的变化。在这些情况下，使用词干的发音或者统计地收集时常出现的发音是更加自然的构想。总之，这些发音变体的生成可以依靠它们所属的单词。此外，它们具有的惩罚因数可以表示根据具体发音变体而不是根据原始发音形式发出单词的概率。不管使用何种构建方法，将这些发音变体也视为允许的发音。

图2示出了创建允许单词词典(HwLex)的处理流程图。HwLex可以基于词库1，其包括巨大量单词的书面文本单元(例如，数据文件)以及实际语言的相应文法形式。在预处理步骤2中，可以将像标点、数字等一些非单词形式剔除掉，或将它们转换成单词形式(字形序列)。单词迭代器3依次对预处理过的词库中的每个单词进行以下处理：根据每个单词生成其‘标准’音标9及其词干7，它们和单词的字形序列形式8一起用作输入，以产生初始HwLex中的项。生成音标的语音转录器5可以统计地或确定性地依靠实际设置和语言。词干识别器4例如通过运用自动语言特定前缀和后缀滤波器而工作。由此产生初始的HwLex 10。随后，初始的HwLex由允许音标生成器11进行处理，允许音标生成器11可以进一步为初始HwLex的每一项分配允许的音标和惩罚因数。允许音标生成器可以使用先前存储的时常出现的发音变体列表或某种语音距离衡量指标或语言学考虑，例如在不清楚的语音中只发出单词的中间部分。最后，经过了修改的项进入到创建的HwLex 12中。

图3示出了训练声学资源的流程图。

声学资源表示用于识别的音素的声学特征。它包括实际语言的音素的声学模型。

声学资源基于输入的训练材料20。训练材料包括可以由录音和相应参考文本组成的材料项列表(例如，材料文件列表)。

材料迭代器21从头到尾重述整个训练材料，从而将其分解成多个材料项。对于每个材料项而言，它将语音和文本单元对(例如，文件)等返回。将文本22提供给音素序列生成器25。音素序列生成器通过从HwLex 12读取必要的音标，将进来的文本变换成基于单词形式的音素序列。将语音和文本单元的语音23提供给声学处理器26。声学处理器从此语音中提取必要的信息。所产生的声学表示24是压缩形式的信息，不能再将其转换回到准确的原始语音，因为某些信息已经丢失。声学资源训练器27针对音素序列和相应语音部分的声学表示，运用一些声学模型相关技术(例如三音素模型、音素状态捆绑或跨词模型)，从而生成新的声学资源29。声学处理器26和声学资源训练器27可选择地咨询实际声学资源28。声学资源训练器27重复更新先前训练过的声学资源28。但是在缺少合适的初始声学资源28的情况下，它就从头开始。

如上所述，音素LM是用音素作为基本单元的m元文法LM，其中，m是音素数的历史长度。通常，m大于n(n是一个单词中的音素的平均数)，所以，模型跳过单词。因此，还将单词间的间隔建模成具体的音素。

音素LM还具有关于未见过的单词的信息，由于已见过的单词部分。这意味着，它通过回退到一个单词部分而非通过恒定惩罚来对未见过的单词进行建模。例如，在LM训练词库中未出现单词“pro-fuse”，但出现了“pro-found”和“con-fuse”。运用音素LM，通过将已经在例如“pro-found”中见过的“pro”的概率和已经在例如“con-fuse”中见过的“fuse”的概率进行组合来估计“pro-fuse”的概率。把通过组合语言单元序列的各部分的概率来对其概率进行建模称为回退。通常，音素LM整合单词内和单词间的形态信息，因此，当运用音素LM进行假设选择时，音素LM倾向于形态正确的单词序列。

假设h表示单词历史长度，则它遵循m＝h*n。为了加入二连词或三连词信息，h可以取为2-3.5，因此m＞8。另外，m必须大于大单词词典里的最长单词，从而对于HwLex里的所有单词而言具有至少二连词历史。也可以将音素LM组织成更加紧凑的变元文法模型(varigram)，同样可以用于单词LM。

在图4中示出了生成音素LM的处理次序的流程图。

音素LM与基于由书面文本单元组成的词库1的HwLex类似，下面结合HwLex创建对其加以描述，为了避免非单词形式，对词库进行了预处理31。

语音转录器32将字形序列转换成音素序列，并输出词库的音素表示。语音转录器32使用音标资源33。把词库的音素表示输入到音素序列迭代器34中，音素序列迭代器34从头到尾重复每个音素序列，并将其传送给统计计算块35，其中执行音素序列统计计算、LM文法估计。最后，创建了音素LM 36。

图2示出了如何创建大单词词典的实施例，图3示出了建立声学资源的实施例，图4示出了提供音素LM的实施例。但应当理解的是，所描述的实施例仅仅举例说明了如何提供资源，还可以预想到提供大单词词典、声学资源和音素LM的其它方法。

下面结合图5-7进一步详细描述图1所示的巨大词汇量连续语音识别器。

在图5中更加详细地示出了在图1中用41表示的音素识别器。

声音块40首先经过声学处理50。声学处理50从此语音中提取主要信息，并输出向图形匹配块52输入的声学表示51。模式匹配块搜索语音的来临的声学表示51的最可能的音素序列。结果为音素图序列42。在音素图中，每个音素都具有一个分值，此分值表示曾在该时间位置发出此音素的概率。每个音素图对应一个时间间隔。这意味着所有具有相同时间间隔的路径(和它们的分值)是可比较的。

在图6中更加详细地示出了在图1中用43表示的单词音素图生成器43。

在第一步骤中，由音素序列假设生成器60生成新的音素序列假设，并将其插入到音素图中，从而生成扩展的音素图61。每个新的音素序列假设继承了原音素序列假设的累积分值。另外，每个新的音素序列假设都可以有附加分值，其称为惩罚因数并表示用新的音素序列假设取代原音素序列假设的概率。如果在新的和原来的音素序列假设中音素数不同，则可以运用适当的分值平滑技术来计算新的音素序列假设的音素分值。

一种创建新的音素序列假设的典型方法是，根据混淆矩阵中音素的识别误差插入音素。这么做是为了补偿音素识别器的声学误差。这是一种独立于HwLex的方法，实际上，只有最可能的识别误差必须在新的音素序列假设中示出，从而保持图的易处理性。这可以由修剪技术来实现。

另一种创建新的音素序列假设的方法是，运用来自HwLex的单词的允许音标。在本文中，允许音标充当新音素序列假设的角色。它们不是从HwLex直接插入到音素图中，但是，在单词假设解析器62中对其进行检测，并且，如果合适的话，将它们插入到初始的单词音素图63中。在这种情况下，新的音素序列假设的惩罚因数来自HwLex。音素序列假设创建方法可以是或可以包括以下方法，如混淆矩阵、允许词干、收集的发音列表、基于音素距离等等。

在随后的处理步骤中，单词假设解析器62对扩展的音素图进行处理。它运用HwLex 12，通过查阅单词的允许发音，对扩展的音素图中的有效音素序列假设进行滤波。在此处理过程中，创建了初始的单词音素图63。例如，这可以通过运用时间同步的单词插入来实现。对于每个时间点，将发现的所有允许单词插入到初始的单词音素图中，该单词音素图准确地在该时间点结束。可以把具有相同开始和结束时间的相同单词的仅仅一个副本插入到图中。所有插入的单词还包括其音素内容。这样，还有一些死路径出现在初始的单词音素图中，它们既不向前连接到图的结束点，也不向后连接到图的开始点。在另一设置中，把单词假设解析器直接整合到音素序列假设生成处理中，从而在有效音素序列假设滤波期间仅处理那些密切相关的因此也是较少的音素序列假设。

在路径后处理64中删除死路径，并可选地剪掉单词假设。所生成的单词音素图44还提供了对单词音素序列内容的访问，其在下一步中需要。请注意，单词继承了组成音素的累积分值和惩罚因数。

在图7中更加详细地示出了在图1中用45表示的单词图生成器。

把单词音素图插入到初始单词图生成器71中，单词图生成器71运用音素LM 36，对单词音素图的单词的每个音素进行评分。这里，实际语言单元是当前单词的第一个音素，历史组成先前语言单元是剩余的m-1个音素。让m大于词典里的最长单词，确定的m-1长的音素序列总是覆盖实际单词。总的音素分值可以由声学分值和音素LM分值的组合产生。单词继承了它们的音素的累积分值。评分之后，将单词进行重新组合。由于重新组合，会产生新的单词图，其中，不再需要音素序列信息。此外，可能会出现死路径，路径后处理73用于删除死路径，并且还可选地进行剪除。在后处理73之后，输出最终的单词图46。

本发明可以用任何适当形式来实现，包括硬件、软件、固件或其组合。本发明或本发明的一些特征可以实现成在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以用任何适当的方法物理性地、功能性地和逻辑性地来实现。实际上，功能可以在单个单元、多个单元中实现，或者，实现成其它功能单元的一部分。同样，本发明可以在单个单元中实现，或者，可以在不同单元和处理器之间物理性地和功能性地分布。

虽然上面围绕着特定实施例描述了本发明，但本发明并不限于这里列明的特定形式。而且，本发明仅由所附的权利要求书加以界定。

为了清楚和透彻地理解本发明，上面给出的公开实施例的特定具体细节是说明性的，而非限制性的。但本领域普通技术人员应当理解，在不明显偏离本发明的精神和保护范围的情况下，本发明可以用其它实施例来实现，而不严格限于本文列出的细节。此外，在本文中，为了简明和清楚起见，略去了众所周知的装置、电路和方法的详细描述，以避免主次不分、重点不明。

权利要求书中包含附图标记，但包含附图标记仅仅是出于清楚起见，而不应将其解释为对权利要求的保护范围构成限制。

Claims

1.一种语音识别系统，其根据声音块（40）识别单词，所述语音识别系统包括：

单词识别器（49），其通过单词图（46）导出最佳路径（47），其中，给每个单词都分配了一个单词分值和一个音标，单词是基于所述最佳路径分配给所述声音块的，

其中，所述单词图中的每个单词的单词分值包括通过将音素语言模型（36）应用于所述单词图的每个单词而获得的单词分值，其中，所述音素语言模型（36）是m元文法语言模型或紧凑的变元文法模型（variagram）。

2.根据权利要求1所述的语音识别系统，所述语音识别系统基于包括多于200,000个单词的允许单词词典（12）。

3.根据权利要求1所述的语音识别系统，还包括：

音素识别器（41），其从所述声音块（40）中提取音素图（42，61），所述音素图用于给每个边界分配一个音素，

其中，所述单词图中的单词的音标基于所述音素图。

4.根据权利要求3所述的语音识别系统，其中，给每个音素分配一个声学音素分值。

5.根据权利要求3所述的语音识别系统，还包括：

单词音素图生成器（43），其用于把所述音素图（42，61）转换成单词音素图（44），所述单词音素图用于给每个边界分配一个单词和相关的音标。

6.根据权利要求5所述的语音识别系统，其中，确定音素序列假设（60），并将其添加到所述音素图中，从而提供扩展音素图（42，61），其中，所述单词音素图（44）基于所述扩展音素图。

7.根据权利要求6所述的语音识别系统，其中，通过应用允许单词词典（12），对所述扩展音素图（42，61）进行滤波，从而把含有在所述词典中不存在的单词的扩展音素图的音素序列剔除掉。

8.根据权利要求5所述的语音识别系统，其中，提供时间同步的单词音素图（46），其中，从所述单词音素图（44）中剔除在时间上前后均无接连的单词。

9.根据权利要求5所述的语音识别系统，还包括：

单词图生成器（45），其将所述单词音素图（44）转换成单词图（46），所述单词图用于给每个边界分配一个单词。

10.一种根据声音块识别单词的方法，其中，通过单词图导出最佳路径，其中给每个单词都分配了一个单词分值，并且，基于所述最佳路径把单词分配给所述声音块，所述单词图中的每个单词的分值包括通过将音素语言模型应用于所述单词图的每个单词而获得的单词分值，其中，所述音素语言模型是m元文法语言模型或紧凑的变元文法模型。

11.一种根据声音块识别单词的装置，所述装置包括：

-语音传感器，其根据声音块（40）捕获语音，

-语音识别系统，

-输出模块，其把识别出的单词输出，

其中，所述语音识别系统包括：

-单词识别器（49），其通过单词图（46）导出最佳路径（47），其中，给每个单词都分配了一个单词分值，并且，基于所述最佳路径把单词分配给所述声音块（40），以及

其中，所述单词图中的每个单词的单词分值包括通过将音素语言模型（36）应用于所述单词图的每个单词而获得的单词分值，其中，所述音素语言模型（36）是m元文法语言模型或紧凑的变元文法模型。

12.一种根据声音块识别单词的装置，包括：

用于通过单词图导出最佳路径的模块；

用于给每个单词都分配了一个单词分值的模块；

用于基于所述最佳路径把单词分配给所述声音块的模块，所述单词图中的每个单词的分值包括通过将音素语言模型应用于所述单词图的每个单词而获得的单词分值，其中，所述音素语言模型是m元文法语言模型或紧凑的变元文法模型。