CN1156821C - 具有互补语言模型的识别引擎 - Google Patents

具有互补语言模型的识别引擎 Download PDF

Info

Publication number
CN1156821C
CN1156821C CNB008079404A CN00807940A CN1156821C CN 1156821 C CN1156821 C CN 1156821C CN B008079404 A CNB008079404 A CN B008079404A CN 00807940 A CN00807940 A CN 00807940A CN 1156821 C CN1156821 C CN 1156821C
Authority
CN
China
Prior art keywords
model
cognition
word
vocabulary
recognizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB008079404A
Other languages
English (en)
Other versions
CN1351744A (zh
Inventor
E
E·特伦
S·贝斯林
ϣ
M·乌尔里希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1351744A publication Critical patent/CN1351744A/zh
Application granted granted Critical
Publication of CN1156821C publication Critical patent/CN1156821C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Abstract

一种用于识别口语单词序列的巨大词汇量语音识别系统(300),它包括输入装置,用于接收表示口语单词序列的时序的输入模式(320)。该系统进一步包括多个大词汇量的语音识别器(331、332、333),每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器(350),该控制器用于将输入模式导入多个语音识别器中,并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。

Description

具有互补语言模型的识别引擎
技术领域
本发明涉及一种识别口语单词序列的巨大词汇量识别系统,该系统包括:用于接收表示口语单词序列的时序输入模式的输入装置;利用与语音识别器关联的大词汇量识别模型按照词汇表中的单词序列识别输入模式的大词汇量语音识别器。
背景技术
US5819220公开了一种用于识别因特网环境中的语音的系统。该系统具体以利用语音访问万维网(WWW)上的信息资源为目标。从传统语音识别领域中遇到的问题来看,将语音识别系统建立成Web的接口面临着非常困难的问题。由于用户实际上能虚拟地访问任何主题的任何文件,因此主要问题是系统需要支持巨大的词汇量。如果不能支持巨大词汇量,就很难建立适合巨大词汇量的诸如语言模型等适当识别模型。在已知系统中利用了包括统计学上为N个单词符列的语言模型和声模型的预定识别模型。利用Web-触发的单词组可动态地改变识别模型。HTML(超文本链接标示语言)文件包括诸如超文本链接的链接,它用于识别将包括到可能促进单词识别搜索的最终词组中的词组。以这种方式通过结合万维网-触发的词组使用于计算语音识别计分的词组产生移置。
已知的系统需要适当的巨大词汇量模型作为能在适配后获得增阶模型的起动模型。实际上,可将增阶模型看成是对当前识别语境(context)最佳的传统大词汇量模型。正如前面所指出的,很难建立合适的巨大词汇量模型,如果其仅用作起动模型也是如此。对诸如识别特定万维网网点或HTML文件的输入而言,某种识别任务又产生了另一个问题,其类似于在搜索引擎或诸如书店等大型电子商店中出现的问题。在该情况下所能说出的单词的数量巨大。传统大词汇量模型通常不能有效覆盖可能单词的整个范围。利用较少的单词移置起动模型不会产生良好的识别模型。假设起动模型已经相当好,但是适当的移置会需要巨大数量的附加词组和相当大数量的处理。
发明内容
本发明的一个目的是提供一种能更好地处理巨大词汇量的识别系统。
为实现该目的,系统的特征在于:该系统包括数量为N的多个大词汇量语音识别器,每个识别器都与相应的、不同的大词汇量识别模型关联;每个识别模型都以巨大词汇量的特定部分为目标;而且该系统包括控制器,所述控制器能将输入模式导入多个语音识别器,并从被多个语音识别器识别的单词序列中选择被识别的单词序列。
通过利用若干个识别器,其中每个识别器具有以巨大词汇量的一部分为目标的特定识别模型,可将为巨大词汇量建立识别模型的任务分解成为特定语境建立大词汇量模型的易管理任务。这些语境可包括健康、娱乐、计算机、艺术、商务、教育、行政管理、科学、新闻、旅游等。可以理解的是通常这些语境中的每个会在词汇上重叠,例如在语言的常用单词上。在这些通用单词的统计上或在这些语境所特有的行话上这些语境会有差别。通过利用若干个这种模型识别输入,利用适当受过训练的模型可识别较宽范围的话语。利用若干模型的另一个优点是能允许识别过程中进行更好的鉴别。如果使用一个巨大的词汇表,则仅能识别某一话语的一种特定含义(和拼写)。举例来说,如果用户发出一个声音类似“color”的单词,大部分被识别的单词序列将包括非常常用的单词“color”。不太可能识别出单词“collar”(时装语境),或醋渍鳕鱼卷中的“collar”(食物语境),或锁骨(健康语境)。这些特定词汇在巨大词汇表中不会有太多被识别的机会,其中不可避免地由频繁出现的常用单词的单词序列占据优势。通过利用若干模型,每个模型将从中识别一个或多个候选单词序列,然后据此能进行选择。即使在最终的选择中选择了单词序列“color”,也可以将可选择的单词序列“collar”呈现给用户。
优选地,在用户不经历识别过程中明显延迟的意义上,识别器要并行操作。这可通过利用分离的识别引擎且每个引擎具有自己的处理资源来实现。可选择的是,这可通过利用功率足够大的串行处理器、且串行处理器利用传统时间分段技术并行地执行识别任务来实现。
应当注意的是,利用并行语音识别引擎是公知的。US5754978描述了并行利用识别引擎的内容。所有引擎具有较高精度,例如95%。如果引擎的5%的不准确度不重叠,就能提高识别精度。为确保不准确度不会完全重叠,引擎是不同的。可以选择的是,引擎可以类似,在该情况下,一个引擎的输入信号会受到轻微干扰或一个引擎受到轻微干扰。比较器根据引擎输出之间的一致度比较被识别的文本并接受或拒绝该文本。由于该系统需要精确的识别引擎,其不存在巨大词汇表,因此该系统不能提供解决巨大词汇量识别的方案。系统也不使用以巨大词汇表的特定部分为目标的不同模型。
WO98/10413描述了一种对话系统,该系统具有任选数量的且能并行操作的语音识别模块。该模块以语音识别的特定类型为目标,这些特定类型是例如孤立的数单词识别、连续数识别、少量词汇的单词识别、孤立的大词汇量识别、连续词汇识别、关键词识别、单词序列识别、字母识别等。对话系统预先知道用户将提供哪种类型的输入,于是起动一个或多个特定模块。例如,如果用户需要说一个数,对话引擎就起动孤立的数字识别和连续数识别,允许用户说出作为数单词或作为连续数的数码。该系统没有提供处理巨大词汇量的方案。
可以预先确定根据本发明的系统识别模型。优选地,根据本发明的一个实施例,利用模型选择器动态地选择至少一个可有效用于识别的模型。该选择取决于用户输入的语境,其类似于询问或命令主题。优选地,模型选择器选择许多识别模型。实际上,至少一个模型会代表普通主题的常用日常词汇。一般该模型经常会用到。
在根据本发明的另一个实施例中,文件定义识别语境。正如从属权利要求5所述的,这可以通过扫描文件中出现的单词并确定最适合识别这些单词的识别模型(例如,与文件共同的单词或单词系列最多的那些模型)来完成。
在根据本发明的另一个实施例中,在网页中显示语境(或多个语境),例如利用嵌入标记来识别语境。例如,网页还可以通过链接来显示语境(或语境识别符)。
在依照本发明的另一个实施例中,系统有效地试图识别适合当前识别任务的那些识别模型。除当时有效用于识别的识别模型外,还要检验其它模型的适用性。通过利用一个或多个附加识别器可将该检验作为后台任务执行,其检查未用模型能否比有效使用的一个模型给出更好的结果。可以选择的是,例如当用户不说话时,现行识别器可用于检验识别器的大量性能被留置时的检验模型。该检验可包括用户的所有输入。特别是如果用户已经给出了大量语音输入,检验优选地限于最近的输入。通过这种方式,无论用户多快地改变主题,也能选择到适当模型。确定哪一个模型最适合、即提供最高识别精度的模型的标准最好基于类似记分或置信量度的识别性能指标进行。
在根据本发明的另一个实施例中,识别模型分层设置。这会简化选择合适模型。优选地,识别从若干个相对普通的模型开始。如果某个普通模型证明能给出良好的识别结果,则检验较特别模型以进一步提高识别。若干较普通模型可共用一些较特别模型。如果某一时刻特别模型的识别结果变差,就可尝试等级位于特定模型之上的若干较普通模型。这就能实现从一个语境到一个语境的平稳变换。举例来说,用户从提供有关普通健康语境的输入开始。在某一时刻可以检测到,开始用户集中在较特定的医疗中心或机构的语境上,甚至涉及到最特定的健康农庄语境。具体地,如果健康农庄处于有吸引力的区域,这将鼓励用户移至较普通的度假或旅游语境,或者更准确地说是健康农庄区域的旅游。
再根据本发明的另一个实施例中,可通过分离的识别服务器进行识别。在因特网语境中,这种服务器可以是网络上的分散站,或该服务器与诸如搜索引擎或类似于电子书店等服务提供者的现有网站结合。具体地,为许多用户操作的识别服务器需要能够支持适合于大部分用户的词汇表。若干特定大词汇量模型的使用使该系统能更好地、高识别精度地执行该任务。
附图说明
参照附图中示出的实施例的说明将使本发明的这些和其它方面更清楚。
图1表示大/巨大词汇量识别器的结构;
图2表示完整的单词模型;
图3表示根据本发明的系统的方框图;
图4表示识别模型的层级;以及
图5表示根据本发明分布的系统的方框图。
具体实施方式
诸如大词汇量连续语音识别系统的语音识别系统通常使用识别模型集合来识别输入模式。例如,可利用声模型和词汇表识别单词,并利用语言模型改进基本识别结果。图1表示大词汇量连续语音识别系统100的典型结构〔参见L.Rabiner,B-H.Juang,“Fundamental ofspeech recognition”,Prentice Hall 1993,434到454页〕。系统100包括频谱分析子系统110和单元匹配子系统120。在频谱分析子系统110中对语音输入信号(SIS)进行频谱和/或时间(temporally)分析,以便计算特征的表示向量(观测向量,OV)。通常,对语音信号进行数字化处理(例如以6.67kHz的速度采样),并例如通过实施预强调对其进行预处理。例如将连续样值集合(批处理)成与32毫秒的语音信号相对应的帧。例如,帧相继局部重叠16微秒。通常利用线性预测编码(LPC)的频谱分析方法为每个帧计算特征表示向量(观测向量)。例如,特征向量可具有24、32或63个分量。大词汇量连续语音识别的标准方法是假定语音生成的概率模型,借此确定的单词序列W=w1w2w3...wq产生声观测向量序列Y=y1y2y3...yT。通过确定单词序列w1w2w3...wq可从统计学上减小识别误差,所述单词序列最可能形成观测向量的观测序列Y=y1y2y3...yT(随时间t=1,...,T),其中观测向量是频谱分析子程序110的输出。这导致确定了最大后验概率:
maxP(W|Y),对于所有可能的单词序列W。
通过对条件概率施用Baye定理,P(W|Y)将由下式给出:
P(W|Y)=P(W|Y).P(W)/P(Y)
由于P(Y)与W无关,因此最可能的单词序列给出如下:
arg max P(Y|W).P(W)适合对所有可能的单词序列W
在单元匹配子系统120中,声模型构成了等式(1)的第一项。声模型可用于为给定单词串W估算观测向量序列Y的概率P(Y|W)。对于大词汇量系统,这通常通过将观测向量与语音识别单元的目录进行匹配来执行。语音识别单元由声参考序列表示。可以使用各种形式的语音识别单元。举例来说,可用一个语音识别单元表示整个单词或甚至一组单词。单词模型(WM)为给定词汇表的每个单词提供声参考序列的录音。对于整个单词用语音识别单元表示的系统,在单词模型与语音识别单元之间存在直接关系。其它系统,特别是大词汇量的系统,可用于层级基于诸如音素、双音素或音节等的子单词单元以及诸如fenenes和fenones的派生单元的语言识别单元。对于这种系统,单词模型由字典134和子单词模型132给定,所述字典134描述了与词汇表中的单词相关的子单词序列,子单词模型132描述了涉及语音识别单元的声参考序列。单词模型合成器136根据子单词模型132和字典134合成单词模型。图2表示基于子单词单元得到系统单词模型220,其中通过三个每个具有四个声参考序列(251,252,253,254;261到264;271到274)的子单词模型序列(250,260,270)为所示单词建立模型。图2所示的单词模型是基于Hidden MarkovModel(HMM),该模型广泛用于随机建立模型语音信号。利用这种模型,每个识别单元(单词模型或子单词模型)通常以HMM为特征,其参数由训练数据组估算出来。对于大词汇量的语音识别系统,由于需要大量训练数据为较大单元充分训练HMM,因此通常使用有限的子单词单元组,其数量例如为40。HMM状态与声参考对应。已知有多种为参考建立模型的技术,它们包括不连续的或连续的概率密度。与一个特定话语相关的每个声参考序列也称为发音的声录音。可以理解的是,如果使用除HMM外的其它识别技术,声录音的细节将会不同。
图1的单词级别匹配系统130将观测向量与所有语音识别单元的序列进行匹配,并提供向量与序列之间的匹配可能性。如果使用子单词单元,则可通过利用字典134对匹配进行约束,以便使可能的子单词单元序列限于字典134中的序列。这减少了可能的单词序列输出。
对于完全识别,优选的是也利用句子级别匹配系统140,该匹配系统基于语言模型(LM)进一步对匹配进行限制,以便使被研究的路径是与作为正确序列的单词序列相对应的那些路径,其中所述正确序列是由语言模型确定的。因而这些语言模型构成了等式(1)的第二项P(W)。将声模型与语言模型的结果相结合产生了单元匹配子系统120的输出,该输出就是被识别的句子(RS)152。模式识别中使用的语言模型可包括语言和识别任务的句法和/或语义约束142。基于句法约束的语言模型通常是指语法144。语言模型使用的语法144提供了单词序列W=w1w2w3...wq的概率,原则上其由下式给出:
P(W)=P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...wq)
由于实际上不能为给定语言中的所有单词和所有序列长度可靠地估算条件单词概率,因此广泛使用N个字母组的单词模型。在N个字母组模型中,项P(wj|w1w2w3...wj-1)与P(wj|wj+N+1...wj-1)接近。实际上使用双字母组或三字母组。在三字母组中,项P(wj|w1w2w3...wj-1)与P(wj|wj-2wj-1)接近。
图3表示根据本发明的语音识别系统300的方框图。为将被识别的语音转换成文本或类似表达的应用而具体描述了系统工作的例子。这些原文表达可用于口授目的,其中将文本表达输入(enter)到例如单词处理器或用于确定数据库中的字段等的文本字段中。对于口授,当前大词汇量识别器可支持高达60000个单词的有效词汇表和字典。很难获得足够的相关数据建立精度足够高地识别更大量单词的模型。通常,用户可将有限数量的单词增添到有效词汇表/字典中。这些单词可从300000到500000个单词的后台词汇表(其还包括单词的声录音)中检索到。为了口授或类似目的,例如巨大词汇表可由至少100000个有效单词或甚至超过300000个有效单词组成。可以理解的是,具体对于通过单击链接产生完全不同语境的因特网环境来说,优选的是能有效地识别许多后台词汇表的单词。对于其它诸如识别名称的识别任务,通常将其模型建立成具有附属于它的某种优先命名概率形式的平面目录,但对于它不具备高质量的语言模型,因此总是将超过50000个单词的词汇表归入巨大词汇表。
可以理解的是,识别结果不需要用于口授目的。其同样可用作诸如对话系统等其它系统的输入,其中根据被识别的语音从数据库中检索信息,或象订一本书或预定旅行那样进行操作。
在图3中示出了独立系统300,其优选利用诸如PC的计算机实施。标记310表示用于从用户处接收语音表示信号的互连装置。例如,话筒可与互连装置310连接。可以理解的是,例如,也可以通过电话或网络从远处预先录下或检索语音表示信号。系统300包括接口320,用以接收来自用户的输入。例如,这也可以利用传统的声卡实现。如果接口具有用于接收模拟形式语音的输入端,则接口优选包括用于将模拟语音转化成适合于语音识别系统330进一步处理的格式的数字样本。如果接口具有用于接收数字形式语音的输入端,优选地,转换器能够将数字数据转化成可进一步处理的合适的数字格式。例如,正象针对图1的频谱分析子系统110所描述的,语音识别系统330通常分析输入信号。根据本发明,语音识别系统330包括多个大词汇量的语音识别器,每个识别器都与对应的、不同的大词汇量识别模型关联。正如图3的标记335所示,对于图1所述的典型识别,各识别器可共用图1中不受模型约束的频谱分析子系统110。图3表示利用三个分离的识别器331、332和333。识别器可使用相同算法,其中差别在于所用的诸如词汇表和语言模型的模型。语言识别最好与说话者无关,并能允许连续语音输入。实质上,语音识别是公知的,而在许多文件中已经公开了该内容,这些文件包括例如与US序列号08/425304(PDH91136)对应的EP92202782.6,与US序列号08/751377(PDH91138)对应的EP92202783.4,与US5634083(PDH93034)对应的EP94200475.5,所有这些申请都转让给本申请的受让人。从识别器几乎在同一时刻独立识别同一语音输入的意义上看,识别器“并行”操作。这可利用每个识别器的单独资源来实现,这些资源例如是“并行”操作处理器中的单独处理器或处理单元,其中并行操作处理器例如是VLIW处理器。利用具有足够高性能的传统顺序处理器也可能获得类似的“并行”性能,其中每个识别器执行独立任务。优选地,在系统已经接收到单词后的单词识别过程中不会出现明显延迟的意义上,识别是实时的。
根据本发明,每个大词汇量的语音识别器与各自的、不同的大词汇量识别模型关联,其中每个识别模型以巨大词汇表的特定部分为目标。优选地从存储器340装载模型。在此为了说明,识别模型意指用于一个识别任务的相关模型组。例如,参照图1,巨大词汇表一个特定部分的识别模型由单词模型(字典134和子单词模型132)和语言模型(语法144和语义约束142)构成。当然,在各识别模型之间通常会存在重叠。这些重叠通常发生在部分词汇上。语言模型也可能局部甚至完全相同。在简单系统中,识别模型的数量对应于识别器的数量;每个识别器与专有的识别模型关联成固定的一对一关系。优选地,正如在下面将详细描述的那样,系统包括的模型比有效识别器多。图中示出了8个模型341到348。
识别器的输入被导入到控制器350中,以便作出对被识别单词序列的最终选择。各识别器331到333可仅产生一个被识别的单词序列。可以选择的是,也可以产生多个序列(例如可用词序表示)。优选地,各识别器的结果可包括诸如可能性或置信量度的信息,以使控制器350选择最可能的单词序列。控制器350也担负着将语音输入导入识别器的任务。如果有效识别器的数量不变,该导入就是固定的,在该情况下控制器350没有导入的特定任务。
在优选实施例中,系统包括的识别模型(M)比有效识别器(N)多。模型选择器360用于根据识别语境为至少一个语音识别器从M个模型中选择关联的识别模型。模型选择器360可为每个有效识别器选择模型。然而,优选的是覆盖常用词汇的基础识别模型总是有效。在该情况下,至少一个模型不需由模型选择器360来选择,它被固定地指配给某个识别器。
在另一实施例中,根据与语音输入相关的文件确定的语境选择至少一个识别模型。例如,如果用户口授有关健康主题的文件,则一个识别器可装载对识别有关健康的语音最佳的特定识别模型。例如,用户可通过从与系统模型相对应的可能语境目录中进行选择来明确确定文件的语境。在该情况下,例如,系统300可利用窗口中的选择箱以传统方式将这样一种目录呈现给用户。例如,系统也可以通过扫描已在文件中出现的文本或至此为止的口语并检查哪一个模型最适合识别该文本(例如,哪一个模型与此范围的文本具有最多的相同单词或单词序列)自动地确定语境。另外,语境识别符也可以与文件关联起来,系统300获得该识别符以确定最适合的模型。对于涉及诸如HTML网页的网页的语音,优选的是,在文件中确定文件的语境,或使文件语境与文件相关联。这能以标签的形式来完成,并由与语音相关的初始网页的创建者将其密封起来。例如标签能以类似运动、健康、娱乐等的文本主题形式明确确定语境。该确定也可以是非直接的,例如它可以是诸如语境编号的识别符的形式,或者甚至是确定语境位置的链接(例如超文本链接)。在后一种情况下,系统300能从隐含的语境确定中导出实际语境(例如通过将语境编号映射给一个识别模型,或通过访问超文本链接而获得语境信息)。
在一个优选实施例中,模型选择器360通过检查哪一个可用识别模型最适合当时的识别,从而能积极设法改进识别。为此模型选择器360至少控制一个检验识别器,该识别器示为识别器334。检验识别器334与一个还没有被有效识别器331到333利用的识别模型耦合。也将部分(或者甚至全部)接收到的语音馈入到检验识别器中。将检验识别的输出与控制器350的选择输出或各有效识别器331到333的输出作比较。如果检验识别器334的识别结果优于有效识别器331到333中一个的识别结果,则装入该检验识别模型(即,检验识别器334使用时的模型),使其供一个有效识别器使用。优选地,换掉给出最差识别结果的识别模型(可能除基础识别模型以外,该模型总是被使用着)。
优选的是,按照从具有较普通语境的模型到具有更特定语境的模型的顺序对识别模型进行分层设置。图4表示这样一个层级体系,其具有四个最普通的模型410、420、430和440,例如它们分别覆盖了普通主题:娱乐、健康、旅游和计算机。通过分析主题内所有发表的表示文本而建立普通模型。实际上,如何由表示文本建立模型是公知的。健康普通模型可与诸如涉及医药、外科、食物/膳食、医院/医疗中心的这些较低层级(即更特殊的模型)关联。通过利用涉及那些更特定主题的文本创建这些模型中的每一个。在该图中,模型422可涉及医院/医疗中心。在这些语境中可进行进一步细分,其中,例如,模型424可覆盖健康农庄。通过分析涉及健康农庄的文本,将自动创建一个识别模型,由于健康农庄的文件通常描述了周围区域,因此该识别模型还适于识别涉及某个旅行主题的语音。这使同一模型适于作为层级在旅游模型类目中的模型432下面的模型。如果利用某一模型的识别获得了良好的识别结果,则模型选择器360利用更特定的模型进行识别。该更特定的模型(即等级较低的模型)可用作较普通模型的代替模型。也可以除使用较普通模型外还使用该更特定模型。优选的是,与层级系统中和较普通模型等级相同的其它在层级上无关连的模型相比,仅利用较特定模型取代较普通模型来增加识别会更好。例如,如果运动和健康模型在层级上无关联(例如两个都在最高级),利用运动模型可得到较好的识别结果,然后利用更特定的运动模型。这其中不需要使用较特定的健康模型。实际上,如果健康模型的识别结果非常低,则终止利用该模型的识别,这有利于利用较特定的运动模型增加识别。如果存在若干较特定的运动模型,例如足球、篮球、田径运动、汽车赛等,则检验所有这些模型。也可以简单地基于特定模型的词汇与已被识别语音的一致性进行选择。如果在某一时刻利用特定模型的识别给出较低的结果,则优选地利用至少一个层级高于该特定模型的模型继续进行识别。
在优选实施例中,如图5所示,识别系统是分布式的。分布式系统包括服务器站540和至少一个用户站。所示为三个用户站510、520和530,其中仅为用户站520示出了进一步的细节。可利用传统计算机技术实现该站。例如,用户站520可由台式个人计算机或工作站构成,而服务器站540可由PC服务器或工作站服务器构成。计算机可在计算机处理器中装载的适当程序的控制下运行。服务器站540和用户站510、520和530通过网络550连接。例如,网络550可以是office环境下的局域网、或宽域网、优选为因特网的任何合适网络。为了通过网络550进行通信,这些站分别包括通信装置522和542。可以使用任何适于结合网络550一起使用的通信装置。通常,通过结合硬件和软件构成通信装置,所述硬件是例如通信接口或调制解调器,软件是支持诸如因特网TCP/IP协议的特定通信协议的软件驱动器的形式。用户站520包括例如通过接口528从用户处接收语音的装置。用户站520进一步包括对语音信号进行预处理以便使其适合于向服务器站540传送的装置。例如,用户站可包括与图1的频谱分析子系统110类似的频谱分析子系统526。服务器站540执行如针对图3的系统300描述的所有其它任务。例如,服务器站540包括具有多个识别器的识别系统543(与图3的识别系统335类似)、控制器544(与图3的控制器350类似)、模型选择器545(与图3的选择器360类似)、和存储模型的存储器546(与图3的存储器340类似)。

Claims (8)

1.一种识别语音单词序列的巨大词汇量语音识别系统,该系统包括:
输入装置,用于接收表示语音单词序列的时序输入模式;以及
大词汇量语音识别器,用于利用与语音识别器相关联的大词汇表识别模型从词汇表识别单词序列的输入模型;
其特征在于
该系统包括数量为N的多个大词汇量语音识别器,每个识别器与各自的不同大词汇量识别模型相关联;每个识别模型以巨大词汇表的一个特定部分为目标;以及
该系统包括控制器,控制器用于将输入模式导入多个语音识别器中,并从多个语音识别器识别的单词序列中选择被识别的单词序列。
2.根据权利要求1所述的系统,其中所述系统包括M个大词汇量识别模型,M>N,而且所述系统包括模型选择器,该模型选择器用于根据识别语境为至少一个语音识别器从M个模型中选择相关联的识别模型。
3.根据权利要求2所述的系统,其中与语音输入相关的文件确定至少一个识别语境。
4.根据权利要求3所述的系统,其中文件为万维网WWW页,在文件中确定文件的语境,或使文件语境与文件相关联。
5.根据权利要求3所述的系统,其中模型选择器用于根据文件中的单词或与文件相关的单词选择识别模型。
6.根据权利要求2所述的系统,其中模型选择器用于:
从还没有被一个识别器使用的N-M个识别模型中选择检验识别模型;
控制检验识别器利用检验识别模型识别至少部分输入模式;以及
如果检验识别器的识别结果优于一个识别器的识别结果,则利用检验识别模型进行识别。
7.根据权利要求1所述的系统,其中将识别模型按从具有普通语境的模型到具有特定语境的模型的顺序进行分层排列,其中,如果与关联于另一个识别模型的至少一个识别器的识别结果相比,利用层级中高级别的与层级有关联的普通模型的识别获得了较好的识别结果,则模型选择器可利用特定的模型进行识别。
8.根据权利要求1所述的系统,其中系统包括通过网络相连的用户站和服务器站;用户站可用于从用户处接收输入模式,并将表示输入模式的信号传输到服务器站中;服务器站包括识别器和控制器。
CNB008079404A 1999-03-26 2000-03-07 具有互补语言模型的识别引擎 Expired - Lifetime CN1156821C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99200949.8 1999-03-26
EP99200949 1999-03-26

Publications (2)

Publication Number Publication Date
CN1351744A CN1351744A (zh) 2002-05-29
CN1156821C true CN1156821C (zh) 2004-07-07

Family

ID=8240033

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB008079404A Expired - Lifetime CN1156821C (zh) 1999-03-26 2000-03-07 具有互补语言模型的识别引擎

Country Status (9)

Country Link
US (1) US6526380B1 (zh)
EP (1) EP1171871B1 (zh)
JP (1) JP4485694B2 (zh)
KR (1) KR20010108413A (zh)
CN (1) CN1156821C (zh)
AT (1) ATE250270T1 (zh)
AU (1) AU3164800A (zh)
DE (1) DE60005326T2 (zh)
WO (1) WO2000058945A1 (zh)

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
EP1058236B1 (en) * 1999-05-31 2007-03-07 Nippon Telegraph and Telephone Corporation Speech recognition based database query system
JP2003515778A (ja) * 1999-12-02 2003-05-07 トムソン ライセンシング ソシエテ アノニム 別々の言語モデルによる音声認識方法及び装置
GB0004097D0 (en) * 2000-02-22 2000-04-12 Ibm Management of speech technology modules in an interactive voice response system
DE60016722T2 (de) * 2000-06-07 2005-12-15 Sony International (Europe) Gmbh Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
DE10043531A1 (de) * 2000-09-05 2002-03-14 Philips Corp Intellectual Pty Sprachdialogsystem
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
JP2002116796A (ja) * 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020087313A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented intelligent speech model partitioning method and system
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US20020169597A1 (en) * 2001-03-12 2002-11-14 Fain Systems, Inc. Method and apparatus providing computer understanding and instructions from natural language
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US6985859B2 (en) * 2001-03-28 2006-01-10 Matsushita Electric Industrial Co., Ltd. Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US6901364B2 (en) 2001-09-13 2005-05-31 Matsushita Electric Industrial Co., Ltd. Focused language models for improved speech input of structured documents
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
US6996519B2 (en) * 2001-09-28 2006-02-07 Sri International Method and apparatus for performing relational speech recognition
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US6950795B1 (en) * 2001-10-11 2005-09-27 Palm, Inc. Method and system for a recognition system having a verification recognition system
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
GB2391679B (en) 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1505573B1 (en) 2002-05-10 2008-09-03 Asahi Kasei Kabushiki Kaisha Speech recognition device
US6618702B1 (en) * 2002-06-14 2003-09-09 Mary Antoinette Kohler Method of and device for phone-based speaker recognition
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
AU2002336458A1 (en) * 2002-09-06 2004-03-29 Jordan R. Cohen Methods, systems, and programming for performing speech recognition
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
FR2850783A1 (fr) * 2003-01-30 2004-08-06 France Telecom Dispositif pour indexer un signal audio continu de duree indeterminee
WO2004079720A1 (en) * 2003-03-01 2004-09-16 Robert E Coifman Method and apparatus for improving the transcription accuracy of speech recognition software
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US7437294B1 (en) 2003-11-21 2008-10-14 Sprint Spectrum L.P. Methods for selecting acoustic model for use in a voice command platform
JP5255769B2 (ja) * 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US8260617B2 (en) * 2005-04-18 2012-09-04 Nuance Communications, Inc. Automating input when testing voice-enabled applications
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US7899669B2 (en) * 2005-12-12 2011-03-01 Gregory John Gadbois Multi-voice speech recognition
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US20070299665A1 (en) 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
DE102006029755A1 (de) 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US20080201158A1 (en) 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US8412522B2 (en) 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
WO2009082684A1 (en) 2007-12-21 2009-07-02 Sandcherry, Inc. Distributed dictation/transcription system
TW200933391A (en) * 2008-01-24 2009-08-01 Delta Electronics Inc Network information search method applying speech recognition and sysrem thereof
US8175882B2 (en) * 2008-01-25 2012-05-08 International Business Machines Corporation Method and system for accent correction
GB2457897A (en) * 2008-02-27 2009-09-02 N S C Natural Speech Comm Ltd Audio File Management, Search and Indexing Method and System
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8805686B2 (en) * 2008-10-31 2014-08-12 Soundbound, Inc. Melodis crystal decoder method and device for searching an utterance by accessing a dictionary divided among multiple parallel processors
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8630726B2 (en) * 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8417526B2 (en) * 2009-03-13 2013-04-09 Adacel, Inc. Speech recognition learning system and method
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
EP2522012A1 (en) * 2010-05-27 2012-11-14 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
WO2012104708A1 (en) * 2011-01-31 2012-08-09 Walter Rosenbaum Method and system for information recognition
EP2678861B1 (en) 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
US9679561B2 (en) * 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9536517B2 (en) * 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9196250B2 (en) * 2012-11-16 2015-11-24 2236008 Ontario Inc. Application services interface to ASR
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
US9542947B2 (en) * 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9058805B2 (en) 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
CN105679314B (zh) * 2015-12-28 2020-05-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling
TWI698857B (zh) 2018-11-21 2020-07-11 財團法人工業技術研究院 語音辨識系統及其方法、與電腦程式產品
CN110415685A (zh) * 2019-08-20 2019-11-05 河海大学 一种语音识别方法
US11158322B2 (en) * 2019-09-06 2021-10-26 Verbit Software Ltd. Human resolution of repeated phrases in a hybrid transcription system
US11532312B2 (en) 2020-12-15 2022-12-20 Microsoft Technology Licensing, Llc User-perceived latency while maintaining accuracy

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2818362B2 (ja) * 1992-09-21 1998-10-30 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声認識装置のコンテキスト切換えシステムおよび方法
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
DE19635754A1 (de) 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6078886A (en) 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network

Also Published As

Publication number Publication date
JP4485694B2 (ja) 2010-06-23
EP1171871B1 (en) 2003-09-17
KR20010108413A (ko) 2001-12-07
JP2002540478A (ja) 2002-11-26
WO2000058945A1 (en) 2000-10-05
DE60005326D1 (de) 2003-10-23
US6526380B1 (en) 2003-02-25
EP1171871A1 (en) 2002-01-16
AU3164800A (en) 2000-10-16
DE60005326T2 (de) 2004-07-22
CN1351744A (zh) 2002-05-29
ATE250270T1 (de) 2003-10-15

Similar Documents

Publication Publication Date Title
CN1156821C (zh) 具有互补语言模型的识别引擎
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
US9911413B1 (en) Neural latent variable model for spoken language understanding
US10170107B1 (en) Extendable label recognition of linguistic input
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
EP2453436B1 (en) Automatic language model update
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
Lahiri et al. Underspecified recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US20020087311A1 (en) Computer-implemented dynamic language model generation method and system
US6618726B1 (en) Voice activated web browser
CN1351745A (zh) 客户一服务器语音识别
KR100792208B1 (ko) 음성 대화 시스템에서 답변 문장 생성 방법 및 장치
CN113836277A (zh) 用于数字助理的机器学习系统
CN109196495A (zh) 细粒度自然语言理解
JP2005084681A (ja) 意味的言語モデル化および信頼性測定のための方法およびシステム
CN109949799B (zh) 一种语义解析方法及系统
Kumar et al. A knowledge graph based speech interface for question answering systems
JP2022537000A (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
Desot et al. End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting
Hazen et al. Topic modeling for spoken documents using only phonetic information
CN106503066B (zh) 基于人工智能的处理搜索结果方法和装置
Rosset et al. Integrating spoken dialog and question answering: the ritel project.
WO2023098971A1 (en) Method and apparatus for self-supervised extractive question answering

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Holland Ian Deho Finn

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190523

Address after: Bantian HUAWEI headquarters office building, Longgang District, Shenzhen, Guangdong

Patentee after: Huawei Technologies Co., Ltd.

Address before: Holland Ian Deho Finn

Patentee before: Koninkl Philips Electronics NV

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040707