CN1317783A - 语音识别系统中确定非目标语言的方法和装置 - Google Patents

语音识别系统中确定非目标语言的方法和装置 Download PDF

Info

Publication number
CN1317783A
CN1317783A CN01116330.5A CN01116330A CN1317783A CN 1317783 A CN1317783 A CN 1317783A CN 01116330 A CN01116330 A CN 01116330A CN 1317783 A CN1317783 A CN 1317783A
Authority
CN
China
Prior art keywords
target language
scoring
model
language
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01116330.5A
Other languages
English (en)
Other versions
CN1211779C (zh
Inventor
J·纳维拉蒂
M·维斯沃纳塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1317783A publication Critical patent/CN1317783A/zh
Application granted granted Critical
Publication of CN1211779C publication Critical patent/CN1211779C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

公开了用置信评分检测音频转换或语音识别系统中非目标语言的引用的方法和装置。该置信评分可根据(ⅰ)由语音识别系统提供的引擎概率评分,(ⅱ)背景模型的附加评分或(ⅲ)前述的综合。引擎评分可与背景模型评分相结合以便为非目标语言标准化引擎评分。当置信评分低于预定的标准时本发明标识音频流中的非目标语言表达。当发现非目标语言中的语音时语言排斥机构可中断或修正转换过程。

Description

语音识别系统中确定非目标语言的方法和装置
本发明涉及语音识别系统,特别是,涉及在单一语音识别系统中检测非目标语言的方法和装置。
语音识别和声频检索系统一般为特定的目标语言而开发。这种单一语言系统的词法、语法和声音模型反映了目标语言的典型属性。然而,实际上,这些单一语言的系统可能接收其他非目标语言,导致了较差的性能,包括不正确的转换或检索、潜在的错误翻译或错误的系统反馈。
例如,许多组织诸如广播新闻组织和信息检索服务组织必须处理大量音频信息以便存储和检索。音频信息常常必须用主题或讲话人名字或由两者来分类。为了用主题分类音频信息,语音识别系统最初将音频信息转换成文本供自动分类或检索。之后,可用检索来执行查询资料的匹配以便将相关的文档返回给用户。
然而,如果原始的音频信息包含非目标语言引用,则语音识别系统可能不正确地转换非目标语言的引用,这可能导致源信息的不正确分类或检索。因此,需要在声频转换或语音识别系统中检测非目标语言引用的方法和装置。
随着通讯技术全球化和向广大的、多语言公众提供服务的发展,区分不同语言的能力变得越来越重要了。语言排斥问题与这种能力密切相关并因此涉及到语言自动标识(AL、I)的问题。对语言自动标识技术的详细讨论请见,例如,Y.K.Muthusamy等人的“自动语音识别评论”,IEEE信号处理杂志,11(4):33-41(1994,10);J.Navratil和W.Aühlke的“语言识别中的语音-上下文对应”(Phonetic-Context Mapping in Language Identification),EUROSPEECH-97会议录,第一卷,7-1-74(1997);以及J.Naviatil和W.Aühlke的“语言识别的高效音位结构学-声学系统”(An EfficientPhonotatic-Acoustic System for Language Identifi-cation),Int′l论声学、语音和信号处理会议(ICASSP)录,第二卷,781-84,西雅图,华盛顿,IEEE(1998,5),这里作为参考资料引用。
已经建议和提出了若干自动的语言标识技术用于根据语音信号中包含的各种特性区分出各种语言。已经标识出好几种语言区分信息源作为语言识别任务相关的信息,包括,例如,韵律学、声学、和语法及词法结构。根据语音的韵律学或声学自动识别语言的技术试图分别根据典型的语调和发音模式来识别给定的语言。
然而,由于根据语法和词法结构的自动语言标识技术的复杂性,大多建议都有根据声-韵信息或派生的词法特性的先进技术以用便不太复杂的方式表示其语音结构。已开发了语音链中固有模型统计依存关系的ALI技术,称为音位结构学。在统计意义中,音位结构学可以被看作语言的语法和词法规则子集。因为在不同的语言中这些规则也不同,区分这些语言的能力自然就反映在音位结构特性中。
总体上,本发明公开了在音频转换或语言识别系统中用置信评分探测非目标语言引用的方法和装置。该置信评分可能基于(ⅰ)由语音识别系统提供的概率引擎评分,(ⅱ)基于背景模型的附加分或(ⅲ)前述的综合。由语音识别系统为给定的输入语音的表达提供的引擎评分反映了声音和语言的表达与训练的目标语言的匹配度。在一个说明性实现方案中由语音识别系统提供的概率引擎评分与背景模型评分结合以便标准化引擎评分以及考虑到可能出现非目标语言。标准化缩小了讲话者和通道的评分变化范围。
当置信评分低于预定标准时,本发明识别音频流中的非目标语言表达。根据本发明的一个方面当检测到非目标语言中的语音时,语言排斥机构中断或修正转换过程。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。
在出现非目标语言表达时,转换系统不能根据其本地词汇、语言模型和声音模型发现良好的匹配。产生的识别文本将有较低的引擎评分值。因此,当引擎评分低于预定阈值时可能单独用引擎评分来识别非目标语言。
根据几种语言中的语音数据来建立或训练背景模型,它可能或可能不包含目标语言自身。可能为每种模型化的语言采用若干种背景语言模型,包括一个或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ)音位结构模型和(ⅳ)关键字识别(spotting)模型。
通过参考下面的详细说明和附图将更全面了解本发明以及本发明的进一步特性和优点。
图1示出按本发明的非目标语言识别系统;
图2是一幅示意方框图,示出图1的背景语言构型模块的结构;和
图3是一幅流程图,描述图2的背景语言构型模块采用的背景模型评分计算过程。
图1示出按本发明的非目标语言标识系统100。按本发明的一个特征,当发现了非目标语言中的语音时语言排斥机构中断或修正传统语音识别过程。本发明用这种方式防止不正确的转换和索引及语音识别输出的错误翻译。本发明采用由语音识别系统提供的引擎概率评分结合根据背景模型的附加评分以便标准化非目标语言的引擎评分。
如图1所示,非目标语言标识系统100包含一个转换系统110,一个背景语言构型模块200、下面结合图2进一步,讨论一个标准化模块150和一个阈值决策模块160。如下面进一步讨论的那样,转换系统110转换语音信号并提供表示给定转换中的置信度的引擎评分。另外,背景语言构型模块200产生一个背景(BG)模型评分表示假设的概率:给定的转换与(ⅰ)目标语言和(ⅱ)非目标语言相关。如下面进一步讨论的那样,标准化模块150结合引擎和BG模型评分中的一或两者且阈值决策模块160将综合评分与预定的标准进行比较以确定是否给定的转换可能与非目标语言表达有关。
                        引擎评分
转换系统110可由提供置信评分的任何语音识别或转换系统诸如ViaVoiceTM语音识别系统实现,ViaVoice由Armonk NY的IBM公司销售。该转换系统110一般给出声音模型、发音词汇和语言模型的一些集合为译码音频流计算引擎概率评分。在本发明的单一语言环境中,对一种具体的目标语言训练这些模型。
在根据目标语言的语音识别期间,引擎评分值取决于语音的种类和通道的质量。尽管如此,识别的文本和声音论据间有很强的相关性。然而,在出现非目标语言表达时,转换系统110不能根据其本地词汇、语言模型和声音模型找到良好的匹配。因此,最终识别的文本将出现较低的引擎评分值。在上述方式中,当引擎评分低于预定的阈值时可能单独用引擎评分来识别非目标语言。
                   背景模型评分
如以前所示的那样,本发明为转换系统110提供的引擎评分增加了背景模型的附加评分。用这种方式,本发明用背景模型改进了识别目标和非目标语言表达的准确性。根据其他语言中的语音数据建立或训练背景模型,这些语言可能或可能不包含目标语言自身。为了识别目的,根据全部的背景模型计算评分然后用这些评分来标准化引擎评分。正如在下面一节题为“标准化”进一步讨论的那样,标准化有助于缩小讲话人的评分变化范围和通道的变化范围。
总体上,本发明为每个要构型的非目标语言采用多个类型的背景语言模型。背景模型的类型应是不同的并应在声音和语言的层次捕捉语言的特性。用于训练的特性范围可从幅度和基础频度的测量(韵律模型)到较高的语音特征诸如音素级统计(音位结构模型)、部分或整个字的关键字(关键字识别模型)直至经充分训练的(full-fledged)大词汇量识别器。
因此,背景语言模型可包含一个或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ)音位结构模型和(ⅳ)关键字识别模型。对更详细讨论各种模型请见,例如,Y.K.Muthusamy等人的“自动语言识别评论”,IEEE信号处理杂志,11(4):33-41(1994,10);J.Navratil和W.Zühlke的“语言识别中语音-上下文对应”,EUROSPEECH-97会议录,第一卷,7-1-74(1997);和J.Naviatil和W.Zühlke的“语言识别的高效音位结构学-声学系统”,Int′l论声音、语音和信号处理会议(ICASSP)录,第二卷,781-84,西雅图,华盛顿,IEEE(1998,5),这里作为参考资料引用。
图2是一幅示意方框图,示出了按本发明的示例性背景语言构型模块200的结构。背景语言构型模块200可作为通用计算系统来实现诸如示于图2的通用计算系统。背景语言构型模块200包含处理器210和相关的存储器诸如数据存储设备220,它可以是分布的或本机的。处理器210可作为单一的处理器或多个本机或并行操作的分布处理器实现。数据存储设备220和/或只读存储器(ROM)可以存储一条或多条指令,可操作处理器210以检索、解释和执行这些指令。注意,背景语言构型模块200可与图1所示的转换系统110集成或背景语言构型模块200可以是一个独立的设备,如图2所示;这对本领域的普通技术人员将是显而易见的。
数据存储设备220最好包含目标语言的一组背景模型250-1和一组用于每个模型化非目标语言的背景模型250-2至250-K。如以前所示,每组背景语言模型250-K可包含一或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ)音位结构模型和(ⅳ)关键字识别模型。在一个优先实施方案中,示于图2,由于良好的性能和价格比每组背景模型都含有声音和音位结构模型。此外,如下面结合图3进一步讨论的那样,数据存储设备220含有背景模型评分的计算过程300。示范性背景模型评分计算过程300计算每个背景模型的音位结构-声音评分。
注意虽然对某组语言训练背景模型,本发明的标准化方法可改进以前在训练数据集中从未见过的非目标语言的标识。
                    背景模型评分的计算
如以前所示,背景语言构型模块200执行背景模型的评分计算过程300以便为每个背景模型计算评分。图3是一幅流程图描述示例性背景模型的评分计算过程300。再注意示范性背景模型的评分计算过程300根据音位结构学(音素统计学)和声音学产生背景模型的评分。
如图3所示,背景模型的评分计算过程300起初在步骤310期间取回表达方式(语音样品)。ST-BG表示目标语言的背景评分,ST-BG(i)表示第i个非目标模型的背景评分。此后,在步骤320期间,为每个背景模型i计算音位结构-声音评分如下:
SN-BG(i)=logⅡt T=1P(vt1at,i)·P(at1at-1,…at-k,i)    (1)
式中a1,…aT,表示从音素识别器获得的音序到诸如衡量冲击强度的标识器;例如在美国专利申请号09/015,150中或Ramabhadan等的“只基于语音学的自动声音基形的生成”Int′l论声学、语音和信号处理会议(ICASSP)录,西雅图,华盛顿,IEEE(1998.5),在此作为参考资料引用。此外,Vt代表音素at的语音部分中的声音证据(观察),P(at1at-1,…at-k,i)代表音素序列中音素的第R顺序构型(K+1)元组的音位结构模型。注意
方程(1)是多个可能获得音位结构评分的方法之一;这对本领域的普通技术人员来说是显而易见的。其它语言构型和语言标识技术可包括,例如,分别计算音位结构评分和声音评分并用加权方式将它们结合在记录域中。而且,例如,可以用Hidden Markov模型(HMM)以包括音素的持续信息。目标语言的背景评分ST-BG也是用方程(1)获得的。
                         标准化
准确地说,由标准化模块150(图1)执行的标准化可用几种方法表示;例如,如果引擎和背景评分是随机的,则可将标准化表述为目标和非目标评分的可能值之比。同理,如果将引擎和背景评分表述为对数相似度,则标准化可表述为目标和非目标的对数评分间的差。
在说明性实施方案中,ST-E表示引擎目标评分,ST-BG表示目标语言的背景评分,SN-BG(i)表示第i个非目标模型的背景评分。因此,可以获得标准化评分S如下: S = a 1 S T - E fa 2 S T - GB - Σ i = 1 N b i • S N - BG ( i ) - - - ( 2 ) 式中的N是背景模型数,ai,bi分别是目标和非目标评分的权重。注意背景语言模型的鲁棒性与背景模型数N成比例增加。因此,语言库应选择尽可能大和涵盖广泛。请再注意虽然背景模型是针对某组语言训练的,但本发明的标准化方法可能有助于改进对在训练数据集中以前从未见过的非目标语言的识别。
                            排斥机构
如以前所示,根据总的标准化评分标识非目标语言的表达,按照方程(2)计算并应用阈值T如下:
S-T≥O接受(目标语言)    (3)
S-T<O排斥(非目标语言)
方程(3)导致方程的左边为正或负,从而分别导致语言表达的接受或排斥。阈值T可从训练阶段获得和/或用适应方式从当前的音频流导出;这对本领域的普通技术人员将是显而易见的。
在转换期间的某个时间考虑到预定时期相似值的历史在一个窗口中计算标准化评分量度S;例如,可能利用在预定时期中基于字的相似性的平均值。
在一种应用中,本发明可用作语言排斥机构以便在探测出非目标语言中的语音时可中断或修改转换系统110。换句话说,如果用本发明实时检测到非目标语言,那么可以挂起语音识别过程直至将音频流切换回目标语言。基于语音的文本存取系统的性能完全依靠转换的准确性。一般,语音识别的准确度越高,信息检索性能就越好。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。
在另外的变化形式中,非目标语言标识系统100可以用不同的阈值TRESUME从而在先前的排斥后切换回到目标语言的转换。阈值TRESUME可能是适应的或预先决定的,如上面为基本值T讨论的那样。而在再一种变化中,本发明用识别过程的预先计算的相似性(例如,副产品)和低计算的背景模型。
应理解这里所示和描述的实施方案和变化仅是本发明的原理的说明性举例且各种修正可由本领域的那些技术人员实现而没有离开本发明的范围和实质。

Claims (17)

1.一种在音频流中识别非目标语言表达的方法包含下列步骤:
用对目标语言训练的转换系统转换所述音频流中的每种表达;
产生与每个所述转换表达有关的置信评分;和
如果所述置信评分不能满足预定的标准则标识转换的表达为非目标语言。
2.权利要求1的方法,其中所述置信评分是由所述转换系统产生的引擎评分。
3.权利要求1的方法,当检测到所述非目标语言时它进一步包含中断所述转换系统的步骤。
4.权利要求1的方法,当检测到所述非目标语言时它进一步包含修改所述转换系统的步骤。
5.权利要求1的方法,其中所述置信评分是根据对至少一个非目标语言训练的一个或多个背景模型。
6.权利要求5的方法,其中所述背景模型对每种模型化语言而言包含一个或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ )音位结构模型和(ⅳ)关键字识别模型。
7.权利要求1的方法,其中所述置信评分是根据由所述转换系统提供的引擎评分结合背景模型评分以便为所述非目标语言标准化所述引擎评分。
8.一种在音频流中识别非目标语言表达的方法包含下列步骤:
用对目标语言训练的转换系统转换所述音频流中每种表达;
根据由所述转换系统提供的引擎评分和至少一个背景模型的评分产生与每种所述转换表达有关的置信评分;和
如果所述置信评分未能满足预定的标准则标识转换的表达为非目标语言。
9.权利要求8的方法,进一步包含当检测到所述非目标语言时,中断所述转换系统的步骤。
10.权利要求8的方法进一步包含当检测到所述非目标语言时修正所述转换系统的步骤。
11.权利要求8的方法,其中所述至少一个背景模型是对至少一个非目标语言训练的。
12.权利要求11的方法,其中所述至少一个背景模型为每种模型化语言包含一个或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ)音位结构模型和(ⅳ )关键字识别模型。
13.权利要求1的方法,其中所述置信评分为所述非目标语言标准化所述引擎评分的。
14.一种在音频流中识别非目标语言表达的系统,包含:
一个存储计算机可读代码的存储器;和
与所述存储器操作连接的处理器,所述处理器配置成执行所速计算机可读代码,所述计算机可读代码配置成:用对目标语言训练的转换系统转换所述音频流中的每种表达;
产生与所述每种转换表达有关的置信评分;和
如果所述置信评分未能满足预定的标准则标识转换的表达为非目标语言。
15.一种在音频流中识别非目标语言表达的系统,包含:
一个存储计算机可读代码的存储器;和
与所述存储器操作连接的处理器,所述处理器配置成执行所述计算机可读代码,所述计算机可读代码配置成:
用对目标语言训练的转换系统转换所述音频流中每种表达;
根据由所述转换系统提供的引擎评分和至少一个背景模型评分产生与所述每种转换表达有关的置信评分;和
如果所述置信评分未能满足预定的标准则标识转换的表达为非目标语言。
16.一种在音频流中识别非目标语言表达的产品包含:
计算机可读介质,其上带有计算机可读代码装置,所述计算机可读程序代码装置包含:
用对目标语言训练的转换系统转换所述音频流中每种表达的步骤;
产生与每种所述转换表达有关的置信评分的步骤;和
如果所述置信评分未能满足预定的标准则将转换的表达标识为非目标语言的步骤。
17.一种在音频流中识别非目标语言表达的产品,包含:
计算机可读介质,其上实现有计算机可读代码装置,所述计算机可读程序代码装置包含:
用对目标语言训练的转换系统转换所述音频流中每种表达的步骤;
根据由所述转换系统提供的引擎评分和至少一个背景模型的评分产生与每种所述转换表达有关的置信评分的步骤;和
如果所述置信评分未能满足预定的标准则将转换表达标识为非目标语言的步骤。
CN01116330.5A 2000-04-07 2001-04-06 语音识别系统中确定非目标语言的方法和装置 Expired - Fee Related CN1211779C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/544678 2000-04-07
US09/544,678 US6738745B1 (en) 2000-04-07 2000-04-07 Methods and apparatus for identifying a non-target language in a speech recognition system
US09/544,678 2000-04-07

Publications (2)

Publication Number Publication Date
CN1317783A true CN1317783A (zh) 2001-10-17
CN1211779C CN1211779C (zh) 2005-07-20

Family

ID=24173130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01116330.5A Expired - Fee Related CN1211779C (zh) 2000-04-07 2001-04-06 语音识别系统中确定非目标语言的方法和装置

Country Status (3)

Country Link
US (1) US6738745B1 (zh)
CN (1) CN1211779C (zh)
DE (1) DE10111056B4 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105917405A (zh) * 2014-01-17 2016-08-31 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
CN107622768A (zh) * 2016-07-13 2018-01-23 谷歌公司 音频截剪器
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002212992A1 (en) * 2000-09-29 2002-04-08 Lernout And Hauspie Speech Products N.V. Corpus-based prosody translation system
US20020077833A1 (en) * 2000-12-20 2002-06-20 Arons Barry M. Transcription and reporting system
US7191116B2 (en) * 2001-06-19 2007-03-13 Oracle International Corporation Methods and systems for determining a language of a document
US7437289B2 (en) * 2001-08-16 2008-10-14 International Business Machines Corporation Methods and apparatus for the systematic adaptation of classification systems from sparse adaptation data
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
GB2409087A (en) * 2003-12-12 2005-06-15 Ibm Computer generated prompting
US8036893B2 (en) 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US9436759B2 (en) 2007-12-27 2016-09-06 Nant Holdings Ip, Llc Robust information extraction from utterances
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8977645B2 (en) * 2009-01-16 2015-03-10 Google Inc. Accessing a search interface in a structured presentation
US8484218B2 (en) * 2011-04-21 2013-07-09 Google Inc. Translating keywords from a source language to a target language
US9129605B2 (en) * 2012-03-30 2015-09-08 Src, Inc. Automated voice and speech labeling
US9495591B2 (en) * 2012-04-13 2016-11-15 Qualcomm Incorporated Object recognition using multi-modal matching scheme
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
CN111078937B (zh) * 2019-12-27 2021-08-10 北京世纪好未来教育科技有限公司 语音信息检索方法、装置、设备和计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6391699A (ja) * 1986-10-03 1988-04-22 株式会社リコー 音声認識方式
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
JP3034773B2 (ja) * 1994-12-27 2000-04-17 シャープ株式会社 電子通訳機
CA2160184A1 (en) * 1994-12-29 1996-06-30 James Lee Hieronymus Language identification with phonological and lexical models
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6085160A (en) * 1998-07-10 2000-07-04 Lernout & Hauspie Speech Products N.V. Language independent speech recognition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN105917405A (zh) * 2014-01-17 2016-08-31 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
US10311878B2 (en) 2014-01-17 2019-06-04 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
CN105917405B (zh) * 2014-01-17 2019-11-05 微软技术许可有限责任公司 外源性大词汇量模型到基于规则的语音识别的合并
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN107622768A (zh) * 2016-07-13 2018-01-23 谷歌公司 音频截剪器
CN107622768B (zh) * 2016-07-13 2021-09-28 谷歌有限责任公司 音频截剪器

Also Published As

Publication number Publication date
DE10111056B4 (de) 2005-11-10
CN1211779C (zh) 2005-07-20
DE10111056A1 (de) 2001-10-18
US6738745B1 (en) 2004-05-18

Similar Documents

Publication Publication Date Title
CN1211779C (zh) 语音识别系统中确定非目标语言的方法和装置
US7475015B2 (en) Semantic language modeling and confidence measurement
US8793130B2 (en) Confidence measure generation for speech related searching
EP1462950B1 (en) Method for language modelling
US5797123A (en) Method of key-phase detection and verification for flexible speech understanding
CA2508946C (en) Method and apparatus for natural language call routing using confidence scores
EP1922653B1 (en) Word clustering for input data
Kawahara et al. Flexible speech understanding based on combined key-phrase detection and verification
Hazen et al. A comparison and combination of methods for OOV word detection and word confidence scoring
US20020173955A1 (en) Method of speech recognition by presenting N-best word candidates
US20030191625A1 (en) Method and system for creating a named entity language model
US20020087311A1 (en) Computer-implemented dynamic language model generation method and system
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
Raymond et al. On the use of finite state transducers for semantic interpretation
Kawahara et al. Key-phrase detection and verification for flexible speech understanding
US20050038647A1 (en) Program product, method and system for detecting reduced speech
Gandhe et al. Using web text to improve keyword spotting in speech
Kawahara et al. Combining key-phrase detection and subword-based verification for flexible speech understanding
Rose Word spotting from continuous speech utterances
Decadt et al. Transcription of out-of-vocabulary words in large vocabulary speech recognition based on phoneme-to-grapheme conversion
US20030069730A1 (en) Meaning token dictionary for automatic speech recognition
Imperl et al. Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones
Raymond et al. Belief confirmation in spoken dialog systems using confidence measures
Bocchieri et al. The 1994 at&t atis chronus recognizer
Kellner Initial language models for spoken dialogue systems

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WEICHA COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090731

Address after: Massachusetts, USA

Patentee after: Nuance Communications Inc.

Address before: American New York

Patentee before: International Business Machines Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20050720

Termination date: 20170406

CF01 Termination of patent right due to non-payment of annual fee