CN1171199C - 基于语言模型的信息检索和语音识别 - Google Patents

基于语言模型的信息检索和语音识别 Download PDF

Info

Publication number
CN1171199C
CN1171199C CNB998045551A CN99804555A CN1171199C CN 1171199 C CN1171199 C CN 1171199C CN B998045551 A CNB998045551 A CN B998045551A CN 99804555 A CN99804555 A CN 99804555A CN 1171199 C CN1171199 C CN 1171199C
Authority
CN
China
Prior art keywords
information
language model
storer
document
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB998045551A
Other languages
English (en)
Other versions
CN1295705A (zh
Inventor
���ֵ¡�V��������
米林德·V·迈哈简
黄学东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1295705A publication Critical patent/CN1295705A/zh
Application granted granted Critical
Publication of CN1171199C publication Critical patent/CN1171199C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Abstract

一种语言模型(70)用于一个语音识别系统(60)中,它访问一个第一类、较小的数据存储器(72)和一个第二类、较大的数据存储器(74)。通过公式化表达一个基于包含在上述第一类数据存储器(72)中的信息的信息检索查询和查询上述第二类数据存储器(74),可以对语言模型(70)进行适配。从第二类数据存储器(74)中检索的信息用来适配该语言模型(70)。并且,语言模型用来从上述第二类数据存贮器(74)中检索信息。语言模型是基于第一类数据存储器(72)中的信息和第二类数据存储器(74)中的信息来构建的。在给定第一个语言模型和第二个语言模型之后,在第二类数据存储器(74)中的文档的复杂度就可以被确定了。文档的相关度是根据上述第一和第二复杂度来确定的。检索具有超过某一门限水平的相关度测度的文档。

Description

基于语言模型的信息检索和语音识别
技术领域
本发明是关于语音识别和信息检索的,更具体地讲,本发明是关于一种利用信息检索技术来匹配某种语言模型的语音识别系统以及一种利用语音识别语言模型来检索相关的文档的信息检索技术的。
背景技术
一般地讲,信息检索是一个从大量的信息存储中查找和检索与用户有关的信息的过程。在执行信息检索的过程中,检索出用户需要的所有信息是重要的(即完整性是重要的),同时限制检索出的与用户无关的信息也是重要的(即选择性也是重要的)。这些方面通常根据查全率(完整性)和精确率(选择性)来定义。在许多信息检索系统中,非常有必要在查全率和精确率两方面都获得良好的性能。
在目前的一些检索系统中,能够被查询和检索的信息是非常大的。例如,一些信息检索系统被设置为在因特网、数字视频盘和其它通用的计算机数据库中搜索信息。例如这些信息检索系统通常被做成因特网搜索引擎和库目录搜索引擎。
许多信息检索技术是众所周知的。例如当用户需要文档类或与现有文档的某个集合相似的信息时,在这些技术中,一个用户输入查询通常被表示成要么是一个明确的由用户生成的查询,要么是一个隐含的查询。然后,典型的信息检索系统在庞大的数据存储中在单词级或在术语级上搜索文档。这些文档中的每一个都被指定了一个关联(或相似)度,信息检索系统向用户提供被搜索的文档的一定子集,通常该子集具有一个超过某给定的门限的相关度。
目前一些著名的信息检索技术或方法包括全文本扫描、签名文件的使用、转换、矢量建模和聚类以及tf*idf(术语频率*反相文档频率)。在全文本扫描中,布尔函数被用在一个查询中以确定被搜索的某个文档是否包含某些词串,在这种扫描技术中,通常是搜索文档的每个词以查看它是否满足搜索串(也就是该查询),然后,当发现词串不匹配时,将搜索串向右边移动一个位置。该系统已经被适配,可以使用对这个查询进行预处理的其它方法,例如当发现词串不匹配时,将搜索串向右边移动多个位置。
签名文件的使用涉及到从被检索的文档中去除常用的词,并把不常用的词变为词干。每个被搜索的文档都产生一个位串(即一个签名)。各种文档的这些签名被顺序地存储在与这些文档本身相分离的一个文件中。
转换技术涉及到构造一关键词列表以表示每个文档。这些关键词存储在一个索引文件中。对于每个关键词都包含有一个代表合格文档的指针列表。然后,该查询会沿着索引进行,并用指针来识别相关的和合格的文档。
矢量建模和聚类涉及到把相类似的文档划分成被称为簇的组(这种技术也能够应用于术语而不是文档中)。为了生成一个簇,把常用的词去除并把剩余的词变成词干(这包括前缀和后缀的去除)以形成索引。同义词一般也被放在一个概念类中,该概念类中的术语可以用频率、特殊性、相关度等来加权。索引被用来将这些文档表示为t-维空间中的一个点。然后,这些点被用一个相似性矩阵划分为多个组,此矩阵通常是通过迭代过程生成的。为了搜索簇,一个查询被表示为一个t-维矢量并与簇中心进行比较。一个簇至查询相似性函数被生成并被用来提出相关的文档。被提出(或被检索)的那些文档通常是那些具有超过某一预定义的门限值的相似性值的文档。
为了获得更好的性能,在一些信息检索技术中,语义信息被用来捕获更多关于信息存储中每个文档的信息。在这种系统中,自然语言处理被用来将查询的语义内容与被检索的文档的语义内容进行匹配。语句或词组被用作对所检索的文档进行索引的术语。隐含的语义索引涉及到构成一个术语/文档矩阵,在该矩阵中,一个指定文档中的术语出现的频率被标记在矩阵中。小的奇异值通常被移去而剩余的术语的频率矢量则被映射。查询也被生成术语的频率矢量,而且根据包含这些文档的术语频率矢量的矩阵被映射。为了获得余弦相似性测度,这些文档使用归一化线性产品进行分类。
使用语义信息的另一类信息检索技术是神经网络。实际上,对应于辞典中的每一个概念,构造一个辞典隐含层中的一个节点。然后,利用遍历激活方法传递搜索。
术语频率*反相文档频率(tf*idf)是被用来确定文档的相关度的另一种技术。首先,在一个查询中所使用的术语根据该文档来测量以确定在该文档中那个术语的频率。可以肯定,当文档中的术语的频率增加时,与该文档和该术语相关联的程度也增大。同样可以肯定,当术语出现在其中的文档数量增加时,用来区分各文档的术语的有效性降低了。因此,指定术语的频率也根据整个数据存储来测量以确定在所有的文档中该术语的频率级。这两种测量方法被用来确定在被检索的数据存储中任意给定的文档的相关度。
当检索可访问的数据库变得越来越多,以及当这些数据库变得越来越大时,与信息检索有关的问题也变得越来越多。换句话说,在检索过程中,利用较大的和数量较多的数据库通常难以获得可接受的超过查全率和精确度的性能。
为了生成一个发言意义上的副本,语音识别系统使用被包含在讲稿中的声音和词语(或语言)信息的合成体。在语音识别系统中,一个识别器使用的语言信息统称为一个语言模型。
目前许多语音识别系统使用具有统计特性的语言模型。这些语言模型通常使用已知的技术并依据被提供给语言模型生成器的大量的文本训练数据来生成。例如,一个N-gram语言模型可以利用已知的例如,Katz技术或二项式后分布补偿技术。在使用这些技术的过程中,语言模型估算出词w(n)服从词序列w1,w2,…w(n-1)的概率。这些概率值共同组成N-gram语言模型。
有许多已知的方法能够用来从提供给语言模型生成器的大量文本集合中估算出这些概率值,对本发明来说,使用确切的方法进行操作并不重要。重要的是该语言模型通过允许识别器利用语言中有关的词序列的似然性、容许性或有意义性等信息,在提高识别过程的精确度和速度上起着重要的作用。此外,捕获了更多的有关语言的信息的语言模型会产生更快和更精确的语音识别系统。
通常,为了特定的目的,被用来训练语言模型的庞大的训练文本集合被专门收集起来并提供给该语言模型生成器。因此,语言模型通常被生成来满足某些广泛的使用类别。一些使用类别可以是常用的英语语言、办公通信和体育等。
然而,任何一个具体的用户的兴趣,以及由此被这个具体的用户使用的语言通常可以是比这些广泛的语言模型种类更具体的语言。因此,由这种语言模型生成的概率估算值不可能精确地模拟被该用户使用的实际语言。而且,由于用户的兴趣种类几乎是不受限制的,因此,很难为每个用户生成非常具体的语言模型。
一些现有系统已经试图根据应用的需要来对该语言模型进行适配来解决此问题。在适配期间,由该语言模型分配给词序列的概率估算值被调整来更紧密地反映用户的实际语言。被用于适配的文本数据是由用户指定的。例如,这种文本数据可以由被此用户指定的文本或者被该用户在文档中所生成的文本、被该用户从文档中所读取的文本、或被该用户在文档中所存储的文本构成。然而,为了精确地适配一个语言模型,必须馈送大量的数据。而该用户所指定的可以使用的数据通常是很少的,不能快速地对该语言模型进行适配,或者不能生成一个有意义的、用户指定的语言模型。
发明内容
一种用在能对第一类较小的数据存储和第二类、较大的数据存储进行访问的语音识别系统中的语言模型。该语言模型依据在第一类数据存储中所包含的信息,通过生成一个信息检索查询以及对第二类数据存储执行查询来适配。从第二类数据存储中所检索到的信息被用来适配该语言模型或生成该语言模型。
在一个首选实施例中,通常较小的第一类存储被认为是目前正在被语音识别系统的用户所使用的比较有代表性的语言。而通常较大的第二类存储,从百比分的角度看,很可能代表了用户较少使用的语言。
此外,语言模型被用来从第二类数据存储中检索信息。语言模型依据第一类数据存储中的信息和依据第二类数据存储中的信息来建造。在给定第一种语言模型和第二种语言模型的情况下,可以确定在第二类数据存储中的文档的复杂度(perplexity)。文档的相关度依据第一复杂度和第二复杂度来确定。具有超过门限级的相关度的文档被检索出来。
在一个实施例中,第一类数据存储代表由用户提出的查询或请求,而第二类数据存储代表被检索的库。
附图简要说明
图1是一个用于实现本发明的一个系统的示例环境的方框图。
图2是关于本发明的一个系统的更加详细的方框图。
图3是一个说明一种用于本发明的一个首选实施例中的文档检索技术的流程图。
图4是一个说明一种用于本发明的另一个首选实施例中的适配语言模型的技术的流程图。
具体实施方式
图1及与其相关的讨论是要对一种适当的计算环境提供一种简便的、一般的描述,在这个计算环境中本发明得以被实现。尽管未被要求,但是本发明将至少部分地使用计算机可执行的指令例如,被个人计算机所执行的程序模块,的常用上下文来描述。通常,程序模块包括用来执行指定的任务或实现指定的抽象数据类型等的常用程序、对象、元素或数据结构等。而且,了解本领域的那些人应知道本发明可以用其它的计算机系统配置来实现,包括手持设备、多处理器系统、基于微处理器的或可编程的用户电子设备、网络PC、小型计算机、大型计算机等等。本发明也可以在分布式计算环境中实现,在该环境中,任务由与通信网络相连接的远程处理设备来执行。在分布式计算环境中,程序模块既可以存储在本地存储器存储设备中,又可以存储在远程存储器存储设备中。
参照图1,用来实现本发明的一个示范性系统包括一个用于一般用途的计算设备,该计算设备以传统的个人计算机20的形式来表示,计算机20包括处理单元21(可以包含一个或多个处理器)、系统存储器21和把包含系统存储器在内的各种系统元件耦合到处理单元21中的系统总线23。系统总线23可以是包含存储器总线或存储控制器、外围设备总线和使用任意种类的总线结构的本地总线等几种总线结构的任意一种类型。系统存储器包括只读存储器(ROM)24、一个随机存取存储器(RAM)25。例如在启动过程中,一个包含了在个人计算机20中的两元件间帮助传递信息的基本例行程序的基本输入/输出26(BIOS)存储在ROM24中。个人计算机20还包括一个读写硬盘(未给出)的硬盘驱动器27、一个对可装卸式磁盘29进行读写的磁盘驱动器28、以及一个对可装卸式光盘31例如CD ROM或其它光媒介等进行读、写的光盘驱动器30。硬盘驱动器27、磁盘驱动器28和光盘驱动器30分别地通过硬盘驱动器接口32、磁盘驱动器接口33和光盘驱动器接口34与系统总线23相连。这些驱动器及与其相关的计算机可读媒介为个人计算机20提供了计算机可读指令、数据结构、程序模块和其他数据的非易失性存储。
尽管在这里所描述的示范性环境使用的是一个硬盘、一个可装卸式磁盘29和一个可装卸光盘31,但是能够存储被计算机所询问的数据的其它类型的计算机可读媒介,如盒式磁带、快速存储卡、数字视频盘、伯努里式磁带盒,随机存取存储器(RAM)、只读存储器(ROM)等等,也可以使用在示范性操作环境中,这一点应该被精通本领域的人认同。
一些程序模块可以存储在包含操作系统35、一个或多个应用程序36、其他程序模块37和程序数据38的硬盘、磁盘29、光盘31、ROM24或RAM25中。用户可以通过输入设备如键盘40和点击设备42而向个人计算机20输入命令和信息。其它的输入设备(未绘出)可能还包括麦克风、操纵杆、游戏盒、卫星电视天线、扫描仪等等。这些输入设备和其它输入设备通常通过与系统总线相连的串行接口46与处理单元21相连,但是可以通过其他接口如并行口、游戏口或通用串行总线(USB)相连。监视器47或其他类型的显示设备也被通过一个接口,如视频适配器48与系统总线23相连。除了监视器47以外,个人计算机典型地可以包括其他的外围输出设备(未绘出),如扬声器和打印机。
个人计算机20利用与一个或多个远程计算机如远程计算机49的逻接连接可以在网络环境中运行。尽管在图1中仅绘出了一个存储器存储设备50,但是远程计算机49可以是另一台个人计算机、或一台服务器、一个路由器、一台网络PC、一台同类设备或其他网络节点等,通常包含了上述所描述的与个人计算机20有关的大部分元件或所有元件。图1中给出的逻辑连接包括局域网(LAN)51和广域网(WAN)52。这些联网环境在办公室、企业级计算机网络内联网和Internet中是常见的。
当在LAN联网环境中使用时,个人计算机10通过网络接口或适配器53与局域网51相连。当在WAN联网环境中使用时,个人计算机20通常包括一个调制解调器54或用来建立与广域网52如Internet通信的其它设备。调制解调器54可以是内置的或外置的,它通过串行接口46与系统总线23相连。在一个网络环境中,被描述的与个人计算机20有关的程序模块或者其中的各部分可以被存储在远程存储器存储设备中。应该承认图中描绘的网络连接是示范性的,可以使用其它的设备在两个计算机之间建立一个通信链路。
按照本发明的一个方面,图2是一个描绘了语音识别信息检索(SR/IR)系统的方框图。SR/IR系统60包括麦克风62、模-数(A/D)转换器64、用户输入设备66、SR/IR处理器模块68、语言模型(LM)存储模块70、主题数据存储器72、普通数据存储器74和用户输出设备76。
应该注意,整个系统60或系统60的部分能够在图1中所描绘的环境下被实现。例如,麦克风62通过一个合适的接口和A/D转换器64最好能够提供给个人计算机20作为一个输入设备。用户输入设备66最好能够被作为键盘40、鼠标42或其它任何合适的输入设备来加以实现。语言模型存储模块70最好存储在图1中所描绘的任何合适的存储器设备中,或者根据图1所描述的任意一种数据输入机制被提供给SR/IR模块68。SR/IR模块68最好是计算机20中的一个硬件模块(如一个与CPU21分开的或在CPU21中被实现的专用的语音识别或信息检索处理器),或者是一个被存储在图1中所描绘的任意一个信息存储设备中的并且能够被CPU21或任何其它的合适的处理处访问的软件模块。
主题数据存储72最好也被存储在图1中所描绘的任意一个合适的存储器设备中,或者是能够被图1所描绘的系统所访问。而且,对计算机20而言,主题数据存储器72不必非得是本地的,但是必须能够只被计算机20所访问。例如,主题数据存储器72可以被部分地或全部地存储在存储器50中。一个被创建的指定文档以及被用户已建立的其它文档存储在主题数据存储器72中。当然,应该承认,主题数据存储器72中所包含的数据能够按照任意一种标准来安排,如主题、文档类型(例如,信件、备忘录、电子邮件传输、传真等等)、或任何其它合适的标准。
普通数据存储74最好是一个较大的数据库,比主题数据存储器72大些,并且是能够被图1中所描绘的系统所访问。例如,普通数据存储可以是通过广域网52或局域网51来访问的任何数据库或数据库的集合。
此外,输出设备76在一个首选实施例中可以被实施为监视器47或者打印机,或者任何其它合适的输出设备来实现。
在任何情况下,为了描述本发明,系统60描绘了一个适合于实现语音识别和信息检索两者的系统。然而,应该注意,为了配合下面所描述的有关本发明的各种特征和各个方面,系统60可以被配置成只用来实现语音识别或者是信息检索。
适配语言模块
现在描述语系统60用来音识别。在识别语音的过程中,系统60利用声音信息以一种已知的方式被训练。系统60利用这种信息去后面去识别通过麦克风62输入到系统60中的发言。简而言之,语音按照被用户提供给麦克风62的声音信号的形式被输入到系统60中。麦克风62把声音信号转换成模拟电子信号,该模拟电子信号被提供给A/D转换器64。A/D转换器64把模拟语音信号转换成数字信号序列,该数字信号序列被提供给SR/IR模块68。
在一个首选实施例中,SR/IR模块68包含一个样本抽取模块,该样本抽取模块是一个对数字信号执行频谱分析和对频谱的每个频段的幅度值进行计算的传统的数组处理器。样本抽取模块把这些数字信号分成包含许多数字样本的帧,这些数字样本被转换成一个包含许多频段的概率值的输出概率分布的序列。这些输出概率分布按照已知的方法被处理以获得可能的代表了由麦克风62所接收到的语音的语音单元(如音素、词或词序列)。
在一个首选实施例中,SR/IR模块68识别出N个可能代表了所给出的N个最大概率的词或词序列的词假设。然后,SR/IR模块68访问LM存储模块70。在LM存储模块70中存储的语言模型被用来估算某个词w(n)跟从词序列w1,w2,…(w(n-1))的概率。然后,为了获得该语言表达的最大概率的词或词序列,这些概率被用来在这N个最大的假设中执行挑选。这个最大概率的假设在用户输出设备76中输出。
存储在LM存储模块70中的语言模型可以初始地由SR/IR模块68建立,或者利用一种数据输入机制如图1中所描述的那些(例如利用一个软盘)被加载到LM存储模块70中。在由SR/IR模块68建立语言模块的这些实施例中,一个庞大的训练文本集被提供给SR/IR模块68。利用那个训练文本集,SR/IR模块68按照一种已知的方法建立语言模型并将其存储在LM存储模块70中。
此外,应该注意到,多个语言模型能够存储在LM存储模块70中。例如,一些与主题有关的语言模型能够被存储在LM存储模块70中,并依据用户的输入被SR/IR模块68所检索,以便利用语音识别系统建立指定文档的主题。
在任何情况下,希望为了获得一个被用户使用的精确地模拟实际语言的更快和更精确的模型,存储在LM存储模块70中的这个指定的语言模型或多个模型应该根据系统60中用户实际所使用的词被进行适配。
根据本发明的一个方面,图3描述了一种用来实现对存储在LM存储模块70中的语言模型进行适配的技术。语言模型首先被系统60所接收。该语言模型既可以主题有关的、或用户有关的、或应用有关的,也可以简单地是一个通用的语言模型。正如前面所讨论的,语言模型既能够由系统60建立并被存储在LM存储模块70中,也能够简单地通过一种合适的输入机制加载到LM存储模块70中。接收语言模型的步骤由图3中的方框78所描述。
为了适配语言模型,系统60最好使用存储在主题数据存储器72中的信息作为用来适配存储在模块70中的语言模型的文本集的一个部分。主题数据存储器72最好包括一个当前正在使用的文档,本用户所使用的其它文档,或者本用户读取、存储、或本用户用作识别与当前任务有关的其它文档。
通常,这种用户有关或当前主题有关或任务有关的数据量是不足以快速地对存储在模块70中的语言模型进行适配,或者不足以生成一个更好的用户/任务有关的语言模型。因此,系统60利用存储在主题数据存储器72中的用户/任务有关的信息来生成一个基于普通数据存储74的查询。而普通数据存储74可能包含可以通过互联网(例如,通过WAN52)来访问的一个或多个数据库、一个资料馆数据库或者可以通过系统60(如通过LAN51)来访问的另一个合适的大型数据库。基于普通数据存储74的查询由图3中的方框80所描述。
用来生成和执行普通数据存储74中的查询这种指定的信息检索技术就本发明的这个特征来说,并不是关键的技术。而且,任何合适的查询建造技术和信息检索技术都能够使用。只应该注意到,按照本发明的这种技术,执行适配同返回更多相关的文档的信息检索技术一同执行会更好。
另外,由信息检索查询识别出的这些文档能被检索到。这由方框82所描述。在一个首选实施例中,按照图3中所描绘的虚线84,处理过程简单地延续到方框86中。在那个首选实施例中,作为基于普通数据存储74所执行的查询的结果,存储在模块70中的主题语言模型根据存储在主题数据存储72中的信息,以及从普通数据存储74中检索到的信息进行调整或适配。因此,由语言模型生成的概率估算值被按照包含了主题数据存储72中的信息和从普通数据存储74中检索到的信息这两者的文本集来进行调整。这就为适配存储在模块70中的语言模型提供了一个比简单地使用存储在主题数据存储72中的信息大得多的文本集。由于适配文本集比较大,因此,由语言模型上生成的概率能够被更好地估算,而且由此生成的语言模型产生一种更好的(即更快和更确切)模拟用户实际使用的机制。这个适配过程由方框86所描述。
对语言模型进行适配的方法能够采用某些方法中的任意一种。在一个首选实施例中,只有一个被普通数据存储74中的查询所检索到的文档的子集用于适配存储在模块70中的语言模型。而且,由普通数据存储器74中的查询所检索到的这些文档能够与那些已经包含在主题数据存储72中的文档进行加权。被检索到的这些文档最好少与那些在数据存储器72中所存储的文档进行加权。因此,被检索到的文档对模块70中所存储的语言模型产生的影响比已被存储的文档(或可能与用户相关的已知的文档)对模块70中所存储的语言模型产生的影响要小。
另外,能够使用另外一种方法对语言模型进行适配。查询的结果能够被用来建立一个与模块70中所存储的语言模型组合在一起的语言模型。这种组合方法能够利用任何已知的平滑技术,如插入、删除后插入或任何其它合适的技术来被实现。在本实施例中,删除后插入技术被用来适配模块70中所存储的主题语言模型,从普通数据存储器74中所检索到的文档和主题数据存储72器中所存储的文档被按如下进行加权:
λPr+(1-λ)Pt
其中Pr是一个由语言模型根据被检索到的文档生成的概率值;
Pt是一个由语言模型根据主题数据存储72中所存储的文档所生成的概率值;以及
λ是一个删除后插入型参数,一个最好由实验方法来确定其数值的参数。如果能确保信息检索技术是非常精确的,那么λ会取较大的数值(如0.8或0.9)。然而,当不能确保信息检索技术是非常精确时,λ可能取一个较小的数值(如0.4或0.5)。然而,λ的任何取值如0.1~0.9可能都是合适的。
在另外一个实施例中,λ的数值随着查询数量的增加而递增。换句话说,当已被执行的查询数有所增加时,由于主题数据存储器72中所存储的信息的数量可能是较大的,因此对语言模型进行适配的文本集可能会变得要么较大,要么较精确。因此,由信息检索技术检索到的文档可能会比那些初始就被检索到的文档具有更大的相关度。因而,λ的数值能够随着查询的数量的增加而递增。
此外,还应注意到,有几种语言模型能够由所检索到的数据来建立。例如一种语言模型能够利用相关度最好的100个文档来建立,而另外一种语言模型能够利用相关度最好的200个文档来建立,如此等等。然后,利用所检索到的文档建立的多个语言模型能够与来自主题数据存储72中的利用来自通用语言模型中的已知的相关的数据生成的语言模型组合起来。使用删除后内插技术的语言模型组合能够被表示为:
∑λiPi
这里,Pi是由第i个语言模型生成的概率,而0<=λi<=1是用于第i个语言模型的插入权值且∑λi=1。
一旦对语言模型进行适配,那么已被适配或调整的语言模型被用于语音识别中。这由方框88所描述。
按照本发明的首选的一个方面,系统60被配置为自动地和按间隔地重新生成一个主题有关的查询,并依据普通数据存储器74中所存储的信息管理此查询。例如,在这个首选实施例中,模块70中所存储的语言模型在执行过程中(如当用户正在使用系统60时)被适配。因此,当系统60刚被加电时,它可以被配置成首先执行查询和对语言模型进行适配,然后每次建立一个新的文档时也如此执行。然而,最理想的情况是,系统60被配置成甚至当一个文档正在被建立时,也生成一个新的查询和间隔地对该语言模型进行适配。因此,系统60能够被配置成,要么根据每个预定义的词数或每个预定义的时间间隔,要么根据其它任何标准来重复执行该查询。
无论什么标准,都用来设置一个查询门限。因此,由系统60决定查询门限是否已经被达到。如果达到,系统60产生另一个查询并按照方框80所描述的在普通数据存储中执行该查询。如果查询门限还没有达到,系统60按照正常情况简单地继续执行语音识别。这个过程由图3中的方框90和92所描述。
根据本发明的其它首选特征,也可以使用其它的信息对模块70中所存储的语言模型进行适配。这些特征由图3中的方框94、96和98来描述。例如,在一个首选实施例中,当该查询已经由普通数据存储器74中的信息执行完后,由该查询返回的每个文档的相关度就被确定。此时,这些文档按照相关度进行排序。这由方框94所描述。然后,被返回的一个文档子集(相关度超过关联门限值的那些文档)被用来适配语言模型。此外,按照方框96所描述的,被返回的这些文档能够根据相关度进行加权。然后,这些文档按照所加的权重被用来对模块70中所存储的语言模型进行适配。
在本发明的另一个首选实施例中,也可以使用其它信息对该语言模型进行调整,例如,系统60可以被配置来识别指定的应用,然后用户利用它来准备一个文档。例如,如果用户是在执行字处理应用中,那么该用户可以产生一个比该用户是在进行E-mail应用中更加正式的文档。系统60能够被配置来识别这种应用,并且也可以在利用普通数据存储器72中所包含的信息生成查询的过程中使用该信息,以便查找到较正式的文档(即有较正式的词模式和词序列的文档),或者直接地对由该查询所检索到的较正规的文档而不是所检索到的不太正规的文档进行更大的加权。另外,如果该用户不再使用备忘录模式,并由此正在生成一个内部备忘录,那么系统60能够被配置来在利用普通数据存储器74中所存储的信息生成查询的过程中,只对来自主题数据存储器中的相类似的备忘录文件进行检索。
按照本发明,也可以使用许多其它的参数。例如,在上班期间,用户可能想描述较为正规的文档,例如公司信件和备忘录文件,而在白天或晚上较晚的时候,用户可能想生成不很正规的文档,例如个人信件。因此,根据被用户正在建立的文档的时间,利用对来自主题数据存储器72中的、被建立在大致相同的时间上的文档进行检索,系统60能够被配置来生成该查询。系统60也能够被配置来简单地对根据查询所检索到的相类似的文档进行比其它文档更大的加权。
也应该注意到,有时可以不考虑该用户是否正在使用系统60的语音识别特性就对存储在模块70中的语言模型进行修正。只要系统60被加电,它就可以被配置成能够重复依托被存储在普通数据存储器74中的信息所进行的查询并能按照任何给定的准则对存储在模块70中的语言模型进行修正。
由此可见,本发明的语言模型修正特性可以被用来快速而有效地扩大用户指定的、可用的用于生成或提高存于模块70中的语言模型的数据的量。此用户指定的可用数据首先被用做一个对一个大信息存储器所进行的查询,以便识别出与用户指定的文档相类似的文本或文档。由此,用于生成或修正用户指定的、存于模块70中的语言模型的文本集合就是一个比实际需要大得多的集合,而语言模型所提供的概率也可被更好地估计出来。另外也应当注意到,创建或修正语言模型所使用的具体的方式,以及执行信息检索所使用的具体技术对于本发明的这些方面来讲都不是关键的,任何合适的技术都可以使用。
使用语言模型提高信息的检索
图4是一个流程图,它描述了一种技术,系统60能利用此技术,提高信息的检索。正如上面所述,在截止到某一单词的单词序列被给定(即单词的历史H被给定)的情况下,n元统计语言模型对该单词的概率进行估计。n元统计模型只认为在历史H中的前面n-1个词会对下一个词的概率产生影响。例如,bi-gram(或2元)语言模型认为只是前一个词会对后一个词产生影响。因此,在n元语言模型中,词出现的概率可被表示为如下:
方程式1:
P(w/H)=P(w/w1,w2,...w(n-1))
其中,w是感兴趣的词;
w1是词序列中的词w前面的第一个词;
w2是词w前面的第二个词;以及
w(n+1)是词w前面的位于第n-1个位置的词。
此外,词序列的概率依据被给定了历史的每个词的概率乘积来确定。因而,词序列w1…wm的概率可被表示为如下:
方程式2:
P ( w 1 . . . wm ) = Π i = 1 N ( P ( w i / H i ) )
当讨论语言模型时,词序列的复杂度的概念也是已知的。复杂度是表示语言模型的平均分支系数的一个统计量。换句话说,复杂度是一个在给定的感兴趣的词或词序列的情况下,被语言模型预测到的可能词的平均数的统计量。因而,在给定其历史的情况下,词序列w1…wm的复杂度能被表示为如下:
方程式3 Perp = exp [ - 1 M log ΠP ( w i / H i ) ]
= exp [ - 1 M ( Σ i = 1 M log ( Pw i / H i ) ) ]
此外,对于一个已给定的语言模型LM,词序列X的复杂度可表示
如下:
方程式4:
Perp ( x ‾ / LM ) = exp [ - 1 M Σ i = 1 M log ( P ( x ‾ / LM ) ) ]
因此,在给定语言模型的情况下,词序列的复杂度近似等于在给定词序列和它的历史的情况下,被该语言模型所预测到的词的平均数。这个数值会随着所使用的指定的语言模型的预测能力而变化。建造语言模型所使用的特定方法以及所使用的指定的语言模型对本发明而言不是关键的部分。
由于本发明涉及到语言模型,为了提高被系统60执行的信息检索的正确度,本发明的一个方面利用了复杂度的概念。为了实现此功能,系统60首先接收或创建一个通用语言模型,如图4中方框100所示。于是,系统60能够用语言模型生成器来配置。在这种情况下,最好给语言模型生成器提供一个训练数据的庞大的文本集,依据此庞大的文本集,在任何已知的和合适的条件下,语言模型生成器能产生一个通用的语言模型。训练数据最好是在普通数据存储74中所存储的信息(或信息的子集)。此时,该语言模型被存储在模块70中。然而,此外,也能够给系统60提供一个直接地装载到模块70中的、传统的、商业上可使用的通用语言模型。在另一种方法中,系统60从另一个庞大的文本数据集中而不是从普通数据存储74中的数据中生成通用的语言模型。在首选的实施例中,系统60既可以生成一个三元语言模型,也可以被提供一个三元语言模型。
然后,系统60接收或创建一个与用户所感兴趣的指定的主题相关的主题语言模型。其次,系统60能够被提供一个商业上可用的主题语言模型,或者能够生成和训练一个它自己的主题语言模型。
为了生成一个主题语言模型,用户最好给系统60提供与指定的感兴趣的主题相关的训练数据。例如,用户可能有几篇文章,而且可能希望从普通数据存储74中所存储的信息中检索出其它的类似的文章。也就是说,用户能够简单地提出一个搜索查询或对系统提出请求。利用相关的文章,系统60也可以生成主题语言模型,也就是说,使用那些相关的文章的一部分文本表示一种利用在普通数据存储74中所存储的信息的查询,而依据此查询所检索到的信息与用户所提供的信息组合在一起被用来生成该主题语言模型。在另一个首选实施例中,当用来生成主题语言模型的训练数据不足够多时,先使用这些不足的数据生成主题语言模型,然后与通用语言模型组合在一起获得新的主题语言模型。组合技术对本发明而言不是关键的部分,该技术能够使用平滑技术例如插入、删除后插入或者其它任意合适的技术来实现。接收或创建主题语言模型的过程由图4中方框102所描述。
在通用语言模型和主题语言模型被系统60生成或接收之后,系统60负责给被认为是处于信息检索过程中的普通数据存储74中的每个文档(或文档的一部分)分配一个相似度。为了实现此目的,系统60首先从普通数据存储74中选取一个文档。这由方框104所描述。
其次,对于通用语言模型,系统60确定该文档的复杂度,这由方框106所描述。它可以表示如下:
方程式5
             Perp(doci/GLM)
其中,GLM代表通用语言模型;而
doci代表被选取的文档。
然后,针对主题语言模型,系统60确定该文档的复杂度,这由方框108所描述。它可以表示如下:
方程式6
        Perp(doci/TLM)
其中,TLM代表主题语言模型。
然后,依据方框106和108中所确定的复杂度,针对被选取的文档,系统60确定相关度。相关度最好用两者的复杂度的比值来表示,如下所示:
方程式7
Perp ( doc i / GLM ) Perp ( doc i / TLM )
回想一下,一个文档(如一个词序列)的复杂度,在给定的一个指定语言模型的情况下,表示在给定该文档的情况下该语言模型可能预测到的词的近似的平均数。因此,如果复杂度的数值偏高,那么,根据文档中所使用的术语,用来生成该语言模型的训练数据还没有将该语言模型训练好。因而,在训练中的文档不可能与被用来生成该语言型的训练数据相关联。然而,如果该文档的复杂度低,那么,根据文档中所出现的术语,用来生成该语言模型的训练数据可能已经将该语言模型训练好了,而且,该文档可能与被用来生成该语言模型的训练数据相关联。
因此,在一个首选实施例中,相似度仅能利用主题语言模型来返回。然而,在一个较好的首选实施例中,能够利用主题语言模型和通用语言模型两者。其原因为不管训练中的文档是否是关联的文档,但该文档中的一些语言结构可能会或多或少地出现一些。希望即使利用主题语言模型的复杂度所获得的原始相关度偏高,但信息检索系统会不加区别地对待那些相似的文档。如果情况是这样,而且在感兴趣的文档中所使用的语言结构相当少,那么,由通用语言模型所返回的复杂度值也将是高的。利用通用语言模型和主题语言模型所确定的复杂度比值,系统实际返回一个由基线(通用语言模型)所确定的数值,而该数据要比主题语言模型中直接利用文档的复杂度所返回的原始数值更有意义。因而,将相关度表示为两个复杂度的比值可以确保会产生更加精确的相关度。
类似地,不论所感兴趣的主题如何,如果在所感兴趣的文档中使用的语言结构是相当普遍的,那么,由主题语言模型所返回的复杂度数值将是相当低的。尽管该文档可能与其它文档不是非常相关的。但是,由通用语言模型所返回的复杂度数值也可能将是非常低的。因此,将相关度表示为两个复杂度的比值可以确保信息检索技术会对相关度较高的文档进行检索。
依据复杂度确定所选取的文档的相关度的步骤由方框110所描述。作为两个复杂度的比值,关联因子的表达式可以扩展如下:
方程式8
relevancy = exp [ - 1 M Σ i = 1 M log ( P G ( w i / H i ) ) ] exp [ - 1 M Σ i = 1 M log ( P r ( w i / H i ) ) ]
= exp [ - 1 M ( Σ i = 1 M log P G ( w i / H i ) - Σ i = 1 M log P r ( w i / H i ) ) ]
其中,Pt=对于主题语言模型而言,在给定词序列的历史的条件下该词序列的概率值;以及
PG=对于通用语言模型而言,在给定词序列的历史的条件下该词序列的概率值。
一旦相关度已经确定,系统60便判断该相关度是否满足相关度门限值。相关度门限值可以通过用户输入进行预定义或依据由系统60所检索到的文档的数量,或者依据其它的标准进行适配。系统60仅仅判断该文档是否具有足够高的相关度以便将其提供给用户。这由方框112所描述。
如果该文档不能满足相关度门限值,那么,该文档被提供给用户,同时继续执行方框116的操作。然而,如果该文档能满足相关度门限值,那么,对于该文档进行检索并且该文档或者被存储在主题数据存储72中,或由输出设备76提供给用户。这由方框114所描述。
然后,系统60判断是否需要检查在普通数据存储74中的其它的文档。如果需要检查其它的文档,那么处理返回到方框104中,在该方框中选取另一个文档并确定该文档的相关度。如果设有更多的文档需要被检查,那么,继续执行方框118中的处理。这由方框116所描述。
一旦所有的文档(或者文档的一个子集)已经检查完了,系统60便能够或者将这些文档提供给用户并将其存储起来,或者按照相关度将文档进行排序。在按照相关度对文档进行排序的实施例中,系统60按照为每个文档所确定的相关度直接地将这些文档进行排序。然后,系统60能够或者把按照相关度已被排序了的文档提供给用户,或者依据此排序直接地提供一个被检索的文档的子集。这由方框118所描述。
可以看到,利用这种技术,通用语言模型仅需要依据存储在普通数据存储74中的信息或者依据该信息的一些有代表性的样本被生成一次。另外,当普通数据存储74中的信息的内容发生变化时,可以间隔地适配通用语言模型。针对由用户所提供的每个查询,主题语言模型最好被生成一次。
本发明的一个方面是提供了一种技术,该技术利用信息检索来提高和适配语音识别过程中所使用的一个或多个语言模型。为了寻找相似的文档以扩大用来创建或适配语言模型的训练数据,系统利用已经由用户所生成的文本的已有的历史来直接地创建和适配语言模型,并按照普通数据存储直接地传输一个主题有关的查询。这就提供了一个比过去所使用的粗略的、预先设定好的、与主题有关的语言模型要精确得多的语言模型。基于数据量庞大的数据存储中的查询最好也被周期地或间隔地重复执行,以便按照递增的精确度获得动态地被适配的语言模型。
本发明的另一个方面是利用语言模型来提高信息检索技术。系统最好获得一个通用语言模型和一个主题语言模型(要么利用上面所描述的技术,要么利用其它的已知技术)。然后,系统依据由所获得的语言模型返回的复杂度数值,计算出被检索到的文档的相关度。由于语言模型是与上下文相关的模型,因此,为确定文档的相关度,系统不仅要考虑词本身,而且要考虑这些词所出现的上下文。这不仅提高了信息检索技术的查全率而且也提高了信息检索技术的精确度,从而对被检索的文档中出现的相关信息提供了更加精确的似然(或概率)估算,并由此给信息检索系统提供了更好的性能。
尽管本发明已结合着首选实施例进行了详细的描述,精通本领域的人会知道,在不背离本发明的实质和范围的情况下对本发明在形式和细节上进行适配是可能的。

Claims (22)

1.一种对用于语音识别系统中的语言模型进行适配的方法,该语音识别系统可以访问第一类数据存储器和第二类数据存储器,其中第二类数据存储器比第一类数据存储器的数据量要大,该方法包括:
依据在第一类数据存储器中所包含的信息生成信息检索查询;
依据所生成的查询,对第二类数据存储器执行查询;
依据该查询从第二类数据存储器中检索信息;以及
依据被检索到的信息和第一类数据存储器中的信息,对该语言模型进行适配。
2.权利要求1的方法还包括:
当用户正在使用语音识别系统时,重复生成、查询、检索和适配的步骤。
3.权利要求2中的方法,其中当用户正在使用该语音识别系统时,生成、查询、检索和适配的步骤能间隔地执行。
4.权利要求1的方法,其中生成一个信息检索查询包括:
依据以前被用户创建的文档和被存储在第一类数据存储器中的文档来生成信息检索查询。
5.权利要求1的方法,其中生成一个信息检索查询的步骤包括:
依据在被用户准备的文档中所包含的信息来生成一个信息检索查询。
6.权利要求1的方法,其中生成一个信息检索查询的步骤包括:
依据与被用户准备的一类文档相关的信息来生成一个信息检索查询。
7.权利要求6的方法,其中生成一个信息检索查询的步骤包括:
依据一个正在被用户用来准备该文档的模板来生成一个信息检索查询。
8.权利要求6的方法,其中生成一个信息检索查询的步骤包括:
依据一个正在被用户用来准备该文档的应用程序来生成一个信息检索查询。
9.权利要求6的方法,其中生成一个信息检索查询的步骤包括:
依据用户正在准备该文档的一天中的一段时间来生成一个信息检索查询。
10.权利要求1的方法,其中对信息执行检索的步骤包括:
从第二类信息存储器中检索出大量的文档;以及
确定与每一个所被检索到的文档相关的相关度。
11.权利要求10的方法,其中对语言模型进行适配的步骤包括:
依据被检索到的具有能满足门限值的相关度的相关的文档来对语言模型进行适配。
12.权利要求11的方法,其中对语言模型进行适配的步骤包括:
给每个相关的文档分配一个权重;以及
按照被分配给每个相关的文档的权重,依据这些相关的文档来对语言模型进行适配。
13.权利要求1的方法,其中从第二类数据存储器中检索信息的步骤包括从第二类数据存储器中检索出大量的文档,并且还包括:
给从第二类数据存储器中被检索到的文档分配比在第一类数据存储器中的信息较低的权重;以及
其中对语言模型进行适配的步骤包括依据在第一类数据存储器中的信息和被检索到的、按照在第一类数据存储器中的信息被加权的文档来对语言模型进行适配。
14.权利要求1的方法,其中语言模型包括词序列的概率估算值,以及其中对语言模型的适配的步骤包括:
依据在第一类数据存储器中的信息和从第二类数据存储器中所检索的信息,对概率估算值进行调整。
15.权利要求12的方法,其中给从第二类数据存储器中检索到的文档分配权重的步骤包括:
当第二类数据存储器被查询的次数增加时,给从第二类数据存储器中检索到的文档分配一个递增的权重,并至少直至该递增的权重达到某个权重门限值为止。
16.权利要求1的方法,其中对第二类数据存储器进行查询的步骤包括:
通过全局计算机网络查询信息。
17.权利要求1的方法,其中执行适配的步骤包括:
依据从第一个查询中所检索到的信息和在第一类数据存储器中的信息来构造第一种语言模型。
18.权利要求17的方法,其中执行适配的步骤还包括:
依据从一个后续的查询中所检索到的信息来构造第二种语言模型;以及
将第一种语言模型和第二种语言模型组合起来。
19.一种识别语音的方法,包括:
提供第一类数据存储器;
提供第二类数据存储器,第二类数据存储器比第一类数据存储器要大;
提供语言模型;
依据在第一类数据存储器中所包含的信息,生成一个信息检索查询;
依据所生成的查询,对第二类数据存储器进行查询;
依据该查询,从第二类数据存储器中检索信息;以及
依据被检索到的信息和在第一类数据存储器中的信息,对该语言模型进行适配。
20.权利要求19的方法还包括:
当用户正在使用该语音识别系统时,间隔地重复执行生成、查询,检索和适配的步骤。
21.权利要求20的方法,其中重复执行的步骤包括:
依据时间,间隔地重复执行这些步骤。
22.权利要求20的方法,其中重复执行的步骤包括:
在文档准备期间,当预定数量的一些词数已经被识别出来后,用户正在利用该语音识别系统准备文档时重复执行这些步骤。
CNB998045551A 1998-03-30 1999-02-09 基于语言模型的信息检索和语音识别 Expired - Fee Related CN1171199C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/050,286 US6418431B1 (en) 1998-03-30 1998-03-30 Information retrieval and speech recognition based on language models
US09/050,286 1998-03-30

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CNB031084869A Division CN1253821C (zh) 1998-03-30 1999-02-09 基于语言模型的信息检索方法

Publications (2)

Publication Number Publication Date
CN1295705A CN1295705A (zh) 2001-05-16
CN1171199C true CN1171199C (zh) 2004-10-13

Family

ID=21964405

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB031084869A Expired - Fee Related CN1253821C (zh) 1998-03-30 1999-02-09 基于语言模型的信息检索方法
CNB998045551A Expired - Fee Related CN1171199C (zh) 1998-03-30 1999-02-09 基于语言模型的信息检索和语音识别

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB031084869A Expired - Fee Related CN1253821C (zh) 1998-03-30 1999-02-09 基于语言模型的信息检索方法

Country Status (8)

Country Link
US (1) US6418431B1 (zh)
EP (1) EP1066625B1 (zh)
JP (2) JP4494632B2 (zh)
KR (1) KR100609253B1 (zh)
CN (2) CN1253821C (zh)
CA (1) CA2321112C (zh)
DE (1) DE69932044T2 (zh)
WO (1) WO1999050830A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425727A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 上下文语音查询扩大方法和系统

Families Citing this family (173)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628528B2 (ja) * 1998-10-26 2005-03-16 富士通株式会社 検索支援装置及び方法並びにその装置での処理をコンピュータにて行なわせるためのプログラムを格納した記録媒体
US6990628B1 (en) * 1999-06-14 2006-01-24 Yahoo! Inc. Method and apparatus for measuring similarity among electronic documents
KR100812109B1 (ko) 1999-10-19 2008-03-12 소니 일렉트로닉스 인코포레이티드 자연어 인터페이스 제어 시스템
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
WO2001039178A1 (en) * 1999-11-25 2001-05-31 Koninklijke Philips Electronics N.V. Referencing web pages by categories for voice navigation
US7113910B1 (en) * 2000-02-18 2006-09-26 At&T Corp. Document expansion in speech retrieval
US6957172B2 (en) 2000-03-09 2005-10-18 Smartsignal Corporation Complex signal decomposition and modeling
AU2001240127B2 (en) * 2000-03-09 2006-11-30 Smartsignal Corporation Generalized lensing angular similarity operator
DE10014337A1 (de) * 2000-03-24 2001-09-27 Philips Corp Intellectual Pty Verfahren zum Erzeugen eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
US7031908B1 (en) 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US7411108B2 (en) * 2000-06-30 2008-08-12 Chevron Phillips Chemical Company Lp Process for the removal of conjugated olefins from a monoolefin stream
US7490092B2 (en) 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US6618722B1 (en) * 2000-07-24 2003-09-09 International Business Machines Corporation Session-history-based recency-biased natural language document search
US6735587B2 (en) * 2000-07-28 2004-05-11 International Business Machines Corporation Maintaining pre-computed aggregate views incrementally in the presence of non-minimal changes
US6606597B1 (en) 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US20020087315A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented multi-scanning language method and system
US20020087309A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented speech expectation-based probability method and system
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
US6856957B1 (en) * 2001-02-07 2005-02-15 Nuance Communications Query expansion and weighting based on results of automatic speech recognition
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7072838B1 (en) * 2001-03-20 2006-07-04 Nuance Communications, Inc. Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data
US20030004996A1 (en) * 2001-06-29 2003-01-02 International Business Machines Corporation Method and system for spatial information retrieval for hyperlinked documents
US7146358B1 (en) 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6778995B1 (en) * 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US20030110023A1 (en) * 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
JP2003177786A (ja) * 2001-12-11 2003-06-27 Matsushita Electric Ind Co Ltd 言語モデル作成装置及びそれを利用した音声認識装置
DE10204924A1 (de) * 2002-02-07 2003-08-21 Philips Intellectual Property Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
US20030158725A1 (en) * 2002-02-15 2003-08-21 Sun Microsystems, Inc. Method and apparatus for identifying words with common stems
US7769592B2 (en) * 2002-02-22 2010-08-03 Nuance Communications, Inc. Automatic selection of a disambiguation data field for a speech interface
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition
US7490116B2 (en) * 2003-01-23 2009-02-10 Verdasys, Inc. Identifying history of modification within large collections of unstructured data
US7720680B2 (en) * 2004-06-17 2010-05-18 Robert Bosch Gmbh Interactive manual, system and method for vehicles and other complex equipment
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7392186B2 (en) * 2004-03-30 2008-06-24 Sony Corporation System and method for effectively implementing an optimized language model for speech recognition
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100651940B1 (ko) * 2004-08-31 2006-12-06 엘지전자 주식회사 음성 인식 장치 및 방법
KR100695127B1 (ko) 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
CN100421153C (zh) * 2004-10-22 2008-09-24 顾稚敏 一种预存式语言识别系统及其方法
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7606708B2 (en) * 2005-02-01 2009-10-20 Samsung Electronics Co., Ltd. Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition
US7739286B2 (en) * 2005-03-17 2010-06-15 University Of Southern California Topic specific language models built from large numbers of documents
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070106646A1 (en) * 2005-11-09 2007-05-10 Bbnt Solutions Llc User-directed navigation of multimedia search results
US9697230B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US20070106685A1 (en) * 2005-11-09 2007-05-10 Podzinger Corp. Method and apparatus for updating speech recognition databases and reindexing audio and video content using the same
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US9697231B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
EP2109097B1 (en) * 2005-11-25 2014-03-19 Swisscom AG A method for personalization of a service
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US9299345B1 (en) * 2006-06-20 2016-03-29 At&T Intellectual Property Ii, L.P. Bootstrapping language models for spoken dialog systems using the world wide web
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8275577B2 (en) * 2006-09-19 2012-09-25 Smartsignal Corporation Kernel-based method for detecting boiler tube leaks
US7272558B1 (en) 2006-12-01 2007-09-18 Coveo Solutions Inc. Speech recognition training method for audio and video file indexing on a search engine
US8311774B2 (en) 2006-12-15 2012-11-13 Smartsignal Corporation Robust distance measures for on-line monitoring
JP5072415B2 (ja) * 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
US20080319733A1 (en) * 2007-06-20 2008-12-25 At&T Corp. System and method to dynamically manipulate and disambiguate confusable speech input using a table
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8306810B2 (en) * 2008-02-12 2012-11-06 Ezsav Inc. Systems and methods to enable interactivity among a plurality of devices
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
EP2128774A1 (en) * 2008-05-29 2009-12-02 Accenture Global Services GmbH Techniques for computing similarity measurements between segments representative of documents
US8219397B2 (en) * 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
CN102272754B (zh) * 2008-11-05 2015-04-01 谷歌公司 定制语言模型
US8255412B2 (en) * 2008-12-17 2012-08-28 Microsoft Corporation Boosting algorithm for ranking model adaptation
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
US9442933B2 (en) * 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US11531668B2 (en) * 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US9223850B2 (en) * 2009-04-16 2015-12-29 Kabushiki Kaisha Toshiba Data retrieval and indexing method and apparatus
US8533223B2 (en) * 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9892730B2 (en) * 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA2772082C (en) 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US8527534B2 (en) * 2010-03-18 2013-09-03 Microsoft Corporation Bootstrap and adapt a document search engine
JP5790646B2 (ja) * 2010-05-20 2015-10-07 日本電気株式会社 パープレキシティ算出装置
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9081760B2 (en) 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
US8533195B2 (en) * 2011-06-27 2013-09-10 Microsoft Corporation Regularized latent semantic indexing for topic modeling
US9176941B2 (en) * 2011-07-14 2015-11-03 Tencent Technology (Shenzhen) Company Limited Text inputting method, apparatus and system based on a cache-based language model and a universal language model
US9256224B2 (en) 2011-07-19 2016-02-09 GE Intelligent Platforms, Inc Method of sequential kernel regression modeling for forecasting and prognostics
US8660980B2 (en) 2011-07-19 2014-02-25 Smartsignal Corporation Monitoring system using kernel regression modeling with pattern sequences
US9250625B2 (en) 2011-07-19 2016-02-02 Ge Intelligent Platforms, Inc. System of sequential kernel regression modeling for forecasting and prognostics
US8620853B2 (en) 2011-07-19 2013-12-31 Smartsignal Corporation Monitoring method using kernel regression modeling with pattern sequences
JP5700566B2 (ja) * 2012-02-07 2015-04-15 日本電信電話株式会社 スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9043205B2 (en) * 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9251135B2 (en) * 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9564122B2 (en) 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9886432B2 (en) * 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10042845B2 (en) * 2014-10-31 2018-08-07 Microsoft Technology Licensing, Llc Transfer learning for bilingual content classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) * 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10140983B2 (en) * 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049666B2 (en) 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
US11281867B2 (en) * 2019-02-03 2022-03-22 International Business Machines Corporation Performing multi-objective tasks via primal networks trained with dual networks
US11151324B2 (en) * 2019-02-03 2021-10-19 International Business Machines Corporation Generating completed responses via primal networks trained with dual networks
US11410644B2 (en) 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model
DE102020200503A1 (de) * 2019-12-23 2021-06-24 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Generieren von gelabelten Daten, insbesondere für das Training eines neuronalen Netzes, mittels Verbesserung initialer Label
US20230046851A1 (en) * 2021-08-13 2023-02-16 Avanade Holdings Llc Multi-model approach to natural language processing and recommendation generation
CN113722447B (zh) * 2021-11-03 2022-02-08 南京云问网络技术有限公司 一种基于多策略匹配的语音搜索方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
JPH04291399A (ja) * 1991-03-20 1992-10-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
JPH0713598A (ja) * 1993-06-24 1995-01-17 Osaka Gas Co Ltd 特定タスク音声データベース生成装置
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5668928A (en) * 1995-01-31 1997-09-16 Kor Team International, Inc. Speech recognition system and method with automatic syntax generation
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JP3126985B2 (ja) * 1995-11-04 2001-01-22 インターナシヨナル・ビジネス・マシーンズ・コーポレーション 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708184A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425727A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 上下文语音查询扩大方法和系统

Also Published As

Publication number Publication date
CA2321112C (en) 2005-01-11
JP4664423B2 (ja) 2011-04-06
CN1253821C (zh) 2006-04-26
EP1066625A1 (en) 2001-01-10
DE69932044D1 (de) 2006-08-03
US6418431B1 (en) 2002-07-09
KR100609253B1 (ko) 2006-08-04
DE69932044T2 (de) 2006-11-23
JP2009238235A (ja) 2009-10-15
EP1066625B1 (en) 2006-06-21
JP2002510076A (ja) 2002-04-02
CN1474378A (zh) 2004-02-11
JP4494632B2 (ja) 2010-06-30
WO1999050830A1 (en) 1999-10-07
KR20010042377A (ko) 2001-05-25
CA2321112A1 (en) 1999-10-07
CN1295705A (zh) 2001-05-16

Similar Documents

Publication Publication Date Title
CN1171199C (zh) 基于语言模型的信息检索和语音识别
CN1096038C (zh) 基于贝叶斯网络的用于文件检索的方法和设备
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
CN1573923A (zh) 用于用户模型化以增强对命名实体识别的系统和方法
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
US8073877B2 (en) Scalable semi-structured named entity detection
US7831911B2 (en) Spell checking system including a phonetic speller
US7739286B2 (en) Topic specific language models built from large numbers of documents
CN1229772C (zh) 语音识别模式错误校正系统和方法
CN1871603A (zh) 处理查询的系统和方法
CN1573926A (zh) 用于文本和语音分类的区别性语言模型训练
CN1662955A (zh) 借助压缩分配和定域格式存取的大词汇量语音识别的模式匹配
CN1750002A (zh) 提供搜索结果的方法
EP2480995A1 (en) Searching for information based on generic attributes of the query
CN1846210A (zh) 利用本体存储并检索数据的方法及装置
CN1904886A (zh) 在多个文档之间建立链接结构的方法和装置
CN1877583A (zh) 访问标识索引系统及访问标识索引库生成方法
WO2009003328A1 (fr) Système et procédé de requête de données
CN1158621C (zh) 信息处理装置、信息处理方法
CN1542650A (zh) 语法创造中的分段歧义的自动解析
JP5211000B2 (ja) ランキング関数生成装置、ランキング関数生成方法、ランキング関数生成プログラム
JP4461854B2 (ja) 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2000075892A (ja) 音声認識のための統計的言語モデル作成方法および装置
CN102750278A (zh) 信息的获取方法和装置
CN106156141B (zh) 构建语义查询词模板的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150422

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150422

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington, USA

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20041013

Termination date: 20180209

CF01 Termination of patent right due to non-payment of annual fee