CN1249667C - 声控服务 - Google Patents

声控服务 Download PDF

Info

Publication number
CN1249667C
CN1249667C CNB951958410A CN95195841A CN1249667C CN 1249667 C CN1249667 C CN 1249667C CN B951958410 A CNB951958410 A CN B951958410A CN 95195841 A CN95195841 A CN 95195841A CN 1249667 C CN1249667 C CN 1249667C
Authority
CN
China
Prior art keywords
word
subclauses
clauses
speech recognition
tabulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB951958410A
Other languages
English (en)
Other versions
CN1164292A (zh
Inventor
D·J·艾特沃特
S·J·怀特提克
F·J·斯凯希尔
A·D·西蒙斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bt Levin Scott LLC
Cisco Levin Scott LLC
Cisco Technology Inc
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of CN1164292A publication Critical patent/CN1164292A/zh
Application granted granted Critical
Publication of CN1249667C publication Critical patent/CN1249667C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/35Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
    • H04M2203/355Interactive dialogue design tools, features or methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2242/00Special services or facilities
    • H04M2242/22Automatic class or number identification arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42059Making use of the calling party identifier
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42085Called party identification service
    • H04M3/42093Notifying the calling party of information on the called or connected party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42085Called party identification service
    • H04M3/42102Making use of the called party identifier

Abstract

一种用于访问一个数据库的方法和设备,其中条目都被连接到至少两个样本集。识别装置在一个接收的信号内识别第一样本集内的一或多个样本。被识别的样本被用来识别条目并编辑一个在第二样本集内样本的列表,其中那些条目又是被连接至这些样本的。然后该列表被用来识别一个第二接收信号。举例来说,该接收的信号可以是声音信号或表明该信号话源或目的地的信号。

Description

声控服务
本发明涉及使用语音识别的自动声音交互服务,它特别适合,但不仅仅适合,在电话网络上使用。
一个典型的应用是一种查询服务,其中使用者被问及一些问题以引出一些答复,这些答复在由语音识别器识别之后,允许用户访问一个信息库中的一个或多个想要的条目,这种应用的一个例子是一种号码簿查询系统,其中一个查询电话订户的电话号码的用户被要求给出该用户地址的城市名和道路名,以及订户的姓氏。
根据本发明的一个特点,它提供有一个语音识别设备,该设备包括含有要识别的条目和信息的数据存贮,其中信息用于为每个条目定义一个与第一组字表中的一个字的联接和一个与第二组字表中的一个字的联接;语音识别装置;以及可操作的控制装置:
a)用于控制该语音识别装置以便通过参考用于第一组字表的识别信息来识别尽可能多的、满足一个预先确定的与第一接收声音信号相似的标准的第一组字表中的字。
b)在这样的识别的基础上,编辑一个第二组字表中所有字的列表,它们被定义与条目相关联,而条目又被定义与所识别的第一组字表中的字相关联;
c)控制该语音识别装置以便通过参考用于第二组字表的识别信息来识别该列表中的与第二接收声音信号相似的一或多个字。
更可取地,根据第一声音信号的接收该语音识别装置可操作地用于为每个识别的字产生一个它与第一声音信号相似性的度量,而且该控制装置可操作用于为该列表中的每个字产生一个从第一组字表中相关字(也就是说,第一组字表中那些识别出的字,它们同列表中的字具有一个共同的条目)的度量中得到的度量。接着,该语音识别装置基于第二声音信号的接收可操作用于进行对列表中一个或多个字的识别,该识别是按照一个根据为列表中的字所产生的度量来加权的识别过程进行的。
该设备还可以包括一个包含用于第二组字表中所有字的识别数据的存贮器,并且控制装置在列表被编辑之后并在识别该列表中的字之前,可以操作用来在识别数据存储器中标记在其中的那些对应于不在列表中的字的数据项或是那些对应于在列表中的字的数据项,由此,识别装置可以忽视所有那些标记过的或是分别没标记过的字。
另一方面,识别数据可在识别前或是在识别中动态地生成,在列表编辑之后可操作控制装置以便为列表中的每个字生成识别数据。用于动态地生成识别数据的方法不属于本发明的范围,但对那些该领域的技术人员来说则是清楚的。
更可取地,该控制装置可操作用于选择输出那个或那些被定义既与第一字表中识别出的字相关联又与第二字表中识别出的字相关联的条目。
数据的存贮器还可以包含为每个条目定义一个与第三字表中的字相联接的信息,控制装置可操作用于:
d)编辑一个第三字表中所有字的列表,它们均被定义为与条目相连,其中每个条目又被定义为既同一个第一字表中识别出的字相连又同一个第二字表中识别出的字相连;并且
e)控制语音识别装置以便通过参考存贮的用于第三字表的识别信息来识别列表中的与第三接收声音信号相似的一或多个字。
另外,也许还应包括用来存贮至少一个接收的声音信号的装置,该设备被安置用来执行一个附加的识别过程,其中控制装置可操作用于:
a)控制语音识别装置以便通过参考存贮的用于第二字表的识别信息来识别符合一个预定的与第二接收声音信号相似的标准的第二字表中的多个字;
b)编辑一个第一字表中所有字的附加列表,它们被定义为与条目相连,这些条目又被定义为与第二字表中识别出的字相连;
c)控制语音识别装置以便通过参考存贮的用于第一字表的识别信息来识别所说的附加列表中相似于第一接收声音信号的一或多个字。
更可取地,该设备包括用于识别一种失败的情况并只在这种失败被识别到时初始化所说的附加识别过程的装置。
该设备可以包括一个电话线路联接;一个用于识别通过电话线路联接所接收到的讲述的字的语音识别器,识别是参考代表一组可能的发音的识别数据进行的;以及响应于通过电话线路联接接收到的表明一个电话的起始和目的端的信号的装置,用来访问所存贮的用于确定发音集合的一个子集的信息并限制识别器只对那个子集操作。
根据本发明的一个进一步的特点,一个电话设备包括一个电话线路联接;一个用于确定或确认通过该电话线路联接所收到的讲述字的说话人身份的语音识别器,它是参考对应于一组可能的说话人的识别数据进行的;以及响应于通过该电话线路联接接收到的表明一个电话的起始端和目的端的信号的装置,用来访问所存贮的用于确定说话人集合的一个子集的信息并限制识别器只对那个子集操作。
根据本发明一个更进一步的特点,一个电话信息设备包括一个电话线路联接,一个用于参考所存贮的多个的识别数据集之一来识别经该电话线路联接接收的讲述字的语音识别器,以及响应于通过该电话线路联接接收到的表明一个电话的起始端和目的端的装置,用来访问所存贮的用于确定其中一个识别数据集的信息并将该集合提供给识别器。
举例来说,所存贮的数据集可以对应于不同的语言或地区的口音,或者说,其中两个集合可以对应于不同类型电话设备的特性,比如一个移动电话信道的特性。
根据本发明进一步的特点,一个识别设备包括
一个定义第一样本集的存贮器;
一个定义第二样本集的存贮器;
一个包括要被识别条目的存贮器;
一个包含关联每个条目到第一样本集的一个样本和到第二样本集的一个样本的信息的存贮器;
可根据第一输入样本信号的接收操作用来识别第一字表中尽可能多的符合一个预定识别标准的样本的识别装置;
用来产生关联于一个条目的第二字表所有样本的一个列表的装置,其中该条目亦关联于第一字表中一个被识别的样本;以及可根据第二输入样本信号的接收操作用来识别列表中一个或多个样本的识别装置。
该样本可以代表语音,而且该识别装置可以是一个语音识别器。
根据本发明,一个语音识别设备包括:
(i)一个包含要识别的条目和为每个条目定义一个与第一信号集中一个信号的联接以及与第二字表中一个字的联接的信息的数据的存贮器;
(ii)装置,用于识别一个接收的信号为对应于第一集合中尽可能多的符合一个预定准则的信号。
(iii)可操作用于编辑一个第二字表中所有字的列表的控制装置,其中第二字表中的字被定义为与一些条目相连,这些条目又被定义与第一集合中被识别的信号相连;以及
(iv)可操作用于通过参考存贮的用于第二字表的识别信息来识别列表中相似于接收的声音信号的一个或多个字的语音识别装置。
更可取地,第一信号集是表示第二字表中字的拼写形式或其起始的一部分的声音信号,而识别装置由语音识别装置构成,它通过参考存贮的用于所说的拼写的声音信号的识别信息来操作。要不然,第一信号集可以是包含音调的信号,而识别装置则可以是一个音调识别器。该第一信号集可以表明接收信号的源和目的地。
根据本发明一个进一步的特点,一种通过参考所存贮的定义条目和字之间联接的信息来识别一个数据存贮器中条目的方法包括:
(a)识别出现在接收到的声音信号中的所说字的一个或多个;
(b)编辑那些被定义与条目相联的字的一个列表,这些条目又被定义与识别的字相联;
(c)识别出现在接收的声音信号中的列表中的一个或多个字。
在本发明的一个进一步的特点中,一个语音识别设备包括
(a)一个包含要识别的条目和为每个条目定义一个至少与两个字相连的联接的信息的数据存贮器;
(b)一个能通过参考存贮的用于一个定义的字表的识别信息来识别符合一些预定的与接收的声音信号相似的准则的至少一个字或字序列;
(c)一个控制装置可操作用于:
(i)编辑一个被定义与条目相联的字的列表,这些条目被定义为与一个先前由该语音识别装置识别出的一个字相联;以及
(ii)控制该语音识别装置以便通过参考存贮的用于编辑的列表的识别信息来识别与另一个接收的声音信号相似的一个或多个字,或是字序列。
根据本发明,一种通过参考一个存贮的待识别的字表的语音识别方法包括:
(a)接收一个语音信号;
(b)存贮该语音信号;
(c)接收第二个信号;
(d)编辑一个字列表,它是字表的一个子字表,作为第二信号的一个函数;
(e)向存贮的语音信号提供一个语音识别处理以便通过参考该列表识别该子字表中一个或多个字。
第二信号也可以是一个语音信号,而且第二信号可以通过参考代表字母表中字母的识别数据即可单个地又可作为序列被识别。要不然第二信号也可以是一种包含由键盘生成的音调的信号。
根据本发明的另一个特点,一种语音识别方法包括:
(a)接收一个语音信号;
(b)存贮该语音信号;
(c)对语音信号或一些其它信号执行识别操作;
(d)在该识别操作不满足一个预定的可靠性标准时,重新获取存贮的语音信号并对其进行一个识别操作。
本发明的一些实施方案将通过例子并参考附图给出描述,其中:
图1示意地画出了一个号码查询系统的结构;
图2是说明图1号码查询系统的操作的流程图;
图2a是说明图1的号码查询系统的操作的第二实施方案的流程图;
图3是说明CLI在图1的号码查询系统的操作中的用途的流程图;
图3a包括一个用于图1的号码查询系统的操作中的另外的信息收集步骤;
图4是说明图1的号码查询系统的另一操作模式的流程图。
现在所要描述的本发明的实施方案完成同介绍中所讨论的相同的号码查询任务。它的操作是首先向查询者询问城镇的名字,并使用一个语音识别器来识别的两个或更多的可能的城镇名。然后,它向查询者询问道路,并且再通过参考存贮的关于在任一候选城镇中所有道路名的数据对该问题的回答进行识别。类似地,询问姓氏,并且一个识别步骤随后处理所有候选城镇中所有候选道路名的识别数据。在每一步所保留的候选者的数量可以是固定的,或者(更可取地)是所有满足一个定义的接受的准则,比如:具有一个高于所定义的阈值的识别“分数”的候选者可以保留。
在详细描述处理过程之前,将参考图1描述号码查询系统的结构。一个语音合成器1被提供用来通过一个电话线路接口2,参考所存贮的在消息数据存贮器中的固定的消息,或是由主控单元4提供给它的可变的消息,向用户提供通告。来自该电话线路接口2的输入语音信号被送至一个语音识别器5,它能分别参考存贮在识别数据存贮器6,7,8中的城镇名、道路名或姓氏名识别数据来识别所讲出的字。
对于在由该号码查询服务覆盖的地区范围内的每个电话用户,主查询数据库9包括文本方式的包含该用户姓名、地址和电话号码的条目。城镇名识别数据存贮器6包括文本形式的包括在该查询数据库9中所有城镇名,以及用来使语音识别器5能识别从电话线路接口2接收的语音信号中的那些城镇名的存贮数据。原则上可以使用任何类型的语音识别器,但对于本说明书来说,假设语音识别器5是通过识别输入语音中不同的音素来操作,这些音素是通过参考在存贮器6中代表一个事先构造好的解码树结构的存贮数据从存贮在存贮器6中的城镇名的语音翻译利用viterbi算法解码的。用于道路名识别数据和姓氏名识别数据的存贮器7,8是以相同方式组织的。举例来说,虽然姓氏名识别数据存贮器8包含所有包含在该号码数据库9中的姓氏数据,但是它可由控制单元4控制使识别处理仅限于姓名的一个子集,典型的作法是标记识别数据的相关部分以使得该“识别树”被限制在只识别那些在所需要的名字子集内的名字。
这使得该“识别树”可以在电话开始之前被创建,然后在该电话期间被使用。通过限制识别树的有效子集,可以将计算资源集中于那些最可能讲出的字上。在那些说出这些最易于讲出的字之一的情形下,这将减少错误出现在识别过程中的机会。
在城镇名数据存贮器6中的每个条目,如上面所提到的,包括对应于出现在数据库9中每个城镇名的文本,其作用是作为一个连接存贮器6中条目和数据库9中条目的符号(虽然其它类型的符号也可被使用,如果更好的话)。如果需要,存贮器6可以包含用于每个城镇的一个条目,这样,用户可以使用它来参考由该数据库覆盖的地理位置,而不管是否所有这些名字实际存在于数据库中。值得注意的是一些城镇的名字并不唯一(在英国有4个城镇叫做Southend),而且一些城镇的名字带有相同的意思(比如,Hammersmith,它是伦敦的一个区,就在那个区的条目而言,它的意思同London相同。),同时,一个包括这种等效地名的等效数据存贮器39被提供,在每次对城镇名识别之后将参考该等效地名以返回被考虑要被识别的城镇名集合的额外的可能性。举例来说,如果“Hammersmith”被识别出,London被加到该集合;如果“Southend”被识别出,那么Southend-on-Sea,Southend(Campbeltown),Southend(Swanusea)和Southend(Reading)被添加。
如果需要,等效数据存贮器39可以包含道路和姓氏或者是名字的相似的信息,如果使用的话,比如,Dave和David被认为是表示相同的名字。
作为这种结构的一个可替代的方法,该词汇等效数据存贮器39可以作为一种在名字存贮器6,7,8中使用的符号和在数据库中使用的符号之间的翻译(不论该符号是否是文本方式的名字)。
使用文本来定义语音识别器的基本字表要求该识别器能把一个或多个文本符号关联到一个给定的发音上。也就是说对“识别树”来说,树上的每个叶结点要每一个或多个与之相附的文本符号。如果对识别器所要求的字表的限制也被定义为一个文本列表,那么,该识别器最好能只返回在那个列表中的文本符号,而不是关联于一次发音的符号,该发音与列表中一个符号相关,但又不是列表中代表它们自身的符号。
系统的操作通过图2中给出的流程图来说明。处理过程起始于一次输入电话呼叫的接收,由电话线路接口2以信号通知控制单元4;该控制单元通过指示语音合成器1播放(11)存贮在消息存贮器3中的消息要求呼叫方给出想要查询的城镇名来响应。呼叫方的回答由识别器接收(12)。然后识别器3参考存贮在存贮器6中的数据执行其识别处理过程(13),并将与接收到的回答最相似的城镇名传给控制单元4,或者更可取地,将所有那些符合一个预定的与接收的回答相似的阈值的城镇名传给控制单元4。我们假想(为了这个例子起见)有4个城镇名符合这个标准。控制单元4通过指令语音合成器播放(14)消息数据存贮器3中一条另外的消息来响应,并同时访问(15)号码数据库9来编辑能在任何一个对应于那4个城镇名的地理位置上发现的所有道路名的列表和通过访问等效数据存贮器39获得的任何附加的地点条目的列表。然后,它使用(16)该信息更新道路名识别数据存贮器7,以便识别器3能够只识别在这个列表中的道路名。
下一步是从呼叫方接收(17)关于该道路名的进一步回答,并且通过识别器3利用数据存贮器7处理该回答;假设有5条道路名符合识别标准。然后,控制单元4命令播放(19)另一条消息询问想要查询的电话用户的名字,并同时从数据库9中获取居住在4个地理位置中任一个(和任一等效名)具有这5个道路名中任何一个名字的道路上的所有用户姓氏的一个列表,控制单元4还以如上面描述的用于更新道路名识别数据存贮器的类似的方式更新姓氏名识别数据存贮器8。一旦用户的回答被识别器接收到(22),就可参考在姓氏名识别数据。存贮器中的数据识别(23)姓氏名。
当然有可能有不只一个姓氏满足识别的标准,在任一情况下,数据库9可能对相同城镇中相同道路上相同的名字有不只一个条目。因此在步骤24,对具有识别出的姓氏名之一和识别出的道路名之一以及识别出的城镇名之一的号码条目的数量进行检测。如果该数量是易处理的,比如说如果它是3或更少,那么,控制装置指令(25)语音合成器播放一条从消息数据存贮器3中的消息,其后紧跟着由语音合成器I利用文本-语音合成产生的每个条目的姓名、地址和电话号码的叙述,该过程完毕(26)。另一方面,如果条目的数量过大,那么进入步骤27,将在下面进一步讨论,将是必需的以保证符号呼叫者的查询。
我们将会看到被描述的过程的错误率将比在识别过程的每一步只选择一个候选的城镇、道路或姓氏的系统低,这是因为通过保留第二和更多的候选选择由于误识而造成的错误的可能性被减少,尽管由于扩大的字表增大了误识的机会。当然对这个增加的可靠性的补偿是增加的计算时间,但是通过确保道路名和姓氏名识别过程只在数据库中道路名和姓氏名总数上的一个有限的数量上进行,计算量能被保持在易处理的大小。
而且,同一个二级识别不受前级识别结果限制的系统相比(比如,一个系统其中“道路”识别过程不是限制在已识别出的城镇的道路中进行),所提出的系统在使用在内部“削减”中间结果的识别器时(比如那些使隐马尔可夫模型的识别器),不易于从不想要的城镇的其它候选道路中除去所要的候选者。
还会看到,在大多数应用中,可能的列表的数量应大到足以预先阻止其准备,因此列表的结构是按所要求的完成的。当识别器是一种要求建立一个特别的字表的识别器(比如,使用隐马尔可夫模型的识别器)时,共有两种可选方法用于更新相关的存贮器以限制识别器的操作只对列表中的字进行。一种方法是以一个完全调定的识别器开始,并且使所有不在列表中的字无效;另一种方法是消除相关的识别数据存贮器并重新建立它(或是完全地,或是通过向一个固定的基本集合中添加字来实现)。必须要注意的是一些识别器不存贮所有可能要识别的字的识别数据。这些识别器通常具有一个与可能要识别的字相关的文字信息的存贮器但不预存数据以使得语音识别器能识别在一个接收信号中的字。在这种所谓的“动态识别器”中,识别数据既可立即在识别之前产生,又可在识别期间产生。
第一选择需要大的数据存贮器,但对任何列表大小来说它在计算上的花费相对是不大的。第二可选方法对于大的列表来说通常计算上的花费较大,但它需要小得多的数据存贮器,而且当数据变化非常频繁时是十分有用的。通常上,第一可选方法是较可取的,而第二可选方法只在较短列表或数据变化频繁的情况下被启用。
用于限制在步骤13,18或23的识别“提示”数量的标准是所有满足某些相似准则的候选者被保留,虽然,如果喜欢的话也可选用其它标准,比如,就是保留一个固定数量的候选者。在较早的识别步骤中,保留大量的较低得分的城镇名(所说的话)所带来的计算负担和其对识别操作的影响可能会被认为是不合理的,而相反保留具有相同得分的较少的城镇名可能更合理一些。在这种情况下,一个被识别的字的得分可以被因子加权,该加权因子取决于定位那个字的条目数,这样做是为了得到这种不同的选择。
在上面讨论的例子中,要被识别的字(比如道路名)的列表是根据先前的字(城镇名)的识别结果产生的。但是,在先前的识别步骤中或在列表中的单元并非必须是一个单个的字,它们也可是一串字。一种可能性就是一串由字母组成的名字,比如,用于城镇名识别步骤的字的列表可以从先前对问题“请拼出城镇名头四个字母”的答案进行的识别结果来准备。如果提供有录音功能(如下面要进一步讨论的),识别的顺序就没必要与接收回答的顺序相同(更自然的是首先询问讲述的字,接着是拼写的方式,虽然最好是以相反的顺序处理它们)。
在上面的描述中我们假设识别器总是产生一个结果,也就是说,对于接收到的回答给出最佳匹配的城镇(等等)名是一定会被识别出的。当然,在一个合理的准确匹配找不到的情况下,允许输出一个“失败”消息是可能的。在这种情况下可能需要进一步的操作。这可以简单地把该呼叫切换到手工操作者。另一方面,进一步的信息可自动地如图2a中所示的被处理。在本例中,一个低可信度匹配40仍然产生四个可能的候选城镇。由于这次匹配的可怀疑的准确性,另外一条消息被播放给呼叫者,向其询问一个可用来查对已有的识别结果的额外的回答。在本例中,考虑到在识别字表中所有城镇名字的所有允许的拼写,一个城镇名的拼写被要求41。在一个可靠的识别43之后,两个拼法被识别。这两个城镇名可被认为比先前识别的四个所说的城镇名更可信,但是对两个列表进行比较44可以揭示出列表中一个或多个共同的城镇名。如果是这样,那么46可以对这些共同的城镇名推断出具有很高可信度的结果,而且该查询可以,比如说,象图2中相同的方式进行,使用这些共同的城镇来准备道路名的识别15。如果没有发现共同的城镇名,那么这两个拼出的城镇名被保留47用于下一个步骤,即以这两个城镇名准备道路名的识别15,如图中所示,或是未在图2a中画出的一个不同的处理过程,举例来说,一个同用户一起对两个城镇名的更可信者的确认以便在进一步要求一信息之前提高系统的可靠性。
要识别的回答不必非要是对单个问题的单个回答。对于以这种方式工作的系统来说,它们可以是由识别器从一个连续句子中抽取出来的字。
另一种可能需要变化语音识别器的搜索范围的情况是其中它可以不根据先前的识别结果而是根据某些与查询相关的外部信息进行修改。在号码查询系统中,这可能是一个表明一次电话呼叫起始点的信号,比如说呼叫线路身份(CLI)或一个表明发端电话局的信号。在一个简单的实施中,这可被用来限制城镇名识别只对那些位于和那个呼叫者相同或相邻的电话局地区内的城镇名中进行。在一个更复杂的系统中,这种电话线或电话局的辨认可用于访问存贮的信息,这些信息被编辑用于表明所讨论的用户的查询模式或在那个地区的用户的查询模式(情况可能会是这样)。
举例来说,一个在特定区域内的号码查询抽样可能会表明40%的这种电话是想要与之在相同电话局地区内的电话号码,而20%是紧邻该地区的。单独的统计方式可能会被编辑用于商业或民用线路,或用于一天的不同时间,或用于其它观察趋势,比如,与发端线路的属性或地点无关的服务的全局使用统计。
这个方法的效果是对于常用的查询提高了系统的可靠性,其代价是不常用的查询可靠性的降低。这样一个系统的目标是使大多数常用的或直接的查询自动化,同时其它电话还可以用另一种方式处理,比如被接到一个操作员。
作为一个实例,图1额外地画出了一个CLI检测器20,(这里只用来表明发端电话局),它被用来从存贮器21中选择一个有关来自那个电话局的查询的可能的城镇名列表,被控制单元4用于截短该“城镇名”的识别,正如图3的流程图中所示,其中呼叫线路标记信号在步骤10a被检测,并且从存贮器21选择(12a)一个城镇名的列表,该列表随后被用来(12b)在城镇名识别步骤13之前更新城镇名识别存贮器6。该过程的其余部分与图2所示相同,故未画出。
这个方法的一个扩充是为了提高系统的可靠性和对于常用的查询的响应速度,同时还使用额外的信息来允许较不常用的查询得以进行。这样较不常用的查询仍然能够进行,但是需要由呼叫者提供比常用的查询更多的努力和信息。
作为一个例子见图3a,所讲的城镇名被询问11,而且CLI被检测到10a。如在图3中,接下来CLI与经常被呼叫者要求的同那个CLI身份相同的城镇名相关12a。这些城镇名更新所讲城镇名存贮器12b。该过程同图3中所示的相同。另外,当语音被收集用于识别时,它被存贮用于以后再次识别37。在识别13中使用的受限的城镇名的集合通常将是一个覆盖大部分查询的小字表。如果一个在该字表内的字被讲出并且被可靠地识别出48,那么该查询就会立即使用这个识别出的城镇名来准备道路名存贮器,并且继续如在图2中描述的步骤。
如果被识别出的字落在字表之外或可信度低,那么就播放一条额外的消息49向呼叫者询问更多的信息,在此情况下该信息是城镇名的头四个字母。同时,可进行一个附加的对所讲的城镇名的再识别,它能识别号码薄可能出现的任意城镇名。在本例中,我们假定四个城镇名被识别出54。同时,呼叫者可能正拼出城镇名的头四个字母50,并且两个拼写被可靠地识别51。随后这两个拼写被扩展至符合它们的完整的城镇名,有必要在准备拼写字表时预测通常的拼写错误,添加或遗漏字母,缩写和标点,接下来将拼写识别结果匹配于完整的城镇名。假设,在本例中,有五个城镇名符合这两个拼写。
一个在目的上与在图2a中描述的(44)相同的比较(55)可接下来在从那两个拼写提取的五个城镇名和四个再识别的城镇名之间进行。如果在这两组中发现共同的字,(假设在本例中只有一个共同的字),那么这个城镇名可以被可靠地假设为正确的,并且可以从它预备道路名识别数据存贮器7,而且该查询按图2中所示继续。
在其它情况下,讲述识别53可能会有错而且没有找到共同的字。作为另一种方法,城镇名53的识别和其此后的比较55可被作为可选项并被省略。在这两个例子之中,所讲述的城镇名存贮器将被五个从那两个拼写52和被再次识别的讲述城镇名中获取的城镇名更新57。在例子中,我们假设只识别出一个单独的可信的城镇名。这个城镇名可以用于配置道路名识别数据存贮器7,而且该查询按图2中所示继续下去。
如上所述,限制在将字表严格限制于非常相象的字上的做法不必非要依赖于CLI。基于识别出的城镇名对道路名字表所做的准备本身就是一个例子,而且询问额外信息的方法,如图3a中所示,可用于,没有一个这种受到限制的识别结果是可信的情况下。全局观察或假定的行为也可用来以一个相似的方式限制一个字表(比如,城镇名存贮器)于CLI获取的信息,就像能表明一个电话的受话方的信号一样。举例来说,可以鼓励呼叫者拔打不同的号码以获取特殊的信息。当接收到由普通设备上传来的要求所有信息的呼叫,拔打的号码决定了该设备的下一步操作中所使用的字表的子集。接下来该设备的操作将以类似于上述的与CLI有关的方式继续。
另外,可以在任何一种信息的基础上对一个收集的字再次识别,这个字被附加的信息比如在图3a中所拼出的四个字母限制,上述任何一种信息可以是比如说通过电话键的DTMF条目,或是对限制搜索范围的问题(比如说,“请说是或不是:该人住在城内吗?”)的是或否的回答。这个额外的信息可以基于对先前使用的不同的假设通过使用一个不同的地区存贮器21从CLI中获得。
在上述的实施方案中,没有考虑相对的识别概率,举例来说,如果城镇识别步骤13识别出城镇名Norwich和Harwich,那么在道路识别步骤18,当识别器不得不估计呼叫方是说“Wright Street”(我们假想它在Norwith)还是说“Rye Street”(在Harwich)的可能性时,有一个事实没有考虑到,即所说出的城镇名之于“Norwich”的相似性要比其之于“Harwich”的相似性大。但是,如果需要,识别器可被安排来产生(以已知方式)用以表明由识别器识别的每个候选和原始发音的相对的相似性数字或“得分”,并进而产生它是正确的假想概率。然后这些得分可被保留,同时在号码数据库中进行一次搜索,以获取下一次所希望字表的与识别出的字有关的字表条目的列表。然后,相应的匹配字的得分可以赋给这些新的字表条目。在从与先前字表的不只一个识别出的字的匹配中得到的一个字的情况下,例如两个得分中的最高者将被选中。这些得分可随后作为先验概率被送至下一个识别步骤来左右选择。这可以按图2中描述的过程来实现如下。
步骤13,识别器为每个城镇产生一个得分,比如:
Harwich 40%
Norwich 75%
Nantwich 20%
Northwich 15%
步骤15,当道路列表编好时,合适的得分被附给道路名,例如:
Wright Street 25%
Rye Street    40%
North Street(假定在Norwich和Nantwich中都存在)25%。
并存贮于存贮器7。
步骤18,当识别器开始识别路名时,它会以存贮器7中的得分来预加重识别网络(比如在隐马尔可夫模型的情况下)。然后它识别所提供的字,由此产生的效果是这些权重使得最可能的字不易被过早的裁剪掉。另一种方法,该识别器可以识别发音,并在识别后根据存贮器7中的内容调整它的最终得分。这第二个方法不会给模式匹配过程带来好处,但这两种方法都传递(propagate)逐个字表最后被选中的条目的相对的相似性。举例来说,考虑后加权的方法,如果该识别器已分别将得分60%,30%和10%分派给Wright Street,Rye Street和NorthStreet,那么加权后的得分将是,
Wright Street(Norwich)25%×60%=15%
Rye Street(Harwich)40%×30%=12%
North Street(Norwich和Nantwich)25%×10%=2.5%
对步骤20,21,23当然可做类似的修改。这恰好是一个用于得分传递方案的例子。
已经提到过在一个“失败”情况下切换至人工操作的可能性。另一种方法是简单地要求用户重复未被识别的操作。然而,在失败情况下,更自动化的步骤会被采用。
一个失败情况的辨别能通过低的识别器输出“得分”,或输出过多数量的全都具有相似得分的识别出的字(不管是参考当时的得分还是参考加权后的得分),或者通过将得分与那些由将语音和字表外的模型相比较的识别器所产生的得分相比较而看出。这种失败的情况会在象图2中城镇名识别步骤13那种不受限制的搜索中出现。在这种情况下,较好的结果可能会通过首先执行(比如)道路名识别步骤(不受限制)并编辑一个包含发现的道路的所有城镇名的列表来约束下面的城镇名识别步骤来获得。或者它也会出现在比如那些在图3中的步骤13或图2中的步骤18和23的受限制的搜索中,这里也许约束使得正确的候选者被从识别集中移去了;在这种情形时,移去限制,或应用一个不同的限制条件可能会改善情况。
这样,一个可能的方法是为录音呼叫者的回答作好准备,并在失败的情况下,使用在图2中开始的步骤再处理它们(除了“播放消息”步骤11,14,19),但原始的次序城镇名/道路名/姓氏有所改变。当然这些总共会有六种排列。用户可以选择其中一种(或多种)排列次序,其经验能表明它最有可能带来改进。这种再次处理的结果可以单独使用,或同先前结果结合使用,选择那些由两种处理都识别出的条目用于输出。
另一种可能性是执行一个另外的搜索,省略一个步骤并就“拼出的输入”的情况下而言比较结果。
如果需要,使用两个(或多个)这种顺序的处理可被例行地执行(而不是只在失败的情况下),为了减少延迟在第一个完成之前另一个序列就要开始;例如(在图4中),另一个不受限制的“道路名”搜索30在“哪个姓氏”消息期间执行(不记录道路名)。从中,一个姓氏名的列表被编辑(31)而且姓氏名存贮器被更新(32)。一旦列表中的姓氏名被识别出(33),一个城镇名列表被编辑(34)而且城镇名存贮器被更新(35)。接着,在步骤36,所讲的城镇名,先前存贮于步骤37,被识别出。然后,这两个识别处理的结果被编辑,并恰当地选择(38)那些被两个过程都识别出的条目。要不然,如果没找到共同的条目,可以使用由一个过程找到的条目或由另一个找到的或者由两个过程找到的。图4中画出的其余的步骤都与那些在图2中的相同。
存贮一次发音以及它在对稍后发音的识别之后在一个受限制字表识别过程中的使用的技术,已经被描述为一个与顺序处理过程并行使用的可选项,作为一个交叉检查而提供另外的识别结果以供在困难的情况下使用。但是,它仍可以单独使用,例如,在用户选择一种对自己来说是自然的提问顺序的场合,以便提高响应的速度和可靠性,但是要以一个更适合数据特性的顺序来处理答复。例如,在图4中,只使用右边的分支(但是仍保留步骤14,17,19和22供给它),也就是说,省略步骤15,16,18,20,21,23,38。
使用CLI来修正语音服务的期望值不必象已描述的那样局限于对期望的字表条目的修改。要求一定安全级别或身份辨认的查询系统也可利用CLI的优点。由CLI给出的电话呼叫的话源可被用于从存贮器提取与该话源有关的为系统所知的私人号码的身份。这个存储器也可以包括来自于个人的已经经过确认的代表性语音。如果只有一个人经授权从指定的话源访问给定的服务,或呼叫者通过额外的信息做出一个特别的声明来表明身份(比如一个DTMF或者讲述的私人辨认号码),那么所讲的发音从呼叫者处收集并且和存贮的与声明的身份相关的语音样本比较,以确认这个人就是他们所说的他们是的那些人。另一方面,如果有一定数量的个人与呼叫话源相关,那么,呼叫者的身份确认将通过收集来自于呼叫者的发音并将其与存贮的每个人的语音样本依次进行比较,选择满足某一可信度的最可能的候选者来实现。
CLI也可用来访问将语音识别模型关联于呼叫话源的存贮器。这些语音模型随后被装入被语音识别器使用的存储器。这样,比如一个来自蜂窝电话的呼叫可用经过蜂窝语音数据训练的语音识别模型来处理。在一个语音识别系统中对于地区性的口音或不同的语音处理也可得到相似的好处。

Claims (23)

1.一种语音识别设备,包括:
一个数据存贮器,其中包含有要识别的条目以及为每个条目定义一个同第一字表中的一个字关联和一个同第二字表中的一个字关联的识别信息;
语音识别装置,用于识别接收的语音信号;
控制装置用来:
控制该语音识别装置,以便通过参考用于第一字表的识别信息来识别尽可能多的第一字表中的且满足一个预定的与第一接收声音信号相似的标准的字;
基于这样的识别,编辑一个第二字表中所有字的列表,它们被定义与条目相关联,其中该条目又被定义与所识别的第一字表中的字相关联;
控制该语音识别装置,以通过参考用于第二字表的识别信息,来识别列表中满足与第二接收声音信号相似的预定标准的至少一个字;
根据列表的至少一个字识别一个特定的条目。
2.根据权利要求1的语音识别设备,其中语音识别装置接收第一声音信号后,可操作地为每个识别出的第一字表的字产生一个与第一接收声音信号相似性的概率度量;
控制装置可操作地为列表中的每个字产生一个对于第一字表中被识别的字的概率度量得出的加权度量;
语音识别装置根据第二声音信号的接收,按照一个与对于列表中的每个字所产生的加权度量有关的加权的识别过程,来进行对列表中至少一个字的识别。
3.根据权利要求2的语音识别设备,其中控制装置可操作地用于通过一个依赖于字表中被定义为与条目关联的字数的因子来加权对于列表中每个字的度量,其中所说条目又与所识别的第一字表中的字相关联。
4.根据权利要求2的语音识别设备,其中控制装置可操作地用于从列表中忽略掉第二字表中那些加权度量低于预定阈值的字。
5.根据权利要求1所述的语音识别设备,其中
该设备包括一个包含有对第二字表中所有字的识别数据的存贮器,
并且控制装置按照列表的编辑且在对列表中的字进行识别之前,可以操作地用于在数据存贮器中标记那些对应于不在列表中的字的数据项或是对应于在列表中的字的数据项,
由此,语音识别装置可以分别地忽略所有标记过的或是未标记过的字。
6.根据权利要求1所述的语音识别设备,其中控制装置可操作地用于根据编辑的列表来为列表中的每个字产生识别数据。
7.根据权利要求1所述的语音识别设备,其中控制装置可操作地用于选择输出那些被定义为既与第一字表中识别出的字相关联又与字表中识别出的字相关联的条目。
8.根据权利要求1所述的语音识别设备,其中:
数据存贮器还包含为每个条目定义一个与第三字表中的字相关联的信息,并且控制装置可操作地用于:
编辑第三字表中所有字的一个子列表,它们均被定义为与条目关联,其中每个条目又被定义为既与第一字表中识别出的一个字关联又与字表中识别出的一个字关联;并且
控制语音识别装置,以便通过参考用于第三字表的识别信息,来识别子列表中满足与第三接收声音信号相似的预定标准的至少一个字;
根据子列表的至少一个字识别一个特定的条目。
9.根据权利要求1所述的语音识别设备,包括:
用于存贮第一接收的声音信号的装置,
该识别设备被安排用于执行一个附加的识别过程,其中的控制装置可操作用于:
控制语音识别装置,通过参考用于第一字表的识别信息,来识别第一字表中符合一个预定的与第一接收的声音信号相似的标准的字;
编辑第二字表中所有被定义与条目关联的字的一个附加列表,这些条目又被定义与第一字表中识别出的字关联,并且
控制语音识别装置,以使得通过参考用于第二字表的识别信息,来识别满足与第二接收的声音信号相似的预定标准的附加列表中的至少一个字;
根据附加列表的至少一个字识别一个特定的条目。
10.根据权利要求9的语音识别设备,包括用于识别一种失败的情况并只在这种失败情况被识别到时初始化所说的附加识别过程的装置,当没有字被从列表中识别出时出现失败情况。
11.根据权利要求1所述的语音识别设备,还包括:
确定第一接收语音信号来源的装置;
用来访问所存贮的仅用于识别第一字表的一个子集的信息的装置,并用于根据接收语音信号的来源将第一字表的该语音识别装置的操作限制在那个子集上。
12.一种语音识别设备,包括
一个定义第一字表的存贮器;
一个定义第二字表的存贮器;
一个包含要识别的条目的存贮器;
一个包含关联每个条目到第一字表中的一个字和第二字表中的一个字的信息的存贮器;
根据第一声音信号的接收可操作地用于识别第一字表中符合预定识别标准的尽可能多的字的语音识别装置;
用来产生第二字表中关联于一个又关联于第一字表中被识别的字的条目的所有字的一个列表的装置,其中语音识别装置在接收到第二语音信号时,可操作地识别列表中的至少一个字;
根据对列表中至少一个字的识别来识别一个特定条目的装置。
13.一种识别设备,包括
一个定义第一样本集的存贮器;
一个定义第二样本集的存贮器;
一个包含要识别的条目的存贮器;
一个包含关联每个条目到第一样本集中一个样本和第二样本集中一个样本的信息的存贮器;
根据第一输入样本信号的接收可操作用于识别第一样本集中符合一个预定识别标准的尽可能多的样本的识别装置;
用来产生关联于一个又关联于第一样本集中一个被识别的每个样本的条目的第二样本集中所有样本的一个列表的装置;以及根据第二输入样本信号的接收,可操作地用于识别该列表中至少一个样本的识别装置;
用于根据对列表中至少一个样本的识别来识别一个特定的条目的装置。
14.一种语音识别设备,包括
一个数据存贮器,其中包含要识别的条目以及为每个条目定义一个与第一信号集中的一个信号的连接和一个与第二字表中一个字的连接的识别信息;
用于识别一个接收的信号的装置,该接收的信号对应于第一信号集合中尽可能多的符合一个预定标准的信号;
可操作地用于编辑第二字表中被定义与条目相连的所有字的列表的装置,这些条目又被定义与第一信号集合中被识别的信号相连;以及
可操作地用于通过参考用于第二字表的识别信息,来识别列表中满足与接收的声音信号相似的预定条件的至少一个字的语音识别装置;
其中控制装置根据列表的至少一个字,可操作地识别至少一个条目。
15.根据权利要求14的语音识别设备,其中第一信号集是代表第二字表中字的拼写形式或其一部分的声音信号,而语音识别装置包括一个词识别器。
16.根据权利要求14的语音识别设备,其中第一信号集是包含音调的信号,而且语音识别装置包括一个音调识别器。
17.根据权利要求14的语音识别设备,其中第一信号集是表明接收到的信号的来源或目的地的信号。
18.一种语音识别设备,包括:
一个数据存贮器,其中包含要识别的条目以及为每个条目定义一个与至少两个字相连的识别信息;
一个语音识别装置,它通过通过参考存贮的用于一个指定字表的识别信息来识别符合预定的与第一接收的声音信号相似的标准的至少一个字或字的序列;
一个控制装置,可操作地用于
编辑一个被定义与条目相连的字的列表,该条目被定义与一个先前由语音识别装置识别出的一个字相连;并且
控制该语音识别装置,以便通过参考用于所编辑的列表的识别信息,来识别满足与第二接收的声音信号相似的预定标准的至少一个字或字的序列。
19.一种通过参考一个存贮的要被识别的字的字表的语音识别方法,包括:
接收一个语音信号;
存贮该语音信号;
接收第二语音信号;
编辑多个字的一个列表,构成存储的字表的一个子字表,作为第二个信号的一个函数,
将存贮的语音信号和一个字表相比较;识别和存储的语音信号相似的至少一个字表。
20.根据权利要求19的一种方法,其中第二个信号也是一个语音信号。
21.根据权利要求19的一种方法,包括通过参考代表一个字母或字母表中一串字母的识别数据来识别第二信号的步骤。
22.根据权利要求19的一种方法,其中第二信号是一个包含由键盘产生的音调构成的信号。
23.根据权利要求19的一种方法,其中第二信号表明该第二信号的起源或目的地。
CNB951958410A 1994-10-25 1995-10-25 声控服务 Expired - Lifetime CN1249667C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AT94307843.6 1994-10-25
EP94307843 1994-10-25

Publications (2)

Publication Number Publication Date
CN1164292A CN1164292A (zh) 1997-11-05
CN1249667C true CN1249667C (zh) 2006-04-05

Family

ID=8217890

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB951958410A Expired - Lifetime CN1249667C (zh) 1994-10-25 1995-10-25 声控服务

Country Status (14)

Country Link
US (2) USRE42868E1 (zh)
EP (2) EP1172994B1 (zh)
JP (1) JPH10507535A (zh)
KR (1) KR100383352B1 (zh)
CN (1) CN1249667C (zh)
AU (1) AU707122B2 (zh)
CA (3) CA2372676C (zh)
DE (2) DE69525178T2 (zh)
ES (1) ES2171558T3 (zh)
FI (2) FI971748A0 (zh)
MX (1) MX9702759A (zh)
NO (1) NO971904L (zh)
NZ (2) NZ294296A (zh)
WO (1) WO1996013030A2 (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385312B1 (en) 1993-02-22 2002-05-07 Murex Securities, Ltd. Automatic routing and information system for telephonic services
DE69525178T2 (de) * 1994-10-25 2002-08-29 British Telecomm Ansagedienste mit spracheingabe
US5903864A (en) * 1995-08-30 1999-05-11 Dragon Systems Speech recognition
US5896444A (en) * 1996-06-03 1999-04-20 Webtv Networks, Inc. Method and apparatus for managing communications between a client and a server in a network
US5901214A (en) 1996-06-10 1999-05-04 Murex Securities, Ltd. One number intelligent call processing system
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
DE19709518C5 (de) * 1997-03-10 2006-05-04 Harman Becker Automotive Systems Gmbh Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
GR1003372B (el) * 1997-09-23 2000-05-04 Συσκευη καταχωρησης ψηφιοποιημενων φωνητικων πληροφοριων και ανακτησης τους μεσω τηλεφωνου με αναγνωριση φωνης
US6404876B1 (en) * 1997-09-25 2002-06-11 Gte Intelligent Network Services Incorporated System and method for voice activated dialing and routing under open access network control
KR100238189B1 (ko) * 1997-10-16 2000-01-15 윤종용 다중 언어 tts장치 및 다중 언어 tts 처리 방법
US6112172A (en) * 1998-03-31 2000-08-29 Dragon Systems, Inc. Interactive searching
US6629069B1 (en) 1998-07-21 2003-09-30 British Telecommunications A Public Limited Company Speech recognizer using database linking
US6778647B1 (en) * 1998-11-13 2004-08-17 Siemens Information And Communication Networks, Inc. Redundant database storage of selected record information for an automated interrogation device
US6502075B1 (en) * 1999-03-26 2002-12-31 Koninklijke Philips Electronics, N.V. Auto attendant having natural names database library
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US6421672B1 (en) * 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
DE19944608A1 (de) * 1999-09-17 2001-03-22 Philips Corp Intellectual Pty Erkennung einer in buchstabierter Form vorliegenden Sprachäußerungseingabe
US6868385B1 (en) * 1999-10-05 2005-03-15 Yomobile, Inc. Method and apparatus for the provision of information signals based upon speech recognition
GB2362746A (en) * 2000-05-23 2001-11-28 Vocalis Ltd Data recognition and retrieval
US20020107918A1 (en) * 2000-06-15 2002-08-08 Shaffer James D. System and method for capturing, matching and linking information in a global communications network
US6748426B1 (en) * 2000-06-15 2004-06-08 Murex Securities, Ltd. System and method for linking information in a global computer network
DE10035523A1 (de) * 2000-07-21 2002-01-31 Deutsche Telekom Ag Virtuelles Testbett
JP4486235B2 (ja) * 2000-08-31 2010-06-23 パイオニア株式会社 音声認識装置
JP2002108389A (ja) * 2000-09-29 2002-04-10 Matsushita Electric Ind Co Ltd 音声による個人名称検索、抽出方法およびその装置と車載ナビゲーション装置
DE50106815D1 (de) * 2000-11-03 2005-08-25 Voicecom Solutions Gmbh Robuste spracherkennung mit datenbankorganisation
DE10100725C1 (de) * 2001-01-10 2002-01-24 Philips Corp Intellectual Pty Automatisches Dialogsystem mit Datenbanksprachmodell
US7970610B2 (en) 2001-04-19 2011-06-28 British Telecommunication Public Limited Company Speech recognition
DE10119677A1 (de) * 2001-04-20 2002-10-24 Philips Corp Intellectual Pty Verfahren zum Ermitteln von Datenbankeinträgen
US6671670B2 (en) 2001-06-27 2003-12-30 Telelogue, Inc. System and method for pre-processing information used by an automated attendant
GB2376335B (en) * 2001-06-28 2003-07-23 Vox Generation Ltd Address recognition using an automatic speech recogniser
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7177814B2 (en) 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
JP3799280B2 (ja) * 2002-03-06 2006-07-19 キヤノン株式会社 対話システムおよびその制御方法
US7242758B2 (en) * 2002-03-19 2007-07-10 Nuance Communications, Inc System and method for automatically processing a user's request by an automated assistant
CN100502441C (zh) 2002-10-16 2009-06-17 皇家飞利浦电子股份有限公司 号码簿助理方法和设备
US7603291B2 (en) 2003-03-14 2009-10-13 Sap Aktiengesellschaft Multi-modal sales applications
CN100353417C (zh) * 2003-09-23 2007-12-05 摩托罗拉公司 用于提供文本消息的方法和装置
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
ATE400047T1 (de) * 2005-02-17 2008-07-15 Loquendo Spa Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen
US8533485B1 (en) 2005-10-13 2013-09-10 At&T Intellectual Property Ii, L.P. Digital communication biometric authentication
KR101063607B1 (ko) * 2005-10-14 2011-09-07 주식회사 현대오토넷 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법
US8458465B1 (en) 2005-11-16 2013-06-04 AT&T Intellectual Property II, L. P. Biometric authentication
US8060367B2 (en) * 2007-06-26 2011-11-15 Targus Information Corporation Spatially indexed grammar and methods of use
DE102007033472A1 (de) 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
EP2096412A3 (de) * 2008-02-29 2009-12-02 Navigon AG Verfahren zum Betrieb eines Navigationssystems
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
US8358747B2 (en) 2009-11-10 2013-01-22 International Business Machines Corporation Real time automatic caller speech profiling
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
US8645136B2 (en) 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9412369B2 (en) * 2011-06-17 2016-08-09 Microsoft Technology Licensing, Llc Automated adverse drug event alerts
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9691384B1 (en) * 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10395649B2 (en) 2017-12-15 2019-08-27 International Business Machines Corporation Pronunciation analysis and correction feedback

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4763278A (en) 1983-04-13 1988-08-09 Texas Instruments Incorporated Speaker-independent word recognizer
GB2161263B (en) 1984-07-05 1988-03-30 Stc Plc Associative memory systems
GB2165969B (en) * 1984-10-19 1988-07-06 British Telecomm Dialogue system
GB8625468D0 (en) * 1986-10-24 1987-04-15 Smiths Industries Plc Speech recognition apparatus
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
JP2880592B2 (ja) 1990-10-30 1999-04-12 インターナショナル・ビジネス・マシーンズ・コーポレイション 複合音声情報の編集装置および方法
US5267304A (en) 1991-04-05 1993-11-30 At&T Bell Laboratories Directory assistance system
CA2069599C (en) 1991-08-16 1997-05-06 Lawrence Richard Rabiner Interface method and apparatus for information services
US5170426A (en) 1991-09-12 1992-12-08 Bell Atlantic Network Services, Inc. Method and system for home incarceration
US5355474A (en) 1991-09-27 1994-10-11 Thuraisngham Bhavani M System for multilevel secure database management using a knowledge base with release-based and other security constraints for query, response and update modification
JP2524472B2 (ja) 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US5392343A (en) * 1992-11-10 1995-02-21 At&T Corp. On demand language interpretation in a telecommunications system
CA2091658A1 (en) * 1993-03-15 1994-09-16 Matthew Lennig Method and apparatus for automation of directory assistance using speech recognition
GB2277387A (en) * 1993-04-21 1994-10-26 Ibm Natural language processing system
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
DE69525178T2 (de) * 1994-10-25 2002-08-29 British Telecomm Ansagedienste mit spracheingabe

Also Published As

Publication number Publication date
EP0800698A2 (en) 1997-10-15
KR970706561A (ko) 1997-11-03
CA2372671C (en) 2007-01-02
DE69535797D1 (de) 2008-09-11
JPH10507535A (ja) 1998-07-21
EP1172994B1 (en) 2008-07-30
USRE42868E1 (en) 2011-10-25
AU3705795A (en) 1996-05-15
WO1996013030A3 (en) 1996-08-08
NZ334083A (en) 2000-09-29
WO1996013030A2 (en) 1996-05-02
ES2171558T3 (es) 2002-09-16
NO971904D0 (no) 1997-04-24
EP1172994A3 (en) 2002-07-03
CA2202663A1 (en) 1996-05-02
NO971904L (no) 1997-04-24
CA2372676A1 (en) 1996-05-02
DE69525178D1 (de) 2002-03-14
KR100383352B1 (ko) 2003-10-17
AU707122B2 (en) 1999-07-01
MX9702759A (es) 1997-07-31
EP0800698B1 (en) 2002-01-23
NZ294296A (en) 1999-04-29
CN1164292A (zh) 1997-11-05
CA2202663C (en) 2002-08-13
FI971748A (fi) 1997-04-24
FI981047A0 (fi) 1995-10-25
FI981047A (fi) 1998-05-12
CA2372671A1 (en) 1996-05-02
CA2372676C (en) 2006-01-03
EP1172994A2 (en) 2002-01-16
DE69525178T2 (de) 2002-08-29
FI971748A0 (fi) 1997-04-24
US5940793A (en) 1999-08-17

Similar Documents

Publication Publication Date Title
CN1249667C (zh) 声控服务
US6996531B2 (en) Automated database assistance using a telephone for a speech based or text based multimedia communication mode
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
CN1236423C (zh) 说话人声音的后台学习
US8065144B1 (en) Multilingual speech recognition
US7983911B2 (en) Method, module, device and server for voice recognition
CN1199148C (zh) 语音识别装置、语音识别方法
US8275618B2 (en) Mobile dictation correction user interface
US20060143007A1 (en) User interaction with voice information services
US20020087328A1 (en) Automatic dynamic speech recognition vocabulary based on external sources of information
US20070271086A1 (en) Topic specific models for text formatting and speech recognition
CN1711586A (zh) 声音识别用辞典编制装置和声音识别装置
CN101030368A (zh) 在保持情感的同时跨通道进行通信的方法和系统
KR20090085673A (ko) 음성 인식을 이용한 콘텐츠 선택
CN1394331A (zh) 具有替换命令的语音识别方法
CN1920946A (zh) 汽车接口
CN1273661A (zh) 用于开发交互式语音应用程序的系统和方法
CN103559880B (zh) 语音输入系统和方法
US7269563B2 (en) String matching of locally stored information for voice dialing on a cellular telephone
KR20060014369A (ko) 화자 종속 음성 인식 방법 및 음성 인식 시스템
CN114550718A (zh) 热词语音识别方法、装置、设备与计算机可读存储介质
KR100822170B1 (ko) 음성 인식 ars 서비스를 위한 데이터베이스 구축 방법및 시스템
US6658386B2 (en) Dynamically adjusting speech menu presentation style
CN111161718A (zh) 语音识别方法、装置、设备、存储介质及空调
CN1298171A (zh) 执行句法置换规则的语音识别装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BT RAVENSWOOD SCOTT CO., LTD.

Free format text: FORMER OWNER: BRITISH TELECOMMUNICATIONS PUBLIC LIMITED COMPANY

Effective date: 20061215

Owner name: CISCO TECHNOLOGY COMPANY VIRGINIA

Free format text: FORMER OWNER: SUCRE WENDSCOTT LIMITED LIABILITY COMPANY

Effective date: 20061215

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: SUCRE WENDSCOTT LIMITED LIABILITY COMPANY

Free format text: FORMER NAME OR ADDRESS: BT RAVEN SCOTT CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: Virginia

Patentee after: CISCO Levin Scott LLC

Address before: Virginia

Patentee before: BT Levin Scott LLC

TR01 Transfer of patent right

Effective date of registration: 20061215

Address after: Virginia, USA

Patentee after: Cisco Technology, Inc.

Address before: Virginia

Patentee before: CISCO Levin Scott LLC

Effective date of registration: 20061215

Address after: Virginia

Patentee after: BT Levin Scott LLC

Address before: London, England, England

Patentee before: BRITISH TELECOMMUNICATIONS PLC

CI01 Publication of corrected invention patent application

Correction item: Address of the patentee

Correct: California

False: Virginia

Number: 4

Volume: 23

CI03 Correction of invention patent

Correction item: Address of the patentee

Correct: California

False: Virginia

Number: 4

Page: The title page

Volume: 23

COR Change of bibliographic data

Free format text: CORRECT: PATENTEE ADDRESS; FROM: VIRGINIA TO: CALIFORNIA

ERR Gazette correction

Free format text: CORRECT: PATENTEE ADDRESS; FROM: VIRGINIA TO: CALIFORNIA

CX01 Expiry of patent term

Granted publication date: 20060405

EXPY Termination of patent right or utility model