CN1408173A

CN1408173A - 用于基于语音识别的信息信号提供的方法和设备

Info

Publication number: CN1408173A
Application number: CN00816729.XA
Authority: CN
Inventors: 艾拉·A·加森
Original assignee: JORMOBAYER CORP
Current assignee: BlackBerry Ltd
Priority date: 1999-10-05
Filing date: 2000-10-04
Publication date: 2003-04-02
Anticipated expiration: 2020-10-04
Also published as: WO2001026349A1; JP2003511914A; KR20020064792A; AU7750700A; CN100530355C; US6868385B1; USRE45041E1; USRE45066E1; JP4212809B2

Abstract

一种无线系统，包括至少一个与基础结构无线通信的用户单元。每个用户单元实现一个语音识别客户机，并且基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码语音信号取作输入(601)。然后把参数化语音提供给语音识别服务器，语音识别服务器又对参数化语音进行语音识别分析(602)。部分基于由语音识别分析标识的任何识别发声的信息信号，以后提供给用户单元(604)。信息信号可以用来控制用户单元本身；用来控制联接到用户单元上的一个或多个器件，或者可以通过用户单元或联接到其上的器件基于其操作(607)。

Description

用于基于语音识别的信息信号提供的方法和设备

技术领域

本发明一般涉及包括语音识别的通信系统，更具体地说，涉及根据语音识别分析对用户单元和/或伴随器件的信息信号提供。

本发明的背景

语音识别系统在先有技术中一般是已知的，特别涉及电话系统。美国专利No.4,914,692、5,475,791、5,708,704、及5,765,130表明包括语音识别系统的示范电话网络。这样的系统的共同特征在于，语音识别元件(即进行语音识别的器件)典型集中布置在电话网络的组织内，与在用户的通信器件(即用户的电话)处不同。在一种典型用途中，语音合成和语音识别元件的组合采用在电话网络或基础结构内。呼叫者可以访问系统，并且经语音合成元件呈现有合成语音形式的信息提示或询问。呼叫者典型地提供对合成语音的口头应答，并且语音识别元件将处理呼叫者的口头应答以便向呼叫者提供进一步的服务。

尽管先有技术的主体关于诸如上述的那些之类的系统而存在，但把语音识别系统并入无线通信系统是较新的发展。在标准化无线通信环境中语音识别用途的努力中，工作最近已经由欧洲电信标准研究所(ETSI)在所谓的Aurora Project上启动。Aurora Project的目标在于定义一个用于分布语音识别系统的全球标准。一般地，Aurora Project正在提出建立一种客户机-服务器布置，其中在用户单元(例如，蜂窝电话之类的手持无线通信器件)内进行前端语音识别处理，如特征抽取或参数化。由前端提供的数据然后传送到服务器以进行后端语音识别处理。

期望由Aurora Project提出的客户机-服务器布置将适当地满足对分布语音识别系统的需要。然而，这时Aurora Project能实现什么特征和服务是不确定的。例如，当前正在努力开发所谓的远程信息处理系统。远程信息处理系统可以广义地定义成包括涉及对于用户和其在其车辆中的器件的基于信息的服务的输送的任何技术。然而，似乎不是定义语音识别技术如何能并入远程信息处理系统的任何有意义解决方案。因而，便利的是提供一种把语音识别技术并入远程信息处理系统、以及其它系统中，以便能够实现各种服务。

本发明概述

本发明提供一种主要适用于无线通信系统、用来根据语音识别处理把信息提供给用户单元的技术。总之，按照本发明的无线系统包括与基础结构无线通信的至少一个用户单元。最好，每个用户单元实现一个语音识别客户机，而基础结构包括一个语音识别服务器。一个给定用户单元把以后由语音识别客户机参数化的未编码信号取作输入。参数化语音然后提供给语音识别服务器，语音识别服务器又进行对参数化语音的语音识别分析。部分基于由语音识别分析标识的任何识别发声的信息信号，以后提供给用户单元。信息信号可以包括用来控制用户单元本身或控制联接到用户单元上的一个或多个器件的控制信号。要不然，信息信号可以包括数据信号以由用户单元本身或联接到用户单元上的器件操作。这样的数据信号能用来本地产生控制信号，或者可以导致对于语音识别服务器的另外用户数据的提供，语音识别服务器又能如上述那样借助于另外的信息信号响应。以这种方式，本发明提供一种部分基于客户机-服务器语音识别模型在无线用户单元中能够实现服务的技术。

附图的简要描述

图1是按照本发明的无线通信系统的方块图。

图2是按照本发明的用户单元的方块图。

图3是在按照本发明的用户单元内的声音和数据处理功能的示意表示。

图4是按照本发明的语音识别服务器的方块图。

图5是在按照本发明的语音识别服务器内的声音和数据处理功能的示意表示。

图6是流程图，表明种按照本发明的语音识别服务器的操作。

图7是流程图，表明种按照本发明的客户单元的操作。

最佳实施例的详细描述

参照图1-7可以更充分地描述本发明。图1表明包括用户单元102-103的无线通信系统100的整体系统结构。用户单元102-103与基础结构经由无线系统110支持的无线通道105通信。本发明的基础结构除无线系统110外，可以包括经一个数据网络150联接在一起的一个小实体系统120、一个内容提供者系统130及一个企业系统140的任一个。

用户单元可以包括能够与通信基础结构通信的任何无线通信器件，如手持蜂窝电话103或驻留在车辆102内的无线通信器件。要理解，能使用除图1中表示的那些之外的各种用户单元；本发明在这方面不受限制。用户单元102-103最好包括：免提蜂窝电话的元件，用于免提声音通信；一个本地语音识别和合成系统；及客户机-服务器语音识别和合成系统的客户机部分。这些元件相对于图2和3在下面更详细地描述。

用户单元102-103经无线通道105与无线系统110无线地通信。无线系统110最好包括一个蜂窝系统，尽管在本专业方面具有普通技巧的人员将认识到，本发明可以有益地应用于支持声音通信的其它类型的无线系统。无线通道105典型地是实现数字发射技术并且能够向用户单元102-103和从其传送语音和/或数据的射频(RF)载波。要理解，也可以使用其它发射技术，如模拟技术。在一个最佳实施例中，无线通道105是无线分组数据通道，如由欧洲电信标准研究所(ETSI)定义的通用分组数据无线业务(GPRS)。无线通道105运送数据以有助于在客户机-服务器语音识别和合成系统的客户机部分、与客户机-服务器语音识别和合成系统的服务器部分之间的通信。其它信息，如显示、控制、位置、或状态信息也能跨过无线通道105运送。

无线系统110包括一根接收通过无线通道105从用户单元102-103传送的发射的天线112。天线112也经无线通道105发射到用户单元102-103。经天线112接收的数据转换成数据信号，并且传输到无线网络113。相反，来自无线网络113的数据发送到天线112以便发射。在本发明的上下文中，无线网络113包括实现无线系统必需的那些器件，如基站、控制器、资源分配器、接口、数据库等，如在先有技术中通常已知的那样。如具有本专业普通技巧的人员将理解的那样，并入无线网络113中的特定元件取决于使用的无线系统110的具体类型，例如蜂窝系统、中继陆地-移动系统等。

提供客户机-服务器语音识别和合成系统的服务器部分的一个语音识别服务器115可以联接到无线网络113上，由此允许无线系统110的操作者向用户单元102-103的用户提供基于语音的服务。一个控制实体116也可以联接到无线网络113上。控制实体116能用来响应由语音识别服务器115提供的输入把控制信号发送到用户单元102-103，以控制用户单元或互连到用户单元上的器件。如表示的那样，可以包括任何适当编程通用计算机的控制实体116，可以通过无线网络113、或直接地，如由虚线相互连接所示，联接到语音识别服务器115上。

如以上提到的那样，本发明的基础结构能包括经数据网络150联接在一起的各种系统110、120、130、140。适当的数据网络150可以包括使用已知网络技术的私人数据网络、诸如互联网之类的公共网络、或其组合。作为选择例，或除此之外，在无线系统110内的语音识别服务器115、远程语音识别服务器123、132、143、145可以以各种方式连接到数据网络150上，以向用户单元102-103提供基于语音的服务。远程语音识别服务器在提供时，类似地能够通过数据网络150和任何插入通信路径与控制实体116通信。

在一个小实体系统120(如一个小商务或家庭)内的计算机122，如台式个人计算机或其它通用处理器件，能用来实现语音识别服务器123。到和来自用户单元102-103的数据通过无线系统110和数据网络150通向计算机122。执行存储的软件算法和过程，计算机122提供语音识别服务器123的功能，它在最佳实施例中包括语音识别系统和语音合成系统的服务器部分。在例如计算机122是用户的个人计算机的场合，在计算机上的语音识别服务器软件能联接到驻留在计算机上的用户个人信息上，如用户的邮件、电话薄、日历、或其它信息上。这种配置允许用户单元的用户利用基于声音的接口访问在其个人计算机上的个人信息。下面结合图2和3描述按照本发明的客户机-服务器语音识别和语音合成系统的客户机部分。下面结合图4和5描述按照本发明的客户机-服务器语音识别和语音合成系统的服务器部分。

要不然，具有使用户单元的用户可得到的信息的内容提供者130，能把语音识别服务器132连接到数据网络上。作为特征或特别服务供应，语音识别服务器132把基于声音的接口提供给希望访问内容提供者的信息(未表示)的用户单元的用户。

用于语音识别服务器的另一种可能位置是在一个企业140内，如在一个大公司或类似实体内。企业的内部网络146，如互联网，经安全网关142连接到数据网络150上。安全网关142结合用户单元提供对企业的内部网络146的安全访问。如在先有技术中已知的那样，以这种方式提供的安全访问典型地部分取决于鉴定和加密技术。以这种方式，提供在用户单元与内部网络146之间经非安全数据网络150的安全通信。在企业140内，实现语音识别服务器145的服务器软件能提供在个人计算机144上，如在给定雇员的工作站上。类似于用在小实体系统中的上述配置，工作站途径允许雇员通过基于声音的接口访问工作相关的或其它信息。而且，类似于内容提供者130模型，企业140能提供一个内部适用的语音识别服务器143以提供对企业数据库的访问。

不管何处采用本发明的语音识别服务器，他们都能用来实现各种基于语音的服务。例如，结合控制实体116操作，在提供时，语音识别服务器能够实现用户单元或联接到用户单元上的器件的操作控制。应该注意，术语语音识别服务器，如贯穿本描述使用的那样，也打算包括语音合成功能。

本发明的基础结构也提供在用户单元102-103与正常电话系统之间的互联。通过把无线网络113联接到POTS(简单旧式电话系统)网络118上这表明在图1中。如在先有技术中已知的那样，POTS网络118，或类似电话网络，提供对多个呼叫站119的通信访问，如陆上线路电话听筒或其它无线器件。以这种方式，用户单元102-103的用户能与呼叫站119的另一个用户继续声音通信。

图2表明按照本发明可以用来实现用户单元的硬件构造。如图所示，可以使用两个无线收发机：一个无线数据发机203、和一个无线声音收发机204。如在先有技术中已知的那样，这些收发机可以组合成能完成数据和声音功能的单个收发机。无线数据收发机203和无线声音收发机204都连接到天线205上。要不然，也可以使用用于每个收发机的离散天线。无线声音收发机204进行所有必需的信号处理、协议终止、调制/解调等，以提供无线声音通信，并且在最佳实施例中，包括一个蜂窝收发机。以类似方式，无线数据收发机203提供与基础结构的数据连接性。在一个最佳实施例中，无线数据收发机203支持无线分组数据，如由欧洲电信标准研究所(ETSI)定义的通用分组数据无线业务(GPRS)。

预期本发明能以特别优点应用于车载系统，如下面讨论的那样。当采用在车辆中时，按照本发明的用户单元也包括一般认为是车辆的部分而不是用户单元的部分的处理元件。为了描述本发明的目的，假定这种处理元件是用户单元的部分。要理解，用户单元的实际实施可以包括或不包括由设计考虑支配的这种处理元件。在一个最佳实施例中，处理元件包括通用处理器(CPU)201，如IBM Corp.的“POWERPC”；和数字信号处理器(DSP)202，如Motorola Inc.的DSP56300系列处理器。CPU201和DSP202以连续形式表示在图2中，以表明他们经数据和地址总线、以及其它控制连接联接在一起，如在先有技术中已知的那样。可选择实施例能把用于CPU201和DSP202的功能组合成单个处理器或把他们分裂成几个处理器。CPU201和DSP202都联接到为其有关处理器提供程序和数据存储的相应存储器240、241上。使用存储的软件例行程序，CPU201和/或DSP202能编程成实现本发明功能的至少一部分。下面对于图3和7至少部分地描述CPU201和DSP202的软件功能。

在一个最佳实施例中，用户单元也包括联接到天线207上的全球定位卫星(GPS)收发机206。GPS收发机206联接到DSP202上以提供接收的GPS信息。DSP 202从GPS收发机206获取信息，并且计算无线通信器件的位置坐标。要不然GPS收发机206可以把位置信息直接提供给CPU201。

CPU201和DSP202的各种输入和输出表明在图2中。如图2中表示的那样，粗实线与声音相关信息相对应，而粗虚线与控制/数据相关信息相对应。选择元件和信号路径使用虚线表明。DSP202从为电话(蜂窝电话)对话提供声音输入和把声音输入提供给本地语音识别器和客户机-服务器语音识别器的客户机侧部分的麦克风270接收麦克风声频220，如在下面进一步详细描述的那样。DSP202也联接到指向至少一个扬声器271的输出声频211上，扬声器271提供用于电话(蜂窝电话)对话的声音输出和来自本地语音合成器和客户机-服务器语音合成器的客户机侧部分的声音输出。注意麦克风270和扬声器271可以邻近地布置在一起，如在手持器件中，或者可以相对于彼此远距离布置，如在具有安装遮光板麦克风和安装门面或门的扬声器的汽车用途中。

在本发明的一个实施例中，CPU201通过双向接口230联接到一根车载数据总线208上。这根数据总线208允许控制和状态信息在车辆内的各种器件209a-n，如蜂窝电话、娱乐系统、环境控制系统等，与CPU201之间通信。期望适当的数据总线208是当前在由汽车工程师协会标准化的过程中的ITS数据总线(IDB)。可以使用在各种器件之间通信控制和状态信息的可选择装置，如由蓝牙特殊兴趣组(SIG)定义的短距离、无线数据通信系统。数据总线208允许CPU201响应由本地语音识别器或由客户机-服务器语音识别器识别的声音命令控制在车辆数据总线上的器件209。

CPU201经接收数据连接231和发射数据连接232联接到无线数据收发机203上。这些连接231-232允许CPU201接收从无线系统110发送的控制信息和语音合成信息。语音合成信息经无线数据通道105从客户机-服务器语音合成系统的服务器部分接收。CPU201译码然后输送到DSP 202的语音合成信息。DSP202然后合成输出语音，并且把它输送到声频输出211。经接收数据连接231接收的任何控制信息可以用来控制用户单元本身的操作，或者发送到器件的一个或多个以便控制其操作。另外，CPU201能把状态信息、和输出数据从客户机-服务器语音识别系统的客户机部分发送到无线系统110。客户机-服务器语音识别系统的客户机部分最好在DSP202和CPU201中的软件中实现，如在下面更详细描述的那样。当支持语音识别时，DSP202从麦克风输入220接收语音，并且处理这种声频以把一个参数化语音信号提供给CPU201。CPU201编码参数化语音信号，并且把该信息经发射数据连接232发送到无线数据收发机203，以在无线数据通道105上发送到在基础结构中的语音识别服务器。

无线声音收发机204经一根双向数据总线233联接到CPU201上。这根数据总线允许CPU201控制无线声音收发机204的操作，并且从无线声音收发机204接收状态信息。无线声音收发机204经一个发射声频连接221和一个接收声频连接210也联接到DSP202上。当无线声音收发机204正在用来促进电话(蜂窝)呼叫时，声频从麦克风输入220由DSP202接收。麦克风声频被处理(例如滤波、压缩等)，并且提供到无线声音收发机204以发射到蜂窝基础结构。相反，由无线声音收发机204接收的声频经接收声频连接210发送到其中处理(例如减压、滤波等)声频的DSP202，并且提供给扬声器输出211。参照图3将更详细地描述由DSP202进行的处理。

表明在图2中的用户单元可以选择性包括一个输入器件250，以便用来在声音通信期间人工提供一个中断指示器251。就是说，在声音对话期间，用户单元的用户能人工致动输入器件以提供一个中断指示器，由此信号化用户的希望以唤醒语音识别功能。例如，在声音通信期间，用户单元的用户可能希望中断对话以便把基于语音的命令提供给电子伴随物，例如拨号和把第三方添加到呼叫上。输入器件250可以虚拟地包括任何类型的用户致动输入机构，其具体的例子包括单或多目的按钮、一个多位置选择器或具有输入能力的菜单驱动显示器。要不然，输入器件250可以经双向接口230和车载数据总线208连接到CPU201上。无论如何，当提供这样一种输入器件250时，CPU201起一个探测器的作用以便辨别中断指示器的出现。当CPU201起一个用于输入器件250的探测器的作用时，CPU201把中断指示器的存在指示给DSP202，如由标号260标识的信号路径表明的那样。相反，另一种实施使用联接到探测器应用程序上的一个本地语音识别器(最好在DSP202和/或CPU201内实施)以提供中断指示器。在这种情况下，CPU201或DSP202发信号中断指示器的存在，如由标号260a标识的信号路径表示的那样。无论如何，一旦已经探测到中断指示器的存在，就致动语音识别元件的一部分(最好是结合或作为用户单元的部分实施的客户机部分)，以开始处理基于声音的命令。另外，已经致动语音识别元件的部分的指示可以提供给用户和提供给语音识别服务器。在一个最佳实施例中，这样一种指示经发射数据连接232传送到无线数据收发机203，用于发射到与语音识别客户机共同操作的语音识别服务器以提供语音识别元件。

最后，用户单元最好装有一个信号器255，用来响应信号器控制256向用户单元的用户提供响应中断指示器已经致动语音识别功能的指示。信号器255响应中断指示器的探测而致动，并且可以包括一个用来提供可听指示，如有限时段的音调或蜂鸣，的扬声器。(同样，中断指示器的存在能使用基于输入器件的信号260或基于语音的信号260a发信号。)在另一种实施中，信号器的功能经由把声频指向扬声器输出211的DSP202执行的软件程序提供。扬声器可以与用来使声频输出211可听的扬声器271分离或与其相同。要不然，信号器255可以包括一个提供可见指示器的显示器件，如LED或LCD显示器。信号器255的具体形式是设计选择的问题，本发明不必在这方面受限制。更进一步，信号器255可以经双向接口230和车载数据总线208连接到CPU201上。

现在参照图3，示意表明在用户单元内进行的处理的一部分(按照本发明操作)。最好，使用存储的、由CPU201和/或DSP202执行的机器可读指令实现图3中表明的处理。下面呈现的讨论描述在机动车辆内采用的用户单元的操作。然而，一般表明在图3中并且在这里描述的功能同样适用于非基于车辆的用途，该使用或者能从语音识别的使用受益。

麦克风声频220作为输入提供给用户单元。在汽车环境中，麦克风是典型安装在遮光板或车辆的转向柱上或靠近其的免提麦克风。最好，麦克风声频220以数字形式到达回波抵消和环境处理(ECEP)块301。扬声器声频211在经受任何必要的处理之后由ECEP块301输送到扬声器。在车辆中，这样的扬声器能安装在仪表板下方。要不然，扬声器声频211能通过车载娱乐系统以便经娱乐系统的扬声器系统播放。扬声器声频211最好为数字格式。当蜂窝电话呼叫例如在进行中时，来自蜂窝电话的接收声频经接收声频连接210到达ECEP块301。同样，发射声频在发射声频连接221上输送到蜂窝电话。

ECEP块301经发射声频连接221把在输送之前来自麦克风声频220的扬声器声频211的回波抵消提供给无线声音收发机204。这种形式的回波抵消称作声学回波抵消，并且在先有技术中是已知的。例如，授予Amano等和标题为“辅助带声学回波抵消器”的美国专利No.5,136,599、和授予Genter和标题为“具有辅助带衰减和噪声注入控制的回波抵消器”的美国专利No.5,561,668，讲授用来进行声学回波抵消的适当技术，这些专利的讲授由此通过参考包括。

ECEP块301除回波抵消之外，也把环境处理提供给麦克风声频220，以便把更舒适的声音信号提供给接收由用户单元发射的声频的一方。普通使用的一种技术叫做噪声抑制。在车辆中的免提麦克风将典型地拾波由其它方听到的多种类型的声学噪声。这种技术减小其它方听到的感觉背景噪声，并且例如在授予Vilmur等的美国专利No.4,811,404中描述，该专利的讲授由此通过参考包括。

ECEP块301也经一条第一声频路径316提供由语音合成后端304提供的合成语音的回波抵消处理，这种合成语音经声频输出211传送到扬声器。如在使接收声音通向扬声器的情况下那样，抵消到达麦克风声频路径220上的扬声器声频“回波”。这允许在输送到语音识别前端302之前从麦克风声频消除声学联接到麦克风上的扬声器声频。这种类型的处理能够实现在先有技术中称作“闯入”的现象。闯入允许语音识别系统响应输入语音，同时输出语音同时由系统产生。“闯入”实施的例子能在例如美国专利No.4,914,692、5,475,791、5,708,704、和5,765,130中发现。

每当正在进行语音识别处理时，回波抵消麦克风声频总是经一条第二声频路径326供给到语音识别前端302。可选择地是，ECEP块301把背景噪声信息经第一数据路径327提供给语音识别前端302。这种背景噪声信息能用来改进用于在噪声环境中操作的语音识别系统的识别性能。用来进行这样的处理的适当技术在授予Gerson等的美国专利No.4,918,732中描述，该专利的讲授由此通过参考包括。

根据回波抵消麦克风声频和可选择的从ECEP块301接收的背景噪声信息，语音识别前端302产生参数化语音信息。语音识别前端302和语音合成后端304一起提供基于客户机-服务器语音识别和合成系统的客户机侧部分的核心功能。参数化语音信息典型地为特征向量的形式，其中每10至20毫秒计算一个新向量。用于语音信号参数化的一种普通使用技术是唛耳逆谱，如由Davis等在“用于在连续口头句子中的单音节文字识别的参数表示的比较”，IEEE Transactions onAcoustics Speech and Signal Processing，ASSP-28(4)，pp.357-366,1980年8月中描述的那样，其公开的讲授由此通过参考包括。

由语音识别前端302计算的参数向量经用于本地语音识别处理的第二数据路径325通到本地语音识别块303。参数向量也选择性地经一个第三数据路径323通到包括语音应用协议接口(API)和数据协议的协议处理块306。按照已知技术，处理块306经发射数据连接232把参数向量发送到无线数据收发机203。依次，无线数据收发机203把参数向量运送到起基于客户机-服务器的语音识别器部分的作用的服务器。在表示单个语音识别前端302的同时，本地语音识别器303和基于客户机-服务器的语音识别器事实上可以利用不同的语音识别前端。

本地语音识别器303从语音识别前端302接收参数向量325，并且在其上进行语音识别分析，例如，以便确定在参数化语音内是否有任何可识别发声。在一个实施例中，把识别发声(典型地，话语)从本地语音识别器303经一条第四数据路径324发送到协议处理块306，第四数据路径324又把识别发声通到各种应用程序307以便进一步处理。使用CPU201和DSP202可以实现的应用程序307，能包括一个探测器应用程序，该探测器应用程序根据识别发声确定已经接收到基于语音的中断指示器。例如，探测器把识别发声与查寻匹配的预定发声清单(例如，“唤醒”)相比较。当探测到匹配时，探测器应用程序发出一个表示中断指示器存在的信号260a。中断指示器的存在又用来致动语音识别元件的一部分以开始处理基于声音的命令。这通过供给到语音识别前端的信号260a示意表明在图3中。在响应中，语音识别前端302继续把参数化声频通到本地语音识别器，或者最好通到协议处理块306，以便发射到用于另外处理的语音识别服务器。(也注意，可选择地由输入器件250提供的、基于输入器件的信号260，也可以用于相同功能。)另外，中断指示器的存在可以发送到发射数据连接232，以警告语音识别器的基于基础结构的元件。

语音合成后端304把语音的参量表示取作输入，并且把参量表示转换成经第一声频路径316然后输送到ECEP块301的语音信号。使用的特定参量表示是一个设计选择问题。一种普通使用的参量表示是在Klatt的“Software For A Cascade/Parallel Formant Synthesizer”，Journal of the Acoustical Society of America，Vol.67，1980，pp.971-995中描述的共振峰参数。线性预测参数是另一种普通使用的参量表示，如在Markel等的Linear Prediction of Speech，Springer Verlag，New York，1976中讨论的那样。Klatt和Markel等的出版物的相应讲授通过参考包括在这里。

在基于客户机-服务器的语音合成的情况下，从网络经无线通道105、无线数据收发机203和协议处理块306接收语音的参量表示，其中它经第五数据路径313前进到语音合成后端。在本地语音合成的情况下，应用程序307产生一个要讲出的文本串。该文本串通过协议处理块306经一条第六数据路径314到一个本地语音合成器305。本地语音合成器305把文本串转换成语音信号的参量表示，并且把该参量表示经第七数据路径315通到语音合成后端304以转换到语音信号。

应该注意，接收数据连接231能用来运送除语音合成信息之外的其它接收信息。例如，其它接收信息可以包括数据(如显示信息)和/或从基础结构接收的控制信息、和要下载到系统中的代码。同样，发射数据连接232除由语音识别前端302计算的参量向量之外能用来运送其它发射信息。例如，其它发射信息可以包括器件状态信息、器件能力、及与闯入计时有关的信息。

现在参照图4，表明有按照本发明提供客户机-服务器语音识别和合成系统的服务器部分的语音识别服务器的硬件实施例。这种服务器能驻留在对于图1以上描述的几种环境中。与用户单元或控制实体的数据通信能够通过基础结构或网络连接411实现。这种连接411对于例如无线系统可以是本地的，并且直接连接到无线网络上，如图1中所示。要不然，连接411可以是公共或私人数据网络、或其它的数据通信链接；本发明在这方面不受限制。

一个网络接口405提供在CPU401与网络连接411之间的连接性。网络接口405把数据从网络411经接收路径408通到CPU401，并且从CPU401经发射路径410通到网络连接411。作为客户机-服务器布置的部分，CPU401经网络接口405和网络连接411与一个或多个客户机通信(最好在用户单元中实现)。在一个最佳实施例中，CPU401实现客户机-服务器语音识别和合成系统的服务器部分。尽管没有表示，表明在图4中的服务器也可以包括一个允许对服务器本地访问的本地接口，由此促进例如服务器维护、状态检查及其它类似功能。

一个存储器403存储在实施客户机-服务器布置的服务器部分时由CPU401执行和使用的机器可读指令(软件)和程序数据。这种软件的操作和结构参照图5进一步描述。

图5表明语音识别和合成服务器功能的实施。与至少一个语音识别客户机合作，表明在图5中的语音识别服务器功能提供一个语音识别元件。来自用户单元的数据经收发机路径408到达接收机(RX)502处。收发机译码数据，并且把语音识别数据503从语音识别客户机通到语音识别分析器504。来自用户单元的其它信息506，如器件状态信息、器件能力、及与闯入上下文有关的信息通过接收机502通到一个本地控制处理器508。在一个实施例中，其它信息506包括来自用户单元已经致动语音识别元件(例如，语音识别客户机)的一部分的指示。这样一种指示能用来启动在语音识别服务器中的语音识别处理。

作为客户机-服务器语音识别布置的部分，语音识别分析器504从用户单元取出语音识别参数向量，并且完成识别处理。识别的话语或发声507然后通到本地控制处理器508。要求把参数向量转换成识别发声的处理的描述能在Lee等的“Automatic Speech Recognition：TheDevelopment of the Sphinx System”，1998中发现，该出版物的讲授通过这种参考包括在这里。

本地控制处理器508从语音识别分析器504接收识别发声507和其它信息508。一般地，本发明需要控制处理器基于识别发声而操作，并且根据识别发声提供控制信号。在一个最佳实施例中，这些控制信号用来以后控制用户单元或联接到用户单元上的至少一个器件的操作。为此，本地控制处理器可以最好以两种方式的一种操作。首先，本地控制处理器508能实现应用程序。典型应用程序的一个例子是在美国专利No.5,652,789中描述的电子助手。要不然，这样的应用程序能在远程控制处理器516上远程运行。例如，在图1的系统中，远程控制处理器包括控制实体116。在这种情况下，本地控制处理器508通过经数据网络连接515与远程控制处理器516通信，借助于通过和接收数据像网关那样操作。数据网络连接515可以是公共的(例如，互联网)、私人的(例如，内部网络)、或一些其它数据通信链路。的确，本地控制处理器508可以依据由用户使用的应用程序/服务与驻留在数据网络上的各种远程控制处理器通信。

在远程控制处理器516或本地控制处理器508上运行的应用程序，确定对识别发声507和/或其它信息506的响应。最好，响应可以包括一条合成消息和/或控制信号。控制信号513从本地控制处理器508转发到发射机(TX)510。要合成的信息514，典型的文本信息，从本地控制处理器508发送到文本至语音分析器512。文本至语音分析器512把输入文本串转换成参量语音表示。用来进行这样一种转换的适当技术在Sproat(编辑)的“Multilingual Text-To-Speech Synthesis：TheBell Labs Approach”，1997中描述，该出版物的讲授通过这种参考包括在这里。来自文本至语音分析器512的参量语音表示511提供给发射机510，发射机510如必需的那样倍增参量语音表示511和在发射路径410上的控制信息513，以便发射到用户单元。以刚描述的相同方式操作，文本至语音分析器512也可以用来提供合成提示等，以作为在用户单元处的输出声频信号播放。

现在参照图6，表明描述按照本发明的语音识别服务器的流程图。在步骤601，语音识别服务器从用户单元接收参数化语音信号。在实际中，语音识别服务器能够处理来自多于单个用户单元的参数化语音信号，并且仅受适用处理的量和通信资源的限制。在步骤602，语音识别服务器进行对参数化语音信号的语音识别分析。假定良好的环境，语音识别分析提供关于在参数化语音信号内探测的识别发声的信息。

如以上提到的那样，在本发明的上下文中的信息信号可以包括由用户单元或联接到其上的器件可以操作的数据信号、或可以用来控制用户单元或其有关器件的操作的控制信号。为了响应识别发声提供信息信号，识别发声可以以两种方式之一处理。根据由步骤603和604表明的第一种方法，语音识别服务器(例如，通过本地控制处理器508)首先根据识别发声确定信息信号。例如，这能通过查阅表的使用、图案匹配和/或使特定识别发声或发声串与一个或多个预定义信息信号相关的类似机构实现。例如，如果识别发声包括关于某方的电话号码的询问，则在应答中提供的信息信号可以包括通过访问由姓名索引的电话号码的数据库确定的该方的电话号码。作为另一个例子，如果语音识别发声包括一条建立与命名方的电话呼叫的指令，则信息信号可以包括从数据库确定的有关方的电话号码、和由命令内容索引的另一个数据库确定的指令用户单元拨号该方的电话号码的控制信号。大量类似情形容易由具有本专业方面的普通技巧的人员辨别。与使用的方法无关，语音识别服务器以后把生成信息信号提供给用户单元。

在第二种方法中，在步骤605语音识别服务器与其直接确定任何控制信号，不如把关于识别发声的信息提供给控制实体或远程控制处理器。以这种方式，控制实体或远程控制处理器能进行与对于步骤603在以上描述的相同的处理，在该处理之后，控制实体或远程控制处理器把信息信号直接通到用户单元。与使用的方法无关，本发明的语音识别服务器促进在无线通信系统中把信息信号提供给用户单元。

操作步骤606和607也表明在图6中，并且描述语音识别服务器(或有关控制实体)响应另外的用户输入的操作。就是说，在步骤606，响应信息信号提供的用户数据从用户单元接收。在本上下文中，“用户数据”不仅可以包括参数化语音信号，而且可以包括其它输入数据，如例如DTMF音调。这种情形发生在例如用户原始通过姓名要求一方的电话号码的场合。然而，如果模糊因为多方具有相同姓名而存在，则在响应中提供的信息信号可以要求用户通过按键音填充(即使用DTMF音调)或通过响应诸方之一的姓名选择诸方之一。在这种情况下选择特定方的数据是用户数据。同样，包括这种功能的各种情形对于读者是显而易见的。响应用户数据，在步骤607可以提供同样包括数据/或控制信号的辅助信息信号。参照以前的例子，辅助信息信号包括选择方的电话号码，并且可能包括指令用户单元拨号电话号码的控制信号。

现在参照图7，表明有描述按照本发明的用户单元的操作的流程图。在步骤701，用户单元接收未编码语音信号。最好，未编码语音信号数字地表示或转换成在辅助处理之前的数字表示。在步骤702，按照上述的技术，分析未编码语音信号以提供一个参数化语音信号。参数化语音信号然后在步骤703发射到语音识别服务器，其中如果可能，则按照表明在图6中和上述的处理步骤，确定信息信号。

在步骤704，用户单元接收如果有则基于参数化语音信号的信息信号。结果，在步骤705和706，用户单元本身或联接到用户单元上的任何器件基于信息信号操作，或信息信号用来控制用户单元本身或联接到用户单元上的任何器件的操作，如可能是借助于车载系统的情形。应该注意，当信息信号包括数据时，数据能用来本地产生(即在用户单元处)控制信号。例如，来自基础结构的电话号码的接收能用来触发指令用户单元拨号电话号码的控制信号。要不然，变成可听的声音提示的接收可以引起控制信号的产生，指令联接到用户单元上的立体声减小其当前声频输出的音量或使其完全静噪。包括这样的功能的其它例子是容易识别的。

另外，选择步骤707和708对应于上述的步骤606和607，并且是其补充。特别是，在步骤707，用户单元把用户数据提供给基础结构(即语音识别服务器和/或控制实体)。同样，在步骤707提供的用户数据响应以前接收的信息信号。在步骤708，用户单元从基础结构接收包括数据和/或控制信号的辅助信息信号，可以基于这些控制信号操作，或者这些控制信号用来控制用户单元或联接到用户单元上的任何器件。

上述本发明提供一种独特技术，用来在无线系统中把控制信号提供给用户单元。部分依赖于客户机-服务器识别装置，本发明提供一种用来把信息信号供给到用户单元的有效方法。结果，本发明能用来实现服务。以上已经描述的只表明本发明原理的应用。熟悉本专业的技术人员能实施其它布置和方法，而不脱离本发明的精神和范围。

Claims

1.在形成与一个或多个用户单元无线通信的基础结构的部分的语音识别服务器中，一个或多个用户单元的每一个包括一个语音识别客户机，一种用来把信息信号提供给一个或多个用户单元的一个用户单元的方法，该方法包括步骤：

从用户单元接收参数化语音信号；

对参数化语音信号进行语音识别分析以提供识别的发声；及

响应识别的发声，把信息信号提供给用户单元。

2.根据权利要求1所述的方法，其中语音识别客户机根据输入到用户单元的未编码语音信号提供参数化语音信号。

3.根据权利要求1所述的方法，提供信息信号的步骤进一步包括步骤：

探测至用户单元的信息信号，其中信息信号控制用户单元的操作。

4.根据权利要求1所述的方法，其中用户单元联接到至少一个器件上，提供语音信号的步骤进一步包括步骤：

把信息信号指向至少一个器件，其中信息信号控制至少一个器件的操作。

5.根据权利要求1所述的方法，提供信息信号的步骤进一步包括步骤：

把信息信号指向用户单元，其中用户单元基于信息信号操作。

6.根据权利要求1所述的方法，进一步包括步骤：

响应来自用户单元的信息信号接收用户数据；和

响应用户数据，把辅助信息信号提供给用户单元。

7.根据权利要求1所述的方法，其中用户单元联接到至少一个器件上，提供信息信号的步骤进一步包括步骤：

把信息信号指向至少一个器件，其中至少一个器件基于信息信号操作。

8.根据权利要求7所述的方法，进一步包括步骤：

响应来自用户单元的信息信号接收用户数据；和

响应用户数据，把辅助信息信号提供给用户单元。

9.一种计算机可读介质，带有用来进行权利要求1中所述的步骤的计算机可执行指令。

10.在形成与一个或多个用户单元无线通信的基础结构的部分的语音识别服务器中，一个或多个用户单元的每一个包括一个语音识别客户机，一种用来把信息信号提供给一个或多个用户单元的一个用户单元的方法，该方法包括步骤：

从用户单元接收参数化语音信号；

对参数化语音信号进行语音识别分析以提供识别的发声；及

把关于识别的发声的信息提供给形成基础结构一部分的控制实体，其中控制实体根据关于识别的发声的信息把信息信号提供给用户单元。

11.根据权利要求6所述的方法，其中语音识别客户机根据输入到用户单元的未编码语音信号提供参数化语音信号。

12.一种计算机可读介质，带有用来进行权利要求6中所述的步骤的计算机可执行指令。

13.在与基础结构无线通信的用户单元中，用户单元包括一个语音识别客户机，基础结构包括一个语音识别服务器，一种用来把信息信号提供给用户单元的方法：

通过语音识别客户机接收未编码语音信号；

通过语音识别客户机，分析未编码语音信号以提供参数化语音信号；

通过用户单元把参数化语音信号发射到语音识别服务器；及

通过用户单元从基础结构接收基于参数化语音信号的信息信号。

14.根据权利要求13所述的方法，进一步包括步骤：

使用信息信号控制用户单元的操作。

15.根据权利要求13所述的方法，进一步包括步骤：

根据信息信号，本地产生控制信号，用来控制用户单元和联接到用户单元上的至少一个器件的任一个的操作。

16.根据权利要求13所述的方法，其中用户单元联接到至少一个器件上，进一步包括步骤：

使用信息信号控制至少一个器件的操作。

17.根据权利要求16所述的方法，其中用户单元经一条基于汽车的通信路径联接到至少一个器件上，并且经基于汽车的通信路径把信息信号提供给至少一个器件。

18.根据权利要求13所述的方法，进一步包括步骤：

基于信息信号操作。

19.根据权利要求18所述的方法，进一步包括步骤：

响应信息信号把用户数据提供给基础结构；和

响应用户数据，从基础结构接收辅助信息信号。

20.根据权利要求13所述的方法，其中用户单元联接到至少一个器件上，进一步包括步骤：

通过至少一个器件基于信息信号操作。

21.根据权利要求20所述的方法，进一步包括步骤：

响应信息信号把用户数据提供给基础结构；和

响应用户数据，从基础结构提供辅助信息信号。

22.根据权利要求13所述的方法，其中信息信号由语音识别服务器提供。

23.根据权利要求13所述的方法，其中信息信号由一个形成基础结构一部分的并且联接到语音识别服务器上的控制实体提供。

24.一种计算机可读介质，带有用来进行权利要求13中所述的步骤的计算机可执行指令。

25.在包括与基础结构无线通信的一个或多个用户单元的无线通信系统中，一个或多个用户单元的每一个包括一个语音识别客户机而基础结构包括一个语音识别服务器，一种用来把信息信号提供给一个或多个用户单元的一个用户单元的方法，该方法包括步骤：

通过语音识别客户机接收未编码语音信号；

通过用户单元把参数化语音信号发射到语音识别服务器；

通过语音识别服务器，对于参数化语音信号进行语音识别分析以提供识别的发声；及

响应识别的语音发声，通过基础结构把信息信号提供给用户单元。

从用户单元接收参数化语音信号；

26.根据权利要求25所述的方法，进一步包括步骤：

根据信息信号，通过用户单元本地产生控制信号，用来控制用户单元和联接到用户单元上的至少一个器件的任一个的操作。

27.根据权利要求25所述的方法，提供信息信号的步骤进一步包括步骤：

把信息信号指向用户单元，其中信息信号控制用户单元的操作。

28.根据权利要求25所述的方法，其中用户单元联接到至少一个器件上，提供信息信号的步骤进一步包括步骤：

29.根据权利要求28所述的方法，其中用户单元经一条基于汽车的通信路径联接到至少一个器件上，并且经基于汽车的通信路径把信息信号提供给至少一个器件。

30.根据权利要求25所述的方法，提供信息信号的步骤进一步包括步骤：

31.根据权利要求30所述的方法，进一步包括步骤：

响应来自用户单元的信息信号通过基础结构接收用户数据；和

响应用户数据，通过基础结构把辅助信息信号提供给用户单元。

32.根据权利要求25所述的方法，其中用户单元联接到至少一个器件上，提供信息信号的步骤进一步包括步骤：

33.根据权利要求32所述的方法，进一步包括步骤：

34.根据权利要求25所述的方法，其中信息信号由语音识别服务器提供。

35.根据权利要求25所述的方法，其中信息信号由形成基础结构一部分并且联接到语音识别服务器上的控制实体提供。

36.一种计算机可读介质，带有用来进行权利要求25中所述的步骤的计算机可执行指令。

37.一种用在无线通信系统的基础结构中的语音识别服务器，其中基础结构与一个或多个用户单元无线通信，语音识别服务器包括：

一个接收机，把关于参数化语音信号的信号取作输入而把参数化语音信号提供为输出；

一个语音识别分析器，联接到接收机上，对参数化语音信号进行语音识别分析以提供识别的发声；及

一个发射机，联接到语音识别分析器上，把关于识别的发声的信息提供给形成基础结构一部分的控制实体，其中控制实体根据关于识别的发声的信息把信息信号提供给一个或多个用户单元的一个用户单元。

38.一种无线通信系统，包括根据权利要求37所述的语音识别服务器，其中语音识别服务器驻留在包括用户工作空间、企业网络、及公共网络的一组位置的任一个中。

39.一种用在基础结构中的语音识别服务器，其中基础结构与一个或多个用户单元无线通信，语音识别服务器包括：

一个语音识别分析器，联接到接收机上，对参数化语音信号进行语音识别分析以提供识别的发声；

一个控制处理器，把识别的发声取作输入并且提供基于识别的发声的信息信号；及

一个发射机，联接到控制处理器上，把信息信号提供给一个或多个用户单元的一个用户单元。

40.一种无线通信系统，包括根据权利要求39所述的语音识别服务器，其中语音识别服务器驻留在包括用户工作空间、企业网络、及公共网络的一组位置的任一个中。

41.一种与基础结构无线通信的用户单元，其中用户单元包括：

一个语音识别客户机，把未编码语音信号取作输入，并且分析未编码语音信号以提供参数化语音信号；

一个发射机，联接到语音识别客户机上，把参数化语音信号无线通信到基础结构；及

一个接收机，把关于信息信号的信号取作输入，而把信息信号提供为输出，其中信息信号基于参数化语音信号。

42.根据权利要求41所述的用户单元，进一步包括：

联接到接收机上的装置，用来把用户单元联接到至少一个器件上，其中信息信号用来控制至少一个器件的操作。

43.根据权利要求42所述的用户单元，其中用来联接的装置包括一条基于汽车的通信路径。

44.根据权利要求41所述的用户单元，其中信息信号用来控制用户单元的操作。

45.根据权利要求41所述的用户单元，进一步包括：

根据信息信号用来本地产生控制信号的装置，以便控制用户单元和联接到用户单元的至少一个器件的任一个操作。

46.根据权利要求41所述的用户单元，其中用户单元基于信息信号操作。

47.根据权利要求46所述的用户单元，其中发射机进一步起响应信息信号把用户数据提供给基础结构的作用，并且其中接收机进一步起响应用户数据从基础结构接收辅助信息信号的作用。

48.根据权利要求41所述的用户单元，进一步包括：

联接到接收机上的装置，用来把用户单元联接到至少一个器件上，其中至少一个器件基于信息信号操作。

49.根据权利要求48所述的用户单元，其中发射机进一步起响应信息信号把用户数据提供给基础结构的作用，并且其中接收机进一步起响应用户数据从基础结构接收辅助信息信号的作用。

50.根据权利要求48所述的用户单元，其中用来联接的装置包括一条基于汽车的通信路径。