CN1262762A

CN1262762A - 具有语音识别功能的计算机操作系统

Info

Publication number: CN1262762A
Application number: CN99800423A
Authority: CN
Inventors: 斯里拉姆·巴拉克里什南
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1998-04-01
Filing date: 1999-03-11
Publication date: 2000-08-09
Anticipated expiration: 2019-03-11
Also published as: DE69910928T2; AU3080599A; WO1999050831A1; CA2289836A1; HK1029208A1; DE69910928D1; CN1109328C; EP0986809A1; EP0986809B1; US6233559B1

Abstract

具有语音识别工具(36)以及第一和第二应用程序(32和34)的一种计算机操作系统。该操作系统(30)从与控制字有关的第一和第二应用程序中接收信息以便控制这些应用程序。信息被说明作为词汇表A(74)和词汇表B(76)。语音识别工具(36)被设计来从第一和第二应用程序中接收信息,并且执行与在输入端(60)上接收到的数字化语音的比较。根据接收到的数字化语音来控制应用程序(32和34)中被选择的一个。

Description

具有语音识别功能的计算机操作系统

本发明涉及具有语音识别功能的计算机操作系统。

随着计算机和计算设备在全社会的激增，越来越多的注意力转向代替传统键盘的数据输入方法。许多计算机程序具有语音识别功能，这些计算机程序中的大多数都是“应用程序”，也就是说，这些程序的功能和操作是为特定的目的而专门设计的。例如，听写就是一种众所周知的应用程序，该应用程序接受某个用户的语音作为输入并响应用户的语音输入，以类似字处理程序的方式使文本输入到某个文档中。语音识别应用程序的另一个例子也许是控制某个设备的一个项目的控制程序，例如，在免提无线电话中拨电话号码。在这样的一种应用程序中，用户可能说出所要拨的数字，然后例如可能说出命令“发送”，使得蜂窝式无线电话拨出所说的数字。这些都是特定语音识别应用程序的例子。

在1990年8月的Computer杂志第23卷第8期第50-60页，由C.Schmandt、M.S.Acherman和D.Hindus所写的“用语音输入强化视窗系统”一文中介绍了用于控制视窗导航任务的一种语音识别应用程序。名为“X Speak”的应用程序是X视窗系统的语音界面，在该应用程序中，单词和视窗相关。说出一个视窗的名字，就能使之移到计算机屏幕的前面，并将光标移入该视窗中。X Speak应用程序假定某些功能一般分配给鼠标。各种命令被描述，例如“create”表示启动一个应用程序，“recall”表示将某个视窗重新放在视窗堆栈的顶端，而“hide”则表示将某个视窗放在视窗堆栈底部。还有重新确定视窗大小和位置的命令等等。该论文的作者承认，使用视窗导航任务应用程序的任何人机接口效率是有限的或不存在的。

现有语音识别应用程序的缺点是缺乏灵活性。在典型的语音识别应用程序中，都有和该应用程序相关的可识别单词的词汇表。识别器企图从该词汇表中识别单词。识别不在该词汇表中的单词的技术也可以被提供。词汇表可以被扩充或替换，以便修改对该用户的识别操作的性能。

在X Speak应用程序的情况下，该应用程序是和某个操作系统相关的一个工具，有一组可以被识别的专用命令，这组可用的命令被预编程到应用程序中。这样做缺乏灵活性而且不能很好适应现代的多种应用程序个人计算机和类似的设备，在这些设备中新的应用程序经常被装入，而且许多应用程序可以相继运行。

希望能有一种更好的语音识别界面，至少能部分地代替数据和命令的键盘输入和鼠标的屏幕导航。

微软公司的一个语音应用程序设计界面(SAPI)为那些希望使其应用程序具有语音功能的应用开发人员提供了更大的灵活性，该界面允许通用语音搜索引擎识别不同应用程序的命令。但没有提供到非当前应用程序的语音引导，或没有提供处理多种具有语音功能的应用程序。也没有提供识别用于还没有被激活的或第一次运行的应用程序的命令。

希望能有这样的一种语音界面，能够引导语音到多种应用程序或新安装但还没有操作的应用程序。

还有一个问题，语音可以包含操作系统命令(例如“使视窗最小化”，“关闭视窗”)和应用程序导向语音命令(例如“开始听写”)，以及应用程序导向内容(例如“给jones先生的备忘录”)。需要确定语音的最合适目标，不进行识别就不容易做到。最好设计为语音可以被导向的潜在任务。为此，需要为该任务专用的一个词汇表和语言模型(或其等价物)。

图1表示一典型的个人计算机，具有显示在屏幕上的多个应用程序的图标，适合于实现本发明。

图2是根据本发明的一组计算机程序的一个框图。

图3是说明本发明一个替换实施例的处理流程图。

图4是本发明一个实施例的处理流程图，该实施例是图3实施例的替换。

图5是一个硬件示意框图，进一步说明图4的实施例。

现在描述一种结构，其中具有语音识别能力的多个应用程序有机会指示操作系统，给定的语音输入是否对该单个的应用程序有用。这种结构有一个优点，一个应用程序比操作系统更适合于决定某种语音是否和该应用程序有关。可以更好地确定该语音是否应该被导向操作系统或导向某个特定的应用程序。

所示计算机10具有屏幕12，该屏幕上显示各种图标和视窗。所示计算机具有图标14，代表位于计算机10中的一个硬盘驱动器，以及第一应用程序图标16，代表存储在计算机10中的第一应用程序，还有第二应用程序图标18，代表存储在计算机10中的第二应用程序。第一应用程序取名“App A”，第二应用程序取名“AppB”。在屏幕12上显示的还有第一视窗20和第二视窗22。第一视窗20为“焦点上的”意思是指其正在前台并且是当前激活的视窗。第二视窗22为“焦点外的”，意思是指其正在后台。为了便于描述，将考虑这样的例子，其中，第一视窗20是App A的一个输入/输出界面视窗，而第二视窗则是App B的输入/输出用户界面。

在典型的现有技术的操作中，视窗20是通过将鼠标移到图标16上并且双击该图标来建立的。同样，第二视窗22也是通过将鼠标移到图标18上并双击该图标来建立的。对某个图标双击导致该图标所代表的应用程序被调用或者“被发射”。此后，单击该图标或其对应的视窗，使得该视窗进入焦点。当然，也可以是多个视窗对应一个应用程序。

图1所示有一个话筒40，可以接收语音命令作为语音输入。语音命令可以使得操作在App A或App B中执行。语音输入可以使得文本或其他的信息被输入到由App A或App B建立的文件中。本发明将解决这样的问题，确定语音命令或语音输入应该被导向哪一个应用程序。

现在看图2，该图给出了一组计算机程序，包括操作系统30，第一应用程序32和第二应用程序34以及音素网络发生器36。这组计算机程序被装入位于计算机10中的微处理器38。通过模-数转换器39连接到该处理器38的是话筒40。另外，连接到微处理器38的还有存储器42，该存储器可以是随机访问存储器，但最好是只读存储器。存在存储器42中的是第一和第二词汇表44和46以及第一和第二语言模型48和50，分别连接第一和第二应用程序32和34。

音素网络发生器36最好是一个上下文相关(CD)的音素网络发生器，正如Sreeram Balakrishnan等1997年11月26日递交的共同未决专利申请中所描述的，名称为“用于对语音信息编码的上下文相关网络”，被转让给和本专利申请相同的受让人并在此被引用。另外，音素网络发生器36也可以是上下文无关。

现在看微处理器38中程序实现的细节，音素网络发生器36包含输入60，它连接到模-数转换器39。特征提取程序模块62连接输入60，并且(最好是一个维特比解码器的)程序模块64连接特征提取程序模块62。解码器64有一个输出通过操作系统30的应用程序界面(API)35分别连接第一和第二应用程序32和34。

第一应用程序32有一个检索功能框33，能够调用第一词汇表44和第一语言模型48。第二应用程序34也有一个检索功能框37，能够调用第二词汇表46和第二语言模型50。每个词汇表具有潜在的需要由相关应用程序识别的字词或字符。每个语言模型具有该应用程序通常用到的字词或字词、字母或字符的组合。可能有(并且的确一般都是这样)对两个应用程序都通用的字词或字符。

下面将考虑这样的例子，其中App A是“Netscape”，而App B则是WisdomPen^TM。第一词汇表44中有几个对浏览器有用的命令，例如“start”，“open”，“go back”，“search”，“home”和“Netscape”，第二词汇表46中也有几个对手写识别器有用的命令，例如“start”，“open”，“next character”，“phrase”，“edit”，“WisdomPen”等。注意，词组合“start Netscape”对第一词汇表44是唯一的，而“startWisdomPen”对第二词汇表46也是唯一的。即使这些词组合不是唯一的，注意到第一语言模型48给词组合“start Netscape”一个高可能性的得分，而给词组合“start WisdomPen”低可能性得分。而且也注意到，第二语言模型50给词组合“start WisdomPen”高可能性得分，而给词组合“start Netscape”低可能性得分。

在操作中，用户对话筒40发出一个命令，其语音在A/D转换器39中被数字化，并且在特征提取程序模块62中被提取特征。解码器64从被提取的特征和输出(在API35上)数据中产生CD音素网络，对于某个给定的音素，这些数据代表前面和后面音素的标识，当前音素的标识，当前音素的持续时间和得分(或少数其他音素的得分)。如此产生的CD网络被同时送到(或被拾取)应用程序32和34的检索功能框33和37。利用词汇表44和46中的数据以及语言模型48和50，功能框33和37中的每一个提供其识别操作的结果，至少包括识别的“得分”或“可信度”。应用程序32和34分别通过API输出71和72将这些得分传递到操作系统30中的判优器70。判优器70根据输入语音决定多个应用中的哪一个将要动作。

判优器70按照其最简单的形式确定提供最高识别得分的应用程序将接收输入语音并且据此动作。

因此，例如，如果输入语音为“goback”或“start Netscape”，判优器70将通过控制输出73通知应用程序A根据输入语音动作，并且也将通过控制输出74通知应用程序B忽略输入语音。另一方面，如果输入语音是“start WisdomPen”或“edit”，将是应用程序B被允许根据该输入动作。响应该输入的动作可能包括启动该应用程序，将该应用程序的视窗带到前台，改变应用程序中的模式，将数据输入到该应用程序中的某个文件，或者其他的操作。

在一种更先进的形式中，判优器70是上下文相关的，例如，赋予焦点上的应用程序比焦点外的应用程序更高的优先级。在识别中必须超出一个更高的可信度阈值才能将输入语音导向焦点外的应用程序，而一个较低的可信度阈值就允许输入语音被导向当前的应用程序。另外，判优器70区分命令和输入数据，或者区分不同类型的命令。例如，如果具有高可信度标识符(例如“Netscape”和“WisdomPen”)，一组基本命令(“start”，“open”，“quit”)比其他命令或输入更容易被判优器70导向焦点外的应用程序(即，具有较低的可信度)。为了做到这一点这组基本命令可以被存储在判优器70中。

就这样，应用程序32和34(以及其他的应用程序)中的每一个都向操作系统30提出一个请求，操作系统30根据输入的语音进行判优，并且允许优于其他应用程序的应用程序接收输入的语音并据此动作。

因此，已经介绍的处理器38包含：用于接收语音命令的输入60，带有判优器70的操作系统30，以及在操作系统控制下的一个、二个或更多的应用程序32、34。应用程序在模块上独立于操作系统。每个应用程序都有一个语音识别器33、37，用于识别语音命令并且向判优器70提供识别信息71、72，表示语音识别器识别语音命令的能力。

识别信息最好依赖应用程序的词汇表44和语言模型48。

计算机操作的一种方法也已经被描述，该方法包括：输入语音命令；将被输入的语音命令和与该应用程序相关的语音命令的表示进行比较，以便提供识别结果；将识别结果提供给操作系统；并且取决于识别结果，有选择地允许该应用程序根据语音命令动作。

该方法最好进一步包括，与操作系统联合，产生表示语音命令的音素网络，并且将音素网络递交给应用程序。该音素网络最好是上下文有关的音素网络。

在该最佳实施例中，被输入的语音命令与第一和第二识别结果相关的语音命令的表示进行比较，并且有选择允许的步骤包括根据胜过其他应用程序的结果允许第一和第二应用程序中的一个执行动作，作为第一和第二应用程序的当前运行模式的一个函数。

另外，所描述的数据存储介质包括这样的一些指令和数据，当被装入通用处理器时，使得处理器包括：用于接收数字化语音的一个输出；产生音素标识信息的音素发生器；和第一和第二应用程序接口的界面；以及一个判优器。该界面被设计来将音素标识信息传递到第一和第二应用程序，并且将识别信息从第一和第二应用程序传递到判优器，而判优器则被设计来根据识别信息在第一和第二应用程序之间判优，并且根据所接收的数字化语音来控制第一和第二应用程序中被选择的一个。

第一和第二应用程序已经被描述为最好分别包含第一和第二词汇表，并且分别包含第一和第二语言模型，这样，给定的数字化语音命令从第一和第二应用程序导致不同的识别信息。

另外介绍的将应用程序安装在计算机中的方法包括：对操作系统注册该应用程序；从应用程序中提取所选择的命令及其语音表示；并且将这些命令和语音表示递交给搜索引擎的词汇表。

现在看图3，该图说明了一种结构，允许在应用程序第一次运行之前识别特定于某个应用程序的输入语音命令。

操作系统30，以及第一和第二应用程序32和34被说明。应用程序通过语音应用程序设计界面102连接搜索引擎104。应用程序32和34分别带有词汇表110和120(与图2中的词汇表44和46等同或作为其中的一部分)。在该例子中词汇表110中有词汇“Netscape”，而词汇表120中有词汇“Huibi”，该词是“WisdomPen”的中文名。

搜索引擎104有一个激活的词汇表106，该表包括许多普通命令，例如“start”、“open”、“quit”，也有词“Netscape”，该词或预编程进入搜索引擎词汇表106(是一个普遍使用的词)，或已经在应用程序32较早的操作中从词汇表110中提供给词汇表106。反之，词“Huibi”不是一个很常用的词，因此不可能通过正常操作在词汇表106中提供。

安装程序130被用来安装应用程序B。在安装时，程序130对操作系统30注册应用程序B，并且在同时，从词汇表120中提取词汇及其音素网络等价物，并且将这些词汇和音素网络等价物插入搜索引擎词汇表106。

这样，当第一次说出命令“start Huibi”时，这个命令被搜索引擎104所识别。搜索引擎104能够使得操作系统30启动应用程序34。

应用程序32和34在模块结构上是互相独立的。这样做有很大优点，这些应用程序中的任何一个或者可以被删除，或者可以被替换，而不会影响系统的操作。另外，还可以进一步增加其他的应用程序。每次加上一个应用程序(或者替换一个应用程序)，新的应用程序有其自己的操作系统词汇表，该表在安装时被传递给操作系统，使得操作系统能够检索出与该应用程序有关的命令。这是在现有结构上的一个显著改进，而不需要用新的语音命令等来更新操作系统本身，也不需要训练操作系统或扩充任何和语音识别器36相关的词汇表，使得系统能够被扩充或者被升级。第一和第二应用程序中的任何一个可以被删除而不会降低其他应用程序的性能。

本发明的一个进一步实施例是图3实施例的代替，并且是图2实施例的互补或增强，由图4和图5说明。

现在看图4，这是为第一识别器200(称为识别器A)和第二识别器202(称为识别器B)提供的软件替换结构。这些识别器是小应用程序，是在微处理器38启动时由操作系统30发射的。这些识别器独立于应用程序A和B，但被应用程序A和B按下述的方式调用。附加在识别器A上的是一个包含基本词汇的小词汇表210，与图3的词汇表110相似。附加在识别器B上的是基本词汇的第二词汇表220，与图3的词汇表120相似。

在操作中，操作系统30使得识别器A和B在微处理器38启动时被发射。这意味着识别器A和B从非易失性存储器，例如硬盘，被传送到计算机10的随机存取存储器中。应用程序A和B不需要在这个时候被发射。由于语音被输入到话筒40中，其语音表示(例如三重音网络表示)由操作系统30提供给识别器A和B。这些识别器根据分别存在词汇表210和220中作为语音表示的关键字，继续检索已接收到的输入语音的语音表示。识别器A和B继续提供计分给操作系统30，说明输入语音和存在各自词汇表210和220中的关键字之间的相关程度。操作系统30中的判优器70(见图2)比较这些计分，并且决定应用程序A和B中的一个是否应该被发射。因此，例如，如果在话筒40接收到词“open Netscape”，识别器A将为该命令提交一个高的计分，而识别器B则递交一个较低的计分。识别器A为命令“open Netscape”递交的计分将是足够高的(例如超过某个预定的阈值)，使得判优器70能够确定词“openNetscape”就是发射应用程序32的命令(而不是，例如对某个其他应用程序的某些输入文本)。

一旦作出这样的决定，操作系统30发射应用程序A。发射或初始化应用程序A使得该应用程序从非易失性存储器被传送到随机存取存储器，并且应用程序A成为完全功能化的并开始利用微处理器38的处理能力。同时，应用程序B继续单独驻留在非易失性存储器中并且不使用任何处理能力。

一旦被发射，应用程序A继续使用识别器A(通过链路202)，对从话筒40传递过来并以应用程序A为目标的内容执行识别操作。这时，应用程序A还可以有效地补充该识别器正在使用的词汇表，并且可以引进语言的模型化特征，这些工作在应用程序A发射之前不需要做。换句话说，当识别器A正在搜索关键字时，识别器A要求最小的语言模型化能力，而当应用程序A被发射时，识别器A所用的语言模型化能力得到显著增加。

类似地，当识别器B对某个命令或存在词汇表220中的词汇组向操作系统30递交一个较高的计分时，操作系统30将发射应用程序B。

采用一种完全类似的方式，识别器A和B可以对例如“quitNetscape”或“Huibi”这样的命令向操作系统递交一个较高的计分，一旦操作系统30可以识别这些命令，就可以导致相应的应用程序A和B被关闭。

现在看图5，应用程序A和B以及识别器A和B以其在计算机10中的启动模式被说明。图5说明一个硬盘驱动器或其他非易失性存储器300，以及随机存取存储器310，二者都连接到处理器38。驻留在非易失性存储器300中的有应用程序32和34以及小识别器200和202。另外在非易失性存储器300中的还有启动程序320。

当处理器38启动时，根据预先缺省设置，处理器在非易失性存储器300中查找其启动程序并且找到启动程序320。启动程序320使得识别器200和202通过处理器38被装入随机存取存储器310。驻留在随机存取存储器310中的这些识别器被表示为识别器200’和202’。应用程序32和34这时还没有被装入随机存取存储器310中并且没有占用有价值的存储空间。同样，它们也没有利用处理器38的处理器能力。应用程序A和B要比它们各自的识别器200和202大得多，因此，将识别器装入随机存取存储器而不装入全部应用程序是可以容许的。当识别器200’和202，中的一个为与该识别器的应用程序有关的命令提供一个较高的计分时，处理器38使得该应用程序从非易失性存储器300被传送到随机存取存储器310中。

这里仅通过示例给出上述的最佳实施例，本领域中普通技术人员可以在不离开本发明的精神和范围的前提下修改其细节。

Claims

1.一种处理器，包括：

接收语音命令的输入装置；

具有判优器的操作系统；以及

在操作系统控制下的至少一个应用程序，并且在程序模块上独立于操作系统，该应用程序包括语音识别器，用于识别语音命令，并且为判优器提供表示语音识别器识别该语音命令的能力的识别信息。

2.权利要求1的处理器，其中至少一个应用程序包含一个词典和语言模型，并且其中，识别信息与该词典和语言模型有关。

3.一种具有操作系统和至少一个应用程序的计算机的操作方法，包括：

输入语音命令；

比较被输入的语音命令和与该应用程序有关的语音命令的表示，以便提供识别结果；

提供识别结果给操作系统；并且

取决于识别结果有选择地允许应用程序根据语音命令执行动作。

4.权利要求3的方法，进一步包含，结合操作系统，产生表示语音命令的音素网络，并且将该音素网络递交给应用程序。

5.权利要求4的方法，其中的音素网络是上下文相关的音素网络。

6.权利要求3的方法，其中，被输入的语音命令同时和与第一和第二应用程序相关的语音命令的表示进行比较，以便提供第一和第二识别结果。

7.权利要求6的方法，其中，有选择允许的步骤包括允许第一和第二应用程序中的一个根据其胜于第一和第二应用程序中另一个的结果执行动作。

8.权利要求7的方法，其中，有选择允许的步骤包括在第一和第二应用程序之间判优，作为第一和第二应用程序的当前操作模式的一个功能。

9.权利要求6的方法，进一步包括，结合操作系统，产生表示语音命令的音素网络并且将该音素网络传递给第一和第二应用程序。

10.权利要求9的方法，其中的音素网络是上下文有关的音素网络。

11.一种在计算机中安装应用程序的方法，包括：

在操作系统上注册该应用程序；

从应用程序中提取被选择的命令及其语音表示；并且

将命令和语音表示传递给搜索引擎的词汇表。

12.一种计算机操作的方法，包括：

调用与第一应用程序有关而还没有被调用的第一识别器；

调用与第二应用程序有关而还没有被调用的第二识别器；

接收一个语音命令；

在第一和第二识别器中执行对该语音命令的识别，以便提供第一和第二识别结果；

在第一和第二识别结果之间判优；并且

根据判优步骤的结果，调用第一和第二应用程序中的一个。

13.权利要求12的方法，其中，当第一应用程序被调用时，第一识别器对第一应用程序执行语音识别，而当第二应用被调用时第二识别器对第二应用程序执行语音识别。