CN1517979A

CN1517979A - 向语音识别引擎注册言辞以及相关联的目的锚

Info

Publication number: CN1517979A
Application number: CNA031649114A
Authority: CN
Inventors: G; G·吴
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2003-01-23
Filing date: 2003-09-18
Publication date: 2004-08-04
Also published as: US20040148173A1; US7313527B2

Abstract

一种用于通过语音识别引擎注册言辞和相关联的目的锚的方法。所述方法包括使用浏览器提供的一个编程接口而在浏览器显示的文档中获取带有链接的所有节点的一个列表。对于所述全部节点的列表中每个节点而言，所述方法为节点获取一个目的锚。如果存在目的锚，则所述方法通过以递归方式从节点的子节点收集文本来形成言辞。通过语音识别引擎注册所述言辞和目的锚。

Description

向语音识别引擎注册言辞以及相关联的目的锚

技术领域

本发明涉及访问万维网，并且特别涉及通过语音识别来访问万维网。

背景技术

万维网(Web)提供了一个巨大的文档集合，这些文档可以经由因特网来访问。万维网上的很多文档都包含超链接，这些超链接使用户可以跳转到文档内部的其他地方，并使用户可以跳转到其他文档以及其他资源。对万维网文档来说，通用的访问方法是借助一台计算机，所述计算机提供文档的可视显示并且考虑到了用户使用键盘以及诸如鼠标这类定点设备所产生的输入。用户可以使用定点设备来选择超链接并由此使用这些超链接。

其他方法也可以用来提供对于万维网文档的访问。特别地，语音识别可以用作一种输入来取代或附加于键盘或定点设备。在缺少或不便使用键盘或鼠标的情况下，语音识别可以允许与基于显示的万维网文档进行有效的交互作用。对那些具有视觉缺陷或者需要在访问万维网的同时能够腾出手和眼睛来处理其他事情的人员来说，这一点是非常有用的。

语音识别可能需要使用一个定义有效言辞的语音识别语法来对捕获自用户的言辞进行识别。由于包含在语音识别语法中，因此，诸如“主页”或“后退”这种固定的浏览器命令是很容易识别的。而用于在万维网文档中选择超链接的语法则不像固定命令那样容易定义。由于言辞有可能是不具有更大语境的单字或短语，因此，用于在万维网文档中选择超链接的语音识别可能与其他的语音识别需求不同。万维网文档中的某些超链接可能由图像或图标来表示，而不是由文本来表示。

万维网联盟(W3C)正在开发一种语音可扩展标记语言(VoiceXML)，以便准许创作那些意图与一个语音浏览器结合使用的万维网文档，其中所述语音浏览器提供一个听觉呈现并且接受语音输入。VoiceXML文档提供了专门设计的信息，以便定义语音识别语法中包含的可允许语音输入。

在并未考虑到借助语音输入来选择超链接的需求的情况下，已经创作了数量极大的万维网文档。因此，使一个网络浏览器能对口语言辞做出响应，从而在那些并未创作成定义可允许语音输入的万维网文档中选择超链接，这一点是合乎需要的。

发明内容

根据本发明的第一方面，提供了一种用于通过语音识别引擎注册言辞和相关联的目的锚的方法，所述方法包括：使用浏览器提供的一个编程接口而在浏览器显示的文档中获取具有链接的所有节点的一个列表；对于全部节点的列表中的每个节点而言，为所述节点获取一个目的锚；如果目的锚存在，则从所述节点的子节点中以递归方式收集文本，以便形成言辞；以及通过语音识别引擎注册言辞和目的锚。

根据本发明的第二方面，提供了一种一种具有指令序列的计算机可读介质，在由一个处理器执行时，所述指令序列使得处理器执行一种用于通过语音识别引擎注册言辞和相关目的锚的方法，所述方法包括：使用浏览器提供的一个编程接口而在浏览器显示的文档中获取具有链接的所有节点的一个列表；对于全部节点的列表中的每个节点而言，为节点获取一个目的锚；如果目的锚存在，则从节点的子节点中以递归方式收集文本，以便形成言辞；以及通过语音识别引擎注册言辞和目的锚。

根据本发明的第三方面，提供了一种语音识别系统，包括：一个文档分析器，它使用浏览器提供的一个编程接口而在浏览器显示的文档中获取具有链接的所有节点的一个列表；一个节点分析器，对于全部节点的列表中的每个节点而言，它为节点创建一个目的锚，如果目的锚存在，则从节点的子节点中以递归方式收集文本来形成言辞；以及一个注册引擎，它通过一个有限状态语法控制器注册言辞和目的锚。

附图说明

图1是关于本发明一个实施例的流程图；

图2显示了语音导航分析器通过一个语音识别引擎注册超链接的示范性软件例程。

图3显示了可以由图2软件例程使用的示范性的getLinkText函数。

图4显示了可以由图2软件例程使用的示范性的insertTag函数。

图5显示了可以由图2软件例程使用的示范性的getLinkPos函数。

图6显示了提供一个黄色背景上具有红色文本的半透明标签的示范性样式。

图7是一个示范性的语音识别系统的框图。

具体实施方式

为了提供关于本发明的全面理解，在以下关于本发明的详细描述中阐述了很多特殊细节。然而，对本领域技术人员来说，很明显，可以在不具备这些细节的情况下实施本发明。在其他实例中并没有详细描述公知的方法、过程、组件和电路，以免不必要地模糊本发明的各个方面。本发明包括不同的步骤，以下将对这些步骤进行描述。本发明的步骤可以在机器可执行指令中实现，这些指令致使一个以这些指令编程的通用处理器执行所述步骤。作为选择，所述步骤也可以通过硬件或软件的结合来执行。机器可执行指令可以由磁盘、光盘这种计算机可读介质或者电磁波来进行保存和发送。

语音导航分析器使用了网络浏览器提供的一个编程接口。所述编程接口可以包括一组对象，这些对象代表的是万维网文档、如何组合这些对象的模型以及一个用于访问和操作这些对象的标准接口。示范性的编程接口是由万维网联盟(W3C)定义的文档对象模型(DOM)。在关于语音导航分析器的描述中，虽然将DOM用于示范性编程接口，然而可以了解的是，网络浏览器提供的不同于DOM的编程接口也可用于实现语音导航分析器。

在网络浏览器接收和处理了一个新的万维网文档之后，语音导航分析器将会具有控制权。语音导航分析器可以是网络浏览器的一个插件，它注册一个事件，以使浏览器在接收和处理了一个万维网文档之后把控制权转移给语音导航分析器。

语音导航分析器使用浏览器的编程接口来提取新近接收的万维网文档中的所有超链接。语音导航分析器提取和/或创建那些可用于选择超链接的可交谈言辞。并且语音导航分析器向语音识别引擎注册超链接以及可交谈言辞。语音导航分析器可以向万维网文档中的超链接添加可视标签，以便提供一个可用于选择超链接的简明言辞。

语音导航分析器注册的信息允许语音识别引擎使用所注册的可交谈言辞而把口语言辞识别为有效语法的全部或是它的一部分。由语音导航分析器注册的信息还使语音识别引擎能够命令浏览器对超链接的选择做出响应，其中所述超链接与语音导航分析器发出的口语言辞相关联。

图1是关于本发明一个实施例的流程图。浏览器的编程接口被用于获取具有链接10的所有节点的一个列表。对列表中的每个节点依次进行处理，直到处理了所有节点12。所要处理的节点是从列表14中获取的，此外还会检索节点16的HREF属性。由于可以在初始加载了万维网文档之后提供HREF属性，因此超链接节点可以具有一个HREF属性，但是也可以不具有该属性。如果节点不具有HREF属性18，那么关于节点的处理可能会结束，如果存在下一个节点的话，则会对下一个节点进行处理。在其他实施例中，不具有HREF属性的超链接节点可以注册一个空的URI，也可以在向超链接节点添加了HREF属性之后进行注册。

如果节点具有HREF属性，则以递归方式检查所述节点的子节点，以便收集那些与链接20相关联的文本或替换文本。并且将会检查双亲节点，以便获取该节点的累计偏移，由此在文档中确定节点的位置22。在到达了指示所述位置是绝对位置的根节点或者到达了一个指示所述位置是相对于一个容器节点的容器(DIV)节点之前，将会接连检查双亲节点。位置信息可以包括x和y偏移，绝对/相对标志以及与偏移相关的节点。在链接节点24的位置附近，可以将一个可视标记串添加到文档中，由此确保有一个可用于选择链接的口语言辞。节点文本、标签串、目的锚以及链接节点位置可以被通过一个语法引擎26注册。按照所注册的，所述语法引擎可以使浏览器导航到相关的目的锚，从而对节点文本或标签串的口语言辞做出响应。在对节点表中的所有链接节点都进行了处理12的时候，所述处理将会结束并且控制权将会返回到呼叫者28。

图2显示了语音导航分析器通过语音识别引擎注册超链接的一个示范性软件例程。所示实施例使用了DOM编程接口。DOM代表了一个作为节点并具有分级结构的文档。代表超链接的节点列表则是由document.link对象100来提供的。

图2显示的示范性例程通过语音识别引擎注册了超链接文本、一个提供替换言辞的标签值、统一资源标识符(URI)和超链接位置。为了简化示范性例程，通过语音识别引擎注册的值将会保存在一个数组中。在一个优选实施例中，语音识别引擎会创建或是填充一个数据结构来保存所注册的信息。注册的信息数据结构可以包括来自一个以上的万维网文档的注册信息。

图2的示范性例程使用一个for循环102来检查超链接节点列表中的每个节点。超链接节点的URI是通过HREF属性来保持的。可以将getAttribute(“HREF”)例程104应用于超链接节点来获取HREF属性。在示范性例程中，在加载万维网文档的时候，不具有HREF属性的超链接节点将被忽略106。

DOM在那些与元素节点相关联的单独节点中保持文本。超文本节点是一个元素节点，如果存在任何与超链接节点相关联的文本，那么所述文本将会与文本节点相关联。图2的示范性例程使用一个getLinkText函数108来获取与每个超链接节点相关联的文本。

图2的示范性例程使用一个getLinkPos函数110而在万维网文档中获取超链接位置。在其他实施例中，语音导航分析器不能获取或注册位置信息。

图2的示范性例程使用一个insertTag函数112来创建一个可视标签，所述标签提供了一个替换言辞来选择超链接。在示范性例程中，使用数组索引作为标签并且标记了每个超链接。在其他实施例中，可以使用其他方案来提供标签。语音识别引擎可以产生标签，并且在注册了超链接的时候，语音识别引擎会将所述标签返回给语音导航分析器。可以对所述标签进行检查，以便确定它是否与关联于超链接的文本相冲突。所述标签也可以只用于那些不具有可视文本的超链接。对一个使用了IMG元素的图形链接而言，所述标签可以是由IMG元素的alt属性提供的替换文本。

图2的示范性例程使用一个registerToGrammar函数114来把从万维网文档获取的信息注册到语音识别引擎。所述示范性例程注册了超链接文本linkText[i]、一个提供替换言辞的标签值i、URI、linkHref[i]以及超链接的位置linkPos[i]。如上所述，本发明的其他实施例可以注册不同的信息。

图3显示了一个示范性的getLinkText函数，所述函数可以由图2的软件例程使用。示范性的getLinkText函数以递归方式遍历所提供的链接节点的子节点，以便收集那些与链接节点相关联的文本和替换文本。在DOM中，链接元素节点可以具有多个子文本节点并且可以具有多个子元素节点。每个子元素节点可以具有多个子文本节点并且可以具有多个子元素节点，依此类推。因此，DOM需要一个深度优先的递归树搜索来收集超链接的文本。举例来说，如果超链接是“Create Your Submission”，其中“Your”为黑体，那么超链接元素节点会具有三个子节点。第一个子节点是一个具有文本“create”的文本节点。第二子节点是一个具有子文本节点“Your”的黑体元素节点。第三个子节点是一个具有文本“submission”的文本节点。示范性的getLinkText函数将会返回文本“Create Your Submission”。

示范性的getLinkText函数获取所提供节点的子节点列表200。并且使用一个for循环202来遍历列表中的每个子节点。如果子节点是一个文本节点204，那么子节点的文本将会附加于正在形成的文本串。如果子节点不是一个文本节点，那么由递归调用返回给getLinkText的文本串将会附加于正在形成的文本串206。如果非文本节点是一个IMG元素节点或AREA元素节点，则从节点208获取替换文本。在结束遍历的时候，对从链接节点的子节点收集的文本串进行测试，以便查看它是否包含空白文本，如果包含的话，那么所述文本串将由替换文本210所取代。示范性的getLinkText函数可以返回一个由浏览器显示的文本串，也可以返回一个可以由浏览器显示也可以不由浏览器显示的替换文本串，还可以返回一个空文本串。在本发明的其他实施例中，还可以提供返回的文本串类型。

图5显示了一个示范性的getLinkPos函数，所述函数可以由图2的软件例程使用。示范性的getLinkPos函数遍历链接节点的双亲节点，以便在万维网文档中确定链接的位置。所述位置可以是页面内部的一个绝对位置，也可以是相对于一个双亲节点的位置。示范性的getLinkPos函数为所提供的节点400产生一个位置对象。所述位置对象包括一个标签，以便指示所述位置是否为绝对位置，并且还指示了位置的x和y坐标以及一个相对位置的双亲节点。

在这里使用了一个while循环402来遍历所提供链接节点的双亲。并且获取正在受到检查的节点的双亲404。如果双亲是隐藏的406，那么所述双亲将会变得临时可视408，由此可以得到位置信息并且设定一个标志来指示需要隐藏所述双亲。如果双亲是一个DIV元素410，那么链接节点的位置是相对位置而不是绝对位置412。对相对位置而言，双亲DIV元素被设定为双亲节点，并且返回相对于双亲DIV元素的位置。如果双亲元素不是一个DIV元素，那么位置的x和y坐标将会由双亲元素414的偏移来增加。如果双亲元素是隐藏的416，那么隐藏属性将会恢复。然后将会把双亲设定为元素418。如果作为新元素的双亲也具有一个双亲402，那么while循环将会重复，以便继续进行双亲节点的遍历。如果所述遍历到达根节点，也就是一个不具有双亲节点的节点，则在没有遭遇DIV元素的情况下，所述位置是从根节点的原点0，0开始的绝对偏移。

图4显示了一个示范性的insertTag函数，所述函数可以由图2的软件例程使用。示范性的insertTag函数使用DOM接口来向链接节点添加可视标签。超链接可以显示一个能够讲出的文本，也可以不显示所述文本。这些标签可以由语音导航分析器插入，从而确保总是能够使用一个言辞来进行超链接的语音选择。

示范性的insertTag函数使用registerLinksToGrammar函数所创建数组内部的一个超链接索引来作为标签值。并且定义了一个容器来保持标签。如果位置是绝对位置，那么容器即为万维网文档体300。如果位置不是绝对的，则所述容器是由getLinkPos函数确定的双亲节点302。DIV元素添加到所定义的容器并被放入类别TAGTAG304。DIV元素则是使用getLinkPos函数所确定的偏移坐标而被定位在容器内部的。TAGTAG样式可以添加到万维网文档中，以便为标签提供预期的可视属性。图6显示了一个示范性样式来提供一个透明标签，其中所述标签在黄色背景上具有红色文本。并且标签的可视性是得到继承的，因此，在隐藏的容器变得可视之前，所述隐藏的容器内部的标签会被隐藏。

图7显示了包含本发明一个实施例的示范性语音识别系统700。语音识别系统700与一个浏览器702耦合，所述浏览器接收一个超文本文档704并且基于这个超文本文档来创建一个可视显示器706。

语音识别系统700包括一个文档分析器708，以便使用浏览器702提供的编程接口来创建具有链接的所有节点的一个列表710。节点分析器712对链接节点的列表710中的每个节点进行处理。节点分析器为每个节点提取一个目的锚714。如果目的锚存在，那么节点分析器以递归方式从所述节点的子节点中收集文本，从而形成一个与目的锚714相关联的言辞716。节点分析器还可以用递归方式来为替换文本检查节点的子节点，如果所收集的文本是空白，则使用替换文本作为言辞716。

语音识别系统700可以包括一个位置分析器，以便遍历所述节点的双亲节点以及累积位置偏移，从而获取节点位置720。如果容器节点是所述节点的一个双亲节点，那么位置分析器可以将节点的位置标记为相对于容器节点的位置，否则把节点位置标记为绝对的。如果双亲节点是隐藏的，那么位置分析器可以临时使得双亲节点可视，从而允许获取位置。语音识别系统700可以包括一个标签生成器722，以便使用浏览器702的编程接口而把一个可视标签串724添加到节点720的位置附近。

语音识别系统700包括一个注册引擎726，用于向有限状态语法控制器728注册言辞716和目的锚714。注册引擎还可以通过有限状态语法控制器注册节点720的位置以及可视标签串724。有限状态语法控制器则创建一个有限状态语法730。

语音识别引擎732从语音识别系统700的用户接收一个口语言辞734。语音识别引擎使用有限状态语法730来识别口语言辞734，并且检索与言辞相关联的目的锚714。语音识别引擎使用浏览器702的编程接口来将浏览器引导到目的锚。这与用户使用定点设备而以视觉方式在可视显示器706上选择目的锚具有相同的效果。由于有限状态语法730以提取自创建可视显示器706的文档704中所出现的文本的有限言辞集合716为基础的，并且有限状态语法730有可能以那些已经由标签产生器722添加到可视显示中的可视标签串724为基础，因此语音识别引擎能够以良好精确度来识别口语言辞734。

虽然在附图中描述和显示了某些示范性实施例，但是应当理解，这种实施例仅仅是说明性的，而不是对范围较宽的本发明加以限制，由于本领域普通技术人员可以想到其他各种修改，因此本发明并不局限于所显示和所描述的特定结构和布局。需要认可的是，本发明可以使用与示范性实施例所示方法不同的其他方法而由DOM编程接口加以实现，并且在本发明所提供的信息的类型和格式中有可能存在变化。需要认可的是，可以结合浏览器提供的其他编程接口来执行本发明，其中所述浏览器允许以一种可以与DOM编程接口提供的方式相比的方式来访问万维网文档。

Claims

1.一种用于通过语音识别引擎注册言辞和相关联的目的锚的方法，所述方法包括：

使用浏览器提供的一个编程接口而在浏览器显示的文档中获取具有链接的所有节点的一个列表；

对于全部节点的列表中的每个节点而言，

为所述节点获取一个目的锚；

如果目的锚存在，则从所述节点的子节点中以递归方式收集文本，以便形成言辞；以及

通过语音识别引擎注册言辞和目的锚。

2.权利要求1的方法，其中形成言辞还包括以递归方式来为替换文本检查所述节点的子节点，如果收集的文本是空白，则使用替换文本作为言辞。

3.权利要求1的方法，还包括遍历所述节点的双亲节点并且累积位置偏移来获取节点位置。

4.权利要求3的方法，还包括：如果容器节点是所述节点的一个双亲节点，则将节点位置标记成相对于一个容器节点，否则将节点位置标记为绝对的。

5.权利要求3的方法，其中注册还包括通过语音识别引擎注册节点位置。

6.权利要求3的方法，其中如果双亲节点隐藏，则使双亲节点临时可视。

7.权利要求3的方法，还包括在节点位置附近添加一个可视标签串，并且还通过语音识别引擎注册这个可视标签串。

8.一种具有指令序列的计算机可读介质，在由一个处理器执行时，所述指令序列使得处理器执行一种用于通过语音识别引擎注册言辞和相关目的锚的方法，所述方法包括：

对于全部节点的列表中的每个节点而言，

为节点获取一个目的锚；

如果目的锚存在，则从节点的子节点中以递归方式收集文本，以便形成

言辞；以及

通过语音识别引擎注册言辞和目的锚。

9.权利要求8的计算机可读介质，其中形成言辞还包括以递归方式来为替换文本检查所述节点的子节点，如果收集的文本是空白，则将替换文本用作言辞。

10.权利要求8的计算机可读介质，其中所述方法还包括遍历所述节点的双亲节点并且累积位置偏移来获取节点位置。

11.权利要求10的计算机可读介质，其中所述方法还包括：如果容器节点是所述节点的一个双亲节点，则将节点位置标记成相对于一个容器节点，否则将节点位置标记为绝对的。

12.权利要求10的计算机可读介质，其中注册还包括通过语音识别引擎注册节点位置。

13.权利要求10的计算机可读介质，其中，如果双亲节点隐藏，则使双亲节点临时可视。

14.权利要求10的计算机可读介质，其中所述方法还包括在节点位置附近添加一个可视标签串，并且还通过语音识别引擎注册这个可视标签串。

15.一种语音识别系统，包括：

一个文档分析器，它使用浏览器提供的一个编程接口而在浏览器显示的文档中获取具有链接的所有节点的一个列表；

一个节点分析器，对于全部节点的列表中的每个节点而言，它为节点创建一个目的锚，如果目的锚存在，则从节点的子节点中以递归方式收集文本来形成言辞；以及

一个注册引擎，它通过一个有限状态语法控制器注册言辞和目的锚。

16.权利要求15的语音识别系统，其中节点分析器通过以递归方式来为替换文本检查所述节点的子节点并且如果收集的文本是空白则节点分析器是通过将替换文本用作言辞，从而形成言辞。

17.权利要求15的语音识别系统，还包括一个位置分析器，用于遍历所述节点的双亲节点并且累积位置偏移来获取节点位置。

18.权利要求17的语音识别系统，其中，如果容器节点是所述节点的一个双亲节点，则位置分析器还将节点位置标记成相对于一个容器节点，否则将节点位置标记为绝对的。

19.权利要求17的语音识别系统，其中注册引擎还通过有限状态语法控制器注册节点位置。

20.权利要求17的语音识别系统，其中，如果双亲节点隐藏，则位置分析器还使双亲节点临时可视。

21.权利要求17的语音识别系统，还包括一个标签生成器，用于在节点位置附近添加一个可视标签串，并且注册引擎还通过有限状态语法控制器注册所述可视标签串。