CN1752975A - 用于支持话音的自动填充的方法和系统 - Google Patents

用于支持话音的自动填充的方法和系统 Download PDF

Info

Publication number
CN1752975A
CN1752975A CNA2005100999416A CN200510099941A CN1752975A CN 1752975 A CN1752975 A CN 1752975A CN A2005100999416 A CNA2005100999416 A CN A2005100999416A CN 200510099941 A CN200510099941 A CN 200510099941A CN 1752975 A CN1752975 A CN 1752975A
Authority
CN
China
Prior art keywords
grammer
table field
speech
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100999416A
Other languages
English (en)
Other versions
CN1752975B (zh
Inventor
苏恩索恩·阿蒂瓦尼查亚丰
小查尔斯·W·克罗斯
杰拉德·M·迈克库伯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1752975A publication Critical patent/CN1752975A/zh
Application granted granted Critical
Publication of CN1752975B publication Critical patent/CN1752975B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML

Abstract

提供一种计算机实现的用于响应语音话语填充基于图形的表格字段的方法和系统。所述计算机实现的方法包括产生对应于表格字段的语法,所述语法以用户简档为基础且包含语义解释串。所述方法还包括响应语音话语,根据所述至少一种语法生成自动填充事件,所述自动填充事件导致用对应于用户简档的数据填充表格字段。所述系统包括一个语法生成模块,用于生成对应于表格字段的语法,所述语法以用户简档为基础且包括语义解释串。所述系统还包括响应语音话语,根据至少一种语法生成自动填充事件的事件模块,所述自动填充事件导致用对应于用户简档的数据填充表格字段。

Description

用于支持话音的自动填充的方法和系统
技术领域
本发明涉及多模式浏览器(multimodal browser)和话音服务器(voice server),更具体地说,涉及用于多模式浏览器和话音服务器的话音实现的多模式应用。
背景技术
建立在数据描述可扩展置标语言(XML)基础上的许多最新技术发展已产生出新的包含多模式接口或浏览器的基于Web的应用。一个多模式浏览器允许用户访问多模式内容,该内容既可以是图形,也可以是声频。按传统惯例,用户从键盘或者手动定向的屏幕光标入口,利用图形输入来访问Web内容。而后,用户也能利用语音输入。最近,用户已经能够通过允许既使用图形输入又使用语音输入的多模式接口访问Web内容。
一种多模式浏览器由可扩展超文本置标语言(XHTML或XML)+话音可扩展置标语言(VXML)(也可更简明表示为X+V置标语言)提供。所述X+V置标语言扩展传统的图形浏览器以包含口语交互作用。X+V置标语言把XHTML和XML-事件技术和作为万维网联盟(W3C)语音接口框架的一部分开发的XML词汇表结合起来。所述结合包含支持语音合成,语音对话,命令和控制应用以及语音语法的话音模块。话音处理器可添加到XHTML部件,且响应可视浏览器的特定的文档对象模型(DOM)
尽管有这些技术开发,但是在按照惯例实现的多模式接口中不存在许多用户期望的能力,例如根据语音话语来填充表格字段的用户友好能力。要求用户输入的表格已成为平常之事。例如,在进入安全Web站点的访问权得到准许之前,用户通常必须完成一个表格。输入表格信息是使人烦闷,浪费时间甚至使人沮丧的事。对反复从各个Web站点获取内容的用户来说更是如此,在准许访问之前,都要求基于表格的用户数据输入。此外,用户可使用具有有限或者不方便的输入选项的设备来访问Web内容。例如,电话机,移动电话机,个人数字助理(PDA)或类似设备通常只包含一组有限的按键,一个很小的数字键盘,或者除了话音输入装置之外什么也没有。因此,需要扩展多模式浏览器从而提供能用话音实现表格字段的自动填充(autofill)的高效方法。
发明内容
本发明提供一种计算机实现的响应语音话语(speech utterance)自动填充表格字段的方法。所述方法可包含生成对应于表格字段的至少一种语法的步骤。所述语法以用户简档为基础,且可包含语义解释串(semantic interpretation string)。所述方法还包含生成事件的步骤。所述事件以至少一种语法为基础且能响应语音话语。所述事件可导致用对应于用户简档的数据填充表格字段。
按照另一个实施例,本发明提供响应语音话语自动填充表格字段的计算机系统。所述系统可包含生成对应于表格字段的至少一种语法的语法生成模块。所述语法以用户简档为基础且可包含语义解释串。所述计算机系统还可包含生成事件的事件模块,所述事件以至少一种语法为基础且能响应语音话语。所述事件可导致用对应于用户简档的数据填充表格字段。
附图说明
附图中表示了目前优选的实施例,但是本发明显然并不局限于图示的方案和手段。
图1是图解表示其中可使用根据本发明一个实施例的系统的多模式通信环境的示意图。
图2是根据本发明一个实施例的系统的示意图。
图3是由图2的系统执行的操作的示意图。
图4是根据本发明的另一个实施例的系统的示意图。
图5是由图4的系统执行的操作的示意图。
图6是图解说明根据本发明的一个实施例的方法的流程图。
图7是图解说明根据本发明的另一个实施例的方法的流程图。
图8是图解说明根据本发明的另一个实施例的支持多模式自动填充的应用对话的示意图。
图9是图解说明根据本发明的另一个实施例的支持多模式自动填充的应用对话的示意图。
图10是图解说明根据本发明的另一个实施例的使用支持多模式自动填充的应用对话注册用户特定的信息的方法流程图。
图11是图解说明根据本发明的另一个实施例的使用支持多模式自动填充的应用对话访问多模式应用提供的Web表格的方法流程图。
具体实施方式
图1是图解说明其中可使用根据本发明的响应语音话语自动填充表格字段的系统200的多模式通信环境100的示意图。如图所示,多模式通信环境100可包含语音处理资源,例如自动语音识别(ASR)引擎140和文语转换(TTS)引擎145,其中每一个都能经由通信网络150与系统200进行电子通信。通信网络150包含(但并不限于)局域网,广域网,公共交换电话网,无线或移动通信网或因特网。作为例证说明,系统200也能经由另一或同一通信网络150与计算机155以及与电话机160进行电子通信。
从随后的说明中将很容易明确图解说明的多模态通信环境100只是其中可方便地采用系统200的一种多模式通信环境。备选的多模式通信环境,例如可包含图示不同组件的各种子集。
参考附图2,系统200例证地包含应用程序205和,应用程序205通过应用程序接口210链接到解释器211。在解释器211内,系统200还例证地包含经由API 210连接到应用程序205的语法生成模块215和事件模块220。所述语法生成模块215和事件模块220可以在与应用程序205相同的地址空间中运行。所述系统还包含连接到话音浏览器的语音服务接口221。通常,所述语音服务接口221能连接到任意各种音频资源(未图示),例如音频子系统,和语音处理资源,例如自动语音识别(ASR)引擎和文语转换(TTS)引擎。因此,系统200能作为托管(host)一个或多个应用(例如话音浏览器,交互式话音应答系统,话音服务器,或其它类型的应用)的服务器。例如,应用205还可作为许可话音或语音的可视浏览器。
系统200另外包含一个分析用VoiceXML书写的文档,并且确定在用户简档域内该文档是否包含一个同步话音字段的解析模块217。这里术语同步话音字段被用于表示由语音和图形输入的同步来填充的表格字段。如下说明,这种同步导致响应语音输入,用图形输入来填充表格字段。这里使用用户简档域来表示将用对应于用户简档的数据填充的那些表格字段,所述用户简档表示比如对应于用户的个人数据。这些个人信息可包含用户姓名,地址,电话号码。另一方面,其他类型的数据可包含在用户简档中,并且可以是根据本文所述发明的支持话音的(voice-enabled)自动填充的对象,而不会改变这里所述的本发明。
本文中的用户简档例证包括关键字,标志短语,和值,如表1中的典型用户简档模式所示。
  关键字   标志短语   值
  “firstname”   “my first name”   “Gerald”
  “lastname”   “my last name”   “Mccobb”
  “address”   “my address”   “8051 Congress Avenue”
表1
API 210提供实现同步单元,例如X+V<sync>单元的VoiceXML字段语法。由VoiceXML字段语法实现的同步单元使图形输入控制,例如XHTML输入控制的值特性与同步话音字段同步。如上所述,在本文中,同步话音字段定义将由系统200自动填充的表格字段。
语法生成模块215可包含VoiceXML解释器。如图3所示,语法生成模块215从用户简档获得将被自动填入已识别表格字段中的一个特定字段的标志短语和对应值。语法生成模块215生成表示为自动填充语法的附加语法,它以标志短语为基础且具有包含和标志短语对应的值的语义解释(SI)串或标记。语法生成模块对由解析模块217识别为用户简档域中的同步话音字段的每个表格字段执行该操作。因此,语法生成模块215生成和限定表格字段的每个同步话音字段对应的自动填充语法,该语法以用户简档为基础且包括SI串或标记。
当表格解释算法(FIA)访问这样识别的表格字段之一时,语法生成模块215就能实现自动填充语法以及API 210提供的VoiceXML字段语法。当能实现自动填充语法和VoiceXML字段语法时,事件模块220根据所述语法创建自动填充事件。所述事件被配置成响应语音话语。
响应语音话语,自动填充事件使得执行SI串或标记,从而执行结果是对应于标志的值。自动填充事件使此结果被传播,同时由VoiceXML字段语法实现的同步单元用SI串或标记执行的结果填充Web页的表格字段。因此,所述事件导致响应语音话语,用包含在语义解释串中的值来填充表格字段。
图4是根据本发明的另一个实施例用于响应语音话语自动填充表格字段的系统300的示意图。所述系统包括应用程序305和解释器312,应用程序和解释器经由API 310连接。所述系统还包括语法生成模块315和事件模块325。如图所示,语法生成模块315和事件模块325是解释器312的一部分。
应用程序305可生成一个VoiceXML片段330并将其传送到解释器312。VoiceXML片段330能确定可用于处理接收到的语音话语的语法。在为多模式交互作用启用多个设备的情况下,配置文件320可选地被包含从而指定一个或多个不同的设备,比如电话机,移动电话机,家用安全系统,仪表板音频/通信系统,计算机系统,便携式电脑系统。在配置文件320中,每个设备被赋予一个可唯一识别该设备的标识符。在一个实施例中,在向解释器312注册VoiceXML片段330之前,应用程序305可访问配置文件320以便获得正在使用的设备的身份。
系统300使用命令,控制和内容导航置标语言(C3N),其中应用程序305向解释器312注册基于C3N语法的VoiceXML链接,例如VoiceXML<link>。通过匹配链接中的语法而生成的事件被传回应用程序305,如图所示。通过根据C3N语法及指示的C3N链接语法指定一个或多个链接单元,可匹配输入到应用程序305的语音。即,解释器312可匹配从应用程序305接收的语音输入和C3N链接语法。一旦检测到所述匹配,解释器312就能生成一个或多个发送回应用程序305的事件。
如图5所示,更具体地说,当需要自动填充时,语法生成模块315生成C3N链接语法。该C3N链接语法以用户简档为基础。而后应用程序305指令解释器312添加C3N链接语法。C3N链接语法使事件模块325创建一个自动填充事件。在响应语音话语被执行时,该事件使表格字段由来自用户简档的图形输入填充。
例如,假定用户简档与上述相同,根据本实施例,下列基于VoiceXML的应用程序用关键字,标志短语和值单元来生成语法:
<Vxml                      :                        linkeventexpr+“application.lastresult$.interpretation.c3n>
<grammar>
    <![CDATA[
    #JSGF V1.0
    grammar user-profile;
    public<user-profile>+Browser fill[my]
     (
     first name{$.c3n=“command.autofill.firstname”;}
     I last name{$.c3n=“command.autofill.lastname”;}
         I street address{$.c3n=“command.autofilladress”;}
         )
         ;
     ]]>
     </grammar>
</vxml:link>.
用标志短语和对应关键字建立该语法,它包含在对应的SI串或标记的一部分中。例证地构建所述语法以便匹配诸如“fill my streetaddress”之类的短语。响应语音话语的VoiceXML链接导致该事件被传播。系统300通过搜索用户简档从而获得地址值来响应该事件,它被解释为自动填充命令。其结果是用值“8051 Congress Avenue”自动填充表格字段。
图6提供了图解说明根据本发明的另一个实施例的方法400的流程图。方法400从步骤410开始,其中解析一个文档以便确定X+V文档是否包含用户简档域内的同步话音字段。在步骤412为每个字段生成一个VoiceXML字段语法。
在步骤414,在用户简档的标志短语和对应值的基础上生成自动填充语法,所述值被包含在SI串或标记中。在步骤416中启用VoiceXML字段语法和自动填充语法。响应语音话语,在步骤418执行SI串,以致结果是包含在SI串或标记中的值。在步骤420,用此结果自动填充可视字段。
图7提供图解说明根据本发明的一个不同实施例的方法500的流程图。在步骤502,创建具有和用户简档对应的字段的链接语法。在步骤504由解释器添加所述链接语法。在步骤506,响应语音话语,并且当聚焦于页面中的某一字段时,所述链接生成一个事件。
如上所述,根据这里描述的不同实施例的系统可以在不同的能力中运行,包括用作具有用于响应语音话语用图形内容填充Web表格的字段的自动填充能力的浏览器。如果浏览器驻留于体积较小的设备(例如,移动电话)上,则自动填充能力特别有用。
如上所述的多模式自动填充通常采用基于提供给浏览器的用户信息的语法。已经描述过的用户标识可包括个人简档或其他标识记号,以及用户可通过由特定浏览器支持的多模式自动填充方便地输入的任意其他类型的信息。但是,如果将基于这种语法的用户信息用于体积较小的设备,则在设备上加载这种语法可能比较困难。而且,有些设备可能没有足够的存储器空间来存储这种信息。特定的设备也许不具有支持本地语音识别的能力。
本发明的另一实施例提供了克服上述难题的方式。特定的实施例允许浏览器用户通过数据通信网络输入用户信息。可以使用从诸如无线LAN(WLAN)的局域网(LAN)到因特网的任何类型的数据通信网络。可通过与特定数据通信网络连接的个人计算机(PC)或其他计算设备提供用户信息。
更具体地说,可以在存储于特定数据通信网络的预定位置(例如,因特网上的安全Web站点)的用户信息对话应用中维护用户信息。对话生成对应于用户信息的语法。例如,语法可存储在Web站点上,作为具有例如语音识别语法规范(SRGS)的标准格式的一组文件。
如果用户设备支持本地语音识别,则在用户使用设备浏览器登录到信息对话应用后,多模式自动填充被下载到设备。随后,当例如用户访问要求用户信息的由另一应用提供的Web表格时,用户使用如上所述的多模式自动填充能力填充表格。
图8提供了根据一个特定实施例的用户信息对话应用600的示意图。对话600执行的操作支持由用户使用运行支持多模式应用并且能够进行语音识别的web浏览器的设备执行的多模式自动填充。对话应用600例证地包括基于用户特定的信息生成语法的语法生成模块602。例证地,对话应用600还包括存储生成的语法的语法存储模块604,以及将生成的语法传递给由用户访问的位于远程的多模式应用的语法传递模块606。
对话应用600例证地驻留于Web服务器608上。用户将用户特定的信息从客户机610(例如桌面Web客户机)通过客户机和Web服务器608之间的数据通信网络连接提供给对话应用600。随后,用户使用具有语音识别能力以及自动填充能力的任何设备,链接到使用设备浏览器的对话应用600并从语法存储模块604下载其中存储的语法。当用户以后访问要求用户特定信息的由某个其他应用提供的Web表格时,用户使用多模式能力填充表格。
表2示出了可包括用户简档的用户特定信息。
关键字 标志短语
∈cefirstname∈□ ∈cefirst name∈□ ∈ceSoonthorn∈□
∈celastname∈□ ∈celast name∈□ ∈ceAtivanichayaphong∈□
∈ceaddress∈□ ∈cestreetaddress∈□ ∈ce8051 Congress Ave∈□
∈cephonee∈□ ∈cephonenumber∈□ ∈ce561-666-1234∈□
表2
可由语法生成模块602针对表2中的用户特定信息生成下列例示语法。注意,格式是用于表示语音语法的Java API语音语法格式(JSGF),但是也可以替代使用诸如W3C语音识别语法规范的其他语法。
#JSGF V1.0;
grammar user_profile;
public<user_profile>=Browser fill[my]
 (first name{$.c3n=″command.autofill.firstname″;}
                    |last name{$.c3n=
″command.autofill.lastname″;}
                 |street address{$.c3n=
″cornmand.autofill.address″;}
                 |phone{$.c3n=
                 ″comand.autofill.phone″;}
                 ;
#JSGF V1.0;
grammar myfirstname;
public<myfirstname>=first name{$=″Soonthorn″};
#JSGF V1.0;
grammar mylastname;
public<mylastname>=last name{$=″Ativanichayaphong″};
#JSGF V1.0;
grammar mystreet;
public<mystreet>=street address{$=″8051 Congress Ave″};
#JSGF V1.0;
grammar mystreet;
public<mystreet>=(telephone|phone){$=″561-555-
1234″};
对于具有语音识别能力的用户设备而言,上述语法在用户使用用户设备浏览器登录到web应用之后被取出。这些示例语法可由web应用存储,作为可使用下列示例URL访问的独立语法文件。
http://www.example.com/autofill/grammars/gram1.jsgf
http://www.example.com/autofill/grammars/gram2.jsgf
http://www.example.com/autofill/grammars/gram3.jsgf
http://www.example.com/autofill/grammars/gram4.jsgf
http://www.example.com/autofill/grammars/gram5.jsgf.
用户信息对话应用的替代实施例如图9示例性地表示。对话应用900特别旨在与具有支持多模式应用但缺乏语音识别能力的web浏览器的用户设备一同使用。当用户登录到例如驻留在应用服务器906上的位于远程的多模式应用904时,示例性地驻留于远程web服务器910上的对话应用900使得将语法912所在的网络地址传递给多模式应用。多模式应用904可选地使用特定的用户验证机制,定位位于所述网络地址的语法912,检索语法912并将其提供给位于应用服务器906上的语音识别引擎。
例如,地址可对应于包含在对Web页面的HTTP请求中的URL位置,所述请求来自于在用户设备902上工作的浏览器。更具体地说,请求可包含HTTP 1.1内容位置报头,这是本领域技术人员能够容易地理解的。多模式应用904接收HTTP请求并读取包含在内容位置报头中的URL。然后,多模式应用904取出由对话应用900生成并存储的语法,再将语法提供给位于应用服务器906上的语音识别引擎(未明确示出)。多模式自动填充语法被语音引擎激活,以便语法能够被与由应用发送给用户的Web表格响应一同使用。
请注意,对于不支持本地语音识别的用户设备而言,URL在用户使用在设备上运行的Web浏览器登录到web应用上后被下载。当用户随后使用Web浏览器访问由远程多模式应用提供的特定Web表格时,URL被包括在对Web页面的HTTP 1.1报头中。建议使用的HTTP 1.1报头是内容位置:
内容位置 http://www.example.com/autofill/grammars/gram1.jsgf
内容位置 http://www.example.com/autofill/grammars/gram2.jsgf
内容位置 http://www.example.com/autofill/grammars/gram3.jsgf
内容位置 http://www.example.com/autofill/grammars/gram4.jsgf
内容位置 http://www.example.com/autofill/grammars/gram5.jsgf.
多模式Web应用读取内容报头信息并取出语法。请进一步注意,如上面间接提到的,应用服务器可使用验证机制,验证机制可能要求将客户机的记号(例如,cookies)传递给存储语法的Web服务器。记号(token)可包括用户的小型设备的唯一的IP地址。
图10是图解说明根据本发明的另一个实施例的使用应用对话注册用户特定的信息的方法流程图。在步骤1002,支持多模式Web浏览器的设备的用户访问驻留于服务器上的应用对话。在步骤1004,应用对话通过请求用户向应用注册来进行响应。用户又在步骤1006中通过输入例如用户在其上运行Web浏览器的设备的电话号码和/或IP地址来进行响应。
在步骤1008,应用呈现用以输入用户特定的信息(例如,用户名、地址和/或电话号码)的对话框。应用将用户指定的信息与用户设备的IP地址相关联并在步骤1010中将相关联的数据存储在数据库中。然后在步骤1012,用户便可以从应用中注销。
在步骤1014,示例性地确定对应于现在注册的信息的特定设备是否具有语音识别能力。如果具有,则在步骤1016中将与用户特定的信息相关联的自动填充语法下载到用户设备。否则,在步骤1018中,将相关的自动填充语法驻留在Web站点上的位置下载到该设备。该方法示例性地在步骤1020中结束。
图11是图解说明根据本发明的另一个实施例的使用应用对话访问Web表格的方法流程图。在步骤1102中,用户使用支持多模式交互的设备访问多模式Web应用。如果在步骤1104中,设备缺少语音识别能力,则在步骤1106中在对下一Web页面的请求(例如已知的HTTP请求)中提供存储的自动填充语法的位置。在步骤1108中,Web应用从指定的地址检索语法并在步骤1110中将自动填充语法添加到其服务器,以便填充例如以XHTML格式化的表格。
然而,如果设备支持语音识别,则可绕过步骤1106-1110。无论如何,方法在步骤1112继续,由Web应用呈现XHTML表格,并且可选地还呈现用于填充表格的话音对话。用于填充表格的语法在步骤1114中添加,随后在步骤1116中形成用于执行自动填充的各种方法。该方法在步骤1118中结束。
可用硬件,软件,或硬件和软件的组合来实现本发明。可集中地在一个计算机系统中实现本发明,或者按照分布式方式实现本发明,在这种情况下,不同的部件被散布在数个互连的计算机系统中。适合于实现这里描述的方法的任意一种计算机系统或其它设备都是适宜的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,当被加载和执行时,所述计算机程序控制计算机系统执行这里描述的方法。
本发明也能嵌入计算机程序产品中,所述计算机程序产品包含能够实现这里描述的方法的全部特征,并且当被装入计算机系统时,能够实现这些方法。本文中的计算机程序意味着一组指令的用任意语言、代码或符号表示的任意表述,所述一组指令使具有信息处理能力的系统直接地,或者在下述任一或下述二者之后执行特定的功能:a)转换成另一种语言,代码或符号;b)用不同的材料形式再现。
在不脱离本发明的精神或本质属性的情况下,可用其它形式具体体现本发明。因此,本发明的范围应由下述权利要求限定,而不是由前面的说明书限制。

Claims (20)

1、一种计算机实现的响应语音话语自动填充表格字段的方法,所述方法包括:
生成对应于表格字段的至少一种语法,所述语法以用户简档为基础且包括语义解释串;和
基于所述至少一种语法并且响应语音话语,创建自动填充事件,所述自动填充事件导致用对应于用户简档的数据填充表格字段。
2、按照权利要求1所述的方法,其中填充表格字段的数据取自特定于用户简档的表格的记录中,该记录建立数据和语音话语之间的关联。
3、按照权利要求1所述的方法,其中填充表格字段的数据包含除了包含于语音话语的语音到文本转换中的信息之外的信息。
4、按照权利要求1所述的方法,其中所述表格字段是话音置标语言文档的同步语音表格字段,并且其中所述生成步骤包含生成至少一种语法,所述至少一种语法定义和同步语音表格字段对应的表格字段语法。
5、按照权利要求4所述的方法,还包含解析话音置标语言文档,从而确定所述话音置标语言文档是否包含同步语音表格字段。
6、按照权利要求4所述的方法,所述生成步骤包含根据包含在语义解释串中的标志短语和值,另外生成自动填充语法。
7、按照权利要求6所述的方法,其中自动填充事件导致响应语音话语,用包含在语义解释串中的值填充表格字段。
8、按照权利要求1所述的方法,所述生成步骤包含生成话音命令和控制语法与内容导航语法至少之一。
9、按照权利要求1所述的方法,其中所述表格字段是话音置标语言文档的表格字段,并且其中所述生成步骤包含生成至少一种定义和表格字段对应的链接语法的语法。
10、一种响应语音话语自动填充表格字段的计算机系统,所述系统包括:
一个语法生成模块,用于生成至少一种和表格字段对应的语法,所述语法以用户简档为基础且包括语义解释串;和
一个自动填充事件模块,用于基于至少一种语法且响应语音话语,创建自动填充事件,所述自动填充事件导致用对应于用户简档的数据填充表格字段。
11、按照权利要求10所述的计算机系统,其中所述表格字段是话音置标语言文档的同步话音表格字段,并且其中所述的语法生成模块包含话音置标语言解释器,用于生成至少一种语法,所述至少一种语法定义和同步话音表格字段对应的表格字段语法。
12、按照权利要求11所述的计算机系统,还包括一个用于解析话音置标语言文档从而确定所述话音置标语言文档是否含有用户简档域中的同步话音表格字段的解析模块。
13、按照权利要求11所述的计算机系统,其中所述话音置标语言解释器另外根据包含在语义解释串中的标志短语和值生成自动填充语法。
14、按照权利要求13所述的计算机系统,其中自动填充事件导致响应语音话语,用包含在语义解释串中的值填充表格字段。
15、按照权利要求10所述的计算机系统,其中所述语法生成模块包含配置成生成话音置标语言链接语法的浏览器。
16、按照权利要求15所述的计算机系统,其中所述自动填充事件是响应链接语法并使浏览器用对应于用户简档的数据填充表格字段的话音置标语言自动填充事件。
17、按照权利要求10所述的计算机系统,还包括用于支持自动填充事件模块的用户信息对话应用。
18、一个用于支持由用户使用具有支持多模式应用的web浏览器的设备执行的多模式自动填充的用户信息对话应用,所述对话应用包括:
基于用户特定的信息生成语法的语法生成模块;
存储所生成的语法的语法存储模块;
传递至少下列之一的语法传递模块:(a)所生成的语法,以及(b)所生成的语法可被多模式应用访问的数据通信网络地址。
19、按照权利要求18所述的对话应用,其中如果设备不具有语音识别能力,则语法传递模块传递数据通信网络地址。
20、按照权利要求18所述的对话应用,其中如果设备具有语音识别能力,则语法传递模块传递所生成的语法。
CN2005100999416A 2004-09-20 2005-09-13 用于支持话音的自动填充的方法和系统 Expired - Fee Related CN1752975B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10/945,112 2004-09-20
US10/945,112 US7739117B2 (en) 2004-09-20 2004-09-20 Method and system for voice-enabled autofill
US11/199,672 2005-08-09
US11/199,672 US7953597B2 (en) 2004-09-20 2005-08-09 Method and system for voice-enabled autofill

Publications (2)

Publication Number Publication Date
CN1752975A true CN1752975A (zh) 2006-03-29
CN1752975B CN1752975B (zh) 2011-07-06

Family

ID=36075165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100999416A Expired - Fee Related CN1752975B (zh) 2004-09-20 2005-09-13 用于支持话音的自动填充的方法和系统

Country Status (3)

Country Link
US (2) US7739117B2 (zh)
CN (1) CN1752975B (zh)
TW (1) TWI353585B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047323B (zh) * 2008-04-07 2013-04-10 纽昂斯通讯公司 网页的自动化语音支持
US9047869B2 (en) 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
CN106537372A (zh) * 2014-07-18 2017-03-22 微软技术许可有限责任公司 用于增强的文档生产率的实体识别
CN107077462A (zh) * 2014-09-12 2017-08-18 微软技术许可有限责任公司 来自声音的对数字文档元素的动作
CN111930776A (zh) * 2020-09-10 2020-11-13 北京维数统计事务所有限公司 表单处理方法、装置、电子设备和可读存储介质

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8788271B2 (en) * 2004-12-22 2014-07-22 Sap Aktiengesellschaft Controlling user interfaces with contextual voice commands
US7409344B2 (en) * 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
GB0507148D0 (en) * 2005-04-08 2005-05-18 Ibm Method and apparatus for multimodal voice and web services
US8090584B2 (en) 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US8032825B2 (en) * 2005-06-16 2011-10-04 International Business Machines Corporation Dynamically creating multimodal markup documents
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US20060288309A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Displaying available menu choices in a multimodal browser
US20060287846A1 (en) * 2005-06-21 2006-12-21 Microsoft Corporation Generating grammar rules from prompt text
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8719034B2 (en) 2005-09-13 2014-05-06 Nuance Communications, Inc. Displaying speech command input state information in a multimodal browser
US7822699B2 (en) * 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
US7831585B2 (en) * 2005-12-05 2010-11-09 Microsoft Corporation Employment of task framework for advertising
US20070130134A1 (en) * 2005-12-05 2007-06-07 Microsoft Corporation Natural-language enabling arbitrary web forms
US7933914B2 (en) * 2005-12-05 2011-04-26 Microsoft Corporation Automatic task creation and execution using browser helper objects
US7996783B2 (en) * 2006-03-02 2011-08-09 Microsoft Corporation Widget searching utilizing task framework
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8073697B2 (en) * 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7881932B2 (en) * 2006-10-02 2011-02-01 Nuance Communications, Inc. VoiceXML language extension for natively supporting voice enrolled grammars
US7747442B2 (en) * 2006-11-21 2010-06-29 Sap Ag Speech recognition application grammar modeling
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US8150698B2 (en) * 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8843376B2 (en) * 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8060371B1 (en) 2007-05-09 2011-11-15 Nextel Communications Inc. System and method for voice interaction with non-voice enabled web pages
US8584020B2 (en) 2007-12-28 2013-11-12 Microsoft Corporation User-defined application models
US9177551B2 (en) * 2008-01-22 2015-11-03 At&T Intellectual Property I, L.P. System and method of providing speech processing in user interface
US8543404B2 (en) * 2008-04-07 2013-09-24 Nuance Communications, Inc. Proactive completion of input fields for automated voice enablement of a web page
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US20100070360A1 (en) * 2008-09-13 2010-03-18 At&T Intellectual Property I, L.P. System and method for creating a speech search platform for coupons
US20100111270A1 (en) * 2008-10-31 2010-05-06 Vonage Holdings Corp. Method and apparatus for voicemail management
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
WO2011004000A2 (en) * 2009-07-10 2011-01-13 Dialogs Unlimited B.V. Information distributing system with feedback mechanism
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
WO2011054324A1 (de) * 2009-11-05 2011-05-12 Bertram Stoll System und methode zur spracherfassung von strukturierten daten
US9847083B2 (en) * 2011-11-17 2017-12-19 Universal Electronics Inc. System and method for voice actuated configuration of a controlling device
EP2639792A1 (en) * 2012-03-16 2013-09-18 France Télécom Voice control of applications by associating user input with action-context idendifier pairs
US20130246920A1 (en) * 2012-03-19 2013-09-19 Research In Motion Limited Method of enabling voice input for a visually based interface
WO2013150492A1 (en) * 2012-04-05 2013-10-10 Thakker Mitesh L Systems and methods to input or access data using remote submitting mechanism
US8898063B1 (en) * 2013-03-15 2014-11-25 Mark Sykes Method for converting speech to text, performing natural language processing on the text output, extracting data values and matching to an electronic ticket form
US9449600B2 (en) * 2013-06-11 2016-09-20 Plantronics, Inc. Character data entry
WO2015058293A1 (en) 2013-10-23 2015-04-30 Mcafee, Inc. Method and processes for securely autofilling data fields in a software application
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
RU2646350C2 (ru) * 2015-01-27 2018-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ ввода данных в электронное устройство, способ обработки голосового запроса, машиночитаемый носитель (варианты), электронное устройство, сервер и система
US10019485B2 (en) * 2015-02-23 2018-07-10 Google Llc Search query based form populator
US10657200B2 (en) 2016-01-05 2020-05-19 Adobe Inc. Proactive form guidance for interacting with electronic forms
US10445419B2 (en) * 2016-01-05 2019-10-15 Adobe Inc. Form filling engine to populate fields of an electronic form
US10460024B2 (en) * 2016-01-05 2019-10-29 Adobe Inc. Interactive electronic form workflow assistant that guides interactions with electronic forms in a conversational manner
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
US9824691B1 (en) * 2017-06-02 2017-11-21 Sorenson Ip Holdings, Llc Automated population of electronic records
US11195530B1 (en) 2018-02-19 2021-12-07 State Farm Mutual Automobile Insurance Company Voice analysis systems and methods for processing digital sound data over a communications network
US11144906B2 (en) 2018-02-20 2021-10-12 Visa International Service Association Key-pad centric payments
CN108764649B (zh) * 2018-04-28 2022-04-26 平安科技(深圳)有限公司 保险销售实时监控方法、装置、设备及存储介质
CN109360571A (zh) * 2018-10-31 2019-02-19 深圳壹账通智能科技有限公司 贷款信息的处理方法及装置、存储介质、计算机设备
US11556699B2 (en) * 2019-02-04 2023-01-17 Citrix Systems, Inc. Data migration across SaaS applications
KR20220010034A (ko) * 2019-10-15 2022-01-25 구글 엘엘씨 그래픽 사용자 인터페이스에 음성-제어 컨텐츠 입력
US11507345B1 (en) * 2020-09-23 2022-11-22 Suki AI, Inc. Systems and methods to accept speech input and edit a note upon receipt of an indication to edit
CN117057325B (zh) * 2023-10-13 2024-01-05 湖北华中电力科技开发有限责任公司 一种应用于电网领域表单填写方法、系统和电子设备

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
US6240448B1 (en) * 1995-12-22 2001-05-29 Rutgers, The State University Of New Jersey Method and system for audio access to information in a wide area computer network
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6856960B1 (en) * 1997-04-14 2005-02-15 At & T Corp. System and method for providing remote automatic speech recognition and text-to-speech services via a packet network
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5878418A (en) * 1997-08-12 1999-03-02 Intervoice Limited Partnership Auto definition of data sets and provisioning interfaces for call automation
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
WO1999044118A1 (en) * 1998-02-25 1999-09-02 Lernout & Hauspie Speech Products N.V. Generic run-time engine for interfacing between applications and speech engines
US6199079B1 (en) * 1998-03-09 2001-03-06 Junglee Corporation Method and system for automatically filling forms in an integrated network based transaction environment
US6539359B1 (en) * 1998-10-02 2003-03-25 Motorola, Inc. Markup language for interactive services and methods thereof
US6490601B1 (en) * 1999-01-15 2002-12-03 Infospace, Inc. Server for enabling the automatic insertion of data into electronic forms on a user computer
US7216351B1 (en) * 1999-04-07 2007-05-08 International Business Machines Corporation Systems and methods for synchronizing multi-modal interactions
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
GB9911971D0 (en) * 1999-05-21 1999-07-21 Canon Kk A system, a server for a system and a machine for use in a system
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
US20020107918A1 (en) * 2000-06-15 2002-08-08 Shaffer James D. System and method for capturing, matching and linking information in a global communications network
EP1354263A2 (en) * 2000-07-07 2003-10-22 Openwave Systems Inc. Graphical user interface features of a browser in a hand-held wireless communication device
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US20020054090A1 (en) * 2000-09-01 2002-05-09 Silva Juliana Freire Method and apparatus for creating and providing personalized access to web content and services from terminals having diverse capabilities
DE60113787T2 (de) * 2000-11-22 2006-08-10 Matsushita Electric Industrial Co., Ltd., Kadoma Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
ATE391986T1 (de) * 2000-11-23 2008-04-15 Ibm Sprachnavigation in webanwendungen
US7487440B2 (en) * 2000-12-04 2009-02-03 International Business Machines Corporation Reusable voiceXML dialog components, subdialogs and beans
US20020093530A1 (en) 2001-01-17 2002-07-18 Prasad Krothapalli Automatic filling and submission of completed forms
US6658414B2 (en) * 2001-03-06 2003-12-02 Topic Radio, Inc. Methods, systems, and computer program products for generating and providing access to end-user-definable voice portals
US20050028085A1 (en) * 2001-05-04 2005-02-03 Irwin James S. Dynamic generation of voice application information from a web server
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置
US6801604B2 (en) * 2001-06-25 2004-10-05 International Business Machines Corporation Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources
US20030028792A1 (en) 2001-08-02 2003-02-06 International Business Machines Corportion System, method, and computer program product for automatically inputting user data into internet based electronic forms
US6996528B2 (en) * 2001-08-03 2006-02-07 Matsushita Electric Industrial Co., Ltd. Method for efficient, safe and reliable data entry by voice under adverse conditions
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US8799464B2 (en) 2001-12-28 2014-08-05 Motorola Mobility Llc Multi-modal communication using a session specific proxy server
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US6925308B2 (en) * 2002-02-11 2005-08-02 Qualcomm, Incorporated Auto-fill message fields in a communication terminal
AT6920U1 (de) * 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
US7210098B2 (en) * 2002-02-18 2007-04-24 Kirusa, Inc. Technique for synchronizing visual and voice browsers to enable multi-modal browsing
AU2003225706A1 (en) * 2002-03-06 2003-09-22 Professional Pharmaceutical Index Creating records of patients using a browser based hand-held assistant
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7003464B2 (en) * 2003-01-09 2006-02-21 Motorola, Inc. Dialog recognition and control in a voice browser
WO2004075027A2 (en) * 2003-02-19 2004-09-02 Custom Speech Usa, Inc. A method for form completion using speech recognition and text comparison
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US7729919B2 (en) * 2003-07-03 2010-06-01 Microsoft Corporation Combining use of a stepwise markup language and an object oriented development tool
US7451086B2 (en) * 2005-05-19 2008-11-11 Siemens Communications, Inc. Method and apparatus for voice recognition

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047323B (zh) * 2008-04-07 2013-04-10 纽昂斯通讯公司 网页的自动化语音支持
US8831950B2 (en) 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US9047869B2 (en) 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
CN106537372A (zh) * 2014-07-18 2017-03-22 微软技术许可有限责任公司 用于增强的文档生产率的实体识别
US11120210B2 (en) 2014-07-18 2021-09-14 Microsoft Technology Licensing, Llc Entity recognition for enhanced document productivity
CN107077462A (zh) * 2014-09-12 2017-08-18 微软技术许可有限责任公司 来自声音的对数字文档元素的动作
CN111930776A (zh) * 2020-09-10 2020-11-13 北京维数统计事务所有限公司 表单处理方法、装置、电子设备和可读存储介质
CN111930776B (zh) * 2020-09-10 2021-01-05 北京维数统计事务所有限公司 表单处理方法、装置、电子设备和可读存储介质

Also Published As

Publication number Publication date
CN1752975B (zh) 2011-07-06
US7953597B2 (en) 2011-05-31
US20060074652A1 (en) 2006-04-06
TW200630957A (en) 2006-09-01
US20060064302A1 (en) 2006-03-23
TWI353585B (en) 2011-12-01
US7739117B2 (en) 2010-06-15

Similar Documents

Publication Publication Date Title
CN1752975A (zh) 用于支持话音的自动填充的方法和系统
US8073700B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
CN1148680C (zh) 显示分层结构的方法、系统以及一种计算机系统
CN100338558C (zh) 把图形数据输入图形输入区的系统和方法
EP2115734B1 (en) Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
CN1148681C (zh) 呈现分层结构的方法和系统以及一个计算机系统
US8566087B2 (en) Context-based grammars for automated speech recognition
EP2824596B1 (en) Speech- Enabled Web Content Searching Using a Multimodal Browser
KR100561228B1 (ko) 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
CN1591315A (zh) 用于高级交互接口的语义对象同步理解
CN1788266A (zh) 翻译系统
KR20090085673A (ko) 음성 인식을 이용한 콘텐츠 선택
CN1329739A (zh) 到服务应用程序上的用户接口的声音控制
CN1666199A (zh) 一种与访问互联网内容有关的装置及方法
CN1737902A (zh) 文字语音互转装置
CN101681365A (zh) 用于分布式语音搜索的方法和装置
CN1577267A (zh) 步进式标记语言与面向对象的开发工具的组合使用
CN1639681A (zh) 使用并行多模标签的进行并行多模通信的系统和方法
CN1879149A (zh) 音频对话系统和语音浏览方法
US20090192991A1 (en) Network information searching method by speech recognition and system for the same
CN103248633A (zh) 一种云台控制方法及其系统
KR20100045336A (ko) 웹 상의 멀티미디어 컨텐츠에 포함되는 특정 언어를 다른 언어로 번역하여 제공하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN101505328A (zh) 应用语音识别的网络数据检索方法及其系统
CN1235387C (zh) 用于互联网接入的分布式语音识别
CN1427394A (zh) 语音浏览网关

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO.,LTD.

Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINE CORP.

Effective date: 20090918

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090918

Address after: Massachusetts, USA

Applicant after: Nuance Communications, Inc.

Address before: American New York

Applicant before: International Business Machines Corp.

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110706

Termination date: 20210913