CN101903946B - 分布式听写/转录系统 - Google Patents

分布式听写/转录系统 Download PDF

Info

Publication number
CN101903946B
CN101903946B CN2008801222191A CN200880122219A CN101903946B CN 101903946 B CN101903946 B CN 101903946B CN 2008801222191 A CN2008801222191 A CN 2008801222191A CN 200880122219 A CN200880122219 A CN 200880122219A CN 101903946 B CN101903946 B CN 101903946B
Authority
CN
China
Prior art keywords
writing server
writing
dictation
server
user characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008801222191A
Other languages
English (en)
Other versions
CN101903946A (zh
Inventor
理查德·比奇
克里斯托弗·巴特勒
乔恩·福德
布莱恩·马奎特
克里斯托弗·奥姆兰德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
nVoq Inc
Original Assignee
nVoq Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by nVoq Inc filed Critical nVoq Inc
Publication of CN101903946A publication Critical patent/CN101903946A/zh
Application granted granted Critical
Publication of CN101903946B publication Critical patent/CN101903946B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1027Persistence of sessions during load balancing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching

Abstract

本发明提供了一种分布式听写/转录系统。该系统包括网络连接的客户站、听写管理器和听写服务器,使得听写管理器能够选择听写服务器来转录来自客户站的音频。听写管理器基于常规的负载平衡以及对哪个听写服务器已经被上载了用户特征的确定来选择多个听写服务器中的一个。此外,在选择听写服务器和/或上载特征的同时,客户站的用户或客户机便可以开始听写,其音频将被存储在听写管理器的缓冲器中直到听写服务器被选出和/或可利用。用户将实时或接近实时地接收可被用户校正的文本数据的显示,校正的文本数据可被发送回听写管理器来更新用户特征。

Description

分布式听写/转录系统
根据U.S.C.§§119和120要求优先权
本申请要求于2007年12月21日提交的,标题为“REAL-TIMEDISTRIBUTED DICTATION/TRANSCRIPTION”的美国第61/016,198号临时申请的优先权,再次结合其全部内容作为参考。
技术领域
本申请的技术领域一般涉及听写系统,尤其涉及用于实时或接近实时返回听写录音的分布式听写系统。
背景技术
最初的听写是一种当一个人说话的同时由另一个人抄录所说内容的练习。随着现代技术的发展,听写技术已经发展到基于话音识别技术和语音与文本转换技术允许计算机和处理器来充当转录机的阶段。
当前技术本质上归于基于计算机的听写和转录的两种方式。一种方式包括在机器上加载软件来接收和转录听写,这作为客户端听写而一般被熟知。机器实时或接近实时转录听写。另一种方式包括保存听写音频文件并将该听写音频文件发送到集中的服务器上,这作为服务器端分批处理听写而一般被熟知。集中服务器转录音频文件并返回录音。在服务器具有较少处理任务时,转录通常在大概几小时后完成。
可以体会到的是,目前基于计算机的听写和转录系统具有缺点,客户端听写的一个缺点在于听写和转录受限于单一的或特定的机器,由于大多数处理在本地用户机器上完成,有时需要厚或重的客户机,因此除非用户具备特定的机器可使用,否则用户将不能完成听写处理。服务器端分批处理听写的一个缺点是不能实时或接近实时地提供转录。因此,当服务器端分批处理听写系统采用了瘦客户机,则不能提供实时或接近实时的转录。
此外,录音的返回时间与完成录音的机器的处理能力相关。因此厚或重的客户机器在语音和返回的录音之间可能有长时间的延迟。由于缺乏足够的处理能力,通常厚或重的客户机器最后应答服务器端分批处理听写。以上的两种情况下,返回的延迟有时非常严重。
由Bahl等人(下文中称Bahl)提交的已公开的第2006/005259号美国专利申请,提供了一种轻薄的分布式客户听写/转录系统。Bahl所揭示的内容全部结合在本文中作为参考。尤其是,Bahl揭示了使用无线设备(比如移动电话、个人数字助理,或其他电子设备)将音频发送给网络服务管理器。服务管理器包括资源管理组件和特征管理组件。资源管理器件接收音频,选择多个转录服务器中的一个并通过网络传给服务管理器。一旦转录服务器被选中并且转录服务器接受了任务,服务管理器就识别用户或通过网络上载到转录服务器的默认话音特征。通过服务管理器的资源管理组件使用例如可利用的处理器、网络带宽、邻近因素,以及其他类似的因素来选择转录服务器,这样的因素相当于典型的负载平衡设备。一旦作出选择,音频就被发送到转录服务器并将音频转换为文本。Bahl没有将录音返回给客户,并且对文本或录音文件的任何处理均未作出说明。
因此,依据这样的背景,值得开发一种改进的分布式实时或接近实时的听写和转录系统。
发明内容
本申请为取得技术上的优势并与本申请所包含的技术目的一致,提供了一种分布式实时听写系统。该分布式实时听写系统包括通过网络连接被连接到听写管理器的客户站。该听写管理器识别听写服务器包括语音转录机来将语音从音频流或文件转换为转录结果,比如转换成文本文件或元数据,并将转录结果实时,或接近实时地返回给客户站。听写管理器在选择转录机时识别是否可利用的转录机中的某一台在以前已经被同样的客户使用过,并选择那台用户特征已经被上载到该转录机上的转录机。
本发明技术的一方面提供了一种远程客户站,简单地要求具有通过流式传输连接将音频文件发送到听写管理器或听写服务器上的能力。听写服务器可以根据系统的配置,通过听写管理器或通过直接连接返回转录结果。
附图说明
图1是与本申请技术一致的示范性系统的功能框图;
图2是与本申请技术一致的示范性系统的功能框图;
图3是图2中的听写管理器和听写服务器的功能框图;
图4是与本申请技术一致的方法的示例性功能框图;
图5是包含在本申请某些示例性实施方案中使用的信息和数据的示例数据库;
图6是与本申请技术一致的方法的示例性功能框图;
图7是与本申请技术一致的方法的示例性功能框图。
具体实施方式
本申请的技术现将参考图1-7来解释。同时本申请的技术以与因特网连接相关和在因特网连接上使用常规流式传输协议的流式音频来描述,普通的本领域技术人员通过阅读本文揭示的内容将可认识到其他可能的配置。例如,本申请的技术描述的关于薄的客户站,但更多处理器的潜在选择也可展开。此外本申请的技术描述关于某些示范性实施方案。在这里使用的“示范性”旨在表达“作为一个范例、实例或图解”。任何在这里描述为“示范性”的实施方案不必直接诠释为比其他实施方案更优选或更有利。除非另外声明,所有在这里描述的实施方案都应被认为是示范性的。
首先参照图1,提供了一种分布式听写系统100。分布式听写系统100可提供实时的或允许传输时间、处理及类似过程相关延迟的接近实时的听写转录。当然在系统内可设定延迟以例如允许用户可以选择实时的还是分批处理的转录服务。例如,为了允许分批处理转录服务,系统100可将音频文件缓存在客户设备、服务器、转录机或类似设备中以允许将音频文件稍后转录成文本并在以后的时间返回给客户站或由客户重新取回。
如在分布式听写系统100中示出的,一个或多个客户站(client station)102通过第一网络连接106被连接到听写管理器104上。第一网络连接106可以是任意数目的协议以允许音频信息使用标准的因特网协议传输。客户站102通过麦克风108或类似器件从用户接收音频(即听写)。当作为单独的部分示出时,麦克风108也可被集成在客户站102中,例如移动电话。同时当作为监视器或计算站(computer station)示出时,客户站102可以是无线设备,比如支持wifi的计算机、移动电话、PDA、智能电话或类似设备。客户站102也可以是使用常规因特网协议来发送音频的有线设备,比如笔记本电脑或台式电脑。
听写管理器104可通过第二网络连接112被连接到一个或多个听写服务器110上。第二网络连接112可以与第一网络连接相同或者不相同。第二网络连接也可以是任意数目的常规的无线或有线连接协议。听写管理器104和听写服务器110可以是单独的集成单元,其通过PCI总线或其他常规总线被连接。各听写服务器110并入或接入语音转录机是为本领域一般熟知的。因为语音识别和语音转录机被看作在本领域是广泛熟知的,除非结合本申请的技术需要,否则语音转录机的操作在这里不作深入解释。对于任意给出的听写,听写管理器104将该音频文件从客户站102指引给适当的听写服务器110转录该音频并返回转录结果,即音频的文本。客户站102和听写服务器110之间的连接可以通过听写管理器104被保持。或者,直接在客户站102和听写服务器110之间建立连接。另外,听写管理器104可管理许多同时发生的连接使得多个客户站102和听写服务器110可由听写管理器104管理。听写管理器104也提供了例如在难于实行客户交换的管理和操作的地方采用常规的呼叫中心从而易于接入多个客户站与多个听写服务器之间的额外优点。
网络连接106和112可以是任意的常规网络连接,从而使得流式传输音频可从客户站102提供给听写管理器104、并从听写管理器104提供给听写服务器110。此外,听写管理器104可在这两个方向上管理数据的传输。听写管理器104从客户站102接收音频流,并将音频流传送给听写服务器110。听写服务器110将音频转录成文本并将文本发送给听写管理器104,且由听写管理器104将文本传送回客户站102并在监视器或与客户站102关联的其它的输出设备上显示。当然类似于缓存音频用于稍后转录,文本可先被存储以便以后被客户站102的用户取回。存储文本以在以后取回对于在受到条件限制文本不能被取回的情况下是有利的,比如正在开车或客户站不足以显示,除了上述两种情况还有很多情况不一一例举了。网络连接106和112允许从听写服务器110经过听写管理器104将数据流式传输给客户站102。听写管理器104也可管理数据。客户站102将使用来自听写服务器110的数据在客户站102构成显示,比如文本文件可以显示为word文档。
现在参照图2,提供了分布式听写系统200。分布式听写系统200与分布式听写系统100类似,但其包括许多个听写管理器202。同样客户站102通过第一网络连接204被连接到听写管理202其中的一个,这里第一网络连接204是因特网连接或者万维网(World Wide Web)连接。此外,听写管理器202通过第二网络连接206被连接到听写服务器110,此处第二网络连接206也可以是因特网连接或者万维网连接。可体会的是,本申请的技术是用于远程听写的强有力的解决方案。
参照图3,示出了更多听写管理器104的细节。各个听写管理器202都基本相似,听写管理器104/202包括处理器302,比如微处理器、芯片组、现场可编程逻辑门阵列或类似器件,来控制管理器的主要功能,比如获取关于客户站102的用户的用户特征、听写服务器110的选择,等等。处理器302还处理用于操作听写管理器104/202所需的各种输入和/或数据。听写管理器104/202还包括与处理器302相互连接的存储器304。存储器304将被远程定位或与处理器302一起定位。存储器304存储由处理器302执行的处理命令。存储器304还可存储对于听写系统的操作所需要的或方便的数据。例如,存储器304可为客户存储转录以便该转录可在以后由客户处理。至少存储器304的一部分包括与分布式听写系统100或分布式听写系统200的用户相关联的用户特征305。通过密码(pass code)、用户识别号、生物信息等将用户特征305与单独用户相关联,并且对于听写服务器110用户特征305是可用的,使得语音转录机易于将音频转换为文本。使用数据库或相关存储器关联用户和用户特征不在本发明内容中深入解释。存储器304可以是任意的常规媒体,并可包括易失性或非易失性存储器其中的一种或两者都包括。听写管理器104/202可选择性地被预编程,因此不要求配备用户接口306,但典型的听写管理器104/202包括与处理器302互连的用户接口306。这样的用户接口306可能包括扬声器、麦克风、视频显示屏幕、物理输入设备(比如键盘、鼠标或触摸屏、磁带盘(track wheel)、摄像头(cam)或特殊输入按钮),以允许用户与听写管理器104/202之间的交互。听写管理器具有网络接口308(如客户站和听写服务器)以允许在网络设备之间传输和接收数据(文本、音频等)。客户站102和听写服务器110具有与听写管理器相似的结构。
听写管理器104/202可以多种常规方式接受来自客户站102的请求并将流式传输视频传送到听写服务器110。一种示范性的方法在第7,185,094号美国专利中提供,该专利在2007年2月27日被授权给了Marquette等人,标题为“Media session framework using a control module to direct and manageapplication and service servers”,该专利所揭示的内容全部结合在本文中作为参考。使用该方法,例如听写管理器104将接收来自客户站102的听写服务请求。听写管理器104将发送服务请求给各个听写服务器110直到某个听写服务器110发回服务请求的接受指示。于是音频被从客户站102流式传输到听写管理器104,听写管理器104再依次将音频流式传输到听写服务器110。听写服务器110将使用与听写服务器110相关联的语音转录机来转录听写,转录结果将以文本数据的形式经过听写管理器104被发送回客户站102。或者结合以上所述,处理器302可以包括类似于Baul中所讨论过的资源管理服务的负载平衡设备。
现在参照图4,提供了使用本申请技术的方法的示例性流程图400。在描述这一系列的不连续步骤的同时,本领域的普通技术人员在阅读本公开后将可以认识到所提供的步骤可以按所描述顺序以不连续的步骤、一系列连续的步骤、基本上同时地、同时地、或以不同的顺序以及类似方式被执行。此外,其他的、更多的、更少的或不同的步骤也可使用本申请的技术来执行。但是在示范性方法中,在步骤402,客户机102上的用户将首先从客户站102上的显示器116选择听写申请,该申请的选择过程已经被激活以用于基于客户机或者基于网页(web)申请的听写。可使用常规方法来选择该申请,比如双击图标、从菜单上选择申请、使用话音命令或类似方法。或者从显示器菜单选择申请,客户站102可通过输入因特网地址(比如URL)或者使用常规呼叫技术(比如PSTN、VoIP、蜂窝连接等)呼叫某号码,来连接到服务器运行该申请。上面所解释的申请可是网页激活、在客户站加载,或将二者结合。在步骤404,客户站102将使用第一网络连接106/204建立与听写管理器104的连接。作为可选设计方案,听写管理器104可被集成在一个客户站102中,或者也可以如所示出那样作为独立单元。第一网络连接可以是经由LAN、WAN、WLAN、WiFi、以太网、WiMax、蓝牙、因特网或类似网络的网络连接。或者第一网络连接也可以是总线或金属线(ribbon),比如PCI总线。在步骤406/408,听写管理器接下来识别听写服务器110并通过第二网络连接听写服务器110中的一个。第二网络连接可以是任意的LAN、WAN、WLAN、WiFi、以太网、WiMax、蓝牙、因特网或类似网络。第二网络连接也可以是总线、金属线或类似连接线。听写服务器110的选择过程作为示范性实施方案将在后续深入描述。典型地,第一和第二网络连接是相同的,但它们不是必须相同。一旦步骤404的通信链接被建立,客户站102的用户将开始听写要被转录的音频。音频信号将被存储在与存储器304相关联的缓冲器内直到步骤408的通信链接建立。那时听写管理器104/202可如同后续解释那样发送音频信号给听写服务器。使用当前众多常规自由形式的听写处理,听写服务器110和相关的语音转录机将使用用户特征来使得听写的转录易于进行。因此,在步骤410,客户站102的用户选择性地将用户标识发送给听写管理器。在步骤412,听写管理器将基于用户标识检索用户特征。用户标识可以是任意的常规标识,比如用户密码、用户标识符、设备标识符、生物标识符、或任意本领域一般熟知的相关标识。在步骤414,用户特征被发送给听写服务器110使转录易于进行。在步骤416,一旦通过听写管理器104建立了客户站102和听写服务器110之间的连接,并且用户特征(如果可利用或需要)被上载到听写服务器110,则客户站102通过听写管理器104将音频(即听写)以流式传送给听写服务器110。音频信号可被存储在与听写管理器104/202的存储器304相关联的缓冲器内,或者从客户站102通过听写管理器104/202流式传送给听写服务器110,或者从客户站102直接流式传送给听写服务器110。客户站102可选择性地提供对听写管理器104的比如启动、终止、暂停、倒退等的控制,或提供对听写管理器104的类似于传统录音的启动、终止、暂停等控制。显示器116上的通话图标可简单地是一种控制,用户可以点击该通话图标来开始听写或点击来终止听写。在步骤418,听写管理器104从客户站102接收流式音频并将音频传送给语音识别机。任选地,音频信号可如上面提到的那样被地从缓冲器流式传输,从客户站流式传输到听写管理器再到听写服务器,或直接地从客户站到听写服务器。在步骤420,语音转录机将音频转换成文本(换句话说,执行了转录),并且在步骤422,将转录结果发送给听写管理器104,听写管理器104又通过例如流式传输或下载文本到客户站102的方式将转录结果发送给客户站102。转录文件可以一般被认为是文本数据。或者结合直接将文本数据发送给客户站,文本数据可被存储在存储器304中。在步骤424,客户站102显示转录结果,比如在客户站102的显示器116上提供word文档形式的文本。在步骤426,用户可使用客户站102纠正来自转录文件的文本数据并生成校正的文本数据。在步骤428,校正的文本数据可被发送回听写管理器104/202,以用与训练用户特征相关联的领域内一般熟知的方式来更新校正的用户特征。
为避免非故意的滞留资源,客户站102与听写管理器104之间的连接或听写管理器104和听写服务器110之间的连接可选择性地具有超时特性,这里预设置的静默时间将导致连接中断,因此对于其他应用,客户站102或听写服务器110是空闲的。
注意,如果听写服务器110不可用,听写管理器可选择性地分批处理(batch)音频文件或将音频文件缓存在例如存储器304内直到听写服务器变为可用的。因此听写可能被延迟,但是一旦在听写服务器再次开始可用后便立即提供听写。分批处理或缓存音频也可允许用户在听写服务器上载用户特征的同时开始听写。在这种情况下,例如存储器304的缓冲器可储存音频文件直到听写服务器变为可用。一旦可用,听写管理器104便可以将音频从缓冲器中流式传输到听写服务器。
在客户端102的用户可选择性地选择分批处理式听写来保存处理资源。在这种情况下,客户站102,听写管理器104/202,听写服务器110,或一些其他可访问的存储器可储存音频文件以便稍后处理。
使用本申请的技术提供了分布式实时或接近实时的基于服务器的听写。这样的技术允许远程用户从世界上任意地方连接到听写服务器来执行实时或接近实时的转录。本申请的技术允许了许多优点,包括例如:
●动态用户特征加载;
●听写亲和性(Dictation affinity);
●听写负载平衡;
●校正的实时训练(training);
●分布式音频与用户特征数据
●听写服务器的高有效性;以及
●自适应性训练
动态用户特征加载
当前听写系统强制用户特征在转录前被设定。换句话说,用户特征必须在执行转录的机器上预先加载,执行转录的机器对应于本申请中的听写服务器。例如Bahl在听写服务器上先加载了用户特征或使用了预先储存的默认特征。只有在加载用户特征之后,确认才被发送给客户设备以开始转录。本申请的技术允许实时用户特征加载使得用户可以优先于上载用户特征而先开始听写,实际上甚至优先于识别转录机而先开始听写。该构架允许任意应用开发者决定加载哪个用户特征以及什么时候加载。用户仍在讲话的同时用户特征就可被加载并因此导致了更快的转录时间,除去了分批处理本身和引入基于服务器的实时转录的时间。此外,如同将在后续深入描述的,本技术将记住哪个听写服务器仍具有已上载的有效的用户特征。听写管理器将在某些实施方案中优先地选择那些听写服务器来减少需要上载用户特征的次数。
听写亲和性
本申请的技术提供了听写的构架来支持用于用户执行转录的新的相似性。已开发的技术可追溯哪种服务器被最新用于当前的用户转录并将请求发送给该服务器。这避免了服务器重复加载用户特征的问题并增加了音频转录的发生速度。除了这种优化的特征管理以外,本申请的技术提供的听写构架提供了基于优先权的听写,这允许了在其他转录请求被处理之前优先处理来自用户的高优先权的转录。
听写服务器负载平衡
本申请的技术提供了一种考虑听写服务器负载平衡的听写构架。本技术允许将用户的请求分散到多个服务器去,从而改进用户转录时间。通过听写管理器维护可用听写服务器的列表以及这些服务器的状况使得负载平衡容易进行。将基于服务器状态作出负载平衡决策。负载平衡可以通过但不限于队列的长度、处理请求的平均时间、CPU利用率、存储器利用率、用户级别,或可利用磁盘空间触发。
校正的且实时的训练
本申请的技术提供的听写构架考虑了听写用户特征的实时校正训练,以达到用户特征对于促进听写和转录是必要的这样的程度。这是通过允许用户具有修改转录结果并将其实时反馈给服务器的能力来执行的。听写服务器对修改的文本和保存的音频文件运行训练算法。然后将修改后的用户特征重新公布给所有听写服务器。
本申请的技术可实施通过JAVA API来提供实时训练。这要求训练API被插入任意应用并允许访问基于服务器的训练。这样做使得本申请的技术消除用户必须访问服务器来提供训练数据并执行分批处理训练应用的依赖性-即训练可来自任意时间和任意地点。
分布式音频和用户特征数据
使用本申请的技术提供的听写构架,用户被允许通过分布式网络储存和取回用户特征和听写音频。常规的听写处理要求用户特征数据和用户音频被保存在本地。而该听写构架可以在任意网络存储设备中储存并取回听写用户特征和音频,这解决了必须由本地提供音频经由系统运行听写处理的限制。该听写构架不在意音频输入从何处而来,它可以来自但不限于例如音频、电话、媒体通路、RTP、RMI、或Critrix。
听写服务器的高有效性
本申请的技术提供的听写构架实现了听写服务器的高有效性。该听写构架具有从听写服务器死机和过载听写服务器中恢复的能力。当听写管理器已过载或已达到预定数量的听写服务器注册时,服务器和用户请求将被指向其他为听写请求配置的听写管理器。听写管理器也可以管理听写服务器的动态设置。当前如果用户在他们的电脑上运行听写处理,他们必须一直在该电脑上操作,或者必须确保他们可以将他们的特征拷贝到新的电脑上才能操作。用户还可以选择是提交分批处理请求给服务器并在某个未知时间接收结果。用本申请的技术,听写构架给用户提供了能够获得n+k冗余水平(1evel ofredundancy)的能力。
如上述提及的,听写管理器可追踪用户的哪些特性被发送到了哪些特定的听写服务器上。例如如图5所示出的,听写管理器104可包括数据库,例如在存储器304中保存的数据库500。数据库500可提供用户特征字段502,例如用户特征的XYZ代表了Charlie Brown的用户特征。数据库500可进一步提供一系列听写服务器字段5041-n来识别字段5041中的听写服务器1104,指示Charlie Brown的用户特征被最新上载到了听写服务器1104上。字段5042可标识听写服务器1107就是优先于听写服务器1104被上载了Charlie Brown用户特征的听写服务器。字段5043可标识听写服务器1103就是优先于听写服务器1107被上载了Charlie Brown的用户特征的听写服务器。根据需要该历史记录可以一直保持。
现在参照图6,提供了关于识别并选择听写服务器110的示范性方法。首先在步骤602,客户站102的用户发起了听写申请,并在步骤604建立了到听写管理器104/202的通信链接。在步骤606,用户或客户站102将标识符或者将用户标识符发送给听写管理器104/202,例如识别用户为CharlieBrown的密码和登录。在步骤607,听写管理器104/202使用用户标识符并将用户标识符与相应的用户特征相匹配。接下来在步骤608听写管理器将复检数据库500来决定是否Charlie Brown的用户特征已经被预先上载到至少一个听写服务器上。如果Charlie Brown的用户特征已经被预先上载,比如已经上载到了听写服务器1104,听写管理器104/202将接着使用常规方法来决定是否听写服务器1104可使用,比如使用如先前在Marquette和Balh的识别中描述的方法。如果听写服务器1104是可用的,听写管理器将如上面提到的那样把音频传送给听写服务器1104而无需预先获取或上载特征。
步骤614中,如果没有用户特征被识别出(或者如果用户未被识别),用户标识符和用户特征可被建立或用户可选择使用默认特征。呼叫可被选择性地终止。如果用户特征没有预先被上载、或者用户未被识别出、没有用户特征、或者使用了默认特征,那么在步骤616中使用例如Marquette或Bahl所描述的常规负载平衡或资源选择方法来选出适合的听写服务器。
现在参照图7,提供了关于识别用户特征的示范性方法。首先在步骤702,听写管理器接收了用户标识。如上所述,用户标识可以是一个登录标识和密码、生物学的、或者类似的标识,用户标识按照惯例在本领域是熟知的且除非理解本发明所需,否则在此不作深入解释。接下来在步骤704,听写管理器104/202重审所存储的用户特征来决定是否用户标识与存储的用户特征匹配。如果是匹配的,听写管理器选择所匹配的用户特征作为该用户的特征。存储器304可在例如文件系统中或在与上面描述的数据库500类似的相关数据库中保存用户特征和用户标识。
那些本领域的技术人员可理解信息和信号可用任意的、各种不同的技术和方法代表,例如贯穿上文描述引用的数据、说明、命令、信息、信号、比特、符号和码片可被电压、电流、电磁波、电磁场或粒子、光场或粒子,或它们任意组合所代表。
那些技术人员将进一步体会到联系在此揭示的本实施方案描述的各种的示例性逻辑块、模块、电路,和算法步骤可被作为电子硬件、计算机软件或两者结合来实施。为清楚地说明硬件和软件、各种示例性器件、块、模块、电路、以及步骤的这种可互换性,对它们的功能性方面在上面已经做了一般描述。该功能作为硬件还是软件实施,取决于特定应用和利用整个系统的设计限制。对于各个特定应用,技术人员可在各种途径实施所述功能性,但这样的实施决策不应被认为是偏离了本发明的范围。
联系在此揭示的实施例描述的各种示例性逻辑块、模块、和电路可通过一般目的的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、非连续硬件器件,或被设计来执行此处所描述的功能的它们的任意组合来实施或执行。一般目的的处理器可以是微处理器、但该处理器还可能是任意常规处理器、控制器、微控制器,或状态机。处理器也可被作为计算器件的组合来实施,比如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核连接,或任意其他配置。
本文在前面的描述中揭示的实施方案使得本技术领域的任何技术人员都能够实施或使用本发明。这些实施方案的各种变型对于那些本领域的技术人员将是显而易见的,而且在本文定义的普通原理可适用于其他实施方案但并未偏离本发明的精神或范围。因此,本发明并非旨在受限于这里示出的实施方案而意在依据与本原理、以及在此揭示的新颖特性一致的最宽范围。

Claims (19)

1.一种听写管理器,具有到至少一个客户站以及至少一个听写服务器的网络连接,其包括:
至少一个网络数据端口,用来从客户站接收音频信号、将所接收的音频信号发送到听写服务器、从听写服务器接收文本数据并且将文本数据传送给至少一个客户站,其中所述文本数据包括由听写服务器将音频信号转换成文本数据的数据;
听写服务器选择器,用来选择至少一个听写服务器中的一个听写服务器,听写管理器向所述听写服务器发送所接收的音频信号并从所述听写服务器接收文本数据;
至少一个存储器,其包括用户特征、用户特征是否已经被上载到至少一个听写服务器中的任意一个听写服务器上的指示、用户特征已经被上载到至少一个听写服务器中的哪个听写服务器上的指示,以及用于缓存所接收的音频信号的缓冲器;
其中,如果听写服务器选择器确定用户特征已经被上载,听写服务器选择器选择已经被上载了用户特征的听写服务器作为所述至少一个听写服务器中的所述一个听写服务器;
其中,如果听写服务器选择器确定用户特征未被上载,听写服务器选择器选择所述至少一个听写服务器中的任意一个听写服务器并上载用户特征;并且
其中听写管理器将所接收的音频信号存储在缓冲器中,并且一旦由听写服务器选择器选出听写服务器,则从缓冲器发送出所述音频信号,以便文本数据以实时或者接近实时中的至少一种方式被发送到至少一个客户站。
2.如权利要求1所述的听写管理器,其中所述至少一个网络数据端口包括多个数据端口,其被配置成接收和发送音频信号和数据信号。
3.如权利要求1所述的听写管理器,其中所述听写服务器选择器还包括负载平衡器。
4.如权利要求3所述的听写管理器,其中,所述听写服务器选择器基于负载平衡器的决策来选择听写服务器。
5.如权利要求4所述的听写管理器,其中所述决策是基于队列长度、平均处理时间、处理负载以及内存中的至少一项做出的。
6.如权利要求1所述的听写管理器,还包括用户特征校正器,其中听写管理器还用于从客户站接收校正的文本数据,并且用户特征校正器基于校正的文本数据更新用户特征。
7.一种使用与听写管理器相关联的至少一个处理器执行的分布式听写和转录方法,该方法包括以下步骤:
接收来自操作客户站的用户的音频信号;
识别存储在听写管理器的存储器中的与所接收的音频信号的用户相关联的用户特征;
确定是否用户的被识别的用户特征已经被预先提供给连接到听写管理器的多个听写服务器中的一个听写服务器;
从多个听写服务器中选择已经被预先提供了用户特征的所述一个听写服务器;
通过将所接收的音频信号发送到所选的听写服务器并且接收来自所选的听写服务器的转录文本数据,使得音频信号被转换成文本数据信号;以及
将转录文本数据以实时或接近实时中的至少一种方式发送到客户站。
8.如权利要求7所述的方法,其中选择听写服务器的步骤还包括在听写服务器之间平衡负载。
9.如权利要求7所述的方法,其中确定是否被识别的用户特征已被预先提供的步骤包括确定多个听写服务器中的至少两个听写服务器已经被预先提供了被识别的用户特征,且选择听写服务器的步骤进一步包括选择至少两个听写服务器中的一个听写服务器来平衡所述至少两个听写服务器之间的负载。
10.如权利要求7所述的方法,其中确定是否被识别的用户特征已经被预先提供给多个听写服务器中的任意一个听写服务器的步骤确定被识别的用户特征尚未被预先提供,则从多个听写服务器中选择一个听写服务器的步骤包括在多个听写服务器之间平衡负载,并进一步包括将被识别的用户特征发送到多个听写服务器中的所选的一个听写服务器上的步骤。
11.如权利要求7所述的方法,还包括在使音频被转换为文本数据的步骤之前的缓冲音频信号的步骤。
12.如权利要求10所述的方法,还包括缓冲音频信号直到被识别的用户特征被发送到多个听写服务器中的所选出的一个听写服务器的步骤。
13.如权利要求7所述的方法,还包括以下步骤:
从客户站接收修订后的文本数据信号,其中修订后的文本数据信号包括至少一个转录的校正;
使用修订后的文本数据信号来修改被识别的用户特征;并且
存储已修改的被识别的用户特征。
14.一种向客户站提供分布式听写和转录服务的系统,包括:
至少一个听写管理器,具有到至少一个客户站的网络连接,所述网络连接包括至少一个数据端口用于从至少一个客户站接收音频信号、向至少一个客户站发送文本数据,从至少一个客户站接收文本数据,并且将文本数据发送到至少一个客户站;
至少一个听写服务器,包括至少一个转录机用于将听写语句的音频信号变换为文本数据信号;
至少一个听写管理器和至少一个听写服务器之间的至少一个网络连接,用于在至少一个听写管理器和至少一个听写服务器之间发送音频信号和文本数据信号;
所述至少一个听写管理器包括处理器,所述处理器具有用于选择至少一个听写服务器中的一个听写服务器来将听写语句的音频信号变换为文本数据信号的装置;以及
存储器,包括至少一个用户特征和信息,所述信息指示至少一个听写服务器中的哪个听写服务器已经被提供了至少一个用户特征,并且所述信息被用于选择的装置使用来辅助选择至少一个听写服务器中的一个听写服务器。
15.如权利要求14所述的系统,其中用于选择至少一个听写服务器中的一个听写服务器的装置包括负载平衡器。
16.如权利要求14所述的系统,其中用于选择至少一个听写服务器中的一个听写服务器的装置包括决策器,该决策器使用存储器中的信息来确定已经被提供了至少一个用户特征的至少一个听写服务器中的一个听写服务器。
17.如权利要求14所述的系统,其中所述听写管理器将用户特征发送给至少一个听写服务器中的所选的一个听写服务器。
18.如权利要求17所述的系统,其中所述听写管理器发送用户特征的同时,由听写管理器从客户站接收的音频信号被存储在缓冲器中。
19.如权利要求14所述的系统,其中所述听写管理器包括用户特征校正器,其基于从客户站接收的校正的文本数据更新用户特征。
CN2008801222191A 2007-12-21 2008-12-19 分布式听写/转录系统 Expired - Fee Related CN101903946B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US1619807P 2007-12-21 2007-12-21
US61/016,198 2007-12-21
PCT/US2008/087614 WO2009082684A1 (en) 2007-12-21 2008-12-19 Distributed dictation/transcription system

Publications (2)

Publication Number Publication Date
CN101903946A CN101903946A (zh) 2010-12-01
CN101903946B true CN101903946B (zh) 2012-09-26

Family

ID=40801561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008801222191A Expired - Fee Related CN101903946B (zh) 2007-12-21 2008-12-19 分布式听写/转录系统

Country Status (5)

Country Link
US (3) US8150689B2 (zh)
EP (1) EP2227806A4 (zh)
CN (1) CN101903946B (zh)
CA (1) CA2710310A1 (zh)
WO (1) WO2009082684A1 (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4894065B2 (ja) * 2006-08-31 2012-03-07 日本電気株式会社 伝言システム、伝言システム制御方法、及びプログラム
US8412522B2 (en) * 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
CN101903946B (zh) 2007-12-21 2012-09-26 Nvoq股份有限公司 分布式听写/转录系统
US20110046950A1 (en) * 2009-08-18 2011-02-24 Priyamvada Sinvhal-Sharma Wireless Dictaphone Features and Interface
US8972601B2 (en) * 2009-10-09 2015-03-03 Microsoft Technology Licensing, Llc Flyways in data centers
US8370142B2 (en) 2009-10-30 2013-02-05 Zipdx, Llc Real-time transcription of conference calls
US8379801B2 (en) 2009-11-24 2013-02-19 Sorenson Communications, Inc. Methods and systems related to text caption error correction
CA2795098A1 (en) * 2010-03-30 2011-10-13 Nvoq Incorporated Dictation client feedback to facilitate audio quality
US9009040B2 (en) * 2010-05-05 2015-04-14 Cisco Technology, Inc. Training a transcription system
US20120030315A1 (en) * 2010-07-29 2012-02-02 Reesa Parker Remote Transcription and Reporting System and Method
US20130254417A1 (en) * 2012-03-21 2013-09-26 Jason Nicholls System method device for streaming video
US9767793B2 (en) * 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine
US9489940B2 (en) * 2012-06-11 2016-11-08 Nvoq Incorporated Apparatus and methods to update a language model in a speech recognition system
US9685154B2 (en) 2012-09-25 2017-06-20 Nvoq Incorporated Apparatus and methods for managing resources for a system using voice recognition
US9721259B2 (en) * 2012-10-08 2017-08-01 Accenture Global Services Limited Rules-based selection of counterfeit detection techniques
US8996372B1 (en) * 2012-10-30 2015-03-31 Amazon Technologies, Inc. Using adaptation data with cloud-based speech recognition
CN103294769B (zh) * 2013-04-28 2016-02-03 中国工商银行股份有限公司 一种大型服务器写文件的系统及方法
US9305551B1 (en) * 2013-08-06 2016-04-05 Timothy A. Johns Scribe system for transmitting an audio recording from a recording device to a server
US10418034B1 (en) 2014-06-20 2019-09-17 Nvoq Incorporated Systems and methods for a wireless microphone to access remotely hosted applications
US10147427B1 (en) * 2014-09-17 2018-12-04 United Services Automobile Association Systems and methods to utilize text representations of conversations
US9772816B1 (en) 2014-12-22 2017-09-26 Google Inc. Transcription and tagging system
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9870196B2 (en) 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US10061980B2 (en) 2015-08-20 2018-08-28 Accenture Global Services Limited Digital verification of modified documents
US9497315B1 (en) 2016-07-27 2016-11-15 Captioncall, Llc Transcribing audio communication sessions
US10116830B2 (en) 2016-09-15 2018-10-30 Accenture Global Solutions Limited Document data processing including image-based tokenization
US9880731B1 (en) * 2016-09-16 2018-01-30 GM Global Technology Operations LLC Flexible modular screen apparatus for mounting to, and transporting user profiles between, participating vehicles
US10468028B2 (en) 2016-10-12 2019-11-05 Sorenson Ip Holdings, Llc Transcription presentation of communication sessions
US10923121B2 (en) * 2017-08-11 2021-02-16 SlackTechnologies, Inc. Method, apparatus, and computer program product for searchable real-time transcribed audio and visual content within a group-based communication system
CN109036431A (zh) * 2018-07-11 2018-12-18 北京智能管家科技有限公司 一种语音识别系统和方法
US10679610B2 (en) * 2018-07-16 2020-06-09 Microsoft Technology Licensing, Llc Eyes-off training for automatic speech recognition
US11854551B2 (en) 2019-03-22 2023-12-26 Avaya Inc. Hybrid architecture for transcription of real-time audio based on event data between on-premises system and cloud-based advanced audio processing system
CN111026864B (zh) * 2019-04-24 2024-02-20 广东小天才科技有限公司 一种听写内容的确定方法及装置
US11468896B2 (en) 2019-06-12 2022-10-11 Nvoq Incorporated Systems, methods, and apparatus for real-time dictation and transcription with multiple remote endpoints
CN111081084B (zh) * 2019-07-11 2021-11-26 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
CN110417902B (zh) * 2019-08-01 2022-07-15 安徽听见科技有限公司 流式网络服务负载方法、相关设备及可读存储介质
CN113628626A (zh) * 2020-05-09 2021-11-09 阿里巴巴集团控股有限公司 语音识别方法、装置和系统以及翻译方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
CN1770138A (zh) * 2004-07-13 2006-05-10 惠普发展公司,有限责任合伙企业 启用对应用的多模式访问的架构
CN1770770A (zh) * 2004-11-02 2006-05-10 国际商业机器公司 启用智能的和轻型的语音到文本转录的方法和系统
CN1984201A (zh) * 2005-12-13 2007-06-20 国际商业机器公司 语音服务系统和方法

Family Cites Families (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754976A (en) * 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
GB2285895A (en) * 1994-01-19 1995-07-26 Ibm Audio conferencing system which generates a set of minutes
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
JP3086378B2 (ja) 1994-07-29 2000-09-11 株式会社エイ・ティ・アール音声翻訳通信研究所 自然言語解析装置
US5956024A (en) * 1995-08-08 1999-09-21 Continental Cablevision, Inc. Graphical user interface for customer service representatives for subscriber management systems
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US5991712A (en) * 1996-12-05 1999-11-23 Sun Microsystems, Inc. Method, apparatus, and product for automatic generation of lexical features for speech recognition systems
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US5870454A (en) * 1997-04-01 1999-02-09 Telefonaktiebolaget L M Ericsson Telecommunications speech/text conversion and message delivery system
US6381640B1 (en) * 1998-09-11 2002-04-30 Genesys Telecommunications Laboratories, Inc. Method and apparatus for automated personalization and presentation of workload assignments to agents within a multimedia communication center
US6332154B2 (en) * 1998-09-11 2001-12-18 Genesys Telecommunications Laboratories, Inc. Method and apparatus for providing media-independent self-help modules within a multimedia communication-center customer interface
US6122614A (en) * 1998-11-20 2000-09-19 Custom Speech Usa, Inc. System and method for automating transcription services
US7006967B1 (en) * 1999-02-05 2006-02-28 Custom Speech Usa, Inc. System and method for automating transcription services
US6643622B2 (en) * 1999-02-19 2003-11-04 Robert O. Stuart Data retrieval assistance system and method utilizing a speech recognition system and a live operator
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6477493B1 (en) * 1999-07-15 2002-11-05 International Business Machines Corporation Off site voice enrollment on a transcription device for speech recognition
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6622121B1 (en) * 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
US6772333B1 (en) * 1999-09-01 2004-08-03 Dickens Coal Llc Atomic session-start operation combining clear-text and encrypted sessions to provide id visibility to middleware such as load-balancers
US7047192B2 (en) * 2000-06-28 2006-05-16 Poirier Darrell A Simultaneous multi-user real-time speech recognition system
US20020032591A1 (en) * 2000-09-08 2002-03-14 Agentai, Inc. Service request processing performed by artificial intelligence systems in conjunctiion with human intervention
US7181413B2 (en) * 2001-04-18 2007-02-20 Capital Analytics, Inc. Performance-based training assessment
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US6820055B2 (en) * 2001-04-26 2004-11-16 Speche Communications Systems and methods for automated audio transcription, translation, and transfer with text display software for manipulating the text
US20050234727A1 (en) * 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US20030050777A1 (en) * 2001-09-07 2003-03-13 Walker William Donald System and method for automatic transcription of conversations
US6766294B2 (en) * 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy
US7249019B2 (en) * 2002-08-06 2007-07-24 Sri International Method and apparatus for providing an integrated speech recognition and natural language understanding for a dialog system
US20040064322A1 (en) * 2002-09-30 2004-04-01 Intel Corporation Automatic consolidation of voice enabled multi-user meeting minutes
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
WO2004075027A2 (en) * 2003-02-19 2004-09-02 Custom Speech Usa, Inc. A method for form completion using speech recognition and text comparison
US7711568B2 (en) * 2003-04-03 2010-05-04 At&T Intellectual Property Ii, Lp System and method for speech recognition services
US7184539B2 (en) * 2003-04-29 2007-02-27 International Business Machines Corporation Automated call center transcription services
US7543061B2 (en) * 2003-06-26 2009-06-02 Microsoft Corporation Method and system for distributing load by redirecting traffic
US7136462B2 (en) * 2003-07-15 2006-11-14 Lucent Technologies Inc. Network speech-to-text conversion and store
WO2005070092A2 (en) * 2004-01-08 2005-08-04 Voice Signal Technologies, Inc. Automated testing of voice regognition software
US7333803B2 (en) * 2004-01-20 2008-02-19 Lucent Technologies Inc. Network support for voice-to-text memo service
US7130401B2 (en) * 2004-03-09 2006-10-31 Discernix, Incorporated Speech to text conversion system
US20060093103A1 (en) * 2004-10-29 2006-05-04 Timmins Timothy A Technique for generating and accessing organized information through an information assistance service
US7107161B2 (en) * 2004-11-05 2006-09-12 Research In Motion Limited Method and system for accurately reporting battery capacity
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
US20060282265A1 (en) * 2005-06-10 2006-12-14 Steve Grobman Methods and apparatus to perform enhanced speech to text processing
US20070050238A1 (en) * 2005-09-01 2007-03-01 Michael Carr Computer-implemented apparatus and method for capturing and monitoring employee development and performance in a call center
US20070156400A1 (en) * 2006-01-03 2007-07-05 Wheeler Mark R System and method for wireless dictation and transcription
WO2007084735A2 (en) * 2006-01-20 2007-07-26 Avise Partners Customer service management
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US7624353B2 (en) * 2006-09-29 2009-11-24 Accenture Global Services Gmbh Computer-implemented clipboard
US8412522B2 (en) * 2007-12-21 2013-04-02 Nvoq Incorporated Apparatus and method for queuing jobs in a distributed dictation /transcription system
CN101903946B (zh) * 2007-12-21 2012-09-26 Nvoq股份有限公司 分布式听写/转录系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
CN1770138A (zh) * 2004-07-13 2006-05-10 惠普发展公司,有限责任合伙企业 启用对应用的多模式访问的架构
CN1770770A (zh) * 2004-11-02 2006-05-10 国际商业机器公司 启用智能的和轻型的语音到文本转录的方法和系统
CN1984201A (zh) * 2005-12-13 2007-06-20 国际商业机器公司 语音服务系统和方法

Also Published As

Publication number Publication date
US20120185250A1 (en) 2012-07-19
US8412523B2 (en) 2013-04-02
US20090177470A1 (en) 2009-07-09
US9263046B2 (en) 2016-02-16
US20130332161A1 (en) 2013-12-12
WO2009082684A1 (en) 2009-07-02
EP2227806A4 (en) 2013-08-07
US8150689B2 (en) 2012-04-03
EP2227806A1 (en) 2010-09-15
CA2710310A1 (en) 2009-07-02
CN101903946A (zh) 2010-12-01

Similar Documents

Publication Publication Date Title
CN101903946B (zh) 分布式听写/转录系统
US9240185B2 (en) Apparatus and method for queuing jobs in a distributed dictation/transcription system
US20200342875A1 (en) Systems and methods to present voice message information to a user of a computing device
US8438025B2 (en) Method and system of enabling intelligent and lightweight speech to text transcription through distributed environment
US9672826B2 (en) System and method for efficient unified messaging system support for speech-to-text service
US20160094491A1 (en) Pattern-controlled automated messaging system
CN103631853B (zh) 基于相关性的语音搜索和响应
EP2650829A1 (en) Voice approval method, device and system
US10917444B1 (en) Method and system for enabling a communication device to remotely execute an application
US8726297B2 (en) Search tool that aggregates disparate tools unifying communication
US20010008555A1 (en) System and method for inputting a web-page input data into a web page by employing a wire/wireless telephone
CN1321038A (zh) 使用互连网的消息系统和方法
US8055247B1 (en) Mobile audible data services
US11862169B2 (en) Multilingual transcription at customer endpoint for optimizing interaction results in a contact center
KR102426288B1 (ko) 음성 호를 통한 인공지능 비서 서비스 제공 방법 및 장치
KR20190033750A (ko) 컨퍼런스 시스템 및 상기 시스템에서의 이종 컨퍼런스간 참석자 정보 연계 장치 및 방법
CN101729432B (zh) 转移实时通信数据的方法及系统
KR20220134959A (ko) 업종별 음성인식 엔진 기반의 음성 데이터 처리 시스템 및 방법
US20100159915A1 (en) Mechanism of providing information to caller by temporarily pausing the call initiation request

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120926

Termination date: 20151219

EXPY Termination of patent right or utility model