CN101903946B

CN101903946B - 分布式听写/转录系统

Info

Publication number: CN101903946B
Application number: CN2008801222191A
Authority: CN
Inventors: 理查德·比奇; 克里斯托弗·巴特勒; 乔恩·福德; 布莱恩·马奎特; 克里斯托弗·奥姆兰德
Original assignee: nVoq Inc
Current assignee: nVoq Inc
Priority date: 2007-12-21
Filing date: 2008-12-19
Publication date: 2012-09-26
Anticipated expiration: 2028-12-19
Also published as: US20120185250A1; US8412523B2; US20090177470A1; US9263046B2; US20130332161A1; WO2009082684A1; EP2227806A4; US8150689B2; EP2227806A1; CA2710310A1; CN101903946A

Abstract

本发明提供了一种分布式听写/转录系统。该系统包括网络连接的客户站、听写管理器和听写服务器，使得听写管理器能够选择听写服务器来转录来自客户站的音频。听写管理器基于常规的负载平衡以及对哪个听写服务器已经被上载了用户特征的确定来选择多个听写服务器中的一个。此外，在选择听写服务器和/或上载特征的同时，客户站的用户或客户机便可以开始听写，其音频将被存储在听写管理器的缓冲器中直到听写服务器被选出和/或可利用。用户将实时或接近实时地接收可被用户校正的文本数据的显示，校正的文本数据可被发送回听写管理器来更新用户特征。

Description

分布式听写/转录系统

根据U.S.C.§§119和120要求优先权

本申请要求于2007年12月21日提交的，标题为“REAL-TIMEDISTRIBUTED DICTATION/TRANSCRIPTION”的美国第61/016,198号临时申请的优先权，再次结合其全部内容作为参考。

技术领域

本申请的技术领域一般涉及听写系统，尤其涉及用于实时或接近实时返回听写录音的分布式听写系统。

背景技术

最初的听写是一种当一个人说话的同时由另一个人抄录所说内容的练习。随着现代技术的发展，听写技术已经发展到基于话音识别技术和语音与文本转换技术允许计算机和处理器来充当转录机的阶段。

当前技术本质上归于基于计算机的听写和转录的两种方式。一种方式包括在机器上加载软件来接收和转录听写，这作为客户端听写而一般被熟知。机器实时或接近实时转录听写。另一种方式包括保存听写音频文件并将该听写音频文件发送到集中的服务器上，这作为服务器端分批处理听写而一般被熟知。集中服务器转录音频文件并返回录音。在服务器具有较少处理任务时，转录通常在大概几小时后完成。

可以体会到的是，目前基于计算机的听写和转录系统具有缺点，客户端听写的一个缺点在于听写和转录受限于单一的或特定的机器，由于大多数处理在本地用户机器上完成，有时需要厚或重的客户机，因此除非用户具备特定的机器可使用，否则用户将不能完成听写处理。服务器端分批处理听写的一个缺点是不能实时或接近实时地提供转录。因此，当服务器端分批处理听写系统采用了瘦客户机，则不能提供实时或接近实时的转录。

此外，录音的返回时间与完成录音的机器的处理能力相关。因此厚或重的客户机器在语音和返回的录音之间可能有长时间的延迟。由于缺乏足够的处理能力，通常厚或重的客户机器最后应答服务器端分批处理听写。以上的两种情况下，返回的延迟有时非常严重。

由Bahl等人(下文中称Bahl)提交的已公开的第2006/005259号美国专利申请，提供了一种轻薄的分布式客户听写/转录系统。Bahl所揭示的内容全部结合在本文中作为参考。尤其是，Bahl揭示了使用无线设备(比如移动电话、个人数字助理，或其他电子设备)将音频发送给网络服务管理器。服务管理器包括资源管理组件和特征管理组件。资源管理器件接收音频，选择多个转录服务器中的一个并通过网络传给服务管理器。一旦转录服务器被选中并且转录服务器接受了任务，服务管理器就识别用户或通过网络上载到转录服务器的默认话音特征。通过服务管理器的资源管理组件使用例如可利用的处理器、网络带宽、邻近因素，以及其他类似的因素来选择转录服务器，这样的因素相当于典型的负载平衡设备。一旦作出选择，音频就被发送到转录服务器并将音频转换为文本。Bahl没有将录音返回给客户，并且对文本或录音文件的任何处理均未作出说明。

因此，依据这样的背景，值得开发一种改进的分布式实时或接近实时的听写和转录系统。

发明内容

本申请为取得技术上的优势并与本申请所包含的技术目的一致，提供了一种分布式实时听写系统。该分布式实时听写系统包括通过网络连接被连接到听写管理器的客户站。该听写管理器识别听写服务器包括语音转录机来将语音从音频流或文件转换为转录结果，比如转换成文本文件或元数据，并将转录结果实时，或接近实时地返回给客户站。听写管理器在选择转录机时识别是否可利用的转录机中的某一台在以前已经被同样的客户使用过，并选择那台用户特征已经被上载到该转录机上的转录机。

本发明技术的一方面提供了一种远程客户站，简单地要求具有通过流式传输连接将音频文件发送到听写管理器或听写服务器上的能力。听写服务器可以根据系统的配置，通过听写管理器或通过直接连接返回转录结果。

附图说明

图1是与本申请技术一致的示范性系统的功能框图；

图2是与本申请技术一致的示范性系统的功能框图；

图3是图2中的听写管理器和听写服务器的功能框图；

图4是与本申请技术一致的方法的示例性功能框图；

图5是包含在本申请某些示例性实施方案中使用的信息和数据的示例数据库；

图6是与本申请技术一致的方法的示例性功能框图；

图7是与本申请技术一致的方法的示例性功能框图。

具体实施方式

本申请的技术现将参考图1-7来解释。同时本申请的技术以与因特网连接相关和在因特网连接上使用常规流式传输协议的流式音频来描述，普通的本领域技术人员通过阅读本文揭示的内容将可认识到其他可能的配置。例如，本申请的技术描述的关于薄的客户站，但更多处理器的潜在选择也可展开。此外本申请的技术描述关于某些示范性实施方案。在这里使用的“示范性”旨在表达“作为一个范例、实例或图解”。任何在这里描述为“示范性”的实施方案不必直接诠释为比其他实施方案更优选或更有利。除非另外声明，所有在这里描述的实施方案都应被认为是示范性的。

首先参照图1，提供了一种分布式听写系统100。分布式听写系统100可提供实时的或允许传输时间、处理及类似过程相关延迟的接近实时的听写转录。当然在系统内可设定延迟以例如允许用户可以选择实时的还是分批处理的转录服务。例如，为了允许分批处理转录服务，系统100可将音频文件缓存在客户设备、服务器、转录机或类似设备中以允许将音频文件稍后转录成文本并在以后的时间返回给客户站或由客户重新取回。

如在分布式听写系统100中示出的，一个或多个客户站(client station)102通过第一网络连接106被连接到听写管理器104上。第一网络连接106可以是任意数目的协议以允许音频信息使用标准的因特网协议传输。客户站102通过麦克风108或类似器件从用户接收音频(即听写)。当作为单独的部分示出时，麦克风108也可被集成在客户站102中，例如移动电话。同时当作为监视器或计算站(computer station)示出时，客户站102可以是无线设备，比如支持wifi的计算机、移动电话、PDA、智能电话或类似设备。客户站102也可以是使用常规因特网协议来发送音频的有线设备，比如笔记本电脑或台式电脑。

听写管理器104可通过第二网络连接112被连接到一个或多个听写服务器110上。第二网络连接112可以与第一网络连接相同或者不相同。第二网络连接也可以是任意数目的常规的无线或有线连接协议。听写管理器104和听写服务器110可以是单独的集成单元，其通过PCI总线或其他常规总线被连接。各听写服务器110并入或接入语音转录机是为本领域一般熟知的。因为语音识别和语音转录机被看作在本领域是广泛熟知的，除非结合本申请的技术需要，否则语音转录机的操作在这里不作深入解释。对于任意给出的听写，听写管理器104将该音频文件从客户站102指引给适当的听写服务器110转录该音频并返回转录结果，即音频的文本。客户站102和听写服务器110之间的连接可以通过听写管理器104被保持。或者，直接在客户站102和听写服务器110之间建立连接。另外，听写管理器104可管理许多同时发生的连接使得多个客户站102和听写服务器110可由听写管理器104管理。听写管理器104也提供了例如在难于实行客户交换的管理和操作的地方采用常规的呼叫中心从而易于接入多个客户站与多个听写服务器之间的额外优点。

网络连接106和112可以是任意的常规网络连接，从而使得流式传输音频可从客户站102提供给听写管理器104、并从听写管理器104提供给听写服务器110。此外，听写管理器104可在这两个方向上管理数据的传输。听写管理器104从客户站102接收音频流，并将音频流传送给听写服务器110。听写服务器110将音频转录成文本并将文本发送给听写管理器104，且由听写管理器104将文本传送回客户站102并在监视器或与客户站102关联的其它的输出设备上显示。当然类似于缓存音频用于稍后转录，文本可先被存储以便以后被客户站102的用户取回。存储文本以在以后取回对于在受到条件限制文本不能被取回的情况下是有利的，比如正在开车或客户站不足以显示，除了上述两种情况还有很多情况不一一例举了。网络连接106和112允许从听写服务器110经过听写管理器104将数据流式传输给客户站102。听写管理器104也可管理数据。客户站102将使用来自听写服务器110的数据在客户站102构成显示，比如文本文件可以显示为word文档。

现在参照图2，提供了分布式听写系统200。分布式听写系统200与分布式听写系统100类似，但其包括许多个听写管理器202。同样客户站102通过第一网络连接204被连接到听写管理202其中的一个，这里第一网络连接204是因特网连接或者万维网(World Wide Web)连接。此外，听写管理器202通过第二网络连接206被连接到听写服务器110，此处第二网络连接206也可以是因特网连接或者万维网连接。可体会的是，本申请的技术是用于远程听写的强有力的解决方案。

参照图3，示出了更多听写管理器104的细节。各个听写管理器202都基本相似，听写管理器104/202包括处理器302，比如微处理器、芯片组、现场可编程逻辑门阵列或类似器件，来控制管理器的主要功能，比如获取关于客户站102的用户的用户特征、听写服务器110的选择，等等。处理器302还处理用于操作听写管理器104/202所需的各种输入和/或数据。听写管理器104/202还包括与处理器302相互连接的存储器304。存储器304将被远程定位或与处理器302一起定位。存储器304存储由处理器302执行的处理命令。存储器304还可存储对于听写系统的操作所需要的或方便的数据。例如，存储器304可为客户存储转录以便该转录可在以后由客户处理。至少存储器304的一部分包括与分布式听写系统100或分布式听写系统200的用户相关联的用户特征305。通过密码(pass code)、用户识别号、生物信息等将用户特征305与单独用户相关联，并且对于听写服务器110用户特征305是可用的，使得语音转录机易于将音频转换为文本。使用数据库或相关存储器关联用户和用户特征不在本发明内容中深入解释。存储器304可以是任意的常规媒体，并可包括易失性或非易失性存储器其中的一种或两者都包括。听写管理器104/202可选择性地被预编程，因此不要求配备用户接口306，但典型的听写管理器104/202包括与处理器302互连的用户接口306。这样的用户接口306可能包括扬声器、麦克风、视频显示屏幕、物理输入设备(比如键盘、鼠标或触摸屏、磁带盘(track wheel)、摄像头(cam)或特殊输入按钮)，以允许用户与听写管理器104/202之间的交互。听写管理器具有网络接口308(如客户站和听写服务器)以允许在网络设备之间传输和接收数据(文本、音频等)。客户站102和听写服务器110具有与听写管理器相似的结构。

听写管理器104/202可以多种常规方式接受来自客户站102的请求并将流式传输视频传送到听写服务器110。一种示范性的方法在第7,185,094号美国专利中提供，该专利在2007年2月27日被授权给了Marquette等人，标题为“Media session framework using a control module to direct and manageapplication and service servers”，该专利所揭示的内容全部结合在本文中作为参考。使用该方法，例如听写管理器104将接收来自客户站102的听写服务请求。听写管理器104将发送服务请求给各个听写服务器110直到某个听写服务器110发回服务请求的接受指示。于是音频被从客户站102流式传输到听写管理器104，听写管理器104再依次将音频流式传输到听写服务器110。听写服务器110将使用与听写服务器110相关联的语音转录机来转录听写，转录结果将以文本数据的形式经过听写管理器104被发送回客户站102。或者结合以上所述，处理器302可以包括类似于Baul中所讨论过的资源管理服务的负载平衡设备。

现在参照图4，提供了使用本申请技术的方法的示例性流程图400。在描述这一系列的不连续步骤的同时，本领域的普通技术人员在阅读本公开后将可以认识到所提供的步骤可以按所描述顺序以不连续的步骤、一系列连续的步骤、基本上同时地、同时地、或以不同的顺序以及类似方式被执行。此外，其他的、更多的、更少的或不同的步骤也可使用本申请的技术来执行。但是在示范性方法中，在步骤402，客户机102上的用户将首先从客户站102上的显示器116选择听写申请，该申请的选择过程已经被激活以用于基于客户机或者基于网页(web)申请的听写。可使用常规方法来选择该申请，比如双击图标、从菜单上选择申请、使用话音命令或类似方法。或者从显示器菜单选择申请，客户站102可通过输入因特网地址(比如URL)或者使用常规呼叫技术(比如PSTN、VoIP、蜂窝连接等)呼叫某号码，来连接到服务器运行该申请。上面所解释的申请可是网页激活、在客户站加载，或将二者结合。在步骤404，客户站102将使用第一网络连接106/204建立与听写管理器104的连接。作为可选设计方案，听写管理器104可被集成在一个客户站102中，或者也可以如所示出那样作为独立单元。第一网络连接可以是经由LAN、WAN、WLAN、WiFi、以太网、WiMax、蓝牙、因特网或类似网络的网络连接。或者第一网络连接也可以是总线或金属线(ribbon)，比如PCI总线。在步骤406/408，听写管理器接下来识别听写服务器110并通过第二网络连接听写服务器110中的一个。第二网络连接可以是任意的LAN、WAN、WLAN、WiFi、以太网、WiMax、蓝牙、因特网或类似网络。第二网络连接也可以是总线、金属线或类似连接线。听写服务器110的选择过程作为示范性实施方案将在后续深入描述。典型地，第一和第二网络连接是相同的，但它们不是必须相同。一旦步骤404的通信链接被建立，客户站102的用户将开始听写要被转录的音频。音频信号将被存储在与存储器304相关联的缓冲器内直到步骤408的通信链接建立。那时听写管理器104/202可如同后续解释那样发送音频信号给听写服务器。使用当前众多常规自由形式的听写处理，听写服务器110和相关的语音转录机将使用用户特征来使得听写的转录易于进行。因此，在步骤410，客户站102的用户选择性地将用户标识发送给听写管理器。在步骤412，听写管理器将基于用户标识检索用户特征。用户标识可以是任意的常规标识，比如用户密码、用户标识符、设备标识符、生物标识符、或任意本领域一般熟知的相关标识。在步骤414，用户特征被发送给听写服务器110使转录易于进行。在步骤416，一旦通过听写管理器104建立了客户站102和听写服务器110之间的连接，并且用户特征(如果可利用或需要)被上载到听写服务器110，则客户站102通过听写管理器104将音频(即听写)以流式传送给听写服务器110。音频信号可被存储在与听写管理器104/202的存储器304相关联的缓冲器内，或者从客户站102通过听写管理器104/202流式传送给听写服务器110，或者从客户站102直接流式传送给听写服务器110。客户站102可选择性地提供对听写管理器104的比如启动、终止、暂停、倒退等的控制，或提供对听写管理器104的类似于传统录音的启动、终止、暂停等控制。显示器116上的通话图标可简单地是一种控制，用户可以点击该通话图标来开始听写或点击来终止听写。在步骤418，听写管理器104从客户站102接收流式音频并将音频传送给语音识别机。任选地，音频信号可如上面提到的那样被地从缓冲器流式传输，从客户站流式传输到听写管理器再到听写服务器，或直接地从客户站到听写服务器。在步骤420，语音转录机将音频转换成文本(换句话说，执行了转录)，并且在步骤422，将转录结果发送给听写管理器104，听写管理器104又通过例如流式传输或下载文本到客户站102的方式将转录结果发送给客户站102。转录文件可以一般被认为是文本数据。或者结合直接将文本数据发送给客户站，文本数据可被存储在存储器304中。在步骤424，客户站102显示转录结果，比如在客户站102的显示器116上提供word文档形式的文本。在步骤426，用户可使用客户站102纠正来自转录文件的文本数据并生成校正的文本数据。在步骤428，校正的文本数据可被发送回听写管理器104/202，以用与训练用户特征相关联的领域内一般熟知的方式来更新校正的用户特征。

为避免非故意的滞留资源，客户站102与听写管理器104之间的连接或听写管理器104和听写服务器110之间的连接可选择性地具有超时特性，这里预设置的静默时间将导致连接中断，因此对于其他应用，客户站102或听写服务器110是空闲的。

注意，如果听写服务器110不可用，听写管理器可选择性地分批处理(batch)音频文件或将音频文件缓存在例如存储器304内直到听写服务器变为可用的。因此听写可能被延迟，但是一旦在听写服务器再次开始可用后便立即提供听写。分批处理或缓存音频也可允许用户在听写服务器上载用户特征的同时开始听写。在这种情况下，例如存储器304的缓冲器可储存音频文件直到听写服务器变为可用。一旦可用，听写管理器104便可以将音频从缓冲器中流式传输到听写服务器。

在客户端102的用户可选择性地选择分批处理式听写来保存处理资源。在这种情况下，客户站102，听写管理器104/202，听写服务器110，或一些其他可访问的存储器可储存音频文件以便稍后处理。

使用本申请的技术提供了分布式实时或接近实时的基于服务器的听写。这样的技术允许远程用户从世界上任意地方连接到听写服务器来执行实时或接近实时的转录。本申请的技术允许了许多优点，包括例如：

●动态用户特征加载；

●听写亲和性(Dictation affinity)；

●听写负载平衡；

●校正的实时训练(training)；

●分布式音频与用户特征数据

●听写服务器的高有效性；以及

●自适应性训练

动态用户特征加载

当前听写系统强制用户特征在转录前被设定。换句话说，用户特征必须在执行转录的机器上预先加载，执行转录的机器对应于本申请中的听写服务器。例如Bahl在听写服务器上先加载了用户特征或使用了预先储存的默认特征。只有在加载用户特征之后，确认才被发送给客户设备以开始转录。本申请的技术允许实时用户特征加载使得用户可以优先于上载用户特征而先开始听写，实际上甚至优先于识别转录机而先开始听写。该构架允许任意应用开发者决定加载哪个用户特征以及什么时候加载。用户仍在讲话的同时用户特征就可被加载并因此导致了更快的转录时间，除去了分批处理本身和引入基于服务器的实时转录的时间。此外，如同将在后续深入描述的，本技术将记住哪个听写服务器仍具有已上载的有效的用户特征。听写管理器将在某些实施方案中优先地选择那些听写服务器来减少需要上载用户特征的次数。

听写亲和性

本申请的技术提供了听写的构架来支持用于用户执行转录的新的相似性。已开发的技术可追溯哪种服务器被最新用于当前的用户转录并将请求发送给该服务器。这避免了服务器重复加载用户特征的问题并增加了音频转录的发生速度。除了这种优化的特征管理以外，本申请的技术提供的听写构架提供了基于优先权的听写，这允许了在其他转录请求被处理之前优先处理来自用户的高优先权的转录。

听写服务器负载平衡

本申请的技术提供了一种考虑听写服务器负载平衡的听写构架。本技术允许将用户的请求分散到多个服务器去，从而改进用户转录时间。通过听写管理器维护可用听写服务器的列表以及这些服务器的状况使得负载平衡容易进行。将基于服务器状态作出负载平衡决策。负载平衡可以通过但不限于队列的长度、处理请求的平均时间、CPU利用率、存储器利用率、用户级别，或可利用磁盘空间触发。

校正的且实时的训练

本申请的技术提供的听写构架考虑了听写用户特征的实时校正训练，以达到用户特征对于促进听写和转录是必要的这样的程度。这是通过允许用户具有修改转录结果并将其实时反馈给服务器的能力来执行的。听写服务器对修改的文本和保存的音频文件运行训练算法。然后将修改后的用户特征重新公布给所有听写服务器。

本申请的技术可实施通过JAVA API来提供实时训练。这要求训练API被插入任意应用并允许访问基于服务器的训练。这样做使得本申请的技术消除用户必须访问服务器来提供训练数据并执行分批处理训练应用的依赖性-即训练可来自任意时间和任意地点。

分布式音频和用户特征数据

使用本申请的技术提供的听写构架，用户被允许通过分布式网络储存和取回用户特征和听写音频。常规的听写处理要求用户特征数据和用户音频被保存在本地。而该听写构架可以在任意网络存储设备中储存并取回听写用户特征和音频，这解决了必须由本地提供音频经由系统运行听写处理的限制。该听写构架不在意音频输入从何处而来，它可以来自但不限于例如音频、电话、媒体通路、RTP、RMI、或Critrix。

听写服务器的高有效性

本申请的技术提供的听写构架实现了听写服务器的高有效性。该听写构架具有从听写服务器死机和过载听写服务器中恢复的能力。当听写管理器已过载或已达到预定数量的听写服务器注册时，服务器和用户请求将被指向其他为听写请求配置的听写管理器。听写管理器也可以管理听写服务器的动态设置。当前如果用户在他们的电脑上运行听写处理，他们必须一直在该电脑上操作，或者必须确保他们可以将他们的特征拷贝到新的电脑上才能操作。用户还可以选择是提交分批处理请求给服务器并在某个未知时间接收结果。用本申请的技术，听写构架给用户提供了能够获得n+k冗余水平(1evel ofredundancy)的能力。

如上述提及的，听写管理器可追踪用户的哪些特性被发送到了哪些特定的听写服务器上。例如如图5所示出的，听写管理器104可包括数据库，例如在存储器304中保存的数据库500。数据库500可提供用户特征字段502，例如用户特征的XYZ代表了Charlie Brown的用户特征。数据库500可进一步提供一系列听写服务器字段504_1-n来识别字段504₁中的听写服务器110₄，指示Charlie Brown的用户特征被最新上载到了听写服务器110₄上。字段504₂可标识听写服务器110₇就是优先于听写服务器110₄被上载了Charlie Brown用户特征的听写服务器。字段504₃可标识听写服务器110₃就是优先于听写服务器110₇被上载了Charlie Brown的用户特征的听写服务器。根据需要该历史记录可以一直保持。

现在参照图6，提供了关于识别并选择听写服务器110的示范性方法。首先在步骤602，客户站102的用户发起了听写申请，并在步骤604建立了到听写管理器104/202的通信链接。在步骤606，用户或客户站102将标识符或者将用户标识符发送给听写管理器104/202，例如识别用户为CharlieBrown的密码和登录。在步骤607，听写管理器104/202使用用户标识符并将用户标识符与相应的用户特征相匹配。接下来在步骤608听写管理器将复检数据库500来决定是否Charlie Brown的用户特征已经被预先上载到至少一个听写服务器上。如果Charlie Brown的用户特征已经被预先上载，比如已经上载到了听写服务器110₄，听写管理器104/202将接着使用常规方法来决定是否听写服务器110₄可使用，比如使用如先前在Marquette和Balh的识别中描述的方法。如果听写服务器110₄是可用的，听写管理器将如上面提到的那样把音频传送给听写服务器110₄而无需预先获取或上载特征。

步骤614中，如果没有用户特征被识别出(或者如果用户未被识别)，用户标识符和用户特征可被建立或用户可选择使用默认特征。呼叫可被选择性地终止。如果用户特征没有预先被上载、或者用户未被识别出、没有用户特征、或者使用了默认特征，那么在步骤616中使用例如Marquette或Bahl所描述的常规负载平衡或资源选择方法来选出适合的听写服务器。

现在参照图7，提供了关于识别用户特征的示范性方法。首先在步骤702，听写管理器接收了用户标识。如上所述，用户标识可以是一个登录标识和密码、生物学的、或者类似的标识，用户标识按照惯例在本领域是熟知的且除非理解本发明所需，否则在此不作深入解释。接下来在步骤704，听写管理器104/202重审所存储的用户特征来决定是否用户标识与存储的用户特征匹配。如果是匹配的，听写管理器选择所匹配的用户特征作为该用户的特征。存储器304可在例如文件系统中或在与上面描述的数据库500类似的相关数据库中保存用户特征和用户标识。

那些本领域的技术人员可理解信息和信号可用任意的、各种不同的技术和方法代表，例如贯穿上文描述引用的数据、说明、命令、信息、信号、比特、符号和码片可被电压、电流、电磁波、电磁场或粒子、光场或粒子，或它们任意组合所代表。

那些技术人员将进一步体会到联系在此揭示的本实施方案描述的各种的示例性逻辑块、模块、电路，和算法步骤可被作为电子硬件、计算机软件或两者结合来实施。为清楚地说明硬件和软件、各种示例性器件、块、模块、电路、以及步骤的这种可互换性，对它们的功能性方面在上面已经做了一般描述。该功能作为硬件还是软件实施，取决于特定应用和利用整个系统的设计限制。对于各个特定应用，技术人员可在各种途径实施所述功能性，但这样的实施决策不应被认为是偏离了本发明的范围。

联系在此揭示的实施例描述的各种示例性逻辑块、模块、和电路可通过一般目的的处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、非连续硬件器件，或被设计来执行此处所描述的功能的它们的任意组合来实施或执行。一般目的的处理器可以是微处理器、但该处理器还可能是任意常规处理器、控制器、微控制器，或状态机。处理器也可被作为计算器件的组合来实施，比如DSP和微处理器的组合、多个微处理器、一个或多个微处理器与DSP内核连接，或任意其他配置。

本文在前面的描述中揭示的实施方案使得本技术领域的任何技术人员都能够实施或使用本发明。这些实施方案的各种变型对于那些本领域的技术人员将是显而易见的，而且在本文定义的普通原理可适用于其他实施方案但并未偏离本发明的精神或范围。因此，本发明并非旨在受限于这里示出的实施方案而意在依据与本原理、以及在此揭示的新颖特性一致的最宽范围。

Claims

1.一种听写管理器，具有到至少一个客户站以及至少一个听写服务器的网络连接，其包括：

至少一个网络数据端口，用来从客户站接收音频信号、将所接收的音频信号发送到听写服务器、从听写服务器接收文本数据并且将文本数据传送给至少一个客户站，其中所述文本数据包括由听写服务器将音频信号转换成文本数据的数据；

听写服务器选择器，用来选择至少一个听写服务器中的一个听写服务器，听写管理器向所述听写服务器发送所接收的音频信号并从所述听写服务器接收文本数据；

至少一个存储器，其包括用户特征、用户特征是否已经被上载到至少一个听写服务器中的任意一个听写服务器上的指示、用户特征已经被上载到至少一个听写服务器中的哪个听写服务器上的指示，以及用于缓存所接收的音频信号的缓冲器；

其中，如果听写服务器选择器确定用户特征已经被上载，听写服务器选择器选择已经被上载了用户特征的听写服务器作为所述至少一个听写服务器中的所述一个听写服务器；

其中，如果听写服务器选择器确定用户特征未被上载，听写服务器选择器选择所述至少一个听写服务器中的任意一个听写服务器并上载用户特征；并且

其中听写管理器将所接收的音频信号存储在缓冲器中，并且一旦由听写服务器选择器选出听写服务器，则从缓冲器发送出所述音频信号，以便文本数据以实时或者接近实时中的至少一种方式被发送到至少一个客户站。

2.如权利要求1所述的听写管理器，其中所述至少一个网络数据端口包括多个数据端口，其被配置成接收和发送音频信号和数据信号。

3.如权利要求1所述的听写管理器，其中所述听写服务器选择器还包括负载平衡器。

4.如权利要求3所述的听写管理器，其中，所述听写服务器选择器基于负载平衡器的决策来选择听写服务器。

5.如权利要求4所述的听写管理器，其中所述决策是基于队列长度、平均处理时间、处理负载以及内存中的至少一项做出的。

6.如权利要求1所述的听写管理器，还包括用户特征校正器，其中听写管理器还用于从客户站接收校正的文本数据，并且用户特征校正器基于校正的文本数据更新用户特征。

7.一种使用与听写管理器相关联的至少一个处理器执行的分布式听写和转录方法，该方法包括以下步骤：

接收来自操作客户站的用户的音频信号；

识别存储在听写管理器的存储器中的与所接收的音频信号的用户相关联的用户特征；

确定是否用户的被识别的用户特征已经被预先提供给连接到听写管理器的多个听写服务器中的一个听写服务器；

从多个听写服务器中选择已经被预先提供了用户特征的所述一个听写服务器；

通过将所接收的音频信号发送到所选的听写服务器并且接收来自所选的听写服务器的转录文本数据，使得音频信号被转换成文本数据信号；以及

将转录文本数据以实时或接近实时中的至少一种方式发送到客户站。

8.如权利要求7所述的方法，其中选择听写服务器的步骤还包括在听写服务器之间平衡负载。

9.如权利要求7所述的方法，其中确定是否被识别的用户特征已被预先提供的步骤包括确定多个听写服务器中的至少两个听写服务器已经被预先提供了被识别的用户特征，且选择听写服务器的步骤进一步包括选择至少两个听写服务器中的一个听写服务器来平衡所述至少两个听写服务器之间的负载。

10.如权利要求7所述的方法，其中确定是否被识别的用户特征已经被预先提供给多个听写服务器中的任意一个听写服务器的步骤确定被识别的用户特征尚未被预先提供，则从多个听写服务器中选择一个听写服务器的步骤包括在多个听写服务器之间平衡负载，并进一步包括将被识别的用户特征发送到多个听写服务器中的所选的一个听写服务器上的步骤。

11.如权利要求7所述的方法，还包括在使音频被转换为文本数据的步骤之前的缓冲音频信号的步骤。

12.如权利要求10所述的方法，还包括缓冲音频信号直到被识别的用户特征被发送到多个听写服务器中的所选出的一个听写服务器的步骤。

13.如权利要求7所述的方法，还包括以下步骤：

从客户站接收修订后的文本数据信号，其中修订后的文本数据信号包括至少一个转录的校正；

使用修订后的文本数据信号来修改被识别的用户特征；并且

存储已修改的被识别的用户特征。

14.一种向客户站提供分布式听写和转录服务的系统，包括：

至少一个听写管理器，具有到至少一个客户站的网络连接，所述网络连接包括至少一个数据端口用于从至少一个客户站接收音频信号、向至少一个客户站发送文本数据，从至少一个客户站接收文本数据，并且将文本数据发送到至少一个客户站；

至少一个听写服务器，包括至少一个转录机用于将听写语句的音频信号变换为文本数据信号；

至少一个听写管理器和至少一个听写服务器之间的至少一个网络连接，用于在至少一个听写管理器和至少一个听写服务器之间发送音频信号和文本数据信号；

所述至少一个听写管理器包括处理器，所述处理器具有用于选择至少一个听写服务器中的一个听写服务器来将听写语句的音频信号变换为文本数据信号的装置；以及

存储器，包括至少一个用户特征和信息，所述信息指示至少一个听写服务器中的哪个听写服务器已经被提供了至少一个用户特征，并且所述信息被用于选择的装置使用来辅助选择至少一个听写服务器中的一个听写服务器。

15.如权利要求14所述的系统，其中用于选择至少一个听写服务器中的一个听写服务器的装置包括负载平衡器。

16.如权利要求14所述的系统，其中用于选择至少一个听写服务器中的一个听写服务器的装置包括决策器，该决策器使用存储器中的信息来确定已经被提供了至少一个用户特征的至少一个听写服务器中的一个听写服务器。

17.如权利要求14所述的系统，其中所述听写管理器将用户特征发送给至少一个听写服务器中的所选的一个听写服务器。

18.如权利要求17所述的系统，其中所述听写管理器发送用户特征的同时，由听写管理器从客户站接收的音频信号被存储在缓冲器中。

19.如权利要求14所述的系统，其中所述听写管理器包括用户特征校正器，其基于从客户站接收的校正的文本数据更新用户特征。