CN1746973A

CN1746973A - 分布式语音识别系统和方法

Info

Publication number: CN1746973A
Application number: CN200510099696.9A
Authority: CN
Inventors: 郑明基; 尹勉基; 沈贤植
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-09-06
Filing date: 2005-09-02
Publication date: 2006-03-15
Also published as: KR100636317B1; KR20060022156A; US20060053009A1; JP2006079079A

Abstract

根据本发明的分布式语音识别系统及其方法能够利用对输入语音信号中的语音周期中的暂停周期的检测来识别字和自然语言；并且由于各种终端需要各种不同的语音识别目标，通过利用终端的标识符来确定相应终端所需的识别词汇，在相同的语音识别系统中对各种识别词汇组(例如，家庭语音识别词汇、针对车辆的远程信息处理词汇、针对呼叫中心的词汇等)进行处理。另外，通过利用声道估计方法将其适配到语音数据库模型，使得由于终端类型和识别环境而引起的各种类型的声道失真最小化，从而提高了语音识别性能。

Description

分布式语音识别系统和方法

技术领域

本发明涉及一种使用网络服务器和移动终端之间的无线通信的分布式语音识别系统和方法。更具体地，本发明涉及一种分布式语音识别系统和方法，能够通过从与移动通信网络相连的网络服务器中接收帮助，在移动终端中识别自然语言、以及词汇中的无数单词。作为移动终端中的处理结果来识别自然语言，所述移动终端利用网络服务器中的语言信息以便使在计算能力和存储器的使用中受到限制的移动终端能够实现有效的语音识别。

背景技术

通常，语音识别技术可以分为两种类型：语音识别和讲话者识别。依次地，语音识别系统分为仅识别指定的讲话者的讲话者相关系统和用于识别未指定讲话者或所有讲话者的讲话者无关系统。讲话者相关系统在执行识别之前存储和登记用户的语音，并且将输入语音的模式与所存储的语音的模式进行比较以便执行语音识别。

另一方面，讲话者无关系统识别未指定讲话者的语音，而无需如讲话者相关系统所需的在操作之前由用户登记他/她的语音。具体地，讲话者无关系统收集未指定讲话者的语音以便研究统计模型，并且利用所研究的统计模型来执行语音识别。因此，消除了每一个讲话者的个人特征，同时突显了各个讲话者之间的共同特征。与讲话者无关系统相比，讲话者相关系统具有相对较高速率的语音识别和相对较容易的技术实现。因此，更有利于使讲话者相关系统得到实际应用。

通常，独立型的大尺寸系统和终端中所采用的小型系统已经主要用作语音识别系统。

当前，随着分布式语音识别系统的出现，具有各种结构的系统已经得到发展且已经出现在市场上。许多分布式语音识别系统具有通过使用网络的服务器/客户端结构，其中客户端执行预处理过程，用于提取在语音识别中所需的语音信号特征或去除噪声，并且服务器具有实际识别引擎来执行识别，或者客户端和服务器同时执行识别。这样的现有分布式语音识别系统聚焦在如何克服客户端所拥有的有限资源。

例如，由于诸如手机、远程信息处理终端、或移动WLAN(无线局域网)终端等移动终端的硬件限制对语音识别性能施加了限制，因此必须或应该利用与有线或无线通信网络相连的服务器的资源以便克服移动终端的限制。

因此，将客户端所需的高性能语音识别系统构建到要利用的网络服务器中。即，构造了移动终端所需范围的字识别系统。在网络服务器中以这样的方式构造的语音识别系统中，根据用于终端使用语音识别的主要目的来确定语音识别目标词汇，并且由用户使用语音识别系统，所述语音识别系统单独操作手机、智能移动终端、远程信息处理终端等，并且其能够根据移动终端的主要目的来执行分布式语音识别。

所构造的分布式语音识别系统还不能够与叙述性自然语言识别一起来执行与移动终端的特征相关联的字识别，并且还没有提出能够执行这样的识别的标准。

发明内容

因此，本发明的目的是提出一种分布式语音识别系统和方法，能够根据响应于在语音数据周期上由语音识别环境所引起的声道变化的识别系统的构造、以及在语音数据周期内是否存在短暂停周期，来执行无限制的字识别和自然语言语音识别。

本发明的另一目的是提出一种分布式语音识别系统，能够通过选择每一个终端所需的识别目标的数据库，以及通过提取声道信息并将识别目标模型适配到声道特征来提高识别性能从而减小要识别的环境对识别的影响，提高了识别系统的效率。

根据本发明的一个方面，一种分布式语音识别系统包括：第一语音识别单元，用于检查输入语音信号中的语音周期的暂停周期以确定输入语音的类型；当输入语音能够由其自身识别时，根据所确定的语音的类型来选择所存储的语音的识别目标模型，从而根据所选的识别目标模型来识别输入语音的数据；以及当输入语音不能够由其自身识别时，通过网络传送语音识别请求数据；以及第二语音识别单元，用于分析由第一语音识别单元通过网络传送的语音识别请求数据，以便选择与要识别的语音相对应的识别目标模型；应用所选的语音识别目标模型以通过语音识别来执行语言处理；以及通过网络将所得到的语言处理数据传送到第一语音识别单元。

优选地，第一语音识别单元安装在所述终端上，而第二语音识别单元安装在网络服务器上，从而以分布式方式来执行语音识别。

优选地，所述终端是远程信息处理终端、移动终端、WLAN终端和IP终端中的至少一个。

优选地，所述网络是有线网络或无线网络。

优选地，第一语音识别单元包括：语音检测单元，用于从输入语音信号中检测语音周期；暂停检测单元，用于检测由语音检测单元检测到的语音周期中的暂停周期以确定输入语音信号的类型；声道估计单元，用于利用由语音检测单元检测到的无语音周期而非语音周期的数据来估计声道特性；特征提取单元，当暂停检测单元并未检测到暂停周期时，提取语音数据的识别特征；数据处理单元，用于产生语音识别请求数据；以及当暂停检测单元检测到暂停周期时，将所述语音识别请求数据传送到第二语音识别单元；以及语音识别单元，用于通过将由声道估计单元估计的声道分量适配到数据库中所存储的识别目标声学模型，去除噪声分量，以及执行噪声识别。

优选地，语音检测单元根据将输入语音信号的语音波形的过零率和能量与预设阈值进行比较的结果，来检测语音周期。

优选地，所述语音识别单元包括：模型适配单元，用于通过将声道估计单元中所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及语音识别单元，用于对模型适配单元中处理的语音数据进行解码，以及针对输入语音信号执行语音识别。

优选地，当在由语音检测单元检测到的语音周期中不存在暂停周期时，暂停检测单元将输入语音数据确定为针对字的语音数据，而当在语音周期中存在暂停周期时，将输入语音数据确定为针对自然语言(句子或词汇)的语音数据。

优选地，声道估计使用包括连续短周期的频率分析、能量分配、对数倒频谱和时间域中的波形平均中的至少一个的计算方法。

优选地，所述数据处理单元包括：传输数据构造单元，当暂停检测单元检测到暂停周期时，构造用于将暂停周期传送到第二语音识别单元的语音识别处理请求数据；以及数据传输单元，用于通过网络将所构造的语音识别处理请求数据传送到服务器的第二语音识别系统。

优选地，语音识别处理请求数据包括：语音识别标记、终端标识符、声道估计标记、识别标识符、整个数据尺寸、语音数据尺寸、声道数据尺寸、语音数据和声道数据中的至少一个。

优选地，第二语音识别单元包括：数据接收单元，用于接收由第一语音识别单元通过网络传送来的语音识别处理请求数据；以及通过对声道数据和语音数据以及终端的识别目标进行分类，从数据库中选择识别目标模型；特征提取单元，用于从由数据接收单元分类的语音数据中提取语音识别目标特征分量；声道估计单元，当在从数据接收单元所接收到的数据中不包括声道数据时，从接收到的语音数据中估计识别产生环境的声道信息；以及语音识别单元，用于通过利用由声道估计单元估计出的声道分量和从第一语音识别单元中接收到的声道估计信息之一、将噪声分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量，以及执行语音识别。

优选地，所述语音识别单元包括：模型适配单元，用于通过将由声道估计单元估计出的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；语音识别单元，用于通过对模型适配单元中处理的语音数据进行解码，执行对输入语音信号的语音识别；以及数据传输单元，用于通过网络将语音识别处理结果数据传送到语音识别单元。

根据本发明的另一方面，用于分布式语音识别的终端的语音识别设备包括：语音检测单元，用于从输入语音信号中检测语音周期；暂停检测单元，用于检测由语音检测单元检测到的语音周期中的暂停周期，并且确定输入语音信号的类型；声道估计单元，用于利用由语音检测单元检测到的无语音周期而非语音周期的数据来估计声道特性；特征提取单元，当暂停检测单元并未检测到暂停周期时，提取语音数据的识别特征；数据处理单元，用于产生语音识别请求数据；以及当在暂停检测单元中检测到暂停周期时，通过网络将所述语音识别请求数据传送到服务器的语音识别模块；模型适配单元，用于通过将声道估计单元中所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及语音识别单元，用于通过对模型适配单元中处理的语音数据进行解码，执行针对输入语音信号的噪声识别。

根据本发明的另一方面，用于分布式语音识别的服务器的语音识别设备包括：数据接收单元，用于接收从终端通过网络传送来的语音识别处理请求数据；以及通过对声道数据和语音数据以及终端的识别目标进行分类，从数据库中选择识别目标模型；特征提取单元，用于从由数据接收单元分类的语音数据中提取语音识别目标特征分量；声道估计单元，当在从数据接收单元所接收到的数据中不包括声道数据时，从接收到的语音数据中估计识别产生环境的声道信息；模型适配单元，用于通过将声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；语音识别单元，用于通过对模型适配单元中处理的语音数据进行解码，执行对输入语音信号的语音识别；以及数据传输单元，用于通过网络将语音识别处理结果数据传送到终端。

根据本发明的另一方面，一种终端和服务器中的分布式语音识别方法包括以下步骤：通过检查输入到终端中的语音信号中的语音周期的暂停周期，确定输入语音的类型；当能够根据所确定的语音类型来处理所述语音时，选择所存储的语音的识别目标模型，并且根据所选的识别目标模型来处理输入语音数据；以及当在终端中不能够对所述语音进行处理时，通过网络将语音识别请求数据传送到服务器；以及通过分析由所述终端通过网络传送的语音识别请求数据，选择与要在服务器中识别并处理的语音数据相对应的识别目标模型；通过应用所选的识别目标模型，通过语音识别来执行语言处理；以及通过网络将语言处理结果数据传送到所述终端单元。

优选地，从终端通过网络向服务器传送语音识别请求数据包括：从输入语音信号中检测语音周期；通过检测在检测到的语音周期中的暂停周期，确定输入语音信号的类型；利用不包括检测到的语音周期的无语音周期的数据来估计声道特性；当并未检测到语音周期时，提取语音数据的识别特征；当检测到暂停周期时，产生语音识别处理请求数据，并且通过网络将所述识别特征和语音识别处理请求数据传送到服务器；以及在通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型而去除噪声分量之后，执行语音识别。

优选地，执行语音识别包括：通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及通过对处理的语音数据进行解码，执行针对输入语音信号的语音识别。

优选地，产生语音识别处理请求数据并通过网络将该数据传送到服务器包括：当检测到暂停周期时，构造用于将语音数据传送到服务器的语音识别请求数据；以及通过网络将所构造的语音识别处理请求数据传送到服务器。

优选地，向终端传送语音识别处理请求数据包括：接收由终端通过网络传送来的语音识别请求数据；对声道数据和语音数据以及终端的识别目标进行分类；以及从数据库中选择识别目标模型；从所分类的语音数据中提取语音识别目标特征分量；当在所接收到的语音数据中不包括声道数据时，从接收到的语音数据中估计识别环境的声道信息；以及在将所估计的声道分量或从终端接收到的声道估计信息适配到数据库中所存储的识别目标声学模型，并且去除噪声分量之后，执行语音识别。

优选地，执行语音识别包括：将所述估计的声道分量适配到数据库中所存储的识别目标声学模型，并且去除噪声分量；通过对从中去除了噪声分量的语音数据进行解码，执行对输入语音信号的语音识别；并且通过网络将语音识别处理结果数据传送到终端。

根据本发明的另一方面，用于在终端中识别语音以进行分布式语音识别的方法包括：从输入语音信号中检测语音周期；通过检测所检测到的语音周期中的暂停周期，确定输入语音信号的类型；利用除了所检测到的语音周期之外的无语音周期的数据来估计声道特性；当并未检测到暂停周期时，提取语音数据的识别特征；产生语音识别请求数据，并且当检测到暂停周期时，通过网络将所述识别特征和语音识别处理请求数据传送到服务器；通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及通过对已去除噪声分量的语音数据进行解码，执行针对输入语音信号的语音识别。

根据本发明的另一方面，在分布式识别服务器中的语音识别方法包括：通过接收从终端通过网络传送来的语音识别处理请求数据，将语音识别处理请求数据传送到终端；对声道数据和语音数据以及终端的识别目标进行分类，从数据库中选择识别目标模型；从所分类的语音数据中提取语音识别目标特征分量；当在所接收到的数据中不包括声道数据时，从接收到的语音数据中估计识别产生环境的声道信息；通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；通过对去除了噪声分量的语音数据进行解码，执行对输入语音信号的语音识别；以及通过网络将语音识别处理结果数据传送到终端。

根据本发明的另一方面，在分布式识别服务器中的语音识别方法包括：通过接收从终端通过网络传送来的语音识别处理请求数据，将语音识别处理请求数据传送到终端；对声道数据和语音数据以及终端的识别目标进行分类，从数据库中选择识别目标模型；从所分类的语音数据中提取语音识别目标特征分量；当在所接收到的数据中不包括声道数据时，从接收到的语音数据中估计识别环境的声道信息；通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；通过对去除了噪声分量的语音数据进行解码，执行对输入语音信号的语音识别；以及通过网络将语音识别处理结果数据传送到终端。

附图说明

当结合附图来考虑时，参考以下详细描述，本发明的更完整意图及其许多附加方面将变得更加显而易见，并且将得到更好地理解，其中相同的参考符号表示相同或相似组件，其中：

图1是根据本发明的无线终端内的语音识别系统的方框图；

图2A和2B是示出在如图1所示的语音检测单元中，利用过零率和能量来检测语音周期的方法的曲线图；

图3是根据本发明的服务器中的语音识别系统的方框图；

图4是在根据本发明的无线终端中的语音识别方法的操作流程图；

图5是在根据本发明的服务器中的语音识别方法的操作流程图；

图6A、6B和6C是示出了与图1所示的暂停检测单元中的语音暂停周期检测有关的信号波形的视图；以及

图7是示出了传送到终端中的服务器的数据格式方面的视图。

具体实施方式

现在将参考附图更完全地描述根据本发明的分布式语音识别系统及其方法。

图1是根据本发明的无线终端内的语音识别系统的方框图。

参考图1，无线终端(客户端)的语音识别系统包括：麦克风10、语音检测单元11、声道估计单元12、暂停检测单元13、特征提取单元14、模型适配单元15、语音识别单元16、语音DB17、传输数据构造单元18和数据传输单元19。

语音检测单元11从通过麦克风10输入的数字语音信号中检测语音信号周期，并且将其提供给声道估计单元12和暂停检测单元13，其可以利用语音波形的过零率(ZCR)、信号能量等，从相应的输入语音信号中提取语音周期。

暂停检测单元13检测由语音检测单元11检测到的语音信号中是否存在暂停周期，所述语音检测单元11在时间域中检测在从语音检测单元11检测到的语音周期内可以确定为短暂停周期的周期。可以在语音周期检测方法中执行用于检测短暂停周期的方法。即，当在利用ZCR和能量的检测语音信号周期内超过预设阈值时，确定短暂停周期存在于语音周期中，并因而判定检测到的语音信号为短语或句子而非字，从而可以在服务器中执行识别过程。

声道估计单元12针对语音信号来估计声道环境，以便补偿由语音检测单元11检测到的语音信号和语音DB17中所存储的语音信号之间的不和谐记录环境。这样的语音信号的不和谐环境(即，声道环境)是减小语音识别速率的主要因素，其利用在检测到的语音周期内的前一和下一周期中没有语音的周期的数据来估计声道的特征。

在声道估计单元12中，可以利用频率分析、能量分配、无语音周期特征提取方法(例如倒频谱)、时间域内的波形平均等来对声道特征进行估计。

特征提取单元14提取该语音数据的识别特征，并且当暂停检测单元13并未检测到短暂停周期时，将其提供给模型适配单元15。

模型适配单元15使短暂停模型适配于声道估计单元12中估计的当前声道的情形，声道估计单元12将所估计声道的参数应用于通过适配算法所提取的特征参数。声道适配使用了去除在构成所提取的特征矢量的参数中所反映的声道分量的方法、或者用于将声道分量添加到语音DB17中所存储的语音模型上的方法。

语音识别单元16通过对利用在终端中所存在的语音识别引擎所提取的特征矢量进行解码来执行字识别。

传输数据构造单元18构造组合了语音数据和声道信息的数据，或者将所提取的特征矢量和声道信息进行组合，然后当暂停检测单元13检测到在语音数据中所存在的短暂停周期时，或者当输入的语音长于提前预设的指定长度时，将其通过数据传输单元19传送到服务器。

现在将解释以上所述构造的根据本发明的无线终端的语音识别系统的详细操作。

首先，当通过麦克风10输入用户的语音信号时，语音检测单元11从所输入的语音信号中检测实质语音周期。

语音检测单元11利用语音信号的能量和ZCR来检测语音周期，如图2A和2B所示。在后一点上，术语“ECT”表示相邻语音信号发生代数符号改变的次数，并且是等于包括与语音信号有关的频率信息的值。

从图2A和2B中可以看到，具有充分高的SNR(信号与噪声比)的语音信号在背景噪声和语音信号之间进行了清楚地区分。

通过计算语音信号的取样值可以获得该能量，并且通过在短周期中分割所输入的语音信号来分析该数字语音信号。当一个周期包括N个语音取样时，可以利用以下数学表达式1、2和3之一来计算该能量。

数学表达式1：

E = 101 o g_{10} (e + \frac{1}{N} Σ_{n = 1}^{N} {s (n)}^{2}) :

log energy对数能量

数学表达式2：

E = \sqrt{\frac{1}{N} Σ_{n - 1}^{N} s {(n)}^{2}} :

RMS energy RMS能量

数学表达式3：

E = \frac{1}{N} Σ_{n - 1}^{N} s {(n)}^{2} :

average energy平均能量

同时，ZCR是语音信号穿过零基准的次数，其被看作频率，且在清音时具有较低值而在浊音时具有较高值。即，ZCR可以由以下数学表达式4来表达：

数学表达式4：

ZCR++ if sign(s[n])×sign(s[n+1])＜0

即，如果两个相邻语音信号的乘积是负的，则语音信号通过零点一次，这样来增加ZCR的值。

为了利用上述能量和ZCR来在语音检测单元11中检测语音周期，在没有语音的静默周期中计算能量和ZCR，然后计算能量和ZCR的阈值(Thr)。

经过对输入语音信号的短周期分析，通过将短周期中的每一个能量和ZCR值与计算出的阈值进行比较来确定是否存在语音。这里，应该满足以下条件以检测语音信号的起始部分。

条件1：在几个到几十个短周期中的能量值＞能量阈值

条件2：在几个到几十个短周期中的ZCR值＜ZCR的阈值

当满足这两个条件时，确定从满足这些条件的初始短周期的起始处开始、存在该语音信号。

当满足以下两个条件时，将输入语音信号确定为其结束部分。

条件3：在几个到几十个短周期中的能量值＜能量阈值

条件4：在几个到几十个短周期中的ZCR值＞ZCR的阈值

对图1所示的语音检测单元11的语音检测过程进行总结，当能量值超过阈值(Thr.U)时，确定该语音正在开始，，并因而将语音周期的起始处设置在从预定时间点开始预定短周期之前。然而，当其中能量值下降到阈值(Thr.L)之下的短周期保持了预定时间时，确定该语音周期终止。即，根据ZCR值、同时根据能量值来确定该语音周期。

ZCR表示语音信号的电平多少次穿过零点。当两个最近语音信号(当前语音信号和正好前一语音信号)的取样值的乘积为负时，确定该语音信号的电平穿过零点。可以采用ZCR作为确定语音周期的标准，因为语音信号在相应周期中总是包括循环性周期，并且与没有语音的静默周期相比，循环性周期的ZCR相当小。即，如图2A和2B所示，没有语音的静默周期的ZCR高于指定阈值(Thr.ZCR)。

图1所示的声道估计单元12利用在语音检测单元11中检测到的语音周期之前和/或之后存在的静默或无语音周期的信号来估计语音声道的声道。

例如，利用无语音周期的信号来估计当前声道特征，并且可以利用时间上连续的短周期的属性的平均来对其进行估计。在这一点上，无语音周期的输入信号x(n)可以表达为由于声道失真而出现的信号c(n)和环境噪声信号n(n)的和。即，无语音周期的输入信号可以表达为以下数学表达式5。

数学表达式5：

x(n)＝c(n)+n(n)

X(e^jw)＝C(e^jw)+N(e^jw)

在利用前述方法来估计声道时，由于多个数量的连续帧的和，环境噪声的分量可能会降低。可以通过该和的平均来从其分量中去除环境中的已增加噪声。即，可以利用以下数学表达式6来去除噪声。

数学表达式6：

\hat{x} [n] = \frac{1}{l} \underset{l}{Σx [n]} = \frac{1}{l} \underset{l}{Σ} (c [n] + n [n]) \frac{1}{l} \underset{l}{Σ} n [n] \approx 0

尽管以上已经提出了声道估计的典型算法，但是应该理解，除了该典型算法之外的其他任何算法可以应用于声道估计。

将通过上述算法估计的声道分量用于对充当客户端的移动终端的语音DB17中所存储的声学模型的声道进行适配。

可以按照在语音检测单元11中执行语音周期检测相同的方式，利用ZCR和能量来执行图1所示的暂停检测单元13中的短暂停周期检测。然而，用于短暂停周期检测的阈值可以不同于用于语音周期检测的阈值。其目的是减小可能将清音周期(即，表达为随机噪声的噪声周期)检测为短暂停周期的差错。

当在确定语音周期的起始之后而在确定语音周期的结束之前，短无语音周期持续出现，将输入语音信号确定为在终端而非服务器中的语音识别系统中未处理的自然语言数据，从而将该语音数据传送到传输数据构造单元18。下面将描述传输数据构造单元18。

按照与语音周期检测相同的方式，利用ZCR和能量来检测短暂停周期，如图6A到6C所示。即，图6A示出了语音信号波形，图6B示出了利用能量计算出的语音信号波形；而图6V示出了利用ZCR计算出的语音信号波形。

如图6A到6C所示，可以将具有较小能量的周期、以及在语音周期的起始处和结束处超过预定值的ZCR确定为短暂停周期。

从中检测到短暂停周期的语音数据构成了传输数据构造单元18中的传输数据，传输数据构造单元18通过数据传输单元19将其传送到服务器，以便不再在客户端(即无线终端)而是在服务器中执行语音识别。此时，要传送到服务器的数据可以包括能够识别终端种类的标识符(即，终端需要识别的词汇)、语音数据和估计声道信息。

同时，可以针对无线终端的计算量和快速识别速度，一起执行语音检测和短暂停周期检测。当确定为无语音周期的周期以预定的程度存在，然后该语音周期再次出现时，将该语音信号确定为自然语言识别的目标，从而将语音数据存储在缓冲器(未示出)中，并且通过终端数据传输单元19将其传送到服务器。此时，能够在要传送的数据中仅包括对终端唯一的识别目标类型和语音数据，并且在服务器中执行声道估计。要从数据传输单元19传送到服务器的数据(即，在传输数据构造单元18中所构造的数据格式)如图7所示。

如图7所示，在传输数据构造单元18中所构造的数据格式包括以下至少之一：语音识别标记信息，用于确定要传送到服务器的数据是否为用于识别语音的数据；终端标识符，用于指示用于传输的终端；声道估计标记信息，用于指示是否包括声道估计信息；识别ID信息，用于指示识别结果；尺寸信息，用于指示要传送的整个数据的尺寸；与语音数据相关的尺寸信息；以及与声道数据相关的尺寸信息。

另一方面，为了进行语音识别，对其中在短暂停检测单元13中并未检测到短暂停周期的语音信号执行特征提取。在后一点上，利用在声道估计处理中所使用的频率分析来执行特征提取。下面将更详细地解释特征提取。

通常，特征提取是用于从语音信号提取有助于语音识别的分量的过程。特征提取与信息的压缩和尺寸缩减相关。由于在特征提取中没有理想的方面，因此使用语音识别速率来确定语音识别的特征是否优良。特征提取的主要研究领域是反映人类听觉特征的特征表达、对各种噪声环境/讲话者/声道变化效果较强的特征提取、以及表示时间变化的特征提取。

反映了听觉特征的通常所使用的特征提取过程包括应用耳蜗频率响应、mel或Bark尺寸单元的中心频率分配、根据频率的带宽增加、预增强滤波器等的滤波器组分析。用于提升鲁棒性的一种最广泛使用的方法是CMS(对数倒频谱平均减法)，用于减小环绕声道的影响。为了反映语音信号的动态特征，使用第一和第二微分值。CMS和微分被认为是在时间轴的方向上进行滤波，并且涉及在时间轴的方向上获取时间不相关特征矢量的过程。用于从滤波器组系数中获取对数倒频谱的过程被认为是用来将滤波器组系数改变为不相关系数的正交变换。已经使用采用了LPC(线性预测编码)的对数倒频谱的较早语音识别已经使用了将权重应用于LPC对数倒频谱系数的升降。

主要用于语音识别的特征提取方法包括LPC对数倒频谱、PLP对数倒频谱、MFCC(Mel频率对数倒频谱系数)、滤波器组能量等。

这里，将简要描述找到MFCC的方法。

语音信号通过反混叠滤波器，经过模拟到数字(A/D)转换，并且转换为数字信号x(n)。该数字语音信号通过具有高带通特性的数字预增强滤波器。存在多种使用数字增强滤波器的理由。首先，对高频带进行滤波以便对人类外耳/中耳的频率特性进行建模。由此，该数字增强滤波器补偿由于来自lib的发射而出现的20db/十进制的衰减，从而从语音中仅获得声域特性。其次，该数字增强滤波器稍微对听觉系统对1KHz之上的频谱域较为敏感的事实进行补偿。为了提取PLP特征，直接对作为人类听觉器官的频率特性的等响度曲线进行建模。预增强滤波器特性H(z)由以下的数学表达式7来表达。

数学表达式7：

H(z)＝1-az^-1其中该符号a具有范围从0.05到0.98的值。

将通过预增强滤波器的信号封装在汉明窗中，并且以块为单位分割为帧。以下过程均以帧为单位执行。帧的尺寸通常为20-30ms，并且通常以10ms来执行对帧的移位。将一帧中的语音信号利用FFT(快速傅立叶变换)转换为频率域。可以将频率域分割为多个滤波器组，然后可以获得每一个组的能量。

在获取以这样的方式获得的频带能量的对数之后，可以通过执行DCT(离散余弦变换)来获得最终的MFCC。

尽管在以上描述中提到了使用MFCC来提取特征的方法，应该理解，可以利用PLP对数倒频谱、滤波器频带能量等来执行特征提取。

模型适配单元15利用从特征提取单元14中提取的特征矢量和图1所示的语音DB17中所存储的声学模型来执行模型匹配。

执行模型匹配来反映由于当前输入到由终端所拥有的语音DB17的语音声道而出现的失真。假定语音周期的输入信号是y(n)，可以将输入信号表达为语音信号s(n)、声道分量c(n)和噪声分量n(n)的和，如以下的数学表达式8所示。

数学表达式8：

y(n)＝s(n)+c(n)+n(n)

Y＝S(e^jw)＝C(e^jw)+N(e^jw)

假定通过当前所商用的噪声去除逻辑将噪声分量减小为最小值，并且输入信号被认为是语音信号和声道分量的和。即，认为所提取的特征矢量同时包括语音信号和声道分量，并且反映了相对于无线终端中的语音DB17中所存储的模型缺少环境协调性。即，由以下数学表达式9来表达其中去除了噪声的输入信号。

数学表达式9：

Y＝S(e^jw)＝S(e^jw)+C(e^jw)：噪声已去除的输入信号

可以通过将估计分量添加到无线终端中的语音DB17中所存储的模型上来使所有声道的不和谐分量最小化。另外，可以由以下数学表达式10来表达特征矢量空间中的输入信号。

数学表达式10：

Y(v)＝S(v)+C(n)+S-C(v)

这里，S-C(v)是从语音和声道分量的和中所获得的分量。

此时，由于具有固定特征的声道分量和语音信号彼此无关，因此，特征矢量在特征矢量空间中表现为非常小的分量。

假定利用这样的关系存储在语音DB17中的特征矢量为R(v)，模型适配对在声道估计单元中所估计的声道分量C’(v)执行加法，然后，产生新的模型特征矢量R”(v)。即，通过以下数学等式11来计算新模型特征矢量。

数学表达式11：

R’(v)＝R(v)+C’(v)

因此，图1所示的语音识别单元16利用通过在模型适配单元15中的上述方法适配的模型来执行语音识别，并且获得语音识别结果。

将参考图3来描述在上述终端中并未处理语音识别过程的、服务器处理自然语言的构造和操作(即，用于处理从终端传送来的用于语音识别的语音数据的服务器的构造和操作)。

图3是网络服务器的语音识别系统的方框图。

参考图3，网络服务器的语音识别系统包括数据接收单元20、声道估计单元21、模型适配单元22、特征提取单元23、语音识别单元24、语言处理单元25和语音DB26。

数据接收单元20接收以图7所示的数据格式从终端传送来的数据，并且解析接收到的数据格式的每一个字段。

数据接收单元20利用在图7所示的数据格式中的终端标识符字段中所存储的终端标识符值，从语音DB26中提取识别所需的模型。

数据接收单元20检查接收到的数据的声道数据标记，并且确定声道信息是否与所述数据一起从终端传送而来。

作为后一确定的结果，如果声道信息与数据一起从终端传送而来，则数据接收单元20向模型适配单元22提供声道信息，并且将该信息适配于从语音DB26中提取的模型。在这一点上，按照与图1所示终端中的模型适配单元15中相同的方式来执行用于在模型适配单元22中适配模型的方法。

另一方面，如果声道信息并未与接收到的数据一起从终端传送而来，则数据接收单元20向声道估计单元21提供接收到的语音数据。

因此，声道估计单元21利用由数据接收单元20提供的语音数据直接地执行声道估计。在这一点上，声道估计单元21按照与图1所示的声道估计单元12相同的方式来执行声道估计操作。

因此，模型适配单元22将在声道估计单元21中所估计的声道信息适配到从语音DB26中估计的语音模型。

特征提取单元23从由数据接收单元20接收到的语音数据中提取语音数据的特征，并且向语音识别单元24提供所提取的特征信息。还按照与图1所示的终端的特征提取单元14相同的方式来执行该特征提取操作。

语音识别单元24利用在模型适配单元22中所适配的模型来执行对在特征提取单元23中提取的特征的识别，并且向语言处理单元25提供识别结果，从而使其从语言处理单元25中执行自然语音识别。由于要处理的语言并非字而是字符，即，与至少短语级别相对应的数据，因此，将用于精确地辨别字符的自然语言管理模型应用于语言处理单元25中。

语言处理单元25通过将在语言处理单元25(包括数据传输单元(未示出)中所处理的自然语言语音识别过程结果数据与语音识别ID一起传送到作为通过数据传输单元的客户端的终端，来终止语音识别过程。

作为网络服务器中的语音识别操作的总结，与客户端的终端相比，服务器侧的语音识别系统的可用资源是巨大的。这是由于以下事实：终端在字级别上执行语音识别，并且服务器侧必须识别自然语言，即，字符、与至少短语级别相对应的语音数据。

因此，与作为客户端的终端的特征提取单元14、模型适配单元15和语音识别单元16相比，图3所示的特征提取单元23、模型适配单元22和语音识别单元24使用了更为精确和复杂的算法。

图3所示的数据接收单元20将从作为客户端的终端传送来的数据分为终端的识别目标类、语音数据和声道数据。

当并未从终端中接收到声道估计数据时，服务器侧的语音识别系统中的声道估计单元21利用接收到的语音数据来估计声道。

模型适配单元22将需要在所估计的声道特征中的更为精确的模型适配，这是由于各种模式匹配算法被添加到模型适配单元22上，并且特征提取单元23也发挥了利用作为客户端的终端的资源不能够执行的作用。例如，应该注意到，可以由精确的音高检测来构造音高同步特征矢量(此时，还由相同的特征矢量来构造语音DB)，并且可以应用提升识别性能的各种尝试。

将参考附图来逐步骤地解释与上述根据本发明的终端(客户端)和网络服务器中的分布式语音识别系统相对应的根据本发明的终端和服务器中的分布式语音识别方法。

首先，将参考图4来解释在作为客户端的终端中的语音(字)识别方法。

参考图4，当从麦克风中输入用户语音数据时(S100)，从输入的语音信号中检测语音周期(S101)。可以通过如图2A和2B所示来计算信号的ZCR和能量来检测语音周期。即，如图2A所示，当能量值高于预设阈值时，则确定语音开始，从而该语音周期被确定为从相应时间处在预定周期之前开始。如果其能量低于预设阈值的周期持续了预定时间，则确定该语音周期已经终止。

同时，当当前语音信号的取样值和正好前一语音信号的取样值的乘积为负时，确定针对ZCR通过了零点。可以采用ZCR作为确定语音周期的标准，这是因为输入语音信号总是包括在相应周期内的循环性周期，并且与没有语音的周期的ZCR相比，循环性周期的ZCR相当小。因此，如图2B所示，没有语音的周期中的ZCR表现为高于预设的ZCR阈值，并且相反，在语音周期内不会这样表现。

当利用这样的方法来检测输入语音信号的语音周期时，利用在检测到的语音周期之前和之后、在时间周期中所存在的无语音周期的信号来估计语音信号的声道(S102)。即，利用无语音周期的信号数据，通过频率分析来估计当前声道的特征，其中可以作为在时间域上持续的短周期的平均来进行该估计。在这一点上，可以由数学表达式5来表达无语音输入信号。以上所估计的声道特征用来进行对终端中的语音DB17中所存储的声学模型的声道的适配。

在执行声道估计之后，通过利用ZCR和能量从输入的语音信号中检测暂停周期，确定在输入语音信号中是否存在暂停周期(S103)。

如同步骤S101，可以利用ZCR和能量来检测暂停周期，其中此时所使用的阈值可以不同于用来检测语音周期的值。这样做来减少当将清音周期(即可以表达为任意噪声的噪声周期)检测为暂停周期的差错。

当从确定语音周期开始、在确定了语音周期的结束之前出现了预定短周期的无语音周期时，将输入语音数据确定为并未在终端的语音识别系统中处理过的自然语言数据，从而将该语音数据传送到服务器。结果，可以将具有较小能量和高于语音周期的起始和结束之间的预定值的ZCR的周期检测为短暂停周期。

即，作为步骤S103中检测短暂停周期的结果，当在语音周期中检测到短暂停周期时，将由用户输入的语音信号确定为并未在作为客户端的终端的语音识别系统中进行语音识别处理的自然语言，并且构造要传送到服务器的数据(S104)。然后，将构造的数据通过网络传送到服务器的语音识别系统(S105)。在这一点上，要传送到服务器的数据具有图7所示的数据格式。即，要传送到服务器的数据可以包括以下至少一个：语音识别标记，用于识别要传送的数据是否为用于语音识别的数据；终端标识符，用于指示用于传输的终端的标识符；声道估计标记，用于指示声道估计信息是否包括在数据中；识别标识符，用于指示识别的结果；尺寸信息，用于指示要传送的整个数据的尺寸，语音数据的尺寸信息和声道数据的尺寸信息。

同时，作为步骤S103中的短暂停周期检测的结果，当确定在语音周期中并不存在短暂停周期时(即，相对于并未检测到其短暂停周期的语音信号)，执行针对字语音识别的特征提取(S106)。在这一点上，可以使用利用在估计声道时所使用的频率分析的方法来执行针对并未检测到其BRL周期的语音信号的特征提取，其中的代表性方法是其中使用了MFCC的方法。由于以上已经对其进行了详细描述，因此，不再对使用MFCC的方法进行描述。

在提取针对语音信号的特征分量之后，利用所提取的特征分量矢量来适配终端内的语音DB中所存储的声学模型。即，执行模型适配以便反映由当前输入到终端的语音DB中所存储的声学模型的语音信号的声道所引起的失真(S107)。即，执行模型适配以使短暂停模型适配于估计的当前声道的情形，其将估计声道的参数应用于通过适配算法所提取的特征参数。声道适配使用了去除在构成所提取的特征矢量的参数中所反映的声道分量的方法、或者将声道分量添加到语音DB中所存储的语音模型上的方法。

通过对经由步骤S107的模型适配所获得的特征矢量进行解码，对输入的语音信号的字进行解码，来执行语音识别(S108)。

下面，将参考图5来逐步骤地解释在接收到在作为客户端的终端中未处理过而被传送的语音数据(自然语言：句子、短语等)之后执行语音识别的方法。

图5是在网络服务器内的语音识别系统中的语音识别方法的操作流程图。

首先，如图5所示，接收以图7所示的数据格式从作为客户端的终端传送来的数据，并且分析接收到的数据格式中的每一个字段(S200)。

数据接收单元20利用图7所示的数据格式中的终端的标识符字段中所存储的终端的标识符值，从语音DB26中选择进行识别所需的模型(S201)。

然后，识别在所接收到的数据中是否存在声道数据标记，并且确定声道数据是否与接收到的数据一起从终端传送而来(S202)。

作为后一确定的结果，当声道信息并未从终端传送而来时，数据接收单元20对接收到的语音数据的声道进行估计。即，从作为客户端的终端传送来的数据分类为终端的识别目标种类、语音数据和声道数据，并且当并未从终端接收到声道估计数据时，数据接收单元利用接收到的语音数据来估计该声道(S203)。

同时，作为步骤S202中所进行的确定的结果，当从终端中接收到声道数据时，将声道数据适配到从语音DB中所选的模型，或者利用步骤S203中估计出的声道信息适配到从语音DB中所选的语音模型(S204)。

在将声道数据适配到模型之后，根据适配的模型从语音数据中提取用于语音识别的特征矢量分量(S205)。

识别所提取的特征矢量分量，并且所识别的结果经过利用适配的模型的语言处理(S206，S207)。在这一点上，由于要处理的语言并非字而是字符，与至少短语级别相对应的数据，因此将用于精确辨别语言的自然语言管理模型应用于语言处理操作。

通过将受到这种方式的语言处理的所得到的自然语言的语音识别处理数据与语音识别ID一起通过网络传送到作为客户端的终端，终止该语音识别过程。

如从前面所看到的，根据本发明的分布式语音识别系统和方法能够利用对输入信号中的语音周期内的短暂停周期的检测来识别字和自然语言。另外，本发明能够识别各种识别词汇组(例如家庭语音识别词汇、针对车辆的远程信息处理词汇、针对呼叫中心的词汇等)，由于各种终端需要各种语音识别目标，通过选择相应终端所需的识别词汇，在相同的语音识别系统中对这些词汇组进行处理。

通过利用声道估计方法将其适配到语音数据库模型上，使得由终端类型和识别环境所引起的各种类型的声道失真的影响最小，从而可以提高语音识别性能。

尽管已经描述了本发明的优选实施例，但是本领域的技术人员将会理解，本发明不应该局限于所述优选实施例。在所附权利要求所限定的本发明的精神和范围内，可以进行各种改变和修改。

Claims

1、一种分布式语音识别系统，包括：

第一语音识别单元，用于检查输入语音信号中的语音周期的暂停周期以确定输入语音的类型；当输入语音能够由其自身识别时，根据输入语音的类型来选择所存储的语音的识别目标模型，从而根据所选的识别目标模型来识别输入语音的数据；以及当输入语音不能够由其自身识别时，通过网络传送语音识别请求数据；以及

第二语音识别单元，用于分析由第一语音识别单元通过网络传送的语音识别请求数据，以便选择与要识别的语音相对应的识别目标模型；应用所选的语音识别目标模型以通过语音识别来执行语言处理；以及通过网络将所得到的语言处理数据传送到第一语音识别单元。

2、根据权利要求1所述的系统，其特征在于第一语音识别单元安装在所述终端上，而第二语音识别单元安装在网络服务器上，从而以分布式方式来执行语音识别。

3、根据权利要求2所述的系统，其特征在于所述终端是远程信息处理终端、移动终端、无线局域网(WLAN)终端和IP终端中的至少一个。

4、根据权利要求1所述的系统，其特征在于第一语音识别单元包括：

语音检测单元，用于从输入语音信号中检测语音周期；

暂停检测单元，用于检测由语音检测单元检测到的语音周期中的暂停周期以确定输入语音信号的类型；

声道估计单元，用于利用由语音检测单元检测到的无语音周期而非语音周期的数据来估计声道特性；

特征提取单元，当暂停检测单元并未检测到暂停周期时，提取语音数据的识别特征；

数据处理单元，用于产生语音识别请求数据；以及当暂停检测单元检测到暂停周期时，将所述语音识别请求数据传送到第二语音识别单元；以及

语音识别单元，用于通过将由声道估计单元估计的声道分量适配到数据库中所存储的识别目标声学模型。去除噪声分量，以及执行噪声识别。

5、根据权利要求4所述的系统，其特征在于语音检测单元根据将输入语音信号的语音波形的过零率和能量与预设阈值进行比较的结果，来检测语音周期。

6、根据权利要求4所述的系统，其特征在于所述语音识别单元包括：

模型适配单元，用于通过将声道估计单元中所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及

语音识别单元，用于对模型适配单元中处理的语音数据进行解码，以及针对输入语音信号执行语音识别。

7、根据权利要求4所述的系统，其特征在于当在由语音检测单元检测到的语音周期中不存在暂停周期时，暂停检测单元将输入语音数据确定为针对字的语音数据，而当在语音周期中存在暂停周期时，将输入语音数据确定为针对自然语言的语音数据。

8、根据权利要求4所述的系统，其特征在于声道估计使用连续短周期的频率分析、能量分配、对数倒频谱和时间域中的波形平均中的至少一个作为计算方法。

9、根据权利要求4所述的系统，其特征在于所述数据处理单元包括：

传输数据构造单元，当暂停检测单元检测到暂停周期时，构造用于将暂停周期传送到第二语音识别单元的语音识别处理请求数据；以及

数据传输单元，用于通过网络将所构造的语音识别处理请求数据传送到第二语音识别系统。

10、根据权利要求9所述的系统，其特征在于语音识别处理请求数据包括：语音识别标记、终端标识符、声道估计标记、识别标识符、整个数据尺寸、语音数据尺寸、声道数据尺寸、语音数据和声道数据中的至少一个。

11、根据权利要求1所述的系统，其特征在于第二语音识别单元包括：

数据接收单元，用于接收由第一语音识别单元通过网络传送来的语音识别处理请求数据；以及通过对声道数据和语音数据以及终端的识别目标进行分类，从数据库中选择识别目标模型；

特征提取单元，用于从由数据接收单元分类的语音数据中提取语音识别目标特征分量；

声道估计单元，当在从数据接收单元所接收到的数据中不包括声道数据时，从接收到的语音数据中估计识别产生环境的声道信息；以及

语音识别单元，用于通过利用由声道估计单元估计出的声道分量和从第一语音识别单元中接收到的声道估计信息之一、将噪声分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量，以及执行语音识别。

12、根据权利要求11所述的系统，其特征在于所述语音识别单元包括：

模型适配单元，用于通过将由声道估计单元估计出的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；

语音识别单元，用于通过对模型适配单元中处理的语音数据进行解码，执行对输入语音信号的语音识别；以及

数据传输单元，用于通过网络将语音识别处理结果数据传送到语音识别单元。

13、根据权利要求11所述的系统，其特征在于由声道估计单元所执行的声道信息估计使用连续短周期的频率分析、能量分配、对数倒频谱和时间域中的波形平均中的至少一个作为计算方法。

14、一种终端和服务器中的分布式语音识别方法，包括以下步骤：

通过检查输入到终端中的语音信号中的语音周期的暂停周期，确定输入语音的类型；当能够根据所确定的语音类型来处理所述语音时，选择所存储的语音的识别目标模型，并且根据所选的识别目标模型来处理输入语音数据；以及当在终端中不能够对所述语音进行处理时，通过网络将语音识别请求数据传送到服务器；以及

通过分析由所述终端通过网络传送的语音识别请求数据，选择与要在服务器中识别并处理的语音数据相对应的识别目标模型；通过应用所选的识别目标模型，通过语音识别来执行语言处理；以及通过网络将语言处理结果数据传送到所述终端单元。

15、根据权利要求14所述的方法，其特征在于通过网络向服务器传送语音识别请求数据包括：

从输入语音信号中检测语音周期；

通过检测在检测到的语音周期中的暂停周期，确定输入语音信号的类型；

利用不包括检测到的语音周期的无语音周期的数据来估计声道特性；

当并未检测到语音周期时，提取语音数据的识别特征；

当检测到暂停周期时，产生语音识别处理请求数据，并且通过网络将所述识别特征和语音识别处理请求数据传送到服务器；以及

在通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型而去除噪声分量之后，执行语音识别。

16、根据权利要求15所述的方法，其特征在于作为在检测语音周期的步骤中、将输入语音信号的语音波形的过零率和能量与预设阈值进行比较的结果，来检测语音周期。

17、根据权利要求15所述的方法，其特征在于执行语音识别的步骤包括：

通过将所估计的声道分量适配到数据库中所存储的识别目标声学模型，来去除噪声分量；以及

通过对处理的语音数据进行解码，执行针对输入语音信号的语音识别。

18、根据权利要求15所述的方法，其特征在于检测暂停周期包括：当在检测到的语音周期中不存在暂停周期时，将输入语音数据确定为针对字的语音数据，而当在语音周期中存在暂停周期时，将输入语音数据确定为针对自然语言的语音数据。

19、根据权利要求15所述的方法，其特征在于估计声道特征的步骤使用连续短周期的频率分析、能量分配、对数倒频谱和时间域中的波形平均中的至少一个作为计算方法。

20、根据权利要求15所述的方法，其特征在于产生语音识别处理请求数据并通过网络将识别特征和语音识别处理请求数据传送到服务器包括：

当检测到暂停周期时，构造用于将语音数据传送到服务器的语音识别处理请求数据；以及

通过网络将所构造的语音识别处理请求数据传送到服务器。

21、根据权利要求20所述的方法，其特征在于语音识别处理请求数据包括：语音识别标记、终端标识符、声道估计标记、识别标识符、整个数据尺寸、语音数据尺寸、声道数据尺寸、语音数据和声道数据中的至少一个。

22、根据权利要求14所述的方法，其特征在于向终端传送语音识别请求数据包括：

接收由终端通过网络传送来的语音识别请求数据；对声道数据和语音数据以及终端的识别目标进行分类；以及从数据库中选择识别目标模型；

从所分类的语音数据中提取语音识别目标特征分量；

当在所接收到的语音数据中不包括声道数据时，从接收到的语音数据中估计识别环境的声道信息；以及

在将所估计的声道分量和所估计的声道信息之一适配到数据库中所存储的识别目标模型，并且去除通过网络去往所述终端的、来自语音识别的噪声分量之后，执行语音识别。