CN1138386A

CN1138386A - 分布式话音识别系统

Info

Publication number: CN1138386A
Application number: CN94194566A
Authority: CN
Inventors: 保罗·E·雅克布斯; 张成生
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1993-12-22
Filing date: 1994-12-20
Publication date: 1996-12-18
Anticipated expiration: 2014-12-20
Also published as: FI962572A; JPH09507105A; FI20070933A; US5956683A; KR100316077B1; CA2179759A1; WO1995017746A1; EP0736211B1; MY116482A; AU1375395A; FI118909B; FI962572A0; IL112057A0; DE69433593D1; CN1119794C; TW318239B; ATE261172T1; AU692820B2; JP3661874B2; EP1381029A1

Abstract

一种具有特征抽取装置(22)的话音识别系统，该系统位于远程站(40)中。特征抽取装置(22)从输入话音帧中抽取特征，然后将抽取的特征提供给中央处理站(42)。在中央处理站(42)中，将特征提供给确定输入话音帧之语法的字译码器(48)。

Description

分布式话音识别系统

发明领域

本发明涉及话音信号处理。本发明尤其涉及一种新的用于实现标准话音识别系统分布化的方法和设备。

背景技术

话音识别是赋予机器模拟智能以识别用户或用户话音指令并便于人机交互的最重要技术之一。它还是一种理解人类语言的关键技术。利用各种技术从声信号中还原语言信息的系统称为话音识别器(VR)。话音识别器由声处理器和字译码器组成，其中声处理器从来话原始话音中抽取VR所需的信息传播特征(information-bearingfeature)(矢量)序列，而字译码器对该特征(矢量)序列译码，产生所需的且有意义的输出格式，比如与输入发音相应的语音字序列。为改善某给定系统的性能，需要进行训练，以给系统配备有效的参数。换句话说，系统在优化工作前需要学习。

声处理器是话音识别器中的一个前端话音分析子系统。它对输入话音信号作出响应，为表征随时间变化的话音信号提供一种适当表示。它应该除去诸如背景噪声、信道失真、说话者特征和说话方式等无关的信息。有效的声特征将为话音识别器提供较高的声鉴辨力。最有用的特征是短时间频谱包络。为表征短时间频谱包络，两种最常用的频谱分析技术是线性预测编码(LPC)和基于滤波器组的频谱分析模式。但是容易证明，如L.R.Rabiner和R.W.Schafer在1978年Prentice Hall公司出版的“话音信号数字处理”一书中所讨论的，LPC不仅为声带频谱包络提供良好的近似，而且在计算方面的花费比所有数字化的滤波器组模式要小得多。经验还表明，基于LPC的话音识别器的性能可以与基于滤波器组的识别器相媲美，或者会更好。具体可以参见Prentice Hall公司于1993年出版的“话音识别基础”一书，作者是L.R.Rabiner和B.H.Juang。

参照图1，在基于LPC的声处理器中，将输入话音提供给传声器(未示出)，并且将其转换成模拟电信号。然后A/D转换器(未示出)将该电信号数字化。为把数字化的话音信号频谱展平并使其在接下来的信号处理过程中少受有限精度的影响，让该信号通过预加重滤波器2。然后将经过预加重滤波的话音提供给分段单元4，在分段单元4处，话音被分段，或者被分成许多暂时重叠或不重叠的组。然后将话音数据帧提供给开窗单元6，在开窗单元6中除去分成帧的DC分量，并在每一帧上进行数字开窗操作，以减少因帧边界处的不连续性而引起的分组效应。LPC分析中最常用的开窗函数是Ham-ming窗口w(n)，其定义是：

w (n) = 0.54 - 0.46 \cdot \cos (\frac{2 πn}{N - 1}), 0 \leq n \leq N - 1 - - - (1)

经开窗的话音被提供给LPC分析单元8。在LPC分析单元8中，根据被开窗的采样计算自相关函数，并且从自相关函数中直接获得相应的LPC参数。

一般地说，字译码器将声处理器产生的声特性序列翻译成说话者原始字串的估计。它分两步完成：即声模式匹配(acoustic patternmatching)和语言建模(language modeling)。在孤立的字识别应用中可以避免语言建模步骤。将来自LPC分析单元8的LPC参数提供给声模型匹配单元10，以对音素、音节和字等可能的声模型进行检测和分类。将候选的模型提供给建立语法约束规则模型的语言建模单元12，这些语法约束规则可以确定哪些字序列是按语法构成并有意义的。当单独的声信息含义不清时，语法信息能为话音识别提供有价值的指导。基于语言建模，VR按顺序解释声特性匹配结果并提供估计字串。

字译码器中的声模型匹配和语言建模都需要数学模型，或为确定的或为随机的，以描述说话者的音韵和声音语音的变化。话音识别系统的性能直接与这两种建模的质量有关。在声模型匹配的各种模型类别中，基于模板的动态时间翘曲(dynamic time warping)(DTW)和随机隐含马尔可夫模型(hidden Markov modeling)(HMM)是两种最常用的。但是，已经知道，基于DTW的方法可视为基于HMM方法的一种特例，后者是一种参数化双随机模型。目前HMM系统是最成功的话音识别算法。HMM中的双随机特性在吸收声音和与话音信号有关的暂时变化方面提供了较好的适应性。这常常导致识别精度的改善。关于语言模型，已在实际的大词汇量话音识别系统中成功地应用了一种称为k语法语言模型的随机模型，详见1985年《电气与电子工程师协会会刊》，第73卷，第1616-1624页，由F.Jelink撰写的“实验分散口语识别器的开发”一文。在词汇量小的情况下，已在飞机订票和信息系统的应用中将确定性的语法制成一有限状态网络(FSN)(详见1985年六月《电气与电子工程师协会IASSP会刊》第33卷第3册，由L.R.Rabiner和S.Z.Levin-son撰写的“A Speaker-Independent，Syntax-Directed，Con-nected Word Recognition System Based on Hidden Markov Modeland Level Building”一文)。

从统计角度讲，为了尽量减少识别错误的可能性，可以按下述方法使话音识别问题形式化：利用声证据观测O，话音识别操作将是寻找最相似的字串W^*，以使

W^*＝arg max P(W|O) (1)其中取最大运算是针对所有可能的字串W。根据Bayes规则，可将上述方程中的后验概率重写成：

P (W | O) = \frac{P (W) P (O | W)}{P (O)} - - - (2)

由于P(O)与识别无关，所以可以用另一种方法获得字串估计，即

W^*＝arg max P(W)P(O|W)

(3)这里P(W)表示将发出字串W的先验概率，而P(O|W)是对给定说话者发出字序列W，观察到声证据O的概率。P(O|W)由声模型匹配确定，而先验概率P(W)由所用的语言模型定义。

在连贯的字识别中，如果词汇量较少(少于100)，则可用确定性语法硬性规定那些字可以逻辑地接在其他字的后面，以形成语言中的合法句子。确定性语法可隐含地结合在声匹配算法中，以限制潜在字的搜索空间并大大减少计算量。但是，当词汇量中等(大于100但小于1000)或者较大(大于1000)时，可用随机语言建模获得可能的字序列W＝(w₁，w₂，…，w_n)。根据简单的概率论，可以如下分解先验概率P(W)：

P (W) = P (w_{1}, w_{2}, . . ., w_{n}) = Π_{i = 1}^{n} P (w_{i} {| w}_{1}, w_{2}, . . ., w_{i - 1}) - - - (4)

其中P(w_i|w₁，w₂，…，w_i-1)是在给定序列(w₁，w₂，…，w_i-1)后将说出w_i的概率。w_i的选择依赖于以前整个输入字的历史。对于词汇量为V的情况，需要Vⁱ个值才能使P(w_i|w₁，w₂，…，w_i-1)完全确定。即使对于词汇量中等的情况，也需要惊人数量的样例来训练语言模型。因训练数据不充分而引起的对P(w_i|w₁，w₂，…，w_i-1)估计不精确，将降低原本声匹配结果的价值。

上述问题的实际解决方法是假设w_i仅依赖于(k-1)个先行字w_i-1，w_i-2，…，w_i-k+1。随机语言模型可以用导出k语法语言模型的P(w_i|w₁，w₂，…，w_i-k+1)来完整地描述。由于如果k＞3，大多数字串将永远不会出现在语言中，所以单语法(k＝1)、双语法(k＝2)和三语法(k＝3)是统计地考虑语法的最有效的随机语言模型。语言模型包含对识别有用的语法和语义信息，但这些概率必须从大量话音数据中训练得到。当有效的训练数据相当有限，K语法永远不会出现在数据中时，P(w_i|w_i-2，w_i-1)可以直接从双语法概率P(w_i|w_i-1)估计得到。该过程详见1985年《电气与电子工程师协会会刊》，第73卷，第1616-1624页，由F.Jelink撰写的“实验分散口语识别器的开发”一文。在连贯的字识别中，整个字模型用作基本话音单位，而在连续话音识别中，可将诸如音素、音节或半音节等分波段单位用作基本话音单位。字译码器将作相应改进。

常规的话音识别系统把声处理器和字处理器合在一起，不考虑其可分离性，应用系统的限制(诸如功率损耗、可用存储等)和通信信道的特性。这激发了人们对设计上述两部分被适当分离的分布式话音识别系统的兴趣。

发明内容

本发明是一种新的改进型分布式话音识别系统，在该系统中，(i)前端声处理器可以基于LPC或者基于滤波器组；(ii)字译码器中的声模型匹配可以基于隐含马尔可夫模型(HMM)、动态时间翘曲(DTW)或者甚至基于神经网络(NN)；并且(iii)对于连贯或连续的字识别，语言模型可以基于确定性或随机性的语法。本发明不同于通过适当分离特征抽取和字译码部分来提高系统性能的常规话音识别器。正如以下实施例所描述的，如果诸如倒频谱系数等基于LPC的特征通过通信信道发送，则可用LPC和LSP之间的转换来减少噪声对特征序列的影响。

附图概述

结合附图阅读以下叙述的详细说明将更加了解本发明的特征、目的和优点。附图中相同的标号自始至终表示相同的部分，其中

图1是常规话音识别系统的方框图；

图2是在无线电通信环境下本发明一实施例的方框图；

图3是本发明的总方框图；

图4是本发明转换单元和逆转换单元实施例的方框图；

图5是包括本地字检测器和远程字检测器的本发明优选实施例的方框图。

本发明的最佳实施方式

在标准话音识别器中，无论在识别过程中或者在训练过程中，复杂的计算大多集中在话音识别器的字译码子系统中。在实现具有分布式系统结构的话音识别器时，通常希望把字译码任务放在能适当吸收计算负载的子系统中。但声处理器应尽量靠近语音源，以减少信号处理引起的量化误差和/或信道引入误差的影响。

图2示出了本发明的一个实施例。在该实施例中，环境是无线电通信系统，系统包括一便携式蜂窝电话机或个人通信设备40，以及被称为蜂窝基站的中央通信中心42。在该实施例中，给出了分布式VR系统。在该分布式VR中，声处理器或特性抽取单元22在个人通信设备40中，而字译码器48在中央通信中心中。如果不用分布式VR，只在便携式蜂窝电话中实现VR，那么由于计算花费很大，所以即使对于词汇量中等的连贯字识别，也是极不可行的。另一方面，如果VR只在基站中，那么与话音编码译码器相关的话音信号的衰减和信道效应会大大降低精度。显然，该推荐的分布式系统设计有三个好处。第一个好处是由于字译码器硬件不再位于电话机40中，所以降低了蜂窝电话机的成本。第二个好处是，减缓了便携式电话40中电池(未示出)的耗电，本地进行计算强度很大的字译码器操作时会引起上述电池耗电。第三个好处是，除了分布式系统的灵活性和扩展能力，识别精度也有改善。

将话音提供给传声器20，传声器将该话音信号转换成电信号，提供给特性抽取单元22。传声器20输出的信号可以是模拟或是数字的。如果信号是模拟的，那么需要在传声器20和特性抽取单元22间安置一个模拟—数字转换器(未示出)。话音信号被提供给特性抽取单元22。特性抽取单元22抽取将用来对输入话音之语言解释进行译码的输入话音的相关特征。可用来估计话音的特征一个例子是输入话音帧的频率特性。该特性常常用作话音输入帧的线性预测编码参数。然后将抽取的话音特征提供给发射器24，发射器24对抽取的特征信号进行编码、调制和放大，并通过双工器将调制特征提供至天线28，天线将话音调制特征发送给蜂窝基站或中央通信中心42。本领域中已知的各种数字编码、调制和发射方式皆可使用。

在中央通信中心42处，天线44接收发送来的特征，并将其提供给接收器46。接收器46实行解调功能并对接收到的被发送来的特征译码，然后提供给字译码器48。字译码器48根据话音特征确定给话音的语言估计，并将一动作信号提供给发射器50。发射器50对该动作信号进行放大、调制和编码，并将放大后的信号提供给天线52，天线52将估计字或命令信号发送给便携式电话40。发射器50也可以使用已知的数字编码、调制或发送技术。

在便携式电话40处，天线28接收估计字或命令信号，并通过双工器26将接收到的信号提供给接收器30，接收器30对该信号解调、译码，然后将该命令信号或估计字提供个给控制单元38。控制单元38对接收到的命令信号或估计字作出响应，提供预定的反应(例如，拨电话号码、将信息提供给便携式电话上的显示屏等等)。

图2所示的系统还可以按略微不同的方式使用，即从中央通信中心42发回的信息不一定是被发送话音的解释，从中央通信中心42发回的信息也可以是对便携式电话所发译码消息的响应。例如，可以在通过通信网与中央通信中心42耦合的远程应答机(未示出)上询问消息，在该情况下，从中央通信中心42发送至便携式电话机40的信号可以是来自应答机的消息。第二控制单元49可以同在中央通信中心中。

以下是将特征抽取单元22放在便携式电话40中而不放在中央通信中心42处的重要性。如果与分布式VR相反，将声处理器放在中央通信中心42处，那么低带宽数字无线电信道由于量化失真而需要一个限制特征矢量分解(resolution)的声码器(在第一子系统处)。但是，通过将声处理器放在便携式或蜂窝式电话中，就可以把整个信道频带用于特征发送。通常，传输被抽取的声特征矢量比传输话音信号需要较小的带宽。由于识别精度高度依赖输入话音信号的衰减，所以应该尽可能地使特征抽取单元22接近用户，从而特征抽取单元22根据传声器话音抽取特征矢量，而不是根据可能会在传输中又出错的声码式电话话音抽取特征矢量。

在实际应用中，话音识别器被设计在诸如背景噪声等环境条件下工作。因此，考虑噪声存在情况下的话音识别问题是很重要的。已经证明，如果在与测试条件完全(或近似)相同的环境下进行词汇量(参考模型)的训练，那么话音识别器不仅能在噪声很大的环境下提供良好的性能，而且能大大降低因噪声引起的识别精度的降低。训练和测试条件之间的不匹配构成了识别性能降低的主要因素之一。如前所述由于传输声特征所需带宽比话音信号要小，所以可假设声特征比话音信号能更可靠地通过通信信道，由此所推荐的分布式话音识别系统在提供匹配状态方面具有优势。如果在远地实现话音识别器，那么诸如无线电通信中遇到的衰落等信道变化会大大破坏匹配状态。如果能在本地吸收大量的训练计算，那么在本地实现VR便能避免上述影响。不幸的是，在许多应用中，这是不可能的。显然，分布式话音识别装置可以避免由信道的复杂性引起的不匹配情况，并弥补集中化装置的缺点。

参照图3，将数字话音采样提供给特征抽取单元51，特征抽取单元51通过通信信道5 6将特征提供给字估计单元62，确定估计字串。话音信号被提供给声处理器52，确定每个话音帧的潜在特征。由于字译码器在执行识别和训练任务时都要求输入声特征序列，所以须将这些声特征通过通信信道56发送过来。但是，并非标准话音识别系统中使用的所有潜在特征都适于通过噪声信道传输。在某些情况下，需要转换单元22以便于进行源编码，并降低信道噪声的影响。话音识别器中广泛使用的一例基于LPC的声特征是倒频谱系数{c_i}。它们可以如下从LPC系数{a_i}直接获得：

c_{m} = a_{m} + Σ_{k = 1}^{m - 1} (\frac{k}{m}) c_{k} a_{m} - k, - - - - - - - m = 1, . . ., P - - - (5)

c_{m} = Σ_{k = 1}^{m - 1} (\frac{k}{m}) c_{k} a_{m} - k, - - - - - - m = P + 1, . . ., Q - - - - - (6)

其中P是所用LPC滤波器的级，而Q是倒频谱特征矢量的大小。由于倒频谱特征矢量快速变化，所以不容易压缩倒频谱系数帧序列。但是，在LPC和线谱对(line spectrum pair)(LPC)频率之间存在一种转换，后者变化较慢，并能用δ脉冲编码的调制(DPCM)方案有效编码。由于倒频谱系数可以从LPC系数中直接导出，所以转换单元54将LPC转换成LPS，然后将其编码，通过通信信道56。在远程字估计单元62处，逆转换单元60对经转换的潜在特征进行逆转换，以将声特征提供给字译码器64，随后字译码器64提供估计字串。

转换单元54的一个实施例以图4中的转换子系统70示出。在图4中，来自声处理器52的LPC系数被提供给LPC至LPS转换单元72。在LPC至LPS单元72内，可如下确定LPS系数。对于第P级LPC系数，其相应的LPS频率可作为下列方程的在0和π间的P个根获得：

P(w)＝cos5w+p₁cos4w+…+p₅/2 (7)

Q(w)＝cos5w+q₁cos4w+…+q₅/2 (8)其中p_i和q_i可如下递归地计算：

p₀＝q₀＝1

(9)p_i＝-a_i-a_p-i-P_i-1，1≤i≤P/2

(10)q_i＝-a_i+a_p-i-q_i-1，1≤i≤i≤P/2

(11)LPS频率被提供给DPCM单元74，并在此编码以通过通信信道76发送出去。

在逆转换单元78处，从信道接收到的信号通过逆DPCM单元80和LPC至LPS单元82，恢复话音信号的LPS频率。LPS至LPC单元82进行LPC至LPS单元72的逆过程，将LPS频率转换回推导倒频谱系数用的LPC系数。LPS至LPC单元82进行下列转换：

P (z) = (1 + z^{- 1}) Π_{i = 1}^{P / 2} (1 - 2 \cos (w_{2 i - 1}) z^{- 1} + z^{- 2}) - - - (12)

Q (z) = (1 - z^{- 1}) Π_{i = 1}^{P / 2} (1 - 2 \cos (w_{2 i}) z^{- 1} + z^{- 2}) - - - (13)

A (z) = 1 - Σ_{i = 1}^{P} a_{i} z^{- i} = \frac{P (z) + Q (z)}{2} - - - (14)

然后LPC系数被提供给LPC至倒频谱单元84，单元84再根据方程5和方程6将倒频谱系数提供给字译码器64。

由于字译码器仅依赖于声特征序列(如果序列直接通过通信信道发送，则易产生噪声)，所以如图3所示，在子系统51中将潜在的声特征序列推算或转换成另一种便于传输的表示。经过逆转换后可以获得字译码器中使用的声特征序列。因此，在VR分布式装置中，通过大气(信道)发送的特征序列可以与字译码器中真正使用的不同。预期，可用本领域中已知的任何错误保护方案对转换单元70的输出再编码。

在图5中，示出了本发明的改进实施例。在无线电通信应用中，部分由于昂贵的信道访问，用户可能不希望少数简单但又常用的话音命令占用通信信道。以在本地手机100处进行词汇量相当小的话音识别而词汇量较大的第二话音识别系统位于远程基站110中的方式，进一步在手机和基站间分配字译码功能，便可达到上述愿望。它们公用手机中的同一声处理器。本地字译码器中的词汇表包含最常用的字或字串。另一方面，远程字译码器中的词汇表包含通用字或字串。如图5所示，基于这种内在结构，可以缩短占用信道的平均时间，并且提高平均识别精度。

另外，有两组话音命令可以使用，一组称为特殊话音命令(spe-cial voiced command)，与本地VR识别的命令对应，另一组称为通用话音命令(regular voiced command)，它与本地VR不能识别的命令对应。无论何时发出特殊话音命令，皆从本地字译码器中抽取真正的声特征，并在本地实行话音识别功能，不访问通信信道。当发出通用话音命令时，通过信道发送经转换的声特征矢量，并在远程基站处进行字译码操作。

由于对于任何特殊话音命令不需要转换声特征，也不进行编码，并且本地VR的词汇量小，所以所需的计算将比远程所需的少得多(与在可能的词汇中寻找正确字串有关的计算正比于词汇量)。另外，由于声特征将在没有信道潜在错误的情况下直接送至本地VR，所以与远程VR相比，可以用简化的HMM(例如用较少状态数、较少状态输出概率混合部件数等)对本地话音识别器建模。尽管词汇量有所限制，但这将有可能在计算负载受到限制的手机中(子系统1)实施本地VR。可以预期，分布式VR还可以用在其他不同于无线电通信系统的应用目的中。

参照图5，将话音信号提供给声处理器102，然后从话音信号中抽取例如基于LPC的特征参数等特征。然后将这些特征提供给本地字译码器106，字译码器106在其较小的词汇表中搜寻，识别输入话音信号。如果对输入字串的译码失败并且断定远程VR应该对其译码，那么它就将信号传送给转换单元104，由转换单元104准备需发送的特征。然后通过通信信道108将转换后的特征发送至远程字译码器110。逆转换单元112接收被转换的特征，进行转换单元104的逆操作并将声特征提供给远程字译码器单元114，远程字译码器单元114作出响应，输出估计远程字串。

上述对优选实施例的描述能使本领域的技术人员实施或使用本发明。显然对这些实施例的各种修改对于本领域的技术人员而言是很容易的，并且无需创造性的智慧便能将此处定义的一般原理应用到其他实施例中。因此，不应将本发明局限于这里描述的实施例，本发明应被给予与此处揭示的原理和新特征相一致的最宽的范围。

Claims

1.一种话音识别系统，其特征在于，包括：

特征抽取装置，位于远程站中，用于接收话音采样帧，并根据预定特征抽取格式从所述话音采样帧中抽取一组话音特征，并且提供所述话音特征组；和

字译码器，位于中央处理站中，用于接收所述话音特征组，并根据预定的译码格式确定语法。

2.如权利要求1所述的系统，其特征在于，所述特征组是线性预测编码参数。

3.如权利要求1所述的系统，其特征在于，所述系统还包括本地字检测器，它同在所述远程站中，根据一预定的小词汇表译码格式确定语法。