CN1487433A

CN1487433A - 用于执行观察概率计算的装置和方法

Info

Publication number: CN1487433A
Application number: CNA031546188A
Authority: CN
Inventors: �ɱ߼��; 闵丙昊; 金泰洙; 朴贤宇; 张虎郎; 洪根哲; 金性在
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-06-28
Filing date: 2003-06-28
Publication date: 2004-04-07
Anticipated expiration: 2023-06-28
Also published as: GB2391675B; GB0314977D0; JP2004038163A; GB2391675A; DE10329618B4; US20040002861A1; DE10329618A1; JP4851684B2; US7356466B2; CN100359507C

Abstract

一种用于计算观察概率的方法和装置，包括第一操作单元，其从输入语音信号中的第二参数中减去输入语音信号的第一多个参数的平均值，并乘该相减的结果以得到第一输出，在第二操作单元，第一输出被平方并累加N次以得到第二输出。第三操作单元从第二输出中减去给定的加权值以得到第三输出；和比较器，为了从其中抽取L输出，比较器存储第三输出，并根据抽取的L输出的大小顺序存储抽取的L输出。

Description

用于执行观察概率计算的装置和方法

技术领域

本发明涉及一种用于语音识别的观察概率计算。

背景技术

预计使用语音识别应用的领域扩展到我们日常生活中通常使用的大多数电子产品。IBM是首先提出利用语音识别的技术的一个，它通过对语音识别应用隐藏马尔可夫模型算法证明隐藏马尔可夫模型的有效性，如美国专利号5,636,291所描述的那样。

‘291专利公开一种应用隐藏马尔可夫模型算法的字符识别系统。‘291专利把隐藏马尔可夫模型算法组织成通用处理器执行的程序。

‘291专利公开的语音识别系统粗略包括三个部分：预处理器，前端部分，和建模部分。在预处理器中识别关心的所有字符的语义。在前端部分，从识别的语义中抽取相互比较的特征值或参数。在建模部分执行培训阶段一个修整相位以产生一个模型。这个模型被作为一个标准，根据抽取的特征值或参数来精确的判断识别的字符。另外，根据识别的语义，建模部分决定在预先分配的字符中选择哪一个作为识别的字符。

IBM也已经公布了一种使用广泛应用的隐藏马尔可夫模型算法的语音识别系统和方法。美国专利号5,799,278公开了一种语音识别系统和方法，其中使用一种隐藏马尔可夫模型算法识别单独的发声的字。这种语音识别系统和方法被培训来识别发音上不同的字，并适合于识别大批量的字。

如上所述的语音识别系统需要大量的处理时间以执行语音识别所必需的计算。一种用于这种系统的观察概率计算大约占用使用一种隐藏马尔可夫模型算法的语音识别装置所需的计算总量的62％。

发明内容

本发明的一个优选的实施例直接针对于为了执行口语字的语音识别而计算观察概率的一种装置。该装置包括一个第一操作单元，从一个输入语音信号的第二参数中减去输入语音信号的第一多个参数的平均值，并乘以相减的结果以得到一个第一输出。第一输出结果在在第二操作单元中被平方并累加N次以得到一个第二输出。第三操作单元从第二输出中减去一个给定的加权值以得到一个第三输出，为了抽取这里的L输出，一个比较器存储第三输出，并根据抽取的L输出的大小顺序存储L抽取的输出。

本发明的另一个优选的实施例直接针对于计算观察概率的一种方法，其中从输入的语音信号中抽取的第二参数中减去输入语音信号的第一多个参数的平均值以得到一个结果。相乘这一结果以得到第一输出。第一输出被平方和累加以得到一个观察概率值。

本发明的另一个优选的实施例直接针对于一种识别语音信号的方法，其中从输入语音信号中抽取的第二参数中减去输入语音信号的第一多个参数的平均值以得到一个结果。相乘这一结果以得到第一输出。第一输出被平方和累加以得到一个第二输出。从第二输出中减去一个给定的加权值得到一个第三输出。从第三输出，抽取L输出，和一个或多个具有最高大小顺序的L输出，被选择作为对应于识别的语音信号。

附图说明

通过优选实施例的详细描述，其中参考附图，本发明的优选的实施例的如上所述的和其他的特征和优点将变的更加明显，其中：

图1是一个普通的语音识别系统的结构图；

图2说明得到一个音素的状态顺序的方法；

图3说明一个字识别处理；

图4说明依据本发明的优选实施例的执行语音识别所需的计算的数量；

图5依据本发明的优选实施例的观察概率计算装置的结构图；

图6说明位分辨率的选择；

图7依据本发明的优选实施例的语音识别装置的结构图；

图8是说明在图7的语音识别装置中接收控制命令和数据的过程的结构图；

图9是是说明在图7的语音识别装置中接收控制命令和数据过程的时序图；

图10是显示对于隐藏马尔可夫模型算法所必需的每个功能的计算数量的表格；

图11显示了包括在方程8中的第一表达式的算法；和

图12是依据本发明的优选实施例的观察概率计算装置的结构图。

具体实施方式

本发明的优选的实施例直接针对于一种观察概率计算装置和计算用于语音识别的观察概率的方法。这种方法和装置使用隐藏马尔可夫模型算法有效的执行一个观察概率计算。观察概率计算装置可以提高语音识别执行的速度。与在先技术相比，观察概率计算装置可以减少指令数量大约50％或更多。因此，操作可以在潜在地比现有技术更低的时钟速率下处理，并能量消耗可以减少到在先技术的一半。

进一步，观察概率计算装置可以包括专用的硬件来执行观察概率计算。观察概率计算代表性的占用隐藏马尔可夫模型算法的最大数量。因此，包括观察概率计算装置的语音识别装置的处理速度将增加，以求减少功率消耗。

图1是一个普通的语音识别系统的结构图。在图1的普通语音识别系统100中，模拟到数字转换器(ADC)101可以把连续的(模拟)语音信号转换成数字语音信号。为了加重清楚的区别的发音，预加重单元可以加重数字语音信号的高频分量。在采样的给定数量的单元中，数字语音信号可以被分离和采样。数字语音信号可以在例如240采样(30ms)单元被分离。

由于倒频谱(它是应用于隐藏马尔可夫模型算法的参数)和从频谱产生的能量通常用作隐藏马尔可夫模型中的特征向量能量计算器103计算倒频谱和能量。为了得到能量，能量计算器103在时域中使用能量计算公式持续计算瞬时的能量30ms。能量计算公式，其中“Y(i)”表示能量，在方程1中示出：

Y (i) = \sqrt{\frac{Σ_{j = 0}^{239} {(X (W_RATE \cdot i + j))}^{2}}{W_SIZE}}, 0 \leq i \leq 29 - - (1)

其中

W_SIZE＝240

W_RATE＝80

在方程1中，“i”是帧的数量(方程1计算30帧)，“X”表示数字化的语音数据，“j”是一帧的数据的指标，W_SIZE意味着每一帧由240数据组成，和W_RATE是重叠数据的数量。方程1计算的能量值可以确定当前输入的信号是语音信号或噪音。为了计算频域中的频谱，可以使用快速傅里叶变换(FFT)。例如，可以使用256点复数FFT操作计算频域中的频谱。256点复数FFT操作可以用方程2表示如下：

X (k) = Σ_{n = 0}^{255} [x (n) \cos (\frac{2 πkn}{256}) + y (n) \sin (\frac{2 πkn}{256})] +

j \cdot Σ_{n = 0}^{255} [y (n) \cos (\frac{2 πkn}{256}) - x (n) \sin (\frac{2 πkn}{256})] - - (2)

在方程2中，X(k)是在k进行快速傅里叶变换(FFT)的结果，“k”是0到255之间的值。项x(n)和y(n)是在FFT中使用的实数。如果能量计算结果根据能量计算结果指示当前输入的信号是语音信号，在寻端点单元(FindEndPoint)单元104中确定输入的语音信号的起始端和末端。用这种方法，如果输入语音信号的起始端和末端定义的有效的字被确定，只有对应被确定的有效的字的频谱数据被存储在缓冲器105中。换句话说，缓冲器105中仅存储通过从说话人所说的字中去除噪音后得到的有效的语音信号。

mel滤波器106执行mel滤波，它是用于从通过从32频带的带宽单元中滤波的频谱中得到倒频谱的预处理步骤。因此，可以使用mel滤波计算32频带的频谱。通过把在频域中的计算的频谱变换成时域，可以得到倒频谱，它是应用于隐藏马尔可夫模型算法中使用的参数。频域转换成时域可以在IDCT单元107中使用反离散余弦变换(IDCT)来实现。

由于得到的频谱和能量值(即，在应用隐藏马尔可夫模型的搜索中使用的值)之间可能存在实际的差值(即，大约102)，因此得到的频谱和能量值需要调整。这些调整在计数器108中可以使用对数函数来执行。

频谱窗口单元109从mel频谱值中分离周期和能量，并使用方程3改善噪音特征曲线以确定新的倒频谱值Y[i][j]：

Y[i][j]＝Sin_TABLE[j]·X([i][j+1])这里，0≤i＜NoFrame，0≤j≤7(3)其中NoFrames表示帧的数量。Sin_TABLE可以通过使用方程4得到：

Sin_TABLE [j] = i + 4 \cdot Sin (\frac{π \cdot (j + 1)}{8}), 0 \leq j \leq 7 - - (4)

在方程3和4中，“i”表示帧的数量“j”表示倒频谱的数量。规范器110将包含在每一帧中(例如在每一帧的第九位置)的能量值，规范为存在于给定范围内的值。为达到标准化，最大能量值最初可以使用方程5在每一帧的第九数据中搜索：

MaxEnergy = \overset{Max}{0 \leq i \leq NoFrame} Wind Cepstrum [i] [8] - - (5)

这样，规范化的能量(‘NECepstrum’)可以通过从所有帧的第九能量数据中减去最大能量值而得到，如方程6所示：

NECepstrum[i][8]＝(WindCepstrum[i][8]-MaxEnergy)·WEIGHT_FACTOR

其中0≤i≤NorRam (6)

在方程5和6中，“i”表示帧的数量；“NoFrame”是帧的最大数目；“WindCepstrum”是通过使用Sin_Table得到的一个值，‘WEIGHT_FACTOR’是加权值。语音信号的识别率通常通过增加参数(特征值)的类型而得以提高。为此，每一帧的特征值可以被看作第一类型特征，帧的特征值之间的差值可以被看作第二型特征，称作delta倒频谱。

动态特征单元111可以计算delta频谱Rcep(i)，或特征值之间的差，并作为使用方程7的第二特征值。

Rcep (i) = F (i) = - 1 / \sqrt{10} (2 \cdot Scep [i + 4] [j] + 1 \cdot Scep [i = 3] [j] + 0 \cdot Scep [i + 2] [j] - 1 \cdot Scep [i + 1] [j] - 2 \cdot Scep [i] [j]),

其中0≤i≤NoFrame+1，和0≤j≤9. (7)

在方程7中，“i”表示帧的数量，“j”表示倒频谱的数量，F(i)表示一个特征值的缩写，Scep是规范的能量NECepstrum。每个操作一般在两个邻近的帧中执行。使用方程7可以得到多个等于被计算的倒频谱的数量的delta频谱。这样，在隐藏马尔可夫模型处理的一个字搜索中用作比较的特征值可以被抽取。

根据抽取的特征值，可以执行使用给定的隐藏马尔可夫模型的字搜索。在观察概率计算器112中执行第一步骤。字搜索和字确定都根据概率，即，搜索和确定具有最高概率值的字节。

概率的类型可以包括观察概率和转移概率。这些概率可以被累加，并具有最高概率值的字节的顺序可以被选择作为识别的语音。观察概率o-prob[m]可以使用方程8得到：

y = Σ_{i = 0}^{1} Σ_{j = 0}^{12} var [i] [j] {(Feature [i] [j] - Mean [i] [j])}^{2}

dbx = y + Gconst

o_prob [m] = \overset{Max}{0 \leq i \leq mixture} {dbx [i]} - - (8)

在方程(8)中，dbx表示从输入语音信号中抽取的参考平均值(Mean)和特征值(Feature)之间的概率距离。由于概率距离变小，观察概率增加。Feature表示从输入语音信号中抽取的参数，Mean表示从输入语音信号的代表性的音素中抽取的多个参数的平均值，var表示分布度(Precision)/2，这里，Precision是一个分布度(一个方差，1/σ²)。Gconst是加权值，“i”表示代表性的音素类型的“混合物”。

许多人的代表性的音素值提高声音识别的精确性并分类成几个组，每个具有相同的音素类型。参数“i”表示每组表示的代表性的值的系数，“j”表示参数的数量。帧的数量可以根据字的类型变化，根据人们的字的发音的类型混合物(即，“i”)可以分类成多种组。

计算的观察概率指示可以观察预选择的字的音素。每个音素具有不同的观察概率值。在为每个音素确定一个观察概率值之后，一个状态机113可以处理该被确定的观察概率值以得到最为合适的音素的顺序。在使用来识别一个单个的字的隐藏马尔可夫模型中，状态机113可以理解为要识别的每个说出字的音素的特征值的顺序。

图2说明了一种得到一个代表性的音素“k”的状态顺序的方法。例如，在图2中，如果音素“k”包括三个连续的状态S1，S2和S3，一个状态从起始状态S0开始，经过状态S1和S2，到达状态S3。在图2中，在相同的状态水平的一个右向移动表示一个延迟。这一延迟可以根据特定的讲话者。换句话说，音素“k”可以发充分短的时间周期的音，也可以发相对长时间周期的音。当音素的发音延长时，每个状态水平上的延迟延长。因此，音素“k”可以在多个状态顺序中表示，如图2所示，并且可以在每个状态顺序中执行概率计算用于输入语音信号的每个音素。

在每个音素的单个的状态顺序上的概率计算完成以后，每个音素的计算的概率值被存储在状态机113中。当选择最大的分支或最大的概率时，状态电平可以通过得到被称为“Alpha”的值，或每个状态的概率而改进。在图2中，术语“Sil”表示不发音的音。

依据方程9，Alpha值可以通过使用优先观察概率值(其实际上是观察概率值的累加)，和使用通过在先试验得到的音素间转移概率值而得到：

State [i] . Alpha = \overset{Max}{0 \leq i \leq 277} State [i] . Alpha_prev + State [i] . trans_prob [0],

State [i - 1] . Alpha_prev + State [i] . trans_prob [1] + * (State [i] . o_prob) - - (9)

在方程9中，State.Alpha表示累加到前一概率值的最新计算的概率值，State.Alpha-prev表示前一概率值，它是先前概率值的累加，state.trans-prob[0]表示状态Sn过渡到状态Sn(即，S0→S0)的概率，state.trans-prob[1]表示状态Sn过渡到状态Sn+1(即，S0→S1)的概率，state.o-prob表示在当前状态计算的观察概率。

一个最大似然查找器114根据单个的音素的最终累加概率值选择一个识别的字，就像在方程9中计算的那样。可以选择具有最大概率的字作为识别的字。

现在将描述识别一个说出的字“KBS”的过程以说明具有最大概率的字如何可能被选择作为识别的字。发音字“KBS”包括对应于“kej”，“bi”和“es”的三个音节。音节“kej”包括对应于“k”，“e”和“j”的三个音素，音节“bi”包括对应于“b”和“i”的两个音素，音节“es”包括对应于“e”和“s”的两个音素。

发音字“KBS”包括七(7)个音素的“k”，“e”，“j”，“b”，“i”，“e”和“s”，并根据用于七(7)个音素每个的观察概率值和音素间转移概率值识别发音字“KBS”。即，为了识别发音字“KBS”，七个音素尽可能准确的识别，并准确识别的音素的顺序必须选择作为与字“KBS”最相似的字。

最初，对于一个输入语音信号(KBS)的每个音素计算其观察概率。为此，计算输入语音信号的每个音素和存储在数据库中的代表性的音素之间的相似度(即，概率)，并且代表性的音素的最大概率确定为每个音素的观察概率。例如，音素“k”与存储在数据库中的每一个代表性的音素相比较，并选择具有最大概率的代表性的音素“k”。

观察概率计算后，输入语音信号可以应用到包含确定的代表性的音素的状态机。因此可以确定音素的最适当的顺序。

状态机包括七个音素“k”，“e”，“j”，“b”，“i”，“e”和“s”，根据具有最高观察概率的音素选择字“KBS”，并其中最大限度的选择观察概率的累加。七个音素的每一个可以包括三种状态。

图3说明字识别处理。为了识别字“KBS”，观察概率计算器112计算七个音素“k”，“e”，“j”，“b”，“i”，“e”和“s”的每一个的观察概率，状态机113选择每个音素中具有最大观察概率和观察概率的最大累加的字“KBS”。

在许多已经存在的语音识别产品中，如上所述的操作一般用软件(C/C++语言)或通过通用处理器执行的汇编码设计。换句话说，上述操作也可以通过专用硬件执行，即，特定用途集成电路(ASIC)。软件执行可能需要比硬件更长的计算时间，但更灵活，以至于更容易改变操作。ASIC可以提高处理速度和消耗比软件更少的功率。但是，因为ASIC不灵活，所以操作不会象在软件操作中那样容易改变。因此，适合于依据本发明的优选实施例的声音识别产品的观察概率计算装置使用软件加速数据处理。

图4说明依据本发明的优选实施例的执行语音识别所需的计算的数量。例如，在通过通用处理器执行软件的情况下，例如数字信号处理器或英特尔奔腾微处理器，图4示出了执行一般的声音识别的每个必需的功能所需要的计算的数量。在图4中，计算的数量不是指令的数量，而是计算的次数(即，迭代)的数量，例如乘，加，对数操作，指数操作等。从图4中可以看出，一般的声音识别所必需的计算总量大约是100,000，其中，大约88.8％是专用于观察概率计算。

表1示出了当使用ARM处理器执行一般的声音识别时所使用的指令的数量。

表1

功能	指令周期循环数	百分率
功能	指令周期循环数	百分率	观察概率计算(HMM)	22,467,200	61.7％
状态机更新	11,183,240	30.7％	观察概率计算(HMM)	22,467,200	61.7％
状态机更新	11,183,240	30.7％	FFT	910,935	2.50％
最大概似法定位	531,640	1.46％	FFT	910,935	2.50％
最大概似法定位	531,640	1.46％	Mel-滤波/IDCT/定标	473,630	1.30％
动态特征确定	283,181	0.78％	Mel-滤波/IDCT/定标	473,630	1.30％
动态特征确定	283,181	0.78％	预加重和能量计算	272,037	0.75％
倒频窗口和标准化	156,061	0.43％	预加重和能量计算	272,037	0.75％
倒频窗口和标准化	156,061	0.43％	终点定位	123,050	0.30％
合计	36,400,974	100.00％	终点定位	123,050	0.30％

参照图1，需要总数近似36百万指令用于执行声音识别。大约22百万或62％指令用于隐藏马尔可夫模型(HMM)搜索，即，观察概率计算。如表1所示，指令的周期循环数量不是指令的数量而是计算的次数的数量，例如乘，加，对数操作，指数操作等。

可以构建硬件装置执行使用最大指令数量的观察概率计算，从而提高计算速度和减少功率消耗。本发明的优选实施例同时也提供一种专用于使用少量的指令，即，少量的周期循环的计算观察概率的观察概率计算装置。

概率距离计算，其占用大部分的观察概率计算，在方程10中表示：

d x_{0} [i] = lw - \frac{Σ_{j = 0}^{8} p [i] [j] \cdot (m [i] [j] - Feature [k] [0] [j]^{2})}{2}

d x_{1} [i] = lw - \frac{Σ_{j = 0}^{8} p [i] [j] \cdot (m [i] [j] - Feature [k] [0] [j]^{2})}{2} - - (10)

在方程10中，m表示参数的平均值，Feature表示从输入信号中抽取的参数，p表示Precision值，分布度(方差，1/σ²)的精确值，1w表示“对数加权”是一个加权值，i是音素的发音类型的“混合物”，j是倒频的数量。当在线性域中的加权值计算变成在对数域中的加权值计算时对数加权减弱。

为了提高观察概率计算的效率，为了仅使用一个指令表示概率距离计算，本发明也提供了一种计算方程9和10的装置，如方程11所示：

\frac{p [i] [j] \cdot {(mean [i] [j] - feature [k] [j])}^{2}}{2} - - (11)

在方程11中，p[i][j]表示表示分布度(方差，1/σ²)的精确值，mean[i][j]表示音素的平均值，feature[k][j]表示音素的参数，即，能量或倒频谱。在方程(11)中，mean[i][j]-feature[k][j]表示输入音素的参数和预定义的代表性的参数之间的概率差值(距离)。mean[i][j]-feature[k][j]的结果被平方以计算绝对概率距离。方差乘以mean[i][j]-feature[k][j]的平方以预报输入音素参数和预定义的代表性的参数之间的客观的真实距离。这里，代表性的音素参数是根据经验从多个语音数据中取得的。由于从多个人群中得到的语音数据采样值的数量增加，识别率得以提高。

然而本发明可以通过执行例如方程12的操作最大化识别率。方程12说明硬件的限制性的特征曲线，即，数据的宽度的特征曲线一般可以限制在16位：

{P[i][j]·(mean[i][j]-feature[k][j]}² (12)

在方程(12)中，p[i][j]表示分布度1/σ²，其不同于方程11中的方差1/σ²。下面说明为什么用分布度1/σ²代替方差1/σ²的原因。

在方程(11)中，mean[i][j]-feature[k][j]被平方，p[i][j]乘mean[i][j]-feature[k][j]的平方。然而，在方程(12)中，p[i][j]乘mean[i][j]-feature[k][j]，再平方这个相乘的结果。同样的，在方程(11)中，需要用高位分辨率(和mean[i][j]-feature[k][j]的平方一样多)来表示p[i][j]。然而，在方程(12)中，仅需要一个mean[i][j]-feature[k][j]的位分辨率。换句话说，为了保持一个16位的分辨率，方程11需要32位以表示p[i][j]，而这时方程(12)仅需要16位以表示p[i][j]。在方程(12)中，由于P[i][j](mean[i][j]-feature[k][j])的结果被平方，可以得到使用1/σ²计算方程(9)的相同的效果。

图5是观察概率计算装置的结构图。观察概率计算装置500包括减法器505，乘法器506，平方器507和加法器508。参考数字502，503，504和509是寄存器。

例如可以作为数据库使用的外部存储器501，存储精确度，平均值和每个代表性的音素的特征。这里精度表示分布度(1/σ²)，平均值表示每个代表性的音素的参数(能量和倒频)的平均值，feature[k][j]表示每个音素的参数(能量和倒频)。

最初，在观察概率计算装置500中，减法器505计算平均值和特征值之间的差值，然后，乘法器506用分布度(1/σ²)乘这个差值以得到平均值和特征值之间的真正距离。接下来，平方器507平方相乘的结果以得到平均值和特征值之间的绝对差值(即，一个真正的差值)。此后，加法器508把平方值加到前一参数中。也就是说，通过乘法器506得到方程12的结果，通过加法器508得到在方程9中的计算结果。

外部存储器501将p[i][j]，mean[i][j]和feature[k][j]以给定的顺序存储在寄存器502，503和504中。这个给定的顺序对应i和j连续增加的顺序。当改变i和j，p[i][j]，mean[i][j]和feature[k][j]被顺序的提供到存储器502，503和504中。寄存器509得到最终累加观察概率。

根据这个概率累加计算，一个最概率相似于输入音素的表示性音素具有最大概率。位于观察概率计算装置500的前端和后端的寄存器502，503，504和509可以用来稳定数据。

在观察概率计算装置500中，根据处理器的结构，数据的位分辨率可以变化。当位的数量的增加，可以计算更精确的结果。然而，由于位分辨率与观察概率计算装置500的容量有关，鉴于识别率必须选择合适的分辨率。

为了更好的理解位分辨率的选择，图6示出了使用16位分辨率的处理器内部的位分辨率。这里，图6中示出的每个步骤的切割处理根据限制到16位的数据宽度的特征曲线进行。偶尔也将参考图5。切割处理对应于防止性能降低的选择处理。当使用观察概率计算装置500时，与当仅使用通用处理器的情况相比较，处理速度可以得到充分提高。

特征值和平均值每个可以由4位整数和12位小数组成。在减法器505中，从特征值中减去平均值以得到由4位整数和12位小数组成的值。精确值可以由7位整数和9位小数组成。在乘法器506中，减法器505的输出乘以精确值以得到一个由10位整数和6位小数组成的值。再在平方器507中，乘法器506的输出被平方以得到由20位整数和12位小数组成的值。在加法器中，这个值和优先值相加，并换算这个和以得到由21位整数和11位小数组成的值。

表2示出了根据通用ARM系列处理器执行广泛使用的隐藏马尔可夫模型的声音识别算法和使用依据本发明的优选实施例的采用观察概率计算装置的专用处理器执行声音识别HMM算法之间的比较结果。

表2

处理器	周期循环数量	时间(20MCLK)
处理器	周期循环数量	时间(20MCLK)	通用ARM处理器	36,400,974	1.82s
采用本发明的观察概率计算装置的专用处理器	15,151,534	0.758s	通用ARM处理器	36,400,974	1.82s

如表2所示，通用ARM处理器执行声音识别大约36百万周期循环，而专用处理器执行声音识别大约15百万周期循环，或大约通用ARM处理器迭代周期循环数量的一半。这样，实时声音识别就几乎有可能。换句话说，专用处理器具有和通用处理器相同的性能甚至在实际上低的时钟频率情况下。因此，可以最大的减少功率消耗。

作为参考，消耗的功率和时钟频率之间的关系可以通过方程(13)表示：

p = \frac{1}{2} \cdot C \cdot f \cdot V - - (13)

其中，P表示消耗功率，C是电路元件的电容，f表示在电路中信号的整个转移的程度。变换程度根据了时钟速度。V表示提供的电压。因此，如果时钟速度减半，消耗的功率也减半，即，时钟速度与功率消耗成比例。

在观察概率计算装置500中，外部存储器501存储平均值，转移概率，从输入语音信号中和凭经验得到的代表性的音素的分布度中抽取的参数，根据单个的人的发音类型是不同的。由于外部数据中的变化，这些数据最初存储在寄存器502，503和504中以在信号中最小化变化。数据的存储密切有关功率的消耗。从存储于内部存储器502，503和504中的数据中，通过减法器505得到从输入语音信号中抽取的参数(特征)和预存储的平均值之间的差值。

在乘法器506中，该差值乘一个表示分布度(1/σ²)的精确值。在平方器507中，这个相乘的结果被平方以得到真正的概率距离。由于在多个形成一个字的声音参数帧中真正的概率距离仅对应一个临时的当前参数，在加法器508中真正的概率距离加先前概率距离以累加概率距离值。存储于寄存器509中的数据被反馈到加法器508以执行这个累加，因此，数据被用于下面的计算。

寄存器509不仅用于累加，而且用于最小化信号转移。累加可以平等的应用于预确定的代表性的音素，对于不同的音素或状态合成的累加值可以存储在不同的存储位置。在关于输入语音信号的全部参数累加完成之后，每个音素的最大累加值可以作为与输入音素最概率相似的音素识别。最终识别的字可以使用现有的处理器中的累加值确定。

图7采用观察概率计算装置的声音识别装置的结构图。例如，声音识别装置700可以采用3总线系统作为专用处理器用于单独说话者的声音识别。观察概率计算装置可以被安放在HMM模型728中，具有对于3数据总线(两个16位读总线和一个16位写总线)共享两个8位运算码总线的组成模型。这仅是一个优选结构，因为在总线结构中可以使用其它的结构，因为对本领域的技术人员已经是显而易见的。

参照图7，控制单元(CTRL)702可以具体位通用处理器。REG文件单元704表示用于执行寄存器文件编排操作的模型。算术逻辑单元(ALU)706表示用于执行算术逻辑的模型。相乘和累加单元(MAC)708是用于执行MAC的模型。桶形(B)移位器710表示用于执行桶形移位操作的模型。快速傅立叶变换单元(FFT)712可以执行傅立叶计算。平方根(SQRT)计算器714可以执行平方根计算操作。计时器716建立计时器功能，时钟发生器(CLKGEN)718产生时钟信号。CLKGEN718从图5的观察概率计算装置500中接收内部或外部产生的时钟信号并产生时钟信号输入到观察概率计算装置500的元件。特别的，为了达到低的功率消耗，CLKGEN718控制时钟速度。

声音识别装置700可以进一步包括：程序存储模型(PMEM)720，程序存储接口模型(PMIF)722。外部接口模型(EXIF)724，存储接口模型(MEMIF)726，隐藏马尔可夫计算模型(HMM)728，(例如，其可以是观察概率计算装置500)，同步串行接口模型(SIF)730和通用的异步接收机/发射机模型(UART)732。进一步，声音识别装置700可以包括通用输入/输出模型(GPIO)734，编解码器接口模型(CODECIF)736和用于执行CODEC操作(CODEC)的模型740。HMM728可以通过使用基于特征值的隐藏马尔可夫模型执行字搜索，外部总线752和外部存储器例如可以支持动态存储器存取(DMA)的EXIF724连接数据。

控制器(解码器)图7中未示出，可以在每个组成模型中建立，以通过专用命令总线(操作码)748和750接收命令。控制器也解码接收到的命令。即，建立在HMM中的控制器通过控制操作码总线748和750接收命令，解码命令并控制观察概率计算装置500以执行观察概率计算。例如，数据可以通过两个读出总线742和744提供，并通过一个写入总线746输出。在PMEM720中可以通过EXIF724载入程序。

HMM728通过控制操作码总线748和750从控制单元702接收控制命令。HMM728中的内部控制器(未示出)解码控制命令并控制观察概率计算装置500以执行观察概率计算。

图8是说明在声音识别装置700中接收控制命令和数据的处理的结构图。控制单元702可以直接解码控制命令并控制组成模型以执行在控制命令中指明的操作。选择的，控制单元702通过操作码总线0和1(操作码总线748和750)传递控制命令到组成模型并间接控制每个组成模型的操作。组成模型共享操作码总线1和2及读出总线A和B。

例如，为了直接控制操作的执行，控制单元702从PMEM720中取出控制命令，解码控制命令，读出对于在控制命令中指明的操作所必需的操作码(操作的数据)，并存储读出的数据到REG文件单元704。此后，如果指明的操作是控制逻辑操作，它在ALU706中执行。如果指明的操作是相乘和累加，它在MAC单元708中执行。如果指明的操作是桶形偏移操作，它在B移相器710中执行。如果指明的操作是平方根抽取，其在SQRT抽取器714中执行。指明的操作的结果被存储在REG文件单元704中。

为了间接的控制操作的执行，控制单元702可以使用操作码总线0(748)和1(750)。控制单元702连续的应用从PMEM720中取出的控制命令到操作码总线0(748)和1(750)并不解码取出控制命令。

这个控制命令最开始应用到操作码总线0(748)，然后再应用到操作码总线1(750)，在控制命令的第一应用之后时钟周期循环。如果控制命令应用到操作码总线0(748)，这个组成模型确定是否这个应用的控制命令在那里指明的。如果组成模型接收到对应那里的控制命令，该模型使用内置的解码器解码这个控制命令并使用备用状态用来执行控制命令中设计的操作。如果控制命令也应用到操作码总线1(750)在应用到操作码总线0(748)后时钟周期循环，在第一时间执行控制命令中指明的操作。分配RT和ET信号线(为了清楚在图8中示出)以表示是否允许控制码应用到操作码总线0(748)和1(750)。

图9是一个说明在图7的声音识别装置中接收控制命令和数据的过程的定时图。参考图9，顶端信号是时钟信号CLK，跟随其后的是应用到操作码总线0(操作码748)的控制命令，应用到操作码总线1(操作码750)的控制命令，RT信号，ET信号，应用到读出总线A的数据和应用到读出总线B的数据。

如果通过RT信号，控制命令应用到操作码总线0(748)和允许操作码，总线0，图7中的一个组成模型的识别和解码该控制命令，进入备用状态。此后，如果相同的控制命令应用到操作码总线1(操作码总线750)和通过ET信号允许操作码总线1(750)，关心的组成模型执行在控制命令中指明的操作。换句话说，关心的组成模型从读出总线A和B接收数据，执行在控制命令中指明的操作，并通过写入总线输出操作的结果。

图10是显示在隐藏马尔可夫模型算法的执行过程中每一个功能中执行的计算的图表。参照图10，隐藏马尔可夫模型(HMM)算法使用多个计算功能来执行。gauss-outP(高斯)功能需要最大数量的计算。因此依据本发明的优选实施例的硬件装置可以构造来处理gauss-outP(高斯)功能，这样可以提高处理的速度。

现在参照方程8，gauss-outP算法包括减法，平方，乘法和这些操作的组合。于是对于处理gaus8-outP算法的通用处理器，需要实际上大量的时间。

图11说明方程8的第一表达式(y)的算法。图11的算法用C语言表示，执行从x中减去平均值，减的结果被平方，var乘以平方的结果的计算。这个计算可以重复13次，例如，每次重复的结果可以被累加。在图11中，x表示在方程8的第一表达式中示出的Feature。

方程8的第二表达式(dbx)加上加权值Gconst到第一表达式的结果中。然而由于加权值最初是负值，dbx计算导致了从第一表达式的结果(y)的净减法。

方程8的第三表达式(o-prob[m])表示一个操作，其中执行第二表达式给定次数，第二表达式给定次数的迭代之后得到的dbx值与每一个其它的dbx值相比较以确定三个最大dbx值。

图12是依据本发明的另一个优选实施例的观察概率计算装置的结构图。参照图12，观察概率计算装置1200包括第一到第三操作单元1210，1220，1230和比较器1240。

第一操作单元1210从一个参数(Feature)中减去值(Mean)并用精确值(分布度，方差)乘相减的结果。因此第一操作单元1210可以包括减法器和乘法器(未示出)。

这里，参数Feature表示用于从输入语音信号中抽取的音素的能量和对数倒频谱。值Mean表示从代表性的音素中抽取的Feature参数的平均值，分布度Precision是值Mean的方差值。

应用到第一操作单元1200的Feature参数和值Mean由m位组成。为了得到Feature值和Mean值之间的真实距离，用Precision乘以Feature和Mean相减的结果。第一操作单元1210的输出不直接应用到第二操作单元1220，而是存储在第一操作电阻1250中，然后与时钟信号同步应用到第二操作单元1220。因此，第一操作单元1210输出到第二操作单元1220的延时应用可以防止时钟信号的周期循环被与在执行第一和第二操作单元1210和1220中的操作所需要的时间相等的时间所限制。时钟信号的周期循环限制是由于第一操作单元1210的输出直接应用到第二操作单元1220。

第二操作单元1220平方第一操作单元的输出并累加N次平方结果，其可以连续的输出。因此第二操作单元1220包括平方器和累加器(未示出)。

第二操作单元1220的输出不直接应用到第三操作单元1230，而是存储在第二操作电阻1255中，然后与时钟信号同步应用到第三操作单元1230。第二操作寄存器1255反馈N平方结果，其可以一个接一个的输出，到第二操作单元1220。用这种方法，N次累加可以实施，例如，N＝13。

第一和第二操作单元1210和1220执行方程8的第一表达式(y)的计算，方程8是用于隐藏马尔可夫模型(HMM)算法的观察概率计算。在方程8的第一表达式中，i表示音素的代表性的类型，j表示参数(Feature)的数量，var表示分布度的一半(即，Precision/2)。

在方程8的第一表达式中，Feature和Mean之间的差值被平方，平方的差乘以var。然而，为了提高操作速度，第一和第二操作单元1210和1220用Precision乘以Feature和Mean之间的差值，并平方这个差值。

因此，第一操作单元1210接收到的分布度(Precision)是

在这种情况下，尽管第二操作单元1220执行平方操作，这个结果与方程8的第一表达式的相同。因此，从第二操作单元1220的输出得到计算∑(在方程8的第一表达式中表示)的结果。

观察概率计算装置1200不需要参数和/或值Feature、Mean、Precision和Gconst存储在外部存储装置(未示出)并回叫计算。观察概率计算装置1200可以包括寄存器1275、1280、1285和1290分别用来存储Feature、Mean、Precision和Gconst。这样可以提高计算速度。

第三操作单元1230从第二操作单元1220的输出中减去Gconst。因此，第三操作单元1230可以包括减法器(未示出)。第三操作单元1230执行方程8的第二表达式(dbx)的计算。最初，Gconst是负值，但正Gconst存储在寄存器1290中以至于第三操作单元1230的减法器可以执行方程8的第二表达式。第三操作单元1230的输出是从输入语音信号中抽取的Mean和Feature之间的概率距离。第三操作单元的输出不直接应用到比较器1240，而是存储在第三操作寄存器1260中，与时钟信号同步应用到比较器1240。

比较器1240存储第三操作单元1230的输出，依据抽取的L输出的大小顺序从第三操作单元的多个输出中抽取L输出，并存储抽取的L输出。比较器1240执行方程8的第三表达式(o-prob[m])计算，尽管可以抽取许多L输出，例如，L可以设置为三(3)。

比较器1240可以包括第一到第L的寄存器MAX1，MAX2和MAX3，它们以大小顺序存储第三输出单元1230的L输出。比较器1240也可以包括第一到第L的变址寄存器IND1，IND2和IND3，例如，它们输出产生的顺序存储第三输出单元的L输出。

最初可以为从第三操作单元1230输出的最小值设置寄存器MAX1，MAX2和MAX3。例如，第三操作单元1230的输出(最初输入到比较器1240中)可以与存储在第二寄存器MAX2中的值相比较。

如果第三操作单元1230的输出大于存储在第二寄存器MAX2中的值，则输出与存储在第一寄存器MAX1中的值相比较。如果第三操作单元1230的输出大于存储在第一寄存器MAX1中的值，则输出存储在第一寄存器MAX1中。最初存储在第一寄存器MAX1中的值可以被存储在第二寄存器MAX2中，最初存放在第二寄存器MAX2中的值可以被存储在第三寄存器MAX3中。换句话说，根据与从第三操作单元1230的输出比较，存储值可以在MAX1，MAX2和MAX3之间移动。

第三操作单元1230的下一个(或新的)输出被输入到比较器1240并与存储在第二寄存器MAX2中的值相比较。如果新的输出大于存储在第二寄存器MAX2中的值，新的输出与存储在第一寄存器MAX1中的值相比较。相似的，如果新的输出大于存储在第一寄存器MAX1中的值，新的输出存储在第一寄存器MAX1中。于是第三操作单元1230(存储在第一寄存器MAX1中)的前一输出存储在第二寄存器MAX2中，存储在第二寄存器MAX2中的值被存储在第三寄存器MAX3中，如上所述。

通过重复这个过程，第三操作单元1230的输出可以以大小的顺序存储在第一到第三寄存器MAX1，MAX2和MAX3中。第三操作单元1230的输出产生的顺序可以存储在第一到第三变址寄存器(IND1，IND2和IND3)中。因此，通过包括第三操作单元1230和比较器1240在观察概率计算装置中，从语音信号中抽取的倒频谱和delta倒频谱的概率值可以几乎在概率值计算出来之后立即被比较和选择。

根据本发明的观察概率计算装置1200可以允许简化计算的数量以以求提高操作速度。使用隐藏马尔可夫模型(HMM)算法查找最大dbx值的操作(即，方程8的第三表达式(in))通常需要大量的计算。

例如，如果方程8的第二表达式产生100dbx值，dbx值必须从外部存储器中迭代100次，并为了寻找三个最大dbx值，必须执行至少100次减法。然而，依据本发明的优选实施例，第三操作单元1230和比较器1240的减法和比较与观察概率计算同时执行。这样，不必要的周期循环可以减少和/或尽可能的排除。

总而言之，得到100dbx值大约需要1500汇编指令，大约需要1900指令执行减法操作以及比较和选择操作。由于声音识别装置应该使用实时处理产生结果，处理速度很重要。依据本发明的优选实施例，第三操作单元1230和比较器1240能够执行减法以及选择和比较操作以求大量的减少不必要的操作的数量。因此，适合实时处理的执行速度就有可能。

另外，可以降低功率消耗。在使用电池的移动产品中，电池的耐久性很重要。电池的耐久性与操作时间有关。因为操作时间延长，功率连续的被不必要的操作消耗。例如，由于时钟信号被输入到所有操作装置，该时钟信号必须被应用到所有的操作装置直到必要的操作完成。因此，本发明的优选实施例可以允许减少计算的数量以求降低功率消耗。

进一步的，可以减少使用的存储器的数量。在不包括比较器1240的情况下，所有的100dbx值必须存储在存储器中。需要3200位存储器来存储100个32位数据。因为包括声音识别装置的芯片内存的容量的限制，代表性的存储器必须表面上依附于集成电路。

新存储器的安装可以严重影响声音识别装置的功率消耗和处理速度。设计依据本发明的观察概率计算装置使得在观察概率计算后一个周期循环中，三个最大概率值被存储在寄存器MAX1，MAX2和MAX3中。

此外，声音识别装置的大小不能大大增加。比较器1240具有1627门电路，其甚至还占不到声音识别装置使用的19300门电路的10％。然而，如果包括新存储器，新存储器可以占用声音识别装置的整个区域的很大部分。因此，依据本发明的优选实施例的声音识别系统没有充分的增大，甚至当采用这里所描述的观察概率计算装置。

当参照这里的优选实施例，本发明已经特别描述和显示，对于本领域的技术人员可以理解其中作出的本发明的形式和细节的变化都不背离本发明的精神和范围，正如以下的权利要求所定义的。

优先权

本申请要求在韩国知识产权局于2002年6月28日申请的韩国专利申请号No.2002-37052和于2003年2月28日申请的韩国专利申请号No.2003-12810的优先权，每个申请所公开的内容结合起来作为参考。

Claims

1.一种观察概率计算装置，包括：

第一操作单元，从输入语音信号中抽取的参数中减去从代表性的音素中抽取的参数的平均值，并用平均值的分布度(方差)乘以该相减的结果以得到第一输出，其中，分布度(方差)称作Precision；

第二操作单元，平方第一操作单元的第一输出并将平方的结果累加N次以得到第二输出；

第三操作单元，从第二操作单元的第二输出中减去预定的加权值以得到第三输出；和

比较器，存储第三操作单元的第三输出，从第三操作单元的输出中抽取L输出，并以大小顺序存储该抽取的L输出。

2.如权利要求1所述的装置，其中，比较器包括：

第一到第L寄存器，按照大小顺序存储该抽取的L输出；和

第一到第L变址寄存器，存储在第一到第L寄存器中的抽取的L输出产生的顺序。

3.如权利要求2所述的装置，其中，L为3。

4.如权利要求1所述的装置，进一步包括：

第一操作寄存器，存储第一输出并输出存储的第一输出到第二操作单元；

第二操作寄存器，存储第二输出并输出存储的第二输出到第三操作单元；和

第三操作寄存器，存储第三输出并输出存储的第三输出到比较器。

5.如权利要求1所述的装置，进一步包括多个寄存器，存储参数、平均值、分布度和加权值。

6.如权利要求1所述的装置，其中：第一和第二操作单元在隐藏马尔可夫模型算法中执行观察概率计算(y)依据：

y = Σ_{i = 0}^{1} Σ_{j = 0}^{12} var [i] [j] {(Feature [i] [j] - Mean [i] [j])}^{2}

其中，i是表示音素的类型的系数，j表示参数的数量，var表示平均值的分布度。

7.如权利要求6所述的装置，其中分布度是

8.如权利要求1所述的装置，其中第三输出是从输入语音信号中抽取的平均值和参数之间的概率距离。

9.如权利要求1所述的装置，其中从输入语音信号中抽取的参数由m位组成，平均值由m位组成。

10.如权利要求1所述的装置，其中N是13。

11.一种计算观察概率的方法，包括：

从输入语音信号中抽取的第二参数中减去输入语音信号的第一多个参数的平均值以得到结果；

乘以该结果以得到第一输出；

平方该第一输出；和

累加该被平方的第一输出以得到观察概率值。

12.如权利要求11所述的方法，其中乘包括用分布度乘以该结果以得到第一输出。

13.如权利要求11所述的方法，其中：第一多个参数是来自输入语音信号的代表性的音素。

14.如权利要求12所述的方法，进一步包括：

从观察概率值中减去给定的加权值以得到第三输出，其中第三输出的值与观察概率值成反比例。

15.如权利要求14所述的方法，其中：

第三输出是平均值和抽取的第二参数之间的概率差值，和

当概率差值的减少时，观察概率值增加。

16.如权利要求14所述的方法，进一步包括：

从第三输出中抽取L输出；和

选择具有最高大小顺序的L输出作为修改的观察概率值。

17.如权利要求16所述的方法，其中修改的观察概率值是音节序列被识别为输入语音信号的最大概率。

18.如权利要求11所述的方法，其中观察概率值是概率的累加，每个概率表示音节序列。

19.一种识别语音信号的方法，包括：

乘以该结果以得到第一输出；

平方该第一输出；

累加该被平方的第一输出以得到第二输出；

从第二输出中减去给定的加权值以得到第三输出；

从第三输出中抽取L输出；和

选择具有最高大小顺序的L输出，该选择的L输出对应识别出的语音信号。

20.一种声音识别装置，依据权利要求19所述的方法识别语音信号。

21.一种声音识别装置，包括权利要求1所述的观察概率计算装置。

22.一种观察概率计算装置，依据权利要求11所述的方法计算观察概率值。