CN1141684A

CN1141684A - 声音编码方法

Info

Publication number: CN1141684A
Application number: CN95191734A
Authority: CN
Inventors: 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-12-21
Filing date: 1995-12-19
Publication date: 1997-01-29
Also published as: AU703046B2; MY112314A; EP0751494B1; BR9506841A; PL316008A1; EP0751494A4; EP0751494A1; ATE233008T1; WO1996019798A1; JPH08179796A; KR970701410A; US5950155A; TW367484B; TR199501637A2; AU4190196A; DE69529672D1; CA2182790A1; DE69529672T2; MX9603416A; ES2188679T3

Abstract

在本发明中，例如，在进行码激励线性预测(CELP)编码时，利用线性预测码(LPC)分析电路12，从输入声音信号中取出α参数；利用α→LSP变换电路13，把α参数变换成线状频谱对(LSP)参数；利用LSP矢量量化器14，对这种线状频谱对(LSP)参数矢量进行矢量量化。这时，根据由音调检测电路22检测的音调值、控制切换开关16，选择使用男声用码簿15M和女声用码簿15F中的某一者，因此，不增大传送比特率、就能够提高量化特性。

Description

声音编码方法

本发明涉及通过把表示输入声音信号短期预测系数的参数或短期预测残差矢量量化或矩阵量化而编码的声音编码方法。

背景技术

已知很多种利用音频信号(包括声音信号和音响信号)时域和频域中的统计特性和人的听觉特性，进行信号压缩的编码方法。作为这种编码方法，大致可以分为时域编码、频域编码、分析合成编码等。

在作为声音信号等的高效率编码之例的多带激励(以下，称为MBE)编码、单带激励(以下，称为SBE)编码、谐波编码、子带编码(以下，称为SBC)、线性预测编码(以下，称为LPC)、或离散余弦变换(DCT)、改进型DCT(MDCT)、快速傅里叶变换(FFT)等中，在把频谱幅度及其参数(LSP参数、α参数、K参数等)之类的各种信息数据量化时，过去大多是进行标量量化。

在这种标量量化的情况下，当比特率降低到例如3～4kps左右时，如果进一步提高量化效率，则量化噪声和量化失真将变大，难以实用化。因此，不把这些编码时所接收的时间轴数据、频率轴数据、滤波器系数的数据等分别量化，而是把多个数据汇集成矢量，或者，把连续多个帧的矢量汇集成矩阵，采用进行矢量量化和矩阵量化的方法。

例如，在码激励线性预测(CELP)编码中，把LPC残差作为直接的时间波形，进行矢量量化和矩阵量化。还有，在上述MBE编码中的频谱包络等的量化时，也采用矢量量化和矩阵量化。

可是，当进一步降低比特率时，为了把表示LPC残差和频谱包络的参数量化，如不使用较多的比特就会引起质量劣化。

本发明就是鉴于这样的情况而提出的，目的在于提供一种以少量比特也能得到良好的量化特性的声音编码方法。

发明的公开

与本发明有关的声音编码方法是把声音信号的多个特性参数中的一个或多个参数的组合作为基准参数，与该基准参数有关，把表示短期预测值的参数分成两个部分，设置这样形成的第一和第二码簿。而且，根据输入的声音信号产生短期预测值，与输入声音信号的基准参数有关，选择第一和第二码簿之一，参照所选定的码簿、把短期预测值量化，借此，把输入声音信号编码。

在这里，上述短期预测值为短期预测系数或短期预测误差。还有，上述多个特性参数为声音的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。还有，上述量化为矢量量化或矩阵量化。另外，上述基准参数为声音信号的音调值，根据输入声音信号的音调值与给定音调值的大小关系来选择第一和第二码簿之一。

而且，在本发明中，参照所选定的第一码簿或第二码簿，对根据输入声音信号产生的短期预测值进行量化，借此，可以提高量化效率。

附图的简单说明

图1为表示作为应用与本发明有关的声音编码方法的装置的具体例子的声音信号编码装置的概略结构框图；

图2为表示出可用于图1中的音调检测电路上的振波器之一例的电路图；

图3为用于说明矢量量化时所用码簿的形成(练习用)方法的方框图。

用来实施发明的最佳形态

以下，说明与本发明有关的令人满意的实施例。

图1为采用与本发明有关的声音编码方法的声音信号编码装置的概略结构框图。

在该声音信号编码装置中，把供给输入端11的声音信号供给线性预测编码(以下，称为LPC)分析电路12、反滤波电路21和听觉加权滤波运算电路23。

LPC分析电路12以约256个取样长度作为1个块、使输入信号波形通过加重平均窗口，借助于自相关法求线性预测系数，即所谓α参数。在作为数据输出单位的1帧期间内，例如可以包括160个取样。这时，例如，如果取样频率为8Khz，则1帧期间为20ms。

来自LPC分析电路12的α参数被供给α→LSP变换电路13，将其变换成线状频谱对(以下，称为LSP)参数。即，例如把作为直接型滤波系数求出的10个α参数，变换成5对LSP参数。这一变换例如采用牛顿-拉夫逊法进行。之所以变换成这种LSP参数，是因为LSP参数的内插特性优于α参数。

来自α→LSP变换电路13的LSP参数，通过LSP矢量量化器14进行矢量量化。这时，也可得出帧间差分后进行矢量量化。或者，也可把多个帧汇集起来进行矩阵量化。这里的量化，假定以20ms为1帧，对每20ms算出的LSP参数进行矢量量化。在进行矢量量化或矩阵量化时，根据音调进行切换开关16的切换以利用后述的男声用码簿15M和女声用码簿15F。

把来自LSP矢量量化器14的量化输出，即把LSP矢量量化的索引送到外部、把其它已量化的LSP矢量供给LSP→α变换电路17，通过LSP→α变换电路17变换成直接型滤波系数，即α参数。根据来自该LSP→α变换电路17的输出，算出码激励线性预测(CELP)编码中听觉加权合成滤波器31的滤波系数。

这里，为了进行码激励线性预测(CELP)编码，使来自所谓动态码簿(亦称为音调码簿、自适应码簿)32的输出，通过系数乘法器33乘以增益g0后供给加法器34，还有，使来自所谓随机码簿(亦称为噪声码簿、概率码簿)35的输出，通过系数乘法器36乘以g1后送到加法器34上，把来自加法器34的相加输出作为激励信号，供给听觉加权合成滤波器31。

在动态码簿32中，保存着过去的激励信号。把在音调周期内读出的该激励信号乘以各增益g0后所得之值，与对来自动态码簿35的信号乘以各增益g1后所得之值，在加法器34中相加，通过该相加输出、激励听觉加权合成滤波器31。还有，通过把来自加法器34的相加输出反馈到动态码簿32上，构成一种IIR滤波器。如后面所述，随机码簿35的结构为，利用切换开关35S、切换选择到男声用码簿35M和女声用码簿35F之一上。还有，根据来自增益码簿37的输出，控制各系数乘法器33和36的增益，使之成为各增益g0和g1。把来自听觉加权合成滤波器31的输出作为相减信号，供给加法器38。把来自加法器38的输出信号供给波形失真(欧几里得距离)最小化电路39，根据来自该波形失真最小化电路39的输出，控制加法器38的输出即控制从各码簿32、35、37进行的读出，以便使加权波形失真最小化。

在反滤波电路21中，通过来自LPC分析电路12的α参数、对来自输入端11的输入声音信号进行反滤波处理以后，将其供给音调检测电路22，进行音调检测。根据来自该音调检测电路22的音调检测结果，控制切换开关16和切换开关35S的切换，进行上述男声用码簿35M和女声用码簿35F的切换选择。

还有，在听觉加权滤波运算电路23中，利用来自LPC分析电路12的输出，对来自输入端11的输入声音信号算出听觉加权滤波系数，把已听觉加权的信号供给加法器24。把来自零输入响应电路25的输出作为相减信号，供给加法器24。该零输入响应电路25是利用加权合成滤波器合成并输出前一帧的应答的电路，通过从听觉加权的信号中减掉零输入响应电路25的输出，来抵消在听觉加权合成滤波器31中剩余的前一帧的滤波响应，取出所需的信号作为解码器新的输入。把来自该加法器24的相加输出供给加法器38，从该相加输出中把来自听觉加权合成滤波器31的输出减掉。

在具有上述那种结构的声音信号编码装置中，假定，来自输入端11的输入信号为x(n)，LPC系数即α参数为αi，预测残差为res(n)。假定分析次数为P时，i满足1≤i≤P。这里，借助于反滤波电路21、对输入信号x(n)进行(1)式所示的反滤波，例如在0≤n≤N－1的范围内，求预测残差res(n)。

H (z) = 1 + Σ_{j = 1}^{p} α_{1} z^{- i} - - - (1)

这里，N是与作为编码单位的帧长相当的取样个数，例如，N＝160。

其次，在音调检出电路22中，使从反滤波电路21接收的预测残差res(n)通过低通滤波器(以下，称为LPF)后得到resl(n)。通常，取样时钟频率fs为8KHz时，采用截止频率f_c为1KHz左右的LPF。其次，根据(2)式算出resl(n)的自相关函数中Φ_resl(i)：

φ_{resl} (i) = Σ_{n = 0}^{N - i - 1} resl (n) resl (n + 1) - - - (2)

(L_min≤i≤L_max)

这里，通常采用L_min＝20、L_max＝147左右。把跟踪提供自相关函数Φ_resl(i)峰值的i、或通过适当处理提供峰值的i而求出的音调，作为当前帧的音调。例如，把第k帧的音调、具体地讲即把音调滞后设为p(k)。还有，用(3)式定义音调的可靠性或音调强度p1(k)：

P1(k)＝Φ_resl(P(k))/Φ_resl(0) …(3)即，用Φ_resl(o)定义归一化的自相关强度。

另外，在通常的码激励线性预测(CELP)编码中，借助于(4)式，算出帧功率R_o(k)：

Ro (k) = \frac{1}{N} Σ_{i = 0}^{N - 1} x^{2} (n) - - - (4)

这里，k表示帧序号。

利用这些音调滞后p(k)、音调强度p1(k)、帧功率R_o(k)之值，把{α_i}的量化表或α参数变换成LSP(线状频谱对)以后，对所形成的量化表，在男声用和女声用之间进行切换。在图1的例子中，是把对LSP进行矢量量化用的LSP矢量量化器14的量化表，在男声用码簿15M与女声用码簿15F之间切换。

例如，当假定用来区别男声与女声的音调滞后p(k)的门限值为p_th，用来判别音调可靠性的音调强度p1(k)和帧功率R_o(k)的门限值为p1_th和R_oth时，

(1)当p(k)≥p_th、且p1(k)＞p1_th、且R_o(k)＞R_oth时，使用第一码簿，例如，男声用码簿15M；

(2)当p(k)≤p_th、且p1(k)＞p1_th、且R_o(k)＞R_oth时，使用第二码簿，例如，女声用码簿15F；

(3)在上述(1)、(2)以外的情况下，使用第三码簿。

虽然可以准备与上述男声用码簿15M和女声用码簿15F都不同的另一个码簿作为第三码簿，但是，例如也可以使用男声用码簿15M和女声用码簿15F中的任一者。

再者，作为上述各门限值的具体值，可以列举：例如，p_th＝45、p1_th＝0.7、R_o(k)＝(满刻度-40dB)。

或者，当p1(k)＞p1_th、且R_o(k)＞R_oth时，即在有声音的区间内，保存过去几帧的音调可靠性高的各音调滞后p(k)，求出这些n帧的p(k)的平均值，也可利用给定的门限值p_th来判别该平均值，进行码簿的切换。

或者，还可以把满足上述条件的音调滞后p(k)供给图2所示的滤波器，通过利用门限值p_th来判别该滤波输出，进行码簿的切换。再者，当未提供输入数据，即音调滞后p(k)时，图2的滤波器保持这样的状态：把在乘法器41中在输入数据上乘以0.2后所得之值，与在延时电路42中把输出数据延时1帧后在乘法器43中乘以0.8所得之值，在加法器44中相加后取出。

这样的切换和组合以后，进而根据有声音/无声音的判断，或者，根据音调强度p1(k)之值及帧功率R_o(k)之值，进行码簿的切换即可。

这样，从已稳定的音调区间提取音调平均值，判断是男声还是女声，进行男声用码簿和女声用码簿的切换。这是因为，在男声和女声中，元音共振峰的频率分布不平衡，特别是通过在元音部分进行男声和女声的切换，可以减小用于量化的矢量存在的空间，即，可以减少矢量的分散，能够进行良好的练习，即，可以学到减小量化误差。

还有，根据上述条件，也可以进行在码激励线性预测(CELP)编码中的随机码簿的切换。在图1例中，作为随机码簿35，根据上述条件，通过切换控制切换开关35s，来选择男声用码簿35M和女声用码簿35F中的一个。

可是，在码簿的学习中，最好在编码和解码时以同样的基准，把练习数据分成两个部分，对每部分练习数据，例如借助于所谓LBG法进行最佳化。

即，在图3中，把练习用的例如由几部分声音信号构成的来自练习接收机51的信号，供给线状频谱对(LSP)运算电路52和音调判别电路53。LSP运算电路52相当于例如图1的线性预测编码(LPC)分析电路12和α→LSP变换电路13；音调判别电路53相当于图1的反滤波电路21和音调检测电路22。在音调判别电路53中，如上所述，分别借助于上述各门限值p_th、P1_th、R_oth对音调滞后p(k)、音调强度p1(k)和帧功率R_o(k)进行鉴别，分成上述条件(1)、(2)、(3)等三种情况。具体地讲，至少判别出条件(1)的男声情况和条件(2)的女声情况即可。或者，如上所述，也可在有声音的区间内，保存过去n帧的音调可靠性高的各音调滞后p(k)，求出这n帧的p(k)平均值，利用门限值p_th来判别该平均值。还可利用门限值p_th判别来自图2中的滤波器的输出。

来自LSP运算电路52的LSP数据被送给练习数据分配电路54，根据来自音调判别电路53的判别输出，将其分成男声用练习数据55和女声用练习数据56两个部分。把这些练习数据分别供给练习处理部57和58，借助于例如所谓LBG法进行练习处理，借此，产生图1的男声用码簿15M和女声用码簿15F。这里，所谓LBG法是在“矢量量化器设计的一种算法”(“An Algorithm for Vector QuantizerDesign”，Linde，Y.，Buzo，A.and Gray，R.M.，IEEE Trans.Comm.，Com-28，pp.84-95，Jan.1980)中提出的码簿练习法，是利用所谓练习系列，对概率密度函数未知的信息源，设计其局部最佳的矢量量化器的技术。

这样产生的男声用码簿15M和女声用码簿15F，在由图1中的LSP矢量量化器14进行的矢量量化时，可借助于切换开关16，经切换选择以后使用。根据由音调检测电路22进行的上述那样的判别结果，对切换开关16进行切换控制。

把来自LSP矢量量化器14的量化输出的索引信息，即代表矢量的代码，作为用来传送的数据取出；把其它输出矢量的已量化的LSP数据，在LSP→α变换电路17中变换成α参数，送给听觉加权合成滤波器31。听觉加权合成滤波器31的特性1/A(Z)用(5)式表示：

\frac{1}{A (z)} = \frac{1}{1 + Σ_{i = 1}^{p} α_{i} z^{- 1}} \times W (z) - - - (5)

在(5)中，W(Z)表示听觉加权特性。

在这样的码激励线性预测(CELP)编码中，作为用来传送的数据，除了LSP矢量量化器14中的代表LSP的矢量索引信息以外，还可以举出：动态码簿32和随机码簿35的各索引信息，增益码簿37的索引信息，音调检测电路22的音调信息等。这样，因为音调值或者动态码簿的索引本来就是通常CELP编码中必须传送的参数，所以，不会使传送信息量或传送速率增大。但是，本来不传送的参数，例如，在男声用码簿/女声用码簿的切换中使用的音调强度，就必须用另一种方法传送码切换信息了。

在这里，上述男声、女声的判别没有必要必须与讲话人的性别一致，只要把练习数据分成两个部分，采用同一基准选择码簿即可。在本实施例中，称为男声用码簿/女声用码簿，是为了便于说明。在本实施例中，利用音调值切换码簿，这是利用在音调值与频谱包络形状之间的相关性。

再者，本发明并不局限于上述实施例，例如，有关图1的结构，虽然是把各部作为硬件描述的，但是，也可以利用所谓DSP(数字信号处理器)等，借助于软件程序来实现。还可以把子带矢量量化低频一侧的码簿，多级矢量量化中的一部分码簿，在男声用和女声用的多个码簿之间切换。还可以把多个帧的数据汇集起来进行矩阵量化，来代替矢量量化。另外，应用本发明的声音编码方法并不局限于利用码激励的线性预测编码方法，还可以应用在有声音的部分中采用正弦波合成，根据噪声信号合成无声音部分的各种声音编码方法；作为用途，也并不局限于传送和记录再生，当然可以应用于音调变换和速度变换、基本声音的合成、或者噪声抑制等各种用途。

产业上利用的可能性

从以上说明可知，在与本发明有关的声音编码方法中，把声音信号多个特性参数中的一个或多个的组合作为基准参数，与该基准参数有关，设置把表示短期预测值的参数分成两个部分而形成的第一和第二码簿。而且，根据输入声音信号产生短期预测值，与输入声音信号的基准参数有关，选择第一和第二码簿之一，通过参照该选定的码簿、把短期预测值量化，进行输入声音信号编码。因此，可以提高量化效率，可以谋求不提高传送比特率而改善质量，或者，能够在抑制质量劣化的同时，进一步降低传送比特率。

权利要求书

按照条约第19条的修改

1.一种声音编码装置，其特征在于，具有：

根据输入声音信号，产生短期预测系数的短期预测装置；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，把表示短期预测系数的参数分成多个部分而形成的多个码簿；

与所述输入声音信号的所述基准参数有关，选择所述多个码簿之一的选择装置；

参照利用所述选择装置选定的码簿，把所述短期预测系数量化的量化装置；

其中，利用来自所述量化装置的量化值，使激励信号最佳化。

2.根据权利要求1所述的声音编码装置，其特征在于，所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。

3.根据权利要求1所述的声音编码装置，其特征在于，所述量化装置把所述短期预测系数矢量量化。

4.根据权利要求1所述的声音编码装置，其特征在于，所述量化装置把所述短期预测系数矩阵量化。

5.根据权利要求1所述的声音编码装置，其特征在于，

所述基准参数为声音信号的音调值；

所述选择装置根据所述输入声音信号的音调值与给定音调值的大小关系，选择所述多个码簿之一。

6.根据权利要求1所述的声音编码装置，其特征在于，所述多个码簿包括男声用码簿和女声用码簿。

7.一种声音编码方法，其特征在于，

根据输入声音信号，产生短期预测系数；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，设置把表示短期预测系数的参数分成多个部分而形成的多个码簿；

与所述输入声音信号的所述基准参数有关，选择所述多个码簿之一，

参照所述选定的码簿，把所述短期预测系数量化；

利用所述短期预测系数的量化值，使激励信号最佳化。

8.根据权利要求7所述的声音编码方法，其特征在于，所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。

9.根据权利要求7所述的声音编码方法，其特征在于，通过把所述短期预测系数矢量量化，对所述输入声音信号进行编码。

10.根据权利要求7所述的声音编码方法，其特征在于，通过把所述短期预测系数矩阵量化，对所述输入声音信号进行编码。

11.根据权利要求7所述的声音编码方法，其特征在于，所述基准参数为声音信号的音调值，根据所述输入声音信号的音调值与给定音调值的大小关系选择所述多个码簿之一。

12.根据权利要求7所述的声音编码方法，其特征在于，所述多个码簿包括男声用码簿和女声用码簿。

13.一种声音编码装置，其特征在于，具有：

根据输入声音信号，产生短期预测系数的短期预测装置；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，把表示短期预测系数的参数分成多个部分而形成的第一多个码簿；

与所述输入声音信号的所述基准参数有关，选择所述第一多个码簿之一的选择装置；

参照由所述选择装置选定的码簿，把所述短期预测系数量化的量化装置；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，根据分成了多个部分的练习数据分别形成的与由所述选择装置选择第一多个码簿的同时选择其一的第二多个码簿；

根据来自所述量化装置的量化值，合成与所述第二多个码簿的选定码簿的输出有关的激励信号的合成装置；

根据所述合成装置的输出，使所述激励信号最佳化。

14.根据权利要求13所述的声音编码装置，其特征在于，所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。

15.根据权利要求13所述的声音编码装置，其特征在于，所述量化装置把所述短期预测系数矢量量化。

16.根据权利要求13所述的声音编码装置，其特征在于，所述量化装置把所述短期预测系数矩阵量化。

17.根据权利要求13所述的声音编码装置，其特征在于，

所述基准参数为声音信号的音调值；

所述选择装置根据所述输入声音信号的音调值与给定音调值的大小关系，选择所述第一多个码簿之一。

18.根据权利要求13所述的声音编码装置，其特征在于，所述第一和第二多个码簿分别包括男声用码簿和女声用码簿。

19.一种声音编码方法，其特征在于，

根据输入声音信号，产生短期预测系数；

把声音信号多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，设置把表示短期预测系数的参数分成多个部分而形成的第一多个码簿；

与所述输入声音信号的所述基准参数有关，选择所述第一多个码簿之一；

参照所述选定的码簿，把所述短期预测系数量化；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，设置根据分成了多个部分的练习数据分别形成的、与选择所述第一多个码簿的同时选择其一的第二多个码簿；

根据所述短期预测系数的量化值，合成与所述第二多个码簿的选定码簿的检测有关的激励信号，使所述激励信号最佳化。

20.根据权利要求19所述的声音编码方法，其特征在于，所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频率的斜率。

21.根据权利要求19所述的声音编码方法，其特征在于，通过把所述短期预测系数矢量量化，对所述输入声音信号进行编码。

22.根据权利要求19所述的声音编码方法，其特征在于，通过把所述短期预测系数矩阵量化，对所述输入声音信号进行编码。

23.根据权利要求19所述的声音编码方法，其特征在于，所述基准参数为声音信号的音调值，根据所述输入声音信号的音调值与给定音调值的大小关系，选择所述第一多个码簿之一。

24.根据权利要求19所述的声音编码方法，其特征在于，所述第一和第二多个码簿分别包括男声用码簿和女声用码簿。

Claims

1.一种声音编码方法，其特征在于，

根据输入声音信号，产生短期预测值；

把声音信号的多个特性参数中的一个或多个的组合作为基准参数，与所述基准参数有关，设置把表示短期预测值的参数分成两个部分而形成的第一和第二码簿；

与所述输入声音信号的所述基准参数有关，选择所述第一和第二码簿之一；

通过参照所述选定的码簿，使所述短期预测值量化，对所述输入声音信号进行编码。

2.根据权利要求1所述的声音编码方法，其特征在于，所述短期预测值为短期预测系数。

3.根据权利要求1所述的声音编码方法，其特征在于，所述短期预测值为短期预测误差。

4.根据权利要求1所述的声音编码方法，其特征在于，所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。

5.根据权利要求1所述的声音编码方法，其特征在于，把所述短期预测值矢量量化，借此，对所述输入声音信号进行编码。

6.根据权利要求1所述的声音编码方法，其特征在于，把所述短期预测值矩阵量化，借此，对所述输入声音信号进行编码。

7.根据权利要求1所述的声音编码方法，其特征在于，所述基准参数为声音信号的音调值，根据所述输入声音信号的音调值与给定音调值的大小关系，选择所述第一和第二码簿之一。