CN1364290A

CN1364290A - 用于声频编码的拉盖尔函数

Info

Publication number: CN1364290A
Application number: CN01800515A
Authority: CN
Inventors: A·W·J·奥门; A·C·登布林克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-03-15
Filing date: 2001-03-05
Publication date: 2002-08-14
Anticipated expiration: 2021-03-05
Also published as: ES2292581T3; EP1190415A1; US20050187760A1; EP1190415B1; DE60129771D1; JP2003527632A; US6925434B2; KR100780561B1; DE60129771T2; US20010032087A1; US7499852B2; ATE369600T1; CN1154975C; KR20010113950A; WO2001069593A1; JP4803938B2

Abstract

本发明提供了一种对声频信号的编码(1),其包括估算(110)瞬变信号分量在声频信号中的位置,如果瞬变信号分量是在初始增长之后逐渐衰减,则给瞬变信号分量匹配(111,112)波形函数,其中波形函数具有实质上指数最初特性和实质上对数衰减特性;并且将描述波形函数的位置和波形参数包括(15)在声频流(AS)中。

Description

用于声频编码的拉盖尔函数

本发明涉及声频信号的编码，其中对瞬变信号分量进行编码。

本发明进一步涉及声频信号的解码。

本发明还涉及声频信号编码器、声频信号播放装置、声频系统、声频流以及存储介质。

Purnhagen和Edler的论文“Objektbasierter Analyse/Synthese Audio Coder für sehr niedrige Datenraten”，ITG Fachbericht 1998，No.146，pp.35-40披露了一种低位速率的声频信号的编码装置。使用一种基于模型的分析合成设备，其中将输入信号分成三部分：单正弦信号、谐音以及噪音。该输入信号进一步分成32ms的固定的帧。对所有的块与信号部分，基于源模型获得参数。由输入信号获得一个包络函数a(t)且将其施加于选定的正弦信号上，可改进对瞬变信号部分的表达。该包络函数由r_atk、r_dec、t_max参数确定的两个线段组成(如图1所示)。

本发明的目的是提供在位速率与音质方面具有优势的声频编码。为了达到这个目的，本发明提供了一种编码与解码方法、声频信号编码器、声频信号播放装置、声频系统、声频流以及存储介质(如独立权利要求所限定的)。在从属权利要求中限定了有利的实施例。

本发明的第一个实施例包括估算瞬变信号分量在声频信号中的位置，给瞬变信号分量匹配一个波形函数，所述瞬变信号分量在初始增长后逐渐衰减，其波形函数具有实质上指数的最初特性和实质上对数的衰减特性；并且将位置与描述波形函数的参数包括在声频流中。这样一种函数具有实质上依照tⁿ的最初特性和实质上依照e^-at的初始增长后的衰减特性，其中t是时间，而n与a是描述波形函数波形的参数。本发明是基于如下了解的：这样一种函数给出了对瞬变信号分量更好的表述，而该功能可以用很少数目的参数表达，其在位速率与音质方面具有优势。在瞬变信号分量从持续信号分量中分离编码的实施例中本发明是更为有优势的，因为在这些实施例中，对瞬变信号分量的一种好的表述尤其重要。

依照本发明的另一个方面，波形函数是一种拉盖尔函数，其以连续的时间给出为

c·tⁿe^-at (1)

其中c是定标参数(其可为1)。在实际实施例中，使用时间离散的拉盖尔函数。

瞬变信号分量可以理解为功率(或振幅)电平的突然变化或者波形型式的突然变化。如此检测瞬变信号分量在本领域中是公知的。例如，在J.Kliewer与A.Mertins的“Audio subband coding with improved representation of transient signal segments”，Proc.Of EUSIPCO-98，Signal Processing IX，Theories and applications，Rhodos，Greece，1998年9月，第2345-2348页中，披露了一种基于冲击起始位置之前与之后的能级差的瞬变检测装置。在依照本发明的实际实施例中，考虑到了波幅电平的突然变化。

在本发明的一个优选实施例中，波形函数是广义离散的拉盖尔函数。Meixner及Meixner之类的函数用于实际使用且能得到非常好的结果。这样的函数在A.C.den Brinker的“Meixner-like functions having a rational z-transform”，Int.J.Circuit Theory Appl.，23，1995，第237-246页中有所讨论。这些波形函数的参数可由简单的途径获取。

在本发明的另一个实施例中，波形参数包括音阶表示，瞬变信号分量是类似音阶的振幅变化。类似音阶变化之后的信号优选地用持续编码器(sustainedcoder)编码。

在本发明的另一个优选实施例中，瞬变信号分量的位置是起始位置。为自适应的组帧给出瞬变信号分量的起始位置是方便的，其中帧起始于瞬变信号分量的起始位置。起始位置既用于波形函数也用于自适应的组帧，从而其导致有效编码。如果给出起始位置，就不需要像Edler描述的实施例中必需的那样合并两个参数以确定起始位置了。

本发明上述的与其他方面将通过结合下文描述的实施例来阐明。

在附图中：

图1显示一种已经讨论过的已知包络函数；

图2显示依照本发明的声频信号编码器的实施例；

图3显示依照本发明的波形函数的例子；

图4显示输入声频信号的一阶与二阶连续的中心矩的图；

图5显示为输入声频信号获取的波形函数的例子；

图6显示依照本发明的声频信号播放装置的实施例；

和

图7显示一个包括声频信号编码器与声频信号播放装置的系统；

附图仅仅显示那些为理解本发明所必需的部分。

图2显示依照本发明的声频信号编码器1，包括用于获得输入声频信号x(t)的输入单元10。声频信号编码器1将输入信号分成三部分：瞬变信号分量、持续的确定性分量以及持续的随机分量。声频信号编码器1包括瞬态编码器11、正弦编码器13以及噪音编码器14。声频信号编码器可任选地包括增益压缩装置(GC)12。

在本发明的这个优选实施例中，在持续编码之前执行瞬态编码。这是因为持续编码器对瞬变信号分量不是有效的和最佳的选择。假设将持续编码器用于对瞬变信号分量编码，需要许多编码努力，例如可以想象得到仅用持续的正弦难于对瞬变信号分量进行编码。因此，在持续编码之前从要编码的声频信号中去除瞬变信号分量是有利的。将在瞬态编码器获取的瞬变初始位置用于持续编码器，以实现自适应的分段(自适应组帧)，其导致进一步提高持续编码性能。

瞬态编码器11包括瞬态检测器(TD)110、瞬态分析器(TA)111以及瞬态合成器(TS)112。首先，信号x(t)进入瞬态检测器110。这个瞬态检测器110测定其中是否存在瞬变信号分量以及存在于什么位置。将这个信息馈送给瞬态分析器111。这个信息也可用于正弦编码器13以及噪音编码器14，以获取有利的信号诱导的(signal-induced)分段。如果确定了瞬变信号分量的位置，则瞬态分析器111设法析取瞬变信号分量(的主要部分)。给优选地开始于估算的起始位置的信号片段匹配一个波形函数，且确定在波形函数形式下的内容，例如一定数量的(少量的)正弦分量。这个信息包含在瞬态编码C_T中。瞬态编码C_T供给瞬态合成器112。在减法器16中从输入信号x(t)中减去合成的瞬变信号分量，得到信号x₁。如果忽略GC12，则x₁＝x₂。将信号x₂供给正弦编码器13，其中，在正弦分析器(SA)130中分析信号x₂，确定(确定的)正弦分量。这个信息包含在正弦编码Cs中。从正弦编码Cs，正弦合成器(SS)131重建正弦信号分量。在减法器17中从正弦编码器13的输入x₂中减去这个信号，得到除去了(大量的)瞬变信号分量和(主要的)确定的正弦分量的剩余信号x₃。因此，剩余信号x₃中主要包括噪音。在噪音分析器(NA)14中依照ERB表(ERB scale)分析它的功能成分。噪音分析器14生成噪音编码C_N。与正弦编码器13中的情况类似，噪音分析器14也能将瞬变信号分量起始位置用为新的分析块的起始位置。正弦分析器130和噪音分析器14的片段大小不需要相等。在乘法器15中构成声频流AS，其包括编码C_T、Cs和C_N。声频流AS供给例如数据总线、天线系统、存储介质等。

下面，将讨论依照本发明的瞬变信号分量的表达。在这个实施例中，瞬态分量C_T的编码包含参数波形加上在波形下的附加主频分量(或其他成分)或者标识类似音阶变化的编码。依照本发明的优选实施例，在最初增加后逐渐衰减的瞬态波形函数，优选的是广义的离散的拉盖尔函数。对于其他类型的瞬变信号分量，可以使用其他函数。

广义的的离散的拉盖尔函数的一个例子是Meixner函数。给出离散的零阶Meixner函数g(t)：

g (t) = \sqrt{\frac{{(b)}_{t}}{t!}} {(1 - ξ^{2})}^{b / 2} ξ^{t} . . . . . (2)

其中t＝0，1，2，…而(b)_t＝b(b+1)…(b+t-1)是Pochhammer符号。参数b表示广义的阶数(b＞0)且确定了关于小t的函数：近似f∝t^(b-1)/2的初始波形。参数ξ表示在0＜ξ＜1范围的极点且确定了对大t的衰减。函数g(t)对于所有t的取值都是正函数。对b＝1，得到一个离散的拉盖尔函数。而且，对b＝1，g的z变换是有z的有理函数，且因此能够实现为一阶无限冲激响应(IIR)滤波器的脉冲响应。对于b的所有其他取值，没有有理z变换。对函数g(t)进行能量归一化，即

。可以通过下式递归建立零阶拉盖尔函数：

g(0)＝(1-ξ²)^b/2 (3)

其中t＞0(4)

在依照本发明的另一个实施例中，使用Meixner之类的函数，因为它们具有有理z变换。图3显示了Meixner之类函数的一个例子。离散的零阶Meixner函数h(t)的z变换给出如下：

H (z) = C_{a} {[\frac{z}{z - ξ}]}^{a + 1} . . . . . . . (5)

其中a＝0，1，2，…而通过下式给出C_a：

C_{a} = \frac{{(1 - ξ^{2})}^{a + 1 / 2}}{\sqrt{Σ_{n = 0}^{a} {[\begin{matrix} a \\ n \end{matrix}]}^{2} ξ^{2 n}}} = \frac{{(1 - ξ^{2})}^{(a + 1) / 2}}{\sqrt{P_{a} [\frac{1 + ξ^{2}}{1 - ξ^{2}}]}} . . . . . (6)

其中P_a是a阶勒让德(Legendre)多项式，给出如下式：

P_{a} (q) = \frac{1}{2^{a} a!} \frac{d^{a}}{{dq}^{a}} {(q^{2} - 1)}^{a} . . . . . (7)

参数a表示推广阶数(a是非负整数)且ξ是0＜ξ＜1范围内的极点。参数a确定了关于小t的函数：f∝t^a的初始波形。参数ξ确定了对大t的衰减。函数h对于所有t的取值都是正函数，且对函数h进行能量归一化。对于所有a的取值，函数h具有有理z变换，且能够实现为(a+1阶的)无限冲激响应(IIR)滤波器的脉冲响应。

函数h(t)能以有限的离散的拉盖尔级数方式表达为：

h (t) = Σ_{m = 0}^{a} B_{m} φ_{m} (t) . . . . . . . (8)

其中φ_m是离散的拉盖尔函数，参见A.C.den Brinker的论文。给出B_m如下式：

B_{m} = C_{a} \frac{ξ^{m}}{{(1 - ξ^{2})}^{a + 1 / 2}} [\begin{matrix} a \\ m \end{matrix}] . . . . (9)

给出的函数f(t)的一阶和二阶连续的中心矩(running central moments)表示如下：

T_{1} (k) = \frac{Σ_{t = k_{0}}^{t = k} (t - k_{0}) f^{2} (t)}{Σ_{t = k_{0}}^{t = k} f^{2} (t)} . . . . . (10)

T_{2} (k) = \sqrt{\frac{Σ_{t = k_{0}}^{t = k} {(t - k_{0} - T_{1} (k))}^{2} f^{2} (t)}{Σ_{t = k_{0}}^{t = k} f^{2} (t)}} . . . . . (11)

其中k₀是瞬变信号分量的起始位置。

通过对输入声频信号(在公式10与11中使f(t)＝x(t))的连续中心矩T₁和T₂的良好估算，可以推导出波形参数。遗憾的是，在实际数据中瞬变信号分量通常跟随着一个持续的激励阶段，干扰对连续矩的可能的检测。图4显示了输入声频信号的一阶和二阶连续中心矩。图4显示，连续的矩从设定的起始位置开始是线性增加的而过后就趋于饱和。尽管由这个曲线能推导出波形参数，因为该饱和没有达到参数析取所需要的清楚的要求，即，它不够清楚因而无法得到T₁和T₂的k的良好估算。在本发明的一个优选实施例中，用连续的矩T₁和T₂的初始增长比率来计算波形参数。由于b确定波形的初始特性，这种测量方法在确定b时(和在零阶Meixner函数a中时)是有利的。从连续的矩T₁和T₂的斜度比率得到对b的良好估算。从已经得到的达到极好程度的模拟结果可知，在斜度T₁/斜度T₂的比率和参数b之间存在线性关系，与拉盖尔函数相比，很少依靠衰减参数ξ。可以表述为下式(从实验得来的)：

对Meixner：斜度T₁/斜度T₂＝b+1/2 (12)

对Meixner之类：斜度T₁/斜度T₂＝2a+3/2 (13)

其中忽略了对ξ的依赖。因为k＝k₀时T₁和T₂为零，对于适当的k值斜度T₁/斜度T₂可近似为T₁/T₂。

波形的极点ξ可通过下述方式计算。一个二阶多项式适合连续的中心矩例如T₁。这个多项式适合具有观测时间T的T₁的信号片段，因此整平是清晰可见的，即多项式中的清楚的二阶项适合于T。接着，将该二阶多项式外推到它的最大范围处且设定这个值为T₁的饱和电平。由这个关于T₁和b的值，使用公式2和10代入f(t)＝g(t)计算ξ。对于Meixner之类的函数，由这个关于T₁和a的值，使用公式8-10代入f(t)＝h(t)计算ξ。

计算衰减参数ξ的步骤如下：

用T的某个值开始

给0至T之间的数据匹配一个二阶多项式，即T₁(t)≈c₀+c₁t+c₂t²，其中t＝[0，T]，其中c_0，1，2是适当的参数

检查这个多项式的二次项在t＝T时是否满足：

T₁(T)＜(1-ε)(c₀+c₁T)，其中ε代表二次项在t＝T时的相对的成分。

如果满足这个条件，那么将T₁(t)外推至最大值且使这个外推等于T₁：

T_{1} = c_{0} - \frac{{c_{1}}^{2}}{4 c_{2}}

由T₁和b(或a)计算衰减参数ξ

对于Meixner之类的函数，波形参数a优选地取为整数值。

图5显示一个为输入声频信号导出波形函数的例子。

尽管前处理不是本发明所必需的，但为了得到波形的第一近似，执行一些前处理，例如执行数据的Hilbert变换。

当连续的矩饱和值大时，即按照片段/帧长度的次序，去除Meixner(之类的)波形。当瞬变是类似音阶的波幅变化情况时，保持瞬变的位置，用以在正弦编码器和噪音编码器中获得适当的分段。

起始位置之后且已经检测到瞬变波形，估算在该波形形式下的信号成分。估算在该波形下的一定(少量)数量的正弦信号。通过本领域公知的综合分析步骤完成这些工作。用于估算正弦信号的数据，是只将瞬变包括在内但不包括随后发生的持续响应的片段。因此，该数据在进入综合分析方法之前使用时间窗。本质上，所考虑的信号从起始位置延伸到某个采样点，在那里波形减小为其最大值的特定百分比。窗口数据可转换到频率域，例如通过离散傅立叶变换(DFT)。为了消除估计可能在估算的瞬变之后延伸的低频成分，还应用在该频率域的窗口。然后确定最大限度的响应以及与最大限度的响应相联系的频率。用这个频率调制估算的波形，且依照某些预定的标准例如音质模型或用最小二乘方感觉(least-squares sense)方式对数据作出最可能的拟合。从原始的瞬变中减去这个估算的瞬变片段，且重复这个步骤直至超出了最大数目的正弦波分量或者在片段中几乎没有任何能量剩余为止。实质上，瞬变可表达为经过调制的Meixne函数的总和。在实际实施例中，估算6个正弦波。假设隐含的成分主要包含噪音，则使用噪音估算，或者给出任意值的正弦波频率。

瞬态编码C_T包含瞬变的起始位置以及瞬变的类型。瞬变为Meixner(之类的)波形的情况下的编码包含：

瞬变的起始位置

波形是Meixner(之类的)函数的标识

波形参数b(或a)以及ξ

调制项：用于正弦(余弦)调制波形的N_F频率参数和振幅

瞬变实质上是波幅电平的突然增加，在起始位置之后不久波幅电平(相对地)没有明显的衰退，该瞬变不能用Meixner(之类的)波形编码。假使那样，保持初始位置以获取适当的信号分段。对音阶瞬变的编码包含：

瞬变的起始位置

音阶的标识

通过在信号分段中使用瞬变位置，提高了随后的持续编码阶段(正弦波与噪音)的性能。正弦编码器与噪音编码器开始于在检测到的瞬变位置的新帧。通过这种方法，可以避免信号部分的平均表现出的不稳定特性。其意思是，在瞬变片段之前的片段不得不缩短、偏移或与前面的帧连在一起。

依照本发明的声频信号编码器1可任选地包括增益控制装置12，所述增益控制装置12位于持续编码器13与14之前。阻止波幅电平改变对持续编码器是有利的。对于音阶瞬变，通过使用依照瞬变分段来解决这个问题。对于用波形表达的瞬变，通过从输入信号中析取瞬变来部分地解决这个问题。剩余信号仍可能包含波幅电平的有意义的动态变化，大概波形与估算的波形相似。为了使剩余信号变平，可使用增益控制装置。压缩率可限定为：

gc (t) = \frac{1}{1 + dh (t)} . . . . . . (12)

其中h(t)是估算的波形，而d是描述压缩率的参数。增益控制装置表现出在瞬变之后，出现一个波幅偏移量达到估算波形最大值的约0.2倍的平稳阶段。通过下式限定比率r：

r = \frac{M_{r} - 0.2 M_{e}}{0.2 M_{e}} . . . . . . . (13)

其中Mr是剩余信号的最大值。

当r＞2时压缩率参数d等于r，其他情况下d等于0。对于该压缩，只有d需要转换。

图6显示依照本发明的声频信号播放装置3。声频流AS’，例如通过依照图2的编码器生成的，是从数据总线、天线系统、存储介质等处获取的。声频流AS在多路信号分解器30进行信号分离，以获取编码C_T’、Cs’和C_N’。这些编码分别供给瞬态分析器31、正弦分析器32以及噪音分析器33。在瞬态分析器31由瞬态编码C_T’计算出瞬变信号分量。假设瞬态编码标识为波形函数，则基于获取的参数计算该波形。而且，基于频率与正弦波分量的波幅计算波形成分。如果瞬态编码标识为音阶，则没有瞬变计算。总瞬变信号γ_T是所有瞬变的总和。

如果使用解压参数d，即来源于编码器1且包含在声频流AS’中的d，则使用解压装置34。增益信号g(t)预置为1，且计算所有不同的解压因子的乘积作为总波幅解压因子。如果瞬变是音阶，则不计算波幅解压因子。

由两个连续的瞬变位置，计算为正弦分析器SS32和噪音分析器NS33所作的分段。正弦编码Cs用于生成信号γ_S，表示在给定的片段上的正弦波总和。噪音编码C_N用于生成信号γ_N。通过例如交叠相加的方法将连续的片段加起来。

总信号γ(t)包含：瞬变信号γ_T的总和；和波幅解压的乘积g；和正弦信号γ_S的总和；和噪音信号γ_N。声频信号播放装置包括两个加法器36与37，对相应的信号求和。总信号供给输出单元35，例如扬声器。

图7显示依照本发明的声频系统，其包括如图2所示的声频信号编码器1和如图6所示的声频信号播放装置3。这样一个系统具有播放和录制功能。声频流AS由编码器通过通信信道2供给声频信号播放装置，通信信道2可以是无线电连接、数据总线或存储介质。如果通信信道2是存储介质，存储介质可以是固定在系统中的，也可以是可移动的磁盘、内存条等。通信信道2可以是声频系统的一部分，但是常常在声频系统的外面。

应该注意到上面提到的实施例对本发明起到的作用是说明而不是限制，且应该注意到本领域普通技术人员能够设计出不背离附加的权利要求书范围的可替换的实施例。在权利要求书中，任何放置在括号中的附图标记对权利要求没有限定作用。“包括”一词并不暗示除了列在权利要求中的那些还存在其他组成成分或步骤。实施本发明可以借助于包括若干确切组成部分的硬件，以及可以借助于合适的程控计算机。在一个列举了若干装置的装置权利要求中，这些装置中的若干可用一个同一硬件具体化。一个简单的事实是，在互不从属的权利要求中详述的特定措施不表明不能使用这些措施的组合以产生有益效果。

总之，本发明提供了声频信号的编码与解码，其包括：估算瞬变信号分量在声频信号中的位置，如果瞬变信号分量是在初始增长之后逐渐衰减则给瞬变信号分量匹配波形函数，其中波形函数具有实质上指数最初特性和实质上对数衰减特性；并且将描述波形函数的位置与参数包括在声频流中。

Claims

1.一种对声频信号(x)进行编码(1)的方法，该方法包括以下步骤：

估算(110)瞬变信号分量在声频信号中的位置；

如果瞬变信号分量是在初始增长之后逐渐衰减则给瞬变信号分量匹配(111，112)波形函数，其中波形函数具有实质上指数最初特性和实质上对数衰减特性；以及

将描述波形函数的位置及波形参数包括(15)在声频流(AS)中。

2.一种权利要求1所述的方法，其中波形函数是拉盖尔函数或广义的离散拉盖尔函数。

3.一种权利要求2所述的方法，其中波形函数是Meixner函数或Meixner之类的函数。

4.一种权利要求2所述的方法，其中至少一个波形参数是通过声频信号(x)的一阶矩与二阶矩的斜度比率来确定的。

5.一种权利要求1所述的方法，其中如果瞬变信号分量是类似音阶的波幅变化，则波形函数包括音阶标识。

6.一种权利要求1所述的方法，其中瞬变信号分量的位置是起始位置。

7.一种权利要求1所述的方法，该方法还包括：

在增益控制装置中通过使用波形函数平整一部分声频信号，所述一部分声频信号供给至少一个持续的编码阶段。

8.对声频流进行解码的方法，该方法包括以下步骤：

在给定位置生成(31)一个瞬变信号分量；以及

基于获得的波形参数计算(31)波形函数，其中波形参数具有实质上指数最初特性和实质上对数衰减特性。

9.声频信号编码器(1)，其包括：

用于估算(110)在声频信号中瞬变信号分量位置的装置；

在瞬变信号分量是在初始增长之后逐渐衰减的情况下，用于给瞬变信号分量匹配(111，112)波形函数的装置，其中波形函数具有实质上指数最初特性和实质上对数衰减特性；以及

用于将描述波形函数的位置及波形参数包括(15)在声频流(AS)中的装置。

10.声频信号播放装置(3)，其包括：

用于在给定位置生成(31)瞬变信号分量的装置；

用于基于获得的波形参数计算(31)波形函数的装置，其中波形函数具有实质上指数最初特性和实质上对数衰减特性。

11.声频系统，其包括如权利要求9所述的声频信号编码器(1)和如权利要求10所述的声频信号播放装置(3)。

12.声频流(AS)包括：

瞬变信号分量的位置；和

描述波形函数的波形参数，其中波形函数具有实质上指数最初特性和实质上对数衰减特性。

13.存储介质(2)，如权利要求12所述的声频流(AS)存储在其中。