CN102163429A

CN102163429A - 用于处理去相干信号或组合信号的设备和方法

Info

Publication number: CN102163429A
Application number: CN2011100628002A
Authority: CN
Inventors: 克利斯托夫·克约尔灵; 拉斯·维勒莫斯; 卓尔根·赫瑞; 萨斯查·迪斯查
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Dolby International AB
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Dolby International AB; Dolby Sweden AB
Priority date: 2005-04-15
Filing date: 2006-04-05
Publication date: 2011-08-24
Anticipated expiration: 2026-04-05
Also published as: JP2008536183A; WO2006108543A1; CN101138274B; ATE421845T1; TW200705804A; MY144377A; DE602006004959D1; JP4804532B2; EP1829424B1; HK1118168A1; KR100933548B1; CN102163429B; CN101138274A; EP1829424A1; US7983424B2; TWI338446B; WO2006108543A9; HK1160980A1; US20060239473A1; KR20070102738A

Abstract

本发明涉及用于处理去相干信号或组合信号的设备和方法，当频谱平整器在使用平整的频谱得到描述在平整的频谱之间的能量分布的增益因子之前用来对去相干信号和原始信号的频谱进行频谱平整时，以及当这样得到的增益因子被包络整形器用来对去相干信号的包络进行时间整形时，从原始信号得到的去相干信号的时间包络可以被整形而不会引入附加失真。

Description

用于处理去相干信号或组合信号的设备和方法

本发明专利申请是申请号200680005564.8、国际申请日为2006年4月5日、发明名称为“去相干信号的包络整形”(国际申请号为PCT/EP2006/003097)的发明专利申请的分案申请。

技术领域

本发明涉及信号的时间包络整形，具体来说，涉及在重建立体声或多声道音频信号期间从下混频信号和附加控制数据得到的去相干信号的时间包络整形。

背景技术

音频编码中最新的进展使人们能够根据立体声(或单)信号和相应的控制数据重建音频信号的多声道表现。这些方法大大地不同于较早的基于矩阵的解决方案，诸如Dolby Prologic(杜比定向逻辑解码器)，因为附加控制数据被发送用来根据发送的单声道或立体声声道控制环绕声道的重建，也称为上混频。这样的参数性多声道音频解码器根据M个发送的声道和附加控制数据重建N个声道，其中N＞M。使用附加控制数据造成比起发送所有的N个声道低得多的数据速率，使得编码非常有效，而同时保证与M声道设备和N声道设备的兼容性。M声道可以是单个单声道、立体声声道、或5.1声道表现。因此，有可能具有7.2声道原始信号，被下混频到5.1声道后向兼容的信号，和空间音频参数，使得空间音频解码器能够以小的附加比特率开销重现原始7.2声道的非常相似的版本。

这些参数性环绕编码方法通常包括根据时间和频率变量ILD(信道间电平差)和ICC(信道间相干性)量的环绕信号的参数化。这些参数例如描述在原始多声道信号的声道对之间的功率比率和相干性。在解码器处理时，通过分布在由发送的ILD参数描述的所有声道对之间的接收的下混频声道的能量而得到重新创建的多声道信号。然而，由于多声道信号可以具有在所有的声道之间的等功率分布，虽然在不同的声道中的信号是非常不同的，因此给出非常大范围的声音的收听感觉，通过把信号与该信号的去相干的版本混频，得到正确的宽广度，正如ICC参数描述的。

信号的去相干的版本，常常称为湿信号，是通过将信号(也称为干信号)传送通过诸如全通滤波器那样的交混回响器而得到的。来自去相干器的输出具有通常是非常平坦的时间响应。因此，狄拉克输入信号给出衰减的噪声突发输出。当混频去相干的信号和原始信号时，对于某些瞬时信号类型、如鼓掌欢呼信号来说，重要的是对去相干信号的时间包络进行整形，以更好地匹配于干信号的时间包络。无法做到这一点，则由于前回声型的人工产物，将导致较大的房间尺寸和不自然的声音瞬态变化的感觉。

在其中多声道重建是在具有低时间分辨率的频率变换域中完成的系统中，可以利用时间包络整形技术，类似于用于对量化噪声进行整形所使用的技术，诸如感知的音频编码解码器、如MPEG-4 AAC的时间噪声整形[J.Herre和J.D.Johnston，“Enhancing the performanceof perceptual audio coding by using temporal noise shaping(TNS)”，in 101^st AES Convention，Los Angeles，November 1996]。这是借助于在频率采样点的预测而完成的，其中时间包络是通过在频率方向上对干信号的线性预测而估计出来的，并且所得到的滤波器再次在频率方向上被施加到湿信号。

人们例如可以考虑延时线作为去相干器，以及诸如鼓掌欢呼或开枪那样的强瞬变信号作为要被上混频的信号。当没有执行包络整形时，信号的延时的版本与原始信号相组合，以重建立体声或多声道信号。这样，瞬变信号在上混频信号中出现两次，分开延时，造成不想要的回声型效应。

为了对特别关键的信号达到好的结果，去相干信号的时间包络需要以非常高的时间分辨率整形，这样，通过将它的能量减小到在当时被包含在载波信道中的能量，而抵消瞬变信号的延时回声，或者屏蔽它。

去相干信号的这个宽带增益调节可以在短到1ms的窗口上完成[美国专利申请，“Diffuse Sound Shaping for BCC Schemes and theLike”，No.11/006492，12/7/2004]。对于去相干信号的增益调节的这种高的时间分辨率不可避免地导致附加失真。为了使得对于非关键信号的附加失真最小化，即，其中去相干信号的时间整形不是至关重要的，在编码器或解码器中引入检测机制，它按照某种预定的标准接通或关断时间整形算法。缺点在于，该系统会变得对于检测器调谐极其敏感。

在以下说明中，术语去相干信号或湿信号被用于下混频信号的可能的增益调节的(按照ILD和ICC参数)去相干的版本，以及术语下混频信号、直接信号或干信号被用于可能的增益调节的下混频信号。

在现有技术实施方案中，高时间分辨率增益调节，即基于短到毫秒的干信号的采样的增益调节，导致对于非关键的信号的很大的附加失真。这些是具有平滑的时间演变的非瞬变信号，例如音乐信号。对于这样的非关键信号的关断增益调节的现有技术方法引入音频感知质量对于预测机制的新的和强的依赖性，这当然是最不利的，并且当检测失败时，这甚至会引入附加失真。

发明内容

本发明的目的是提供这样一种概念：对去相干信号的包络更有效地进行整形，避免引入附加信号失真。

按照本发明的第一方面，这个目的是借助于用于一种处理从原始信号得到的去相干信号或通过组合原始信号与去相干信号而得到的组合信号的设备达到的，该设备包括：频谱平整器，用于对于去相干信号、从去相干信号得到的信号、原始信号、从原始信号得到的信号、或组合信号进行频谱平整，以得到平整的信号，频谱平整器用来使得平整信号比起在平整之前的相应信号有更平坦的频谱；以及时间包络整形器，用于通过使用关于平整信号的信息对去相干信号或组合信号进行时间包络整形。

按照本发明的第二方面，这个目的是借助于一种空间音频解码器达到的，该空间音频解码器包括：输入接口，用于接收从具有至少两个声道的多声道信号得到的原始信号和用于接收描述在多声道信号的第一声道与第二声道之间的相互关系的空间参数；去相干器，用于使用空间参数从原始信号得到去相干信号；频谱平整器，用于对于去相干信号、从去相干信号得到的信号、原始信号、从原始信号得到的信号、或组合信号进行频谱平整，以得到平整的信号，频谱平整器用来使得平整信号比起在平整之前的相应信号有更平坦的频谱；以及时间包络整形器，用于使用关于平整信号的信息对去相干信号或组合信号进行时间包络整形。

按照本发明的第三方面，这个目的是借助于一种具有用于处理从原始信号得到的去相干信号或通过组合原始信号与去相干信号而得到的组合信号的设备的接收机或音频播放器达到的，包括：频谱平整器，用于对于去相干信号、从去相干信号得到的信号、原始信号、从原始信号得到的信号、或组合信号进行频谱平整，以得到平整的信号，频谱平整器用来使得平整信号比起在平整之前的相应信号有更平坦的频谱；以及时间包络整形器，用于使用关于平整信号的信息对去相干信号或组合信号进行时间包络整形。

按照本发明的第四方面，这个目的是借助于一种用于处理从原始信号得到的去相干信号或通过组合原始信号与去相干信号而得到的组合信号的方法达到的，该方法包括：对于去相干信号、从去相干信号得到的信号、原始信号、从原始信号得到的信号、或组合信号进行频谱平整，以得到平整的信号，平整的信号比起在平整之前的相应信号有更平坦的频谱；以及使用关于平整信号的信息对去相干信号或组合信号进行时间包络整形。

按照本发明的第五方面，这个目的是借助于一种接收或音频播放的方法达到的，该方法具有用于处理从原始信号得到的去相干信号或通过组合原始信号与去相干信号而得到的组合信号的方法，该方法包括：对于去相干信号、从去相干信号得到的信号、原始信号、从原始信号得到的信号、或组合信号进行频谱平整，以得到平整的信号，平整的信号比起在平整之前的相应信号有更平坦的频谱；以及使用关于平整信号的信息对去相干信号或组合信号进行时间包络整形。

按照本发明的第六方面，这个目的是借助于一种计算机程序达到的，该计算机程序在计算机上运行时执行按照以上的方法权利要求中任一项的方法。

本发明是基于发现当频谱平整器被用来对去相干信号或组合信号和原始信号的频谱进行频谱平整，以使用平整的频谱得到描述在平整的频谱之间的能量分布的增益因子时，以及当这样得到的增益因子被包络整形器用来对去相干信号或组合信号的时间包络进行整形时，从原始信号得到的去相干信号的包络或通过组合原始信号和去相干信号而得到的组合信号的包络可以被整形而不会引入附加失真。

平整频谱具有以下优点：瞬变信号几乎不会受到平整影响，因为这些信号已具有相当平坦的频谱。而且，对于非瞬变信号得到的增益因子更接近于1。所以，在解码过程期间整形瞬变信号和不改变非瞬变信号的两个要求可以一次满足，而不必接通和关断包络整形。

同样的优点对于整形作为原始信号与从所述原始信号得到的去相干信号的组合的组合信号也适用。这样的组合可以通过首先从原始信号得到去相干信号、然后简单地把这两个信号相加而得到。例如，可能的前回声类型的人工产物可以在组合信号中通过使用组合信号的平整的频谱和原始信号的平整的频谱以得到被用于整形的增益因子来整形组合信号而被有利地抑制。

本发明涉及对在多声道音频信号重建时经常使用的去相干信号的时间包络进行整形的问题。本发明提出了一种新的方法，它保持对于鼓掌欢呼信号的高的时间分辨率，而同时使得对于其它信号类型引入的失真最小。本发明指导了一种执行短时间能量调节的新的方法，这很大地减小了所引入的失真量，使得算法更加可靠和更少地依赖于控制时间包络整形算法的操作的非常精确的检测器。

本发明包括以下特性：

-在大大长于对于时间包络整形所使用的时间段的时间段内，执行直接声音信号或从直接声音信号得到的信号的频谱平整；

-在大大地长于对于时间包络整形所使用的时间段的时间段内，执行去相干信号的频谱平整；

-根据长时间的频谱平整的信号计算对于包络整形所使用的短的时间段的增益因子；

-借助于LPC(线性预测编码)在时域中执行频谱平整；

-在滤波器库的子频带域中执行频谱平整；

-根据时间包络的预测，在频率方向之前执行频谱平整；

-根据时间包络的预测，对于频率方向执行能量校正。

通过本发明，将全部或大大地减小以下的问题，这些问题是当试图进行去相干信号的非常短时间的宽带能量校正时引起的：

-在不需要时间整形的场合下，特别是对于信号段引入大量失真的问题；

-由于对于任意信号引入的失真，引起对于表示何时应当操作短时间能量校正的对检测器高度依赖性的问题。

本发明概述了一种用于计算需要的增益调节的新颖的方法，它保持高的时间分辨率，同时使得附加失真最小化。这意味着，利用本发明的空间音频系统不是那么依赖于对非关键项目关断时间整形算法的检测机制，因为对其中不需要时间整形的项目的附加失真保持为最小。

这种新颖的算法还概述了当在变换域内在频率方向上借助于线性预测估计它时如何得到要被加到湿信号的干信号的时间包络的改进的估计。

在本发明的一个实施例中，在从干信号得到湿信号后，在1到2上混频器的信号传输路径内采用了用于处理去相干信号的根据本发明的设备。

首先，对于大量连续的时域采样(帧)计算湿信号和干信号的频谱平整的表示。根据湿信号和干信号的这些频谱平整的表示，然后计算用来调节湿信号的少量采样的能量的增益因子。通过频谱平整，瞬变信号的频谱(其本身是相当平坦的)很难被改变，而周期信号的频谱被很大地修改。因此使用平整的频谱的信号表示达到以下效果：当瞬变信号占优时主要对去相干的湿信号的包络进行整形，而当平滑的或周期性信号承载干信道中的大部分能量时，仅仅对湿信号的包络进行整形。因此，本发明大大地减小了被加到信号的失真量，特别是对于其中基本上不需要时间包络整形的信号段。而且，避免了对于表示何时应当施加短时间能量校正的现有技术检测器的高度依赖性。

在本发明的另一个实施例中，根据本发明的设备作用在由上混频器得到的上混频的(组合的)单音信号，该上混频器组合原始信号和从原始信号得到的去相干信号，以计算上混频的单音信号。这样的上混频是在重建多声道信号期间用于得到具有多声道信号的相应原始声道的声学特性的各个声道的标准策略。由于根据本发明的设备可以在这样的上混频后被应用，现在已有的装置可以很容易地扩展。

在本发明的再一个实施例中，去相干信号的时间包络整形在滤波器库的子频带域内实施。所以，对于大量的连续采样，对于每个子频带分别得到不同子频带信号的平整的频谱表示。根据频谱平整后的长期的频谱，对于代表原始信号的低得多的时间周期的采样，计算用来按照干信号整形湿信号的包络的增益因子。对于重建的音频信号的感知质量的优点是与对于上述的例子的优点相同的。此外，在滤波器库表示内实施本发明概念的可能性具有优点，即使用滤波器库表示的现在已有的多声道音频解码器可被修改用来实施本发明的概念，而不用花费很大的结构和计算方面的努力。

在本发明的再一个实施例中，湿信号的时间包络整形是在子频带域内通过使用线性预测实施的。所以，线性预测在滤波器库的频率方向上被应用，允许以比起在滤波器库中本身可得到的更高的时间分辨率来对信号进行整形。再次通过估计滤波器库的用于多个连续子频带采样的增益曲线而计算最后的能量校正。

在本发明的上述的实施例的修改方案中，描述频谱加白的参数的估值在滤波器库的多个相邻的时间采样上被平滑。所以，当存在瞬态信号时应用错误地得到的反向滤波器来加白频谱的风险进一步减小。

附图说明

图1a显示在1到2上混频器级内根据本发明的设备的应用；

图1b显示根据本发明的设备的应用的另一个例子；

图2a显示根据本发明的设备的其他布置的可能性；

图2b显示根据本发明的设备的布置的其他例子；

图3a显示在多声道音频解码器内根据本发明的设备的使用；

图3b显示在另一个多声道音频解码器内的根据本发明的设备；

图4a显示根据本发明的设备的一个优选实施例；

图4b显示图4a的根据本发明的设备的修改方案；

图4c显示线性预测编码的一个例子；

图4d显示在线性预测编码时带宽扩展因子的应用；

图5a显示本发明的频谱平整器；

图5b显示长期能量校正的应用方案；

图6显示用于短期能量校正的应用方案；

图7a显示在QMF滤波器库设计内的根据本发明的设备；

图7b显示图7a的根据本发明的设备的细节；

图8显示在多声道音频解码器内根据本发明的设备的使用；

图9显示在基于QMF的设计中反向滤波后根据本发明的设备的应用；

图10显示具有滤波器库代表的信号的时间对频率的表示；

图11显示具有根据本发明的解码器的传输系统。

具体实施方式

图1示出了一个1到2声道参数性上混频设备100，用来通过附加地使用空间参数把提交的单声道105上混频成两个立体声声道107和108。参数性上混频设备100具有参数性立体声上混频器110、去相干器112和用于处理去相干信号114的根据本发明的设备。

传送的单音信号105被输入到参数性立体声上混频器110以及去相干器112中，去相干器112通过使用去相干法则从传送的信号105得到去相干信号，该去相干法则例如通过仅仅在给定的时间内延时信号而被实施。由去相干器112产生的去相干信号被输入到根据本发明的设备(整形器)114，该整形器另外接收传送的单音信号作为输入。传送的单音信号需要得到被用来整形去相干信号的包络的整形法则，正如在以后的段落中更详细地描述的。

最后，去相干信号的包络整形的表示被输入到参数性立体声上混频器中，上混频器从传送的单音信号105和从去相干信号的包络整形表示得到立体声信号的左声道107和右声道108

为了更好地了解本发明概念和本发明的不同实施例，在下面的段落中说明通过使用附加提交的专门参数把传送的单音信号变换成立体声信号的上混频处理过程。

从现有技术已知，两个音频声道可以根据下混频声道和一组承载关于其上进行下混频的两个原始声道的能量分布的信息以及关于两个原始声道之间的相关性的信息的空间参数被重建。图1的实施例示例地说明本发明的框架工作。

在图1中，下混频的单音信号105被馈送到去相干器单元112以及上混频模块110。去相干器112创建具有相同频率特性和相同长期能量的输入信号105的去相干版本。上混频模块根据空间参数计算上混频矩阵，并且合成输出声道107和108。上混频模块110可以按照下式说明：

[\begin{matrix} Y_{1} [k] \\ Y_{2} [k] \end{matrix}] = [\begin{matrix} c_{l} & 0 \\ 0 & c_{r} \end{matrix}] [\begin{matrix} \cos (α + β) & \sin (α + β) \\ \cos (- α + β) & \sin (- α + β) \end{matrix}] [\begin{matrix} X [k] \\ Q [k] \end{matrix}]

其中参数c_l，c_r，α和β是从在比特流中传送的ILD参数和ICC参数得到的。信号X[k]是接收到的下混频信号105，信号Q[k]是去相干信号，即输入信号105的去相干版本。输出信号107和108用Y₁[k]和Y₂[k]表示。

新的模块114被设计用来对作为去相干器模块112的输出的信号的时间包络进行整形，使得该时间包络匹配于输入信号的包络。模块100的细节将在以后的一节中详细地说明。

从以上说明和从图1可以看到，上混频模块生成下混频信号与该下混频信号的去相干版本的线性组合。因此可以看到，去相干信号与下混频信号的相加可以在如上所述的上混频器内或在后面的级中完成。因此，以上的两个输出声道107和108可以由四个输出声道代替，其中两个保持第一声道的去相干版本和直接信号版本，两个保持第二声道的去相干版本和直接信号版本。这是通过用下式替代以上的上混频公式而达到的：

[\begin{matrix} Y_{1}^{wet} [k] \\ Y_{2}^{wet} [k] \end{matrix}] = [\begin{matrix} c_{l} & 0 \\ 0 & c_{r} \end{matrix}] [\begin{matrix} \cos (α + β) & \sin (α + β) \\ \cos (- α + β) & \sin (- α + β) \end{matrix}] [\begin{matrix} 0 \\ Q [k] \end{matrix}]

[\begin{matrix} Y_{1}^{dry} [k] \\ Y_{2}^{dry} [k] \end{matrix}] = [\begin{matrix} c_{l} & 0 \\ 0 & c_{r} \end{matrix}] [\begin{matrix} \cos (α + β) & \sin (α + β) \\ \cos (- α + β) & \sin (- α + β) \end{matrix}] [\begin{matrix} X [k] \\ 0 \end{matrix}]

随后通过下式得到重建的输出声道：

[\begin{matrix} Y_{1} [k] \\ Y_{2} [k] \end{matrix}] = [\begin{matrix} Y_{1}^{dry} [k] \\ Y_{2}^{dry} [k] \end{matrix}] + [\begin{matrix} Y_{1}^{wet} [k] \\ Y_{2}^{wet} [k] \end{matrix}]

在给出以上说明后，可以看到，根据本发明的设备可以在最后的上混频之前以及在上混频之后被实施为解码方案，如图1所示。而且，根据本发明的设备可以被用来在时域以及在QMF子频带域中整形去相干信号的包络。

图1b显示本发明的另一个优选实施例，其中根据本发明的整形器114被用来整形从传送的单音信号105得到的组合信号118和从传送的单音信号105得到的去相干信号116。图1b的实施例是基于图1的实施例。所以，具有相同的功能的部件具有相同的附图标记。

去相干器112从传送的单音信号105得到去相干信号116。混频器117接收去相干信号116和传送的单音信号105作为输入，并通过组合传送的信号105与去相干信号116而得到组合信号118。

在本上下文中，组合可以是指从两个或多个输入信号得到一个单个信号的任何适当的方法。在最简单的例子中，组合信号118可以通过简单地相加传送的单音信号105和去相干信号116而得到。

整形器114接收要被整形的组合信号118作为输入。为了得到用于整形的增益因子，传送的单音信号105也被输入到整形器114中。在整形器114的输出端处得到具有去相干信号分量和原始信号分量的局部去相干信号119，而不会引入附加的可听见的人工产物。

图2显示一种结构，其中湿信号部分的包络整形可以在上混频后进行。

图2显示根据本发明的参数性立体声上混频器120和去相干器112。单音信号105被输入到去相干器112和被输入到参数性立体声上混频器120。去相干器112从单音信号105得到去相干信号，并把去相干信号输入到参数性立体声上混频器120中。参数性立体声上混频器120是基于已在图1中描述的参数性立体声上混频器110。参数性立体声上混频器120与参数性立体声上混频器110的不同处在于，参数性立体声上混频器120得到左声道的干信号部分122a和湿信号部分122b以及右声道的干信号部分124a和湿信号部分124b。换句话说，参数性立体声上混频器120分别上混频这两个声道的干信号部分和湿信号部分。这可以按照以上给出的公式实施。

由于左声道的湿信号部分122b和右声道的湿信号部分124a已被上混频，但还没有被整形，在图2所示的本发明的上混频装置中附加地存在第一整形器126a和第二整形器126b。第一整形器126a在它的输入端处接收要被整形的湿信号和作为参考信号的左声道的干信号部分122a的拷贝。在第一整形器126a的输出端处，提供整形的湿信号128a。第二整形器126b在它的输入端处接收右声道的干信号部分124a和右声道的湿信号部分124b，以及得到右声道的整形的湿信号128b作为它的输出。为了最后得到想要的左信号107和右信号108，在本发明的装置中存在第一混频器129a和第二混频器129b。第一混频器129a在它的输入端处接收左声道的干信号部分122a的拷贝和整形的湿信号128a，以(在它的输出端)得到左信号107。第二混频器129b以类似的方式，通过在它的输入端处接收右声道的干信号部分124a和整形的右湿信号128b，得到右声道108。正如从图2可以看到的，这个装置可以作为图1所示的实施例的替代例工作。

图2b显示本发明的一个优选实施例，它是先前在图2中显示的实施例的修改方案，所以具有相同的部件采用相同的附图标记。

在图2b所示的实施例中，湿信号122b首先与它的对应的干信号122a混频，以得到左边的中间声道L^＊，以及湿信号124b与它的对应的干信号124a混频，以得到右边的中间声道R^＊。因此，生成包括左侧信息的声道和包括右侧信息的声道。然而，仍旧有通过湿信号分量122b和124b引入可听见的人工产物的可能性。所以中间信号L^＊和R^＊通过附加地接收干信号部分122a和124a作为输入的相应整形器126a和126b被整形。因此，最后可以得到具有想要的空间特性的左声道107和右声道108。

简短地说，图2b所示的实施例与图2a所示的实施例的不同处在于，湿信号和干信号首先被上混频，然后对这样得到的组合信号(L^＊和R^＊)进行整形。因此，图2b显示解决共同问题的替代装置，它具有两个声道而没有由所使用的去相干信号部分引起可听见的失真。组合两个信号部分得到要被整形的组合信号的其它方法，诸如，例如相乘或折叠信号，也适合于实施使用信号的频谱平整表示进行整形的本发明的概念。

如图3所示，两个声道重建模块可被级联成树结构系统，它从单个下混频声道130迭代地重建例如5.1声道。这被概述于图3a，其中几个根据本发明的上混频模块100被级联，以从单音下混频声道130重建5.1声道。

图3a所示的5.1声道音频解码器132包括被排列成树状结构的几个1到2上混频器100。上混频是通过单声道的随后上混频到立体声声道而迭代地完成的，正如本领域中已知的，然而它使用本发明的1到2上混频器模块100，它包括用于处理去相干信号来增强重建的5.1音频信号的感知质量的本发明的设备。

本发明建议，来自去相干器的信号必须经过它的时间包络的精确整形，以免当信号与它的对应的干信号混频时引起不想要的人工产物。时间包络的整形可以如图1所示在去相干器单元后直接进行，或者作为替代，上混频可以在去相干器后分开地对干信号和湿信号执行，并且两个信号的最后的相加是在合成滤波后在时域中完成的，如图2所示。这也可以作为替代地在滤波器库域中执行。

为了支持上述的分开生成干信号和湿信号，在本发明的另一个实施例中使用如图3b所示的分级级联结构。图3b显示第一分级级联解码器150，包括多个级联的修改的上混频模块152；和第二分级级联解码器154，包括多个级联的修改的上混频模块156。

为了达到分开地生成干信号和湿信号路径，单音下混频信号130被分割并被输入到第一分级级联解码器150以及第二分级级联解码器154中。第一分级级联解码器150的修改的上混频模块152与5.1声道音频解码器132的上混频模块100的不同之处在于，它们在它们的输出端处只提供干信号部分。相应地，第二分级级联解码器154的修改的上混频模块156在它们的输出端处只提供湿信号部分。所以，通过实施与图3a中相同的分级级联结构，5.1声道信号的干信号部分由第一分级级联解码器150生成，而5.1声道信号的湿信号部分由第二分级级联解码器154生成。因此，湿信号和干信号的生成例如可以在滤波器库域内执行，而两个信号部分的组合可以在时域中执行。

本发明还建议，被用于提取以后用于整形湿信号的时间包络的估计的包络的信号在估计处理过程之前将经受长期频谱平整或加白操作，以使得当使用非常短的时间段、即1ms范围的时间段修改去相干信号时引入的失真最小化。去相干的信号的时间包络的整形可以借助于在子频带域或在时域的短期能量调节被完成。如本发明引入的加白步骤保证了能量估计在尽可能大的频率片上进行计算。换句话说，由于信号段的持续时间是极其短的，重要的是在尽可能大的频率范围上估计短期能量，以使得对于能量计算所使用的“数据点的数目”最大化。然而，如果一部分频率范围比起其余部分是占优的，即具有陡峭的频谱斜率，则有效的数据点的数目变为过小，并且所得到的估计容易随不同的估计而变化，给应用的增益值加上不必要的起伏。

本发明还建议，当去相干信号的时间包络借助于在频率方向上的预测被整形时[J.Herre和J.D.Johnston，“Enhancing the performanceof perceptual audio coding by using temporal noise shaping(TNS)”，in 101^st AES Convention，Los Angeles，November 1996]，被用来估计预测器频谱应当经受加白级，以便得到应当被应用到去相干信号的时间包络的良好的估值。此时也不希望让估计基于小部分的频谱，如对于未进行频谱加白的陡峭斜率频谱的那种情形。

图4a显示在时域中工作的本发明的一个优选实施例。用于处理去相干信号的本发明设备200接收要被整形的湿信号202和干信号204作为输入，其中湿信号202是在以前的步骤中从干信号204得到的(图4中未示出)。

用于处理去相干信号202的设备200具有在干信号的信号路径上的第一高通滤波器206、第一线性预测装置208、第一反向滤波器210和第一延时装置212；以及在湿信号的信号路径上的第二高通滤波器220、第二线性预测装置222、第二反向滤波器224、低通滤波器226和第二延时装置228。该设备还包括增益计算器230、乘法器(包络整形器)232和加法器(上混频器)234。

在干信号一侧，干信号的输入被分割并被输入到第一高通滤波器206和第一延时装置212。高通滤波器206的输出端被连接到第一线性预测装置208的输入端和第一反向滤波器210的第一输入端。第一线性预测装置208的输出端被连接到反向滤波器210的第二输入端，并且反向滤波器210的输出端被连接到增益计算器230的第一输入端。在湿信号路径中，湿信号202被分割并被输入到第二高通滤波器220的输入端和低通滤波器226的输入端。低通滤波器226的输出端被连接到第二延时装置228。第二高通滤波器220的输出端被连接到第二线性预测装置222的输入端和第二反向滤波器224的第一输入端。第二线性预测装置222的输出端被连接到第二反向滤波器224的第二输入端，它的输出端被连接到增益计算器230的第二输入端。包络整形器232在第一输入端处接收在第二高通滤波器220的输出端处提供的高通滤波的湿信号202。包络整形器232的第二输入端被连接到增益计算器230的输出端。包络整形器232的输出端被连接到加法器234的第一输入端，它在第二输入端处接收从第一延时装置212的输出端提供的延时的干信号，并且它还在第三输入端处接收通过第二延时装置228的输出端提供的延时的湿信号的低频部分。在加法器232的输出端处，提供完全处理的信号。

在图4a所示的本发明的优选实施例中，来自去相干器的信号(湿信号202)和相应的干信号204被分别输入到第二高通滤波器220和第一高通滤波器206，在其中两个信号以约2kHz的截止频率被高通滤波。湿信号202也被具有与第二高通滤波器220的阻带相同的通带的低通滤波器226进行低通滤波。去相干(湿)信号202的时间包络整形因此只在大于2kHz的频率范围内进行。湿信号202的低通部分(没有经受时间包络整形)被第二延时装置208延时，以补偿当整形去相干信号202的高通部分的时间包络时引起的延时。同样的情形对于干信号部分204也是成立的，它接收来自第一延时装置212的相同的延时，以使得在加法器234处，湿信号202的处理后的高通滤波部分、湿信号202的延时后的低通部分、和延时的干信号204可被相加或上混频，以产生最后处理的上混频信号。

按照本发明，在高通滤波后，要估计长期频谱包络。重要的是，对于长期频谱包络估计所使用的时间段大大地长于被用来进行实际的时间包络整形的时间段。频谱包络估计和随后的反向滤波，典型地工作在20ms范围内的时间段，而时间包络整形的目的是以1ms范围内的精度整形时间包络。在如图4a所示的本发明的优选实施例中，频谱加白通过反向滤波执行，第一反向滤波器210作用在干信号上而第二反向滤波器224作用在湿信号202上。为了得到对于第一反向滤波器210和第二反向滤波器224的需要的滤波器参数，借助于第一线性预测装置208和第二线性预测装置222的线性预测，估计信号的频谱包络。信号的频谱包络H(z)可以通过使用如以下公式描述的线性预测而得到：

H (z) = \frac{G}{A (z)}

其中

A (z) = 1 - Σ_{k = 1}^{p} α_{k} z^{- k}

是通过使用自相关方法或协方差方法得到的多项式[Digital Processingof Speech Signals，Rabiner & Schafer，Prentice Hall，Inc.，EnglewoodCliffs，New Jersey 07632，ISBN 0-13-213603-1，Chapter 8]，以及G是增益因子。以上的多项式的阶数p被称为预测器阶数。

如图4a所示，信号的频谱包络的线性预测对于干信号部分204和对于湿信号部分202并行地完成。通过信号的频谱包络的这些估值，可以执行高通滤波的干信号204和湿信号202的反向滤波，即可以完成频谱平整(频谱加白)，同时信号内的能量必须保留。频谱加白的程度，即被平整的频谱变为平坦的程度，可以通过改变预测器阶数p，即通过限制多项式A(z)的阶数而被控制，因此限制可以由H(z)描述的细微结构的量。作为替代，带宽扩展因子可以应用到多项式A(z)。带宽扩展因子按照以下公式根据多项式A(z)被定义。

A(ρz)＝a₀z⁰ρ⁰+a₁z¹ρ¹+a₂z²ρ²+...+a_pz^pρ^p

时间包络整形和带宽扩展因子ρ的影响被显示于图4c和4d。

图4c给出对于信号的频谱包络的估计的一个例子，它可以由第一线性预测装置208和第二线性预测装置222完成。对于图4c的频谱表示，以Hz为单位的频率画在x轴上，相对于在y轴上以dB为单位的、在给定频率上输送的能量。

实线240描述处理后的信号的原始频谱包络，而虚线242给出由线性检测编码(LPC)使用在标记的等距离的频率值处的频谱包络数值而得到的结果。对于图4c所示的例子。预测阶数p是30，相当高的预测器阶数说明预测的频谱包络242和真实的频谱包络240紧密匹配。这是由于预测器能够描述的结构越细微，则预测器阶数越高。

图4d显示降低预测器阶数p或应用带宽扩展因子ρ的影响。图4d以与图4c相同的表示显示估计的包络的两个例子，即在x轴上的频率和在y轴上的能量。估计的包络244代表通过用给定的预测器阶数进行的线性预测编码得到的频谱包络。滤波的包络246显示用减小的预测器阶数p、或者作为替代用带宽扩展因子行对相同的信号进行的线性预测编码的结果。正如可以看到的，滤波的包络246比起估计的包络244平滑得多。这意味着，在估计的包络244与滤波的包络246最不同的频率上，滤波的包络246描述了不如估计的包络246那么精确的真实包络。因此，基于滤波的包络246的反向滤波产生平整的频谱，它平整得不像在反向滤波过程中使用来自估计的包络244的参数那样好。反向滤波在以下的段落中描述。

由线性预测设备估计的参数或系数α_k被反向滤波器210和224使用，进行信号的频谱平整，即通过使用以下的反向滤波函数进行反向滤波：

H_{ink} (z, p, ρ) = \frac{1 - Σ_{k = 1}^{p} α_{k} {(zρ)}^{- k}}{G}

其中p是预测器阶数以及ρ是可选的带宽扩展因子。

系数α_k可以通过不同的方式，例如自相关方法或协方差方法得到。通常的实践是给估值加上某种松弛，以保证系统的稳定度。当使用自相关方法时，这可以通过偏置相关向量的零滞后值而很容易地完成。这等价于把恒定电平的白噪声加到被用来估值A(z)的信号上。

增益计算器230计算短期目标能量，即在湿信号的单个采样内为满足被整形到干信号的包络上的、湿信号的包络的要求所需要的能量。这些能量根据频谱平整的干信号和根据频谱平整的湿信号被计算。得到的增益调节值然后可以通过包络整形器232被施加到湿信号上。

在更详细地描述增益计算器230之前，可以指出，在反向滤波期间需要留意反向滤波器210和224的增益因子G。由于已在每个声道产生两个输出信号的上混频过程的输出信号上作用了干信号和湿信号，其中第一声道按照被用于上混频过程的ILD和ICC参数具有相对于第二声道特定的能量比率，重要的是这个关系被保持在时间包络整形过程中ILD和ICC参数有效的时间段内的平均值。换句话说，用于处理去相干信号的设备200只修改去相干信号的时间包络，而保持在被处理的时间段上信号的相同的平均能量。

增益计算器200作用在两个频谱平整的信号上，并计算在比起用用于反向滤波的时间段短得多的时间段上用于应用到湿信号的短时间增益函数。例如，当用于反向滤波的段长度是2048个采样时，短期增益因子可以对于长度为64的采样进行计算。这意味着，根据在2048个采样的长度上被平整的频谱，增益因子是通过使用信号的短得多的分段、例如64而得到的，用于时间能量整形。

将计算出的增益因子应用到湿信号是通过包络整形器232把计算出的增益因子乘以采样参数而完成的。最后，经过高通滤波的包络整形后的湿信号通过加法器(上混频器)234被加到它的低频部分，在包络整形器234的输出端处产生最后处理的和包络整形后的湿信号。

由于在不同的增益因子之间的能量预留和平滑过渡是在反向滤波期间以及在施加增益因子期间考虑的问题，窗口函数可以附加地应用到计算出的增益因子上，以保证在相邻采样的增益因子之间的平滑过渡。因此反向滤波步骤和把计算出的短期增益因子施加到湿信号在后面的段落中将结合图5a，5b和6更详细地描述，假设上面提到的例子中，对于反向滤波的分段长度为2048，而对于计算短期增益因子的分段长度为64。

图4b显示用于处理去相干信号的本发明设备200的修改方案，其中包络整形的湿信号在包络整形后被提供到高通滤波器240。在一个优选实施例中，高通滤波器224具有与得到被滤波的湿信号202部分的高通滤波器220相同的特性。然后，高通滤波器240确保在去相干信号中任何引入的失真不改变信号的高通特性，因此在去相干信号的未处理的低通部分与信号的经过处理的高通部分的相加过程中引入失匹配(miss-match)。

本发明的上述实施方案的一些重要的特性应当再次强调：

-频谱平整通过计算显著大于被用于短期能量调节的时间段的时间段的匹配包络表示(在本特定的例子中借助于LPC)而完成；

-频谱平整的信号仅仅被用来计算能量估值，根据它计算被用来估计和应用去相干(湿)信号的正确的时间包络；

-保持在湿信号与干信号之间的平均能量比率，它仅仅是被修改的时间包络。因此，在被处理的信号段上(即，典型地包括1024或2048个采样的帧)增益值G的平均值，对于大多数信号约等于1。

图5a显示在用于处理去相干信号的本发明设备200内被用作为第一反向滤波器210和第二反向滤波器224的反向滤波器的更详细的说明。反向滤波器300包括逆变换器302、第一能量计算器304、第二能量计算器306、增益计算器308和增益施加器310。逆变换器302接收滤波器系数312(如通过线性预测编码得到)和信号X(k)作为输入。信号314的拷贝被输入到第一能量计算器304中。逆变换器根据滤波器系数312对于在长度为2048的信号段内的信号施加逆变换。增益因子G被设为1，因此，平整后的信号316(X_flat(z))按照下式从输入信号314得到：

X_{flat} (z) = \frac{X (z)}{H (z)}

由于这种反向滤波不必预留能量，平整后的信号的长期能量必须借助于长期增益因子g_long被保留。因此，信号214被输入到第一能量计算器304中，并且平整后的信号316被输入到第二能量计算器306中，其中信号的能量E和平整后的信号的能量E_flat如下计算：

E = \underset{k}{Σ} {(x (k))}^{2}, 0 \leq k < 2048

E_{flat} = \underset{k}{Σ} {(x_{flat} (k))}^{2}, 0 \leq k < 2048

其中用于频谱包络估计的反向滤波的当前段长度是2048个采样。

因此，增益因子g_long可以由增益计算器308使用下式进行计算：

g_{long} = \sqrt{\frac{E}{E_{flat}}}

通过把平整后的信号316乘以得到的增益因子g_long，能量预留可以由增益施加器310保证。为了保证在相邻的信号段之间的平滑过渡，在一个优选实施例中，增益因子g_long通过使用窗口函数被施加到平整后的信号316。因此，可以避免严重干扰音频信号感知质量的信号响度的跳跃。

长期增益因子例如可以按照图5b被施加。图5以图形显示可能的窗口函数，其中采样数目画在x轴上，而增益因子g画在y轴上。跨越2048个采样的整个帧的窗口被用来逐渐减弱来自先前的帧的增益值319并逐渐增强当前的帧的增益值320。

在用于处理去相干信号的本发明设备200内应用反向滤波器300，确保了在反向滤波器后的信号被频谱平整，同时还保留了输入信号的能量。

根据平整后的湿信号和干信号，可以通过增益计算器230来执行增益因子计算。这将在以下的段落中更详细地说明，其中窗口函数被附加地引入，以保证用来缩放相邻信号段的增益因子的平滑过渡。在图6所示的例子中，对于相邻的信号段所计算出的增益因子，每个对于64个采样是有效的，其中它们被附加地缩放窗口函数win(k)。在单个段内的能量按照下式进行计算，其中N表示在被用于频谱平整的长期段内的段的数目，即具有2048个采样的段：

E_{wet} (n) = \underset{k}{Σ} {(x (k + 32 n) win (k))}^{2}, 0 \leq k < 64,0 \leq n < N

E_{dry} (n) = \underset{k}{Σ} {(x (k + 32 n) win (k))}^{2}, 0 \leq k < 64,0 \leq n < N

其中win(k)是窗口函数322，如图6所示，在本例中，它具有64个采样的长度。换句话说，短期增益因子类似于长期增益因子g_long的增益计算进行计算，但是在短得多的时间段上进行。然后，由增益计算器230按照下式计算被施加到单个短的时间采样的单个增益值GN：

g_{n} = \sqrt{\frac{E_{dry} (n)}{E_{wet} (n)}}, 0 \leq n < N

以上计算出的增益值通过窗口的重叠添加段被施加到湿信号，如图6所示。在本发明的一个优选实施例中，重叠添加窗口是在44.1kHz的采样速率下的32个采样长度。在另一个例子中，使用64个采样的窗口。如前所述，在时域实施本发明的一个有利的特性是时间包络整形的时间分辨率的选择的自由度。图6所示的窗口也可以被用在其中计算增益值g_n-1，g_n，...，g_N的模块230中。

可以指出，当给定在湿信号与干信号之间的能量关系应当在被处理的段内被保持为根据ILD和ICC参数通过上混频计算的那样的要求时，可以看到，对于增益值g_n-1，g_n，...，g_N进行平均的平均增益值对于大多数信号应近似等于1。因此，回到长期增益调节的计算，在本发明的另一个实施例中，增益因子可被计算为：

g_{long} = \sqrt{\frac{1}{E_{flat}}}

因此，湿信号和干信号被归一化，并且在二者之间的长期能量比率近似被保持。

虽然在以上段落中详细说明的例子是在时域中执行去相干信号的时间包络整形，但从以上得到湿信号和干信号的过程中可以看到，时间整形模块也可以在使用去相干器信号用于最后的上混频级之前作用在去相干器单元输出的QMF子频带信号上。

这被显示于图7a。这里，到来的单音信号400被输入到QMF滤波器库402中，得到单音信号400的子频带表示。然后，在信号处理模块404中，对于每个子频带分别执行上混频。因此，最后重建的左信号406可以由QMF合成模块408提供，并且最后重建的右声道410可以由QMF合成模块412提供。

对于信号处理模块404的例子在图7b中给出。信号处理模块404具有去相干器413、用于处理去相干信号的本发明设备414和上混频器415。

单个子频带采样416被输入到信号处理模块404中。去相干器413从子频带采样416得到去相干的采样，它被输入到用于处理去相干信号的设备414(整形器)中。整形器414接收子频带采样416的拷贝作为第二输入。本发明的整形器414按照本发明执行时间包络整形和把整形后的去相干信号提供到上混频器415的第一输入端，该上混频器在它的第二输入端处附加接收子频带采样416。上混频器415从子频带采样416和整形后的去相干采样得到左子频带采样417和右子频带采样418。

通过结合用于不同子频带采样的多个信号处理模块404，可以对于滤波器库域的每个子频带计算左和右子频带采样。

在多声道实施方案中，信号处理通常是在QMF域中进行的。也可以看到，在给定上述设定后，去相干信号和信号的直接版本的最后相加可以正好在形成实际的重建输出信号之前作为最后一级来完成。因此，整形模块也可以移到正好在两个信号分量相加之前被执行，只要整形模块不改变如由ICC和ILD参数规定的去相干信号的能量，而只修改短期能量，给予去相干信号紧密地匹配于直接信号的时间包络。

在上混频和合成之前在QMF子频带域中操作本发明或者在上混频和合成之后在时域中操作本发明，是两个不同的方法，分别具有它们不同的优点和缺点。前者是最简单的，需要最少的计算量，然而受限于它所作用的滤波器库的时间分辨率。虽然后者需要附加的合成滤波器库和附加的计算复杂性，但它在选择时间分辨率时具有完全的自由度。

如上所述，多声道解码器大多数在子频带域中执行信号处理，如图8所示。这里作为原始5.1声道音频信号的下混频部分的单音下混频信号420被输入到QMF滤波器库421中，它得到单音信号420的子频带表示。然后，由信号处理模块422在子频带域中执行实际的上混频和信号重建。作为最后的步骤，通过QMF合成得到原始5.1声道音频信号，包括左前声道424a、右前声道424b、左环绕声道424c、右环绕声道424d、中心声道424e、和低频增强声道424f。

图9显示本发明的另一个实施例，其中在立体声信号的处理和上混频已经在子频带域内完成后，信号整形被转变到时域。

单音输入信号430被输入到滤波器库432中，得到单音信号430的多个子频带表示。单音信号到4个信号的信号处理和上混频由信号处理模块434完成，得到左干信号436a、左湿信号436b、右干信号438a、和右湿信号438b的子频带表示。在QMF合成440后，最后的左信号442可以通过工作在时域的用于处理去相干信号200的本发明的设备，从左干信号436a和左湿信号436b得到。同样地，最后的右信号444可以从右干信号438a和右湿信号438b得到。

如前所述，本发明不限于作用于时域信号。与短期能量估计和调节相组合的长期频谱平整的本发明的特性也可以在子频带滤波器库中实施。在前面显示的例子中，使用了QMF滤波器库，然而，应当理解，本发明决不限于这个特定的滤波器库表示。按照本发明的时域实施方案，被用于估计时间包络的信号，即在QMF滤波器库表示的情况下，借助于在低频范围内把QMF子频带设置为0，进入处理单元的干信号和去相干信号被高通滤波。下面的段落示例地说明本发明概念在QMF子频带域中的使用，其中m表示子频带，即原始信号的频率范围，以及N表示在子频带表示内的采样数目，以及其中被用于长期频谱平整的信号子频带包括N个采样。

现在假设：

E_{dry} = (m, n) = Q_{dry} (m, n) Q_{dry}^{*} (m, n), m_{start} \leq m < M, 0 \leq n < N

E_{wet} = (m, n) = Q_{wet} (m, n) Q_{wet}^{*} (m, n), m_{start} \leq m < M, 0 \leq n < N

其中Q_dry(m，n)和Q_wet(m，n)是带有干信号和湿信号的QMF子频带矩阵，以及其中E_dry(m，n)和E_wet(m，n)是对于所有子频带采样的相应的能量。这里。m表示在m_start处开始的、被选择为相应于约2kHz的子频带，以及其中n是从零改变到N的子频带采样下标，N是在一帧内的子频带采样的数目，在一个优选实施例中，N是32，相应于约20ms的一帧。

对于以上的两个能量矩阵，频谱包络作为在帧的所有的子频带采样上的平均值进行计算。这对应于长期频谱包络。

{Env}_{dry} (m) = \frac{1}{N} Σ_{n = 0}^{N} E_{dry} (m, n), m_{start} \leq m < M

{Env}_{wet} (m) = \frac{1}{N} Σ_{n = 0}^{N} E_{wet} (m, n), m_{start} \leq m < M

此外，在帧上的平均的总的能量按照下式进行计算：

E_{dry} = \frac{1}{M - m_{start}} Σ_{m = m_{start}}^{M} {Env}_{dry} (m)

E_{wet} = \frac{1}{M - m_{start}} Σ_{m = m_{start}}^{M} {Env}_{wet} (m)

根据以上的公式，平整增益曲线可以对于两个矩阵进行计算：

g_{dry} (m) = \frac{E_{dry}}{{Env}_{dry} (m)}, m_{start} \leq m < M

g_{wet} (m) = \frac{E_{wet}}{{Env}_{wet} (m)}, m_{start} \leq m < M

通过把以上计算的增益曲线应用到对于湿信号和干信号的能量矩阵，按照下式得到长期频谱平整能量矩阵：

E_{dry}^{Flat} (m, n) = g_{dry} (m) E_{dry} (m, n), m_{start} \leq m < M, 0 \leq n < N

E_{wet}^{Flat} (m, n) = g_{wet} (m) E_{wet} (m, n), m_{start} \leq m < M, 0 \leq n < N

以上的能量矩阵被用来通过使用在QMF域中得到的最高的时间分辨率而计算和应用湿信号的时间包络。

Q_{wet}^{Adjusted} (m, n) = Q_{wet} (m, n) \sqrt{\frac{F_{dry}^{Flat} (m, n)}{E_{wet}^{Flat} (m, n)}}, m_{start} \leq m < M, 0 \leq n < N

从在子频带域中实施的本发明的以上说明，将会看到，与短期时间包络估计或短期能量估计/调节相组合进行长期频谱加白的本发明的步骤不限于LPC在时域中的使用。

在本发明的再一个实施例中，时间包络整形在子频带域中在频率方向被用来在把时间包络整形应用到湿信号之前执行本发明的频谱平整。

从现有技术已知，具有低的时间分辨率的在频域中表示的信号可以通过在频率方向上对信号的频率表示进行滤波而被时间包络整形。这在感知的音频编码解码器中被用来整形在长变换中表示的信号的引入的量化噪声[J.Herre和J.D.Johnston，“Enhancing the performanceof perceptual audio coding by using temporal noise shaping(TNS)”，in 101^st AES Convention，Los Angeles，November 1996]。

假设具有64个信道的QMF滤波器库和640个采样的原型滤波器，可以看到，QMF子频带表示的时间分辨率不如在ms的范围窗口上的时域内完成时间整形时那样高。在QMF域中以比在QMF中本身可得到的更高的时间分辨率对信号进行整形的一个方法是在频率方向上进行线性预测。因此，通过对于某个QMF时隙，即对于子频带采样n，观察以上在QMF域中的干信号，

Q_dry(m，n)，m_start≤m＜M，0≤n＜N

可以估计线性预测器，

H_{n} (z) = \frac{G}{A_{n} (z)}

其中

A_{n} (z) = 1 - Σ_{k = 1}^{p} α_{k} z^{- k}

是通过使用自相关方法或协方差方法得到的多项式。再次地，重要的是指出，与前面所述的在时域中的LPC相反，这里估计的线性预测器被设计成预测在频率方向上的复QMF子频带采样。

在图10中，显示QMF的时间/频率矩阵。每列对应于一个QMF时隙，即子频带采样。每行对应于该子频带。正如在图中表示的，线性预测器的估计和施加在每列内独立进行。而且，图10中显示的一列对应于被处理的一帧。其上估计加白增益曲线g_wet(m)和g_dry(m)的帧尺寸也在图上表示。12的帧尺寸例如意味着同时处理12列。

在本发明的先前描述的实施例中，频率方向上的线性预测是在信号的复QMF表示中完成的。再次假设具有64个信道的QMF滤波器库和640个采样的原型滤波器，并且记住预测器作用在复信号上，在应用预测器的场合下，非常低阶的复预测器就足以跟踪在QMF时隙内信号的时间包络。优选的选择是预测器阶数为1。

估计的滤波器H_n对应于对于特定子频带采样的QMF信号的时间包络，即通过只观察子频带采样不能得到的时间包络(由于只有一个采样是可用的)。这个子采样时间包络可以通过估计滤波器在频率方向上按照下式进行滤波信号而被施加到Q_wet信号：

Q_{wet}^{Adjusted} (m, n) = Q_{wet} (m, n) * h_{n}, m_{start} \leq m < M

其中m是QMT时隙，或子频带采样，被用于预测器估计和进行时间整形。

虽然由去相干器产生的湿信号具有非常平坦的时间包络，但建议在应用干信号的时间包络之前首先去除湿信号的任何时间包络。这可以通过使用如上所述的在频率方向上的线性预测，对湿信号进行相同的时间包络估计，并使用得到的滤波器对湿信号进行反向滤波，因此在应用干信号的时间包络之前去除任何时间包络而达到。

为了得到尽可能紧密匹配的湿信号时间包络，重要的是借助于干信号在频率方向的线性预测器得到的时间包络的估计应当尽可能好。本发明建议干信号应当在借助于线性预测估计它的时间包络之前经受长期频谱平整。因此，以前计算的增益曲线

g_dry(m)，m_start≤m＜M

应当按照下式被应用到干信号，用于时间包络估计：

Q_{dry}^{Flat} (m, n) = Q_{dry} (m, n) g_{dry} (m), m_{start} \leq m < M, 0 \leq n < N

其中n表示QMF时隙，以及m表示子频带下标。可以看到，增益校正曲线对于被处理的当前帧内的所有子频带采样是相同的。显然，由于增益曲线对应于需要的频率选择性增益调节，以去除长期频谱包络。所得到的复QMF表示被用来通过使用如上所述的线性预测来估计时间包络滤波器。

由LPC滤波提供的附加时间分辨率的目的是为瞬变干信号整形湿信号。然而，由于一个QMF时隙的有限的数据组被用于LPC估计，仍旧有细微时间整形以无序的方式被应用的风险。为了减小这种风险而同时保持瞬变干信号的性能，LPC估计可以在几个时隙内被平滑化。这种平滑必须考虑隔离的瞬时事件的应用的滤波器库分析的频率方向协方差结构随时间的演变。具体地，在一阶预测和具有2的总体过采样因子的奇数堆叠的复调制的滤波器库的情况下，本发明所建议的平滑由在时隙n中使用的预测系数α_n的以下的调制来完成，

a_{n} | &RightArrow; a_{n}^{smoothed} = Σ_{k = - d}^{k = d} {(- 1)}^{d} a_{n + k},

其中d≥1规定了在时间方向上的预测块尺寸。

图11显示用于5.1输入声道配置的传输系统，具有5.1声道编码器600，它把6个原始声道下混频成下混频部分602，其可以是单音声道或包括几个离散声道和附加空间参数604。下混频部分602连同空间参数604一起被发送到音频解码器610。

解码器610具有一个或多个本发明设备，用于处理去相干信号，以便执行下混频信号602的上混频，包括发明的时间整形去相干信号。因此，在这样的传输系统中，在解码器一侧本发明概念的应用导致重建的5.1信道信号的改进的感知质量。

本发明的上述的实施例对于本发明的原理和对于用于改进地时间整形去相干信号的方法来说，仅仅是说明性的。应当看到，这里描述的安排和细节的修改方案和改变对于本领域技术人员是显而易见的。所以，本发明打算仅仅由待决的专利权利要求的范围限制，而不是由通过这里的实施例的描述和说明给出的具体的细节来限制。还应当看到，本发明的说明借助于二声道和5.1声道例子来进行，但本领域技术人员将会看到，相同的原理可应用于任意声道配置，因此，本发明不限于具有特定数目的输入/输出声道的具体的声道配置或实施例。本发明可以应用于利用信号的去相干版本的任何的多声道重建，因此，本领域技术人员还可以看到，本发明不限于在以上的示例性说明中使用的多声道重建的具体的方式。

简言之，本发明主要涉及根据可得到的下混频信号和附加控制数据对音频信号进行多声道重建。在编码器一侧，在给定原始声道的下混频部分的情况下提取代表多声道特性的空间参数。下混频信号和空间表示在解码器中被用来借助于把下混频信号与它的去相干版本的组合分布到重建的声道，而重建原始多声道信号的密切相似的表示。本发明可应用于其中希望后向兼容的下混频信号的系统，诸如立体声数字无线传输(DAB，XM卫星无线电等等)，但也可以应用于需要多声道信号的非常紧凑的表示的系统。

频谱的平整在上述的例子中是根据由LPC分析得到的滤波器系数通过反向滤波而执行的。应当看到，产生具有平坦频谱的任何另外的操作适合于实施，以构建本发明的其它实施例。本申请导致具有相同的有利特性的重建的信号。

在多声道音频解码器内，其中应用本发明的、在声音路径上的位置是与通过使用用于处理去相干信号的本发明设备来提高重建的音频信号的感知质量的本发明概念无关的。

虽然在优选实施例中，仅仅湿信号的高通滤波的部分按照本发明被包络整形，但本发明也可以应用于具有完全频谱的湿信号。

被用来把增益校正应用到长期频谱平整的信号以及短期包络整形增益因子的窗口函数仅仅被看作为例子。可以看到，可以使用其它的窗口函数，允许在要被处理的信号的相邻的段之间的增益函数的平滑过渡。

根据本发明方法的某些实施方式要求，本发明方法可以以硬件或软件被实现。该实施方式可以通过使用数字存储介质来实现，具体地，其上具有电子可读的控制信号的软盘、DVD或CD，与可编程的计算机系统合作，以执行本发明的方法。因此一般地，本发明是具有存储在机器可读载体上的程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码被用来执行本发明。因此换句话说，本发明的方法是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码执行本发明方法的至少一项。

虽然以上内容参照本发明的具体实施例来显示和描述，但本领域技术人员将会理解，可以在形式和细节上做出各种其它改变而不背离这里公开的和由以下的权利要求说明的更广义的概念。

Claims

1.一种用于处理从原始信号得到的去相干信号或通过组合原始信号和去相干信号而得到的组合信号的设备，包括：

频谱平整器，用于对从去相干信号通过对所述去相干信号或组合信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第一平整信号，并对从原始信号通过对所述原始信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第二平整信号，该频谱平整器用来使得平整后的信号比起在平整之前的相应信号有更平坦的频谱；以及

时间包络整形器，用于通过使用通过比较包括在第一平整信号和第二平整信号的相应部分内的能量而得到的增益因子对去相干信号进行时间包络整形。

2.按照权利要求1的设备，其中频谱平整器用来平整去相干信号或组合信号的包含第一时间段的第一部分；以及

其中时间包络整形器用来整形去相干信号或组合信号的包含第二时间段的第二部分，其中第一时间段比第二时间段要长。

3.按照权利要求2的设备，其中第一时间段的长度大于第二时间段的长度的10倍。

4.按照权利要求1的设备，其中频谱平整器用来借助于使用通过线性预测编码得到的滤波器系数的滤波来平整频谱。

5.按照权利要求4的设备，其中频谱平整器用来借助于使用通过时间方向上的线性预测得到的滤波器系数的滤波来平整频谱。

6.按照权利要求1的设备，其中频谱平整器用来得到在时域中的信号的频谱平整的表示。

7.按照权利要求1的设备，其中频谱平整器用来得到在子频带域中的信号的频谱平整的表示。

8.按照权利要求1的设备，其中频谱平整器和时间包络整形器用来处理大于给定的频率阈值的全频谱去相干信号的所有的频率。

9.一种用于处理从原始信号得到的去相干信号或通过组合原始信号与去相干信号而得到的组合信号的方法，该方法包括：

对从去相干信号通过对所述去相干信号或组合信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第一平整信号，并对从原始信号通过对所述原始信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第二平整信号，平整后的信号比起在平整之前的相应信号有更平坦的频谱；以及

通过使用通过比较包括在第一平整信号和第二平整信号的相应部分内的能量而得到的增益因子对去相干信号或组合信号进行时间包络整形。

10.一种空间音频解码器，包括：

输入接口，用于接收从具有至少两个声道的多声道信号得到的原始信号和用于接收描述在多声道信号的第一声道与第二声道之间的相互关系的空间参数；

去相干器，用于通过使用空间参数从原始信号得到去相干信号；

频谱平整器，用于对从去相干信号通过对所述去相干信号或组合信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第一平整信号，并对从原始信号通过对所述原始信号进行高通滤波或上混频或执行滤波器库操作而得到的信号进行频谱平整以得到第二平整信号，频谱平整器用来使得平整后的信号比起在平整之前的相应信号有更平坦的频谱；以及

时间包络整形器，用于通过使用通过比较包括在第一平整信号和第二平整信号的相应部分内的能量而得到的增益因子对从去相干信号得到信号进行时间包络整形。

11.一种接收机，具有如权利要求1所述的用于处理去相干信号或组合信号的设备。

12.一种音频播放器，具有如权利要求1所述的用于处理去相干信号或组合信号的设备。

13.一种接收方法，该方法具有如权利要求9所述的用于处理去相干信号或组合信号的方法。

14.一种音频播放的方法，该方法具有如权利要求9所述的用于处理去相干信号或组合信号的方法。