CN1470049A

CN1470049A - 涉及已编码声音信号的译码的差错消除

Info

Publication number: CN1470049A
Application number: CNA018175899A
Authority: CN
Inventors: S3; S·布鲁恩
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-10-20
Filing date: 2001-09-07
Publication date: 2004-01-21
Anticipated expiration: 2021-09-07
Also published as: KR20030046463A; EP1327242B1; EP1199709A1; CN1288621C; KR100882752B1; JP2004512561A; WO2002033694A1; AU8460801A; JP5193413B2; CA2422790A1; EP1327242A1; DE60136000D1; US20020072901A1; US6665637B2; AU2001284608B2; ATE409939T1

Abstract

本发明涉及在译码的声音信号中的差错消除，该差错是由表示声音信号的编码数据在传输媒质中的传输期间被部分丢失或损坏而引起的。在丢失数据或者接收到损坏数据的情况下，基于一次重建信号产生二次重建信号。这个信号具有频谱调整的频谱(Z₄ ^E)，以致于就频谱形状而言，它与从在先接收到的数据产生的在先重建信号的频谱(Z₃)之间的偏差比一次重建信号的频谱(Z’₄)要小。

Description

涉及已编码声音信号的译码的差错消除

发明背景和现有技术

本发明总地涉及由表示声音信号的编码数据部分丢失或者损坏而引起的译码声音信号中的差错消除。更具体而言，本发明涉及分别按照权利要求1和39的前序部分的从传输媒质接收编码信息形式的数据的一种方法和一种差错消除单元。本发明还涉及分别按照权利要求41和42的前序部分的用于从接收到的编码信息形式的数据生成声音信号的译码器、按照权利要求37的一种计算机程序和按照权利要求38的一种计算机可读媒质。

音频和语音编译码器(编译码器＝编码器和译码器)有很多不同应用。比如，编码和译码方案可用于固定和移动通信系统中和视频会议系统中的声音信号的比特率高效传输。语音编译码器也可用于保密电话和话音存储。

特别在移动应用中，编译码器有时是在恶劣的信道状况下操作。这种非最佳传输状况的一个后果是表示语音信号的编码比特在发送机与接收机之间的某处受到破坏或丢失。今天的移动通信系统和因特网应用的多数语音编译码器都按块操作，其中GSM(移动通信全球系统)、WCDMA(宽带码分多址接入)、TDMA(时分多址接入)和IS95(国际标准-95)构成了一些实例。按块操作的意思是声音源信号被划分为特定时长如20ms的语音编译码器帧。因而一个语音编译码器帧中的信息被编码为一个单元。然而，语音编译码器帧通常还划分为比如具有5ms时长的子帧。然后子帧就是特定参数的编码单元，比如GSM FR-编译码器(FR＝全速率)、GSM EFR-编译码器(EFR＝增强的全速率)、GSM AMR-编译码器(AMR＝自适应多速率)、ITU G.72 9-编译码器(ITU＝国际电信联盟)和EVRC(增强的可变速率编译码器)中的合成滤波器激励的编码。

除了激励参数外，上述编译码器还通过其他参数，比如像LPC参数(LPC＝线性预测编码)、LTP滞后(LTP＝长期预测)和各种增益参数来对声音信号建模。这些参数的特定比特表示的信息对于译码的声音信号的感知声音质量非常重要。如果这些比特在传输当中受到破坏，则收听人至少暂时会感觉译码声音信号的声音质量具有较低的质量。因此如果对应的语音编译码器帧带着差错到达，则忽视这些帧的参数而改为利用原先接收到的正确参数通常是很有利的。这种差错消除技术可以这种形式或者其他方式应用于声音信号通过非理想信道传输的多数系统当中。

差错消除方法通常瞄准的是减轻丢失/损坏的语音编译码器帧的影响，这是通过冻结相对较慢变化的任何语音编译码器参数来进行的。这一差错消除比如可通过GSM EFR-编译码器和GSM AMR-编译码器中的差错消除单元执行，该单元在丢失或损坏的语音编译码器帧的情况中重复该LPC增益和LPC滞后参数。然而，如果几个连续的语音编译码器帧都丢失或损坏，则要应用噪声抑制技术，这会涉及带有衰减因子的增益参数的重复和向其长期平均移动的LPC参数的重复。此外，在接收到一个或者多个损坏帧后第一个正确接收帧的功率电平可能被限制在接收该损坏帧前最后一个正确接收帧的功率电平。这就减轻了译码语音信号中不希望的人工产物，而该人工产物的发生是由于语音合成滤波器和自适应码本在接收到损坏帧期间的差错状态中设置而导致的。

下面涉及改善在发送机与接收机之间的传输期间丢失或者损坏的语音编译码器帧的恶劣影响的可选装置和方面的一些实例。

美国专利5,907,822公布了一种丢失容忍语音译码器，它使用过去信号的历史数据来插入到丢失的数据段中以消除数字语音帧差错。被用于语音压缩参数的一步外插的向后传播所训练的一种多层前馈人工神经网络在丢失帧的情况下抽取必需的参数并产生一个替代帧。

欧洲专利B1,0 665 161描述了用于消除语音译码器中丢失帧的影响的一种装置和一种方法。该文献建议使用话音活动检测器来限制门限值的更新以便能在丢失帧的情况下确定背景声音。后置滤波器通常能使译码信号的频谱发生歪斜。然而，在丢失帧的情况下后置滤波器的滤波系数不被更新。

美国专利5,909,663描述了一种语音编码器，其中通过在接收几个连续的损坏语音帧时避免重复使用相同参数而增强了译码语音信号的感知声音质量。将噪声成分加入激励信号、将激励信号替换为噪声成分或者随机地从包含多个激励信号的噪声码本读出激励信号可以完成这一方面。

通过在受到破坏的语音编译码器帧期间简单地重复最后接收到的未损坏语音编译码器帧的特定谱参数，熟知的用于窄带编译码器的差错消除解决方案在多数环境下一般都提供了令人满意的结果。实际当中，这一规程隐含地保留了译码语音信号的频谱的幅度和形状，直到接收到一个新的未损坏的语音编译码器帧。通过这样保留语音信号的谱幅度和形状，它也隐含地假定该译码器中的激励信号的频谱是平坦的(或白的)。

然而，并非总是这种情况。比如，一个代数码激励线性预测编译码器(ACELP)可产生非白的激励信号。此外，激励信号的谱形状从一个语音编译码器帧到另一帧会有相当大的变化。因而只重复最后接收到的未损坏语音编译码器帧的谱参数会导致译码声音信号的频谱有突然的变化，这当然就意味着体验到的声音质量会较低。

特定地，按照CELP编码范例操作的宽带语音编译码器已证明会遇到上述问题，因为在这些编译码器中合成滤波器激励的谱形状从一个语音编译码器帧到另一帧可能会变化得甚至更加剧烈。

发明概要

因此本发明的目的是提供一种语音编码解决方案，该方案能缓解上述问题。

按照本发明的一个方面，达到该目的是通过接收编码信息形式的数据并将该数据译码为最初描述的声音信号的一种方法，其特征在于，在接收到损坏数据的情况下，基于一次重建信号产生二次重建信号。二次重建信号具有的频谱是一次重建信号的频谱的频谱调整版本，其中就频谱形状而言，它与在先重建信号的频谱之间的偏差比一次重建信号的频谱与在先重建信号的频谱之间的对应偏差要小。

按照本发明的另一方面，达到该目的是通过可直接载入计算机的内部存储器的一种计算机程序，该程序包含用于当该程序在计算机上运行时执行上一段落描述的方法的软件。

按照本发明的一个其他方面，达到该目的是通过计算机可读媒质，该媒质上记录有一个程序，其中该程序使计算机执行上面倒数第二段落中描述的方法。

按照本发明的又一个其他方面，达到该目的是通过最初描述的一种差错消除单元，其特征在于，在接收到损坏数据的情况下，一个频谱纠正单元基于一次重建信号产生二次重建频谱，以致于就频谱形状而言，二次重建频谱的频谱形状与在先重建信号的频谱之间的偏差比基于一次重建信号的频谱要小。

按照本发明的再一个其他方面，达到该目的是通过用于从接收到的编码信息形式的数据生成声音信号的一种译码器。该译码器包括主差错消除单元以产生至少一个参数。它还包括语音译码器以从该主差错消除接收语音编译码器帧、该至少一个参数并且提供声音信号作为响应。此外，该译码器还包括所提出的差错消除单元，其中一次重建信号构成语音译码器产生的译码语音信号而二次重建信号构成增强的声音信号。

按照本发明的再一个其他方面，达到该目的是通过用于从接收到的编码信息形式的数据生成声音信号的一种译码器。该译码器包括主差错消除单元以产生至少一个参数。它还包括激励生成器以接收语音编译码器参数和该至少一个参数并且产生激励信号以响应来自主差错消除单元的该至少一个参数。最后，该译码器包括所提出的差错消除单元，其中一次重建信号构成激励生成器产生的激励信号而二次重建信号构成增强的激励信号。

作为丢失或接收到的损坏数据的结果，所提出的重建频谱的显式生成保证了频谱在接收到未损坏数据的时段与接收到损坏数据的时段之间的平滑过渡。结果，这就提供了译码信号的增强的感知声音质量，特别是对于比如涉及ACELP编码方案的高级的宽带编译码器而言。

附图简述

现在通过优选实施方案并参考附图更详细地解释本发明，这些优选

实施方案公布为实例。

图1是示意按照本发明的差错消除单元的一般框图，

图2示意了包含表示声音信号的编码信息的连续信号帧，

图3示意了基于图2中的信号帧中的编码信息的译码声音信号，

图4示意了对应于图2信号帧的图3中译码声音信号片断的一组频谱，

图5给出包括按照本发明的基于在先未损坏数据生成的频谱、损坏数据的一次重建频谱以及损坏数据的二次重建频谱，

图6是示意按照本发明的差错消除单元的第一实施方案的框图，

图7是示意按照本发明的差错消除单元的第二实施方案的框图，以及

图8是示意按照本发明的一般方法的流程图。

发明的优选实施方案的描述

图1是示意按照本发明的差错消除单元100的框图。差错消除单元100的目的是在接收数据损坏或丢失的情况下产生从接收数据译码的增强信号z_n ^E。该增强的译码信号z_n ^E表示语音信号的参数如激励参数，或者该增强的译码信号z_n ^E本身就是一个声音信号。单元100包含第一变换器101，它接收从该接收的数据得到的一次重建信号y_n。一次重建信号y_n被视为时域的信号并且第一转换器101定期产生一次重建信号y_n的最近接收到的时间片断的、第一频谱形式的一次重建频率变换Y_n。典型地，每个片断对应于该接收的信号的一个信号帧。

第一频谱Y_n被发送到频谱纠正单元102，该单元基于第一频谱Y_n产生二次重建频谱Z_n ^E。产生二次重建频谱Z_n ^E以致于就频谱形状而言它与在先重建信号的频谱之间的偏差比基于一次重建信号y_n的频谱要小。

为了示意这一点，参考图2，图中示意了包含表示一个声音信号的编码信息的连续信号帧F(1)-F(5)。发送机分别以规则的时间间隔t₁、t₂、t₃、t₄、t₅产生信号帧F(1)-F(5)。尽管如此，信号帧F(1)-F(5)不必以相同的规律或者甚至不必以相同的顺序到达接收机，只要它们在足够小的时延内到达以便接收机在译码前能以正确的顺序重新安排该信号帧F(1)-F(5)就可以了。然而，为了简单起见，此例中假定信号帧F(1)-F(5)都适时地到达并且以发送机生成它们的相同顺序到达。初始的三个信号帧F(1)-F(3)无损坏地到达，即包含的信息中没有任何差错。然而，第四个信号帧F(4)在到达译码单元前就已经损坏或者可能完全丢失了。随后的信号帧F(5)又是无损坏地到达。

图3示意了基于图2中的信号帧F(1)-F(5)的译码声音信号z(t)。基于第一信号帧F(1)中包含的信息而生成时域t中第一时刻t₁与第二时刻t₂之间的声音信号z(t)。对应地，基于第二F(2)和第三F(3)信号帧中的信息而生成直到第四时刻t₄的声音信号z(t)。在实际情况下，由于编码时延、传输时间和译码时延，发送机一侧的时刻t₁-t₅与接收机一侧的对应时刻t₁-t₅之间也有偏移。这里又是为了简单起见，而忽略这一事实。

但是，在第四时刻t₄，不存在(或者可能只有不可靠的)接收信息能作为声音信号z(t)的基础。因此，声音信号z’(t₄)-z’(t₅)是基于在第四时刻t₄与第五时刻t₅之间主差错消除单元产生的重建信号帧F_rec(4)。如图3所示，源自重建信号帧F_rec(4)的声音信号z(t)呈现的波形特征与源自相邻信号帧F(3)和F(5)的声音信号z(t)的那部分不同。

图4示意了一组频谱Z₁、Z₂、Z₃、Z₄和Z₅，分别对应于图3中译码声音信号z(t)的片断z(t₁)-z(t₂)、z(t₂)-z(t₃)、z(t₃)-z(t₄)和z’(t₄)-z’(t₅)。译码的声音信号z(t)在时域t中第三时刻t₃与第四时刻t₄之间相对平坦并且因此具有相对较强的低频内容，这用大部分能量处于低频区域的对应频谱Z₃来表示。与此相反，基于重建信号帧F_rec(4)的声音信号z’(t₄)-z’(t₅)的频谱在高频频带包含相对较多的能量并且时域t中的信号z’(t₄)-z’(t₅)表现出相对较快的振幅变化。基于最后接收的未损坏信号帧F(3)的译码声音信号的频谱Z₃与基于重建信号帧F_rec(4)的译码声音信号的频谱Z’₄的对比频谱形状导致声音信号中不希望的人工产物并且收听者感觉到声音质量较低。

图5示意了基于最后接收的未损坏信号帧F(3)的译码声音信号的频谱Z₃与基于重建信号帧F_rec(4)的译码声音信号的频谱Z’₄的放大版本，它们用相应的实线来表示。图中用虚线示意了频谱纠正单元102生成的二次重建频谱Z_n ^E。后一频谱Z_n ^E的频谱形状与基于最后接收的未损坏信号帧F(3)的译码声音信号的频谱Z₃之间的偏差比基于重建信号帧F_rec(4)的译码声音信号的频谱Z’₄要小。比如，频谱Z_n ^E向低频区域的偏移更大。

返回图1，第二变换器103接收到二次重建频谱Z_n ^E、执行逆频率变换并提供构成该增强译码信号的、时域中相应的二次重建信号z_n ^E。图3用虚线示意了这个信号z^E(t₄)-z^E(t₅)，就波形特征而言，它比基于重建信号帧F_rec(4)的声音信号z’(t₄)-z’(t₅)更像从最后接收到的未损坏信号帧F(3)译码的声音信号z(t₃)-z(t₄)。

通过用纠正频谱C_n乘以重建信号帧F_rec(4)的第一频谱Y_n的相位，即Y_n/|Y_n|(其中Y_n表示第一频谱而|Y_n|表示第一频谱的幅度)来产生二次重建频谱Z_n ^E。实际上，可以按照表达式：Z_n ^E＝C_n·Y_n/|Y_n|来执行这一步。

按照本发明的优选实施方案，按照下面所述，纠正频谱C_n的生成是通过在先接收到的未损坏数据F(n-1)。频谱纠正单元102首先生成从在先接收到的未损坏数据F(n-1)产生的信号的在先频谱Y_n-1，它分别对应于图4和5中的Z₃和图3中的F(3)。然后，频谱纠正单元102产生在先频谱Y_n-1的幅度谱|Y_n-1|。

按照本发明的另一优选实施方案，纠正频谱C_n是通过产生从在先接收到的未损坏数据F(n-1)产生的信号的在先频谱Y_n-1而生成的。然后将所得频谱滤波为滤波的在先频谱H(Y_n-1)。最后，产生该滤波的在先频谱H(Y_n-1)的幅度谱|H(Y_n-1)|。

滤波会涉及到对在先频谱Y_n-1的很多可选修改。然而，滤波的总目的总是创建有相应频谱的信号，该频谱是从在先未损坏信号帧译码的信号频谱的平滑重复。因此低通滤波构成一个合理的可选方案。另一个可选方案是在逆谱域(cepstral domain)中平滑。这涉及到将在先(可能是对数的)幅度谱|Y_n-1|变换到逆谱域，丢弃特定阶(如5-7)和以上的逆谱系数，并反变换到频域中。另一个非线性滤波可选方案是将在先频谱Y_n-1划分为至少两个频率子带f₁-f_M并计算各个频率子带f₁-f_M中原始频谱系数的平均系数值。最后，该原始频谱系数被对应的平均系数值所取代。其结果是，总的频带被平滑。频率子带f₁-f_M或者可以是等距的，即将在先频谱Y_n-1划分为等大小的片断，或者是非等距的(如按照Bark或Mel尺度频带划分)。优选的是频谱Y_n-1的非等距对数划分，因为就频率分辨率和响度感知来说，人耳的听力大体上也是对数律的。

此外，频率子带可相互部分重叠。这种情况下要取得重叠区域中的系数值，可通过，第一，用一个窗函数乘以每个频率子带，以及第二，在每个重叠区域中使相邻加窗频率子带的系数值相加来进行。该窗函数在非重叠频率区域中有恒定的幅度，而在相邻频率子带重叠处的上过渡和下过渡区域中幅度逐步下降。

按照本发明的另一优选实施方案，通过减少纠正频谱C_n相对于所谓的目标噪声抑制频谱|Y₀|的动态范围来产生二次重建信号的频谱Z_n ^E。比如，目标噪声抑制频谱|Y₀|可代表声源信号的长期平均值。

动态减少纠正频谱C_n相对于该目标噪声抑制频谱|Y₀|的范围可按照下面的关系式来执行：

C_{n} = {({| Y_{0} |}^{k} + comp ({| Y_{n - 1} |}^{k} - {| Y_{0} |}^{k}))}^{1 / k}

其中Y_n-1表示在先重建信号帧的频谱(注意，此帧并非必须是未损坏的信号帧，而可以是前面重建的损坏或丢失的信号帧)，|Y₀|表示目标噪声抑制频谱，k表示指数，如2，而comp(x)表示压缩函数。压缩函数的特征为具有比输入变量的绝对值要小的绝对值，即|comp(x)|＜|x|。因而，衰减因子η＜1构成压缩函数comp(x)＝η·x的一个简单实例。

优选地，衰减因子η由状态机给出，比如在GSM AMR标准中状态机有七个不同状态。因而衰减因子η可描述为状态变量s的函数η(s)，取值如下：

状态(s)	0	1	2	3	4	5	6
状态(s)	0	1	2	3	4	5	6	η(s)	1	0.98	0.98	0.98	0.98	0.98	0.7

接收到未损坏的数据片，状态变量就置为0。在接收到第一片损坏数据的情况下，它被置为1。如果在接收到第一片损坏数据后接收到随后的损坏数据片，则状态变量s对于每一片接收到的损坏数据都递增一个状态直到状态6。在状态6中和接收到另一片损坏数据时，状态变量保持在状态6。如果状态6中接收到一片未损坏数据，则该状态变量置为状态5，并且如果在此状态5中，接收到随后的一片未损坏数据，则状态变量复位到0。

按照本发明的另一优选实施方案，改为通过减少纠正频谱C_n相对于归一化的目标噪声抑制频谱的动态范围来产生二次重建信号的频谱Z_n ^E。这是通过计算下式来实现的：

C_n＝‖Y_n-1‖·C^s _n/‖C^s _n‖

其中||Y_n-1||表示在先重建信号帧的频谱的L_k范数。矢量Y_n-1＝{y₁，y₂，...，y_m}的L_k范数||Y_n-1||由下式给出：

| | Y_{n - 1} | | = {(\frac{1}{m} Σ_{i = 1}^{m} {| y_{i} |}^{k})}^{1 / k}

其中k是指数，而y_i是Y_n-1的第i个谱系数。此外，按照下面的关系式得出C^s _n：

{C^{s}}_{n} = {({| Y_{0} |}^{k} / {| | Y_{0} | |}^{k} + comp ({| Y_{n - 1} |}^{k} / {| | Y_{n - 1} | |}^{k} - {| Y_{0} |}^{k} / {| | Y_{0} | |}^{k}))}^{1 / k}

其中|Y₀|表示目标噪声抑制频谱，||Y₀||^k表示按照使用的L_k范数的目标噪声抑制频谱功率，k是指数，如2，而comp(x)表示压缩函数。

按照本发明优选实施方案，通过关于按照线性范数L_k的目标功率||Y₀||^k压缩在先重建信号帧的频谱幅度来产生纠正频谱C_n，其中指数k比如等于2。

一般情况当中，通过计算下式来实现该压缩：

C_{n} = | Y_{n - 1} | / | | Y_{n - 1} | | \cdot {({| | Y_{0} | |}^{k} + comp ({| | Y_{n - 1} | |}^{k} - {| | Y_{0} | |}^{k}))}^{1 / k}

其中|Y_n-1|表示在先重建信号帧的频谱的幅度，||Y₀||^k表示按照L_k范数的目标噪声抑制功率，其中k是指数，如2，而comp(x)表示压缩函数。

按照本发明的优选实施方案，纠正频谱C_n用下式描述：

C_n＝η·|Y_n-1|

其中η表示＜1的衰减因子，而|Y_n-1|表示在先重建信号帧的频谱的幅度。

在这种情况下，优选地，衰减因子η也由具有七个不同状态0-6的状态机给出。此外，可应用与所述相同的η(s)值和状态机规则。

按照本发明的优选实施方案，通过首先产生在先重建信号帧的频谱Y_n-1来生成纠正频谱C_n。然后，产生对应的幅度谱|Y_n-1|，而最后用自适应噪声抑制因子γ_m乘以幅度频谱|Y_n-1|的部分m(即第m个子带)。一个简单的实例是只使用包含全部频谱的一个频带(即m＝1)。

按照下式，可由在先重建的信号帧和接收到的损坏数据F(n)反过来得出自适应噪声抑制因子γ_m：

γ_{m} = \frac{\sqrt{Σ_{k = low (m)}^{high (m)} {| Y_{n} (k) |}^{2}}}{\sqrt{Σ_{k = low (m)}^{high (m)} {| Y_{n - 1} (k) |}^{2}}}

其中“low(m)”表示对应于已从重建数据译码的信号频谱的子带f_m的频带下边界的频率系数下标，而“high(m)”表示对应于已从重建数据译码的信号频谱的子带f_m的频带上边界的频率系数下标，|Y_n(k)|表示代表第一频谱中第k个频率分量的系数的幅度，|Y_n-1(k)|表示代表在先频谱中第k个频率分量的系数的幅度。

此外，并非必需再分该频谱。因而，该频谱可只包含一个子带f_m，它具有对应于从重建数据译码信号的整个频带的边界的系数下标。然而，如果要进行子带划分，则优选地按照Bark尺度频带划分或者Mel尺度频带划分进行。

按照本发明的优选实施方案，纠正频谱C_n只影响高于门限频率的频率分量。出于实现的原因，选择该门限频率使之对应于特定的门限系数。纠正频谱C_n因此可用下列表达式来描述：

C_n(k)＝|Y_n(k)| 对于k≤门限系数

C_n(k)＝γ·|Y_n-1(k)| 对于k＞门限系数

其中C_n(k)表示代表纠正频谱C_n中的第k个频率分量的系数k的幅度，|Y_n(k)|表示代表第一频谱中的第k个频率分量的系数k的幅度，|Y_n-1(k)|表示代表在先频谱中的第k个频率分量的系数的幅度，而γ表示＜1的自适应噪声抑制因子。

比如可以选择自适应噪声抑制因子γ为第一频谱Y_n的功率| Y_n|²与在先频谱Y_n-1的功率|Y_n-1|²之比的平方根，即：

γ = \frac{\sqrt{{| Y_{n} |}^{2}}}{\sqrt{{| Y_{n - 1} |}^{2}}}

对于特定的频带，自适应噪声抑制因子γ也可按照下式得出：

γ = \frac{\sqrt{Σ_{k = low}^{high} {| Y_{n} (k) |}^{2}}}{\sqrt{Σ_{k = low}^{high} {| Y_{n - 1} (k) |}^{2}}}

其中“low”表示对应于已从重建数据译码的信号频谱的频带下边界的频率系数下标，而“high”表示对应于已从重建数据译码的信号频谱的频带上边界的频率系数下标，|Y_n(k)|表示代表第一频谱中第k个频率分量的系数的幅度，而|Y_n-1(k)|表示代表在先频谱中第k个频率分量的系数的幅度。典型地，频带下边界可以是0kHz而频带上边界是2kHz。上面描述纠正频谱C_n(k)的表达式中的门限频率可以与频带的上边界重合，但并非必须如此。按照本发明的优选实施方案，门限频率改为3kHz。

因为主差错消除单元一般在频带的较低部分最有效，所以所提出的噪声抑制动作也在此频带中最有效。因而，通过在第一频谱Y_n中迫使高频带功率与低频带功率之比与前面信号帧的相应比值相同，也可使来自主差错消除单元的噪声抑制扩展到频带的较高部分。

现有技术水平的差错消除方法中的一个共同特点在于将丢失或损坏帧后的第一帧的功率电平限制为差错/丢失发生前最后接收到的未损坏信号帧的功率电平。按照本发明，应用类似原理也是很有利的，并且因而将纠正频谱C_n的子带的功率限制为在先接收到的未损坏数据F(n-1)的对应子带的功率。子带比如可定义为表示高于(门限系数k表示的)门限频率的频率分量的系数。这种幅度限制就是要确保在去除一帧后的第一帧中的高频带与低频带的能量比不会被歪曲。幅度限制可用下式来描述：

C_{n} (k) = \min (1, \frac{σ_{h, prevgood}}{σ_{h, n}}) \cdot | Y_{n} (k) |

对于k＞门限系数

其中σ_h，provgood表示从最后接收到的未损坏信号帧F(N-1)得到的信号帧的功率的根，σ_h，n表示从当前信号帧得到的信号帧的功率的根，而|Y_n(k)|表示代表从当前信号帧得到的频谱中第k个频率分量的系数k的幅度。

因为本发明主要是想用于语音信号的编码，所以一次重建信号优选地就是声音信号。此外，编码的语音数据被分段为信号帧，或者更准确地称为语音编译码器帧。语音编译码器帧还可进一步划分为语音编译码器子帧，这同样构成按照本发明的差错消除单元的操作的基础。然后基于特定语音编译码器或者语音编译码器子帧是丢失还是带有至少一个错误接收到来确定损坏的数据。

图6示意了包含差错消除单元100的CELP译码器的框图，其中声音信号a作为一次重建信号y输入该单元。

该译码器包含主差错消除单元603，在接收到损坏的语音帧F的情况下或者如果语音帧F丢失，它就产生至少一个参数p₁。数据质量确定单元601检查所有进入的语音帧F，比如通过执行循环冗余校验(CRC)，从而断定特定语音帧F是正确地还是有错地接收。未损坏的语音帧F经过数据质量确定单元601传递到语音译码器602，该译码器在其输出端生成语音信号a并经过闭合的开关605。

如果数据质量确定单元601检测到损坏或丢失的语音帧F，则单元601激活该主差错消除单元603，该单元603产生表示用于该损坏的语音帧F第一重建的基础的至少一个参数p₁。然后语音译码器602生成第一重建语音信号a以响应该重建的语音帧。数据质量确定单元601还激活该差错消除单元100并打开开关605。因而，第一重建语音信号a作为信号y传递到差错消除单元100以按照所提出的上述方法进一步增强声音信号a。结果得到的增强声音信号a在输出端作为信号zE传递，该信号被进行频谱调整以致于就频谱形状而言其频谱与在先接收到的未损坏语音帧F产生的声音信号a之间的偏差比该第一重建语音信号的频谱要小。

图7示意了按照本发明的差错消除单元的另一应用的框图。这里，数据质量确定单元701接收表示声音源信号的重要特征的进入参数S。在参数S未损坏(比如通过CRC确定)的情况下，将它们传递到激励生成器702。激励生成器702将激励信号e经由开关705传递到合成滤波器704，该滤波器生成声音信号a。

然而，如果数据质量确定单元701发现参数S损坏或者丢失了，则它激活主差错消除单元703，该单元703产生至少一个参数p₂。激励生成器702接收该至少一个参数p₂并提供第一重建激励信号e来对其响应。数据质量确定单元701还打开开关705并激活该差错消除单元100。其结果是，差错消除单元100将激励信号e接收为一次重建信号y。差错消除单元100产生二次重建信号z_E作为响应，该信号被进行了频谱调整以致于就频谱形状而言其频谱与在先接收到的未损坏语音帧F产生的激励信号e之间的偏差比第一重建激励信号的频谱要小。

按照本发明的优选实施方案，主差错消除单元703还将至少一个参数c₁传递给差错消除单元100。这一传送由数据质量确定单元701控制。

为了进行总结，现在参数图8中的流程图描述本发明的一般方法。第一步骤801中接收数据。随后的步骤802检查接收的数据是否损坏，并且如果数据未损坏，则规程继续进行到步骤803。该步骤存储数据用于以后可能的使用。然后，在下一步骤804中，将数据译码成为源信号本身、参数或者源信号相关的信号如激励信号的估计。此后，该规程返回步骤801，以便接收新数据。

如果步骤802检测到接收的数据损坏，则规程继续前进到步骤805，其中检索步骤803中在先存储的数据。因为事实上很多连续的数据片可能都损坏或者丢失了，所以检索的数据不必是刚好在当前丢失或损坏的数据之前的数据。然而所检索的数据仍然是最后接收到的未损坏数据。然后此数据在随后步骤806中得到利用，该步骤产生一次重建信号。该一次重建信号是基于当前接收到的数据(如果有的话)和存储的在先数据的至少一个参数。最后，步骤807基于一次重建信号而产生二次重建信号以致于频谱形状与在先接收到的未损坏数据的频谱之间的偏差比一次重建信号的频谱要小。此后该规程返回步骤801，以便接收新数据。

另一种可能是包含步骤808，该步骤产生并存储基于目前重建帧的数据。在刚好后随的另一帧去除的情况下，在步骤805中可检索此数据。

通过可直接下载到计算机的内部存储器的计算机程序可执行本发明的上述方法，以及其他任何已描述的实施方案。这样一个程序包含软件用于在计算机上运行该程序时执行所提出的步骤。该计算机自然也可存储于任何类型的可读媒介上。

此外，可以想象，将按照本发明的差错消除单元100与进行频域滤波的用于语音编译码器的所谓增强单元放在一起是很有利的。这些单元都在频域以类似方式操作并且都涉及反频率变换到时域。

尽管已提出使用通过执行频域滤波操作得到的纠正幅度频谱C_n来产生上述的二次重建信号，但当然也可通过改而使用相应的时域滤波器而在时域中进行等同的滤波。然后可应用任何的已知设计方法来导出具有近似该纠正幅度频谱C_n的频率响应的滤波器。

本说明书中使用的词“包含”是用来指明存在所述特点、数字、步骤或者分量。然而，该词并不排除存在或者增加一个或多个其他特点、数字、步骤或分量或者其组合。

本发明并不局限于附图所述的实施方案，而可以在权利要求的范围内自由地变动。

Claims

1.一种从传输媒质接收编码信息(F(1)-F(5))形式的数据并将该数据译码为声音信号(z(t))的方法，在丢失或者接收到损坏的数据(F(4))的情况下该方法包含：

基于在先重建信号(F(3))的至少一个参数(p₁；p₂)产生重建数据(F_rec(4))，

从该重建数据(F_rec(4))产生一次重建信号(z’(t₄)-z’(t₅))，该一次重建信号(z’(t₄)-z’(t₅))具有第一频谱(Z’₄)，

其特征在于，

基于该一次重建信号(z’(t₄)-z’(t₅))产生二次重建信号(z_E(t₄)-z_E(t₅))，这是通过对第一频谱(Z’₄)进行频谱调整以致于就频谱形状而言该二次重建信号(z_E(t₄)-z_E(t₅))的频谱(Z₄ ^E)与在先重建信号(z(t₃)-z(t₄))的频谱(Z₃)之间的偏差比第一频谱(Z’₄)要小。

2.按照权利要求1的方法，其特征在于该在先重建信号(z(t₃)-z(t₄))的频谱(Z₃)是从在先接收的未损坏数据(F(3))产生的。

3.按照权利要求1或2的任何一条的方法，其特征在于频谱调整涉及使从该重建数据生成的第一频谱的相位谱乘以纠正频谱(C_n)。

4.按照权利要求3或4的任何一条的方法，其特征在于二次重建信号的频谱(Z_n ^E)可按照表达式：C_n·Y_n/|Y_n|得出，

其中：C_n表示纠正频谱，

Y_n表示第一频谱，

|Y_n|表示第一频谱的幅度。

5.按照权利要求3或4的任何一条的方法，其特征在于产生纠正频谱(C_n)是通过：

产生在先重建信号的在先频谱，以及

产生在先频谱的幅度频谱。

6.按照权利要求5的方法，其特征在于该在先重建信号(z(t₃)-z(t₄))的频谱(Z₃)是从在先接收的未损坏数据(F(3))产生。

7.按照权利要求3或4的任何一条的方法，其特征在于产生纠正频谱(C_n)是通过：

产生从在先接收的未损坏数据产生的信号的在先频谱，

通过对该在先频谱滤波来产生滤波的在先频谱，以及

产生该滤波的在先频谱的幅度频谱。

8.按照权利要求7的方法，其特征在于该滤波涉及低通滤波。

9.按照权利要求7的方法，其特征在于该滤波涉及逆谱域中的平滑。

10.按照权利要求7的方法，其特征在于该滤波涉及：

将在先频谱划分为至少两个频率子带，

对每个频率子带，计算相应频率子带内原始频谱系数的平均系数值，以及

对每个频率子带，用相应的平均系数值替代每个原始频谱系数。

11.按照权利要求10的方法，其特征在于频率子带都是等距的。

12.按照权利要求10或11的方法，其特征在于频率子带至少部分重叠。

13.按照权利要求12的方法，其特征在于频率子带的重叠区域中的所得系数值的取得可通过：

用一个窗函数乘以每个频率子带来产生相应的加窗频率子带，以及

在每个重叠区域中使相邻加窗频率子带的系数值相加。

14.按照权利要求13的方法，其特征在于该窗函数在非重叠频率区域中幅度不变，而在相邻频率子带重叠的上过渡和下过渡区域中幅度逐步下降。

15.按照权利要求3或4的任何一条的方法，其特征在于通过减少纠正频谱(C_n)相对于目标噪声抑制频谱的动态范围来产生该二次重建信号的频谱(Z_n ^E)。

16.按照权利要求15的方法，其特征在于可按照下面关系式产生纠正频谱(C_n)：

{({| Y_{0} |}^{k} + comp ({| Y_{n - 1} |}^{k} - {| Y_{0} |}^{k}))}^{1 / k}

其中：Y_n-1表示在先重建信号帧的频谱，

|Y₀|表示目标噪声抑制频谱，

k表示指数，以及

comp(x)表示压缩函数，使得|comp(x)|＜|x|。

17.按照权利要求16的方法，其特征在于该压缩函数是用表达式η·x描述的衰减函数，

其中：η表示＜1的衰减因子，以及

x表示要压缩的数值。

18.按照权利要求3或4的任何一条的方法，其特征在于通过减少纠正频谱(C_n)相对于归一化的目标噪声抑制频谱的动态范围来产生该二次重建信号的频谱(Z_n ^E)。

19.按照权利要求18的方法，其特征在于按照下面关系式产生纠正频谱(C_n)：

‖Y_n-1‖·C^s _n/‖C^s _n‖

其中：||Y_n-1||表示在先重建信号帧的频谱的L_k范数，

{C^{s}}_{n} = {({| Y_{0} |}^{k} / {| | Y_{0} | |}^{k} + comp ({| Y_{n - 1} |}^{k} / {| | Y_{n - 1} | |}^{k} - {| Y_{0} |}^{k} / {| | Y_{0} | |}^{k}))}^{1 / k}

其中：|Y₀|表示目标噪声抑制频谱，

||Y₀||^k表示按照L_k范数的目标噪声抑制频谱的功率，

k表示指数，以及

comp(x)表示压缩函数，使得|comp(x)|＜|x|。

20.按照权利要求3或4的任何一条的方法，其特征在于通过关于目标噪声抑制频谱的功率而压缩在先重建信号的在先频谱的幅度来产生纠正频谱(C_n)。

21.按照权利要求20的方法，其特征在于按照下面关系式产生纠正频谱(C_n)：

| Y_{n - 1} | / | | Y_{n - 1} | | \cdot {({| | Y_{0} | |}^{k} + comp ({| | Y_{n - 1} | |}^{k} - {| | Y_{0} | |}^{k}))}^{1 / k}

其中：|Y_n-1|表示在先重建信号帧的频谱的幅度，

||Y₀||^k表示目标噪声抑制频谱的L_k范数，

k表示指数，以及

comp(x)表示压缩函数，使得|comp(x)|＜|x|。

22.按照权利要求21的方法，其特征在于按照下面关系式产生纠正频谱(C_n)：

η·|Y_n-1|

其中：η表示＜1的衰减因子，以及

|Y_n-1|表示在先重建信号帧的频谱的幅度。

23.按照权利要求17或22的任何一条的方法，其特征在于衰减因子η由具有七个状态的状态机给出，并用下式描述：

η(s)；其中η(s)取决于状态变量，如下：

η(s)＝1，对于s＝0

η(s)＝0.98，对于s∈[1，5]

η(s)＝0.7，对于s＝6，并且

接收到未损坏的数据，状态变量就置为0，

接收到一片损坏数据，状态变量就置为1，

在接收到第一片损坏数据后，对于随后接收到的每片损坏数据，状态变量都递增一状态，以及

在状态6中，

接收到损坏数据，该状态变量保持等于6，并且

接收到未损坏数据，该状态变量置为状态5。

24.按照权利要求3或4的任何一条的方法，其特征在于产生纠正频谱(C_n)是通过：

产生在先重建信号帧的频谱，

产生在先重建信号帧的频谱的幅度，

用至少一个自适应噪声抑制因子乘以该幅度频谱的至少一个频带，

该至少一个自适应噪声抑制因子是从该在先重建的信号帧得到的，并且是对于该在先重建信号帧的频谱的至少一个频率子带而产生的。

25.按照权利要求24的方法，其特征在于该至少一个自适应噪声抑制因子之一可按照下式得出：

\frac{\sqrt{Σ_{k = low (m)}^{high (m)} {| Y_{n} (k) |}^{2}}}{\sqrt{Σ_{k = low (m)}^{high} {| Y_{n - 1} (k) |}^{2}}}

其中：“low(m)”表示对应于已从重建数据译码的信号频谱子带f_m的频带下边界的频率系数下标，

“high(m)”表示对应于已从重建数据译码的信号频谱子带f_m的频带上边界的频率系数下标，

|Y_n(k)|表示代表第一频谱中第k个频率分量的系数的幅度，以及

|Y_n-1(k)|表示代表该在先频谱中第k个频率分量的系数的幅度。

26.按照权利要求10、24或25的任何一条的方法，其特征在于按照Bark尺度频带划分将该在先频谱和第一频谱分别划分为至少两个频率子带。

27.按照权利要求10、24或25的任何一条的方法，其特征在于按照Mel尺度频带划分将该在先频谱和第一频谱分别划分为至少两个频率子带。

28.按照权利要求3或4的任何一条的方法，其特征在于纠正频谱(C_n)只影响高于门限频率的频率分量，该门限频率对应于特定的门限系数。

29.按照权利要求28的方法，其特征在于纠正频谱(C_n)可用下式描述：

C_n(k)＝|Y_n(k)| 对于k≤门限系数

C_n(k)＝γ·|Y_n-1(k)| 对于k＞门限系数

其中C_n(k)表示代表该纠正频谱(C_n)中的第k个频率分量的系数的幅度，

|Y_n(k)|表示代表该第一频谱中的第k个频率分量的系数的幅度，

|Y_n-1(k)|表示代表该在先频谱中的第k个频率分量的系数的幅度，以及

γ表示＜1的自适应噪声抑制因子。

30.按照权利要求29的方法，其特征在于自适应噪声抑制因子可按照下式得出：

\frac{\sqrt{Σ_{k = low}^{high} {| Y_{n} (k) |}^{2}}}{\sqrt{Σ_{k = low}^{high} {| Y_{n - 1} (k) |}^{2}}}

其中：“low”表示对应于已从重建数据译码的信号频谱的频带下边界的频率系数下标，

“high”表示对应于已从重建数据译码的信号频谱的频带上边界的频率系数下标，

|Y_n(k)|表示代表该第一频谱中第k个频率分量的系数的幅度，以及

31.按照权利要求28-30的任何一条的方法，其特征在于，对于代表高于门限频率的频率分量的系数，将纠正频谱(C_n)的至少一个子带的功率限制为在先接收到的未损坏数据的至少一个子带的功率。

32.按照前述权利要求的任何一条的方法，其特征在于一次重建信号(z’(t₄)-z’(t₅))和二次重建信号(z_E(t₄)-z_E(t₅))是声音信号(a)。

33.按照权利要求1-31的任何一条的方法，其特征在于一次重建信号(z’(t₄)-z’(t₅))和二次重建信号(z_E(t₄)-z_E(t₅))是激励信号(e)。

34.按照权利要求1-33的任何一条的方法，其特征在于数据被分段为信号帧(F(1)-F(5))，并且基于特定信号帧是丢失还是带有至少一个错误被接收到而确定损坏的数据。

35.按照权利要求34的方法，其特征在于信号帧构成语音编译码器帧。

36.按照权利要求34的方法，其特征在于信号帧构成语音编译码器子帧。

37.一种可直接装载到计算机的内部存储器的计算机程序，该程序包含软件，用于在该计算机上运行该程序时执行权利要求1-36的任何一条的步骤。

38.一种计算机可读媒质，其上记录有一个程序，其中该程序使计算机执行权利要求1-36的任何一条的步骤。

39.一种差错消除单元，用于在丢失数据或接收到损坏数据的情况下对编码信息形式的已接收数据译码的信号进行增强，该单元包含，

第一变换器(101)，它具有输入端以接收从该接收数据(F(n))译码的一次重建信号(y_n)，和输出端以提供一次重建频率变换(Y_n)，

频谱纠正单元(102)，它具有输入端以接收该一次重建频率变换(Y_n)，和输出端以提供二次重建频谱(Z_n ^E)，以及

第二变换器(103)，它具有输入端以接收该二次重建频谱(Z_n ^E)，和输出端以提供一个二次重建信号(Z_n ^E)，

其特征在于

频谱纠正单元(102)基于一次重建信号(y_n)产生该二次重建频谱信号(Z_n ^E)以致于就频谱形状而言该二次重建频谱信号(Z_n ^E)与在先重建信号(y_n-1)的频谱(Z₃)之间的偏差比基于该一次重建信号(y_n)的频谱(Z’₄)要小。

40.按照权利要求39的差错消除单元，其特征在于从在先接收到的未损坏数据(F(3))产生在先重建信号(z(t₃)-z(t₄))的频谱(Z₃)。

41.一种用于从编码信息形式的已接收数据生成声音信号的译码器，该译码器包含：

主差错消除单元(603)，经由输出端产生至少一个参数(p₁)，

语音译码器(602)，具有第一输出端以接收语音编译码器帧(F)、第二输入端以接收该至少一个参数(p₁)和输出端以提供声音信号(a)来响应该至少一个参数(p₁)，

其特征在于该译码器包含按照权利要求37的差错消除单元，其中该一次重建信号(y_n)构成该语音译码器(602)产生的译码语音信号并且该二次重建信号(z_n ^E)构成增强的声音信号。

42.一种用于从编码信息形式的接收数据生成声音信号的译码器，该译码器包含：

主差错消除单元(703)，经由输出端产生至少一个参数(p₂)，

激励生成器(702)，具有第一输入端以接收语音编译码器参数(S)、第二输入端以接收该至少一个参数(p₂)，和输出端以提供激励信号(e)来响应该至少一个参数(p₂)，

其特征在于该译码器包含按照权利要求37的差错消除单元，其中该一次重建信号(y_n)构成激励生成器(702)产生的激励信号并且该二次重建信号(z_n ^E)构成增强的激励信号。