CN1275234A

CN1275234A - 采用附加的滤波器阵列在帧边界处衰减频谱邻频干扰的基于帧的音频编码

Info

Publication number: CN1275234A
Application number: CN98810093A
Authority: CN
Inventors: 路易斯·杜恩·非尔德尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 1997-10-17
Filing date: 1998-10-15
Publication date: 2000-11-29
Anticipated expiration: 2018-10-15
Also published as: US5903872A; JP4126680B2; CN1199179C; DK1023730T3; JP2001521308A; AU1360899A; EP1023730B1; DE69802959D1; AU745914B2; ATE210881T1; DE69802959T2; CA2305237C; TW391137B; CA2305237A1; HK1033194A1; MY117166A; BR9812921A; WO1999021187A1; KR20010024341A; BR9812921B1

Abstract

可以按照不同的组合方式来使用几种音频信号处理技术,以改进通过拼接编辑两个以上的其他信息流而形成的一个信息流所代表的音质。在将音频信息跟视频信息捆绑在一起的各种应用中,这种技术是特别有用的。在一种技术中,在音频信息流中所载运的各增益控制字被用来对跨越一个接合部的回放声音电平进行内插计算。在另一种技术中,特定的各种滤波器阵列或者各种TDAC变换形式被用来抑制出现在一个接合部两侧的各种混叠伪差。在又一种技术中,特定的滤波器阵列或者交叉衰落窗口函数被用来优化对产生于接合部的频谱邻频干扰的衰减。在再一种技术中,根据各种帧长度和频率来转换音频采样率,使得音频信息得以跟,例如,视频信息捆绑在一起。在还一种技术中,各音频块被动态地对准,使得在跨越一个接合部时,能保持良好的同步关系。讨论了一个(采样率为)48kHz的音频跟NTSC视频相组合的实例。

Description

采用附加的滤波器阵列在帧边界处衰减频谱邻频干扰的基于帧的音频编码

本发明涉及音频信号处理，在其中，音频信息流被排列成信息帧的形式。特别是，本发明涉及改进音频信息流的音质，上述音频信息流是通过将基于帧的诸音频信息流加以拼接而形成的。

编辑音频或视频素材的过程实质上是将两段素材拼接或对接(其中之一)在一起的过程。一个简单的编辑范例就是剪接动画电影胶片的过程。待拼接的两段素材可以取自不同的来源，例如，音频信息的不同声道，或者它们可以取自相同的来源。无论在哪一种情况下，拼接过程通常会在音频或视频素材中产生可觉察的或不可觉察的不连续性。

音频编码

块处理

数字音频的日益增长的应用使得它难以在不产生可听见的各种伪差的条件下去编辑音频素材。这种情况的出现，部分地是由于必须以块的形式频繁地对诸数字样本块进行处理或编码。许多感知的或基于心理声学的音频编码系统利用滤波器阵列或者各种变换，将各信号样本块转换为已编码的子带信号样本的诸块或者各种变换系数，它们必须经过合成滤波或者被逆变换为各块，以便恢复原始信号的一个复制品。起码，必须在一个块的边界上来完成已处理的音频信号；否则，由剩余的部分块所代表的音频信息不能完全地被恢复。

在本文的以下部分中，诸如“编码”以及“编码器”这样的名词指的是用于信号处理的各种方法和装置，诸如“已编码的”这样的其他名词指的是这样的处理的诸结果。在这些名词中，没有一条隐含着任何特定的处理方式，例如在一组信号中降低信息的无关性或冗余度。例如，编码包括产生代表一组信号的脉冲编码调制(PCM)诸样本，并按照某种规格将信息排列成样板或格式。在本文中使用的诸如“块”和“帧”这样的名词指的是跟这些名词在别处(例如在ANSIS4.40-1992标准，有时也称为AES-3/EBU数字音频标准中)所指的对象不同的那些信息的诸分组或诸间隔，本文所使用的名词“滤波器”和“滤波器阵列”基本上包括任何形式的递归的和非递归的滤波方法，例如正交镜像滤波器(QMF)和变换，并且“已滤波”的信息是使用这样的滤波器所得到的结果。下面将对通过各种变换来实现的滤波器阵列作出更专门的说明。

使用重叠的块结构来处理和编码节目素材的各种编码系统对编辑工作产生了附加的限制。由于已编码的各块的重叠的性质，所以即使从已编码的诸样本或诸系数的一个完整的块，也无法完全地恢复原始信号。

借助于一种常用的重叠块变换，就能清楚地说明这种限制，这种修正的离散余弦变换(DCT)，在Princen，Johnson和Bradley合写的题为《使用基于时域混叠抵消的滤波器阵列设计的子带/变换编码》的论文中对此作了叙述，该文被收入1987年国际声学、语音和信号处理会议论文集，1987年5月，第2161-2164页。这种变换是一种奇数堆栈临界采样单边带分析-合成系统的时域等价物，并且在本文中被称为奇数堆栈时域混叠抵消(O-TDAC)方法。对以半个块长互相重叠的诸样本块实施正变换，并且通过将诸变换系数除以2来获得临界采样；然而，由于这种缩减所带来的信息损失将在已恢复的信号中产生时域混叠。通过对诸变换系数的诸块实施逆变换以产生合成样本的诸块，对已合成样本的诸块施加一个形状合适的合成窗口函数，以及对窗口内的诸块进行重叠和相加，该合成过程就能抵消这种混叠。例如，若一个TDAC编码系统产生诸块B1-B2的一个序列，则处于块B1的后半部和块B2的前半部之中的混叠伪差将互相抵消。

若来自一个TDAC编码系统的两组已编码的信息流在一个块的边界处被拼接，则所得到的诸块的序列将不能抵消互相之间的混叠伪差。例如，假设一段已编码的信息流被剪断，使得它结束于介于诸块B1-B2之间的一个块边界上，并且另一个已编码的信息流被剪断，使得它开始于介于诸块A1-A2之间的一个块边界上。若这两段已编码的信息流被拼接，并使得块B1紧挨着块A2的前面，则处于块B1的后半部以及块A2的前半部的各种混叠伪差通常也将无法互相抵消。

现有技术的方法和装置不是忽略了这个问题就是提出了不能令人满意的解决方案。一种解决方案通过从每一组已编码的音频流中恢复或解码原始音频信号，来降低未被抵消的混叠伪差的可听度。将一组音频流交叉衰落(平滑过渡)到另一组，并且将所得到的交叉衰落流再编码为一组新的已编码音频流。不幸的是，解码/再编码过程使所得到的结果信号恶化，该过程的开销很大，使得它没有吸引力，并且由于交叉衰落无法取消，所以紧挨着接合部两侧的原始信号不能独立地被恢复。

频谱邻频干扰

拼接编辑产生了现有技术无法解决的另一个问题。在像感知编码那样的分割频带感知编码技术中，这个问题带来特别的麻烦。感知分割频带编码方法将一个滤波器阵列施加到输入信号上，以产生具有与人的听觉系统的临界带宽相当的带宽的诸子带信号或者诸变换系数组。理想地，用刚好足够的位数来对每一组子带信号或者变换系数组进行量化或编码，并且通过让噪声被原始信号中的频谱成分所掩盖，来使所得到的量化噪声变为听不见。编码性能显著地受到施加于输入信号以产生子带信号或诸变换系数的滤波器阵列的频率响应特性的影响。一般来说，通过在滤波器阻带的频率上增加衰减来换取较宽的滤波器通带，使这些特性得以优化。例如，见美国专利第5,109,417号。

拼接编辑倾向于在通常处于滤波器通带或介于通带与阻带之间的过渡区域内的频率范围内(并且不在滤波器阻带范围内)，产生显著的假频谱成分或者“频谱邻频干扰”，因此，为了优化总的编码性能而设计的滤波器阵列对在拼接编辑中产生的频谱邻频干扰并不提供足够的衰减。由于这些伪差通常是如此之大，以致不能被原始信号所掩盖，所以它们通常是听得见的。

音频与视频编码

帧同步

对处理音频和视频信息的编辑应用施加更多的限制至少是由于两个原因。一个原因是视频帧的长度通常不等于音频块的长度。第2个原因仅仅跟某些视频标准有关，像NTSC标准那样，其帧频不是音频采样率的整数倍。在下面所讨论的所有实例中，都假设音频采样率为每秒48k个样本。大多数专业设备都使用这个采样率。类似的考虑也应用到其他采样率之中，例如每秒44.1k个样本，这个采样率典型地应用于家电产品之中。

表I和表II分别地示出了几种视频和音频编码标准的帧与块的长度。在表中，针对“MPEG II”和“MPEG III”的各行指的是由国际标准化组织的活动图像专家组在标准ISO/IEC 13818-3中所指定的MPEG-2第2层以及MPEG-2第3层的编码技术。针对“AC-3”这一行指的是由杜比实验室公司开发、并且由高级电视系统委员会在标准A-52中指定的一种编码技术。针对48kHz PCM的“块长”为介于相邻各样本之间的时间间隔。视频标准帧长度音频标准块长度DTV(30Hz) 33.333msec. PCM 20.8μsec.NTSC 33.367msec. MPEGII 24msec.PAL 40msec. MPEGIII 24msec.Film 41.667msec AC-3 32msec.【表I】【表II】表I各种视频帧表II各种音频帧

在视频与音频信息被捆绑在一起的应用中，各音频块与各视频帧之间很少得到同步。介于音频/视频同步的两次出现之间的时间间隔示于表III。例如，该表表示，每秒24帧的动画电影胶片跟MPEG音频块边界之间，每3秒种精确地出现一次同步，并且跟一个AC-3音频块之间，每4秒种精确地出现一次同步。音频标准 DTV(30Hz) NTSC PAL 电影胶片PCM 33.333msec. 166.833msec. 40msec. 41.667msec.MPEG II 600msec. 24.024sec. 120msec. 3sec.MPEG III 600msec. 24.024sec. 120msec. 3sec.AC-3 800msec. 32.032sec. 160msec. 4sec.

表III介于音频/视频同步之间的时间间隔

介于两次同步之间的间隔，以音频块与视频帧的比例数字示于表IV。例如，在跨越5个音频块和4个视频帧的一段间隔内，介于诸AC-3块和诸PAL帧之间精确地出现一次同步。值得注意的是，要求5个NTSC帧跟8008个PCM音频样本同步。这种关系的重要性将在下面讨论。音频标准 DTV(30Hz) NTSC PAL 电影胶片PCM 1600∶1 8008∶5 1920∶1. 2000∶1MPEG II 25∶18 1001∶720 5∶3 125∶72MPEG III 25∶18 1001∶720 5∶3 125∶72AC-3 25∶24 1001∶960 5∶4 125∶96表IV介于音频/视频同步之间的帧的数目

当视频和音频信息被捆绑在一起时，通常在一个视频帧的边界上进行编辑。从表III和IV所示的信息中可以看出，这样的编辑很少出现在一个音频帧的边界上。例如，对于NTSC视频和AC-3音频来说，同时在一个视频帧边界和一个音频块边界上进行编辑的概率仅为1/960或者约为0.1％。当然，在一个接合部两侧的编辑应当按照这种方式加以同步，否则，某些音频信息将会丢失；因此，用于两次随机的编辑的一个NTSC/AC-3信息的一个接合部将出现在一个音频块边界以外，并且将导致一或两块音频信息的丢失，这几乎是肯定无疑的。由于AC-3使用一种TDAC变换，然而，即使在不丢失信息块的情况下，由于以上讨论的原因，也将导致未抵消的混叠畸变。

这个问题类似于前面所讨论的音频块处理问题。现有技术的各种方法与装置不是忽略了视频/音频帧问题，就是它们已经提供了类似的不能令人满意的解决方案，即：通过从视频信息中分解出音频信息，对已编码的音频信息进行解码，编辑已恢复的音频信息，以及用视频信息进行再编码和重建音频信息，来实现音频的“后期处理”。

数据同步

前面已经指出，要求5帧NTSC视频跟8008个每秒48k个样本的PCM音频样本保持同步。换句话说，NTSC视频帧不能将音频信息整除为整数个样本。每一个NTSC帧对应于1601.6个样本。类似地，NTSC帧也不能将已编码的音频信息划分为由整数个样本或系数组成的各块。通过将诸音频样本排列成诸音频帧的一个不断重复着的序列，分别包括，例如，1602，1601，1602，1601和1602个样本，就能解决这个问题，然而，由于只能在5帧序列(在本文中称为一个“超帧”)的开始处完成编辑工作，所以这甚至会对编辑应用产生更多的限制。不幸的是，在许多应用中，无论是视频信息，或者是跟视频捆绑在一起的音频信息，都不会给出关于超帧诸边界的任何表示。

在许多编码应用中，在一个超帧里面的各变长音频块还导致另一个问题。如上所述，许多编码应用都以块的形式来处理已编码的信息。除非该信号载有某种形式的同步信号，一个解码器无法知道每一个超帧的边界在何处，或者一次编辑是否删除了一个超帧的某些部分。换句话说，解码器无法知道每一个音频帧或块的边界在何处。有可能将边界中的不确定性降低到一个样本那样小；然而，当以块的形式来处理音频信息时，一个样本的误差对于已编码的音频信息的恢复来说是足够的。

本发明的一个目的是，改进由拼接两个或多个基于帧的音频信息流而形成的一个音频信息流所代表的音质。

根据本发明的一个方面的讲授内容，一种用于信号处理的方法或装置接收一组按帧排列的输入信号，每一帧包括多块已滤波的音频信息，接收一组控制信号，它标识一个紧挨着一个第2输入信号帧的第1输入信号帧，通过在第1输入信号帧的结尾处向一个终了块施加一个第1合成滤波器阵列，产生一个第1临时信号块，通过在第2输入信号帧的开始处向一个起始块施加一个第2合成滤波器阵列，产生一个第2临时信号块，并且通过向一个或多个已滤波的其他音频信息块施加一个第3合成滤波器阵列，产生一个或多个第3临时信号块，其中第1合成滤波器阵列是这样，使得在第1临时信号块中的诸样本代表已经按照一个第1频率响应进行滤波的音频信息，第2合成滤波器阵列是这样，使得在第2临时信号块中的诸样本代表已经按照一个第2频率响应进行滤波的音频信息，并且第3合成滤波器阵列是这样，使得在第3临时信号块中的诸样本代表已经按照一个第3频率响应进行滤波的音频信息，并且其中第3频率响应在一个特定频率上优化了频谱能量的衰减，以及第1和第2频率响应在低于指定频率的一个频率范围内，优化了频谱能量的衰减，同时通过使相邻的各临时块重叠并将对应的重叠信号样本相加，来产生一组输出信号。

根据本发明的另一个方面的讲授内容，一种用于信号处理的方法或装置接收一组按帧排列的输入信号，每一帧包括多块已滤波的音频信息，接收一组控制信号，它标识一个紧挨着一个第2输入信号帧的第1输入信号帧，通过在第1输入信号帧的结尾处向一个终了块施加一个第1合成滤波器阵列，产生一个第1临时信号块，通过在第2输入信号帧的开始处向一个起始块施加一个第2合成滤波器阵列，产生一个第2临时信号块，并且通过向一个或多个已滤波的其他音频信息块施加一个第3合成滤波器阵列，产生一个或多个第3临时信号块，其中第1合成滤波器阵列是这样，使得在第1临时信号块中的诸样本代表已经按照一个第1频率响应进行滤波的音频信息，第2合成滤波器阵列是这样，使得在第2临时信号块中的诸样本代表已经按照一个第2频率响应进行滤波的音频信息，并且第3合成滤波器阵列是这样，使得在第3临时信号块中的诸样本代表已经按照一个第3频率响应进行滤波的音频信息，并且其中第1和第2频率响应相对于一个对应于其形状像一个在大约5毫秒间隔上的线性递减斜坡的脉冲响应的参考响应来说，优化了频谱能量的衰减，同时通过令相邻的各临时块重叠并将对应的重叠信号样本相加，来产生一组输出信号。

通过参照以下的讨论和诸附图，将能更好地理解本发明的各种特征及其优选的诸实施例，在若干附图中，相同的参考数字表示相同的元件。说明各种装置的诸附图表示出主要的部件，这对理解本发明是有帮助的。为了明确起见，这些附图省略了在实际的实施例中可能是重要的、但对理解本发明的概念来说是不重要的其他各种特征。为实践本发明所需的信号处理可以通过多种途径来完成，包括由微处理器、数字信号处理器、逻辑阵列以及其他形式的计算电路来执行的程序。实质上可以用任何方法来实现诸信号滤波器，包括递归的、非递归的以及格子数字滤波器。根据该项应用的各种需求和特性，可以按照不同的组合方式来使用数字的和模拟的技术。

关于处理音频和视频信息流的条件将作出更专门的说明，然而，本发明的诸方面可以在不包括视频信息处理的应用场合中来实行。以下的讨论和诸附图的内容仅作为实例而被说明，并且不应当被理解为对本发明的范围施加各种限制。

图1a和1b是被排列成各块、各帧和各超帧的视频和音频信息的概略的表示。

图2a到2c是被各窗口函数调制的各重叠块以及含有各窗口块的诸帧的所得到的增益包络的概略表示。

图3表示由一种混叠抵消变换产生的信号与诸混叠成分。

图4a到4c是表示在一个已编码的信息流中，生成、改变和响应于各增益控制字的诸装置的功能框图。

图5a和5b是采用交替的滤波器阵列来抑制在帧边界处的各种混叠伪差的功能框图。

图6a到6d是可以被用来抑制在帧边界处的各种混叠伪差的诸窗口函数的概略表示。

图7表示通过在各帧边界处使用各种窗口函数所得到的诸频率响应特性。

图8表示采用交替的滤波器阵列以增加在接合部处的频谱邻频干扰衰减的一个装置的功能框图。

图9、10a和11a是关于图8的装置的几个窗口函数的概略表示。

图10b和11b是在图8的装置中，通过使用各种窗口函数所得到的诸频率响应特性。

图12a和12b是提供采样率变换，以便在各音频样本和各视频帧之间获得同步的诸装置的诸功能框图。

图13a和13b是提供动态音频帧对准，以便跟跨越一个接合部的诸视频超帧获得同步的诸装置的诸功能框图。

图14是各种视频帧特性以及跨越一个接合部的动态音频帧对准的效果的概略表示。

诸信号及其处理

各信号块和各帧

图1a说明被排列在各音频(数据)块10到18的一个序列之中的已编码的音频信息流，以及被排列在一个视频帧(例如视频帧1)序列之中的视频信息流。在某些格式(制式)中，例如NTSC视频，每一个视频帧包括两个视频场，它们合起来定义一幅单独的画面或图像。各音频块11到17跟视频帧1组合为一个已编码的信号帧21。

如上所述以及如表IV所示，某些应用具有这样的视频帧，它们不能把已编码的音频整除为整数个样本或诸变换系数之类。通过将已编码的诸信号帧的诸小组安排到各自的超帧中，就能适应这种情况。在图1b中示出了将5个已编码的信号帧21到25组合为超帧31的一种安排。这种特定的安排可以用于使用NTSC视频和每秒48k个样本的PCM音频的应用中。

已处理的诸信号块

已编码的音频信息块的序列可以表示一组音频信号的互相重叠的诸间隔。例如，某些分割频带的感知编码系统处理以半个块长互相重叠的诸音频样本块。典型地，在这些互相重叠的诸块中的诸样本被一个分析窗口函数所调制。

图2a表示将一个分析窗口函数施加到一个互相重叠的诸音频块的一个序列中的每一块之后所得到的诸调制包络61到67。重叠的长度等于块长的一半。长度间隔通常被某些信号分析-合成系统，例如上述的O-TDAC变换，所使用。

图2b表示针对一个已编码的信号帧而施加到互相重叠的各块的一个序列中去的一个窗口函数的所得到的调制包络。如图2b所示，这种调制的净效果或增益包络81就是在重叠的诸间隔中相邻各块的调制包络之和。最好是，跨越每一个重叠(块)的净效果应当是单位(unity)增益。

图2c表示跨越相邻的已编码信号帧的窗口函数调制的总的效果。如图所示，增益包络80到82互相重叠并相加，使得净效果为单位增益。

在仅使用分析窗口函数的那些系统中，所有窗口函数调制的净效果等效于单独由分析窗口函数所产生的诸调制效果。通过保证分析窗口函数的调制包络互相重叠和相加为一个常数，就能得到理想的增益包络。

在使用分析和合成诸窗口函数的那些系统中，所有窗口函数调制的净效果等效于由分析窗口函数以及合成窗口函数的一个乘积所形成的一个“乘积”窗口函数。在这样的系统中，通过让在重叠间隔中的乘积窗口函数的调制包络相加为一个常数，就能得到理想的增益包络。

贯穿这里所公开的是，针对使用分析与合成这两种窗口函数的各种编码系统和各种方法来进行叙述。在本文中，从互相重叠的诸分析窗口函数所得到的增益包络有时可以被说成是等于一个常数。类似地，从互相重叠的诸合成窗口函数所得到的增益轮廓有时可以被说成是等于一个常数。应当理解，这样的叙述旨在把问题归结为在该系统中所有窗口的净调制效果。

窗口函数

分析窗口函数的形状不仅影响到信号的增益包络，而且它还影响到一个对应的滤波器阵列的频率响应特性。

频谱邻频干扰

如上所述，在许多分割频带的感知编码系统中，通过增加在滤波器中的阻带诸频率上的衰减，以取代一个较宽的滤波器通带，从而使用具有为感知编码而优化的各种频率响应特性。遗憾的是，在不属于滤波器阻带范围以内的一个频率范围内，拼接编辑倾向于产生显著的频谱伪差或者“频谱邻频干扰”。被设计用来优化总的感知编码性能的诸滤波器阵列不会提供足够的衰减，使得在拼接编辑过程中所产生的这些频谱伪差变为听不见。

TDAC变换混叠抵消

就O-TDAC而言，分析窗口函数，连同在应用合成变换之后所施加的一个合成窗口函数一起，还应当满足许多约束条件，以便抵消各种时域混叠伪差。

通过合成变换所恢复的信号可以被概念化为原始信号以及由分析变换所产生的时域混叠成分之和。在图3中，诸曲线91、93和95表示从逆变换或合成变换所恢复的、并且受到分析与合成窗口函数调制的一组输入信号的振幅包络的一些区段。诸曲线92、94和96表示从逆变换或合成变换所恢复的、并且受到分析与合成窗口函数调制的时域混叠成分。正如在图中可以看到的以及将在下面说明的那样，时域混叠成分是由于受到分析与合成窗口函数的调制而反射的原始输入信号的复制品。

分析与合成O-TDAC变换的诸核心函数被设计成用以产生各种时域混叠成分，它们是在一个数据块的每一个半块中用窗口截取的信号的端对端的反射物。如Princen等所公开的那样，O-TDAC变换在两个不同的区域中产生时域混叠成分。在区域2，时域混叠成分是在该区域中原始信号的一个用窗口截取的端对端反射物。在区域1，时域混叠成分是在该区域中输入信号的一个用窗口截取的端对端反射物。但该反射物的振幅被倒置。

例如，混叠成分94a是信号成分93a的一个用窗口截取的端对端反射物。除了反射成分的振幅被倒置以外，混叠成分92b也是信号成分91b的一个用窗口截取的端对端反射物。

通过让相邻的各块互相重叠和相加，使原始信号得以恢复，并且各混叠成分得以抵消。例如，信号成分91b和93a被叠加，以便恢复没有窗口函数调制影响的信号，并且混叠成分92b和94a被叠加，以便抵消混叠。类似地，信号成分93b和95a被相加，以便恢复信号，并且混叠成分94b和96a被叠加，以便抵消混叠。

由于紧挨着接合部前面的已合成的诸音频样本的半块中的诸混叠伪差不等于紧挨着接合部后面的已合成的诸音频块的半块的诸混叠伪差的倒置产物，所以在一个接合部边界两侧的诸时域混叠伪差通常不能互相抵消。

例如作者Princen和bradley在《基于时域混叠抵消的分析/合成滤波器阵列设计》一文中所述，类似的考虑也应用于其他的混叠抵消滤波器阵列(见《IEEE声学、语音和信号处理汇刊》，ASSP-34卷，1986年，第1153-1161页)。这种滤波器阵列系统是一个偶堆栈临界采样单边带分析-合成系统的时域等价物，并且在本文中被称为偶堆栈时域混叠抵消(E-TDAC)。

用以衰减在接合部的各种伪差的增益控制

一种可以用来降低由一个接合部产生的各种伪差的可听度的技术就是将多个增益控制字纳入到一组已编码的音频信号之中，上述增益控制字指示一个解码器或回放系统去改变回放信号的幅度。在以下各段中将讨论使用这些控制字的诸装置的简单的诸实施例。

图4a表示装置100的一份功能框图，在其中，格式器111沿着通路112产生一组被排列为诸帧的输出信号，该信号包括视频信息、代表多条音频信道的已编码的音频信息，以及各增益控制字。响应于从通路108接收的一组信号，该信号被排列为运送视频信息以及针对多条音频信道的已编码的音频信息的诸帧的形式，并且响应于从运送各增益控制字的通路110接收的一组信号，格式器111产生输出信号。过程109从诸通路103a和103b接收多组控制信号，其中的每一组都跟多条音频信道中的一条有关，并且响应于每一组控制信号，沿着通路110为一条有关的音频信道产生一对增益控制字，它们表示在一个各自的帧里面的一个起始增益以及一个终了增益。为了简明起见，在图中仅示出了两组控制信号103和两条有关的音频信道102。必要时，这种增益控制技术可以应用于两条以上的声道。

在所示的实施例中，响应于从通路102a和102b接收的多组音频信道信号，编码器105沿着通路106a和106b为多条音频信道产生已编码的音频信息，并且通过以帧的形式来排列从通路101接收的视频信息以及从通路106a和106b接收的已编码的音频信息，成帧器107沿着通路108产生该信号。

增益控制技术可以用于类似于沿着通路108通过的信号的诸输入信号，因此，用不着编码器105，也用不着成帧器107。在含有编码器105的各实施例中，可以独立地对每一条音频信道进行编码，也可以联合地对多条音频信道进行编码。例如，可以联合地对两条或多条声道使用AC-3编码技术，通过取销或降低介于各声道之间的冗余度来降低总的带宽要求。

图4c表示装置140的一个功能框图，装置140根据在一组输入信号中的增益控制字来产生诸输出信号，以便再现或回放多条音频信道的信息。去格式器142从通路141接收一组被排列为帧的形式的输入信号，其中包括视频信息、已编码的音频信息，以及各增益控制字。去格式器142从每一帧输入信号中获得代表多条音频信道的已编码的音频信息，以及获得跟每一条音频信道有关的一对增益控制字。过程148从从通路145接收各增益控制字，并且作为响应，沿着通路149a和149b产生各增益控制字。解码器146从通路144a和144b接收多条声道的已编码的音频信息，并且作为响应，为每一条音频信道产生一组输出信号，因此，响应于一组有关的增益控制信号，每一组输出信号的幅度或电平将发生改变。

一对增益控制字表示在一个特定帧里面针对一条有关的音频信道的一个起始增益和一个终了增益。步骤148产生表示这对增益控制字的一个内插值的增益控制诸信号。可以遵循任何所希望的轨迹，例如直线、二次曲线、对数或指数曲线来进行内插。例如，在直线性内插的情况下，增益控制信号将代表在一个特定帧的范围内按线性规律发生变化的一个增益。

可以独立地对每一条音频信道进行解码，也可以联合地对多条音频信道进行解码。例如，解码过程对那些取消或降低介于各声道之间的冗余度的编码过程的各种形式来说，起到互补的作用。在使用一个合成滤波器阵列以及一个合成窗口函数的分割频带编码应用中，通过在应用合成滤波器阵列之前修改已编码的音频，通过在应用合成窗口函数之前修改从合成滤波器阵列中获得的合成音频，或者通过修改从应用合成窗口函数而获得的音频信息，就能根据一个增益控制信号来有效地调制输出信号。

图4b表示用以修改现有的各增益控制字的装置120的一份功能框图。去格式器123从通路121接收一组排列成诸帧的输入信号，其中包括视频信息、代表多条音频信道的已编码的音频信息，以及各输入控制字。去格式器123从输入信号中获得跟针对一条或多条音频信道的已编码音频信息有关的一个或多个输入增益控制字，并沿着通路124a和124b传送诸输入增益控制字。响应于从通路122接收的一组控制信号，步骤126通过修改一个或多个输入增益控制字，沿着通路127产生一个或多个输出增益控制字。格式器128沿着通路129产生一组被排列成诸帧的输出信号，其中包括视频信息、针对多条音频信道的已编码的音频信息，输出增益控制字，以及跟各输出增益控制字不相符合的各输入控制字。

在一种编辑应用中，控制信号122指示在输入信号中的一个接合部。作为响应，步骤126产生一个或多个输出增益控制字，它(们)将使得一个装置，例如装置140，在紧挨着接合部的前面去衰减一组回放信号，并且紧挨着接合部的后面，让衰减量按相反方向变回来。增益的改变可以延伸到跨越若干帧，然而，在许多应用中，这种改变被限制在接合部任何一侧的1帧上。通过平衡由增益改变乘以增益改变本身的可听度所产生的调制产物的可听度，就能确定增益改变的间隔。增益控制字技术不局限于编辑应用。

用以在帧边界处抑制混叠的滤波器阵列

在使用一种混叠抵消(例如一种由TDAC变换所提供的)形式的编码系统中，由于上面所讨论的原因，拼接编辑妨碍了在接合部每一侧的诸混叠伪差的互相抵消。通过在每一帧的开始和结尾对各音频块施加交替的滤波器阵列，就能避免这些未被抵消的混叠伪差。例如，参照图1a的帧21，一个第1滤波器阵列被施加于块11，一个第2滤波器阵列被施加于块12到16，以及一个第3滤波器阵列被施加于块17。这些滤波器阵列具有这样的特性，使得从每一帧所恢复的音频基本上不含有未被抵消的混叠伪差。

参照图5a，装置200包括缓冲存储器202，它接收各音频信息块，并且沿着通路203产生一个控制信号，以表明一个音频块是一帧中的第1或起始块，一帧中的最后或终了块，或者是一帧中的一个临时块。响应于从通路203接收的控制信号，开关204将每一帧中的第1或起始块引导到第1滤波器阵列205，将每一帧中的所有临时块引导到第2滤波器阵列206，将每一帧中的最后或终了块引导到第3滤波器阵列207。格式器208将从这3个滤波器阵列中的每一个所接收的已滤波的音频信息组合成一组输出信号，并沿着通路209传送。

图5b表示装置220，在其中，去格式器222从通路221接收一组输入信号，从中获得已编码的音频信息，它沿着通路224被传送。并沿着通路223产生一组控制信号，以表明已编码的音频信息是一帧中的第1或起始块，一帧中的最后或终了块，或者是一帧中的一个临时块。响应于从通路223接收的控制信号，开关225将将已编码的音频信息引导到3个合成滤波器阵列当中的一个。开关225将对应于第1块的已编码的音频信息引导到第1合成滤波器阵列226，将对应于各临时块的已编码音频信息引导到第2合成滤波器阵列227，将对应于最后块的已编码的音频信息引导到第3合成滤波器阵列228。响应于从3个合成滤波器阵列接收的已合成的各音频块，缓冲存储器229沿着通路230产生一组输出信号。

第2滤波器阵列

在一个编码器的一个实施例中，根据上面所引用的Princen等所公开的O-TDAC变换，通过一种N点修正的离散余弦变换(DCT)以及一个N点分析窗口函数来实现第2滤波器阵列。在一个互补的解码器中，根据O-TDAC变换，通过一种N点修正的逆DCT以及一个N点合成窗口函数来实现第2滤波器阵列。正向和逆向的O-TDAC变换分别示于表达式1和2：

X (k) = Σ_{n = 0}^{M - 1} x (n) \cos [\frac{2 π}{M} (k + \frac{1}{2}) (n + \frac{m + 1}{2})] 0 \leq k \leq M - - - - (1)

x (n) = \frac{1}{M} Σ_{k = 0}^{M - 1} X (k) \cos [\frac{2 π}{M} (k + \frac{1}{2}) (n + \frac{m + 1}{2})] 0 \leq n \leq M - - - - (2)

式中，k＝频率指标，

n＝信号样本数，

M＝样本块长度，

m＝用于O-TDAC的相位项，

x(n)＝被窗口截取的输入信号样本数n，以及

X(k)＝变换系数k。

如图3所示，第2滤波器阵列的长度M＝N，并且生成两个混叠反射区域，在一个块的中点处有一段介于这两个区域之间的边界。为生成这两个区域所需的TDAC相位项为m＝N/2。

在一个优选实施例中，根据如下所述的一项技术来导出分析与合成诸窗口函数。在图6a中，通过曲线242来说明这些窗口函数的形状。为了便于讨论起见，这些窗口函数被称为W₂(n)。

第1滤波器阵列

在同一实施例中，通过上面所示的修正的DCT以及窗口函数W₂(n)的一种修正形式来实现在编码器和互补的解码器中的第1滤波器阵列。正向和逆向的O-TDAC变换分别示于表达式1和2。第1滤波器阵列的长度为M＝3N/2，并且生成一个单独的混叠反射区域1。诸混叠伪差是在该块内信号的倒置的端到端反射。实际上，反射区域2的长度为0，并且介于这两个区域之间的边界位于该块的右边缘的前沿。为生成这个单独区域所需的TDAC相位项为m＝0。

对应于第1滤波器阵列的分析与合成窗口函数W₁(n)与此相同。在图6b中，通过曲线241来说明这些窗口函数的形状。它由3部分组成。第1和第2部分表示为区段1和2，跟上面所描述的并示于图6a的窗口函数W₂(n)相同。第3部分表示为区段3，它等于0。

第1分析窗口函数W₁(n)保证在区段3中的信号为0。其结果是，从区段3反射到区段1的混叠伪差也是0。从区段1反射到区段3的混叠伪差一般地将不是0；然而，当向合成的音频块施加第1合成窗口函数W₁(n)时，反射到区段3的任何伪差将被消除。其结果是，混叠伪差仅存在于区段2。

第3滤波器阵列

在同一实施例中，通过上面所示的修正的DCT以及窗口函数W₂(n)的一种修正形式来实现在编码器和互补的解码器中的第3滤波器阵列。正向和逆向的O-TDAC变换分别示于表达式1和2。第3滤波器阵列的长度为M＝3N/2，并且生成一个单独的混叠反射区域2。混叠伪差是在该块内信号的一种端到端反射。实际上，反射区域1的长度为0，并且介于这两个区域之间的边界位于该块的左边缘的后沿。为生成这个单独区域所需的TDAC相位项为m＝3N/2。

对应于第3滤波器阵列的分析与合成窗口函数W₃(n)与此相同。在图6c中，通过曲线243来说明这些窗口函数的形状。它由3部分组成。表示为区段1的第1部分等于0。第2和第3部分，表示为区段2和3，跟上面所描述的并示于图6a的窗口函数W₂(n)相同。

第3分析窗口函数W₃(n)保证在区段1中的信号为0。其结果是，从区段1反射到区段3的混叠伪差也是0。从区段3反射到区段1的混叠伪差一般地将不是0；然而，当向合成的音频块施加第3合成窗口函数W₃(n)时，反射到区段1的任何伪差将被消除。其结果是，混叠伪差仅存在于区段2。

图6d说明诸窗口函数W₁(n)，W₂(n)，W₃(n)241到243是如何互相重叠的。增益包络240表示以端到端方式使用窗口函数的净效果，对TDAC来说，它是由对应的分析与合成诸窗口函数的乘积所形成的重叠的乘积窗口函数的一个序列。由分析-合成窗口函数W₁(n)所加权的、在块11的区段2中的混叠伪差被由分析-合成窗口函数W₂(n)所加权的、在块12的前半部中的混叠伪差所抵消。由分析-合成窗口函数W₃(n)所加权的、在块17的区段2中的混叠伪差被由分析-合成窗口函数W₂(n)所加权的、在块16的后半部中的混叠伪差所抵消。根据常规的TDAC来完成在临时块对(例如块12和13或者块15和16)中的信号恢复与混叠抵消。

通过使用此项技术，可以在任何帧边界处进行拼接编辑，并且将不会保留未被抵消的混叠伪差。

各窗口函数的推导

使用在下列各段中所描述一项技术，就能从一个基本窗口函数推导出窗口函数W₂(n)。虽然具有适当的重叠-相加特性的任何窗口函数都可以被用来作为基础窗口函数，但是在一个优选实施例中所使用的基础窗口函数是凯撒-贝塞尔窗口函数。

W_{KB} (n) = \frac{I_{0} [πα \sqrt{1 - {(\frac{n}{N / 2})}^{2}}]}{I_{0} [πα]} - - - - (3)

上式在0≤n＜N的条件下成立式中，α＝凯撒-贝塞尔窗口函数的α因子，n＝窗口内的样本数目，N＝以样本数目来表示的窗口长度，以及

I_{0} [x] = Σ_{k = 0}^{\infty} \frac{{(x / 2)}^{k}}{k!} .

通过将凯撒-贝塞尔窗口函数W_KB(n)跟一个长度等于块长N减去重叠间隔v的矩形窗口函数s(k)进行卷积运算，这样的推导就产生一个分析-合成乘积窗口函数W_P(n)，或：

WP (n) = \frac{Σ_{k = 0}^{N - 1} s (k) W_{KB} (n - k)}{Σ_{k = 0}^{v} W_{KB} (k)}

上式在0≤n＜N的条件下成立，此式可以简化为：

WP (n) = \frac{Σ_{k = 0}^{N - v - 1} W_{KB} (n - k)}{Σ_{k = 0}^{v} W_{KB} (k)}

上式在0≤n＜N的条件下成立

式中，n＝乘积-窗口内的样本数目，

v＝在窗口重叠间隔内的样本数目，

N＝所希望的乘积-窗口长度，

W_KB(n)＝长度为v+1的基本窗口函数，

WP(n)＝推导出来的长度为N的乘积-窗口，以及

s(k)＝1对条件0≤k＜N-v成立

＝0对其他条件成立。

对于O-TDAC变换来说，重叠间隔v＝N/2，并且分析窗口函数以及合成窗口函数都是如此，因此，可以从下式得到其中任何一个窗口函数：

W_{2} (n) = \sqrt{\frac{Σ_{k = 0}^{N / 2 - 1} W_{KB} (n - k)}{Σ_{k = 0}^{N / 2} W_{KB} (k)}} - - - - (4)

上式在0≤n＜N的条件下成立

在本文中，以这种方式推导出来的分析与合成窗口函数被称为一个凯撒-贝塞尔-导出(KBD)窗口函数。乘积窗口函数被称为一个KBD乘积窗口函数。可以选择基本凯撒-贝塞尔窗口函数的α因子以优化编码性能。在许多应用中，用于编码的最佳α因子处于2到6的范围内。

在整个帧里面都没有未被抵消的混叠伪差这一事实使得任何窗口函数基本上都可以在一个接合部处被使用。一般来说，这些窗口函数都具有这样一种形状，它在跨越重叠间隔时保留一个恒定的增益包络。在接合部，重叠间隔可以延伸到跨越若干帧；然而，人们期待，在许多应用中，将使用一种处于5到30毫秒范围内的“接合部-重叠间隔”。由于将在下面讨论的原因，跨越一个接合部的重叠间隔可以延长，这一点是值得注意的。

用以降低接合部的频谱邻频干扰的诸滤波器阵列

从优化感知编码这个意义上来说，处于上述范围内的α因子对许多编码应用来说是最佳的。如上所述，通常用增加在滤波器阻带内诸频率上的衰减，来取代一个较宽的滤波器通带，从而使编码得以优化。图7中的曲线342表示针对一个为感知编码而优化的一种典型的频率响应的一个例子。这条曲线表示一个使用KBD窗口函数的O-TDAC分析-合成系统的帧增益包络的频率响应，上述KBD窗口函数的α＝6，并且具有等于256个样本的帧重叠间隔。虽然介于通带和阻带之间的边界没有明确地规定，但在本例中通带覆盖着高达200Hz的诸频率，并且阻带覆盖着大约1kHz以上的诸频率。一个过渡区域在这两个频带之间延伸。

在使用施加于256个样本块的变换的各种应用中，在约为200Hz到1kHz的滤波器的中心频率范围内，拼接编辑倾向于产生显著的假频谱成分或“频谱邻频干扰”。对于使用其他长度的(数据)块的应用来说，这个频率范围可以表示为两个常数除以块的长度；因此，显著的频谱邻频干扰出现在从大约50,000到256,000Hz的频率范围内，每一个都除以块长度。

在图7所示的例子中，这些频率处于被认为是滤波器阻带的范围以外。被设计用于优化感知编码性能的诸滤波器阵列对在拼接编辑过程中所生成的频谱邻频干扰未能提供足够的衰减。这些伪差通常是可听的，因为它们通常是如此之大，以致于无法被信号所遮盖。

图7中的曲线341和曲线343表示两个其他的分析-合成系统的频率响应，该系统在阻带内提供显著地小的衰减，但在一个受到在接合部生成的频谱邻频干扰的影响的频率范围内，提供更大的衰减。通过牺牲在感知编码中的某些性能来增加对频谱邻频干扰的衰减。最好是，在一个对256个样本块进行滤波的系统中，在包括200Hz和600Hz的一个频率范围内，或者在大约50,000到150,000Hz的频率范围内，每一个都除以块长度，该频率响应使频谱能量的衰减得以优化。

有时，在满足对一般编码以及对在接合部处的交叉衰落各帧的频率响应要求之间达到一种折衷。在不能达到这样一种折衷的各种应用中，要检出一个接合部，并且改变分析-合成系统的频率响应。由于分析滤波器阵列一般地不能预测拼接操作，所以这种改变应当结合合成滤波过程来完成。

图8表示通过改变一个分析-合成系统的端到端频率响应，装置320可以被用来减少频谱邻频干扰。在这个装置中，去格式器322从通路321接收输入信号，从中获得沿着通路324传送的已编码的音频信息，并沿着通路323产生控制信号，用以指示在一帧的开始或终了处，是否出现一个接合部。一个接合部的出现可以在输入信号中明确地表达，或者可以根据在信号中所表达的其他信息来推断。

例如，根据AES-3/EBU标准，连续的音频信息块所含有的块号码从0增加到255，然后反过来减少到0。两个邻接的而不按顺序的块号码表示一个接合部，然而，由于某些装置在处理AES/EBU数据流时并不增加这个号码，所以这种检验方法是不可靠的。若该音频流已被编码，则编码方案可能提供顺序的编号或者某些其他形式的可预测的信息。若该信息跟所预期的不相符，则可能产生一组信号以表明一个接合部的存在。

响应于从通路323接收的控制信号，开关325将已编码的音频流引导到3个合成滤波器阵列当中的一个。开关325将跟随在一个接合部后面的一帧中的对应于第1块的已编码的音频信息引导到第1合成滤波器阵列326，将前置于一个接合部前面的一帧中的对应于最后一块的已编码的音频信息引导到第3合成滤波器阵列328，以及将对应于其他各块的已编码音频信息引导到第2合成滤波器阵列327。另一方面，也可以根据以上结合图5b所讨论的技术，将对应于这些其他各块的已编码的音频信息引导到3个滤波器阵列当中的一个。响应于从这3个合成滤波器阵列所接收的已合成的各音频块，缓冲存储器329沿着通路330产生一组输出信号。

第1和第3合成滤波器阵列被设计成这样，使其在与某些分析滤波器相结合的条件下，能获得所需的频率响应。在许多应用中，这个分析滤波器被设计成这样，使其在与第2合成滤波器相结合的条件下，能优化总的编码性能。基本上可以通过能提供所需的总的频率响应的任何方式来实现第1和第3合成滤波器阵列。一般来说，这两个滤波器阵列将具有相同的频率响应，但将具有在时序上互为倒置的复制品那样的脉冲响应。在使用诸变换与诸窗口函数来实现诸滤波器阵列的那些应用中，通过使用在一个接合部两侧相邻的各帧之间增加重叠间隔的合成窗口函数，就能实现适当的滤波器阵列。

已合成音频的调制

可以通过几钟方法来完成这一步。一种方法就是对从合成滤波器阵列中恢复的已合成音频信号进行调制，使得在一个接合部两侧的各帧通过交叉衰落融入对方。可以在一个装置(例如示于图4c的装置140)中完成这一步。解码器146降低在前置于接合部并跨越所需的接合部重叠间隔的帧中的已合成信号的幅度。实际上，在跨越这个间隔时，前置于接合部的帧的增益包络从1减少到某个较低的水平。解码器146还增加在跟随着接合部并跨越所需的接合部重叠间隔的帧中的已合成信号的幅度。实际上，在跨越这个间隔时，跟随着接合部的帧的增益包络从较低的水平增加到1。若在各增益包络的有效变化中考虑到分析-合成窗口的调制效应，则重叠的各帧的总的增益得以保留。

增益包络的有效变化可以是直线性的。图7中的曲线343表示一个宽度约为5毫秒的线性递减的帧增益包络的频率响应特性。在每秒48k个样本的采样率下，这个间隔对应于大约256个样本。在许多编码应用中，对具有256个样本的样本块实施变换；因此，在这些特定的应用中，一个含有256个样本的斜坡或线性递减的增益包络在延伸，它越过处于帧边界处的一个“终了”块，并且跨越一个跟这个终了块重叠的相邻块的一部分。这等效于将一个滤波器阵列施加于终了块，经另一个滤波器阵列施加于紧挨着的相邻块，以及将又一个滤波器阵列施加于该帧内部的其他各块。参看图8所示的装置320，它需要两个附加的合成滤波器阵列，用以处理邻接于并重叠于“终了”块的各块。

这个线性递减的斜坡的频率响应表示一个参照的响应，其他各种频率响应都可以相对于它而作出评估。一般来说，在减少产生于接合部的频谱邻频干扰方面，能优化针对这种参考响应的频谱能量衰减的各种滤波器阵列都是有效的。

修正的合成窗口函数

用以改变一个分析-合成系统的总的频率响应特性的另一种方法就是修改合成窗口函数，使得分析-合成窗口的净效应实现所需的响应。实际上，总的频率响应根据所得到的分析-合成乘积窗口函数而发生改变。

图7中的曲线341表示一种频率响应，它跟曲线343所表示的5毫秒的线性递减增益包络的频率响应相比，能在更大程度上衰减在各接合部的频谱邻频干扰。借助于O-TDAC分析-合成系统，使用256点变换以及α＝1的KBD窗口函数来实现曲线341的响应。如上所述，曲线342对应于α＝6的KBD窗口函数。

这些分析-合成系统的端到端频率响应等效于由分析窗口函数与合成窗口函数的乘积所形成的窗口的频率响应。用代数方法可以表示为：

WP₆(n)＝WA₆(n)WS₆(n) (5a)

WP₁(n)＝WA₁(n)WS₁(n) (5b)

式中，WA₆(n)为α＝6时的分析KBD窗口函数，

WS₆(n)为α＝6时的合成KBD窗口函数，

WP₆(n)为α＝6时的KBD乘积窗口函数，

WA₁(n)为α＝1时的分析KBD窗口函数，

WS₁(n)为α＝1时的合成KBD窗口函数，以及

WP₁(n)为α＝1时的KBD乘积窗口函数。

若一个合成窗口函数被修改成将端到端频率响应修改为所需的某种其他响应，则它应当被这样修改，使得它本身与分析窗口函数的乘积等于具有所需响应的乘积窗口。若希望得到对应于WP1的一个频率响应，并且分析窗口函数WA6被用于信号分析，则这种关系可以用代数方法表示为：

WP₁(n)＝WA₆(n)WX(n) (5c)

式中，WX(n)＝为转换频率响应所需的合成窗口函数。

上式可以写成：

WX (n) = \frac{{WP}_{1} (n)}{W A_{6} (n)} - - - - (5 d)

若接合部重叠间隔延伸到在帧中跟“终了”块相重叠的一个相邻的音频块之上时，则窗口函数WX的形状跟表达式5d所表示的形状相比，显得更复杂一些。下面将对此进行更充分的讨论。在任何情况下，表达式5d精确地表示了对在终了块中不跟该帧中任何其他块重叠的那一部分中的窗口函数WX的要求。对于使用O-TDAC的诸系统来说，该部分等于块长的一半，或对应于0≤n＜N/2。

若合成窗口函数WX被用来将端到端频率响应从较高的α轮廓转换到一个较低的α轮廓，则在接近帧边界处，它必须具有非常大的数值。图9示出了一个实例，在其中曲线351表示一个α＝1的KBD分析或合成窗口函数，曲线352表示一个α＝1的KBD乘积窗口。曲线356表示一个α＝6的KBD分析或合成窗口函数，以及曲线359表示一个根据表达式5d的的合成窗口函数。随着曲线356接近帧边界，它变得比曲线352小很多，因此，曲线359变得非常大。遗憾的是，一个具有类似于曲线359的在窗口函数WX的边缘处具有大的增加的形状的合成窗口函数具有很差的频率响应特性，并将使被恢复信号的音质恶化。有两种技术可以被用来解决这个问题，这将在下面加以讨论。

舍弃样本

用于修正一个合成窗口函数的第1种技术通过在分析窗口函数具有最小值的帧边界处舍弃某一数目的样本来避免在窗口函数WX中的大量增加。通过改变被舍弃的样本的数目，就能调整为在帧重叠间隔中传送诸样本所需的带宽，从而抵消由于解码器的不良的频率响应特性而引起的系统编码性能的下降。

例如，通过修正对应于在一帧中的前3块的各合成窗口函数，以获得一种对应于乘积窗口函数WP₁的所需的频率响应，以及用于信号分析的窗口函数为WA₆，则所需的修正合成窗口函数如下式所示：

式中，WX1(n)＝对应于第1块的修正的合成窗口函数，WX2(n)＝对应于第2块的修正的合成窗口函数，

WX3(n)＝对应于第3块的修正的合成窗口函数，以及

x＝在帧边界处被舍弃的样本数目。

图10a表示，对于x的若干数值来说，修正的合成窗口函数的形状要求使用一个KBDα＝6的分析窗口函数将一个256点O-TDAC分析-合成系统转换为一个这样的分析-合成系统，后者的频率响应等效于一个使用KBDα＝1的、帧重叠间隔等于256个样本的分析与合成窗口函数。曲线361。362，363和364分别是对应于x＝8，16，24和32个样本的修正的各合成窗口函数。

使用这些修正的窗口函数的各合成滤波器阵列的频率响应示于图10b。诸曲线372。373和374分别是对应于x＝8，16和24个样本的频率响应。曲线371是使用一个α＝1的KBD窗口函数的一个合成滤波器阵列的频率响应。如图所示，一个x＝16的修正的合成窗口函数将大约200Hz以上的各频率衰减到跟使用α＝1的KBD窗口函数的合成滤波器阵列所获得的衰减相同的程度。换句话说，一个舍弃了16个样本的合成滤波器阵列，当跟一个分析滤波器阵列以及一个α＝6的分析窗口函数配合使用时，它所获得的端到端分析-合成系统频率响应等效于一个使用α＝1的分析与合成窗口函数的系统的端到端频率响应，并且，与此同时，提供这样一种合成滤波器阵列频率响应，它对大约200Hz以上的各频率的衰减程度接近于一个使用α＝1的合成窗口函数的合成滤波器阵列的衰减程度。

一般来说，将具有较低α数值的KBD窗口函数用于正常编码的各种系统将要求对合成窗口函数进行较小的修正，并且在帧的末尾舍弃较少的样本。在一帧的末尾处所需要的修正的合成窗口函数类似于在表达式6a到6c所示的各窗口函数，所不同的是发生了时序倒置。

对帧增益包络进行调制

用于修正一个合成窗口函数的第2种技术通过在一个接合部的两侧允许帧增益包络稍为偏离理想水平来避免在窗口函数WX中的大量增加。通过改变增益包络的偏离量，就能用该偏离量的可听度来抵消频谱邻频干扰的可听度。

这种技术使修正的合成窗口函数变得平滑，因此它在帧边界处或靠近帧边界处具有小的数值。当适当地完成这一步时，所得到的合成窗口函数将具有可接受的频率响应，并且在帧边界或靠近帧边界处增益相当低，帧增益包络将偏离理想的KBD乘积窗口函数。跟由一种理想的交叉衰落增益形状所提供的衰减相比，频谱邻频干扰的衰减将仅有轻微的降低。

例如，若必须修正对应于在一帧中前3块的合成窗口函数以获得所需的频率响应，则为第2和第3块所需的修正的合成窗口函数WX一般地相同于在x＝0条件下由上面的表达式6b和6c所表示的情形。通过在平滑窗口函数长度的前半部逐点地跟一个平滑窗口函数相乘，就能使在上面的表达式6a中所表示的修正的合成窗口函数WX1变得平滑。所得到的对应于第1块的修正的合成窗口函数为：

式中，WM(n)＝平滑窗口函数，以及

P＝平滑窗口函数的长度，假设小于N。

在一帧终了处所需的修正的合成窗口函数也相同于这个窗口函数，所不同的是时序发生倒置。

平滑窗口函数WM基本上可以基于任何窗口函数，但是，一个KBD平滑窗口函数似乎工作得更好一些。在本例中，平滑窗口函数是一个长度为128、α＝6的KBD窗口函数。在图11a中，曲线381表示未经平滑的修正的合成窗口函数的形状，而曲线382则表示经平滑后的修正的合成窗口函数的形状。

图11b表示对应于一个使用平滑后的修正的窗口函数的分析-合成系统的频率响应。曲线391表示使用平滑后的修正的窗口函数的频率响应。曲线341表示使用α＝1的KBD窗口函数的一个分析-合成系统的频率响应，曲线393则表示使用上面所讨论的、并示于曲线343的、宽度约为5毫秒的线性递减帧交叉衰落窗口函数所得到的频率响应的诸峰值的一个包络。从这份图中可以看出，一个经过平滑的修正的合成窗口函数获得一个类似于通过一个使用α＝1的KBD窗口函数的分析-合成系统所获得的频率响应。

混合分析-合成窗口函数的修正

在以上所讨论的各项技术中，帧增益包络的所有变化都在信号合成过程中发生。作为另一种方法，分析过程也可以对处于帧边界处的各块使用具有一种频率响应的滤波器阵列，并且对内部各块使用另一种滤波器阵列。用于在帧边界处各块的各滤波器阵列可以被设计成减少在合成过程中所需的修正量，以便获得对产生于接合部的频谱邻频干扰的足够的衰减。

数据同步

在处理视频与音频信息的各种应用中，视频帧的长度一般地不等于音频块的长度。对示于表III和IV的各项标准来说，各视频帧和各音频块很少同步。换句话说，在一个视频帧边界上的视频/音频信息的一次编辑可能不正好落在一个音频块的边界上。其结果是，在各种块编码系统中，由剩余的部分块所表示的音频信息不能被完全地恢复。下面讨论可以被用来解决这个问题的两项技术。

音频采样率转换

第1种技术把按照一种外部速率接收的一组输入音频信号转换为在编码系统的内部处理中所使用的另一种速率。内部速率被这样选择，使之能为内部信号提供足够的带宽，并且允许按照一个便于计算的样本数目去跟每一帧视频信号相组合。在解码或重放时，输出信号从内部速率被转换为一个外部速率，它不需要等于原始输入音频信号的外部速率。

表V表示在不同的视频标准下，视频帧的长度，与视频帧长度相等的、在每秒48k个样本下的音频样本的数目，为把这些音频样本转换为一个目标样本数目所需的内部速率，以及以样本数表示的内部音频帧长度，这些将在下面进行讨论。在每一种视频标准下括号内所示的数目是以Hz为单位的视频帧速率。对于高于30Hz的视频帧速率来说，其目标样本数是896，对于不大于30Hz的帧速率，其目标样本数目为1792。这些目标长度被选择用于说明，但是在许多编码应用中，由于它们可以被划分为整数个含有256个样本的块，并且以128个样本的宽度互相重叠，所以在许多编码应用中，它们是便于使用的长度。

视频标准帧长度音频长度内部速率内部音频

(msec.) (samples) (kHz) 帧长度

DTV(60) 16.667 800 53.76 1024

NTSC(59.94) 16.683 800.8 53.706 1024

PAL(50) 20 960 44.8 1024

DTV(30) 33.333 1600 53.76 1920

NTSC(29.97) 33.367 1601.6 53.706 1920

PAL(25) 40 1920 44.8 1920

Film(24) 41.667 2000 43 1920

DTV(23.976) 41.7 2002 42.965 1920

表V视频与音频速率

例如，一种按照每秒48k个样本的采样率来处理一组输入音频信号以及一组每秒25帧的PAL视频信号的应用中，能将输入音频信号转换为具有每秒43k个样本的速率的一组内部信号。诸内部信号样本可以被排列成各内部音频帧以便进行处理。在表V所示的例子中，内部音频帧长度为1920个样本。在这些例子中，内部音频帧长度不等于视频帧长度。这种差别是由于在一帧中的音频样本跟在另一帧中的音频样本发生重叠的样本数目所致。

参看图2c所示的例子，每一帧都有某种数目的样本跟另一帧互相重叠。这个样本数目构成帧重叠间隔。在许多应用中，帧重叠间隔等于在一个各自的帧中，介于相邻的音频块之间的重叠间隔。等于一个视频帧长度的样本数目就是跨越从一帧的开始到下一帧的开始的间隔中的样本数目。这等于内部音频帧长度小于在帧重叠间隔中的样本数目的差值。

在上面讨论并示于表V的诸实例中，等于视频帧长度的样本数目为1792或896，这依赖于视频帧速率。帧重叠间隔为128个样本。对于30Hz以上的视频帧速率来说，每一个内部音频帧包括1024(896+128)个样本，它们可以被排列成7个256样本的块，并且互相重叠128个样本。对于较低的视频帧速率来说，每一个内部音频帧包括1920(1792+128)个样本，它们可以被排列成14个256样本的块，并且以128个样本的宽度互相重叠。

若使用在各帧边界处不会产生各种混叠伪差的的诸滤波器阵列，则帧重叠间隔最好增加到256个样本，对于高于30Hz的视频帧速率来说，这使内部帧长度增加到1152(896+256)个样本，而对较低的视频帧速率来说，内部帧长度增加到2048(1792+256)个样本。

为使一组音频信号跟一个所需的视频帧速率同步，所需的内部采样率等于视频帧速率与等于视频帧长度的样本数目的乘积。这等效于：

R_I＝R_V ^*(L_A-L_O) (8)

式中，R_I＝内部采样率，

R_V＝视频帧速率，

L_A＝内部音频帧长度，

L_O＝帧重叠间隔。

图12a表示装置400的一份功能框图，在其中，转换器403从通路402接收具有一个外部采样率的一组输入音频信号，将输入音频信号转换为具有一个内部采样率的一组内部信号，并将内部信号送往编码器404。响应于内部信号，编码器404沿着通路405产生一组被排列成内部各音频帧的编码信号。格式器406从通路401接收被排列成帧的视频信息，并且沿着通路407将一个内部音频帧跟每一个视频帧组合在一起，以产生一组输出信号。

图12b表示装置410的一份功能框图，在其中，去格式器412从通路411接收被排列成各帧的一组输入信号，包括视频信息以及已编码的音频信息。去格式器412从输入信号获得沿通路413行进的视频信息，并从输入信号中获得被排列成内部各音频帧并沿通路414行进的已编码音频信息。解码器415对已编码的音频信息进行解码，以产生具有一个内部采样率的一组内部信号，并送往转换器416。转换器416将内部信号转换为具有一个外部采样率的一组输出信号。

基本上可以使用用于采样率转换的任何技术。在Adams和Kwan发表于《音频工程师协会丛刊》1993年7月，41卷，第7/8期，第539-555页的“用于异步采样率转换器的理论和VLSI体系结构”一文中，公开了针对采样率转换的各种考虑和实施方案。

动态音频帧对准

若不使用采样率转换，则音频帧频率必须随着视频帧速率而改变。内部音频帧长度可以被设置为一种便于计算的长度，比方说一个大小合理的2的幂的整数倍，以便进行块处理，例如使用各种变换的分割频带编码。然后将帧重叠间隔设置为等于介于内部音频帧长度与精确地跨越一个视频帧的样本数目之间的差值。这可以表示为：

L_O＝L_A-L_V(9)

式中，L_V＝以音频样本数目来表示的视频帧长度。

遗憾的是，如上面表V所示，由于NTSC视频帧速率不是音频采样率的整数倍，所以此项技术对于那些处理NTSC视频的应用来说就显得更为复杂。其结果是，NTSC帧长度不等于整数个音频样本。如表IV所示，要求5帧的NTSC视频跟8008个采样率为每秒48k个样本的音频样本同步。在本文中将由5帧组成的一个小组称为一个超帧。

在一个超帧内对应于每一个视频帧的音频样本的数目不是恒定的，而是在不断改变着。可以作出各种各样的安排，但是针对29.97Hz的NTSC视频的一种优选的安排就是分别对应于1602。1601，1602，1601和1602个样本的5帧的一个序列。对于59.94Hz的NTSC视频来说，可以使用一种类似的序列，在其中，一对由801个样本组成的块被用来置换每一个1602样本的块，以及一个由801/800个样本组成的块对被用来置换每一个1601样本的块。下面的讨论是针对一个处理29.97Hz视频帧(频率)的应用的解决方案。这些概念也可以应用于其他的视频帧速率。

如表达式9所示，一个解码器应当能够测定视频帧长度L_V，使得它能够正确地测定重叠间隔的长度。若一个解码器面临处于一个帧边界上的一次拼接编辑，则跟随在该接合部后面的帧可以代表5个可能的超帧序列中的任何一个。解码器将无法恢复由跟随着该接合部的各块所代表的音频，除非它们符合于该解码器正在使用的超帧序列。借助于下面的动态音频帧对准技术就能完成这一步。

根据此项技术，在装置420中，如图13a所示，编码器423从通路422接收音频信息，并产生被排列为各超帧的已编码音频信息，在一个各自的超帧中用对每一帧来说是唯一的一个标号来标识每一帧。已编码的音频信息的各超帧沿着通路425行进并且各帧标号沿着通路424行进。格式器426从通路421接收视频信息的各帧，并将这种视频信息、已编码的音频信息的各帧以及对应的各标号组合为一组输出信号，该信号沿着通路427送出。

如图13b所示，在装置430中，去格式器432从通路431接收一组输入信号，获得沿通路433传送的视频信息各帧，获得沿通路435传送的已编码音频信息的各超帧序列，并且获得沿通路434传送的对应于已编码音频信息的每一帧的各标号。步骤436响应于该标号，为已编码音频信息的每一帧测定一个起始样本以及帧长度，并且解码器438根据由步骤436所测定的起始样本和帧长度，通过对已编码的音频信息的各帧进行解码，沿着通路439产生一组输出信号。

在一个优选实施例中，在每一个超帧中的各帧被标记为0，1，2，3和4。在帧0中的起始样本被假设为跟视频信号的帧边界精确地同步。在一个超帧中的每一帧都按照相同的结构来生成，它们具有一个“前置样本”，一个“名义起始样本”，以及1601个其他样本，总共1603个样本。在本优选实施例中，各样本被编号为0到1602，其中，1号样本为名义起始样本；因此，视频帧长度为1603。如上所述，由于帧重叠间隔的存在，内部音频帧的长度可以较长一些。一种常规的内部音频帧长度为1792个样本。根据1603的视频帧长度来确定帧增益包络。对于刚才叙述的实例来说，帧重叠间隔为189(1792-1603)个样本。

装置430采用所需的任何超帧排列，并且动态地改变每一个音频帧的排列，以便获得与视频信息的良好同步。通过动态地选择起始样本以及每一帧的长度就能改变这种排列。如上所述，根据在一个超帧中的5帧模式，帧长度在1601和1602个样本之间改变着。这种动态对准的效果就是，紧跟在一个与伴随着的视频信息保持同步关系的接合部之后，立即得到良好的对准。

在这里所讨论的优选实施例中，根据下列关键字，可以从一张表中获得起始样本号码以及视频帧的长度：

K＝(F_E-F_D)以5为模求余数 (10)

式中，K＝对准表访问关键字

F_E＝编码器帧标号，以及

F_D＝解码器帧标号。

解码器从编码信号中获得编码器帧标号。由解码器根据解码器所假定的超帧对准关系，在一个从0到4的重复序列中产生解码器帧标号。

使用K作为访问该表的一个关键字，解码器就能从表VI获得适当的帧起始样本号码以及视频帧长度。访问编码帧起始视频帧访问编码帧起始视频帧关键字标号样本长度关键字标号样本长度0 0 1 1602 1 0 1 16020 1 1 1601 1 1 1 16020 2 1 1602 1 2 2 16020 3 1 1601 1 3 1 16020 4 1 1602 1 4 2 16022 0 1 1601 3 0 1 16022 1 0 1601 3 1 1 16012 2 1 1602 3 2 1 16022 3 1 1601 3 3 1 16022 4 1 1602 3 4 2 16024 0 1 16014 1 0 16014 2 1 16014 3 0 16014 4 1 1602

表VI动态音频帧对准

图14表示动态对准的一个实例。在这个实例中，一个超帧开始于帧453，并且被跟随在帧455后面的一个接合部所中断。在一个超帧中的最后一帧456跟随着接合部，而一个新的超帧开始于帧457。在行450的各框中显示出在每一帧中音频信息的理想长度。在行461示出了由一个编码器为每一帧产生的帧标号F_E。要注意的是标号0对应于在每一个超帧中的第1帧。在本例中，由解码器设定的解码器标号F_D示于行462。根据表达式10计算出来的介于这两个标号之间的差值决定了对准表的访问关键字K，它被示于行463。根据对准表确定的起始和终了样本号码示于行464。例如，标记0-1601标识一个1602样本的帧，它开始于样本0并结束于样本1601。

在帧451，解码器处理一个长度为1602个样本的块。根据编码器超帧对准关系，这一帧比“理想”长度长1帧。相应地，帧452的起始点晚了一个样本，因而比理想长度短了一个样本。这使得帧453开始于1号样本，精确地同步于该超帧的第1帧。帧454和455的对准关系跟理想的对准关系相同。

紧跟在接合部之后，帧456的对准关系跟理想对准关系相同。帧457开始于1号样本，精确地同步于下一个超帧的起始点。帧457的长度比理想长度短一个样本，然而，帧458提前一个样本开始，并具有比理想长度多一个样本的长度。帧459的起始点跟理想情况相符，但它比理想长度短一个样本。相应地，帧460提前一个样本开始，并且比理想长度多一个样本。

如本例所示，解码器获得跟每一个超帧的起始点的精确同步，不必考虑由于接合部所产生的任何不连续性。

装置430使用一个修正的合成窗口函数，以类似于上面结合表达式6a到6c所讨论的方式去获得适当的端到端帧增益包络。根据表达式6a来确定在每一帧起始点处的修正的合成窗口函数，其中，在帧边界处所“舍弃”的样本数目x等于该帧起始对准相对于提前开始样本的偏移。例如，对于一个开始于样本2的帧来说，x＝2。在每一帧终了处的修正的合成窗口函数也根据表达式6a来确定，所不同的是采取一种时序倒置方式。

Claims

1.一种信号处理方法包括：

接收一组输入信号，包括诸帧的一个序列，一个各自的输入信号帧包括多个已滤波的音频信息块，

接收一组控制信号，它在所述输入信号帧序列的范围内，对紧挨着一个第2输入信号帧前面的一个第1输入信号帧加以标识，

通过向位于所述第1输入信号帧的末尾的已滤波的音频信息的一个终了块施加一个第1合成滤波器阵列，产生诸信号样本的一个第1临时信号块，通过向位于所述第2输入信号帧的起点的已滤波的音频信息的一个起始块施加一个第2合成滤波器阵列，产生诸信号样本的一个第2临时信号块，并且通过向已滤波的音频信息的一个或多个其他块施加一个第3合成滤波器阵列，产生诸信号样本的一个或多个第3临时信号块，

其中所述第1合成滤波器阵列是这样的，它使得在所述第1临时信号块中的诸样本代表已经根据一个第1频率响应进行滤波的音频信息，所述第2合成滤波器阵列是这样的，它使得在所述第2临时信号块中的诸样本代表已经根据一个第2频率响应进行滤波的音频信息，以及所述第3合成滤波器阵列是这样的，它使得在所述第3临时信号块中的诸样本代表已经根据一个第3频率响应进行滤波的音频信息，

其中所述第1频率响应使得在一个频率范围内频谱能量的衰减得以优化，上述频率范围包括两个以Hz表示的频率，这两个频率分别等于大约50,000除以在所述第1临时信号块中的信号样本数目以及大约150,000除以在所述第1临时信号块中的信号样本数目，所述第2频率响应使得在一个频率范围内频谱能量的衰减得以优化，上述频率范围包括两个以Hz表示的频率，这两个频率分别等于大约50,000除以在所述第2临时信号块中的信号样本数目以及大约150,000除以在所述第2临时信号块中的信号样本数目，并且所述第3频率响应使得在一个以Hz表示的频率以上的频谱能量的衰减得以优化，上述频率等于大约500,000除以在所述第3临时信号块中的样本数目，以及

通过使相邻的各临时信号块互相重叠以及将对应的互相重叠的信号样本相加来产生一组输出信号。

2.一种根据权利要求1所述的方法，还包括在所述第1临时信号块中舍弃一个或多个样本，以及在所述第2临时信号块中舍弃一个或多个样本，

3.一种信号处理方法，包括：

通过向位于所述第1输入信号帧的末尾的已滤波的音频信息的一个结尾块施加一个第1合成滤波器阵列，产生诸信号样本的一个第1临时信号块，通过向位于所述第2输入信号帧的起点的已滤波的音频信息的一个起始块施加一个第2合成滤波器阵列，产生诸信号样本的一个第2临时信号块，并且通过向已滤波的音频信息的一个或多个其他块施加一个第3合成滤波器阵列，产生诸信号样本的一个或多个第3临时信号块，

其中，通过相对于一个参考响应的所述第1频率响应使得频谱能量的衰减得以优化，并且通过相对于一个参考响应的所述第2频率响应使得频谱能量的衰减得以优化，其中所述参考响应是通过向所述已滤波的音频信息施加一个参考合成滤波器阵列而获得的那个频率响应，所述参考合成滤波器阵列具有这样一种脉冲响应，它基本上符合于在一个大约5毫秒的间隔内，一个线性递减的斜坡，以及

4.一种根据权利要求3所述的方法还包括在所述第1临时信号块中舍弃一个或多个样本，以及在所述第2临时信号块中舍弃一个或多个样本，

5.一种根据权利要求1，2，3或4所述的方法，还包括在所述第1输入信号帧以及所述第2输入信号帧之间标识一个拼接编辑点，并产生响应于此的所述控制信号。

6.一种根据权利要求1，2，3或4所述的方法，还包括标识介于所述输入信号的连续的各帧之间的边界，以及产生响应于此的控制信号，以便将前置于一个各自的边界的每一个输入信号帧标识为一个各自的第1输入信号帧，以及将跟随于一个各自的边界的每一个输入信号帧标识为一个各自的第2输入信号帧。

7.一种根据权利要求1或3所述的方法，其中所述第1合成滤波器阵列包括从一个α值小于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数，所述第2合成滤波器阵列包括从一个α值小于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数，以及所述第3合成滤波器阵列包括从一个α值大于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数。

8.一种根据权利要求1或3所述的方法，其中所述第1合成滤波器阵列包括一个反变换以及一个第1合成窗口函数，所述第2合成滤波器阵列包括所述反变换以及一个第2合成窗口函数，并且所述第3合成滤波器阵列包括所述反变换以及一个第3合成窗口函数。

9.一种根据权利要求1或3所述的方法，其中在所述终了块中的所述已滤波的音频信息表示已经由一个第1分析滤波器阵列进行滤波的音频信息，在所述起始块中的所述已滤波的音频信息表示已经由一个第2分析滤波器阵列进行滤波的音频信息，以及在一个或多个其他输入信号块中的所述已滤波的音频信息表示已经由一个第3分析滤波器阵列进行滤波的音频信息，其中这3种分析滤波器阵列的脉冲响应各不相同。

10.一种信号处理装置包括：

用于接收一组输入信号的装置，上述输入信号包括诸帧的一个序列，一个各自的输入信号帧包括多个已滤波的音频信息块，

用于接收一组控制信号的装置，上述控制信号在所述输入信号帧序列的范围内，对紧挨着一个第2输入信号帧前面的一个第1输入信号帧加以标识，

具有下列功能的装置：通过向位于所述第1输入信号帧的末尾的已滤波的音频信息的一个终了块施加一个第1合成滤波器阵列，以产生诸信号样本的一个第1临时信号块，通过向位于所述第2输入信号帧的起点的已滤波的音频信息的一个起始块施加一个第2合成滤波器阵列，以产生诸信号样本的一个第2临时信号块，以及通过向已滤波的音频信息的一个或多个其他块施加一个第3合成滤波器阵列，以产生诸信号样本的一个或多个第3临时信号块，

其中所述第1合成滤波器阵列是这样的，它使得在所述第1临时信号块中的诸样本表示已经根据一个第1频率响应进行滤波的音频信息，所述第2合成滤波器阵列是这样的，它使得在所述第2临时信号块中的诸样本表示已经根据一个第2频率响应进行滤波的音频信息，以及所述第3合成滤波器阵列是这样的，它使得在所述第3临时信号块中的诸样本表示已经根据一个第3频率响应进行滤波的音频信息，

通过使相邻的各临时信号块互相重叠以及将对应的互相重叠的信号样本相加来产生一组输出信号的装置。

11.一种根据权利要求1所述的装置，还包括在所述第1临时信号块中舍弃一个或多个样本、以及在所述第2临时信号块中舍弃一个或多个样本的装置，

12.一种信号处理装置包括：

具有下列功能的装置，它通过向位于所述第1输入信号帧的末尾的已滤波的音频信息的一个终了块施加一个第1合成滤波器阵列，以产生诸信号样本的一个第1临时信号块，通过向位于所述第2输入信号帧的起点的已滤波的音频信息的一个起始块施加一个第2合成滤波器阵列，以产生诸信号样本的一个第2临时信号块，以及通过向已滤波的音频信息的一个或多个其他块施加一个第3合成滤波器阵列，以产生诸信号样本的一个或多个第3临时信号块，

其中，通过所述第1频率响应使得频谱能量的衰减相对于一个参考响应得以优化，并且通过所述第2频率响应使得频谱能量的衰减相对于一个参考响应得以优化，其中所述参考响应是通过向所述已滤波的音频信息施加一个参考合成滤波器阵列而获得的频率响应，所述参考合成滤波器阵列具有这样一种脉冲响应，它基本上符合于在一个大约5毫秒的间隔内，一个线性递减的斜坡，以及

13.一种根据权利要求12所述的装置，还包括在所述第1临时信号块中舍弃一个或多个样本、以及在所述第2临时信号块中舍弃一个或多个样本的装置，

14.一种根据权利要求10，11，12或13所述的装置，还包括用于在所述第1输入信号帧以及所述第2输入信号帧之间标识一个拼接编辑点，以及响应于此，产生所述控制信号的装置。

15.一种根据权利要求10，11，12或13所述的装置，还包括用于标识介于所述输入信号的连续的各帧之间的边界，以及响应于此，产生控制信号的装置，以便将前置于一个各自的边界的每一个输入信号帧标识为一个各自的第1输入信号帧，以及将跟随于一个各自的边界的每一个输入信号帧标识为一个各自的第2输入信号帧。

16.一种根据权利要求10或12所述的装置，其中所述第1合成滤波器阵列包括从一个α值小于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数，所述第2合成滤波器阵列包括从一个α值小于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数，以及所述第3合成滤波器阵列包括从一个α值大于2的凯撒-贝塞尔窗口函数导出的一个或多个反变换以及一个合成窗口函数，

17.一种根据权利要求10或12所述的装置，其中所述第1合成滤波器阵列包括一个反变换以及一个第1合成窗口函数，所述第2合成滤波器阵列包括所述反变换以及一个第2合成窗口函数，并且所述第3合成滤波器阵列包括所述反变换以及一个第3合成窗口函数，

18.一种根据权利要求10或12所述的装置，其中在所述终了块中的所述已滤波的音频信息表示已经由一个第1分析滤波器阵列进行滤波的音频信息，在所述起始块中的所述已滤波的音频信息表示已经由一个第2分析滤波器阵列进行滤波的音频信息，以及在一个或多个其他输入信号块中的所述已滤波的音频信息表示已经由一个第3分析滤波器阵列进行滤波的音频信息，其中这3种分析滤波器阵列的脉冲响应各不相同。