CN101933009B

CN101933009B - 具有随机访问点(rap)和多预测参数集(mpps)能力的使用自适应分段的无损多通道音频编解码器

Info

Publication number: CN101933009B
Application number: CN200980103481.6A
Authority: CN
Inventors: Z·菲左
Original assignee: DTS BVI Ltd
Current assignee: DTS BVI Ltd
Priority date: 2008-01-30
Filing date: 2009-01-09
Publication date: 2014-07-02
Anticipated expiration: 2029-01-09
Also published as: IL206785A; US7930184B2; EP3435375A1; JP5356413B2; EP3435375B1; HK1147132A1; MX2010007624A; CN101933009A; PL3435375T3; EP2250572A4; AU2009209444A1; ES2700139T3; NZ597101A; AU2009209444B2; PL2250572T3; KR101612969B1; JP2011516902A; RU2495502C2; BRPI0906619A2; CA2711632A1

Abstract

无损音频编解码器利用在帧内的指定片段处启动无损解码的随机访问点(RAP)能力和/或为减轻瞬变影响而分区的多预测参数集(MPPS)能力来编码/解码无损可变比特率(VBR)比特流。这利用自适应分段技术来实现，该自适应分段技术基于由所述帧中期望的RAP的存在和/或检测到的瞬变所施加的约束来设定分段起始点，并且在每一帧中选择最佳片段持续时间，以在编码片段净荷约束下减小编码帧净荷。RAP和MPPS尤其可用于提升在较长的帧持续时间情况下的整体性能。

Description

具有随机访问点(RAP)和多预测参数集(MPPS)能力的使用自适应分段的无损多通道音频编解码器

相关申请的交叉引用

本申请作为2004年8月4日提交的题为“Lossless Multi-ChannelAudio Codec”的美国申请No.10/911067的部分继续申请(CIP)，根据35 U.S.C.120要求其优先权，上述申请的全部内容通过引用并入于此。

技术领域

本发明涉及无损音频编解码器，更具体地，涉及具有随机访问点(RAP)能力和多预测参数集(MPPS)能力的使用自适应分段的无损多通道音频编解码器。

背景技术

许多低比特率有损音频编码系统当前正用于宽范围的消费类和专业音频回放产品和服务中。例如，Dloby AC3(Dobly digital)音频编码系统就是一世界性标准，其用于使用高达640kbit/s的比特率来为激光唱片、NTSC编码的DVD视频和ATV编码立体声和5.1通道音频声轨。MPEG I和MPEG II音频编码标准被广泛地用于以高达768kbit/s的比特率为PAL编码的DVD视频、欧洲的陆地数字无线电广播和美国的卫星广播进行立体声和多通道声轨编码。DTS(数字影院系统)相干声学音频编码系统经常被用于光盘、DVD视频、欧洲的卫星广播以及激光唱片的录音棚品质5.1通道音频声轨，并且比特率高达1536kbit/s。

近来，许多消费者已经对所谓的“无损”编解码器表现出兴趣。“无损”编解码器依靠压缩数据而不会丢弃任何信息的算法，并且产生与(数字化的)源信号相同的解码信号。这种性能带来一定的代价：这样的编解码器通常比有损编解码器需要更多的带宽，并且将数据压缩至更少的程度。

图1是表示在无损压缩单个音频通道时所涉及的操作的框图。尽管多通道音频中的各通道一般不是独立的，但依赖性通常较弱并且难于加以考虑。因此，各通道通常被分别压缩。然而，一些编码器尝试通过形成简单的残差(residual)信号和编码(Ch1、Ch1-CH2)来去除相关性。更复杂的方法采用例如在通道维度上的若干连续的正交投影步骤。所有技术都基于首先从信号中去除冗余然后利用有效数字编码方案来编码所得信号的原理。无损编解码器包括MPL(DVD音频)、Monkey’s audio(计算机应用)、Apple lossless、Windows Media Prolossless、AudioPak、DVD、LTAC、MUSICcompress、OggSquish、Philips、Shorten、Sonarc以及WA。对这些编解码器中的许多的评论可以在Mat Hans，Ronald Schafer“Lossless Compression of DigitalAudio”Hewlett Packard，1999中找到。

成帧10被引入以便为可编辑性做准备，庞大的数据量使得无法在区域被编辑之前对整个信号重复地解压缩。音频信号被分成具有相等持续时间的独立的帧。该持续时间不应当太短，因为加在每一帧前面的头部可能引起相当大的开销。反过来，帧持续时间不应当太长，因为这会限制时间适应性(temporal adaptivity)并使得编辑更为困难。在许多应用中，帧尺寸受到传送音频的媒介的峰值比特率、解码器的缓冲容量、以及使每一帧可被独立解码的期望的约束。

通道内解相关12通过解相关帧内每个通道中的音频样本来去除冗余。大多数算法通过某种类型的信号线性预测模型来去除冗余。在这种方法中，线性预测器被应用于每一帧中的音频样本，得到一系列预测误差样本。第二种不太常见的方法是获取信号的低比特率量化或有损表示，然后无损地压缩有损版本与原始版本之间的差。熵编码14从来自残差信号的误差中去除冗余而不会损失任何信息。典型的方法包括Huffman编码、行程长度编码(run length coding)以及Rice编码。该输出是可以无损地重建的压缩信号。

现有DVD规范和初步的HD DVD规范针对一个数据访问单元的尺寸设置了硬性限制，其表示音频流中一旦提取就可被完全解码的一部分和被发送至输出缓冲器的重建的音频样本。对于无损流来说，其意味着，每个访问单元可以表示的时间量必须足够小，使得对于峰值比特率的最坏情况，编码净荷不超出该硬性限制。对于增加的采样率和增加的通道数，持续时间也必须减小，这增大了峰值比特率。

为了确保兼容性，这些现有编码器将不得不将整个帧的持续时间设置得足够短，以便不超出在通道/采样频率/比特宽度的最坏情况下的硬性限制。在大多数配置中，这将是过分的并且可能严重劣化压缩性能。而且，这种最坏情况方法不能很好地适应附加的通道。

发明内容

本发明提供了一种音频编解码器，其利用在帧内的指定片段(segment)处启动无损解码的随机访问点(RAP)能力和/或为减轻瞬变(transient)影响而分区(partition)的多预测参数集(MPPS)能力来生成无损可变比特率(VBR)比特流。

这利用自适应分段技术来实现，该技术确定片段起始点，以确保由帧中期望的RAP和/或一个或多个瞬变的存在所施加的对片段的边界约束，并且选择每个帧中的最佳片段持续时间，以在编码片段净荷约束下减小编码帧净荷。一般来说，该边界约束规定，期望的RAP或瞬变必须位于从片段的起点起特定数量的分析块内。在帧内的片段具有相同的持续时间并且是分析块持续时间的二的幂的倍数的一个示例性实施例中，确定最大片段持续时间以确保满足所述期望的条件。RAP和MPPS尤其可用于提升在较长的帧持续时间情况下的整体性能。

在一个示例性实施例中，无损VBR音频比特流被编码，其中将RAP(RAP片段)对准到在编码器定时码中设置的期望RAP的指定容限内。将每个帧分块成分析块序列，并且每个片段的持续时间等于一个或多个分析块的持续时间。在每个相继的帧中，根据定时码来确定多达一个RAP分析块。RAP分析块的位置和RAP分析块必须位于RAP片段的起点的M个分析块内的约束设定了RAP片段的起点。为该帧确定预测参数，如果MPPS被启用并且在通道中检测到瞬变，则为两组参数(每通道)。音频帧中的样本被压缩，其中对于在RAP片段的起点之后直到预测阶数的第一样本，预测被禁用。在残差样本上采用自适应分段，以确定每个片段的片段持续时间和熵编码参数，从而在所设定的RAP片段起点和编码片段净荷约束下最小化编码帧净荷。指示RAP片段的存在和位置的RAP参数以及导航数据被打包到头部中。响应于用于启动回放的导航命令(诸如用户选择场景或网络冲浪(surfing))，解码器解包(unpack)比特流中下一帧的头部以读取RAP参数，直到检测到包括RAP片段的帧为止。解码器提取片段持续时间和导航数据，以导航至RAP片段的起点。解码器禁用对第一样本的预测，直到预测历史被重建，然后按顺序解码剩下的片段和随后的帧，每当遇到RAP片段时就禁用预测器。这种构造允许解码器以亚帧分辨率在或非常靠近编码器指定的RAP处启动解码。对于较长的帧持续时间，当试图将音频回放同步至例如在章节开头处指定RAP的视频定时码时，这尤其有用。

在另一示例性实施例中，无损VBR音频比特流被编码，其中MPPS被分区以使检测到的瞬变位于它们相应的通道中的片段的第一L个分析块内。在每一个相继的帧中，检测每通道集每通道的多达一个瞬变及其在该帧内的位置。考虑到由瞬变施加的片段起始点，为每个分区确定预测参数。每个分区中的样本都用相应参数集压缩。自适应分段在残差样本上采用，以确定每个片段的片段持续时间和熵编码参数，从而在根据瞬变(和RAP)施加的片段起点约束和编码片段净荷约束下最小化编码帧净荷。将表示第一瞬变片段(每通道)的存在和位置的瞬变参数以及导航数据打包到头部中。解码器解包帧头部，以提取瞬变参数和附加的预测参数集。对于通道集中的每个通道，解码器使用第一组预测参数直到遇到瞬变片段为止，接着切换至第二组以用于剩下的片段。尽管帧的分段是在各通道上和多个通道集上是相同的，但瞬变(若有的话)的位置在通道集之间以及在通道集内可以变化。这种构造允许解码器以亚帧分辨率在或非常靠近所检测到的瞬变的开始处切换预测参数集，这对于较长的帧持续时间的情况尤其有用，以改善总编码效率。

压缩性能可以通过为M通道音频形成M/2个解相关通道来进一步增强。通道三元组(基本通道，相关通道，解相关通道)提供了两种可能的对组合(基本通道，相关通道)和(基本通道，解相关通道)，其可以在分段和熵编码最优化期间考虑，以进一步改进压缩性能。通道对可以每片段或每帧地被指定。在一示例性实施例中，编码器将音频信号成帧，然后提取包括基本通道和相关通道的有序通道对，并生成解相关通道，以形成至少一个三元组(基本通道，相关通道，解相关通道)。如果通道数为奇数，则处理额外的基本通道。将自适应或固定多项式预测应用至每个通道以形成残差信号。对于每个三元组，选择具有最小编码净荷的通道对(基本通道，相关通道)或(基本通道，解相关通道)。利用选定的通道对，可以确定用于所有通道上每个片段的全局编码参数集。编码器基于哪一个具有最小总编码净荷(头部和音频数据)来选择全局编码参数集或分别的编码参数集。

在任一种方法中，一旦已经确定用于当前分区(片段持续时间)的最佳编码参数集和通道对，编码器就计算每个片段中的跨所有通道的编码净荷。假定满足对任何期望的RAP或检测到的瞬变的片段起点和最大片段净荷尺寸的约束，编码器确定对于当前分区的整个帧的总编码净荷是否小于对于较早分区的当前最佳总编码净荷。如果为真，则存储当前编码参数集和编码净荷并且增加片段持续时间。分段算法通过将帧分割成等于分析块尺寸的最小片段尺寸而适当地开始，并且在每个步骤按二的幂来增加片段持续时间。重复这个处理直到片段尺寸违反最大尺寸约束或者片段持续时间增长至最大片段持续时间。RAP或MPPS特征的实施以及帧内所期望的RAP或检测到的瞬变的存在可以使自适应分段例程选择与其它方式相比较而言更小的片段持续时间。

本领域技术人员从下面的优选实施例的详细描述结合附图，将清楚本发明的这些和其它特征以及优点，在附图中：

附图说明

图1，如上所述，是用于标准无损音频编码器的框图；

图2a和2b分别是根据本发明的无损音频编码器和解码器的框图；

图3是与分段和熵编码选择有关的头部信息的图；

图4a和4b是分析窗处理和逆分析窗处理的框图；

图5是交叉通道解相关的流程图；

图6a和6b是自适应预测分析和处理以及逆自适应预测处理的框图；

图7a和7b是最佳分段和熵编码选择的流程图；

图8a和8b是用于通道集的熵编码选择的流程图；

图9是核心加无损扩展编解码器的框图；

图10是比特流的帧的示意图，其中每一帧都包括头部和多个片段；

图11a和11b是与RAP和MPPS的规范有关的附加头部信息的图；

图12是用于针对期望的RAP或检测到的瞬变确定片段边界或最大片段持续时间的流程图；

图13是用于确定MPPS的流程图；

图14是帧的图，示出对片段起始点或最大片段持续时间的选择；

图15a和15b是示出比特流和在RAP片段和瞬变处比特流的解码的图；以及

图16是示出基于最大片段净荷和最大片段持续时间约束的自适应分段的图。

具体实施方式

本发明提供了一种自适应分段算法，其利用在帧内的指定片段处启动无损解码的随机访问点(RAP)能力和/或为减轻瞬变效应(transient effect)而分区的多预测参数集(MPPS)能力来生成无损的可变比特率(VBR)比特流。该自适应分段技术确定和设定片段起始点以确保满足由期望的RAP和/或检测到的瞬变所施加的边界条件，并且选择每一帧中的最佳片段持续时间以在编码片段净荷约束和设定的片段起始点下减小编码帧净荷。一般地，边界约束规定期望的RAP或瞬变必须位于片段起点的特定数量的分析块内。该期望的RAP可以从片段起点加上或减去分析块的数量。该瞬变位于片段的第一数量的分析块内。在帧内的片段具有相同持续时间并且是分析块持续时间的二的幂的倍数的示例性实施例中，确定最大片段持续时间以确保所希望的条件。RAP和MPPS尤其可用于提升在较长的帧持续时间情况下的整体性能。

无损音频编解码器

如图2a和2b所示，除了对用于为RAP和/或瞬变设置片段开始条件的分析窗处理以及分段和熵编码选择的修改以外，基本的操作块类似于现有的无损编码器和解码器。分析窗处理器使多通道PCM音频20经历分析窗处理22，该分析窗处理将数据分块为具有恒定持续时间的帧，基于期望的RAP和/或检测到的瞬变来设定片段起始点，并且通过解相关帧内每个通道中的音频样本来去除冗余。解相关利用预测来执行，该预测被宽泛地定义成，使用旧的重建的音频样本(预测历史)来估计当前原始样本的值并确定残差(residual)的任何处理。预测技术包括固定的或自适应的以及线性的或非线性的，等等。代替直接熵编码残差信号，自适应分段器执行最佳分段和熵编码选择处理24，其将数据分成多个片段并且确定每个片段的片段持续时间和编码参数，例如选择特定的熵编码器及其参数，使得在以下约束下最小化整个帧的编码净荷，所述约束是：每个片段都必须可被完全且无损地解码、小于比帧尺寸小的最大字节数、小于帧持续时间，以及，任何期望的RAP和/或检测到的瞬变必须位于从某一片段的起点起的指定数量的分析块(亚帧分辨率)以内。编码参数集针对每个不同通道被优化，并且可以针对全局编码参数集被优化。熵编码器根据每个片段的特定编码参数集熵编码26每个片段。打包器将编码数据和头部信息打包28成比特流30。

如图2b所示，为了执行解码操作，解码器响应于例如用户选择视频场景或章节或用户网络冲浪而导航至比特流30中的某个点，并且解包器解包比特流40以提取头部信息和编码数据。解码器解包头部信息以确定可以开始解码的接下来的RAP片段。解码器然后导航至该RAP片段并启动解码。解码器在其遇到每个RAP片段时禁用对特定数量的样本的预测。如果解码器检测到帧中存在瞬变，则解码器使用第一组预测参数来解码第一分区(partition)，然后使用第二组预测参数来从该瞬变起在帧内向前解码。熵解码器根据指定的编码参数对每个通道的每个片段执行熵解码42，以无损地重建残差信号。逆分析窗处理器使这些信号经历逆分析窗处理44，其执行逆预测，以无损地重建原始PCM音频20。

比特流导航和头部格式

如图10所示，比特流30中的帧500包括头部502和多个片段504。头部502包括同步506、公共头部508、用于一个或多个通道集的子头部510、以及导航数据512。在这个实施例中，导航数据512包括NAVI组块(chunk)514和纠错码CRC16 516。NAVI组块优选地将导航数据分解成最小部分的比特流以使得能够完全导航。该组块包括用于每个片段的NAVI片段518，并且每个NAVI片段都包括针对每个通道集的NAVI Ch Set净荷尺寸520。这使得解码器能够导航至对于任何指定通道集的RAP片段的开头，等等。每个片段504都包括对于每个通道集中的每个通道的熵编码残差522(以及预测由于RAP而被禁用之处的原始样本)。

比特流包括至少一个并且优选为多个不同通道集的头部信息和编码数据。例如，第一通道集可以是2.0配置、第二通道集可以是构成5.1通道表示的附加的4个通道，而第三通道集可以是构成总体7.1通道表示的附加的2个环绕通道。8通道解码器将提取并解码所有3个通道集，以在其输出端产生7.1通道表示。6通道解码器提取并解码通道集1和通道集2，完全忽略通道集3，以产生5.1通道表示。2通道解码器仅提取并解码通道集1而忽略通道集2和3，以产生2通道表示。按这种方式构造流考虑到了解码器复杂度的可伸缩性。

在编码期间，时间编码器执行所谓的“嵌入式下混音(down-mixing)”，以使7.1-＞5.1下混音容易在按通道集1和2编码的5.1通道中可用。类似地，5.1-＞2.0下混音容易在被编码为通道集1的2.0通道中可用。在取消在编码侧执行的5.1-＞2.0下混音嵌入操作之后，6通道解码器通过解码通道集1和2将获得5.1下混音。类似地，完整8通道解码器通过解码通道集1、2和3以及取消在编码侧执行的7.1-＞5.1和5.1-＞2.0下混音嵌入操作，将获取原始7.1表示。

如图3所示，头部32在通常为无损编解码器提供的信息之外还包括附加信息，以便实现分段和熵编码选择。更具体地，头部包括公共头部信息34、通道集头部信息36和片段头部信息38，其中公共头部信息34诸如片段数(NumSegments)和每个片段中的样本数(NumSamplesInSegm)，通道集头部信息36诸如量化的解相关系数(QuantChDecorrCoeff[][])，片段头部信息38诸如当前片段中针对通道集的字节数(ChSetByteCOns)、全局优化标志(AllChSameParamFlag)、和指示是使用Rice编码还是二进制(Binary)编码以及编码参数的熵编码器标志(RiceCodeFlag[]，CodeParam[])。这种特定头部配置假定帧内的片段具有相等持续时间，并且片段是分析块持续时间的二的幂的倍数。帧的分段在通道集内的各通道上以及在各通道集上是均匀的。

如图11a所示，头部还包括在公共头部中的RAP参数530，其规定RAP在给定帧内的存在性以及位置。在这个实施例中，如果RAP存在，则头部包括RAP FLAG＝TRUE。RAP ID规定RAP片段的片段号，以便在期望的RAP处访问比特流时启动解码。可替换地，RAP_MASK可以被用于表示是和不是RAP的片段。RAP在所有通道集上将是一致的。

如图11b所示，该头部包括对于整个帧中的通道ch，或对于在瞬变的情况下在瞬变之前的帧的第一分区中的通道ch，AdPredOrder[0][ch]＝自适应预测器的阶数，或FixedPredOrder[0][ch]＝固定预测器的阶数。当选择自适应预测时(AdPredOrder[0][ch]＞0)，自适应预测系数被编码并被打包为AdPredCodes[0][ch][AdPredOrder[0][ch]]。

在MPPS的情况下，头部在通道集头部信息中还包括瞬变参数532。在这个实施例中，每个通道集头部包括：ExtraPredSetsPresent[ch]标志＝TRUE(如果在通道ch中检测到瞬变)，StartSegment[ch]＝索引(表示对于通道ch的瞬变开始片段)，以及对于通道ch的AdPredOrder[1][ch]＝自适应预测器的阶数或FixedPredOrder[1][ch]＝固定预测器的阶数(可应用于帧中在瞬变之后且包括瞬变的第二分区)。当选择自适应预测时(AdPredOrder[1][ch]＞0)，第二组自适应预测系数被编码并打包为AdPredCodes[1][ch][AdPredOrder[1][ch]]。瞬变的存在性和位置可以在通道集中的各通道上和在各通道集上变化。

分析窗处理

如图4a和4b所示，分析窗处理22的示例性实施例选择自适应预测46或固定多项式预测48来解相关每个通道，这是相当普通的方法。如将参照图6a详细描述的，为每个通道估计最佳预测阶数。如果该阶数大于零，则应用自适应预测。否则，使用更简单的固定多项式预测。类似地，在解码器中，逆分析窗处理44选择逆自适应预测50或逆固定多项式预测52以根据残差信号重建PCM音频。将自适应预测器阶数和自适应预测系数索引以及固定预测器阶数打包53在通道集头部信息中。

交叉通道解相关

根据本发明，压缩性能可以通过实施交叉通道解相关54来进一步增强，交叉通道解相关根据通道之间的相关性测量将M个输入通道排序成通道对(这里的“M”与对期望的RAP点的M个分析块约束不同)。通道中的一个被指定为“基本”通道而另一个被指定为“相关”通道。为每个通道对生成解相关通道，以形成“三元组”(基本，相关，解相关)。三元组的形成提供两种可能的对组合(基本，相关)和(基本，解相关)，其可以在分段和熵编码优化过程中考虑，以进一步改进压缩性能(参见图8a)。

在(基本，相关)和(基本，解相关)之间的决定可以在自适应分段之前(基于某种能量测量)或结合自适应分段来执行。前一方法减少了复杂度，而后者增加了效率。可以使用“混合”方法，其中，对于解相关通道比相关通道的方差小得多(基于阈值)的三元组，在自适应分段之前用解相关通道简单地替换相关通道，而对于所有其它三元组，将关于编码相关通道还是解相关通道的决定留到自适应分段处理。这稍微简化了自适应分段处理的复杂度，而没有牺牲编码效率。

原始的M-ch PCM 20和M/2-ch解相关的PCM 56都被转发至自适应预测和固定多项式预测操作，其为每一个通道生成残差信号。如图3所示，在图3中的通道集头部36中存储表示在在成对解相关处理期间所执行的排序之前的通道的原始阶数的索引(OrigChOrder[])，和指示用于量化的解相关系数的代码的存在的、用于每个通道对的标志PWChDecorrFlag[]。

如图4b所示，为了执行逆分析窗处理44的解码操作，将头部信息解包58，并且根据该头部信息，即，用于每个通道的自适应和固定预测器阶数，将残差(在RAP片段的起点处的原始样本)传递通过逆固定多项式预测52或者通过逆自适应预测50。当通道中存在瞬变时，通道集将具有用于该通道的两组不同预测参数。将M通道解相关的PCM音频(在分段期间丢弃了M/2通道)传递通过逆交叉通道解相关60，其从通道集头部读取OrigChOrder[]索引和PWChDecorrFlagg[]标志并无损地重建M通道PCM音频20。

图5示出用于执行交叉通道解相关54的示例性处理。作为示例，将PCM音频设置为M＝6个不同通道，即L、R、C、Ls、Rs以及LFE，其也直接对应于存储该帧中的一个通道集配置。其它通道集可以是例如中后环绕的左和中后环绕的右，以产生7.1环绕音频。该处理通过开始帧循环(loop)和开始通道集循环(步骤70)而开始。计算对于每个通道的零滞后自相关估计(步骤72)，和对于通道集中的通道对的所有可能组合的零滞后交叉相关估计(步骤74)。接下来，估计通道成对相关系数CORCOEF，其是零滞后交叉相关估计除以该通道对中所涉及通道的零滞后自相关估计的乘积(步骤76)。将CORCOEF按照从最大绝对值到最小绝对值排序并且存储在表中(步骤78)。从该表的顶部开始，提取对应的通道对索引，直到所有通道对都已被配置为止(步骤80)。例如，可以将6个通道基于它们的CORCOEF配对为(L，R)、(Ls，Rs)以及(C，LFE)。

该处理开始通道对循环(步骤82)，并且选择“基本”通道作为具有较小零滞后自相关估计的通道，其表现出较低能量(步骤84)。在这个示例中，L、Ls以及C通道形成基本通道。计算通道对解相关系数(ChPairDecorrCoeff)，其是零滞后交叉相关估计除以基本通道的零滞后自相关估计(步骤86)。通过将基本通道样本与ChPairDecorrCoeff相乘并且从相关通道的对应样本减去该乘积，来生成解相关通道(步骤88)。通道对和其相关联的解相关通道定义了“三元组”(L，R，R-ChPairDecorrCoeff[1]＊L)、(Ls，Rs，Rs-ChPairDecorrCoeff[2]＊Ls)、(C，LFE，LFE-ChPairDecorrCoeff[3]＊C)(步骤89)。将每个通道对(和每个通道集)的ChPairDecorrCoeff[]和定义对配置的通道索引存储在通道集头部信息中(步骤90)。对于帧中的每个通道集然后对于窗口化PCM音频中的每一帧重复该处理(步骤92)。

针对RAP和瞬变确定片段起始点

图12到14示出了用于确定片段起点和持续时间约束以适应期望的RAP和/或检测到的瞬变的示例性方法。将被处理的最小音频数据块称为“分析块”。分析块仅在编码器处可见，而解码器仅处理片段。例如，一个分析块可以表示包括64个分析块的32ms帧中的0.5ms的音频数据。片段由一个或更多个分析块组成。理想的是，将帧分割为使得期望的RAP或检测到的瞬变位于RAP或瞬变片段的第一分析块中。然而，根据期望的RAP或瞬变的位置，保证该条件可能导致会过多增加编码帧净荷的次优分段(过短的片段持续时间)。因此，折衷方案是规定任何期望的RAP必须位于RAP片段的起点的M个分析块内(该“M”不同于通道解相关过程中的M个通道)并且任何瞬变必须位于对应通道中瞬变片段的起点之后的第一L个分析块内。M和L小于该帧中的分析块总数，并且被选择以对于每个条件确保所希望的对准容限(alignment tolerance)。例如，如果一帧包括64个分析块，则M和/或L可以为1、2、4、8或16。典型地是小于总数的二的幂并且典型为其一小部分(不大于25％)，以提供真正的亚帧分辨率。而且，尽管可以允许片段持续时间在帧内变化，但是这样做大大复杂化了自适应分段算法并且增加了头部开销比特，而在编码效率方面仅有相对小的改进。因此，典型的实施例将片段约束成在帧内具有相等持续时间，并且持续时间为分析块持续时间的二的幂的倍数，例如，片段持续时间＝2^P＊分析块持续时间，其中，P＝0、1、2、4、8等。在更一般的情况下，该算法规定RAP或瞬变片段的起点。在约束情况下，该算法规定保证条件被满足的每一帧最大片段持续时间。

如图12所示，由应用层提供包括期望的RAP的编码定时码，诸如规定章节或场景开头的视频定时码(步骤600)。设置控制(dictate)上述M和L的最大值的对准容限(步骤602)。将帧分块成多个分析块并同步至该定时码，以使期望的RAP对准至分析块(步骤603)。如果有期望的RAP位于该帧内，则编码器设定RAP片段的起点，其中，RAP分析块必须位于该RAP片段的起点之前或之后的M个分析块内(步骤604)。应注意到，期望的RAP可能实际上位于在该RAP片段的起点的M个分析块内的、在该RAP片段之前的片段中。该方法开始自适应/固定预测分析(步骤605)，开始通道集循环(步骤606)，并且通过调用图13所示例程而开始通道集中的自适应/固定预测分析(步骤608)。通道集循环结束(步骤610)，该例程在ExtraPredSetsPresent[]＝FALSE时返回一组预测参数(AdPredOrder[0][]，FixedPredOrder[0][]，AdPredCodes[0][][])，或者在ExtraPredSetsPresent[]＝TRUE时返回两组预测参数(AdPredOrder[0][]，FixedPredOrder[0][]、AdPredCodes[0][][]，AdPredOrder[1][]，FixedPredOrder[1][]，AdPredCodes[1][][])，并且返回每通道的残差和任何检测到的瞬变的位置(StartSegment[])(步骤612)。对于在比特流中编码的每个通道集重复步骤608。基于RAP片段起始点和/或检测到的瞬变片段起始点确定每一帧的片段起始点，并且将其传递给图16和7a-7b的自适应分段算法(步骤614)。如果片段持续时间被约束为均匀的并且为分析块长度的二的幂的倍数，则基于所述设定的起始点选择最大片段持续时间，并且将其传递给自适应分段算法(步骤616)。最大片段持续时间约束维持该设定的起始点，并增加对持续时间的约束。

图13提供了通道集中的起点自适应/固定预测分析(步骤608)例程的示例性实施例。该例程启动由ch索引的通道循环(步骤700)，计算基于帧的预测系数和基于分区的预测系数(如果检测到瞬变)，并且选择具有每通道最佳编码效率的方法。有可能的是，即使检测到瞬变，最有效的编码也会忽略该瞬变。该例程返回预测参数集、残差、以及任何编码瞬变的位置。

更具体地，该例程通过调用图6a中图示出的自适应预测例程来执行基于帧的预测分析(步骤702)，以选择一组基于帧的预测参数(步骤704)。接着，考虑到帧中任何RAP片段的起点，使用这单独的一组参数对音频样本的帧执行预测(步骤706)。更具体地，在RAP片段的起点处对直到预测阶数的第一样本禁用预测。根据预测被禁用之处的残差值和原始样本来估计基于帧的残差范数(norm)的量度(例如，残差能量)。

并行地，该例程检测当前帧中每个通道的原始信号中是否存在任何瞬变(步骤708)。使用阈值来在误检测(false detection)与漏检测(missed detection)之间进行平衡。记录包含瞬变的分析块的索引。如果检测到瞬变，则该例程设定瞬变片段的起始点，使其被定位为确保该瞬变位于该片段的第一L个分析块内(步骤709)，并将帧分割成第一和第二分区，其中第二分区与该瞬变片段的起点一致(步骤710)。该例程接着两次调用图6a中图示出的自适应预测例程(步骤712)，以便为第一和第二分区选择第一组和第二组基于分区的预测参数(步骤714)。接着，也考虑到帧中任一RAP片段的起点，使用这两组参数分别对音频样本的第一和第二分区执行预测(步骤716)。根据预测被禁用之处的残差值和原始样本来估计基于分区的残差范数的量度(例如，残差能量)。

该例程将基于帧的残差范数与基于分区的残差范数跟一阈值的乘积进行比较，以说明每个通道的多个分区所需的增加的头部信息(步骤716)。如果基于帧的残差能量较小，则返回基于帧的残差范数和预测参数(步骤718)，否则，如果基于分区的残差能量较小，则为该通道返回两组预测参数以及所记录的瞬变的索引(步骤720)。在结束之前，由通道索引的通道循环(步骤722)和通道集中的自适应/固定预测分析(步骤724)在通道集中的各通道上以及在所有通道集上迭代。

图14示出对单个帧800的片段起始点或最大片段持续时间的确定。假定帧800是32ms，并且包含64个分析块802，每个分析块持续时间0.5ms。视频定时码804规定落入第9分析块中的期望的RAP806。在CH 1和CH 2中分别检测到落入第5和第18分析块内的瞬变808和810。在无约束情况下，该例程可以在分析块5、9和18处规定起始点，以保证RAP和瞬变位于它们各自的片段的第1分析块中。自适应分段算法可以进一步分割该帧以满足其它约束并最小化帧净荷，只要这些起始点被维持即可。自适应分段算法可以改变片段边界并且仍满足期望的RAP或瞬变落入规定数量的分析块内的条件，以便满足其它约束，或者更好地优化净荷。

在约束情况下，该例程确定最大片段持续时间，在这个示例中，其满足针对该两个瞬变和期望的RAP中的每一个的条件。因为期望的RAP 806落入第9分析块内，所以保证该RAP位于RAP片段的第1分析块中的最大片段持续时间为8x(根据分析块的持续时间按比例缩放)。因此，可允许的片段尺寸(作为分析块的二的倍数倍)为1、2、4和8。类似地，因为Ch 1瞬变808落入第5分析块内，所以最大片段持续时间为4。CH 2中的瞬变810更为棘手，因为为了保证其出现在第一分析块中，需要片段持续时间等于分析块(1X)。然而，如果可以将瞬变定位在第二分析块中，则最大片段持续时间为16x。在这些约束下，该例程可以选择最大片段持续时间为4，从而允许自适应分段算法从1x、2x和4x中选择，以最小化帧净荷并满足其它约束。

在一个可替换实施例中，每第n帧的第一片段可以默认为RAP片段，除非定时码指定该帧中的不同RAP片段。该默认RAP可以例如用于允许用户在音频比特流内到处跳跃或“冲浪”，而不被约束到仅仅视频定时码所指定的那些RAP。

自适应预测

自适应预测分析和残差生成

线性预测试图去除音频信号的样本之间的相关性。线性预测的基本原理是利用先前的样本s(n-1)、s(n-2)、...来预测样本s(n)的值，以及从原始样本s(n)中减去预测值

得到的残差信号

理想地将是不相关的并从而具有平坦的频谱。另外，与原始信号相比，残差信号将具有更小的方差，暗示其数字表示需要更少的比特。

在音频编解码器的示例性实施例中，FIR预测器模型用下列等式来描述：

e (n) = s (n) + Q {Σ_{k = 1}^{M} a_{k} * s (n - k)}

其中，Q{}表示量化操作，M表示预测器阶数，而a_k是量化的预测系数。特定的量化Q{}对于无损压缩是必要的，因为原始信号是利用各种有限精度处理器架构在解码侧重建的。Q{}的定义可用于编码器和解码器两者，并且原始信号的重建通过下面的等式简单获得：

s (n) = e (n) - Q {Σ_{k = 1}^{M} a_{k} * s (n - k)}

其中，假定相同的a_k(量化的预测系数)可用于编码器和解码器两者。每一个分析窗(帧)发送新的一组预测器参数，使得预测器能够适应于时变的音频信号结构。在瞬变检测的情况下，针对其中检测到瞬变的每一个通道，针对一帧发送新的两组预测参数；一组用于解码瞬变之前的残差，而另一组用于解码包括瞬变和瞬变之后的残差。

预测系数被设计成最小化均方预测残差。量化Q{}s使得预测器为非线性预测器。然而，在该示例性实施例中，该量化是以24位精度完成的，并且假定在预测器系数优化期间可以忽略由此产生的非线性效应是合理的。通过忽略量化Q{}，基本的优化问题可以被表示为包括信号自相关序列的滞后和未知预测器系数的一组线性方程。这组线性方程可以利用Levinson-Durbin(LD)算法而有效地解出。

所得到的线性预测系数(LPC)需要被量化，以使它们可以有效地在编码流中发送。遗憾的是，LPC的直接量化不是最有效的方法，因为小的量化误差可以引起大的频谱误差。LPC的一种可替换表示为反射系数(RC)表示，其对量化误差表现出较小的敏感性。这种表示还可以通过LD算法来获得。通过LD算法的定义，保证RC具有量值≤1(忽略数值误差)。当RC的绝对值接近于1时，线性预测对量化RC中存在的量化误差的敏感性变高。解决方案是执行RC的非均匀量化，其中在单位元素(unity)附近采用更精细的量化级。这可以按两个步骤来实现：

1)通过映射函数将RC变换至对数面积比(log-area ratio，LAR)表示：

LAR = \log \frac{1 + RC}{1 - RC}

其中，log表示自然底数对数。

2)均匀量化LAR

RC-＞LAR变换歪曲了参数的幅度比例，以使步骤1和2的结果等效于在单位元素(unity)附近采用更精细的量化级的非均匀量化。

如图6a所示，在自适应预测分析的一个示例性实施例中，量化的LAR参数被用于表示自适应预测器参数并且在编码比特流中被发送。每个输入通道中的样本都彼此独立地被处理，因此本说明书将仅仅考虑单个通道中的处理。

第一步骤是在分析窗的持续时间(整个帧或在检测到的瞬变之前和之后的分区)期间计算自相关序列(步骤100)。为了最小化因帧边界处的不连续性造成的阻挡效应(blocking effects)，首先将数据窗口化。根据窗口化的数据块来估计对于指定数量的滞后(等于最大LP阶数+1)的自相关序列。

将Levinson-Durbin(LD)算法应用于该组估计出的自相关滞后，并且计算该组反射系数(RC)，直到最大LP阶数(步骤102)。对于直到最大LP阶数的每个线性预测阶数，(LD)算法的中间结果是一组估计的预测残差方差。在下一个模块中，利用这组残差方差，选择线性预测器(AdPredOrder)阶数(步骤104)。

针对所选择的预测器阶数，利用上述映射函数将该组反射系数(RC)变换为该组对数面积比参数(LAR)(步骤106)。在变换之前引入RC的极限以防止除以0：

RC = \{\begin{matrix} Tresh & &ForAll; RC > Tresh \\ - 1 & &ForAll; RC < 1 \\ RC & Otherwise \end{matrix}

其中，Tresh表示接近但小于1的数。

根据下面的规则量化LAR参数(步骤108)：

其中，QLARInd表示量化的LAR索引，表示寻找小于或等于x的最大整数值的运算，而q表示量化级大小。在该示例性实施例中，利用8比特来编码区域[-8至8]，即，从而QLARInd根据下式被限制：

QLARInd = \{\begin{matrix} 127 & &ForAll; QLARInd > 127 \\ - 127 & &ForAll; QLARInd < - 127 \\ QLARInd & Otherwise \end{matrix}

利用下面的映射将pQLARInd从带符号值转换成无符号值：

AdPredCodes = \{\begin{matrix} 2 * QLARInd & &ForAll; QLARInd &GreaterEqual; 0 \\ 2 * (- QLARInd) - 1 & &ForAll; QLARIn < 0 \end{matrix}

在“RC LUT”模块中，利用查找表在单个步骤中进行LAR参数的逆量化和到RC参数的转换(步骤112)。查找表由逆RC-＞LAR映射的量化值组成，该逆映射即下面给出的LAR-＞RC映射：

RC = \frac{e^{LAR} - 1}{e^{LAR} + 1}

该查找表以等于0、1.5＊q、2.5＊q、...、127.5＊q的LAR量化值来计算。对应的RC值在以2¹⁶比例化之后，舍入(round)成16位无符号整数，并且在128个条目的表中存储为Q16无符号定点数。

根据该表和量化LAR索引QLARInd来计算量化的RC参数，为

QRC = \{\begin{matrix} TABLE [QLARInd] & &ForAll; QLARInd &GreaterEqual; 0 \\ - TABLE [- QLARInd] & &ForAll; QLARInd < 0 \end{matrix}

根据下面的算法，将对于ord＝1、...、AdPredOrder的量化的RC参数QRC_ord转换成量化的线性预测参数(LP_ord，对于ord＝1，...，AdPredOrder)(步骤114)：

For ord＝0 to AdPredOrder-1do

For m＝1 to ord do

C_ord+1，m＝C_ord，m+(QRC_ord+1*C_{ord，ord+1·m}+(1＜＜15))＞＞16

end

C_{ord+1，ord+1}＝QRC_ord+1

end

For ord＝0 to AdPredOrder-1do

LP_ord+1＝C_{AdPredOrder，ord+1}

end

由于量化的RC系数是以Q16带符号定点格式来表示的，所以上述算法将生成也采用Q16带符号定点格式的LP系数。无损解码器计算路径被设计成支持多达24位中间结果。因此，在计算出每一个C_ord+1，m之后需要执行饱和检查(saturation check)。如果在该算法的任一阶段出现饱和，则设置饱和标志，并且将对于特定通道的自适应预测器阶数AdPredOrder重置成0(步骤116)。对于AdPredOrder＝0的该特定通道，将执行固定系数预测而不是自适应预测(参见固定系数预测)。注意，无符号LAR量化索引(PackLARInd[n]，对于n＝1，...，AdPredOrder[Ch])被打包到仅用于AdPredOrder[Ch]＞0的通道的编码流。

最后，对于AdPredOrder[Ch]＞0的每个通道，执行自适应线性预测，并且根据下式计算预测残差e(n)(步骤118)：

\overset{&OverBar;}{s (n)} = [{Σ_{k = 1}^{AdPredOrder} {LP}_{k} * s (n - k)} + (1 < < 15)] > > 16

Limit \overset{&OverBar;}{s (n)} to 24 - bit range ({- 2}^{23} to 2^{23} - 1)

e (n) = s (n) + \overset{&OverBar;}{s (n)}

Limit e(n) to 24-bit range(-2²³ to 2²³-1)

for n＝Ad PredOrder+1，...NumSamples

由于该示例性实施例中的设计目标是，某些帧的特定RAP片段是“随机访问点”，所以样本历史没有从先前的片段延续至该RAP片段。而代替的是，仅在RAP片段的AdPredOrder+1样本处进行预测。

自适应预测残差e(n)被进一步熵编码并且打包到编码比特流。

解码侧的逆自适应预测

在解码侧，执行逆自适应预测的第一步是解包头部信息(步骤120)。如果解码器试图根据回放定时码(例如，用户选择的章节或网络冲浪)来启动解码，则解码器访问该点附近但在该点之前的音频比特流并搜索下一帧的头部，直到其找到表示该帧中存在RAP片段的RAP_Flag＝TRUE为止。接着，解码器提取RAP片段号(RAP ID)和导航数据(NAVI)，以导航至RAP片段的开头，禁用预测直到索引＞pred_order为止，并且启动无损解码。解码器解码这些帧和随后的帧中的剩余片段，每当遇到RAP片段时禁用预测。如果在某个通道的帧中遇到ExtraPredSetsPrsnt＝TRUE，则解码器提取第一组和第二组预测参数和对于第二组参数的开始片段。

提取对于每个通道Ch＝1，......NumCh的自适应预测阶数AdPredOrder[Ch]。接下来，对于AdPredOrder＞0的通道，提取LAR量化索引(AdPredCodes[n]，对于n＝1，...AdPredOrder[Ch])的无符号形式。对于预测阶数AdPredOrder[Ch]＞0的每个通道Ch，利用下列映射将无符号AdPredCodes[n]映射为带符号的值QLARInd[n]：

QLARInd [n] = \{\begin{matrix} AdPredCodes [n] > > 1 & &ForAll; evennumberedAdPredCodes [n] \\ - (AdPredCodes [n] > > 1) - 1 & &ForAll; oddnumberedAdPredCodes [n] \end{matrix}

for n＝1，...，AdPredOrder[Ch]

其中，＞＞表示整数右移运算。

利用量化RC LUT在单个步骤中进行LAR参数的逆量化和到RC参数的转换(步骤122)。这是与在编码侧定义的查找表相同的查找表TABLE{}。根据TABLE{}和量化LAR索引QLARInd[n]来计算对于每个通道Ch的量化的反射系数(QRC[n]，对于n＝1，...，AdPredOrder[Ch])：

QRC [n] = \{\begin{matrix} TABLE [QLARInd [n]] & &ForAll; QLARInd [n] &GreaterEqual; 0 \\ - TABLE [- QLARInd [n]] & &ForAll; QLARInd [n] < 0 \end{matrix}

for n＝1，...，Pr Or[Ch]³¹

对于每个通道Ch，根据下面的算法将对于ord＝1，...，AdPredOrder[Ch]的量化的RC参数QRC_ord转换为量化的线性预测参数(LP_ord，对于ord＝1，...，AdPredOrder[Ch])(步骤124)：

For ord＝0 to AdPredOrder-1do

Form＝1 to ord do

C_ord+1，m＝C_ord，m+(QRC_ord+1*C_{ord，ord+1-m}+(1＜＜15))＞＞16

end

C_{ord+1，ord+1}＝QRC_ord+1

end

For ord＝0 to AdPredOrder-1do

LP_ord+1＝C_{AdPredOrder，ord+1}

end

中间结果饱和的任何可能性在编码侧被去除。因此，在解码侧，不需要在计算每个C_ord+1，m之后执行饱和检查。

最后，对于AdPredOrder[Ch]＞0的每个通道，执行逆自适应线性预测(步骤126)。假定预测残差e(n)之前已被提取并且被熵解码，则根据下式计算重建原始信号s(n)：

\overset{&OverBar;}{s (n)} = [{Σ_{k = 1}^{AdPredOrder [Ch]} {LP}_{k} * s (n - k)} + (1 < < 15)] > > 16

Limit \overset{&OverBar;}{s (n)} to 24 - bit range ({- 2}^{23} to 2^{23} - 1)

e (n) = s (n) - \overset{&OverBar;}{s (n)}

for n＝AdPredOrder[Ch]+1，...NumSamples

由于在RAP片段处未保持样本历史，所以逆自适应预测应当从RAP片段中的(AdPredOrder[Ch]+1)样本开始。

固定系数预测

已经发现线性预测器的一种非常简单的固定系数形式非常有用。该固定预测系数是根据由Shorten首先提出的非常简单的多项式近似法导出的(T.Robinson.SHORTEN：Simple lossless and near losslesswaveform compression.Technical report 156.Cambridge UniversityEngineering Department Trumpington Street，Cambridge CB21 PZ，UK December 1994)。在这种情况下，预测系数是通过将p阶多项式拟合至最后p个数据点所指定的那些预测系数。在以下四个近似式上展开：

这些多项式近似的有趣特性是，所得残差信号

可以按

下列递归方式有效地实现。

e₀[n]＝s[n]

e₁[n]＝e₀[n]-e₀[n-1]

e₂[n]＝e₁[n]-e₁[n-1]

e₃[n]＝e₂[n]-e₂[n-1]

固定系数预测分析被每帧地应用，并且不依赖于在先前帧中计算的样本(e_k[-1]＝0)。将在整个帧上具有最小和量值的残差集定义为最佳近似值。为每个通道分别计算最佳残差阶数并且打包到流，作为固定预测阶数(FPO[Ch])。当前帧中的残差e_FPO[Ch][n]被进一步熵编码并打包到流。

在解码侧，根据阶数递归公式定义逆固定系数预测处理，以在采样样本n处计算k阶残差，：

e_k[n]＝e_k+1[n]+e_k[n-1]

其中，期望的原始信号s[n]通过下式给出：

s[n]＝e₀[n]

并且其中对于每个k阶残差，e_k[-1]＝0。

作为示例，给出用于3阶固定系数预测的递归，其中，残差e₃[n]被编码、在流中被发送、以及在解码侧解包：

e₂[n]＝e₃[n]+e₂[n-1]

e₁[n]＝e₂[n]+e₁[n-1]

e₀[n]＝e₁[n]+e₀[n-1]

s[n]＝e₀[n]

图15a中针对m+1片段为RAP片段900的情况，图15b中针对m+1片段为瞬变片段902的情况，示出在步骤126中执行的自适应或固定的逆线性预测。5抽头(tap)预测器904被用于重建无损音频样本。一般来说，预测器重新组合5个之前被无损重建的样本，以生成添加至当前残差908的预测值906，从而无损地重建当前样本910。在RAP示例中，压缩的音频比特流912中的第1组5个样本是未压缩的音频样本。从而，预测器可以启动在片段m+1处的无损解码，而不需要来自先前样本的任何历史。换句话说，片段m+1是比特流的一个RAP。注意，如果在片段m+1中还检测到了瞬变，则用于片段m+1和帧的其余部分的预测参数将不同于在片段1至m中使用的预测参数。在瞬变示例中，片段m和m+1中的所有样本都是残差，没有RAP。解码已经启动并且用于预测器的预测历史可用。如图所示，为了无损地重建片段m和m+1中的音频样本，使用不同组的预测参数。为了生成片段m+1中第1无损样本1，预测器利用来自片段m的最后五个被无损重建的样本来使用用于片段m+1的参数。注意，如果片段m+1也是RAP片段，则片段m+1的第一组五个样本将是原始样本，而不是残差。一般来说，一个给定帧可以既不包含RAP也不包含瞬变，事实上这是更典型的结果。可替换地，一帧可以包括RAP片段或瞬变片段甚或两者。一个片段可以既是RAP也是瞬变片段。

因为片段开始条件和最大片段持续时间是基于片段内的期望的RAP或检测到的瞬变的可允许位置而设置的，所以选择最佳片段持续时间可以生成其中期望的RAP或检测到的瞬变实际上位于在该RAP或瞬变片段之后的片段中的比特流。如果界限M和L相对较大并且最佳片段持续时间小于M和L，则这可能发生。期望的RAP可能实际上位于RAP片段之前的片段中，但仍处于规定容限内。对编码侧对准容限的条件仍然保持，并且解码器不知道该差别。解码器仅仅是访问RAP和瞬变片段。

分段和熵编码选择

图16示出通过自适应分段算法而解决的受约束优化问题。该问题是在某些约束下编码VBR比特流中多通道音频的一个或更多个通道集以使得最小化编码帧净荷，所述约束为，每个音频片段都可完全且无损地解码，并且编码片段净荷小于最大字节数。该最大字节数小于帧尺寸并且典型地由用于读取比特流的最大访问单元尺寸来设置。该问题还被进一步约束以适应随机访问和瞬变，其中该约束是，要求片段被选择为使得期望的RAP必须位于从RAP片段的起点的正或负M个分析块内，并且瞬变必须位于片段的第一L个分析块内。最大片段持续时间可以进一步受约束于解码器输出缓冲器的尺寸。在这个示例中，一帧内的片段被约束为具有相同的长度，并且为分析块持续时间的二的幂的倍数。

如图16所示，用于最小化帧净荷930的最佳片段持续时间使得对于大量较短持续时间片段的预测增益的改进与额外开销比特的代价取得平衡。在这个示例中，每帧4个片段比2个或者8个片段提供更小的帧净荷。由于第二个片段的片段净荷超出最大片段净荷约束932，所以二片段解决方案不合适。二和四片段分割的片段持续时间超出最大片段持续时间934，其中该最大片段持续时间934通过例如解码器输出缓冲器尺寸、RAP片段起始点位置、和/或瞬变片段起始点位置的组合来设置。从而，自适应分段算法选择具有相等持续时间的8个片段936和为这种分割优化的预测和熵编码参数。

图7a-b和图8a-b中示出对于受约束的情况(均匀片段、分析块持续时间的二的幂的倍数)，分段和熵编码选择24的示例性实施例。为了设立最佳片段持续时间、编码参数(熵编码选择和参数)以及通道对，针对高达最大片段持续时间的多个不同片段持续时间确定编码参数和通道对，并且从这些候选对象中选择每帧具有最小编码净荷、满足每一个片段必须可完全且无损解码并且不超出最大尺寸(字节数)的约束条件的一个候选对象。“最佳”分段、编码参数以及通道对当然受到编码处理的约束和对片段尺寸的约束。例如，在该示例性处理中，该帧中所有片段的持续时间相等，在以等于分析块持续时间的片段持续时间开始并且按二的幂增加的二倍网格(dyadic grid)上执行针对最佳持续时间的搜索，并且通道对选择在整个帧上有效。以附加的编码器复杂性和开销比特为代价，可以允许持续时间在一帧内变化，对最佳持续时间的搜索可以分解得更细，并且通道对选择可以每片段进行。在这种“受约束”情况下，在最大片段持续时间中实施保证任何期望的RAP或检测到的瞬变在规定分辨率内对准到片段起点的约束。

示例性处理从初始化片段参数(步骤150)开始，片段参数诸如是片段中的最小样本数、片段的最大允许编码净荷尺寸、最大片段数、以及最大分区数和最大片段持续时间。此后，该处理开始以从0到最大分区数减1为索引的分区循环(步骤152)，并且初始化包括片段数、片段中的样本数和分区中消耗的字节数在内的分区参数(步骤154)。在这个特定实施例中，片段具有相等的持续时间，并且片段数随着每一次分区迭代而以二的幂成比例变化。片段数优选地被初始化成最大值，从而具有最小持续时间，其等于一个分析块。然而，该处理可以使用具有变化持续时间的片段以满足RAP和瞬变条件，其可能提供更好的音频数据压缩，但是以额外的开销和额外的复杂度为代价。而且，片段数不必受限于二的幂或者从最小到最大持续时间进行搜索。在这种情况下，根据期望的RAP和检测到的瞬变确定的片段起始点是对自适应分段算法的附加约束。

一旦初始化，该处理就开始通道集循环(步骤156)，并且为每个片段和对应字节消耗确定最佳熵编码参数和通道对选择(步骤158)。存储编码参数PWChDecorrFlag[][]、AllChSameParamFlag[][]、RiceCodeFlag[][][]、CodeParam[][][]以及ChSetByteCons[][](步骤160)。对每个通道集重复该处理，直到通道集循环结束(步骤162)。

该处理开始片段循环(步骤164)，并且计算在所有通道集上每个片段中的字节消耗(SegmByteCons)(步骤166)并更新字节消耗(ByteConsInPart)(168)。在这里，比较片段的尺寸(以字节为单位的编码片段净荷)与最大尺寸约束(步骤170)。如果违反该约束，则丢弃当前分区。而且，由于该处理以最小持续时间开始，所以一旦片段尺寸太大，就终止分区循环(步骤172)，并且将针对该点的最佳解决方案(持续时间、通道对、编码参数)打包到头部(步骤174)，接着该处理转至下一帧。如果该约束对于最小片段尺寸失败(步骤176)，则该处理终止并且报告错误(步骤178)，因为不能满足最大尺寸约束。假定满足该约束，则为当前分区中的每个片段重复该处理，直到片段循环结束为止(步骤180)。

一旦完成了片段循环，并且计算出由ByteConsinPart表示的整个帧的字节消耗，就将该净荷与来自前一次分区迭代的当前最小净荷(MinByteInPart)相比较(步骤182)。如果当前分区表现出改进，则将当前分区(PartInd)存储为最佳分区(OptPartind)，并且更新最小净荷(步骤184)。接着，将这些参数和存储的编码参数存储为当前最佳解决方案(步骤186)。这将重复直到分区循环以最大片段持续时间结束为止(步骤172)，在这里，将片段信息和编码参数打包到头部(步骤150)，如图3以及11a和11b所示。

在图8a和8b中示出用于针对当前分区确定通道集的最佳编码参数和相关联的比特消耗的一个示例性实施例。该处理开始片段循环(步骤190)和通道循环(步骤192)，其中用于我们当前示例的通道是：

Ch1：L，

Ch2：R

Ch3：R-ChPairDecorrCoeff[1]＊L

Ch4：Ls

Ch5：Rs

Ch6：R-ChPairDecorrCoeff[2]＊Ls

Ch7：C

Ch8：LFE

Ch9：LFE-ChPairDecorrCoeff[3]＊C)

该处理为基本通道和相关通道确定熵编码的类型、对应的编码参数以及对应的比特消耗(步骤194)。在这个示例中，该处理计算对于二进制码和Rice码的最佳编码参数，然后为通道和每个片段选择具有最低比特消耗的那一个(步骤196)。一般来说，可以针对一个、两个或更多个可能的熵编码执行优化。对于二进制码，根据当前通道的片段中所有样本的最大绝对值来计算比特数。根据当前通道的片段中所有样本的平均绝对值来计算Rice编码参数。基于该选择，设置RiceCodeFlag，设置BitCons，并将CodeParam设置为NumBitsBinary或RiceKParam(步骤198)。

如果被处理的当前通道是相关通道(步骤200)，则为对应的解相关通道重复相同的优化(步骤202)，选择最佳熵编码(步骤204)，并且设置编码参数(步骤206)。重复该处理，直到通道循环结束(步骤208)和片段循环结束(步骤210)为止。

在这里，已经确定了用于每个片段和用于每个通道的最佳编码参数。可以从原始PCM音频为通道对(基本，相关)返回这些编码参数和净荷。然而，可以通过在三元组中的(基本，相关)和(基本，解相关)通道之间进行选择来提升压缩性能。

为了确定哪个通道对(基本，相关)或(基本，解相关)用于三个三元组，开始通道对循环(步骤211)，并计算每个相关通道(Ch2，Ch5和Ch8)和每个解相关通道(Ch3，Ch6和Ch9)对总的帧比特消耗的贡献(步骤212)。将对每个相关通道的帧消耗贡献与对相应的解相关通道的帧消耗贡献进行比较，即，Ch2与Ch3，Ch5与Ch6，Ch8与Ch9(步骤214)。如果解相关通道的贡献大于相关通道的，则将PWChDecorrrFlag设置为假(false)(步骤216)。否则，将相关通道替换为解相关通道(步骤218)，并且将PWChDecorrrFlag设置为真(true)，而且通道对被配置为(基本，解相关)(步骤220)。

基于这些比较，该算法将：

1、选择Ch2或Ch3作为将与对应的基本通道Ch1配对的通道；

2、选择Ch5或Ch6作为将与对应的基本通道Ch4配对的通道；以及

3、选择Ch8或Ch9作为将与对应的基本通道Ch7配对的通道。

针对所有通道重复这些步骤，直到该循环结束为止(步骤222)。

在这里，已经确定了针对每个片段和每个不同通道以及最佳通道对的最佳编码参数。可以将针对每个不同的通道对和净荷的这些编码参数返回至分区循环。然而，通过为每个片段计算跨所有通道的一组全局编码参数，可以获得附加的压缩性能。在最佳情况下，净荷的编码数据部分将具有与为每个通道优化的编码参数相同的尺寸，并且很有可能稍大。然而，开销比特的减少可足以抵消数据的编码效率。

利用相同的通道对，该处理开始片段循环(步骤230)，利用不同的编码参数集来为所有通道计算每片段比特消耗(ChSetByteCons[seg])(步骤232)，并且存储ChSetByteCons[seg](步骤234)。接着，利用跟之前相同的二进制码和Rice码计算(除了是跨所有通道以外)，为片段确定跨所有通道的全局编码参数集(熵编码选择和参数)(步骤236)。选择最佳参数并且计算字节消耗(SegmByteCons)(步骤238)。比较SegmByteCons与CHSetByteCons[seg](步骤240)。如果使用全局参数没有减少比特消耗，则将AllChSameParamFlag[seg]设置成false(步骤242)。否则，将AllChSameParamFlag[seg]设置成true(步骤244)，并且保存全局编码参数和对应的每片段比特消耗(步骤246)。重复这个处理直到片段循环结束(步骤248)。重复整个处理，直到通道集循环终止(步骤250)。

编码处理是以可以通过控制几个标志来禁用不同功能的方式来构造的。例如，一个单个标志控制是否要执行成对通道解相关分析。另一个标志控制是否要执行自适应预测(还有另一个标志用于固定预测)分析。另外的单个标志控制是否要执行在所有通道上对全局参数的搜索。通过设置分区的数量和最小片段持续时间，分段也是可控制的(对于最简单的形式，其可以是具有预定片段持续时间的单个分区)。一个标志指示RAP片段的存在，而另一标志指示瞬变片段的存在。本质上，通过在编码器中设置几个标志，编码器可以紧缩(collapse)为简单的成帧和熵编码。

向后兼容的无损音频编解码器

无损编解码器可以用作与有损核心编码器结合的“扩展编码器”。“有损的”核心编码流被打包为核心比特流，而无损编码的差值信号(difference signal)被打包为单独的扩展比特流。当在具有扩展无损特征的解码器中解码时，将有损和无损流组合以构造无损的重建信号。在前一代解码器中，无损流被忽略，而核心“有损”流被解码以提供具有核心流的带宽和信噪比特征的高质量、多通道音频信号。

图9示出了针对多通道信号中的一个通道的向后兼容无损编码器400的系统级视图。在输入端402处提供数字化音频信号，适当地为M比特的PCM音频样本。优选的是，该数字化音频信号的采样率和带宽超出修改的有损核心编码器404的采样率和带宽。在一个实施例中，数字化音频信号的采样率为96kHz(对应于采样音频的48kHz带宽)。还应当明白，输入音频可以是并且优选为其中每个通道都以96kHz采样的多通道信号。下面的讨论将集中在单个通道的处理上，但是到多通道的扩展是简单的。输入信号在节点406处被复制，并且在并行分支中被处理。在信号路径的第一分支中，修改的有损宽带编码器404编码该信号。下面详细描述的该修改的核心编码器404产生被输送至打包器或复用器410的编码核心比特流408。核心比特流408还被传送至修改的核心解码器412，其产生修改的重建核心信号414作为输出。

同时，并行路径中的输入数字化音频信号402经历补偿延迟416，该延迟大致等于引入到重建音频流中的延迟(由修改的编码器和修改的解码器引入)，以产生延迟的数字化音频流。在求和节点420处从该延迟的数字化音频流414中减去音频流400。

求和节点420产生差值信号422，其表示原始信号和重建的核心信号。为了实现纯粹的“无损”编码，需要利用无损编码技术来编码和发送该差值信号。因此，利用无损编码器424编码该差值信号422，并且在打包器410中将扩展比特流426与核心比特流408打包，以产生输出比特流428。

注意，无损编码产生具有可变比特率的扩展比特流426，以适应无损编码器的需要。接着，被打包的流可选地经受包括通道编码的其它编码层，然后被发送或记录。注意，针对本公开的目的，记录可以被视为通过通道的发送。

核心编码器404被描述为“修改的”，因为在能够处理扩展的带宽的实施例中，该核心编码器需要修改。编码器内的64频带分析滤波器组430丢弃其输出数据432的一半，并且核心子频带编码器434仅编码较低的32个频带。该被丢弃的信息对于在任何情况下都不能重建信号频谱上半部分的传统解码器没有意义。根据未修改的编码器将剩下的信息编码，以形成向后兼容核心输出流。然而，在以48kHz或更低采样率工作的另一实施例中，核心编码器可以是现有核心编码器的大致无修改形式。类似地，对于高于传统解码器采样率的操作，修改的核心解码器412包括核心子频带解码器436，其在较低的32个子频带中解码样本。该修改的核心解码器采用来自较低的32个子频带的子频带样本并将较高的32个频带438的未发送的子频带样本置零，并且利用64频带QMF合成滤波器440重建所有64个频带。对于以常规采样率(例如，48kHz及以下)的操作，该核心解码器可以是现有核心解码器的大致无修改形式或等价物。在一些实施例中，采样率的选择可以在编码时进行，而且，若希望，可以通过软件在那时重新配置编码和解码模块。

因为无损编码器被用于编码差值信号，所以简单的熵编码似乎就足够了。然而，由于现有有损核心编解码器的比特率限制，提供无损比特流所需的相当大的总比特量仍然保持。而且，因为核心编解码器的带宽限制，差值信号中24kHz以上的信息内容仍然相关。例如，大量谐波分量，包括远远超出30kHz的喇叭、吉他、三角铁......。因此，提升了压缩性能的更复杂的无损编解码器增加了价值。另外，在一些应用中，核心和扩展比特流仍必须满足可解码单元不得超出最大尺寸的约束。本发明的无损编解码器同时提供提升的压缩性能和提升的灵活性，以满足这些约束。

作为示例，8通道24位96kHz PCM音频需要18.5Mbps。无损压缩可以将其降低至大约9Mbps。DTS Coherent Acoustics以1.5Mbps编码核心，剩下7.5Mbps的差值信号。对于2k字节的最大片段尺寸，平均片段持续时间为2048＊8/7500000＝2.18msec，或在96kHz下大致为209个样本。满足最大尺寸的有损核心的典型帧尺寸在10与20msec之间。

在系统级，无损编解码器和向后兼容无损编解码器可以组合以便以扩展的带宽无损地编码额外的音频通道，同时保持与现有有损编解码器的向后兼容性。例如，18.5Mbps下8通道的96kHz音频可以被无损编码以包括以1.5Mbps的5.1通道的48kHz音频。核心加无损编码器将被用于编码该5.1通道。无损编码器将被用于编码5.1通道中的差值信号。剩下的2个通道使用无损编码器在分开的通道集中被编码。因为在试图优化片段持续时间时需要考虑所有通道集，所以所有编码工具将以一种方式或另一种方式使用。兼容的解码器将解码所有8个通道并且无损地重建96kHz 18.5Mbps音频信号。老的解码器将仅仅解码5.1通道并重建48kHz 1.5Mbps。

一般来说，为了调整解码器的复杂度，可以提供多于一个的纯无损通道集。例如，对于10.2原始混音，可以将通道集组织为使得：

-CHSET1携带5.1(具有嵌入的10.2到5.1下混音)并且利用核心+无损来编码

-CHEST1和CHEST2携带7.1(具有嵌入的10.2到7.1下混音)，其中，CHSET2利用无损编码2个通道

-CHEST1+CHEST2+CHEST3携带全部分立的10.2混音，其中，CHEST3仅利用无损编码剩下的3.1通道

能够正好解码5.1的解码器将仅解码CHSET1，而忽略所有其它通道集。能够正好解码7.1的解码器将解码CHEST1和CHEST2，而忽略其它通道集。......

而且，有损加无损核心不限于5.1。当前实现利用有损(核心+XCh)和无损，支持多达6.1，并且可以支持以任意数量的通道集组织的一般m.n通道。有损编码将具有5.1向后兼容核心，并且利用有损编解码器编码的所有其它通道将进入XXCh扩展。这提供了具有相当大的设计灵活性的整体无损编码，以保持与现有解码器的向后兼容，同时支持附加通道。

虽然已经示出并描述了本发明的几个示意性实施例，但本领域技术人员将想到许多变型和可替换实施例。在不背离所附权利要求中限定的本发明的精神和范围的情况下，可以想到并且可以做出这样的变型和可替换实施例。

Claims

1.一种将具有随机访问点RAP的多通道音频编码成无损可变比特率VBR音频比特流的方法，该方法包括：

接收编码定时码，该编码定时码指定所述音频比特流中期望的随机访问点RAP；

将包括至少一个通道集的多通道音频分块成具有相等持续时间的帧，每一帧包括头部和多个片段；

将每一帧分块成具有相等持续时间的多个分析块，每个所述片段具有一个或多个分析块的持续时间；

将编码定时码同步至帧序列，以使期望的RAP对准分析块；

对于每个相继的帧，

确定与所述编码定时码中期望的RAP对准的一个RAP分析块；

设定RAP片段的起点，使得所述RAP分析块位于该起点的M个分析块内；

为所述通道集中的每个通道确定用于所述帧的至少一组预测参数；

根据所述预测参数为所述通道集中的每个通道压缩音频帧，对于在所述RAP片段的起点之后直到预测阶数的第一样本，禁用所述预测，以生成之前和/或之后是残差音频样本的原始音频样本；

根据所述原始音频样本和所述残差音频样本为每个片段确定片段持续时间和熵编码参数，以在以下约束下减小所述帧的可变尺寸编码净荷，所述约束是，每个片段必须无损解码、具有小于帧持续时间的持续时间、并且具有小于比帧尺寸小的最大字节数的编码片段净荷；

将包括片段持续时间、表示RAP的存在和位置的RAP参数、预测和熵编码参数、以及比特流导航数据的头部信息打包到所述比特流中的帧头部中；以及

将每个片段的压缩和熵编码后的音频数据打包到所述比特流中的帧片段中。

2.根据权利要求1所述的方法，其中，所述编码定时码是指定与视频信号的特定部分的起点相对应的期望的RAP的视频定时码。

3.根据权利要求1所述的方法，其中，使所述RAP分析块位于所述音频比特流中所述RAP片段的起点的M个分析块内确保解码能力在所述期望的RAP的规定对准容限内。

4.根据权利要求1所述的方法，其中，每N帧的第一片段是默认RAP片段，除非有期望的RAP位于该帧内。

5.根据权利要求1所述的方法，还包括：

为所述通道集中的一个或多个通道检测所述帧中的分析块中瞬变的存在；

将所述帧分区，以使任何检测到的瞬变都位于它们相应的通道中的片段的第一L个分析块内；以及

针对所述通道集中的每个通道，确定用于在检测到的瞬变之前且不包括所述瞬变的片段的第一组预测参数，和用于包括所述瞬变和在所述瞬变之后的片段的第二组预测参数；以及

确定片段持续时间，其中，RAP分析块必须位于该RAP片段的起点的M个分析块之内，并且瞬变必须位于对应通道中的片段的第一L个分析块内。

6.根据权利要求5所述的方法，还包括：

利用所述RAP分析块的位置和/或瞬变的位置来确定作为分析块持续时间的二的幂的倍数的最大片段持续时间，以使所述RAP分析块位于所述RAP片段的起点的M个分析块内并且所述瞬变位于片段的第一L个分析块内，

其中，确定作为所述分析块持续时间的二的幂的倍数并且不超出所述最大片段持续时间的均匀片段持续时间，以在所述约束下减小编码帧净荷。

7.根据权利要求1所述的方法，还包括：

利用所述RAP分析块的位置来确定作为所述分析块持续时间的二的幂的倍数的最大片段持续时间，以使所述RAP分析块位于所述RAP片段的起点的M个分析块内，

8.根据权利要求7所述的方法，其中，所述最大片段持续时间还受解码器中可用的输出缓冲器尺寸的约束。

9.根据权利要求1所述的方法，其中，所述编码片段净荷的最大字节数受所述音频比特流的访问单元尺寸约束的影响。

10.根据权利要求1所述的方法，其中，所述RAP参数包括指示RAP的存在的RAP标志和指示该RAP的位置的RAP ID。

11.根据权利要求1所述的方法，其中，第一通道集包括5.1多通道音频，而第二通道集包括至少一个附加音频通道。

12.根据权利要求1所述的方法，还包括：为通道对生成解相关通道，以形成包括基本通道、相关通道和解相关通道的三元组，选择包括基本通道和相关通道的第一通道对或包括基本通道和解相关通道的第二通道对，并且对所选择的通道对中的通道进行熵编码。

13.根据权利要求12所述的方法，其中，所述通道对根据以下来选择：

如果解相关通道的方差小于相关通道的方差达一阈值，则在确定片段持续时间之前选择第二通道对；和

否则，延迟对第一或第二通道对的选择，直到基于哪个通道对向编码净荷贡献最少比特而确定了片段持续时间。

14.一种将具有随机访问点RAP的多通道音频编码成无损可变比特率VBR音频比特流的设备，该设备包括：

用于接收编码定时码的装置，该编码定时码指定所述音频比特流中期望的随机访问点RAP；

用于将包括至少一个通道集的多通道音频分块成具有相等持续时间的帧的装置，每一帧包括头部和多个片段；

用于将每一帧分块成具有相等持续时间的多个分析块的装置，每个所述片段具有一个或多个分析块的持续时间；

用于将编码定时码同步至帧序列，以使期望的RAP对准分析块的装置；

对于每个相继的帧，

用于确定与所述编码定时码中期望的RAP对准的一个RAP分析块的装置；

用于设定RAP片段的起点，使得所述RAP分析块位于该起点的M个分析块内的装置；

用于为所述通道集中的每个通道确定用于所述帧的至少一组预测参数的装置；

用于根据所述预测参数为所述通道集中的每个通道压缩音频帧的装置，其中对于在所述RAP片段的起点之后直到预测阶数的第一样本，禁用所述预测，以生成之前和/或之后是残差音频样本的原始音频样本；

用于根据所述原始音频样本和所述残差音频样本为每个片段确定片段持续时间和熵编码参数，以在以下约束下减小所述帧的可变尺寸编码净荷的装置，所述约束是，每个片段必须无损解码、具有小于帧持续时间的持续时间、并且具有小于比帧尺寸小的最大字节数的编码片段净荷；

用于将包括片段持续时间、表示RAP的存在和位置的RAP参数、预测和熵编码参数、以及比特流导航数据的头部信息打包到所述比特流中的帧头部中的装置；以及

用于将每个片段的压缩和熵编码后的音频数据打包到所述比特流中的帧片段中的装置。

15.一种在随机访问点RAP处启动对无损可变比特率VBR多通道音频比特流的解码的方法，包括：

接收无损VBR多通道音频比特流作为帧序列，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、指示一个RAP片段的存在和位置的RAP参数、导航数据、通道集头部信息、以及每个所述通道集的片段头部信息，其中所述通道集头部信息包括针对每个所述通道集中的每个所述通道的预测系数，所述片段头部信息包括至少一个熵编码标志和至少一个熵编码参数；

解包所述比特流中下一帧的头部以提取RAP参数，直到检测到具有RAP片段的帧为止；

解包所选择的帧的头部以提取片段持续时间和导航数据，以便导航至所述RAP片段的开头；

针对至少一个所述通道集解包所述头部以提取所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对所述RAP片段执行熵解码，以便为该RAP片段生成压缩音频信号，所述RAP片段的直到预测阶数的第一音频样本未压缩；以及

针对至少一个所述通道集解包所述头部，以提取预测系数并且重建所述压缩音频信号，对于直到所述预测阶数的第一音频样本，禁用所述预测，以便为所述RAP片段无损地重建所述通道集中每个音频通道的PCM音频；以及

按顺序解码所述帧中的剩余片段和随后的帧。

16.根据权利要求15所述的方法，其中，在编码定时码中指定的期望的RAP位于所述比特流中所述RAP片段的起点的对准容限内。

17.根据权利要求16所述的方法，其中，在整个比特流中，所述RAP片段在帧内的位置基于所述编码定时码中的所述期望的RAP的位置而改变。

18.根据权利要求15所述的方法，其中，在已经启动解码之后，当在随后帧中遇到另一RAP片段时，对于直到所述预测阶数的所述第一音频样本，禁用所述预测，以继续无损地重建所述PCM音频。

19.根据权利要求15所述的方法，其中，所述片段持续时间在以下约束下减小所述帧净荷，所述约束为：期望的RAP在所述RAP片段的起点的指定容限内对准，并且每个编码片段净荷小于比所述帧尺寸小的最大净荷尺寸并且一旦所述片段被解包就可完全解码且可无损重建。

20.根据权利要求15所述的方法，其中，片段的数量和持续时间在帧与帧之间变化以在以下约束下最小化每一帧的可变长度净荷，所述约束为：编码片段净荷小于最大字节数、可无损重建，并且编码定时码中指定的期望的RAP位于所述RAP片段的起点的对准容限内。

21.根据权利要求15所述的方法，还包括：

接收包括头部信息的每个帧，该头部信息包括：指示每个通道中瞬变片段的存在和位置的瞬变参数，针对每个所述通道的预测系数，其中，在每个所述通道集中，如果不存在瞬变，则所述预测系数包括单组基于帧的预测系数，而如果存在瞬变，则所述预测系数包括第一组和第二组基于分区的预测系数，

针对至少一个所述通道集解包所述头部以提取所述瞬变参数，以便确定所述通道集中每个通道中的瞬变片段的存在和位置；

针对至少一个所述通道集解包所述头部，以根据瞬变的存在与否为每个通道提取所述单组基于帧的预测系数或者提取所述第一组和第二组基于分区的预测系数；以及

针对所述通道集中的每个通道，将所述单组预测系数应用至所述帧中所有片段的压缩音频信号以无损地重建PCM音频，或者将第一组预测系数应用至以第一片段开始的压缩音频信号，并将第二组预测系数应用至以所述瞬变片段开始的压缩音频信号。

22.根据权利要求15所述的方法，其中，所述比特流还包括通道集头部信息，该通道集头部信息包括成对通道解相关标志、原始通道阶数、和量化的通道解相关系数，所述重建生成解相关的PCM音频，所述方法还包括：

解包所述头部，以提取所述原始通道阶数、所述成对通道解相关标志和所述量化的通道解相关系数并执行逆交叉通道解相关，以便为所述通道集中的每个音频通道重建PCM音频。

23.根据权利要求22所述的方法，其中，所述成对通道解相关标志指示对于包括基本通道、相关通道和解相关通道的三元组，是包括基本通道和相关通道的第一通道对还是包括基本通道和解相关通道的第二通道对已被编码，所述方法还包括：

如果所述标志指示第二通道对，则将所述基本通道与所述量化的通道解相关系数相乘，并将其添加至所述解相关通道，以在所述相关通道中生成PCM音频。

24.一种在随机访问点RAP处启动对无损可变比特率VBR多通道音频比特流的解码的设备，包括：

用于接收无损VBR多通道音频比特流作为帧序列的装置，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、指示一个RAP片段的存在和位置的RAP参数、导航数据、通道集头部信息、以及每个所述通道集的片段头部信息，其中所述通道集头部信息包括针对每个所述通道集中的每个所述通道的预测系数，所述片段头部信息包括至少一个熵编码标志和至少一个熵编码参数；

用于解包所述比特流中下一帧的头部以提取RAP参数，直到检测到具有RAP片段的帧为止的装置；

用于解包所选择的帧的头部以提取片段持续时间和导航数据，以便导航至所述RAP片段的开头的装置；

用于针对至少一个所述通道集解包所述头部以提取所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对所述RAP片段执行熵解码，以便为该RAP片段生成压缩音频信号的装置，所述RAP片段的直到预测阶数的第一音频样本未压缩；以及

用于针对至少一个所述通道集解包所述头部，以提取预测系数并且重建所述压缩音频信号的装置，其中对于直到所述预测阶数的第一音频样本，禁用所述预测，以便为所述RAP片段无损地重建所述通道集中每个音频通道的PCM音频；以及

用于按顺序解码所述帧中的剩余片段和随后的帧的装置。

25.一种将多通道音频编码成无损可变比特率VBR音频比特流的方法，包括：

将包括至少一个通道集的多通道音频分块成具有相等持续时间的帧，每一帧包括头部和多个片段，每个所述片段具有一个或多个分析块的持续时间；

对于每个相继的帧，

为所述通道集中的每个通道检测所述帧中的瞬变分析块中瞬变的存在；

将所述帧分区，以使任何瞬变分析块位于它们相应的通道中的片段的第一L个分析块内；

针对所述通道集中的每个通道，确定用于在所述瞬变分析块之前且不包括所述瞬变分析块的片段的第一组预测参数，和用于包括所述瞬变分析块和在所述瞬变分析块之后的片段的第二组预测参数；

在第一分区和第二分区上分别利用所述第一组预测参数和所述第二组预测参数来压缩所述音频数据，以生成残差音频信号；

根据残差音频样本确定每个片段的片段持续时间和熵编码参数，以在以下约束下减小所述帧的可变尺寸编码净荷，所述约束是：每个片段必须无损解码、具有小于帧持续时间的持续时间、并具有小于比所述帧尺寸小的最大字节数的编码片段净荷；

将包括片段持续时间、指示瞬变的存在和位置的瞬变参数、预测参数、熵编码参数、和比特流导航数据的头部信息打包到所述比特流中的帧头部中；以及

26.根据权利要求25所述的方法，还包括，对于所述通道集中的每个通道：

确定用于整个帧的第三组预测参数；

利用所述用于整个帧的第三组预测参数来压缩所述音频数据，以生成残差音频信号，以及

根据它们各自的残差音频信号，基于编码效率的量度来选择第三组预测参数或者第一组和第二组预测参数，

其中，如果选择所述第三组预测参数，则禁用在瞬变位置位于片段起点的L个分析块内的这方面对片段持续时间的约束。

27.根据权利要求25所述的方法，还包括：

接收定时码，该定时码指定所述音频比特流中期望的随机访问点RAP；

根据所述定时码在所述帧内确定一个RAP分析块；

设定RAP片段的起点，以使所述RAP分析块位于所述起点的M个分析块内；

当将所述帧分区时考虑由所述RAP片段施加的片段边界，以确定所述第一组和第二组预测参数；

针对所述第一组、第二组和第三组预测参数，对于在所述RAP片段的起点之后直到预测阶数的第一样本，禁用所述预测，以生成之前和/或之后是残差音频样本的原始音频样本；

确定所述片段持续时间，所述片段持续时间在满足RAP分析块位于所述RAP片段的起点的M个分析块内和/或瞬变分析块必须位于片段的第一L个分析块内的约束的同时，减少编码帧净荷；以及

将指示所述RAP的存在和位置的RAP参数和比特流导航数据打包到所述帧头部中。

28.根据权利要求25所述的方法，还包括：

利用检测到的所述瞬变分析块的位置来确定作为所述分析块持续时间的二的幂的倍数的最大片段持续时间，以使所述瞬变位于片段的第一L个分析块内，

29.根据权利要求28所述的方法，其中，所述最大片段持续时间还受解码器中可用的输出缓冲器尺寸的约束。

30.根据权利要求25所述的方法，其中，所述编码片段净荷的最大字节数受所述音频比特流的访问单元尺寸约束的影响。

31.根据权利要求25所述的方法，其中，所述比特流包括第一通道集和第二通道集，所述方法基于对于各通道集中的至少一个通道在不同位置处检测到的瞬变来为每个通道集中的每个通道选择第一组预测参数和第二组预测参数，其中，所述片段持续时间被确定为使得每个所述瞬变都位于其中出现瞬变的片段的第一L个分析块内。

32.根据权利要求31所述的方法，其中，所述第一通道集包括5.1多通道音频，所述第二通道集包括至少一个附加音频通道。

33.根据权利要求25所述的方法，其中，所述瞬变参数包括指示瞬变的存在的瞬变标志和指示其中出现瞬变的片段号的瞬变ID。

34.根据权利要求25所述的方法，还包括：生成用于通道对的解相关通道，以形成包括基本通道、相关通道和解相关通道的三元组，选择包括基本通道和相关通道的第一通道对，或者选择包括基本通道和解相关通道的第二通道对，并且对所选择的通道对中的通道熵编码。

35.根据权利要求34所述的方法，其中，所述通道对根据以下来选择：

36.一种将多通道音频编码成无损可变比特率VBR音频比特流的设备，包括：

用于将包括至少一个通道集的多通道音频分块成具有相等持续时间的帧的装置，每一帧包括头部和多个片段，每个所述片段具有一个或多个分析块的持续时间；

对于每个相继的帧，

用于为所述通道集中的每个通道检测所述帧中的瞬变分析块中瞬变的存在的装置；

用于将所述帧分区，以使任何瞬变分析块都位于它们相应的通道中的片段的第一L个分析块内的装置；

用于针对所述通道集中的每个通道，确定用于在所述瞬变分析块之前且不包括所述瞬变分析块的片段的第一组预测参数，和用于包括所述瞬变分析块和在所述瞬变分析块之后的片段的第二组预测参数的装置；

用于在第一分区和第二分区上分别利用所述第一组预测参数和所述第二组预测参数来压缩所述音频数据，以生成残差音频信号的装置；

用于根据残差音频样本确定每个片段的片段持续时间和熵编码参数，以在以下约束下减小所述帧的可变尺寸编码净荷的装置，所述约束是：每个片段必须无损解码、具有小于帧持续时间的持续时间、并具有小于比所述帧尺寸小的最大字节数的编码片段净荷；

用于将包括片段持续时间、指示瞬变的存在和位置的瞬变参数、预测参数、熵编码参数、和比特流导航数据的头部信息打包到所述比特流中的帧头部中的装置；以及

37.一种解码无损可变比特率VBR多通道音频比特流的方法，包括：

接收无损VBR多通道音频比特流作为帧序列，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、包括指示每个通道中瞬变片段的存在和位置的瞬变参数的通道集头部信息、用于每个所述通道的预测系数、和每个所述通道集的包括至少一个熵编码标志和至少一个熵编码参数的片段头部信息，其中，在每个所述通道集中，如果不存在瞬变，则所述预测系数包括单组基于帧的预测系数，而如果存在瞬变，则所述预测系数包括第一组和第二组基于分区的预测系数；

解包所述头部以提取所述片段持续时间；

针对至少一个所述通道集解包所述头部以提取每个片段的所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对每个片段执行熵解码，以便为每个片段生成压缩音频信号；

针对至少一个所述通道集解包所述头部以提取所述瞬变参数，以便确定所述通道集中的每个通道中的瞬变片段的存在和位置；

针对至少一个所述通道集解包所述头部，以根据瞬变的存在与否为每个通道提取所述单组的基于帧的预测系数或者提取第一组和第二组基于分区的预测系数；以及

针对所述通道集中的每个通道，将所述单组预测系数应用至所述帧中所有片段的压缩音频信号以无损地重建PCM音频，或者将所述第一组预测系数应用至以第一片段开始的压缩音频信号，并将所述第二组预测系数应用至以所述瞬变片段开始的压缩音频信号。

38.根据权利要求37所述的方法，其中，所述比特流还包括通道集头部信息，该通道集头部信息包括成对通道解相关标志、原始通道阶数、和量化的通道解相关系数，所述重建生成解相关PCM音频，所述方法还包括：

39.根据权利要求38所述的方法，其中，所述成对通道解相关标志指示对于包括基本通道、相关通道和解相关通道的三元组，是包括基本通道和相关通道的第一通道对还是包括基本通道和解相关通道的第二通道对已被编码，所述方法还包括：

40.根据权利要求37所述的方法，还包括以下步骤：

接收具有头部信息的帧，该头部信息包括指示一个RAP片段的存在和位置的RAP参数和导航数据；

解包所述比特流中的下一帧的头部以提取所述RAP参数，如果试图在RAP处启动解码，则跳至下一帧，直到检测到具有RAP片段的帧为止，并且利用所述导航数据以导航至所述RAP片段的开头；以及

当遇到RAP片段时，对于直到所述预测阶数的第一音频样本的禁用预测，以无损地重建所述PCM音频。

41.根据权利要求37所述的方法，其中，片段的数量和持续时间在帧与帧之间变化，以在以下约束下最小化每一帧的可变长度净荷，所述约束为：编码片段净荷小于比所述帧尺寸小的最大字节数，并且可无损地重建。

42.一种解码无损可变比特率VBR多通道音频比特流的设备，包括：

用于接收无损VBR多通道音频比特流作为帧序列的装置，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、包括指示每个通道中瞬变片段的存在和位置的瞬变参数的通道集头部信息、用于每个所述通道的预测系数、和每个所述通道集的包括至少一个熵编码标志和至少一个熵编码参数的片段头部信息，其中，在每个所述通道集中，如果不存在瞬变，则所述预测系数包括单组基于帧的预测系数，而如果存在瞬变，则所述预测系数包括第一组和第二组基于分区的预测系数；

用于解包所述头部以提取所述片段持续时间的装置；

用于针对至少一个所述通道集解包所述头部以提取每个片段的所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对每个片段执行熵解码，以便为每个片段生成压缩音频信号的装置；

用于针对至少一个所述通道集解包所述头部以提取所述瞬变参数，以便确定所述通道集中的每个通道中的瞬变片段的存在和位置的装置；

用于针对至少一个所述通道集解包所述头部，以根据瞬变的存在与否为每个通道提取所述单组的基于帧的预测系数或者提取第一组和第二组基于分区的预测系数的装置；以及

用于针对所述通道集中的每个通道，将所述单组预测系数应用至所述帧中所有片段的压缩音频信号以无损地重建PCM音频，或者将所述第一组预测系数应用至以第一片段开始的压缩音频信号，并将所述第二组预测系数应用至以所述瞬变片段开始的压缩音频信号的装置。

43.一种在随机访问点RAP处启动对无损可变比特率VBR多通道音频比特流的解码的多通道音频解码器，包括：

解包器，用于接收无损VBR多通道音频比特流作为帧序列，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、指示一个RAP片段的存在和位置的RAP参数、导航数据、通道集头部信息、以及每个所述通道集的片段头部信息，其中所述通道集头部信息包括针对每个所述通道集中的每个所述通道的预测系数，所述片段头部信息包括至少一个熵编码标志和至少一个熵编码参数；

所述解包器还解包所述比特流中下一帧的头部以提取RAP参数，直到检测到具有RAP片段的帧为止；解包所选择的帧的头部以提取片段持续时间和导航数据，以便导航至所述RAP片段的开头；针对至少一个所述通道集解包所述头部以提取所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对所述RAP片段执行熵解码，以便为该RAP片段生成压缩音频信号，所述RAP片段的直到预测阶数的第一音频样本未压缩；以及针对至少一个所述通道集解包所述头部，以提取预测系数并且重建所述压缩音频信号，对于直到所述预测阶数的第一音频样本，禁用所述预测，以便为所述RAP片段无损地重建所述通道集中每个音频通道的PCM音频；以及

熵解码器，用于按顺序解码所述帧中的剩余片段和随后的帧。

44.一种用于解码无损可变比特率VBR多通道音频比特流的多通道音频解码器，包括：

解包器，用于接收无损VBR多通道音频比特流作为帧序列，该帧序列被分割为具有可变长度帧净荷并且包括至少一个可独立解码且可无损重建的通道集的多个片段，所述通道集包括用于多通道音频信号的多个音频通道，每一帧包括头部信息和存储在所述多个片段中的熵编码压缩的多通道音频信号，所述头部信息包括片段持续时间、包括指示每个通道中瞬变片段的存在和位置的瞬变参数的通道集头部信息、用于每个所述通道的预测系数、和每个所述通道集的包括至少一个熵编码标志和至少一个熵编码参数的片段头部信息，其中，在每个所述通道集中，如果不存在瞬变，则所述预测系数包括单组基于帧的预测系数，而如果存在瞬变，则所述预测系数包括第一组和第二组基于分区的预测系数；

所述解包器还解包所述头部以提取所述片段持续时间；针对至少一个所述通道集解包所述头部以提取每个片段的所述熵编码标志和编码参数以及所述熵编码压缩的多通道音频信号，并且利用所选择的熵编码和编码参数来对每个片段执行熵解码，以便为每个片段生成压缩音频信号；针对至少一个所述通道集解包所述头部以提取所述瞬变参数，以便确定所述通道集中的每个通道中的瞬变片段的存在和位置；针对至少一个所述通道集解包所述头部，以根据瞬变的存在与否为每个通道提取所述单组的基于帧的预测系数或者提取第一组和第二组基于分区的预测系数；以及

熵解码器，用于针对所述通道集中的每个通道，将所述单组预测系数应用至所述帧中所有片段的压缩音频信号以无损地重建PCM音频，或者将所述第一组预测系数应用至以第一片段开始的压缩音频信号，并将所述第二组预测系数应用至以所述瞬变片段开始的压缩音频信号。