CN101965612A

CN101965612A - 用于处理音频信号的方法和装置

Info

Publication number: CN101965612A
Application number: CN2009801075430A
Authority: CN
Inventors: 吴贤午; 宋政旭; 李昌宪; 郑亮源; 姜泓求
Original assignee: IND ACADEMIC COOP; LG Electronics Inc
Current assignee: NEO LAB CONVERGENCE Inc; LG Electronics Inc
Priority date: 2008-03-03
Filing date: 2009-03-03
Publication date: 2011-02-02
Anticipated expiration: 2029-03-03
Also published as: KR101221919B1; US7991621B2; RU2455709C2; EP2259253B1; BRPI0910285B1; MX2010009571A; WO2009110738A3; KR20100134576A; BRPI0910285A2; AU2009220321B2; CN101965612B; CA2716817A1; RU2010140362A; CA2716817C; JP5266341B2; AU2009220321A1; US20100070284A1; EP2259253A4; EP2259253A2; JP2011513788A

Abstract

本发明旨在提供能够以较高的效率来压缩和恢复音频信号的编码信号处理方法及其装置。为了本发明的目的，所公开的音频信号处理方法的特征在于包括以下步骤：基于主要信息判断音频信号类型是否是音乐信号；如果不是，则基于辅助信息判断音频信号类型是语音信号还是混合信号；以及当音频信号类型是音乐信号、语音信号或混合信号时，通过使用编码标识信息，根据应用于每个帧的编码方法来恢复音频信号。如果音频信号类型是音乐信号，则仅接收第一类型信息，并且如果音频信号类型是语音信号或混合信号，则接收主要信息和辅助信息两者。因此，可以以较高的效率编码和解码各种音频信号。

Description

用于处理音频信号的方法和装置

技术领域

本发明涉及用于有效地编码和解码各种音频信号的音频信号处理装置及其方法。

背景技术

一般，编码技术常规地被划分为两种类型，诸如感知音频编码器和基于线性预测的编码器。例如，对于音乐优化的感知音频编码器采用在频率轴上使用掩蔽原理的编码处理中减少信息大小的方案，掩蔽原理是人类听觉心理声学理论。相反，对于语音优化的基于线性预测的编码器采用通过在时间轴上建模语音发音来减少信息大小的方案。

然而，上述技术的每一个在每一个优化的音频信号(例如，语音信号、音乐信号)上具有良好的性能，但是未能在从将不同类型的音频信号或语音和音乐信号复杂地混合在一起而生成的音频信号上提供一致的性能。

发明内容

因此，本发明针对一种用于处理音频信号的装置及其方法，它们基本上消除了由于相关技术的限制和缺点导致的一个或多个问题。

本发明的一个目的是提供一种用于处理音频信号的装置及其方法，由此可以以较高的效率来压缩和/或重建不同类型的音频信号。

本发明的另一个目的是提供一种适合于音频信号的特性的音频编码方案。

应当理解，上述一般描述和下面的详细描述是示例性的和解释性的，并且旨在提供对所要求保护的本发明的进一步的解释。

附图说明

附图被包括来进一步理解本发明，并且被合并在本说明书中并构成其一部分，附图图示本发明的实施例，并且与说明书一起用于解释本发明的原理。

在附图中：

图1是根据本发明的一个优选实施例的音频编码装置的框图；

图2是根据本发明的一个实施例的使用音频类型信息来编码音频信号的方法的流程图；

图3是根据本发明编码的音频比特流结构的示例的图；

图4是根据本发明的一个实施例的使用心理声学模型的音频编码装置的框图；

图5是根据本发明的另一个实施例的使用心理声学模型的音频编码装置的框图；

图6是根据本发明的另一个实施例的使用心理声学模型单元的噪声修改参考值的变化的图；

图7是根据本发明的另一个实施例的、用于使用心理声学模型单元来生成噪声修改参考值的方法的流程图；

图8是根据本发明的一个实施例的音频解码装置的框图；

图9是根据本发明的实施例的利用音频解码装置实现的产品的配置的图；

图10是根据本发明的一个实施例的利用音频解码装置实现的产品之间的关系的示例的图；以及

图11是根据本发明的一个实施例的音频解码方法的流程图。

具体实施方式

现在详细参考本发明的优选实施例，其示例被图示在附图中。

在本发明中，可以将在本发明中的术语解释为下面的参考。首先，“编码(coding)”可以偶尔被解释为编码(encoding)或解码(decoding)。信息是包括值、参数、系数和元素等的术语。

关于本发明，在本发明中的“音频信号”在概念上与视频信号相区别。并且，音频信号指示可以在再现中以听觉标识的所有信号。因此，可以将音频信号划分为主要与人的声音相关的语音信号或类似于语音信号的信号(以下称为“语音信号”)、主要与机械噪声和声音相关的音乐信号或类似于音乐信号的信号(以下称为“音乐信号”)和通过将语音信号和音乐信号混合在一起而生成的“混合信号”。本发明旨在提供用于编码/解码以上三种类型的音频信号的装置及其方法，以便编码/解码音频信号以适合于音频信号的特性。而且，仅为了本发明的描述而划分音频信号。并且，显而易见，本发明的技术思想可等同地适用于根据不同的方法来划分音频信号的情况。

图1是根据本发明的一个优选实施例的音频编码装置的框图。具体地，图1示出根据预设参考来分类输入的音频信号，并且然后通过选择适合于对应的音频信号的音频编码方案来编码所划分的音频信号的处理。

参考图1，根据本发明的一个优选实施例的音频编码装置包括：信号分类单元(声音行为检测器)100，用于通过分析输入的音频信号的特性来将所输入的音频信号划分为语音信号、音乐信号或语音和音乐的混合信号的类型；线性预测建模单元110，用于编码由信号分类单元100确定的信号类型的语音信号；心理声学模型单元120，用于编码音乐信号；以及混合信号建模单元130，用于编码语音和音乐的混合信号。并且，音频编码装置可以进一步包括转换单元101，转换单元101被配置成选择适合于由信号分类单元100划分的音频信号的编码方案。使用作为控制信号的、由信号分类单元100生成的音频信号编码类型信息(例如，第一类型信息和第二类型信息，将参考图2和图3来详细地解释它们)来操作转换单元101。而且，混合信号建模单元130可以包括线性预测单元131、残余信号提取单元132和频率变换单元133。在下面的描述中，详细解释在图1中所示的各个元件。

首先，信号分类单元100划分输入的音频信号的类型，并且然后生成控制信号以选择适合于所划分的类型的音频编码方案。例如，信号分类单元100划分输入的音频信号是音乐信号、语音信号还是语音和音乐的混合信号。因此，所输入的音频信号的类型被划分以从下面将解释的音频编码方案选择每一个音频信号类型的最佳编码方案。因此，信号分类单元100执行分析输入的音频信号并且然后选择对于所输入的音频信号最佳的音频编码方案的处理。例如，信号分类单元100通过分析输入的音频信号来生成音频编码类型信息。所生成的音频编码类型信息被用作用于选择编码方案的参考。所生成的音频编码类型信息作为比特流被包括在最后编码的音频信号中，并且然后被传送到解码和接收设备。此外，将参考图8和图11详细解释使用音频编码类型信息的解码方法和装置。而且，由信号分类单元100生成的音频编码类型信息可以包括例如第一类型信息和第二类型信息。将参考图2和图3来描述这一点。

信号分类单元100根据输入的音频信号的特性来确定音频信号类型。例如，如果所输入的音频信号是对于利用特定系数和残余信号建模较好的信号，则信号分类单元100将所输入的音频信号确定为语音信号。如果所输入的音频信号是对于利用特定系数和残余信号建模不良的信号，则信号分类单元100将所输入的音频信号确定为音乐信号。如果难以将所输入的音频信号确定为语音信号或音乐信号，则信号分类单元100将所输入的音频信号确定为混合信号。关于详细的确定参考，例如，当利用特定系数和残余信号来建模信号时，如果残余信号与该信号的能级比率小于预设参考值，则可以将该信号确定为对于建模良好的信号。因此，可以将该信号确定为语音信号。如果该信号在时间轴上具有高冗余，则可以通过用于从过去的信号预测当前信号的线性预测将该信号确定为对于建模良好的信号。因此，可以将该信号确定为音乐信号。

如果根据这个参考输入的信号被确定为语音信号，则能够使用对于语音信号优化的语音编码器来编码输入信号。根据本实施例，线性预测建模单元110用于适合于语音信号的编码方案。线性预测建模单元110被提供有各种方案。例如，ACELP(代数码激励线性预测)编码方案、AMR(自适应多速率)编码方案或AMR-WB(自适应多速率宽带)编码方案适用于线性预测建模单元110。

线性预测建模单元110能够以帧为单位对于输入的音频信号执行线性预测编码。线性预测建模单元110提取每一个帧的预测系数，并且然后量化所提取的预测系数。例如，使用“列文逊-杜宾算法”来提取预测系数的方案一般广泛地被使用。

具体地，例如，如果利用多个帧构造输入的音频信号或存在多个超帧一一其中每一个具有多个帧的单元，则能够确定是否对于每一个帧应用线性预测建模方案。可以对于在一个超帧内存在的每一个单位帧或单位帧的每一个子帧应用不同的线性预测建模方案。这可以提高音频信号的编码效率。

同时，如果信号分类单元100将输入的音频信号划分为音乐信号，则能够使用对于音乐信号优化的音乐编码器来编码输入信号。根据本实施例，心理声学模型单元120用于适合于音乐信号的编码方案。将参考图4至7详细描述应用于本发明的心理声学模型单元120的示例。

如果信号分类单元100将输入的音频信号划分为其中将语音和音乐混合在一起的混合信号，则能够使用对于混合信号优化的编码器来编码输入信号。根据本实施例，混合信号建模单元130用于适合于混合信号的编码方案。

混合信号建模单元130能够通过混合方案来执行编码，该混合方案是通过将上述的线性预测建模方案和心理声学建模方案混合在一起而产生的。具体地，混合信号建模单元130对于输入信号执行线性预测编码，获得数量达到在线性预测结果信号和原始信号之间的差的残余信号，并且然后通过频率变换编码方案来编码残余信号。

例如，图1示出混合信号建模单元130包括线性预测单元131、残余信号提取单元132和频率变换单元133的示例。

线性预测单元131对于输入的信号执行线性预测分析，并且然后提取用于指示信号的特性的线性预测系数。残余信号提取单元132使用所提取的线性预测系数从所输入的信号提取由此去除了冗余分量的残余信号。由于从残余信号去除了冗余，所以对应的残余信号可以具有白噪声的类型。线性预测单元131能够以帧为单位对于输入的音频信号执行线性预测编码。线性预测单元131每一个帧提取预测系数，并且然后量化所提取的预测系数。例如，具体地，如果利用多个帧构造输入的音频信号或存在多个超帧——其中每一个具有多个帧的单元，则能够确定是否对于每一个帧应用线性预测建模方案。可以对于在一个超帧内存在的每一个单位帧或单位帧的每一个子帧应用不同的线性预测建模方案。这可以提高音频信号的编码效率。

残余信号提取单元132接收由线性预测单元131编码的剩余信号的输入和已经通过信号分类单元100的原始音频信号的输入，并且然后提取作为两个输入信号之间的差信号的残余信号。

频率变换单元133通过经由MDCT等对于输入的残余信号执行频域转换来计算掩蔽阈值或信号掩蔽比(SMR)，并且然后编码残余信号。频率变换单元133能够使用TCX以及心理声学建模来编码残余音频趋势的信号。

因为线性预测建模单元100和线性预测单元131通过对于输入的音频信号执行线性预测和分析来提取线性预测系数(LPC)反映的音频特性，所以能够考虑使用一种用于传送LPC数据的方法的可变比特的方案。

例如，通过考虑每一个帧的编码方案来确定LPC数据模式。然后，能够对于每一个所确定的LPC数据模式来分配具有可变比特数目的线性预测系数。通过这一点，减少了整个音频比特数目。因此，可以更有效地执行音频编码(coding)和解码。

同时，如在上述的描述中所提及的，信号分类单元100通过将音频信号划分为两种类型的编码类型信息之一来生成音频信号的编码类型信息，使得编码类型信息能够被包括在比特流中，并且然后向解码装置传送比特流。在下面的说明中，参考图2和图3来解释根据本发明的音频编码类型信息。

图2是根据本发明的一个优选实施例的使用音频类型信息来编码音频信号的方法的流程图。

参考图2，本发明提出了一种用于以使用用于分类的第一类型信息和第二类型信息的方式来表示音频信号的类型的方法。例如，如果输入的音频信号被确定为音乐信号[S100]，则信号分类单元100控制转换单元101来选择适合于音乐信号的编码方案(例如，在图2中所示的心理声学建模方案)，并且然后使得能够根据所选择的编码方案来执行编码[S110]。其后，对应的控制信息被配置为第一类型信息，并且然后通过被包括在编码的音频比特流中而被传送。因此，第一类型信息作用为编码标识信息，该编码标识信息用于指示音频信号的编码类型是音乐信号编码类型。在根据解码方法和装置来解码音频信号中使用第一类型信息。

而且，如果所输入的信号被确定为语音信号[S120]，则信号分类单元100控制转换单元101来选择适合于语音信号的编码方案(例如，在图2中所示的线性预测建模)，并且然后使得能够根据所选择的编码方案来执行编码[S130]。如果所输入的信号被确定为混合信号[S120]，则信号分类单元100控制转换单元101选择适合于混合信号的编码方案(例如，在图2中所示的混合信号建模)，并且然后使得能够根据所选择的编码方案来执行编码[S140]。随后，用于指示语音信号编码类型或混合信号编码类型的控制信息被配置到第二类型信息中。然后第二类型通过与第一类型信息一起被包括在编码的音频比特流中而被传送。因此，第二类型信息作用为编码标识信息，该编码标识信息用于指示音频信号的编码类型是语音信号编码类型或混合信号编码类型。在根据解码方法和装置来解码音频信号中，与上述的第一类型信息一起使用第二类型信息。

关于第一类型信息和第二类型信息，根据输入的音频信号的特性而存在两种情况。即，仅需要传送第一信息或需要传送第一类型信息和第二类型信息两者。例如，如果输入的音频信号的类型是音乐信号编码类型，则第一类型信息仅通过被包括在比特流中而被传送，并且第二类型信息可以不被包括在比特流中[图3的(a)]。即，仅当输入的音频信号编码类型是语音信号编码类型或混合信号编码类型时，才在比特流中包括第二类型信息。因此，能够防止不必要的比特数目表示音频信号的编码类型。

虽然本发明的示例教导了第一类型信息指示音乐信号类型的存在或不存在，但是这仅是示例性的。并且，显然第一类型信息可用作用于指示语音信号编码类型或混合信号编码类型的信息。因此，通过根据应用本发明的编码环境利用具有高发生概率的音频编码类型，能够减少比特流的整体比特数目。

图3是根据本发明编码的音频比特流结构的示例的图。

参见图3的(a)，输入的音频信号对应于音乐信号。第一类型信息301仅被包括在比特流中，但是，第二类型信息不被包括在其中。在比特流内，包括通过与第一类型信息301对应的编码类型编码的音频数据(例如，AAC比特流302)。

参见图3的(b)，输入的音频信号对应于语音信号。第一类型信息311和第二类型信息312都被包括在比特流中。在比特流内，包括通过与第二类型信息312相对应的编码类型编码的音频数据(例如，AMR比特流313)。

参考图3的(c)，输入的音频信号对应于混合信号。第一类型信息321和第二类型信息322都被包括在比特流中。在比特流内，包括通过与第二类型信息322相对应的编码类型编码的音频数据(例如，应用了TCX的AAC比特流323)。

关于本说明书，在图3的(a)至(c)中示例性地示出包括在由本发明编码的音频比特流中的信息。并且，显然各种应用在本发明的范围中是可能的。例如，在本发明中，通过添加用于标识对应的编码方案的信息，AMR和AAC的示例被视为编码方案的示例。而且，各种编码方案是适用的，并且也可以不同地获得用于标识各种编码方案的编码标识信息。此外，在图3的(a)至(c)中所示的本发明适用于一个超帧、单位帧和子帧。即，本发明能够对于每一个预设帧单位提供音频信号编码类型信息。

作为使用线性预测建模单元110、心理声学模型单元120和混合信号建模单元130的输入信号的编码处理的预处理步骤，可以执行频带扩展处理(附图中未示出)。作为频带扩展处理的示例，能够使用SBR(频谱带复制)和HBE(高频带扩展)来用于使用低频分量在带宽扩展解码单元中生成高频分量。

作为使用线性预测建模单元110、心理声学模型单元120和混合信号建模单元130的输入信号的编码处理的预处理步骤，可以执行信道扩展处理(附图中未示出)。信道扩展处理能够通过将音频信号的信道信息编码为边信息来减小比特分配大小。关于信道扩展处理的示例，存在诸如PS(参数立体声)的信道延伸扩展单元。在该情况下，参数立体声是以将立体声信号下混合为单声道信号的方式来编码立体声信号的方案。

根据一个实施例，如果使用SBR和PS(参数立体声)来传送48kHz的立体声信号，则单声道24kHz的信号通过SBR/PS保留。这个单声道信号可以被编码器编码。因此，编码器的输入信号具有24kHz。这是因为高频分量被SBR编码，并且被下采样为前一个频率的一半。因此，输入信号变为单声道信号。这是因为通过PS(参数立体声)将立体声音频作为参数提取，以改变为单声道信号和附加音频的总和。

参考附图如下解释一种用于使用心理声学模型单元来编码音乐信号的处理。

图4是根据本发明的一个实施例的使用心理声学模型的音频编码装置的框图。

参考图4，根据本发明的一个实施例的使用心理声学模型的音频编码装置包括滤波器组(分析滤波器组)401、心理声学模型单元402、量化和比特分配单元403和熵编码单元404和复用器405。

滤波器组401通过执行MDCT(改进的离散余弦变换)以编码作为时间轴信号的输入的音频信号来将音频信号转换为频率轴信号。

心理声学模型单元402通过分析输入的音频信号的感知特性来确定比特分配处理所需要的每一个频率最大可允许量化噪声的大小。每一个频率最大可允许量化噪声可以被图示为噪声整形参考。具体地，由于心理声学模型单元402分析在频率轴上的输入信号的感知特性，所以需要输入信号的频率变换处理。虽然滤波器组401在音频信号编码处理中执行频率变换，但是由于心理声学理论的测试结果大多在DFT(离散傅立叶变换)轴上被获得，所以优选执行FFT(快速傅立叶变换)。在已经以以上方式完成了频率轴信号变换处理后，可以通过在频率谱和与每一个频率分量相对应的扩频函数之间的卷积来获得在心理声学模型中的噪声整形参考。通过计算在由心理声学模型获得的噪声整形参考和变为感知熵的输入信号谱之间的差并且然后正确地分配比特，来量化音频信号谱。

量化单元403量化通过“损失编码”生成的结果对象：“损失编码”用于去除在由滤波器组401转换为频率轴信号的音频信号中的、位于由心理声学模型单元402确定的噪声整形参考之下的量化噪声的大小。量化单元403也向量化信号分配比特。以给定的比特率以下述方式来优化比特分配处理：从量化处理生成的量化噪声变得小于从心理声学模型获得的最大可允许噪声的大小。

熵编码单元404通过根据使用频率向由量化单元403量化和比特分配的音频信号分配代码来最大化音频信号的压缩比。具体地，通过以使得平均代码长度最接近熵的方式来分配代码而最大化压缩效率。基本原理在于：通过根据数据符号的统计出现频率将每一个符号或连续符号表示为适当长度的代码，减小整个数据大小。根据数据符号的出现概率来确定被称为“熵”的平均信息大小。熵编码的目的是使得每一个符号的平均代码长度更接近于熵。

复用器405从熵编码单元404接收利用高效率压缩的音频数据和边信息，并且然后向接收侧的解码器传送音频数据流。

图5是根据本发明的另一个实施例的、使用心理声学模型的音频编码装置的框图。

参考图5，根据本发明的另一个实施例的使用心理声学模型的音频编码装置包括滤波器组(分析滤波器组)501、心理声学模型单元502、量化和比特分配单元503、熵编码单元504和复用器505。具体地，心理声学模型单元502包括系数生成单元502a和噪声整形参考确定单元502b。

为了去除音频信号的统计冗余，滤波器组501将音频信号转换为子带采样。滤波器组501通过执行MDCT(改进的离散余弦变换)以编码作为时间轴信号的输入的音频信号来将音频信号转换为频率轴信号。

心理声学模型单元502通过分析输入的音频信号的感知特性来确定比特分配处理所需要的每一个频率最大可允许量化噪声的大小。一般，在编码音频信号的过程中执行量化处理，以将模拟信号转换为数字信号。在这个量化处理中，通过四舍五入连续值而生成的误差的值被称为量化噪声。量化噪声根据比特分配的程度而改变。为了以数字表达量化噪声，使用信号与量化噪声比(SQNR)。信号与量化噪声比被表达为“20×N log 2＝6.02×N(dB)”。在该情况下，“N”指示对于每一个采样分配的比特的数目。每一个频率最大可允许量化噪声可以被图示为噪声整形参考。因此，如果提高了比特分配值，则量化噪声减小，并且量化噪声降低得低于噪声整形参考的概率提高。

心理声学模型单元502包括：系数生成单元502a，系数生成单元502a被配置成通过执行线性预测分析来生成线性预测系数，并且通过向线性预测系数应用加权来生成整形预测系数；以及使用所生成的整形预测系数的噪声整形参考确定单元502b。使用通过感知加权编码生成的整形预测系数来生成噪声整形参考，感知加权编码用于向通过线性预测编码得到的线性预测系数提供加权。

量化单元503量化通过“损失编码”生成的结果对象，“损失编码”用于去除在由滤波器组501转换为频率轴信号的音频信号中的、位于由心理声学模型单元502确定的噪声整形参考之下的量化噪声的大小。量化单元503也向量化信号分配比特。以给定的比特率以下述方式来优化比特分配处理：从量化处理生成的量化噪声变得小于新设定的噪声整形参考的最大可允许噪声的大小。具体地，分配MDCT频谱的量化比特以使得能够基于在每一个帧中的噪声整形参考通过信号来掩蔽量化噪声。例如，频率变换的音乐信号被分为多个子带信号。并且，能够使用与每一个子带信号相对应的、基于整形预测系数的噪声整形参考来量化每一个子带信号。

熵编码单元504通过根据使用频率向由量化单元503量化和比特分配的音频信号分配代码来最大化音频信号的压缩比。具体地，通过以使得平均代码长度最接近于熵的方式来分配代码而最大化压缩效率。即，以根据数据符号的统计出现频率将每一个符号或连续符号表示为适当长度的代码的方式，来优化数据大小。根据数据符号的出现概率来确定被称为“熵”的平均信息大小。熵编码的目的是使得每一个符号的平均代码长度更接近于熵。在执行熵编码中，熵编码单元504不被特定方法限定，并且能够根据由本领域内的技术人员做出的选择来采用霍夫曼编码、算术编码或LZW编码等。

复用器505从熵编码单元504接收利用高效率压缩的音频数据和边信息，并且然后向接收侧的解码器传送音频数据流。

同时，可以以下面的方式通过解码器来解码由本发明的音频编码方法编码的音频数据。

首先，接收通过解码器的解复用器量化的音频信号。从已量化的音频信号重建音频信号。在该情况下，使用用于频率变换的音频信号的噪声整形参考来生成量化的音频信号。并且，可以使用通过向音频信号的线性预测系数应用加权而生成的整形预测系数来确定噪声整形参考。

图6是根据本发明的另一个实施例的、使用心理声学模型单元的噪声修改参考值的变化的图。

参见图6，水平轴指示频率，并且垂直轴指示信号的强度(dB)。实线①指示音频输入信号的频谱。虚线②指示音频输入信号的能量。实线③指示先前噪声整形参考。并且，虚线④指示使用通过线性预测分析计算的线性预测系数和通过向线性预测系数应用给定的加权生成的整形预测系数而新生成的噪声整形参考。

考虑在图上的音频输入信号的波形，波形的顶点被称为共振峰，并且波形的底部点被称为波谷。例如，在图6中所示的点A变为共振峰，并且点B变为波谷。在语音编码的情况下，基于人类听觉特性对于在频谱的波谷区域中的量化噪声敏感的事实，在音频信号编码中向波谷区域中分配相对较大的比特数目，以抵消在波谷区域中的量化噪声。并且，通过递增具有相对较大的能量的共振峰区域的噪声整形参考，向共振峰区域分配相对较小的比特数目。因此，保持压缩率，并且可以实现增强的声音质量。具体地，点A的噪声整形参考被调整得高于先前点的噪声整形参考，并且点B的掩蔽曲线值被调整得低于相关点的掩蔽曲线值。因此，能够提高在音频信号上的编码效率。即，在量化频率变换的音频信号的步骤中，在提高与线性预测系数的频率谱的共振峰区域相对应的音频信号的量化噪声，但是降低与波谷区域相对应的音频信号的量化噪声的方向上，加权是适用的。

对于这一点，在图5中所示的系数生成单元502a能够找到通过线性预测分析利用线性预测系数构造的传递函数。这个传递函数的频谱被图示为输入信号的频率谱的包络。这个传递函数被称为线性预测系数，其示出与用于相关技术的音频编码处理的心理声学模型(PAM)的噪声整形参考类似的形式。使用这个特征，得到由系数生成单元502a找到的传递函数，即线性预测系数。通过基于所得到的线性预测系数来调整在相关技术中在实验上找到的噪声整形参考，能够更有效地根据比特率减小来衰减量化噪声。并且，能够减少操作量。而且，系数生成单元502a通过以向线性预测系数应用适当的加权系数的方式来实现加权滤波器而生成整形预测系数。因此，能够以使用整形预测系数的简单方式来调整在频谱的共振峰和波谷区域上的加权。

如果这个方案被应用到音频编码处理，则通过降低噪声整形参考向其中量化噪声的影响在听觉方面敏感的频谱的波谷区域分配更多的比特，并且通过提高噪声整形参考来降低被分配到具有相对较小的误差影响的共振峰区域的比特数目。因此，能够在听觉方面增强编码性能。如此，可以通过下述方式进一步增强编码效率：根据诸如频谱的平坦度的输入信号特性自适应地调整用于调整感知加权的加权系数，而不是等同地应用加权系数。因此，在使用线性预测和加权来改善噪声整形参考中，有利的是，在没有对于频谱的包络分析的情况下，通过向心理声学模型应用感知加权可以得到噪声整形参考。

图7是根据本发明的另一个实施例的、用于使用心理声学模型单元来生成噪声修改参考值的方法的流程图。

参见图7，如果音频信号被输入到心理声学模型单元502，则系数生成单元502a使用线性预测编码来生成利用线性预测系数构造的传递函数[S200]。传递函数的频谱被图示为输入信号的频谱的包络。这个传递函数被称为线性预测系数，并且具有与用于相关技术的音频编码处理的心理声学模型(PAM)的噪声整形参考的形式类似的形式。系数生成单元502a接收音频信号的输入，并且然后确定适合于线性预测系数的加权系数[S210]。随后，噪声整形参考确定单元502b生成通过下述方式校正的包络：向利用在步骤S200中找到的线性预测系数构造的传递函数的从前包络应用在步骤S210中确定的加权系数[S220]。然后噪声整形参考确定单元502b计算在步骤S220中生成的包络的脉冲响应[S230]。在该情况下，脉冲响应作用为一种滤波。噪声整形参考确定单元502b通过对于在步骤S230中滤波的包络执行FFT来将时间轴信号转换为频率轴信号[S240]。噪声整形参考确定单元502b确定掩蔽水平，以将噪声整形参考设定为被转换为频率轴信号的包络[S250]。最后，噪声整形参考确定单元502b然后对于每一个子带分割信号掩蔽比(SMR)[S260]。

通过以上处理，通过向心理声学系数应用加权系数来实现加权滤波器。与相关技术的噪声整形参考作比较，在频率谱上提高噪声整形参考的共振峰区域的值，并且降低波谷区域的值。因此，能够相对地向波谷区域分配较高的比特数目。

同时，能够使用弯曲的线性预测编码(弯曲的LP分析)而不使用在步骤S200中的线性预测编码(线性预测分析)来增强编码效率。具体地，执行弯曲的线性预测编码来以通过核心音频编码方案来压缩信号的方式降低在高效率音频编码器中的数据率，该核心音频编码方案应用本发明的心理声学模型直到低频带，并且使用低频信息向高频分量的其余部分应用带宽扩展或频谱带复制(SBR)。在这个高频编码器的情况下，仅需要对于直到特定低频带的基于心理声学模型的噪声整形参考。在使用弯曲线性预测编码的情况下，能够通过提高特定频带的频率分辨率来提高包络建模效率。

在图4或图5中所示的音频信号编码器可用于加载有音乐信号编码器和语音信号编码器两者的设备中。在音乐特性在下混合信号的特定帧或分段中占优势的情况下，音频信号编码器根据音乐编码方案来编码下混合信号。在该情况下，音乐信号编码器可以对应于改进的离散余弦变换(MDCT)编码器。

在语音特性在下混合信号的特定帧或分段中占优势的情况下，音频信号编码器根据语音编码方案来编码下混合信号。同时，能够将用于语音信号编码器的线性预测编码方案改进为由本发明提出的方案。在谐波信号在时间轴上具有高冗余的情况下，可以通过用于从过去的信号预测当前的信号的线性预测来将谐波信号建模。在该情况下，如果应用线性预测编码方案，则能够提高编码效率。同时，语音信号编码器可以对应于时域编码器。

图8是根据本发明的一个实施例的音频解码装置的框图。

参见图8，解码装置能够通过下述方式来从输入的比特流重建信号：执行与由参考图1所述的编码装置执行的编码处理相反的处理。具体地，解码装置可以包括解复用器210、解码器确定单元220、解码单元230和合成单元240。解码单元230可以包括多个解码单元231、232和233，用于分别通过不同的方案来执行解码。并且，在解码器确定单元220的控制下操作它们。更具体地，解码单元230可以包括线性预测解码单元231、心理声学解码单元232和混合信号解码单元233。而且，混合信号解码单元233可以包括信息提取单元234、频率变换单元235和线性预测单元236。

解复用器210从输入的比特流提取多个编码信号和边信息。在该情况下，边信息被提取以重建信号。解复用器210提取包括在比特流中的边信息，诸如第一类型信息和第二类型信息(仅在必要时包括)，并且然后将所提取的边信息传送到解码器确定单元220。

解码器确定单元220从所接收到的第一类型信息和所接收到的第二类型信息(仅在必要时包括)确定在解码单元231、232和233内的解码方案之一。虽然解码器确定单元220能够使用从比特流提取的边信息来确定解码方案，但是如果在比特流中不存在边信息，则解码器确定单元220能够通过独立的确定方法来确定方案。可以以利用上述的信号分类单元(参见在图1中的“100”)的特征的方式来执行这种确定方法。

在解码单元230内的线性预测解码器231能够解码音频信号的语音信号类型。心理声学解码器233解码音频信号的音乐信号类型。并且，混合信号解码器233解码音频信号的语音和音乐混合类型。具体地，混合信号解码器233包括：信息提取单元234，用于从音频信号提取频谱数据和线性预测系数；频率变换单元235，用于通过逆变换频谱数据来生成用于线性预测的残余信号；以及线性预测单元236，用于通过对于线性预测系数和残余信号执行线性预测编码来生成输出信号。

已解码的信号通过被合成单元240合成在一起而被重建为原始音频信号。

在下面的说明中，参考在图11中所示的流程图来详细解释根据本发明的解码方法。

首先，解复用器210从输入的比特流提取第一类型信息和第二类型信息(如果必要)。解码器确定单元220首先使用所提取的信息的第一类型信息来确定接收到的音频信号的编码类型[S1000]。如果接收到音乐信号，则利用在解码单元230中的心理声学解码单元232。根据第一类型信息来确定对于每一个帧或子帧应用的编码方案。然后，通过应用适当的编码方案来执行解码[S1100]。

如果使用第一类型信息确定所接收到的音频信号的编码类型不是音乐信号编码类型，则解码器确定单元220使用第二类型信息来确定所接收到的音频信号的编码类型是语音信号编码类型还是混合信号编码类型[S1200]。

如果第二类型信息意指语音信号编码类型，则通过以利用在解码单元230中的线性预测解码单元231的方式利用从比特流提取的编码标识信息来确定对于每一个帧或子帧应用的编码方案。然后通过应用适当的编码方案来执行解码[S1300]。

如果第二类型信息意指混合信号编码类型，则通过以利用在解码单元230中的混合信号解码单元233的方式利用从比特流提取的编码标识信息来确定每一个帧或子帧应用的编码方案。然后通过应用适当的编码方案来执行解码[S1400]。

此外，作为使用线性预测解码单元231、心理声学解码单元232和混合信号解码单元233的音频信号解码处理的后处理，带宽扩展解码单元可以执行频带扩展处理(附图中未示出)。以下述方式来执行该频带扩展处理：带宽扩展解码单元通过解码包括在音频信号比特流中的带宽扩展信息来从频谱数据的一部分或全部频谱数据生成不同频带(例如，高频带)的频谱数据。如此，可以在扩展频带中将具有类似特性的单元编组到块内。这是通过编组具有公共包络(或包络特性)的类型时隙(或采样)来生成包络区域的同一方法。

图9是根据本发明的实施例的利用音频解码装置实现的产品的配置的图。并且，图10是根据本发明的实施例的利用音频解码装置实现的产品之间的关系的示例的图。

参考图9，有线/无线通信单元910通过有线/无线通信系统来接收比特流。具体地，有线/无线通信单元910可以包括有线通信单元910A、IR(红外)通信单元910B、蓝牙单元910C和无线LAN通信单元910D中的至少一个。

用户认证单元920接收用户信息的输入，并且然后执行用户认证。用户认证单元920可以包括指纹识别单元920A、虹膜识别单元920B、面部识别单元920C和语音识别单元920D中的至少一个。用户认证单元920能够以下述方式来执行用户认证：向对应的识别单元920A/920B/920C/920D输入指纹/虹膜/面部轮廓/语音信息，将所输入的信息转换为用户信息，并且然后确定用户信息与先前登记的用户数据是否匹配。

输入单元930是用于使得用户能够输入各种命令的输入设备。输入单元930能够包括键盘单元930A、触摸板单元930B和遥控器单元930C中的至少一个，本发明不限于此。信号解码单元940可以包括音频解码装置945，音频解码装置945可以是参考图8所述的音频解码装置。音频解码装置945决定不同的方案中的至少一个，并且使用线性预测解码单元、心理声学解码单元和混合信号解码单元中的至少一个来执行解码。信号解码单元940通过使用与信号特性相对应的解码单元解码信号来输出输出信号。

控制单元950从输入设备接收输入信号，并且控制信号解码单元940和输出单元960的所有处理。并且，输出单元960是用于输出由信号解码单元940等生成的输出信号的元件。输出单元960能够包括扬声器单元960A和显示单元960B。如果输出信号是音频信号，则将其输出到扬声器。如果输出信号是视频信号，则将其经由显示器输出。

图10示出在与在图9中所示的产品相对应的终端和服务器之间的关系。参考图10的(A)，可以观察到，第一终端1001和第二终端1002能够经由有线/无线通信单元彼此双向通信，以交换数据和/或比特流。参见图10的(B)，可以观看到，服务器1003和第一终端1001能够执行有线/无线通信。

根据本发明的音频信号处理方法可以被实现为要在计算机中运行的程序，并且可以被存储在计算机可读记录介质中。并且，具有根据本发明的数据结构的多媒体数据也可以被存储在计算机可读记录介质中。计算机可读介质包括其中存储了计算机系统可读的数据的所有种类的记录设备。计算机可读介质包括例如R0M、RAM、CD-ROM、磁带、软盘和光学数据存储设备等，并且也包括载波类型的实现(例如，经由因特网的传输)。而且，由编码方法生成的比特流被存储在计算机可读记录介质中，或可以经由有线/无线通信网络被传输。

因此，本发明提供了下面的效果或优点。

首先，本发明将音频信号分类为不同类型，并且提供适合于所分类的音频信号的特性的音频编码方案，由此使能能够更有效的压缩和重建音频信号。

虽然在此已经参考本发明的优选实施例描述和图示了本发明，但是对于本领域内的技术人员将显而易见的是，在不偏离本发明的精神和范围的情况下，可以在其中进行各种修改和改变。因此，旨在本发明涵盖落入权利要求及其等同内容的范围内的本发明的修改和改变。

Claims

1.一种在包括音频解码器的音频信号处理装置中用于处理音频信号的方法，包括以下步骤：

使用第一类型信息来标识所述音频信号的编码类型是否是音乐信号编码类型；

如果所述音频信号的编码类型不是所述音乐信号编码类型，则使用第二类型信息来标识所述音频信号的编码类型是语音信号编码类型还是混合信号编码类型；

如果所述音频信号的编码类型是所述混合信号编码类型，则从所述音频信号提取频谱数据和线性预测系数；

通过对于所述频谱数据执行逆频率转换，生成用于线性预测的残余信号；以及

通过对于所述线性预测系数和所述残余信号执行线性预测编码来重建所述音频信号，

其中，如果所述音频信号的编码类型是所述音乐信号编码类型，则仅使用所述第一类型信息，以及

其中，如果所述音频信号的编码类型是所述语音信号编码类型或所述混合信号编码类型，则使用所述第一类型信息和所述第二类型信息两者。

2.根据权利要求1所述的方法，进一步包括以下步骤：

如果所述音频信号的编码类型是所述混合信号编码类型，则使用所重建的音频信号的低频带信号来重建高频带信号；以及

通过上混合所重建的音频信号来生成多个信道。

3.根据权利要求1所述的方法，其中，所述音频信号包括多个子帧，并且其中所述第二类型信息以子帧为单位而存在。

4.根据权利要求1所述的方法，其中，如果所述音频信号的编码类型是所述音乐信号编码类型，则所述音频信号包括频域信号，其中，如果所述音频信号的编码类型是所述语音信号编码类型，则所述音频信号包括时域信号，并且其中，如果所述音频信号的编码类型是所述混合信号编码类型，则所述音频信号包括MDCT域信号。

5.根据权利要求1所述的方法，所述线性预测系数提取步骤包括以下步骤：

提取线性预测系数模式；以及

提取具有与所提取的线性预测系数模式相对应的可变比特大小的所述线性预测系数。

6.一种用于处理音频信号的装置，包括：

解复用器，用于从比特流提取第一类型信息和第二类型信息；

解码器确定单元，用于使用第一类型信息来标识所述音频信号的编码类型是否是音乐信号编码类型，如果所述音频信号的编码类型不是所述音乐信号编码类型，则所述解码器使用第二类型信息来标识所述音频信号的编码类型是语音信号编码类型还是混合信号编码类型，然后所述解码器确定解码方案；

信息提取单元，用于如果所述音频信号的编码类型是所述混合信号编码类型，则从所述音频信号提取频谱数据和线性预测系数；

频率变换单元，用于通过对于所述频谱数据执行逆频率转换来生成用于线性预测的残余信号；以及

线性预测单元，用于通过对于所述线性预测系数和所述残余信号执行线性预测编码来重建所述音频信号，以及

7.根据权利要求6所述的装置，进一步包括：

带宽扩展解码单元，用于如果所述音频信号的编码类型是所述混合信号编码类型，则使用所重建的音频信号的低频带信号来重建高频带信号；以及

信道扩展解码单元，用于通过上混合所重建的音频信号来生成多个信道。

8.根据权利要求6所述的装置，其中，所述音频信号包括多个子帧，并且其中，所述第二类型信息以子帧为单位而存在。

9.根据权利要求6所述的装置，其中，如果所述音频信号的编码类型是所述音乐信号编码类型，则所述音频信号包括频域信号，其中，如果所述音频信号的所述编码类型是所述语音信号编码类型，则所述音频信号包括时域信号，并且其中，如果所述音频信号的编码类型是所述混合信号编码类型，则所述音频信号包括MDCT域信号。

10.根据权利要求6所述的装置，其中，用于提取所述线性预测系数的所述信息提取单元检查线性预测系数模式，并且然后提取具有与所提取的线性预测系数模式相对应的可变比特大小的所述线性预测系数。

11.一种在包括用于处理音频信号的音频编码器的音频信号处理装置中处理所述音频信号的方法，包括以下步骤：

确定所述音频信号的编码类型；

如果所述音频信号是音乐信号，则生成第一类型信息，所述第一类型信息指示所述音频信号被编码为音乐信号编码类型；

如果所述音频信号不是所述音乐信号，则生成第二类型信息，所述第二类型信息指示所述音频信号被编码为语音信号编码类型或混合信号编码类型；

如果所述音频信号的编码类型是所述混合信号编码类型，则通过对于所述音频信号执行线性预测编码来生成线性预测系数；

生成用于所述线性预测编码的残余信号；

通过频率变换所述残余信号来生成频谱系数；以及

生成音频比特流，其包括所述第一类型信息、所述第二类型信息、所述线性预测系数和所述残余信号，

其中，如果所述音频信号的编码类型是所述音乐信号编码类型，则仅生成所述第一类型信息，以及

其中，如果所述音频信号的编码类型是所述语音信号编码类型或所述混合信号编码类型，则生成所述第一类型信息和所述第二类型信息两者。

12.根据权利要求11所述的方法，其中，所述音频信号包括多个子帧，并且其中，对于每个子帧生成所述第二类型信息。

13.一种用于处理音频信号的装置，包括：

信号分类单元，用于确定所述音频信号的编码类型，如果所述音频信号是音乐信号，则所述信号分类单元生成用于指示所述音频信号被编码为音乐信号编码类型的第一类型信息，如果所述音频信号不是音乐信号，则所述信号分类单元生成用于指示所述音频信号被编码为语音信号编码类型或混合信号编码类型的第二类型信息；

线性预测建模单元，用于如果所述音频信号的编码类型是所述混合信号编码类型，则通过对于所述音频信号执行线性预测编码来生成线性预测系数；

残余信号提取单元，用于生成用于所述线性预测编码的残余信号；以及

频率变换单元，用于通过频率变换所述残余信号来生成频谱系数，

14.根据权利要求13所述的装置，其中，所述音频信号包括多个子帧，并且其中，对于每个子帧生成所述第二类型信息。

15.根据权利要求13所述的装置，包括：

系数生成单元，用于如果所述音频信号的编码类型是所述音乐信号编码，则使用所述线性预测编码来生成所述线性预测系数，所述系数生成单元向所述线性预测系数提供加权；以及

参考确定单元，用于使用已提供了加权的线性预测系数来生成噪声整形参考。