CN101093670A

CN101093670A - 根据频率变换重建具有不完全频谱的音频信号的频谱

Info

Publication number: CN101093670A
Application number: CNA2007101373998A
Authority: CN
Inventors: 迈克尔·M·杜鲁门; 马克·S·文顿
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-03-28
Filing date: 2003-03-21
Publication date: 2007-12-26
Anticipated expiration: 2023-03-21
Also published as: US10269362B2; US20170206909A1; US9412388B1; US20140161283A1; US20170148454A1; CN100338649C; CA2475460C; EP1488414A1; US20180005639A1; SG153658A1; HK1078673A1; SG10201710912WA; MY140567A; TWI319180B; US20200143817A1; US9947328B2; SG10201710917UA; US9466306B1; US20190172472A1; US9412383B1

Abstract

通过发送或记录具有估值的频谱包络和从信号的像噪声那样的质量的度量得出的噪声混淆参数的信号的基带，音频信号可以更加有效地传送。信号是通过把基带信号的频谱分量变换到基带以外的频率，调节再生分量的相位以保持相位相关性，按照估值的频谱包络调节频谱形状，以及按照噪声混淆参数加上噪声，而被重建的。优选地，发送的或记录的信号也包括被使用来调节重建信号的时间形状的估值的时间包络。

Description

根据频率变换重建具有不完全频谱的音频信号的频谱

本申请是申请号为03805096.X、申请日为2003年3月21日、发明名称为“根据频率变换重建具有不完全频谱的音频信号的频谱”的专利申请的分案申请。

技术领域

本发明总体上涉及音频信号的传输和记录。更具体地，本发明提供对于发送或存储给定的音频信号所需要的信息的减小，而同时保持输出信号的给定的感知质量水平。

背景技术

许多通信系统面对这样的问题，对于信息传输和存储容量的要求常常超过可提供的容量。结果，在广播和记录领域中相当大的兴趣是减小对于发送或记录打算供人们感知的音频信号所需要的信息量，而不恶化它的主观质量。同样地，需要对于给定的带宽或存储容量改进输出信号的质量。

两个主要考虑推进打算用于音频传输和存储的系统的设计：对于减小信息需求的需要和对于保证输出信号中特定程度的感知量的需要。这两个考虑冲突之处在于，减小发送的信息量会减小输出信号的感知量。虽然客观约束条件，诸如数据速率，通常是由通信系统本身加上的，但主观感知要求通常是由应用规定的。

用于减小信息需求的传统的方法包括只发送或记录输入信号的选择的部分，其余部分被丢弃。优选地，只有被认为是冗余的或与感知无关的部分被丢弃。如果需要额外的减小，优选地只有被认为是具有最小感知重要性的信号部分被丢弃。

强调超过保真度的清晰度的语音应用，诸如语音编码，只发送或记录一部分信号，这里称为“基带信号”，它只包含信号频谱的感知上最相关的部分。接收机可以从被包含在基带信号内的信息再生话音信号的省略的部分。再生的信号通常在感知上不等同于原先的信号，但对于许多应用，近似的再现是足够的。另一方面，被设计成达到高保真度的应用，诸如高质量音乐应用，通常需要较高的质量的输出信号。为了达到较高质量的输出信号，通常必须发送更大量的信息或利用更复杂的生成输出信号的方法。

在语音信号译码方面使用的一个技术被称为高频再生(“HFR”)。只包含信号的低频分量的基带信号被发送或存储。接收机根据接收的基带信号的内容再生省略的高频分量，以及组合基带信号与再生的高频分量，产生输出信号。虽然再生的高频分量通常不等同于原先信号的高频分量，但这个技术可以产生比起不使用HFR的其他技术更满意的输出信号。在语音编码和译码领域中开发了这个技术的许多变例。被使用于HFR的三个通用的方法是频谱折叠、频谱变换、和整流。这些技术的说明可以在以下文章中找到：Makhoul和Berouti在ICASSP 1979 IEEE International Conf.on Acoust.，Speech and SignalProc.，1979年4月2-4日著的”High-Frequency Regeneration inSpeech Coding Systems”。

虽然实施起来简单，但这些HFR技术通常不适用于高质量再现系统，诸如用于高质量音乐的再现系统。频谱折叠和频谱变换会产生不想要的背景音。整流往往产生觉察到刺耳的结果。本发明人注意到，在这些技术产生不满意的结果的许多情形下，技术被使用于其中HFR被限于对于5kHz的分量的变换的限带的语音编码译码器。

本发明人还注意到由于HFR技术的使用引起的两个其他的问题。第一个问题涉及到信号的音调和噪声特性，以及第二个问题涉及到再生信号的时间形状或包络。许多自然的信号包含噪声分量，它的幅度作为频率的函数增加。已知的HFR技术从基带信号再生高频分量，但无法在更高的频率上再现在再生信号中像音调的和像噪声的分量的正确的混合。再生的信号常常包含由于用基带中像音调的分量替换原先的、更像噪声的高频分量引起的不同的高频“蜂音”。而且，已知的HFR技术无法以再生的信号的时间包络保持或至少类似于原先的信号的时间包络的方式再生频谱分量。

已开发了多种更复杂的、提供改进的结果的HFR技术；然而，这些技术往往是特定于语音的，依赖于语音的特征，其不适合于音乐和其他的音频形式，或需要很大的、不能经济地实施的计算资源。

发明内容

本发明的一个目的是提供音频信号的处理，以便减小在传输或存储期间代表一个信号所需要的信息量而同时保持信号的感觉的质量。虽然本发明具体地针对音乐信号的再现，但它也可以应用于各种各样的音频信号，包括话音。

按照本发明的一个方面，在发射机中，输出信号被通过如下生成：得出具有音频信号的某些但不是全部频谱分量的基带信号的频域代表；得出具有不在基带信号中的音频信号的频谱分量的剩余信号的估值的频谱包络；从剩余信号的噪声内容的度量导出噪声混淆参数；以及把代表基带信号的频域代表的数据、估值的频谱包络和噪声混淆参数组装到输出信号。

按照本发明的另一个方面，在接收机中，音频信号被通过如下重建：接收包含代表基带信号的数据、估值的频谱包络和噪声混淆参数的信号；从数据得出基带信号的频域代表；通过在频率上变换基带的频谱分量而得到包括再生的频谱分量的再生的信号；调节再生的频谱分量的相位以保持再生信号内的相位相干性；藉助于响应噪声混淆参数得出噪声信号、通过按照估值的频谱包络和噪声混淆参数调节再生的频谱分量的幅度而修正再生信号、和组合修正的再生信号与噪声信号，而得到调节的再生的信号；以及得出相应于调节的再生信号中的频谱分量与基带信号的频域代表中的频谱分量的组合的重建的信号的时域代表。

本发明的其他方面在下面说明，以及在权利要求中阐述。

通过参照附图和以下的说明可以更好地了解本发明的各种特征和它的优选实施方案，其中相同的标号是指几个图上相同的单元。以下的讨论和附图的内容仅仅作为例子阐述，而不应当理解为代表对于本发明的范围的限制。

附图说明

图1显示通信系统中的主要部件。

图2是发射机的方框图。

图3A和3B是音频信号和相应的基带信号的假设的示意图。

图4是接收机的方框图。

图5A-5D是基带信号和通过基带信号的变换生成的信号的假设的示意图。

图6A-6G是通过使用频谱变换和噪声混淆再生高频分量得到的信号的假设的示意图。

图6H是图6G的信号在增益调节后的图形。

图7是图6B所示的基带信号与图6H所示的再生信号相组合的图形。

图8A是信号的时间形状的图形。

图8B显示通过从图8A的信号得出基带信号与通过频谱变换的处理再生信号而产生的输出信号的时间形状。

图8C显示图8B的信号在执行时间包络控制后的时间形状。

图9是通过使用时域技术提供对于时间包络控制所需要的信息的发射机的方框图。

图10是通过使用时域技术提供时间包络控制的接收机的方框图。

图11是通过使用频域技术提供对于时间包络控制所需要的信息的发射机的方框图。

图12是通过使用频域技术提供时间包络控制的接收机的方框图。

具体实施方式

A.总述

图1显示在通信系统的一个例子中的主要部件。信息源112沿路径115生成音频信号，它代表基本上任何类型的音频信息，诸如语音或音乐。发射机136接收来自路径115的音频信号，以及把该信息处理成适合于通过信道140传输的形式。发射机136可以准备好信号以与信道140的物理特性相匹配。信道140可以是诸如电线或光纤那样的传输路径，或它可以是通过空间的无线通信路径。信道140也可包括记录信号在存储媒体上的存储装置，诸如磁带或磁盘或光盘，供接收机142以后使用。接收机142可以执行各种各样的处理功能，诸如解调或译码从信道140接收的信号。接收机142的输出沿着路径145被传送到换能器147，它把该输出变换成适合于用户的输出信号152。在传统的音频播放系统中，例如，扬声器用作为换能器，把电信号变换成声音信号。

被限制于通过具有有限带宽的信道进行发送或在具有有限容量的媒体上进行记录的通信系统，在对于信息的要求超过这个可提供的带宽或容量时遇到问题。结果，在广播和记录领域中不断需要减小对于发送或记录打算供人们感知的音频信号所需要的信息量，而不恶化它的主观质量。同样地，需要对于给定的传输带宽或存储容量改进输出信号的质量。

在语音编码方面使用的一个技术被称为高频再生(“HFR”)。只包含语音信号的低频分量的基带信号被发送或存储。接收机142根据接收的基带信号的内容再生省略的高频分量，以及组合基带信号与再生的高频分量，产生输出信号。然而，通常，已知的HFR技术产生的再生高频分量容易与原先信号中的高频分量不同。本发明提供改进的用于频谱分量再生的技术，它产生的再生频谱分量比起由其他已知的技术提供的分量，在感觉上更加类似于原先的信号中的相应的频谱分量。重要的是指出，虽然这里描述的技术有时被称为高频再生，但本发明并不限于再生信号的高频分量。下面描述的技术也可被利用来再生频谱的任何部分中的频谱分量。

B.发射机

图2是按照本发明的一个方面的发射机136的方框图。输入音频信号从路径115被接收以及由分析滤波器库705进行处理，得到输入信号的频域代表。基带信号分析器710确定输入信号的哪些频谱分量要被丢弃。滤波器715去除要被丢弃的频谱分量，产生包含剩余的频谱分量的基带信号。频谱包络估值器720得到输入信号频谱包络的估值。频谱分析器722分析估值的频谱包络，以确定信号的噪声混淆参数。信号格式化器725把估值的频谱包络信息，噪声混淆参数，和基带信号组合成具有适合于传输或存储的形式的输出信号。

1.分析滤波器库

分析滤波器库705可以通过基本上任何时域到频域的变换而被实施。在本发明的优选实施例中使用的变换在以下文章中描述：Princen，Johnson和Bradley著的”Subband/Transform Coding Using FilterBank Designs Based on Time Domain Aliasing Cancellation”，ICASSP1987 Conf.Proc.，1987年5月，第2161-64页。这种变换是具有时域混抵销的奇数堆叠的临界采样的单边带分析-合成系统的时域等价物，这里被称为”O-TDAC”。

按照O-TDAC技术，音频信号被采样，量化，和分组为一系列重叠的时域信号样本块。每个样本块被分析窗口函数加权，这等价于信号样本块的逐个样本的乘法。O-TDAC技术把修正的离散余弦变换(”DCT”)施加到加权的时域信号样本块，产生变换系数组，这里被称为“变换块”。为了达到临界采样，技术只在传输或存储之前保持频谱系数的一半。不幸地，仅仅一半的频谱系数的保持，使得互补的逆变换生成时域混淆分量。O-TDAC技术可以抵销混叠以及精确地恢复输入信号。块的长度可以通过使用本领域已知的技术响应于信号特性而变化；然而，由于下面讨论的原因应当注意相位相干性。通过参考美国专利5,394,473，可以得到O-TDAC技术的其它细节。

为了从变换块恢复原先的输入信号块，O-TDAC技术利用逆修正的DCT。由逆变换产生的信号块由合成窗口函数加权，被重叠和相加，以重建输入信号。为了抵销时域混叠和精确地恢复输入信号，分析和合成窗口必须被设计成满足严格的准则。

在用于传输或记录以44.1千样本/秒的速率采样的输入数字信号的系统的一个优选实施例中，从分析滤波器库705得到的频谱分量被划分成四个子频带，具有如表I所示的频率范围。

频带	频率范围(kHz)
频带	频率范围(kHz)	0123	0.0到5.55.5到11.011.0到16.516.5到22.0

表I

2.基带信号分析器

基带信号分析器710选择哪些频谱分量被丢弃，以及哪些频谱分量被保持用于基带信号。这个选择可根据输入信号特性改变，或它可按照应用的需要保持固定；然而，本发明人通过实验确定，如果一个或多个信号的基波频率被丢弃，音频信号的感觉质量恶化。所以，优选地，保留包含信号的基波频率的频谱的这些部分。因为话音和大多数自然乐器的基波频率通常不高于约5kHz，打算用于音乐应用的发射机136的优选实施方案使用处于或约5kHz的固定的截止频率，以及丢弃大于该频率的所有的频谱分量。在固定的截止频率的情形下，基带信号分析器只要提供固定的截止频率到滤波器715和频谱分析器722。在替换实施方案中，基带信号分析器710被取消，以及滤波器715和频谱分析器722按照固定的截止频率运行。在以上表I所示的子频带结构中，例如，仅仅子频带0中的频谱分量保持用于基带信号。这个选择也是合适的，因为人耳不容易区分5kHz以上的音调的差别，所以不容易分辨在这个频率以上的再生分量中的不精确性。

截止频率的选择影响基带信号的带宽，它又影响由发射机136生成的输出信号的信息容量要求与由接收机142重建的信号的感觉的质量之间的折衷。由接收机142重建的信号的感觉质量受三个因素影响，这在以下的段落中讨论。

第一个因素是被发送或存储的基带信号代表的精确性。通常，如果基带信号的带宽保持为恒定的，则当基带信号代表的精确性提高时，重建的信号的感觉质量将提高。如果不精确性足够大，不精确性代表在重建的信号中可听见的噪声。噪声将降低基带信号和由基带信号再生的频谱分量的感觉质量。在示例性实施例中，基带信号代表是一组频域变换系数。这个代表的精确性由被使用来表示每个变换系数的比特数控制。编码技术可被使用来以较少的比特传送给定水平的精确性；然而，对于任何给定的编码技术，存在有基带信号精确性与信息容量要求之间的基本折衷。

第二个因素是被发送或存储的基带信号的带宽。通常，如果基带信号代表的精确性保持为恒定的，则当基带信号的带宽提高时，重建的信号的感觉质量将提高。较宽的带宽的基带信号的使用允许接收机142限制再生频谱分量到更高的频率，在更高的频率人的听觉系统对于时间和频谱形状的差别不太敏感。在上述的示例性实施方案中，基带信号的带宽由代表中的变换系数的数目控制。编码技术可被使用来以较少的比特传送给定的数目的系数；然而，对于任何给定的编码技术，存在有基带信号带宽与信息容量要求之间的基本折衷。

第三个因素是对于发送或存储基带信号表示所需要的信息容量。如果信息容量要求保持为恒定的，则基带信号精确性将随基带信号的带宽相反地变化。应用的需要通常将为由发射机136生成的输出信号规定特定的信息容量要求。这个容量必须分配给输出信号的各个部分，诸如基带信号代表和估值的频谱包络。分配必须平衡对于通信系统熟知的多个冲突的利益的需要。在这个分配内，基带信号的带宽应当被选择成平衡与编码精确性的折衷，使得重建的信号的感觉质量最佳化。

3.频谱包络估值器

频谱包络估值器720分析音频信号，提取关于信号的频谱包络的信息。如果可提供的信息容量许可，发射机136的实施方案优选地通过把信号的频谱划分成具有近似于人耳的临界频带的带宽的频带，和提取关于在每个频带中信号幅度的信息，而得到信号的频谱包络的估值。然而，在具有有限的信息容量的大多数应用中，优选地把频谱划分成较小的数目的子频带，诸如以上在表I中所显示的安排。也可以使用其他变例，诸如计算功率谱密度或提取每个频带中平均的或最大的幅度。更复杂的技术可以提供输出信号的更高的质量，但通常需要更大的计算资源。被使用来得到估值的频谱包络的方法的选择通常具有实际的意义，因为它通常影响通信系统的感觉的质量；然而，方法的选择在原则上不是严格的。可以按需要使用几乎任何技术。

在使用表I所示的子频带结构的一个实施方案中，频谱包络估值器720只对于子频带0，1，和2得到频谱包络的估值。子频带3被排除，以便减小对于表示估值的频谱包络所需要的信息量。

4.频谱分析器

频谱分析器722分析从频谱包络估值器720接收的估值的频谱包络和来自基带信号分析器710的信息，它识别要从基带信号中丢弃的频谱分量，以及计算要由接收机142使用的一个或多个噪声混淆参数，以生成变换的频谱分量的噪声分量。优选实施方案通过计算和发送要被接收机142加到所有的变换分量的单个噪声混淆参数，而使得数据速率要求最小化。噪声混淆参数可以通过多个不同的方法的任何一个方法进行计算。优选的方法导出等于频谱平坦度度量的单个噪声混淆参数，这是从短时间功率谱的几何平均值对算术平均值的比值计算的。该比值给出对于频谱的平坦度的粗略的表示。表示更平坦的频谱的更高的频谱平坦度度量，也表示更高的噪声混淆水平是适当的。

在发射机136的替换的实施方案中，频谱分量被分组成多个子频带，诸如表I显示的，以及发射机136发送每个子频带的噪声混淆参数。这更加精确地规定要与变换的频率内容混合的噪声量，但也需要更高的数据速率来发送额外的噪声混淆参数。

5.基带信号滤波器

滤波器715接收来自基带信号分析器710的信息，它标识从基带信号中被选择为丢弃的频谱分量，以及消除选择的频率分量，以得出基带信号的频域代表，用于传输或存储。图3A和3B是音频信号和相应的基带信号的假设的示意图。图3A显示假设的音频信号的频域代表600的频谱包络。图3B显示在音频信号被处理成消除选择的高频分量之后剩余的基带信号610的频谱包络。

滤波器715可以以有效地去除被选择为丢弃的频率分量的基本上任何方式实施。在一个实施方案中，滤波器715把频域窗口函数施加到输入音频信号的频域代表上。窗口函数的形状被选择为提供对于接收机142最终生成的输出音频信号的时域结果的频率选择性与衰减之间的适当的折衷。

6信号格式化器

信号格式化器725通过把估值的频谱包络信息，一个或多个参数混淆参数，和基带信号的代表组合成具有适合于传输或存储的形式的输出信号，而生成沿通信信道140的输出信号，各个信号可以以基本上任何方式被组合。在许多应用中，格式化器725把各个信号复用成串行比特流，该比特流具有适当的同步格化，检错和纠错码，以及与传输或存储操作有关的或与其中使用音频信息的应用有关的其他信息。信号格式化器725也可编码全部或部分输出信号，以减小信息容量要求，提供安全性，或把输出信号放在便于以后使用的格式中。

C.接收机

图4是按照本发明的一个方面的接收机142的方框图。去格式化器805接收来自通信信道140的信号，以及从这个信号得出基带信号，估值的频谱包络信息和一个或多个噪声混淆参数。这些信息单元被发送到信号处理器808，它包括频谱再生器810，相位调节器815，混淆滤波器818，和增益调节器820。频谱分量再生器810确定在基带信号中哪些频谱分量丢失，以及通过把基带信号的全部或至少某些频谱分量变换到丢失的频谱分量的位置来再生它们。变换的分量被传送到相位调节器815，它调节组合信号内一个或多个频谱分量的相位，以保证相位相干性。混淆滤波器818按照随基带信号接收的一个或多个噪声混淆参数，把一个或多个噪声分量加到变换的分量。增益调节器820按照随基带信号接收的估值的频谱包络信息，调节再生信号中频谱分量的幅度。变换的和调节的频谱分量与基带信号相组合，产生输出信号的频域代表。合成滤波器库825处理该信号，得出输出信号的时域代表，它沿路径145传送。

1.去格式化器

去格式化器805以与信号格式化器725提供的格式化过程互补的方式处理从通信信道140接收的信号。在许多应用中，去格式化器805从信道140接收串行比特流，使用比特流内的同步格式来同步它的处理，使用纠错和检错码，以识别和校正在传输或存储期间引入到比特流中的错误，以及作为解复用器运行，提取基带信号的代表，估值的频谱包络信息，一个或多个噪声混淆参数，以及可与应用有关的任何其他信息。去格式化器805也可以译码全部或部分串行比特流，逆反发射机136提供的任何编码的效果。基带信号的频域代表被传送到频谱分量再生器810，噪声混淆参数被传送到混淆滤波器818，以及频谱包络信息被传送到增益调节器820。

2.频谱分量再生器

频谱分量再生器810通过复制或变换基带信号的全部或至少某些频谱分量到信号的丢失的分量的位置，而再生丢失的频谱分量。频谱分量可被复制到一个以上的频率间隔，由此允许生成具有比基带信号的带宽的两倍大的带宽的输出信号。

在只使用上面如表I所示的子频带0和1的接收机142的实施方案中，基带信号不包含大于处于或约5.5kHz的截止频率的频谱分量。基带信号的频谱分量被复制或变换到从约5.5kHz到约11.0kHz的频率范围。如果16.5kHz的带宽是想要的，例如，基带信号的频谱分量也可被变换到从约11.0kHz到约16.5kHz的频率范围。一般地，频谱分量被变换到非重叠的频率范围，这样，在包括基带信号和全部复制的频谱分量的频谱中不存在缝隙；然而，这个特性不是重要的。频谱分量可被变换到重叠的频率范围和/或按想要的基本上任何方式被变换到频谱中具有缝隙的频率范围。

关于应当复制哪些频谱分量的选择可加以改变，以适合于具体的应用。例如，被复制的频谱分量不需要在基带的下部边缘开始，以及不需要在基带的上部边缘结束。被接收机142重建的信号的感觉质量有时可以通过排除话音和乐器的基波频率以及只复制谐波而被改进。通过从变换中排除低于约1kHz的这些基带频谱分量，可以把这方面合并到一个实施方案。参照以上表I所示的子频带结构作为例子，只有从约1kHz到约5.5kHz的频谱分量被变换。

如果要被再生的所有的频谱分量的带宽比起要被复制的基带频谱分量的带宽更宽，则基带频谱分量可以以循环方式被复制，从最低的频率分量开始直到最高的频率分量，以及如果必要的话，围绕最低的频率分量循环并以最低的频率分量继续进行。例如，参照表I所示的子频带结构，如果只有从约1kHz到5.5kHz的基带频谱分量被复制和对于跨过从约5.5kHz到16.5kHz的频率的子频带1和2再生频谱分量，则从约1kHz到约5.5kHz的基带频谱分量被复制到从约5.5kHz到10kHz的各个频率，从约1kHz到约5.5kHz的相同的基带频谱分量再次被复制到从约10kHz到14.5kHz的各个频率，以及从约1kHz到约3kHz的基带频谱分量被复制到从约14.5kHz到16.5kHz的各个频率。替换地，通过复制基带的最低的频率分量到各个子频带的下部边缘以及如果必要的话，在整个基带频谱分量上以循环方式继续进行，以完成该子频带的变换，而可以为再生的分量的每个单独的子频带进行这个复制过程。

图5A到5D是基带信号的频谱包络与通过在基带信号内频谱分量的变换而生成的信号的频谱包络的假设的示意图。图5A显示假设的译码的基带信号900。图5B显示被变换到较高的频率的基带信号905的频谱分量。图5C显示被变换多次到较高的频率的基带信号分量910。图5D显示通过组合变换的分量915与基带信号920而得到的信号。

3，相位调节器

频谱分量的变换可能在再生的分量的相位上产生不连续性。上述的O-TDAC变换实施方案，例如以及许多其他可能的实施方案，提供被安排在变换系数块中的频域代表。变换的频谱分量也被安排在块中。如果通过变换再生的频谱分量在接连的块之间具有相位不连续性，则在输出音频信号中多半出现可听见的人为产物。

相位调节器815调节每个再生的频谱分量的相位，以保持一致的或相干的相位。在采用上述的O-TDAC变换的接收机142的实施方案中，每个再生的频谱分量被乘以复数值e^jΔω，其中Δω代表每个各个频谱分量被变换的频率间隔，表示为相应于该频率间隔的变换系数的数目。例如，如果频谱分量被变换到相邻的分量的频率，则变换间隔Δω等于1。替换的实施方案可需要适合于合成滤波器库825的具体的实施方案的不同的相位调节技术。

变换处理过程可以适于把再生的分量与基带信号内重要的频谱分量的谐波相匹配。变换可被调整的两个方法是改变要被复制的特定的频谱分量，或者改变变换的量。如果使用自适应过程，应当特别注意相位相干性，如果频谱分量被安排在块内的话。如果再生的频谱分量从不同的基波分量逐个块地被复制，或如果频率变换的量逐个块地被改变，则非常可能再生的分量将不是相位相干的。有可能调整频谱分量的变换，但必须注意保证由相位不相干性造成的人为产物的听见的程度是不显著的。采用多通道技术或前向技术的系统能识别其间可以调整变换的时间间隔。代表其间再生的频谱分量被认为是听不见的音频信号的间隔的块通常是用于调整变换过程的良好的候选者。

4.噪声混淆滤波器

混淆滤波器818通过使用从去格式化器805接收的噪声混淆参数生成用于变换的频谱分量的噪声分量。混淆滤波器818生成噪声信号，通过使用噪声混淆参数计算噪声混淆函数，以及利用噪声混淆函数组合噪声信号与变换的频谱分量。

噪声信号可以通过各种各样的方式的任何一种方式被生成。在优选实施方案中，通过生成具有0的中值和1的方差的分布的随机数序列，而产生噪声信号。混淆滤波器818通过把噪声信号乘以噪声混淆函数而调节噪声信号。如果使用单个噪声混淆参数，则噪声混淆函数通常应当调节噪声信号成在更高的频率上具有更高的幅度。这从以上讨论的假设得出，话音和自然乐器信号往往在更高的频率上包含更多的噪声。在优选实施方案中，当频谱分量被变换到较高的频率时，噪声混淆函数在较高的频率上具有最大的幅度，以及在噪声被混淆的最低的频率上平滑地衰减到最小值。

一个实施方案使用噪声混淆函数N(k)，如以下的表达式表示：

N (k) = \max (\frac{k - k_{MIN}}{k_{MAX} - k_{MIN}} + B - 1,0)

对于k_MIN≤k≤k_MAX(1)

其中max(x，y)＝x和y中的较大者；

B＝基于SFM的噪声混淆参数；

k＝再生的频谱分量的系数；

k_MAX＝用于频谱分量再生的最高频率；以及

k_MIN＝用于频谱分量再生的最低频率。

在这个实施方案中，B的数值从0变到1，其中1表示平坦频谱，它典型地是像噪声那样的信号，以及0表示不平坦的频谱形状，它典型地是像音调那样的信号。公式(1)中商的数值在k从k_MIN增加到k_MAX时从0改变到1。如果B等于0，”max”函数中的第一项从-1改变到0，所以，N(k)在再生的频谱中等于0，以及没有噪声加到再生的频谱分量。如果B等于1，”max”函数中的第一项从1改变到0；所以，N(k)从在最低的再生频率k_MIN时的0线性地增加到在最大的再生频率k_MAX时的1。如果B具有在0与1之间的数值，则N(k)在从k_MIN直到在k_MIN与k_MAX之间的某个频率，都等于0，以及对于其余的再生频谱，线性地增加。再生的频谱分量的幅度通过把再生分量与噪声混淆函数相乘而被调节。调节的噪声信号与调节的再生频谱分量相组合。

上述的这个具体的实施方案仅仅是一个适当的例子。其他噪声混淆技术也可以按需要被使用。

图6A到6G是通过使用频谱变换与噪声混淆再生高频分量而得到的信号的频谱包络的假设的示意图。图6A显示要被发送的假设的输入信号410。图6B显示通过丢弃高频分量产生的基带信号420。图6C显示再生的高频分量431，432和433。图6D显示可能的噪声混淆函数440，给予在较高的频率的噪声分量更大的权重。图6E是与噪声混淆函数440相乘的噪声信号445的示意图。图6F显示通过把再生的高频分量431，432和433与噪声混淆函数440的倒数相乘而生成的信号450。图6G是通过把调节的噪声信号445加到调节的高频分量450而得出的组合信号460的示意图。图6G用来示意地显示，高频部分430包含变换的高频分量431，432和433与噪声的混合物的高频部分430。

5.增益调节器

增益调节器820按照从去格式化器805接收的估值的频谱包络信息调节再生信号的幅度。图6H是在增益调节后图6G所示的信号460的频谱包络的假设的图形。包含变换的频谱分量与噪声的混合物的信号的部分510，被给予近似于图6A所示的原先的信号410的频谱包络。以细刻度再现频谱包络通常是不必要的，因为再生的频谱分量没有精确地再现原先的信号的频谱分量。变换的谐波系列通常不等于谐波系列；所以，通常不可能保证再生的输出信号在细刻度时等同于原先的输入信号。与几个关键的或更少的频带内的频谱能量相匹配的粗略近似被发现为很行得通。应当指出，通常宁愿使用频谱形状的粗估值，而不是更细的近似，因为粗估值对于传输信道和存储介质提出较低的信息容量要求。然而，在具有一个以上的信道的音频应用中，通过使用频谱形状的更细的近似以使得可以进行更精确的增益调节，来保证信道之间的正确的平衡，而可以改进声音图像。

6.合成滤波器库

由增益调节器820提供的增益调节的噪声频谱分量与从去格式化器805接收的基带信号的频域代表相组合，形成重建的信号的频域代表。这可以通过把再生的分量加到基带信号的相应的分量而完成。图7显示通过把图6B所示的基带信号与图6H所示的再生的分量相组合而得到的假设的重建的信号。

合成滤波器库825把频域代表变换成重建的信号的时域代表。这个滤波器库可以以基本上任何方式来实施，但应当是与发射机136中使用的滤波器库705相反的。在以上讨论的优选实施方案中，接收机142使用O-TDAC合成，它采用逆修正的DCT。

D.本发明的替换实施方案

基带信号的宽度和位置可以以基本上任何方式被建立，以及例如可以按照输入信号特性动态地改变。在一个替换实施方案中，发射机136通过丢弃多个频带的频谱分量，由此造成基带信号频谱中的缝隙而生成基带信号。在频谱分量再生期间，部分基带信号被变换，再生丢失的频谱分量。

变换的方向也可变化。在另一个实施方案中，发射机136丢弃在低频的频谱分量，产生处在相对较高的频率的基带信号。接收机142把部分的高频基带信号向下变换到较低的频率位置，再生丢失的频谱分量。

E.时间包络控制

以上讨论的再生技术能够生成重建信号，基本上保留输入音频信号的频谱包络；然而，通常没有保留输入信号的时间包络。图8A显示音频信号860的时间形状。图8B显示通过从图8A的信号860得出基带信号和通过频谱分量变换的处理过程再生丢弃的频谱分量，而产生的重建的输出信号870的时间形状。重建的输出信号870的时间形状与原先的信号860的时间形状有很大的不同。时间形状的改变对于再生的音频信号的感觉质量有很大影响。下面讨论用于保留时间包络的两种方法。

1.时域技术

在第一种方法中，发射机136在时域中确定输入音频信号的时间形状，以及接收机142在时域中在重建的信号中恢复相同的或基本上相同的时间形状。

(a)发射机

图9显示在通过使用时域技术提供时间包络的通信系统中的发射机136的一个实施方案的方框图。分析滤波器库205接收来自路径115的输入信号，以及把信号划分成多个子频带信号。图上为了说明简明起见只显示两个子频带；然而，分析滤波器库205可以把输入信号划分成大于1的任何整数个子频带。

分析滤波器库205可以以实际上任何方式来实施，诸如级联连接的一个或多个正交镜像滤波器(QMF)，或优选地，通过准QMF技术，它在一个滤波器级中把输入信号划分成任何整数个子频带。有关准QMF技术的附加信息可以从以下专著中得到：Vaidyanathan，”Multirate Systems and Filter Banks(多速率系统和滤波器库)”，Prentice Hall，New Jersey，1993，pp.354-373。

一个或多个子频带信号被使用来形成基带信号。其余的子频带信号包含被丢弃的输入信号的频谱分量。在许多应用中，基带信号从代表输入信号的最低频率频谱分量的一个子频带信号被形成，但这在原理上不是必须的。在用于发送或记录以44.1千样本/每秒速度采样的输入数字信号的系统的一个优选实施方案中，分析滤波器库205把输入信号划分成四个子频带，具有如以上表I中显示的频率范围。最低频率子频带被使用来形成基带信号。

参照图9所示的实施方案，分析滤波器库205把较低频率子频带信号作为基带信号传送到时间包络估值器213和调制器214。时间包络估值器213把基带信号的估值的时间包络提供到调制器214和信号格式化器225，优选地，低于约500Hz的基带信号频谱分量或者被排除在估值时间包络的处理过程以外，或者被衰减，以使得它们对于估值的时间包络的形状没有多大影响。这可以通过把适当的高通滤波器施加到由时间包络估值器213分析的信号上而被完成。调制器214把基带信号的幅度除以估值的时间包络，并把时间上平坦的基带信号的代表传送到分析滤波器库215。分析滤波器库215生成平坦的基带信号的频域代表，它被传送到编码器220用于编码。分析滤波器库215，以及下面讨论的分析滤波器库212，可以通过基本上任何的时域到频域变换被实施；然而，通常宁愿采用像实施临界采样滤波器库的O-TDAC变换那样的变换。编码器220是任选的；然而，它的使用是优选的，因为编码通常可被使用来减小平坦的基带信号的信息要求。平坦的基带信号，无论是否编码，被传送到信号格式化器225。

分析滤波器库205把高频子频带信号传送到时间包络估值器210和调制器211。时间包络估值器210把较高频率子频带信号的估值时间包络提供到输出信号格式化器225。调制器211把较高频率子频带信号的幅度除以估值的时间包络，并把时间上平坦的、较高频率的子频带信号的代表传送到分析滤波器库212。分析滤波器库212生成平坦的较高的频率的子频带信号的频域代表。频谱包络估值器720和频谱分析仪722以基本上与以上描述的相同的方式分别提供估值的频谱包络和一个或多个噪声混淆参数，用于较高的频率的子频带信号，以及把这个信息传送到信号格式化器225。

信号格式化器225通过把平坦的基带信号的代表，基带信号的估值的时间包络和较高频率子频带信号组装成输出信号，而沿着通信信道140提供输出信号。通过使用如上述的用于信号格式化器725的、基本上任何想要的格式化技术，各个信号和信息被组装成具有适合于传输或存储的形式的信号。

(b)时间包络估值器

时间包络估值器210和213可以以各种各样的方式被实施。在一个实施方案中，每个这些估值器处理被划分成子频带信号样本块的子频带信号。这些子频带信号样本块也通过分析滤波器库212或215被处理。在许多实际的实施方案中，这些块被安排成包含的样本数是2的幂，以及大于256个样本。这样的块的尺寸通常被优选为提高被使用来实施分析滤波器库212和215的变换的效率和频率分辨率。块的长度也可根据输入信号特性，诸如大的瞬态是否发生而被适配。每个块还被划分成256样本的组，用于时间包络估值。组的尺寸被选择为平衡在估值的精确度性与在输出信号中对于传送估值所需要的信息量之间的折衷。

在一个实施方案中，时间包络估值器计算在每个组的子频带信号样本中样本的功率。子频带信号样本块的一组功率值是对于该块的估值的时间包络。在另一个实施方案中，时间包络估值器计算在每个组中子频带信号样本幅度的平均值。该块的一组平均值是对于该块的估值的时间包络。

在估值的包络中的一组数值可以以各种各样的方式被编码。在一个例子中，每个块的包络由该块的第一组样本的初始值以及表示以后的组的相对值的一组差分值代表。在另一个例子中，差分的或绝对的代码以自适应方式被使用，以减小对于传送该数值所需要的信息量。

(c)接收机

图10显示通过使用时域技术提供时间包络控制的、通信系统中的接收机的一个实施方案的方框图。去格式化器265接收来自通信信道140的信号，以及从这个信号得到平坦的基带信号的代表，基带信号和较高的频率子频带信号的估值的时间包络，估值的频谱包络和一个或多个噪声混淆参数。译码器267是可任选的，但应当被使用来颠倒发射机136中执行的任何编码的效果，以得到平坦的基带信号的频域代表。

合成滤波器库280接收平坦的基带信号的频域代表，以及通过使用与在发射机136中的分析滤波器库215使用的、相反的技术，生成时域代表。调制器281从去格式化器265接收基带信号的估值的时间包络，以及使用这个估值来调制从合成滤波器库280接收的平坦的基带信号。这种调制提供基本上与在原先的基带信号被发射机136中的调制器214平坦化之前它的时间形状相同的时间形状。

信号处理器808接收来自去格式化器265的平坦的基带信号的频域代表，估值的时间包络，和一个或多个噪声混淆参数，以及以与以上对于图4所示的信号处理器808讨论的相同的方式再生频谱分量。再生的频谱分量被传送到合成滤波器库283，它通过使用与由发射机136中的分析滤波器库212和215使用的相反的技术生成时域代表。调制器284接收来自去格式化器265的较高频率子频带信号的估值的时间包络，以及使用这个估值的包络来调制从合成滤波器库283接收的再生的频谱分量信号。这个调制提供基本上与在原先的较高频率子频带信号被发射机136中的调制器211平坦化之前它的时间形状相同的时间形状。

调制的子频带信号和调制的较高频率子频带信号被组合，形成重建的信号，并把它传送到合成滤波器库287。合成滤波器库287使用与在发射机136中的分析滤波器库205使用的相反的技术，提供沿着路径145的输出信号，它们在感觉上与由发射机136从路径115接收的原先的输入信号不可区分的或几乎不可区分的。

2.频域技术

在第二种方法中，发射机136确定在频域中输入音频信号的时间包络，以及接收机142在频域中恢复与重建的信号相同的或基本上相同的时间包络。

(a)发射机

图11显示通过使用频域技术提供时间包络控制的、通信系统中的发射机136的一个实施方案的方框图。这个发射机的实施方案非常类似于图2所示的发射机的实施方案。主要的差别是时间包络估值器707。其他的部件不在这里详细讨论，因为它们的运行基本上是与以上结合图2描述的相同的。

参照图11，时间包络估值器707从分析滤波器库705接收输入信号的频域代表，该输入信号由分析滤波器库分析而得出输入信号的时间包络的估值。优选地，低于约500Hz的频谱分量或者从频域代表被排除，或者被衰减，以使得它们对于估值时间包络的处理过程没有重大的影响。时间包络估值器707通过对于估值的时间包络的频域代表和输入信号的频域代表进行去卷积而得出输入信号的时间平坦的版本的频域代表，这个去卷积可以通过用估值的时间包络的频域代表的倒数卷积输入信号的频域代表而完成。输入信号的时间平坦的版本的频域代表被传送到滤波器715，基带信号分析器710，和频谱包络估值器720。估值的时间包络的频域代表的说明被传送到信号格式化器725，用于组装成输出信号，沿着通信信道140被传送。

(b)时间包络估值器

时间包络估值器707可以以多种方式实施。用于时间包络估值器的一个实施方案的技术基础可以通过公式2所示的线性系统进行说明：

y(t)＝h(t)·x(t) (2)

其中y(t)＝要被发送的信号；

h(t)＝要被发送的信号的时间包络；

点符号(.)表示乘法；以及

x(t)＝信号y(t)的时间平坦的版本。

公式2可被重写为：

Y[k]＝H[k]*X[k] (3)

其中Y[k]＝输入信号y(t)的频域代表；

H[k]＝h(t)的频域代表；

星符号(*)表示卷积；以及

X[k]＝x(t)的频域代表。

参照图11，信号y(t)是发射机136从路径115接收的音频信号。分析滤波器库705提供信号y(t)的频域代表Y[k]。时间包络估值器707通过求解从X[k]和Y[k]的自回归移动平均(ARMA)模型得到的方程组而得出信号的时间包络h(t)的频域代表H[k]的估值。关于ARMA模型的使用的附加信息可以从以下专著得出：Proakis and Manolakis，“Digital Signal Processing：Principles，Algorithms andApplications(数字信号处理：原理，算法和应用)”，MacMillanPublishing Co.，New York，1988。具体见pp.818-821。

在发射机136的优选实施方案中，滤波器库705对于代表信号y(t)的样本块实施变换，提供频域代表Y[k]，被安排在变换系数块中。每个变换系数块表示信号y(t)的短时间信号频谱。频域代表X[k]也被安排在变换系数块中。频域代表X[k]中每个系数块代表假设为广义平稳(WSS)的时间平坦的信号的样本块。还假设，在每个X代表块中的系数是独立分布的(ID)。给出这些假设后，信号可通过ARMA模型被表示为如下：

Y [k] + Σ_{i = 1}^{L} a_{i} Y [k - l] = Σ_{q = 0}^{Q} b_{q} X [k - q] - - - (4)

通过求解Y[k]的自相关函数，可以解方程4求出al和bq：

E {Y [k] \cdot Y [k - m]} = - Σ_{i = 1}^{L} a_{i} E {Y [k - l] \cdot Y [k - m]} + Σ_{q = 0}^{Q} b_{q} E {X [k - q] \cdot Y [k - m]} - - - (5)

其中E{}表示期望值函数；

L＝ARMA模型的自部分的长度；

Q＝ARMA模型的移动平均部分的长度。

方程5可被重写为：

R_{YY} [m] = - Σ_{i = 1}^{L} a_{i} R_{YY} [m - l] + Σ_{q = 0}^{Q} b_{q} R_{XY} [m - q] - - - (6)

其中R_YY[n]表示Y[n]的自相关函数；以及

R_XY[n]表示Y[n]和X[n]的互相关函数。

如果我们进一步假设由H[k]代表的线性系统仅仅是自回归的，则方程6的右面的第二项等于X[k]的方差。方程6然后可被重写为：

通过求逆以下的线性方程组，可求解方程7：

给出这个基础知识后，现在有可能描述使用频域技术的时间包络估值器的一个实施方案。在这个实施方案中，时间包络估值器707接收输入信号y(t)的频域代表Y[k]和计算自相关序列R_XX[m]，对于-L≤m≤L。这些数值被使用来构建公式8中显示的矩阵。然后对矩阵求逆，解出系数a_i。因为公式8中的矩阵是Toeplitz的，它可以通过Levinson-Durbin算法求逆。对于信息可参阅Proakis and Manolakis，pp.458-462。

通过矩阵求逆，得到的方程组不能直接解出，因为X[k]的方差2X是未知的；然而，对于某些适宜的方差，诸如数值1，方程组可以求解。一旦对于这个适宜的数值被解出，方程组就产生一组非归一化的系数{a’₀，...a’_L}。这些系数是非归一化的，因为方程是对于适宜的方差求解的。通过把每个系数除以第一非归一化系数值，系数可被归一化，它可被表示为：

a_{i} = \frac{a_{i}}{a_{0}}

对于0＜i≤L (9)

方程可以从以下公式得出：

σ_{X}^{2} = \frac{1}{a_{0}} - - - (10)

归一化系数组{1，a₁，...，a_L}代表平坦的滤波器FF的零，它们可以用输入信号y(t)的频域代表进行卷积，得到输入信号的时间平坦的版本x(t)的频域代表。归一化系数组代表重建的滤波器FR的极点，得到该平坦信号的频域代表，具有基本上等于输入信号y(t)的时间包络的修正的时间形状。

时间包络估值器707用从滤波器库705接收的频域代表Y[k]对平坦的滤波器FF进行卷积，以及把时间平坦的结构传送到滤波器715，基带信号分析器710，和频谱包络估值器720。在平坦滤波器FF中的系数的说明被传送到信号格式化器725，用于组装成输出信号，沿路径140传送。

(c)接收机

图12显示通过使用频域技术提供时间包络控制的、通信系统中的接收机142的一个实施方案的方框图。这个接收机的实施方案非常类似于图4所示的接收机的实施方案。主要的差别是时间包络再生器807。其他的部件不在这里详细讨论，因为它们的运行基本上是与以上结合图4描述的相同的。

参照图12，时间包络再生器807从去格式化器805接收估值的时间包络的说明，它是用重建的信号的频域代表进行卷积。从卷积得出的结果被传送到合成滤波器库825，它提供沿着路径145的输出信号，它们在感觉上与由发射机136从路径115接收的原先的输入信号是很难区分的或接近很难区分的。

时间包络再生器807可以以多种方式实施。在与以上讨论的包络估值器的实施方案相兼容的实施方案中，去格式化器805提供代表重建滤波器FR的极点的一组系数，它是与重建的信号的频域代表进行卷积。

(d)替换实施方案

替换实施方案是可能的。在用于发射机136的替换例中，从滤波器库705接收的频域代表的频谱分量被分组为子频带。表I所示的子频带组是一个适当的例子。等于每个子频带得出一个平坦滤波器FF，把它与每个子频带的频域代表进行卷积，以使得它在时间上平坦化。信号格式化器725把每个子频带的估值的时间包络的标识组装成输出信号。接收机142接收每个子频带的估值的时间包络，得出每个子频带的适当的再生滤波器FR，以及把它与在重建的信号中的相应的子频带的频域代表进行卷积。

在另一个替换例中，多组系数{C_i}_j被存储在表中。对于输入信号，计算用于平坦滤波器FF的系数{1，a₁，...，a_L}，以及把计算的系数与被存储在表中的多组系数的每组系数进行比较。选择表中的、似乎最接近于计算的系数的组{Ci}j，以及被使用来使得输入信号平坦化。从表中选择的该组{C_i}_j的标识被传送到信号格式化器725，被组装成输出信号。接收机142接收该组{C_i}_j的标识，查询存储的系数组的表以得出适当的系数组{C_i}_j，得出相应于该系数的再生滤波器FR，以及把该滤波器与重建的信号的频域代表进行卷积。这个替换例也可以应用于以上讨论的子频带。

用来选择表中的一组系数的一个方法是在L维空间中规定具有等于输入信号或输入信号的子频带的的计算的系数(a₁，...，a_L)的、欧几里得坐标的一个目标点。被存储在表中的每个组规定L维空间的各个点。其相关的点具有离目标点最短的欧几里得距离的、被存储在表中的组被认为最接近于计算的系数。如果该表例如存储256组系数，则8比特数被传送到信号格式化器725，以识别选择的系数组。

F.实施方案

本发明可以以各种各样的方式实施。可以按需要使用模拟和数字技术。各个方面例如可以通过分立的电子元件，集成电路，可编程逻辑阵列，ASIC，和其他类型的电子元件，以及通过执行指令的程序的设备来实施。指令的程序可以通过基本上任何设备可读的媒体，诸如磁和光存储媒体，只读存储器和可编程存储器来传送。

Claims

1.一种用于产生重建信号的方法，所述方法包括：

接收包含代表从音频信号导出的基带信号和估计的频谱包络的数据的信号；

从所述数据获得所述基带信号的频域代表，所述频域代表包括基带频谱分量；

通过对于各单独子频带，以循环方式将最低频率基带频谱分量拷贝到相应子频带的下边缘并继续拷贝所述基带频谱分量，以完成该相应子频带的变换，从而获得包括再生频谱分量的再生信号；及

获得相应于基带频谱分量、再生频谱分量和估计的频谱包络的组合的重建的信号的时域代表。

2.根据权利要求1的方法，其中获得所述重建信号的时域代表以代表重建信号的在长度上变化的分段。

3.根据权利要求1的方法，包括：应用时域混叠抵消合成变换以获得所述重建信号的时域代表。

4.根据权利要求1的方法，包括：通过改变拷贝哪些频谱分量或通过改变拷贝频谱分量的频率量，调整所述频谱分量的拷贝。

5.根据权利要求1-4中的任一个的方法，其中在所接收的信号中包含的所述数据还代表从音频信号的噪声内容的度量中导出的噪声混淆参数，所述方法还包括：

根据估计出的频谱包络和噪声混淆参数调节所述再生的频谱分量的幅度。