CN1918629A - 音频编码中的短窗分组方法 - Google Patents

音频编码中的短窗分组方法 Download PDF

Info

Publication number
CN1918629A
CN1918629A CNA2004800282430A CN200480028243A CN1918629A CN 1918629 A CN1918629 A CN 1918629A CN A2004800282430 A CNA2004800282430 A CN A2004800282430A CN 200480028243 A CN200480028243 A CN 200480028243A CN 1918629 A CN1918629 A CN 1918629A
Authority
CN
China
Prior art keywords
short
window
short window
group
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800282430A
Other languages
English (en)
Other versions
CN1918629B (zh
Inventor
J·雍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1918629A publication Critical patent/CN1918629A/zh
Application granted granted Critical
Publication of CN1918629B publication Critical patent/CN1918629B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Abstract

使用与帧内各个短窗相关的能量在帧内识别第一类型的窗和第二类型的窗。然后,根据各个短窗的窗类型,将第一类型的短窗和第二类型的短窗分为两个预备组。进而,如果两个预备组中的任何一个预备组内的短窗数量超过极限数量,则将这个过大的预备组中的短窗进一步分成至少两个更多的组。

Description

音频编码中的短窗分组方法
技术领域
[0001]本发明总体上涉及音频编码。更加具体地讲,本发明涉及音频编码中短窗的分组。
版权声明/许可
[0002]本专利文献的公开内容的一部分包含受到版权保护的素材。版权所有人不反对任何人按照专利文献或专利公开在专利商标局专利文件或记录中的原样对其进行复制,但是对其它形式全面专有所有的版权。下述声明牵涉到下文及其附图中的软件和数据:Copyright2001,Sony Electronics,Inc.,All Rights Reserved.
背景技术
[0003]标准化团体运动图像专家组(MPEG)在它们的标准(例如MPEG-2高级音频编码(AAC)标准(见ISO/IEC 13818-7)和MPEG-4 AAC标准(见ISO/IEC14496-3))中公开了传统的数据压缩方法。这些标准在本文中总称为MPEG标准。
[0004]按照MPEG标准定义的音频编码器接收音频信号、通过修饰离散余弦变换(MDCT)运算将其转换成频谱数据并且使用速率-失真控制机制为量化该频谱数据确定最佳比例因子。该音频编码器此外还用上述最佳比例因子量化该频谱数据、并将得到的量化频谱系数分组成为比例因子带并且然后对分组后的量化系数进行霍夫曼编码。
[0005]按照MPEG标准,MDCT是被以这样一种方式在音频信号上进行的:沿着时间轴,相邻的变换范围重叠50%,以抑制出现在相邻变换范围间的边界部分上的失真。此外,音频信号是使用长变换范围(由长窗定义)或者几个短变换范围(每一个都是由短窗定义)映射到频域中的。上述长窗包括2048个取样,短窗包括256个取样。从长窗中产生的MDCT系数的数量是1024,从各个短窗中产生的MDCT系数的数量是128。一般来说,对于信号波形变化不明显的稳定部分,需要使用长窗类型。对于信号波形变化剧烈的起音部分(attackportion),需要使用短窗类型。在何种情况下用何种窗类型是很重要的。如果将长窗类型用于瞬变信号,就会在起音部分之前出现称为前回声的噪声。在将短窗类型用于稳定信号时,由于频域内分辨率不足,造成没有进行适当的位分配,编码效率会降低,并且会出现噪声。这些缺陷对于低频声音尤其明显。
[0006]按照由MPEG标准提出的方法,用于频谱数据帧的窗类型确定是从对时域音频数据进行快速傅里叶变换(FFT)和计算FFT系数开始的。然后,该FFT系数被用来计算帧内的每个比例因子带的音频信号强度。还使用了心理声学模型来确定对于帧的可允许失真的级别。该可允许失真的级别表明可以被引入到频谱数据中但不被听到的最大数量的噪声。基于该允许失真的级别和帧内的每个比例因子带的音频信号强度,计算出感觉熵。如果该感觉熵大于预先确定的常数,则对帧使用短窗类型,否则对帧使用长窗类型。
[0007]上述判定窗类型的方法需要大量计算。另外,无论信号是瞬变的或是稳定的,如果信号强度很高,则感觉熵的结果也会很高。即,即使一个帧不处于转变中,也可能为该帧分配短窗类型。象上面讨论过的,这会造成编码效率的降低还会产生噪声。
[0008]而且,如果判定使用短窗类型,则产生MDCT系数的8个连续块(短窗)。为降低与短窗相关联的辅助信息(side information)的数量,可以对短窗进行分组。每组都包括一个或更多个相继的短窗,它们的比例因子是相同的。然而,当不适当地执行分组时,会增加编码的数量或者降低声音的质量。当分组的数量相对于短窗的数量太大时,以通常的方式编码的比例因子会被重复编码,因此,编码效率就会降低。当分组的数量相对于短窗的数量太小时,即使当音频信号变化剧烈时,也是用共用的比例因子。结果,声音质量也就下降了。MPEG标准没有为短窗分组提供专门的方法。
发明内容
[0009]使用与帧内各个短窗相关的能量在帧内识别第一类型的窗和第二类型的窗。然后,根据各个短窗的窗类型,将第一类型的短窗和第二类型的短窗分为两个预备组。进而,如果两个预备组中的任何一个预备组内的短窗数量超过极限数量,则将这个过大的预备组中的短窗进一步分成至少两个更多的组。
附图说明
[0010]通过下面详细的描述和本发明的各个实施方式的附图,可以更加充分地理解本发明,但这些描述和实施方式并不是将本发明限制于这些具体的实施方式,它们只是用来解释和理解发明的。
[0011]图1是编码系统的一种实施方式的框图。
[0012]图2是对频谱数据的帧进行MDCT的处理的一种实施方式的流程图。
[0013]图3是窗类型判定处理的一种实施方式的流程图。
[0014]图4是检测帧内从稳定信号过渡到瞬变信号的指示的处理的一种实施方式的流程图。
[0015]图5是根据下一帧的预备窗类型和前一帧的窗类型判定当前帧的窗类型的处理的一种实施方式的流程图。
[0016]图6是在帧内对短窗分组的处理的一种实施方式的流程图。
[0017]图7是确定短窗类型的处理的一种实施方式的流程图。
[0018]图8是创建两个短窗的预备组的处理的一种实施方式的流程图。
[0019]图9是进行短窗的最终分组的处理的一种实施方式的流程图。
[0020]图10图解说明示范性的帧的短窗分组。
[0021]图11是适于实现本发明的实施方式的计算机环境的框图。
具体实施方式
[0022]在下面对本发明实施方式的详细描述中,参照了附图,在这些附图中,相同的附图标记表示同样的元件,并且在这些附图中以图解说明的方式给出了实践本发明的具体实施方式。为了使本领域技术人员能够实现本发明,对这些实施方式都作了充分详细的描述,同时可以理解,也可以采用其它实施方式,并且可以进行逻辑上、机械的、电子的、功能的和其它的改变,而不会超出本发明的范围。因此,不应从限定的意义上看待下面的详细说明,本发明的范围仅仅是由所附的权利要求定义的。
[0023]从本发明操作过程的概述开始,图1表示编码系统100的一种实施方式。编码系统100符合MEPG音频编码标准(如MEPG-2 AAC标准,MEPG-4 AAC标准,等)(本文中总称为MEPG标准)。该编码系统100包括滤波器组模块102、编码工具104、心理声学建模器106、量化模块110和霍夫曼编码模块114。
[0024]滤波器组模块102接收音频信号,执行修饰离散余弦变换运算(MDCT)将音频信号映射到频域。上述映射是通过长变换范围(由长窗定义)或短变换范围(由短窗定义)完成的,在长变换范围中,为了提高频率分辨率,在时间上扩展了要加以分析的信号,在短转换范围中,为了提高时间分辨率,在时间上缩短了要加以分析的信号。在只存在稳定信号的情况下用长窗类型,当存在信号快速变化时用短窗类型。通过根据被分析信号的特性来使用上述两种运算类型,可以避免由时间分辨率不足导致的不期望的被称作超前回声的噪声的产生。
[0025]下面将要更加详细地讨论,滤波器组模块102负责确定将使用哪种窗类型,并负责使用所确定的窗类型产生MDCT系数。按照一种实施方式,滤波器组模块102还可以负责在使用短窗类型来产生MDCT系数时进行分组。分组减少了与短窗相关的辅助信息的数量。每组都包括一个或多个相继短窗,它们的比例因子是相同的。
[0026]编码工具104包括一组用来进行频谱处理的可选工具。例如,编码工具可以包括时域噪声整形(TNS)工具和进行预测编码的预测工具,和用来进行立体声相关编码的强度/耦合工具和中侧立体声(M/S)工具(middle side stereo(M/S)tool)。
[0027]心理声学建模器106分析采样以确定听觉掩蔽曲线。听觉掩蔽曲线表明可以被插入到每个单独的取样而不被听到的噪声的最大量。这里所说的可听到的是基于人类听觉的心理声学模型的。听觉掩蔽曲线用来估计需要的噪声频谱。
[0028]量化模块110负责选择用于频谱数据的最佳比例因子。比例因子选择处理基于从掩蔽曲线计算出的允许的失真和在编码时规定的位速率计算出的允许的位数。一旦最佳比例因子被选定,量化模块110就用它们量化频谱数据。将结果得到的量化频谱系数分组为比例因子带(SFBs)。每个SFB包含使用同样的比例因子得到的系数。
[0029]霍夫曼编码模块114负责为各个量化频谱系数组选择最佳霍夫曼码本,并用最佳霍夫曼码本执行霍夫曼编码操作。结果得到的长度可变的码(VLC)、标识编码中使用的码本的数据、由量化模块110选择的比例因子和一些其他信息随后被组合成位流。
[0030]按照一种实施方式,滤波器组模块102包括窗类型确定器108、MDCT系数计算器112和短窗组确定器116。窗类型确定器108负责确定用于MDCT运算的窗类型。按照一种实施方式,所述确定是使用优先使用长窗类型的窗类型判定方法进行的,下面将详细讨论。
[0031]MDCT系数计算器112负责使用所确定的窗类型计算MDCT系数。按照一种实施方式,MDCT系数计算器112首先用假定的长窗类型计算出预备MDCT系数。然后,如果窗类型确定器108确定所要使用的窗类型不是长窗类型,则MDCT系数计算器112使用所确定的窗类型重新计算MDCT系数。不同的是,不需要重新计算预备MDCT系数了。
[0032]短窗分组确定器116在使用短窗类型的时候进行操作并且负责定义如何对短窗分组。按照一种实施方式,短窗分组确定器116根据与各个短窗相关的能量进行将短窗分为两组的预备分组。如果两个预备组中任何一个太大,则将大的组进一步分成两个或更多个组,下面将具体讨论。
[0033]图2-9是根据本发明的各种不同的实施方式,可由图1中的滤波器组模块102执行的处理的流程图。这些处理可以由可能包含硬件(例如电路,专用逻辑电路等)、软件(例如在通用计算机系统或专用机器上运行的)或两者的组合的处理逻辑完成。对于软件实现的处理,流程图的描述使本领域技术人员能够开发出这样的包含能够在适当配置的计算机上执行这些处理的指令的程序(计算机的处理器执行来自计算机可读介质包括内存的指令)。计算机可执行指令可以用计算机程序语言编写或可以嵌入到固件逻辑中。如果用符合公认标准的编程语言来写这些指令,则这些指令可以在不同的硬件平台上运行并且和对不同的操作系统界面执行。另外,本发明的实施方式没有参照人任何具体的编程语言进行描述。可以意识到,可以使用各种各样的编程语言来实现本文介绍的教义。而且,在本领域内通常是按照采取动作或得到结果的方式一种形式或另一种形式(例如,程序、进程、处理、应用程序、模块、逻辑...)来述说软件的。这些表达方式只是述说由计算机执行的软件使计算机的处理器进行动作或产生结果的简称方式。可以意识到,可以将或多或少的操作插入到图2-9所示的处理中,而不会超出本发明的范围,并且本文所给出和所介绍的方框的排列方式并不意味着有特定的顺序。
[0034]图2是对频谱数据的帧进行MDCT处理200的一种实施方式的流程图。
[0035]参照图2,处理逻辑从为当前帧计算一组预备MDCT系数和为下一帧计算一组预备MDCT系数开始(处理块202)。上述计算是在假设当前帧和下一帧的窗类型都是长窗类型的情况下完成的。计算出的当前帧和下一帧的预备MDCT系数存储在缓冲器中。按照一种实施方式,当前帧和下一帧是取样帧(也称为块)的序列中的两个相邻帧,这些取样沿着时间轴产生,以致相邻帧相互交迭(例如50%)。这种交迭抑制了在相邻帧之间的边界部分出现失真。
[0036]在处理块204中,处理逻辑用当前帧的预备MDCT系数和下一帧的预备MDCT系数决定当前帧的窗类型。窗类型决定是使用优先采用长窗的窗类型判定方法进行的。下面将结合图3详细地讨论这种方法的一种实施方式。
[0037]在判决框206中,处理逻辑确定所决定的当前帧的窗类型是否是长窗类型。如果不是,处理逻辑将使用所判定的窗类型(处理块208)为当前帧计算一组最终的MDCT系数。如果是,处理逻辑将当前帧的预备MDCT系数看作是最终的系数(处理块处理块210)。
[0038]图3是窗类型判定处理300的一种实施方式的流程图。
[0039]参照图3,处理逻辑从确定下一帧中是否有从稳定信号向瞬变信号转换的指示开始(判决框302)。按照一种实施方式,这一确定是通过将与当前帧相关的能量和与下一帧相关的能量进行比较来做出的。下面将结合图4更详细地讨论检测帧中从稳定信号向瞬变信号的转变的处理的一种实施方式。
[0040]如果在判决框302中所做的判定是肯定的,则处理逻辑判定下一帧的预备窗类型为短窗类型(处理块304)。否则,处理逻辑判定下一帧的预备窗类型为长窗类型(处理块306)。
[0041]进而,处理逻辑根据下一帧的预备窗类型和前一帧的窗类型确定当前帧的窗类型(处理块308)。当前帧窗类型的确定优先使用长窗类型。按照一种实施方式(在该实施方式中,各种截然不同的窗类型后面都可以跟着由MPEG标准定义的两种过渡窗类型),处理逻辑选择这样的窗类型:使短窗在当前帧和后续帧中的使用最少。即,MPEG标准规定了两种起始于各种截然不同的窗类型的过渡窗类型,其中一种过渡窗类型允许在当前帧或下一帧中使用短窗,另一种过渡窗类型允许在当前帧或下一帧中使用长窗。具体来说,MPEG标准允许下面的过渡:
a.从长窗类型到长窗类型或长-短窗类型;
b.从长-短窗类型到短窗类型或短-长窗类型;
c.从短-长窗类型到长窗类型或长-短窗类型;和
d.从短窗类型到短窗类型或短-长窗类型。
[0042]因此,如果前一帧的窗类型是例如短-长窗类型,且下一帧的预备窗类型是长窗类型,则处理逻辑会为当前帧选择长窗类型,而不是另一个选项一长-短窗类型,这将有助于在下一帧中使用短窗。
[0043]下面将结合附图5更加详细地讨论一种基于下一帧的预备窗类型和前一帧的窗类型确定当前帧的窗类型的处理过程的实施方式。
[0044]将上面介绍的窗类型判定方法与MDCT计算相组合、直接对MDCT数据进行运算并且不需要快速傅里叶变换(FFT)运算和感觉熵的计算。此外,上面介绍的窗类型判定方法优先选用长窗,因此使短窗的使用得到了最小化。只有检测到了有从稳定信号过渡到瞬变信号的指示时才用短窗。
[0045]图4是检测帧中从稳定信号转换为瞬变信号的迹象的处理400的一种实施方式的流程图。
[0046]参照图4,处理逻辑由为当前帧计算一组MDCT系数并且为下一帧计算一组预备MDCT系数开始(处理块402)。然后,处理逻辑将计算出来的MDCT系数组存储到缓冲器中。
[0047]在处理块404中,处理逻辑使用所计算出来的当前帧的预备MDCT系数计算当前帧的总能量。按照一种实施方式,当前帧的总能量是按照下面的公式计算的
current_total_energy=sum(current_coef[i]*current_coef[i]/C)对于i=0 to 1023,
其中,current_coef[i]是当前帧的第i个MDCT系数的值,C是用来防止总和溢出的常数(例如,对于16位寄存器C=32767)。
[0048]在处理块406中,处理逻辑使用所计算出来的下一帧的预备MDCT系数计算下一帧的总能量。类似地,下一帧的总能量是按照下面的公式计算的
next_total_energy=sum(next_coef[i]*next_coef[i]/C)对于i=0 to 1023,
其中,next_coef[i]是下一帧的第i个MDCT系数的值,C是用来防止总和溢出的常数。
[0049]在处理块408中,处理逻辑以对数方式对当前帧的总能量和下一帧的总能量进行换算。按照一种实施方式,换算是这样进行的:
cpow=log(current_total_energy)and n_pow=log(next_total_energy).
在处理块410中,处理逻辑通过用经过换算的下一帧的总能量减去经过换算的当前帧的总能量计算出梯度能量。
[0050]在判决框412中,处理逻辑判定梯度能量是否超过阈值(例如,1)。按照一种实施方式,该阈值是通过实验确定的。如果在判决框412中做出的判定是肯定的,则处理逻辑裁定可能在下一帧中出现转变到瞬变信号(处理块414)。
[0051]图5是根据下一帧的预备窗类型和前一帧的窗类型确定当前帧的窗类型的处理500的一种实施方式的流程图。
[0052]参照图5,处理逻辑从判定下一帧的预备窗类型是否是长窗类型(判决框502)开始。如果是,处理逻辑进一步判定前一帧的窗类型是否是长窗类型或短-长窗类型(判决框504)。如果是,处理逻辑判定当前帧的窗类型是长窗类型(处理块506)。如果不是,处理逻辑判定当前帧的窗类型是短-长窗类型(处理块508)。
[0053]如果判决框502做出的判定是否定的,即,下一帧的预备窗类型是短窗类型,则处理逻辑进一步判定前一帧的窗类型是否是长窗类型或短-长窗类型(判决框510)。如果是,则处理逻辑确定当前帧的窗类型是长-短窗类型(处理块512)。如果不是,则处理逻辑判定当前帧的窗类型是短窗类型(处理块514)。
[0054]按照一种实施方式,如果做出了对帧使用短窗类型的判定,则使用短窗分组来减少与短窗相关的辅助信息量。每个组包括一个或多个连续的比例因子相同的短窗。按照一种实施方式,关于分组的信息包含在指定的位流元素中。按照一种实施方式,关于分组的信息包括帧内的组的数量和各个帧中短窗的数量。
[0055]图6是对帧内的短窗进行分组的处理600的一种实施方式的流程图。
[0056]参照图6,处理逻辑从识别帧内第一种类型的短窗和第二种类型的短窗(处理块602)开始。短窗的类型是根据与这个窗相关的能量确定的。下面将结合图7详细地讨论判定短窗类型的处理的实施方式。
[0057]在处理块604中,处理逻辑调整可能分类错误的短窗类型。按照一种实施方式,如果短窗类型与它的相邻窗类型不匹配,而相邻窗却是同一类型的,短窗的分类就可能是错误的。按照一种实施方式,其中帧内的短窗数量为8,调整处理可以表示成下面的方式:
for win_index 1 to 6
if(candidate[win_index-1]=candidate[win_index+1])
   candidate[win_index]=candidate[win_index-1],
其中,win_index指帧内短窗数量,candidate[win_index]、candidate[win_index-1]和candidate[win_index+1]分别表示当前窗、前一窗和下一窗的类型。
[0058]在处理块606中,处理逻辑根据帧内短窗的类型将它们分成两个预备组。下面将结合图8详细地讨论产生两个短窗预备组的处理的实施方式。
[0059]在判决框608中,处理逻辑判定任何一个预备组中的短窗数量是否超过极限数量。按照一种实施方式,该极限数量是通过实验确定的常数。依据该极限数量,可能没有、有一个或两个预备组过大。按照另一种实施方式,该极限数量是另一个预备组中的短窗数量,并且如果一个预备组中的短窗数量超过上述另一个预备组中的短窗数量,则处理逻辑判定这个预备组的短窗数量超过了极限数量。在使用这种比较方式的时候,可能没有或有一个预备组过大。当组过大时,可能会对具有不同特性的短窗进行了组合。于是,对这个组使用共用的比例因子可能会造成声音质量的降低。
[0060]如果处理逻辑在判决框608中判定两个预备组中的任何一个过大,则处理逻辑会将过大的预备组进一步分成两个或更多个最终的组(处理块610)。最终分组是这样完成的:使得具有能够实现编码效率与声音质量之间的平衡的组数量。下面将结合图9更详细地介绍进行短窗最终分组的处理的实施方式。
[0061]在处理块612中,处理逻辑根据最终分组情况确定帧内组的数量和每组内短窗的数量。
[0062]图7是判定短窗类型的处理700的一种实施方式的流程图。
[0063]参照图7,处理逻辑由计算帧内各个短窗的能量(处理块702)开始。按照一种实施方式,各个短窗的能量是按照下面的方式算出的
win_energy[win_index]=log[sum(coef[i]*coef[i]+0.5],
其中,[win_index]表示帧内当前短窗的数量,win_energy是结果得到的能量,coef[i]是短窗内的第i个频谱系数。
[0064]接着,处理逻辑找到具有最小能量的短窗(处理块704),计算帧内每个短窗的偏移能量值(处理块706)。按照一种实施方式,偏移能量值是用相应短窗的能量减去最小能量得到的。
[0065]在处理块708中,处理逻辑通过将帧内所有的偏移能量值的总和除以帧内短窗的数量为该帧计算平均偏移能量值。
[0066]在判决框710中,处理逻辑为第一短窗判定其偏移能量值是否超过了平均偏移能量值。如果是,则处理逻辑判定该短窗为第一类型(处理块712)。如果不是,则处理逻辑判定该短窗为第二类型(处理块714)。
[0067]接着,处理逻辑判定在帧内是否有更多的没有处理的窗(判决框715)。如果有,则处理逻辑转移到下一个短窗(处理块716)并且前进到判决框710。如果没有,则处理700结束。
[0068]图8是创建两个短窗预备组的处理800的一种实施方式的流程图。
[0069]参照图8,处理逻辑由初始化一组变量(处理块802)开始。例如,处理逻辑可以将前一个窗类型变量的值设定为第一个短窗的类型、将预备组数量变量的值设定为1并且将第一个预备组长度变量的值设定为1。
[0070]接着,处理逻辑开始处理短窗,由帧内的第二个短窗开始。具体来说,处理逻辑判定当前的短窗类型是否与第一个短窗的类型相同(判决框804)。如果是,则处理逻辑将第一个预备组的长度上递增1(处理块806),并检查是否有更多的短窗还未经处理(判决框808)。如果还有更多短窗还未经处理,则处理逻辑转移到下一个短窗(处理块810)并返回到判决框804。如果没有更多短窗还未经处理,则处理800结束。
[0071]如果在判决框804中处理逻辑判定当前短窗的类型与第一个短窗的类型不同,则处理逻辑将预备组数量设定为2(处理块812)并其通过从短帧总数(例如8)中减去第一个预备组的长度来计算第二个预备组的长度(处理块814)。
[0072]图9是进行短窗的最终分组的处理900的一种实施方式的流程图。处理900按照MEPG标准进行操作,按照这一标准,帧内的短窗数量等于8。
[0073]参照图9,处理逻辑由判定第一个预备组的长度是否超过了阈值(例如4)(判决框902)开始。如果是,则处理逻辑进一步判定第一个预备组的长度是否等于8(判决框904)。如果是,处理逻辑将组的最终数量设定为2、将第一个最终组的长度设定为第一个预备组的长度并且将第二个最终组的长度设定为第二个预备组的长度(处理块906)。如果不是,则处理逻辑将组的最终数量设定为3(处理块908)、将第三个最终组的长度设定为第二个预备组的长度(处理块910)、通过将第二个预备组的长度除以二来计算第二个最终组的长度(该计算可以表示为window_group_length[1]>>1)(处理块912)并且通过由第一个预备组的长度减去第二个最终组的长度来计算第一个最终组的长度(处理块914)。
[0074]如果处理逻辑在判决框902中判定第一个预备组的长度没有超过阈值,则它将进一步判定第一个预备组的长度是否小于阈值(判决框916)。如果是,则处理逻辑将组的最终数量设定为3(处理块917)、通过将第二个预备组的长度除以二来计算第三个最终组的长度(该计算可以表示为window_group_length[2]>>1)(处理块918)、通过由第二个预备组的长度减去第三个最终组的长度来计算第二个最终组的长度(处理块920),并且将第一个最终组的长度设定为第一个预备组的长度(处理块922)。
[0075]如果处理逻辑在判决框916中判定第一个预备组的长度不小于阈值,则它将组的数量设定为2,并且将第一个最终组的长度设定为第一个预备组的长度、将第二个最终组的长度设定为第二个预备组的长度(处理块924)。
[0076]图10图解说明示范性的帧的短窗分组。
[0077]参照图10,加以分组的短窗的类型由分组-位“11100011”表示。短窗的类型可由图7中的处理700确定。根据这些短窗的类型,可以使用图8的处理800首先将短窗首先分成两个预备组,从而创建了具有3个短窗的第一个预备组和具有5个短窗的第二个预备组。接着,可以使用极限数量4来进行图9中的处理900,进一步将第二个预备组分成两个组。结果,创建了三个最终组,第一个最终组具有3个短窗、第二个最终组具有3个短窗并且第三个最终组具有2个短窗。
[0078]下面关于图11的介绍是用来给出适于实现本发明的计算机硬件和其他操作组成部分的综述,而并非用来限定应用环境。图11图解说明了适合于用作图1的编码系统100或仅仅滤波器组模块102的计算机系统的一种实施方式。
[0079]计算机系统1140包括与系统总线1165相连的处理器1150、存储器1155和的输入/输出能力1160。存储器1155配置为存储着这样的指令:当这些指令由处理器1150执行时,实现本文所介绍的方法。输入/输出1160也包含不同类型的计算机可读介质,包括可由处理器1150存取的任何类型的存储装置。本领域技术人员会立即认识到,术语“计算机可读介质”此外还包含编码数字信号的载波。还会意识到,系统1140是由在存储器1155中运行的操作系统软件控制的。输入/输出和相关介质1160存储着用于操作系统和本发明的方法的计算机可执行指令。图1中所示的滤波器组模块102可以是与处理器1150相连的独立组成部分,也可以是嵌入在由处理器1150执行的计算机可执行指令中的。按照一种实施方式,计算机系统1140可以是ISP(因特网服务提供者)的一部分或者通过输入/输出1160与ISP相连,以在因特网上发送或接收图像数据。显然,本发明并不局限于因特网接入和基于因特网网页的站点;直接连接和专用网络也是可行的。
[0080]将会意识到,计算机系统1140只是许多有着不同体系结构的可行计算机系统中的一个例子。典型的计算机系统通常包括至少一个处理器、存储器和连接存储器和处理器的总线。本领域技术人员将会立即意识到,本发明可以由其它计算机系统结构来实现,包括多处理器系统、小型计算机、大型计算机等。本发明也可以在分布式计算环境下实现,在这种环境中,任务可以由通过通信网络连接起来的远程处理装置来完成。
[0081]已经介绍了音频编码中对短窗进行分组的各个方面。虽然本文图解说明和介绍的是具体的实施方式,但是本领域的技术人员将会意识到,设计成实现相同目的的方案将可以用来替代所给出的具体实施方式。本申请意欲覆盖本发明的任何修改或改变。

Claims (21)

1.一种方法,包括:
使用与数据帧内的多个短窗中的每一个相关的能量来识别该数据帧内的第一类型的一个或多个短窗和第二类型的一个或多个短窗;
根据多个短窗中每一个的窗类型将第一类型的一个或多个短窗和第二类型的一个或多个短窗分成两个预备组;并且
如果两个预备组之一内的短窗数量超过极限数量,则将该两个预备组之一中的短窗进一步分成至少两组。
2.如权利要求1所述的方法,其中帧内的多个短窗由8个短窗组成。
3.如权利要求1所述的方法,还包括:
为该帧确定短窗组的最终数量。
4.如权利要求3所述的方法,还包括:
确定最终数量的短窗组中的每一个短窗组中短窗的数量。
5.如权利要求1所述的方法,其中识别第一类型的一个或多个短窗和第二类型的一个或多个短窗包括:
计算帧内多个短窗中每一个短窗的能量;
找到多个短窗中具有最小能量的一个短窗;
为多个短窗中的每一个计算偏移能量值;
为该帧计算平均偏移能量值;并且
根据平均偏移能量值和多个短窗中的每一个短窗的偏移能量值确定所述多个短窗中的每一个短窗的类型。
6.如权利要求5所述的方法,其中多个短窗中的每一个短窗的能量是使用下列表达式计算的
win_energy[win_index]=log[sum(coef[i]*coef[i])+0.5],
其中,[win_index]表示帧内窗的数量、win_energy是结果得到的能量,而coef[i]是短窗内的第i个频谱系数。
7.如权利要求5所述的方法,其中偏移量是通过由多个短窗中的各个短窗的能量减去最小能量为所述多个短窗中的各个短窗计算出来的。
8.如权利要求5所述的方法,其中确定多个短窗中的各个短窗的类型包括:
如果所述多个短窗中的各个短窗的偏移能量值大于平均偏移能量值,则判定所述多个短窗中的各个短窗为第一类型;并且
如果所述多个短窗中的各个短窗的偏移能量值不大于平均偏移能量值,则判定所述多个短窗中的各个短窗为第二类型;
9.如权利要求1所述的方法,还包括:
如果相邻短窗具有相同的类型,则将类型可能不正确的多个短窗中的各个短窗的类型调整成与相邻短窗的类型相匹配。
10.如权利要求1所述的方法,其中将第一类型的一个或多个短窗和第二类型的一个或多个短窗分成两个预备组包括:
将多个短窗中的第一个短窗加到第一预备组中;并且
如果多个短窗内的各个后续短窗具有第一个短窗的类型,则将所述各个后续短窗加到第一预备组中;并且
在遇到类型与第一个短窗的类型不同的后续短窗时,创建第二预备组并且通过由多个短窗的总数减去第一预备组中短窗的数量来计算出第二预备组中短窗的数量。
11.如权利要求1所述的方法,其中极限数量是预定数量和两个预备组中另一个预备组内短窗的数量中的任何一个。
12.如权利要求1所述的方法,还包括:
如果两个预备组中的一个预备组内的短窗数量等于极限数量,则认为这两个预备组为该帧的最终组。
13.一种计算机可读介质,该介质提供这样的指令:在该指令在处理器中执行时,使得处理器执行一种方法,该方法包括:
使用与数据帧内的多个短窗中的每一个相关的能量来识别该数据帧内的第一类型的一个或多个短窗和第二类型的一个或多个短窗;
根据多个短窗中每一个的窗类型将第一类型的一个或多个短窗和第二类型的一个或多个短窗分成两个预备组;并且
如果两个预备组之一内的短窗数量超过极限数量,则将该两个预备组之一中短窗进一步分成至少两组。
14.如权利要求13所述的计算机可读介质,其中帧内的多个短窗由8个短窗组成。
15.如权利要求13所述的计算机可读介质,其中所述方法还包括:
为该帧确定短窗组的最终数量。
16.如权利要求15所述的计算机可读介质,其中该方法还包括:
确定最终数量的短窗组中的每一个短窗组中短窗的数量。
17.一种计算机化系统,包括:
存储器;和
与该存储器相连的至少一个处理器,该至少一个处理器执行一组指令,该组指令使得该至少一个处理器
使用与数据帧内的多个短窗中的每一个相关的能量来识别该数据帧内的第一类型的一个或多个短窗和第二类型的一个或多个短窗;
根据多个短窗中每一个的窗类型将第一类型的一个或多个短窗和第二类型的一个或多个短窗分成两个预备组;并且
如果两个预备组之一内的短窗数量超过极限数量,则将该两个预备组之一中的短窗进一步分成至少两组。
18.如权利要求17所述的系统,其中帧内的多个短窗由8个短窗组成。
19.如权利要求17所述的系统,其中该至少一个处理器执行一组指令,该组指令使得该至少一个处理器进一步为该帧确定短窗组的最终数量。
20.如权利要求19所述的系统,其中该至少一个处理器执行一组指令,该组指令使得该至少一个处理器进一步确定最终数量的短窗组中的每一个短窗组中短窗的数量。
21.一种设备,包括:
用于使用与数据帧内的多个短窗中的每一个相关的能量来识别该数据帧内的第一类型的一个或多个短窗和第二类型的一个或多个短窗的装置;
用于根据多个短窗中每一个的窗类型将第一类型的一个或多个短窗和第二类型的一个或多个短窗分成两个预备组的装置;和
用于如果两个预备组之一内的短窗数量超过极限数量,则将该两个预备组之一中的短窗进一步分成至少两组的装置。
CN2004800282430A 2003-09-29 2004-09-27 音频编码中的短窗分组方法 Expired - Fee Related CN1918629B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/674,982 2003-09-29
US10/674,982 US7283968B2 (en) 2003-09-29 2003-09-29 Method for grouping short windows in audio encoding
PCT/US2004/031585 WO2005034081A2 (en) 2003-09-29 2004-09-27 A method for grouping short windows in audio encoding

Publications (2)

Publication Number Publication Date
CN1918629A true CN1918629A (zh) 2007-02-21
CN1918629B CN1918629B (zh) 2010-05-26

Family

ID=34393518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800282430A Expired - Fee Related CN1918629B (zh) 2003-09-29 2004-09-27 音频编码中的短窗分组方法

Country Status (7)

Country Link
US (1) US7283968B2 (zh)
EP (1) EP1673765B1 (zh)
JP (1) JP4750707B2 (zh)
KR (1) KR101102016B1 (zh)
CN (1) CN1918629B (zh)
DE (1) DE602004024811D1 (zh)
WO (1) WO2005034081A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100530377B1 (ko) * 2003-12-30 2005-11-22 삼성전자주식회사 엠펙 오디오 디코더의 합성필터 및 그 디코딩 방법
ATE389932T1 (de) * 2004-01-20 2008-04-15 Dolby Lab Licensing Corp Audiocodierung auf der basis von blockgruppierung
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
WO2007107046A1 (fr) * 2006-03-23 2007-09-27 Beijing Ori-Reu Technology Co., Ltd Procédé de codage/décodage de signaux audio à variations rapides de fréquence
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
CA2697920C (en) * 2007-08-27 2018-01-02 Telefonaktiebolaget L M Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US20090144054A1 (en) * 2007-11-30 2009-06-04 Kabushiki Kaisha Toshiba Embedded system to perform frame switching
EP2242047B1 (en) * 2008-01-09 2017-03-15 LG Electronics Inc. Method and apparatus for identifying frame type
CN101751928B (zh) * 2008-12-08 2012-06-13 扬智科技股份有限公司 应用音频帧频谱平坦度简化声学模型分析的方法及其装置
WO2010134759A2 (ko) * 2009-05-19 2010-11-25 한국전자통신연구원 Mdct-tcx 프레임과 celp 프레임 간 연동을 위한 윈도우 처리 장치 및 윈도우 처리 방법
CN103325373A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US4964113A (en) 1989-10-20 1990-10-16 International Business Machines Corporation Multi-frame transmission control for token ring networks
US5642437A (en) 1992-02-22 1997-06-24 Texas Instruments Incorporated System decoder circuit with temporary bit storage and method of operation
JP2693893B2 (ja) 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
IL104636A (en) 1993-02-07 1997-06-10 Oli V R Corp Ltd Apparatus and method for encoding and decoding digital signals
US5729556A (en) 1993-02-22 1998-03-17 Texas Instruments System decoder circuit with temporary bit storage and method of operation
US5748763A (en) 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
KR960704300A (ko) 1994-05-25 1996-08-31 이데이 노부유키 부호화 방법, 복호화 방법, 부호화/복호화 방법, 부호화 장치, 복호화 장치 및 부호화/복호화 장치(Encoding method, decoding method, encoding/decoding method, encoding apparatus, decoding apparatus, and encoding/decoding apparatus)
JP3046224B2 (ja) 1994-07-26 2000-05-29 三星電子株式会社 固定ビット率の符号化方法および装置とこれを利用した高速探索のためのトラッキング方法
TW316302B (zh) 1995-05-02 1997-09-21 Nippon Steel Corp
EP0772925B1 (en) 1995-05-03 2004-07-14 Sony Corporation Non-linearly quantizing an information signal
US5864802A (en) 1995-09-22 1999-01-26 Samsung Electronics Co., Ltd. Digital audio encoding method utilizing look-up table and device thereof
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5893066A (en) 1996-10-15 1999-04-06 Samsung Electronics Co. Ltd. Fast requantization apparatus and method for MPEG audio decoding
JP3484908B2 (ja) 1997-01-27 2004-01-06 三菱電機株式会社 ビットストリーム再生装置
US5982935A (en) 1997-04-11 1999-11-09 National Semiconductor Corporation Method and apparatus for computing MPEG video reconstructed DCT coefficients
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
JP3515903B2 (ja) 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6108622A (en) 1998-06-26 2000-08-22 Lsi Logic Corporation Arithmetic logic unit controller for linear PCM scaling and decimation in an audio decoder
US6298087B1 (en) 1998-08-31 2001-10-02 Sony Corporation System and method for decoding a variable length code digital signal
JP3352406B2 (ja) 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP3323175B2 (ja) 1999-04-20 2002-09-09 松下電器産業株式会社 符号化装置
JP2000323993A (ja) 1999-05-11 2000-11-24 Mitsubishi Electric Corp Mpeg1オーディオレイヤiii復号処理装置およびコンピュータをmpeg1オーディオレイヤiii復号処理装置として機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体
JP3762579B2 (ja) * 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3597750B2 (ja) * 2000-04-11 2004-12-08 松下電器産業株式会社 グループ化方法及びグループ化装置
US6542863B1 (en) 2000-06-14 2003-04-01 Intervideo, Inc. Fast codebook search method for MPEG audio encoding
US20030079222A1 (en) * 2000-10-06 2003-04-24 Boykin Patrick Oscar System and method for distributing perceptually encrypted encoded files of music and movies
JP3639216B2 (ja) 2001-02-27 2005-04-20 三菱電機株式会社 音響信号符号化装置
US6587057B2 (en) 2001-07-25 2003-07-01 Quicksilver Technology, Inc. High performance memory efficient variable-length coding decoder
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US6662154B2 (en) 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
KR100949232B1 (ko) * 2002-01-30 2010-03-24 파나소닉 주식회사 인코딩 장치, 디코딩 장치 및 그 방법
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
JP4009948B2 (ja) * 2003-03-31 2007-11-21 日本ビクター株式会社 オーディオ信号符号化装置及びその符号化プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108550369A (zh) * 2018-04-14 2018-09-18 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法
CN108550369B (zh) * 2018-04-14 2020-08-11 全景声科技南京有限公司 一种可变长度的全景声信号编解码方法

Also Published As

Publication number Publication date
WO2005034081A2 (en) 2005-04-14
EP1673765B1 (en) 2009-12-23
JP4750707B2 (ja) 2011-08-17
CN1918629B (zh) 2010-05-26
EP1673765A4 (en) 2008-12-31
JP2007507751A (ja) 2007-03-29
US20050075861A1 (en) 2005-04-07
US7283968B2 (en) 2007-10-16
WO2005034081A3 (en) 2006-04-27
KR101102016B1 (ko) 2012-01-04
EP1673765A2 (en) 2006-06-28
DE602004024811D1 (de) 2010-02-04
KR20060131732A (ko) 2006-12-20

Similar Documents

Publication Publication Date Title
CN101968781B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
CN110189760B (zh) 对音频信号的频谱执行噪声填充的装置
US8527264B2 (en) Method and system for encoding audio data with adaptive low frequency compensation
CN1092420C (zh) 音频数据解码装置及音频数据编码解码系统
US9208789B2 (en) Reduced complexity converter SNR calculation
CN1748247A (zh) 音频编码
CN1918629A (zh) 音频编码中的短窗分组方法
RU2016122865A (ru) Кодер для кодирования аудиосигнала, система передачи аудио и способ определения значений коррекции
JP2019514065A (ja) 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
TW201435861A (zh) 用以基於線性預測編碼之於頻域中編碼的低頻率增強技術
JP2022084671A (ja) マルチチャネル信号符号化方法、マルチチャネル信号復号化方法、符号器、及び復号器
CN1711588A (zh) 音乐信息编码设备及方法和音乐信息解码设备及方法
CN1867967A (zh) 音频编码中的率失真控制方案
US9165561B2 (en) Apparatus and method for processing voice signal
CN109427337B (zh) 立体声信号编码时重建信号的方法和装置
CN104040623B (zh) 用于利用自适应低频补偿编码音频数据的方法和系统
CN116982110A (zh) 对音频下混信号的包络信息进行编码
US20180130480A1 (en) Audio coding with range extension

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20150927

EXPY Termination of patent right or utility model