CN103151048A - 用于对无效帧进行宽带编码和解码的系统、方法和设备 - Google Patents

用于对无效帧进行宽带编码和解码的系统、方法和设备 Download PDF

Info

Publication number
CN103151048A
CN103151048A CN2012102703144A CN201210270314A CN103151048A CN 103151048 A CN103151048 A CN 103151048A CN 2012102703144 A CN2012102703144 A CN 2012102703144A CN 201210270314 A CN201210270314 A CN 201210270314A CN 103151048 A CN103151048 A CN 103151048A
Authority
CN
China
Prior art keywords
frame
encoded
description
frequency band
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102703144A
Other languages
English (en)
Other versions
CN103151048B (zh
Inventor
维韦克·拉金德朗
阿南塔帕德马那伯罕·A·坎达哈达伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN103151048A publication Critical patent/CN103151048A/zh
Application granted granted Critical
Publication of CN103151048B publication Critical patent/CN103151048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

本发明涉及用于对无效帧进行宽带编码和解码的系统、方法和设备。在一方面,本发明揭示以不同速率对无效帧进行编码的语音编码器和语音编码方法。本发明揭示用于处理经编码语音信号的设备和方法,其基于对在第一频带上的频谱包络的描述和对在第二频带上的频谱包络的描述而计算经解码帧,其中所述针对所述第一频带的描述基于来自对应经编码帧的信息且所述针对所述第二频带的描述基于来自至少一个先前经编码帧的信息。对所述经解码帧的计算还可基于对针对所述第二频带的时间信息的描述,所述描述基于来自至少一个先前经编码帧的信息。

Description

用于对无效帧进行宽带编码和解码的系统、方法和设备
分案申请的相关信息
本申请为发明名称为“用于对无效帧进行宽带编码和解码的系统、方法和设备”的原中国发明专利申请的分案申请。原申请的申请号为200780027806.8;原申请的申请日为2007年7月31日。
相关申请案
本申请案主张2006年7月31日申请的且题为“上带不连续传输方案(UPPER BANDDTX SCHEME)”的第60/834,688号美国临时专利申请案的优先权。
技术领域
本发明涉及对语音信号的处理。
背景技术
通过数字技术进行的话音传输已变得较为普遍,尤其是在长距离电话、例如IP话音(还称为VoIP,其中IP表示因特网协议)等包交换电话和例如蜂窝式电话等数字无线电电话中。此迅速扩散已使得产生了对减少用以经由传输信道传送话音通信的信息量且同时维持重构语音的感知质量的关注。
经配置以通过提取与人类语音产生模型相关的参数而压缩语音的装置被称为“语音编码装置”。语音编码装置通常包括编码器和解码器。编码器通常将传入的语音信号(表示音频信息的数字信号)划分为称为“帧”的时间片段,分析每一帧以提取某些相关参数且将所述参数量化为经编码帧。经由传输信道(即,有线或无线网络连接)将经编码帧传输到包括解码器的接收器。解码器接收并处理经编码帧,对其进行解量化以产生参数,且使用经解量化的参数来重建语音帧。
在典型的会话中,每一说话者在约百分之六十的时间内是静默的。语音编码器通常经配置以区分语音信号的含有语音的帧(“有效帧”)与语音信号的仅含有静默或背景噪声的帧(“无效帧”)。此编码器可经配置以使用不同编码模式和/或速率来对有效和无效帧进行编码。举例来说,语音编码器通常经配置以使用比对有效帧进行编码所使用的位少的位来对无效帧进行编码。语音编码装置可对无效帧使用较低位速率,以支持以较低平均位速率进行语音信号传送,其中存在极少到毫无的感知质量损失。
图1说明对语音信号的包括有效帧与无效帧之间的过渡的区域进行编码的结果。图式中的每一竖条指示对应帧,其中竖条的高度指示对帧进行编码的位速率,且横轴指示时间。在此情况下,以较高位速率rH对有效帧进行编码且以较低位速率rL对无效帧进行编码。
位速率rH的实例包括每帧171位、每帧80位和每帧40位;且位速率rL的实例包括每帧16位。在蜂窝式电话系统(尤其是顺从如由弗吉尼亚州阿灵顿电信工业协会(Telecommunications Industry Association,Arlington,VA)发布的暂用标准(IS)-95或类似工业标准的系统)的情形中,这四个位速率还分别称为“全速率”、“半速率”、“四分之一速率”和“八分之一速率”。在图1所示的结果的一个特定实例中,速率rH为全速率且速率rL为八分之一速率。
传统上已在带宽方面将经由公众交换电话网络(PSTN)的话音通信限于300到3400千赫(kHz)的频率范围。较新近的用于话音通信的网络(例如使用蜂窝式电话和/或VoIP的网络)可能并无相同的带宽限制,且可能需要使用此类网络的设备具有传输和接收包括宽带频率范围的话音通信的能力。举例来说,可能需要此类设备支持向下延伸到50Hz且/或向上延伸到7或8kHz的音频频率范围。还可能需要此类设备支持其它应用,例如高质量音频或音频/视频会议、对例如音乐和/或电视等多媒体服务的传递等等,所述应用可能具有在传统PSTN界限以外的范围内的音频语音内容。
语音编码装置所支持的范围向较高频率中的延伸可改进清晰度。举例来说,语音信号中区别例如“s”和“f”等摩擦音的信息主要处于较高频率中。高带延伸还可改进经解码语音信号的其它质量,例如真实感。举例来说,甚至有声元音也可能具有远高于PSTN频率范围的频谱能量。
虽然可能需要语音编码装置支持宽带频率范围,但还需要限制用以经由传输信道传送话音通信的信息的量。语音编码装置可经配置以执行(例如)不连续传输(DTX),使得并不针对语音信号的全部无效帧均传输描述。
发明内容
根据一种配置的对语音信号的帧进行编码的方法包括:产生第一经编码帧,所述第一经编码帧基于语音信号的第一帧且具有p个位的长度,其中p为非零正整数;产生第二经编码帧,所述第二经编码帧基于语音信号的第二帧且具有q个位的长度,其中q为不同于p的非零正整数;以及产生第三经编码帧,所述第三经编码帧基于语音信号的第三帧且具有r个位的长度,其中r为小于q的非零正整数。在此方法中,第二帧是在语音信号中跟随第一帧之后的无效帧,第三帧是在语音信号中跟随第二帧之后的无效帧,且语音信号的在第一与第三帧之间的所有帧均为无效的。
根据另一配置的对语音信号的帧进行编码的方法包括产生第一经编码帧,所述第一经编码帧基于语音信号的第一帧且具有q个位的长度,其中q为非零正整数。此方法还包括产生第二经编码帧,所述第二经编码帧基于语音信号的第二帧且具有r个位的长度,其中r为小于q的非零正整数。在此方法中,第一和第二帧为无效帧。在此方法中,第一经编码帧包括(A)对语音信号的包括第一帧的部分的在第一频带上的频谱包络的描述和(B)对语音信号的包括第一帧的部分的在不同于第一频带的第二频带上的频谱包络的描述,且第二经编码帧(A)包括对语音信号的包括第二帧的部分的在第一频带上的频谱包络的描述且(B)不包括对在第二频带上的频谱包络的描述。还明确地预期且在本文中揭示用于执行此类操作的装置。还明确地预期且在本文中揭示包括计算机可读媒体的计算机程序产品,其中所述媒体包括用于致使至少一个计算机执行此类操作的代码。还明确地预期且在本文中揭示包括经配置以执行此类操作的语音活动性检测器、编码方案选择器和语音编码器的设备。
根据另一配置的用于对语音信号的帧进行编码的设备包括:用于基于语音信号的第一帧而产生具有p个位的长度的第一经编码帧的装置,其中p为非零正整数;用于基于语音信号的第二帧而产生具有q个位的长度的第二经编码帧的装置,其中q为不同于p的非零正整数;以及用于基于语音信号的第三帧而产生具有r个位的长度的第三经编码帧的装置,其中r为小于q的非零正整数。在此设备中,第二帧是在语音信号中跟随第一帧之后的无效帧,第三帧是在语音信号中跟随第二帧之后的无效帧,且语音信号的在第一与第三帧之间的所有帧均为无效的。
根据另一配置的计算机程序产品包括计算机可读媒体。所述媒体包括:用于致使至少一个计算机产生第一经编码帧的代码,所述第一经编码帧基于语音信号的第一帧且具有p个位的长度,其中p为非零正整数;用于致使至少一个计算机产生第二经编码帧的代码,所述第二经编码帧基于语音信号的第二帧且具有q个位的长度,其中q为不同于p的非零正整数;以及用于致使至少一个计算机产生第三经编码帧的代码,所述第三经编码帧基于语音信号的第三帧且具有r个位的长度,其中r为小于q的非零正整数。在此产品中,第二帧是在语音信号中跟随第一帧之后的无效帧,第三帧是在语音信号中跟随第二帧之后的无效帧,且语音信号的在第一与第三帧之间的所有帧均为无效的。
根据另一配置的用于对语音信号的帧进行编码的设备包括:语音活动性检测器,其经配置以针对语音信号的多个帧中的每一者指示所述帧是有效的还是无效的;编码方案选择器;以及语音编码器。编码方案选择器经配置以(A)响应于语音活动性检测器对语音信号的第一帧的指示而选择第一编码方案;(B)针对作为在语音信号中跟随第一帧之后的一连续系列的无效帧中的一者的第二帧且响应于语音活动性检测器关于第二帧为无效的指示而选择第二编码方案;且(C)针对在语音信号中跟随第二帧之后并作为在语音信号中跟随第一帧之后的连续系列的无效帧中的另一者的第三帧且响应于语音活动性检测器关于第三帧为无效的指示而选择第三编码方案。语音编码器经配置以(D)根据第一编码方案而产生第一经编码帧,所述第一经编码帧基于第一帧且具有p个位的长度,其中p为非零正整数;(E)根据第二编码方案而产生第二经编码帧,所述第二经编码帧基于第二帧且具有q个位的长度,其中q为不同于p的非零正整数;且(F)根据第三编码方案而产生第三经编码帧,所述第三经编码帧基于第三帧且具有r个位的长度,其中r为小于q的非零正整数。
根据一种配置的处理经编码语音信号的方法包括基于来自经编码语音信号的第一经编码帧的信息而获得对语音信号的第一帧的在(A)第一频带和(B)不同于第一频带的第二频带上的频谱包络的描述。此方法还包括基于来自经编码语音信号的第二帧的信息而获得对语音信号的第二帧的在第一频带上的频谱包络的描述。此方法还包括基于来自第一经编码帧的信息而获得对第二帧的在第二频带上的频谱包络的描述。
根据另一配置的用于处理经编码语音信号的设备包括用于基于来自经编码语音信号的第一经编码帧的信息而获得对语音信号的第一帧的在(A)第一频带和(B)不同于第一频带的第二频带上的频谱包络的描述的装置。此设备还包括用于基于来自经编码语音信号的第二经编码帧的信息而获得对语音信号的第二帧的在第一频带上的频谱包络的描述的装置。此设备还包括用于基于来自第一经编码帧的信息而获得对第二帧的在第二频带上的频谱包络的描述的装置。
根据另一配置的计算机程序产品包括计算机可读媒体。所述媒体包括用于致使至少一个计算机基于来自经编码语音信号的第一经编码帧的信息而获得对语音信号的第一帧的在(A)第一频带和(B)不同于第一频带的第二频带上的频谱包络的描述的代码。此媒体还包括用于致使至少一个计算机基于来自经编码语音信号的第二经编码帧的信息而获得对语音信号的第二帧的在第一频带上的频谱包络的描述的代码。此媒体还包括用于致使至少一个计算机基于来自第一经编码帧的信息而获得对第二帧的在第二频带上的频谱包络的描述的代码。
根据另一配置的用于处理经编码语音信号的设备包括控制逻辑,其经配置以产生包含值序列的控制信号,所述值序列基于经编码语音信号的经编码帧的编码索引,所述序列中的每一值对应于经编码语音信号的经编码帧。此设备还包括语音解码器,其经配置以响应于控制信号的具有第一状态的值而基于对在第一和第二频带上的频谱包络的描述计算经解码帧,所述描述基于来自对应经编码帧的信息。所述语音解码器还经配置以响应于控制信号的具有不同于第一状态的第二状态的值而基于以下描述计算经解码帧:(1)对在第一频带上的频谱包络的描述,所述描述基于来自对应经编码帧的信息,以及(2)对在第二频带上的频谱包络的描述,所述描述基于来自在经编码语音信号中出现于对应经编码帧之前的至少一个经编码帧的信息。
附图说明
图1说明对语音信号的包括有效帧与无效帧之间的过渡的区域进行编码的结果。
图2展示语音编码器或语音编码方法可用以选择位速率的决策树的一个实例。
图3说明对语音信号的包括四个帧的延期的区域进行编码的结果。
图4A展示可用以计算增益形状值的梯形开窗函数的曲线图。
图4B展示将图4A的开窗函数应用于一帧的五个子帧中的每一者。
图5A展示可由分带编码器用以对宽带语音内容进行编码的非重叠频带方案的一个实例。
图5B展示可由分带编码器用以对宽带语音内容进行编码的重叠频带方案的一个实例。
图6A、6B、7A、7B、8A和8B说明使用若干不同方法对语音信号中从有效帧到无效帧的过渡进行编码的结果。
图9说明使用根据通用配置的方法M100而对语音信号的三个连续帧进行编码的操作。
图10A、10B、11A、11B、12A和12B说明使用方法M100的不同实施方案而对从有效帧到无效帧的过渡进行编码的结果。
图13A展示根据方法M100的另一实施方案而对帧序列进行编码的结果。
图13B说明使用方法M100的又一实施方案对一系列无效帧进行编码的结果。
图14展示方法M100的实施方案M110的应用。
图15展示方法M110的实施方案M120的应用。
图16展示方法M120的实施方案M130的应用。
图17A说明使用方法M130的实施方案而对从有效帧到无效帧的过渡进行编码的结果。
图17B说明使用方法M130的另一实施方案而对从有效帧到无效帧的过渡进行编码的结果。
图18A为展示语音编码器可用以产生如图17B所示的结果的一组三个不同编码方案的表。
图18B说明使用根据通用配置的方法M300而对语音信号的两个连续帧进行编码的操作。
图18C展示方法M300的实施方案M310的应用。
图19A展示根据通用配置的设备100的框图。
图19B展示语音编码器130的实施方案132的框图。
图19C展示频谱包络描述计算器140的实施方案142的框图。
图20A展示可由编码方案选择器120的实施方案执行的测试的流程图。
图20B展示编码方案选择器120的另一实施方案可经配置以根据其操作的状态图。
图21A、21B和21C展示编码方案选择器120的其它实施方案可经配置以根据其操作的状态图。
图22A展示语音编码器132的实施方案134的框图。
图22B展示时间信息描述计算器152的实施方案154的框图。
图23A展示设备100的实施方案102的框图,所述实施方案102经配置以根据分带编码方案对宽带语音信号进行编码。
图23B展示语音编码器136的实施方案138的框图。
图24A展示宽带语音编码器136的实施方案139的框图。
图24B展示时间描述计算器156的实施方案158的框图。
图25A展示根据通用配置的处理经编码语音信号的方法M200的流程图。
图25B展示方法M200的实施方案M210的流程图。
图25C展示方法M210的实施方案M220的流程图。
图26展示方法M200的应用。
图27A说明方法M100与M200之间的关系。
图27B说明方法M300与M200之间的关系。
图28展示方法M210的应用。
图29展示方法M220的应用。
图30A说明迭代任务T230的实施方案的结果。
图30B说明迭代任务T230的另一实施方案的结果。
图30C说明迭代任务T230的又一实施方案的结果。
图31展示经配置以执行方法M200的实施方案的语音解码器的状态图的一部分。
图32A展示根据通用配置的用于处理经编码语音信号的设备200的框图。
图32B展示设备200的实施方案202的框图。
图32C展示设备200的实施方案204的框图。
图33A展示第一模块230的实施方案232的框图。
图33B展示频谱包络描述解码器270的实施方案272的框图。
图34A展示第二模块240的实施方案242的框图。
图34B展示第二模块240的实施方案244的框图。
图34C展示第二模块242的实施方案246的框图。
图35A展示控制逻辑210的实施方案可经配置以根据其操作的状态图。
图35B展示将方法M100与DTX组合的一个实例的结果。
在所述图式和随附描述中,相同参考标号指代相同或类似的元件或信号。
具体实施方式
可在宽带语音编码系统中应用本文描述的配置以支持针对无效帧使用比针对有效帧所使用的位速率低的位速率且/或改进所传送的语音信号的知觉质量。明确地预期且由此揭示,此类配置可适用于包交换的网络(例如,经布置以根据例如VoIP等协议而载运话音传输的有线和/或无线网络)和/或电路交换的网络中。
除非明确地受上下文限制,否则术语“计算”在本文中用以指示其通常意义中的任一者,例如运算、评估、产生和/或从一组值中选择。除非明确地受上下文限制,否则术语“获得”用以指示其通常意义中的任一者,例如计算、导出、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。在当前描述和权利要求书中使用术语“包含”的情况下,其并不排除其它元件或操作。术语“A基于B”用以指示其通常意义中的任一者,其中包括以下情况:(i)“A至少基于B”和(ii)“A等于B”(如果在特定上下文中适合的话)。
除非另有指示,否则对具有特定特征的语音编码器的任何揭示内容还明确地意欲揭示具有类似特征的语音编码方法(反之亦然),且对根据特定配置的语音编码器的任何揭示内容还明确地意欲揭示根据类似配置的语音编码方法(反之亦然)。除非另有指示,否则对具有特定特征的语音解码器的任何揭示内容还明确地意欲揭示具有类似特征的语音解码方法(反之亦然),且对根据特定配置的语音解码器的任何揭示内容还明确地意欲揭示根据类似配置的语音解码方法(反之亦然)。
语音信号的帧通常足够短以使得可预期所述信号的频谱包络在整个帧上保持相对静止。一个典型的帧长度为20毫秒,但可使用被视为适合特定应用的任何帧长度。20毫秒的帧长度在7千赫(kHz)的取样速率下对应于140个样本,在8kHz的取样速率下对应于160个样本,且在16kHz的取样速率下对应于320个样本,但可使用被视为适合特定应用的任何取样速率。可用于语音编码的取样速率的另一实例为12.8kHz,且其它实例包括在12.8kHz到38.4kHz的范围内的其它速率。
通常,所有帧具有相同长度,且在本文描述的特定实例中假设一致的帧长度。然而,还明确地预期且由此揭示,可使用不一致的帧长度。举例来说,方法M100和M200的实施方案还可用于对有效与无效帧和/或对有声与无声帧采用不同帧长度的应用。
在一些应用中,帧为非重叠的,而在其它应用中,使用重叠帧方案。举例来说,语音编码装置通常在编码器处使用重叠帧方案且在解码器处使用非重叠帧方案。编码器也有可能对不同任务使用不同帧方案。举例来说,语音编码器或语音编码方法可使用一个重叠帧方案来编码对帧的频谱包络的描述且使用不同的重叠帧方案来编码对帧的时间信息的描述。
如上文所提到的,可能需要将语音编码器配置成使用不同编码模式和/或速率来对有效帧和无效帧进行编码。为了区分有效帧与无效帧,语音编码器通常包括语音活动性检测器或以另外方式执行检测语音活动性的方法。此检测器或方法可经配置以基于例如帧能量、信噪比、周期性和越零率等一个或一个以上因数而将帧分类为有效或无效。此分类可包括将此因数的值或量值与阈值进行比较和/或将此因数的改变的量值与阈值进行比较。
语音活动性检测器或检测语音活动性的方法还可经配置以将有效帧分类为两个或两个以上不同类型中的一者,例如有声(例如,表示元音声)、无声(例如,表示摩擦音)或过渡(例如,表示词的开始或结束)。可能需要语音编码器使用不同位速率来对不同类型的有效帧进行编码。虽然图1的特定实例展示全部以相同位速率进行编码的一系列有效帧,但所属领域的技术人员将了解到本文描述的方法和设备还可用于经配置来以不同位速率对有效帧进行编码的语音编码器和语音编码方法中。
图2展示语音编码器或语音编码方法可用来根据特定帧所含有的语音类型而选择对所述帧进行编码的位速率的决策树的一个实例。在其它情况下,对特定帧所选择的位速率还可取决于例如所需的平均位速率、位速率在一系列帧上的所需图案(其可用以支持所需的平均位速率)和/或对先前帧所选择的位速率等标准。
可能需要使用不同编码模式来对不同类型的语音帧进行编码。有声语音的帧倾向于具有长期(即,持续一个以上帧周期)且与音调相关的周期性结构,且通过使用编码对此长期频谱特征的描述的编码模式来对有声帧(或有声帧序列)进行编码通常较为有效。此类编码模式的实例包括代码激励线性预测(CELP)和原型音调周期(PPP)。另一方面,无声帧和无效帧通常缺少任何显著的长期频谱特征,且语音编码器可经配置以通过使用不尝试描述此特征的编码模式来对这些帧进行编码。噪声激励线性预测(NELP)是此编码模式的一个实例。
语音编码器或语音编码方法可经配置以在位速率与编码模式(还称为“编码方案”)的不同组合中进行选择。举例来说,经配置以执行方法M100的实施方案的语音编码器可对含有有声语音的帧和过渡帧使用全速率CELP方案,对含有无声语音的帧使用半速率NELP方案,且对无效帧使用八分之一速率NELP方案。此语音编码器的其它实例支持用于一个或一个以上编码方案的多个编码速率,例如全速率与半速率CELP方案和/或全速率与四分之一速率PPP方案。
从有效语音到无效语音的过渡通常在具有若干帧的时期上发生。因此,语音信号的在从有效帧到无效帧的过渡之后的最初若干个帧可能包括有效语音的残余,例如发声残余。如果语音编码器使用既定用于无效帧的编码方案来对具有此类残余的帧进行编码,那么编码结果可能无法准确地表示原始帧。因此,可能需要对跟随从有效帧到无效帧的过渡之后的帧中的一者或一者以上继续使用较高的位速率和/或有效编码模式。
图3说明对语音信号的区域进行编码的结果,其中对在从有效帧到无效帧的过渡之后的若干个帧继续使用较高的位速率rH。此继续(还称为“延期”)的长度可根据过渡的预期长度来选择且可为固定的或可变的。举例来说,延期的长度可基于过渡之前的有效帧中的一者或一者以上的一个或一个以上特征,例如信噪比。图3说明具有四个帧的延期。
经编码帧通常含有语音参数集合,可从所述参数重构语音信号的对应帧。此语音参数集合通常包括频谱信息,例如对所述帧内的在一频谱上的能量分布的描述。此能量分布还称为帧的“频率包络”或“频谱包络”。语音编码器通常经配置以将对帧的频谱包络的描述计算为值的有序序列。在一些情况下,语音编码器经配置以计算有序序列,使得每一值指示信号在对应频率处或在对应频谱区域上的振幅或量值。此描述的一个实例是傅立叶变换系数的有序序列。
在其它情况下,语音编码器经配置以将对频谱包络的描述计算为编码模型的参数值的有序序列(例如线性预测编码(LPC)分析的系数值的集合)。通常将LPC系数值的有序序列布置成一个或一个以上向量,且语音编码器可经实施以将这些值计算为滤波系数或反射系数。所述集合中的系数值的数目还称为LPC分析的“阶”,且如由通信装置(例如蜂窝式电话)的语音编码器执行的LPC分析的典型阶的实例包括4、6、8、10、12、16、20、24、28和32。
语音编码装置通常经配置为以量化形式在传输信道上传输对频谱包络的描述(例如,作为进入对应查找表或“代码簿”中的一个或一个以上索引)。因此,可能需要语音编码器计算采用可进行有效量化的形式的LPC系数值的集合,例如线谱对(LSP)、线谱频率(LSF)、导抗谱对(ISP)、导抗谱频率(ISF)、倒谱系数或对数面积比的值的集合。语音编码器还可经配置以在转换和/或量化之前对值的有序序列执行其它操作,例如知觉加权。
在一些情况下,对帧的频谱包络的描述还包括对帧的时间信息的描述(例如,采用傅立叶变换系数的有序序列的形式)。在其它情况下,经编码帧的语音参数集合还可包括对帧的时间信息的描述。对时间信息的描述的形式可取决于用以对帧进行编码的特定编码模式。对于一些编码模式来说(例如,对于CELP编码模式来说),对时间信息的描述可包括对待由语音解码器用来激励LPC模型(例如,如由对频谱包络的描述所界定)的激励信号的描述。对激励信号的描述通常以量化形式出现于经编码帧中(例如,作为进入对应代码簿中的一个或一个以上索引)。对时间信息的描述还可包括与激励信号的音调分量相关的信息。对于PPP编码模式来说,举例来说,经编码的时间信息可包括对待由语音解码器用来再现激励信号的音调分量的原型的描述。对与音调分量相关的信息的描述通常以量化形式出现于经编码帧中(例如,作为进入对应代码簿中的一个或一个以上索引)。
对于其它编码模式来说(例如,对于NELP编码模式来说),对时间信息的描述可包括对帧的时间包络(还称为帧的“能量包络”或“增益包络”)的描述。对时间包络的描述可包括基于帧的平均能量的值。此值通常经呈现作为待在解码期间应用于所述帧的增益值,且还称为“增益框架”。在一些情况下,增益框架是基于以下两者之间的比率的标准化因数:(A)原始帧的能量E原始;以及(B)从经编码帧的其它参数(例如,包括对频谱包络的描述)合成的帧的能量E合成。举例来说,增益框架可表达为E原始/E 或表达为E原始/E合成的平方根。增益框架和时间包络的其它方面在(例如)2006年12月14日公开的题为“用于增益因数衰减的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR GAIN FACTOR ATTENUATION)”的第2006/0282262号美国专利申请公开案(沃斯(Vos)等人)中更详细地描述。
替代地或额外地,对时间包络的描述可包括所述帧的许多子帧中的每一者的相对能量值。此类值通常经呈现作为待在解码期间应用于相应子帧的增益值,且统称为“增益轮廓”或“增益形状”。在一些情况下,增益形状值是每一者基于以下两者之间的比率的标准化因数:(A)原始子帧i的能量E原始.i;以及(B)从经编码帧的其它参数(例如,包括对频谱包络的描述)合成的帧的对应子帧i的能量E合成.i。在此类情况下,可使用能量E合成.i来使能量E原始.i标准化。举例来说,增益形状值可表达为E原始.i/E合成.i或表达为E原始.i/E合成.i的平方根。对时间包络的描述的一个实例包括增益框架和增益形状,其中增益形状包括20毫秒帧的五个4毫秒子帧中的每一者的值。可在线性标度或对数(例如,分贝)标度上表达增益值。此类特征在(例如)上文引用的第2006/0282262号美国专利申请公开案中更详细地描述。
在计算增益框架的值(或增益形状的值)中,可能需要应用与邻近帧(或子帧)重叠的开窗函数。以此方式产生的增益值通常以重叠相加的方式应用于语音解码器处,这可有助于减少或避免帧或子帧之间的不连续性。图4A展示可用以计算增益形状值中的每一者的梯形开窗函数的曲线图。在此实例中,窗与两个邻近子帧中的每一者重叠1毫秒。图4B展示将此开窗函数应用于20毫秒帧的五个子帧中的每一者。开窗函数的其它实例包括具有不同重叠时期和/或可为对称或不对称的不同窗形状(例如,矩形或汉明)的函数。还有可能通过对不同子帧应用不同开窗函数和/或通过计算增益形状在具有不同长度的子帧上的不同值来计算增益形状的值。
包括对时间包络的描述的经编码帧通常以量化形式包括此描述作为进入对应代码簿中的一个或一个以上索引,但在一些情况下,可使用一算法来在不使用代码簿的情况下对增益框架和/或增益形状进行量化和/或解量化。对时间包络的描述的一个实例包括具有八到十二个位的量化索引,其对帧指定五个增益形状值(例如,对五个连续子帧中的每一者指定一个增益形状值)。此描述还可包括对帧指定增益框架值的另一量化索引。
如上文所提到的,可能需要传输和接收具有超过300到3400kHz的PSTN频率范围的频率范围的语音信号。一种用以对此信号进行编码的方法是将整个延伸的频率范围作为单个频带来进行编码。此方法可通过按比例缩放窄带语音编码技术(例如,经配置以对例如0到4kHz或300到3400Hz的PSTN质量频率范围进行编码的技术)以覆盖例如0到8kHz的宽带频率范围来实施。举例来说,此方法可包括(A)以较高速率对语音信号进行取样以包括高频率的分量,以及(B)对窄带编码技术进行重新配置以在所需的准确性程度上表示此宽带信号。重新配置窄带编码技术的一种此类方法是使用较高阶的LPC分析(即,产生具有较多值的系数向量)。将宽带信号作为单个频带进行编码的宽带语音编码装置还称为“全带”编码装置。
可能需要实施宽带语音编码装置以使得可通过窄带信道(例如PSTN信道)发送经编码信号的至少一窄带部分而无需对经编码信号进行译码或以另外方式对其进行显著修改。此特征可促进与仅认可窄带信号的网络和/或设备的向后相容性。还可能需要实施对语音信号的不同频带使用不同编码模式和/或速率的宽带语音编码装置。此特征可用以支持提高的编码效率和/或知觉质量。经配置以产生具有表示宽带语音信号的不同频带的部分(例如,单独的语音参数集合,每一集合表示宽带语音信号的不同频带)的经编码帧的宽带语音编码装置还称为“分带”编码装置。
图5A展示非重叠频带方案的一个实例,其可由分带编码器用来对跨越0Hz到8kHz的范围的宽带语音内容进行编码。此方案包括从0Hz延伸到4kHz的第一频带(还称为窄带范围)和从4kHz延伸到8kHz的第二频带(还称为延伸、上部或高带范围)。图5B展示重叠频带方案的一个实例,其可由分带编码器用来对跨越0Hz到7kHz的范围的宽带语音内容进行编码。此方案包括从0Hz延伸到4kHz的第一频带(窄带范围)和从3.5kHz延伸到7kHz的第二频带(延伸、上部或高带范围)。
分带编码器的一个特定实例经配置以对窄带范围执行十阶LPC分析且对高带范围执行六阶LPC分析。频带方案的其它实例包括窄带范围仅向下延伸到约300Hz的实例。此方案还可包括覆盖从约0Hz或50Hz直到约300Hz或350Hz的低带范围的另一频带。
可能需要减小用以对宽带语音信号进行编码的平均位速率。举例来说,减小支持特定服务所需要的平均位速率可允许增加网络同时可服务的用户的数目。然而,还需要在不使对应的经解码语音信号的知觉质量过度降级的情况下完成此减小。
用以减小宽带语音信号的平均位速率的一种可能方法是使用全带宽带编码方案以低位速率对无效帧进行编码。图6A说明对从有效帧到无效帧的过渡进行编码的结果,其中以较高位速率rH对有效帧进行编码且以较低位速率rL对无效帧进行编码。标签F指示使用全带宽带编码方案来编码的帧。
为了实现平均位速率的充分减小,可能需要使用非常低的位速率来对无效帧进行编码。举例来说,可能需要使用与用以在窄带编码装置中对无效帧进行编码的速率相当的位速率,例如每帧16位(“八分之一速率”)。遗憾的是,此较小数目的位通常不足以跨越宽带范围在可接受的知觉质量程度上对甚至宽带信号的无效帧进行编码,且以此速率对无效帧进行编码的全带宽带编码装置有可能产生在无效帧期间具有不良声音质量的经解码信号。此信号可能在无效帧期间缺少平滑性,(例如)因为经解码信号的感知响度和/或频谱分布可能在相邻帧之间过度改变。对于经解码的背景噪声来说,平滑性通常在感知上较为重要。
图6B说明对从有效帧到无效帧的过渡进行编码的另一结果。在此情况下,使用分带宽带编码方案来以较高位速率对有效帧进行编码且使用全带宽带编码方案来以较低位速率对无效帧进行编码。标签H和N分别指示经分带编码帧的使用高带编码方案和窄带编码方案来编码的部分。如上文所提到的,使用全带宽带编码方案和低位速率来对无效帧进行编码有可能产生在无效帧期间具有不良声音质量的经解码信号。将分带与全带编码方案混合还有可能增加编码装置复杂性,但此复杂性可能会影响或可能不会影响所得实施方案的实用性。另外,虽然有时使用来自过去帧的历史信息以显著提高编码效率(尤其对于对有声帧进行编码来说),但在全带编码方案的操作期间应用由分带编码方案产生的历史信息可能并不可行,反之亦然。
用以减小宽带信号的平均位速率的另一可能方法是使用分带宽带编码方案以低位速率对无效帧进行编码。图7A说明对从有效帧到无效帧的过渡进行编码的结果,其中使用全带宽带编码方案来以较高位速率rH对有效帧进行编码且使用分带宽带编码方案来以较低位速率rL对无效帧进行编码。图7B说明使用分带宽带编码方案来对有效帧进行编码的相关实例。如上文参看图6A和6B所提及的,可能需要使用与用以在窄带编码装置中对无效帧进行编码的位速率相当的位速率(例如每帧16位(“八分之一速率”))来对无效帧进行编码。遗憾的是,此较小数目的位通常不足以供分带编码方案在不同频带间进行分摊以使得可实现具有可接受质量的经解码宽带信号。
用以减小宽带信号的平均位速率的又一可能方法是以低位速率将无效帧作为窄带来进行编码。图8A和8B说明对从有效帧到无效帧的过渡进行编码的结果,其中使用宽带编码方案来以较高位速率rH对有效帧进行编码且使用窄带编码方案来以较低位速率rL对无效帧进行编码。在图8A的实例中,使用全带宽带编码方案对有效帧进行编码,而在图8B的实例中,使用分带宽带编码方案对有效帧进行编码。
使用高位速率的宽带编码方案对有效帧进行编码通常产生含有经良好编码的宽带背景噪声的经编码帧。然而,如在图8A和8B的实例中,仅使用窄带编码方案对无效帧进行编码产生缺少延伸频率的经编码帧。因此,从经解码的宽带有效帧到经解码的窄带无效帧的过渡有可能相当容易听见且使人不快,且此第三种可能方法还可能产生欠佳的结果。
图9说明使用根据通用配置的方法M100而对语音信号的三个连续帧进行编码的操作。任务T110以第一位速率r1(每帧p个位)对所述三个帧中的第一者(其可能为有效的或无效的)进行编码。任务T120以不同于r1的第二位速率r2(每帧q个位)对跟随第一帧之后且作为无效帧的第二帧进行编码。任务T130以小于r2的第三位速率r3(每帧r个位)对紧随第二帧之后且也为无效的第三帧进行编码。通常将方法M100作为较大的语音编码方法的部分来执行,且明确地预期并由此揭示经配置以执行方法M100的语音编码器和语音编码方法。
对应的语音解码器可经配置以使用来自第二经编码帧的信息来补充对来自第三经编码帧的无效帧的解码。在此描述内容的其它地方,揭示了语音解码器和对语音信号的帧进行解码的方法,其在对一个或一个以上后续无效帧进行解码中使用来自第二经编码帧的信息。
在图9所示的特定实例中,第二帧在语音信号中紧随第一帧之后,且第三帧在语音信号中紧随第二帧之后。在方法M100的其它应用中,第一与第二帧可在语音信号中由一个或一个以上无效帧隔开,且第二与第三帧可在语音信号中由一个或一个以上无效帧隔开。在图9所示的特定实例中,p大于q。方法M100还可经实施以使得p小于q。在图10A到12B所示的特定实例中,位速率rH、rM和rL分别对应于位速率r1、r2和r3。
图10A说明使用如上文所述的方法M100的实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此实例中,以较高位速率rH对过渡之前的最后一个有效帧进行编码以产生三个经编码帧中的第一者,以中间位速率rM对过渡之后的第一个无效帧进行编码以产生三个经编码帧中的第二者,且以较低位速率rL对下一无效帧进行编码以产生三个经编码帧中的最后一者。在此实例的一个特定情况下,位速率rH、rM和rL分别为全速率、半速率和八分之一速率。
如上文所提到的,从有效语音到无效语音的过渡通常在具有若干帧的时期上发生,且在从有效帧到无效帧的过渡之后的最初若干个帧可包括有效语音的残余,例如发声残余。如果语音编码器使用既定用于无效帧的编码方案来对具有此类残余的帧进行编码,那么编码结果可能无法准确地表示原始帧。因此,可能需要将方法M100实施为避免将具有此类残余的帧编码为第二经编码帧。
图10B说明使用方法M100的包括延期的实施方案而对从有效帧到无效帧的过渡进行编码的结果。方法M100的此特定实例针对在过渡之后的最初三个无效帧继续使用位速率rH。一般来说,可使用具有任何所需长度的延期(例如,在从一或二到五或十个帧的范围内)。延期的长度可根据过渡的预期长度来选择且可为固定的或可变的。举例来说,延期的长度可基于在过渡之前的有效帧中的一者或一者以上和/或在延期内的帧中的一者或一者以上的一个或一个以上特性,例如信噪比。一般来说,可将标签“第一经编码帧”应用于在过渡之前的最后一个有效帧或应用于在延期期间的任一无效帧。
可能需要将方法M100实施为在一系列两个或两个以上连续无效帧上使用位速率r2。图11A说明使用方法M100的一种此类实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此实例中,所述三个经编码帧中的第一者与最后一者由使用位速率rM进行编码的一个以上帧隔开,使得第二经编码帧不紧随第一经编码帧之后。对应的语音解码器可经配置以使用来自第二经编码帧的信息来对第三经编码帧进行解码(且可能对一个或一个以上后续无效帧进行解码)。
可能需要语音解码器使用来自一个以上经编码帧的信息来对后续无效帧进行解码。举例来说,参看如图11A所示的系列,对应的语音解码器可经配置以使用来自以位速率rM进行编码的两个无效帧的信息来对第三经编码帧进行解码(且可能对一个或一个以上后续无效帧进行解码)。
一般来说可能需要第二经编码帧代表无效帧。因此,可将方法M100实施为基于来自语音信号的一个以上无效帧的频谱信息而产生第二经编码帧。图11B说明使用方法M100的此实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此实例中,第二经编码帧含有在具有语音信号的两个帧的窗上平均所得的信息。在其它情况中,平均窗可具有在二到约六或八个帧的范围内的长度。第二经编码帧可包括对频谱包络的描述,所述描述是对窗内的帧(在此情况下为语音信号的对应无效帧和其之前的无效帧)的频谱包络的描述的平均值。第二经编码帧可包括对时间信息的描述,所述描述主要或专门地基于语音信号的对应帧。或者,方法M100可经配置以使得第二经编码帧包括对时间信息的描述,所述描述是对窗内的帧的时间信息的描述的平均值。
图12A说明使用方法M100的另一实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此实例中,第二经编码帧含有在具有三个帧的窗上平均所得的信息,其中以位速率rM对第二经编码帧进行编码且以不同的位速率rH对之前的两个无效帧进行编码。在此特定实例中,平均窗跟随在三个帧的后过渡延期之后。在另一实例中,可在没有此延期的情况下或者替代地在具有与平均窗重叠的延期的情况下实施方法M100。一般来说,可将标签“第一经编码帧”应用于在过渡之前的最后一个有效帧、应用于在延期期间的任一无效帧或应用于窗中以不同于第二经编码帧的位速率进行编码的任一帧。
在一些情况下,可能需要方法M100的实施方案仅在无效帧跟随在具有至少一最小长度的连续有效帧序列(还称为“谈话进发”)之后的情况下才使用位速率r2对所述帧进行编码。图12B说明使用方法M100的此实施方案对语音信号的区域进行编码的结果。在此实例中,将方法M100实施为使用位速率rM来对在从有效帧到无效帧的过渡之后的第一个无效帧进行编码,但仅在之前的谈话进发具有至少三个帧的长度的情况下才进行此操作。在此些情况下,最小谈话进发长度可为固定的或可变的。举例来说,其可基于在过渡之前的有效帧中的一者或一者以上的特性,例如信噪比。方法M100的其它此类实施方案还可经配置以如上文所述而应用延期和/或平均窗。
图10A到12B展示方法M100的实施方案的应用,其中用以对第一经编码帧进行编码的位速率r1大于用以对第二经编码帧进行编码的位速率r2。然而,方法M100的实施方案的范围还包括位速率r1小于位速率r2的方法。举例来说,在一些情况下,例如有声帧等有效帧可在很大程度上是先前有效帧的冗余,且可能需要使用小于r2的位速率对此帧进行编码。图13A展示根据方法M100的此实施方案而对帧序列进行编码的结果,其中以较低位速率对有效帧进行编码以产生三个经编码帧的集合中的第一者。
方法M100的潜在应用不限于语音信号的包括从有效帧到无效帧的过渡的区域。在一些情况下,可能需要根据某一规律间隔而执行方法M100。举例来说,可能需要以较高位速率r2对一系列连续无效帧中每第n个帧进行编码,其中n的典型值包括8、16和32。在其它情况下,可响应于事件而起始方法M100。此事件的一个实例是背景噪声的质量的改变,所述改变可由与频谱倾斜相关的参数(例如第一反射系数的值)的改变指示。图13B说明使用方法M100的此实施方案对一系列无效帧进行编码的结果。
如上文所提到的,可使用全带编码方案或分带编码方案而对宽带帧进行编码。作为全带进行编码的帧含有对在整个宽带频率范围上延伸的单个频谱包络的描述,而作为分带进行编码的帧具有表示宽带语音信号的不同频带(例如,窄带范围和高带范围)中的信息的两个或两个以上单独部分。举例来说,通常,经分带编码帧的这些单独部分中的每一者含有对语音信号的在对应频带上的频谱包络的描述。经分带编码帧可含有一个对所述帧的针对整个宽带频率范围的时间信息的描述,或者经编码帧的单独部分中的每一者可含有对语音信号的针对对应频带的时间信息的描述。
图14展示方法M100的实施方案M110的应用。方法M110包括任务T110的实施方案T112,其基于语音信号的三个帧中的第一者而产生第一经编码帧。第一帧可为有效的或无效的,且第一经编码帧具有p个位的长度。如图14所示,任务T112经配置以将第一经编码帧产生为含有对在第一和第二频带上的频谱包络的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。任务T112还可经配置以将第一经编码帧产生为含有对针对第一和第二频带的时间信息(例如,时间包络)的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。
方法M110还包括任务T120的实施方案T122,其基于三个帧中的第二者而产生第二经编码帧。第二帧为无效帧,且第二经编码帧具有q个位的长度(其中p与q不相等)。如图14所示,任务T122经配置以将第二经编码帧产生为含有对在第一和第二频带上的频谱包络的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。在此特定实例中,第二经编码帧中所含有的频谱包络描述的以位计的长度小于第一经编码帧中所含有的频谱包络描述的以位计的长度。任务T122还可经配置以将第二经编码帧产生为含有对针对第一和第二频带的时间信息(例如,时间包络)的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。
方法M110还包括任务T130的实施方案T132,其基于三个帧中的最后一者而产生第三经编码帧。第三帧为无效帧,且第三经编码帧具有r个位的长度(其中r小于q)。如图14所示,任务T132经配置以将第三经编码帧产生为含有对在第一频带上的频谱包络的描述。在此特定实例中,第三经编码帧中所含有的频谱包络描述的长度(以位计)小于第二经编码帧中所含有的频谱包络描述的长度(以位计)。任务T132还可经配置以将第三经编码帧产生为含有对针对第一频带的时间信息(例如,时间包络)的描述。
第二频带不同于第一频带,但方法M110可经配置以使得所述两个频带重叠。第一频带的下限的实例包括0、50、100、300和500Hz,且第一频带的上限的实例包括3、3.5、4、4.5和5kHz。第二频带的下限的实例包括2.5、3、3.5、4和4.5kHz,且第二频带的上限的实例包括7、7.5、8和8.5kHz。明确地预期且由此揭示上述界限的所有500个可能组合,且还明确地预期且由此揭示任一此类组合对方法M110的任一实施方案的应用。在一个特定实例中,第一频带包括约50Hz到约4kHz的范围,且第二频带包括约4Hz到约7kHz的范围。在另一特定实例中,第一频带包括约100Hz到约4kHz的范围,且第二频带包括约3.5Hz到约7kHz的范围。在又一特定实例中,第一频带包括约300Hz到约4kHz的范围,且第二频带包括约3.5Hz到约7kHz的范围。在这些实例中,术语“约”指示正负百分之五,其中各个频带的界限由相应3dB点指示。
如上文所提到的,对于宽带应用,分带编码方案可具有优于全带编码方案的优势,例如提高的编码效率和对向后相容性的支持。图15展示方法M110的实施方案M120的应用,所述实施方案M120使用分带编码方案来产生第二经编码帧。方法M120包括任务T122的实施方案T124,其具有两个子任务T126a和T126b。任务T126a经配置以计算对在第一频带上的频谱包络的描述,且任务T126b经配置以计算对在第二频带上的频谱包络的单独描述。对应的语音解码器(例如,如下文所述)可经配置以基于来自由任务T126b和T132计算的频谱包络描述的信息而计算经解码的宽带帧。
任务T126a和T132可经配置以计算具有相同长度的对在第一频带上的频谱包络的描述,或者任务T126a和T132中的一者可经配置以计算长于由另一任务所计算的描述的描述。任务T126a和T126b还可经配置以计算对在所述两个频带上的时间信息的单独描述。
任务T132可经配置以使得第三经编码帧不含有对在第二频带上的频谱包络的任何描述。或者,任务T132可经配置以使得第三经编码帧含有对在第二频带上的频谱包络的简略描述。举例来说,任务T132可经配置以使得第三经编码帧含有对在第二频带上的频谱包络的描述,所述描述具有显著比对第三帧的在第一频带上的频谱包络的描述少(例如,不超过其长度的一半)的位。在另一实例中,任务T132经配置以使得第三经编码帧含有对在第二频带上的频谱包络的描述,所述描述具有显著比由任务T126b计算的对在第二频带上的频谱包络的描述少(例如,不超过其长度的一半)的位。在一个此类实例中,任务T132经配置以将第三经编码帧产生为含有对在第二频带上的频谱包络的描述,所述描述仅包括频谱倾斜值(例如,经标准化的第一反射系数)。
可能需要将方法M110实施为使用分带编码方案而非全带编码方案来产生第一经编码帧。图16展示方法M120的实施方案M130的应用,所述实施方案M130使用分带编码方案来产生第一经编码帧。方法M130包括任务T110的实施方案T114,其包括两个子任务T116a和T116b。任务T116a经配置以计算对在第一频带上的频谱包络的描述,且任务T116b经配置以计算对在第二频带上的频谱包络的单独描述。
任务T116a和T126a可经配置以计算具有相同长度的对在第一频带上的频谱包络的描述,或者任务T116a和T126a中的一者可经配置以计算长于由另一任务所计算的描述的描述。任务T116b和T126b可经配置以计算具有相同长度的对在第二频带上的频谱包络的描述,或者任务T116b和T126b中的一者可经配置以计算长于由另一任务所计算的描述的描述。任务T116a和T116b还可经配置以计算对在所述两个频带上的时间信息的单独描述。
图17A说明使用方法M130的实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此特定实例中,第一和第二经编码帧的表示第二频带的部分具有相同长度,且第二和第三经编码帧的表示第一频带的部分具有相同长度。
可能需要第二经编码帧的表示第二频带的部分具有比第一经编码帧的对应部分大的长度。有效帧的低频率和高频率范围比含有背景噪声的无效帧的低频率和高频率范围更有可能彼此相关(尤其是在有效帧为有声的情况下)。因此,与有效帧的高频率范围相比,无效帧的高频率范围可传达相对较多的帧的信息,且可能需要使用较大数目的位来对无效帧的高频率范围进行编码。
图17B说明使用方法M130的另一实施方案而对从有效帧到无效帧的过渡进行编码的结果。在此情况下,第二经编码帧的表示第二频带的部分长于第一经编码帧的对应部分(即,具有比第一经编码帧的对应部分多的位)。此特定实例还展示第二经编码帧的表示第一频带的部分长于第三经编码帧的对应部分的情况,但方法M130的另一实施方案可经配置以对帧进行编码以使得这两个部分具有相同长度(例如,如图17A所示)。
方法M100的典型实例经配置以使用宽带NELP模式(其可如图14所示为全带,或如图15和16所示为分带)来对第二帧进行编码且使用窄带NELP模式来对第三帧进行编码。图18的表展示语音编码器可用以产生如图17B所示的结果的一组三个不同编码方案。在此实例中,使用全速率宽带CELP编码方案(“编码方案1”)来对有声帧进行编码。此编码方案使用153个位来对帧的窄带部分进行编码且使用16个位来对高带部分进行编码。对于窄带,编码方案1使用28个位来编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且使用125个位来编码对激励信号的描述。对于高带,编码方案1使用8个位来编码频谱包络(例如,编码为一个或一个以上量化LSP向量)且使用8个位来编码对时间包络的描述。
可能需要将编码方案1配置成从窄带激励信号导出高带激励信号,使得不需要经编码帧的任何位来载运高带激励信号。还可能需要将编码方案1配置成计算与如从经编码帧的其它参数(例如,包括对在第二频带上的频谱包络的描述)合成的高带信号的时间包络有关的高带时间包络。此类特征在(例如)上文引用的第2006/0282262号美国专利申请公开案中更详细地描述。
与有声语音信号相比,无声语音信号通常在高带中含有较多对于语音理解为重要的信息。因此,与对有声帧的高带部分进行编码相比,可能需要使用较多位来对无声帧的高带部分进行编码,甚至对于使用较高总体位速率对有声帧进行编码的情况也是如此。在根据图18的表的实例中,使用半速率宽带NELP编码方案(“编码方案2”)来对无声帧进行编码。代替如编码方案1用来对有声帧的高带部分进行编码的16个位,此编码方案使用27个位来对所述帧的高带部分进行编码:12个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且15个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。为了对窄带部分进行编码,编码方案2使用47个位:28个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且19个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。
图18中所描述的方案使用八分之一速率窄带NELP编码方案(“编码方案3”)来以每帧16位的速率对无效帧进行编码,其中10个位用以编码对频谱包络的描述(例如,编码为一个或一个以上量化LSP向量)且5个位用以编码对时间包络的描述(例如,编码为量化的增益框架和/或增益形状)。编码方案3的另一实例使用8个位来编码对频谱包络的描述且使用6个位来编码对时间包络的描述。
语音编码器或语音编码方法可经配置以使用如图18所示的一组编码方案来执行方法M130的实施方案。举例来说,此编码器或方法可经配置以使用编码方案2而非编码方案3来产生第二经编码帧。此编码器或方法的各种实施方案可经配置以通过使用指示位速率rH的编码方案1、指示位速率rM的编码方案2和指示位速率rL的编码方案3来产生如图10A到13B所示的结果。
对于使用如图18所示的一组编码方案来执行方法M130的实施方案的情况,编码器或方法经配置以使用同一编码方案(方案2)来产生第二经编码帧且产生经编码的无声帧。在其它情况下,经配置以执行方法M100的实施方案的编码器或方法可经配置以使用专用编码方案(即,编码器或方法并不同样用以对有效帧进行编码的编码方案)来对第二帧进行编码。
方法M130的使用如图18所示的一组编码方案的实施方案经配置以使用同一编码模式(即,NELP)来产生第二和第三经编码帧,但有可能使用不同(例如,在如何计算增益的方面)的编码模式版本来产生所述两个经编码帧。还明确地预期且由此揭示使用不同编码模式而产生第二和第三经编码帧(例如,改为使用CELP模式来产生第二经编码帧)的方法M100的其它配置。还明确地预期且由此揭示使用分带宽带模式而产生第二经编码帧的方法M100的另外配置,所述分带宽带模式对不同频带使用不同编码模式(例如,对较低频带使用CELP且对较高频带使用NELP,或反之亦然)。还明确地预期且由此揭示经配置以执行方法M100的此些实施方案的语音编码器和语音编码方法。
在方法M100的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可经实施为代码(例如,一个或一个以上指令集合),其在可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如,计算机)读取和/或执行的计算机程序产品(例如,例如盘、快闪或其它非易失性存储卡、半导体存储器芯片等一个或一个以上数据存储媒体)中体现。方法M100的实施方案的任务还可由一个以上此类阵列或机器来执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置(例如蜂窝式电话或具有此通信能力的其它装置)内执行。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP等一个或一个以上协议)。举例来说,此装置可包括经配置以传输经编码帧的RF电路。
图18B说明使用根据通用配置的方法M300而对语音信号的两个连续帧进行编码的操作,所述方法包括任务T120和T130,如本文所述。(虽然方法M300的此实施方案仅处理两个帧,但为了便利起见继续使用标签“第二帧”和“第三帧”。)在图18B所示的特定实例中,第三帧紧随第二帧之后。在方法M300的其它应用中,第二与第三帧可在语音信号中由一无效帧或由两个或两个以上无效帧的连续系列隔开。在方法M300的另外应用中,第三帧可为语音信号的不为第二帧的任一无效帧。在方法M300的另一一般应用中,第二帧可为有效的或无效的。在方法M300的另一一般应用中,第二帧可为有效的或无效的,且第三帧可为有效的或无效的。图18C展示方法M300的实施方案M310的应用,其中分别将任务T120和T130实施为任务T122和T132,如本文所述。在方法M300的另一实施方案中,将任务T120实施为任务T124,如本文所述。可能需要对任务T132进行配置以使得第三经编码帧不含有对在第二频带上的频谱包络的任何描述。
图19A展示经配置以执行语音编码方法的设备100的框图,所述方法包括如本文所述的方法M100的实施方案和/或如本文所述的方法M300的实施方案。设备100包括语音活动性检测器110、编码方案选择器120和语音编码器130。语音活动性检测器110经配置以接收语音信号的帧且针对待编码的每一帧指示所述帧是有效的还是无效的。编码方案选择器120经配置以响应于语音活动性检测器110的指示而对待编码的每一帧选择编码方案。语音编码器130经配置以根据选定编码方案而产生基于语音信号的帧的经编码帧。包括设备100的通信装置(例如蜂窝式电话)可经配置以在将经编码帧传输到有线、无线或光传输信道中之前对其执行进一步处理操作,例如误差校正和/或冗余编码。
语音活动性检测器110经配置以指示待编码的每一帧是有效的还是无效的。此指示可为二进制信号,使得所述信号的一个状态指示帧为有效的且另一状态指示帧为无效的。或者,所述指示可为具有两个以上状态的信号,使得其可指示一种以上类型的有效和/或无效帧。举例来说,可能需要对检测器110进行配置以:指示有效帧是有声的还是无声的;或将有效帧分类为过渡、有声或无声;且甚至可能将过渡帧分类为向上过渡或向下过渡。编码方案选择器120的对应实施方案经配置以响应于这些指示而对待编码的每一帧选择编码方案。
语音活动性检测器110可经配置以基于帧的例如能量、信噪比、周期性、越零率、频谱分布(如使用(例如)一个或一个以上LSF、LSP和/或反射系数来评估)等一个或一个以上特性来指示帧是有效的还是无效的。为了产生所述指示,检测器110可经配置以对此些特性中的一者或一者以上中的每一者执行操作,例如将此特性的值或量值与阈值进行比较和/或将此特性的值或量值的改变的量值与阈值进行比较,其中所述阈值可为固定的或适应性的。
语音活动性检测器110的实施方案可经配置以对当前帧的能量进行评估且在能量值小于(或者,不大于)阈值的情况下指示所述帧为无效的。此检测器可经配置以将帧能量计算为帧样本的平方和。语音活动性检测器110的另一实施方案经配置以对当前帧的在低频带和高频带的每一者中的能量进行评估且在每一频带的能量值小于(或者,不大于)相应阈值的情况下指示所述帧为无效的。此检测器可经配置以通过向帧应用通带滤波器且计算经滤波帧的样本的平方和来计算频带中的帧能量。
如上文所提到的,语音活动性检测器110的实施方案可经配置以使用一个或一个以上阈值。这些值中的每一者可为固定的或适应性的。适应性阈值可基于一个或一个以上因数,例如帧或频带的噪声水平、帧或频带的信噪比、所需的编码速率等。在一个实例中,用于低频带(例如,300Hz到2kHz)和高频带(例如,2kHz到4kHz)中的每一者的阈值基于对先前帧在所述频带中的背景噪声水平、先前帧在所述频带中的信噪比和所需的平均数据速率的估计。
编码方案选择器120经配置以响应于语音活动性检测器110的指示而对待编码的每一帧选择编码方案。编码方案选择可基于来自语音活动性检测器110的对于当前帧的指示和/或基于来自语音活动性检测器110的对于一个或一个以上先前帧中的每一者的指示。在一些情况下,编码方案选择还基于来自语音活动性检测器110的对于一个或一个以上后续帧中的每一者的指示。
图20A展示可由编码方案选择器120的实施方案执行以获得如图10A所示的结果的测试的流程图。在此实例中,选择器120经配置以对有声帧选择较高速率的编码方案1,对无效帧选择较低速率的编码方案3,且对无声帧和在从有效帧到无效帧的过渡之后的第一个无效帧选择中间速率的编码方案2。在此应用中,编码方案1到3可遵守图18所示的三个方案。
编码方案选择器120的替代实施方案可经配置以根据图20B的状态图而操作以获得等效结果。在此图式中,标签“A”指示响应于有效帧的状态过渡,标签“I”指示响应于无效帧的状态过渡,且各种状态的标签指示对当前帧所选择的编码方案。在此情况下,状态标签“方案1/2”指示依据当前有效帧是有声的还是无声的而对所述帧选择编码方案1或编码方案2。所属领域的技术人员将了解在替代实施方案中,此状态可经配置以使得编码方案选择器对于有效帧仅支持一种编码方案(例如,编码方案1)。在另一替代实施方案中,此状态可经配置以使得编码方案选择器对于有效帧从两个以上不同编码方案中进行选择(例如,对于有声、无声和过渡帧选择不同编码方案)。
如上文参看图12B所提到的,可能需要语音编码器仅在最新近的有效帧为具有至少一最小长度的谈话进发的部分的情况下才以较高位速率r2对无效帧进行编码。编码方案选择器120的实施方案可经配置以根据图21A的状态图而操作以获得如图12B所示的结果。在此特定实例中,选择器经配置以仅在无效帧紧随具有至少三个帧的长度的一串连续有效帧之后的情况下才对所述无效帧选择编码方案2。在此情况下,状态标签“方案1/2”指示依据当前有效帧是有声的还是无声的而对所述帧选择编码方案1或编码方案2。所属领域的技术人员将了解在替代实施方案中,这些状态可经配置以使得编码方案选择器对于有效帧仅支持一种编码方案(例如,编码方案1)。在另一替代实施方案中,这些状态可经配置以使得编码方案选择器对于有效帧从两个以上不同编码方案中进行选择(例如,对于有声、无声和过渡帧选择不同方案)。
如上文参看图10B和12A所提到的,可能需要语音编码器应用延期(即,对于在从有效帧到无效帧的过渡之后的一个或一个以上无效帧继续使用较高位速率)。编码方案选择器120的实施方案可经配置以根据图21B的状态图而操作以应用具有三个帧的长度的延期。在此图式中,将延期状态标记为“方案1(2)”以表示依据对最新近的有效帧所选择的方案而针对当前无效帧指示编码方案1或编码方案2。所属领域的技术人员将了解在替代实施方案中,编码方案选择器可对于有效帧仅支持一种编码方案(例如,编码方案1)。在另一替代实施方案中,延期状态可经配置以继续指示两个以上不同编码方案中的一者(例如,针对对于有声、无声和过渡帧支持不同方案的情况)。在另一替代实施方案中,延期状态中的一者或一者以上可经配置以指示固定方案(例如,方案1),即使对于最新近的有效帧选择了不同方案(例如,方案2)也是如此。
如上文参看图11B和12A所提到的,可能需要语音编码器基于在语音信号的一个以上无效帧上平均所得的信息而产生第二经编码帧。编码方案选择器120的实施方案可经配置以根据图21C的状态图而操作以支持此结果。在此特定实例中,选择器经配置以指导编码器基于在三个无效帧上平均所得的信息而产生第二经编码帧。标记为“方案2(开始平均值)”的状态向编码器指示当前帧将用方案2进行编码且还用以计算新平均值(例如,对频谱包络的描述的平均值)。标记为“方案2(用于平均值)”的状态向编码器指示当前帧将用方案2进行编码且还用以继续计算平均值。标记为“发送平均值,方案2”的状态向编码器指示当前帧将用以完成所述平均值,所述平均值接着使用方案2来发送。所属领域的技术人员将了解,编码方案选择器120的替代实施方案可经配置以使用不同方案分配且/或指示信息在不同数目的无效帧上的平均。
图19B展示语音编码器130的实施方案132的框图,所述实施方案132包括频谱包络描述计算器140、时间信息描述计算器150和格式化器160。频谱包络描述计算器140经配置以计算对待编码的每一帧的频谱包络的描述。时间信息描述计算器150经配置以计算对待编码的每一帧的时间信息的描述。格式化器160经配置以产生包括计算所得的对频谱包络的描述和计算所得的对时间信息的描述的经编码帧。格式化器160可经配置以根据所需的包格式(可能对于不同编码方案使用不同格式)而产生经编码帧。格式化器160可经配置以将经编码帧产生为包括对帧进行编码所根据的额外信息(还称为“编码索引”),例如识别编码方案或者编码速率或模式的一个或一个以上位的集合。
频谱包络描述计算器140经配置以根据由编码方案选择器120指示的编码方案而计算对针对待编码的每一帧的频谱包络的描述。所述描述基于当前帧且还可基于一个或一个以上其它帧的至少一部分。举例来说,计算器140可经配置以应用延伸到一个或一个以上邻近帧中的窗且/或计算两个或两个以上帧的描述的平均值(例如,LSP向量的平均值)。
计算器140可经配置以通过执行例如LPC分析等频谱分析来计算对帧的频谱包络的描述。图19C展示频谱包络描述计算器140的实施方案142的框图,所述实施方案142包括LPC分析模块170、变换区块180和量化器190。分析模块170经配置以执行对帧的LPC分析且产生对应的模型参数集合。举例来说,分析模块170可经配置以产生例如滤波系数或反射系数等LPC系数的向量。分析模块170可经配置以在包括一个或一个以上相邻帧的数个部分的窗上执行分析。在一些情况下,分析模块170经配置以便根据由编码方案选择器120指示的编码方案而选择分析的阶(例如,系数向量中的元素的数目)。
变换区块180经配置以将模型参数集合转换为对于量化更为有效的形式。举例来说,变换区块180可经配置以将LPC系数向量转换为LSP集合。在一些情况下,变换区块180经配置以根据由编码方案选择器120指示的编码方案而将LPC系数集合转换为特定形式。
量化器190经配置以通过量化经转换的模型参数集合来产生采用量化形式的对频谱包络的描述。量化器190可经配置以通过对经转换的集合的元素进行截断和/或通过选择一个或一个以上量化表索引来表示经转换的集合而量化经转换的集合。在一些情况下,量化器190经配置以根据由编码方案选择器120指示的编码方案(例如,如上文参看图18所论述)而将经转换的集合量化为特定形式和/或长度。
时间信息描述计算器150经配置以计算对帧的时间信息的描述。所述描述同样可基于一个或一个以上其它帧的至少一部分的时间信息。举例来说,计算器150可经配置以计算在延伸到一个或一个以上邻近帧中的窗上的描述且/或计算两个或两个以上帧的描述的平均值。
时间信息描述计算器150可经配置以根据由编码方案选择器120指示的编码方案而计算具有特定形式和/或长度的对时间信息的描述。举例来说,计算器150可经配置以根据选定编码方案而计算对时间信息的描述,所述描述包括以下一者或两者:(A)帧的时间包络;以及(B)帧的激励信号,其可包括对音调分量的描述(例如,音调滞后(还称为延迟)、音调增益和/或对原型的描述)。
计算器150可经配置以计算对时间信息的描述,其包括帧的时间包络(例如,增益框架值和/或增益形状值)。举例来说,计算器150可经配置以响应于NELP编码方案的指示而输出此描述。如本文所描述,计算此描述可包括将在帧或子帧上的信号能量计算为信号样本的平方和,计算在包括其它帧和/或子帧的部分的窗上的信号能量,和/或量化计算所得的时间包络。
计算器150可经配置以计算对帧的时间信息的描述,其包括与帧的音调或周期性相关的信息。举例来说,计算器150可经配置以响应于CELP编码方案的指示而输出包括帧的音调信息(例如音调滞后和/或音调增益)的描述。替代地或额外地,计算器150可经配置以响应于PPP编码方案的指示而输出包括周期波形(还称为“原型”)的描述。计算音调和/或原型信息通常包括从LPC残差提取此信息且还可包括将来自当前帧的音调和/或原型信息与来自一个或一个以上过去帧的此信息进行组合。计算器150还可经配置以量化此对时间信息的描述(例如,量化为一个或一个以上表索引)。
计算器150可经配置以计算对帧的时间信息的描述,其包括激励信号。举例来说,计算器150可经配置以响应于CELP编码方案的指示而输出包括激励信号的描述。计算激励信号通常包括从LPC残差导出此信号且还可包括将来自当前帧的激励信息与来自一个或一个以上过去帧的此信息进行组合。计算器150还可经配置以量化此对时间信息的描述(例如,量化为一个或一个以上表索引)。对于语音编码器132支持松驰CELP(RCELP)编码方案的情况,计算器150可经配置以使激励信号规律化。
图22A展示语音编码器132的实施方案134的框图,所述实施方案134包括时间信息描述计算器150的实施方案152。计算器152经配置以计算对帧的时间信息(例如,激励信号、音调和/或原型信息)的描述,所述描述基于如由频谱包络描述计算器140所计算的对帧的频谱包络的描述。
图22B展示时间信息描述计算器152的实施方案154的框图,所述实施方案154经配置以基于帧的LPC残差而计算对时间信息的描述。在此实例中,计算器154经布置以接收如由频谱包络描述计算器142所计算的对帧的频谱包络的描述。解量化器A10经配置以对描述进行解量化,且逆变换区块A20经配置以对经解量化的描述应用逆变换以便获得LPC系数集合。白化滤波器A30根据LPC系数集合而进行配置且经布置以对语音信号进行滤波以产生LPC残差。量化器A40经配置以量化对帧的时间信息的描述(例如,量化为一个或一个以上表索引),所述描述基于LPC残差且可能还基于所述帧的音调信息和/或来自一个或一个以上过去帧的时间信息。
可能需要使用语音编码器132的实施方案来根据分带编码方案而对宽带语音信号的帧进行编码。在此情况下,频谱包络描述计算器140可经配置以连续和/或并行地且可能根据不同编码模式和/或速率而计算对帧的在相应频带上的频谱包络的各种描述。时间信息描述计算器150还可经配置以连续和/或并行地且可能根据不同编码模式和/或速率而计算对帧的在各个频带上的时间信息的描述。
图23A展示设备100的实施方案102的框图,所述实施方案102经配置以根据分带编码方案而对宽带语音信号进行编码。设备102包括滤波器组A50,其经配置以对语音信号进行滤波来产生含有语音信号的在第一频带上的内容的子带信号(例如,窄带信号)和含有语音信号的在第二频带上的内容的子带信号(例如,高带信号)。此类滤波器组的特定实例在(例如)2007年4月19日公开的题为“用于语音信号滤波的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR SPEECH SIGNALFILTERING)”的第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。举例来说,滤波器组A50可包括经配置以对语音信号进行滤波来产生窄带信号的低通滤波器和经配置以对语音信号进行滤波来产生高带信号的高通滤波器。滤波器组A50还可包括经配置以根据所需的相应抽取因数而降低窄带信号和/或高带信号的取样速率的下变频取样器,如(例如)第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。设备102还可经配置以对至少高带信号执行例如高带突发抑制操作等噪声抑制操作,如2007年4月19日公开的题为“用于高带突发抑制的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR HIGHBAND BURST SUPPRESSION)”的第2007/088541号美国专利申请公开案(沃斯(Vos)等人)中描述。
设备102还包括语音编码器130的实施方案136,其经配置以根据由编码方案选择器120所选择的编码方案而对单独的子带信号进行编码。图23B展示语音编码器136的实施方案138的框图。编码器138包括频谱包络计算器140a(例如,计算器142的实例)和时间信息计算器150a(例如,计算器152或154的实例),其经配置以基于由滤波器组A50产生的窄带信号且根据选定编码方案而分别计算对频谱包络和时间信息的描述。编码器138还包括频谱包络计算器140b(例如,计算器142的实例)和时间信息计算器150b(例如,计算器152或154的实例),其经配置以基于由滤波器组A50产生的高带信号且根据选定编码方案而分别产生计算所得的对频谱包络和时间信息的描述。编码器138还包括格式化器160的实施方案162,其经配置以产生包括计算所得的对频谱包络和时间信息的描述的经编码帧。
如上文所提到的,对宽带语音信号的高带部分的时间信息的描述可基于对所述信号的窄带部分的时间信息的描述。图24A展示宽带语音编码器136的对应实施方案139的框图。如同上文所述的语音编码器138,编码器139包括经布置以计算对频谱包络的相应描述的频谱包络描述计算器140a和140b。语音编码器139还包括时间信息描述计算器152的实例152a(例如,计算器154),其经布置以基于计算所得的对窄带信号的频谱包络的描述而计算对时间信息的描述。语音编码器139还包括时间信息描述计算器150的实施方案156。计算器156经配置以计算对高带信号的时间信息的描述,所述描述基于对窄带信号的时间信息的描述。
图24B展示时间描述计算器156的实施方案158的框图。计算器158包括高带激励信号产生器A60,其经配置以基于如由计算器152a所产生的窄带激励信号而产生高带激励信号。举例来说,产生器A60可经配置以对窄带激励信号(或其一个或一个以上分量)执行例如频谱延伸、谐波延伸、非线性延伸、频谱折叠和/或频谱转译等操作以产生高带激励信号。额外地或替代地,产生器A60可经配置以执行对随机噪声(例如,伪随机高斯噪声信号)的频谱和/或振幅整形以产生高带激励信号。对于产生器A60使用伪随机噪声信号的情况,可能需要使编码器和解码器对此信号的产生同步。此类用于高带激励信号产生的方法和设备在(例如)2007年4月19日公开的题为“用于宽带语音编码的系统、方法和设备(SYSTEMS,METHODS,AND APPARATUS FOR WIDEBANDSPEECH CODING)”的第2007/0088542号美国专利申请公开案(沃斯(Vos)等人)中更详细地描述。在图24B的实例中,产生器A60经布置以接收经量化的窄带激励信号。在另一实例中,产生器A60经布置以接收采用另一形式(例如,采用预量化或经解量化的形式)的窄带激励信号。
计算器158还包括合成滤波器A70,其经配置以产生基于高带激励信号和对高带信号的频谱包络的描述(例如,如由计算器140b所产生)的合成高带信号。通常根据对高带信号的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对滤波器A70进行配置以响应于高带激励信号产生合成高带信号。在图24B的实例中,合成滤波器A70经布置以接收对高带信号的频谱包络的量化描述且可对应地经配置以包括解量化器和(可能地)逆变换区块。在另一实例中,滤波器A70经布置以接收采用另一形式(例如,采用预量化或经解量化的形式)的对高带信号的频谱包络的描述。
计算器158还包括高带增益因数计算器A80,其经配置以基于合成高带信号的时间包络而计算对高带信号的时间包络的描述。计算器A80可经配置以将此描述计算为包括高带信号的时间包络与合成高带信号的时间包络之间的一个或一个以上距离。举例来说,计算器A80可经配置以将此距离计算为增益框架值(例如,计算为所述两个信号的对应帧的能量测量之间的比率,或计算为此比率的平方根)。额外地或替代地,计算器A80可经配置以将许多此类距离计算为增益形状值(例如,计算为所述两个信号的对应子帧的能量测量之间的比率,或计算为此些比率的平方根)。在图24B的实例中,计算器158还包括经配置以量化计算所得的对时间包络的描述(例如,量化为一个或一个以上代码簿索引)的量化器A90。计算器158的元件的各种特征和实施方案在(例如)如上文引用的第2007/0088542号美国专利申请公开案(沃斯(Vos)等人)中描述。
设备100的实施方案的各种元件可体现于被视为适合于所希望应用的硬件、软件和/或固件的任一组合中。举例来说,可将此类元件制造为驻存于(例如)同一芯片上或者芯片集中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且可将这些元件中的任一者实施为一个或一个以上此类阵列。可将这些元件中的任何两者或两者以上或甚至全部实施于相同的一个或多个阵列内。可将此(些)阵列实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片集内)。
还可将如本文所述的设备100的各种实施方案的一个或一个以上元件全部或部分地实施为一个或一个以上指令集合,所述指令集合经布置以在逻辑元件(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))的一个或一个以上固定或可编程阵列上执行。还可将设备100的实施方案的各种元件中的任一者体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或序列的一个或一个以上阵列的机器,还称为“处理器”),且可将这些元件中的任何两者或两者以上或甚至全部实施于相同的此(些)计算机内。
设备100的实施方案的各种元件可包括在用于无线通信的装置(例如蜂窝式电话或具有此通信能力的其它装置)内。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP等一个或一个以上协议)。此装置可经配置以对载运经编码帧的信号执行操作,例如交错、穿孔、卷积编码、误差校正编码、对一个或一个以上网络协议(例如,以太网、TCP/IP、cdma2000)层的编码、射频(RF)调制和/或RF传输。
有可能使设备100的实施方案的一个或一个以上元件用于执行不与设备的操作直接相关的任务或其它指令集合,例如与设备所嵌入其中的装置或系统的另一操作相关的任务。还有可能使设备100的实施方案的一个或一个以上元件具有共同结构(例如,用以在不同时间执行代码的对应于不同元件的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集合或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。在一个此类实例中,将语音活动性检测器110、编码方案选择器120和语音编码器130实施为经布置以在同一处理器上执行的指令集合。在另一此类实例中,将频谱包络描述计算器140a和140b实施为在不同时间执行的同一指令集合。
图25A展示根据通用配置的处理经编码语音信号的方法M200的流程图。方法M200经配置以接收来自两个经编码帧的信息且产生对语音信号的两个对应帧的频谱包络的描述。基于来自第一经编码帧(还称为“参考”经编码帧)的信息,任务T210获得对语音信号的第一帧的在第一和第二频带上的频谱包络的描述。基于来自第二经编码帧的信息,任务T220获得对语音信号的第二帧(还称为“目标”帧)的在第一频带上的频谱包络的描述。基于来自参考经编码帧的信息,任务T230获得对目标帧的在第二频带上的频谱包络的描述。
图26展示方法M200的应用,所述方法M200接收来自两个经编码帧的信息且产生对语音信号的两个对应无效帧的频谱包络的描述。基于来自参考经编码帧的信息,任务T210获得对第一无效帧的在第一和第二频带上的频谱包络的描述。此描述可为在所述两个频带上延伸的单个描述,或者其可包括每一者在所述频带中的相应一者上延伸的单独描述。基于来自第二经编码帧的信息,任务T220获得对目标无效帧的在第一频带上(例如,在窄带范围上)的频谱包络的描述。基于来自参考经编码帧的信息,任务T230获得对目标无效帧的在第二频带上(例如,在高带范围上)的频谱包络的描述。
图26展示对频谱包络的描述具有LPC阶且对目标帧的在第二频带上的频谱包络的描述的LPC阶小于对目标帧的在第一频带上的频谱包络的描述的LPC阶的实例。其它实例包括对目标帧的在第二频带上的频谱包络的描述的LPC阶为对目标帧的在第一频带上的频谱包络的描述的LPC阶的至少百分之五十、至少百分之六十、不超过百分之七十五、不超过百分之八十、与其相等和大于其的情况。在特定实例中,对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶分别为10和6。图26还展示对第一无效帧的在第一和第二频带上的频谱包络的描述的LPC阶等于对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶的总和的实例。在另一实例中,对第一无效帧的在第一和第二频带上的频谱包络的描述的LPC阶可大于或小于对目标帧的在第一和第二频带上的频谱包络的描述的LPC阶的总和。
任务T210和T220中的每一者可经配置以包括以下两个操作中的一者或两者:剖析经编码帧以提取对频谱包络的量化描述;以及解量化对频谱包络的量化描述以获得所述帧的编码模型的参数集合。任务T210和T220的典型实施方案包括这两个操作,使得每一任务处理相应经编码帧来产生采用模型参数集合(例如,一个或一个以上LSF、LSP、ISF、ISP和/或LPC系数向量)的形式的对频谱包络的描述。在一个特定实例中,参考经编码帧具有80个位的长度,且第二经编码帧具有16个位的长度。在其它实例中,第二经编码帧的长度不超过参考经编码帧的长度的百分之二十、二十五、三十、四十、五十或六十。
参考经编码帧可包括对在第一和第二频带上的频谱包络的量化描述,且第二经编码帧可包括对在第一频带上的频谱包络的量化描述。在一个特定实例中,参考经编码帧中所包括的对在第一和第二频带上的频谱包络的量化描述具有40个位的长度,且第二经编码帧中所包括的对在第一频带上的频谱包络的量化描述具有10个位的长度。在其它实例中,第二经编码帧中所包括的对在第一频带上的频谱包络的量化描述的长度不大于参考经编码帧中所包括的对在第一和第二频带上的频谱包络的量化描述的长度的百分之二十五、三十、四十、五十或六十。
任务T210和T220还可经实施以基于来自相应经编码帧的信息而产生对时间信息的描述。举例来说,这些任务中的一者或两者可经配置以基于来自相应经编码帧的信息而获得对时间包络的描述、对激励信号的描述和/或对音调信息的描述。如在获得对频谱包络的描述中,此任务可包括从经编码帧剖析对时间信息的量化描述和/或解量化对时间信息的量化描述。方法M200的实施方案还可经配置以使得任务T210和/或任务T220同样基于来自一个或一个以上其它经编码帧的信息(例如来自一个或一个以上先前经编码帧的信息)而获得对频谱包络的描述和/或对时间信息的描述。举例来说,对帧的激励信号和/或音调信息的描述通常基于来自先前帧的信息。
参考经编码帧可包括对针对第一和第二频带的时间信息的量化描述,且第二经编码帧可包括对针对第一频带的时间信息的量化描述。在一个特定实例中,参考经编码帧中所包括的对针对第一和第二频带的时间信息的量化描述具有34个位的长度,且第二经编码帧中所包括的对针对第一频带的时间信息的量化描述具有5个位的长度。在其它实例中,第二经编码帧中所包括的对针对第一频带的时间信息的量化描述的长度不大于参考经编码帧中所包括的对针对第一和第二频带的时间信息的量化描述的长度的百分之十五、二十、二十五、三十、四十、五十或六十。
方法M200通常经执行为较大语音解码方法的部分,且明确地预期并由此揭示经配置以执行方法M200的语音解码器和语音解码方法。语音编码装置可经配置以在编码器处执行方法M100的实施方案且在解码器处执行方法M200的实施方案。在此情况下,如由任务T120编码的“第二帧”对应于供应由任务T210和T230处理的信息的参考经编码帧,且如由任务T130编码的“第三帧”对应于供应由任务T220处理的信息的经编码帧。图27A使用通过使用方法M100编码且通过使用方法M200解码的一系列连续帧的实例来说明方法M100与M200之间的此关系。或者,语音编码装置可经配置以在编码器处执行方法M300的实施方案且在解码器处执行方法M200的实施方案。图27B使用通过使用方法M300编码且通过使用方法M200解码的一对连续帧的实例来说明方法M300与M200之间的此关系。
然而,请注意,方法M200还可经应用以处理来自并不连续的经编码帧的信息。举例来说,方法M200可经应用以使得任务T220和T230处理来自并不连续的相应经编码帧的信息。方法M200通常经实施以使得任务T230相对于参考经编码帧而迭代,且任务T220在跟随参考经编码帧之后的一系列连续经编码无效帧上迭代,以便产生一系列对应连续目标帧。此迭代可持续进行,(例如)直到接收到新的参考经编码帧为止、直到接收到经编码的有效帧为止和/或直到已产生最大数目的目标帧为止。
任务T220经配置以至少主要地基于来自第二经编码帧的信息而获得对目标帧的在第一频带上的频谱包络的描述。举例来说,任务T220可经配置以完全基于来自第二经编码帧的信息而获得对目标帧的在第一频带上的频谱包络的描述。或者,任务T220可经配置以同样基于其它信息(例如来自一个或一个以上先前经编码帧的信息)而获得对目标帧的在第一频带上的频谱包络的描述。在此情况下,任务T220经配置以使对来自第二经编码帧的信息所加的权数大于对其它信息所加的权数。举例来说,任务T220的此实施方案可经配置以将对目标帧的在第一频带上的频谱包络的描述计算为来自第二经编码帧的信息与来自先前经编码帧的信息的平均值,其中对来自第二经编码帧的信息所加的权数大于对来自先前经编码帧的信息所加的权数。同样地,任务T220可经配置以至少主要地基于来自第二经编码帧的信息而获得对目标帧的针对第一频带的时间信息的描述。
基于来自参考经编码帧的信息(在本文中还称为“参考频谱信息”),任务T230获得对目标帧的在第二频带上的频谱包络的描述。图25B展示方法M200的实施方案M210的流程图,所述实施方案M210包括任务T230的实施方案T232。作为任务T230的实施方案,任务T232基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。在此情况下,参考频谱信息包括于对语音信号的第一帧的频谱包络的描述内。图28展示方法M210的应用,所述方法M210接收来自两个经编码帧的信息且产生对语音信号的两个对应无效帧的频谱包络的描述。
任务T230经配置以至少主要地基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。举例来说,任务T230可经配置以完全基于参考频谱信息而获得对目标帧的在第二频带上的频谱包络的描述。或者,任务T230可经配置以基于(A)基于参考频谱信息的对在第二频带上的频谱包络的描述和(B)基于来自第二经编码帧的信息的对在第二频带上的频谱包络的描述而获得对目标帧的在第二频带上的频谱包络的描述。
在此情况下,任务T230可经配置以使对基于参考频谱信息的描述所加的权数大于对基于来自第二经编码帧的信息的描述所加的权数。举例来说,任务T230的此实施方案可经配置以将对目标帧的在第二频带上的频谱包络的描述计算为基于参考频谱信息与来自第二经编码帧的信息的描述的平均值,其中对基于参考频谱信息的描述所加的权数大于对基于来自第二经编码帧的信息的描述所加的权数。在另一情况下,基于参考频谱信息的描述的LPC阶可大于基于来自第二经编码帧的信息的描述的LPC阶。举例来说,基于来自第二经编码帧的信息的描述的LPC阶可为1(例如,频谱倾斜值)。同样地,任务T230可经配置以至少主要地基于参考时间信息(例如,完全基于参考时间信息,或还较小部分地基于来自第二经编码帧的信息)而获得对目标帧的针对第二频带的时间信息的描述。
任务T210可经实施以从参考经编码帧获得对频谱包络的描述,所述描述是在第一和第二频带两者上的单个全带表示。然而,更为典型的是将任务T210实施成将此描述获得为对在第一频带上与在第二频带上的频谱包络的单独描述。举例来说,任务T210可经配置以从参考经编码帧获得单独描述,所述参考经编码帧已使用如本文所述的分带编码方案(例如,编码方案2)进行编码。
图25C展示方法M210的实施方案M220的流程图,其中将任务T210实施为两个任务T212a和T212b。基于来自参考经编码帧的信息,任务T212a获得对第一帧的在第一频带上的频谱包络的描述。基于来自参考经编码帧的信息,任务T212b获得对第一帧的在第二频带上的频谱包络的描述。任务T212a和T212b中的每一者可包括从相应经编码帧剖析对频谱包络的量化描述和/或解量化对频谱包络的量化描述。图29展示方法M220的应用,所述方法M220接收来自两个经编码帧的信息且产生对语音信号的两个对应无效帧的频谱包络的描述。
方法M220还包括任务T232的实施方案T234。作为任务T230的实施方案,任务T234获得对目标帧的在第二频带上的频谱包络的描述,所述描述基于参考频谱信息。如在任务T232中,参考频谱信息包括于对语音信号的第一帧的频谱包络的描述内。在任务T234的特定情况中,参考频谱信息包括于对第一帧的在第二频带上的频谱包络的描述内(且可能与所述描述相同)。
图29展示对频谱包络的描述具有LPC阶且对第一无效帧的在第一和第二频带上的频谱包络的描述的LPC阶等于对目标无效帧的在相应频带上的频谱包络的描述的LPC阶的实例。其它实例包括对第一无效帧的在第一和第二频带上的频谱包络的描述中的一者或两者大于对目标无效帧的在相应频带上的频谱包络的对应描述的情况。
参考经编码帧可包括对在第一频带上的频谱包络的描述的量化描述和对在第二频带上的频谱包络的描述的量化描述。在一个特定实例中,参考经编码帧中所包括的对在第一频带上的频谱包络的描述的量化描述具有28个位的长度,且参考经编码帧中所包括的对在第二频带上的频谱包络的描述的量化描述具有12个位的长度。在其它实例中,参考经编码帧中所包括的对在第二频带上的频谱包络的描述的量化描述的长度不大于参考经编码帧中所包括的对在第一频带上的频谱包络的描述的量化描述的长度的百分之四十五、五十、六十或七十。
参考经编码帧可包括对针对第一频带的时间信息的描述的量化描述和对针对第二频带的时间信息的描述的量化描述。在一个特定实例中,参考经编码帧中所包括的对针对第二频带的时间信息的描述的量化描述具有15个位的长度,且参考经编码帧中所包括的对针对第一频带的时间信息的描述的量化描述具有19个位的长度。在其它实例中,参考经编码帧中所包括的对针对第二频带的时间信息的量化描述的长度不大于参考经编码帧中所包括的对针对第一频带的时间信息的描述的量化描述的长度的百分之八十或九十。
第二经编码帧可包括对在第一频带上的频谱包络的量化描述和/或对针对第一频带的时间信息的量化描述。在一个特定实例中,第二经编码帧中所包括的对在第一频带上的频谱包络的描述的量化描述具有10个位的长度。在其它实例中,第二经编码帧中所包括的对在第一频带上的频谱包络的描述的量化描述的长度不大于参考经编码帧中所包括的对在第一频带上的频谱包络的描述的量化描述的长度的百分之四十、五十、六十、七十或七十五。在一个特定实例中,第二经编码帧中所包括的对针对第一频带的时间信息的描述的量化描述具有5个位的长度。在其它实例中,第二经编码帧中所包括的对针对第一频带的时间信息的描述的量化描述的长度不大于参考经编码帧中所包括的对针对第一频带的时间信息的描述的量化描述的长度的百分之三十、四十、五十、六十或七十。
在方法M200的典型实施方案中,参考频谱信息是对在第二频带上的频谱包络的描述。此描述可包括模型参数集合,例如一个或一个以上LSP、LSF、ISP、ISF或LPC系数向量。一般来说,此描述是如通过任务T210从参考经编码帧获得的对第一无效帧的在第二频带上的频谱包络的描述。还有可能使参考频谱信息包括对(例如,第一无效帧的)在第一频带上和/或在另一频带上的频谱包络的描述。
任务T230通常包括从例如半导体存储器(在本文中还称为“缓冲器”)等存储元件的阵列中检索参考频谱信息的操作。对于参考频谱信息包括对在第二频带上的频谱包络的描述的情况,检索参考频谱信息的动作可足以完成任务T230。然而,即使对于此情况,仍可能需要将任务T230配置为计算对目标帧的在第二频带上的频谱包络的描述(在本文中还称为“目标频谱描述”)而非简单地对其加以检索。举例来说,任务T230可经配置以通过向参考频谱信息添加随机噪声而计算目标频谱描述。替代地或额外地,任务T230可经配置以基于来自一个或一个以上额外经编码帧的频谱信息(例如,基于来自一个以上参考经编码帧的信息)而计算所述描述。举例来说,任务T230可经配置以将目标频谱描述计算为来自两个或两个以上参考经编码帧的对在第二频带上的频谱包络的描述的平均值,且此计算可包括向计算所得的平均值添加随机噪声。
任务T230可经配置以通过在时间上从参考频谱信息外推或通过在时间上在来自两个或两个以上参考经编码帧的对在第二频带上的频谱包络的描述之间内插而计算目标频谱描述。替代地或额外地,任务T230可经配置以通过在频率上从对目标帧的在另一频带上(例如,在第一频带上)的频谱包络的描述外推和/或通过在频率上在对在其它频带上的频谱包络的描述之间内插而计算目标频谱描述。
通常,参考频谱信息和目标频谱描述是频谱参数值的向量(或“频谱向量”)。在一个此类实例中,目标和参考频谱向量两者均为LSP向量。在另一实例中,目标和参考频谱向量两者均为LPC系数向量。在又一实例中,目标和参考频谱向量两者均为反射系数向量。任务T230可经配置以根据例如
Figure BDA00001952295800341
的表达式而从参考频谱信息复制目标频谱描述,其中st为目标频谱向量,sr为参考频谱向量(其值通常在-1到+1的范围内),i为向量元素索引,且n为向量st的长度。在此操作的变化型式中,任务T230经配置以向参考频谱向量应用加权因数(或加权因数的向量)。在此操作的另一变化型式中,任务T230经配置以通过根据例如
Figure BDA00001952295800351
的表达式向参考频谱向量添加随机噪声而计算目标频谱向量,其中z为随机值的向量。在此情况下,z的每一元素可为随机变量,其值分布(例如,均匀地)在所需范围上。
可能需要确保目标频谱描述的值受到约束(例如,在-1到+1的范围内)。在此情况下,任务T230可经配置以根据例如
Figure BDA00001952295800352
的表达式而计算目标频谱描述,其中w具有在0与1之间的值(例如,在0.3到0.9的范围内)且z的每一元素的值分布(例如,均匀地)在从-(1-w)到+(1-w)的范围上。
在另一实例中,任务T230经配置以基于来自一个以上参考经编码帧中的每一者(例如,来自两个最新近的参考经编码帧中的每一者)的对在第二频带上的频谱包络的描述而计算目标频谱描述。在一个此类实例中,任务T230经配置以根据例如
Figure BDA00001952295800354
的表达式而将目标频谱描述计算为来自参考经编码帧的信息的平均值,其中sr1表示来自最新近的参考经编码帧的频谱向量,且sr2表示来自下一最接近的参考经编码帧的频谱向量。在相关实例中,对参考向量进行彼此不同的加权(例如,可对来自较新近的参考经编码帧的向量加以较重的权数)。
在又一实例中,任务T230经配置以基于来自两个或两个以上参考经编码帧的信息而将目标频谱描述产生为在一范围上的一组随机值。举例来说,任务T230可经配置以根据例如下式的表达式而将目标频谱向量st计算为来自两个最新近的参考经编码帧中的每一者的频谱向量的随机平均值
s ti = ( s r 1 i + s r 2 i 2 ) + z i ( s r 1 i - s r 2 i 2 ) ∀ i ∈ { 1,2 , . . . , n } ,
其中z的每一元素的值分布(例如,均匀地)在-1到+1的范围上。图30A说明针对一系列连续目标帧中的每一者而迭代任务T230的此实施方案的结果(对于n个值中的为i的一者),其中针对每一迭代对随机向量z进行重新评估,其中开圆指示值sti
任务T230可经配置以通过在来自两个最新近参考帧的对在第二频带上的频谱包络的描述之间内插而计算目标频谱描述。举例来说,任务T230可经配置以在一系列p个目标帧上执行线性内插,其中p为可调参数。在此情况下,任务T230可经配置以根据例如下式的表达式而计算所述系列中的第j个目标帧的目标频谱向量 s ti = αs r 1 i + ( 1 - α ) s r 2 i ∀ i ∈ { 1,2 , . . . , n } , 其中 α = j - 1 p - 1 且1≤j≤p。
图30B说明(对于n个值中的为i的一者)在一系列连续目标帧上迭代任务T230的此实施方案的结果,其中p等于8且每一开圆指示对应目标帧的值sti。p的值的其它实例包括4、16和32。可能需要将任务T230的此实施方案配置为向经内插的描述添加随机噪声。
图30B还展示任务T230经配置以针对长于p的系列中的每一后续目标帧而将参考向量sr1复制到目标向量st(例如,直到接收到新的参考经编码帧或下一有效帧为止)的实例。在相关实例中,目标帧系列具有长度mp,其中m为大于1的整数(例如,2或3),且p个计算所得的向量中的每一者被用作所述系列中的m个对应连续目标帧中的每一者的目标频谱描述。
可以许多不同方式实施任务T230以在来自两个最新近参考帧的对在第二频带上的频谱包络的描述之间执行内插。在另一实例中,任务T230经配置以通过根据例如下式的一对表达式而计算一系列p个目标帧中的第j个目标帧的目标向量来在所述系列上执行线性内插
sti=α1sr1i+(1-α1)sr2i,其中
Figure BDA00001952295800363
对于所有整数j,使得0<j≤q,以及
sti=(1-α2)sr1i2sr2i,其中
Figure BDA00001952295800364
对于所有整数j,使得q<j≤p。图30C说明针对一系列连续目标帧中的每一者迭代任务T230的此实施方案的结果(对于n个值中的为i的一者),其中q具有值4且p具有值8。与图30B所示的结果相比,此配置可提供向第一目标帧的更为平滑的过渡。
可针对q和p的任何正整数值以类似方式实施任务T230;可使用的(q,p)的值的特定实例包括(4,8)、(4,12)、(4,16)、(8,16)、(8,24)、(8,32)和(16,32)。在如上文所述的相关实例中,将p个计算所得的向量中的每一者用作对于mp个目标帧的系列中的m个对应连续目标帧中的每一者的目标频谱描述。可能需要将任务T230的此实施方案配置为向经内插的描述添加随机噪声。图30C还展示任务T230经配置以针对长于p的系列中的每一后续目标帧将参考向量sr1复制到目标向量st(例如,直到接收到新的参考经编码帧或下一有效帧为止)的实例。
任务T230还可经实施以除参考频谱信息以外还基于一个或一个以上帧的在另一频带上的频谱包络而计算目标频谱描述。举例来说,任务T230的此实施方案可经配置以通过在频率上从当前帧和/或一个或一个以上先前帧的在另一频带(例如,第一频带)上的频谱包络外推而计算目标频谱描述。
任务T230还可经配置以基于来自参考经编码帧的信息(在本文中还称为“参考时间信息”)而获得对目标无效帧的在第二频带上的时间信息的描述。参考时间信息通常是对在第二频带上的时间信息的描述。此描述可包括一个或一个以上增益框架值、增益轮廓值、音调参数值和/或代码簿索引。一般来说,此描述是如通过任务T210从参考经编码帧获得的对第一无效帧的在第二频带上的时间信息的描述。还有可能使参考时间信息包括对(例如,第一无效帧的)在第一频带上和/或在另一频带上的时间信息的描述。
任务T230可经配置以通过复制参考时间信息而获得对目标帧的在第二频带上的时间信息的描述(在本文中还称为“目标时间描述”)。或者,可能需要将任务T230配置为通过基于参考时间信息计算目标时间描述而获得所述目标时间描述。举例来说,任务T230可经配置以通过向参考时间信息添加随机噪声而计算目标时间描述。任务T230还可经配置以基于来自一个以上参考经编码帧的信息而计算目标时间描述。举例来说,任务T230可经配置以将目标时间描述计算为来自两个或两个以上参考经编码帧的对在第二频带上的时间信息的描述的平均值,且此计算可包括向计算所得的平均值添加随机噪声。
目标时间描述和参考时间信息每一者可包括对时间包络的描述。如上文所提到的,对时间包络的描述可包括增益框架值和/或一组增益形状值。替代地或额外地,目标时间描述和参考时间信息每一者可包括对激励信号的描述。对激励信号的描述可包括对音调分量的描述(例如,音调滞后、音调增益和/或对原型的描述)。
任务T230通常经配置以将目标时间描述的增益形状设定为平坦的。举例来说,任务T230可经配置以将目标时间描述的增益形状值设定为彼此相等。任务T230的一个此类实施方案经配置以将所有增益形状值设定为因数1(例如,0dB)。任务T230的另一此类实施方案经配置以将所有增益形状值设定为因数1/n,其中n为目标时间描述中的增益形状值的数目。
任务T230可经迭代以针对一系列目标帧中的每一者计算目标时间描述。举例来说,任务T230可经配置以基于来自最新近参考经编码帧的增益框架值而针对一系列连续目标帧中的每一者计算增益框架值。在此些情况下,可能需要将任务T230配置为向每一目标帧的增益框架值添加随机噪声(或者,向所述系列中的在第一者之后的每一目标帧的增益框架值添加随机噪声),因为所述系列的时间包络否则可能会被感知为不自然地平滑。任务T230的此实施方案可经配置以根据例如gt=zgr或gt=wgr+(1-w)z的表达式而针对所述系列中的每一目标帧计算增益框架值gt,其中gr是来自参考经编码帧的增益框架值,z是针对所述系列的目标帧中的每一者而重新评估的随机值,且w是加权因数。z的值的典型范围包括0到1和-1到+1。w的值的典型范围包括0.5(或0.6)到0.9(或1.0)。
任务T230可经配置以基于来自两个或三个最新近参考经编码帧的增益框架值而计算目标帧的增益框架值。在一个此类实例中,任务T230经配置以根据例如
Figure BDA00001952295800381
的表达式而将目标帧的增益框架值计算为平均值,其中gr1是来自最新近参考经编码帧的增益框架值且gr2是来自下一最新近参考经编码帧的增益框架值。在相关实例中,对参考增益框架值进行彼此不同的加权(例如,可对较新近的值加以较重的权数)。可能需要将任务T230实施为基于此平均值而针对一系列目标帧中的每一者计算增益框架值。举例来说,任务T230的此实施方案可经配置以通过向计算所得的平均增益框架值添加不同随机噪声值而针对所述系列中的每一目标帧(或者,针对所述系列中的在第一者之后的每一目标帧)计算增益框架值。
在另一实例中,任务T230经配置以将目标帧的增益框架值计算为来自连续参考经编码帧的增益框架值的移动平均值。任务T230的此实施方案可经配置以根据例如gcur=αgprev+(1-α)gr的自回归(AR)表达式而将目标增益框架值计算为移动平均增益框架值的当前值,其中gcur和gprev分别为移动平均值的当前值和先前值。对于平滑因数α,可能需要使用0.5或0.75与1之间的值,例如零点八(0.8)或零点九(0.9)。可能需要将任务T230实施为基于此移动平均值而针对一系列目标帧中的每一者计算值gt。举例来说,任务T230的此实施方案可经配置以通过向移动平均增益框架值gcur添加不同随机噪声值而针对所述系列中的每一目标帧(或者,针对所述系列中的在第一者之后的每一目标帧)计算值gt
在又一实例中,任务T230经配置以向来自参考时间信息的贡献应用衰减因数。举例来说,任务T230可经配置以根据例如gcur=αgprev+(1-α)βgr的表达式而计算移动平均增益框架值,其中衰减因数β为可调参数,其具有小于1的值,例如在0.5到0.9的范围内的值(例如,零点六(0.6))。可能需要将任务T230实施为基于此移动平均值而针对一系列目标帧中的每一者计算值gt。举例来说,任务T230的此实施方案可经配置以通过向移动平均增益框架值gcur添加不同随机噪声值而针对所述系列中的每一目标帧(或者,针对所述系列中的在第一者之后的每一目标帧)计算值gt
可能需要迭代任务T230以针对一系列目标帧中的每一者计算目标频谱和时间描述。在此情况下,任务T230可经配置为以不同速率更新目标频谱和时间描述。举例来说,任务T230的此实施方案可经配置以针对每一目标帧计算不同目标频谱描述,但针对一个以上连续目标帧使用相同目标时间描述。
方法M200的实施方案(包括方法M210和M220)通常经配置为包括将参考频谱信息存储到缓冲器的操作。方法M200的此实施方案还可包括将参考时间信息存储到缓冲器的操作。或者,方法M200的此实施方案可包括将参考频谱信息和参考时间信息两者存储到缓冲器的操作。
方法M200的不同实施方案可在决定是否将基于经编码帧的信息存储为参考频谱信息的过程中使用不同标准。存储参考频谱信息的决定通常基于经编码帧的编码方案且还可基于一个或一个以上先前和/或后续经编码帧的编码方案。方法M200的此实施方案可经配置以在决定是否存储参考时间信息的过程中使用相同或不同标准。
可能需要实施方法M200以使得所存储的参考频谱信息可同时用于一个以上参考经编码帧。举例来说,任务T230可经配置以计算基于来自一个以上参考帧的信息的目标频谱描述。在此些情况下,方法M200可经配置以在任一时刻将来自最新近的参考经编码帧的参考频谱信息、来自第二最新近的参考经编码帧的信息以及(可能地)来自一个或一个以上较不新近的参考经编码帧的信息维持在存储装置中。此方法还可经配置以对于参考时间信息维持相同历史或不同历史。举例来说,方法M200可经配置以保持来自两个最新近的参考经编码帧中的每一者的对频谱包络的描述和仅来自最新近的参考经编码帧的对时间信息的描述。
如上文所提到的,经编码帧中的每一者可包括编码索引,其识别对帧进行编码所根据的编码方案或者编码速率或模式。或者,语音解码器可经配置以从经编码帧确定编码索引的至少一部分。举例来说,语音解码器可经配置以从例如帧能量等一个或一个以上参数确定经编码帧的位速率。类似地,对于针对特定编码速率支持一种以上编码模式的编码装置,语音解码器可经配置以从经编码帧的格式确定适当的编码模式。
并非经编码语音信号中的所有经编码帧均将有资格成为参考经编码帧。举例来说,不包括对在第二频带上的频谱包络的描述的经编码帧通常将不适于用作参考经编码帧。在一些应用中,可能需要将含有对在第二频带上的频谱包络的描述的任何经编码帧视为参考经编码帧。
方法M200的对应实施方案可经配置以在当前经编码帧含有对在第二频带上的频谱包络的描述的情况下将基于所述帧的信息存储为参考频谱信息。举例来说,在如图18所示的一组编码方案的情形中,方法M200的此实施方案可经配置以在帧的编码索引指示编码方案1和2中的任一者(即,并非编码方案3)的情况下存储参考频谱信息。更一般来说,方法M200的此实施方案可经配置以在帧的编码索引指示宽带编码方案而非窄带编码方案的情况下存储参考频谱信息。
可能需要将方法M200实施为仅对于无效的目标帧获得目标频谱描述(即,执行任务T230)。在此些情况下,可能需要参考频谱信息仅基于经编码的无效帧且不基于经编码的有效帧。虽然有效帧包括背景噪声,但基于经编码的有效帧的参考频谱信息还将有可能包括与可能会破坏目标频谱描述的语音分量相关的信息。
方法M200的此实施方案可经配置以在当前经编码帧的编码索引指示特定编码模式(例如,NELP)的情况下将基于所述帧的信息存储为参考频谱信息。方法M200的其它实施方案经配置以在当前经编码帧的编码索引指示特定编码速率(例如,半速率)的情况下将基于所述帧的信息存储为参考频谱信息。方法M200的其它实施方案经配置以根据以下标准的组合而将基于当前经编码帧的信息存储为参考频谱信息:例如,如果帧的编码索引指示所述帧含有对在第二频带上的频谱包络的描述且还指示特定编码模式和/或速率。方法M200的其它实施方案经配置以在当前经编码帧的编码索引指示特定编码方案(例如,在根据图18的实例中为编码方案2,或在另一实例中为经保留用于无效帧的宽带编码方案)的情况下将基于所述帧的信息存储为参考频谱信息。
可能不能够单独从帧的编码索引中确定其是有效的还是无效的。举例来说,在图18所示的所述组编码方案中,编码方案2用于有效和无效帧两者。在此情况下,一个或一个以上后续帧的编码索引可有助于指示经编码帧是否为无效的。举例来说,以上描述揭示了数种语音编码方法,其中使用编码方案2进行编码的帧在随后帧使用编码方案3进行编码的情况下为无效的。方法M200的对应实施方案可经配置以在当前经编码帧的编码索引指示编码方案2且下一经编码帧的编码索引指示编码方案3的情况下将基于当前经编码帧的信息存储为参考频谱信息。在相关实例中,方法M200的实施方案经配置以在一经编码帧以半速率进行编码且下一帧以八分之一速率进行编码的情况下将基于所述经编码帧的信息存储为参考频谱信息。
对于其中将基于经编码帧的信息存储为参考频谱信息的决定依据来自后续经编码帧的信息的情况,方法M200可经配置以分两部分执行存储参考频谱信息的操作。存储操作的第一部分临时地存储基于经编码帧的信息。方法M200的此实施方案可经配置以临时地存储所有帧或满足某一预定标准的所有帧(例如,具有特定编码速率、模式或方案的所有帧)的信息。此标准的三个不同实例为(1)其编码索引指示NELP编码模式的帧,(2)其编码索引指示半速率的帧,以及(3)其编码索引指示编码方案2的帧(例如,在根据图18的一组编码方案的应用中)。
存储操作的第二部分在预定条件得到满足的情况下将经临时存储的信息存储为参考频谱信息。方法M200的此实施方案可经配置以推迟操作的此部分,直到接收到一个或一个以上后续帧为止(例如,直到已知下一经编码帧的编码模式、速率或方案为止)。此条件的三个不同实例为(1)下一经编码帧的编码索引指示八分之一速率,(2)下一经编码帧的编码索引指示仅用于无效帧的编码模式,以及(3)下一经编码帧的编码索引指示编码方案3(例如,在根据图18的一组编码方案的应用中)。如果存储操作的第二部分的条件未得到满足,那么可丢弃或覆写经临时存储的信息。
可根据若干不同配置中的任一者来实施用以存储参考频谱信息的两部分操作的第二部分。在一个实例中,存储操作的第二部分经配置以改变与保持经临时存储的信息的存储位置相关联的旗标的状态(例如,从指示“临时”的状态改变为指示“参考”的状态)。在另一实例中,存储操作的第二部分经配置以将经临时存储的信息转移到经保留用于存储参考频谱信息的缓冲器。在又一实例中,存储操作的第二部分经配置以对到保持经临时存储的参考频谱信息的缓冲器(例如,环形缓冲器)的一个或一个以上指针进行更新。在此情况下,所述指针可包括指示来自最新近参考经编码帧的参考频谱信息的位置的读取指针和/或指示待存储经临时存储的信息的位置的写入指针。
图31展示经配置以执行方法M200的实施方案的语音解码器的状态图的对应部分,其中使用随后经编码帧的编码方案来确定是否将基于经编码帧的信息存储为参考频谱信息。在此图中,路径标签指示与当前帧的编码方案相关联的帧类型,其中A指示仅用于有效帧的编码方案,I指示仅用于无效帧的编码方案,且M(代表“混合”)指示用于有效帧且用于无效帧的编码方案。举例来说,此解码器可包括在使用如图18所示的一组编码方案的编码系统中,其中方案1、2和3分别对应于路径标签A、M和I。如图31所示,对于具有指示“混合”编码方案的编码索引的所有经编码帧临时地存储信息。如果下一帧的编码索引指示所述帧为无效的,那么完成将经临时存储的信息存储为参考频谱信息。否则,可丢弃或覆写经临时存储的信息。
明确地注意到,与对参考频谱信息的选择性存储和临时存储相关的之前论述以及图31的随附状态图还可应用于经配置以存储参考时间信息的方法M200的实施方案中的参考时间信息存储。
在方法M200的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一者或一者以上(可能全部)还可经实施为代码(例如,一个或一个以上指令集合),其在可由包括逻辑元件(例如,处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如,计算机)读取和/或执行的计算机程序产品(例如,例如盘、快闪或其它非易失性存储卡、半导体存储器芯片等一个或一个以上数据存储媒体)中体现。方法M200的实施方案的任务还可由一个以上此类阵列或机器来执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置(例如蜂窝式电话或具有此通信能力的其它装置)内执行。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP等一个或一个以上协议)。举例来说,此装置可包括经配置以接收经编码帧的RF电路。
图32A展示根据通用配置的用于处理经编码语音信号的设备200的框图。举例来说,设备200可经配置以执行包括如本文所述的方法M200的实施方案的语音解码方法。设备200包括经配置以产生具有值序列的控制信号的控制逻辑210。设备200还包括语音解码器220,其经配置以基于控制信号的值且基于经编码语音信号的对应经编码帧而计算语音信号的经解码帧。
包括设备200的通信装置(例如蜂窝式电话)可经配置以从有线、无线或光传输信道接收经编码的语音信号。此装置可经配置以对经编码的语音信号执行预处理操作,例如对误差校正和/或冗余代码的解码。此装置还可包括设备100和设备200两者的实施方案(例如,在收发器中)。
控制逻辑210经配置以产生包括值序列的控制信号,所述值序列基于经编码语音信号的经编码帧的编码索引。所述序列中的每一值对应于经编码语音信号的经编码帧(除了在如下文所论述的经擦除帧的情况下)且具有多个状态中的一者。在如下文所述的设备200的一些实施方案中,所述序列为二进制值的(即,高位值与低位值的序列)。在如下文所述的设备200的其它实施方案中,所述序列的值可具有两个以上状态。
控制逻辑210可经配置以确定每一经编码帧的编码索引。举例来说,控制逻辑210可经配置以从经编码帧读取编码索引的至少一部分,从一个或一个以上参数(例如帧能量)确定经编码帧的位速率,且/或从经编码帧的格式确定适当的编码模式。或者,设备200可经实施为包括经配置以确定每一经编码帧的编码索引且将其提供到控制逻辑210的另一元件,或者设备200可经配置以从包括设备200的装置的另一模块接收编码索引。
将未如预期接收或经接收为具有过多需恢复的误差的经编码帧称为帧擦除。设备200可经配置以使得编码索引的一个或一个以上状态用以指示帧擦除或部分帧擦除,例如经编码帧的载运针对第二频带的频谱和时间信息的部分的缺少。举例来说,设备200可经配置以使得已通过使用编码方案2而编码的经编码帧的编码索引指示所述帧的高带部分的擦除。
语音解码器220经配置以基于控制信号的值和经编码语音信号的对应经编码帧而计算经解码帧。当控制信号的值具有第一状态时,解码器220基于对在第一和第二频带上的频谱包络的描述而计算经解码帧,其中所述描述基于来自对应经编码帧的信息。当控制信号的值具有第二状态时,解码器220检索对在第二频带上的频谱包络的描述,并基于所检索的描述且基于对在第一频带上的频谱包络的描述而计算经解码帧,其中对在第一频带上的描述基于来自对应经编码帧的信息。
图32B展示设备200的实施方案202的框图。设备202包括语音解码器220的实施方案222,其包括第一模块230和第二模块240。模块230和240经配置以计算经解码帧的相应子带部分。具体地说,第一模块230经配置以计算帧的在第一频带上的经解码部分(例如,窄带信号),且第二模块240经配置以基于控制信号的值而计算帧的在第二频带上的经解码部分(例如,高带信号)。
图32C展示设备200的实施方案204的框图。剖析器250经配置以剖析经编码帧的位以便向控制逻辑210提供编码索引且向语音解码器220提供至少一个对频谱包络的描述。在此实例中,设备204也是设备202的实施方案,使得剖析器250经配置以向模块230和240提供对在相应频带(在可用时)上的频谱包络的描述。剖析器250还可经配置以向语音解码器220提供至少一个对时间信息的描述。举例来说,剖析器250可经实施以向模块230和240提供对针对相应频带(在可用时)的时间信息的描述。
设备204还包括滤波器组260,其经配置以组合帧的在第一和第二频带上的经解码部分来产生宽带语音信号。此类滤波器组的特定实例在(例如)2007年4月19日公开的题为“用于语音信号滤波的系统、方法和设备(SYSTEMS,METHODS,ANDAPPARATUS FOR SPEECH SIGNAL FILTERING)”的第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。举例来说,滤波器组260可包括经配置以对窄带信号进行滤波来产生第一通带信号的低通滤波器和经配置以对高带信号进行滤波来产生第二通带信号的高通滤波器。滤波器组260还可包括经配置以根据所需的对应内插因数而提高窄带信号和/或高带信号的取样速率的上变频取样器,如(例如)第2007/088558号美国专利申请公开案(沃斯(Vos)等人)中描述。
图33A展示第一模块230的实施方案232的框图,所述实施方案232包括频谱包络描述解码器270的实例270a和时间信息描述解码器280的实例280a。频谱包络描述解码器270a经配置以解码对在第一频带上的频谱包络的描述(例如,如从剖析器250所接收)。时间信息描述解码器280a经配置以解码对针对第一频带的时间信息的描述(例如,如从剖析器250所接收)。举例来说,时间信息描述解码器280a可经配置以对针对第一频带的激励信号进行解码。合成滤波器290的实例290a经配置以产生帧的在第一频带上的经解码部分(例如,窄带信号),其基于对频谱包络和时间信息的经解码描述。举例来说,可根据对在第一频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290a进行配置以响应于针对第一频带的激励信号而产生经解码部分。
图33B展示频谱包络描述解码器270的实施方案272的框图。解量化器310经配置以对描述进行解量化,且逆变换区块320经配置以对经解量化的描述应用逆变换以便获得一组LPC系数。时间信息描述解码器280通常还经配置为包括解量化器。
图34A展示第二模块240的实施方案242的框图。第二模块242包括频谱包络描述解码器270的实例270b、缓冲器300和选择器340。频谱包络描述解码器270b经配置以解码对在第二频带上的频谱包络的描述(例如,如从剖析器250所接收)。缓冲器300经配置以将一个或一个以上对在第二频带上的频谱包络的描述存储为参考频谱信息,且选择器340经配置以根据由控制逻辑210产生的控制信号的对应值的状态而选择来自(A)缓冲器300或(B)解码器270b的对频谱包络的经解码描述。
第二模块242还包括高带激励信号产生器330和合成滤波器290的实例290b,所述实例290b经配置以基于经由选择器340接收的对频谱包络的经解码描述而产生所述帧的在第二频带上的经解码部分(例如,高带信号)。高带激励信号产生器330经配置以基于针对第一频带的激励信号(例如,如由时间信息描述解码器280a所产生)而产生针对第二频带的激励信号。额外地或替代地,产生器330可经配置以执行对随机噪声的频谱和/或振幅整形以产生高带激励信号。产生器330可经实施为如上文所述的高带激励信号产生器A60的实例。根据对在第二频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290b进行配置以响应于高带激励信号而产生所述帧的在第二频带上的经解码部分。
在设备202的包括第二模块240的实施方案242的实施方案的一个实例中,控制逻辑210经配置以向选择器340输出二进制信号,使得序列中的每一值均具有状态A或状态B。在此情况下,如果当前帧的编码索引指示其为无效的,那么控制逻辑210产生具有状态A的值,其致使选择器340选择缓冲器300的输出(即,选择A)。否则,控制逻辑210产生具有状态B的值,其致使选择器340选择解码器270b的输出(即,选择B)。
设备202可经布置以使得控制逻辑210控制缓冲器300的操作。举例来说,缓冲器300可经布置以使得控制信号的具有状态B的值致使缓冲器300存储解码器270b的对应输出。此控制可通过向缓冲器300的写入启用输入端施加控制信号来实施,其中所述输入端经配置以使得状态B对应于其有效状态。或者,控制逻辑210可经实施以产生也包括值序列的第二控制信号来控制缓冲器300的操作,所述值序列基于经编码语音信号的经编码帧的编码索引。
图34B展示第二模块240的实施方案244的框图。第二模块244包括频谱包络描述解码器270b和时间信息描述解码器280的实例280b,所述实例280b经配置以解码对针对第二频带的时间信息的描述(例如,如从剖析器250所接收)。第二模块244还包括缓冲器300的实施方案302,其也经配置以将一个或一个以上对在第二频带上的时间信息的描述存储为参考时间信息。
第二模块244包括选择器340的实施方案342,其经配置以根据由控制逻辑210产生的控制信号的对应值的状态而选择来自(A)缓冲器302或(B)解码器270b、280b的对频谱包络的经解码描述和对时间信息的经解码描述。合成滤波器290的实例290b经配置以产生帧的在第二频带上的经解码部分(例如,高带信号),其基于经由选择器342接收的对频谱包络和时间信息的经解码描述。在包括第二模块244的设备202的典型实施方案中,对时间信息描述解码器280b进行配置以产生对时间信息的经解码描述,所述描述包括针对第二频带的激励信号,且根据对在第二频带上的频谱包络的描述内的一组值(例如,一个或一个以上LSP或LPC系数向量)而对合成滤波器290b进行配置以响应于激励信号而产生帧的在第二频带上的经解码部分。
图34C展示包括缓冲器302和选择器342的第二模块242的实施方案246的框图。第二模块246还包括:时间信息描述解码器280的实例280c,其经配置以解码对针对第二频带的时间包络的描述;以及增益控制元件350(例如,乘法器或放大器),其经配置以向帧的在第二频带上的经解码部分应用经由选择器342接收的对时间包络的描述。对于对时间包络的经解码描述包括增益形状值的情况,增益控制元件350可包括经配置以向经解码部分的相应子帧应用增益形状值的逻辑。
图34A到34C展示第二模块240的实施方案,其中缓冲器300接收对频谱包络(和(在一些情况下)时间信息)的经完全解码的描述。类似实施方案可经布置以使得缓冲器300接收未经完全解码的描述。举例来说,可能需要通过以量化形式存储描述(例如,如从剖析器250所接收)而减小存储空间需求。在此些情况下,从缓冲器300到选择器340的信号路径可经配置以包括例如解量化器和/或逆变换区块等解码逻辑。
图35A展示控制逻辑210的实施方案可经配置以根据其操作的状态图。在此图中,路径标签指示与当前帧的编码方案相关联的帧类型,其中A指示仅用于有效帧的编码方案,I指示仅用于无效帧的编码方案,且M(代表“混合”)指示用于有效帧且用于无效帧的编码方案。举例来说,此解码器可包括在使用如图18所示的一组编码方案的编码系统中,其中方案1、2和3分别对应于路径标签A、M和I。图35A中的状态标签指示控制信号的对应值的状态。
如上文所提到的,设备202可经布置以使得控制逻辑210控制缓冲器300的操作。对于设备202经配置以分两部分执行存储参考频谱信息的操作的情况,控制逻辑210可经配置以控制缓冲器300来执行三个不同任务中的选定一者:(1)临时地存储基于经编码帧的信息;(2)完成将经临时存储的信息存储为参考频谱和/或时间信息;以及(3)输出所存储的参考频谱和/或时间信息。
在一个此类实例中,控制逻辑210经实施以产生控制选择器340和缓冲器300的操作的控制信号,其值具有至少四个可能状态,每一者对应于图35A所示的图的相应状态。在另一此类实例中,控制逻辑210经实施以产生:(1)用以控制选择器340的操作的控制信号,其值具有至少两个可能状态;以及(2)用以控制缓冲器300的操作的第二控制信号,其包括基于经编码语音信号的经编码帧的编码索引的值序列且其值具有至少三个可能状态。
可能需要对缓冲器300进行配置以使得在对一帧(针对其而选择完成对经临时存储的信息的存储的操作)的处理期间,经临时存储的信息还可供选择器340进行选择。在此情况下,控制逻辑210可经配置以在略微不同的时间处输出信号的当前值来控制选择器340和缓冲器300。举例来说,控制逻辑210可经配置以控制缓冲器300在帧周期中足够早地移动读取指针,使得缓冲器300及时地输出经临时存储的信息以供选择器340进行选择。
如上文参看图13B所提到的,有时可能需要执行方法M100的实施方案的语音编码器使用较高位速率来对由其它无效帧环绕的无效帧进行编码。在此情况下,可能需要对应的语音解码器将基于所述经编码帧的信息存储为参考频谱和/或时间信息,使得所述信息可用于对系列中的将来无效帧进行解码。
设备200的实施方案的各种元件可体现于被视为适合于所希望应用的硬件、软件和/或固件的任一组合中。举例来说,可将此类元件制造为驻存于(例如)同一芯片上或者芯片集中的两个或两个以上芯片间的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且可将这些元件中的任一者实施为一个或一个以上此类阵列。可将这些元件中的任何两者或两者以上或甚至全部实施于相同的一个或多个阵列内。可将此(些)阵列实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片集内)。
还可将如本文所述的设备200的各种实施方案的一个或一个以上元件全部或部分地实施为一个或一个以上指令集合,所述指令集合经布置以在逻辑元件(例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路))的一个或一个以上固定或可编程阵列上执行。还可将设备200的实施方案的各种元件中的任一者体现为一个或一个以上计算机(例如,包括经编程以执行一个或一个以上指令集合或序列的一个或一个以上阵列的机器,还称为“处理器”),且可将这些元件中的任何两者或两者以上或甚至全部实施于相同的此(些)计算机内。
设备200的实施方案的各种元件可包括在用于无线通信的装置(例如蜂窝式电话或具有此通信能力的其它装置)内。此装置可经配置以与电路交换和/或包交换的网络进行通信(例如,使用例如VoIP等一个或一个以上协议)。此装置可经配置以对载运经编码帧的信号执行操作,例如解交错、解穿孔、对一个或一个以上卷积代码的解码、对一个或一个以上误差校正代码的解码、对一个或一个以上网络协议(例如,以太网、TCP/IP、cdma2000)层的解码、射频(RF)解调和/或RF接收。
有可能使设备200的实施方案的一个或一个以上元件用以执行不与设备的操作直接相关的任务或其它指令集合,例如与设备所嵌入其中的装置或系统的另一操作相关的任务。还有可能使设备200的实施方案的一个或一个以上元件具有共同结构(例如,用以在不同时间执行代码的对应于不同元件的部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集合或在不同时间执行不同元件的操作的电子和/或光学装置的布置)。在一个此类实例中,将控制逻辑210、第一模块230和第二模块240实施为经布置以在同一处理器上执行的指令集合。在另一此类实例中,将频谱包络描述解码器270a和270b实施为在不同时间执行的同一指令集合。
用于无线通信的装置(例如蜂窝式电话或具有此通信能力的其它装置)可经配置以包括设备100和设备200两者的实施方案。在此情况下,有可能使设备100和设备200具有共同结构。在一个此类实例中,将设备100和设备200实施为包括经布置以在同一处理器上执行的指令集合。
在全双工电话通信期间的任何时间处,均可预期对语音编码器中的至少一者的输入将为无效帧。可能需要对语音编码器进行配置以针对一系列无效帧中的不到全部的帧传输经编码帧。此操作还称为不连续传输(DTX)。在一个实例中,语音编码器通过针对每一串n个连续无效帧传输一个经编码帧(还称为“静默描述符”或SID)来执行DTX,其中n为32。对应的解码器应用SID中的信息来更新由舒适噪声产生算法用以合成无效帧的噪声产生模型。n的其它典型值包括8和16。在此项技术中用以指示SID的其它名称包括“对静默描述的更新”、“静默插入描述”、“静默插入描述符”、“舒适噪声描述符帧”和“舒适噪声参数”。
可了解到在方法M200的实施方案中,参考经编码帧与SID的类似之处在于其均对语音信号的高带部分的静默描述提供不定时更新。虽然DTX在包交换网络中的潜在优势通常大于其在电路交换网络中的潜在优势,但明确地注意到,方法M100和M200可应用于电路交换网络和包交换网络两者。
可将方法M100的实施方案与DTX进行组合(例如,在包交换网络中),使得针对不到全部的无效帧传输经编码帧。执行此方法的语音编码器可经配置为以某一规律间隔(例如,在一系列无效帧中每八、十六或三十二个帧)或在某一事件后偶尔传输SID。图35B展示每六个帧传输SID的实例。在此情况下,SID包括对在第一频带上的频谱包络的描述。
方法M200的对应实施方案可经配置以响应于在跟随无效帧之后的帧周期期间接收经编码帧失败而产生基于参考频谱信息的帧。如图35B所示,方法M200的此实施方案可经配置以基于来自一个或一个以上所接收的SID的信息而针对每一介入无效帧获得对在第一频带上的频谱包络的描述。举例来说,此操作可包括在来自两个最新近SID的对频谱包络的描述之间进行的内插,如在图30A到30C所示的实例中。对于第二频带,所述方法可经配置以基于来自一个或一个以上新近的参考经编码帧的信息(例如,根据本文所述的实例中的任一者)而针对每一介入无效帧获得对频谱包络的描述(和(可能地)对时间包络的描述)。此方法还可经配置以产生针对第二频带的激励信号,其基于来自一个或一个以上新近SID的针对第一频带的激励信号。
提供先前对所描述的配置的呈现是为了使得所属领域的任何技术人员均能够制作或使用所述方法和本文所揭示的其它结构。本文展示和描述的流程图、框图、状态图和其它结构仅为实例,且这些结构的其它变型也属于本发明的范围内。有可能对这些配置作出各种修改,且本文提出的一般原理同样可应用于其它配置。举例来说,本文描述的用于处理语音信号的包括在语音信号的窄带部分的范围以上的频率的高带部分的各种元件和任务可替代地或额外地且以类似方式应用于处理语音信号的包括在语音信号的窄带部分的范围以下的频率的低带部分。在此情况下,可使用所揭示的用于从窄带激励信号导出高带激励信号的技术和结构来从窄带激励信号导出低带激励信号。因此,本发明不希望限于上文所示的配置,而是应符合与本文中(包括在所申请的随附权利要求书中)以任一方式揭示的原理和新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。
可与如本文所述的语音编码器、语音编码方法、语音解码器和/或语音解码方法一起使用或者适于与其一起使用的编解码器的实例包括:如文献3GPP2 C.S0014-C版本1.0“用于宽带展频数字系统的增强型可变速率编解码器、语音服务选项3、68和70(Enhanced Variable Rate Codec,Speech Service Options 3,68,and 70for WidebandSpread Spectrum Digital Systems)”(第三代合作伙伴计划2,弗吉尼亚州阿灵顿(Arlington,VA),2007年1月)中所描述的增强型可变速率编解码器(EVRC);如文献ETSI TS 126092 V6.0.0(欧洲电信标准学会(ETSI),法国苏菲亚-昂蒂波利斯市(Sophia AntipolisCedex,FR),2004年12月)中所描述的适应性多速率(AMR)语音编解码器;以及如文献ETSI TS 126192 V6.0.0(ETSI,2004年12月)中所描述的AMR宽带语音编解码器。
所属领域的技术人员将了解,信息和信号可使用多种不同技艺和技术中的任一者来表示。举例来说,在整个上述描述中可能提及的数据、指令、命令、信息、信号、位和符号可由电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任一组合表示。虽然从中导出经编码帧的信号称为“语音信号”,但还预期且由此揭示此信号可在有效帧期间载运音乐或其它非语音信息内容。
所属领域的技术人员将进一步了解,结合本文揭示的配置而描述的各种说明性逻辑区块、模块、电路和操作可实施为电子硬件、计算机软件或所述两者的组合。此类逻辑区块、模块、电路和操作可用通用处理器、数字信号处理器(DSP)、ASIC、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或经设计以执行本文所描述的功能的其任何组合来实施或执行。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可经实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。
本文所描述的方法和算法的任务可直接体现于硬件、由处理器执行的软件模块或所述两者的组合中。软件模块可驻存于RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器和存储媒体可驻存于ASIC中。ASIC可驻存于用户终端中。在替代方案中,处理器和存储媒体可作为离散组件而驻存于用户终端中。
本文所描述的配置中的每一者可至少部分地实施为硬连线电路、经制造到专用集成电路中的电路配置或者经加载到非易失性存储装置中的固件程序或作为机器可读代码(此类代码为可由例如微处理器或其它数字信号处理单元等逻辑元件阵列执行的指令)而从数据存储媒体加载或加载到数据存储媒体中的软件程序。数据存储媒体可为例如半导体存储器(其可包括但不限于动态或静态RAM(随机存取存储器)、ROM(只读存储器)和/或快闪RAM)或者铁电、磁阻、双向、聚合或相变存储器等存储元件的阵列;或例如磁盘或光盘等盘片媒体。应将术语“软件”理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏代码、微代码、可由逻辑元件的阵列执行的任何一个或一个以上指令集合或序列以及此类实例的任何组合。

Claims (35)

1.一种用于对语音信号的帧进行编码的设备,所述设备包含:
语音活动性检测器,其经配置以针对所述语音信号的多个帧中的每一者而指示所述帧是有效的还是无效的;
编码方案选择器,其经配置以
(A)响应于所述语音活动性检测器对所述语音信号的第一帧的指示而选择第一编码方案,
(B)针对作为出现于所述第一帧之后的一连续系列的无效帧中的一者的第二帧且响应于所述语音活动性检测器关于所述第二帧为无效的指示而选择第二编码方案,且
(C)针对在所述语音信号中跟随所述第二帧之后并作为出现于所述第一帧之后的所述连续系列的无效帧中的另一者的第三帧且响应于所述语音活动性检测器关于所述第三帧为无效的指示而选择第三编码方案;和
语音编码器,其经配置以
(D)根据所述第一编码方案,产生第一经编码帧,所述第一经编码帧基于所述第一帧且具有p个位的长度,其中p为非零正整数,
(E)根据所述第二编码方案,产生第二经编码帧,所述第二经编码帧基于所述第二帧且具有q个位的长度,其中q为不同于p的非零正整数,且
(F)根据所述第三编码方案,产生第三经编码帧,所述第三经编码帧基于所述第三帧且具有r个位的长度,其中r为小于q的非零正整数。
2.根据权利要求1所述的设备,其中在所述语音信号中,至少一个帧出现于所述第一帧与所述第二帧之间。
3.根据权利要求1所述的设备,其中所述语音编码器经配置以将所述第二经编码帧产生为包括(A)对所述语音信号的包括所述第二帧的部分的在第一频带上的频谱包络的描述和(B)对所述语音信号的包括所述第二帧的部分的在不同于所述第一频带的第二频带上的频谱包络的描述。
4.根据权利要求3所述的设备,其中所述语音编码器经配置以将所述第三经编码帧产生为(A)包括对在所述第一频带上的频谱包络的描述且(B)不包括对在所述第二频带上的频谱包络的描述。
5.根据权利要求1所述的设备,其中所述语音编码器经配置以将所述第三经编码帧产生为包括对所述语音信号的包括所述第三帧的部分的频谱包络的描述。
6.一种处理经编码语音信号的方法,所述方法包含:
基于来自所述经编码语音信号的第一经编码帧的信息,获得对语音信号的第一帧的在(A)第一频带和(B)不同于所述第一频带的第二频带上的频谱包络的描述;
基于来自所述经编码语音信号的第二经编码帧的信息,获得对所述语音信号的第二帧的在所述第一频带上的频谱包络的描述;和
基于来自所述第一经编码帧的信息,获得对所述第二帧的在所述第二频带上的频谱包络的描述。
7.根据权利要求6所述的处理经编码语音信号的方法,其中所述获得对所述语音信号的第二帧的在所述第一频带上的频谱包络的描述至少主要地基于来自所述第二经编码帧的信息。
8.根据权利要求6所述的处理经编码语音信号的方法,其中所述获得对所述第二帧的在所述第二频带上的频谱包络的描述至少主要地基于来自所述第一经编码帧的信息。
9.根据权利要求6所述的处理经编码语音信号的方法,其中所述对第一帧的频谱包络的描述包括对所述第一帧的在所述第一频带上的频谱包络的描述和对所述第一帧的在所述第二频带上的频谱包络的描述。
10.根据权利要求6所述的处理经编码语音信号的方法,其中所述获得对所述第二帧的在所述第二频带上的频谱包络的描述所依据的所述信息包括所述对所述第一帧的在所述第二频带上的频谱包络的描述。
11.根据权利要求6所述的处理经编码语音信号的方法,其中根据宽带编码方案对所述第一经编码帧进行编码,且其中根据窄带编码方案对所述第二经编码帧进行编码。
12.根据权利要求6所述的处理经编码语音信号的方法,其中所述第一经编码帧的以位计的长度为所述第二经编码帧的以位计的长度的至少两倍。
13.根据权利要求6所述的处理经编码语音信号的方法,所述方法包含基于所述对所述第二帧的在所述第一频带上的频谱包络的描述、所述对所述第二帧的在所述第二频带上的频谱包络的描述和至少主要地基于随机噪声信号的激励信号而计算所述第二帧。
14.根据权利要求6所述的处理经编码语音信号的方法,其中所述获得对所述第二帧的在所述第二频带上的频谱包络的描述基于来自所述经编码语音信号的第三经编码帧的信息,其中所述第一和第三经编码帧两者在所述经编码语音信号中出现于所述第二经编码帧之前。
15.根据权利要求14所述的处理经编码语音信号的方法,其中所述来自第三经编码帧的信息包括对所述语音信号的第三帧的在所述第二频带上的频谱包络的描述。
16.根据权利要求14所述的处理经编码语音信号的方法,其中所述对所述第一帧的在所述第二频带上的频谱包络的描述包括频谱参数值向量,且
其中所述对所述第三帧的在所述第二频带上的频谱包络的描述包括频谱参数值向量,且
其中所述获得对所述第二帧的在所述第二频带上的频谱包络的描述包括将所述第二帧的频谱参数值向量计算为所述第一帧的所述频谱参数值向量和所述第三帧的所述频谱参数值向量的函数。
17.根据权利要求14所述的处理经编码语音信号的方法,所述方法包含:
响应于检测到所述第一经编码帧的编码索引满足至少一个预定标准,存储所述获得对所述第二帧的在所述第二频带上的频谱包络的描述所依据的来自所述第一经编码帧的所述信息;
响应于检测到所述第三经编码帧的编码索引满足至少一个预定标准,存储所述获得对所述第二帧的在所述第二频带上的频谱包络的描述所依据的来自所述第三经编码帧的所述信息;和
响应于检测到所述第二经编码帧的编码索引满足至少一个预定标准,检索来自所述第一经编码帧的所述所存储的信息和来自所述第三经编码帧的所述所存储的信息。
18.根据权利要求6所述的处理经编码语音信号的方法,所述方法包含针对所述语音信号的跟随所述第二帧之后的多个帧中的每一者而获得对所述帧的在所述第二频带上的频谱包络的描述,其中所述描述基于来自所述第一经编码帧的信息。
19.根据权利要求6所述的处理经编码语音信号的方法,所述方法包含针对所述语音信号的跟随所述第二帧之后的多个帧中的每一者而进行以下操作:(C)获得对所述帧的在所述第二频带上的频谱包络的描述,其中所述描述基于来自所述第一经编码帧的信息;和(D)获得对所述帧的在所述第一频带上的频谱包络的描述,其中所述描述基于来自所述第二经编码帧的信息。
20.根据权利要求6所述的处理经编码语音信号的方法,所述方法包含基于所述第二帧的在所述第一频带上的激励信号而获得所述第二帧的在所述第二频带上的激励信号。
21.根据权利要求6所述的处理经编码语音信号的方法,所述方法包含基于来自所述第一经编码帧的信息而获得对所述第二帧的针对所述第二频带的时间信息的描述。
22.根据权利要求6所述的处理经编码语音信号的方法,其中所述对所述第二帧的时间信息的描述包括对所述第二帧的针对所述第二频带的时间包络的描述。
23.一种用于处理经编码语音信号的设备,所述设备包含:
用于基于来自所述经编码语音信号的第一经编码帧的信息而获得对语音信号的第一帧的在(A)第一频带和(B)不同于所述第一频带的第二频带上的频谱包络的描述的装置;
用于基于来自所述经编码语音信号的第二经编码帧的信息而获得对所述语音信号的第二帧的在所述第一频带上的频谱包络的描述的装置;和
用于基于来自所述第一经编码帧的信息而获得对所述第二帧的在所述第二频带上的频谱包络的描述的装置。
24.根据权利要求23所述的用于处理经编码语音信号的设备,其中所述对第一帧的频谱包络的描述包括对所述第一帧的在所述第一频带上的频谱包络的描述和对所述第一帧的在所述第二频带上的频谱包络的描述,且
其中所述用于获得对所述第二帧的在所述第二频带上的频谱包络的描述的装置经配置以获得所述描述所基于的所述信息包括所述对所述第一帧的在所述第二频带上的频谱包络的描述。
25.根据权利要求23所述的用于处理经编码语音信号的设备,其中所述用于获得对所述第二帧的在所述第二频带上的频谱包络的描述的装置经配置以基于来自所述经编码语音信号的第三经编码帧的信息而获得所述描述,其中所述第一和第三经编码帧两者在所述经编码语音信号中出现于所述第二经编码帧之前,且
其中所述来自第三经编码帧的信息包括对所述语音信号的第三帧的在所述第二频带上的频谱包络的描述。
26.根据权利要求23所述的用于处理经编码语音信号的设备,所述设备包含用于针对所述语音信号的跟随所述第二帧之后的多个帧中的每一者而获得对所述帧的在所述第二频带上的频谱包络的描述的装置,所述描述基于来自所述第一经编码帧的信息。
27.根据权利要求23所述的用于处理经编码语音信号的设备,所述设备包含:
用于针对所述语音信号的跟随所述第二帧之后的多个帧中的每一者而获得对所述帧的在所述第二频带上的频谱包络的描述的装置,所述描述基于来自所述第一经编码帧的信息;和
用于针对所述多个帧中的每一者而获得对所述帧的在所述第一频带上的频谱包络的描述的装置,所述描述基于来自所述第二经编码帧的信息。
28.根据权利要求23所述的用于处理经编码语音信号的设备,所述设备包含用于基于所述第二帧的在所述第一频带上的激励信号而获得所述第二帧的在所述第二频带上的激励信号的装置。
29.根据权利要求23所述的用于处理经编码语音信号的设备,所述设备包含用于基于来自所述第一经编码帧的信息而获得对所述第二帧的针对所述第二频带的时间信息的描述的装置,
其中所述对所述第二帧的时间信息的描述包括对所述第二帧的针对所述第二频带的时间包络的描述。
30.一种用于处理经编码语音信号的设备,所述设备包含:
控制逻辑,其经配置以产生包含值序列的控制信号,所述值序列基于所述经编码语音信号的经编码帧的编码索引,所述序列中的每一值对应于所述经编码语音信号的经编码帧;和
语音解码器,其经配置以(A)响应于所述控制信号的具有第一状态的值而基于以下描述计算经解码帧:对在所述第一和第二频带上的频谱包络的描述,所述描述基于来自对应经编码帧的信息,且(B)响应于所述控制信号的具有不同于所述第一状态的第二状态的值而基于以下描述计算经解码帧:(1)对在所述第一频带上的频谱包络的描述,所述描述基于来自对应经编码帧的信息,和(2)对在所述第二频带上的频谱包络的描述,所述描述基于来自在所述经编码语音信号中出现于对应经编码帧之前的至少一个经编码帧的信息。
31.根据权利要求30所述的用于处理经编码语音信号的设备,其中所述语音解码器经配置以响应于所述控制信号的具有所述第二状态的值而计算经解码帧所依据的所述对在所述第二频带上的频谱包络的描述基于来自在所述经编码语音信号中出现于对应经编码帧之前的至少两个经编码帧中的每一者的信息。
32.根据权利要求30所述的用于处理经编码语音信号的设备,其中所述控制逻辑经配置以响应于在对应帧周期内未能接收到经编码帧而产生所述控制信号的具有不同于所述第一和第二状态的第三状态的值,且
其中所述语音解码器经配置以(C)响应于所述控制信号的具有所述第三状态的值而基于以下描述计算经解码帧:(1)对所述帧的在所述第一频带上的频谱包络的描述,所述描述基于来自最新近接收的经编码帧的信息;和(2)对所述帧的在所述第二频带上的频谱包络的描述,所述描述基于来自在所述经编码语音信号中先于所述最新近接收的经编码帧出现的经编码帧的信息。
33.根据权利要求30所述的用于处理经编码语音信号的设备,其中所述语音解码器经配置以响应于所述控制信号的具有所述第二状态的值且基于所述经解码帧的在所述第一频带上的激励信号而计算所述经解码帧的在所述第二频带上的激励信号。
34.根据权利要求30所述的用于处理经编码语音信号的设备,其中所述语音解码器经配置以响应于所述控制信号的具有所述第二状态的值而基于对针对所述第二频带的时间包络的描述计算所述经解码帧,所述描述基于来自在所述经编码语音信号中出现于对应经编码帧之前的至少一个经编码帧的信息。
35.根据权利要求30所述的用于处理经编码语音信号的设备,其中所述语音解码器经配置以响应于所述控制信号的具有所述第二状态的值而基于激励信号计算所述经解码帧,所述激励信号至少主要地基于随机噪声信号。
CN201210270314.4A 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备 Active CN103151048B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US83468806P 2006-07-31 2006-07-31
US60/834,688 2006-07-31
US11/830,812 US8260609B2 (en) 2006-07-31 2007-07-30 Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US11/830,812 2007-07-30
CN2007800278068A CN101496100B (zh) 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2007800278068A Division CN101496100B (zh) 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备

Publications (2)

Publication Number Publication Date
CN103151048A true CN103151048A (zh) 2013-06-12
CN103151048B CN103151048B (zh) 2016-02-24

Family

ID=38692069

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2007800278068A Active CN101496100B (zh) 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备
CN201210270314.4A Active CN103151048B (zh) 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2007800278068A Active CN101496100B (zh) 2006-07-31 2007-07-31 用于对无效帧进行宽带编码和解码的系统、方法和设备

Country Status (11)

Country Link
US (2) US8260609B2 (zh)
EP (1) EP2047465B1 (zh)
JP (3) JP2009545778A (zh)
KR (1) KR101034453B1 (zh)
CN (2) CN101496100B (zh)
BR (1) BRPI0715064B1 (zh)
CA (2) CA2657412C (zh)
ES (1) ES2406681T3 (zh)
HK (1) HK1184589A1 (zh)
RU (1) RU2428747C2 (zh)
WO (1) WO2008016935A2 (zh)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR20080059881A (ko) * 2006-12-26 2008-07-01 삼성전자주식회사 음성 신호의 전처리 장치 및 방법
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
US8064390B2 (en) 2007-04-27 2011-11-22 Research In Motion Limited Uplink scheduling and resource allocation with fast indication
ES2619277T3 (es) * 2007-08-27 2017-06-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector de transitorio y método para soportar la codificación de una señal de audio
CN100524462C (zh) 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
EP2210253A4 (en) * 2007-11-21 2010-12-01 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING A SIGNAL
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US20090168673A1 (en) * 2007-12-31 2009-07-02 Lampros Kalampoukas Method and apparatus for detecting and suppressing echo in packet networks
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
TWI395976B (zh) * 2008-06-13 2013-05-11 Teco Image Sys Co Ltd 掃描模組之光源投射裝置及其光源排列方法
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101836253B (zh) * 2008-07-11 2012-06-13 弗劳恩霍夫应用研究促进协会 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
US8428209B2 (en) * 2010-03-02 2013-04-23 Vt Idirect, Inc. System, apparatus, and method of frequency offset estimation and correction for mobile remotes in a communication network
WO2011128342A1 (en) * 2010-04-13 2011-10-20 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Method and encoder and decoder for gap - less playback of an audio signal
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
EP2561508A1 (en) * 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
US8751223B2 (en) * 2011-05-24 2014-06-10 Alcatel Lucent Encoded packet selection from a first voice stream to create a second voice stream
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
WO2013085538A1 (en) * 2011-12-09 2013-06-13 Intel Corporation Control of video processing algorithms based on measured perceptual quality characteristics
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
JP6200034B2 (ja) * 2012-04-27 2017-09-20 株式会社Nttドコモ 音声復号装置
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
CN102723968B (zh) * 2012-05-30 2017-01-18 中兴通讯股份有限公司 一种提升空口容量的方法及装置
PL3070713T3 (pl) * 2013-01-29 2018-07-31 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, stosujące adaptacyjne względem sygnału powiększanie szerokości pasma
CA2899078C (en) * 2013-01-29 2018-09-25 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
US9336789B2 (en) * 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
ES2748144T3 (es) * 2013-02-22 2020-03-13 Ericsson Telefon Ab L M Métodos y aparatos para retención DTX en codificación de audio
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830054A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework
GB201316575D0 (en) * 2013-09-18 2013-10-30 Hellosoft Inc Voice data transmission with adaptive redundancy
EP3048609A4 (en) 2013-09-19 2017-05-03 Sony Corporation Encoding device and method, decoding device and method, and program
JP5981408B2 (ja) * 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
MX2016008172A (es) 2013-12-27 2016-10-21 Sony Corp Metodo y aparato de decodificacion, y programa.
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
EP2950474B1 (en) * 2014-05-30 2018-01-31 Alcatel Lucent Method and devices for controlling signal transmission during a change of data rate
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
US10304472B2 (en) * 2014-07-28 2019-05-28 Nippon Telegraph And Telephone Corporation Method, device and recording medium for coding based on a selected coding processing
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) * 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
JP2017150146A (ja) * 2016-02-22 2017-08-31 積水化学工業株式会社 対象物を補強または補修する方法
CN106067847B (zh) * 2016-05-25 2019-10-22 腾讯科技(深圳)有限公司 一种语音数据传输方法及装置
US10573326B2 (en) * 2017-04-05 2020-02-25 Qualcomm Incorporated Inter-channel bandwidth extension
MA52530A (fr) 2018-04-25 2021-03-03 Dolby Int Ab Intégration de techniques de reconstruction audio haute fréquence
BR112020021809A2 (pt) 2018-04-25 2021-02-23 Dolby International Ab integração de técnicas de reconstrução de alta frequência com atraso de pós-processamento reduzido
TWI740655B (zh) * 2020-09-21 2021-09-21 友達光電股份有限公司 顯示裝置的驅動方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282952A (zh) * 1999-06-18 2001-02-07 索尼公司 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质
US20030142746A1 (en) * 2002-01-30 2003-07-31 Naoya Tanaka Encoding device, decoding device and methods thereof
CN1510661A (zh) * 2002-12-23 2004-07-07 ���ǵ�����ʽ���� 使用时间频率相关编码和/或解码数字音频的方法及装置
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5511073A (en) * 1990-06-25 1996-04-23 Qualcomm Incorporated Method and apparatus for the formatting of data for transmission
EP1239456A1 (en) 1991-06-11 2002-09-11 QUALCOMM Incorporated Variable rate vocoder
JP2779886B2 (ja) 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
GB2294614B (en) * 1994-10-28 1999-07-14 Int Maritime Satellite Organiz Communication method and apparatus
US5704003A (en) * 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
US6049537A (en) * 1997-09-05 2000-04-11 Motorola, Inc. Method and system for controlling speech encoding in a communication system
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
WO2000030075A1 (en) 1998-11-13 2000-05-25 Qualcomm Incorporated Closed-loop variable-rate multimode predictive speech coder
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6973140B2 (en) * 1999-03-05 2005-12-06 Ipr Licensing, Inc. Maximizing data rate by adjusting codes and code rates in CDMA system
KR100297875B1 (ko) * 1999-03-08 2001-09-26 윤종용 가변 속도 보코더를 사용하는 코드 분할 다중 접속 시스템의 음질 향상을 위한 방법
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
FI115329B (fi) 2000-05-08 2005-04-15 Nokia Corp Menetelmä ja järjestely lähdesignaalin kaistanleveyden vaihtamiseksi tietoliikenneyhteydessä, jossa on valmiudet useisiin kaistanleveyksiin
KR20020035109A (ko) 2000-05-26 2002-05-09 요트.게.아. 롤페즈 협대역으로 인코딩된 신호를 송신하는 송신기, 수신단에서 이 인코딩된 신호의 대역을 확장하는 수신기, 해당송신 방법과 수신 방법 및 시스템
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
EP1451812B1 (en) * 2001-11-23 2006-06-21 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
JP4272897B2 (ja) 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
WO2004034379A2 (en) 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040098255A1 (en) * 2002-11-14 2004-05-20 France Telecom Generalized analysis-by-synthesis speech coding method, and coder implementing such method
US20050091044A1 (en) 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
FI119533B (fi) 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
TWI246256B (en) 2004-07-02 2005-12-21 Univ Nat Central Apparatus for audio compression using mixed wavelet packets and discrete cosine transformation
JP4989971B2 (ja) 2004-09-06 2012-08-01 パナソニック株式会社 スケーラブル復号化装置および信号消失補償方法
US7983904B2 (en) 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus
JP4903053B2 (ja) 2004-12-10 2012-03-21 パナソニック株式会社 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
NZ562190A (en) * 2005-04-01 2010-06-25 Qualcomm Inc Systems, methods, and apparatus for highband burst suppression
PT1875463T (pt) * 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
US8032369B2 (en) * 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
JP4649351B2 (ja) 2006-03-09 2011-03-09 シャープ株式会社 デジタルデータ復号化装置
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8532984B2 (en) * 2006-07-31 2013-09-10 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of active frames

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1282952A (zh) * 1999-06-18 2001-02-07 索尼公司 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
US20030142746A1 (en) * 2002-01-30 2003-07-31 Naoya Tanaka Encoding device, decoding device and methods thereof
CN1510661A (zh) * 2002-12-23 2004-07-07 ���ǵ�����ʽ���� 使用时间频率相关编码和/或解码数字音频的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITU-T: "《G.722.2 Annex A: Comfort noise aspects》", 31 January 2002 *
ITU-T: "《基于G.729的嵌入式变速率编解码器:G.729码流互操作8-32kbit/s可分级宽带编解码器》", 31 May 2006 *

Also Published As

Publication number Publication date
RU2428747C2 (ru) 2011-09-10
RU2009107043A (ru) 2010-09-10
ES2406681T3 (es) 2013-06-07
JP2009545778A (ja) 2009-12-24
US8260609B2 (en) 2012-09-04
CA2657412C (en) 2014-06-10
JP2013137557A (ja) 2013-07-11
WO2008016935A2 (en) 2008-02-07
US9324333B2 (en) 2016-04-26
JP2012098735A (ja) 2012-05-24
CN101496100B (zh) 2013-09-04
EP2047465A2 (en) 2009-04-15
EP2047465B1 (en) 2013-04-10
US20120296641A1 (en) 2012-11-22
KR20090035719A (ko) 2009-04-10
WO2008016935A3 (en) 2008-06-12
US20080027717A1 (en) 2008-01-31
BRPI0715064A2 (pt) 2013-05-28
JP5596189B2 (ja) 2014-09-24
CA2778790C (en) 2015-12-15
CN103151048B (zh) 2016-02-24
CN101496100A (zh) 2009-07-29
CA2778790A1 (en) 2008-02-07
BRPI0715064B1 (pt) 2019-12-10
CA2657412A1 (en) 2008-02-07
HK1184589A1 (zh) 2014-01-24
KR101034453B1 (ko) 2011-05-17
JP5237428B2 (ja) 2013-07-17

Similar Documents

Publication Publication Date Title
CN101496100B (zh) 用于对无效帧进行宽带编码和解码的系统、方法和设备
CN102324236B (zh) 用于对有效帧进行宽带编码和解码的系统、方法和设备
CN101496101B (zh) 用于增益因子限制的系统、方法及设备
CN101523484B (zh) 用于帧擦除恢复的系统、方法和设备
EP1747554B1 (en) Audio encoding with different coding frame lengths
JP5203930B2 (ja) 高帯域時間軸伸縮を行うシステム、方法、および装置
EP3537438A1 (en) Quantizing method, and quantizing apparatus
US20070106502A1 (en) Adaptive time/frequency-based audio encoding and decoding apparatuses and methods
KR20080083719A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택
CN102934163A (zh) 用于宽带语音编码的系统、方法、设备和计算机程序产品
CN104517610A (zh) 频带扩展的方法及装置
CN101496099B (zh) 用于对有效帧进行宽带编码和解码的系统、方法和设备
KR20070017379A (ko) 오디오 신호를 부호화하기 위한 부호화 모델들의 선택

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1184589

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant