CN1141684A - 声音编码方法 - Google Patents

声音编码方法 Download PDF

Info

Publication number
CN1141684A
CN1141684A CN95191734A CN95191734A CN1141684A CN 1141684 A CN1141684 A CN 1141684A CN 95191734 A CN95191734 A CN 95191734A CN 95191734 A CN95191734 A CN 95191734A CN 1141684 A CN1141684 A CN 1141684A
Authority
CN
China
Prior art keywords
short
value
parameter
term forecasting
sign indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN95191734A
Other languages
English (en)
Inventor
西口正之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1141684A publication Critical patent/CN1141684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

在本发明中,例如,在进行码激励线性预测(CELP)编码时,利用线性预测码(LPC)分析电路12,从输入声音信号中取出α参数;利用α→LSP变换电路13,把α参数变换成线状频谱对(LSP)参数;利用LSP矢量量化器14,对这种线状频谱对(LSP)参数矢量进行矢量量化。这时,根据由音调检测电路22检测的音调值、控制切换开关16,选择使用男声用码簿15M和女声用码簿15F中的某一者,因此,不增大传送比特率、就能够提高量化特性。

Description

声音编码方法
本发明涉及通过把表示输入声音信号短期预测系数的参数或短期预测残差矢量量化或矩阵量化而编码的声音编码方法。
                     背景技术
已知很多种利用音频信号(包括声音信号和音响信号)时域和频域中的统计特性和人的听觉特性,进行信号压缩的编码方法。作为这种编码方法,大致可以分为时域编码、频域编码、分析合成编码等。
在作为声音信号等的高效率编码之例的多带激励(以下,称为MBE)编码、单带激励(以下,称为SBE)编码、谐波编码、子带编码(以下,称为SBC)、线性预测编码(以下,称为LPC)、或离散余弦变换(DCT)、改进型DCT(MDCT)、快速傅里叶变换(FFT)等中,在把频谱幅度及其参数(LSP参数、α参数、K参数等)之类的各种信息数据量化时,过去大多是进行标量量化。
在这种标量量化的情况下,当比特率降低到例如3~4kps左右时,如果进一步提高量化效率,则量化噪声和量化失真将变大,难以实用化。因此,不把这些编码时所接收的时间轴数据、频率轴数据、滤波器系数的数据等分别量化,而是把多个数据汇集成矢量,或者,把连续多个帧的矢量汇集成矩阵,采用进行矢量量化和矩阵量化的方法。
例如,在码激励线性预测(CELP)编码中,把LPC残差作为直接的时间波形,进行矢量量化和矩阵量化。还有,在上述MBE编码中的频谱包络等的量化时,也采用矢量量化和矩阵量化。
可是,当进一步降低比特率时,为了把表示LPC残差和频谱包络的参数量化,如不使用较多的比特就会引起质量劣化。
本发明就是鉴于这样的情况而提出的,目的在于提供一种以少量比特也能得到良好的量化特性的声音编码方法。
                         发明的公开
与本发明有关的声音编码方法是把声音信号的多个特性参数中的一个或多个参数的组合作为基准参数,与该基准参数有关,把表示短期预测值的参数分成两个部分,设置这样形成的第一和第二码簿。而且,根据输入的声音信号产生短期预测值,与输入声音信号的基准参数有关,选择第一和第二码簿之一,参照所选定的码簿、把短期预测值量化,借此,把输入声音信号编码。
在这里,上述短期预测值为短期预测系数或短期预测误差。还有,上述多个特性参数为声音的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。还有,上述量化为矢量量化或矩阵量化。另外,上述基准参数为声音信号的音调值,根据输入声音信号的音调值与给定音调值的大小关系来选择第一和第二码簿之一。
而且,在本发明中,参照所选定的第一码簿或第二码簿,对根据输入声音信号产生的短期预测值进行量化,借此,可以提高量化效率。
                      附图的简单说明
图1为表示作为应用与本发明有关的声音编码方法的装置的具体例子的声音信号编码装置的概略结构框图;
图2为表示出可用于图1中的音调检测电路上的振波器之一例的电路图;
图3为用于说明矢量量化时所用码簿的形成(练习用)方法的方框图。
                  用来实施发明的最佳形态
以下,说明与本发明有关的令人满意的实施例。
图1为采用与本发明有关的声音编码方法的声音信号编码装置的概略结构框图。
在该声音信号编码装置中,把供给输入端11的声音信号供给线性预测编码(以下,称为LPC)分析电路12、反滤波电路21和听觉加权滤波运算电路23。
LPC分析电路12以约256个取样长度作为1个块、使输入信号波形通过加重平均窗口,借助于自相关法求线性预测系数,即所谓α参数。在作为数据输出单位的1帧期间内,例如可以包括160个取样。这时,例如,如果取样频率为8Khz,则1帧期间为20ms。
来自LPC分析电路12的α参数被供给α→LSP变换电路13,将其变换成线状频谱对(以下,称为LSP)参数。即,例如把作为直接型滤波系数求出的10个α参数,变换成5对LSP参数。这一变换例如采用牛顿-拉夫逊法进行。之所以变换成这种LSP参数,是因为LSP参数的内插特性优于α参数。
来自α→LSP变换电路13的LSP参数,通过LSP矢量量化器14进行矢量量化。这时,也可得出帧间差分后进行矢量量化。或者,也可把多个帧汇集起来进行矩阵量化。这里的量化,假定以20ms为1帧,对每20ms算出的LSP参数进行矢量量化。在进行矢量量化或矩阵量化时,根据音调进行切换开关16的切换以利用后述的男声用码簿15M和女声用码簿15F。
把来自LSP矢量量化器14的量化输出,即把LSP矢量量化的索引送到外部、把其它已量化的LSP矢量供给LSP→α变换电路17,通过LSP→α变换电路17变换成直接型滤波系数,即α参数。根据来自该LSP→α变换电路17的输出,算出码激励线性预测(CELP)编码中听觉加权合成滤波器31的滤波系数。
这里,为了进行码激励线性预测(CELP)编码,使来自所谓动态码簿(亦称为音调码簿、自适应码簿)32的输出,通过系数乘法器33乘以增益g0后供给加法器34,还有,使来自所谓随机码簿(亦称为噪声码簿、概率码簿)35的输出,通过系数乘法器36乘以g1后送到加法器34上,把来自加法器34的相加输出作为激励信号,供给听觉加权合成滤波器31。
在动态码簿32中,保存着过去的激励信号。把在音调周期内读出的该激励信号乘以各增益g0后所得之值,与对来自动态码簿35的信号乘以各增益g1后所得之值,在加法器34中相加,通过该相加输出、激励听觉加权合成滤波器31。还有,通过把来自加法器34的相加输出反馈到动态码簿32上,构成一种IIR滤波器。如后面所述,随机码簿35的结构为,利用切换开关35S、切换选择到男声用码簿35M和女声用码簿35F之一上。还有,根据来自增益码簿37的输出,控制各系数乘法器33和36的增益,使之成为各增益g0和g1。把来自听觉加权合成滤波器31的输出作为相减信号,供给加法器38。把来自加法器38的输出信号供给波形失真(欧几里得距离)最小化电路39,根据来自该波形失真最小化电路39的输出,控制加法器38的输出即控制从各码簿32、35、37进行的读出,以便使加权波形失真最小化。
在反滤波电路21中,通过来自LPC分析电路12的α参数、对来自输入端11的输入声音信号进行反滤波处理以后,将其供给音调检测电路22,进行音调检测。根据来自该音调检测电路22的音调检测结果,控制切换开关16和切换开关35S的切换,进行上述男声用码簿35M和女声用码簿35F的切换选择。
还有,在听觉加权滤波运算电路23中,利用来自LPC分析电路12的输出,对来自输入端11的输入声音信号算出听觉加权滤波系数,把已听觉加权的信号供给加法器24。把来自零输入响应电路25的输出作为相减信号,供给加法器24。该零输入响应电路25是利用加权合成滤波器合成并输出前一帧的应答的电路,通过从听觉加权的信号中减掉零输入响应电路25的输出,来抵消在听觉加权合成滤波器31中剩余的前一帧的滤波响应,取出所需的信号作为解码器新的输入。把来自该加法器24的相加输出供给加法器38,从该相加输出中把来自听觉加权合成滤波器31的输出减掉。
在具有上述那种结构的声音信号编码装置中,假定,来自输入端11的输入信号为x(n),LPC系数即α参数为αi,预测残差为res(n)。假定分析次数为P时,i满足1≤i≤P。这里,借助于反滤波电路21、对输入信号x(n)进行(1)式所示的反滤波,例如在0≤n≤N-1的范围内,求预测残差res(n)。 H ( z ) = 1 + Σ j = 1 p α 1 z - i - - - ( 1 ) 这里,N是与作为编码单位的帧长相当的取样个数,例如,N=160。
其次,在音调检出电路22中,使从反滤波电路21接收的预测残差res(n)通过低通滤波器(以下,称为LPF)后得到resl(n)。通常,取样时钟频率fs为8KHz时,采用截止频率fc为1KHz左右的LPF。其次,根据(2)式算出resl(n)的自相关函数中Φresl(i): φ resl ( i ) = Σ n = 0 N - i - 1 resl ( n ) resl ( n + 1 ) - - - ( 2 ) (Lmin≤i≤Lmax)
这里,通常采用Lmin=20、Lmax=147左右。把跟踪提供自相关函数Φresl(i)峰值的i、或通过适当处理提供峰值的i而求出的音调,作为当前帧的音调。例如,把第k帧的音调、具体地讲即把音调滞后设为p(k)。还有,用(3)式定义音调的可靠性或音调强度p1(k):
P1(k)=Φresl(P(k))/Φresl(0)      …(3)即,用Φresl(o)定义归一化的自相关强度。
另外,在通常的码激励线性预测(CELP)编码中,借助于(4)式,算出帧功率Ro(k): Ro ( k ) = 1 N Σ i = 0 N - 1 x 2 ( n ) - - - ( 4 ) 这里,k表示帧序号。
利用这些音调滞后p(k)、音调强度p1(k)、帧功率Ro(k)之值,把{αi}的量化表或α参数变换成LSP(线状频谱对)以后,对所形成的量化表,在男声用和女声用之间进行切换。在图1的例子中,是把对LSP进行矢量量化用的LSP矢量量化器14的量化表,在男声用码簿15M与女声用码簿15F之间切换。
例如,当假定用来区别男声与女声的音调滞后p(k)的门限值为pth,用来判别音调可靠性的音调强度p1(k)和帧功率Ro(k)的门限值为p1th和Roth时,
(1)当p(k)≥pth、且p1(k)>p1th、且Ro(k)>Roth时,使用第一码簿,例如,男声用码簿15M;
(2)当p(k)≤pth、且p1(k)>p1th、且Ro(k)>Roth时,使用第二码簿,例如,女声用码簿15F;
(3)在上述(1)、(2)以外的情况下,使用第三码簿。
虽然可以准备与上述男声用码簿15M和女声用码簿15F都不同的另一个码簿作为第三码簿,但是,例如也可以使用男声用码簿15M和女声用码簿15F中的任一者。
再者,作为上述各门限值的具体值,可以列举:例如,pth=45、p1th=0.7、Ro(k)=(满刻度-40dB)。
或者,当p1(k)>p1th、且Ro(k)>Roth时,即在有声音的区间内,保存过去几帧的音调可靠性高的各音调滞后p(k),求出这些n帧的p(k)的平均值,也可利用给定的门限值pth来判别该平均值,进行码簿的切换。
或者,还可以把满足上述条件的音调滞后p(k)供给图2所示的滤波器,通过利用门限值pth来判别该滤波输出,进行码簿的切换。再者,当未提供输入数据,即音调滞后p(k)时,图2的滤波器保持这样的状态:把在乘法器41中在输入数据上乘以0.2后所得之值,与在延时电路42中把输出数据延时1帧后在乘法器43中乘以0.8所得之值,在加法器44中相加后取出。
这样的切换和组合以后,进而根据有声音/无声音的判断,或者,根据音调强度p1(k)之值及帧功率Ro(k)之值,进行码簿的切换即可。
这样,从已稳定的音调区间提取音调平均值,判断是男声还是女声,进行男声用码簿和女声用码簿的切换。这是因为,在男声和女声中,元音共振峰的频率分布不平衡,特别是通过在元音部分进行男声和女声的切换,可以减小用于量化的矢量存在的空间,即,可以减少矢量的分散,能够进行良好的练习,即,可以学到减小量化误差。
还有,根据上述条件,也可以进行在码激励线性预测(CELP)编码中的随机码簿的切换。在图1例中,作为随机码簿35,根据上述条件,通过切换控制切换开关35s,来选择男声用码簿35M和女声用码簿35F中的一个。
可是,在码簿的学习中,最好在编码和解码时以同样的基准,把练习数据分成两个部分,对每部分练习数据,例如借助于所谓LBG法进行最佳化。
即,在图3中,把练习用的例如由几部分声音信号构成的来自练习接收机51的信号,供给线状频谱对(LSP)运算电路52和音调判别电路53。LSP运算电路52相当于例如图1的线性预测编码(LPC)分析电路12和α→LSP变换电路13;音调判别电路53相当于图1的反滤波电路21和音调检测电路22。在音调判别电路53中,如上所述,分别借助于上述各门限值pth、P1th、Roth对音调滞后p(k)、音调强度p1(k)和帧功率Ro(k)进行鉴别,分成上述条件(1)、(2)、(3)等三种情况。具体地讲,至少判别出条件(1)的男声情况和条件(2)的女声情况即可。或者,如上所述,也可在有声音的区间内,保存过去n帧的音调可靠性高的各音调滞后p(k),求出这n帧的p(k)平均值,利用门限值pth来判别该平均值。还可利用门限值pth判别来自图2中的滤波器的输出。
来自LSP运算电路52的LSP数据被送给练习数据分配电路54,根据来自音调判别电路53的判别输出,将其分成男声用练习数据55和女声用练习数据56两个部分。把这些练习数据分别供给练习处理部57和58,借助于例如所谓LBG法进行练习处理,借此,产生图1的男声用码簿15M和女声用码簿15F。这里,所谓LBG法是在“矢量量化器设计的一种算法”(“An Algorithm for Vector QuantizerDesign”,Linde,Y.,Buzo,A.and Gray,R.M.,IEEE Trans.Comm.,Com-28,pp.84-95,Jan.1980)中提出的码簿练习法,是利用所谓练习系列,对概率密度函数未知的信息源,设计其局部最佳的矢量量化器的技术。
这样产生的男声用码簿15M和女声用码簿15F,在由图1中的LSP矢量量化器14进行的矢量量化时,可借助于切换开关16,经切换选择以后使用。根据由音调检测电路22进行的上述那样的判别结果,对切换开关16进行切换控制。
把来自LSP矢量量化器14的量化输出的索引信息,即代表矢量的代码,作为用来传送的数据取出;把其它输出矢量的已量化的LSP数据,在LSP→α变换电路17中变换成α参数,送给听觉加权合成滤波器31。听觉加权合成滤波器31的特性1/A(Z)用(5)式表示: 1 A ( z ) = 1 1 + Σ i = 1 p α i z - 1 × W ( z ) - - - ( 5 ) 在(5)中,W(Z)表示听觉加权特性。
在这样的码激励线性预测(CELP)编码中,作为用来传送的数据,除了LSP矢量量化器14中的代表LSP的矢量索引信息以外,还可以举出:动态码簿32和随机码簿35的各索引信息,增益码簿37的索引信息,音调检测电路22的音调信息等。这样,因为音调值或者动态码簿的索引本来就是通常CELP编码中必须传送的参数,所以,不会使传送信息量或传送速率增大。但是,本来不传送的参数,例如,在男声用码簿/女声用码簿的切换中使用的音调强度,就必须用另一种方法传送码切换信息了。
在这里,上述男声、女声的判别没有必要必须与讲话人的性别一致,只要把练习数据分成两个部分,采用同一基准选择码簿即可。在本实施例中,称为男声用码簿/女声用码簿,是为了便于说明。在本实施例中,利用音调值切换码簿,这是利用在音调值与频谱包络形状之间的相关性。
再者,本发明并不局限于上述实施例,例如,有关图1的结构,虽然是把各部作为硬件描述的,但是,也可以利用所谓DSP(数字信号处理器)等,借助于软件程序来实现。还可以把子带矢量量化低频一侧的码簿,多级矢量量化中的一部分码簿,在男声用和女声用的多个码簿之间切换。还可以把多个帧的数据汇集起来进行矩阵量化,来代替矢量量化。另外,应用本发明的声音编码方法并不局限于利用码激励的线性预测编码方法,还可以应用在有声音的部分中采用正弦波合成,根据噪声信号合成无声音部分的各种声音编码方法;作为用途,也并不局限于传送和记录再生,当然可以应用于音调变换和速度变换、基本声音的合成、或者噪声抑制等各种用途。
                     产业上利用的可能性
从以上说明可知,在与本发明有关的声音编码方法中,把声音信号多个特性参数中的一个或多个的组合作为基准参数,与该基准参数有关,设置把表示短期预测值的参数分成两个部分而形成的第一和第二码簿。而且,根据输入声音信号产生短期预测值,与输入声音信号的基准参数有关,选择第一和第二码簿之一,通过参照该选定的码簿、把短期预测值量化,进行输入声音信号编码。因此,可以提高量化效率,可以谋求不提高传送比特率而改善质量,或者,能够在抑制质量劣化的同时,进一步降低传送比特率。
权利要求书
按照条约第19条的修改
1.一种声音编码装置,其特征在于,具有:
根据输入声音信号,产生短期预测系数的短期预测装置;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,把表示短期预测系数的参数分成多个部分而形成的多个码簿;
与所述输入声音信号的所述基准参数有关,选择所述多个码簿之一的选择装置;
参照利用所述选择装置选定的码簿,把所述短期预测系数量化的量化装置;
其中,利用来自所述量化装置的量化值,使激励信号最佳化。
2.根据权利要求1所述的声音编码装置,其特征在于,所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。
3.根据权利要求1所述的声音编码装置,其特征在于,所述量化装置把所述短期预测系数矢量量化。
4.根据权利要求1所述的声音编码装置,其特征在于,所述量化装置把所述短期预测系数矩阵量化。
5.根据权利要求1所述的声音编码装置,其特征在于,
所述基准参数为声音信号的音调值;
所述选择装置根据所述输入声音信号的音调值与给定音调值的大小关系,选择所述多个码簿之一。
6.根据权利要求1所述的声音编码装置,其特征在于,所述多个码簿包括男声用码簿和女声用码簿。
7.一种声音编码方法,其特征在于,
根据输入声音信号,产生短期预测系数;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,设置把表示短期预测系数的参数分成多个部分而形成的多个码簿;
与所述输入声音信号的所述基准参数有关,选择所述多个码簿之一,
参照所述选定的码簿,把所述短期预测系数量化;
利用所述短期预测系数的量化值,使激励信号最佳化。
8.根据权利要求7所述的声音编码方法,其特征在于,所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。
9.根据权利要求7所述的声音编码方法,其特征在于,通过把所述短期预测系数矢量量化,对所述输入声音信号进行编码。
10.根据权利要求7所述的声音编码方法,其特征在于,通过把所述短期预测系数矩阵量化,对所述输入声音信号进行编码。
11.根据权利要求7所述的声音编码方法,其特征在于,所述基准参数为声音信号的音调值,根据所述输入声音信号的音调值与给定音调值的大小关系选择所述多个码簿之一。
12.根据权利要求7所述的声音编码方法,其特征在于,所述多个码簿包括男声用码簿和女声用码簿。
13.一种声音编码装置,其特征在于,具有:
根据输入声音信号,产生短期预测系数的短期预测装置;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,把表示短期预测系数的参数分成多个部分而形成的第一多个码簿;
与所述输入声音信号的所述基准参数有关,选择所述第一多个码簿之一的选择装置;
参照由所述选择装置选定的码簿,把所述短期预测系数量化的量化装置;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,根据分成了多个部分的练习数据分别形成的与由所述选择装置选择第一多个码簿的同时选择其一的第二多个码簿;
根据来自所述量化装置的量化值,合成与所述第二多个码簿的选定码簿的输出有关的激励信号的合成装置;
根据所述合成装置的输出,使所述激励信号最佳化。
14.根据权利要求13所述的声音编码装置,其特征在于,所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。
15.根据权利要求13所述的声音编码装置,其特征在于,所述量化装置把所述短期预测系数矢量量化。
16.根据权利要求13所述的声音编码装置,其特征在于,所述量化装置把所述短期预测系数矩阵量化。
17.根据权利要求13所述的声音编码装置,其特征在于,
所述基准参数为声音信号的音调值;
所述选择装置根据所述输入声音信号的音调值与给定音调值的大小关系,选择所述第一多个码簿之一。
18.根据权利要求13所述的声音编码装置,其特征在于,所述第一和第二多个码簿分别包括男声用码簿和女声用码簿。
19.一种声音编码方法,其特征在于,
根据输入声音信号,产生短期预测系数;
把声音信号多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,设置把表示短期预测系数的参数分成多个部分而形成的第一多个码簿;
与所述输入声音信号的所述基准参数有关,选择所述第一多个码簿之一;
参照所述选定的码簿,把所述短期预测系数量化;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,设置根据分成了多个部分的练习数据分别形成的、与选择所述第一多个码簿的同时选择其一的第二多个码簿;
根据所述短期预测系数的量化值,合成与所述第二多个码簿的选定码簿的检测有关的激励信号,使所述激励信号最佳化。
20.根据权利要求19所述的声音编码方法,其特征在于,所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频率的斜率。
21.根据权利要求19所述的声音编码方法,其特征在于,通过把所述短期预测系数矢量量化,对所述输入声音信号进行编码。
22.根据权利要求19所述的声音编码方法,其特征在于,通过把所述短期预测系数矩阵量化,对所述输入声音信号进行编码。
23.根据权利要求19所述的声音编码方法,其特征在于,所述基准参数为声音信号的音调值,根据所述输入声音信号的音调值与给定音调值的大小关系,选择所述第一多个码簿之一。
24.根据权利要求19所述的声音编码方法,其特征在于,所述第一和第二多个码簿分别包括男声用码簿和女声用码簿。

Claims (7)

1.一种声音编码方法,其特征在于,
根据输入声音信号,产生短期预测值;
把声音信号的多个特性参数中的一个或多个的组合作为基准参数,与所述基准参数有关,设置把表示短期预测值的参数分成两个部分而形成的第一和第二码簿;
与所述输入声音信号的所述基准参数有关,选择所述第一和第二码簿之一;
通过参照所述选定的码簿,使所述短期预测值量化,对所述输入声音信号进行编码。
2.根据权利要求1所述的声音编码方法,其特征在于,所述短期预测值为短期预测系数。
3.根据权利要求1所述的声音编码方法,其特征在于,所述短期预测值为短期预测误差。
4.根据权利要求1所述的声音编码方法,其特征在于,所述多个特性参数为声音信号的音调值、音调强度、帧功率、有声音和无声音的判别标志、以及信号频谱的斜率。
5.根据权利要求1所述的声音编码方法,其特征在于,把所述短期预测值矢量量化,借此,对所述输入声音信号进行编码。
6.根据权利要求1所述的声音编码方法,其特征在于,把所述短期预测值矩阵量化,借此,对所述输入声音信号进行编码。
7.根据权利要求1所述的声音编码方法,其特征在于,所述基准参数为声音信号的音调值,根据所述输入声音信号的音调值与给定音调值的大小关系,选择所述第一和第二码簿之一。
CN95191734A 1994-12-21 1995-12-19 声音编码方法 Pending CN1141684A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP318689/94 1994-12-21
JP6318689A JPH08179796A (ja) 1994-12-21 1994-12-21 音声符号化方法

Publications (1)

Publication Number Publication Date
CN1141684A true CN1141684A (zh) 1997-01-29

Family

ID=18101922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN95191734A Pending CN1141684A (zh) 1994-12-21 1995-12-19 声音编码方法

Country Status (16)

Country Link
US (1) US5950155A (zh)
EP (1) EP0751494B1 (zh)
JP (1) JPH08179796A (zh)
KR (1) KR970701410A (zh)
CN (1) CN1141684A (zh)
AT (1) ATE233008T1 (zh)
AU (1) AU703046B2 (zh)
BR (1) BR9506841A (zh)
CA (1) CA2182790A1 (zh)
DE (1) DE69529672T2 (zh)
ES (1) ES2188679T3 (zh)
MY (1) MY112314A (zh)
PL (1) PL316008A1 (zh)
TR (1) TR199501637A2 (zh)
TW (1) TW367484B (zh)
WO (1) WO1996019798A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808569B (zh) * 1997-10-22 2010-05-26 松下电器产业株式会社 话音编码器,正交检索方法和celp话音编码方法
CN101821800B (zh) * 2007-10-12 2012-09-26 松下电器产业株式会社 矢量量化装置、矢量反量化装置和其方法
US8600739B2 (en) 2007-11-05 2013-12-03 Huawei Technologies Co., Ltd. Coding method, encoder, and computer readable medium that uses one of multiple codebooks based on a type of input signal
CN106228992A (zh) * 2010-12-29 2016-12-14 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273455B2 (ja) * 1994-10-07 2002-04-08 日本電信電話株式会社 ベクトル量子化方法及びその復号化器
AU3708597A (en) * 1996-08-02 1998-02-25 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
EP0928521A1 (en) 1996-09-25 1999-07-14 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US7788092B2 (en) 1996-09-25 2010-08-31 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
US6205130B1 (en) 1996-09-25 2001-03-20 Qualcomm Incorporated Method and apparatus for detecting bad data packets received by a mobile telephone using decoded speech parameters
DE19654079A1 (de) * 1996-12-23 1998-06-25 Bayer Ag Endo-ekto-parasitizide Mittel
US6408268B1 (en) 1997-03-12 2002-06-18 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
DE69825180T2 (de) * 1997-12-24 2005-08-11 Mitsubishi Denki K.K. Audiokodier- und dekodierverfahren und -vorrichtung
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
SE521225C2 (sv) * 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
JP2000305597A (ja) * 1999-03-12 2000-11-02 Texas Instr Inc <Ti> 音声圧縮のコード化
JP2000308167A (ja) * 1999-04-20 2000-11-02 Mitsubishi Electric Corp 音声符号化装置
US6449313B1 (en) * 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
GB2352949A (en) * 1999-08-02 2001-02-07 Motorola Ltd Speech coder for communications unit
US6721701B1 (en) * 1999-09-20 2004-04-13 Lucent Technologies Inc. Method and apparatus for sound discrimination
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
JP3462464B2 (ja) * 2000-10-20 2003-11-05 株式会社東芝 音声符号化方法、音声復号化方法及び電子装置
KR100446630B1 (ko) * 2002-05-08 2004-09-04 삼성전자주식회사 음성신호에 대한 벡터 양자화 및 역 벡터 양자화 장치와그 방법
EP1383109A1 (fr) 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie
JP4816115B2 (ja) * 2006-02-08 2011-11-16 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
GB2466671B (en) 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
JP2011090031A (ja) * 2009-10-20 2011-05-06 Oki Electric Industry Co Ltd 音声帯域拡張装置及びプログラム、並びに、拡張用パラメータ学習装置及びプログラム
US8280726B2 (en) * 2009-12-23 2012-10-02 Qualcomm Incorporated Gender detection in mobile phones
US9972325B2 (en) 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
CN105096958B (zh) 2014-04-29 2017-04-12 华为技术有限公司 音频编码方法及相关装置
US10878831B2 (en) * 2017-01-12 2020-12-29 Qualcomm Incorporated Characteristic-based speech codebook selection

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56111899A (en) * 1980-02-08 1981-09-03 Matsushita Electric Ind Co Ltd Voice synthetizing system and apparatus
JPS5912499A (ja) * 1982-07-12 1984-01-23 松下電器産業株式会社 音声符号化装置
JPS60116000A (ja) * 1983-11-28 1985-06-22 ケイディディ株式会社 音声符号化装置
IT1180126B (it) * 1984-11-13 1987-09-23 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante tecniche di quantizzazione vettoriale
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
EP0364647B1 (en) * 1988-10-19 1995-02-22 International Business Machines Corporation Improvement to vector quantizing coder
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
DE4009033A1 (de) * 1990-03-21 1991-09-26 Bosch Gmbh Robert Vorrichtung zur unterdrueckung einzelner zuendvorgaenge in einer zuendanlage
US5202926A (en) * 1990-09-13 1993-04-13 Oki Electric Industry Co., Ltd. Phoneme discrimination method
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
JP3296363B2 (ja) * 1991-04-30 2002-06-24 日本電信電話株式会社 音声の線形予測パラメータ符号化方法
ATE294441T1 (de) * 1991-06-11 2005-05-15 Qualcomm Inc Vocoder mit veränderlicher bitrate
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JPH05232996A (ja) * 1992-02-20 1993-09-10 Olympus Optical Co Ltd 音声符号化装置
US5651026A (en) * 1992-06-01 1997-07-22 Hughes Electronics Robust vector quantization of line spectral frequencies
JP2746039B2 (ja) * 1993-01-22 1998-04-28 日本電気株式会社 音声符号化方式
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
US5602961A (en) * 1994-05-31 1997-02-11 Alaris, Inc. Method and apparatus for speech compression using multi-mode code excited linear predictive coding
FR2720850B1 (fr) * 1994-06-03 1996-08-14 Matra Communication Procédé de codage de parole à prédiction linéaire.
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808569B (zh) * 1997-10-22 2010-05-26 松下电器产业株式会社 话音编码器,正交检索方法和celp话音编码方法
CN101821800B (zh) * 2007-10-12 2012-09-26 松下电器产业株式会社 矢量量化装置、矢量反量化装置和其方法
US8600739B2 (en) 2007-11-05 2013-12-03 Huawei Technologies Co., Ltd. Coding method, encoder, and computer readable medium that uses one of multiple codebooks based on a type of input signal
CN106228992A (zh) * 2010-12-29 2016-12-14 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
CN106409305A (zh) * 2010-12-29 2017-02-15 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
US10453466B2 (en) 2010-12-29 2019-10-22 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension
CN106228992B (zh) * 2010-12-29 2019-12-03 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
CN106409305B (zh) * 2010-12-29 2019-12-10 三星电子株式会社 用于针对高频带宽扩展进行编码/解码的设备和方法
US10811022B2 (en) 2010-12-29 2020-10-20 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high frequency bandwidth extension

Also Published As

Publication number Publication date
AU703046B2 (en) 1999-03-11
MY112314A (en) 2001-05-31
EP0751494B1 (en) 2003-02-19
BR9506841A (pt) 1997-10-14
PL316008A1 (en) 1996-12-23
EP0751494A4 (en) 1998-12-30
EP0751494A1 (en) 1997-01-02
ATE233008T1 (de) 2003-03-15
WO1996019798A1 (fr) 1996-06-27
JPH08179796A (ja) 1996-07-12
KR970701410A (ko) 1997-03-17
US5950155A (en) 1999-09-07
TW367484B (en) 1999-08-21
TR199501637A2 (tr) 1996-07-21
AU4190196A (en) 1996-07-10
DE69529672D1 (de) 2003-03-27
CA2182790A1 (en) 1996-06-27
DE69529672T2 (de) 2003-12-18
MX9603416A (es) 1997-12-31
ES2188679T3 (es) 2003-07-01

Similar Documents

Publication Publication Date Title
CN1141684A (zh) 声音编码方法
EP1576585B1 (en) Method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding
CN101283407B (zh) 变换编码装置和变换编码方法
US6510407B1 (en) Method and apparatus for variable rate coding of speech
CN1172293C (zh) 有效频谱包络编码方法及其编解码设备
EP1719119B1 (en) Classification of audio signals
EP2313887B1 (en) Variable bit rate lpc filter quantizing and inverse quantizing device and method
JP4101957B2 (ja) 音声パラメータの合同量子化
EP0673014A2 (en) Acoustic signal transform coding method and decoding method
EP0718822A2 (en) A low rate multi-mode CELP CODEC that uses backward prediction
EP2830057B1 (en) Encoding of an audio signal
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
JPH0869299A (ja) 音声符号化方法、音声復号化方法及び音声符号化復号化方法
KR20130111611A (ko) 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체
US20110015933A1 (en) Signal encoding apparatus, signal decoding apparatus, signal processing system, signal encoding process method, signal decoding process method, and program
JP3590071B2 (ja) 音声の効率的な符号化のためのスペクトルパラメータの予測分割マトリックス量子化
US5649051A (en) Constant data rate speech encoder for limited bandwidth path
CN1790486A (zh) 语音编码装置及其方法
US5657419A (en) Method for processing speech signal in speech processing system
JP3297749B2 (ja) 符号化方法
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
JP3353852B2 (ja) 音声の符号化方法
US6377914B1 (en) Efficient quantization of speech spectral amplitudes based on optimal interpolation technique
Enqing et al. Low bit and variable rate speech coding using local cosine transform
KR100712409B1 (ko) 벡터의 차원변환 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication