CN1591575A - 合成语音的方法和装置 - Google Patents

合成语音的方法和装置 Download PDF

Info

Publication number
CN1591575A
CN1591575A CNA200410056699XA CN200410056699A CN1591575A CN 1591575 A CN1591575 A CN 1591575A CN A200410056699X A CNA200410056699X A CN A200410056699XA CN 200410056699 A CN200410056699 A CN 200410056699A CN 1591575 A CN1591575 A CN 1591575A
Authority
CN
China
Prior art keywords
data
unit
coding
parameter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200410056699XA
Other languages
English (en)
Other versions
CN1307614C (zh
Inventor
饭岛和幸
西口正之
松本淳
大森士郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1591575A publication Critical patent/CN1591575A/zh
Application granted granted Critical
Publication of CN1307614C publication Critical patent/CN1307614C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Abstract

一种以控制的速度复制语音的方法,其编码单元鉴别输入语音信号是浊音还是清音信号。依鉴别结果,编码单元对判定为浊音的信号部分执行正弦合成和编码,对判定为清音的信号部分由对最优矢量的检索使用综合分析方法执行矢量量化、解码单元产生与对应于预先设定祯的不同时间点相关的修改的已编码参数。语音合成单元合成浊音部分和清音部分。用编码的数据输出单元输出编码的位流或编码的数据。波形合成单元合成语音波形。

Description

合成语音的方法和装置
本发明申请是申请日为1996年10月26日、申请号为96121905.X的名为“复制语音信号的方法和装置,解码语音的方法和装置,合成语音的方法和装置以及便携式无线电终端设备”的专利申请的一个分案申请。
技术领域
本发明涉及的是以一受控速度复制语音信号的方法和装置,解码语音信号的方法和装置和合成语音信号的方法和装置,其中音调变换可以由简化的结构实现。本发明还涉及发射和接收音调变换的语音信号的便携式无线电终端设备。
背景技术
迄今为止已知各种编码音频信号(包括语音和声学信号)的编码方法,它们使用这些信号在时域和在频域的统计特性和人耳的心理声学特征压缩信号。这些编码方法可以粗略地分为时域编码、频域编码和分析/合成编码。
语音信号高效编码的例子包括正弦分析编码,例如谐波编码、多频带激励(MBE)编码、子频带编码(SBC)、线性预测编码(LPC)、离散余弦变换(DCT)、修改DCT(MDCT)和快速富里叶变换(FFT)。
同时,通过时轴处理的高效语音编码方法,像典型的码激励线性预测(CELP)编码,在快速时轴变换(修改)上遇到困难,因为在解码操作后需要执行大量的处理操作。此外,由于速度控制是在解码后在时域执行,因此该方法不能用于位速率变换。
另一方面,如果打算解码用上述编码方法编码的语音信号,常常希望只改变语音的音调而不改变其音素。然而,使用通常的语音解码方法,解码的语音必须使用音调控制变换音调,使结构变得复杂,同时增加成本。
发明内容
因此,本发明的一个目的是提供复制语音信号的一种方法和装置,其中可以使速度在宽的范围内控制到一个希望的速率得到高的声音质量而不改变音素或音调。
本发明的另一目的是提供解码语音信号的方法和装置和合成语音的方法和装置,其中可以使用简化的结构实现音调变换或音调控制。
本发明的再一目的是提供发射和接收语音信号的便携式无线电终端设备,其中可以使用一个简化的结构发射和接收音调变换的或音调受控的语音信号。
使用按照本发明的语音信号复制方法,输入语音信号在时轴上根据预先设定的编码单元切分来产生编码的参数,将其插值,为希望的时间点产生修改的已编码参数,并根据这些修改的已编码参数复制语音信号。
使用按照本发明的语音信号复制装置,输入语音信号在时轴上根据预先设定的编码单元切分来产生编码的参数,将其插值,为希望的时间点产生修改的已编码参数,然后根据这些修改的已编码参数复制语音信号。
使用该语音信号复制方法,用不同于编码的块长,使用根据预先设定的块作为单元在时轴切分输入语音信号而得到的编码的参数,并根据编码块编码切分的语音信号复制语音。
使用根据本发明的语音解码方法和装置,变换在输入编码语音数据的谐波的一个预先设定的频带内的基本频率和数目,并插值说明在每一输入谐波中谱分量振幅的数据数目来修改音调。
编码时使用大小变换修改音调频率,其中把谐波数设定为一个预先设定值。在这种情况下,语音压缩解码器可以同时用作文本语音合成的语音合成器。对于日常语音发声,通过压缩和扩展得到清晰的回放语音,而对于特殊的语音合成,使用文本合成或按照预定的规则合成来构成高效语音输出系统。
使用根据本发明的语音信号复制方法和装置,输入语音信号在时轴上根据预先设定的编码单元切分,并根据该编码单元编码以便寻找已编码参数,然后将其插值,为希望的时间点寻找修改的已编码参数。然后根据修改的已编码参数复制该语音信号,从而在宽的范围内容易地实现速度控制,不改变音素或音调而具有高品质。
使用根据本发明的语音信号复制方法和装置,用不同于编码的块长,使用根据预先设定的块作为单元在时轴切分输入语音信号而得到的已编码参数,和根据该编码块编码切分的语音信号来复制语音。结果是,在宽的范围内容易地实现速度控制,不改变音素或音调而具有高品质。
使用根据本发明的语音解码方法和装置,变换在输入编码语音数据的谐波中一个预先设定的频带内的基本频率和数目,并插值说明在每一输入谐波中谱分量振幅的数据数来修改音调。结果是,可以使用一个简化的结构改变音调为一个希望的值。
在这种情况下,语音压缩解码器可以同时用作文本语音合成的语音合成器。对于日常语音发声,通过压缩和扩展得到清晰的回放语音,而对于特殊的语音合成,使用文本合成或按照预先规定的规则合成来构成高效语音输出系统。
使用便携无线电终端设备,可以用一个简化的结构发射和接收音调变换到音调受控的语音信号。
附图说明
图1是表示语音信号复制方法和实现按照本发明的语音信号复制方法的一个语音信号复制装置的基本结构的框图;
图2是表示图1所示的语音信号复制装置的编码单元的原理框图;
图3是表示编码单元的详细结构的框图;
图4是表示图1所示的语音信号复制装置的解码单元的原理框图;
图5是表示该解码单元的详细结构的框图;
图6是说明为计算解码单元修改的编码参数的单元的操作流程图;
图7原理说明由修改的编码参数计算单元在时轴上得到的修改的编码参数;
图8是说明由修改的编码参数计算单元执行的详细的插值操作的流程图;
图9A到9D说明插值操作;
图10A到10C说明由修改的编码参数计算单元执行的典型操作;
图11A到11C说明由修改的编码参数计算单元执行的其它典型操作;
图12说明在使帧长变化而由解码单元快速控制速度的情况下的一个操作;
图13说明在使帧长变化而由解码单元慢速控制速度的情况下的一个操作;
图14是表示解码单元另一详细结构的框图;
图15是表示语音合成设备应用实例的框图;
图16是表示文本语音合成装置应用实例的框图;
图17是表示应用编码单元的一个便携式终端的发射器结构的框图;
图18是表示应用编码单元的一个便携式终端的接收器结构的框图。
具体实施方式
参考附图,下面叙述根据本发明的最佳实施例的语音信号复制方法和装置。本实施例是关于根据编码参数复制语音信号的语音信号复制装置1,这些编码参数是在时轴上根据预先规定的帧数作为编码单元切分输入语音信号,并将该切分的输入语音信号编码而得到的,如图1所示。
语音信号复制装置1包括根据作为单元的帧而编码在输入端子101进入的语音信号的编码单元2,它输出例如线性预测编码(LPC)参数、线谱对(LSP)参数、音调、浊音(V)/清音(UV)或谱振幅Am等已编码参数,并且包括通过时轴压缩为修改编码参数的输出时期的时期修改单元3。语音信号复制装置还包括解码单元4,其插值在由时期修改单元3为希望的时间点寻找修改的已编码参数而修改的时期中输出的已编码参数,并根据修改的已编码参数合成语音信号以便在输出端子201输出合成的语音信号。
参考图2和图3解释编码单元2。编码单元2根据鉴别结果判定输入语音信号是浊音信号还是清音信号,并对判定为浊音的信号部分执行正弦合成编码,而对判定为清音的信号部分通过使用综合分析方法进行的最优矢量的闭环检索执行矢量量化。也就是说,编码单元2包括第一编码单元110,它为寻找输入语音信号的短期预测残数,例如线性预测编码(LPC)残数,执行正弦分析编码,例如谐波编码,编码单元2还包括第二编码单元120,其通过传输输入语音信号的相位分量执行波形编码。第一编码单元110和第二编码单元120分别用于编码浊音(V)部分和清音(UV)部分。
在图2的实施例中,供给输入端子101的语音信号送往第一编码单元110的逆LPC滤波器111和LPC分析量化单元113。从LPC分析/量化单元113或所谓的α参数得到的LPC系数送往逆LPC滤波器111以通过该逆LPC滤波器111取出输入语音信号的线性预测残数(LPC残数)。从LPC分析/量化单元113取出线性谱对的量化输出,其在后面叙述,并送往输出端子102。从逆LPC滤波器111来的LPC残数送往正弦分析编码单元114,正弦分析编码单元114由浊音(V)/清音(UV)鉴别单元115执行音调检测、谱包络线振幅计算和V/UV。从正弦分析编码单元114来的谱包络线振幅数据送往矢量量化单元116。从矢量量化单元116来的码表指数作为谱包络线的矢量量化输出经由开关117送往输出端子103,而正弦分析编码单元114的输出通过开关118送往输出端子104。从浊音/清音鉴别单元115来的浊音/清音鉴别输出送往输出端子105和开关117和118作为开关控制信号。对于浊音(V)信号,选择指数和音调以便在输出端子103、104取出。对在矢量量化器116的矢量量化,将一个用于对频率轴上的有效频带块的振幅数据进行插值的适当数目的哑数据附在该块的尾端和前端,该哑数据为从在该块中最后一个振幅数据直到块中第一振幅数据的哑数据,或者为延伸块中最后数据和第一数据的哑数据,以增大数据数目到NF。然后通过频带限制型Os元组采样,例如8元组过采样,寻找振幅数据的Os元组数。振幅数据的Os元组数((mMX+1)×数据的Os数)通过线性插值进一步扩展到一个更大的数NM数,例如21048。该数据通过多中取一而变换为预先规定的数M(例如44),然后在该预先规定的数目的数据上执行矢量量化。
在本实施例中,第二编码单元120有一个码激励的线性预测(CELP)编码配置,并且该编码单元通过使用综合分析方法的闭环检索在时域波形上执行矢量量化。具体地说,噪声码表121的输出由加权合成滤波器122合成产生一个加权合成的语音,送往减法器123,这里寻找加权合成语音和供给输入端子101、继而由感性加权滤波器125处理的语音之间的误差。距离计算电路124计算距离,并在噪声码表121中检索使误差最小的矢量。这一CELP编码用于编码上述清音部分,从噪声码表121来的作为UV数据的码表指数通过开关127在输出端子107取出,开关107在从浊音/清音鉴别单元115的浊音/清音鉴别结果指示一个清音(UV)声音时打开。
参考图3,现在解释图1所示的语音信号编码器的更详细的结构。在图3中,相似于图1中所示的元部件用同样的参考数字表示。
在图3所示的语音信号编码器2中,供给输入端子101的语音信号由高通滤波器109滤波,以滤除不需要的范围的信号,然后供给LPC分析/量化单元113的LPC分析电路132和逆LPC滤波器111。LPC分析/量化单元113的LPC分析电路132应用一个哈明(Hamming)窗,其输入信号波形的长度以256个样本为一块,并通过自相关方法寻找线性预测系数,亦即所谓的α参数。作为数据输出单元的帧区间设定为大约160个样本。如果采样频率fs例如是8kHz的话,则一帧的区间是20毫秒或160个样本。
从LPC分析电路132得到的α参数送往α-LSP变换电路133变换为线性谱对(LSP)参数。它把α参数作为直接型滤波器系数变换为例如10,也就是说,5对LSP参数。这种变换例如可以用牛顿-拉普森(Newton-Rhapson)方法实现。把α参数变换成LSP参数的理由是LSP参数在插值特征上高于α参数。
从α-LSP变换电路133来的LSP参数由LSP量化器134矩阵量化或矢量量化。有可能在矢量量化或收集多帧到一起之前取帧对帧的差别执行矩阵量化。在现在的例子中,每20毫秒计算的LSP参数以每帧20毫秒矢量量化。
在端子102取出量化器134的量化输出,亦即LSP量化的索引数据到解码单元103,而量化了的LSP矢量送往一个LSP插值电路136。
LSP插值电路136插值每20毫秒或40毫秒量化的LSP矢量,以提供一个8元组速率。也就是说,LSP矢量每2.5毫秒更新。理由是,如果残数波形通过谐波编码/解码方法用分析/合成处理,则合成波形的包络线描述一个极度平静的波形,以致,如果LPC系数每20毫秒突然改变,则可能产生一个外部噪声。也就是说,如果LPC系数每2.5毫秒逐渐改变有可能阻止产生这样的外部噪声。
对于使用每过2.5毫秒产生的插值的LSP矢量的输入语音的逆滤波,LSP参数由一个LSP到α的变换电路137变换为作为例如10阶直接型滤波器的系数的α参数。LSP到α的变换电路137的输出送往LPC逆滤波器电路111,然后它执行逆滤波,以产生一个使用α参数每2.5毫秒更新的平滑输出。逆LPC滤波器111的输出送往正弦分析编码单元114,例如一个谐波编码电路的正交变换电路145,例如一个DCT电路。
从LPC分析/量化单元113的LPC分析电路132来的α参数送往一个感性加权滤波器计算电路139,这里寻找感性加权数据。这些加权数据送往第二编码单元120的感性加权矢量量化器116,感性加权滤波器125和感性加权的合成滤波器122。
谐波编码电路的正弦分析编码单元114用谐波编码方法分析逆LPC滤波器111的输出。亦即,执行音调检测,代表谐波的振幅Am的计算和浊音(V)/清音(UV)辨别,以及用大小变换维持由音调改变的代表谐波的振幅(Am)后包络线的数目。
在图3所示的正弦分析编码电路114的例子中,使用平常的谐波编码。特别在多频带激励(MBE)编码中,提取模型时假定浊音部分和清音部分在同一时间点(在同一块或帧)出现在频域或频带中。在其它谐波编码技术中,唯一判别在一块或一帧中的语音是否是浊音或清音。在下面的叙述中,如果整个频带是UV,则判定一个给定帧为UV,只要涉及到MBE编码的话。
图3的正弦分析编码单元141的开环音调检索单元141和过零计数器142由分别由从输入端子101来的输入语音信号和从高通滤波器(HPF)109来的信号供给。正弦分析编码单元114的正交变换电路145由从逆LPC滤波器111来的LPC残数或线性预测残数供给。开环音调检索单元141取输入信号的LPC残数通过开环检索执行相对粗音调检索。提取的粗音调数据由闭环检索送往细音调检索单元146,其在后面叙述。从开环音调检索单元141,通过正规化LPC残数的自相关的最大值与粗音调数据得到的正规化自相关的最大值r(p)连同粗音调数据取出,以便送往浊音/清音鉴别单元115。
正交变换电路145执行正交变换,例如离散富里叶变换(DFT),为变换时间轴上的LPC残数为频率轴上的谱振幅数据。正交变换电路145的输出送往细音调检索单元146和谱评测单元148来评估谱振幅或包络线。
细音调检索单元146用由开环音调检索单元141提取的相对粗音调数据和由正交变换电路145得到的频域数据供给。细音调检索单元146围绕粗音调数据为中心以0.2到0.5的速率以±几个样本摆动音调数据,以便最终达到具有最优十进数点(浮点)的细音调数据的值。使用综合分析方法作为选择音调的细检索技术使得功率谱接近于原来信号的功率谱。从闭环细音调检索单元146来的音调数据通过开关118送往输出端子104。
在谱评测单元148中,根据谱振幅和作为LPC残数的正交变换输出评估每一谐波的振幅和作为这些谐波的和的谱包络线并送往细音调检索单元146、浊音/清音鉴别单元115和感性加权矢量量化单元116。
浊音/清音鉴别单元115根据正交变换电路145的输出、从细音调检索单元146来的最优音调、从谱评测单元148来的谱振幅数据、从开环音调检索单元141来的正规化自相关的最大值r(p)和从过零计数器来的过零计数值鉴别一帧的浊音/清音。另外,对于MBE,也可以利用基于频带的浊音/清音鉴别的边界位置为浊音/清音鉴别的条件。浊音/清音鉴别单元115的鉴别输出在输出端子105取出。
把一些数据变化单元(执行一种采样速率变换的一个单元)供给谱评测单元148的输出单元或矢量量化单元116的输入单元。考虑到在频率轴上分解的频带数和数据数目与音调不同这一事实,使用数据数目变换单元设定一个包络线的振幅数据。也就是说,如果有效频带到3400千赫,则根据音调可以分解该有效频带为8到63个频带。从频带到频带得到的振幅数据|Am|的mMX+1的数目在8到63的范围内变化。于是数据数目变换单元119变换变化的数目mMX+1的振幅数据为数据的一个预先设定数M,例如44个数据
从数据数目变换单元供给到谱评测单元148的输出单元或矢量量化单元116的输入的比如44个的预先设定数M个振幅数据或比如44个的包络线数据根据预先设定数收集为单元,并由感性加权滤波器计算单元139矢量量化。从矢量量化器116来的包络线指数在输出端子103经由开关117取出。在对加权的矢量量化之前,建议为由预先设定数目的数据组成的矢量使用合适的泄漏系数取帧间差。下面说明第二编码单元120。第二编码单元120具有码激励线性预测(CELP)编码结构,并特别用于输入语音信号的清音部分编码。在为清音部分的CELP编码结构中,相应于清音部分的LPC残数的噪声输出为噪声码表亦即所谓的随机码表121的代表输出通过增益电路126送往感性加权的滤波器122。从输入端子101经由高通滤波器(HPF)109提供并由感性加权滤波器125感性加权的语音信号供给减法器123,在这里得到感性加权的语音信号与从合成滤波器122来的信号之间的差或误差。这一误差供给距离计算电路124以找出距离,并由噪声码表121检索使误差最小的代表值矢量。上述即是使用闭环检索接着使用综合分析方法的时域波形矢量量化的总结。
作为从第二编码器120来的使用CELP编码结构的清音(UV)部分的数据,从噪声码表121来的码表的形状指数、从增益电路126码表来的增益指数被取出。作为从噪声码表121来的UV数据的形状指数通过开关127s送往输出端子107s,而作为增益电路126的UV数据的增益指数通过开关127g送往输出端子107g。
根据从V/UV鉴别单元115得到的V/UV鉴别结果打开或关闭这些开关127s、127g和开关117、118。具体地说,要传输的语音信号帧的V/UV鉴别结果指示为浊音(V)时,打开开关117、118;而如果要传输的语音信号帧为清音(UV)时,打开开关127s、127g。
由编码单元2输出的编码参数供给时期修改单元3。时期修改单元3通过时间轴的压缩/扩展修改输出时期。在由时期修改单元3修改的时期中输出的编码的参数送往解码单元4。
解码单元4包括一个为插值编码参数的参数修改单元5,其由时期修改单元3沿时间轴使用示例的方法压缩,产生与预先设定的帧的时间点关联的修改过的编码参数,还包括一个为根据修改的编码参数合成浊音信号部分和清音信号部分的语音合成单元6。
参考图4和图5说明解码单元4。在图4中,码表指数数据,作为从时期修改单元3来的线性谱对(LSPs)的量化输出数据供给输入端子202。时期修改单元3的输出,也就是说指数数据,作为量化包络线数据、音调数据和V/UV鉴别输出数据分别供给输入端子203、204和205。从时期修改单元3来的指数数据作为清音部分的数据还供给输入端子207。
从输入端子203来的指数数据作为量化了的包络线输出送往逆矢量量化器212矢量量化以寻找LPC残数的谱包络线。在送往浊音合成单元211之前,LPC残数的谱包络线在靠近图4中的用箭头P1指示的点临时取出,由参数处理器5进行参数修改,其在后面说明。然后指数数据送往浊音合成单元211。
浊音合成单元211使用正弦合成方法合成浊音信号部分的LPC残数。音调和V/UV鉴别数据分别进入输入端子204、205,并在图4中的点P2和P3处临时取出,由参数修改单元5修改参数,其类似地供给浊音合成单元211。从浊音合成单元211来的浊音的参数送往LPC合成滤波器214。
从输入端子207来的UV数据的指数数据送往清音合成单元220。UV数据的指数数据由浊音合成单元220参考噪声码表变为清音部分的LPC残数。UV数据的指数数据从清音合成单元220临时取出,由在图4中的点P4指示的参数修改单元5修改参数。这样用参数修改处理的LPC残数也送往LPC合成滤波器214。
LPC合成滤波器214在浊音信号部分的LPC残数上和在清音信号部分的LPC残数上执行独立的合成。可选的另外方案为可以在浊音信号部分的LPC残数和清音信号部分的LPC残数加在一起之上执行LPC合成。
从输入端子202来的LSP指数数据送往LPC参数再生单元213。虽然LPC的α参数最终由LPC参数再生单元213产生,但是LSP的逆矢量量化的数据由箭头P5指示的参数修改单元5部分地取出进行参数修改。
用参数修改如此处理的去量化数据返回到这一LPC参数再生单元213进行LPC插值。然后去量化数据转变为LPC的α参数供给LPC合成滤波器214。由LPC合成通过LPC合成滤波器214得到的语音信号在输出端子201取出。图4中所示的语音合成单元6接收修改的已编码参数,由参数修改单元5如上所述计算,而输出合成的语音。语音合成单元的实际结构示于图5,其中相应于图4所示的元部件由同样的数字表示。
参考图5,进入输入端子202的LSP指数数据送往LPC参数再生单元213的LSPs的逆矢量量化器231,以便逆矢量量化为LSPs(线性谱对),其供给参数修改单元5。
从输入端子来的谱包络线Am的矢量量化指数数据送往逆矢量量化器212进行逆矢量量化并转变为谱包络线数据送往参数修改单元5。
从输入端子204、205来的音调数据和浊音/清音鉴别数据也送往参数修改单元5。
从图3的输出端子107s和107g通过时期修改单元3供给图5的输入端子207s和207g作为UV数据的形状指数数据和增益指数数据。然后形状指数数据和增益指数数据供给清音合成单元220从端子207s来的形状指数数据和从端子207g来的增益指数数据分别供给清音合成单元220的噪声码表221和增益电路222。从噪声码表221读出的代表值输出是相应于清音的LPC残数的噪声信号分量,并成为增益电路222的预先设定增益的振幅。结果信号供给参数修改单元5。
参数修改单元5插值由编码单元2输出并使其输出时期由时期修改单元3修改的已编码参数,以产生修改的已编码参数,供给语音合成单元6。参数修改单元3修改已编码参数的速度。这消除了解码器输出后的速度修改操作,并允许语音信号再生设备1以与类似算法不同的固定速率处理。
参考图6和图8的流图,解释时期修改单元3和参数修改单元5。
在图6的步骤S1时期修改单元3接收编码参数,例如LSPs、音调、浊音/清音(V/UV)、谱包络线Am和LPC残数。LSPs、音调、(V/UV)、Am和LPC残数分别表示为Lsp[n][p]、Peh[n]、VUv[n]/am[n][k]和res[n][i][j]。
最终由参数修改单元5计算的修改的编码参数表示为mod_lsp[m][p]、mod_Pch[m]、mod_UVv[m]、mod_am[m][k]和mod_res[m][i][j],其中k和p分别表示谐波数和LSP的阶数。每一个n和m分别表示相应于时间轴变换前和后的时域指数数据的帧数。同时,每一个n和m表示具有间隔为20毫秒的帧的指数,而i和j分别表示子帧数和采样。
然后时期修改单元3分别设定代表原始时间区间的帧数为N1,代表修改以后的时间区间的帧数为N2,如步骤S2所示。然后时期修改单元进行语音N1到语音N2的时间轴压缩,如步骤S3所示。也就是说,在时期修改单元3的时间轴压缩比率是spd=N2/N1,限制条件为0≤n<N1和0≤m<N2。
然后参数修改单元5设定相应于帧数,依次相应于时间轴修改后的时间轴的指数m为2。
然后参数修改单元5找两个帧fr0和fr1和在两帧fr0和fr1之间的左差和右差以及比率m/spd。
如果参数lsp、Pch、UVv、am和res表示为*,则*[m]可以由生成公式
                       mod_*[m]=*[m/spd]
其中0≤m<N。然而,由于m/spd不是一个整数,所以在m/spd处的修改的已编码参数从下列两帧
                       fr0=[m/spd]
                       fr1=fr0+1
的插值产生。
在帧fr0,即m/spd和帧fr1之间,图7所示的关系式,即
                     左=m/spd-fr0
                     右=fr1-m/spd
成立。
对在图7中的m/spd的已编码参数,亦即修改的已编码参数可以由内插找到,如步骤S6所示。
可以简单地通过线性插值找到修改的编码参数:
mod_*[m]=*[fr0]×右+*[fr1]×左
然而,对于在两帧fr0和fr1之间的插值,如果两帧不同于V/UV,也就是说,如果其中之一是V,而另一个是UV,则不能使用上面的一般的公式。因此,参数修改单元5改变该方法,根据两帧fr0和fr1的浊音(V)和清音(UV)特征来寻找编码参数,其在图8的步骤11等指出。
首先,如步骤11所示,确定两帧fr0和fr1的浊音(V)和清音(UV)特征。如果发现这两帧fr0和fr1都是浊音(V)处理转移到步骤S12,这里所有的参数都线性插值,并由下式表示:
mod_Pcb[m]=Pch[fr0]×右+Pch[fr1]×左
mod_am[m][k]=am[fr0][k]×右+am[fr1][k]×左式中0≤k<1,L是谐波的最大可能数。对于am[fr1][k],0插在无谐波的位置。如果谐波数在帧fr0和fr1之间不同,则凡在空的位置均插入0。另一方案为,在通过解码器侧一些数据转换器之前,可能使用一个固定的数,例如0≤k<L,这里L=43。
mod_lsp[m][p]=lsp[fr0][p]×右+lsp[fr1][p]×左式中0≤p<P,其中P表示LSP的阶数,通常为10。
mod_VUv[m]=1
在V/UV鉴别中,1和0分别表示浊音(V)和清音(UV)。
如果在步骤S11,判定两帧fr0和fr1均不是浊音(V),则在步骤S13判定两帧fr0和fr1是否都是清音(UV)。如果在步骤S13的判定结果为是,也就是说,如果两帧都是清音,则插值单元5以m/spd作为中心和以pch作为最大值在res的前和后切分80个样本,如步骤S14所示。
结果是,如果在步骤S14左<右,则以m/spd为中心在res的前和后切分80个样本,并插入res的模中,如图9A所示。也就是说,
对于(j=0;j<FRM×(1/2-m/spd+fr0);j++{mod res[m][o][j]
=res[fr0][o][j+(m/spd-fr0)×FRM];}
对于(j=FRM×(1/2-m/spd+fr0);j<FRM/2;j++){mod res[m][o][j]=res[m][o][j]=res[fr0][l][j-FRM×(1/2-m/spd+fr0)];};
对于(j=0;j<FRM×(1/2-m/spd+fr0);j++){mod res[m][l][j]
=res[fr0][l][j+m/spd-fr0)×FRM];};
对于(j=FRM×(1/2-m/spd+fr0);j=FRM/2;j++){modres[m][l][j]
=res[fr0][o][j+FRM×(1/2-m/spd+fr0)];};式中FRM例如取160。
另一方面,如果在步骤S14,左≥右,则插值单元5以m/spd为中心在res的前和后切分80个样本,以产生mod_res,如图9B所示。
如果在步骤S13条件不满足,处理转移到步骤S15,这里判定帧fr0是否是浊音(V)和帧fr1是否是清音(UV),如果判定的结果为是,也就是说,如果帧fr0是浊音(V)和帧fr1是清音(UV),处理转移到步骤S16。如果判定结果为否,也就是说,如果帧fr0是清音(UV),帧fr1是浊音(V),处理转移到步骤S17。
在步骤S15等的向下处理中,两帧fr0和fr1不同于浊音/清音,也就是说浊音(V)和清音(UV)。这考虑了下述事实,如果在不同于V/UV的两帧之间插值参数的话,则插值结果没有意义。
在步骤S16,比较左尺寸(=m/spd-fr0)和右尺寸(=fr1-m/spd)以判定帧fr0是否接近m/spd。
如果帧fr0接近m/spd,使用帧fr0的参数设定修改的已编码参数,使得
mod_Pch[m]=Pch[fr0]
mod_am[m][k]=am[fr0][k],其中0≤k≤L;
mod_lsp[m][p]=lsp[fr0][p],其中0≤p≤I;和
mod_UVv[m]=1
如步骤S18所示。
如果在步骤S16的判定结果为否,即左≥右,使得帧fr1更接近,则处理转移到步骤S19使音调最大。同时,直接使用帧fr1的res如图9C所示,并设定为mod_res。亦即mod_res[m][i][j]=resfr1[i][j]。理由是,对于浊音帧fr0不传输LPC残数res
在步骤S17,根据在步骤S15给出的判定,即两帧fr0和fr1分别为清音(UV)和浊音(V),给出类似于步骤S16的判定。也就是说,比较左大小(=m/spd-fr0)和右大小(=fr1-m/spd)以便判定fr0是否接近m/spd。
如果帧fr0接近m/spd,处理转移到步骤S18使音调最大。同时,直接使用帧fr0的res并设定为模res。也就是说mod_res[m][i][j]=resfr0[i][j]理由是,对于浊音帧fr1,不传输LPC残数res
如果在步骤S17的判定结果为否,左≥右,因此帧fr0接近m/spd,处理前进到步骤S21,并使用帧fr1的参数设定修改的已编码参数,使得
mod_Pch[m]=Pch[fr1]
mod_am[m][k]=am[fr1][n],其中0≤k≤L;
mod_lsp[m][p]=lsp[fr1][p],其中0≤p≤I;
mod_Vuv[m]=1
以这种方式,插值单元5根据两帧fr0和fr1的浊音/清音特征在图6的步骤S6(更详细地示于图8)提供不同的插值操作。在步骤S6的插值结束后,处理转移到步骤S7使m增量。步骤S5和S6的操作重复,直到m的值等于N2。
参考图10集中解释时期修改单元3和参数修改单元5的操作。参考图10,由编码单元2每20毫秒提取编码参数的时期通过时期修改单元5执行的时间轴压缩修改为15毫秒,如图10A所示。在响应两帧fr0和fr1的V/UV状态执行的插值操作中,参数修改单元每20毫秒计算修改的已编码参数,如图10C所示。
时期修改单元3和参数修改单元5的操作顺序可以倒过来,也就是说首先对在图11A中所示的已编码参数进行如图11B中的插值,接着如图11C进行压缩以计算修改的已编码参数。
返回到图5,LSP上的数据的修改的已编码参数lsp[m][p]由参数计算单元5计算,送往LSP插值电路232v、232u进行LSP插值。结果数据由LSP到α变换电路234v、234u变换为用于线性预测编码(LPC)的α参数,送往LPC合成滤波器214。LSP插值插电路232v和LSP到α变换电路234v用于浊音(V)信号部分,而LSP插值电路234u和LSP到α变换电路234u用于清音(UV)信号部分。LPC合成滤波器214由一个用于浊音部分的LPC合成滤波器236和一个用于清音部分的LPC合成滤波器237组成。也就是说,LPC系数的插值对于浊音部分和清音部分独立地进行,以防止在具有完全不同特征的插值时在从浊音部分到清音部分的过渡区域或在从浊音部分到清音部分的过渡区域可能产生的不良影响。
由参数修改单元5找到的谱包络线数据上的修改的已编码参数mod_am[m][k],送往浊音合成单元211的正弦合成电路215。由参数修改单元5计算的音调mod_pch[m]上的修改的已编码参数和在V/UV判定数据上的修改的已编码参数mod_UVv[m]也供给浊音合成单元211。相应于图3的LPC逆滤波器111的输出的LPC残数数据从正弦合成电路215取出送往加法器218。
由参数修改单元5找到的谱包络线数据上的修改的已编码参数mod_am[m][k]、音调上的修改的已编码参数起mod_Pch[m]和浊音/清音判定数据上的修改的已编码参数mod_UVv[m]送往噪声合成电路216为浊音(V)部分进行噪声相加。噪声合成电路216的输出通过加权叠加电路217送往加法器218。特别地说,考虑了来自已编码语音数据的参数的噪声,例如音调谱包络线振幅、在帧或残数信号级中的最大振幅,加在LPC合成滤波器输入的LPC残数信号的浊音部分,它是激励信号,考虑到如果对LPC合成滤波器的浊音的输入,它是激励信号,是由正弦合成产生的话,则在低音调声音中,例如男人的语音,产生“窒息的”感觉,而在声音质量在V和UV部分之间迅速改变时,就会产生不自然的感觉。
加法器218的和输出送往用于浊音的合成滤波器236,在这里由LPC合成产生时间波形数据。另外,结果时间波形数据由一个后滤波器238v滤波,然后供给加法器239。
注意如前所述,LPC合成滤波器214分为为V用的合成滤波器236和为UV用的合成滤波器237。如果合成滤波器不按这种方式分开,亦即如果在V和UV信号部分之间不加区别连续地每20个样本或每2.5毫秒对LSPs进行插值的话,则在V到UV和UV到V的过渡部分完全不同的特征的LSPs插值,于是产生外部声音。为防止这种不良的效应,分开LPC合成滤波器为V的滤波器和为UV的滤波器以便独立地对V和UV插值LPC系数。
由参数修改单元5计算的LPC残数上的修改的编码参数mod_res[m][i][j]送往窗口电路223以便用浊音部分平滑连接部分。
窗电路223的输出送往LPC合成滤波器214的为UV的合成滤波器237作为清音合成单元220的输出。合成滤波器237执行数据的LPC合成,为清音部分提供时间波形,其由为清音的后滤波器238u滤波,然后供给加法器239。
加法器239把从为浊音的后滤波器238v来的浊音部分的时间波形加到从为清音部分的后滤波器238u来的清音部分的时间波形数据上并把结果数据在输出端子201上输出。
使用现在的语音信号再生设备1,代替固有矩阵*[^],其中0≤n<N1,以这种方式解码一个修改的已编码参数矩阵mod_*[m],式中0≤m<N2,。解码时期的帧区间可以固定为例如通常的20毫秒。在这种情况下,时间轴压缩和因而得到的再生率的加速可能在N2<N1下实现,而时间轴的扩展和因而得到的再生率的减速可能在N2>N1下实现。
使用本系统,最终得到的参数串放在一个固有间隔为20毫秒的矩阵中供解码,以便可以容易地实现最优加速。此外,加速和减速的实现使用同一处理操作不需任何区别。其结果是,可以以两倍于实时速度的速度复制固态纪录的内容。由于不管增加的放音速度音调和音素保持不变,所以可以容易地辨别纪录的内容而不管以显著增加的放音速度复制。
如果N2<N1,也就是说如果放音速度降低,则由于在清音的场合复数参数mod_res从同一LPC残数res产生。所以放出的声音可能不自然。在这种情况下,在参数mod_res上可以加一个适当数量的噪声以消除这种不自然到一定程度。也可以应用适当产生的高斯噪声或从码表中随机选择的激励矢量代替参数mod_res而不用加噪声。
使用上述语音信号复制设备1,从编码单元2来的编码参数的输出时期的时间轴由时期修改单元3为加速复制速度而压缩。不过,帧长度可以由解码单元4改变以控制复制速度。
在这种情况下,由于帧长度是可变的,而帧数目n在解码单元4的参数修改单元5产生参数前和后不变。
参数修改单元5还分别修改参数,lsp[n][p]和UVv[m]为mod_lsp[n][p]和mod_UVv[n],而不管所涉及的帧是浊音还是清音。
如果mod_UVv[m]是1,也就是说如果所涉及的帧是浊音(V),则参数Pch[n]和am[n][k]分别修改为mod_Pch[n]和mod_am[n][k]。
如果mod_UVv[m]是0,也就是说如果所涉及的帧是清音(V),则参数res[n][i][j]修改为mod_res[n][i][j]。
参数修改单元5直接修改lsp[n][p]、Pch[n]、UVv[n]和am[n][k]为mod_lsp[n][p]、mod_Pch[n]、mod_UVv[m]和mod_am[n][k]。不过参数修改单元根据速度spd改变残数信号mod_res[n][i][j]。
如果速度spd<1.0,也就是说,如果速度较快,则原始信号的残数信号在中间部分切分,如图12所示。如果原始帧长度是OrgFrmL,则从原始帧长度res[n][j]切下(OrgFrmL-FrmL)/2≤j≤(OrgFrmL+frmL)/2给mod_res[n][j]。从原始帧的前端切分也是可以的。
如果速度spd>1.0,也就是说,如果速度比较慢,则使用原始帧而对任何短缺的部分使用加有噪声分量的原始帧。也可以使用加有适当产生的噪声的解码激励矢量。可以产生高斯噪声并用作激励矢量以减少由同样波形的帧的连续而产生的不相容的感觉。上面的噪声分量也可以加在原始帧的两端。
于是,在速度信号复制设备1配置为通过改变帧的长度而改变速度控制的场合,速度合成单元6构造和设计为使LSP插值单元232v和232u、正弦合成单元215和窗单元223执行不同的操作来通过时间轴压缩控制速度。
如果所涉及的帧是浊音帧(V),则LSP插值单元232v寻找满足关系frmL/P≤20的最小整数p。如果所涉及的帧是清音帧(UV),则LSP插值单元232u寻找满足关系frmL/P≤80的最小整数p。为LSP插值的子帧的范围sub1[i][j]由下式确定:
nint(frm L/p×i)≤j≤nint(frm L/P×(j+1),其中0≤i≤p-1
在上式中,nint(x)是一个函数,它通过圆整十分位而返回一个最接近x的整数。对于浊音和清音两者,如果frmL小于20或80,则p=1。
例如,对于第i个子帧,由于该子帧的中心是frmL×(2i+1)/2p,,LSPs以f″颍*″獭粒ǎ玻穑 玻椋 保*/(20:f″颍*″獭粒*2i+1)/2p的速率插值,如同在我们的待审日本专利申请6-198451中公开的。
另一方案为,子帧数目可以固定,而每一子帧的LSPs可以以同一速率在任何时间插值。正弦合成单元223修改窗长度以与帧长度frmL匹配。
使用上述语音信号复制设备1,对于输出时期在时间轴上被压缩的已编码参数,使用时期修改单元3和参数修改单元5修改,以改变复制速度而不改变音调和音素。不过也可以省略时期修改单元3而由编码单元2通过在图14中所示解码单元8的一些数据变换单元270处理这些已编码数据,改变音调而不改变音素。在图14中,用同样的数字指示相应于图4所示的元部件。
解码单元8所基于的基本概念是在一个预先设定的频带中变换从编码单元2来的编码语音数据的谐波的基本频率和振幅数据的数目,它使用作为数据变换设备的一定数目的数据变换单元270执行只变换音调而不改变音素的操作。数据数目变换单元270通过修改说明在每一输入谐波中的谱分量大小的数据数目改变音调。
参考图14,相应于图2和图3的输出端子102的输出的一个LSPs的矢量量化输出,或码表指数,供给输入端子202。
LSP指数数据送往LPC参数复制单元213的逆矢量量化器231为逆矢量量化为线性谱对(LSPs)。LSPs送往LSP插值电路232、233进行插值,然后供给LSP到α变换电路234、235以变换为线性预测码的α参数。这些α参数送往LPC合成滤波器214。LSP插值电路232和α变换电路234用于浊音(V)信号部分,而LSP插值电路233和LSP到α变换电路235用于清音(UV)信号部分。LPC合成滤波器214由用于浊音部分的一个LPC合成滤波器236和用于清音部分的一个LPC合成滤波器237组成。也就是说,LPC系数插值对浊音部分和清音部分独立地执行,以防止在插值从浊音部分到清音部分的过渡区域和从清音部分到浊音部分的过渡区域完全不同特征的LSPs可能引起的不良影响。
在图14的输入端子203上供有相应于在图2和图3所示的编码器的端子103的输出的谱包络线Am的加权矢量量化代码指数数据。在输入端子205供有从图2和图3的端子105来的浊音/清音判定数据。
从输入端子203来的谱包络线Am的矢量量化指数数据送往逆矢量量化器进行逆矢量量化。逆矢量量化的包络线的振幅数据的数目固定为一个预先设定的值例如44。基本上,变换数据数目为给出相应于音调数据的谐波数目。如果希望改变音调,例如在本实施例中这样,从逆矢量量化器212来的包络线数据送往数据数目变换单元270为例如通过插值改变振幅数据的数目,取决于希望的音调值。
数据数目变换单元270还由从输入端子204来的音调数据供给使得在编码时期的音调改变为一个希望的音调输出。振幅数据和修改的音调数据送往浊音合成电路211的正弦合成电路215。供给合成电路215的振幅数据的数目相应于从数据数目变换单元270来的LPC残数的谱包络线的修改后的音调。
有多种插值方法用于使用数据数目变换单元270来改变LPC残数的谱包络线的振幅数据数目。例如,为插值在频率轴上有效频带块的振幅数据从在该块中最后一个振幅数据直到块中第一振幅数据的一适当数目的哑数据或延伸块中最左端(第一数据)到最右端(最后数据)的哑数据附在块中的振幅数据上以增大数据数目到NF。然后通过频带限制型Os元组过采样,例如8元组过采样寻找一个振幅的Os元组数。振幅数据的Os元组数((mMX+1)×数据的Os数)通过插值进一步扩展到一个更大的数NM,例如2048。这一NM数目数据通过多中取一而变换为预先设定的数M(例如44),然后对该预先设定的数目的数据执行矢量量化。
作为对数据数目变换单元270的操作示例,说明对音调延迟的频率为F0=fs/L的情况,式中fs是采样频率,为fs=8千赫兹=8000赫兹。
在这种情况下,音调频率F=8000/L,而有n=L/2的谐波设定到4000赫兹。在3400Hz的一般语音范围中,谐波数目为(L/2)×(3400/4000)。它们在进行矢量量化之前由上述数据数目变换或大小变换变换到例如44。如果只是要改变音调,则没有必要进行量化。
在逆矢量量化后,谐波数目44可以由数据数目变换单元270通过大小变换改变为一个希望的数目,也就是说变为一个希望的音调频率Fx。相应于音调频率Fx(Hz)的音调延迟Lx为Lx=8000/Fx,这样,设定到3400赫兹的谐波的数目为(Lx/2)×(3400/4000)=(4000/Fx)×(3400/4000)=3400/Fx即3400/Fx。也就是说通过大小变换或在数据数目变换单元270中的数据数目变换执行从44到3400/Fx就足够了。
如果在执行谱数据的矢量量化之前的编码时期发现帧与帧的差,则在逆矢量量化后解码帧与帧的差。然后执行数据数目的变换以产生谱包络线数据。
正弦合成电路215不只由音调数据和从数据数目变换单元270来的LPC残数的谱包络线振幅数据供给,还由从输入端子205来的浊音/清音判定数据供给。从正弦合成电路215取出LPC残数数据并送往加法器218。
从逆矢量量化器212来的包络线数据、从输入端子204来的音调数据和从输入端子205来的浊音/清音判定数据送往噪声加法电路216为浊音(V)部分进行噪声相加。具体地说,考虑了从已编码语音数据来的参数的噪声,例如音调谱包络线振幅,帧或残数信号级中的最大振幅,加到LPC残数信号的浊音部分作为LPC合成滤波器的输入,它是激励信号,考虑到如果对浊音的LPC合成滤波器的输入,它是激励信号,是由正弦合成产生的话,则在低音调声音中,例如男人的语音,产生“窒息的”感觉,而在声音质量在V和UV语音部分之间迅速改变时,就会产生不自然的感觉。
加法器218的和输出送往为浊音的合成滤波器236,这里由LPC合成产生时间波形数据。另外,结果时间波形数据为由浊音数据的一个后滤波器238v滤波,然后供给加法器239。
在图14的输入端子207s和207g上供给形状指数数据和增益指数数据作为通过时期修改单元3从图3的输出端子107s和107g来的UV数据。然后形状指数数据和增益指数数据供给清音合成单元220。从端子207s来的形状指数数据和从端子207g来的增益指数数据分别供给清音合成单元220的噪声码表221和增益电路222。从噪声码表221读出的代表值输出是相应于清音的LPC残数的噪声信号分量而成为增益电路222中一个预先设定的增益的振幅。预先设定的增益振幅的代表值输出送往窗电路223以平滑到浊音信号部分的连接部分。
窗电路223的输出作为清音合成单元220的输出送往LPC合成滤波器214的为清音(UV)部分的合成滤波器237。窗电路223的输出由合成滤波器237用LPC合成处理而给出清音信号部分的时域波形信号,然后由为清音部分的后滤波器238u滤波再供给加法器239。
加法器239把从为浊音的后滤波器238v来的浊音信号部分的时域波形信号加到从为清音信号部分的后滤波器238u来的清音信号部分的时域波形数据上。结果和信号在输出端子201上输出。
从上面可以看到,通过改变谐波的数目而不改变谱包络线的形状可以改变音调而不改变语音的音素。于是,如果一个语音模式的已编码数据,亦即编码位流可用的话,则可以为合成有选择地改变音调。
参考图15,由图2和图3的编码器编码而获得的已编码数据的编码位流通过编码数据输出单元301输出。在这些数据中,至少音调数据和谱包络线数据通过数据变换单元302送往波形合成单元303。与音调变换无关的数据,例如浊音/清音(V/UV)判定数据直接送往波形合成单元303。
波形合成单元303根据谱包络线数据或音调数据合成语音波形。自然,在图4和图5所示的合成设备的场合下,LSP数据和CELP数据也从输出单元301中取出而如上述供给。
在图15的配置中,至少音调数据和谱包络线数据根据希望的音调由数据变换单元302如上所述变换,然后供给波形合成单元303,在这里从变换的数据合成语音波形。于是,音调改变而音素未变的语音信号可以在输出端子304取出。
上述技术可以应用于由规则或文本的语音的合成。
图16表示本发明应用到语音文字合成的一个例子。在本实施例中,上述用于压缩语音编码的解码器可以同时用作文字语音合成器。在图16的例子中,语音数据的再生联合使用。
在图16中,语音规则合成器和带上述为修改音调的数据变换的语音合成器结合在一个按照规则的语音合成单元300中。从文字分析单元310来的数据供给按照规则的语音合成单元300,从它输出具有希望音调的合成语音并送往转换开关330的一个固定触点a。语音复制单元320读出偶而压缩的语音数据并存储在例如只读存储器的存储器中并为扩展而解码这些数据。解码的数据送往转换开关330的另一固定触点b。一个合成语音信号和复制语音信号由转换开关330选择并在输出端子340上输出。
图16所示设备用于例如车辆导行系统。在这种场合下,从语音再生器320来的高质量高清晰度的复制语音可用于日常语音,例如提供指示的“请向右转”,而从按照规则的语音合成生成器300来的合成语音可以用于特殊指示物的语音,例如建筑物或地界,它数量大,不能作为语音信息存储在只读存储器中。
本发明有另外的优点,即同样的硬件可以用于计算机语音合成器300和语音复制器320。
本发明不限于上述实施例。例如,上述作为硬件叙述的图1和图3的语音分析侧(编码器)或在图14中的语音合成一侧(解码器)的构建可以通过使用例如数字信号处理器(DSP)的一个软件程序实现。多个帧的数据可以一起处理并由矩阵量化而代替矢量量化。本发明也可以应用于大量语音分析/合成方法。本发明也不限于传输或纪录/复制而可能应用于各种用途,例如音调转换速度或速率变换按照规则的语音合成或噪声抑制。
上述信号编码和信号解码设备可以用作示于图14中的用于例如便携式通信终端或便携电话机中的语音编码器。
图17表示使用在图2和图3中所示配置的语音编码单元160的便携式终端的发送一侧。由受话器161接收的语音信号由放大器162放大并由模/数(A/D)转换器163变换为数字信号,其送往在图1和图3中所示配置的语音编码单元160。从换/数变换器163来的数字信号供给输入端子101。语音编码单元160执行编码,其已结合图1和图3叙述。图1和图2的输出端子的输出信号作为语音编码单元160的输出信号送往发送频道编码单元164,它随之对供给的信号执行频道编码。发送频道编码单元164的输出信号送往调制电路165进行调制,然后通过数/模变换器166和一个RF放大器167供给天线168。
图18表示使用在图5和图14中所示配置的语音解码单元260的便携式终端的接收一侧。由图18的天线261接收的语音信号由RF放大器262放大并通过模/数变换器263送往解调电路264,解调的信号从这里送往发送频道解码单元265。解码单元265的输出信号供给在图5和图14中所示配置的语音解码单元260。语音解码单元260解码这一信号,其已结合图5和图14叙述。在图2和图4的输出端子201上的输出信号作为语音解码单元260的信号送往数/模(D/A)变换器266。从模/数变换器266来的模拟语音信号送往扬声器268。

Claims (4)

1.一种语音合成方法,包括:
按照一个预先设定的为输出谐波的振幅数据的规则合成常规语音的常规语音合成步骤,
变换输入数据的谐波的基本频率和在一个预先设定的频带内的振幅数目的数据数目变换步骤,
为修改合成语音的音调,插值说明在每一个输入谐波中的谱分量的大小的数据的步骤。
2.按照权利要求1所述的语音合成方法,其中,使用一个频带限制型过采样滤波器执行所述插值。
3.一种语音合成装置,包括:
按照一个为输出谐波的振幅数据的文本合成常规语音的常规语音合成装置,变换输入数据的谐波的基本频率和在一个预先设定的频带内的振幅数目的数据数目变换装置,
为修改合成合成语音的音调,插值说明在每一个谐波中的谱分量的大小的数据的装置。
4.按照权利要求3所述的语音合成装置,其中,使用一个频带限制型过采样滤波器执行所述插值。
CNB200410056699XA 1995-10-26 1996-10-26 合成语音的方法和装置 Expired - Fee Related CN1307614C (zh)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
JP279410/95 1995-10-26
JP279410/1995 1995-10-26
JP27941095 1995-10-26
JP280672/95 1995-10-27
JP28067295 1995-10-27
JP280672/1995 1995-10-27
JP270337/1996 1996-10-11
JP270337/96 1996-10-11
JP27033796A JP4132109B2 (ja) 1995-10-26 1996-10-11 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB96121905XA Division CN1264138C (zh) 1995-10-26 1996-10-26 复制语音信号、解码语音、合成语音的方法和装置

Publications (2)

Publication Number Publication Date
CN1591575A true CN1591575A (zh) 2005-03-09
CN1307614C CN1307614C (zh) 2007-03-28

Family

ID=27335796

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB200410056699XA Expired - Fee Related CN1307614C (zh) 1995-10-26 1996-10-26 合成语音的方法和装置
CNB96121905XA Expired - Fee Related CN1264138C (zh) 1995-10-26 1996-10-26 复制语音信号、解码语音、合成语音的方法和装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB96121905XA Expired - Fee Related CN1264138C (zh) 1995-10-26 1996-10-26 复制语音信号、解码语音、合成语音的方法和装置

Country Status (8)

Country Link
US (1) US5873059A (zh)
EP (1) EP0770987B1 (zh)
JP (1) JP4132109B2 (zh)
KR (1) KR100427753B1 (zh)
CN (2) CN1307614C (zh)
DE (1) DE69625874T2 (zh)
SG (1) SG43426A1 (zh)
TW (1) TW332889B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104584123A (zh) * 2012-08-29 2015-04-29 日本电信电话株式会社 解码方法、解码装置、程序、及其记录介质
CN111542875A (zh) * 2018-01-11 2020-08-14 雅马哈株式会社 声音合成方法、声音合成装置及程序

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092652B2 (ja) * 1996-06-10 2000-09-25 日本電気株式会社 音声再生装置
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
JP3910702B2 (ja) * 1997-01-20 2007-04-25 ローランド株式会社 波形発生装置
US5960387A (en) * 1997-06-12 1999-09-28 Motorola, Inc. Method and apparatus for compressing and decompressing a voice message in a voice messaging system
WO1999003095A1 (en) * 1997-07-11 1999-01-21 Koninklijke Philips Electronics N.V. Transmitter with an improved harmonic speech encoder
JP3235526B2 (ja) * 1997-08-08 2001-12-04 日本電気株式会社 音声圧縮伸長方法及びその装置
JP3195279B2 (ja) * 1997-08-27 2001-08-06 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 音声出力システムおよびその方法
JP4170458B2 (ja) 1998-08-27 2008-10-22 ローランド株式会社 波形信号の時間軸圧縮伸長装置
JP2000082260A (ja) * 1998-09-04 2000-03-21 Sony Corp オーディオ信号再生装置及び方法
US6323797B1 (en) 1998-10-06 2001-11-27 Roland Corporation Waveform reproduction apparatus
US6278385B1 (en) * 1999-02-01 2001-08-21 Yamaha Corporation Vector quantizer and vector quantization method
US6138089A (en) * 1999-03-10 2000-10-24 Infolio, Inc. Apparatus system and method for speech compression and decompression
JP2001075565A (ja) 1999-09-07 2001-03-23 Roland Corp 電子楽器
JP2001084000A (ja) 1999-09-08 2001-03-30 Roland Corp 波形再生装置
JP3450237B2 (ja) * 1999-10-06 2003-09-22 株式会社アルカディア 音声合成装置および方法
JP4293712B2 (ja) 1999-10-18 2009-07-08 ローランド株式会社 オーディオ波形再生装置
JP2001125568A (ja) 1999-10-28 2001-05-11 Roland Corp 電子楽器
US7010491B1 (en) 1999-12-09 2006-03-07 Roland Corporation Method and system for waveform compression and expansion with time axis
JP2001356784A (ja) * 2000-06-12 2001-12-26 Yamaha Corp 端末装置
US20060209076A1 (en) * 2000-08-29 2006-09-21 Vtel Corporation Variable play back speed in video mail
WO2002037471A2 (en) * 2000-11-03 2002-05-10 Zoesis, Inc. Interactive character system
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
US20060069567A1 (en) * 2001-12-10 2006-03-30 Tischer Steven N Methods, systems, and products for translating text to speech
US7331917B2 (en) * 2002-07-24 2008-02-19 Totani Corporation Bag making machine
US7424430B2 (en) * 2003-01-30 2008-09-09 Yamaha Corporation Tone generator of wave table type with voice synthesis capability
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
TWI497485B (zh) 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
US7831420B2 (en) 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
JP5011803B2 (ja) * 2006-04-24 2012-08-29 ソニー株式会社 オーディオ信号伸張圧縮装置及びプログラム
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US8000958B2 (en) * 2006-05-15 2011-08-16 Kent State University Device and method for improving communication through dichotic input of a speech signal
US8682652B2 (en) 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
RU2418322C2 (ru) * 2006-06-30 2011-05-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер, аудиодекодер и аудиопроцессор, имеющий динамически изменяющуюся характеристику перекоса
US8935158B2 (en) 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
KR100860830B1 (ko) * 2006-12-13 2008-09-30 삼성전자주식회사 음성 신호의 스펙트럼 정보 추정 장치 및 방법
JP5233986B2 (ja) * 2007-03-12 2013-07-10 富士通株式会社 音声波形補間装置および方法
US8290167B2 (en) 2007-03-21 2012-10-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
JP2008263543A (ja) * 2007-04-13 2008-10-30 Funai Electric Co Ltd 記録再生装置
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
JP4209461B1 (ja) * 2008-07-11 2009-01-14 株式会社オトデザイナーズ 合成音声作成方法および装置
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
JPWO2012035595A1 (ja) * 2010-09-13 2014-01-20 パイオニア株式会社 再生装置、再生方法及び再生プログラム
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
PL401371A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
PL401372A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę
BR122020015614B1 (pt) 2014-04-17 2022-06-07 Voiceage Evs Llc Método e dispositivo para interpolar parâmetros de filtro de predição linear em um quadro de processamento de sinal sonoro atual seguindo um quadro de processamento de sinal sonoro anterior
CN109979470B (zh) * 2014-07-28 2023-06-20 瑞典爱立信有限公司 椎体矢量量化器形状搜索
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
CN110797004B (zh) * 2018-08-01 2021-01-26 百度在线网络技术(北京)有限公司 数据传输方法和装置
CN109616131B (zh) * 2018-11-12 2023-07-07 南京南大电子智慧型服务机器人研究院有限公司 一种数字实时语音变音方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
JP2884163B2 (ja) * 1987-02-20 1999-04-19 富士通株式会社 符号化伝送装置
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
JP3563772B2 (ja) * 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104584123A (zh) * 2012-08-29 2015-04-29 日本电信电话株式会社 解码方法、解码装置、程序、及其记录介质
CN104584123B (zh) * 2012-08-29 2018-02-13 日本电信电话株式会社 解码方法、以及解码装置
CN111542875A (zh) * 2018-01-11 2020-08-14 雅马哈株式会社 声音合成方法、声音合成装置及程序
CN111542875B (zh) * 2018-01-11 2023-08-11 雅马哈株式会社 声音合成方法、声音合成装置及存储介质

Also Published As

Publication number Publication date
CN1152776A (zh) 1997-06-25
EP0770987A2 (en) 1997-05-02
SG43426A1 (en) 1997-10-17
CN1307614C (zh) 2007-03-28
US5873059A (en) 1999-02-16
KR19980028284A (ko) 1998-07-15
DE69625874T2 (de) 2003-10-30
DE69625874D1 (de) 2003-02-27
KR100427753B1 (ko) 2004-07-27
JPH09190196A (ja) 1997-07-22
JP4132109B2 (ja) 2008-08-13
EP0770987A3 (en) 1998-07-29
TW332889B (en) 1998-06-01
CN1264138C (zh) 2006-07-12
EP0770987B1 (en) 2003-01-22

Similar Documents

Publication Publication Date Title
CN1264138C (zh) 复制语音信号、解码语音、合成语音的方法和装置
CN1096148C (zh) 信号编码方法和装置
CN1158648C (zh) 语音可变速率编码方法与设备
CN1202514C (zh) 编码和解码语音及其参数的方法、编码器、解码器
CN1104710C (zh) 在语音数字传输系统中产生悦耳噪声的方法与装置
CN1199151C (zh) 语音编码器
CN1172292C (zh) 在编码宽带信号中用于适应性带宽音调搜寻的方法与设备
CN1252681C (zh) 一种码激励线性预测语音编码器的增益量化
CN1244907C (zh) 宽带语音编解码器中的高频增强层编码方法和装置
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1155725A (zh) 语音编码方法和装置
CN1795495A (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1135527C (zh) 语音编码方法和装置,输入信号判别方法,语音解码方法和装置以及程序提供介质
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1240978A (zh) 音频信号编码装置、解码装置及音频信号编码、解码装置
CN1156872A (zh) 语音编码的方法和装置
CN1145512A (zh) 再现语音信号的方法和装置以及传输该信号的方法
CN1820306A (zh) 可变比特率宽带语音编码中增益量化的方法和装置
CN1265217A (zh) 在语音通信系统中语音增强的方法和装置
CN1174457A (zh) 语音信号传输方法及语音编码和解码系统
CN101057275A (zh) 矢量变换装置以及矢量变换方法
CN1261713A (zh) 接收装置和方法,通信装置和方法
CN1751338A (zh) 用于语音编码的方法和设备
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070328

Termination date: 20131026