WO1999034354A1

WO1999034354A1 - Sound encoding method and sound decoding method, and sound encoding device and sound decoding device

Info

Publication number: WO1999034354A1
Application number: PCT/JP1998/005513
Authority: WO
Inventors: Tadashi Yamaura
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 1997-12-24
Filing date: 1998-12-07
Publication date: 1999-07-08
Also published as: CN1494055A; US20130204615A1; EP1052620B1; EP1426925B1; CN1790485A; US20120150535A1; US20080065394A1; JP3346765B2; NO20040046L; EP2154681A3; CA2636684C; EP1596368A2; JP4916521B2; CN100583242C; AU732401B2; US20080065375A1; US20050171770A1; US20070118379A1; EP2154679A3; NO20035109D0

Description

明細書発明の名称

音声符号化方法及び音声複号化方法並びに音声符号化装置及び音声複号化装置技術分野

この発明は音声信号をディジタル信号に圧縮符号化復号化する際に使用する音声符号化 · 複号化方法及び音声符号化 · 複号化装置に関し、特に低ビットレートで品質の高い音声を再生するための音声符号化方法及び音声複号化方法並びに音声符号化装置及び音声復号化装置に関する。背景技術

従来、高能率音声符号化方法としては、符号駆動線形予測

( Code-Excited Linear Prediction ： C E L P ) 符号化が代表的であり、その技術につレヽて ίま、「 Code-excited linear prediction ( C E L P ) : High-quality speech at very low bit rates」 ( M.R.Shroeder and B.S.Atal著、 ICASSP '85, pp.937-940, 1985) に述べられてレヽる。

図 6 は、 C E L P音声符号化複号化方法の全体構成の一例を示すもので、図中 1 0 1 は符号化部、 1 0 2 は復号化部、 1 0 3 は多重化手段、 1 0 4 は分離手段である。符号化部 1 0 1 は線形予測パラメータ分析手段 1 0 5 、線形予測パラメータ符号化手段 1 0 6 、合成フィルタ 1 0 7 、適応符号帳 1 0 8 、駆動符号帳 1 0 9 、ゲイン符号化手段 1 1 0 、距離計算手段 1 1 1 、重み付け加算手段 1 3 8 より構成されている。また、復号化部 1 0 2 は線形予測パラメ一タ複号化手段 1 1 2 、合成フィルタ 1 1 3 、適応符号帳 1 1 4 、駆動符号帳 1 1 5 、ゲイン復号化手段 1 1 6 、重み付け加算手段 1 3 9 より構成されている。

C E L P音声符号化では、 5〜 50m s 程度を 1 フレームとして、そのフレームの音声をスぺクトル情報と音源情報に分けて符号化する。まず、 C E L P音声符号化方法の動作について説明する。符号化部 1 0 1 において、線形予測パラメ一タ分析手段 1 0 5 は入力音声 S 1 0 1 を分析し、音声のスぺクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化手段 1 0 6 はその線形予測パラメ一タを符号化し、符号化した線形予測パラメータを合成フィルタ 1 0 7 の係数として設定する。

次に音源情報の符号化について説明する。適応符号帳 1 0 8 には、 '過去の駆動音源信号が記憶されており、距離計算手段 1 1 1 から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。駆動符号帳 1 0 9 には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列べクトルが記憶されており、距離計算手段 1 1 1 から入力される駆動符号に対応した時系列べクトルを出力する c 適応符号帳 1 0 8 、駆動符号帳 1 0 9 からの各時系列べクトルはゲイン符号化手段 1 1 0 から与えられるそれぞれのゲインに応じて重み付け加算手段 1 3 8 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 1 0 7 へ供給し符号化音声を得る。距離計算手段 1 1 1 は符号化音声と入力音声 S 1 0 1 との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。上記符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。

次に C P E L音声復号化方法の動作について説明する。

一方復号化部 1 0 2 において、線形予測パラメータ複号化手段 1 1 2 は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ 1 1 3 の係数として設定する。次に、適応符号帳 1 1 4 は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力し、また駆動符号帳 1 1 5 は駆動符号に対応した時系列べクトルを出力する。これらの時系列べクトルは、ゲイン復号化手段 1 1 6 でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算手段 1 3 9 で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ 1 1 3 へ供給され出力音声 S 1 0 3 が得られる。

また C E L P音声符号化復号化方法で再生音声品質の向上を目的として改良された従来の音声符号化復号化方法として、厂 Phoneticailv 一 basea vector excitation coamg of speech at 3.6kbps」（S.Wang and A.Gersho著、 ICASSP '89, pp.49-52, 1989) に示されたものがある。図 6 との対応手段分に同一符号を付けた図 7 は、この従来の音声符号化複号化方法の全体構成の一例を示し、図中符号化部 1 0 1 において 1 1 7 は音声状態判定手段、 1 1 8駆動符号帳切替手段、 1 1 9 は第 1 の駆動符号帳、 1 2 0 は第 2の駆動符号帳である。また図中複号化手段 1 0 2 において 1 2 1 は駆動符号帳切替手段、 1 2 2 は第 1 の駆動符号帳、 1 2 3 は第 2 の駆動符号帳である。このような構成による符号化復号化方法の動作を説明する。まず符号化手段 1 0 1 において、音声状態判定手段 1 1 7 は入力音声 S 1 0 1 を分析し、音声の状態を例えば有声/無声の 2 つの状態のうちどちらであるかを判定する。駆動符号帳切替手段 1 1 8 はその音声状態判定結果に応じて、例えば有声であれば第 1 の駆動符号帳 1 1 9 を、無声であれば第 2 の駆動符号帳 1 2 0 を用いるとして符号化に用いる駆動符号帳を切り替え、また、どちらの駆動符号帳を用いたかを符号化する。

次に複号化手段 1 0 2 において、駆動符号帳切替手段 1 2 1 は符号化手段 1 0 1 でどちらの駆動符号帳を用いたかの符号に応じて、符号化手段 1 0 1 で用いたのと同じ駆動符号帳を用いるとして第 1 の駆動符号帳 1 2 2 と第 2 の駆動符号帳 1 2 3 とを切り替える。このように構成することにより、音声の各状態毎に符号化に適した駆動符号帳を用意し、入力された音声の状態に応じて駆動符号帳を切り替えて用いることで再生音声の品質を向上することができる。また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法として特開平 8— 1 8 5 1 9 8 号公報に開示されたものがある。これは、適応符号帳で選択したピツチ周期に応じて、複数個の駆動符号帳を切り替えて用いるものである。これにより、伝送情報を増やさずに入力音声の特徴に適応した駆動符号帳を用いることができる。

上述したように図 6 に示す従来の音声符号化復号化方法では、単 —の駆動符号帳を用いて合成音声を生成している。低ビットレートでも品質の高い符号化音声を得るためには、駆動符号帳に格納する時系列べクトルはパルスを多く含む非雑音的なものとなる。このため、背景雑音や摩擦性子音など雑音的な音声を符号化、合成した場合、符号化音声はジリジリ、チリチリといった不自然な音を発するという問題があった。駆動符号帳を雑音的な時系列べクトルからのみ構成すればこの問題は解決するが、符号化音声全体としての品質が劣化する。

また改良された図 7 に示す従来の音声符号化複号化方法では、入力音声の状態に応じて複数の駆動符号帳を切り替えて符号化音声を生成している。これにより例えば入力音声が雑音的な無声部分では雑音的な時系列べクトルから構成された駆動符号帳を、またそれ以外の有声部分では非雑音的な時系列べクトルから構成された駆動符号帳を用いることができ、雑音的な音声を符号化、合成しても不自然なジリジリした音を発することはなくなる。しかし、複号化側でも符号化側と同じ駆動符号帳を用いるために、新たにどの駆動符号帳を使用したかの情報を符号化、伝送する必要が生じ、これが低ビットレート化の妨げになるとレ、う問題があった。

また送出ビット数を増加することなく、複数の駆動符号帳を切り替える従来の音声符号化復号化方法では、適応符号帳で選択されるピッチ周期に応じて駆動符号帳を切り替えている。しかし、適応符号帳で選択されるピッチ周期は実際の音声のピッチ周期とは異なりその値からだけでは入力音声の状態が雑音的か非雑音的かを判定できないので、音声の雑音的な部分の符号化音声が不自然であるという課題は解決されない。

この発明はかかる課題を解決するためになされたものであり、低ビットレ一トでも品質の高い音声を再生する音声符号化複号化方法及び装置を提供するものである。発明の開示

上述の課題を解決するためにこの発明の音声符号化方法は、スベクトル情報、ノ、。ヮ一情報、ピッチ情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうち 1 つを選択するようにした。

さらに次の発明の音声符号化方法は、格納している時系列べクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、複数の駆動符号帳を切り替えるようにした。

さらに次の発明の音声符号化方法は、音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列べクトルの雑音性の度合いを変化させるようにした。

さらに次の発明の音声符号化方法は、雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い時系列べクトルを生成するようにした。

さらに次の発明の音声符号化方法は、雑音的な時系列べクトルを格納している第 1 の駆動符号帳と、非雑音的なの時系列ベクトルを格納している第 2 の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、第 1 の駆動符号帳の時系列べクトルと第 2の駆動符号帳の時系列べクトルを重み付けし加算した時系列べクトルを生成するようにした。

また次の発明の音声復号化方法は、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または復号化結果を用いて該複号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうちの 1 つを選択するようにした。

さらに次の発明の音声複号化方法は、格納している時系列べクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、複数の駆動符号帳を切り替えるようにした。

さらに次の発明の音声複号化方法は、音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列べクトルの雑音性の度合いを変化させるようにした。

さらに次の発明の音声復号化方法は、雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い時系列べクトルを生成するようにした。

さらに次の発明の音声復号化方法は、雑音的な時系列べクトルを格納している第 1 の駆動符号帳と、非雑音的な時系列ベクトルを格納している第 2 の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、第 1 の駆動符号帳の時系列べクトルと第 2 の駆動符号帳の時系列べクトルを重み付けし加算した時系列べクトルを生成するようにした。

さらに次の発明の音声符号化装置は、入力音声のスぺクトル情報を符号化し、符号化結果の 1 要素として出力するスぺクトル情報符号化部と、このスぺクトル情報符号化部からの符号化されたスぺクトル情報から得られるスぺクトル情報、パヮ一情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、非雑音的な複数の時系列べクトルが記憶された第 1 の駆動符号帳と雑音的な複数の時系列べクトルが記憶された第 2 の駆動符号帳と、前記雑音度評価部の評価結果により、第 1 の駆動符号帳と第 2 の駆動符号帳とを切り替える駆動符号帳切替部と、前記第 1 の駆動符号帳または第 2 の駆動符号帳からの時系列べクトルをそれぞれの時系列べクトルのゲインに応じて重み付けし加算する重み付け加算部とこの重み付けされた時系列べクトルを駆動音源信号とし、この駆動音源信号と前記スペクトル情報符号化部からの符号化されたスぺクトル情報とに基づいて符号化音声を得る合成フィルタと、この符号化音声と前記入力音声との距離を求め、距離が最小となる駆動符号、ゲインを探索し、その結果を駆動符号，ゲインの符号を符号化結果として出力する距離計算部とを備えた。

さらに次の発明の音声復号化装置は、スぺクトル情報の符号からスぺクトル情報を複号化するスぺクトル情報複号化部と、このスぺクトル情報復号化部からの復号化されたスぺクトル情報から得られるスぺクトル情報、パワー情報のうち少なくとも 1 つの復号化結果または前記スぺクトル情報の符号を用いて該復号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、非雑音的な複数の時系列べクトルが記憶された第 1 の駆動符号帳と . 雑音的な複数の時系列べクトルが記憶された第 2 の駆動符号帳と、前記雑音度評価部の評価結果により、第 1 の駆動符号帳と第 2の駆動符号帳とを切り替える駆動符号帳切替部と、前記第 1 の駆動符号帳または第 2 の駆動符号帳からの時系列ベクトルをそれぞれの時系列ベクトルのゲインに応じて重み付けし加算する重み付け加算部とこの重み付けされた時系列ベクトルを駆動音源信号とし、この駆動音源信号と前記スぺクトル情報復号化部からの復号化されたスぺクトル情報とに基づいて復号化音声を得る合成フィルタとを備えた。この発明に係る音声符号化装置は、符号駆動線形予測（ C E L P ) 音声符号化装置において、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価する雑音度評価部と、上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号帳切替部とを備えたことを特徴とする。

この発明に係る音声復号化装置は、符号駆動線形予測（ C E L P ) 音声復号化装置において、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または復号化結果を用いて該復号化区間における音声の雑音性の度合いを評価する雑音度評価部と、上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号帳切替部とを備えたことを特徴とする。図面の簡単な説明

図 1 は、この発明による音声符号化及び音声複号化装置の実施の形態 1 の全体構成を示すプロック図である。

図 2は、図 1 の実施の形態 1 における雑音の度合い評価の説明に供する表である。

図 3は、この発明による音声符号化及び音声複号化装置の実施の形態 3 の全体構成を示すブロック図である。

図 4は、この発明による音声符号化及び音声複号化装置の実施の形態 5 の全体構成を示すブロック図である。

図 5は、図 4 の実施の形態 5 における重み付け決定処理の説明に供する略線図である。

図 6は、従来の C E L P音声符号化復号化装置の全体構成を示すブロック図である。

図 7は、従来の改良された C E L P音声符号化複号化装置の全体構成を示すプロック図である。発明を実施するための最良の形態

以下図面を参照しながら、この発明の実施の形態について説明する。

実施の形態 1 .

図 1 は、この発明による音声符号化方法及び音声複号化方法の実施の形態 1 の全体構成を示す。図中、 1 は符号化部、 2 は復号化部、 3 は多重化部、 4 は分離部である。符号化部 1 は、線形予測パラメータ分析部 5 、線形予測パラメータ符号化部 ⁶ 、合成フィルタ 7 、適応符号帳 8 、ゲイン符号化部 1 0 、距離計算部 1 1 、第 1 の駆動符号帳 1 9 、第 2 の駆動符号帳 2 0 、雑音度評価部 2 4 、駆動符号帳切替部 2 5 、重み付け加算部 3 8 より構成されている。また、復号化部 2 は線形予測パラメータ復号化部 1 2 、合成フィルタ 1 3 、適応符号帳 1 4 、第 1 の駆動符号帳 2 2 、第 2 の駆動符号帳 2 3 、雑音度評価部 2 6 、駆動符号帳切替部 2 7 、ゲイン複号化部 1 6 、重み付け加算部 3 9 より構成されている。図 1 中 5 は入力音声 S 1 を分析し、音声のスぺクトル情報である線形予測パラメータを抽出するスペクトル情報分析部としての線形予測パラメータ分析部、 6 はスぺクトル情報であるその線形予測パラメ一タを符号化し、符号ィ匕した線形予測パラメータを合成フィルタ 7 の係数として設定するスペクトル情報符号化部としての線形予測パラメータ符号化部、 1 9 、 2 2 は非雑音的な複数の時系列べクトルが記憶された第 1 の駆動符号帳、 2 0 、 2 3 は雑音的な複数の時系列ベクトルが記憶された第 2 の駆動符号帳、 2 4 、 2 6 は雑音の度合いを評価する雑音度評価部、 2 5 、 2 7 は雑音の度合いにより駆動符号帳を切り替える駆動符号帳切替部である。

以下、動作を説明する。まず、符号化部 1 において、線形予測パラメ一タ分析部 5 は入力音声 S 1 を分析し、音声のスぺクトル情報である線形予測パラメータを抽出する。線形予測パラメータ符号化部 6 はその線形予測パラメ一タを符号化し、符号化した線形予測パラメータを合成フィルタ 7 の係数として設定するとともに、雑音度評価部 2 4 へ出力する。次に、音源情報の符号化について説明する。適応符号帳 8 には、過去の駆動音源信号が記憶されており、距離計算部 1 1 から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。雑音度評価部 2 4 は、前記線形予測パラメータ符号化部 6 から入力された符号化した線形予測パラメータと適応符号とから、例えば図 2 に示すようにスべクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を駆動符号帳切替部 2 5 に出力する。駆動符号帳切替部 2 5 は前記雑音度の評価結果に応じて、例えば雑音度が低ければ第 1 の駆動符号帳 1 9 を、雑音度が高ければ第 2 の駆動符号帳 2 0 を用いるとして符号化に用いる駆動符号帳を切り替える。

第 1 の駆動符号帳 1 9 には、非雑音的な複数の時系列べクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列べクトルが記憶されている。また、第 2 の駆動符号帳 2 0 には、雑音的な複数の時系列べクトル、例えばランダム雑音から生成した複数の時系列ベクトルが記憶されており、距離計算部 1 1 から入力されるそれぞれ駆動符号に対応した時系列べクトルを出力する。適応符号帳 8 、第 1 の駆動音源符号帳 1 9 または第 2 の駆動符号帳 2 0 からの各時系列べクトルは、ゲイン符号化部 1 0 から与えられるそれぞれのゲインに応じて重み付け加算部 3 8 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 7 へ供給され符号化音声を得る。距離計算部 1 1 は符号化音声と入力音声 S 1 との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号，ゲインの符号を符号化結果 S 2 として出力する。以上がこの実施の形態 1 の音声符号化方法に特徴的な動作である。

次に復号化部 2 について説明する。復号化部 2 では、線形予測パラメ一タ復号化部 1 2 は線形予測パラメータの符号から線形予測パラメ一タを復号化し、合成フィルタ 1 3 の係数として設定するとともに、雑音度評価部 2 6 へ出力する。次に、音源情報の復号化について説明する。適応符号帳 1 4 は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。雑音度評価部 2 6 は、前記線形予測パラメ一タ復号化部 1 2から入力された復号化した線形予測パラメータと適応符号とから符号化部 1 の雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、評価結果を駆動符号帳切替部 2 7 に出力する。駆動符号帳切替部 2 7 は前記雑音度の評価結果に応じて、符号化部 1 の駆動符号帳切替部 2 5 と同様に第 1 の駆動符号帳 2 2 と第 2 の駆動符号帳 2 3 とを切り替える。

第 1 の駆動符号帳 2 2 には非雑音的な複数の時系列べクトル、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列べクトルが、第 2 の駆動符号帳 2 3 には雑音的な複数の時系列べクトル、例えばランダム雑音から生成した複数の時系列べクトルが記憶されており、それぞれ駆動符号に対応した時系列べクトルを出力する。適応符号帳 1 4 と第 1 の駆動符号帳 2 2 または第 2 の駆動符号帳 2 3 からの時系列べクトルは、ゲイン復号化部 1 6 でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部 3 9 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 1 3 へ供給され出力音声 S 3 が得られる。以上がこの実施の形態 1 の音声復号化方法に特徴的な動作である。

この実施の形態 1 によれば、入力音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて異なる駆動符号帳を用いることにより、少ない情報量で、品質の高い音声を再生することができる。

また、上記実施の形態では、駆動符号帳 1 9， 2 0， 2 2 , 2 3 には、複数の時系列べクトルが記憶されている場合を説明したが、少なくとも 1 つの時系列べクトルが記憶されていれば、実施可能である。

実施の形態 2 .

上述の実施の形態 1 では、 2つの駆動符号帳を切り替えて用いているが、これに代え、 3 つ以上の駆動符号帳を備え、雑音の度合いに応じて切り替えて用いるとしても良い。この実施の形態 2 によれば、音声を雑音 Z非雑音の 2通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態 3 .

図 1 との対応部分に同一符号を付けた図 3 は、この発明の音声符号化方法及び音声複号化方法の実施の形態 3 の全体構成を示し、図中 2 8、 3 0 は雑音的な時系列ベクトルを格納した駆動符号帳、 2 9、 3 1 は時系列べクトルの低振幅なサンプルの振幅値を零にするサンプル間引き部である。

以下、動作を説明する。まず、符号化部 1 において、線形予測パラメ一タ分析部 5 は入力音声 S 1 を分析し、音声のスぺクトル情報である線形予測パラメ一タを抽出する。線形予測パラメ一タ符号化部 6 はその線形予測パラメ一タを符号化し、符号化した線形予測パラメ一タを合成フィルタ 7 の係数として設定するとともに、雑音度評価部 2 4へ出力する。次に、音源情報の符号化について説明する。適応符号帳 8 には、過去の駆動音源信号が記憶されており、距離計算部 1 1 から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。雑音度評価部 2 4 は、前記線形予測パラメータ符号化部 6 から入力された符号化した線形予測パラメータと適応符号とから、例えばスぺクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果をサンプル間引き部 2 9 に出力する。

駆動符号帳 2 8 には、例えばランダム雑音から生成した複数の時系列べクトルが記憶されており、距離計算部 1 1 から入力される駆動符号に対応した時系列べクトルを出力する。サンプル間引き部 2 9 は、前記雑音度の評価結果に応じて、雑音度が低ければ前記駆動符号帳 2 8から入力された時系列べクトルに対して、例えば所定の振幅値に満たないサンプルの振幅値を零にした時系列べクトルを出力し、また、雑音度が高ければ前記駆動符号帳 2 8 から入力された時系列ベクトルをそのまま出力する。適応符号帳 8 、サンプル間引き部 2 9 からの各時系列べクトルは、ゲイン符号化部 1 0 から与えられるそれぞれのゲインに応じて重み付け加算部 3 8 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 7 へ供給され符号化音声を得る。距離計算部 1 1 は符号化音声と入力音声 S 1 との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。以上符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号，ゲインの符号を符号化結果 S 2 として出力する。以上がこの実施の形態 3 の音声符号化方法に特徴的な動作である。

次に復号化部 2 について説明する。複号化部 2 では、線形予測パラメータ復号化部 1 2 は線形予測パラメータの符号から線形予測パラメータを復号化し、合成フィルタ 1 3 の係数として設定するとともに、雑音度評価部 2 6 へ出力する。次に、音源情報の復号化について説明する。適応符号帳 1 4 は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。雑音度評価部 2 6 は、前記線形予測パラメータ複号化部 1 2から入力された復号化した線形予測パラメータと適応符号とから符号化部 1 の雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、評価結果をサンプル間引き部 3 1 に出力する。

駆動符号帳 3 0 は駆動符号に対応した時系列べクトルを出力する（サンプル間引き部 3 1 は、前記雑音度評価結果に応じて、前記符号化部 1 のサンプル間引き部 2 9 と同様の処理により時系列べクトルを出力する。適応符号帳 1 4 、サンプル間引き部 3 1 からの各時系列べクトルは、ゲイン複号化部 1 6 から与えられるそれぞれのゲインに応じて重み付け加算部 3 9 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 1 3 へ供給され出力音声 S 3 が得られる。

この実施の形態 3 によれば、雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、駆動音源の信号サンプルを間引くことにより雑音性の度合いが低い駆動音源を生成することにより、少ない情報量で、品質の高い音声を再生することができる。また、複数の駆動符号帳を備える必要がないので、駆動符号帳の記憶に要するメモリ量を少なくする効果もある。

実施の形態 4 .

上述の実施の形態 3 では、時系列べクトルのサンプルを間引くノ間引かないの 2通りとしているが、これに代え、雑音の度合いに応じてサンプルを間引く際の振幅閾値を変更するとしても良い。この実施の形態 4 によれば、音声を雑音 Z非雑音の 2 通りだけでなく、やや雑音的であるなどの中間的な音声に対してもそれに適した時系列べクトルを生成し、用いることができるので、品質の高い音声を再生することができる。

実施の形態 5 .

図 1 との対応部分に同一符号を付けた図 4 は、この発明の音声符号化方法及び音声複号化方法の実施の形態 5 の全体構成を示し、図中 3 2 、 3 5 は雑音的な時系列べクトルを記憶している第 1 の駆動符号帳、 3 3 、 3 6 は非雑音的な時系列ベクトルを記憶している第 2の駆動符号帳、 3 4 、 3 7 は重み決定部である。

以下、動作を説明する。まず、符号化部 1 において、線形予測パラメ一タ分析部 5 は入力音声 S 1 を分析し、音声のスぺクトル情報である線形予測パラメータを抽出する。線形予測パラメ一タ符号化部 6 はその線形予測パラメータを符号化し、符号化した線形予測パラメータを合成フィルタ 7 の係数として設定するとともに、雑音度評価部 2 4 へ出力する。次に、音源情報の符号化について説明する。適応符号帳 8 には、過去の駆動音源信号が記憶されており、距離計算部 1 1 から入力される適応符号に対応して過去の駆動音源信号を周期的に繰り返した時系列ベクトルを出力する。雑音度評価部 2 4 は、前記線形予測パラメータ符号化部 6 から入力された符号化した線形予測パラメータと適応符号とから、例えばスぺクトルの傾斜、短期予測利得、ピッチ変動から該符号化区間の雑音の度合いを評価し、評価結果を重み決定部 3 4 に出力する。

第 1 の駆動符号帳 3 2 には、例えばランダム雑音から生成した複数の雑音的な時系列べクトルが記憶されており、駆動符号に対応した時系列ベクトルを出力する。第 2の駆動符号帳 3 3 には、例えば学習用音声とその符号化音声との歪みが小さくなるように学習して構成された複数の時系列ベクトルが記憶されており、距離計算部 1 1 から入力される駆動符号に対応した時系列べクトルを出力する。重み決定部 3 4 は前記雑音度評価部 2 4 から入力された雑音度の評価結果に応じて、例えば図 5 に従って、第 1 の駆動符号帳 3 2からの時系列べクトルと第 2 の駆動符号帳 3 3 からの時系列べクトルに与える重みを決定する。第 1 の駆動符号帳 3 2 、第 2の駆動符号帳 3 3 からの各時系列べクトルは上記重み決定部 3 4 から与えられる重みに応じて重み付けして加算される。適応符号帳 8 から出力された時系列べクトルと、前記重み付け加算して生成された時系列べクトルはゲイン符号化部 1 0 から与えられるそれぞれのゲインに応じて重み付け加算部 3 8 で重み付けして加算され、その加算結果を駆動音源信号として合成フィルタ 7 へ供給し符号化音声を得る。距離計算部 1 1 は符号化音声と入力音声 S 1 との距離を求め、距離が最小となる適応符号、駆動符号、ゲインを探索する。この符号化が終了した後、線形予測パラメータの符号、入力音声と符号化音声との歪みを最小にする適応符号、駆動符号、ゲインの符号を符号化結果として出力する。

次に複号化部 2 について説明する。復号化部 2 では、線形予測パラメ一タ復号化部 1 2 は線形予測パラメータの符号から線形予測パラメ一タを復号化し、合成フィルタ 1 3 の係数として設定するとともに、雑音度評価部 2 6 へ出力する。次に、音源情報の複号化について説明する。適応符号帳 1 4 は、適応符号に対応して、過去の駆動音源信号を周期的に繰り返した時系列べクトルを出力する。雑音度評価部 2 6 は、前記線形予測パラメータ復号化部 1 2 から入力された復号化した線形予測パラメータと適応符号とから符号化部 1 の雑音度評価部 2 4 と同様の方法で雑音の度合いを評価し、評価結果を重み決定部 3 7 に出力する。

第 1 の駆動符号帳 3 5 および第 2 の駆動符号帳 3 6 は駆動符号に対応した時系列べクトルを出力する。重み決定部 3 7 は前記雑音度評価部 2 6 から入力された雑音度評価結果に応じて、符号化部 1 の重み決定部 3 4 と同様に重みを与えるとする。第 1 の駆動符号帳 3 5 、第 2 の駆動符号帳 3 6 からの各時系列べクトルは上記重み決定部 3 7から与えれるそれぞれの重みに応じて重み付けして加算される。適応符号帳 1 4 から出力された時系列べクトルと、前記重み付け加算して生成された時系列べクトルは、ゲイン複号化部 1 6 でゲインの符号から復号化したそれぞれのゲインに応じて重み付け加算部 3 9 で重み付けして加算され、その加算結果が駆動音源信号として合成フィルタ 1 3 へ供給され出力音声 S 3 が得られる。

この実施の形態 5 によれば、音声の雑音の度合いを符号および符号化結果から評価し、評価結果に応じて雑音的な時系列べクトルと非雑音的な時系列べクトルを重み付き加算して用いることにより、少ない情報量で、品質の高い音声を再生することができる。

実施の形態 6 .

上述の実施の形態 1 〜 5 でさらに、雑音の度合いの評価結果に応じてゲインの符号帳を変更するとしても良い。この実施の形態 6 によれば、駆動符号帳に応じて最適なゲインの符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態 7 .

上述の実施の形態 1 〜 6 では、音声の雑音の度合いを評価し、その評価結果に応じて駆動符号帳を切り替えているが、有声の立ち上がりや破裂性の子音などをそれぞれ判定、評価し、その評価結果に応じて駆動符号帳を切り替えても良い。この実施の形態 7 によれば、音声の雑音的な状態だけでなく、有声の立ち上がりや破裂性子音などさらに細かく分類し、それぞれに適した駆動符号帳を用いることができるので、品質の高い音声を再生することができる。

実施の形態 8 .

上述の実施の形態 1 ~ 6 では、図 2 に示すスペクトル傾斜、短期予測利得、ピッチ変動から、符号化区間の雑音の度合いを評価しているが、適応符号帳出力に対するゲイン値の大小を用いて評価しても良い。産業上の利用可能性

本発明に係る音声符号化方法及び音声復号化方法並びに音声符号化装置及び音声復号化装置によれば、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果に応じて異なる駆動符号帳を用いるので、少ない情報量で品質の高い音声を再生することができる。

またこの発明によれば、音声符号化方法及び音声複号化方法で、格納している駆動音源の雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、複数の駆動符号帳を切り替えて用いるので、少ない情報量で品質の高い音声を再生することができる。

またこの発明によれば、音声符号化方法及び音声複号化方法で、音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列べクトルの雑音性の度合いを変化させたので、少ない情報量で品質の高い音声を再生することができる。

またこの発明によれば、音声符号化方法及び音声復号化方法で、雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、時系列べクトルの信号サンプルを間引くことにより雑音性の度合いが低い時系列べクトルを生成したので、少ない情報量で品質の高い音声を再生することができる。またこの発明によれば、音声符号化方法及び音声復号化方法で、雑音的な時系列べクトルを格納している第 1 の駆動符号帳と、非雑音的な時系列べクトルを格納している第 2 の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、第 1 の駆動符号帳の時系列べクトルと第 2の駆動符号帳の時系列べクトルを重み付け加算した時系列べクトルを生成したので、少ない情報量で品質の高い音声を再生することができる。

Claims

請求の範囲

1 . 符号駆動線形予測（ C o de-Excited Linear Prediction： C E L P ) 音声符号化方法において、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうち 1 つを選択することを特徴とする音声符号化方法。

2 . 格納している時系列べクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、上記複数の駆動符号帳を切り替えて用いることを特徴とする請求項 1 に記載の音声符号化方法。

3 . 音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列ベクトルの雑音性の度合いを変化させることを特徴とする請求項 1 に記載の音声符号化方法。

4 . 雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、上記時系列べクトルの信号サンプルを間引くことにより雑音性の度合いが低い時系列べクトルを生成することを特徴とする請求項 3 に記載の音声符号化方法。

5 . 雑音的な時系列べクトルを格納している第 1 の駆動符号帳と、非雑音的な時系列べクトルを格納している第 2 の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、上記第 1 の駆動符号帳の時系列べクトルと上記第 2 の駆動符号帳の時系列べクトルを重み付けし加算した時系列べクトルを生成することを特徴とする請求項 3 に記載の音声符号化方法。

6 . 符号駆動線形予測（ C E L P ) 音声複号化方法において、スペクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または復号化結果を用いて該復号化区間における音声の雑音性の度合いを評価し、評価結果に応じて複数の駆動符号帳のうち 1 つを選択することを特徴とする音声複号化方法。

7 . 格納している時系列べクトルの雑音性の度合いが異なる複数の駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、上記複数の駆動符号帳を切り替えて用いることを特徴とする請求項 6 に記載の音声復号化方法。

8 . 音声の雑音性の度合いの評価結果に応じて、駆動符号帳に格納している時系列ベクトルの雑音性の度合いを変化させることを特徴とする請求項 6 に記載の音声復号化方法。

9 . 雑音的な時系列べクトルを格納している駆動符号帳を備え、音声の雑音性の度合いの評価結果に応じて、上記時系列べクトルの信号サンプルを間引くことにより雑音性の度合いが低い時系列べクトルを生成することを特徴とする請求項 8 に記載の音声復号化方法。

1 0 . 雑音的な時系列べクトルを格納している第 1 の駆動符号帳と、非雑音的な時系列べクトルを格納している第 2の駆動符号帳とを備え、音声の雑音性の度合いの評価結果に応じて、上記第 1 の駆動符号帳の時系列べクトルと上記第 2 の駆動符号帳の時系列べクトルを重み付けし加算した時系列べクトルを生成することを特徴とする請求項 8 に記載の音声複号化方法。

1 1 . 入力音声のスぺクトル情報を符号化し、符号化結果の 1 要素として出力するスぺクトル情報符号化部と、

このスぺクトル情報符号化部からの符号化されたスぺクトル情報から得られるスぺクトル情報、パワー情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、

非雑音的な複数の時系列べクトルが記憶された第 1 の駆動符号帳と、

雑音的な複数の時系列べクトルが記憶された第 2 の駆動符号帳と、前記雑音度評価部の評価結果により、第 1 の駆動符号帳と第 2 の駆動符号帳とを切り替える駆動符号帳切替部と、

前記第 1 の駆動符号帳または第 2の駆動符号帳からの時系列べクトルをそれぞれの時系列べクトルのゲインに応じて重み付けし加算する重み付け加算部と

この重み付けされた時系列べクトルを駆動音源信号とし、この駆動音源信号と前記スぺクトル情報符号化部からの符号化されたスぺクトル情報とに基づいて符号化音声を得る合成フィルタと、

この符号化音声と前記入力音声との距離を求め、距離が最小となる駆動符号、ゲインを探索し、その結果を駆動符号，ゲインの符号を符号化結果として出力する距離計算部とを備えたことを特徴とする音声符号化装置。

1 2 . スぺクトル情報の符号からスぺクトル情報を復号化するスぺクトル情報復号化部と、

このスぺクトル情報復号化部からの復号化されたスぺクトル情報から得られるスぺクトル情報、パワー情報のうち少なくとも 1 つの複号化結果または前記スぺクトル情報の符号を用いて該複号化区間における音声の雑音性の度合いを評価し、評価結果を出力する雑音度評価部と、

非雑音的な複数の時系列ベクトルが記憶された第 1 の駆動符号帳と、

雑音的な複数の時系列べクトルが記憶された第 2 の駆動符号帳と前記雑音度評価部の評価結果により、第 1 の駆動符号帳と第 2 の駆動符号帳とを切り替える駆動符号帳切替部と、

この重み付けされた時系列べクトルを駆動音源信号とし、この駆動音源信号と前記スぺクトル情報複号化部からの複号化されたスぺクトル情報とに基づいて復号化音声を得る合成フィルタとを備えたことを特徴とする音声復号化装置。

1 3 . 符号駆動線形予測（ C E L P ) 音声符号化装置において、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または符号化結果を用いて該符号化区間における音声の雑音性の度合いを評価する雑音度評価部と、

上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号切替部とを備えたことを特徴とする音声符号化装置。

1 4 . 符号駆動線形予測（ C E L P ) 音声複号化装置において、スぺクトル情報、パワー情報、ピッチ情報のうち少なくとも 1 つの符号または複号化結果を用いて該複号化区間における音声の雑音性の度合いを評価する雑音度評価部と、

上記雑音度評価部の評価結果に応じて複数の駆動符号帳を切り替える駆動符号帳切替部とを備えたことを特徴とする音声複号化装置 _c