WO2002059876A1

WO2002059876A1 - Appareil de traitement de donnees

Info

Publication number: WO2002059876A1
Application number: PCT/JP2002/000489
Authority: WO
Inventors: Tetsujiro Kondo; Tsutomu Watanabe; Hiroto Kimura
Original assignee: Sony Corporation
Priority date: 2001-01-25
Filing date: 2002-01-24
Publication date: 2002-08-01
Also published as: US7467083B2; JP4857467B2; CN1455918A; EP1282114A4; KR100875783B1; JP2002221999A; US20030163307A1; CN1215460C; KR20020081586A; EP1282114A1

Description

明細書

データ処理装置：技術分野

本発明は、データ処理装置に関し、特に、特に、例えば、 C E L P (Code Exci ted Liner Prediction coding)方式で符号化された音声を、高音質の音声に復号することができるようにするデータ処理装置に関する。背景技術

図 1および図 2は、従来の携帯電話機の一例の構成を示している。

この携帯電話機では、音声を、 CE L P方式により所定のコードに符号化して送信する送信処理と、他の携帯電話機から送信されてくるコードを受信して、音声に復号する受信処理とが行われるようになつており、図 1は、送信処理を行う送信部を、図 2は、受信処理を行う受信部を、それぞれ示している。

図 1に示した送信部では、ユーザが発話した音声が、マイク（マイクロフォン） 1に入力され、そこで、電気信号としての音声信号に変換され、 A/D ^na log/Digital)変換部 2に供給される。 AZD変換部 2は、マイク 1からのアナ口グの音声信号を、例えば、 8 kH _Z等のサンプリング周波数でサンプリングすることにより、ディジタルの音声信号に A/D変換し、さらに、所定のビット数で量子化を行って、演算器 3と L P C (Liner Prediction Coefficient)分析部 4に供給する。

L P C分析部 4は、 A/D変換部 2からの音声信号を、例えば、 1 6 0サンプル分の長さを 1フレームとして、その 1フレームを 4 0サンプルごとのサブフレームに分割し、サブフレームごとに L P C分析し、 P次の線形予測係数ひい a_z, ■ ■ · , _αρを求める。そして、 L P C分析部 4は、この P次の線形予測係数ひ _p (p = 1 , 2, · · . , P) を要素とするベクトルを、音声の特徴ベクトルとして、べクトル量子化部 5に供給する。ベタトル量子化部 5は、線形予測係数を要素とするコードべクトルとコードとを対応付けたコードブックを記憶しており、そのコードプックに基づいて、 L P C分析部 4からの特徴べクトノレ αをべクトル量子化し、そのべクトル量子化の結果得られるコード（以下、適宜、 Αコード（A_code)という）を、コード決定部 1 5に供給する。

さらに、ベクトル量子化部 5は、 Aコードに対応するコードベクトル _α ' を構成する要素となっている線形予測係数 , α₂' , · ■ . ，ひを、音声合成フィルタ 6に供給する。

音声合成フィルタ 6は、例えば、 I I R (Infinite Impulse Response)型のデイジタルフィルタで、ベクトル量子化部 5からの線形予測係数ひ p' (p = 1 ,

2 , · · · , P) を I I Rフィルタのタップ係数とするとともに、演算器 1 4から供給される残差信号 eを入力信号として、音声合成を行う。

即ち、 L P C分析部 4で行われる L P C分析は、現在時刻 nの音声信号（のサンプル値） s _n、およびこれに隣接する過、去の P個のサンプル値 s _n_い s _n-₂, · . · ， s _n一 p こ、式

s _n + a！ s _n_! + a s _n_₂ + · · - + a p s _n__P = e_n

… ( 1 ) で示す線形 1次結合が成立すると仮定し、現在時刻 nのサンプル値 s _nの予測値 (線形予測値） s _n' を、過去の P個の標本値 s _n_い s _n-₂， · · · ， s _n—_Pを用いて、式

S„ =一 ( a _t S _n 2 s _n_₂+ ■ ■ , + α ρ s _η__Ρ)

• · · (2) によつて線形予測したときに、実際のサンプル値 s _ηと線形予測値 S との間の自乗誤差を最小にする線形予測係数 ο;_ρを求めるものである。

ここで、式（1 ) において、 {e_n} ( · · · ， e_n—い e_n, e_n+1, ■ ■ · ) は、平均値が 0で、分散が所定値 σ ²の互いに無相関な確率変数である。

式（1 ) から、サンプル値 s _nは、式 s _n = e_n一 ( a J s _n__L+ α 2 ^s η^^" ' · , + ひ p S _n-_P)

• · · ( 3 ) で表すことができ、これを、 Z変換すると、次式が成立する。

S = EZ ( 1 + _{tt l} ζ "'+ α₂ z "²+ - ' · + a_? z '^?)

· ■ ■ ( 4 ) 但し、式（4 ) において、 Sと Eは、式（3 ) における s _nと e _nの Z変換を、それぞれ表す。

ここで、式（1 ) および（2 ) から、 e _nは、式

e _n= s _n— s _n

· · · ( 5 } で表すことができ、実際のサンプル値 s _nと線形予測値 s _n' との間の残差信号と呼ばれる。

従って、式（4 ) から、線形予測係数 (¾_pを I I Rフィルタのタップ係数とするとともに、残差信号 e _nを I I Rフィルタの入力信号とすることにより、音声信号 s _nを求めることができる。

そこで、音声合成フィルタ 6は、上述したように、ベクトル量子化部 5からの線形予測係数 α_ρ' をタップ係数とするとともに、演算器 1 4から供給される残差信号 eを入力信号として、式（4 ) を演算し、音声信号（合成音信号） _S sを求める。

なお、音声合成フィルタ 6では、 L P C分析部 4による L P C分析の結果得られる線形予測係数 α_ρではなく、そのべクトル量子化の結果得られるコードに対応するコードベクトルとしての線形予測係数 _ρ' が用いられるため、即ち、量子化誤差を含む線形予測係数 α_ρ' が用いられるため、音声合成フィルタ 6が出力する合成音信号は、 AZD変換部 2が出力する音声信号とは、基本的に同一にはならなレ、。

音声合成フィルタ 6が出力する合成音信号 s sは、演算器 3に供給される。演算器 3は、音声合成フィルタ 6からの合成音信号 s sから、 A/D変換部 2が出力する音声信号 sを減算し（合成音信号 s _Sの各サンプルから、そのサンプルに対応する音声信号 sのサンプルを減算し）、その減算値を、自乗誤差演算部 7に供給する。自乗誤差演算部 7は、演算器 3からの減算値の自乗和（L P C分析部 4で L P C分析が行われるフレームを構成するサブフレーム単位の自乗和）を演算し、その結果得られるき乗誤差を、自乗誤差最小判定部 8に供給する。

自乗誤差最小判定部 8は、自乗誤差演算部 7が出力する自乗誤差に対応付けて、ラグを表すコードとしての L コード（L— code)、ゲインを表すコードとしての Gコード（G_code)、および符号語（励起コードブック）を表すコードとしての I コード（し code)を記憶しており、自乗誤差演算部 7が出力する自乗誤差に対応する L コード、 Gコード、および Lコードを出力する。 Lコードは、適応コードブック記憶部 9に、 Gコードは、ゲイン復号器 1 0に、 Iコードは、励起コードブック記憶部 1 1に、それぞれ供給される。さらに、 Lコード、 Gコード、および Iコードは、コード決定部 1 5にも供給される。

適応コードブック記憶部 9は、例えば 7ビットの Lコードと、所定の遅延時間 (長期予測ラグ）とを対応付けた適応コードブックを記憶しており、演算器 1 4 から供給される残差信号 eを、自乗誤差最小判定部 8から供給される Lコードに対応付けられた遅延時間だけ遅延して、演算器 1 2に出力する。即ち、適応コードブック記憶部 9は、例えば、メモリで構成され、演算器 1 4からの残差信号 e を、 7ビットのレコードが表す値に対応するサンプル分だけ遅延して、演算器 1 2に出力する。

ここで、適応コードブック記憶部 9は、残差信号 eを、 Lコードに対応する時間だけ遅延して出力することから、その出力信号は、その遅延時間を周期とする周期信号に近い信号となる。この信号は、線形予測係数を用いた音声合成において、主として、有声音の合成音を生成するための駆動信号となる。

ゲイン復号器 1 0は、 Gコードと、所定のゲイン |8および γとを対応付けたテ一ブルを記憶しており、自乗誤差最小判定部 8から供給される Gコードに対応付けられたゲイン /3および γを出力する。ゲイン β と γは、演算器 1 2と 1 3に、それぞれ供給される。ここで、ゲイン 3は、長期フィルタ状態出力ゲインと呼ばれるものであり、また、ゲイン γは、励起コードブックゲインと呼ばれるものでめる。

励起コードブック記憶部 1 1は、例えば 9ビットの Iコードと、所定の励起信号とを対応付けた励起コードブックを記憶しており、自乗誤差最小判定部 8から供給される I コードに対応付けられた励起信号を、演算器 1 3に出力する。

ここで、励起コードブックに言己憶されている励起信号は、例えば、ホワイトノィズ等に近い信号であり、線形予測係数を用いた音声合成において、主として、無声音の合成音を生成するための駆動信号となる。

演算器 1 2は、適応コードブック記憶部 9の出力信号と、ゲイン復号器 1 0が出力するゲイン 3とを乗算し、その乗算値 1を、演算器 1 4に供給する。演算器 1 3は、励起コードブック記憶部 1 1の出力信号と、ゲイン復号器 1 0が出力するゲイン γ とを乗算し、その乗算値 ηを、演算器 1 4に供給する。演算器 1 4は、演算器 1 2からの乗算値 1 と、演算器 1 3からの乗算値 ηとを加算し、その加算値を、残差信号 eとして、音声合成ライルタ 6と適応コードブック記憶部 9に供給する。

音声合成フィルタ 6では、以上のようにして、演算器 1 4から供給される残差信号 eが、ベクトル量子化部 5から供給される線形予測係数 _{α ρ}' をタップ係数とする I I Rフィルタでフィルタリングされ、その結果得られる合成音信号が、演算器 3に供給される。そして、演算器 3および自乗誤差演算部 7において、上述の場合と同様の処理が行われ、その結果得られる自乗誤差が、自乗誤差最小判定部 8に供給される。

自乗誤差最小判定部 8は、自乗誤差演算部 7からの自乗誤差が最小（極小）になったかどうかを判定する。そして、自乗誤差最小判定部 8は、自乗誤差が最小になっていないと判定した場合、上述のように、その自乗誤差に対応する L コード、 Gコード、および Lコードを出力し、以下、同様の処理が操り返される。一方、自乗誤差最小判定部 8は、自乗誤差が最小になったと判定した場合、確定信号を、コード決定部 1 5に出力する。コード決定部 1 5は、ベタトル量子化部 5から供給される Aコードを順次ラツチするとともに、自乗誤差最小判定部 8 から供給される Lコード、 Gコード、および Iコードを順次ラッチするようになつており、自乗誤差最小判定部 8から確定信号を受信すると、そのときラッチしている Aコード、 Lコード、 Gコード、および I コードを、チャネルエンコーダ 1 6に供給する。チャネルエンコーダ 1 6は、コード決定部 1 5からの Aコード、 Lコード、 Gコード、および I コードを多重化し、コードデータとして出力する。このコードデータは、伝送路を介して送信される。

以上から、コードデータは、復号に用いられる情報である Aコード、 Lコード、 Gコード、および I コードを、サブフレーム単位ごとに有する符号化データとなつている。

なお、ここでは、 Aコード、 Lコード、 Gコード、および Iコードは、サブフレームごとに求められるものとしているが、例えば、 Aコードについては、フレームごとに求められる場合があり、この場合、そのフレームを構成する 4つのサブフレームの復号には、同一の Aコードが用いられる。但し、この場合でも、その 1フレームを構成する 4つのサブフレームそれぞれが、同一の Aコードを有していると見ることができ、そのように考えることによって、コードデータは、復号に用いられる情報である Aコード、 Lコード、 Gコード、および Iコードを、サブフレーム単位ごとに有する符号化データとなっているとみなすことができる。ここで、図 1 (後述する図 2、図 5、および図 1 3においても同様）では、各変数に、 [k]が付され、配列変数とされている。この kは、サブフレーム数を表すが、明細書中では、その記述は、適宜省略する。

次に、以上のようにして、他の携帯電話機の送信部から送信されてくるコードデータは、図 2に示した受信部のチャネルデコーダ 2 1で受信される。チャネルデコーダ 2 1は、コードデータから、 Lコード、 Gコード、 I コード、 Aコードを分離し、それぞれを、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 ₂ 、フィルタ係数復号器 2 5に供給する。適応コ一ドブック記憶部 2 2、ゲイン復号器 2 3、励起コ一ドブック記憶部 2 4、演算器 2 6乃至 2 8は、図 1の適応コードブック記憶部 9、ゲイン復号器 1 0、励起コードブック記憶部 1 1、演算器 1 2乃至 1 4とそれぞれ同様に構成されるもので、図 1で説明した場合と同様の処理が行われることにより、 Lコード、 Gコード、および I コードが、残差信号 eに復号される。この残差信号 eは、音声合成フィルタ 2 9に対して、入力信号として与えられる。

フィルタ係数復号器 2 5は、図 1のべクトル量子化部 5が記憶しているのと同 —のコードブックを記憶しており、 Aコードを、線形予測係数ひ _ρ' に復号し、音声合成フィルタ 2 9に供給する。

音声合成フィルタ 2 9は、図 1の音声合成フィルタ 6と同様に構成されており、フィルタ係数復号器 2 5カゝらの線形予測係数ひ _ρ' をタツプ係数とするとともに、演算器 2 8から供給される残差信号 eを入力信号として、式（4 ) を演算し、これにより、図 1の自乗誤差最小判定部 8において自乗誤差が最小と判定されたときの合成音信号を生成する。この合成音信号は、 D / A (Digital/Analog)変換部 3 0に供給される。 D /A変換部 3 0は、音声合成フィルタ 2 9からの合成音信号を、ディジタル信号からアナログ信号に D /A変し、スピーカ 3 1に供給して出力させる。

なお、コードデータにおいて、 Αコードが、サブフレーム単位でなく、フレーム単位で配置されている場合、図 2の受信部では、フレームを構成する 4つのサブフレームすべての復号に、そのフレームに配置された Aコードに対応する線形予測係数を用いることができる他、各サブフレームについて、瞵接するフレームの Aコードに対応する線形予測係数を用いて補間を行い、その補間の結果得られる線形予測係数を、各サブフレームの復号に用いることが可能である。

以上のように、携帯電話機の送信部では、受信部の音声合成フィルタ 2 9に与えられるフィルタデータとしての残差信号と線形予測係数がコ一ド化されて送信されてくるため、受信部では、そのコードが、残差信号と線形予測係数に復号される。しかしながら、この復号された残差信号や線形予測係数（以下、適宜、それぞれを、復号残差信号または復号線形予測係数という）には、量子化誤差等の誤差が含まれるため、音声を L P C分析して得られる残差信号と線形予測係数には一致しない。

このため、受信部の音声合成フィルタ 2 9が出力する合成音信号は、歪みを有する、音質の劣化したものとなる。発明の開示

本発明は、このような状況に鑑みてなされたものであり、高音質の合成音等を得ることができるようにするものである。

本発明の第 1のデータ処理装置は、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成手段と、タップを用いて、所定の処理を行う処理手段とを備えることを特徴とする。本発明の第 1のデータ処理方法は、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを用いて、所定の処理を行う処理ステップとを備えることを特徴とする。

本発明の第 1のプログラムは、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを用いて、所定の処理を行う処理ステップとを備えることを特徴とする。

本発明の第 1の記録媒体は、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、タップを用いて、所定の処理を行う処理ステップとを備えるプログラムが記録されていることを特徴とする。

本発明の第 2のデータ処理装置は、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成手段と、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成手段と、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習手段とを備えることを特徴とする。

本発明の第 2のデータ処理方法は、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成ステツプと、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師デ一タを予測するのに用いる予測タツプを生成する予測タップ生成ステツプと、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えることを特徴とする。

本発明の第 2のプログラムは、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成ステツプと、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成ステップと、予測タップとタツプ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えることを特徴とする。

本発明の第 2の記録媒体は、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成ステップと、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成ステップと、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、タップ係数を求める学習ステップとを備えるプログラムが記録されていることを特徴とする。本発明の第 1のデータ処理装置おょぴデータ処理方法、並びにプログラムおよび記録媒体においては、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップが生成され、そのタップを用いて、所定の処理が行われる。

本発明の第 2のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体においては、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データが生成される。さらに、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号デ一タを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップが生成される。そして、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習が行われ、タップ係数が求められる。図面の簡単な説明

図 1は、従来の携帯電話機の送信部の一例の構成を示すブロック図である。図 2は、従来の携帯電話機の受信部の一例の構成を示すブロック図である。図 3は、本発明を適用した伝送システムの一実施の形態の構成例を示すプロック図である。

図 4は、携帯電話機 1 0 1い 1 0 1 ₂の構成例を示すブロック図である。

図 5は、受信部 1 1 4の構成例を示すブロック図である。

図 6は、受信部 1 1 4の処理を説明するフローチヤ一トである。

図 7は、予測タップおよびクラスタップの生成方法を説明するための図である _c 図 8は、タップ生成部 1 2 1 , 1 2 2の構成例を示すブロック図である。

図 9 Aおよび図 9 Bは、 I コードによるクラスに対する重み付けの方法を説明する図である。

図 1 O Aおよび図 1 0 Bは、 I コードによるクラスに対する重み付けの例を示す図である。

図 1 1は、クラス分類部 1 2 3の構成例を示すブロック図である。

図 1 2は、テーブル作成処理を説明するフローチャートである。

図 1 3は、本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。

図 1 4は、学習処理を説明するフローチャートである。図 1 5は、本発明を適用したコンピュータの一実施の形態の構成例を示すプロック図である。発明を実施するための最良の形態

図 3は、本発明を適用した伝送システム（システムとは、複数の装置が論理的に集合した物をいい、各構成の装置が同一筐体中にあるか否かは問わない）の一実施の形態の構成を示している。

この伝送システムでは、携帯電話機 1 0 と 1 0 1 ₂が、基地局 1 0 2 _tと 1 0 2 ₂それぞれとの間で、無線による送受信を行うとともに、基地局 1 0 2 iと 1 0 2 ₂それぞれが、交換局 1 0 3との間で送受信を行うことにより、最終的には、携帯電話機 1 0 と 1 0 1 ₂との間において、基地局 1 0 2 および 1 0 2 ₂、並びに交換局 1 0 3を介して、音声の送受信を行うことができるようになっている。なお、基地局 1 0 2 Lと 1 0 2 ₂は、同一の基地局であっても良いし、異なる基地局であっても良い。

ここで、以下、特に区別する必要がない限り、携帯電話機 1 0 と 1 0 1 ₂を、携帯電話機 1 0 1と記述する。

次に、図 4は、図 3の携帯電話機 1 0 1の構成例を示している。

この携帯電話機 1 0 1では、 CELP方式によって、音声の送受信が行われるようになっている。

即ち、アンテナ 1 1 1は、基地局 1 0 2 ₁または 1 0 2 ₂からの電波を受信し、その受信信号を、変復調部 1 1 2に供給するとともに、変復調部 1 1 2からの信号を、電波で、基地局 1 0 2 tまたは 1 0 2 ₂に送信する。変復調部 1 1 2は、了ンテナ 1 1 1からの信号を復調し、その結果得られる、図 1で説明したようなコードデータを、受信部 1 1 4に供給する。また、変復調部 1 1 2は、送信部 1 1 3から供給される、図 1で説明したようなコードデータを変調し、その結果得られる変調信号を、アンテナ 1 1 1に供給する。送信部 1 1 3は、図 1に示した送信部と同様に構成され、そこに入力されるユーザの音声を、 CELP 方式によって、コードデータに符号化して、変復調部 1 1 2に供給する。受信部 1 1 4は、変復調部 1 1 2からのコードデータを受信して CELP方式により復号し、さらに、高音質の音声を復号して出力する。

即ち、受信部 1 1 4では、例えば、クラス分類適応処理を利用して、 CELP方式で復号された合成音が、さらに、真の高音質の音声（の予測値）に復号される _c ここで、クラス分類適応処理は、クラス分類処理と適応処理とからなり、クラス分類処理によって、データを、その性質に基づいてクラス分けし、各クラスごとに適応処理を施すものであり、適応処理は、以下のような手法のものである。即ち、適応処理では、例えば、 CELP方式により復号された合成音と、所定のタップ係数との線形結合により、真の高音質の音声の予測値が求められる。

具体的には、例えば、いま、真の高音質の音声（のサンプル値）を教師データとするとともに、その真の高音質の音声を、 C E L P方式によって、 Lコード、 Gコード、 I コード、および Aコードに符号化し、それらのコードを、図 2に示した受信部で CELP方式により復号することによって得られる合成音を生徒データとして、教師データである高音質の音声 yの予測値 E [ y ] を、幾つかの合成音（のサンプル値） Xい x ₂， ' · 'の集合と、所定のタップ係数 _{W l}， w₂， -

• -の線形結合により規定される線形 1次結合モデルにより求めることを考える c この場合、予測値 E [ y ] は、次式で表すことができる。

E L y ] = w_x x ^ w₂ χ 2 + ■ · ·

· · · ( 6 )

式（6 ) を一般化するために、タップ係数 W jの集合でなる行列 W、生徒データ _{X ij}の集合でなる行列 X、および予測値 E の集合でなる行列 Y ' を、

【数 1】

X21 X22 ■■■ X2J xn Xl2 ■■■ XlJ

E '

W2 E[y₂]

, Y'=

Wj ,E[y

で定義すると、次のような観測方程式が成立する <

XW= Y'

(7) ここで、行列 Xの成分 _Xijは、 i件目の生徒データの集合（ i件目の教師データ _yiの予測に用いる生徒データの集合）の中の j番目の生徒データを意味し、行列 Wの成分 Wjは、生徒データの集合の中の j番目の生徒データとの積が演算されるタップ係数を表す。また、 _yiは、 i件目の教師データを表し、従って、 E [yj は、 i件目の教師データの予測値を表す。なお、式（6) の左辺における yは、行列 Yの成分 yiのサフィックス iを省略したものであり、また、式 (6) の右辺における Xい x ₂, · · ■ も、行列 Xの成分 _Xijのサフィックス i を省略したものである。

そして、この観測方程式に最小自乗法を適用して、真の高音質の音声 yに近い予測値 E [y] を求めることを考える。この場合、教師データとなる真の高音質の音声 yの集合でなる行列 Y、および高音質の音声 yに対する予測値 E [y ] の残差 eの集合でなる行列 Eを、

【数 2】

E=

で定義すると、式（7) から、次のような残差方程式が成立する。

XW= Y+ E ' ■ · ■ (8) この場合、真の高音質の音声 yに近い予測値 E [y ] を求めるためのタップ係数 Wjは、自乗誤差 . '

【数 3】

I

∑ e

i=1

を最小にすることで求めることができる。

従って、上述の自乗誤差をタップ係数 Wjで微分したものが 0になる場合、即ち、次式を満たすタップ係数 Wj,が、真の高音質の音声 yに近い予測値 E [ y ] を求めるため最適値ということになる。

【数 4】 ei =0 ( j = 1,2, ··-, J )

(9) そこで、まず、式（8) を、タップ係数 Wjで微分することにより、次式が成立する。

【数 5】

'， , ( …， i)

(10) 式（9) および（10) より、式（1 1) が得られる,

【数 6】

- - - U i) さらに、式（8) の残差方程式における生徒データ _Xj タップ係数 Wj、—教師データ _yi、および誤差 _{e i}の関係を考慮すると、式（1 1) から、次のような正

差替え用紙（規則 26》

【獰 i:¾ I I I

∑XilXi1 ∑XilXi2 '·· ∑ ilXiJ

i=1 i=1 i=1

I I i

A= ∑Xi2Xii ∑Xi2Xi2 '·· ∑Xi2XiJ

i=1 i=1 i=1

I I I

∑XijXi1 ∑XiJXi2 '·' ∑XiJXiJ

i=1 i=l i=1

∑XilYi

i=1

V = ∑Xi2Yi

i=1

I

∑XiJYi

i=l

で定義するとともに、べクトル Wを、数 1で示したように定義すると、式

AW= V

• · · (1 3) で表すことができる。

式（1 2) における各正規方程式は、生徒データ _Xijおよび教師データ _yiのセットを、ある程度の数だけ用意することで、求めるべきタップ係数 _Wjの数 J と同じ数だけたてることができ、従って、式（1 3) を、ベタトル Wについて解くことで（但し、式（1 3) を解くには、式（1 3) における行列 Aが正則である必要がある）、最適なタップ係数（ここでは、自乗誤差を最小にするタップ係数） Wjを求めることができる。なお、式（1 3) を解くにあたっては、例えば- 掃き出し法（Gauss- Jordanの消去法）などを用いることが可能である。

以上のようにして、最適なタップ係数 Wjを求めておき、さらに、そのタップ

差替え用紙（規則 26》係数 W jを用い、式（6 ) により、真の高音質の音声 yに近い予測値 E [ y ] を求めるのが適応処理である。

なお、例えば、教師データとして、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を用いるとともに、生徒データとして、その教師データとしての音声信号を間引いたり、低ビットで再量子化した音声信号を C E L P方式により符号化し、その符号化結果を復号して得られる合成音を用いた場合、タップ係数としては、高いサンプリング周波数でサンプリングした音声信号、または多ビットを割り当てた音声信号を生成するのに、予測誤差が、統計的に最小となる高音質の音声が得られることになる。従って、この場合、より高音質の合成音を得ることが可能となる。

図 4の受信部 1 1 4では、以上のようなクラス分類適応処理により、コードデータを CELP方式により復号して得られる合成音を、さらに、高音質の音声に復号するようになっている。

即ち、図 5は、図 4の受信部 1 1 4の構成例を示している。なお、図中、図 2 における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

タップ生成部 1 2 1と 1 2 2には、音声合成フィルタ 2 9が出力する、サブフレームごとの合成音データと、チャネルデコーダ 2 1が出力する、サブフレームごとの Lコード、 Gコード、 I コード、 Aコードのうちの Iコードとが供給されるようになっている。タップ生成部 1 2 1と 1 2 2は、そこに供給される合成音データと I コードから、高音質の音声の予測値を予測するのに用いる予測タップとするものと、クラス分類に用いるクラスタップとするものを、それぞれ抽出する。予測タップは、予測部 1 2 5に供給され、クラスタップは、クラス分類部 1 2 3に供給される。

クラス分類部 1 2 3は、タップ生成部 1 2 2から供給されるクラスタップに基づいて、クラス分類を行い、そのクラス分類結果としてのクラスコードを、係数メモリ 1 2 4に供給する。ここで、クラス分類部 1 2 3におけるクラス分類の方法としては、例えば、 K ビット ADRC (Adaptive Dynamic Range Coding)処理を利用した方法等がある。

Kビット ADRC処理においては、例えば、クラスタップを構成するデータの最大値 MAXと最小値 MINが検出され、 DR=MAX- MINを、集合の局所的なダイナミツクレンジとし、このダイナミックレンジ DRに基づいて、クラスタップを構成する各データが Kビットに再量子化される。即ち、クラスタップを構成する各データから、最小値 MINが減算され、その減算値が DR/2^Kで除算（量子化）される。そして、以上のようにして得られる、クラスタップを構成する各データの Kビットの値を、所定の順番で並べたビット列が、 ADRCコードとして出力される。

このような Kビット ADRC処理を、クラス分類に利用する場合には、例えば、その Kビット ADRC処理の結果得られる、クラスタップを構成する各データの K ビットの値を所定の順番で並べたビット列が、クラスコードとされる。

なお、その他、クラス分類は、例えば、クラスタップを、それを構成する各データを要素とするべクトルと見なして、そのべクトルとしてのクラスタップをべクトル量子化すること等によって行うことも可能である。

係数メモリ 1 2 4は、後述する図 1 3の学習装置において学習処理が行われることにより得られる、クラスごとのタップ係数を記憶しており、クラス分類部 1 2 3が出力するクラスコードに対応するァドレスに記憶されているタップ係数を、予測部 1 2 5に供給する。

予測部 1 2 5は、タップ生成部 1 2 1が出力する予測タップと、係数メモリ 1 2 4が出力するタツプ係数とを取得し、その予測タップとタツプ係数とを用いて、式（6 ) に示した線形予測演算を行う。これにより、予測部 1 2 5は、注目している注目サブフレームについて、高音質の音声（の予測値）を求めて、 D ZA変換部 3 0に供給する。

次に、図 6のフローチャートを参照して、図 5の受信部 1 1 4の処理について説明する。

即ち、チャネルデコーダ 2 1は、そこに供給されるコードデータから、 Lコード、 Gコード、 Iコード、 Aコードを分離し、それぞれを、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、フィルタ係数復号器 2 5に供給する。さらに、 Iコードは、タップ生成部 1 2 1および 1 2 2にも供給される。

そして、適応コードブック記憶部 2 2、ゲイン復号器 2 3、励起コードブック記憶部 2 4、演算器 2 6乃至 2 8は、図 2における場合と同様の処理を行い、これにより、 Lコード、 Gコード、および I コードが、残差信号 eに復号される。この残差信号は、音声合成フィルタ 2 9に供給される。

さらに、フィルタ係数復号器 2 5は、図 2で説明したように、そこに供給される Aコードを、線形予測係数に復号し、音声合成フィルタ 2 9に供給する。音声合成フィルタ 2 9は、演算器 2 8からの残差信号と、フィルタ係数復号器 2 5からの線形予測係数を用いて音声合成を行い、その結果得られる合成音を、タップ生成部 1 2 1と 1 2 2に供給する。

タップ生成部 1 2 1は、音声合成フィルタ 2 9が順次出力する合成音のサブフレームを、順次、注目サブフレームとし、ステップ S 1において、その注目サブフレームの合成音と、後述するサブフレームの I コードとから、予測タップを生成し、予測部 1 2 5に供給する。さらに、ステップ S 1では、タップ生成部 1 2 2は、やはり、注目サブフレームの合成音と、後述するサブフレームの Iコードとから、クラスタップを生成し、クラス分類部 1 2 3に供給する。

そして、ステップ S 2に進み、クラス分類部 1 2 3は、タップ生成部 1 2 2から供給されるクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、係数メモリ 1 2 4に供給して、ステップ S 3に進む。

ステップ S 3では、係数メモリ 1 2 4は、クラス分類部 1 2 3から供給されるクラスコードに対応するアドレスがら、タップ係数を読み出し、予測部 1 2 5に供給する。

そして、ステップ S 4に進み、予測部 1 2 5は、係数メモリ 1 2 4が出力するタップ係数を取得し、そのタップ係数と、タップ生成部 1 2 1からの予測タップとを用いて、式（6 ) に示した積和演算を行い、注目サブフレームの高音質の音声（の予測値）を得る。

なお、ステップ S 1乃至 S 4の処理は、注目サブフレームの合成音データのサンプル値それぞれを、順次、注目データとして行われる。即ち、サブフレームの合成音データは、前述したことから、 4 0サンプルで構成されるから、その 4 0 サンプルの合成音データそれぞれについて、ステップ S 1乃至 S 4の処理が行われる。

以上のようにして得られた高音質の音声は、予測部 1 2 5から、 D /A変換部 3 0を介して、スピー力 3 1に供給され、これにより、スピー力 3 1からは、高音質の音声が出力される。

ステップ S 4の処理後は、ステップ S 5に進み、まだ、注目サブフレームとして処理すベき次のサブフレームがあるかどうかが判定され、あると判定された場合、ステップ S 1に戻り、次に注目サブフレームとすべきサブフレームを、新たに注目サブフレームとして、以下、同様の処理を繰り返す。また、ステップ S 5 において、注目サブフレームとして処理すべきサブフレームがないと判定された場合、処理を終了する。

次に、図 7を参照して、図 5のタップ生成部 1 2 1での予測タップの生成方法について説明する。

タップ生成部 1 2 1は、例えば、図 7に示すように、サブフレームの各合成音データ（音声合成フィルタ 2 9が出力する合成音データ）を注目データとして、その注目データから過去の Nサンプルの合成音データ（図 7において、 Aで示す範囲の合成音データ）や、注目データを中心とする過去と未来の合計 Nサンプルの合成音データ（図 7において、 Bで示す範囲の合成音データ）を、予測タップとして抽出する。

さらに、タップ生成部 1 2 1は、例えば、注目データが位置するサブフレーム (図 7の実施の形態においては、サブフレーム # 3 ) 、即ち、注目サブフレームに配置された Iコードをも、予測タップとして抽出する。従って、この場合、予測タップは、注目データを含む Nサンプルの合成音データと、注目サブフレームの I コードとから構成される。

なお、タップ生成部 1 2 2においても、例えば、タップ生成部 1 2 1における場合と同様にして、合成音データと I コードからなるクラスタップが抽出される。伹し、予測タップやクラスタップの構成パターンは、上述したパターンのものに限定されるものではない。即ち、予測タップやクラスタップとしては、注目データについて、上述のような Nサンプルすべての合成音データを抽出する他、 1 サンプルおき等の合成音データを抽出するようにすることが可能である。

また、上述の場合には、同一のクラスタップおよび予測タップを構成するようにしたが、クラスタップと予測タップとは、異なる構成とすることができる。ところで、予測タップやクラスタップは、合成音データだけから構成することが可能であるが、上述のように、予測タップやクラスタップを、合成音データの他、その合成音データに関係する情報としての I コードをも用いて構成することによって、 'より高音質の音声を復号することが可能となる。

しかしながら、上述の場合のように、注目データが位置するサブフレーム（注目サブフレーム）に配置された I コードだけを、予測タップやクラスタップに含めるようにした場合には、その予測タップゃクラスタップを構成する合成音データと、 I コードとの、いわば釣り合いがとれず、そのため、クラス分類適応処理による音質の改善効果を、十分に得られなくなるおそれがある。

即ち、例えば、図 7において、注目データから過去の Nサンプルの合成音データ（図 7において、 Aで示す範囲の合成音データ）を、予測タップに含める場合、その予測タップとなる合成音データには、注目サブフレームの合成音データだけでなく、その直前のサブフレームの合成音データも含まれる。従って、この場合、注目サブフレームに配置された I コードを予測タップに含めるのならば、その直前のサブフレームに配置された I コードも、予測タップに含めなければ、予測タップ構成する合成音データと、 I コードとの関係が釣り合いのとれたものとならないおそれがある。そこで、予測タップゃクラスタップを構成させる I コードのサブフレームは、注目データの、注目サブフレームの位置に応じて可変にするようにすることが可能である。

即ち、例えば、注目データについて構成される予測タップに含まれる合成音データが、注目サブフレームの直前または直後に隣接するサブフレーム（以下、隣接サブフレームという）にまで亘る場合や、注目サブフレームの、隣接サブフレームに近い位置にまで亘る場合には、注目サブフレームの I コ一ドだけでなく、隣接サブフレームの Iコードも含めて、予測タップを構成するようにすることが可能である。クラスタップも同様にして構成することが可能である。

このように、予測タップやクラスタップを、それを構成する合成音データと I コードとの釣り合いがとれるように構成することで、クラス分類適応処理による音質の改善効果を、十分に得ることが可能となる。

図 8は、上述のように、予測タップを構成させる I コードのサブフレームを、注目データの、注目サブフレームの位置に応じて可変にすることによって、予測タップを、それを構成する合成音データと Iコードとの釣り合いがとれるように構成するタップ生成部 1 2 1の構成例を示している。なお、クラスタップを構成するタップ生成部 1 2 2も、図 8と同様に構成することができる。

メモリ 4 1 Aには、図 5の音声合成フィルタ 2 9が出力する合成音データが供給されるようになっており、メモリ 4 1 Aは、そこに供給される合成音データを一時記憶する。なお、メモリ 4 1 Aは、少なくとも、 1つの予測タップを構成する Nサンプルの合成音データを記憶することのできる記憶容量を有している。また、メモリ 4 1 Aは、そこに供給される合成音データの最新のサンプルを、最も古い記憶値に上書きする形で順次記憶するようになっている。

そして、データ抽出回路 4 2 Aは、注目データについて、予測タップを構成する合成音データを、メモリ 4 1 Aから読み出すことで抽出し、合成回路 4 3に出力する。

即ち、データ抽出回路 4 2 Aは、例えば、メモリ 4 1 Aに記憶された最新の合成音データを注目データとする場合、その最新の合成音データから過去の Nサンプルの合成音データを、メモリ 4 1 Aから読み出すことで抽出し、合成回路 4 3 に出力する。

なお、図 7において Bで示したように、注目データを中心とする過去と未来の Nサンプルの合成音データを、予測タップとする場合には、メモリ 4 1 Aに記憶された合成音データのうちの、最新の合成音データから、 NZ 2 (小数点以下は、例えば繰り上げ）サンプルだけ過去のものを、注目データとして、その注目データを中心とする過去と未来の合計 Nサンプルの合成音データを、メモリ 4 1 Aから読み出すようにすれば良い。

一方、メモリ 4 1 Bには、図 5のチャネルデコーダ 2 1が出力するサブフレーム単位の I コードが供給されるようになっており、メモリ 4 I Bは、そこに供給される I コードを一時記憶する。なお、メモリ 4 1 Bは、少なくとも、 1つの予測タップを構成しうる分の I コードを記憶することのできる記憶容量を有している。また、メモリ 4 I Bは、メモリ 4 1 Aと同様に、そこに供給される最新の I コードを、最も古い記憶値に上書きする形で順次記憶するようになっている。そして、データ抽出回路 4 2 Bは、データ抽出回路 4 2 Aが注目データとする合成音データの、注目サブフレームにおける位置に応じて、注目サブフレームの I コードだけ、または注目サブフレームの I コードと、それに隣接するサブフレーム（隣接サブフレーム）の Iコードとを、メモリ 4 1 Bから読み出すことで抽出し、合成回路 4 3に出力する。

合成回路 4 3は、データ抽出回路 4 2 Aからの合成音データと、データ抽出回路 4 2 Bからの Iコードとを、 1セットのデータに合成（結合）し、予測タップとして出力する。

ところで、タップ生成部 1 2 1において、以上のように予測タップを生成する場合には、その予測タップを構成する合成音データは、 Nサンプルで一定である力 I コードについては、注目サブフレームの I コードだけの場合と、注目サブフレームの Iコード、およびそれに隣接するサブフレーム（隣接サブフレーム）の I コードの場合とがあるため、その数が変化する。このことは、タップ生成部 1 2 2において生成されるクラスタップについても同様である。

予測タップについては、それを構成するデータの数（タップ数）が変化しても、その予測タップと同一の数のタップ係数を、後述する図 1 3の学習装置において学習し、係数メモリ 1 2 4に記憶させておけば良いから問題はない。

一方、クラスタップについては、それを構成するタップ数が変化すると、そのクラスタップによって得られる全クラス数が変化することから、処理が複雑になるおそれがある。そこで、クラスタップのタップ数が変化しても、そのクラスタップにより得られるクラス数が変化しないようなクラス分類を行うのが望ましい。このように、クラスタップのタップ数が変化しても、そのクラスタップにより得られるクラス数が変化しないようなクラス分類を行う方法としては、クラスを表すクラスコードに、例えば、注目データの、注目サブフレームにおける位置を考慮する方法がある。

即ち、本実施の形態では、注目データの、注目サブフレームにおける位置によつて、クラスタップのタップ数が增減する。例えば、いま、クラスタップのタツプ数が S個の場合と、それより多い L O S ) 個の場合とが存在し、タップ数が

S個の場合に、 nビットのクラスコードが得られ、タップ数が L個の場合に、 n

+ mビットのクラスコードが得られるとする。

この場合、クラスコードとして、 n + m + 1ビットを用いるとともに、その n + m + 1ビットのうちの、例えば、最上位ビットなどの 1ビットを、クラスタツプのタップ数が S個の場合と L個の場合とで、それぞれ、例えば、 0と 1に設定することにより、タップ数が S個と L個のいずれであっても、全クラス数が 2 ^n+m

⁺¹クラスのクラス分類が可能となる。

即ち、クラスタップのタップ数が L個の場合には、 n + mビットのクラスコードが得られるクラス分類を行い、その n + mビットのクラスコードに、その最上位ビットとして、タップ数が L個であることを表す" 1 " を付加した n + m + 1 ビットを最終的なクラスコードとすれば良い。また、クラスタツプのタップ数が S個の場合には、 nビットのクラスコードが得られるクラス分類を行い、その nビットのクラスコードに、その上位ビットとして、 mビットの" 0 " を付カ卩して n + mビットとし、さらに、その n + mビットに、その最上位ビットとして、タップ数が S個であることを表す" 0 " を付加した n + m + 1ビットを最終的なクラスコードとすれば良い。

ところで、上述のようにすることで、クラスタップのタップ数が S個と L個のいずれの場合であっても、全クラス数が 2 ^n+m+1クラスとなるクラス分類が可能となるが、タップ数が S個の場合においては、最上位ビットから数えて 2ビット目から、 m + 1ビット目までのビットは、常に" 0 " になる。

従って、上述のように、 n + m + 1ビットのクラスコードを出力するクラス分類を行った場合には、使用されないクラス（を表すクラスコード）が生じること、即ち、いわば無駄なクラスが生じることになる。

そこで、そのような無駄なクラスが生じることを防止して、全クラス数を一定にするために、クラス分類は、クラスタップを構成するデータに重みを付して行うことが可能である。

即ち、例えば、図 7において Aで示した、注目データから過去 Nサンプルの合成音データをクラスタップに含めるとともに、注目データの、注目サブフレームにおける位置に応じて、注目サブフレーム（以下、適宜、注目サブフレーム # n と記載する）の Iコード、または直前のサブフレーム # n— 1の I コードのいずれか一方または両方を、クラスタップに含める場合においては、そのクラスタツプを構成する注目サブフレーム # nの I コードに対応するクラス数と、直前のサブフレーム # n— 1の Iコードに対応するクラス数に対して、それぞれ、例えば、図 9 Aに示すような重み付けを行うことにより、全クラス数を一定にすることができる。

即ち、図 9 Aは、注目データが、注目サブフレーム # nの右方向（未来方向）に位置するほど、注目サブフレーム # nの I コ一ドに対応するクラス数が増大するような、クラス分類が行われることを表している。さらに、図 9 Aは、注目データが、注目サブフレーム # nの右方向に位置するほど、注目サブフレーム # η の直前のサブフレーム # η— 1の I コードに対応するクラス数が減少するような、クラス分類が行われることを表している。そして、図 9 Αのような重み付けが行われることにより、全体としては、クラス数が一定になるクラス分類が行われる。また、例えば、図 7において Bで示した、注目データを中心とする過去と未来の合計 Nサンプルの合成音データを、クラスタップに含めるとともに、注目データの、注目サブフレームにおける位置に応じて、注目サブフレーム # nの I コードと、その直前のサブフレーム # n— 1若しくは直後のサブフレーム # n + 1の I コードのいずれか一方または両方とを、クラスタップに含める場合においては、そのクラスタップを構成する注目サブフレーム # nの Iコードに対応するクラス数、直前のサブフレーム # n— 1の Iコードに対応するクラス数、直後のサブフレーム # n + 1の I コードに対応するクラス数に対して、それぞれ、例えば、図 9 Bに示すような重み付けを行うことにより、全クラス数を一定にすることができる。

即ち、図 9 Bは、注目データが、注目サブフレーム # nの中心位置に近いほど、注目サブフレーム # nの I コードに対応するクラス数が増大するような、クラス分類が行われることを表している。さらに、図 9 Bは、注目データが、注目サブフレーム # nの左方向（過去方向）に位置するほど、注目サブフレーム # nの直前のサブフレーム # n— 1の I コードに対応するクラス数が増大し、また、注目データが、注目サブフレーム # nの右方向（未来方向）に位置するほど、注目サブフレーム # nの直後のサブフレーム # n + 1の I コードに対応するクラス数が増大するような、クラス分類が行われることを表している。そして、図 9 Bのような重み付けが行われることにより、全体としては、クラス数が一定になるクラス分類が行われる。

次に、図 1 0は、 Iコードに対応するクラス数が、例えば、 5 1 2クラスで一定となるように、クラス分類を行う場合の重み付けの例を示している。

即ち、図 1 0 Aは、注目データの、注目サブフレームにおける位置に応じて、注目サブフレーム # nの Iコード、または直前のサブフレーム # n— 1の I コードのいずれか一方または両方を、クラスタップに含める場合の、図 9 Aに示した重み付けの具体例を示している。

また、図 1 0 Bは、注目データの、注目サブフレームにおける位置に応じて、注目サブフレーム # nの Iコードと、その直前のサブフレーム # n— 1若しくは直後のサブフレーム # n + 1の I コードのいずれか一方または両方とを、クラスタップに含める場合の、図 9 Bに示した重み付けの具体例を示している。

図 1 O Aにおいて、その最左欄は、注目サブフレームにおける注目データの左端からの位置を、左から 2番目の欄は、注目サブフレームの直前のサブフレームの Iコードによるクラス数を、左から 3番目の欄は、注目サブフレームの I コードによるクラス数を、最右欄は、クラスタップを構成する Iコードによるクラス数（注目サブフレームの Iコードと、その直前のサブフレームの Iコードとによるクラス数）を、それぞれ示している。

ここで、サブフレームは、例えば、前述したように、 4 0サンプルで構成されるため、注目サブフレームにおける注目データの左端からの位置（最左欄）は、 1乃至 4 0の範囲の値をとる。また、 Iコードは、例えば、前述したように、 9 ビットであるため、その 9ビットを、そのままクラスコードとした場合が、クラス数が最大となる場合となる。従って、 I コードによるクラス数（左から 2番目と 3番目の欄）は、 2 ⁹ ( = 5 1 2 ) 以下の値となる。

さらに、上述のように、 1つの I コードを、そのままクラスコードとして用いた場合には、そのクラス数は、 5 1 2 (= 2⁹) となることから、図 1 O Aでは (後述する図 1 0 Bにおいても同様）、クラスタップを構成するすべての I コードによるクラス数（注目サブフレームの Iコードと、その直前のサブフレームの Iコードとによるクラス数）力 5 1 2クラスとなるように、即ち、注目サブフレームの I コードによるクラス数と、その直前のサブフレームの I コードによるクラス数との積が、 5 1 2クラスとなるように、注目サブフレームの I コードによるクラス数と、その直前のサブフレームの I コードによるクラス数とに、重み付けが行われている。

図 1 0 Aにおいては、図 9 Aで説明したように、注目データが、注目サブフレ一ム# nの右方向に位置するほど（注目データの位置を表す値が大きくなるほど）、注目サブフレーム # nの I コードに対応するクラス数が増大するとともに、注目サブフレーム # nの直前のサブフレーム # n— 1の I コードに対応するクラス数が減少している。

また、図 1 0 Bにおいて、その最左欄、左から 2番目の欄、 3番目の欄、および最右欄は、図 1 O Aにおける場合と同様の内容を示している。そして、左から 4番目の欄は、注自サブフレームの直後のサブフレームの I コードによるクラス数を示している。

図 1 0 Bにおいては、図 9 Bで説明したように、注目データが、注目サブフレ一ム# nの中心位置からずれるほど（注目データの位置を表す値が大きくまたは小さくなるほど）、注目サブフレーム # nの Iコードに対応するクラス数が減少している。また、注目データが、注目サブフレーム # nの左方向に位置するほど、注目サブフレーム # nの直前のサブフレーム # n— 1の I コードに対応するクラス数が増大し、さらに、注目データが、注目サブフレーム # nの右方向に位置するほど、注目サブフレーム # nの直後のサブフレーム # n + 1の I コードに対応するクラス数が増大している。

次に、図 1 1は、上述のような重み付けを伴うクラス分類を行う、図 5のクラス分類部 1 2 3の構成例を示している。

なお、ここでは、クラスタップは、例えば、図 7において Aで示した、注目デ —タから過去 Nサンプルの合成音データと、注目サブフレームおよびその直前のサブフレームの I コードとから構成されるものとする。

タップ生成部 1 2 2 (図 5 ) が出力するクラスタップは、合成音データ切り出し部 5 1とコード切り出し部 5 3に供給される。

合成音データ切り出し部 5 1は、そこに供給されるクラスタップから、そのクラスタップを構成する複数サンプルの合成音データを切り出し（抽出し）、 ADRC 回路 5 2に供給する。 01^回路5 2は、合成音データ切り出し部 5 1から供給される複数の合成音データ（ここでは、 Nサンプルの合成音データ）に対して、例えば、 1ビット ADRC処理を施し、その結果得られる複数の合成音データについての 1ビットを所定の順番で並べたビット列を、合成回路 5 6に供給する。一方、コード切り出し部 5 3は、そこに供給されるクラスタップから、そのクラスタップを構成する I コードを切り出す（抽出する）。さらに、コード切り出し部 5 3は、その切り出した Iコードのうち、注目サブフレームの Iコードと、直前のサブフレームの I コードを、縮退部 5 4 Aと 5 4 Bに、それぞれ供給する。縮退部 5 4 Aは、後述するテーブル作成処理によって作成された縮退テーブルを記憶しており、その縮退テーブルを用い、図 9および図 1 0で説明したようにして、注目データの注目サブフレームにおける位置にしたがって、注目サブフレームの Iコードによって表されるクラス数を縮退（減少）させ、合成回路 5 5に出力する。

即ち、縮退部 5 4 Aは、注目データの注目サブフレームにおける位置が、左から 1乃至 4番目のいずれかである場合には、例えば、図 1 O Aに示したように、注目サブフレームの I コードによって表される 5 1 2のクラス数を、 5 1 2クラスにするように縮退処理して、即ち、注目サブフレームの 9 ビットの I コードを、特に処理せずに、そのまま出力する。

また、縮退部 5 4 Aは、注目データの注目サブフレームにおける位置が、左から 5乃至 8番目のいずれかである場合には、例えば、図 1 0 Aに示したように、注目サブフレームの I コードによって表される 5 1 2のクラス数を、 2 5 6クラスにするように縮退処理して、即ち、注目サブフレームの 9ビットの I コードを、縮退テーブルを用いて、 8ビットで表されるコードに変換して出力する。

さらに、縮退部 5 4 Aは、注目データの注目サブフレームにおける位置が、左から 9乃至 1 2番目のいずれかである場合には、例えば、図 1 O Aに示したように、注目サブフレームの Iコードによって表される 5 1 2のクラス数を、 1 2 8 クラスにするように縮退処理して、即ち、注目サブフレームの 9ビットの I コードを、縮退テーブルを用いて、 7ビットで表されるコードに変換して出力する。縮退部 5 4 Aは、以下、同様に、注目データの注目サブフレームにおける位置にしたがって、注目サブフレームの I コードによって表されるクラス数を、例えば、図 1 0 Aの左から 2番目の欄に示したように縮退させて、合成回路 5 5に出力する。

縮退部 5 4 Bも、縮退部 5 4 Aと同様に、縮退テーブルを記憶しており、その縮退テーブルを用い、注目データの注目サブフレームにおける位置にしたがって、注目サブフレームの直前のサブフレームの I コ一ドによって表されるクラス数を、例えば、図 1 O Aの左から 3番目の欄に示したように縮退させて、合成回路 5 5 に出力する。

合成回路 5 5は、縮退部 5 4 Aからの、クラス数が適宜縮退された注目サプフレームの I コードと、縮退部 5 4 Bからの、クラス数が適宜縮退された注目サブフレームの直前のサブフレームの Iコードとを、 1つのビット列に合成し、合成回路 5 6に出力する。

合成回路 5 6は、 ADRC回路 5 2が出力するビット列と、合成回路 5 5が出力するビット列とを結合して、 1つのビット列とし、クラスコ一ドとして出力する。次に、図 1 2のフローチヤ一トを参照して、図 1 1の縮退部 5 4 Aおよび 5 4 Bで用いられる縮退テ一ブルを作成するテーブル作成処理について説明する。縮退テーブル作成処理では、まず最初に、ステップ S 1 1において、縮退後のクラス数 Mが設定される。なお、ここでは、 Mは、説明を簡単にするために、例えば、 2累乗の値とする。さらに、ここでは、 9 ビットの Iコードによって表されるクラス数を縮退するための縮退テーブルを作成するので、 Mは、 9 ビットの I コードによって表される最大のクラス数である 5 1 2以下の値とする。

その後、ステップ S 1 2に進み、縮退後のクラスコードを表す変数 cに 0をセットし、ステップ S 1 3に進む。ステップ S 1 3では、 I コードすベて（最初は、 9ビットの I コードによって表される数すベて）を、処理の対象とする対象 I コードに設定し、ステップ S 1 4に進む。ステップ S 1 4では、対象 I コードのうちの 1つを、注目 I コードとして選択し、ステップ S 1 5に進む。

ステップ S 1 5では、注目 I コードによって表される波形（励起信号の波形）と、注目 I コードを除く、すべての対象コードによって表される波形それぞれとの自乗誤差が計算される。

即ち、前述したように、 I コードは、所定の励起信号と対応付けられており、ステップ S 1 5では、注目 I コードによって表される励起信号の波形の各サンプル値と、対象 I コードによって表される励起信号の波形の、対応するサンプル値との自乗誤差の総和が求められる。ステップ S 1 5では、このような注目 I コードについての自乗誤差の総和が、対象 Iコードすベてを対象として求められる。その後、ステップ S 1 6に進み、注目 I コードについての自乗誤差の総和を最小にする対象 I コード（以下、適宜、自乗誤差最小 I コードという）が検出され、注目 I コードと、自乗誤差最小 I コードと力変数 cによって表されるコードに対応付けられる。即ち、これにより、注目 I コードと、対象 I コードのうち、注目 Iコードによって表される波形と最も近似する波形を表すもの（自乗誤差最小 Iコード）とが、同一のクラス cに縮退される。

ステップ S 1 6の処理後は、ステップ S 1 7に進み、注目 I コードによって表される波形の各サンプル値と、自乗誤差最小 Iコードによって表される波形の、対応するサンプル値との、例えば平均値が求められ、その平均値による波形が、変数 cが表す励起信号の波形として、変数 cに対応付けられる。

そして、ステップ S 1 8に進み、注目 I コードと、自乗誤差最小 Iコードとが、対象 I コードが除外され、ステップ S 1 9に進み、変数 cが 1だけィンクリメントされて、ステップ S 2 0に進む。

ステップ S 2 0では、対象 I コードとなっている I コードが、まだ存在するかどうかが判定され、存在すると判定された場合、ステップ S 1 4に戻り、対象 I コードとなっている Iコードから、新たな注目 I コードが選択され、以下、同様の処理が操り返される。

また、ステップ S 2 0において、対象 I コードとなっている Iコードが存在しないと判定された場合、即ち、直前のステップ S 1 3において、対象 I コードとされた Iコードが、その総数の 1 Z 2の数の変数 cに対応付けられた場合、ステップ S 2 1に進み、変数 cが、縮退後のクラス数 Mに等しいかどうかが判定される。

ステップ S 2 1において、変数 cが、縮退後のクラス数 Mに等しくないと判定された場合、即ち、 9ビットの I コードによって表されるクラス数が、まだ Mクラスに縮退されていない場合、ステップ S 2 2に進み、変数 cによって表される各値が、新たに、 I コードとみなされ、ステップ S 1 2に戻り、その新たな I コードを対象として、以下、同様の処理が繰り返される。

なお、この新たな Iコードについては、ステップ S 1 7で求められた波形が、その新たな Iコードが表す励起信号の波形として、ステップ S 1 5における自乗誤差の計算が行われる。

一方、ステップ S 2 1において、変数 c力縮退後のクラス数 Mに等しいと判定された場合、即ち、 9ビットの Iコードによって表されるクラス数が、 Mクラスに縮退された場合、ステップ S 2 3に進み、変数 cの各値と、その値に対応付けられている 9 ビットの Iコードとの対応表が作成され、この対応表が、縮退テ一プルとして出力されて、処理を終了する。

図 1 1の縮退部 5 4 Aおよび 5 4 Bでは、そこに供給される 9ビットの I コードが、上述のようにして作成された縮退テーブルにおいて、その 9ビットの I コ一ドと対応付けられている変数 cに変換されることで縮退される。

なお、 9ビットの I コードによるクラス数の縮退は、その他、例えば、単に、 I コードの下位ビットを削除することによって行うことも可能である。但し、クラス数の縮退は、類似するクラスどうしをまとめるように行うのが望ましく、従つて、 Iコードの下位ビットを単に削除するよりは、図 1 2で説明したように、波形が似ている励起信号の信号を表す I コードどうしを、同一のクラスに割り当てるようにする方が望ましい。

次に、図 1 3は、図 5の係数メモリ 1 2 4に記憶させるタップ係数の学習処理を行う学晋装置の一実施の形態の構成例を示している。

マイク 2 0 1乃至コード決定部 2 1 5は、図 1のマイク 1乃至コード決定部 1 5とそれぞれ同様に構成される。マイク 1には、学習用の高音質の音声信号が入力されるようになつており、従って、マイク 2 0 1乃至コード決定部 2 1 5では、その学習用の音声信号に対して、図 1における場合と同様の処理が施される。但し、コード決定部 2 1 5は、 Lコード、 Gコード、 Iコード、および Aコードのうち、本実施の形態において予測タップやクラスタップを構成する Iコードだけを出力するようになっている。

そして、タップ生成部 1 3 1と 1 3 2には、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときの音声合成フィルタ 2 0 6が出力する合成音が供給される。さらに、タップ生成部 1 3 1と 1 3 2には、コード決定部 2 1 5が、自乗誤差最小判定部 2 0 8から確定信号を受信したときに出力する I コードも供給される。また、正規方程式加算回路 1 3 4には、 AZD変換部 2 0 2が出力する音声が、教師データとして供給される。

タップ生成部 1 3 1は、音声合成フィルタ 2 0 6が出力する合成音データと、コード決定部 2 1 5が出力する I コードとから、図 5のタップ生成部 1 2 1における場合と同一の予測タップを生成し、生徒データとして、正規方程式加算回路 1 3 4に供給する。

タップ生成部 1 3 2も、音声合成フィルタ 2 0 6が出力する合成音と、コード決定部 2 1 5が出力する Iコードとから、図 5のタップ生成部 1 2 2における場合と同一のクラスタップを生成し、クラス分類部 1 3 3に供給する。

クラス分類部 1 3 3は、タップ生成部 1 3 2からのクラスタップに基づいて、図 5のクラス分類部 1 2 3における場合と同様のクラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 1 3 4に供給する。

正規方程式加算回路 1 3 4は、 A/ D変換部 2 0 2からの音声を、教師データとして受信するとともに、タップ生成部 1 3 1からの予測タップを、生徒データとして受信し、その教師データおよび生徒データを対象として、クラス分類部 1 3 3からのクラスコードごとに足し込みを行う。

即ち、正規方程式加算回路 1 3 4は、クラス分類部 1 3 3から供給されるクラスコードに対応するクラスごとに、予測タップ（生徒データ）を用い、式（1 3 ) の行列 Aにおける各コンポーネントとなっている、生徒データどうしの乗算 ( x _in x _im) と、サメーシヨン（∑) に相当する演算を行う。

さらに、正規方程式加算回路 1 3 4は、やはり、クラス分類部 1 3 3から供給されるクラスコードに対応するクラスごとに、生徒データおよび教師データを用い、式（1 3 ) のべクトル Vにおける各コンポーネントとなっている、生徒データと教師データの乗算（x _in y i) と、サメーシヨン（∑) に相当する演算を行う。正規方程式加算回路 1 3 4は、以上の足し込みを、そこに供給される学習用の音声のサブフレームすベてを注目サブフレームとして行い、これにより、各クラスについて、式（1 3 ) に示した正規方程式をたてる。

タップ係数決定回路 1 3 5は、正規方程式加算回路 1 3 4においてクラスごとに生成された正規方程式を解くことにより、クラスごとに、タップ係数を求め、係数メモリ 1 3 6の、各クラスに対応するァドレスに供給する。

なお、学習用の音声信号として用意した音声信号によっては、正規方程式加算回路 1 3 4において、タップ係数を求めるのに必要な数の正規方程式が得られないクラスが生じる場合があり得るが、タップ係数決定回路 1 3 5は、そのようなクラスについては、例えば、デフォルトのタップ係数を出力する。

係数メモリ 1 3 6は、タップ係数決定回路 1 3 5から供給されるクラスごとのタップ係数を、そのクラスに対応するァドレスに記憶する。

次に、図 1 4のフローチャートを参照して、図 1 3の構成される学習装置で行われる、高音質の音声を復号するためのタップ係数を求める学習処理について説明する。

即ち、学習装置には、学習用の音声信号が供給され、ステップ S 3 1では、その学習用の音声信号から、教師データと生徒データが生成される。

即ち、学習用の音声信号は、マイク 2 0 1に入力され、マイク 2 0 1乃至コード決定部 2 1 5は、図 1のマイク 1乃至コード決定部 1 5における場合とそれぞれ同様の処理を行う。

その結果、 AZD変換部 2 0 2で得られるディジタル信号の音声は、教師データとして、正規方程式加算回路 1 3 4に供給される。また、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときに、音声合成フィルタ

2 0 6が出力する合成音データが、生徒データとして、タップ生成部 1 3 1と 1

3 2に供給される。さらに、自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときに、コード决定部 2 1 5が出力する Iコードも、生徒データとして、タップ生成部 1 3 1と 1 3 2に供給される。

その後、ステップ S 3 2に進み、タップ生成部 1 3 1は、音声合成フィルタ 2 0 6から生徒データとして供給される合成音のサブフレームを注目サブフレームとし、さらに、その注目サブフレームの合成音データを、順次、注目データとして、各注目データについて、音声合成フィルタ 2 0 6からの合成音データと、コ一ド決定部 2 1 5からの I コードとカゝら、図 5のタップ生成部 1 2 1における場合と同様にして、予測タップを生成し、正規方程式加算回路 1 3 4に供給する。さらに、ステップ S 3 2では、タップ生成部 1 3 2が、やはり、合成音データと、 I コードとから、図 5のタップ生成部 1 2 2における場合と同様にして、クラスタップを生成し、クラス分類部 1 3 3に供給する。

ステップ S 3 2の処理後は、ステップ S 3 3に進み、クラス分類部 1 3 3力タップ生成部 1 3 2からのクラスタップに基づいて、クラス分類を行い、その結果得られるクラスコードを、正規方程式加算回路 1 3 4に供給する。

そして、ステップ S 3 4に進み、正規方程式加算回路 1 3 4は、 AZD変換器 2 0 2からの教師データとしての学習用の音声のうちの注目データに対応するもの、およびタップ生成部 1 3 2からの生徒データとしての予測タップ（注目データについて生成された予測タップ）を対象として、式（1 3 ) の行列 Aとべタトル Vの、上述したような足し込みを、クラス分類部 1 3 3からの注目データについてのクラスコードごとに行い、ステップ S 3 5に進む。ステップ S 3 5では、まだ、注目サブフレームとして処理すべき次のサブフレームがあるかどうかが判定される。ステップ S 3 5において、まだ、注目サブフレームとして処理すべき次のサブフレームがあると判定された場合、ステップ S 3 1に戻り、次のサブフレームを新たに注目サブフレームとして、以下、同様の処理が繰り返される。

また、ステップ S 3 5において、注目サブフレームとして処理すべきサブフレームがないと判定された場合、ステップ S 3 6に進み、タップ係数決定回路 1 3 5は、正規方程式加算回路 1 3 4で各クラスごとに生成された正規方程式を解くことにより、各クラスごとに、タップ係数を求め、係数メモリ 1 3 6の、各クラスに対応するアドレスに供給して記憶させ、処理を終了する。

以上のようにして、係数メモリ 1 3 6に記憶された各クラスごとのタップ係数 1 図 5の係数メモリ 1 2 4に記憶されている。

以上のように、図 5の係数メモリ 1 2 4に記憶されたタップ係数は、線形予測演算を行うことにより得られる高音質の音声の予測値の予測誤差（自乗誤差）が、統計的に最小になるように学習を行うことにより求められたものであるから、図 5の予測部 1 2 5が出力する音声は、高音質のものとなる。

なお、例えば、図 5および図 1 3の実施の形態では、予測タップゃクラスタツプに、音声合成フィルタ 2 0 6が出力する合成音データの他、符号化データに含まれる（符号化データとなる） Iコードを含めるようにしたが、予測タップゃクラスタップには、図 5および図 1 3において点線で示すように、 I コードに替えて、あるいは I コードの他に、 Lコードや、 Gコード、 Aコード、 Aコードから得られる線形予測係数 a _p、 Gコードから得られるゲイン， _γ、その他の、 L コード、 Gコード、 I コード、または Αコードから得られる情報（例えば、残差信号 eや、残差信号 eを得るための 1 , n、さらには、 1 / J3， ιιノ γなど）のうちの 1以上を含めるようにすることが可能である。また、 C E L P方式では、符号化データとしてのコードデータに、リスト補間ビットゃフレームエネルギが含められる場合があるが、この場合、予測タップやクラスタップは、ソフト補間ビットゃフレームエネルギを用いて構成することが可能である。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウアにより行うこともできる。一連の処理をソフトウエアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストーノレされる。

そこで、図 1 5は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードデイスク 3 0 5や R O M 3 0 3に予め記録しておくことができる。

あるレ、はまた、プログラムは、フロッピーディスク、 CD- ROM (Compact Disc Re ad Only Memory) , MO (Magneto optical)ディスク， DVD (Digital Versati le Dis c)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体 3 1 1に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体 3 1 1は、いわゆるパッケージソフトウェアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体 3 1 1からコンビユータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、 LAN (Local Area Netwo rk)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部 3 0 8で受信し、内蔵するハードディスク 3 0 5にィンストールすることができる。

コンピュータは、 CPU (Central Processing Uni t) 3 0 2を内蔵している。 CPU 3 0 2には、バス 3 0 1を介して、入出力ィンタフェース 3 1 0が接続されており、 CPU 3 0 2は、入出力インタフェース 3 1 0を介して、ユーザによって、キ一ボードや、マウス、マイク等で構成される入力部 3 0 7が操作等されることにより指令が入力されると、それにしたがって、 R0M (Read Only Memory) 3 0 3に格納されているプログラムを実行する。あるいは、また、 CPU 3 0 2は、ハードディスク 3 0 5に格納されているプログラム、衛星若しくはネットワークから転送され、通信部 3 0 8で受信されてハードディスク 3 0 5にィンストールされたプログラム、またはドライブ 3 0 9に装着されたリムーバブル記録媒体 3 1 1から読み出されてハードディスク 3 0 5にインストールされたプログラムを、 RAM (Random Access Memory) 3 0 4にロードして実行する。これにより、 CPU 3 0 2 は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、 CPU 3 0 2は、その処理結果を、必要に応じて、例えば、入出力インタフェース 3 1 0を介して、 LCD (Liquid CryStal Display)やスピーカ等で構成される出力部 3 0 6から出力、あるいは、通信部 3 0 8から送信、さらには、ハードディスク 3 0 5に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理 (例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、 1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。なお、本実施の形態においては、学習用の音声信号として、どのようなものを用いるかについては、特に言及しなかったが、学習用の音声信号としては、人が発話した音声の他、例えば、曲（音楽）等を採用することが可能である。そして、上述したような学習処理によれば、学習用の音声信号として、人の発話を用いた場合には、そのような人の発話の音声の音質を向上させるようなタップ係数が得られ、曲を用いた場合には、曲の音質を向上させるようなタップ係数が得られることになる。

また、図 5の実施の形態では、係数メモリ 1 2 4には、タップ係数をあらかじめ記憶させておくようにしたが、係数メモリ 1 2 4に記憶させるタップ係数は、携帯電話機 1 0 1において、図 3の基地局 1 0 2 (あるいは交換局 1 0 3 ) や、図示しない WWW (World Wide Web)サーバ等からダウンロードするようにすることができる。即ち、上述したように、タップ係数は、人の発話用や曲用等のように、ある種類の音声信号に適したものを、学習によって得ることができる。さらに、学習に用いる教師データおよび生徒データによっては、合成音の音質に差が生じるタップ係数を得ることができる。従って、そのような各種のタップ係数を、基地局 1 0 2等に記憶させておき、ユーザには、自身の所望するタップ係数をダゥンロードさせるようにすることができる。そして、このようなタップ係数のダゥンロードサ一ビスは、無料で行うこともできるし、有料で行うこともできる。さらに、タップ係数のダウンロードサービスを有料で行う場合には、タップ係数のダウンロードに対する対価としての代金は、例えば、携帯電話機 1 0 1の通話料等とともに請求するようにすることが可能である。

また、係数メモリ 1 2 4は、携帯電話機 1 0 1に対して着脱可能なメモリカード等で構成することができる。この場合、上述したような各種のタップ係数それぞれを記憶させた、異なるメモリカードを提供するようにすれば、ユーザは、場合に応じて、所望のタップ係数が記憶されたメモリカードを、携帯電話機 1 0 1 に装着して使用することが可能となる。

さらに、本発明は、例えば、 V S E L P (Vector Sum Excited Liner Predicti on) , P S I - C E L P (Pitch Synchronous Innovation CELP)， C S - A C E L P (Conjugate Structure Algebraic CELP)等の C E L P方式による符号化の結果得られるコードから合成音を生成する場合に、広く適用可能である。

また、本発明は、 C E L P方式による符号化の結果得られるコードから合成音を復号する場合に限らず、復号に用いられる情報（復号情報）を、所定の単位ごとに有する符号化データから、元のデータを復号する場合に広く適用可能である _c 即ち、本発明は、例えば、画像を、所定のブロック単位で DCT (Discrete Cosine Transform)係数とする JPEG (Joint Photographic Experts Group)方式により符号された符号化データ等にも適用可能である。さらに、本実施の形態では、タップ係数を用いた線形 1次予測演算によって、残差信号や線形予測係数の予測値を求めるようにしたが、この予測値は、その他、 2次以上の高次の予測演算によって求めることも可能である。

なお、例えば、特開平 8 _ 2 0 2 3 9 9号公報には、合成音を、高域強調フィルタに通すことによって、その音質を改善する方法が開示されているが、本発明は、タップ係数が学習により得られる点や、予測計算に用いられるタップ係数が、クラス分類結果によって適応的に決まる点、さらには、予測タップ等が、合成音だけでなく、符号化データに含まれる I コード等から生成される点等において、特開平 8— 2 0 2 3 3 9号公報に記載の発明とは異なる。産業上の利用可能性

本発明の第 1のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体によれば、符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップが生成され、そのタップを用いて、所定の処理が行われる。従って、例えば、品質の良い復号データを得ることが可能となる。

本発明の第 2のデータ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体によれば、教師となる教師データを、所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データが生成される。さらに、生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある復号データを抽出するとともに、注目データの、所定の単位における位置に応じて、所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップが生成される。そして、予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる教師データの予測値の予測誤差が、統計的に最小になるように学習が行われ、タップ係数が求められる。従って、符号化データから、品質の良い復号データを復号するためのタップ係数を得ることが可能となる。

Claims

請求の範囲

1 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するデータ処理装置であって、

前記符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成手段と、

前記タップを用いて、所定の処理を行う処理手段と

を備えることを特徴とするデータ処理装置。

2 . 学習を行うことにより求められたタップ係数を取得するタップ係数取得手段をさらに備え、

前記タップ生成手段は、前記タップ係数との所定の予測演算を行う予測タップを生成し、

前記処理手段は、前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより、前記学習において教師として用いられた教師データに対応する予測値を求める

ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。

3 . 前記処理手段は、前記予測タップとタップ係数とを用いて、線形 1次予測演算を行うことにより、前記予測値を求める

ことを特徴とする請求の範囲第 2項に記載のデータ処理装置。

4 . 前記タップ生成手段は、前記注目データをクラス分けするクラス分類を行うのに用いられるクラスタップを生成し、

前記処理手段は、前記クラスタップに基づき、前記注目データについて、クラス分類を行う

5 . 前記処理手段は、前記クラスタップを構成する復号情報に対して、前記所定の単位ごとに重みを付して、クラス分類を行うことを特徴とする請求の範囲第 4項に記載のデータ処理装置。

6 . 前記処理手段は、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報に対して重みを付して、クラス分類を行うことを特徴とする請求の範囲第 5項に記載のデータ処理装置。

7 . 前記処理手段は、前記所定の単位ごとの復号情報に対して、前記クラス分類により得られる全クラス数が一定になる重みを付して、クラス分類を行う

ことを特徴とする請求の範囲第 5項に記載のデータ処理装置。

8 . 前記タップ生成手段は、学習を行うことにより求められたタップ係数との所定の予測演算を行う予測タップを生成するとともに、前記注目データをクラス分けするクラス分類を行うのに用いられるクラスタップを生成し、

前記処理手段は、前記クラスタップに基づき、前記注目データについて、クラス分類を行い、そのクラス分類の結果得られるクラスに対応する前記タップ係数と、前記予測タップとを用いて、所定の予測演算を行うことにより、前記学習において教師として用いられた教師データに対応する予測値を求める

9 . 前記タップ生成手段は、前記注目データに近い位置にある前記復号データまたは前記所定の単位ごとの復号情報を抽出する

1 0 . 前記符号化データは、音声を符号化したものである

1 1 . 前記符号化データは、音声を、 C E L P (Code Excited Liner Predicti on coding)方式によって符号化したものである

ことを特徴とする請求の範囲第 1 0項に記載のデータ処理装置。

1 2 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するデータ処理方法であって、

前記符号化データを復号した復号データのうちの注目している注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、所定の処理に用いるタップを生成するタップ生成ステップと、前記タップを用いて、所定の処理を行う処理ステップと

を備えることを特徴とするデータ処理方法。

1 3 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを、コンピュータに処理させるプログラムであって、

を備えることを特徴とするプログラム。

1 4 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを、コンピュータに処理させるプログラムが記録されている記録媒体であって、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。

1 5 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するのに用いる所定のタップ係数を学習するデータ処理装置であつて、

教師となる教師データを、前記所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成手段と、

前記生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成手段と、

前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習手段と

を備えることを特徴とするデータ処理装置。

1 6 . 前記学習手段は、前記予測タップとタップ係数とを用いて、線形一次予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行う

ことを特徴とする請求の範囲第 1 5項に記載のデータ処理装置。

1 7 . 前記注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、前記注目データをクラス分けするクラス分類を行うのに用いられるクラスタップを生成するクラスタップ生成手段と、前記クラスタップに基づき、前記注目データについて、クラス分類を行うクラス分類手段と

をさらに備え、

前記学習手段は、前記クラス分類手段によるクラス分類の結果得られるクラスごとに、前記タップ係数を求める

1 8 . 前記クラス分類手段は、前記クラスタップを構成する復号情報に対して、前記所定の単位ごとに重みを付して、クラス分類を行う

ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。

1 9 . 前記クラス分類手段は、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報に対して重みを付して、クラス分類を行う

ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。

2 0 . 前記クラス分類手段は、前記所定の単位ごとの復号情報に対して、前記クラス分類により得られる全クラス数が一定になる重みを付して、クラス分類を行う

2 1 . 前記予測タップ生成手段またはクラスタツプ生成手段は、前記注目データに近い位置にある前記復号データまたは前記所定の単位ごとの復号情報を抽出する

2 2 . 前記教師データは、音声データである

2 3 . 生徒データ生成手段は、前記教師データとしての音声データを、 C E L P (Code Excited Liner Prediction coding)方式によって符号ィ匕する

ことを特徴とする請求の範囲第 2 2項に記載のデータ処理装置。

2 4 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するのに用いる所定のタップ係数を学習するデータ処理方法であつて、

教師となる教師データを、前記所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号デ一タを生成する生徒データ生成ステツプと、

前記生徒データとしての復号データのうちの注目している注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成ステップと、

前記予測タップとタツプ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習ステップと

を備えることを特徴とするデータ処理方法。

2 5 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するのに用いる所定のタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムであって、

教師となる教師データを、前記所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号デ一タを生成する生徒データ生成ステップと、

前記生徒データとしての復号データのう'ちの注目している注目データと所定の位置関係にある前記復号データを抽出するとともに、前記注目データの、前記所定の単位における位置に応じて、前記所定の単位ごとの復号情報を抽出することにより、教師データを予測するのに用いる予測タップを生成する予測タップ生成ステップと、

前記予測タップとタップ係数とを用いて、所定の予測演算を行うことにより得られる前記教師データの予測値の予測誤差が、統計的に最小になるように学習を行い、前記タップ係数を求める学習ステップと

を備えることを特徴とするプログラム。

2 6 . 復号に用いられる情報である復号情報を、所定の単位ごとに有する符号化データを処理するのに用いる所定のタップ係数を学習するデータ処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、

教師となる教師データを、前記所定の単位ごとの復号情報を有する符号化データに符号化し、その符号化データを復号することにより、生徒となる生徒データとしての復号データを生成する生徒データ生成ステップと、

を備えるプログラムが記録されている

ことを特徴とする記録媒体。