WO2002059876A1 - Appareil de traitement de donnees - Google Patents

Appareil de traitement de donnees Download PDF

Info

Publication number
WO2002059876A1
WO2002059876A1 PCT/JP2002/000489 JP0200489W WO02059876A1 WO 2002059876 A1 WO2002059876 A1 WO 2002059876A1 JP 0200489 W JP0200489 W JP 0200489W WO 02059876 A1 WO02059876 A1 WO 02059876A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
tap
predetermined
prediction
code
Prior art date
Application number
PCT/JP2002/000489
Other languages
English (en)
French (fr)
Inventor
Tetsujiro Kondo
Tsutomu Watanabe
Hiroto Kimura
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to KR1020027012588A priority Critical patent/KR100875783B1/ko
Priority to US10/239,591 priority patent/US7467083B2/en
Priority to EP02710340A priority patent/EP1282114A4/en
Publication of WO2002059876A1 publication Critical patent/WO2002059876A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Definitions

  • the present invention relates to a data processing apparatus, and more particularly to a data processing apparatus that can decode, for example, speech encoded by, for example, CELP (Code Excited Liner Prediction coding) into high-quality speech.
  • CELP Code Excited Liner Prediction coding
  • the vector quantization unit 5 stores a code book in which code vectors each having a linear prediction coefficient as an element are associated with a code. Based on the code book, the feature vector ⁇ from the LPC analysis unit 4 is stored. Then, a code obtained as a result of the vector quantization (hereinafter referred to as ⁇ code (A_code) as appropriate) is supplied to the code determination unit 15.
  • the vector quantization unit 5 supplies the linear prediction coefficient, ⁇ 2 ′,..., HI, which constitutes a code vector ⁇ ′ corresponding to the A code, to the speech synthesis filter 6. .
  • the speech signal of the current time n (the sample value) s n, and adjacent thereto over, removed by the P sample values s n _ have s n - 2 , ⁇ . ⁇ , S n1 p
  • ⁇ e n ⁇ ( ⁇ ⁇ ⁇ , e n - have e n, e n + 1, ⁇ ⁇ ⁇ ) is the average value is 0, the dispersion of the predetermined value sigma 2
  • the arithmetic unit 12 multiplies the output signal of the adaptive codebook storage unit 9 by the gain 3 output by the gain decoder 10 and supplies the multiplied value 1 to the arithmetic unit 14.
  • the arithmetic unit 13 multiplies the output signal of the excitation codebook storage unit 11 by the gain ⁇ output by the gain decoder 10 and supplies the multiplied value ⁇ to the arithmetic unit 14.
  • the arithmetic unit 14 adds the multiplied value 1 from the arithmetic unit 12 and the multiplied value ⁇ from the arithmetic unit 13, and uses the sum as the residual signal e as the speech synthesis radiator 6 and the adaptive codebook. It is supplied to the storage unit 9.
  • the second data processing device of the present invention encodes teacher data as a teacher into encoded data having decoding information for each predetermined unit, and decodes the encoded data to obtain student data as students.
  • FIG. 11 is a block diagram showing a configuration example of the class classification section 123. As shown in FIG.
  • FIG. 13 is a block diagram illustrating a configuration example of an embodiment of a learning device to which the present invention has been applied.
  • FIG. 3 shows one embodiment of a transmission system to which the present invention is applied (a system refers to a device in which a plurality of devices are logically assembled, and it does not matter whether or not the devices of each configuration are in the same housing). The configuration of the embodiment is shown.
  • FIG. 4 shows a configuration example of the mobile phone 101 of FIG.
  • the receiving unit 1 1 for example, by using the classification adaptive processing, the decoded synthesized sound CELP scheme further, c is decoded into true high quality sound (predicted value) here
  • the class classification adaptation process includes a class classification process and an adaptation process.
  • the class classification process classifies data into classes based on their properties, and performs an adaptation process for each class.
  • the processing is based on the following method. That is, in the adaptive processing, for example, a predicted value of a true high-quality sound is obtained by a linear combination of a synthesized sound decoded by the CELP method and a predetermined tap coefficient.
  • the true high-quality sound (sample value of) is now used as teacher data, and the true high-quality sound is converted into L-code, G-code, I-code, and The A-code is encoded, and the synthesized sound obtained by decoding these codes using the CELP method in the receiving unit shown in Fig. 2 is used as student data.
  • y] is defined as a set of some synthesized sounds (sample values of X) x 2 , ' ⁇ ', and predetermined tap coefficients W l , w 2 ,-
  • Equation (6) a matrix W consisting of a set of tap coefficients W j, a matrix X consisting of a set of student data X ij , and a matrix Y ′ consisting of a set of predicted values E
  • the tap coefficient Wj which satisfies the following equation, determines the predicted value E [y] that is close to the true high-quality sound y. Therefore, it is the optimum value.
  • each normal equation in equation (1 2) can be made as many as the number J of tap coefficients Wj to be obtained.
  • Eq. (13) for the vector W (however, in order to solve Eq. (13), the matrix A in Eq. (13) needs to be regular), the optimal tap The coefficient (here, the tap coefficient that minimizes the square error) Wj can be obtained.
  • the -sweep method Gas-Jordan elimination method.
  • the adaptive processing is to obtain a predicted value E [y] close to the true high-quality sound y using the coefficient W j and Equation (6).
  • an audio signal sampled at a high sampling frequency or an audio signal to which many bits are assigned is used as teacher data, and audio data as the teacher data is thinned out or used as student data.
  • the speech signal re-quantized in step 2 is encoded by the CELP method and a synthesized sound obtained by decoding the encoding result is used, the tap coefficient may be an audio signal sampled at a high sampling frequency or a multi-bit In order to generate an audio signal to which is assigned, high-quality audio with a minimum prediction error is obtained. Therefore, in this case, it is possible to obtain a synthesized sound of higher sound quality.
  • the K-bit values of each data constituting a class tap obtained as a result of the K-bit ADRC processing are arranged in a predetermined order.
  • the bit string that is used is the class code.
  • the other class classification is, for example, that a class tap is regarded as a vector having each data constituting the class tap, and the class tap as the vector is vector quantized. It is also possible to do this.
  • the prediction unit 125 obtains the prediction tap output from the tap generation unit 122 and the tap coefficient output from the coefficient memory 124, and uses the prediction tap and the tap coefficient to obtain an equation (6).
  • the linear prediction operation shown in (1) is performed. In this way, the prediction unit 125 obtains (a predicted value of) high-quality sound for the target subframe of interest and supplies it to the DZA conversion unit 30.
  • the channel decoder 21 converts the code data supplied thereto into an L code.
  • the code, G code, I code, and A code are separated and supplied to an adaptive codebook storage unit 22, a gain decoder 23, an excitation codebook storage unit 24, and a filter coefficient decoder 25.
  • the I code is also supplied to the tap generators 122 and 122.
  • the adaptive codebook storage unit 22, the gain decoder 23, the excitation codebook storage unit 24, and the arithmetic units 26 to 28 perform the same processing as in FIG. , G code, and I code are decoded into a residual signal e. This residual signal is supplied to the speech synthesis filter 29.
  • the filter coefficient decoder 25 decodes the supplied A code into a linear prediction coefficient and supplies it to the speech synthesis filter 29.
  • the speech synthesis filter 29 performs speech synthesis using the residual signal from the arithmetic unit 28 and the linear prediction coefficient from the filter coefficient decoder 25, and synthesizes the resulting synthesized sound into a tap generation unit 1 Feed 2 1 and 1 2 2
  • the tap generation unit 122 sequentially sets the subframes of the synthesized sound sequentially output by the speech synthesis filter 29 as a subframe of interest.
  • the synthesized sound of the subframe of interest and a subframe of A prediction tap is generated from the I code and supplied to the prediction unit 125.
  • the tap generation unit 122 also generates a class tap from the synthesized sound of the subframe of interest and the I code of the subframe described later, and supplies the generated class tap to the class classification unit 123. .
  • step S2 the class classifying unit 123 classifies the class based on the class taps supplied from the tap generating unit 122, and stores the resulting class code in the coefficient memory 1 2 4 and go to step S3.
  • step S3 the coefficient memory 124 reads out the tap coefficient from the address corresponding to the class code supplied from the classifying section 123 and supplies the tap coefficient to the predicting section 125.
  • step S4 the prediction unit 125 obtains the tap coefficients output from the coefficient memory 124, and the tap coefficients and the prediction taps from the tap generation unit 122. Then, the product-sum operation shown in equation (6) is performed to obtain (the predicted value of) the high-quality sound of the subframe of interest.
  • steps S1 to S4 are performed sequentially with the sample values of the synthesized sound data of the target subframe as target data. That is, since the synthesized sound data of the sub-frame is composed of 40 samples as described above, the processing of steps S1 to S4 is performed for each of the 40 samples of synthesized sound data.
  • the high-quality sound obtained as described above is supplied from the prediction unit 125 to the speed 31 via the D / A conversion unit 30. As a result, from the speed 31, High quality audio is output.
  • step S4 the process proceeds to step S5, and it is determined whether there is still the next subframe to be processed as the target subframe. If it is determined that there is, the process returns to step S1. The same processing is repeated hereafter with the subframe to be the next subframe of interest newly set as the subframe of interest. If it is determined in step S5 that there is no subframe to be processed as the subframe of interest, the process ends.
  • the tap generation unit 122 sets each synthesized sound data of the subframe (synthesized sound data output from the voice synthesis filter 29) as attention data, and uses the past N samples from the attention data.
  • synthetic sound data in the range indicated by A in Fig. 7 and past and future synthesized sound data of N samples totaling the target data Is extracted as the prediction tap.
  • the tap generation unit 122 predicts, for example, the subframe in which the data of interest is located (subframe # 3 in the embodiment of FIG. 7), that is, the I code arranged in the subframe of interest. Extract as tap. Therefore, in this case, the prediction tap includes N samples of synthesized sound data including the data of interest and the I code of the subframe of interest.
  • a class tap including the synthesized sound data and the I code is extracted in the same manner as in the case of the tap generation unit 121.
  • the configuration patterns of the prediction taps and the class taps are not limited to those described above. That is, as the prediction tap or class tap, for the target data, it is possible to extract the synthesized sound data of all N samples as described above and to extract the synthesized sound data of every other sample as described above. is there.
  • the same class tap and the same prediction tap are configured, but the class tap and the prediction tap can have different configurations.
  • the prediction tap and the class tap can be composed only of the synthesized sound data.
  • the prediction tap and the class tap are used as the information related to the synthesized sound data in addition to the synthesized sound data.
  • the synthesized sound data serving as the prediction tap is included.
  • the synthesized sound data included in the prediction tap configured for the data of interest extends to a subframe immediately before or immediately after the subframe of interest (hereinafter, referred to as an adjacent subframe), or
  • the prediction tap may be configured to include not only the I code of the subframe of interest but also the I code of the adjacent subframe. It is possible.
  • the class tap can be similarly configured.
  • FIG. 8 shows that, as described above, the I-code subframe that forms the prediction tap is made variable according to the position of the subframe of interest in the data of interest, so that the prediction tap becomes the synthesized sound data that constitutes the prediction tap.
  • 5 shows an example of a configuration of a tap generation unit 121 configured to be able to balance with the I code. It should be noted that the tap generators 122 constituting the class taps can also be configured in the same manner as in FIG.
  • the synthesized voice data output from the voice synthesis filter 29 in FIG. 5 is supplied to the memory 41A, and the memory 41A temporarily stores the synthesized voice data supplied thereto.
  • the memory 41A has a storage capacity capable of storing at least N samples of synthesized sound data that constitute one prediction tap. Further, the memory 41A sequentially stores the latest samples of the synthesized sound data supplied thereto, overwriting the oldest stored values.
  • the data extraction circuit 42A extracts the synthesized sound data constituting the prediction tap from the memory 41A by extracting the target data from the memory 41A, and outputs the data to the synthesis circuit 43.
  • the data extraction circuit 42A stores the latest sum stored in the memory 41A.
  • the synthesized sound data of the past N samples is extracted from the latest synthesized sound data by reading out from the memory 41A, and is output to the synthesis circuit 43.
  • the synthesized tap data stored in the memory 41A is used.
  • NZ 2 the fractional part is, for example, rounded up
  • the memory 41B is supplied with the I code in subframe units output from the channel decoder 21 of FIG. 5, and the memory 4IB temporarily stores the I code supplied thereto. I do.
  • the memory 41B has a storage capacity capable of storing at least I codes that can constitute one prediction tap.
  • the memory 4IB like the memory 41A, sequentially stores the latest I code supplied thereto by overwriting the oldest storage value.
  • the data extraction circuit 42B outputs only the I code of the subframe of interest or the I code of the subframe of interest, depending on the position of the synthesized sound data that is the data of interest in the data extraction circuit 42A in the subframe of interest.
  • the I code of the adjacent subframe is read out from the memory 41B, and extracted to the combining circuit 43.
  • the synthesis circuit 43 synthesizes (combines) the synthesized sound data from the data extraction circuit 42A and the I code from the data extraction circuit 42B into one set of data, and outputs it as a prediction tap. .
  • the synthesized sound data constituting the prediction tap is constant at N samples. Only the I code, the I code of the subframe of interest, and the subframe adjacent to it (adjacent subframe) Because the number of I codes may change, the number changes. This is the same for the class taps generated in the tap generation unit 122.
  • the prediction taps even if the number of data constituting the prediction taps (the number of taps) changes, the same number of tap coefficients as the prediction taps are learned by the learning device shown in FIG. There is no problem because you only need to memorize it in 4.
  • class taps if the number of taps that make up the class tap changes, the total number of classes obtained by the class tap changes, which may complicate the processing. Therefore, it is desirable to perform class classification so that the number of classes obtained by the cluster tap does not change even if the number of taps of the class tap changes.
  • a class code representing the class for example, There is a method to consider the position in the subframe.
  • the number of class taps decreases by the position of the target data in the target subframe. For example, now, there are a case where the number of taps of the class tap is S and a case where the number of taps is larger than L OS S).
  • n + m + 1 bits are used as the class code, and one of the n + m + 1 bits, for example, the most significant bit is used, and the number of cluster taps is S.
  • the number of taps is S or L
  • the number of classes is 2 n + m by setting 0 and 1, respectively.
  • class classification is performed to obtain an n + m-bit class code, and the n + m-bit class code has the number of taps as its most significant bit.
  • the final class code may be n + m + 1 bits with "1" indicating that there are L elements. If the number of taps in the cluster tap is S, a class classification is performed to obtain an n-bit class code, and the m-bit "0" is added to the n-bit class code as its upper bit. N + m bits, and “n” + “0” indicating that the number of taps is S is added to the n + m bits as the most significant bit. One bit may be used as the final class code.
  • the class classification can be performed by assigning weights to the data constituting the class taps.
  • the synthesized tap data of the past N samples from the target data which is indicated by A in FIG. 7, is included in the class tap, and according to the position of the target data in the target subframe, the target subframe (hereinafter referred to as appropriate) , Attentional subframe #n), or one or both of the I codes of the immediately preceding subframe # n-1 are included in the class tap when forming the cluster tap.
  • the target subframe hereinafter referred to as appropriate
  • Attentional subframe #n Attentional subframe #n
  • one or both of the I codes of the immediately preceding subframe # n-1 are included in the class tap when forming the cluster tap.
  • weighting as shown in Fig. 9A is applied to the number of classes corresponding to the I code of the subframe #n of interest and the number of classes corresponding to the I code of the immediately preceding subframe # n-1. By doing so, the number of all classes can be kept constant.
  • FIG. 9A shows that the number of classes corresponding to the I-code of the subframe #n of interest increases as the data of interest is positioned to the right (future direction) of the subframe of interest #n. This indicates that classification is performed.
  • Figure 9A shows Classification is performed such that as the data is located to the right of the subframe of interest #n, the number of classes corresponding to the I code of the subframe # ⁇ -1 immediately before the subframe of interest # ⁇ decreases. It represents that. Then, by performing weighting as shown in Fig. 9 (2), class classification is performed so that the number of classes is constant as a whole.
  • the 9-bit I code supplied there corresponds to the 9-bit I code in the degenerate table created as described above. It is degenerated by being converted to the attached variable c.
  • Fig. 13 shows the learning process of tap coefficients stored in the coefficient memory 124 of Fig. 5.
  • 1 shows a configuration example of an embodiment of a Gakujin device that performs the above.

Description

明細書
データ処理装置 : 技術分野
本発明は、 データ処理装置に関し、 特に、 特に、 例えば、 C E L P (Code Exci ted Liner Prediction coding)方式で符号化された音声を、 高音質の音声に復号 することができるようにするデータ処理装置に関する。 背景技術
図 1および図 2は、 従来の携帯電話機の一例の構成を示している。
この携帯電話機では、 音声を、 CE L P方式により所定のコードに符号化して 送信する送信処理と、 他の携帯電話機から送信されてくるコードを受信して、 音 声に復号する受信処理とが行われるようになつており、 図 1は、 送信処理を行う 送信部を、 図 2は、 受信処理を行う受信部を、 それぞれ示している。
図 1に示した送信部では、 ユーザが発話した音声が、 マイク (マイクロフォ ン) 1に入力され、 そこで、 電気信号としての音声信号に変換され、 A/D ^na log/Digital)変換部 2に供給される。 AZD変換部 2は、 マイク 1からのアナ口 グの音声信号を、 例えば、 8 kH Z等のサンプリング周波数でサンプリングする ことにより、 ディジタルの音声信号に A/D変換し、 さらに、 所定のビット数で 量子化を行って、 演算器 3と L P C (Liner Prediction Coefficient)分析部 4に 供給する。
L P C分析部 4は、 A/D変換部 2からの音声信号を、 例えば、 1 6 0サンプ ル分の長さを 1フレームとして、 その 1フレームを 4 0サンプルごとのサブフレ ームに分割し、 サブフレームごとに L P C分析し、 P次の線形予測係数ひい az, ■ ■ · , αρを求める。 そして、 L P C分析部 4は、 この P次の線形予測係数ひ p (p = 1 , 2, · · . , P) を要素とするベク トルを、 音声の特徴ベク トルとし て、 べク トル量子化部 5に供給する。 ベタ トル量子化部 5は、 線形予測係数を要素とするコードべクトルとコードと を対応付けたコードブックを記憶しており、 そのコードプックに基づいて、 L P C分析部 4からの特徴べク トノレ αをべク トル量子化し、 そのべクトル量子化の結 果得られるコード (以下、 適宜、 Αコード(A_code)という) を、 コード決定部 1 5に供給する。
さらに、 ベク トル量子化部 5は、 Aコードに対応するコードベク トル α ' を構 成する要素となっている線形予測係数 , α2' , · ■ . , ひ を、 音声合成 フィルタ 6に供給する。
音声合成フィルタ 6は、 例えば、 I I R (Infinite Impulse Response)型のデ イジタルフィルタで、 ベク トル量子化部 5からの線形予測係数ひ p' (p = 1 ,
2 , · · · , P) を I I Rフィルタのタップ係数とするとともに、 演算器 1 4か ら供給される残差信号 eを入力信号として、 音声合成を行う。
即ち、 L P C分析部 4で行われる L P C分析は、 現在時刻 nの音声信号 (のサ ンプル値) s n、 およびこれに隣接する過、去の P個のサンプル値 s n_い s n-2, · . · , s n一 p こ、 式
s n + a! s n_! + a s n_2 + · · - + a p s n_P = en
… ( 1 ) で示す線形 1次結合が成立すると仮定し、 現在時刻 nのサンプル値 s nの予測値 (線形予測値) s n' を、 過去の P個の標本値 s n_い s n-2, · · · , s nPを用い て、 式
S„ =一 ( a t S n 2 s n_2+ ■ ■ , + α ρ s η_Ρ)
• · · (2) によつて線形予測したときに、 実際のサンプル値 s ηと線形予測値 S との間の 自乗誤差を最小にする線形予測係数 ο;ρを求めるものである。
ここで、 式 (1 ) において、 {en} ( · · · , en—い en, en+1, ■ ■ · ) は、 平 均値が 0で、 分散が所定値 σ 2の互いに無相関な確率変数である。
式 (1 ) から、 サンプル値 s nは、 式 s n = en一 ( a J s n_L+ α 2 s η^^" ' · , + ひ p S n-P)
• · · ( 3 ) で表すことができ、 これを、 Z変換すると、 次式が成立する。
S = EZ ( 1 + tt l ζ "'+ α2 z "2+ - ' · + a? z '?)
· ■ ■ ( 4 ) 但し、 式 (4 ) において、 Sと Eは、 式 (3 ) における s nと e nの Z変換を、 そ れぞれ表す。
ここで、 式 (1 ) および (2 ) から、 e nは、 式
e n= s n— s n
· · · ( 5 } で表すことができ、 実際のサンプル値 s nと線形予測値 s n' との間の残差信号と 呼ばれる。
従って、 式 (4 ) から、 線形予測係数 (¾pを I I Rフィルタのタップ係数とす るとともに、 残差信号 e nを I I Rフィルタの入力信号とすることにより、 音声 信号 s nを求めることができる。
そこで、 音声合成フィルタ 6は、 上述したように、 ベク トル量子化部 5からの 線形予測係数 αρ' をタップ係数とするとともに、 演算器 1 4から供給される残 差信号 eを入力信号として、 式 (4 ) を演算し、 音声信号 (合成音信号) S sを 求める。
なお、 音声合成フィルタ 6では、 L P C分析部 4による L P C分析の結果得ら れる線形予測係数 αρではなく、 そのべク トル量子化の結果得られるコードに対 応するコードベク トルとしての線形予測係数 ρ' が用いられるため、 即ち、 量 子化誤差を含む線形予測係数 αρ' が用いられるため、 音声合成フィルタ 6が出 力する合成音信号は、 AZD変換部 2が出力する音声信号とは、 基本的に同一に はならなレ、。
音声合成フィルタ 6が出力する合成音信号 s sは、 演算器 3に供給される。 演 算器 3は、 音声合成フィルタ 6からの合成音信号 s sから、 A/D変換部 2が出 力する音声信号 sを減算し (合成音信号 s Sの各サンプルから、 そのサンプルに 対応する音声信号 sのサンプルを減算し) 、 その減算値を、 自乗誤差演算部 7に 供給する。 自乗誤差演算部 7は、 演算器 3からの減算値の自乗和 (L P C分析部 4で L P C分析が行われるフレームを構成するサブフレーム単位の自乗和) を演 算し、 その結果得られるき乗誤差を、 自乗誤差最小判定部 8に供給する。
自乗誤差最小判定部 8は、 自乗誤差演算部 7が出力する自乗誤差に対応付けて、 ラグを表すコードとしての L コード(L— code)、 ゲインを表すコードとしての Gコ ード(G_code)、 および符号語 (励起コードブック) を表すコードとしての I コー ド(し code)を記憶しており、 自乗誤差演算部 7が出力する自乗誤差に対応する L コード、 Gコード、 および Lコードを出力する。 Lコードは、 適応コードブック 記憶部 9に、 Gコードは、 ゲイン復号器 1 0に、 Iコードは、 励起コードブック 記憶部 1 1に、 それぞれ供給される。 さらに、 Lコード、 Gコード、 および Iコ ードは、 コード決定部 1 5にも供給される。
適応コードブック記憶部 9は、 例えば 7ビットの Lコードと、 所定の遅延時間 (長期予測ラグ) とを対応付けた適応コードブックを記憶しており、 演算器 1 4 から供給される残差信号 eを、 自乗誤差最小判定部 8から供給される Lコードに 対応付けられた遅延時間だけ遅延して、 演算器 1 2に出力する。 即ち、 適応コー ドブック記憶部 9は、 例えば、 メモリで構成され、 演算器 1 4からの残差信号 e を、 7ビットのレコードが表す値に対応するサンプル分だけ遅延して、 演算器 1 2に出力する。
ここで、 適応コードブック記憶部 9は、 残差信号 eを、 Lコードに対応する時 間だけ遅延して出力することから、 その出力信号は、 その遅延時間を周期とする 周期信号に近い信号となる。 この信号は、 線形予測係数を用いた音声合成におい て、 主として、 有声音の合成音を生成するための駆動信号となる。
ゲイン復号器 1 0は、 Gコードと、 所定のゲイン |8および γとを対応付けたテ 一ブルを記憶しており、 自乗誤差最小判定部 8から供給される Gコードに対応付 けられたゲイン /3および γを出力する。 ゲイン β と γは、 演算器 1 2と 1 3に、 それぞれ供給される。 ここで、 ゲイン 3は、 長期フィルタ状態出力ゲインと呼ば れるものであり、 また、 ゲイン γは、 励起コードブックゲインと呼ばれるもので める。
励起コードブック記憶部 1 1は、 例えば 9ビッ トの Iコードと、 所定の励起信 号とを対応付けた励起コードブックを記憶しており、 自乗誤差最小判定部 8から 供給される I コードに対応付けられた励起信号を、 演算器 1 3に出力する。
ここで、 励起コードブックに言己憶されている励起信号は、 例えば、 ホワイ トノ ィズ等に近い信号であり、 線形予測係数を用いた音声合成において、 主として、 無声音の合成音を生成するための駆動信号となる。
演算器 1 2は、 適応コードブック記憶部 9の出力信号と、 ゲイン復号器 1 0が 出力するゲイン 3とを乗算し、 その乗算値 1を、 演算器 1 4に供給する。 演算器 1 3は、 励起コードブック記憶部 1 1の出力信号と、 ゲイン復号器 1 0が出力す るゲイン γ とを乗算し、 その乗算値 ηを、 演算器 1 4に供給する。 演算器 1 4は、 演算器 1 2からの乗算値 1 と、 演算器 1 3からの乗算値 ηとを加算し、 その加算 値を、 残差信号 eとして、 音声合成ライルタ 6と適応コードブック記憶部 9に供 給する。
音声合成フィルタ 6では、 以上のようにして、 演算器 1 4から供給される残差 信号 eが、 ベク トル量子化部 5から供給される線形予測係数 α ρ' をタップ係数 とする I I Rフィルタでフィルタリングされ、 その結果得られる合成音信号が、 演算器 3に供給される。 そして、 演算器 3および自乗誤差演算部 7において、 上 述の場合と同様の処理が行われ、 その結果得られる自乗誤差が、 自乗誤差最小判 定部 8に供給される。
自乗誤差最小判定部 8は、 自乗誤差演算部 7からの自乗誤差が最小 (極小) に なったかどうかを判定する。 そして、 自乗誤差最小判定部 8は、 自乗誤差が最小 になっていないと判定した場合、 上述のように、 その自乗誤差に対応する L コー ド、 Gコード、 および Lコードを出力し、 以下、 同様の処理が操り返される。 一方、 自乗誤差最小判定部 8は、 自乗誤差が最小になったと判定した場合、 確 定信号を、 コード決定部 1 5に出力する。 コード決定部 1 5は、 ベタ トル量子化 部 5から供給される Aコードを順次ラツチするとともに、 自乗誤差最小判定部 8 から供給される Lコード、 Gコード、 および Iコードを順次ラッチするようにな つており、 自乗誤差最小判定部 8から確定信号を受信すると、 そのときラッチし ている Aコード、 Lコード、 Gコード、 および I コードを、 チャネルエンコーダ 1 6に供給する。 チャネルエンコーダ 1 6は、 コード決定部 1 5からの Aコード、 Lコード、 Gコード、 および I コードを多重化し、 コードデータとして出力する。 このコードデータは、 伝送路を介して送信される。
以上から、 コードデータは、 復号に用いられる情報である Aコード、 Lコード、 Gコード、 および I コードを、 サブフレーム単位ごとに有する符号化データとな つている。
なお、 ここでは、 Aコード、 Lコード、 Gコード、 および Iコードは、 サブフ レームごとに求められるものとしているが、 例えば、 Aコードについては、 フレ ームごとに求められる場合があり、 この場合、 そのフレームを構成する 4つのサ ブフレームの復号には、 同一の Aコードが用いられる。 但し、 この場合でも、 そ の 1フレームを構成する 4つのサブフレームそれぞれが、 同一の Aコードを有し ていると見ることができ、 そのように考えることによって、 コードデータは、 復 号に用いられる情報である Aコード、 Lコード、 Gコード、 および Iコードを、 サブフレーム単位ごとに有する符号化データとなっているとみなすことができる。 ここで、 図 1 (後述する図 2、 図 5、 および図 1 3においても同様) では、 各 変数に、 [k]が付され、 配列変数とされている。 この kは、 サブフレーム数を表 すが、 明細書中では、 その記述は、 適宜省略する。
次に、 以上のようにして、 他の携帯電話機の送信部から送信されてくるコード データは、 図 2に示した受信部のチャネルデコーダ 2 1で受信される。 チャネル デコーダ 2 1は、 コードデータから、 Lコード、 Gコード、 I コード、 Aコード を分離し、 それぞれを、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起 コードブック記憶部 2 、 フィルタ係数復号器 2 5に供給する。 適応コ一ドブック記憶部 2 2、 ゲイン復号器 2 3、 励起コ一ドブック記憶部 2 4、 演算器 2 6乃至 2 8は、 図 1の適応コードブック記憶部 9、 ゲイン復号器 1 0、 励起コードブック記憶部 1 1、 演算器 1 2乃至 1 4とそれぞれ同様に構成さ れるもので、 図 1で説明した場合と同様の処理が行われることにより、 Lコード、 Gコード、 および I コードが、 残差信号 eに復号される。 この残差信号 eは、 音 声合成フィルタ 2 9に対して、 入力信号として与えられる。
フィルタ係数復号器 2 5は、 図 1のべク トル量子化部 5が記憶しているのと同 —のコードブックを記憶しており、 Aコードを、 線形予測係数ひ ρ' に復号し、 音声合成フィルタ 2 9に供給する。
音声合成フィルタ 2 9は、 図 1の音声合成フィルタ 6と同様に構成されており、 フィルタ係数復号器 2 5カゝらの線形予測係数ひ ρ' をタツプ係数とするとともに、 演算器 2 8から供給される残差信号 eを入力信号として、 式 (4 ) を演算し、 こ れにより、 図 1の自乗誤差最小判定部 8において自乗誤差が最小と判定されたと きの合成音信号を生成する。 この合成音信号は、 D / A (Digital/Analog)変換部 3 0に供給される。 D /A変換部 3 0は、 音声合成フィルタ 2 9からの合成音信 号を、 ディジタル信号からアナログ信号に D /A変 し、 スピーカ 3 1に供給し て出力させる。
なお、 コードデータにおいて、 Αコードが、 サブフレーム単位でなく、 フレー ム単位で配置されている場合、 図 2の受信部では、 フレームを構成する 4つのサ ブフレームすべての復号に、 そのフレームに配置された Aコードに対応する線形 予測係数を用いることができる他、 各サブフレームについて、 瞵接するフレーム の Aコードに対応する線形予測係数を用いて補間を行い、 その補間の結果得られ る線形予測係数を、 各サブフレームの復号に用いることが可能である。
以上のように、 携帯電話機の送信部では、 受信部の音声合成フィルタ 2 9に与 えられるフィルタデータとしての残差信号と線形予測係数がコ一ド化されて送信 されてくるため、 受信部では、 そのコードが、 残差信号と線形予測係数に復号さ れる。 しかしながら、 この復号された残差信号や線形予測係数 (以下、 適宜、 そ れぞれを、 復号残差信号または復号線形予測係数という) には、 量子化誤差等の 誤差が含まれるため、 音声を L P C分析して得られる残差信号と線形予測係数に は一致しない。
このため、 受信部の音声合成フィルタ 2 9が出力する合成音信号は、 歪みを有 する、 音質の劣化したものとなる。 発明の開示
本発明は、 このような状況に鑑みてなされたものであり、 高音質の合成音等を 得ることができるようにするものである。
本発明の第 1のデータ処理装置は、 符号化データを復号した復号データのうち の注目している注目データと所定の位置関係にある復号データを抽出するととも に、 注目データの、 所定の単位における位置に応じて、 所定の単位ごとの復号情 報を抽出することにより、 所定の処理に用いるタップを生成するタップ生成手段 と、 タップを用いて、 所定の処理を行う処理手段とを備えることを特徴とする。 本発明の第 1のデータ処理方法は、 符号化データを復号した復号データのうち の注目している注目データと所定の位置関係にある復号データを抽出するととも に、 注目データの、 所定の単位における位置に応じて、 所定の単位ごとの復号情 報を抽出することにより、 所定の処理に用いるタップを生成するタップ生成ステ ップと、 タップを用いて、 所定の処理を行う処理ステップとを備えることを特徴 とする。
本発明の第 1のプログラムは、 符号化データを復号した復号データのうちの注 目している注目データと所定の位置関係にある復号データを抽出するとともに、 注目データの、 所定の単位における位置に応じて、 所定の単位ごとの復号情報を 抽出することにより、 所定の処理に用いるタップを生成するタップ生成ステップ と、 タップを用いて、 所定の処理を行う処理ステップとを備えることを特徴とす る。
本発明の第 1の記録媒体は、 符号化データを復号した復号データのうちの注目 している注目データと所定の位置関係にある復号データを抽出するとともに、 注 目データの、 所定の単位における位置に応じて、 所定の単位ごとの復号情報を抽 出することにより、 所定の処理に用いるタップを生成するタップ生成ステップと、 タップを用いて、 所定の処理を行う処理ステップとを備えるプログラムが記録さ れていることを特徴とする。
本発明の第 2のデータ処理装置は、 教師となる教師データを、 所定の単位ごと の復号情報を有する符号化データに符号化し、 その符号化データを復号すること により、 生徒となる生徒データとしての復号データを生成する生徒データ生成手 段と、 生徒データとしての復号データのうちの注目している注目データと所定の 位置関係にある復号データを抽出するとともに、 注目データの、 所定の単位にお ける位置に応じて、 所定の単位ごとの復号情報を抽出することにより、 教師デー タを予測するのに用いる予測タップを生成する予測タップ生成手段と、 予測タッ プとタップ係数とを用いて、 所定の予測演算を行うことにより得られる教師デー タの予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数を 求める学習手段とを備えることを特徴とする。
本発明の第 2のデータ処理方法は、 教師となる教師データを、 所定の単位ごと の復号情報を有する符号化データに符号化し、 その符号化データを復号すること により、 生徒となる生徒データとしての復号データを生成する生徒データ生成ス テツプと、 生徒データとしての復号データのうちの注目している注目データと所 定の位置関係にある復号データを抽出するとともに、 注目データの、 所定の単位 における位置に応じて、 所定の単位ごとの復号情報を抽出することにより、 教師 デ一タを予測するのに用いる予測タツプを生成する予測タップ生成ステツプと、 予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得られる 教師データの予測値の予測誤差が、 統計的に最小になるように学習を行い、 タッ プ係数を求める学習ステップとを備えることを特徴とする。
本発明の第 2のプログラムは、 教師となる教師データを、 所定の単位ごとの復 号情報を有する符号化データに符号化し、 その符号化データを復号することによ り、 生徒となる生徒データとしての復号データを生成する生徒データ生成ステツ プと、 生徒データとしての復号データのうちの注目している注目データと所定の 位置関係にある復号データを抽出するとともに、 注目データの、 所定の単位にお ける位置に応じて、 所定の単位ごとの復号情報を抽出することにより、 教師デー タを予測するのに用いる予測タップを生成する予測タップ生成ステップと、 予測 タップとタツプ係数とを用いて、 所定の予測演算を行うことにより得られる教師 データの予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係 数を求める学習ステップとを備えることを特徴とする。
本発明の第 2の記録媒体は、 教師となる教師データを、 所定の単位ごとの復号 情報を有する符号化データに符号化し、 その符号化データを復号することにより、 生徒となる生徒データとしての復号データを生成する生徒データ生成ステップと、 生徒データとしての復号データのうちの注目している注目データと所定の位置関 係にある復号データを抽出するとともに、 注目データの、 所定の単位における位 置に応じて、 所定の単位ごとの復号情報を抽出することにより、 教師データを予 測するのに用いる予測タップを生成する予測タップ生成ステップと、 予測タップ とタップ係数とを用いて、 所定の予測演算を行うことにより得られる教師データ の予測値の予測誤差が、 統計的に最小になるように学習を行い、 タップ係数を求 める学習ステップとを備えるプログラムが記録されていることを特徴とする。 本発明の第 1のデータ処理装置おょぴデータ処理方法、 並びにプログラムおよ び記録媒体においては、 符号化データを復号した復号データのうちの注目してい る注目データと所定の位置関係にある復号データを抽出するとともに、 注目デー タの、 所定の単位における位置に応じて、 所定の単位ごとの復号情報を抽出する ことにより、 所定の処理に用いるタップが生成され、 そのタップを用いて、 所定 の処理が行われる。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体においては、 教師となる教師データを、 所定の単位ごとの復号情報を 有する符号化データに符号化し、 その符号化データを復号することにより、 生徒 となる生徒データとしての復号データが生成される。 さらに、 生徒データとして の復号データのうちの注目している注目データと所定の位置関係にある復号デ一 タを抽出するとともに、 注目データの、 所定の単位における位置に応じて、 所定 の単位ごとの復号情報を抽出することにより、 教師データを予測するのに用いる 予測タップが生成される。 そして、 予測タップとタップ係数とを用いて、 所定の 予測演算を行うことにより得られる教師データの予測値の予測誤差が、 統計的に 最小になるように学習が行われ、 タップ係数が求められる。 図面の簡単な説明
図 1は、 従来の携帯電話機の送信部の一例の構成を示すブロック図である。 図 2は、 従来の携帯電話機の受信部の一例の構成を示すブロック図である。 図 3は、 本発明を適用した伝送システムの一実施の形態の構成例を示すプロッ ク図である。
図 4は、 携帯電話機 1 0 1い 1 0 1 2の構成例を示すブロック図である。
図 5は、 受信部 1 1 4の構成例を示すブロック図である。
図 6は、 受信部 1 1 4の処理を説明するフローチヤ一トである。
図 7は、 予測タップおよびクラスタップの生成方法を説明するための図である c 図 8は、 タップ生成部 1 2 1 , 1 2 2の構成例を示すブロック図である。
図 9 Aおよび図 9 Bは、 I コードによるクラスに対する重み付けの方法を説明 する図である。
図 1 O Aおよび図 1 0 Bは、 I コードによるクラスに対する重み付けの例を示 す図である。
図 1 1は、 クラス分類部 1 2 3の構成例を示すブロック図である。
図 1 2は、 テーブル作成処理を説明するフローチャートである。
図 1 3は、 本発明を適用した学習装置の一実施の形態の構成例を示すブロック 図である。
図 1 4は、 学習処理を説明するフローチャートである。 図 1 5は、 本発明を適用したコンピュータの一実施の形態の構成例を示すプロ ック図である。 発明を実施するための最良の形態
図 3は、 本発明を適用した伝送システム (システムとは、 複数の装置が論理的 に集合した物をいい、 各構成の装置が同一筐体中にあるか否かは問わない) の一 実施の形態の構成を示している。
この伝送システムでは、 携帯電話機 1 0 と 1 0 1 2が、 基地局 1 0 2 tと 1 0 2 2それぞれとの間で、 無線による送受信を行うとともに、 基地局 1 0 2 iと 1 0 2 2それぞれが、 交換局 1 0 3との間で送受信を行うことにより、 最終的には、 携帯電話機 1 0 と 1 0 1 2との間において、 基地局 1 0 2 および 1 0 2 2、 並 びに交換局 1 0 3を介して、 音声の送受信を行うことができるようになっている。 なお、 基地局 1 0 2 Lと 1 0 2 2は、 同一の基地局であっても良いし、 異なる基地 局であっても良い。
ここで、 以下、 特に区別する必要がない限り、 携帯電話機 1 0 と 1 0 1 2を、 携帯電話機 1 0 1と記述する。
次に、 図 4は、 図 3の携帯電話機 1 0 1の構成例を示している。
この携帯電話機 1 0 1では、 CELP方式によって、 音声の送受信が行われるよ うになっている。
即ち、 アンテナ 1 1 1は、 基地局 1 0 2 1または 1 0 2 2からの電波を受信し、 その受信信号を、 変復調部 1 1 2に供給するとともに、 変復調部 1 1 2からの信 号を、 電波で、 基地局 1 0 2 tまたは 1 0 2 2に送信する。 変復調部 1 1 2は、 了 ンテナ 1 1 1からの信号を復調し、 その結果得られる、 図 1で説明したようなコ ードデータを、 受信部 1 1 4に供給する。 また、 変復調部 1 1 2は、 送信部 1 1 3から供給される、 図 1で説明したようなコードデータを変調し、 その結果得ら れる変調信号を、 アンテナ 1 1 1に供給する。 送信部 1 1 3は、 図 1に示した送 信部と同様に構成され、 そこに入力されるユーザの音声を、 CELP 方式によって、 コードデータに符号化して、 変復調部 1 1 2に供給する。 受信部 1 1 4は、 変復 調部 1 1 2からのコードデータを受信して CELP方式により復号し、 さらに、 高 音質の音声を復号して出力する。
即ち、 受信部 1 1 4では、 例えば、 クラス分類適応処理を利用して、 CELP方 式で復号された合成音が、 さらに、 真の高音質の音声 (の予測値) に復号される c ここで、 クラス分類適応処理は、 クラス分類処理と適応処理とからなり、 クラ ス分類処理によって、 データを、 その性質に基づいてクラス分けし、 各クラスご とに適応処理を施すものであり、 適応処理は、 以下のような手法のものである。 即ち、 適応処理では、 例えば、 CELP方式により復号された合成音と、 所定の タップ係数との線形結合により、 真の高音質の音声の予測値が求められる。
具体的には、 例えば、 いま、 真の高音質の音声 (のサンプル値) を教師データ とするとともに、 その真の高音質の音声を、 C E L P方式によって、 Lコード、 Gコード、 I コード、 および Aコードに符号化し、 それらのコードを、 図 2に示 した受信部で CELP方式により復号することによって得られる合成音を生徒デー タとして、 教師データである高音質の音声 yの予測値 E [ y ] を、 幾つかの合成 音 (のサンプル値) Xい x 2, ' · 'の集合と、 所定のタップ係数 W l, w2, -
• -の線形結合により規定される線形 1次結合モデルにより求めることを考える c この場合、 予測値 E [ y ] は、 次式で表すことができる。
E L y ] = wx x ^ w2 χ 2 + ■ · ·
· · · ( 6 )
式 (6 ) を一般化するために、 タップ係数 W jの集合でなる行列 W、 生徒デー タ X ijの集合でなる行列 X、 および予測値 E の集合でなる行列 Y ' を、
【数 1】
Figure imgf000016_0001
X21 X22 ■■■ X2J xn Xl2 ■■■ XlJ
E '
W2 E[y2]
, Y'=
Wj ,E[y
で定義すると、 次のような観測方程式が成立する <
XW= Y'
(7) ここで、 行列 Xの成分 Xijは、 i件目の生徒データの集合 ( i件目の教師データ yiの予測に用いる生徒データの集合) の中の j番目の生徒データを意味し、 行 列 Wの成分 Wjは、 生徒データの集合の中の j番目の生徒データとの積が演算さ れるタップ係数を表す。 また、 yiは、 i件目の教師データを表し、 従って、 E [yj は、 i件目の教師データの予測値を表す。 なお、 式 (6) の左辺におけ る yは、 行列 Yの成分 yiのサフィックス iを省略したものであり、 また、 式 (6) の右辺における Xい x 2, · · ■ も、 行列 Xの成分 Xijのサフィックス i を省略したものである。
そして、 この観測方程式に最小自乗法を適用して、 真の高音質の音声 yに近い 予測値 E [y] を求めることを考える。 この場合、 教師データとなる真の高音質 の音声 yの集合でなる行列 Y、 および高音質の音声 yに対する予測値 E [y ] の 残差 eの集合でなる行列 Eを、
【数 2】
E=
Figure imgf000016_0002
で定義すると、 式 (7) から、 次のような残差方程式が成立する。
XW= Y+ E ' ■ · ■ (8) この場合、 真の高音質の音声 yに近い予測値 E [y ] を求めるためのタップ係 数 Wjは、 自乗誤差 . '
【数 3】
I
∑ e
i=1
を最小にすることで求めることができる。
従って、 上述の自乗誤差をタップ係数 Wjで微分したものが 0になる場合、 即 ち、 次式を満たすタップ係数 Wj,が、 真の高音質の音声 yに近い予測値 E [ y ] を求めるため最適値ということになる。
【数 4】 ei =0 ( j = 1,2, ··-, J )
Figure imgf000017_0001
(9) そこで、 まず、 式 (8) を、 タップ係数 Wjで微分することにより、 次式が成 立する。
【数 5】
Figure imgf000017_0002
', , ( …, i)
(10) 式 (9) および (10) より、 式 (1 1) が得られる,
【数 6】
Figure imgf000017_0003
- - - U i) さらに、 式 (8) の残差方程式における生徒データ Xj タップ係数 Wj、—教師 データ yi、 および誤差 e iの関係を考慮すると、 式 (1 1) から、 次のような正
差替え用紙(規則 26》
Figure imgf000018_0001
【獰 i:¾ I I I
∑XilXi1 ∑XilXi2 '·· ∑ ilXiJ
i=1 i=1 i=1
I I i
A= ∑Xi2Xii ∑Xi2Xi2 '·· ∑Xi2XiJ
i=1 i=1 i=1
I I I
∑XijXi1 ∑XiJXi2 '·' ∑XiJXiJ
i=1 i=l i=1
∑XilYi
i=1
V = ∑Xi2Yi
i=1
I
∑XiJYi
i=l
で定義するとともに、 べク トル Wを、 数 1で示したように定義すると、 式
AW= V
• · · (1 3) で表すことができる。
式 (1 2) における各正規方程式は、 生徒データ Xijおよび教師データ yiの セットを、 ある程度の数だけ用意することで、 求めるべきタップ係数 Wjの数 J と同じ数だけたてることができ、 従って、 式 (1 3) を、 ベタ トル Wについて解 くことで (但し、 式 (1 3) を解くには、 式 (1 3) における行列 Aが正則であ る必要がある) 、 最適なタップ係数 (ここでは、 自乗誤差を最小にするタップ係 数) Wjを求めることができる。 なお、 式 (1 3) を解くにあたっては、 例えば- 掃き出し法 (Gauss- Jordanの消去法) などを用いることが可能である。
以上のようにして、 最適なタップ係数 Wjを求めておき、 さらに、 そのタップ
差替え用紙(規則 26》 係数 W jを用い、 式 (6 ) により、 真の高音質の音声 yに近い予測値 E [ y ] を 求めるのが適応処理である。
なお、 例えば、 教師データとして、 高いサンプリング周波数でサンプリングし た音声信号、 または多ビッ トを割り当てた音声信号を用いるとともに、 生徒デー タとして、 その教師データとしての音声信号を間引いたり、 低ビッ トで再量子化 した音声信号を C E L P方式により符号化し、 その符号化結果を復号して得られ る合成音を用いた場合、 タップ係数としては、 高いサンプリング周波数でサンプ リングした音声信号、 または多ビットを割り当てた音声信号を生成するのに、 予 測誤差が、 統計的に最小となる高音質の音声が得られることになる。 従って、 こ の場合、 より高音質の合成音を得ることが可能となる。
図 4の受信部 1 1 4では、 以上のようなクラス分類適応処理により、 コードデ ータを CELP方式により復号して得られる合成音を、 さらに、 高音質の音声に復 号するようになっている。
即ち、 図 5は、 図 4の受信部 1 1 4の構成例を示している。 なお、 図中、 図 2 における場合と対応する部分については、 同一の符号を付してあり、 以下では、 その説明は、 適宜省略する。
タップ生成部 1 2 1と 1 2 2には、 音声合成フィルタ 2 9が出力する、 サブフ レームごとの合成音データと、 チャネルデコーダ 2 1が出力する、 サブフレーム ごとの Lコード、 Gコード、 I コード、 Aコードのうちの Iコードとが供給され るようになっている。 タップ生成部 1 2 1と 1 2 2は、 そこに供給される合成音 データと I コードから、 高音質の音声の予測値を予測するのに用いる予測タップ とするものと、 クラス分類に用いるクラスタップとするものを、 それぞれ抽出す る。 予測タップは、 予測部 1 2 5に供給され、 クラスタップは、 クラス分類部 1 2 3に供給される。
クラス分類部 1 2 3は、 タップ生成部 1 2 2から供給されるクラスタップに基 づいて、 クラス分類を行い、 そのクラス分類結果としてのクラスコードを、 係数 メモリ 1 2 4に供給する。 ここで、 クラス分類部 1 2 3におけるクラス分類の方法としては、 例えば、 K ビッ ト ADRC (Adaptive Dynamic Range Coding)処理を利用した方法等がある。
Kビット ADRC処理においては、 例えば、 クラスタップを構成するデータの最 大値 MAXと最小値 MINが検出され、 DR=MAX- MINを、 集合の局所的なダイナミツ クレンジとし、 このダイナミックレンジ DRに基づいて、 クラスタップを構成す る各データが Kビッ トに再量子化される。 即ち、 クラスタップを構成する各デー タから、 最小値 MINが減算され、 その減算値が DR/2Kで除算 (量子化) される。 そして、 以上のようにして得られる、 クラスタップを構成する各データの Kビッ トの値を、 所定の順番で並べたビッ ト列が、 ADRCコードとして出力される。
このような Kビッ ト ADRC処理を、 クラス分類に利用する場合には、 例えば、 その Kビット ADRC処理の結果得られる、 クラスタップを構成する各データの K ビッ トの値を所定の順番で並べたビッ ト列が、 クラスコードとされる。
なお、 その他、 クラス分類は、 例えば、 クラスタップを、 それを構成する各デ ータを要素とするべク トルと見なして、 そのべク トルとしてのクラスタップをべ ク トル量子化すること等によって行うことも可能である。
係数メモリ 1 2 4は、 後述する図 1 3の学習装置において学習処理が行われる ことにより得られる、 クラスごとのタップ係数を記憶しており、 クラス分類部 1 2 3が出力するクラスコードに対応するァドレスに記憶されているタップ係数を、 予測部 1 2 5に供給する。
予測部 1 2 5は、 タップ生成部 1 2 1が出力する予測タップと、 係数メモリ 1 2 4が出力するタツプ係数とを取得し、 その予測タップとタツプ係数とを用いて、 式 (6 ) に示した線形予測演算を行う。 これにより、 予測部 1 2 5は、 注目して いる注目サブフレームについて、 高音質の音声 (の予測値) を求めて、 D ZA変 換部 3 0に供給する。
次に、 図 6のフローチャートを参照して、 図 5の受信部 1 1 4の処理について 説明する。
即ち、 チャネルデコーダ 2 1は、 そこに供給されるコードデータから、 Lコー ド、 Gコード、 Iコード、 Aコードを分離し、 それぞれを、 適応コードブック記 憶部 2 2、 ゲイン復号器 2 3、 励起コードブック記憶部 2 4、 フィルタ係数復号 器 2 5に供給する。 さらに、 Iコードは、 タップ生成部 1 2 1および 1 2 2にも 供給される。
そして、 適応コードブック記憶部 2 2、 ゲイン復号器 2 3、 励起コードブック 記憶部 2 4、 演算器 2 6乃至 2 8は、 図 2における場合と同様の処理を行い、 こ れにより、 Lコード、 Gコード、 および I コードが、 残差信号 eに復号される。 この残差信号は、 音声合成フィルタ 2 9に供給される。
さらに、 フィルタ係数復号器 2 5は、 図 2で説明したように、 そこに供給され る Aコードを、 線形予測係数に復号し、 音声合成フィルタ 2 9に供給する。 音声 合成フィルタ 2 9は、 演算器 2 8からの残差信号と、 フィルタ係数復号器 2 5か らの線形予測係数を用いて音声合成を行い、 その結果得られる合成音を、 タップ 生成部 1 2 1と 1 2 2に供給する。
タップ生成部 1 2 1は、 音声合成フィルタ 2 9が順次出力する合成音のサブフ レームを、 順次、 注目サブフレームとし、 ステップ S 1において、 その注目サブ フレームの合成音と、 後述するサブフレームの I コードとから、 予測タップを生 成し、 予測部 1 2 5に供給する。 さらに、 ステップ S 1では、 タップ生成部 1 2 2は、 やはり、 注目サブフレームの合成音と、 後述するサブフレームの Iコード とから、 クラスタップを生成し、 クラス分類部 1 2 3に供給する。
そして、 ステップ S 2に進み、 クラス分類部 1 2 3は、 タップ生成部 1 2 2か ら供給されるクラスタップに基づいて、 クラス分類を行い、 その結果得られるク ラスコードを、 係数メモリ 1 2 4に供給して、 ステップ S 3に進む。
ステップ S 3では、 係数メモリ 1 2 4は、 クラス分類部 1 2 3から供給される クラスコードに対応するアドレスがら、 タップ係数を読み出し、 予測部 1 2 5に 供給する。
そして、 ステップ S 4に進み、 予測部 1 2 5は、 係数メモリ 1 2 4が出力する タップ係数を取得し、 そのタップ係数と、 タップ生成部 1 2 1からの予測タップ とを用いて、 式 (6 ) に示した積和演算を行い、 注目サブフレームの高音質の音 声 (の予測値) を得る。
なお、 ステップ S 1乃至 S 4の処理は、 注目サブフレームの合成音データのサ ンプル値それぞれを、 順次、 注目データとして行われる。 即ち、 サブフレームの 合成音データは、 前述したことから、 4 0サンプルで構成されるから、 その 4 0 サンプルの合成音データそれぞれについて、 ステップ S 1乃至 S 4の処理が行わ れる。
以上のようにして得られた高音質の音声は、 予測部 1 2 5から、 D /A変換部 3 0を介して、 スピー力 3 1に供給され、 これにより、 スピー力 3 1からは、 高 音質の音声が出力される。
ステップ S 4の処理後は、 ステップ S 5に進み、 まだ、 注目サブフレームとし て処理すベき次のサブフレームがあるかどうかが判定され、 あると判定された場 合、 ステップ S 1に戻り、 次に注目サブフレームとすべきサブフレームを、 新た に注目サブフレームとして、 以下、 同様の処理を繰り返す。 また、 ステップ S 5 において、 注目サブフレームとして処理すべきサブフレームがないと判定された 場合、 処理を終了する。
次に、 図 7を参照して、 図 5のタップ生成部 1 2 1での予測タップの生成方法 について説明する。
タップ生成部 1 2 1は、 例えば、 図 7に示すように、 サブフレームの各合成音 データ (音声合成フィルタ 2 9が出力する合成音データ) を注目データとして、 その注目データから過去の Nサンプルの合成音データ (図 7において、 Aで示す 範囲の合成音データ) や、 注目データを中心とする過去と未来の合計 Nサンプル の合成音データ (図 7において、 Bで示す範囲の合成音データ) を、 予測タップ として抽出する。
さらに、 タップ生成部 1 2 1は、 例えば、 注目データが位置するサブフレーム (図 7の実施の形態においては、 サブフレーム # 3 ) 、 即ち、 注目サブフレーム に配置された Iコードをも、 予測タップとして抽出する。 従って、 この場合、 予測タップは、 注目データを含む Nサンプルの合成音デー タと、 注目サブフレームの I コードとから構成される。
なお、 タップ生成部 1 2 2においても、 例えば、 タップ生成部 1 2 1における 場合と同様にして、 合成音データと I コードからなるクラスタップが抽出される。 伹し、 予測タップやクラスタップの構成パターンは、 上述したパターンのもの に限定されるものではない。 即ち、 予測タップやクラスタップとしては、 注目デ ータについて、 上述のような Nサンプルすべての合成音データを抽出する他、 1 サンプルおき等の合成音データを抽出するようにすることが可能である。
また、 上述の場合には、 同一のクラスタップおよび予測タップを構成するよう にしたが、 クラスタップと予測タップとは、 異なる構成とすることができる。 ところで、 予測タップやクラスタップは、 合成音データだけから構成すること が可能であるが、 上述のように、 予測タップやクラスタップを、 合成音データの 他、 その合成音データに関係する情報としての I コードをも用いて構成すること によって、 'より高音質の音声を復号することが可能となる。
しかしながら、 上述の場合のように、 注目データが位置するサブフレーム (注 目サブフレーム) に配置された I コードだけを、 予測タップやクラスタップに含 めるようにした場合には、 その予測タップゃクラスタップを構成する合成音デー タと、 I コードとの、 いわば釣り合いがとれず、 そのため、 クラス分類適応処理 による音質の改善効果を、 十分に得られなくなるおそれがある。
即ち、 例えば、 図 7において、 注目データから過去の Nサンプルの合成音デー タ (図 7において、 Aで示す範囲の合成音データ) を、 予測タップに含める場合、 その予測タップとなる合成音データには、 注目サブフレームの合成音データだけ でなく、 その直前のサブフレームの合成音データも含まれる。 従って、 この場合、 注目サブフレームに配置された I コードを予測タップに含めるのならば、 その直 前のサブフレームに配置された I コードも、 予測タップに含めなければ、 予測タ ップ構成する合成音データと、 I コードとの関係が釣り合いのとれたものとなら ないおそれがある。 そこで、 予測タップゃクラスタップを構成させる I コードのサブフレームは、 注目データの、 注目サブフレームの位置に応じて可変にするようにすることが可 能である。
即ち、 例えば、 注目データについて構成される予測タップに含まれる合成音デ ータが、 注目サブフレームの直前または直後に隣接するサブフレーム (以下、 隣 接サブフレームという) にまで亘る場合や、 注目サブフレームの、 隣接サブフレ ームに近い位置にまで亘る場合には、 注目サブフレームの I コ一ドだけでなく、 隣接サブフレームの Iコードも含めて、 予測タップを構成するようにすることが 可能である。 クラスタップも同様にして構成することが可能である。
このように、 予測タップやクラスタップを、 それを構成する合成音データと I コードとの釣り合いがとれるように構成することで、 クラス分類適応処理による 音質の改善効果を、 十分に得ることが可能となる。
図 8は、 上述のように、 予測タップを構成させる I コードのサブフレームを、 注目データの、 注目サブフレームの位置に応じて可変にすることによって、 予測 タップを、 それを構成する合成音データと Iコードとの釣り合いがとれるように 構成するタップ生成部 1 2 1の構成例を示している。 なお、 クラスタップを構成 するタップ生成部 1 2 2も、 図 8と同様に構成することができる。
メモリ 4 1 Aには、 図 5の音声合成フィルタ 2 9が出力する合成音データが供 給されるようになっており、 メモリ 4 1 Aは、 そこに供給される合成音データを 一時記憶する。 なお、 メモリ 4 1 Aは、 少なくとも、 1つの予測タップを構成す る Nサンプルの合成音データを記憶することのできる記憶容量を有している。 ま た、 メモリ 4 1 Aは、 そこに供給される合成音データの最新のサンプルを、 最も 古い記憶値に上書きする形で順次記憶するようになっている。
そして、 データ抽出回路 4 2 Aは、 注目データについて、 予測タップを構成す る合成音データを、 メモリ 4 1 Aから読み出すことで抽出し、 合成回路 4 3に出 力する。
即ち、 データ抽出回路 4 2 Aは、 例えば、 メモリ 4 1 Aに記憶された最新の合 成音データを注目データとする場合、 その最新の合成音データから過去の Nサン プルの合成音データを、 メモリ 4 1 Aから読み出すことで抽出し、 合成回路 4 3 に出力する。
なお、 図 7において Bで示したように、 注目データを中心とする過去と未来の Nサンプルの合成音データを、 予測タップとする場合には、 メモリ 4 1 Aに記憶 された合成音データのうちの、 最新の合成音データから、 NZ 2 (小数点以下は、 例えば繰り上げ) サンプルだけ過去のものを、 注目データとして、 その注目デー タを中心とする過去と未来の合計 Nサンプルの合成音データを、 メモリ 4 1 Aか ら読み出すようにすれば良い。
一方、 メモリ 4 1 Bには、 図 5のチャネルデコーダ 2 1が出力するサブフレー ム単位の I コードが供給されるようになっており、 メモリ 4 I Bは、 そこに供給 される I コードを一時記憶する。 なお、 メモリ 4 1 Bは、 少なくとも、 1つの予 測タップを構成しうる分の I コードを記憶することのできる記憶容量を有してい る。 また、 メモリ 4 I Bは、 メモリ 4 1 Aと同様に、 そこに供給される最新の I コードを、 最も古い記憶値に上書きする形で順次記憶するようになっている。 そして、 データ抽出回路 4 2 Bは、 データ抽出回路 4 2 Aが注目データとする 合成音データの、 注目サブフレームにおける位置に応じて、 注目サブフレームの I コードだけ、 または注目サブフレームの I コードと、 それに隣接するサブフレ ーム (隣接サブフレーム) の Iコードとを、 メモリ 4 1 Bから読み出すことで抽 出し、 合成回路 4 3に出力する。
合成回路 4 3は、 データ抽出回路 4 2 Aからの合成音データと、 データ抽出回 路 4 2 Bからの Iコードとを、 1セッ トのデータに合成 (結合) し、 予測タップ として出力する。
ところで、 タップ生成部 1 2 1において、 以上のように予測タップを生成する 場合には、 その予測タップを構成する合成音データは、 Nサンプルで一定である 力 I コードについては、 注目サブフレームの I コードだけの場合と、 注目サブ フレームの Iコード、 およびそれに隣接するサブフレーム (隣接サブフレーム) の I コードの場合とがあるため、 その数が変化する。 このことは、 タップ生成部 1 2 2において生成されるクラスタップについても同様である。
予測タップについては、 それを構成するデータの数 (タップ数) が変化しても、 その予測タップと同一の数のタップ係数を、 後述する図 1 3の学習装置において 学習し、 係数メモリ 1 2 4に記憶させておけば良いから問題はない。
一方、 クラスタップについては、 それを構成するタップ数が変化すると、 その クラスタップによって得られる全クラス数が変化することから、 処理が複雑にな るおそれがある。 そこで、 クラスタップのタップ数が変化しても、 そのクラスタ ップにより得られるクラス数が変化しないようなクラス分類を行うのが望ましい。 このように、 クラスタップのタップ数が変化しても、 そのクラスタップにより 得られるクラス数が変化しないようなクラス分類を行う方法としては、 クラスを 表すクラスコードに、 例えば、 注目データの、 注目サブフレームにおける位置を 考慮する方法がある。
即ち、 本実施の形態では、 注目データの、 注目サブフレームにおける位置によ つて、 クラスタップのタップ数が增減する。 例えば、 いま、 クラスタップのタツ プ数が S個の場合と、 それより多い L O S ) 個の場合とが存在し、 タップ数が
S個の場合に、 nビッ トのクラスコードが得られ、 タップ数が L個の場合に、 n
+ mビッ トのクラスコードが得られるとする。
この場合、 クラスコードとして、 n + m + 1ビットを用いるとともに、 その n + m + 1ビットのうちの、 例えば、 最上位ビットなどの 1ビッ トを、 クラスタツ プのタップ数が S個の場合と L個の場合とで、 それぞれ、 例えば、 0と 1に設定 することにより、 タップ数が S個と L個のいずれであっても、 全クラス数が 2 n+m
+1クラスのクラス分類が可能となる。
即ち、 クラスタップのタップ数が L個の場合には、 n + mビットのクラスコー ドが得られるクラス分類を行い、 その n + mビッ トのクラスコードに、 その最上 位ビッ トとして、 タップ数が L個であることを表す" 1 " を付加した n + m + 1 ビットを最終的なクラスコードとすれば良い。 また、 クラスタツプのタップ数が S個の場合には、 nビッ トのクラスコードが 得られるクラス分類を行い、 その nビットのクラスコードに、 その上位ビッ トと して、 mビットの" 0 " を付カ卩して n + mビッ トとし、 さらに、 その n + mビッ トに、 その最上位ビッ トとして、 タップ数が S個であることを表す" 0 " を付加 した n + m + 1ビットを最終的なクラスコードとすれば良い。
ところで、 上述のようにすることで、 クラスタップのタップ数が S個と L個の いずれの場合であっても、 全クラス数が 2 n+m+1クラスとなるクラス分類が可能と なるが、 タップ数が S個の場合においては、 最上位ビッ トから数えて 2ビッ ト目 から、 m + 1ビット目までのビットは、 常に" 0 " になる。
従って、 上述のように、 n + m + 1ビッ トのクラスコードを出力するクラス分 類を行った場合には、 使用されないクラス (を表すクラスコード) が生じること、 即ち、 いわば無駄なクラスが生じることになる。
そこで、 そのような無駄なクラスが生じることを防止して、 全クラス数を一定 にするために、 クラス分類は、 クラスタップを構成するデータに重みを付して行 うことが可能である。
即ち、 例えば、 図 7において Aで示した、 注目データから過去 Nサンプルの合 成音データをクラスタップに含めるとともに、 注目データの、 注目サブフレーム における位置に応じて、 注目サブフレーム (以下、 適宜、 注目サブフレーム # n と記載する) の Iコード、 または直前のサブフレーム # n— 1の I コードのいず れか一方または両方を、 クラスタップに含める場合においては、 そのクラスタツ プを構成する注目サブフレーム # nの I コードに対応するクラス数と、 直前のサ ブフレーム # n— 1の Iコードに対応するクラス数に対して、 それぞれ、 例えば、 図 9 Aに示すような重み付けを行うことにより、 全クラス数を一定にすることが できる。
即ち、 図 9 Aは、 注目データが、 注目サブフレーム # nの右方向 (未来方向) に位置するほど、 注目サブフレーム # nの I コ一ドに対応するクラス数が増大す るような、 クラス分類が行われることを表している。 さらに、 図 9 Aは、 注目デ ータが、 注目サブフレーム # nの右方向に位置するほど、 注目サブフレーム # η の直前のサブフレーム # η— 1の I コードに対応するクラス数が減少するような、 クラス分類が行われることを表している。 そして、 図 9 Αのような重み付けが行 われることにより、 全体としては、 クラス数が一定になるクラス分類が行われる。 また、 例えば、 図 7において Bで示した、 注目データを中心とする過去と未来 の合計 Nサンプルの合成音データを、 クラスタップに含めるとともに、 注目デー タの、 注目サブフレームにおける位置に応じて、 注目サブフレーム # nの I コー ドと、 その直前のサブフレーム # n— 1若しくは直後のサブフレーム # n + 1の I コードのいずれか一方または両方とを、 クラスタップに含める場合においては、 そのクラスタップを構成する注目サブフレーム # nの Iコードに対応するクラス 数、 直前のサブフレーム # n— 1の Iコードに対応するクラス数、 直後のサブフ レーム # n + 1の I コードに対応するクラス数に対して、 それぞれ、 例えば、 図 9 Bに示すような重み付けを行うことにより、 全クラス数を一定にすることがで きる。
即ち、 図 9 Bは、 注目データが、 注目サブフレーム # nの中心位置に近いほど、 注目サブフレーム # nの I コードに対応するクラス数が増大するような、 クラス 分類が行われることを表している。 さらに、 図 9 Bは、 注目データが、 注目サブ フレーム # nの左方向 (過去方向) に位置するほど、 注目サブフレーム # nの直 前のサブフレーム # n— 1の I コードに対応するクラス数が増大し、 また、 注目 データが、 注目サブフレーム # nの右方向 (未来方向) に位置するほど、 注目サ ブフレーム # nの直後のサブフレーム # n + 1の I コードに対応するクラス数が 増大するような、 クラス分類が行われることを表している。 そして、 図 9 Bのよ うな重み付けが行われることにより、 全体としては、 クラス数が一定になるクラ ス分類が行われる。
次に、 図 1 0は、 Iコードに対応するクラス数が、 例えば、 5 1 2クラスで一 定となるように、 クラス分類を行う場合の重み付けの例を示している。
即ち、 図 1 0 Aは、 注目データの、 注目サブフレームにおける位置に応じて、 注目サブフレーム # nの Iコード、 または直前のサブフレーム # n— 1の I コー ドのいずれか一方または両方を、 クラスタップに含める場合の、 図 9 Aに示した 重み付けの具体例を示している。
また、 図 1 0 Bは、 注目データの、 注目サブフレームにおける位置に応じて、 注目サブフレーム # nの Iコードと、 その直前のサブフレーム # n— 1若しくは 直後のサブフレーム # n + 1の I コードのいずれか一方または両方とを、 クラス タップに含める場合の、 図 9 Bに示した重み付けの具体例を示している。
図 1 O Aにおいて、 その最左欄は、 注目サブフレームにおける注目データの左 端からの位置を、 左から 2番目の欄は、 注目サブフレームの直前のサブフレーム の Iコードによるクラス数を、 左から 3番目の欄は、 注目サブフレームの I コー ドによるクラス数を、 最右欄は、 クラスタップを構成する Iコードによるクラス 数 (注目サブフレームの Iコードと、 その直前のサブフレームの Iコードとによ るクラス数) を、 それぞれ示している。
ここで、 サブフレームは、 例えば、 前述したように、 4 0サンプルで構成され るため、 注目サブフレームにおける注目データの左端からの位置 (最左欄) は、 1乃至 4 0の範囲の値をとる。 また、 Iコードは、 例えば、 前述したように、 9 ビットであるため、 その 9ビッ トを、 そのままクラスコードとした場合が、 クラ ス数が最大となる場合となる。 従って、 I コードによるクラス数 (左から 2番目 と 3番目の欄) は、 2 9 ( = 5 1 2 ) 以下の値となる。
さらに、 上述のように、 1つの I コードを、 そのままクラスコードとして用い た場合には、 そのクラス数は、 5 1 2 (= 29) となることから、 図 1 O Aでは (後述する図 1 0 Bにおいても同様) 、 クラスタップを構成するすべての I コー ドによるクラス数 (注目サブフレームの Iコードと、 その直前のサブフレームの Iコードとによるクラス数) 力 5 1 2クラスとなるように、 即ち、 注目サブフ レームの I コードによるクラス数と、 その直前のサブフレームの I コードによる クラス数との積が、 5 1 2クラスとなるように、 注目サブフレームの I コードに よるクラス数と、 その直前のサブフレームの I コードによるクラス数とに、 重み 付けが行われている。
図 1 0 Aにおいては、 図 9 Aで説明したように、 注目データが、 注目サブフレ 一ム# nの右方向に位置するほど (注目データの位置を表す値が大きくなるほ ど) 、 注目サブフレーム # nの I コードに対応するクラス数が増大するとともに、 注目サブフレーム # nの直前のサブフレーム # n— 1の I コードに対応するクラ ス数が減少している。
また、 図 1 0 Bにおいて、 その最左欄、 左から 2番目の欄、 3番目の欄、 およ び最右欄は、 図 1 O Aにおける場合と同様の内容を示している。 そして、 左から 4番目の欄は、 注自サブフレームの直後のサブフレームの I コードによるクラス 数を示している。
図 1 0 Bにおいては、 図 9 Bで説明したように、 注目データが、 注目サブフレ 一ム# nの中心位置からずれるほど (注目データの位置を表す値が大きくまたは 小さくなるほど) 、 注目サブフレーム # nの Iコードに対応するクラス数が減少 している。 また、 注目データが、 注目サブフレーム # nの左方向に位置するほど、 注目サブフレーム # nの直前のサブフレーム # n— 1の I コードに対応するクラ ス数が増大し、 さらに、 注目データが、 注目サブフレーム # nの右方向に位置す るほど、 注目サブフレーム # nの直後のサブフレーム # n + 1の I コードに対応 するクラス数が増大している。
次に、 図 1 1は、 上述のような重み付けを伴うクラス分類を行う、 図 5のクラ ス分類部 1 2 3の構成例を示している。
なお、 ここでは、 クラスタップは、 例えば、 図 7において Aで示した、 注目デ —タから過去 Nサンプルの合成音データと、 注目サブフレームおよびその直前の サブフレームの I コードとから構成されるものとする。
タップ生成部 1 2 2 (図 5 ) が出力するクラスタップは、 合成音データ切り出 し部 5 1とコード切り出し部 5 3に供給される。
合成音データ切り出し部 5 1は、 そこに供給されるクラスタップから、 そのク ラスタップを構成する複数サンプルの合成音データを切り出し (抽出し) 、 ADRC 回路 5 2に供給する。 01^回路5 2は、 合成音データ切り出し部 5 1から供給 される複数の合成音データ (ここでは、 Nサンプルの合成音データ) に対して、 例えば、 1ビッ ト ADRC処理を施し、 その結果得られる複数の合成音データにつ いての 1ビッ トを所定の順番で並べたビッ ト列を、 合成回路 5 6に供給する。 一方、 コード切り出し部 5 3は、 そこに供給されるクラスタップから、 そのク ラスタップを構成する I コードを切り出す (抽出する) 。 さらに、 コード切り出 し部 5 3は、 その切り出した Iコードのうち、 注目サブフレームの Iコードと、 直前のサブフレームの I コードを、 縮退部 5 4 Aと 5 4 Bに、 それぞれ供給する。 縮退部 5 4 Aは、 後述するテーブル作成処理によって作成された縮退テーブル を記憶しており、 その縮退テーブルを用い、 図 9および図 1 0で説明したように して、 注目データの注目サブフレームにおける位置にしたがって、 注目サブフレ ームの Iコードによって表されるクラス数を縮退 (減少) させ、 合成回路 5 5に 出力する。
即ち、 縮退部 5 4 Aは、 注目データの注目サブフレームにおける位置が、 左か ら 1乃至 4番目のいずれかである場合には、 例えば、 図 1 O Aに示したように、 注目サブフレームの I コードによって表される 5 1 2のクラス数を、 5 1 2クラ スにするように縮退処理して、 即ち、 注目サブフレームの 9 ビッ トの I コードを、 特に処理せずに、 そのまま出力する。
また、 縮退部 5 4 Aは、 注目データの注目サブフレームにおける位置が、 左か ら 5乃至 8番目のいずれかである場合には、 例えば、 図 1 0 Aに示したように、 注目サブフレームの I コードによって表される 5 1 2のクラス数を、 2 5 6クラ スにするように縮退処理して、 即ち、 注目サブフレームの 9ビッ トの I コードを、 縮退テーブルを用いて、 8ビットで表されるコードに変換して出力する。
さらに、 縮退部 5 4 Aは、 注目データの注目サブフレームにおける位置が、 左 から 9乃至 1 2番目のいずれかである場合には、 例えば、 図 1 O Aに示したよう に、 注目サブフレームの Iコードによって表される 5 1 2のクラス数を、 1 2 8 クラスにするように縮退処理して、 即ち、 注目サブフレームの 9ビッ トの I コー ドを、 縮退テーブルを用いて、 7ビッ トで表されるコードに変換して出力する。 縮退部 5 4 Aは、 以下、 同様に、 注目データの注目サブフレームにおける位置 にしたがって、 注目サブフレームの I コードによって表されるクラス数を、 例え ば、 図 1 0 Aの左から 2番目の欄に示したように縮退させて、 合成回路 5 5に出 力する。
縮退部 5 4 Bも、 縮退部 5 4 Aと同様に、 縮退テーブルを記憶しており、 その 縮退テーブルを用い、 注目データの注目サブフレームにおける位置にしたがって、 注目サブフレームの直前のサブフレームの I コ一ドによって表されるクラス数を、 例えば、 図 1 O Aの左から 3番目の欄に示したように縮退させて、 合成回路 5 5 に出力する。
合成回路 5 5は、 縮退部 5 4 Aからの、 クラス数が適宜縮退された注目サプフ レームの I コードと、 縮退部 5 4 Bからの、 クラス数が適宜縮退された注目サブ フレームの直前のサブフレームの Iコードとを、 1つのビッ ト列に合成し、 合成 回路 5 6に出力する。
合成回路 5 6は、 ADRC回路 5 2が出力するビッ ト列と、 合成回路 5 5が出力 するビット列とを結合して、 1つのビット列とし、 クラスコ一ドと して出力する。 次に、 図 1 2のフローチヤ一トを参照して、 図 1 1の縮退部 5 4 Aおよび 5 4 Bで用いられる縮退テ一ブルを作成するテーブル作成処理について説明する。 縮退テーブル作成処理では、 まず最初に、 ステップ S 1 1において、 縮退後の クラス数 Mが設定される。 なお、 ここでは、 Mは、 説明を簡単にするために、 例 えば、 2累乗の値とする。 さらに、 ここでは、 9 ビッ トの Iコードによって表さ れるクラス数を縮退するための縮退テーブルを作成するので、 Mは、 9 ビッ トの I コードによって表される最大のクラス数である 5 1 2以下の値とする。
その後、 ステップ S 1 2に進み、 縮退後のクラスコードを表す変数 cに 0をセ ットし、 ステップ S 1 3に進む。 ステップ S 1 3では、 I コードすベて (最初は、 9ビッ トの I コードによって表される数すベて) を、 処理の対象とする対象 I コ ードに設定し、 ステップ S 1 4に進む。 ステップ S 1 4では、 対象 I コードのう ちの 1つを、 注目 I コードとして選択し、 ステップ S 1 5に進む。
ステップ S 1 5では、 注目 I コードによって表される波形 (励起信号の波形) と、 注目 I コードを除く、 すべての対象コードによって表される波形それぞれと の自乗誤差が計算される。
即ち、 前述したように、 I コードは、 所定の励起信号と対応付けられており、 ステップ S 1 5では、 注目 I コードによって表される励起信号の波形の各サンプ ル値と、 対象 I コードによって表される励起信号の波形の、 対応するサンプル値 との自乗誤差の総和が求められる。 ステップ S 1 5では、 このような注目 I コー ドについての自乗誤差の総和が、 対象 Iコードすベてを対象として求められる。 その後、 ステップ S 1 6に進み、 注目 I コードについての自乗誤差の総和を最 小にする対象 I コード (以下、 適宜、 自乗誤差最小 I コードという) が検出され、 注目 I コードと、 自乗誤差最小 I コードと力 変数 cによって表されるコードに 対応付けられる。 即ち、 これにより、 注目 I コードと、 対象 I コードのうち、 注 目 Iコードによって表される波形と最も近似する波形を表すもの (自乗誤差最小 Iコード) とが、 同一のクラス cに縮退される。
ステップ S 1 6の処理後は、 ステップ S 1 7に進み、 注目 I コードによって表 される波形の各サンプル値と、 自乗誤差最小 Iコードによって表される波形の、 対応するサンプル値との、 例えば平均値が求められ、 その平均値による波形が、 変数 cが表す励起信号の波形として、 変数 cに対応付けられる。
そして、 ステップ S 1 8に進み、 注目 I コードと、 自乗誤差最小 Iコードとが、 対象 I コードが除外され、 ステップ S 1 9に進み、 変数 cが 1だけィンクリメン トされて、 ステップ S 2 0に進む。
ステップ S 2 0では、 対象 I コードとなっている I コードが、 まだ存在するか どうかが判定され、 存在すると判定された場合、 ステップ S 1 4に戻り、 対象 I コードとなっている Iコードから、 新たな注目 I コードが選択され、 以下、 同様 の処理が操り返される。
また、 ステップ S 2 0において、 対象 I コードとなっている Iコードが存在し ないと判定された場合、 即ち、 直前のステップ S 1 3において、 対象 I コードと された Iコードが、 その総数の 1 Z 2の数の変数 cに対応付けられた場合、 ステ ップ S 2 1に進み、 変数 cが、 縮退後のクラス数 Mに等しいかどうかが判定され る。
ステップ S 2 1において、 変数 cが、 縮退後のクラス数 Mに等しくないと判定 された場合、 即ち、 9ビッ トの I コードによって表されるクラス数が、 まだ Mク ラスに縮退されていない場合、 ステップ S 2 2に進み、 変数 cによって表される 各値が、 新たに、 I コードとみなされ、 ステップ S 1 2に戻り、 その新たな I コ ードを対象として、 以下、 同様の処理が繰り返される。
なお、 この新たな Iコードについては、 ステップ S 1 7で求められた波形が、 その新たな Iコードが表す励起信号の波形として、 ステップ S 1 5における自乗 誤差の計算が行われる。
一方、 ステップ S 2 1において、 変数 c力 縮退後のクラス数 Mに等しいと判 定された場合、 即ち、 9ビッ トの Iコードによって表されるクラス数が、 Mクラ スに縮退された場合、 ステップ S 2 3に進み、 変数 cの各値と、 その値に対応付 けられている 9 ビッ トの Iコードとの対応表が作成され、 この対応表が、 縮退テ 一プルとして出力されて、 処理を終了する。
図 1 1の縮退部 5 4 Aおよび 5 4 Bでは、 そこに供給される 9ビットの I コー ドが、 上述のようにして作成された縮退テーブルにおいて、 その 9ビットの I コ 一ドと対応付けられている変数 cに変換されることで縮退される。
なお、 9ビッ トの I コードによるクラス数の縮退は、 その他、 例えば、 単に、 I コードの下位ビッ トを削除することによって行うことも可能である。 但し、 ク ラス数の縮退は、 類似するクラスどう しをまとめるように行うのが望ましく、 従 つて、 Iコードの下位ビットを単に削除するよりは、 図 1 2で説明したように、 波形が似ている励起信号の信号を表す I コードどうしを、 同一のクラスに割り当 てるようにする方が望ましい。
次に、 図 1 3は、 図 5の係数メモリ 1 2 4に記憶させるタップ係数の学習処理 を行う学晋装置の一実施の形態の構成例を示している。
マイク 2 0 1乃至コード決定部 2 1 5は、 図 1のマイク 1乃至コード決定部 1 5とそれぞれ同様に構成される。 マイク 1には、 学習用の高音質の音声信号が入 力されるようになつており、 従って、 マイク 2 0 1乃至コード決定部 2 1 5では、 その学習用の音声信号に対して、 図 1における場合と同様の処理が施される。 但し、 コード決定部 2 1 5は、 Lコード、 Gコード、 Iコード、 および Aコー ドのうち、 本実施の形態において予測タップやクラスタップを構成する Iコード だけを出力するようになっている。
そして、 タップ生成部 1 3 1と 1 3 2には、 自乗誤差最小判定部 2 0 8におい て自乗誤差が最小になったと判定されたときの音声合成フィルタ 2 0 6が出力す る合成音が供給される。 さらに、 タップ生成部 1 3 1と 1 3 2には、 コード決定 部 2 1 5が、 自乗誤差最小判定部 2 0 8から確定信号を受信したときに出力する I コードも供給される。 また、 正規方程式加算回路 1 3 4には、 AZD変換部 2 0 2が出力する音声が、 教師データとして供給される。
タップ生成部 1 3 1は、 音声合成フィルタ 2 0 6が出力する合成音データと、 コード決定部 2 1 5が出力する I コードとから、 図 5のタップ生成部 1 2 1にお ける場合と同一の予測タップを生成し、 生徒データとして、 正規方程式加算回路 1 3 4に供給する。
タップ生成部 1 3 2も、 音声合成フィルタ 2 0 6が出力する合成音と、 コード 決定部 2 1 5が出力する Iコードとから、 図 5のタップ生成部 1 2 2における場 合と同一のクラスタップを生成し、 クラス分類部 1 3 3に供給する。
クラス分類部 1 3 3は、 タップ生成部 1 3 2からのクラスタップに基づいて、 図 5のクラス分類部 1 2 3における場合と同様のクラス分類を行い、 その結果得 られるクラスコードを、 正規方程式加算回路 1 3 4に供給する。
正規方程式加算回路 1 3 4は、 A/ D変換部 2 0 2からの音声を、 教師データ として受信するとともに、 タップ生成部 1 3 1からの予測タップを、 生徒データ として受信し、 その教師データおよび生徒データを対象として、 クラス分類部 1 3 3からのクラスコードごとに足し込みを行う。
即ち、 正規方程式加算回路 1 3 4は、 クラス分類部 1 3 3から供給されるクラ スコードに対応するクラスごとに、 予測タップ (生徒データ) を用い、 式 (1 3 ) の行列 Aにおける各コンポーネントとなっている、 生徒データどうしの乗算 ( x in x im) と、 サメーシヨン (∑) に相当する演算を行う。
さらに、 正規方程式加算回路 1 3 4は、 やはり、 クラス分類部 1 3 3から供給 されるクラスコードに対応するクラスごとに、 生徒データおよび教師データを用 い、 式 (1 3 ) のべク トル Vにおける各コンポーネントとなっている、 生徒デー タと教師データの乗算 (x in y i) と、 サメーシヨン (∑) に相当する演算を行う。 正規方程式加算回路 1 3 4は、 以上の足し込みを、 そこに供給される学習用の 音声のサブフレームすベてを注目サブフレームとして行い、 これにより、 各クラ スについて、 式 (1 3 ) に示した正規方程式をたてる。
タップ係数決定回路 1 3 5は、 正規方程式加算回路 1 3 4においてクラスごと に生成された正規方程式を解くことにより、 クラスごとに、 タップ係数を求め、 係数メモリ 1 3 6の、 各クラスに対応するァドレスに供給する。
なお、 学習用の音声信号として用意した音声信号によっては、 正規方程式加算 回路 1 3 4において、 タップ係数を求めるのに必要な数の正規方程式が得られな いクラスが生じる場合があり得るが、 タップ係数決定回路 1 3 5は、 そのような クラスについては、 例えば、 デフォルトのタップ係数を出力する。
係数メモリ 1 3 6は、 タップ係数決定回路 1 3 5から供給されるクラスごとの タップ係数を、 そのクラスに対応するァドレスに記憶する。
次に、 図 1 4のフローチャートを参照して、 図 1 3の構成される学習装置で行 われる、 高音質の音声を復号するためのタップ係数を求める学習処理について説 明する。
即ち、 学習装置には、 学習用の音声信号が供給され、 ステップ S 3 1では、 そ の学習用の音声信号から、 教師データと生徒データが生成される。
即ち、 学習用の音声信号は、 マイク 2 0 1に入力され、 マイク 2 0 1乃至コー ド決定部 2 1 5は、 図 1のマイク 1乃至コード決定部 1 5における場合とそれぞ れ同様の処理を行う。
その結果、 AZD変換部 2 0 2で得られるディジタル信号の音声は、 教師デー タとして、 正規方程式加算回路 1 3 4に供給される。 また、 自乗誤差最小判定部 2 0 8において自乗誤差が最小になったと判定されたときに、 音声合成フィルタ
2 0 6が出力する合成音データが、 生徒データとして、 タップ生成部 1 3 1と 1
3 2に供給される。 さらに、 自乗誤差最小判定部 2 0 8において自乗誤差が最小 になったと判定されたときに、 コード决定部 2 1 5が出力する Iコードも、 生徒 データとして、 タップ生成部 1 3 1と 1 3 2に供給される。
その後、 ステップ S 3 2に進み、 タップ生成部 1 3 1は、 音声合成フィルタ 2 0 6から生徒データとして供給される合成音のサブフレームを注目サブフレーム とし、 さらに、 その注目サブフレームの合成音データを、 順次、 注目データとし て、 各注目データについて、 音声合成フィルタ 2 0 6からの合成音データと、 コ 一ド決定部 2 1 5からの I コードとカゝら、 図 5のタップ生成部 1 2 1における場 合と同様にして、 予測タップを生成し、 正規方程式加算回路 1 3 4に供給する。 さらに、 ステップ S 3 2では、 タップ生成部 1 3 2が、 やはり、 合成音データと、 I コードとから、 図 5のタップ生成部 1 2 2における場合と同様にして、 クラス タップを生成し、 クラス分類部 1 3 3に供給する。
ステップ S 3 2の処理後は、 ステップ S 3 3に進み、 クラス分類部 1 3 3力 タップ生成部 1 3 2からのクラスタップに基づいて、 クラス分類を行い、 その結 果得られるクラスコードを、 正規方程式加算回路 1 3 4に供給する。
そして、 ステップ S 3 4に進み、 正規方程式加算回路 1 3 4は、 AZD変換器 2 0 2からの教師データとしての学習用の音声のうちの注目データに対応するも の、 およびタップ生成部 1 3 2からの生徒データとしての予測タップ (注目デー タについて生成された予測タップ) を対象として、 式 (1 3 ) の行列 Aとべタ ト ル Vの、 上述したような足し込みを、 クラス分類部 1 3 3からの注目データにつ いてのクラスコードごとに行い、 ステップ S 3 5に進む。 ステップ S 3 5では、 まだ、 注目サブフレームとして処理すべき次のサブフレ ームがあるかどうかが判定される。 ステップ S 3 5において、 まだ、 注目サブフ レームとして処理すべき次のサブフレームがあると判定された場合、 ステップ S 3 1に戻り、 次のサブフレームを新たに注目サブフレームとして、 以下、 同様の 処理が繰り返される。
また、 ステップ S 3 5において、 注目サブフレームとして処理すべきサブフレ ームがないと判定された場合、 ステップ S 3 6に進み、 タップ係数決定回路 1 3 5は、 正規方程式加算回路 1 3 4で各クラスごとに生成された正規方程式を解く ことにより、 各クラスごとに、 タップ係数を求め、 係数メモリ 1 3 6の、 各クラ スに対応するアドレスに供給して記憶させ、 処理を終了する。
以上のようにして、 係数メモリ 1 3 6に記憶された各クラスごとのタップ係数 1 図 5の係数メモリ 1 2 4に記憶されている。
以上のように、 図 5の係数メモリ 1 2 4に記憶されたタップ係数は、 線形予測 演算を行うことにより得られる高音質の音声の予測値の予測誤差 (自乗誤差) が、 統計的に最小になるように学習を行うことにより求められたものであるから、 図 5の予測部 1 2 5が出力する音声は、 高音質のものとなる。
なお、 例えば、 図 5および図 1 3の実施の形態では、 予測タップゃクラスタツ プに、 音声合成フィルタ 2 0 6が出力する合成音データの他、 符号化データに含 まれる (符号化データとなる) Iコードを含めるようにしたが、 予測タップゃク ラスタップには、 図 5および図 1 3において点線で示すように、 I コードに替え て、 あるいは I コードの他に、 Lコードや、 Gコード、 Aコード、 Aコードから 得られる線形予測係数 a p、 Gコードから得られるゲイン , γ、 その他の、 L コード、 Gコード、 I コード、 または Αコードから得られる情報 (例えば、 残差 信号 eや、 残差信号 eを得るための 1 , n、 さらには、 1 / J3, ιιノ γなど) の うちの 1以上を含めるようにすることが可能である。 また、 C E L P方式では、 符号化データとしてのコードデータに、 リス ト補間ビットゃフレームエネルギが 含められる場合があるが、 この場合、 予測タップやクラスタップは、 ソフ ト補間 ビッ トゃフレームエネルギを用いて構成することが可能である。
次に、 上述した一連の処理は、 ハードウェアにより行うこともできるし、 ソフ トウ アにより行うこともできる。 一連の処理をソフ トウエアによって行う場合 には、 そのソフ トウェアを構成するプログラムが、 汎用のコンピュータ等にイン ス トーノレされる。
そこで、 図 1 5は、 上述した一連の処理を実行するプログラムがインス トール されるコンピュータの一実施の形態の構成例を示している。
プログラムは、 コンピュータに内蔵されている記録媒体としてのハードデイス ク 3 0 5や R O M 3 0 3に予め記録しておくことができる。
あるレ、はまた、 プログラムは、 フロッピーディスク、 CD- ROM (Compact Disc Re ad Only Memory) , MO (Magneto optical)ディスク, DVD (Digital Versati le Dis c)、 磁気ディスク、 半導体メモリなどのリムーバブル記録媒体 3 1 1に、 一時的 あるいは永続的に格納 (記録) しておくことができる。 このようなリムーバブル 記録媒体 3 1 1は、 いわゆるパッケージソフトウェアとして提供することができ る。
なお、 プログラムは、 上述したようなリムーバブル記録媒体 3 1 1からコンビ ユータにインス トールする他、 ダウンロードサイ トから、 ディジタル衛星放送用 の人工衛星を介して、 コンピュータに無線で転送したり、 LAN (Local Area Netwo rk)、 インターネットといったネットワークを介して、 コンピュータに有線で転 送し、 コンピュータでは、 そのようにして転送されてくるプログラムを、 通信部 3 0 8で受信し、 内蔵するハードディスク 3 0 5にィンストールすることができ る。
コンピュータは、 CPU (Central Processing Uni t) 3 0 2を内蔵している。 CPU 3 0 2には、 バス 3 0 1を介して、 入出力ィンタフェース 3 1 0が接続されてお り、 CPU 3 0 2は、 入出力インタフェース 3 1 0を介して、 ユーザによって、 キ 一ボードや、 マウス、 マイク等で構成される入力部 3 0 7が操作等されることに より指令が入力されると、 それにしたがって、 R0M (Read Only Memory) 3 0 3に 格納されているプログラムを実行する。 あるいは、 また、 CPU 3 0 2は、 ハード ディスク 3 0 5に格納されているプログラム、 衛星若しくはネットワークから転 送され、 通信部 3 0 8で受信されてハードディスク 3 0 5にィンス トールされた プログラム、 またはドライブ 3 0 9に装着されたリムーバブル記録媒体 3 1 1か ら読み出されてハードディスク 3 0 5にインス トールされたプログラムを、 RAM (Random Access Memory) 3 0 4にロードして実行する。 これにより、 CPU 3 0 2 は、 上述したフローチャートにしたがった処理、 あるいは上述したブロック図の 構成により行われる処理を行う。 そして、 CPU 3 0 2は、 その処理結果を、 必要 に応じて、 例えば、 入出力インタフェース 3 1 0を介して、 LCD (Liquid CryStal Display)やスピーカ等で構成される出力部 3 0 6から出力、 あるいは、 通信部 3 0 8から送信、 さらには、 ハードディスク 3 0 5に記録等させる。
ここで、 本明細書において、 コンピュータに各種の処理を行わせるためのプロ グラムを記述する処理ステップは、 必ずしもフローチャートとして記載された順 序に沿って時系列に処理する必要はなく、 並列的あるいは個別に実行される処理 (例えば、 並列処理あるいはオブジェク トによる処理) も含むものである。
また、 プログラムは、 1のコンピュータにより処理されるものであっても良い し、 複数のコンピュータによって分散処理されるものであっても良い。 さらに、 プログラムは、 遠方のコンピュータに転送されて実行されるものであっても良い。 なお、 本実施の形態においては、 学習用の音声信号として、 どのようなものを 用いるかについては、 特に言及しなかったが、 学習用の音声信号としては、 人が 発話した音声の他、 例えば、 曲 (音楽) 等を採用することが可能である。 そして、 上述したような学習処理によれば、 学習用の音声信号として、 人の発話を用いた 場合には、 そのような人の発話の音声の音質を向上させるようなタップ係数が得 られ、 曲を用いた場合には、 曲の音質を向上させるようなタップ係数が得られる ことになる。
また、 図 5の実施の形態では、 係数メモリ 1 2 4には、 タップ係数をあらかじ め記憶させておくようにしたが、 係数メモリ 1 2 4に記憶させるタップ係数は、 携帯電話機 1 0 1において、 図 3の基地局 1 0 2 (あるいは交換局 1 0 3 ) や、 図示しない WWW (World Wide Web)サーバ等からダウンロードするようにするこ とができる。 即ち、 上述したように、 タップ係数は、 人の発話用や曲用等のよう に、 ある種類の音声信号に適したものを、 学習によって得ることができる。 さら に、 学習に用いる教師データおよび生徒データによっては、 合成音の音質に差が 生じるタップ係数を得ることができる。 従って、 そのような各種のタップ係数を、 基地局 1 0 2等に記憶させておき、 ユーザには、 自身の所望するタップ係数をダ ゥンロードさせるようにすることができる。 そして、 このようなタップ係数のダ ゥンロードサ一ビスは、 無料で行うこともできるし、 有料で行うこともできる。 さらに、 タップ係数のダウンロードサービスを有料で行う場合には、 タップ係数 のダウンロードに対する対価としての代金は、 例えば、 携帯電話機 1 0 1の通話 料等とともに請求するようにすることが可能である。
また、 係数メモリ 1 2 4は、 携帯電話機 1 0 1に対して着脱可能なメモリカー ド等で構成することができる。 この場合、 上述したような各種のタップ係数それ ぞれを記憶させた、 異なるメモリカードを提供するようにすれば、 ユーザは、 場 合に応じて、 所望のタップ係数が記憶されたメモリカードを、 携帯電話機 1 0 1 に装着して使用することが可能となる。
さらに、 本発明は、 例えば、 V S E L P (Vector Sum Excited Liner Predicti on) , P S I - C E L P (Pitch Synchronous Innovation CELP), C S - A C E L P (Conjugate Structure Algebraic CELP)等の C E L P方式による符号化の結果 得られるコードから合成音を生成する場合に、 広く適用可能である。
また、 本発明は、 C E L P方式による符号化の結果得られるコードから合成音 を復号する場合に限らず、 復号に用いられる情報 (復号情報) を、 所定の単位ご とに有する符号化データから、 元のデータを復号する場合に広く適用可能である c 即ち、 本発明は、 例えば、 画像を、 所定のブロック単位で DCT (Discrete Cosine Transform)係数とする JPEG (Joint Photographic Experts Group)方式により符 号された符号化データ等にも適用可能である。 さらに、 本実施の形態では、 タップ係数を用いた線形 1次予測演算によって、 残差信号や線形予測係数の予測値を求めるようにしたが、 この予測値は、 その他、 2次以上の高次の予測演算によって求めることも可能である。
なお、 例えば、 特開平 8 _ 2 0 2 3 9 9号公報には、 合成音を、 高域強調フィ ルタに通すことによって、 その音質を改善する方法が開示されているが、 本発明 は、 タップ係数が学習により得られる点や、 予測計算に用いられるタップ係数が、 クラス分類結果によって適応的に決まる点、 さらには、 予測タップ等が、 合成音 だけでなく、 符号化データに含まれる I コード等から生成される点等において、 特開平 8— 2 0 2 3 3 9号公報に記載の発明とは異なる。 産業上の利用可能性
本発明の第 1のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 符号化データを復号した復号データのうちの注目している 注目データと所定の位置関係にある復号データを抽出するとともに、 注目データ の、 所定の単位における位置に応じて、 所定の単位ごとの復号情報を抽出するこ とにより、 所定の処理に用いるタップが生成され、 そのタップを用いて、 所定の 処理が行われる。 従って、 例えば、 品質の良い復号データを得ることが可能とな る。
本発明の第 2のデータ処理装置およびデータ処理方法、 並びにプログラムおよ び記録媒体によれば、 教師となる教師データを、 所定の単位ごとの復号情報を有 する符号化データに符号化し、 その符号化データを復号することにより、 生徒と なる生徒データとしての復号データが生成される。 さらに、 生徒データとしての 復号データのうちの注目している注目データと所定の位置関係にある復号データ を抽出するとともに、 注目データの、 所定の単位における位置に応じて、 所定の 単位ごとの復号情報を抽出することにより、 教師データを予測するのに用いる予 測タップが生成される。 そして、 予測タップとタップ係数とを用いて、 所定の予 測演算を行うことにより得られる教師データの予測値の予測誤差が、 統計的に最 小になるように学習が行われ、 タップ係数が求められる。 従って、 符号化データ から、 品質の良い復号データを復号するためのタップ係数を得ることが可能とな る。

Claims

請求の範囲
1 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号化 データを処理するデータ処理装置であって、
前記符号化データを復号した復号データのうちの注目している注目データと所 定の位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前 記所定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出する ことにより、 所定の処理に用いるタップを生成するタップ生成手段と、
前記タップを用いて、 所定の処理を行う処理手段と
を備えることを特徴とするデータ処理装置。
2 . 学習を行うことにより求められたタップ係数を取得するタップ係数取得手 段をさらに備え、
前記タップ生成手段は、 前記タップ係数との所定の予測演算を行う予測タップ を生成し、
前記処理手段は、 前記予測タップとタップ係数とを用いて、 所定の予測演算を 行うことにより、 前記学習において教師として用いられた教師データに対応する 予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
3 . 前記処理手段は、 前記予測タップとタップ係数とを用いて、 線形 1次予測 演算を行うことにより、 前記予測値を求める
ことを特徴とする請求の範囲第 2項に記載のデータ処理装置。
4 . 前記タップ生成手段は、 前記注目データをクラス分けするクラス分類を行 うのに用いられるクラスタップを生成し、
前記処理手段は、 前記クラスタップに基づき、 前記注目データについて、 クラ ス分類を行う
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
5 . 前記処理手段は、 前記クラスタップを構成する復号情報に対して、 前記所 定の単位ごとに重みを付して、 クラス分類を行う ことを特徴とする請求の範囲第 4項に記載のデータ処理装置。
6 . 前記処理手段は、 前記注目データの、 前記所定の単位における位置に応じ て、 前記所定の単位ごとの復号情報に対して重みを付して、 クラス分類を行う ことを特徴とする請求の範囲第 5項に記載のデータ処理装置。
7 . 前記処理手段は、 前記所定の単位ごとの復号情報に対して、 前記クラス分 類により得られる全クラス数が一定になる重みを付して、 クラス分類を行う
ことを特徴とする請求の範囲第 5項に記載のデータ処理装置。
8 . 前記タップ生成手段は、 学習を行うことにより求められたタップ係数との 所定の予測演算を行う予測タップを生成するとともに、 前記注目データをクラス 分けするクラス分類を行うのに用いられるクラスタップを生成し、
前記処理手段は、 前記クラスタップに基づき、 前記注目データについて、 クラ ス分類を行い、 そのクラス分類の結果得られるクラスに対応する前記タップ係数 と、 前記予測タップとを用いて、 所定の予測演算を行うことにより、 前記学習に おいて教師として用いられた教師データに対応する予測値を求める
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
9 . 前記タップ生成手段は、 前記注目データに近い位置にある前記復号データ または前記所定の単位ごとの復号情報を抽出する
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
1 0 . 前記符号化データは、 音声を符号化したものである
ことを特徴とする請求の範囲第 1項に記載のデータ処理装置。
1 1 . 前記符号化データは、 音声を、 C E L P (Code Excited Liner Predicti on coding)方式によって符号化したものである
ことを特徴とする請求の範囲第 1 0項に記載のデータ処理装置。
1 2 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを処理するデータ処理方法であって、
前記符号化データを復号した復号データのうちの注目している注目データと所 定の位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前 記所定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出する ことにより、 所定の処理に用いるタップを生成するタップ生成ステップと、 前記タップを用いて、 所定の処理を行う処理ステップと
を備えることを特徴とするデータ処理方法。
1 3 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを、 コンピュータに処理させるプログラムであって、
前記符号化データを復号した復号データのうちの注目している注目データと所 定の位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前 記所定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出する ことにより、 所定の処理に用いるタップを生成するタップ生成ステップと、 前記タップを用いて、 所定の処理を行う処理ステップと
を備えることを特徴とするプログラム。
1 4 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを、 コンピュータに処理させるプログラムが記録されている記録媒体で あって、
前記符号化データを復号した復号データのうちの注目している注目データと所 定の位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前 記所定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出する ことにより、 所定の処理に用いるタップを生成するタップ生成ステップと、 前記タップを用いて、 所定の処理を行う処理ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
1 5 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを処理するのに用いる所定のタップ係数を学習するデータ処理装置であ つて、
教師となる教師データを、 前記所定の単位ごとの復号情報を有する符号化デー タに符号化し、 その符号化データを復号することにより、 生徒となる生徒データ としての復号データを生成する生徒データ生成手段と、
前記生徒データとしての復号データのうちの注目している注目データと所定の 位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前記所 定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出すること により、 教師データを予測するのに用いる予測タップを生成する予測タップ生成 手段と、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習手段と
を備えることを特徴とするデータ処理装置。
1 6 . 前記学習手段は、 前記予測タップとタップ係数とを用いて、 線形一次予 測演算を行うことにより得られる前記教師データの予測値の予測誤差が、 統計的 に最小になるように学習を行う
ことを特徴とする請求の範囲第 1 5項に記載のデータ処理装置。
1 7 . 前記注目データと所定の位置関係にある前記復号データを抽出するとと もに、 前記注目データの、 前記所定の単位における位置に応じて、 前記所定の単 位ごとの復号情報を抽出することにより、 前記注目データをクラス分けするクラ ス分類を行うのに用いられるクラスタップを生成するクラスタップ生成手段と、 前記クラスタップに基づき、 前記注目データについて、 クラス分類を行うクラ ス分類手段と
をさらに備え、
前記学習手段は、 前記クラス分類手段によるクラス分類の結果得られるクラス ごとに、 前記タップ係数を求める
ことを特徴とする請求の範囲第 1 5項に記載のデータ処理装置。
1 8 . 前記クラス分類手段は、 前記クラスタップを構成する復号情報に対して、 前記所定の単位ごとに重みを付して、 クラス分類を行う
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
1 9 . 前記クラス分類手段は、 前記注目データの、 前記所定の単位における位 置に応じて、 前記所定の単位ごとの復号情報に対して重みを付して、 クラス分類 を行う
ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。
2 0 . 前記クラス分類手段は、 前記所定の単位ごとの復号情報に対して、 前記 クラス分類により得られる全クラス数が一定になる重みを付して、 クラス分類を 行う
ことを特徴とする請求の範囲第 1 8項に記載のデータ処理装置。
2 1 . 前記予測タップ生成手段またはクラスタツプ生成手段は、 前記注目デー タに近い位置にある前記復号データまたは前記所定の単位ごとの復号情報を抽出 する
ことを特徴とする請求の範囲第 1 7項に記載のデータ処理装置。
2 2 . 前記教師データは、 音声データである
ことを特徴とする請求の範囲第 1 5項に記載のデータ処理装置。
2 3 . 生徒データ生成手段は、 前記教師データとしての音声データを、 C E L P (Code Excited Liner Prediction coding)方式によって符号ィ匕する
ことを特徴とする請求の範囲第 2 2項に記載のデータ処理装置。
2 4 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを処理するのに用いる所定のタップ係数を学習するデータ処理方法であ つて、
教師となる教師データを、 前記所定の単位ごとの復号情報を有する符号化デー タに符号化し、 その符号化データを復号することにより、 生徒となる生徒データ としての復号デ一タを生成する生徒データ生成ステツプと、
前記生徒データとしての復号データのうちの注目している注目データと所定の 位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前記所 定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出すること により、 教師データを予測するのに用いる予測タップを生成する予測タップ生成 ステップと、
前記予測タップとタツプ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするデータ処理方法。
2 5 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを処理するのに用いる所定のタップ係数を学習するデータ処理を、 コン ピュータに行わせるプログラムであって、
教師となる教師データを、 前記所定の単位ごとの復号情報を有する符号化デー タに符号化し、 その符号化データを復号することにより、 生徒となる生徒データ としての復号デ一タを生成する生徒データ生成ステップと、
前記生徒データとしての復号データのう'ちの注目している注目データと所定の 位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前記所 定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出すること により、 教師データを予測するのに用いる予測タップを生成する予測タップ生成 ステップと、
前記予測タップとタップ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えることを特徴とするプログラム。
2 6 . 復号に用いられる情報である復号情報を、 所定の単位ごとに有する符号 化データを処理するのに用いる所定のタップ係数を学習するデータ処理を、 コン ピュータに行わせるプログラムが記録されている記録媒体であって、
教師となる教師データを、 前記所定の単位ごとの復号情報を有する符号化デー タに符号化し、 その符号化データを復号することにより、 生徒となる生徒データ としての復号データを生成する生徒データ生成ステップと、
前記生徒データとしての復号データのうちの注目している注目データと所定の 位置関係にある前記復号データを抽出するとともに、 前記注目データの、 前記所 定の単位における位置に応じて、 前記所定の単位ごとの復号情報を抽出すること により、 教師データを予測するのに用いる予測タップを生成する予測タップ生成 ステップと、
前記予測タップとタツプ係数とを用いて、 所定の予測演算を行うことにより得 られる前記教師データの予測値の予測誤差が、 統計的に最小になるように学習を 行い、 前記タップ係数を求める学習ステップと
を備えるプログラムが記録されている
ことを特徴とする記録媒体。
PCT/JP2002/000489 2001-01-25 2002-01-24 Appareil de traitement de donnees WO2002059876A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020027012588A KR100875783B1 (ko) 2001-01-25 2002-01-24 데이터 처리 장치
US10/239,591 US7467083B2 (en) 2001-01-25 2002-01-24 Data processing apparatus
EP02710340A EP1282114A4 (en) 2001-01-25 2002-01-24 COMPUTING DEVICE

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001-16868 2001-01-25
JP2001016868A JP4857467B2 (ja) 2001-01-25 2001-01-25 データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体

Publications (1)

Publication Number Publication Date
WO2002059876A1 true WO2002059876A1 (fr) 2002-08-01

Family

ID=18883163

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/000489 WO2002059876A1 (fr) 2001-01-25 2002-01-24 Appareil de traitement de donnees

Country Status (6)

Country Link
US (1) US7467083B2 (ja)
EP (1) EP1282114A4 (ja)
JP (1) JP4857467B2 (ja)
KR (1) KR100875783B1 (ja)
CN (1) CN1215460C (ja)
WO (1) WO2002059876A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819623B1 (ko) * 2000-08-09 2008-04-04 소니 가부시끼 가이샤 음성 데이터의 처리 장치 및 처리 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604526B (zh) * 2009-07-07 2011-11-16 武汉大学 基于权重的音频关注度计算系统和方法
US8340612B2 (en) 2010-03-31 2012-12-25 Ubidyne, Inc. Active antenna array and method for calibration of the active antenna array
US8311166B2 (en) * 2010-03-31 2012-11-13 Ubidyne, Inc. Active antenna array and method for calibration of the active antenna array
US8441966B2 (en) 2010-03-31 2013-05-14 Ubidyne Inc. Active antenna array and method for calibration of receive paths in said array
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) * 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH04502675A (ja) * 1989-09-01 1992-05-14 モトローラ・インコーポレーテッド 改良されたロングターム予測器を有するデジタル音声コーダ
JPH04213000A (ja) * 1990-11-28 1992-08-04 Sharp Corp 信号再生装置
JPH04212999A (ja) * 1990-11-29 1992-08-04 Sharp Corp 信号符号化装置
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH113098A (ja) * 1997-06-12 1999-01-06 Toshiba Corp 音声符号化方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6111800A (ja) * 1984-06-27 1986-01-20 日本電気株式会社 残差励振型ボコ−ダ
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US5359696A (en) 1988-06-28 1994-10-25 Motorola Inc. Digital speech coder having improved sub-sample resolution long-term predictor
FR2734389B1 (fr) * 1995-05-17 1997-07-18 Proust Stephane Procede d'adaptation du niveau de masquage du bruit dans un codeur de parole a analyse par synthese utilisant un filtre de ponderation perceptuelle a court terme
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
JP3095133B2 (ja) * 1997-02-25 2000-10-03 日本電信電話株式会社 音響信号符号化方法
US6041297A (en) * 1997-03-10 2000-03-21 At&T Corp Vocoder for coding speech by using a correlation between spectral magnitudes and candidate excitations
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
EP1944759B1 (en) 2000-08-09 2010-10-20 Sony Corporation Voice data processing device and processing method
US7082220B2 (en) * 2001-01-25 2006-07-25 Sony Corporation Data processing apparatus
US7143032B2 (en) * 2001-08-17 2006-11-28 Broadcom Corporation Method and system for an overlap-add technique for predictive decoding based on extrapolation of speech and ringinig waveform

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63214032A (ja) * 1987-03-02 1988-09-06 Fujitsu Ltd 符号化伝送装置
JPH01205199A (ja) * 1988-02-12 1989-08-17 Nec Corp 音声符号化方式
JPH04502675A (ja) * 1989-09-01 1992-05-14 モトローラ・インコーポレーテッド 改良されたロングターム予測器を有するデジタル音声コーダ
JPH0430200A (ja) * 1990-05-28 1992-02-03 Nec Corp 音声復号化方法
JPH04213000A (ja) * 1990-11-28 1992-08-04 Sharp Corp 信号再生装置
JPH04212999A (ja) * 1990-11-29 1992-08-04 Sharp Corp 信号符号化装置
JPH0750586A (ja) * 1991-09-10 1995-02-21 At & T Corp 低遅延celp符号化方法
JPH06131000A (ja) * 1992-10-15 1994-05-13 Nec Corp 基本周期符号化装置
JPH06214600A (ja) * 1992-12-14 1994-08-05 American Teleph & Telegr Co <Att> 汎用合成による分析符号化の時間軸シフト方法とその装置
JPH113098A (ja) * 1997-06-12 1999-01-06 Toshiba Corp 音声符号化方法および装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1282114A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100819623B1 (ko) * 2000-08-09 2008-04-04 소니 가부시끼 가이샤 음성 데이터의 처리 장치 및 처리 방법

Also Published As

Publication number Publication date
US7467083B2 (en) 2008-12-16
JP4857467B2 (ja) 2012-01-18
CN1455918A (zh) 2003-11-12
EP1282114A4 (en) 2005-08-10
KR100875783B1 (ko) 2008-12-26
JP2002221999A (ja) 2002-08-09
US20030163307A1 (en) 2003-08-28
CN1215460C (zh) 2005-08-17
KR20020081586A (ko) 2002-10-28
EP1282114A1 (en) 2003-02-05

Similar Documents

Publication Publication Date Title
CN101925950A (zh) 音频编码器和解码器
US7912711B2 (en) Method and apparatus for speech data
WO2002043052A1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
WO2005066937A1 (ja) 信号復号化装置及び信号復号化方法
JP4857468B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
WO2002071394A1 (en) Sound encoding apparatus and method, and sound decoding apparatus and method
JP4857467B2 (ja) データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
KR100847179B1 (ko) 데이터 처리 장치, 방법 및 기록 매체
JPH09127985A (ja) 信号符号化方法及び装置
JP4736266B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びにプログラムおよび記録媒体
JPH09127987A (ja) 信号符号化方法及び装置
JP4517262B2 (ja) 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体
JP4287840B2 (ja) 符号化装置
US7283961B2 (en) High-quality speech synthesis device and method by classification and prediction processing of synthesized sound
JPH09127998A (ja) 信号量子化方法及び信号符号化装置
JP2002221998A (ja) 音響パラメータ符号化、復号化方法、装置及びプログラム、音声符号化、復号化方法、装置及びプログラム
JP2002062899A (ja) データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体
JPH09127986A (ja) 符号化信号の多重化方法及び信号符号化装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

WWE Wipo information: entry into national phase

Ref document number: 2002710340

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020027012588

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 028001710

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 1020027012588

Country of ref document: KR

WWP Wipo information: published in national office

Ref document number: 2002710340

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10239591

Country of ref document: US