WO1999028898A1

WO1999028898A1 - Systeme et procede de reconnaissance vocale

Info

Publication number: WO1999028898A1
Application number: PCT/JP1997/004324
Authority: WO
Inventors: Kazuyoshi Ishiwatari; Kazuo Kondo; Shinji Wakisaka
Original assignee: Hitachi, Ltd.
Priority date: 1997-11-27
Filing date: 1997-11-27
Publication date: 1999-06-10
Also published as: US6631349B1; JP3914709B2

Description

明細書音声認識方法およびシステム技術分野

本発明は、音素モデルおよび言語モデルを用いて、入力された音声を認識する音声認識方法およびそれを用いた音声認識システムに関する。

近年、携帯型音声翻訳機、個人デジタル支援装置（P D A) に代表される小型情報機器、あるいは力一ナピゲ一シヨンシステムその他の多くの装置あるいはシステムにおいて、音声認識機能あるいは音声認識装置が組み込まれつつある。従来の音声認識方法は、例えば国際電気通信基礎技術研究所編集の「自動翻訳電話」（オーム社、平成 6年発行、第 1 0頁から第 2 9頁）に解説されているように、主として、音素モデルと言語モデルを予め記憶し、入力された音声をこれらの記憶されたモデルに基づいて認識する。言語モデルは、異なる単語等の読みおよび文法上の制約を含み、各音素モデルは、複数の音声認識単位のそれそれのスペクトル特性等を含む。音声認識単位としては、音素あるいはそれより小さな音素片がよく使用される。以下では、音声認識単位として音素を用いる場合を例にして «の技術を説明する。各音素に対して記憶されたスぺクトル特性等もその音素の音素モデルと呼ぶことがある。

言語モデルにより許される複数の音素列が決定される。音声認識時にこれらの許される複数の音素列の一つにそれそれ対応する複数の音素モデル列が生成され、各音素モデル列と入力音声との照合が行われ、最もよく一致する音素モデル列が選択される。各音素モデル列と入力音声の照合においては、入力音声をフレームと呼ばれる区間に区分し、各フレームを一つの音素モデル列を構成する複数の音素モデルと順次照合され、その音素モデルと入力音声の類似度を表す評価値が計算される。この照合を異なる音素モデル列に対して繰り返される。この照合がさらに異なるフレームに対して繰り返される。各音素モデル列の各音素モデルと入力音声のあるフレームとの照合により得られた評価値は、次のフレームにおける照合にも使用される。

このように、従来の音声認識方法では、入力音声の全フレームを、全音素モデル列内の全音素モデルと照合するために処理時間が長くなる。さらに、各音素モデル列内の各音素モデルと入力音声のあるフレームとの照合により得られる評価値は、次のフレームでの照合のために記憶する必要がある。このために、音素モデル列の総数が多くなるほど必要なメモリ量が多くなる。

上記処理時間を低減するために、入力音声の各フレームに対する照合時に、照合すべき音素モデルを、最終的な認識結果の候補となる見込みのある一部の音素モデルのみに制限するビーム探索法と呼ばれる方法が知られている。具体的には、全音素モデル列に対してあるフレームで計算された評価値によりそれそれの音素モデルを次のフレームでの照合対象に残すかどうかが判定される。その判定方法として、評価値が高い音素モデルから順に一定数の音素モデルを残す第 1の方法、評価値の閾値を計算し、この閾値より高い評価値を有する音素モデルのみを残す第 2の方法あるいは両者の方法を併用する方法等が用いられる。発明の開示

従来のビーム探索法では、一部の音素モデルを選択するための処理に時間が掛かるという問題がある。すなわち、評価値が高い音素モデルから順に一定数の音素モデルを残す上記第 1の方法では、全音素モデルに対する評価値をソ一トしなければならない。一般にソート処理は時間が掛かる。さらに、閾値よりも高い評価値を有する音素モデルのみを残す上記第 2の方法でも、閾値を求める計算が必要になり、この計算に時間が掛かる。本発明の目的は、計算時間ある、は必要となるメモリ容量を低減できる音声認識方法およびそれを用いた音声認識システムを提供することである。

上記目的を達成するために、本発明による音声認識方法は、一つの部分音声 (たとえばフレーム）と音声候補を表す複数の音声認識単位（たとえば音素あるいは音素片）との照合にあたっては、これらの複数の音声認識単位の一部と上記部分音声とを照合する。このために、先行する部分音声との照合結果に応じて、次の部分音声と照合されるべき一部の音声認識単位を動的に選択する。この結果、照合が必要な一部の音声認識単位についてのみ照合を行えばよく、照合のための処理時間とメモリ領域を大幅に削減できる。

すなわち、本発明による音声認識方法は、

( a ) 複数の候補音声の一つを、認識すべき音声を区分して得られる順序づけられた複数の部分音声と順次照合し、

( b ) 上記ステップ（a ) を他の複数の候補音声に対して実行するステップを有し、

上記ステップ（a) は、

( a 1 ) 上記複数の部分音声の一つと上記複数の候補音声の一つを表す順序づけられた複数の音声認識単位の内の一部の複数の音声認識単位との間の類似度を表す複数の尤度を決定し、

( a 2 ) 上記ステップ（a l ) で決定された複数の尤度と、上記一部の音声認識単位の異なる組み合わせに対する複数の遷移確率とに基づいて、上記一部の音声認識単位と上記入力音声との類似度を表す複数の評価値を決定し、

( a 3 ) 上記決定された複数の評価値に基づいて、上記一つの部分音声の次の部分音声に対して使用されるべき新たな一部の音声認識単位を決定するステップを有し、

上 Bffたな一部の音声認識単位は、上記次の部分音声に対して上記ステップ ( a) を実行するときに使用される。図面の簡単な説明

図 1は、本発明による音声認識方法を使用する音声認識システムの概略プロヅク図である。

図 2は、図 1の装置に使用される音声認識プログラムの概略フローチャートでめる。

図 3は、図 2のフローチャート内の照合処理 ( 2 0 7 ) の概略フローチャートである。

図 4は、図 3のフローチャート内の評価値計算処理 ( 4 0 4 ) と照合開始位置更新処理（4 0 6 ) との概略フローチャートである。

図 5は、音声モデル列に対する評価値を算出する従来の手順を示す図である。図 6は、遷移確率を使用して評価値を算出する手順を説明する図である。

図 7は、音声モデル列に対する評価値を算出する本発明による手順を示す図である。発明を実施するための最良の形態

図 1において、 1 0 1は音声入力用マイク、 1 0 2は入力された音声に対するアンプおよび A/D変換器、 1 0 3が入力された音声を一時的に蓄積するための F I F O型のバッファである。 1 0 4は、認識候補音声を表す単語等の語彙と文法上の制限を記憶した辞書 ·文法ファイル、 1 0 5は複数の音声認識単位に対する音素モデルを記憶した音素モデルファイルであり、ファイル 1 0 4と 1 0 5は、いずれも半導体 R OMまたは C D— R OMなどの R OMにより構成される。本実施例では音素認識単位として音素を使用する。 1 0 7は音声認識プログラムを記憶したメモリであり、 R OMにより構成される。 1 0 8はプログラムがワーク用に用いるメモリであり、書き換え可能なランダムアクセスメモリ（RAM) により構成される。 1 0 9は表示装置（図示せず）へ認識結果デ一夕を転送しあるいは他の装置に認識結果デ一夕を通信路を介して伝送するためのいろいろの外部ィン夕一フェース回路の一つを例示する。 106は以上の回路あるいはメモリをバス 110あるいは図示しない信号線を介して制御するマイクロプロセッサ（CP U)である。図示された装置の内、マイク 101以外の部分は、単一の半導体チップ上に集積回路技術により構成されることが望ましい。

POWER— ON— RESETなどのコマンドにより C P Uを初期化すると、 CPUは、 ROM 107から音声認識プログラムを、 RAMI 08に転送する。これは RAMI 08の方が： ROM 107よりもアクセス速度が速いためである。このプログラムの転送完了後は、 CPUは転送されたプログラムを実行する。音声認識プログラムの処理の流れを図 2のフローチャートを用いて説明する。このプログラムが起動されると、まず音素モデルファイル 105を RAMI 08 に読み込む (201)。音素モデルファイル 105には、音声の認識単位として使用される複数の音素のそれぞれを分析して得られる特徴べクトルを保持する。この特徴べクトルは、後に説明する入力音声に対して生成されるものと同じものである。本実施の形態では、音声認識は、通常よく使用される隠れマルコフモデル（Hidden Marcov Model) (以下、 HMMモデルと呼ぶことがある）に基づいて行われる。このモデルに従う音声認識では、各音素に対する音素モデルは、さらに、その音素からその音素もしくは他の音素への遷移確率を有する。

その後、辞書 ·文法ファイル 104を RAM 108に読み込む（ 202 )。辞書 ·文法ファイル 104は、認識対象の単語等の語彙を含む。各単語等は、認識すべき単語を構成する複数の音声認識単位を表す文字列からなり、具体的には、認識すべき単語を構成する一連の音素を表す一連の口一マ字からなる。例えば、氏名「鈴木」は、 3つの音素の列「su zu ki」で表される。なお、このファイルはさらに文法上の制限も含むが、以下では、単語のみを用いた音声認識処理について説明し、文法上の制限を使用した音声認識の説明は省略する。次に、辞書 ·文法ファイル 104内の各単語を対応する音素モデル列に変換する（203)。この変換では、ステップ 202で読み込まれた各単語を構成する音素列のそれそれの音素が、ステップ 201で読み込まれたそれそれの音素に対する音素モデルで置換され、各単語を構成する音素列に対応する音素モデル列が得られる。

マイク 101から入力された音声は、アンプおよび A/D変換器 102により増幅され、さらにディジタル信号に変換される。得られたディジタル信号は、 F I FOバッファ 103を介してあらかじめ決められた時間単位でサンプリングされ、数ボイントのサンプリングされた音声情報がまとめて RAM 108に送られる（205)。このまとめられた数ポイントの音声情報はフレームと呼ばれる。 1フレームは、通常 15〜30ms程度の期間の音声情報である。次のフレームは、通常そうであるように、 1フレーム時間より短い時間（5〜20ms程度）だけシフトして入力音声から生成される。各フレームのスぺクトルが分析され、そのフレームの特徴をあらわす特徴ベクトル列が生成される（206)。この分析には、一般的に用いられている線形予測分析 (Linear Predict i ve Co r d ing— LPC) が使用され、特徴パラメ一夕としては、 LP Cケプストラムが生成される。しかし、本発明は他の音声分析も使用でき、特徴ベクトルとしても LPCデル夕ケプストラム、メルケプストラム、対数パワーなども用いることができる。

生成された特徴べクトル列と、ステップ 203により求められた各単語を構成する音素モデル列にしたがって、各単語を構成する音素のそれそれと入力されたフレームとが HMMモデルで定められる方法に従って照合される。すなわち、それそれの音素と入力フレームとの間の尤度が算出され、その尤度に基づいて、その単語に対応する音素列の一つの音素と入カフレームとの類似度を表す複数の評価値が計算される（207)。この計算の詳細は後に説明する。この照合は、辞書 ·文法ファイル 104に登録されたすベての単語に対して実行される。その後、ステップ 2 0 5から 2 0 7が後続のフレームに対して繰り返される。この繰り返しの中でステップ 2 0 4において、入力音声が終了したか否かが入力音声のパヮ一値に基づいて判定される。入力音声が終了した場合は、それまでの照合結果に基づいて最も高い評価値を有する音素を含む単語が選択され（2 0 8 ) 、図示しない表示装置またはデータ処理装置に外部インターフェース回路 1 0 9を介して転送される（2 0 9 ) 。上記照合処理 2 0 7では、それ自体公知の前向き計算ァルゴリズムに従って音声モデル列の各音素に対する評価値を算出する。本実施の形態では、この評価値を算出する対象の音素モデルを簡単な方法で制限するところに特徴がある。

以下では、前向き計算アルゴリズムを用いた、本実施の形態による評価値の計算方法を説明する前に、同じアルゴリズムを用いた従来の評価値の計算方法を説明する。

図 5は、前向き計算アルゴリズムを用いた、従来の各音素モデル列内の各音素モデルに対する評価値の計算方法を示すトレリス図である。 HMMモデルに基づく音声認識では、いずれかの単語に対応する音素モデル列を構成する複数の音素モデルの各々がーつの状態を表すと見なして処理される。図 5において、縦軸は一つの単語に対応する一つの音素モデル列を構成する 4つの音素モデルに対応する状態 1， 2，， 4を表す。これらの 4つの状態は、その音素モデル列を構成する音素モデルの順番と同じ順に順序付けられている。例えば、状態 1、、、 4 は、その音素モデル列に出現する第 1、、、第 4の音素モデルに対応する。横軸は順次入力されるフレームを表す。

図中の丸印は、一つのフレームと一つの状態との組み合わせに対応して設けられ、その中の数字は、そのフレームに対する、その状態に対応する音素モデルの評価値を表し、その丸印の右肩には、そのフレームとその音素モデルとの間の、後に説明する方法で計算される尤度が示されている。丸印の右向きの矢印に付カロされた数字は、その状態が次のフレームにおいて同じ状態に遷移する確率で、この遷移確率は入力フレームに依らないで予め決定されている。同様に、丸印の右下向きの矢印は、その状態が次のフレームにおいて次の状態に遷移する確率で、この遷移確率も入力フレームに依らないで予め決定されている。

フレーム 0に対する各状態の評価値は初期値として予め与えられる。 0フレームは、入力音声信号の先頭と考えられるため、演算対象の単語を構成する音素モデル列の先頭の音素モデル（状態 1 ) のみの評価値を" 0 " とし、他は" —∞" を初期値として与えておく。これは入力音声の最初のフレームはかならず先頭の音素モデルと一致するであろうと想定していることになる。フレーム 1以降のフレームにおける各状態の評価値は、そのフレームの一つ前のフレームに対して計算された、当該一つ前のフレームとその状態とに関する尤度と、その状態に関連して予め定められた遷移確率により以下のようにして決定される。

図 6において、ある単語を構成する音素モデル列内の二つの状態; jに対するあるフレーム nでの評価値がそれそれ A、 Bであると仮定する。これらの評価値は、このフレームに先行するフレームにおける照合により決まるか、あるいはこれらの状態に対する初期値として与えられる。フレーム nと各状態； U jとの間の尤度が計算される。尤度は、各状態が対応する音素モデルとフレーム nの間の類似度であり、具体的には、それ自体公知であるように、各状態が対応する音素モデルの特徴ぺクトルと、フレーム nを分析して得られる特徴べクトルとの間の距離で表される。この距離は実際にはユークリッド距離などである。ユークリヅド距離は、それ自体公知であるように、二つのベクトルの各次元の座標の差の 2乗の和により与えられる。またそれそれの次元に正規化が必要な場合はそれそれの次元があらかじめ決められた係数によって正規化された後に 2乗加算される。これらの係数には、特長べクトルとして前記した L P Cケプストラムが使用される場合、これの係数には、このケプストラムの係数が使用される。ここでは、状態 i、 jとフレーム nとの間の尤度は、それそれ N i , N jと仮定する。

次のフレーム n + 1に対する状態 iの評価値 Cは、この状態 iに先行する状態がない場合には、上記尤度 N iと、状態 iから状態 iへの遷移確率 P i iとの和で表される。フレーム i + 1に対する状態 jの評価値は、次の方法により計算される。今、フレーム nにおける状態 iからフレーム n+ 1における状態 jに遷移したと仮定したとき、フレーム n+ 1における状態 jの評価値 D iは、フレーム nにおける状態 iの評価値 A、フレーム nに対する状態 iの尤度 N i、状態 iから jへの遷移確率 P i jの和により与えられる。一方、フレーム nにおける状態 jからフレーム n+ 1における状 ¾i jに遷移したと仮定したとき、フレーム n + 1における状態 jの評価値 D jは、フレーム nにおける状態 jの評価値 B、フレーム nに対する状態 jの尤度 N j、状態 jから jへの遷移確率 P j jの和により与えられる。最終的には、フレーム n+ 1での状態 jに対する評価値は、以上の評価値 D iと D jの内の大きな方が使用される。なお、フレーム n + 1における状態: jに対する尤度も計算されるが、これらは、次のフレーム n + 2におけるこれらの状態の評価値を計算するのに使用される。

図 5には、フレーム 0から 5に対してこのようにして計算された評価値が示される。最終フレームまで行った場合に、各単語に対する複数の評価値の内の最大の評価値がその単語に対する評価値として使用される。図 5の例では 3 1 9がこの単語に対する評価値となる。なお、図 5では、各状態の遷移先としては、同じ状態あるいは次の状態という二つの状態のみを仮定したが、一般には、各状態はより多くの状態に遷移可能である。しかし、この場合にも同様にして遷移後の各状態の評価値が計算される。

このようにして得られたトレリス図に基づいて、各フレーム毎に最大の評価値を有する状態を選択し異なるフレームに対して選択された状態を連ねて得られるパスは、ビ夕ビ経路として知られている。例えば、図 5の場合、（フレーム 0、状態 1 ) 、（フレーム 1、状態 2 ) 、（フレーム 2、状態 2 ) 、（フレーム 3、状態 3 ) 、（フレーム 4、状態 3 ) 、（フレーム 5、状態 4 ) を連ねた経路がビ夕ビ経路である。各フレームでの最大の評価値を有する状態が、そのフレームに対する、処理中の単語内の最も類似した音素を表すことになる。したがって、ビ夕ビ経路により連結された状態列が、処理中の単語に関する、入力音声に類似する音素列を表すことになる。

以上の計算から分かるように、従来の評価値の計算方法では、計算対象の音素モデル列に対応するすべての状態の評価値をすベてのフレームに渡り計算する必要がある。従って、必要な演算回数は、次式で与えられ、単語数、フレーム数が増大すると計算回数が増大する。また、途中の評価値を記憶するためのメモリ量も同様に増大する。

演算回数 =フレーム数 X単語数

X各単語に対する音素モデル数の平均値

本実施の形態では、このような問題点を軽減するために、照合処理 2 0 7 (図 2 ) では、各単語に対応する音素モデル列を構成する全ての音素モデノレの一部に対してのみ評価値を算出するように、評価値を計算する対象の音素モデルを制限する。以下、この処理 2 0 7を説明する。

図 3に示すように、照合処理 2 0 7は、辞書 ·文法ファイル 1 0 4に登録された各単語について、その単語に対応する音素モデル列の内、照合対照として選ばれた一部の音素モデル群の各々と入力フレームとの間の評価値を算出する（4 0 4 ) 。各単語に対する音素モデル列の内、照合対象とする音素モデル群は、最初のフレームに対しては、その音素モデル列の先頭に位置する所定の複数（m+ 1 ) の音素モデルとする。処理 4 0 4での処理結果に基づいて、同じ単語に対する音素モデル列の内、次のフレームにおいて照合対象とする音素モデル群の先頭の音素モデルを決定する（4 0 6 ) 。その後、次の単語を照合対象として選んで ( 4 0 7 ) 、以上の処理 4 0 4、 4 0 6を繰り返す。この繰り返しは、辞書 '文法ファイル 1 0 4内の全ての単語がなくなるまで行われる（4 0 1 ) 。

より具体的には、図 4に示すように、処理 4 0 4では、処理中のフレームが最初のフレームか否かが判断され（8 0 1 ) 、もしそうであるならば、照合対象の単語に対応する音素モデル列の内、照合開始すべき音素モデルの位置 nとして、値 1が設定される。すなわち、この音素モデル列の先頭の音素モデルから照合を開始することが指定される。もし処理中のフレームが最初のフレームでない場合には、その最初のフレームに対して処理 4 0 6により決定された、照合開始位置 nの値が使用される。処理 8 0 3では、こうして決定された第 n音素モデルから第（n + m) 音素モデルのそれそれと入力フレームに対する評価値 P n ( I ) 〜 P n+m ( I ) を計算する。ここで、 Iはフレームの番号である。このときの計算は図 5に関連して説明した «の方法が使用される。また、これらの音素モデルの各々と入力フレームとの間の尤度も計算されるのも^と同じである。

その後、処理 4 0 6では、同じ単語に対する次のフレームでの照合開始位置が、これらの決定された評価値を使用して決定される。すなわち、照合した m+ 1個の音素モデル群の両端に位置する、第 n音素モデルと第（n+m) 音素モデルに対する評価値 P n ( I ) と P n+m ( I ) とを比較する（8 0 5 ) 。後者が前者より大きければ、次のフレームでの照合開始位置 nの値を 1だけ大きくする（ 8 0 6 ) 。判定 8 0 4が成立したときには、入力フレームはすでに第 n音素モデルよりも後続の音素モデルに類似するようになったと判断されるからである。この判定が成立しないときには、照合開始位置 nは変更されない。図 5に関して説明したように、ある単語に対する音素モデル列と入力音声との照合においては、ビ夕ビ経路を正しく判別でき、その経路上の各状態（音素モデル）に対する評価値が正しく計算できればよい。上記判定 8 0 5が成立したことは、処理中の単語に対するトレリス図上のビ夕ビ経路が、処理中のフレームにおいては、第 n音素モデルより後の音素モデルを通過するようになったことを意味すると考えることができる。したがって、後続のフレームにおいては、第 n音素モデルに関する評価値の計算を省略しても、処理中の単語に関する評価値の計算に誤りが出ないと期待される。

以上の処理が、後続の各フレームに対して繰り返される。但し、判定 8 0 5の前に、判定 8 0 4を実行し、新たに照合対象に変更できる他の状態があるか否かを判定する。具体的には、現在の照合対象の音素モデル群内の最後に位置する音素モデルの番号 ( n+m) が、処理中の単語に対する状態の総数に等しいか否かを判定する。すなわち、処理中の音素モデル列の最後に位置する第（n + m) 音素モデルが、処理中の単語に対する音素モデル列の最後の音素モデルであるか否かを判定する。もし、この判定が成立すると、上記処理 8 0 5、 8 0 6は実行しない。したがって、その後に入力されるフレームがあるときには、音素モデル列の最後に位置する（m+ 1 ) 個の音素モデルに対する評価値の算出を続けることになる。こうして、一つのフレームに対する一つの単語に対応する音素モデル列との照合が終了する。

例えば、図 7は、図 5に示した音素モデル列と同じ入力フレーム列 0 , 1 , , ，との間において、 m+ 1 = 2とした場合のトレリス図である。状態 1から 4の内、 m+ 1 = 2個の状態のみに対して以下の処理がなされる。

最初のフレーム 0に対しては、処理 8 0 1での判定が成立し、処理 8 0 2において、状態 1， 2に対する照合開始位置 nがともに 1に設定され、状態 1と 2が照合対象に選ばれる。しかし、処理 8 0 3では、これらの状態に対する評価値 P 1 ( 0 ) ~P 2 ( 0 ) の計算は行われないで、状態 2に対して予め定められた初期値 0および一∞がそのままそれらの状態の評価値として使用される。この処理 8 0 3では、フレーム 0に対する状態 1， 2の尤度が計算される。これらの尤度はここではそれそれ 3 0， 2 0と仮定している。現在の照合対象音素モデル群に対しては判定 8 0 4は成立しない。上記の二つの評価値に対しては判定 8 0 5は成立しないので、照合開始位置 nは変更されないで、フレーム 0に対するこの単語の照合が終了する。

次のフレーム 1に対して同じ単語が照合されるときには、判定 8 0 1は成立しない。処理 8 0 3では、第 1から第 2の音素モデルに対する評価値 P 1 ( 1 )〜 P 2 ( 1 ) が計算される。ここでは、これらの評価値はそれそれ 3 3 , 3 7となる。処理 8 0 3では、フレーム 1と状態 1， 2の各々との尤度も計算され、それらはそれそれ 1 0、 4 0となると仮定している。現在の照合対象音素モデル群に対しては判定 8 0 4は成立しない。上記二つの評価値に対しては判定 8 0 5が成立するために、処理 8 0 6により、照合開始位置 nは 2に更新される。

この時の状態 1と状態 2に対する評価値を比較すると、状態 2の評価値が大きい。つまり、入力フレームは状態 2により類似していると考えられる。もし、このとき実際に入力フレームが状態 2と一致するならば、状態 1の評価値はビ夕ビ探索では単語内の最終状態の確率値には影響しないと考えられる。よって、次のフレーム 2に対して照合を開始する状態を次の状態に進める。

次のフレーム 2に対して同じ単語が照合されるときには、判定 8 0 1は成立しない。照合開始位置 nが 2に更新されたので、処理 8 0 3では、第 2から第 3の音素モデルに対する評価値 P 2 ( 2 )〜P 3 ( 2 ) が計算される。ここでは、これらの評価値はそれそれ 8 5， 8 4となると仮定している。処理 8 0 3では、フレーム 2と状態 2， 3の各々との尤度も計算され、それらはそれそれ 5 0、 4 0 となると仮定している。現在の照合対象音素モデル群に対しては判定 8 0 4は成立しない。上記二つの評価値に対しては判定 8 0 5が成立しないために、処理 8 0 6が実行されず、照合開始位置 nは 2のままである。

次のフレーム 3に対して同じ単語が照合されるときには、判定 8 0 1は成立しない。照合開始位置 nが 2のままであるので、処理 8 0 3では、第 2から第 3の音素モデルに対する評価値 P 2 ( 3 )〜P 3 ( 3 ) が計算される。ここでは、これらの評価値はそれそれ 1 4 2， 1 4 3となると仮定している。処理 8 0 3では、フレーム 3と状態 2 , 3の各々との尤度も計算され、それらはそれそれ 1 0、 9 0となると仮定している。現在の照合対象音素モデル群に対しては判定 8 0 4は成立しない。上記二つの評価値に対しては判定 8 0 5が成立するために、処理 8 0 6が実行され、照合開始位置 nは 3に更新される。

次のフレーム 4に対して同じ単語が照合されるときには、判定 8 0 1は成立しない。照合開始位置 nが 3に更新されたので、処理 803では、第 3から第 4の音素モデルに対する評価値 P 3 (4) 〜P4 (4) が計算される。ここでは、これらの評価値はそれそれ 241, 240となると仮定している。処理 803では、フレーム 4と状態 2, 3の各々との尤度も計算され、それらはそれそれ 70、 3 0となると仮定している。現在の照合対象音素モデル群に対しては判定 804は成立しない。上記二つの評価値に対しては判定 805が成立しないために、処理 806は実行されず、照合開始位置 nは 3のままである。

次のフレーム 5に対して同じ単語が照合されるときには、判定 801は成立しない。照合開始位置 nは 3のままであるので、処理 803では、第 3から第 4の音素モデルに対する評価値 P 3 (5) 〜P4 (5) が計算される。ここでは、これらの評価値はそれそれ 318, 319になると仮定している。処理 803では、フレーム 5と状態 2, 3の各々との尤度も計算される。図では、それらの尤度は省略している。現在の照合対象音素モデル群に対しては判定 804が成立するために、処理 805、 806は実行されない。照合開始位置 nは 3のままである。さらに後続のフレームがある場合にもフレーム 5に対するのと同じ処理が実行される。

フレーム 5までの入力音声に対する、この処理中の単語に対する評価値は、以上で得られた評価値の最大値、今の場合には 319となる。この値は、図 5に示したように、 ^の計算方法により得られる値と同じである。しかし、以上の計算から明らかなように、本魏の形態では、各フレームに対しては、各単語に対する音素モデル列内の全モデル（あるいはその単語に対する全状態）の内、上記所定数 (m+1) の音素モデル（あるいは状態）についてのみ、評価値および尤度を計算する。したがって、各単語に対する音素モデルの総数（あるいは状態の総数）の平均値を例えば 10ないし 12とし、 m+1 =2とすると、本実施の形態での計算回数は、図 5に示した従来方法が必要とする計算回数の約 1/5ないし 1/6になる。同様に、途中の計算結果を保持するためのバッファの容量も、図 5を用いて説明した «方法に比べて 1 / 5ないし 1 / 6となる。さらに、従来のビーム探索方法に比べても、計算回数あるいは必要なメモリ容量の点で有利である。

変形例

本発明は、以上の実施の形態に限定されるものではなく、以下に例示するいくつかの変形例を含めて他のいろいろの形態でできる。

( 1 ) 照合対象の音素モデルを変更すべきか否かに関する上記判定 8 0 5 (図 4 ) に代えて、次の方法も採用できる。すなわち、第 nから第（n + ) 音素モデル群に対する評価値 P n ( I ) 〜P n+m ( I ) の内、最大の評価値を有する音素モデルを検出し、その音素モデルがそれらの音素モデル群の中央より末尾側に位置するか否かを判別する。すなわち、その最大の評価値を有する音素が、第 ( n + g) 番の音素モデルであるときには、 g >m/ 2が成立するか否かを判定する。もし、最大の評価値を有する音素モデルが、音素モデル群の末端側にあれば、処理 8 0 6 (図 4 ) を実行し。次のフレームに対する照合開始位置 nを 1だけ更新する。なお、 mが 1に等しいときには、この実施の形態での判定結果は、の形態 1での判定結果と一致する。従って、本実施の形態の結果が実施の形態 1と異なるためには、（m+ 1 ) は 2より大きいことが必要である。この変形例に記載した、照合対象の音素モデルを変更すベきか否かに関する判定方法は、先に実施の形態で述べた判定方法 8 0 5よりも正確に照合対象の先頭位置の切り替えの要否を判断できる。しかし、先に^の形態で述べた方法は計算が簡単でる。

( 2 ) 上記変形例 1において、照合開始位置 nを 1だけ更新するのではなく、最犬の評価値を持つ音素モデルを照合対象音素モデル群のほぼ中央にするように状態開始位置 nを更新することも可能である。この場合も、（m+ 1 ) は 1より大きいことが必要である。この方法は、実施の形態で述べた、照合対象の音素モデルを変更すべきか否かに関する判定方法あるいは上記変形例 1に判定方法よりもより正確に照合対象の切り替えの要否を判定することができる。

(3)実施の形態および変形例のいずれにおいても、音声認識単位として音素が使用された。すなわち、辞書 ·文法ファイル 106には、各単語を構成する音素列を表す文字列が記憶され、音素モデルファイル 105にはいろいろの音素の H MMモデルが記憶され、音声認識プログラムは、これらのファイルを使用して各単語に対応する音素モデル列を生成した。しかし、本発明は、音声認識単位として、音素より小さな単位である音素片を使用する音声認識システムにも適用できる。すなわち、音素モデルファイル 105には、音素より小さな単位である音素片に対するモデルを記憶する。例えば、音素「su」に代えて、音素片「ss」「su」が記憶され、音素「zu」に代えて音素片「zz」「zu」が記憶され、音素「ki」に代えて.音素片「kk」「ki」が記憶される。音声認識プログラムは、単語「su zu k i」に対応して音素片列「s s」「su」「zz」「zu」「kk」「ki」を生成する。この場合にも各音素片を実施の形態 1における一つの状態と見なして処理される。

以上から明らかなように、本発明によれば、同じ認識対象の音声に対する複数の音声認識単位と入力音声との照合に必要な計算時間を短くでき、また、計算に必要なメモリ容量も減らすことができる。

Claims

請求の範囲

1 . 認識すべき音声と複数の候補音声の各々とを照合して上記認識すべき音声を認識する音声認識方法であって、

( a) 複数の候補音声の一つを、認識すべき音声を区分して得られる順序づけられた複数の部分音声と順次照合し、

上記ステップ（a) は、

( a 2 ) 上記ステップ（a l ) で決定された複数の尤度と、上記一部の音声認識単位の異なる組み合わせに対する複数の遷移確率とに基づいて、上記一部の音声認識単位と上記入力音声との類似度を表す複数の評価値を決定し、 ( a 3 ) 上記決定された複数の評価値に基づいて、上記一つの部分音声の次の部分音声に対して使用されるべき新たな一部の音声認識単位を決定するステップを有し、

上言 Bffたな一部の音声認識単位は、上記次の部分音声に対して上記ステップ ( a) を実行するときに使用される音声認識方法。

2 . 上記ステップ（a 3 ) は、

上記決定された複数の評価値が予め定められた条件を満たす否かを判定し、上記決定された複数の評価値が上記条件を満たすときに、上記一部の音声認識単位の少なくとも一つを上記複数の音声認識単位の内の他の少なくとも一つの音声認識単位により置換し、

置換により得られた一部の音声認識単位を上記新たな一部の音声認識単位として決定し、上記判別された複数の評価値が上記条件を満たさないときに、上記一部の音声認識単位をそのまま上記新たな一部の音声認識単位として決定するステツプを有する請求項 1記載の音声認識方法。

. 上記置換するステップは、上記一部の音声認識単位の先頭に位置する少なくとも一つの音声認識単位を、上記一部の音声認識単位の後続の少なくとも一つの音声認識単位により置換するステップからなる請求項 2記載の音声認識方法。

. 上記条件は、上記一部の音声認識単位の内の先頭の音声認識単位に対してステツプ（a 2 ) で決定された評価値より、上記一部の音声認識単位の内の末尾の音声認識単位に対してステップ（a 2 ) で決定された評価値が大きいことである請求項 3記載の音声認識方法。

. 上記条件は、ステップ（a 2 ) で決定された上記複数の評価値の内の最大値を有する音声認識単位が、上記一部の音声認識単位の内の中間に位置する音声認識単位よりも末尾に位置する音声認識単位に近いことである請求項 3記載の音声認識方法。

. 上記複数の音声認識単位はそれそれ音素である請求項 1記載の音声認識方法。 . 上記複数の音声認識単位はそれそれ音素片である請求項 1記載の音声認識方 . 音声入力装置と、

複数の候補音声の各々を表す順序づけられた複数の音声認識単位を記憶する記憶装置と、

上記音声入力装置から入力された音声を上記複数の候補音声と照合するための装置とを有し、

上記装置は、

( a) 上記複数の候補音声の一つを、上記認識すべき音声を区分して得られる順序づけられた複数の部分音声と順次照合し、 ( b ) 上記ステップ（a) を他の複数の候補音声に対して実行し、

上記ステップ（a ) は、

( a l ) 上記複数の部分音声の一つと上記複数の候補音声の一つを表す順序づけられた複数の音声認識単位の内の一部の複数の音声認識単位との間の類似度を表す複数の尤度を決定し、

( a 3 ) 上記決定された複数の評価値に基づいて、上記一つの部分音声の次の部分音声に対して使用されるべき新たな一部の音声認識単位を決定するステヅプを実行し、

上記新たな一部の音声認識単位は、上記次の部分音声に対して上記ステツプ ( a) を実行するときに使用される音声認識システム。

9 . 上ステップ（a 3 ) は、

置換により得られた一部の音声認識単位を上言 3斤たな一部の音声認識単位として決定し、

上記判別された複数の評価値が上記条件を満たさないときに、上記一部の音声認識単位をそのまま上記新たな一部の音声認識単位として決定するステップを実行する請求項 8記載の音声認識システム。

1 0 . 上記置換するステップは、上記一部の音声認識単位の先頭に位置する少なくとも一つの音声認識単位を、上記一部の音声認識単位の後続の少なくとも一つの音声認識単位により置換するステップからなる請求項 9記載の音声認識システム。

11. 上記条件は、上記一部の音声認識単位の内の先頭の音声認識単位に対してステップ（a 2) で決定された評価値より、上記一部の音声認識単位の内の末尾の音声認識単位に対してステップ（a 2) で決定された評価値が大きいことである請求項 10記載の音声認識システム。

12. 上記条件は、上記判別された複数の評価値の内の最大値を有する音声認識単位が、上記一部の音声認識単位の内の中間に位置する音声認識単位よりも末尾に位置する音声認識単位に近いことである請求項 10記載の音声認識シスアム。

13. 上記複数の音声認識単位はそれそれ音素である請求項 8記載の音声認識システム。

14. 上記複数の音声認識単位はそれそれ音素片である請求項 8記載の音声認識システム。

15. 上記処理装置は、上記ステップを実行するようにプログラムされたプロセヅサである請求項 8記載の音声認識システム。