WO2010086928A1

WO2010086928A1 - 音声認識装置

Info

Publication number: WO2010086928A1
Application number: PCT/JP2009/005488
Authority: WO
Inventors: 鈴木忠; 石川泰; 丸田裕三
Original assignee: 三菱電機株式会社
Priority date: 2009-01-28
Filing date: 2009-10-20
Publication date: 2010-08-05
Also published as: US20110166859A1; DE112009004313T5; CN102239517A; JPWO2010086928A1; US8099290B2; DE112009004313B4; CN102239517B; JP4703787B2

Abstract

第１の言語切換手段ＳＷ１と第２の言語切換手段ＳＷ２により、音声ラベル列を作るために使う音声標準モデルメモリ１と、生成した音声ラベル列を保持する音声ラベルメモリ２の言語を自動的に切換えながら、入力されたユーザ発話音声の特徴ベクトル時系列と音声標準モデルのデータとにより、前記入力されたユーザ発話音声に対する音声ラベル列を各言語用に生成し、音声ラベルメモリ２に登録するように構成したので、ユーザが発声した登録音声に対応する音声ラベル列が、各言語用に生成され、ユーザ辞書として保持される。この結果、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識が可能になる。

Description

音声認識装置

　この発明は、音声認識装置に関するもので、特に、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識を可能とした音声認識装置に関するものである。

　近年の音声認識装置や音声認識システムにおいては、不特定話者を対象としたものがほとんどであり、予めユーザが認識させたい音声を登録しておく必要はなくなっている。つまり、音声を発声する代わりに、日本語ならばかなをキーボードなどから入力することで認識させたい音声を登録することができる。また、外国語の場合も認識させたい単語を入力することで、その単語の発音記号を自動的に生成して、認識対象語として登録ができるようになっている。

　しかし、音声認識を適用するアプリケーションによっては、ユーザが発話した音声を登録して認識対象語として使う場合がある（ここではユーザ辞書の生成と称する）。たとえば、ラジオの周波数に対応したラジオ局名を音声で登録したり、電話番号に対応した人名や場所名を音声で登録したりする場合である。

　また、カーナビや携帯端末など、複数の国をまたがって使用される機器に搭載される音声認識は、言語の切換機能が求められる。一般に音声認識では、言語ごとに音声データを収集し、そのデータを用いて構築した認識アルゴリズムや音声標準モデルを使って、ユーザが発話した音声の認識を行っているため、言語を切換えることは音声認識手段そのものや音声標準モデルを切換える必要がある。

　上記のユーザが発話した音声を登録して認識対象として使うアプリケーションでは、生成されたユーザ辞書が音声認識のアルゴリズムや音声標準モデルに依存するため、言語を切換えるために音声認識手段や音声標準モデルが切換られてしまうと、生成してあったユーザ辞書が使えなくなるため、ユーザは再度音声登録の作業をやり直す必要があった。

　そこで、従来、例えば、特許文献１には、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定する電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体が開示されている。また、特許文献２には、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定する携帯端末装置およびコンピュータプログラムが開示されている。

特開２００１－２８２７８８号公報特開２００２－２４７６４６号公報

　上記特許文献１に開示された電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体は、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定するため、ユーザが発話した音声から各言語に対応した辞書を作成することはできないという課題があった。

　また、特許文献２に開示された携帯端末装置及びコンピュータプログラムは、異なる言語圏に入ったとき、適切な辞書データをダウンロードすることを目的としており、ユーザが発話した音声から各言語に対応したユーザ辞書を作成することはできないという課題があった。

　この発明は上記のような課題を解消するためになされたもので、ユーザが発声した登録音声に対応する音声ラベル列を各言語用に生成して、ユーザ辞書として保存することにより、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識を可能とした音声認識装置を提供することを目的とする。

　この発明に係る音声認識装置は、認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、複数の言語に対応したユーザ辞書を保存する音声ラベルメモリと、音声標準モデルメモリの複数の言語を切換選択する第１の言語切換手段と、音声ラベルメモリの複数の言語を切換選択する第２の言語切換手段と、第１の言語切換手段と第２の言語切換手段を連動して切換える制御手段と、入力されたユーザ発話音声に対し音響分析処理を施し、ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、音響分析手段からの特徴ベクトル時系列と第１の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベル列を生成し、この音声ラベル列を第１の言語切換手段と連動して第２の言語切換手段で切換えられる音声ラベルメモリの言語に登録する音声認識手段とを備えたものである。

　この発明の音声認識装置は、連動する第１の言語切換手段と第２の言語切換手段とで、認識対象とする複数の言語を格納した音声標準モデルメモリと複数の言語を保存する音声ラベルメモリの言語を切換えながら、入力されたユーザ発話音声の特徴ベクトル時系列と第１の言語切換手段で切換え選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより、前記入力されたユーザ発話音声に対する音声ラベル列を各言語用に生成し、この音声ラベル列を第２の言語切換手段で切換え選択された音声ラベルメモリの言語に登録するように構成したので、ユーザ発話音声に対応する音声ラベル列が、各言語用に生成され、ユーザ辞書として保持することが可能である。この結果、このユーザ辞書を用いることにより、音声認識で使う言語を切換えても、ユーザが発話音声を使った音声認識が可能になる効果がある。

実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。実施の形態１における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態２における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。実施の形態１における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３において言語ｎで最初のユーザ辞書生成を行う場合の動作を用いて、ユーザ辞書生成時の処理を説明するフローチャートである。実施の形態３におけて音声ラベルメモリ上に言語ｎに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作を説明するフローチャートである。実施の形態４による音声認識装置の構成を示すブロック図である。実施の形態４においてユーザの登録用音声を用いて言語ｎに対応するユーザ辞書生成時の処理を説明するフローチャートである。実施の形態４における音声ラベルメモリ上に言語ｎに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明するフローチャートである。

　以下、この発明の実施の形態を図面を参照しながら詳細に説明する。
実施の形態１．
　図１は、実施の形態１による音声認識装置の構成を示すブロック図であり、音声標準モデルメモリ１、音声ラベルメモリ２、音声信号入力端３に接続された音響分析手段４、音声認識手段５、制御手段６、言語切換手段ＳＷ１～ＳＷ３、認識／登録切換手段ＳＷ４を備えている。

　音声標準モデルメモリ１は、認識対象とする複数の言語（言語１～言語Ｎ）に対応した音声標準モデルを格納している。

　音声ラベルメモリ２は、複数の言語（言語１～言語Ｎ）に対応したユーザ辞書を保存するためのメモリで、ユーザ辞書は複数の言語（言語１～言語Ｎ）に対応して音声ラベルメモリ上に保持される。

　音響分析手段４は、音声信号入力端３から入力されたユーザ発話音声に対し音響分析処理を行い、入力されたユーザ発話音声のパワースペクトルもしくはそれに類するような特徴量の時系列を、特徴ベクトル時系列として出力する。

　音声認識手段５は、ユーザ辞書生成を行うときは、音響分析手段４が出力した特徴ベクトル時系列を入力として、言語切換手段ＳＷ１によって選択された音声標準モデルメモリ１のデータを用いて、特徴ベクトル時系列に対応する音声ラベル列を求め、言語切換手段ＳＷ２によって切換え選択されたユーザ辞書保存先である言語１～言語Ｎに音声ラベル列をユーザ辞書として格納する。

　また音声認識手段５は、音声認識処理を行うときは、音響分析手段４が出力した特徴ベクトル時系列を入力として、言語切換手段ＳＷ１によって選択された音声標準モデルメモリ１のデータと、言語切換手段ＳＷ３によって選択された言語に対応するユーザ辞書とを用いて、上記特徴ベクトル時系列に対する音声認識処理を実行し、その認識結果を認識/登録切換手段ＳＷ４を通じて出力する。

　制御手段６は、外部から入力される認識切換指示に基づいて、認識/登録切換手段ＳＷ４を認識側に切換制御するとともに、登録、つまり、ユーザ辞書生成を行うときは、音響分析手段４からの特徴ベクトル時系列が途切れたことによる音声認識手段５からの切換要求信号を受けることにより、言語切換手段ＳＷ２を切換える。このとき、言語切換手段ＳＷ２と連動関係にある言語切換手段ＳＷ１も切り替わる。

　一方、音声認識処理を行うときは、外部から入力される登録切換指示に基づいて、認識/登録切換手段ＳＷ４を登録側に切換制御するとともに、外部から入力された言語を選択するように言語切換手段ＳＷ２を切換える。このとき、言語切換手段ＳＷ２と連動関係にある言語切換手段ＳＷ１も切り替わる。

　言語切換手段ＳＷ１は、音声標準モデルメモリ１に格納されている複数の言語（言語１～言語Ｎ）の音声標準モデルに対し、そのうちのどれかひとつの言語に対応する音声標準モデルのデータを選択的に出力する。

　言語切換手段ＳＷ２は、ユーザ辞書生成時において、言語切換手段ＳＷ１と連動して、音声ラベルメモリ内におけるユーザ辞書の保存先である言語１～言語Ｎを切換える。

　言語切換手段ＳＷ３は、音声認識を行うときに、言語切換手段ＳＷ１と連動して、音声ラベルメモリ内におけるユーザ辞書の読み出し先である言語１～言語Ｎを切換える。

　認識/登録切換手段ＳＷ４は、外部からユーザ辞書生成の指示があったときは、言語切換手段ＳＷ２と接続する側に切換え、音声認識の指示が有ったときは、出力端子側に切換えられる。

　次に動作について説明する。図２は実施の形態１における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。ユーザ辞書を生成するときは、制御手段６は外部から入力されたユーザ辞書生成指示に基づいて、認識/登録切換手段ＳＷ４を言語切換手段ＳＷ２と接続する登録側に切換える（ステップＳＴ１）。これにより、音声認識手段５が出力する音声ラベル列の出力先は音声ラベルメモリ２に設定される。

　次にユーザが発話した登録用音声を音声信号入力端３から入力する（ステップＳＴ２）。入力された音声信号を音響分析手段４において音響分析し、特徴ベクトル時系列を出力する（ステップＳＴ３）。次いで変数ｎに初期値１を代入する（ステップＳＴ４）。そして、言語切換手段ＳＷ１と言語切換手段ＳＷ２をｎに連動して切換える。これにより、音声標準モデルメモリ１上の変数ｎが表す言語に対応する音声標準モデルが設定され、また同時に、音声ラベルメモリ２上において変数ｎが表す言語に対応するユーザ辞書の保存先が設定される（ステップＳＴ５）。

　音声認識手段５は音響分析手段４から特徴ベクトル時系列を入力として、音声標準モデルメモリ１上において、変数ｎが表す言語に対応する音声標準モデルメモリ１のデータを用いて、音声ラベル列を生成する（ステップＳＴ６）。次いで、音声認識手段５が生成した前記音声ラベル列は、認識/登録切換手段ＳＷ４と言語切換手段ＳＷ２を介して、音声ラベルメモリ２上において、変数ｎが表す言語に対応するユーザ辞書保存先に登録される（ステップＳＴ７）。

　変数ｎが言語数Ｎと一致するか判定し（ステップＳＴ８）、もし一致しなければ、ｎにｎ＋１を代入してステップＳＴ５へ戻る（ステップＳＴ９）。若し、変数ｎが言語数Ｎと一致していたときは、ステップＳＴ１０へ処理を移す。ステップＳＴ１０では、次の登録用音声入力があるかどうかを判定し、若し、ユーザが次の登録用音声を発話した場合は、ステップＳＴ２へ戻る。発話がない場合は、ユーザ辞書生成時の処理終了となる。

　以上のような処理を行うことにより、ユーザが登録させようとして発話した登録用音声は、自動的に言語１～言語Ｎに対応した音声標準モデルメモリ１のデータを用いて、同じく言語1～言語Ｎに対応したユーザ辞書として、音声ラベルメモリ２に登録されることになる。

　図３は実施の形態１における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。まず、制御手段６は外部から入力された音声認識指示に基づいて、言語切換手段ＳＷ1と言語切換手段ＳＷ３を連動させて所定の言語が認識可能となるように切換える（ステップＳＴ１１）。上記の例で示せば、言語１～言語Ｎのいずれかの言語を選択する。次いで、認識/登録切換手段ＳＷ４を認識結果を出力する側に切換える（ステップＳＴ１２）。

　そして、ユーザが発話した音声を、未知入力音声として音声信号入力端３から入力する（ステップＳＴ１３）。入力された未知入力音声を音響分析手段４において音響分析し、特徴ベクトル時系列を出力する（ステップＳＴ１４）。音声認識手段５は、ステップＳＴ１４で得られた特徴ベクトル時系列を入力とし、この特徴ベクトル時系列に基づいてステップＳＴ１１で設定された言語に対応する音声標準モデルメモリ１のデータと音声ラベルメモリ２に登録されたユーザ辞書を用いて認識処理を行い（ステップＳＴ１５）、認識結果を認識/登録切換手段ＳＷ４を介して出力し、音声認識処理を終了する。

　以上の動作により、言語１～言語Ｎのいずれかの言語に設定された状態においても、ユーザが発話した登録用音声になるユーザ辞書を用いた音声認識が可能になる。

　このように、実施の形態１の音声認識装置によれば、第１の言語切換手段と第２の言語切換手段により、音声ラベル列を作るために使う音声標準モデルメモリの言語と、生成した音声ラベル列を保持する音声ラベルメモリの言語を自動的に切換ながら、入力された音声に対する音声ラベル列を生成・保持していく処理を行うことにより、ユーザが発声した登録音声に対応する音声ラベル列が各言語用に生成され、ユーザ辞書として保持される。この結果、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識が可能になる。

実施の形態２．
　図４は実施の形態２による音声認識装置の構成を示すブロック図であり、実施の形態１を示す図１の構成に言語選択手段７を付加したもので、他の構成は図１に示す実施の形態１の構成と同じであるから、重複説明は省略する。

　言語選択手段７は、ユーザが入力した言語指定データに基づき、言語を選択して制御手段６に与える。制御手段６は与えられた言語に基づいて、連動して言語切換手段ＳＷ１と言語切換手段ＳＷ２を、または連動して言語切換手段ＳＷ１と言語切換手段ＳＷ３を切換制御する。

　次に動作について説明する。図５は実施の形態２におけるユーザ辞書生成時の処理を説明するフローチャートである。ステップＳＴ２１～ステップＳＴ２４までの動作は実施の形態１におけるステップＳＴ１～ステップＳＴ４の動作と同じであるから、重複説明は省略する。
　次いで、言語指定データＦＩｇ（ｍ）（ｍ＝１・・・Ｎについて定義されており、０もしくは１の値をとる）を用いて、言語選択手段７はＦＩｇ（ｎ）＝１であるか否かを判定し（ステップＳＴ２５）、ＦＩｇ（ｎ）＝１であればステップＳＴ２６へ、ＦＩｇ（ｎ）＝０であればステップＳＴ２９の処理へ移行する。以下、ステップＳＴ２６～ステップＳＴ３１までの動作は実施の形態１におけるステップＳＴ５～ステップＳＴ１０の動作と同じであるから、重複説明は省略する。

　以上のような構成と処理を行うことにより、ユーザが登録させようとして発話した登録用音声は、言語指定データＦＩｇ(ｍ)（ｍ＝１・・・Ｎ）においてＦＩｇ(ｎ)＝１を満たす言語ｎについて、自動的にその言語ｎに対応した音声標準モデルメモリ１を用いて、同じく該言語ｎに対応したユーザ辞書として、音声ラベルメモリ２に登録されることになる。これにより、ユーザが使う言語ｎについてだけＦＩｇ(ｎ)＝１とすることで、Ｎ個の全ての言語についてのユーザ辞書を生成することが回避でき、ユーザ辞書生成のための時間を短縮することができる。またユーザ辞書を保存する音声ラベルメモリ２の容量を節約することもできる。

　次に、図６は前記のように生成されたユーザ辞書を用いて、音声認識を行うときの動作を説明するフローチャートである。言語選択手段７は、言語指定データにおいてＦＩｇ(ｎ)＝1を満たす言語ｎで認識可能になるように制御手段６に指示する。制御手段６は指示に基づいて、連動して言語切換手段ＳＷ１と言語切換手段ＳＷ３を所定の言語に切換設定する（ステップＳＴ４１）。また、認識/登録切換手段ＳＷ４を認識側に切換える（ステップＳＴ４２）。以下、ステップＳＴ４３～ステップ４５までの動作は実施の形態１におけるステップＳＴ１３～ステップ１５の動作と同じであるから、重複説明は省略する。

　以上の動作により、言語指定データにより、指定可能すなわちＦＩｇ（ｎ）＝１と設定された言語ｎのいずれにおいても、ユーザが発話した登録用音声になるユーザ辞書を用いた音声認識が可能になる。

　このように、実施の形態２によれば、外部から与えられる言語指定データに基づいて、連動関係にある言語切換手段ＳＷ１と言語切換手段ＳＷ２を切換えるように構成したことにより、ユーザもしくはシステムから与えられる言語指定データに従った言語についてのみ選択的に、ユーザ辞書を生成することが可能になり、辞書生成にかかる時間を短縮することができる。また音声ラベルメモリ２の使用量を減らすことが可能になる。

実施の形態３.
　図７はこの発明の実施の形態３の構成を示すブロック図であり、音声ラベルメモリ２ａは、ある言語ｎ（ｎ＝１～Ｎ）に対応したユーザ辞書を１言語分だけ保存するためのメモリである。音声データメモリ８は、音声信号入力端３から入力されるところの登録用音声を記録保存しておくメモリである。他の音声標準モデルメモリ１、音声信号入力端３、音響分析手段４、音声認識手段５、制御手段６、言語切換手段ＳＷ１、認識/登録切換手段ＳＷ４は図１に示す実施の形態１の構成と同じであるから、重複説明は省略する。

　次に動作について説明する。図８は実施の形態３において言語ｎで最初のユーザ辞書生成を行う場合の動作を用いて、ユーザ辞書生成時の処理を説明するフローチャートである。
まず、制御手段６は外部から入力されたユーザ辞書生成を行う言語ｎに基づいて、言語ｎを選択する位置に言語切換手段ＳＷ１を設定する（ステップＳＴ５１）。次に、認識/登録切換手段ＳＷ４を登録に切換える（ステップＳＴ５２）。これにより、音声認識手段５が出力する音声ラベル列の出力先が音声ラベルメモリ２ａに設定される。

　そして、ユーザが発話した登録用音声を音声信号入力端３から入力する（ステップＳＴ５３）。入力された登録用音声を音声データメモリ８に保存する（ステップＳＴ５４）。また、その入力された登録用音声信号を音響分析手段４において音響分析し、特徴ベクトル時系列を音声認識手段５に出力する（ステップＳＴ５５）。

　音声認識手段５は上記特徴ベクトル時系列を入力して、音声標準モデルメモリ１上において、変数ｎが表す言語に対応する音声標準モデルのデータを用いて、音声ラベル列を求める（ステップＳＴ５６）。音声認識手段５が生成した前記音声ラベル列は、認識/登録切換手段ＳＷ４を介して、音声ラベルメモリ２ａ上にユーザ辞書として登録される（ステップＳＴ５７）。そして、次の登録用音声があるかどうかを判定し（ステップＳＴ５８）、若し、ユーザが次の登録用音声を発話する場合は、ステップＳＴ５３へ戻り、上記ステップＳＴ５３～ステップＳＴ５７の動作を繰りかえす。発話がない場合は、ユーザ辞書生成処理が終了となる。

　以上が、言語ｎで最初の音声登録を行った場合の処理である。これら一連の処理により、ユーザが発話した登録用音声は、音声データそのものが音声データメモリ８に保存されると共に、音声ラベルメモリ２ａ上に言語ｎに対応するユーザ辞書が登録される。

　図９は前記のように、ユーザが発話した登録用音声について、音声データそのものが音声データメモリ８に保存され、かつ音声ラベルメモリ２ａ上に言語ｎに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作を説明するフローチャートである。
　まず、制御手段６は外部から入力された音声認識指示に基づいて、言語切換手段ＳＷ1を切換えて認識対象言語を変更するかを判断する（ステップＳＴ６１）。変更しない、つまり、言語切換手段ＳＷ１が言語ｎのままの場合、ステップＳＴ６２の処理に移る。ステップＳＴ６２では、認識/登録切換手段ＳＷ４を認識に切換える。次いで、ユーザが発話した音声を、未知入力音声として音声信号入力端３から入力する（ステップＳＴ６３）。入力された未知入力音声を音響分析手段４において音響分析し、特徴ベクトル時系列を音声認識手段５に出力する（ステップＳＴ６４）。音声認識手段５は、ステップＳＴ６４で得られた特徴ベクトル時系列を入力し、言語ｎに対応する音声標準モデルメモリ１のデータと音声ラベルメモリ２ａ上のユーザ辞書を用いて認識処理を行い（ステップＳＴ６５）、認識結果を認識/登録切換手段ＳＷ４を介して出力し、音声認識処理を終了する。

　一方、ステップＳＴ６１において、言語切換手段ＳＷ１を言語ｎ以外に設定した場合の処理を説明する。この場合、処理はステップＳＴ６６へ移行し、言語切換手段ＳＷ１を言語ｎ以外の言語ｎ’に設定する。そして、認識/登録切換手段ＳＷ４を登録に切換える（ステップＳＴ６７）。

　音響分析手段４は音声ラベルメモリ２ａに保存されていた音声データを読み出す（ステップＳＴ６８）。そして、音響分析手段４は読み出した音声データに対する特徴ベクトル時系列をもとめて音声認識手段５に出力する（ステップＳＴ６９）。音声認識手段５はステップＳＴ６９で得られた特徴ベクトル時系列を入力として、ステップＳＴ６６で設定された言語ｎ’に対応する音声標準モデルメモリ１上の音声標準モデルのデータを用いて、音声ラベル列を生成する（ステップＳＴ７０）。

　そして、生成された音声ラベル列を音声ラベルメモリ２ａ上にユーザ辞書として登録する（ステップＳＴ７１）。次いで、ステップＳＴ６９からステップＳＴ７１の処理を施していない音声データが残っているか否かをチエックし（ステップＳＴ７２）、若し、残っているならばステップＳＴ６８へ戻り、残りの音声データについてステップＳＴ６９～ステップＳＴ７１の処理を繰り返す。もし音声データが残っていなければ、ステップＳＴ６２へ処理を移す。ステップＳＴ６２以降の処理は、言語切換手段ＳＷ１を言語ｎのままで切換えなかった前述の処理と同じであるので、重複説明を省略する。

　以上の動作により、言語ｎ’に切換えた場合は、即座に音声データメモリ８上に記録してある音声データを使って言語ｎ’に対応したユーザ辞書が生成され、音声ラベルメモリ２ａ上に保存されるため、言語ｎ’に設定された場合も、ユーザ辞書を使った音声認識が可能になる。また、このような実施の形態３では、音声ラベルメモリ２ａは1言語分だけ確保しておけばいいので、メモリの軽減が実現できる。

　これにより、実施の形態３によれば、ユーザが発話した登録音声を保持し、音響分析手段４が前記登録音声を使って音響分析する音声データメモリ８を備えたことにより、言語ごとに音声ラベルメモリ２ａを確保しておく必要がなくなり、音声認識システムが使う言語が切換えられたときにも、音声データメモリ８に記録してあるユーザが発声した登録音声を使って、選択した言語に対応するユーザ辞書が作成され、これを用いた音声認識が可能になる。
実施の形態４.

　図１０はこの発明の実施の形態４の構成を示すブロック図であり、実施の形態３における音声データメモリ８の代わりに、ユーザが発話した登録用音声に対して音響分析手段４が出力するところの特徴ベクトル時系列を記録保存しておく音響データメモリ９を備えたものである。他の構成は実施の形態３の構成と同じであるから、重複説明を省略する。

　次に、ユーザが発話した登録用音声について、その音声に対応する特徴ベクトル時系列を音響データメモリ９に保存され、かつ、音声ラベルメモリ２ａ上に言語ｎに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明する。
　図１１は実施の形態４において（言語ｎで最初のユーザ辞書生成を行う場合）を用いて、ユーザの登録用音声を用いて言語ｎに対応するユーザ辞書生成時の処理を説明するフローチャートである。まず、言語切換手段ＳＷ１をユーザ辞書生成を行う言語ｎに設定する（ステップＳＴ８１）。

　次に、認識/登録切換手段ＳＷ４を登録に切換える（ステップＳＴ８２）。これにより、音声認識手段５が出力する音声ラベル列の出力先が、音声ラベルメモリ２ａに設定される。ユーザが発話した登録用音声を音声信号入力端３から入力する（ステップＳＴ８３）。音響分析手段４は、入力された登録用音声信号の音響分析を行い、特徴ベクトル時系列を出力する（ステップＳＴ８４）。

　ステップＳＴ８４で得られた特徴ベクトル時系列は、音響データメモリ９上に記録保存する（ステップＳＴ８５）。音声認識手段５は上記特徴ベクトル時系列を入力として、音声標準モデルメモリ１上において、変数ｎが表す言語に対応する音声標準モデルのデータを用いて、音声ラベル列を生成する（ステップＳＴ８６）。

　音声認識手段５が生成した前記音声ラベル列は、認識/登録切換手段ＳＷ４を介して、音声ラベルメモリ２ａ上にユーザ辞書として登録する（ステップＳＴ８７）。そして、次の登録用音声があるかどうかを判定し、若し、ユーザが次の登録用音声を発話する場合は、ステップＳＴ８３へ戻り、ステップＳＴ８３～ステップＳＴ８８の処理を繰りかえす。発話がない場合は、ユーザ辞書生成処理を終了する（ステップＳＴ８８）。

　以上が、言語ｎで最初の音声登録を行った場合の処理である。これら一連の処理により、ユーザが発話した登録用音声の特徴ベクトル時系列が音響データメモリ９に保存されると共に、音声ラベルメモリ２ａ上に言語ｎに対応するユーザ辞書が登録される。

　図１２は前記のように、ユーザが発話した登録用音声について、その音声に対応する特徴ベクトル時系列が音響データメモリ９に保存され、かつ音声ラベルメモリ２ａ上に言語ｎに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明するフローチャートである。

　まず、制御手段６は外部から入力された音声認識指示に基づいて、言語切換手段ＳＷ１を切換えて認識対象言語を変更するかを判断し（ステップＳＴ９１）、言語切換ＳＷ１が言語ｎのままの場合、ステップＳＴ９２の処理に移る。このステップＳＴ９２では、認識/登録切換手段ＳＷ４を認識に切換える。次いでステップＳＴ９３で、ユーザが発話した音声を、未知入力音声として音声信号入力端３から入力する。入力された未知入力音声を音響分析手段４において音響分析し、特徴ベクトル時系列を音声認識手段５に出力する（ステップＳＴ９４）。

　音声認識手段５は、ステップＳＴ９４で得られた特徴ベクトル時系列を入力とし、言語ｎに対応する音声標準モデルメモリ１のデータと音声ラベルメモリ２上のユーザ辞書を用いて認識処理を行い（ステップＳＴ９５）、認識結果を認識/登録切換手段ＳＷ４を通じて出力する。

　次にステップＳＴ９１において、言語切換手段ＳＷ１を言語ｎ以外に選択変更する場合はステップＳＴ９６へ移行し、言語切換手段ＳＷ１を言語ｎ以外の言語ｎ’に設定し、認識/登録切換手段ＳＷ４を登録に切換える（ステップＳＴ９７）。音声認識手段５は音響データメモリ９に保存されていた登録用音声に対応する特徴ベクトル時系列を読み出す（ステップＳＴ９８）。

　そして、音声認識手段５は、読み出した特徴ベクトル時系列を入力として、ステップＳＴ９６で設定された言語ｎ’に対応するところの、音声標準モデルのデータを用いて、音声ラベル列を生成する（ステップＳＴ９９）。得られた音声ラベル列は、認識/登録切換手段ＳＷ４を介して音声ラベルメモリ２ａ上にユーザ辞書として登録する（ステップＳＴ１００）。

　次いで、音響データメモリ９上において、ステップＳＴ９９からステップＳＴ１００の処理を施していない特徴ベクトル時系列が残っているか否かを判断し（ステップＳＴ１０１）、若し、残っているならばステップＳＴ９８へ戻り、残りの音声データについてステップＳＴ９９～ステップＳＴ１０１の処理を繰り返す。若し、特徴ベクトル時系列が残っていなければ、ステップＳＴ９２へ処理を移行する。ステップＳＴ９２以降の処理は、言語切換手段ＳＷ１を言語ｎのままで切換えなかった前述の処理と同じであるので、重複説明を省略する。

　以上の動作により、言語ｎ’に切換えた場合は、即座に音響データメモリ９上の特徴ベクトル時系列を使って言語ｎ’に対応したユーザ辞書が生成され、音声ラベルメモリ２ａ上に保存されるため、言語ｎ’に設定された場合も、ユーザ辞書を使った音声認識が可能になる。また、この実施の形態４では、音声ラベルメモリ２ａを１言語分だけ確保しておけばよいので、音声ラベルメモリの削減が実現できる。加えて、音響分析が完了している特徴ベクトル時系列を保存しておく音響データメモリ９を持っているため、実施の形態３の場合より演算量を少なくすることができ、ユーザ辞書生成処理の迅速化を図ることができる。

　これにより、実施の形態４によれば、音響分析手段４で音響分析して得られた特徴ベクトル時系列を音響データメモリ９に保持し、この音響データメモリ９に保持された前記特徴ベクトル時系列を使って、音声認識手段５が音声ラベル列を生成する。この結果、言語ごとに音声ラベルメモリ２ａを確保しておくことなく、音声認識システムが使う言語が切換えられたときにも、ユーザが発声し、音響データメモリ９に保持した発話音声の特徴ベクトル時系列を使って、選択された言語に対応するユーザ辞書が作成され、これを用いた音声認識が可能になる。

　この発明に係る音声認識装置は、ユーザ発話音声から各言語用にユーザ辞書を生成し、保持することが可能なため、ユーザが所望の言葉を外国語に変換し、保存したい場合に使用する音声認識装置等に用いるのに適している。

Claims

　認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
　複数の言語に対応したユーザ辞書を保存する音声ラベルメモリと、
　前記音声標準モデルメモリの複数の言語を切換選択する第１の言語切換手段と、
　前記音声ラベルメモリの複数の言語を切換選択する第２の言語切換手段と、
　前記第１の言語切換手段と第２の言語切換手段を連動して切換える制御手段と、
　入力されたユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
　前記音響分析手段からの特徴ベクトル時系列と前記第１の言語切換手段を切換えながら選択された前記音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベル列を生成し、この音声ラベル列を前記第１の言語切換手段と連動して前記第２の言語切換手段で切換えられる前記音声ラベルメモリの言語に登録する音声認識手段と、
を備えた音声認識装置。
　音声ラベルメモリの複数の言語を切換選択する第３の言語切換手段と、
　音声認識手段の認識結果を外部へ出力するか音声ラベルメモリに登録するかを選択する認識／登録切換手段を備え、
　制御手段は出力指示に基づいて前記認識／登録切換手段を認識に切換えるとともに、第１の言語切換手段と前記第３の言語切換手段を連動して切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第１の言語切換手段を切換えながら選択された前記音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識／登録切換手段を介して出力することを特徴とする請求項１記載の音声認識装置。
　外部から与えられる言語指定データに基づいて言語を選択する言語選択手段を備え、
　制御手段は、前記言語選択手段で選択された言語に基づいて該言語に対応する言語を選択するように、第１の言語切換手段と第２の言語切換手段を連動して切換えることを特徴とする請求項１記載の音声認識装置。
　認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
　ユーザ辞書を保存する音声ラベルメモリと、
　前記音声標準モデルメモリの複数の言語を切換選択する第１の言語切換手段と、
　指示言語に基づいて前記第１の言語切換手段を指示言語選択位置に切換える制御手段と、
　ユーザが発話した音声を保持する音声データメモリと、
　入力されたユーザ発話音声または前記音声データメモリから読み出したユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
　前記第１の言語切換手段で選択された言語に対応する音声標準モデルのデータと前記特徴ベクトル時系列に基づいて、ユーザ発話音声に対する音声ラベルを生成し、この音声ラベルを前記音声ラベルメモリに登録する音声認識手段と、
を備えた音声認識装置。
　認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
　ユーザ辞書を保存する音声ラベルメモリと、
　前記音声標準モデルメモリの複数の言語を切換選択する第１の言語切換手段と、
　指示言語に基づいて前記第１の言語切換手段を指示言語選択位置に切換える制御手段と、
　入力されたユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
　前記音響分析手段で音響分析して得られた特徴ベクトル時系列を保持する音響データメモリと、
　前記第１の言語切換手段で選択された言語に対応する音声標準モデルのデータと前記音響データメモリから読み出した特徴ベクトル時系列に基づいて、ユーザ発話音声に対する音声ラベルを生成し、この音声ラベルを前記音声ラベルメモリに登録する音声認識手段と、
を備えた音声認識装置。
　音声認識手段の認識結果を音声ラベルメモリに登録するか外部へ出力するかを選択する認識／登録切換手段を備え、
　制御手段は認識指示に基づいて前記認識／登録切換手段を認識に切換えるとともに、第１の言語切換手段を切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第１の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識／登録切換手段を介して出力することを特徴とする請求項４記載の音声認識装置。
　音声認識手段の認識結果を音声ラベルメモリに登録するか外部へ出力するかを選択する認識／登録切換手段を備え、
　制御手段は認識指示に基づいて前記認識／登録切換手段を認識に切換えるとともに、第１の言語切換手段を切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第１の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識／登録切換手段を介して出力することを特徴とする請求項５記載の音声認識装置。