WO2010086928A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2010086928A1
WO2010086928A1 PCT/JP2009/005488 JP2009005488W WO2010086928A1 WO 2010086928 A1 WO2010086928 A1 WO 2010086928A1 JP 2009005488 W JP2009005488 W JP 2009005488W WO 2010086928 A1 WO2010086928 A1 WO 2010086928A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
language
recognition
speech
switching means
Prior art date
Application number
PCT/JP2009/005488
Other languages
English (en)
French (fr)
Inventor
鈴木忠
石川泰
丸田裕三
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to US13/119,445 priority Critical patent/US8099290B2/en
Priority to DE112009004313.5T priority patent/DE112009004313B4/de
Priority to JP2010546177A priority patent/JP4703787B2/ja
Priority to CN2009801490344A priority patent/CN102239517B/zh
Publication of WO2010086928A1 publication Critical patent/WO2010086928A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition

Definitions

  • the present invention relates to a speech recognition device, and more particularly to a speech recognition device that enables speech recognition using registered speech uttered by a user even when a language used for speech recognition is switched.
  • a radio station name corresponding to a radio frequency is registered by voice, or a person name or place name corresponding to a telephone number is registered by voice.
  • speech recognition collects speech data for each language and recognizes speech uttered by the user using a recognition algorithm or speech standard model constructed using that data. It is necessary to switch the recognition means itself and the voice standard model.
  • the generated user dictionary depends on the speech recognition algorithm and the speech standard model. Once switched, the generated user dictionary cannot be used, and the user has to redo the voice registration operation.
  • Patent Literature 1 discloses an electronic dictionary device that determines the language that the user wants to use by switching the language used by the electronic dictionary by collating the speech uttered by the user with the words stored in the system.
  • a language switching method and a storage medium for an electronic dictionary device are disclosed.
  • Patent Document 2 discloses a portable terminal device and a computer program that determine a language that a user wants to use by switching a language used in an electronic dictionary by comparing a voice uttered by the user with a word stored in the system. It is disclosed.
  • the electronic dictionary device disclosed in the above-mentioned Patent Document 1 the language switching method of the electronic dictionary device, and the storage medium collate the speech uttered by the user with the words stored in the system for switching the language used in the electronic dictionary.
  • the language that the user wants to use is determined, there is a problem in that a dictionary corresponding to each language cannot be created from the voice spoken by the user.
  • Patent Document 2 the portable terminal device and the computer program disclosed in Patent Document 2 are intended to download appropriate dictionary data when entering a different language sphere, and the user corresponding to each language from the voice spoken by the user There was a problem that a dictionary could not be created.
  • a voice label sequence corresponding to a registered voice uttered by a user is generated for each language and stored as a user dictionary.
  • An object of the present invention is to provide a speech recognition device that can perform speech recognition using registered speech uttered by a user even if the language to be used is switched.
  • a speech recognition device includes a speech standard model memory storing speech standard models corresponding to a plurality of languages to be recognized, a speech label memory storing user dictionaries corresponding to a plurality of languages, and a speech standard model.
  • a first language switching means for switching and selecting a plurality of languages in the memory; a second language switching means for switching and selecting a plurality of languages in the voice label memory; a first language switching means and a second language switching means; Control means for switching in conjunction with each other, acoustic analysis means for performing acoustic analysis processing on the input user utterance voice, and outputting a feature vector time series of the user utterance voice, and a feature vector time series from the acoustic analysis means and the first And the voice standard model data corresponding to the language of the voice standard model memory selected while switching the language switching means of It generates a voice label string, in which a voice recognition unit for registering the voice label string in the first language switching means and conjunction with the second language language voice label memory which is switched
  • the speech recognition apparatus includes a speech standard model memory storing a plurality of languages to be recognized and a speech label memory storing a plurality of languages by the first language switching means and the second language switching means which are linked.
  • the feature vector time series of the input user uttered speech and the speech standard model data corresponding to the language of the speech standard model memory selected by the first language switching means while switching the language A voice label sequence for the user uttered voice is generated for each language, and this voice label string is registered in the language of the voice label memory switched and selected by the second language switching means.
  • a speech label string to be generated can be generated for each language and stored as a user dictionary. As a result, by using this user dictionary, even if the language used for speech recognition is switched, there is an effect that the user can perform speech recognition using the uttered speech.
  • FIG. 1 is a block diagram showing a configuration of a voice recognition device according to Embodiment 1.
  • FIG. 6 is a flowchart for explaining processing at the time of user dictionary generation using the operation at the time of voice registration in the first embodiment.
  • 5 is a flowchart for explaining an operation when performing speech recognition using processing at the time of speech recognition in the first embodiment. It is a block diagram which shows the structure of the speech recognition apparatus by Embodiment 2.
  • FIG. 10 is a flowchart for explaining processing at the time of user dictionary generation using the operation at the time of voice registration in the second embodiment.
  • 5 is a flowchart for explaining an operation when performing speech recognition using processing at the time of speech recognition in the first embodiment.
  • FIG. 10 is a block diagram illustrating a configuration of a speech recognition apparatus according to Embodiment 3.
  • FIG. 15 is a flowchart for explaining processing at the time of generating a user dictionary by using an operation in the case where the first user dictionary is generated in language n in the third embodiment.
  • 14 is a flowchart for explaining an operation when performing speech recognition in a state where a user dictionary corresponding to language n is registered on the speech label memory in the third embodiment.
  • It is a block diagram which shows the structure of the speech recognition apparatus by Embodiment 4.
  • FIG. 15 is a flowchart for describing processing when a user dictionary corresponding to language n is generated using user registration voice in the fourth embodiment.
  • 15 is a flowchart for explaining an operation when performing speech recognition in a state where a user dictionary corresponding to a language n is registered on the speech label memory according to the fourth embodiment.
  • FIG. 1 is a block diagram showing the configuration of the speech recognition apparatus according to the first embodiment.
  • the speech analysis model 4 and speech recognition unit 5 are connected to the speech standard model memory 1, speech label memory 2, and speech signal input terminal 3. , Control means 6, language switching means SW1 to SW3, and recognition / registration switching means SW4.
  • the voice standard model memory 1 stores a voice standard model corresponding to a plurality of languages (language 1 to language N) to be recognized.
  • the voice label memory 2 is a memory for storing a user dictionary corresponding to a plurality of languages (language 1 to language N).
  • the user dictionary is stored on the voice label memory corresponding to a plurality of languages (language 1 to language N). Retained.
  • the acoustic analysis unit 4 performs an acoustic analysis process on the user utterance voice input from the voice signal input terminal 3, and uses the power spectrum of the input user utterance voice or a time series of feature quantities similar thereto as the feature vector time. Output as a series.
  • the speech recognition unit 5 uses the feature vector time series output from the acoustic analysis unit 4 as an input, and uses the data in the speech standard model memory 1 selected by the language switching unit SW1, and uses the feature vector time series.
  • a voice label string corresponding to a time series is obtained, and the voice label string is stored as a user dictionary in languages 1 to N which are user dictionary storage destinations selected by the language switching means SW2.
  • the speech recognition means 5 receives the feature vector time series output from the acoustic analysis means 4 as input and the data in the speech standard model memory 1 selected by the language switching means SW1 and the language switching means. Using the user dictionary corresponding to the language selected by SW3, speech recognition processing is performed on the feature vector time series, and the recognition result is output through the recognition / registration switching means SW4.
  • the control means 6 controls the recognition / registration switching means SW4 to be switched to the recognition side based on a recognition switching instruction inputted from the outside, and when performing registration, that is, user dictionary generation, from the acoustic analysis means 4.
  • the language switching means SW2 is switched by receiving a switching request signal from the voice recognition means 5 due to the interruption of the feature vector time series. At this time, the language switching unit SW1 that is linked to the language switching unit SW2 is also switched.
  • the recognition / registration switching means SW4 is controlled to switch to the registration side based on a registration switching instruction input from the outside, and the language switching is performed so as to select a language input from the outside.
  • the means SW2 is switched.
  • the language switching unit SW1 that is linked to the language switching unit SW2 is also switched.
  • the language switching means SW1 selects the voice standard model data corresponding to one of the voice standard models of a plurality of languages (language 1 to language N) stored in the voice standard model memory 1. To output automatically.
  • the language switching means SW2 switches between the languages 1 to N, which are the storage destinations of the user dictionary in the voice label memory, in conjunction with the language switching means SW1 when the user dictionary is generated.
  • the language switching means SW3 switches language 1 to language N, which is a reading destination of the user dictionary in the voice label memory, in conjunction with the language switching means SW1 when performing speech recognition.
  • the recognition / registration switching means SW4 is switched to the side connected to the language switching means SW2 when a user dictionary generation instruction is given from the outside, and is switched to the output terminal side when there is a voice recognition instruction.
  • FIG. 2 is a flowchart for explaining processing at the time of user dictionary generation using the operation at the time of voice registration in the first embodiment.
  • the control means 6 switches the recognition / registration switching means SW4 to the registration side connected to the language switching means SW2 based on a user dictionary generation instruction inputted from the outside (step ST1).
  • the output destination of the voice label string output by the voice recognition means 5 is set in the voice label memory 2.
  • the registration voice spoken by the user is input from the voice signal input terminal 3 (step ST2).
  • the input speech signal is acoustically analyzed by the acoustic analysis means 4, and a feature vector time series is output (step ST3).
  • the initial value 1 is substituted into the variable n (step ST4).
  • the language switching means SW1 and the language switching means SW2 are switched in conjunction with n.
  • the speech standard model corresponding to the language represented by the variable n on the speech standard model memory 1 is set, and at the same time, the storage destination of the user dictionary corresponding to the language represented by the variable n is set on the speech label memory 2. (Step ST5).
  • the speech recognition unit 5 receives the feature vector time series from the acoustic analysis unit 4 and generates a speech label sequence on the speech standard model memory 1 using data in the speech standard model memory 1 corresponding to the language represented by the variable n. (Step ST6). Next, the voice label sequence generated by the voice recognition unit 5 is stored in the user dictionary storage destination corresponding to the language represented by the variable n on the voice label memory 2 via the recognition / registration switching unit SW4 and the language switching unit SW2. Registered (step ST7).
  • step ST8 It is determined whether the variable n matches the language number N (step ST8). If not, n + 1 is substituted for n and the process returns to step ST5 (step ST9). If the variable n matches the number of languages N, the process proceeds to step ST10. In step ST10, it is determined whether or not there is a next registration voice input. If the user speaks the next registration voice, the process returns to step ST2. When there is no utterance, the process at the time of generating the user dictionary ends.
  • the registration voice uttered by the user to be registered automatically uses the data of the voice standard model memory 1 corresponding to the language 1 to language N and automatically uses the language 1 to language.
  • the user dictionary corresponding to N is registered in the voice label memory 2.
  • FIG. 3 is a flowchart for explaining the operation when speech recognition is performed using the speech recognition processing in the first embodiment.
  • the control means 6 switches the language switching means SW1 and the language switching means SW3 so that a predetermined language can be recognized based on a voice recognition instruction inputted from the outside (step ST11). In the above example, one of the languages 1 to N is selected.
  • the recognition / registration switching means SW4 is switched to the side for outputting the recognition result (step ST12).
  • the voice uttered by the user is input from the voice signal input terminal 3 as an unknown input voice (step ST13).
  • the input unknown input speech is acoustically analyzed by the acoustic analysis means 4, and a feature vector time series is output (step ST14).
  • the speech recognition means 5 receives the feature vector time series obtained in step ST14 as input, and based on this feature vector time series, data in the speech standard model memory 1 and speech label memory 2 corresponding to the language set in step ST11.
  • Recognition processing is performed using the user dictionary registered in (Step ST15), the recognition result is output via the recognition / registration switching means SW4, and the speech recognition processing is terminated.
  • the language of the speech standard model memory used for creating the speech label sequence and the generated speech by the first language switching unit and the second language switching unit are generated for each language and stored as a user dictionary. As a result, even if the language used for speech recognition is switched, speech recognition using registered speech uttered by the user becomes possible.
  • FIG. FIG. 4 is a block diagram showing the configuration of the speech recognition apparatus according to the second embodiment, in which language selection means 7 is added to the configuration of FIG. 1 showing the first embodiment, and other configurations are shown in FIG. Since the configuration is the same as that of the first embodiment, duplicate description is omitted.
  • the language selection unit 7 selects a language based on the language designation data input by the user and gives it to the control unit 6. Based on the given language, the control means 6 controls the language switching means SW1 and the language switching means SW2 in conjunction with each other or the language switching means SW1 and the language switching means SW3 in conjunction with each other.
  • FIG. 5 is a flowchart for explaining a process at the time of generating a user dictionary in the second embodiment. Since the operation from step ST21 to step ST24 is the same as the operation from step ST1 to step ST4 in the first embodiment, a duplicate description is omitted.
  • the operation from step ST26 to step ST31 is the same as the operation from step ST5 to step ST10 in the first embodiment, and therefore a duplicate description is omitted.
  • the language n is automatically registered in the speech label memory 2 as a user dictionary corresponding to the language n using the speech standard model memory 1 corresponding to the language n.
  • FIG. 6 is a flowchart for explaining the operation when speech recognition is performed using the user dictionary generated as described above.
  • the control means 6 interlocks and sets the language switching means SW1 and the language switching means SW3 to a predetermined language (step ST41).
  • the recognition / registration switching means SW4 is switched to the recognition side (step ST42).
  • the operation from step ST43 to step 45 is the same as the operation from step ST13 to step 15 in the first embodiment, and therefore a duplicate description is omitted.
  • the language switching unit SW1 and the language switching unit SW2 that are linked to each other are switched based on the language designation data given from the outside.
  • the language designation data given from the outside.
  • FIG. 7 is a block diagram showing the configuration of the third embodiment of the present invention.
  • the audio data memory 8 is a memory for recording and saving a registration audio input from the audio signal input terminal 3.
  • the other voice standard model memory 1, voice signal input terminal 3, acoustic analysis means 4, voice recognition means 5, control means 6, language switching means SW1, and recognition / registration switching means SW4 are the same as those in the first embodiment shown in FIG. Because of this, duplicate explanation is omitted.
  • FIG. 8 is a flowchart for explaining processing at the time of user dictionary generation, using the operation when the first user dictionary is generated in language n in the third embodiment.
  • the control means 6 sets the language switching means SW1 at a position for selecting the language n based on the language n for generating the user dictionary inputted from the outside (step ST51).
  • the recognition / registration switching means SW4 is switched to registration (step ST52).
  • the output destination of the speech label string output by the speech recognition means 5 is set in the speech label memory 2a.
  • the registration voice spoken by the user is input from the voice signal input terminal 3 (step ST53).
  • the input registration voice is stored in the voice data memory 8 (step ST54).
  • the input registration speech signal is acoustically analyzed by the acoustic analysis means 4, and the feature vector time series is output to the speech recognition means 5 (step ST55).
  • the speech recognition means 5 inputs the feature vector time series and obtains a speech label string using the speech standard model data corresponding to the language represented by the variable n in the speech standard model memory 1 (step ST56).
  • the voice label sequence generated by the voice recognition means 5 is registered as a user dictionary on the voice label memory 2a via the recognition / registration switching means SW4 (step ST57). Then, it is determined whether or not there is a next registration voice (step ST58). If the user speaks the next registration voice, the process returns to step ST53, and the operations of steps ST53 to ST57 are repeated. . If there is no utterance, the user dictionary generation process ends.
  • the above is the processing when the first voice registration is performed in language n.
  • the registration voice uttered by the user is stored in the voice data memory 8 and the user dictionary corresponding to the language n is registered in the voice label memory 2a.
  • FIG. 9 shows a state where the voice data itself is stored in the voice data memory 8 and the user dictionary corresponding to the language n is registered in the voice label memory 2a for the registration voice spoken by the user as described above. It is a flowchart explaining the operation
  • the control means 6 determines whether to change the recognition target language by switching the language switching means SW1 based on a voice recognition instruction inputted from the outside (step ST61). If not changed, that is, if the language switching means SW1 remains in the language n, the process proceeds to step ST62. In step ST62, the recognition / registration switching means SW4 is switched to recognition.
  • the voice uttered by the user is input from the voice signal input terminal 3 as an unknown input voice (step ST63).
  • the input unknown input speech is acoustically analyzed by the acoustic analysis means 4, and the feature vector time series is output to the speech recognition means 5 (step ST64).
  • the speech recognition means 5 receives the feature vector time series obtained in step ST64 and performs recognition processing using the data in the speech standard model memory 1 corresponding to the language n and the user dictionary in the speech label memory 2a (step (ST65)
  • the recognition result is output via the recognition / registration switching means SW4, and the voice recognition process is terminated.
  • step ST61 the processing when the language switching means SW1 is set to a language other than n in step ST61 will be described. In this case, the process proceeds to step ST66, and the language switching means SW1 is set to a language n 'other than the language n. Then, the recognition / registration switching means SW4 is switched to registration (step ST67).
  • the acoustic analysis means 4 reads out the voice data stored in the voice label memory 2a (step ST68). Then, the acoustic analysis means 4 obtains the feature vector time series for the read voice data and outputs it to the voice recognition means 5 (step ST69).
  • the speech recognition means 5 receives the feature vector time series obtained in step ST69 as input, and uses the speech standard model data in the speech standard model memory 1 corresponding to the language n ′ set in step ST66, to produce a speech label sequence. Is generated (step ST70).
  • step ST71 the generated voice label string is registered as a user dictionary in the voice label memory 2a (step ST71).
  • step ST72 it is checked whether or not the audio data that has not been subjected to the processing from step ST69 to step ST71 remains (step ST72). If it remains, the process returns to step ST68, and the remaining audio data is subjected to steps ST69 to ST69. The process of step ST71 is repeated. If no audio data remains, the process moves to step ST62. Since the processing after step ST62 is the same as the above-described processing in which the language switching means SW1 is not switched while maintaining the language n, redundant description is omitted.
  • a user dictionary corresponding to the language n ′ is immediately generated using the voice data recorded in the voice data memory 8 and stored in the voice label memory 2a. Therefore, even when the language n ′ is set, speech recognition using the user dictionary is possible. Further, in the third embodiment, since the voice label memory 2a only needs to be secured for one language, the memory can be reduced.
  • the voice label for each language can be obtained by holding the registered voice uttered by the user and the acoustic analysis means 4 having the voice data memory 8 for acoustic analysis using the registered voice. Even when the language used by the speech recognition system is switched without having to secure the memory 2a, the registered speech uttered by the user recorded in the speech data memory 8 is used to correspond to the selected language. A user dictionary is created, and speech recognition using the user dictionary becomes possible.
  • FIG. 10 is a block diagram showing the configuration of the fourth embodiment of the present invention, where the acoustic analysis means 4 outputs the registration voice uttered by the user instead of the voice data memory 8 in the third embodiment. Is provided with an acoustic data memory 9 for recording and storing the feature vector time series. Since other configurations are the same as the configurations of the third embodiment, the redundant description is omitted.
  • FIG. 11 is a flowchart for explaining processing at the time of generating a user dictionary corresponding to language n using the user's registration voice, in the case of Embodiment 4 (when the first user dictionary is generated in language n). .
  • the language switching means SW1 is set to the language n for generating the user dictionary (step ST81).
  • the recognition / registration switching means SW4 is switched to registration (step ST82).
  • the output destination of the speech label string output by the speech recognition means 5 is set in the speech label memory 2a.
  • the registration voice spoken by the user is input from the voice signal input terminal 3 (step ST83).
  • the acoustic analysis means 4 performs an acoustic analysis of the input registration audio signal and outputs a feature vector time series (step ST84).
  • the feature vector time series obtained in step ST84 is recorded and saved on the acoustic data memory 9 (step ST85).
  • the voice recognition means 5 receives the feature vector time series as an input, and generates a voice label sequence using the voice standard model data corresponding to the language represented by the variable n on the voice standard model memory 1 (step ST86).
  • the voice label sequence generated by the voice recognition means 5 is registered as a user dictionary on the voice label memory 2a via the recognition / registration switching means SW4 (step ST87). Then, it is determined whether or not there is a next registration voice. If the user speaks the next registration voice, the process returns to step ST83, and the processes of steps ST83 to ST88 are repeated. If there is no utterance, the user dictionary generation process is terminated (step ST88).
  • the above is the processing when the first voice registration is performed in language n.
  • the feature vector time series of the registration speech uttered by the user is stored in the acoustic data memory 9, and the user dictionary corresponding to the language n is registered in the speech label memory 2a.
  • the feature vector time series corresponding to the speech is stored in the acoustic data memory 9, and the user dictionary corresponding to the language n is stored on the speech label memory 2a. It is a flowchart explaining the operation
  • control means 6 determines whether to change the language to be recognized by switching the language switching means SW1 based on a voice recognition instruction inputted from the outside (step ST91), and when the language switching SW1 remains in the language n. Then, the process proceeds to step ST92.
  • step ST92 the recognition / registration switching means SW4 is switched to recognition.
  • step ST93 the voice uttered by the user is input from the voice signal input terminal 3 as an unknown input voice.
  • the input unknown input speech is acoustically analyzed by the acoustic analysis means 4, and the feature vector time series is output to the speech recognition means 5 (step ST94).
  • the speech recognition means 5 receives the feature vector time series obtained in step ST94 and performs recognition processing using the data in the speech standard model memory 1 corresponding to the language n and the user dictionary in the speech label memory 2 (step ST95), the recognition result is output through the recognition / registration switching means SW4.
  • step ST91 when the language switching means SW1 is selected and changed to other than language n, the process proceeds to step ST96, the language switching means SW1 is set to a language n ′ other than language n, and the recognition / registration switching means SW4 is registered. (Step ST97).
  • the voice recognition means 5 reads the feature vector time series corresponding to the registration voice stored in the acoustic data memory 9 (step ST98).
  • the speech recognition means 5 receives the read feature vector time series as an input, and generates a speech label sequence using the speech standard model data corresponding to the language n ′ set in step ST96 (step ST99).
  • the obtained voice label string is registered as a user dictionary on the voice label memory 2a via the recognition / registration switching means SW4 (step ST100).
  • step ST101 it is determined whether or not a feature vector time series that has not been subjected to the processing from step ST99 to step ST100 remains on the acoustic data memory 9 (step ST101). If so, the process returns to step ST98. Then, the processes of step ST99 to step ST101 are repeated for the remaining audio data. If no feature vector time series remains, the process proceeds to step ST92. Since the processing after step ST92 is the same as the above-described processing in which the language switching means SW1 is not switched while maintaining the language n, duplicate explanation is omitted.
  • a user dictionary corresponding to the language n ′ is immediately generated using the feature vector time series in the acoustic data memory 9 and stored in the voice label memory 2a. Therefore, even when the language n ′ is set, speech recognition using the user dictionary is possible.
  • the voice label memory 2a only needs to be secured for one language, so that the voice label memory can be reduced.
  • the acoustic data memory 9 for storing the feature vector time series for which acoustic analysis has been completed is provided, the calculation amount can be reduced as compared with the case of the third embodiment, and user dictionary generation processing can be performed. Speed can be achieved.
  • the feature vector time series obtained by the acoustic analysis by the acoustic analysis means 4 is held in the acoustic data memory 9, and the feature vector time series held in the acoustic data memory 9 is stored.
  • the voice recognition means 5 generates a voice label string.
  • the speech recognition apparatus can generate and maintain a user dictionary for each language from user uttered speech, the speech used when the user wants to convert a desired word into a foreign language and save it. Suitable for use in recognition devices and the like.

Abstract

第1の言語切換手段SW1と第2の言語切換手段SW2により、音声ラベル列を作るために使う音声標準モデルメモリ1と、生成した音声ラベル列を保持する音声ラベルメモリ2の言語を自動的に切換えながら、入力されたユーザ発話音声の特徴ベクトル時系列と音声標準モデルのデータとにより、前記入力されたユーザ発話音声に対する音声ラベル列を各言語用に生成し、音声ラベルメモリ2に登録するように構成したので、ユーザが発声した登録音声に対応する音声ラベル列が、各言語用に生成され、ユーザ辞書として保持される。この結果、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識が可能になる。

Description

音声認識装置
 この発明は、音声認識装置に関するもので、特に、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識を可能とした音声認識装置に関するものである。
 近年の音声認識装置や音声認識システムにおいては、不特定話者を対象としたものがほとんどであり、予めユーザが認識させたい音声を登録しておく必要はなくなっている。つまり、音声を発声する代わりに、日本語ならばかなをキーボードなどから入力することで認識させたい音声を登録することができる。また、外国語の場合も認識させたい単語を入力することで、その単語の発音記号を自動的に生成して、認識対象語として登録ができるようになっている。
 しかし、音声認識を適用するアプリケーションによっては、ユーザが発話した音声を登録して認識対象語として使う場合がある(ここではユーザ辞書の生成と称する)。たとえば、ラジオの周波数に対応したラジオ局名を音声で登録したり、電話番号に対応した人名や場所名を音声で登録したりする場合である。
 また、カーナビや携帯端末など、複数の国をまたがって使用される機器に搭載される音声認識は、言語の切換機能が求められる。一般に音声認識では、言語ごとに音声データを収集し、そのデータを用いて構築した認識アルゴリズムや音声標準モデルを使って、ユーザが発話した音声の認識を行っているため、言語を切換えることは音声認識手段そのものや音声標準モデルを切換える必要がある。
 上記のユーザが発話した音声を登録して認識対象として使うアプリケーションでは、生成されたユーザ辞書が音声認識のアルゴリズムや音声標準モデルに依存するため、言語を切換えるために音声認識手段や音声標準モデルが切換られてしまうと、生成してあったユーザ辞書が使えなくなるため、ユーザは再度音声登録の作業をやり直す必要があった。
 そこで、従来、例えば、特許文献1には、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定する電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体が開示されている。また、特許文献2には、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定する携帯端末装置およびコンピュータプログラムが開示されている。
特開2001-282788号公報 特開2002-247646号公報
 上記特許文献1に開示された電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体は、電子辞書の使用言語の切換に、ユーザが発話した音声とシステムに記憶されていた単語を照合することでユーザが使いたい言語を決定するため、ユーザが発話した音声から各言語に対応した辞書を作成することはできないという課題があった。
 また、特許文献2に開示された携帯端末装置及びコンピュータプログラムは、異なる言語圏に入ったとき、適切な辞書データをダウンロードすることを目的としており、ユーザが発話した音声から各言語に対応したユーザ辞書を作成することはできないという課題があった。
 この発明は上記のような課題を解消するためになされたもので、ユーザが発声した登録音声に対応する音声ラベル列を各言語用に生成して、ユーザ辞書として保存することにより、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識を可能とした音声認識装置を提供することを目的とする。
 この発明に係る音声認識装置は、認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、複数の言語に対応したユーザ辞書を保存する音声ラベルメモリと、音声標準モデルメモリの複数の言語を切換選択する第1の言語切換手段と、音声ラベルメモリの複数の言語を切換選択する第2の言語切換手段と、第1の言語切換手段と第2の言語切換手段を連動して切換える制御手段と、入力されたユーザ発話音声に対し音響分析処理を施し、ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、音響分析手段からの特徴ベクトル時系列と第1の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベル列を生成し、この音声ラベル列を第1の言語切換手段と連動して第2の言語切換手段で切換えられる音声ラベルメモリの言語に登録する音声認識手段とを備えたものである。
 この発明の音声認識装置は、連動する第1の言語切換手段と第2の言語切換手段とで、認識対象とする複数の言語を格納した音声標準モデルメモリと複数の言語を保存する音声ラベルメモリの言語を切換えながら、入力されたユーザ発話音声の特徴ベクトル時系列と第1の言語切換手段で切換え選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより、前記入力されたユーザ発話音声に対する音声ラベル列を各言語用に生成し、この音声ラベル列を第2の言語切換手段で切換え選択された音声ラベルメモリの言語に登録するように構成したので、ユーザ発話音声に対応する音声ラベル列が、各言語用に生成され、ユーザ辞書として保持することが可能である。この結果、このユーザ辞書を用いることにより、音声認識で使う言語を切換えても、ユーザが発話音声を使った音声認識が可能になる効果がある。
実施の形態1による音声認識装置の構成を示すブロック図である。 実施の形態1における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。 実施の形態1における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。 実施の形態2による音声認識装置の構成を示すブロック図である。 実施の形態2における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。 実施の形態1における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。 実施の形態3による音声認識装置の構成を示すブロック図である。 実施の形態3において言語nで最初のユーザ辞書生成を行う場合の動作を用いて、ユーザ辞書生成時の処理を説明するフローチャートである。 実施の形態3におけて音声ラベルメモリ上に言語nに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作を説明するフローチャートである。 実施の形態4による音声認識装置の構成を示すブロック図である。 実施の形態4においてユーザの登録用音声を用いて言語nに対応するユーザ辞書生成時の処理を説明するフローチャートである。 実施の形態4における音声ラベルメモリ上に言語nに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明するフローチャートである。
 以下、この発明の実施の形態を図面を参照しながら詳細に説明する。
実施の形態1.
 図1は、実施の形態1による音声認識装置の構成を示すブロック図であり、音声標準モデルメモリ1、音声ラベルメモリ2、音声信号入力端3に接続された音響分析手段4、音声認識手段5、制御手段6、言語切換手段SW1~SW3、認識/登録切換手段SW4を備えている。
 音声標準モデルメモリ1は、認識対象とする複数の言語(言語1~言語N)に対応した音声標準モデルを格納している。
 音声ラベルメモリ2は、複数の言語(言語1~言語N)に対応したユーザ辞書を保存するためのメモリで、ユーザ辞書は複数の言語(言語1~言語N)に対応して音声ラベルメモリ上に保持される。
 音響分析手段4は、音声信号入力端3から入力されたユーザ発話音声に対し音響分析処理を行い、入力されたユーザ発話音声のパワースペクトルもしくはそれに類するような特徴量の時系列を、特徴ベクトル時系列として出力する。
 音声認識手段5は、ユーザ辞書生成を行うときは、音響分析手段4が出力した特徴ベクトル時系列を入力として、言語切換手段SW1によって選択された音声標準モデルメモリ1のデータを用いて、特徴ベクトル時系列に対応する音声ラベル列を求め、言語切換手段SW2によって切換え選択されたユーザ辞書保存先である言語1~言語Nに音声ラベル列をユーザ辞書として格納する。
 また音声認識手段5は、音声認識処理を行うときは、音響分析手段4が出力した特徴ベクトル時系列を入力として、言語切換手段SW1によって選択された音声標準モデルメモリ1のデータと、言語切換手段SW3によって選択された言語に対応するユーザ辞書とを用いて、上記特徴ベクトル時系列に対する音声認識処理を実行し、その認識結果を認識/登録切換手段SW4を通じて出力する。
 制御手段6は、外部から入力される認識切換指示に基づいて、認識/登録切換手段SW4を認識側に切換制御するとともに、登録、つまり、ユーザ辞書生成を行うときは、音響分析手段4からの特徴ベクトル時系列が途切れたことによる音声認識手段5からの切換要求信号を受けることにより、言語切換手段SW2を切換える。このとき、言語切換手段SW2と連動関係にある言語切換手段SW1も切り替わる。
 一方、音声認識処理を行うときは、外部から入力される登録切換指示に基づいて、認識/登録切換手段SW4を登録側に切換制御するとともに、外部から入力された言語を選択するように言語切換手段SW2を切換える。このとき、言語切換手段SW2と連動関係にある言語切換手段SW1も切り替わる。
 言語切換手段SW1は、音声標準モデルメモリ1に格納されている複数の言語(言語1~言語N)の音声標準モデルに対し、そのうちのどれかひとつの言語に対応する音声標準モデルのデータを選択的に出力する。
 言語切換手段SW2は、ユーザ辞書生成時において、言語切換手段SW1と連動して、音声ラベルメモリ内におけるユーザ辞書の保存先である言語1~言語Nを切換える。
 言語切換手段SW3は、音声認識を行うときに、言語切換手段SW1と連動して、音声ラベルメモリ内におけるユーザ辞書の読み出し先である言語1~言語Nを切換える。
 認識/登録切換手段SW4は、外部からユーザ辞書生成の指示があったときは、言語切換手段SW2と接続する側に切換え、音声認識の指示が有ったときは、出力端子側に切換えられる。
 次に動作について説明する。図2は実施の形態1における音声登録時の動作を用いてユーザ辞書生成時の処理を説明するフローチャートである。ユーザ辞書を生成するときは、制御手段6は外部から入力されたユーザ辞書生成指示に基づいて、認識/登録切換手段SW4を言語切換手段SW2と接続する登録側に切換える(ステップST1)。これにより、音声認識手段5が出力する音声ラベル列の出力先は音声ラベルメモリ2に設定される。
 次にユーザが発話した登録用音声を音声信号入力端3から入力する(ステップST2)。入力された音声信号を音響分析手段4において音響分析し、特徴ベクトル時系列を出力する(ステップST3)。次いで変数nに初期値1を代入する(ステップST4)。そして、言語切換手段SW1と言語切換手段SW2をnに連動して切換える。これにより、音声標準モデルメモリ1上の変数nが表す言語に対応する音声標準モデルが設定され、また同時に、音声ラベルメモリ2上において変数nが表す言語に対応するユーザ辞書の保存先が設定される(ステップST5)。
 音声認識手段5は音響分析手段4から特徴ベクトル時系列を入力として、音声標準モデルメモリ1上において、変数nが表す言語に対応する音声標準モデルメモリ1のデータを用いて、音声ラベル列を生成する(ステップST6)。次いで、音声認識手段5が生成した前記音声ラベル列は、認識/登録切換手段SW4と言語切換手段SW2を介して、音声ラベルメモリ2上において、変数nが表す言語に対応するユーザ辞書保存先に登録される(ステップST7)。
 変数nが言語数Nと一致するか判定し(ステップST8)、もし一致しなければ、nにn+1を代入してステップST5へ戻る(ステップST9)。若し、変数nが言語数Nと一致していたときは、ステップST10へ処理を移す。ステップST10では、次の登録用音声入力があるかどうかを判定し、若し、ユーザが次の登録用音声を発話した場合は、ステップST2へ戻る。発話がない場合は、ユーザ辞書生成時の処理終了となる。
 以上のような処理を行うことにより、ユーザが登録させようとして発話した登録用音声は、自動的に言語1~言語Nに対応した音声標準モデルメモリ1のデータを用いて、同じく言語1~言語Nに対応したユーザ辞書として、音声ラベルメモリ2に登録されることになる。
 図3は実施の形態1における音声認識時の処理を用いて音声認識を行うときの動作を説明するフローチャートである。まず、制御手段6は外部から入力された音声認識指示に基づいて、言語切換手段SW1と言語切換手段SW3を連動させて所定の言語が認識可能となるように切換える(ステップST11)。上記の例で示せば、言語1~言語Nのいずれかの言語を選択する。次いで、認識/登録切換手段SW4を認識結果を出力する側に切換える(ステップST12)。
 そして、ユーザが発話した音声を、未知入力音声として音声信号入力端3から入力する(ステップST13)。入力された未知入力音声を音響分析手段4において音響分析し、特徴ベクトル時系列を出力する(ステップST14)。音声認識手段5は、ステップST14で得られた特徴ベクトル時系列を入力とし、この特徴ベクトル時系列に基づいてステップST11で設定された言語に対応する音声標準モデルメモリ1のデータと音声ラベルメモリ2に登録されたユーザ辞書を用いて認識処理を行い(ステップST15)、認識結果を認識/登録切換手段SW4を介して出力し、音声認識処理を終了する。
 以上の動作により、言語1~言語Nのいずれかの言語に設定された状態においても、ユーザが発話した登録用音声になるユーザ辞書を用いた音声認識が可能になる。
 このように、実施の形態1の音声認識装置によれば、第1の言語切換手段と第2の言語切換手段により、音声ラベル列を作るために使う音声標準モデルメモリの言語と、生成した音声ラベル列を保持する音声ラベルメモリの言語を自動的に切換ながら、入力された音声に対する音声ラベル列を生成・保持していく処理を行うことにより、ユーザが発声した登録音声に対応する音声ラベル列が各言語用に生成され、ユーザ辞書として保持される。この結果、音声認識で使う言語を切換えても、ユーザが発声した登録音声を使った音声認識が可能になる。
実施の形態2.
 図4は実施の形態2による音声認識装置の構成を示すブロック図であり、実施の形態1を示す図1の構成に言語選択手段7を付加したもので、他の構成は図1に示す実施の形態1の構成と同じであるから、重複説明は省略する。
 言語選択手段7は、ユーザが入力した言語指定データに基づき、言語を選択して制御手段6に与える。制御手段6は与えられた言語に基づいて、連動して言語切換手段SW1と言語切換手段SW2を、または連動して言語切換手段SW1と言語切換手段SW3を切換制御する。
 次に動作について説明する。図5は実施の形態2におけるユーザ辞書生成時の処理を説明するフローチャートである。ステップST21~ステップST24までの動作は実施の形態1におけるステップST1~ステップST4の動作と同じであるから、重複説明は省略する。
 次いで、言語指定データFIg(m)(m=1・・・Nについて定義されており、0もしくは1の値をとる)を用いて、言語選択手段7はFIg(n)=1であるか否かを判定し(ステップST25)、FIg(n)=1であればステップST26へ、FIg(n)=0であればステップST29の処理へ移行する。以下、ステップST26~ステップST31までの動作は実施の形態1におけるステップST5~ステップST10の動作と同じであるから、重複説明は省略する。
 以上のような構成と処理を行うことにより、ユーザが登録させようとして発話した登録用音声は、言語指定データFIg(m)(m=1・・・N)においてFIg(n)=1を満たす言語nについて、自動的にその言語nに対応した音声標準モデルメモリ1を用いて、同じく該言語nに対応したユーザ辞書として、音声ラベルメモリ2に登録されることになる。これにより、ユーザが使う言語nについてだけFIg(n)=1とすることで、N個の全ての言語についてのユーザ辞書を生成することが回避でき、ユーザ辞書生成のための時間を短縮することができる。またユーザ辞書を保存する音声ラベルメモリ2の容量を節約することもできる。
 次に、図6は前記のように生成されたユーザ辞書を用いて、音声認識を行うときの動作を説明するフローチャートである。言語選択手段7は、言語指定データにおいてFIg(n)=1を満たす言語nで認識可能になるように制御手段6に指示する。制御手段6は指示に基づいて、連動して言語切換手段SW1と言語切換手段SW3を所定の言語に切換設定する(ステップST41)。また、認識/登録切換手段SW4を認識側に切換える(ステップST42)。以下、ステップST43~ステップ45までの動作は実施の形態1におけるステップST13~ステップ15の動作と同じであるから、重複説明は省略する。
 以上の動作により、言語指定データにより、指定可能すなわちFIg(n)=1と設定された言語nのいずれにおいても、ユーザが発話した登録用音声になるユーザ辞書を用いた音声認識が可能になる。
 このように、実施の形態2によれば、外部から与えられる言語指定データに基づいて、連動関係にある言語切換手段SW1と言語切換手段SW2を切換えるように構成したことにより、ユーザもしくはシステムから与えられる言語指定データに従った言語についてのみ選択的に、ユーザ辞書を生成することが可能になり、辞書生成にかかる時間を短縮することができる。また音声ラベルメモリ2の使用量を減らすことが可能になる。
実施の形態3.
 図7はこの発明の実施の形態3の構成を示すブロック図であり、音声ラベルメモリ2aは、ある言語n(n=1~N)に対応したユーザ辞書を1言語分だけ保存するためのメモリである。音声データメモリ8は、音声信号入力端3から入力されるところの登録用音声を記録保存しておくメモリである。他の音声標準モデルメモリ1、音声信号入力端3、音響分析手段4、音声認識手段5、制御手段6、言語切換手段SW1、認識/登録切換手段SW4は図1に示す実施の形態1の構成と同じであるから、重複説明は省略する。
 次に動作について説明する。図8は実施の形態3において言語nで最初のユーザ辞書生成を行う場合の動作を用いて、ユーザ辞書生成時の処理を説明するフローチャートである。
まず、制御手段6は外部から入力されたユーザ辞書生成を行う言語nに基づいて、言語nを選択する位置に言語切換手段SW1を設定する(ステップST51)。次に、認識/登録切換手段SW4を登録に切換える(ステップST52)。これにより、音声認識手段5が出力する音声ラベル列の出力先が音声ラベルメモリ2aに設定される。
 そして、ユーザが発話した登録用音声を音声信号入力端3から入力する(ステップST53)。入力された登録用音声を音声データメモリ8に保存する(ステップST54)。また、その入力された登録用音声信号を音響分析手段4において音響分析し、特徴ベクトル時系列を音声認識手段5に出力する(ステップST55)。
 音声認識手段5は上記特徴ベクトル時系列を入力して、音声標準モデルメモリ1上において、変数nが表す言語に対応する音声標準モデルのデータを用いて、音声ラベル列を求める(ステップST56)。音声認識手段5が生成した前記音声ラベル列は、認識/登録切換手段SW4を介して、音声ラベルメモリ2a上にユーザ辞書として登録される(ステップST57)。そして、次の登録用音声があるかどうかを判定し(ステップST58)、若し、ユーザが次の登録用音声を発話する場合は、ステップST53へ戻り、上記ステップST53~ステップST57の動作を繰りかえす。発話がない場合は、ユーザ辞書生成処理が終了となる。
 以上が、言語nで最初の音声登録を行った場合の処理である。これら一連の処理により、ユーザが発話した登録用音声は、音声データそのものが音声データメモリ8に保存されると共に、音声ラベルメモリ2a上に言語nに対応するユーザ辞書が登録される。
 図9は前記のように、ユーザが発話した登録用音声について、音声データそのものが音声データメモリ8に保存され、かつ音声ラベルメモリ2a上に言語nに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作を説明するフローチャートである。
 まず、制御手段6は外部から入力された音声認識指示に基づいて、言語切換手段SW1を切換えて認識対象言語を変更するかを判断する(ステップST61)。変更しない、つまり、言語切換手段SW1が言語nのままの場合、ステップST62の処理に移る。ステップST62では、認識/登録切換手段SW4を認識に切換える。次いで、ユーザが発話した音声を、未知入力音声として音声信号入力端3から入力する(ステップST63)。入力された未知入力音声を音響分析手段4において音響分析し、特徴ベクトル時系列を音声認識手段5に出力する(ステップST64)。音声認識手段5は、ステップST64で得られた特徴ベクトル時系列を入力し、言語nに対応する音声標準モデルメモリ1のデータと音声ラベルメモリ2a上のユーザ辞書を用いて認識処理を行い(ステップST65)、認識結果を認識/登録切換手段SW4を介して出力し、音声認識処理を終了する。
 一方、ステップST61において、言語切換手段SW1を言語n以外に設定した場合の処理を説明する。この場合、処理はステップST66へ移行し、言語切換手段SW1を言語n以外の言語n’に設定する。そして、認識/登録切換手段SW4を登録に切換える(ステップST67)。
 音響分析手段4は音声ラベルメモリ2aに保存されていた音声データを読み出す(ステップST68)。そして、音響分析手段4は読み出した音声データに対する特徴ベクトル時系列をもとめて音声認識手段5に出力する(ステップST69)。音声認識手段5はステップST69で得られた特徴ベクトル時系列を入力として、ステップST66で設定された言語n’に対応する音声標準モデルメモリ1上の音声標準モデルのデータを用いて、音声ラベル列を生成する(ステップST70)。
 そして、生成された音声ラベル列を音声ラベルメモリ2a上にユーザ辞書として登録する(ステップST71)。次いで、ステップST69からステップST71の処理を施していない音声データが残っているか否かをチエックし(ステップST72)、若し、残っているならばステップST68へ戻り、残りの音声データについてステップST69~ステップST71の処理を繰り返す。もし音声データが残っていなければ、ステップST62へ処理を移す。ステップST62以降の処理は、言語切換手段SW1を言語nのままで切換えなかった前述の処理と同じであるので、重複説明を省略する。
 以上の動作により、言語n’に切換えた場合は、即座に音声データメモリ8上に記録してある音声データを使って言語n’に対応したユーザ辞書が生成され、音声ラベルメモリ2a上に保存されるため、言語n’に設定された場合も、ユーザ辞書を使った音声認識が可能になる。また、このような実施の形態3では、音声ラベルメモリ2aは1言語分だけ確保しておけばいいので、メモリの軽減が実現できる。
 これにより、実施の形態3によれば、ユーザが発話した登録音声を保持し、音響分析手段4が前記登録音声を使って音響分析する音声データメモリ8を備えたことにより、言語ごとに音声ラベルメモリ2aを確保しておく必要がなくなり、音声認識システムが使う言語が切換えられたときにも、音声データメモリ8に記録してあるユーザが発声した登録音声を使って、選択した言語に対応するユーザ辞書が作成され、これを用いた音声認識が可能になる。
実施の形態4.
 図10はこの発明の実施の形態4の構成を示すブロック図であり、実施の形態3における音声データメモリ8の代わりに、ユーザが発話した登録用音声に対して音響分析手段4が出力するところの特徴ベクトル時系列を記録保存しておく音響データメモリ9を備えたものである。他の構成は実施の形態3の構成と同じであるから、重複説明を省略する。
 次に、ユーザが発話した登録用音声について、その音声に対応する特徴ベクトル時系列を音響データメモリ9に保存され、かつ、音声ラベルメモリ2a上に言語nに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明する。
 図11は実施の形態4において(言語nで最初のユーザ辞書生成を行う場合)を用いて、ユーザの登録用音声を用いて言語nに対応するユーザ辞書生成時の処理を説明するフローチャートである。まず、言語切換手段SW1をユーザ辞書生成を行う言語nに設定する(ステップST81)。
 次に、認識/登録切換手段SW4を登録に切換える(ステップST82)。これにより、音声認識手段5が出力する音声ラベル列の出力先が、音声ラベルメモリ2aに設定される。ユーザが発話した登録用音声を音声信号入力端3から入力する(ステップST83)。音響分析手段4は、入力された登録用音声信号の音響分析を行い、特徴ベクトル時系列を出力する(ステップST84)。
 ステップST84で得られた特徴ベクトル時系列は、音響データメモリ9上に記録保存する(ステップST85)。音声認識手段5は上記特徴ベクトル時系列を入力として、音声標準モデルメモリ1上において、変数nが表す言語に対応する音声標準モデルのデータを用いて、音声ラベル列を生成する(ステップST86)。
 音声認識手段5が生成した前記音声ラベル列は、認識/登録切換手段SW4を介して、音声ラベルメモリ2a上にユーザ辞書として登録する(ステップST87)。そして、次の登録用音声があるかどうかを判定し、若し、ユーザが次の登録用音声を発話する場合は、ステップST83へ戻り、ステップST83~ステップST88の処理を繰りかえす。発話がない場合は、ユーザ辞書生成処理を終了する(ステップST88)。
 以上が、言語nで最初の音声登録を行った場合の処理である。これら一連の処理により、ユーザが発話した登録用音声の特徴ベクトル時系列が音響データメモリ9に保存されると共に、音声ラベルメモリ2a上に言語nに対応するユーザ辞書が登録される。
 図12は前記のように、ユーザが発話した登録用音声について、その音声に対応する特徴ベクトル時系列が音響データメモリ9に保存され、かつ音声ラベルメモリ2a上に言語nに対応するユーザ辞書が登録されている状態で、音声認識を行う場合の動作について説明するフローチャートである。
 まず、制御手段6は外部から入力された音声認識指示に基づいて、言語切換手段SW1を切換えて認識対象言語を変更するかを判断し(ステップST91)、言語切換SW1が言語nのままの場合、ステップST92の処理に移る。このステップST92では、認識/登録切換手段SW4を認識に切換える。次いでステップST93で、ユーザが発話した音声を、未知入力音声として音声信号入力端3から入力する。入力された未知入力音声を音響分析手段4において音響分析し、特徴ベクトル時系列を音声認識手段5に出力する(ステップST94)。
 音声認識手段5は、ステップST94で得られた特徴ベクトル時系列を入力とし、言語nに対応する音声標準モデルメモリ1のデータと音声ラベルメモリ2上のユーザ辞書を用いて認識処理を行い(ステップST95)、認識結果を認識/登録切換手段SW4を通じて出力する。
 次にステップST91において、言語切換手段SW1を言語n以外に選択変更する場合はステップST96へ移行し、言語切換手段SW1を言語n以外の言語n’に設定し、認識/登録切換手段SW4を登録に切換える(ステップST97)。音声認識手段5は音響データメモリ9に保存されていた登録用音声に対応する特徴ベクトル時系列を読み出す(ステップST98)。
 そして、音声認識手段5は、読み出した特徴ベクトル時系列を入力として、ステップST96で設定された言語n’に対応するところの、音声標準モデルのデータを用いて、音声ラベル列を生成する(ステップST99)。得られた音声ラベル列は、認識/登録切換手段SW4を介して音声ラベルメモリ2a上にユーザ辞書として登録する(ステップST100)。
 次いで、音響データメモリ9上において、ステップST99からステップST100の処理を施していない特徴ベクトル時系列が残っているか否かを判断し(ステップST101)、若し、残っているならばステップST98へ戻り、残りの音声データについてステップST99~ステップST101の処理を繰り返す。若し、特徴ベクトル時系列が残っていなければ、ステップST92へ処理を移行する。ステップST92以降の処理は、言語切換手段SW1を言語nのままで切換えなかった前述の処理と同じであるので、重複説明を省略する。
 以上の動作により、言語n’に切換えた場合は、即座に音響データメモリ9上の特徴ベクトル時系列を使って言語n’に対応したユーザ辞書が生成され、音声ラベルメモリ2a上に保存されるため、言語n’に設定された場合も、ユーザ辞書を使った音声認識が可能になる。また、この実施の形態4では、音声ラベルメモリ2aを1言語分だけ確保しておけばよいので、音声ラベルメモリの削減が実現できる。加えて、音響分析が完了している特徴ベクトル時系列を保存しておく音響データメモリ9を持っているため、実施の形態3の場合より演算量を少なくすることができ、ユーザ辞書生成処理の迅速化を図ることができる。
 これにより、実施の形態4によれば、音響分析手段4で音響分析して得られた特徴ベクトル時系列を音響データメモリ9に保持し、この音響データメモリ9に保持された前記特徴ベクトル時系列を使って、音声認識手段5が音声ラベル列を生成する。この結果、言語ごとに音声ラベルメモリ2aを確保しておくことなく、音声認識システムが使う言語が切換えられたときにも、ユーザが発声し、音響データメモリ9に保持した発話音声の特徴ベクトル時系列を使って、選択された言語に対応するユーザ辞書が作成され、これを用いた音声認識が可能になる。
 この発明に係る音声認識装置は、ユーザ発話音声から各言語用にユーザ辞書を生成し、保持することが可能なため、ユーザが所望の言葉を外国語に変換し、保存したい場合に使用する音声認識装置等に用いるのに適している。

Claims (7)

  1.  認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
     複数の言語に対応したユーザ辞書を保存する音声ラベルメモリと、
     前記音声標準モデルメモリの複数の言語を切換選択する第1の言語切換手段と、
     前記音声ラベルメモリの複数の言語を切換選択する第2の言語切換手段と、
     前記第1の言語切換手段と第2の言語切換手段を連動して切換える制御手段と、
     入力されたユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
     前記音響分析手段からの特徴ベクトル時系列と前記第1の言語切換手段を切換えながら選択された前記音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベル列を生成し、この音声ラベル列を前記第1の言語切換手段と連動して前記第2の言語切換手段で切換えられる前記音声ラベルメモリの言語に登録する音声認識手段と、
    を備えた音声認識装置。
  2.  音声ラベルメモリの複数の言語を切換選択する第3の言語切換手段と、
     音声認識手段の認識結果を外部へ出力するか音声ラベルメモリに登録するかを選択する認識/登録切換手段を備え、
     制御手段は出力指示に基づいて前記認識/登録切換手段を認識に切換えるとともに、第1の言語切換手段と前記第3の言語切換手段を連動して切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第1の言語切換手段を切換えながら選択された前記音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識/登録切換手段を介して出力することを特徴とする請求項1記載の音声認識装置。
  3.  外部から与えられる言語指定データに基づいて言語を選択する言語選択手段を備え、
     制御手段は、前記言語選択手段で選択された言語に基づいて該言語に対応する言語を選択するように、第1の言語切換手段と第2の言語切換手段を連動して切換えることを特徴とする請求項1記載の音声認識装置。
  4.  認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
     ユーザ辞書を保存する音声ラベルメモリと、
     前記音声標準モデルメモリの複数の言語を切換選択する第1の言語切換手段と、
     指示言語に基づいて前記第1の言語切換手段を指示言語選択位置に切換える制御手段と、
     ユーザが発話した音声を保持する音声データメモリと、
     入力されたユーザ発話音声または前記音声データメモリから読み出したユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
     前記第1の言語切換手段で選択された言語に対応する音声標準モデルのデータと前記特徴ベクトル時系列に基づいて、ユーザ発話音声に対する音声ラベルを生成し、この音声ラベルを前記音声ラベルメモリに登録する音声認識手段と、
    を備えた音声認識装置。
  5.  認識対象とする複数の言語に対応した音声標準モデルを格納した音声標準モデルメモリと、
     ユーザ辞書を保存する音声ラベルメモリと、
     前記音声標準モデルメモリの複数の言語を切換選択する第1の言語切換手段と、
     指示言語に基づいて前記第1の言語切換手段を指示言語選択位置に切換える制御手段と、
     入力されたユーザ発話音声に対し音響分析処理を施し、前記ユーザ発話音声の特徴ベクトル時系列を出力する音響分析手段と、
     前記音響分析手段で音響分析して得られた特徴ベクトル時系列を保持する音響データメモリと、
     前記第1の言語切換手段で選択された言語に対応する音声標準モデルのデータと前記音響データメモリから読み出した特徴ベクトル時系列に基づいて、ユーザ発話音声に対する音声ラベルを生成し、この音声ラベルを前記音声ラベルメモリに登録する音声認識手段と、
    を備えた音声認識装置。
  6.  音声認識手段の認識結果を音声ラベルメモリに登録するか外部へ出力するかを選択する認識/登録切換手段を備え、
     制御手段は認識指示に基づいて前記認識/登録切換手段を認識に切換えるとともに、第1の言語切換手段を切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第1の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識/登録切換手段を介して出力することを特徴とする請求項4記載の音声認識装置。
  7.  音声認識手段の認識結果を音声ラベルメモリに登録するか外部へ出力するかを選択する認識/登録切換手段を備え、
     制御手段は認識指示に基づいて前記認識/登録切換手段を認識に切換えるとともに、第1の言語切換手段を切換え、音声認識手段は入力されたユーザ発話音声の特徴ベクトル時系列と前記第1の言語切換手段を切換えながら選択された音声標準モデルメモリの言語に対応する音声標準モデルのデータとにより前記入力されたユーザ発話音声に対する音声ラベルを前記音声ラベルメモリから読み出し、前記認識/登録切換手段を介して出力することを特徴とする請求項5記載の音声認識装置。
PCT/JP2009/005488 2009-01-28 2009-10-20 音声認識装置 WO2010086928A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US13/119,445 US8099290B2 (en) 2009-01-28 2009-10-20 Voice recognition device
DE112009004313.5T DE112009004313B4 (de) 2009-01-28 2009-10-20 Stimmerkennungseinrichtung
JP2010546177A JP4703787B2 (ja) 2009-01-28 2009-10-20 音声認識装置
CN2009801490344A CN102239517B (zh) 2009-01-28 2009-10-20 声音识别装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009-016783 2009-01-28
JP2009016783 2009-01-28

Publications (1)

Publication Number Publication Date
WO2010086928A1 true WO2010086928A1 (ja) 2010-08-05

Family

ID=42395198

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/005488 WO2010086928A1 (ja) 2009-01-28 2009-10-20 音声認識装置

Country Status (5)

Country Link
US (1) US8099290B2 (ja)
JP (1) JP4703787B2 (ja)
CN (1) CN102239517B (ja)
DE (1) DE112009004313B4 (ja)
WO (1) WO2010086928A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182038A1 (ko) * 2021-02-24 2022-09-01 삼성전자주식회사 음성 명령 처리 장치 및 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392189B2 (en) * 2009-09-28 2013-03-05 Broadcom Corporation Speech recognition using speech characteristic probabilities
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US20140067366A1 (en) * 2012-08-30 2014-03-06 Google Inc. Techniques for selecting languages for automatic speech recognition
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
CN105793920B (zh) * 2013-11-20 2017-08-08 三菱电机株式会社 声音识别装置及声音识别方法
CN104978015B (zh) * 2014-04-14 2018-09-18 博世汽车部件(苏州)有限公司 具有语种自适用功能的导航系统及其控制方法
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN106710586B (zh) * 2016-12-27 2020-06-30 北京儒博科技有限公司 一种语音识别引擎自动切换方法和装置
DE112017007852B4 (de) * 2017-09-11 2023-05-17 Mitsubishi Electric Corporation Spracherkennung-Wörterbuchdaten-Konstruktionsvorrichtung, Spracherkennungsvorrichtung, Spracherkennung-Wörterbuchdaten-Konstruktionsverfahren
JP7117970B2 (ja) * 2018-10-17 2022-08-15 株式会社日立ビルシステム 案内ロボットシステム及び案内方法
US10885912B2 (en) * 2018-11-13 2021-01-05 Motorola Solutions, Inc. Methods and systems for providing a corrected voice command

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304190A (ja) * 2001-02-14 2002-10-18 Sony Internatl Europ Gmbh 発音変化形生成方法及び音声認識方法
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US6219641B1 (en) * 1997-12-09 2001-04-17 Michael V. Socaciu System and method of transmitting speech at low line rates
DE19847419A1 (de) * 1998-10-14 2000-04-20 Philips Corp Intellectual Pty Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
JP2001005488A (ja) * 1999-06-18 2001-01-12 Mitsubishi Electric Corp 音声対話システム
JP2001101187A (ja) * 1999-09-30 2001-04-13 Sony Corp 翻訳装置および翻訳方法、並びに記録媒体
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP2001282788A (ja) 2000-03-28 2001-10-12 Kyocera Corp 電子辞書装置及び電子辞書装置の使用言語切替方法、記憶媒体
US7035805B1 (en) * 2000-07-14 2006-04-25 Miller Stephen S Switching the modes of operation for voice-recognition applications
JP2002247646A (ja) 2001-02-19 2002-08-30 Sony Corp 携帯端末装置およびコンピュータプログラム
JP3837061B2 (ja) * 2001-11-28 2006-10-25 富士通株式会社 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
JP2004053742A (ja) * 2002-07-17 2004-02-19 Matsushita Electric Ind Co Ltd 音声認識装置
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
DE10305369B4 (de) * 2003-02-10 2005-05-19 Siemens Ag Benutzeradaptives Verfahren zur Geräuschmodellierung
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US20050197837A1 (en) * 2004-03-08 2005-09-08 Janne Suontausta Enhanced multilingual speech recognition system
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
KR100640893B1 (ko) * 2004-09-07 2006-11-02 엘지전자 주식회사 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기
US7340390B2 (en) * 2004-10-27 2008-03-04 Nokia Corporation Mobile communication terminal and method therefore
ATE400047T1 (de) * 2005-02-17 2008-07-15 Loquendo Spa Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb einer erkennungsdomäne eines automatischen spracherkennungssystems liegen
EP1693828B1 (en) * 2005-02-21 2008-01-23 Harman Becker Automotive Systems GmbH Multilingual speech recognition
GB2424742A (en) * 2005-03-31 2006-10-04 Ibm Automatic speech recognition
DE102005018174A1 (de) * 2005-04-19 2006-11-02 Daimlerchrysler Ag Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
CN101008942A (zh) * 2006-01-25 2007-08-01 北京金远见电脑技术有限公司 机器翻译装置和机器翻译方法
KR100707970B1 (ko) * 2006-03-10 2007-04-16 (주)인피니티 텔레콤 이동통신단말기를 이용한 통역 서비스 방법
JP2007249653A (ja) * 2006-03-16 2007-09-27 Fujitsu Ltd マークアップ言語情報の処理装置、情報処理方法、およびプログラム
DE102006057159A1 (de) * 2006-12-01 2008-06-05 Deutsche Telekom Ag Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304190A (ja) * 2001-02-14 2002-10-18 Sony Internatl Europ Gmbh 発音変化形生成方法及び音声認識方法
JP2003022087A (ja) * 2001-03-07 2003-01-24 Sony Internatl Europ Gmbh 音声認識方法
JP2004101727A (ja) * 2002-09-06 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182038A1 (ko) * 2021-02-24 2022-09-01 삼성전자주식회사 음성 명령 처리 장치 및 방법

Also Published As

Publication number Publication date
US20110166859A1 (en) 2011-07-07
DE112009004313T5 (de) 2012-05-24
CN102239517A (zh) 2011-11-09
JPWO2010086928A1 (ja) 2012-07-26
US8099290B2 (en) 2012-01-17
DE112009004313B4 (de) 2016-09-22
CN102239517B (zh) 2013-05-08
JP4703787B2 (ja) 2011-06-15

Similar Documents

Publication Publication Date Title
JP4703787B2 (ja) 音声認識装置
JP6686154B2 (ja) 発話認識方法及び装置
WO2011089651A1 (ja) 認識辞書作成装置、音声認識装置及び音声合成装置
JP4316494B2 (ja) 音声認識装置
US20060041429A1 (en) Text-to-speech system and method
JP2000122691A (ja) 綴り字読み式音声発話の自動認識方法
JP3803029B2 (ja) 音声認識装置
JPH10143191A (ja) 音声認識システム
JP2002006878A (ja) 音声フレーズ認識方法及び音声認識装置
WO2007007256A1 (en) Correcting a pronunciation of a synthetically generated speech object
JP2006048058A (ja) 多言語による名称の音声認識のための方法とシステム
WO2011121649A1 (ja) 音声認識装置
CN108417222B (zh) 加权有限状态变换器解码系统以及语音识别系统
JPH09127978A (ja) 音声認識方法及び装置及びコンピュータ制御装置
JP4905522B2 (ja) 機器制御装置、機器制御方法及びプログラム
JP2006058390A (ja) 音声認識装置
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
JP2001154691A (ja) 音声認識装置
JP4741208B2 (ja) 音声合成用読み上げテキストデータ選択プログラムおよび音声合成用読み上げテキストデータ選択装置
JP2008152043A (ja) 音声認識装置及び音声認識方法
US20090254335A1 (en) Multilingual weighted codebooks
JP3478171B2 (ja) 音声認識装置及び音声認識方法
JP7038919B2 (ja) 多言語音声認識装置および多言語音声認識方法
JP2004037813A (ja) 車載用音声認識装置およびそれを用いた音声認識システム
JP2006010849A (ja) 音声合成装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980149034.4

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09839120

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010546177

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13119445

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120090043135

Country of ref document: DE

Ref document number: 112009004313

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09839120

Country of ref document: EP

Kind code of ref document: A1