DE69726235T2

DE69726235T2 - Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number: DE69726235T2
Application number: DE69726235T
Authority: DE
Inventors: Yasuhiro Ohta-ku Komori; Tetsuo Ohta-ku Kosaka; Masayuki Ohta-ku Yamada
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-09-20
Filing date: 1997-09-18
Publication date: 2004-08-19
Anticipated expiration: 2017-09-19
Also published as: EP0831456A2; DE69726235D1; US6108628A; JPH1097276A; EP0831456B1; EP0831456A3

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren und eine Vorrichtung dafür und insbesondere auf ein Spracherkennungsverfahren zum Erkennen der eingegebenen Sprache unter Nutzung eines Modells und eine Vorrichtung dafür.
Relevanter Stand der Technik
Unter den bekannten Spracherkennungstechnologien verwenden wenige Spracherkennungstechnologien Modelle mehrerer Sprecherklassen, und selbst falls derartige Modelle verwendet werden, wird ein Verfahren zur Nutzung von in männliche und weibliche Sprecher aufgeteilten Modellen und Auswahl des zu verwendenden Modells vor der Ausführung einer Spracherkennung angewendet. Es ist kein Verfahren zur Nutzung eines Modells von unbestimmtem Sprechermodell oder Nutzung eines männlichen Modells und eines weiblichen Modells zur Spracherkennung zu der gleichen Zeit vorhanden gewesen, und es ist kein ein derartiges Verfahren nutzender Hochgeschwindigkeitsprozeß vorhanden gewesen.
Bei der Modellvorbereitung zur Spracherkennung ist es allgemein bekannt, daß eine höhere Leistungsfähigkeit der Erkennung erhalten werden kann, indem Einzelheiten in dem Hidden-Markov-Modell (HMM) in der Richtung der Phonemumgebung erzeugt werden. Es wird ebenfalls bekannt, daß eine höhere Leistungsfähigkeit der Erkennung erhalten werden kann, indem durch Geschlechter dargestellte Einzelheiten in der Richtung von Sprecherklassen erzeugt werden. Während jedoch in dem Fall der Erzeugung des ausführlichen Modells in der Richtung der Phonemumgebung die Last des Erkennungsprozesses hauptsächlich bei der Ausgabewahrscheinlichkeitsberechnung des HMM zunimmt, nimmt in dem Fall der Erzeugung des ausführlichen Modells in der Richtung von Sprecherklassen die Last sowohl bei der Ausgabewahrscheinlichkeitsberechnung als auch bei der Sprachsuche zu. Bei der Spracherkennung ist der Echtzeitprozeß ein sehr wichtiger Faktor, der in Kombination mit der hohen Erkennungsrate erreicht werden muß. Es ist daher notwendig, den Echtzeitprozeß der Spracherkennung zu realisieren, während die Erkennungsrate davon verbessert wird, und zu diesem Zweck ist es notwendig, einen Sprecherklassenmodelle nutzenden Hochgeschwindigkeitsprozeß zu realisieren.
Es ist aus Kosaka et al. "Tree-structured Speaker Clustering for Fast Speaker Adaptation", Proceedings of the International Conference on Acoustics, Speech, Signal Processing (ICASSP), Speech Processing 1, Adelaide, 19.–22. April 1994, Seiten I-245–I-248 bekannt, eine sprecheradaptive Spracherkennung unter Verwendung einer hierarchischen Sprecheranhäufung bereitzustellen, bei der Sprechermodelle in einer Baumstruktur angeordnet sind, um sowohl eine genaue als auch eine grobe Adaption gemäß dem Ausmaß von Training zu erreichen.
Ausgestaltungen der vorliegenden Erfindung sind in den beigefügten Patentansprüchen definiert.
Ein Ausführungsbeispiel ermöglicht eine Hochgeschwindigkeitsspracherkennung mit einer hohen Erkennungsrate durch ein Analysieren der eingegebenen Sprache, ein Bestimmen der Ausgabewahrscheinlichkeit von Modellen, d. h. eines Modells eines unbestimmten Sprechers bzw. unbestimmten Sprechermodells und mehrerer gemäß mehreren Sprecherklassen geclusterter bzw. angehäufter Sprechermodelle, und des Ergebnisses der Analyse der eingegebenen Sprache, und ein Bestimmen des Ergebnisses der Erkennung der eingegebenen Sprache auf der Grundlage der so bestimmten Ausgabewahrscheinlichkeit.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein funktionelles Blockschaltbild eines Ausführungsbeispiels der vorliegenden Erfindung;
2 zeigt ein Ablaufdiagramm, das den Prozeßablauf bei dem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
3 zeigt eine Ansicht, die einen bekannten Prozeß unter Nutzung von Sprecherklassenmodellen darstellt;
4 zeigt eine Ansicht, die einen Hochgeschwindigkeitsprozeß der vorliegenden Erfindung unter Nutzung von Sprecherklassenmodellen darstellt;
5 zeigt eine Ansicht, die den Vergleich von Verarbeitungszeiten darstellt;
6 zeigt eine Ansicht, die Sprecherklassen mit einer hierarchischen Struktur darstellt;
7 zeigt eine Tabelle, die die Ergebnisse der Erkennung von Telefonsprache unter Nutzung von Sprecherklassen darstellt; und
8 zeigt ein Blockschaltbild, das einen Hardwareaufbau einer die vorliegende Erfindung verkörpernden Vorrichtung darstellt.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
1 zeigt ein funktionelles Blockschaltbild einer die vorliegende Erfindung verkörpernden Vorrichtung.
In 1 sind eine Spracheingabevorrichtung 101 einschließlich eines Mikrofons oder eines A/D-Wandlers zum Eingeben der Sprache eines Eingabesprechers; eine akustische Verarbeitungseinheit 102 zum Bestimmen von Sprachparametern durch eine akustische Analyse; eine Ausgabewahrscheinlichkeitsberechnungseinheit 103 zum Berechnen einer gemeinsamen groben Ausgabewahrscheinlichkeit und einer feinen Ausgabewahrscheinlichkeit für jede Sprecherklasse; ein Sprecherklassenmodell (HMM: Hidden-Markov-Modell) 104; eine Sprachsucheinheit 105 für eine gemeinsame grobe Sprachsuche und eine feine Sprachsuche für jede Sprecherklasse; eine bei der Sprachverarbeitung verwendete Grammatik-/Wörterbucheinheit 106; und eine Anzeigevorrichtung 107 zum Ausgeben des Ergebnisses bereitgestellt.
1 zeigt ein funktionelles Blockschaltbild einer die Erfindung verkörpernden Spracherkennungsvorrichtung, während 8 den Hardwareaufbau einer derartigen Spracherkennungsvorrichtung zeigt, und die Funktionen der Blöcke in 1 sind durch die in 8 gezeigten Komponenten realisiert.
Genauer ist die Funktion der Spracheingabevorrichtung 101 durch eine Spracheingabevorrichtung 86 realisiert, und die Funktionen der akustischen Verarbeitungseinheit 102, der Ausgabewahrscheinlichkeitsberechnungseinheit 103 und der Sprachsucheinheit 105 sind unter der Steuerung einer CPU 83 gemäß einem in einem ROM 81 oder einem RAM 82 gespeicherten Steuerprogramm realisiert.
Das Sprecherklassen-HMM-Modell 104 und die Grammatik/ das Wörterbuch 106 sind in dem ROM 81 oder dem RAM 82 gespeichert. Die Steuerprogramme, das HMM und das Wörterbuch, die in dem RAM 82 gespeichert sind, und die bei verschiedenen Prozessen erforderlichen Parameter können über eine Schnittstelle (I/F) 85 von einer CD-ROM 84 oder über eine öffentliche Übertragungsleitung von einem (nicht gezeigten) anderen Endgerät installiert werden.
Die Anzeigevorrichtung 107 kann durch eine Anzeigevorrichtung 87 wie beispielsweise eine CRT oder eine Flüssigkristallanzeigevorrichtung realisiert sein, und verschiedene Anweisungen können durch eine Eingabeeinrichtung 88 wie beispielsweise eine Tastatur, eine Maus und/oder ein Tablett eingegeben werden.
Die Spracherkennungsvorrichtung besteht aus den vorstehend angeführten Komponenten und funktioniert gemäß dem in 2 gezeigten Ablauf. Durch die Spracheingabevorrichtung 201 (101 entsprechend) herausgeschnittene Sprache wird durch die akustische Verarbeitungseinheit 202 (102 entsprechend) in Sprachparameter in jedem Rahmen analysiert, und die Aus gabewahrscheinlichkeitsberechnungseinheit 203 (103 entsprechend) berechnet unter Nutzung des HMM 204 (104 entsprechend) die Ausgabewahrscheinlichkeit. Das HMM 204 (104 entsprechend) speichert in mehreren Sprecherklassen geclusterte bzw. angehäufte Sprecherklassenmodelle. Bei der Ausgabewahrscheinlichkeitsberechnung in 203 berechnet die Ausgabewahrscheinlichkeitsberechnungseinheit zuerst eine gemeinsame grobe Ausgabewahrscheinlichkeit (203-a) und berechnet auf der Grundlage des Ergebnisses einer derartigen Berechnung wieder eine feine Ausgabewahrscheinlichkeit für jede Sprecherklasse, die zu dem Ergebnis der Erkennung beitragen kann (203-b). Daraufhin wird eine gemeinsame Ausgabewahrscheinlichkeit aus diesen Ausgabewahrscheinlichkeiten bestimmt, und die Sprachsucheinheit 205 (105 entsprechend) führt eine gemeinsame Sprachsuche auf der Grundlage der Grammatik/ des Wörterbuchs 206 (106 entsprechend) und der vorstehend bestimmten gemeinsamen Ausgabewahrscheinlichkeit aus, wodurch ein Kandidat der Erkennung bestimmt wird (205-a). Die Sprachsucheinheit 205 (105 entsprechend) führt daraufhin unter Nutzung der feinen Ausgabewahrscheinlichkeit für jede Sprecherklasse eine feine Sprachsuche für jede Sprecherklasse aus, wodurch ein Erkennungsergebnis und seine Wahrscheinlichkeit bestimmt werden (205-b). Diese Ergebnisse werden als die Ergebnisse der Erkennung bei 207 (107 entsprechend) ausgegeben.
[Verfahren zur Vorbereitung eines hochwertigen HMM unter Berücksichtigung von Sprecherklassen]
Nachstehend sind Verfahren zur Vorbereitung von Sprecherklassen und von Sprecherklassen-HMM erläutert.
I. Verfahren zur Vorbereitung von Sprecherklassen
Nachstehend ist das Verfahren zur Vorbereitung von Sprecherklassen erläutert. In einer Sprecherklasse sind Sprecher mit akustisch ähnlichen Merkmalen geclustert bzw. angehäuft. Die Ähnlichkeit der akustischen Merkmale der Sprecher kann durch verschiedene Verfahren gemessen werden, wie beispielsweise:

1) ein Verfahren zur Betrachtung des akustischen Merkmals jedes Sprechers als eine Verteilung, Vorbereitung von Verteilungen für die jeweiligen Sprecher und Messung der Ähnlichkeit zwischen den Sprechern durch den Abstand zwischen derartigen Verteilungen;
2) ein Verfahren zur Darstellung eines Raums eines unbestimmten Sprechers bzw. unbestimmten Sprecherraums durch mehrere repräsentative Punkte oder Verteilungen, Bestimmung der Abweichung der repräsentativen Punkte jedes Sprechers in dem unbestimmten Sprecherraum und Messung der Ähnlichkeit zwischen den Sprechern durch eine derartige Abweichung; und
3) ein Verfahren zur Vorbereitung von Teilräumen für jeweilige Sprecher unter Berücksichtigung der Lauteigenschaft, Ausbildung einer Entsprechung zwischen derartigen Teilräumen unter Berücksichtigung der Lauteigenschaft und Messung der Ähnlichkeit zwischen den Sprechern durch die Summe der Ähnlichkeiten der Teilräume.

Das Verfahren (1) kann realisiert werden, indem das kontinuierliche HMM einer Verteilung für einen Zustand für jeden Sprecher unter Nutzung des ganzen Sprachraums untersucht wird und die Ähnlichkeit zwischen den Sprechern durch ein Bestimmen des Abstands des HMM der Sprecher gemessen wird. Bei diesem Verfahren wird jedoch der Durchschnitt der Verteilung jedes Sprechers ein Cepstrum-Mittelwert, da der ganze Sprachraum jedes Sprechers durch eine Verteilung dargestellt ist, so daß der Unterschied zwischen den Sprechern nicht deutlich werden kann. Folglich kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
Das Verfahren (2) kann realisiert werden, indem ein Codebuch (z. B. von einer Codewortgröße von 1024) eines unbestimmten Sprechers vorbereitet wird (d. h. das HMM der diskreten Verteilung eines Zustands von 1024 Codewörtern untersucht wird), die Wahrscheinlichkeiten des Auftretens derartiger Codewörter für jeden Sprecher bestimmt werden und die Ähnlichkeit zwischen den Sprechern durch die Abweichung derartiger Auftretenswahrscheinlichkeiten gemessen wird. Dieses Verfahren ist dem Verfahren (1) dahingehend vorzuziehen, daß der Sprachraum in Teilräume aufgeteilt wird. Da dieses Verfahren die Lauteigenschaft nicht berücksichtigt, kann jedoch die gemessene Ähnlichkeit zwischen den Sprechern auf der Ähnlichkeit zwischen einem Laut eines Sprechers und einem anderen Laut eines anderen Sprechers basieren, und in Anbetracht einer derartigen Möglichkeit kann dieses Verfahren nicht als zu bevorzugend betrachtet werden.
Das Verfahren (3) kann realisiert werden, indem Modelle unter Berücksichtigung des Lauts für jeden Sprecher vorbereitet werden und die Ähnlichkeit zwischen den Sprechern durch die Summen der Ähnlichkeiten der entsprechenden Modelle gemessen wird. Es werden z. B. Phonem-HMM von 1 Verteilung für 3 Zustände für jeden Sprecher vorbereitet, und die Ähnlichkeit zwischen den Sprechern wird durch ein Bestimmen der Ähnlichkeit in jedem entsprechenden Zustand jedes entsprechenden Phonems der Sprecher und ein Berechnen der Summe derartiger Ähnlichkeiten gemessen. Bei diesem Verfahren wird die Ähnlichkeit zwischen den Sprechern unter Berücksichtigung des ganzen Sprachraums der Sprecher gemessen, während eine Entsprechung zwischen den durch das Phonem dargestellten Phonemteilräumen und dem Zustand ausgebildet wird, und kann daher unter Berücksichtigung des Lautmerkmals angegeben werden, wobei auch der genaue Unterschied bei dem akustischen Merkmal jedes Sprechers widergespiegelt wird. Die Ähnlichkeit zwischen den Sprechern kann auch in einer genaueren Art und Weise gemessen werden, indem das Phonemmodell durch ein von der Phonemumgebung abhängiges genaueres HMM ersetzt wird.
In Anbetracht des Vorstehenden wird die Ähnlichkeit zwischen den Sprechern durch das vorstehend erläuterte Verfahren (3) bestimmt, und die Sprecherklassen werden gemäß einer derartigen Ähnlichkeit bestimmt. Nachstehend ist der Algorithmus zum Vorbereiten der Sprecherklassen erläutert.
II. Algorithmus zur Vorbereitung von Sprecherklassen
1) Zuerst werden Phonem-HMM von 1 Verteilung für 3 Zustände vorbereitet.
Unter Ausschluß des lautlosen Zustands 24 Phoneme betrachtend wird jeder Sprecher durch 72 Teilräume (= 24 Phoneme × 3 Zustände) dargestellt. Für 204 Sprecher werden z. B. 4896 HMM vorbereitet, und die gesamte Anzahl von Verteilungen wird 14688 (4896 × Anzahl von Zuständen (3)).
2) Die Ähnlichkeit zwischen den Sprechern wird durch die für jeden Sprecher vorbereiteten Phonem-HMM gemessen.
Für zwei Sprecher S⁽¹⁾ und S⁽²⁾ wird durch ein Definieren von Zuständen ϕ_p, ϕ_q für einen entsprechenden Zustand n eines entsprechenden Phonems m unter den Phonem-HMM (24 Arten) die Ähnlichkeit zwischen derartigen Zuständen durch einen Abstand d (ϕ_p, ϕ_q) dargestellt, wobei ϕ_p und ϕ_q dargestellt werden durch:
Da jeder Zustand durch eine Verteilung dargestellt wird, kann der Abstand d(ϕ_p, ϕ_q) gemäß der folgenden Gleichung (2) unter Verwendung des Bhattacharyya-Abstands berechnet werden:
wobei μ_i und Σ_i jeweils für Mittelwert und Streuung stehen.
Die Abstände aller der Zustände aller der entsprechenden Phoneme der Sprecher werden durch die vorstehende Gleichung bestimmt, und die Ähnlichkeit der Sprecher ist durch den Abstand D(S⁽¹⁾, S⁽²⁾) bestimmt, bei dem es sich um die Summe der vorstehend angeführten Abstände handelt. Der Abstand D(S⁽¹⁾, S⁽²⁾) wird durch die folgende Gleichung (3) berechnet:
wobei M die Anzahl von Arten von HMM angibt und N die Anzahl von Zuständen pro HMM angibt.
Die Ähnlichkeit wird wie vorstehend erläutert für jeweils zwei Sprecher aller der Sprecher bestimmt.
3) Die Sprecher werden durch einen LBG-Algorithmus auf der Grundlage der Ähnlichkeiten aller der Sprecher angehäuft. Der LBG-Algorithmus wird in der folgenden Prozedur ausgeführt:

1. Es wird ein zentraler Sprecher ausgewählt, für den die Summe der Ähnlichkeiten für alle die Sprecher minimal wird. Der zentrale Sprecher bedeutet einen Sprecher, für den die Summe der Ähnlichkeiten in der betrachteten Klasse minimal wird;
2. Es wird ein von dem zentralen Sprecher in der betrachteten Klasse am weitesten entfernter Sprecher S_a bestimmt;
3. Es wird ein von dem vorstehend angeführten entfernten Sprecher Sa in der betrachteten Klasse am weitesten entfernter Sprecher S_b bestimmt;
4. Die Sprecher in der betrachteten Klasse werden in eine dem Sprecher Sa nähere Gruppe und eine andere dem Sprecher S_b nähere Gruppe aufgeteilt, wodurch zwei Sprecherklassen erzeugt werden;
5 . Zentrale Sprecher S_a1, S_b1 werden jeweils für so aufgeteilte zwei Sprecherklassen erneuert;
6. Alle die Sprecher werden durch eine Zuweisung zu den nächsten zentralen Sprechern unter Nutzung aller der derzeit bestimmten zentralen Sprecher (deren Anzahl gleich der Anzahl von derzeit betrachteten Sprecherklassen ist) neu angehäuft. Dieser Schritt 6 wird wiederholt, während die Erneuerung der zentralen Sprecher fortgesetzt wird, aber die Folge geht zu dem nächsten Schritt 7 über, falls die zentralen Sprecher nicht mehr erneuert werden. Dieser Schritt wird beendet, wenn eine gewünschte Anzahl von Sprecherklassen erhalten wird; und
7. Unter allen den Sprecherklassen wird eine Klasse bestimmt, die für den zentralen Sprecher die größte Summe der Ähnlichkeiten zeigt, und die vorstehenden Schritte 2, 3, 4, 5 und 6 werden bei einer derartigen Klasse ausgeführt.

Die Sprecherklassen werden wie vorstehend erläutert vorbereitet. Die vorbereiteten Sprecherklassen können genutzt werden wie sie sind, aber die Ausbreitung der Sprecher kann gemäß dem vorstehend angeführten Verfahren zur Vorbereitung in den verschiedenen Klassen verschieden sein. Falls es wünschenswert ist, ähnliche Niveaus der Ausbreitung zwischen den verschiedenen Sprecherklassen zu haben, ist es möglich, nacheinander einen näheren Sprecher für jede Sprecherklasse abzurufen, bis das Niveau der Ausbreitung (die Summe der Ähnlichkeiten zu dem zentralen Sprecher) der die breiteste Ausbreitung zeigenden (d. h. die größte Summe der Ähnlichkeiten zu dem zentralen Sprecher aufweisenden) Klasse dem Niveau der Ausbreitung anderer Klassen ähnlich wird. Eine derartige Bestimmung der Sprecherklassen stellt eine gleichmäßige Ausbreitung der Sprecherklassen bereit, und der Sprecher an der Grenze gehört zu mehreren Sprecherklassen, so daß die Spracherkennung von dem sich aus dem Fehler bei der Bestimmung der Sprecherklassen ergebenden bedeutenden Einfluß befreit werden kann.
III. Verfahren zur Vorbereitung von Sprecherklassen-HMM
Die von der Phonemumgebung abhängigen HMM werden durch den gewöhnlichen EM-Algorithmus vorbereitet, wobei die Sprachdaten der Sprecher genutzt werden, die zu jeder Sprecherklasse von so vorbereiteten Sprecherklassen gehören. Bei 4 Sprecherklassen werden z. B. von der Phonemumgebung abhängige HMM von 12 Verteilungen in 3 Zuständen (238 Arten) vorbereitet.
[Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM]
Nachstehend ist ein Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM erläutert.
Zuerst ist unter Bezugnahme auf 3 ein bekanntes Spracherkennungsverfahren unter Nutzung von Sprecherklassen-HMM erläutert. In diesem Fall werden grundsätzlich in einer parallelen Art und Weise die Spracherkennungsprozesse gemäß den Arten (N) der Sprecherklassen-HMM durchgeführt, wobei im Vergleich zu dem Fall des Verwendens nur einer Sprecherklasse, d. h. eines HMM einer unbestimmten Sprecherklasse bzw. unbestimmten Sprecherklassen-HMM, die Sprachverarbeitung N Mal erforderlich ist. Folglich sind die Ausgabewahrscheinlichkeitsberechnung und die Sprachsuche ebenfalls N Mal erforderlich. Falls die Berechnungen eines derartigen Ausmaßes notwendig sind, erfordert die Verwendung der Sprecherklassen-HMM bei der tatsächlichen Spracherkennung zwangsläufig einen Computer mit einer sehr hohen Geschwindigkeit oder mit paralleler Verarbeitung zum Realisieren des Echtzeitprozesses. Eine derartige Verwendung wird daher aufwendig und ist praktisch unrealistisch.
Nachstehend ist ein die Sprecherklassen-HMM nutzendes und zum deutlichen Verringern des Ausmaßes der vorstehend angeführten Berechnungen fähiges Spracherkennungsverfahren vorgeschlagen. Das vorgeschlagene Verfahren ist in 4 veranschaulicht. Der vorgeschlagene Spracherkennungsprozeß zeichnet sich durch die Tatsache aus, daß das HMM eines unbestimmten Sprechers bzw. unbestimmte Sprecher-HMM immer auch bei der Erkennung des Sprecherklassen-HMM verwendet wird. Das unbestimmte Sprecher-HMM entspricht einer Obersprecherklasse aller der Sprecherklassen-HMM. Es soll die Effizienz der Ausgabewahrscheinlichkeitsberechnung und der Sprachsuche durch ein Verwenden des Ergebnisses des unbestimmten Sprecher-HMM als den geschätzten Wert jedes Sprecherklassen-HMM verbessern.
Das vorgeschlagene Hochgeschwindigkeitsspracherkennungsverfahren unter Nutzung der Sprecherklassen-HMM funktioniert in der folgenden Art und Weise:

1) Für das Ergebnis der akustischen Analyse wird der geschätzte Wert der Zustandsausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM (SI-HMM) durch das Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahren IDMM + SQ unter Nutzung einer skalaren Quantisierung und einer dimensional unabhängigen Ausgabewahrscheinlichkeitsberechnung berechnet;
2) Unter der Annahme, daß der Oberrang der durch IDMM + SQ geschätzten Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM ein zu dem Ergebnis der Erkennung beitragender Zustand ist, wird die Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM unter Nutzung des unbestimmten Sprecher-HMM und jedes Sprecherklassen-HMM neu berechnet, um eine feine Ausgabewahrscheinlichkeit zu erhalten. Da das unbestimmte Sprecher-HMM die Oberklasse der Sprecherklassen-HMM bildet, kann bei dieser Operation eine relativ hohe Ausgabewahrscheinlichkeit bei dem unbestimmten Sprecher-HMM in einem Zustand erwartet werden, in dem mit einer hohen Ausgabewahrscheinlichkeit des Sprecherklassen-HMM zu rechnen ist. Folglich kann die durch IDMM + SQ geschätzte Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM als die Zustandsausgabewahrscheinlichkeit jedes Sprecherklassen-HMM verwendet werden;
3) Anschließend wird eine Vorwärtssprachsuche unter Nutzung der gesamten Ausgabewahrscheinlichkeit des unbestimmten Sprecher-HMM ausgeführt. In diesem Fall wird die Sprachsuche nicht in anderen Sprecherklassen ausgeführt. Bei dem vorliegenden Spracherkennungsverfahren wird das endgültige Ergebnis der Erkennung durch eine Rückwärtssprachsuche unter Nutzung der Tree-Trellis-basierten Suche auf der Grundlage der Astar-Suche bestimmt. Der heuristische Aufwand der Astar-Suche nutzt den Vorwärtspunktwert des unbestimmten Sprechers und erfordert nicht die Vorwärts-Viterbi-Suche für jede Sprecherklasse. In diesem Fall erfüllt der heuristische Aufwand die Bedingung der Astar-Suche in einem strenge Sinne nicht, aber in der Praxis ist der Unterschied kaum von Bedeutung, falls die endgültigen N besten Ergebnisse neu sortiert werden, da das eine Oberklasse der Sprecherklassen-HMM bildende unbestimmte Sprecher-HMM einen relativ zufriedenstellenden geschätzten Wert für den heuristischen Aufwand der Sprecherklassen-HMM bereitstellt. Die endgültigen N besten Ergebnisse müssen in jedem Fall neu sortiert werden, da die Ergebnisse unter mehreren Sprecherklassen verwendet werden;
4) Daraufhin wird das endgültige Ergebnis der Erkennung durch eine Rückwärtssprachsuche für jede Sprecherklasse bestimmt. Bei dieser Operation wird das Ergebnis der Vorwärtssprachsuche des unbestimmten Sprechers als der heuristische Aufwand jeder Sprecherklasse verwendet, wie es vorstehend erläutert ist. Bei der Rückwärts-Viterbi-Suche wird die in dem Schritt (2) geschätzte Ausgabewahrscheinlichkeit für jede Sprecherklasse verwendet;
5) Die für die verschiedenen Sprecherklassen bestimmten Ergebnisse der Erkennung werden neu sortiert, und das Ergebnis der höchsten Wahrscheinlichkeit wird als das Ergebnis der Erkennung des ersten Rangs genommen.

Bei dem vorstehend erläuterten Verfahren werden die meisten Berechnungen, die zu dem Ergebnis der Erkennung beitragen können, gemäß den sich auf jede Sprecherklasse beziehenden Informationen ausgebildet.
5 zeigt schematisch den Vergleich der Verarbeitungszeit der das Sprecherklassen-HMM verwendenden Spracherkennung bei dem bekannten Verfahren und bei dem Verfahren gemäß der Erfindung, wobei die Verarbeitungszeit in der Abszisse genommen ist. Die oberste grafische Darstellung zeigt die Verarbeitungszeit der nur eine Sprecherklasse (unbestimmte Sprecherklasse) verwendenden bekannten Erkennung, und die zweite grafische Darstellung zeigt die Verarbeitungszeit der eine unbestimmte Sprecherklasse verwendenden Erkennung, die durch IDMM + SQ schneller gemacht worden ist (Erfindung). Die dritte grafische Darstellung zeigt die Verarbeitungszeit der IDMM + SQ und die Sprecherklassen-HMM von 3 Sprecherklassen einfach in einer parallelen Art und Weise verwendenden bekannten Erkennung (wie in 3 gezeigt), während die unterste grafische Darstellung die Verarbeitungszeit des Hochgeschwindigkeitsspracherkennungsverfahrens mit 3 Sprecherklassen unter Nutzung der vorgeschlagenen Sprecherklassen-HMM (wie in 4 gezeigt) zeigt. Die für die Ausgabewahrscheinlichkeitsberechnung (Bjot) und die Vorwärts-/Rückwärtssprachsuche erforderliche Verarbeitungszeit ist abhängig von der das Ziel der Erkennung bildenden Aufgabe und von der Leistungsfähigkeit von HMM variabel, kann aber als in dem betrachteten Bereich als eine angemessene Länge dargestellt angesehen werden. Die für die Rückwärtssprachsuche erforderliche Verarbeitungszeit, die in diesen grafischen Darstellungen als beträchtlich lang dargestellt ist, beträgt jedoch in der Praxis weniger als 0,1 Sekunden.
Folglich erfordert im Vergleich zu dem bekannten Verfahren des Berechnens der Sprecherklassen-HMM einfach in einer parallelen Art und Weise und Ausführens der IDMM + SQ-Berechnung und der Vorwärts-Viterbi-Suche gemäß der Anzahl N der Sprecherklassen das vorgeschlagene Verfahren die IDMM + SQ-Berechnung für das unbestimmte Sprecher-HMM und die Vorwärtssuche nur einmal, so daß der Vorteil des vorgeschlagenen Verfahrens mit der Erhöhung der Anzahl N größer wird. Demgegenüber ist das mit der Anzahl N der Sprecherklassen zunehmende Ausmaß der Ausgabewahrscheinlichkeitsneuberechnung für die Sprecherklassen und der Rückwärtssprachsuche bei den ganzen Berechnungen begrenzt. Folglich kann das Verfahren gemäß der Erfindung bei dem ganzen Prozeß mit einer sehr hohen Geschwindigkeit ausgeführt werden.
Folglich wird eine verbesserte Möglichkeit zur Realisierung des Echtzeitprozesses bereitgestellt, ohne auf einen Hochgeschwindigkeitscomputer oder parallele Computer angewiesen zu sein, und es kann eine praktische Spracherkennung realisiert werden.
[Versuchsergebnisse bei der Spracherkennung mit Sprecherklassen-HMM]
In 7 sind Ergebnisse eines mit mehreren Sprecherklassen durchgeführten Versuchs gezeigt. Die Spracherkennung wurde mit (a) einer unbestimmten Sprecherklasse (g1), (2) männlichen und weiblichen Sprecherklassen (g2) und (3) 8 aus vier männlichen Klassen und vier weiblichen Klassen zusammengesetzten Sprecherklassen (g8) versucht. Von der Phonemumgebung abhängige HMM von 6 Verteilungen für 3 Zustände wurden für jede der vorstehend angeführten Sprecherklassen (1)– (3) vorbereitet (insgesamt 238 Arten), und der Erkennungsversuch wurde für 520 durch zwanzig männliche und weibliche Sprecher ausgesprochene Wörter (Telefonsprache) durchgeführt.
Die Versuchsergebnisse in 7 geben die Wirkung der Verwendung der Sprecherklassen an. Gemäß diesen Ergebnissen hat der die unbestimmte Sprecherklasse in Kombination mit den Sprecherklassen nutzende Fall den Prozentsatz der maximalen Verschlechterung gesenkt und die Prozentsätze der maximalen Verbesserung und der mittleren Verbesserung erhöht.
Vorstehend ist ein Fall des Verwendens der unbestimmten Sprecherklasse und der männlichen und weiblichen Sprecherklassen erläutert, aber es kann auch eine große Anzahl der Sprecherklassen verwendet werden.
Außerdem ist vorstehend ein Fall des Nutzens der unbestimmten Sprecherklasse bei der Berechnung der gemeinsamen Ausgabewahrscheinlichkeit erläutert, aber es kann auch ein beliebiger Parameter verwendet werden, der aus den Ausgabewahrscheinlichkeitswerten der Sprecherklassen bestimmt werden kann. Es kann z. B. der maximale Wert der Ausgabewahrscheinlichkeiten der Sprecherklassen-HMM verwendet werden.
Ferner ist vorstehend ein Fall des Nutzens von IDMM + SQ bei der Berechnung der groben Ausgabewahrscheinlichkeit erläutert, aber es kann auch ein Verfahren des Verwendens eines HMM von kleinerem Bestand für die Berechnung der groben Ausgabewahrscheinlichkeit und Verwendens eines HMM von größerem Bestand für die Berechnung der feinen Ausgabewahrscheinlichkeit oder ein Verfahren des Verwendens eines Phonem-HMM für die Berechnung der groben Ausgabewahrscheinlichkeit und Verwendens eines von der Phonemumgebung abhängigen HMM für die Berechnung der feinen Ausgabewahrscheinlichkeit verwendet werden.
Ferner ist vorstehend ein Fall des Verdoppelns der Anzahl der Sprecherklassen für jede hierarchische Ebene erläutert, aber die Anzahl der Sprecherklassen kann in einer beliebigen Art und Weise erhöht werden.
Ferner ist vorstehend ein Fall des Anhäufens der Sprecher in einer derartigen Art und Weise, daß die Sprecher zwischen den verschiedenen Klassen nicht überlappen, erläutert, aber das Anhäufen kann auch derart ausgebildet werden, daß ein derartiges Überlappen erlaubt ist.

Claims

Spracherkennungsverfahren mit den Schritten- Empfangen von eingegebene Sprache darstellenden Spracheingabesignalen; Berechnen einer groben Ausgabewahrscheinlichkeit der eingegebenen Sprache unter Verwendung eines unbestimmten Sprechermodells; Berechnen einer feinen Ausgabewahrscheinlichkeit der eingegebenen Sprache für jede Sprecherklasse unter Verwendung des unbestimmten Sprechermodells und einer Vielzahl von in einer Vielzahl von Sprecherklassen angehäuften Sprechermodellen; und Bestimmen eines Erkennungsergebnisses für die eingegebene Sprache auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit.
Spracherkennungsverfahren nach Anspruch 1, wobei jedes Sprechermodell zu einer Sprecherklasse oder mehreren Sprecherklassen in der Vielzahl von Sprecherklassen gehört.
Spracherkennungsverfahren nach Anspruch 1 oder 2, wobei es sich bei dem unbestimmten Sprechermodell und der Vielzahl von Sprechermodellen jeweils um ein jeweiliges Phonem-HMM handelt.
Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei der Bestimmungsschritt zur Bestimmung eines Erkennungsergebnisses für die eingegebene Sprache eine Sprachsuche für jede Sprecherklasse auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit ausführt.
Spracherkennungsverfahren nach Anspruch 4, wobei der Bestimmungsschritt eine erste Sprachsuche auf der Grundlage der groben Ausgabewahrscheinlichkeit ausführt und daraufhin eine zweite Sprachsuche auf der Grundlage der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit ausführt.
Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei eine dem unbestimmten Sprechermodell entsprechende unbestimmte Sprecherklasse eine Obersprecherklasse der anderen Sprecherklassen ist.
Spracherkennungsverfahren nach einem der vorstehenden Ansprüche, wobei der zweite Berechnungsschritt die grobe Ausgabewahrscheinlichkeit unter Verwendung einer skalaren Quantisierung und eines dimensional unabhängigen Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahrens berechnet.
Spracherkennungsvorrichtung mit: einer Einrichtung (201) zum Empfangen von eingegebene Sprache darstellenden Spracheingabesignalen; einer ersten Berechnungseinrichtung (203-a) zum Berechnen einer groben Ausgabewahrscheinlichkeit der eingegebenen Sprache unter Verwendung eines unbestimmten Sprechermodells; einer zweiten Berechnungseinrichtung (203-b) zum Berechnen einer feinen Ausgabewahrscheinlichkeit der eingegebenen Sprache für jede Sprecherklasse unter Verwendung des unbestimmten Sprechermodells und einer Vielzahl von in einer Vielzahl von Sprecherklassen angehäuften Sprechermodellen; und einer Bestimmungseinrichtung (204–206) zum Bestimmen eines Erkennungsergebnisses für die eingegebene Sprache auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit.
Spracherkennungsvorrichtung nach Anspruch 8, wobei jedes Sprechermodell zu einer Sprecherklasse oder mehreren Sprecherklassen in der Vielzahl von Sprecherklassen gehört.
Spracherkennungsvorrichtung nach einem der Ansprüche 8 und 9, wobei es sich bei dem unbestimmten Sprechermodell und der Vielzahl von Sprechermodellen jeweils um ein jeweiliges Phonem-HMM handelt.
Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 10, wobei die Bestimmungseinrichtung dazu betreibbar ist, zur Bestimmung eines Erkennungsergebnisses für die eingegebene Sprache eine Sprachsuche für jede Sprecherklasse auf der Grundlage der groben Ausgabewahrscheinlichkeit und der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit auszuführen.
Spracherkennungsvorrichtung nach Anspruch 11, wobei die Bestimmungseinrichtung dazu betreibbar ist, eine erste Sprachsuche auf der Grundlage der groben Ausgabewahrscheinlichkeit auszuführen und daraufhin eine zweite Sprachsuche auf der Grundlage der von jeder Sprecherklasse erhaltenen feinen Ausgabewahrscheinlichkeit auszuführen.
Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 12, wobei eine dem unbestimmten Sprechermodell entsprechende unbestimmte Sprecherklasse eine Obersprecherklasse der anderen Sprecherklassen ist.
Spracherkennungsvorrichtung nach einem der Ansprüche 8 bis 13, wobei die zweite Berechnungseinrichtung dazu betreibbar ist, die grobe Ausgabewahrscheinlichkeit unter Verwendung einer skalaren Quantisierung und eines dimensional unabhängigen Hochgeschwindigkeitsausgabewahrscheinlichkeitsberechnungsverfahrens zu berechnen.
CD-ROM (84) mit von einer Verarbeitungseinrichtung ausführbaren Anweisungen zum Steuern einer Verarbeitungseinrichtung zur Ausführung aller Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7.
Computerprogramm mit von einer Verarbeitungseinrichtung ausführbaren Anweisungen zum Anweisen einer Verarbeitungseinrichtung (83) zur Ausführung aller Schritte eines Verfahrens nach einem der Ansprüche 1 bis 7.