-
Diese
Erfindung bezieht sich auf die automatische Spracherkennung (ASE),
insbesondere auf ein Verfahren, um eine nicht überwachte oder Online-Anpassung
eines automatischen Spracherkennungssystems auszuführen, gemäß Anspruch
1.
-
Die
Spracherkennungseinrichtungen des Standes der Technik umfassen eine
Menge statistischer Verteilungen, die die akustischen Eigenschaften
bestimmter Sprachsegmente modellieren. Diese akustischen Eigenschaften
sind in Merkmalsvektoren codiert. Als ein Beispiel kann eine Gaußsche Verteilung
für jedes
Phonem genommen werden. Diese Verteilungen sind mit Zuständen verbunden.
Ein (stochastisches) Zustandsübergangsnetz
(normalerweise Hidden-Markov-Modelle)
definiert die Wahrscheinlichkeiten für die Folgen der Zustände und
die Folgen der Merkmalsvektoren. Das Hindurchleiten eines Zustands
verbraucht einen Merkmalsvektor, der einen Rahmen von z. B. 10 ms
des Sprachsignals überdeckt.
-
Die
stochastischen Parameter einer derartigen Erkennungseinrichtung
werden unter Verwendung einer großen Menge von Sprachdaten entweder
von einem einzelnen Sprecher, was ein sprecherabhängiges System
(SD-System) hervorbringt, oder von vielen Sprechern, was ein sprecherunabhängiges System
(SI-System) hervorbringt,
trainiert.
-
Die
Anpassung an den Sprecher (SA) ist ein weit und breit verwendetes
Verfahren, um die Erkennungsraten der SI-Systeme zu vergrößern. Die
sprecherabhängigen
Systeme des Standes der Technik liefern viel höhere Erkennungsraten als die
sprecherunabhängigen
Systeme. Für
viele Anwendungen ist es jedoch nicht ausführbar, ausreichend Daten von einem
einzelnen Sprecher zu sammeln, um das System zu trainieren. In dem
Fall einer Verbrauchervorrichtung könnte dies sogar unerwünscht sein.
Um diese Nichtübereinstimmung
der Erkennungsraten zu überwinden,
werden Algorithmen für
die Anpassung an den Sprecher weit und breit verwendet, um Erkennungsraten
zu erreichen, die nahe an die sprecherabhängigen Systeme kommen, aber
nur einen Bruchteil der sprecherabhängigen Daten im Vergleich zu
sprecherabhängigen
Systemen ver wenden. Diese Systeme nehmen anfangs sprecherunabhängige Modelle,
die dann angepasst werden, damit sie besser mit der Akustik der
Sprecher übereinstimmen.
-
Normalerweise
wird die Anpassung überwacht
ausgeführt.
Das heißt,
die gesprochenen Wörter
sind bekannt, wobei die Erkennungseinrichtung gezwungen wird, sie
zu erkennen. Hiermit wird eine Zeitausrichtung der segmentspezifischen
Verteilungen erreicht. Die Nichtübereinstimmung
zwischen den tatsächlichen
Merkmalsvektoren und den Parametern der entsprechenden Verteilung
schafft die Grundlage für
die Anpassung. Die überwachte
Anpassung erfordert, dass eine Anpassungssitzung mit jedem neuen
Sprecher ausgeführt
wird, bevor er/sie die Erkennungseinrichtung tatsächlich verwenden kann.
-
5 zeigt
einen Blockschaltplan eines derartigen beispielhaften Spracherkennungssystems gemäß dem Stand
der Technik. Die mit einem Mikrophon 51 empfangenen gesprochenen Äußerungen werden
in einer A/D-Umsetzungsstufe 52, die mit einem Merkmalsextraktionsmodul 53 verbunden
ist, in dem eine Merkmalsextraktion ausgeführt wird, um z. B. jede 10
ms einen Merkmalsvektor zu erhalten, in ein digitales Signal umgesetzt.
Ein derartiger Merkmalsvektor wird entweder für das Training eines Spracherkennungssystems
oder nach dem Training für
die Anpassung der anfangs sprecherunabhängigen Modelle und während der
Verwendung der Erkennungseinrichtung für die Erkennung der gesprochenen Äußerungen
verwendet.
-
Für das Training
ist das Merkmalsextraktionsmodul 53 über die Kontakte a und c eines
Schalters 54 mit einem Trainingsmodul 55 verbunden.
Das Trainingsmodul 55 des beispielhaften Spracherkennungssystems,
das mit Hidden-Markov-Modellen (HMMs)
arbeitet, erhält
eine Menge von sprecherunabhängigen
(SI) HMMs. Dies wird normalerweise durch den Hersteller der automatischen
Spracherkennungsvorrichtung unter Verwendung einer großen Datenbank,
die viele verschiedene Sprecher umfasst, ausgeführt.
-
Nachdem
das Spracherkennungssystem eine Menge von SI-Modellen geladen hat,
werden die Kontakte a und b des Schalters 54 so verbunden, dass
die durch das Merkmalsextraktionsmodul 53 extrahierten
Merkmalsvektoren in ein Erkennungsmodul 57 eingespeist
werden, sodass das System durch den Kunden/die Kundin verwendet
und an ihn/sie angepasst werden kann. Das Er kennungsmodul 57 berechnet
dann auf der Grundlage der extrahierten Merkmalsvektoren und der
sprecherunabhängigen Modellmenge
ein Erkennungsergebnis. Während
der Anpassung an einen einzelnen Sprecher ist das Erkennungsmodul 57 mit
einem Anpassungsmodul 56 verbunden, das eine sprecherangepasste
Modellmenge berechnet, die in einem Speicher 59 zu speichern
ist. In der Zukunft berechnet das Erkennungsmodul 57 das
Erkennungsergebnis auf der Grundlage des extrahierten Merkmalsvektors
und der sprecherangepassten Modulmenge. Eine weitere Anpassung der
sprecherangepassten Modellmenge kann wiederholt ausgeführt werden,
um die Leistung des Systems für
spezifische Sprecher weiter zu verbessern. Es gibt mehrere vorhandene
Verfahren für
die Anpassung an den Sprecher, wie z. B. die Maximum-a-posteriori-Anpassung (MAP-Anpassung) oder
die Anpassung durch lineare Regression mit maximaler Wahrscheinlichkeit
(MLLR-Anpassung).
-
Normalerweise
modifizieren die Techniken für
die Anpassung an den Sprecher die Parameter der Hidden-Markov-Modelle,
sodass sie besser mit der Akustik der neuen Sprecher übereinstimmen. Wie
oben dargelegt worden ist, wird dies normalerweise in einer Stapel-
oder Offline-Anpassung ausgeführt.
Dies bedeutet, dass ein Sprecher einen vorgegebenen Text lesen muss,
bevor er/sie das System für
die Erkennung verwenden kann, der dann verarbeitet wird, um die
Anpassung auszuführen.
Sobald dies abgeschlossen ist, kann das System für die Erkennung verwendet werden.
Diese Betriebsart wird außerdem
als überwachte
Anpassung bezeichnet, weil der Text dem System bekannt war und eine
erzwungene Ausrichtung des entsprechenden Sprachsignals auf die
dem Text entsprechenden Modelle ausgeführt und für die Anpassung verwendet wird.
-
Für die meisten
Arten von Verbrauchervorrichtungen ist jedoch ein nicht überwachtes
oder Online-Verfahren besser geeignet. In diesem Fall findet die
Anpassung statt, während
sich das System in Gebrauch befindet. Die erkannte Äußerung wird
für die Anpassung
verwendet, wobei die modifizierten Modelle für das Erkennen der nächsten Äußerung verwendet
werden usw. In diesem Fall ist der gesprochene Text dem System nicht
bekannt, sondern das Wort (die Wörter),
das (die) erkannt worden ist (sind), werden stattdessen verwendet.
-
EP 0 763 816 A2 schlägt die Verwendung von
Vertrauensmaßen
als ein Optimierungskriterium für
das HMM-Training vor. Diese Vertrauensmaße sind zu sätzliche Wissensquellen, die
für die
Klassifikation eines Erkennungsergebnisses als "wahrscheinlich richtig" oder "wahrscheinlich falsch" verwendet werden.
Hier werden die Vertrauensmaße
für die
Verifikation der n besten erkannten Wortketten verwendet, wobei
das Ergebnis dieser Verifikationsprozedur, d. h. die Ableitung der
Verlustfunktion, als ein Optimierungskriterium für das Training der Modelle
verwendet wird. In diesem Fall werden alle Äußerungen für das Training verwendet, wobei
das Verfahren verwendet wird, um die Differenz der Wahrscheinlichkeiten
verwechselbarer Wörter
zu maximieren. Dieses Dokument bezieht sich jedoch nur auf das HMM-Training
vor der Verwendung des Systems.
-
Andererseits
offenbart
EP 0 776
532 A2 ein Verfahren, um die fehlerhafte Erkennung durch
die Äußerung eines
vorgegebenen Schlüsselwortes "oops" zu korrigieren,
wonach der Benutzer die falsch erkannten Wörter durch Eingabe korrigieren
könnte oder
das System versucht, den Fehler selbst zu korrigieren. In jedem
Fall führt
das System das Training/die Anpassung der Sprachmodelle nur aus, wenn
ein Wort (eine Folge von Wörtern)
fehlerhaft erkannt worden ist.
-
Ein
weiteres Dokument,
US 5,842,168 ,
bezieht sich auf ein System, das eine Menge sprecherunabhängiger und
sprecherangepasster Modelle enthält.
Dieses Dokument offenbart den Ersatz sprecherunabhängiger durch
sprecherabhängige
Modelle, wenn die Erkennungsrate schlecht wird.
-
In
einem weiteren Dokument,
US 5,144,672 , bewertet
ein System sowohl ein sprecherabhängiges als auch ein sprecherunabhängiges Modell,
wobei es das am besten abschneidende Modell auswählt, um ein Erkennungsergebnis
auszugeben. Dieses Dokument lehrt nicht die erneute Anpassung der
Modelle, die mit den sprecherunabhängigen Modellen neu beginnt.
-
Die
Erfindung betrifft die Anpassung sprecherunabhängiger Hidden-Markov-Modelle in Spracherkennungssystemen
unter Verwendung der nicht überwachten
oder Online-Anpassung. In diesen Systemen müssen die HMMs ständig nach
jeder neuen Äußerung oder
sogar nach Teilen der Äußerungen verfeinert
werden. Außerdem
werden die Wörter,
die in das System eintreten, nicht mehrmals wiederholt, wobei sie
dem System nicht bekannt sind. Deshalb ist nur eine schrittweise
Anpassung an den Sprecher möglich,
d. h. es sind nur sehr wenige Anpassungsdaten auf einmal verfügbar, wobei
sich außerdem das
Pro blem ergibt, dass die fehlerhaften Erkennungen abhängig von
der Leistung des sprecherunabhängigen
Systems auftreten, weil angenommen werden muss, dass die Ausgabe
des Erkennungsmoduls das richtige Wort ist. Diese Wörter werden
dann für die
Anpassung verwendet, wobei, falls das Wort falsch erkannt worden
ist, der Anpassungsalgorithmus die Modelle in einer falschen Weise
modifiziert. Die Erkennungsleistung könnte drastisch abnehmen, wenn
dies wiederholt geschieht.
-
Es
ist deshalb die der Erfindung zugrunde liegende Aufgabe, ein Verfahren
für die
nicht überwachte
Anpassung vorzuschlagen, das die oben im Zusammenhang mit dem Stand
der Technik beschriebenen Probleme überwindet.
-
Das
Verfahren der Erfindung ist in dem unabhängigen Anspruch 1 definiert.
Seine bevorzugten Ausführungsformen
sind jeweils in den folgenden abhängigen Ansprüchen definiert.
-
1 zeigt
ein Spracherkennungssystem, das eine bedingte Sprecheranpassung
verwendet.
-
2 zeigt
ein erstes Anpassungsverfahren, in dem Vertrauensmaße verwendet
werden;
-
3 zeigt
ein zweites Anpassungsverfahren, in dem eine Dialoghistorie beobachtet
wird;
-
4 zeigt
ein Verfahren des Rückschaltens zu
den anfänglichen
sprecherunabhängigen
Modellen gemäß der Erfindung;
und
-
5 zeigt
ein beispielhaftes Spracherkennungssystem gemäß dem Stand der Technik.
-
2 zeigt
ein erstes Beispiel einer Anpassungsverfahrens, in dem Vertrauensmaße verwendet werden,
um das Anpassen an ein fehlerhaft erkanntes Wort zu vermeiden und
um den Grad der Anpassung zu bestimmen. Dieses Verfahren wird in
einer mit dem Schritt S21 beginnenden Endlosschleife wiederholt
ausgeführt.
-
In
diesem ersten Schritt S21 wird die Erkennung einer Benutzeräußerung wie
in einem Spracherkennungssystem gemäß dem Stand der Technik ausgeführt. Im
folgenden Schritt S22 wird eine Vertrauensmessung auf das Erkennungsergebnis
des Schrittes S21 angewendet. In diesem Schritt werden Vertrauensmaße verwendet,
um zu messen, wie zuverlässig
das Erkennungsergebnis ist. Falls das Vertrauensmaß kleiner
als ein bestimmter Schwellenwert ist, wird das erkannte Wort als
unzuverlässig
betrachtet, wobei es für
die Anpassung nicht verwendet wird, sodass die Anpassungsprozedur
abermals mit dem Schritt 21 fortgesetzt wird, in dem die Erkennung der
nächsten
Benutzeräußerung ausgeführt wird. Liegt
das Vertrauensmaß andererseits über dem Schwellenwert,
wird Erkennungsergebnis als zuverlässig betrachtet und für die Anpassung
in einem Schritt S23 verwendet, bevor die Anpassungsprozedur abermals
mit dem Schritt S21 fortgesetzt wird, um die nächste Benutzeräußerung zu
erkennen.
-
Um
ein Vertrauensmaß gemäß der Erfindung zu
berechnen, werden zuerst ein oder mehrere Merkmale aus der Erkennungshypothese
und/oder dem Sprachsignal extrahiert. Dann wird auf der Grundlage dieser
Merkmale eine Entscheidung getroffen, ob das Phonem/das Wort/die
Wortverbindung als richtig oder falsch erkannt klassifiziert werden
kann. Diese Entscheidung ist keine harte Entscheidung, sondern es
wird eine bestimmte Wahrscheinlichkeit für die Richtigkeit einer empfangenen Äußerung berechnet. Diese
Entscheidung basiert z. B. auf einem neuronalen Netz oder auf Entscheidungsbäumen, die
die Merkmale als Eingabe nehmen und auf der Grundlage einiger interner
Parameter das Vertrauensmaß berechnen.
-
Wenn
ein neuronales Netz verwendet wird, um das Vertrauensmaß zu berechnen,
ist die Ausgabe, d. h. das Vertrauensmaß, typischerweise ein Wert zwischen
0 und 1; je näher
dieser Wert bei 1 liegt, desto wahrscheinlicher ist das Phonem/das
Wort/die Äußerung oder
die Folgen hiervon richtig erkannt worden. Deshalb wird ein Schwellenwert
zwischen 0 und 1 definiert, wobei die Vertrauensmaße über diesem
Schwellenwert ein Erkennungsergebnis als richtig klassifizieren.
-
Die
Merkmale, auf deren Grundlage das Vertrauensmaß berechnet wird, werden aus
dem Erkennungsergebnis extrahiert oder basierend auf dem Erkennungsergebnis
direkt aus dem Sprachsignal berechnet. Derartige Merkmale können z.
B. die (relativen) Bewertungen der n besten Erkennungshypothesen, die
HMM-Zustandsdauern, die Dauern der den erkannten Wörtern zugrunde
liegenden erkannten Phoneme oder die Segmentwahrscheinlichkeiten sein.
Die Letzteren werden durch ein stochastisches Modell berechnet,
das die Wahrscheinlichkeit für
ein derartiges in einer Worthypothese enthaltenes Phonem bei einem
gegebenen ganzen Sprachsegment, das mehrere Rahmen enthält, bestimmt.
-
Das
Vertrauensmaß kann
dann direkt verwendet werden, um außerdem den Grad der Anpassung
zu bestimmen. Selbstverständlich
ist der einfachste Fall eines Vertrauensmaßes, nur ein Merkmal zu extrahieren,
z. B. die durch die HMMs während
der Erkennung bereitgestellte Bewertung, und direkt auf der Grundlage
eines Schwellenwertes zu entscheiden, ob das Wort richtig erkannt
worden ist oder nicht. In diesem Fall ist der Grad der Anpassung immer
konstant.
-
Als
eine Alternative zum festen Schwelenwert kann die Vertrauensmessung
verwendet werden, um ein Gewicht zu berechnen, das die Stärke der
im Schritt S23 ausgeführten
Anpassung bestimmt.
-
Außerdem ist
es möglich,
andere Parameter zu verändern,
auf denen die Entscheidung während der
Anpassung basiert, z. B. wie der für das Entscheiden verwendete
Schwellenwert abhängig
von den abgeleiteten Merkmalen des Sprachsignals angepasst werden
kann.
-
Während der
Anpassung der HMM-Modelle an den Sprecher tritt ein Problem auf,
weil dies die Merkmale des Vertrauensmaßes beeinflusst. Dies erfordert
entweder eine Normierung der Merkmale, sodass sie gegenüber derartigen Änderungen
der HMM-Modelle invariant sind, oder es erfordert eine automatische
Online-Anpassung der Merkmale oder der Parameter des Vertrauensmaßes oder
des Schwellenwertes, mit dem das Vertrauensmaß verglichen wird. Diese Anpassung
basiert auf einem formalen Algorithmus, der ein Kriterium wie die
Richtigkeit des Vertrauensmaßes
optimiert. Das Letztere kann basierend auf der Benutzerreaktion
geschätzt werden,
wie sie in den Video-, Interpretations- und Prosodie-Modulen bestimmt wird.
-
Außerdem kann
das Vertrauensmaß nicht nur
auf ganze Benutzeräußerungen
angewendet werden, sondern außerdem
wortweise oder phonemweise, sodass nicht immer die ganze Äußerung für die Anpassung
zurückgewiesen
wird, sondern nur die einzelnen fehlerhaft erkannten Wörter oder
die Wörter,
die fehlerhaft erkannte Phoneme enthalten. Es ist außerdem möglich, die
Vertrauensmaße
auf ein Sprachsegment einer anderen beliebigen Länge anzuwenden.
-
Eine
derartige durch die Vertrauensmaße geführte Anpassung benötigt keine
Handlung vom Benutzer wie z. B. die Mitteilung an das System, dass ein
Wort fehlerhaft erkannt worden ist. Deshalb erreicht dieses Verfahren
eine beträchtlich
bessere Erkennungsrate für
die nicht überwachte
oder Online-Anpassung in automatischen Spracherkennungssystemen
als die Systeme gemäß dem Stand
der Technik, weil nicht jede Benutzeräußerung oder jedes durch den
Benutzer gesprochene Wort ungeachtet der Tatsache, dass eine derartige Äußerung oder ein
derartiges Wort fehlerhaft erkannt werden kann, für die Anpassung
verwendet wird und der Grad der Anpassung von der Wahrscheinlichkeit
eines richtigen erkannten Ergebnisses abhängt.
-
3 zeigt
ein zweites Beispiel eines Anpassungsverfahrens, in dem eine Dialoghistorie
beobachtet wird, um zu entscheiden, ob eine Äußerung oder ein einzelnes Wort
oder mehrere Wörter
für die Anpassung
verwendet werden sollte bzw. sollten oder nicht.
-
In
einem Dialogsystem zeigt die Reaktion eines Benutzers oft, ob das
erkannte Wort richtig war oder nicht. Ein Verfahren, um eine derartige
Benutzerreaktion zu beurteilen, ist in 3 gezeigt. Ähnlich zum
in 2 dargestellten Verfahren wird dieses Verfahren
in einer mit dem Schritt S31 beginnenden Endlosschleife wiederholt
ausgeführt.
-
Im
Schritt S31 wird eine Erkennung einer Benutzeräußerung Nummer i wie in den
Systemen gemäß dem Stand
der Technik ausgeführt.
Danach wird das Erkennungsergebnis im Schritt S32 einer Interpretation
unterzogen, in dem beurteilt wird, ob der Benutzer mit der Systemreaktion
auf seine vor der Äußerung Nummer
i gesprochene Äußerung zufrieden
gestellt worden ist. Ein Beispiel einer derartigen Äußerung Nummer
i – 1
könnte "schalte den Fernsehapparat
ein" sein, wobei
aus irgendwelchen Gründen
das System "schalte
das Radio ein" erkannt hat
und folglich das Radio eingeschaltet worden ist. Wenn der Benutzer
diesen Fehler erkennt, wird seine/ihre nächste Äußerung (d. h. die Äußerung Nummer
i) irgendetwas wie "nein,
nicht das Radio, den Fernseh apparat" oder "falsch, ich sagte Fernsehapparat" sein. In diesem
Fall interpretiert das System im Schritt S32 auf der Grundlage der Äußerung Nummer i,
dass die vorher erkannte Äußerung fehlerhaft
erkannt worden ist und für
die Anpassung nicht verwendet werden sollte. Der Schritt S33, in
dem die Benutzeräußerung Nummer
i – 1
für die
Anpassung verwendet wird, wird in diesem Fall ausgelassen, wobei der
Schritt S34, in dem das System eine Handlung oder Reaktion ausführt, nicht
nach dem Schritt S33, sondern direkt nach dem Schritt S32 ausgeführt wird. Nach
der Handlung oder Reaktion des Systems im Schritt S34 wird i im
Schritt S35 inkrementiert, bevor die nächste Äußerung Nummer i + 1 des Benutzers im
Schritt S31 erkannt wird.
-
Abgesehen
vom Wortlaut oder Interpretationsergebnis einer Äußerung können außerdem Informationen über den
Gefühlszustand
eines Benutzers, d. h. die Intonation und/oder die Prosodie, berücksichtigt
werden, um im Schritt S32 zu beurteilen, ob der Benutzer zufrieden
gestellt worden ist oder nicht. Deshalb sind durch das Interpretieren
der Äußerung unter
Verwendung der Intonation und/oder Prosodie keine speziellen Schlüsselwörter für das System
notwendig, um zu erkennen, dass eine fehlerhafte Erkennung der vorher
erkannten Äußerung aufgetreten
ist. Falls ein Benutzer z. B. in einer ärgerlichen Weise dem System "schalte den Fernsehapparat
ein" sagt, nachdem
seine/ihre vorher gesprochene Äußerung fehlerhaft
erkannt worden ist, kann das System interpretieren, dass er/sie
seine/ihre Meinung nicht geändert
hat, sondern dass der vorher erkannte Befehl fehlerhaft erkannt
worden ist, sodass er für
die Anpassung nicht verwendet werden sollte.
-
Außerdem können die
durch ein Video-Rechensystem wie z. B. eine Videokamera, die mit
einem Computer verbunden ist, der die Reaktionen eines Benutzers,
z. B. die Mimik, interpretieren kann, beobachteten Benutzerreaktionen
verwendet werden, um eine erkannte Äußerung zu verifizieren, z.
B. basierend auf einem Bild oder einer Videosequenz, das bzw. die
vom Benutzer und/oder dem Gesicht des Benutzers genommen worden
ist.
-
In
diesem Fall kann bestimmt werden, ob die Mimik Ärger oder Verwunderung zeigt
oder ob die Lippen des Benutzers geschlossen gewesen sind, obwohl
die Erkennungseinrichtung auf der Grundlage von Hintergrundstimmen
oder -geräusch
einige Wörter
erkannt hat.
-
Abhängig von
nur einer oder einer Kombination aus diesen Benutzerreaktionen und
von der Intensität
kann ein Grad der Anpassung bestimmt werden. Wie im Fall der Vertrauensmaße ist es
außerdem
möglich,
einen Schwellenwert festzulegen und damit eine harte Entscheidung
zu definieren, sodass der Grad der Anpassung konstant ist.
-
4 zeigt
ein Verfahren gemäß der Erfindung,
in dem das System zu den anfänglichen
SI-Modellen zurückschaltet,
falls die Leistung der angepassten Modelle zu schlecht ist.
-
In
diesem Fall erkennt das System eine Situation, in der die Anpassung
(wiederholt) unter Verwendung fehlerhaft erkannter Wörter ausgeführt worden
ist oder ein neuer Sprecher das System verwendet, weil dann die
Erkennungsleistung abfallen kann. Deshalb schaltet das System zurück zu den
ursprünglichen
sprecherunabhängigen
Modellen. Ähnlich
zu den in den 2 und 3 dargestellten
Verfahren wird dieses Verfahren in einer mit den Schritten S41 und
543, die parallel ausgeführt
werden, beginnenden Endlosschleife wiederholt ausgeführt.
-
Deshalb
wird in diesem Schritt S41 eine Erkennung einer Benutzeräußerung unter
Verwendung der angepassten Modelle ausgeführt, während im Schritt S43 eine Erkennung
derselben Benutzeräußerung unter
Verwendung der anfänglichen
sprecherunabhängigen
Modelle ausgeführt
wird. Auf beide Erkennungsergebnisse kann jeweils in den Schritten S42
und S44 eine Vertrauensmessung angewendet werden. In einem folgenden
Schritt S45 werden beide Ergebnisse, z. B. die Vertrauensmessungen,
verglichen, um zu entscheiden, ob im Schritt S46 die Anpassung mit
den anfänglichen
sprecherunabhängigen
Modellen neu zu beginnen ist oder ob in einem Schritt S47 die angepassten
Modelle weiter zu verwenden und anzupassen sind, bevor die in den Schritten
41 und 43 ausgeführte
parallele Erkennung mit der nächsten
Benutzeräußerung ausgeführt wird.
-
Dieses
Verfahren ist nicht auf die Verwendung der Vertrauensmaße eingeschränkt, um
diese beiden Erkennungsergebnisse zu vergleichen. Es ist außerdem möglich, dass
das System andere Benutzerreaktionen verwendet, z. B. sein/ihr Verhalten eine
bestimmte Zeit vor und/oder nach der jeweiligen Äußerung oder etwa die Intonation
und/oder Prosodie. Es ist außerdem
denkbar, dass das System den Benutzer auffordert, zu entscheiden,
welche Modelle verwendet werden sollten oder welches der Erkennungsergebnisse
das Richtige ist, und dann die jeweilige Modellmenge für die weitere
Erkennung/Anpassung verwendet.
-
Deshalb
werden durch das Behalten der ursprünglichen Modelle und das Vergleichen
ihrer Leistung mit den angepassten Modellen, z. B. nach einer bestimmten
Anzahl von Anpassungsschritten oder in Sprachpausen, die anfänglichen
Modelle außerdem durch
das System verwendet, wobei die Anpassung neu begonnen wird, falls
das Erkennungsergebnis unter Verwendung der sprecherunabhängigen Modelle
und/oder die Vertrauensmaße
angeben, dass die angepassten Modelle nicht so gut wie die anfänglichen
Modelle arbeiten. Damit kann sichergestellt werden, dass die Erkennungsraten
niemals (signifikant) abnehmen, sondern nur zunehmen oder auf demselben
Niveau bleiben. Durch das Ausführen dieses
Verfahrens werden die Erwartungen des Benutzers genau erfüllt, weil
ein Benutzer erwarten würde,
dass sich ein automatisches Spracherkennungssystem an seine Art
des Sprechens gewöhnt,
genau wie Menschen dies tun.
-
Es
ist außerdem
möglich,
dass die sprecherangepassten Modelle nicht nur mit den sprecherunabhängigen Modellen
verglichen werden, um sicherzustellen, dass eine Erkennungsrate
niemals (signifikant) abnimmt, sondern dass außerdem oder stattdessen die
neuesten sprecherangepassten Modelle mit den älteren sprecherangepassten
Modellen verglichen werden, um die Modelle zu wählen, die die beste Erkennungsleistung
besitzen, und die Anpassung basierend auf ihnen fortzusetzen.
-
Selbstverständlich können alle
vier oben beschriebenen Verfahren oder nur eine Teilmenge von ihnen
kombiniert werden, um die Anpassung an fehlerhaft erkannte Wörter oder
Sätze in
einer nicht überwachten
oder Online-Anpassungsbetriebsart zu verhindern. Bei diesen Verfahren
wird gesteuert, ob die Anpassung mit den erkannten Wörtern oder
einer erkannten Äußerung ausgeführt wird
oder nicht. Außerdem
wird eine niemals (signifikant) abnehmende Erkennungsrate sichergestellt.
Wie oben erwähnt worden
ist, sind die vorgeschlagenen Algorithmen von den Anpassungsverfahren
selbst unabhängig,
d. h., sie können
mit irgendeinem Algorithmus zur Anpassung an den Sprecher kombiniert
werden.
-
In 1 ist
eine beispielhafte Ausführungsform
eines Erkennungssystems gemäß der Erfindung,
das eines oder mehrere der Verfahren der Erfindung für die nicht überwachte
oder Online-Anpassung an den Sprecher verwendet, gezeigt.
-
Im
Gegensatz zu dem in 5 gezeigten Spracherkennungssystem
gemäß dem Stand
der Technik umfasst das in 1 gezeigte
System der Erfindung kein Trainingsmodul wie das Trainingsmodul 55 des
Systems des Standes der Technik oder eine ähnliche Schaltung. Dies ist
keine Einschränkung
des Systems gemäß der Erfindung,
weil das Training unabhängig
von der Anpassung ausgeführt wird,
mit der sich die Erfindung befasst. Selbstverständlich kann außerdem ein
hinter dem Merkmalsextraktionsmodul 3 vorgesehener Schalter,
um zwischen der Anpassungs-/Erkennungsbetriebsart und der Trainingsbetriebsart
umzuschalten, d. h., um die Merkmalsvektoren entweder in das Erkennungsmodul 4,
wie in 1 zeigt ist, oder in ein nicht gezeigtes Trainingsmodul,
das wiederum auf die Menge der sprecherunabhängigen Module zugreifen kann,
die in einem Speicher 5 gespeichert ist, zu führen, vorgesehen
sein.
-
1 zeigt
nur den Teil des automatischen Spracherkennungssystems, der für das Verfahren der
halbüberwachten
Anpassung an den Sprecher gemäß der Erfindung
geeignet ist. Deshalb, wird das durch ein Mikrophon 1 erzeugte
analoge Sprachsignal in einer A/D-Umsetzungsstufe 2 in
ein digitales Signal umgesetzt, bevor durch ein Merkmalsextraktionsmodul 3 eine
Merkmalsextraktion ausgeführt wird,
um z. B. jede 10 ms einen Merkmalsvektor zu erhalten. Dieser Merkmalsvektor
wird in ein Erkennungsmodul 4 eingespeist, das auf einem
Speicher 5, in dem eine sprecherunabhängige Modellmenge gespeichert
ist, einen Speicher 6, in dem eine sprecherangepasste Modellmenge
gespeichert ist, und ein Anpassungsmodul 7, das ein Anpassungsverfahren,
z. B. MAP oder MLLR, verwendet, um durch die Anpassung der sprecherunabhängigen Modellmenge
die sprecherangepasste Modellmenge zu erzeugen, zugreifen kann.
Deshalb kann das Anpassungsmodul 7 über den Speicher 6,
der verwendet wird, um die sprecherangepasste Modellmenge zu speichern, auf
die im Speicher 5 gespeicherte sprecherunabhängige Modellmenge
zugreifen. Bis jetzt werden alle Module oder Speichervorrichtungen
in der gleichen Weise wie im Spracherkennungssystem gemäß dem Stand
der Technik verwendet.
-
Das
Erkennungsmodul verteilt seine Ergebnisse weiterhin zu einem Prosodie-Extraktionsmodul 6 und
einem Interpretationsmodul 9, die beide Verfahren ausführen, um
zu entscheiden, ob ein Phonem, mehrere Phoneme, ein Wort, mehrere
Wörter oder
eine ganze Äußerung für die Anpassung
verwendet werden sollte bzw. sollten oder nicht, wie oben beschrieben
worden ist. Weiterhin werden die Ergebnisse des Erkennungsmoduls
zu einem Vertrauensmaß-Modul 13 verteilt,
das die Vertrauensmaße
berechnet, wie oben beschrieben worden ist. Diese Module führen ihre
jeweiligen Ergebnisse zu einer Entscheidungseinheit 11,
die entscheidet, ob die Anpassung mit dem (den) Phonem(en), dem
einzelnen Wort, den mehreren Wörtern
oder den ganzen Äußerungen
ausgeführt
wird oder nicht, um ihr Ergebnis dem Anpassungsmodul 7 bereitzustellen,
das wiederum dieses einzelne Phonem (diese einzelnen Phoneme), dieses
Wort, diese mehreren Wörter
oder diese ganze(n) Äußerungen)
verwendet, um die sprecherangepasste Modellmenge anzupassen. Die Entscheidungseinheit 11 empfängt außerdem die Ausgabe
eines Videomoduls 12, die das sichtbare Verhalten des Benutzers
repräsentiert,
das einer bestimmten Äußerung entspricht,
d. h. seinen sichtbaren Gefühlszustand,
z. B. ob seine Mimik Ärger
oder Verwunderung zeigt oder ob der Benutzer überhaupt etwas gesagt hat oder
ob die erkannte Äußerung von irgendjemand
anders gesprochen worden ist.
-
Die
Entscheidung, ob das System die sprecherunabhängigen Modelle oder die sprecherangepassten
Modelle verwenden sollte, wird in einem Verifikationsmodul 10 ausgeführt, das
beide Ergebnisse des Erkennungsmoduls 4 empfängt, nämlich das
auf der sprecherangepassten Modellmenge basierende Ergebnis und
das auf der sprecherunabhängigen Modellmenge
basierende Ergebnis. Das Ergebnis des Verifikationsmoduls 10 beeinflusst
das Entscheidungsmodul 11, das außerdem ein Steuersignal zum Erkennungsmodul 4 weiterleitet,
das bestimmt, welche Modellmenge für die Erkennung und für die zum Prosodie-Extraktionsmodul 6,
zum Interpretationsmodul 9 und zum Vertrauensmaß-Modul 13 weitergeleiteten
Ergebnisse zu verwenden ist.
-
Abgesehen
von der Veränderung
des Schwellenwertes, um zu entscheiden, ob eine Äußerung oder ein Teil einer Äußerung für die Anpassung verwendet
werden sollte, können
die Eingangsmerkmale des Entscheidungsmoduls 11 oder außerdem die
Parameter des Entscheidungsmoduls 11 angepasst werden.
-
Selbstverständlich bestimmt
die Entscheidungseinheit 11 außerdem die Rate der Zuverlässigkeit
des einzelnen Phonems, der mehreren Phoneme, des einzelnen Wortes,
der mehreren Wörter
oder der ganzen Äußerungen),
um die Stärke
der Anpassung zu bestimmen, die im Anpassungsmodul 7 ausgeführt werden
sollte. Außerdem
können
sich die innerhalb des Prosodie-Extraktionsmoduls 6, des
Interpretationsmoduls 9, des Verifikationsmoduls 10 und des
Vertrauensmaß-Moduls 13 verwendeten
Parameter dynamisch verändern,
wie oben erwähnt
worden ist. Es ist außerdem
möglich,
dass das Entscheidungsmodul 11 nicht sofort zu den sprecherunabhängigen Modellen
umgeschaltet, falls sie besser funktionieren, sondern noch einige Äußerungen
wartet, bevor diese Entscheidung getroffen wird.
-
Deshalb
empfängt
gemäß der oben
beschriebenen bevorzugten Ausführungsform
die Entscheidungseinheit 11 das Vertrauensmaß (dessen Parameter
oder Merkmale adaptiv sein können)
der gesprochenen Äußerung oder
Teile hiervon, die Informationen über die Prosodie des Benutzers,
wenn er die Äußerung oder
Teile hiervon spricht, die auf der Grundlage des Kontextes der gesprochenen Äußerung bestimmte
Interpretation der Benutzerreaktion, die Interpretation des sichtbaren
Benutzerverhaltens und die Verifikation des Benutzers, um den Grad
der Anpassung zu bestimmen. Selbstverständlich ist die Erfindung nicht
auf dieses eingeschränkt,
wobei eine derartige Entscheidung außerdem auf der Grundlage einer
Teilmenge dieser Informationen getroffen werden kann.
-
Diese
und weitere Aspekte der Erfindung werden durch die folgenden Anmerkungen
erhellt:
Gemäß der Erfindung
wird ein Verfahren zum Ausführen
einer nicht überwachten
Anpassung und/oder einer Online-Anpassung eines automatischen Spracherkennungssystems
geschaffen, in dem die Anpassung des Systems mit Hilfe einer empfangenen Äußerung oder
von Teilen hiervon durch wiederholtes Anpassen einer Menge von Parametern
ausgeführt
wird, dadurch gekennzeichnet, dass wenigstens eine Menge früherer Parameter
gespeichert wird, um die momentan verwendeten Parameter zu ersetzen, falls
die Erkennungsleistung des Systems abfällt.
-
Ferner
ist das Verfahren dadurch gekennzeichnet, dass die Anfangsmenge
der Parameter gespeichert wird.
-
Ferner
ist das Verfahren dadurch gekennzeichnet, dass die Erkennungsleistung
des Systems durch Vergleichen tatsächlicher Erkennungsergebnisse
auf der Basis von gespeicherten früheren Parametern und auf der
Basis der neuesten angepassten Parameter beurteilt wird.
-
Ferner
ist das Verfahren dadurch gekennzeichnet, dass die Erkennungsleistung
des Systems auf der Grundlage des früher definierten Verfahrens beurteilt
wird.
-
Ferner
sind die Verfahren dadurch gekennzeichnet, dass die Anpassung des
Systems unter Verwendung der Anpassung von Hidden-Markov-Modellen
ausgeführt
wird.
-
Ferner
ist das Verfahren dadurch gekennzeichnet, dass es zum Anpassen eines
sprecherunabhängigen
Hidden-Markov-Modells an die Leistung eines sprecherabhängigen Hidden-Markov-Modells verwendet
wird.