DE69833987T2 - Halbüberwachte Sprecheradaptation - Google Patents

Halbüberwachte Sprecheradaptation Download PDF

Info

Publication number
DE69833987T2
DE69833987T2 DE69833987T DE69833987T DE69833987T2 DE 69833987 T2 DE69833987 T2 DE 69833987T2 DE 69833987 T DE69833987 T DE 69833987T DE 69833987 T DE69833987 T DE 69833987T DE 69833987 T2 DE69833987 T2 DE 69833987T2
Authority
DE
Germany
Prior art keywords
adaptation
speaker
recognition
models
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69833987T
Other languages
English (en)
Other versions
DE69833987D1 (de
Inventor
c/o Stuttgart Technology Center Silke Goronzy
c/o Stuttgart Technology Center Ralf Kompe
c/o Stuttgart Technology Center Peter Buchner
SONY Computer Science Labs Inc. Naoto Iwahashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Sony Corp
Original Assignee
Sony Deutschland GmbH
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Deutschland GmbH, Sony Corp filed Critical Sony Deutschland GmbH
Application granted granted Critical
Publication of DE69833987D1 publication Critical patent/DE69833987D1/de
Publication of DE69833987T2 publication Critical patent/DE69833987T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Description

  • Diese Erfindung bezieht sich auf die automatische Spracherkennung (ASE), insbesondere auf ein Verfahren, um eine nicht überwachte oder Online-Anpassung eines automatischen Spracherkennungssystems auszuführen, gemäß Anspruch 1.
  • Die Spracherkennungseinrichtungen des Standes der Technik umfassen eine Menge statistischer Verteilungen, die die akustischen Eigenschaften bestimmter Sprachsegmente modellieren. Diese akustischen Eigenschaften sind in Merkmalsvektoren codiert. Als ein Beispiel kann eine Gaußsche Verteilung für jedes Phonem genommen werden. Diese Verteilungen sind mit Zuständen verbunden. Ein (stochastisches) Zustandsübergangsnetz (normalerweise Hidden-Markov-Modelle) definiert die Wahrscheinlichkeiten für die Folgen der Zustände und die Folgen der Merkmalsvektoren. Das Hindurchleiten eines Zustands verbraucht einen Merkmalsvektor, der einen Rahmen von z. B. 10 ms des Sprachsignals überdeckt.
  • Die stochastischen Parameter einer derartigen Erkennungseinrichtung werden unter Verwendung einer großen Menge von Sprachdaten entweder von einem einzelnen Sprecher, was ein sprecherabhängiges System (SD-System) hervorbringt, oder von vielen Sprechern, was ein sprecherunabhängiges System (SI-System) hervorbringt, trainiert.
  • Die Anpassung an den Sprecher (SA) ist ein weit und breit verwendetes Verfahren, um die Erkennungsraten der SI-Systeme zu vergrößern. Die sprecherabhängigen Systeme des Standes der Technik liefern viel höhere Erkennungsraten als die sprecherunabhängigen Systeme. Für viele Anwendungen ist es jedoch nicht ausführbar, ausreichend Daten von einem einzelnen Sprecher zu sammeln, um das System zu trainieren. In dem Fall einer Verbrauchervorrichtung könnte dies sogar unerwünscht sein. Um diese Nichtübereinstimmung der Erkennungsraten zu überwinden, werden Algorithmen für die Anpassung an den Sprecher weit und breit verwendet, um Erkennungsraten zu erreichen, die nahe an die sprecherabhängigen Systeme kommen, aber nur einen Bruchteil der sprecherabhängigen Daten im Vergleich zu sprecherabhängigen Systemen ver wenden. Diese Systeme nehmen anfangs sprecherunabhängige Modelle, die dann angepasst werden, damit sie besser mit der Akustik der Sprecher übereinstimmen.
  • Normalerweise wird die Anpassung überwacht ausgeführt. Das heißt, die gesprochenen Wörter sind bekannt, wobei die Erkennungseinrichtung gezwungen wird, sie zu erkennen. Hiermit wird eine Zeitausrichtung der segmentspezifischen Verteilungen erreicht. Die Nichtübereinstimmung zwischen den tatsächlichen Merkmalsvektoren und den Parametern der entsprechenden Verteilung schafft die Grundlage für die Anpassung. Die überwachte Anpassung erfordert, dass eine Anpassungssitzung mit jedem neuen Sprecher ausgeführt wird, bevor er/sie die Erkennungseinrichtung tatsächlich verwenden kann.
  • 5 zeigt einen Blockschaltplan eines derartigen beispielhaften Spracherkennungssystems gemäß dem Stand der Technik. Die mit einem Mikrophon 51 empfangenen gesprochenen Äußerungen werden in einer A/D-Umsetzungsstufe 52, die mit einem Merkmalsextraktionsmodul 53 verbunden ist, in dem eine Merkmalsextraktion ausgeführt wird, um z. B. jede 10 ms einen Merkmalsvektor zu erhalten, in ein digitales Signal umgesetzt. Ein derartiger Merkmalsvektor wird entweder für das Training eines Spracherkennungssystems oder nach dem Training für die Anpassung der anfangs sprecherunabhängigen Modelle und während der Verwendung der Erkennungseinrichtung für die Erkennung der gesprochenen Äußerungen verwendet.
  • Für das Training ist das Merkmalsextraktionsmodul 53 über die Kontakte a und c eines Schalters 54 mit einem Trainingsmodul 55 verbunden. Das Trainingsmodul 55 des beispielhaften Spracherkennungssystems, das mit Hidden-Markov-Modellen (HMMs) arbeitet, erhält eine Menge von sprecherunabhängigen (SI) HMMs. Dies wird normalerweise durch den Hersteller der automatischen Spracherkennungsvorrichtung unter Verwendung einer großen Datenbank, die viele verschiedene Sprecher umfasst, ausgeführt.
  • Nachdem das Spracherkennungssystem eine Menge von SI-Modellen geladen hat, werden die Kontakte a und b des Schalters 54 so verbunden, dass die durch das Merkmalsextraktionsmodul 53 extrahierten Merkmalsvektoren in ein Erkennungsmodul 57 eingespeist werden, sodass das System durch den Kunden/die Kundin verwendet und an ihn/sie angepasst werden kann. Das Er kennungsmodul 57 berechnet dann auf der Grundlage der extrahierten Merkmalsvektoren und der sprecherunabhängigen Modellmenge ein Erkennungsergebnis. Während der Anpassung an einen einzelnen Sprecher ist das Erkennungsmodul 57 mit einem Anpassungsmodul 56 verbunden, das eine sprecherangepasste Modellmenge berechnet, die in einem Speicher 59 zu speichern ist. In der Zukunft berechnet das Erkennungsmodul 57 das Erkennungsergebnis auf der Grundlage des extrahierten Merkmalsvektors und der sprecherangepassten Modulmenge. Eine weitere Anpassung der sprecherangepassten Modellmenge kann wiederholt ausgeführt werden, um die Leistung des Systems für spezifische Sprecher weiter zu verbessern. Es gibt mehrere vorhandene Verfahren für die Anpassung an den Sprecher, wie z. B. die Maximum-a-posteriori-Anpassung (MAP-Anpassung) oder die Anpassung durch lineare Regression mit maximaler Wahrscheinlichkeit (MLLR-Anpassung).
  • Normalerweise modifizieren die Techniken für die Anpassung an den Sprecher die Parameter der Hidden-Markov-Modelle, sodass sie besser mit der Akustik der neuen Sprecher übereinstimmen. Wie oben dargelegt worden ist, wird dies normalerweise in einer Stapel- oder Offline-Anpassung ausgeführt. Dies bedeutet, dass ein Sprecher einen vorgegebenen Text lesen muss, bevor er/sie das System für die Erkennung verwenden kann, der dann verarbeitet wird, um die Anpassung auszuführen. Sobald dies abgeschlossen ist, kann das System für die Erkennung verwendet werden. Diese Betriebsart wird außerdem als überwachte Anpassung bezeichnet, weil der Text dem System bekannt war und eine erzwungene Ausrichtung des entsprechenden Sprachsignals auf die dem Text entsprechenden Modelle ausgeführt und für die Anpassung verwendet wird.
  • Für die meisten Arten von Verbrauchervorrichtungen ist jedoch ein nicht überwachtes oder Online-Verfahren besser geeignet. In diesem Fall findet die Anpassung statt, während sich das System in Gebrauch befindet. Die erkannte Äußerung wird für die Anpassung verwendet, wobei die modifizierten Modelle für das Erkennen der nächsten Äußerung verwendet werden usw. In diesem Fall ist der gesprochene Text dem System nicht bekannt, sondern das Wort (die Wörter), das (die) erkannt worden ist (sind), werden stattdessen verwendet.
  • EP 0 763 816 A2 schlägt die Verwendung von Vertrauensmaßen als ein Optimierungskriterium für das HMM-Training vor. Diese Vertrauensmaße sind zu sätzliche Wissensquellen, die für die Klassifikation eines Erkennungsergebnisses als "wahrscheinlich richtig" oder "wahrscheinlich falsch" verwendet werden. Hier werden die Vertrauensmaße für die Verifikation der n besten erkannten Wortketten verwendet, wobei das Ergebnis dieser Verifikationsprozedur, d. h. die Ableitung der Verlustfunktion, als ein Optimierungskriterium für das Training der Modelle verwendet wird. In diesem Fall werden alle Äußerungen für das Training verwendet, wobei das Verfahren verwendet wird, um die Differenz der Wahrscheinlichkeiten verwechselbarer Wörter zu maximieren. Dieses Dokument bezieht sich jedoch nur auf das HMM-Training vor der Verwendung des Systems.
  • Andererseits offenbart EP 0 776 532 A2 ein Verfahren, um die fehlerhafte Erkennung durch die Äußerung eines vorgegebenen Schlüsselwortes "oops" zu korrigieren, wonach der Benutzer die falsch erkannten Wörter durch Eingabe korrigieren könnte oder das System versucht, den Fehler selbst zu korrigieren. In jedem Fall führt das System das Training/die Anpassung der Sprachmodelle nur aus, wenn ein Wort (eine Folge von Wörtern) fehlerhaft erkannt worden ist.
  • Ein weiteres Dokument, US 5,842,168 , bezieht sich auf ein System, das eine Menge sprecherunabhängiger und sprecherangepasster Modelle enthält. Dieses Dokument offenbart den Ersatz sprecherunabhängiger durch sprecherabhängige Modelle, wenn die Erkennungsrate schlecht wird.
  • In einem weiteren Dokument, US 5,144,672 , bewertet ein System sowohl ein sprecherabhängiges als auch ein sprecherunabhängiges Modell, wobei es das am besten abschneidende Modell auswählt, um ein Erkennungsergebnis auszugeben. Dieses Dokument lehrt nicht die erneute Anpassung der Modelle, die mit den sprecherunabhängigen Modellen neu beginnt.
  • Die Erfindung betrifft die Anpassung sprecherunabhängiger Hidden-Markov-Modelle in Spracherkennungssystemen unter Verwendung der nicht überwachten oder Online-Anpassung. In diesen Systemen müssen die HMMs ständig nach jeder neuen Äußerung oder sogar nach Teilen der Äußerungen verfeinert werden. Außerdem werden die Wörter, die in das System eintreten, nicht mehrmals wiederholt, wobei sie dem System nicht bekannt sind. Deshalb ist nur eine schrittweise Anpassung an den Sprecher möglich, d. h. es sind nur sehr wenige Anpassungsdaten auf einmal verfügbar, wobei sich außerdem das Pro blem ergibt, dass die fehlerhaften Erkennungen abhängig von der Leistung des sprecherunabhängigen Systems auftreten, weil angenommen werden muss, dass die Ausgabe des Erkennungsmoduls das richtige Wort ist. Diese Wörter werden dann für die Anpassung verwendet, wobei, falls das Wort falsch erkannt worden ist, der Anpassungsalgorithmus die Modelle in einer falschen Weise modifiziert. Die Erkennungsleistung könnte drastisch abnehmen, wenn dies wiederholt geschieht.
  • Es ist deshalb die der Erfindung zugrunde liegende Aufgabe, ein Verfahren für die nicht überwachte Anpassung vorzuschlagen, das die oben im Zusammenhang mit dem Stand der Technik beschriebenen Probleme überwindet.
  • Das Verfahren der Erfindung ist in dem unabhängigen Anspruch 1 definiert. Seine bevorzugten Ausführungsformen sind jeweils in den folgenden abhängigen Ansprüchen definiert.
  • 1 zeigt ein Spracherkennungssystem, das eine bedingte Sprecheranpassung verwendet.
  • 2 zeigt ein erstes Anpassungsverfahren, in dem Vertrauensmaße verwendet werden;
  • 3 zeigt ein zweites Anpassungsverfahren, in dem eine Dialoghistorie beobachtet wird;
  • 4 zeigt ein Verfahren des Rückschaltens zu den anfänglichen sprecherunabhängigen Modellen gemäß der Erfindung; und
  • 5 zeigt ein beispielhaftes Spracherkennungssystem gemäß dem Stand der Technik.
  • 2 zeigt ein erstes Beispiel einer Anpassungsverfahrens, in dem Vertrauensmaße verwendet werden, um das Anpassen an ein fehlerhaft erkanntes Wort zu vermeiden und um den Grad der Anpassung zu bestimmen. Dieses Verfahren wird in einer mit dem Schritt S21 beginnenden Endlosschleife wiederholt ausgeführt.
  • In diesem ersten Schritt S21 wird die Erkennung einer Benutzeräußerung wie in einem Spracherkennungssystem gemäß dem Stand der Technik ausgeführt. Im folgenden Schritt S22 wird eine Vertrauensmessung auf das Erkennungsergebnis des Schrittes S21 angewendet. In diesem Schritt werden Vertrauensmaße verwendet, um zu messen, wie zuverlässig das Erkennungsergebnis ist. Falls das Vertrauensmaß kleiner als ein bestimmter Schwellenwert ist, wird das erkannte Wort als unzuverlässig betrachtet, wobei es für die Anpassung nicht verwendet wird, sodass die Anpassungsprozedur abermals mit dem Schritt 21 fortgesetzt wird, in dem die Erkennung der nächsten Benutzeräußerung ausgeführt wird. Liegt das Vertrauensmaß andererseits über dem Schwellenwert, wird Erkennungsergebnis als zuverlässig betrachtet und für die Anpassung in einem Schritt S23 verwendet, bevor die Anpassungsprozedur abermals mit dem Schritt S21 fortgesetzt wird, um die nächste Benutzeräußerung zu erkennen.
  • Um ein Vertrauensmaß gemäß der Erfindung zu berechnen, werden zuerst ein oder mehrere Merkmale aus der Erkennungshypothese und/oder dem Sprachsignal extrahiert. Dann wird auf der Grundlage dieser Merkmale eine Entscheidung getroffen, ob das Phonem/das Wort/die Wortverbindung als richtig oder falsch erkannt klassifiziert werden kann. Diese Entscheidung ist keine harte Entscheidung, sondern es wird eine bestimmte Wahrscheinlichkeit für die Richtigkeit einer empfangenen Äußerung berechnet. Diese Entscheidung basiert z. B. auf einem neuronalen Netz oder auf Entscheidungsbäumen, die die Merkmale als Eingabe nehmen und auf der Grundlage einiger interner Parameter das Vertrauensmaß berechnen.
  • Wenn ein neuronales Netz verwendet wird, um das Vertrauensmaß zu berechnen, ist die Ausgabe, d. h. das Vertrauensmaß, typischerweise ein Wert zwischen 0 und 1; je näher dieser Wert bei 1 liegt, desto wahrscheinlicher ist das Phonem/das Wort/die Äußerung oder die Folgen hiervon richtig erkannt worden. Deshalb wird ein Schwellenwert zwischen 0 und 1 definiert, wobei die Vertrauensmaße über diesem Schwellenwert ein Erkennungsergebnis als richtig klassifizieren.
  • Die Merkmale, auf deren Grundlage das Vertrauensmaß berechnet wird, werden aus dem Erkennungsergebnis extrahiert oder basierend auf dem Erkennungsergebnis direkt aus dem Sprachsignal berechnet. Derartige Merkmale können z. B. die (relativen) Bewertungen der n besten Erkennungshypothesen, die HMM-Zustandsdauern, die Dauern der den erkannten Wörtern zugrunde liegenden erkannten Phoneme oder die Segmentwahrscheinlichkeiten sein. Die Letzteren werden durch ein stochastisches Modell berechnet, das die Wahrscheinlichkeit für ein derartiges in einer Worthypothese enthaltenes Phonem bei einem gegebenen ganzen Sprachsegment, das mehrere Rahmen enthält, bestimmt.
  • Das Vertrauensmaß kann dann direkt verwendet werden, um außerdem den Grad der Anpassung zu bestimmen. Selbstverständlich ist der einfachste Fall eines Vertrauensmaßes, nur ein Merkmal zu extrahieren, z. B. die durch die HMMs während der Erkennung bereitgestellte Bewertung, und direkt auf der Grundlage eines Schwellenwertes zu entscheiden, ob das Wort richtig erkannt worden ist oder nicht. In diesem Fall ist der Grad der Anpassung immer konstant.
  • Als eine Alternative zum festen Schwelenwert kann die Vertrauensmessung verwendet werden, um ein Gewicht zu berechnen, das die Stärke der im Schritt S23 ausgeführten Anpassung bestimmt.
  • Außerdem ist es möglich, andere Parameter zu verändern, auf denen die Entscheidung während der Anpassung basiert, z. B. wie der für das Entscheiden verwendete Schwellenwert abhängig von den abgeleiteten Merkmalen des Sprachsignals angepasst werden kann.
  • Während der Anpassung der HMM-Modelle an den Sprecher tritt ein Problem auf, weil dies die Merkmale des Vertrauensmaßes beeinflusst. Dies erfordert entweder eine Normierung der Merkmale, sodass sie gegenüber derartigen Änderungen der HMM-Modelle invariant sind, oder es erfordert eine automatische Online-Anpassung der Merkmale oder der Parameter des Vertrauensmaßes oder des Schwellenwertes, mit dem das Vertrauensmaß verglichen wird. Diese Anpassung basiert auf einem formalen Algorithmus, der ein Kriterium wie die Richtigkeit des Vertrauensmaßes optimiert. Das Letztere kann basierend auf der Benutzerreaktion geschätzt werden, wie sie in den Video-, Interpretations- und Prosodie-Modulen bestimmt wird.
  • Außerdem kann das Vertrauensmaß nicht nur auf ganze Benutzeräußerungen angewendet werden, sondern außerdem wortweise oder phonemweise, sodass nicht immer die ganze Äußerung für die Anpassung zurückgewiesen wird, sondern nur die einzelnen fehlerhaft erkannten Wörter oder die Wörter, die fehlerhaft erkannte Phoneme enthalten. Es ist außerdem möglich, die Vertrauensmaße auf ein Sprachsegment einer anderen beliebigen Länge anzuwenden.
  • Eine derartige durch die Vertrauensmaße geführte Anpassung benötigt keine Handlung vom Benutzer wie z. B. die Mitteilung an das System, dass ein Wort fehlerhaft erkannt worden ist. Deshalb erreicht dieses Verfahren eine beträchtlich bessere Erkennungsrate für die nicht überwachte oder Online-Anpassung in automatischen Spracherkennungssystemen als die Systeme gemäß dem Stand der Technik, weil nicht jede Benutzeräußerung oder jedes durch den Benutzer gesprochene Wort ungeachtet der Tatsache, dass eine derartige Äußerung oder ein derartiges Wort fehlerhaft erkannt werden kann, für die Anpassung verwendet wird und der Grad der Anpassung von der Wahrscheinlichkeit eines richtigen erkannten Ergebnisses abhängt.
  • 3 zeigt ein zweites Beispiel eines Anpassungsverfahrens, in dem eine Dialoghistorie beobachtet wird, um zu entscheiden, ob eine Äußerung oder ein einzelnes Wort oder mehrere Wörter für die Anpassung verwendet werden sollte bzw. sollten oder nicht.
  • In einem Dialogsystem zeigt die Reaktion eines Benutzers oft, ob das erkannte Wort richtig war oder nicht. Ein Verfahren, um eine derartige Benutzerreaktion zu beurteilen, ist in 3 gezeigt. Ähnlich zum in 2 dargestellten Verfahren wird dieses Verfahren in einer mit dem Schritt S31 beginnenden Endlosschleife wiederholt ausgeführt.
  • Im Schritt S31 wird eine Erkennung einer Benutzeräußerung Nummer i wie in den Systemen gemäß dem Stand der Technik ausgeführt. Danach wird das Erkennungsergebnis im Schritt S32 einer Interpretation unterzogen, in dem beurteilt wird, ob der Benutzer mit der Systemreaktion auf seine vor der Äußerung Nummer i gesprochene Äußerung zufrieden gestellt worden ist. Ein Beispiel einer derartigen Äußerung Nummer i – 1 könnte "schalte den Fernsehapparat ein" sein, wobei aus irgendwelchen Gründen das System "schalte das Radio ein" erkannt hat und folglich das Radio eingeschaltet worden ist. Wenn der Benutzer diesen Fehler erkennt, wird seine/ihre nächste Äußerung (d. h. die Äußerung Nummer i) irgendetwas wie "nein, nicht das Radio, den Fernseh apparat" oder "falsch, ich sagte Fernsehapparat" sein. In diesem Fall interpretiert das System im Schritt S32 auf der Grundlage der Äußerung Nummer i, dass die vorher erkannte Äußerung fehlerhaft erkannt worden ist und für die Anpassung nicht verwendet werden sollte. Der Schritt S33, in dem die Benutzeräußerung Nummer i – 1 für die Anpassung verwendet wird, wird in diesem Fall ausgelassen, wobei der Schritt S34, in dem das System eine Handlung oder Reaktion ausführt, nicht nach dem Schritt S33, sondern direkt nach dem Schritt S32 ausgeführt wird. Nach der Handlung oder Reaktion des Systems im Schritt S34 wird i im Schritt S35 inkrementiert, bevor die nächste Äußerung Nummer i + 1 des Benutzers im Schritt S31 erkannt wird.
  • Abgesehen vom Wortlaut oder Interpretationsergebnis einer Äußerung können außerdem Informationen über den Gefühlszustand eines Benutzers, d. h. die Intonation und/oder die Prosodie, berücksichtigt werden, um im Schritt S32 zu beurteilen, ob der Benutzer zufrieden gestellt worden ist oder nicht. Deshalb sind durch das Interpretieren der Äußerung unter Verwendung der Intonation und/oder Prosodie keine speziellen Schlüsselwörter für das System notwendig, um zu erkennen, dass eine fehlerhafte Erkennung der vorher erkannten Äußerung aufgetreten ist. Falls ein Benutzer z. B. in einer ärgerlichen Weise dem System "schalte den Fernsehapparat ein" sagt, nachdem seine/ihre vorher gesprochene Äußerung fehlerhaft erkannt worden ist, kann das System interpretieren, dass er/sie seine/ihre Meinung nicht geändert hat, sondern dass der vorher erkannte Befehl fehlerhaft erkannt worden ist, sodass er für die Anpassung nicht verwendet werden sollte.
  • Außerdem können die durch ein Video-Rechensystem wie z. B. eine Videokamera, die mit einem Computer verbunden ist, der die Reaktionen eines Benutzers, z. B. die Mimik, interpretieren kann, beobachteten Benutzerreaktionen verwendet werden, um eine erkannte Äußerung zu verifizieren, z. B. basierend auf einem Bild oder einer Videosequenz, das bzw. die vom Benutzer und/oder dem Gesicht des Benutzers genommen worden ist.
  • In diesem Fall kann bestimmt werden, ob die Mimik Ärger oder Verwunderung zeigt oder ob die Lippen des Benutzers geschlossen gewesen sind, obwohl die Erkennungseinrichtung auf der Grundlage von Hintergrundstimmen oder -geräusch einige Wörter erkannt hat.
  • Abhängig von nur einer oder einer Kombination aus diesen Benutzerreaktionen und von der Intensität kann ein Grad der Anpassung bestimmt werden. Wie im Fall der Vertrauensmaße ist es außerdem möglich, einen Schwellenwert festzulegen und damit eine harte Entscheidung zu definieren, sodass der Grad der Anpassung konstant ist.
  • 4 zeigt ein Verfahren gemäß der Erfindung, in dem das System zu den anfänglichen SI-Modellen zurückschaltet, falls die Leistung der angepassten Modelle zu schlecht ist.
  • In diesem Fall erkennt das System eine Situation, in der die Anpassung (wiederholt) unter Verwendung fehlerhaft erkannter Wörter ausgeführt worden ist oder ein neuer Sprecher das System verwendet, weil dann die Erkennungsleistung abfallen kann. Deshalb schaltet das System zurück zu den ursprünglichen sprecherunabhängigen Modellen. Ähnlich zu den in den 2 und 3 dargestellten Verfahren wird dieses Verfahren in einer mit den Schritten S41 und 543, die parallel ausgeführt werden, beginnenden Endlosschleife wiederholt ausgeführt.
  • Deshalb wird in diesem Schritt S41 eine Erkennung einer Benutzeräußerung unter Verwendung der angepassten Modelle ausgeführt, während im Schritt S43 eine Erkennung derselben Benutzeräußerung unter Verwendung der anfänglichen sprecherunabhängigen Modelle ausgeführt wird. Auf beide Erkennungsergebnisse kann jeweils in den Schritten S42 und S44 eine Vertrauensmessung angewendet werden. In einem folgenden Schritt S45 werden beide Ergebnisse, z. B. die Vertrauensmessungen, verglichen, um zu entscheiden, ob im Schritt S46 die Anpassung mit den anfänglichen sprecherunabhängigen Modellen neu zu beginnen ist oder ob in einem Schritt S47 die angepassten Modelle weiter zu verwenden und anzupassen sind, bevor die in den Schritten 41 und 43 ausgeführte parallele Erkennung mit der nächsten Benutzeräußerung ausgeführt wird.
  • Dieses Verfahren ist nicht auf die Verwendung der Vertrauensmaße eingeschränkt, um diese beiden Erkennungsergebnisse zu vergleichen. Es ist außerdem möglich, dass das System andere Benutzerreaktionen verwendet, z. B. sein/ihr Verhalten eine bestimmte Zeit vor und/oder nach der jeweiligen Äußerung oder etwa die Intonation und/oder Prosodie. Es ist außerdem denkbar, dass das System den Benutzer auffordert, zu entscheiden, welche Modelle verwendet werden sollten oder welches der Erkennungsergebnisse das Richtige ist, und dann die jeweilige Modellmenge für die weitere Erkennung/Anpassung verwendet.
  • Deshalb werden durch das Behalten der ursprünglichen Modelle und das Vergleichen ihrer Leistung mit den angepassten Modellen, z. B. nach einer bestimmten Anzahl von Anpassungsschritten oder in Sprachpausen, die anfänglichen Modelle außerdem durch das System verwendet, wobei die Anpassung neu begonnen wird, falls das Erkennungsergebnis unter Verwendung der sprecherunabhängigen Modelle und/oder die Vertrauensmaße angeben, dass die angepassten Modelle nicht so gut wie die anfänglichen Modelle arbeiten. Damit kann sichergestellt werden, dass die Erkennungsraten niemals (signifikant) abnehmen, sondern nur zunehmen oder auf demselben Niveau bleiben. Durch das Ausführen dieses Verfahrens werden die Erwartungen des Benutzers genau erfüllt, weil ein Benutzer erwarten würde, dass sich ein automatisches Spracherkennungssystem an seine Art des Sprechens gewöhnt, genau wie Menschen dies tun.
  • Es ist außerdem möglich, dass die sprecherangepassten Modelle nicht nur mit den sprecherunabhängigen Modellen verglichen werden, um sicherzustellen, dass eine Erkennungsrate niemals (signifikant) abnimmt, sondern dass außerdem oder stattdessen die neuesten sprecherangepassten Modelle mit den älteren sprecherangepassten Modellen verglichen werden, um die Modelle zu wählen, die die beste Erkennungsleistung besitzen, und die Anpassung basierend auf ihnen fortzusetzen.
  • Selbstverständlich können alle vier oben beschriebenen Verfahren oder nur eine Teilmenge von ihnen kombiniert werden, um die Anpassung an fehlerhaft erkannte Wörter oder Sätze in einer nicht überwachten oder Online-Anpassungsbetriebsart zu verhindern. Bei diesen Verfahren wird gesteuert, ob die Anpassung mit den erkannten Wörtern oder einer erkannten Äußerung ausgeführt wird oder nicht. Außerdem wird eine niemals (signifikant) abnehmende Erkennungsrate sichergestellt. Wie oben erwähnt worden ist, sind die vorgeschlagenen Algorithmen von den Anpassungsverfahren selbst unabhängig, d. h., sie können mit irgendeinem Algorithmus zur Anpassung an den Sprecher kombiniert werden.
  • In 1 ist eine beispielhafte Ausführungsform eines Erkennungssystems gemäß der Erfindung, das eines oder mehrere der Verfahren der Erfindung für die nicht überwachte oder Online-Anpassung an den Sprecher verwendet, gezeigt.
  • Im Gegensatz zu dem in 5 gezeigten Spracherkennungssystem gemäß dem Stand der Technik umfasst das in 1 gezeigte System der Erfindung kein Trainingsmodul wie das Trainingsmodul 55 des Systems des Standes der Technik oder eine ähnliche Schaltung. Dies ist keine Einschränkung des Systems gemäß der Erfindung, weil das Training unabhängig von der Anpassung ausgeführt wird, mit der sich die Erfindung befasst. Selbstverständlich kann außerdem ein hinter dem Merkmalsextraktionsmodul 3 vorgesehener Schalter, um zwischen der Anpassungs-/Erkennungsbetriebsart und der Trainingsbetriebsart umzuschalten, d. h., um die Merkmalsvektoren entweder in das Erkennungsmodul 4, wie in 1 zeigt ist, oder in ein nicht gezeigtes Trainingsmodul, das wiederum auf die Menge der sprecherunabhängigen Module zugreifen kann, die in einem Speicher 5 gespeichert ist, zu führen, vorgesehen sein.
  • 1 zeigt nur den Teil des automatischen Spracherkennungssystems, der für das Verfahren der halbüberwachten Anpassung an den Sprecher gemäß der Erfindung geeignet ist. Deshalb, wird das durch ein Mikrophon 1 erzeugte analoge Sprachsignal in einer A/D-Umsetzungsstufe 2 in ein digitales Signal umgesetzt, bevor durch ein Merkmalsextraktionsmodul 3 eine Merkmalsextraktion ausgeführt wird, um z. B. jede 10 ms einen Merkmalsvektor zu erhalten. Dieser Merkmalsvektor wird in ein Erkennungsmodul 4 eingespeist, das auf einem Speicher 5, in dem eine sprecherunabhängige Modellmenge gespeichert ist, einen Speicher 6, in dem eine sprecherangepasste Modellmenge gespeichert ist, und ein Anpassungsmodul 7, das ein Anpassungsverfahren, z. B. MAP oder MLLR, verwendet, um durch die Anpassung der sprecherunabhängigen Modellmenge die sprecherangepasste Modellmenge zu erzeugen, zugreifen kann. Deshalb kann das Anpassungsmodul 7 über den Speicher 6, der verwendet wird, um die sprecherangepasste Modellmenge zu speichern, auf die im Speicher 5 gespeicherte sprecherunabhängige Modellmenge zugreifen. Bis jetzt werden alle Module oder Speichervorrichtungen in der gleichen Weise wie im Spracherkennungssystem gemäß dem Stand der Technik verwendet.
  • Das Erkennungsmodul verteilt seine Ergebnisse weiterhin zu einem Prosodie-Extraktionsmodul 6 und einem Interpretationsmodul 9, die beide Verfahren ausführen, um zu entscheiden, ob ein Phonem, mehrere Phoneme, ein Wort, mehrere Wörter oder eine ganze Äußerung für die Anpassung verwendet werden sollte bzw. sollten oder nicht, wie oben beschrieben worden ist. Weiterhin werden die Ergebnisse des Erkennungsmoduls zu einem Vertrauensmaß-Modul 13 verteilt, das die Vertrauensmaße berechnet, wie oben beschrieben worden ist. Diese Module führen ihre jeweiligen Ergebnisse zu einer Entscheidungseinheit 11, die entscheidet, ob die Anpassung mit dem (den) Phonem(en), dem einzelnen Wort, den mehreren Wörtern oder den ganzen Äußerungen ausgeführt wird oder nicht, um ihr Ergebnis dem Anpassungsmodul 7 bereitzustellen, das wiederum dieses einzelne Phonem (diese einzelnen Phoneme), dieses Wort, diese mehreren Wörter oder diese ganze(n) Äußerungen) verwendet, um die sprecherangepasste Modellmenge anzupassen. Die Entscheidungseinheit 11 empfängt außerdem die Ausgabe eines Videomoduls 12, die das sichtbare Verhalten des Benutzers repräsentiert, das einer bestimmten Äußerung entspricht, d. h. seinen sichtbaren Gefühlszustand, z. B. ob seine Mimik Ärger oder Verwunderung zeigt oder ob der Benutzer überhaupt etwas gesagt hat oder ob die erkannte Äußerung von irgendjemand anders gesprochen worden ist.
  • Die Entscheidung, ob das System die sprecherunabhängigen Modelle oder die sprecherangepassten Modelle verwenden sollte, wird in einem Verifikationsmodul 10 ausgeführt, das beide Ergebnisse des Erkennungsmoduls 4 empfängt, nämlich das auf der sprecherangepassten Modellmenge basierende Ergebnis und das auf der sprecherunabhängigen Modellmenge basierende Ergebnis. Das Ergebnis des Verifikationsmoduls 10 beeinflusst das Entscheidungsmodul 11, das außerdem ein Steuersignal zum Erkennungsmodul 4 weiterleitet, das bestimmt, welche Modellmenge für die Erkennung und für die zum Prosodie-Extraktionsmodul 6, zum Interpretationsmodul 9 und zum Vertrauensmaß-Modul 13 weitergeleiteten Ergebnisse zu verwenden ist.
  • Abgesehen von der Veränderung des Schwellenwertes, um zu entscheiden, ob eine Äußerung oder ein Teil einer Äußerung für die Anpassung verwendet werden sollte, können die Eingangsmerkmale des Entscheidungsmoduls 11 oder außerdem die Parameter des Entscheidungsmoduls 11 angepasst werden.
  • Selbstverständlich bestimmt die Entscheidungseinheit 11 außerdem die Rate der Zuverlässigkeit des einzelnen Phonems, der mehreren Phoneme, des einzelnen Wortes, der mehreren Wörter oder der ganzen Äußerungen), um die Stärke der Anpassung zu bestimmen, die im Anpassungsmodul 7 ausgeführt werden sollte. Außerdem können sich die innerhalb des Prosodie-Extraktionsmoduls 6, des Interpretationsmoduls 9, des Verifikationsmoduls 10 und des Vertrauensmaß-Moduls 13 verwendeten Parameter dynamisch verändern, wie oben erwähnt worden ist. Es ist außerdem möglich, dass das Entscheidungsmodul 11 nicht sofort zu den sprecherunabhängigen Modellen umgeschaltet, falls sie besser funktionieren, sondern noch einige Äußerungen wartet, bevor diese Entscheidung getroffen wird.
  • Deshalb empfängt gemäß der oben beschriebenen bevorzugten Ausführungsform die Entscheidungseinheit 11 das Vertrauensmaß (dessen Parameter oder Merkmale adaptiv sein können) der gesprochenen Äußerung oder Teile hiervon, die Informationen über die Prosodie des Benutzers, wenn er die Äußerung oder Teile hiervon spricht, die auf der Grundlage des Kontextes der gesprochenen Äußerung bestimmte Interpretation der Benutzerreaktion, die Interpretation des sichtbaren Benutzerverhaltens und die Verifikation des Benutzers, um den Grad der Anpassung zu bestimmen. Selbstverständlich ist die Erfindung nicht auf dieses eingeschränkt, wobei eine derartige Entscheidung außerdem auf der Grundlage einer Teilmenge dieser Informationen getroffen werden kann.
  • Diese und weitere Aspekte der Erfindung werden durch die folgenden Anmerkungen erhellt:
    Gemäß der Erfindung wird ein Verfahren zum Ausführen einer nicht überwachten Anpassung und/oder einer Online-Anpassung eines automatischen Spracherkennungssystems geschaffen, in dem die Anpassung des Systems mit Hilfe einer empfangenen Äußerung oder von Teilen hiervon durch wiederholtes Anpassen einer Menge von Parametern ausgeführt wird, dadurch gekennzeichnet, dass wenigstens eine Menge früherer Parameter gespeichert wird, um die momentan verwendeten Parameter zu ersetzen, falls die Erkennungsleistung des Systems abfällt.
  • Ferner ist das Verfahren dadurch gekennzeichnet, dass die Anfangsmenge der Parameter gespeichert wird.
  • Ferner ist das Verfahren dadurch gekennzeichnet, dass die Erkennungsleistung des Systems durch Vergleichen tatsächlicher Erkennungsergebnisse auf der Basis von gespeicherten früheren Parametern und auf der Basis der neuesten angepassten Parameter beurteilt wird.
  • Ferner ist das Verfahren dadurch gekennzeichnet, dass die Erkennungsleistung des Systems auf der Grundlage des früher definierten Verfahrens beurteilt wird.
  • Ferner sind die Verfahren dadurch gekennzeichnet, dass die Anpassung des Systems unter Verwendung der Anpassung von Hidden-Markov-Modellen ausgeführt wird.
  • Ferner ist das Verfahren dadurch gekennzeichnet, dass es zum Anpassen eines sprecherunabhängigen Hidden-Markov-Modells an die Leistung eines sprecherabhängigen Hidden-Markov-Modells verwendet wird.

Claims (3)

  1. Verfahren zum Ausführen einer nicht überwachten Anpassung und/oder einer Online-Anpassung eines automatischen Spracherkennungssystems, dadurch gekennzeichnet, dass – die Anpassung des Systems mit Hilfe einer empfangenen Äußerung oder von Teilen hiervon durch wiederholtes Anpassen einer Menge von Parametern ausgeführt wird, – wobei wenigstens eine Menge früherer Parameter gespeichert wird, um die momentan verwendeten Parameter zu ersetzen, falls die Erkennungsleistung des Systems abfällt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Anfangsmenge der Parameter gespeichert wird.
  3. Verfahren nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass die Erkennungsleistung des Systems durch Vergleichen tatsächlicher Erkennungsergebnisse auf der Basis von gespeicherten früheren Parametern und auf der Basis der neuesten angepassten Parameter beurteilt wird.
DE69833987T 1998-12-17 1998-12-17 Halbüberwachte Sprecheradaptation Expired - Lifetime DE69833987T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP98124024A EP1011094B1 (de) 1998-12-17 1998-12-17 Halbüberwachte Sprecheradaptation

Publications (2)

Publication Number Publication Date
DE69833987D1 DE69833987D1 (de) 2006-05-18
DE69833987T2 true DE69833987T2 (de) 2006-11-16

Family

ID=8233165

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69833987T Expired - Lifetime DE69833987T2 (de) 1998-12-17 1998-12-17 Halbüberwachte Sprecheradaptation
DE69829187T Expired - Lifetime DE69829187T2 (de) 1998-12-17 1998-12-17 Halbüberwachte Sprecheradaptation

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69829187T Expired - Lifetime DE69829187T2 (de) 1998-12-17 1998-12-17 Halbüberwachte Sprecheradaptation

Country Status (6)

Country Link
US (1) US6799162B1 (de)
EP (2) EP1426923B1 (de)
JP (1) JP2000181482A (de)
KR (1) KR100697961B1 (de)
CN (1) CN1248192C (de)
DE (2) DE69833987T2 (de)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100781A (ja) 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
WO2002001549A1 (en) * 2000-06-15 2002-01-03 Intel Corporation Speaker adaptation using weighted feedback
DE60002584D1 (de) * 2000-11-07 2003-06-12 Ericsson Telefon Ab L M Anwendung von Referenzdaten für Spracherkennung
US20020143540A1 (en) * 2001-03-28 2002-10-03 Narendranath Malayath Voice recognition system using implicit speaker adaptation
GB2375211A (en) * 2001-05-02 2002-11-06 Vox Generation Ltd Adaptive learning in speech recognition
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
KR100762588B1 (ko) * 2001-06-26 2007-10-01 엘지전자 주식회사 화자적응과 오입력 거절을 결합한 음성인식 방법
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7031918B2 (en) * 2002-03-20 2006-04-18 Microsoft Corporation Generating a task-adapted acoustic model from one or more supervised and/or unsupervised corpora
US20030212761A1 (en) * 2002-05-10 2003-11-13 Microsoft Corporation Process kernel
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
US7835910B1 (en) * 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
EP1723636A1 (de) 2004-03-12 2006-11-22 Siemens Aktiengesellschaft Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
US7818175B2 (en) * 2004-07-30 2010-10-19 Dictaphone Corporation System and method for report level confidence
JP4456537B2 (ja) * 2004-09-14 2010-04-28 本田技研工業株式会社 情報伝達装置
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
CN100458913C (zh) * 2005-01-24 2009-02-04 乐金电子(惠州)有限公司 语音识别系统的发音验证方法
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
DE102005010285A1 (de) * 2005-03-01 2006-09-07 Deutsche Telekom Ag Verfahren und System zur Spracherkennung
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
US7734471B2 (en) * 2005-03-08 2010-06-08 Microsoft Corporation Online learning for dialog systems
US7707131B2 (en) 2005-03-08 2010-04-27 Microsoft Corporation Thompson strategy based online reinforcement learning system for action selection
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US8762148B2 (en) * 2006-02-27 2014-06-24 Nec Corporation Reference pattern adaptation apparatus, reference pattern adaptation method and reference pattern adaptation program
JP4594885B2 (ja) * 2006-03-15 2010-12-08 日本電信電話株式会社 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
WO2007118032A2 (en) * 2006-04-03 2007-10-18 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7788205B2 (en) * 2006-05-12 2010-08-31 International Business Machines Corporation Using stochastic models to diagnose and predict complex system problems
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8386254B2 (en) * 2007-05-04 2013-02-26 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8612364B2 (en) * 2009-10-29 2013-12-17 Xerox Corporation Method for categorizing linked documents by co-trained label expansion
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
JP5633042B2 (ja) * 2010-01-28 2014-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識ロボット
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
TWI466101B (zh) * 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
JP5852550B2 (ja) * 2012-11-06 2016-02-03 日本電信電話株式会社 音響モデル生成装置とその方法とプログラム
KR20140082157A (ko) * 2012-12-24 2014-07-02 한국전자통신연구원 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9589560B1 (en) * 2013-12-19 2017-03-07 Amazon Technologies, Inc. Estimating false rejection rate in a detection system
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10269342B2 (en) 2014-10-29 2019-04-23 Hand Held Products, Inc. Method and system for recognizing speech using wildcards in an expected response
US9984685B2 (en) * 2014-11-07 2018-05-29 Hand Held Products, Inc. Concatenated expected responses for speech recognition using expected response boundaries to determine corresponding hypothesis boundaries
KR102199246B1 (ko) * 2014-11-18 2021-01-07 에스케이텔레콤 주식회사 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
JP6824795B2 (ja) * 2017-03-17 2021-02-03 ヤフー株式会社 修正装置、修正方法および修正プログラム
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110164431B (zh) * 2018-11-15 2023-01-06 腾讯科技(深圳)有限公司 一种音频数据处理方法及装置、存储介质
KR20210144384A (ko) 2020-05-22 2021-11-30 송문선 산화와 환원에 의한 질소산화물과 배가스 처리 시스템
JP7395446B2 (ja) * 2020-09-08 2023-12-11 株式会社東芝 音声認識装置、方法およびプログラム
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4618984A (en) * 1983-06-08 1986-10-21 International Business Machines Corporation Adaptive automatic discrete utterance recognition
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
US5040213A (en) * 1989-01-27 1991-08-13 Ricoh Company, Ltd. Method of renewing reference pattern stored in dictionary
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
US5144672A (en) * 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US5559926A (en) * 1993-12-22 1996-09-24 Lucent Technologies Inc. Speech recognition training using bio-signals
US5586171A (en) * 1994-07-07 1996-12-17 Bell Atlantic Network Services, Inc. Selection of a voice recognition data base responsive to video data
JPH08202388A (ja) * 1995-01-24 1996-08-09 Omron Corp 音声認識装置及び音声認識方法
US5842168A (en) * 1995-08-21 1998-11-24 Seiko Epson Corporation Cartridge-based, interactive speech recognition device with response-creation capability
US5737489A (en) 1995-09-15 1998-04-07 Lucent Technologies Inc. Discriminative utterance verification for connected digits recognition
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
DE19708184A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6260013B1 (en) * 1997-03-14 2001-07-10 Lernout & Hauspie Speech Products N.V. Speech recognition system employing discriminatively trained models
US5970239A (en) * 1997-08-11 1999-10-19 International Business Machines Corporation Apparatus and method for performing model estimation utilizing a discriminant measure

Also Published As

Publication number Publication date
EP1426923B1 (de) 2006-03-29
EP1011094A1 (de) 2000-06-21
DE69829187D1 (de) 2005-04-07
EP1426923A1 (de) 2004-06-09
EP1011094B1 (de) 2005-03-02
CN1264888A (zh) 2000-08-30
DE69833987D1 (de) 2006-05-18
KR100697961B1 (ko) 2007-03-23
DE69829187T2 (de) 2005-12-29
JP2000181482A (ja) 2000-06-30
CN1248192C (zh) 2006-03-29
KR20000067829A (ko) 2000-11-25
US6799162B1 (en) 2004-09-28

Similar Documents

Publication Publication Date Title
DE69833987T2 (de) Halbüberwachte Sprecheradaptation
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE60009583T2 (de) Sprecheradaptation auf der Basis von Stimm-Eigenvektoren
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
WO1993006591A1 (de) Verfahren zur erkennung von mustern in zeitvarianten messsignalen
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60108104T2 (de) Verfahren zur Sprecheridentifikation
WO2003017252A1 (de) Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
WO2001078063A1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1199704A2 (de) Auswahl der alternativen Wortfolgen für diskriminative Anpassung
DE60032776T2 (de) Verfahren zur Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition