DE3337353A1 - Sprachanalysator auf der grundlage eines verborgenen markov-modells - Google Patents
Sprachanalysator auf der grundlage eines verborgenen markov-modellsInfo
- Publication number
- DE3337353A1 DE3337353A1 DE3337353A DE3337353A DE3337353A1 DE 3337353 A1 DE3337353 A1 DE 3337353A1 DE 3337353 A DE3337353 A DE 3337353A DE 3337353 A DE3337353 A DE 3337353A DE 3337353 A1 DE3337353 A1 DE 3337353A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- speech
- pattern
- probability
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Machine Translation (AREA)
Description
Die Erfindung betrifft die Mustererkennung und
im einzelnen Anordnungen zur automatischen Identifizierung
von Sprachmustern.
Bei der Nachrichtenübertragung, Datenverarbei-
5 tung und in ähnlichen Anlagen ist es häufig wünschenswert,
s akustische Schnittstellenanordnungen zu verwenden. Eine
Spracheingabe und eine Ausgabe von synthetisierter Sprache können für Anfragen, Befehle und den Austausch von Daten
und anderen Informationen verwendet—werden. Sprachschnittstellen
ermöglichen einen Nachrichtenverkehr mit Datenverarbeitungseinrichtungen von entfernten Stellen aus, ohne
, daß manuell betätigte Bildschirmgeräte erforderlich sind, . und ermöglichen die gleichzeitige Ausführungen anderer
Funktionen durch den Benutzer. Die Kompliziertheit der Sprachmuster und deren Änderungen von Sprecher zu Sprecher
macht jedoch eine genaue Erkennung schwierig. Es sind zwar brauchbare Ergebnisse bei speziellen Anwendungsfällen beschränkt
auf bestimmte Personen und mit eingeschränktem Vokabular erreicht worden, aber die Ungenauigkeit einer
20 sprecherunabhängigen Erkennung hat deren Verwendung begrenzt.
Generell sind Spracherkennungsanordnungen in der Lage, ein unbekanntes Sprachmuster in eine Folge von vorgeschriebenen
akustischen Merkmalssignalen umzusetzen. Die-
25 se Merkmalssignale werden dann mit vorher gespeicherten
Sätzen akustischer Merkmalssignale verglichen, die identifizierte Bezugsmuster darstellen. Als Ergebnis des Vergleichs
wird das unbekannte Sprachmuster als dasjenige Muster
identifiziert, das das nach vorgegebenen Erkennungs-
33373
Jcriterien am genauesten passende Bezugsmuster ist. Die Gehauigkeit
solcher Erkennungssysteme hängt in hohem Maß von den gewählten Merkmalen und den Erkennungskriterien ab.
Der Vergleich zwischen der Eingangsfolge von Sprachmustermerkmalen
und einer Bezugsfolge kann direkt durchgeführt werden. Es ist jedoch bekannt, daß die Sprachfrequenz und
-artikulation in hohem Maße variabel sind.
Bekannte Erkennungsverfahren benutzen eine dynamische
Programmierung , um eine optimale Übereinstimmung zwischen den Mustern bei dem Vergleich zu bestimmen. Auf
diese Weise werden die Einflüsse von unterschiedlichen Sprachfrequenzen und Sprachartikulationen gemildert. Die
SignalVerarbeitungsanordnungen für eine dynamische Zeitverzerrung
und einen dynamischen Vergleich sind jedoch kompliziert und zeitaufwendig, da die für eine Erkennung erforderliche
Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von Bezugsmerkmalsschablonen für jedes Wort
des Vokabulars ist. Im Ergebnis ist-eine sprecheruaabhängige
Erkennung für Vokabulare in der Größenordnung von 50 Wörtern in Realzeit schwierig zu verwirklichen.
Ein weiterer Lösungsversuch für eine Spracherkennung
beruht auf probabilistischen Markον-Modellen, die
auf statistischen Schätzwerten fußende Sätze von Zuständen und Zustandsübergängen benutzen. Es sind sprecherabhängige
Erkennungsanordnungen entwickelt worden, bei denen Spektralmerkmalsfolgen
erzeugt und in einer Folge von hierarchischen Markov-Modellen von Merkmalen, Wörtern und Sprache ausgewertet
werden. Die Merkmalsfolgen werden in Markον-Modellen
phonetischer Elemente analysiert. Die Modelle werden zu größeren akustischen Elementen, beispielsweise Wörtern,
verknüpft. Die Ergebnisse werden dann auf eine Hierarchie von Markov-Modellen, beispielsweise syntaktischen Kontext-Modellen,
um eine Sprachmusteridentifizierung zu erhalten. Die Verwendung von Modellen verknüpfter phonemischer EIemente
und die Kompliziertheit von Systemen unbeschränkter hierarchischer Markov-Modelle macht jedoch eine beträchtliche
Einübung des Systems durch die identifizierten Sprecher erforderlich, um eine ausreichende Anzahl von Modell-
werten zu-gewinnen, damit die Markov-Modelle gültig werden.
~ Die vorliegende Erfindung hat zum Ziel, eine verbesserte automatische Spracherkennung auf der Grundlage von Wahrscheinlichkeitsmodellen
zu erreichen, die nicht sprecherabhängig ist und mit höherer Geschwindigkeit einsetzbar
ist.
Zur Lösung der Aufgabe geht die Erfindung aus von einem Sprachanalysator zur Erkennung einer Äußerung
als eines von einer Vielzahl von Bezugsmustern, mit einer Einrichtung zur Speicherung einer Vielzahl von Signalen,
die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung, die
unter Ansprechen auf die Äußerung eine Zeitrahmenfolge akustischer
Merkmalssignale bildet, die die Sprachmuster der J. 5 Äußerung darstellen, und ist gekennzeichnet durch Einrichtungen,
die unter Ansprechen auf die Sprachmuster-Merkmalssignale
eine Folge gewählter, .Vorbestimmter, das Sprachmuster darstellender Merkmalssignale—erzeugen, die unter
gemeinsamem Ansprechen auf die Folge gewählter Merkmalssignale und die Signale für das begrenzte verborgene Markov-Modell
jedes Bezugsmusters ein die Wahrscheinlichkeit dafür darstellendes Signal erzeugen, daß das Sprachmuster das
Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster
als eines der Bezugsmuster erkennt.
Nachfolgend wird die Erfindung anhand der Zeichnungen beschrieben. Es zeigen:
Fig. 1 schematisch ein Beispiel für ein beschränktes Markov-Modell mit verborgenem Wort,
wie es bei der vorliegenden Erfindung be
nutzt wird;
Fig. 2 ein allgemeines Flußdiagramm zur Erläuterung
eines Ausführungsbeispiels der Erfindung;
Fig. 3 das Blockschaltbild einer Spracherkennungs-
Fig. 3 das Blockschaltbild einer Spracherkennungs-
schaltung nach der Erfindung;
Fig. 4, 5 und 6 genauere Flußdiagramme zur Erläuterung von Teilen der Arbeitsweise der
33373
Spracherkennungsschaltung nach Fig.3;
Fig. 7 ein Gitterdiagramm zur Erläuterung der Arbeitsweise der Schaltung nach Fig.3:
Allgemeine Beschreibung
In bekannter Weise kann ein verborgenes Markov-Modell zur Auswertung einer Folge von Beobachtungen O1 ,
0_, ... 0φ benutzt werden, wobei jede Beobachtung ein diskretes
Symbol einer endlichen Anzahl solcher Symbole ist. Die Folge von Beobachtungen läßt sich deuten als Wahrscheinlichkeitsfunktion
einer zugrunde liegenden Markov-Kette mit Zustandsänderungen, die nicht direkt beobachtbar sind.
Fig. 1 erläutert ein solches Modell.
In Fig. 1 sind N Zustände, beispielsweise 5, und M Ausgangssymbole, beispielsweise 64, vorhanden. Die Über-
1J5 gänge zwischen Zuständen wird durch eine Übergangsmatrix
A= [a. .]. Jeder Ausdruck ä. . ist die Wahrscheinlichkeit für einen übergang in den.Zustand j unter der Voraussetzung,
daß sich das Modell im Zustand i bef-indet. Die Ausgangssymbolwahrscheinlichkeit
des Modells wird durch eine Matrix B=[b.(0t)] dargestellt, wobei b.(Ot) die.= Wahrscheinlichkeit
für die Ausgabe des Symbols O. ist, vorausgesetzt daß sich das Modell im Zustand i befindet. Das verborgene
Markov-Modell kann zur Ableitung eines Satzes von Bezugsmustermodellen verwendet werden,-und zwar ein Modell für
jedes Muster im Vokabularsatz, und zur Klassifizierung
einer Folge von Beobachtungen als eines der Bezugsmuster
auf der Grundlage der Wahrscheinlichkeit für die Erzeugung der unbekannten Beobachtungen aus jedem Bezugsmustermodell.
Bei der Spracherkennung wird das Eingangssprachmuster analysiert, um eine Folge von akustischen Merkmalen
zu erzeugen. Jedes Merkmal kann ein linearer Vorhersagekoeffizienten-Vektor
(LPC-Vektor von tjinear Prediction Coefficient) oder ein anderes akustisches Merkmal bekannter
Art sein. Die erzeugten Merkmalsvektoren werden mit einem endlichen Satz vorher gespeicherter LPC-Merkmalssignale
verglichen und in eine Folge von Vektor-quantisierten LPC-Signalen umgesetzt, die das Eingangssprachmuster darstellen.
Jedes der quantisierten Merkmalssignale ist eines
aus dem endlichen Satz von M Symbolen, die bei dem verborgenen Markov-Modell benutzt werden können. Bei der Erkennungs-Betriebsart
bildet die quantisierte LPC-Vektormerkmalsfolge
für eine Äußerung, beispielsweise ein Wort oder einen Ausdruck, die Beobachtungsfolge 0 und die Wahrscheinlichkeit
dafür, daß O durch ein Bezugsmustermodell K, beispielsweise
ein Wort oder einen Ausdruck eines Vokabularsatzes, erzeugt wird, wie folgt gebildet:
P(O|M) = B± b± (O1Ja1 ± b± (O2) ...a± ± b± (0T) (1),
1 1 12 2 -T-ITT
wobei I1 , i„, ... ίφ die Folge maximaler Wahrscheinlichkeit
für die Markov-Modellzustände und O1, 0„, ... 0 die Beobachtete
Folge sind. Die Gleichung (1) läßt sich anhand der Vorwärts-Teilwahrscheinlichkeit Φ (i) schreiben, die defi-
IQ niert ist als
Φ (i) = P(O..O„...O und die Folge maximaler
Φ. (j) kann dann ausgedrückt werden als
*t+1(j) = max {Φΐ (Da1^bJ (0t+1 )} t=1 , 2, ...T-1
für 1 £ j £ N und max {1 , j-2} £ i£ j,
wobei
Tb1 (O1 ) für i=1
25 G1 (i) J (3),
25 G1 (i) J (3),
[θ im anderen Fall
so daß Gleichung (1 ) wird:
P(O JK) = P = ΦΤ(Ν) (4) .
so daß Gleichung (1 ) wird:
P(O JK) = P = ΦΤ(Ν) (4) .
Nach Erzeugung des Wahrscheinlichkeitssignals für jedes Bezugsmustermodell kann das Eingangssprachmuster als
dasjenige Bezugsmustermodell identifiziert werden, das dem Signal höchster Wahrscheinlichkeit entspricht.
Fig. 2 zeigt ein allgemeines Flußdiagramm zur
Erläuterung der Arbeitsweise eines auf der Grundlage eines verborgenen Markov-Modell arbeitenden Spracherkenners. Wenn
der Erkenner verfügbar ist (Kästchen 205), so wird das Eingangssprachmuster in eine Folge von Digitalsignalen umge-
33373
wandelt, wie Kästchen 210 zeigt. Die die Sprache darstellenden Digitalsignale (Kästchen 210) werden dann in eine
Zeitrahmenfolge von linearen Voraussagemerkraalssignalen umgesetzt (Kästchen 215). Die entsprechend dem Kästchen
215 erzeugten Signale entsprechen zwar den akustischen Merkmalen des Eingangssprachmusters, die gewonnenen Signale
sind aber nicht auf einen endlichen Satz begrenzt. Gemäß Kästchen 220 werden die akustischen Sprachmustermerkmale
mit einem endlichen Satz von linearen Voraussagemerkmalsvektoren verglichen, und es wird der am geriauesten übereinstimmende,
gespeicherte Vektor für jedes Sprachmustermerkmalssignal gewählt. Auf diese Weise wird für jeden
aufeinander folgenden Rahmen t des SpEachmusters ein quantisiertes
Merkmalsvektorsignal aus einem vorgegebenen end-
IEj^ liehen Satz gewonnen. Das quantisierte Merkmalsvektorsignal
ist dann die Eingangsbeobachtung für die Verarbeitung auf der Grundlage eines verbogenen Markov-Modells im Rahmen t. „
>·--«
Es wird ein Satz vorbestimmter Modelle gespeichert. Für jedes Bezugsmuster im Vokabular des Spracherkenners
ist ein einziges Modell vorgesehen. Das Bezugsmustermodell enthält eine Zustands-Ausgangssymbol-Signalmatrix
für rgeden Modellzustand und eine Zustandswahrscheinlichkeits-Signalmatrix
entsprechend allen möglichen fibergangen
zwischen den Zuständen für das Bezugsmustermodell. Die Bezugsmustermodelle werden entsprechend dem Kästchen
225 sequentiell gewählt, und die Wahrscheinlichkeit dafür, daß die quantisierte LPC__Vektor-Merkmalsfolge des Eingangsspcachmusters
aus dem gewählten Bezugswortmodell gewonnen wird, wird erzeugt und gespeichert (Kästchen 230). Nach
Auswahl des letzten Bezugsmustermodells und Erzeugung des zugehörigen Wahrscheinlichkeitssignals wird das Maximum
der Wahrscheinlichkeitssignale gewählt, und es wird ein Signal, das das beste Bezugsmuster identifiziert, zu einer
Verbrauchereinrichtung übertragen, beispielsweise einem Datenverarbeiter oder einer Steueranlage.
Das verborgene Markov-Modell für jedes Bezugsmuster wird so begrenzt, daß der Zustand 1 immer der
Anfangszustand des ersten Rahmens ist, daß nur ein vorge-"schriebener
Satz von Links-nach-rechts-Zustandsübergahgen
möglich ist und daß ein vorbestimmter Endzustand definiert ist, aus dem übergänge in andere Zustände nicht stattfinden
können. Diese Beschränkungen sind im Zustandsdiagramm gemäß Fig. 1 dargestellt. Dort ist der Zustand 1 der Anfangszustand,
der Zustand 5 ist der End- oder Aufnahmezustand,und die
vorgeschriebenen Übergänge von links nach rechts sind durch die Richtungspfeile zwischen den Zuständen angegeben.
Entsprechend dem Zustandsdiagramm nach Fig. 1 ist es nur möglich, in den Zustand 1 über den Weg 111 wieder
einzutreten, über den Weg 112 zum Zustand 2 weiterzugehen oder über deni/Weg 113 vom Zustand 1 zum Zustand 3 zu gehen.
Im allgemeinen sind die Übergänge auf das Wiedereintreten
1.5 in einen Zustand oder das Eintreten in einen der nächsten
beiden Zustände beschränkt. Es wurde festgestellt, daß diese
Beschränkungen eine schnelle und genaue Erkennung von Sprachmustern
ermöglichen. Die Erzeugung-de-r—Bezugsmustermodelle
identifizierter Äußerungen für den Spracherkenner sind nicht auf die Sprachmuster eines identifizierten Sprechers beschränkt,
sondern können aus den Äußerungen vieler unterschiedlicher Sprecher abgeleitet werden, so daß die Spracherkennung sprecherunabhängig ist.
Fig. 3 zeigt ein allgemeines Blockschaltbild eines Spracherkenners zur Erläuterung der Erfindung. Die Schaltung
gemäß Fig. 3 ist zur Erkennung von Sprechmustern vorgesehen, die einem elektroakustischen Wandler 300 zugeführt werden,
und zur Lieferung vorgeschriebener Steuersignale einer Verbrauchereinrichtung 380, die auf die identifizierten Muster
anspricht. Gemäß Fig. 3 nimmt eine Filter- und Abtastschaltung 310 ein elektrisches Analogsignal vom Wandler 300 auf
und führt eine Tiefpaßfilterung durch, so daß ein unerwünschtes
Rauschen höherer Frequenzen entfernt wird. Die Grenz-
35 frequenz des Filters kann auf 3,2 kHz eingestellt werden.
Das gefilterte Signal wird dann in bekannter Weise mit einer Frequenz von 6,7 kHz abgetastet.
Das abgetastete Signal wird einem Analog-Digital-
J."T* .r.-W·.-· 33373
wandler 310 zugeführt, in welchem jeder aufeinander folgen- ~ de Abtastwert in ein digitalcodiertes Signal umgesetzt wird,
das die Größe des entsprechenden Abtastwertes darstellt. Die Folge codierter Signale wird einem LPC-Merkmalssignalgenerator
330 zugeführt. In bekannter Weise speichert der Generator 330 die digitalcodierte Signalfolge zeitweilig,
gruppiert die Signale in aufeinander folgende, überlappende Rahmen mit einer Dauer von 45 ms und erzeugt einen Satz
von P linearen Voraussageparametersignalen für jeden Rahmen.
Jeder Satz dieser LPC-Signale stellt akustische Merkmale
des entsprechenden Rahmens dar. Es sei jedoch darauf hingewiesen, daß der Fachmann auch spektrale oder andere akustische
Merkmalssignale verwenden kann.
Der Merkmalsgenerator 330 stellt außerdem auf der Grundlage einer Energieanalyse der Merkmalssignalfolge
den Endpunkt des dem Wandler 300 zugeführten Eingangssprachmusters fest. Die Endpunkt-Feststellungsanordnung kann eine
Anordnung sein, die in der uS-PS 3—90-9-532 (30. September
1975) beschrieben ist. Alternativ können andere bekannte Verfahren zur Endpunktfeststellung benutzt weiden.
Bern Feststellung eines Sprachmuster-Endpunktes
im Merkmalsgenerator 330 wird das Steuersignal ST erzeugt und zum■Erkennungsprozessor 340 weitergeleitet, um dessen
Operationen einzuleiten. Der Erkennungsprozessor kann einen Mikroprozessor vom Typ MC68000 enthalten, der beschrieben
ist in der Veröffentlichung "MC68000 16 Bit Microprocessor User's Manual" , 2. Ausgabe, Motorola Inc., 1980. Die Operationsfolge
des Prozessors 340 wird durch einen fest gespeicherten Befehlssatz im Programm-Festwertspeicher (ROM)
30 355 gesteuert.
Ein Akustikmerkmal-Signalspeicher 370 nimmt die Rahmenfolge von LPC-Koeffizientensignalen, die das Eingangssprachmuster
darstellen, vom Generator 330 auf und speichert die Merkmalssignale in einer ädressierbaren Rahmenreihenfolge
zur Verwendung durch den Erkennungsprozessor 340. Ein Prototyp-Signalspeicher 365 enthäit Signale, die
einen Satz vorbestimmter LPC-Prototyp-Merkmalssignale darstellen,
welche den Bereich erwarteter LPC-Merkmalssignale
• ν» *·
im Eingangssprachmuster erfassen. Diese Prototyp-Signale "* ~ bilden einen endlichen Satz von Symbolen für die Markov-Model
1-Verarbeitung.
Ein Markov-Modellspeicher 360 enthält einen Satz 5 codierter Signale entsprechend den verborgenen Wort-Markov-Modellen
der möglichen Bezugsmuster für die Unbekannte Äußerung, die dem Wandler 300 zugeführt wird. Jedes Markov-Modell
umfaßt einen Satz von Signalen a. . entsprechend der Wahrscheinlichkeit für die Übergänge zwischen Modellzu-
10 ständen und Signale b.(O.) entsprechend der Ausgangesymbol-
Jt
Wahrscheinlichkeit in jedem Zustand. Die Ausgangssymbole O und zwar ein Symbol für jeden Sprachmusterrahmen t,
entsprechen den Prototypsignalen im Speicher 365. Jeder der Speicher 360 und 365 kann einen Festwertspeicher ent-
15 halten, der durch den Prozessor 340 adressierbar ist. Die
Festwertspeicher 360 und 365 speichern die Modell- und Prototypsignale permanent. Der Speicher 370 kann ein durch
den Prozessor 340 adressierbarer JSchxeib-Lesespeicher {RAM)
sein. Der RAM 350 wird als Zwischenspeicher für die Signal-
20 Verarbeitungsoperationen des Erkennungsprozessors benutzt,
und die Schnittstelle 345 bildet eine Nachrichtenübertragungsschnittstelle zwischen dem Erkennungsprozessor und
den Einrichtungen in Fig. 3. Die Schnittstelle in Form einer Sammelleitung 345 kann eine Rückwandebene vom Typ HBFA-
SBC614 sein, die von der Hybricon Corporation hergestellt
wird. Alternativ können der Prozessor 340 , die Sammelleitung 345, der Steuerspeicher 350 und der RAM 355 ein Einplattenrechner
#om Typ OB68K1 A MC68000/MULTIBUS sein, hergestellt
von Omnibyte Corporation, West Chicago, Illinois.
Es könnte auch eine Q-Sammelleitungsanordnung verwendet
werden.
Die Schaltung gemäß Fig. 3 kann zur Erkennung vieler unterschiedlicher Mustertypen benutzt werden. Zur
Erläuterung wird eine Anordnung zur Erkennung von Ziffern, beispielsweise der Ziffern einer Fernsprechnummer oder ο
einer Kreditkartennummer, beschrieben. Es sei angenommen, daß die (englische) Aussprache der Ziffer "Neun" dem Wandler
300 zugeführt wird. Entsprechend den Kästchen 20 7 und
Φ ei n *
210 des Flußdiagramms in Fig. 2 wird das Eingangssprachmuster in der Filter- und Abtastschaltung 310 gefiltert und
abgetastet und dann im Analog-Digitalwandler 320 in ein Digitalsignal umgesetzt. Die Folge digitalcodierter Signale
wird dem Eingang eines Merkmalssignalgenerators 330 zugeführt, in welchem die LPC-Koeffizientenmerkmalssignale für
die aufeinander folgenden Rahmen des Spracnmusters "Nine" (englisch "neun") entsprechend dem Kästchen 215 erzeugt
werden. Die erzeugten BPC-Merkmalssignale werden zum Akustikmerkmal-Signalspeicher
370 übertragen, der durch den Rahmenindex t über die Leitung 332 adressiert wird. In jedem
Rahmen wird in das Entscheidungskästchen 218 eingetreten, um festzustellen, ob der Endpunkt des Musters erreicht
worden ist. Bei Feststellung des Endpunktes wird das Signal ST im Merkmalssignalgenerator erzeugt und zum Erkennungs-■'*-■
prozessor 340 übertragen.
Unter Ansprechen auf das Signal ST wird der Prozessor 340 in seine Vektorquantisiexungs-Betriebsart gebracht,
in welcher die LPC-Merkmalssignale im Speicher 3 70 entsprechend den Prototypsignalen im ROM 365 entsprechend
dem Kästchen 220 quantisiert werden. Die Quantisierungsbetriebsart
ist genauer im Flußdiagramm gemäß Fig.4 dargestellt.
Entsprechend Fig. 4 wird gemäß Kästchen 401 der LPC-Merkmalssignal-Rahmenindex t im Prozessor 340 zu Anfang
auf 0 zurückgestellt. Dann wird in die Schleife 403 eingetreten, um die Einstellung des'.Prototyp-Index m einzuleiten.
In der Schleife 403 wird der Rahmenindex t inkrementiert (Kästchen 405), und der inkrementierte Rahmenindex
wird mit dem letzten Rahmen (T) des Eingangssprachmusters verglichen (Kästchen 410). Solange nicht t>T ist, wird in
das Kästchen 415 eingetreten, so daß das·LPC-Merkmalssignal
U des augenblicklichen Rahmeneingangssprachmusters im
Speicher 3 70 durch den Prozessor 340 adressiert und zum RAM 350 übertragen wird. Das Signal, das den minimalen Abstand
zwischen dem Prototyp-Signal und dem Merkmalssignal (D . ) darstellt, wird zu Anfang auf Unendlich eingestellt
ram ' ^
(Kästchen 420), und der Prototyp-Index m wird im Prozessor'
350 auf 0 eingestellt (Kästchen 425). Semäß Kästchen 430
wird dann der Prototyp-Index m im Prozessor 430 inkrementiert. Der inkrementierte Index m+1 wird anschließend entsprechend
Kästchen 435 mit dem letzten Index M=64 verglichen.
Zu diesem Zeitpunkt wird das augenblickliche Prototyp-Signal im Speicher 365 adressiert und über den
Erkennungsprozessor zum RAM 350 übertragen (Kästchen 440). Es kann dann die Bestimmung des Prototyp-Signals R , das
dem augenblicklichen Sprachmuster-Merkmalssignal U am genauesten
entspricht, im Prozessor 340 gestartet werden. Der Prozessor ist so eingerichtet, daß er iterativ das bekannte
Itakura-Abstandsmetriksignal der Form
15*. d(U R) = log 2¥l_ (5)
aVa
für jedes Prototyp-Signal bestimmt, wobei a ein BEC-Vektor
von U. , a ein LPC-Vektor aus R und-· V-die Autokorrelationst
m
matrix auf R sind, m
20 Zu Anfang werden das Äbstandsmetriksxgnal
d(U.,R ) und das Merkmalsindexsignal ρ entsprechend den
Kästchen 445 und 450 auf 0 eingestellt. Dann wird in die Schleife 452 zur Abstandssignalbildung eingetreten,und für
jeden Merkmalsindex wird das Abstandssignal gemäß Kästchen
25 455 entsprechend der folgenden Gleichung inkrementiert:
d(Ut,Rm) = In σ Ut(p).Rm(p) (6).
p=1
Das Indexsignal ρ wird im Prozessor 340 inkrementiert (Kästchen 460),und es wird wieder über das Entscheidungskästchen
465 in das Kästchen 455 eingetreten, bis p>P ist, wobei P das End-Merkmalsindexsignal ist. Das Abstandssignal
wird in logarithmische Form gebracht ^Kästchen 46 8 hind dann entsprechend dem Entscheidungskastchen 470 mit D.
verglichen. Falls das augenblickliche Prototyp-Abstandssignal gleich oder größer als D . ist, wird erneut ohne
Änderung von D . in das Kästchen 430 eingetreten. Im anmm
deren Fall wird das Prototyp-Indexsignal m als Darstellung
33373
des quantisierten Sprachmustersignals für den Rahmen t abgespeichert,und
das Abstandssignal für den Prototyp m wird als D . im RAM .350 abgelegt. Dann wird erneut in das Kästchen
430 eingetreten. Wenn beim Kästchen 435 m M ist, so wird O =m als das am genauesten entsprechende , quantisierte
Signal gewählt und gemäß Kästchen 405 erneut in die Schleife 403 eingetreten, so daß die Quantisierung des nächsten
Rahmens begonnen werden kann.
Wenn entsprechend dem Kästchen 410 der Sprachmuster-Rahmenindex
t größer als der letzte Sprachmustertahmen T wird, ist eine Folge von quantisierten Signalangaben
O1, Oy , ... O. ... Οφ für das Sprachmuster im Prozessor
340 erzeugt worden und im RAM 350 abgespeichert. Das der Aussprache von "nine" entsprechende Sprachmuster kann
beispielsweise 36 Rahmen besitzen,und es wird für jeden Rahmen eines von 64 möglichen Prototypssignalen gewählt.
Auf diese Weise wird das Sprachmuster in eine Folge von quantisierten Signalen eines endlichen·-Satzes umgewandelt.
Jeder quantisierte Signalindex O entspricht einem Satz von P linearen Voraussagekoeffizienten, die das quantisierte
Akustikmerkmal eines Rahmens für das Sprachmuster darstellen. Für die Aussprache der Ziffer "nine" durch einen nicht
identifizierten Sprecher kann die Folge quantisierter Merkmalssignale
auf den in der nachfolgenden Tabelle 1 aufge-
25 führten Signalen bestehen.
t | ft ¥ | * * * | 16 | 1 | Quantisiertes | |
1 | W V w Ht * V |
Rahmen- | Sicrnal | |||
2 | Tabelle | Nr. | °t | |||
Rahmen- | 3 ■ | Qüantisier- | t | 52 | ||
Nr. | 4 | tes Signal | 19 | 52 | ||
5 | °t | 20 | 52 | |||
6 | 1U | 21 | 51 | |||
7 | 14 | 22 | 51 | |||
8 | 13 | 23 | 40 | |||
9 | 9 | 24 | 46 | |||
10 | 1 | 25 | 57 | |||
11 | 25 | 26 | 57 | |||
12 | 26 | 27 | 57 | |||
13 | 28 | 28 | 57 | |||
14 | 28 | 29 | 57 | |||
15 | 28 | 30 | 57 | |||
16 | 29 | 31 | 47 | |||
17 | 29 | 32 | 17 | |||
18 | 19 | 33 | 3 | |||
19 | 34 | 18 | ||||
34 | 35 | 42 | ||||
34 | 36 | |||||
50 | ||||||
51 | ||||||
Nach Beendigung der Quantisierung geht der Prozessor 340 aus der Quantisierungs-Betriebsweise und tritt
in seine Markov-Modell-Auswertungsbetriebsweise entsprechend den Kästchen 225, 230 und 235 in Fig.2 ein.
Während der Modellauswertungs-Betriebsweise werden die Markov-Modelle für den Satz von Bezugsmustern, beispielsweise
die Ziffern o, 1, 2 , ... 9 nacheinander ausgewählt. Jedes Modell umfaßt eine A-Matrix,der Übergangswahrscheinlichkeitssymbole
und eine B-Matrix der Symbolausgangs-Wahrscheinlichkeitssignale.
Die Α-Matrizen für die Ziffern 0, 5 und 9 sind als Beispiel in den Tabellen 2,
3 und 4 dargestellt. Sterne stellen Übergänge dar, die durch das Modell verboten sind und als 0 bewertet werden.
33373
1 | Tabelle | 2 | • | 3 | 4 | 5 | |
Ziffer | 0 | • | |||||
.821 | A- ttätt | •Hl | • | * | * | * | |
Zustand i | .143 | 2 | * | * | * | ||
j | .036 | 800 | * | * | |||
1 | * | * | 079 | .880 | ♦ | ||
2 | * | .801 | 122 | .120 | 1.000 | ||
3 | .199 | ||||||
4 | .000 | ||||||
5 | * | ||||||
1 | Tabelle | 3 | 3 | 4 | 5 | |
Ziffer | 5 | |||||
.852 | Jt- üa trj | .Σ | * | * | * | |
Zustand i | .136 | 2 | * | * | * | |
j | .013 | .800 | * | * | ||
1 | * | * | .054 | .922 | * | |
2 | * | .932 | .146 | .078 | 1.000 | |
3 | .067 | |||||
4 | .000 | |||||
5 | * | |||||
1 | Tabelle | 4 | 3 | 4 | 5 | |
Ziffer <. | ||||||
.793 | A-Matrix | * | * | * | ||
Zustand i | .106 | 2 | * | * | * | |
.100 | .690 | * | * | |||
1 | * | * | .142 | .930 | * | |
2 | .939 | .168 | .070 | 1.000 | ||
3 | .061 | |||||
4 | .000 | |||||
5 | * | |||||
Jede.der A-Matrix-Tabellen ist eine 5x5-Matrixdarstellung
für die Wahrscheinlichkeit aller übergänge zwischen den fünf Zuständen des Modells in Fig. 1.
Entsprechend den Tabellen 2, 3 und 4 sind entsprechend den Einschränkungen des Modells nur übergänge von links
nach rechts in Fig. 1 möglich, die keine * oder Null-Werte haben. B-Matrizen für die Ziffern 0, 5 und 9 sind
in den Tabellen 5, 6 bzw. 7 gezeigt. Jede Spalteneintragung in Tabelle 5 stellt die Wahrscheinlichkeit eines bestimmten
Prototyp-Signals im entsprechenden Zustand für die Aussprache der Ziffer "zero" dar.
Zustand Zustand
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
30 31 32
.059 .025 .001 .007 .002 .046 .001 .001 .001
.006 .001 .012 .001 .007 .001 .007 .031 .001 .028 .001 .005
.001 .078 .063 .001 .054 .002 .001 .011 .002 .021 .001
.011 .001 .001 .001 .001 .001 .001 .001 .001 .028 .001 .001
.001 .001 .001 .001 .150 .001 .001 .001 .105 .001 .019 .001 .001 .001
.001 .007 .035 .001 .001 .001
.001 .015 .001 .001 .001 .001 .001 .001 .001 .014 .001 .001 .001
.001 .001 .001 .001 .001 .001 .001 .011 .001 .001 ..017 .001 .001 .137
.001 .001 .001 .169 .001
.001 .001 .001 .103 .001 .001 .059 .018 .001 .008 .001 .001
.001 .001 .001 .001 .001 .001 .076 .001 .019 .001 .001 .001 .001 .001 .029 .001
.001 .001 .013 .001
.015
.004
.048
.001
.007
.003
.001
.001
.004
.008
.101
.001
.025
.007
.008
.006
.010
.009
.006
.021
.003
.090
.001
.001
.090
.002
.008
.010
.001
.001
.001
.030
33 34 35 36 37 . 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
55 56 57 58 59 60 61 62 63 64
.015 .040 .001 .026 .006 .110 .001 .005 .001 .001 .044
.001 .066 .002 .001 .022 .019 .016 .017 .035 '.015
.001 .011 .001 .028 .001 .001 .011 .001 .004 .004
.016
.155
.001 .014 .001 .001 .032 .060 .001 .001 .001 .042 .001
.001 .012 .006 .001 .001 .001 .001 .132 .003 .022 .001 .001 .001 .268 .001
.001 .001 .001 .001 .001 .001
.001
.021
.001
.001
.001
.003
.001
.022
.001
.017
.001
.001
.001
.305
.001
.001
.001
.001
.223
.001
.004
.003
.001
.001
.006
.001
.001
.001
,003
.028
.001
.001
.001
.004
.021
.003
.001
.002
.004
.062
.033
.001
.001
.044
.001
.001
.034
.001
.001
.047
.009
.001
.004
.090
.006
.045
.001
.020
.006
.016
.006
.005
.001
.002
CO CO CO
1 | Zustand | 2! | .002 | i, | Tabelle | 6 | Zustand | .001 | .001 | .001 | L | |
2 | 1. | .003 | .001 | .001 | .001 | .001 | .001 | .026 | ||||
η | 3 | .005 | .001 | .001 | .001 | m | .003 | .032 | .096 | .441 | .026 | |
4 | .001 | .001 | .001 | .014 | .020 ! | 33 | .001 | .001 | .001 | .001 | .001 | |
5 | .001 ' | .001 | .004 | .001 | .005 | 34 | .001 | .001 | .001 | .001 | .017 | |
6 | .001 | .001 | .001 | .001 | .001 | 35 | .001 | .001 | .001 | .001 | .007 | |
7 | .001 | .001 | .001 | .001 | .001 | 36. | .001 | .001 | .066 | .066 | .068 | |
8 | .001 | .001 | .001 | .001 | .023 | 37 | .001 | .001 | .360 | .128 | .001 | |
9 | .001 | .001 | .010 | .001 | .009 I | 38 | .001 | .005 | .001 | .001 | .013 | |
10 | .001 | .002 | .001 | .038 | .001 | 39· | .003 | .001 | .001 | .01Ol | .001 | |
11 | .001 | .001 | .012 | .001 | .0Oi I | 40 | .001 | .001 | .001 | .001 | .001 | |
12 | .001 | .001 | .001 | .001 | .004 I | 41 | .001 | .001 | .001 | .001 | .136 | |
13 | .001 | .001 | .001 | .001 | .004 I | 42 | .591 | .001 | .001 | .001 | .001 | |
14 | .001 | .004 | .004 | .038 | .on ι | 43 | .001 | .001 | .001 | .001 | .012 | |
15 | .001 | .010 | .001 | .001 | .001 | 44 | .003 | .242 | .001 | .003 | .004 | |
16 | .001 | .098 | .075 | .001 | .001 | 45 | .001 | .001 | .001 | .001 | .001 | |
17 | .001 | .001 | .001 | .001 | .031 | 46 | .003 | .001 | .001 | .001 | .025 | |
18 | .004 | .001 | .001 | .001 | .001 | 47 | .001 | .012 | .149 | .004 | .008 | |
19 | .016 | .001 | .002 | .001 | .004 | 48 | .001 | .001 | .001 | .001 | .047 | |
20 | .001 | .001 | .019 | .077 | .014 | 49 | .036 | .001 | .001 | .001 | .058 | |
21 | .001 | .396 | .001 | .009 | .001 | 50 | .001 | iOOl | .001 | .001 | .005 | |
22 | .001 | .001 | .001 | .001 | .022 | 51 | .009 | .028 | .009 | .001 | .021 | |
23 | .001 | .001 | .001 | .001 | .001 | 52 | .001 | .001 | .001 | .001 | .001 | |
24 | .001 | .001 | ..001 | .001 | .029 | I 53 | .003 | J012 | .133 | .001 | .029 | |
25 | .001 | .001 | -.001 | .001 | .001 | I 54 | .064 | .001 | .001 | .001 | .001 | |
26 | .001 | .102 | .001 | .060 | .001 | I 55 | .003 | .001 | .001 | .001 | .021 | |
27 | .001 | .001 | .003 | .001 | .012 | I 56 | .001 | .005 | .003 | .072 | .001 | |
28 | .001 | .001 | .001 | .001 | .001 | 57 | .001 | .001 | .001 | .001 | .001 | |
29 | .001 | .001 | .001 | .001 | .010 | I 58 | .001 | .001 | .001 | .001 | .053 | |
30 | .001 | .001 | .001 | .001 | .012 | 59 | .112 | .001 | .001 | .001 | .001 | |
31 | .098 | .001 | .005 | .001 | .001 | 60 | .001 | .001 | .001 | .001 | .009 | |
32 | .001 | .001 | .001 | .00). | .125 | 61 | ,001 " | .001 | .001 | .001 | .001 | |
.001 | • 001 | .oo;, | .001 | 62 | .001 | .004 | ||||||
.001 | .048 | 63 | .001 | |||||||||
.001 | 64 | |||||||||||
« t(tl
Zustand
Zustand
m | 1 | I | 2_ | 2 | £ | 5 I | m- | I | .001 | 2 | 4_ | 2 |
2 | .013 | .001 | .049 | .001 | .009 j | 33 | .006 | .001 | .001 | .001 | .030 | |
3 | .004 | .001 | .001 | .001 | .009 I | 34 | .052 | .184 | .019 | .001 | .019 | |
4 | .001 | .009 | .001 | .016 | .0Oi I | 35 | .001 | .001 | .001 | .039 | .001 | |
5 | .006 | .001 | .001 | .001 | .017 I | 36 | .108 | .001 | .001 | .001 | .085 | |
6 | .001 | .022 | .153 | .060 | .019 I | •37 | .010 | .001 | .001 | .σοι | .029 | |
7 | .001 | .001 | .026 | .001 | .on I | 38 | .025 | .236 | .048 | .001 | .031 | |
8 | .010 | .001 | .001 | .001 | .008 I | 39 | .001 | .059 | .011 | .025 | .001 | |
9 | .001 | .001 | .001 | .001 | .006 I | 40 | .001 | .002 | .029 | .054 | .013 | |
10 | .001 | .051 | .050 | .010 | .003 I | 41 | .001 | .001 | .001 | .001 | .001 | |
11 | .084 | .001 | .001 | .001 | .030 I | 42 | .008 | .001 | .001 | .001 | .017 | |
12 | .001 | .028 | .014 | .010 | .001 ι | 43 | .002 | .011 | .001 | .001 | .014 | |
13 | .001 | .001 | .001 | .001 | .003 I | 44 | .001 | .001 | .001 | .020 | .001 | |
14 | .001 | .010 | .001 | .015 | .001 | 45 | .004 | .001 | .001 | .001 | .016 | |
15 | .001 | .018 | .069 | .001 | .002 | 46 | .034 | .001 | .001 | .001 | .032 | |
16 | .001 | .015 | .001 | .103 | .001 | 47 | .001 | .001 | .001 | .180 | .001 | |
17 | .001 | .007. | .230 | .047 | .001 | 48 | .001 | .001 | .001 | .001 | .041 | |
18 | .004 | .001 | .020 | .001 | .008 | 49 | .050 | .083 | .001 | .001 | .019 | |
19 | .005 | .015 | .004 | .001 | .001 | 50 | .001 | .001 | .033 | .OQl | .010 | |
20 | .054 | .001 | .001 | .002 | .008 | 51 | .201 | .001 | .001 | .001 | .135 | |
21 | .001 | .092 | .001 | .147 | .001 | 52 | .001 | .001 | .001 | .001 | .003 | |
22 | .035 | .001 | .064 | .001 | .024 | 53 | .014 | .001 | .010 | .001 | .011 | |
23 | .001 | .032 | .003 | .005 | .001 | 54 | .030 | iQOl | .001 | .018 | .005 | |
24 | .001 | .001 | .001 | .001 | .006 | 55 | .004 | .016 | .001 | .001 | .012 | |
25 | .018 | .001 | «001 | .001 | .020 | 56 | .001 | .001 | .015 | .146 | .002 | |
26 | .001 | .001 | .004 | .052 | .001 | 57 | .040 | .001 | .001 | .001 | .101 | |
27 | .010 | .001 | .001 | .001 | .011 | I 58 | .006 | .053 | .001 | .001 | .001 | |
28 | .001 | .011 | .006 | .001 | .004 | I 59 | .001 | .002 | .001 | .007 | .001 | |
29 | .024 | .001 | .001 | .001 | .008 | I 60 | .001 | ■ .001 | .062 | .001 | .008 | |
30 | .001 | .001 | .039 | .001 | .045 | 61 | .044 | .003 | .001 | .001 | .016 | |
31 | .004 | .001 | .001 | .001 ■ | .002 | I 62 | .048 | • .001 | .001 | .001 | .008 | |
32 | .002 | .001 | .004 | .001 | .038 | 63 | .001 | .001 | .001 | .001 | .001 | |
.001 | .001 | .001 | .001 | .002 | I 64 | .010 | .001 | .001 | .035 | |||
Es sind 64 Prototyp-Wahrscheinlichkeiten in jeder Zustandsspalte vorhanden, so daß die Größe der Matrix
5x64 beträgt. Die Tabellen 6 und 7 entsprechen den Ziffern "five" und "nine" auf entsprechende Weise.
Entsprechend dem Flußdiagramm in Fig.2 werden die im ROM 360 gespeicherten Marköv-Modelle durch Adressierung
mittels des Musterindex k nacheinander aus diesem Speicher wiedergewonnen. Für jedes Modell wird ein Signal
gebildet, das die Wahrscheinlichkeit dafür darstellt, daß die quantisierte Merkmalssignalfolge des Sprachmusters mit
dem Modell übereinstimmt. Die Anordnungen zur Bildung des Wahrscheinlichkeitssignals sind genauer in Fig. 5 und 6
gezeigt. Generell wird zuerst ein Markov-Modell gewählt. Für das zu erkennende Sprachmuster wird das Modell Rahmen
für Rahmen mit der quantisierten Signalfolge O1, O0... O.
'■5-
TZt'
... 0T als Eingangssignal ausgewertet. Nach Beendigung der
Auswertung für den letzten Sprachmusterrahmen wird ein Signal entsprechend der maximalen Wahrscheinlichkeit dafür,
daß die quantisierte Signalfolge des Sprachmusters aus dem Modell abgeleitet worden ist, erzeugt.
Die Einschränkungen 4es in der Schaltung gemäß
Fig. 3 benutzten verborgenen Wort-Markov-Modells mit Übergängen
von links nach rechts machen es erforderlich, daß der Anfangszustand für den Rahmen t=1 nur der Zustand 1
in Fig.1 ist und daß das logarithmische Wahrscheinlichkeitssignal im Anfangszustand wird:
O1 (1 ) = In(I)1 (O1 )) (7).
Der Wert Φ1(1) wird aus der Eintragung m=14 der
Spalte für den Zustand 1 der B-Matrix für die Ziffer abgeleitet.
Die logarithmischen Wahrscheinlichkeitssignale Φ..(ΐ.), i=2,3,4 und 5 für den Rahmen t=1 werden auf - gesetzt,
da diese Zustände im Modell nicht zulässig sind. Es werden dann die Signale In(O-(J)) für den Rahmen t=2 entsprechend
dem folgenden Ausdruck gebildet:
35 φ ( j) = max (O1 (i ) + In (a± ,b . (O2 ) } (8)
für max {1,j-2}<i-<j
unter Verwendung der Übergangswahrscheinlichkeitssignale
ORIGINAL
- · :·* * '·■■"*'■ 33373
in der Α-Matrix für die Ziffer und der Symbolwahrscheinlichkeitssignale
in der B-Matrix entsprechend dem zweiten quantisierten Rahmensignalindex m der Tabelle 1. Für jeden Bestimmungszustand
j des Sprachmusterrahmens 2 wird das maximale logarithmische Wahrscheinlichkeitssignal Φ-ij) gespeichert
. Es werden dann die logarithmischen Wahrscheinlichkeitssignale für die aufeinanderfolgenden Zustände in der
Rahmenfolge unter Verwendung der Matrixsignale A und B des Ziffernmodells und der Rahmenfolge quantisierter Sprachmustersignalindices
t erzeugt. Nach der Verarbeitung des letzten Rahmens T wird das maximale logarithmische Wahrscheinlichkeitssignal
für das Ziffernmodell aus dem Endzustand 5 gewonnen, in welchem Übergänge auf andere Zustände
nicht zulässig sind. Der Zustand 5 ist der aufnehmende oder absorbierende Zustand. Die Signalverarbeitung für den Satz
von Ziffern wird nacheinander durchgeführt,und das größte
der maximalen logarithmischen Wahrscheinlichkeitssignale sowie das entsprechende Ziffernidentifiziersignal wird im
Speicher abgelegt. Bei Beendigung der Modellverarbeitung für die Ziffer "nine" wird das Sprachmuster als der Ziffernidentifiziercode
für das gespeichert gehaltene maximale logarithmische Wahrscheinlichkeitssignal identifiziert.
Die Markov-Modell-Verarbeitung.entsprechend dem
Kästchen 225, 230, 235 und 240 gemäß Fig. 2 wird von der Prozessorschaltung 340 entsprechend dem Flußdiagramm in
Fig. 5 durchgeführt. Zu Anfang wird bei Beendigung der Quantisierungs-Betriebsart
aus dem Kästchen 220 in das Kästchen 501 eingetreten. Das logarithmische Signal maximaler Wahrscheinlichkeit
wird auf seinen idinimalwert -<*>
eingestellt und dann der gewählte Bezugsmusterindex k* auf -1 eingestellt. Der Bezugsmusterindex k wird auf -1 zurückgestellt
(Kästchen 505) und dann auf 0 inkrementiert (Kästchen 507).
Der augenblickliche Bezugsmusterindex k wird dann entsprechend dem Kästchen 510 mit dem letzten Indexwert K verglichen.
Da zu diesem Zeitpunkt k=0 ist, wird das Kästchen 515 gewählt, und die Matrixsignale A und B für die Ziffer
k=0, d.h. "zero", werden adressiert und vom Bezugsmuster-Markov-Modell-Signalspeicher
360 über die Prozessorschaltung
1 340 zum RAM 350 übertragen (Kästchen 515). Es wird dann
das logarithmische Wahrscheinlichkeitssignal für die Ziffer "zero" , nämlich In P entsprechend dem Kästchen 520 erzeugt.
Wie oben erwähnt, stellt das Signal P die Wahr-,
scheinlichkeit dafür dar, daß das quantisierte Eingangssprachmuster
aus dem Markov-Modell für die Ziffer "zero"
gewonnen wird. Das Flußdiagramm gemäß Fig.6 zeigt die Einzelheiten
für die Bildung des Signals in P, .
JC
Gemäß Fig. 6 wird, das Signal 3. (1 ) auf
ln(b (0.)) eingestellt (Kästchen 601) entsprechend dem Signal m=14 der Spalte 1 in der Matrix B gemäß Tabelle 5. Der
Quellenzustandsindex i wird auf 1 eingestellt (Kästchen 605) und inkrementiert (Kästchen 607). Solange nicht i>N,
dem Endzustand 5, ist, wird In Φ.(i) für i=2,3,...N
auf -00 eingestellt. Der Satz von Signalen Φ. (1 ), Φ.. (2),
... Φ..(5) wird im RAM 350 gespeichert. Diese Signale
Φ.(i) entsprechen der Einschränkung, daß das Markov-Modell
im ersten Zustand des ersten Sprachmusterrahmens beginnt. Fig.7 zeigt ein baumförmiges Diagramm zur Darstellung der
Folge von Zuständen des Markov-Modells für die aufeinander
folgenden Eingangs-Sprachzeitrahmen 1, 2r 3 und 4. Die
Spalte 710 entspricht dem ersten Rahmen, in welchem das
quantisierte Indexsignal des Sprachmusters gleich O1 =14
ist. Die Spalten 720, 730 und 740 entsprechen dem zweiten,
25 dritten bzw. vierten Rahmen. Die Markov-Zustände sind in
absteigender Ordnung in jeder Spalte angegeben. Wie in Fig. 7 gezeigt,ist, ist nur der Zustand 1 im ersten Zeitrahmen
möglich.
Nach Bildung der Signale φ1(i) für den ersten
30 Zeitrahmen wird nacheinander in die Kästchen 615 und 620
eingetreten, so daß der Zeitrahmenindex t auf 1 eingestellt und inkrementiert wird. Da der Zeitrahmenindex t nicht
größer als der letzte Zeitrahmen T ist (Entscheidungskästchen 625), wird der Bestimmungszustandsindex j entsprechend
dem Kästchen 630 auf 0 eingestellt. Der Bestimmungsindex j wird gemäß Kästchen 635 auf 1 inkrementiert und mit dem
Endzustand N=5 verglichen (Entscheidungskästchen 640). Entsprechend den Einschränkungen des Markov-Modells gemäß
: ■■ - 33373
gemäß Fig. 1 sind nur übergänge in die nächsten beiden folgenden
Zustände möglich. Demgemäß wird der Quellenzustandsindex i auf 0 eingestellt (Kästchen 650) und auf 1 inkrementiert
(Kästchen 652) , um den Markov-Modell-Einschränkungen zu genügen. Der Wert ß, nämlich das maximale
Φ-(ϊ), wird zu Anfang auf -« eingestellt (Kästchen 650).
Der inkrementierte Quellenzustandsindex i wird mit dem augenblicklichen Bestimmungszustandsindex j=1 entsprechend
Kästchen 654 verglichen und dann eingetreten in das Signalbildungskästchen 660 für den Sprachmuster-Zeitrahmen
t=2, den Quellenzustandsindex is=1 des vorhergehenden
Rahmens und den Bestimmungszustandsindex j=1. Das Signal α im Kästchen 660 entspricht dem Weg vom Zustand 1 in Spalte
710 (t=1 ) zum Zustand 1 in Spalte 720 (t=2), und sein Wert wird durch Summieren der vorher erzeugten Signale
*, (1 ) und ln(a11b1 (O„)) gewonnen. Der Signalindex O„ ist
das guantisierte Sprachmustersignal für den Rahmen t=2 in Tabelle 1. Das Signal a.. . wird aus den A-Matrixsignalen
der Tabelle 2 in Spalte i=1 und Zeile j=1 erhalten,und das
Signal b (O?) wird aus der Eintragung m=14 in der Spalte
des Zustandes 1 für die B-Matrix der Ziffer "zero" in Tabelle 5 gewonnen. Zu diesem Zeitpunkt ist α=-10,2, und
ß wird entsprechend dem Kästchen 665 und 6 70 auf diesen Wert eingestellt. Es wird dann wieder zum Inkrementieren
des Quellenzustandsindex zurückgekehrt (Kästchen 652), so daß i=2 wird.
Da der Quellenzustandsindex i jetzt größer als der Bestimmungszustandsindex j=1 ist, wird Φ9(1) auf β
eingestellt (Kästchen 654 und 656), und der Bestimmungszustandsindex j wird auf 2 inkrementiert-(Kästchen 635).
Der Quellenzustandsindex i wird auf 0 zurückgestellt und entsprechend den Kästchen 650 und 652 auf 1 inkrementiert.
Gemäß Kästchen 660 wird das Signal α für die Indices t=2, i-1 und j=2 gebildet. Auf diese Weise wird der Weg vom Zustand
1 der Spalte 710 zum Zustand 2 der Spalte 720 in Fig. 7 durchschritten. Der Wert von α für t=2, i=1 , j=2 ersetzt
das Signal β =-<»( Kästchen 665 und 6 70).
Wenn das Signal α für t=2, i=2 und j=2 gebildet
ist, ist es kleiner als 3 , da Φ. (2)=-00 ist. Demgemäß wird
3 im Kästchen 6 70 nicht verändert. Es wird darin der Quelelnzustandsindex
i inkrementiert (Kästchen 652). Der inkrementierte Index i=3 ist jetzt größer als i=2, und Φ„(2)
wird auf den für t=2, i=1 und j=2 gewonnenen Wert 3 eingestellt (Kästchen 656). In ähnlicher Weise wird entsprechend
der Darstellung in Fig. 7 Φ~ (3 ) auf das Signal cm für
t=2 , i=1 und j.=3 eingestellt. Die Signale Φ. (i) für i>1
sind auf - °° eingestellt worden. Demgemäß werden die Signale
$7(j) für j
>3 auf -a> eingestellt. Die Tabellen 8,
9 und 10 geben die logarithmischen Wahrscheinlichkeitssignale Φ (j) für die Markov-Modell-Zustände in jedem Zeitrahmen
t an.
27 Tabelle 8
Zustand
Rahmen
Rahmen
1 | -5 | .0 | * | .9 | * | .3 | * | .7 | 9 | * | .0 |
2 | -10 | .2 | -13 | .0 | -15 | .4 | * | .9 | 0 | * | .6 |
3 | -17 | .3 | -19 | .2 | -20 | .6 | -24 | .0 | 2 | -21 | .9 |
4 | -24 | .4 | -26 | .9 | -27 | .7 | -29 | .1 | -25 | .3 | |
5 | -27 | .4 | -30 | .3 | -34 | .7 | -37 | .2 | -30 | .4 | |
6 | -34 | .6 | -36 | .5 | -37 | .8' | -44 | .3 | -33 | .9 | |
7 | -37, | .7 | -43 | .6 | -44 | .0 | -47 | .5 | -39 | .5 | |
8 | -44, | .8 | -44 | .7 | -4 8 | .1 | -54 | .6 | -4 3 | .1 | |
9 | -51, | .9 | -49 | .9 | -53 | .3 | -57 | .8 | -4 8 | .6 | |
10 | -59, | .1 | -54, | .5 | -58 | .5 | -62 | .0 | -53 | .1 | |
11 | -63, | .8 | -58, | .1 | -63 | .1 | -67 | .2 | -59, | .1 | |
12 | -68, | .4 | -62, | .2 | -67, | .6 | -73, | .9 | -66, | .2 | |
13 | -72. | .2 | -69. | .4 | -70, | .8 | -72, | .9 | -71, | ,7 | |
14 | 76. | ,0 | -76. | .3 | -77, | .3 | -74, | .9 | -76. | .6 | |
15 | -79. | ,4 | -83. | .1 | -82. | .8 | -78, | .0 | -81. | ,1 | |
16 | -82. | .8 | -88. | .1 | -86. | .1 | -82, | .6 | -86. | .8 | |
17 | .-87. | ,2 | -90. | .3 | -93. | .5 | -90. | .7 | -88. | ,7 | |
18 | -91. | ,4 | -94. | ,5 | -92. | ,7 | -91. | .8 | -92. | ,6 | |
19 | -95. | 0 | -98. | ,1 | -98. | ,3 | -98. | ,9 | -99. | ,3 | |
20 | -98. | 5 | -102. | ,6 | -104, | ,8 | -105. | ,9 | -106. | 6 | |
21 | -102. | 1 | -105. | .2 | -107. | ,4 | -112. | ,5 | -113. | ,2 | |
22 | -106. | 3 | -109. | 5 | -107. | ,7 | -111. | ,4 | -114. | 5 | |
23 | -110. | 6 | -113. | 5 | -109. | 8 | -111. | ,4 | -114. | ,3 | |
24 | -116. | 1 | -119. | 0 | -116. | 0 | -115. | 16 | r-114. | 3 | |
25 | -121* | 5 | -125. | 4 | -124. | 6 | -119. | 9 | -117. | 2 | |
26 | -125. | 3 | -130. | 2 | -125. | 1 | -124. | 8 | -124. | 1 | |
27 | -129. | 1 | -134. | 0 | -127. | 6 | -129. | 3 | -131. | 7 | |
28 | -132. | 9 | -138. | 7 | -128. | 2 | -134. | 9 - | -136. | 2 | |
29 | -136. | 6 | -141. | 5 | -130. | 7 | -136. | 4 | -137. | 7 | |
30 | -140. | 4 | -145. | 3 | -131. | 3 | -137. | 7 | -139. | 7 | |
31 | -144. | 2 | -149. | 1 | -133. | 4 | -139. | -149.8 | -140. | 3 | |
32 | -151. | 3 | -153. | 1 | -140. | 6 | -142. | -156. | -138. | 4 | |
33 | -155. | 0 | -155. | 3 | -147. | 8 | -164. | -143. | 1 | ||
34 | -162. | 1 | -162. | 4 | -154. | 0 | -168. | -146. | O | ||
35 | -169. | 3 | -169. | 5 | -162. | 4 | -151. | ||||
36 | -176. | 4 | -175. | -165. | -158. | ||||||
Zustand
Rahmen | -7.0 | * | * | * | * |
1 | -14.1 | -13.5 | -16.8 | * | * |
2 | -21.2 | -19.1 | -23.2 | -22.9 | -25.6 |
3 | -28.3 | -25.3 | -26.4 | -26.3 | -30.7 |
4 | -33.8 | -31.3 | -32.9 | -33.3 | -32.2 |
5 | -40.9 | -33.6 | -40.1 | -36.2 | -39.2 |
6 | -47.6 | -40.7 | -43.3 | -43.3 | -43.4 |
7 | -54.8 | -47.7 | -50.3 | -50.3 | -50.3 |
8 | -61.9 | -54.7 | -57.3 | -57.3 | -57.3 |
9 | -69.0 | -61.7 | -64.4 | -64.4 | -64.2 |
10 | -71.5 | -6 8.3 | -71.4 | -71.4 | -66.3 |
11 | -74.0 | -74.9 | -78.0 | -78.5 | -68.3 |
12 | -81.1 | -81.9 | -83.9 | -81.1 | -72.2 |
13 | —8 8.2 | -89.0 | -90.3 | -83.8 | -76.0 |
14 | -95.3 | -96.0 | -97.5 | -90.8 | -79.6 |
15 | -102.4 | -103.0 | -104.7 | -97.8 | -83.2 |
16 | -105.9 | -107.5 | -106.8 | -103.5 | -86.3 |
17 | -113.0 | -114.5 | -114.0 | -110.5 | -89.2 |
18 | -117.9 | -121.5 | -121.2 | -117.6 | -94.4 |
19 | -122.8 | -126.9 | -128.3 | -1-2-4.6 | -9-9.7 |
20 | -127.8 | -131.8 | -134.2 | -131.7 | -105.0 |
21 | -134.9 | -136.7 | -139.1 | -138.7 | -107.8 |
22 | -142.0 | -143.7 | -146.2 | -145.7 | -110.7 |
23 | -148.0 | -150.8 | -147.4 | -147.9 | • -115.0 |
24 | -155.0 | -157.0 | -148.6 | -150.0 | -119.4 |
25 | -160.7 | -163.0 | -155.8 | -157.0 | -123.3 |
26 | -167.5 | -169.7 | -163.0 | -164.1 | -127.1 |
27 | -174,2 | -176.4 | -170.2 | -171.1 | -131.0 |
28 | -180.9 | -183.1 | -177.3 | -178.2 | -134.8 |
29 | -187.6 | -189.8 | -184.5 | -185.2 | -138.7 |
30 | -194.3 | -196.6 | -191.7 | -192.2 | -142.5 |
31 | -200.3 | -197.8 | -198.9 | -198.2 | -149.4 |
32 | -204.6 | -204.8 | -206.1 | -205.2 | -153.7 |
33 | -211.7 | -211.8 | -213.2 | -209.6 | -160.6 |
34 | -218.9 | -218.8 | -220.4 | -216.6 | -167.5 |
35 | -226.0 | -225.8 | -227.6 | -223.7 | -174.5 |
36 | |||||
Zustand
Rahmen | -6.9 | * | * | * | * |
1 | -14.1 | -13.2 | -11.9 | * | * |
2 | -21.3 | -17.8 | -19.2 | -18.1 | -20.6 |
3 | -28.4 | -20.9 | -22.6 | -22.8 | -26.5 |
4 | -33.0 | -27.9 | -26.0 | -29.8 | -29.1 |
5 | -40.2 | -34.7 | -31.9· | -30.9 | -34.6 |
6 | -45.0 | -41.7 | -39.3 | -37.9 | -38.1 |
7 | -49.0 | -48.7 | -46.6 | -44.9 | -43.0 |
8 | -52.9 | -55.7 | -53.9 | -51.9 | -47.8 |
9 | -56.9 | -62.1 | -61.2 | -59.0 | -52.7 |
10 | -64.0 | -66.1 | -62.4 | -66.0 | -55.8 |
11 | -71.2 | -73.1 | -66.0 | 771.3 | -58.9 |
12 | -74.4 | -80.1 | -73.3 | -74.0 | -63.7 |
13 | -77.5 | -83.5 | -80.7 | -80.2 | -58.6 |
14 | -80.7 | -86.7 | -83.8 | -87.2 | -72.5 |
15 | -83.9 | -89.9 | -37.0 | -92.7 | -76.4 |
16 | -91.1 | -8 8.6 | -89.6 | -95.9 | -81.0 |
17 | -92.9 | -95.6 | -96.9 | -98.5 | -83.1 |
18 | -100.1 | -102.1 | -102.2 | -105.5 | -88.9 |
19 | -107.2 | -109.1 | -109.3 | -111.1 | -94.8 |
20 | -114.4 | -116.1 | -116.5 | -118.1 | -100.7 |
21 | -116.3 | -123.1 | -123.7 | -125.1 | -102.7 |
22 | -118.1 | -125.4 | -125.5 | -132.1 | -104.7 |
23 | -125.3 | -123.2 | -123.9 | -130.4 | -109.1 |
24 | -1.32.4 | -126.1 | -127.8 | -128.8 | -113.4 |
25 | -135.9 | -133.1 | -135.2 | -135.8 | -115.7 |
26 | -139.3 | -140.1 | -142.5 | -142.8 | -118.0 |
27 | -142.8 | -147.1 | -148.6 | -149.9 | -120.3 |
28 | -146.2 | -152.0 | -152.0 | -156.9 | -122.6 |
29 | -149.7 | -155.4 | -155.5 | -160.9" | -124.9 |
30 | -153.1 | -158.9 | -158.9 | -164.4 | -127.2 |
31 | -160.3 | -162.3 | -162.4 | -162.6 | -134.1 |
32 | -166.0 | -169.3 | -166.5 | -169.6 | -138.9 |
33 | -173.2 | -173.0 | -173.8 | -172.6 | -145.8 |
34 | -178.8 | -177.2 | -179.7 | -179.6 | -152.8 |
35 | -183.9 | -184.2 | -186.9 | -186.6 | -156.9 |
36 | |||||
Zeile 2 in Tabelle 8 gibt die Werte für Φ2(1),
• '<S>2(2), φ 2<3), Φ2^4^ und Φ2^5^ an' die bei der Markov-M°dell-Signalverarbeitung
gemäß Fig. 6 für den zweiten Sprachrahmen gewonnen worden sind.
Die Verarbeitung des zweiten Sprachrahmens ist beendet, wenn der Bestimmungszustand j entsprechend dem
Entscheidungskästchen 640 größer als der Endzustand N=5 wird. Zu diesem Zeitpunkt wird der Sprachrahmenindex"t auf
3 inkrementiert (Kästchen 620), und die Verarbeitung der Signale φ 3(j) beginnt entsprechend dem Kästchen 630. Wie '
in Fig. 7 gezeigt, enthalten die möglichen Übergänge im Sprachmusterrahmen t=3 Übergänge vom Zustand 1 des Rahmens
2 (Spalte 720) zu den Zuständen 1, 2 und 3 des Rahmens 3 (Spalte 730), vom Zustand 2 des Rahmens 2 (Spalte 720) zu
den Zuständen 2, 3 und 4 des Rahmens 3 (Spalte 730) und
vom Zustand 3 des Rahmens 2 (Spalte 720) zu den Zuständen 3, 4 und 5 des Rahmens 3 (Spalte 730). Die Verarbeitung
der Signale Φ-.(j) wird durchgeführt, wie mit Bezug auf die
früheren Sprachmuster-Zeitrahmen gemäß Gleichung (8) beschrieben
worden ist. Im Rahmen t=3 und in nachfolgenden Rahmen kann jedoch mehr als ein Quellenzustand für jeden
Bestimmungszustand vorhanden sein. In Fig. 7 kann beispielsweise
der Zustand 2 in Spalte 730 von den Zuständen 1 und 2 der Spalte 720 aus erreicht werden, und der Zustand 3
der Spalte 730 von den Zuständen 1, 2 und 3 der Spalte 720. aus. Für jeden Bestimmungszustand wird das erzeugte maximale
Signal α entsprechend den Funktionen der Kästchen 665 und 670 als das Signal Φ-jij) gespeichert. Mit Bezug auf den
Zustand 2 der Spalte 730 gilt:
ΓΦ2(1) + ln(a 12 b2(O3))
Φ_(2) = max j
[Φ(2) + ln(a22b2(O3))
Die im Rahmen t=3 gewonnenen Signale Φ-. (1 ), Φ -,(2), Φ ^ (3),
Φ-.(4) und Φ.. (5 ) sind in der dritten Zeile der Tabelle 8
aufgeführt, und die Signale Φ*^), die sich bei der Verarbeitung
für den Rahmen t=4 ergeben, sind in der vierten Zeile der Tabelle 8 angegeben.
Die Signalverarbeitung gemäß Fig. 6 wird für
die nachfolgenden Sprachrahmen entsprechend den Einschränkungen
_ des verborgenen Markov-Modells durchgeführt, um die
maximale Wahrscheinlichkeit für das Eingangssprachmuster "nine" zu gewinnen, das aus den Matrixsignalen A und B für
die Ziffer "zero" für jeden Zustand im Sprachmuster-Zeitrahmen abgeleitet wird. Nachdem α für dieilndices t=36,
i=5 und j=5 gewonnen worden ist, wird die Verarbeitung des letzten Zeitrahmens (T=36) entsprechend den Kästchen 665,
6 70, 652, 654 und 656 beendet. Es wird dann das Signal Φ (N)=158,0 für den Endzustand N==5 erzeugt (Kästchen 656).
Dieses Signal stellt die maximale logarithmische Wahrscheinlichkeit dafür dar, daß "das Sprachmuster aus dem
Markov-Modell für die Ziffer "zero" abgeleitet worden ist.;,
und wird in der letzten Position der letzten Zeile (t=36)
15 in Tabelle 8 aufgelistet.
Wenn der Rahmen t größer als der letzte Sprachmusterrahmen T=36 wird, wird in das Kästchen 628 aus dem
Entscheidungskästchen 625 eingetreten- und das maximale
Wahrscheinlichkeitssignal für die Ziffer "zero" gespeichert.
Dann wird erneut in das Kästchen 507 gemäß Fig.5 eingetreten,
und es beginnt die Markov-Verarbeitung für die Ziffer "one". Die Tabellen 9 und 10 zeigen die Markov-Modell-Verarbeitung
für die Ziffern "five" und "nine".
Entsprechend den Kästchen 525 und 530 wird, nachdem das maximale, logarithmische Wahrscheinlichkeitssignal
für jede Ziffer gebildet ist, dieses Signal mit den größten Werten der Wahrscheinlichkeitswerte für die vorhergehende .
Ziffer verglichen, und es werden nur der größte Wert und sein Identitätscode k* gespeichert 1 Wenn die Verarbeitung
für die Ziffer 0 beendet ist, so wird InP auf -158,0
eingestellt (Tabelle 8), und k* wird entsprechend dem Kästchen 530 auf 0 eingestellt. Die Signale In P, für den Zif-
fernsatz , die mit der Anordnung gemäß Fig.3 für das Eingangssprachmuster
"nine" gewonnen worden sind, sind diejenigen für den letzten, absorbierenden Zustand 5 im Rahmen
t=36.
Ziffer k | ln(Pk) |
O | -158.0 |
1 | -160.4 |
2 | -184.9 |
3 | -158 .8 |
I» | -186.0 |
5 | -174.5 |
--■ 33 | 37353 | |
Ziffer k | ln(Pk) | |
6 | -175.3 | |
7 | -160.4 | |
8 | -168.9 | |
9 | -156.9 |
Demgemäß bleiben In P und k* von der Ziffer
max
"zero" unverändert, bis das maximale logarithmische Wahrscheinlichkeitssignal
für das Modell der Ziffer "nine" mit InP im Entscheidungskästchen 525 verglichen wird. Als
Ergebnis des Vergleichs wird in das Kästchen 5 30 eingetreten . Das Signal Ln P wird auf -156,9 und k* auf 9 einge- ^ max ' ^
Ergebnis des Vergleichs wird in das Kästchen 5 30 eingetreten . Das Signal Ln P wird auf -156,9 und k* auf 9 einge- ^ max ' ^
stellt. Am Ende der Markov-Modell-Auswertungsbetriebsart ist das gespeicherte maximale Wahrscheinlichkeitssignal
-156,9 und die gewählte Ziffer ist k*=9.
-156,9 und die gewählte Ziffer ist k*=9.
Die obenbeschriebene Ziffernerkennung kann zur
Erkennung einer Folge gesprochener Buchstaben, Ziffern oder Wörter, beispielsweise in einer Fernsprech- oder Kreditkartennummer,
benutzt werden. Nach Auswahl des Bezugsmodells mit dem Signal P(OJK) maximaler Wahrscheinlichkeit entsprechend
dem Kästchen 240 in Fig.2 wird ein Bezugsindexsignal erzeugt (Kästchen 245) und zur, Verbrauchereinrichtung
280 übertragen, die eine Fernsprechvermittlungsanord— ° nung oder ein Datenverarbeiter-für Geschäftsvorgänge sein
kann. Es wird dann in das Entscheidungskästchen 205 eingetreten , so daß das nächste Sprachmuster des gesprochenen
Eingangssignals verarbeitet werden kann. Die Anordnung
Eingangssignals verarbeitet werden kann. Die Anordnung
gemäß Fig. 3 kann für die Erkennung anderer Sprachmuster,
beispielsweise von Ausdrücken oder Sätzen, erweitert werden , indem geeignete Markov-Modell-Bezugsschablonen gewählt
werden. Im Gegensatz zu bekannten Markov-Modell-Spracherkennungsanordnungen,
bei denen Modelle kleiner
Sprachelemente , beispielsweise von Phonemen, benutzt
werden, wird bei der vorliegenden Erfindung ein einziges
Modell des gesamten Bezugsmusters , beispielsweise eines
Wortes oder eines Ausdrucks,zur Identifizierung einer Aus-
Sprachelemente , beispielsweise von Phonemen, benutzt
werden, wird bei der vorliegenden Erfindung ein einziges
Modell des gesamten Bezugsmusters , beispielsweise eines
Wortes oder eines Ausdrucks,zur Identifizierung einer Aus-
spräche als ein Bezugsmuster benutzt. Mit Vorteil ist die
Anzahl der für eine Erkennung erforderlichen Zustände verringert, Schwierigkeiten bei der Verknüpfung von Phonemen
oder anderen elementaren Sprachabschnittsmodellen werden
Anzahl der für eine Erkennung erforderlichen Zustände verringert, Schwierigkeiten bei der Verknüpfung von Phonemen
oder anderen elementaren Sprachabschnittsmodellen werden
5. vermieden,und es wird ein sprecherunabhängiger Betrieb auf
der Grundlage verfügbarer Datenbasen erreicht. Die Markov-Modell-Schablonen, die im ROM 360 gespeichert sind, werden
aus Sprachäußerungen identifizierter Sprachmuster erzeugt, die von irgendeiner Quelle und von unterschiedlichen
Sprechern stammen können. Es können Muster von bequem verfügbaren Datenbanken oder gespeicherte Sprachäußerungen
zur Erzeugung von Markov-Modellen für den Sprecher bei
der sprecherunabhängigen Erkennungsanordnung gemäß Fig.3
verwendet werden.
zur Erzeugung von Markov-Modellen für den Sprecher bei
der sprecherunabhängigen Erkennungsanordnung gemäß Fig.3
verwendet werden.
Claims (1)
- Patentansprüche1./ Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern, mit einer Einrichtung zur Speicherung einer Vielzahl von Signalen, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung, die unter taspreohen auf die Äußerung eine Zeitrahmenfolge akustischer Merkmalssignale bildet, die die Sprachmuster der Äußerung darstellen, gekennzeichnet durchEinrichtungen, die unter Ansprechen auf die Sprachmuster-Merkmalssignale eine Folge gewählter, vorbestimmter, das Sprachmuster darstellender Merkmalssignale erzeugen, die unter gemeinsamem Ansprechen auf die Folge gewählter Merkmalssignale und die Signale für das begrenzte verborgene Markov-Modell jedes Bezugsmusters ein die Wahrscheinlichkeit dafür darstellendes Signal erzeugen, daß das Sprachmuster das Bezugsmuster ist, unddie unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster20 erkennt.COPYSonnenberger Strafle 43 i200 Wiesbaden Telefon (04121) 542943/561998 Telex 4184237 Telegramme Palentconsult Radecfcestraße 43 6000 MUndien 40 Telefon (0E9) 883403/883404 Telex 5212313 Telegramme Patentconsult1 2. Sprachanalysator nach Anspruch 1,■~ dadurch gekennzeichnet, daß die Einrichtung zur Speicherung der Signale, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, eine Einrichtung zur Speicherung eines Satzes von Signalen aufweist, die Markov-Modellzuständen entsprechen, und zwar einschließlich eines Signals, das einem Anfangszustand entspricht, einer Vielzahl von Signalen, die mittleren Zuständen entsprechen, und eines Signals, das einem Endzustand entspricht, ferner eine Einrichtung zur Speicherung eines Satzes von Signalen, die je der Wahrscheinlichkeit für den Übergang zwischen einem vorbestimmten Paar.. von Zuständen entsprechen, und eine Einrichtung zur Speicherung eines Satzes von Signalen, die je die Wahrscheinlichkeit eines vorbestimmten15 Merkmalssignals darstellt, das in einem vorgeschriebenen
Zustand auftritt.3. Sprachanalysator nach Anspruch 2,dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung von die Wahrscheinlichkeit darstellenden Signalen für je-des Bezugsmustermodell so ausgelegt ist, daß sie nacheinander Sprachmusterrahmen-Verarbeitungsintervallsignale erzeugt, daß sie im augenblicklichen Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen aui das gewählte, vorbestimmte, den augenblicklichen Sprachmusterrahmen darstel-25 lende Signal und die Bezugsmuster-Markov-Modellsignaleeinen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell während dieses Sprachrahmens in einem vorgeschriebenen Zustand ist, und im letzten Sprachmusterrahmen-Verarbeitungsinter-30 vall unter Ansprechen auf das die Wahrscheinlichkeit da:--ι für darstellende Signal , das das Bezugsmuster-Markov-Modell des letzten Sprachmusterrahmens im Endzustand ist, ein Signal bildet, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster aus dem Bezugsmuster-Markov-Modell gewonnen wird.4. Sprachanalysator nach Anspruch 3,dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung der die Wahrscheinlichkeit darstellenden Signale in jedem33373Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen "auf die Markov-Modell-Zustandssignale, die übergangswahrscheinlichkeitssignale und die Wahrscheinlichkeitssignale für das Auftreten der Merkmalssignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell entsprechend dem Sprachmusterteil bis zum augenblicklichen Rahmen sich in jedem der Bezugsmuster-Markov-Modellzustände befindet.5. Sprachanalysator nach Anspruch 4,gekennzeichnet durch eine Einrichtung zur Speicherung des vorbestimmten Satzes von Signalen, die akustische Merkmale darstellen, einschließlich einer Einrichtung zur Speicherung einer vorbestimmten Anzahl von akustischen Merkmalssignalen, die den Bereich von akustischen Merkmalen der Bezugsmuster15 erfassen.6. Sprachanalysator nach Anspruch 5,dadurch gekennzeichnet, daß die Einrichtung zur Speicherung der vorgeschriebenen Anzahl von akustischen Merkmalssignalen eine Einrichtung zur Speicherung einer vorgeschriebenen Anzahl von Linear-voraussagemerkmal-Prototypsignalen aufweist, die den Bereich der akustischen Merkmale der Bezugsmuster erfassen, und daß die Einrichtung zur Bildung einer Folge von akustischen, die Sprachmuster darstellenden Signalen eine Einrichtung zur Bildung einer Folge von linearen Voraussageparameter-Merkmalssignalen enthält, die das Sprachmuster darstellen.7. Sprachanalysator nach Anspruch 4,dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeitssignale entsprechend Übergängen von einem ersten bestimmten Zustand i in einen zweiten bestimmten Zustand j für j<i und j>i+2 Signale mit dem Wert 0 sind.8. Sprachanalysator nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das Sprachmuster die Aussprache eines Wortes und jedes Bezugsmuster ein identi-35 fiziertes gesprochenes Wortmuster ist.BAD ORIGINAL
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/434,516 US4587670A (en) | 1982-10-15 | 1982-10-15 | Hidden Markov model speech recognition arrangement |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3337353A1 true DE3337353A1 (de) | 1984-04-19 |
DE3337353C2 DE3337353C2 (de) | 1996-05-09 |
Family
ID=23724541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3337353A Expired - Fee Related DE3337353C2 (de) | 1982-10-15 | 1983-10-14 | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells |
Country Status (5)
Country | Link |
---|---|
US (1) | US4587670A (de) |
JP (1) | JPS5991500A (de) |
CA (1) | CA1187995A (de) |
DE (1) | DE3337353C2 (de) |
FR (1) | FR2534719B1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
DE4110300A1 (de) * | 1991-03-28 | 1992-10-01 | Telefonbau & Normalzeit Gmbh | Verfahren zur erweiterung des wortschatzes fuer sprecherunabhaengige spracherkennung |
DE4241688A1 (en) * | 1992-03-21 | 1993-09-23 | Atr Interpreting Telephony Res | Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
Families Citing this family (182)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4852171A (en) * | 1984-11-09 | 1989-07-25 | Alcatel Usa Corp. | Apparatus and method for speech recognition |
US4718094A (en) * | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US5165007A (en) * | 1985-02-01 | 1992-11-17 | International Business Machines Corporation | Feneme-based Markov models for words |
CA1243779A (en) * | 1985-03-20 | 1988-10-25 | Tetsu Taguchi | Speech processing system |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
JPH0632012B2 (ja) * | 1985-03-25 | 1994-04-27 | 株式会社東芝 | 音声認識装置 |
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
GB2179483B (en) * | 1985-08-20 | 1989-08-02 | Nat Res Dev | Apparatus and methods for analysing data arising from conditions which can be represented by finite state machines |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
GB8527913D0 (en) * | 1985-11-12 | 1985-12-18 | Pa Consulting Services | Analysing transitions in finite state machines |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
GB8608289D0 (en) * | 1986-04-04 | 1986-05-08 | Pa Consulting Services | Noise compensation in speech recognition |
US4882759A (en) * | 1986-04-18 | 1989-11-21 | International Business Machines Corporation | Synthesizing word baseforms used in speech recognition |
US4918733A (en) * | 1986-07-30 | 1990-04-17 | At&T Bell Laboratories | Dynamic time warping using a digital signal processor |
US4852180A (en) * | 1987-04-03 | 1989-07-25 | American Telephone And Telegraph Company, At&T Bell Laboratories | Speech recognition by acoustic/phonetic system and technique |
US4811199A (en) * | 1987-05-08 | 1989-03-07 | Kuechler William L | System for storing and manipulating information in an information base |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
DE3916478A1 (de) * | 1989-05-20 | 1990-11-22 | Standard Elektrik Lorenz Ag | Neuronale netzwerkarchitektur |
US5220639A (en) * | 1989-12-01 | 1993-06-15 | National Science Council | Mandarin speech input method for Chinese computers and a mandarin speech recognition machine |
US5119425A (en) * | 1990-01-02 | 1992-06-02 | Raytheon Company | Sound synthesizer |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
JP2979711B2 (ja) * | 1991-04-24 | 1999-11-15 | 日本電気株式会社 | パターン認識方式および標準パターン学習方式 |
US5276766A (en) * | 1991-07-16 | 1994-01-04 | International Business Machines Corporation | Fast algorithm for deriving acoustic prototypes for automatic speech recognition |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
US5371779A (en) * | 1992-03-13 | 1994-12-06 | Nec Corporation | Call initiating system for mobile telephone units |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US5535305A (en) * | 1992-12-31 | 1996-07-09 | Apple Computer, Inc. | Sub-partitioned vector quantization of probability density functions |
US5515475A (en) * | 1993-06-24 | 1996-05-07 | Northern Telecom Limited | Speech recognition method using a two-pass search |
GB2285700B (en) * | 1994-01-12 | 1998-06-24 | Drallim Ind | Monitoring apparatus and method |
CN1063554C (zh) * | 1994-03-03 | 2001-03-21 | 李琳山 | 中文电脑的汉语语音输入系统及其方法 |
US5825978A (en) * | 1994-07-18 | 1998-10-20 | Sri International | Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions |
JP3703164B2 (ja) * | 1995-05-10 | 2005-10-05 | キヤノン株式会社 | パターン認識方法及びその装置 |
US5752001A (en) * | 1995-06-01 | 1998-05-12 | Intel Corporation | Method and apparatus employing Viterbi scoring using SIMD instructions for data recognition |
CA2209948C (en) * | 1995-11-17 | 2000-12-26 | At&T Corp. | Automatic vocabulary generation for telecommunications network-based voice-dialing |
US5937384A (en) * | 1996-05-01 | 1999-08-10 | Microsoft Corporation | Method and system for speech recognition using continuous density hidden Markov models |
US5865626A (en) * | 1996-08-30 | 1999-02-02 | Gte Internetworking Incorporated | Multi-dialect speech recognition method and apparatus |
DE19705471C2 (de) * | 1997-02-13 | 1998-04-09 | Sican F & E Gmbh Sibet | Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen |
US6253178B1 (en) | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
US6157731A (en) * | 1998-07-01 | 2000-12-05 | Lucent Technologies Inc. | Signature verification method using hidden markov models |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6671669B1 (en) * | 2000-07-18 | 2003-12-30 | Qualcomm Incorporated | combined engine system and method for voice recognition |
US6850888B1 (en) * | 2000-10-06 | 2005-02-01 | International Business Machines Corporation | Methods and apparatus for training a pattern recognition system using maximal rank likelihood as an optimization function |
US6754626B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context |
JP4048741B2 (ja) * | 2001-07-24 | 2008-02-20 | セイコーエプソン株式会社 | Hmmの出力確率演算方法および音声認識装置 |
WO2004047076A1 (ja) * | 2002-11-21 | 2004-06-03 | Matsushita Electric Industrial Co., Ltd. | 標準モデル作成装置及び標準モデル作成方法 |
DE102004017548B4 (de) * | 2004-04-07 | 2007-12-27 | Medav Gmbh | Verfahren zur Erkennung und Analyse von Funksignalen |
US7542949B2 (en) * | 2004-05-12 | 2009-06-02 | Mitsubishi Electric Research Laboratories, Inc. | Determining temporal patterns in sensed data sequences by hierarchical decomposition of hidden Markov models |
US8521529B2 (en) * | 2004-10-18 | 2013-08-27 | Creative Technology Ltd | Method for segmenting audio signals |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9530412B2 (en) * | 2014-08-29 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for multi-agent architecture for interactive machines |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9741342B2 (en) | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
US4363102A (en) * | 1981-03-27 | 1982-12-07 | Bell Telephone Laboratories, Incorporated | Speaker identification system using word recognition templates |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
-
1982
- 1982-10-15 US US06/434,516 patent/US4587670A/en not_active Ceased
-
1983
- 1983-09-29 CA CA000437886A patent/CA1187995A/en not_active Expired
- 1983-10-12 FR FR8316194A patent/FR2534719B1/fr not_active Expired
- 1983-10-14 DE DE3337353A patent/DE3337353C2/de not_active Expired - Fee Related
- 1983-10-15 JP JP58191711A patent/JPS5991500A/ja active Granted
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
Non-Patent Citations (1)
Title |
---|
MC 68000 16 Bit Microprozessor User's Manual, 2. Ausgabe, Motorola Inc., 1980 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4010028A1 (de) * | 1989-04-12 | 1990-10-18 | Smiths Industries Plc | Spracherkennungsverfahren |
DE4010028C2 (de) * | 1989-04-12 | 2003-03-20 | Smiths Group Plc London | Spracherkennungsverfahren |
DE4110300A1 (de) * | 1991-03-28 | 1992-10-01 | Telefonbau & Normalzeit Gmbh | Verfahren zur erweiterung des wortschatzes fuer sprecherunabhaengige spracherkennung |
DE4241688A1 (en) * | 1992-03-21 | 1993-09-23 | Atr Interpreting Telephony Res | Generating sub-word model for speech recognition - successively dividing conditions in original model into temporal and contextual domains to form hidden Markow network using max. likelihood method |
US5677988A (en) * | 1992-03-21 | 1997-10-14 | Atr Interpreting Telephony Research Laboratories | Method of generating a subword model for speech recognition |
DE19508711A1 (de) * | 1995-03-10 | 1996-09-12 | Siemens Ag | Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind |
US5970452A (en) * | 1995-03-10 | 1999-10-19 | Siemens Aktiengesellschaft | Method for detecting a signal pause between two patterns which are present on a time-variant measurement signal using hidden Markov models |
DE19640587A1 (de) * | 1996-10-01 | 1998-04-02 | Siemens Ag | Verfahren zur Berechnung eines Schwellenwertes für die Spracherkennung eines Schlüsselwortes |
Also Published As
Publication number | Publication date |
---|---|
DE3337353C2 (de) | 1996-05-09 |
CA1187995A (en) | 1985-05-28 |
FR2534719A1 (fr) | 1984-04-20 |
FR2534719B1 (fr) | 1986-09-19 |
JPS5991500A (ja) | 1984-05-26 |
JPH0422276B2 (de) | 1992-04-16 |
US4587670A (en) | 1986-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3337353A1 (de) | Sprachanalysator auf der grundlage eines verborgenen markov-modells | |
DE2953262C2 (de) | ||
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE60126722T2 (de) | Aussprache von neuen Wörtern zur Sprachverarbeitung | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
DE69827667T2 (de) | Vokoder basierter spracherkenner | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE3242866C2 (de) | ||
DE10030105A1 (de) | Spracherkennungseinrichtung | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE19630109A1 (de) | Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner | |
EP0987683A2 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
DE602004004310T2 (de) | System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE69917960T2 (de) | Phonembasierte Sprachsynthese | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69333762T2 (de) | Spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: AT & T TECHNOLOGIES, INC., NEW YORK, N.Y., US |
|
8110 | Request for examination paragraph 44 | ||
8125 | Change of the main classification |
Ipc: G10L 5/06 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |