DE3337353A1

DE3337353A1 - Sprachanalysator auf der grundlage eines verborgenen markov-modells

Info

Publication number: DE3337353A1
Application number: DE3337353A
Authority: DE
Inventors: Stephen Eliot 07090 Westfield N.J. Levinson; Lawrence Richard 07922 Berkeley Heights N.J. Rabiner; Man Mohan 07090 Berkeley Heights N.J. Sondhi
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1982-10-15
Filing date: 1983-10-14
Publication date: 1984-04-19
Anticipated expiration: 2003-10-15
Also published as: DE3337353C2; CA1187995A; FR2534719A1; FR2534719B1; JPS5991500A; JPH0422276B2; US4587670A

Description

Die Erfindung betrifft die Mustererkennung und im einzelnen Anordnungen zur automatischen Identifizierung von Sprachmustern.

Bei der Nachrichtenübertragung, Datenverarbei-

5 tung und in ähnlichen Anlagen ist es häufig wünschenswert, _s akustische Schnittstellenanordnungen zu verwenden. Eine

Spracheingabe und eine Ausgabe von synthetisierter Sprache können für Anfragen, Befehle und den Austausch von Daten und anderen Informationen verwendet—werden. Sprachschnittstellen ermöglichen einen Nachrichtenverkehr mit Datenverarbeitungseinrichtungen von entfernten Stellen aus, ohne , daß manuell betätigte Bildschirmgeräte erforderlich sind, . und ermöglichen die gleichzeitige Ausführungen anderer Funktionen durch den Benutzer. Die Kompliziertheit der Sprachmuster und deren Änderungen von Sprecher zu Sprecher macht jedoch eine genaue Erkennung schwierig. Es sind zwar brauchbare Ergebnisse bei speziellen Anwendungsfällen beschränkt auf bestimmte Personen und mit eingeschränktem Vokabular erreicht worden, aber die Ungenauigkeit einer

20 sprecherunabhängigen Erkennung hat deren Verwendung begrenzt.

Generell sind Spracherkennungsanordnungen in der Lage, ein unbekanntes Sprachmuster in eine Folge von vorgeschriebenen akustischen Merkmalssignalen umzusetzen. Die-

25 se Merkmalssignale werden dann mit vorher gespeicherten

Sätzen akustischer Merkmalssignale verglichen, die identifizierte Bezugsmuster darstellen. Als Ergebnis des Vergleichs wird das unbekannte Sprachmuster als dasjenige Muster identifiziert, das das nach vorgegebenen Erkennungs-

33373

Jcriterien am genauesten passende Bezugsmuster ist. Die Gehauigkeit solcher Erkennungssysteme hängt in hohem Maß von den gewählten Merkmalen und den Erkennungskriterien ab. Der Vergleich zwischen der Eingangsfolge von Sprachmustermerkmalen und einer Bezugsfolge kann direkt durchgeführt werden. Es ist jedoch bekannt, daß die Sprachfrequenz und -artikulation in hohem Maße variabel sind.

Bekannte Erkennungsverfahren benutzen eine dynamische Programmierung , um eine optimale Übereinstimmung zwischen den Mustern bei dem Vergleich zu bestimmen. Auf diese Weise werden die Einflüsse von unterschiedlichen Sprachfrequenzen und Sprachartikulationen gemildert. Die SignalVerarbeitungsanordnungen für eine dynamische Zeitverzerrung und einen dynamischen Vergleich sind jedoch kompliziert und zeitaufwendig, da die für eine Erkennung erforderliche Zeit eine Funktion der Größe des Bezugsvokabulars und der Anzahl von Bezugsmerkmalsschablonen für jedes Wort des Vokabulars ist. Im Ergebnis ist-eine sprecheruaabhängige Erkennung für Vokabulare in der Größenordnung von 50 Wörtern in Realzeit schwierig zu verwirklichen.

Ein weiterer Lösungsversuch für eine Spracherkennung beruht auf probabilistischen Markον-Modellen, die auf statistischen Schätzwerten fußende Sätze von Zuständen und Zustandsübergängen benutzen. Es sind sprecherabhängige Erkennungsanordnungen entwickelt worden, bei denen Spektralmerkmalsfolgen erzeugt und in einer Folge von hierarchischen Markov-Modellen von Merkmalen, Wörtern und Sprache ausgewertet werden. Die Merkmalsfolgen werden in Markον-Modellen phonetischer Elemente analysiert. Die Modelle werden zu größeren akustischen Elementen, beispielsweise Wörtern,

verknüpft. Die Ergebnisse werden dann auf eine Hierarchie von Markov-Modellen, beispielsweise syntaktischen Kontext-Modellen, um eine Sprachmusteridentifizierung zu erhalten. Die Verwendung von Modellen verknüpfter phonemischer EIemente und die Kompliziertheit von Systemen unbeschränkter hierarchischer Markov-Modelle macht jedoch eine beträchtliche Einübung des Systems durch die identifizierten Sprecher erforderlich, um eine ausreichende Anzahl von Modell-

werten zu-gewinnen, damit die Markov-Modelle gültig werden. ~ Die vorliegende Erfindung hat zum Ziel, eine verbesserte automatische Spracherkennung auf der Grundlage von Wahrscheinlichkeitsmodellen zu erreichen, die nicht sprecherabhängig ist und mit höherer Geschwindigkeit einsetzbar ist.

Zur Lösung der Aufgabe geht die Erfindung aus von einem Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern, mit einer Einrichtung zur Speicherung einer Vielzahl von Signalen, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung, die unter Ansprechen auf die Äußerung eine Zeitrahmenfolge akustischer Merkmalssignale bildet, die die Sprachmuster der J. 5 Äußerung darstellen, und ist gekennzeichnet durch Einrichtungen, die unter Ansprechen auf die Sprachmuster-Merkmalssignale eine Folge gewählter, .Vorbestimmter, das Sprachmuster darstellender Merkmalssignale—erzeugen, die unter gemeinsamem Ansprechen auf die Folge gewählter Merkmalssignale und die Signale für das begrenzte verborgene Markov-Modell jedes Bezugsmusters ein die Wahrscheinlichkeit dafür darstellendes Signal erzeugen, daß das Sprachmuster das Bezugsmuster ist, und die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster erkennt.

Nachfolgend wird die Erfindung anhand der Zeichnungen beschrieben. Es zeigen:

Fig. 1 schematisch ein Beispiel für ein beschränktes Markov-Modell mit verborgenem Wort, wie es bei der vorliegenden Erfindung be

nutzt wird;

Fig. 2 ein allgemeines Flußdiagramm zur Erläuterung eines Ausführungsbeispiels der Erfindung;
Fig. 3 das Blockschaltbild einer Spracherkennungs-

schaltung nach der Erfindung;

Fig. 4, 5 und 6 genauere Flußdiagramme zur Erläuterung von Teilen der Arbeitsweise der

33373

Spracherkennungsschaltung nach Fig.3;

Fig. 7 ein Gitterdiagramm zur Erläuterung der Arbeitsweise der Schaltung nach Fig.3: Allgemeine Beschreibung

In bekannter Weise kann ein verborgenes Markov-Modell zur Auswertung einer Folge von Beobachtungen O₁ , 0_, ... 0_φ benutzt werden, wobei jede Beobachtung ein diskretes Symbol einer endlichen Anzahl solcher Symbole ist. Die Folge von Beobachtungen läßt sich deuten als Wahrscheinlichkeitsfunktion einer zugrunde liegenden Markov-Kette mit Zustandsänderungen, die nicht direkt beobachtbar sind. Fig. 1 erläutert ein solches Modell.

In Fig. 1 sind N Zustände, beispielsweise 5, und M Ausgangssymbole, beispielsweise 64, vorhanden. Die Über-

1J5 gänge zwischen Zuständen wird durch eine Übergangsmatrix A= [a. .]. Jeder Ausdruck ä. . ist die Wahrscheinlichkeit für einen übergang in den.Zustand j unter der Voraussetzung, daß sich das Modell im Zustand i bef-indet. Die Ausgangssymbolwahrscheinlichkeit des Modells wird durch eine Matrix B=[b.(0_t)] dargestellt, wobei b.(O_t) die.= Wahrscheinlichkeit für die Ausgabe des Symbols O. ist, vorausgesetzt daß sich das Modell im Zustand i befindet. Das verborgene Markov-Modell kann zur Ableitung eines Satzes von Bezugsmustermodellen verwendet werden,-und zwar ein Modell für jedes Muster im Vokabularsatz, und zur Klassifizierung

einer Folge von Beobachtungen als eines der Bezugsmuster auf der Grundlage der Wahrscheinlichkeit für die Erzeugung der unbekannten Beobachtungen aus jedem Bezugsmustermodell. Bei der Spracherkennung wird das Eingangssprachmuster analysiert, um eine Folge von akustischen Merkmalen zu erzeugen. Jedes Merkmal kann ein linearer Vorhersagekoeffizienten-Vektor (LPC-Vektor von tjinear Prediction Coefficient) oder ein anderes akustisches Merkmal bekannter Art sein. Die erzeugten Merkmalsvektoren werden mit einem endlichen Satz vorher gespeicherter LPC-Merkmalssignale verglichen und in eine Folge von Vektor-quantisierten LPC-Signalen umgesetzt, die das Eingangssprachmuster darstellen. Jedes der quantisierten Merkmalssignale ist eines

aus dem endlichen Satz von M Symbolen, die bei dem verborgenen Markov-Modell benutzt werden können. Bei der Erkennungs-Betriebsart bildet die quantisierte LPC-Vektormerkmalsfolge für eine Äußerung, beispielsweise ein Wort oder einen Ausdruck, die Beobachtungsfolge 0 und die Wahrscheinlichkeit dafür, daß O durch ein Bezugsmustermodell K, beispielsweise ein Wort oder einen Ausdruck eines Vokabularsatzes, erzeugt wird, wie folgt gebildet:

P(O|M) = B_± b_± (O₁Ja_{1 ±} b_± (O₂) ...a_± _± b_± (0_T) (1), ^{1 1} 12 2 -T-ITT

wobei I₁ , i„, ... ί_φ die Folge maximaler Wahrscheinlichkeit für die Markov-Modellzustände und O₁, 0„, ... 0 die Beobachtete Folge sind. Die Gleichung (1) läßt sich anhand der Vorwärts-Teilwahrscheinlichkeit Φ (i) schreiben, die defi- IQ niert ist als

Φ (i) = P(O..O„...O und die Folge maximaler

Wahrscheinlichkeit, die im Zustand i zum Zeitpunkt t |K)

Φ. (j) kann dann ausgedrückt werden als

*_t+1(j) = max {Φ_ΐ (Da₁^bJ (0_t+1 )} t=1 , 2, ...T-1

für 1 £ j £ N und max {1 , j-2} £ i£ j, wobei

Tb₁ (O₁ ) für i=1
25 G₁ (i) J (3),

[θ im anderen Fall
so daß Gleichung (1 ) wird:
P(O JK) = P = Φ_Τ(Ν) (4) .

Nach Erzeugung des Wahrscheinlichkeitssignals für jedes Bezugsmustermodell kann das Eingangssprachmuster als dasjenige Bezugsmustermodell identifiziert werden, das dem Signal höchster Wahrscheinlichkeit entspricht.

Fig. 2 zeigt ein allgemeines Flußdiagramm zur

Erläuterung der Arbeitsweise eines auf der Grundlage eines verborgenen Markov-Modell arbeitenden Spracherkenners. Wenn der Erkenner verfügbar ist (Kästchen 205), so wird das Eingangssprachmuster in eine Folge von Digitalsignalen umge-

33373

wandelt, wie Kästchen 210 zeigt. Die die Sprache darstellenden Digitalsignale (Kästchen 210) werden dann in eine Zeitrahmenfolge von linearen Voraussagemerkraalssignalen umgesetzt (Kästchen 215). Die entsprechend dem Kästchen 215 erzeugten Signale entsprechen zwar den akustischen Merkmalen des Eingangssprachmusters, die gewonnenen Signale sind aber nicht auf einen endlichen Satz begrenzt. Gemäß Kästchen 220 werden die akustischen Sprachmustermerkmale mit einem endlichen Satz von linearen Voraussagemerkmalsvektoren verglichen, und es wird der am geriauesten übereinstimmende, gespeicherte Vektor für jedes Sprachmustermerkmalssignal gewählt. Auf diese Weise wird für jeden aufeinander folgenden Rahmen t des SpEachmusters ein quantisiertes Merkmalsvektorsignal aus einem vorgegebenen end-

IEj^ liehen Satz gewonnen. Das quantisierte Merkmalsvektorsignal ist dann die Eingangsbeobachtung für die Verarbeitung auf der Grundlage eines verbogenen Markov-Modells im Rahmen t. „ >·--«

Es wird ein Satz vorbestimmter Modelle gespeichert. Für jedes Bezugsmuster im Vokabular des Spracherkenners ist ein einziges Modell vorgesehen. Das Bezugsmustermodell enthält eine Zustands-Ausgangssymbol-Signalmatrix für rgeden Modellzustand und eine Zustandswahrscheinlichkeits-Signalmatrix entsprechend allen möglichen fibergangen zwischen den Zuständen für das Bezugsmustermodell. Die Bezugsmustermodelle werden entsprechend dem Kästchen 225 sequentiell gewählt, und die Wahrscheinlichkeit dafür, daß die quantisierte LPC__Vektor-Merkmalsfolge des Eingangsspcachmusters aus dem gewählten Bezugswortmodell gewonnen wird, wird erzeugt und gespeichert (Kästchen 230). Nach Auswahl des letzten Bezugsmustermodells und Erzeugung des zugehörigen Wahrscheinlichkeitssignals wird das Maximum der Wahrscheinlichkeitssignale gewählt, und es wird ein Signal, das das beste Bezugsmuster identifiziert, zu einer Verbrauchereinrichtung übertragen, beispielsweise einem Datenverarbeiter oder einer Steueranlage.

Das verborgene Markov-Modell für jedes Bezugsmuster wird so begrenzt, daß der Zustand 1 immer der

Anfangszustand des ersten Rahmens ist, daß nur ein vorge-"schriebener Satz von Links-nach-rechts-Zustandsübergahgen möglich ist und daß ein vorbestimmter Endzustand definiert ist, aus dem übergänge in andere Zustände nicht stattfinden können. Diese Beschränkungen sind im Zustandsdiagramm gemäß Fig. 1 dargestellt. Dort ist der Zustand 1 der Anfangszustand, der Zustand 5 ist der End- oder Aufnahmezustand,und die vorgeschriebenen Übergänge von links nach rechts sind durch die Richtungspfeile zwischen den Zuständen angegeben. Entsprechend dem Zustandsdiagramm nach Fig. 1 ist es nur möglich, in den Zustand 1 über den Weg 111 wieder einzutreten, über den Weg 112 zum Zustand 2 weiterzugehen oder über deni/Weg 113 vom Zustand 1 zum Zustand 3 zu gehen. Im allgemeinen sind die Übergänge auf das Wiedereintreten

1.5 in einen Zustand oder das Eintreten in einen der nächsten

beiden Zustände beschränkt. Es wurde festgestellt, daß diese Beschränkungen eine schnelle und genaue Erkennung von Sprachmustern ermöglichen. Die Erzeugung-de-r—Bezugsmustermodelle identifizierter Äußerungen für den Spracherkenner sind nicht auf die Sprachmuster eines identifizierten Sprechers beschränkt, sondern können aus den Äußerungen vieler unterschiedlicher Sprecher abgeleitet werden, so daß die Spracherkennung sprecherunabhängig ist.

Ins Einzelne gehende Beschreibung

Fig. 3 zeigt ein allgemeines Blockschaltbild eines Spracherkenners zur Erläuterung der Erfindung. Die Schaltung gemäß Fig. 3 ist zur Erkennung von Sprechmustern vorgesehen, die einem elektroakustischen Wandler 300 zugeführt werden, und zur Lieferung vorgeschriebener Steuersignale einer Verbrauchereinrichtung 380, die auf die identifizierten Muster anspricht. Gemäß Fig. 3 nimmt eine Filter- und Abtastschaltung 310 ein elektrisches Analogsignal vom Wandler 300 auf und führt eine Tiefpaßfilterung durch, so daß ein unerwünschtes Rauschen höherer Frequenzen entfernt wird. Die Grenz-

35 frequenz des Filters kann auf 3,2 kHz eingestellt werden.

Das gefilterte Signal wird dann in bekannter Weise mit einer Frequenz von 6,7 kHz abgetastet.

Das abgetastete Signal wird einem Analog-Digital-

J."T* .r.-W·.-· 33373

wandler 310 zugeführt, in welchem jeder aufeinander folgen- ~ de Abtastwert in ein digitalcodiertes Signal umgesetzt wird, das die Größe des entsprechenden Abtastwertes darstellt. Die Folge codierter Signale wird einem LPC-Merkmalssignalgenerator 330 zugeführt. In bekannter Weise speichert der Generator 330 die digitalcodierte Signalfolge zeitweilig, gruppiert die Signale in aufeinander folgende, überlappende Rahmen mit einer Dauer von 45 ms und erzeugt einen Satz von P linearen Voraussageparametersignalen für jeden Rahmen.

Jeder Satz dieser LPC-Signale stellt akustische Merkmale des entsprechenden Rahmens dar. Es sei jedoch darauf hingewiesen, daß der Fachmann auch spektrale oder andere akustische Merkmalssignale verwenden kann.

Der Merkmalsgenerator 330 stellt außerdem auf der Grundlage einer Energieanalyse der Merkmalssignalfolge den Endpunkt des dem Wandler 300 zugeführten Eingangssprachmusters fest. Die Endpunkt-Feststellungsanordnung kann eine Anordnung sein, die in der uS-PS 3—90-9-532 (30. September 1975) beschrieben ist. Alternativ können andere bekannte Verfahren zur Endpunktfeststellung benutzt weiden.

Bern Feststellung eines Sprachmuster-Endpunktes im Merkmalsgenerator 330 wird das Steuersignal ST erzeugt und zum■Erkennungsprozessor 340 weitergeleitet, um dessen Operationen einzuleiten. Der Erkennungsprozessor kann einen Mikroprozessor vom Typ MC68000 enthalten, der beschrieben ist in der Veröffentlichung "MC68000 16 Bit Microprocessor User's Manual" , 2. Ausgabe, Motorola Inc., 1980. Die Operationsfolge des Prozessors 340 wird durch einen fest gespeicherten Befehlssatz im Programm-Festwertspeicher (ROM)

30 355 gesteuert.

Ein Akustikmerkmal-Signalspeicher 370 nimmt die Rahmenfolge von LPC-Koeffizientensignalen, die das Eingangssprachmuster darstellen, vom Generator 330 auf und speichert die Merkmalssignale in einer ädressierbaren Rahmenreihenfolge zur Verwendung durch den Erkennungsprozessor 340. Ein Prototyp-Signalspeicher 365 enthäit Signale, die einen Satz vorbestimmter LPC-Prototyp-Merkmalssignale darstellen, welche den Bereich erwarteter LPC-Merkmalssignale

• ν» *·

im Eingangssprachmuster erfassen. Diese Prototyp-Signale "* ~ bilden einen endlichen Satz von Symbolen für die Markov-Model 1-Verarbeitung.

Ein Markov-Modellspeicher 360 enthält einen Satz 5 codierter Signale entsprechend den verborgenen Wort-Markov-Modellen der möglichen Bezugsmuster für die Unbekannte Äußerung, die dem Wandler 300 zugeführt wird. Jedes Markov-Modell umfaßt einen Satz von Signalen a. . entsprechend der Wahrscheinlichkeit für die Übergänge zwischen Modellzu-

10 ständen und Signale b.(O.) entsprechend der Ausgangesymbol-

Jt

Wahrscheinlichkeit in jedem Zustand. Die Ausgangssymbole O und zwar ein Symbol für jeden Sprachmusterrahmen t, entsprechen den Prototypsignalen im Speicher 365. Jeder der Speicher 360 und 365 kann einen Festwertspeicher ent-

15 halten, der durch den Prozessor 340 adressierbar ist. Die Festwertspeicher 360 und 365 speichern die Modell- und Prototypsignale permanent. Der Speicher 370 kann ein durch den Prozessor 340 adressierbarer JSchxeib-Lesespeicher {RAM) sein. Der RAM 350 wird als Zwischenspeicher für die Signal-

20 Verarbeitungsoperationen des Erkennungsprozessors benutzt, und die Schnittstelle 345 bildet eine Nachrichtenübertragungsschnittstelle zwischen dem Erkennungsprozessor und den Einrichtungen in Fig. 3. Die Schnittstelle in Form einer Sammelleitung 345 kann eine Rückwandebene vom Typ HBFA-

SBC614 sein, die von der Hybricon Corporation hergestellt wird. Alternativ können der Prozessor 340 , die Sammelleitung 345, der Steuerspeicher 350 und der RAM 355 ein Einplattenrechner #om Typ OB68K1 A MC68000/MULTIBUS sein, hergestellt von Omnibyte Corporation, West Chicago, Illinois.

Es könnte auch eine Q-Sammelleitungsanordnung verwendet werden.

Die Schaltung gemäß Fig. 3 kann zur Erkennung vieler unterschiedlicher Mustertypen benutzt werden. Zur Erläuterung wird eine Anordnung zur Erkennung von Ziffern, beispielsweise der Ziffern einer Fernsprechnummer oder ο einer Kreditkartennummer, beschrieben. Es sei angenommen, daß die (englische) Aussprache der Ziffer "Neun" dem Wandler 300 zugeführt wird. Entsprechend den Kästchen 20 7 und

Φ ei n *

210 des Flußdiagramms in Fig. 2 wird das Eingangssprachmuster in der Filter- und Abtastschaltung 310 gefiltert und abgetastet und dann im Analog-Digitalwandler 320 in ein Digitalsignal umgesetzt. Die Folge digitalcodierter Signale wird dem Eingang eines Merkmalssignalgenerators 330 zugeführt, in welchem die LPC-Koeffizientenmerkmalssignale für die aufeinander folgenden Rahmen des Spracnmusters "Nine" (englisch "neun") entsprechend dem Kästchen 215 erzeugt werden. Die erzeugten BPC-Merkmalssignale werden zum Akustikmerkmal-Signalspeicher 370 übertragen, der durch den Rahmenindex t über die Leitung 332 adressiert wird. In jedem Rahmen wird in das Entscheidungskästchen 218 eingetreten, um festzustellen, ob der Endpunkt des Musters erreicht worden ist. Bei Feststellung des Endpunktes wird das Signal ST im Merkmalssignalgenerator erzeugt und zum Erkennungs-■'*-■

prozessor 340 übertragen.

Unter Ansprechen auf das Signal ST wird der Prozessor 340 in seine Vektorquantisiexungs-Betriebsart gebracht, in welcher die LPC-Merkmalssignale im Speicher 3 70 entsprechend den Prototypsignalen im ROM 365 entsprechend dem Kästchen 220 quantisiert werden. Die Quantisierungsbetriebsart ist genauer im Flußdiagramm gemäß Fig.4 dargestellt.

Entsprechend Fig. 4 wird gemäß Kästchen 401 der LPC-Merkmalssignal-Rahmenindex t im Prozessor 340 zu Anfang auf 0 zurückgestellt. Dann wird in die Schleife 403 eingetreten, um die Einstellung des'.Prototyp-Index m einzuleiten. In der Schleife 403 wird der Rahmenindex t inkrementiert (Kästchen 405), und der inkrementierte Rahmenindex wird mit dem letzten Rahmen (T) des Eingangssprachmusters verglichen (Kästchen 410). Solange nicht t>T ist, wird in das Kästchen 415 eingetreten, so daß das·LPC-Merkmalssignal U des augenblicklichen Rahmeneingangssprachmusters im Speicher 3 70 durch den Prozessor 340 adressiert und zum RAM 350 übertragen wird. Das Signal, das den minimalen Abstand zwischen dem Prototyp-Signal und dem Merkmalssignal (D . ) darstellt, wird zu Anfang auf Unendlich eingestellt

ram ' ^

(Kästchen 420), und der Prototyp-Index m wird im Prozessor'

350 auf 0 eingestellt (Kästchen 425). Semäß Kästchen 430 wird dann der Prototyp-Index m im Prozessor 430 inkrementiert. Der inkrementierte Index m+1 wird anschließend entsprechend Kästchen 435 mit dem letzten Index M=64 verglichen.

Zu diesem Zeitpunkt wird das augenblickliche Prototyp-Signal im Speicher 365 adressiert und über den Erkennungsprozessor zum RAM 350 übertragen (Kästchen 440). Es kann dann die Bestimmung des Prototyp-Signals R , das dem augenblicklichen Sprachmuster-Merkmalssignal U am genauesten entspricht, im Prozessor 340 gestartet werden. Der Prozessor ist so eingerichtet, daß er iterativ das bekannte Itakura-Abstandsmetriksignal der Form

15*. d(U R) = log 2¥l_ (5)

aVa

für jedes Prototyp-Signal bestimmt, wobei a ein BEC-Vektor

von U. , a ein LPC-Vektor aus R und-· V-die Autokorrelationst m

matrix auf R sind, m

20 Zu Anfang werden das Äbstandsmetriksxgnal

d(U.,R ) und das Merkmalsindexsignal ρ entsprechend den Kästchen 445 und 450 auf 0 eingestellt. Dann wird in die Schleife 452 zur Abstandssignalbildung eingetreten,und für jeden Merkmalsindex wird das Abstandssignal gemäß Kästchen

25 455 entsprechend der folgenden Gleichung inkrementiert:

d(U_t,R_m) = In σ U_t(p).R_m(p) (6).

p=1

Das Indexsignal ρ wird im Prozessor 340 inkrementiert (Kästchen 460),und es wird wieder über das Entscheidungskästchen 465 in das Kästchen 455 eingetreten, bis p>P ist, wobei P das End-Merkmalsindexsignal ist. Das Abstandssignal wird in logarithmische Form gebracht ^Kästchen 46 8 hind dann entsprechend dem Entscheidungskastchen 470 mit D. verglichen. Falls das augenblickliche Prototyp-Abstandssignal gleich oder größer als D . ist, wird erneut ohne

Änderung von D . in das Kästchen 430 eingetreten. Im anmm

deren Fall wird das Prototyp-Indexsignal m als Darstellung

33373

des quantisierten Sprachmustersignals für den Rahmen t abgespeichert,und das Abstandssignal für den Prototyp m wird als D . im RAM .350 abgelegt. Dann wird erneut in das Kästchen 430 eingetreten. Wenn beim Kästchen 435 m M ist, so wird O =m als das am genauesten entsprechende , quantisierte Signal gewählt und gemäß Kästchen 405 erneut in die Schleife 403 eingetreten, so daß die Quantisierung des nächsten Rahmens begonnen werden kann.

Wenn entsprechend dem Kästchen 410 der Sprachmuster-Rahmenindex t größer als der letzte Sprachmustertahmen T wird, ist eine Folge von quantisierten Signalangaben O₁, Oy , ... O. ... Ο_φ für das Sprachmuster im Prozessor 340 erzeugt worden und im RAM 350 abgespeichert. Das der Aussprache von "nine" entsprechende Sprachmuster kann beispielsweise 36 Rahmen besitzen,und es wird für jeden Rahmen eines von 64 möglichen Prototypssignalen gewählt. Auf diese Weise wird das Sprachmuster in eine Folge von quantisierten Signalen eines endlichen·-Satzes umgewandelt. Jeder quantisierte Signalindex O entspricht einem Satz von P linearen Voraussagekoeffizienten, die das quantisierte Akustikmerkmal eines Rahmens für das Sprachmuster darstellen. Für die Aussprache der Ziffer "nine" durch einen nicht identifizierten Sprecher kann die Folge quantisierter Merkmalssignale auf den in der nachfolgenden Tabelle 1 aufge-

25 führten Signalen bestehen.

	t	ft ¥	* * *	16	1	Quantisiertes
	1	W V w Ht * V	Rahmen-	Sicrnal
	2	Tabelle	Nr.	°t
Rahmen-	3 ■	Qüantisier-	t	52
Nr.	4	tes Signal	19	52
5	°t	20	52
6	1U	21	51
7	14	22	51
8	13	23	40
9	9	24	46
10	1	25	57
11	25	26	57
12	26	27	57
13	28	28	57
14	28	29	57
15	28	30	57
16	29	31	47
17	29	32	17
18	19	33	3
19	34	18
34	35	42
34	36
50
51

Nach Beendigung der Quantisierung geht der Prozessor 340 aus der Quantisierungs-Betriebsweise und tritt in seine Markov-Modell-Auswertungsbetriebsweise entsprechend den Kästchen 225, 230 und 235 in Fig.2 ein.

Während der Modellauswertungs-Betriebsweise werden die Markov-Modelle für den Satz von Bezugsmustern, beispielsweise die Ziffern o, 1, 2 , ... 9 nacheinander ausgewählt. Jedes Modell umfaßt eine A-Matrix,der Übergangswahrscheinlichkeitssymbole und eine B-Matrix der Symbolausgangs-Wahrscheinlichkeitssignale. Die Α-Matrizen für die Ziffern 0, 5 und 9 sind als Beispiel in den Tabellen 2, 3 und 4 dargestellt. Sterne stellen Übergänge dar, die durch das Modell verboten sind und als 0 bewertet werden.

33373

	1	Tabelle	2	•	3	4	5
		Ziffer	0	•
	.821	A- ttätt	•Hl	•	*	*	*
Zustand i	.143	2			*	*	*
j	.036				800	*	*
1	*	*			079	.880	♦
2	*	.801		122	.120	1.000
3	.199
4	.000
5	*

	1	Tabelle	3	3	4	5
		Ziffer	5
	.852	Jt- üa trj	.Σ	*	*	*
Zustand i	.136	2	*	*	*
j	.013		.800	*	*
1	*	*	.054	.922	*
2	*	.932	.146	.078	1.000
3	.067
4	.000
5	*

	1	Tabelle	4	3	4	5
		Ziffer <.
	.793	A-Matrix	*	*	*
Zustand i	.106	2	*	*	*
	.100		.690	*	*
1	*	*	.142	.930	*
2		.939	.168	.070	1.000
3	.061
4	.000
5	*

Jede.der A-Matrix-Tabellen ist eine 5x5-Matrixdarstellung für die Wahrscheinlichkeit aller übergänge zwischen den fünf Zuständen des Modells in Fig. 1. Entsprechend den Tabellen 2, 3 und 4 sind entsprechend den Einschränkungen des Modells nur übergänge von links nach rechts in Fig. 1 möglich, die keine * oder Null-Werte haben. B-Matrizen für die Ziffern 0, 5 und 9 sind in den Tabellen 5, 6 bzw. 7 gezeigt. Jede Spalteneintragung in Tabelle 5 stellt die Wahrscheinlichkeit eines bestimmten Prototyp-Signals im entsprechenden Zustand für die Aussprache der Ziffer "zero" dar.

Tabelle 5

Zustand Zustand

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

.059 .025 .001 .007 .002 .046 .001 .001 .001 .006 .001 .012 .001 .007 .001 .007 .031 .001 .028 .001 .005 .001 .078 .063 .001 .054 .002 .001 .011 .002 .021 .001

.011 .001 .001 .001 .001 .001 .001 .001 .001 .028 .001 .001 .001 .001 .001 .001 .150 .001 .001 .001 .105 .001 .019 .001 .001 .001 .001 .007 .035 .001 .001 .001

.001 .015 .001 .001 .001 .001 .001 .001 .001 .014 .001 .001 .001 .001 .001 .001 .001 .001 .001 .001 .011 .001 .001 ..017 .001 .001 .137 .001 .001 .001 .169 .001

.001 .001 .001 .103 .001 .001 .059 .018 .001 .008 .001 .001 .001 .001 .001 .001 .001 .001 .076 .001 .019 .001 .001 .001 .001 .001 .029 .001 .001 .001 .013 .001

.015

.004

.048

.001

.007

.003

.001

.004

.008

.101

.001

.025

.007

.008

.006

.010

.009

.006

.021

.003

.090

.001

.090

.002

.008

.010

.001

.030

33 34 35 36 37 . 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64

.015 .040 .001 .026 .006 .110 .001 .005 .001 .001 .044 .001 .066 .002 .001 .022 .019 .016 .017 .035 '.015 .001 .011 .001 .028 .001 .001 .011 .001 .004 .004 .016

.155

.001 .014 .001 .001 .032 .060 .001 .001 .001 .042 .001 .001 .012 .006 .001 .001 .001 .001 .132 .003 .022 .001 .001 .001 .268 .001 .001 .001 .001 .001 .001 .001

.001

.021

.001

.003

.001

.022

.001

.017

.001

.305

.001

.223

.001

.004

.003

.001

.006

.001

,003

.028

.001

.004

.021

.003

.001

.002

.004

.062

.033

.001

.044

.001

.034

.001

.047

.009

.001

.004

.090

.006

.045

.001

.020

.006

.016

.006

.005

.001

.002

CO CO CO

	1	Zustand	2!	.002	i,	Tabelle	6	Zustand	.001	.001	.001	L
	2	1.	.003	.001	.001				.001	.001	.001	.026
η	3	.005	.001	.001	.001		m	.003	.032	.096	.441	.026
4	.001	.001	.001	.014	.020 !	33	.001	.001	.001	.001	.001
5	.001 '	.001	.004	.001	.005	34	.001	.001	.001	.001	.017
6	.001	.001	.001	.001	.001	35	.001	.001	.001	.001	.007
7	.001	.001	.001	.001	.001	36.	.001	.001	.066	.066	.068
8	.001	.001	.001	.001	.023	37	.001	.001	.360	.128	.001
9	.001	.001	.010	.001	.009 I	38	.001	.005	.001	.001	.013
10	.001	.002	.001	.038	.001	39·	.003	.001	.001	.0¹Ol	.001
11	.001	.001	.012	.001	.0Oi I	40	.001	.001	.001	.001	.001
12	.001	.001	.001	.001	.004 I	41	.001	.001	.001	.001	.136
13	.001	.001	.001	.001	.004 I	42	.591	.001	.001	.001	.001
14	.001	.004	.004	.038	.on ι	43	.001	.001	.001	.001	.012
15	.001	.010	.001	.001	.001	44	.003	.242	.001	.003	.004
16	.001	.098	.075	.001	.001	45	.001	.001	.001	.001	.001
17	.001	.001	.001	.001	.031	46	.003	.001	.001	.001	.025
18	.004	.001	.001	.001	.001	47	.001	.012	.149	.004	.008
19	.016	.001	.002	.001	.004	48	.001	.001	.001	.001	.047
20	.001	.001	.019	.077	.014	49	.036	.001	.001	.001	.058
21	.001	.396	.001	.009	.001	50	.001	iOOl	.001	.001	.005
22	.001	.001	.001	.001	.022	51	.009	.028	.009	.001	.021
23	.001	.001	.001	.001	.001	52	.001	.001	.001	.001	.001
24	.001	.001	..001	.001	.029	I 53	.003	J012	.133	.001	.029
25	.001	.001	-.001	.001	.001	I 54	.064	.001	.001	.001	.001
26	.001	.102	.001	.060	.001	I 55	.003	.001	.001	.001	.021
27	.001	.001	.003	.001	.012	I 56	.001	.005	.003	.072	.001
28	.001	.001	.001	.001	.001	57	.001	.001	.001	.001	.001
29	.001	.001	.001	.001	.010	I 58	.001	.001	.001	.001	.053
30	.001	.001	.001	.001	.012	59	.112	.001	.001	.001	.001
31	.098	.001	.005	.001	.001	60	.001	.001	.001	.001	.009
32	.001	.001	.001	.00).	.125	61	,001 "	.001	.001	.001	.001
	.001	• 001		.oo;,	.001	62	.001				.004
	.001			.048	63	.001
	.001	64

« t(tl

Tabelle 7

Zustand

m

1

I

2_

2

£

5 I

m-

I

.001

2

4_

2

.013

.001

.049

.001

.009 j

33

.006

.001

.030

3

.004

.001

.009 I

34

.052

.184

.019

.001

.019

4

.001

.009

.001

.016

.0Oi I

35

.001

.039

.001

5

.006

.001

.017 I

36

.108

.001

.085

6

.001

.022

.153

.060

.019 I

•37

.010

.001

.σοι

.029

7

.001

.026

.001

.on I

38

.025

.236

.048

.001

.031

8

.010

.001

.008 I

39

.001

.059

.011

.025

.001

9

.001

.006 I

40

.001

.002

.029

.054

.013

10

.001

.051

.050

.010

.003 I

41

.001

11

.084

.001

.030 I

42

.008

.001

.017

12

.001

.028

.014

.010

.001 ι

43

.002

.011

.001

.014

13

.001

.003 I

44

.001

.020

.001

14

.001

.010

.001

.015

.001

45

.004

.001

.016

15

.001

.018

.069

.001

.002

46

.034

.001

.032

16

.001

.015

.001

.103

.001

47

.001

.180

.001

17

.001

.007.

.230

.047

.001

48

.001

.041

18

.004

.001

.020

.001

.008

49

.050

.083

.001

.019

19

.005

.015

.004

.001

50

.001

.033

.OQl

.010

20

.054

.001

.002

.008

51

.201

.001

.135

21

.001

.092

.001

.147

.001

52

.001

.003

22

.035

.001

.064

.001

.024

53

.014

.001

.010

.001

.011

23

.001

.032

.003

.005

.001

54

.030

iQOl

.001

.018

.005

24

.001

.006

55

.004

.016

.001

.012

25

.018

.001

«001

.001

.020

56

.001

.015

.146

.002

26

.001

.004

.052

.001

57

.040

.001

.101

27

.010

.001

.011

I 58

.006

.053

.001

28

.001

.011

.006

.001

.004

I 59

.001

.002

.001

.007

.001

29

.024

.001

.008

I 60

.001

■ .001

.062

.001

.008

30

.001

.039

.001

.045

61

.044

.003

.001

.016

31

.004

.001

.001 ■

.002

I 62

.048

• .001

.001

.008

32

.002

.001

.004

.001

.038

63

.001

.002

I 64

.010

.001

.035

Es sind 64 Prototyp-Wahrscheinlichkeiten in jeder Zustandsspalte vorhanden, so daß die Größe der Matrix 5x64 beträgt. Die Tabellen 6 und 7 entsprechen den Ziffern "five" und "nine" auf entsprechende Weise. Entsprechend dem Flußdiagramm in Fig.2 werden die im ROM 360 gespeicherten Marköv-Modelle durch Adressierung mittels des Musterindex k nacheinander aus diesem Speicher wiedergewonnen. Für jedes Modell wird ein Signal gebildet, das die Wahrscheinlichkeit dafür darstellt, daß die quantisierte Merkmalssignalfolge des Sprachmusters mit dem Modell übereinstimmt. Die Anordnungen zur Bildung des Wahrscheinlichkeitssignals sind genauer in Fig. 5 und 6 gezeigt. Generell wird zuerst ein Markov-Modell gewählt. Für das zu erkennende Sprachmuster wird das Modell Rahmen für Rahmen mit der quantisierten Signalfolge O₁, O₀... O.

'■5- TZt'

... 0_T als Eingangssignal ausgewertet. Nach Beendigung der Auswertung für den letzten Sprachmusterrahmen wird ein Signal entsprechend der maximalen Wahrscheinlichkeit dafür, daß die quantisierte Signalfolge des Sprachmusters aus dem Modell abgeleitet worden ist, erzeugt.

Die Einschränkungen 4es iⁿ der Schaltung gemäß Fig. 3 benutzten verborgenen Wort-Markov-Modells mit Übergängen von links nach rechts machen es erforderlich, daß der Anfangszustand für den Rahmen t=1 nur der Zustand 1 in Fig.1 ist und daß das logarithmische Wahrscheinlichkeitssignal im Anfangszustand wird:

O₁ (1 ) = In(I)₁ (O₁ )) (7).

Der Wert Φ₁(1) wird aus der Eintragung m=14 der Spalte für den Zustand 1 der B-Matrix für die Ziffer abgeleitet. Die logarithmischen Wahrscheinlichkeitssignale Φ..(ΐ.), i=2,3,4 und 5 für den Rahmen t=1 werden auf - gesetzt, da diese Zustände im Modell nicht zulässig sind. Es werden dann die Signale In(O-(J)) für den Rahmen t=2 entsprechend dem folgenden Ausdruck gebildet:

35 φ ( j) = max (O₁ (i ) + In (a_± ,b . (O₂ ) } (8)

für max {1,j-2}<i-<j

unter Verwendung der Übergangswahrscheinlichkeitssignale

ORIGINAL

- · ^:·* * '·■■"*'■ 33373

in der Α-Matrix für die Ziffer und der Symbolwahrscheinlichkeitssignale in der B-Matrix entsprechend dem zweiten quantisierten Rahmensignalindex m der Tabelle 1. Für jeden Bestimmungszustand j des Sprachmusterrahmens 2 wird das maximale logarithmische Wahrscheinlichkeitssignal Φ-ij) gespeichert . Es werden dann die logarithmischen Wahrscheinlichkeitssignale für die aufeinanderfolgenden Zustände in der Rahmenfolge unter Verwendung der Matrixsignale A und B des Ziffernmodells und der Rahmenfolge quantisierter Sprachmustersignalindices t erzeugt. Nach der Verarbeitung des letzten Rahmens T wird das maximale logarithmische Wahrscheinlichkeitssignal für das Ziffernmodell aus dem Endzustand 5 gewonnen, in welchem Übergänge auf andere Zustände nicht zulässig sind. Der Zustand 5 ist der aufnehmende oder absorbierende Zustand. Die Signalverarbeitung für den Satz von Ziffern wird nacheinander durchgeführt,und das größte der maximalen logarithmischen Wahrscheinlichkeitssignale sowie das entsprechende Ziffernidentifiziersignal wird im Speicher abgelegt. Bei Beendigung der Modellverarbeitung für die Ziffer "nine" wird das Sprachmuster als der Ziffernidentifiziercode für das gespeichert gehaltene maximale logarithmische Wahrscheinlichkeitssignal identifiziert.

Die Markov-Modell-Verarbeitung.entsprechend dem Kästchen 225, 230, 235 und 240 gemäß Fig. 2 wird von der Prozessorschaltung 340 entsprechend dem Flußdiagramm in Fig. 5 durchgeführt. Zu Anfang wird bei Beendigung der Quantisierungs-Betriebsart aus dem Kästchen 220 in das Kästchen 501 eingetreten. Das logarithmische Signal maximaler Wahrscheinlichkeit wird auf seinen idinimalwert -<*> eingestellt und dann der gewählte Bezugsmusterindex k* auf -1 eingestellt. Der Bezugsmusterindex k wird auf -1 zurückgestellt (Kästchen 505) und dann auf 0 inkrementiert (Kästchen 507). Der augenblickliche Bezugsmusterindex k wird dann entsprechend dem Kästchen 510 mit dem letzten Indexwert K verglichen. Da zu diesem Zeitpunkt k=0 ist, wird das Kästchen 515 gewählt, und die Matrixsignale A und B für die Ziffer k=0, d.h. "zero", werden adressiert und vom Bezugsmuster-Markov-Modell-Signalspeicher 360 über die Prozessorschaltung

1 340 zum RAM 350 übertragen (Kästchen 515). Es wird dann

das logarithmische Wahrscheinlichkeitssignal für die Ziffer "zero" , nämlich In P entsprechend dem Kästchen 520 erzeugt. Wie oben erwähnt, stellt das Signal P die Wahr-, scheinlichkeit dafür dar, daß das quantisierte Eingangssprachmuster aus dem Markov-Modell für die Ziffer "zero" gewonnen wird. Das Flußdiagramm gemäß Fig.6 zeigt die Einzelheiten für die Bildung des Signals in P, .

JC

Gemäß Fig. 6 wird, das Signal 3. (1 ) auf

ln(b (0.)) eingestellt (Kästchen 601) entsprechend dem Signal m=14 der Spalte 1 in der Matrix B gemäß Tabelle 5. Der Quellenzustandsindex i wird auf 1 eingestellt (Kästchen 605) und inkrementiert (Kästchen 607). Solange nicht i>N, dem Endzustand 5, ist, wird In Φ.(i) für i=2,3,...N auf -⁰⁰ eingestellt. Der Satz von Signalen Φ. (1 ), Φ.. (2), ... Φ..(5) wird im RAM 350 gespeichert. Diese Signale Φ.(i) entsprechen der Einschränkung, daß das Markov-Modell im ersten Zustand des ersten Sprachmusterrahmens beginnt. Fig.7 zeigt ein baumförmiges Diagramm zur Darstellung der Folge von Zuständen des Markov-Modells für die aufeinander folgenden Eingangs-Sprachzeitrahmen 1, 2_r 3 und 4. Die Spalte 710 entspricht dem ersten Rahmen, in welchem das quantisierte Indexsignal des Sprachmusters gleich O₁ =14 ist. Die Spalten 720, 730 und 740 entsprechen dem zweiten,

25 dritten bzw. vierten Rahmen. Die Markov-Zustände sind in

absteigender Ordnung in jeder Spalte angegeben. Wie in Fig. 7 gezeigt,ist, ist nur der Zustand 1 im ersten Zeitrahmen möglich.

Nach Bildung der Signale φ₁(i) für den ersten

30 Zeitrahmen wird nacheinander in die Kästchen 615 und 620

eingetreten, so daß der Zeitrahmenindex t auf 1 eingestellt und inkrementiert wird. Da der Zeitrahmenindex t nicht größer als der letzte Zeitrahmen T ist (Entscheidungskästchen 625), wird der Bestimmungszustandsindex j entsprechend dem Kästchen 630 auf 0 eingestellt. Der Bestimmungsindex j wird gemäß Kästchen 635 auf 1 inkrementiert und mit dem Endzustand N=5 verglichen (Entscheidungskästchen 640). Entsprechend den Einschränkungen des Markov-Modells gemäß

^: ■■ - 33373

gemäß Fig. 1 sind nur übergänge in die nächsten beiden folgenden Zustände möglich. Demgemäß wird der Quellenzustandsindex i auf 0 eingestellt (Kästchen 650) und auf 1 inkrementiert (Kästchen 652) , um den Markov-Modell-Einschränkungen zu genügen. Der Wert ß, nämlich das maximale

Φ-(ϊ), wird zu Anfang auf -« eingestellt (Kästchen 650). Der inkrementierte Quellenzustandsindex i wird mit dem augenblicklichen Bestimmungszustandsindex j=1 entsprechend Kästchen 654 verglichen und dann eingetreten in das Signalbildungskästchen 660 für den Sprachmuster-Zeitrahmen t=2, den Quellenzustandsindex is=1 des vorhergehenden Rahmens und den Bestimmungszustandsindex j=1. Das Signal α im Kästchen 660 entspricht dem Weg vom Zustand 1 in Spalte 710 (t=1 ) zum Zustand 1 in Spalte 720 (t=2), und sein Wert wird durch Summieren der vorher erzeugten Signale *, (1 ) und ln(a₁₁b₁ (O„)) gewonnen. Der Signalindex O„ ist das guantisierte Sprachmustersignal für den Rahmen t=2 in Tabelle 1. Das Signal a.. . wird aus den A-Matrixsignalen der Tabelle 2 in Spalte i=1 und Zeile j=1 erhalten,und das Signal b (O_?) wird aus der Eintragung m=14 in der Spalte des Zustandes 1 für die B-Matrix der Ziffer "zero" in Tabelle 5 gewonnen. Zu diesem Zeitpunkt ist α=-10,2, und ß wird entsprechend dem Kästchen 665 und 6 70 auf diesen Wert eingestellt. Es wird dann wieder zum Inkrementieren des Quellenzustandsindex zurückgekehrt (Kästchen 652), so daß i=2 wird.

Da der Quellenzustandsindex i jetzt größer als der Bestimmungszustandsindex j=1 ist, wird Φ₉(1) auf β eingestellt (Kästchen 654 und 656), und der Bestimmungszustandsindex j wird auf 2 inkrementiert-(Kästchen 635). Der Quellenzustandsindex i wird auf 0 zurückgestellt und entsprechend den Kästchen 650 und 652 auf 1 inkrementiert. Gemäß Kästchen 660 wird das Signal α für die Indices t=2, i-1 und j=2 gebildet. Auf diese Weise wird der Weg vom Zustand 1 der Spalte 710 zum Zustand 2 der Spalte 720 in Fig. 7 durchschritten. Der Wert von α für t=2, i=1 , j=2 ersetzt das Signal β =-<»( Kästchen 665 und 6 70).

Wenn das Signal α für t=2, i=2 und j=2 gebildet

ist, ist es kleiner als 3 , da Φ. (2)=-⁰⁰ ist. Demgemäß wird 3 im Kästchen 6 70 nicht verändert. Es wird darin der Quelelnzustandsindex i inkrementiert (Kästchen 652). Der inkrementierte Index i=3 ist jetzt größer als i=2, und Φ„(2) wird auf den für t=2, i=1 und j=2 gewonnenen Wert 3 eingestellt (Kästchen 656). In ähnlicher Weise wird entsprechend der Darstellung in Fig. 7 Φ~ (3 ) auf das Signal cm für t=2 , i=1 und j.=3 eingestellt. Die Signale Φ. (i) für i>1 sind auf - °° eingestellt worden. Demgemäß werden die Signale $₇(j) für j >3 auf -a> eingestellt. Die Tabellen 8, 9 und 10 geben die logarithmischen Wahrscheinlichkeitssignale Φ (j) für die Markov-Modell-Zustände in jedem Zeitrahmen t an.

27 Tabelle 8

Zustand
Rahmen

1	-5	.0	*	.9	*	.3	*	.7	9	*	.0
2	-10	.2	-13	.0	-15	.4	*	.9	0	*	.6
3	-17	.3	-19	.2	-20	.6	-24	.0	2	-21	.9
4	-24	.4	-26	.9	-27	.7	-29	.1	-25	.3
5	-27	.4	-30	.3	-34	.7	-37	.2	-30	.4
6	-34	.6	-36	.5	-37	.8'	-44	.3	-33	.9
7	-37,	.7	-43	.6	-44	.0	-47	.5	-39	.5
8	-44,	.8	-44	.7	-4 8	.1	-54	.6	-4 3	.1
9	-51,	.9	-49	.9	-53	.3	-57	.8	-4 8	.6
10	-59,	.1	-54,	.5	-58	.5	-62	.0	-53	.1
11	-63,	.8	-58,	.1	-63	.1	-67	.2	-59,	.1
12	-68,	.4	-62,	.2	-67,	.6	-73,	.9	-66,	.2
13	-72.	.2	-69.	.4	-70,	.8	-72,	.9	-71,	,7
14	76.	,0	-76.	.3	-77,	.3	-74,	.9	-76.	.6
15	-79.	,4	-83.	.1	-82.	.8	-78,	.0	-81.	,1
16	-82.	.8	-88.	.1	-86.	.1	-82,	.6	-86.	.8
17	.-87.	,2	-90.	.3	-93.	.5	-90.	.7	-88.	,7
18	-91.	,4	-94.	,5	-92.	,7	-91.	.8	-92.	,6
19	-95.	0	-98.	,1	-98.	,3	-98.	,9	-99.	,3
20	-98.	5	-102.	,6	-104,	,8	-105.	,9	-106.	6
21	-102.	1	-105.	.2	-107.	,4	-112.	,5	-113.	,2
22	-106.	3	-109.	5	-107.	,7	-111.	,4	-114.	5
23	-110.	6	-113.	5	-109.	8	-111.	,4	-114.	,3
24	-116.	1	-119.	0	-116.	0	-115.	16	r-114.	3
25	-121*	5	-125.	4	-124.	6	-119.	9	-117.	2
26	-125.	3	-130.	2	-125.	1	-124.	8	-124.	1
27	-129.	1	-134.	0	-127.	6	-129.	3	-131.	7
28	-132.	9	-138.	7	-128.	2	-134.	9 -	-136.	2
29	-136.	6	-141.	5	-130.	7	-136.	4	-137.	7
30	-140.	4	-145.	3	-131.	3	-137.	7	-139.	7
31	-144.	2	-149.	1	-133.	4	-139.	-149.8	-140.	3
32	-151.	3	-153.	1	-140.	6	-142.	-156.	-138.	4
33	-155.	0	-155.	3	-147.	8		-164.	-143.	1
34	-162.	1	-162.	4	-154.	0		-168.	-146.	O
35	-169.	3	-169.	5	-162.	4	-151.
36	-176.	4	-175.	-165.	-158.

Tabelle 9

Zustand

Rahmen	-7.0	*	*	*	*
1	-14.1	-13.5	-16.8	*	*
2	-21.2	-19.1	-23.2	-22.9	-25.6
3	-28.3	-25.3	-26.4	-26.3	-30.7
4	-33.8	-31.3	-32.9	-33.3	-32.2
5	-40.9	-33.6	-40.1	-36.2	-39.2
6	-47.6	-40.7	-43.3	-43.3	-43.4
7	-54.8	-47.7	-50.3	-50.3	-50.3
8	-61.9	-54.7	-57.3	-57.3	-57.3
9	-69.0	-61.7	-64.4	-64.4	-64.2
10	-71.5	-6 8.3	-71.4	-71.4	-66.3
11	-74.0	-74.9	-78.0	-78.5	-68.3
12	-81.1	-81.9	-83.9	-81.1	-72.2
13	—8 8.2	-89.0	-90.3	-83.8	-76.0
14	-95.3	-96.0	-97.5	-90.8	-79.6
15	-102.4	-103.0	-104.7	-97.8	-83.2
16	-105.9	-107.5	-106.8	-103.5	-86.3
17	-113.0	-114.5	-114.0	-110.5	-89.2
18	-117.9	-121.5	-121.2	-117.6	-94.4
19	-122.8	-126.9	-128.3	-1-2-4.6	-9-9.7
20	-127.8	-131.8	-134.2	-131.7	-105.0
21	-134.9	-136.7	-139.1	-138.7	-107.8
22	-142.0	-143.7	-146.2	-145.7	-110.7
23	-148.0	-150.8	-147.4	-147.9	• -115.0
24	-155.0	-157.0	-148.6	-150.0	-119.4
25	-160.7	-163.0	-155.8	-157.0	-123.3
26	-167.5	-169.7	-163.0	-164.1	-127.1
27	-174,2	-176.4	-170.2	-171.1	-131.0
28	-180.9	-183.1	-177.3	-178.2	-134.8
29	-187.6	-189.8	-184.5	-185.2	-138.7
30	-194.3	-196.6	-191.7	-192.2	-142.5
31	-200.3	-197.8	-198.9	-198.2	-149.4
32	-204.6	-204.8	-206.1	-205.2	-153.7
33	-211.7	-211.8	-213.2	-209.6	-160.6
34	-218.9	-218.8	-220.4	-216.6	-167.5
35	-226.0	-225.8	-227.6	-223.7	-174.5
36

Tabelle 10

Zustand

Rahmen	-6.9	*	*	*	*
1	-14.1	-13.2	-11.9	*	*
2	-21.3	-17.8	-19.2	-18.1	-20.6
3	-28.4	-20.9	-22.6	-22.8	-26.5
4	-33.0	-27.9	-26.0	-29.8	-29.1
5	-40.2	-34.7	-31.9·	-30.9	-34.6
6	-45.0	-41.7	-39.3	-37.9	-38.1
7	-49.0	-48.7	-46.6	-44.9	-43.0
8	-52.9	-55.7	-53.9	-51.9	-47.8
9	-56.9	-62.1	-61.2	-59.0	-52.7
10	-64.0	-66.1	-62.4	-66.0	-55.8
11	-71.2	-73.1	-66.0	₇71.3	-58.9
12	-74.4	-80.1	-73.3	-74.0	-63.7
13	-77.5	-83.5	-80.7	-80.2	-58.6
14	-80.7	-86.7	-83.8	-87.2	-72.5
15	-83.9	-89.9	-37.0	-92.7	-76.4
16	-91.1	-8 8.6	-89.6	-95.9	-81.0
17	-92.9	-95.6	-96.9	-98.5	-83.1
18	-100.1	-102.1	-102.2	-105.5	-88.9
19	-107.2	-109.1	-109.3	-111.1	-94.8
20	-114.4	-116.1	-116.5	-118.1	-100.7
21	-116.3	-123.1	-123.7	-125.1	-102.7
22	-118.1	-125.4	-125.5	-132.1	-104.7
23	-125.3	-123.2	-123.9	-130.4	-109.1
24	-1.32.4	-126.1	-127.8	-128.8	-113.4
25	-135.9	-133.1	-135.2	-135.8	-115.7
26	-139.3	-140.1	-142.5	-142.8	-118.0
27	-142.8	-147.1	-148.6	-149.9	-120.3
28	-146.2	-152.0	-152.0	-156.9	-122.6
29	-149.7	-155.4	-155.5	-160.9"	-124.9
30	-153.1	-158.9	-158.9	-164.4	-127.2
31	-160.3	-162.3	-162.4	-162.6	-134.1
32	-166.0	-169.3	-166.5	-169.6	-138.9
33	-173.2	-173.0	-173.8	-172.6	-145.8
34	-178.8	-177.2	-179.7	-179.6	-152.8
35	-183.9	-184.2	-186.9	-186.6	-156.9
36

Zeile 2 in Tabelle 8 gibt die Werte für Φ₂(1),

• '<S>₂(2), ^φ ₂<3), ^Φ2^⁴^ ^{und Φ}2^⁵^ ^an' ^{die bei der Markov}-^M°dell-Signalverarbeitung gemäß Fig. 6 für den zweiten Sprachrahmen gewonnen worden sind.

Die Verarbeitung des zweiten Sprachrahmens ist beendet, wenn der Bestimmungszustand j entsprechend dem Entscheidungskästchen 640 größer als der Endzustand N=5 wird. Zu diesem Zeitpunkt wird der Sprachrahmenindex"t auf 3 inkrementiert (Kästchen 620), und die Verarbeitung der Signale ^φ ₃(j) beginnt entsprechend dem Kästchen 630. Wie ' in Fig. 7 gezeigt, enthalten die möglichen Übergänge im Sprachmusterrahmen t=3 Übergänge vom Zustand 1 des Rahmens 2 (Spalte 720) zu den Zuständen 1, 2 und 3 des Rahmens 3 (Spalte 730), vom Zustand 2 des Rahmens 2 (Spalte 720) zu den Zuständen 2, 3 und 4 des Rahmens 3 (Spalte 730) und vom Zustand 3 des Rahmens 2 (Spalte 720) zu den Zuständen 3, 4 und 5 des Rahmens 3 (Spalte 730). Die Verarbeitung der Signale Φ-.(j) wird durchgeführt, wie mit Bezug auf die früheren Sprachmuster-Zeitrahmen gemäß Gleichung (8) beschrieben worden ist. Im Rahmen t=3 und in nachfolgenden Rahmen kann jedoch mehr als ein Quellenzustand für jeden Bestimmungszustand vorhanden sein. In Fig. 7 kann beispielsweise der Zustand 2 in Spalte 730 von den Zuständen 1 und 2 der Spalte 720 aus erreicht werden, und der Zustand 3 der Spalte 730 von den Zuständen 1, 2 und 3 der Spalte 720. aus. Für jeden Bestimmungszustand wird das erzeugte maximale Signal α entsprechend den Funktionen der Kästchen 665 und 670 als das Signal Φ-jij) gespeichert. Mit Bezug auf den Zustand 2 der Spalte 730 gilt:

Γ^Φ2⁽¹⁾ + ^ln(a ₁₂ ^b2^(O3⁾⁾

Φ_(2) = max j

[Φ(2) + ln(a₂₂b₂(O₃))

Die im Rahmen t=3 gewonnenen Signale Φ-. (1 ), Φ -,(2), Φ ^ (3), Φ-.(4) und Φ.. (5 ) sind in der dritten Zeile der Tabelle 8 aufgeführt, und die Signale Φ*^), die sich bei der Verarbeitung für den Rahmen t=4 ergeben, sind in der vierten Zeile der Tabelle 8 angegeben.

Die Signalverarbeitung gemäß Fig. 6 wird für

die nachfolgenden Sprachrahmen entsprechend den Einschränkungen _ des verborgenen Markov-Modells durchgeführt, um die maximale Wahrscheinlichkeit für das Eingangssprachmuster "nine" zu gewinnen, das aus den Matrixsignalen A und B für die Ziffer "zero" für jeden Zustand im Sprachmuster-Zeitrahmen abgeleitet wird. Nachdem α für dieilndices t=36, i=5 und j=5 gewonnen worden ist, wird die Verarbeitung des letzten Zeitrahmens (T=36) entsprechend den Kästchen 665, 6 70, 652, 654 und 656 beendet. Es wird dann das Signal Φ (N)=158,0 für den Endzustand N==5 erzeugt (Kästchen 656). Dieses Signal stellt die maximale logarithmische Wahrscheinlichkeit dafür dar, daß "das Sprachmuster aus dem Markov-Modell für die Ziffer "zero" abgeleitet worden ist.;, und wird in der letzten Position der letzten Zeile (t=36)

15 in Tabelle 8 aufgelistet.

Wenn der Rahmen t größer als der letzte Sprachmusterrahmen T=36 wird, wird in das Kästchen 628 aus dem Entscheidungskästchen 625 eingetreten- und das maximale Wahrscheinlichkeitssignal für die Ziffer "zero" gespeichert.

Dann wird erneut in das Kästchen 507 gemäß Fig.5 eingetreten, und es beginnt die Markov-Verarbeitung für die Ziffer "one". Die Tabellen 9 und 10 zeigen die Markov-Modell-Verarbeitung für die Ziffern "five" und "nine".

Entsprechend den Kästchen 525 und 530 wird, nachdem das maximale, logarithmische Wahrscheinlichkeitssignal für jede Ziffer gebildet ist, dieses Signal mit den größten Werten der Wahrscheinlichkeitswerte für die vorhergehende . Ziffer verglichen, und es werden nur der größte Wert und sein Identitätscode k* gespeichert 1 Wenn die Verarbeitung für die Ziffer 0 beendet ist, so wird InP auf -158,0

eingestellt (Tabelle 8), und k* wird entsprechend dem Kästchen 530 auf 0 eingestellt. Die Signale In P, für den Zif-

fernsatz , die mit der Anordnung gemäß Fig.3 für das Eingangssprachmuster "nine" gewonnen worden sind, sind diejenigen für den letzten, absorbierenden Zustand 5 im Rahmen t=36.

Ziffer k	ln(P_k)
O	-158.0
1	-160.4
2	-184.9
3	-158 .8
I»	-186.0
5	-174.5

	--■ 33	37353
Ziffer k	ln(P_k)
6	-175.3
7	-160.4
8	-168.9
9	-156.9

Demgemäß bleiben In P und k* von der Ziffer

max

"zero" unverändert, bis das maximale logarithmische Wahrscheinlichkeitssignal für das Modell der Ziffer "nine" mit InP im Entscheidungskästchen 525 verglichen wird. Als
Ergebnis des Vergleichs wird in das Kästchen 5 30 eingetreten . Das Signal Ln P wird auf -156,9 und k* auf 9 einge- ^ max ' ^

stellt. Am Ende der Markov-Modell-Auswertungsbetriebsart ist das gespeicherte maximale Wahrscheinlichkeitssignal
-156,9 und die gewählte Ziffer ist k*=9.

Die obenbeschriebene Ziffernerkennung kann zur Erkennung einer Folge gesprochener Buchstaben, Ziffern oder Wörter, beispielsweise in einer Fernsprech- oder Kreditkartennummer, benutzt werden. Nach Auswahl des Bezugsmodells mit dem Signal P(OJK) maximaler Wahrscheinlichkeit entsprechend dem Kästchen 240 in Fig.2 wird ein Bezugsindexsignal erzeugt (Kästchen 245) und zur, Verbrauchereinrichtung 280 übertragen, die eine Fernsprechvermittlungsanord— ° nung oder ein Datenverarbeiter-für Geschäftsvorgänge sein kann. Es wird dann in das Entscheidungskästchen 205 eingetreten , so daß das nächste Sprachmuster des gesprochenen
Eingangssignals verarbeitet werden kann. Die Anordnung

gemäß Fig. 3 kann für die Erkennung anderer Sprachmuster,

beispielsweise von Ausdrücken oder Sätzen, erweitert werden , indem geeignete Markov-Modell-Bezugsschablonen gewählt werden. Im Gegensatz zu bekannten Markov-Modell-Spracherkennungsanordnungen, bei denen Modelle kleiner
Sprachelemente , beispielsweise von Phonemen, benutzt
werden, wird bei der vorliegenden Erfindung ein einziges
Modell des gesamten Bezugsmusters , beispielsweise eines
Wortes oder eines Ausdrucks,zur Identifizierung einer Aus-

spräche als ein Bezugsmuster benutzt. Mit Vorteil ist die
Anzahl der für eine Erkennung erforderlichen Zustände verringert, Schwierigkeiten bei der Verknüpfung von Phonemen
oder anderen elementaren Sprachabschnittsmodellen werden

5. vermieden,und es wird ein sprecherunabhängiger Betrieb auf der Grundlage verfügbarer Datenbasen erreicht. Die Markov-Modell-Schablonen, die im ROM 360 gespeichert sind, werden aus Sprachäußerungen identifizierter Sprachmuster erzeugt, die von irgendeiner Quelle und von unterschiedlichen

Sprechern stammen können. Es können Muster von bequem verfügbaren Datenbanken oder gespeicherte Sprachäußerungen
zur Erzeugung von Markov-Modellen für den Sprecher bei
der sprecherunabhängigen Erkennungsanordnung gemäß Fig.3
verwendet werden.

Claims

Patentansprüche

1./ Sprachanalysator zur Erkennung einer Äußerung als eines von einer Vielzahl von Bezugsmustern, mit einer Einrichtung zur Speicherung einer Vielzahl von Signalen, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, und mit einer Einrichtung, die unter taspreohen auf die Äußerung eine Zeitrahmenfolge akustischer Merkmalssignale bildet, die die Sprachmuster der Äußerung darstellen, gekennzeichnet durch

Einrichtungen, die unter Ansprechen auf die Sprachmuster-Merkmalssignale eine Folge gewählter, vorbestimmter, das Sprachmuster darstellender Merkmalssignale erzeugen, die unter gemeinsamem Ansprechen auf die Folge gewählter Merkmalssignale und die Signale für das begrenzte verborgene Markov-Modell jedes Bezugsmusters ein die Wahrscheinlichkeit dafür darstellendes Signal erzeugen, daß das Sprachmuster das Bezugsmuster ist, und

die unter Ansprechen auf die die Wahrscheinlichkeit darstellenden Signale das Sprachmuster als eines der Bezugsmuster

20 erkennt.

COPY

Sonnenberger Strafle 43 i200 Wiesbaden Telefon (04121) 542943/561998 Telex 4184237 Telegramme Palentconsult Radecfcestraße 43 6000 MUndien 40 Telefon (0E9) 883403/883404 Telex 5212313 Telegramme Patentconsult

1 2. Sprachanalysator nach Anspruch 1,

■~ dadurch gekennzeichnet, daß die Einrichtung zur Speicherung der Signale, die je einem begrenzten verborgenen Markov-Modell eines Bezugsmusters entsprechen, eine Einrichtung zur Speicherung eines Satzes von Signalen aufweist, die Markov-Modellzuständen entsprechen, und zwar einschließlich eines Signals, das einem Anfangszustand entspricht, einer Vielzahl von Signalen, die mittleren Zuständen entsprechen, und eines Signals, das einem Endzustand entspricht, ferner eine Einrichtung zur Speicherung eines Satzes von Signalen, die je der Wahrscheinlichkeit für den Übergang zwischen einem vorbestimmten Paar.. von Zuständen entsprechen, und eine Einrichtung zur Speicherung eines Satzes von Signalen, die je die Wahrscheinlichkeit eines vorbestimmten

15 Merkmalssignals darstellt, das in einem vorgeschriebenen
Zustand auftritt.

3. Sprachanalysator nach Anspruch 2,

dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung von die Wahrscheinlichkeit darstellenden Signalen für je-

des Bezugsmustermodell so ausgelegt ist, daß sie nacheinander Sprachmusterrahmen-Verarbeitungsintervallsignale erzeugt, daß sie im augenblicklichen Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen aui das gewählte, vorbestimmte, den augenblicklichen Sprachmusterrahmen darstel-

25 lende Signal und die Bezugsmuster-Markov-Modellsignale

einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell während dieses Sprachrahmens in einem vorgeschriebenen Zustand ist, und im letzten Sprachmusterrahmen-Verarbeitungsinter-

30 vall unter Ansprechen auf das die Wahrscheinlichkeit da:--

ι für darstellende Signal , das das Bezugsmuster-Markov-Modell des letzten Sprachmusterrahmens im Endzustand ist, ein Signal bildet, das die Wahrscheinlichkeit dafür darstellt, daß das Sprachmuster aus dem Bezugsmuster-Markov-Modell gewonnen wird.

4. Sprachanalysator nach Anspruch 3,

dadurch gekennzeichnet, daß die Einrichtung zur Erzeugung der die Wahrscheinlichkeit darstellenden Signale in jedem

33373

Sprachmusterrahmen-Verarbeitungsintervall unter Ansprechen "auf die Markov-Modell-Zustandssignale, die übergangswahrscheinlichkeitssignale und die Wahrscheinlichkeitssignale für das Auftreten der Merkmalssignale einen Satz von Signalen erzeugt, die die Wahrscheinlichkeit dafür darstellen, daß das Bezugsmuster-Markov-Modell entsprechend dem Sprachmusterteil bis zum augenblicklichen Rahmen sich in jedem der Bezugsmuster-Markov-Modellzustände befindet.

5. Sprachanalysator nach Anspruch 4,

gekennzeichnet durch eine Einrichtung zur Speicherung des vorbestimmten Satzes von Signalen, die akustische Merkmale darstellen, einschließlich einer Einrichtung zur Speicherung einer vorbestimmten Anzahl von akustischen Merkmalssignalen, die den Bereich von akustischen Merkmalen der Bezugsmuster

15 erfassen.

6. Sprachanalysator nach Anspruch 5,

dadurch gekennzeichnet, daß die Einrichtung zur Speicherung der vorgeschriebenen Anzahl von akustischen Merkmalssignalen eine Einrichtung zur Speicherung einer vorgeschriebenen Anzahl von Linear-voraussagemerkmal-Prototypsignalen aufweist, die den Bereich der akustischen Merkmale der Bezugsmuster erfassen, und daß die Einrichtung zur Bildung einer Folge von akustischen, die Sprachmuster darstellenden Signalen eine Einrichtung zur Bildung einer Folge von linearen Voraussageparameter-Merkmalssignalen enthält, die das Sprachmuster darstellen.

7. Sprachanalysator nach Anspruch 4,

dadurch gekennzeichnet, daß die Übergangswahrscheinlichkeitssignale entsprechend Übergängen von einem ersten bestimmten Zustand i in einen zweiten bestimmten Zustand j für j<i und j>i+2 Signale mit dem Wert 0 sind.

8. Sprachanalysator nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß das Sprachmuster die Aussprache eines Wortes und jedes Bezugsmuster ein identi-

35 fiziertes gesprochenes Wortmuster ist.

BAD ORIGINAL