DE4031638A1 - Spracherkennungseinrichtung - Google Patents

Spracherkennungseinrichtung

Info

Publication number
DE4031638A1
DE4031638A1 DE4031638A DE4031638A DE4031638A1 DE 4031638 A1 DE4031638 A1 DE 4031638A1 DE 4031638 A DE4031638 A DE 4031638A DE 4031638 A DE4031638 A DE 4031638A DE 4031638 A1 DE4031638 A1 DE 4031638A1
Authority
DE
Germany
Prior art keywords
speaker
dictionary
reference patterns
dependent
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4031638A
Other languages
English (en)
Other versions
DE4031638C2 (de
Inventor
Shoji Kuriki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP20014990A external-priority patent/JP2989231B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE4031638A1 publication Critical patent/DE4031638A1/de
Application granted granted Critical
Publication of DE4031638C2 publication Critical patent/DE4031638C2/de
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Description

Die Erfindung betrifft eine Spracherkennungseinrichtung nach dem Oberbegriff des Anspruchs 1 und betrifft insbesondere eine Spracherkennungseinrichtung mit einem binären Zeit-Spek­ trum-Muster. Darüber hinaus betrifft die Erfindung eine Spracherkennungseinrichtung mit einem sprecher-unabhängigen und einem sprecher-abhängigen Wörterbuch.
Üblicherweise werden ein sprecher-unabhängiges und sprecher- abhängiges Wörterbuch, die in einer Spracherkennungseinrich­ tung vorgesehen sind, wahlweise im Hinblick auf einen Spre­ cher verwendet, welcher die Spracherkennungseinrichtung be­ nutzt. In einer solchen Spracherkennungseinrichtung sind zwei Spracherkennungsteile für das sprecher-unabhängige bzw. für das sprecher-abhängige Wörterbuch vorgesehen, weil Referenzmuster, welche in dem sprecher-unabhängigen Wörterbuch registriert sind, durch ein Verfahren erzeugt werden, das sich von demje­ nigen unterscheidet, um Referenzmuster zu schaffen, welche in dem sprecher-abhängigen Wörterbuch registriert sind. Ein von einem Sprecher gesprochenes Wort wird getrennt durch die zwei Spracherkennungsteile erkannt, und die jeweiligen Erkennungs­ ergebnisse werden erhalten. Dann wird eines der beiden Erken­ nungsergebnisse basierend auf einer vorherbestimmten Vorschrift ausgewählt.
Herkömmliche Spracherkennungseinrichtungen, wie sie vorstehend beschrieben sind, benötigen jedoch zwei gesonderte Erkennungs­ teile, und es ist ein gewaltiger Rechenaufwand erforderlich, um die Erkennungsergebnisse einzustellen, welche mit Hilfe des sprecher-unabhängigen und des sprecher-abhängigen Wör­ terbuchs erhalten worden sind.
Gemäß der Erfindung soll daher eine Spracherkennungseinrich­ tung geschaffen werden, bei welcher die vorstehend angeführten Nachteile beseitigt sind, und welche einen einzigen Erken­ nungsteil hat, welcher ein Wort mit Hilfe eines sprecher-un­ abhängigen und eines sprecher-abhängigen Wörterbuchs erkennen kann. Gemäß der Erfindung ist dies bei einer Spracherkennungs­ einrichtung nach dem Oberbegriff des Anspruchs 1 durch die Merkmale in dessen kennzeichnenden Teil erreicht. Vorteilhaf­ te Weiterbildungen der Erfindung sind Gegenstand der Unteran­ sprüche.
Nachfolgend wird die Erfindung anhand von bevorzugten Ausfüh­ rungsformen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer Spracherkennungseinrich­ tung gemäß einer bevorzugten Ausführungsform der Erfindung;
Fig. 2 ein Diagramm, in welchem ein Beispiel eines binären Zeit-Spektrum-Musters dargestellt ist;
Fig. 3A ein Diagramm, in welchem dargestellt ist, wie ein Referenzmuster erzeugt wird, welches in einem in Fig. 2 dargestellten sprecher-unabhängigen Wörter­ buch zu registrieren ist;
Fig. 3B ein Diagramm, in welchem dargestellt ist, wie ein Referenzmuster erzeugt wird, welches in einem in Fig. 2 dargestellten sprecher-abhängigen Wörter­ buch zu registrieren ist;
Fig. 4 ein Diagramm, in welchem dargestellt ist, wie Mu­ ster eines identischen von ein und demselben Spre­ cher ausgesprochenen Worts addiert werden;
Fig. 5 ein Blockdiagramm, in welchem die Strukturen und Betriebsarten einer Wörterbuchinformations-Spei­ chereinheit und der in Fig. 2 dargestellten Wich­ tungseinheit dargestellt sind;
Fig. 6 ein Blockdiagramm, in welchem verschiedene Struk­ turen und Betriebsarten der Wörterbuchinformations- Speichereinheit und der in Fig. 2 dargestellten Wichtungseinheit dargestellt sind;
Fig. 7 ein Blockdiagramm, in welchem verschiedene Struk­ turen und Betriebsarten der Wörterbuchinforma­ tions-Speichereinheit und der in Fig. 2 darge­ stellten Wichtungseinheit wiedergegeben sind, und
Fig. 8 ein Blockdiagramm, in welchem verschiedene Struk­ turen und Operationen der Wörterbuchinformations- Speichereinheit und der in Fig. 2 dargestellten Wichtungseinheit dargestellt sind.
In Fig. 1 ist eine Spracherkennungseinrichtung gemäß einer bevorzugten Ausführungsform der Erfindung dargestellt. Diese Spracherkennungseinrichtung weist eine Vorverarbeitungsein­ heit 1, eine Merkmal-Extrahiereinheit 2, einen Sprachab­ schnittsdetektor 3, einen Mustergenerator 4, ein sprecher-un­ abhängiges Wörterbuch 5, ein sprecher-abhängiges Wörterbuch 6, eine Wörterbuchinformations-Speichereinheit 7, eine Wich­ tungseinheit 8 und eine Erkennungseinheit 9 auf.
Eine von einem (nicht dargestellten) Mikrophon abgegebene Sprache wird der Vorverarbeitungseinheit 1 zugeführt, welche das Sprachsignal verstärkt und dessen hochfrequente Kompo­ nente hervorhebt. Ferner wird in der Vorverarbeitungseinheit 1 das Sprachsignal mit den hervorgehobenen hochfrequenten Komponenten zu einer AGC-Schaltung und einer Filterbank durch­ gelassen, welche durch eine Anzahl Bandpaß-Filter gebildet ist. Die vorstehend beschriebene Arbeitsweise der Vorverar­ beitungseinheit 1 ist üblich.
Ein auf diese Weise erhaltenes, vorverarbeitetes Sprachsignal wird an die Merkmalextrahiereinheit 2 und den Sprachabschnitts­ detektor 3 angelegt. Die Einheit 2 extrahiert Merkmale des vorverarbeiteten Sprachsignals von der Verarbeitungseinheit 1 in einem herkömmlichen Prozeß. Beispielsweise extrahiert die Merkmalsextrahiereinheit 2 Leistungsspektren oder LPC-Spek­ tren aus dem vorverarbeiteten Sprachsignal. Die Merkmale, wel­ che mittels der Einheit 2 extrahiert worden sind, werden an den Mustergenerator 4 abgegeben. Der Sprachabschnittdetektor 3 stellt einen Sprachabschnitt (ein Wort) in dem vorverarbei­ teten Sprachsignal durch Überwachen dessen Pegels fest. Ein Sprachabschnitt beginnt, wenn der Pegel des vorverarbeiteten Sprachsignals einen vorherbestimmten Schwellenwertpegel über­ schreitet, und dieser Sprachabschnitt endet, wenn dessen Pe­ gel gleich oder kleiner als der vorherbestimmte Schwellenwert ist. Die auf diese Weise erhaltenen Sprachabschnitte werden an den Mustergenerator 4 abgegeben. Der Mustergenerator 4 er­ zeugt ein binäres Zeit-Spektrum-Muster für jeden Sprachab­ schnitt auf herkömmliche Weise. (Siehe J. Fujimoto et al, "A SPOKEN WORD RECOGNITION METHOD BY BINARY TSP MATCHING", Ricoh Technical Report Nr. 11, Mai 1984, Stn. 4 bis 12).
In Fig. 2 ist ein Beispiel eines binären Zeit-Spektrum-Mu­ sters dargestellt, welches von dem Mustergenerator erzeugt und ausgegeben worden ist. Die horizontale Richtung in Fig. 2 gibt die Frequenzen des binären Zeit-Spektrum-Musters und die vertikale Richtung gibt den Zeitdurchgang an. Die Frequenz des binären Zeit-Spektrum-Musters nimmt in der Zeichnung nach rechts hin zu. Das binäre Zeit-Spektrum-Muster enthält eine Anzahl Rahmen, welche in vorherbestimmten Intervallen erhal­ ten worden sind. Beispielsweise ist der Anfangsrahmen des in Fig. 2 dargestellten, binären Zeit-Spektrum-Musters "001100100000000", wobei "0" oder "1" der Wert jedes Elements ist. In dem in Fig. 2 dargestellten Beispiel ist die Frequenz­ achse in 15 Frequenzbereiche unterteilt. Für jeden der Fre­ quenzbereiche wird festgelegt, ob die akustische Energie gleich oder größer als ein vorherbestimmter Schwellenwert ist oder nicht. Wenn die akustische Energie gleich oder größer als der vorherbestimmte Schwellenwert ist, wird für den ent­ sprechenden Frequenzbereich "1" vorgesehen. Wenn dagegen die akustische Energie kleiner als der vorherbestimmte Schwellen­ wert ist, wird für den entsprechenden Frequenzbereich "0" vorgesehen.
Das sprecher-unabhängige Wörterbuch 5 speichert Referenz- Zeit-Spektrum-Muster von Worten, welche in einer Weise erhal­ ten worden sind, welche später noch beschrieben wird. Das sprecher-abhängige Wörterbuch 6 speichert Referenz-Zeit- Spektrum-Muster von Worten, welche in einer Weise erhalten worden sind, die später noch beschrieben wird. Die Wörter­ buchinformations-Speichereinheit 7 erhält Wörterbuchinforma­ tion (was später noch beschrieben wird) von dem sprecher-un­ abhängigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6. Ferner schreibt die Speichereinheit 7 Referenzmuster, welche auf die in Fig. 3A und 3B dargestellten Weisen erzeugt wer­ den (was später noch beschrieben wird) in das sprecher-unab­ hängige und das sprecher-abhängige Wörterbuch 5 bzw. 6.
Die Wichtungseinheit 8 liest ein Referenz-Zeit-Spektrum-Mu­ ster aus dem sprecher-abhängigen Wörterbuch 6 aus und wichtet das ausgelesene Referenz-Zeit-Spektrum-Muster in einer Weise, welche später noch im einzelnen beschrieben wird. Ein gewich­ tetes Referenz-Zeit-Spektrum-Muster, das von der Wichtungsein­ heit 8 erzeugt und abgegeben worden ist, wird an die Erken­ nungseinheit 9 abgegeben, und ein Referenz-Zeit-Spektrum- Muster, das aus dem sprecher-unabhängigen Wörterbuch 5 aus­ gelesen worden ist, wird an die Erkennungseinheit 9 abgegeben. Die Referenzeinheit führt eine Multiplikation an Elementen (Spektralkomponenten) an entsprechenden Stellen des gewich­ teten Referenzmusters und des von dem Mustergenerator 4 abge­ gebenen, binären Zeit-Spektrum-Musters der eingegebenen Spra­ che durch und berechnet die Summe der Ergebnisse der Multi­ plikations-Operation. Die auf diese Weise erhaltene Summe zeigt einen Ähnlichkeitsgrad der eingegebenen Sprache mit dem in Betracht zu ziehenden Referenzmuster an. In ähnlicher Weise führt die Referenzeinheit 9 eine Multiplikation an Ele­ menten an entsprechenden Stellen des aus dem sprecher-unab­ hängigen Wörterbuch 5 ausgelesenen Referenzmusters und des von dem Mustergenerator 4 zugeführten Eingangsmusters durch und berechnet die Summe der Ergebnisse der Multiplikations- Operation. Auf die vorstehend beschriebene Weise werden eine Anzahl Wort-Kandidaten erhalten. Die Erkennungseinheit 9 gibt den Kandidaten mit dem höchsten Ähnlichkeitsgrad (dem höch­ sten Summenwert) als das Erkennungsergebnis ab. Es kann aber auch irgendein anderes bekanntes Erkennungsverfahren angewen­ det werden. Beispielsweise kann ein zusätzliches Element in der Erkennungsprozedur hinzuaddiert werden.
In Fig. 3A ist dargestellt, wie ein Referenz-Zeit-Spektrum-Mu­ ster erzeugt wird, welches in dem sprecher-unabhängigen Wör­ terbuch 5 zu registrieren ist. Verschiedene Sprecher A, B, C, D, E,..., O sprechen dasselbe Wort aus, und es werden binäre Zeit-Spektrum-Muster desselben Wortes, das von den Sprechern ausgesprochen worden ist, erzeugt und addiert, so daß ein einziges Referenz-Zeit-Spektrum-Muster des in Betracht zu zie­ henden Wortes erzeugt wird. Natürlich könnnen auch die Spre­ cher für jedes zu registrierende Wort wechseln.
In Fig. 3B ist dargestellt, wie ein Referenzmuster erzeugt wird, welches in das sprecher-abhängige Wörterbuch 6 zu re­ gistrieren ist. Ein Sprecher A spricht dasselbe Wort dreimal aus, und die jeweiligen binären Zeit-Spektrum-Muster werden erzeugt und addiert, so daß ein einziges Referenz-Zeit-Spek­ trum-Muster bezüglich des Sprechers A erzeugt wird.
In der Darstellung der Fig. 4 spricht ein Sprecher A ein Wort dreimal aus, und die jeweiligen binären Zeit-Spektrum-Muster INP1, INP2 und INP3 werden erzeugt, und anschließend addiert; auf diese Weise wird ein Referenzmuster erzeugt. Das Muster INP1 hat die größte Wortlänge auf der Zeitbasis. Folglich wer­ den zwei Zeilen (Rahmen) zu dem Muster INP2 addiert, und eine Zeile wird zu dem Muster INP3 addiert. Beispielsweise werden die zwei Zeilen, welche zu dem Muster INP2 zu addieren sind, jeweils aus dem letzten Rahmen (der letzten Zeile) gebildet.
In Fig. 5 sind die Strukturen und Betriebsarten der Wörter­ buchinformations-Speichereinheit 7 und der Wichtungseinheit 8 dargestellt. Die Speichereinheit 7 speichert Wörterbuchinfor­ mation an den Referenzmuster, welche in dem sprecher-unabhän­ gigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6 regi­ striert sind. Die in Fig. 5 verwendete Wörterbuchinformation setzt sich aus dem Maximalwert der Elemente der in dem spre­ cher-unabhängigen Wörterbuch 5 registrierten Referenz-Zeit- Spektrum-Muster und aus dem Maximalwert der Elemente der in dem sprecher-abhängigen Wörterbuch 6 registrierten Referenz­ muster zusammen. Im Falle der Fig. 5 ist der Maximalwert der Elemente, die zu dem sprecher-unabhängigen Wörterbuch 5 Be­ zug haben, gleich 13, und der Maximalwert der Elemente, wel­ che zu dem sprecher-abhängigen Wörterbuch 6 Bezug haben, ist gleich 3.
Die in Fig. 5 dargestellte Wichtungseinheit 8 setzt sich aus einer Teilungseinheit 10, eine Ganzzahleinheit 11 und eine Multipliziereinheit 13 zusammen. Die Teilungseinheit 11 teilt den Maximalwert, der zu dem sprecher-unabhängigen Wörterbuch 5 in Beziehung steht, durch den Maximalwert, welcher zu dem sprecher-abhängigen Wörterbuch 6 in Beziehung steht. In dem in Fig. 5 dargestellten Fall teilt die Einheit 10 13 durch 3, und gibt 4,333... ab. Die Ganzzahleinheit 11 extrahiert einen ganzzahligen Teil aus dem geteilten Ergebnis. In dem in Fig. 5 dargestellten Fall gibt die Ganzzahleinheit 11 4 ab. Die von der Einheit 11 abgegebene ganze Zahl ist ein Wichtungsfaktor. Die Multipliziereinheit 13 multipliziert das aus dem sprecher­ abhängigen Wörterbuch 6 ausgelesene Referenzmuster, insbeson­ dere jedes darin enthaltene Element mit dem Wichtungsfaktor. In dem in Fig. 5 dargestellten Fall wird ein aus dem sprecher­ abhängigen Wörterbuch 6 ausgelesenes Referenzmuster infolge der Multiplikation mit dem Wichtungsfaktor vervierfacht. Dann wird das vervierfachte Referenzmuster an die Erkennungsein­ heit 9 abgegeben.
Die Wörterbuchinformation kann auch unter der Steuerung der Wörterbuchinformations-Speichereinheit 7 durch Suchen des sprecher-unabhängigen Wörterbuchs 5 und des sprecher-abhängi­ gen Wörterbuchs 6 geschrieben werden. Andererseits kann auch die Wörterbuchinformation geschrieben werden, wenn Bezugsmu­ ster in den Wörterbüchern 5 und 6 registriert werden.
Es ist zu beachten, daß die in Fig. 3B dargestellte Prozedur zum Erzeugen der Referenzmuster, welche in dem sprecher-ab­ hängigen Wörterbuch 6 zu registrieren sind, sich von der in Fig. 3A dargestellten Prozedur zum Erzeugen der Bezugsmuster unterscheidet, welche in dem sprecher-unabhängigen Wörter­ buch 5 zu registrieren sind. Folglich ist es nicht möglich, die erhaltenen Erkennungsergebnisse zu handhaben, indem ein­ fach die Referenzmuster verwendet werden, welche durch die verschiedenen Prozeduren in der einzigen Erkennungseinheit 9 erhalten worden sind. Das heißt, Unterschiede der Referenz­ muster, welche durch die verschiedenen Prozeduren erhalten worden sind, müssen ausgeglichen werden, um dadurch diese Re­ ferenzmuster unter einer ausgeglichenen Voraussetzung zu handhaben. Dies ist durch die Wichtungseinheit 8 mit der vor­ erwähnten Struktur und Arbeitsweise erreicht.
In Fig. 6 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuch-Informations-Speichereinheit 7 und der Wichtungs­ einheit 8 dargestellt. Die Wörterbuchinformation, welche die­ selbe wie in Fig. 5 ist, ist in der Konfiguration der Fig. 6 verwendet. Die Wichtungseinheit 8 hat einen Tabellenspeicher 12, welcher Wichtungsfaktoren speichert, die durch den maxi­ malen Wert, welcher Bezug zu dem speicher-unabhängigen Wör­ terbuch 5 hat, und durch den Maximalwert festgelegt sind, wel­ cher Bezug zu dem specher-abhängigen Wörterbuch 6 hat.
In Fig. 7 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuchinformations-Speichereinheit 7 und der Wichtungsein­ heit 8 dargestellt. Die in Fig. 7 verwendete Wörterbuchinfor­ mation setzt sich aus der Anzahl Muster desselben Wortes, welche addiert werden, wenn ein Referenzmuster dieses in dem sprecher-unabhängigen Wörterbuch 5 zu registrierenden Worts erzeugt wird, und aus der Anzahl Muster desselben Wortes zu­ sammen, welche addiert werden, wenn ein Referenzmuster des in dem sprecher-abhängigen Wörterbuchs 6 zu registrierenden Wor­ tes erzeugt wird. Im in Fig. 7 dargestellten Fall werden Mu­ ster von 15 verschiedenen Sprechern verwendet, um das entsprechende Referenzmuster zu erzeugen, das in dem sprecher­ unabhängigen Wörterbuch 5 zu registrieren ist, und 3 Muster desselben Sprechers werden verwendet, um das entsprechende Referenzmuster zu erzeugen, das in dem sprecher-abhängigen Wörterbuch 6 zu registrieren ist. Die Wichtungseinheit 6 ist aus der Teilungseinheit 10 und der Ganzzahleinheit 11 in der­ selben Weise wie die in Fig. 5 dargestellte Konfiguration zu­ sammengesetzt. Die Teilungseinheit 10 teilt die Zahl, welche sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, durch die Zahl, welche sich auf das sprecher-abhängige Wörterbuch 6 bezieht. In dem in Fig. 7 dargestellten Fall teilt die Tei­ lungseinheit 15 durch 3, und gibt das Teilungsergebnis (wel­ ches in diesem Fall gleich 5 ist) ab. Die Ganzzahleinheit 11 extrahiert den ganzzahligen Teil aus dem Teilungsergebnis. Der extrahierte ganzzahlige Teil ist der Wichtungsfaktor.
In dem in Fig. 7 dargestellten Fall ist der Wichtungsfaktor gleich 5.
In Fig. 8 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuchinformation-Speichereinheit 7 und der Wichtungsein­ heit 8 dargestellt. Die in Fig. 8 dargestellte Struktur wird durch Kombinieren der in Fig. 6 und 7 dargestellten Konfigura­ tion erhalten. Das heißt, die Wörterbuchinformation setzt sich aus der Anzahl Muster desselben Wortes, welche addiert werden, wenn ein Referenzmuster des in Betracht zu ziehenden Wortes, das in dem sprecher-unabhängigen Wörterbuch 5 zu re­ gistrieren ist, erzeugt wird, und aus der Anzahl Muster des­ selben Wortes, welche addiert werden, wenn ein Referenzmu­ ster des in Betracht zu ziehenden Wortes erzeugt wird, das in dem sprecher-abhängigen Wörterbuch 6 zu registrieren ist. Die Wichtungseinheit 8 hat eine Speichertabelle 12, welche Wichtungsfaktoren speichert, welche durch die Zahl, welche sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, und durch die Zahl festgelegt sind, die sich auf das sprecher-ab­ hängige Wörterbuch 6 bezieht.
In den vorstehend beschriebenen Ausführungsformen der Erfin­ dung ist ein Wichtungsfaktor für ein Wörterbuch vorgesehen. Es können jedoch auch Wichtungsfaktoren für die jeweiligen Referenzmuster geschaffen werden.

Claims (8)

1. Spracherkennungseinrichtung, mit
einer Eingabeeinrichtung (1, 2, 3) zum Aufnehmen eines einge­ gebenen Sprachsignals und zum Extrahieren von Merkmalen aus der eingegebenen Sprache;
einer Mustererzeugungseinrichtung (4), welche mit der Eingabe­ einrichtung verbunden ist, um ein Sprachmuster der eingegebe­ nen Sprache aus den durch die Eingabeeinrichtung extrahierten Merkmalen zu erzeugen, wobei das Sprachmuster ein Zeit-Spek­ trum-Muster hat, das in vorherbestimmten Intervallen erhal­ tene Frequenzelemente zeigt;
einem sprecher-unabhängigen Wörterbuch (5) zum Speichern einer ersten Gruppe von Referenzmustern, die jeweils durch Addieren einer Anzahl Zeit-Spektrum-Muster eines von verschie­ denen Sprechern ausgesprochenen, identischen Wortes erhalten worden sind, und
einem sprecher-abhängigen Wörterbuch (6) zum Speichern einer zweiten Gruppe von Referenzmustern, die jeweils durch Addie­ ren von Zeit-Spektrum-Mustern eines von ein- und demselben Sprecher ausgesprochenen, identischen Worts erhalten worden sind, gekennzeichnet durch
eine Wörterbuchinformations-Speichereinrichtung (7), welche mit dem sprecher-unabhängigen und dem sprecher-abhängigen Wörterbuch (5 bzw. 6) verbunden ist, um Wörterbuchinforma­ tion über die erste und über die zweite Gruppe von Referenz­ mustern zu speichern;
eine Wichtungseinrichtung (8), welche mit dem sprecher-abhän­ gigen Wörterbuch (6) und der Wörterbuch-Information-Speicher- Einrichtung (7) verbunden ist, um einen Wichtungsfaktor aus der Wörterbuchinformation zu berechnen und um die zweite Gruppe von Referenzmustern in dem sprecher-abhängigen Wörter­ buch mit Hilfe des Wichtungsfaktors zu wichten, um dadurch gewichtete Referenzmuster abzugeben, und
eine Erkennungseinrichtung (9), welche mit der Mustererzeu­ gungseinrichtung (4) dem sprecher-unabhängigen Wörterbuch (5) und der Wichtungseinrichtung (8) verbunden ist, um das Sprachmuster des eingegebenen Sprachsignals, das mittels der Mustererzeugungseinrichtung (4) erzeugt worden ist, mit Hilfe der ersten Gruppe Referenzmuster in dem sprecher-unabhängigen Wörterbuch (5) und dem gewichteten, von der Wichtungseinrich­ tung (8) zugeführten Referenzmuster zu erkennen, so daß die erste Gruppe von Referenzmustern und die gewichteten Referenz­ muster gleich behandelt werden.
2. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wörterbuchinformation aufweist:
einen ersten Maximalwert der Frequenzelemente in der ersten Gruppe von Referenzmustern, die im sprecher-unabhängigen Wörterbuch (5) registriert sind, und
einen zweiten Maximalwert der Frequenzelemente in der zweiten Gruppe von Referenzmustern, welche in dem sprecher-abhängi­ gen Wörterbuch (6) registriert sind.
3. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
eine Teilungseinrichtung (10), um den ersten Maximalwert durch den zweiten Maximalwert zu teilen und ein geteiltes Ergebnis zu geben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei­ lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem geteilten Ergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher­ abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich­ tung (11) verbunden ist, um eine der zweiten Gruppen Referenz­ muster, welche in dem sprecher-abhängigen Wörterbuch (6) ge­ speichert sind, mit der ganzen Zahl zu multiplizieren, und
ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
4. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
einen Tabellenspeicher (12) zum Speichern vorherbestimmter Wichtungsfaktoren, welche durch mögliche erste Maximalwerte der Frequenzelemente der ersten Gruppe von Referenzmustern und durch mögliche zweite Maximalwerte der Frequenzelemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzuge­ ben, welche durch eine der möglichen ersten Maximalwerte, welche dem ersten Maximalwert entsprechen, und durch einen der möglichen zweiten Maximalwerte, welche dem zweiten Maximal­ wert entsprechen, festgelegt sind, wobei der eine der vorher­ bestimmten Wichtungsfaktoren dem Wichtungsfaktor entspricht, und
eine Multipliziereinrichtung (13), welche mit dem spre­ cher-abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) verbunden ist, um eine der zweiten Gruppen von Referenzmu­ stern, welche in dem sprecher-abhängigen Wörterbuch (6) re­ gistriert sind, mit dem Wichtungsfaktor zu multiplizieren und um ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
5. Spracherkennungseinrichtung nach Anspruch 1, dadurch ge­ kennzeichnet, daß die Wörterbuchinformation eine erste Anzahl, welche der Zahl Muster des identischen Worts entspricht, das zum Erzeugen einer der ersten Gruppen von Re­ ferenzmustern verwendet ist, und eine zweite Zahl aufweist, welche der Anzahl Muster des identischen Wortes entspricht, welche zum Erzeugen einer der zweiten Referenzmuster-Gruppe entspricht.
6. Spracherkennungseinrichtung nach Anspruch 5, dadurch ge­ kennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
eine Teilungseinrichtung (11), um die erste Zahl durch die zweite Zahl zu teilen, und um ein Teilungsergebnis abzuge­ ben;
eine Ganzzahl-Extrahiereinrichtung (12), welche mit der Tei­ lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem Teilungsergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher­ abhängigen Wörterbuch (5) und der Ganzzahl-Extrahiereinrich­ tung (11) verbunden ist, um eine der zweiten Gruppe Referenz­ muster, welche in dem sprecher-abhängigen Wörterbuch (5) registriert sind, mit der ganzen Zahl zu multiplizieren, und um ein Multiplizierergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.
7. Spracherkennungseinrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
einen Tabellenspeicher (12), um vorherbestimmte Wichtungs­ faktoren zu speichern, welche durch mögliche, erste maximale Werte der Frequenzelemente der ersten Gruppe von Referenz­ mustern und durch mögliche zweite Maximalwerte der Frequenz­ elemente der zweiten Gruppe von Referenzmustern festgelegt sind, und um einen der vorherbestimmten Wichtungsfaktoren abzugeben, welcher durch eine der möglichen ersten Maximal­ werte, welche dem ersten Maximalwert entsprechen, und durch einen der möglichen zweiten Maximalwerte festgelegt sind, welche dem zweiten Maximalwert entsprechen, wobei der eine der vorherbestimmten Wichtungsfaktoren dem Wichtungsfaktor entspricht, und
eine Multipliziereinrichtung (13), welche mit dem sprecher­ abhängigen Wörterbuch (5) und dem Tabellenspeicher (12) ver­ bunden ist, um eine der zweiten Gruppe von Referenzmustern, die in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit dem Wichtungsfaktor zu multiplizieren, und um ein Multiplikationsergebnis abzugeben, welches einem der gewich­ teten Referenzmuster entspricht.
8. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wörterbuchinformations- Speichereinrichtung (7) die Wörterbuchinformation zur selben Zeit speichert, zu welcher die ersten und zweiten Gruppen Referenzmuster in den sprecher-unabhängigen bzw. sprecher- abhängigen Wörterbüchern (5, 6) gespeichert werden.
DE4031638A 1989-10-05 1990-10-05 Spracherkennungseinrichtung Granted DE4031638A1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP26109789 1989-10-05
JP26109889 1989-10-05
JP20014990A JP2989231B2 (ja) 1989-10-05 1990-07-27 音声認識装置

Publications (2)

Publication Number Publication Date
DE4031638A1 true DE4031638A1 (de) 1991-04-18
DE4031638C2 DE4031638C2 (de) 1992-02-27

Family

ID=27327767

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4031638A Granted DE4031638A1 (de) 1989-10-05 1990-10-05 Spracherkennungseinrichtung

Country Status (2)

Country Link
US (1) US5144672A (de)
DE (1) DE4031638A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0527650A2 (de) * 1991-08-13 1993-02-17 Kabushiki Kaisha Toshiba Spracherkennungsgerät
WO1997010583A1 (de) * 1995-09-11 1997-03-20 Daimler-Benz Aerospace Aktiengesellschaft Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE19718007A1 (de) * 1997-04-29 1998-11-05 Deutsche Telekom Ag Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3014177B2 (ja) * 1991-08-08 2000-02-28 富士通株式会社 話者適応音声認識装置
US5732187A (en) * 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
WO1999000790A1 (en) * 1997-06-27 1999-01-07 M.H. Segan Limited Partnership Speech recognition computer input and device
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
JP2001509285A (ja) * 1997-10-07 2001-07-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 話者依存及び話者非依存音声認識を用いた多局ネットワークの音声制御された機能を作動する方法及び装置
KR100577990B1 (ko) * 1997-12-31 2006-08-30 엘지전자 주식회사 화자종속/독립음성인식장치
DE69829187T2 (de) 1998-12-17 2005-12-29 Sony International (Europe) Gmbh Halbüberwachte Sprecheradaptation
US6487530B1 (en) * 1999-03-30 2002-11-26 Nortel Networks Limited Method for recognizing non-standard and standard speech by speaker independent and speaker dependent word models
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
US20030101052A1 (en) * 2001-10-05 2003-05-29 Chen Lang S. Voice recognition and activation system
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US20090210233A1 (en) * 2008-02-15 2009-08-20 Microsoft Corporation Cognitive offloading: interface for storing and composing searches on and navigating unconstrained input patterns
US10224030B1 (en) * 2013-03-14 2019-03-05 Amazon Technologies, Inc. Dynamic gazetteers for personalized entity recognition

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
DE3129282A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherabhaengigen erkennung von einzelnen gesprochenen worten in fernmeldesystemen
DE3129353A1 (de) * 1981-07-24 1983-02-10 Siemens AG, 1000 Berlin und 8000 München Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4910782A (en) * 1986-05-23 1990-03-20 Nec Corporation Speaker verification system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FUJIMOTO, J., ET AL, "A Spoken Word Recognition Method by Binary TSP Matching", Ricoh Technical Report Nr. 11, Mai 1984, S. 4-12 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0527650A2 (de) * 1991-08-13 1993-02-17 Kabushiki Kaisha Toshiba Spracherkennungsgerät
EP0527650A3 (en) * 1991-08-13 1993-07-21 Kabushiki Kaisha Toshiba Speech recognition apparatus
US5457768A (en) * 1991-08-13 1995-10-10 Kabushiki Kaisha Toshiba Speech recognition apparatus using syntactic and semantic analysis
WO1997010583A1 (de) * 1995-09-11 1997-03-20 Daimler-Benz Aerospace Aktiengesellschaft Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
US6839670B1 (en) 1995-09-11 2005-01-04 Harman Becker Automotive Systems Gmbh Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process
DE19718007A1 (de) * 1997-04-29 1998-11-05 Deutsche Telekom Ag Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Also Published As

Publication number Publication date
DE4031638C2 (de) 1992-02-27
US5144672A (en) 1992-09-01

Similar Documents

Publication Publication Date Title
DE4031638C2 (de)
DE60018886T2 (de) Adaptive Wavelet-Extraktion für die Spracherkennung
DE3819178C2 (de)
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE2753277C2 (de) Verfahren und Einrichtung zur Spracherkennung
DE2953262C2 (de)
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE10030105A1 (de) Spracherkennungseinrichtung
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE2820645A1 (de) Vorrichtung und verfahren zur spracherkennung
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE102008017993A1 (de) Sprachsuchvorrichtung
DE2825082A1 (de) Verfahren zur spracherkennung
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE2659083A1 (de) Verfahren und vorrichtung zur sprechererkennung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
EP0285222A2 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE2720666A1 (de) Verfahren und anordnung zur geraeuschanalyse
DE69908518T2 (de) Verfahren und Vorrichtung zur Sprachsynthese

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee