DE4031638A1

DE4031638A1 - Spracherkennungseinrichtung

Info

Publication number: DE4031638A1
Application number: DE4031638A
Authority: DE
Inventors: Shoji Kuriki
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-10-05
Filing date: 1990-10-05
Publication date: 1991-04-18
Also published as: DE4031638C2; US5144672A

Description

Die Erfindung betrifft eine Spracherkennungseinrichtung nach dem Oberbegriff des Anspruchs 1 und betrifft insbesondere eine Spracherkennungseinrichtung mit einem binären Zeit-Spek trum-Muster. Darüber hinaus betrifft die Erfindung eine Spracherkennungseinrichtung mit einem sprecher-unabhängigen und einem sprecher-abhängigen Wörterbuch.

Üblicherweise werden ein sprecher-unabhängiges und sprecher- abhängiges Wörterbuch, die in einer Spracherkennungseinrich tung vorgesehen sind, wahlweise im Hinblick auf einen Spre cher verwendet, welcher die Spracherkennungseinrichtung be nutzt. In einer solchen Spracherkennungseinrichtung sind zwei Spracherkennungsteile für das sprecher-unabhängige bzw. für das sprecher-abhängige Wörterbuch vorgesehen, weil Referenzmuster, welche in dem sprecher-unabhängigen Wörterbuch registriert sind, durch ein Verfahren erzeugt werden, das sich von demje nigen unterscheidet, um Referenzmuster zu schaffen, welche in dem sprecher-abhängigen Wörterbuch registriert sind. Ein von einem Sprecher gesprochenes Wort wird getrennt durch die zwei Spracherkennungsteile erkannt, und die jeweiligen Erkennungs ergebnisse werden erhalten. Dann wird eines der beiden Erken nungsergebnisse basierend auf einer vorherbestimmten Vorschrift ausgewählt.

Herkömmliche Spracherkennungseinrichtungen, wie sie vorstehend beschrieben sind, benötigen jedoch zwei gesonderte Erkennungs teile, und es ist ein gewaltiger Rechenaufwand erforderlich, um die Erkennungsergebnisse einzustellen, welche mit Hilfe des sprecher-unabhängigen und des sprecher-abhängigen Wör terbuchs erhalten worden sind.

Gemäß der Erfindung soll daher eine Spracherkennungseinrich tung geschaffen werden, bei welcher die vorstehend angeführten Nachteile beseitigt sind, und welche einen einzigen Erken nungsteil hat, welcher ein Wort mit Hilfe eines sprecher-un abhängigen und eines sprecher-abhängigen Wörterbuchs erkennen kann. Gemäß der Erfindung ist dies bei einer Spracherkennungs einrichtung nach dem Oberbegriff des Anspruchs 1 durch die Merkmale in dessen kennzeichnenden Teil erreicht. Vorteilhaf te Weiterbildungen der Erfindung sind Gegenstand der Unteran sprüche.

Nachfolgend wird die Erfindung anhand von bevorzugten Ausfüh rungsformen unter Bezugnahme auf die anliegenden Zeichnungen im einzelnen erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm einer Spracherkennungseinrich tung gemäß einer bevorzugten Ausführungsform der Erfindung;

Fig. 2 ein Diagramm, in welchem ein Beispiel eines binären Zeit-Spektrum-Musters dargestellt ist;

Fig. 3A ein Diagramm, in welchem dargestellt ist, wie ein Referenzmuster erzeugt wird, welches in einem in Fig. 2 dargestellten sprecher-unabhängigen Wörter buch zu registrieren ist;

Fig. 3B ein Diagramm, in welchem dargestellt ist, wie ein Referenzmuster erzeugt wird, welches in einem in Fig. 2 dargestellten sprecher-abhängigen Wörter buch zu registrieren ist;

Fig. 4 ein Diagramm, in welchem dargestellt ist, wie Mu ster eines identischen von ein und demselben Spre cher ausgesprochenen Worts addiert werden;

Fig. 5 ein Blockdiagramm, in welchem die Strukturen und Betriebsarten einer Wörterbuchinformations-Spei chereinheit und der in Fig. 2 dargestellten Wich tungseinheit dargestellt sind;

Fig. 6 ein Blockdiagramm, in welchem verschiedene Struk turen und Betriebsarten der Wörterbuchinformations- Speichereinheit und der in Fig. 2 dargestellten Wichtungseinheit dargestellt sind;

Fig. 7 ein Blockdiagramm, in welchem verschiedene Struk turen und Betriebsarten der Wörterbuchinforma tions-Speichereinheit und der in Fig. 2 darge stellten Wichtungseinheit wiedergegeben sind, und

Fig. 8 ein Blockdiagramm, in welchem verschiedene Struk turen und Operationen der Wörterbuchinformations- Speichereinheit und der in Fig. 2 dargestellten Wichtungseinheit dargestellt sind.

In Fig. 1 ist eine Spracherkennungseinrichtung gemäß einer bevorzugten Ausführungsform der Erfindung dargestellt. Diese Spracherkennungseinrichtung weist eine Vorverarbeitungsein heit 1, eine Merkmal-Extrahiereinheit 2, einen Sprachab schnittsdetektor 3, einen Mustergenerator 4, ein sprecher-un abhängiges Wörterbuch 5, ein sprecher-abhängiges Wörterbuch 6, eine Wörterbuchinformations-Speichereinheit 7, eine Wich tungseinheit 8 und eine Erkennungseinheit 9 auf.

Eine von einem (nicht dargestellten) Mikrophon abgegebene Sprache wird der Vorverarbeitungseinheit 1 zugeführt, welche das Sprachsignal verstärkt und dessen hochfrequente Kompo nente hervorhebt. Ferner wird in der Vorverarbeitungseinheit 1 das Sprachsignal mit den hervorgehobenen hochfrequenten Komponenten zu einer AGC-Schaltung und einer Filterbank durch gelassen, welche durch eine Anzahl Bandpaß-Filter gebildet ist. Die vorstehend beschriebene Arbeitsweise der Vorverar beitungseinheit 1 ist üblich.

Ein auf diese Weise erhaltenes, vorverarbeitetes Sprachsignal wird an die Merkmalextrahiereinheit 2 und den Sprachabschnitts detektor 3 angelegt. Die Einheit 2 extrahiert Merkmale des vorverarbeiteten Sprachsignals von der Verarbeitungseinheit 1 in einem herkömmlichen Prozeß. Beispielsweise extrahiert die Merkmalsextrahiereinheit 2 Leistungsspektren oder LPC-Spek tren aus dem vorverarbeiteten Sprachsignal. Die Merkmale, wel che mittels der Einheit 2 extrahiert worden sind, werden an den Mustergenerator 4 abgegeben. Der Sprachabschnittdetektor 3 stellt einen Sprachabschnitt (ein Wort) in dem vorverarbei teten Sprachsignal durch Überwachen dessen Pegels fest. Ein Sprachabschnitt beginnt, wenn der Pegel des vorverarbeiteten Sprachsignals einen vorherbestimmten Schwellenwertpegel über schreitet, und dieser Sprachabschnitt endet, wenn dessen Pe gel gleich oder kleiner als der vorherbestimmte Schwellenwert ist. Die auf diese Weise erhaltenen Sprachabschnitte werden an den Mustergenerator 4 abgegeben. Der Mustergenerator 4 er zeugt ein binäres Zeit-Spektrum-Muster für jeden Sprachab schnitt auf herkömmliche Weise. (Siehe J. Fujimoto et al, "A SPOKEN WORD RECOGNITION METHOD BY BINARY TSP MATCHING", Ricoh Technical Report Nr. 11, Mai 1984, Stn. 4 bis 12).

In Fig. 2 ist ein Beispiel eines binären Zeit-Spektrum-Mu sters dargestellt, welches von dem Mustergenerator erzeugt und ausgegeben worden ist. Die horizontale Richtung in Fig. 2 gibt die Frequenzen des binären Zeit-Spektrum-Musters und die vertikale Richtung gibt den Zeitdurchgang an. Die Frequenz des binären Zeit-Spektrum-Musters nimmt in der Zeichnung nach rechts hin zu. Das binäre Zeit-Spektrum-Muster enthält eine Anzahl Rahmen, welche in vorherbestimmten Intervallen erhal ten worden sind. Beispielsweise ist der Anfangsrahmen des in Fig. 2 dargestellten, binären Zeit-Spektrum-Musters "001100100000000", wobei "0" oder "1" der Wert jedes Elements ist. In dem in Fig. 2 dargestellten Beispiel ist die Frequenz achse in 15 Frequenzbereiche unterteilt. Für jeden der Fre quenzbereiche wird festgelegt, ob die akustische Energie gleich oder größer als ein vorherbestimmter Schwellenwert ist oder nicht. Wenn die akustische Energie gleich oder größer als der vorherbestimmte Schwellenwert ist, wird für den ent sprechenden Frequenzbereich "1" vorgesehen. Wenn dagegen die akustische Energie kleiner als der vorherbestimmte Schwellen wert ist, wird für den entsprechenden Frequenzbereich "0" vorgesehen.

Das sprecher-unabhängige Wörterbuch 5 speichert Referenz- Zeit-Spektrum-Muster von Worten, welche in einer Weise erhal ten worden sind, welche später noch beschrieben wird. Das sprecher-abhängige Wörterbuch 6 speichert Referenz-Zeit- Spektrum-Muster von Worten, welche in einer Weise erhalten worden sind, die später noch beschrieben wird. Die Wörter buchinformations-Speichereinheit 7 erhält Wörterbuchinforma tion (was später noch beschrieben wird) von dem sprecher-un abhängigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6. Ferner schreibt die Speichereinheit 7 Referenzmuster, welche auf die in Fig. 3A und 3B dargestellten Weisen erzeugt wer den (was später noch beschrieben wird) in das sprecher-unab hängige und das sprecher-abhängige Wörterbuch 5 bzw. 6.

Die Wichtungseinheit 8 liest ein Referenz-Zeit-Spektrum-Mu ster aus dem sprecher-abhängigen Wörterbuch 6 aus und wichtet das ausgelesene Referenz-Zeit-Spektrum-Muster in einer Weise, welche später noch im einzelnen beschrieben wird. Ein gewich tetes Referenz-Zeit-Spektrum-Muster, das von der Wichtungsein heit 8 erzeugt und abgegeben worden ist, wird an die Erken nungseinheit 9 abgegeben, und ein Referenz-Zeit-Spektrum- Muster, das aus dem sprecher-unabhängigen Wörterbuch 5 aus gelesen worden ist, wird an die Erkennungseinheit 9 abgegeben. Die Referenzeinheit führt eine Multiplikation an Elementen (Spektralkomponenten) an entsprechenden Stellen des gewich teten Referenzmusters und des von dem Mustergenerator 4 abge gebenen, binären Zeit-Spektrum-Musters der eingegebenen Spra che durch und berechnet die Summe der Ergebnisse der Multi plikations-Operation. Die auf diese Weise erhaltene Summe zeigt einen Ähnlichkeitsgrad der eingegebenen Sprache mit dem in Betracht zu ziehenden Referenzmuster an. In ähnlicher Weise führt die Referenzeinheit 9 eine Multiplikation an Ele menten an entsprechenden Stellen des aus dem sprecher-unab hängigen Wörterbuch 5 ausgelesenen Referenzmusters und des von dem Mustergenerator 4 zugeführten Eingangsmusters durch und berechnet die Summe der Ergebnisse der Multiplikations- Operation. Auf die vorstehend beschriebene Weise werden eine Anzahl Wort-Kandidaten erhalten. Die Erkennungseinheit 9 gibt den Kandidaten mit dem höchsten Ähnlichkeitsgrad (dem höch sten Summenwert) als das Erkennungsergebnis ab. Es kann aber auch irgendein anderes bekanntes Erkennungsverfahren angewen det werden. Beispielsweise kann ein zusätzliches Element in der Erkennungsprozedur hinzuaddiert werden.

In Fig. 3A ist dargestellt, wie ein Referenz-Zeit-Spektrum-Mu ster erzeugt wird, welches in dem sprecher-unabhängigen Wör terbuch 5 zu registrieren ist. Verschiedene Sprecher A, B, C, D, E,..., O sprechen dasselbe Wort aus, und es werden binäre Zeit-Spektrum-Muster desselben Wortes, das von den Sprechern ausgesprochen worden ist, erzeugt und addiert, so daß ein einziges Referenz-Zeit-Spektrum-Muster des in Betracht zu zie henden Wortes erzeugt wird. Natürlich könnnen auch die Spre cher für jedes zu registrierende Wort wechseln.

In Fig. 3B ist dargestellt, wie ein Referenzmuster erzeugt wird, welches in das sprecher-abhängige Wörterbuch 6 zu re gistrieren ist. Ein Sprecher A spricht dasselbe Wort dreimal aus, und die jeweiligen binären Zeit-Spektrum-Muster werden erzeugt und addiert, so daß ein einziges Referenz-Zeit-Spek trum-Muster bezüglich des Sprechers A erzeugt wird.

In der Darstellung der Fig. 4 spricht ein Sprecher A ein Wort dreimal aus, und die jeweiligen binären Zeit-Spektrum-Muster INP1, INP2 und INP3 werden erzeugt, und anschließend addiert; auf diese Weise wird ein Referenzmuster erzeugt. Das Muster INP1 hat die größte Wortlänge auf der Zeitbasis. Folglich wer den zwei Zeilen (Rahmen) zu dem Muster INP2 addiert, und eine Zeile wird zu dem Muster INP3 addiert. Beispielsweise werden die zwei Zeilen, welche zu dem Muster INP2 zu addieren sind, jeweils aus dem letzten Rahmen (der letzten Zeile) gebildet.

In Fig. 5 sind die Strukturen und Betriebsarten der Wörter buchinformations-Speichereinheit 7 und der Wichtungseinheit 8 dargestellt. Die Speichereinheit 7 speichert Wörterbuchinfor mation an den Referenzmuster, welche in dem sprecher-unabhän gigen und dem sprecher-abhängigen Wörterbuch 5 bzw. 6 regi striert sind. Die in Fig. 5 verwendete Wörterbuchinformation setzt sich aus dem Maximalwert der Elemente der in dem spre cher-unabhängigen Wörterbuch 5 registrierten Referenz-Zeit- Spektrum-Muster und aus dem Maximalwert der Elemente der in dem sprecher-abhängigen Wörterbuch 6 registrierten Referenz muster zusammen. Im Falle der Fig. 5 ist der Maximalwert der Elemente, die zu dem sprecher-unabhängigen Wörterbuch 5 Be zug haben, gleich 13, und der Maximalwert der Elemente, wel che zu dem sprecher-abhängigen Wörterbuch 6 Bezug haben, ist gleich 3.

Die in Fig. 5 dargestellte Wichtungseinheit 8 setzt sich aus einer Teilungseinheit 10, eine Ganzzahleinheit 11 und eine Multipliziereinheit 13 zusammen. Die Teilungseinheit 11 teilt den Maximalwert, der zu dem sprecher-unabhängigen Wörterbuch 5 in Beziehung steht, durch den Maximalwert, welcher zu dem sprecher-abhängigen Wörterbuch 6 in Beziehung steht. In dem in Fig. 5 dargestellten Fall teilt die Einheit 10 13 durch 3, und gibt 4,333... ab. Die Ganzzahleinheit 11 extrahiert einen ganzzahligen Teil aus dem geteilten Ergebnis. In dem in Fig. 5 dargestellten Fall gibt die Ganzzahleinheit 11 4 ab. Die von der Einheit 11 abgegebene ganze Zahl ist ein Wichtungsfaktor. Die Multipliziereinheit 13 multipliziert das aus dem sprecher abhängigen Wörterbuch 6 ausgelesene Referenzmuster, insbeson dere jedes darin enthaltene Element mit dem Wichtungsfaktor. In dem in Fig. 5 dargestellten Fall wird ein aus dem sprecher abhängigen Wörterbuch 6 ausgelesenes Referenzmuster infolge der Multiplikation mit dem Wichtungsfaktor vervierfacht. Dann wird das vervierfachte Referenzmuster an die Erkennungsein heit 9 abgegeben.

Die Wörterbuchinformation kann auch unter der Steuerung der Wörterbuchinformations-Speichereinheit 7 durch Suchen des sprecher-unabhängigen Wörterbuchs 5 und des sprecher-abhängi gen Wörterbuchs 6 geschrieben werden. Andererseits kann auch die Wörterbuchinformation geschrieben werden, wenn Bezugsmu ster in den Wörterbüchern 5 und 6 registriert werden.

Es ist zu beachten, daß die in Fig. 3B dargestellte Prozedur zum Erzeugen der Referenzmuster, welche in dem sprecher-ab hängigen Wörterbuch 6 zu registrieren sind, sich von der in Fig. 3A dargestellten Prozedur zum Erzeugen der Bezugsmuster unterscheidet, welche in dem sprecher-unabhängigen Wörter buch 5 zu registrieren sind. Folglich ist es nicht möglich, die erhaltenen Erkennungsergebnisse zu handhaben, indem ein fach die Referenzmuster verwendet werden, welche durch die verschiedenen Prozeduren in der einzigen Erkennungseinheit 9 erhalten worden sind. Das heißt, Unterschiede der Referenz muster, welche durch die verschiedenen Prozeduren erhalten worden sind, müssen ausgeglichen werden, um dadurch diese Re ferenzmuster unter einer ausgeglichenen Voraussetzung zu handhaben. Dies ist durch die Wichtungseinheit 8 mit der vor erwähnten Struktur und Arbeitsweise erreicht.

In Fig. 6 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuch-Informations-Speichereinheit 7 und der Wichtungs einheit 8 dargestellt. Die Wörterbuchinformation, welche die selbe wie in Fig. 5 ist, ist in der Konfiguration der Fig. 6 verwendet. Die Wichtungseinheit 8 hat einen Tabellenspeicher 12, welcher Wichtungsfaktoren speichert, die durch den maxi malen Wert, welcher Bezug zu dem speicher-unabhängigen Wör terbuch 5 hat, und durch den Maximalwert festgelegt sind, wel cher Bezug zu dem specher-abhängigen Wörterbuch 6 hat.

In Fig. 7 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuchinformations-Speichereinheit 7 und der Wichtungsein heit 8 dargestellt. Die in Fig. 7 verwendete Wörterbuchinfor mation setzt sich aus der Anzahl Muster desselben Wortes, welche addiert werden, wenn ein Referenzmuster dieses in dem sprecher-unabhängigen Wörterbuch 5 zu registrierenden Worts erzeugt wird, und aus der Anzahl Muster desselben Wortes zu sammen, welche addiert werden, wenn ein Referenzmuster des in dem sprecher-abhängigen Wörterbuchs 6 zu registrierenden Wor tes erzeugt wird. Im in Fig. 7 dargestellten Fall werden Mu ster von 15 verschiedenen Sprechern verwendet, um das entsprechende Referenzmuster zu erzeugen, das in dem sprecher unabhängigen Wörterbuch 5 zu registrieren ist, und 3 Muster desselben Sprechers werden verwendet, um das entsprechende Referenzmuster zu erzeugen, das in dem sprecher-abhängigen Wörterbuch 6 zu registrieren ist. Die Wichtungseinheit 6 ist aus der Teilungseinheit 10 und der Ganzzahleinheit 11 in der selben Weise wie die in Fig. 5 dargestellte Konfiguration zu sammengesetzt. Die Teilungseinheit 10 teilt die Zahl, welche sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, durch die Zahl, welche sich auf das sprecher-abhängige Wörterbuch 6 bezieht. In dem in Fig. 7 dargestellten Fall teilt die Tei lungseinheit 15 durch 3, und gibt das Teilungsergebnis (wel ches in diesem Fall gleich 5 ist) ab. Die Ganzzahleinheit 11 extrahiert den ganzzahligen Teil aus dem Teilungsergebnis. Der extrahierte ganzzahlige Teil ist der Wichtungsfaktor.

In dem in Fig. 7 dargestellten Fall ist der Wichtungsfaktor gleich 5.

In Fig. 8 sind verschiedene Strukturen und Arbeitsweisen der Wörterbuchinformation-Speichereinheit 7 und der Wichtungsein heit 8 dargestellt. Die in Fig. 8 dargestellte Struktur wird durch Kombinieren der in Fig. 6 und 7 dargestellten Konfigura tion erhalten. Das heißt, die Wörterbuchinformation setzt sich aus der Anzahl Muster desselben Wortes, welche addiert werden, wenn ein Referenzmuster des in Betracht zu ziehenden Wortes, das in dem sprecher-unabhängigen Wörterbuch 5 zu re gistrieren ist, erzeugt wird, und aus der Anzahl Muster des selben Wortes, welche addiert werden, wenn ein Referenzmu ster des in Betracht zu ziehenden Wortes erzeugt wird, das in dem sprecher-abhängigen Wörterbuch 6 zu registrieren ist. Die Wichtungseinheit 8 hat eine Speichertabelle 12, welche Wichtungsfaktoren speichert, welche durch die Zahl, welche sich auf das sprecher-unabhängige Wörterbuch 5 bezieht, und durch die Zahl festgelegt sind, die sich auf das sprecher-ab hängige Wörterbuch 6 bezieht.

In den vorstehend beschriebenen Ausführungsformen der Erfin dung ist ein Wichtungsfaktor für ein Wörterbuch vorgesehen. Es können jedoch auch Wichtungsfaktoren für die jeweiligen Referenzmuster geschaffen werden.

Claims

1. Spracherkennungseinrichtung, mit
einer Eingabeeinrichtung (1, 2, 3) zum Aufnehmen eines einge gebenen Sprachsignals und zum Extrahieren von Merkmalen aus der eingegebenen Sprache;
einer Mustererzeugungseinrichtung (4), welche mit der Eingabe einrichtung verbunden ist, um ein Sprachmuster der eingegebe nen Sprache aus den durch die Eingabeeinrichtung extrahierten Merkmalen zu erzeugen, wobei das Sprachmuster ein Zeit-Spek trum-Muster hat, das in vorherbestimmten Intervallen erhal tene Frequenzelemente zeigt;
einem sprecher-unabhängigen Wörterbuch (5) zum Speichern einer ersten Gruppe von Referenzmustern, die jeweils durch Addieren einer Anzahl Zeit-Spektrum-Muster eines von verschie denen Sprechern ausgesprochenen, identischen Wortes erhalten worden sind, und
einem sprecher-abhängigen Wörterbuch (6) zum Speichern einer zweiten Gruppe von Referenzmustern, die jeweils durch Addie ren von Zeit-Spektrum-Mustern eines von ein- und demselben Sprecher ausgesprochenen, identischen Worts erhalten worden sind, gekennzeichnet durch
eine Wörterbuchinformations-Speichereinrichtung (7), welche mit dem sprecher-unabhängigen und dem sprecher-abhängigen Wörterbuch (5 bzw. 6) verbunden ist, um Wörterbuchinforma tion über die erste und über die zweite Gruppe von Referenz mustern zu speichern;
eine Wichtungseinrichtung (8), welche mit dem sprecher-abhän gigen Wörterbuch (6) und der Wörterbuch-Information-Speicher- Einrichtung (7) verbunden ist, um einen Wichtungsfaktor aus der Wörterbuchinformation zu berechnen und um die zweite Gruppe von Referenzmustern in dem sprecher-abhängigen Wörter buch mit Hilfe des Wichtungsfaktors zu wichten, um dadurch gewichtete Referenzmuster abzugeben, und
eine Erkennungseinrichtung (9), welche mit der Mustererzeu gungseinrichtung (4) dem sprecher-unabhängigen Wörterbuch (5) und der Wichtungseinrichtung (8) verbunden ist, um das Sprachmuster des eingegebenen Sprachsignals, das mittels der Mustererzeugungseinrichtung (4) erzeugt worden ist, mit Hilfe der ersten Gruppe Referenzmuster in dem sprecher-unabhängigen Wörterbuch (5) und dem gewichteten, von der Wichtungseinrich tung (8) zugeführten Referenzmuster zu erkennen, so daß die erste Gruppe von Referenzmustern und die gewichteten Referenz muster gleich behandelt werden.

2. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wörterbuchinformation aufweist:
einen ersten Maximalwert der Frequenzelemente in der ersten Gruppe von Referenzmustern, die im sprecher-unabhängigen Wörterbuch (5) registriert sind, und
einen zweiten Maximalwert der Frequenzelemente in der zweiten Gruppe von Referenzmustern, welche in dem sprecher-abhängi gen Wörterbuch (6) registriert sind.

3. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
eine Teilungseinrichtung (10), um den ersten Maximalwert durch den zweiten Maximalwert zu teilen und ein geteiltes Ergebnis zu geben;
eine Ganzzahl-Extrahiereinrichtung (11), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem geteilten Ergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher abhängigen Wörterbuch (6) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppen Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (6) ge speichert sind, mit der ganzen Zahl zu multiplizieren, und
ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.

4. Spracherkennungseinrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
einen Tabellenspeicher (12) zum Speichern vorherbestimmter Wichtungsfaktoren, welche durch mögliche erste Maximalwerte der Frequenzelemente der ersten Gruppe von Referenzmustern und durch mögliche zweite Maximalwerte der Frequenzelemente der zweiten Gruppe von Referenzmustern festgelegt worden sind, und um einen der vorherbestimmten Wichtungsfaktoren abzuge ben, welche durch eine der möglichen ersten Maximalwerte, welche dem ersten Maximalwert entsprechen, und durch einen der möglichen zweiten Maximalwerte, welche dem zweiten Maximal wert entsprechen, festgelegt sind, wobei der eine der vorher bestimmten Wichtungsfaktoren dem Wichtungsfaktor entspricht, und
eine Multipliziereinrichtung (13), welche mit dem spre cher-abhängigen Wörterbuch (6) und dem Tabellenspeicher (12) verbunden ist, um eine der zweiten Gruppen von Referenzmu stern, welche in dem sprecher-abhängigen Wörterbuch (6) re gistriert sind, mit dem Wichtungsfaktor zu multiplizieren und um ein multipliziertes Ergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.

5. Spracherkennungseinrichtung nach Anspruch 1, dadurch ge kennzeichnet, daß die Wörterbuchinformation eine erste Anzahl, welche der Zahl Muster des identischen Worts entspricht, das zum Erzeugen einer der ersten Gruppen von Re ferenzmustern verwendet ist, und eine zweite Zahl aufweist, welche der Anzahl Muster des identischen Wortes entspricht, welche zum Erzeugen einer der zweiten Referenzmuster-Gruppe entspricht.

6. Spracherkennungseinrichtung nach Anspruch 5, dadurch ge kennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
eine Teilungseinrichtung (11), um die erste Zahl durch die zweite Zahl zu teilen, und um ein Teilungsergebnis abzuge ben;
eine Ganzzahl-Extrahiereinrichtung (12), welche mit der Tei lungseinrichtung (10) verbunden ist, um eine ganze Zahl aus dem Teilungsergebnis zu extrahieren, und
eine Multipliziereinrichtung (13), welche mit dem sprecher abhängigen Wörterbuch (5) und der Ganzzahl-Extrahiereinrich tung (11) verbunden ist, um eine der zweiten Gruppe Referenz muster, welche in dem sprecher-abhängigen Wörterbuch (5) registriert sind, mit der ganzen Zahl zu multiplizieren, und um ein Multiplizierergebnis abzugeben, welches dem einen der gewichteten Referenzmuster entspricht.

7. Spracherkennungseinrichtung nach Anspruch 5, dadurch gekennzeichnet, daß die Wichtungseinrichtung (8) aufweist:
einen Tabellenspeicher (12), um vorherbestimmte Wichtungs faktoren zu speichern, welche durch mögliche, erste maximale Werte der Frequenzelemente der ersten Gruppe von Referenz mustern und durch mögliche zweite Maximalwerte der Frequenz elemente der zweiten Gruppe von Referenzmustern festgelegt sind, und um einen der vorherbestimmten Wichtungsfaktoren abzugeben, welcher durch eine der möglichen ersten Maximal werte, welche dem ersten Maximalwert entsprechen, und durch einen der möglichen zweiten Maximalwerte festgelegt sind, welche dem zweiten Maximalwert entsprechen, wobei der eine der vorherbestimmten Wichtungsfaktoren dem Wichtungsfaktor entspricht, und
eine Multipliziereinrichtung (13), welche mit dem sprecher abhängigen Wörterbuch (5) und dem Tabellenspeicher (12) ver bunden ist, um eine der zweiten Gruppe von Referenzmustern, die in dem sprecher-abhängigen Wörterbuch (6) registriert sind, mit dem Wichtungsfaktor zu multiplizieren, und um ein Multiplikationsergebnis abzugeben, welches einem der gewich teten Referenzmuster entspricht.

8. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wörterbuchinformations- Speichereinrichtung (7) die Wörterbuchinformation zur selben Zeit speichert, zu welcher die ersten und zweiten Gruppen Referenzmuster in den sprecher-unabhängigen bzw. sprecher- abhängigen Wörterbüchern (5, 6) gespeichert werden.