DE10134908B4

DE10134908B4 - Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden

Info

Publication number: DE10134908B4
Application number: DE10134908A
Authority: DE
Inventors: Norihide Kitaoka; Hiroshi Ohno
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2000-07-21
Filing date: 2001-07-18
Publication date: 2013-05-08
Anticipated expiration: 2021-07-19
Also published as: US6937982B2; JP2002041085A; JP3567864B2; US20020010579A1; DE10134908A1

Abstract

Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen...

Description

Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Verfahren zur Erkennung eines Sprachsignals.
Eine herkömmliche Spracherkennungsvorrichtung und -verfahren, welches als Schnittstelle zwischen Mensch und Maschine verwendet wird, analysiert ein über ein Mikrofon empfangenes Sprachsignal und extrahiert charakteristische Parameter aus dem Sprachsignal. Die charakteristischen Parameter werden mit Bezugsmustern bzw. -strukturen in einem Wörterverzeichnis, das in einem Wörterbuchabschnitt der Vorrichtung gespeichert ist, verglichen, und eins oder mehrere Wörter, welche den Bezugsmustern entsprechen, die hohe Ähnlichkeiten mit den extrahierten charakteristischen Parametern aufweisen, werden ausgewählt und ausgegeben. Die Vorrichtung wählt im allgemeinen wenigstens ein Wort sogar dann aus und gibt es aus, wenn kein Bezugsmuster in dem Wörterverzeichnis eine hohe Ähnlichkeit mit den charakteristischen Parametern besitzt. In diesem Fall wird das Sprachsignal oft falsch erkannt. Des weiteren wird das Sprachsignal oft infolge eines Hintergrundrauschens falsch erkannt. Wenn das Ergebnis der Fehlerkennung zur Steuerung eines externen Geräts verwendet wird, kann der Betrieb des externen Geräts ungünstig und ernsthaft beeinflusst werden.
Beispielsweise wird die Spracherkennungsvorrichtung für ein Fahrzeugnavigationssystem verwendet, welches eine Sprachsteuerungsfunktion zum Empfangen von Sprache als Eingangssteuerungssignal und zum Ausgeben von Sprache als Frage an einen Benutzer oder als Antwort auf die Anfrage eines Benutzers besitzt. Wenn der Benutzer ”shukushou” sagt, was ”reduzieren” bedeutet, so dass die Karte reduziert wird, kann dies als ”jitaku” falsch verstanden werden, was das Haus des Benutzers bedeutet. In diesem Fall legt die Vorrichtung die Route zu dem Ziel ab und sucht erneut eine Route zu dem Haus des Benutzers, wenn die Vorrichtung derart gestaltet ist, dass sie ein Befehl sofort im Ansprechen auf das eingegebene Sprachsignal ausführt. Auf diese Weise wird die Route zu dem Ziel entgegen dem Willen des Benutzers abgelegt.
Wenn das Gerät derart gestaltet ist, dass der Wille des Benutzers bestätigt wird, wird beispielsweise gefragt: ”Ihr Haus wird als Ziel festgelegt. Ok?”. Wenn der Benutzer ”iee” sagt, was ”NEIN” als Antwort auf die Frage bedeutet, geht die Vorrichtung in einen Wartezustand über, ohne das eine Route zu dem Haus des Benutzers gesucht wird. Jedoch kann die Vorrichtung die Antwort eines Benutzers als ”hai” falsch erkennen, was ”JA” bedeutet, wenn der Benutzer ”shukushou” wiederum als Antwort auf die Frage durch einen Fehler sagt. In diesem Fall wird die Route zu dem Ziel ebenfalls abgelegt.
Auf diese Weise kann das externe Gerät gegen den Willen des Benutzers arbeiten, wenn das Sprachsignal von dem Benutzer als bestimmtes Wort wie ”hai”, das in dem Wörterverzeichnis enthalten ist, falsch erkannt wird. Daher wird es bevorzugt, dass die Spracherkennungsvorrichtung eine Technik verwendet, die verhindert, dass das externe Gerät einen fehlerhaften Betrieb, der nicht leicht rückgängig (undone) gemacht werden kann, gegen den Willen des Benutzers im Ansprechen auf das Ergebnis der Fehlerkennung durchführt.
Die EP 0651372 A2 offenbart eine Spracherkennungsvorrichtung mit einer akustischen Analyseeinrichtung, welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung, welche charakteristische Parameter aus dem Sprachsignal aufgrund des Ergebnisses der von der akustischen Analyseeinrichtung durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung, welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist; wobei das Wörterverzeichnis im Voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält; die Musteranpassungseinrichtung als Ergebnis der Erkennung im Falle eines hohen Zuverlässigkeitsgrads wenigstens ein Wort ohne Verifikation durch den Benutzer oder im Falle eines niedrigen Zuverlässigkeitsgrads wenigstens ein Wort unter Verifikation durch den Benutzer ausgibt; und wobei die Musteranpassungseinrichtung mit einem externen Gerät verbunden ist und das externe Gerät das Ergebnis der Erkennung von der Musteranpassungseinrichtung empfängt und zum Steuern des Betriebs des externen Geräts verwendet.
Die EP 0840286 A2 betrifft eine Spracherkennungsvorrichtung, welche im Bereich der Wortverarbeitung unter der Voraussetzung angewandt wird, dass im Betrieb keine nachteiligen Auswirkungen nach außen auftreten können (gegenüber einem Fahrzeugsystem, bei welchem im Betrieb nach außen hin hohe Auswirkungen auftreten können). Nach der Worterkennung wird dem Benutzer des Systems eine Reihe von möglichen Ersatzwörtern für die Wörter angeboten, welche falsch erkannt worden sind, und es wird dem Benutzer die Möglichkeit geboten, die falsch erkannten Wörter zu korrigieren.
Aus der JP 2000-069348 AA ist es bekannt, ein Muster eines Stimmeingabenbefehls für eine Videaaufzeichnungsvorrichtung mit anderen Mustern zu vergleichen. Es wird dabei eine Übereinstimmungsrate auf der Grundlage des Spracheingabemusters und von registrierten Mustern verschiedener Steuerbefehle berechnet. Für das Starten und Beenden der Aufzeichnung wird ein höherer Schwellenwert für die Übereinstimmungsrate festgelegt.
Mit der JP 09-244691 AA ist es bekannt, eine Vokalisierung oder Äußerung selbst im Falle einer Mehrdeutigkeit nicht zurückzuweisen, wobei eine entsprechend gespeicherte Zeichenfolge mit einer erzeugten Zeichenfolge und einer erzeugten zurückgewiesenen Zeichenfolge verglichen wird.
Aus der US 5305244 A ist ein System mit geringen externen Auswirkungen für eine Berührungslose Wiedergewinnung von elektronisch gespeicherten Informationen bekannt. Erfasste Äußerungen werden mit einem Wörterverzeichnis verglichen, und im Falle eines niedrigen Zuverlässigkeitsgrads befragt das System den Benutzer, ob die Worteingabe richtig ist.
Aus der nachveröffentlichten DE 19939705 A1 ist eine weitere Vorrichtung zur Spracherkennung bekannt, welche einen Merkmalsspeicher und einen Abstandsklassifikator aufweist.
Die DE 19646634 A1 offenbart schließlich noch eine Spracherkennungsvorrichtung, welche ein verfahren zum Umgang mit sicherheitskritischen Sprachbefehlen beschreibt.
Aufgabe der vorliegenden Erfindung ist es, eine aus der EP 0651372 A2 bekannte Spracherkennungsvorrichtung derart weiterzuentwickeln, dass bestimmte Wörter insbesondere dann nicht falsch verstanden werden, wenn der bestimmungsgemäße Betrieb der Spracherkennungsvorrichtung gefährdet ist. Des Weiteren ist es Aufgabe der vorliegenden Erfindung, ein entsprechendes Verfahren zur Erkennung eines Sprachsignals zu schaffen.
Die Lösung der Aufgabe erfolgt durch die Merkmale der Ansprüche 1, 2, 6, 12 und 14. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
Demgemäß wird eine Spracherkennungsvorrichtung bereitgestellt, bei welcher als Ergebnis der Erkennung im Falle eines niedrigen Zuverlässigkeitsgrads wenigstens ein Wort außer einem bestimmten Wort ausgegeben wird, wobei das bestimmte Wort ein Wort ist, welches eine Möglichkeit des ungünstigen Beeinflussens des Betriebs eines externen Geräts oder des Veranlassens eines Herabsetzens einer Funktion des externen Geräts besitzt. Entsprechend einer Alternative ist das bestimmte Wort ein Wort, welches eine Möglichkeit besitzt, das externe Gerät zur Durchführung des Betriebs gegen den Willen des Sprechers zu veranlassen. Entsprechend einer weiteren alternativen Lösung werden Klanggruppen analysiert, deren Bezugsmuster Klänge enthalten, die ähnlich denjenigen des bestimmten Worts sind, sich jedoch davon unterscheiden. Auch hier wird wenigstens ein Wort außer dem bestimmten Wort ausgegeben. Entsprechend einer weiteren alternativen Lösung wird eine Spracherkennungsvorrichtung bereitgestellt, bei welcher eine Anfrage an den Sprecher zur Bestätigung ausgegeben wird, ob es der Sprecher gestattet, dass das externe Gerät einen Betrieb durchführt, wobei als Ergebnis der Erkennung der Antwort auf die Anfrage entweder ein bejahendes Wort oder ein verneinendes Wort ausgegeben wird. Schließlich wird noch ein entsprechendes Verfahren bereitgestellt, bei welchem ebenfalls Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgegeben wird.
In einer Spracherkennungsvorrichtung führt ein Musteranpassungsabschnitt eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern eines Sprachsignals durch. Das Wörterverzeichnis ist im voraus gespeichert und enthält die Bezugsmuster entsprechend den Wörtern, welche identifiziert werden sollen. Des weiteren wird ein bestimmtes Wort im Ansprechen darauf, welches externe Gerät einen Betrieb durchführt, der nicht leicht rückgängig gemacht werden kann, aus dem Wörterverzeichnis ausgewählt, und es wird im voraus die ähnliche Klanggruppe des bestimmten Worts gespeichert. Die ähnliche Klanggruppe enthält die Bezugsmuster von entsprechenden Klängen, welche ähnlich, jedoch unterschiedlich zu dem Klang eines bestimmten Wortes sind. Der Musteranpassungsabschnitt wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsstrukturen aus, welche hohe Ähnlichkeiten mit den charakteristischen Parametern als Ergebnis der Musteranpassung besitzen. Wenn die Kandidatenwörter das bestimmte Wort enthalten, wird das Sprachsignal unter Verwendung der ähnlichen Klanggruppe erkannt. Das heißt, der Musteranpassungsabschnitt führt eine Musteranpassung zwischen jedem der Bezugsmuster in einer ähnlichen Klanggruppe und den charakteristischen Parametern des Sprachsignals durch. Als Ergebnis der Erkennung gibt der Musteranpassungsabschnitt ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster entsprechend den Klängen ähnlich demjenigen des bestimmten Worts eines hohe Ähnlichkeit mit dem Sprachsignal besitzt.
Vorzugsweise werden ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts in einem Computersystem und Daten einschließlich der Bezugsmuster entsprechend den Wörtern und den Tönen als Aufzeichnungsmedium bereitgestellt, welches das Programm und die Daten speichert.
Die Erfindung ergibt sich zusammen mit weiteren Merkmalen und Vorteilen aus der folgenden Beschreibung, den beigefügten Ansprüchen und den begleitenden Figuren, wobei:
1 ein Blockdiagramm einer Fahrzeugnavigationsausrüstung zeigt, welche mit einer Spracherkennungsvorrichtung einer ersten Ausführungsform der vorliegenden Erfindung verbunden ist;
2 ein Blockdiagramm der Spracherkennungsvorrichtung der ersten Ausführungsform der vorliegenden Erfindung zeigt;
3A und 3B schematische Ansichten zeigen, welche Merkmalsabstände bzw. -räume (feature spaces) von eingegebenen Sprachsignalen darstellen, die von der Spracherkennungsvorrichtung der ersten Ausführungsform bzw. einer herkömmlichen Spracherkennungsvorrichtung erkannt worden sind;
4 eine Tabelle zeigt, welche das Experimentierergebnis zum Verifizieren der Wirkungen der Spracherkennungsvorrichtung der ersten Ausführungsform darstellt; und
5 ein Blockdiagramm einer Spracherkennungsvorrichtung einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
Die vorliegende Erfindung wird unter Bezugnahme von Ausführungsformen und Modifizierungen beschrieben.
Erste Ausführungsform
Entsprechend 1 ist eine Fahrzeugnavigationsausrüstung mit einer Spracherkennungsvorrichtung 18 verbunden, welche als Schnittstelle zwischen Mensch und Maschine für die Fahrzeugnavigationsausrüstung 1 verwendet wird. Die Fahrzeugnavigationsausrüstung 1 enthält eine Positionserfassungseinheit 2, eine Kartendateneingabeeinheit 3, Steuerungsschalter 4, eine Steuerungsschaltung 5, einen externen Speicher 6, eine Anzeigeeinheit 7, einen Fernsteuerungssignalsensor 8, einen Digitalsteuerungsabschnitt 9, einen Sprachsyntheseabschnitt 10 und einen Lautsprecher 11. Die Steuerungsschaltung 5 enthält im wesentlichen einen Mikrocomputer und ist an die Positionserfassungseinheit 2, die Kartendateneingabeeinheit 3 und die Steuerungsschalter 4 angeschlossen. Der externe Speicher 6, die Anzeigeeinheit 7, der Fernsteuerungssignalsensor 8 und der Digitalsteuerungsabschnitt 9 sind an die Steuerungsschaltung 5 angeschlossen.
Die Positionserfassungseinheit 2 enthält einen Erdmagnetsensor 12, einen Gyrosensor 13, einen Geschwindigkeitssensor 14 und einen GPS-Empfänger 15. Der GPS-Empfänger 15 erfasst die Position des Fahrzeugs auf der Grundlage der von den GPS-Sateliten empfangenen Funkwelle. Jeder der Sensoren 12–15 ist an einer geeigneten Position innerhalb des Fahrzeugs angeordnet. Die Steuerungsschaltung 5 empfängt Signale von den Sensoren 12–15 und interpoliert sie, da jeder der Sensoren 12–15 einen Fehler eines unterschiedlichen Typs besitzt. Die Steuerschaltung 5 erfasst die augenblickliche Position, die Bewegungsrichtung, die Geschwindigkeit, die zurückgelegte Strecke des Fahrzeugs genau auf der Grundlage der empfangenen Signale.
Die Kartendateneingabeeinheit 3 ist mit einer Ansteuerungseinheit zum Wiedererlangen von Daten aus einem Speichermedium gebildet, welches verschiedene Daten wie Straßenkartendaten, Kartenanpassungsdaten zur Korrektur der erfassten augenblicklichen Position speichert. Ein Massenspeichermedium wie ein CD-ROM, DVD-ROM kann als das Speichermedium verwendet werden. Die Straßenkartendaten enthalten die Formen, Breiten, Namen von Straßen und verschiedene Gebäude oder Einrichtungen auf den Straßen und ihre Telefonnummern. Des weiteren enthalten sie die Namen und geographischen Merkmale von Plätzen und Daten, welche zur Anzeige der Straßenkarte auf der Anzeigeeinheit 7 verwendet werden.
Die Steuerungsschalter 4 enthalten mechanische Schalter, welche von einem Benutzer (Fahrer) zur Eingabe verschiedener Befehle verwendet werden. Der Benutzer kann das Ziel skizzieren oder die auf der Anzeigeeinheit 7 angezeigte Straßenkarte wählen unter Verwendung der Steuerungsschalter 4. Die Steuerungsschalter 4 können Berührungsschalter auf dem Schirm der Anzeigeeinheit 7 enthalten. Des weiteren ist ein Fernsteuerungsendgerät (Fernkontroller) 16 vorgesehen, welches dieselbe Funktion wie die Steuerungsschalter 4 besitzt. Ein Steuerungssignal von dem Fernkontroller 16 wird von dem Fernsteuerungssignalsensor 8 erfasst.
Auf dem Schirm der Anzeigeeinheit 7 wird die Straßenkarte mit verschiedenen Skalen angezeigt. Des weiteren sind Zeiger, welche die augenblickliche Position oder die Bewegungsrichtung des Fahrzeugs anzeigen, der angezeigten Straßenkarte überlagert. Eine empfohlene Route zu dem Ziel kann ebenfalls der angezeigten Straßenkarte überlagert sein. Des weiteren werden ebenfalls eine Form, um den Benutzer zur Eingabe des Ziels und dergleichen zu veranlassen, oder verschiedene Mitteilungen oder Informationen ebenfalls auf dem Schirm angezeigt.
Die Straßenkarte wird von der Kartendateneingabeeinheit 3 abgerufen bzw. wiedererlangt. Die Steuerungsschaltung 5 weist die Anzeigeeinheit 7 zur Anzeige der abgerufenen Straßenkarte auf dem Schirm und des weiteren zur Überlagerung der Zeiger an, welche die augenblickliche Position und die Bewegungsrichtung des Fahrzeugs auf der Grundlage des Ausgangs von der Positionserfassungseinheit 2 anzeigen. Zur Anzeige der augenblicklichen Position des Fahrzeugs genau auf der Straßenkarte führt die Steuerungsschaltung 5 eine Kartenanpassung durch. Des weiteren weist die Steuerungsschaltung 5 die Anzeigeeinheit 7 an die auf dem Schirm angezeigte Karte (den Massstab davon) zu ändern.
Die Steuerungsschaltung 5 führt eine automatische Routensuche und Routenführung durch. Bei der automatischen Routensuche berechnet die Steuerungsschaltung 5 automatisch eine empfohlene Route von der augenblicklichen Position des Fahrzeugs zu einem von dem Benutzer eingegebenen Ziel. Bei der Routenführung weist die Steuerungsschaltung 5 die Anzeigeeinheit 7 an die empfohlene Route auf dem Schirm wie oben beschrieben anzuzeigen. Des weiteren kann die Steuerungsschaltung 5 den Sprachsyntheseabschnitt 10 anweisen eine Audioführung wie ”an der Kreuzung 200 Meter voraus nach links abbiegen” über den Dialogsteuerungsabschnitt 9 während der Routenführung zu erzeugen. Die erzeugte Audioführung wird über den Lautsprecher 11 ausgegeben.
Die Spracherkennungsvorrichtung 18 ist an den Dialogsteuerungsabschnitt 9 derart angeschlossen, dass die Sicherheit des Benutzers und die Benutzerfreundlichkeit der Fahrzeugnavigationsausrüstung 1 verbessert sind. Der Benutzer (Fahrer) kann einen Befehl (Zielsuchbefehl, Umleitungsbefehl oder Kartenskalenänderungsbefehl) oder das Ziel (Haus des Benutzers oder registrierter Punkt) durch seine Stimme eingeben, während die Augen auf die voraus befindliche Straße gerichtet sind. Die Spracherkennungsvorrichtung 18 empfängt ein Sprachsignal, welches einen Befehl oder das Ziel darstellt, von dem Benutzer über ein Mikrofon 17 und erkennt es. Das Ergebnis der Erkennung wird dem Dialogsteuerungsabschnitt 9 bereitgestellt. Das Mikrofon 17 ist an einer geeigneten Position innerhalb des Fahrzeugs plaziert, so dass es die Stimme des Benutzers gut empfängt. Beispielsweise ist das Mikrofon 17 an der oberen Oberfläche der Lenksäulenabdeckung oder der Sonnenblende über dem Sitz des Fahrers befestigt.
Entsprechend 2 enthält die Spracherkennungsvorrichtung 18 einen akustischen Anaylseabschnitt 19, einen Merkmalsextraktionsabschnitt (feature extraction section) 20 und einen Musteranpassungsabschnitt 21.
Der akustische Analyseabschnitt 19 empfängt das analoge Sprachsignal von dem Mikrofon 17 und tastet es mit einer Abtastfrequenz von 12 kHz in digitale Signale ab. Die digitalen Signale werden in Rahmen derart geteilt, dass die Rahmen eine feste Länge besitzen und einander überlappen. Für jeden der Rahmen wird die Fourier-Transformation des Rahmens derart berechnet, dass das akustische Spektrum des Sprachsignals bereitgestellt wird. Des weiteren wird das Quadrat der Amplitude des akustischen Spektrums derart berechnet, dass das akustische Kurzzeitenergiespektrum erlangt wird. Die inverse Fourier-Transformation des Energiespektrums wird derart berechnet, dass Autokorrelationskoeffizienten erlangt werden. Die LPC-(Linear Predictive Coding)Analyse wird unter Verwendung der Autokorrelationskoeffizienten derart durchgeführt, dass LPC-Koeffizienten bereitgestellt werden. Die LPC-Koeffizienten werden sequentiell dem Merkmalsextraktionsabschnitt 20 bereitgestellt.
Der Merkmalsextraktionsabschnitt 20 berechnet LPC-Cepstrum-Koeffizienten für jeden der Rahmen auf der Grundlage der von dem akustischen Analyseabschnitt 19 empfangenen LPC-Koeffizienten. Die LPC-Cepstrum-Koeffizienten werden sequentiell dem Musteranpassungsabschnitt 21 als charakteristische Parameter bereitgestellt.
Der Musteranpassungsabschnitt 21 führt eine Musteranpassung zwischen jedem der Bezugsmuster in einem Wörterverzeichnis, das in dem Wörterbuchabschnitt gespeichert ist, und Zeitreihendaten (time-series data) der LPC-Cepstrum-Koeffizienten durch. Das heißt, es werden die Zeitreihendaten in Segmente unter Verwendung von versteckten Markov-Modellen geteilt, und es wird die Ähnlichkeit (d. h. das Wahrscheinlichkeitsverhältnis) zwischen den Bezugsmustern und jedem der Segmente berechnet. Der Wörterbuchabschnitt ist ein Teil eines festen Speichers der Spracherkennungsvorrichtung. Jeder der Bezugsmuster ist eine Zeitreihe von LPC-Cepstrum-Koeffizienten, welche im voraus berechnet werden und einem von Wörtern entsprechen, welche zu identifizieren sind.
Der Musteranpassungsabschnitt 21 wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsmustern aus, welche die größten Ähnlichkeiten mit den LPC-Cepstrum-Koeffizienten haben. In dem Fall einer herkömmlichen Spracherkennungsvorrichtung werden die Kandidatenwörter dem Dialogsteuerungsabschnitt 9 als das Erkennungsergebnis bereitgestellt.
Jedoch erkennt die vorliegende Spracherkennungsvorrichtung 18 das Sprachsignal wie im folgenden dargelegt, wenn das Sprachsignal in einigen Situationen empfangen worden ist und die Kandidatenwörter ein bestimmtes Wort enthalten. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1. Das heißt, es führt die Fahrzeugnavigationsausrüstung 1 einen Betrieb durch, welcher nicht leicht rückgängig (undone) gemacht werden kann, wenn sie das bestimmte Wort empfängt. Die Spracherkennungsvorrichtung 18 empfängt und speichert die ähnliche Klanggruppe des bestimmten Worts im voraus. Die ähnliche Klanggruppe enthält Bezugsmuster entsprechend den Klängen, welche sich von denjenigen des bestimmten Worts unterscheiden, jedoch ähnlich sind. Die Erkennung des Sprachsignals wird unter Verwendung der ähnlichen Klanggruppe des bestimmten Worts durchgeführt.
Die Vorrichtung 18 erzeugt des weiteren wenn nötig im voraus Bezugsmuster entsprechend Klängen, die ähnlich wie diejenigen eines zweiten bestimmten Worts sind. Das zweite bestimmte Wort ist ein Wort, welches das Gegenteil des bestimmten Worts bedeutet. Die erzeugten Bezugsmuster werden der ähnlichen Klanggruppe hinzugefügt.
Die Erkennung des Sprachsignals wird mittels eines Beispiels erklärt. Wenn die Fahrzeugnavigationsausrüstung 1 ein Stimmbefehl wie ”Umleiten”, ”mein Haus”, ”nach Hause” oder ”Ändern des Ziels” empfängt, gibt sie eine Sprachnachricht wie ”Ihr Heim wird als das Ziel festgelegt. Ok?” zur Bestätigung des Willen des Benutzers aus. Auf diese Weise wird der Benutzer dazu veranlasst durch die Stimme ”YES” oder ”NO” als Antwort auf die Sprachnachricht einzugeben. In diesem Fall wählt die Spracherkennungsvorrichtung 18 das Wort ”YES” als das obige bestimmte Wort aus, und es wird die ähnliche Klanggruppe des Worts ”YES” erzeugt. Diese ähnliche Wortgruppe enthält Bezugsmuster entsprechend den Klängen/j//*//s/, /j//e//*/ und dergleichen. Das Symbol ”*” steht für einen willkürlichen Vokal oder Konsonanten. Des weiteren wird das Wort ”NO” als das zweite bestimmte Wort gewählt, und es werden Bezugsmuster entsprechend Klängen ähnlich denjenigen des Worts ”NO” erzeugt und der ähnlichen Klanggruppe hinzugefügt. Die Bezugsmuster entsprechend den Klängen /au/, /uu/ und dergleichen werden der ähnlichen Klanggruppe in diesem Fall hinzugefügt. Es wird bevorzugt, dass die ähnliche Wortgruppe die Bezugsmuster entsprechend Klängen ähnlich denjenigen des zweiten bestimmten Worts enthalten sollten, wenn das Sprachsignal in einer Entweder-oder-Situation ähnlich diesem Fall empfangen wird.
Der Musteranpassungsabschnitt 21 führt eine Musteranpassung zwischen jedem der Bezugsmuster in der ähnlichen Tongruppe und den LPC-Cepstrum-Koeffizienten des Sprachsignals durch, wenn die Kandidatenwörter das bestimmte Wort ”YES” enthalten. Wenn eine der Bezugsstrukturen in der ähnlichen Klanggruppe eine größere Ähnlichkeit mit den LPC-Cepstrum-Koeffizienten besitzt, gibt der Musteranpassungsabschnitt 21 das zweite bestimmte Wort ”NO” als das Erkennungsergebnis aus.
Auf diese Weise erkennt die vorliegende Spracherkennungsvorrichtung 18 das in der Situation des obigen Beispiels empfangene Sprachsignal als das Wort ”YES” lediglich dann, wenn die Zeitreihen der LPC-Cepstrum-Koeffizienten sehr nahe dem Bezugsmuster des Worts ”YES” sind. Wenn das eingegebene Sprachsignal ähnlich, jedoch unterschiedlich zu dem bestimmten Wort ”YES” oder ähnlich, jedoch unterschiedlich zu dem zweiten bestimmten Wort ”NO” ist, würde das Wort ”NO” ausgegeben werden, da das Sprachsignal eine große Ähnlichkeit mit einem der Bezugsmuster in der ähnlichen Tongruppe besitzen würde. Das heißt, der Merkmalsabstand bzw. Merkmalsraum (feature space) eines eingegebenen Sprachsignals, welches als das Wort ”YES” erkannt worden ist, ist schmal, und der Merkmalsraum eines eingegebenen Sprachsignals, welches als das Wort ”NO” erkannt worden ist, ist wie in 3A dargestellt breit. In 3A stellt die horizontale Achse beispielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entsprechend dem Wort ”YES” dar, und das Zeichen ###× stellt das Bezugsmuster entsprechend dem Wort ”NO” und die Bezugsmuster in der ähnlichen Klanggruppe dar. Somit würde das Wort ”NO” als das Erkennungsergebnis ausgegeben werden, wenn die Kandidatenwörter das Wort ”YES”, jedoch den Grad des Vertrauens enthalten, dass das Sprachsignal tatsächlich das Wort ”YES” darstellt.
Demgegenüber ist in dem Fall einer herkömmlichen Spracherkennungsvorrichtung der charakteristische Raum bzw. Abstand eines eingegebenen Sprachsignals, welches als das Wort ”YES” erkannt wird, wie in 3 dargestellt relativ breit. In 3B stellt die horizontale Achse spielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entsprechend dem Wort ”YES” dar, und das Zeichen × stellt das Bezugsmuster entsprechend dem Wort ”NO” dar. Daher würde das Sprachsignal, welches ähnlich, jedoch unterschiedlich zu dem Wort ”YES” ist, als das Wort ”YES” falsch erkannt werden.
Die obige Wirkung der vorliegenden Spracherkennungsvorrichtung 18 wurde durch Experimentieren in der Struktur wie in 2 dargestellt verifiziert. Das Ergebnis des Experimentierens ist in 4 dargestellt. Wenn eingegebene Sprachsignale unter Verwendung der ähnlichen Klanggruppe nicht erkannt worden sind, war die Wahrscheinlichkeit, dass die Sprachsignale, welche unterschiedlich zu dem Wort ”YES” waren, oder das Wort ”NO” als das Wort ”YES” falsch erkannt wurde, relativ groß (Stand der Technik: 61,9%). Demgegenüber war eine Wahrscheinlichkeit sehr viel geringer (Ausführungsform: 8,7%), wenn die eingegebenen Sprachsignale unter Verwendung der ähnlichen Klanggruppe erkannt wurden. Daher war die Erkennungsrate des Worts ”NO” leicht größer (Ausführungsform: 98,2%). Die Erkennungsrate des Worts ”YES” war in beiden Fällen gleich groß.
Dementsprechend wird verhindert, dass die Fahrzeugnavigationsausrüstung 1 einen Betrieb durchführt, der gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann, wenn das von dem Benutzer empfangene eingegebene Sprachsignal in der Situation des obigen Beispiels von der vorliegenden Spracherkennungsvorrichtung erkannt wird.
Bei der vorliegenden Ausführungsform können entsprechende japanische Worte ”hai” und ”iie” als das bestimmte Wort und das zweite bestimmte Wort anstelle von ”YES” und ”NO” gewählt werden. Des weiteren können entsprechende deutsche Worte ”ja” und ”nein”, entsprechende französische Worte ”oui” und ”non”, entsprechende holländische Worte ”ja” und ”nee”, entsprechende spanische Worte ”si” und ”no”, entsprechende italienische Worte ”si” und ”non” oder entsprechende portugiesische Wörter ”sim” und ”nao” als das bestimmte Wort und das zweite bestimmte Wort ausgewählt werden.
Zweite Ausführungsform
Entsprechend 5 enthält eine Spracherkennungsvorrichtung 18 einen akustischen Analyseabschnitt 19, einen Merkmalsextraktionsabschnitt 20 und einen Musteranpassungsabschnitt 21' ähnlich wie bei der ersten Ausführungsform. Die Spracherkennungsvorrichtung 18 empfängt ein eingegebenes Sprachsignal von dem Mikrofon 17 und erkennt es. Das Erkennungsergebnis wird einem Dialogsteuerungsabschnitt 9 einer Fahrzeugnavigationsausrüstung 1 ausgegeben. Wenn das Sprachsignal erkannt wird, arbeiten der akustische Analyseabschnitt 19 und der Merkmalsextraktionsabschnitt 20 ähnlich wie bei der ersten Ausführungsform. Jedoch führt der Musteranpassungsabschnitt 21' eine Musteranpassung unter Verwendung von lediglich gewöhnlichen Wörterbuchdaten und keine Musteranpassung unter Verwendung der ähnlichen Klanggruppe durch. Die gewöhnlichen Wörterbuchdaten sind in dem Wörterbuchabschnitt der Spracherkennungsvorrichtung 18 gespeichert und enthalten Bezugsmuster entsprechend Wörtern, welche identifiziert werden sollten. Der Musteranpassungsabschnitt 21' erzeugt Kandidatenwörter als Ergebnis der Musteranpassung zwischen den von dem Merkmalsextraktionsabschnitt 20 empfangenen Zeitreihendaten der LPC-Cepstrum-Koeffizienten und jedem der Bezugsmuster.
Wie in 5 dargestellt enthält die Spracherkennungsvorrichtung 18 des weiteren einen Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22, welcher in der japanischen Patentanmeldung Nr. H11-359076 offenbart ist, zum Abschätzen des Grads der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich einem Kandidatenwort entspricht. Wenn die Kandidatenwörter ein bestimmtes Wort enthalten, welches ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1 ist, stellt der Musteranpassungsabschnitt 21 charakteristische Werte, welche die Erkennung des spezifischen Worts betreffen, dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 bereit. Die von dem Musteranpassungsabschnitt 21' bereitgestellten charakteristischen Werte stellen das Wahrscheinlichkeitsverhältnis des bestimmten Worts und ein Modell einer verbundenen Silbe oder die Varianz der Dauer von Silben in dem bestimmten Wort dar. Der Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 empfängt die charakteristischen Werte, welche die Erkennung eines Kandidatenworts betreffen, welches das bestimmte Wort in diesem Fall ist, und schätzt als den absoluten Grad der Zuverlässigkeit die Wahrscheinlichkeit, dass das eingegebene Sprachsignal tatsächlich das Kandidatenwort darstellt, auf der Grundlage der empfangenen charakteristischen Werte ab.
Die charakteristischen Werte können durch den akustischen Analyseabschnitt 19 anstelle des Musteranpassungsabschnitts 21' wie durch die gestrichelte Linie in 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche den Grad des Erfolgs bei der akustischen Analyse (den Geräuschpegel oder LPC-Reste (LPC residuals)), als die charakteristischen Werte bereitgestellt. Alternativ können die charakteristischen Werte durch den Merkmalsextraktionsabschnitt 20 anstelle des Musteranpassungsabschnitts 21' wie durch die gestrichelte Linie in 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche LPC-Cepstrum-Koeffizienten darstellen, als die charakteristischen Werte bereitgestellt.
Der von dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt geschätzte absolute Grad der Zuverlässigkeit wird dem Musteranpassungsabschnitt 21' in Form der Wahrscheinlichkeit bereitgestellt, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt. Der Grad der Zuverlässigkeit kann intuitiv und quantitativ erfasst werden, wenn er in Form der Erfolgswahrscheinlichkeit auf diese Weise bereitgestellt wird. Der Musteranpassungsabschnitt 21' gibt ein Kandidatenwort außer dem bestimmten Wort als das Erkennungsergebnis aus, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als der vorbestimmte Bezugspegel ist. Der Bezugspegel wird im voraus experimentell bestimmt.
Wie oben beschrieben werden die Wörter entsprechend den Bezugsmustern, welche die großen Ähnlichkeiten mit den LPC-Cepstrum-Koeffizienten besitzen, als die Kandidatenwörter gewählt. Daher ist die Wahrscheinlichkeit, dass das eingegebene Sprachsignal tatsächlich das Kandidatenwort darstellt, relativ groß, jedoch nicht immer absolut groß. Dementsprechend bestimmt bei der vorliegenden Spracherkennungsvorrichtung der Musteranpassungsabschnitt 21' auf der Grundlage des von dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 bereitgestellten absoluten Grads der Zuverlässigkeit, ob er als das Erkennungsergebnis das bestimmte Wort ausgibt, welches eines der Kandidatenwörter ist.
Auf diese Weise wird das bestimmte Wort als das Erkennungsergebnis lediglich dann ausgegeben, wenn der Grad der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt, absolut groß ist. Das heißt, die Wahrscheinlichkeit, dass das eingegebene Sprachsignal, welches das bestimmte Wort als das bestimmte Wort falsch erkannt wird, ist sehr niedrig. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1 wie oben beschrieben. Dementsprechend wird verhindert, dass die Fahrzeugnavigationsausrüstung 1 einen Betrieb durchführt, welcher gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann.
Modifizierungen
Bei der ersten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21 in einem Computersystem und Daten wie die Bezugsmuster und die ähnliche Klanggruppe als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Verschiedene Aufzeichnungsmedien wie ein CD-ROM, ein DVD-ROM, ein nicht flüchtiger Speicher (d. h. EEPROM), eine magnetisch optische Platte, eine Festplatte können als Aufzeichnungsmedium zum Speichern des Programms und der Daten verwendet werden.
Bei der zweiten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21' und des Erfolgswahrscheinlichkeitsabschätzungsabschnitts 22 in einem Computersystem und Daten wie die Bezugsmuster als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Des weiteren kann ein Zuverlässigkeitsgradabschätzungsabschnitt, welcher den absoluten Grad der Zuverlässigkeit in der Form außer der Erfolgswahrscheinlichkeit bereitstellt, anstelle des Erfolgswahrscheinlichkeitsabschätzungsabschnitts 22 verwendet werden.
Die Spracherkennungsvorrichtung 18 der vorliegenden Erfindung kann für ein externes Gerät außer der Fahrzeugnavigationsausrüstung 1 verwendet werden, beispielsweise für ein persönliches mobiles Navigationsgerät und andere beliebte elektrische Geräte.

Claims

Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, und das bestimmte Wort ein Wort ist, welches eine Möglichkeit des ungünstigen Beeinflussens des Betriebs des externen Geräts (1) oder des Veranlassens einer Herabsetzung einer Funktion des externen Geräts (1) besitzt.
Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, und das bestimmte Wort ein Wort ist, welches eine Möglichkeit besitzt, das externe Gerät (1) zur Durchführung des Betriebs gegen den Willen des Sprechers zu veranlassen.
Spracherkennungsvorrichtung (18) nach Anspruch 2, dadurch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglichkeit besitzt eine Änderung des Festlegens des externen Geräts (1) zu veranlassen.
Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 3, des weiteren gekennzeichnet durch: eine Zuverlässigkeitsgradabschätzungseinrichtung (22), welche charakteristische Werte, die die Erkennung eines Worts betreffen, von der akustischen Analyseeinrichtung (19), der Merkmalsextraktionseinrichtung (20) und/oder der Musteranpassungseinrichtung (21') empfängt und einen absoluten Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das Wort darstellt, auf der Grundlage der empfangenen charakteristischen Werte abschätzt, wobei die Musteranpassungseinrichtung (21') von der Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, empfängt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und bestimmt, dass der Grad der Zuverlässigkeit niedrig ist, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als ein vorbestimmter Grad ist.
Spracherkennungsvorrichtung (18) nach Anspruch 4, dadurch gekennzeichnet, dass die Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit in Form einer Wahrscheinlichkeit, dass das Sprachsignal tatsächlich das Wort darstellt, abschätzt und bereitstellt.
Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, eine ähnliche Klanggruppe, welche Bezugsmuster entsprechend von Klängen enthält, die ähnlich sind, sich jedoch von denjenigen eines bestimmten Worts unterscheiden, im voraus gespeichert ist und die Musteranpassungseinrichtung (21) eine Musteranpassung zwischen jedem der Bezugsmuster in der ähnlichen Klanggruppe und den charakteristischen Parametern durchführt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und die Musteranpassungseinrichtung (21) als das Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.
Spracherkennungsvorrichtung (18) nach Anspruch 6, dadurch gekennzeichnet, dass die ähnliche Klanggruppe des weiteren Bezugsmuster entsprechend von Klängen enthält, welche ähnlich sind, sich jedoch von denjenigen eines zweiten bestimmten Worts unterscheiden, welches das Gegenteil des bestimmten Worts bedeutet, und die Musteranpassungseinrichtung (21) als Ergebnis der Erkennung das zweite bestimmte Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.
Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 7, dadurch gekennzeichnet, dass die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein absoluter Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, lediglich in dem Fall, dass das Sprachsignal in einer Situation empfangen wird, bei welcher der Sprecher aufgefordert wird eine Anfrage zur Bestätigung zu beantworten, ob der Sprecher es gestattet, dass das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht getan bzw. rückgängig gemacht wird.
Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 8, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 9, dadurch gekennzeichnet, dass ein Programm zur Implementierung einer Funktion der Musteranpassungseinrichtung (21, 21') in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Aufzeichnungsmedium vorgesehen sind, welches das Programm und die Daten speichert.
Spracherkennungsvorrichtung (18) nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass Programme zur Implementierung von Funktionen der Musteranpassungseinrichtung (21') und der Zuverlässigkeitsgradabschätzungseinrichtung (22) in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Medium bereitgestellt werden, welches die Programme und die Daten speichert.
Spracherkennungsvorrichtung, welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer Spracherkennungseinrichtung (18), welche das Sprachsignal unter Verwendung eines Wörterverzeichnisses erkennt und als Ergebnis der Erkennung wenigstens ein Wort in dem Wörterverzeichnis ausgibt, wobei das Wörterverzeichnis im voraus gespeichert ist und Wörter enthält; einer Steuerungseinrichtung (9), welche das Ergebnis der Erkennung von der Spracherkennungseinrichtung (18) empfängt und ein Steuersignal einem externen Gerät (1) auf der Grundlage des Ergebnisses der Erkennung ausgibt, wobei die Steuerungseinrichtung (9) ein Ausgabegerät (10, 11) anweist, eine Anfrage an den Sprecher zur Bestätigung auszugeben, ob der Sprecher gestattet, dass das externe Gerät (1) einen Betrieb durchführt, wenn die Steuerungseinrichtung (9) als das Ergebnis der Erkennung ein Wort empfängt, welches das externe Gerät (1) zur Durchführung des Betriebs anweist, das Wörterverzeichnis ein erstes Wort, welches es dem externen Gerät (1) gestattet, einen Betrieb durchzuführen, und ein zweites Wort enthält, welches verhindert, dass das externe Gerät (1) einen Betrieb durchführt, und des weiteren ähnliche Wörter enthält, welche sich von dem ersten Wort unterscheiden, jedoch eine akustische Charakteristik ähnlich derjenigen des ersten Worts besitzen, die Spracherkennungseinrichtung (18) das erste Wort oder das zweite Wort als Ergebnis der Erkennung einer Antwort auf die Anfrage ausgibt und das zweite Wort ausgibt, wenn die Antwort eine hohe Ähnlichkeit zu einem der ähnlichen Wörter besitzt, und das erste Wort ein bejahendes Wort und das zweite Wort ein verneinendes Wort ist.
Spracherkennungsvorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten: Empfangen (17) eines Sprachsignals von einem Sprecher; akustisches Analysieren (19) des empfangenen Signals; Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse; Berechnen (21, 21') von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern, wobei das Wörterverzeichnis im voraus erzeugt und gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält; Wählen (21, 21') als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt; Abschätzen (22) eines absoluten Grads der Zuverlässigkeit, dass das Sprachsignal tatsächlich ein bestimmtes Wort darstellt, wenn die Kandidatenwörter das bestimmte Wort enthalten; Ausgeben (21') als Ergebnis der Erkennung wenigstens eines Worts außer dem bestimmten Wort, wenn die Kandidatenwörter das bestimmte Wort enthalten und der geschätzte absolute Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, gleich oder kleiner als ein vorbestimmter Grad ist; Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einer ähnlichen Klanggruppe und den charakteristischen Parametern, wenn die Kandidatenwörter ein bestimmtes Wort enthalten, wobei die ähnliche Klanggruppe im voraus gespeichert wird und die Bezugsmuster entsprechend den Klängen enthält, die ähnlich, jedoch unterschiedlich zu jenen des bestimmten Worts sind; und Ausgeben (21) wenigstens eines Worts außer dem bestimmen Wort als Ergebnis der Erkennung, wenn die Kandidatenwörter das bestimmte Wort enthalten und eines der Bezugsmuster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.
Verfahren (18) zur Erkennung eines Sprachsignals nach Anspruch 14, dadurch gekennzeichnet, dass das ausgegebene Ergebnis der Erkennung von einem externen Gerät (1) zur Steuerung des Betriebs des Geräts (1) empfangen und verwendet wird, wobei das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht wird, wenn es das bestimmte Wort empfängt.