DE10134908B4 - Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden - Google Patents

Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden Download PDF

Info

Publication number
DE10134908B4
DE10134908B4 DE10134908A DE10134908A DE10134908B4 DE 10134908 B4 DE10134908 B4 DE 10134908B4 DE 10134908 A DE10134908 A DE 10134908A DE 10134908 A DE10134908 A DE 10134908A DE 10134908 B4 DE10134908 B4 DE 10134908B4
Authority
DE
Germany
Prior art keywords
word
pattern matching
speech signal
recognition
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10134908A
Other languages
English (en)
Other versions
DE10134908A1 (de
Inventor
Norihide Kitaoka
Hiroshi Ohno
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Publication of DE10134908A1 publication Critical patent/DE10134908A1/de
Application granted granted Critical
Publication of DE10134908B4 publication Critical patent/DE10134908B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen...

Description

  • Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Verfahren zur Erkennung eines Sprachsignals.
  • Eine herkömmliche Spracherkennungsvorrichtung und -verfahren, welches als Schnittstelle zwischen Mensch und Maschine verwendet wird, analysiert ein über ein Mikrofon empfangenes Sprachsignal und extrahiert charakteristische Parameter aus dem Sprachsignal. Die charakteristischen Parameter werden mit Bezugsmustern bzw. -strukturen in einem Wörterverzeichnis, das in einem Wörterbuchabschnitt der Vorrichtung gespeichert ist, verglichen, und eins oder mehrere Wörter, welche den Bezugsmustern entsprechen, die hohe Ähnlichkeiten mit den extrahierten charakteristischen Parametern aufweisen, werden ausgewählt und ausgegeben. Die Vorrichtung wählt im allgemeinen wenigstens ein Wort sogar dann aus und gibt es aus, wenn kein Bezugsmuster in dem Wörterverzeichnis eine hohe Ähnlichkeit mit den charakteristischen Parametern besitzt. In diesem Fall wird das Sprachsignal oft falsch erkannt. Des weiteren wird das Sprachsignal oft infolge eines Hintergrundrauschens falsch erkannt. Wenn das Ergebnis der Fehlerkennung zur Steuerung eines externen Geräts verwendet wird, kann der Betrieb des externen Geräts ungünstig und ernsthaft beeinflusst werden.
  • Beispielsweise wird die Spracherkennungsvorrichtung für ein Fahrzeugnavigationssystem verwendet, welches eine Sprachsteuerungsfunktion zum Empfangen von Sprache als Eingangssteuerungssignal und zum Ausgeben von Sprache als Frage an einen Benutzer oder als Antwort auf die Anfrage eines Benutzers besitzt. Wenn der Benutzer ”shukushou” sagt, was ”reduzieren” bedeutet, so dass die Karte reduziert wird, kann dies als ”jitaku” falsch verstanden werden, was das Haus des Benutzers bedeutet. In diesem Fall legt die Vorrichtung die Route zu dem Ziel ab und sucht erneut eine Route zu dem Haus des Benutzers, wenn die Vorrichtung derart gestaltet ist, dass sie ein Befehl sofort im Ansprechen auf das eingegebene Sprachsignal ausführt. Auf diese Weise wird die Route zu dem Ziel entgegen dem Willen des Benutzers abgelegt.
  • Wenn das Gerät derart gestaltet ist, dass der Wille des Benutzers bestätigt wird, wird beispielsweise gefragt: ”Ihr Haus wird als Ziel festgelegt. Ok?”. Wenn der Benutzer ”iee” sagt, was ”NEIN” als Antwort auf die Frage bedeutet, geht die Vorrichtung in einen Wartezustand über, ohne das eine Route zu dem Haus des Benutzers gesucht wird. Jedoch kann die Vorrichtung die Antwort eines Benutzers als ”hai” falsch erkennen, was ”JA” bedeutet, wenn der Benutzer ”shukushou” wiederum als Antwort auf die Frage durch einen Fehler sagt. In diesem Fall wird die Route zu dem Ziel ebenfalls abgelegt.
  • Auf diese Weise kann das externe Gerät gegen den Willen des Benutzers arbeiten, wenn das Sprachsignal von dem Benutzer als bestimmtes Wort wie ”hai”, das in dem Wörterverzeichnis enthalten ist, falsch erkannt wird. Daher wird es bevorzugt, dass die Spracherkennungsvorrichtung eine Technik verwendet, die verhindert, dass das externe Gerät einen fehlerhaften Betrieb, der nicht leicht rückgängig (undone) gemacht werden kann, gegen den Willen des Benutzers im Ansprechen auf das Ergebnis der Fehlerkennung durchführt.
  • Die EP 0651372 A2 offenbart eine Spracherkennungsvorrichtung mit einer akustischen Analyseeinrichtung, welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung, welche charakteristische Parameter aus dem Sprachsignal aufgrund des Ergebnisses der von der akustischen Analyseeinrichtung durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung, welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist; wobei das Wörterverzeichnis im Voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält; die Musteranpassungseinrichtung als Ergebnis der Erkennung im Falle eines hohen Zuverlässigkeitsgrads wenigstens ein Wort ohne Verifikation durch den Benutzer oder im Falle eines niedrigen Zuverlässigkeitsgrads wenigstens ein Wort unter Verifikation durch den Benutzer ausgibt; und wobei die Musteranpassungseinrichtung mit einem externen Gerät verbunden ist und das externe Gerät das Ergebnis der Erkennung von der Musteranpassungseinrichtung empfängt und zum Steuern des Betriebs des externen Geräts verwendet.
  • Die EP 0840286 A2 betrifft eine Spracherkennungsvorrichtung, welche im Bereich der Wortverarbeitung unter der Voraussetzung angewandt wird, dass im Betrieb keine nachteiligen Auswirkungen nach außen auftreten können (gegenüber einem Fahrzeugsystem, bei welchem im Betrieb nach außen hin hohe Auswirkungen auftreten können). Nach der Worterkennung wird dem Benutzer des Systems eine Reihe von möglichen Ersatzwörtern für die Wörter angeboten, welche falsch erkannt worden sind, und es wird dem Benutzer die Möglichkeit geboten, die falsch erkannten Wörter zu korrigieren.
  • Aus der JP 2000-069348 AA ist es bekannt, ein Muster eines Stimmeingabenbefehls für eine Videaaufzeichnungsvorrichtung mit anderen Mustern zu vergleichen. Es wird dabei eine Übereinstimmungsrate auf der Grundlage des Spracheingabemusters und von registrierten Mustern verschiedener Steuerbefehle berechnet. Für das Starten und Beenden der Aufzeichnung wird ein höherer Schwellenwert für die Übereinstimmungsrate festgelegt.
  • Mit der JP 09-244691 AA ist es bekannt, eine Vokalisierung oder Äußerung selbst im Falle einer Mehrdeutigkeit nicht zurückzuweisen, wobei eine entsprechend gespeicherte Zeichenfolge mit einer erzeugten Zeichenfolge und einer erzeugten zurückgewiesenen Zeichenfolge verglichen wird.
  • Aus der US 5305244 A ist ein System mit geringen externen Auswirkungen für eine Berührungslose Wiedergewinnung von elektronisch gespeicherten Informationen bekannt. Erfasste Äußerungen werden mit einem Wörterverzeichnis verglichen, und im Falle eines niedrigen Zuverlässigkeitsgrads befragt das System den Benutzer, ob die Worteingabe richtig ist.
  • Aus der nachveröffentlichten DE 19939705 A1 ist eine weitere Vorrichtung zur Spracherkennung bekannt, welche einen Merkmalsspeicher und einen Abstandsklassifikator aufweist.
  • Die DE 19646634 A1 offenbart schließlich noch eine Spracherkennungsvorrichtung, welche ein verfahren zum Umgang mit sicherheitskritischen Sprachbefehlen beschreibt.
  • Aufgabe der vorliegenden Erfindung ist es, eine aus der EP 0651372 A2 bekannte Spracherkennungsvorrichtung derart weiterzuentwickeln, dass bestimmte Wörter insbesondere dann nicht falsch verstanden werden, wenn der bestimmungsgemäße Betrieb der Spracherkennungsvorrichtung gefährdet ist. Des Weiteren ist es Aufgabe der vorliegenden Erfindung, ein entsprechendes Verfahren zur Erkennung eines Sprachsignals zu schaffen.
  • Die Lösung der Aufgabe erfolgt durch die Merkmale der Ansprüche 1, 2, 6, 12 und 14. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
  • Demgemäß wird eine Spracherkennungsvorrichtung bereitgestellt, bei welcher als Ergebnis der Erkennung im Falle eines niedrigen Zuverlässigkeitsgrads wenigstens ein Wort außer einem bestimmten Wort ausgegeben wird, wobei das bestimmte Wort ein Wort ist, welches eine Möglichkeit des ungünstigen Beeinflussens des Betriebs eines externen Geräts oder des Veranlassens eines Herabsetzens einer Funktion des externen Geräts besitzt. Entsprechend einer Alternative ist das bestimmte Wort ein Wort, welches eine Möglichkeit besitzt, das externe Gerät zur Durchführung des Betriebs gegen den Willen des Sprechers zu veranlassen. Entsprechend einer weiteren alternativen Lösung werden Klanggruppen analysiert, deren Bezugsmuster Klänge enthalten, die ähnlich denjenigen des bestimmten Worts sind, sich jedoch davon unterscheiden. Auch hier wird wenigstens ein Wort außer dem bestimmten Wort ausgegeben. Entsprechend einer weiteren alternativen Lösung wird eine Spracherkennungsvorrichtung bereitgestellt, bei welcher eine Anfrage an den Sprecher zur Bestätigung ausgegeben wird, ob es der Sprecher gestattet, dass das externe Gerät einen Betrieb durchführt, wobei als Ergebnis der Erkennung der Antwort auf die Anfrage entweder ein bejahendes Wort oder ein verneinendes Wort ausgegeben wird. Schließlich wird noch ein entsprechendes Verfahren bereitgestellt, bei welchem ebenfalls Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgegeben wird.
  • In einer Spracherkennungsvorrichtung führt ein Musteranpassungsabschnitt eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern eines Sprachsignals durch. Das Wörterverzeichnis ist im voraus gespeichert und enthält die Bezugsmuster entsprechend den Wörtern, welche identifiziert werden sollen. Des weiteren wird ein bestimmtes Wort im Ansprechen darauf, welches externe Gerät einen Betrieb durchführt, der nicht leicht rückgängig gemacht werden kann, aus dem Wörterverzeichnis ausgewählt, und es wird im voraus die ähnliche Klanggruppe des bestimmten Worts gespeichert. Die ähnliche Klanggruppe enthält die Bezugsmuster von entsprechenden Klängen, welche ähnlich, jedoch unterschiedlich zu dem Klang eines bestimmten Wortes sind. Der Musteranpassungsabschnitt wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsstrukturen aus, welche hohe Ähnlichkeiten mit den charakteristischen Parametern als Ergebnis der Musteranpassung besitzen. Wenn die Kandidatenwörter das bestimmte Wort enthalten, wird das Sprachsignal unter Verwendung der ähnlichen Klanggruppe erkannt. Das heißt, der Musteranpassungsabschnitt führt eine Musteranpassung zwischen jedem der Bezugsmuster in einer ähnlichen Klanggruppe und den charakteristischen Parametern des Sprachsignals durch. Als Ergebnis der Erkennung gibt der Musteranpassungsabschnitt ein Wort außer dem bestimmten Wort aus, wenn eines der Bezugsmuster entsprechend den Klängen ähnlich demjenigen des bestimmten Worts eines hohe Ähnlichkeit mit dem Sprachsignal besitzt.
  • Vorzugsweise werden ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts in einem Computersystem und Daten einschließlich der Bezugsmuster entsprechend den Wörtern und den Tönen als Aufzeichnungsmedium bereitgestellt, welches das Programm und die Daten speichert.
  • Die Erfindung ergibt sich zusammen mit weiteren Merkmalen und Vorteilen aus der folgenden Beschreibung, den beigefügten Ansprüchen und den begleitenden Figuren, wobei:
  • 1 ein Blockdiagramm einer Fahrzeugnavigationsausrüstung zeigt, welche mit einer Spracherkennungsvorrichtung einer ersten Ausführungsform der vorliegenden Erfindung verbunden ist;
  • 2 ein Blockdiagramm der Spracherkennungsvorrichtung der ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 3A und 3B schematische Ansichten zeigen, welche Merkmalsabstände bzw. -räume (feature spaces) von eingegebenen Sprachsignalen darstellen, die von der Spracherkennungsvorrichtung der ersten Ausführungsform bzw. einer herkömmlichen Spracherkennungsvorrichtung erkannt worden sind;
  • 4 eine Tabelle zeigt, welche das Experimentierergebnis zum Verifizieren der Wirkungen der Spracherkennungsvorrichtung der ersten Ausführungsform darstellt; und
  • 5 ein Blockdiagramm einer Spracherkennungsvorrichtung einer zweiten Ausführungsform der vorliegenden Erfindung zeigt.
  • Die vorliegende Erfindung wird unter Bezugnahme von Ausführungsformen und Modifizierungen beschrieben.
  • Erste Ausführungsform
  • Entsprechend 1 ist eine Fahrzeugnavigationsausrüstung mit einer Spracherkennungsvorrichtung 18 verbunden, welche als Schnittstelle zwischen Mensch und Maschine für die Fahrzeugnavigationsausrüstung 1 verwendet wird. Die Fahrzeugnavigationsausrüstung 1 enthält eine Positionserfassungseinheit 2, eine Kartendateneingabeeinheit 3, Steuerungsschalter 4, eine Steuerungsschaltung 5, einen externen Speicher 6, eine Anzeigeeinheit 7, einen Fernsteuerungssignalsensor 8, einen Digitalsteuerungsabschnitt 9, einen Sprachsyntheseabschnitt 10 und einen Lautsprecher 11. Die Steuerungsschaltung 5 enthält im wesentlichen einen Mikrocomputer und ist an die Positionserfassungseinheit 2, die Kartendateneingabeeinheit 3 und die Steuerungsschalter 4 angeschlossen. Der externe Speicher 6, die Anzeigeeinheit 7, der Fernsteuerungssignalsensor 8 und der Digitalsteuerungsabschnitt 9 sind an die Steuerungsschaltung 5 angeschlossen.
  • Die Positionserfassungseinheit 2 enthält einen Erdmagnetsensor 12, einen Gyrosensor 13, einen Geschwindigkeitssensor 14 und einen GPS-Empfänger 15. Der GPS-Empfänger 15 erfasst die Position des Fahrzeugs auf der Grundlage der von den GPS-Sateliten empfangenen Funkwelle. Jeder der Sensoren 1215 ist an einer geeigneten Position innerhalb des Fahrzeugs angeordnet. Die Steuerungsschaltung 5 empfängt Signale von den Sensoren 1215 und interpoliert sie, da jeder der Sensoren 1215 einen Fehler eines unterschiedlichen Typs besitzt. Die Steuerschaltung 5 erfasst die augenblickliche Position, die Bewegungsrichtung, die Geschwindigkeit, die zurückgelegte Strecke des Fahrzeugs genau auf der Grundlage der empfangenen Signale.
  • Die Kartendateneingabeeinheit 3 ist mit einer Ansteuerungseinheit zum Wiedererlangen von Daten aus einem Speichermedium gebildet, welches verschiedene Daten wie Straßenkartendaten, Kartenanpassungsdaten zur Korrektur der erfassten augenblicklichen Position speichert. Ein Massenspeichermedium wie ein CD-ROM, DVD-ROM kann als das Speichermedium verwendet werden. Die Straßenkartendaten enthalten die Formen, Breiten, Namen von Straßen und verschiedene Gebäude oder Einrichtungen auf den Straßen und ihre Telefonnummern. Des weiteren enthalten sie die Namen und geographischen Merkmale von Plätzen und Daten, welche zur Anzeige der Straßenkarte auf der Anzeigeeinheit 7 verwendet werden.
  • Die Steuerungsschalter 4 enthalten mechanische Schalter, welche von einem Benutzer (Fahrer) zur Eingabe verschiedener Befehle verwendet werden. Der Benutzer kann das Ziel skizzieren oder die auf der Anzeigeeinheit 7 angezeigte Straßenkarte wählen unter Verwendung der Steuerungsschalter 4. Die Steuerungsschalter 4 können Berührungsschalter auf dem Schirm der Anzeigeeinheit 7 enthalten. Des weiteren ist ein Fernsteuerungsendgerät (Fernkontroller) 16 vorgesehen, welches dieselbe Funktion wie die Steuerungsschalter 4 besitzt. Ein Steuerungssignal von dem Fernkontroller 16 wird von dem Fernsteuerungssignalsensor 8 erfasst.
  • Auf dem Schirm der Anzeigeeinheit 7 wird die Straßenkarte mit verschiedenen Skalen angezeigt. Des weiteren sind Zeiger, welche die augenblickliche Position oder die Bewegungsrichtung des Fahrzeugs anzeigen, der angezeigten Straßenkarte überlagert. Eine empfohlene Route zu dem Ziel kann ebenfalls der angezeigten Straßenkarte überlagert sein. Des weiteren werden ebenfalls eine Form, um den Benutzer zur Eingabe des Ziels und dergleichen zu veranlassen, oder verschiedene Mitteilungen oder Informationen ebenfalls auf dem Schirm angezeigt.
  • Die Straßenkarte wird von der Kartendateneingabeeinheit 3 abgerufen bzw. wiedererlangt. Die Steuerungsschaltung 5 weist die Anzeigeeinheit 7 zur Anzeige der abgerufenen Straßenkarte auf dem Schirm und des weiteren zur Überlagerung der Zeiger an, welche die augenblickliche Position und die Bewegungsrichtung des Fahrzeugs auf der Grundlage des Ausgangs von der Positionserfassungseinheit 2 anzeigen. Zur Anzeige der augenblicklichen Position des Fahrzeugs genau auf der Straßenkarte führt die Steuerungsschaltung 5 eine Kartenanpassung durch. Des weiteren weist die Steuerungsschaltung 5 die Anzeigeeinheit 7 an die auf dem Schirm angezeigte Karte (den Massstab davon) zu ändern.
  • Die Steuerungsschaltung 5 führt eine automatische Routensuche und Routenführung durch. Bei der automatischen Routensuche berechnet die Steuerungsschaltung 5 automatisch eine empfohlene Route von der augenblicklichen Position des Fahrzeugs zu einem von dem Benutzer eingegebenen Ziel. Bei der Routenführung weist die Steuerungsschaltung 5 die Anzeigeeinheit 7 an die empfohlene Route auf dem Schirm wie oben beschrieben anzuzeigen. Des weiteren kann die Steuerungsschaltung 5 den Sprachsyntheseabschnitt 10 anweisen eine Audioführung wie ”an der Kreuzung 200 Meter voraus nach links abbiegen” über den Dialogsteuerungsabschnitt 9 während der Routenführung zu erzeugen. Die erzeugte Audioführung wird über den Lautsprecher 11 ausgegeben.
  • Die Spracherkennungsvorrichtung 18 ist an den Dialogsteuerungsabschnitt 9 derart angeschlossen, dass die Sicherheit des Benutzers und die Benutzerfreundlichkeit der Fahrzeugnavigationsausrüstung 1 verbessert sind. Der Benutzer (Fahrer) kann einen Befehl (Zielsuchbefehl, Umleitungsbefehl oder Kartenskalenänderungsbefehl) oder das Ziel (Haus des Benutzers oder registrierter Punkt) durch seine Stimme eingeben, während die Augen auf die voraus befindliche Straße gerichtet sind. Die Spracherkennungsvorrichtung 18 empfängt ein Sprachsignal, welches einen Befehl oder das Ziel darstellt, von dem Benutzer über ein Mikrofon 17 und erkennt es. Das Ergebnis der Erkennung wird dem Dialogsteuerungsabschnitt 9 bereitgestellt. Das Mikrofon 17 ist an einer geeigneten Position innerhalb des Fahrzeugs plaziert, so dass es die Stimme des Benutzers gut empfängt. Beispielsweise ist das Mikrofon 17 an der oberen Oberfläche der Lenksäulenabdeckung oder der Sonnenblende über dem Sitz des Fahrers befestigt.
  • Entsprechend 2 enthält die Spracherkennungsvorrichtung 18 einen akustischen Anaylseabschnitt 19, einen Merkmalsextraktionsabschnitt (feature extraction section) 20 und einen Musteranpassungsabschnitt 21.
  • Der akustische Analyseabschnitt 19 empfängt das analoge Sprachsignal von dem Mikrofon 17 und tastet es mit einer Abtastfrequenz von 12 kHz in digitale Signale ab. Die digitalen Signale werden in Rahmen derart geteilt, dass die Rahmen eine feste Länge besitzen und einander überlappen. Für jeden der Rahmen wird die Fourier-Transformation des Rahmens derart berechnet, dass das akustische Spektrum des Sprachsignals bereitgestellt wird. Des weiteren wird das Quadrat der Amplitude des akustischen Spektrums derart berechnet, dass das akustische Kurzzeitenergiespektrum erlangt wird. Die inverse Fourier-Transformation des Energiespektrums wird derart berechnet, dass Autokorrelationskoeffizienten erlangt werden. Die LPC-(Linear Predictive Coding)Analyse wird unter Verwendung der Autokorrelationskoeffizienten derart durchgeführt, dass LPC-Koeffizienten bereitgestellt werden. Die LPC-Koeffizienten werden sequentiell dem Merkmalsextraktionsabschnitt 20 bereitgestellt.
  • Der Merkmalsextraktionsabschnitt 20 berechnet LPC-Cepstrum-Koeffizienten für jeden der Rahmen auf der Grundlage der von dem akustischen Analyseabschnitt 19 empfangenen LPC-Koeffizienten. Die LPC-Cepstrum-Koeffizienten werden sequentiell dem Musteranpassungsabschnitt 21 als charakteristische Parameter bereitgestellt.
  • Der Musteranpassungsabschnitt 21 führt eine Musteranpassung zwischen jedem der Bezugsmuster in einem Wörterverzeichnis, das in dem Wörterbuchabschnitt gespeichert ist, und Zeitreihendaten (time-series data) der LPC-Cepstrum-Koeffizienten durch. Das heißt, es werden die Zeitreihendaten in Segmente unter Verwendung von versteckten Markov-Modellen geteilt, und es wird die Ähnlichkeit (d. h. das Wahrscheinlichkeitsverhältnis) zwischen den Bezugsmustern und jedem der Segmente berechnet. Der Wörterbuchabschnitt ist ein Teil eines festen Speichers der Spracherkennungsvorrichtung. Jeder der Bezugsmuster ist eine Zeitreihe von LPC-Cepstrum-Koeffizienten, welche im voraus berechnet werden und einem von Wörtern entsprechen, welche zu identifizieren sind.
  • Der Musteranpassungsabschnitt 21 wählt als Kandidatenwörter ein oder mehrere Wörter entsprechend den Bezugsmustern aus, welche die größten Ähnlichkeiten mit den LPC-Cepstrum-Koeffizienten haben. In dem Fall einer herkömmlichen Spracherkennungsvorrichtung werden die Kandidatenwörter dem Dialogsteuerungsabschnitt 9 als das Erkennungsergebnis bereitgestellt.
  • Jedoch erkennt die vorliegende Spracherkennungsvorrichtung 18 das Sprachsignal wie im folgenden dargelegt, wenn das Sprachsignal in einigen Situationen empfangen worden ist und die Kandidatenwörter ein bestimmtes Wort enthalten. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1. Das heißt, es führt die Fahrzeugnavigationsausrüstung 1 einen Betrieb durch, welcher nicht leicht rückgängig (undone) gemacht werden kann, wenn sie das bestimmte Wort empfängt. Die Spracherkennungsvorrichtung 18 empfängt und speichert die ähnliche Klanggruppe des bestimmten Worts im voraus. Die ähnliche Klanggruppe enthält Bezugsmuster entsprechend den Klängen, welche sich von denjenigen des bestimmten Worts unterscheiden, jedoch ähnlich sind. Die Erkennung des Sprachsignals wird unter Verwendung der ähnlichen Klanggruppe des bestimmten Worts durchgeführt.
  • Die Vorrichtung 18 erzeugt des weiteren wenn nötig im voraus Bezugsmuster entsprechend Klängen, die ähnlich wie diejenigen eines zweiten bestimmten Worts sind. Das zweite bestimmte Wort ist ein Wort, welches das Gegenteil des bestimmten Worts bedeutet. Die erzeugten Bezugsmuster werden der ähnlichen Klanggruppe hinzugefügt.
  • Die Erkennung des Sprachsignals wird mittels eines Beispiels erklärt. Wenn die Fahrzeugnavigationsausrüstung 1 ein Stimmbefehl wie ”Umleiten”, ”mein Haus”, ”nach Hause” oder ”Ändern des Ziels” empfängt, gibt sie eine Sprachnachricht wie ”Ihr Heim wird als das Ziel festgelegt. Ok?” zur Bestätigung des Willen des Benutzers aus. Auf diese Weise wird der Benutzer dazu veranlasst durch die Stimme ”YES” oder ”NO” als Antwort auf die Sprachnachricht einzugeben. In diesem Fall wählt die Spracherkennungsvorrichtung 18 das Wort ”YES” als das obige bestimmte Wort aus, und es wird die ähnliche Klanggruppe des Worts ”YES” erzeugt. Diese ähnliche Wortgruppe enthält Bezugsmuster entsprechend den Klängen/j//*//s/, /j//e//*/ und dergleichen. Das Symbol ”*” steht für einen willkürlichen Vokal oder Konsonanten. Des weiteren wird das Wort ”NO” als das zweite bestimmte Wort gewählt, und es werden Bezugsmuster entsprechend Klängen ähnlich denjenigen des Worts ”NO” erzeugt und der ähnlichen Klanggruppe hinzugefügt. Die Bezugsmuster entsprechend den Klängen /au/, /uu/ und dergleichen werden der ähnlichen Klanggruppe in diesem Fall hinzugefügt. Es wird bevorzugt, dass die ähnliche Wortgruppe die Bezugsmuster entsprechend Klängen ähnlich denjenigen des zweiten bestimmten Worts enthalten sollten, wenn das Sprachsignal in einer Entweder-oder-Situation ähnlich diesem Fall empfangen wird.
  • Der Musteranpassungsabschnitt 21 führt eine Musteranpassung zwischen jedem der Bezugsmuster in der ähnlichen Tongruppe und den LPC-Cepstrum-Koeffizienten des Sprachsignals durch, wenn die Kandidatenwörter das bestimmte Wort ”YES” enthalten. Wenn eine der Bezugsstrukturen in der ähnlichen Klanggruppe eine größere Ähnlichkeit mit den LPC-Cepstrum-Koeffizienten besitzt, gibt der Musteranpassungsabschnitt 21 das zweite bestimmte Wort ”NO” als das Erkennungsergebnis aus.
  • Auf diese Weise erkennt die vorliegende Spracherkennungsvorrichtung 18 das in der Situation des obigen Beispiels empfangene Sprachsignal als das Wort ”YES” lediglich dann, wenn die Zeitreihen der LPC-Cepstrum-Koeffizienten sehr nahe dem Bezugsmuster des Worts ”YES” sind. Wenn das eingegebene Sprachsignal ähnlich, jedoch unterschiedlich zu dem bestimmten Wort ”YES” oder ähnlich, jedoch unterschiedlich zu dem zweiten bestimmten Wort ”NO” ist, würde das Wort ”NO” ausgegeben werden, da das Sprachsignal eine große Ähnlichkeit mit einem der Bezugsmuster in der ähnlichen Tongruppe besitzen würde. Das heißt, der Merkmalsabstand bzw. Merkmalsraum (feature space) eines eingegebenen Sprachsignals, welches als das Wort ”YES” erkannt worden ist, ist schmal, und der Merkmalsraum eines eingegebenen Sprachsignals, welches als das Wort ”NO” erkannt worden ist, ist wie in 3A dargestellt breit. In 3A stellt die horizontale Achse beispielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entsprechend dem Wort ”YES” dar, und das Zeichen ###× stellt das Bezugsmuster entsprechend dem Wort ”NO” und die Bezugsmuster in der ähnlichen Klanggruppe dar. Somit würde das Wort ”NO” als das Erkennungsergebnis ausgegeben werden, wenn die Kandidatenwörter das Wort ”YES”, jedoch den Grad des Vertrauens enthalten, dass das Sprachsignal tatsächlich das Wort ”YES” darstellt.
  • Demgegenüber ist in dem Fall einer herkömmlichen Spracherkennungsvorrichtung der charakteristische Raum bzw. Abstand eines eingegebenen Sprachsignals, welches als das Wort ”YES” erkannt wird, wie in 3 dargestellt relativ breit. In 3B stellt die horizontale Achse spielsweise den Wert des Ausdrucks des nullten Grads der LPC-Cepstrum-Koeffizienten dar, und die vertikale Achse stellt den Wert des Ausdrucks des ersten Grads der LPC-Cepstrum-Koeffizienten dar. Des weiteren stellt das Zeichen O das Bezugsmuster entsprechend dem Wort ”YES” dar, und das Zeichen × stellt das Bezugsmuster entsprechend dem Wort ”NO” dar. Daher würde das Sprachsignal, welches ähnlich, jedoch unterschiedlich zu dem Wort ”YES” ist, als das Wort ”YES” falsch erkannt werden.
  • Die obige Wirkung der vorliegenden Spracherkennungsvorrichtung 18 wurde durch Experimentieren in der Struktur wie in 2 dargestellt verifiziert. Das Ergebnis des Experimentierens ist in 4 dargestellt. Wenn eingegebene Sprachsignale unter Verwendung der ähnlichen Klanggruppe nicht erkannt worden sind, war die Wahrscheinlichkeit, dass die Sprachsignale, welche unterschiedlich zu dem Wort ”YES” waren, oder das Wort ”NO” als das Wort ”YES” falsch erkannt wurde, relativ groß (Stand der Technik: 61,9%). Demgegenüber war eine Wahrscheinlichkeit sehr viel geringer (Ausführungsform: 8,7%), wenn die eingegebenen Sprachsignale unter Verwendung der ähnlichen Klanggruppe erkannt wurden. Daher war die Erkennungsrate des Worts ”NO” leicht größer (Ausführungsform: 98,2%). Die Erkennungsrate des Worts ”YES” war in beiden Fällen gleich groß.
  • Dementsprechend wird verhindert, dass die Fahrzeugnavigationsausrüstung 1 einen Betrieb durchführt, der gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann, wenn das von dem Benutzer empfangene eingegebene Sprachsignal in der Situation des obigen Beispiels von der vorliegenden Spracherkennungsvorrichtung erkannt wird.
  • Bei der vorliegenden Ausführungsform können entsprechende japanische Worte ”hai” und ”iie” als das bestimmte Wort und das zweite bestimmte Wort anstelle von ”YES” und ”NO” gewählt werden. Des weiteren können entsprechende deutsche Worte ”ja” und ”nein”, entsprechende französische Worte ”oui” und ”non”, entsprechende holländische Worte ”ja” und ”nee”, entsprechende spanische Worte ”si” und ”no”, entsprechende italienische Worte ”si” und ”non” oder entsprechende portugiesische Wörter ”sim” und ”nao” als das bestimmte Wort und das zweite bestimmte Wort ausgewählt werden.
  • Zweite Ausführungsform
  • Entsprechend 5 enthält eine Spracherkennungsvorrichtung 18 einen akustischen Analyseabschnitt 19, einen Merkmalsextraktionsabschnitt 20 und einen Musteranpassungsabschnitt 21' ähnlich wie bei der ersten Ausführungsform. Die Spracherkennungsvorrichtung 18 empfängt ein eingegebenes Sprachsignal von dem Mikrofon 17 und erkennt es. Das Erkennungsergebnis wird einem Dialogsteuerungsabschnitt 9 einer Fahrzeugnavigationsausrüstung 1 ausgegeben. Wenn das Sprachsignal erkannt wird, arbeiten der akustische Analyseabschnitt 19 und der Merkmalsextraktionsabschnitt 20 ähnlich wie bei der ersten Ausführungsform. Jedoch führt der Musteranpassungsabschnitt 21' eine Musteranpassung unter Verwendung von lediglich gewöhnlichen Wörterbuchdaten und keine Musteranpassung unter Verwendung der ähnlichen Klanggruppe durch. Die gewöhnlichen Wörterbuchdaten sind in dem Wörterbuchabschnitt der Spracherkennungsvorrichtung 18 gespeichert und enthalten Bezugsmuster entsprechend Wörtern, welche identifiziert werden sollten. Der Musteranpassungsabschnitt 21' erzeugt Kandidatenwörter als Ergebnis der Musteranpassung zwischen den von dem Merkmalsextraktionsabschnitt 20 empfangenen Zeitreihendaten der LPC-Cepstrum-Koeffizienten und jedem der Bezugsmuster.
  • Wie in 5 dargestellt enthält die Spracherkennungsvorrichtung 18 des weiteren einen Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22, welcher in der japanischen Patentanmeldung Nr. H11-359076 offenbart ist, zum Abschätzen des Grads der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich einem Kandidatenwort entspricht. Wenn die Kandidatenwörter ein bestimmtes Wort enthalten, welches ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1 ist, stellt der Musteranpassungsabschnitt 21 charakteristische Werte, welche die Erkennung des spezifischen Worts betreffen, dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 bereit. Die von dem Musteranpassungsabschnitt 21' bereitgestellten charakteristischen Werte stellen das Wahrscheinlichkeitsverhältnis des bestimmten Worts und ein Modell einer verbundenen Silbe oder die Varianz der Dauer von Silben in dem bestimmten Wort dar. Der Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 empfängt die charakteristischen Werte, welche die Erkennung eines Kandidatenworts betreffen, welches das bestimmte Wort in diesem Fall ist, und schätzt als den absoluten Grad der Zuverlässigkeit die Wahrscheinlichkeit, dass das eingegebene Sprachsignal tatsächlich das Kandidatenwort darstellt, auf der Grundlage der empfangenen charakteristischen Werte ab.
  • Die charakteristischen Werte können durch den akustischen Analyseabschnitt 19 anstelle des Musteranpassungsabschnitts 21' wie durch die gestrichelte Linie in 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche den Grad des Erfolgs bei der akustischen Analyse (den Geräuschpegel oder LPC-Reste (LPC residuals)), als die charakteristischen Werte bereitgestellt. Alternativ können die charakteristischen Werte durch den Merkmalsextraktionsabschnitt 20 anstelle des Musteranpassungsabschnitts 21' wie durch die gestrichelte Linie in 5 dargestellt bereitgestellt werden. In diesem Fall werden Werte, welche LPC-Cepstrum-Koeffizienten darstellen, als die charakteristischen Werte bereitgestellt.
  • Der von dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt geschätzte absolute Grad der Zuverlässigkeit wird dem Musteranpassungsabschnitt 21' in Form der Wahrscheinlichkeit bereitgestellt, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt. Der Grad der Zuverlässigkeit kann intuitiv und quantitativ erfasst werden, wenn er in Form der Erfolgswahrscheinlichkeit auf diese Weise bereitgestellt wird. Der Musteranpassungsabschnitt 21' gibt ein Kandidatenwort außer dem bestimmten Wort als das Erkennungsergebnis aus, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als der vorbestimmte Bezugspegel ist. Der Bezugspegel wird im voraus experimentell bestimmt.
  • Wie oben beschrieben werden die Wörter entsprechend den Bezugsmustern, welche die großen Ähnlichkeiten mit den LPC-Cepstrum-Koeffizienten besitzen, als die Kandidatenwörter gewählt. Daher ist die Wahrscheinlichkeit, dass das eingegebene Sprachsignal tatsächlich das Kandidatenwort darstellt, relativ groß, jedoch nicht immer absolut groß. Dementsprechend bestimmt bei der vorliegenden Spracherkennungsvorrichtung der Musteranpassungsabschnitt 21' auf der Grundlage des von dem Erfolgswahrscheinlichkeitsabschätzungsabschnitt 22 bereitgestellten absoluten Grads der Zuverlässigkeit, ob er als das Erkennungsergebnis das bestimmte Wort ausgibt, welches eines der Kandidatenwörter ist.
  • Auf diese Weise wird das bestimmte Wort als das Erkennungsergebnis lediglich dann ausgegeben, wenn der Grad der Zuverlässigkeit, dass das eingegebene Sprachsignal tatsächlich das bestimmte Wort darstellt, absolut groß ist. Das heißt, die Wahrscheinlichkeit, dass das eingegebene Sprachsignal, welches das bestimmte Wort als das bestimmte Wort falsch erkannt wird, ist sehr niedrig. Das bestimmte Wort ist ein kritisches Wort für die Fahrzeugnavigationsausrüstung 1 wie oben beschrieben. Dementsprechend wird verhindert, dass die Fahrzeugnavigationsausrüstung 1 einen Betrieb durchführt, welcher gegen den Willen des Benutzers nicht leicht rückgängig gemacht werden kann.
  • Modifizierungen
  • Bei der ersten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21 in einem Computersystem und Daten wie die Bezugsmuster und die ähnliche Klanggruppe als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Verschiedene Aufzeichnungsmedien wie ein CD-ROM, ein DVD-ROM, ein nicht flüchtiger Speicher (d. h. EEPROM), eine magnetisch optische Platte, eine Festplatte können als Aufzeichnungsmedium zum Speichern des Programms und der Daten verwendet werden.
  • Bei der zweiten Ausführungsform können ein Programm zur Implementierung der Funktion des Musteranpassungsabschnitts 21' und des Erfolgswahrscheinlichkeitsabschätzungsabschnitts 22 in einem Computersystem und Daten wie die Bezugsmuster als abtrennbares Aufzeichnungsmedium bereitgestellt werden, welches das Programm und die Daten speichert. Des weiteren kann ein Zuverlässigkeitsgradabschätzungsabschnitt, welcher den absoluten Grad der Zuverlässigkeit in der Form außer der Erfolgswahrscheinlichkeit bereitstellt, anstelle des Erfolgswahrscheinlichkeitsabschätzungsabschnitts 22 verwendet werden.
  • Die Spracherkennungsvorrichtung 18 der vorliegenden Erfindung kann für ein externes Gerät außer der Fahrzeugnavigationsausrüstung 1 verwendet werden, beispielsweise für ein persönliches mobiles Navigationsgerät und andere beliebte elektrische Geräte.

Claims (15)

  1. Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, und das bestimmte Wort ein Wort ist, welches eine Möglichkeit des ungünstigen Beeinflussens des Betriebs des externen Geräts (1) oder des Veranlassens einer Herabsetzung einer Funktion des externen Geräts (1) besitzt.
  2. Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, und das bestimmte Wort ein Wort ist, welches eine Möglichkeit besitzt, das externe Gerät (1) zur Durchführung des Betriebs gegen den Willen des Sprechers zu veranlassen.
  3. Spracherkennungsvorrichtung (18) nach Anspruch 2, dadurch gekennzeichnet, dass das bestimmte Wort ein Wort ist, welches eine Möglichkeit besitzt eine Änderung des Festlegens des externen Geräts (1) zu veranlassen.
  4. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 3, des weiteren gekennzeichnet durch: eine Zuverlässigkeitsgradabschätzungseinrichtung (22), welche charakteristische Werte, die die Erkennung eines Worts betreffen, von der akustischen Analyseeinrichtung (19), der Merkmalsextraktionseinrichtung (20) und/oder der Musteranpassungseinrichtung (21') empfängt und einen absoluten Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das Wort darstellt, auf der Grundlage der empfangenen charakteristischen Werte abschätzt, wobei die Musteranpassungseinrichtung (21') von der Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, empfängt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und bestimmt, dass der Grad der Zuverlässigkeit niedrig ist, wenn der empfangene absolute Grad der Zuverlässigkeit gleich oder kleiner als ein vorbestimmter Grad ist.
  5. Spracherkennungsvorrichtung (18) nach Anspruch 4, dadurch gekennzeichnet, dass die Zuverlässigkeitsgradabschätzungseinrichtung (22) den absoluten Grad der Zuverlässigkeit in Form einer Wahrscheinlichkeit, dass das Sprachsignal tatsächlich das Wort darstellt, abschätzt und bereitstellt.
  6. Spracherkennungsvorrichtung (18), welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer akustischen Analyseeinrichtung (19), welche ein Sprachsignal akustisch analysiert; einer Merkmalsextraktionseinrichtung (20), welche charakteristische Parameter aus dem Sprachsignal auf der Grundlage eines Ergebnisses der von der akustischen Analyseeinrichtung (19) durchgeführten Analyse extrahiert; und einer Musteranpassungseinrichtung (21, 21'), welche eine Musteranpassung zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern durchführt und als Kandidatenwörter wenigstens ein Wort entsprechend dem Bezugsmuster wählt, welches eine hohe Ähnlichkeit zu den charakteristischen Parametern aufweist, wobei das Wörterverzeichnis im voraus gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält, wobei die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer einem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, die Musteranpassungseinrichtung (21, 21') mit einem externen Gerät (1) verbunden ist und das externe Gerät (1) das Ergebnis der Erkennung von der Musteranpassungseinrichtung (21, 21') empfängt und zum Steuern eines Betriebs des externen Geräts (1) verwendet, eine ähnliche Klanggruppe, welche Bezugsmuster entsprechend von Klängen enthält, die ähnlich sind, sich jedoch von denjenigen eines bestimmten Worts unterscheiden, im voraus gespeichert ist und die Musteranpassungseinrichtung (21) eine Musteranpassung zwischen jedem der Bezugsmuster in der ähnlichen Klanggruppe und den charakteristischen Parametern durchführt, wenn die Kandidatenwörter das bestimmte Wort enthalten, und die Musteranpassungseinrichtung (21) als das Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.
  7. Spracherkennungsvorrichtung (18) nach Anspruch 6, dadurch gekennzeichnet, dass die ähnliche Klanggruppe des weiteren Bezugsmuster entsprechend von Klängen enthält, welche ähnlich sind, sich jedoch von denjenigen eines zweiten bestimmten Worts unterscheiden, welches das Gegenteil des bestimmten Worts bedeutet, und die Musteranpassungseinrichtung (21) als Ergebnis der Erkennung das zweite bestimmte Wort ausgibt, wenn eines der Bezugsmuster in der ähnlichen Klanggruppe eine hohe Ähnlichkeit zu den charakteristischen Parametern besitzt.
  8. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 7, dadurch gekennzeichnet, dass die Musteranpassungseinrichtung (21, 21') als Ergebnis der Erkennung wenigstens ein Wort außer dem bestimmten Wort ausgibt, wenn die Kandidatenwörter das bestimmte Wort enthalten und ein absoluter Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, niedrig ist, lediglich in dem Fall, dass das Sprachsignal in einer Situation empfangen wird, bei welcher der Sprecher aufgefordert wird eine Anfrage zur Bestätigung zu beantworten, ob der Sprecher es gestattet, dass das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht getan bzw. rückgängig gemacht wird.
  9. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 8, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
  10. Spracherkennungsvorrichtung (18) nach Anspruch 1 oder 9, dadurch gekennzeichnet, dass ein Programm zur Implementierung einer Funktion der Musteranpassungseinrichtung (21, 21') in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Aufzeichnungsmedium vorgesehen sind, welches das Programm und die Daten speichert.
  11. Spracherkennungsvorrichtung (18) nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass Programme zur Implementierung von Funktionen der Musteranpassungseinrichtung (21') und der Zuverlässigkeitsgradabschätzungseinrichtung (22) in einem Computersystem und Daten, welche das Wörterverzeichnis enthalten, als Medium bereitgestellt werden, welches die Programme und die Daten speichert.
  12. Spracherkennungsvorrichtung, welche ein Sprachsignal von einem Sprecher empfängt und erkennt, mit: einer Spracherkennungseinrichtung (18), welche das Sprachsignal unter Verwendung eines Wörterverzeichnisses erkennt und als Ergebnis der Erkennung wenigstens ein Wort in dem Wörterverzeichnis ausgibt, wobei das Wörterverzeichnis im voraus gespeichert ist und Wörter enthält; einer Steuerungseinrichtung (9), welche das Ergebnis der Erkennung von der Spracherkennungseinrichtung (18) empfängt und ein Steuersignal einem externen Gerät (1) auf der Grundlage des Ergebnisses der Erkennung ausgibt, wobei die Steuerungseinrichtung (9) ein Ausgabegerät (10, 11) anweist, eine Anfrage an den Sprecher zur Bestätigung auszugeben, ob der Sprecher gestattet, dass das externe Gerät (1) einen Betrieb durchführt, wenn die Steuerungseinrichtung (9) als das Ergebnis der Erkennung ein Wort empfängt, welches das externe Gerät (1) zur Durchführung des Betriebs anweist, das Wörterverzeichnis ein erstes Wort, welches es dem externen Gerät (1) gestattet, einen Betrieb durchzuführen, und ein zweites Wort enthält, welches verhindert, dass das externe Gerät (1) einen Betrieb durchführt, und des weiteren ähnliche Wörter enthält, welche sich von dem ersten Wort unterscheiden, jedoch eine akustische Charakteristik ähnlich derjenigen des ersten Worts besitzen, die Spracherkennungseinrichtung (18) das erste Wort oder das zweite Wort als Ergebnis der Erkennung einer Antwort auf die Anfrage ausgibt und das zweite Wort ausgibt, wenn die Antwort eine hohe Ähnlichkeit zu einem der ähnlichen Wörter besitzt, und das erste Wort ein bejahendes Wort und das zweite Wort ein verneinendes Wort ist.
  13. Spracherkennungsvorrichtung nach Anspruch 12, dadurch gekennzeichnet, dass das externe Gerät (1) ein Navigationsgerät ist.
  14. Verfahren (18) zur Erkennung eines Sprachsignals, mit den Schritten: Empfangen (17) eines Sprachsignals von einem Sprecher; akustisches Analysieren (19) des empfangenen Signals; Extrahieren (20) von charakteristischen Parametern aus dem Sprachsignal auf der Grundlage eines Ergebnisses der Analyse; Berechnen (21, 21') von Ähnlichkeiten zwischen jedem von Bezugsmustern in einem Wörterverzeichnis und den extrahierten charakteristischen Parametern, wobei das Wörterverzeichnis im voraus erzeugt und gespeichert worden ist und die Bezugsmuster entsprechend den Wörtern enthält; Wählen (21, 21') als Kandidatenwörter wenigstens eines Worts entsprechend dem Bezugsmuster, welches eine große Ähnlichkeit zu den charakteristischen Parametern besitzt; Abschätzen (22) eines absoluten Grads der Zuverlässigkeit, dass das Sprachsignal tatsächlich ein bestimmtes Wort darstellt, wenn die Kandidatenwörter das bestimmte Wort enthalten; Ausgeben (21') als Ergebnis der Erkennung wenigstens eines Worts außer dem bestimmten Wort, wenn die Kandidatenwörter das bestimmte Wort enthalten und der geschätzte absolute Grad der Zuverlässigkeit, dass das Sprachsignal tatsächlich das bestimmte Wort darstellt, gleich oder kleiner als ein vorbestimmter Grad ist; Berechnen (21) von Ähnlichkeiten zwischen jedem von Bezugsmustern in einer ähnlichen Klanggruppe und den charakteristischen Parametern, wenn die Kandidatenwörter ein bestimmtes Wort enthalten, wobei die ähnliche Klanggruppe im voraus gespeichert wird und die Bezugsmuster entsprechend den Klängen enthält, die ähnlich, jedoch unterschiedlich zu jenen des bestimmten Worts sind; und Ausgeben (21) wenigstens eines Worts außer dem bestimmen Wort als Ergebnis der Erkennung, wenn die Kandidatenwörter das bestimmte Wort enthalten und eines der Bezugsmuster in der ähnlichen Klanggruppe eine große Ähnlichkeit zu den charakteristischen Parametern besitzt.
  15. Verfahren (18) zur Erkennung eines Sprachsignals nach Anspruch 14, dadurch gekennzeichnet, dass das ausgegebene Ergebnis der Erkennung von einem externen Gerät (1) zur Steuerung des Betriebs des Geräts (1) empfangen und verwendet wird, wobei das externe Gerät (1) einen Betrieb durchführt, welcher nicht leicht rückgängig gemacht wird, wenn es das bestimmte Wort empfängt.
DE10134908A 2000-07-21 2001-07-18 Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden Expired - Fee Related DE10134908B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP00-220564 2000-07-21
JP2000220564A JP3567864B2 (ja) 2000-07-21 2000-07-21 音声認識装置及び記録媒体

Publications (2)

Publication Number Publication Date
DE10134908A1 DE10134908A1 (de) 2002-04-25
DE10134908B4 true DE10134908B4 (de) 2013-05-08

Family

ID=18715149

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10134908A Expired - Fee Related DE10134908B4 (de) 2000-07-21 2001-07-18 Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden

Country Status (3)

Country Link
US (1) US6937982B2 (de)
JP (1) JP3567864B2 (de)
DE (1) DE10134908B4 (de)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086863A1 (en) * 2001-04-19 2002-10-31 British Telecommunications Public Limited Company Speech recognition
JPWO2003088209A1 (ja) * 2002-04-12 2005-08-25 三菱電機株式会社 カーナビゲーションシステム並びにその音声認識装置
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP4225356B2 (ja) * 2007-04-09 2009-02-18 トヨタ自動車株式会社 車両用ナビゲーション装置
US9423996B2 (en) * 2007-05-03 2016-08-23 Ian Cummings Vehicle navigation user interface customization methods
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP5157596B2 (ja) * 2008-04-01 2013-03-06 トヨタ自動車株式会社 音声認識装置
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8914287B2 (en) 2010-12-31 2014-12-16 Echostar Technologies L.L.C. Remote control audio link
WO2013069060A1 (ja) * 2011-11-10 2013-05-16 三菱電機株式会社 ナビゲーション装置および方法
CN103917847B (zh) * 2011-11-10 2017-03-01 三菱电机株式会社 导航装置及方法
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003999B (zh) 2014-10-15 2020-08-21 声钰科技 对用户的在先自然语言输入的后续响应的系统和方法
CN104316073B (zh) * 2014-11-12 2017-06-16 沈阳美行科技有限公司 一种用户自定义引导方位的方法
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305244A (en) * 1992-04-06 1994-04-19 Computer Products & Services, Inc. Hands-free, user-supported portable computer
EP0651372A2 (de) * 1993-10-27 1995-05-03 AT&T Corp. Glaubwürdigkeitsmasse verwendendes Verfahren zur automatischen Spracherkennung
JPH09244691A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 入力音声リジェクト方法およびこの方法を実施する装置
EP0840286A2 (de) * 1996-10-31 1998-05-06 Microsoft Corporation Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE19646634A1 (de) * 1996-11-12 1998-05-14 Bosch Gmbh Robert Verfahren zur Befehlseingabe mit Sprache
JP2000069348A (ja) * 1998-08-20 2000-03-03 Canon Inc 撮像装置
DE19939705A1 (de) * 1999-08-18 2001-03-08 Deutsche Telekom Ag Vorrichtung zur Spracherkennung

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01116700A (ja) 1987-10-30 1989-05-09 Fujitsu Ltd 音声認識制御方式
JPH03248199A (ja) 1990-02-26 1991-11-06 Ricoh Co Ltd 音声認識方式
JP3384165B2 (ja) 1995-02-01 2003-03-10 トヨタ自動車株式会社 音声認識装置
GB9701866D0 (en) * 1997-01-30 1997-03-19 British Telecomm Information retrieval
JPH11337365A (ja) 1998-05-29 1999-12-10 Clarion Co Ltd ナビゲーションシステム及び方法並びにナビゲーション用ソフトウェアを記録した記録媒体
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
JP2001222291A (ja) 2000-02-08 2001-08-17 Kenwood Corp 音声認識装置を用いた制御装置
JP2002021121A (ja) 2000-07-07 2002-01-23 Shin Caterpillar Mitsubishi Ltd 建設機械における操作レバー割り当て方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5305244A (en) * 1992-04-06 1994-04-19 Computer Products & Services, Inc. Hands-free, user-supported portable computer
US5305244B1 (en) * 1992-04-06 1996-07-02 Computer Products & Services I Hands-free, user-supported portable computer
US5305244B2 (en) * 1992-04-06 1997-09-23 Computer Products & Services I Hands-free user-supported portable computer
EP0651372A2 (de) * 1993-10-27 1995-05-03 AT&T Corp. Glaubwürdigkeitsmasse verwendendes Verfahren zur automatischen Spracherkennung
JPH09244691A (ja) * 1996-03-07 1997-09-19 Nippon Telegr & Teleph Corp <Ntt> 入力音声リジェクト方法およびこの方法を実施する装置
EP0840286A2 (de) * 1996-10-31 1998-05-06 Microsoft Corporation Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE19646634A1 (de) * 1996-11-12 1998-05-14 Bosch Gmbh Robert Verfahren zur Befehlseingabe mit Sprache
JP2000069348A (ja) * 1998-08-20 2000-03-03 Canon Inc 撮像装置
DE19939705A1 (de) * 1999-08-18 2001-03-08 Deutsche Telekom Ag Vorrichtung zur Spracherkennung

Also Published As

Publication number Publication date
US6937982B2 (en) 2005-08-30
JP2002041085A (ja) 2002-02-08
JP3567864B2 (ja) 2004-09-22
US20020010579A1 (en) 2002-01-24
DE10134908A1 (de) 2002-04-25

Similar Documents

Publication Publication Date Title
DE10134908B4 (de) Spracherkennungsvorrichtung und Verfahren, welche zwei gegenteilige Wörter verwenden
DE60024236T2 (de) Sprach endpunktbestimmung in einem rauschsignal
DE60124471T2 (de) Vorrichtung zur Spracherkennung
DE60024506T2 (de) Verfahren zur mehrstufigen Spracherkennung und Funkübertragungsvorrichtung zur Steuerung durch Sprache
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE112014007015B4 (de) Spracherkennungssystem
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
EP3224831B1 (de) Kraftfahrzeug-bedienvorrichtung mit korrekturstrategie für spracherkennung
DE112012006997B4 (de) Navigationsvorrichtung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
DE10041456A1 (de) Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
DE112008001334T5 (de) Spracherkennungsvorrichtung
DE10246029B4 (de) Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE102005018174A1 (de) Verfahren zur gezielten Ermittlung eines vollständigen Eingabedatensatzes in einem Sprachdialog 11
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
DE60014583T2 (de) Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20130809

R084 Declaration of willingness to licence
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee