DE69922971T2 - Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache - Google Patents
Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache Download PDFInfo
- Publication number
- DE69922971T2 DE69922971T2 DE69922971T DE69922971T DE69922971T2 DE 69922971 T2 DE69922971 T2 DE 69922971T2 DE 69922971 T DE69922971 T DE 69922971T DE 69922971 T DE69922971 T DE 69922971T DE 69922971 T2 DE69922971 T2 DE 69922971T2
- Authority
- DE
- Germany
- Prior art keywords
- network object
- grammar
- file
- database
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Description
- Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Interaktion mit einem Netzobjekt, und auf ein System zum Aktualisieren eines Computers zur Benutzerinteraktion mit einem Netzobjekt.
- Die vorliegende Erfindung bezieht sich allgemein auf die Spracherkennung für eine Netzcomputer-Benutzerschnittstelle und insbesondere auf ein neues Verfahren und System zur Benutzerinteraktion mit einem Computer mittels Spracherkennung und Verarbeitung natürlicher Sprache.
- Mit der zunehmenden Bedeutung von Computern wurde es deutlich, dass viele Menschen große Schwierigkeiten haben, Computer zu verstehen und mit diesen zu kommunizieren. Ein Benutzer muss oft archaische Befehle und nicht intuitive Verfahren lernen, um den Computer zu bedienen. Die meisten PCs verwenden z.B. Betriebssysteme auf Windows-Basis, die weitgehend menügesteuert sind. Dies erfordert, dass der Benutzer lernt, welche Menübefehle oder Befehlssequenzen die gewünschten Ergebnisse bringen.
- Weiterhin wird die herkömmliche Interaktion mit einem Computer oft durch manuelle Eingabevorrichtungen, wie Keyboards oder eine Maus, verlangsamt.
- Viele Computerbenutzer können nicht schnell maschinenschreiben. Folglich wird viel Zeit aufgewandt, Befehle und Wörter in den Computer mittels dieser manuellen Eingabevorrichtungen einzugeben. Es wird klar, dass ein einfacheres, schnelleres und intuitiveres Verfahren zur Kommunikation mit Computern und Netzobjekten, wie Web-Sites, erforderlich ist.
- Ein vorgeschlagenes Verfahren zur Computer-Interaktion ist die Spracherkennung. Spracherkennung beinhaltet Software und Hardware, die zusammenwirken, um die menschliche Sprache hörbar zu detektieren und die detektierte Sprache in eine Reihe von Worten zu übersetzen. Wie bekannt ist, funktioniert Spracherkennung durch Zergliedern von durch die Hardware detektierten Tönen in kleinere nicht teilbare Töne, die Phoneme genannt werden. Phoneme sind klare Toneinheiten. Das Wort „those" z.B. besteht aus drei Phonemen. Das erste ist der Laut „th", der zweite „o" und der dritte „s". Die Spracherkennungs-Software versucht, die detektierten Phoneme mit bekannten Wörtern von einem gespeicherten Wörterbuch zu vergleichen. Ein Beispiel eines Spracherkennungssystems ist in dem US-Patent Nr. 4,783,803 „Speech recognition apparatus and method" gegeben, erteilt am 8.11.1998 in Namen von Dragon Systems, Inc., auf das hier Bezug genommen wird. Derzeit gibt es viele kommerziell erhältliche Spracherkennungs-Softwarepakete, die von Firmen wie Dragon Systems, Inc. und International Business Machines, Inc. vertrieben werden.
- Eine Einschränkung dieser Spracherkennungs-Softwarepakete oder -systeme besteht darin, dass sie normalerweise nur Befehls-, Steuer- oder Diktierfunktionen ausführen. Somit muss der Benutzer immer noch ein Vokabular von Befehlen lernen, um den Computer zu betreiben.
- Ein Vorschlag zur Verbesserung dieser Spracherkennungssysteme besteht darin, die detektierten Wörter mittels eines Verarbeitungssystems für natürliche Sprache zu verarbeiten. Die Verarbeitung natürlicher Sprache beinhaltet generell das Bestimmen einer konzeptionellen „Bedeutung" (z.B. was der Sprecher übermitteln möchte) der detektierten Worte durch Analysieren ihres grammatikalischen Verhältnisses und relativen Kontextes. Das US-Patent Nr. 4,887,212 mit dem Titel „Parser for natural language text", erteilt am 12.12.1989 im Namen von International Business Machines Corporation, auf das hier Bezug genommen wird, lehrt ein Verfahren zum Analysieren (Parsen) eines Eingabestroms von Worten mittels Wortisolierung, morphologischer Analyse, Nachschlagen im Wörterbuch und Grammatikanalyse.
- Verarbeitung natürlicher Sprache zusammen mit Spracherkennung bietet ein leistungsstarkes Tool zum Betreiben eines Computers mittels gesprochener Worte im Vergleich zu manueller Eingabe, wie über eine Tastatur oder Maus. Ein Nachteil eines konventionellen Verarbeitungssystems natürlicher Sprache besteht darin, dass es die korrekte „Bedeutung" der von dem Spracherkennungssystem detektierten Worte nicht richtig bestimmt. In diesem Fall muss der Benutzer normalerweise den Satz neu zusammenstellen oder erneut sagen in der Hoffnung, dass das Verarbeitungssystem für natürliche Sprache die richtige „Bedeutung" bei nachfolgenden Versuchen feststellt. Dies kann natürlich wesentliche Verzögerungen mit sich bringen, da der Benutzer den gesamten Satz oder Befehl neu sagen muss. Ein weiterer Nachteil von herkömmlichen Systemen besteht darin, dass die Verarbeitungszeit, die für die Spracherkennung erforderlich ist, unzulässig lang sein kann. Dies in erster Linie aufgrund der endlichen Sprache der Verarbeitungsquellen im Vergleich zu der großen Menge an zu verarbeitenden Informationen. Bei vielen herkömmlichen Spracherkennungsprogrammen ist z.B. die Zeit zum Erkennen der Äußerung aufgrund der Größe der durchsuchten Wörterbuchdatei lang.
- Ein zusätzlicher Nachteil natürlicher Spracherkennungs- und Verarbeitungssystemen für natürliche Sprache besteht darin, dass sie nicht interaktiv sind und somit nicht mit neuen Situationen umgehen können. Wenn ein Computersystem auf unbekannte oder neue Netzobjekte trifft, bilden sich neue Verhältnisse zwischen dem Computer und den Objekten. Herkömmliche Spracherkennung und Verarbeitungssysteme für natürliche Sprache können nicht mit Situationen umgehen, die aus den neuen Verhältnissen, die sich aus durch zuvor unbekannte Netzobjekte stellen, resultieren. Als Folge ist eine konversationsartige Interaktion mit dem Computer nicht möglich. Der Benutzer muss dem Computer vollständige Konzepte übermitteln. Der Benutzer kann nicht in Satzfragmenten sprechen, da die Bedeutung dieser Satzfragmente verloren geht (was von der Bedeutung von vorherigen Äußerungen abhängt).
- Es ist eine interaktive Benutzerschnittstelle für einen Computer erforderlich, welche Spracherkennung und Verarbeitung natürlicher Sprache verwendet und die obengenannten Nachteile vermeidet.
- EP-A-0854418 offenbart ein System zum Hinzufügen von Spracherkennungsfähigkeiten zu Java, wobei ein mit einer Java-Anwendung gekoppelter Spracherkennungsserver über eine Anwendungsprogramm-Schnittstelle vorgesehen ist.
- Gemäß einem ersten Aspekt der Erfindung ist ein Verfahren zur Interaktion mit einem Netzobjekt vorgesehen, wobei das Verfahren aufweist: Empfangen einer sich auf ein Netzobjekt beziehenden Interaktion von einem Benutzer her; Feststellen, ob eine Netzobjekttabelle dem Netzobjekt zugeordnet ist; Erhalten der Netzobjekttabelle, die dem Netzobjekt zugeordnet ist, falls die Netzobjekttabelle existiert, wobei die Netzobjekttabelle einen Eintrag hat, der dem Netzobjekt entspricht und eine oder mehr Maßnahmen spezifiziert, die dem Netzobjekt zugeordnet sind; Suchen in der dadurch erhaltenen Netzobjekttabelle nach einem passenden Eintrag für das Netzobjekt, Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Netzobjekttabelle gefunden wird, wobei die Maßnahme das Aktualisieren einer ersten Grammatikdatei mit Grammatik, die sich auf das Netzobjekt bezieht, beinhaltet; Suchen in der ersten Grammatikdatei nach einer passenden Wendung für eine andere sich auf ein Netzobjekt beziehende Interaktion, die von einem Benutzer her erhalten wurde; Suchen in einer zweiten Grammatikdatei nach der passenden Wendung, falls die passende Wendung in der ersten Grammatikdatei nicht gefunden wird; Suchen in einer Datenbank für natürliche Sprache nach einem passenden Eintrag für die genannte passende Wendung; und Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Datenbank für natürliche Sprache gefunden wird; und Auffordern des Benutzers zur Klärung des Netzobjektes, falls kein passender Eintrag in der Datenbank für natürliche Sprache gefunden wird.
- Gemäß einem zweiten Aspekt der vorliegenden Erfindung ist ein System zum Aktualisieren eines Computers für eine Benutzer-Interaktion mit einem Netzobjekt vorgesehen, wobei das System aufweist: eine Netzschnittstelle, die so konfiguriert ist, dass sie eine Dialog-Definitions-Datei, die einem Netzobjekt zugeordnet ist, überträgt, wobei die Dialog-Definitions-Datei eine Netzobjekttabelle enthält, die einen passenden Eintrag für das Netzobjekt hat und eine oder mehrere zugehörige Maßnahmen spezifiziert, die dem Netzobjekt zugeordnet sind; einen Datenprozessor, der so konfiguriert ist, dass er in der Netzobjekttabelle nach einem passenden Eintrag für die Interaktion sucht; eine Anwendungs-Schnittstelle, die so konfiguriert ist, das sie eine Maßnahme durchführt, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Netzobjekttabelle gefunden wird, wobei die Maßnahme das Aktualisieren einer kontext-spezifischen Grammatikdatei mit Grammatik, die sich auf das Netzobjekt bezieht, beinhaltet; einen Sprachprozessor, der dazu ausgebildet ist, in der kontext-spezifischen Grammatikdatei nach einem passenden Satz für eine andere Interaktion zu suchen, die sich auf ein von dem Benutzer her empfangenes Netzobjekt bezieht, in einer generellen Grammatikdatei nach der passenden Wendung zu suchen, falls der passende Satz nicht in der kontextspezifischen Grammatikdatei gefunden wird, in einer Diktiergrammatik nach der passenden Wendung zu suchen, falls die passende Wendung nicht in der generellen Grammatikdatei gefunden wird, und in einem kontext-spezifischen Diktiermodell zu suchen, falls die passende Wendung nicht in der Diktiergrammatik gefunden wird; und einen Prozessor für natürliche Sprache, der so konfiguriert ist, dass er in einer Datenbank nach einem passenden Eintrag für die passende Wendung sucht, wobei die Einträge Wendungen darstellen, die der Datenbank bekannt sind; wobei die Anwendungs-Schnittstelle so konfiguriert ist, dass sie eine dem passenden Eintrag zugeordnete Maßnahme ergreift, falls der passende Eintrag in der Datenbank gefunden wird, und den Benutzer über das Netzobjekt abfragt, falls kein passender Eintrag gefunden wird.
- Bei einer Ausführungsform bietet die vorliegende Erfindung ein System und ein Verfahren zur Interaktion mit einem Computer mittels Äußerungen, Sprachverarbeitung und Verarbeitung natürlicher Sprache. Allgemein weist das System einen Sprachprozessor zum Suchen in einer ersten Grammatikdatei für eine passende Wendung für die Äußerung und zum Suchen in einer zweiten Grammatikdatei nach der passenden Wendung, wenn die passende Wendung nicht in der ersten Grammatikdatei gefunden wird. Das System beinhaltet auch einen Prozessor für natürliche Sprache zum Suchen in einer Datenbank nach einem passenden Eintrag für die passende Wendung und eine Anwendungs-Schnittstelle zum Ausführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, wenn der passende Eintrag in der Datenbank gefunden wird.
- Bei dem bevorzugten Ausführungsbeispiel aktualisiert der Prozessor für natürliche Sprache mindestens die Datenbank, eine erste Grammatikdatei oder eine zweite Grammatikdatei mit der passenden Wendung, wenn der passende Eintrag nicht in der Datenbank gefunden wurde.
- Bei einer Ausführungsform ist die erste Grammatikdatei eine kontext-spezifische Grammatikdatei. Eine kontext-spezifische Grammatikdatei ist eine, die Worte und Wendungen enthält, die höchst relevant für ein spezifisches Objekt sind. Die zweite Grammatikdatei ist eine allgemeine Grammatikdatei. Eine allgemeine Grammatikdatei ist eine, welche Worte und Wendungen enthält, die nicht in Bezug auf einen Kontext interpretiert werden müssen. Das heißt, die Worte und Wendungen in der allgemeinen Grammatikdatei gehören nicht zu einem Stammkontext. Durch Durchsuchen der kontext-spezifischen Grammatikdatei vor dem Suchen in der allgemeinen Grammatikdatei, ermöglicht die vorliegende Erfindung, dass der Benutzer mit dem Computer eher in der Art einer Konversation kommuniziert, wobei die gesprochenen Worte, falls sie in der kontext-spezifischen Grammatikdatei gefunden werden, im Hinblick auf das zuletzt erörterte Thema interpretiert werden.
- Bei einer Ausführungsform sucht der Sprachprozessor in einer Diktiergrammatik nach der passenden Wendung, wenn die passende Wendung nicht in der allgemeinen Grammatikdatei gefunden wird. Die Diktiergrammatik ist ein großes Vokabular von allgemeinen Worten und Wendungen. Dadurch dass die kontextspezifische und allgemeine Grammatik zuerst durchsucht werden, wird erwartet, dass die Spracherkennungszeit sich stark reduziert, da die kontextspezifische und allgemeine Grammatik physisch kleinere Dateien als die Diktiergrammatik sind.
- Bei einer Ausführungsform ersetzt der Prozessor für natürliche Sprache mindestens ein Wort in der passenden Wendung bevor er in der Datenbank sucht. Dies kann durch einen variablen Ersetzer in dem Prozessor für natürliche Sprache erfolgen, um einen Platzhalter für das mindestens eine Wort in der passenden Wendung zu setzen. Durch Ersetzen gewisser Worte („Wortvariable" genannt) durch Platzhalter in der Wendung kann die Anzahl an Einträgen in der Datenbank bedeutend reduziert werden. Außerdem kann ein Pronomen-Ersetzer in dem Prozessor für natürliche Sprache einen richtigen Namen für Pronomen in der passenden Wendung ersetzen, wodurch benutzerspezifische Tatsachen in der Datenbank gespeichert werden können.
- Bei einer Ausführungsform formatiert ein Zeichenreihen-Formatiertext die passende Wendung vor dem Durchsuchen der Datenbank. Ein Wortgewichter gewichtet ebenfalls einzelne Worte in der passenden Wendung gemäß einer relativen Bedeutung der einzelnen Worte vor dem Durchsuchen der Datenbank. Diese Schritte ermöglichen ein schnelleres, akkurateres Durchsuchen der Datenbank.
- Bei einer Ausführungsform erzeugt eine Suchmaschine in dem Prozessor für natürliche Sprache einen Vertrauenswert für den passenden Eintrag. Der Prozessor für natürliche Sprache vergleicht den Vertrauenswert mit einem Schwellenwert. Ein boolescher Tester stellt fest, ob eine erforderliche Anzahl an Worten aus der passenden Wendung in dem passenden Eintrag vorhanden sind. Dieser boolesche Test dient als Verifizierung der von der Suchmaschine gelieferten Ergebnisse.
- Bei einer Ausführungsform fordert der Prozessor für natürliche Sprache den Benutzer auf, ob der passende Eintrag eine korrekte Interpretation der Äußerung ist, falls die erforderliche Anzahl an Worten aus der passenden Wendung nicht in dem passenden Eintrag vorhanden ist, um Unklarheiten zu lösen. Der Prozessor für natürliche Sprache fordert vom Benutzer auch zusätzliche Informationen, falls der passende Eintrag keine korrekte Interpretation der Äußerung ist. Mindestens eines von Datenbank, erster Grammatikdatei und zweiter Grammatikdatei werden mit den zusätzlichen Informationen aktualisiert. Auf diese Weise „lernt" die vorliegende Erfindung adaptiv die Bedeutung von zusätzlichen Äußerungen, wobei die Effektivität der Benutzerschnittstelle verbessert wird.
- Bei einer Ausführungsform aktiviert der Sprachprozessor eine kontext-spezifische Grammatik, die dem passenden Eintrag zugeordnet ist, und sucht darin nach einer folgenden passenden Wendung für eine folgende Äußerung.
- Dadurch wird sichergestellt, dass die wichtigsten Worte und Wendungen zuerst gesucht werden, wodurch sich die Spracherkennungszeiten reduzieren.
- Bei einer Ausführungsform liefert die vorliegende Erfindung ein Verfahren zum Aktualisieren eines Computers zur Sprach-Interaktion mit einem Netzobjekt, wie einer Web-Page. Zuerst wird eine Netzobjekttabelle, welche dem Netzobjekt das Sprach-Interaktionssystem zuordnet, an den Computer über ein Netz übertragen. Die Stelle der Netzobjekttabelle kann in dem Netzobjekt, an einer spezifischen Internet-Website oder einer konsolidierten Stelle eingebettet sein, welche Netzobjekttabellen für mehrere Netzobjekte speichert. Die Netzobjekttabelle wird nach für das Netzobjekt passenden Einträgen durchsucht. Der für das Netzobjekt passende Eintrag kann eine Maßnahme zur Folge haben, z.B. dass eine Textsprache über einen Lautsprecher gesprochen wird, eine kontext-spezifische Grammatikdatei verwendet wird oder eine Prozessordatenbank für natürliche Sprache verwendet wird. Die Netzobjekttabelle kann Teil einer Dialog-Definitionsdatei sein. Dialog-Definitionsdateien können auch kontext-spezifische Grammatik, Einträge für eine Prozessordatenbank für natürliche Sprache oder beides beinhalten.
- Bei einer Ausführungsform überträgt eine Netz-Schnittstelle eine Dialog-Definitionsdatei von über dem Netz her. Die Dialog-Definitionsdatei enthält eine Netzobjekttabelle. Ein Datenprozessor sucht in der Netzobjekttabelle nach einem Tabelleneintrag, welcher zu dem Netzobjekt passt. Sobald dieser passende Tabelleneintrag gefunden wurde, führt eine Anwendungs-Schnittstelle eine von dem passenden Eintrag spezifizierte Maßnahme durch.
- Bei einer Ausführungsform wird die dem Netz zugeordnete Dialog-Definitionsdatei geladen und dann gelesen. Die Dialog-Definitionsdatei könnte von einer Vielzahl von Orten gelesen werden, z.B. einer Website, Speichermedien oder einer Stelle, die Dialog-Definitionsdateien für mehrere Netzobjekte speichert. Eine Netzobjekttabelle, die in der Dialog-Definitionsdatei enthalten ist, wird nach einem Tabelleneintrag durchsucht, der zu dem Netzobjekt passt. Der passende Eintrag definiert eine Maßnahme, die dem Netzobjekt zugeordnet ist und die Maßnahme wird dann von dem System ausgeführt. Zusätzlich zu einer Netzobjekttabelle kann die Dialogdatei eine kontext-spezifische Grammatik, Einträge für eine Prozessordatenbank für natürliche Sprache oder beides enthalten.
- Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung ergeben sich deutlicher aus der folgenden detaillierten Beschreibung in Verbindung mit den Zeichnungen, in welchen gleiche Bezugszeichen Entsprechungen zeigen.
-
1 ist ein funktionelles Blockdiagramm eines beispielhaften Computersystems zur Verwendung mit der vorliegenden Erfindung; -
2 ist ein erweitertes funktionelles Blockdiagramm der CPU102 und Speichermedium108 des Computersystems von1 der vorliegenden Erfindung; -
3A -3D sind Flussdiagramme des Verfahrens zum Bereitstellen von interaktiver Spracherkennung und Verarbeitung natürlicher Sprache an einen Computer; -
4 ist ein Diagram von ausgewählten Spalten einer beispielhaften Verarbeitungs- (NLP) Datenbank für natürliche Sprache der vorliegenden Erfindung; -
5 ist ein Diagramm einer beispielhaften Datenbank-Definitionsdatei (DDF) gemäß der vorliegenden Erfindung; -
6 ist ein Diagramm von gewählten Spalten einer beispielhaften Netzwerkobjekttabelle der vorliegenden Erfindung; -
7A -7C sind Flussdiagramme des Verfahrens der vorliegenden Erfindung, die die Verknüpfung von interaktiver Spracherkennung und Verarbeitung natürlicher Sprache an ein Netzobjekt, wie einer Webpage zeigen; und -
8 ist ein Diagramm, welches ein Computersystem zeigt, das mit anderen Computern, Speichermedien und Websites über das Internet verbunden wird. - Die vorliegende Erfindung wird nun in Bezug auf ein funktionelles Blockdiagramm eines beispielhaften Computersystems
100 von1 offenbart. In1 beinhaltet das Computersystem100 eine zentrale Verarbeitungseinheit (CPU)102 . Die CPU102 kann ein beliebiger Mikroprozessor für allgemeine Zwecke oder ein bekanntes Mikrosteuersystem sein, das entsprechend programmiert ist, um das hier in Bezug auf3A -3D beschriebene Verfahren auszuführen. Die Software zum Programmieren der CPU kann in dem Speichermedium108 oder alternativ an einer anderen Stelle über einem Computernetz vorhanden sein. Die CPU102 kann z.B. ein herkömmlicher Mikroprozessor wie ein Pentium II Prozessor sein, hergestellt von Intel Corporation oder dergleichen. - Die CPU
102 kommuniziert mit einer Mehrzahl von Peripheriegeräten, einschließlich einem Display104 , einer Eingabevorrichtung106 , einem Speichermedium108 , einem Mikrophon110 , einem Lautsprecher112 und einem Dateneingangsport114 und einer Netz-Schnittstelle116 . Das Display104 kann ein visuelles Display wie ein CRT, LCD-Bildschirm, berührungsempfindlicher Bildschirm oder andere bekannte Monitore sein zur visuellen Anzeige von Bildern und Texten für einen Benutzer. Die Eingabevorrichtung106 kann eine herkömmliche Tastatur, ein Tastenfeld, eine Maus, ein Trackball oder eine andere Eingabevorrichtung sein, wie sie zur manuellen Eingabe von Daten bekannt sind. Das Speichermedium108 kann ein herkömmlicher Lese/Schreib-Speicher wie ein Magnetlaufwerk, ein Floppy-Disk-Laufwerk, ein CD-Rom-Laufwerk, ein Speicherchip oder eine andere Speichervorrichtung sein, die herkömmlicherweise zum Speichern und zur Wiedergabe von Daten verwendet werden. In bedeutender Weise kann das Speichermedium108 von der CPU102 entfernt angeordnet sein und mit der CPU102 über ein Netz, wie ein Local Area Network (LAN) oder Wide Area Network (WAN) oder Internet verbunden sein. Das Mikrophon110 kann ein beliebiges, geeignetes, bekanntes Mikrophon sein, um Audiosignale der CPU102 zuzuführen. Der Lautsprecher112 kann ein beliebiger, geeigneter, bekannter Lautsprecher zum Reproduzieren von Audiosignalen von der CPU102 sein. Es ist klar, dass das Mikrophon110 und der Lautsprecher112 entsprechende Digital-Analog- und Analog-Digital-Umwandlungsschaltungen je nach Bedarf beinhalten kann. Der Dateneingabeport114 kann ein beliebiger bekannter Datenport zum Verbinden mit einer externen Zugriffsvorrichtung sein unter Verwendung eines Datenprotokolls, wie RS-232, Universal Serial Bus oder dergleichen. Die Netz-Schnittstelle116 kann eine beliebige bekannte Schnittstelle sein zum Kommunizieren oder Übertragen von Daten über ein Computernetz. Beispiele solcher Netze beinhalten TCP/IP, Ethernet oder Token- Ring-Netze. Außerdem kann bei einigen Systemen die Netz-Schnittstelle116 aus einem Modem bestehen, das mit dem Dateneingangsport114 verbunden ist. -
1 zeigt somit die funktionellen Elemente eines Computersystems100 . Alle Elemente des Computersystems100 können geeignete Standardkomponenten wie oben beschrieben sein. Die vorliegende Erfindung liefert ein Verfahren und ein System zur Interaktion zwischen Mensch und Computersystem100 mittels Sprache. - Wie in
8 gezeigt ist, kann das Computersystem100 mit dem Internet700 , einer Sammlung von Computernetzen, verbunden werden. Das Computersystem100 kann über eine Netz-Schnittstelle116 , ein mit dem Dateneingangsport114 verbundenes Modem oder jegliches andere bekannte Verfahren mit dem Internet700 verbunden werden. Websites710 , andere Computer720 und Speichermedien108 können ebenfalls mit dem Internet über solche bekannte Verfahren verbunden werden. -
2 zeigt ein erweitertes funktionelles Blockdiagramm mit einer CPU102 und einem Speichermedium108 . Es ist klar, dass die funktionellen Elemente von2 insgesamt in Software oder Hardware oder beidem verkörpert sein können. Bei einer Software-Ausführungsform, kann sich die Software in dem Speichermedium108 oder an einer anderen Stelle im Computernetz befinden. Die CPU102 beinhaltet einen Spracherkennungsprozessor200 , einen Datenprozessor201 , einen Prozessor für natürliche Sprache202 und eine Anwendungs-Schnittstelle220 . Der Datenprozessor201 ist über eine Schnittstelle mit dem Display104 , dem Speichermedium108 , dem Mikrophon110 , dem Lautsprecher112 , dem Dateneingangsport114 und der Netz-Schnittstelle116 verbunden. Der Datenprozessor201 ermöglicht, dass die CPU Daten von diesen Quellen lokalisieren und lesen kann. Der Prozessor für natürliche Sprache202 beinhaltet weiterhin einen variablen Ersetzer204 , eine Zeichenreihen-Formattiervorrichtung206 , einen Wortgewichter208 , einen booleschen Tester210 , einen Pronomen-Ersetzer211 und eine Suchmaschine213 . Das Speichermedium108 beinhaltet eine Mehrzahl von kontextspezifischen Grammatikdateien212 , eine allgemeine Grammatikdatei214 , eine Diktiergrammatik216 und eine Prozessor (NLP) Datenbank für natürliche Sprache218 . Bei der bevorzugten Ausführungsform sind die Grammatikdateien212 ,214 und216 Bakus-Naur Form (BNF) Dateien, die die Struktur der von dem Benutzer gesprochenen Sprache beschreiben. BNF-Dateien zum Beschreiben der Sprachstruktur und Details von BNF-Dateien sind sehr bekannt und werden deshalb hier nicht erörtert. Ein Vorteil von BNF-Dateien besteht darin, dass hierarchische baumähnliche Strukturen verwendet werden können, um Wendungen oder Wortsequenzen zu beschreiben, ohne explizit alle Kombinationen dieser Wortsequenzen zitieren zu müssen. Somit wird durch die Verwendung von BNF-Dateien in der bevorzugten Ausführungsform die physische Größe der Dateien212 ,214 und216 in dem Speichermedium108 minimiert, wodurch die Geschwindigkeit, mit welcher diese Dateien aktiviert und durchsucht werden können steigt, was im folgenden beschrieben ist. Bei anderen Ausführungsformen werden jedoch andere Datenstrukturen verwendet. - Der Betrieb und Interaktion dieser funktionellen Elemente von
2 werden in Bezug auf das Flussdiagramm von3A -3D beschrieben. In3A beginnt der Fluss bei Block300 durch Bereitstellen einer Äußerung an den Sprachprozessor200 . Eine Äußerung ist eine Reihe von Tönen mit einem Beginn und Ende und kann eines oder mehr gesprochene Worte beinhalten. Das Mikrophon110 , welches gesprochene Worte aufnimmt, kann den Schritt von Block300 ausführen. Alternativ kann die Äußerung dem Sprachprozessor200 über den Dateneingabeport114 oder von einem Speichermedium108 bereitgestellt werden. Vorzugsweise ist die Äußerung in einem digitalen Format, wie dem bekannten „wav"-Audio-Dateiformat. - Der Fluss schreitet weiter zur Entscheidung
302 , wo der Sprachprozessor200 feststellt, ob eine der kontext-spezifischen Grammatiken212 aktiviert wurde. Wenn die kontext-spezifischen Grammatiken212 aktiviert sind, werden die kontext-spezifischen Grammatiken212 bei Block304 durchsucht. In der bevorzugten Ausführungsform sind die kontext-spezifischen Grammatiken212 BNF-Dateien, die Worte und Wendungen enthalten, die sich auf einen Stammkontext beziehen. Allgemein ist ein Kontext ein Subjektbereich. Bei einer Ausführungsform der vorliegenden Erfindung, die bei PCs angewandt werden kann, können Kontexte zum Beispiel „Nachrichten" oder „Wetter" oder „Aktien" sein. In diesem Fall würden die kontext-spezifischen Grammatiken212 jeweils Befehle, Steuerworte, Beschreiber, Qualifizierer oder Parameter enthalten, die einem anderen dieser Kontexte entsprechen. Die Verwendung von Kontexten liefert eine hierarchische Struktur für Arten von Informationen. Kontexte und ihre Verwendung werden im Folgenden in Bezug auf die NLP-Datenbank218 beschrieben. - Wenn eine kontext-spezifische Grammatik
212 aktiviert wurde, wird die kontextspezifische Grammatik212 nach einer Entsprechung für die in Block300 bereitgestellte Äußerung durchsucht. Wenn jedoch keine kontext-spezifische Grammatik212 aktiviert wurde, geht der Fluss weiter zu Block308 , wo die allgemeine Grammatik214 aktiviert wird. - Bei der bevorzugten Ausführungsform ist die allgemeine Grammatik
214 eine BNF-Datei, welche Worte und Wendungen enthält, die nicht selbst zu einem Stammkontext gehören, jedoch einen zugeordneten Kontext haben, für welchen eine kontext-spezifische Grammatikdatei212 existiert. Mit anderen Worten können die Worte und Wendungen in der allgemeinen Grammatik214 an der Wurzel der hierarchischen Kontextstruktur sein. Bei einer Ausführungsform, die bei PCs anwendbar ist, würde die allgemeine Grammatik214 z.B. Befehle und Steuersätze enthalten. - In Block
310 wird die allgemeine Grammatik214 nach einem passenden Wort oder Wendung für die bei Block300 bereitgestellte Äußerung durchsucht. Eine Entscheidung erfolgt bei Block312 , je nachdem ob eine Entsprechung gefunden wurde. Wenn keine Entsprechung gefunden wird, wird die Diktiergrammatik216 bei Block314 aktiviert. Bei der bevorzugten Ausführungsform ist die Diktiergrammatik216 eine BNF-Datei, die eine Liste von Worten enthält, die selbst weder einen Stammkontext noch einen zugeordneten Kontext haben. Bei einer Ausführungsform z.B. die bei PCs angewendet werden kann, enthält die Diktiergrammatik216 eine relativ große Liste von allgemeinen Worten, die einem allgemeinen Wörterbuch ähnlich ist. - In Block
316 wird die Diktiergrammatik nach passenden Worten für jedes Wort der bei Block300 bereitgestellten Äußerung durchsucht. Bei dem Entscheidungsblock318 wird, wenn keine passenden Worte gefunden werden, wahlweise eine visuelle Fehlernachricht bei Anzeige104 angezeigt oder eine hörbare Fehlernachricht wird wahlweise mittels Lautsprecher112 bei Block320 reproduziert. Der Vorgang endet wenn eine weitere Äußerung dem Sprachprozessor200 bei Block300 bereitgestellt wird. - Wie aus der obigen Beschreibung hervorgeht, wird, wenn eine Äußerung dem Sprachprozessor
200 zugeführt wird, die aktivierte kontext-spezifische Grammatik212 , falls vorhanden, zuerst durchsucht. Wenn keine Entsprechungen in der aktivierten kontext-spezifischen Grammatik212 gefunden werden, wird die allgemeine Grammatik214 aktiviert und durchsucht. Wenn keine Entsprechungen in der allgemeinen Grammatik214 gefunden werden, wird die Diktiergrammatik316 aktiviert und durchsucht. - Bei der bevorzugten Ausführungsform ist der Spracherkennungs-Prozessor
200 in dem sogenannten „Befehls- und Steuer"-Modus, wenn er entweder die kontextspezifische Grammatik212 oder die allgemeine Grammatik214 durchsucht. In diesem Modus vergleicht der Spracherkennungs-Prozessor200 die gesamte Äußerung als ein Ganzes mit den Einträgen in der Grammatik. Im Vergleich dazu ist der Spracherkennungs-Prozessor200 in dem sogenannten „Diktier"-Modus, wenn er die Diktiergrammatik durchsucht. In diesem Modus vergleicht der Spracherkennungs-Prozessor200 die Äußerung mit den Einträgen in der Diktiergrammatik216 Wort für Wort. Es wird angenommen, dass die Suche nach einer Entsprechung für eine gesamte Äußerung in dem Befehls- und Steuermodus allgemein schneller sein wird als eine Wort-für-Wort-Suche im Diktiermodus. - Es wird weiterhin erwartet, dass eine beliebige individuelle kontext-spezifische Grammatik
212 kleiner ist (d.h. weniger Gesamtworte und Wendungen) als die allgemeine Grammatik214 , welche wiederum kleiner ist als die Diktiergrammatik216 . Somit ist es beim Durchsuchen von zuerst einer beliebigen aktivierten kontext-spezifischen Grammatik212 wahrscheinlich, dass eine Übereinstimmung, falls vorhanden, schneller gefunden wird, zumindest teilweise dadurch, dass sie kleiner ist. In ähnlicher Weise ist es beim Durchsuchen der allgemeinen Grammatik214 vor der Diktiergrammatik216 wahrscheinlich, dass, wenn eine Übereinstimmung gefunden wird, diese schneller gefunden wird. - Außerdem werden sie die häufigsten Äußerungen enthalten, was weiter unten in Bezug auf die Fähigkeit der vorliegenden Erfindung erklärt wird, dass sie diese adaptiv sowohl der kontext-spezifischen Grammatik
212 als auch der allgemeinen Grammatik214 hinzufügt. Somit wird erwartet, dass eine Übereinstimmung mit größerer Wahrscheinlichkeit schnell in der kontextspezifischen Grammatik212 oder der allgemeinen Grammatik214 als in der Diktiergrammatik216 gefunden wird. - Schließlich werden die Worte und Wendungen in der aktivierten kontextspezifischen Grammatik
212 wahrscheinlicher von dem Benutzer geäußert, da es Worte sind, die für das Thema, über welches der Benutzer gerade erst gesprochen hat, höchst relevant sind, was im folgenden weiter erklärt wird. Dies ermöglicht es auch dem Benutzer eher im Konversationsstil zu sprechen, wobei er Satzfragmente verwendet, wobei die Bedeutung dieser Wörter entsprechend der aktivierten kontext-spezifischen Grammatik212 interpretiert werden. - Beim Durchsuchen der oben beschriebenen Sequenz kann die vorliegende Erfindung effektiver suchen als wenn nur ein Eintrag zu jedem Zeitpunkt in einer einzelnen großen Liste aller erwarteten Wörter und Wendungen durchsucht würde.
- In Bezug auf die Entscheidung
306 gibt es drei mögliche folgende Schritte (3A ), wenn eine Übereinstimmung in der kontext-spezifischen Grammatik212 gefunden wird. Für jeden passenden Eintrag in der aktivierten kontextspezifischen Grammatik212 kann eine entsprechende Maßnahme durch den Spracherkennungs-Prozessor200 erforderlich sein. Block322 zeigt, dass eine Maßnahme darin bestehen kann, dass die Anwendungs-Schnittstelle220 angewiesen wird, eine Maßnahme in Bezug auf eine separate Software-Anwendung oder -einheit zu ergreifen. Die Anwendungs-Schnittstelle220 kann z.B. die Sprachanwendungs-Programmierschnittstellen (SAPI) Standard von Microsoft verwenden, um mit einer externen Anwendung zu kommunizieren. Die externe Anwendung kann z.B. so angewiesen werden, dass sie z.B. auf eine bestimmte Internet-Website URL zugreift oder eine bestimmte Wendung ausspricht, indem Text in Sprache konvertiert wird. Andere Maßnahmen können ergriffen werden, was weiter unten in Bezug auf die NLP-Datenbank218 von4 erörtert wird. - Block
324 zeigt, dass eine andere Maßnahme darin bestehen kann, auf eine Reihe in der Verarbeitungs (NLP) Datenbank218 für natürliche Sprache direkt zuzugreifen, wobei die weiter unten beschriebenen Verarbeitungsschritte für natürliche Sprache umgangen werden. Block326 zeigt, dass eine anderen Maßnahme darin bestehen kann, ein Wort oder Wendung für den aktivierten Kontext zu dem passenden Wort oder Wendung, die in der kontext-spezifischen Grammatik306 gefunden wurde, voranzustellen. Wenn z.B. der aktivierte Kontext „Filme" ist und die passende Äußerung „8 Uhr" ist, würde das Wort „Filme" zu der Wendung „8 Uhr" vorangestellt werden, um die Wendung „Filme um 8 Uhr" zu bilden. - In ähnlicher Weise kann der Fluss, wenn eine Übereinstimmung in der allgemeinen Grammatik
214 gefunden wird, zu Block322 weitergehen, wo die Anwendungs-Schnittstelle220 angewiesen wird, eine Maßnahme wie oben beschrieben zu ergreifen, oder zu Block324 , wo auf eine Reihe in der NLP-Datenbank direkt Zugriff genommen wird. Wenn jedoch eine Übereinstimmung in der allgemeinen Grammatik214 gefunden wird, findet kein Voranstellen eines Kontextes statt, da, wie oben erwähnt, die Einträge in der allgemeinen Grammatik214 nicht selbst einen Stammkontext haben. - Alternativ können manuell eingegebene Worte bei Block
301 aufgenommen und in den Prozessor für natürliche Sprache eingegeben werden. - Schließlich können in Bezug auf
3A Worte manuell über eine manuelle Eingabe106 eingegeben werden. In diesem Fall ist keine Spracherkennung erforderlich und trotzdem ist eine natürliche Sprachverarbeitung der eingegebenen Worte immer noch erwünscht. Somit geht der Fluss zu3B weiter. - In
3B bei Block328 formatiert der Prozessor202 für natürliche Sprache die Wendung für eine Verarbeitungsanalyse für natürliche Sprache. Dieses Formatieren erfolgt durch einen Zeichenreihenformattierer206 und kann Textverarbeitung wie z.B. Entfernen von doppelten Leerstellen zwischen Worten beinhalten, Kleinschreibung aller Buchstaben (oder Großschreibung), Erweitern von Verkürzungen (z.B. Ändern von „it's" in „it is") und dergleichen. Der Zweck dieses Formatierschrittes besteht darin, die Phrase für das Parsen vorzubereiten. - Der Fluss geht weiter zu Block
330 , wo bestimmte „Wort-Variable" durch eine zugeordnete Platzhalterfunktion von einem variablen Ersetzer204 ersetzt werden, um dadurch den Zugriff auf die NLP Datenbank218 vorzubereiten. Bei der vorliegenden Verwendung bezieht sich der Begriff „Wort-Variable" auf Worte oder Wendungen, die Mengen, Daten, Zeiten, Währungen und dergleichen darstellen. Bei einer Ausführungsform z.B. würde die Wendung „welche Filme laufen um 8 Uhr" bei Block330 in „welche Filme laufen um $ Uhr" umgewandelt, wobei „$ Uhr" eine Platzhalterfunktion ist, die verwendet wird, um einen beliebigen Zeitwert darzustellen. Als weiteres Beispiel würde in einer Ausführungsform die Wendung „verkaufe IBM Aktien zu 100 Dollar" in Block330 zu „verkaufe IBM Aktien zu $ Dollar" umgewandelt, wobei $ Dollar eine Platzhalterfunktion ist, die verwendet wird, um jeglichen Dollarwert darzustellen. Dieser Schritt kann durch eine einfache Schleife ausgeführt werden, welche die Wendung nach Key Tokens, so wie die Worte „Dollar" oder „Uhr" durchsucht und die Wort-Variablen mit einer spezifizierten Platzhalterfunktion ersetzt. Um die Stelle in der Wendung wiederzufinden, wo die Ersetzung erfolgte, kann eine Aufstellung verwendet werden. Dies ermöglicht erneutes Ersetzen der ursprünglichen Wort-Variablen zurück in die Wendung an der Position nachdem die NLP-Datenbank218 durchsucht wurde. - Der Zweck des Ersetzens von Wort-Variablen durch eine zugeordnete Platzhalterfunktion bei Block
330 besteht darin, die Anzahl an Eingaben zu reduzieren, die in der NLP-Datenbank218 vorhanden sein müssen. Die NLP-Datenbank218 würde nur die Wendung „welche Filme laufen um $ Uhr" enthalten statt eines separaten Eintrags für 8 Uhr, 9 Uhr, 10 Uhr usw. Die NLP-Datenbank218 wird im folgenden beschrieben. - Bei Block
334 werden die einzelnen Worte in der Wendung entsprechend ihrer relativen „Bedeutung" oder „Signifikanz" für die Gesamtbedeutung der Wendung von dem Wortgewichter208 gewichtet. Bei einer Ausführungsform sind z.B. drei Gewichtungsfaktoren zugeordnet. Der kleinste Gewichtungsfaktor ist Worten wie „a", „an", „the" und anderen Artikeln zugeordnet. Der höchste Gewichtungsfaktor wird Worten verliehen, die wahrscheinlich einen bedeutenden Bezug zu der Bedeutung der Wendung haben. Diese können z.B. alle Verben, Hauptwörter, Adjektive und eigene Namen in der NLP-Datenbank218 beinhalten. Alle anderen Worte in der Wendung erhalten einen mittleren Gewichtungsfaktor. Der Zweck dieser Gewichtung besteht darin, die NLP-Datenbank218 effektiver zu durchsuchen. - Ein Beispiel von ausgewählten Spalten der NLP-Datenbank
218 einer Ausführungsform ist in4 gezeigt. Die NLP-Datenbank218 umfasst eine Mehrzahl von Spalten400 -410 und eine Mehrzahl von Reihen412 -412N . In Spalte400 stellen die Einträge der NLP-Datenbank „bekannte" Wendungen dar. In Spalte402 ist eine Anzahl von erforderlichen Worten für jeden Eintrag in Spalte400 gezeigt. In Spalte404 ist ein zugehöriger Kontext oder Subkontext für jeden Eintrag in Spalte400 gezeigt. In Spalten408 und410 sind eine oder mehr zugeordnete Maßnahmen für jeden Eintrag in Spalte400 gezeigt. Es sollte beachtet werden, dass die in4 gezeigte NLP-Datenbank218 nur ein vereinfachtes Beispiel zum Zweck, die Erfindung zu lehren. Andere Ausführungsformen können weniger oder mehr Spalten mit unterschiedlichen Einträgen haben. - In Bezug zurück zu
3B wird bei Block336 die NLP-Datenbank218 nach möglichen Übereinstimmungen mit der Wendung durchsucht, basierend darauf, ob die Eingabe in Spalte400 der NLP-Datenbank218 eines der Worte in der Wendung (oder Synonyme dazu) enthält und auf die relative Gewichtung dieser Worte. Bei Block338 wird ein Vertrauenswert für jede mögliche passende Eintragung auf der Basis der Anzahl des Vorkommens jedes der Worte in der Wendung und ihrer relativen Gewichtungen erzeugt. Gewichtete Wortsuche einer Datenbank ist wohlbekannt im Stand der Technik und kann durch kommerziell erhältliche Suchmaschinen, z.B. das Produkt „dtSuche" von DT Software, Inc. Arlington, Virginia ausgeführt werden. Das Suchen mittels Synonymen ist ebenfalls wohlbekannt im Stand der Technik und kann mittels öffentlich erhältlichen Tools wie „WordNet", entwickelt von dem Cognitive Science Laboratory der Princeton University in Princeton, New Jersey ausgeführt werden. Die Suchmaschine kann ein integraler Teil des Prozessors202 für natürliche Sprache sein. - Bei der Entscheidung
340 bestimmt der Prozessor202 für natürliche Sprache, ob einige der möglicherweise passenden Einträge einen Vertrauenswert von mehr oder gleich einem vorbestimmten minimalen Schwellenwert T hat. Der Schwellenwert T stellt den geringsten akzeptierbaren Vertrauenswert dar, für welchen eine Entscheidung getroffen werden kann, ob die Wendung mit einem der Einträge in der NLP-Datenbank218 übereinstimmt. Falls kein möglicherweise passender Eintrag mit einem Vertrauenswert von mehr oder gleich T existiert, geht der Fluss zurück zu Block342 , wo eine wahlfreie Fehlernachricht dem Benutzer entweder visuell über ein Display104 dargestellt oder hörbar über einen Lautsprecher112 reproduziert wird. Bei einer Ausführungsform kann die Art der möglicherweise vorhandenen Fehlernachricht, die dem Benutzer angezeigt wird, davon abhängen, wie viele „Treffer" (d.h. wie viele passenden Worte der Wendung) in dem NLP-Datenbankeintrag von höchstem Vertrauen gefunden wurden. Falls es null oder einen Treffer gäbe, würde eine andere Art von Fehlernachricht erzeugt als wenn es zwei oder mehr Treffer gäbe. - Wenn jedoch mindestens ein Eintrag in der NLP-Datenbank
218 vorgesehen ist, für welche ein Vertrauenswert von mehr oder gleich T existiert, geht der Fluss zurück zu Block344 , wo die „noise" Worte aus der Wendung entfernt werden. Die „noise" Worte beinhalten Worte, die nicht wesentlich zu der Gesamtbedeutung der Wendung relativ zu den anderen Worten in der Wendung beitragen. Diese können Artikel, Pronomen, Konjunktionen und Worte ähnlicher Natur beinhalten. „non noise" Worte würden Worte beinhalten, die bedeutend zu der Gesamtbedeutung der Wendung beitragen. „non noise" Worte würden Verben, Hauptwörter, Adjektive, eigene Namen und Worte ähnlicher Natur beinhalten. - Der Fluss geht zu
3C weiter, wo die Anforderung für „non noise" Worte aus Spalte402 der NLP-Datenbank218 für den passenden Eintrag mit höchstem Vertrauen bei Block346 wiedergewonnen wird. Wenn die passende Wendung mit höchstem Vertrauen der Eintrag in Reihe412A wäre (z.B. „welche Filme laufen um $ Uhr"), dann ist die Anzahl der erforderlichen „non noise" Worte3 . - Bei Entscheidung
348 erfolgt ein Test, um festzustellen, ob die Anzahl an erforderlichen „non noise" Worte aus der Wendung tatsächlich in dem Eintrag mit höchstem Vertrauen, der aus der NLP-Datenbank218 wiedergewonnen wurde, vorhanden ist. Dieser Test ist eine Verifizierung der Genauigkeit der Relevanzartigen Suche, die bei Block336 durchgeführt wird, wobei klar ist, dass ein Eintrag einen Vertrauenswert erzeugen kann, der höher ist als der minimale Schwellenwert T, ohne eine akzeptable Übereinstimmung für die Wendung zu sein. - Die Art des bei Entscheidung
348 durchgeführten Tests ist ein boolescher „AND" Test, der von einem booleschen Tester210 ausgeführt wird. Der Test stellt fest, ob jedes der „non noise" Worte in der Wendung (oder sein Synonym) tatsächlich in dem Eintrag höchsten Vertrauens vorhanden ist. Wenn eine ausreichende Anzahl an erforderlichen Worten tatsächlich in dem Eintrag höchsten Vertrauens vorhanden ist, geht der Fluss zurück zu Block350 , wo der Prozessor202 für natürliche Sprache die Anwendungs-Schnittstelle220 anweist, eine zugeordnete Maßnahme von Spalte408 oder410 zu ergreifen. Es ist klar, dass zusätzliche Maßnahmenspalten auch vorhanden sein können. - Wenn z.B. der Eintrag höchsten Vertrauens der Eintrag in Reihe
412A ist und der boolesche Test der Entscheidung348 feststellte, dass tatsächlich 3 „non noise" Worte aus der Wendung in dem Eintrag in Spalte400 gefunden wurden, würde die zugeordnete Maßnahme in Spalte408 (z.B. Zugriff auf Film-Website) ergriffen. Andere Einträge in der NLP-Datenbank haben andere zugeordnete Maßnahmen. Wenn z.B. der Eintrag höchsten Vertrauens der in Spalte412E ist (z.B. „wie spät ist es"), kann die zugeordnete Maßnahme für einen Prozessor202 für natürliche Sprache sein, eine Text-Sprach-Anwendung (nicht gezeigt) anzuweisen, dem Benutzer die momentane Zeit über den Lautsprecher112 zu übermitteln. Als weiteres Beispiel, wenn der Eintrag höchsten Vertrauens der in Reihe412N ist (z.B. „Nachrichten zeigen") kann die erste zugehörige Maßnahme darin bestehen, auf eine vorbestimmte Nachrichten-Website im Internet zuzugreifen und eine zweite zugeordnete Maßnahme kann darin bestehen, eine Bildanzeige-Anwendung (nicht gezeigt) anzuweisen, den Nachrichten zugeordnete Bilder anzuzeigen. Andere oder zusätzliche Maßnahmen können ebenfalls ausgeführt werden. - Wenn außerdem der Eintrag mit dem höchsten Vertrauen die erforderliche Anzahl an „non noise" Worten aus der Wendung, bestimmt bei Entscheidung
348 , enthält, weist der Prozessor202 für natürliche Sprache den Spracherkennungs-Prozessor200 an, die kontext-spezifische Grammatik212 für den zugeordneten Kontext von Spalte404 zu aktivieren. Somit würde für Reihe412A die kontextspezifische Grammatik212 für den Kontext „Filme" aktiviert werden. Wenn somit die nächste Äußerung dem Spracherkennungs-Prozessor200 in Block300 von3A bereitgestellt wird, würde er die aktivierte kontext-spezifische Grammatik212 für „Filme" durchsuchen, bevor er die allgemeine Grammatik214 durchsucht. Wie zuvor erwähnt wurde, erhöht sich durch die entsprechende kontext-spezifische Grammatik212 bedeutend die Wahrscheinlichkeit einer schnellen erfolgreichen Spracherkennung und die Fähigkeit des Benutzers mit dem Computer in einer Konversationsart zu kommunizieren, wird verbessert. - Wenn jedoch zurück bei Entscheidung
348 die erforderliche Anzahl an „non noise" Worten von der Wendung nicht tatsächlich in dem Eintrag höchsten Vertrauens, der von der NLP-Datenbank218 wiedergewonnen wird, vorhanden ist, geht der Fluss zurück zu Block354 , wo beim Benutzer über ein Display104 oder Lautsprecher112 angefragt wird, ob der Eintrag höchsten Vertrauens gemeint war. Wenn z.B. der Benutzer sagte „wie hoch liegen heute die IBM Aktien", kann der Eintrag in der NLP-Datenbank218 von höchstem Vertrauen der Eintrag in Reihe412B sein. In diesem Fall kann die Anzahl an erforderlichen Worten (oder ihre Synonyme) nicht ausreichend sein, obwohl der Relevanzfaktor hoch sein mag. Somit würde beim Benutzer bei Block354 nachgefragt, ob er meinte, „wie hoch ist der Preis der IBM Aktien am 28.08.2998". - Der Benutzer kann entweder bejahend oder verneinend antworten. Wenn bei Entscheidung
356 festgestellt wird, das der Benutzer bejahend geantwortet hat, dann werden die dem Eintrag von höchstem Vertrauen zugeordneten Maßnahme(n) bei Block350 ergriffen und die zugeordnete kontext-spezifische Grammatik212 wird bei Block352 aktiviert. - Wenn jedoch bei Entscheidung
356 festgestellt wird, dass der Benutzer negativ geantwortet hat, geht der Fluss zu3D weiter, wo der zugeordnete Kontext von Spalte404 der NLP-Datenbank218 für den Eintrag höchsten Vertrauens wiedergewonnen wird und der Benutzer wird bei Block360 aufgefordert, Informationen mittels eines kontext-basierenden interaktiven Dialogs zu geben. Wenn der Benutzer z.B. äußerte „wie hoch ist der Preis der XICOR Aktie heute" und der Eintrag höchsten Vertrauens von der NLP-Datenbank218 war Reihe412B (z.B. „was ist der Preis der IBM-Aktie am $ Datum), dann würde beim Benutzer bei Block354 angefragt, ob er dies meinte. - Wenn der Benutzer verneint, wird der Kontext „Aktie" aus Spalte
404 bei Block358 wiedergewonnen und der kontext-basierende interaktive Dialog für den Aktienkontext wird dem Benutzer über das Display104 und Lautsprecher112 präsentiert. Ein solcher kontext-basierender interaktiver Dialog kann eine Aufforderung an den Benutzer nach Name und Börsenschreibersymbol der XICOR Aktie beinhalten. Der Benutzer kann durch Sprechen der erforderten Informationen antworten. Ein anderer kontext-basierender interaktiver Dialog kann für jeden möglichen Kontext verwendet werden. Der interaktive Dialog der auf dem Kontext „Wetter" basiert, kann eine Nachfrage an den Benutzer über den Namen des Orts (z.B. die Stadt) zur Folge haben, in welcher die Wetterinformationen gewünscht sind. Auch kann der interaktive Dialog basierend auf dem Kontext „Nachrichten" eine Nachfrage an den Benutzer über Arten von Artikeln, Nachrichtenquellen, Internet-URL, Nachrichten-Site oder andere zugehörige Informationen zur Folge haben. - Bei Beenden des kontext-basierenden interaktiven Dialogs werden die NLP-Datenbank
218 , allgemeine Grammatik214 und kontext-spezifische Grammatik212 bei Block362 aktualisiert, so dass sie die neuen Informationen beinhalten. Auf diese Weise wird das nächste mal, wenn der Benutzer Informationen anfordert, eine richtige Übereinstimmung gefunden und die entsprechende Maßnahme wird vorgenommen, ohne den Benutzer nach mehr Informationen zu fragen. Somit „lernt" die vorliegende Erfindung adaptiv, um die von dem Benutzer geäußerten Wendungen zu erkennen. - Bei einer Ausführungsform der vorliegenden Erfindung enthalten eine oder mehr der NLP-Datenbank
218 , kontext-spezifischer Grammatik212 , allgemeiner Grammatik214 und Diktiergrammatik216 auch Zeitstempel-Werte (nicht gezeigt), die jedem Eintrag zugeordnet sind. Jedes Mal, wenn ein passender Eintrag verwendet wird, wird der diesem Eintrag zugeordnete Zeitstempel-Wert aktualisiert. In periodischen Intervallen oder durch Initiierung durch den Benutzer werden Einträge, die einen Zeitstempel-Wert vor einem bestimmten Datum und Zeit haben von den entsprechenden Datenbanken/Grammatiken entfernt. Auf diese Weise können die Datenbanken/Grammatiken in einer effektiven Größe gehalten werden, indem alte oder nicht mehr aktuelle Einträge „gesäubert" werden. Dies hilft auch dabei, falsche Übereinstimmungen zu vermeiden. - Bei einer Ausführungsform der vorliegenden Erfindung kann Spracherkennung und Verarbeitung natürlicher Sprache zur Wechselwirkung mit Netzobjekten verwendet werden, wie World-Wide-Web („WWW" oder „Web") Seiten, die eine kontext-sensitive auf Sprache basierende Schnittstelle haben.
-
5 zeigt eine beispielhafte Dialog-Definitions-Datei (DDF)500 , welche Informationen darstellt, die erforderlich sind, um die Spracherkennung und natürliche Sprachverarbeitung einem Internetobjekt zuzuordnen, wie einer Text- oder Graphikdatei oder bei dem bevorzugten Ausführungsbeispiel einer Webpage. Obwohl bei der einfachsten Ausführungsform die Dialog-Definitions-Datei500 aus einer Netzobjekttabelle510 besteht, kann die DDF auch zusätzliche kontext-spezifische Grammatikdateien214 und zusätzliche Einträge für die Verarbeitungs (NLP) Datenbank218 für natürliche Sprache, wie in5 gezeigt ist, enthalten. Die bevorzugte Ausführungsform der DDF500 beinhaltet eine Netzobjekttabelle510 , eine kontext-spezifische Grammatikdatei214 und eine Datei, die Einträge in die Datei218 zur Verarbeitung natürlicher Sprache enthält. Diese Komponenten können in die DDF Datei500 durch jegliches bekannte Verfahren komprimiert und kombiniert werden, wie z.B. durch Lempel-Ziv-Komprimierung. Die kontext-spezifische spezielle Grammatikdatei214 und die Datenbank218 zur Verarbeitung natürlicher Sprache sind in Abschnitten oben beschrieben. Die Netzobjekttabelle510 ist eine Speicherstruktur, wie ein Speicherbaum, Kette oder Tabelle, welche eine Adresse einer Quelle verschiedenen Maßnahmen, Grammatiken oder Einträgen in der NLP-Datenbank218 zuordnet. - Eine beispielhafte Ausführungsform der Netzobjekttabelle
510 ist in6 gezeigt.6 zeigt eine Speichertabelle, die Eintragsspalten enthalten kann für: ein Netzobjekt520 , ein Text-Sprach (TTS) Kennzeichen522 , eine Textsprache524 , ein Benutzungsgrammatik-Kennzeichen526 , ein angefügtes Grammatikkennzeichen528 , ein „Ja/Nein?" Kennzeichen und „Ausführen ja"532 und „Ausführen nein"534 Maßnahmen. Jede Reihe in der Tabelle540A -540E würde die Grammatik und Sprache darstellen, die sich auf individuelle Netzobjekte bezieht. Die beispielhafte Ausführungsform der Erfindung würde sich auf Netzobjekte520 über einen Universal Resource Locator (URL) beziehen. Ein URL ist ein Standardverfahren zum Spezifizieren der Adresse einer beliebigen Quelle im Internet, die Teil des World-Wide-Webs ist. Da dieser Standard im Stand der Technik wohlbekannt ist zum Beschreiben der Stelle der Internetquellen, werden die Details der URLs hier nicht erörtert. Ein Vorteil der URLs besteht darin, dass sie Informationen in einer großen Vielzahl von Netzobjektformaten spezifizieren können, einschließlich Hypertext, graphische, Datenbank- und andere Dateien zusätzlich zu einer Anzahl an Netzobjektgeräten und Kommunikationsprotokollen. - In Kombination mit der Textsprache
524 zeigt das Text-Sprach (TTS) Kennzeichen522 an, ob ein ursprüngliches Statement über einen Lautsprecher112 gesprochen werden soll, wenn das entsprechende Netzobjekt übertragen wird. Beim Übertragen von z.B. der in der Netzobjektspalte520 der Reihe540A (http://www.conversationalsys.com) aufgelisteten Webpage ist das TTS-Kennzeichen522 markiert, das anzeigt, dass die Textsprache524 „Hallo, willkommen bei Conversational Systems" über den Lautsprecher112 gesprochen werden soll. - Die nächsten drei Kennzeichen beziehen sich auf die Verwendung von Grammatiken, die diesem Netzobjekt zugeordnet sind. Die bestätigende Markierung der „Grammatik benutzen"
526 oder „Grammatik anfügen"528 Kennzeichen zeigen die Anwesenheit einer kontent-spezifischen Grammatikdatei216 an, die sich auf das angezeigte Netzobjekt bezieht. Die Markierung des „Grammatik benutzen" Kennzeichens526 zeigt an, dass die neue kontent-spezifische Grammatikdatei214 die existierende kontent-spezifische Grammatikdatei ersetzt und die existierende Datei wird deaktiviert. Das Kennzeichen „angehängte Grammatik"528 zeigt an, dass die neue kontent-spezifische Grammatikdatei gleichzeitig mit der existierenden kontent-spezifischen Grammatikdatei aktiviert werden sollte. - Schließlich beziehen sich die verbleibenden Spalten auf eine „Ja/Nein" Grammatikstruktur. Wenn das „Ja/Nein" Kennzeichen
530 markiert ist, wird eine Standard „Ja/Nein" Grammatik aktiviert. Wenn eine Standard „Ja/Nein" Grammatik aktiviert wird, ergibt sich durch bestätigende, in den Computer gesprochene Befehle, dass der Computer den in der „Ausführen ja" Eingabe532 angezeigten Befehl ausführt. In ähnlicher Weise hat ein negativer Befehl, der in den Computer gesprochen wird, zur Folge, dass der Computer den in dem „Ausführen nein" Eintrag534 angezeigten Befehl ausführt. Die Einträge in den „Ausführen ja"532 und „Ausführen nein"534 Spalten können entweder Befehle oder Hinweise zu Befehlen sein, die in der NLP-Datenbank218 eingebettet sind. Wie z.B. in Reihe540B gezeigt ist, ist das Ja/Nein" Kennzeichen markiert. Eine bestätigende Antwort, wie „Ja" die in den Computer eingegeben wird, hätte die Ausführung des entsprechenden Befehls in dem „Ausführen ja" Eintrag532 zur Folge. In diesem bestimmten Fall ist der Eintrag die Nummer „210", eine Referenz zu dem 210ten Befehl in der NLP-Datenbank. Eine Antwort „Nein" hätte zur Folge, dass der Computer den 211ten Befehl in der NLP-Datenbank ausführt. -
7A zeigt nun das Verfahren und das System zum Bereitstellen von Sprach- und Stimmbefehlen für Internetworking-Computer, wie ein Computer, der im World-Wide-Web blättert. Das Verfahren von7A -7C kann in Verbindung mit dem Verfahren von3A -3D verwendet werden. Bei Block602 ist ein Website URL (Netzobjekt) für einen World-Wide-Web-Browser bereitgestellt. Der Web-Browser ist ein bekanntes Programm, das verwendet wird, um durch das Internet zu navigieren. Der Schritt bei Block602 des Bereitstellens eines URL für den Browser kann so einfach sein, dass ein Benutzer in den URL manuell eintippt oder dass ein Benutzer einen „Link" zu der gewählten Website URL auswählt. Es kann auch das Ergebnis eines gesprochenen Befehls sein, was vorher in Bezug auf die Maßnahme in Verbindung mit jedem Eintrag in die NLP-Datenbank218 beschrieben wurde. Mit dem URL muss der Computer entscheiden, ob er die Internetadresse der in dem URL spezifizierten Website bei Block604 lösen kann. Dieser Löseprozess ist ein bekannter Prozess. Wenn der Computer die Internetadresse nicht lösen kann, wird eine Fehlernachricht in dem Browserfenster bei Block605 angezeigt und das System kehrt zu seinem ursprünglichen Anfangszustand600 zurück. Wenn die Internetadresse gelöst ist, sendet der Computer der Website eine Anfrage für die Webpage bei Block606 . - Eine Entscheidung wird abhängig davon getroffen, ob die Website die Webpage bei Block
608 sendet. Wenn die Website nicht reagiert, oder die Webpage nicht sendet, wird eine Fehlernachricht in dem Browserfenster bei Block605 angezeigt und das System kehrt zu seinem ursprünglichen Startzustand600 zurück. Wenn die Website die Webpage zurücksendet, wird die Webpage in dem Browserfenster bei Block610 angezeigt. - Bei Entscheidungsblock
612 stellt der Computer100 fest, ob die DDF-Datei500 entsprechend der Website bereits auf dem Computer100 ist. Wenn die DDF-Datei vorhanden ist, geht der Fluss zu7C zurück, wenn nicht, geht der Fluss zu7B weiter. - Weiter zu
7B untersucht der Computer, wenn die DDF-Datei500 nicht vorhanden ist, ob die DDF-Datei500 Stelle in der Webpage Hypertext Markup Language (HTML) als URL codiert ist. (Es ist zu beachten, dass HTML bekannt ist und die Einzelheiten der Sprache werden somit hier nicht erörtert). Codieren der DDF-Datei-Stelle in HTML Code kann entweder durch Auflisten der DDF-Datei-Stelle in einem anfänglichen HTML Meta-Tag wie
<meta DDF= http://www.conversationalsys.com/ConverseIt.ddf">
oder direkt über ein Skript-Tag erfolgen, das in die Variation von HTML, unterstützt durch den Browser geschrieben ist
<!-
> DDF = http://www.converationalsys.com/ConverseIl.ddf">
--> - Wenn die DDF-Datei-Stelleninformation in der Webpage codiert ist, wird die Internetadresse der Stelle bei Block
616 aufgelöst und der Computer fordert einen Transfer der DDF-Datei500 bei Block626 an. - Wenn alternativ die DDF-Datei
500 Stelle nicht in der Webpage codiert ist, gibt es mehrere alternative Stellen, wo sie gespeichert werden kann. Sie kann in einer vorab definierten Stelle auf der Website gespeichert werden, wie eine bestimmte Dateistelle in dem Root-Verzeichnis oder an einer anderen zentralisierten Stelle, wie einem anderen Internetserver oder Speichermedium108 von1 . Blöcke618 und620 testen diese Möglichkeiten aus. Block618 bestimmt, ob die DDF-Datei auf der Website angeordnet ist. Bei diesem Schritt sendet der Computer eine Anfrage über die Anwesenheit der DDF-Datei500 an die Website. Wenn die DDF-Datei500 auf der Website vorhanden ist, fordert der Computer einen Transfer der DDF-Datei500 bei Block626 . Wenn die DDF-Datei500 nicht auf der Website angeordnet ist, frägt der Computer an der zentralisierten Stelle nach der Anwesenheit einer DDF-Datei für die Website bei Block620 . Wenn die DDF-Datei auf der Website vorhanden ist, fordert der Computer einen Transfer der DDF-Datei bei Block626 an. Wenn die DDF-Datei500 nicht gefunden werden kann, werden die existierenden Komponenten einer beliebigen vorhandenen DDF-Datei, wie die Netzobjekttabelle510 , NLP-Datenbank218 , die der Website zugeordnet ist und kontext-spezifische Grammatik214 für eine beliebige zuvor besuchte Website in Block622 deaktiviert. Weiterhin wird die Website als nicht sprachlich aktivierte Website behandelt und nur Standard-Grammatikdateien werden bei Block624 verwendet. Standard-Grammatikdateien sind die Grammatikdateien, die auf dem System existieren ausschließlich jeglichen Grammatiken, die der dem Netzobjekt zugeordneten kontent-spezifischen Grammatikdatei zugeordnet sind. - Wenn die DDF-Datei
500 bei Block626 angefordert wird und ihr Transfer nicht erfolgreich ist, werden jegliche existierende Komponenten jeglicher vorhandener DDF-Datei500 bei Block622 deaktiviert und die Website wird als nicht sprachlich aktivierte Website behandelt und nur Standard-Grammatikdateien werden bei Block624 verwendet. - Wenn die DDF-Datei
500 bei Block626 angefordert wird und ihr Transfer bei Block628 erfolgreich ist, ersetzt sie jegliche vorherige DDF-Datei bei Block630 . Jegliche Komponenten der DDF-Datei500 wie die Netobjekttabelle510 , kontextspezifische Grammatikdateien214 und NLP-Datenbank218 werden bei Block632 extrahiert. Eine ähnliche Technik kann verwendet werden, um die Software zu erhalten, die erforderlich ist, um das in3A -3D gezeigte Verfahren auszuführen, mit den funktionellen Elementen von2 . - Der Fluss bewegt sich zu
7C . Die Netzobjekttabelle510 wird in den Speicher durch den Computer in Block634 eingelesen. Wenn die Webpage URL in der Netzobjekttabelle510 der Site vorhanden ist, was in Block636 festgestellt wird, wird dies durch eine Reihe540A -540E der Tabelle dargestellt, was in6 gezeigt ist. Jede Reihe der Netzobjekttabelle stellt die Sprach-Interaktionen dar, die für einen Benutzer für diese bestimmte Webpage erhältlich sind. Wenn keine Reihe entsprechend der Webpage existiert, existiert keine sprachliche Interaktion für die Webpage und die Verarbeitung ist beendet. - Wenn die Webpage URL in der Site-Netzobjekttabelle
510 vorhanden ist, was durch Block636 festgestellt wird, prüft der Computer, ob das TTS-Kennzeichen522 markiert ist, um festzustellen, ob eine Textsprache524 der Webpage bei Block638 zugeordnet ist. Wenn eine Textsprache524 vorhanden ist, wird sie bei Block640 in Sprache umgesetzt und der Fluss geht weiter. Wenn eine kontextspezifische Grammatikdatei der Webpage zugeordnet ist, was durch Entscheidungsblock642 festgestellt wird, wird diese bei Block644 aktiviert und dann wird die NLP-Datenbank218 bei Block646 aktiviert. Wenn keine kontextspezifische Grammatikdatei der Webpage zugeordnet ist, wird nur die NLP- Datenbank218 bei Block646 aktiviert. Sobald die NLP-Datenbank aktiviert ist646 , verhält sich das System wie in3A -3C wie oben beschrieben. - Zusammenfassend liefert die bevorzugte Ausführungsform der vorliegenden Erfindung ein Verfahren und ein System für eine vernetzte interaktive Benutzer-Schnittstelle für einen Computer. Durch Verwendung der kontext-spezifischen Grammatiken, die mit den Internetobjekten über eine Dialog-Definitions-Datei verbunden sind, verringert die vorliegende Ausführungsform die Spracherkennungszeit und erhöht die Fähigkeit des Benutzers, mit Internetobjekten im Stil einer Konversation zu kommunizieren wie Webpages. Weiterhin stärkt die vorliegende Erfindung durch Verwendung adaptiver Aktualisierung der verschiedenen Grammatiken und der NLP-Datenbank die interaktive Effektivität.
- Ausführungsformen der vorliegenden Erfindung wurden mit besonderem Bezug auf das gezeigte Beispiel beschrieben. Es ist jedoch klar, dass Variationen und Modifikationen an den beschriebenen Beispielen im Rahmen der vorliegenden Erfindung, wie sie in den beilegenden Ansprüchen definiert ist, erfolgen können.
Claims (7)
- Verfahren zur Interaktion mit einem Netzobjekt, wobei das Verfahren aufweist: Empfangen einer sich auf ein Netzobjekt beziehenden Interaktion (
602 ) von einem Benutzer her, Feststellen, ob eine Netzobjekttabelle (510 ) dem Netzobjekt zugeordnet ist; Erhalten der Netzobjekttabelle (510 ), die dem Netzobjekt zugeordnet ist, falls die Netzobjekttabelle (510 ) existiert, wobei die Netzobjekttabelle (510 ) einen Eintrag (520 ) hat, der dem Netzobjekt entspricht und eine oder mehr Maßnahmen spezifiziert, die dem Netzobjekt zugeordnet sind; Suchen (626 ) in der dadurch erhaltenen Netzobjekttabelle (510 ) nach einem passendenden Eintrag (540 ) für das Netzobjekt, Durchführen einer Maßnahme, die dem passenden Eintrag (540 ) zugeordnet ist, falls der passende Eintrag in der Netzobjekttabelle (510 ) gefunden wird, wobei die Maßnahme das Aktualisieren (644 ) einer ersten Grammatikdatei mit Grammatik, die sich auf das Netzobjekt bezieht, beinhaltet; Suchen (304 ) in der ersten Grammatikdatei (212 ) nach einem passenden Satz für eine andere sich auf ein Netzobjekt beziehende Interaktion, die von einem Benutzer her erhalten wurde; Suchen (310 ) in einer zweiten Grammatikdatei (214 ) nach dem passenden Satz, falls der passende Satz in der ersten Grammatikdatei nicht gefunden wird; Suchen in einer Datenbank (218 ) für natürliche Sprache nach einem passenden Eintrag für den genannten passenden Satz, wobei die Einträge Sätze darstellen, die die Datenbank kennt; und Durchführen einer Maßnahme, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Datenbank (218 ) für natürliche Sprache gefunden wird; und Auffordern (360 ) des Benutzers zur Klärung des Netzobjektes, falls kein passender Eintrag in der Datenbank (218 ) für natürliche Sprache gefunden wird. - Verfahren nach Anspruch 1, wobei die Netzobjekttabelle (
510 ) von einer Web-Site gelesen wird. - Verfahren nach Anspruch 1, wobei die Netzobjekttabelle (
510 ) von einem Ort gelesen wird, welcher Netzobjekttabellen für mehrere Netzobjekte speichert. - Verfahren nach einem der Ansprüche 1 bis 3, wobei die Netzobjekttabelle (
510 ) in einer Dialog-Definitions-Datei (500 ) beinhaltet ist, die auch eine kontext-spezifische Grammatik (214 ) beinhaltet. - Verfahren nach einem der Ansprüche 1 bis 3, wobei die Netzobjekttabelle (
510 ) in einer Dialog-Definitions-Datei (500 ) enthalten ist, die auch Einträge für eine Datenbank (218 ) für einen Prozessor für natürliche Sprache beinhaltet. - Verfahren nach einem der Ansprüche 1 bis 3, wobei die Netzobjekttabelle (
510 ) in einer Dialog-Definitions-Datei (500 ) beinhaltet ist, die auch eine kontext-spezifische Grammatik (214 ) und Einträge für Datenbank (218 ) für einen Prozessor für natürliche Sprache eine beinhaltet. - System zum Aktualisieren eines Computers (
100 ) für eine Benutzer-Interaktion mit einem Netzobjekt, wobei das System aufweist: eine Netzschnittstelle (116 ), die so konfiguriert ist, dass sie eine Dialog-Definitions-Datei (500 ), die einem Netzobjekt zugeordnet ist, überträgt, wobei die Dialog-Definitions-Datei (500 ) eine Netzobjekttabelle (510 ) enthält, die einen passenden Eintrag (520 ) für das Netzobjekt hat und eine oder mehrere zugehörige Maßnahmen spezifiziert, die dem Netzobjekt zugeordnet sind; einen Datenprozessor (201 ), der so konfiguriert ist, dass er in der Netzobjekttabelle (510 ) nach einem passenden Eintrag für die Interaktion sucht; eine Anwendungs-Schnittstelle (220 ), die so konfiguriert ist, das sie eine Maßnahme durchführt, die dem passenden Eintrag zugeordnet ist, falls der passende Eintrag in der Netzobjekttabelle (510 ) gefunden wird, wobei die Maßnahme das Aktualisieren einer kontext-spezifischen Grammatikdatei (212 ) mit Grammatik, die sich auf das Netzobjekt bezieht, beinhaltet; einen Sprachprozessor (200 ), der dazu ausgebildet ist, in der kontextspezifischen Grammatikdatei (212 ) nach einem passenden Satz für eine andere Interaktion zu suchen, die sich auf ein von dem Benutzer her empfangenes Netzobjekt bezieht, in einer generellen Grammatikdatei (214 ) nach dem passenden Satz zu suchen, falls der passende Satz nicht in der kontextspezifischen Grammatikdatei (212 ) gefunden wird, in einer Diktiergrammatik (216 ) nach dem passenden Satz zu suchen, falls der passende Satz nicht in der generellen Grammatikdatei (214 ) gefunden wird, und in einem kontextspezifischen Diktiermodell (360 ) zu suchen, falls der passende Satz nicht in der Diktiergrammatik (216 ) gefunden wird; und einen Prozessor (202 ) für natürliche Sprache, der so konfiguriert ist, dass er in einer Datenbank (218 ) nach einem passenden Eintrag für den passenden Satz sucht, wobei die Einträge Sätze darstellen, die der Datenbank bekannt sind; wobei die Anwendungs-Schnittstelle (220 ) so konfiguriert ist, dass sie eine dem passenden Eintrag zugeordnete Maßnahme ergreift, falls der passende Eintrag in der Datenbank gefunden wird, und den Benutzer über das Netzobjekt abfragt, falls kein passender Eintrag gefunden wird.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US150459 | 1998-09-09 | ||
US09/150,459 US6499013B1 (en) | 1998-09-09 | 1998-09-09 | Interactive user interface using speech recognition and natural language processing |
US09/166,198 US6532444B1 (en) | 1998-09-09 | 1998-10-05 | Network interactive user interface using speech recognition and natural language processing |
US166198 | 1998-10-05 | ||
PCT/US1999/020447 WO2000014728A1 (en) | 1998-09-09 | 1999-09-08 | Network interactive user interface using speech recognition and natural language processing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69922971D1 DE69922971D1 (de) | 2005-02-03 |
DE69922971T2 true DE69922971T2 (de) | 2005-12-29 |
Family
ID=22534628
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69923191T Expired - Lifetime DE69923191T2 (de) | 1998-09-09 | 1999-09-08 | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem |
DE69922971T Expired - Lifetime DE69922971T2 (de) | 1998-09-09 | 1999-09-08 | Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69923191T Expired - Lifetime DE69923191T2 (de) | 1998-09-09 | 1999-09-08 | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem |
Country Status (10)
Country | Link |
---|---|
US (2) | US6499013B1 (de) |
EP (2) | EP1110206B1 (de) |
JP (2) | JP2002524806A (de) |
CN (2) | CN1161747C (de) |
AT (2) | ATE286296T1 (de) |
AU (2) | AU763059B2 (de) |
CA (2) | CA2343229A1 (de) |
DE (2) | DE69923191T2 (de) |
ES (2) | ES2235520T3 (de) |
WO (2) | WO2000014728A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
Families Citing this family (389)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
AU5451800A (en) * | 1999-05-28 | 2000-12-18 | Sehda, Inc. | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
JP3702414B2 (ja) * | 1999-08-11 | 2005-10-05 | 株式会社日立製作所 | 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置 |
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
CA2748396A1 (en) * | 1999-10-19 | 2001-04-26 | Sony Electronics Inc. | Natural language interface control system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6721705B2 (en) | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US7516190B2 (en) * | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
EP1273004A1 (de) * | 2000-04-06 | 2003-01-08 | One Voice Technologies Inc. | System zum verarbeiten eines natürlichen sprach-dialog-systems |
EP1376418B1 (de) * | 2000-08-31 | 2006-12-27 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US7024348B1 (en) * | 2000-09-28 | 2006-04-04 | Unisys Corporation | Dialogue flow interpreter development tool |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
KR20020032835A (ko) * | 2000-10-27 | 2002-05-04 | 정우성 | 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델 |
DE10196793D2 (de) * | 2000-11-03 | 2004-10-07 | Voicecom Ag | Robuste Spracherkennung mit Datenbankorganisation |
JP3714159B2 (ja) * | 2000-11-30 | 2005-11-09 | 日本電気株式会社 | ブラウザ搭載装置 |
AU2002227096A1 (en) * | 2000-12-01 | 2002-06-11 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
EP1346344A1 (de) * | 2000-12-18 | 2003-09-24 | Koninklijke Philips Electronics N.V. | Speichere äusserung, wähle ein vokabular zur spracherkennung |
US7027987B1 (en) | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7203645B2 (en) * | 2001-04-27 | 2007-04-10 | Intel Corporation | Speech recognition system loading different recognition engines for different applications |
US7506022B2 (en) | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US20030009334A1 (en) * | 2001-07-03 | 2003-01-09 | International Business Machines Corporation | Speech processing board for high volume speech processing applications |
US20030037053A1 (en) * | 2001-08-09 | 2003-02-20 | Zhong-Hua Wang | Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
US6915246B2 (en) * | 2001-12-17 | 2005-07-05 | International Business Machines Corporation | Employing speech recognition and capturing customer speech to improve customer service |
KR20020023197A (ko) * | 2001-12-27 | 2002-03-28 | 김연수 | 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템 |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US6826566B2 (en) * | 2002-01-14 | 2004-11-30 | Speedtrack, Inc. | Identifier vocabulary data access method and system |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
US20030216923A1 (en) * | 2002-05-15 | 2003-11-20 | Gilmore Jeffrey A. | Dynamic content generation for voice messages |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
US20030229554A1 (en) * | 2002-06-10 | 2003-12-11 | Veres Robert Dean | Method and system for composing transaction listing descriptions for use in a network-based transaction facility |
US8719041B2 (en) * | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
CA2530899C (en) | 2002-06-28 | 2013-06-25 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7363398B2 (en) * | 2002-08-16 | 2008-04-22 | The Board Of Trustees Of The Leland Stanford Junior University | Intelligent total access system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US20060276230A1 (en) * | 2002-10-01 | 2006-12-07 | Mcconnell Christopher F | System and method for wireless audio communication with a computer |
US20050180464A1 (en) * | 2002-10-01 | 2005-08-18 | Adondo Corporation | Audio communication with a computer |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
WO2004049192A2 (en) * | 2002-11-28 | 2004-06-10 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
US20040111259A1 (en) * | 2002-12-10 | 2004-06-10 | Miller Edward S. | Speech recognition system having an application program interface |
EP1450350A1 (de) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Verfahren zur Spracherkennung mittels Attributen |
US7480619B1 (en) | 2003-03-04 | 2009-01-20 | The Board Of Trustees Of The Leland Stanford Junior University | Integration manager and natural interaction processor |
US6980949B2 (en) | 2003-03-14 | 2005-12-27 | Sonum Technologies, Inc. | Natural language processor |
US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US8223944B2 (en) * | 2003-05-05 | 2012-07-17 | Interactions Corporation | Conference call management system |
AU2004237227B2 (en) * | 2003-05-05 | 2011-07-14 | Interactions Llc | Apparatus and method for processing service interactions |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
DE602004010804T2 (de) * | 2003-06-02 | 2008-12-04 | International Business Machines Corp. | Sprachantwortsystem, Sprachantwortverfahren, Sprach-Server, Sprachdateiverarbeitungsverfahren, Programm und Aufzeichnungsmedium |
CN1894658B (zh) * | 2003-06-06 | 2012-02-29 | 纽约市哥伦比亚大学托管会 | 用于话音激活网页的系统和方法 |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US7383172B1 (en) | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
US7376752B1 (en) | 2003-10-28 | 2008-05-20 | David Chudnovsky | Method to resolve an incorrectly entered uniform resource locator (URL) |
GB2409561A (en) * | 2003-12-23 | 2005-06-29 | Canon Kk | A method of correcting errors in a speech recognition system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
KR20120038000A (ko) * | 2004-01-20 | 2012-04-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템 |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US9189568B2 (en) * | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
JP2005339237A (ja) * | 2004-05-27 | 2005-12-08 | Aruze Corp | アプリケーション利用補助システム |
WO2005122145A1 (en) * | 2004-06-08 | 2005-12-22 | Metaphor Solutions, Inc. | Speech recognition dialog management |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7242751B2 (en) | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7921091B2 (en) * | 2004-12-16 | 2011-04-05 | At&T Intellectual Property Ii, L.P. | System and method for providing a natural language interface to a database |
ES2261053B1 (es) * | 2004-12-29 | 2008-04-16 | France Telecom España, S.A. | Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles. |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
US7593962B2 (en) * | 2005-02-18 | 2009-09-22 | American Tel-A-Systems, Inc. | System and method for dynamically creating records |
US8225232B2 (en) | 2005-02-28 | 2012-07-17 | Microsoft Corporation | Dynamic configuration of unified messaging state changes |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7996219B2 (en) | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
JP4667138B2 (ja) * | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (de) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | Dynamische sprachverschärfung |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8107610B2 (en) * | 2006-06-06 | 2012-01-31 | At&T Intellectual Property I, L.P. | Callback processing of interactive voice response requests |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9154632B2 (en) * | 2007-09-20 | 2015-10-06 | Unify Gmbh & Co. Kg | Method and communications arrangement for operating a communications connection |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010051591A1 (en) * | 2008-11-06 | 2010-05-14 | Digital Intermediary Pty Limited | Context layered object engine |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110189646A1 (en) * | 2010-02-01 | 2011-08-04 | Amos Benninga | Pedagogical system method and apparatus |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
US8694313B2 (en) | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
US8484031B1 (en) | 2011-01-05 | 2013-07-09 | Interactions Corporation | Automated speech recognition proxy system for natural language understanding |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
WO2012135218A2 (en) * | 2011-03-31 | 2012-10-04 | Microsoft Corporation | Combined activation for natural user interface systems |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
EP2667268A1 (de) * | 2012-05-24 | 2013-11-27 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Automatisierungsgeräts |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103678283B (zh) * | 2012-08-30 | 2016-08-17 | 英业达科技有限公司 | 提供外语词组以辅助外语文章撰写的系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9020809B1 (en) | 2013-02-28 | 2015-04-28 | Google Inc. | Increasing semantic coverage with semantically irrelevant insertions |
US9047271B1 (en) | 2013-02-28 | 2015-06-02 | Google Inc. | Mining data for natural language system |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9984684B1 (en) | 2013-06-25 | 2018-05-29 | Google Llc | Inducing command inputs from high precision and high recall data |
US9299339B1 (en) | 2013-06-25 | 2016-03-29 | Google Inc. | Parsing rule augmentation based on query sequence and action co-occurrence |
US9183196B1 (en) | 2013-06-25 | 2015-11-10 | Google Inc. | Parsing annotator framework from external services |
US9092505B1 (en) | 2013-06-25 | 2015-07-28 | Google Inc. | Parsing rule generalization by n-gram span clustering |
US9123336B1 (en) | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9280970B1 (en) | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
US9251202B1 (en) | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
US9117452B1 (en) | 2013-06-25 | 2015-08-25 | Google Inc. | Exceptions to action invocation from parsing rules |
US9177553B1 (en) | 2013-06-25 | 2015-11-03 | Google Inc. | Identifying underserved command inputs |
US9330195B1 (en) | 2013-06-25 | 2016-05-03 | Google Inc. | Inducing command inputs from property sequences |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
CN104346151B (zh) * | 2013-07-30 | 2018-04-27 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9507849B2 (en) * | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10978060B2 (en) * | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
CN104978965B (zh) * | 2014-04-07 | 2019-04-26 | 三星电子株式会社 | 电子装置及利用电子装置和服务器的语音识别执行方法 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US20150331853A1 (en) * | 2014-05-15 | 2015-11-19 | Marco Palmonari | Automated multi-grammar language processing system to optimize request handling in contact centers |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US9502031B2 (en) * | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
WO2016044321A1 (en) | 2014-09-16 | 2016-03-24 | Min Tang | Integration of domain information into state transitions of a finite state transducer for natural language processing |
EP3195145A4 (de) | 2014-09-16 | 2018-01-24 | VoiceBox Technologies Corporation | Sprachhandel |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160379630A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Speech recognition services |
US10515150B2 (en) * | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10455088B2 (en) | 2015-10-21 | 2019-10-22 | Genesys Telecommunications Laboratories, Inc. | Dialogue flow optimization and personalization |
US10382623B2 (en) | 2015-10-21 | 2019-08-13 | Genesys Telecommunications Laboratories, Inc. | Data-driven dialogue enabled self-help systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10843080B2 (en) * | 2016-02-24 | 2020-11-24 | Virginia Tech Intellectual Properties, Inc. | Automated program synthesis from natural language for domain specific computing applications |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10331784B2 (en) | 2016-07-29 | 2019-06-25 | Voicebox Technologies Corporation | System and method of disambiguating natural language processing requests |
US10838992B2 (en) * | 2016-08-17 | 2020-11-17 | International Business Machines Corporation | Content selection for usage within a policy |
US20180052573A1 (en) * | 2016-08-17 | 2018-02-22 | Microsoft Technology Licensing, Llc | Interaction with a file storage service through a messaging bot |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
GB201618479D0 (en) | 2016-11-02 | 2016-12-14 | Syngenta Participations Ag | Adjuvants |
EP3535752B1 (de) * | 2016-11-02 | 2021-09-15 | Greeneden U.S. Holdings II, LLC | System und verfahren zur parametrisierung von grammatiken zur spracherkennungsgrammatikspezifikation |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20180330725A1 (en) * | 2017-05-09 | 2018-11-15 | Microsoft Technology Licensing, Llc | Intent based speech recognition priming |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
EP3496090A1 (de) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Vorrichtung und verfahren für datenschutzbewahrende stimminteraktion |
US11188706B2 (en) * | 2018-01-18 | 2021-11-30 | Christopher Anthony Silva | System and method for regionalized resolution of a network path |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
US10789943B1 (en) | 2018-08-31 | 2020-09-29 | Interactions Llc | Proxy for selective use of human and artificial intelligence in a natural language understanding system |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
DE102018222156A1 (de) * | 2018-12-18 | 2020-06-18 | Volkswagen Aktiengesellschaft | Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation |
CN110223679A (zh) * | 2019-06-14 | 2019-09-10 | 南京机电职业技术学院 | 一种语音识别输入装置 |
CN110265013A (zh) * | 2019-06-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音的识别方法及装置、计算机设备、存储介质 |
US11151981B2 (en) | 2019-10-10 | 2021-10-19 | International Business Machines Corporation | Audio quality of speech in sound systems |
WO2023003537A1 (en) | 2021-07-19 | 2023-01-26 | Google Llc | Bit vector-based content matching for third-party digital assistant actions |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4887212A (en) | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH02301869A (ja) | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
DE69232407T2 (de) * | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JP2967688B2 (ja) * | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US5960384A (en) * | 1997-09-03 | 1999-09-28 | Brash; Douglas E. | Method and device for parsing natural language sentences and other sequential symbolic expressions |
US6094635A (en) * | 1997-09-17 | 2000-07-25 | Unisys Corporation | System and method for speech enabled application |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6058166A (en) * | 1997-10-06 | 2000-05-02 | Unisys Corporation | Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
1998
- 1998-09-09 US US09/150,459 patent/US6499013B1/en not_active Expired - Lifetime
- 1998-10-05 US US09/166,198 patent/US6532444B1/en not_active Expired - Lifetime
-
1999
- 1999-09-08 ES ES99949601T patent/ES2235520T3/es not_active Expired - Lifetime
- 1999-09-08 CN CNB998130982A patent/CN1161747C/zh not_active Expired - Lifetime
- 1999-09-08 AT AT99945549T patent/ATE286296T1/de not_active IP Right Cessation
- 1999-09-08 CA CA002343229A patent/CA2343229A1/en not_active Abandoned
- 1999-09-08 WO PCT/US1999/020447 patent/WO2000014728A1/en active IP Right Grant
- 1999-09-08 ES ES99945549T patent/ES2235508T3/es not_active Expired - Lifetime
- 1999-09-08 CA CA002343150A patent/CA2343150A1/en not_active Abandoned
- 1999-09-08 AU AU62439/99A patent/AU763059B2/en not_active Ceased
- 1999-09-08 AU AU58130/99A patent/AU762282B2/en not_active Ceased
- 1999-09-08 JP JP2000569391A patent/JP2002524806A/ja active Pending
- 1999-09-08 WO PCT/US1999/020445 patent/WO2000014727A1/en active IP Right Grant
- 1999-09-08 DE DE69923191T patent/DE69923191T2/de not_active Expired - Lifetime
- 1999-09-08 EP EP99945549A patent/EP1110206B1/de not_active Expired - Lifetime
- 1999-09-08 DE DE69922971T patent/DE69922971T2/de not_active Expired - Lifetime
- 1999-09-08 AT AT99949601T patent/ATE287117T1/de not_active IP Right Cessation
- 1999-09-08 JP JP2000569390A patent/JP2002524776A/ja active Pending
- 1999-09-08 CN CNB998130931A patent/CN1153190C/zh not_active Expired - Lifetime
- 1999-09-08 EP EP99949601A patent/EP1110205B1/de not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8195461B2 (en) | 2006-12-15 | 2012-06-05 | Mitsubishi Electric Corporation | Voice recognition system |
DE112007002665B4 (de) * | 2006-12-15 | 2017-12-28 | Mitsubishi Electric Corp. | Spracherkennungssystem |
Also Published As
Publication number | Publication date |
---|---|
CN1325527A (zh) | 2001-12-05 |
AU762282B2 (en) | 2003-06-19 |
JP2002524806A (ja) | 2002-08-06 |
ES2235520T3 (es) | 2005-07-01 |
EP1110206A1 (de) | 2001-06-27 |
CA2343150A1 (en) | 2000-03-16 |
ATE287117T1 (de) | 2005-01-15 |
AU763059B2 (en) | 2003-07-10 |
ATE286296T1 (de) | 2005-01-15 |
ES2235508T3 (es) | 2005-07-01 |
CA2343229A1 (en) | 2000-03-16 |
AU6243999A (en) | 2000-03-27 |
CN1325528A (zh) | 2001-12-05 |
WO2000014727A1 (en) | 2000-03-16 |
JP2002524776A (ja) | 2002-08-06 |
US6499013B1 (en) | 2002-12-24 |
AU5813099A (en) | 2000-03-27 |
EP1110205A1 (de) | 2001-06-27 |
US6532444B1 (en) | 2003-03-11 |
EP1110205B1 (de) | 2005-01-12 |
CN1161747C (zh) | 2004-08-11 |
DE69923191T2 (de) | 2006-01-05 |
DE69923191D1 (de) | 2005-02-17 |
DE69922971D1 (de) | 2005-02-03 |
CN1153190C (zh) | 2004-06-09 |
EP1110206B1 (de) | 2004-12-29 |
WO2000014728A1 (en) | 2000-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69922971T2 (de) | Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
US6434524B1 (en) | Object interactive user interface using speech recognition and natural language processing | |
DE60125397T2 (de) | Sprachunabhängige stimmbasierte benutzeroberfläche | |
DE60133529T2 (de) | Sprachnavigation in Webanwendungen | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
US6604075B1 (en) | Web-based voice dialog interface | |
DE60207217T2 (de) | Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite | |
US6587822B2 (en) | Web-based platform for interactive voice response (IVR) | |
US6029135A (en) | Hypertext navigation system controlled by spoken words | |
DE60123952T2 (de) | Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren | |
US8046228B2 (en) | Voice activated hypermedia systems using grammatical metadata | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
US20020065658A1 (en) | Universal translator/mediator server for improved access by users with special needs | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
EP1273004A1 (de) | System zum verarbeiten eines natürlichen sprach-dialog-systems | |
WO2003054731A2 (de) | Verfahren zur rechnergestützten transformation strukturierter dokumente | |
KR100519748B1 (ko) | 연속어 음성 명령을 통한 인터넷 네비게이션 시스템 및 그방법 | |
DE60119643T2 (de) | Homophonewahl in der Spracherkennung | |
EP1659571A2 (de) | Sprachdialogsystem und Verfahren zum Betreiben | |
EP1240775B1 (de) | Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon | |
EP1518221A1 (de) | Verfahren zur naturlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik | |
DE60037870T2 (de) | Buchstabiermodus in einem spracherkenner | |
KR20020017373A (ko) | 엠에스에이치티엠엘 컴포넌트를 이용한 음성인식 브라우저구현 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |