DE60123952T2 - Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren - Google Patents

Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren Download PDF

Info

Publication number
DE60123952T2
DE60123952T2 DE60123952T DE60123952T DE60123952T2 DE 60123952 T2 DE60123952 T2 DE 60123952T2 DE 60123952 T DE60123952 T DE 60123952T DE 60123952 T DE60123952 T DE 60123952T DE 60123952 T2 DE60123952 T2 DE 60123952T2
Authority
DE
Germany
Prior art keywords
task
context
nonterminal
semantic
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60123952T
Other languages
English (en)
Other versions
DE60123952D1 (de
Inventor
D. Xuedong Bellevue HUANG
V. Milind Redmond MAHAJAN
Ye-Yi Redmond WANG
Xiaolong Cambridge MOU
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE60123952D1 publication Critical patent/DE60123952D1/de
Application granted granted Critical
Publication of DE60123952T2 publication Critical patent/DE60123952T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft die Sprachmodellierung. Insbesondere betrifft die vorliegende Erfindung das Erzeugen eines Sprachmodells für ein Sprachverarbeitungssystem.
  • Eine genaue Spracherkennung erfordert mehr als nur ein akustisches Modell, um das korrekte Wort auszuwählen, das von einem Benutzer gesprochen wird. In anderen Worten wird, wenn ein Spracherkenner wählen oder bestimmen muss, welches Wort gesprochen worden ist, wenn alle Wörter die gleiche Wahrscheinlichkeit aufweisen, gesprochen worden zu sein, der Spracherkenner gewöhnlich unzufriedenstellend arbeiten. Ein Sprachmodell stellt ein Verfahren oder Mittel zum Spezifizieren davon zur Verfügung, welche Sequenzen von Wörtern in dem Wortschatz möglich sind, oder liefert im allgemeinen Informationen über die Wahrscheinlichkeit der verschiedenen Wortsequenzen.
  • Spracherkennung wird häufig als eine Form der Top-Down-Sprachverarbeitung angesehen. Zwei allgemeine Formen der Sprachverarbeitung schließen „Top-Down" und „Bottom-Up" ein. Die Top-Down-Sprachverarbeitung fängt mit der größten Einheit der Sprache an, die zu erkennen ist, wie ein Satz, und verarbeitet sie, indem sie sie in kleinere Einheiten, wie Phrasen, klassifiziert, die sodann in noch kleinere Einheiten, wie Wörter, klassifiziert werden. Demgegenüber fängt die Bottom-Up-Sprachverarbeitung mit Wörtern an und bildet aus diesen größere Phrasen und/oder Sätze. Beide Formen der Sprachverarbeitung können von einem Sprachmodell profitieren.
  • Eine allgemeine Technik des Klassifizierens besteht darin, eine formale Grammatik zu verwenden. Die formale Grammatik definiert die Sequenz von Wörtern, die die Anwendung erlaubt. Eine bestimmte Art von Grammatik ist als „kontextfreie Grammatik" (CFG) bekannt, die erlaubt, dass eine Sprache auf der Grundlage der Sprachstruktur oder semantisch spezifiziert wird. Die CFG ist nicht nur leistungsfähig genug, das meiste der Struktur in der gesprochenen Sprache zu beschreiben, sondern ebenso hinreichend restriktiv, leistungsfähige Parser zu haben. Dennoch ist die CFG, während sie uns eine tiefere Struktur zur Verfügung stellt, noch nicht für eine Verarbeitung gesprochener Sprache angebracht, da die Grammatik fast immer unvollständig ist. Ein CFG- gegründetes System ist nur gut, wenn man weiß, welche Sätze zu sprechen sind, was den Wert und die Brauchbarkeit des Systems vermindert. Der Vorteil der strukturierten Analyse einer CFG wird folglich in den meisten realen Anwendungen durch die schlechte Abdeckung aufgehoben. Für Anwendungsentwickler ist es auch häufig in hohem Grade arbeitsintensiv, eine CFG zu kreieren.
  • Eine zweite Form eines Sprachmodells ist ein N-Gram-Modell. Weil der N-Gram mit einer großen Menge Daten trainiert werden kann, kann die N-Wort-Abhängigkeit eine syntaktische und semantische flache Struktur häufig nahtlos aufnehmen. Es ist jedoch eine Vorbedingung dieses Ansatzes, dass eine genügende Menge an Trainingsdaten vorliegen muss. Das Problem für N-Gram-Modelle ist es, dass eine große Menge an Daten erforderlich ist und das Modell möglicherweise für die gewünschte Anwendung nicht hinreichend spezifisch sein kann. Da ein wortgegründetes N-Gram-Modell auf die N-Wort-Abhängigkeit beschränkt ist, kann es keine Bedingungen in der Sprache von längerer Reichweite einschließen, während eine CFG dieses kann.
  • Ein vereinheitlichtes Sprachmodell (eine Kombination von einem N-Gram und von einer CFG enthalten) ist auch entwickelt worden. Das vereinheitlichte Sprachmodell hat das Potential, die Schwächen sowohl des Wort-N-Gram- als auch CFG-Sprachmodells zu überwinden. Jedoch gibt es keinen klaren Weg, einen gebietsunabhängigen Trainingskorpus oder gebietsunabhängige Sprachmodelle, einschließlich der vereinheitlichten Sprachmodelle, für gebietsspezifische Anwendungen wirksam einzusetzen.
  • Es gibt folglich ein fortwährendes Bedürfnis, neue Verfahren für das Erzeugen von Sprachmodellen zu entwickeln. Während die Technologie sich weiterentwickelt und Sprach- und Handschrifterkennung in mehr Anwendungen zur Verfügung gestellt wird, muss dem Anwendungsentwickler ein leistungsfähiges Verfahren zur Verfügung gestellt werden, in dem für die ausgewählte Anwendung ein passendes Sprachmodell erzeugt werden kann.
  • Gillett, J. und Ward, W., „A language model combining trigrams and stochastic contextfree grammars", ICSLP '98, 30. November 1998, Sydney, Australien, betrifft ein Sprachmodell, das ein Trigram-Models mit einer stochastischen kontextfreien Grammatik (SCFG) kombiniert. Das vorgeschlagene Klassen-Trigram-Modell spezifiziert jede Klasse durch eine kontextfreie Grammatik, mit der Absicht, einfache Klassen zu verwenden, die geradlinige Konzepte enthalten. Daher wird für jedes Wort in dem Vokabular eine triviale Klasse definiert, und es werden einheitliche Klassen-Trigram-Wahrscheinlichkeiten und einheitliche Wahrscheinlichkeiten grammatikalischer Regeln zugewiesen. Für das Training des Wort-Trigram-Modells sind aufgabenabhängige Korpora verwendet worden.
  • Kita, K. et al., „Improvement of a probabilistic CFG using a duster-based language modelling technique", 19, Oktober 1996, betrifft das Einbeziehen von einem Clustering eines Trainingskorpus in eine Anzahl von Sub-Korpora und dem darauffolgende Bestimmen separater Wahrscheinlichkeitsverteilungen (probabilistische CFG) aus jedem Sub-Korpus.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist das Ziel der Erfindung eine Verbesserung gegenüber einem Klassen-Trigram-Sprachmodell zur Verfügung zu stellen.
  • Das Ziel wird durch die vorliegende Erfindung, wie sie in den unabhängigen Ansprüchen beansprucht ist, erreicht.
  • Bevorzugte Weiterbildungen sind in den abhängigen Ansprüchen definiert.
  • Es wird ein Verfahren für das Erzeugen eines Sprachmodells aus einem aufgabenunabhängigen Korpus zur Verfügung gestellt. In einem ersten Aspekt wird ein aufgabenabhängiges vereinheitlichtes Sprachmodell für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus erzeugt. Das aufgabenabhängige vereinheitlichte Sprachmodell schließt eingebettete Nonterminal-Zeichen einer kontextfreien Grammatik in einem N-Gram-Modell ein. Das Verfahren schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken ein, die Nonterminal-Zeichen umfassen, welche semantische oder syntaktische Konzepte der Anwendung darstellen. Jede der kontextfreien Grammatiken schließt Wörter oder Terminals ein, die in dem aufgabenunabhängigen Korpus vorhanden sind, um die semantischen oder syntaktischen Konzepte zu bilden. Der aufgabenunabhängige Korpus mit der Mehrzahl von kontextfreien Grammatiken wird geparst, um Wortereignisse von jeder der semantischen oder syntaktischen Konzepte und Phrasen zu identifizieren. Jedes der identifizierten Wortereignisse wird durch entsprechende Nonterminal-Zeichen ersetzt. Ein N-Gram-Modell wird gebildet, das die Nonterminal-Zeichen besitzt. Eine zweite Mehrzahl von kontextfreien Grammatiken wird für mindestens einige der selben Nonterminals erhalten, welche die selben semantischen oder syn taktischen Konzepte darstellen. Jedoch ist jede der kontextfreien Grammatiken der zweiten Mehrzahl für den Gebrauch in der ausgewählten Anwendung geeigneter.
  • Ein zweiter Aspekt ist ein Verfahren für das Erzeugen eines aufgabenabhängigen vereinheitlichten Sprachmodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus. Das aufgabenabhängige vereinheitlichte Sprachmodell schließt eingebettete Nonterminal-Zeichen einer kontextfreien Grammatik in einem N-Gram-Modell ein. Das Verfahren schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken, die einen Satz von kontextfreien Grammatiken hat, die Nonterminal-Zeichen haben, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, und mindestens eine kontextfreie Grammatik, die ein Nonterminal-Zeichen für eine Phrase hat, die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden kann, ein. Der aufgabenunabhängige Korpus mit der Mehrzahl von kontextfreien Grammatiken wird geparst, um Wortereignisse für jede der semantischen oder syntaktischen Konzepte und der Phrasen zu identifizieren. Jedes der identifizierten Wortereignisses wird durch das entsprechende Nonterminal-Zeichen ersetzt. Ein N-Gram-Modell wird sodann gebildet, das Nonterminal-Zeichen besitzt.
  • Ein dritter Aspekt ist ein Verfahren für das Erzeugen eines Sprachmodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus. Das Verfahren schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen umfassen, welche semantische oder syntaktische Konzepte der ausgewählten Anwendung darstellen, ein. Wortphrasen werden aus der Mehrzahl der kontextfreien Grammatiken erzeugt. Die kontextfreien Grammatiken werden für die Formulierung einer Informationensuchabfrage von mindestens einer der Wortphrasen verwendet. Der aufgabenunabhängige Korpus wird auf der Grundlage der formulierten Abfrage abgefragt, und es wird Text in dem aufgabenunabhängigen Korpus auf der Grundlage der Abfrage identifiziert. Ein Sprachmodell wird unter Verwendung des identifizierten Texts gebildet.
  • Ein vierter Aspekt ist ein Verfahren für das Erzeugen eines Sprachmodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus. Das Verfahren schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen umfassen, welche semantische oder syntaktische Konzepte der ausgewählten Anwendung darstellen, ein. Wortphrasen werden aus der Mehrzahl von kontextfreien Grammatiken erzeugt. Ein erstes und ein zweites N-Gram-Sprachmodell wird aus den Wortphra sen bzw. dem aufgabenunabhängigen Korpus gebildet. Das erste N-Gram-Sprachmodell und das zweite N-Gram Sprachmodell werden kombiniert, um ein drittes N-Gram-Sprachmodell zu bilden.
  • Ein fünfter Aspekt ist ein Verfahren für das Erzeugen eines vereinheitlichten Sprachmodells für eine ausgewählte Anwendung aus einem Korpus. Das Verfahren schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen umfassen, welche die semantischen oder syntaktischen Konzepte der ausgewählten Anwendung darstellen, ein. Ein Wort-Sprachmodell wird aus dem Korpus gebildet. Wahrscheinlichkeiten von Terminals von mindestens einigen der kontextfreien Grammatiken werden normalisiert und als eine Funktion der entsprechenden Wahrscheinlichkeiten zugewiesen, die für die selben Terminals aus dem Wort-Sprachmodell erhalten werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm eines Sprachverarbeitungssystems.
  • 2 ist ein Blockdiagramm einer beispielhaften Computerumgebung.
  • 3 ist ein Blockdiagramm eines beispielhaften Spracherkennungssystems.
  • 4 ist eine bildhafte Darstellung eines vereinheitlichten Sprachmodells.
  • 58 sind Flussdiagramme für unterschiedliche Aspekte der vorliegenden Erfindung.
  • 9 ist ein Blockdiagramm eines anderen Aspekts der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEISPIELHAFTEN AUSFÜHRUNGSFORMEN
  • 1 veranschaulicht im Allgemeinen ein Sprachverarbeitungssystem 10, das eine Spracheingabe 12 empfängt und die Spracheingabe 12 verarbeitet, um eine Sprachausgabe 14 bereitzustellen. Das Sprachverarbeitungssystem 10 kann z.B. durch ein Spracherkennungssystem oder -modul verkörpert werden, das als die Spracheeingabe 12 gesprochene oder aufgezeichnete Sprache von einem Benutzer empfängt. Das Sprachverarbeitungssystem 10 verarbeitet die gesprochene Sprache und stellt als eine Ausgabe erkannte Wörter gewöhnlich in Form einer Textausgabe zur Verfügung.
  • Während der Verarbeitung kann das Spracherkennungssystem oder -modul 10 auf ein Sprachmodell 16 zugreifen, um zu bestimmen, welche Wörter gesprochen worden sind. Das Sprachmodell 16 kodiert eine bestimmte Sprache, wie Englisch. In der veranschaulichten Ausführungsform kann das Sprachmodell 16 ein N-Gram Sprachmodell oder ein vereinheitlichtes Sprachmodell sein, das eine kontextfreie Grammatik, die semantische oder syntaktische Konzepte mit Nonterminals spezifiziert, und ein hybrides N-Gram-Modell mit darin eingebetteten Nonterminals umfasst. Ein erweiterter Aspekt der vorliegenden Erfindung ist ein Verfahren für das Erzeugen oder Bilden des Sprachmodells 16 aus einem aufgabenunabhängigen Korpus, von denen mehrere leicht verfügbar sind, anstatt aus einem aufgabenabhängigen Korpus, der häufig schwer zu erhalten ist.
  • Wie von den Fachleuten erkannt, kann das Sprachmodell 16 in anderen Sprachverarbeitungssystemen außer dem Spracherkennungssystem benutzt werden, das oben besprochen wurde. Zum Beispiel können Sprachmodelle der Art, die oben beschrieben wird, in der Handschriftenkennung, in der optischen Zeichenerkennung (OCR), in der Rechtschreibprüfung, in der Sprachübersetzung, bei der Eingabe chinesischer oder japanischer Zeichen unter Verwendung einer Standard-PC-Tastatur oder für die Eingabe englischer Wörter unter Verwendung eines Telefontastaturblocks benutzt werden. Obgleich sie unten besonders bezugnehmend auf ein Spracherkennungssystem beschrieben wird, versteht es sich, dass die vorliegende Erfindung für das Bilden künstlicher und natürlicher Sprachmodelle in diesen und in anderen Formen der Sprachverarbeitungssysteme nützlich ist.
  • Vor einer ausführlichen Diskussion über die vorliegende Erfindung, kann ein Überblick über eine Arbeitsumgebung nützlich sein. 2 und die sich darauf beziehende Diskussion liefern eine kurze, allgemeine Beschreibung einer geeigneten Computerumgebung, in der die Erfindung implementiert werden kann. Obgleich es nicht erforderlich ist, wird die Erfindung zumindest teilweise im allgemeinen Kontext computerausführbarer Anweisungen, wie Programmmodulen, beschrieben, die von einem PC ausgeführt werden. Im Allgemeinen schließen Programmmodule Routineprogramme, Objekte, Komponenten, Datenstrukturen, etc. ein, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Aufgaben, die durch die Programme und Module durchgeführt werden, werden unten und mithilfe von Blockdiagramme und Flussdiagrammen beschrieben. Die Fachleute können die Beschreibungen, die Blockdiagramme und die Flussdiagramme als prozessorausführbare Anweisungen implementieren, die auf jede mögliche Form eines maschinenlesbaren Datenträgers geschrieben werden können. Zusätzlich werden die Fachleute erkennen, dass die Erfindung mit anderen Computersystemkonfigurationen, einschließlich Hand-Held-Vorrichtungen, Mehrprozessorsystemen, mikroprozessorgesteuerte oder programmierbare Verbraucherelektronik, Netzwerk-PCs, Minicomputer, Zentralrechner und dergleichen, ausgeführt werden kann. Die Erfindung kann ebenso in verteilten Computerumgebungen ausgeführt werden, in denen Aufgaben durch Remote-Verarbeitungsvorrichtungen ausgeführt werden, die über ein Kommunikationsnetz angeschlossen sind. In einer verteilten Computerumgebung können sich Programmmodule sowohl in lokalen als auch entfernten Speichervorrichtungen befinden.
  • Mit Bezug auf 2 schließt ein beispielhaftes System für das Implementieren der Erfindung eine universell verwendbare Computervorrichtung in der Form eines herkömmlichen PCs 50 ein, der eine Verarbeitungseinheit 51, einen Systemspeicher 52 und einen Systembus 53, der verschiedene Komponenten dieses System verbindet, wie auch den Systemspeicher mit der Verarbeitungseinheit 51, ein. Der Systembus 53 kann irgendeine von mehreren Arten von Busstrukturen, einschließlich eines Speicherbusses oder Speicherkontrollers, eines peripheren Busses und eines lokalen Busse, sein, wobei irgendeine einer Vielzahl von Busarchitekturen verwendet wird. Der Systemspeicher schließt einen Festwertspeicher (ROM) 54 und einen wahlfreien Zugriffspeicher (RAM) 55 ein. Ein grundlegendes Eingabe-/Ausgabe-System 56 (BIOS), das die Basisroutine enthält, die hilft, Informationen zwischen Elemente innerhalb des PCs 50, wie während des Startup, zu übermitteln, wird in dem ROM 54 gespeichert. Der PC 50 schließt weiter ein Festplattenlaufwerk 57 für das Lesen von und das Schreiben auf eine Festplatte (nicht gezeigt), ein magnetisches Laufwerk 58 für das Lesen von oder das Schreiben auf eine entnehmbare magnetische Disc 59 und ein optisches Laufwerk 60 für das Lesen von oder das Schreiben auf eine entnehmbare optische Disc, wie eine CD-ROM oder andere optische Datenträger, ein. Das Festplattenlaufwerk 57, das magnetische Laufwerk 58 und das optische Laufwerk 60 werden durch eine Schnittstelle 62 des Festplattenlaufwerks, eine Schnittstelle des magnetischen Laufwerks 63 bzw. eine Schnittstelle des optischen Laufwerks 64 an den Systembus 53 angeschlossen. Die Laufwerke und die entsprechenden maschinenlesbaren Datenträger stellen permanente Speicher maschinenlesbarer Anweisungen, von Datenstrukturen, von Programmmodule und anderer Daten für den PC 50 zur Verfügung.
  • Obgleich die beispielhafte Umgebung, die hierin beschrieben wird, die Festplatte, die entfernbare magnetische Disc 59 und die entfernbare optische Disc 61 verwendet, sollte es von den Fachleuten erkannt werden, dass andere Arten maschinell lesbarer Datenträger, die Daten speichern können, auf die ein Computer zugreifen kann, wie magnetische Kassetten, Flash Memory Cards, digitale Videodiscs, Bernoulli-Patronen, wahlfreie Zugriffsspeicher (RAMs), Festwertspeicher (ROM) und dergleichen ebenso in der beispielhaften Arbeitsumgebung benutzt werden können.
  • Eine Anzahl von Programmmodulen einschließlich eines Betriebssystems 65, eines oder mehrerer Anwendungsprogramme 66, anderer Programmmodule 67 und Programmdaten 68 kann auf der Festplatte, der magnetischen Disc 59, der optischen Disc 61, dem ROM 54 oder dem RAM 55 gespeichert werden. Ein Benutzer kann Befehle und Informationen über Eingabegeräte, wie eine Tastatur 70, ein Handschrift-Tablet 71, eine Zeigevorrichtung 72 und ein Mikrofon 92 in den PC 50 eingeben. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, ein Game-Pad, eine Satellitenschüssel, einen Scanner oder dergleichen einschließen. Diese und andere Eingabegeräte werden häufig an der Verarbeitungseinheit 51 über eine serielle Schnittstelle 76 angeschlossen, die mit dem Systembus 53 verbunden ist, aber sie können über andere Schnittstellen, wie eine Soundkarte, einen parallelen Port, einen Game-Port oder einen Universal Serial Bus (USB), angeschlossen werden. Ein Monitor 77 oder eine andere Art eines Sichtanzeigegeräts wird ebenso an den Systembus 53 über eine Schnittstelle, wie einen Videoadapter 78, angeschlossen. Zusätzlich zu dem Monitor 77 schließen PCs gewöhnlich andere periphere Ausgabevorrichtungen, wie einen Lautsprecher 83 und einen Drucker (nicht gezeigt) ein.
  • Der PC 50 kann "in einer vernetzten Umgebung mit Logikanschlüssen zu einen oder mehreren Remotecomputern, wie einem Remotecomputer 79, arbeiten. Der Remotecomputer 79 kann ein anderer PC, ein Server, ein Router, ein Netzwerk-PC, eine Peer-Vorrichtung oder ein anderer Netzwerkknoten sein und schließt gewöhnlich viele oder alle Elemente ein, die oben bezüglich eines PC 50 beschrieben werden, obgleich nur eine Speicherspeichervorrichtung 80 in 2 veranschaulicht werden ist. Die Logikanschlüsse, die in 2 bildlich dargestellt werden, schließen ein Local Area Network (LAN) 81 und ein Wide Area Network (WAN) 82 ein. Solche Netzwerkumgebungen sind in Büros, unternehmenweite Computernetzwerk-Intranets und dem Internet alltäglich.
  • Wenn er in einer LAN-Netzwerkumgebung verwendet wird, wird der PC 50 an das Local Area Network 81 durch eine Netzwerkschnittstelle oder einen Adapter 83 angeschlossen. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der PC 50 gewöhnlich ein Modem 84 oder eine anderes Mittel für das Herstellen einer Kommunikation über das Wide Area Network 82, wie das Internet, ein. Das Modem 84, das intern oder extern sein kann, ist an den Systembus 53 über die serielle Schnittstelle 76 angeschlossen. In einer Netzwerkumgebung können die Programmmodule, die im Verhältnis zu dem PC 50 bildlich dargestellt werden, oder Teile davon, in den entfernten Speichervorrichtungen gespeichert werden. Wie von den Fachleuten erkannt wird, sind die Netzwerkverbindungen, die gezeigt werden, beispielhaft, und andere Mittel des Hersiellens einer Kommunikationsverbindung zwischen den Computern können verwendet werden.
  • Eine beispielhafte Ausführungsform eines Spracherkennungssystems 100 wird in 3 veranschaulicht. Das Spracherkennungssystem 100 schließt das Mikrofon 92, einen Analog-Digital (A/D)-Wandler 104, ein Trainingsmodul 105, ein Merkmalsextraktionsmodul 106, ein Lexikonspeichermodul 110, ein akustisches Modell zusammen mit Senone-Bäumen 112, eine Baumsuchmaschine 114 und das Sprachmodell 16 ein. Es sollte bemerkt werden, dass das gesamte System 100 oder ein Teil des Spracherkennungssystems 100 in der Umgebung implementiert werden kann, die in 2 veranschaulicht wird. Z.B. kann das Mikrofon 92 vorzugsweise als ein Eingabegerät zu dem Computer 50 durch eine passende Schnittstelle und über den A/D-Wandler zur Verfügung gestellt werden. Das Trainingsmodul 105 und das Merkmalsextraktionsmodul 106 können entweder Hardwaremodule in dem Computer 50 oder Software-Module sein, die in irgendeiner der Informationsspeichervorrichtungen gespeichert werden, die in 2 offenbart sind, und für die Verarbeitungseinheit 51 oder einen anderen geeigneten Prozessor zugänglich sind. Zusätzlich werden das Lexikonspeichermodul 110, das akustische Modell 112 und das Sprachmodell 16 ebenso vorzugsweise in irgendeiner der Speichervorrichtungen gespeichert, die in 2 gezeigt werden. Des weiteren wird die Baumsuchmaschine 114 in der Verarbeitungseinheit 51 implementiert (die eine oder mehrere Prozessoren einschließen kann) oder kann durch einen zugewiesenen Spracherkennungsprozessor betrieben werden, der von dem PC 50 eingesetzt wird.
  • In der veranschaulichten Ausführungsform wird während der Spracherkennung von einem Benutzer dem Mikrofon 92 Sprache als Eingabe in das System 100 in der Form eines hörbaren Sprachsignals übermittelt. Das Mikrofon 92 wandelt das hörbare Sprach signal in ein analoges elektronisches Signal um, das dem A/D-Wandler 104 übermittelt wird. Der A/D-Wandler 104 wandelt das analoge Sprachsignal in eine Sequenz digitaler Signale um, die dem Merkmalsextraktionsmodul 106 übermittel wird. In einer Ausführungsform ist das Merkmalsextraktionsmodul 106 ein herkömmlicher Vektorrechner, der eine spektrale Analyse der digitalen Signale durchführt und einen Absolutwert für jedes Frequenzband eines Frequenzspektrums berechnet. Die Signale werden in einer beispielhaften Ausführungsform dem Merkmalsextraktionsmodul 106 durch den A/D-Wandler 104 mit einer Abtastrate von ungefähr 16 kHz übermittelt.
  • Das Merkmalsextraktionsmodul 106 teilt das digitale Signal, das von dem A/D-Wandler 104 empfangen wird, in Frames, die eine Mehrzahl von digitalen Samples einschließen. Jeder Frame hat eine Dauer von ungefähr 10 Millisekunden. Die Frames werden dann durch das Merkmalsextraktionsmodul 106 in einen Merkmalsvektor kodiert, der die spektralen Eigenschaften für eine Mehrzahl von Frequenzbändern wiedergibt. In dem Fall des separaten und halbkontinuierlichen Hidden-Markov-Modellierens kodiert das Merkmalsextraktionsmodul 106 ebenso die Merkmalsvektoren unter Verwendung von Vektorquantisierungstechniken und eines Codebuchs, das aus Trainingsdaten hergeleitet wird, in eine oder mehrere Codewörter. Somit stellt das Merkmalsextraktionsmodul 106 an seinem Ausgang die Merkmalsvektoren (oder Codewörter) für jede gesprochene Äußerung zur Verfügung. Das Merkmalsextraktionsmodul 106 stellt die Merkmalsvektoren (oder die Codewörter) mit einer Rate von einem Merkmalsvektor oder (Codewort) ungefähr alle 10 Millisekunden zur Verfügung.
  • Ausgabewahrscheinlichkeitsverteilungen werden sodann unter Verwendung des Merkmalsvektor (oder der Codewörter) des bestimmten Frames, der geparst wird, gegen Hidden-Markov-Modelle berechnet. Diese Wahrscheinlichkeitsverteilungen werden später verwendet, wenn man eine Viterbi-Verarbeitung oder eine ähnliche Art der Verarbeitungstechnik durchführt.
  • Nach dem Empfangen der Codewörter von dem Merkmalsextraktionsmodul 106 greift die Baumsuchmaschine 114 auf Informationen zu, die in dem akustischen Modell 112 gespeichert sind. Das Modell 112 speichert akustische Modelle, wie Hidden-Markov-Modelle, die die durch das Spracherkennungssystem 100 zu ermittelnden Spracheinheiten darstellen. In einer Ausführungsform schließt das akustische Modell 112 einen Senone-Baum ein, der mit jedem Markov-Zustand in einem Hidden-Markov-Modell assoziiert ist. Die Hidden-Markov-Modelle stellen in einer illustrativen Ausführungsform Phoneme dar. Auf der Grundlage der Senone in dem akustischen Modell 112 bestimmt die Baumsuchmaschine 114 die wahrscheinlichsten Phoneme, die durch die Merkmalsvektoren (oder die Codewörter) dargestellt werden, die von dem Merkmalsextraktionsmodul 106 empfangen werden, und die folglich für die Äußerung repräsentativ sind, die von dem Benutzer des Systems empfangen wird.
  • Die Baumsuchmaschine 114 greift ebenso auf das Lexikon zu, das in Modul 110 gespeichert ist. Die Informationen, die von der Baumsuchmaschine 114 basierend auf ihrem Zugriff auf das akustische Modell 112 erhalten werden, werden bei der Suche in dem Lexikonspeichermodul 110 verwendet, um ein Wort zu bestimmen, das höchstwahrscheinlich die Codewörter oder den Merkmalsvektor darstellt, die von dem Merkmalsextraktionsmodul 106 empfangen werden. Auch greift die Suchmaschine 114 auf das Sprachmodell 16 zu. Das Sprachmodell 16 ist ein vereinheitlichtes Sprachmodell oder ein Wort-N-Gram oder eine kontextfreie Grammatik, die für das Identifizieren des wahrscheinlichsten Worts, das durch die Sprachgabe dargestellt wird, verwendet wird. Das wahrscheinlichste Wort wird als Ausgabetext zur Verfügung gestellt.
  • Obgleich hierin beschrieben wird, wie das Spracherkennungssystem 100 von dem HMM Modellieren und den Senone-Bäumen Gebrauch macht, versteht es sich, dass dieses nur eine illustrative Ausführungsform darstellt. Wie von den Fachleuten erkannt wird, kann das Spracherkennungssystem 100 viele Gestalten annehmen, und alles, was erforderlich ist, ist, dass es das Sprachmodell 16 benutzt und als eine Ausgabe den Text zur Verfügung stellt, der von dem Benutzer gesprochen wird.
  • Wie weithin bekannt ist, erzeugt ein statistisches N-Gram-Sprachmodell eine Wahrscheinlichkeitsschätzung für ein Wort bei Vorgabe der Wortsequenz bis zu diesem Wort d.h. bei gegebener Wortgeschichte H). Ein N-Gram-Sprachmodell betrachtet nur (n-1) vorherige Wörter in der Geschichte H als Einfluss auf die Wahrscheinlichkeit des folgenden Wortes habend. Z.B. betrachtet ein Bigram- (oder 2-Gram-) Sprachmodell das vorhergehende Wort als Einfluss auf das folgende Wort habend. Folglich wird in einem N-Gram-Sprachmodell die Wahrscheinlichkeit dafür, dass ein Wort auftritt, wie folgt dargestellt: P(w/H) = P(w/w1, w2,... w(n-3)) (1) wobei w ein interessierendes Wort ist, w1 das Wort ist, das sieh n-1 Positionen n-1 vor dem Wort w befindet; w2 das Wort ist, das sich n-2 Positionen vor dem Wort w befindet; und w(n-1) das erste Wort vor dem Wort w in der Sequenz ist.
  • Auch wird die Wahrscheinlichkeit einer Wortsequenz auf der Grundlage der Multiplikation der Wahrscheinlichkeit jedes Wortes bei gegebener Geschichte bestimmt. Folglich wird die Wahrscheinlichkeit für eine Wortsequenz (w1 ... wm) wie folgt dargestellt:
    Figure 00120001
  • Das N-Gram-Modell wird erhalten, indem man einen N-Gram-Algorithmus auf einen Korpus (eine Ansammlung von Phrasen, Sätzen, Satzfragmenten, Absätzen usw.) von Texttrainingsdaten anwendet. Ein N-Gram-Algorithmus kann zum Beispiel bekannte statistische Techniken, Katz's Technik oder der Binomial-Posterior-Verteilung-Backoff-Technik, verwenden. Wenn er diese Techniken verwendet, schätzt der Algorithmus die Wahrscheinlichkeit, dass ein Wort w (n) einer Sequenz der Wörter w1, w2,... w(n-1) folgt. Diese Wahrscheinlichkeitswerte bilden zusammen das N-Gram-Sprachmodell. Einige Aspekte der unten beschriebenen Erfindung können verwendet werden, um ein statistisches N-Gram-Standardmodell zu bilden.
  • Wie auch in dem Stand der Technik weithin bekannt ist, kann ein Sprachmodell auch eine kontextfreie Grammatik enthalten. Eine kontextfreie Grammatik liefert ein regelbasiertes Modell, das die semantischen oder syntaktischen Konzepte der Satzstruktur oder der gesprochenen Sprache enthalten kann. Zum Beispiel kann beispielsweise ein Satz kontextfreier Grammatiken einer größeren Mehrzahl von kontextfreien Grammatiken für eine Software-Anwendung oder -aufgabe hinsichtlich der Festlegung von Sitzungen oder des Sendens von elektronischen Nachrichten umfassen:
    <Plane Sitzung> → <Planungsanweisung> <Sitzungsgegenstand>;
    <Planungsanweisung> → buche;
    <Planungsanweisung> → plane;
    <Planungsanweisung> → setze an; etc.
    <Sitzungsgegenstand> → Sitzung;
    <Sitzungsgegenstand> → Abendessen;
    <Sitzungsgegenstand> →Verabredung;
    <Sitzungsgegenstand> → eine Sitzung mit <Person>;
    <Sitzungsgegenstand> → ein Mittagessen mit <Person>;
    <Person> → Anne Weber;
    <Person> → Eric Moe;
    <Person> → Paul Toman; etc.
  • In diesem Beispiel bezeichnet „< >" Nonterminals für das Klassifizieren semantischer oder syntaktischer Konzepte, wobei jedes der Nonterminals unter Verwendung von Terminals (z.B. Wörter oder Phrasen) und in einigen Fällen anderer Nonterminal-Zeichen in einer hierarchischen Struktur definiert ist.
  • Diese Art der Grammatik erfordert kein eingehendes Wissen über die formale Satzstruktur oder über die Linguistik, sondern vielmehr ein Wissen davon, welche Wörter, Phrasen, Sätze oder Satzfragmente in einer bestimmten Anwendung oder Aufgabe verwendet werden.
  • Ein vereinheitlichtes Sprachmodell ist auch in dem Stand der Technik weithin bekannt. Auf 4 bezugnehmend schließt ein vereinheitlichtes Sprachmodell 140 eine Kombination eines N-Gram-Sprachmodells 142 und einer Mehrzahl kontextfreier Grammatiken 144 ein. Genauer schließt das N-Gram-Sprachmodell 142 mindestens einige der selben Nonterminals der Mehrzahl von kontextfreien Grammatiken 144 eingebettet darin ein, so dass zusätzlich zu dem Voraussagen von Wörtern, das N-Gram-Sprachmodell 142 auch Nonterminals voraussagen kann. Im Allgemeinen kann eine Wahrscheinlichkeit für ein Nonterminal durch das folgende dargestellt werden: P(<NT>/h1, h2,... hn) (3)wobei (h1, h2,... hn) vorhergehende Wörter oder Nonterminals sein können. Im Wesentlichen schließt das N-Gram-Sprachmodell 142 (ebenso als ein hybrides N-Gram-Modell bekannt) des vereinheitlichten Sprachmodells 140 ein vergrößertes Vokabular ein, das Wörter und mindestens einige der Nonterminals aufweist Im Gebrauch wird das Spracherkennungssystem oder -modul 100 auf das Sprachmodell 16 (in dieser Ausführungsform, das vereinheitlichte Sprachmodell 140) zugreifen, um festzustellen, welche Wörter gesprochen worden sind. Das N-Gram-Sprachmodell 142 wird benutzt, um zuerst Wörter und Nonterminals vorauszusagen. Dann wird, wenn ein Nonterminal vorausgesagt worden ist, die Mehrzahl von kontextfreien Grammatiken 144 verwendet, um Terminals als Funktion der Nonterminals vorauszusagen. Jedoch versteht es sich, dass die bestimmte Weise, in der das vereinheitlichte Sprachmodell 140 benutzt wird, für die vorliegenden Erfindung nicht kritisch ist.
  • Wie in dem Hintergrundabschnitt erwähnt, sollte dem Anwendungsentwickler ein leistungsfähiges Verfahren zur Verfügung gestellt werden, in dem ein geeignetes Sprachmodell 16 für die ausgewählte Anwendung erzeugt werden kann. In einigen Anwendungen arbeitet ein Standard-N-Gram-Sprachmodell und alle mögliche Verbesserungen für die Entwicklung eines solchen Modells sind wertvoll. Während in anderen Anwendungen ein vereinheitlichtes Sprachmodell 140 am besten arbeiten mag, und dementsprechend Verbesserungen für das Bilden eines solchen Modells auch wertvoll sind.
  • Während unterschiedliche Anwendungen für die Sprachverarbeitung entwickelt werden, können aufgabenabhängige (gebietabhängige) Sprachmodelle wegen ihrer erhöhten Spezifität, durch die Sprachmodelle auch genauer gebildet werden können, geeigneter als ein größeres, universelles Sprachmodell sein. Es ist jedoch nicht so einfach, ein aufgabenabhängiges Sprachmodell zu erzeugen, wie es ist ein universelles Sprachmodell zu erzeugen. Um ein universelles Sprachmodell, wie ein N-Gram-Sprachmodell zu erzeugen, kann ein aufgabenunabhängiger Korpus von Trainingsdaten benutzt und wie oben besprochen für einen N-Gram-Algorithmus verwendet werden. Aufgabenunabhängige Korpora sind leicht verfügbar und können Kompilationen von Zeitschriften, Zeitungen, etc. enthalten, um nur einige zu nennen. Die aufgabenunabhängigen Korpora zielen nicht auf irgendeine Anwendung, sondern stellen eher viele Beispiele davon zur Verfügung, wie Wörter in einer Sprache verwendet werden. Aufgabenabhängige Korpora sind auf der anderen Seite gewöhnlich nicht vorhanden. Diese Korpora müssen mühsam kompiliert werden und sind selbst dann möglicherweise nicht sehr vollständig.
  • Ein erweiterter Aspekt der Erfindung schließt ein Verfahren für das Erzeugen eines aufgaben- oder gebietsabhängigen vereinheitlichten Sprachemodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus ein. Das aufgabenabhängige vereinheitlichte Sprachmodell schließt eingebettete Nonterminal-Zeichen der kontextfreien Grammatik in einem N-Gram-Sprachmodell ein. Wie oben besprochen, ist der aufgabenunabhängige Korpus eine Kompilation von Sätzen, von Phrasen etc., die nicht auf irgendeine bestimmte Anwendung gerichtet ist, sondern zeigt eher im Allgemeinen durch eine breite Vielzahl von Beispielen, wie Wörter in einer Sprache geordnet sind. Verschiedene Techniken, wie unten beschrieben, sind entwickelt worden, um den aufgabenunabhängigen Korpus für das Erzeugen eines Sprachmodells zu benutzen, das für eine aufgabenabhängige Anwendung verwendbar ist.
  • 5 veranschaulicht ein erstes Verfahren 160 für das Erzeugen oder das Bilden eines Sprachmodells. Das Verfahren 160 schließt einen Schritt 162 für das Erhalten einer Mehrzahl von kontextfreien Grammatiken ein, die Nonterminal-Zeichen umfassen, welche semantische oder syntaktischen Konzepte darstellen. Wie hierin verwendet, schließt ein „semantisches oder syntaktisches Konzept" ein Wort oder Wortphrasen ein, die bestimmte Wortverwendungen für verschiedene Befehle, Objekte, Tätigkeiten etc. darstellen. Z.B. schließt der aufgabenunabhängige Korpus verschiedene Fälle dafür ein, wie Eigennamen verwendet werden. Z.B. könnte der aufgabenunabhängige Korpus Sätze aufweisen wie: „Bill Clinton war bei der Sitzung anwesend" und "John Smith ging bei der Konferenz zu Mittag essen". Obgleich die Wörter, die verwendet werden, um die semantischen oder syntaktischen Konzepte in dem aufgabenunabhängigen Korpus zu bilden, möglicherweise nicht die sein können, die für die aufgabenabhängige Anwendung verwendet werden, stellt der aufgabenunabhängige Korpus verwendbare Beispiele zur Verfügung, die den Kontext für die semantischen oder syntaktischen Konzepte veranschaulichen. Der Schritt 162 stellt das Erhalten von kontextfreien Grammatiken, welche Non terminal-Zeichen aufweisen, um die semantischen oder syntaktischen Konzepte in dem aufgabenunabhängigen Korpus darzustellen, wobei die Nonterminal-Zeichen Terminals besitzen, die in dem aufgabenunabhängigen Korpus vorhanden sind. Zum Beispiel kann unter Verwendung des Eigennamenbeispiels, das oben angegeben wurde, ein Beispiel für eine CFG das folgende sein:
    <Person> → <Allgemeiner Vorname> [<Allgemeiner Nachname>];
    <Allgemeiner Vorname> → John|Bob|Bill...; (Vornamen, die in dem aufgabenunabhängigen Korpus vorhanden sind)
    <Allgemeiner Nachname> → Smith|Roberts| Clinton...; (Nachnamen, die in dem aufgabenunabhängigen Korpus vorhanden sind).
  • Allgemein wird eine Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen umfassen, die verschiedene semantische oder syntaktische Konzepte darstellen, verwendet. Zum Beispiel schließen andere semantische oder syntaktische Konzepte geographische Plätze, Regionen, Titel, Daten, Zeiten, Währungsmengen und prozentuale Anteile ein, um einige zu nennen. Jedoch versteht es sich, dass diese semantischen oder syntaktischen Konzepte bloß illustrativ sind und nicht für das Ausüben der vorliegenden Erfindung erforderlich sind, noch ist diese Liste für alle Arten von semantischen oder syntaktischen Konzepten, die stark von der beabsichtigten Anwendung abhängen, vollständig.
  • In Schritt 164 wird der aufgabenunabhängige Korpus mit der Mehrzahl der kontextfreien Grammatiken geparst, die in Schritt 162 erhalten werden, um Wortereignisse in dem aufgabenuabhängigen Korpus aus jedem der semantischen oder syntaktischen Konzepte zu identifizieren.
  • In Schritt 166 wird jedes der identifizierten Wortereignisse mit dem entsprechenden Nonterminal-Zeichen von Schritt 164 ersetzt. Ein N-Gram-Modell wird dann in Schritt 168 unter Verwendung eines N-Gram-Algorithmus gebildet, wobei das N-Gram-Modell die Nonterminal-Zeichen darin eingebettet besitzt.
  • In Schritt 170 wird eine zweite Mehrzahl von kontextfreien Grammatiken, die für die ausgewählte Anwendung geeignet sind, erhalten. Insbesondere schließt die zweite Mehrzahl von kontextfreien Grammatiken mindestens einige der selben Nonterminal-Zeichen ein, welche die selben semantischen oder syntaktischen Konzepte von Schritt 162 darstellen. Jedoch ist jede der kontextfreien Grammatiken der zweiten Mehrzahl für die ausgewählte Anwendung geeigneter. Mit Verweis auf das obige Eigennamenbeispiel könnte die zweite Mehrzahl von kontextfreien Grammatiken eine CFG einschließen:
    <Person> → <Name eines Angestellten der Titan Incorporated >;
    <Name eines Angestellten der Titan Incorporated > → XD|Ye-Yi|Milind|Xiaolong|...; (Namen von Angestellten der Titan Incorporated).
  • Verfahren 160 kann in einem Computer 50 implementiert sein, in dem jede der kontextfreien Grammatiken und der aufgabenunabhängige Korpus auf irgendwelchen der lokalen oder fernen Speichervorrichtungen gespeichert ist. Vorzugsweise werden das N-Gram-Modell, welches Nonterminal-Zeichen besitzt, und die zweite Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen haben, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, auf einem maschinenlesbaren Datenträger gespeichert, der dem Spracherkenner 100 zugänglich ist.
  • 6 veranschaulicht ein Verfahren 180 für das Erzeugen eines vereinheitlichten Sprachmodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus, der eine große Anzahl an Phrasen einschließt, die von unterschiedlichem Kontext sein können. Das einfache Parsen des aufgabenunabhängigen Korpus mit kontextfreien Grammatiken für die aufgabenabhängige Anwendung kann Fehler verursachen, die sich dann nach Anwendung eines N-Gram-Algorithmus zu dem N-Gram-Modell fortpflanzen. Um die Fehler während des Parsens zu verringern, schließt dieser Aspekt der Erfindung das Verwenden mindestens einer kontextfreien Grammatik ein, die ein Nonterminal-Zeichen für eine Phrase hat (Wort oder Wörter), die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden kann. Insbesondere wird in Schritt 182 eine Mehrzahl von kontextfreien Grammatiken erhalten. Die Mehrzahl von kontextfreien Grammatiken schließt den Satz von kontextfreien Grammatiken, die Nonterminal-Zeichen haben, die aufgabenabhängige semantische oder syntaktische Konzepte (d.h. die semantischen oder syntaktischen Konzepte, die die ausgewählte Anwendung direkt betreffen) darstellen, und mindestens eine kontextfreie Grammatik, die ein Nonterminal-Zeichen für eine Phrase hat, die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzep te verwechselt werden kann, ein. Z.B. kann eine aufgabenabhängige Anwendung das Modellieren des Wochentags als ein semantisches Konzept in dem N-Gram-Modell erfordern. Eine kontextfreie Grammatik der folgenden Form könnte während des Parsens des aufgabenunabhängigen Korpus verwendet werden:
    <Tag> → Montag|Dienstag|..|Sonntag;
  • Der aufgabenunabhängige Korpus könnte jedoch Bezüge auf eine Person enthalten, die „Joe Freitag" genannt wird. Um in diesem Fall „Freitag" als Nachnamen zu behalten und um zu verhindern, dass dieser Fall als Tag geparst wird, was sodann einen Fehler in das N-Gram-Modell einführen würde, kann die Mehrzahl von kontextfreien Grammatiken eine kontextfreie Grammatik der Form einschließen:
    <Person mit Nachnamen Feitag> → (Joe|Bill|Bob...) Freitag;
    (verschiedene Vornamen, die den Nachnamen „Freitag haben).
  • Auf diese Weise werden während des Parsens des aufgabenunabhängigen Korpus Fälle von Wochentagen getrennt von Fällen identifiziert, in denen „Freitag" der Nachname einer Einzelperson ist.
  • Schritt 184 stellt das Parsen des aufgabenunabhängigen Korpus mit der Mehrzahl von kontextfreien Grammatiken dar, um Wortereignisse für jedes der semantischen oder syntaktischen Konzepte zu identifizieren. In Schritt 186 wird jedes der identifizierten Wortereignisse für Nonterminals, die Konzepte darstellen, die für die Zielanwendung von Interesse sind, mit dem entsprechenden Nonterminal-Zeichen ersetzt, wie es durch die entsprechende kontextfreie Grammatik definiert ist. In anderen Worten werden die Wortsequenzen, die mit den externen Nonterminals identifiziert werden, die eingeführt wurden, um Analysefehler zu verhindern (wie <Person mit Nachnamen Freitag> in dem obigen Beispiel), nicht durch das entsprechende Nonterminal ersetzt. Ein N-Gram-Modell kann dann gebildet werden, das die Nonterminal-Zeichen darin eingebettet aufweist, wie es in Schritt 188 gezeigt ist. Schritt 190 ist Schritt 170 ähnlich und schließt das Erhalten eines zweiten Satzes kontextfreier Grammatiken ein, die für die ausgewählte Anwendung geeignet sind.
  • Verwendet während der Sprachverarbeitung wie Spracherkennung ist das N-Gram-Modell, welches die Nonterminal-Zeichen und die Mehrzahl von kontextfreien Grammatiken assoziiert mit der aufgabenabhängigen Anwendung hat, auf einem maschinenlesbaren Datenträger gespeichert, der für das Spracherkennungsmodul 100 zugänglich ist. Jedoch ist es nicht notwendig, die kontextfreien Grammatiken einzuschließen, die mit den Phrasen assoziiert sind, die mit einer der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden können, weil diese kontextfreien Grammatiken nur verwendet werden, um den aufgabenunabhängigen Korpus richtig zu parsen. Die Phrasen, die mit diesen Grammatiken assoziiert sind, würden normalerweise nicht in der ausgewählten Anwendung gesprochen werden. Somit ist der Umfang oder die Größe einer Mehrzahl von kontextfreien Grammatiken während der Spracherkennung kleiner, was einem geringeren erforderlichen Speicherplatz in dem Computer 50, als er für das Parsen des aufgabenunabhängigen Korpus verwendet wurde, entspricht.
  • In einer Ausführungsform kann der Schritt 188, der mit dem Bilden des N-Gram-Modells assoziiert ist, das Enstfernen mindestens einiger Teile von dem assoziierten Text aus dem aufgabenunabhängigen Korpus für Nonterminal-Zeichen einschließen, die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden können. Auf diese Weise wird die Größe des aufgabenunabhängigen Korpus vor dem Parsen verringert, so dass das Verfahren 180 schneller durchgeführt werden kann.
  • Es sollte auch bemerkt werden, dass das Verfahren 180 einen zusätzlichen Schritt des Überprüfens des geparsten aufgabenunabhängigen Korpus oder des resultierenden N-Gram-Modells einschließen kann, um Fehler wegen der Phrasen (Wort oder Wörter) zu ermitteln, die mit einer der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden. Geeignete kontextfreie Grammatiken können sodann in der Mehrzahl der kontextfreien Grammatiken in Schritt 182 festgestellt und eingeschlossen werden. Schritte 184 bis 188 können dann falls erforderlich durchgeführt werden, um den geparsten aufgabenunabhängige Korpus- oder das N-Gram-Modell nochmals zu prüfen, um zu emritteln, ob die Fehler behoben worden sind. Dieser iterative Prozess kann falls erforderlich wiederholt werden, bis die Fehler behoben sind, und ein geeignetes N-Gram-Modell erhalten worden ist.
  • Wie oben besprochen, ist der aufgabenunabhängige Korpus ein allgemeiner Korpus und tatsächlich ist es wahrscheinlich, dass der größte Teil des Korpus keinen Bezug zu der Aufgabe oder zu der Anwendung hat, an der der Entwickler interessiert ist. Dennoch kann der aufgabenunabhängige Korpus etwas Text enthalten, der für die Aufgabe oder die Anwendung relevant ist. Im Allgemeinen schließt ein anderer Aspekt der vorliegenden Erfindung die Verwendung der kontextfreien Grammatiken für die aufgabenabhängige Anwendung, um Phrasen, Sätze oder Satzfragmente zu bilden, ein, die dann als Abfragen in einem Informationsabfrage-System benutzt werden können. Das Informationsabfrage-System überprüft den aufgabenunabhängigen Korpus und identifiziert die Teile, die der Abfrage ähnlich sind. Der identifizierte Text des aufgabenunabhängigen Korpus ist für die ausgewählte Aufgabe oder Anwendung relevanter; folglich kann ein Sprachmodell, das aus dem identifizierten Text abgeleitet wird, spezifischen sein als ein Sprachmodell, das auf dem vollständigen aufgabenunabhängigen Korpus basiert. Hinzu kommt, dass, obgleich jemand, der sich in der spezifischen Aufgabe aller Anwendung auskennt, die kontextfreien Grammatiken schrieb, er nicht alle verschiedenen Wortsequenzen kennen kann, die für die Aufgabe oder die Anwendung verwendet werden können. Diese Technik verengt den aufgabenunabhängige Korpus, aber sie kann dennoch mehr Beispiele von aufgabenspezifischen Sätze, Phrasen, etc. identifizieren.
  • 7 veranschaulicht ein Verfahren 200 für das Erzeugen eines Sprachmodells für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus in der Weise, die oben besprochen wurde. Schritt 202 schließt das Erhalten einer Mehrzahl von kontextfreien Grammatiken ein, die Nonterminal-Zeichen umfassen, welche die semantischen oder syntaktischen Konzepte der ausgewählten Anwendung darstellen. Wie oben beschrieben, werden die kontextfreien Grammatiken allgemein von einem Entwickler geschrieben, der mindestens einiges Wissen darüber hat, welche Phrasen in der ausgewählten Anwendung für jedes der semantischen oder syntaktischen Konzepte verwendet werden können, jedoch ist der Umfang des Wissens über solche Phrasen nicht vollständig. In Schritt 204 werden Wortphrasen aus der Mehrzahl von kontextfreien Grammatiken erzeugt. Die Wortphrasen können einige oder alle der verschiedenen Kombinationen und Permutationen einschließen, die durch die assoziierten kontextfreien Grammatiken definiert werden, in denen Nonterminal-Zeichen mehrere Wörter einschließen.
  • In Schritt 206 wird mindestens eine Anfrage für ein Informationsabfrage-System unter Verwendung mindestens einer der erzeugten Wortphrasen formuliert. Die Abfrage kann unter Verwendung einer Technik eines statistischen "Beutels von Wörtern" erzeugt wer den, die TF-IDF Vektoren verwendet. Eine Ähnlichkeit zwischen der Anfrage und den Segmenten des aufgabenunabhängigen Korpus kann methilfe des Kosinusähnlichkeitsmaßes berechnet werden. Dieses sind im Allgemeinen weithin bekannte Techniken auf dem Gebiet der Informationsabfrage. Alternativ kann die Abfrage Boolesche Logik („und", „oder", etc.) einschließen, wie es erwünscht ist, um Wortphrasen zu kombinieren. Jedoch könnte jede Anfrage einfach eine separate Wortphrase sein, wie es von den Fachleuten erkannt wird.
  • In Schritt 208 wird der aufgabenunabhängige Korpus auf der Grundlage der formulierten Abfrage abgefragt. Die bestimmte Informationsanfrage -Technik, die verwendet wird, um die Abfrage des aufgabenunabhängigen Korpus zu erzeugen und durchzuführen, ist für dieses Merkmal der vorliegenden Erfindung nicht kritisch. Vielmehr kann jede geeignete Abfrageentwicklung und Informationsabfrage-Technik verwendet werden. Es sollte einfach bemerkt werden, dass das Sprachmodell, das aus dem identifizierten Text entsprechend der vorliegenden Technik erzeugt wird, besser mit Informationsabfrage-Techniken arbeitet, die relevanteren Text des aufgabenunabhängigen Korpus identifizieren.
  • Der Text, der in dem aufgabenunabhängigen Korpus basierend auf der Anfrage identifiziert wird, wird in Schritt 210 angezeigt. Sodann kann ein Sprachmodell mit dem identifizierten Text gebildet werden, wie es in Schritt 212 dargestellt ist.
  • An diesem Punkt sollte bemerkt werden, dass das Verfahren, das in 7 veranschaulicht wird, nicht auf ein vereinheitlichtes Sprachmodell oder gar ein N-Gram-Sprachmodell beschränkt ist, sondern dass es eher nützlich sein kann, wenn Sprachmodelle irgendeiner Art gebildet werden, die in einem Sprachverarbeitungssystem benutzt werden, in dem das Modell auf einem aufgabenunabhängigen Korpus basiert. Dennoch ist das Verfahren 200 besonders nützlich, wenn man ein N-Gram-Sprachmodell bildet. In dem Fall eines N-Gram Sprachmodells oder eines hybriden N-Gram-Sprachmodells erfordert Schritt 212 allgemein die Verwendung von einem N-Gram-Algorithmus.
  • 8 veranschaulicht ein Verfahren 220, das dem Verfahren 200 von 7 ähnlich ist, worin die selben Bezugszeichen verwendet worden sind, um gleiche Schritte zu kennzeichnen. Das Verfahren 220 kann jedoch verwendet werden, um ein N-Gram-Sprachmodell zu erzeugen, welches die Nonterminal-Zeichen der kontextfreien Grammatiken hat. Zusätzlich zu den Schritten, die oben beschrieben werden, schließt das Verfahren 220 auch das Parsen des identifizierten Textes des aufgabenunabhängigen Korpus mit einer Mehrzahl von kontextfreien Grammatiken ein, um Wortereignisse für jedes der semantischen oder syntaktischen Konzepte zu identifizieren, wie es in Schritt 222 angegeben ist. Schritt 224 schließt dann das Ersetzen jedes des identifizierten Wortereignisses mit entsprechendem Nonterminal-Zeichen für ausgewählte Nonterminals ein (d.h. ausschließlich der Nonterminals, die eingeführt worden sein können, um Fehler während des Parsens zu verhindern). Schritt 212 würde dann das Bilden eines N-Gram-Modells einschließen, das Nonterminal-Zeichen besitzt. In beiden Verfahren 200 und 220 wird der relevante Text in dem aufgabenunabhängigen Korpus identifiziert. Wenn es gewünscht wird, kann der identifizierte Text getrennt von dem aufgabenunabhängigen Korpus als ein Hilfsmittel für das Isolieren des relevanten Textes und eine einfachere Verarbeitung zur Verfügung stellend extrahiert, kopiert oder anderweitig gespeichert werden.
  • 9 ist ein Blockdiagramm, das einen anderen Aspekt der vorliegenden Erfindung veranschaulicht. Im Allgemeinen schließt dieser Aspekt die Bildung eines N-Gram-Sprachmodells aus den Wortphrasen, die von den kontextfreien Grammatiken erhalten werden, und das Kombinieren des N-Gram-Sprachmodells mit einem anderen N-Gram- Sprachmodell, das auf dem aufgabenunabhängigen Korpus basiert, ein. In der Ausführungsform, die in 9 veranschaulicht wird, stellt Block 240 die kontextfreien Grammatiken dar, die für die ausgewählte Aufgabe oder die Anwendung erhalten werden (z.B. von dem Entwickler geschrieben sind). Die kontextfreien Grammatiken werden verwendet, um synthetische Daten oder Wortphrasen 242 auf eine Weise zu erzeugen, die dem Schritt 204 der Verfahren 200 und 220 ähnlich ist. Die Wortphrasen 242 werden dann einem N-Gram-Algorithmus 244 übergeben, um ein erstes N-Gram-Sprachmodell 246 zu bilden.
  • 9 veranschaulicht ebenso in Blockdiagrammform Schritte 206, 208 und 210, in denen die kontextfreie Grammatiken verwendet werden, um eine Informationensuchabfrage aus mindestens einer der Phrasen zu formulieren, den aufgabenunabhängige Korpus auf der Grundlage der formulierten Abfrage abzufragen, den assoziierten Text in dem aufgabenunabhängigen Korpus auf der Grundlage der Abfrage zu identifizieren und ein zweites N-Gram-Sprachmodell aus dem identifizierten Text zu bilden. Block 248 veranschaulicht die Anwendung eines N-Gram-Algorithmus, um das zweite N-Gram-Sprachmodell 250 zu erhalten.
  • Ein drittes N-Gram-Sprachmodell 252 wird gebildet, indem man das erste N-Gram-Sprachmodell 246 und das zweite N-Gram-Sprachmodell 250 kombiniert. Diese Kom bination kann mit jeder möglichen bekannten Glättungstechnik, wie Interpolation, gelöschte Interpolation oder irgendeiner anderen geeigneten Technik, durchgeführt werden. Wenn es gewünscht wird, kann das zweite Sprachmodell gegründet darauf gewichtet werden, ob angenommen wird, dass der identifizierte Text genau ist. Das Gewichten kann auf der Menge des identifizierten Textes in dem aufgabenunabhängigen Korpus, der Zahl der verwendeten Abfragen etc. basieren.
  • In einer anderen Ausführungsform können die Nonterminal-Zeichen, welche die semantischen oder syntaktischen Konzepte darstellen, in den identifizierten Text oder in den aufgabenunabhängigen Korpus eingefügt werden, so dass das zweite N-Gram-Sprachmodell Nonterminal-Zeichen einschließt. Diese Option wird mithilfe der gestrichelten Linien für Block 264 und der Pfeile 266 und 268 veranschaulicht. Selbstverständlich würde, wenn diese Option gewählt wird, der identifizierte Text 210 nicht direkt dem N-Gram-Algorithmus 248, sondern eher dem Block 264 übergeben. Die Nonterminal-Zeichen, die in den identifizierten Text oder in den aufgabenunabhängigen Korpus eingefügt werden, können auf den kontextfreien Grammatiken, die in Block 240 erhalten werden, oder alternativ auf einem anderen Satz von kontextfreien Grammatiken 270, der andere kontextfreie Grammatiken aus den Gründen einschließt, die oben besprochen wurden, basieren. Wenn das dritte N-Gram-Sprachmodell 252 gebildet wird, das Nonterminals besitzt, schließen die Wortphrasen oder die synthetischen Daten in Block 242 typischer Weise ebenfalls die Nonterminals ein.
  • Wenn die kontextfreien Grammatiken verwendet werden, um synthetische Daten zu erzeugen, können Wahrscheinlichkeiten für die Wortphrasen, die mit den Nonterminals und den Terminals der Nonterminals gebildet werden, ausgewählt werden, wie es erwünscht ist; zum Beispiel kann jeder die gleiche Wahrscheinlichkeit zugewiesen werden.
  • Das aufgabenabhängige vereinheitlichte Sprachmodell schließt eingebettete Nonterminal-Zeichen der kontextfreien Grammatik in einem N-Gram sowie eine Mehrzahl von kontextfreien Grammatiken ein, die die Nonterminal-Zeichen definieren. Innerhalb jeder kontextfreien Grammatik kann die probabilistische kontextfreie Standardgrammatik verwendet werden. Ohne reale Daten betreffend die spezifische Aufgabe oder Anwendung kann jedoch eine Schätzung für jede der Terminalwahrscheinlichkeiten nicht leicht bestimmt werden. In anderen Worten kann der Entwickler die Mehrzahl von kontextfreien Grammatiken schreiben oder anders erhalten; eine Schätzung der Wahrscheinlichkeiten für jedes der Terminals kann jedoch nicht leicht erfolgen. Obgleich eine gleichförmige Verteilung von Wahrscheinlichkeiten verwendet werden kann, schließt ein anderer Aspekt der vorliegenden Erfindung das Zuweisen von Wahrscheinlichkeiten zu Terminals von mindestens einigen der kontextfreien Grammatiken als eine Funktion der entsprechenden Wahrscheinlichkeiten ein, die für die selben Terminals von dem N-Gram-Sprachmodell erhalten werden, das aus dem aufgabenunabhängigen Korpus gebildet wird. Vorzugsweise schließt das Zuweisen von Wahrscheinlichkeiten zu Terminals der kontextfreien Grammatiken das Normalisieren der Wahrscheinlichkeiten der Terminals aus dem N-Gram-Sprachmodell in jeder der kontextfreien Grammatiken als eine Funktion der Terminals in der entsprechenden kontextfreien Grammatik ein. In anderen Worten begrenzt oder definiert die kontextfreie Grammatik den zulässigen Satz von Terminals von dem N-Gram-Sprachmodell. Folglich müssen Wahrscheinlichkeiten der Terminals von dem N-Gram-Sprachmodell in dem selben Wahrscheinlichkeitsraum wie die Terminals in der entsprechenden kontextfreien Grammatik geeignet normalisiert werden.
  • In einer Ausführungsform kann eine Eingabeäußerung W = w1 w2...wS in eine Sequenz T = t1 t2... tm, segmentiert werden, in der jedes ti entweder ein Wort in W oder ein Nonterminal einer kontextfreien Grammatik ist, das eine Sequenz von Wörtern
    Figure 00240001
    in W umfasst. Die Wahrscheinlichkeit von W unter der Segmentation T ist folglich
    Figure 00240002
  • Zusätzlich zu den Trigram-Wahrscheinlichkeiten müssen wir
    Figure 00240003
    mit einbeziehen, die Wahrscheinlichkeit des Erzeugens einer Wortsequenz
    Figure 00240004
    aus dem Nonterminal ti der kontextfreien Grammatik. In dem Fall, in dem ti selbst ein Wort ist
    Figure 00240005
    Andernfalls kann
    Figure 00240006
    erhalten werden, indem man jedes Wort in der Sequenz aufgrund seiner Wortgeschichte vorhersagt:
    Figure 00240007
  • Hierbei stellt </s> das spezielle Ende-der-Sequenz-Wort dar. Drei unterschiedliche Verfahren werden verwendet, um die Wahrscheinlichkeit eines Wortes bei gegebener Geschichte innerhalb eines Nonterminals einer kontextfreien Grammatik zu berechnen.
  • Eine Geschichte
    Figure 00250001
    entspricht einem Satz Q (h), wobei jedes Element in dem Satz ein CFG-Zustand ist, der die I-1 Anfangswörter in der Geschichte von dem Nonterminal ti erzeugt. Ein CFG-Zustand begrenzt die möglichen Wörter, die der Geschichte folgen können. Die Vereinigung der Wortsätze für alte CFG-Zustände in Q (h), WQ(h), definiert alle zugelassenen Wörter (einschließlich des Symbols „</s>" für das Verlassen des Nonterminals ti, wenn
    Figure 00250002
    die der Geschichte entsprechend den Bedingungen der kontextfreien Grammatik folgen können. Die Wahrscheinlichkeit, ut,1 nach der Geschichte zu beobachten, kann durch die gleichförmige Verteilung unten geschätzt werden:
    Figure 00250003
  • Das gleichförmige Modell enthält nicht die empirische Wortverteilung unter einem Nonterminal einer kontextfreien Grammatik. Eine bessere Alternative besteht darin, vorhandene gebietsunabhängige Wort-Trigram-Wahrscheinlichkeiten zu übernehmen. Diese Wahrscheinlichkeiten müssen in dem selben Wahrscheinlichkeitsraum geeignet normalisiert werden. Obwohl wir Wort-Trigram-Modelle verwendet haben, um die Technik zu veranschaulichen, sollte bemerkt werden, dass irgendein wortbasiertes Sprachmodell, einschließlich Wortniveau-N-Grams mit unterschiedlichem N, hier verwendet werden können. Auch ist die Technik anwendbar ungeachtet, wie die Wort-Sprachmodelle trainiert werden (insbesondere ob ein aufgabenunabhängiger oder aufgabenabhängiger Korpus benutzt wird). Somit erhalten wir:
    Figure 00250004
  • Eine andere Art, das Modellieren einer Wortsequenz zu verbessern, die von einem spezifischen CFG-Nonterminal umfasst wird, besteht darin, ein spezifisches Wort-Trigram-Sprachmodell Pt(wn|wn-2, wn-1) für jedes Nonterminal t zu benutzen. Die Normalisierung wird wie in Gleichung (7) durchgeführt.
  • Es können wegen der Mehrdeutigkeit der natürlichen Sprache mehrere Segmentationen für W vorhanden sein. Die Wahrscheinlichkeit von W ist folglich die Summe über alle Segmentationen S(W):
    Figure 00260001
  • Obgleich die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen beschrieben worden ist, erkennen die Fachleute, dass Änderungen in Form und Details vorgenommen werden können, ohne den Bereich der Erfindung zu verlassen.

Claims (17)

  1. Ein Verfahren zum Erzeugen eines aufgabenabhängigen vereinheitlichten Sprachmodells (16, 140) für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus, wobei das aufgabenabhängige vereinheitlichte Sprachmodell für einen Zugriff durch ein Sprachverarbeitungssystem (10, 100) in einer Speichervorrichtung (52, 59, 61, 80) eines Computersystems (50) gespeichert ist, wobei das aufgabenabhängige vereinheitlichte Sprachmodell eingebettete Nonterminal-Zeichen einer kontextfreien Grammatik in einem N-Gram-Modell besitzt, worin das Verfahren umfasst: Zugreifen (162, 182, 202) auf eine erste Mehrzahl von kontextfreien Grammatiken (144, 240), welche Nonterminal-Zeichen umfassen, die semantische oder syntaktische Konzepte darstellen, wobei jede der kontextfreien Grammatiken Wörter besitzt, die in dem aufgabenunabhängigen Korpus vorhanden sind, um die semantischen oder syntaktischen Konzepte zu bilden; Parsen (164, 184) des aufgabenunabhängigen Korpus mit der ersten Mehrzahl von kontextfreien Grammatiken, um Wortereignisse von jedem der semantischen oder syntaktischen Konzepte zu identifizieren; Ersetzen (166, 186) von jedem der identifizierten Wortereignisse mit den entsprechenden Nonterminal-Zeichen; Bilden (168, 188) eines N-Gram-Modells (142, 246), welches die Nonterminal-Zeichen eingebettet hat; und Speichern einer zweiten Mehrzahl von kontextfreien Grammatiken, die zumindest einige derselben Nonterminal-Zeichen umfassen, welche die selben semantischen oder syntaktischen Konzepte darstellen, wobei jede der kontextfreien Grammatiken der zweiten Mehrheit für die ausgewählte Anwendung geeignet ist.
  2. Das Verfahren von Anspruch 1 und weiterhin umfassend: Speichern des N-Gram-Modells, das die Nonterminal-Zeichen besitzt, und der zweiten Mehrzahl von kontextfreien Grammatiken, die Nonterminal-Zeichen besitzen, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, auf einem maschinenlesbaren Datenträger.
  3. Das Verfahren von Anspruch 1, worin die erste Mehrzahl von kontextfreien Grammatiken einen Satz von kontextfreien Grammatiken, die Nonterminal-Zeichen besitzen, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, und zumindest eine kontextfreie Grammatik, die ein Nonterminal-Zeichen besitzt, das unter Verwendung einer Phrase definiert ist, die auch zum Definieren eines der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwendet wird, umfasst, wodurch die Phrase verwechselt werden kann, und worin Parsen das Parsen des aufgabenunabhängigen Korpus zum Identifizieren von Wortereignissen für jede der semantischen oder syntaktischen Konzepte und Phrasen umfasst.
  4. Das Verfahren von Anspruch 3, worin Ersetzen jedes der identifizierten Wortereignisse das Ausschließen der Nonterminals einschließt, die zur Verhinderung von Verwechslungen während des Parsens hinzugefügt wurden.
  5. Das Verfahren von Anspruch 3 und weiterhin umfassend: Speichern des N-Gram-Modells, welches die Nonterminal-Zeichen besitzt, und des Satzes von kontextfreien Grammatiken, die Nonterminal-Zeichen besitzen, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, auf einem maschinenlesbaren Datenträger.
  6. Das Verfahren von Anspruch 3, worin Bilden des N-Gram-Modells das Entfernen zumindest von Teilen des assoziierten Texts aus dem aufgabenunabhängigen Korpus für Nonterminal-Zeichen, die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden können, einschließt.
  7. Ein maschinenlesbarer Datenträgen, der Anweisungen enthält, die von einem Computersystem (50) lesbar sind, welches, wenn implementiert, ein Verfahren zum Bilden eines aufgabenabhängigen vereinheitlichten Sprachmodells (16, 140) für eine ausgewählte Anwendung aus einem aufgabenunabhängigen Korpus ausführt, wobei das aufgabenabhängige vereinheitlichte Sprachmodell für einen Zugriff durch ein Sprachverarbeitungssystem (10, 100) in einer Speichervorrichtung (52, 59, 61, 80) des Computersystems gespeichert ist, worin das Verfahren umfasst: Zugreifen (162, 182, 202) auf eine erste Mehrzahl von kontextfreien Grammatiken, welche Nonterminal-Zeichen umfassen, die semantische oder syntaktische Konzepte darstellen, wobei jede der kontextfreien Grammatiken Wörter besitzt, die in dem aufgabenunabhängigen Korpus vorhanden sind, um die semantischen oder syntaktischen Konzepte zu bilden; Parsen (164, 184) des aufgabenunabhängigen Korpus mit der ersten Mehrzahl von kontextfreien Grammatiken, um Wortereignisse von jedem der semantischen oder syntaktischen Konzepte zu identifizieren; Ersetzen (166, 186) von jedem der identifizierten Wortereignisse mit den entsprechenden Nonterminal-Zeichen; Bilden (168, 188) eines N-Gram-Modells (142, 246), welches die Nonterminal-Zeichen eingebettet hat; und Speichern des N-Gram-Modells und einer zweiten Mehrzahl von kontextfreien Grammatiken, die zumindest einige der selben Nonterminal-Zeichen umfassen, welche die selben semantischen oder syntaktischen Konzepte darstellen, wobei jede der kontextfreien Grammatiken der zweiten Mehrheit für die ausgewählte Anwendung geeignet ist.
  8. Der maschinenlesbare Datenträger von Anspruch 7, worin die erste Mehrzahl von kontextfreien Grammatiken einen Satz von kontextfreien Grammatiken, die Nonterminal-Zeichen besitzen, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, und zumindest eine kontextfreie Grammatik, die ein Nonterminal-Zeichen besitzt, das unter Verwendung einer Phrase definiert ist, die auch zum Definieren eines der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwendet wird, umfasst, wodurch die Phrase verwechselt werden kann, und worin Parsen das Parsen eines aufgabenunabhängigen Korpus zum Identifizieren von Wortereignissen für jede der semantischen oder syntaktischen Konzepte und Phrasen umfasst.
  9. Der maschinenlesbare Datenträger von Anspruch 8, worin Ersetzen jedes der identifizierten Wortereignisse durch entsprechende Nonterminal-Zeichen das Ausschließen der Nonterminals einschließt, die zur Verhinderung von Verwechslungen während des Parsens hinzugefügt wurden.
  10. Der maschinenlesbare Datenträger von Anspruch 8, der Anweisungen besitzt, die weiterhin umfassen: Speichern des N-Gram-Modells, welches die Nonterminal-Zeichen besitzt, und des Satzes von kontextfreien Grammatiken, die Nonterminal-Zeichen besitzen, die aufgabenabhängige semantische oder syntaktische Konzepte darstellen, auf einem maschinenlesbaren Datenträger.
  11. Der maschinenlesbare Datenträger von Anspruch 8, worin Bilden des N-Gram-Modells das Entfernen zumindest von Teilen des assoziierten Texts aus dem aufgabenunabhängigen Korpus für Nonterminal-Zeichen, die mit einem der gewünschten aufgabenabhängigen semantischen oder syntaktischen Konzepte verwechselt werden können, einschließt.
  12. Der maschinenlesbare Datenträger von Anspruch 7, worin die Nonterminal-Zeichen semantische oder syntaktische Konzepte der ausgewählten Anwendung darstellen, worin der maschinenlesbare Datenträger Anweisungen aufweist, welche umfassen: Erzeugen (204) von Wortphrasen aus der ersten Mehrzahl von kontextfreien Grammatiken; Formulieren (206) einer Informationssuchabfrage aus zumindest einer der Wortphrasen; Abfragen (208) des aufgabenunabhängigen Korpus auf der Grundlage der formulierten Abfrage; Identifizieren assoziierten Texts in dem aufgabenunabhängigen Korpus auf der Grundlage der Abfrage; und Bilden (212) des N-Gram-Sprachmodells (250) unter Verwendung des identifizierten Texts.
  13. Der maschinenlesbare Datenträger von Anspruch 12 und Anweisungen aufweisend, die weiterhin umfassen: Parsen (222, 264) des identifizierten Texts des aufgabenunabhängigen Korpus mit der Mehrzahl von kontextfreien Grammatiken, um Wortereignisse für jedes der semantischen oder syntaktischen Konzepte zu identifizieren; Ersetzen (224) jedes der identifizierten Wortereignisse mit entsprechenden Nonterminal-Zeichen; und worin Bilden des N-Gram-Sprachmodells das Bilden eines N-Gram-Modells umfasst, welches die Nonterminal-Zeichen besitzt.
  14. Der maschinenlesbare Datenträger von Anspruch 12, der Anweisungen aufweist, die umfassen: Bilden eines zweiten N-Gram-Sprachmodells aus dem identifizierten Text; und Kombinieren des zuerst genannten N-Gram-Sprachmodells und des zweiten N-Gram-Sprachmodells, um ein drittes N-Gram-Sprachmodell (252) zu bilden.
  15. Der maschinenlesbare Datenträger von Anspruch 14, worin Bilden des zweiten N-Gram-Sprachmodells das Verwenden lediglich des identifizierten Texts beinhaltet.
  16. Der maschinenlesbare Datenträger von Anspruch 14, worin die Wortphrasen Nonterminal-Zeichen einschließen, und worin Bilden des zuerst genannten N-Gram- Sprachmodells das Bilden eines N-Gram-Modells umfasst, welches die Nonterminal-Zeichen besitzt.
  17. Der maschinenlesbare Datenträger von Anspruch 7, der Anweisungen aufweist, die umfassen: Zuweisen von Wahrscheinlichkeiten zu Wörtern von zumindest einigen der kontextfreien Grammatiken als eine Funktion von entsprechenden Wahrscheinlichkeiten, die für die selben Terminals aus dem N-Gram-Modell erhalten werden, worin Zuweisen von Wahrscheinlichkeiten das Normalisieren der Wahrscheinlichkeiten der Wörter von dem N-Gram-Modell in jeder der kontextfreien Grammatiken als eine Funktion der Wörter einschließt, die durch die entsprechende kontextfreie Grammatik erlaubt sind.
DE60123952T 2000-06-01 2001-05-23 Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren Expired - Lifetime DE60123952T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US585298 1990-09-19
US09/585,298 US7031908B1 (en) 2000-06-01 2000-06-01 Creating a language model for a language processing system
PCT/US2001/016851 WO2001093246A2 (en) 2000-06-01 2001-05-23 Creating a unified task dependent language models with information retrieval techniques

Publications (2)

Publication Number Publication Date
DE60123952D1 DE60123952D1 (de) 2006-11-30
DE60123952T2 true DE60123952T2 (de) 2007-02-01

Family

ID=24340846

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60123952T Expired - Lifetime DE60123952T2 (de) 2000-06-01 2001-05-23 Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren

Country Status (7)

Country Link
US (2) US7031908B1 (de)
EP (1) EP1290676B1 (de)
JP (2) JP5099953B2 (de)
AT (1) ATE343198T1 (de)
AU (1) AU2001274936A1 (de)
DE (1) DE60123952T2 (de)
WO (1) WO2001093246A2 (de)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8793160B2 (en) 1999-12-07 2014-07-29 Steve Sorem System and method for processing transactions
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
WO2002029613A1 (en) * 2000-09-30 2002-04-11 Intel Corporation (A Corporation Of Delaware) Method and system for building a domain specific statistical language model from rule-based grammar specifications
US7275033B1 (en) * 2000-09-30 2007-09-25 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8020754B2 (en) 2001-08-13 2011-09-20 Jpmorgan Chase Bank, N.A. System and method for funding a collective account by use of an electronic tag
US7340466B2 (en) * 2002-02-26 2008-03-04 Kang Jo Mgmt. Limited Liability Company Topic identification and use thereof in information retrieval systems
US20060004732A1 (en) * 2002-02-26 2006-01-05 Odom Paul S Search engine methods and systems for generating relevant search results and advertisements
US7716207B2 (en) * 2002-02-26 2010-05-11 Odom Paul S Search engine methods and systems for displaying relevant topics
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US20040122736A1 (en) 2002-10-11 2004-06-24 Bank One, Delaware, N.A. System and method for granting promotional rewards to credit account holders
WO2004049192A2 (en) 2002-11-28 2004-06-10 Koninklijke Philips Electronics N.V. Method to assign word class information
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US7328147B2 (en) * 2003-04-03 2008-02-05 Microsoft Corporation Automatic resolution of segmentation ambiguities in grammar authoring
AU2003902020A0 (en) * 2003-04-29 2003-05-15 Telstra New Wave Pty Ltd A process for grammatical inference
US7197457B2 (en) * 2003-04-30 2007-03-27 Robert Bosch Gmbh Method for statistical language modeling in speech recognition
JP2004334193A (ja) * 2003-05-01 2004-11-25 Microsoft Corp 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム
US7603267B2 (en) * 2003-05-01 2009-10-13 Microsoft Corporation Rules-based grammar for slots and statistical model for preterminals in natural language understanding system
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8306907B2 (en) 2003-05-30 2012-11-06 Jpmorgan Chase Bank N.A. System and method for offering risk-based interest rates in a credit instrument
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7584103B2 (en) * 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US20060253273A1 (en) * 2004-11-08 2006-11-09 Ronen Feldman Information extraction using a trainable grammar
US8229737B2 (en) * 2004-11-23 2012-07-24 International Business Machines Corporation Name classifier technique
US20070005597A1 (en) * 2004-11-23 2007-01-04 Williams Charles K Name classifier algorithm
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7401731B1 (en) 2005-05-27 2008-07-22 Jpmorgan Chase Bank, Na Method and system for implementing a card product with multiple customized relationships
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
WO2007064639A2 (en) * 2005-11-29 2007-06-07 Scientigo, Inc. Methods and systems for providing personalized contextual search results
US8442828B2 (en) * 2005-12-02 2013-05-14 Microsoft Corporation Conditional model for natural language understanding
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US20070239453A1 (en) * 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7689420B2 (en) * 2006-04-06 2010-03-30 Microsoft Corporation Personalizing a context-free grammar using a dictation language model
SG174027A1 (en) * 2006-05-04 2011-09-29 Jpmorgan Chase Bank Na System and method for restricted party screening and resolution services
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
WO2007150005A2 (en) 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Automatic decision support
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US8346555B2 (en) * 2006-08-22 2013-01-01 Nuance Communications, Inc. Automatic grammar tuning using statistical language model generation
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
KR100822670B1 (ko) 2006-09-27 2008-04-17 한국전자통신연구원 말뭉치 기반의 확장 가능한 cfg 형태의 음성 인식 문법생성 방법 및 장치
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US8204738B2 (en) * 2006-11-03 2012-06-19 Nuance Communications, Inc. Removing bias from features containing overlapping embedded grammars in a natural language understanding system
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7912700B2 (en) * 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8135578B2 (en) * 2007-08-24 2012-03-13 Nuance Communications, Inc. Creation and use of application-generic class-based statistical language models for automatic speech recognition
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9129601B2 (en) * 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8515734B2 (en) * 2010-02-08 2013-08-20 Adacel Systems, Inc. Integrated language model, related systems and methods
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8655647B2 (en) * 2010-03-11 2014-02-18 Microsoft Corporation N-gram selection for practical-sized language models
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
US8990070B2 (en) * 2011-11-18 2015-03-24 International Business Machines Corporation Computer-based construction of arbitrarily complex formal grammar expressions
US9002772B2 (en) 2011-11-18 2015-04-07 International Business Machines Corporation Scalable rule-based processing system with trigger rules and rule evaluator
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9361363B2 (en) * 2012-12-31 2016-06-07 Facebook, Inc. Modifying structured search queries on online social networks
US10235358B2 (en) 2013-02-21 2019-03-19 Microsoft Technology Licensing, Llc Exploiting structured content for unsupervised natural language semantic parsing
WO2014189399A1 (en) 2013-05-22 2014-11-27 Axon Doo A mixed-structure n-gram language model
US9251135B2 (en) * 2013-08-13 2016-02-02 International Business Machines Corporation Correcting N-gram probabilities by page view information
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
US10073840B2 (en) 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
US9286892B2 (en) 2014-04-01 2016-03-15 Google Inc. Language modeling in speech recognition
US9665560B2 (en) * 2014-04-15 2017-05-30 Oracle International Corporation Information retrieval system based on a unified language model
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
WO2016044321A1 (en) * 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
US9767091B2 (en) * 2015-01-23 2017-09-19 Microsoft Technology Licensing, Llc Methods for understanding incomplete natural language query
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US11262909B2 (en) 2016-06-02 2022-03-01 Myscript System and method for input recognition linguistic resource management
US10120861B2 (en) * 2016-08-17 2018-11-06 Oath Inc. Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
WO2018068002A1 (en) * 2016-10-06 2018-04-12 University Of Massachusetts Methods for automated controversy detection of content
US11138506B2 (en) 2017-10-10 2021-10-05 International Business Machines Corporation Abstraction and portability to intent recognition
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11521098B2 (en) 2018-03-28 2022-12-06 University Of Massachusetts Modeling controversy within populations
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110046350B (zh) * 2019-04-12 2023-04-07 百度在线网络技术(北京)有限公司 文法错误识别方法、装置、计算机设备及存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US641431A (en) * 1899-07-22 1900-01-16 George Smith Bowers Acetylene-generator.
US4831550A (en) 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US4984178A (en) * 1989-02-21 1991-01-08 Texas Instruments Incorporated Chart parser for stochastic unification grammar
US5263117A (en) 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5477451A (en) 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5384892A (en) 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
EP0645757B1 (de) 1993-09-23 2000-04-05 Xerox Corporation Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US5615296A (en) 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5689617A (en) 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
CA2203132C (en) 1995-11-04 2004-11-16 Upali Bandara Method and apparatus for adapting the language model's size in a speech recognition system
US5913193A (en) 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5819220A (en) 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
JP3027543B2 (ja) * 1996-12-11 2000-04-04 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
EP0849723A3 (de) * 1996-12-20 1998-12-30 ATR Interpreting Telecommunications Research Laboratories Spracherkennungsapparat mit Mitteln zum Eliminieren von Kandidatenfehlern
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6032111A (en) * 1997-06-23 2000-02-29 At&T Corp. Method and apparatus for compiling context-dependent rewrite rules and input strings
US6073091A (en) 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6154722A (en) 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6418431B1 (en) 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6081799A (en) 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations

Also Published As

Publication number Publication date
DE60123952D1 (de) 2006-11-30
JP5162697B2 (ja) 2013-03-13
ATE343198T1 (de) 2006-11-15
US20060184354A1 (en) 2006-08-17
JP5099953B2 (ja) 2012-12-19
WO2001093246A3 (en) 2002-09-12
US7286978B2 (en) 2007-10-23
AU2001274936A1 (en) 2001-12-11
US7031908B1 (en) 2006-04-18
JP2003535410A (ja) 2003-11-25
WO2001093246A2 (en) 2001-12-06
EP1290676A2 (de) 2003-03-12
JP2012014189A (ja) 2012-01-19
EP1290676B1 (de) 2006-10-18

Similar Documents

Publication Publication Date Title
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
US7016830B2 (en) Use of a unified language model
DE102008040739B4 (de) Verfahren und System zum Berechnen oder Bestimmen von Vertrauens- bzw. Konfidenzauswertungen für Syntaxbäume auf allen Ebenen
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
US7412093B2 (en) Hybrid apparatus for recognizing answer type
US20060015324A1 (en) Method and apparatus for natural language generation
JP2003505778A (ja) 音声制御ユーザインタフェース用の認識文法作成の特定用途を有する句ベースの対話モデル化
DE102005029869A1 (de) Verfahren und Vorrichtung zur Anruflenkung für natürliche Sprache unter Verwendung von Vertrauenswertungen
Adel et al. Features for factored language models for code-Switching speech.
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
CN114547274B (zh) 多轮问答的方法、装置及设备
KR100481580B1 (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
DE69333762T2 (de) Spracherkennungssystem
Nikulasdóttir et al. Open ASR for Icelandic: Resources and a baseline system
Palmer et al. Robust information extraction from automatically generated speech transcriptions
Atwell et al. Pattern recognition applied to the acquisition of a grammatical classification system from unrestricted English text
DE60037870T2 (de) Buchstabiermodus in einem spracherkenner
Pucher WordNet-based semantic relatedness measures in automatic speech recognition for meetings
CN112071304B (zh) 一种语意分析方法及装置
McMahon Statistical language processing based on self-organising word classification

Legal Events

Date Code Title Description
8364 No opposition during term of opposition