WO2000025299A1

WO2000025299A1 - Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen

Info

Publication number: WO2000025299A1
Application number: PCT/DE1999/003176
Authority: WO
Inventors: Petra Witschel
Original assignee: Siemens Aktiengesellschaft
Priority date: 1998-10-27
Filing date: 1999-10-01
Publication date: 2000-05-04
Also published as: EP1135767B1; US6640207B2; US20010051868A1; DE59901575D1; EP1135767A1

Abstract

Zur Bestimmung eines Sprachmodells werden Klassen gebildet, die auf linguistischen Klassen basieren und eine Sprachmodellentropie minimieren. Eine Obermenge von Klassen kann als Beispieltext oder als ein zusätzliches Sprachmodell vorgegeben sein.

Description

Beschreibung

Verfahren und Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen

Die Erfindung betrifft ein Verfahren und eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner.

Ein Verfahren zur Spracherkennung ist aus [1] bekannt. Dabei ist es als ein Bestandteil der Worterkennung üblich, die Brauchbarkeit einer Folge aus mindestens einem Wort anzugeben. Ein Maß für diese Brauchbarkeit ist eine Wahrscheinlichkeit .

Ein statistisches Sprachmodell ist aus [2] bekannt. So kennzeichnet die Wahrscheinlichkeit P(W) für eine Wortfolge W im Rahmen der Spracherkennung, vorzugsweise großer Vokabularmengen, allgemein ein (statistisches) Sprachmodell. Die Wahrscheinlichkeit P(W) (sog.:

Wortfolgewahrscheinlichkeit) wird angenähert durch ein N- Gramm-Sprachmodell PN(W):

n %(w) = [ p(wil wi__l w _₂, ... , i__N+1), (0-1) i=0 wobei

W_Ϊ das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter W_ der Folge W bezeichnen.

Für N=2 ergeben sich aus Gleichung (0-1) sogenannte Bigramme.

Ferner ist bekannt, bei der Spracherkennung, vorzugsweise im kommerziellen Umfeld, ein im Vokabular beschränktes Anwendungsgebiet (Domäne) zu verwenden. Texte verschiedener Domänen unterscheiden sich nicht nur im Hinblick auf ihr jeweiliges Vokabular, sondern auch hinsichtlich ihres jeweiligen Satzaufbaus. Für ein Trainieren eines Sprachmodells für eine spezielle Domäne ist eine entsprechend große Menge an Texten (Textmaterial, Textkorpus) notwendig, das jedoch in der Praxis nur selten vorhanden oder nur mit immensem Aufwand zu gewinnen ist.

Ein linguistisches Lexikon ist aus [4] bekannt. Dabei handelt es sich um eine auf einem Rechner verfügbare Zusammenstellung möglichst vieler Wörter einer Sprache zum Zwecke des Nachschlagens von linguistischen Eigenschaften anhand eines Suchprogramms. Für jeden Worteintrag (sog. Wortvollform) können die für diese Wortvollform relevanten linguistischen Merkmale und die zutreffenden Belegungen, also die linguistischen Werte, entnommen werden.

Aus [3] ist bekannt, linguistische Klassen zu verwenden. Wörter eines Satzes können auf unterschiedliche Arten in linguistischen Merkmalen und linguistischen Werten zugeordnet werden. In Tabelle 1 sind beispielhaft verschiedene linguistischen Merkmale und die zugehörigen Werte dargestellt (weitere Beispiele sind in [3] angegeben) .

Tabelle 1 : Beispiele für ling. Merkmale und ling. Werte

Basierend auf linguistischen Merkmalen

(f_l, ... ,f_m) (0-2) und linguistischen Werten

(vn-.-vij) ... (v_ml...v_mj) (0-3)

wird jedem Wort mindestens eine linguistische Klasse zugewiesen, wobei folgende Abbildungsvorschrift F Anwendung findet:

(Cx, ... , C_k) = F ((f_lf v , ... , vy)... (f_m, v_ml, ... , v_mj)j (0-4)

wobei f_m ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, v_ml---^vmj die linguistischen Werte des linguistischen

Merkmals f_m, j die Anzahl der linguistischen Werte,

C die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen, F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen.

Eine spezielle linguistische Klasse stellt dabei die Klasse der Wörter mit unbekannten oder nicht anders abbildbaren linguistischen Eigenschaften dar.

Zur Veranschaulichung der linguistischen Klasse, des linguistischen Merkmals (engl. feature), des linguistischen Werts (engl. value) und der Klassen-Bigramm- Wahrscheinlichkeit wird nachfolgend ein Beispiel erläutert.

Ausgegangen wird von dem deutschen Satz: "der Bundestag setzt seine Debatte fort"

Der Artikel "der" (also das erste Wort) kann im Deutschen in sechs linguistische Klassen (fortan nur: Klassen) unterteilt werden, wobei sich die Klassen in Numerus, Genus und Kasus unterscheiden. Die folgende Tabelle 2 veranschaulicht diesen Zusammenhang:

Tabelle 2 : Klassen C _ für das Wort "der"

Für das deutsche Substantiv "Bundestag" (zweites Wort des obigen Beispielsatzes) folgt analog Tabelle 3:

Tabelle 3 : Klassen C± für das Wort "Bundestag"

In diesem Beispiel folgt nun im Hinblick auf Klassen- Bigramme, also Bigrammen angewandt auf linguistische Klassen, daß die Klasse Ci, gefolgt von der Klasse C7 die richtige Kombination von Kategorie, Numerus, Kasus und Genus bezüglich des Beispielsatzes darstellt. Wenn Häufigkeiten real vorkommender Klassen-Bigramme aus vorgegebenen Texten bestimmt werden, so folgt für das obige Klassen-Bigramm C —C₇ ein zahlreiches Auftreten, da diese Kombination in der deutschen Sprache oft vorkommt, wohingegen anderer Klassen- Bigramme, z.B. die Kombination C2—Cg in der deutschen Sprache wegen unterschiedlicher Geni nicht erlaubt ist. Die sich aus den auf diese Art gefundenen Häufigkeiten ergebenden Klassen- Bigramm-Wahrscheinlichkeiten sind entsprechend hoch (bei oftmaligem Auftreten) bzw. niedrig (falls nicht zulässig) .

Bei der Klassenbildung wird in [7] von statistischen Eigenschaften ausgegangen. Derartige Klassen weisen keine bestimmten linguistischen Eigenschaften auf, die im Sprachmodell entsprechend eingesetzt werden können.

Die übliche Klassenbildung erfolgt manuell durch Einsatz von Linguisten, die ein Sprachmodell nach linguistischen

Eigenschaften sortieren. Ein derartiger Prozeß ist äußerst langwierig und durch die Experten auch recht kostspielig.

Die Aufgabe der Erfindung besteht darin, eine Klassenbildung für ein auf linguistischen Klassen basierendes Sprachmodell automatisch und ohne den Einsatz von Expertenwissen zu ermöglichen.

Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.

Zur Lösung der Aufgabe wird ein Verfahren zur Klassenbildung für ein auf linguistischen Klassen basierendes Sprachmodell mittels eines Rechners angegeben, bei dem anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmt wird mittels eines vorgegebenen Vokabulars mit zugehörigen linguistischen Eigenschaften. Aus N Klassen werden K Klassen (K<N) ermittelt, indem eine Sprachmodellentropie H minimiert wird. Mit den K Klassen wird eine zweite Abbildungs- vorschrift, die Klassenbildung des Sprachmodells, dargestellt. Hierbei ist es von Vorteil, daß vollständig automatisiert eine Klassenbildung ermittelbar ist. Weder ein speziell geschulter Experte übernimmt eine umständliche händische Zuordnung, noch wird durch statistische Maßnahmen die linguistische Bedeutung der Klassen aufgeweicht. Durch die Bedingung, daß K kleiner als N ist, wird die Menge der Klassen deutlich reduziert und somit ein performantes Ξprachmodell bestimmt.

Eine Weiterbildung besteht darin, daß die N Klassen ermittelt werden, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten bestimmt werden und jede der Kombinationen zu einer eigenen linguistischen Klasse führt. Die Zahl N ist somit bestimmt durch die maximal mögliche Anzahl Klassen (bezogen auf den zugrundeliegenden Text) .

Auch ist es eine Weiterbildung, die linguistischen Werte anhand eines linguistischen Lexikons zu ermitteln. Ein solches linguistisches Lexikon ist u.a. für die Sprache Deutsch erhältlich (siehe [4]).

Auch wird zur Lösung der Aufgabe ein Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner angegeben, bei dem anhand einer ersten Abbildungsvorschrift N Klassen vorgegeben sind. Aus den N Klassen werden K Klassen bestimmt, indem eine Sprachmodellentropie minimiert wird. Anhand der K Klassen wird eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen, die auf linguistischen Klassen basieren, dargestellt.

Im Rahmen einer zusätzlichen Weiterbildung werden die K Klassen ermittelt, indem folgende Schritte durchgeführt werden: a) Eine Anzahl M der wahrscheinlichsten unter den N Klassen werden als Basisklassen ermittelt; b) eine der verbleibenden (N-M) -Klassen wird mit derjenigen Basisklasse zusammengelegt, bei der die Sprachmodellentropie minimiert wird.

Dabei werden die (bezogen auf den zugrundeliegenden Text) M wahrscheinlichsten Klassen bestimmt. Auch können die obigen Schritte iterativ für mehrere oder alle verbleibenden (N-M)- Klassen durchgeführt werden.

Eine Ausgestaltung besteht darin, daß die Sprachmodellentropie bestimmt ist durch

H(LM) = -- • logP(w), (1) n

wobei

H(LM) die Sprachmodellentropie des Sprachmodells, n die Anzahl der Wörter des Textes,

W eine Kette von Wörtern W_Q, W]_, .. , w_n , P(W) eine Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern beschreiben.

Eine andere Ausgestaltung besteht darin, daß das beschriebene Verfahren zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern in der Spracherkennung eingesetzt wird. Eine Sprache weist linguistische Klassen

(Ci, ...,C_k) (2)

gemäß

(C_{l r} . . . , C_k) = F ((f-i, v , ... , vy)... (f_m, v_ml, ... , v_mj)j (3) , auf, wobei f ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, v_mι ...\ mj die linguistischen Werte des linguistischen

Merkmals f_m,

3 die Anzahl der linguistischen Werte,

Ci die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen, F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen,

Dabei wird einem Wort mindestens einer der linguistischen Klassen zugeordnet. Eine Wahrscheinlichkeit P(W) für das Auftreten der Folge von mindestens zwei Wörtern ergibt sich unter Verwendung von Bigrammen zu

n

P(^w) - π Σ ∑^P(^wil i) x PfCilCi.i) x PfCi-ilWi._!) (4!

wob ei W die Folge von mindestens zwei Wörtern,

Wj_ das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W, Ci eine linguistische Klasse, die zu einem

Wort Wi gehört,

Ci-l eine linguistische Klasse, die zu einem

Wort W _]_ gehört,

∑Ci die Summe über alle linguistischen Klassen

C, die zu einem Wort w gehören,

P (wι I Ci ) die bedingte Wortwahrscheinlichkeit,

P ( Ci I Ci-i ) die Wahrscheinlichkeit für Bigramme (auch:

Klassen-Bigramme-Wahrscheinlichkeit) , ^p (cι. _l | wi_ 1 die bedingte Klassenwahrscheinlichkeit bezeichnen.

Hierbei sei angemerkt, daß sich der Term Ci auf eine der mindestens einen linguistischen Klasse bezieht, die dem Wort i aus der Wortfolge W zugeordnet wird. Das gleiche gilt entsprechend für den Term C _ι. Beispielsweise handelt es sich bei der Klassen-Bigramm-Wahrscheinlichkeit um die Wahrscheinlichkeit dafür, daß das Wort wi einer ersten linguistischen Klasse angehört unter der Bedingung, daß das vorhergehende Wort wi_ι einer zweiten linguistischen Klasse angehört (siehe hierzu einleitendes Beispiel mit Erläuterung) .

Die Wahrscheinlichkeiten P(wi|Ci) und P(Ci|Ci_ι), die eingesetzt in Gleichung (4) ein sogenanntes Basissprachmodell ergeben, können aus einem Textkorpus, also aus einem vorgegebenem Text mit vorgegebenem Umfang, bestimmt werden.

Sprachmodelle, die auf linguistischen Klassen basieren, bieten insbesondere für eine Adaption entscheidende Vorteile. Das hier vorgestellte Verfahren verwendet die in den Sprachmodellen enthaltenen linguistischen Eigenschaften.

Eine Weiterbildung besteht darin, daß für einen neuen Text anhand eines vorbestimmten Basissprachmodells die

Wahrscheinlichkeit P(CilC _]_) in das Basissprachmodell für den neuen Text übernommen wird.

Wahrscheinlichkeiten für Klassen-Bigramme des Basissprachmodells (siehe [3] und Erläuterung in der

Einleitung) stellen einerseits eine grammatikalische Struktur des Trainingstextes dar und sind andererseits vom Vokabular unabhängig. Geht man davon aus, daß die neue Domäne von ähnlicher Textstruktur (grammatikalischer Struktur) wie der ursprüngliche Trainingstext für das Basissprachmodell ist, so ist es zweckmäßig, die Wahrscheinlichkeit für die Klassen- Bigramme P (Cj_| Ci_ι) aus dem Basissprachmodell unverändert zu übernehmen.

Das Vokabular für die neue Domäne, für die ein Sprachmodell bestimmt wird, wird mit Hilfe eines vorgegebenen linguistischen Lexikons und unter Verwendung eines Klassifikators F gemäß Gleichung (3) bearbeitet. Für jedes neue Wort aus dem Text wird automatisch mindestens eine linguistische Klasse bestimmt. Zur detaillierten Beschreibung von linguistischen Klassen, linguistischen Merkmalen und linguistischen Werten siehe [3] , zum linguistischen Lexikon siehe [4] und/oder jeweils die Einleitung.

Eine andere Weiterbildung besteht darin, die Wahrscheinlichkeit P (wil Ci) nach mindestens einer der folgenden Möglichkeiten zu bestimmen:

a) die Wahrscheinlichkeit P (wil Ci) wird anhand des Textes bestimmt;

b) die Wahrscheinlichkeit P (wil Ci) wird für ein Wort wi mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(wi) bestimmt;

c) die Wahrscheinlichkeit P (wil Ci) wird unter Verwendung einer Wortliste bestimmt.

Eine zusätzliche Weiterbildung besteht darin, anhand der ermittelten Wahrscheinlichkeit P (wil Ci) das Basissprachmodell anzupassen. Dies geschieht vorzugsweise derart, daß diese ermittelten Wahrscheinlichkeiten P (wil Ci) in das Basissprachmodell aufgenommen werden.

Auch ist es eine Weiterbildung, die Wahrscheinlichkeit P (Ci_il wi__]_) anhand der Wahrscheinlichkeit P ( il Ci) wie folgt zu bestimmen: P (_Ci| wi) = K x P(_Wi| Ci) x P(Ci) (5)

wobei

einen Normalisierungsfaktor bezeichnet.

Eine andere Weiterbildung besteht darin, eine entsprechende Folge von mindestens einem Wort zu erkennen, falls die

Wahrscheinlichkeit P(W) oberhalb einer vorgegebenen Schranke liegt. Ist dies nicht der Fall, so wird eine vorgegebene Aktion durchgeführt. Diese vorgegebene Aktion ist z.B. die Ausgabe einer Fehlermeldung oder der Abbruch des Verfahrens.

Im Rahmen einer anderen Weiterbildung bezieht sich der Text auf einen vorgegebenen Anwendungsbereich, eine sogenannte (Sprach-, Anwendungs-) Domäne .

Dabei ist es besonders von Vorteil, daß das vorgestellte Verfahren einen neuen Text von nur geringem Umfang für die Bestimmung eines Sprachmodells einer neuen Domäne benötigt.

Auch ist von Vorteil, daß Listen von neuen Wörtern (mit oder ohne Angabe der Wahrscheinlichkeit P(wi)) verwendet werden können. Domänenbezogene Spracherkennung spielt in der Praxis eine große Rolle. Das Verfahren begegnet somit einer realen Anforderung und hat sich im Experiment als geeignet und überaus nützlich erwiesen. Greift man auf das Basissprachmodell zurück, so reduziert sich die Anzahl der neu abzuschätzenden Wahrscheinlichkeiten (Abschätzung nur von P (wil Ci) notwendig) erheblich.

Weiterhin wird zur Lösung der Aufgabe eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen angegeben, die eine Prozessoreinheit aufweist, welche Prozessoreinheit derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmbar ist mittels eines vorgegebenen

Vokabulars mit zugehörigen linguistischen Eigenschaften; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.

Auch wird zur Lösung der Aufgabe eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen angegeben, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift N Klassen vorgebbar sind; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.

Diese Anordnungen sind insbesondere geeignet zur Durchführung eines erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.

Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.

Es zeigen

Fig.l ein Blockdiagramm, das Schritte eines Verfahrens zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens einem Wort bei einer Spracherkennung durch einen Rechner umfaßt;

Fig.2 ein erstes Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P(wilCi);

Fig.3 ein zweites Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P (wil Ci) ;

Fig. ein Blockdiagramm mit Schritten eines Verfahrens zur Klassenbildung für ein Sprachmodell;

Fig.5 ein Blockdiagramm mit Komponenten zur automatischen Bestimmung einer Abbildungsvorschrift zur Klassenbildung;

Fig.6 ein Blockdiagramm zur Optimierung eines bestehenden Sprachmodells;

Fig. ein Ablaufdiagramm einer Optimierungsstrategie zur automatischen Bestimmung einer Klassenbildung;

Fig.8 eine Prozessoreinheit.

In Fig.4 ist ein Blockdiagramm mit Schritten eines Verfahrens zur Klassenbildung für ein Sprachmodell dargestellt.

In einem ersten Fall werden, ausgehend von einer ersten Abbildungsvorschrift (vgl. Schritt 401) N Klassen nach einer vorgegebenen Bedingung bestimmt. Eine Möglichkeit besteht darin, die N Klassen als alle maximal möglichen Klassen zu ermitteln, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten ermittelt werden und jede der Kombination eine eigene Klasse ergibt (vgl. Schritt 402). In einem Schritt 403 werden K Klassen mit Hilfe der N Klassen ermittelt unter Berücksichtigung der Bedingung, daß eine Sprachmodellentropie minimiert wird. Die auf diese Art gewonnenen K Klassen stellen eine zweite Abbildungsvorschrift (vgl. Schritt 404) dar, anhand derer eine Klassenbildung nach linguistischen Klassen für ein Sprachmodell erfolgt.

In einem zweiten Fall, wird von einem bestehenden Sprachmodell mit einer ersten Abbildungsvorschrift und N vorgegebenen Klassen ausgegangen (vgl. Schritt 405) . Die nachfolgenden Schritte 403 und 404 ermöglichen eine Anpassung des bestehenden Sprachmodells, indem wiederum eine Klassenbildung für eine Sprachmodell erfolgt, das gegenüber dem ursprünglichen Sprachmodell im Hinblick auf die linguistischen Klassen optimiert wird.

Der in Fig.4 dargestellte Zusammenhang wird nochmals in Fig.5 und Fig.6 veranschaulicht.

Wie bereits erwähnt, wird im vorliegenden Fall diejenige Abbildungsvorschrift zur Klassenbildung basierend auf linguistischen Eigenschaften gesucht, die die Sprachmodellentropie des über diesen Klassen erzeugten Sprachmodells minimiert (wird nachfolgend auch als Optimierungskriterium bezeichnet) . Zum Generieren von Sprachmodellen auf linguistischen Klassen ist eine

Abbildungsvorschrift notwendig, die jedem Wort mindestens eine linguistische Klasse zuordnet. Die Klassenbildung erfolgt auf Basis von linguistischen Eigenschaften. Entsprechend den linguistischen Merkmalen nach Gleichung (0-2) und den linguistischen Werten nach Gleichung (0-3) werden jedem Wort eine oder mehrere Klassen zugewiesen. Die linguistischen Merkmale und die linguistischen Werte sind dabei einem linguistischen Lexikon (vgl. [4]) entnommen.

Die Abbildungsvorschrift (Klassifikator) F der linguistischen Merkmale und ihrer linguistischen Werte auf Klassen, wird gemäß Gleichung (3) definiert. Zunächst wird eine Abbildungsvorschrift L bestimmt, die bei gegebenen Vokabular und aus dem linguistischen Lexikon vorgegebenen linguistischen Eigenschaften die maximal mögliche Anzahl N von Klassen erzeugt:

L((^fl' ^VH' ^{• •} ' ^vlj)- ^• (^fm' ^vml' ^{• • •} / v_mj)) = 4 ⁽7⁾ mit I e {l, N} ,

wobei

(fi, vn, .. , vy)..(f_m, v_ml, vmη eine Merkmals-Wertekombination des Domänenlexikons bezeichnet.

Wissensquelle dafür sind ein die gegebene Domäne repräsentierender Trainingskorpus und ein sein Vokabular umfassendes linguistisches Lexikon (vgl. Block 501 in Fig.5). Auf den maximalen Klassen N (vgl. Block 502) wird das Sprachmodell trainiert (vgl. Block 503). Zum Training des Sprachmodells siehe Fig.2 und zugehörige Beschreibung. In einem Block 504 erfolgt die Optimierung: Die maximal möglichen Klassen N werden so zusammengefaßt, daß ein Optimierungskriterium erfüllt ist. Basierend auf den neuen K Klassen wird ein Sprachmodell bestimmt (vgl. Block 505).

Alternativ zu einem maximalen Sprachmodell kann jedes klassenbasierte Sprachmodell der Optimierung unterzogen werden. In diesem Fall sind N Klassen vorgegeben (vgl. Block 601, Fig.6), die Optimierungsschleife (Block 602) und die nachfolgende Berechnung des neuen Sprachmodells auf Basis der optimierten Klassen (Block 603) sind analog zu Fig.5.

Um die maximale Anzahl N Klassen zu ermitteln, werden alle möglichen Kombination von linguistischen Merkmalen gemäß Gleichung (0-2) und zugehörigen linguistischen Werten gemäß Gleichung (0-3) bestimmt, die im linguistischen Lexikon als Eigenschaften des (Domänen-) Vokabulars enthalten sind. Jede solche Merkmals-Wertekombination wird zur Definition einer neuen Wortklasse der maximal möglichen Anzahl N Klassen herangezogen. Die Abbildungsvorschrift L , siehe Gleichung (7) bildet jeweils eine der maximal möglichen Merkmals-Wertekombinationen des Lexikons auf eine der N Klassen der maximalen Klassenmenge ab.

In der Optimierungsschleife wird nach einer Abbildung OPTp^ gesucht, die die Entropie H(LM) des Sprachmodells LM(OPTM) minimiert. Das Sprachmodell basiert auf der durch OPTJVJ bestimmten Klasseneinteilung:

QPT_M = arg min_0PT M_{M s} ^eφ^ψ _MM H(LM(OPT_M)) (8),

wobei

eine Menge der möglichen Abbildungen OPT-vj bezeichnet, für die gilt:

oPTj Ci, .. , CNJ = ICi, .. ,

(9),

wobei

_PL ^CI mit 1=1,.., N die Klassen der maximalen Klassenmenge und

,0 mit o=l,..,M die Klassen der optimierten Klassenmenge (K Klassen) bezeichnen.

Somit gilt:

d.h. C₀ ist die Vereinigung (Cluster) von Klassen aus der maximalen Klassenmenge. Die Vereinigung erfolgt über linguistische Merkmale und linguistische Werte der zu vereinigenden Klassen. Zum Beispiel ist Ci C* { il A v B} (11)

mit :

A: if i), v₁₁( _i), .. , v_1j( _i)).. (f_m(wi), v_ml(_Wi), .. , v_ιrιj(-w_i))) = C^ und

B: v (_Wi), .. , vx- fwi)).. (f_m( ), v_ml(_Wi), .. , v_mj(w_i)j) =

Die Sprachmodellentropie H(LM) ist gegeben durch Gleichung (1), wobei P(W) ein genäherter Wert sein kann. Für den Wert P(W) gilt Gleichung (4).

In Fig.7 ist eine Optimierungsstrategie in Form eines Ablaufdiagramms dargestellt. Um die Anzahl der Klassen N zu reduzieren, werden die Klassen N zusammengelegt. Dabei alle Möglichkeiten der Vereinigungen von Klassen zu berücksichtigen, ist in der Praxis äußerst aufwendig. Vorzugsweise wird daher anders verfahren: M sei die gewünschte Anzahl der optimierten Klassen. Die Wahrscheinlichkeitswerte des Sprachmodells der N Klassen werden eingesetzt, um die wahrscheinlichsten M Klassen unter den N Klassen als Basisklassen zu ermitteln. Die verbleibenden N-M Klassen bilden die Restklassen (vgl. Schritt 701 in Fig.7). Innerhalb jeder Schleife der Optimierung wird eine der Restklassen mit derjenigen

Basisklasse zusammengelegt, so daß dabei eine Zunahme der Sprachmodellentropie minimiert wird (vgl. Schritte 702 bis 705) . Werden zwei Klassen zusammengelegt, so werden die Wahrscheinlichkeiten, die notwendig sind, um den Zuwachs der Sprachmodellentropie zu bestimmen, neu berechnet (vgl. Schritt 706) .

In Fig.8 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.

Fig.l stellt einzelne Schritte des Verfahrens zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern bei einer Spracherkennung durch einen Rechner dar. In einem Schritt 101 wird Sprache in linguistische Klassen

(Ci, ...,C_k) (2)

unterteilt:

(Ci, ... , C_k) = F ι, v , ... , Vij)... (f_m, v_ml, ... , v_mj)j (3) ,

wobei f_m ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, ^vml---^vmj die linguistischen Werte des linguistischen

Merkmals f_m, j die Anzahl der linguistischen Werte, Ci die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen,

F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen. Eine ausführliche Erklärung der linguistischen Merkmale und der linguistischen Werte findet sich in [3], z.B. auf Seite 1201 in Tabelle 4 wird eine beispielhafte Aufstellung von linguistischen Merkmalen mit zugehörigen linguistischen Werten abhängig von unterschiedlichen Kategorien gezeigt.

In einem Schritt 102 wird einem Wort mindestens eine der linguistischen Klassen zugeordnet. Wie in [3] beschrieben ist, kann einem Wort eine oder mehrere der linguistischen Klassen zugeordnet werden.

Schließlich wird in einem Schritt 103 die Wahrscheinlichkeit P(W) für das Auftreten der Folge von mindestens zwei Wörtern bestimmt durch

n ^p(^w) * π Σ ∑^P(^wil^Ci)^{x p}(CilCi_ι) x P(Ci_ι|wi_ι) (4⁾ i=l Ci Ci_!

e i W W die Folge von mindestens zwei Wörtern,

Wi das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W,

Ci eine linguistische Klasse, die zu einem Wort wi gehört, C Cii_-ιi eine linguistische Klasse, die zu einem

Wort wi_i gehört,

∑Ci die Summe über alle linguistischen Klassen C, die zu einem Wort wi gehören,

P (wi I Ci ) die bedingte Wortwahrscheinlichkeit, P P((CCii| ICCii_-]i_)) die Wahrscheinlichkeit für Bigramme (auch:

Klassen-Bigramme, Bigramm- Wahrscheinlichkeit) , P (Ci_ι I i-l) die bedingte Klassenwahrscheinlichkeit bezeichnen. Die Gleichung (4) besteht aus einer kaskadierten Multiplikation dreier Komponenten

(CilCi_ι), P( ilCi) und P(Ci_χ| wi_χ),

die nachfolgend im einzelnen bestimmt werden.

Bestimmung der Wahrscheinlichkeit P(Ci|Ci_ι) :

Vokabeln des Textes für die neue Domäne werden mit Hilfe eines linguistischen Lexikons unter Verwendung eines Klassifikators F, wie in Gleichung (3) gezeigt, linguistischen Klassen zugeordnet. Dabei wird jedes neue Wort automatisch mindestens einer linguistischen Klasse zugeordnet. Ein Basissprachmodell umfaßt Wahrscheinlichkeiten für Klassen-Bigramme [3], wobei diese Wahrscheinlichkeit einerseits eine grammatikalische Struktur repräsentiert, andererseits von den einzelnen Wörtern unabhängig ist. Wird nun davon ausgegangen, daß die Domäne, also der spezielle anwendungsbezogene Themenbereich, von einer ähnlichen Textstruktur ist wie der dem Basissprachmodell zugrundeliegende Trainingstext, so wird die Wahrscheinlichkeit für Klassen-Bigramme P(CilCi_]_) aus dem Basissprachmodell unverändert übernommen. Eine solche automatische Zuordnung ist möglich, da, weitgehend unabhängig vom Inhalt eines Textes, davon ausgegangen werden kann, daß linguistische Merkmale und linguistische Werte, also eine Abbildung in linguistische Klassen (siehe Gleichung (3)), eigentümlich für eine Sprache sind und daher vorteilhaft von einem Themenbereich (Domäne) auf einen anderen Themenbereich übertragen werden können. Grammatikalische Strukturen vieler Trainingstexte sind ähnlich bzw. gleich, unabhängig von dem den jeweiligen Trainingstexten zugrundeliegenden Themenbereich (Domäne). Die Wahrscheinlichkeit P(CilCi_ι), die für das Basissprachmodell aufgrund von vorausgegangenen Trainingsdurchgängen bestimmt wurde, stellt in Bezug auf die Klassenzuordnung des Vokabulars des neuen Textes ein Grundwissen dar, das nicht erneut bestimmt werden muß, sondern, so das Basissprachmodell einen ausreichenden Grad an Ausführlichkeit aufweist, übernommen werden kann.

Bestimmung der Wahrscheinlichkeit P( |C ) :

Die Wahrscheinlichkeit P (wil Ci) für alle bezüglich des Basissprachmodells neuen Wörter wi sind neu zu berechnen und die Wahrscheinlichkeit P (wil Ci) (Wortwahrscheinlichkeit) des im Basissprachmodell vorhandenen Vokabulars ist vorzugsweise entsprechend anzupassen. Zur Bestimmung der Wahrscheinlichkeit P (w l C ) werden nachfolgend drei unterschiedliche Methoden erläutert:

Methode 1:

Die Wahrscheinlichkeit P ( il Ci) für alle neuen Wörter Wi der neuen Domäne wird auf Basis des Textes für die neue Domäne abgeschätzt. Es wird ausgegangen von einem auf linguistischen Klassen basierenden Basissprachmodell, wobei die neu abgeschätzte Wahrscheinlichkeit P (wil Ci) vorzugsweise in das

Basissprachmodell übernommen wird und somit eine Adaption des Basissprachmodells anhand des neuen Textes erfolgt.

Vorzugsweise wird diese Vorgehensweise verwendet, wenn der neue Text für die neue Domäne einen ausreichenden Umfang aufweist. Jedem Wort des neuen Textes wird die im Satzkontext ermittelte mindestens eine linguistische Klasse zugewiesen. Dies wird anhand des in [3] beschriebenen "Tagging-Tools" durchgeführt. Die Wahrscheinlichkeit P (wil Ci) für jedes neue

Wort wi wird anhand des neuen Textes abgeschätzt.

In Fig.2 ist ein erstes Adaptionsverfahren zur Bestimmung der Wortwahrscheinlichkeit P (wil Ci) dargestellt. Mittels des

Klassifikators F 211 und des linguistischen Lexikons 206 wird unter Verwendung des Tagging-Tools 202 (siehe detaillierte Erläuterungen zu dem Tagging-Tool unter [3] ) sowohl aus einer Datenbasis aus großen Texten 201 ein großer "getaggter" Text 203 als auch aus einer Datenbasis aus einem kleinen Text der neuen Domäne (also dem neuen Text) 207 ein kleiner "getaggter" Text 208 bestimmt. Aus dem großen "getaggten" Text 203 wird mittels eines Sprachmodellgenerators 204 ein Basissprachmodell 205, das auf linguistischen Klassen beruht, bestimmt. Wie oben ausführlich beschrieben wurde, geht die Wahrscheinlichkeit P(CilCi_ι) unverändert in das Sprachmodell für die neue Domäne ein. Aus dem "getaggten" kleinen Text 208 wird mittels eines Adaptions-Tools 209, das eine Abschätzung der Wahrscheinlichkeit P (wil Ci) mittels des

"getaggten" kleinen Textes durchführt, ein neues, vorzugsweise adaptiertes, Sprachmodell 210 bestimmt. Neben der beschriebenen Adaption kann ohne Einschränkung auch ein weiteres Sprachmodell erzeugt werden.

Methode 2:

Ein weiteres Verfahren reduziert die durch das

Basissprachmodell gegebenen einzelnen Wortwahrscheinlichkeiten P (wil Ci) und überträgt den reduzierten Beitrag auf das in der jeweiligen linguistischen Klasse Ci zu ergänzende Vokabular (Wörter) . Dies wird abhängig von den jeweiligen Werten P(wi) der neuen Wörter durchgeführt.

In Fig.3 ist dieses zweite Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P (wil Ci) dargestellt. Mittels des

Klassifikators F 311 und des linguistischen Lexikons 306 wird anhand des Tagging-Tools 302 aus einer Datenbasis aus großen Texten 301 ein "getaggter" großer Text 303 bestimmt. Mit einem Sprachmodellgenerator 304 wird aus dem "getaggten" großen Text 303 ein Basissprachmodell 305, das auf linguistischen Klassen beruht, erstellt. Aus dem Basissprachmodell 305 wird die Wahrscheinlichkeit P (C-j_| Ci_ι) unverändert übernommen. Anhand einer Wortliste für die neue Domäne 307 wird mittels eines Adaptions-Tools 308 ein adaptiertes Sprachmodell 309 bestimmt. Auch hier kann eine Adaption eine Veränderung oder eine Erzeugung eines Sprachmodells umfassen. Das Adaptions-Tool 308 berechnet die Wahrscheinlichkeit P (wil Ci) für neue Wörter aus der Wahrscheinlichkeit P(wi) und führt eine Renormierung der Wahrscheinlichkeit P (wil Ci) des Basissprachmodells durch.

Nachfolgend wird dieses Verfahren detailliert beschrieben.

Die folgenden Größen sind durch das Basissprachmodell gegeben:

i Vokabular des Basissprachmodells mit i=l, ...,N,

N Anzahl des Vokabulars des

Basissprachmodells,

Nς Anzahl der Wörter in der jeweiligen Klasse

C des Basissprachmodells,

Anzahl der Klassen des Basissprachmodells,

für j=0, ... , k; Unigramm- te) Wahrscheinlichkeiten für die Klassen des Basissprachmodells,

PlC_jl C_j_ι) für j=l, ... , k; Bigramm-Wahrscheinlichkeiten für die Klassen des Basissprachmodells,

^p(^wilCj(wi)) und P (Cj(wi) | Wi)

Wortwahrscheinlichkeiten des

Basissprachmodells für alle Wörter wi, mit i=l,...,N, und alle Klassen C_j( i) mit j=0,..., k, für die gilt: Wort wi liegt in der linguistischen Klassen Cj . Die Bildung linguistischer Klassen eines Sprachmodells für die neue Domäne entspricht der Bildung linguistischer Klassen für das Basissprachmodell. Der Klassifikator F (siehe Gleichung (3) ) des Basissprachmodells wird übernommen. Also ist die Anzahl der linguistischen Klassen k unverändert. Es wird für die neue Domäne von Texten ähnlicher Struktur wie dem Basissprachmodell zugrundeliegende Trainingstexte ausgegangen. Die Wahrscheinlichkeit der Klassen-Bigramme P(CilCi_ι) und die Wahrscheinlichkeit von Klassen-Unigrammen P ( C_j ) des Basissprachmodells bleiben unverändert.

Zu betrachten bleiben die Wahrscheinlichkeit P I w-j_| C_j(wi)) und die Wahrscheinlichkeit P (Cj( i) | i] , die sich jeweils auf einzelne Wörter beziehen. Die Wahrscheinlichkeit P (wil Cj(wi)) und die Wahrscheinlichkeit P (Cj(wi) | wi) werden für die nicht im Basissprachmodell enthaltenen Wörter der neuen Domäne neu berechnet. Bereits vorhandene Wahrscheinlichkeiten für die Wörter des Basissprachmodells sind zu reskalieren.

Für die neue Domäne sind folgende Werte gegeben:

^ Vokabular der neuen Domäne mit h=l,...,L, das nicht im Basissprachmodell enthalten ist.

L Anzahl des Vokabulars im Sprachmodell für die neue Domäne (Zielsprachmodell) ,

L_Q Anzahl der neuen Wörter w^ und der Wörter wi des Basissprachmodells in der jeweiligen (linguistischen) Klasse C,

P(w^*h) klassenunabhängige Wortwahrscheinlichkeiten in der neuen Domäne. Die Wahrscheinlichkeit P(wft) ist gegeben durch eine Wortliste mit Worthäufigkeiten und die Größe des zugrundeliegenden Textes .

Abschätzung der Wahrscheinlichkeit P (Cj(wh) | w^l :

Zur Abschätzung der Wahrscheinlichkeit P Cj(wh) |

, jeweils für das neue Vokabular w^, wird davon ausgegangen, daß P (Cj(^wh) I ^wh) annähernd gleich ist für Wörter, die in derselben Klasse Cj liegen. Demnach gilt folgende Näherung:

^N _C ,

P C-! w_h) _* x w

' N_C i) (12), i=l

wobei wi alle Wörter des Basissprachmodells bezeichnet, die in der Klasse Cj liegen.

Für die folgenden Ausführungen wird exemplarisch eine Klasse C_j untersucht. Zur vereinfachten Darstellung wird im folgenden diese Klasse Cj als Klasse C bezeichnet.

Vorhandene Wahrscheinlichkeitswerte sind zu renormieren. Nachfolgend werden die "alten" Werte mit einer Tilde gekennzeichnet .

Eine weitere Näherungslösung für die Gleichung (12) ist die Summe über die Wörter wi, für die alle linguistischen Klassen mit den Klassen des neuen Wortes übereinstimmen.

Zur Berechnung der neuen Wahrscheinlichkeit P (vι_n I C (w^)) bzw. zur Renormierung der gegebenen Wahrscheinlichkeiten P(wi|C(wi)) wird folgendes Verfahren angewandt:

1) Bestimmung des Anteils α der neuen Wörter im Wortschatz 2) Renormierung von

P(w) (13)

mit:

P(wi) = (1 - α) x P(wi) (14)

Bestimmung des Anteils α gemäß Gleichung (17)

3) Bestimmung des Anteils 1-γc der neuen Wörter in der Klasse C,

4) Bestimmung von P (w^ | c) gemäß Gleichung (23),

5) Bestimmung von γς nach Gleichung (22),

6) Bestimmung der Wahrscheinlichkeit P [ ^ | C (w^)) durch:

P(w_h |C) = -*^-P(w_h |C) (15), ^v ' 1 - α

siehe auch Gleichung (22) . Der Faktor kann als Quotient der Anteile der alten Wörter in der linguistischen Klasse C und dem Anteil des alten Wortschatzes im Gesamtwortschatz interpretiert werden.

Zur Bestimmung des Anteils α folgt mit Gleichung (14):

N_C N_c L_C

1 = ∑p(wi) = ∑P(wi) + ∑P( _h) = i=l i=l h=N_c+l

(16),

N_C L_C

= (1 - α) x ∑ P (wi) + _ P (w_h) i=l h=N_c+l

daraus folgt: L_C α = ∑ ^P (^wh) ( i7 : h = N_c + l

Zur Bestimmung des Anteils γc wird der Satz von Bayes auf Gleichung (12) (siehe hierzu [5]) angewandt. Es folgt:

P (w_h | C) = ^p ) _;, P ( ± I c) (18) N_C A P(wi)

Anhand von Gleichung (18) und unter Anwendung der

Normierungseigenschaft für Wahrscheinlichkeitswerte (siehe [6]) kann gezeigt werden:

Für

P (wi | C) = γ_c x P (w_± | C) (201

mit γc < 1 und P (wi | c) als alte (nicht renormierte) Verteilung, gilt:

Daraus folgt mit Gleichung (14):

-1

L_C γc = l + -r^— x ∑ P ( _h I c) (22) 1 — et -^ h = N_c+l mit

Methode 3:

Die Wahrscheinlichkeit P (wil Ci) für bezüglich des Basissprachmodells neue Wörter wi wird unter Verwendung einer entsprechenden Wortliste angenähert. Bei dieser Vorgehensweise wird die Lösungsstrategie von dem unter 'Methode 2' beschriebenen Verfahren übernommen. Die hier nicht vorhandene Wahrscheinlichkeit P(w^) für die neuen Wörter w-^ wird angenähert. Dies erfolgt insbesondere in Abhängigkeit zu einer Hauptkategorie HC des jeweiligen Wortes h- Es ergibt sich näherungsweise:

Hierzu werden Eigenschaften von Wörtern i des

Basissprachmodells verwendet. JJC ist eine Anzahl des

Vokabulars des Basissprachmodells, das in der Hauptkategorie HC liegt. Die Summierung läuft über alle Klassen Cj des

Basissprachmodells, zu denen das jeweilige Wort wi gehört.

Ist keine Hauptkategorie bekannt, so können die Wörter ^ der speziellen linguistischen Klasse der Wörter mit unbekannten oder nicht anders abbildbaren linguistischen Eigenschaften zugeordnet werden. Bestimmung der Wahrscheinlichkeit P(Ci_ι| i_ι) :

Schließlich wird die Wahrscheinlichkeit (Ci_ιl wi_ι) wie nachfolgend beschrieben bestimmt. Es sei angemerkt, daß in Gleichung (4) die Wahrscheinlichkeit P(Ci_ιlwi_ι) einen

Index 'i-1' aufweist, der nachfolgend zur Vereinfachung als Index i gesetzt wird.

Die Wahrscheinlichkeit P ( ^\ Wi) ergibt sich jeweils aus der Wahrscheinlichkeit P( ilC ), die wie oben beschrieben, bestimmt worden ist:

^p (Cil wi) = K x P(_wi| Ci) x P(Ci) (5)

mit einem Normalisierungsfaktor

Die linguistische Klasse Ci durchläuft dabei alle für das Wort wi möglichen linguistischen Klassen. Die Wahrscheinlichkeit P(Ci) wird aus dem Basissprachmodell übernommen (Unigramm-Wahrscheinlichkeit für jeweilige linguistische Klasse des Basissprachmodells) .

Literaturverzeichnis :

[1] G. Ruske: "Automatische Spracherkennung - Methoden der Klassifikation und Merkmalsextraktion", Oldenbourg Verlag, München 1988, ISBN 3-486-20877-2, Seiten 1-10.

[2] L. Rabiner, B.-H. Juang: "Fundamentals of Speech Recognition", Prentice Hall 1993, S.447-450.

[3] P. Witschel: "Constructing Linguistic Oriented Language Models for Large Vocabulary Speech Recognition", 3^rd EUROSPEECH 1993, Seiten 1199-1202.

[4] F. Guethner, P. Maier: "Das CISLEX-Wörterbuchsystem" , CIS-Bericht 94-76-CIS, Universität München, 1994.

[5] W. Feller: "An Introduction to Probability Theory and its Applications", John Wiley & Sons, 1976, Seiten 124,125.

[6] W. Feller: "An Introduction to Probability Theory and its Applications", John Wiley & Sons, 1976, Seite 22.

[7] S. Martin, J. Liermann, H. Ley: "Algorithms for Bigram and Trigram Word Clustering", Speech Communication 24, 1998, Seiten 19-37.

Claims

Patentansprüche

1. Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner, a) bei dem anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmt wird mittels eines vorgegebenen Vokabulars mit zugehörigen linguistischen Eigenschaften; b) bei dem K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) bei dem anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen dargestellt wird.

2. Verfahren nach Anspruch 1, bei dem die N Klassen ermittelt werden, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten bestimmt werden und jede der Kombinationen eine Klasse ergibt.

3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die linguistischen Werte anhand eines linguistischen Lexikons ermittelt werden.

4. Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner, a) bei dem anhand einer ersten Abbildungsvorschrift N

Klassen vorgegeben sind; b) bei dem K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) bei dem anhand der K Klassen eine zweite

Abbildungsvorschrift zur Klassenbildung von

Sprachmodellen auf linguistische Klassen dargestellt wird.

5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die K Klassen bestimmt werden, indem folgende Schritte durchgeführt werden: a) Eine Anzahl M der wahrscheinlichsten unter den N Klassen werden als Basisklassen ermittelt; b) eine der verbleibenden (N-M) Klassen wird mit derjenigen Basisklasse zusammengelegt, bei der die Sprachmodellentropie minimiert wird

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Sprachmodellentropie bestimmt ist durch

H(LM) = - - • log P(W) , n

wobei

W eine Kette von Wörtern WQ, WI, .. , w_n ,

P (W) eine Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern beschreiben.

7. Verfahren nach einem der vorhergehenden Ansprüche zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern bei einer Spracherkennung, a) bei dem eine Sprache linguistische Klassen aufweist: (Ci, ... , C_k) = F v , ... , v-ij... (f_m, v_ml, ... , v_mjj) ,

wobei f_m ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, ^vml---^vmj die linguistischen Werte des linguistischen Merkmals f_m, j die Anzahl der linguistischen Werte,

Cι,...,C die linguistische Klassen, k die Anzahl der linguistischen Klassen,

F die zweite Abbildungsvorschrift

(Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen b) bei dem einem Wort mindestens eine der linguistischen Klassen zugeordnet wird; c) bei dem die Wahrscheinlichkeit für das Auftreten der Folge von mindestens zwei Wörtern bestimmt ist durch:

n

P(^w) ^Ä π Σ Σ ^p (il ^Ci) ^{x p} (^cil ^ci-l) ^{x p} (^Ci-H ^«i-i)

wobei P(W) Wahrscheinlichkeit für das Auftreten der

Folge von mindestens zwei Wörtern W die Folge von mindestens zwei Wörtern, wi das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W, Ci eine linguistische Klasse C, die zu einem Wort wi gehört, Ci_ι eine linguistische Klasse, die zu einem

Wort wi_ι gehört, ∑_d die Summe über alle linguistischen Klassen C, die zu einem Wort wi gehören,

P(wilCi) die bedingte Wortwahrscheinlichkeit, P (Cil Ci_ι) die Wahrscheinlichkeit für Bigramme (auch: Klassen-Bigramme, Bigramm- Wahrscheinlichkeit) , P(Ci_ι|wi_ι) die bedingte Klassenwahrscheinlichkeit bezeichnen.

8. Verfahren nach Anspruch 7, bei dem für einen Text anhand eines vorbestimmten Basissprachmodells die Wahrscheinlichkeit P (Cil Ci_ι) für den Text bestimmt wird, indem die Wahrscheinlichkeit P(^cilCi_ι) aus dem Basissprachmodell übernommen wird.

9. Verfahren nach Anspruch 8, bei dem die Wahrscheinlichkeit P (wil Ci) nach mindestens einer der folgenden Möglichkeiten bestimmt wird: a) die Wahrscheinlichkeit P (wil Ci) wird anhand des Textes bestimmt; b) die Wahrscheinlichkeit P (wil Ci) wird für ein Wort Wi mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(wι) bestimmt; c) die Wahrscheinlichkeit P (wil C ) wird unter Verwendung einer Wortliste bestimmt.

10. Verfahren nach Anspruch 9, bei dem anhand der ermittelten Wahrscheinlichkeit P ( il ^ci) das Basissprachmodell angepaßt wird.

11. Verfahren nach Anspruch 9 oder 10, bei dem die Wahrscheinlichkeit P (Cil Wi) anhand der

Wahrscheinlichkeit P (wil Ci) wie folgt bestimmt wird:

P (Cil w_±) = K x P(wil Ci) x P(Ci),

wobei

einen Normalisierungsfaktor bezeichnet.

12. Verfahren nach einem der Ansprüche 7 bis 11, bei dem, wenn die Wahrscheinlichkeit P(W) für das

Auftreten einer Folge von mindestens einem Wort oberhalb einer vorgegebenen Schranke liegt, die entsprechende Folge von mindestens einem Wort erkannt wird, ansonsten eine vorgegebene Aktion durchgeführt wird.

13. Verfahren nach Anspruch 12, bei dem die vorgegebene Aktion eine Ausgabe einer Fehlermeldung oder Anlaß für einen Abbruch des Verfahrens ist .

14. Verfahren nach einem der Ansprüche 8 bis 13, bei dem sich der Text auf einen vorgegebenen Anwendungsbereich (Domäne, Sprachdomäne) bezieht.

15. Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen mit einer Prozessoreinheit, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmbar ist mittels eines vorgegebenen

16. Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen mit einer

Prozessoreinheit, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift N Klassen vorgebbar sind; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.