WO2000025299A1 - Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen - Google Patents

Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen Download PDF

Info

Publication number
WO2000025299A1
WO2000025299A1 PCT/DE1999/003176 DE9903176W WO0025299A1 WO 2000025299 A1 WO2000025299 A1 WO 2000025299A1 DE 9903176 W DE9903176 W DE 9903176W WO 0025299 A1 WO0025299 A1 WO 0025299A1
Authority
WO
WIPO (PCT)
Prior art keywords
classes
linguistic
probability
language model
determined
Prior art date
Application number
PCT/DE1999/003176
Other languages
English (en)
French (fr)
Inventor
Petra Witschel
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Priority to DE59901575T priority Critical patent/DE59901575D1/de
Priority to EP99957254A priority patent/EP1135767B1/de
Publication of WO2000025299A1 publication Critical patent/WO2000025299A1/de
Priority to US09/844,931 priority patent/US6640207B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Definitions

  • the invention relates to a method and an arrangement for class formation for a language model based on linguistic classes by a computer.
  • a method for speech recognition is known from [1]. As part of word recognition, it is customary to specify the usability of a sequence of at least one word. A measure of this usability is a probability.
  • the probability P (W) for a word sequence W generally characterizes a (statistical) language model in the context of speech recognition, preferably large amounts of vocabulary.
  • the probability P (W) (so-called:
  • a linguistic lexicon is known from [4]. This is a compilation of as many words of a language as possible available on a computer for the purpose of looking up linguistic properties using a search program. For each word entry (so-called full word form), the linguistic features relevant for this full word form and the appropriate assignments, i.e. the linguistic values, can be found.
  • Table 1 Examples of ling. Characteristics and ling. values
  • mapping rule F assigns at least one linguistic class to each word, using the following mapping rule F:
  • f m is a linguistic characteristic
  • m the number of linguistic characteristics
  • v m l the number of linguistic characteristics
  • v mj the linguistic values of the linguistic
  • a special linguistic class represents the class of words with unknown or otherwise mapped linguistic properties.
  • class bigrams that is, bigrams applied to linguistic classes
  • class Ci represents the correct combination of category, number, case and gender with regard to the example sentence.
  • C —C 7 follows for the above class bigram a numerous occurrence, since this combination often occurs in the German language, whereas other class bigrams, eg the combination C2-Cg, are not allowed in the German language because of different geni.
  • the class bigram probabilities resulting from the frequencies found in this way are correspondingly high (if they occur frequently) or low (if not permissible).
  • the object of the invention is to enable class formation for a language model based on linguistic classes automatically and without the use of expert knowledge.
  • a method for class formation for a language model based on linguistic classes is specified by means of a computer, in which a number N classes is determined on the basis of a first mapping rule by means of a predetermined vocabulary with associated linguistic properties.
  • K classes (K ⁇ N) are determined from N classes by minimizing a language model entropy H.
  • the K classes represent a second mapping rule, the class formation of the language model. It is advantageous here that class formation can be determined fully automatically. Neither a specially trained expert takes on a laborious manual assignment, nor does statistical measures soften the linguistic meaning of the classes.
  • the condition that K is less than N significantly reduces the number of classes and thus determines a high-performance language model.
  • N classes are determined by determining all possible combinations of linguistic features and associated linguistic values and each of the combinations leads to a separate linguistic class.
  • the number N is therefore determined by the maximum possible number of classes (based on the underlying text).
  • a method for class formation for a language model based on linguistic classes is also specified by a computer, in which N classes are specified on the basis of a first mapping rule. K classes are determined from the N classes by minimizing a language model entropy. Using the K classes, a second mapping rule for class formation of language models based on linguistic classes is presented.
  • the K classes are determined by performing the following steps: a) A number M of the most probable among the N classes are determined as base classes; b) one of the remaining (NM) classes is merged with the base class in which the language model entropy is minimized.
  • the M most probable classes are determined.
  • the above steps can also be carried out iteratively for several or all remaining (N-M) classes.
  • H the language model entropy of the language model
  • n the number of words in the text
  • W a chain of words W Q , W] _, .., w n , P (W) describe a probability of the occurrence of a sequence of at least two words.
  • Another embodiment is that the method described is used to determine a probability of a sequence of at least two words occurring in speech recognition.
  • a language has linguistic classes
  • At least one of the linguistic classes is assigned to a word.
  • a probability P (W) for the occurrence of the sequence of at least two words is obtained using bigrams
  • Ci-l a linguistic class belonging to one
  • Ci relates to one of the at least one linguistic class which is assigned to the word i from the word sequence W.
  • C _ ⁇ the class bigram probability is the probability that the word wi belongs to a first linguistic class on the condition that the previous word wi_ ⁇ belongs to a second linguistic class (see introductory example with explanation).
  • Language models based on linguistic classes offer decisive advantages, especially for adaptation.
  • the method presented here uses the linguistic properties contained in the language models.
  • Probability P (CilC _] _) is adopted in the base language model for the new text.
  • the vocabulary for the new domain for which a language model is determined is processed with the aid of a predetermined linguistic lexicon and using a classifier F according to equation (3). At least one linguistic class is automatically determined for each new word from the text. For a detailed description of linguistic classes, linguistic characteristics and linguistic values see [3], for the linguistic lexicon see [4] and / or the introduction.
  • An additional development consists in adapting the basic language model based on the determined probability P (wil Ci). This is preferably done in such a way that these determined probabilities P (wil Ci) are included in the basic language model.
  • Another further development consists in recognizing a corresponding sequence of at least one word, if the
  • Probability P (W) lies above a given limit. If this is not the case, a specified action is carried out. This specified action is e.g. issue an error message or cancel the procedure.
  • the text relates to a predetermined application area, a so-called (language, application) domain.
  • the method presented requires a new text of only a small extent for the determination of a language model of a new domain.
  • an arrangement for class formation for a language model is based on to solve the task Linguistic classes specified, which has a processor unit, which processor unit is set up in such a way that a) a number N classes can be determined by means of a predetermined one, based on a first mapping rule
  • K classes are determined from the N classes by minimizing a language model entropy; c) on the basis of the K classes there is a second mapping rule for class formation from language models to linguistic classes.
  • an arrangement for class formation for a language model based on linguistic classes in which a processor unit is provided which is set up in such a way that a) N classes can be specified using a first mapping rule; b) K classes are determined from the N classes by minimizing a language model entropy; c) on the basis of the K classes there is a second mapping rule for class formation from language models to linguistic classes.
  • Fig.l is a block diagram showing the steps of a method for determining a probability of occurrence comprises a sequence of at least one word in speech recognition by a computer;
  • FIG. 5 shows a block diagram with components for the automatic determination of a mapping rule for class formation
  • FIG. 6 shows a block diagram for optimizing an existing language model
  • FIG. 8 shows a processor unit
  • FIG. 4 shows a block diagram with steps of a method for class formation for a language model.
  • N classes are determined according to a predetermined condition.
  • One possibility is to determine the N classes as all the maximum possible classes by determining all possible combinations of linguistic features and associated linguistic values and each of the combinations resulting in a separate class (cf. step 402).
  • K classes are determined using the N classes under Taking into account the condition that a language model entropy is minimized.
  • the K classes obtained in this way represent a second mapping rule (cf. step 404), on the basis of which classes are formed according to linguistic classes for a language model.
  • an existing language model with a first mapping rule and N predetermined classes is assumed (see step 405).
  • the subsequent steps 403 and 404 allow an adaptation of the existing language model by in turn forming a class for a language model which is optimized in relation to the original language model with regard to the linguistic classes.
  • mapping rule for class formation based on linguistic properties that minimizes the language model entropy of the language model generated via these classes is sought in the present case (is also referred to below as an optimization criterion).
  • an optimization criterion To generate language models on linguistic classes is one
  • Mapping rule necessary that assigns at least one linguistic class to each word.
  • Class formation is based on linguistic properties. According to the linguistic characteristics according to equation (0-2) and the linguistic values according to equation (0-3), one or more classes are assigned to each word. The linguistic characteristics and the linguistic values are taken from a linguistic lexicon (cf. [4]).
  • mapping rule (classifier) F of the linguistic features and their linguistic values on classes is defined according to equation (3).
  • a mapping rule L is determined which, given the vocabulary and linguistic properties given from the linguistic lexicon, generates the maximum possible number N of classes:
  • the source of knowledge for this is a training corpus representing the given domain and a linguistic lexicon comprising its vocabulary (cf. block 501 in FIG. 5).
  • the language model is trained on the maximum classes N (see block 502) (see block 503).
  • the optimization takes place in a block 504:
  • the maximum possible classes N are combined in such a way that an optimization criterion is fulfilled.
  • a language model is determined based on the new K classes (see block 505).
  • each class-based language model can be subjected to optimization.
  • N classes are specified (cf. block 601, FIG. 6)
  • the optimization loop (block 602) and the subsequent calculation of the new language model based on the optimized classes (block 603) are analogous to FIG. 5.
  • OPTp ⁇ is searched which minimizes the entropy H (LM) of the language model LM (OPTM).
  • the language model is based on the class division determined by OPTJVJ:
  • ie C 0 is the union (cluster) of classes from the maximum class set.
  • the union takes place via linguistic characteristics and linguistic values of the classes to be united. For example is Ci C * ⁇ il A v B ⁇ (11)
  • Equation (1) The speech model entropy H (LM) is given by equation (1), where P (W) can be an approximate value. Equation (4) applies to the value P (W).
  • FIG. 7 shows an optimization strategy in the form of a flow chart.
  • the classes N are merged. Taking into account all possibilities of merging classes is extremely complex in practice.
  • the procedure is therefore preferably different: M be the desired number of optimized classes.
  • the probability values of the language model of the N classes are used to determine the most probable M classes among the N classes as base classes.
  • the remaining N-M classes form the remaining classes (cf. step 701 in FIG. 7). Within each loop of optimization, one of the remainder classes becomes one
  • Base class merged so that an increase in the language model entropy is minimized (see steps 702 to 705). If two classes are merged, the probabilities that are necessary to determine the growth of the language model entropy are recalculated (see step 706).
  • a processor unit PRZE is shown in FIG.
  • the processor unit PRZE comprises a processor CPU, a memory SPE and an input / output interface IOS, which are connected via an interface IFC in different ways is used: Via a graphics interface, output is visible on a MON monitor and / or output on a PRT printer. An entry is made using a mouse MAS or a keyboard TAST.
  • the processor unit PRZE also has a data bus BUS, which ensures the connection of a memory MEM, the processor CPU and the input / output interface IOS.
  • additional components can be connected to the data bus BUS, for example additional memory, data storage (hard disk) or scanner.
  • a step 101 speech is converted into linguistic classes
  • f m is a linguistic characteristic
  • m the number of linguistic characteristics
  • v ml the number of linguistic characteristics
  • v mj the linguistic values of the linguistic
  • Characteristic f m , j the number of linguistic values
  • F denotes a mapping rule (classifier) of linguistic features and linguistic values on linguistic classes.
  • classification rule classifier
  • a detailed explanation of the linguistic characteristics and the linguistic values can be found in [3], for example on page 1201 in Table 4 an exemplary listing of linguistic characteristics with associated linguistic values depending on different categories is shown.
  • a step 102 at least one of the linguistic classes is assigned to a word. As described in [3], one or more of the linguistic classes can be assigned to a word.
  • Ci a linguistic class belonging to a word wi
  • Cii_- ⁇ i a linguistic class belonging to a linguistic class belonging to a
  • P P (wi I Ci) the conditional word probability
  • Equation (4) consists of a cascaded multiplication of three components
  • Vocabulary of the text for the new domain is assigned to linguistic classes using a linguistic lexicon using a classifier F as shown in equation (3).
  • Each new word is automatically assigned to at least one linguistic class.
  • a basic language model includes probabilities for class bigrams [3], whereby this probability represents a grammatical structure on the one hand and is independent of the individual words on the other hand. If it is now assumed that the domain, i.e. the special application-related subject area, has a text structure similar to that of the training text on which the basic language model is based, the probability for class bigrams P (CilCi _] _) is adopted unchanged from the basic language model.
  • the probability P (wil Ci) for all words wi that are new with respect to the basic language model must be recalculated and the probability P (wil Ci) (word probability) of the vocabulary present in the basic language model should preferably be adapted accordingly.
  • P (wil Ci) word probability
  • the probability P (il Ci) for all new words Wi of the new domain is estimated on the basis of the text for the new domain. It is based on a basic language model based on linguistic classes, the newly estimated probability P (wil Ci) preferably in the
  • Basic language model is adopted and thus the basic language model is adapted based on the new text.
  • Word wi is estimated based on the new text.
  • Classifier F 211 and linguistic lexicon 206 is generated using the tagging tool 202 (see detailed Explanations of the tagging tool under [3]) both from a database of large texts 201 a large "tagged" text 203 and from a database of a small text of the new domain (ie the new text) 207 a small "tagged” Text 208 determines.
  • a basic language model 205 which is based on linguistic classes, is determined from the large “tagged” text 203 by means of a language model generator 204. As described in detail above, the probability P (CilCi_ ⁇ ) goes unchanged into the language model for the new domain.
  • the "tagged" small text 208 is converted using an adaptation tool 209, which estimates the probability P (wil Ci) using the
  • carries out "tagged" small text determines a new, preferably adapted, language model 210.
  • another language model can also be generated without restriction.
  • the classifier F 311 and the linguistic lexicon 306 are used to determine a "tagged" large text 303 from a database of large texts 301 using the tagging tool 302.
  • a "basic language model 305" based on linguistic classes is created from the "tagged" large text 303.
  • Ci_ ⁇ ) is taken over unchanged from the basic language model 305.
  • an adaptation tool 308 is used adapted language model 309 determined.
  • an adaptation can include a change or a generation of a language model.
  • the adaptation tool 308 calculates the probability P (wil Ci) for new words from the probability P (wi) and renormalizes the probability P (wil Ci) of the basic language model.
  • the creation of linguistic classes of a language model for the new domain corresponds to the creation of linguistic classes for the basic language model.
  • the classifier F (see equation (3)) of the basic language model is adopted. So the number of linguistic classes k is unchanged.
  • the new domain is based on texts with a similar structure to the training texts on which the basic language model is based.
  • the probability of the class bigrams P (CilCi_ ⁇ ) and the probability of class unramrams P (C j ) of the basic language model remain unchanged.
  • remains to be considered C j (wi)) and the probability P (Cj (i)
  • wi) become for the words of the new domain that are not contained in the basic language model are recalculated. Existing probabilities for the words of the basic language model must be rescaled.
  • P (w * h) class-independent word probabilities in the new domain.
  • the probability P (wft) is given by a word list with word frequencies and the size of the underlying text.
  • wi denotes all words of the basic language model that are in class Cj.
  • class C j is examined as an example for the following explanations. For the sake of simplicity, this class Cj is referred to as class C in the following.
  • equation (12) Another approximation for equation (12) is the sum over the words wi, for which all linguistic classes match the classes of the new word.
  • Equation (22) The factor can be interpreted as the quotient of the proportions of old words in linguistic class C and the proportion of old vocabulary in the overall vocabulary.
  • the probability P (wil Ci) for words wi that are new with respect to the basic language model is approximated using a corresponding word list.
  • the solution strategy is adopted from the procedure described under 'Method 2'.
  • the probability P (w ⁇ ) for the new words w- ⁇ , which does not exist here, is approximated. This takes place in particular depending on a main category HC of the respective word h-
  • JJC Base language model used. JJC is a number of
  • the words ⁇ can be assigned to the special linguistic class of words with unknown or otherwise mapped linguistic properties. Determination of the probability P (Ci_ ⁇
  • Index 'i-1' which is subsequently set as index i for simplicity.
  • the linguistic class Ci runs through all possible linguistic classes for the word wi.
  • the probability P (Ci) is taken from the basic language model (unigram probability for the respective linguistic class of the basic language model).

Abstract

Zur Bestimmung eines Sprachmodells werden Klassen gebildet, die auf linguistischen Klassen basieren und eine Sprachmodellentropie minimieren. Eine Obermenge von Klassen kann als Beispieltext oder als ein zusätzliches Sprachmodell vorgegeben sein.

Description

Beschreibung
Verfahren und Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner.
Ein Verfahren zur Spracherkennung ist aus [1] bekannt. Dabei ist es als ein Bestandteil der Worterkennung üblich, die Brauchbarkeit einer Folge aus mindestens einem Wort anzugeben. Ein Maß für diese Brauchbarkeit ist eine Wahrscheinlichkeit .
Ein statistisches Sprachmodell ist aus [2] bekannt. So kennzeichnet die Wahrscheinlichkeit P(W) für eine Wortfolge W im Rahmen der Spracherkennung, vorzugsweise großer Vokabularmengen, allgemein ein (statistisches) Sprachmodell. Die Wahrscheinlichkeit P(W) (sog.:
Wortfolgewahrscheinlichkeit) wird angenähert durch ein N- Gramm-Sprachmodell PN(W):
n %(w) = [ p(wil wi_l w _2, ... , i_N+1), (0-1) i=0 wobei
WΪ das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter W_ der Folge W bezeichnen.
Für N=2 ergeben sich aus Gleichung (0-1) sogenannte Bigramme.
Ferner ist bekannt, bei der Spracherkennung, vorzugsweise im kommerziellen Umfeld, ein im Vokabular beschränktes Anwendungsgebiet (Domäne) zu verwenden. Texte verschiedener Domänen unterscheiden sich nicht nur im Hinblick auf ihr jeweiliges Vokabular, sondern auch hinsichtlich ihres jeweiligen Satzaufbaus. Für ein Trainieren eines Sprachmodells für eine spezielle Domäne ist eine entsprechend große Menge an Texten (Textmaterial, Textkorpus) notwendig, das jedoch in der Praxis nur selten vorhanden oder nur mit immensem Aufwand zu gewinnen ist.
Ein linguistisches Lexikon ist aus [4] bekannt. Dabei handelt es sich um eine auf einem Rechner verfügbare Zusammenstellung möglichst vieler Wörter einer Sprache zum Zwecke des Nachschlagens von linguistischen Eigenschaften anhand eines Suchprogramms. Für jeden Worteintrag (sog. Wortvollform) können die für diese Wortvollform relevanten linguistischen Merkmale und die zutreffenden Belegungen, also die linguistischen Werte, entnommen werden.
Aus [3] ist bekannt, linguistische Klassen zu verwenden. Wörter eines Satzes können auf unterschiedliche Arten in linguistischen Merkmalen und linguistischen Werten zugeordnet werden. In Tabelle 1 sind beispielhaft verschiedene linguistischen Merkmale und die zugehörigen Werte dargestellt (weitere Beispiele sind in [3] angegeben) .
Figure imgf000004_0001
Tabelle 1 : Beispiele für ling. Merkmale und ling. Werte
Basierend auf linguistischen Merkmalen
(fl, ... ,fm) (0-2) und linguistischen Werten
(vn-.-vij) ... (vml...vmj) (0-3)
wird jedem Wort mindestens eine linguistische Klasse zugewiesen, wobei folgende Abbildungsvorschrift F Anwendung findet:
(Cx, ... , Ck) = F ((flf v , ... , vy)... (fm, vml, ... , vmj)j (0-4)
wobei fm ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, vml---vmj die linguistischen Werte des linguistischen
Merkmals fm, j die Anzahl der linguistischen Werte,
C die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen, F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen.
Eine spezielle linguistische Klasse stellt dabei die Klasse der Wörter mit unbekannten oder nicht anders abbildbaren linguistischen Eigenschaften dar.
Zur Veranschaulichung der linguistischen Klasse, des linguistischen Merkmals (engl. feature), des linguistischen Werts (engl. value) und der Klassen-Bigramm- Wahrscheinlichkeit wird nachfolgend ein Beispiel erläutert.
Ausgegangen wird von dem deutschen Satz: "der Bundestag setzt seine Debatte fort"
Der Artikel "der" (also das erste Wort) kann im Deutschen in sechs linguistische Klassen (fortan nur: Klassen) unterteilt werden, wobei sich die Klassen in Numerus, Genus und Kasus unterscheiden. Die folgende Tabelle 2 veranschaulicht diesen Zusammenhang:
Figure imgf000006_0001
Tabelle 2 : Klassen C _ für das Wort "der"
Für das deutsche Substantiv "Bundestag" (zweites Wort des obigen Beispielsatzes) folgt analog Tabelle 3:
Figure imgf000006_0002
Tabelle 3 : Klassen C± für das Wort "Bundestag"
In diesem Beispiel folgt nun im Hinblick auf Klassen- Bigramme, also Bigrammen angewandt auf linguistische Klassen, daß die Klasse Ci, gefolgt von der Klasse C7 die richtige Kombination von Kategorie, Numerus, Kasus und Genus bezüglich des Beispielsatzes darstellt. Wenn Häufigkeiten real vorkommender Klassen-Bigramme aus vorgegebenen Texten bestimmt werden, so folgt für das obige Klassen-Bigramm C —C7 ein zahlreiches Auftreten, da diese Kombination in der deutschen Sprache oft vorkommt, wohingegen anderer Klassen- Bigramme, z.B. die Kombination C2—Cg in der deutschen Sprache wegen unterschiedlicher Geni nicht erlaubt ist. Die sich aus den auf diese Art gefundenen Häufigkeiten ergebenden Klassen- Bigramm-Wahrscheinlichkeiten sind entsprechend hoch (bei oftmaligem Auftreten) bzw. niedrig (falls nicht zulässig) .
Bei der Klassenbildung wird in [7] von statistischen Eigenschaften ausgegangen. Derartige Klassen weisen keine bestimmten linguistischen Eigenschaften auf, die im Sprachmodell entsprechend eingesetzt werden können.
Die übliche Klassenbildung erfolgt manuell durch Einsatz von Linguisten, die ein Sprachmodell nach linguistischen
Eigenschaften sortieren. Ein derartiger Prozeß ist äußerst langwierig und durch die Experten auch recht kostspielig.
Die Aufgabe der Erfindung besteht darin, eine Klassenbildung für ein auf linguistischen Klassen basierendes Sprachmodell automatisch und ohne den Einsatz von Expertenwissen zu ermöglichen.
Diese Aufgabe wird gemäß den Merkmalen der unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung ergeben sich auch aus den abhängigen Ansprüchen.
Zur Lösung der Aufgabe wird ein Verfahren zur Klassenbildung für ein auf linguistischen Klassen basierendes Sprachmodell mittels eines Rechners angegeben, bei dem anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmt wird mittels eines vorgegebenen Vokabulars mit zugehörigen linguistischen Eigenschaften. Aus N Klassen werden K Klassen (K<N) ermittelt, indem eine Sprachmodellentropie H minimiert wird. Mit den K Klassen wird eine zweite Abbildungs- vorschrift, die Klassenbildung des Sprachmodells, dargestellt. Hierbei ist es von Vorteil, daß vollständig automatisiert eine Klassenbildung ermittelbar ist. Weder ein speziell geschulter Experte übernimmt eine umständliche händische Zuordnung, noch wird durch statistische Maßnahmen die linguistische Bedeutung der Klassen aufgeweicht. Durch die Bedingung, daß K kleiner als N ist, wird die Menge der Klassen deutlich reduziert und somit ein performantes Ξprachmodell bestimmt.
Eine Weiterbildung besteht darin, daß die N Klassen ermittelt werden, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten bestimmt werden und jede der Kombinationen zu einer eigenen linguistischen Klasse führt. Die Zahl N ist somit bestimmt durch die maximal mögliche Anzahl Klassen (bezogen auf den zugrundeliegenden Text) .
Auch ist es eine Weiterbildung, die linguistischen Werte anhand eines linguistischen Lexikons zu ermitteln. Ein solches linguistisches Lexikon ist u.a. für die Sprache Deutsch erhältlich (siehe [4]).
Auch wird zur Lösung der Aufgabe ein Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner angegeben, bei dem anhand einer ersten Abbildungsvorschrift N Klassen vorgegeben sind. Aus den N Klassen werden K Klassen bestimmt, indem eine Sprachmodellentropie minimiert wird. Anhand der K Klassen wird eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen, die auf linguistischen Klassen basieren, dargestellt.
Im Rahmen einer zusätzlichen Weiterbildung werden die K Klassen ermittelt, indem folgende Schritte durchgeführt werden: a) Eine Anzahl M der wahrscheinlichsten unter den N Klassen werden als Basisklassen ermittelt; b) eine der verbleibenden (N-M) -Klassen wird mit derjenigen Basisklasse zusammengelegt, bei der die Sprachmodellentropie minimiert wird.
Dabei werden die (bezogen auf den zugrundeliegenden Text) M wahrscheinlichsten Klassen bestimmt. Auch können die obigen Schritte iterativ für mehrere oder alle verbleibenden (N-M)- Klassen durchgeführt werden.
Eine Ausgestaltung besteht darin, daß die Sprachmodellentropie bestimmt ist durch
H(LM) = -- • logP(w), (1) n
wobei
H(LM) die Sprachmodellentropie des Sprachmodells, n die Anzahl der Wörter des Textes,
W eine Kette von Wörtern WQ, W]_, .. , wn , P(W) eine Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern beschreiben.
Eine andere Ausgestaltung besteht darin, daß das beschriebene Verfahren zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern in der Spracherkennung eingesetzt wird. Eine Sprache weist linguistische Klassen
(Ci, ...,Ck) (2)
gemäß
(Cl r . . . , Ck) = F ((f-i, v , ... , vy)... (fm, vml, ... , vmj)j (3) , auf, wobei f ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, vmι ...\ mj die linguistischen Werte des linguistischen
Merkmals fm,
3 die Anzahl der linguistischen Werte,
Ci die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen, F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen,
Dabei wird einem Wort mindestens einer der linguistischen Klassen zugeordnet. Eine Wahrscheinlichkeit P(W) für das Auftreten der Folge von mindestens zwei Wörtern ergibt sich unter Verwendung von Bigrammen zu
n
P(w) - π Σ ∑P(wil i) x PfCilCi.i) x PfCi-ilWi.!) (4!
Figure imgf000010_0001
wob ei W die Folge von mindestens zwei Wörtern,
Wj_ das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W, Ci eine linguistische Klasse, die zu einem
Wort Wi gehört,
Ci-l eine linguistische Klasse, die zu einem
Wort W _]_ gehört,
∑Ci die Summe über alle linguistischen Klassen
C, die zu einem Wort w gehören,
P (wι I Ci ) die bedingte Wortwahrscheinlichkeit,
P ( Ci I Ci-i ) die Wahrscheinlichkeit für Bigramme (auch:
Klassen-Bigramme-Wahrscheinlichkeit) , p (cι. _l | wi_ 1 die bedingte Klassenwahrscheinlichkeit bezeichnen.
Hierbei sei angemerkt, daß sich der Term Ci auf eine der mindestens einen linguistischen Klasse bezieht, die dem Wort i aus der Wortfolge W zugeordnet wird. Das gleiche gilt entsprechend für den Term C _ι. Beispielsweise handelt es sich bei der Klassen-Bigramm-Wahrscheinlichkeit um die Wahrscheinlichkeit dafür, daß das Wort wi einer ersten linguistischen Klasse angehört unter der Bedingung, daß das vorhergehende Wort wi_ι einer zweiten linguistischen Klasse angehört (siehe hierzu einleitendes Beispiel mit Erläuterung) .
Die Wahrscheinlichkeiten P(wi|Ci) und P(Ci|Ci_ι), die eingesetzt in Gleichung (4) ein sogenanntes Basissprachmodell ergeben, können aus einem Textkorpus, also aus einem vorgegebenem Text mit vorgegebenem Umfang, bestimmt werden.
Sprachmodelle, die auf linguistischen Klassen basieren, bieten insbesondere für eine Adaption entscheidende Vorteile. Das hier vorgestellte Verfahren verwendet die in den Sprachmodellen enthaltenen linguistischen Eigenschaften.
Eine Weiterbildung besteht darin, daß für einen neuen Text anhand eines vorbestimmten Basissprachmodells die
Wahrscheinlichkeit P(CilC _]_) in das Basissprachmodell für den neuen Text übernommen wird.
Wahrscheinlichkeiten für Klassen-Bigramme des Basissprachmodells (siehe [3] und Erläuterung in der
Einleitung) stellen einerseits eine grammatikalische Struktur des Trainingstextes dar und sind andererseits vom Vokabular unabhängig. Geht man davon aus, daß die neue Domäne von ähnlicher Textstruktur (grammatikalischer Struktur) wie der ursprüngliche Trainingstext für das Basissprachmodell ist, so ist es zweckmäßig, die Wahrscheinlichkeit für die Klassen- Bigramme P (Cj_| Ci_ι) aus dem Basissprachmodell unverändert zu übernehmen.
Das Vokabular für die neue Domäne, für die ein Sprachmodell bestimmt wird, wird mit Hilfe eines vorgegebenen linguistischen Lexikons und unter Verwendung eines Klassifikators F gemäß Gleichung (3) bearbeitet. Für jedes neue Wort aus dem Text wird automatisch mindestens eine linguistische Klasse bestimmt. Zur detaillierten Beschreibung von linguistischen Klassen, linguistischen Merkmalen und linguistischen Werten siehe [3] , zum linguistischen Lexikon siehe [4] und/oder jeweils die Einleitung.
Eine andere Weiterbildung besteht darin, die Wahrscheinlichkeit P (wil Ci) nach mindestens einer der folgenden Möglichkeiten zu bestimmen:
a) die Wahrscheinlichkeit P (wil Ci) wird anhand des Textes bestimmt;
b) die Wahrscheinlichkeit P (wil Ci) wird für ein Wort wi mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(wi) bestimmt;
c) die Wahrscheinlichkeit P (wil Ci) wird unter Verwendung einer Wortliste bestimmt.
Eine zusätzliche Weiterbildung besteht darin, anhand der ermittelten Wahrscheinlichkeit P (wil Ci) das Basissprachmodell anzupassen. Dies geschieht vorzugsweise derart, daß diese ermittelten Wahrscheinlichkeiten P (wil Ci) in das Basissprachmodell aufgenommen werden.
Auch ist es eine Weiterbildung, die Wahrscheinlichkeit P (Ci_il wi_]_) anhand der Wahrscheinlichkeit P ( il Ci) wie folgt zu bestimmen: P (Ci| wi) = K x P(Wi| Ci) x P(Ci) (5)
wobei
Figure imgf000013_0001
einen Normalisierungsfaktor bezeichnet.
Eine andere Weiterbildung besteht darin, eine entsprechende Folge von mindestens einem Wort zu erkennen, falls die
Wahrscheinlichkeit P(W) oberhalb einer vorgegebenen Schranke liegt. Ist dies nicht der Fall, so wird eine vorgegebene Aktion durchgeführt. Diese vorgegebene Aktion ist z.B. die Ausgabe einer Fehlermeldung oder der Abbruch des Verfahrens.
Im Rahmen einer anderen Weiterbildung bezieht sich der Text auf einen vorgegebenen Anwendungsbereich, eine sogenannte (Sprach-, Anwendungs-) Domäne .
Dabei ist es besonders von Vorteil, daß das vorgestellte Verfahren einen neuen Text von nur geringem Umfang für die Bestimmung eines Sprachmodells einer neuen Domäne benötigt.
Auch ist von Vorteil, daß Listen von neuen Wörtern (mit oder ohne Angabe der Wahrscheinlichkeit P(wi)) verwendet werden können. Domänenbezogene Spracherkennung spielt in der Praxis eine große Rolle. Das Verfahren begegnet somit einer realen Anforderung und hat sich im Experiment als geeignet und überaus nützlich erwiesen. Greift man auf das Basissprachmodell zurück, so reduziert sich die Anzahl der neu abzuschätzenden Wahrscheinlichkeiten (Abschätzung nur von P (wil Ci) notwendig) erheblich.
Weiterhin wird zur Lösung der Aufgabe eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen angegeben, die eine Prozessoreinheit aufweist, welche Prozessoreinheit derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmbar ist mittels eines vorgegebenen
Vokabulars mit zugehörigen linguistischen Eigenschaften; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.
Auch wird zur Lösung der Aufgabe eine Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen angegeben, bei der eine Prozessoreinheit vorgesehen ist, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift N Klassen vorgebbar sind; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.
Diese Anordnungen sind insbesondere geeignet zur Durchführung eines erfindungsgemäßen Verfahrens oder einer seiner vorstehend erläuterten Weiterbildungen.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.
Es zeigen
Fig.l ein Blockdiagramm, das Schritte eines Verfahrens zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens einem Wort bei einer Spracherkennung durch einen Rechner umfaßt;
Fig.2 ein erstes Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P(wilCi);
Fig.3 ein zweites Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P (wil Ci) ;
Fig. ein Blockdiagramm mit Schritten eines Verfahrens zur Klassenbildung für ein Sprachmodell;
Fig.5 ein Blockdiagramm mit Komponenten zur automatischen Bestimmung einer Abbildungsvorschrift zur Klassenbildung;
Fig.6 ein Blockdiagramm zur Optimierung eines bestehenden Sprachmodells;
Fig. ein Ablaufdiagramm einer Optimierungsstrategie zur automatischen Bestimmung einer Klassenbildung;
Fig.8 eine Prozessoreinheit.
In Fig.4 ist ein Blockdiagramm mit Schritten eines Verfahrens zur Klassenbildung für ein Sprachmodell dargestellt.
In einem ersten Fall werden, ausgehend von einer ersten Abbildungsvorschrift (vgl. Schritt 401) N Klassen nach einer vorgegebenen Bedingung bestimmt. Eine Möglichkeit besteht darin, die N Klassen als alle maximal möglichen Klassen zu ermitteln, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten ermittelt werden und jede der Kombination eine eigene Klasse ergibt (vgl. Schritt 402). In einem Schritt 403 werden K Klassen mit Hilfe der N Klassen ermittelt unter Berücksichtigung der Bedingung, daß eine Sprachmodellentropie minimiert wird. Die auf diese Art gewonnenen K Klassen stellen eine zweite Abbildungsvorschrift (vgl. Schritt 404) dar, anhand derer eine Klassenbildung nach linguistischen Klassen für ein Sprachmodell erfolgt.
In einem zweiten Fall, wird von einem bestehenden Sprachmodell mit einer ersten Abbildungsvorschrift und N vorgegebenen Klassen ausgegangen (vgl. Schritt 405) . Die nachfolgenden Schritte 403 und 404 ermöglichen eine Anpassung des bestehenden Sprachmodells, indem wiederum eine Klassenbildung für eine Sprachmodell erfolgt, das gegenüber dem ursprünglichen Sprachmodell im Hinblick auf die linguistischen Klassen optimiert wird.
Der in Fig.4 dargestellte Zusammenhang wird nochmals in Fig.5 und Fig.6 veranschaulicht.
Wie bereits erwähnt, wird im vorliegenden Fall diejenige Abbildungsvorschrift zur Klassenbildung basierend auf linguistischen Eigenschaften gesucht, die die Sprachmodellentropie des über diesen Klassen erzeugten Sprachmodells minimiert (wird nachfolgend auch als Optimierungskriterium bezeichnet) . Zum Generieren von Sprachmodellen auf linguistischen Klassen ist eine
Abbildungsvorschrift notwendig, die jedem Wort mindestens eine linguistische Klasse zuordnet. Die Klassenbildung erfolgt auf Basis von linguistischen Eigenschaften. Entsprechend den linguistischen Merkmalen nach Gleichung (0-2) und den linguistischen Werten nach Gleichung (0-3) werden jedem Wort eine oder mehrere Klassen zugewiesen. Die linguistischen Merkmale und die linguistischen Werte sind dabei einem linguistischen Lexikon (vgl. [4]) entnommen.
Die Abbildungsvorschrift (Klassifikator) F der linguistischen Merkmale und ihrer linguistischen Werte auf Klassen, wird gemäß Gleichung (3) definiert. Zunächst wird eine Abbildungsvorschrift L bestimmt, die bei gegebenen Vokabular und aus dem linguistischen Lexikon vorgegebenen linguistischen Eigenschaften die maximal mögliche Anzahl N von Klassen erzeugt:
L((fl' VH' • • ' vlj)- (fm' vml' • • • / vmj)) = 4 (7) mit I e {l, N} ,
wobei
(fi, vn, .. , vy)..(fm, vml, vmη eine Merkmals-Wertekombination des Domänenlexikons bezeichnet.
Wissensquelle dafür sind ein die gegebene Domäne repräsentierender Trainingskorpus und ein sein Vokabular umfassendes linguistisches Lexikon (vgl. Block 501 in Fig.5). Auf den maximalen Klassen N (vgl. Block 502) wird das Sprachmodell trainiert (vgl. Block 503). Zum Training des Sprachmodells siehe Fig.2 und zugehörige Beschreibung. In einem Block 504 erfolgt die Optimierung: Die maximal möglichen Klassen N werden so zusammengefaßt, daß ein Optimierungskriterium erfüllt ist. Basierend auf den neuen K Klassen wird ein Sprachmodell bestimmt (vgl. Block 505).
Alternativ zu einem maximalen Sprachmodell kann jedes klassenbasierte Sprachmodell der Optimierung unterzogen werden. In diesem Fall sind N Klassen vorgegeben (vgl. Block 601, Fig.6), die Optimierungsschleife (Block 602) und die nachfolgende Berechnung des neuen Sprachmodells auf Basis der optimierten Klassen (Block 603) sind analog zu Fig.5.
Um die maximale Anzahl N Klassen zu ermitteln, werden alle möglichen Kombination von linguistischen Merkmalen gemäß Gleichung (0-2) und zugehörigen linguistischen Werten gemäß Gleichung (0-3) bestimmt, die im linguistischen Lexikon als Eigenschaften des (Domänen-) Vokabulars enthalten sind. Jede solche Merkmals-Wertekombination wird zur Definition einer neuen Wortklasse der maximal möglichen Anzahl N Klassen herangezogen. Die Abbildungsvorschrift L , siehe Gleichung (7) bildet jeweils eine der maximal möglichen Merkmals-Wertekombinationen des Lexikons auf eine der N Klassen der maximalen Klassenmenge ab.
In der Optimierungsschleife wird nach einer Abbildung OPTp^ gesucht, die die Entropie H(LM) des Sprachmodells LM(OPTM) minimiert. Das Sprachmodell basiert auf der durch OPTJVJ bestimmten Klasseneinteilung:
QPTM = arg min0PT MM s eφψ MM H(LM(OPTM)) (8),
wobei
Figure imgf000018_0001
eine Menge der möglichen Abbildungen OPT-vj bezeichnet, für die gilt:
oPTj Ci, .. , CNJ = ICi, .. ,
Figure imgf000018_0002
(9),
wobei
PL CI mit 1=1,.., N die Klassen der maximalen Klassenmenge und
,0 mit o=l,..,M die Klassen der optimierten Klassenmenge (K Klassen) bezeichnen.
Somit gilt:
Figure imgf000018_0003
d.h. C0 ist die Vereinigung (Cluster) von Klassen aus der maximalen Klassenmenge. Die Vereinigung erfolgt über linguistische Merkmale und linguistische Werte der zu vereinigenden Klassen. Zum Beispiel ist Ci C* { il A v B} (11)
mit :
A: if i), v11( i), .. , v1j( i)).. (fm(wi), vml(Wi), .. , vιrιj(-wi))) = C^ und
B: v (Wi), .. , vx- fwi)).. (fm( ), vml(Wi), .. , vmj(wi)j) =
Figure imgf000019_0001
Die Sprachmodellentropie H(LM) ist gegeben durch Gleichung (1), wobei P(W) ein genäherter Wert sein kann. Für den Wert P(W) gilt Gleichung (4).
In Fig.7 ist eine Optimierungsstrategie in Form eines Ablaufdiagramms dargestellt. Um die Anzahl der Klassen N zu reduzieren, werden die Klassen N zusammengelegt. Dabei alle Möglichkeiten der Vereinigungen von Klassen zu berücksichtigen, ist in der Praxis äußerst aufwendig. Vorzugsweise wird daher anders verfahren: M sei die gewünschte Anzahl der optimierten Klassen. Die Wahrscheinlichkeitswerte des Sprachmodells der N Klassen werden eingesetzt, um die wahrscheinlichsten M Klassen unter den N Klassen als Basisklassen zu ermitteln. Die verbleibenden N-M Klassen bilden die Restklassen (vgl. Schritt 701 in Fig.7). Innerhalb jeder Schleife der Optimierung wird eine der Restklassen mit derjenigen
Basisklasse zusammengelegt, so daß dabei eine Zunahme der Sprachmodellentropie minimiert wird (vgl. Schritte 702 bis 705) . Werden zwei Klassen zusammengelegt, so werden die Wahrscheinlichkeiten, die notwendig sind, um den Zuwachs der Sprachmodellentropie zu bestimmen, neu berechnet (vgl. Schritt 706) .
In Fig.8 ist eine Prozessoreinheit PRZE dargestellt. Die Prozessoreinheit PRZE umfaßt einen Prozessor CPU, einen Speicher SPE und eine Input/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird: Über eine Grafikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über eine Maus MAS oder eine Tastatur TAST. Auch verfügt die Prozessoreinheit PRZE über einen Datenbus BUS, der die Verbindung von einem Speicher MEM, dem Prozessor CPU und der Input/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzlicher Speicher, Datenspeicher (Festplatte) oder Scanner.
Fig.l stellt einzelne Schritte des Verfahrens zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern bei einer Spracherkennung durch einen Rechner dar. In einem Schritt 101 wird Sprache in linguistische Klassen
(Ci, ...,Ck) (2)
unterteilt:
(Ci, ... , Ck) = F ι, v , ... , Vij)... (fm, vml, ... , vmj)j (3) ,
wobei fm ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, vml---vmj die linguistischen Werte des linguistischen
Merkmals fm, j die Anzahl der linguistischen Werte, Ci die linguistische Klasse mit i=l..k, k die Anzahl der linguistischen Klassen,
F eine Abbildungsvorschrift (Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen. Eine ausführliche Erklärung der linguistischen Merkmale und der linguistischen Werte findet sich in [3], z.B. auf Seite 1201 in Tabelle 4 wird eine beispielhafte Aufstellung von linguistischen Merkmalen mit zugehörigen linguistischen Werten abhängig von unterschiedlichen Kategorien gezeigt.
In einem Schritt 102 wird einem Wort mindestens eine der linguistischen Klassen zugeordnet. Wie in [3] beschrieben ist, kann einem Wort eine oder mehrere der linguistischen Klassen zugeordnet werden.
Schließlich wird in einem Schritt 103 die Wahrscheinlichkeit P(W) für das Auftreten der Folge von mindestens zwei Wörtern bestimmt durch
n p(w) * π Σ ∑P(wilCi)x p(CilCi_ι) x P(Ci_ι|wi_ι) (4) i=l Ci Ci_!
e i W W die Folge von mindestens zwei Wörtern,
Wi das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W,
Ci eine linguistische Klasse, die zu einem Wort wi gehört, C Cii_-ιi eine linguistische Klasse, die zu einem
Wort wi_i gehört,
∑Ci die Summe über alle linguistischen Klassen C, die zu einem Wort wi gehören,
P (wi I Ci ) die bedingte Wortwahrscheinlichkeit, P P((CCii| ICCii_-]i_)) die Wahrscheinlichkeit für Bigramme (auch:
Klassen-Bigramme, Bigramm- Wahrscheinlichkeit) , P (Ci_ι I i-l) die bedingte Klassenwahrscheinlichkeit bezeichnen. Die Gleichung (4) besteht aus einer kaskadierten Multiplikation dreier Komponenten
(CilCi_ι), P( ilCi) und P(Ci_χ| wi_χ),
die nachfolgend im einzelnen bestimmt werden.
Bestimmung der Wahrscheinlichkeit P(Ci|Ci_ι) :
Vokabeln des Textes für die neue Domäne werden mit Hilfe eines linguistischen Lexikons unter Verwendung eines Klassifikators F, wie in Gleichung (3) gezeigt, linguistischen Klassen zugeordnet. Dabei wird jedes neue Wort automatisch mindestens einer linguistischen Klasse zugeordnet. Ein Basissprachmodell umfaßt Wahrscheinlichkeiten für Klassen-Bigramme [3], wobei diese Wahrscheinlichkeit einerseits eine grammatikalische Struktur repräsentiert, andererseits von den einzelnen Wörtern unabhängig ist. Wird nun davon ausgegangen, daß die Domäne, also der spezielle anwendungsbezogene Themenbereich, von einer ähnlichen Textstruktur ist wie der dem Basissprachmodell zugrundeliegende Trainingstext, so wird die Wahrscheinlichkeit für Klassen-Bigramme P(CilCi_]_) aus dem Basissprachmodell unverändert übernommen. Eine solche automatische Zuordnung ist möglich, da, weitgehend unabhängig vom Inhalt eines Textes, davon ausgegangen werden kann, daß linguistische Merkmale und linguistische Werte, also eine Abbildung in linguistische Klassen (siehe Gleichung (3)), eigentümlich für eine Sprache sind und daher vorteilhaft von einem Themenbereich (Domäne) auf einen anderen Themenbereich übertragen werden können. Grammatikalische Strukturen vieler Trainingstexte sind ähnlich bzw. gleich, unabhängig von dem den jeweiligen Trainingstexten zugrundeliegenden Themenbereich (Domäne). Die Wahrscheinlichkeit P(CilCi_ι), die für das Basissprachmodell aufgrund von vorausgegangenen Trainingsdurchgängen bestimmt wurde, stellt in Bezug auf die Klassenzuordnung des Vokabulars des neuen Textes ein Grundwissen dar, das nicht erneut bestimmt werden muß, sondern, so das Basissprachmodell einen ausreichenden Grad an Ausführlichkeit aufweist, übernommen werden kann.
Bestimmung der Wahrscheinlichkeit P( |C ) :
Die Wahrscheinlichkeit P (wil Ci) für alle bezüglich des Basissprachmodells neuen Wörter wi sind neu zu berechnen und die Wahrscheinlichkeit P (wil Ci) (Wortwahrscheinlichkeit) des im Basissprachmodell vorhandenen Vokabulars ist vorzugsweise entsprechend anzupassen. Zur Bestimmung der Wahrscheinlichkeit P (w l C ) werden nachfolgend drei unterschiedliche Methoden erläutert:
Methode 1:
Die Wahrscheinlichkeit P ( il Ci) für alle neuen Wörter Wi der neuen Domäne wird auf Basis des Textes für die neue Domäne abgeschätzt. Es wird ausgegangen von einem auf linguistischen Klassen basierenden Basissprachmodell, wobei die neu abgeschätzte Wahrscheinlichkeit P (wil Ci) vorzugsweise in das
Basissprachmodell übernommen wird und somit eine Adaption des Basissprachmodells anhand des neuen Textes erfolgt.
Vorzugsweise wird diese Vorgehensweise verwendet, wenn der neue Text für die neue Domäne einen ausreichenden Umfang aufweist. Jedem Wort des neuen Textes wird die im Satzkontext ermittelte mindestens eine linguistische Klasse zugewiesen. Dies wird anhand des in [3] beschriebenen "Tagging-Tools" durchgeführt. Die Wahrscheinlichkeit P (wil Ci) für jedes neue
Wort wi wird anhand des neuen Textes abgeschätzt.
In Fig.2 ist ein erstes Adaptionsverfahren zur Bestimmung der Wortwahrscheinlichkeit P (wil Ci) dargestellt. Mittels des
Klassifikators F 211 und des linguistischen Lexikons 206 wird unter Verwendung des Tagging-Tools 202 (siehe detaillierte Erläuterungen zu dem Tagging-Tool unter [3] ) sowohl aus einer Datenbasis aus großen Texten 201 ein großer "getaggter" Text 203 als auch aus einer Datenbasis aus einem kleinen Text der neuen Domäne (also dem neuen Text) 207 ein kleiner "getaggter" Text 208 bestimmt. Aus dem großen "getaggten" Text 203 wird mittels eines Sprachmodellgenerators 204 ein Basissprachmodell 205, das auf linguistischen Klassen beruht, bestimmt. Wie oben ausführlich beschrieben wurde, geht die Wahrscheinlichkeit P(CilCi_ι) unverändert in das Sprachmodell für die neue Domäne ein. Aus dem "getaggten" kleinen Text 208 wird mittels eines Adaptions-Tools 209, das eine Abschätzung der Wahrscheinlichkeit P (wil Ci) mittels des
"getaggten" kleinen Textes durchführt, ein neues, vorzugsweise adaptiertes, Sprachmodell 210 bestimmt. Neben der beschriebenen Adaption kann ohne Einschränkung auch ein weiteres Sprachmodell erzeugt werden.
Methode 2:
Ein weiteres Verfahren reduziert die durch das
Basissprachmodell gegebenen einzelnen Wortwahrscheinlichkeiten P (wil Ci) und überträgt den reduzierten Beitrag auf das in der jeweiligen linguistischen Klasse Ci zu ergänzende Vokabular (Wörter) . Dies wird abhängig von den jeweiligen Werten P(wi) der neuen Wörter durchgeführt.
In Fig.3 ist dieses zweite Adaptionsverfahren zur Bestimmung der Wahrscheinlichkeit P (wil Ci) dargestellt. Mittels des
Klassifikators F 311 und des linguistischen Lexikons 306 wird anhand des Tagging-Tools 302 aus einer Datenbasis aus großen Texten 301 ein "getaggter" großer Text 303 bestimmt. Mit einem Sprachmodellgenerator 304 wird aus dem "getaggten" großen Text 303 ein Basissprachmodell 305, das auf linguistischen Klassen beruht, erstellt. Aus dem Basissprachmodell 305 wird die Wahrscheinlichkeit P (C-j_| Ci_ι) unverändert übernommen. Anhand einer Wortliste für die neue Domäne 307 wird mittels eines Adaptions-Tools 308 ein adaptiertes Sprachmodell 309 bestimmt. Auch hier kann eine Adaption eine Veränderung oder eine Erzeugung eines Sprachmodells umfassen. Das Adaptions-Tool 308 berechnet die Wahrscheinlichkeit P (wil Ci) für neue Wörter aus der Wahrscheinlichkeit P(wi) und führt eine Renormierung der Wahrscheinlichkeit P (wil Ci) des Basissprachmodells durch.
Nachfolgend wird dieses Verfahren detailliert beschrieben.
Die folgenden Größen sind durch das Basissprachmodell gegeben:
i Vokabular des Basissprachmodells mit i=l, ...,N,
N Anzahl des Vokabulars des
Basissprachmodells,
Nς Anzahl der Wörter in der jeweiligen Klasse
C des Basissprachmodells,
Anzahl der Klassen des Basissprachmodells,
für j=0, ... , k; Unigramm- te) Wahrscheinlichkeiten für die Klassen des Basissprachmodells,
PlCjl Cj_ι) für j=l, ... , k; Bigramm-Wahrscheinlichkeiten für die Klassen des Basissprachmodells,
p(wilCj(wi)) und P (Cj(wi) | Wi)
Wortwahrscheinlichkeiten des
Basissprachmodells für alle Wörter wi, mit i=l,...,N, und alle Klassen Cj( i) mit j=0,..., k, für die gilt: Wort wi liegt in der linguistischen Klassen Cj . Die Bildung linguistischer Klassen eines Sprachmodells für die neue Domäne entspricht der Bildung linguistischer Klassen für das Basissprachmodell. Der Klassifikator F (siehe Gleichung (3) ) des Basissprachmodells wird übernommen. Also ist die Anzahl der linguistischen Klassen k unverändert. Es wird für die neue Domäne von Texten ähnlicher Struktur wie dem Basissprachmodell zugrundeliegende Trainingstexte ausgegangen. Die Wahrscheinlichkeit der Klassen-Bigramme P(CilCi_ι) und die Wahrscheinlichkeit von Klassen-Unigrammen P ( Cj ) des Basissprachmodells bleiben unverändert.
Zu betrachten bleiben die Wahrscheinlichkeit P I w-j_| Cj(wi)) und die Wahrscheinlichkeit P (Cj( i) | i] , die sich jeweils auf einzelne Wörter beziehen. Die Wahrscheinlichkeit P (wil Cj(wi)) und die Wahrscheinlichkeit P (Cj(wi) | wi) werden für die nicht im Basissprachmodell enthaltenen Wörter der neuen Domäne neu berechnet. Bereits vorhandene Wahrscheinlichkeiten für die Wörter des Basissprachmodells sind zu reskalieren.
Für die neue Domäne sind folgende Werte gegeben:
^ Vokabular der neuen Domäne mit h=l,...,L, das nicht im Basissprachmodell enthalten ist.
L Anzahl des Vokabulars im Sprachmodell für die neue Domäne (Zielsprachmodell) ,
LQ Anzahl der neuen Wörter w^ und der Wörter wi des Basissprachmodells in der jeweiligen (linguistischen) Klasse C,
P(w*h) klassenunabhängige Wortwahrscheinlichkeiten in der neuen Domäne. Die Wahrscheinlichkeit P(wft) ist gegeben durch eine Wortliste mit Worthäufigkeiten und die Größe des zugrundeliegenden Textes .
Abschätzung der Wahrscheinlichkeit P (Cj(wh) | w^l :
Zur Abschätzung der Wahrscheinlichkeit P Cj(wh) |
Figure imgf000027_0001
, jeweils für das neue Vokabular w^, wird davon ausgegangen, daß P (Cj(wh) I wh) annähernd gleich ist für Wörter, die in derselben Klasse Cj liegen. Demnach gilt folgende Näherung:
N C ,
P C-! wh) * x w
' NC i) (12), i=l
wobei wi alle Wörter des Basissprachmodells bezeichnet, die in der Klasse Cj liegen.
Für die folgenden Ausführungen wird exemplarisch eine Klasse Cj untersucht. Zur vereinfachten Darstellung wird im folgenden diese Klasse Cj als Klasse C bezeichnet.
Vorhandene Wahrscheinlichkeitswerte sind zu renormieren. Nachfolgend werden die "alten" Werte mit einer Tilde gekennzeichnet .
Eine weitere Näherungslösung für die Gleichung (12) ist die Summe über die Wörter wi, für die alle linguistischen Klassen mit den Klassen des neuen Wortes übereinstimmen.
Zur Berechnung der neuen Wahrscheinlichkeit P (vιn I C (w^)) bzw. zur Renormierung der gegebenen Wahrscheinlichkeiten P(wi|C(wi)) wird folgendes Verfahren angewandt:
1) Bestimmung des Anteils α der neuen Wörter im Wortschatz 2) Renormierung von
P(w) (13)
mit:
P(wi) = (1 - α) x P(wi) (14)
Bestimmung des Anteils α gemäß Gleichung (17)
3) Bestimmung des Anteils 1-γc der neuen Wörter in der Klasse C,
4) Bestimmung von P (w^ | c) gemäß Gleichung (23),
5) Bestimmung von γς nach Gleichung (22),
6) Bestimmung der Wahrscheinlichkeit P [ ^ | C (w^)) durch:
P(wh |C) = -*^-P(wh |C) (15), v ' 1 - α
siehe auch Gleichung (22) . Der Faktor kann als Quotient der Anteile der alten Wörter in der linguistischen Klasse C und dem Anteil des alten Wortschatzes im Gesamtwortschatz interpretiert werden.
Zur Bestimmung des Anteils α folgt mit Gleichung (14):
NC Nc LC
1 = ∑p(wi) = ∑P(wi) + ∑P( h) = i=l i=l h=Nc+l
(16),
NC LC
= (1 - α) x ∑ P (wi) + _ P (wh) i=l h=Nc+l
daraus folgt: LC α = ∑ P (wh) ( i7 : h = Nc + l
Zur Bestimmung des Anteils γc wird der Satz von Bayes auf Gleichung (12) (siehe hierzu [5]) angewandt. Es folgt:
P (wh | C) = p ) ;, P ( ± I c) (18) NC A P(wi)
Anhand von Gleichung (18) und unter Anwendung der
Normierungseigenschaft für Wahrscheinlichkeitswerte (siehe [6]) kann gezeigt werden:
Figure imgf000029_0001
Für
P (wi | C) = γc x P (w± | C) (201
mit γc < 1 und P (wi | c) als alte (nicht renormierte) Verteilung, gilt:
Figure imgf000029_0002
Daraus folgt mit Gleichung (14):
-1
LC γc = l + -r^— x ∑ P ( h I c) (22) 1 — et -^ h = Nc+l mit
Figure imgf000030_0001
Methode 3:
Die Wahrscheinlichkeit P (wil Ci) für bezüglich des Basissprachmodells neue Wörter wi wird unter Verwendung einer entsprechenden Wortliste angenähert. Bei dieser Vorgehensweise wird die Lösungsstrategie von dem unter 'Methode 2' beschriebenen Verfahren übernommen. Die hier nicht vorhandene Wahrscheinlichkeit P(w^) für die neuen Wörter w-^ wird angenähert. Dies erfolgt insbesondere in Abhängigkeit zu einer Hauptkategorie HC des jeweiligen Wortes h- Es ergibt sich näherungsweise:
Figure imgf000030_0002
Hierzu werden Eigenschaften von Wörtern i des
Basissprachmodells verwendet. JJC ist eine Anzahl des
Vokabulars des Basissprachmodells, das in der Hauptkategorie HC liegt. Die Summierung läuft über alle Klassen Cj des
Basissprachmodells, zu denen das jeweilige Wort wi gehört.
Ist keine Hauptkategorie bekannt, so können die Wörter ^ der speziellen linguistischen Klasse der Wörter mit unbekannten oder nicht anders abbildbaren linguistischen Eigenschaften zugeordnet werden. Bestimmung der Wahrscheinlichkeit P(Ci_ι| i_ι) :
Schließlich wird die Wahrscheinlichkeit (Ci_ιl wi_ι) wie nachfolgend beschrieben bestimmt. Es sei angemerkt, daß in Gleichung (4) die Wahrscheinlichkeit P(Ci_ιlwi_ι) einen
Index 'i-1' aufweist, der nachfolgend zur Vereinfachung als Index i gesetzt wird.
Die Wahrscheinlichkeit P ( ^\ Wi) ergibt sich jeweils aus der Wahrscheinlichkeit P( ilC ), die wie oben beschrieben, bestimmt worden ist:
p (Cil wi) = K x P(wi| Ci) x P(Ci) (5)
mit einem Normalisierungsfaktor
Figure imgf000031_0001
Die linguistische Klasse Ci durchläuft dabei alle für das Wort wi möglichen linguistischen Klassen. Die Wahrscheinlichkeit P(Ci) wird aus dem Basissprachmodell übernommen (Unigramm-Wahrscheinlichkeit für jeweilige linguistische Klasse des Basissprachmodells) .
Literaturverzeichnis :
[1] G. Ruske: "Automatische Spracherkennung - Methoden der Klassifikation und Merkmalsextraktion", Oldenbourg Verlag, München 1988, ISBN 3-486-20877-2, Seiten 1-10.
[2] L. Rabiner, B.-H. Juang: "Fundamentals of Speech Recognition", Prentice Hall 1993, S.447-450.
[3] P. Witschel: "Constructing Linguistic Oriented Language Models for Large Vocabulary Speech Recognition", 3rd EUROSPEECH 1993, Seiten 1199-1202.
[4] F. Guethner, P. Maier: "Das CISLEX-Wörterbuchsystem" , CIS-Bericht 94-76-CIS, Universität München, 1994.
[5] W. Feller: "An Introduction to Probability Theory and its Applications", John Wiley & Sons, 1976, Seiten 124,125.
[6] W. Feller: "An Introduction to Probability Theory and its Applications", John Wiley & Sons, 1976, Seite 22.
[7] S. Martin, J. Liermann, H. Ley: "Algorithms for Bigram and Trigram Word Clustering", Speech Communication 24, 1998, Seiten 19-37.

Claims

Patentansprüche
1. Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner, a) bei dem anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmt wird mittels eines vorgegebenen Vokabulars mit zugehörigen linguistischen Eigenschaften; b) bei dem K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) bei dem anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen dargestellt wird.
2. Verfahren nach Anspruch 1, bei dem die N Klassen ermittelt werden, indem alle möglichen Kombinationen von linguistischen Merkmalen und zugehörigen linguistischen Werten bestimmt werden und jede der Kombinationen eine Klasse ergibt.
3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die linguistischen Werte anhand eines linguistischen Lexikons ermittelt werden.
4. Verfahren zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen durch einen Rechner, a) bei dem anhand einer ersten Abbildungsvorschrift N
Klassen vorgegeben sind; b) bei dem K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) bei dem anhand der K Klassen eine zweite
Abbildungsvorschrift zur Klassenbildung von
Sprachmodellen auf linguistische Klassen dargestellt wird.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die K Klassen bestimmt werden, indem folgende Schritte durchgeführt werden: a) Eine Anzahl M der wahrscheinlichsten unter den N Klassen werden als Basisklassen ermittelt; b) eine der verbleibenden (N-M) Klassen wird mit derjenigen Basisklasse zusammengelegt, bei der die Sprachmodellentropie minimiert wird
6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Sprachmodellentropie bestimmt ist durch
H(LM) = - - • log P(W) , n
wobei
H(LM) die Sprachmodellentropie des Sprachmodells, n die Anzahl der Wörter des Textes,
W eine Kette von Wörtern WQ, WI, .. , wn ,
P (W) eine Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern beschreiben.
7. Verfahren nach einem der vorhergehenden Ansprüche zur Bestimmung einer Wahrscheinlichkeit für das Auftreten einer Folge von mindestens zwei Wörtern bei einer Spracherkennung, a) bei dem eine Sprache linguistische Klassen aufweist: (Ci, ... , Ck) = F v , ... , v-ij... (fm, vml, ... , vmjj) ,
Figure imgf000034_0001
wobei fm ein linguistisches Merkmal, m die Anzahl linguistischer Merkmale, vml---vmj die linguistischen Werte des linguistischen Merkmals fm, j die Anzahl der linguistischen Werte,
Cι,...,C die linguistische Klassen, k die Anzahl der linguistischen Klassen,
F die zweite Abbildungsvorschrift
(Klassifikator) von linguistischen Merkmalen und linguistischen Werten auf linguistische Klassen bezeichnen b) bei dem einem Wort mindestens eine der linguistischen Klassen zugeordnet wird; c) bei dem die Wahrscheinlichkeit für das Auftreten der Folge von mindestens zwei Wörtern bestimmt ist durch:
n
P(w) Ä π Σ Σ p (il Ci) x p (cil ci-l) x p (Ci-H «i-i)
Figure imgf000035_0001
wobei P(W) Wahrscheinlichkeit für das Auftreten der
Folge von mindestens zwei Wörtern W die Folge von mindestens zwei Wörtern, wi das i-te Wort der Folge W mit (i=l..n), n die Anzahl der Wörter wi der Folge W, Ci eine linguistische Klasse C, die zu einem Wort wi gehört, Ci_ι eine linguistische Klasse, die zu einem
Wort wi_ι gehört, ∑d die Summe über alle linguistischen Klassen C, die zu einem Wort wi gehören,
P(wilCi) die bedingte Wortwahrscheinlichkeit, P (Cil Ci_ι) die Wahrscheinlichkeit für Bigramme (auch: Klassen-Bigramme, Bigramm- Wahrscheinlichkeit) , P(Ci_ι|wi_ι) die bedingte Klassenwahrscheinlichkeit bezeichnen.
8. Verfahren nach Anspruch 7, bei dem für einen Text anhand eines vorbestimmten Basissprachmodells die Wahrscheinlichkeit P (Cil Ci_ι) für den Text bestimmt wird, indem die Wahrscheinlichkeit P(cilCi_ι) aus dem Basissprachmodell übernommen wird.
9. Verfahren nach Anspruch 8, bei dem die Wahrscheinlichkeit P (wil Ci) nach mindestens einer der folgenden Möglichkeiten bestimmt wird: a) die Wahrscheinlichkeit P (wil Ci) wird anhand des Textes bestimmt; b) die Wahrscheinlichkeit P (wil Ci) wird für ein Wort Wi mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(wι) bestimmt; c) die Wahrscheinlichkeit P (wil C ) wird unter Verwendung einer Wortliste bestimmt.
10. Verfahren nach Anspruch 9, bei dem anhand der ermittelten Wahrscheinlichkeit P ( il ci) das Basissprachmodell angepaßt wird.
11. Verfahren nach Anspruch 9 oder 10, bei dem die Wahrscheinlichkeit P (Cil Wi) anhand der
Wahrscheinlichkeit P (wil Ci) wie folgt bestimmt wird:
P (Cil w±) = K x P(wil Ci) x P(Ci),
wobei
Figure imgf000036_0001
einen Normalisierungsfaktor bezeichnet.
12. Verfahren nach einem der Ansprüche 7 bis 11, bei dem, wenn die Wahrscheinlichkeit P(W) für das
Auftreten einer Folge von mindestens einem Wort oberhalb einer vorgegebenen Schranke liegt, die entsprechende Folge von mindestens einem Wort erkannt wird, ansonsten eine vorgegebene Aktion durchgeführt wird.
13. Verfahren nach Anspruch 12, bei dem die vorgegebene Aktion eine Ausgabe einer Fehlermeldung oder Anlaß für einen Abbruch des Verfahrens ist .
14. Verfahren nach einem der Ansprüche 8 bis 13, bei dem sich der Text auf einen vorgegebenen Anwendungsbereich (Domäne, Sprachdomäne) bezieht.
15. Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen mit einer Prozessoreinheit, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift eine Anzahl N Klassen bestimmbar ist mittels eines vorgegebenen
Vokabulars mit zugehörigen linguistischen Eigenschaften; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.
16. Anordnung zur Klassenbildung für ein Sprachmodell basierend auf linguistischen Klassen mit einer
Prozessoreinheit, die derart eingerichtet ist, daß a) anhand einer ersten Abbildungsvorschrift N Klassen vorgebbar sind; b) K Klassen aus den N Klassen ermittelt werden, indem eine Sprachmodellentropie minimiert wird; c) anhand der K Klassen eine zweite Abbildungsvorschrift zur Klassenbildung von Sprachmodellen auf linguistische Klassen erfolgt.
PCT/DE1999/003176 1998-10-27 1999-10-01 Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen WO2000025299A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE59901575T DE59901575D1 (de) 1998-10-27 1999-10-01 Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
EP99957254A EP1135767B1 (de) 1998-10-27 1999-10-01 Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
US09/844,931 US6640207B2 (en) 1998-10-27 2001-04-27 Method and configuration for forming classes for a language model based on linguistic classes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19849546.3 1998-10-27
DE19849546 1998-10-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/844,931 Continuation US6640207B2 (en) 1998-10-27 2001-04-27 Method and configuration for forming classes for a language model based on linguistic classes

Publications (1)

Publication Number Publication Date
WO2000025299A1 true WO2000025299A1 (de) 2000-05-04

Family

ID=7885827

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/DE1999/003176 WO2000025299A1 (de) 1998-10-27 1999-10-01 Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen

Country Status (4)

Country Link
US (1) US6640207B2 (de)
EP (1) EP1135767B1 (de)
DE (1) DE59901575D1 (de)
WO (1) WO2000025299A1 (de)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
WO2002029783A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US7024624B2 (en) * 2002-01-07 2006-04-04 Kenneth James Hintz Lexicon-based new idea detector
US7526424B2 (en) * 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム
US7379867B2 (en) * 2003-06-03 2008-05-27 Microsoft Corporation Discriminative training of language models for text and speech classification
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
CA2465155C (en) * 2004-04-21 2008-12-09 Ibm Canada Limited-Ibm Canada Limitee Recommendations for intelligent data caching
US7613666B1 (en) 2004-04-23 2009-11-03 Microsoft Corporation Generating a class model from a business vocabulary to represent facts expressible in the business vocabulary
US7761858B2 (en) * 2004-04-23 2010-07-20 Microsoft Corporation Semantic programming language
US7802231B2 (en) * 2004-04-30 2010-09-21 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for provision of information
US7620935B2 (en) 2004-04-30 2009-11-17 Microsoft Corporation Generating programmatic interfaces from natural language expressions of authorizations for request of information
US7499850B1 (en) * 2004-06-03 2009-03-03 Microsoft Corporation Generating a logical model of objects from a representation of linguistic concepts for use in software model generation
US7613676B2 (en) 2004-07-27 2009-11-03 Microsoft Corporation Generating a database model from natural language expressions of business rules
US8050907B2 (en) * 2004-07-30 2011-11-01 Microsoft Corporation Generating software components from business rules expressed in a natural language
US7634406B2 (en) * 2004-12-10 2009-12-15 Microsoft Corporation System and method for identifying semantic intent from acoustic information
US20060142993A1 (en) * 2004-12-28 2006-06-29 Sony Corporation System and method for utilizing distance measures to perform text classification
US7945437B2 (en) * 2005-02-03 2011-05-17 Shopping.Com Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
EP2026327A4 (de) * 2006-05-31 2012-03-07 Nec Corp Sprachenmodell-lernsystem, sprachenmodell-lernverfahren und sprachenmodell-lernprogramm
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US20090326924A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting Semantic Information from a Language Independent Syntactic Model
US20090326925A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Projecting syntactic information using a bottom-up pattern matching algorithm
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US8725509B1 (en) * 2009-06-17 2014-05-13 Google Inc. Back-off language model compression
US8812299B1 (en) * 2010-06-24 2014-08-19 Nuance Communications, Inc. Class-based language model and use
US9564122B2 (en) * 2014-03-25 2017-02-07 Nice Ltd. Language model adaptation based on filtered data
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
US9529898B2 (en) 2014-08-26 2016-12-27 Google Inc. Clustering classes in language modeling
US10242260B1 (en) * 2017-11-02 2019-03-26 Sap Se Using machine learning to flag gender biased words within free-form text, such as job descriptions
US10467339B1 (en) * 2018-06-28 2019-11-05 Sap Se Using machine learning and natural language processing to replace gender biased words within free-form text
US11120367B2 (en) * 2018-07-30 2021-09-14 International Business Machines Corporation Validating training data of classifiers
US11410641B2 (en) * 2018-11-28 2022-08-09 Google Llc Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3812291A (en) 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
US5680509A (en) * 1994-09-27 1997-10-21 International Business Machines Corporation Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
US5839106A (en) * 1996-12-17 1998-11-17 Apple Computer, Inc. Large-vocabulary speech recognition using an integrated syntactic and semantic statistical language model

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MASATAKI H ET AL: "Variable-order N-gram generation by word-class splitting and consecutive word grouping", 1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING CONFERENCE PROCEEDINGS (CAT. NO.96CH35903), 1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING CONFERENCE PROCEEDINGS, ATLANTA, GA, USA, 7-10 M, 1996, New York, NY, USA, IEEE, USA, pages 188 - 191 vol. 1, XP002133222, ISBN: 0-7803-3192-3 *
NEY H ET AL: "ON STRUCTURING PROBABILISTIC DEPENDENCES IN STOCHASTIC LANGUAGE MODELLING", COMPUTER SPEECH AND LANGUAGE,GB,ACADEMIC PRESS, LONDON, vol. 8, no. 1, 1 January 1994 (1994-01-01), pages 1 - 38, XP000452242, ISSN: 0885-2308 *
NIESLER T R ET AL: "COMPARISON OF PART-OF-SPEECH AND AUTOMATICALLY DERIVED CATEGORY- BASED LANGUAGE MODELS FOR SPEECH RECOGNITION", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING,US,NEW YORK, NY: IEEE, vol. CONF. 23, 1998, pages 177 - 180, XP000854544, ISBN: 0-7803-4429-4 *

Also Published As

Publication number Publication date
EP1135767B1 (de) 2002-05-29
US6640207B2 (en) 2003-10-28
US20010051868A1 (en) 2001-12-13
DE59901575D1 (de) 2002-07-04
EP1135767A1 (de) 2001-09-26

Similar Documents

Publication Publication Date Title
WO2000025299A1 (de) Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE60033733T2 (de) Datenbankabfragesystem basierend auf Spracherkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE112017004397T5 (de) System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken
DE102008017993B4 (de) Sprachsuchvorrichtung
DE112009002000B4 (de) Adaptives Verfahren und Vorrichtung zur Umwandlung von Nachrichten zwischen unterschiedlichen Datenformaten
DE60316912T2 (de) Verfahren zur Spracherkennung
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE102019004300A1 (de) Verwendung eines dynamischen speichernetzwerks zum verfolgen digitaler dialogzustände und erzeugen von antworten
DE112010006037T5 (de) Spracherkennungsvorrichtung und Navigationssystem
DE112013006770B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE602004003609T2 (de) Lösung der Segmentierungsmehrdeutigkeit bei der Grammatikerstellung
EP1016077B1 (de) Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1999957254

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09844931

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 1999957254

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 1999957254

Country of ref document: EP