EP1273003A1

EP1273003A1 - Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Info

Publication number: EP1273003A1
Application number: EP01940136A
Authority: EP
Inventors: Martin Holzapfel; Achim Müller
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-04-12
Filing date: 2001-04-09
Publication date: 2003-01-08
Anticipated expiration: 2021-04-09
Also published as: WO2001078063A1; DE50108314D1; US20030149558A1; US7409340B2; EP1273003B1; DE10018134A1

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zum Umsetzung des Verfahrens. Zur Schaffung eines im Vergleich zu Verfahren nach dem Stand der Technik robusteren Verhaltens bei der Bestimmung prosodischer Markierungen auf der Basis linguistischer Kategorien wird ein neuronales Netzwerk verwendet.

Description

Beschreibung

Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen

Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zur Umsetzung des Verfahrens.

Bei der Aufbereitung von unbekanntem Text für die Sprachsynthese m einem TTS-System, ( ^λtext to speech' -Systemen) bzw. Text/Sprache-Umsetzungssystemen, ist ein wesentlicher Schritt die Aufßereitung und Strukturierung des Textes fαr die nacr- folgenαe Generierung der Prosodie. Um prosodische Parameter für Sprachsynthesesysteme zu erzeugen, wird ein zweistufiger Ansatz verfolgt. Dabei werden m der ersten Stufe zunächst prosodische Marker bzw. prosodische Markierungen erzeugt, die dann m der zweiten Stufe in physikalische Parameter umgesetzt werden.

Als prosodische Markierungen können insbesondere Phrasengrenzen und Wortakzente (pitch-accent ) dienen. Unter Phrasen werden Gruppierungen von Wortern verstanden, αie innerhalb eines Textes m der Regel zusammen gesprochen werden, also ohne αa- zwischen eingeschoben liegende Sprechpausen. Sprechpausen liegen erst an den jeweiligen Enden der Phrasen, den Pnrasen- grenzen, an. Durch das Einlegen derartiger Pausen an den Phrasengrenzen der synthetisierten Sprache wird deren Verständlichkeit und Natürlichkeit wesentlich gesteigert.

In der Stufe 1 eines derartigen zweistufigen Ansatzes bereiten sowohl die stabile Vorhersage bzw. Bestimmung von Phrasengrenzen als auch die von Akzenten Probleme.

In einer Veröffentlichung ist unter dem Titel „A hierarchical stochastic model for automatic prediction of prosodic oounda- ry location^* von M. Ostenαorf und N. Veilleux m Computatio- nal Lmguistics, 1994, ein Verfahren veröffentlicht worden, m dem zur Bestimmung von Phrasengrenzen „Classification and Regression Trees" (CART) verwendet werden. Die Initialisierung eines solchen Verfahrens erfordert ein hohes Maß an Ex- pertenwissen . Der Aufwand steigt bei diesem Verfahren mit der angestrebten Genauigkeit uberproportional .

Auf der Konferenz Eurospeech 1997 ist unter dem Titel „As- signmg phase breaks from part-of-speech sequences' von Alan W. Black und Paul Taylor ein Verfahren veröffentlicht worden, m dem die Phrasengrenzen mit einem "Hidden-Markov-Modell" (HMM) bestimmt werden. Zur Erzielung einer guten Vorhersage- Genauigkeit für eine Phrasengrenze ist ein Trainingstext mit beträchtlichem Umfang notwendig. Die Erstellung dieser Trai- ningstexte ist teuer, da hierzu Expertenwissen notwendig ist.

Demnach ist es d_e Aufgabe der vorliegenden Erfindung, ein Verfahren zur Aufbereitung und Strukturierung eines unbekannten gesprochenen Texts zu schaffen, das mit einem kleineren Trainingstext trainiert werden kann und etwa ähnliche Erkennungsraten wie bekannte Verfahren erzielt, die mit größeren Texten trainiert werden.

Diese Aufgabe wird durch ein Verfahren gemäß dem kennzeich- nenden Teil des Patentanspruchs 1 gelost.

Demnach werden m einem erfmdungsgemaßen Verfahren prosodische Markierungen durch ein neuronales Netzwerk auf der Basis linguistischer Kategorien bestimmt. In Abhängigkeit von der jeweiligen Sprache eines Textes sind Unterteilungen der Worter m verschiedene linguistische Kategorien bekannt. Bei der deutscnen Sprache werden im Rahmen dieser Erfindung beispielsweise 14 Kategorien, für die englische Sprache z.B. 23 Kategorien vorgesehen. Unter Kenntnis dieser Kategorien wird ein neuronales Netzwerk so trainiert, daß es Strukturen erkennen kann und so auf der Basis von Gruppierungen von z.B. 3 bis 15 aufeinander folgenden Wortern eine prosodische Markierung vorhersagt bzw. bestimmt.

In einer sehr vorteilhaften Weiterbildung der Erfindung wird für ein erfmdungsgemaßes Verfahren ein zweistufiger Ansatz gewählt, der das Erfassen der Eigenschaften jeder prosodi- schen Markierung durch neuronale Autoassoziatoren und das Auswerten der von jedem der Autoassoziatoren ausgegebenen detaillierten Ausgangsinformationen, die als sogenannter Feh- ler-Vektor vorliegt, in einem neuronalen Klassifikator beinhaltet.

Durch die erfmdungsgemaße Anwendung von neuronalen Netzen wird ermöglicht, bei der Erzeugung prosodischer Parameter für Sprachsynthesesysteme Phrasengrenzen genau vorherzusagen.

Das erfmdungsgemaße neuronale Netz ist robust gegenüber "wenigem" bzw. einem geringen Umfang von Trainingsmaterial (engl.: sparse traimng mateπal).

Die Verwendung neuronaler Netzwerke gestattet zeit- und Kostensparende Trainingsverfahren und eine flexible Anwendung eines erfmdungsgemaßen Verfahrens und eine entsprechenαe Vorrichtung auf beliebige Sprachen. Es ist wenig zusätzlich aufbereitete Information und wenig Expertenwissen zum Initialisieren eines solchen Systems einer bestimmten Sprache erforderlich. Das erfmdungsgemaße neuronale Netzwerk ist deshalb gut geeignet, um mit einem multilmgualen TTS-System Texte aus mehreren Sprachen zu synthetisieren. Da die erfin- dungsgemaßen neuronalen Netzwerke ohne Expertenwissen trainiert werden können, können sie kostengünstiger als bekannte Verfahren zum Bestimmen von Phrasengrenzen initialisiert werden .

In einer Weiterbildung umfaßt die zweistufige Struktur mehrere Autoassoziatoren, die jeweils auf eine Phrasierungsstarke für alle auszuwertenden linguistischen Klassen trainiert wer- den. So sind Teile des neuronalen Netzwerkes klassenspezi^¬ fisch ausgebildet. Das Tramingsmateπal ist m der Regel statistisch asymmetrisch ausgebildet ,d.h., daß viele Worter ohne Phrasengrenzen, aber nur wenige mit Phrasengrenzen vor- handen sind. Im Gegensatz zu Verfahren nach dem Stand der

Technik wird eine Dominanz innerhalb eines neuronalen Netzes dadurch vermieden, daß ein klassenspezifisches Training der jeweiligen Autoassoziatoren durchgeführt wird.

Vorteilhafte Weiterbildungen eines erfmdungsgemaßen Verfahrens sind der Gegenstand von Unteranspruchen .

Das vorliegende Verfahren wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen naher erläutert.

In den Zeichnungen zeigt:

Fig. 1 schematisch ein neuronales Netzwerkwerk gemäß der Erfindung;

Fig. 2 eine Ausgabe bei einfacher Phrasierung anhand eines Beispieltexts ;

Fig. 3 ein Beispiel für eine Ausgabe mit ternarer Bewer- tung der Phrasierung anhand eines Textbeispiels ;

Fig. 4 schematisch eine bevorzugte Ausfuhrungsform eines neuronalen Netzwerkes;

Fig. 5 schematisch einen Autoassoziator wahrend des Trainings (links) und wahrend des Betriebs (rechts) ;

Fig. 6 schematisch ein Blockschaltbild des neuronalen Netzwerkes nacn Fig. 4 mit den mathematischen Zusammenhangen; und

Fig. 7 schematisch einen erweiterten Autoassoziator, und Fig. 8 ein Computersystem zum Ausfuhren des erfmdungs- gemaßen Verfahrens m einem Blockschaltbild.

In der Figur 1 ist schematisch ein erf dungsgemaßes neurona^¬ les Netzwerkwerk 1 mit einem Eingang 2, einer Zwischenschicht 3 und einem Ausgang 4 zum Bestimmen prosodischer Markierungen dargestellt. Der Eingang 2 ist aus neun Eingangsgruppen 5 zur Durchfuhrung einer ^vpart-of-speech' - (POS-) Sequenz Untersu- chung aufgebaut. Jede der Eingangsgruppe 5 umfaßt m Anpassung an die deutsche Sprache 14 Neuronen 6, die aus Gründen der Übersichtlichkeit nicht alle in Fig. 1 dargestellt sind. Es ist also je e Neuron 6 für eine der linguistischen Kategorie vorhanden. Die linguistischen Kategorien sind bei- spielsweise folgendermaßen unterteilt:

Kategorie Beschreibung

NUM Numerale

VERB Verben

VPART Verbpartikel

PRON Pronomen

PREP Präpositionen

NOMEN Nomen, Eigennamen

PART Partikel

DET Artikel

CONJ Konjunktionen

ADV Adverben

ADJ Adjektive

PDET PREP+DET

INTJ Inter ektionen

PUNCT Satzzeichen

Tabelle 1: linguistische Kategorieren

Der Ausgang 4 ist durch em Neuron mit einem kontinuierlichen Verlauf ausgebildet, das beαeutet, daß die Ausgangswerte alle Werte eines bestimmten Zahlenbereiches, der z.B. alle reellen Zahlen zwischen 0 und 1 umfaßt, annehmen können.

Bei dem Fig. 1 gezeigten Ausfuhrungsbeispiel sinα neun Eingangsgruppen 5 zum Eingeben der Kategorien der einzelnen Worter vorgesehen. An die mittlere Eingangsgruppe 5a wird die Kategorie des Wortes angelegt, von dem bestimmt werden soll, ob am Ende des Wortes eine Phasengrenze vorliegt oder keine Phasengrenze vorliegt. An die vier Eingangsgruppen 5b auf der linken Seite der Eingangsgruppe 5a werden die Kategorien von den Vorlaufern des zu untersuchenden Wortes und an die auf der rechten Seite angeordneten Eingangsgruppen 5c die Nachfolger des zu untersuchenden Wortes angelegt. Vorlaufer sind alle Worter, die im Kontext unmittelbar vor dem zu untersu- chenden Wort angeordnet sind. Nachfolger sind alle Worter, die im Kontext unmittelbar nachfolgend auf das zu untersuchende Wort angeordnet sind. Hierdurch wird mit dem erfin- dungsgemaßen neuronalen Netzwerk 1 nach Fig. 1 em Kontext von max . neun Wortern ausgewertet.

Bei der Auswertung wird die Kategorie des zu untersuchenden Wortes an die Eingangsgruppe 5a angelegt, das heißt, daß an das Neuron 6, das der Kategorie des Wortes entspricht, der Wert +1 und an die übrigen Neuronen 6 der Eingangsgruppe 5a der Wert -1 angelegt wird. In entsprechender Weise werden die Kategorien der vier zu dem zu untersuchenden Wort vorhergehenden bzw. nachfolgenden Worter an die Eingangsgruppen 5b, bzw. 5c angelegt. Sollten keine entsprechenden Vorlaufer bzw. Nachfolger vorhanden sein, wie es z.B. am Anfang und am Ende eines Textes der Fall ist, werden an die Neuronen 6 der entsprechenden Eingangsgruppen 5b, 5c der Wert 0 angelegt.

Eine weitere Eingangsgruppe 5d ist zum Eingeben der vorhergegangen Phrasengrenzen vorgesehen. An dieser Eingangsgruppe 5d können die letzten neun Phrasengrenzen eingegeben werden. Für die deutsche Sprache - mit 14 linguistischen Kategorien - weist der Eingangsraum eine beachtliche Dimension m von 135 (m = 9 * 14 + 9) auf. Eine zweckmäßige Unterteilung der linguistischen Kategorien der englischen Sprache umfaßt 23 Kate- gorien, so daß die Dimension des Eingangsraumes 216 betragt. Die Eingangsdaten bilden einen Eingangsvektor x mit der Dimension m.

Das erfmdungsgemaße neuronale Netzwerk wird mit einer Trai- nmgsdatei trainiert, die einen Text und die Informationen zu den Phrasengrenzen des Textes umfaßt. Diese Phrasengrenzen können rein binare Werte enthalten, das heißt, lediglich Informationen, ob eine Phrasengrenze vorliegt oder ob keine Phrasengrenze vorliegt. Wird das neuronale Netzwerk mit einer derartigen Trainingsdatei trainiert, so ist die Ausgabe am

Ausgang 4 binar. Der Ausgangs 4 erzeugt an sich kontinuierliche Ausgangswerte, die jedoch mittels einer Schwellwertent- scheidung diskreten Werten zugeordnet werden.

In Fig. 2 ist em Beispielssatz dargestellt, der hinter den Begriffen „Wort^* und „Phrasengrenze* jeweils eine Phrasengrenze aufweist. Hinter den anderen Wortern dieses Beispielsatzes gibt es keine Phrasengrenze.

Für bestimmte Anwendungen ist es vorteilhaft, wenn die Ausgabe nicht nur binare Werte, sondern mehrstufige Werte enthalt, das heißt, daß Informationen über die Starke der Phrasengrenze berücksichtigt werden. Hierzu ist das neuronale Netzwerk mit einer Trainingsdatei zu trainieren, die mehrstufige In- formationen zu den Phrasengrenzen umfaßt. Die Abstufung kann von zwei Stufen bis an sich beliebig viele Stufen umfassen, so daß eine quasi kontinuierliche Ausgabe erzielt werden kann .

In Fig. 3 ist em Beispielsatz mit einer dreistufigen Auswertung mit den Ausgangswerten 0 für keine Phrasengrenze, 1 für eine primäre Phrasengrenze und 2 für eine sekundäre Phrasen- grenze dargestellt. Nach dem Begriff „sekundären* befindet sich eine sekundäre Phrasengrenze und nach den Begriffen „Phrasengrenze* und „erforderlich* eine primäre Phrasengrenze .

In Fig. 4 ist eine bevorzugte Ausfuhrungs form des erfmdungsgemaßen neuronalen Netzes dargestellt. Dieses neuronale Netz umfaßt wiederum einen Eingang 2, der Fig. 4 lediglich schematisch als em Element dargestellt ist, aber genauso wie der Eingang 2 aus Fig. 1 aufgebaut ist. Die Zwischenschicht 3 besteht bei diesem Ausfuhrungsbeispiel aus mehreren Autoassoziatoren ^η (AA1, AA2, AA3) die jeweils em Modell für eine vorbestimmte Phrasierungsstarke darstellen. Die Autoassoziatoren 7 sind Teilnetzwerke, die zum Detektieren einer be- stimmten Phrasierungsstarke trainiert werden. Der Ausgang der Autoassoziatoren 7 ist mit einem Klass fikator 8 verbunden. Der Klassifikator 8 ist em weiteres neuronales Teilnetzwerk, das auch den anhand von Fig. 1 bereits beschriebenen Ausgang umfaßt .

Das in Fig. 4 gezeigte Ausfuhrungsbeispiel umfaßt drei Autoassoziatoren, wobei mit jedem Autoassoziator eine Destimmte Phrasierungsstarke detektiert werden kann, so daß dieses Ausfuhrungsbeispiel zur Detektion zweier unterschiedlicher Phra- sierungsstarken und dem Vorliegen keiner Phrasierungsgrenze geeignet ist.

Jeder Autoassoziator wird mit den Daten der Klasse, die er darstellt, trainiert. D.h., daß jeder Autoassoziator mit den zu der von ihm repräsentierten Phrasierungsstarke gehörenden Daten trainiert wird.

Die Autoassoziatoren bilden den m-dimensionalen Eingangsvektor x auf einen n-dimensionalen Vektor z ab, wobei n << m gilt. Der Vektor z wird auf einen Ausgangsvektor x' abgebildet. Die Abbildungen erfolgen mittels Matrizen w₂ e R^rxrτ und ₂ e R^nxr . Die gesamte den Autoassoziatoren ausgeführte Abbildung kann durch folgende Formel dargestellt werden:

wobei tanh elementweise angewendet wird.

Die Autoassoziatoren werden so trainiert, daß ihre Ausgangsvektoren x' so genau wie möglich mit den Eingangsvektoren x übereinstimmen (Fig. 5 linke Seite) . Hierdurch wird die Information des m-dimensionalen Eingangsvektors x auf den n- dimensionalen Vektor z komprimiert. Hierbei wird davon ausgegangen, daß keine Informationen verlorengehen und das Modell die Eigenschaften der Klasse erfaßt. Das Kompressionsverhalt- ms m:n der einzelnen Autoassoziatoren kann unterschiedlich sein.

An die Eingangs- und Ausgangsseite der einzelnen Autoassoziatoren werden beim Training nur die Eingangsvektoren x ange- legt, die den Zustanden entsprechen, bei denen die den jeweiligen Autoassoziatoren zugeordneten Phrasengrenzen auftreten

Beim Betrieb wird für jeden Autoassoziator e Fehler-Vektor e_rec = (x-x^')² berechnet (Fig. 5, rechte Seite). Die Quadπe- rung erfolgt hierbei elementweise . Dieser Fehler-Vektor e_rec ist em „Abstandsmaß^*, das dem Abstand des Vektors x' zum Eingangsvektor x entspricht und somit indirekt proportional zur Wahrscheinlichkeit ist, daß die dem jeweiligen Autoassoziator zugeordnete Phrasengrenze vorliegt.

Das vollständige die Autoassoziatoren und den Klassifikator umfassende neuronale Netzwerk ist schematisch in Fig. 6 dargestellt. Es zeigt Autoassoziatoren 7 für k Klassen.

Die Elemente p_^ des Ausgangsvektors p werden gemäß folgender Formel berechnet: (x-A, (x))^τ dι g( ){_x-A, (x))

wobei A₁(x)=w ¹" tanh(W!^li,x) gilt und tanh als elementweise 0- peration ausgeführt wird und diag (Wi ^{1 ]} , . . . , vι_m ^{l 1} )e R^mm eine Diagonalmatrix mit den Elementen ( i '', ...,w_r ^uι) darstellt.

Die einzelnen Elemente p_x des Ausgangsvektors p geben die Wahrscheinlichkeit an, mit welcher eine Phrasengrenze am Autoassoziator l detektiert worden ist.

Wenn die Wahrscheinlichkeit p. großer als 0,5 ist, wird dies als Vorliegen einer entsprechenden Pürasengrenze l bewertet. Ist die Wahrscheinlichkeit p_x kleiner als 0,5, so bedeutet dies, daß die Phrasengrenze l hier nicht vorliegt.

Hat der Ausgangsvektor p mehr als zwei Elemente p_{l f} so ist es zweckmäßig, den Ausgangsvektor p derart zu bewerten, daß diejenige Phrasengrenze vorliegt, deren Wahrscheinlichkeit p_λ am größten im Vergleich zu den übrigen Wahrscheinlichkeiten p_. des Ausgangsvektors p ist.

In einer Weiterbildung der Erfindung kann es zweckmäßig sein, falls eine Phrasengrenze ermittelt wird, deren Wahrscheinlichkeit p im Bereich um 0,5, z.B. im Bereich von 0,4 bis 0, 6, liegt, eine weitere Routine durchzufuhren, mit der das Vorliegen der Phrasengrenze überprüft wird. Diese weitere Routine kann auf einem regelgetriebenen als auch auf einem datengetriebenen Ansatz beruhen.

Beim Training mit einer Trammgsdatei, die entsprechende Phrasierungsmformationen umfaßt, werden m einer ersten Trainingsphase die einzelnen Autoassoziatoren 7 jeweils auf ihre vorbestimmte Phrasierungsstarke trainiert. Wie es oben angegeben ist, werden hierbei an die Eingangs- und die Ausgangsseite der einzelnen Autoassoziatoren 7 die Eingangsvektoren x angelegt, die der Phrasengrenze entsprechen, die dem _jeweiligen Autoassoziator zugeordnet ist.

In einer zweiten Trainingsphase werden die Gewichtungselemente der Autoassoziatoren 7 festgehalten und der Klassifikator 8 trainiert. An die Eingangsseite des Klassifikators 8 werden die Fehler-Vektoren e_rec der Autoassoziatoren und an der Ausgangsseite die Vektoren, die die Werte für die unterschiedlichen Phrasengrenzen enthalten, angelegt. In dieser Trainingsphase lernt der Klassifikator aus den Fehler-Vektoren die Ausgangsvektoren p zu bestimmen.

In einer dritten Trainingsphase wird eine Feineinstellung aller Gewichtungselemente des gesamten neuronalen Netzwerkes (der k Autoassoziatoren und des Klassifikators) durchgeführt.

Durch die oben beschriebene Architektur eines neuronalen Netzwerkes mit mehreren jeweils auf eine bestimmte Klasse trainierten Modellen (hier: den Autoassoziatoren) und einem übergeordneten Klassifikator ist es möglich, einen Eingangsvektor mit sehr großer Dimension auf einen Ausgangsvektor mit kiemer Dimension bzw. em Skalar zuverlässig korrekt abzubilden. Diese Netzwerkarchitektur kann auch vorteilhaft bei anderen Anwendungen eingesetzt werden, bei welchen Elemente unterschiedlicher Klassen behandelt werden müssen. So kann es z.B. zweckmäßig sein, diese Netzwerkarchitektur auch bei der Spracherkennung zum Detektieren von Wort und/oder Satzgrenzen einzusetzen. Hierfür sind die Eingangsdaten entsprechend anzupassen .

Der m Figur 6 gezeigte Klassifikator 8 weist Gewichtungsmat- rizen GW auf, die jeweils einem Autoassoziator 7 zugeordnet sind. Die dem l-ten Autoassoziator 7 zugeordnete Gewichtungs- matrix GW weist der l-ten Zeile Gewichtungsfaktoren w_r auf. Die brigen Elemente der Matrix sind gleich Null. Die Anzahl der Gewichtungsfaktoren w_n entspricht der Dimension des Eingangsvektors, wobei jeweils e Gewichtungselement w_n m Beziehung zu einer Komponente des Eingangsvektors steht. Be- sitzt e Gewichtungselement w_n einen größeren Wert als die übrigen Gewichtungselemente w_n der Matrize, so bedeutet dies, daß die korrespondierende Komponente des Eingangsvektors von großer Bedeutung für die Bestimmung der Phrasengrenze, die durch den Autoassoziator ermittelt wird, dem die entsprechen- de Gewichtungsmatrix GW zugeordnet ist.

Bei einer bevorzugten Ausfuhrungsform werden erweiterte Autoassoziatoren verwendet (Fig. 7), die eine bessere Erfassung von Nichtl earitaten erlauben. Diese erweiterten Autoassozi- atoren fuhren folgende Abbildung aus:

x'= w₂ tanh (^•) + w₃ (tanh (-))²,

wobei (^•) := (wi ^• x) gilt, und die Quadrierung ( • ) "^" und der tanh elementweise ausgeführt werden.

Bei Versuchen ist em erf dungsgemaßes neuronales Netzwerk mit einem vorbestimmten englischen Text trainiert worden. Der gleiche Text wurde zum Trainieren eines HMM-Erkenners verwen- det. Als Leistungskriterien wurden im Betrieb die Prozentzahl der korrekt erkannten Phrasengrenzen (B-corr) , der insgesamt korrekt beurteilten Worter, unabhängig davon, ob eine oder keine Phrasengrenze folgt (Gesamt) , und der nicht-korrekt erkannten Worter ohne Phrasengrenze (NB-ncorr) ermittelt. Bei diesen Versuchen wurde ein neuronales Netzwerk mit den Autoassoziatoren nach Fig. 6 und em neuronales Netzwerk mit den erweiterten Autoassoziatoren verwendet. Es wurden folgende Ergebnisse erzielt: 13

Tabelle 2

Die m der Tabelle aufgeführten Ergebnisse zeigen, daß die erf dungsgemaßen neuronalen Netzwerke bzgl. der korrekt erkannten Phrasengrenzen und der insgesamt korrekt erkannten Worter etwa gleiche Ergebnisse wie e HMM-Erkenner liefern. Jedoch sind die erfmdungsgemaßen neuronalen Netzwerke bzgl. der fehlerhaft detektierten Phrasengrenzen, an Stellen, wo es an sich keine Phrasengrenze gibt, wesentlich besser als der HMM-Erkenner. Diese Art von Fehler ist bei der Sprache-zuText-Umsetzung besonders gravierend, da diese Fehler eine dem Zuhörer sofort auffallende Fehlbetonung erzeugen.

In weiteren Versuchen wurde eines der erfmdungsgemaßen neuronalen Netzwerke mit einem Bruchteil des bei den obigen Versuchen verwendeten Trammgstextes (5%, 10%, 30%, 50%) trainiert. Hierbei wurden folgende Ergebnisse erzielt:

Tabelle 3

Mit Bruchteilen von 30% und 50- des Trammgstextes wurden ausgezeichnete Erkennungsraten erzielt. Mit einem Bruchteil von 10% und 5% des ursprunglichen Trammgstextes sind zufriedenstellende Erkennungsraten erzielt worden. Dies zeigt, daß die erf dungsgemaßen neuronalen Netzwerke auch bei geringem Tram gsumfang gute Erkennungsraten liefern. Dies stellt einen wesentlichen Fortschritt gegenüber bekannten

Phrasengrenzen-Erkennungsmethoden dar, da das Aufbereiten von Trainmgsmatenal kostenintensiv ist, da hier Expertenwissen eingesetzt werden muß.

Das oben beschriebene Ausfuhrungsbeispiel weist k Autoassoziatoren auf. Für eine präzise Bewertung der Phrasengrenzen kann es zwec maßιg sein, eine große Anzahl Autoassoziatoren zu verwenden, wobei bis zu 20 Autoassoziatoren zweckmäßig sein können. Hierdurch wird eine quasi kontinuierlicher Ver- lauf der Ausgabewerte erzielt.

Die oben beschriebenen neuronalen Netzwerke sind als Computerprogramme realisiert, die selbständig auf einem Computer zum Umsetzen der linguistischen Kategorie eines Textes m dessen prosodischer Marker ablaufen. Sie stellen somit ein automatisch ausfuhrbares Verfahren dar.

Das Computerprogramm kann auch auf einen elektronisch lesbaren Datenträger gespeichert werden und so auf em anderes Computersystem übertragen werden.

E zur Anwendung des erfmdungsgemaßen Verfahrens geeignetes Computersystem ist m Fig. 8 gezeigt. Das Computersystem 9 weist einen internen Bus 10 auf, der mit einem Speicherbe- reich 11, einer zentralen Prozessoreinheit 12 und einem Interface 13 verbunden ist. Das Interface 13 stellt über eine Datenleitung 14 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus sind ferner eine akustische Ausgabeeinheit 15, eine grafische Ausgabeeinheit 16 und eine Emgabeemheit 17 angeschlossen. Die akustische Ausgabeeinheit 15 ist mit einem Lautsprecher 18, die grafische Ausgabeeinheit 16 mit einem Bildschirm 19 und die Emgabeemheit 17 mit einer Tastatur 20 verbunden. An das Computersystem 9 können über die Datenleitung 14 und das Interface 13 Text übertragen werden, die im Speicherbereich 11 abgespeichert werden. Der Speicherbereich 11 ist m mehrere Bereiche unter- teilt, m denen Texte, Audiodateien, Anwendungsprogramme zum Durchfuhren des erfmdungsgemaßen Verfahrens und weitere An- wendungs- und Hilfsprogramme gespeichert sind. Die als Textdatei abgespeicherten Texte werden mit vorbestimmten Programmpaketen analysiert und die jeweiligen linguistischen Kategorien der Worter ermittelt. Danach werden mit dem erfm- dungsgemaßen Verfahren aus den linguistischen Kategorien die prosodischen Marker ermittelt. Diese prosodischen Marker werden wiederum m em weiteres Programmpaket eingegeben, das die prosodischen Marker zur Erzeugung von Audiodateien ver- wendet, die über den internen Bus 10 zur akustischen Ausgabeeinheit 15 übertragen und von dieser am Lautsprecher 18 als Sprache ausgegeben werden.

In den hier dargestellten Beispielen ist nur eine Anwendung des Verfahrens auf die Vorhersage von Phrasengrenzen beschrieben worden. Das Verfahren kann bei ahnlichem Aufbau einer Vorrichtung und einem angepaßten Training aber auch zur Auswertung eines unbekannten Textes hinsichtlich einer Vorhersage von Betonungen, z.B. gemäß den international standar- disierten ToBI-Labeln (tones and breaks indices) , und/oder der Satzmelodie genutzt werden. Diese Anpassungen haben m Abhängigkeit von der jeweiligen Sprache des zu verarbeitenden Textes zu erfolgen, da die Prosodie stets sprachspezifisch

Claims

Patentansprüche

1. Verfahren zum Bestimmen prosodischer Markierungen, d a d u r c h g e k e n n z e i c h n e t, daß auf der Basis linguistischer Kategorien prosodische Markierungen durch em neuronales Netzwerk (1) bestimmt werden.

2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß als prosodische Markierungen Phrasengrenzen bestimmt und vorzugsweise auch ausgewertet und/oder bewertet werden.

3. Verfahren nach Anspruch 1 und/oder Anspruch 2, d a d u r c h g e k e n n z e i c h n e t, daß am Eingang (2) des Netzwerkes (1) die linguistischen Kategorien von zumindest drei Wortern eines zu synthetisierenden Textes angelegt werden.

4. Verfahren nach einem der vorgehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß es die Schritte

- Erfassen der Eigenschaften jeder prosodischen Markierung durcn neuronale Autoassoziatoren (7), die auf jeweils eine bestimmte prosodische Markierung trainiert sind, und

- Auswerten der von jedem der Autoassoziatoren (7) ausgegebenen Ausgangsinformationen einem neuronalen Klassifika- tor (8) umfaßt .

5. Verfahren nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t, daß die Autoassoziatoren (1) für eine jeweilige vorioe- stimmte Phrasengrenze trainiert sind.

6. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß das Training des neuronalen Klassifikators (8) nacn dem Training aller Autoassoziatoren (7) erfolgt.

7. Neuronales Netzwerk zum Bestimmen prosodischer Markierungen mit einem Eingang (2), einer Zwischenschicht (3) und einem Ausgang (4), wobei der Eingang zum Erfassen von linguistischen Kategorien von Wortern eines zu analysierenden Textes ausgebildet ist.

8. Neuronales Netzwerk nach Anspruch 7, d a d u r c h g e k e n n z e i c h n e t, daß die Zwischenschicht (3) zumindest zwei Autoassoziatoren (7) aufweist.

9. Neuronales Netzwerk nach Anspruch 7 oder 8, d a d u r c h g e k e n n z e i c h n e t, daß der Eingang (2) Eingangsgruppen (5) aufweist, welche mehrere Neuronen (6) besitzen, die jeweils einer lmguisti- sehen Kategorie zugeordnet sind, und jede Eingangsgruppe zum Erfassen der linguistischen Kategorie eines Wortes des zu a- nalysierenden Textes dient.

10. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, d a d u r c h g e k e n n z e i c h n e t, daß das Netzwerk zum Ausgeben einer binaren, tertiären o- der quataren Phrasierungsstufe ausgebildet ist.

11. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, d a d u r c h g e k e n n z e i c h n e t, daß das Netzwerk zum Ausgeben eines quasi- kontmuierlichen Phrasierungsbereichs ausgebildet ist.

12. Verfahren nach einem der Ansprüche 1 bis 6, g e k e n n z e i c h n e t d u r c h, die Verwendung eines Neuronalen Netzwerkes nach einem αer Ansprüche 7 bis 11.

13. Vorrichtung zum Bestimmen prosodischer Markierungen mit einem Computersystem (9), das einen Speicherbereich (11) aufweist, dem em Programm zum Ausfuhren eines Neuronalen Netzwerkes nach einem der Ansprüche 7 bis 11 gespeichert ist.