EP1273003A1 - Verfahren und vorrichtung zum bestimmen prosodischer markierungen - Google Patents

Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Info

Publication number
EP1273003A1
EP1273003A1 EP01940136A EP01940136A EP1273003A1 EP 1273003 A1 EP1273003 A1 EP 1273003A1 EP 01940136 A EP01940136 A EP 01940136A EP 01940136 A EP01940136 A EP 01940136A EP 1273003 A1 EP1273003 A1 EP 1273003A1
Authority
EP
European Patent Office
Prior art keywords
neural network
prosodic
autoassociators
input
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP01940136A
Other languages
English (en)
French (fr)
Other versions
EP1273003B1 (de
Inventor
Martin Holzapfel
Achim Müller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1273003A1 publication Critical patent/EP1273003A1/de
Application granted granted Critical
Publication of EP1273003B1 publication Critical patent/EP1273003B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to a method for determining prosodic markings and an apparatus for implementing the method.
  • prosodic parameters For speech synthesis systems, an essential step is the preparation and structuring of the text for the subsequent generation of the prosody , A two-step approach is used to generate prosodic parameters for speech synthesis systems. In the first stage, prosodic markers or prosodic markings are generated, which are then converted into physical parameters in the second stage.
  • phrase boundaries and pitch accents can serve as prosodic markings.
  • Phrases are understood to mean groups of words that are generally spoken together within a text, that is, without any interruptions in speech. There are pauses in speech only at the respective ends of the phrases, the phrase boundaries. By inserting such pauses at the phrase boundaries of the synthesized language, their intelligibility and naturalness are significantly increased.
  • stage 1 of such a two-stage approach both the stable prediction or determination of phrase boundaries and that of accents pose problems.
  • prosodic markings are determined by a neural network on the basis of linguistic categories.
  • linguistic categories Depending on the respective language of a text, subdivisions of the words m different linguistic categories are known. In the German language, for example, 14 categories are provided for this invention, for the English language, for example, 23 categories. Knowing these categories, a neural network is trained so that it can recognize structures and thus on the basis of groups of, for example, 3 a prosodic marker predicts or determines up to 15 consecutive words.
  • a two-stage approach is chosen for a method according to the invention, which comprises the detection of the properties of each prosodic marker by neural autoassociators and the evaluation of the detailed output information output by each of the autoassociators, known as a so-called error vector is included in a neural classifier.
  • neural networks makes it possible to precisely predict phrase boundaries when generating prosodic parameters for speech synthesis systems.
  • the neural network according to the invention is robust against "little” or a small amount of training material (English: sparse traimng material).
  • neural networks allow time-saving and cost-saving training methods and a flexible application of a method according to the invention and a corresponding device in any language. Little additional information and little expert knowledge is required to initialize such a system in a particular language.
  • the neural network according to the invention is therefore well suited to synthesize texts from several languages using a multilmgual TTS system. Since the neural networks according to the invention can be trained without expert knowledge, they can be initialized more cost-effectively than known methods for determining phrase boundaries.
  • the two-stage structure comprises a plurality of autoassociators, each of which is trained on a phrasing level for all linguistic classes to be evaluated.
  • the. So formed fish parts of the neural network twistednspezi ⁇ .
  • the tramings material is generally statistically asymmetrical, ie there are many words without phrase boundaries, but only a few with phrase boundaries. In contrast to the state of the art
  • FIG. 1 schematically shows a neural network according to the invention
  • FIG. 3 shows an example of an output with ternary evaluation of the phrasing using a text example
  • FIG. 5 schematically shows an autoassociator during training (left) and during operation (right);
  • FIG. 6 schematically shows a block diagram of the neural network according to FIG. 4 with the mathematical relationships
  • FIG. 7 schematically shows an extended autoassociator
  • 8 shows a computer system for executing the method according to the invention in a block diagram.
  • 1 is a erf dungsgessenes neurona ⁇ les network unit 1 is shown with an input 2, an intermediate layer 3 and an output 4 for determining prosodic markers schematically.
  • the input 2 is constructed from nine input groups 5 for carrying out a v part-of-speech '(POS) sequence examination.
  • Each of the input group 5 comprises m adaptation to the German language 14 neurons 6, which are not all shown in FIG. 1 for reasons of clarity. So there is one neuron 6 for each of the linguistic categories.
  • the linguistic categories are divided, for example, as follows:
  • the output 4 is formed by a neuron with a continuous course, which means that the output values are all Values of a certain number range, which includes, for example, all real numbers between 0 and 1, can assume.
  • nine input groups 5 are provided for entering the categories of the individual words.
  • the category of the word from which it is to be determined whether there is a phase boundary or no phase boundary at the end of the word is applied to the middle input group 5a.
  • the categories of the forerunners of the word to be examined are applied to the four input groups 5b on the left side of the input group 5a and the successors of the word to be examined are arranged on the input groups 5c arranged on the right side.
  • Forerunners are all words that are arranged in the context immediately before the word to be examined.
  • Successors are all words that are arranged in the context immediately following the word to be examined. In this way, with the inventive neural network 1 according to FIG. 1, a context of max. evaluated nine words.
  • the category of the word to be examined is applied to the input group 5a, that is to say that the value +1 is applied to the neuron 6, which corresponds to the category of the word, and the value -1 to the other neurons 6 of the input group 5a becomes.
  • the categories of the four words preceding or following the word to be examined are correspondingly applied to the input groups 5b and 5c. If there are no corresponding forerunners or successors, e.g. at the beginning and at the end of a text, the value 0 is applied to the neurons 6 of the corresponding input groups 5b, 5c.
  • Another input group 5d is provided for entering the previous phrase boundaries.
  • the last nine phrase limits can be entered at this input group 5d.
  • An appropriate subdivision of the linguistic categories of the English language comprises 23 categories, so that the dimension of the entrance space is 216.
  • the input data form an input vector x with the dimension m.
  • the neural network according to the invention is trained with a training file which comprises a text and the information on the phrase boundaries of the text. These phrase boundaries can contain purely binary values, that is to say only information as to whether there is a phrase boundary or whether there is no phrase boundary. If the neural network is trained with such a training file, the output is on
  • Output 4 binary.
  • the output 4 generates continuous output values per se, which, however, are assigned to discrete values by means of a threshold value decision.
  • FIG. 2 shows an example sentence which has a phrase limit behind the terms “word * and“ phrase limit *. There is no phrase limit after the other words in this example sentence.
  • the output contains not only binary values, but also multi-level values, that is to say that information about the strength of the phrase limit is taken into account.
  • the neural network is to be trained with a training file which comprises multi-level information on the phrase boundaries.
  • the gradation can comprise any number of stages from two stages per se, so that a quasi-continuous output can be achieved.
  • FIG. 3 shows an example sentence with a three-stage evaluation with the initial values 0 for no phrase limit, 1 for a primary phrase limit and 2 for a secondary phrase limit. border shown. There is a secondary phrase limit after the term "secondary *" and a primary phrase limit after the terms "phrase limit * and" required *.
  • the neural network 4 shows a preferred embodiment of the neural network according to the invention.
  • This neural network in turn comprises an input 2, which is shown only schematically as an element in FIG. 4, but is constructed in exactly the same way as input 2 from FIG. 1.
  • the intermediate layer 3 consists of a plurality of autoassociators ⁇ (AA1, AA2, AA3) which each represent a model for a predetermined phrasing level.
  • the autoassociators 7 are subnetworks that are trained to detect a specific phrasing level.
  • the output of the autoassociators 7 is connected to a classifier 8.
  • the classifier 8 is a further neural subnetwork, which also includes the output already described with reference to FIG. 1.
  • the exemplary embodiment shown in FIG. 4 comprises three autoassociators, with each autoassociator being able to detect a determined phrasing strength, so that this exemplary embodiment is suitable for the detection of two different phrasing strengths and the absence of a phrasing limit.
  • Each autoassociator is trained with the data of the class it represents. This means that each autoassociator is trained with the data belonging to the phrasing strength it represents.
  • the autoassociators map the m-dimensional input vector x to an n-dimensional vector z, where n ⁇ m applies.
  • the vector z is mapped to an output vector x '.
  • the images are made using matrices w 2 e R rxr ⁇ and 2 e R nxr .
  • the entire mapping made to the autoassociators can be represented by the following formula:
  • the autoassociators are trained in such a way that their output vectors x 'correspond as exactly as possible with the input vectors x (FIG. 5, left side). As a result, the information of the m-dimensional input vector x is compressed to the n-dimensional vector z. It is assumed that no information is lost and the model captures the properties of the class.
  • the compression behavior ms m: n of the individual autoassociators can be different.
  • This error vector e rec is an “distance measure * , which corresponds to the distance of the vector x 'from the input vector x and is therefore indirectly proportional to the probability that the phrase limit assigned to the respective autoassociator is present.
  • the complete neural network comprising the autoassociators and the classifier is shown schematically in FIG. 6. It shows autoassociators 7 for k classes.
  • the elements p ⁇ of the output vector p are calculated according to the following formula: (xA, (x)) ⁇ d ⁇ g () ⁇ x -A, (x))
  • a 1 (x) w 1 "tanh (W! li, x) and tanh is performed as element-wise operation and diag (Wi 1] ,..., v ⁇ m l 1 ) e R mm is a diagonal matrix with the elements (i '', ..., w r u ⁇ ).
  • the individual elements p x of the output vector p indicate the probability with which a phrase boundary was detected on the autoassociator l.
  • the output vector p has more than two elements p lf , it is expedient to evaluate the output vector p in such a way that the phrase boundary is present whose probability p ⁇ is greatest in comparison to the other probabilities p . of the output vector is p.
  • a phrase limit is determined, the probability p of which is in the range around 0.5, e.g. is in the range from 0.4 to 0.6, to carry out a further routine with which the presence of the phrase limit is checked.
  • This further routine can be based on a rule-driven as well as a data-driven approach.
  • the individual autoassociators 7 When training with a tramming file that includes appropriate phrasing information, the individual autoassociators 7 are opened in a first training phase trains their predetermined phrasing strength. As indicated above, the individual autoassociators 7 are applied, the input vectors x in this case at the input and output side corresponding to the phrase boundary, which is assigned to the j eching autoassociator.
  • a second training phase the weighting elements of the autoassociators 7 are recorded and the classifier 8 is trained.
  • the error vectors e rec of the autoassociators are applied to the input side of the classifier 8 and the vectors containing the values for the different phrase boundaries are applied to the output side.
  • the classifier learns to determine the starting vectors p from the error vectors.
  • the architecture of a neural network described above with several models each trained for a specific class (here: the autoassociators) and a higher-level classifier, makes it possible to reliably map an input vector with a very large dimension to an output vector with a smaller dimension or scalar .
  • This network architecture can also be used advantageously in other applications in which elements of different classes have to be treated. For example, be expedient to also use this network architecture in speech recognition to detect words and / or sentence boundaries. The input data must be adjusted accordingly.
  • the classifier 8 shown in FIG. 6 has weighting matrices GW, each of which is assigned to an autoassociator 7.
  • the weighting matrix GW assigned to the lth autoassociator 7 has weighting factors w r in the lth line on. The remaining elements of the matrix are zero.
  • the number of weighting factors w n corresponds to the dimension of the input vector, with each weighting element w n m being related to a component of the input vector. If a weighting element w n has a larger value than the other weighting elements w n of the matrix, this means that the corresponding component of the input vector is of great importance for determining the phrase limit, which is determined by the autoassociator to which the corresponding one Weighting matrix GW is assigned.
  • extended autoassociators are used (FIG. 7), which allow better detection of non-earthing.
  • extended auto associates do the following:
  • a neural network according to the invention has been trained with a predetermined English text. The same text was used to train an HMM recognizer.
  • the performance criteria in the company were the percentage of correctly recognized phrase boundaries (B-corr), the overall correctly assessed words, regardless of whether one or no phrase boundary follows (total), and the incorrectly recognized words without phrase boundary (NB-ncorr) determined.
  • B-corr percentage of correctly recognized phrase boundaries
  • NB-ncorr incorrectly recognized words without phrase boundary
  • results shown in the table show that the neural networks according to the invention provide approximately the same results as e HMM recognizers with regard to the correctly recognized phrase boundaries and the overall correctly recognized words.
  • the neural networks according to the invention are significantly better than the HMM recognizer with regard to the incorrectly detected phrase boundaries, in places where there is no phrase boundary per se. This type of error is particularly serious in the speech-to-text conversion, since these errors produce an incorrect emphasis that is immediately apparent to the listener.
  • one of the neural networks according to the invention was trained with a fraction of the basic text used in the above experiments (5%, 10%, 30%, 50%). The following results were achieved:
  • the exemplary embodiment described above has k autoassociators.
  • the neural networks described above are implemented as computer programs that run independently on a computer to implement the linguistic category of a text in its prosodic marker. They are therefore an automatically executable procedure.
  • the computer program can also be stored on an electronically readable data carrier and can thus be transferred to another computer system.
  • FIG. 8 A computer system suitable for using the method according to the invention is shown in FIG. 8.
  • the computer system 9 has an internal bus 10 which is connected to a memory area 11, a central processor unit 12 and an interface 13.
  • the interface 13 establishes a data connection to further computer systems via a data line 14.
  • An acoustic output unit 15, a graphic output unit 16 and an output unit 17 are also connected to the internal bus.
  • the acoustic output unit 15 is equipped with a loudspeaker 18, the graphic output unit 16 with a screen 19 and the emitting unit 17 connected to a keyboard 20. Text that is stored in the memory area 11 can be transmitted to the computer system 9 via the data line 14 and the interface 13.
  • the memory area 11 is subdivided into a plurality of areas in which texts, audio files, application programs for carrying out the method according to the invention and further application and auxiliary programs are stored.
  • the texts saved as a text file are analyzed with predetermined program packages and the respective linguistic categories of the words are determined.
  • the prosodic markers are then determined from the linguistic categories using the method according to the invention. These prosodic markers are in turn entered in a further program package which uses the prosodic markers to generate audio files, which are transmitted via the internal bus 10 to the acoustic output unit 15 and are output by the latter at the loudspeaker 18 as speech.
  • the method can also be used to evaluate an unknown text with regard to a prediction of stresses, e.g. according to the internationally standardized ToBI labels (tones and breaks indices), and / or the melody. These adjustments have to be made depending on the respective language of the text to be processed, since the prosody is always language-specific

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zum Umsetzung des Verfahrens. Zur Schaffung eines im Vergleich zu Verfahren nach dem Stand der Technik robusteren Verhaltens bei der Bestimmung prosodischer Markierungen auf der Basis linguistischer Kategorien wird ein neuronales Netzwerk verwendet.

Description

Beschreibung
Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
Die vorliegende Erfindung betrifft ein Verfahren zum Bestimmen prosodischer Markierungen und eine Vorrichtung zur Umsetzung des Verfahrens.
Bei der Aufbereitung von unbekanntem Text für die Sprachsynthese m einem TTS-System, ( λtext to speech' -Systemen) bzw. Text/Sprache-Umsetzungssystemen, ist ein wesentlicher Schritt die Aufßereitung und Strukturierung des Textes fαr die nacr- folgenαe Generierung der Prosodie. Um prosodische Parameter für Sprachsynthesesysteme zu erzeugen, wird ein zweistufiger Ansatz verfolgt. Dabei werden m der ersten Stufe zunächst prosodische Marker bzw. prosodische Markierungen erzeugt, die dann m der zweiten Stufe in physikalische Parameter umgesetzt werden.
Als prosodische Markierungen können insbesondere Phrasengrenzen und Wortakzente (pitch-accent ) dienen. Unter Phrasen werden Gruppierungen von Wortern verstanden, αie innerhalb eines Textes m der Regel zusammen gesprochen werden, also ohne αa- zwischen eingeschoben liegende Sprechpausen. Sprechpausen liegen erst an den jeweiligen Enden der Phrasen, den Pnrasen- grenzen, an. Durch das Einlegen derartiger Pausen an den Phrasengrenzen der synthetisierten Sprache wird deren Verständlichkeit und Natürlichkeit wesentlich gesteigert.
In der Stufe 1 eines derartigen zweistufigen Ansatzes bereiten sowohl die stabile Vorhersage bzw. Bestimmung von Phrasengrenzen als auch die von Akzenten Probleme.
In einer Veröffentlichung ist unter dem Titel „A hierarchical stochastic model for automatic prediction of prosodic oounda- ry location* von M. Ostenαorf und N. Veilleux m Computatio- nal Lmguistics, 1994, ein Verfahren veröffentlicht worden, m dem zur Bestimmung von Phrasengrenzen „Classification and Regression Trees" (CART) verwendet werden. Die Initialisierung eines solchen Verfahrens erfordert ein hohes Maß an Ex- pertenwissen . Der Aufwand steigt bei diesem Verfahren mit der angestrebten Genauigkeit uberproportional .
Auf der Konferenz Eurospeech 1997 ist unter dem Titel „As- signmg phase breaks from part-of-speech sequences' von Alan W. Black und Paul Taylor ein Verfahren veröffentlicht worden, m dem die Phrasengrenzen mit einem "Hidden-Markov-Modell" (HMM) bestimmt werden. Zur Erzielung einer guten Vorhersage- Genauigkeit für eine Phrasengrenze ist ein Trainingstext mit beträchtlichem Umfang notwendig. Die Erstellung dieser Trai- ningstexte ist teuer, da hierzu Expertenwissen notwendig ist.
Demnach ist es d_e Aufgabe der vorliegenden Erfindung, ein Verfahren zur Aufbereitung und Strukturierung eines unbekannten gesprochenen Texts zu schaffen, das mit einem kleineren Trainingstext trainiert werden kann und etwa ähnliche Erkennungsraten wie bekannte Verfahren erzielt, die mit größeren Texten trainiert werden.
Diese Aufgabe wird durch ein Verfahren gemäß dem kennzeich- nenden Teil des Patentanspruchs 1 gelost.
Demnach werden m einem erfmdungsgemaßen Verfahren prosodische Markierungen durch ein neuronales Netzwerk auf der Basis linguistischer Kategorien bestimmt. In Abhängigkeit von der jeweiligen Sprache eines Textes sind Unterteilungen der Worter m verschiedene linguistische Kategorien bekannt. Bei der deutscnen Sprache werden im Rahmen dieser Erfindung beispielsweise 14 Kategorien, für die englische Sprache z.B. 23 Kategorien vorgesehen. Unter Kenntnis dieser Kategorien wird ein neuronales Netzwerk so trainiert, daß es Strukturen erkennen kann und so auf der Basis von Gruppierungen von z.B. 3 bis 15 aufeinander folgenden Wortern eine prosodische Markierung vorhersagt bzw. bestimmt.
In einer sehr vorteilhaften Weiterbildung der Erfindung wird für ein erfmdungsgemaßes Verfahren ein zweistufiger Ansatz gewählt, der das Erfassen der Eigenschaften jeder prosodi- schen Markierung durch neuronale Autoassoziatoren und das Auswerten der von jedem der Autoassoziatoren ausgegebenen detaillierten Ausgangsinformationen, die als sogenannter Feh- ler-Vektor vorliegt, in einem neuronalen Klassifikator beinhaltet.
Durch die erfmdungsgemaße Anwendung von neuronalen Netzen wird ermöglicht, bei der Erzeugung prosodischer Parameter für Sprachsynthesesysteme Phrasengrenzen genau vorherzusagen.
Das erfmdungsgemaße neuronale Netz ist robust gegenüber "wenigem" bzw. einem geringen Umfang von Trainingsmaterial (engl.: sparse traimng mateπal).
Die Verwendung neuronaler Netzwerke gestattet zeit- und Kostensparende Trainingsverfahren und eine flexible Anwendung eines erfmdungsgemaßen Verfahrens und eine entsprechenαe Vorrichtung auf beliebige Sprachen. Es ist wenig zusätzlich aufbereitete Information und wenig Expertenwissen zum Initialisieren eines solchen Systems einer bestimmten Sprache erforderlich. Das erfmdungsgemaße neuronale Netzwerk ist deshalb gut geeignet, um mit einem multilmgualen TTS-System Texte aus mehreren Sprachen zu synthetisieren. Da die erfin- dungsgemaßen neuronalen Netzwerke ohne Expertenwissen trainiert werden können, können sie kostengünstiger als bekannte Verfahren zum Bestimmen von Phrasengrenzen initialisiert werden .
In einer Weiterbildung umfaßt die zweistufige Struktur mehrere Autoassoziatoren, die jeweils auf eine Phrasierungsstarke für alle auszuwertenden linguistischen Klassen trainiert wer- den. So sind Teile des neuronalen Netzwerkes klassenspezi¬ fisch ausgebildet. Das Tramingsmateπal ist m der Regel statistisch asymmetrisch ausgebildet ,d.h., daß viele Worter ohne Phrasengrenzen, aber nur wenige mit Phrasengrenzen vor- handen sind. Im Gegensatz zu Verfahren nach dem Stand der
Technik wird eine Dominanz innerhalb eines neuronalen Netzes dadurch vermieden, daß ein klassenspezifisches Training der jeweiligen Autoassoziatoren durchgeführt wird.
Vorteilhafte Weiterbildungen eines erfmdungsgemaßen Verfahrens sind der Gegenstand von Unteranspruchen .
Das vorliegende Verfahren wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen naher erläutert.
In den Zeichnungen zeigt:
Fig. 1 schematisch ein neuronales Netzwerkwerk gemäß der Erfindung;
Fig. 2 eine Ausgabe bei einfacher Phrasierung anhand eines Beispieltexts ;
Fig. 3 ein Beispiel für eine Ausgabe mit ternarer Bewer- tung der Phrasierung anhand eines Textbeispiels ;
Fig. 4 schematisch eine bevorzugte Ausfuhrungsform eines neuronalen Netzwerkes;
Fig. 5 schematisch einen Autoassoziator wahrend des Trainings (links) und wahrend des Betriebs (rechts) ;
Fig. 6 schematisch ein Blockschaltbild des neuronalen Netzwerkes nacn Fig. 4 mit den mathematischen Zusammenhangen; und
Fig. 7 schematisch einen erweiterten Autoassoziator, und Fig. 8 ein Computersystem zum Ausfuhren des erfmdungs- gemaßen Verfahrens m einem Blockschaltbild.
In der Figur 1 ist schematisch ein erf dungsgemaßes neurona¬ les Netzwerkwerk 1 mit einem Eingang 2, einer Zwischenschicht 3 und einem Ausgang 4 zum Bestimmen prosodischer Markierungen dargestellt. Der Eingang 2 ist aus neun Eingangsgruppen 5 zur Durchfuhrung einer vpart-of-speech' - (POS-) Sequenz Untersu- chung aufgebaut. Jede der Eingangsgruppe 5 umfaßt m Anpassung an die deutsche Sprache 14 Neuronen 6, die aus Gründen der Übersichtlichkeit nicht alle in Fig. 1 dargestellt sind. Es ist also je e Neuron 6 für eine der linguistischen Kategorie vorhanden. Die linguistischen Kategorien sind bei- spielsweise folgendermaßen unterteilt:
Kategorie Beschreibung
NUM Numerale
VERB Verben
VPART Verbpartikel
PRON Pronomen
PREP Präpositionen
NOMEN Nomen, Eigennamen
PART Partikel
DET Artikel
CONJ Konjunktionen
ADV Adverben
ADJ Adjektive
PDET PREP+DET
INTJ Inter ektionen
PUNCT Satzzeichen
Tabelle 1: linguistische Kategorieren
Der Ausgang 4 ist durch em Neuron mit einem kontinuierlichen Verlauf ausgebildet, das beαeutet, daß die Ausgangswerte alle Werte eines bestimmten Zahlenbereiches, der z.B. alle reellen Zahlen zwischen 0 und 1 umfaßt, annehmen können.
Bei dem Fig. 1 gezeigten Ausfuhrungsbeispiel sinα neun Eingangsgruppen 5 zum Eingeben der Kategorien der einzelnen Worter vorgesehen. An die mittlere Eingangsgruppe 5a wird die Kategorie des Wortes angelegt, von dem bestimmt werden soll, ob am Ende des Wortes eine Phasengrenze vorliegt oder keine Phasengrenze vorliegt. An die vier Eingangsgruppen 5b auf der linken Seite der Eingangsgruppe 5a werden die Kategorien von den Vorlaufern des zu untersuchenden Wortes und an die auf der rechten Seite angeordneten Eingangsgruppen 5c die Nachfolger des zu untersuchenden Wortes angelegt. Vorlaufer sind alle Worter, die im Kontext unmittelbar vor dem zu untersu- chenden Wort angeordnet sind. Nachfolger sind alle Worter, die im Kontext unmittelbar nachfolgend auf das zu untersuchende Wort angeordnet sind. Hierdurch wird mit dem erfin- dungsgemaßen neuronalen Netzwerk 1 nach Fig. 1 em Kontext von max . neun Wortern ausgewertet.
Bei der Auswertung wird die Kategorie des zu untersuchenden Wortes an die Eingangsgruppe 5a angelegt, das heißt, daß an das Neuron 6, das der Kategorie des Wortes entspricht, der Wert +1 und an die übrigen Neuronen 6 der Eingangsgruppe 5a der Wert -1 angelegt wird. In entsprechender Weise werden die Kategorien der vier zu dem zu untersuchenden Wort vorhergehenden bzw. nachfolgenden Worter an die Eingangsgruppen 5b, bzw. 5c angelegt. Sollten keine entsprechenden Vorlaufer bzw. Nachfolger vorhanden sein, wie es z.B. am Anfang und am Ende eines Textes der Fall ist, werden an die Neuronen 6 der entsprechenden Eingangsgruppen 5b, 5c der Wert 0 angelegt.
Eine weitere Eingangsgruppe 5d ist zum Eingeben der vorhergegangen Phrasengrenzen vorgesehen. An dieser Eingangsgruppe 5d können die letzten neun Phrasengrenzen eingegeben werden. Für die deutsche Sprache - mit 14 linguistischen Kategorien - weist der Eingangsraum eine beachtliche Dimension m von 135 (m = 9 * 14 + 9) auf. Eine zweckmäßige Unterteilung der linguistischen Kategorien der englischen Sprache umfaßt 23 Kate- gorien, so daß die Dimension des Eingangsraumes 216 betragt. Die Eingangsdaten bilden einen Eingangsvektor x mit der Dimension m.
Das erfmdungsgemaße neuronale Netzwerk wird mit einer Trai- nmgsdatei trainiert, die einen Text und die Informationen zu den Phrasengrenzen des Textes umfaßt. Diese Phrasengrenzen können rein binare Werte enthalten, das heißt, lediglich Informationen, ob eine Phrasengrenze vorliegt oder ob keine Phrasengrenze vorliegt. Wird das neuronale Netzwerk mit einer derartigen Trainingsdatei trainiert, so ist die Ausgabe am
Ausgang 4 binar. Der Ausgangs 4 erzeugt an sich kontinuierliche Ausgangswerte, die jedoch mittels einer Schwellwertent- scheidung diskreten Werten zugeordnet werden.
In Fig. 2 ist em Beispielssatz dargestellt, der hinter den Begriffen „Wort* und „Phrasengrenze* jeweils eine Phrasengrenze aufweist. Hinter den anderen Wortern dieses Beispielsatzes gibt es keine Phrasengrenze.
Für bestimmte Anwendungen ist es vorteilhaft, wenn die Ausgabe nicht nur binare Werte, sondern mehrstufige Werte enthalt, das heißt, daß Informationen über die Starke der Phrasengrenze berücksichtigt werden. Hierzu ist das neuronale Netzwerk mit einer Trainingsdatei zu trainieren, die mehrstufige In- formationen zu den Phrasengrenzen umfaßt. Die Abstufung kann von zwei Stufen bis an sich beliebig viele Stufen umfassen, so daß eine quasi kontinuierliche Ausgabe erzielt werden kann .
In Fig. 3 ist em Beispielsatz mit einer dreistufigen Auswertung mit den Ausgangswerten 0 für keine Phrasengrenze, 1 für eine primäre Phrasengrenze und 2 für eine sekundäre Phrasen- grenze dargestellt. Nach dem Begriff „sekundären* befindet sich eine sekundäre Phrasengrenze und nach den Begriffen „Phrasengrenze* und „erforderlich* eine primäre Phrasengrenze .
In Fig. 4 ist eine bevorzugte Ausfuhrungs form des erfmdungsgemaßen neuronalen Netzes dargestellt. Dieses neuronale Netz umfaßt wiederum einen Eingang 2, der Fig. 4 lediglich schematisch als em Element dargestellt ist, aber genauso wie der Eingang 2 aus Fig. 1 aufgebaut ist. Die Zwischenschicht 3 besteht bei diesem Ausfuhrungsbeispiel aus mehreren Autoassoziatoren η (AA1, AA2, AA3) die jeweils em Modell für eine vorbestimmte Phrasierungsstarke darstellen. Die Autoassoziatoren 7 sind Teilnetzwerke, die zum Detektieren einer be- stimmten Phrasierungsstarke trainiert werden. Der Ausgang der Autoassoziatoren 7 ist mit einem Klass fikator 8 verbunden. Der Klassifikator 8 ist em weiteres neuronales Teilnetzwerk, das auch den anhand von Fig. 1 bereits beschriebenen Ausgang umfaßt .
Das in Fig. 4 gezeigte Ausfuhrungsbeispiel umfaßt drei Autoassoziatoren, wobei mit jedem Autoassoziator eine Destimmte Phrasierungsstarke detektiert werden kann, so daß dieses Ausfuhrungsbeispiel zur Detektion zweier unterschiedlicher Phra- sierungsstarken und dem Vorliegen keiner Phrasierungsgrenze geeignet ist.
Jeder Autoassoziator wird mit den Daten der Klasse, die er darstellt, trainiert. D.h., daß jeder Autoassoziator mit den zu der von ihm repräsentierten Phrasierungsstarke gehörenden Daten trainiert wird.
Die Autoassoziatoren bilden den m-dimensionalen Eingangsvektor x auf einen n-dimensionalen Vektor z ab, wobei n << m gilt. Der Vektor z wird auf einen Ausgangsvektor x' abgebildet. Die Abbildungen erfolgen mittels Matrizen w2 e Rrxrτ und 2 e Rnxr . Die gesamte den Autoassoziatoren ausgeführte Abbildung kann durch folgende Formel dargestellt werden:
wobei tanh elementweise angewendet wird.
Die Autoassoziatoren werden so trainiert, daß ihre Ausgangsvektoren x' so genau wie möglich mit den Eingangsvektoren x übereinstimmen (Fig. 5 linke Seite) . Hierdurch wird die Information des m-dimensionalen Eingangsvektors x auf den n- dimensionalen Vektor z komprimiert. Hierbei wird davon ausgegangen, daß keine Informationen verlorengehen und das Modell die Eigenschaften der Klasse erfaßt. Das Kompressionsverhalt- ms m:n der einzelnen Autoassoziatoren kann unterschiedlich sein.
An die Eingangs- und Ausgangsseite der einzelnen Autoassoziatoren werden beim Training nur die Eingangsvektoren x ange- legt, die den Zustanden entsprechen, bei denen die den jeweiligen Autoassoziatoren zugeordneten Phrasengrenzen auftreten
Beim Betrieb wird für jeden Autoassoziator e Fehler-Vektor erec = (x-x')2 berechnet (Fig. 5, rechte Seite). Die Quadπe- rung erfolgt hierbei elementweise . Dieser Fehler-Vektor erec ist em „Abstandsmaß*, das dem Abstand des Vektors x' zum Eingangsvektor x entspricht und somit indirekt proportional zur Wahrscheinlichkeit ist, daß die dem jeweiligen Autoassoziator zugeordnete Phrasengrenze vorliegt.
Das vollständige die Autoassoziatoren und den Klassifikator umfassende neuronale Netzwerk ist schematisch in Fig. 6 dargestellt. Es zeigt Autoassoziatoren 7 für k Klassen.
Die Elemente p^ des Ausgangsvektors p werden gemäß folgender Formel berechnet: (x-A, (x))τ dι g( ){x-A, (x))
wobei A1(x)=w 1" tanh(W!li,x) gilt und tanh als elementweise 0- peration ausgeführt wird und diag (Wi 1 ] , . . . , vιm l 1 )e Rmm eine Diagonalmatrix mit den Elementen ( i '', ...,wr ) darstellt.
Die einzelnen Elemente px des Ausgangsvektors p geben die Wahrscheinlichkeit an, mit welcher eine Phrasengrenze am Autoassoziator l detektiert worden ist.
Wenn die Wahrscheinlichkeit p. großer als 0,5 ist, wird dies als Vorliegen einer entsprechenden Pürasengrenze l bewertet. Ist die Wahrscheinlichkeit px kleiner als 0,5, so bedeutet dies, daß die Phrasengrenze l hier nicht vorliegt.
Hat der Ausgangsvektor p mehr als zwei Elemente pl f so ist es zweckmäßig, den Ausgangsvektor p derart zu bewerten, daß diejenige Phrasengrenze vorliegt, deren Wahrscheinlichkeit pλ am größten im Vergleich zu den übrigen Wahrscheinlichkeiten p. des Ausgangsvektors p ist.
In einer Weiterbildung der Erfindung kann es zweckmäßig sein, falls eine Phrasengrenze ermittelt wird, deren Wahrscheinlichkeit p im Bereich um 0,5, z.B. im Bereich von 0,4 bis 0, 6, liegt, eine weitere Routine durchzufuhren, mit der das Vorliegen der Phrasengrenze überprüft wird. Diese weitere Routine kann auf einem regelgetriebenen als auch auf einem datengetriebenen Ansatz beruhen.
Beim Training mit einer Trammgsdatei, die entsprechende Phrasierungsmformationen umfaßt, werden m einer ersten Trainingsphase die einzelnen Autoassoziatoren 7 jeweils auf ihre vorbestimmte Phrasierungsstarke trainiert. Wie es oben angegeben ist, werden hierbei an die Eingangs- und die Ausgangsseite der einzelnen Autoassoziatoren 7 die Eingangsvektoren x angelegt, die der Phrasengrenze entsprechen, die dem jeweiligen Autoassoziator zugeordnet ist.
In einer zweiten Trainingsphase werden die Gewichtungselemente der Autoassoziatoren 7 festgehalten und der Klassifikator 8 trainiert. An die Eingangsseite des Klassifikators 8 werden die Fehler-Vektoren erec der Autoassoziatoren und an der Ausgangsseite die Vektoren, die die Werte für die unterschiedlichen Phrasengrenzen enthalten, angelegt. In dieser Trainingsphase lernt der Klassifikator aus den Fehler-Vektoren die Ausgangsvektoren p zu bestimmen.
In einer dritten Trainingsphase wird eine Feineinstellung aller Gewichtungselemente des gesamten neuronalen Netzwerkes (der k Autoassoziatoren und des Klassifikators) durchgeführt.
Durch die oben beschriebene Architektur eines neuronalen Netzwerkes mit mehreren jeweils auf eine bestimmte Klasse trainierten Modellen (hier: den Autoassoziatoren) und einem übergeordneten Klassifikator ist es möglich, einen Eingangsvektor mit sehr großer Dimension auf einen Ausgangsvektor mit kiemer Dimension bzw. em Skalar zuverlässig korrekt abzubilden. Diese Netzwerkarchitektur kann auch vorteilhaft bei anderen Anwendungen eingesetzt werden, bei welchen Elemente unterschiedlicher Klassen behandelt werden müssen. So kann es z.B. zweckmäßig sein, diese Netzwerkarchitektur auch bei der Spracherkennung zum Detektieren von Wort und/oder Satzgrenzen einzusetzen. Hierfür sind die Eingangsdaten entsprechend anzupassen .
Der m Figur 6 gezeigte Klassifikator 8 weist Gewichtungsmat- rizen GW auf, die jeweils einem Autoassoziator 7 zugeordnet sind. Die dem l-ten Autoassoziator 7 zugeordnete Gewichtungs- matrix GW weist der l-ten Zeile Gewichtungsfaktoren wr auf. Die brigen Elemente der Matrix sind gleich Null. Die Anzahl der Gewichtungsfaktoren wn entspricht der Dimension des Eingangsvektors, wobei jeweils e Gewichtungselement wn m Beziehung zu einer Komponente des Eingangsvektors steht. Be- sitzt e Gewichtungselement wn einen größeren Wert als die übrigen Gewichtungselemente wn der Matrize, so bedeutet dies, daß die korrespondierende Komponente des Eingangsvektors von großer Bedeutung für die Bestimmung der Phrasengrenze, die durch den Autoassoziator ermittelt wird, dem die entsprechen- de Gewichtungsmatrix GW zugeordnet ist.
Bei einer bevorzugten Ausfuhrungsform werden erweiterte Autoassoziatoren verwendet (Fig. 7), die eine bessere Erfassung von Nichtl earitaten erlauben. Diese erweiterten Autoassozi- atoren fuhren folgende Abbildung aus:
x'= w2 tanh () + w3 (tanh (-))2,
wobei () := (wi x) gilt, und die Quadrierung ( • ) "" und der tanh elementweise ausgeführt werden.
Bei Versuchen ist em erf dungsgemaßes neuronales Netzwerk mit einem vorbestimmten englischen Text trainiert worden. Der gleiche Text wurde zum Trainieren eines HMM-Erkenners verwen- det. Als Leistungskriterien wurden im Betrieb die Prozentzahl der korrekt erkannten Phrasengrenzen (B-corr) , der insgesamt korrekt beurteilten Worter, unabhängig davon, ob eine oder keine Phrasengrenze folgt (Gesamt) , und der nicht-korrekt erkannten Worter ohne Phrasengrenze (NB-ncorr) ermittelt. Bei diesen Versuchen wurde ein neuronales Netzwerk mit den Autoassoziatoren nach Fig. 6 und em neuronales Netzwerk mit den erweiterten Autoassoziatoren verwendet. Es wurden folgende Ergebnisse erzielt: 13
Tabelle 2
Die m der Tabelle aufgeführten Ergebnisse zeigen, daß die erf dungsgemaßen neuronalen Netzwerke bzgl. der korrekt erkannten Phrasengrenzen und der insgesamt korrekt erkannten Worter etwa gleiche Ergebnisse wie e HMM-Erkenner liefern. Jedoch sind die erfmdungsgemaßen neuronalen Netzwerke bzgl. der fehlerhaft detektierten Phrasengrenzen, an Stellen, wo es an sich keine Phrasengrenze gibt, wesentlich besser als der HMM-Erkenner. Diese Art von Fehler ist bei der Sprache-zuText-Umsetzung besonders gravierend, da diese Fehler eine dem Zuhörer sofort auffallende Fehlbetonung erzeugen.
In weiteren Versuchen wurde eines der erfmdungsgemaßen neuronalen Netzwerke mit einem Bruchteil des bei den obigen Versuchen verwendeten Trammgstextes (5%, 10%, 30%, 50%) trainiert. Hierbei wurden folgende Ergebnisse erzielt:
Tabelle 3
Mit Bruchteilen von 30% und 50- des Trammgstextes wurden ausgezeichnete Erkennungsraten erzielt. Mit einem Bruchteil von 10% und 5% des ursprunglichen Trammgstextes sind zufriedenstellende Erkennungsraten erzielt worden. Dies zeigt, daß die erf dungsgemaßen neuronalen Netzwerke auch bei geringem Tram gsumfang gute Erkennungsraten liefern. Dies stellt einen wesentlichen Fortschritt gegenüber bekannten
Phrasengrenzen-Erkennungsmethoden dar, da das Aufbereiten von Trainmgsmatenal kostenintensiv ist, da hier Expertenwissen eingesetzt werden muß.
Das oben beschriebene Ausfuhrungsbeispiel weist k Autoassoziatoren auf. Für eine präzise Bewertung der Phrasengrenzen kann es zwec maßιg sein, eine große Anzahl Autoassoziatoren zu verwenden, wobei bis zu 20 Autoassoziatoren zweckmäßig sein können. Hierdurch wird eine quasi kontinuierlicher Ver- lauf der Ausgabewerte erzielt.
Die oben beschriebenen neuronalen Netzwerke sind als Computerprogramme realisiert, die selbständig auf einem Computer zum Umsetzen der linguistischen Kategorie eines Textes m dessen prosodischer Marker ablaufen. Sie stellen somit ein automatisch ausfuhrbares Verfahren dar.
Das Computerprogramm kann auch auf einen elektronisch lesbaren Datenträger gespeichert werden und so auf em anderes Computersystem übertragen werden.
E zur Anwendung des erfmdungsgemaßen Verfahrens geeignetes Computersystem ist m Fig. 8 gezeigt. Das Computersystem 9 weist einen internen Bus 10 auf, der mit einem Speicherbe- reich 11, einer zentralen Prozessoreinheit 12 und einem Interface 13 verbunden ist. Das Interface 13 stellt über eine Datenleitung 14 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus sind ferner eine akustische Ausgabeeinheit 15, eine grafische Ausgabeeinheit 16 und eine Emgabeemheit 17 angeschlossen. Die akustische Ausgabeeinheit 15 ist mit einem Lautsprecher 18, die grafische Ausgabeeinheit 16 mit einem Bildschirm 19 und die Emgabeemheit 17 mit einer Tastatur 20 verbunden. An das Computersystem 9 können über die Datenleitung 14 und das Interface 13 Text übertragen werden, die im Speicherbereich 11 abgespeichert werden. Der Speicherbereich 11 ist m mehrere Bereiche unter- teilt, m denen Texte, Audiodateien, Anwendungsprogramme zum Durchfuhren des erfmdungsgemaßen Verfahrens und weitere An- wendungs- und Hilfsprogramme gespeichert sind. Die als Textdatei abgespeicherten Texte werden mit vorbestimmten Programmpaketen analysiert und die jeweiligen linguistischen Kategorien der Worter ermittelt. Danach werden mit dem erfm- dungsgemaßen Verfahren aus den linguistischen Kategorien die prosodischen Marker ermittelt. Diese prosodischen Marker werden wiederum m em weiteres Programmpaket eingegeben, das die prosodischen Marker zur Erzeugung von Audiodateien ver- wendet, die über den internen Bus 10 zur akustischen Ausgabeeinheit 15 übertragen und von dieser am Lautsprecher 18 als Sprache ausgegeben werden.
In den hier dargestellten Beispielen ist nur eine Anwendung des Verfahrens auf die Vorhersage von Phrasengrenzen beschrieben worden. Das Verfahren kann bei ahnlichem Aufbau einer Vorrichtung und einem angepaßten Training aber auch zur Auswertung eines unbekannten Textes hinsichtlich einer Vorhersage von Betonungen, z.B. gemäß den international standar- disierten ToBI-Labeln (tones and breaks indices) , und/oder der Satzmelodie genutzt werden. Diese Anpassungen haben m Abhängigkeit von der jeweiligen Sprache des zu verarbeitenden Textes zu erfolgen, da die Prosodie stets sprachspezifisch

Claims

Patentansprüche
1. Verfahren zum Bestimmen prosodischer Markierungen, d a d u r c h g e k e n n z e i c h n e t, daß auf der Basis linguistischer Kategorien prosodische Markierungen durch em neuronales Netzwerk (1) bestimmt werden.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, daß als prosodische Markierungen Phrasengrenzen bestimmt und vorzugsweise auch ausgewertet und/oder bewertet werden.
3. Verfahren nach Anspruch 1 und/oder Anspruch 2, d a d u r c h g e k e n n z e i c h n e t, daß am Eingang (2) des Netzwerkes (1) die linguistischen Kategorien von zumindest drei Wortern eines zu synthetisierenden Textes angelegt werden.
4. Verfahren nach einem der vorgehenden Ansprüche, d a d u r c h g e k e n n z e i c h n e t, daß es die Schritte
- Erfassen der Eigenschaften jeder prosodischen Markierung durcn neuronale Autoassoziatoren (7), die auf jeweils eine bestimmte prosodische Markierung trainiert sind, und
- Auswerten der von jedem der Autoassoziatoren (7) ausgegebenen Ausgangsinformationen einem neuronalen Klassifika- tor (8) umfaßt .
5. Verfahren nach Anspruch 4, d a d u r c h g e k e n n z e i c h n e t, daß die Autoassoziatoren (1) für eine jeweilige vorioe- stimmte Phrasengrenze trainiert sind.
6. Verfahren nach Anspruch 5, d a d u r c h g e k e n n z e i c h n e t, daß das Training des neuronalen Klassifikators (8) nacn dem Training aller Autoassoziatoren (7) erfolgt.
7. Neuronales Netzwerk zum Bestimmen prosodischer Markierungen mit einem Eingang (2), einer Zwischenschicht (3) und einem Ausgang (4), wobei der Eingang zum Erfassen von linguistischen Kategorien von Wortern eines zu analysierenden Textes ausgebildet ist.
8. Neuronales Netzwerk nach Anspruch 7, d a d u r c h g e k e n n z e i c h n e t, daß die Zwischenschicht (3) zumindest zwei Autoassoziatoren (7) aufweist.
9. Neuronales Netzwerk nach Anspruch 7 oder 8, d a d u r c h g e k e n n z e i c h n e t, daß der Eingang (2) Eingangsgruppen (5) aufweist, welche mehrere Neuronen (6) besitzen, die jeweils einer lmguisti- sehen Kategorie zugeordnet sind, und jede Eingangsgruppe zum Erfassen der linguistischen Kategorie eines Wortes des zu a- nalysierenden Textes dient.
10. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, d a d u r c h g e k e n n z e i c h n e t, daß das Netzwerk zum Ausgeben einer binaren, tertiären o- der quataren Phrasierungsstufe ausgebildet ist.
11. Neuronales Netzwerk nach einem der Ansprüche 7 bis 9, d a d u r c h g e k e n n z e i c h n e t, daß das Netzwerk zum Ausgeben eines quasi- kontmuierlichen Phrasierungsbereichs ausgebildet ist.
12. Verfahren nach einem der Ansprüche 1 bis 6, g e k e n n z e i c h n e t d u r c h, die Verwendung eines Neuronalen Netzwerkes nach einem αer Ansprüche 7 bis 11.
13. Vorrichtung zum Bestimmen prosodischer Markierungen mit einem Computersystem (9), das einen Speicherbereich (11) aufweist, dem em Programm zum Ausfuhren eines Neuronalen Netzwerkes nach einem der Ansprüche 7 bis 11 gespeichert ist.
EP01940136A 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen Expired - Lifetime EP1273003B1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10018134A DE10018134A1 (de) 2000-04-12 2000-04-12 Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
DE10018134 2000-04-12
PCT/DE2001/001394 WO2001078063A1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Publications (2)

Publication Number Publication Date
EP1273003A1 true EP1273003A1 (de) 2003-01-08
EP1273003B1 EP1273003B1 (de) 2005-12-07

Family

ID=7638473

Family Applications (1)

Application Number Title Priority Date Filing Date
EP01940136A Expired - Lifetime EP1273003B1 (de) 2000-04-12 2001-04-09 Verfahren und vorrichtung zum bestimmen prosodischer markierungen

Country Status (4)

Country Link
US (1) US7409340B2 (de)
EP (1) EP1273003B1 (de)
DE (2) DE10018134A1 (de)
WO (1) WO2001078063A1 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207875A1 (de) * 2002-02-19 2003-08-28 Deutsche Telekom Ag Parametergesteuerte Sprachsynthese
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
US7860705B2 (en) * 2006-09-01 2010-12-28 International Business Machines Corporation Methods and apparatus for context adaptation of speech-to-speech translation systems
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
WO2011007627A1 (ja) * 2009-07-17 2011-01-20 日本電気株式会社 音声処理装置および方法ならびに記憶媒体
TWI573129B (zh) * 2013-02-05 2017-03-01 國立交通大學 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法
US9195656B2 (en) 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
CN105374350B (zh) * 2015-09-29 2017-05-17 百度在线网络技术(北京)有限公司 语音标注方法及装置
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
EP3822863B1 (de) * 2016-09-06 2022-11-02 DeepMind Technologies Limited Erzeugung von audio mit neuronalen netzwerken
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN109844773B (zh) 2016-09-06 2023-08-01 渊慧科技有限公司 使用卷积神经网络处理序列
CN110023963B (zh) 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치
CN109492223B (zh) * 2018-11-06 2020-08-04 北京邮电大学 一种基于神经网络推理的中文缺失代词补全方法
CN111354333B (zh) * 2018-12-21 2023-11-10 中国科学院声学研究所 一种基于自注意力的汉语韵律层级预测方法及系统
CN111508522A (zh) * 2019-01-30 2020-08-07 沪江教育科技(上海)股份有限公司 一种语句分析处理方法及系统
US11610136B2 (en) * 2019-05-20 2023-03-21 Kyndryl, Inc. Predicting the disaster recovery invocation response time
KR20210099988A (ko) * 2020-02-05 2021-08-13 삼성전자주식회사 뉴럴 네트워크의 메타 학습 방법 및 장치와 뉴럴 네트워크의 클래스 벡터 학습 방법 및 장치
CN112786023A (zh) * 2020-12-23 2021-05-11 竹间智能科技(上海)有限公司 标记模型构建方法及语音播报系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2764343B2 (ja) * 1990-09-07 1998-06-11 富士通株式会社 節/句境界抽出方式
WO1995002879A1 (en) * 1993-07-13 1995-01-26 Theodore Austin Bordeaux Multi-language speech recognition system
CN1057625C (zh) * 1994-04-28 2000-10-18 摩托罗拉公司 使用神经网络变换文本为声频信号的方法
JP3536996B2 (ja) * 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
US5950162A (en) * 1996-10-30 1999-09-07 Motorola, Inc. Method, device and system for generating segment durations in a text-to-speech system
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0178063A1 *

Also Published As

Publication number Publication date
WO2001078063A1 (de) 2001-10-18
DE50108314D1 (de) 2006-01-12
US20030149558A1 (en) 2003-08-07
US7409340B2 (en) 2008-08-05
EP1273003B1 (de) 2005-12-07
DE10018134A1 (de) 2001-10-18

Similar Documents

Publication Publication Date Title
EP1273003A1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE3416238C2 (de) Extremschmalband-Übertragungssystem und Verfahren für eine Übertragung von Nachrichten
DE69818161T2 (de) Automatisierte Gruppierung von sinnvollen Sätzen
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE60222249T2 (de) Spracherkennungsystem mittels impliziter sprecheradaption
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE10306599B4 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
EP0987683A2 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20021002

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR

RBV Designated contracting states (corrected)

Designated state(s): DE FR GB IT

17Q First examination report despatched

Effective date: 20040728

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAC Information related to communication of intention to grant a patent modified

Free format text: ORIGINAL CODE: EPIDOSCIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE FR GB IT

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REF Corresponds to:

Ref document number: 50108314

Country of ref document: DE

Date of ref document: 20060112

Kind code of ref document: P

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20060118

ET Fr: translation filed
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20060908

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20110427

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20110419

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20110422

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20110620

Year of fee payment: 11

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20120409

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20121228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120409

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 50108314

Country of ref document: DE

Effective date: 20121101

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120430

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20120409

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20121101