DE69727046T2 - Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system - Google Patents
Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system Download PDFInfo
- Publication number
- DE69727046T2 DE69727046T2 DE69727046T DE69727046T DE69727046T2 DE 69727046 T2 DE69727046 T2 DE 69727046T2 DE 69727046 T DE69727046 T DE 69727046T DE 69727046 T DE69727046 T DE 69727046T DE 69727046 T2 DE69727046 T2 DE 69727046T2
- Authority
- DE
- Germany
- Prior art keywords
- information
- duration
- neural network
- segment
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung bezieht sich auf eine Text-zu-Sprache-Synthese und insbesondere auf die Erzeugung von Segmentdauern bei der Text-zu-Sprache-Synthese.
- Hintergrund der Erfindung
- Um Text in Sprache umzuwandeln, wird typischerweise ein Textstrom in eine Sprach-Wellenform umgewandelt. Dieser Prozess umfasst im Allgemeinen das Erfassen der zeitlichen Folge von Sprachereignissen aus einer phonetischen Repräsentation des Textes. Typischerweise bezieht dies die Bestimmung der Dauern von Sprachsegmenten ein, welche einigen Sprachelementen, typischerweise Lauten oder Phonemen, zugeordnet sind. Das bedeutet, dass zum Zwecke des Erzeugens der Sprache die Sprache als Abfolge von Segmenten betrachtet wird, wobei während jedes Segmentes irgendein speziel les Phonem oder ein Laut hervorgebracht wird (ein Laut ist eine spezielle Weise, in der ein Phonem oder ein Teil eines Phonems hervorgebracht werden kann). Beispielsweise kann der Laut „t" im Englischen in der synthetisierten Sprache als ein einzelner Laut repräsentiert werden, der ein geschlagener Laut, ein Knacklaut, ein „t"-Verschlusslaut oder ein behauchtes „t" sein könnte. Alternativ könnte es durch zwei Laute repräsentiert werden, einen „t"-Verschlusslaut gefolgt von einem behauchten „t". Das Sprachtiming wird durch Bestimmung der Dauern dieser Segmente aufgestellt.
- Im Stand der Technik erzeugen regelbasierte Systeme Segmentdauern unter Verwendung vorbestimmter Formeln mit Parametern, die mittels Regeln angepasst werden, welche in einer Weise arbeiten, die durch den Kontext, in dem das phonetische Segment auftritt, zusammen mit der Identität des während des phonetischen Segmentes zu erzeugenden Lautes bestimmt wird. Aktuelle, auf neuronalen Netzwerken basierende Systeme stellen dem neuronalen Netzwerk vollständige phonetische Kontextinformationen zur Verfügung, was es für das Netzwerk leicht macht, auswendig zu lernen, statt zu generalisieren, was zu einer schlechten Leistung bei jeglicher Lautsequenz führt, die verschieden ist von denen, mit welchen das System trainiert wurde.
- Die Patentanmeldung WO-A-9530193 nach dem Stand der Technik zeigt ein neuronalen Netzwerk zum Umwandeln von Text in hörbare Signale. Ein Zeitdauerprozessor weist jeder der Laut-Ausgaben eines Text-zu-Laut-Umwandlungsprozessors eine Dauer zu. Den Lauten werden Rahmen zugeordnet und es wird, basierend auf dem Laut, eine phonetische Repräsentation erzeugt. Die Repräsentation identifiziert den Laut und die dem Laut zugeordnete Artikulationscharakteristik. Es wird auch eine Beschreibung für jeden Rahmen erzeugt, welche aus der phonetischen Repräsentation des Rahmens, den phonetischen Repräsentationen anderer Rahmen in der Nachbarschaft des Rahmens und zusätzlichen Kontextdaten besteht. Ein neuronales Netzwerk nimmt die ihm gelieferte Kontextbeschreibung an. Das neuronale Netzwerk erzeugt eine akustische Repräsentation von Sprachparametern.
- Es besteht daher ein Bedürfnis nach einem neuronalen Netzwerksystem, welches die Effekte vermeidet, wenn ein neuronales Netzwerk nur von Zufallskorrelationen in Trainingsdaten abhängt und welches stattdessen effiziente Segmentdauern liefert. Es ist die Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung gemäß den anhängenden Ansprüchen bereitzustellen.
- Kurze Beschreibung der Zeichnungen
-
1 ist ein Blockdiagramm eines neuronalen Netzwerks, welches die Segmentdauer, wie im Stand der Technik bekannt, bestimmt. -
2 ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt. -
3 ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung. -
4 ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung. -
5 illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren der vorliegenden Erfindung enthält. -
6 illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung zu erzeugen. - Beschreibung einer bevorzugten Ausführungsform
- Die vorliegende Erfindung lehrt die Verwendung wenigstens eines der folgenden Punkte: Abbilden einer Sequenz von Lauten auf eine Sequenz von Artikulationsmerkmalen und Verwenden von Vorrangigkeits- und Begrenzungsinformationen zusätzlich zu einem vorbestimmten Satz von Regeln zu Typ, phonetischem Kontext, syntaktischem und prosodischem Kontext für Segmente, um ein System zur Verfügung zu stellen, welches mit einem kleinen Trainingssatz Segmentdauern effizient erzeugt.
-
1 , Bezugszeichen100 , ist ein Blockdiagramm eines neuronalen Netzwerkes, welches die Segmentdauer bestimmt, wie dies im Stand der Technik bekannt ist. Die dem Netzwerk gelieferte Eingabe ist eine Sequenz von Repräsentationen von Phonemen (102 ), von denen eines das aktuelle Phonem ist, d. h. das Phonem für das aktuelle Segment oder dasjenige Segment, für welches die Dauer bestimmt wird. Die anderen Phoneme sind benachbarten Segmenten zugeordnete Phoneme, d. h. Segmenten, welche in Folge mit dem aktuellen Segment auftreten. Die Ausgabe des neuronalen Netzwerks (104 ) ist die Dauer (106 ) des aktuellen Segments. Das Netzwerk wird trainiert durch Erstellen einer Sprachdatenbank und Einteilen dieser in eine Sequenz von Segmenten. Diese Segmente, ihre Dauern und ihre Kontexte stellen dann einen Satz von Mustern zum Trainieren des neuronalen Netzwerks unter Verwendung einiger Trainingsalgorithmen, wie etwa der Fehler-Rückpropagation, bereit. -
2 , Bezugszeichen200 , ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt. Bei diesem Beispiel werden Laut- und Kontextdaten (202 ) in das regelbasierte System eingegeben. Das regelbasierte System verwendet typischerweise bestimmte vorausgewählte Regeln, wie etwa (1) Bestimmen, ob ein Segment ein letztes Segment ist, welches einen silbischen Laut in einem Teilsatz (204 ) ausdrückt und (2) Bestimmen, ob ein Segment zwischen einem letzten Segment, welches einen silbischen Laut ausdrückt, und einem Ende eines Teilsatzes (206 ) liegt, multiplext (208 ,210 ) die Ausgaben der bipolaren Fragen, um die Ausgaben gemäß einem vorbestimmten Schema zu Wichten und sendet die gewichteten Ausgaben an Multiplizierer (212 ,214 ), welche in Reihe geschaltet sind, um Ausgabeinformationen zu empfangen. Die Laut- und Kontextdaten werden dann als Lautinformation (216 ) und eine Betonungsflagge (218 ), welche anzeigt, ob der Laut betont ist, an eine Look-Up-Tabelle (220 ) gesendet. Die Ausgabe der Look-Up-Tabelle wird an einen weiteren Multiplizierer (222 ), der in Reihe geschaltet ist, um Ausgaben zu empfangen, und einen Summierer (224 ), der mit dem Multiplizierer (222 ) verbunden ist, gesendet. Der Summierer (224 ) gibt die Dauer des Segmentes aus. -
3 , Bezugszeichen300 , ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung. Das Gerät erzeugt Segmentdauern für Eingabetext in einem Text-zu-Sprache-System, welches eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Gerät umfasst einen linguistischen Informationsvorprozessor (302 ) und ein vortrainiertes neuronales Netzwerk (304 ). Der linguistische Informationsvorprozessor (302 ) ist wirksam angeschlossen, um die linguistische Beschreibung der auszugebenden Sprache zu empfangen und wird verwendet, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten umfasst, welche das beschriebene Segment umgeben sowie eine beschreibende Information für einen dem Segment zugeordneten Kontext. Das vortrainierte neuronale Netzwerk (304 ) ist wirksam mit dem linguistischen Informationsvorprozessor (302 ) verbunden und wird verwendet, um mittels des neuronalen Netzwerkes eine Repräsentation der dem Segment zugeordneten Dauer zu erzeugen. - Typischerweise umfasst die linguistische Definition von Sprache eine Sequenz von Laut-Identifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem einer der identifizierten Laute ausgedrückt wird. In diesem Fall enthält jede Segmentbeschreibung wenigstens die Laut-Identifikation für denjenigen Laut, der gerade ausgedrückt wird.
- Beschreibende Information umfasst typischerweise wenigstens einen der folgenden Punkte: A) Artikulationsmerkmale, welche jedem Laut in der Sequenz von Lauten zugeordnet sind, B) Positionen von Silben-, Wort- und anderen syntaktischen oder Intonationsbegrenzungen, C) Information zur Silbenstärke, D) beschreibende Information eines Worttyps, und E) Regelanwendungsinformation, d. h. Information welche veranlasst, dass eine Regel ausgeführt wird.
- Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer. Wo erwünscht, kann die Repräsentation der Dauer so eingerichtet werden, dass sie eine Dauer liefert, die größer ist als eine Dauer, die zu liefern das neuronale Netzwerk trainiert wurde. Typischerweise ist das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten für das vortrainierte Netzwerk werden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierte Laute, Markieren jeglicher weiterer syntaktischer, Intonations- und Betonungsinformation, welche in dem Gerät verwendet wird, und Umrechnen in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
- Das Gerät der vorliegenden Erfindung kann beispielsweise in einem Text-zu-Sprache-Syntheziser oder in jedem Text-zu-Sprache-System implementiert werden.
-
4 , Bezugszeichen400 , ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung. Das Verfahren sorgt für das Erzeugen von Segmentdauern in einem Text-zu-Sprache-System, welches für Eingabetext eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Verfahren umfasst die Schritte: A) Erzeugen (402 ) eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten enthält, welche das beschriebene Segment umgeben, und beschreibende Information für einen zu dem Segment gehörigen Kontext; B) Bereitstellen (404 ) des Informationsvektors als Eingabe in ein vortrainiertes neu ronales Netzwerk; und C) Erzeugen (406 ) einer Repräsentation der dem Segment zugeordneten Dauer mittels des neuronalen Netzwerkes. - Wie in dem Gerät umfasst die linguistische Sprachbeschreibung eine Sequenz von Lautidentifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem eines der identifizierten Laute ausgedrückt wird. In diesem Fall umfasst jede Segmentbeschreibung wenigstens die Lautidentifikation für denjenigen Laut, der gerade ausgedrückt wird.
- Wie bei dem Gerät umfasst die beschreibende Information wenigstens einen der folgenden Punkte: A) Jedem Laut in der Sequenz von Lauten zugeordnete Artikulationsmerkmale, B) Positionen von Silben-, Wort- und anderen syntaktischen und Intonations-Begrenzungen, C) Information zur Silbenstärke, D) beschreibende Information zu einem Worttyp; und E) Regelanwendungsinformation.
- Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer und kann, wo ausgewählt, eingerichtet sein, um eine Dauer zu liefern, welche größer ist als eine Dauer, die zu liefern das vortrainierte neuronale Netzwerk trainiert worden ist (
408 ). Das vortrainierte neuronale Netzwerk ist typischerweise ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten werden typischerweise wie oben beschrieben erzeugt. -
5 , Bezugszeichen500 , illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren gemäß der vorliegenden Erfindung umfasst. Der Eingabetext wird analysiert (502 ), um einen Strang von Lauten (504 ) zu erzeugen, welche in Silben (506 ) gruppiert werden. Die Silben werden ihrerseits in Wörter und Typen (508 ) gruppiert, welche in Ausdrücke (510 ) gruppiert werden, die in Teilsätze (512 ) gruppiert werden, welche in Sätze (514 ) gruppiert werden. Die Silben weisen einen ihnen zugeordneten Indikator auf, der andeuten, ob sie unbetont sind, eine sekundäre Betonung in einem Wort haben oder die primäre Betonung in dem Wort, welches sie enthält, tragen. Wörter enthalten Informationen, die andeuten, ob sie Funktionswörter (Präpositionen, Pronomen, Konjunktionen oder Artikel) oder Inhaltswörter (alle anderen Wörter) sind. Das Verfahren wird dann verwendet, um Dauern (518 ) von Segmenten zu erzeugen (516 ), die jedem Laut in einer Sequenz von Lauten zugeordnet sind. Diese Dauern werden zusammen mit dem Ergebnis der Textanalyse einer Linguistik-zu-Akustik-Einheit (520 ) zur Verfügung gestellt, welche eine Sequenz von akustischen Beschreibungen (522 ) von kurzen Sprachrahmen (10 ms-Rahmen bei der bevorzugten Ausführungsform) erzeugt. Diese Sequenz von akustischen Beschreibungen wird einem Wellenform-Generator (524 ) zur Verfügung gestellt, der das Sprachsignal (526 ) erzeugt. -
6 , Bezugszeichen600 , illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung (602 ) zu erzeugen. Als Eingabe in das neuronale Netzwerk (610 ) wird eine Sequenz von Laut-Identifikationen (604 ) erzeugt, welche die Identifikation des Lautes enthält, der dem Segment, für. welches die Dauer erzeugt wird, zugeordnet ist. Bei der bevorzugten Ausführungsform ist dies eine Sequenz von fünf Laut-Identifikationen, die in dem dem Segment zugeordneten Laut zentriert ist, und jede Lautidentifikation ist ein Vektor aus binären Werten, wobei einer der binären Werte in dem Vektor auf eins gesetzt ist und der andere binäre Wert auf null gesetzt ist. Eine ähnliche Sequenz von Lauten wird in einen Laut-zu-Merkmal-Umwandlungsblock (606 ) eingegeben, welcher einer Sequenz von Merkmalsvektoren (608 ) als Eingabe für das neuronale Netzwerk (610 ) liefert. - Bei der bevorzugten Ausführungsform ist die an den Laut-zu-Merkmal-Umwandlungsblock gelieferte Lautsequenz identisch mit der dem neuronalen Netzwerk gelieferten Lautsequenz. Die Merkmalsvektoren sind binäre Vektoren, die jeweils mittels einer der eingegebenen Lautidentifikationen bestimmt werden, wobei jeder binäre Wert in dem binären Vektor einige Tatsachen über den identifizierte Laut repräsentiert. Beispielsweise kann ein binärer Wert auf eins gesetzt werden, wenn, und nur wenn, der Laut ein Vokal ist. Bei einer weiteren, ähnlichen Lautsequenz wird ein Informationsvektor (
612 ) bereitgestellt, welcher Begrenzungen beschreibt, die jedem Laut zufallen, sowie die Charakteristiken der Silben und Wörter, die jeweils den Laut enthalten. Schließlich verarbeitet eine Regelanwendungs-Extraktionseinheit (614 ) die Eingabe in das Verfahren, um einen binären Vektor (616 ) zu erzeugen, der den Laut und den Kontext für das Segment, für welches die Dauer gerade erzeugt wird, beschreibt. Jeder der binären Werte in dem binären Vektor wird auf eins gesetzt, wenn, und nur wenn, eine Aussage über das Segment und seinen Kontext wahr ist; z. B. „das Segment ist das letzte Segment, welches einem silbischen Laut in dem Teilsatz, der das Segment enthält, zugeordnet ist". Dieser binäre Vektor (616 ) wird auch an das neuronale Netzwerk geliefert. Aus dieser gesamten Eingabe erzeugt das neuronale Netzwerk einen Wert, welcher die Dauer repräsentiert. Bei der bevorzugten Ausführungsform wird die Ausgabe des neuronalen Netzwerks (der die Zeitdauer repräsentierende Wert,618 ) an eine Antilogarithmus-Funktionseinheit (620 ) geliefert, welche die tatsächliche Dauer (622 ) des Segments berechnet. - Die Schritte des Verfahrens können in einer Speichereinheit eines Computers oder alternativ in einem berührbaren Medium eines/für einen digitalen Signalprozessor, DSP, eines/für einen anwendungsspezifischen integrierten Schaltkreis, ASIC ("Application Specific Integrated Circuit") oder eines Gate-Arrays verkörpert sein.
- Die beschriebenen Ausführungsformen sollen in jeder Hinsicht lediglich als illustrativ und nicht restriktiv betrachtet werden. Der Erfindungsbereich wird daher eher durch die anhängenden Ansprüche als durch vorangehende Beschreibung bezeichnet.
Claims (10)
- Verfahren zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System, wobei für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung erzeugt, die Schritte umfasst sind: 1A) Erzeugen eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen zu dem beschriebenen Segment gehörigen Kontext enthält; 1B) Bereitstellen des Informationsvektors als Eingabe. in ein vortrainiertes neuronales Netzwerk; 1C) Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels eines neuronalen Netzwerks; 1D) Beschreiben der Sprache als eine Sequenz von Lautidentifikationen, wobei Segmente, für welche eine Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen ent halten und wobei die beschreibende Information wenigstens einen der Punkte 1D1–1D5 enthält: 1D1) jedem Laut der Lautsequenz zugeordnete Artikulationsmerkmale; 1D2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 1D3) Information zur Silbenstärke; 1D4) beschreibende Information eines Worttyps; und 1D5) Regelanwendungsinformation.
- Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte
2A oder2B : 2A) Die Repräsentation der Dauer ist ein Logarithmus der Dauer; und 2B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist, als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde. - Verfahren nach Anspruch 1, wobei das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk ist und wobei, wo ausgewählt, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo weiter ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche bei dem Ver fahren verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
- Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte 4A-4D: 4A) die Schritte des Verfahrens sind in einer Speichereinheit eines Computers gespeichert; 4B) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen digitalen Signalprozessor, DSP, verkörpert; 4C) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen anwendungsspezifischen integrierten Schaltkreis (ASIC: Application Specific Integrates Circuit) verkörpert; und 4D) die Schritte des Verfahrens sind in einem berührbaren Medium eines Gate-Arrays verkörpert.
- Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, umfassend: 5A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; 5B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; und 5C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 5C1-5C5 enthält: 5C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 5C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 5C3) Information zur Silbenstärke; 5C4) beschreibende Information eines Worttyps; und 5C5) Regelanwendungsinformation.
- Vorrichtung nach Anspruch 5, umfassend wenigstens einen der Punkte 6A-6C: 6A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 6B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 6C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
- Vorrichtung nach Anspruch 6, wobei, in 6C, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen von Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in der Vorrichtung verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
- Text-zu-Sprache-Syntheziser mit einer Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, wobei die Vorrichtung umfasst: 8A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; und 8B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; 8C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 8C1-8C5 enthält: 8C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 8C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 8C3) Information zur Silbenstärke; 8C4) beschreibende Information eines Worttyps; und 8C5) Regelanwendungsinformation.
- Text-zu-Sprache-Syntheziser nach Anspruch 8, umfassend wenigstens einen der Punkte 9A bis 9C: 9A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 9B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 9C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
- Text-zu-Sprache-Syntheziser nach Anspruch 9, umfassend wenigstens einen der Punkte 10A-10B: 10A) das vortrainierte neuronale Netzwerk wurde unter Verwendung von Fehler-Rückpropagation trainiert; und 10B) Trainingsdaten für das vortrainierte Netzwerk wurden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in dem Text-zu-Sprache-Syntheziser verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US739975 | 1996-10-30 | ||
US08/739,975 US5950162A (en) | 1996-10-30 | 1996-10-30 | Method, device and system for generating segment durations in a text-to-speech system |
PCT/US1997/018761 WO1998019297A1 (en) | 1996-10-30 | 1997-10-15 | Method, device and system for generating segment durations in a text-to-speech system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69727046D1 DE69727046D1 (de) | 2004-02-05 |
DE69727046T2 true DE69727046T2 (de) | 2004-06-09 |
Family
ID=24974545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69727046T Expired - Fee Related DE69727046T2 (de) | 1996-10-30 | 1997-10-15 | Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system |
Country Status (4)
Country | Link |
---|---|
US (1) | US5950162A (de) |
EP (1) | EP0876660B1 (de) |
DE (1) | DE69727046T2 (de) |
WO (1) | WO1998019297A1 (de) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BE1011892A3 (fr) * | 1997-05-22 | 2000-02-01 | Motorola Inc | Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation. |
US6134528A (en) * | 1997-06-13 | 2000-10-17 | Motorola, Inc. | Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations |
US5930754A (en) * | 1997-06-13 | 1999-07-27 | Motorola, Inc. | Method, device and article of manufacture for neural-network based orthography-phonetics transformation |
GB2346525B (en) * | 1997-07-25 | 2001-02-14 | Motorola Inc | Neural network providing spatial parameters when stimulated by linguistic parameters of speech |
EP1163663A2 (de) * | 1999-03-15 | 2001-12-19 | BRITISH TELECOMMUNICATIONS public limited company | Sprachsynthese |
US6178402B1 (en) * | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US6542867B1 (en) | 2000-03-28 | 2003-04-01 | Matsushita Electric Industrial Co., Ltd. | Speech duration processing method and apparatus for Chinese text-to-speech system |
DE10018134A1 (de) | 2000-04-12 | 2001-10-18 | Siemens Ag | Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen |
US6453294B1 (en) * | 2000-05-31 | 2002-09-17 | International Business Machines Corporation | Dynamic destination-determined multimedia avatars for interactive on-line communications |
US20030061049A1 (en) * | 2001-08-30 | 2003-03-27 | Clarity, Llc | Synthesized speech intelligibility enhancement through environment awareness |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
ATE456125T1 (de) * | 2004-09-16 | 2010-02-15 | France Telecom | Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
RU2421827C2 (ru) | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
CN107680580B (zh) * | 2017-09-28 | 2020-08-18 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR1602936A (de) * | 1968-12-31 | 1971-02-22 | ||
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
GB8720387D0 (en) * | 1987-08-28 | 1987-10-07 | British Telecomm | Matching vectors |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
JP2920639B2 (ja) * | 1989-03-31 | 1999-07-19 | アイシン精機株式会社 | 移動経路探索方法および装置 |
JPH0375860A (ja) * | 1989-08-18 | 1991-03-29 | Hitachi Ltd | パーソナライズド端末 |
GB8929146D0 (en) * | 1989-12-22 | 1990-02-28 | British Telecomm | Neural networks |
EP0481107B1 (de) * | 1990-10-16 | 1995-09-06 | International Business Machines Corporation | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell |
JP3070127B2 (ja) * | 1991-05-07 | 2000-07-24 | 株式会社明電舎 | 音声合成装置のアクセント成分制御方式 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
EP0710378A4 (de) * | 1994-04-28 | 1998-04-01 | Motorola Inc | Verfahren und vorrichtung zur umwandlung von text in audiosignale unter verwendung eines neuralen netzwerks |
US5610812A (en) * | 1994-06-24 | 1997-03-11 | Mitsubishi Electric Information Technology Center America, Inc. | Contextual tagger utilizing deterministic finite state transducer |
-
1996
- 1996-10-30 US US08/739,975 patent/US5950162A/en not_active Expired - Lifetime
-
1997
- 1997-10-15 DE DE69727046T patent/DE69727046T2/de not_active Expired - Fee Related
- 1997-10-15 EP EP97946842A patent/EP0876660B1/de not_active Expired - Lifetime
- 1997-10-15 WO PCT/US1997/018761 patent/WO1998019297A1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
EP0876660A1 (de) | 1998-11-11 |
EP0876660B1 (de) | 2004-01-02 |
DE69727046D1 (de) | 2004-02-05 |
US5950162A (en) | 1999-09-07 |
WO1998019297A1 (en) | 1998-05-07 |
EP0876660A4 (de) | 1999-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69727046T2 (de) | Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
EP1184839B1 (de) | Graphem-Phonem-Konvertierung | |
DE60126564T2 (de) | Verfahren und Anordnung zur Sprachsysnthese | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69829389T2 (de) | Textnormalisierung unter verwendung einer kontextfreien grammatik | |
DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE69931813T2 (de) | Verfahren und vorrichtung zur grundfrequenzermittlung | |
DE69923191T2 (de) | Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69827988T2 (de) | Sprachmodelle für die Spracherkennung | |
DE69917961T2 (de) | Phonembasierte Sprachsynthese | |
EP1336955B1 (de) | Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen | |
EP0886853B1 (de) | Auf mikrosegmenten basierendes sprachsyntheseverfahren | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8339 | Ceased/non-payment of the annual fee |