DE69727046T2 - Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system - Google Patents

Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system Download PDF

Info

Publication number
DE69727046T2
DE69727046T2 DE69727046T DE69727046T DE69727046T2 DE 69727046 T2 DE69727046 T2 DE 69727046T2 DE 69727046 T DE69727046 T DE 69727046T DE 69727046 T DE69727046 T DE 69727046T DE 69727046 T2 DE69727046 T2 DE 69727046T2
Authority
DE
Germany
Prior art keywords
information
duration
neural network
segment
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69727046T
Other languages
English (en)
Other versions
DE69727046D1 (de
Inventor
Gerald Corrigan
Orhan Karaali
Noel Massey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE69727046D1 publication Critical patent/DE69727046D1/de
Application granted granted Critical
Publication of DE69727046T2 publication Critical patent/DE69727046T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Text-zu-Sprache-Synthese und insbesondere auf die Erzeugung von Segmentdauern bei der Text-zu-Sprache-Synthese.
  • Hintergrund der Erfindung
  • Um Text in Sprache umzuwandeln, wird typischerweise ein Textstrom in eine Sprach-Wellenform umgewandelt. Dieser Prozess umfasst im Allgemeinen das Erfassen der zeitlichen Folge von Sprachereignissen aus einer phonetischen Repräsentation des Textes. Typischerweise bezieht dies die Bestimmung der Dauern von Sprachsegmenten ein, welche einigen Sprachelementen, typischerweise Lauten oder Phonemen, zugeordnet sind. Das bedeutet, dass zum Zwecke des Erzeugens der Sprache die Sprache als Abfolge von Segmenten betrachtet wird, wobei während jedes Segmentes irgendein speziel les Phonem oder ein Laut hervorgebracht wird (ein Laut ist eine spezielle Weise, in der ein Phonem oder ein Teil eines Phonems hervorgebracht werden kann). Beispielsweise kann der Laut „t" im Englischen in der synthetisierten Sprache als ein einzelner Laut repräsentiert werden, der ein geschlagener Laut, ein Knacklaut, ein „t"-Verschlusslaut oder ein behauchtes „t" sein könnte. Alternativ könnte es durch zwei Laute repräsentiert werden, einen „t"-Verschlusslaut gefolgt von einem behauchten „t". Das Sprachtiming wird durch Bestimmung der Dauern dieser Segmente aufgestellt.
  • Im Stand der Technik erzeugen regelbasierte Systeme Segmentdauern unter Verwendung vorbestimmter Formeln mit Parametern, die mittels Regeln angepasst werden, welche in einer Weise arbeiten, die durch den Kontext, in dem das phonetische Segment auftritt, zusammen mit der Identität des während des phonetischen Segmentes zu erzeugenden Lautes bestimmt wird. Aktuelle, auf neuronalen Netzwerken basierende Systeme stellen dem neuronalen Netzwerk vollständige phonetische Kontextinformationen zur Verfügung, was es für das Netzwerk leicht macht, auswendig zu lernen, statt zu generalisieren, was zu einer schlechten Leistung bei jeglicher Lautsequenz führt, die verschieden ist von denen, mit welchen das System trainiert wurde.
  • Die Patentanmeldung WO-A-9530193 nach dem Stand der Technik zeigt ein neuronalen Netzwerk zum Umwandeln von Text in hörbare Signale. Ein Zeitdauerprozessor weist jeder der Laut-Ausgaben eines Text-zu-Laut-Umwandlungsprozessors eine Dauer zu. Den Lauten werden Rahmen zugeordnet und es wird, basierend auf dem Laut, eine phonetische Repräsentation erzeugt. Die Repräsentation identifiziert den Laut und die dem Laut zugeordnete Artikulationscharakteristik. Es wird auch eine Beschreibung für jeden Rahmen erzeugt, welche aus der phonetischen Repräsentation des Rahmens, den phonetischen Repräsentationen anderer Rahmen in der Nachbarschaft des Rahmens und zusätzlichen Kontextdaten besteht. Ein neuronales Netzwerk nimmt die ihm gelieferte Kontextbeschreibung an. Das neuronale Netzwerk erzeugt eine akustische Repräsentation von Sprachparametern.
  • Es besteht daher ein Bedürfnis nach einem neuronalen Netzwerksystem, welches die Effekte vermeidet, wenn ein neuronales Netzwerk nur von Zufallskorrelationen in Trainingsdaten abhängt und welches stattdessen effiziente Segmentdauern liefert. Es ist die Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung gemäß den anhängenden Ansprüchen bereitzustellen.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines neuronalen Netzwerks, welches die Segmentdauer, wie im Stand der Technik bekannt, bestimmt.
  • 2 ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt.
  • 3 ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung.
  • 4 ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung.
  • 5 illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren der vorliegenden Erfindung enthält.
  • 6 illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung zu erzeugen.
  • Beschreibung einer bevorzugten Ausführungsform
  • Die vorliegende Erfindung lehrt die Verwendung wenigstens eines der folgenden Punkte: Abbilden einer Sequenz von Lauten auf eine Sequenz von Artikulationsmerkmalen und Verwenden von Vorrangigkeits- und Begrenzungsinformationen zusätzlich zu einem vorbestimmten Satz von Regeln zu Typ, phonetischem Kontext, syntaktischem und prosodischem Kontext für Segmente, um ein System zur Verfügung zu stellen, welches mit einem kleinen Trainingssatz Segmentdauern effizient erzeugt.
  • 1, Bezugszeichen 100, ist ein Blockdiagramm eines neuronalen Netzwerkes, welches die Segmentdauer bestimmt, wie dies im Stand der Technik bekannt ist. Die dem Netzwerk gelieferte Eingabe ist eine Sequenz von Repräsentationen von Phonemen (102), von denen eines das aktuelle Phonem ist, d. h. das Phonem für das aktuelle Segment oder dasjenige Segment, für welches die Dauer bestimmt wird. Die anderen Phoneme sind benachbarten Segmenten zugeordnete Phoneme, d. h. Segmenten, welche in Folge mit dem aktuellen Segment auftreten. Die Ausgabe des neuronalen Netzwerks (104) ist die Dauer (106) des aktuellen Segments. Das Netzwerk wird trainiert durch Erstellen einer Sprachdatenbank und Einteilen dieser in eine Sequenz von Segmenten. Diese Segmente, ihre Dauern und ihre Kontexte stellen dann einen Satz von Mustern zum Trainieren des neuronalen Netzwerks unter Verwendung einiger Trainingsalgorithmen, wie etwa der Fehler-Rückpropagation, bereit.
  • 2, Bezugszeichen 200, ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt. Bei diesem Beispiel werden Laut- und Kontextdaten (202) in das regelbasierte System eingegeben. Das regelbasierte System verwendet typischerweise bestimmte vorausgewählte Regeln, wie etwa (1) Bestimmen, ob ein Segment ein letztes Segment ist, welches einen silbischen Laut in einem Teilsatz (204) ausdrückt und (2) Bestimmen, ob ein Segment zwischen einem letzten Segment, welches einen silbischen Laut ausdrückt, und einem Ende eines Teilsatzes (206) liegt, multiplext (208, 210) die Ausgaben der bipolaren Fragen, um die Ausgaben gemäß einem vorbestimmten Schema zu Wichten und sendet die gewichteten Ausgaben an Multiplizierer (212, 214), welche in Reihe geschaltet sind, um Ausgabeinformationen zu empfangen. Die Laut- und Kontextdaten werden dann als Lautinformation (216) und eine Betonungsflagge (218), welche anzeigt, ob der Laut betont ist, an eine Look-Up-Tabelle (220) gesendet. Die Ausgabe der Look-Up-Tabelle wird an einen weiteren Multiplizierer (222), der in Reihe geschaltet ist, um Ausgaben zu empfangen, und einen Summierer (224), der mit dem Multiplizierer (222) verbunden ist, gesendet. Der Summierer (224) gibt die Dauer des Segmentes aus.
  • 3, Bezugszeichen 300, ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung. Das Gerät erzeugt Segmentdauern für Eingabetext in einem Text-zu-Sprache-System, welches eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Gerät umfasst einen linguistischen Informationsvorprozessor (302) und ein vortrainiertes neuronales Netzwerk (304). Der linguistische Informationsvorprozessor (302) ist wirksam angeschlossen, um die linguistische Beschreibung der auszugebenden Sprache zu empfangen und wird verwendet, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten umfasst, welche das beschriebene Segment umgeben sowie eine beschreibende Information für einen dem Segment zugeordneten Kontext. Das vortrainierte neuronale Netzwerk (304) ist wirksam mit dem linguistischen Informationsvorprozessor (302) verbunden und wird verwendet, um mittels des neuronalen Netzwerkes eine Repräsentation der dem Segment zugeordneten Dauer zu erzeugen.
  • Typischerweise umfasst die linguistische Definition von Sprache eine Sequenz von Laut-Identifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem einer der identifizierten Laute ausgedrückt wird. In diesem Fall enthält jede Segmentbeschreibung wenigstens die Laut-Identifikation für denjenigen Laut, der gerade ausgedrückt wird.
  • Beschreibende Information umfasst typischerweise wenigstens einen der folgenden Punkte: A) Artikulationsmerkmale, welche jedem Laut in der Sequenz von Lauten zugeordnet sind, B) Positionen von Silben-, Wort- und anderen syntaktischen oder Intonationsbegrenzungen, C) Information zur Silbenstärke, D) beschreibende Information eines Worttyps, und E) Regelanwendungsinformation, d. h. Information welche veranlasst, dass eine Regel ausgeführt wird.
  • Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer. Wo erwünscht, kann die Repräsentation der Dauer so eingerichtet werden, dass sie eine Dauer liefert, die größer ist als eine Dauer, die zu liefern das neuronale Netzwerk trainiert wurde. Typischerweise ist das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten für das vortrainierte Netzwerk werden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierte Laute, Markieren jeglicher weiterer syntaktischer, Intonations- und Betonungsinformation, welche in dem Gerät verwendet wird, und Umrechnen in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
  • Das Gerät der vorliegenden Erfindung kann beispielsweise in einem Text-zu-Sprache-Syntheziser oder in jedem Text-zu-Sprache-System implementiert werden.
  • 4, Bezugszeichen 400, ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung. Das Verfahren sorgt für das Erzeugen von Segmentdauern in einem Text-zu-Sprache-System, welches für Eingabetext eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Verfahren umfasst die Schritte: A) Erzeugen (402) eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten enthält, welche das beschriebene Segment umgeben, und beschreibende Information für einen zu dem Segment gehörigen Kontext; B) Bereitstellen (404) des Informationsvektors als Eingabe in ein vortrainiertes neu ronales Netzwerk; und C) Erzeugen (406) einer Repräsentation der dem Segment zugeordneten Dauer mittels des neuronalen Netzwerkes.
  • Wie in dem Gerät umfasst die linguistische Sprachbeschreibung eine Sequenz von Lautidentifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem eines der identifizierten Laute ausgedrückt wird. In diesem Fall umfasst jede Segmentbeschreibung wenigstens die Lautidentifikation für denjenigen Laut, der gerade ausgedrückt wird.
  • Wie bei dem Gerät umfasst die beschreibende Information wenigstens einen der folgenden Punkte: A) Jedem Laut in der Sequenz von Lauten zugeordnete Artikulationsmerkmale, B) Positionen von Silben-, Wort- und anderen syntaktischen und Intonations-Begrenzungen, C) Information zur Silbenstärke, D) beschreibende Information zu einem Worttyp; und E) Regelanwendungsinformation.
  • Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer und kann, wo ausgewählt, eingerichtet sein, um eine Dauer zu liefern, welche größer ist als eine Dauer, die zu liefern das vortrainierte neuronale Netzwerk trainiert worden ist (408). Das vortrainierte neuronale Netzwerk ist typischerweise ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten werden typischerweise wie oben beschrieben erzeugt.
  • 5, Bezugszeichen 500, illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren gemäß der vorliegenden Erfindung umfasst. Der Eingabetext wird analysiert (502), um einen Strang von Lauten (504) zu erzeugen, welche in Silben (506) gruppiert werden. Die Silben werden ihrerseits in Wörter und Typen (508) gruppiert, welche in Ausdrücke (510) gruppiert werden, die in Teilsätze (512) gruppiert werden, welche in Sätze (514) gruppiert werden. Die Silben weisen einen ihnen zugeordneten Indikator auf, der andeuten, ob sie unbetont sind, eine sekundäre Betonung in einem Wort haben oder die primäre Betonung in dem Wort, welches sie enthält, tragen. Wörter enthalten Informationen, die andeuten, ob sie Funktionswörter (Präpositionen, Pronomen, Konjunktionen oder Artikel) oder Inhaltswörter (alle anderen Wörter) sind. Das Verfahren wird dann verwendet, um Dauern (518) von Segmenten zu erzeugen (516), die jedem Laut in einer Sequenz von Lauten zugeordnet sind. Diese Dauern werden zusammen mit dem Ergebnis der Textanalyse einer Linguistik-zu-Akustik-Einheit (520) zur Verfügung gestellt, welche eine Sequenz von akustischen Beschreibungen (522) von kurzen Sprachrahmen (10 ms-Rahmen bei der bevorzugten Ausführungsform) erzeugt. Diese Sequenz von akustischen Beschreibungen wird einem Wellenform-Generator (524) zur Verfügung gestellt, der das Sprachsignal (526) erzeugt.
  • 6, Bezugszeichen 600, illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung (602) zu erzeugen. Als Eingabe in das neuronale Netzwerk (610) wird eine Sequenz von Laut-Identifikationen (604) erzeugt, welche die Identifikation des Lautes enthält, der dem Segment, für. welches die Dauer erzeugt wird, zugeordnet ist. Bei der bevorzugten Ausführungsform ist dies eine Sequenz von fünf Laut-Identifikationen, die in dem dem Segment zugeordneten Laut zentriert ist, und jede Lautidentifikation ist ein Vektor aus binären Werten, wobei einer der binären Werte in dem Vektor auf eins gesetzt ist und der andere binäre Wert auf null gesetzt ist. Eine ähnliche Sequenz von Lauten wird in einen Laut-zu-Merkmal-Umwandlungsblock (606) eingegeben, welcher einer Sequenz von Merkmalsvektoren (608) als Eingabe für das neuronale Netzwerk (610) liefert.
  • Bei der bevorzugten Ausführungsform ist die an den Laut-zu-Merkmal-Umwandlungsblock gelieferte Lautsequenz identisch mit der dem neuronalen Netzwerk gelieferten Lautsequenz. Die Merkmalsvektoren sind binäre Vektoren, die jeweils mittels einer der eingegebenen Lautidentifikationen bestimmt werden, wobei jeder binäre Wert in dem binären Vektor einige Tatsachen über den identifizierte Laut repräsentiert. Beispielsweise kann ein binärer Wert auf eins gesetzt werden, wenn, und nur wenn, der Laut ein Vokal ist. Bei einer weiteren, ähnlichen Lautsequenz wird ein Informationsvektor (612) bereitgestellt, welcher Begrenzungen beschreibt, die jedem Laut zufallen, sowie die Charakteristiken der Silben und Wörter, die jeweils den Laut enthalten. Schließlich verarbeitet eine Regelanwendungs-Extraktionseinheit (614) die Eingabe in das Verfahren, um einen binären Vektor (616) zu erzeugen, der den Laut und den Kontext für das Segment, für welches die Dauer gerade erzeugt wird, beschreibt. Jeder der binären Werte in dem binären Vektor wird auf eins gesetzt, wenn, und nur wenn, eine Aussage über das Segment und seinen Kontext wahr ist; z. B. „das Segment ist das letzte Segment, welches einem silbischen Laut in dem Teilsatz, der das Segment enthält, zugeordnet ist". Dieser binäre Vektor (616) wird auch an das neuronale Netzwerk geliefert. Aus dieser gesamten Eingabe erzeugt das neuronale Netzwerk einen Wert, welcher die Dauer repräsentiert. Bei der bevorzugten Ausführungsform wird die Ausgabe des neuronalen Netzwerks (der die Zeitdauer repräsentierende Wert, 618) an eine Antilogarithmus-Funktionseinheit (620) geliefert, welche die tatsächliche Dauer (622) des Segments berechnet.
  • Die Schritte des Verfahrens können in einer Speichereinheit eines Computers oder alternativ in einem berührbaren Medium eines/für einen digitalen Signalprozessor, DSP, eines/für einen anwendungsspezifischen integrierten Schaltkreis, ASIC ("Application Specific Integrated Circuit") oder eines Gate-Arrays verkörpert sein.
  • Die beschriebenen Ausführungsformen sollen in jeder Hinsicht lediglich als illustrativ und nicht restriktiv betrachtet werden. Der Erfindungsbereich wird daher eher durch die anhängenden Ansprüche als durch vorangehende Beschreibung bezeichnet.

Claims (10)

  1. Verfahren zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System, wobei für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung erzeugt, die Schritte umfasst sind: 1A) Erzeugen eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen zu dem beschriebenen Segment gehörigen Kontext enthält; 1B) Bereitstellen des Informationsvektors als Eingabe. in ein vortrainiertes neuronales Netzwerk; 1C) Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels eines neuronalen Netzwerks; 1D) Beschreiben der Sprache als eine Sequenz von Lautidentifikationen, wobei Segmente, für welche eine Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen ent halten und wobei die beschreibende Information wenigstens einen der Punkte 1D1–1D5 enthält: 1D1) jedem Laut der Lautsequenz zugeordnete Artikulationsmerkmale; 1D2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 1D3) Information zur Silbenstärke; 1D4) beschreibende Information eines Worttyps; und 1D5) Regelanwendungsinformation.
  2. Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte 2A oder 2B: 2A) Die Repräsentation der Dauer ist ein Logarithmus der Dauer; und 2B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist, als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde.
  3. Verfahren nach Anspruch 1, wobei das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk ist und wobei, wo ausgewählt, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo weiter ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche bei dem Ver fahren verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
  4. Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte 4A-4D: 4A) die Schritte des Verfahrens sind in einer Speichereinheit eines Computers gespeichert; 4B) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen digitalen Signalprozessor, DSP, verkörpert; 4C) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen anwendungsspezifischen integrierten Schaltkreis (ASIC: Application Specific Integrates Circuit) verkörpert; und 4D) die Schritte des Verfahrens sind in einem berührbaren Medium eines Gate-Arrays verkörpert.
  5. Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, umfassend: 5A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; 5B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; und 5C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 5C1-5C5 enthält: 5C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 5C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 5C3) Information zur Silbenstärke; 5C4) beschreibende Information eines Worttyps; und 5C5) Regelanwendungsinformation.
  6. Vorrichtung nach Anspruch 5, umfassend wenigstens einen der Punkte 6A-6C: 6A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 6B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 6C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
  7. Vorrichtung nach Anspruch 6, wobei, in 6C, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen von Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in der Vorrichtung verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
  8. Text-zu-Sprache-Syntheziser mit einer Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, wobei die Vorrichtung umfasst: 8A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; und 8B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; 8C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 8C1-8C5 enthält: 8C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 8C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 8C3) Information zur Silbenstärke; 8C4) beschreibende Information eines Worttyps; und 8C5) Regelanwendungsinformation.
  9. Text-zu-Sprache-Syntheziser nach Anspruch 8, umfassend wenigstens einen der Punkte 9A bis 9C: 9A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 9B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 9C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
  10. Text-zu-Sprache-Syntheziser nach Anspruch 9, umfassend wenigstens einen der Punkte 10A-10B: 10A) das vortrainierte neuronale Netzwerk wurde unter Verwendung von Fehler-Rückpropagation trainiert; und 10B) Trainingsdaten für das vortrainierte Netzwerk wurden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in dem Text-zu-Sprache-Syntheziser verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
DE69727046T 1996-10-30 1997-10-15 Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system Expired - Fee Related DE69727046T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US739975 1996-10-30
US08/739,975 US5950162A (en) 1996-10-30 1996-10-30 Method, device and system for generating segment durations in a text-to-speech system
PCT/US1997/018761 WO1998019297A1 (en) 1996-10-30 1997-10-15 Method, device and system for generating segment durations in a text-to-speech system

Publications (2)

Publication Number Publication Date
DE69727046D1 DE69727046D1 (de) 2004-02-05
DE69727046T2 true DE69727046T2 (de) 2004-06-09

Family

ID=24974545

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69727046T Expired - Fee Related DE69727046T2 (de) 1996-10-30 1997-10-15 Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system

Country Status (4)

Country Link
US (1) US5950162A (de)
EP (1) EP0876660B1 (de)
DE (1) DE69727046T2 (de)
WO (1) WO1998019297A1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BE1011892A3 (fr) * 1997-05-22 2000-02-01 Motorola Inc Methode, dispositif et systeme pour generer des parametres de synthese vocale a partir d'informations comprenant une representation explicite de l'intonation.
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation
GB2346525B (en) * 1997-07-25 2001-02-14 Motorola Inc Neural network providing spatial parameters when stimulated by linguistic parameters of speech
EP1163663A2 (de) * 1999-03-15 2001-12-19 BRITISH TELECOMMUNICATIONS public limited company Sprachsynthese
US6178402B1 (en) * 1999-04-29 2001-01-23 Motorola, Inc. Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network
US6542867B1 (en) 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
DE10018134A1 (de) 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
US6453294B1 (en) * 2000-05-31 2002-09-17 International Business Machines Corporation Dynamic destination-determined multimedia avatars for interactive on-line communications
US20030061049A1 (en) * 2001-08-30 2003-03-27 Clarity, Llc Synthesized speech intelligibility enhancement through environment awareness
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
ATE456125T1 (de) * 2004-09-16 2010-02-15 France Telecom Verfahren und vorrichtung für die auswahl akustischer einheiten und sprachsynthesevorrichtung
US20080059190A1 (en) * 2006-08-22 2008-03-06 Microsoft Corporation Speech unit selection using HMM acoustic models
US8234116B2 (en) * 2006-08-22 2012-07-31 Microsoft Corporation Calculating cost measures between HMM acoustic models
RU2421827C2 (ru) 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Способ синтеза речи
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
CN107680580B (zh) * 2017-09-28 2020-08-18 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR1602936A (de) * 1968-12-31 1971-02-22
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
GB8720387D0 (en) * 1987-08-28 1987-10-07 British Telecomm Matching vectors
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
JP2920639B2 (ja) * 1989-03-31 1999-07-19 アイシン精機株式会社 移動経路探索方法および装置
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
GB8929146D0 (en) * 1989-12-22 1990-02-28 British Telecomm Neural networks
EP0481107B1 (de) * 1990-10-16 1995-09-06 International Business Machines Corporation Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell
JP3070127B2 (ja) * 1991-05-07 2000-07-24 株式会社明電舎 音声合成装置のアクセント成分制御方式
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
EP0710378A4 (de) * 1994-04-28 1998-04-01 Motorola Inc Verfahren und vorrichtung zur umwandlung von text in audiosignale unter verwendung eines neuralen netzwerks
US5610812A (en) * 1994-06-24 1997-03-11 Mitsubishi Electric Information Technology Center America, Inc. Contextual tagger utilizing deterministic finite state transducer

Also Published As

Publication number Publication date
EP0876660A1 (de) 1998-11-11
EP0876660B1 (de) 2004-01-02
DE69727046D1 (de) 2004-02-05
US5950162A (en) 1999-09-07
WO1998019297A1 (en) 1998-05-07
EP0876660A4 (de) 1999-09-29

Similar Documents

Publication Publication Date Title
DE69727046T2 (de) Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
EP1184839B1 (de) Graphem-Phonem-Konvertierung
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69925932T2 (de) Sprachsynthese durch verkettung von sprachwellenformen
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE69931813T2 (de) Verfahren und vorrichtung zur grundfrequenzermittlung
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE69917415T2 (de) Sprachsynthese mit Prosodie-Mustern
DE60118874T2 (de) Prosodiemustervergleich für Text-zu-Sprache Systeme
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69917961T2 (de) Phonembasierte Sprachsynthese
EP1336955B1 (de) Verfahren zur Erzeugung natürlicher Sprache in Computer-Dialogsystemen
EP0886853B1 (de) Auf mikrosegmenten basierendes sprachsyntheseverfahren
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz

Legal Events

Date Code Title Description
8339 Ceased/non-payment of the annual fee