DE69727046T2

DE69727046T2 - Verfahren, vorrichtung und system zur erzeugung von segmentzeitspannen in einem text-zu-sprache system

Info

Publication number: DE69727046T2
Application number: DE69727046T
Authority: DE
Inventors: Gerald Corrigan; Orhan Karaali; Noel Massey
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1996-10-30
Filing date: 1997-10-15
Publication date: 2004-06-09
Anticipated expiration: 2017-10-16
Also published as: EP0876660A1; EP0876660B1; DE69727046D1; US5950162A; WO1998019297A1; EP0876660A4

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf eine Text-zu-Sprache-Synthese und insbesondere auf die Erzeugung von Segmentdauern bei der Text-zu-Sprache-Synthese.
Hintergrund der Erfindung
Um Text in Sprache umzuwandeln, wird typischerweise ein Textstrom in eine Sprach-Wellenform umgewandelt. Dieser Prozess umfasst im Allgemeinen das Erfassen der zeitlichen Folge von Sprachereignissen aus einer phonetischen Repräsentation des Textes. Typischerweise bezieht dies die Bestimmung der Dauern von Sprachsegmenten ein, welche einigen Sprachelementen, typischerweise Lauten oder Phonemen, zugeordnet sind. Das bedeutet, dass zum Zwecke des Erzeugens der Sprache die Sprache als Abfolge von Segmenten betrachtet wird, wobei während jedes Segmentes irgendein speziel les Phonem oder ein Laut hervorgebracht wird (ein Laut ist eine spezielle Weise, in der ein Phonem oder ein Teil eines Phonems hervorgebracht werden kann). Beispielsweise kann der Laut „t" im Englischen in der synthetisierten Sprache als ein einzelner Laut repräsentiert werden, der ein geschlagener Laut, ein Knacklaut, ein „t"-Verschlusslaut oder ein behauchtes „t" sein könnte. Alternativ könnte es durch zwei Laute repräsentiert werden, einen „t"-Verschlusslaut gefolgt von einem behauchten „t". Das Sprachtiming wird durch Bestimmung der Dauern dieser Segmente aufgestellt.
Im Stand der Technik erzeugen regelbasierte Systeme Segmentdauern unter Verwendung vorbestimmter Formeln mit Parametern, die mittels Regeln angepasst werden, welche in einer Weise arbeiten, die durch den Kontext, in dem das phonetische Segment auftritt, zusammen mit der Identität des während des phonetischen Segmentes zu erzeugenden Lautes bestimmt wird. Aktuelle, auf neuronalen Netzwerken basierende Systeme stellen dem neuronalen Netzwerk vollständige phonetische Kontextinformationen zur Verfügung, was es für das Netzwerk leicht macht, auswendig zu lernen, statt zu generalisieren, was zu einer schlechten Leistung bei jeglicher Lautsequenz führt, die verschieden ist von denen, mit welchen das System trainiert wurde.
Die Patentanmeldung WO-A-9530193 nach dem Stand der Technik zeigt ein neuronalen Netzwerk zum Umwandeln von Text in hörbare Signale. Ein Zeitdauerprozessor weist jeder der Laut-Ausgaben eines Text-zu-Laut-Umwandlungsprozessors eine Dauer zu. Den Lauten werden Rahmen zugeordnet und es wird, basierend auf dem Laut, eine phonetische Repräsentation erzeugt. Die Repräsentation identifiziert den Laut und die dem Laut zugeordnete Artikulationscharakteristik. Es wird auch eine Beschreibung für jeden Rahmen erzeugt, welche aus der phonetischen Repräsentation des Rahmens, den phonetischen Repräsentationen anderer Rahmen in der Nachbarschaft des Rahmens und zusätzlichen Kontextdaten besteht. Ein neuronales Netzwerk nimmt die ihm gelieferte Kontextbeschreibung an. Das neuronale Netzwerk erzeugt eine akustische Repräsentation von Sprachparametern.
Es besteht daher ein Bedürfnis nach einem neuronalen Netzwerksystem, welches die Effekte vermeidet, wenn ein neuronales Netzwerk nur von Zufallskorrelationen in Trainingsdaten abhängt und welches stattdessen effiziente Segmentdauern liefert. Es ist die Aufgabe der vorliegenden Erfindung ein Verfahren und eine Vorrichtung gemäß den anhängenden Ansprüchen bereitzustellen.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines neuronalen Netzwerks, welches die Segmentdauer, wie im Stand der Technik bekannt, bestimmt.
2 ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt.
3 ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung.
4 ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung.
5 illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren der vorliegenden Erfindung enthält.
6 illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung zu erzeugen.
Beschreibung einer bevorzugten Ausführungsform
Die vorliegende Erfindung lehrt die Verwendung wenigstens eines der folgenden Punkte: Abbilden einer Sequenz von Lauten auf eine Sequenz von Artikulationsmerkmalen und Verwenden von Vorrangigkeits- und Begrenzungsinformationen zusätzlich zu einem vorbestimmten Satz von Regeln zu Typ, phonetischem Kontext, syntaktischem und prosodischem Kontext für Segmente, um ein System zur Verfügung zu stellen, welches mit einem kleinen Trainingssatz Segmentdauern effizient erzeugt.
1, Bezugszeichen 100, ist ein Blockdiagramm eines neuronalen Netzwerkes, welches die Segmentdauer bestimmt, wie dies im Stand der Technik bekannt ist. Die dem Netzwerk gelieferte Eingabe ist eine Sequenz von Repräsentationen von Phonemen (102), von denen eines das aktuelle Phonem ist, d. h. das Phonem für das aktuelle Segment oder dasjenige Segment, für welches die Dauer bestimmt wird. Die anderen Phoneme sind benachbarten Segmenten zugeordnete Phoneme, d. h. Segmenten, welche in Folge mit dem aktuellen Segment auftreten. Die Ausgabe des neuronalen Netzwerks (104) ist die Dauer (106) des aktuellen Segments. Das Netzwerk wird trainiert durch Erstellen einer Sprachdatenbank und Einteilen dieser in eine Sequenz von Segmenten. Diese Segmente, ihre Dauern und ihre Kontexte stellen dann einen Satz von Mustern zum Trainieren des neuronalen Netzwerks unter Verwendung einiger Trainingsalgorithmen, wie etwa der Fehler-Rückpropagation, bereit.
2, Bezugszeichen 200, ist ein Blockdiagramm eines regelbasierten Systems zur Bestimmung der Segmentdauer, wie im Stand der Technik bekannt. Bei diesem Beispiel werden Laut- und Kontextdaten (202) in das regelbasierte System eingegeben. Das regelbasierte System verwendet typischerweise bestimmte vorausgewählte Regeln, wie etwa (1) Bestimmen, ob ein Segment ein letztes Segment ist, welches einen silbischen Laut in einem Teilsatz (204) ausdrückt und (2) Bestimmen, ob ein Segment zwischen einem letzten Segment, welches einen silbischen Laut ausdrückt, und einem Ende eines Teilsatzes (206) liegt, multiplext (208, 210) die Ausgaben der bipolaren Fragen, um die Ausgaben gemäß einem vorbestimmten Schema zu Wichten und sendet die gewichteten Ausgaben an Multiplizierer (212, 214), welche in Reihe geschaltet sind, um Ausgabeinformationen zu empfangen. Die Laut- und Kontextdaten werden dann als Lautinformation (216) und eine Betonungsflagge (218), welche anzeigt, ob der Laut betont ist, an eine Look-Up-Tabelle (220) gesendet. Die Ausgabe der Look-Up-Tabelle wird an einen weiteren Multiplizierer (222), der in Reihe geschaltet ist, um Ausgaben zu empfangen, und einen Summierer (224), der mit dem Multiplizierer (222) verbunden ist, gesendet. Der Summierer (224) gibt die Dauer des Segmentes aus.
3, Bezugszeichen 300, ist ein Blockdiagramm eines Gerätes/Systems gemäß der vorliegenden Erfindung. Das Gerät erzeugt Segmentdauern für Eingabetext in einem Text-zu-Sprache-System, welches eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Gerät umfasst einen linguistischen Informationsvorprozessor (302) und ein vortrainiertes neuronales Netzwerk (304). Der linguistische Informationsvorprozessor (302) ist wirksam angeschlossen, um die linguistische Beschreibung der auszugebenden Sprache zu empfangen und wird verwendet, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten umfasst, welche das beschriebene Segment umgeben sowie eine beschreibende Information für einen dem Segment zugeordneten Kontext. Das vortrainierte neuronale Netzwerk (304) ist wirksam mit dem linguistischen Informationsvorprozessor (302) verbunden und wird verwendet, um mittels des neuronalen Netzwerkes eine Repräsentation der dem Segment zugeordneten Dauer zu erzeugen.
Typischerweise umfasst die linguistische Definition von Sprache eine Sequenz von Laut-Identifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem einer der identifizierten Laute ausgedrückt wird. In diesem Fall enthält jede Segmentbeschreibung wenigstens die Laut-Identifikation für denjenigen Laut, der gerade ausgedrückt wird.
Beschreibende Information umfasst typischerweise wenigstens einen der folgenden Punkte: A) Artikulationsmerkmale, welche jedem Laut in der Sequenz von Lauten zugeordnet sind, B) Positionen von Silben-, Wort- und anderen syntaktischen oder Intonationsbegrenzungen, C) Information zur Silbenstärke, D) beschreibende Information eines Worttyps, und E) Regelanwendungsinformation, d. h. Information welche veranlasst, dass eine Regel ausgeführt wird.
Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer. Wo erwünscht, kann die Repräsentation der Dauer so eingerichtet werden, dass sie eine Dauer liefert, die größer ist als eine Dauer, die zu liefern das neuronale Netzwerk trainiert wurde. Typischerweise ist das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten für das vortrainierte Netzwerk werden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierte Laute, Markieren jeglicher weiterer syntaktischer, Intonations- und Betonungsinformation, welche in dem Gerät verwendet wird, und Umrechnen in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
Das Gerät der vorliegenden Erfindung kann beispielsweise in einem Text-zu-Sprache-Syntheziser oder in jedem Text-zu-Sprache-System implementiert werden.
4, Bezugszeichen 400, ist ein Flussdiagramm einer Ausführungsform von Schritten eines Verfahrens gemäß der vorliegenden Erfindung. Das Verfahren sorgt für das Erzeugen von Segmentdauern in einem Text-zu-Sprache-System, welches für Eingabetext eine linguistische Beschreibung von auszugebender Sprache erzeugt, einschließlich wenigstens einer Segmentbeschreibung. Das Verfahren umfasst die Schritte: A) Erzeugen (402) eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten enthält, welche das beschriebene Segment umgeben, und beschreibende Information für einen zu dem Segment gehörigen Kontext; B) Bereitstellen (404) des Informationsvektors als Eingabe in ein vortrainiertes neu ronales Netzwerk; und C) Erzeugen (406) einer Repräsentation der dem Segment zugeordneten Dauer mittels des neuronalen Netzwerkes.
Wie in dem Gerät umfasst die linguistische Sprachbeschreibung eine Sequenz von Lautidentifikationen, und jedes Sprachsegment ist ein Sprachabschnitt, in welchem eines der identifizierten Laute ausgedrückt wird. In diesem Fall umfasst jede Segmentbeschreibung wenigstens die Lautidentifikation für denjenigen Laut, der gerade ausgedrückt wird.
Wie bei dem Gerät umfasst die beschreibende Information wenigstens einen der folgenden Punkte: A) Jedem Laut in der Sequenz von Lauten zugeordnete Artikulationsmerkmale, B) Positionen von Silben-, Wort- und anderen syntaktischen und Intonations-Begrenzungen, C) Information zur Silbenstärke, D) beschreibende Information zu einem Worttyp; und E) Regelanwendungsinformation.
Die Repräsentation der Dauer ist im Allgemeinen ein Logarithmus der Dauer und kann, wo ausgewählt, eingerichtet sein, um eine Dauer zu liefern, welche größer ist als eine Dauer, die zu liefern das vortrainierte neuronale Netzwerk trainiert worden ist (408). Das vortrainierte neuronale Netzwerk ist typischerweise ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk, welches unter Verwendung der Fehler-Rückpropagation trainiert wurde. Trainingsdaten werden typischerweise wie oben beschrieben erzeugt.
5, Bezugszeichen 500, illustriert einen Text-zu-Sprache-Syntheziser, welcher das Verfahren gemäß der vorliegenden Erfindung umfasst. Der Eingabetext wird analysiert (502), um einen Strang von Lauten (504) zu erzeugen, welche in Silben (506) gruppiert werden. Die Silben werden ihrerseits in Wörter und Typen (508) gruppiert, welche in Ausdrücke (510) gruppiert werden, die in Teilsätze (512) gruppiert werden, welche in Sätze (514) gruppiert werden. Die Silben weisen einen ihnen zugeordneten Indikator auf, der andeuten, ob sie unbetont sind, eine sekundäre Betonung in einem Wort haben oder die primäre Betonung in dem Wort, welches sie enthält, tragen. Wörter enthalten Informationen, die andeuten, ob sie Funktionswörter (Präpositionen, Pronomen, Konjunktionen oder Artikel) oder Inhaltswörter (alle anderen Wörter) sind. Das Verfahren wird dann verwendet, um Dauern (518) von Segmenten zu erzeugen (516), die jedem Laut in einer Sequenz von Lauten zugeordnet sind. Diese Dauern werden zusammen mit dem Ergebnis der Textanalyse einer Linguistik-zu-Akustik-Einheit (520) zur Verfügung gestellt, welche eine Sequenz von akustischen Beschreibungen (522) von kurzen Sprachrahmen (10 ms-Rahmen bei der bevorzugten Ausführungsform) erzeugt. Diese Sequenz von akustischen Beschreibungen wird einem Wellenform-Generator (524) zur Verfügung gestellt, der das Sprachsignal (526) erzeugt.
6, Bezugszeichen 600, illustriert das Verfahren der vorliegenden Erfindung, welches angewendet wird, um eine Dauer eines einzelnen Segmentes unter Verwendung einer linguistischen Beschreibung (602) zu erzeugen. Als Eingabe in das neuronale Netzwerk (610) wird eine Sequenz von Laut-Identifikationen (604) erzeugt, welche die Identifikation des Lautes enthält, der dem Segment, für. welches die Dauer erzeugt wird, zugeordnet ist. Bei der bevorzugten Ausführungsform ist dies eine Sequenz von fünf Laut-Identifikationen, die in dem dem Segment zugeordneten Laut zentriert ist, und jede Lautidentifikation ist ein Vektor aus binären Werten, wobei einer der binären Werte in dem Vektor auf eins gesetzt ist und der andere binäre Wert auf null gesetzt ist. Eine ähnliche Sequenz von Lauten wird in einen Laut-zu-Merkmal-Umwandlungsblock (606) eingegeben, welcher einer Sequenz von Merkmalsvektoren (608) als Eingabe für das neuronale Netzwerk (610) liefert.
Bei der bevorzugten Ausführungsform ist die an den Laut-zu-Merkmal-Umwandlungsblock gelieferte Lautsequenz identisch mit der dem neuronalen Netzwerk gelieferten Lautsequenz. Die Merkmalsvektoren sind binäre Vektoren, die jeweils mittels einer der eingegebenen Lautidentifikationen bestimmt werden, wobei jeder binäre Wert in dem binären Vektor einige Tatsachen über den identifizierte Laut repräsentiert. Beispielsweise kann ein binärer Wert auf eins gesetzt werden, wenn, und nur wenn, der Laut ein Vokal ist. Bei einer weiteren, ähnlichen Lautsequenz wird ein Informationsvektor (612) bereitgestellt, welcher Begrenzungen beschreibt, die jedem Laut zufallen, sowie die Charakteristiken der Silben und Wörter, die jeweils den Laut enthalten. Schließlich verarbeitet eine Regelanwendungs-Extraktionseinheit (614) die Eingabe in das Verfahren, um einen binären Vektor (616) zu erzeugen, der den Laut und den Kontext für das Segment, für welches die Dauer gerade erzeugt wird, beschreibt. Jeder der binären Werte in dem binären Vektor wird auf eins gesetzt, wenn, und nur wenn, eine Aussage über das Segment und seinen Kontext wahr ist; z. B. „das Segment ist das letzte Segment, welches einem silbischen Laut in dem Teilsatz, der das Segment enthält, zugeordnet ist". Dieser binäre Vektor (616) wird auch an das neuronale Netzwerk geliefert. Aus dieser gesamten Eingabe erzeugt das neuronale Netzwerk einen Wert, welcher die Dauer repräsentiert. Bei der bevorzugten Ausführungsform wird die Ausgabe des neuronalen Netzwerks (der die Zeitdauer repräsentierende Wert, 618) an eine Antilogarithmus-Funktionseinheit (620) geliefert, welche die tatsächliche Dauer (622) des Segments berechnet.
Die Schritte des Verfahrens können in einer Speichereinheit eines Computers oder alternativ in einem berührbaren Medium eines/für einen digitalen Signalprozessor, DSP, eines/für einen anwendungsspezifischen integrierten Schaltkreis, ASIC ("Application Specific Integrated Circuit") oder eines Gate-Arrays verkörpert sein.
Die beschriebenen Ausführungsformen sollen in jeder Hinsicht lediglich als illustrativ und nicht restriktiv betrachtet werden. Der Erfindungsbereich wird daher eher durch die anhängenden Ansprüche als durch vorangehende Beschreibung bezeichnet.

Claims

Verfahren zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System, wobei für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung erzeugt, die Schritte umfasst sind: 1A) Erzeugen eines Informationsvektors für jede Segmentbeschreibung in der linguistischen Beschreibung, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen zu dem beschriebenen Segment gehörigen Kontext enthält; 1B) Bereitstellen des Informationsvektors als Eingabe. in ein vortrainiertes neuronales Netzwerk; 1C) Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels eines neuronalen Netzwerks; 1D) Beschreiben der Sprache als eine Sequenz von Lautidentifikationen, wobei Segmente, für welche eine Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen ent halten und wobei die beschreibende Information wenigstens einen der Punkte 1D1–1D5 enthält: 1D1) jedem Laut der Lautsequenz zugeordnete Artikulationsmerkmale; 1D2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 1D3) Information zur Silbenstärke; 1D4) beschreibende Information eines Worttyps; und 1D5) Regelanwendungsinformation.
Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte 2A oder 2B: 2A) Die Repräsentation der Dauer ist ein Logarithmus der Dauer; und 2B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist, als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde.
Verfahren nach Anspruch 1, wobei das vortrainierte neuronale Netzwerk ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk ist und wobei, wo ausgewählt, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo weiter ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche bei dem Ver fahren verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
Verfahren nach Anspruch 1, umfassend wenigstens einen der Punkte 4A-4D: 4A) die Schritte des Verfahrens sind in einer Speichereinheit eines Computers gespeichert; 4B) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen digitalen Signalprozessor, DSP, verkörpert; 4C) die Schritte des Verfahrens sind in einem berührbaren Medium von einem/für einen anwendungsspezifischen integrierten Schaltkreis (ASIC: Application Specific Integrates Circuit) verkörpert; und 4D) die Schritte des Verfahrens sind in einem berührbaren Medium eines Gate-Arrays verkörpert.
Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, umfassend: 5A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; 5B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; und 5C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 5C1-5C5 enthält: 5C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 5C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 5C3) Information zur Silbenstärke; 5C4) beschreibende Information eines Worttyps; und 5C5) Regelanwendungsinformation.
Vorrichtung nach Anspruch 5, umfassend wenigstens einen der Punkte 6A-6C: 6A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 6B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 6C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
Vorrichtung nach Anspruch 6, wobei, in 6C, das vortrainierte neuronale Netzwerk unter Verwendung von Fehler-Rückpropagation trainiert wurde und wobei, wo ausgewählt, Trainingsdaten für das vortrainierte Netzwerk erzeugt wurden durch Aufnehmen natürlicher Sprache, Einteilen von Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in der Vorrichtung verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.
Text-zu-Sprache-Syntheziser mit einer Vorrichtung zum Erzeugen von Segmentdauern bei einem Text-zu-Sprache-System für Eingabetext, der eine linguistische Beschreibung von auszugebender Sprache, einschließlich wenigstens einer Segmentbeschreibung, erzeugt, wobei die Vorrichtung umfasst: 8A) einen linguistischen Informationsvorprozessor, der wirksam gekoppelt ist, um die linguistische Beschreibung von auszugebender Sprache zu empfangen, um einen Informationsvektor für jede Segmentbeschreibung in der linguistischen Beschreibung zu erzeugen, wobei der Informationsvektor eine Beschreibung einer Sequenz von Segmenten, welche ein beschriebenes Segment umgeben, sowie beschreibende Information für einen einem Phonem zugeordneten Kontext enthält; und 8B) ein vortrainiertes neuronales Netzwerk, welches wirksam mit dem linguistischen Informationsvorprozessor gekoppelt ist, zum Erzeugen einer Repräsentation einer dem beschriebenen Segment zugeordneten Dauer mittels des vortrainierten neuronalen Netzwerks; 8C) die Sprache wird beschrieben als eine Sequenz von Lautidentifikationen, wobei die Segmente, für welche die Dauer erzeugt wird, Sprachsegmente sind, welche vorbestimmte Laute in der Sequenz von Lautidentifikationen ausdrücken, und wobei Segmentbeschreibungen die Lautidentifikationen enthalten, und wobei die beschreibende Information wenigstens einen der Punkte 8C1-8C5 enthält: 8C1) jedem Laut in der Lautsequenz zugeordnete Artikulationsmerkmale; 8C2) Positionen von Silben-, Wort- und anderen syntaktischen und Intonationsgrenzen; 8C3) Information zur Silbenstärke; 8C4) beschreibende Information eines Worttyps; und 8C5) Regelanwendungsinformation.
Text-zu-Sprache-Syntheziser nach Anspruch 8, umfassend wenigstens einen der Punkte 9A bis 9C: 9A) die Repräsentation der Dauer ist ein Logarithmus der Dauer; 9B) die Repräsentation der Dauer ist eingerichtet, eine Dauer zu liefern, die größer ist als eine Dauer, welche zu liefern das vortrainierte neuronale Netzwerk trainiert wurde; und 9C) das vortrainierte neuronale Netzwerk ist ein vorwärtsgekoppeltes ("feedforward") neuronales Netzwerk.
Text-zu-Sprache-Syntheziser nach Anspruch 9, umfassend wenigstens einen der Punkte 10A-10B: 10A) das vortrainierte neuronale Netzwerk wurde unter Verwendung von Fehler-Rückpropagation trainiert; und 10B) Trainingsdaten für das vortrainierte Netzwerk wurden erzeugt durch Aufnehmen natürlicher Sprache, Einteilen der Sprachdaten in identifizierten Lauten zugeordnete Segmente, Markieren irgendwelcher weiterer syntaktischer, Intonations- und Betonungsinformationen, welche in dem Text-zu-Sprache-Syntheziser verwendet werden, und Verarbeiten in Informationsvektoren und Zielausgabe für das neuronale Netzwerk.