DE69627865T2

DE69627865T2 - Sprachsynthesizer mit einer datenbank für akustische elemente

Info

Publication number: DE69627865T2
Application number: DE69627865T
Authority: DE
Inventors: Bernd Moebius; Philip Joseph OLIVE; Abraham Michael TANENBLATT; Pieter Jan VAN SANTEN
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1995-08-16
Filing date: 1996-08-02
Publication date: 2004-02-19
Anticipated expiration: 2016-08-03
Also published as: JP3340748B2; EP0845139A4; CA2222582A1; DE69627865D1; CA2222582C; EP0845139B1; EP0845139A1; MX9801086A; US5751907A; WO1997007500A1; BR9612624A; JP2000509157A; TW305990B; AU6645096A

Description

GEBIET DER ERFINDUNG
Die Erfindung betrifft Sprachsynthese im Allgemeinen, und im Besonderen eine Datenbank, die akustische Elemente zum Verwenden beider Sprachsynthese enthält.
ALLGEMEINER STAND DER TECHNIK
Regelbasierte Sprachsynthese wird verwendet für verschiedene Arten von Sprachsyntheseanwendungen, einschließlich Text-zu-Sprache- und Sprachausgabesysteme. Ein typisches regelbasiertes Sprachsyntheseverfahren betrifft das Verketten von diphonen phonetischen Sequenzen, die aus aufgezeichneter Sprache stammen, um neue Wörter und Sätze zu bilden. Ein Beispiel dieser Art von Text-zu-Sprache-Tongenerator ist das TTS-System, das von einer Schwestergesellschaft des Besitznachfolgers der vorliegenden Erfindung hergestellt wird und beschrieben ist in R. W. Sproat und J. P. Olive, „Text-to-Speech Synthesis", AT&T Technical Journal, Vol. 74, Nr. 2, Seiten 35 bis 44 (März/April 1995).
Ein Phonem entspricht der kleinsten Einheit von Sprachtönen, die dazu dient, eine Äußerung von einer anderen zu unterscheiden. Zum Beispiel entspricht in der englischen Sprache das Phonem /r/ dem Ton für den Buchstaben „R". Ein phonetisches Segment ist die spezielle Äußerung eines Phonems. In gleicher Weise ist eine phonetische Sequenz ein Sprachabschnitt einer Sequenz von aneinanderhängenden phonetischen Segmenten. Eine diphone phonetische Sequenz ist eine phonetische Sequenz, die in einem im Wesentlichen in der Mitte eines phonetischen Segments angeordneten Abschnitt eines phonetischen Segments beginnt, und in einem im Wesentlichen in der Mitte eines phonetischen Segments angeordneten Abschnitt des nächsten phonetischen Segments endet. Infolgedessen entspricht ein Diphon dem Übergang von einem Phonem zum nächsten.
Üblicherweise weist der in der Mitte eines phonetischen Segments, das einem Phonem entspricht, angeordnete Abschnitt im Wesentlichen gleich bleibende akustische Eigenschaften auf, die sich mit der Zeit nicht drastisch verändern. Dementsprechend sollte jegliche Lücke, die an einem Übergang zwischen zwei verketteten phonetischen Sequenzen entstanden ist, ziemlich klein sein. Verkettete phonetische Sequenzen, die von verschiedenen Äußerungen stammen, erzeugen oft wahrnehmbare Lücken, welche die Verständlichkeit der sich daraus ergebenden akustischen Signale beeinträchtigen.
Zu den Sprachsyntheseverfahren, die das Lückenproblem ansprechen, gehören die Verfahren, die beschrieben sind in N. Iwahashi und Y. Sagisaka, „Speech Segment Network Approach for an Optimal Synthesis Unit Set", Computer Speech and Language, Seiten 1 bis 16 (Academic Press Limited 1995) (Artikel von Iwahashi et al.) und in H. Kaeslin, „A Systematic Approach to the Extraction of Diphone Elements from Natural Speech", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 34, Nr. 2, Seiten 264 bis 271 (April 1986) (Artikel von Kaeslin).
Das Verfahren des Artikels von Iwahashi benützt Optimierungsverfahren, um diphone phonetische Sequenzen aus voraufgezeichneter Sprache auszuwählen, die mit reduzierten Lücken beziehungsweise weniger Verzerrung zwischen den Segmenten wiedervereinigt werden können. Im Besonderen bestimmt dieses Verfahren Werte für die Verzerrungen zwischen den Segmenten der Vielzahl an Kombinationen verschiedener aus aufgezeichneter Sprache entnommener phonetischer Sequenzen. Die sich daraus ergebenden Verzerrungswerte werden dann ausgewertet unter Verwendung von mathematischer Optimierung, um die insgesamt beste Sequenz für jedes in einer bestimmten Sprache verwendete Diphon auszuwählen. Dieses Verfahren ist jedoch rechnerisch übermäßig komplex und würde wahrscheinlich spezielle Computer oder unerwünscht lange Rechenzeiten erfordern. Außerdem, obwohl die diphone Phonetik in der gleich bleibenden Mitte eines phonetischen Segments beginnt und in der gleich bleibenden Mitte des nächsten phonetischen Segments endet, gibt es oft bestimmte Punkte in den mittleren Bereichen, die Sequenzen erzeugen, die reduzierte Verkettungsverzerrungen erreichen, wenn sie als Zerlegungspunkte verwendet werden.
Folglich hängt die Reduzierung der Verzerrung zwischen den Segmenten im Wesentlichen von der Qualität der Auswahl der bestimmten Start- und Endzerlegungspunkte für jede der phonetischen Sequenzen ab. Diese Zerlegungspunkte werden üblicherweise von einer Bedienungsperson bestimmt, welche die Sequenzen aus der aufgezeichneten Sprache entnimmt, ohne zu wissen, welche Zerlegungspunkte wesentliche Vorteile bieten.
Der Artikel von Kaeslin offenbart ein Verfahren, das versucht, die optimalen Start- und Endzerlegungspunkte zu bestimmen, um Verkettungslücken zu minimieren. Dieses Verfahren erzeugt Trajektorien für Formant-Frequenzen aller diphonen phonetischen Sequenzen, die ein phonetisches Segment enthalten, das einem bestimmten Phonem entspricht. Formanttrajektorien sind eine zeitabhängige grafische Darstellung der gemessenen Resonanzfrequenzen, aus denen eine Äußerung besteht. Das Verfahren bestimmt dann einen Schwerpunktvektor auf der Grundlage dieser Trajektorien. Der Artikel definiert einen Schwerpunktvektor als einen Vektor, der „die Summe der Quadrate zwischen sich selbst und den nächsten Punkten auf einem Satz von Trajektorien minimiert .... Abstände werden mit Hilfe des Verhältnisabstands der aufgezeichneten Fläche gemessen." Dann schneidet das Verfahren die phonetischen Sequenzen aus der aufgezeichneten Sprache, um diphone Datenbankelemente an Zeitpunkten zu bilden, die den Punkten auf den Trajektorien entsprechen, die dem Schwerpunktvektor am nächsten liegen.
Die Bestimmung der Schwerpunktvektoren ist jedoch sehr schwierig und basiert zunächst auf einer „Schätzung" der Bedienungsperson. Wenn eine schlechte „Schätzung" gemacht wird, kann aufgrund der Natur der Trajektorien ein Schwerpunktvektor nicht richtig annähernd für einen Satz von örtlichen Trajektorien bestimmt werden, wenn in Wahrheit der tatsächliche Schwerpunktvektor für alle Trajektorien woanders liegt. Die Verwendung eines falschen Schwerpunktvektors führt zu Sequenzzerlegungspunkten, die eine kleine beziehungsweise eine unannehmbar kleine Reduzierung der Lücken zur Folge haben.
Folglich besteht eine Notwendigkeit für ein Aufbauverfahren für eine akustische Segmentdatenbank, die automatisch die korrekten Zerlegungspunkte für jedes Segment bestimmt und die im Wesentlichen Lücken in den sich daraus ergebenden verketteten Segmenten minimiert.
KURZDARSTELLUNG DER ERFINDUNG
Ein Gerät zum Erzeugen synthetischer Sprache verwendet eine Datenbank akustischer Elemente, die akustische Elemente beinhaltet, die aus ausgewählten phonetischen Sequenzen gebildet sind, die aus einem Sprachsignal an bestimmten Zerlegungspunkten entnommen worden sind. Gemäß der vorliegenden Erfindung entsprechen diese Zerlegungspunkte Zeitpunkten entlang den Trajektorien, welche am nächsten beim beziehungsweise innerhalb des Toleranzbereichs liegen. Die Größe des Toleranzbereichs sollte so vorbestimmt sein, dass eine gewünschte Mindesttonqualität in verketteten akustischen Elementen erreicht wird, deren Zerlegungspunkte eines phonetischen Verbindungselements den Zeitpunkten innerhalb der Randabschnitte des Toleranzbereichs entsprechen. Die Positionierung des Toleranzbereichs wird festgelegt auf Grundlage einer Konzentration von Trajektorien, die verschiedenen Phonemsequenzen entsprechen. Zum Beispiel kann ein Toleranzbereich ein Bereich eines naturgetreuen Raumes sein, in dem die Trajektorien gebildet werden, der einer höchsten Konzentration von Trajektorien entspricht, die verschiedenen Phonemsequenzen entsprechen. Mit anderen Worten, der Bereich, der von der im Wesentlichen größten Zahl von solchen Trajektorien geschnitten wird oder diesen am nächsten liegt.
Folglich hängt die Erfindung von einem wesentlichen und unerwarteten Nutzen ab, der erreicht wird durch Verwenden einer erhöhten Vielfalt von Trajektorien beim Bestimmen der Position des Toleranzbereichs. Diese Vielfalt ermöglicht der Erfindung, bestimmte phonetische Sequenzen und Zerlegungspunkte zur Bildung von akustischen Elementen exakter auszuwählen, wodurch eine Reduzierung von Verkettungslücken erreicht wird.
Gemäß einer Ausführungsform der vorliegenden Erfindung ist der naturgetreue Raum für die Trajektorien bedeckt mit mehreren angrenzenden Zellen. In einer solchen Ausführungsform ist es möglich, eine Gittersuche der Zellen zu benützen, um den Toleranzbereich durch Identifizieren des Bereichs von zumindest einer Zelle zu bestimmen, die von einer überdurchschnittlichen Zahl von Trajektorien geschnitten wird, die verschiedenen Phonemsequenzen entsprechen.
Gemäß einer anderen Ausführungsform der vorliegenden Erfindung werden die Zellen identifiziert, die in einem Bereich angeordnet sind, der jeden Zeitpunkt entlang einer Trajektorie umgibt. Für jede identifizierte Zelle wird eine für diese Zelle geführte Liste mit der Identifizierung der Phonemsequenz für diese Trajektorie aktualisiert. Die Identifizierung einer bestimmten Phonemsequenz sollte jedoch nicht zu einer Zellenliste hinzugefügt werden, wenn sie bereits in dieser Liste aufscheint. Da das Verfahren nur die Zellen untersucht und aktualisiert, die innerhalb des Auflösungsbereichs der Trajektorienzeitpunkte liegen, ist es schneller als das Gittersuchverfahren, das jede Zelle im naturgetreuen Raum einzeln untersucht. Da eine Identifizierung einer Phonemsequenz nur ein einziges Mal zu einer Liste hinzugefügt wird, wird des Weiteren eine Vielfalt von Trajektorien beim Bestimmen des Toleranzbereichs erreicht.
Des Weiteren können die Listen der Zellen gekennzeichnet sein von einer indizierten Datenstruktur, um das Aktualisieren der Listen für Zellen innerhalb eines bestimmten Bereichs rund um einen Trajektorienzeitpunkt zu ermöglichen. Auf diese Weise können die Trajektorienzeitpunkte unter Verwendung eines Konvertierungsfaktors in indizierte Werte umgesetzt werden. Dann können Auslösungswerte zu den umgewandelten indizierten Werten hinzugefügt beziehungsweise von diesen abgezogen werden, um die indizierten Werte der Zelllisten zu bestimmen, die den Zellen innerhalb des bestimmten Bereichs entsprechen. Die Zelle mit der längsten Liste kann dann mühelos für eine Bestimmung des Toleranzbereichs identifiziert werden.
In der Folge kann eine Datenbank akustischer Elemente gemäß der vorliegenden Erfindung in einer rechnerisch einfachen und raschen Weise erzeugt werden, ohne dass besondere Computer oder lange Verarbeitungszeiten erforderlich sind. Eine solche Datenbank weist relativ geringe Speicheranforderungen auf und enthält akustische Elemente, die zu relativ natürlich klingender, synthetisch erzeugter Sprache verkettet werden können. Da die akustischen Elemente aus dem Sprachsignal unter Verwendung von Zerlegungspunkten ausgewählt werden, die auf dem jeweiligen Toleranzbereich beruhen, ist die Anzahl von wahrnehmbaren Lücken, die bei der Verkettung vorkommen, reduziert.
Zusätzliche Eigenschaften und Vorteile der vorliegenden Erfindung sind aus der folgenden, ausführlichen Beschreibung und den beiliegenden Zeichnungen klar ersichtlich.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 bildet ein schematisches Blockdiagramm eines als Beispiel dienenden Test-zu-Sprache-Tongenerators ab, der eine Datenbank akustischer Elemente gemäß der vorliegenden Erfindung verwendet;
2A–2C bilden Sprachspektrogramme von als Beispiel dienenden Formanten eines phonetischen Segments ab;
3 bildet ein Flussdiagramm eines als Beispiel dienenden Verfahrens zum Bilden der Datenbank akustischer Elemente in 1 gemäß der vorliegenden Erfindung ab;
4 bildet ein Schaubild von als Beispiel dienenden Trajektorien für phonetische Sequenzen zum Verwenden beim Verfahren in 3 ab; und
5 bildet ein Flussdiagramm eines als Beispiel dienenden Verfahrens zum Bestimmen eines Toleranzbereichs zum Verwenden beim Verfahren in 3 ab.
AUSFÜHRLICHE BESCHREIBUNG
Ein als Beispiel dienender Text-zu-Sprache-Tongenerator 1, der eine Datenbank akustischer Elemente 5 gemäß der vorliegenden Erfindung verwendet, ist in 1 gezeigt. Zur Klarheit der Erklärung sind funktionelle Komponenten des Text-zu-Sprache-Tongenerators 1 durch Kästen in 1 dargestellt. Die in diese Kästen ausgeführten Funktionen können durch die Verwendung von entweder gemeinsamer benutzter oder zugeordneter Hardware, einschließlich, aber nicht beschränkt auf, integrierte Schaltkreise für bestimmte Funktionen, oder einen oder mehrere Prozessoren, die Software ausführen, bereitgestellt werden. Die Verwendung des Begriffs „Prozessor" und aller Formen dieses Begriffs ist nicht auszulegen als ausschließlicher Verweis auf Hardware, die fähig ist Software auszuführen, und kann sich auch auf entsprechende Softwareroutinen beziehen, welche die entsprechenden Funktionen ausführen und miteinander kommunizieren.
Datenbank 5 in 1 kann sich auf einem Speichermedium, wie für Computer lesbare Speicher, einschließlich zum Beispiel einer CD-ROM, einer Diskette, einer Festplatte, einem Nur-Lese-Speicher, (ROM) oder einem Lese-/Schreibspeicher (RAM), befinden. Die Datenbank 5 enthält akustische Elemente, die verschiedenen phonetischen Sequenzen oder Polyphonen, einschließlich Allophonen, entsprechen. (Allophone sind Varianten von Phonemen, die auf umgebenden Sprachklängen beruhen. Zum Beispiel sind das gehauchte /p/ des Wortes pit und das ungehauchte /p/ des Wortes split Allophone des Phonems /p/.)
Damit die Datenbank 5 von mäßiger Größe bleibt, sollten die akustischen Elemente im Allgemeinen beschränkten Phonemsequenzen entsprechen, wie zum Beispiel ein bis drei Phoneme. Die akustischen Elemente sind phonetische Sequenzen, die in der im Wesentlichen gleich bleibenden Mitte eines Phonems beginnen und in der gleich bleibenden Mitte eines anderen Phonems enden. Es ist möglich, die akustischen Elemente in der Datenbank 5 in Form von linearen Prädikt onscodier(LPC)-Parametern oder digitalisierter Sprache zu speichern, die zum Beispiel in J. P. Olive, „A New Algorithm for a Concatenative Speech Synthesis System Using an Augmented Acoustic Inventory of Speech Sounds", Proceedings of the ESCA Workshop on Speech Synthesis, Seiten 25 bis 30 (1990) ausführlich beschrieben sind.
Der Text-zu-Sprache-Tongenerator 1 enthält einen Textanalysator 10, einen Abrufprozessor für akustische Elemente 15, einen Elementverarbeitungs- und Verkettungs(EPC)-Prozessor 20, einen digitalen Spracherzeuger 25, und einen Digital-zu-analog(D/A)-Umwandler 30. Der Textanalysator 10 empfängt Text in einem lesbaren Format, wie dem ASCII-Format, und zerlegt den Text in Wörter und wandelt Abkürzungen und Zahlen in Worte um. Dann werden die Worte in Phonemsequenzen getrennt auf Grundlage der in der Datenbank 5 verfügbaren akustischen Elemente. Dann werden diese Phonemsequenzen zum Abrufprozessor für akustische Elemente 15 übertragen.
Verfahren zum Zerlegen von Wörtern in Phonemsequenzen und zum Umwandeln der Abkürzungen und Zahlen sind zum Beispiel beschrieben in K. Church, „A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text", Proceedings of the Second Conference on Applied Natural Language Processing, Seiten 136 bis 143 (Morristown, NJ 1988); J. Hirschberg, „Pitch Accent in Context: Predicting International Prominence From Text", Artificial Intelligence, Vol. 63, Seiten 305 bis 340 (1993); R. Sproat, „English Noun-Phrase Accent Prediction for Text-to-Speech", Computer Speech and Language, Vol. 8, Seiten 79 bis 94 (1994); und C. Coker et al., „Morphology and Rhyming: Two Powerful Alternatives to Letter-to-Sound Rules for Speech, Proceedings of the ESCA Workshop on Speech Synthesis, Seiten 83 bis 86 (1990).
Des Weiteren bestimmt der Textanalysator 10 Dauer, Amplitude und Grundfrequenz jeder der Phonemsequenzen und übermittelt diese Informationen an den EPC-Prozessor 20. Verfahren zum Bestimmen der Dauer umfassen zum Beispiel die in J. van Santen, „Assignment of Segmental Duration in Text-to-Speech Synthesis", Computer Speech and Language, Vol. 8, Seiten 95 bis 128 (1994) beschriebenen. Verfahren zum Bestimmen der Amplitude einer Phonemsequenz sind zum Beispiel beschrieben in L. Oliveira, „Estimation of Source Parameters by Frequency Analysis", ESCA EUROSPEECH-93, Seiten 99 bis 102 (1993). Die Grundfrequenz eines Phonems wird ersatzweise auch Tonhöhe oder Intonation des Segments genannt. Verfahren zum Bestimmen der Grundfrequenz oder Tonhöhe sind zum Beispiel beschrieben in M. Anderson et al., „Synthesis by Rule of English Intonation Patterns", Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Vol. 1, Seiten 2.8.1 bis 2.8.4 (San Diego 1984).
Der Abrufprozessor für akustische Elemente 15 empfängt die Phonemsequenzen vom Textanalysator 10 und wählt dann die jeweils richtigen akustischen Elemente von der Datenbank 5 aus und ruft sie ab. Verfahren zur Auswahl von akustischen Elementen sind zum Beispiel beschrieben im oben genannten Text von Olive. Dann werden die abgerufenen akustischen Elemente durch den Abrufprozessor für akustische Elemente 15 an den EPC-Prozessor 20 übermittelt. Der EPC-Prozessor 20 modifiziert jedes der abgerufenen akustischen Elemente durch Anpassen ihrer Grundfrequenz und Amplitude und Einsetzen der richtigen Dauer beruhend auf der entsprechenden Information, die vom Textanalysator 10 abgerufen wird. Dann verkettet der EPC-Prozessor 20 die modifizierten akustischen Elemente zu einem Strang von akustischen Elementen, der die Texteingabe des Textanalysators 10 entspricht. Verkettungsverfahren für den EPC-Prozessor 20 sind im oben genannten Oliveira-Artikel beschrieben.
Der vom EPC-Prozessor 20 erzeugte Strang akustischer Elemente wird einem digitalen Sprachgenerator 25 bereitgestellt, der digitale Signale erzeugt, die der natürlichen Sprache des akustischen Elementstrangs entsprechen. Als Beispiel dienende Verfahren digitaler Sprachsynthese sind ebenfalls im oben genannten Oliveira-Artikel beschrieben. Die vom digitalen Sprachgenerator 25 erzeugten digitalen Signale werden dem D/A-Umwandler 30 bereitgestellt, der entsprechende analoge Signale erzeugt. Solche analogen Signale können einem Verstärker und einem Lautsprecher (nicht gezeigt) bereitgestellt werden, um natürlich klingende synthetisch erzeugte Sprache zu erzeugen.
Eigenschaften phonetischer Sequenzen im Zeitverlauf können in verschiedenen Darstellungen wiedergegeben werden, einschließlich Formanten, Amplituden und nichtspektraler Darstellungen, einschließlich Zeptraldarstellungen oder jeglicher LPC-abgeleiteter Parameter. 2A bis 2C zeigen Sprachspektrogramme 100A, 100B und 100C verschiedener Formantenfrequenzen oder Formanten F1, F2 und F3 für ein phonetisches Segment, das dem Phonem /i/ entspricht, das von aufgezeichneter Sprache einer Phonemsequenz /p-i/ entnommen worden ist. Die Formanten F1 bis F3 sind Trajektorien, welche die verschiedenen gemessenen Resonanzfrequenzen des Vokaltrakts des menschlichen Sprechers darstellen. Formanten für die verschiedenen gemessenen Resonanzfrequenzen werden üblicherweise als F1, F2, ... bezeichnet, beruhend auf der Spektralenergie, die in den jeweiligen Formanten enthalten ist.
Formantenfrequenzen hängen von der Form und der Größe des Vokaltrakts ab. Verschiedene Töne werden durch Verändern der Form des Vokaltrakts gebildet. Folglich verändern sich die Spektraleigenschaften des Sprachsignals mit der Zeit, da sich die Form des Vokaltrakts während der Äußerung des Phonemsegments /i/, wie in den 2A bis 2C gezeigt, verändert. Die drei Formanten F1, F2 und F3 sind für das Phonem /i/ nur zum Zweck der Veranschaulichung dargestellt. Es versteht sich, dass es eine verschiedene Anzahl von Formanten geben kann, beruhend auf der Form des Vokaltrakts für ein bestimmtes Sprachsegment. Eine ausführlichere Beschreibung von Formanten und anderen Darstellungen von Sprache wird in L. R. Rabiner und R. W. Schafer, „Digital Processing of Speech Signals" (Prentice-Hall, Inc., NJ, 1978) bereitgestellt.
Wie oben unter Bezugnahme auf 1 angegeben, entsprechen die in Datenbank 5 gespeicherten akustischen Elemente phonetischen Sequenzen, die im Wesentlichen im mittleren Abschnitt eines Phonems beginnen und im mittleren Abschnitt eines anderen Phonems enden. Unterschiede in den Kennwerten, wie Spektralkomponenten, erzeugen beim Verbindungsphonem von zwei verketteten akustischen Elementen eine Lücke, die bewirken könnte, dass die synthetisch erzeugte Sprache schwer zu verstehen ist. Jedoch gibt es innerhalb des Bereichs von phonetischen Segmenten, die dem mittleren Bereich eines Phonems entsprechen, häufig bestimmte Zerlegungspunkte innerhalb eines Bereichs, der gleich bleibende Kennwerte aufweist, die verwendet werden können, um akustische Elemente zu erzeugen, die eine Reduzierung der Verkettungslücken bewirken. Die jeweiligen Trajektorien F1 bis F3 in den 2A bis 2C stellen die Kennwerte der phonetischen Sequenzen in einem mittleren Bereich des betreffenden Phonems dar. Es ist erstrebenswert, Zerlegungspunkte in den phonetischen Sequenzen auszuwählen, um akustische Elemente zu bilden, die Verkettungslücken minimieren.
3 stellt ein als Beispiel dienendes Verfahren 200 gemäß der vorliegenden Erfindung dar, das bestimmte phonetische Sequenzen aus einem Sprachsignal auswählt und entsprechende Zerlegungspunkte der ausgewählten phonetischen Sequenzen zum Bilden der akustischen Elemente von Datenbank 5 bestimmt. Gemäß dem Verfahren 200, werden in Schritt 210 phonetische Sequenzen, die ein phonetisches Segment enthalten, das einem bestimmten Phonem entspricht, aus einem Abschnitt eines Sprachsignals identifiziert. Jede phonetische Sequenz sollte einer Sequenz von mindestens zwei Phonemen entsprechen. Es ist möglich, das Sprachsignal von aufgezeichneter Sprache oder direkt von einem menschlichen Sprecher zu gewinnen. Wenn die Quelle des Sprachsignals aufgezeichnete Sprache ist, kann die aufgezeichnete Sprache des Weiteren weiter verarbeitet werden, um ein unterteiltes und markiertes Sprachsignal zu erzeugen, um die Durchführung des Verfahrens 200 zu ermöglichen. Ein unterteiltes und markiertes Sprachsignal ist ein Sprachsignal, bei dem die entsprechenden phonetischen Sequenzen markiert und Sie genäherten Grenzen zwischen den Sequenzen identifiziert sind.
Dann werden in Schritt 220 Trajektorien für mindestens einen Abschnitt jeder der phonetischen Sequenzen bestimmt, der dem betreffenden Phonem entspricht. Die Trajektorien sind eine Darstellung von mindestens einem akustischen Kennwert des Abschnitts der phonetischen Sequenz über der Zeit. Die Trajektorien können eine Einzelsequenz sein, die den akustischen Kennwert darstellt, oder eine fortlaufende Darstellung des akustischen Kennwerts über dem Zeitabschnitt. Beispiele geeigneter akustischer Kennwerte, die für die Trajektorien verwendet werden können, umfassen Spektraldarstellungen, wie zum Beispiel Formantenfrequenzen, Amplituden- und Spektralneigungsdarstellungen und LPC-Darstellungen. Andere akustische Kennwerte, ob auf der Frequenz beruhende oder sonstige, können für die Trajektorien gemäß der vorliegenden Erfindung verwendet werden. Als Beispiel dienende Trajektorien einer einzelnen Formantenfrequenzdarstellung ist [sic] in jeder der 2A bis C gezeigt.
In Schritt 220 werden die Trajektorien in einem naturgetreuen Raum bestimmt. In dieser Beschreibung versteht sich ein naturgetreuer Raum als der Bereich, in dem eine Trajektorie als Funktion der Parameter beschrieben werden kann, die diese Trajektorie kennzeichnen. Zum Beispiel beschreibt der naturgetreue Raum für eine einzelne Formantentrajektorie, wie in 2A gezeigt, Frequenz als Funktion der Zeit. Es ist möglich, eine Einzeltrajektorie beruhend auf zwei oder mehr Formantenfrequenzen für eine bestimmte phonetische Sequenz zu bilden. Der naturgetreue Raum für eine solche Tra jektorie würde eine Achse für jede der dargestellten Formalfrequenzen aufweisen. Es ist möglich, Frequenzpunkte entlang jeder Trajektorie mit den entsprechenden Zeiten zu markieren, bei denen solche Frequenzen in der phonetischen Sequenz aufgetreten sind. Zum Beispiel würde eine Zweiformantenfrequenztrajektorie in einem zweidimensionalen Raum als Kurve gebildet, wobei die entsprechenden Zeiten der Kurvenpunkte im Abstand von 5 Millisekunden angegeben sind.
Nachdem die Trajektorien im naturgetreuen Raum bestimmt sind, wird in Schritt 230 eine Position eines Toleranzbereichs bestimmt, beruhend auf der Konzentration von Trajektorien, die verschiedenen phonetischen Sequenzen entsprechen. Der Toleranzbereich ist ein N-dimensionaler Raum im N-dimensionalen naturgetreuen Raum, der von einer relativ hohen Konzentration von Trajektorien, die verschiedenen Phonemsequenzen entsprechen, geschnitten wird oder in geringster Entfernung von ihnen angeordnet ist. So ist es zum Beispiel möglich, dass der Toleranzbereich ein Bereich ist, der von der größten Zahl von Trajektorien, die verschiedenen Phonemsequenzen entsprechen, geschnitten wird oder in geringster Entfernung von ihnen angeordnet ist. Die Größe des Toleranzbereichs sollte so vorbestimmt sein, dass eine gewünschte Mindesttonquälität beim Verketten akustischer Elemente erreicht wird, wo Zerlegungspunkte eines Verbindungsphonems Zeitpunkten innerhalb von Randabschnitten des Toleranzbereichs entsprechen. Besondere Verfahren zum Bestimmen des richtigen Toleranzbereichs sind im Folgenden unter Bezugnahme auf 4 und 5 ausführlicher beschrieben.
Nachdem die Position des Toleranzbereichs bestimmt ist, werden in Schritt 240 bestimmte phonetische Sequenzen zum Bilden von akustischen Elementen beruhend auf der Nähe der entsprechenden Trajektorien zum Toleranzbereich ausgewählt. Wenn zum Beispiel mehrere phonetische Sequenzen im Sprachsignal derselben Phonemsequenz entsprechen, wird die phonetische Sequenz zum Bilden des akustischen Elements. ausgewählt, deren entsprechende Trajektorie am nächsten bei oder innerhalb des Toleranzbereichs liegt.
Nachdem die phonetischen Sequenzen in Schritt 240 ausgewählt worden sind, werden in Schritt 250 die jeweiligen Zerlegungspunkte innerhalb der phonetischen Sequenzen bestimmt, um die gewünschten akustischen Elemente zu erhalten. Die Zerlegungspunkte entsprechen Zeitpunkten entlang den Trajektorien, die im Wesentlichen am nächsten bei oder innerhalb des Toleranzbereichs angeordnet sind. Zuletzt werden in Schritt 260 akustische Elemente gebildet, die auf den ausgewählten phonetischen Sequenzen und deren jeweiligen Zerlegungspunkten beruhen. Wenn alle in Schritt 210 identifizierten phonetischen Sequenzen akustische Elemente bilden sollen, entweder weil im Sprachsignal nur eine phonetische Sequenz für jede gewünschte Phonemsequenz vorhanden ist oder aus einem sonstigen Grund, kann Schritt 240 übergangen werden.
Gemäß der vorliegenden Erfindung beruht die Position des Toleranzbereichs auf den Trajektorien, die verschiedenen Phonemsequenzen entsprechen. Auf diese Weise erreicht die vorliegende Erfindung eine erhöhte Vielfalt beim Bestimmen der Position des Toleranzbereichs durch Verwenden einer geringeren als der Gesamtanzahl von Trajektorien für die phonetischen Sequenzen aus dem Sprachsignal. Diese Vielfalt ermöglicht der Erfindung, bestimmte phonetische Sequenzen und Zerlegungspunkte zum Bilden von akustischen Elementen, die eine Reduzierung von Verkettungslücken erreichen, exakter auszuwählen. Wenn die Position des Toleranzbereichs ein Bereich mit der höchsten Konzentration von Trajektorien ist, die verschiedenen Phonemsequenzen entsprechen, so würden die akustischen Elemente synthetisch erzeugte Sprache einer relativ guten Tonqualität erzeugen. Ist jedoch auch eine leicht verminderte Tonqualität annehm bar, kann auch ein Toleranzbereich gemäß der vorliegenden Erfindung verwendet werden, der eine geringere als die höchste Konzentration von Trajektorien aufweist.
Ein als Beispiel dienendes Verfahren zum Bestimmen des Toleranzbereichs gemäß dem Verfahren 200 ist das Teilen des naturgetreuen Raums, in dem die Trajektorien bestimmt werden, in entsprechende Zellen, und das Identifizieren der einzelnen Zelle oder des Zellenbereichs, der zumindest ein gewünschtes Mindestniveau von Trajektorienkonzentration aufweist. Eine als Beispiel dienende Arbeitsweise des Verfahrens 200 gemäß diesem Verfahren wird im Folgenden unter Bezugnahme auf ein in 4 gezeigtes, als Beispiel dienendes Trajektoriendiagramm 300 beschrieben. Unter Bezugnahme auf 3 sind in Schritt 210 phonetische Sequenzen, die phonetische Segmenten, die dem Phonem /i/ entsprechen, enthalten, in einem Abschnitt aufgezeichneter Sprache identifiziert. Die phonetischen Sequenzen entsprechen den Phonemsequenzen /lid/, /lik/, /mik/, /gim/, /din/, und fünf phonetische Sequenzen entsprechen der Phonemsequenz /kit/. Die akustischen Elemente, die aus diesen phonetischen Sequenzen gebildet werden könnten, umfassen die Diphone [l-i], [i-d], [i-k], [m-i], [g-i], [i-m], [d-i], [i-n], [k-i] und [i-t] . Obwohl die Erörterung von 4 die Bildung akustischer Elemente betrifft, die Diphone sind, versteht sich, das auch akustische Elemente größerer Phonemsequenzen gemäß der vorliegenden Erfindung gebildet werden können, indem das Verfahren 200 von 3 auf die jeweiligen Grenzphoneme der entsprechenden größeren phonetischen Sequenzen angewendet wird.
Für jede der phonetischen Sequenzen, die in Schritt 210 identifiziert werden, werden in Schritt 220 Zweiformantentrajektorien für jede der phonetischen Sequenzen gebildet. Das Trajektoriendiagramm 300, das in 4 gezeigt ist, bildet diese Trajektorien in einem naturgetreuen Zweiformantenraum ab, der in mehrere Zellen 310 aufgeteilt ist. In 4 ist jede Trajektorie mit der Identifizierung ihrer entsprechenden Phonemsequenz markiert. Zum Beispiel wurde die Trajektorie 305 von einer phonetischen Sequenz bestimmt, die der Phonemsequenz /lid/ entspricht, und wird dementsprechend mit „LID" markiert. Die fünf Vorkommen der Phonemsequenz /kit/ von dem Abschnitt des Sprachsignals, das verwendet worden ist, um Datenbank 5 von 1 zu erzeugen, werden für eine leichtere Erörterung mit „KIT1" bis „KIT5" markiert. Jede der abgebildeten Zweiformantentrajektorien stellt die, Frequenzwerte des Formanten F1 für die jeweilige phonetische Sequenz gezeichnet gegen die Frequenzwerte der entsprechenden Formanten F2 an bestimmten Zeitpunkten dar.
Die Frequenzen der Formanten F1 und F2 sind auf der X- beziehungsweise Y-Achse dargestellt. Bestimmte Zeitpunkte entlang der Trajektorie können als entsprechende Markierung dargestellt werden, wie bei der Trajektorie 305 gezeigt. Die Abbildung von zweidimensionalen Trajektorien in 4 dient nur einer leichteren Erörterung und Abbildung, und stellt keine Beschränkung der vorliegenden Erfindung dar. Es ist möglich, andere N-dimensionalen Darstellungen zu verwenden, wie zum Beispiel eine Dreiformanten- oder Vierformantendarstellung für phonetische Segmente, die einen Selbstlaut als das einzelne Phonem aufweisen, und eine Amplituden- und Spektralneigungsdarstellung für Segmente, die einen Mitlaut als das einzelne Phonem aufweisen.
Ausschließlich zum Zweck einer leichteren Abbildung und Erklärung ist die Zellgröße der Zellen 310 innerhalb des naturgetreuen Raums auf ein Viertel der gewünschten Größe des Toleranzbereichs festgelegt. Wenn die Größe des Toleranzbereichs nicht wesentlich größer ist als die Zellgröße, ist es zweckmäßig, die Zellgröße als Vielfaches der gewünschten Größe des Toleranzbereichs festzulegen. Gemäß Schritt 230 des Verfahrens 200 von 3 beruht die Bestimmung des Toleranzbereichs auf dem Bereich, der von den Trajektorien geschnitten wird, die verschiedenen Phonemsequenzen entsprechen. Wird also festgelegt, dass ein Toleranzbereich eines 2 × 2-Feldes von Zellen 310 von ausreichender Größe ist, um eine gewünschte Mindesttonqualität zu erzeugen, dann ist der Bereich 320, der von der größten Zahl von solchen Trajektorien geschnitten wird, der Toleranzbereich.
Ein Verfahren zum Bestimmen der Zelle mit der größten Anzahl solcher Trajektorienschnitte ist zum Beispiel das Durchführen einer Gittersuche der Zellen im naturgetreuen Raum. Gemäß diesem Verfahren wird jede Zelle 310 von 4 untersucht, und die Zahl von Trajektorien, die verschiedenen Phonemsequenzen entsprechen und die Zelle oder einen vorbestimmten Auflösungsbereich von Zellen rund um Zelle 310 schneiden, wird bestimmt. Zum Beispiel beträgt die Anzahl von Trajektorienschnitten von Zelle 330, die verschiedenen Phonemsequenzen entsprechen, zwei für die Trajektorien LID und MIK. Ein rechnerisch einfacheres und schnelleres Verfahren zum Bestimmen der Zelle mit der größten Anzahl solcher Trajektorienschnitte, die verschiedenen phonetischen Sequenzen entsprechen, ist in der Folge unter Bezugnahme auf 5 ausführlich beschrieben.
Nachdem die Trajektorien bestimmt sind, werden in Schritt 240 unter Bezugnahme auf das Verfahren 200 von 3 bestimmte phonetische Sequenzen zum Bilden der akustischen Elemente ausgewählt, beruhend auf der Nähe der entsprechenden Trajektorien zum Toleranzbereich 320. Es ist vorteilhaft, für eine bestimmte Phonemsequenz nur ein akustisches Element in die Datenbank 5 aufzunehmen, um den für die Datenbank erforderlichen Raum zu minimieren, sowie die Konstruktion des Geräts zum Erzeugen synthetischer Sprache zu vereinfachen.
Folglich wird eine der phonetischen Sequenzen /lik/ oder /lid/ zum Bilden des akustischen Elements [l-i], und eine der phonetischen Sequenzen /lik/ oder /mik/ zum Bilden des akustischen Elements [i-k] gewählt. Des weiteren wird eine der fünf phonetischen Sequenzen für die Phonemsequenz /kit/ zum Bilden der akustischen Elemente [k-i] und [i-t] gewählt. Für ein komplexeres Gerät zum Erzeugen synthetischer Sprache ist es jedoch möglich, eine größere Datenbank zu benützen, um mehrere akustische Elemente für eine bestimmte Phonemsequenz je nach Sprachsyntheseanwendung zu verwenden. Beim Aufbauen einer solchen Datenbank können mehr als eine oder sogar alle aus dem Sprachsignal entnommenen phonetischen Sequenzen, die einer bestimmten Phonemsequenz entsprechen, zum Bilden akustischer Elemente ausgewählt werden.
Wenn ein akustisches Element für eine bestimmte Phonemsequenz in der Datenbank 5 vorhanden sein soll, kann das Identifizieren der einen von mehreren phonetischen Sequenzen, die derselben Phonemsequenz entsprechen, zum Bilden des akustischen Elements auf der relativen Nähe der entsprechenden Trajektorien zum Toleranzbereich beruhen. Zum Beipiel wird für das akustische Element [l-i] die phonetische Sequenz für „LID", deren Trajektorie LID den Toleranzbereich 320 schneidet, anstatt der phonetischen Sequenz „LIK" gewählt, deren Trajektorie LIK den Toleranzbereich 320 nicht schneidet. Ebenso würde die phonetische Sequenz „MIK" im Wesentlichen aus demselben Grund statt der phonetischen Sequenz „LIK" für das akustische Element [i-k] gewählt. In derselben Weise würde die phonetische Sequenz, die der Trajektorie KIT5 entspricht, statt den anderen jeweiligen phonetischen Sequenzen „KIT" für die beiden akustischen Elemente [k-i] und [i-t] gewählt.
Da akustische Elemente üblicherweise an zwei Grenzphoneme angehängt werden können, sollte des weiteren die Auswahl der bestimmten phonetischen Sequenzen, die zum Bilden der akustischen Elemente verwendet werden, auf der Nähe ihrer Trajektorien für beide Grenzphoneme beruhen. Darum würde die einzelne phonetische Sequenz „MIK" oder „LIK", deren Trajektorien den beiden Toleranzbereichen für das Grenzphonem /i/ sowie das Grenzphonem /k/ insgesamt am nächsten liegen, zum Bilden des akustischen Elements [i-k] ausgewählt werden.
Häufig werden phonetische Sequenzen, die derselben Phonemsequenz entsprechen, keine Trajektorien aufweisen, die den jeweiligen Toleranzbereichen für beide ihrer Grenzphoneme am nächsten liegen. Solche Fälle können vorkommen, wenn die Quelle der phonetischen Sequenzen zwei verschiedene Wörter sind, welche die Phonemsequenz enthalten. In solchen Fällen ist vorzugsweise die phonetische Sequenz auszuwählen, deren Trajektorien eine insgesamt beste Qualität aufweisen. Ein als Beispiel dienendes Verfahren zum Auswählen einer solchen phonetischen Sequenz ist das Zuweisen eines Wertes zu jeder der phonetischen Sequenzen, beruhend auf einem bestimmten Qualitätsmaß, um die phonetischen Sequenzen in Bezug auf die entsprechenden Grenzphoneme zu reihen. Die phonetische Sequenz mit der insgesamt besten Reihung würde dann verwendet, um das akustische Element zu bilden.
Unter nochmaliger Bezugnahme auf das Verfahren 200 von 3 werden, nachdem die phonetischen Sequenzen für die akustischen Elemente ausgewählt worden sind, in Schritt 250 Zerlegungspunkte für die phonetischen Sequenzen bestimmt, die verwendet werden, um die akustischen Elemente zu bilden. In 4 beruhen die Zerlegungspunkte zum Beispiel auf Zeitpunkten in den jeweiligen Trajektorien, die innerhalb des Toleranzbereichs 320 liegen. Für diese Trajektorien, die den Toleranzbereieh 320 schneiden, sollten die gewählten Zerlegungspunkte vorzugsweise Zeitpunkte entlang den Trajektorien sein, die am nächsten bei einem Mittel punkt 340 des Toleranzbereichs 320 liegen. Zum Beispiel ist in 4 der Zeitpunkt auf Trajektorie 305, der dem Mittelpunkt 340 am nächsten liegt, 160 Millisekunden. Als Folge davon beruht das akustische Element /i-k/ auf der phonetischen Sequenz, die bei 160 Millisekunden beginnt.
Auch für die Trajektorien, die den Toleranzbereich 320 nicht schneiden, wie zum Beispiel die Trajektorie LIK, sollte der Zerlegungspunkt der Zeitpunkt entlang der Trajektorie sein, die am nächsten beim Mittelpunkt 340 des Toleranzbereichs liegt. Folglich würde der richtige Zerlegungspunkt, wenn die phonetische Sequenz „LIK" zum Bilden des akustischen Elements gewählt worden ist, dem Zeitpunkt 350 auf der Trajektorie LIK entsprechen. Es versteht sich, dass sich eine relativ größere Lücke beim Phonem /i/ ergeben würde, wenn diese phonetische Sequenz zum Bilden des akustischen Elements verwendet wird. Dementsprechend könnte es wünschenswert sein, andere Sprachsegmente für die Phonemsequenz /lik/ zu erhalten, um zu bestimmen, ob sie besser geeignet wären, das akustische Element zu bilden.
Beim Verfahren 200 von 3, werden die akustischen Elemente beruhend auf den gewählten phonetischen Sequenzen und den bestimmten Zerlegungspunkten gebildet, nachdem die Zerlegungspunkte in Schritt 250 bestimmt worden sind. Die akustischen Elemente können zum Beispiel in Form von digitalisierten Sprachsignalen oder LPC-Parametern, die den phonetischen Sequenzen entsprechen, die an den jeweiligen Zerlegungspunkten beginnen und enden, in der Datenbank 5 von 1 aufbewahrt werden. Auch längere Sequenzen können in der Datenbank 5 zusammen. mit Anfangs- und Endwerten gespeichert werden, die den bestimmten Zerlegungspunkten für die jeweiligen akustischen Elemente entsprechen. Der Abrufprozessor 15 für akustische Elemente von 1 würde dann das richtige akustische Element beruhend auf diesen Werten von diesen längeren Sequenzen ent nehmen. Es sollte offensichtlich sein, dass das besondere organisatorische Verfahren, das für die Datenbank 5 verwendet wird, keinerlei Beschränkung darstellt, und jedwede Organisation verwendet werden kann, um die akustischen Elemente zu speichern, die gemäß der vorliegenden Erfindung gebildet werden. Um die Vielzahl von Äußerungen einer bestimmten Sprache synthetisch zu erzeugen, sollten akustische Elemente für alle elementaren Phonemsequenzen dieser Sprache angelegt werden.
Die überraschende Verwendung einer größeren Vielfalt von Trajektorien beim Bestimmen der Position des Toleranzbereichs gemäß der vorliegenden Erfindung hat akustische Elemente zur Folge, die kleinere Lücken bei der Verkettung erzeugen. Zum Beispiel entspricht Bereich 360 in 4 dem Bereich, der auf allen Trajektorien beruht und wird geschnitten von, oder liegt am nächsten bei der insgesamt größten Zahl von solchen Trajektorien, aufgrund von fünf Trajektorien für die Phonemsequenz /kit/. Es ist jedoch ersichtlich, dass die Zeitpunkte auf den Trajektorien LID und MIK, die dem Bereich 360 am nächsten liegen, bei der Verkettung der entsprechenden akustischen Elemente relativ große Lücken erzeugen würden. Im Gegensatz dazu ist der Toleranzbereich 320 nicht durch mehrere Fälle der Phonemsequenz /kit/ verdreht, und der entsprechende Abstand zwischen allen ausgewählten Trajektorien und dem Toleranzbereich 320 ist viel kleiner und würde sämtliche entsprechenden Lücken minimieren.
5 stellt ein als Beispiel dienendes Verfahren 400 gemäß der vorliegenden Erfindung zum Bestimmen der Zelle mit der größten Anzahl von Trajektorienschnitten dar, die verschiedenen phonetischen Sequenzen zum Verwenden in Schritt 230 in 3 entsprechen. Für eine leichtere Erörterung wird jede Trajektorie in 5 mit einer eindeutigen ganzen Zahl bezeichnet, statt mit dem entsprechenden phonetischen Sequenzmarkierung, die in 4 verwendet wird. Zum Beispiel werden die in 4 abgebildeten neun Trajektorien in 5 als Trajektorien 1 bis 9 bezeichnet. Eine solche Bezeichnung der Trajektorien entspricht herkömmlichen Zeigern, die in Datenstrukturdarstellungen verwendet werden, wie zum Beispiel in Feldern oder Tabellen.
Gemäß dem Verfahren 400 werden eine ganze Zahl N und mehrere Listen LIST i in Schritt 410 auf Null initialisiert. Die Anzahl i von Listen in einer Vielzahl von Listen LIST i entspricht der Anzahl von Zellen im naturgetreuen Raum. Dann wird die ganze Zahl N in Schritt 420 hochgezählt. Dann werden in Schritt 430 für jeden Zeitpunkt in der Trajektorie N die Zellen identifiziert, die sich innerhalb eines Auflösungsbereichs befinden, der den jeweiligen Zeitpunkt umgibt. Zur Annehmlichkeit kann der Auflösungsbereich dieselbe Größe aufweisen, wie der Toleranzbereich. Jedoch kann der Auflösungsbereich gemäß der vorliegenden Erfindung auch eine andere Größe aufweisen, wenn es gewünscht wird. Wenn für den Auflösungsbereich ein Bereich gewählt wird, der von einem Feld von 2 × 2 Zellen bedeckt ist, würde der Auflösungsbereich, der einen Zeitpunkt 505 bei 0,095 Millisekunden der Trajektorie 305 in 4 umgibt, Zellen 511, 512, 513 und 514 umfassen, die von einer Kontur 510 umgeben sind.
Nachdem die Zellen im Auflösungsbereich in Schritt 430 identifiziert worden sind, werden die jeweiligen Listen LIST_i für die identifizierten Zellen mit dem Namen der Phonemsequenz für die entsprechende Trajektorie N aktualisiert. Außerdem wird in Schritt 440 der Name der Phonemsequenz nur dann der Liste hinzugefügt, wenn er nicht bereits auf der Liste für diese Zelle aufscheint. Folglich würden unter der Annahme, dass der Name „LID" im oben beschriebenen Beispiel nicht in den Listen LIST i für die Zellen 511 bis 514 aufscheint, die Listen LIST_i für diese Zellen mit diesem Namen aktualisiert. Die Listen LIST i für die Zellen, die sich innerhalb des Auflösungsbereichs für die anderen Zeitpunkte entlang der Trajektorie 305 befinden, würden ebenfalls mit dem Namen „LID" in der im Wesentlichen gleichen Weise aktualisiert werden.
Nachdem die Zellen innerhalb der identifizierten Auflösungsbereiche einer bestimmten Trajektorie N in Schritt 440 aktualisiert worden sind, bestimmt das Verfahren in Schritt 450, ob die ganze Zahl N gleich ist wie die Gesamtzahl der Trajektorien. Stellt das Verfahren fest, dass N der Gesamtzahl der Trajektorien nicht entspricht, führt das Verfahren 400 die Schritte 420 bis 440 aus, um die Listen LIST i beruhend auf Zeitpunkten der nächsten Trajektorie N zu aktualisieren. Stellt das Verfahren jedoch fest, dass N gleich der Gesamtzahl von Trajektorien ist, dann sind alle Trajektorien verarbeitet worden und alle Listen LIST_i innerhalb der Auflösungsbereiche aktualisiert worden und das Verfahren 400 fährt bei Schritt 460 fort. In Sehritt 460 wird der Toleranzbereich ausgehend von der Zelle oder dem Bereich von Zellen bestimmt, die/der die größte Anzahl von Namen in der entsprechenden Liste oder den entsprechenden Listen LIST_i aufweist/aufweisen. Da das Verfahren 400 nur die Zellen untersucht und aktualisiert, die innerhalb von Auflösungsbereichen von Trajektorienzeitpunkten liegen, ist es rechnerisch einfacher und schneller als Gittersuchverfahren, die jede Zelle einzeln untersuchen.
Im Verfahren 400 erkennt Schritt 430 zunächst alle Zellen innerhalb von Auflösungsbereichen für Zeitpunkte einer bestimmten Trajektorie, bevor die entsprechenden Zelllisten in Schritt 440 aktualisiert werden. Es versteht sich jedoch, dass die in 4 gezeigte Abfolge der Schritte nur Darstellungszwecken dient und nicht als Einschränkung der vorliegenden Erfindung zu verstehen ist. Die Abfolge solcher Schritte kann auf viele verschiedene Arten durchgeführt werden, einschließlich des Aktualisierens einer Liste LIST i direkt nachdem bestimmt worden ist, dass sich die jeweilige Zelle innerhalb eines Auflösungsbereichs eines bestimmten Trajektorienzeitpunkts befindet.
In einer alternativen Ausführungsform kann die Identifizierung der Zelle mit der längsten Liste LIST_i während dem gesamten Zellenlistenaktualisierungsvorgang beibehalten werden, indem die Identifizierung der Zelle mit der längsten Liste LIST_i und die entsprechende maximale Listenlänge gespeichert und aktualisiert werden. Da jede Zellenliste aktualisiert wird, kann die Gesamtanzahl von in dieser Liste enthaltenen Namen mit dem gespeicherten Wert für die längste Liste verglichen werden. Übertrifft die Anzahl von Namen in einer Liste die der gespeicherten Zellenidentifizierung, so würden die gespeicherte Zellenidentifizierung und die maximale Listenlänge in der Folge aktualisiert werden. Auf diese Weise wäre die Identifizierung der Zelle, die dem Toleranzbereich entspricht, beim Verarbeiten des letzten Zeitpunkts der letzten Trajektorie ohne weitere Verarbeitungsschritte bekannt.
Sind die Zellenlisten zum Beispiel in Form von Datenstrukturen mit ganzzahligen Werten, welche die Zellenposition innerhalb des naturgetreuen Raums bezeichnen, indiziert, so kann ein rechnerisch einfaches und schnelleres Verfahren benützt werden. Zum Beispiel können die Zellenlisten für die Zellen 310 in 4 in einer Weise indiziert werden, die ihren X- und Y-Koordinaten entspricht. Dann werden Umrechnungswerte verwendet, um die Trajektorienzeitpunktwerte in indizierte Werte umzuwandeln, welche die relative Koordinationposition der Zeitpunkte beruhend auf den indizierten Zellen angibt. Dann werden Auflösungswerte zu den umgewandelten indizierten Werten hinzugezählt oder von ihnen abgezogen, um die Indexnummern der Zellen innerhalb des Auflösungsbereichs dieses Punktes zu identifizieren. Die Listen LIST i der jeweiligen Zellen inner halb des Auflösungsbereichs werden dann entsprechend aktualisiert.
In der Folge können für das in 4 gezeigte Beispiel die Frequenzwerte der Formanten F1 und F2 von Zeitpunkt 505 der Trajektorie 305 in 4 mit Umrechnungsfaktoren multipliziert werden, um umgerechnete Werte x = 3,5 und y = 3,5 zu erhalten, die angeben, dass er sich sowohl in der X- auch als der Y-Richtung zwischen der dritten und der vierten Zelle befindet. Ist der Auflösungsbereich also ein 2 × 2-Zellenfeld, müssen die Auflösungswerte von ±1 den umgerechneten Werten hinzugezählt und zur nächstliegenden Position gerundet werden, um zu erreichen, dass die Zellenlisten für Zellen innerhalb des Auflösungsbereichs 510 die Koordinaten (3, 3), (3, 4), (4, 3) und (4, 4) aufweisen, die den Zellen 511 bis 514 entsprechen, und mit dem Phonemsequenznamen „LID" aktualisiert werden würden.
Obwohl verschiedene Ausführungsformen der vorliegenden Erfindung oben ausführlich beschrieben worden sind, sind viele Abänderungen möglich, ohne von ihren Lehren abzuweichen. Es ist beabsichtigt, dass all diese Abänderungen in den folgenden Ansprüchen beinhaltet sind. Obwohl die vorliegende Erfindung mit zweidimensionalen rechteckigen Zellen und Toleranzbereichen dargestellt worden ist, ist es zum Beispiel möglich jegliche N- dimensionale geschlossene Form für die Zellen und Bereiche zu verwenden, die vereinbar sind mit einem N- dimensionalen naturgetreuen Raum, einschließlich Kuben, Kästen, Kugeln und Sphäroiden. Des weiteren ist die Erfindung im Besonderen hilfreich in vielen verschiedenen Sprachsyntheseanwendungen, einschließlich Text-zu-Sprache-Synthese und Sprachausgäbesysteme.

Claims

Verfahren zum Erzeugen synthetischer Sprache, wobei das Verfahren Schritte des Bildens einer Datenbank für akustische Elemente umfasst, in der akustische Elemente für das Verketten enthalten sind, um synthetische Sprache zu erzeugen, wobei das Verfahren folgende Schritte umfasst: für mindestens ein Phonem, das speziellen phonetischen Segmenten entspricht, die in einer Vielzahl von phonetischen Sequenzen enthalten sind, die in einem Intervall eines Sprachsignals vorkommen, das Bestimmen einer relativen Positionierung eines Toleranzbereiches innerhalb eines Darstellungsraumes auf der Basis einer Konzentration von Trajektorien der phonetischen Sequenzen, die den verschiedenen Phonemsequenzen entsprechen, welche den Bereich kreuzen, wobei jede Trajektorie ein akustisches Merkmal von mindestens einem Teil einer jeweiligen phonetischen Sequenz darstellt, die das spezielle phonetische Segment enthält; und das Bilden akustischer Elemente aus den phonetischen Sequenzen durch Identifizieren von Zerlegungspunkten in den phonetischen Sequenzen zu jeweiligen Zeitpunkten entlang den entsprechenden Trajektorien auf der Basis der Nähe der Zeitpunkte zum Toleranzbereich.
Verfahren nach Anspruch 1, weiterhin umfassend den Schritt des Auswählens mindestens einer phonetischen Sequenz aus der Vielzahl von phonetischen Sequenzen, welche Abschnitte aufweisen, die einer speziellen Phonemsequenz auf der Basis der Nähe der entsprechenden Trajektorien zum Toleranz bereich entsprechen, wobei ein akustisches Element aus dem Abschnitt der ausgewählten phonetischen Sequenz gebildet wird.
Verfahren nach Anspruch 1, wobei der Schritt des Bildens der akustischen Elemente die Zerlegungspunkte jeder der phonetischen Sequenzen zu einem jeweiligen Zeitpunkt entlang der entsprechenden Trajektorie identifiziert, die dem Toleranzbereich ungefähr am nächsten bzw. innerhalb des Toleranzbereiches liegt.
Verfahren nach Anspruch 3, wobei der Schritt des Bildens der akustischen Elemente die Zerlegungspunkte jeder der phonetischen Sequenzen zu einem jeweiligen Zeitpunkt entlang der entsprechenden Trajektorie identifiziert, die einem Mittelpunkt des Toleranzbereiches ungefähr am nächsten liegt.
Verfahren nach Anspruch 1, wobei ein akustisches Element für jede voraussichtliche Phonemsequenz für eine spezielle Sprache gebildet wird.
Verfahren nach Anspruch 1, wobei die Trajektorien auf Formanten der phonetischen Sequenzen basieren.
Verfahren nach Anspruch 1, wobei die Trajektorien auf Dreiformantendarstellungen basieren und der Darstellungsraum ein Dreiformantenraum ist.
Verfahren nach Anspruch 1, wobei der Darstellungsraum ein N-dimensionaler Raum ist, der eine Vielzahl von angrenzenden N-dimensionalen Zellen enthält, und wobei der Schritt des Bestimmens des Toleranzbereiches weiterhin das Durchführen einer Gittersuche umfasst, um ein Gebiet von mindestens einer Zelle zu bestimmen, das von der im Wesentlichen größten Anzahl von Trajektorien gekreuzt wird, die verschiedenen Phonemsequenzen entsprechen.
Verfahren nach Anspruch 1, wobei der Darstellungsraum ein N-dimensionaler Raum ist, der eine Vielzahl von angrenzenden N-dimensionalen Zellen enthält, und wobei der Schritt des Bestimmens des Toleranzbereiches Folgendes umfasst: das Identifizieren der Zellen, die innerhalb eines Auflösungsbereiches liegen, der die Zeitpunkte entlang jeder Trajektorie umgibt; das Aktualisieren einer Liste für jede identifizierte Zeille innerhalb des Auflösungsbereiches, die für die Zelle mit einer Identifizierung der Phonemsequenz geführt wird, die der Trajektorie entspricht, falls eine derartige Identifizierung in der Liste für diese Zelle nicht erscheint; und das Bestimmen des Toleranzbereiches, der mindestens einer Zelle entspricht, die eine größere als die durchschnittliche Anzahl von Identifizierungen in ihrer Liste aufweist.
Verfahren nach Anspruch 9, wobei der Schritt des Identifizierens der Zellen, die innerhalb eines Auflösungsbereiches liegen, das Verarbeiten der Zeitpunkte entlang den Trajektorien und das Aktualisieren der Listen, die mit den Zellen innerhalb der entsprechenden Auflösungsbereiche verknüpft sind, umfasst.
Verfahren nach Anspruch 9, wobei der Auflösungsbereich und der Toleranzbereich gleich groß sind.
Verfahren nach Anspruch 1, wobei der Darstellungsraum ein N-dimensionaler Raum ist, der eine Viel zahl von angrenzenden N-dimensionalen Zellen enthält, und wobei der Schritt des Bestimmens des Toleranzbereiches Folgendes umfasst: das Identifizieren der Zellen, die innerhalb eines Auflösungsbereiches liegen, der die Zeitpunkte entlang jeder Trajektorie umgibt; das Aktualisieren einer Liste für jede identifizierte Zelle innerhalb des Auflösungsbereiches, die für die Zelle mit einer Identifizierung der Phonemsequenz geführt wird, die der Trajektorie entspricht; das Entfernen von Mehrfachidentifizierungen aus jeder Zellenliste; und das Bestimmen des Toleranzbereiches, der mindestens einer Zelle entspricht, die eine größere als die durchschnittliche Anzahl von Identifizierungen in ihrer Liste aufweist.
Verfahren nach Anspruch 12, wobei der Schritt des Identifizierens der Zellen, die innerhalb eines Auflösungsbereiches liegen, das Verarbeiten der Zeitpunkte entlang den Trajektorien und das Aktualisieren der Listen, die mit den Zellen innerhalb der entsprechenden Auflösungsbereiche verknüpft sind, umfasst.
Verfahren nach Anspruch 12, wobei der Auflösungsbereich und der Toleranzbereich gleich groß sind.
Verfahren nach Anspruch 1, wobei mindestens zwei phonetische Sequenzen der Vielzahl von phonetischen Sequenzen Abschnitte aufweisen, die einer speziellen Phonemsequenz entsprechen, wobei das Verfahren weiterhin folgenden Schritt umfasst: das Bestimmen eines Wertes für jeden Abschnitt der phonetischen Sequenzen auf der Basis der Nähe der entsprechenden Trajektorien zum Toleranzbereich, wobei das akustische Element für die spezielle Phonemsequenz aus einem der entsprechenden Abschnitte der phonetischen Sequenzen auf der Basis der bestimmten Werte gebildet wird.
Verfahren nach Anspruch 15, wobei der Schritt des Bestimmens der Werte weiterhin auf einem Qualitätsmaß der entsprechenden phonetischen Sequenz basiert.
Verfahren nach Anspruch 16, wobei das Qualitätsmaß aus der Nähe einer Trajektorie zu einem Toleranzbereich für die phonetische Sequenz bestimmt wird, die einem anderen Grenzphonem entspricht.
Vorrichtung zum Erzeugen synthetischer Sprache, wobei die Vorrichtung eine Datenbank für akustische Elemente enthält, in der akustische Elemente für das Verketten enthalten sind, um synthetische Sprache zu erzeugen, wobei die Vorrichtung Folgendes umfasst: für mindestens ein Phonem, das einzelnen phonetischen Segmenten entspricht, die in einer Vielzahl von phonetischen Sequenzen enthalten sind, die in einem Intervall eines Sprachsignals vorkommen, ein Mittel zum Bestimmen einer relativen Positionierung eines Toleranzbereiches innerhalb eines Darstellungsraumes auf der Basis einer Konzentration von Trajektorien der phonetischen Sequenzen, die verschiedenen Phonemsequenzen entsprechen, welche den Bereich kreuzen, wobei jede Trajektorie ein akustisches Merkmal von mindestens einem Teil einer jeweiligen phonetischen Sequenz darstellt, die das spezielle phonetische Segment enthält; und ein Mittel zum Bilden akustischer Elemente aus den phonetischen Sequenzen durch Identifizieren von Zerlegungspunkten in den, phonetischen Sequenzen zu jeweiligen Zeitpunkten entlang den entsprechenden Trajektorien auf der Basis der Nähe der Zeitpunkte zum Toleranzbereich.
Vorrichtung nach Anspruch, 18, wobei der Darstellungsraum ein N-dimensionaler Raum ist, der eine Vielzahl von angrenzenden N-dimensionalen Zellen enthält, und wobei der Schritt des Bestimmens des Toleranzbereiches Folgendes umfasst: das Identifizieren der Zellen, die innerhalb eines Auflösungsbereiches liegen, der die Zeitpunkte entlang jeder Trajektorie umgibt; das Aktualisieren einer Liste für jede identifizierte Zelle innerhalb des Auflösungsbereiches, die für die Zelle mit einer Identifizierung der Phonemsequenz geführt wird, die der Trajektorie entspricht, falls eine derartige Identifizierung in der Liste für diese Zelle nicht erscheint; und das Bestimmen des Toleranzbereiches, der mindestens einer Zelle entspricht, die eine größere als die durchschnittliche Anzahl von Identifizierungen in ihrer Liste aufweist.
Vorrichtung nach Anspruch 19, wobei der Schritt des Identifizierens der Zellen, die innerhalb eines Auflösungsbereiches liegen, das Verarbeiten der Zeitpunkte entlang den Trajektorien und das Aktualisieren der Listen, die mit den Zellen innerhalb der entsprechenden Auflösungsbereiche verknüpft sind, umfasst.
Vorrichtung nach Anspruch 18, wobei der Darstellungsraum ein N-dimensionaler Raum ist, der eine Vielzahl von angrenzenden N-dimensionalen Zellen enthält, und wobei der Schritt des Bestimmens des Toleranzbereiches Folgendes umfasst: das Identifizieren der Zellen, die innerhalb eines Auflösungsbereiches liegen, der die Zeitpunkte entlang jeder Trajektorie umgibt; das Aktualisieren einer Liste für jede identifizierte Zelle innerhalb des Auflösungsbereiches, die für die Zelle mit einer Identifizierung der Phonemsequenz geführt wird, die der Trajektorie entspricht; das Entfernen von Mehrfachidentifizierungen aus jeder Zellenliste; und das Bestimmen des Toleranzbereiches, der mindestens einer Zelle entspricht, die eine größere als die durchschnittliche Anzahl von Identifizierungen in ihrer Liste aufweist.
Vorrichtung nach Anspruch 21, wobei der Schritt des Identifizierens der Zellen, die innerhalb eines Auflösungsbereiches liegen, das Verarbeiten der Zeitpunkte entlang den Trajektorien und das Aktualisieren der Listen, die mit den Zellen innerhalb der entsprechenden Auflösungsbereiche verknüpft sind, umfasst.