-
GEBIET DER ERFINDUNG
-
Die Erfindung betrifft Sprachsynthese
im Allgemeinen, und im Besonderen eine Datenbank, die akustische
Elemente zum Verwenden beider Sprachsynthese enthält.
-
ALLGEMEINER
STAND DER TECHNIK
-
Regelbasierte Sprachsynthese wird
verwendet für
verschiedene Arten von Sprachsyntheseanwendungen, einschließlich Text-zu-Sprache-
und Sprachausgabesysteme. Ein typisches regelbasiertes Sprachsyntheseverfahren
betrifft das Verketten von diphonen phonetischen Sequenzen, die
aus aufgezeichneter Sprache stammen, um neue Wörter und Sätze zu bilden. Ein Beispiel
dieser Art von Text-zu-Sprache-Tongenerator ist das TTS-System, das
von einer Schwestergesellschaft des Besitznachfolgers der vorliegenden
Erfindung hergestellt wird und beschrieben ist in R. W. Sproat und
J. P. Olive, „Text-to-Speech
Synthesis", AT&T
Technical Journal, Vol. 74, Nr. 2, Seiten 35 bis 44 (März/April 1995).
-
Ein Phonem entspricht der kleinsten
Einheit von Sprachtönen,
die dazu dient, eine Äußerung von einer
anderen zu unterscheiden. Zum Beispiel entspricht in der englischen
Sprache das Phonem /r/ dem Ton für
den Buchstaben „R".
Ein phonetisches Segment ist die spezielle Äußerung eines Phonems. In gleicher
Weise ist eine phonetische Sequenz ein Sprachabschnitt einer Sequenz
von aneinanderhängenden
phonetischen Segmenten. Eine diphone phonetische Sequenz ist eine
phonetische Sequenz, die in einem im Wesentlichen in der Mitte eines
phonetischen Segments angeordneten Abschnitt eines phonetischen
Segments beginnt, und in einem im Wesentlichen in der Mitte eines
phonetischen Segments angeordneten Abschnitt des nächsten phonetischen
Segments endet. Infolgedessen entspricht ein Diphon dem Übergang
von einem Phonem zum nächsten.
-
Üblicherweise
weist der in der Mitte eines phonetischen Segments, das einem Phonem
entspricht, angeordnete Abschnitt im Wesentlichen gleich bleibende
akustische Eigenschaften auf, die sich mit der Zeit nicht drastisch
verändern.
Dementsprechend sollte jegliche Lücke, die an einem Übergang
zwischen zwei verketteten phonetischen Sequenzen entstanden ist,
ziemlich klein sein. Verkettete phonetische Sequenzen, die von verschiedenen Äußerungen
stammen, erzeugen oft wahrnehmbare Lücken, welche die Verständlichkeit
der sich daraus ergebenden akustischen Signale beeinträchtigen.
-
Zu den Sprachsyntheseverfahren, die
das Lückenproblem
ansprechen, gehören
die Verfahren, die beschrieben sind in N. Iwahashi und Y. Sagisaka, „Speech
Segment Network Approach for an Optimal Synthesis Unit Set", Computer
Speech and Language, Seiten 1 bis 16 (Academic Press Limited 1995) (Artikel
von Iwahashi et al.) und in H. Kaeslin, „A Systematic Approach to
the Extraction of Diphone Elements from Natural Speech", IEEE Transactions
on Acoustics, Speech and Signal Processing, Vol. 34, Nr. 2, Seiten
264 bis 271 (April 1986) (Artikel von Kaeslin).
-
Das Verfahren des Artikels von Iwahashi
benützt
Optimierungsverfahren, um diphone phonetische Sequenzen aus voraufgezeichneter
Sprache auszuwählen,
die mit reduzierten Lücken
beziehungsweise weniger Verzerrung zwischen den Segmenten wiedervereinigt
werden können.
Im Besonderen bestimmt dieses Verfahren Werte für die Verzerrungen zwischen
den Segmenten der Vielzahl an Kombinationen verschiedener aus aufgezeichneter Sprache
entnommener phonetischer Sequenzen. Die sich daraus ergebenden Verzerrungswerte
werden dann ausgewertet unter Verwendung von mathematischer Optimierung,
um die insgesamt beste Sequenz für
jedes in einer bestimmten Sprache verwendete Diphon auszuwählen. Dieses
Verfahren ist jedoch rechnerisch übermäßig komplex und würde wahrscheinlich
spezielle Computer oder unerwünscht lange
Rechenzeiten erfordern. Außerdem, obwohl
die diphone Phonetik in der gleich bleibenden Mitte eines phonetischen
Segments beginnt und in der gleich bleibenden Mitte des nächsten phonetischen
Segments endet, gibt es oft bestimmte Punkte in den mittleren Bereichen,
die Sequenzen erzeugen, die reduzierte Verkettungsverzerrungen erreichen, wenn
sie als Zerlegungspunkte verwendet werden.
-
Folglich hängt die Reduzierung der Verzerrung
zwischen den Segmenten im Wesentlichen von der Qualität der Auswahl
der bestimmten Start- und Endzerlegungspunkte für jede der phonetischen Sequenzen
ab. Diese Zerlegungspunkte werden üblicherweise von einer Bedienungsperson
bestimmt, welche die Sequenzen aus der aufgezeichneten Sprache entnimmt,
ohne zu wissen, welche Zerlegungspunkte wesentliche Vorteile bieten.
-
Der Artikel von Kaeslin offenbart
ein Verfahren, das versucht, die optimalen Start- und Endzerlegungspunkte
zu bestimmen, um Verkettungslücken zu
minimieren. Dieses Verfahren erzeugt Trajektorien für Formant-Frequenzen aller
diphonen phonetischen Sequenzen, die ein phonetisches Segment enthalten,
das einem bestimmten Phonem entspricht. Formanttrajektorien sind
eine zeitabhängige grafische
Darstellung der gemessenen Resonanzfrequenzen, aus denen eine Äußerung besteht.
Das Verfahren bestimmt dann einen Schwerpunktvektor auf der Grundlage
dieser Trajektorien. Der Artikel definiert einen Schwerpunktvektor
als einen Vektor, der „die
Summe der Quadrate zwischen sich selbst und den nächsten Punkten
auf einem Satz von Trajektorien minimiert .... Abstände werden
mit Hilfe des Verhältnisabstands
der aufgezeichneten Fläche
gemessen." Dann schneidet das Verfahren die phonetischen Sequenzen
aus der aufgezeichneten Sprache, um diphone Datenbankelemente an
Zeitpunkten zu bilden, die den Punkten auf den Trajektorien entsprechen,
die dem Schwerpunktvektor am nächsten
liegen.
-
Die Bestimmung der Schwerpunktvektoren ist
jedoch sehr schwierig und basiert zunächst auf einer „Schätzung" der
Bedienungsperson. Wenn eine schlechte „Schätzung" gemacht wird, kann aufgrund der
Natur der Trajektorien ein Schwerpunktvektor nicht richtig annähernd für einen
Satz von örtlichen Trajektorien
bestimmt werden, wenn in Wahrheit der tatsächliche Schwerpunktvektor für alle Trajektorien woanders
liegt. Die Verwendung eines falschen Schwerpunktvektors führt zu Sequenzzerlegungspunkten,
die eine kleine beziehungsweise eine unannehmbar kleine Reduzierung
der Lücken
zur Folge haben.
-
Folglich besteht eine Notwendigkeit
für ein Aufbauverfahren
für eine
akustische Segmentdatenbank, die automatisch die korrekten Zerlegungspunkte
für jedes
Segment bestimmt und die im Wesentlichen Lücken in den sich daraus ergebenden
verketteten Segmenten minimiert.
-
KURZDARSTELLUNG
DER ERFINDUNG
-
Ein Gerät zum Erzeugen synthetischer
Sprache verwendet eine Datenbank akustischer Elemente, die akustische
Elemente beinhaltet, die aus ausgewählten phonetischen Sequenzen
gebildet sind, die aus einem Sprachsignal an bestimmten Zerlegungspunkten
entnommen worden sind. Gemäß der vorliegenden
Erfindung entsprechen diese Zerlegungspunkte Zeitpunkten entlang
den Trajektorien, welche am nächsten
beim beziehungsweise innerhalb des Toleranzbereichs liegen. Die
Größe des Toleranzbereichs
sollte so vorbestimmt sein, dass eine gewünschte Mindesttonqualität in verketteten
akustischen Elementen erreicht wird, deren Zerlegungspunkte eines
phonetischen Verbindungselements den Zeitpunkten innerhalb der Randabschnitte
des Toleranzbereichs entsprechen. Die Positionierung des Toleranzbereichs
wird festgelegt auf Grundlage einer Konzentration von Trajektorien,
die verschiedenen Phonemsequenzen entsprechen. Zum Beispiel kann
ein Toleranzbereich ein Bereich eines naturgetreuen Raumes sein,
in dem die Trajektorien gebildet werden, der einer höchsten Konzentration
von Trajektorien entspricht, die verschiedenen Phonemsequenzen entsprechen.
Mit anderen Worten, der Bereich, der von der im Wesentlichen größten Zahl
von solchen Trajektorien geschnitten wird oder diesen am nächsten liegt.
-
Folglich hängt die Erfindung von einem
wesentlichen und unerwarteten Nutzen ab, der erreicht wird durch
Verwenden einer erhöhten
Vielfalt von Trajektorien beim Bestimmen der Position des Toleranzbereichs.
Diese Vielfalt ermöglicht
der Erfindung, bestimmte phonetische Sequenzen und Zerlegungspunkte
zur Bildung von akustischen Elementen exakter auszuwählen, wodurch
eine Reduzierung von Verkettungslücken erreicht wird.
-
Gemäß einer Ausführungsform
der vorliegenden Erfindung ist der naturgetreue Raum für die Trajektorien
bedeckt mit mehreren angrenzenden Zellen. In einer solchen Ausführungsform
ist es möglich,
eine Gittersuche der Zellen zu benützen, um den Toleranzbereich
durch Identifizieren des Bereichs von zumindest einer Zelle zu bestimmen,
die von einer überdurchschnittlichen
Zahl von Trajektorien geschnitten wird, die verschiedenen Phonemsequenzen
entsprechen.
-
Gemäß einer anderen Ausführungsform
der vorliegenden Erfindung werden die Zellen identifiziert, die
in einem Bereich angeordnet sind, der jeden Zeitpunkt entlang einer
Trajektorie umgibt. Für
jede identifizierte Zelle wird eine für diese Zelle geführte Liste
mit der Identifizierung der Phonemsequenz für diese Trajektorie aktualisiert.
Die Identifizierung einer bestimmten Phonemsequenz sollte jedoch
nicht zu einer Zellenliste hinzugefügt werden, wenn sie bereits
in dieser Liste aufscheint. Da das Verfahren nur die Zellen untersucht
und aktualisiert, die innerhalb des Auflösungsbereichs der Trajektorienzeitpunkte liegen,
ist es schneller als das Gittersuchverfahren, das jede Zelle im
naturgetreuen Raum einzeln untersucht. Da eine Identifizierung einer
Phonemsequenz nur ein einziges Mal zu einer Liste hinzugefügt wird, wird
des Weiteren eine Vielfalt von Trajektorien beim Bestimmen des Toleranzbereichs
erreicht.
-
Des Weiteren können die Listen der Zellen gekennzeichnet
sein von einer indizierten Datenstruktur, um das Aktualisieren der
Listen für
Zellen innerhalb eines bestimmten Bereichs rund um einen Trajektorienzeitpunkt
zu ermöglichen.
Auf diese Weise können
die Trajektorienzeitpunkte unter Verwendung eines Konvertierungsfaktors
in indizierte Werte umgesetzt werden. Dann können Auslösungswerte zu den umgewandelten
indizierten Werten hinzugefügt
beziehungsweise von diesen abgezogen werden, um die indizierten
Werte der Zelllisten zu bestimmen, die den Zellen innerhalb des
bestimmten Bereichs entsprechen. Die Zelle mit der längsten Liste
kann dann mühelos
für eine
Bestimmung des Toleranzbereichs identifiziert werden.
-
In der Folge kann eine Datenbank
akustischer Elemente gemäß der vorliegenden
Erfindung in einer rechnerisch einfachen und raschen Weise erzeugt
werden, ohne dass besondere Computer oder lange Verarbeitungszeiten
erforderlich sind. Eine solche Datenbank weist relativ geringe Speicheranforderungen
auf und enthält
akustische Elemente, die zu relativ natürlich klingender, synthetisch
erzeugter Sprache verkettet werden können. Da die akustischen Elemente
aus dem Sprachsignal unter Verwendung von Zerlegungspunkten ausgewählt werden,
die auf dem jeweiligen Toleranzbereich beruhen, ist die Anzahl von
wahrnehmbaren Lücken,
die bei der Verkettung vorkommen, reduziert.
-
Zusätzliche Eigenschaften und Vorteile
der vorliegenden Erfindung sind aus der folgenden, ausführlichen
Beschreibung und den beiliegenden Zeichnungen klar ersichtlich.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
1 bildet
ein schematisches Blockdiagramm eines als Beispiel dienenden Test-zu-Sprache-Tongenerators
ab, der eine Datenbank akustischer Elemente gemäß der vorliegenden Erfindung verwendet;
-
2A–2C bilden
Sprachspektrogramme von als Beispiel dienenden Formanten eines phonetischen
Segments ab;
-
3 bildet
ein Flussdiagramm eines als Beispiel dienenden Verfahrens zum Bilden
der Datenbank akustischer Elemente in 1 gemäß der vorliegenden
Erfindung ab;
-
4 bildet
ein Schaubild von als Beispiel dienenden Trajektorien für phonetische
Sequenzen zum Verwenden beim Verfahren in 3 ab; und
-
5 bildet
ein Flussdiagramm eines als Beispiel dienenden Verfahrens zum Bestimmen
eines Toleranzbereichs zum Verwenden beim Verfahren in 3 ab.
-
AUSFÜHRLICHE
BESCHREIBUNG
-
Ein als Beispiel dienender Text-zu-Sprache-Tongenerator 1,
der eine Datenbank akustischer Elemente 5 gemäß der vorliegenden
Erfindung verwendet, ist in 1 gezeigt.
Zur Klarheit der Erklärung
sind funktionelle Komponenten des Text-zu-Sprache-Tongenerators 1 durch
Kästen
in 1 dargestellt. Die
in diese Kästen
ausgeführten Funktionen
können
durch die Verwendung von entweder gemeinsamer benutzter oder zugeordneter Hardware,
einschließlich,
aber nicht beschränkt
auf, integrierte Schaltkreise für
bestimmte Funktionen, oder einen oder mehrere Prozessoren, die Software ausführen, bereitgestellt
werden. Die Verwendung des Begriffs „Prozessor" und aller Formen
dieses Begriffs ist nicht auszulegen als ausschließlicher
Verweis auf Hardware, die fähig
ist Software auszuführen,
und kann sich auch auf entsprechende Softwareroutinen beziehen,
welche die entsprechenden Funktionen ausführen und miteinander kommunizieren.
-
Datenbank 5 in 1 kann sich auf einem Speichermedium,
wie für
Computer lesbare Speicher, einschließlich zum Beispiel einer CD-ROM,
einer Diskette, einer Festplatte, einem Nur-Lese-Speicher, (ROM)
oder einem Lese-/Schreibspeicher (RAM), befinden. Die Datenbank 5 enthält akustische Elemente,
die verschiedenen phonetischen Sequenzen oder Polyphonen, einschließlich Allophonen,
entsprechen. (Allophone sind Varianten von Phonemen, die auf umgebenden
Sprachklängen
beruhen. Zum Beispiel sind das gehauchte /p/ des Wortes pit und das
ungehauchte /p/ des Wortes split Allophone des Phonems /p/.)
-
Damit die Datenbank 5 von
mäßiger Größe bleibt,
sollten die akustischen Elemente im Allgemeinen beschränkten Phonemsequenzen
entsprechen, wie zum Beispiel ein bis drei Phoneme. Die akustischen
Elemente sind phonetische Sequenzen, die in der im Wesentlichen
gleich bleibenden Mitte eines Phonems beginnen und in der gleich
bleibenden Mitte eines anderen Phonems enden. Es ist möglich, die akustischen
Elemente in der Datenbank 5 in Form von linearen Prädikt onscodier(LPC)-Parametern oder
digitalisierter Sprache zu speichern, die zum Beispiel in J. P.
Olive, „A
New Algorithm for a Concatenative Speech Synthesis System Using
an Augmented Acoustic Inventory of Speech Sounds", Proceedings of
the ESCA Workshop on Speech Synthesis, Seiten 25 bis 30 (1990) ausführlich beschrieben sind.
-
Der Text-zu-Sprache-Tongenerator 1 enthält einen
Textanalysator 10, einen Abrufprozessor für akustische
Elemente 15, einen Elementverarbeitungs- und Verkettungs(EPC)-Prozessor 20,
einen digitalen Spracherzeuger 25, und einen Digital-zu-analog(D/A)-Umwandler
30.
Der Textanalysator 10 empfängt Text in einem lesbaren
Format, wie dem ASCII-Format, und zerlegt den Text in Wörter und
wandelt Abkürzungen
und Zahlen in Worte um. Dann werden die Worte in Phonemsequenzen
getrennt auf Grundlage der in der Datenbank 5 verfügbaren akustischen
Elemente. Dann werden diese Phonemsequenzen zum Abrufprozessor für akustische
Elemente 15 übertragen.
-
Verfahren zum Zerlegen von Wörtern in
Phonemsequenzen und zum Umwandeln der Abkürzungen und Zahlen sind zum
Beispiel beschrieben in K. Church, „A Stochastic Parts Program
and Noun Phrase Parser for Unrestricted Text", Proceedings of the Second
Conference on Applied Natural Language Processing, Seiten 136 bis
143 (Morristown, NJ 1988); J. Hirschberg, „Pitch Accent in Context:
Predicting International Prominence From Text", Artificial Intelligence,
Vol. 63, Seiten 305 bis 340 (1993); R. Sproat, „English Noun-Phrase Accent
Prediction for Text-to-Speech", Computer Speech and Language, Vol.
8, Seiten 79 bis 94 (1994); und C. Coker et al., „Morphology
and Rhyming: Two Powerful Alternatives to Letter-to-Sound Rules
for Speech, Proceedings of the ESCA Workshop on Speech Synthesis, Seiten
83 bis 86 (1990).
-
Des Weiteren bestimmt der Textanalysator 10 Dauer,
Amplitude und Grundfrequenz jeder der Phonemsequenzen und übermittelt
diese Informationen an den EPC-Prozessor 20. Verfahren
zum Bestimmen der Dauer umfassen zum Beispiel die in J. van Santen, „Assignment
of Segmental Duration in Text-to-Speech Synthesis", Computer Speech
and Language, Vol. 8, Seiten 95 bis 128 (1994) beschriebenen. Verfahren
zum Bestimmen der Amplitude einer Phonemsequenz sind zum Beispiel
beschrieben in L. Oliveira, „Estimation
of Source Parameters by Frequency Analysis", ESCA EUROSPEECH-93,
Seiten 99 bis 102 (1993). Die Grundfrequenz eines Phonems wird ersatzweise
auch Tonhöhe
oder Intonation des Segments genannt. Verfahren zum Bestimmen der
Grundfrequenz oder Tonhöhe
sind zum Beispiel beschrieben in M. Anderson et al., „Synthesis
by Rule of English Intonation Patterns", Proceedings of the International
Conference on Acoustics, Speech and Signal Processing, Vol. 1, Seiten
2.8.1 bis 2.8.4 (San Diego 1984).
-
Der Abrufprozessor für akustische
Elemente 15 empfängt
die Phonemsequenzen vom Textanalysator 10 und wählt dann
die jeweils richtigen akustischen Elemente von der Datenbank 5 aus
und ruft sie ab. Verfahren zur Auswahl von akustischen Elementen
sind zum Beispiel beschrieben im oben genannten Text von Olive.
Dann werden die abgerufenen akustischen Elemente durch den Abrufprozessor
für akustische
Elemente 15 an den EPC-Prozessor 20 übermittelt.
Der EPC-Prozessor 20 modifiziert jedes der abgerufenen
akustischen Elemente durch Anpassen ihrer Grundfrequenz und Amplitude
und Einsetzen der richtigen Dauer beruhend auf der entsprechenden
Information, die vom Textanalysator 10 abgerufen wird.
Dann verkettet der EPC-Prozessor 20 die modifizierten akustischen
Elemente zu einem Strang von akustischen Elementen, der die Texteingabe
des Textanalysators 10 entspricht. Verkettungsverfahren
für den
EPC-Prozessor 20 sind im oben genannten Oliveira-Artikel
beschrieben.
-
Der vom EPC-Prozessor 20 erzeugte
Strang akustischer Elemente wird einem digitalen Sprachgenerator 25 bereitgestellt,
der digitale Signale erzeugt, die der natürlichen Sprache des akustischen
Elementstrangs entsprechen. Als Beispiel dienende Verfahren digitaler
Sprachsynthese sind ebenfalls im oben genannten Oliveira-Artikel
beschrieben. Die vom digitalen Sprachgenerator 25 erzeugten
digitalen Signale werden dem D/A-Umwandler 30 bereitgestellt,
der entsprechende analoge Signale erzeugt. Solche analogen Signale
können
einem Verstärker und
einem Lautsprecher (nicht gezeigt) bereitgestellt werden, um natürlich klingende
synthetisch erzeugte Sprache zu erzeugen.
-
Eigenschaften phonetischer Sequenzen
im Zeitverlauf können
in verschiedenen Darstellungen wiedergegeben werden, einschließlich Formanten, Amplituden
und nichtspektraler Darstellungen, einschließlich Zeptraldarstellungen
oder jeglicher LPC-abgeleiteter Parameter. 2A bis 2C zeigen Sprachspektrogramme 100A, 100B und 100C verschiedener
Formantenfrequenzen oder Formanten F1, F2 und F3 für ein phonetisches
Segment, das dem Phonem /i/ entspricht, das von aufgezeichneter Sprache
einer Phonemsequenz /p-i/ entnommen worden ist. Die Formanten F1
bis F3 sind Trajektorien, welche die verschiedenen gemessenen Resonanzfrequenzen
des Vokaltrakts des menschlichen Sprechers darstellen. Formanten
für die
verschiedenen gemessenen Resonanzfrequenzen werden üblicherweise
als F1, F2, ... bezeichnet, beruhend auf der Spektralenergie, die
in den jeweiligen Formanten enthalten ist.
-
Formantenfrequenzen hängen von
der Form und der Größe des Vokaltrakts
ab. Verschiedene Töne
werden durch Verändern
der Form des Vokaltrakts gebildet. Folglich verändern sich die Spektraleigenschaften
des Sprachsignals mit der Zeit, da sich die Form des Vokaltrakts
während
der Äußerung des
Phonemsegments /i/, wie in den 2A bis 2C gezeigt, verändert. Die
drei Formanten F1, F2 und F3 sind für das Phonem /i/ nur zum Zweck
der Veranschaulichung dargestellt. Es versteht sich, dass es eine
verschiedene Anzahl von Formanten geben kann, beruhend auf der Form
des Vokaltrakts für
ein bestimmtes Sprachsegment. Eine ausführlichere Beschreibung von
Formanten und anderen Darstellungen von Sprache wird in L. R. Rabiner
und R. W. Schafer, „Digital
Processing of Speech Signals" (Prentice-Hall, Inc., NJ, 1978) bereitgestellt.
-
Wie oben unter Bezugnahme auf 1 angegeben, entsprechen
die in Datenbank 5 gespeicherten akustischen Elemente phonetischen
Sequenzen, die im Wesentlichen im mittleren Abschnitt eines Phonems
beginnen und im mittleren Abschnitt eines anderen Phonems enden.
Unterschiede in den Kennwerten, wie Spektralkomponenten, erzeugen beim
Verbindungsphonem von zwei verketteten akustischen Elementen eine
Lücke,
die bewirken könnte,
dass die synthetisch erzeugte Sprache schwer zu verstehen ist. Jedoch
gibt es innerhalb des Bereichs von phonetischen Segmenten, die dem mittleren
Bereich eines Phonems entsprechen, häufig bestimmte Zerlegungspunkte
innerhalb eines Bereichs, der gleich bleibende Kennwerte aufweist,
die verwendet werden können,
um akustische Elemente zu erzeugen, die eine Reduzierung der Verkettungslücken bewirken.
Die jeweiligen Trajektorien F1 bis F3 in den 2A bis 2C stellen die Kennwerte der phonetischen
Sequenzen in einem mittleren Bereich des betreffenden Phonems dar.
Es ist erstrebenswert, Zerlegungspunkte in den phonetischen Sequenzen
auszuwählen,
um akustische Elemente zu bilden, die Verkettungslücken minimieren.
-
3 stellt
ein als Beispiel dienendes Verfahren 200 gemäß der vorliegenden
Erfindung dar, das bestimmte phonetische Sequenzen aus einem Sprachsignal
auswählt
und entsprechende Zerlegungspunkte der ausgewählten phonetischen Sequenzen
zum Bilden der akustischen Elemente von Datenbank 5 bestimmt.
Gemäß dem Verfahren 200, werden
in Schritt 210 phonetische Sequenzen, die ein phonetisches Segment
enthalten, das einem bestimmten Phonem entspricht, aus einem Abschnitt
eines Sprachsignals identifiziert. Jede phonetische Sequenz sollte
einer Sequenz von mindestens zwei Phonemen entsprechen. Es ist möglich, das
Sprachsignal von aufgezeichneter Sprache oder direkt von einem menschlichen
Sprecher zu gewinnen. Wenn die Quelle des Sprachsignals aufgezeichnete
Sprache ist, kann die aufgezeichnete Sprache des Weiteren weiter
verarbeitet werden, um ein unterteiltes und markiertes Sprachsignal
zu erzeugen, um die Durchführung
des Verfahrens 200 zu ermöglichen. Ein unterteiltes und
markiertes Sprachsignal ist ein Sprachsignal, bei dem die entsprechenden
phonetischen Sequenzen markiert und Sie genäherten Grenzen zwischen den
Sequenzen identifiziert sind.
-
Dann werden in Schritt 220 Trajektorien
für mindestens
einen Abschnitt jeder der phonetischen Sequenzen bestimmt, der dem
betreffenden Phonem entspricht. Die Trajektorien sind eine Darstellung
von mindestens einem akustischen Kennwert des Abschnitts der phonetischen
Sequenz über
der Zeit. Die Trajektorien können
eine Einzelsequenz sein, die den akustischen Kennwert darstellt,
oder eine fortlaufende Darstellung des akustischen Kennwerts über dem
Zeitabschnitt. Beispiele geeigneter akustischer Kennwerte, die für die Trajektorien
verwendet werden können,
umfassen Spektraldarstellungen, wie zum Beispiel Formantenfrequenzen,
Amplituden- und Spektralneigungsdarstellungen und LPC-Darstellungen. Andere
akustische Kennwerte, ob auf der Frequenz beruhende oder sonstige,
können
für die Trajektorien
gemäß der vorliegenden
Erfindung verwendet werden. Als Beispiel dienende Trajektorien einer
einzelnen Formantenfrequenzdarstellung ist [sic] in jeder der 2A bis C gezeigt.
-
In Schritt 220 werden die Trajektorien
in einem naturgetreuen Raum bestimmt. In dieser Beschreibung versteht
sich ein naturgetreuer Raum als der Bereich, in dem eine Trajektorie
als Funktion der Parameter beschrieben werden kann, die diese Trajektorie
kennzeichnen. Zum Beispiel beschreibt der naturgetreue Raum für eine einzelne
Formantentrajektorie, wie in 2A gezeigt,
Frequenz als Funktion der Zeit. Es ist möglich, eine Einzeltrajektorie
beruhend auf zwei oder mehr Formantenfrequenzen für eine bestimmte
phonetische Sequenz zu bilden. Der naturgetreue Raum für eine solche
Tra jektorie würde eine
Achse für
jede der dargestellten Formalfrequenzen aufweisen. Es ist möglich, Frequenzpunkte
entlang jeder Trajektorie mit den entsprechenden Zeiten zu markieren,
bei denen solche Frequenzen in der phonetischen Sequenz aufgetreten
sind. Zum Beispiel würde
eine Zweiformantenfrequenztrajektorie in einem zweidimensionalen
Raum als Kurve gebildet, wobei die entsprechenden Zeiten der Kurvenpunkte im
Abstand von 5 Millisekunden angegeben sind.
-
Nachdem die Trajektorien im naturgetreuen Raum
bestimmt sind, wird in Schritt 230 eine Position eines Toleranzbereichs
bestimmt, beruhend auf der Konzentration von Trajektorien, die verschiedenen phonetischen
Sequenzen entsprechen. Der Toleranzbereich ist ein N-dimensionaler
Raum im N-dimensionalen naturgetreuen Raum, der von einer relativ
hohen Konzentration von Trajektorien, die verschiedenen Phonemsequenzen
entsprechen, geschnitten wird oder in geringster Entfernung von
ihnen angeordnet ist. So ist es zum Beispiel möglich, dass der Toleranzbereich
ein Bereich ist, der von der größten Zahl
von Trajektorien, die verschiedenen Phonemsequenzen entsprechen,
geschnitten wird oder in geringster Entfernung von ihnen angeordnet ist.
Die Größe des Toleranzbereichs
sollte so vorbestimmt sein, dass eine gewünschte Mindesttonquälität beim Verketten
akustischer Elemente erreicht wird, wo Zerlegungspunkte eines Verbindungsphonems
Zeitpunkten innerhalb von Randabschnitten des Toleranzbereichs entsprechen.
Besondere Verfahren zum Bestimmen des richtigen Toleranzbereichs
sind im Folgenden unter Bezugnahme auf 4 und 5 ausführlicher
beschrieben.
-
Nachdem die Position des Toleranzbereichs bestimmt
ist, werden in Schritt 240 bestimmte phonetische Sequenzen zum Bilden
von akustischen Elementen beruhend auf der Nähe der entsprechenden Trajektorien
zum Toleranzbereich ausgewählt.
Wenn zum Beispiel mehrere phonetische Sequenzen im Sprachsignal
derselben Phonemsequenz entsprechen, wird die phonetische Sequenz
zum Bilden des akustischen Elements. ausgewählt, deren entsprechende Trajektorie
am nächsten
bei oder innerhalb des Toleranzbereichs liegt.
-
Nachdem die phonetischen Sequenzen
in Schritt 240 ausgewählt
worden sind, werden in Schritt 250 die jeweiligen Zerlegungspunkte
innerhalb der phonetischen Sequenzen bestimmt, um die gewünschten
akustischen Elemente zu erhalten. Die Zerlegungspunkte entsprechen
Zeitpunkten entlang den Trajektorien, die im Wesentlichen am nächsten bei
oder innerhalb des Toleranzbereichs angeordnet sind. Zuletzt werden
in Schritt 260 akustische Elemente gebildet, die auf den ausgewählten phonetischen
Sequenzen und deren jeweiligen Zerlegungspunkten beruhen. Wenn alle
in Schritt 210 identifizierten phonetischen Sequenzen akustische
Elemente bilden sollen, entweder weil im Sprachsignal nur eine phonetische
Sequenz für
jede gewünschte
Phonemsequenz vorhanden ist oder aus einem sonstigen Grund, kann
Schritt 240 übergangen
werden.
-
Gemäß der vorliegenden Erfindung
beruht die Position des Toleranzbereichs auf den Trajektorien, die
verschiedenen Phonemsequenzen entsprechen. Auf diese Weise erreicht
die vorliegende Erfindung eine erhöhte Vielfalt beim Bestimmen
der Position des Toleranzbereichs durch Verwenden einer geringeren
als der Gesamtanzahl von Trajektorien für die phonetischen Sequenzen
aus dem Sprachsignal. Diese Vielfalt ermöglicht der Erfindung, bestimmte phonetische
Sequenzen und Zerlegungspunkte zum Bilden von akustischen Elementen,
die eine Reduzierung von Verkettungslücken erreichen, exakter auszuwählen. Wenn
die Position des Toleranzbereichs ein Bereich mit der höchsten Konzentration
von Trajektorien ist, die verschiedenen Phonemsequenzen entsprechen,
so würden
die akustischen Elemente synthetisch erzeugte Sprache einer relativ
guten Tonqualität
erzeugen. Ist jedoch auch eine leicht verminderte Tonqualität annehm bar,
kann auch ein Toleranzbereich gemäß der vorliegenden Erfindung
verwendet werden, der eine geringere als die höchste Konzentration von Trajektorien
aufweist.
-
Ein als Beispiel dienendes Verfahren
zum Bestimmen des Toleranzbereichs gemäß dem Verfahren 200 ist
das Teilen des naturgetreuen Raums, in dem die Trajektorien bestimmt
werden, in entsprechende Zellen, und das Identifizieren der einzelnen Zelle
oder des Zellenbereichs, der zumindest ein gewünschtes Mindestniveau von Trajektorienkonzentration
aufweist. Eine als Beispiel dienende Arbeitsweise des Verfahrens 200 gemäß diesem
Verfahren wird im Folgenden unter Bezugnahme auf ein in 4 gezeigtes, als Beispiel
dienendes Trajektoriendiagramm 300 beschrieben. Unter Bezugnahme
auf 3 sind in Schritt
210 phonetische Sequenzen, die phonetische Segmenten, die dem Phonem
/i/ entsprechen, enthalten, in einem Abschnitt aufgezeichneter Sprache
identifiziert. Die phonetischen Sequenzen entsprechen den Phonemsequenzen
/lid/, /lik/, /mik/, /gim/, /din/, und fünf phonetische Sequenzen entsprechen
der Phonemsequenz /kit/. Die akustischen Elemente, die aus diesen
phonetischen Sequenzen gebildet werden könnten, umfassen die Diphone
[l-i], [i-d], [i-k], [m-i], [g-i], [i-m], [d-i], [i-n], [k-i] und
[i-t] . Obwohl die Erörterung
von 4 die Bildung akustischer
Elemente betrifft, die Diphone sind, versteht sich, das auch akustische
Elemente größerer Phonemsequenzen
gemäß der vorliegenden
Erfindung gebildet werden können,
indem das Verfahren 200 von 3 auf
die jeweiligen Grenzphoneme der entsprechenden größeren phonetischen
Sequenzen angewendet wird.
-
Für
jede der phonetischen Sequenzen, die in Schritt 210 identifiziert
werden, werden in Schritt 220 Zweiformantentrajektorien für jede der
phonetischen Sequenzen gebildet. Das Trajektoriendiagramm 300, das
in 4 gezeigt ist, bildet
diese Trajektorien in einem naturgetreuen Zweiformantenraum ab,
der in mehrere Zellen 310 aufgeteilt ist. In 4 ist jede Trajektorie mit
der Identifizierung ihrer entsprechenden Phonemsequenz markiert.
Zum Beispiel wurde die Trajektorie 305 von einer phonetischen
Sequenz bestimmt, die der Phonemsequenz /lid/ entspricht, und wird
dementsprechend mit „LID"
markiert. Die fünf
Vorkommen der Phonemsequenz /kit/ von dem Abschnitt des Sprachsignals,
das verwendet worden ist, um Datenbank 5 von 1 zu erzeugen, werden für eine leichtere
Erörterung
mit „KIT1"
bis „KIT5" markiert.
Jede der abgebildeten Zweiformantentrajektorien stellt die, Frequenzwerte
des Formanten F1 für
die jeweilige phonetische Sequenz gezeichnet gegen die Frequenzwerte
der entsprechenden Formanten F2 an bestimmten Zeitpunkten dar.
-
Die Frequenzen der Formanten F1 und
F2 sind auf der X- beziehungsweise
Y-Achse dargestellt. Bestimmte Zeitpunkte entlang der Trajektorie
können als
entsprechende Markierung dargestellt werden, wie bei der Trajektorie 305 gezeigt.
Die Abbildung von zweidimensionalen Trajektorien in 4 dient nur einer leichteren Erörterung
und Abbildung, und stellt keine Beschränkung der vorliegenden Erfindung
dar. Es ist möglich,
andere N-dimensionalen Darstellungen zu verwenden, wie zum Beispiel
eine Dreiformanten- oder Vierformantendarstellung für phonetische
Segmente, die einen Selbstlaut als das einzelne Phonem aufweisen,
und eine Amplituden- und
Spektralneigungsdarstellung für
Segmente, die einen Mitlaut als das einzelne Phonem aufweisen.
-
Ausschließlich zum Zweck einer leichteren Abbildung
und Erklärung
ist die Zellgröße der Zellen 310 innerhalb
des naturgetreuen Raums auf ein Viertel der gewünschten Größe des Toleranzbereichs festgelegt.
Wenn die Größe des Toleranzbereichs nicht
wesentlich größer ist
als die Zellgröße, ist
es zweckmäßig, die
Zellgröße als Vielfaches
der gewünschten
Größe des Toleranzbereichs festzulegen. Gemäß Schritt
230 des Verfahrens 200 von 3 beruht
die Bestimmung des Toleranzbereichs auf dem Bereich, der von den
Trajektorien geschnitten wird, die verschiedenen Phonemsequenzen
entsprechen. Wird also festgelegt, dass ein Toleranzbereich eines
2 × 2-Feldes von Zellen 310 von
ausreichender Größe ist,
um eine gewünschte
Mindesttonqualität
zu erzeugen, dann ist der Bereich 320, der von der größten Zahl
von solchen Trajektorien geschnitten wird, der Toleranzbereich.
-
Ein Verfahren zum Bestimmen der Zelle
mit der größten Anzahl
solcher Trajektorienschnitte ist zum Beispiel das Durchführen einer
Gittersuche der Zellen im naturgetreuen Raum. Gemäß diesem
Verfahren wird jede Zelle 310 von 4 untersucht, und die Zahl von Trajektorien,
die verschiedenen Phonemsequenzen entsprechen und die Zelle oder
einen vorbestimmten Auflösungsbereich
von Zellen rund um Zelle 310 schneiden, wird bestimmt.
Zum Beispiel beträgt
die Anzahl von Trajektorienschnitten von Zelle 330, die
verschiedenen Phonemsequenzen entsprechen, zwei für die Trajektorien
LID und MIK. Ein rechnerisch einfacheres und schnelleres Verfahren zum
Bestimmen der Zelle mit der größten Anzahl
solcher Trajektorienschnitte, die verschiedenen phonetischen Sequenzen
entsprechen, ist in der Folge unter Bezugnahme auf 5 ausführlich beschrieben.
-
Nachdem die Trajektorien bestimmt
sind, werden in Schritt 240 unter Bezugnahme auf das Verfahren 200 von 3 bestimmte phonetische
Sequenzen zum Bilden der akustischen Elemente ausgewählt, beruhend
auf der Nähe
der entsprechenden Trajektorien zum Toleranzbereich 320.
Es ist vorteilhaft, für
eine bestimmte Phonemsequenz nur ein akustisches Element in die
Datenbank 5 aufzunehmen, um den für die Datenbank erforderlichen
Raum zu minimieren, sowie die Konstruktion des Geräts zum Erzeugen
synthetischer Sprache zu vereinfachen.
-
Folglich wird eine der phonetischen
Sequenzen /lik/ oder /lid/ zum Bilden des akustischen Elements [l-i],
und eine der phonetischen Sequenzen /lik/ oder /mik/ zum Bilden
des akustischen Elements [i-k] gewählt. Des weiteren wird eine
der fünf
phonetischen Sequenzen für
die Phonemsequenz /kit/ zum Bilden der akustischen Elemente [k-i]
und [i-t] gewählt.
Für ein
komplexeres Gerät
zum Erzeugen synthetischer Sprache ist es jedoch möglich, eine
größere Datenbank
zu benützen,
um mehrere akustische Elemente für
eine bestimmte Phonemsequenz je nach Sprachsyntheseanwendung zu
verwenden. Beim Aufbauen einer solchen Datenbank können mehr
als eine oder sogar alle aus dem Sprachsignal entnommenen phonetischen
Sequenzen, die einer bestimmten Phonemsequenz entsprechen, zum Bilden
akustischer Elemente ausgewählt
werden.
-
Wenn ein akustisches Element für eine bestimmte
Phonemsequenz in der Datenbank 5 vorhanden sein soll, kann
das Identifizieren der einen von mehreren phonetischen Sequenzen,
die derselben Phonemsequenz entsprechen, zum Bilden des akustischen
Elements auf der relativen Nähe
der entsprechenden Trajektorien zum Toleranzbereich beruhen. Zum
Beipiel wird für
das akustische Element [l-i] die phonetische Sequenz für „LID",
deren Trajektorie LID den Toleranzbereich 320 schneidet,
anstatt der phonetischen Sequenz „LIK" gewählt, deren Trajektorie LIK
den Toleranzbereich 320 nicht schneidet. Ebenso würde die
phonetische Sequenz „MIK"
im Wesentlichen aus demselben Grund statt der phonetischen Sequenz „LIK" für das akustische
Element [i-k] gewählt.
In derselben Weise würde
die phonetische Sequenz, die der Trajektorie KIT5 entspricht, statt
den anderen jeweiligen phonetischen Sequenzen „KIT" für die beiden akustischen Elemente
[k-i] und [i-t] gewählt.
-
Da akustische Elemente üblicherweise
an zwei Grenzphoneme angehängt
werden können, sollte
des weiteren die Auswahl der bestimmten phonetischen Sequenzen,
die zum Bilden der akustischen Elemente verwendet werden, auf der
Nähe ihrer
Trajektorien für
beide Grenzphoneme beruhen. Darum würde die einzelne phonetische
Sequenz „MIK"
oder „LIK",
deren Trajektorien den beiden Toleranzbereichen für das Grenzphonem
/i/ sowie das Grenzphonem /k/ insgesamt am nächsten liegen, zum Bilden des
akustischen Elements [i-k] ausgewählt werden.
-
Häufig
werden phonetische Sequenzen, die derselben Phonemsequenz entsprechen,
keine Trajektorien aufweisen, die den jeweiligen Toleranzbereichen
für beide
ihrer Grenzphoneme am nächsten liegen.
Solche Fälle
können
vorkommen, wenn die Quelle der phonetischen Sequenzen zwei verschiedene
Wörter
sind, welche die Phonemsequenz enthalten. In solchen Fällen ist
vorzugsweise die phonetische Sequenz auszuwählen, deren Trajektorien eine
insgesamt beste Qualität
aufweisen. Ein als Beispiel dienendes Verfahren zum Auswählen einer
solchen phonetischen Sequenz ist das Zuweisen eines Wertes zu jeder
der phonetischen Sequenzen, beruhend auf einem bestimmten Qualitätsmaß, um die phonetischen
Sequenzen in Bezug auf die entsprechenden Grenzphoneme zu reihen.
Die phonetische Sequenz mit der insgesamt besten Reihung würde dann
verwendet, um das akustische Element zu bilden.
-
Unter nochmaliger Bezugnahme auf
das Verfahren 200 von 3 werden,
nachdem die phonetischen Sequenzen für die akustischen Elemente ausgewählt worden
sind, in Schritt 250 Zerlegungspunkte für die phonetischen Sequenzen
bestimmt, die verwendet werden, um die akustischen Elemente zu bilden.
In 4 beruhen die Zerlegungspunkte zum
Beispiel auf Zeitpunkten in den jeweiligen Trajektorien, die innerhalb
des Toleranzbereichs 320 liegen. Für diese Trajektorien, die den
Toleranzbereieh 320 schneiden, sollten die gewählten Zerlegungspunkte
vorzugsweise Zeitpunkte entlang den Trajektorien sein, die am nächsten bei
einem Mittel punkt 340 des Toleranzbereichs 320 liegen.
Zum Beispiel ist in 4 der
Zeitpunkt auf Trajektorie 305, der dem Mittelpunkt 340 am
nächsten
liegt, 160 Millisekunden. Als Folge davon beruht das akustische
Element /i-k/ auf der phonetischen Sequenz, die bei 160 Millisekunden
beginnt.
-
Auch für die Trajektorien, die den
Toleranzbereich 320 nicht schneiden, wie zum Beispiel die Trajektorie
LIK, sollte der Zerlegungspunkt der Zeitpunkt entlang der Trajektorie
sein, die am nächsten beim
Mittelpunkt 340 des Toleranzbereichs liegt. Folglich würde der
richtige Zerlegungspunkt, wenn die phonetische Sequenz „LIK" zum
Bilden des akustischen Elements gewählt worden ist, dem Zeitpunkt 350 auf
der Trajektorie LIK entsprechen. Es versteht sich, dass sich eine
relativ größere Lücke beim
Phonem /i/ ergeben würde,
wenn diese phonetische Sequenz zum Bilden des akustischen Elements
verwendet wird. Dementsprechend könnte es wünschenswert sein, andere Sprachsegmente
für die Phonemsequenz
/lik/ zu erhalten, um zu bestimmen, ob sie besser geeignet wären, das
akustische Element zu bilden.
-
Beim Verfahren 200 von 3, werden die akustischen
Elemente beruhend auf den gewählten phonetischen
Sequenzen und den bestimmten Zerlegungspunkten gebildet, nachdem
die Zerlegungspunkte in Schritt 250 bestimmt worden sind. Die akustischen
Elemente können
zum Beispiel in Form von digitalisierten Sprachsignalen oder LPC-Parametern,
die den phonetischen Sequenzen entsprechen, die an den jeweiligen
Zerlegungspunkten beginnen und enden, in der Datenbank 5 von 1 aufbewahrt werden. Auch
längere
Sequenzen können
in der Datenbank 5 zusammen. mit Anfangs- und Endwerten
gespeichert werden, die den bestimmten Zerlegungspunkten für die jeweiligen
akustischen Elemente entsprechen. Der Abrufprozessor 15 für akustische
Elemente von 1 würde dann
das richtige akustische Element beruhend auf diesen Werten von diesen
längeren
Sequenzen ent nehmen. Es sollte offensichtlich sein, dass das besondere
organisatorische Verfahren, das für die Datenbank 5 verwendet wird,
keinerlei Beschränkung
darstellt, und jedwede Organisation verwendet werden kann, um die
akustischen Elemente zu speichern, die gemäß der vorliegenden Erfindung
gebildet werden. Um die Vielzahl von Äußerungen einer bestimmten Sprache
synthetisch zu erzeugen, sollten akustische Elemente für alle elementaren
Phonemsequenzen dieser Sprache angelegt werden.
-
Die überraschende Verwendung einer
größeren Vielfalt
von Trajektorien beim Bestimmen der Position des Toleranzbereichs
gemäß der vorliegenden
Erfindung hat akustische Elemente zur Folge, die kleinere Lücken bei
der Verkettung erzeugen. Zum Beispiel entspricht Bereich 360 in 4 dem Bereich, der auf allen Trajektorien
beruht und wird geschnitten von, oder liegt am nächsten bei der insgesamt größten Zahl
von solchen Trajektorien, aufgrund von fünf Trajektorien für die Phonemsequenz /kit/.
Es ist jedoch ersichtlich, dass die Zeitpunkte auf den Trajektorien
LID und MIK, die dem Bereich 360 am nächsten liegen, bei der Verkettung
der entsprechenden akustischen Elemente relativ große Lücken erzeugen
würden.
Im Gegensatz dazu ist der Toleranzbereich 320 nicht durch
mehrere Fälle
der Phonemsequenz /kit/ verdreht, und der entsprechende Abstand
zwischen allen ausgewählten
Trajektorien und dem Toleranzbereich 320 ist viel kleiner
und würde
sämtliche
entsprechenden Lücken
minimieren.
-
5 stellt
ein als Beispiel dienendes Verfahren 400 gemäß der vorliegenden
Erfindung zum Bestimmen der Zelle mit der größten Anzahl von Trajektorienschnitten
dar, die verschiedenen phonetischen Sequenzen zum Verwenden in Schritt
230 in 3 entsprechen.
Für eine
leichtere Erörterung wird
jede Trajektorie in 5 mit
einer eindeutigen ganzen Zahl bezeichnet, statt mit dem entsprechenden
phonetischen Sequenzmarkierung, die in 4 verwendet wird. Zum Beispiel werden
die in 4 abgebildeten
neun Trajektorien in 5 als
Trajektorien 1 bis 9 bezeichnet. Eine solche Bezeichnung
der Trajektorien entspricht herkömmlichen
Zeigern, die in Datenstrukturdarstellungen verwendet werden, wie zum
Beispiel in Feldern oder Tabellen.
-
Gemäß dem Verfahren 400 werden
eine ganze Zahl N und mehrere Listen LIST i in Schritt 410 auf Null
initialisiert. Die Anzahl i von Listen in einer Vielzahl von Listen
LIST i entspricht der Anzahl von Zellen im naturgetreuen Raum. Dann
wird die ganze Zahl N in Schritt 420 hochgezählt. Dann werden in Schritt
430 für
jeden Zeitpunkt in der Trajektorie N die Zellen identifiziert, die
sich innerhalb eines Auflösungsbereichs
befinden, der den jeweiligen Zeitpunkt umgibt. Zur Annehmlichkeit
kann der Auflösungsbereich
dieselbe Größe aufweisen,
wie der Toleranzbereich. Jedoch kann der Auflösungsbereich gemäß der vorliegenden
Erfindung auch eine andere Größe aufweisen,
wenn es gewünscht
wird. Wenn für
den Auflösungsbereich
ein Bereich gewählt
wird, der von einem Feld von 2 × 2
Zellen bedeckt ist, würde
der Auflösungsbereich,
der einen Zeitpunkt 505 bei 0,095 Millisekunden der Trajektorie 305 in 4 umgibt, Zellen 511, 512, 513 und 514 umfassen,
die von einer Kontur 510 umgeben sind.
-
Nachdem die Zellen im Auflösungsbereich
in Schritt 430 identifiziert worden sind, werden die jeweiligen
Listen LIST_i für
die identifizierten Zellen mit dem Namen der Phonemsequenz für die entsprechende
Trajektorie N aktualisiert. Außerdem
wird in Schritt 440 der Name der Phonemsequenz nur dann der Liste
hinzugefügt,
wenn er nicht bereits auf der Liste für diese Zelle aufscheint. Folglich
würden
unter der Annahme, dass der Name „LID" im oben beschriebenen
Beispiel nicht in den Listen LIST i für die Zellen 511 bis 514 aufscheint,
die Listen LIST_i für diese
Zellen mit diesem Namen aktualisiert. Die Listen LIST i für die Zellen,
die sich innerhalb des Auflösungsbereichs
für die
anderen Zeitpunkte entlang der Trajektorie 305 befinden,
würden
ebenfalls mit dem Namen „LID"
in der im Wesentlichen gleichen Weise aktualisiert werden.
-
Nachdem die Zellen innerhalb der
identifizierten Auflösungsbereiche
einer bestimmten Trajektorie N in Schritt 440 aktualisiert worden
sind, bestimmt das Verfahren in Schritt 450, ob die ganze Zahl N
gleich ist wie die Gesamtzahl der Trajektorien. Stellt das Verfahren
fest, dass N der Gesamtzahl der Trajektorien nicht entspricht, führt das
Verfahren 400 die Schritte 420 bis 440 aus, um die Listen
LIST i beruhend auf Zeitpunkten der nächsten Trajektorie N zu aktualisieren.
Stellt das Verfahren jedoch fest, dass N gleich der Gesamtzahl von
Trajektorien ist, dann sind alle Trajektorien verarbeitet worden
und alle Listen LIST_i innerhalb der Auflösungsbereiche aktualisiert worden
und das Verfahren 400 fährt
bei Schritt 460 fort. In Sehritt 460 wird der Toleranzbereich
ausgehend von der Zelle oder dem Bereich von Zellen bestimmt, die/der
die größte Anzahl
von Namen in der entsprechenden Liste oder den entsprechenden Listen
LIST_i aufweist/aufweisen. Da das Verfahren 400 nur die
Zellen untersucht und aktualisiert, die innerhalb von Auflösungsbereichen
von Trajektorienzeitpunkten liegen, ist es rechnerisch einfacher
und schneller als Gittersuchverfahren, die jede Zelle einzeln untersuchen.
-
Im Verfahren 400 erkennt
Schritt 430 zunächst
alle Zellen innerhalb von Auflösungsbereichen
für Zeitpunkte
einer bestimmten Trajektorie, bevor die entsprechenden Zelllisten
in Schritt 440 aktualisiert werden. Es versteht sich jedoch, dass
die in 4 gezeigte Abfolge
der Schritte nur Darstellungszwecken dient und nicht als Einschränkung der
vorliegenden Erfindung zu verstehen ist. Die Abfolge solcher Schritte
kann auf viele verschiedene Arten durchgeführt werden, einschließlich des
Aktualisierens einer Liste LIST i direkt nachdem bestimmt worden
ist, dass sich die jeweilige Zelle innerhalb eines Auflösungsbereichs
eines bestimmten Trajektorienzeitpunkts befindet.
-
In einer alternativen Ausführungsform
kann die Identifizierung der Zelle mit der längsten Liste LIST_i während dem
gesamten Zellenlistenaktualisierungsvorgang beibehalten werden,
indem die Identifizierung der Zelle mit der längsten Liste LIST_i und die
entsprechende maximale Listenlänge
gespeichert und aktualisiert werden. Da jede Zellenliste aktualisiert
wird, kann die Gesamtanzahl von in dieser Liste enthaltenen Namen
mit dem gespeicherten Wert für
die längste
Liste verglichen werden. Übertrifft
die Anzahl von Namen in einer Liste die der gespeicherten Zellenidentifizierung,
so würden
die gespeicherte Zellenidentifizierung und die maximale Listenlänge in der
Folge aktualisiert werden. Auf diese Weise wäre die Identifizierung der
Zelle, die dem Toleranzbereich entspricht, beim Verarbeiten des letzten
Zeitpunkts der letzten Trajektorie ohne weitere Verarbeitungsschritte
bekannt.
-
Sind die Zellenlisten zum Beispiel
in Form von Datenstrukturen mit ganzzahligen Werten, welche die
Zellenposition innerhalb des naturgetreuen Raums bezeichnen, indiziert,
so kann ein rechnerisch einfaches und schnelleres Verfahren benützt werden.
Zum Beispiel können
die Zellenlisten für
die Zellen 310 in 4 in
einer Weise indiziert werden, die ihren X- und Y-Koordinaten entspricht.
Dann werden Umrechnungswerte verwendet, um die Trajektorienzeitpunktwerte
in indizierte Werte umzuwandeln, welche die relative Koordinationposition
der Zeitpunkte beruhend auf den indizierten Zellen angibt. Dann
werden Auflösungswerte
zu den umgewandelten indizierten Werten hinzugezählt oder von ihnen abgezogen,
um die Indexnummern der Zellen innerhalb des Auflösungsbereichs
dieses Punktes zu identifizieren. Die Listen LIST i der jeweiligen
Zellen inner halb des Auflösungsbereichs
werden dann entsprechend aktualisiert.
-
In der Folge können für das in 4 gezeigte Beispiel die Frequenzwerte
der Formanten F1 und F2 von Zeitpunkt 505 der Trajektorie 305 in 4 mit Umrechnungsfaktoren
multipliziert werden, um umgerechnete Werte x = 3,5 und y = 3,5
zu erhalten, die angeben, dass er sich sowohl in der X- auch als
der Y-Richtung zwischen der dritten und der vierten Zelle befindet.
Ist der Auflösungsbereich
also ein 2 × 2-Zellenfeld,
müssen
die Auflösungswerte
von ±1
den umgerechneten Werten hinzugezählt und zur nächstliegenden
Position gerundet werden, um zu erreichen, dass die Zellenlisten
für Zellen
innerhalb des Auflösungsbereichs 510 die
Koordinaten (3, 3), (3, 4), (4, 3) und (4, 4) aufweisen, die den
Zellen 511 bis 514 entsprechen, und mit dem Phonemsequenznamen „LID" aktualisiert
werden würden.
-
Obwohl verschiedene Ausführungsformen der
vorliegenden Erfindung oben ausführlich
beschrieben worden sind, sind viele Abänderungen möglich, ohne von ihren Lehren
abzuweichen. Es ist beabsichtigt, dass all diese Abänderungen
in den folgenden Ansprüchen
beinhaltet sind. Obwohl die vorliegende Erfindung mit zweidimensionalen
rechteckigen Zellen und Toleranzbereichen dargestellt worden ist,
ist es zum Beispiel möglich
jegliche N- dimensionale
geschlossene Form für
die Zellen und Bereiche zu verwenden, die vereinbar sind mit einem
N- dimensionalen
naturgetreuen Raum, einschließlich
Kuben, Kästen,
Kugeln und Sphäroiden.
Des weiteren ist die Erfindung im Besonderen hilfreich in vielen verschiedenen
Sprachsyntheseanwendungen, einschließlich Text-zu-Sprache-Synthese
und Sprachausgäbesysteme.