DE3306730A1

DE3306730A1 - Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal

Info

Publication number: DE3306730A1
Application number: DE19833306730
Authority: DE
Inventors: Nishioka Kamagaya Chiba Hisao; Akabane Saitama Makoto; Watari Urawa Saitama Masaro; Waku Tokyo Toshihiko
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1982-02-25
Filing date: 1983-02-25
Publication date: 1983-09-01
Also published as: GB8429480D0; GB8305292D0; FR2522179B1; KR910002198B1; FR2522179A1; NL8300718A; GB2118343A; KR840003871A; NL192701C; CA1193732A; NL192701B; GB2118343B; JPS58145998A; GB2153127A; DE3306730C2; US4592085A; JPH0441356B2; GB2153127B

Description

Beschreibung

Verfahren und Schaltungsanordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal sowie zum Erzeugen von Signalen zur Anzeige von Übergängen in einem Sprachsignal

Die Erfindung bezieht sich generell auf ein Verfahren und eine Schaltungsanordnung zur Spracherkennung und insbesondere auf ein Verfahren und eine Schaltungsanordnung, mit deren Hilfe bestimmte Phoneme in einem Sprachsignal unabhängig vom Sprecher erkannt werden können.

Eine bekannte Spracherkennungsanordnung kann Phoneme erkennen, die von einem bestimmten Sprecher gesprochen werden. Bei der Anwendung dieses Typs von Anordnung spricht der Sprecher eine Liste sämtlicher Wörter, die zu erkennen sind, und akustische Parameter der Wörter werden durch verschiedene Schaltungselemente ermittelt, Wie durch eine Bandpaßfilterbank, und ferner werden diese Parameter in einem Speicher gespeichert. Wenn der Spreeher dann später dieselben Worte in der normalen Sprache benutzt, werden sodann deren akustische Parameter ermittelt und mit den zuvor gespeicherten akustischen Parametern verglichen. Wenn die beiden akustischen Parameter miteinander übereinstimmen, "erkennt" die Anordnung die später gesprochenen Wörter. Um mit einer Situation fertig zu werden, in der der Sprecher zu verschiedenen Zeiten schneller oder langsamer sprechen könnte (der Sprecher könnte beispielsweise langsamer als in der normalen Sprechweise sprechen, wenn die Wörter aufgelistet werden), kann eine Zeitreihe von akustischen Parametern in regelmäßigen Intervallen gewonnen werden,beispiels-

weise alle 5 bis 20 ms und bei der Erkennung der Wörter herangezogen verden.

Der vorstehend erwähnte Anordnungstyp muß im voraus säratliehe akustischen Parameter sämtlicher zu erkennenden Wörter registrieren und speichern, weshalb eine enorme Speicherkapazität erforderlich ist und weshalb eine große Vielzahl von mathematischen Berechnungen durchgeführt werden muß. Die "Zeitanpassungsⁿ-Funktion erfordert beispielsweise eine riesige Zahl von mathematischen Berechnungen und belastet die Fähigkeiten der meisten Datenprozessoren. Wenn die Zeitbasen nicht genügend aneinander angepaßt sind, könnte die Erkennung fehlerhaft sein.

Es ist ein weiteres Spracherkennungsverfahren vorgeschlagen worden, welches einzelne Phoneme zu erkennen imstande ist, beispielsweise die Töne bzw. Klänge A, I, U, E, 0, K, S, T, etc. und die Silben KA, KI, KU, etc..

Ein hauptsächlicher Nachteil des zuletzt erwähnten Verfahrens liegt darin, daß zwar Phoneme, wie Vokale und dergl. mit quasi-stationären Teilen ohne weiteres erkannt werden können, daß aber Phoneme mit kurzen Phonem-Charakteristiken, wie Verschlußlaute (K, T, P usw.) extrem schwierig in Phoneme unter Ausnutzung akustischer Parameter zu organisieren sind.

Um diese Schwierigkeit zu überwinden, ist eine Verbesserung bzw. Verfeinerung des betreffenden Verfahrens vorgeschlagen worden, gemäß der die Phoneme gespeichert werden, die diskret gesprochen sind. Die Phoneme, die diffus gesprochen sind, werden dadurch erkannt, daß ihre Zeitbasen unter Anwendung von "Zeitanpassungs"-Verfahren ähnlieh jenen, die oben beschrieben worden sind, angepaßt werden, wodurch die Phoneme mit kurzen Phonemcharakteri-

stiken, wie die zuvor erwähnten Verschlußlaute (Κ, Τ, Ρ usw.) leichter erkannt werden können. Das betreffende
Verfahren weist jedoch ebenfalls eine begrenzte Anwendbarkeit auf, und zwar aufgrund der großen Anzahl von
mathematischen Berechnungen, die zur Anpassung der Zeitbasen erforderlich sind. Wenn das betreffende Verfahren zum Erkennen von Phonemen irgendwelcher Personen angewandt wird und nicht zum Erkennen der Phoneme von gerade einem bestimmten Sprecher, dann sind überdies die Eigentümlichkeiten der akustischen Parameter aufgrund der individuellen Differenzen in der Sprache derart gestreut,
daß die Erkennung der Phoneme scheinbar unmöglich ist,
indem lediglich eine Anpassung der Zeitbasen erfolgt,
wie dies oben beschrieben worden ist.

Demgemäß sind noch weitere Verfahren vorgeschlagen worden. Bei einem derartigen weiteren Verfahren wird eine Vielzahl akustischer Parameter gespeichert, die ein Wort kennzeichnen bzw. darstellen könnten, und sodann werden Phoneme auf der Basis von angenäherten Anpassungen jener

akustischen Parameter erkannt. Gemäß einem noch weiteren Verfahren wird ein vollständiges Wort in Parameter fester Dimensionen umgesetzt, und sodann erfolgt eine Bewertung oder Diskriminierung unter diesen Parametern, in dem eine

Diskriminatorfunktion angewandt wird. Diese Verfdren erfordern jedoch wie die anderen, oben erwähnten Verfahren eine große Speicherkapazität und eine hohe Anzahl von
mathematischen Berechnungen, was die Anzahl der Wörter
erheblich reduziert, die erkannt werden können.

Eine Eigenschaft bzw. Eigentümlichkeit von Sprachsignalen ist das Vorhandensein von Übergängen in diesen Signalen, das sind Punkte bzw. Stellen, an denen ein Phonem in ein anderes Phonem wechselt und an denen eine Ruhepause zu

einem Phonem wird oder umgekehrt. Es sind zwar Verfahren zur Ermittlung solcher Übergänge bekannt; es ist jedoch

kein Verfahren bzw. keine Anordnung bisher vorgeschlagen worden, um die betreffenden Übergänge für die Spracherkennung effektiv und wirkungsvoll auszunutzen.

Der Erfindung liegt demgemäß die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal zu schaffen, wobei das betreffende Verfahren und die betreffende Anordnung imstande sein sollen, die Nachteile bzw. Mangel der bekannten Verfahren und Anordnungen zu überwinden.

Ferner sollen ein Verfahren und eine Anordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal geschaffen werden, wobei dieses Verfahren und diese Anordnung bestimmte Phoneme ohne weiteres und sicher erkennen sollen, ohne daß Zeitreihen akustischer Parameter komprimiert oder gedehnt werden, damit deren Zeitbasen angepaßt werden, und ohne daß ein vorhergehendes Sprechen der zu erkennenden Wörter erforderlich ist.

Außerdem sollen ein Verfahren und eine Anordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal angegeben werden, wobei weniger Speicherkapazität erforderlich sein aoll als bei den bisher bekannten Verfahren und An-Ordnungen, ohne daß die Anzahl der Wörter beschränkt ist, die erkannt werden können.

Darüber hinaus sollen ein Verfahren und eine Anordnung der zuvor erwähnten Art geschaffen werden, um Übergänge in dem Sprachsignal zu ermitteln, damit die Ausnutzung der Phoneminformation an den Übergängen für die Erkennung der Phoneminformation in den Sprachsignalen ermöglicht ist.

Schließlich sollen ein Verfahren und eine Schaltungsanordnung geschaffen werden, um aus dem eine Phoneminfor-

mation eines Sprachsignals enthaltenden akustischen Parametersignals ein iibergangssignal zu erzeugen, welches bewertet werden kann, um die Lage eines Ruhe-Phonem- oder Phonem-Phonem-Übergangs in dem Sprachsignal anzuzeigen.

Gelöst, wird die vorstehend aufgezeigte Aufgabe durch die in den Patentansprüchen erfaßte Erfindung.

Gemäß einem Aspekt der Erfindung ist für die Erkennung bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, ein elektrisches Signal bereitgestellt, welches das Sprachsignal kennzeichnet. Aus dem betreffenden elektrischen Signal wird ein erstes akustisches Pararaetersignal erzeugt, welches die Phoneminformation des Sprachsignals enthält. Aus der Phoneminformation in dem ersten akustischen Parametersignal wird ein Üb es rgangs signal erzeugt, um die Lage eines Übergangs in dem Sprachsignal anzuzeigen. Das erste akustische Pararaetersignal wird gespeichert, und aus dem betreffenden gespeicherten ersten akustischen Parametersignal wird ein zweites akustisches Parametersignal erzeugt, indem das Übergangssi~ gnal herangezogen wird, so daß das zweite akustische Parametersignal eine Phoneminformation des Sprachsignals an dem Übergang enthält, wodurch das zweite akustische Parametersignal mit bekannter Phoneminformation verglichen werden kann, um die Phoneminformation in dem Sprachsignal zu erkennen.

Gemäß einem weiteren Aspekt der Erfindung wird ein Übergang in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, dadurch ermittelt, daß ein akustisches Parametersignal bereitgestellt wird, welches eine Phoneminformation des Sprachsignals enthält.

Ferner erfolgt eine Aufteilung einer Vielzahl von Zeitrahmen des akustischen Parametersignals in eine Vielzahl

.·'"': ■ i ': .·"■:":. ": 330673U

von Frequenzbandsignalen, deren jedes einen Leistungspegel des akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahraen kennzeichnet. Ferner wird ein mittlerer Leistungspegel in dem jeweiligen Zeitrahmen aus den Frequenzbandsignalen berechnet. Schließlich wird eine Vielzahl von ersten Differenzsignalen zwischen dem mittleren Leistungspegel im jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen berechnet. Sodann wird für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet, und zwar zwischen a) dem niedrigsten der Differenzpegel in dem jeweiligen Frequenzband für die Vielzahl der Zeitrahmen und b) dem jeweiligen ersten Differenzpegel in denLJselben Frequenzband für die Vielzahl von Zeitrahmen. Die Summe sämtlicher zweiter Differenzpegel wird dann berechnet, wobei diese Summe ein Übergangssignal umfaßt, welches bewertet werden kann, um die Übergänge in dem Sprachsignal zu ermitteln.

Anhand von Zeichnungen wird die Erfindung nachstehend beispielsweise näher erläutert. In den einzelnen Zeichnungen verwendete gleiche Bezugszeichen und Symbole bezeichnen dabei jeweils gleiche bzw. entsprechende EIemente bzw. Merkmale.

Fig. 1A und IB zeigen in Diagrammen die Änderungen von Phonemen in einem Sprachsignal, welche die Grundlage des Spracherkennungsverfahrens und der Spracherkennungsanordnung gemäß der Erfindung bilden.

Fig. 2 zeigt in einem Blockdiagramm schematisch eine Spracherkennungsanordnung gemäß einer Ausführungsform der Erfindung.

Fig. 3-A. bis 3H zeigen in Diagrammen verschiedene Signale, die durch die in Fig. 2 dargestellte Anordnung erzeugt werden.

Flg. k veranschaulicht in einer Tabelle, wie das Verfahren gemäß der Erfindung generell arbeitet.

Fig. 5-A. bis 51 zeigen Kurvenverläufe, die zur Erläuterung eines bekannten Ubergangs-Detektorverfahrens herangezogen werden.

Fig. 6 zeigt in einem Blockdiagramm schematisch eine Schaltungsanordnung, die in der in Fig. 2 gezeigten Anordnung verwendet wird, um Ruhe-Pho- IQ nem- und Phonem-Phonem-Übergangs-Signale zu erzeugen.

Fig. "JA bis 7C zeigen Kurven, welche die Beziehung zwischen einem Sprachsignalverlauf, den Phonemen und Übergängen in dem Sprachsignal bzw. dem Übergangssignal veranschaulichen, welches durch die in Fig. 6 dargestellte Schaltungsanordnung erzeugt wird.

Das Spracherkennungsverfahren und die Spracherkennungsanordnung gemäß der Erfindung nutzt in vorteilhafter Weise eine der Sprache anhaftende Eigenschaft aus. Im allgemeinen wird mit lang betonten Phonemen, wie Vokalen und Reibelauten (S, H usw.) gesprochen. Die Aussprache beispielsweise des Wortes"HAI" ("JA" in japanisch) umfaßt im Klang "Ruhe -» H ·? A * I ■» Ruhe", wie dies schematisch in Fig. 1 gezeigt ist. (Das Symbol "♦"kennzeichnet eine Ruhepause, und das Symbol "■»>" kennzeichnet einen Übergang, sei es ejnenRuhe-Phonemoder einen Phonem-Phonem-Übergang.) Dasselbe Wort "HAI" kann entweder so wie in Fig. IA oder so wie in Fig. IB gezeigt gesprochen werden. Fig. 1 veranschaulicht dabei, daß jeder quasi-stationäre Bereich oder jedes quasistationäre Segment, welches durch die Phoneme H, A und I gebildet ist, eine Dauer aufweist, die sich mit der Sprechweise ändern kann. Ein Ruhe-Phonem-Übergang oder ein Phonem-Phonem-Übergang (der Bereich oder das Segment

j zwischen den quasi-stationären Teilen ist in Fig. 1A und 1B durch eine schräge Linie veranschaulicht) weist eine Dauer auf, die sich mit jeder Sprechweise sehr wenig ändert. Dies bedeutet, daß jedesmal dann, wenn das Wort gesprochen wird, die Zeitbasis des quasistationären Segments schwanken kann, während die Zeitbasis der Übergänge relativ konstant ist.

Eine Schaltungsanordnung gemäß einer Ausführungsform der

IQ Erfindung, welche die Eigenschaft der Sprache zur Erkennung bestimmter Phoneme in einem Sprachsignal ausnutzt, ist in Fig. 2 gezeigt. In Fig. 2 stellt ein durch eine vollausgezogene Linie umrahmter Block A eine Einrichtung dar, die ein Sprachsignal in ein elektrisches Signal umsetzt, welches kennzeichnend ist für das Sprachsignal. Diese Einrichtung umfaßt ein Mikrophon 1 und einen Verstärker 2. Ein durch eine vollausgezogene Linie eingerahmter Block B umfaßt ein Tiefpaßfilter 3» einen Analog-Digital- (a/D)-Wandler k, ein Schieberegister 6, eine schnelle Fourier-Transformationsschaltung (FFT) 8 und einen Leistungsöpektraldetektor 9. Der betreffende Schaltungsblock B arbeitet so, daß ein erstes akustisches Parametersignal erzeugt wird, welches eine Phoneminformation des Sprachsignals enthält, und zwar aus dem elektrischen Signal, welches von dem Schaltungsbereich oder der Einrichtung A abgegeben wird. Ein durch eine vollausgezogene Linie umrahmter Block C enthält eine Emphasis- oder Gewichtungsschaltung 10 und eine Übergangs-Detektorschaltung 20. Die Detektorschaltung 20 erzeugt ein Übergangssignal, welches die Lage eines Ruhe-Phonem-Übergangs oder eines Phonem-Phonem-Übergangs in dem Sprachsignal anzeigt, indem die Phoneminformation in dem ersten akustischen Parameter ausgenutzt wird. Das betreffende Signal ist durch die Schaltung 10 gewichtet worden. Ein durch eine gestrichelte Linie umrahmter Block D stellt eine Schaltung dar, welche die Emphasis-

Schaltung 10, eine erste Bandteilerschaltung 1I₁ eine Logarithmusschaltung 12, eine erste diskrete Fourier-Transformationsschaltung (DFT) 13, einen Speicher 14 und eine zweite diskrete Fourier-Transformationsschaltung 15 umfaßt. Die Schaltung D erzeugt ein zweites akustisches Parametersignal aus dem ersten akustischen Parametersignal, indem das Übergangssignal von der Detektorschaltung 20 herangezogen wird. Das zweite akustische Parametersignal enthält eine Phonerainformation des Sprachsignals an den Übergängen.

Im Betrieb wird ein Signal von dem Mikrophon 1 her über den Mikrophonverstärker 2 und das Tiefpaßfilter 3» welches eine Frequenz von weniger als 5»5 kHz hat, an den A/D-Wandler k abgegeben. Ein Abtastsignal von 12,5 kHz (welches mit einem Intervall von 80 us auftritt) wird von einem Taktgenerator 5 &¹¹ den A/D-Wandler k abgegeben, wodurch das Sprachsignal zum Zeitpunkt dieses Abtasttaktes in ein digitales Signal umgesetzt wird. Das umgesetzte digitale Sprachsignal wird an das Schieberegister 6 abgegeben, welches 5 ^x 6k Worte umfaßt, und ein Rahmensignal mit einem Intervall von 5,12 ms wird von dem Taktgenerator 5 her an einenQuinär-Zähler 7 abgegeben. Der Zählwert wird an das Register 6 abgegeben, und dadurch wird das Sprachsignal um jeweils 6k Worte verschoben, wodurch von dem Register 6 ein verschobenes Sprachsignal aus k χ 6k Worten erzeugt wird.

Das Signal aus k χ 6k (= 256) Worten, das von dem Register 6 abgeleitet ist, wird an die schnelle Fourier-Transf ormationsschaltung 8 abgegeben. Wenn angenommen wird, daß eine Signalwellenfunktion durch n_ Abtastdaten dargestellt wird, die in einer zeitlichen Länge von T enthalten sind, dann wird in der schnellen Fourier-Transformationsschaltung 8 die Größe

durch Fourier-Transformation zu der Signalwellenfunktion U_nfT(f), was zu
Ziehung genügtf

U T(f), was zu ·inera Signal führt, welches folgender Be-

^5Ul„fT(f)+jU_2nfT(f)

Das Signal von der schnellen Fourier-Transformationsschaltung 8 wird dem Leistungsspektrum-Detektor 9 zugeführt, von dem ein Leistungsspektrum-Signal entsprechend folgender Beziehung erzeugt wird:

I^U I ^{= U}lnf^T(f>^+U2nf^T(f> ---W

Da das Fourier-transformierte Signal symmetrisch in Bezug auf die Frequenzachse ist, ist die Hälfte der n„-Abtastdaten, die sich aus der Fourier-Transformation ergeben, redundant und kann weggelassen werden, was zur Bereitstellung von 1/2 η„-Daten führt. Dies bedeutet, daß das Signal von 256 Worten, die der zuvor erwähnten schnellen Fourier-Transformationsschaltung 8 zugeführt worden sind, umgesetzt und sodann als Leistungsspektrum-Signal von 128 Worten erzeugt wird. Das Leistungsspektrum-Signal umfaßt das erste akustische Parametersignal, und es enthält die Phoneminformation des Sprachsignals, die erforderlich ist, um die Spracherkennung gemäß der vorliegenden Erfindung vorzunehmen.

Das Leistungsspektrum-Signal aus 128 Worten wird an die Emphasis- oder Gewichtungsschaltung 10 abgegeben, in der das betreffende Signal gewichtet wird, um in einem gehörmäßigen Sinne korrigiert zu werden. So könnte das Leistungsspektrum-Signal beispielsweise so gewichtet

^ werden, daß die hochfrequente Komponente des Sprachsignals betont bzw. angehoben wird, um nämlich sicherzustellen, daß die darin enthaltene Phoneminformation richtig dargestellt wird, um den Rest des Spracherken-

g nungsverfahrens auszuführen. Mit andoren Worten ausgedrückt heißt dies, daß die Gewichtun^sschaltung 10 dun Leistungspegel des ersten akustischen Parametersignals selektiv gewichtet, um die Plioneminformation in dem Sprachsignal genauer darzustellen.

Das gewichtete Signal wird zunächst einer Bandteilerschaltung 11 zugeführt und dadurch in beispielsweise 32 Bänder aufgeteilt, welche einer Frequenz-Mel-Skala entsprechen, die auf die gehörmäßigen Charakteristiken

lg des Sprachsignals zugeschnitten sind. Venn die durch die Bandteilerschaltung 11 bereitgestellten Bänder nicht mit den Stellen übereinstimmen, welche die 128 Worte des Leistungsspektrum-Signals kennzeichnen, dann wird das Signal an den nicht miteinander übereinstimmenden Stellen in benachbarte Bänder gebracht, und zwar auf einer anteilmäßigen Basis, um die Information in dem 128-Wort-Signal so genau wie möglich in 32 Bändern darzustellen. In jedem Falle wird das Leistungsspektrum-Signal aus 128 Worten in ein Signal aus 32 Worten komprimiert.

Das komprimierte Signal wird dann an die Logarithmusschaltung 12 abgegeben, in der es in den Logarithmus des jeweiligen Bandes umgesetzt wird. Demgemäß ist dort jegliche Redundanz in dem Leistungsspektrum-Signal ausgeschlossen, beispielsweise aufgrund der Gewichtung in der Emphasisschaltung 10. Der Logarithmus des Leistungsspektrums

umfaßt einen Spektrum-Parameter */_±\ (i » 0, 1, ..., 31),

oouo / ου

-Zk-

\ der an die erste diskrete Fourier-Transformationsschaltung 13 abgegeben wird. Wenn die Anzahl der aufgeteilten Bänder mit M angenommen wird, dann führt in diesem Fall die erste diskrete Fourier-Transformationsschaltung 13 die diskrete Fourier-Transformation von 2M-2 Punkten mit dem M-dimensionalen Parameter X/.\ (i = 0, 1, ... M-1) durch, der als reelle Zahl angenommen wird, und zwar mit symmetrischen Parametern an 2M-1 Punkten. Demgemäß gilt

_2M-3
\t₀

3 ,jni
(n0 \t₀ ^y'ar2m-2 ...(6)

. ,Z τι · ι·πκ
^W2in-2^^e" ^] 2Μ-2 · - · (7)

m-0,1,...,2M-3
15

Da die Funktion, durch die diese diskrete Fourier-Transformation durchgeführt wird, als gerade Funktion betrachtet wird, gilt ferner:

^W2M-2^=cos(-TM^r^)=COS ^W-r ...(8)

Dies führt zu

ν -2M-3, π· i-in

(π0^_{0 (i)} Jj₃₁ ...(9)

Die akustischen Parameter, welche eine Einhüllende-Charakteristik des Leistungs-Spektrums kennzeichnen, werden durch diese erste diskrete Fourier-Transformationsoperation gewonnen.

Wie bei dem so durch diskrete Fourier-Transformation ermittelnden Spektrums-Parameter X/.\ werden die Werte von P Dimensionen von 0 bis P-1 (bei P=8 beispielsweise) daraus gewonnen und als wörtliche Parameter L/ \ (p-0, 1, ... p-i) herangezogen!

2M-3 ir-i-p

^L(P)- U ^X(i)^COS~fFT- ...(1O)

Da der Spektrums-Parameter symmetrisch ist, wird hier die Beziehung angenommen

^x(i)^=x(2M-i-2) , ...(H)

wobei die örtlichen Parameter L/ \ wie folgt ausgedrückt werden können:

M- 2 it · -i ' η " ^ ^- l"i~ *-~ i-) V> ι ι ν /\i 1 N Il * JT /T

E xfi) icOS P^ COS—-—π—ι ^iiJC-J+X(M- 1) COScr—y . . . (1

(p) i=l

wobei p=0, 1, ... P-1 ist.

Auf diese Weise wird das Signal der JZ Worte von dem ersten Bandteiler 11 weiter zu P Worten (beispielsweise zu 8 Worten) komprimiert. Die örtlichen Parameter L/ \ umfassen ein drittes akustisches Parametersignal, welches dadurch erhalten wird, daß das erste akustische Parametersignal in wenige Frequenzbandsignale umgesetzt

on wixi.

Die örtlichen Parameter L/ \ werden an den Speicher 14 abgegeben, der eine Matrix aus Speicherbereichen umfaßt, beispielsweise aus 16 Zeilen, deren eine aus P Worten besteht, in denen die örtlichen Parameter L/ \ der Reihe nach in jeder Dimension gespeichert sind. Dem betreffenden Speicher wird das Rahmentaktsignal in einem Intervall von 5»12 ms von einem Taktgenerator 5 her zugeführt. Der Parameter in Jeder Zeile wird dadurch der Reihe nach in der Querrichtung verschoben. Demgemäß speichert der Speicher Ik die örtlichen Parameter L/ \ von P Dimensionen, und zwar mit bzw. in einem Intervall von 5,12 ms in 16 Rahmen (81,92 ms). Die örtlichen Parameter L/ \ werden durch den Rahmentakt ak-

KP)

tualisiert.

j Unterdessen wird das Signal von der Emphasisschaltung an die Übergangs-Detektorschaltung 20 abgegeben, welche die Lagen der Übergänge zwischen den Phonemen und zwischen den Ruhepausen und den Phonemen ermittelt.

Ein Übergangssignal T/ \, welches die Lage eines Übergangs in dem Sprachsignal anzeigt, wird von der Schaltung 20 an den Speicher ik abgegeben, durch bzw. aus dem zu dem Zeitpunkt, zu dem der örtliche Parameter L/ \ entsprechend der Zeitspanne bzw. dem Zeitpunkt des Übergangssignals in die achte Zeile verschoben wird, ausgelesen wird. Beim Lesen des Speichers 1A werden die Signale von 16 Rahmen in der Querrichtung ausgelesen, und zwar in jeder Dimension P, und die so ausgelesenen Signale werden an die zweite diskrete Fourier-Transformationsschaltung I5 abgegeben.

Die zweite diskrete Pourier-Transftnnationsschaltung führt eine diskrete Fourier-Transformation ähnlich wie die erste diskrete Fourier-Transformationsschaltung 13 aus. Demgemäß wird die Hüllkurven-Charakteristik der Reihen-Änderungen der akustischen Parameter gewonnen. Verte der Q Dimensionen von 0 bis Q-I (bei beispielsweise Q=3) werden von den diskreten Fourier-Transformationssignalen von der zweiten diskreten Fourier-Transformationsschaltung I5 her gewonnen. Diese zweite diskrete Fourier-Transformation wird in jeder Dimension P durchgeführt, um die Übergangsparameter K/ \ (p=0, 1 ... P-1 und q=O, 1, Q-1) von insgesamt P χ Q (= 2k) Vorten zu bilden. Da K/ \ die Leistung der Sprachsignalwelle kennzeichnet, kann zum Zwecke der Leistungsnormierung, wenn p=0 ist, q=>1 zu Q erhalten werden.

In Fig. 3A bis 3H sind die verschiedenen Signale gezeigt, die bei der dargestellten Anordnung gemäß der Erfindung erhalten werden. Fig. 3^A zeigt dabei den Verlauf des

-Zl-

Sprachsignals für das Sprechen des Wortes ^MHAI", wobei dieses Signal von dem Verstärker 2 erzeugt wird. Fig. JB zeigt generell die Konfiguration des Übergangssignals, welches von der Schaltung 20 erzeugt wird. Das Gesamt-LeistungsSpektrum des in Fig. JA gezeigten Sprachsignals ist in Fig. JC veranschaulicht, in der die Information dargestellt ist, die in dem ersten akustischen Parametersignal enthalten ist. Als Beispiel ist in Fig. 3D das Leistungsspektrum des Übergangs "H-»A^W gezeigt.

Das gewichtete Signal ist in Fig. 3E veranschaulicht. Fig. 3F zeigt das betreffende Signal, welches auf der Basis einer Mel-Skala komprimiert ist. Dieses Signal
wird diskret einer Fourier-Transformation unterzogen, um zu dem in Fig. 3G gezeigten Signal zu werden. Venn die vorderen und hinteren 16 Zeitrahraen dieses Signals einer Matrixbehandlung unterzogen werden, erhält man
das in Fig. JK gezeigte Signal. Die zweite diskrete
Fourier-Transformation in Richtung einer Zeitbasis oder Zeitachse t liefert dann die Übergangsparameter K/ \,

(Pt <l)

welche die zweiten akustischen Parametersignale umfassen, die eine Phoneminformation des Sprachsignals an
den Übergängen enthalten.

Die Übergangsparameter K/ \ werden an eine Rechen-

\P» °i/

schaltung 16 zur Berechnung des Mahalanobis-Abstands
abgegeben. Ferner wird ein Cluster-Koeffizient aus
einem Bezugsspeicher 17 an die Rechenschaltung 16 abgegeben, in der der Mahalanobis-Abstand mit jedem der Cluster-Koeffizienten berechnet wird. Die Cluster-

Koeffizienten ergeben sich aus der Erzeugung von Übergangsparametern aus dem Sprechen einer Vielzahl von
Sprechern bei einer Anordnung ähnlich der bereits beschriebenen Anordnung, wobei eine Klassifizierung der Übergangsparameter auf die Phonem-Inhalte hin erfolgt iind wobei sodann diese Phoneme statistisch analysiert werden.

Der berechnete Mahalanobis-Abstand wird von der Schaltung 16 her an eine Bewertungsschaltung 18 abgegeben, welche die bestimmten übergänge bestimmt, die durch die betreffenden Übergangsparameter dargestellt sind. Diese Infortnation wird dann einem Ausgangsanschluß 19 zugeführt.

Genauer gesagt bedeutet dies im Hinblick auf die 12 Worte von beispielsweise "HAI", "HE" und ¹¹O(NuIl)ⁿ bis "9(XYU)ⁿ, daß die Stimmen einer Anzahl von Sprechern (vorzugsweise von mehr als 100 Personen) im voraus einer Anordnung zugeführt werden, um die Natur bzw. Eigenschaft der Übergänge in ihrer Sprache zu ermitteln und die Übergangsparameter für jene Wörter zu erzeugen. Jene Übergangsparameter werden klassifiziert, wie dies beispielsweise in der Tabelle gemäß Fig. k gezeigt ist, und dann für jede Klassifikation oder für jeden Cluster statistisch analysiert.

Für eine beliebige Probe R^^a'(wobei r=1, 2, ... 2k bedeu-

r, η

tet, wobei a den Clusterindex darstellt und bei a=1 beispielsweise ♦ ■> H und bei a=2 HfA entspricht, und wobei η die Sprecherzahl bedeutet) wird eine Kovarianz-Matrix

(13)

(R^ ')
^x r,n'

berechnet, in der R^ ' = E (R^ ') ist und wobei E einen ' r ^x rn'

Phasenmittelwert darstellt. Sodann wird nach einer inversen Matrix von
30

gesucht.

Demgemäß wird der Abstand zwischen einem beliebigen Übergangeparameter K und einem Cluster a entsprechend

- 29 -einein Mahalanobis-Abs tand erhalten zu

(a) ~Ja) ^Br,s ⁽VV ) ...(15)

(a) T^T

Wenn die zuvor genannten Größen B und R gesucht

r, s r

bzw. ermittelt und sodann in dem Bezugspeicher 17 gespeichert sind, wird der Mahalanobis-Abstand zwischen dem beliebigen Übergangsparameter des Eingangs-Sprachsignals und dem Cluster durch die Mahalanobis-Abstands-Rechenschaltung 16 berechnet.

Demgemäß liefert die betreffende Rechenschaltung 16 den minimalen Abstand von jedem Übergang der eintreffenden Sprache zum jeweiligen Cluster. Die Folge der Übergänge wird dann an die Bewertungsschaltung 18 abgegeben, um die Erkennung und Bewertung durchzuführen, wenn die Eingangssprache aufhört. So wird beispielsweise bei jedem Wort der Wortabstand durch den Mittelwert der Quadratwurzel des minimalen Abstands zwischen den entsprechenden Übergang'sparametern und den Clustern berechnet. In dem Fall, daß die Übergänge teilweise ausgelassen sind, sucht die Anordnung nach einer Vielzahl von Arten von Übergängen, die in den Bereich passen könnten, der ausgelassen worden ist. Wörter mit einer Übergangsfolge, die verschieden ist von der Tabelle, werden jedoch zurückgewiesen. Sodann wird das Wort mit dem minimalen Wortabstand erkannt und bewertet.

Da die Änderung der Phoneme an den Übergängen ermittelt wird, sind somit gemäß der Erfindung Zeitbasisschwankungen kein Faktor bei der Erkennung der Phoneme, und es können die Phoneme irgendeines Sprechers zufriedenstellend erkannt werden. Da Parameter an den Übergängen erzeugt werden, wie dies oben beschrieben worden ist, und da ein Übergang in 2k Dimensionen erkannt werden kann,

kann überdies die Erkennung mit großer Leichtigkeit und hoher Genauigkeit ausgeführt werden.

Bei einem Experiment mit der zuvor genannten Anordnung lieferten 120 Sprecher eine Bezugsinformation bezüglich 120 Wörter, und dann gebrauchten weitere Sprecher dieselben 120 Wörter. Es wurde eine mittlere Erkennungsrate von $8,2 °/o erzielt.

Ferner können "H -> A^M von "HAI" und "H ■* A" von "8(HACHl)" beispielsweise in demselben Cluster klassifiziert werden. Deshalb kann derselbe Übergang auf die Erkennung verschiedener Wörter angewandt werden. Demgemäß kann eine große Anzahl von Wörtern ohne Schwierigkeit erkannt werden. Wenn die Anzahl der zu erkennenden Phoneme gegeben ist mit (A , dann werden zu diesem Zweck Cluster von etwa ΛΡ₂ berechnet, und der Cluster-Koeffizient wird in dem Bezugsspeicher 17 gespeichert.

Fig· ό zeigt schematisch ein Ausführuiigsbeispiel der Übergangs-Detektorschaltung 20, die in der Spracherkennung sanOrdnung gemäß der Erfindung verwendet wird.

Bevor das mittels der Detektorschaltung 20 durchgeführte Verfahren zum Ermitteln der Übergänge beschrieben wird, erfolgt zunächst unter Bezugnahme auf Fig. 5A bis 5^ eine kurze Bezugnahme auf ein bekanntes Verfahren zum Ermitteln von Übergängen in einem Sprachsignal. Das betreffende bekannte Verfahren nutzt die Summe der Zahl der Änderungen der örtlichen Parameter L(p) aus, die jenen entsprechen, welche durch die zweite diskrete Fourier-Transformationsschaltung 13 erzeugt werden. Wenn die Parameter von P Dimensionen im jeweiligen Zeitrahmtm gewonnen werden, sofern der Parameter des Rahmens G angenommen wird als L/ \ (g) (p=0, 1, ..., P-I), dann wird die Ermittlung der Übergänge dadurch vorgenom-

men, daD die Summe des Absolutwertes des Differenzbetrages herangezogen wird, der gegeben ist durch die Beziehung

T(G)-^PiV_(p)G-L_(p)(G-l)|.

Wenn P eine Dimension ist, wie dies in Fig. 5A und 5B veranschaulicht ist, dann werden die Spitzen des Parameters T (g) an den Stellen erhalten, an denen die Parameter L/ \ (g) sich ändern. Wenn P durch zwei Dimensionen gegeben ist, dann werden, sofern die Parameter L/ ν (g) und L/₁\ (g) von der O- bzw. 1-Dimension, wie dies in Fig. 5C und 5D gezeigt ist, sich entsprechend den obigen Verhältnissen ändern, die Differenzbeträge geändert, wie dies in Fig. 5E und 5F gezeigt ist. Ein bekannter Übergangsparameter T (g) weist somit zwei Spitzen auf, wie dies in Fig. 5^ gezeigt ist, und die Übergangsstelle kann nicht bestimmt werden. Das betreffende Phonem wird wahrscheinlich zu irgendeinem Zeitpunkt auftreten, zu dem die Parameter von mehr als zwei Dimensionen bzw. Größen aufgenommen werden. Ferner ist in der obigen Beschreibung der Parameter L/ ■> (G) als kontinuierlich angenommen worden, während er in der Praxis einen diskreten Wert hat. Darüber hinaus weisen im allgemeinen Phoneme ziemlich kleine Schwankungen auf, so daß der Parameter L/ \ (g) sich tatsächlich so ändert, wie dies Fig. ^H zeigt, was zum Auftreten einer Anzahl von Spitzen und Tälern in dem Parameter T (g) führt, wie dies Fig. 5I erkennen läßt.

Deshalb weist das bekannte Verfahren zum Ermitteln von Übergängen verschiedene Mangel auf, nämlich den Mangel der Ungenauigkeit der Ermittlung· und der Instabilität des Detektorsignals.

Im Gegensatz dazu ermittelt die Übergangs-Detektorschaltung 20 gemäß der Erfindung die Übergänge leicht und stabil.

Fig. 6 zeigt eine Anordnung der Detektorschaltung 20, die besonders brauchbar ist hinsichtlich der Erzeugung des Übergangssignals T (t) in der Spracherkennungsanordnung gemäß der vorliegenden Erfindung.

Das gewichtete Signal von der Emphasisschaltung 10 gemäß Fig. 2 her vird über einen Eingangsanschluß 21a einer zweiten Bandteilerschaltung 21 zugeführt, in der aufeinanderfolgende Zeitrahmen dieses Signals unterteilt werden, und zwar in ähnlicher Weise, wie dies durch die erste Bandteilerschaltung 11 vorgenommen worden ist, wobei eine Aufteilung in N (beispielsweise in 20) Frequenzbänder auf der Basis einer Mel-Skala erfolgt. Dadurch wird ein Signal V/ \ (n=0, 1, ... N-1), welches den Signalen in den entsprechenden Bändern zugehörig ist, erzeugt.

Mit anderen Worten ausgedrückt heißt dies, daß das grafisch in Fig. "}C dargestellte Signal so behandelt wird, als umfaßte es eine Vielzahl von Zeitrahmen, von denen einer (beim Übergang zwischen H und A) in Fig. 3^ veranschaulicht ist. Nach dem Gewichten wird das Signal in jedem Zeitrahmen (siehe beispielsweise Fig. 3^) in N Frequenzbänder aufgeteilt, deren jedes ein Frequenzbandsignal umfaßt, welches kennzeichnend ist für einen

Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem Zeitrahmen.

Das Signal V/ \ wird an eine Vorspannungs-Logarithmusschaltung 22 abgegeben, um die nachstehende Beziehung zu bilden:

Das Signal V/ \ wird ferner einem Akkumulator oder einer Mittelungsschaltung 23 zugeführt, in der das folgende Signal gebildet wird:

20
^V(a) ^{= Z} /00/20 . ..-(18)

Ti ™* χ

Das Signal V stellt somit den mittleren Leistungspegel a

in jedem Zeitrahmen dar. Die Abgabe dieses mittleren

Signals V an die Vorspannungs-Logarithmusschaltung 22 a

führt zu:

v;=log(V_a+B) .

Ferner werden diese Signale einer Differenzschaltung 2h zugeführt, in der folgende Beziehung erfüllt wird:

ν, ,-ν «-ν, ; ...(20)

(n) a (η) .

Das Signal v¹/ \ von der Differenzschaltung Zh stellt somit eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel in einem bestimmten Zeitrahmen und der Vielzahl der Leistungspegel in demselben Zeitrahmen dar.

Durch Ausnutzen des Logarithmus des Signals V/ \ sind Änderungen in den ersten Differenzpegeln von Zeitrahmen zu Zeitrahmen minimiert, d.h. Änderungen, die sich aus Schwankungen in der Betonung verschiedener Phoneme bei den Sprechern ergeben. Dadurch ist sichergestellt, daß die Änderungen in den ersten Differenzpegeln von Zeitrahmen zu Zeitrahmen tatsächlich die sich ändernde Phoneminformation in dem Sprachsignal darstellen an-

- 3k -

statt die Änderungen im Pegel des eintreffenden Sprachsignals. Da die Berechnung unter Hinzufügung einer Vorspannung B durchgeführt wird, ist es darüber hinaus möglich, die Empfindlichkeit der Schaltungsanordnung auf ziemlich kleine Schallkomponenten (Störung, etc.) im eintreffenden Signal zu senken. Mit anderen Worten ausgedrückt heißt dies, daß die Empfindlichkeit mit Rücksicht darauf herabgesetzt wird, daß ν¹/ \ sich an 0 annähert, da sich B an einen unendlichen Wert annähert, so daß die Zunahme der Vorspannung eine Herabsetzung der Schaltungsempfindlichkeit auf bzw. gegenüber Störung mit sich bringt.

Der Parameter v¹/ \ wird an eine Übergangs-Signalspeicheranordnung 25 abgegeben, in der die ersten Differenzpegel für 2w + 1 (beispielsweise 9} Zeitrahmen gespeichert sind bzw. werden. Das gespeicherte Signal wird einer Operationsschaltung 26 zugeführt, um dadurch folgendes Signal zu bilden:

- - — ...(21)

wobei GF_n = {I ; -w + t < I £ W + t} ist. Somit wird der niedrigste erste Differenzpegel für jedes Frequenzband (hier 20) über die Vielzahl (hier 9) der Zeitrahmen bestimmt. Mit anderen Worten ausgedrückt heißt dies, daß minimal 20 erste Differenzpegel vorliegen.

Die Abgabe dieses Signals und der übrigen ersten Differenzpegel von der Übergangs-Speicheranordnung 2$ an eine Summierschaltung 27 führt zu folgender Beziehung:

Die Summierschaltung 27 liefert somit eine Summe einer Vielzahl von zweiten Differenzpegeln. Jeder zweite Differenzpegel umfaßt die Differenz zwischen dem minimalen ersten Differenzpegel in einem Frequenzband und jedem der anderen ersten Differenzpegel in dem betreffenden Frequenzband. Bei dem vorliegenden Beispiel sind 180 zweite Differenzpegel (20 Frequenzbänder über neun Zeitrahmen) vorhanden, und 20 dieser zweiten Differenzpegel werden O sein. In jedem Falle ist die Summe der zweiten Differenzpegel der Übergangsparameter T (t). Die Größe T/ \, der Übergangs-Detektorparameter, wird einer Spitzenbewertungsschaltung 28 zugeführt, welche die Lage der Übergänge in dem Eingangs-Sprachsignal ermittelt. Jene Lagen werden an einem Ausgangsanschluß 29 angezeigt und dann an die Speichereinrichtung 14 gemäß Fig. 2 abgegeben.

Da der Parameter T/ \ durch w Zeitrahmen definiert ist, ist die Bildung von falschen oder mehrfachen Spitzen minimiert. Die Fig. JA bis JC veranschaulichen das Sprechen beispielsweise von "ZERO". Ein 12 Bits umfassendes digitales Signal weist bei einer Abtastfrequenz von 12,5 kHz 256 Stellen bzw. Punkte auf, die durch eine schnelle Fourier-Transformation in die Rahmenperiode von 5»12 ms transformiert werden. Die Übergangsennlttlung erfolgt dadurch, daß die Band-Zahl N*20 beträgt, daß die Vorspannung B¹¹O ist und daß die Anzahl der Zeitrahmen 2w + 1 β 9 ist. Fig. 7A veranschaulicht den Kurvenverlauf eines Sprachsignals; Fig. 7B zeigt die Phoneme und Übergänge, und F±g. JC zeigt den Verlauf des Übergangssignals T (t), in welchem gut definierte Spitzen an den entsprechenden Übergängen "Ruhe + Z", "Z ■» E", "E » R", "R * 0" und "0 ■> Ruhe¹· erzeugt werden. Obwohl einige fremde Spitzen und Täler während der Ruhepausen gebildet werden,' und zwar aufgrund einer Hintergrundstörung, sind diese Spitzen bzw. Täler weitgehend auf O ver-

mindert, und zwar durch Lrhöhen der Vorspannung B, wie dies in Fig. 7C durch gestrichelte Linien veranschaulicht ist.

Die Spitzenbewertungsschaltung 28 stellt die Übergänge in dem Sprachsignal durch zeitliche Abtastung des Übergangssignals T (t) fest. Dies wird am besten durch eine Betrachtung des Kurvenverlaufs T (t) in Abhängigkeit von der Zeit gemäß Fig. ¹JC verstanden. Die Spitzenbewertungsschaltung 28 identifiziert als Übergang ein in der Mitte eines bestimmten Zeitintervalls auftretendes Maximum T (t). Das Signal T (t) wird kontinuierlich überwacht, um Maxima zu ermitteln, die in der Mitte des betreffenden Zeitintervalls auftreten. Wenn die Dauer des Zeitintervalls richtig gewählt ist, werden lediglich "tatsächliche" Übergänge ermittelt, und zwar wie jene, die in Fig. 7C gezeigt sind. Kleinere Spitzen zwischen den tatsächlichen Übergängen werden lediglich sehr selten in der Mitte der Zeitintervalle für die jeweilige Probe von T (t) über das betreffende Intervall auftreten. Da die Phonemerkennung letztlich davon abhängt, die weitestgehende Anpassung zwischen der Phoneminformation an den Übergängen und der Bezugs-Phoneminformation zu erzielen, wird überdies eine geringfügige und selten vorkommende fehlerhafte Identifizierung der Übergänge nicht die Rate beeinträchtigen, mit der die in Fig. 2 dargestellte Anordnung Phoneme in einem Sprachsignal genau erkennt.

Auf diese Weise können die Übergänge in einem Sprachsignal ermittelt werden. Unter Verwendung der Übergangs-Detektorschaltung 20 gemäß der Erfindung können die Lagen der Übergänge unabhängig von Differenzen in der Betonung bezüglich bestimmter Phoneme oder bezüglich Pegeländerungen in dem Sprachsignal ermittelt werden.

Darüber hinaus ist die zum Erkennen bestimmter Phoneme in einem Sprachsignal dienende Schaltungsanordnung gemäß der Erfindung nicht auf das oben beschriebene Verfahren und die oben beschriebene Anordnung beschränkt; vielmehr kann die betreffende Schaltungsanordnung auch in einem solchen Fall angewandt werden, in welchem das stationäre Segment zwischen den Übergängen ermittelt
wird, wobei die Zeitbasen der stationären Segmente
durch Heranziehen der ermittelten Übergänge angepaßt
werden. Darüber hinaus kann die Übergangs-Detektor-

schaltung gemäß der Erfindung auch effektiv zur Analyse der Übergänge bei der Sprachklangsynthese herangezogen werden.

15

^tanwalt

25 30 35

Claims

7-35 Kitashinagawa 6-chomc

Shinagawa-ku

Tokio, Japan

Patentansprüche

1. Verfahren zum Erkennen bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, dadurch gekennzeichnet , daß ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
daß aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches eine Phoneminformation des Sprachsignals enthält,

daß aus der Phonerainformation in dem ersten akustischen Parametersignal ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,

daß das erste akustische Pararaetersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parametersignal unter Heranziehung des Übergangssignals ein zweites akustisches Pararaetersignal erzeugt wird, welches eine Phoneminformation des Sprachsignals an dem betreffenden Übergang aufweist,

und daß das zweite akustische Parametersignal mit einer bekannten Phoneminformation zum Erkennen der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.

2. Verfahren nach Anspruch 1,dadurch gekennzeichnet , daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird, daß eine Vielzahl der digitalen Signale in einer Registereinrichtung gespeichert wird und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation einer Vielzahl der gespeicherten digitalen Signale erzeugt wird.

3. Verfahren nach Anspruch !,dadurch gekennzeichnet , daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet, daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird, daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln beim selben Zeitrahmen berechnet wird, daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel in demselben Frequenzband über die Vielzahl der Zeitrahmen,

und daß die Summe sämtlicher zweiter Differenzpegel berechnet wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.

k. Verfahren nach Anspruch 3JdSdUrCl¹ gekennzeichnet, daß eine Bewertung des Übergangssignals erfolgt, durch die Spitzen in dem betreffenden Signal ermittelt werden, indem eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Identifizierung jedes Maximums des Übergangssignals als Spitzenpegel erfolgt, der in der Mitte des Zeitintervalls auftritt, derart, daß die Übergänge in dem Sprachsignal ermittelt werden.

5. Verfahren nach Anspruch k, dadurch gekennzeichnet , daß der jeweilige erste Differenzpegel durch die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des entsprechenden Leistungspegels gebildet wird, wobei der Einfluß von Schwankungen auf die ersten Differenzpegel in der Betonung von Phonem zu Phonem eines bestimmten Sprechers minimiert ist.

6. Verfahren nach Anspruch 5,dadurch gekennzeichnet , daß eine Vorspannung für jeden mittleren Leistungspegel und für jeden Leistungspegel vor der Berechnung der betreffenden Logarithmen abgegeben wird, derart, daß der Einfluß einer gesonderten Störung während der Pausen in dem Sprachsignal auf die betreffenden ersten Differenzpegel minimiert ist.

7. Verfahren nach Anspruch 6,dadurch gekennzeichnet , daß die Leistungspegel des ersten akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phonem-

information in dem Sprachsignal erhalten wird.

8. Verfahren nach Anspruch 1,dadurch gekennzeichnet , daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,

daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,

und daß das dritte akustische Parametersignal für die Verwendung zur Erzeugung des zweiten akustischen Parametersignals aus dem umgesetzten ersten akustischen Parametersignal gespeichert wird.

9. Verfahren nach Anspruch 8,dadurch gekennzeichnet , daß der Leistungspegel des ersten akustischen Parametersignals zur genauen Darstellung der Phoneminformation in dem betreffenden Sprachsignal gewichtet wird.

Qs)

10J Schaltungsanordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 9» dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,

daß eine Einrichtung vorgesehen ist, die aus dem betreffenden elektrischen Signal ein erstes akustisches Pararaetersignal erzeugt, welches eine Phoneminformation des Sprachsignals enthält,

daß eine Signalerzeugungseinrichtung vorgesehen ist, die aus der Phoneminformation in dem ersten akustischen Para-

metersignal ein Ubergangssignal erzeugt, welches kennzeichnend ist Tür die Lage eines Übergangs in dem Sprachsignal,

daß eine Speichereinrichtung vorgesehen ist, die das erste akustische Parametersignal speichert, und daß eine zweite Signalerzeugungeeinrichtung vorgesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches eine Phoneminformation des Sprachsignals an dem Übergang aufweist, wobei das zweite akustische Parametersignal mit einer bekannten Phoneminformation zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.

11. Schaltungsanordnung nach Anspruch 10, dadurch

gekennzeichnet , daß die das erste Parametersignal erzeugende Einrichtung eine Umsetzeinrichtung aufweist, die ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt, daß eine Registereinrichtung vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert, und daß eine Einrichtung vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation'einer Vielzahl der betreffenden gespeicherten digitalen Signale das erste akustische Parametersignal erzeugt.

12. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet, daß die Signalerzeugungseinrichtung eine Signaltrenneinrichtung umfaßt, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,

daß eine Mittelungseinrichtung vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungepegel in dem jeweiligen Zeitrahmen berechnet, daß eine Differenzschaltungsanordjxung vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel imjselben Zeitrahmen berechnet ,

daß eine Speichereinrichtung vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,

daß eine Arbeitsschaltungseinrichtung vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenzpegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln berechnet, deren jeder die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Frequenzband und b) dem jeweiligen ersten Differenzpegel in demselben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.

13· Schaltungsanordnung nach Anspruch 12, d a d u r ch gekennzeichnet , daß die Signalerzeugungseinrichtung ferner eine Spitzenbewertungseinrichtung umfaßt, mit deren Hilfe das Übergangssignal bewertet wird, um darin auftretende Spitzen zu ermitteln, indem eine Zeit-Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und Kennzeichnung als Spitzenpegel erfolgt, wobei jedes Maximum des betreffen-

den Übergangssignals in der Mitte des betreffenden Zeitintervalls derart auftritt, daß übergänge in dem Sprachsignal lokalisiert sind.

14. Schaltungsanordnung nach Anspruch 13» dadurch gekennzeichnet , daß eine Schaltungseinrichtung vorgesehen ist, welche die Logarithmen der betreffenden mittleren Leistungspegel und der Leistungspegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die betreffenden ersten Differenzpegel minimiert ist.

15. Schaltungsanordnung nach Anspruch 14, dadurch gekennzeichnet , daß die die Logarithmen berechnende Schaltungseinrichtung eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung für den jeweiligen mittleren Leistungspegel und für den jeweiligen 'Leistungspegel vor der Berechnung der Logarithmen dieser Leistungspegel abgibt, wobei der Einfluß von Fremdstörung während der Ruhepausen des Sprachsignals auf die betreffenden ersten Differenzpegel minimiert ist.

16. Schaltungsanordnung zum elektrischen Erkennen bestimmter Phoneme in einem Sprachsignal nach Anspruch 15t dadurch gekennzeichnet, daß die Signalerzeugungseinrichtung ferner eine Gewichtungseinrichtung umfaßt, mit deren Hilfe der Leistungspegel des ersten akustischen Parametersignals derart gewichtet wird, daß er genau die Phoneminformation in dem Sprachsignal darstellt.

17. Schaltungsanordnung zu« elektrischen Erkennen bestimmter Phoneme in einem Sprachsignal, nach Anspruch 10,

dadurch gekennzeichnet, daß die Speichereinrichtung eine Signaltrenneinrichtung umfaßt, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt, daß eine Umsetzeinrichtung vorgesehen ist, welche das erste akustische Parametersignal in ein drittes akustisches Parametersignal umsetzt, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält, IQ und daß eine Speichereinrichtung vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umgesetzten ersten akustischen Parametersignal heranzieht.

18. Schaltungsanordnung nach Anspruch 11, dadurch gekennzeichnet , daß die Gewichtungseinrichtung den Leistungspegel des ersten akustischen Parametersignals derart wichtet, daß eine genaue Darstellung der Phoneminformation in dem Sprachsignal vorliegt.

19· Verfahren zum Erzeugen eines Übergangssignals zur Anzeige der Lage eines Übergangs in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere in einer Schaltungsanordnung nach einem der Ansprüche 10 bis 18, dadurch gekennzeichne t , daß ein akustisches Parametersignal abgegeben wird, welches eine Phoneminformation des Sprachsignale enthält,
daß eine Vielzahl von Zeitrahmen des akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,

daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wi i'd ,

daß für sämtliche Zeitrahraen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel im jeweiligen Zeitrahraen und der Vielzahl der Leistungspegel imjselben Zeitrahmen berechnet wird, daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dein niedrigsten ersten Differenzpcgel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen ,

und daß die Summe sämtlicher zweiter Differenzpegel berechnet wird, wobei diese Summe das Übergangs signal umfaßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.

20. Verfahren nach Anspruch 19» dadurch gekennzeichne t , daß die Bewertung des Übergangssignals zur Ermittelung von Spitzen in dem betreffenden Signal dadurch erfolgt, daß eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls erfolgt und daß als Spitzenpegel jedes Maximum des Übergangssignals identifiziert wird, welches in der Mitte des betreffenden Zeitintervalls auftritt, derart, daß die Übergänge in dem betreffenden Sprachsignal lokalisiert werden.

21. Verfahren nach Anspruch 20, dadurch ge kennzeichnet , daß als jeweiliger erster Differenzpegel die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des entsprechenden Leistungspegels verwendet wird, wobei der Einfluß von Änderungen bzw. Schwankungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzptgel minimiert ist.

, 22. Verfahren nach Anspruch 21,dadurch gekennzeichnet , daß jedem mittleren Leistungspegel und jedem Leistungspegel vor der Berechnung des zugehörigen Logarithmus eine Vorspannung zu-

f geführt wird, derart, daß der Einfluß von Fremdstörung während der Ruhepausen im Sprachsignal auf die ersten Differenzpegel minimiert ist.

23· Verfahren nach Anspruch 22,dadurch g e ,J-, kennzeichnet, daß die Leistungspegel des akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneminformation in dem Sprachsignal erfolgt.

2k. Schaltungsanordnung zum Erzeugen eines Übergangssignals, welches derart berechnet werden kann, daß es eine Anzeige für die Lage von Ruhe-Phonem- und Yon Phonem-Phonem-Übergängen in einem Sprachsignal liefert, insbesondere zur Durchführung des Verfahrens nach einem der Ansprüche 19 bis 231 dadurch gekennzeichnet , daß eine Trenneinrichtung vorgesehen ist, die eine Vielzahl von Zeitrahmen eines eine Phoneminformation des Sprachsignals enthaltenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen, daß eine Mittelungseinrichtung vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet ,

daß eine Differenzschaltungseinrichtung vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel im jeweiligen Zeitrahmen und der Vielzahl von Lei-

stungspegeln im selben Zeitrahmen berechnet,

daß eine Speienereinrichtung vorgesehen ist, welche
eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,

daß eine Arbeitsschaltungseinrichtung vorgesehen ist,
welche aus den gespeicherten ersten Differenzpegeln
eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,

daß eine Summiereinrichtung vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel berechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Frequenzband und

b) dem jeweiligen ersten Differenzpegel in demselben

Frequenzband für die betreffende Vielzahl von Zeitrahmen umfassen,

und daß die Summe das Übergangssignal umfaßt, welches
derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.

25. Schaltungsanordnung nach Anspruch Zh, dadurch gekennzeichnet , daß ferner eine Spitzenbewertungseinrichtung vorgesehen ist, die das Übergangssignal derart bewertet, daß darin enthaltene Spitzen
ermittelt werden, indem eine zeitliche Abtastung des
Übergangssignals unter Heranziehung eines bestimmten
Zeitintervalls erfolgt, und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitin-

tervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.

26. Schaltungsanordnung nach Anspruch 25, dadurch gekennzeichnet , daß eine Logarithmus-

Schaltungseinrichtung vorgesehen ist, welche die Logarithmen der entsprechenden mittleren Leistungspegel und

der betreffenden Leistungspegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel minimiert ist.

27. Schaltungsanordnung nach Anspruch 26, dadurch gekennzeichnet , daß die Logarithmus-Schaltungseinrichtung eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung an den jeweiligen mittleren Leitungspegel und an den jeweiligen Leistungspegel vor der Berechnung der zugehörigen Logarithmen abgibt, wobei der Einfluß einer Fremdstörung während der Ruhepausen in dem Sprachsignal auf die ersten Differenzpegel minimiert ist.

28. Schaltungsanordnung nach Anspruch 27» dadurch gekennzeichnet , daß eine Gewichtungseinrichtung vorgesehen ist, welche den Leistungspegel des akustischen Parametersignals derart wichtet, daß die Phoneminformation in dem Sprachsignal genau dargestellt ist.