DE3306730A1 - Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal - Google Patents
Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignalInfo
- Publication number
- DE3306730A1 DE3306730A1 DE19833306730 DE3306730A DE3306730A1 DE 3306730 A1 DE3306730 A1 DE 3306730A1 DE 19833306730 DE19833306730 DE 19833306730 DE 3306730 A DE3306730 A DE 3306730A DE 3306730 A1 DE3306730 A1 DE 3306730A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- phoneme
- difference
- acoustic parameter
- transition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Description
Verfahren und Schaltungsanordnung zum Erkennen bestimmter
Phoneme in einem Sprachsignal sowie zum Erzeugen von Signalen zur Anzeige von Übergängen in einem Sprachsignal
Die Erfindung bezieht sich generell auf ein Verfahren
und eine Schaltungsanordnung zur Spracherkennung und insbesondere auf ein Verfahren und eine Schaltungsanordnung,
mit deren Hilfe bestimmte Phoneme in einem Sprachsignal unabhängig vom Sprecher erkannt werden
können.
Eine bekannte Spracherkennungsanordnung kann Phoneme
erkennen, die von einem bestimmten Sprecher gesprochen werden. Bei der Anwendung dieses Typs von Anordnung
spricht der Sprecher eine Liste sämtlicher Wörter, die zu erkennen sind, und akustische Parameter der Wörter
werden durch verschiedene Schaltungselemente ermittelt, Wie durch eine Bandpaßfilterbank, und ferner werden diese
Parameter in einem Speicher gespeichert. Wenn der Spreeher dann später dieselben Worte in der normalen Sprache
benutzt, werden sodann deren akustische Parameter ermittelt und mit den zuvor gespeicherten akustischen Parametern
verglichen. Wenn die beiden akustischen Parameter miteinander übereinstimmen, "erkennt" die Anordnung
die später gesprochenen Wörter. Um mit einer Situation fertig zu werden, in der der Sprecher zu verschiedenen
Zeiten schneller oder langsamer sprechen könnte (der Sprecher könnte beispielsweise langsamer als in der normalen
Sprechweise sprechen, wenn die Wörter aufgelistet werden), kann eine Zeitreihe von akustischen Parametern
in regelmäßigen Intervallen gewonnen werden,beispiels-
weise alle 5 bis 20 ms und bei der Erkennung der Wörter
herangezogen verden.
Der vorstehend erwähnte Anordnungstyp muß im voraus säratliehe
akustischen Parameter sämtlicher zu erkennenden Wörter registrieren und speichern, weshalb eine enorme
Speicherkapazität erforderlich ist und weshalb eine große Vielzahl von mathematischen Berechnungen durchgeführt
werden muß. Die "Zeitanpassungsn-Funktion erfordert
beispielsweise eine riesige Zahl von mathematischen Berechnungen und belastet die Fähigkeiten der meisten
Datenprozessoren. Wenn die Zeitbasen nicht genügend aneinander angepaßt sind, könnte die Erkennung fehlerhaft
sein.
Es ist ein weiteres Spracherkennungsverfahren vorgeschlagen
worden, welches einzelne Phoneme zu erkennen imstande ist, beispielsweise die Töne bzw. Klänge A, I, U, E, 0,
K, S, T, etc. und die Silben KA, KI, KU, etc..
Ein hauptsächlicher Nachteil des zuletzt erwähnten Verfahrens liegt darin, daß zwar Phoneme, wie Vokale und
dergl. mit quasi-stationären Teilen ohne weiteres erkannt werden können, daß aber Phoneme mit kurzen Phonem-Charakteristiken,
wie Verschlußlaute (K, T, P usw.) extrem schwierig in Phoneme unter Ausnutzung akustischer
Parameter zu organisieren sind.
Um diese Schwierigkeit zu überwinden, ist eine Verbesserung
bzw. Verfeinerung des betreffenden Verfahrens vorgeschlagen worden, gemäß der die Phoneme gespeichert werden,
die diskret gesprochen sind. Die Phoneme, die diffus gesprochen sind, werden dadurch erkannt, daß ihre Zeitbasen
unter Anwendung von "Zeitanpassungs"-Verfahren ähnlieh
jenen, die oben beschrieben worden sind, angepaßt werden, wodurch die Phoneme mit kurzen Phonemcharakteri-
stiken, wie die zuvor erwähnten Verschlußlaute (Κ, Τ, Ρ
usw.) leichter erkannt werden können. Das betreffende
Verfahren weist jedoch ebenfalls eine begrenzte Anwendbarkeit auf, und zwar aufgrund der großen Anzahl von
mathematischen Berechnungen, die zur Anpassung der Zeitbasen erforderlich sind. Wenn das betreffende Verfahren zum Erkennen von Phonemen irgendwelcher Personen angewandt wird und nicht zum Erkennen der Phoneme von gerade einem bestimmten Sprecher, dann sind überdies die Eigentümlichkeiten der akustischen Parameter aufgrund der individuellen Differenzen in der Sprache derart gestreut,
daß die Erkennung der Phoneme scheinbar unmöglich ist,
indem lediglich eine Anpassung der Zeitbasen erfolgt,
wie dies oben beschrieben worden ist.
Verfahren weist jedoch ebenfalls eine begrenzte Anwendbarkeit auf, und zwar aufgrund der großen Anzahl von
mathematischen Berechnungen, die zur Anpassung der Zeitbasen erforderlich sind. Wenn das betreffende Verfahren zum Erkennen von Phonemen irgendwelcher Personen angewandt wird und nicht zum Erkennen der Phoneme von gerade einem bestimmten Sprecher, dann sind überdies die Eigentümlichkeiten der akustischen Parameter aufgrund der individuellen Differenzen in der Sprache derart gestreut,
daß die Erkennung der Phoneme scheinbar unmöglich ist,
indem lediglich eine Anpassung der Zeitbasen erfolgt,
wie dies oben beschrieben worden ist.
Demgemäß sind noch weitere Verfahren vorgeschlagen worden. Bei einem derartigen weiteren Verfahren wird eine Vielzahl
akustischer Parameter gespeichert, die ein Wort kennzeichnen bzw. darstellen könnten, und sodann werden Phoneme
auf der Basis von angenäherten Anpassungen jener
akustischen Parameter erkannt. Gemäß einem noch weiteren Verfahren wird ein vollständiges Wort in Parameter fester
Dimensionen umgesetzt, und sodann erfolgt eine Bewertung oder Diskriminierung unter diesen Parametern, in dem eine
Diskriminatorfunktion angewandt wird. Diese Verfdren erfordern
jedoch wie die anderen, oben erwähnten Verfahren eine große Speicherkapazität und eine hohe Anzahl von
mathematischen Berechnungen, was die Anzahl der Wörter
erheblich reduziert, die erkannt werden können.
mathematischen Berechnungen, was die Anzahl der Wörter
erheblich reduziert, die erkannt werden können.
Eine Eigenschaft bzw. Eigentümlichkeit von Sprachsignalen ist das Vorhandensein von Übergängen in diesen Signalen,
das sind Punkte bzw. Stellen, an denen ein Phonem in ein anderes Phonem wechselt und an denen eine Ruhepause zu
einem Phonem wird oder umgekehrt. Es sind zwar Verfahren
zur Ermittlung solcher Übergänge bekannt; es ist jedoch
kein Verfahren bzw. keine Anordnung bisher vorgeschlagen
worden, um die betreffenden Übergänge für die Spracherkennung
effektiv und wirkungsvoll auszunutzen.
Der Erfindung liegt demgemäß die Aufgabe zugrunde, ein Verfahren und eine Schaltungsanordnung zum Erkennen bestimmter
Phoneme in einem Sprachsignal zu schaffen, wobei das betreffende Verfahren und die betreffende Anordnung
imstande sein sollen, die Nachteile bzw. Mangel der bekannten Verfahren und Anordnungen zu überwinden.
Ferner sollen ein Verfahren und eine Anordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal geschaffen
werden, wobei dieses Verfahren und diese Anordnung bestimmte Phoneme ohne weiteres und sicher erkennen
sollen, ohne daß Zeitreihen akustischer Parameter komprimiert oder gedehnt werden, damit deren Zeitbasen
angepaßt werden, und ohne daß ein vorhergehendes Sprechen der zu erkennenden Wörter erforderlich ist.
Außerdem sollen ein Verfahren und eine Anordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal angegeben
werden, wobei weniger Speicherkapazität erforderlich sein aoll als bei den bisher bekannten Verfahren und An-Ordnungen,
ohne daß die Anzahl der Wörter beschränkt ist, die erkannt werden können.
Darüber hinaus sollen ein Verfahren und eine Anordnung der zuvor erwähnten Art geschaffen werden, um Übergänge
in dem Sprachsignal zu ermitteln, damit die Ausnutzung der Phoneminformation an den Übergängen für die Erkennung
der Phoneminformation in den Sprachsignalen ermöglicht ist.
Schließlich sollen ein Verfahren und eine Schaltungsanordnung geschaffen werden, um aus dem eine Phoneminfor-
mation eines Sprachsignals enthaltenden akustischen Parametersignals
ein iibergangssignal zu erzeugen, welches bewertet werden kann, um die Lage eines Ruhe-Phonem- oder
Phonem-Phonem-Übergangs in dem Sprachsignal anzuzeigen.
Gelöst, wird die vorstehend aufgezeigte Aufgabe durch die
in den Patentansprüchen erfaßte Erfindung.
Gemäß einem Aspekt der Erfindung ist für die Erkennung bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem-
und Phonem-Phonem-Übergänge aufweist, ein elektrisches Signal bereitgestellt, welches das Sprachsignal
kennzeichnet. Aus dem betreffenden elektrischen Signal wird ein erstes akustisches Pararaetersignal erzeugt,
welches die Phoneminformation des Sprachsignals enthält.
Aus der Phoneminformation in dem ersten akustischen Parametersignal wird ein Üb es rgangs signal erzeugt,
um die Lage eines Übergangs in dem Sprachsignal anzuzeigen. Das erste akustische Pararaetersignal wird gespeichert,
und aus dem betreffenden gespeicherten ersten akustischen Parametersignal wird ein zweites akustisches
Parametersignal erzeugt, indem das Übergangssi~ gnal herangezogen wird, so daß das zweite akustische
Parametersignal eine Phoneminformation des Sprachsignals
an dem Übergang enthält, wodurch das zweite akustische Parametersignal mit bekannter Phoneminformation
verglichen werden kann, um die Phoneminformation in
dem Sprachsignal zu erkennen.
Gemäß einem weiteren Aspekt der Erfindung wird ein Übergang in einem Sprachsignal, welches Ruhe-Phonem-
und Phonem-Phonem-Übergänge aufweist, dadurch ermittelt, daß ein akustisches Parametersignal bereitgestellt wird,
welches eine Phoneminformation des Sprachsignals enthält.
Ferner erfolgt eine Aufteilung einer Vielzahl von Zeitrahmen des akustischen Parametersignals in eine Vielzahl
.·'"': ■ i ': .·"■:":. ": 330673U
von Frequenzbandsignalen, deren jedes einen Leistungspegel des akustischen Parametersignals in einem bestimmten
Frequenzband und in einem bestimmten Zeitrahraen kennzeichnet. Ferner wird ein mittlerer Leistungspegel
in dem jeweiligen Zeitrahmen aus den Frequenzbandsignalen berechnet. Schließlich wird eine
Vielzahl von ersten Differenzsignalen zwischen dem
mittleren Leistungspegel im jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln im selben Zeitrahmen
berechnet. Sodann wird für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet,
und zwar zwischen a) dem niedrigsten der Differenzpegel in dem jeweiligen Frequenzband für die Vielzahl
der Zeitrahmen und b) dem jeweiligen ersten Differenzpegel
in denLJselben Frequenzband für die Vielzahl von
Zeitrahmen. Die Summe sämtlicher zweiter Differenzpegel wird dann berechnet, wobei diese Summe ein Übergangssignal
umfaßt, welches bewertet werden kann, um die Übergänge in dem Sprachsignal zu ermitteln.
Anhand von Zeichnungen wird die Erfindung nachstehend
beispielsweise näher erläutert. In den einzelnen Zeichnungen verwendete gleiche Bezugszeichen und Symbole bezeichnen
dabei jeweils gleiche bzw. entsprechende EIemente bzw. Merkmale.
Fig. 1A und IB zeigen in Diagrammen die Änderungen von
Phonemen in einem Sprachsignal, welche die Grundlage des Spracherkennungsverfahrens und
der Spracherkennungsanordnung gemäß der Erfindung bilden.
Fig. 2 zeigt in einem Blockdiagramm schematisch eine Spracherkennungsanordnung gemäß einer Ausführungsform der Erfindung.
Fig. 3-A. bis 3H zeigen in Diagrammen verschiedene Signale,
die durch die in Fig. 2 dargestellte Anordnung erzeugt werden.
Flg. k veranschaulicht in einer Tabelle, wie das Verfahren
gemäß der Erfindung generell arbeitet.
Fig. 5-A. bis 51 zeigen Kurvenverläufe, die zur Erläuterung
eines bekannten Ubergangs-Detektorverfahrens herangezogen
werden.
Fig. 6 zeigt in einem Blockdiagramm schematisch eine
Schaltungsanordnung, die in der in Fig. 2 gezeigten Anordnung verwendet wird, um Ruhe-Pho-
IQ nem- und Phonem-Phonem-Übergangs-Signale zu erzeugen.
Fig. "JA bis 7C zeigen Kurven, welche die Beziehung zwischen
einem Sprachsignalverlauf, den Phonemen und Übergängen in dem Sprachsignal bzw. dem
Übergangssignal veranschaulichen, welches durch die in Fig. 6 dargestellte Schaltungsanordnung
erzeugt wird.
Das Spracherkennungsverfahren und die Spracherkennungsanordnung
gemäß der Erfindung nutzt in vorteilhafter
Weise eine der Sprache anhaftende Eigenschaft aus. Im allgemeinen wird mit lang betonten Phonemen, wie Vokalen
und Reibelauten (S, H usw.) gesprochen. Die Aussprache beispielsweise des Wortes"HAI" ("JA" in japanisch)
umfaßt im Klang "Ruhe -» H ·? A * I ■» Ruhe", wie
dies schematisch in Fig. 1 gezeigt ist. (Das Symbol "♦"kennzeichnet eine Ruhepause, und das Symbol "■»>"
kennzeichnet einen Übergang, sei es ejnenRuhe-Phonemoder
einen Phonem-Phonem-Übergang.) Dasselbe Wort "HAI" kann entweder so wie in Fig. IA oder so wie in Fig. IB
gezeigt gesprochen werden. Fig. 1 veranschaulicht dabei, daß jeder quasi-stationäre Bereich oder jedes quasistationäre
Segment, welches durch die Phoneme H, A und I gebildet ist, eine Dauer aufweist, die sich mit der
Sprechweise ändern kann. Ein Ruhe-Phonem-Übergang oder ein Phonem-Phonem-Übergang (der Bereich oder das Segment
j zwischen den quasi-stationären Teilen ist in Fig. 1A
und 1B durch eine schräge Linie veranschaulicht) weist eine Dauer auf, die sich mit jeder Sprechweise sehr
wenig ändert. Dies bedeutet, daß jedesmal dann, wenn das Wort gesprochen wird, die Zeitbasis des quasistationären
Segments schwanken kann, während die Zeitbasis der Übergänge relativ konstant ist.
Eine Schaltungsanordnung gemäß einer Ausführungsform der
IQ Erfindung, welche die Eigenschaft der Sprache zur Erkennung
bestimmter Phoneme in einem Sprachsignal ausnutzt, ist in Fig. 2 gezeigt. In Fig. 2 stellt ein durch eine
vollausgezogene Linie umrahmter Block A eine Einrichtung dar, die ein Sprachsignal in ein elektrisches Signal umsetzt,
welches kennzeichnend ist für das Sprachsignal. Diese Einrichtung umfaßt ein Mikrophon 1 und einen Verstärker
2. Ein durch eine vollausgezogene Linie eingerahmter Block B umfaßt ein Tiefpaßfilter 3» einen Analog-Digital-
(a/D)-Wandler k, ein Schieberegister 6, eine schnelle Fourier-Transformationsschaltung (FFT) 8 und
einen Leistungsöpektraldetektor 9. Der betreffende Schaltungsblock
B arbeitet so, daß ein erstes akustisches Parametersignal erzeugt wird, welches eine Phoneminformation
des Sprachsignals enthält, und zwar aus dem elektrischen Signal, welches von dem Schaltungsbereich oder
der Einrichtung A abgegeben wird. Ein durch eine vollausgezogene Linie umrahmter Block C enthält eine Emphasis-
oder Gewichtungsschaltung 10 und eine Übergangs-Detektorschaltung 20. Die Detektorschaltung 20 erzeugt
ein Übergangssignal, welches die Lage eines Ruhe-Phonem-Übergangs
oder eines Phonem-Phonem-Übergangs in dem Sprachsignal anzeigt, indem die Phoneminformation in
dem ersten akustischen Parameter ausgenutzt wird. Das betreffende Signal ist durch die Schaltung 10 gewichtet
worden. Ein durch eine gestrichelte Linie umrahmter Block D stellt eine Schaltung dar, welche die Emphasis-
Schaltung 10, eine erste Bandteilerschaltung 1I1 eine
Logarithmusschaltung 12, eine erste diskrete Fourier-Transformationsschaltung
(DFT) 13, einen Speicher 14 und eine zweite diskrete Fourier-Transformationsschaltung
15 umfaßt. Die Schaltung D erzeugt ein zweites
akustisches Parametersignal aus dem ersten akustischen Parametersignal, indem das Übergangssignal von der Detektorschaltung
20 herangezogen wird. Das zweite akustische Parametersignal enthält eine Phonerainformation
des Sprachsignals an den Übergängen.
Im Betrieb wird ein Signal von dem Mikrophon 1 her über den Mikrophonverstärker 2 und das Tiefpaßfilter 3» welches
eine Frequenz von weniger als 5»5 kHz hat, an den A/D-Wandler k abgegeben. Ein Abtastsignal von 12,5 kHz
(welches mit einem Intervall von 80 us auftritt) wird von einem Taktgenerator 5 &11 den A/D-Wandler k abgegeben,
wodurch das Sprachsignal zum Zeitpunkt dieses Abtasttaktes in ein digitales Signal umgesetzt wird. Das
umgesetzte digitale Sprachsignal wird an das Schieberegister 6 abgegeben, welches 5 x 6k Worte umfaßt, und
ein Rahmensignal mit einem Intervall von 5,12 ms wird von dem Taktgenerator 5 her an einenQuinär-Zähler 7 abgegeben.
Der Zählwert wird an das Register 6 abgegeben, und dadurch wird das Sprachsignal um jeweils 6k Worte
verschoben, wodurch von dem Register 6 ein verschobenes Sprachsignal aus k χ 6k Worten erzeugt wird.
Das Signal aus k χ 6k (= 256) Worten, das von dem Register
6 abgeleitet ist, wird an die schnelle Fourier-Transf ormationsschaltung 8 abgegeben. Wenn angenommen
wird, daß eine Signalwellenfunktion durch n_ Abtastdaten dargestellt wird, die in einer zeitlichen Länge von
T enthalten sind, dann wird in der schnellen Fourier-Transformationsschaltung
8 die Größe
durch Fourier-Transformation zu der Signalwellenfunktion UnfT(f), was zu
Ziehung genügtf
Ziehung genügtf
U T(f), was zu ·inera Signal führt, welches folgender Be-
5Ul„fT(f)+jU2nfT(f)
Das Signal von der schnellen Fourier-Transformationsschaltung
8 wird dem Leistungsspektrum-Detektor 9 zugeführt, von dem ein Leistungsspektrum-Signal entsprechend
folgender Beziehung erzeugt wird:
Da das Fourier-transformierte Signal symmetrisch in Bezug
auf die Frequenzachse ist, ist die Hälfte der n„-Abtastdaten,
die sich aus der Fourier-Transformation ergeben, redundant und kann weggelassen werden, was zur
Bereitstellung von 1/2 η„-Daten führt. Dies bedeutet,
daß das Signal von 256 Worten, die der zuvor erwähnten
schnellen Fourier-Transformationsschaltung 8 zugeführt
worden sind, umgesetzt und sodann als Leistungsspektrum-Signal von 128 Worten erzeugt wird. Das Leistungsspektrum-Signal
umfaßt das erste akustische Parametersignal, und es enthält die Phoneminformation des Sprachsignals,
die erforderlich ist, um die Spracherkennung gemäß der vorliegenden Erfindung vorzunehmen.
Das Leistungsspektrum-Signal aus 128 Worten wird an die Emphasis- oder Gewichtungsschaltung 10 abgegeben, in der
das betreffende Signal gewichtet wird, um in einem gehörmäßigen Sinne korrigiert zu werden. So könnte das
Leistungsspektrum-Signal beispielsweise so gewichtet
^ werden, daß die hochfrequente Komponente des Sprachsignals
betont bzw. angehoben wird, um nämlich sicherzustellen, daß die darin enthaltene Phoneminformation
richtig dargestellt wird, um den Rest des Spracherken-
g nungsverfahrens auszuführen. Mit andoren Worten ausgedrückt
heißt dies, daß die Gewichtun^sschaltung 10 dun
Leistungspegel des ersten akustischen Parametersignals selektiv gewichtet, um die Plioneminformation in dem
Sprachsignal genauer darzustellen.
Das gewichtete Signal wird zunächst einer Bandteilerschaltung
11 zugeführt und dadurch in beispielsweise 32 Bänder aufgeteilt, welche einer Frequenz-Mel-Skala
entsprechen, die auf die gehörmäßigen Charakteristiken
lg des Sprachsignals zugeschnitten sind. Venn die durch
die Bandteilerschaltung 11 bereitgestellten Bänder nicht
mit den Stellen übereinstimmen, welche die 128 Worte des Leistungsspektrum-Signals kennzeichnen, dann wird das
Signal an den nicht miteinander übereinstimmenden Stellen
in benachbarte Bänder gebracht, und zwar auf einer anteilmäßigen Basis, um die Information in dem 128-Wort-Signal
so genau wie möglich in 32 Bändern darzustellen. In jedem Falle wird das Leistungsspektrum-Signal aus
128 Worten in ein Signal aus 32 Worten komprimiert.
Das komprimierte Signal wird dann an die Logarithmusschaltung 12 abgegeben, in der es in den Logarithmus
des jeweiligen Bandes umgesetzt wird. Demgemäß ist dort jegliche Redundanz in dem Leistungsspektrum-Signal
ausgeschlossen, beispielsweise aufgrund der Gewichtung in der Emphasisschaltung 10. Der Logarithmus
des Leistungsspektrums
umfaßt einen Spektrum-Parameter */±\ (i » 0, 1, ..., 31),
oouo / ου
-Zk-
\ der an die erste diskrete Fourier-Transformationsschaltung
13 abgegeben wird. Wenn die Anzahl der aufgeteilten Bänder mit M angenommen wird, dann führt in diesem
Fall die erste diskrete Fourier-Transformationsschaltung
13 die diskrete Fourier-Transformation von 2M-2 Punkten
mit dem M-dimensionalen Parameter X/.\ (i = 0, 1, ... M-1)
durch, der als reelle Zahl angenommen wird, und zwar mit symmetrischen Parametern an 2M-1 Punkten. Demgemäß
gilt
_2M-3
\t0
\t0
3 ,jni
(n0 \t0 y'ar2m-2 ...(6)
(n0 \t0 y'ar2m-2 ...(6)
. ,Z τι · ι·πκ
W2in-2^e" ] 2Μ-2 · - · (7)
W2in-2^e" ] 2Μ-2 · - · (7)
m-0,1,...,2M-3
15
15
Da die Funktion, durch die diese diskrete Fourier-Transformation durchgeführt wird, als gerade Funktion betrachtet
wird, gilt ferner:
W2M-2=cos(-TM^r)=COS ^W-r
...(8)
Dies führt zu
ν -2M-3, π· i-in
(π0^0 (i) Jj31 ...(9)
Die akustischen Parameter, welche eine Einhüllende-Charakteristik des Leistungs-Spektrums kennzeichnen, werden
durch diese erste diskrete Fourier-Transformationsoperation
gewonnen.
Wie bei dem so durch diskrete Fourier-Transformation ermittelnden
Spektrums-Parameter X/.\ werden die Werte von
P Dimensionen von 0 bis P-1 (bei P=8 beispielsweise) daraus gewonnen und als wörtliche Parameter L/ \ (p-0, 1,
... p-i) herangezogen!
2M-3 ir-i-p
Da der Spektrums-Parameter symmetrisch ist, wird hier die Beziehung angenommen
x(i)=x(2M-i-2) , ...(H)
wobei die örtlichen Parameter L/ \ wie folgt ausgedrückt
werden können:
M- 2 it · -i ' η
" ^ ^- l"i~ *-~ i-) V>
ι ι ν /\i 1 N Il * JT /T
E xfi) icOS P^ COS—-—π—ι iiJC-J+X(M- 1) COScr—y . . . (1
(p) i=l
wobei p=0, 1, ... P-1 ist.
Auf diese Weise wird das Signal der JZ Worte von dem
ersten Bandteiler 11 weiter zu P Worten (beispielsweise
zu 8 Worten) komprimiert. Die örtlichen Parameter L/ \ umfassen ein drittes akustisches Parametersignal, welches
dadurch erhalten wird, daß das erste akustische Parametersignal in wenige Frequenzbandsignale umgesetzt
on wixi.
Die örtlichen Parameter L/ \ werden an den Speicher 14
abgegeben, der eine Matrix aus Speicherbereichen umfaßt, beispielsweise aus 16 Zeilen, deren eine aus P Worten
besteht, in denen die örtlichen Parameter L/ \ der Reihe nach in jeder Dimension gespeichert sind. Dem betreffenden
Speicher wird das Rahmentaktsignal in einem Intervall von 5»12 ms von einem Taktgenerator 5 her zugeführt.
Der Parameter in Jeder Zeile wird dadurch der Reihe nach in der Querrichtung verschoben. Demgemäß
speichert der Speicher Ik die örtlichen Parameter L/ \
von P Dimensionen, und zwar mit bzw. in einem Intervall von 5,12 ms in 16 Rahmen (81,92 ms). Die örtlichen
Parameter L/ \ werden durch den Rahmentakt ak-
KP)
tualisiert.
j Unterdessen wird das Signal von der Emphasisschaltung
an die Übergangs-Detektorschaltung 20 abgegeben, welche die Lagen der Übergänge zwischen den Phonemen und zwischen
den Ruhepausen und den Phonemen ermittelt.
Ein Übergangssignal T/ \, welches die Lage eines Übergangs
in dem Sprachsignal anzeigt, wird von der Schaltung 20 an den Speicher ik abgegeben, durch bzw. aus
dem zu dem Zeitpunkt, zu dem der örtliche Parameter L/ \ entsprechend der Zeitspanne bzw. dem Zeitpunkt des
Übergangssignals in die achte Zeile verschoben wird, ausgelesen wird. Beim Lesen des Speichers 1A werden
die Signale von 16 Rahmen in der Querrichtung ausgelesen,
und zwar in jeder Dimension P, und die so ausgelesenen Signale werden an die zweite diskrete Fourier-Transformationsschaltung
I5 abgegeben.
Die zweite diskrete Pourier-Transftnnationsschaltung
führt eine diskrete Fourier-Transformation ähnlich wie
die erste diskrete Fourier-Transformationsschaltung 13
aus. Demgemäß wird die Hüllkurven-Charakteristik der Reihen-Änderungen der akustischen Parameter gewonnen.
Verte der Q Dimensionen von 0 bis Q-I (bei beispielsweise
Q=3) werden von den diskreten Fourier-Transformationssignalen von der zweiten diskreten Fourier-Transformationsschaltung
I5 her gewonnen. Diese zweite diskrete Fourier-Transformation wird in jeder Dimension P
durchgeführt, um die Übergangsparameter K/ \ (p=0, 1
... P-1 und q=O, 1, Q-1) von insgesamt P χ Q (= 2k) Vorten
zu bilden. Da K/ \ die Leistung der Sprachsignalwelle
kennzeichnet, kann zum Zwecke der Leistungsnormierung,
wenn p=0 ist, q=>1 zu Q erhalten werden.
In Fig. 3A bis 3H sind die verschiedenen Signale gezeigt,
die bei der dargestellten Anordnung gemäß der Erfindung erhalten werden. Fig. 3A zeigt dabei den Verlauf des
-Zl-
Sprachsignals für das Sprechen des Wortes MHAI", wobei
dieses Signal von dem Verstärker 2 erzeugt wird. Fig. JB
zeigt generell die Konfiguration des Übergangssignals,
welches von der Schaltung 20 erzeugt wird. Das Gesamt-LeistungsSpektrum
des in Fig. JA gezeigten Sprachsignals
ist in Fig. JC veranschaulicht, in der die Information
dargestellt ist, die in dem ersten akustischen Parametersignal enthalten ist. Als Beispiel ist in Fig.
3D das Leistungsspektrum des Übergangs "H-»AW gezeigt.
Das gewichtete Signal ist in Fig. 3E veranschaulicht. Fig. 3F zeigt das betreffende Signal, welches auf der
Basis einer Mel-Skala komprimiert ist. Dieses Signal
wird diskret einer Fourier-Transformation unterzogen, um zu dem in Fig. 3G gezeigten Signal zu werden. Venn die vorderen und hinteren 16 Zeitrahraen dieses Signals einer Matrixbehandlung unterzogen werden, erhält man
das in Fig. JK gezeigte Signal. Die zweite diskrete
Fourier-Transformation in Richtung einer Zeitbasis oder Zeitachse t liefert dann die Übergangsparameter K/ \,
wird diskret einer Fourier-Transformation unterzogen, um zu dem in Fig. 3G gezeigten Signal zu werden. Venn die vorderen und hinteren 16 Zeitrahraen dieses Signals einer Matrixbehandlung unterzogen werden, erhält man
das in Fig. JK gezeigte Signal. Die zweite diskrete
Fourier-Transformation in Richtung einer Zeitbasis oder Zeitachse t liefert dann die Übergangsparameter K/ \,
(Pt <l)
welche die zweiten akustischen Parametersignale umfassen, die eine Phoneminformation des Sprachsignals an
den Übergängen enthalten.
den Übergängen enthalten.
Die Übergangsparameter K/ \ werden an eine Rechen-
\P» °i/
schaltung 16 zur Berechnung des Mahalanobis-Abstands
abgegeben. Ferner wird ein Cluster-Koeffizient aus
einem Bezugsspeicher 17 an die Rechenschaltung 16 abgegeben, in der der Mahalanobis-Abstand mit jedem der Cluster-Koeffizienten berechnet wird. Die Cluster-
abgegeben. Ferner wird ein Cluster-Koeffizient aus
einem Bezugsspeicher 17 an die Rechenschaltung 16 abgegeben, in der der Mahalanobis-Abstand mit jedem der Cluster-Koeffizienten berechnet wird. Die Cluster-
Koeffizienten ergeben sich aus der Erzeugung von Übergangsparametern
aus dem Sprechen einer Vielzahl von
Sprechern bei einer Anordnung ähnlich der bereits beschriebenen Anordnung, wobei eine Klassifizierung der Übergangsparameter auf die Phonem-Inhalte hin erfolgt iind wobei sodann diese Phoneme statistisch analysiert werden.
Sprechern bei einer Anordnung ähnlich der bereits beschriebenen Anordnung, wobei eine Klassifizierung der Übergangsparameter auf die Phonem-Inhalte hin erfolgt iind wobei sodann diese Phoneme statistisch analysiert werden.
Der berechnete Mahalanobis-Abstand wird von der Schaltung
16 her an eine Bewertungsschaltung 18 abgegeben, welche die bestimmten übergänge bestimmt, die durch die betreffenden
Übergangsparameter dargestellt sind. Diese Infortnation wird dann einem Ausgangsanschluß 19 zugeführt.
Genauer gesagt bedeutet dies im Hinblick auf die 12 Worte von beispielsweise "HAI", "HE" und 11O(NuIl)n bis "9(XYU)n,
daß die Stimmen einer Anzahl von Sprechern (vorzugsweise von mehr als 100 Personen) im voraus einer Anordnung zugeführt
werden, um die Natur bzw. Eigenschaft der Übergänge in ihrer Sprache zu ermitteln und die Übergangsparameter für jene Wörter zu erzeugen. Jene Übergangsparameter werden klassifiziert, wie dies beispielsweise
in der Tabelle gemäß Fig. k gezeigt ist, und dann für jede Klassifikation oder für jeden Cluster statistisch
analysiert.
Für eine beliebige Probe R^a'(wobei r=1, 2, ... 2k bedeu-
r, η
tet, wobei a den Clusterindex darstellt und bei a=1 beispielsweise
♦ ■> H und bei a=2 HfA entspricht, und wobei
η die Sprecherzahl bedeutet) wird eine Kovarianz-Matrix
(13)
(R^ ')
x r,n'
x r,n'
berechnet, in der R^ ' = E (R^ ') ist und wobei E einen
' r x rn'
Phasenmittelwert darstellt. Sodann wird nach einer inversen Matrix von
30
30
gesucht.
Demgemäß wird der Abstand zwischen einem beliebigen Übergangeparameter K und einem Cluster a entsprechend
- 29 -einein Mahalanobis-Abs tand erhalten zu
(a) ~Ja) Br,s (VV ) ...(15)
(a) T^T
Wenn die zuvor genannten Größen B und R gesucht
r, s r
bzw. ermittelt und sodann in dem Bezugspeicher 17 gespeichert
sind, wird der Mahalanobis-Abstand zwischen
dem beliebigen Übergangsparameter des Eingangs-Sprachsignals und dem Cluster durch die Mahalanobis-Abstands-Rechenschaltung
16 berechnet.
Demgemäß liefert die betreffende Rechenschaltung 16 den minimalen Abstand von jedem Übergang der eintreffenden
Sprache zum jeweiligen Cluster. Die Folge der Übergänge wird dann an die Bewertungsschaltung 18 abgegeben, um
die Erkennung und Bewertung durchzuführen, wenn die Eingangssprache
aufhört. So wird beispielsweise bei jedem Wort der Wortabstand durch den Mittelwert der Quadratwurzel
des minimalen Abstands zwischen den entsprechenden Übergang'sparametern und den Clustern berechnet. In
dem Fall, daß die Übergänge teilweise ausgelassen sind, sucht die Anordnung nach einer Vielzahl von Arten von
Übergängen, die in den Bereich passen könnten, der ausgelassen worden ist. Wörter mit einer Übergangsfolge,
die verschieden ist von der Tabelle, werden jedoch zurückgewiesen. Sodann wird das Wort mit dem minimalen
Wortabstand erkannt und bewertet.
Da die Änderung der Phoneme an den Übergängen ermittelt wird, sind somit gemäß der Erfindung Zeitbasisschwankungen
kein Faktor bei der Erkennung der Phoneme, und es können die Phoneme irgendeines Sprechers zufriedenstellend
erkannt werden. Da Parameter an den Übergängen erzeugt werden, wie dies oben beschrieben worden ist, und
da ein Übergang in 2k Dimensionen erkannt werden kann,
kann überdies die Erkennung mit großer Leichtigkeit und hoher Genauigkeit ausgeführt werden.
Bei einem Experiment mit der zuvor genannten Anordnung lieferten 120 Sprecher eine Bezugsinformation bezüglich
120 Wörter, und dann gebrauchten weitere Sprecher dieselben 120 Wörter. Es wurde eine mittlere Erkennungsrate von $8,2 °/o erzielt.
Ferner können "H -> AM von "HAI" und "H ■* A" von "8(HACHl)"
beispielsweise in demselben Cluster klassifiziert werden. Deshalb kann derselbe Übergang auf die Erkennung verschiedener
Wörter angewandt werden. Demgemäß kann eine große Anzahl von Wörtern ohne Schwierigkeit erkannt werden.
Wenn die Anzahl der zu erkennenden Phoneme gegeben ist mit (A , dann werden zu diesem Zweck Cluster von etwa
ΛΡ2 berechnet, und der Cluster-Koeffizient wird in dem
Bezugsspeicher 17 gespeichert.
Fig· ό zeigt schematisch ein Ausführuiigsbeispiel der
Übergangs-Detektorschaltung 20, die in der Spracherkennung
sanOrdnung gemäß der Erfindung verwendet wird.
Bevor das mittels der Detektorschaltung 20 durchgeführte Verfahren zum Ermitteln der Übergänge beschrieben wird,
erfolgt zunächst unter Bezugnahme auf Fig. 5A bis 5^
eine kurze Bezugnahme auf ein bekanntes Verfahren zum Ermitteln von Übergängen in einem Sprachsignal. Das betreffende
bekannte Verfahren nutzt die Summe der Zahl der Änderungen der örtlichen Parameter L(p) aus, die
jenen entsprechen, welche durch die zweite diskrete Fourier-Transformationsschaltung 13 erzeugt werden.
Wenn die Parameter von P Dimensionen im jeweiligen Zeitrahmtm gewonnen werden, sofern der Parameter des
Rahmens G angenommen wird als L/ \ (g) (p=0, 1, ..., P-I),
dann wird die Ermittlung der Übergänge dadurch vorgenom-
men, daD die Summe des Absolutwertes des Differenzbetrages
herangezogen wird, der gegeben ist durch die Beziehung
Wenn P eine Dimension ist, wie dies in Fig. 5A und 5B
veranschaulicht ist, dann werden die Spitzen des Parameters T (g) an den Stellen erhalten, an denen die Parameter
L/ \ (g) sich ändern. Wenn P durch zwei Dimensionen gegeben ist, dann werden, sofern die Parameter
L/ ν (g) und L/1\ (g) von der O- bzw. 1-Dimension, wie
dies in Fig. 5C und 5D gezeigt ist, sich entsprechend
den obigen Verhältnissen ändern, die Differenzbeträge
geändert, wie dies in Fig. 5E und 5F gezeigt ist. Ein
bekannter Übergangsparameter T (g) weist somit zwei Spitzen auf, wie dies in Fig. 5^ gezeigt ist, und die
Übergangsstelle kann nicht bestimmt werden. Das betreffende
Phonem wird wahrscheinlich zu irgendeinem Zeitpunkt auftreten, zu dem die Parameter von mehr als
zwei Dimensionen bzw. Größen aufgenommen werden. Ferner ist in der obigen Beschreibung der Parameter L/ ■>
(G) als kontinuierlich angenommen worden, während er in der Praxis einen diskreten Wert hat. Darüber hinaus weisen
im allgemeinen Phoneme ziemlich kleine Schwankungen auf, so daß der Parameter L/ \ (g) sich tatsächlich so ändert,
wie dies Fig. ^H zeigt, was zum Auftreten einer Anzahl
von Spitzen und Tälern in dem Parameter T (g) führt, wie
dies Fig. 5I erkennen läßt.
Deshalb weist das bekannte Verfahren zum Ermitteln von Übergängen verschiedene Mangel auf, nämlich den Mangel
der Ungenauigkeit der Ermittlung· und der Instabilität des Detektorsignals.
Im Gegensatz dazu ermittelt die Übergangs-Detektorschaltung
20 gemäß der Erfindung die Übergänge leicht und stabil.
Fig. 6 zeigt eine Anordnung der Detektorschaltung 20, die besonders brauchbar ist hinsichtlich der Erzeugung
des Übergangssignals T (t) in der Spracherkennungsanordnung gemäß der vorliegenden Erfindung.
Das gewichtete Signal von der Emphasisschaltung 10 gemäß
Fig. 2 her vird über einen Eingangsanschluß 21a einer zweiten Bandteilerschaltung 21 zugeführt, in der
aufeinanderfolgende Zeitrahmen dieses Signals unterteilt
werden, und zwar in ähnlicher Weise, wie dies durch die erste Bandteilerschaltung 11 vorgenommen worden
ist, wobei eine Aufteilung in N (beispielsweise in 20) Frequenzbänder auf der Basis einer Mel-Skala erfolgt.
Dadurch wird ein Signal V/ \ (n=0, 1, ... N-1), welches
den Signalen in den entsprechenden Bändern zugehörig ist, erzeugt.
Mit anderen Worten ausgedrückt heißt dies, daß das grafisch in Fig. "}C dargestellte Signal so behandelt
wird, als umfaßte es eine Vielzahl von Zeitrahmen, von denen einer (beim Übergang zwischen H und A) in Fig. 3^
veranschaulicht ist. Nach dem Gewichten wird das Signal in jedem Zeitrahmen (siehe beispielsweise Fig. 3^) in
N Frequenzbänder aufgeteilt, deren jedes ein Frequenzbandsignal umfaßt, welches kennzeichnend ist für einen
Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem Zeitrahmen.
Das Signal V/ \ wird an eine Vorspannungs-Logarithmusschaltung
22 abgegeben, um die nachstehende Beziehung zu bilden:
Das Signal V/ \ wird ferner einem Akkumulator oder einer
Mittelungsschaltung 23 zugeführt, in der das folgende
Signal gebildet wird:
20
V(a) = Z /00/20 . ..-(18)
V(a) = Z /00/20 . ..-(18)
Ti ™* χ
Das Signal V stellt somit den mittleren Leistungspegel a
in jedem Zeitrahmen dar. Die Abgabe dieses mittleren
Signals V an die Vorspannungs-Logarithmusschaltung 22
a
führt zu:
v;=log(Va+B) .
Ferner werden diese Signale einer Differenzschaltung 2h
zugeführt, in der folgende Beziehung erfüllt wird:
ν, ,-ν «-ν, ; ...(20)
(n) a (η) .
Das Signal v1/ \ von der Differenzschaltung Zh stellt
somit eine Vielzahl von ersten Differenzpegeln zwischen
dem mittleren Leistungspegel in einem bestimmten Zeitrahmen und der Vielzahl der Leistungspegel in demselben
Zeitrahmen dar.
Durch Ausnutzen des Logarithmus des Signals V/ \ sind
Änderungen in den ersten Differenzpegeln von Zeitrahmen
zu Zeitrahmen minimiert, d.h. Änderungen, die sich aus Schwankungen in der Betonung verschiedener Phoneme
bei den Sprechern ergeben. Dadurch ist sichergestellt, daß die Änderungen in den ersten Differenzpegeln von
Zeitrahmen zu Zeitrahmen tatsächlich die sich ändernde Phoneminformation in dem Sprachsignal darstellen an-
- 3k -
statt die Änderungen im Pegel des eintreffenden Sprachsignals.
Da die Berechnung unter Hinzufügung einer Vorspannung B durchgeführt wird, ist es darüber hinaus
möglich, die Empfindlichkeit der Schaltungsanordnung
auf ziemlich kleine Schallkomponenten (Störung, etc.) im eintreffenden Signal zu senken. Mit anderen Worten
ausgedrückt heißt dies, daß die Empfindlichkeit mit
Rücksicht darauf herabgesetzt wird, daß ν1/ \ sich an
0 annähert, da sich B an einen unendlichen Wert annähert,
so daß die Zunahme der Vorspannung eine Herabsetzung der Schaltungsempfindlichkeit auf bzw. gegenüber
Störung mit sich bringt.
Der Parameter v1/ \ wird an eine Übergangs-Signalspeicheranordnung
25 abgegeben, in der die ersten Differenzpegel für 2w + 1 (beispielsweise 9} Zeitrahmen gespeichert
sind bzw. werden. Das gespeicherte Signal wird einer Operationsschaltung 26 zugeführt, um dadurch
folgendes Signal zu bilden:
- - — ...(21)
wobei GFn = {I ; -w + t
< I £ W + t} ist. Somit wird der niedrigste erste Differenzpegel für jedes
Frequenzband (hier 20) über die Vielzahl (hier 9)
der Zeitrahmen bestimmt. Mit anderen Worten ausgedrückt heißt dies, daß minimal 20 erste Differenzpegel
vorliegen.
Die Abgabe dieses Signals und der übrigen ersten Differenzpegel von der Übergangs-Speicheranordnung 2$ an
eine Summierschaltung 27 führt zu folgender Beziehung:
Die Summierschaltung 27 liefert somit eine Summe einer
Vielzahl von zweiten Differenzpegeln. Jeder zweite Differenzpegel
umfaßt die Differenz zwischen dem minimalen ersten Differenzpegel in einem Frequenzband und jedem
der anderen ersten Differenzpegel in dem betreffenden Frequenzband. Bei dem vorliegenden Beispiel sind 180
zweite Differenzpegel (20 Frequenzbänder über neun Zeitrahmen)
vorhanden, und 20 dieser zweiten Differenzpegel
werden O sein. In jedem Falle ist die Summe der zweiten Differenzpegel der Übergangsparameter T (t). Die Größe
T/ \, der Übergangs-Detektorparameter, wird einer Spitzenbewertungsschaltung
28 zugeführt, welche die Lage der Übergänge in dem Eingangs-Sprachsignal ermittelt. Jene
Lagen werden an einem Ausgangsanschluß 29 angezeigt und dann an die Speichereinrichtung 14 gemäß Fig. 2 abgegeben.
Da der Parameter T/ \ durch w Zeitrahmen definiert ist,
ist die Bildung von falschen oder mehrfachen Spitzen minimiert. Die Fig. JA bis JC veranschaulichen das Sprechen
beispielsweise von "ZERO". Ein 12 Bits umfassendes digitales Signal weist bei einer Abtastfrequenz von
12,5 kHz 256 Stellen bzw. Punkte auf, die durch eine
schnelle Fourier-Transformation in die Rahmenperiode
von 5»12 ms transformiert werden. Die Übergangsennlttlung
erfolgt dadurch, daß die Band-Zahl N*20 beträgt, daß die Vorspannung B11O ist und daß die Anzahl der Zeitrahmen
2w + 1 β 9 ist. Fig. 7A veranschaulicht den Kurvenverlauf
eines Sprachsignals; Fig. 7B zeigt die Phoneme und Übergänge, und F±g. JC zeigt den Verlauf des
Übergangssignals T (t), in welchem gut definierte Spitzen an den entsprechenden Übergängen "Ruhe + Z", "Z ■» E",
"E » R", "R * 0" und "0 ■>
Ruhe1· erzeugt werden. Obwohl einige fremde Spitzen und Täler während der Ruhepausen
gebildet werden,' und zwar aufgrund einer Hintergrundstörung, sind diese Spitzen bzw. Täler weitgehend auf O ver-
mindert, und zwar durch Lrhöhen der Vorspannung B, wie
dies in Fig. 7C durch gestrichelte Linien veranschaulicht
ist.
Die Spitzenbewertungsschaltung 28 stellt die Übergänge in dem Sprachsignal durch zeitliche Abtastung des Übergangssignals
T (t) fest. Dies wird am besten durch eine Betrachtung des Kurvenverlaufs T (t) in Abhängigkeit
von der Zeit gemäß Fig. 1JC verstanden. Die Spitzenbewertungsschaltung
28 identifiziert als Übergang ein in der Mitte eines bestimmten Zeitintervalls auftretendes Maximum T (t). Das Signal T (t) wird kontinuierlich
überwacht, um Maxima zu ermitteln, die in der Mitte des betreffenden Zeitintervalls auftreten. Wenn die
Dauer des Zeitintervalls richtig gewählt ist, werden lediglich "tatsächliche" Übergänge ermittelt, und zwar
wie jene, die in Fig. 7C gezeigt sind. Kleinere Spitzen
zwischen den tatsächlichen Übergängen werden lediglich sehr selten in der Mitte der Zeitintervalle für die jeweilige
Probe von T (t) über das betreffende Intervall auftreten. Da die Phonemerkennung letztlich davon abhängt,
die weitestgehende Anpassung zwischen der Phoneminformation
an den Übergängen und der Bezugs-Phoneminformation zu erzielen, wird überdies eine geringfügige
und selten vorkommende fehlerhafte Identifizierung der Übergänge nicht die Rate beeinträchtigen, mit der die
in Fig. 2 dargestellte Anordnung Phoneme in einem Sprachsignal genau erkennt.
Auf diese Weise können die Übergänge in einem Sprachsignal ermittelt werden. Unter Verwendung der Übergangs-Detektorschaltung
20 gemäß der Erfindung können die Lagen der Übergänge unabhängig von Differenzen in der Betonung
bezüglich bestimmter Phoneme oder bezüglich Pegeländerungen in dem Sprachsignal ermittelt werden.
Darüber hinaus ist die zum Erkennen bestimmter Phoneme in einem Sprachsignal dienende Schaltungsanordnung gemäß
der Erfindung nicht auf das oben beschriebene Verfahren und die oben beschriebene Anordnung beschränkt;
vielmehr kann die betreffende Schaltungsanordnung auch in einem solchen Fall angewandt werden, in welchem das
stationäre Segment zwischen den Übergängen ermittelt
wird, wobei die Zeitbasen der stationären Segmente
durch Heranziehen der ermittelten Übergänge angepaßt
werden. Darüber hinaus kann die Übergangs-Detektor-
wird, wobei die Zeitbasen der stationären Segmente
durch Heranziehen der ermittelten Übergänge angepaßt
werden. Darüber hinaus kann die Übergangs-Detektor-
schaltung gemäß der Erfindung auch effektiv zur Analyse der Übergänge bei der Sprachklangsynthese herangezogen
werden.
15
^tanwalt
25 30 35
Claims (1)
- 7-35 Kitashinagawa 6-chomcShinagawa-kuTokio, JapanPatentansprüche1. Verfahren zum Erkennen bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, dadurch gekennzeichnet , daß ein für das Sprachsignal kennzeichnendes elektrisches Signal abgegeben wird,
daß aus dem betreffenden elektrischen Signal ein erstes akustisches Parametersignal erzeugt wird, welches eine Phoneminformation des Sprachsignals enthält,daß aus der Phonerainformation in dem ersten akustischen Parametersignal ein Übergangssignal erzeugt wird, welches in dem Sprachsignal die Lage eines Übergangs anzeigt,daß das erste akustische Pararaetersignal gespeichert wird,
daß aus dem gespeicherten ersten akustischen Parametersignal unter Heranziehung des Übergangssignals ein zweites akustisches Pararaetersignal erzeugt wird, welches eine Phoneminformation des Sprachsignals an dem betreffenden Übergang aufweist,und daß das zweite akustische Parametersignal mit einer bekannten Phoneminformation zum Erkennen der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.2. Verfahren nach Anspruch 1,dadurch gekennzeichnet , daß die Erzeugung des ersten akustischen Parametersignals dadurch erfolgt, daß aus einem analogen elektrischen Signal ein für das Sprachsignal kennzeichnendes digitales elektrisches Signal erzeugt wird, daß eine Vielzahl der digitalen Signale in einer Registereinrichtung gespeichert wird und daß aus den gespeicherten digitalen Signalen das erste akustische Parametersignal durch Fourier-Transformation einer Vielzahl der gespeicherten digitalen Signale erzeugt wird.3. Verfahren nach Anspruch !,dadurch gekennzeichnet , daß eine Vielzahl von Zeitrahmen des ersten akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen kennzeichnet, daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel bei jedem Zeitrahmen berechnet wird, daß für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel bei dem jeweiligen Zeitrahmen und der Vielzahl von Leistungspegeln beim selben Zeitrahmen berechnet wird, daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dem niedrigsten ersten Differenzpegel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) jedem ersten Differenzpegel in demselben Frequenzband über die Vielzahl der Zeitrahmen,und daß die Summe sämtlicher zweiter Differenzpegel berechnet wird, wobei die betreffende Summe das Übergangssignal umfaßt, welches derart bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.k. Verfahren nach Anspruch 3JdSdUrCl1 gekennzeichnet, daß eine Bewertung des Übergangssignals erfolgt, durch die Spitzen in dem betreffenden Signal ermittelt werden, indem eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und eine Identifizierung jedes Maximums des Übergangssignals als Spitzenpegel erfolgt, der in der Mitte des Zeitintervalls auftritt, derart, daß die Übergänge in dem Sprachsignal ermittelt werden.5. Verfahren nach Anspruch k, dadurch gekennzeichnet , daß der jeweilige erste Differenzpegel durch die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des entsprechenden Leistungspegels gebildet wird, wobei der Einfluß von Schwankungen auf die ersten Differenzpegel in der Betonung von Phonem zu Phonem eines bestimmten Sprechers minimiert ist.6. Verfahren nach Anspruch 5,dadurch gekennzeichnet , daß eine Vorspannung für jeden mittleren Leistungspegel und für jeden Leistungspegel vor der Berechnung der betreffenden Logarithmen abgegeben wird, derart, daß der Einfluß einer gesonderten Störung während der Pausen in dem Sprachsignal auf die betreffenden ersten Differenzpegel minimiert ist.7. Verfahren nach Anspruch 6,dadurch gekennzeichnet , daß die Leistungspegel des ersten akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phonem-information in dem Sprachsignal erhalten wird.8. Verfahren nach Anspruch 1,dadurch gekennzeichnet , daß das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufgetrennt wird,daß das erste akustische Parametersignal in ein drittes akustisches Parametersignal umgesetzt wird, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält,und daß das dritte akustische Parametersignal für die Verwendung zur Erzeugung des zweiten akustischen Parametersignals aus dem umgesetzten ersten akustischen Parametersignal gespeichert wird.9. Verfahren nach Anspruch 8,dadurch gekennzeichnet , daß der Leistungspegel des ersten akustischen Parametersignals zur genauen Darstellung der Phoneminformation in dem betreffenden Sprachsignal gewichtet wird.Qs)10J Schaltungsanordnung zum Erkennen bestimmter Phoneme in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 9» dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die ein für das Sprachsignal kennzeichnendes elektrisches Signal abgibt,daß eine Einrichtung vorgesehen ist, die aus dem betreffenden elektrischen Signal ein erstes akustisches Pararaetersignal erzeugt, welches eine Phoneminformation des Sprachsignals enthält,daß eine Signalerzeugungseinrichtung vorgesehen ist, die aus der Phoneminformation in dem ersten akustischen Para-metersignal ein Ubergangssignal erzeugt, welches kennzeichnend ist Tür die Lage eines Übergangs in dem Sprachsignal,daß eine Speichereinrichtung vorgesehen ist, die das erste akustische Parametersignal speichert, und daß eine zweite Signalerzeugungeeinrichtung vorgesehen ist, die aus dem gespeicherten ersten akustischen Parametersignal unter Ausnutzung des Übergangssignals ein zweites Parametersignal erzeugt, welches eine Phoneminformation des Sprachsignals an dem Übergang aufweist, wobei das zweite akustische Parametersignal mit einer bekannten Phoneminformation zur Erkennung der Phoneminformation in dem betreffenden Sprachsignal vergleichbar ist.11. Schaltungsanordnung nach Anspruch 10, dadurchgekennzeichnet , daß die das erste Parametersignal erzeugende Einrichtung eine Umsetzeinrichtung aufweist, die ein analoges elektrisches Signal des Sprachsignals in ein digitales elektrisches Signal umsetzt, daß eine Registereinrichtung vorgesehen ist, die der Reihe nach eine Vielzahl der digitalen Signale speichert, und daß eine Einrichtung vorgesehen ist, die aus den gespeicherten digitalen Signalen durch Fourier-Transformation'einer Vielzahl der betreffenden gespeicherten digitalen Signale das erste akustische Parametersignal erzeugt.12. Schaltungsanordnung nach Anspruch 10, dadurch gekennzeichnet, daß die Signalerzeugungseinrichtung eine Signaltrenneinrichtung umfaßt, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des ersten akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,daß eine Mittelungseinrichtung vorgesehen ist, die aus der Vielzahl der Frequenzbandsignale einen mittleren Leistungepegel in dem jeweiligen Zeitrahmen berechnet, daß eine Differenzschaltungsanordjxung vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel in dem jeweiligen Zeitrahmen und der Vielzahl der Leistungspegel imjselben Zeitrahmen berechnet ,daß eine Speichereinrichtung vorgesehen ist, welche eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,daß eine Arbeitsschaltungseinrichtung vorgesehen ist, die aus den gespeicherten ersten Differenzpegeln eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei jedes Frequenzband einen minimalen ersten Differenzpegel für die betreffende Vielzahl von Zeitrahmen umfaßt,
und daß eine Summiereinrichtung vorgesehen ist, welche die Summe einer Vielzahl von zweiten Differenzpegeln berechnet, deren jeder die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Frequenzband und b) dem jeweiligen ersten Differenzpegel in demselben Frequenzband für die betreffende Vielzahl von Zeitrahmen umfaßt, wobei die Summe das Übergangssignal umfaßt, welches derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.13· Schaltungsanordnung nach Anspruch 12, d a d u r ch gekennzeichnet , daß die Signalerzeugungseinrichtung ferner eine Spitzenbewertungseinrichtung umfaßt, mit deren Hilfe das Übergangssignal bewertet wird, um darin auftretende Spitzen zu ermitteln, indem eine Zeit-Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls und Kennzeichnung als Spitzenpegel erfolgt, wobei jedes Maximum des betreffen-den Übergangssignals in der Mitte des betreffenden Zeitintervalls derart auftritt, daß übergänge in dem Sprachsignal lokalisiert sind.14. Schaltungsanordnung nach Anspruch 13» dadurch gekennzeichnet , daß eine Schaltungseinrichtung vorgesehen ist, welche die Logarithmen der betreffenden mittleren Leistungspegel und der Leistungspegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die betreffenden ersten Differenzpegel minimiert ist.15. Schaltungsanordnung nach Anspruch 14, dadurch gekennzeichnet , daß die die Logarithmen berechnende Schaltungseinrichtung eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung für den jeweiligen mittleren Leistungspegel und für den jeweiligen 'Leistungspegel vor der Berechnung der Logarithmen dieser Leistungspegel abgibt, wobei der Einfluß von Fremdstörung während der Ruhepausen des Sprachsignals auf die betreffenden ersten Differenzpegel minimiert ist.16. Schaltungsanordnung zum elektrischen Erkennen bestimmter Phoneme in einem Sprachsignal nach Anspruch 15t dadurch gekennzeichnet, daß die Signalerzeugungseinrichtung ferner eine Gewichtungseinrichtung umfaßt, mit deren Hilfe der Leistungspegel des ersten akustischen Parametersignals derart gewichtet wird, daß er genau die Phoneminformation in dem Sprachsignal darstellt.17. Schaltungsanordnung zu« elektrischen Erkennen bestimmter Phoneme in einem Sprachsignal, nach Anspruch 10,dadurch gekennzeichnet, daß die Speichereinrichtung eine Signaltrenneinrichtung umfaßt, welche das erste akustische Parametersignal in eine Vielzahl von Frequenzbandsignalen aufteilt, daß eine Umsetzeinrichtung vorgesehen ist, welche das erste akustische Parametersignal in ein drittes akustisches Parametersignal umsetzt, welches weniger Frequenzbandsignale umfaßt und welches die Phoneminformation in dem ersten akustischen Parametersignal enthält, IQ und daß eine Speichereinrichtung vorgesehen ist, die das dritte akustische Parametersignal für die Erzeugung des zweiten akustischen Parametersignals aus dem umgesetzten ersten akustischen Parametersignal heranzieht.18. Schaltungsanordnung nach Anspruch 11, dadurch gekennzeichnet , daß die Gewichtungseinrichtung den Leistungspegel des ersten akustischen Parametersignals derart wichtet, daß eine genaue Darstellung der Phoneminformation in dem Sprachsignal vorliegt.19· Verfahren zum Erzeugen eines Übergangssignals zur Anzeige der Lage eines Übergangs in einem Sprachsignal, welches Ruhe-Phonem- und Phonem-Phonem-Übergänge aufweist, insbesondere in einer Schaltungsanordnung nach einem der Ansprüche 10 bis 18, dadurch gekennzeichne t , daß ein akustisches Parametersignal abgegeben wird, welches eine Phoneminformation des Sprachsignale enthält,
daß eine Vielzahl von Zeitrahmen des akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufgeteilt wird, deren jedes kennzeichnend ist für einen Leistungspegel des betreffenden akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen,daß aus der Vielzahl der Frequenzbandsignale ein mittlerer Leistungspegel im jeweiligen Zeitrahmen berechnet wi i'd ,daß für sämtliche Zeitrahraen eine Vielzahl von ersten Differenzpegeln zwischen dem betreffenden mittleren Leistungspegel im jeweiligen Zeitrahraen und der Vielzahl der Leistungspegel imjselben Zeitrahmen berechnet wird, daß für sämtliche Frequenzbänder eine Vielzahl von zweiten Differenzpegeln berechnet wird zwischen a) dein niedrigsten ersten Differenzpcgel in dem jeweiligen Frequenzband für die betreffende Vielzahl von Zeitrahmen und b) dem jeweiligen ersten Differenzpegel im selben Frequenzband für die betreffende Vielzahl von Zeitrahmen ,und daß die Summe sämtlicher zweiter Differenzpegel berechnet wird, wobei diese Summe das Übergangs signal umfaßt, welches dadurch bewertet werden kann, daß die Übergänge in dem Sprachsignal ermittelt werden.20. Verfahren nach Anspruch 19» dadurch gekennzeichne t , daß die Bewertung des Übergangssignals zur Ermittelung von Spitzen in dem betreffenden Signal dadurch erfolgt, daß eine zeitliche Abtastung des Übergangssignals unter Heranziehung eines bestimmten Zeitintervalls erfolgt und daß als Spitzenpegel jedes Maximum des Übergangssignals identifiziert wird, welches in der Mitte des betreffenden Zeitintervalls auftritt, derart, daß die Übergänge in dem betreffenden Sprachsignal lokalisiert werden.21. Verfahren nach Anspruch 20, dadurch ge kennzeichnet , daß als jeweiliger erster Differenzpegel die Differenz zwischen dem Logarithmus des betreffenden mittleren Leistungspegels und dem Logarithmus des entsprechenden Leistungspegels verwendet wird, wobei der Einfluß von Änderungen bzw. Schwankungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzptgel minimiert ist., 22. Verfahren nach Anspruch 21,dadurch gekennzeichnet , daß jedem mittleren Leistungspegel und jedem Leistungspegel vor der Berechnung des zugehörigen Logarithmus eine Vorspannung zu-f geführt wird, derart, daß der Einfluß von Fremdstörung während der Ruhepausen im Sprachsignal auf die ersten Differenzpegel minimiert ist.23· Verfahren nach Anspruch 22,dadurch g e ,J-, kennzeichnet, daß die Leistungspegel des akustischen Parametersignals derart selektiv gewichtet werden, daß eine genaue Darstellung der Phoneminformation in dem Sprachsignal erfolgt.2k. Schaltungsanordnung zum Erzeugen eines Übergangssignals, welches derart berechnet werden kann, daß es eine Anzeige für die Lage von Ruhe-Phonem- und Yon Phonem-Phonem-Übergängen in einem Sprachsignal liefert, insbesondere zur Durchführung des Verfahrens nach einem der Ansprüche 19 bis 231 dadurch gekennzeichnet , daß eine Trenneinrichtung vorgesehen ist, die eine Vielzahl von Zeitrahmen eines eine Phoneminformation des Sprachsignals enthaltenden akustischen Parametersignals in eine Vielzahl von Frequenzbandsignalen aufteilt, deren jedes kennzeichnend ist für einen Leistungspegel des akustischen Parametersignals in einem bestimmten Frequenzband und in einem bestimmten Zeitrahmen, daß eine Mittelungseinrichtung vorgesehen ist, die aus der betreffenden Vielzahl von Frequenzbandsignalen einen mittleren Leistungspegel im jeweiligen Zeitrahmen berechnet ,daß eine Differenzschaltungseinrichtung vorgesehen ist, welche für sämtliche Zeitrahmen eine Vielzahl von ersten Differenzpegeln zwischen dem mittleren Leistungspegel im jeweiligen Zeitrahmen und der Vielzahl von Lei-stungspegeln im selben Zeitrahmen berechnet,daß eine Speienereinrichtung vorgesehen ist, welche
eine Vielzahl der ersten Differenzpegel für eine Vielzahl von Zeitrahmen speichert,daß eine Arbeitsschaltungseinrichtung vorgesehen ist,
welche aus den gespeicherten ersten Differenzpegeln
eine Vielzahl von minimalen ersten Differenzpegeln bestimmt, wobei das betreffende Frequenzband einen minimalen ersten Differenzpegel für die Vielzahl der Zeitrahmen aufweist,daß eine Summiereinrichtung vorgesehen ist, welche die Summe einer Vielzahl der zweiten Differenzpegel berechnet, die jeweils die Differenz zwischen a) dem minimalen ersten Differenzpegel in dem jeweiligen Frequenzband undb) dem jeweiligen ersten Differenzpegel in demselbenFrequenzband für die betreffende Vielzahl von Zeitrahmen umfassen,und daß die Summe das Übergangssignal umfaßt, welches
derart berechnet werden kann, daß die Übergänge in dem Sprachsignal ermittelt sind.25. Schaltungsanordnung nach Anspruch Zh, dadurch gekennzeichnet , daß ferner eine Spitzenbewertungseinrichtung vorgesehen ist, die das Übergangssignal derart bewertet, daß darin enthaltene Spitzen
ermittelt werden, indem eine zeitliche Abtastung des
Übergangssignals unter Heranziehung eines bestimmten
Zeitintervalls erfolgt, und daß als Spitzenpegel jedes Maximum des Übergangssignals in der Mitte des Zeitin-tervalls identifiziert wird, derart, daß die Übergänge in dem Sprachsignal lokalisiert sind.26. Schaltungsanordnung nach Anspruch 25, dadurch gekennzeichnet , daß eine Logarithmus-Schaltungseinrichtung vorgesehen ist, welche die Logarithmen der entsprechenden mittleren Leistungspegel undder betreffenden Leistungspegel berechnet, wobei die ersten Differenzpegel die Differenzen zwischen den entsprechenden Logarithmen kennzeichnen und wobei der Einfluß von Änderungen in der Betonung von Phonem zu Phonem eines bestimmten Sprechers auf die ersten Differenzpegel minimiert ist.27. Schaltungsanordnung nach Anspruch 26, dadurch gekennzeichnet , daß die Logarithmus-Schaltungseinrichtung eine Vorspannungseinrichtung umfaßt, welche eine Vorspannung an den jeweiligen mittleren Leitungspegel und an den jeweiligen Leistungspegel vor der Berechnung der zugehörigen Logarithmen abgibt, wobei der Einfluß einer Fremdstörung während der Ruhepausen in dem Sprachsignal auf die ersten Differenzpegel minimiert ist.28. Schaltungsanordnung nach Anspruch 27» dadurch gekennzeichnet , daß eine Gewichtungseinrichtung vorgesehen ist, welche den Leistungspegel des akustischen Parametersignals derart wichtet, daß die Phoneminformation in dem Sprachsignal genau dargestellt ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57029471A JPS58145998A (ja) | 1982-02-25 | 1982-02-25 | 音声過渡点検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3306730A1 true DE3306730A1 (de) | 1983-09-01 |
DE3306730C2 DE3306730C2 (de) | 1991-10-17 |
Family
ID=12277008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19833306730 Granted DE3306730A1 (de) | 1982-02-25 | 1983-02-25 | Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal |
Country Status (8)
Country | Link |
---|---|
US (1) | US4592085A (de) |
JP (1) | JPS58145998A (de) |
KR (1) | KR910002198B1 (de) |
CA (1) | CA1193732A (de) |
DE (1) | DE3306730A1 (de) |
FR (1) | FR2522179B1 (de) |
GB (2) | GB2118343B (de) |
NL (1) | NL192701C (de) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972490A (en) * | 1981-04-03 | 1990-11-20 | At&T Bell Laboratories | Distance measurement control of a multiple detector system |
JPS5997200A (ja) * | 1982-11-26 | 1984-06-04 | 株式会社日立製作所 | 音声認識方式 |
JPS59166999A (ja) * | 1983-03-11 | 1984-09-20 | ソニー株式会社 | 音声過渡点検出方法 |
JPS59170897A (ja) * | 1983-03-17 | 1984-09-27 | ソニー株式会社 | 音声過渡点検出方法 |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4713778A (en) * | 1984-03-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method |
US4718088A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition training method |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
US5241649A (en) * | 1985-02-18 | 1993-08-31 | Matsushita Electric Industrial Co., Ltd. | Voice recognition method |
DE3514286A1 (de) * | 1985-04-19 | 1986-10-23 | Siemens AG, 1000 Berlin und 8000 München | System zur erkennung einzeln gesprochener woerter |
CA1250368A (en) * | 1985-05-28 | 1989-02-21 | Tetsu Taguchi | Formant extractor |
JPS62220998A (ja) * | 1986-03-22 | 1987-09-29 | 工業技術院長 | 音声認識装置 |
JPS63158596A (ja) * | 1986-12-23 | 1988-07-01 | 株式会社東芝 | 音韻類似度計算装置 |
US5007093A (en) * | 1987-04-03 | 1991-04-09 | At&T Bell Laboratories | Adaptive threshold voiced detector |
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US5136653A (en) * | 1988-01-11 | 1992-08-04 | Ezel, Inc. | Acoustic recognition system using accumulate power series |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
EP0438662A2 (de) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung |
DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
US5724410A (en) * | 1995-12-18 | 1998-03-03 | Sony Corporation | Two-way voice messaging terminal having a speech to text converter |
KR0173923B1 (ko) * | 1995-12-22 | 1999-04-01 | 양승택 | 다층구조 신경망을 이용한 음소 분할 방법 |
US6351723B1 (en) | 1996-08-29 | 2002-02-26 | Fujitsu Limited | Failure diagnostic method and apparatus for equipment and recording medium in which program causing computer system to execute process in accordance with such method is stored |
US6006186A (en) * | 1997-10-16 | 1999-12-21 | Sony Corporation | Method and apparatus for a parameter sharing speech recognition system |
US6230122B1 (en) | 1998-09-09 | 2001-05-08 | Sony Corporation | Speech detection with noise suppression based on principal components analysis |
US6173258B1 (en) * | 1998-09-09 | 2001-01-09 | Sony Corporation | Method for reducing noise distortions in a speech recognition system |
US6768979B1 (en) | 1998-10-22 | 2004-07-27 | Sony Corporation | Apparatus and method for noise attenuation in a speech recognition system |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6223150B1 (en) | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US7139708B1 (en) | 1999-03-24 | 2006-11-21 | Sony Corporation | System and method for speech recognition using an enhanced phone set |
US20010029363A1 (en) * | 1999-05-03 | 2001-10-11 | Lin J. T. | Methods and apparatus for presbyopia correction using ultraviolet and infrared lasers |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
US8332212B2 (en) * | 2008-06-18 | 2012-12-11 | Cogi, Inc. | Method and system for efficient pacing of speech for transcription |
US8903847B2 (en) * | 2010-03-05 | 2014-12-02 | International Business Machines Corporation | Digital media voice tags in social networks |
US20120246238A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Asynchronous messaging tags |
US8688090B2 (en) | 2011-03-21 | 2014-04-01 | International Business Machines Corporation | Data session preferences |
US20120244842A1 (en) | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Data Session Synchronization With Phone Numbers |
JP2013164572A (ja) * | 2012-01-10 | 2013-08-22 | Toshiba Corp | 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3344233A (en) * | 1967-09-26 | Method and apparatus for segmenting speech into phonemes |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB981154A (en) * | 1961-03-20 | 1965-01-20 | Nippon Telegraph & Telephone | Improved phonetic typewriter system |
US3582559A (en) * | 1969-04-21 | 1971-06-01 | Scope Inc | Method and apparatus for interpretation of time-varying signals |
JPS5850360B2 (ja) * | 1978-05-12 | 1983-11-10 | 株式会社日立製作所 | 音声認識装置における前処理方法 |
US4412098A (en) * | 1979-09-10 | 1983-10-25 | Interstate Electronics Corporation | Audio signal recognition computer |
US4454586A (en) * | 1981-11-19 | 1984-06-12 | At&T Bell Laboratories | Method and apparatus for generating speech pattern templates |
-
1982
- 1982-02-25 JP JP57029471A patent/JPS58145998A/ja active Granted
-
1983
- 1983-02-22 CA CA000422146A patent/CA1193732A/en not_active Expired
- 1983-02-23 US US06/469,114 patent/US4592085A/en not_active Expired - Lifetime
- 1983-02-24 KR KR1019830000745A patent/KR910002198B1/ko not_active IP Right Cessation
- 1983-02-25 NL NL8300718A patent/NL192701C/nl not_active IP Right Cessation
- 1983-02-25 FR FR8303208A patent/FR2522179B1/fr not_active Expired
- 1983-02-25 DE DE19833306730 patent/DE3306730A1/de active Granted
- 1983-02-25 GB GB08305292A patent/GB2118343B/en not_active Expired
-
1984
- 1984-11-22 GB GB08429480A patent/GB2153127B/en not_active Expired
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3344233A (en) * | 1967-09-26 | Method and apparatus for segmenting speech into phonemes |
Also Published As
Publication number | Publication date |
---|---|
GB8429480D0 (en) | 1985-01-03 |
GB8305292D0 (en) | 1983-03-30 |
FR2522179B1 (fr) | 1986-05-02 |
KR910002198B1 (ko) | 1991-04-06 |
FR2522179A1 (fr) | 1983-08-26 |
NL8300718A (nl) | 1983-09-16 |
GB2118343A (en) | 1983-10-26 |
KR840003871A (ko) | 1984-10-04 |
NL192701C (nl) | 1997-12-02 |
CA1193732A (en) | 1985-09-17 |
NL192701B (nl) | 1997-08-01 |
GB2118343B (en) | 1986-01-02 |
JPS58145998A (ja) | 1983-08-31 |
GB2153127A (en) | 1985-08-14 |
DE3306730C2 (de) | 1991-10-17 |
US4592085A (en) | 1986-05-27 |
JPH0441356B2 (de) | 1992-07-08 |
GB2153127B (en) | 1986-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3306730A1 (de) | Verfahren und schaltungsanordnung zum erkennen bestimmter phoneme in einem sprachsignal sowie zum erzeugen von signalen zur anzeige von uebergaengen in einem sprachsignal | |
DE60025748T2 (de) | Spracherkennung | |
DE60127274T2 (de) | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen | |
DE69926851T2 (de) | Verfahren und Vorrichtung zur Sprachaktivitätsdetektion | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE2659096C2 (de) | ||
DE69825363T2 (de) | Verfahren zur Schwingungswellenfeststellung und Schwingungswellendetektor | |
DE2918533A1 (de) | Spracherkennungssystem | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE2753277A1 (de) | Spracherkennungseinrichtung | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE60302478T2 (de) | Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale | |
EP3291234B1 (de) | Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE19840548C2 (de) | Verfahren zur instrumentellen Sprachqualitätsbestimmung | |
EP1382034B1 (de) | Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen | |
DE60025333T2 (de) | Sprachdetektion mit stochastischer konfidenzmassbewertung des frequenzspektrums |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |