DE2422028A1 - Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort - Google Patents
Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wortInfo
- Publication number
- DE2422028A1 DE2422028A1 DE2422028A DE2422028A DE2422028A1 DE 2422028 A1 DE2422028 A1 DE 2422028A1 DE 2422028 A DE2422028 A DE 2422028A DE 2422028 A DE2422028 A DE 2422028A DE 2422028 A1 DE2422028 A1 DE 2422028A1
- Authority
- DE
- Germany
- Prior art keywords
- frequency
- formant
- tunable
- filter
- filters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
Description
DiPL-ING. KLAUS NEUBECKER
Patentanwalt
4 Düsseldorf 1 · Schadowplatz 9
4 Düsseldorf 1 · Schadowplatz 9
. Düsseldorf, 6. Mai 1974 44,370
7459 * ■
7459 * ■
Westinghouse Electric Corporation
Pittsburgh, Pa., V. St. A.
Pittsburgh, Pa., V. St. A.
Schaltungsanordnung zur Identifizierung einer Formantfreguenz in einem gesprochenen Wort
Die vorliegende Erfindung bezieht sich allgemein auf automatische Wort- oder Stimmenerkennungssysteme und insbesondere auf Schaltungen
zum Aussieben charakteristischer Sprachmerkmale.
Es besteht derzeit ein Bedürfnis für automatische Sprecheridentifizierungs-
und automatische Worterkennungssysterne. Der Markt für
Sprecheridentifizierungssysteme umfaßt Sicherheitssysteme, Kredit-Verkauf
svorgänge, Computerdatenzugang, Bankaktivitäten und gesetzliche
Vollziehungsmaßnahmen. Jüngste Untersuchungen haben bestätigt, daß Stimmenabdruck-Identifizierung sich ausreichend zuverlässig
als gesetzliches Beweisend.ttel einsetzen läßt. Der Vorzug
eines Stimmen-"Abdrucks" gegenüber anderen Verfahren wie Finger-. abdruck-Identifizierung besteht darin, daß bestehende Telefonleitungen
für die Übermittlung der Information in Verbindung mit einem billigen Mikrofon und ohne die Notwendigkeit einer teuren
Umsetzerausrüstung an der Empfangsstelle verwendet werden können.
Der Markt für Worterkennungssysteme umfaßt Materialhandhabungsvorgänge,
Postsortierung, Herstellungskontrolle, automatische überprüfung
in Supermärkten,stimmbetätigte Schalter. Der Einsatz gesprochener Daten in den Bereichen der Materiälhandhabung, Post-
409848/0809
sortierung, Herstellungskontrolle sowie der automatischen Supermarktüberprüfung
macht für die zuständigen Überwachungspersonen den Weg für die Ausführung anderer Aufgaben frei. Die mögliche
Verwendung der Spracherkennung für die Computerdateneingabe ist besonders reizvoll, da es dadurch möglich würde, einen Computer
mit Hilfe natürlicher Sprachen zu programmieren und somit die Notwendigkeit, eine-spezielle Sprache für den Computer zu entwickeln,
zu eliminieren. Somit könnten Personen, die keine Kenntnis bezüglich der Bedienung des Computers hätten, Computereingabedaten
liefern.
Ein Spracherkennungssystem muß drei Grundfunktionen ausführen
können:
1. Extraktion oder Aussiebung charakteristischer Merkmale des
Sprechsignals, um den sehr großen Informationsgehalt des Spreqhsignals
auf die Grundinformation zu reduzieren, die noch ausreicht, um den Sprecher zu identifizieren und/oder den Sprachgehalt
zu erkennen?
2. es muß in irgendeiner Weise für eine Zeitachsen-Normierung gesorgt
werden, d. h., es muß ein als Phonemji bekanntes Sprach-Grundelernent
auf eine standardisierte Dauer zusammengezogen oder gedehnt werden, so daß das Wort zur Obereinstimmung mit
gespeicherter Information gebracht und unabhängig davon erkannt werden kann, wie schnell es gesprochen wurde oder ob
Teile davon betont wurden?
3. die normierten Wörter müssen mit einer Reihe oder Gruppe gespeicherter
Wörter verglichen und es muß dann die beste Übereinstimmung angegeben werden.
Bei derzeitigen Spracherkennungssystem werden charakteristische
Merkmale über eine Fourieranalyse oder eine Zeit-Reihenanalyse der Sprechkurve bzw. des Sprechsignals extrahiert oder ausgesiebt. Ein
nachfolgender Algorithmus sorgt tibearlicherweise für eine Phoneme-Segmentierung
und eine Zeitachsen-Normierung. Für Echtzeit-Betrieb erfordern solche Systeme eine beträchtliche Berechnungsleistung,
die im allgemeinen von einem Computer voller Größe, zusätzlich zu
409848/0809
der Vorbehandlungsausrüstung wie Filtergruppen oder Austast-
und Zeitbestimmungseinrichtungen, geliefert werden muß. Für die meisten infrage kommenden Anwendungen liegen die Kosten solcher
Systeme außerhalb eines wirtschaftlich vertretbaren Bereichs.
Aufgabe vorliegender Erfindung ist die Schaffung eines verhältnismäßig
einfachen und wirksamen Worterkennungssystems unter
Einhaltung eines wirtschaftlich vertretbaren Bereichs.
Zur Lösung dieser Aufgabe ist eine Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen
Wort erfindungsgemäß gekennzeichnet durch ein abstimmbares
elektronisches Filter, das einstellbare Mittelfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen
Wortes ansprechen ,kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals des Filters und zur Ermittlung,
ob eine Formantfrequenz anwesend ist, sowie durch eine zwischen die Analysiereinrichtung und das Filter geschaltete Steuereinrichtung
zur Erzeugung eines Steuersignals für die Einstellung der Mittelfrequenz des Filters so, daß jede im wesentlichen
mit der Frequenz des Formanten zusammenfällt.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen
in Verbindung mit der zugehörigen Zeichnung erläutert. In der Zeichnung zeigen:
Fig. 1 schematisch eine Darstellung eines Formant-
folgers entsprechend einem Ausführungsbeispiel der Erfindung;
Fig. 2-4 Darstellungen verschiedener Filter-Betriebsarten ;
409848/0809
-A-
Fig. 5 und 6 Darstellungen des Frequenz-Ansprechens
abstimmbarer aktiver Filter des Ausführungsbeispiels der Fig. 1;
Fig. 7 eine Darstellung der Arbeitsweise einer ab
gewandelten Ausführung der Schaltung nach Fig. 1;
Fig. 8 eine Darstellung der Folge-Arbeitsweise der
■ Schaltung der Fig. 1;
Fig. 9 schematisch eine Darstellung einer Kombination
von FormanttrSgern entsprechend Fig. 1;
und
Fig. 10 eine Frequenz-/Zeitaufzeichnung eines Sono-
gramms.
Das Kurzzeit-Energiespektrum von Vokalen und stimmhaften Konsonanten
weist charakteristische Frequenzscheitel auf, die durch die Hohlräume des Vokaltrakts hervorgerufen werden, wenn dieser
durch Schallschwingungen von den Stimmbändern angeregt wird. Diese Frequenzscheitel werden Formanten genannt. Ihre Lage und
ihre zeitlichen Änderungen können als Merkmale für die Charakterisierung von stimmhaften Phonemen und zur Identifizierung einer
sprechenden Person ausgewertet werden.
Das Spektrum der Vokale und stimmhaften Konsonanten enthält üblicherweise
bis zu fünf Frequenzscheiteln, entsprechend der Stimmhöhenfrequenz und vier Formantfrequenzen. Während die Stimmhöhen-
409848/0809
frequenz und die ersten drei Formantfrequenzen normalerweise für
die Sprecheridentifizierung ausgewertet werden, kann die Auswertung der drei Formantfrequenzen allein allgemein genügend Information
für die Identifizierung stimmhafter Phoneme liefern.
Der Frequenzbereich für Stimmhöhen-: und Formantfrequenzen ist für
eine durchschnittliche männliche Person:
Stimmhöhe | Formant | PF | 60 » | 240 | Hz |
1. | Formant | F1 | 150 » | 850 | Hz |
2. | Formant | F2 | 500 » | 2500 | Hz |
3. | Formant | F3 | 1500 —> | 3500 | Hz |
4. | P1 | 2500 » | 4500 | Hz |
Die Stimmhöhenfrequenzen weiblicher Sprecher sind annähernd eine Oktave höher, und ihre Formantfrequenzen liegen etwa 17 % höher
als die männlicher Sprecher.
Es wird unter Bezugnahme auf das veranschaulichte bevorzugte Ausführungsbeispiel
ein einfaches und billiges Verfahren zur Sprecheridentifizierung und Worterkennung erläutert, wobei die Stimmhöhe
zusammen mit der Frequenz einer vorgegebenen Anzahl der niedrigsten
spektralen Scheitel (Formanten) ausgewählt und die Frequenzen ermittelt und verfolgt werden. Das System verwendet elektronisch
abstimmbare aktive Filter mit veränderlicher Bandbreite und Mittenfrequenz, um einen bestimmten Formanten "festzulegen" und dessen
Ablenkungen zu.folgen. Entsprechend einem bestimmten Ausführungsbeispiel werden vier Paare elektronisch abstimmbarer aktiver Filter
verwendet, um die Stimmhöhe der gesprochenen Information sowie die ersten drei Formanten "festzulegen" bzw. zu "verriegeln". Die
Steuerspannung der Filter, die der Formantfrequnez entspricht, liefert ein einfaches Verfahren zur Charakterisierung der gesprochenen
Wortelemente.
Um die.Sprachmerkmale zu klassifizieren, kann das System mit einem
im Hinblick auf den Gehalt addressierbaren Halbleiterspeicher und einer Klassifizierungs-Matrix verwendet werden, wie sie in der
US-Patanm. Ser. No. 293,241 vom 28.9.72 mit dem Titel "Radar
409848/0809
Identification System" beschrieben werden, die auf die gleiche Anmelderin
wie die vorliegende Anmeldung zurückgeht. Die charakteristischen Eigenschaften des Worts werden mit der in dem Speicher
und der Klassifizierungs-Matrix gespeicherten Information verglichen, bis ein Wort ausgewählt wird, das mit den Merkmalen des
gesprochenen Worts am besten übereinstimmt. Beide diese Subsysteme,
nämlich der Formantenfolger und die Klassifizierungs-Matrix, eignen
sich für die Fertigung im Rahmen von LSI (large scale integration) -Verfahren. Diese Lösung beinhaltet die Möglichkeit, Sprecheridentifizier
ungs- und Vokabularwort-Erkennungssysteme in einen
für den Verbrauchermarkt attraktiven Preisbereich zu bringen.
Im einzelnen läßt Fig. 1 einen allgemein mit 10 bezeichneten Formantfolger mit elektronisch abstimmbaren Filtern 20 und 30 er- .
kennen. Elektronisch abstimmbare Filter, die sich für die Schaltungsanordnung nach Fig. 1 eigenen würden, können beispiels^
weise von Aktivfiltern Modell FS-50 gebildet sein, wie sie in den V. St. A. von Kinetic Technology, Inc. geliefert werden.
Das im Handel erhältliche elektronisch abstimmbare aktive Filter entsprechend den Filtern 20, 30 der Fig. 1 liefert Hochpass-,
Tiefpass- und Bandpass-Übergangsfunktionen und besitzt Vorspannungs-Input-Fähigkeiten,
um eine Einstellung der Mittenfrequenz und des Q-Werts des Filters zu ermöglichen. Die Einstellung der
Mittenfrequenz und des Q-Werts des Filters erfolgt durch extern veränderliche Impedanzeinrichtungen, die in Fig. 1 schematisch als
Feldeffekttransistoren 23 und 33 dargestellt worden sind, um die Mittenfrequenz der Filter 20 bzw. 30 einzustellen, bzw. als Feldeffekttransistoren
24 und 34 für die Einstellung des Q-Werts der einstellbaren Filter 20 bzw. 30. Die Einstellung der Mittenfrequenz
und des Q-Werts der abstimmbaren Filter erfolgt durch Änderung der den entsprechenden Feldeffekttransistoren zugeführten Vorspannung.
Geeignete Ergebnisse ließen sich auch unter Verwendung von Analogvervielfachern
anstelle der Feldeffekttransistoren erzielen.
Bei dem Ausführungsbeispiel nach Fig. 1 sind die Filter 20 und 30
in einer Bandpass-Betriebsart angeschlossen, wobei das abstimmbare
409848/0809
' ' - 7 Filter 20 auf die Sprach-Eingangsinformation, die den Frequenzgehalt
entsprechend f -^f aufweist, und das abstimmbare Filter 30 .
auf Sprach-Eingangsinformation, die die Frequenz im Bereich f + Af.
aufweist, anspricht.
in der nachstehenden Erläuterung des Einsatzes der abstimmbaren
aktiven Filter für die Analyse der Sprachinformation vird zwar auf die spezielle Ausführung nach Fig. 1 Bezug genommen, bei der
beide Filter in einer Bandpass-Betriebsart angeschlossen sind, jedoch ist darauf hinzuweisen, daß die Verfahren sich in gleicher
Weise auch für jede Kombination von Tiefpass-, Bandpass- und Hochpass-Betriebsarten
des Paares abstimmbarer Filter einsetzen läßt.
Mit Fig. 2 ist die Abhängigkeit der Amplitude von der Frequenz für ein abstimmbares aktives Filter wiedergegeben, das in einer ·
Bandpass-Betriebsart arbeitet, während Fig. 3 die Tiefpass-Betriebsart und Pig. 4 die Hochpass-Betriebsart veranschaulichen. Die gestrichelten
Linien in Fig. 2 und 3 entsprechen Filtern, deren Q-Wert gegenüber dem hohen Q-Wert, wie er mit den durchgehenden
Linien angedeutet ist, verhältnismäßig niedrig ist. Fig. 5 veranschaulicht die Arbeitsweise eines Formantfolgers 10 nach Fig. 1,
wobei sowohl das abstimmbare Filter 20 als auch das abstimmbare Filter 30 in einer Bandpass-Betriebsart arbeiten. Der Kurvenzug A
repräsentiert dabei das abstimmbare Filter 20, während der Kurvenzug B das abstimmbare Filter 30 repräsentiert. Wenn die Sprach-Eingangsinformation
einen Formanten F innerhalb des bestimmten Frequenzbereichs der Filter 20 und 30 enthält, so ist das Ansprechen
des Filters 20 entweder größer oder kleiner als das des
Filters 30, je nachdem, ob die Formantfrequenz F niedriger oder höher als die Mittenfrequenz f_ ist. Der Bandpass-Ausgang des
Filters 20 wird durch einen'Gleichrichter 4Ό gleichgerichtet, so
daß ein Summierer 42 ein Eingangssignal einer ersten Polarität enthält, während der Bandpass-Ausgang des Filters 30 durch einen
Gleichrichter 44 gleichgerichtet wird, so daß der Summierer 42 ein Eingangssignal entgegengesetzter Polarität erhält. Wenn der in der
Sprach-Eingangsinformation enthaltene Formant F nicht wie in Fig. 5 veranschaulicht mit der Frequenz fQ zusammenfällt, so weichen
409848/0809
die Bandpass-Ausgangssignale der Filter 20 und 30 hinsichtlich ihrer Größe voneinander ab, so daß die von den Gleichrichtern
und 44 gelieferten Eingangssignale entgegengesetzter Polarität eine ungleiche Größe bzw. Amplitude haben. Der Summierer 42 liefert
einem Integrator 50 ein Eingangssignal, der der Nettodifferenz zwischen den Bandpass-Ausgangssignalen der Filter 20 und 30 entspricht.
Das vom Summierer 42 erzeugte Signal wird durch den Integrator 50 integriert, der seinerseits ein Ausgangssignal erzeugt,
das zur Steuerung der Leitfähigkeit der Feldeffekttransistoren und 33 ausgewertet wird, um die Mittenfrequenz der Filter 20 bzw.
30 einzustellen; Das Ausgangssignal des Integrators 50 sorgt für eine Verschiebung der Mittenfrequenz der jeweiligen Filter in eine
solche Richtung, daß es zu einem Zusammenfallen zwischen der Mittenfrequenz f und dem Formanten F kommt, wie das in Fig. 6
veranschaulicht ist. Wenn dieser Zustand des Zusammenfallens oder
der Koinzidenz erzielt worden ist, so sind die Bandpass-Ausgangssignale der Filter 20 und 30 gleich, so daß das Ausgangssignal
des Summierers 42 auf Null absinkt und somit das Ausgangssignal
des Integrators 50 konstant bleibt. Die Größe des Ausgangssignals des Integrators 50 ist somit repräsentativ für den Formanten F
der Sprach-Eingangsinformation, wobei dieses Ausgangssignal durch
einen Analogschalter 60 an eine Signalverarbeitungsschaltung S weitergeleitet wird. Die Signalverarbeitungsschaltung S kann einen
Aufbau haben, wie er in der vorerwähnten üS-Patanm. Ser. No. 293,241 beschrieben ist. Wenn die Frequenz des Formanten F sich
ändert, arbeiten die beiden abstimmbaren Filter 20 und 30 wiederum so, daß die Mittenfrequenz f in Koinzidenz mit dem Formanten F
gehalten und der Formant F durch die Rückkopplungswirkung des Integrators 50 wirksam unter Kontrolle gehalten bzw. verfolgt
wird. Die Arbeitsweise eines mit einer Kombination aus einem Tiefpass-Filter und einem Bandpass-Filter arbeitenden Nachfolgekreises
ist mit Fig. 7 wiedergegeben. Wiederum spricht der Kreis auf die Abweichung der Formantfrequenz F von der Frequenz f an, indem
die Mittenfrequenz der Filter so eingestellt wird, daß sie mit dem Formanten F zusammenfällt.
409848/0809
Die Arbeitsweise des Formantenfolgers 10 nach Fig. 1 ist mit
Fig. 8 veranschaulicht. Der mit A bezeichnete Teil der Formantenfolge-Kurve
veranschaulicht die Zeitverzögerung im Schaltkreis vor dem Erreichen des Formanten F, während der mit B bezeichnete Teil
der Kurve die Abfallzeit des Formantenfolgers wiedergibt, die sich an den Abschluß der Verfolgung eines bestimmten Formanten
F anschließt. Um die mit A bzw. B bezeichneten Teile der Kurve zu eliminieren und damit zu verhindern, daß diese mit der dem Formanten
F entsprechenden Information an die Signalverarbeitungsschaltung übertragen v/erden, wird der Ausgang des Integrators 50 über
den Analogschalter 60 weitergeleitet. Der Analogschalter 60 befindet sich im für die Übertragung des Ausgangs von dem Integrator
50 geeigneten geöffneten Zustand nur dann, wenn ein Bandpass-Ausgang des Filters 30 ein vorgegebenes Niveau V f überschreitet,
das durch eine Vergleicherschaltung 62 vorgegeben ist.
Der Q-Wert der Filter 20 und 30 wird durch ein Vorspannungssignal gesteuert, das dem Ausgang des Summierers 42 entspricht und die
Feldeffekttransistoren 24 bzw. 34 beaufschlagt. Die Wirkung der Veränderung des Q-Werts des Filters, wie das mit Fig. 2, 5 und 6
veranschaulicht ist, geht dahin, daß ein niedriger Q-Wert die .Bandbreite
des Filters erhöht, während ein hoher Q-Wert die Bandbreite des Filters herabsetzt. Um Formanten kompensieren zu können, die
außerhalb des Ansprechbereichs der Filter 20 und 30 auftreten, wie das mit den Formanten F1 der Fig. 5 gezeigt ist, wird ein Teil
des Tiefpass-Ausgangs des Filters 20, der durch einen veränderlichen
Widerstand 64 gesteuert und durch eine Diode 66 gleichgerichtet wird, als Eingangssignal an den Summierer 42 geliefert.
Das Tiefpass-Eingangssignal dient als Vorspannungssignal, um den Formanten F1 in den Ansprechbereich der Filter zu verschieben,
wie das mit den Pfeilen in Fig. 5 angedeutet ist.' Die obige Beschreibung
veranschaulicht die Arbeitsweise eines Formantenfolgers für das Ermitteln und Verfolgen eines bestimmten Formanten von
Sprach-Eingangsinformation. Wie oben schon angedeutet, ist es jedoch
zur Klassifizierung und Identifizierung eines gesprochenen Wortes oder eines bestimmten Sprechers notwendig, mehrere Formanten
innerhalb eines gesprochenen Wortes zu analysieren, so daß
409848/0809
zusätzliche Formantfolger der mit Fig. 1 gezeigten Art notwendig
sind. So zeigt Fig. 9 eine Kaskadenanordnung von Formantfolgern, die jeweils den mit Fig. 1 gezeigten Aufbau haben.
Um zu verhindern, daß zwei oder mehr Formantfolger bezüglich desselben
Formanten verriegelt werden, wird ein spezieller Aufbau verwendet, der diejenige Frequenzspitze, auf die ein bestimmter
Formantfolger sich abstimmt, aus dem Sprachspektrum entfernt, das durch die nachfolgenden Formantfolger analysiert werden soll. Das
erfolgt durch Zufuhr der Sprach-Eingangsinformation der ersten
Stufe unmittelbar zu dem nichtinvertierenden Eingang des Operationsverstärkers 70 und der Bandpass-Ausgänge der Filter 20 und
30, die durch Verstärker 67 und 68 verstärkt werden, zu dem invertierenden Eingang des Operationsverstärkers 70. Das Eingangssignal
für den invertierenden Eingang des Verstärkers 70 repräsentiert den spektralen Gehalt der Sprach-Eingangsinformatiön, der sich
innerhalb des Bandpass-Übertragungsbereichs f + ΔΡ der Bandpass-Ausgänge
der Filter 20 und 30 befindet. Der Verstärker 70 subtrahiert diesen spektralen Gehalt von der Spräch-Eingangsinformation
und liefert den von den Filtern 20 und 30 nicht verarbeiteten Teil der Sprach-Eingangsinformation entsprechend Fig. 9 an eine
zweite Formantfolgestufe. In der zweiten Stufe wird der Ausgang bzw. das Ausgangssignal des Operationsverstärkers 70 der ersten
Stufe gleichzeitig sowohl dem Formentfolger der zweiten Stufe als auch dem nichtinvertierenden Eingang des Operationsverstärkers
der zweiten Stufe zugeführt. Der Ausgang des Formantfolgers 10
der zweiten Stufe beaufschlagt den invertierenden Eingang des Operationsverstärkers 70 der zweiten Stufe. Dieses System der
gegenseitigen Verbindung untereinander wird über die ganze Reihe Formantfolger eingehalten, wie das in Fig. 9 gezeigt ist. Bei
diesem Schema gegenseitiger Verbindung wirkt jede Stufe als dynamisches Einschnittfilter, um den speziellen Formanten, auf den
es abgestimmt ist, aus dem Eingang zu den nachfolgenden Stufen zu entfernen.
Damit die Schaltkreise der Anordnung nach Fig. 9 in einer vorgegebenen
Reihenfolge arbeiten, so daß der erste Schaltkreis PT den
409848/0809
Stimmhöhenabweichungen folgt, der zweite Schaltkreis FT1 dem
Formanten F1 folgt, der dritte Schaltkreis FT3 dem zweiten Forman-ten
F2 folgt und der vierte Schaltkreis FT3 dem Formanten F3 folgt,
wird jeder Folger mit einer Vorspannung beaufschlagt, so daß er auf den Scheitel- der niedrigsten Frequenz der ihm zugeführten
Eingangsinformation anspricht. Dies erfolgt wie in Fig. 1 gezeigt dadurch, daß ein Teil des gleichgerichteten Tiefpass-Ausgangssignals
des Filters 20 zusammen mit den Bandpass-Ausgangssignalen der Filter 20 und 30 dem Summierer 42 zugeführt wird. Die Größe
der Vorspannung wird durch ein Potentiometer 64 eingestellt. Es sorgt dafür, daß der Summierer 42 solange ein Ausgangssignal abgibt,
wie das Filter nicht auf den in dem Spektrum enthaltenen Scheitel der niedrigsten Frequenz zentriert ist.
Wie oben erwähnt, ist der Q-Wert der Filter 20 und 30 ursprünglich
niedrig, so daß der Scheitel der Frequenz, auf die sie ansprechen,
in ihre Bandbreite fällt. Es ist daher keine Abtast-Betriebsart der Filter 20 und 30 notwendig, um spektrale Scheitel
zu finden. Wenn der Formantfolger 10 sich bezüglich eines Frequenz
scheite Is verriegelt, steigt ein Bandpass-Ausgangssignal an,
und diese Spannung bewirkt ihrerseits eine Zunahme des Q-Werts der Filter über die Feldeffekttransistoren 24 und 34, bis eine
minimale Bandbreite von beispielsweise zwischen 100 und 200 Hz erreicht wird. Das Nachlaufen oder Folgen des Formantfolgers 10
geschieht so, daß die Auflösung auf zwei Formanten möglich ist, die zusammenfallen. Ein Formantfolger wirkt dahingehend, daß er
der Kante niedriger Frequenz dieses Formanten folgt und ein 100 oder 200 Hz breites Band des Spektrums entfernt, während die
andere Folgerstufe der verbleibenden oder oberen Hälfte des breiten Frequenzscheitels folgt.
Wie in Fig. 9 angedeutet, liefert jeder der Folgerkreise eine Ausgangssignal,
das dem Ausgang des entsprechenden Integrierkreises jedes Folgerkreises entspricht. Dieses Ausgangssignal ist repräsentativ für den Formanten, der durch den entsprechenden Folgerkreis
verfolgt wird, und wird anschließend an die Signalverarbeitungskreise zum Vergleich mit den Ausgängen aller anderen Formant-
409848/0809
folger geliefert, um Information zur Identifizierung des gesprochenen
Worts oder des individuellen Sprechers zu liefern. Entsprechend der oben erwähnten zugehörigen Anwendung können entfernte
Sif£gnalverarbeitungsschaltungen eingesetzt werden, wobei
die Ausgangssignale der Formantfolger gekennzeichnet und mit gespeicherter Information, die ein Vokabular gesprochener Wörter
repräsentiert, verglichen werden. Eine Analyse der Formantfolger-Ausgangssignale
im Verhältnis zur gespeicherten Information liefert eine Anzeige der besten Übereinstimmung zwischen der Formantfolger-Ausgangsinformation
und der gespeicherten Information. Dadurch werden die in dem Signalverarbeitungskreis gespeicherten
Merkmale des gesprochenen Worts oder des Sprechers identifiziert, die der den Formantfolgerkreisen zugeführten Sprach-Eingangsinformationen
am nächsten kommen.
Der Formantfolger 10 ist nicht nur in der Lage, die Formantstruktur
von Vokalen zu extrahieren oder auszuschalten, sondern er zeigt auch charakteristische Formantpositionen in stimmhaften
Konsonanten auf. Die nasalen Konsonanten m, n,rj , die Gleitlaute
w, j, die Halbvokale x, 1, und die stimmhaften Reiblaute ν, «Χ ,
z'3 weisen alle eine charakteristische Formantenstruktur auf,
und in den stimmhaften Sprenglauten b, d, g ist der zweite Formantenübergang das Hauptmerkmal, das sie gegenüber den stimmlosen
Sprenglauten p, t, k unterscheidet.
Für Spracherkennungssysteme, die ein Vokabular von etwa 10 bis
20 Wörtern verarbeiten oder einen unter einer kleinen Anzahl Sprecher identifizieren können, liefern die Formantfrequenzen
(und zur Sprecheridentifizierung auch die Stimmhöhenfrequenz) genügend charakteristische Merkmale für eine zuverlässige Klassifizierung.
In diesem Fall sind nur vier Formantfolger, wie sie in der Anordnung nach Fig. 9 gezeigt sind, für die Aussiebung von
Merkmalen erforderlich. Für größere Vokabularien, d. h. die Identifizierung
eines Sprechers unter einer größeren Anzahl von Sprechern, können die charakteristischen Parameter stimmloser
Konsonanten erforderlich sein. Die in Vokalen und stimmhaften Konsonanten enthaltenen charakteristischen Formantbänder sind mit
409848/0809
dem Sonogramm der Fig. 10 veranschaulicht. Die Lagen der Formantbänder
ändern sich mit der Zeit. Die Mit A und B bezeichneten Bereiche enthalten keine solche charakteristischen Scheitel oder
Spitzen, sondern bestehen aus einem breiten Spektrum, das nur eine geringe Strukturierung aufweist. Solche breiten Spektren sind
charakteristisch für stimmlose Konsonanten wie p, t, k.
Der Signalverlauf der Fig. 10 entspricht den AusgangsSignalen,
wie sie durch die Integratoren der Formantfolger erzeugt werden, die den entsprechenden Formanten und der Tonhöhenfrequenz zugeordnet
sindr. Jeder Vokal eines gesprochenen Worts hat sein charakteristisches Formantmuster, wobei das Formantmuster dem Ausgangssignal
der Folgekreise entspricht, und ebenso weist jede einzelne Person ein Formantmuster auf, das in hohem Maße charakteristisch
für diese Einzelperson ist. Somit liefert die Möglichkeit, den Formantgehalt der Sprachinformation zu verfolgen und diesem Formantgehalt
entsprechende Ausgangssignale zu erzeugen,die notwendige Echtzeit-Information, um den Wortgehalt der Sprachinformation
zu erkennenoder die spezielle Einzelperson zu identifizieren, die die Sprachinformation erzeugt.
Der Zweck des Formantfolgers 10 besteht darin, charakteristische Merkmale von Phonemen auszuscheiden. Diese Merkmalausscheidung
ist notwendig, um die Dimensionierbarkeit des Erkennungsraums zu verringern, so daß es wirtschaftlich vertretbar wird, die Merkmale
mit einer Reihe gespeicherter Schablonen, Muster oder Matrizen zur Übereinstimmung zu bringen. Die Anzahl solcher Muster, die
je Wort erforderlich sind, würde jedoch immer noch unzulässig groß bleiben, wenn die Wortmerkmale und ihre gespeicherten Gegenstücke
(die Muster oder Matrizen) nicht normiert, d. h. auf eine vorgegebene Dauer verkürzt oder ausgedehnt würden. Ohne eine
solche Normierung würde einer große Anzahl Muster je Wort erforderlich, die bei unterschiedlichen Sprechgeschwindigkeiten aufgezeichnet
und alle möglichen Kombinationen von Änderungen in der Dauer der einzelnen Phoneme umfassen würden. Ein bekanntes Verfahren
zur Überwindung des Wortdauerproblems ist das Prinzip der nichtlinearen Zeitbasis, wie es von G. L. Clapper unter dem Titel
409848/0809
"Automatic Word Recognition" in IEEE Spectrum, August 1971 beschrieben
wird. Eine v/eitere Möglichkeit besteht darin, einzelne Phoneme über das Verfahren der binären Selektion zu klassifizieren,
wie das in J. Acoust. Soc. Am. 1956 in einem mit "Electronic Binary
Selection System for Phonemes Classification" bezeichneten Aufsatz beschrieben wird.
EinPrinzip, das zur Verwirklichung der Signalverarbeitungskreise der vorliegenden Erfindung brauchbar ist, sieht vor, daß die
Signale von den Formantfolgekreisen durch eine Matrix mit einem
Muster adaptiver Speicherelemente wie in Spalten und Zeilen angeordneter magnetischer oder Festkörper-Speicherelemente (Minstores)
ausgewertet werden. Charakteristika gesprochener Wörter eines
Vokabulars oder Charakteristika eines einzelnen Sprechers werden den adaptiven Elementen in jeder Spalte zugeordnet, so daß jede
Zeile adaptiver Elemente einer Gruppe Charakteristika entspricht. Die Elemente in jeder Zeile werden mit einer unterschiedlichen
Gruppe Adaptationen kodiert, die den Charakteristika entsprechen, von denen zu erwarten ist, daß sie mit den Charakteristika der
Sprach-Eingangsinformationen übereinstimmen", die von den Formantfolgerkreisen
geliefert wird. Von den Formantfolger-Ausgangs-Signalen
abgeleitete Adaptationen werden gleichzeitig jeweils jeder Spalte in vergleichender Zuordnung mit der kodierten Adaptation
der Elemente eingeprägt. Der Vergleich erfolgt für alle Charakteristika auf Echtzeitbasis (augenblicklich). Für jede
Zeile wird eine Messung der Gesamtabweichung der Charakteristika entsprechend den Formantfolger-Ausgangssignalen von der gespeicherten
Charakteristika-Information abgeleitet. Es wird eine Ermittlung
hinsichtlich der Identität der bestimmten Charakteristika des Formantfolgerausgangs durchgeführt, wie sie der gespeicherten
Information entspricht, die eine minimale Abweichung erzeugte .
Patentansprüche;
409848/0809
Claims (11)
- P atentansprüche ;1A Schaltungsanordnung zur Identifizierung einer Formantfrequenz ν J
v—' in einem gesprochenen Wort, gekennzeichnet durch eine abstimm-. bare elektronische Filtereinrichtung (20, 30), die einstellbare Mittenfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen Wortes ansprechen kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals der Filtereinrichtung und zur Ermittlung, ob eine Formantfrequenz anwesend 1st, sowie durch eine zwischen die Analysier- und die Filtereinrichtung geschaltete Steuereinrichtung zur Erzeugung eines Steuersignals für die Einstellung der Mittenfrequenz der Filtereinrichtung, so daß diese im wesentlichen mit der Frequenz des Formanten zusammenfällt. - 2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die abstimmbare elektronische Filtereinrichtung ein abstimmbares erstes Filter (20) und ein abstimmbares zweites Filter (20) aufweist, die jeweils eine einstellbare Mittenfrequenz und einen einstellbaren Q-Wert haben und gesprochene Wörter aufnehmen können, daß das erste abstimmbare Filter auf den Frequenzgehalt der in einem Frequenzbereich in einer ersten Richtung von der Mittenfrequenz auftretenden gesprochenen Wörter und das zweite abstimmbare Filter (30) auf den Frequenzgehalt Jvea-in einem Frequenzbereich entgegengesetzter Richtung auftretender gesprochener Wörter ansprechen kann.
- 3. Schaltungsanordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Analysiereinrichtung auf die Ausgangssignale des ersten und des zweiten abstimmbaren elektronischen Filters (20, 30) durch Erzeugung eines Ausgangssignals anspricht, das der,Nettoabweichung der Formantfrequenz von der Mittenfrequenz entspricht, und daß die Steuereinrichtung auf das Ausgangssignal von der Analysiereinrichtung ansprechen kann, um ein Steuer-Eingangssignal für das erste und das zweite Filter zu erzeugen und damit die Mittenfrequenz der Filtereinrichtung409848/0809so einzustellen, daß sie im wesentlichen der Formantfrequenz entspricht.
- 4. Schaltungsanordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Steuereinrichtung einen Integrator zur Integration des Ausgangs der Analysiereinrichtung und zur Abgabe eines Ausgangssignals als Steuer-Eingangssignal für das erste bzw. zweite Filter aufweist und daß die Steuereinrichtung als Rückkopplungskreis für die fortlaufende Einstellung der Mittenfrequenz des ersten und zweiten Filters in Abhängigkeit von einem sich ändernden Ausgangssignal von der Analysiereinrichtung arbeitet.
- 5. Schaltungsanordnung nach einem der Ansprüche 1-4, gekennzeichnet durch eine Einrichtung (24, 34) zur Erhöhung des Q-Werts der elektronischen Filtereinrichtung beim Auftreten von Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz.
- 6. Schaltungsanordnung nach Anspruch 5, gekennzeichnet durch eine Mehrzahl Paare abstimmbarer elektronischer Filter (FT , FI2 ···)* die in Kaskade geschaltet sind, wobei jedes Paar Filter auf die niedrigste Formantfrequenz ansprechen kann, die in der zugeführten Sprach-ISingangs information enthalten ist, unü wobei die Mittenfrequenz jedes Paars abstimmbarer Filter durch ein extern angelegtes Signal eingestellt werden kann, daß die Analysiereinrichtung gesonderte Schaltkreis-Einheiten aufweist, die den einzelnen Paaren der abstimmbaren elektronischen Filter zugeordnet sind, so daß ein Signal erzeugt wird, das der Abweichung der Formantfrequenz von der jeweiligen Mittenfrequenz entspricht,/aaß die Steuereinrichtung gesonderte Einheiten aufweist, die mit den entsprechenden Analysier-Schaltkreis-Einheiten so verbunden sind, daß ein Steuersignal in Abhängigkeit von dem Analysier-Ausgangssignal erzeugt und dieses Steuersignal an das entsprechende Paar abstimmbarer elektronischer Filter geliefert wird, um die Mittanfrequenz des jeweiligen Paars abstimmbarer Filter fortlau-409848/0809fend so einzustellen, daß Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz eingestellt und aufrechterhalten und somit die Formantfrequenz wirksam verfolgt wird, wobei das Ausgangssignal der jeweiligen Steuerkreiseinheit für die Formantfrequenz repräsentativ ist.
- 7. Schaltungsanordnung nach Anspruch 6, gekennzeichnet durch Schaltkreis-Kopplungsmi'ttel (Fl, F2 ...), um die jeweiligen Paare abstimmbarer elektronischer Filter so zu koppeln, daß die Formantfrequenz-Information, die von dem vorhergehenden Paar abstimmbarer elektronischer Filter überwacht wird, an einer Speisung des nachfolgenden Paars abstimmbarer elektronischer Filter gehindert wird.
- 8. Schaltungsanordnung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß ein Paar der abstimmbaren elektronischen Filter (PT), das in die Kaskadenanordnung der Mehrzahl Filtereinrichtungen geschaltet ist, auf die Stimmhöhenfrequenz der Sprach-Eingangsinformation ansprechen und ein damit übereinstimmendes Ausgangssignal erzeugen kann, daß eine zugehörige Analysierkreiseinheit mit dem Paar abstimmbarer elektronischer Filter so verbunden ist, daß ein Ausgangssignal erzeugt wird, das der Abweichung der Stimmhöhenfrequenz von der einstellbaren Mittenfrequenz des Paars abstimmbarer aktiver Filter entsprächt, und daß die zugeordnete Steuerkreiseinheit zwischen die Analysierkreiseinheit und das Paar abstimmbarer aktiver Filter geschaltet ist, um auf das Ausgangssignal der Analysiereinrichtung anzusprechen und ein Steuersignal zu erzeugen, das einem Paar abstimmbarer elektronischer Filter so zugeführt wird, daß es zu einer Einstellung der Mittenfrequenz derart kommt, daß sie im wesentlichen der Stimmhöhenfrequenz entspricht.
- 9. Schaltungsanordnung nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, daß jede Steuerkreiseinheit als Rückkopplungskreis arbeitet, um die entsprechende Formantfrequenz wirksam zu verfolgen und zwischen der Mittenfrequenz des entsprechenden409848/0809Paars abstimmbarer elektronischer Filter und der entsprechenden Formantfrequenz Koinzidenz aufrechtzuerhalten, wobei die von der jeweiligen Steuerkreiseinheit für das jeweilige abstimmbare elektronische Filter erzeugten Ausgangssignale für die jeweiligen Formantfreq.uenzen der Sprach-Eingangs in formation repräsentativ sind und die Kaskadenanordnung der Paare - abstimmbarer elektronischer Filter augenblicklich Information liefert, die dem Formantgehalt der Sprach-Eingangsinformation entspricht: ·
- 10. Schaltungsanordnung nach einem der Ansprüche 6-9, dadurch gekennzeichnet, daß jedes der Paare abstimmbarer elektronischer Filter einen einstellbaren Q-Wert und entsprechende Einrichtungen hat, um auf den Koinzidenzzustand zwischen der Formantfrequenz und der Mittenfrequenz durch Erhöhung des Q-Werts des zugeordneten Paars abstimmbarer elektronischer Filter anzusprechen.
- 11. Schaltungsanordnung nach einem der Ansprüche 7-10, gekennzeichnet durch eine Einrichtung zur Signalverarbeitung der Formantfrequenz-Information von den Paaren abstimmbarer elektronischer Filter, um die erfaßten Formantfrequenzen mit ein vorgegebenes Muster aufweisender gespeicherter Information zu vergleichen.KN/hs/jn 3409348/0809/9Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/358,427 US3989896A (en) | 1973-05-08 | 1973-05-08 | Method and apparatus for speech identification |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2422028A1 true DE2422028A1 (de) | 1974-11-28 |
DE2422028C2 DE2422028C2 (de) | 1986-01-16 |
Family
ID=23409610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2422028A Expired DE2422028C2 (de) | 1973-05-08 | 1974-05-07 | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort |
Country Status (7)
Country | Link |
---|---|
US (1) | US3989896A (de) |
JP (1) | JPS5416361B2 (de) |
CA (1) | CA1013857A (de) |
DE (1) | DE2422028C2 (de) |
FR (1) | FR2229109B1 (de) |
GB (1) | GB1470438A (de) |
SE (1) | SE398681B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3305045A1 (de) * | 1983-02-14 | 1984-08-16 | Siemens AG, 1000 Berlin und 8000 München | Anordnung zur bestimmung der sprachgrundfrequenz |
CN117690439A (zh) * | 2024-01-31 | 2024-03-12 | 国网安徽省电力有限公司合肥供电公司 | 一种基于营销场景的语音识别语意理解方法及系统 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5719132B2 (de) * | 1974-06-13 | 1982-04-21 | ||
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
US4692117A (en) * | 1982-08-03 | 1987-09-08 | Goodwin Allen W | Acoustic energy, real-time spectrum analyzer |
AU2944684A (en) * | 1983-06-17 | 1984-12-20 | University Of Melbourne, The | Speech recognition |
US4773093A (en) * | 1984-12-31 | 1988-09-20 | Itt Defense Communications | Text-independent speaker recognition system and method based on acoustic segment matching |
JPH0638199B2 (ja) * | 1985-09-02 | 1994-05-18 | 日本電気株式会社 | 音声認識装置 |
EP0245252A1 (de) * | 1985-11-08 | 1987-11-19 | MARLEY, John | Einrichtung und verfahren zur spracherkennung mit grundfrequenzsynchroner merkmalauswahl |
US4843377A (en) * | 1987-04-21 | 1989-06-27 | Guardian Technologies, Inc. | Remote confinement system |
US4999613A (en) * | 1987-04-21 | 1991-03-12 | Guardian Technologies, Inc. | Remote confinement system |
DE3720882A1 (de) * | 1987-06-24 | 1989-01-05 | Media Control Musik Medien | Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen |
US4996161A (en) * | 1987-10-16 | 1991-02-26 | Guardian Technologies, Inc. | Breath alcohol testing system |
JP2504171B2 (ja) * | 1989-03-16 | 1996-06-05 | 日本電気株式会社 | 声門波形に基づく話者識別装置 |
US5214708A (en) * | 1991-12-16 | 1993-05-25 | Mceachern Robert H | Speech information extractor |
US5457769A (en) * | 1993-03-30 | 1995-10-10 | Earmark, Inc. | Method and apparatus for detecting the presence of human voice signals in audio signals |
US5471527A (en) | 1993-12-02 | 1995-11-28 | Dsc Communications Corporation | Voice enhancement system and method |
US5897614A (en) * | 1996-12-20 | 1999-04-27 | International Business Machines Corporation | Method and apparatus for sibilant classification in a speech recognition system |
US7272375B2 (en) | 2004-06-30 | 2007-09-18 | Silicon Laboratories Inc. | Integrated low-IF terrestrial audio broadcast receiver and associated method |
US20140207456A1 (en) * | 2010-09-23 | 2014-07-24 | Waveform Communications, Llc | Waveform analysis of speech |
US9437213B2 (en) | 2012-03-05 | 2016-09-06 | Malaspina Labs (Barbados) Inc. | Voice signal enhancement |
US9015044B2 (en) * | 2012-03-05 | 2015-04-21 | Malaspina Labs (Barbados) Inc. | Formant based speech reconstruction from noisy signals |
US9384759B2 (en) | 2012-03-05 | 2016-07-05 | Malaspina Labs (Barbados) Inc. | Voice activity detection and pitch estimation |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2019280B2 (de) * | 1969-04-24 | 1979-02-15 | The Plessey Co. Ltd., Ilford, Essex (Grossbritannien) | Elektrische Schaltungsanordnung zur Sprachsignalanalyse |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2575910A (en) * | 1949-09-21 | 1951-11-20 | Bell Telephone Labor Inc | Voice-operated signaling system |
US2819341A (en) * | 1954-09-30 | 1958-01-07 | Bell Telephone Labor Inc | Transmission and reconstruction of artificial speech |
US2857465A (en) * | 1955-11-21 | 1958-10-21 | Bell Telephone Labor Inc | Vocoder transmission system |
GB862132A (en) * | 1958-12-17 | 1961-03-01 | Nippon Electric Co | Frequency discrimination system of voice formant |
US3423530A (en) * | 1965-03-26 | 1969-01-21 | Melpar Inc | Speech synthesizer having q multiplier |
US3437757A (en) * | 1966-06-15 | 1969-04-08 | Bell Telephone Labor Inc | Speech analysis system |
US3509280A (en) * | 1968-11-01 | 1970-04-28 | Itt | Adaptive speech pattern recognition system |
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
DE2143560C3 (de) * | 1971-08-31 | 1974-07-04 | Hewlett-Packard Gmbh, 7030 Boeblingen | Filteranordnung |
-
1973
- 1973-05-08 US US05/358,427 patent/US3989896A/en not_active Expired - Lifetime
-
1974
- 1974-04-22 GB GB1751074A patent/GB1470438A/en not_active Expired
- 1974-04-29 SE SE7405696A patent/SE398681B/xx not_active IP Right Cessation
- 1974-05-06 CA CA198,990A patent/CA1013857A/en not_active Expired
- 1974-05-07 DE DE2422028A patent/DE2422028C2/de not_active Expired
- 1974-05-08 FR FR7415846A patent/FR2229109B1/fr not_active Expired
- 1974-05-08 JP JP5035674A patent/JPS5416361B2/ja not_active Expired
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2019280B2 (de) * | 1969-04-24 | 1979-02-15 | The Plessey Co. Ltd., Ilford, Essex (Grossbritannien) | Elektrische Schaltungsanordnung zur Sprachsignalanalyse |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3305045A1 (de) * | 1983-02-14 | 1984-08-16 | Siemens AG, 1000 Berlin und 8000 München | Anordnung zur bestimmung der sprachgrundfrequenz |
CN117690439A (zh) * | 2024-01-31 | 2024-03-12 | 国网安徽省电力有限公司合肥供电公司 | 一种基于营销场景的语音识别语意理解方法及系统 |
CN117690439B (zh) * | 2024-01-31 | 2024-04-16 | 国网安徽省电力有限公司合肥供电公司 | 一种基于营销场景的语音识别语意理解方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
FR2229109B1 (de) | 1978-08-11 |
USB358427I5 (de) | 1976-02-03 |
CA1013857A (en) | 1977-07-12 |
DE2422028C2 (de) | 1986-01-16 |
SE398681B (sv) | 1978-01-09 |
JPS5416361B2 (de) | 1979-06-21 |
US3989896A (en) | 1976-11-02 |
FR2229109A1 (de) | 1974-12-06 |
GB1470438A (en) | 1977-04-14 |
JPS5017503A (de) | 1975-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2422028A1 (de) | Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort | |
DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
DE3306730C2 (de) | ||
EP1405222B9 (de) | Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals | |
DE2844156C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE3645118C2 (de) | ||
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
EP0296588A2 (de) | Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE4031638C2 (de) | ||
EP1407446A1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE3733391C2 (de) | ||
EP0508547A2 (de) | Schaltungsanordnung zur Spracherkennung | |
DE1194170B (de) | Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE1547027C3 (de) | Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen | |
DE4325404A1 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
DE1422056A1 (de) | Phonetische Schreibmaschine | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction | |
DE4435272C2 (de) | Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung | |
DE2448908C3 (de) | Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung | |
DE3200645C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |