DE2422028A1 - Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort - Google Patents

Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort

Info

Publication number
DE2422028A1
DE2422028A1 DE2422028A DE2422028A DE2422028A1 DE 2422028 A1 DE2422028 A1 DE 2422028A1 DE 2422028 A DE2422028 A DE 2422028A DE 2422028 A DE2422028 A DE 2422028A DE 2422028 A1 DE2422028 A1 DE 2422028A1
Authority
DE
Germany
Prior art keywords
frequency
formant
tunable
filter
filters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2422028A
Other languages
English (en)
Other versions
DE2422028C2 (de
Inventor
Heribert J Reitboeck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CBS Corp
Original Assignee
Westinghouse Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Westinghouse Electric Corp filed Critical Westinghouse Electric Corp
Publication of DE2422028A1 publication Critical patent/DE2422028A1/de
Application granted granted Critical
Publication of DE2422028C2 publication Critical patent/DE2422028C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition

Description

DiPL-ING. KLAUS NEUBECKER
Patentanwalt
4 Düsseldorf 1 · Schadowplatz 9
. Düsseldorf, 6. Mai 1974 44,370
7459 * ■
Westinghouse Electric Corporation
Pittsburgh, Pa., V. St. A.
Schaltungsanordnung zur Identifizierung einer Formantfreguenz in einem gesprochenen Wort
Die vorliegende Erfindung bezieht sich allgemein auf automatische Wort- oder Stimmenerkennungssysteme und insbesondere auf Schaltungen zum Aussieben charakteristischer Sprachmerkmale.
Es besteht derzeit ein Bedürfnis für automatische Sprecheridentifizierungs- und automatische Worterkennungssysterne. Der Markt für Sprecheridentifizierungssysteme umfaßt Sicherheitssysteme, Kredit-Verkauf svorgänge, Computerdatenzugang, Bankaktivitäten und gesetzliche Vollziehungsmaßnahmen. Jüngste Untersuchungen haben bestätigt, daß Stimmenabdruck-Identifizierung sich ausreichend zuverlässig als gesetzliches Beweisend.ttel einsetzen läßt. Der Vorzug eines Stimmen-"Abdrucks" gegenüber anderen Verfahren wie Finger-. abdruck-Identifizierung besteht darin, daß bestehende Telefonleitungen für die Übermittlung der Information in Verbindung mit einem billigen Mikrofon und ohne die Notwendigkeit einer teuren Umsetzerausrüstung an der Empfangsstelle verwendet werden können.
Der Markt für Worterkennungssysteme umfaßt Materialhandhabungsvorgänge, Postsortierung, Herstellungskontrolle, automatische überprüfung in Supermärkten,stimmbetätigte Schalter. Der Einsatz gesprochener Daten in den Bereichen der Materiälhandhabung, Post-
409848/0809
sortierung, Herstellungskontrolle sowie der automatischen Supermarktüberprüfung macht für die zuständigen Überwachungspersonen den Weg für die Ausführung anderer Aufgaben frei. Die mögliche Verwendung der Spracherkennung für die Computerdateneingabe ist besonders reizvoll, da es dadurch möglich würde, einen Computer mit Hilfe natürlicher Sprachen zu programmieren und somit die Notwendigkeit, eine-spezielle Sprache für den Computer zu entwickeln, zu eliminieren. Somit könnten Personen, die keine Kenntnis bezüglich der Bedienung des Computers hätten, Computereingabedaten liefern.
Ein Spracherkennungssystem muß drei Grundfunktionen ausführen können:
1. Extraktion oder Aussiebung charakteristischer Merkmale des Sprechsignals, um den sehr großen Informationsgehalt des Spreqhsignals auf die Grundinformation zu reduzieren, die noch ausreicht, um den Sprecher zu identifizieren und/oder den Sprachgehalt zu erkennen?
2. es muß in irgendeiner Weise für eine Zeitachsen-Normierung gesorgt werden, d. h., es muß ein als Phonemji bekanntes Sprach-Grundelernent auf eine standardisierte Dauer zusammengezogen oder gedehnt werden, so daß das Wort zur Obereinstimmung mit gespeicherter Information gebracht und unabhängig davon erkannt werden kann, wie schnell es gesprochen wurde oder ob Teile davon betont wurden?
3. die normierten Wörter müssen mit einer Reihe oder Gruppe gespeicherter Wörter verglichen und es muß dann die beste Übereinstimmung angegeben werden.
Bei derzeitigen Spracherkennungssystem werden charakteristische Merkmale über eine Fourieranalyse oder eine Zeit-Reihenanalyse der Sprechkurve bzw. des Sprechsignals extrahiert oder ausgesiebt. Ein nachfolgender Algorithmus sorgt tibearlicherweise für eine Phoneme-Segmentierung und eine Zeitachsen-Normierung. Für Echtzeit-Betrieb erfordern solche Systeme eine beträchtliche Berechnungsleistung, die im allgemeinen von einem Computer voller Größe, zusätzlich zu
409848/0809
der Vorbehandlungsausrüstung wie Filtergruppen oder Austast- und Zeitbestimmungseinrichtungen, geliefert werden muß. Für die meisten infrage kommenden Anwendungen liegen die Kosten solcher Systeme außerhalb eines wirtschaftlich vertretbaren Bereichs.
Aufgabe vorliegender Erfindung ist die Schaffung eines verhältnismäßig einfachen und wirksamen Worterkennungssystems unter Einhaltung eines wirtschaftlich vertretbaren Bereichs.
Zur Lösung dieser Aufgabe ist eine Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort erfindungsgemäß gekennzeichnet durch ein abstimmbares elektronisches Filter, das einstellbare Mittelfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen Wortes ansprechen ,kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals des Filters und zur Ermittlung, ob eine Formantfrequenz anwesend ist, sowie durch eine zwischen die Analysiereinrichtung und das Filter geschaltete Steuereinrichtung zur Erzeugung eines Steuersignals für die Einstellung der Mittelfrequenz des Filters so, daß jede im wesentlichen mit der Frequenz des Formanten zusammenfällt.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen in Verbindung mit der zugehörigen Zeichnung erläutert. In der Zeichnung zeigen:
Fig. 1 schematisch eine Darstellung eines Formant-
folgers entsprechend einem Ausführungsbeispiel der Erfindung;
Fig. 2-4 Darstellungen verschiedener Filter-Betriebsarten ;
409848/0809
-A-
Fig. 5 und 6 Darstellungen des Frequenz-Ansprechens
abstimmbarer aktiver Filter des Ausführungsbeispiels der Fig. 1;
Fig. 7 eine Darstellung der Arbeitsweise einer ab
gewandelten Ausführung der Schaltung nach Fig. 1;
Fig. 8 eine Darstellung der Folge-Arbeitsweise der
■ Schaltung der Fig. 1;
Fig. 9 schematisch eine Darstellung einer Kombination
von FormanttrSgern entsprechend Fig. 1; und
Fig. 10 eine Frequenz-/Zeitaufzeichnung eines Sono-
gramms.
Das Kurzzeit-Energiespektrum von Vokalen und stimmhaften Konsonanten weist charakteristische Frequenzscheitel auf, die durch die Hohlräume des Vokaltrakts hervorgerufen werden, wenn dieser durch Schallschwingungen von den Stimmbändern angeregt wird. Diese Frequenzscheitel werden Formanten genannt. Ihre Lage und ihre zeitlichen Änderungen können als Merkmale für die Charakterisierung von stimmhaften Phonemen und zur Identifizierung einer sprechenden Person ausgewertet werden.
Das Spektrum der Vokale und stimmhaften Konsonanten enthält üblicherweise bis zu fünf Frequenzscheiteln, entsprechend der Stimmhöhenfrequenz und vier Formantfrequenzen. Während die Stimmhöhen-
409848/0809
frequenz und die ersten drei Formantfrequenzen normalerweise für die Sprecheridentifizierung ausgewertet werden, kann die Auswertung der drei Formantfrequenzen allein allgemein genügend Information für die Identifizierung stimmhafter Phoneme liefern.
Der Frequenzbereich für Stimmhöhen-: und Formantfrequenzen ist für eine durchschnittliche männliche Person:
Stimmhöhe Formant PF 60 » 240 Hz
1. Formant F1 150 » 850 Hz
2. Formant F2 500 » 2500 Hz
3. Formant F3 1500 —> 3500 Hz
4. P1 2500 » 4500 Hz
Die Stimmhöhenfrequenzen weiblicher Sprecher sind annähernd eine Oktave höher, und ihre Formantfrequenzen liegen etwa 17 % höher als die männlicher Sprecher.
Es wird unter Bezugnahme auf das veranschaulichte bevorzugte Ausführungsbeispiel ein einfaches und billiges Verfahren zur Sprecheridentifizierung und Worterkennung erläutert, wobei die Stimmhöhe zusammen mit der Frequenz einer vorgegebenen Anzahl der niedrigsten spektralen Scheitel (Formanten) ausgewählt und die Frequenzen ermittelt und verfolgt werden. Das System verwendet elektronisch abstimmbare aktive Filter mit veränderlicher Bandbreite und Mittenfrequenz, um einen bestimmten Formanten "festzulegen" und dessen Ablenkungen zu.folgen. Entsprechend einem bestimmten Ausführungsbeispiel werden vier Paare elektronisch abstimmbarer aktiver Filter verwendet, um die Stimmhöhe der gesprochenen Information sowie die ersten drei Formanten "festzulegen" bzw. zu "verriegeln". Die Steuerspannung der Filter, die der Formantfrequnez entspricht, liefert ein einfaches Verfahren zur Charakterisierung der gesprochenen Wortelemente.
Um die.Sprachmerkmale zu klassifizieren, kann das System mit einem im Hinblick auf den Gehalt addressierbaren Halbleiterspeicher und einer Klassifizierungs-Matrix verwendet werden, wie sie in der US-Patanm. Ser. No. 293,241 vom 28.9.72 mit dem Titel "Radar
409848/0809
Identification System" beschrieben werden, die auf die gleiche Anmelderin wie die vorliegende Anmeldung zurückgeht. Die charakteristischen Eigenschaften des Worts werden mit der in dem Speicher und der Klassifizierungs-Matrix gespeicherten Information verglichen, bis ein Wort ausgewählt wird, das mit den Merkmalen des gesprochenen Worts am besten übereinstimmt. Beide diese Subsysteme, nämlich der Formantenfolger und die Klassifizierungs-Matrix, eignen sich für die Fertigung im Rahmen von LSI (large scale integration) -Verfahren. Diese Lösung beinhaltet die Möglichkeit, Sprecheridentifizier ungs- und Vokabularwort-Erkennungssysteme in einen für den Verbrauchermarkt attraktiven Preisbereich zu bringen.
Im einzelnen läßt Fig. 1 einen allgemein mit 10 bezeichneten Formantfolger mit elektronisch abstimmbaren Filtern 20 und 30 er- . kennen. Elektronisch abstimmbare Filter, die sich für die Schaltungsanordnung nach Fig. 1 eigenen würden, können beispiels^ weise von Aktivfiltern Modell FS-50 gebildet sein, wie sie in den V. St. A. von Kinetic Technology, Inc. geliefert werden.
Das im Handel erhältliche elektronisch abstimmbare aktive Filter entsprechend den Filtern 20, 30 der Fig. 1 liefert Hochpass-, Tiefpass- und Bandpass-Übergangsfunktionen und besitzt Vorspannungs-Input-Fähigkeiten, um eine Einstellung der Mittenfrequenz und des Q-Werts des Filters zu ermöglichen. Die Einstellung der Mittenfrequenz und des Q-Werts des Filters erfolgt durch extern veränderliche Impedanzeinrichtungen, die in Fig. 1 schematisch als Feldeffekttransistoren 23 und 33 dargestellt worden sind, um die Mittenfrequenz der Filter 20 bzw. 30 einzustellen, bzw. als Feldeffekttransistoren 24 und 34 für die Einstellung des Q-Werts der einstellbaren Filter 20 bzw. 30. Die Einstellung der Mittenfrequenz und des Q-Werts der abstimmbaren Filter erfolgt durch Änderung der den entsprechenden Feldeffekttransistoren zugeführten Vorspannung. Geeignete Ergebnisse ließen sich auch unter Verwendung von Analogvervielfachern anstelle der Feldeffekttransistoren erzielen.
Bei dem Ausführungsbeispiel nach Fig. 1 sind die Filter 20 und 30 in einer Bandpass-Betriebsart angeschlossen, wobei das abstimmbare
409848/0809
' ' - 7 Filter 20 auf die Sprach-Eingangsinformation, die den Frequenzgehalt entsprechend f -^f aufweist, und das abstimmbare Filter 30 . auf Sprach-Eingangsinformation, die die Frequenz im Bereich f + Af. aufweist, anspricht.
in der nachstehenden Erläuterung des Einsatzes der abstimmbaren aktiven Filter für die Analyse der Sprachinformation vird zwar auf die spezielle Ausführung nach Fig. 1 Bezug genommen, bei der beide Filter in einer Bandpass-Betriebsart angeschlossen sind, jedoch ist darauf hinzuweisen, daß die Verfahren sich in gleicher Weise auch für jede Kombination von Tiefpass-, Bandpass- und Hochpass-Betriebsarten des Paares abstimmbarer Filter einsetzen läßt.
Mit Fig. 2 ist die Abhängigkeit der Amplitude von der Frequenz für ein abstimmbares aktives Filter wiedergegeben, das in einer · Bandpass-Betriebsart arbeitet, während Fig. 3 die Tiefpass-Betriebsart und Pig. 4 die Hochpass-Betriebsart veranschaulichen. Die gestrichelten Linien in Fig. 2 und 3 entsprechen Filtern, deren Q-Wert gegenüber dem hohen Q-Wert, wie er mit den durchgehenden Linien angedeutet ist, verhältnismäßig niedrig ist. Fig. 5 veranschaulicht die Arbeitsweise eines Formantfolgers 10 nach Fig. 1, wobei sowohl das abstimmbare Filter 20 als auch das abstimmbare Filter 30 in einer Bandpass-Betriebsart arbeiten. Der Kurvenzug A repräsentiert dabei das abstimmbare Filter 20, während der Kurvenzug B das abstimmbare Filter 30 repräsentiert. Wenn die Sprach-Eingangsinformation einen Formanten F innerhalb des bestimmten Frequenzbereichs der Filter 20 und 30 enthält, so ist das Ansprechen des Filters 20 entweder größer oder kleiner als das des Filters 30, je nachdem, ob die Formantfrequenz F niedriger oder höher als die Mittenfrequenz f_ ist. Der Bandpass-Ausgang des Filters 20 wird durch einen'Gleichrichter 4Ό gleichgerichtet, so daß ein Summierer 42 ein Eingangssignal einer ersten Polarität enthält, während der Bandpass-Ausgang des Filters 30 durch einen Gleichrichter 44 gleichgerichtet wird, so daß der Summierer 42 ein Eingangssignal entgegengesetzter Polarität erhält. Wenn der in der Sprach-Eingangsinformation enthaltene Formant F nicht wie in Fig. 5 veranschaulicht mit der Frequenz fQ zusammenfällt, so weichen
409848/0809
die Bandpass-Ausgangssignale der Filter 20 und 30 hinsichtlich ihrer Größe voneinander ab, so daß die von den Gleichrichtern und 44 gelieferten Eingangssignale entgegengesetzter Polarität eine ungleiche Größe bzw. Amplitude haben. Der Summierer 42 liefert einem Integrator 50 ein Eingangssignal, der der Nettodifferenz zwischen den Bandpass-Ausgangssignalen der Filter 20 und 30 entspricht. Das vom Summierer 42 erzeugte Signal wird durch den Integrator 50 integriert, der seinerseits ein Ausgangssignal erzeugt, das zur Steuerung der Leitfähigkeit der Feldeffekttransistoren und 33 ausgewertet wird, um die Mittenfrequenz der Filter 20 bzw. 30 einzustellen; Das Ausgangssignal des Integrators 50 sorgt für eine Verschiebung der Mittenfrequenz der jeweiligen Filter in eine solche Richtung, daß es zu einem Zusammenfallen zwischen der Mittenfrequenz f und dem Formanten F kommt, wie das in Fig. 6 veranschaulicht ist. Wenn dieser Zustand des Zusammenfallens oder der Koinzidenz erzielt worden ist, so sind die Bandpass-Ausgangssignale der Filter 20 und 30 gleich, so daß das Ausgangssignal des Summierers 42 auf Null absinkt und somit das Ausgangssignal des Integrators 50 konstant bleibt. Die Größe des Ausgangssignals des Integrators 50 ist somit repräsentativ für den Formanten F der Sprach-Eingangsinformation, wobei dieses Ausgangssignal durch einen Analogschalter 60 an eine Signalverarbeitungsschaltung S weitergeleitet wird. Die Signalverarbeitungsschaltung S kann einen Aufbau haben, wie er in der vorerwähnten üS-Patanm. Ser. No. 293,241 beschrieben ist. Wenn die Frequenz des Formanten F sich ändert, arbeiten die beiden abstimmbaren Filter 20 und 30 wiederum so, daß die Mittenfrequenz f in Koinzidenz mit dem Formanten F gehalten und der Formant F durch die Rückkopplungswirkung des Integrators 50 wirksam unter Kontrolle gehalten bzw. verfolgt wird. Die Arbeitsweise eines mit einer Kombination aus einem Tiefpass-Filter und einem Bandpass-Filter arbeitenden Nachfolgekreises ist mit Fig. 7 wiedergegeben. Wiederum spricht der Kreis auf die Abweichung der Formantfrequenz F von der Frequenz f an, indem die Mittenfrequenz der Filter so eingestellt wird, daß sie mit dem Formanten F zusammenfällt.
409848/0809
Die Arbeitsweise des Formantenfolgers 10 nach Fig. 1 ist mit Fig. 8 veranschaulicht. Der mit A bezeichnete Teil der Formantenfolge-Kurve veranschaulicht die Zeitverzögerung im Schaltkreis vor dem Erreichen des Formanten F, während der mit B bezeichnete Teil der Kurve die Abfallzeit des Formantenfolgers wiedergibt, die sich an den Abschluß der Verfolgung eines bestimmten Formanten F anschließt. Um die mit A bzw. B bezeichneten Teile der Kurve zu eliminieren und damit zu verhindern, daß diese mit der dem Formanten F entsprechenden Information an die Signalverarbeitungsschaltung übertragen v/erden, wird der Ausgang des Integrators 50 über den Analogschalter 60 weitergeleitet. Der Analogschalter 60 befindet sich im für die Übertragung des Ausgangs von dem Integrator 50 geeigneten geöffneten Zustand nur dann, wenn ein Bandpass-Ausgang des Filters 30 ein vorgegebenes Niveau V f überschreitet, das durch eine Vergleicherschaltung 62 vorgegeben ist.
Der Q-Wert der Filter 20 und 30 wird durch ein Vorspannungssignal gesteuert, das dem Ausgang des Summierers 42 entspricht und die Feldeffekttransistoren 24 bzw. 34 beaufschlagt. Die Wirkung der Veränderung des Q-Werts des Filters, wie das mit Fig. 2, 5 und 6 veranschaulicht ist, geht dahin, daß ein niedriger Q-Wert die .Bandbreite des Filters erhöht, während ein hoher Q-Wert die Bandbreite des Filters herabsetzt. Um Formanten kompensieren zu können, die außerhalb des Ansprechbereichs der Filter 20 und 30 auftreten, wie das mit den Formanten F1 der Fig. 5 gezeigt ist, wird ein Teil des Tiefpass-Ausgangs des Filters 20, der durch einen veränderlichen Widerstand 64 gesteuert und durch eine Diode 66 gleichgerichtet wird, als Eingangssignal an den Summierer 42 geliefert. Das Tiefpass-Eingangssignal dient als Vorspannungssignal, um den Formanten F1 in den Ansprechbereich der Filter zu verschieben, wie das mit den Pfeilen in Fig. 5 angedeutet ist.' Die obige Beschreibung veranschaulicht die Arbeitsweise eines Formantenfolgers für das Ermitteln und Verfolgen eines bestimmten Formanten von Sprach-Eingangsinformation. Wie oben schon angedeutet, ist es jedoch zur Klassifizierung und Identifizierung eines gesprochenen Wortes oder eines bestimmten Sprechers notwendig, mehrere Formanten innerhalb eines gesprochenen Wortes zu analysieren, so daß
409848/0809
zusätzliche Formantfolger der mit Fig. 1 gezeigten Art notwendig sind. So zeigt Fig. 9 eine Kaskadenanordnung von Formantfolgern, die jeweils den mit Fig. 1 gezeigten Aufbau haben.
Um zu verhindern, daß zwei oder mehr Formantfolger bezüglich desselben Formanten verriegelt werden, wird ein spezieller Aufbau verwendet, der diejenige Frequenzspitze, auf die ein bestimmter Formantfolger sich abstimmt, aus dem Sprachspektrum entfernt, das durch die nachfolgenden Formantfolger analysiert werden soll. Das erfolgt durch Zufuhr der Sprach-Eingangsinformation der ersten Stufe unmittelbar zu dem nichtinvertierenden Eingang des Operationsverstärkers 70 und der Bandpass-Ausgänge der Filter 20 und 30, die durch Verstärker 67 und 68 verstärkt werden, zu dem invertierenden Eingang des Operationsverstärkers 70. Das Eingangssignal für den invertierenden Eingang des Verstärkers 70 repräsentiert den spektralen Gehalt der Sprach-Eingangsinformatiön, der sich innerhalb des Bandpass-Übertragungsbereichs f + ΔΡ der Bandpass-Ausgänge der Filter 20 und 30 befindet. Der Verstärker 70 subtrahiert diesen spektralen Gehalt von der Spräch-Eingangsinformation und liefert den von den Filtern 20 und 30 nicht verarbeiteten Teil der Sprach-Eingangsinformation entsprechend Fig. 9 an eine zweite Formantfolgestufe. In der zweiten Stufe wird der Ausgang bzw. das Ausgangssignal des Operationsverstärkers 70 der ersten Stufe gleichzeitig sowohl dem Formentfolger der zweiten Stufe als auch dem nichtinvertierenden Eingang des Operationsverstärkers der zweiten Stufe zugeführt. Der Ausgang des Formantfolgers 10 der zweiten Stufe beaufschlagt den invertierenden Eingang des Operationsverstärkers 70 der zweiten Stufe. Dieses System der gegenseitigen Verbindung untereinander wird über die ganze Reihe Formantfolger eingehalten, wie das in Fig. 9 gezeigt ist. Bei diesem Schema gegenseitiger Verbindung wirkt jede Stufe als dynamisches Einschnittfilter, um den speziellen Formanten, auf den es abgestimmt ist, aus dem Eingang zu den nachfolgenden Stufen zu entfernen.
Damit die Schaltkreise der Anordnung nach Fig. 9 in einer vorgegebenen Reihenfolge arbeiten, so daß der erste Schaltkreis PT den
409848/0809
Stimmhöhenabweichungen folgt, der zweite Schaltkreis FT1 dem Formanten F1 folgt, der dritte Schaltkreis FT3 dem zweiten Forman-ten F2 folgt und der vierte Schaltkreis FT3 dem Formanten F3 folgt, wird jeder Folger mit einer Vorspannung beaufschlagt, so daß er auf den Scheitel- der niedrigsten Frequenz der ihm zugeführten Eingangsinformation anspricht. Dies erfolgt wie in Fig. 1 gezeigt dadurch, daß ein Teil des gleichgerichteten Tiefpass-Ausgangssignals des Filters 20 zusammen mit den Bandpass-Ausgangssignalen der Filter 20 und 30 dem Summierer 42 zugeführt wird. Die Größe der Vorspannung wird durch ein Potentiometer 64 eingestellt. Es sorgt dafür, daß der Summierer 42 solange ein Ausgangssignal abgibt, wie das Filter nicht auf den in dem Spektrum enthaltenen Scheitel der niedrigsten Frequenz zentriert ist.
Wie oben erwähnt, ist der Q-Wert der Filter 20 und 30 ursprünglich niedrig, so daß der Scheitel der Frequenz, auf die sie ansprechen, in ihre Bandbreite fällt. Es ist daher keine Abtast-Betriebsart der Filter 20 und 30 notwendig, um spektrale Scheitel zu finden. Wenn der Formantfolger 10 sich bezüglich eines Frequenz scheite Is verriegelt, steigt ein Bandpass-Ausgangssignal an, und diese Spannung bewirkt ihrerseits eine Zunahme des Q-Werts der Filter über die Feldeffekttransistoren 24 und 34, bis eine minimale Bandbreite von beispielsweise zwischen 100 und 200 Hz erreicht wird. Das Nachlaufen oder Folgen des Formantfolgers 10 geschieht so, daß die Auflösung auf zwei Formanten möglich ist, die zusammenfallen. Ein Formantfolger wirkt dahingehend, daß er der Kante niedriger Frequenz dieses Formanten folgt und ein 100 oder 200 Hz breites Band des Spektrums entfernt, während die andere Folgerstufe der verbleibenden oder oberen Hälfte des breiten Frequenzscheitels folgt.
Wie in Fig. 9 angedeutet, liefert jeder der Folgerkreise eine Ausgangssignal, das dem Ausgang des entsprechenden Integrierkreises jedes Folgerkreises entspricht. Dieses Ausgangssignal ist repräsentativ für den Formanten, der durch den entsprechenden Folgerkreis verfolgt wird, und wird anschließend an die Signalverarbeitungskreise zum Vergleich mit den Ausgängen aller anderen Formant-
409848/0809
folger geliefert, um Information zur Identifizierung des gesprochenen Worts oder des individuellen Sprechers zu liefern. Entsprechend der oben erwähnten zugehörigen Anwendung können entfernte Sif£gnalverarbeitungsschaltungen eingesetzt werden, wobei die Ausgangssignale der Formantfolger gekennzeichnet und mit gespeicherter Information, die ein Vokabular gesprochener Wörter repräsentiert, verglichen werden. Eine Analyse der Formantfolger-Ausgangssignale im Verhältnis zur gespeicherten Information liefert eine Anzeige der besten Übereinstimmung zwischen der Formantfolger-Ausgangsinformation und der gespeicherten Information. Dadurch werden die in dem Signalverarbeitungskreis gespeicherten Merkmale des gesprochenen Worts oder des Sprechers identifiziert, die der den Formantfolgerkreisen zugeführten Sprach-Eingangsinformationen am nächsten kommen.
Der Formantfolger 10 ist nicht nur in der Lage, die Formantstruktur von Vokalen zu extrahieren oder auszuschalten, sondern er zeigt auch charakteristische Formantpositionen in stimmhaften Konsonanten auf. Die nasalen Konsonanten m, n,rj , die Gleitlaute w, j, die Halbvokale x, 1, und die stimmhaften Reiblaute ν, «Χ , z'3 weisen alle eine charakteristische Formantenstruktur auf, und in den stimmhaften Sprenglauten b, d, g ist der zweite Formantenübergang das Hauptmerkmal, das sie gegenüber den stimmlosen Sprenglauten p, t, k unterscheidet.
Für Spracherkennungssysteme, die ein Vokabular von etwa 10 bis 20 Wörtern verarbeiten oder einen unter einer kleinen Anzahl Sprecher identifizieren können, liefern die Formantfrequenzen (und zur Sprecheridentifizierung auch die Stimmhöhenfrequenz) genügend charakteristische Merkmale für eine zuverlässige Klassifizierung. In diesem Fall sind nur vier Formantfolger, wie sie in der Anordnung nach Fig. 9 gezeigt sind, für die Aussiebung von Merkmalen erforderlich. Für größere Vokabularien, d. h. die Identifizierung eines Sprechers unter einer größeren Anzahl von Sprechern, können die charakteristischen Parameter stimmloser Konsonanten erforderlich sein. Die in Vokalen und stimmhaften Konsonanten enthaltenen charakteristischen Formantbänder sind mit
409848/0809
dem Sonogramm der Fig. 10 veranschaulicht. Die Lagen der Formantbänder ändern sich mit der Zeit. Die Mit A und B bezeichneten Bereiche enthalten keine solche charakteristischen Scheitel oder Spitzen, sondern bestehen aus einem breiten Spektrum, das nur eine geringe Strukturierung aufweist. Solche breiten Spektren sind charakteristisch für stimmlose Konsonanten wie p, t, k.
Der Signalverlauf der Fig. 10 entspricht den AusgangsSignalen, wie sie durch die Integratoren der Formantfolger erzeugt werden, die den entsprechenden Formanten und der Tonhöhenfrequenz zugeordnet sindr. Jeder Vokal eines gesprochenen Worts hat sein charakteristisches Formantmuster, wobei das Formantmuster dem Ausgangssignal der Folgekreise entspricht, und ebenso weist jede einzelne Person ein Formantmuster auf, das in hohem Maße charakteristisch für diese Einzelperson ist. Somit liefert die Möglichkeit, den Formantgehalt der Sprachinformation zu verfolgen und diesem Formantgehalt entsprechende Ausgangssignale zu erzeugen,die notwendige Echtzeit-Information, um den Wortgehalt der Sprachinformation zu erkennenoder die spezielle Einzelperson zu identifizieren, die die Sprachinformation erzeugt.
Der Zweck des Formantfolgers 10 besteht darin, charakteristische Merkmale von Phonemen auszuscheiden. Diese Merkmalausscheidung ist notwendig, um die Dimensionierbarkeit des Erkennungsraums zu verringern, so daß es wirtschaftlich vertretbar wird, die Merkmale mit einer Reihe gespeicherter Schablonen, Muster oder Matrizen zur Übereinstimmung zu bringen. Die Anzahl solcher Muster, die je Wort erforderlich sind, würde jedoch immer noch unzulässig groß bleiben, wenn die Wortmerkmale und ihre gespeicherten Gegenstücke (die Muster oder Matrizen) nicht normiert, d. h. auf eine vorgegebene Dauer verkürzt oder ausgedehnt würden. Ohne eine solche Normierung würde einer große Anzahl Muster je Wort erforderlich, die bei unterschiedlichen Sprechgeschwindigkeiten aufgezeichnet und alle möglichen Kombinationen von Änderungen in der Dauer der einzelnen Phoneme umfassen würden. Ein bekanntes Verfahren zur Überwindung des Wortdauerproblems ist das Prinzip der nichtlinearen Zeitbasis, wie es von G. L. Clapper unter dem Titel
409848/0809
"Automatic Word Recognition" in IEEE Spectrum, August 1971 beschrieben wird. Eine v/eitere Möglichkeit besteht darin, einzelne Phoneme über das Verfahren der binären Selektion zu klassifizieren, wie das in J. Acoust. Soc. Am. 1956 in einem mit "Electronic Binary Selection System for Phonemes Classification" bezeichneten Aufsatz beschrieben wird.
EinPrinzip, das zur Verwirklichung der Signalverarbeitungskreise der vorliegenden Erfindung brauchbar ist, sieht vor, daß die Signale von den Formantfolgekreisen durch eine Matrix mit einem Muster adaptiver Speicherelemente wie in Spalten und Zeilen angeordneter magnetischer oder Festkörper-Speicherelemente (Minstores) ausgewertet werden. Charakteristika gesprochener Wörter eines Vokabulars oder Charakteristika eines einzelnen Sprechers werden den adaptiven Elementen in jeder Spalte zugeordnet, so daß jede Zeile adaptiver Elemente einer Gruppe Charakteristika entspricht. Die Elemente in jeder Zeile werden mit einer unterschiedlichen Gruppe Adaptationen kodiert, die den Charakteristika entsprechen, von denen zu erwarten ist, daß sie mit den Charakteristika der Sprach-Eingangsinformationen übereinstimmen", die von den Formantfolgerkreisen geliefert wird. Von den Formantfolger-Ausgangs-Signalen abgeleitete Adaptationen werden gleichzeitig jeweils jeder Spalte in vergleichender Zuordnung mit der kodierten Adaptation der Elemente eingeprägt. Der Vergleich erfolgt für alle Charakteristika auf Echtzeitbasis (augenblicklich). Für jede Zeile wird eine Messung der Gesamtabweichung der Charakteristika entsprechend den Formantfolger-Ausgangssignalen von der gespeicherten Charakteristika-Information abgeleitet. Es wird eine Ermittlung hinsichtlich der Identität der bestimmten Charakteristika des Formantfolgerausgangs durchgeführt, wie sie der gespeicherten Information entspricht, die eine minimale Abweichung erzeugte .
Patentansprüche;
409848/0809

Claims (11)

  1. P atentansprüche ;
    1A Schaltungsanordnung zur Identifizierung einer Formantfrequenz ν J
    v—' in einem gesprochenen Wort, gekennzeichnet durch eine abstimm-. bare elektronische Filtereinrichtung (20, 30), die einstellbare Mittenfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen Wortes ansprechen kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals der Filtereinrichtung und zur Ermittlung, ob eine Formantfrequenz anwesend 1st, sowie durch eine zwischen die Analysier- und die Filtereinrichtung geschaltete Steuereinrichtung zur Erzeugung eines Steuersignals für die Einstellung der Mittenfrequenz der Filtereinrichtung, so daß diese im wesentlichen mit der Frequenz des Formanten zusammenfällt.
  2. 2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die abstimmbare elektronische Filtereinrichtung ein abstimmbares erstes Filter (20) und ein abstimmbares zweites Filter (20) aufweist, die jeweils eine einstellbare Mittenfrequenz und einen einstellbaren Q-Wert haben und gesprochene Wörter aufnehmen können, daß das erste abstimmbare Filter auf den Frequenzgehalt der in einem Frequenzbereich in einer ersten Richtung von der Mittenfrequenz auftretenden gesprochenen Wörter und das zweite abstimmbare Filter (30) auf den Frequenzgehalt Jvea-in einem Frequenzbereich entgegengesetzter Richtung auftretender gesprochener Wörter ansprechen kann.
  3. 3. Schaltungsanordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Analysiereinrichtung auf die Ausgangssignale des ersten und des zweiten abstimmbaren elektronischen Filters (20, 30) durch Erzeugung eines Ausgangssignals anspricht, das der,Nettoabweichung der Formantfrequenz von der Mittenfrequenz entspricht, und daß die Steuereinrichtung auf das Ausgangssignal von der Analysiereinrichtung ansprechen kann, um ein Steuer-Eingangssignal für das erste und das zweite Filter zu erzeugen und damit die Mittenfrequenz der Filtereinrichtung
    409848/0809
    so einzustellen, daß sie im wesentlichen der Formantfrequenz entspricht.
  4. 4. Schaltungsanordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Steuereinrichtung einen Integrator zur Integration des Ausgangs der Analysiereinrichtung und zur Abgabe eines Ausgangssignals als Steuer-Eingangssignal für das erste bzw. zweite Filter aufweist und daß die Steuereinrichtung als Rückkopplungskreis für die fortlaufende Einstellung der Mittenfrequenz des ersten und zweiten Filters in Abhängigkeit von einem sich ändernden Ausgangssignal von der Analysiereinrichtung arbeitet.
  5. 5. Schaltungsanordnung nach einem der Ansprüche 1-4, gekennzeichnet durch eine Einrichtung (24, 34) zur Erhöhung des Q-Werts der elektronischen Filtereinrichtung beim Auftreten von Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz.
  6. 6. Schaltungsanordnung nach Anspruch 5, gekennzeichnet durch eine Mehrzahl Paare abstimmbarer elektronischer Filter (FT , FI2 ···)* die in Kaskade geschaltet sind, wobei jedes Paar Filter auf die niedrigste Formantfrequenz ansprechen kann, die in der zugeführten Sprach-ISingangs information enthalten ist, unü wobei die Mittenfrequenz jedes Paars abstimmbarer Filter durch ein extern angelegtes Signal eingestellt werden kann, daß die Analysiereinrichtung gesonderte Schaltkreis-Einheiten aufweist, die den einzelnen Paaren der abstimmbaren elektronischen Filter zugeordnet sind, so daß ein Signal erzeugt wird, das der Abweichung der Formantfrequenz von der jeweiligen Mittenfrequenz entspricht,/aaß die Steuereinrichtung gesonderte Einheiten aufweist, die mit den entsprechenden Analysier-Schaltkreis-Einheiten so verbunden sind, daß ein Steuersignal in Abhängigkeit von dem Analysier-Ausgangssignal erzeugt und dieses Steuersignal an das entsprechende Paar abstimmbarer elektronischer Filter geliefert wird, um die Mittanfrequenz des jeweiligen Paars abstimmbarer Filter fortlau-
    409848/0809
    fend so einzustellen, daß Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz eingestellt und aufrechterhalten und somit die Formantfrequenz wirksam verfolgt wird, wobei das Ausgangssignal der jeweiligen Steuerkreiseinheit für die Formantfrequenz repräsentativ ist.
  7. 7. Schaltungsanordnung nach Anspruch 6, gekennzeichnet durch Schaltkreis-Kopplungsmi'ttel (Fl, F2 ...), um die jeweiligen Paare abstimmbarer elektronischer Filter so zu koppeln, daß die Formantfrequenz-Information, die von dem vorhergehenden Paar abstimmbarer elektronischer Filter überwacht wird, an einer Speisung des nachfolgenden Paars abstimmbarer elektronischer Filter gehindert wird.
  8. 8. Schaltungsanordnung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß ein Paar der abstimmbaren elektronischen Filter (PT), das in die Kaskadenanordnung der Mehrzahl Filtereinrichtungen geschaltet ist, auf die Stimmhöhenfrequenz der Sprach-Eingangsinformation ansprechen und ein damit übereinstimmendes Ausgangssignal erzeugen kann, daß eine zugehörige Analysierkreiseinheit mit dem Paar abstimmbarer elektronischer Filter so verbunden ist, daß ein Ausgangssignal erzeugt wird, das der Abweichung der Stimmhöhenfrequenz von der einstellbaren Mittenfrequenz des Paars abstimmbarer aktiver Filter entsprächt, und daß die zugeordnete Steuerkreiseinheit zwischen die Analysierkreiseinheit und das Paar abstimmbarer aktiver Filter geschaltet ist, um auf das Ausgangssignal der Analysiereinrichtung anzusprechen und ein Steuersignal zu erzeugen, das einem Paar abstimmbarer elektronischer Filter so zugeführt wird, daß es zu einer Einstellung der Mittenfrequenz derart kommt, daß sie im wesentlichen der Stimmhöhenfrequenz entspricht.
  9. 9. Schaltungsanordnung nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, daß jede Steuerkreiseinheit als Rückkopplungskreis arbeitet, um die entsprechende Formantfrequenz wirksam zu verfolgen und zwischen der Mittenfrequenz des entsprechenden
    409848/0809
    Paars abstimmbarer elektronischer Filter und der entsprechenden Formantfrequenz Koinzidenz aufrechtzuerhalten, wobei die von der jeweiligen Steuerkreiseinheit für das jeweilige abstimmbare elektronische Filter erzeugten Ausgangssignale für die jeweiligen Formantfreq.uenzen der Sprach-Eingangs in formation repräsentativ sind und die Kaskadenanordnung der Paare - abstimmbarer elektronischer Filter augenblicklich Information liefert, die dem Formantgehalt der Sprach-Eingangsinformation entspricht: ·
  10. 10. Schaltungsanordnung nach einem der Ansprüche 6-9, dadurch gekennzeichnet, daß jedes der Paare abstimmbarer elektronischer Filter einen einstellbaren Q-Wert und entsprechende Einrichtungen hat, um auf den Koinzidenzzustand zwischen der Formantfrequenz und der Mittenfrequenz durch Erhöhung des Q-Werts des zugeordneten Paars abstimmbarer elektronischer Filter anzusprechen.
  11. 11. Schaltungsanordnung nach einem der Ansprüche 7-10, gekennzeichnet durch eine Einrichtung zur Signalverarbeitung der Formantfrequenz-Information von den Paaren abstimmbarer elektronischer Filter, um die erfaßten Formantfrequenzen mit ein vorgegebenes Muster aufweisender gespeicherter Information zu vergleichen.
    KN/hs/jn 3
    409348/0809
    /9
    Leerseite
DE2422028A 1973-05-08 1974-05-07 Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort Expired DE2422028C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/358,427 US3989896A (en) 1973-05-08 1973-05-08 Method and apparatus for speech identification

Publications (2)

Publication Number Publication Date
DE2422028A1 true DE2422028A1 (de) 1974-11-28
DE2422028C2 DE2422028C2 (de) 1986-01-16

Family

ID=23409610

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2422028A Expired DE2422028C2 (de) 1973-05-08 1974-05-07 Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort

Country Status (7)

Country Link
US (1) US3989896A (de)
JP (1) JPS5416361B2 (de)
CA (1) CA1013857A (de)
DE (1) DE2422028C2 (de)
FR (1) FR2229109B1 (de)
GB (1) GB1470438A (de)
SE (1) SE398681B (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3305045A1 (de) * 1983-02-14 1984-08-16 Siemens AG, 1000 Berlin und 8000 München Anordnung zur bestimmung der sprachgrundfrequenz
CN117690439A (zh) * 2024-01-31 2024-03-12 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5719132B2 (de) * 1974-06-13 1982-04-21
US4468804A (en) * 1982-02-26 1984-08-28 Signatron, Inc. Speech enhancement techniques
US4692117A (en) * 1982-08-03 1987-09-08 Goodwin Allen W Acoustic energy, real-time spectrum analyzer
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
JPH0638199B2 (ja) * 1985-09-02 1994-05-18 日本電気株式会社 音声認識装置
EP0245252A1 (de) * 1985-11-08 1987-11-19 MARLEY, John Einrichtung und verfahren zur spracherkennung mit grundfrequenzsynchroner merkmalauswahl
US4843377A (en) * 1987-04-21 1989-06-27 Guardian Technologies, Inc. Remote confinement system
US4999613A (en) * 1987-04-21 1991-03-12 Guardian Technologies, Inc. Remote confinement system
DE3720882A1 (de) * 1987-06-24 1989-01-05 Media Control Musik Medien Verfahren und schaltungsanordnung zum automatischen wiedererkennen von signalfolgen
US4996161A (en) * 1987-10-16 1991-02-26 Guardian Technologies, Inc. Breath alcohol testing system
JP2504171B2 (ja) * 1989-03-16 1996-06-05 日本電気株式会社 声門波形に基づく話者識別装置
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5471527A (en) 1993-12-02 1995-11-28 Dsc Communications Corporation Voice enhancement system and method
US5897614A (en) * 1996-12-20 1999-04-27 International Business Machines Corporation Method and apparatus for sibilant classification in a speech recognition system
US7272375B2 (en) 2004-06-30 2007-09-18 Silicon Laboratories Inc. Integrated low-IF terrestrial audio broadcast receiver and associated method
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
US9437213B2 (en) 2012-03-05 2016-09-06 Malaspina Labs (Barbados) Inc. Voice signal enhancement
US9015044B2 (en) * 2012-03-05 2015-04-21 Malaspina Labs (Barbados) Inc. Formant based speech reconstruction from noisy signals
US9384759B2 (en) 2012-03-05 2016-07-05 Malaspina Labs (Barbados) Inc. Voice activity detection and pitch estimation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2019280B2 (de) * 1969-04-24 1979-02-15 The Plessey Co. Ltd., Ilford, Essex (Grossbritannien) Elektrische Schaltungsanordnung zur Sprachsignalanalyse

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2575910A (en) * 1949-09-21 1951-11-20 Bell Telephone Labor Inc Voice-operated signaling system
US2819341A (en) * 1954-09-30 1958-01-07 Bell Telephone Labor Inc Transmission and reconstruction of artificial speech
US2857465A (en) * 1955-11-21 1958-10-21 Bell Telephone Labor Inc Vocoder transmission system
GB862132A (en) * 1958-12-17 1961-03-01 Nippon Electric Co Frequency discrimination system of voice formant
US3423530A (en) * 1965-03-26 1969-01-21 Melpar Inc Speech synthesizer having q multiplier
US3437757A (en) * 1966-06-15 1969-04-08 Bell Telephone Labor Inc Speech analysis system
US3509280A (en) * 1968-11-01 1970-04-28 Itt Adaptive speech pattern recognition system
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
DE2143560C3 (de) * 1971-08-31 1974-07-04 Hewlett-Packard Gmbh, 7030 Boeblingen Filteranordnung

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2019280B2 (de) * 1969-04-24 1979-02-15 The Plessey Co. Ltd., Ilford, Essex (Grossbritannien) Elektrische Schaltungsanordnung zur Sprachsignalanalyse

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3305045A1 (de) * 1983-02-14 1984-08-16 Siemens AG, 1000 Berlin und 8000 München Anordnung zur bestimmung der sprachgrundfrequenz
CN117690439A (zh) * 2024-01-31 2024-03-12 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统
CN117690439B (zh) * 2024-01-31 2024-04-16 国网安徽省电力有限公司合肥供电公司 一种基于营销场景的语音识别语意理解方法及系统

Also Published As

Publication number Publication date
FR2229109B1 (de) 1978-08-11
USB358427I5 (de) 1976-02-03
CA1013857A (en) 1977-07-12
DE2422028C2 (de) 1986-01-16
SE398681B (sv) 1978-01-09
JPS5416361B2 (de) 1979-06-21
US3989896A (en) 1976-11-02
FR2229109A1 (de) 1974-12-06
GB1470438A (en) 1977-04-14
JPS5017503A (de) 1975-02-24

Similar Documents

Publication Publication Date Title
DE2422028A1 (de) Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE3306730C2 (de)
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE2844156C2 (de)
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE3645118C2 (de)
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
EP0296588A2 (de) Verfahren und Schaltungsanordnung zum automatischen Wiedererkennen von Signalfolgen
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE4031638C2 (de)
EP1407446A1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE3733391C2 (de)
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE1194170B (de) Verfahren und Schaltungsanordnung zur Spracherkennung
DE1547027C3 (de) Verfahren und Anordnung zur Konsonantenbestimmung in Sprachsignalen
DE4325404A1 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE1422056A1 (de) Phonetische Schreibmaschine
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
DE4435272C2 (de) Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung
DE2448908C3 (de) Elektrisches Verfahren und Schaltungsanordnung zur Spracherkennung
DE3200645C2 (de)

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee