DE2422028A1

DE2422028A1 - Schaltungsanordnung zur identifizierung einer formantfrequenz in einem gesprochenen wort

Info

Publication number: DE2422028A1
Application number: DE2422028A
Authority: DE
Inventors: Heribert J Reitboeck
Original assignee: Westinghouse Electric Corp
Current assignee: CBS Corp
Priority date: 1973-05-08
Filing date: 1974-05-07
Publication date: 1974-11-28
Also published as: FR2229109B1; USB358427I5; CA1013857A; DE2422028C2; SE398681B; JPS5416361B2; US3989896A; FR2229109A1; GB1470438A; JPS5017503A

Description

DiPL-ING. KLAUS NEUBECKER

Patentanwalt
4 Düsseldorf 1 · Schadowplatz 9

. Düsseldorf, 6. Mai 1974 44,370
7459 * ■

Westinghouse Electric Corporation
Pittsburgh, Pa., V. St. A.

Schaltungsanordnung zur Identifizierung einer Formantfreguenz in einem gesprochenen Wort

Die vorliegende Erfindung bezieht sich allgemein auf automatische Wort- oder Stimmenerkennungssysteme und insbesondere auf Schaltungen zum Aussieben charakteristischer Sprachmerkmale.

Es besteht derzeit ein Bedürfnis für automatische Sprecheridentifizierungs- und automatische Worterkennungssysterne. Der Markt für Sprecheridentifizierungssysteme umfaßt Sicherheitssysteme, Kredit-Verkauf svorgänge, Computerdatenzugang, Bankaktivitäten und gesetzliche Vollziehungsmaßnahmen. Jüngste Untersuchungen haben bestätigt, daß Stimmenabdruck-Identifizierung sich ausreichend zuverlässig als gesetzliches Beweisend.ttel einsetzen läßt. Der Vorzug eines Stimmen-"Abdrucks" gegenüber anderen Verfahren wie Finger-. abdruck-Identifizierung besteht darin, daß bestehende Telefonleitungen für die Übermittlung der Information in Verbindung mit einem billigen Mikrofon und ohne die Notwendigkeit einer teuren Umsetzerausrüstung an der Empfangsstelle verwendet werden können.

Der Markt für Worterkennungssysteme umfaßt Materialhandhabungsvorgänge, Postsortierung, Herstellungskontrolle, automatische überprüfung in Supermärkten,stimmbetätigte Schalter. Der Einsatz gesprochener Daten in den Bereichen der Materiälhandhabung, Post-

409848/0809

sortierung, Herstellungskontrolle sowie der automatischen Supermarktüberprüfung macht für die zuständigen Überwachungspersonen den Weg für die Ausführung anderer Aufgaben frei. Die mögliche Verwendung der Spracherkennung für die Computerdateneingabe ist besonders reizvoll, da es dadurch möglich würde, einen Computer mit Hilfe natürlicher Sprachen zu programmieren und somit die Notwendigkeit, eine-spezielle Sprache für den Computer zu entwickeln, zu eliminieren. Somit könnten Personen, die keine Kenntnis bezüglich der Bedienung des Computers hätten, Computereingabedaten liefern.

Ein Spracherkennungssystem muß drei Grundfunktionen ausführen können:

1. Extraktion oder Aussiebung charakteristischer Merkmale des Sprechsignals, um den sehr großen Informationsgehalt des Spreqhsignals auf die Grundinformation zu reduzieren, die noch ausreicht, um den Sprecher zu identifizieren und/oder den Sprachgehalt zu erkennen?

2. es muß in irgendeiner Weise für eine Zeitachsen-Normierung gesorgt werden, d. h., es muß ein als Phonemji bekanntes Sprach-Grundelernent auf eine standardisierte Dauer zusammengezogen oder gedehnt werden, so daß das Wort zur Obereinstimmung mit gespeicherter Information gebracht und unabhängig davon erkannt werden kann, wie schnell es gesprochen wurde oder ob Teile davon betont wurden?

3. die normierten Wörter müssen mit einer Reihe oder Gruppe gespeicherter Wörter verglichen und es muß dann die beste Übereinstimmung angegeben werden.

Bei derzeitigen Spracherkennungssystem werden charakteristische Merkmale über eine Fourieranalyse oder eine Zeit-Reihenanalyse der Sprechkurve bzw. des Sprechsignals extrahiert oder ausgesiebt. Ein nachfolgender Algorithmus sorgt tibearlicherweise für eine Phoneme-Segmentierung und eine Zeitachsen-Normierung. Für Echtzeit-Betrieb erfordern solche Systeme eine beträchtliche Berechnungsleistung, die im allgemeinen von einem Computer voller Größe, zusätzlich zu

409848/0809

der Vorbehandlungsausrüstung wie Filtergruppen oder Austast- und Zeitbestimmungseinrichtungen, geliefert werden muß. Für die meisten infrage kommenden Anwendungen liegen die Kosten solcher Systeme außerhalb eines wirtschaftlich vertretbaren Bereichs.

Aufgabe vorliegender Erfindung ist die Schaffung eines verhältnismäßig einfachen und wirksamen Worterkennungssystems unter Einhaltung eines wirtschaftlich vertretbaren Bereichs.

Zur Lösung dieser Aufgabe ist eine Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort erfindungsgemäß gekennzeichnet durch ein abstimmbares elektronisches Filter, das einstellbare Mittelfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen Wortes ansprechen ,kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals des Filters und zur Ermittlung, ob eine Formantfrequenz anwesend ist, sowie durch eine zwischen die Analysiereinrichtung und das Filter geschaltete Steuereinrichtung zur Erzeugung eines Steuersignals für die Einstellung der Mittelfrequenz des Filters so, daß jede im wesentlichen mit der Frequenz des Formanten zusammenfällt.

Die Erfindung wird nachstehend anhand von Ausführungsbeispielen in Verbindung mit der zugehörigen Zeichnung erläutert. In der Zeichnung zeigen:

Fig. 1 schematisch eine Darstellung eines Formant-

folgers entsprechend einem Ausführungsbeispiel der Erfindung;

Fig. 2-4 Darstellungen verschiedener Filter-Betriebsarten ;

409848/0809

-A-

Fig. 5 und 6 Darstellungen des Frequenz-Ansprechens

abstimmbarer aktiver Filter des Ausführungsbeispiels der Fig. 1;

Fig. 7 eine Darstellung der Arbeitsweise einer ab

gewandelten Ausführung der Schaltung nach Fig. 1;

Fig. 8 eine Darstellung der Folge-Arbeitsweise der

■ Schaltung der Fig. 1;

Fig. 9 schematisch eine Darstellung einer Kombination

von FormanttrSgern entsprechend Fig. 1; und

Fig. 10 eine Frequenz-/Zeitaufzeichnung eines Sono-

gramms.

Das Kurzzeit-Energiespektrum von Vokalen und stimmhaften Konsonanten weist charakteristische Frequenzscheitel auf, die durch die Hohlräume des Vokaltrakts hervorgerufen werden, wenn dieser durch Schallschwingungen von den Stimmbändern angeregt wird. Diese Frequenzscheitel werden Formanten genannt. Ihre Lage und ihre zeitlichen Änderungen können als Merkmale für die Charakterisierung von stimmhaften Phonemen und zur Identifizierung einer sprechenden Person ausgewertet werden.

Das Spektrum der Vokale und stimmhaften Konsonanten enthält üblicherweise bis zu fünf Frequenzscheiteln, entsprechend der Stimmhöhenfrequenz und vier Formantfrequenzen. Während die Stimmhöhen-

409848/0809

frequenz und die ersten drei Formantfrequenzen normalerweise für die Sprecheridentifizierung ausgewertet werden, kann die Auswertung der drei Formantfrequenzen allein allgemein genügend Information für die Identifizierung stimmhafter Phoneme liefern.

Der Frequenzbereich für Stimmhöhen-: und Formantfrequenzen ist für eine durchschnittliche männliche Person:

Stimmhöhe	Formant	PF	60 »	240	Hz
1.	Formant	^F1	150 »	850	Hz
2.	Formant	^F2	500 »	2500	Hz
3.	Formant	^F3	1500 —>	3500	Hz
4.	P₁	2500 »	4500	Hz

Die Stimmhöhenfrequenzen weiblicher Sprecher sind annähernd eine Oktave höher, und ihre Formantfrequenzen liegen etwa 17 % höher als die männlicher Sprecher.

Es wird unter Bezugnahme auf das veranschaulichte bevorzugte Ausführungsbeispiel ein einfaches und billiges Verfahren zur Sprecheridentifizierung und Worterkennung erläutert, wobei die Stimmhöhe zusammen mit der Frequenz einer vorgegebenen Anzahl der niedrigsten spektralen Scheitel (Formanten) ausgewählt und die Frequenzen ermittelt und verfolgt werden. Das System verwendet elektronisch abstimmbare aktive Filter mit veränderlicher Bandbreite und Mittenfrequenz, um einen bestimmten Formanten "festzulegen" und dessen Ablenkungen zu.folgen. Entsprechend einem bestimmten Ausführungsbeispiel werden vier Paare elektronisch abstimmbarer aktiver Filter verwendet, um die Stimmhöhe der gesprochenen Information sowie die ersten drei Formanten "festzulegen" bzw. zu "verriegeln". Die Steuerspannung der Filter, die der Formantfrequnez entspricht, liefert ein einfaches Verfahren zur Charakterisierung der gesprochenen Wortelemente.

Um die.Sprachmerkmale zu klassifizieren, kann das System mit einem im Hinblick auf den Gehalt addressierbaren Halbleiterspeicher und einer Klassifizierungs-Matrix verwendet werden, wie sie in der US-Patanm. Ser. No. 293,241 vom 28.9.72 mit dem Titel "Radar

409848/0809

Identification System" beschrieben werden, die auf die gleiche Anmelderin wie die vorliegende Anmeldung zurückgeht. Die charakteristischen Eigenschaften des Worts werden mit der in dem Speicher und der Klassifizierungs-Matrix gespeicherten Information verglichen, bis ein Wort ausgewählt wird, das mit den Merkmalen des gesprochenen Worts am besten übereinstimmt. Beide diese Subsysteme, nämlich der Formantenfolger und die Klassifizierungs-Matrix, eignen sich für die Fertigung im Rahmen von LSI (large scale integration) -Verfahren. Diese Lösung beinhaltet die Möglichkeit, Sprecheridentifizier ungs- und Vokabularwort-Erkennungssysteme in einen für den Verbrauchermarkt attraktiven Preisbereich zu bringen.

Im einzelnen läßt Fig. 1 einen allgemein mit 10 bezeichneten Formantfolger mit elektronisch abstimmbaren Filtern 20 und 30 er- . kennen. Elektronisch abstimmbare Filter, die sich für die Schaltungsanordnung nach Fig. 1 eigenen würden, können beispiels^ weise von Aktivfiltern Modell FS-50 gebildet sein, wie sie in den V. St. A. von Kinetic Technology, Inc. geliefert werden.

Das im Handel erhältliche elektronisch abstimmbare aktive Filter entsprechend den Filtern 20, 30 der Fig. 1 liefert Hochpass-, Tiefpass- und Bandpass-Übergangsfunktionen und besitzt Vorspannungs-Input-Fähigkeiten, um eine Einstellung der Mittenfrequenz und des Q-Werts des Filters zu ermöglichen. Die Einstellung der Mittenfrequenz und des Q-Werts des Filters erfolgt durch extern veränderliche Impedanzeinrichtungen, die in Fig. 1 schematisch als Feldeffekttransistoren 23 und 33 dargestellt worden sind, um die Mittenfrequenz der Filter 20 bzw. 30 einzustellen, bzw. als Feldeffekttransistoren 24 und 34 für die Einstellung des Q-Werts der einstellbaren Filter 20 bzw. 30. Die Einstellung der Mittenfrequenz und des Q-Werts der abstimmbaren Filter erfolgt durch Änderung der den entsprechenden Feldeffekttransistoren zugeführten Vorspannung. Geeignete Ergebnisse ließen sich auch unter Verwendung von Analogvervielfachern anstelle der Feldeffekttransistoren erzielen.

Bei dem Ausführungsbeispiel nach Fig. 1 sind die Filter 20 und 30 in einer Bandpass-Betriebsart angeschlossen, wobei das abstimmbare

409848/0809

' ' - 7 Filter 20 auf die Sprach-Eingangsinformation, die den Frequenzgehalt entsprechend f -^f aufweist, und das abstimmbare Filter 30 . auf Sprach-Eingangsinformation, die die Frequenz im Bereich f + Af. aufweist, anspricht.

in der nachstehenden Erläuterung des Einsatzes der abstimmbaren aktiven Filter für die Analyse der Sprachinformation vird zwar auf die spezielle Ausführung nach Fig. 1 Bezug genommen, bei der beide Filter in einer Bandpass-Betriebsart angeschlossen sind, jedoch ist darauf hinzuweisen, daß die Verfahren sich in gleicher Weise auch für jede Kombination von Tiefpass-, Bandpass- und Hochpass-Betriebsarten des Paares abstimmbarer Filter einsetzen läßt.

Mit Fig. 2 ist die Abhängigkeit der Amplitude von der Frequenz für ein abstimmbares aktives Filter wiedergegeben, das in einer · Bandpass-Betriebsart arbeitet, während Fig. 3 die Tiefpass-Betriebsart und Pig. 4 die Hochpass-Betriebsart veranschaulichen. Die gestrichelten Linien in Fig. 2 und 3 entsprechen Filtern, deren Q-Wert gegenüber dem hohen Q-Wert, wie er mit den durchgehenden Linien angedeutet ist, verhältnismäßig niedrig ist. Fig. 5 veranschaulicht die Arbeitsweise eines Formantfolgers 10 nach Fig. 1, wobei sowohl das abstimmbare Filter 20 als auch das abstimmbare Filter 30 in einer Bandpass-Betriebsart arbeiten. Der Kurvenzug A repräsentiert dabei das abstimmbare Filter 20, während der Kurvenzug B das abstimmbare Filter 30 repräsentiert. Wenn die Sprach-Eingangsinformation einen Formanten F innerhalb des bestimmten Frequenzbereichs der Filter 20 und 30 enthält, so ist das Ansprechen des Filters 20 entweder größer oder kleiner als das des Filters 30, je nachdem, ob die Formantfrequenz F niedriger oder höher als die Mittenfrequenz f_ ist. Der Bandpass-Ausgang des Filters 20 wird durch einen'Gleichrichter 4Ό gleichgerichtet, so daß ein Summierer 42 ein Eingangssignal einer ersten Polarität enthält, während der Bandpass-Ausgang des Filters 30 durch einen Gleichrichter 44 gleichgerichtet wird, so daß der Summierer 42 ein Eingangssignal entgegengesetzter Polarität erhält. Wenn der in der Sprach-Eingangsinformation enthaltene Formant F nicht wie in Fig. 5 veranschaulicht mit der Frequenz f_Q zusammenfällt, so weichen

409848/0809

die Bandpass-Ausgangssignale der Filter 20 und 30 hinsichtlich ihrer Größe voneinander ab, so daß die von den Gleichrichtern und 44 gelieferten Eingangssignale entgegengesetzter Polarität eine ungleiche Größe bzw. Amplitude haben. Der Summierer 42 liefert einem Integrator 50 ein Eingangssignal, der der Nettodifferenz zwischen den Bandpass-Ausgangssignalen der Filter 20 und 30 entspricht. Das vom Summierer 42 erzeugte Signal wird durch den Integrator 50 integriert, der seinerseits ein Ausgangssignal erzeugt, das zur Steuerung der Leitfähigkeit der Feldeffekttransistoren und 33 ausgewertet wird, um die Mittenfrequenz der Filter 20 bzw. 30 einzustellen; Das Ausgangssignal des Integrators 50 sorgt für eine Verschiebung der Mittenfrequenz der jeweiligen Filter in eine solche Richtung, daß es zu einem Zusammenfallen zwischen der Mittenfrequenz f und dem Formanten F kommt, wie das in Fig. 6 veranschaulicht ist. Wenn dieser Zustand des Zusammenfallens oder der Koinzidenz erzielt worden ist, so sind die Bandpass-Ausgangssignale der Filter 20 und 30 gleich, so daß das Ausgangssignal des Summierers 42 auf Null absinkt und somit das Ausgangssignal des Integrators 50 konstant bleibt. Die Größe des Ausgangssignals des Integrators 50 ist somit repräsentativ für den Formanten F der Sprach-Eingangsinformation, wobei dieses Ausgangssignal durch einen Analogschalter 60 an eine Signalverarbeitungsschaltung S weitergeleitet wird. Die Signalverarbeitungsschaltung S kann einen Aufbau haben, wie er in der vorerwähnten üS-Patanm. Ser. No. 293,241 beschrieben ist. Wenn die Frequenz des Formanten F sich ändert, arbeiten die beiden abstimmbaren Filter 20 und 30 wiederum so, daß die Mittenfrequenz f in Koinzidenz mit dem Formanten F gehalten und der Formant F durch die Rückkopplungswirkung des Integrators 50 wirksam unter Kontrolle gehalten bzw. verfolgt wird. Die Arbeitsweise eines mit einer Kombination aus einem Tiefpass-Filter und einem Bandpass-Filter arbeitenden Nachfolgekreises ist mit Fig. 7 wiedergegeben. Wiederum spricht der Kreis auf die Abweichung der Formantfrequenz F von der Frequenz f an, indem die Mittenfrequenz der Filter so eingestellt wird, daß sie mit dem Formanten F zusammenfällt.

409848/0809

Die Arbeitsweise des Formantenfolgers 10 nach Fig. 1 ist mit Fig. 8 veranschaulicht. Der mit A bezeichnete Teil der Formantenfolge-Kurve veranschaulicht die Zeitverzögerung im Schaltkreis vor dem Erreichen des Formanten F, während der mit B bezeichnete Teil der Kurve die Abfallzeit des Formantenfolgers wiedergibt, die sich an den Abschluß der Verfolgung eines bestimmten Formanten F anschließt. Um die mit A bzw. B bezeichneten Teile der Kurve zu eliminieren und damit zu verhindern, daß diese mit der dem Formanten F entsprechenden Information an die Signalverarbeitungsschaltung übertragen v/erden, wird der Ausgang des Integrators 50 über den Analogschalter 60 weitergeleitet. Der Analogschalter 60 befindet sich im für die Übertragung des Ausgangs von dem Integrator 50 geeigneten geöffneten Zustand nur dann, wenn ein Bandpass-Ausgang des Filters 30 ein vorgegebenes Niveau V _f überschreitet, das durch eine Vergleicherschaltung 62 vorgegeben ist.

Der Q-Wert der Filter 20 und 30 wird durch ein Vorspannungssignal gesteuert, das dem Ausgang des Summierers 42 entspricht und die Feldeffekttransistoren 24 bzw. 34 beaufschlagt. Die Wirkung der Veränderung des Q-Werts des Filters, wie das mit Fig. 2, 5 und 6 veranschaulicht ist, geht dahin, daß ein niedriger Q-Wert die .Bandbreite des Filters erhöht, während ein hoher Q-Wert die Bandbreite des Filters herabsetzt. Um Formanten kompensieren zu können, die außerhalb des Ansprechbereichs der Filter 20 und 30 auftreten, wie das mit den Formanten F¹ der Fig. 5 gezeigt ist, wird ein Teil des Tiefpass-Ausgangs des Filters 20, der durch einen veränderlichen Widerstand 64 gesteuert und durch eine Diode 66 gleichgerichtet wird, als Eingangssignal an den Summierer 42 geliefert. Das Tiefpass-Eingangssignal dient als Vorspannungssignal, um den Formanten F¹ in den Ansprechbereich der Filter zu verschieben, wie das mit den Pfeilen in Fig. 5 angedeutet ist.' Die obige Beschreibung veranschaulicht die Arbeitsweise eines Formantenfolgers für das Ermitteln und Verfolgen eines bestimmten Formanten von Sprach-Eingangsinformation. Wie oben schon angedeutet, ist es jedoch zur Klassifizierung und Identifizierung eines gesprochenen Wortes oder eines bestimmten Sprechers notwendig, mehrere Formanten innerhalb eines gesprochenen Wortes zu analysieren, so daß

409848/0809

zusätzliche Formantfolger der mit Fig. 1 gezeigten Art notwendig sind. So zeigt Fig. 9 eine Kaskadenanordnung von Formantfolgern, die jeweils den mit Fig. 1 gezeigten Aufbau haben.

Um zu verhindern, daß zwei oder mehr Formantfolger bezüglich desselben Formanten verriegelt werden, wird ein spezieller Aufbau verwendet, der diejenige Frequenzspitze, auf die ein bestimmter Formantfolger sich abstimmt, aus dem Sprachspektrum entfernt, das durch die nachfolgenden Formantfolger analysiert werden soll. Das erfolgt durch Zufuhr der Sprach-Eingangsinformation der ersten Stufe unmittelbar zu dem nichtinvertierenden Eingang des Operationsverstärkers 70 und der Bandpass-Ausgänge der Filter 20 und 30, die durch Verstärker 67 und 68 verstärkt werden, zu dem invertierenden Eingang des Operationsverstärkers 70. Das Eingangssignal für den invertierenden Eingang des Verstärkers 70 repräsentiert den spektralen Gehalt der Sprach-Eingangsinformatiön, der sich innerhalb des Bandpass-Übertragungsbereichs f + ΔΡ der Bandpass-Ausgänge der Filter 20 und 30 befindet. Der Verstärker 70 subtrahiert diesen spektralen Gehalt von der Spräch-Eingangsinformation und liefert den von den Filtern 20 und 30 nicht verarbeiteten Teil der Sprach-Eingangsinformation entsprechend Fig. 9 an eine zweite Formantfolgestufe. In der zweiten Stufe wird der Ausgang bzw. das Ausgangssignal des Operationsverstärkers 70 der ersten Stufe gleichzeitig sowohl dem Formentfolger der zweiten Stufe als auch dem nichtinvertierenden Eingang des Operationsverstärkers der zweiten Stufe zugeführt. Der Ausgang des Formantfolgers 10 der zweiten Stufe beaufschlagt den invertierenden Eingang des Operationsverstärkers 70 der zweiten Stufe. Dieses System der gegenseitigen Verbindung untereinander wird über die ganze Reihe Formantfolger eingehalten, wie das in Fig. 9 gezeigt ist. Bei diesem Schema gegenseitiger Verbindung wirkt jede Stufe als dynamisches Einschnittfilter, um den speziellen Formanten, auf den es abgestimmt ist, aus dem Eingang zu den nachfolgenden Stufen zu entfernen.

Damit die Schaltkreise der Anordnung nach Fig. 9 in einer vorgegebenen Reihenfolge arbeiten, so daß der erste Schaltkreis PT den

409848/0809

Stimmhöhenabweichungen folgt, der zweite Schaltkreis FT₁ dem Formanten F₁ folgt, der dritte Schaltkreis FT₃ dem zweiten Forman-ten F₂ folgt und der vierte Schaltkreis FT₃ dem Formanten F₃ folgt, wird jeder Folger mit einer Vorspannung beaufschlagt, so daß er auf den Scheitel- der niedrigsten Frequenz der ihm zugeführten Eingangsinformation anspricht. Dies erfolgt wie in Fig. 1 gezeigt dadurch, daß ein Teil des gleichgerichteten Tiefpass-Ausgangssignals des Filters 20 zusammen mit den Bandpass-Ausgangssignalen der Filter 20 und 30 dem Summierer 42 zugeführt wird. Die Größe der Vorspannung wird durch ein Potentiometer 64 eingestellt. Es sorgt dafür, daß der Summierer 42 solange ein Ausgangssignal abgibt, wie das Filter nicht auf den in dem Spektrum enthaltenen Scheitel der niedrigsten Frequenz zentriert ist.

Wie oben erwähnt, ist der Q-Wert der Filter 20 und 30 ursprünglich niedrig, so daß der Scheitel der Frequenz, auf die sie ansprechen, in ihre Bandbreite fällt. Es ist daher keine Abtast-Betriebsart der Filter 20 und 30 notwendig, um spektrale Scheitel zu finden. Wenn der Formantfolger 10 sich bezüglich eines Frequenz scheite Is verriegelt, steigt ein Bandpass-Ausgangssignal an, und diese Spannung bewirkt ihrerseits eine Zunahme des Q-Werts der Filter über die Feldeffekttransistoren 24 und 34, bis eine minimale Bandbreite von beispielsweise zwischen 100 und 200 Hz erreicht wird. Das Nachlaufen oder Folgen des Formantfolgers 10 geschieht so, daß die Auflösung auf zwei Formanten möglich ist, die zusammenfallen. Ein Formantfolger wirkt dahingehend, daß er der Kante niedriger Frequenz dieses Formanten folgt und ein 100 oder 200 Hz breites Band des Spektrums entfernt, während die andere Folgerstufe der verbleibenden oder oberen Hälfte des breiten Frequenzscheitels folgt.

Wie in Fig. 9 angedeutet, liefert jeder der Folgerkreise eine Ausgangssignal, das dem Ausgang des entsprechenden Integrierkreises jedes Folgerkreises entspricht. Dieses Ausgangssignal ist repräsentativ für den Formanten, der durch den entsprechenden Folgerkreis verfolgt wird, und wird anschließend an die Signalverarbeitungskreise zum Vergleich mit den Ausgängen aller anderen Formant-

409848/0809

folger geliefert, um Information zur Identifizierung des gesprochenen Worts oder des individuellen Sprechers zu liefern. Entsprechend der oben erwähnten zugehörigen Anwendung können entfernte Sif£gnalverarbeitungsschaltungen eingesetzt werden, wobei die Ausgangssignale der Formantfolger gekennzeichnet und mit gespeicherter Information, die ein Vokabular gesprochener Wörter repräsentiert, verglichen werden. Eine Analyse der Formantfolger-Ausgangssignale im Verhältnis zur gespeicherten Information liefert eine Anzeige der besten Übereinstimmung zwischen der Formantfolger-Ausgangsinformation und der gespeicherten Information. Dadurch werden die in dem Signalverarbeitungskreis gespeicherten Merkmale des gesprochenen Worts oder des Sprechers identifiziert, die der den Formantfolgerkreisen zugeführten Sprach-Eingangsinformationen am nächsten kommen.

Der Formantfolger 10 ist nicht nur in der Lage, die Formantstruktur von Vokalen zu extrahieren oder auszuschalten, sondern er zeigt auch charakteristische Formantpositionen in stimmhaften Konsonanten auf. Die nasalen Konsonanten m, n,rj , die Gleitlaute w, j, die Halbvokale x, 1, und die stimmhaften Reiblaute ν, «Χ , ^z'3 ^wei^sen alle eine charakteristische Formantenstruktur auf, und in den stimmhaften Sprenglauten b, d, g ist der zweite Formantenübergang das Hauptmerkmal, das sie gegenüber den stimmlosen Sprenglauten p, t, k unterscheidet.

Für Spracherkennungssysteme, die ein Vokabular von etwa 10 bis 20 Wörtern verarbeiten oder einen unter einer kleinen Anzahl Sprecher identifizieren können, liefern die Formantfrequenzen (und zur Sprecheridentifizierung auch die Stimmhöhenfrequenz) genügend charakteristische Merkmale für eine zuverlässige Klassifizierung. In diesem Fall sind nur vier Formantfolger, wie sie in der Anordnung nach Fig. 9 gezeigt sind, für die Aussiebung von Merkmalen erforderlich. Für größere Vokabularien, d. h. die Identifizierung eines Sprechers unter einer größeren Anzahl von Sprechern, können die charakteristischen Parameter stimmloser Konsonanten erforderlich sein. Die in Vokalen und stimmhaften Konsonanten enthaltenen charakteristischen Formantbänder sind mit

409848/0809

dem Sonogramm der Fig. 10 veranschaulicht. Die Lagen der Formantbänder ändern sich mit der Zeit. Die Mit A und B bezeichneten Bereiche enthalten keine solche charakteristischen Scheitel oder Spitzen, sondern bestehen aus einem breiten Spektrum, das nur eine geringe Strukturierung aufweist. Solche breiten Spektren sind charakteristisch für stimmlose Konsonanten wie p, t, k.

Der Signalverlauf der Fig. 10 entspricht den AusgangsSignalen, wie sie durch die Integratoren der Formantfolger erzeugt werden, die den entsprechenden Formanten und der Tonhöhenfrequenz zugeordnet sindr. Jeder Vokal eines gesprochenen Worts hat sein charakteristisches Formantmuster, wobei das Formantmuster dem Ausgangssignal der Folgekreise entspricht, und ebenso weist jede einzelne Person ein Formantmuster auf, das in hohem Maße charakteristisch für diese Einzelperson ist. Somit liefert die Möglichkeit, den Formantgehalt der Sprachinformation zu verfolgen und diesem Formantgehalt entsprechende Ausgangssignale zu erzeugen,die notwendige Echtzeit-Information, um den Wortgehalt der Sprachinformation zu erkennenoder die spezielle Einzelperson zu identifizieren, die die Sprachinformation erzeugt.

Der Zweck des Formantfolgers 10 besteht darin, charakteristische Merkmale von Phonemen auszuscheiden. Diese Merkmalausscheidung ist notwendig, um die Dimensionierbarkeit des Erkennungsraums zu verringern, so daß es wirtschaftlich vertretbar wird, die Merkmale mit einer Reihe gespeicherter Schablonen, Muster oder Matrizen zur Übereinstimmung zu bringen. Die Anzahl solcher Muster, die je Wort erforderlich sind, würde jedoch immer noch unzulässig groß bleiben, wenn die Wortmerkmale und ihre gespeicherten Gegenstücke (die Muster oder Matrizen) nicht normiert, d. h. auf eine vorgegebene Dauer verkürzt oder ausgedehnt würden. Ohne eine solche Normierung würde einer große Anzahl Muster je Wort erforderlich, die bei unterschiedlichen Sprechgeschwindigkeiten aufgezeichnet und alle möglichen Kombinationen von Änderungen in der Dauer der einzelnen Phoneme umfassen würden. Ein bekanntes Verfahren zur Überwindung des Wortdauerproblems ist das Prinzip der nichtlinearen Zeitbasis, wie es von G. L. Clapper unter dem Titel

409848/0809

"Automatic Word Recognition" in IEEE Spectrum, August 1971 beschrieben wird. Eine v/eitere Möglichkeit besteht darin, einzelne Phoneme über das Verfahren der binären Selektion zu klassifizieren, wie das in J. Acoust. Soc. Am. 1956 in einem mit "Electronic Binary Selection System for Phonemes Classification" bezeichneten Aufsatz beschrieben wird.

EinPrinzip, das zur Verwirklichung der Signalverarbeitungskreise der vorliegenden Erfindung brauchbar ist, sieht vor, daß die Signale von den Formantfolgekreisen durch eine Matrix mit einem Muster adaptiver Speicherelemente wie in Spalten und Zeilen angeordneter magnetischer oder Festkörper-Speicherelemente (Minstores) ausgewertet werden. Charakteristika gesprochener Wörter eines Vokabulars oder Charakteristika eines einzelnen Sprechers werden den adaptiven Elementen in jeder Spalte zugeordnet, so daß jede Zeile adaptiver Elemente einer Gruppe Charakteristika entspricht. Die Elemente in jeder Zeile werden mit einer unterschiedlichen Gruppe Adaptationen kodiert, die den Charakteristika entsprechen, von denen zu erwarten ist, daß sie mit den Charakteristika der Sprach-Eingangsinformationen übereinstimmen", die von den Formantfolgerkreisen geliefert wird. Von den Formantfolger-Ausgangs-Signalen abgeleitete Adaptationen werden gleichzeitig jeweils jeder Spalte in vergleichender Zuordnung mit der kodierten Adaptation der Elemente eingeprägt. Der Vergleich erfolgt für alle Charakteristika auf Echtzeitbasis (augenblicklich). Für jede Zeile wird eine Messung der Gesamtabweichung der Charakteristika entsprechend den Formantfolger-Ausgangssignalen von der gespeicherten Charakteristika-Information abgeleitet. Es wird eine Ermittlung hinsichtlich der Identität der bestimmten Charakteristika des Formantfolgerausgangs durchgeführt, wie sie der gespeicherten Information entspricht, die eine minimale Abweichung erzeugte .

Patentansprüche;

409848/0809

Claims

P atentansprüche ;

1A Schaltungsanordnung zur Identifizierung einer Formantfrequenz ν J
^v—' in einem gesprochenen Wort, gekennzeichnet durch eine abstimm-. bare elektronische Filtereinrichtung (20, 30), die einstellbare Mittenfrequenzkennwerte hat und auf einen vorgegebenen Frequenzgehalt eines gesprochenen Wortes ansprechen kann, eine Analysiereinrichtung zur Analyse des Ausgangssignals der Filtereinrichtung und zur Ermittlung, ob eine Formantfrequenz anwesend 1st, sowie durch eine zwischen die Analysier- und die Filtereinrichtung geschaltete Steuereinrichtung zur Erzeugung eines Steuersignals für die Einstellung der Mittenfrequenz der Filtereinrichtung, so daß diese im wesentlichen mit der Frequenz des Formanten zusammenfällt.
2. Schaltungsanordnung nach Anspruch 1, dadurch gekennzeichnet, daß die abstimmbare elektronische Filtereinrichtung ein abstimmbares erstes Filter (20) und ein abstimmbares zweites Filter (20) aufweist, die jeweils eine einstellbare Mittenfrequenz und einen einstellbaren Q-Wert haben und gesprochene Wörter aufnehmen können, daß das erste abstimmbare Filter auf den Frequenzgehalt der in einem Frequenzbereich in einer ersten Richtung von der Mittenfrequenz auftretenden gesprochenen Wörter und das zweite abstimmbare Filter (30) auf den Frequenzgehalt Jvea-in einem Frequenzbereich entgegengesetzter Richtung auftretender gesprochener Wörter ansprechen kann.
3. Schaltungsanordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Analysiereinrichtung auf die Ausgangssignale des ersten und des zweiten abstimmbaren elektronischen Filters (20, 30) durch Erzeugung eines Ausgangssignals anspricht, das der,Nettoabweichung der Formantfrequenz von der Mittenfrequenz entspricht, und daß die Steuereinrichtung auf das Ausgangssignal von der Analysiereinrichtung ansprechen kann, um ein Steuer-Eingangssignal für das erste und das zweite Filter zu erzeugen und damit die Mittenfrequenz der Filtereinrichtung

409848/0809

so einzustellen, daß sie im wesentlichen der Formantfrequenz entspricht.
4. Schaltungsanordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die Steuereinrichtung einen Integrator zur Integration des Ausgangs der Analysiereinrichtung und zur Abgabe eines Ausgangssignals als Steuer-Eingangssignal für das erste bzw. zweite Filter aufweist und daß die Steuereinrichtung als Rückkopplungskreis für die fortlaufende Einstellung der Mittenfrequenz des ersten und zweiten Filters in Abhängigkeit von einem sich ändernden Ausgangssignal von der Analysiereinrichtung arbeitet.
5. Schaltungsanordnung nach einem der Ansprüche 1-4, gekennzeichnet durch eine Einrichtung (24, 34) zur Erhöhung des Q-Werts der elektronischen Filtereinrichtung beim Auftreten von Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz.
6. Schaltungsanordnung nach Anspruch 5, gekennzeichnet durch eine Mehrzahl Paare abstimmbarer elektronischer Filter (FT , FI₂ ···)* die in Kaskade geschaltet sind, wobei jedes Paar Filter auf die niedrigste Formantfrequenz ansprechen kann, die in der zugeführten Sprach-ISingangs information enthalten ist, unü wobei die Mittenfrequenz jedes Paars abstimmbarer Filter durch ein extern angelegtes Signal eingestellt werden kann, daß die Analysiereinrichtung gesonderte Schaltkreis-Einheiten aufweist, die den einzelnen Paaren der abstimmbaren elektronischen Filter zugeordnet sind, so daß ein Signal erzeugt wird, das der Abweichung der Formantfrequenz von der jeweiligen Mittenfrequenz entspricht,/aaß die Steuereinrichtung gesonderte Einheiten aufweist, die mit den entsprechenden Analysier-Schaltkreis-Einheiten so verbunden sind, daß ein Steuersignal in Abhängigkeit von dem Analysier-Ausgangssignal erzeugt und dieses Steuersignal an das entsprechende Paar abstimmbarer elektronischer Filter geliefert wird, um die Mittanfrequenz des jeweiligen Paars abstimmbarer Filter fortlau-

409848/0809

fend so einzustellen, daß Koinzidenz zwischen der Formantfrequenz und der Mittenfrequenz eingestellt und aufrechterhalten und somit die Formantfrequenz wirksam verfolgt wird, wobei das Ausgangssignal der jeweiligen Steuerkreiseinheit für die Formantfrequenz repräsentativ ist.
7. Schaltungsanordnung nach Anspruch 6, gekennzeichnet durch Schaltkreis-Kopplungsmi'ttel (Fl, F2 ...), um die jeweiligen Paare abstimmbarer elektronischer Filter so zu koppeln, daß die Formantfrequenz-Information, die von dem vorhergehenden Paar abstimmbarer elektronischer Filter überwacht wird, an einer Speisung des nachfolgenden Paars abstimmbarer elektronischer Filter gehindert wird.
8. Schaltungsanordnung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß ein Paar der abstimmbaren elektronischen Filter (PT), das in die Kaskadenanordnung der Mehrzahl Filtereinrichtungen geschaltet ist, auf die Stimmhöhenfrequenz der Sprach-Eingangsinformation ansprechen und ein damit übereinstimmendes Ausgangssignal erzeugen kann, daß eine zugehörige Analysierkreiseinheit mit dem Paar abstimmbarer elektronischer Filter so verbunden ist, daß ein Ausgangssignal erzeugt wird, das der Abweichung der Stimmhöhenfrequenz von der einstellbaren Mittenfrequenz des Paars abstimmbarer aktiver Filter entsprächt, und daß die zugeordnete Steuerkreiseinheit zwischen die Analysierkreiseinheit und das Paar abstimmbarer aktiver Filter geschaltet ist, um auf das Ausgangssignal der Analysiereinrichtung anzusprechen und ein Steuersignal zu erzeugen, das einem Paar abstimmbarer elektronischer Filter so zugeführt wird, daß es zu einer Einstellung der Mittenfrequenz derart kommt, daß sie im wesentlichen der Stimmhöhenfrequenz entspricht.
9. Schaltungsanordnung nach Anspruch 6, 7 oder 8, dadurch gekennzeichnet, daß jede Steuerkreiseinheit als Rückkopplungskreis arbeitet, um die entsprechende Formantfrequenz wirksam zu verfolgen und zwischen der Mittenfrequenz des entsprechenden

409848/0809

Paars abstimmbarer elektronischer Filter und der entsprechenden Formantfrequenz Koinzidenz aufrechtzuerhalten, wobei die von der jeweiligen Steuerkreiseinheit für das jeweilige abstimmbare elektronische Filter erzeugten Ausgangssignale für die jeweiligen Formantfreq.uenzen der Sprach-Eingangs in formation repräsentativ sind und die Kaskadenanordnung der Paare - abstimmbarer elektronischer Filter augenblicklich Information liefert, die dem Formantgehalt der Sprach-Eingangsinformation entspricht: ·
10. Schaltungsanordnung nach einem der Ansprüche 6-9, dadurch gekennzeichnet, daß jedes der Paare abstimmbarer elektronischer Filter einen einstellbaren Q-Wert und entsprechende Einrichtungen hat, um auf den Koinzidenzzustand zwischen der Formantfrequenz und der Mittenfrequenz durch Erhöhung des Q-Werts des zugeordneten Paars abstimmbarer elektronischer Filter anzusprechen.
11. Schaltungsanordnung nach einem der Ansprüche 7-10, gekennzeichnet durch eine Einrichtung zur Signalverarbeitung der Formantfrequenz-Information von den Paaren abstimmbarer elektronischer Filter, um die erfaßten Formantfrequenzen mit ein vorgegebenes Muster aufweisender gespeicherter Information zu vergleichen.

KN/hs/jn 3

409348/0809

/9

Leerseite