DE4317372A1 - Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes - Google Patents

Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes

Info

Publication number
DE4317372A1
DE4317372A1 DE4317372A DE4317372A DE4317372A1 DE 4317372 A1 DE4317372 A1 DE 4317372A1 DE 4317372 A DE4317372 A DE 4317372A DE 4317372 A DE4317372 A DE 4317372A DE 4317372 A1 DE4317372 A1 DE 4317372A1
Authority
DE
Germany
Prior art keywords
acoustic
visual
speech recognition
recognition system
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE4317372A
Other languages
English (en)
Other versions
DE4317372C2 (de
Inventor
David G Stork
Gregory J Wolff
Earl Isaac Levine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of DE4317372A1 publication Critical patent/DE4317372A1/de
Application granted granted Critical
Publication of DE4317372C2 publication Critical patent/DE4317372C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Description

Die Erfindung betrifft das Gebiet der maschinellen Sprach­ erkennung und insbesondere die Verbesserung akustischer Spracherkennung durch die Nutzung maschinellen Lippenlesens in Verbindung mit akustischen Daten in einem Neural-Netz­ werks-Klassifikationssystem.
Das Ziel automatischer oder maschineller Spracherkennung ist es, ein System zu entwerfen, das der menschlichen Fä­ higkeit näherkommt, gesprochene Sprache zu verstehen, auch bei verschiedenen Akzenten von Sprechern, bei Personen ver­ schiedenen Geschlechts, verschiedener Sprechgeschwindig­ keit, verschiedener Grade der Koartikulierung, und all dies in der Gegenwart akustischer Ablenkung und Rauschen. Ge­ bräuchliche automatisierte Systeme haben eine niedrigere Genauigkeit und Robustheit als notwendig wäre, um das un­ geheure Bedürfnis bei Anwendungen, wie computerisierte Sprach-Text-Umwandlung, automatische Übersetzung und sprachbasierte Kontrollsysteme zu befriedigen. Zu den ver­ breiteten Methoden gehören versteckte Markov-Modelle, bei denen die Übergangswahrscheinlichkeiten in den Verbindungen zwischen den Knotenpunkten (Zuständen), die phonemische Segmente darstellen, kodiert sind und "Tafel-"Methoden ("Blackboard"-Methoden), bei denen phonologisch, lexika­ lisch und grammatikalisch basierte Spezial-Mehrzwecks-Unter­ systeme miteinander kombiniert werden, um synergetisch zu arbeiten, um die Spracherkennungsrate zu maximieren. In jüngerer Zeit sind Neural-Netzwerke mit einigem Erfolg in beschränkten Gebieten, wie z. B. durch A. Waibel in einem Artikel beschrieben, betitelt "Modular Construction of Time-Delay Neural Networks for Speech Recognition", ver­ öffentlicht in Neural Computation 1, 39-46 (1989), ange­ wandt worden.
Jede zur Vorhersage geeignete Informationsquelle und jede Nebenbedingung, die in vernünftiger Weise in eine künstli­ ches System aufgenommen werden kann, hat die Tendenz, zu einer Erhöhung der Erkennungsgenauigkeit zu führen und es ist deshalb wünschenswert, solche in ein Spracherkennungs­ system einzubeziehen. Traditionell hat sich die meiste For­ schung auf eine Einbeziehung höherwertiger linguistischer Information, wie z. B. grammatikalischer und syntaktischer Daten, konzentriert. Es ist klar, daß die Menschen andere als die durch akustische Signale gegebene Information ver­ wenden können, um das Verständnis zu verbessern. Hörgeschä­ digte Menschen z. B. nutzen oft visuelle Information zum "Sprachlesen", um die Erkennungsgenauigkeit zu verbessern. Siehe z. B. Dodd, B. und Campbell, R. (Hrsg.), "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987), oder DeFilippo, C.L. und Sims, D.G. (Hrsg.) "New Reflections on Speechreading", Son­ derausgabe des "The Volta Review" 90(5), (1988).
Sprachlesen kann direkte Information über Sprachsegmente und Phoneme und auch über die Geschwindigkeit, das Ge­ schlecht des Sprechers, seine Identität und subtile Infor­ mationen zur Trennung der Sprache vom Hintergrundrauschen liefern. Der wohlbekannte "Cocktail-Party-Effekt", bei dem durch den Lärm der Menge korrumpierte Sprache signifikant verständlicher wird, wenn man das Gesicht des Sprechers se­ hen kann, bietet einen starken Beweis dafür, daß Menschen visuelle Information bei der Spracherkennung nutzen.
Verschiedene Sprachlese-Systeme sind jüngst beschrieben worden, einschließlich:
  • a) Petajan, E.D. u. a., "An Improved Automatic Lipreading System to Enhance Speech Recognition" CM SIGCHI-88, 19-254 (1988);
  • b) Pentland, A. u. a. "Lip Reading: Automatic Visual Recognition of Spoken Words" Proc. Image Understanding and Machine Vision, optical Society of America, June 12-14 (1984); und
  • c) Yuhas, B.P. u. a. "Integration of Acoustic and Visual Speech Signals Using Neural Networks" Nov. 1989, IEEE Communications Magazine (1989).
Petajan u. a. benutzten Schwellenwertbilder (Bildpunkte) des Gesichts eines Sprechers während der Bildung eines Wortes in Verbindung mit einem Verzeichnis vorher abgespeicherter markierter Äußerungen und einem Standardabstands-Klassifi­ kator zur visuellen Erkennung.
Pentland u. a. benutzten ein optisches Flußverfahren, um die Geschwindigkeit der Oberlippe, Unterlippe und der beider Mundwinkel aus dem unverarbeiteten Bildpunkt-Videobild des Mundes abzuschätzen. Sie benutzten dann eine Hauptkomponen­ tenanalyse und einen Minimalabstands-Klassifikator für Sprechgruppen aus drei und vier Einheiten.
Yuhas u. a. trainierten ein Neural-Netzwerk unter Verwendung eines statischen Bildes der Mundform zur Vokalerkennung zu­ sammen mit einem Kontroller mit freien Parametern, um die relativen Gewichte der visuellen und auditiven Beiträge mit dem Ziel bester Erkennung in Gegenwart verschiedener Ni­ veaus akustischen Rauschens anzupassen.
Gemäß dieser Erfindung ist ein Spracherkennungssystem vor­ gesehen, in dem sowohl akustische als auch visuelle Sprach­ signale verarbeitet werden, um die Wahrscheinlichkeit einer korrekten Klassifizierung von Sprachäußerungen zu verbes­ sern.
Ein Ziel ist es, die Leistungsfähigkeit eines Spracherken­ nungssystems, das nur entweder akustische Information oder visuelle Information über die Position der Lippen insbeson­ dere in einer ungünstigen verrauschten Umgebung nutzt, zu verbessern.
Ein weiteres Ziel ist es, ein neues Zeitverzögerungs- Neural-Netzwerks-Sprachlesesystem zur Klassifizierung von Äußerungen zu schaffen, das nur visuelle Daten nutzt.
Ein weiteres Ziel ist es, ein akustisches Spracherkennungs­ system durch die Benutzung eines visuellen Zeitverzöge­ rungs-Neural-Netzwerks-Spracherkennungssystems in Verbin­ dung mit einem akustischen Spracherkennungssystem zu ver­ bessern.
Ein weiteres Ziel ist es, den Klassifikator mit einem kon­ tinuierlichen Strom zusammenhängender visueller und akusti­ scher Daten zu versorgen, aus dem die akustische Äußerung detektiert und klassifiziert werden kann.
Ein weiteres Ziel ist es, eine Zeitverzögerungs-Neural- Netzwerks-Klassifikatorarchitektur zu schaffen, die Gra­ dientenabstieg (gradient descent) oder andere Lernmethoden, wie z. B. Rückwärtsausbreitungstraining (back propagation training), unterstützt.
Ein weiteres Ziel ist es, akustische und visuelle Signal­ vorverarbeitung vor dem Zeitverzögerungs-Neural-Netzwerks- Klassifikator zu schaffen.
Ein weiteres Ziel ist es, eine Ausgangsklassifizierung zu schaffen, d. h. eine Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit dafür, daß jede mögliche Äußerung eines Kandidaten in einem gegebenen Zeitintervall stattgefunden hat, darstellt.
Ein weiteres Ziel ist es, eine einfache Methode zur Extra­ hierung dynamischer, gesichtsbezogener, visueller Informa­ tion vermittels einer ausgewählten Menge von Gesichtsmarken zu schaffen.
Ein Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher eingerichteten Satz von zulässigen Äußerungen eines Kandidaten gehören, weist dabei folgendes auf: einen Merkmalsextraktionsapparat, einen Extraktions­ apparat für dynamische, visuelle Merkmale und einen Neural- Netzwerks-Klassifikationsapparat. Der Extraktionsapparat für akustische Merkmale wandelt akustische Sprechsignale, die repräsentativ für eine Äußerung sind, in einen entspre­ chenden Satz von Spektralmerkmalsvektoren um. Der Extrak­ tionsapparat für dynamische, visuelle Merkmale wandelt die dynamischen Gesichtsmerkmale, die mit der Erzeugung der akustischen Äußerung verbunden sind, in einen Satz dynami­ scher, visueller Merkmalsvektoren um. Der Neural-Netzwerks- Klassifikationsapparat wandelt die Vektoren der dynami­ schen, akustischen und visuellen Merkmale in eine bedingte Wahrscheinlichkeitsverteilung, die die Wahrscheinlichkeit für jede gesprochene Äußerung eines Kandidaten auf der Ba­ sis der gemessenen akustischen und visuellen Daten be­ schreibt, um.
Nachfolgend wird die Erfindung anhand von Ausführungsbei­ spielen unter Bezugnahme auf die Zeichnung beschrieben.
Fig. 1 zeigt ein Blockdiagramm eines akustischen und vi­ suellen, dynamischen Spracherkennungssystems.
Fig. 2 zeigt die Plazierung der visuellen Vergleichsmar­ ken auf den und um die Lippen des Sprechers.
Fig. 3 zeigt die Beziehung zwischen den gleichförmigen Mel-Frequenzbändern und den entsprechenden nicht- gleichförmigen linearen Frequenzbändern.
Fig. 4 zeigt zwei gleichwertige Implementierungen eines Einschichtzeitverzögerungs-Neural-Netzwerkes (TDNN, Time Delay Neural Network).
Fig. 5 zeigt ein elektrisches Analogon einer typischen Äußerung zusammen mit ihrem Spektrogramm.
Fig. 6 zeigt die Architektur eines nur visuellen (VO, Visual Only) Mehrschichts-TDNN.
Fig. 7 zeigt eine hardware-getreue TDNN-Architektur.
Fig. 8 zeigt ein Blockdiagramm eines akustischen und vi­ suellen Spracherkennungssystems, das die Ausgänge von getrennten akustischen und visuellen Erken­ nungssystemen verbindet.
Fig. 9 zeigt eine hardware-getreue Ausführungsform eines A×V TDNN-Sprachklassifikators.
Fig. 10 zeigt eine hardware-getreue Ausführungsform eines anderen TDNN-Sprachklassifikators.
Fig. 11 zeigt eine hardware-getreue Ausführungsform eines gesamten AV-Sprachklassifikators.
Fig. 12 zeigt die Architektur einer typischen künstlichen McCulloch-Pitts-Neuralzelle.
Fig. 13 zeigt Beispiele für die Übertragungscharakteri­ stik von Aktivierungsfunktionen.
Fig. 14 zeigt die Architektur einer typischen künstlichen Sigma-pi (ΣΠ) Neuralzelle.
Fig. 15 zeigt einen Satz von Lernkurven, die den Fort­ schritt des Lernens darstellen.
Fig. 16 zeigt eine Gruppe von Verwaschungsmatrizen für vier Systeme.
Verschiedene Ausführungsformen von Spracherkennungssystemen werden beschrieben, bei denen jedes System darauf trainiert ist, eine begrenzte Gruppe von Sprachäußerungen zu erken­ nen. Die verschiedenen Ausführungsformen unterscheiden sich in dem Typ der genutzten Information und/oder in der Art, in der die Informationssignale verarbeitet werden. In jedem Fall ist es das Ziel eines Spracherkennungssystems, am Aus­ gang des Klassifikators eine Wahrscheinlichkeitsverteilung zu erzeugen, die mit allen möglichen Äußerungen des Kandi­ daten zusammenhängt.
Aus Gründen der Klarheit werden in der folgenden Beschrei­ bung spezifische Beispiele der Ausführungsformen der Erfin­ dung, die dazu verwendet werden, eine von zehn Äußerungen des Kandidaten zu erkennen, benutzt. Dies ist jedoch keine Beschränkung in der Zahl oder der Typen von Äußerungen, die erfaßt werden können.
Die vorliegende Erfindung betrifft ein System zur Sprach­ erkennung, das sich dynamisch verändernde akustische und visuelle Signale zur Verbesserung des Spracherkennungsver­ haltens benutzt. Fig. 1 zeigt ein vereinfachtes Blockdia­ gramm einer Ausführungsform. Akustische Sprechdaten werden durch das Mikrophon 20 gesammelt, das vermittels der Aus­ gangsleitung 22 die elektrische Signalreplika der akusti­ schen Information an den Spektralanalysator 24 gibt, wo die akustische Energie auf eine Gruppe von 14 Filtern gegeben wird. Die zeitlich veränderliche Kurzzeitenergieausgabe von jedem der 14 Filter wird gemessen, normalisiert und an die 14 Ausgabeleitungen 25 als ein zeitlich veränderlicher Vek­ tor mit 14 Komponenten gegeben.
Gleichzeitig empfängt eine Videokamera 10 die damit ver­ bundenen visuellen Daten ein, die durch die Gruppe von Mar­ ken erzeugt wurden, um die durch die gegebene Sprachäuße­ rung erzeugten Lippen- und Mundbewegungen zu beschreiben. Diese Roh-Videoinformation wird vermittels der Leitung 12 zu dem Lippen- und Mundpositionsvektor-Generator 14 ge­ führt, wo die zeitlich veränderlichen Positionen der Lippen und Mundmarken bezüglich der Kopfneigung und Größe normali­ siert werden und einen zeitlich veränderlichen Vektor an den fünf Ausgangsleitungen 15 erzeugen, der die mit der akustischen Äußerung verbundene Lippen- und Mundaktivität beschreibt.
Der Lippen- und Mundpositionsvektor-Generator 14 umfaßt ein Nachführsystem 16 zur Verfolgung der Position von licht­ emittierenden oder reflektierenden Vergleichsmarken, die auf den und um die Lippen des Sprechers angeordnet sind, und einen Vektorgenerator 19, der ausgewählte Entfernungen zwischen den Vergleichsmarken extrahiert und normalisiert. Dieser Apparat wurde unter Verwendung des computerbasierten zweidimensionalen Bewegungsanalysesystems implementiert, das von der Motion Analysis Corporation, 3650 North Laughlin Road, Santa Rosa, California 95403, unter dem Warenzeichen "Expert Vision" hergestellt wird.
Das "Expert Vision"-Videonachführungssystem benutzt eine Videoausrüstung, um die Bewegungen der Objekte aufzunehmen. Reflektierende Marken sind an Stellen von Interesse an­ gebracht. Das System kann Daten aufnehmen und analysieren, die von einer Video-Kamera 10 (oder Band) bei der Standard­ videobildwechselfrequenz von 60 Hz oder bis zu 200 Hz auf­ genommen wurden.
Die unverarbeiteten Videodaten aus der Video-Kamera werden an das Videoverarbeitungsuntersystem gegeben, das die Mar­ kenbilder isoliert und sie in Echtzeit in digitalisierte Videokonturbilder umwandelt. Der Videoprozessor versorgt den Host-Rechner mit der Funktion des Nachführungssystems 16 durch die Erstellung der x- und y-Koordinaten der Ränder der Marken zur Weiterverarbeitung. Die bei Videobildwech­ selfrequenzintervallen detektierten Bildschirmpositionen werden in einem rechteckigen Muster von 256 Bildpunkten Breite (in die x-Richtung) und 240 Bildpunkten Höhe (in die y-Richtung) ausgedrückt.
Die Videokonturen werden zu Schwerpunkten durch die Soft­ ware des Host-Computers reduziert. Der Schwerpunkt jeder reflektierenden Marke wird durch die Mittelung der Koordi­ naten der individuellen Bildpunkte bestimmt, die die Kontur der Marke bilden. Die Schwerpunkte von jeder Marke werden gekennzeichnet und von Bild zu Bild verbunden, um eine Tra­ jektorie zu bilden. Zusätzliche Software des Host-Computers wird verwendet, um einen Satz von visuellen Abstandsvekto­ ren, wie unten beschrieben und funktionell angedeutet durch Vektorgenerator 19 in Fig. 1, zu generieren und zu normali­ sieren.
Beide der zeitlich veränderlichen Vektoren auf Leitungen 15 und 25 werden an einen Zeitverzögerungs-Neural-Netzwerk­ sprachklassifikator ("TDNN") 200 gegeben, wobei das Neural- Netzwerk zehn Ausgangssignale auf Leitungen 17 aufweist. Jede der Ausgabeleitungen 17 ist ausschließlich mit einer der zehn möglichen Sprachäußerungen, die das TDNN 200 trai­ ningsgemäß erkennen soll, zugeordnet. Der Signalpegel auf jeder der zehn Leitungen ist repräsentativ für die Wahr­ scheinlichkeit, mit der die damit assoziierte Äußerung ge­ macht wurde. Das Ausgabenetzwerk 18 (gepunktet gezeichnet) ist ein optionaler eins-aus-zehn Klassifikator (innerhalb des Fachgebiets gut bekannt), der die wahrscheinlichste Äußerung auswählt, indem er die Äußerung wählt, die der Leitung mit dem höchsten Pegel (Wahrscheinlichkeit) der zehn Leitungen 17 entspricht. Da der TDNN-Klassifikator 200 in der Lage ist, einen zeitlich veränderlichen Datenstrom zu untersuchen, ist die exakte Kenntnis der zeitlichen Po­ sition der akustischen und visuellen Information nicht not­ wendig.
Fig. 2 zeigt die Plazierung von zehn reflektierenden Marken (M0, 9) auf den Gesichtern der Sprecher, die in einer Aus­ führungsform verwendet wurden. Die Positionen der zehn Ver­ gleichsmarken waren: Die Nasenspitze (M0), die Mitte des Kinns (M1), der linke Mundwinkel (M2), der rechte Mundwin­ kel (M3), die obere Mitte der Lippen (M4), die untere Mitte der Lippen (M5) und vier Punkten auf den Lippen ungefähr mittig zwischen der Mitte der Oberlippe und dem linken und rechten Mundwinkel (M6, M7) und zwischen der Mitte der Un­ terlippe und dem linken und rechten Mundwinkel (M8, M9). Dieser Satz von Vergleichsmarken wurde benutzt, um die ge­ nerelle Form und Bewegung des Lippen- und Mundbereichs zu etablieren. Diese spezielle Anordnung hat den Vorteil der Einfachheit verglichen mit dem berechnungsintensiven Pro­ blem, dieselbe Information aus einem enormen Datenvolumen, das durch Sequenzen von Video-Bildpunktbildern erzeugt wur­ de, abzuleiten.
Die Position der reflektierenden Vergleichsmarken auf den Gesichtern jedes Sprechers wurden durch eine Video-Kamera bei einer Bildwechselfrequenz von 60 Hz aufgenommen und dann durch einen Positionsvektorgenerator 14 in visuelle Merkmalsvektoren transformiert, die fünf Komponenten ent­ halten, wie in folgender Tabelle gezeigt:
Diese besondere Wahl der Vektorkomponentenmerkmale wurde derart getroffen, daß die verschiedenen Abstände über den Mund und das Gesicht einfach unabhängig von Verschiebungen und Drehungen des Kopfes gemacht werden können. Dies wurde innerhalb des Vektorgenerators 14 erreicht, indem man zu­ erst den Kopf so drehte, daß die durch die Vergleichsmarken M0 und M1 gezogene Linie vertikal war, woraufhin die drei vertikalen Abstände (M0-M1, M4-M5 und der mittlere Abstand von M6-M8 und M7-M9) und die zwei horizontalen Abstände (M2-M3 und der mittlere Abstand von M6-M7 und M8-M9) be­ rechnet wurden.
Eine weitere Normalisierung der Merkmalskomponenten war nö­ tig aufgrund der bei Gesichtsmessungen auftretenden Unter­ schiede zwischen den Versuchspersonen. Es wurde auch fest­ gestellt, daß sich der Mund von Zeit zu Zeit in einer teil­ weise geöffneten Ruheposition befand. Der erste Normalisie­ rungsschritt lieferte einen für die Größe des Gesichts je­ des Sprechers charakteristischen Satz von Gesichtsmessun­ gen, indem die Vektoren, die allen Ruhepositionszeiten ent­ sprachen, gemittelt wurden. Daraufhin wurde jeder visuelle Vektor in der Folge normalisiert, indem man den Ruhemittel­ wert von jeder Komponente subtrahierte und die Länge derart skalierte, daß jede Komponente einen Wert von plus oder mi­ nus eins hat, wenn ihr Pegel plus oder minus zwei Standard­ abweichungen vom Mittelwert entspricht.
Obwohl der oben aufgezählte spezifische Satz von Gesichts­ bewegungsmerkmalen bei der Anwendung der Spracherkennung für die Praxis verwendet wurde, könnten auch andere glei­ chermaßen repräsentative Sätze von dynamischen Messungen verwendet werden, um die wesentliche visuelle Information zu liefern. Dies könnte zu einem anderen, aber effektiven, dynamischen visuellen Datenvektor führen. Zum Beispiel könnte eine Video-Kamera ein dynamisches Bildpunktbild von dem Mund und den Lippen des Sprechers produzieren. Die dy­ namische Form könnte charakterisiert werden, indem man den Abstand zwischen den Schatten unterhalb der Ober- und Un­ terlippe, der durch das Deckenoberlicht erzeugt wird, mißt. Ein Satz derartiger Messungen über den Mund verteilt, würde die dynamische Form beschreiben.
Die akustischen Datensignale fanden in einem Zeitfenster von 2 Sekunden Länge statt und wurden gleichzeitig durch ein Kardioid-Mikrophon 20 aufgenommen und dann bei einer Abtastfrequenz von 8012 Hz abgetastet und digitalisiert, wobei eine 8 Bit "mu-law"-Kodierung verwendet wurde (gleichwertig mit der Qualität digitaler Telephonleitun­ gen). Eine 14wertige Mel Leistungsspektrumsanalyse wurde durch den Spektralanalysator 24 mit Hilfe einer diskreten Fourier-Transformation auf 256 Datenpunktfenstern erstellt, die jeweils um Intervalle von 5 ms zentriert waren, um den 14 Mel Leistungsspektrumsanalysefilter zu simulieren. Jedes der 256 Datenpunktfenster wurde durch eine Hamming′sche Fensterfunktion dargestellt, um den Spektralschwund zu re­ duzieren. Die Anwendung der diskreten Fourier-Transforma­ tion auf die durch ein Fenster herausgegriffenen Daten und die Bildung der Quadrate der Werte der Fourier-Koeffizien­ ten führte zu einer gleichmäßigen Auflösung des Leistungs­ spektrums von 128 Punkten. Das 14 Band Mel Leistungsspek­ trum hat eine Frequenzskala, F, die zur normalen linearen Frequenzskala, f, in folgendem logerithmischem Zusammenhang steht:
F=ln(1+f/700).
Diese Mel-Frequenzskala basiert auf Experimenten zur psy­ choakustischen Frequenzskalierung, die zeigen, daß die menschliche Beurteilung der relativen Tonhöhe von zwei Sinusschwingungen nicht äquivalent zu ihrem tatsächlichen arithmetischen Verhältnis ist. Obiger Ausdruck setzt des­ halb die Beurteilung der wahrgenommenen Tonhöhe, F, zur physikalischen Messung der Frequenz, f, in Beziehung. Be­ merkenswert ist, daß, obwohl das Mel Leistungsspektrum be­ nutzt wurde, eine Vielzahl von Leistungsspektrumstypen, ein­ schließlich derer, die auf gleichförmigen oder exponentiell skalierten Bandintervallen beruhen, in dieser Anwendung auch leistungsfähig sein können.
Fig. 3 zeigt die graphische Darstellung der Mel-Frequenz, F, gegen die tatsächliche Frequenz, f. 14 Bänder gleichför­ miger Breite auf der Mel Skala sind auf der vertikalen Skala zusammen mit ihrer Projektion auf die tatsächliche Frequenzskala, als nicht gleichförmige Bänder, die in Über­ einstimmung mit obigem Ausdruck bei zunehmender Frequenz f zunehmen, dargestellt. Die Skala der unteren Abszisse setzt den Fourier-Koeffizientenfrequenzindex in bezug zur tat­ sächlichen Frequenz. Die 14 Mel Filter gleichförmiger Band­ breite werden deshalb, wie gezeigt, durch Summation des Leistungsspektrums in den entsprechenden nicht-gleichförmi­ gen Bändern linearer Skala simuliert. Ein statistisch be­ ständigeres Mel Skala-Leistungsspektrum wird alle 5 ms oder 200mal pro Sekunde erzeugt, indem aufeinanderfolgende Paare von Spektren gemittelt werden, was die effektive Spektrumsausgabegeschwindigkeit auf eine je 10 ms reduziert (100 Spektren pro Sekunde). Der nächste Verarbeitungs­ schritt, der vom Spektralanalysator 24 durchgeführt wird, ist die Bestimmung des Logarithmus von jedem Mel Spektrum, um einen 14komponentigen logarithmischen (log) Mel Spek­ tralvektor zu erhalten. Die Normalisierung von jedem Satz logarithmischer Mel Spektren, die einer gegebenen Äußerung entsprachen, wurde dadurch erreicht, daß man den Mittelwert berechnet und den größten und kleinsten aller Werte des Satzes extrahierte. Die logarithmischen Spektralsätze wur­ den dann skaliert und (zahlenmäßig) so verschoben, daß der neue Mittelwert bei 0 und der Maximalwert jeden logarith­ mischen Spektrums bei 1 liegt. Die normalisierten logarith­ mischen Mel Spektralvektoren werden an den Ausgangsleitun­ gen 25 des Spektralanalysators 24 verfügbar gemacht.
Da in einer Ausführungsform die Videobildwechselfrequenz der Kamera 10 bei 60 Bildern pro Sekunde lag, wohingegen die Spektralerzeugungsrate des Spektralanalysators bei 100 Spektren pro Sekunde lag, war ein zusätzlicher Verarbei­ tungsschritt notwendig, um die beiden Raten einander anzu­ passen. Dies ist graphisch in Fig. 1 durch die gepunktet gezeichnete Box 26, die mit "Interpolator" beschriftet ist, dargestellt, da diese nur notwendig ist, wenn die Videorahmen­ frequenz und die Spektralrahmenfrequenz nicht überein­ stimmen. In diesem Fall wurden aufeinanderfolgende Videoda­ tenfenster (Vektoren), jeweils aus den fünf vorher be­ schriebenen Vektorkomponenten bestehend, interpoliert unter Verwendung eines (sin x)/x-artigen Interpolationskerns, um eine neue Folge von Vektoren mit einer Frequenz von 100 pro Sekunde zu erzeugen. In anderen Worten, der Wert des k-ten interpolierten Ereignisses, das sich zur Zeit=k/100 Sekunden (k=0, ±1, ±2, . . . ) ereignet, d. h. in gleichförmi­ gen Zeitintervallen von 10 ms, ist gegeben durch:
wobei:
x(m/60) der Wert der Vektorkomponente zur Zeit= m/60 ist;
m der ursprüngliche ganzzahlige Zeitindex, der in Intervallen von 1/60 Sekunden inkrementiert wird, ist;
k der neue Zeitindex, der in Intervallen von 1/100 Sekunden inkrementiert wird, ist; und
X(k/100) der interpolierte Wert zu den 1/100 Sekunden Intervallen ist.
Diese Operation kann durch Standardkonvolutionsverfahren (digitale Filterung) durchgeführt werden. Andere mögliche Interpolationskerne, einschließlich linearer quadratischer Kerne und Kernen polynomialen Typs höherer Ordnung, könnten auch zur Interpolation verwendet werden, ohne signifikant die Funktion zu beeinträchtigen.
Die fünf Ausgangsleitungen 15 des visuellen Vektorgenera­ tors 14 und die 14 Ausgangsleitungen 25 des akustischen Spektralanalysators 14 bilden zusammen einen 19komponenti­ gen zeitlich veränderlichen audiovisuellen ("AV") Vektor, der auf das TDNN 200 gegeben wird.
Um sowohl Äußerungen variabler Länge als auch die gewisser­ maßen unvorhersagbare Zeit des Beginns der Äußerung zu be­ rücksichtigen, wurde als Neural-Netzwerk zur Spracherken­ nung ein Zeitverzögerungs-Neural-Netzwerk (TDNN), das dem von Waibel, A., in einem Artikel "Modular Construction of Time-Delay Neural Networks for Speech Recognition" in Neural Computation 1, 39-46 (1989) beschriebenen ähnlich ist.
Fig. 4 zeigt zwei funktionell gleichwertige Implementierun­ gen eines TDNN. Fig. 4(a) besteht aus einer Verzögerungs­ leitung 103 mit gleichförmigen Abgriffen, die eine Ein­ gangsdatensequenz, x(t), auf Eingangsleitung 101 annimmt. Die Signale an den Ausgangsabgriffen 102 der Verzögerungs­ leitung stellen einen Zeitfolgenvektor dar, der repräsenta­ tiv die Zeitfolge x(t) ist, der auf die Verzögerungsleitung 103 gegeben wurde, wobei die älteren Daten rechts liegen, d. h. jeder Abgriff hat einen Ausgang, der den Wert der Ein­ gangsfolge τ Sekunden früher als der unmittelbar links davon liegende Punkt darstellt. Zu jedem gegebenen Zeit­ punkt ist die zeitliche Entwicklung der Eingangssequenz an den Ausgangsabgriffen 102 verfügbar. Ein ausgewählter Satz von benachbarten Abgriffen ist mit Leitungen 105 von Neuro­ nen 110, die mit N1 beschriftet sind, verbunden. In ähnli­ cher Weise wird ein Satz, der die gleiche Zahl von Ein­ gangsabgriffen 102, jedoch um eine Einheit τ verschoben, hat auf das Neuron 110 - mit N2 beschriftet - gegeben. Wie gezeigt, kann die TDNN-Struktur jede beliebige Zahl zusätz­ licher Neuraleinheiten 110 haben, die in derselben Art ver­ bunden sind, wobei jede um eine Verzögerungseinheit τ ver­ schoben ist. Jedes Neuron 110 ist strukturidentisch und be­ nutzt denselben Satz synaptischer Gewichte bzw. Wichtungen, die via der Leitungen 107 zugeführt werden. So stellt der Ausgang jedes Neurons 110 auf die Ausgangsleitungen 109 eine neue Datensequenz {Yk(t)} dar, die zeitlich um das Intervall τ vom Ausgang des Nachbarneurons 110 verschoben ist.
Die hardware-getreue TDNN-Struktur, die in Fig. 4(b) ge­ zeigt ist, benutzt ein einzelnes Neuron 110 in einem Multi­ plex-Betrieb. Die Eingangsdatensequenz, die auf die abge­ griffene Verzögerungsleitung 103 via Inputleitung 101 gege­ ben wird, produziert auf den Ausgangsleitungen 105 ein Bild ihrer vergangenen Werte in je τ Sekundenintervallen, die parallel auf die Neuralzelle 110 gegeben werden. Der Satz von Gewichten bzw. Wichtungen (identisch den in Fig. 4(a) benutzten) wird durch Eingangsleitungen 107 angelegt. In jedem Intervall der Länge τ produziert die Neuralzelle 110 einen Ausgangswert auf der Leitung 108, der auf eine zweite abgegriffene Verzögerungsleitung 103 gegeben wird. Wenn die zweite Verzögerungsleitung 103, die zur nächst höheren Schicht gehört, wie gezeigt, n Abgriffe hat, dann haben alle (n-1)τ Sekundenintervalle die Ausgangsabgriffe 109 einen neuen Satz von n Ausgangsvektoren, der identisch zu dem ist, der bei denselben Eingangsdatengewichten bzw. -wichtungen durch das TDNN von Fig. 4(a) produziert worden wäre.
Beide Strukturen von Fig. 4 sind geeignet, um die Komponen­ te einer einzigen zeitlich veränderlichen Vektorkomponente an ihrem Eingangsabgriff 101 aufzunehmen. Deswegen muß die gezeigte Struktur für jede Komponente des Eingangsvektors repliziert werden. Im allgemeinen würden die Eingangsge­ wichte bzw. -wichtungen für die durch die Trainingsprozedur bestimmte Komponente eindeutig sein.
Die Zeitverzögerungseinheit, τ, ist so gewählt, daß eine Verfälschung der Eingangsdaten minimiert wird. Wenn der Wert für τ wesentlich kleiner als das Nyquist Abtastinter­ vall wäre, würden die Werte benachbarter Ausgangsabgriffe 109 stark korreliert sein und könnten zu Instabilitäten beim Training aufgrund der überschüssigen Freiheitsgrade (Redundanz) , die in dem Netzwerk verwendet werden, führen. Wenn das Intervall τ größer ist als das Nyquist Abtastin­ tervall, wird eine Verfälschung eingeführt, die zu einer inkorrekten Klassifizierung der Eingangsdaten führen kann. Ein akzeptabler Wert wurde zu ungefähr 10 Millisekunden be­ stimmt.
Die Zahl der Verzögerungselemente pro Verzögerungsleitung muß ausreichend sein, um sicherzustellen, daß die gesamte Dauer einer Äußerung durch die Gesamtzeit von (n-1)τ für eine Verzögerungsleitungsstruktur von n Ausgangsabgriffen überspannt wird. Für die Klasse der benutzten Äußerungen erwies sich eine Spanne von 100 Elementen von 10 ms Verzö­ gerung (1000 ms insgesamt) als geeignet. Kürzere Beobach­ tungsspannen könnten den Wert der Klassifizierung reduzie­ ren, indem sie nicht die gesamte Dauer einer Äußerung ein­ schließen und längere Spannen könnten die Qualität der Klassifizierung reduzieren, indem sie zu viel überflüssige Daten einschließen.
In einem Spracherkennungssystem der Praxis ist ein Mehrla­ gen-TDNN mit Vektoreingabe von Nöten. Dies kann durch eine Zahl hintereinander geschalteter (kaskadierter) Einschicht- TDNN′s erreicht werden, so daß die Ausgangsfolge einer ge­ gebenen Schicht die Eingangsfolge der nächst höheren Schicht wird. Auf diese Weise bildet jede Schicht eine Ein­ gangszeitsequenz auf eine andere Ausgangszeitsequenz ab und bildet schließlich die Eingangszeitsequenz der Merkmale (akustische und visuelle) auf die Zeitsequenz der Attribute (Klassifizierung) ab. Da das TDNN eine Teilmenge der vor­ wärts gerichteten Neural-Netzwerke ist, ist es unter Ver­ wendung der wohlbekannten Rückwärtsausbreitungs- (back­ propagation) oder anderer Gradientenabstiegsalgorithmen (gradient descent) trainierbar. Zusätzlich hat das TDNN die wünschenswerte Eigenschaft, sequentiell eine identische Transformation auf eine Sequenz von Merkmalszeitfenstern zu schrittweise oder zunehmend variablen Zeitpunkten anzuwen­ den. Anders als bei konventionelleren vorwärts gerichteten Neural-Netzwerken muß die Eingangsdatensequenz präzise mit einer absoluten Zeitreferenz abgeglichen werden, um ein ordnungsgemäßes Training sicherzustellen. Die TDNN-Struktur trägt der Tatsache Rechnung, daß die Muster von Interesse innerhalb der Eingangsdatensequenz zu einem beliebigen Zeitpunkt auftreten können und das TDNN versucht, während des Lernens exemplarische Muster in der Trainingsdatense­ quenz zu finden, unabhängig davon, wann sie auftreten.
Wenn es jedoch erwünscht ist, daß der Netzwerksausgang einen einzigen Satz von Attributen aufweist, so kann in der Eingangsverzögerungsleitung eine Merkmalssequenz bestimmter Dauer gespeichert werden. Die Dauer sollte so gewählt wer­ den, daß sichergestellt ist, daß die Zeitspanne (Fenster) der Verzögerungsleitung die Sequenz von Interesse ein­ schließt. Wenn jede darauffolgende Schicht des TDNN eine Funktion der Fensterzeitspanne ist, kann der Ausgang für jedes Attribut der letzten Stufe zu einem einzigen Wert des Fensterintervalls gemittelt werden.
Fig. 5 zeigt ein Beispiel für eine typische gesprochene Äußerung. In Fig. 5(a) ist ein für den akustischen Druck repräsentatives elektrisches Signal gezeigt, das bei unge­ fähr 15,4 Sekunden beginnt und bei 17,0 Sekunden endet. Fig. 5(b) zeigt die fünf Komponenten des visuellen Vektors derselben Äußerung, der auch bei ungefähr 15,4 Sekunden be­ ginnt und ungefähr 1,6 Sekunden später endet (17,0 Sekun­ den). Ein Fenster von einer Sekunde Dauer würde deshalb ge­ eignet erscheinen, um einen Großteil sowohl der akustischen als auch visuellen Signale zu umfassen.
Für die unten beschriebenen Ausführungsformen wurden zehn mögliche Typen von Äußerungen in das Spracherkennungssystem gesprochen und zehn Ausgangswerte am Ausgang erzeugt, die jeweils die Wahrscheinlichkeit dafür darstellen, daß eine der zehn möglichen Äußerungen gesprochen wurde. Die Netz­ werkstruktur umfaßt zwei TDNN-artige Schichten, denen in der nächsten Stufe die Zeitmittelung und Wahrscheinlich­ keitsnormalisierung folgt.
Die fünf verschiedenen Ausführungsformen eines Spracherken­ nungssystems, das im folgenden beschrieben wird, beinhal­ ten:
  • a) das VO-System, das nur visuelle Daten verwendet;
  • b) das AO-System, das nur akustische Daten verwendet (AO acoustic only);
  • c) das A×V-System, eine Verbindung auf hohem Niveau eines AO- und VO-Systems;
  • d) das AV-System mit einer Verbindung auf mittlerem Niveau (Klassifikationsschicht) des AO- und VO-Sy­ stems; und
  • e) das volle AV-System mit integrierter Verarbeitung der akustischen und visuellen Daten.
Die Architektur eines TDNN-Netzwerkes ist in Fig. 6 ge­ zeigt, wie es in einer VO (visual only)-Ausführungsform eines Sprechklassifikators 200 benutzt wird, der auf dem Lesen der visuellen Gesichtsmarken basiert und unter Ver­ wendung der vorher beschriebenen fünf Abstandsmerkmale rea­ lisiert wurde. Keine akustischen Daten wurden für diese Realisierung verwendet. Die Verzögerungsleitungseingangs­ stufe 210 umfaßt fünf Verzögerungsleitungseinheiten 103 jeweils mit 100 Ausgangsabgriffen, wobei jede Verzögerungs­ leitung 103 eine der fünf Komponenten des visuellen Vek­ tors, der durch den Vektorgenerator 14 von Fig. 1 gegeben wird, speichert. Die Verzögerungsleitungen wurden durch Software simuliert. Das zeitliche Inkrement τ zwischen ge­ speicherten Werten beträgt 10 ms, so daß die Eingangszeit­ sequenzfenster 1000 ms überspannen.
Die verborgene Schicht 220 umfaßt vier Zeilen von Neural­ zellen mit jeweils 81 Neuralzellen und 5×20 Eingänge für jede Zelle. Jedes Neuron in einer gegebenen Zeile ist mit 20 benachbarten Verzögerungsleitungswerten der fünf Verzö­ gerungsleitungen verbunden. Die Reduktion von fünf auf vier Zeilen schuf eine geringe Datenkompression bezüglich der Zeilendimension.
Die Klassifikationsschicht 230 umfaßt zehn Zeilen, eine für jede zu detektierende Äußerung und ist 72 Neuralzellen lang. Jedes Neuron nimmt ein Feld von 40 Eingangsleitungen auf: vier Zeilen der verborgenen Schicht 220 mit zehn be­ nachbarten Neuralausgängen der verborgenen Schicht. Jede der resultierenden zehn Zeilen hat 72 Neuralzellen, die den 72 möglichen Werten entsprechen, die von dem zeitverschobe­ nen Ausgang der verborgenen Schicht verfügbar sind. Jeder Wert am Ausgang eines Neurons in einer gegebenen Reihe der Klassifikationsschicht 230 entspricht der Wahrscheinlich­ keit, daß die dementsprechende Äußerung während eines der 72 Zeitintervalle von 290 ms, die in 10 Millisekunden- Intervalle unterteilt sind und das ursprüngliche (Eingangs­ stufe) Datenfenster von 1000 ms aufspannen, stattfand. Die 290 ms Auflösung resultiert aus dem 20 ms Fenster, das als Eingang zur verborgenen Schicht 220 und den darauffolgenden zehn Einheitsfenstern, wie sie in der verborgenen Schicht 220 verwendet werden, benutzt wird.
Die Mittelungsschicht 240 umfaßt zehn Neuralzellen, die je­ weils einer spezifischen Zeile der Klassifikationsschicht und deshalb mit einer spezifischen der zehn zulässigen Äußerungen zugeordnet sind. Die Werte in jeder Ausgangsrei­ he der Klassifikationsschicht 230 geben die Wahrscheinlich­ keit dafür an, daß eine bestimmte Äußerung während eines 290 Millisekunden-Intervalls, das dieser Zelle entspricht, stattgefunden hat. Diese 72 Eingänge sind in der Mitte­ lungsschicht durch die entsprechende Neuralzelle verbunden, um an ihrem Ausgang einen Wert zu produzieren, der reprä­ sentativ für die Wahrscheinlichkeit ist, daß die Äußerung zu einem beliebigen Punkt während des Beobachtungsfensters von 1000 ms der Eingangsstufe 210 gesprochen wurde.
Das nur akustische (AO - acoustic only) Spracherkennungs­ system benutzt dieselbe Art von Architektur wie das VO- System, das in Fig. 6 gezeigt ist, wobei die Parameter so angepaßt werden, daß sie dem 14komponentigen Spektralmerk­ malsvektor auf der logarithmischen Mel-Skala, der durch den Spektralanalysator 14 in Fig. 1 zu Intervallen von 10 ms gegeben wird, Rechnung tragen. Die Verzögerungsleitungsein­ gangsstufe 210 besaß deshalb ein Feld von 14 Zeilen mit 100 Datenwerten als Eingänge zur verborgenen Schicht 220. Jede Reihe entspricht 1000 ms von Werten auf der logarithmischen Mel-Skala von einem der Sätze der 14 Ausgangsfilter des Spektralanalysators 14.
Die verborgene AO-Schicht 220 umfaßt vier Zeilen von 96 Neuralzellen, die für eine Merkmalskompression von 14 auf 4 sorgen. Jedes Neuron 221 ist mit fünf aneinander grenzenden Eingangsstufenzeitabtastsignalen von jedem der 14 Eingangs­ merkmale (insgesamt existieren 70 Eingangsmerkmalswerte pro Neuron) verbunden. Das Eingangsfenster von fünf Einheiten (50 ms) ist ein typisches Zeitintervall für die meisten wichtigen akustischen Merkmale, wie z. B. Kurzzeit- und Übergangsereignisse. Deshalb nimmt jedes darauffolgende Neuron in einer vorgegebenen Zeile der verborgenen Schicht 220 ein Feld von 14 Zeilen ×5 Spalten von Eingangswerten der Eingangsstufe 210 auf, die um ein 10 ms-Intervall ver­ schoben sind.
Jedes Neuron 231 der AO-Klassifikationsschicht 230 empfängt eine Eingangsauffächerung von vier Merkmalsreihen und 25 Zeitspalten von der verborgenen Schicht 220. Jede aufeinan­ derfolgende Spalte von Neuronen 231 empfängt Eingänge der verborgenen Schicht 220, die um eine Spaltenzeiteinheit von 10 ms verschoben sind. Die 25 Spaltenfenster wurden ge­ wählt, damit das gesamte effektive Zeitfenster, das durch die Klassifikationsschicht 230 gesehen wird, bei 290 ms (((5-1)+25)×10 ms) liegt; dasselbe effektive Fenster wurde in dem VO-Spracherkennungsnetzwerk, das oben be­ schrieben ist, verwendet. Insgesamt sind 720 Neuronen mit AO-Klassifikationsschicht 230 in zehn Zeilen zu je 72 Neu­ ronen angeordnet. Wie im Fall des VO-Spracherkennungsnetz­ werks entspricht eine der zehn Zeilen einer der zehn zu­ lässigen Äußerungen.
Die Ausgangsschicht 240 des AO TDNN-Klassifikators 200 um­ faßt eine Spalte von zehn Neuralzellen 241, wobei jede Zel­ le mit einer verschiedenen Merkmalsreihe der Klassifika­ tionsschicht 230 verbunden ist - mit einer Eingangsauffä­ cherung von 72. Die Werte am Ausgang der Mittelungsschicht 240 sind jeweils repräsentativ für die Wahrscheinlichkeit, daß die entsprechende Äußerung irgendwann innerhalb des 1000 ms-Datenfenster stattfand, wobei die Werte der Ein­ gangsstufe 210 präsentiert wurden.
Fig. 7 ist eine andere Ausführungsform eines AO TDNN, einem funktionalen Äquivalent zu dem oben beschriebenen Netzwerk, das die durch den Neuralzellen-Mehrfachbetrieb benötigte Hardware minimiert. Die 14 Spektraldatenkomponenten auf der logarithmischen Mel-Skala des akustischen Vektorsignals wer­ den auf die Verzögerungsleitungseinrichtung (delay line assembly, DLA) 302 gegeben, bestehend aus 14 abgegriffenen Verzögerungsleitungen, jede mit einer Datenkapazität von 5 Werten (in diesem Zusammenhang ist eine Verzögerungsleitung äquivalent zu einem analogen oder digitalen Schieberegi­ ster). Sobald die Verzögerungsleitung voll ist, nimmt die Neuralzelleneinrichtung (neuron cell assembly, NCA1) 310, die aus vier Neuralzellen (N1-N4) besteht, das Feld der 14 ×5 Werte von den Abgriffen der DLA 302 auf und verbindet dieses 70wertige Feld mit jedem der 70 Eingangskontakte der vier Zellen (N1-N4). NCA1 310 erzeugt vier verschiedene Ausgangswerte, einen für jede der N1-N4 Neuralzellen und gibt sie an den Eingang des DLA 304, der verborgenen- Schichts-Verzögerungsleitungseinrichtung. DLA 304 taktet in den vier Werten. 10 ms später kommt ein neuer Wert am Ein­ gang des DLA 302 an, der zu einer Verschiebung des Inhalts um eine Einheit nach rechts führt und so den ältesten Satz der 14 Spektraldatenwerte herausschiebt. Der neue Satz von 14×5 Datenpunkten wird dann auf jede der Zellen des NCA 310 gegeben, die an ihren vier Ausgangskontakten einen neuen vierkomponentigen Vektor schafft, der in vier Verzögerungen des DLA 304 getaktet ist. Dieser Prozeß setzt sich fort und führt schließlich dazu, daß das DLA 304 voll ist. Zu diesem Zeitpunkt berechnen die zehn Neuralzellen (N1-N14) des NCA 312 jeweils eine Ausgabe für die zehn Äußerungskategorien und übergeben zur Abspeicherung den zehnkomponentigen Vektor an DLA 306 der zehn Verzögerungs­ leitungen mit einer Kapazität von 72 Werten umfaßt.
So wird alle 10 ms-Intervalle danach ein neuer Vektor durch NCA 310 berechnet, der nach DLA 304 verschoben wird. Im Gegenzug berechnet NCA 312 einen neuen zehnkomponentigen Vektor, der nach DLA 306 verschoben wird. Sobald DLA 306 bis zur Speicherkapazität gefüllt ist, wird der Inhalt von jeder der zehn 1×72 Verzögerungsleitungen zu dem zugehö­ rigen Mittlungsneuron (N15-N24) von NCA 314 geführt. Der erste Satz von 10 Ausgängen stellt die Wahrscheinlichkeit dar, daß die mit ihr assoziierte Äußerung während der er­ sten 290 ms ausgesprochen wurde.
Während die Spektraldaten beständig in Intervallen von 10 ms ankommen, werden neue Werte für die Ausgangswahr­ scheinlichkeiten berechnet. So würde der zweite berechnete Wert der Wahrscheinlichkeit einer Äußerung, die während eines 290 ms-Fensters, das um 10 ms von der ersten ver­ schoben ist, stattgefunden hat, entsprechen. Aufeinander­ folgende Ausgangswahrscheinlichkeiten entsprechen 290 ms- Fenstern, die um 10 ms relativ zum vorhergehenden Fenster verschoben sind.
Obwohl der Betrieb des TDNN in Fig. 7 zur Benutzung in einem AO-Spracherkennungsnetzwerk beschrieben wurde, ist es klar, daß dasselbe Betriebsprinzip auch gültig wäre, wenn eine ähnliche Struktur in einem VO-Spracherkennungssystem benutzt werden sollte, das konsistent mit der vorausgegan­ genen Beschreibung des Betriebs in bezug zu Fig. 6 ist.
Die beschriebenen AO- und VO-Systeme arbeiten unabhängig voneinander mit den entsprechend akustischen und visuellen Sprechdaten. Sie sind in anderen Worten äquivalent zu dem System, das in Fig. 1 gezeigt ist, in dem entweder die vi­ suellen Daten, oder die akustischen Daten auf Null gesetzt sind. Es kann vernünftigerweise erwartet werden, daß eine Verbesserung eines AO-Systems durch visuelle Daten, die Klassifikationsgenauigkeit vor allem unter widrigen akusti­ schen Umgebungsbedingungen erhöht. Es werden drei Ausfüh­ rungsformen eines kombinierten akustischen und visuellen Spracherkennungssystems beschrieben.
Das erste, was als A×V-System bezeichnet wird und in Fig. 8 gezeigt ist, umfaßt einen AO-Sprachklassifikator 400 und einen VO-Sprachklassifikator 500 zusammen mit einer zusätz­ lichen Netzwerkschicht 250, um die Ausgangswahrscheinlich­ keiten beider Systeme in einem einzigen Satz von Wahr­ scheinlichkeiten zu kombinieren.
Der AO-Klassifikator 400 umfaßt einen Spektralanalysator 24 mit einer logarithmischen Mel-Skala, der das elektrische Analogon eines Sprachsignals aufnimmt und als Ausgang einen zehnkomponentigen akustischen Vektor produziert, der als Eingang des akustischen TDNN-Klassifikators 410, der be­ reits beschrieben wurde, benutzt wird. Der Ausgang des AO- Klassifikator 400 ist ein Wahrscheinlichkeitsvektor, der die Wahrscheinlichkeit dafür angibt, daß jede der zehn zu­ lässigen akustischen Äußerungen ausgesprochen wurde, wobei nur akustische Daten zugrundegelegt wurden. Er wird an den Wahrscheinlichkeitsverknüpfer 250 geführt.
In ähnlicher Weise benutzt der VO-Klassifikator 500 ein elektrisches Bild der Vergleichsmarken, um einen Lippen- und Gesichtsmerkmalsvektor zu definieren, der mit dem ent­ sprechenden akustischen Merkmalsvektor als ein Eingang an den Lippen- und Mundpositionsvektorgenerator 14 assoziiert ist. Der visuelle Ausgangsvektor, der durch das Vergleichs­ markennachführsystem und den Vektorgenerator der Einheit 14 erzeugt wurde, wird auf einen akustischen TDNN-Klassifika­ tor 510 gegeben, der einen zehnkomponentigen visuellen Wahrscheinlichkeitsvektor produziert, der dann an die den Wahrscheinlichkeitsverknüpfer 250 gegeben wird, der die Wahrscheinlichkeit, daß eine der möglichen zehn Äußerungen nur auf der Basis visueller Daten stattgefunden hat, an­ gibt.
Es wird angenommen, daß p(c : A) die bedingte Wahrscheinlich­ keit, daß die Äußerung c stattgefunden hat, wenn der damit verbundene akustische Datenvektor A gegeben ist und p(c : V) die bedingte Wahrscheinlichkeit ist, daß die Äußerung c stattgefunden hat, wenn der assoziierte visuelle Datenvek­ tor, V, gegeben ist. Damit entspricht p(c : A) dem c-ten Wert des Vektorausgangs des Klassifikators 410, der auf dem Vek­ tor A, der durch Spektralanalysator 24 erzeugt worden ist, basiert; p(c : V) entspricht dem c-ten Wert des Vektoraus­ gangs des Klassifikators 510, der auf Vektor V, der durch Generator 14 gegeben wurde, basiert.
Wenn die Vektoren A und V unabhängig voneinander sind, ist die kombinierte Wahrscheinlichkeit der c-ten Äußerung, wenn A und V gegeben sind
p(c : A, V)=p(c : A)·p(c : V)/p(c),
wobei p(c) die a priori Wahrscheinlichkeit dafür ist, daß Äußerung c eintritt. Dies ist der erwünschte Ausgang des Wahrscheinlichkeitsverknüpfers 250.
Da p(c : A) und p(c : V) vielleicht nicht streng unabhängig voneinander unabhängig sind und aufgrund von Fehlern bei der Abschätzung dieser Werte und weil p(c) vielleicht nicht bekannt ist, erzeugt der Wahrscheinlichkeitsverknüpfer in der Tat das skalierte Produkt
p(c : A, V)=k·p(c : A)·p(c : V),
wobei k ein Normalisierungsfaktor ist, der dazu verwendet wird, die zehn Ausgangswahrscheinlichkeiten so zu skalie­ ren, daß sichergestellt ist, daß ihre Summe 1 ergibt. Der Wahrscheinlichkeitsverknüpfer 250 bildet das Produkt der entsprechenden Terme von jedem der zehnkomponentigen Ein­ gangsvektoren und summiert dann die zehn resultierenden Produktterme,
auf, um die für die normalisierte Verbundswahrscheinlich­ keitsschätzung
zu bilden, wobei
Der Produktterm in obigem Ausdruck kann auf verschiedene Weise gebildet werden einschließlich analoger oder digita­ ler Multiplikatoren und sigma-pi (ΣΠ) Neuralzellen- Netzwerken, bei denen die entsprechenden p(c : A) und p(c : V) Terme dazu verwendet werden, um sich gegenseitig zu ver­ knüpfen ("steuern"). In ähnlicher Weise kann derselbe Term durch ein ΣΠ-Neuralzellennetzwerk mit 20 Eingängen erzeugt werden, indem sich die entsprechenden A und V Wahrschein­ lichkeitsvektorkomponenten gegenseitig verknüpfen ("steuern"), um Produktterme zu bilden, wobei der Ausgang durch die Summe der Produktterme gebildet wird. Die Divi­ sion von jedem der Produkte durch den Summenterm kann in kompatibler Technologie unter Verwendung analoger oder numerischer Computervorrichtungen implementiert werden.
Fig. 9 zeigt eine hardware-getreue Ausführungsform eines A×V-System-TDNN-Sprachklassifikators 200. Akustische und visuelle Datenvektoren werden in Verzögerungsleitung (DL) 302 und 301 entsprechend in 10 ms-Intervallen getaktet. Die akustischen und visuellen Datenflüsse folgen verschiedenen Pfaden bis zur letzten NCA3-Stufe. Unter Bezugnahme auf Fig. 7 ist ersichtlich, daß der akustische Eingangsdaten­ vektor in Fig. 9 in derselben Art und durch dieselbe Hard­ ware verarbeitet wird, wie im AO-Prozeß bis zu NCA3 314, die in der Mittlungsschicht liegt. In ähnlicher Weise wird der visuelle Datenvektor, V, in Fig. 9 in derselben Art, wie es in Fig. 6 für das VO-System beschrieben ist, verar­ beitet mit Ausnahme der letzten NCA3 314-Einheit. Die Endwahrscheinlichkeiten p(c : A, V) werden durch die zehn Sigma-Pi-Neuralzellen gebildet, die NCA3 314 und die Norma­ lisierungseinheit 255 umfassen. Die Normalisierungseinheit 255 liefert den Skalierungsfaktor, k, um die zehn Ausgangs­ vektorkomponenten p(c : A, V)=k·p(c : A)·p(c : V) für c=1, 2, . . . , 10 zu bilden.
Obwohl ein TDNN basierter akustischer AO-Prozessor be­ schrieben wurde, ist dieser nicht notwendig für die A×V- Ausführungsform. Das A×V-System kann unter Verwendung eines beliebigen akustischen Spracherkennungsprozessors, der funktionell äquivalent ist, konstruiert werden, selbst wenn es kein TDNN verwendet. Die Ausgänge der AO- und VO-Unter­ systeme wurden, wie oben beschrieben, verknüpft, um eine akuratere Klassifikation zu liefern, als dies jedes der Einzelsysteme selbst bewerkstelligen würde. In ähnlicher Weise kann ein beliebiger akustischer Vektorgenerator, der einen effektiven akustischen Vektor produziert, der die Äußerung mit ausreichender statistischer Verläßlichkeit charakterisiert, als einen akustischen Vor-Prozessor in je­ dem beliebigen verknüpften akustischen und visuellen Spracherkennungssystem verwendet werden.
Auf Fig. 10, einer anderen Ausführungsform des TDNN-Klassi­ fikators 200 aus Fig. 1, wird als AV-System-Klassifikator bezug genommen. In diesem Fall werden die Vektoreingänge A und V getrennt durch die verborgene Schicht 220, die NCA1 310 und NCA 309 umfaßt, verarbeitet. Die Ausgangswerte der verborgenen Schicht werden in DLA 304 und DLA 303 abgespeichert, wo das akustische 4×25 Feld von Werten von DLA 304 und das 4×10 Feld von Werten von DLA 303 auf die zehn Neuralzellen mit 140 Eingängen (N35-N44) von NCA2 313 gegeben werden. Diese frühere Zusammenführung akustischer und visueller Daten führt zu einer größeren Menge von Über­ schneidungstermen, auf die hin eine Lösung im Trainingspro­ zeß gesucht werden muß, was im allgemeinen zu einer besse­ ren Funktion des Gesamtsystems führt.
Nach der Verarbeitung durch NCA2 313 werden die Resultate an die Mittlungsschicht 240 weitergegeben. NCA3 315 umfaßt zehn Neuralzellen (N45-N55), die jeweils mit einer der zehn Verzögerungsleitungen in DLA 307 arbeiten. Das nicht-norma­ lisierte Wahrscheinlichkeitsprodukt p(c : A) · p(c : V) wird durch NCA3 315 gebildet und an die Normalisierungeinheit 255 zur Bildung der Endausgangswahrscheinlichkeit p(c : A, V) weitergegeben.
Fig. 11 zeigt einen weiteren Entwicklungsschritt auf dem Weg der Verknüpfung der Verarbeitung der akustischen und visuellen Daten zum frühestmöglichen Level bzw. Zeitpunkt. Nach dem Empfang und der Speicherung einer ausreichenden Menge akustischer oder visueller Eingangsdaten in DLA 302 und 301 kann es zur Bildung von Überkreuzungstermen in der verborgenen Schicht 220 dadurch kommen, daß jedes der acht Neuronen auf den verknüpften 14×5 und 5×20 Datenfel­ dern, die von DLA 302 und 301 vorgegeben sind, operiert. Der Ausgang der verborgenen Schicht wird in DLA 308 abge­ speichert und durch NCA2 313 der Klassifikationsschicht 230 weitergeleitet. Der Ausgang wird dann, wie oben in Fig. 10 beschrieben, bearbeitet.
In den TDNN-Strukturen der Fig. 7, 9, 10 und 11 werden zwei verschiedene Grundtypen von Neuralzellen verwendet. NCA1 der verborgenen Schicht 220 und NCA3 der Mittlungsschicht 240 umfassen konventionelle McColluch-Pitts (M-P) Neural­ zellen, wie sie in Fig. 12 gezeigt sind. Auf einen Ein­ gangsdatenvektor x, der am Eingangskontakt 601 besteht, wird durch den Gewichtsvektor w unter Verwendung der Ge­ wichtsmultiplikationselemente 603 eingewirkt. Das Summa­ tionsnetzwerk 605 summiert die xiwi-Terme, die durch das Multiplikationselement 603 gebildet wurden, was zu dem vektoriellen Skalarprodukt
führt, das am Ausgang des Summators 605 gebildet wird. Das vektorielle Skalarprodukt und der Offset werden an die Ak­ tivierungsfunktionseinheit 609 gegeben, die das Ausgangs­ signal f(z)=f(xTw+offset). Ein Offsetwert kann durch den Eingang 607 an den Summator 605 gegeben werden.
Die Aktivierungsfunktionseinheit 609 kann einen von ver­ schiedenen Typen von Übertragungscharakteristiken, wie sie z. B. in Fig. 13 gezeigt sind, haben. Die Übertragungscha­ rakteristik in Fig. 13(a) ist f(z)=tanh z, eine hyperbo­ lische Tangensfunktion des Eingangssignals z. Dies ist ein Beispiel einer großen Menge semilinearer zusammendrückender S-Funktionen, die in NCA1 der verborgenen Schicht verwendet werden können. Fig. 13(b) zeigt eine lineare Übertragungs­ funktion, f(z)=mz+offset. Diese Form der Aktivierungs­ funktion wird in den Neuralzellen von NCA3 der Mittelungs­ schicht 240 (mit einem Offset, der Null ist) verwendet.
Fig. 13(c) zeigt eine exponentielle Aktivierungsfunktion, f(z)=ez/T, wobei T ein positiver "Temperatur"-Parameter ist, der effektiv den Basiswert, e1/T, verändert, der dann durch den Eingangswert z exponentiert wird. Die exponen­ tielle Form der Aktivierungsfunktion wird verwendet, um die Wahrscheinlichkeit eines Satzes unbekannter Variablen (der Satz zulässiger Äußerungen) in Einklang mit "Parallel Distributed Processing: Explorations in the Microstructure of Cognition", Vol. 1: Foundations, Rumelhart, et al., The MIT Press, Cambridge, MA, 1986, Kapitel 6, Seiten 194-281, zu bilden. Die exponentielle Aktivierungsfunktion wird in den M-P-artigen Neuralzellen von NCA2 der Klassifikations­ schicht 230 verwendet.
Der zweite Typ von Neuralzellen, der in NCA4 der TDNN- Struktur von Fig. 9 verwendet wird, ist als Zelle vom Sigma-Pi (ΣΠ)-Typ, die in Fig. 14 gezeigt ist, bekannt. Anders als die M-P-Zellen in Fig. 12, wo ein einzelner Ein­ gangsdatenvektor auf einen Satz kontrollierbarer oder steuerbarer Wichtungen oder Gewichte {wi} gegeben wird, nehmen ΣΠ-Neuralzellen in ihrer einfachsten Form zwei Ein­ gangsdatenvektoren x und y an den Eingangskontaktsätzen 701 bzw. 702 entsprechend auf. Die entsprechenden Eingangsvek­ torkomponenten xi und yi werden auf die Multiplikatorein­ heiten 703 gegeben, um die xi·yi-Produktterme zu bilden, die zusammen mit einem Offsetterm, der auf den Offsetein­ gangskontakt 707 gegeben wird, durch ein Summationsnetzwerk 705 summiert werden. Der Ausgang des Summators
ist das vektorielle Skalarprodukt von x und y plus einem Offset, der als Eingang an Aktivierungsfunktionseinheit 709 mit Übertragungscharakteristik f(0) gegeben wird. Die ΣΠ- Neuralzelle von Fig. 14 wird in dem A×V-Netzwerk in Fig. 9 verwendet, um die Summe der Produkte der zehn p(c : A)-Werte und der entsprechenden zehn p(c : V)-Werte in NCA4 der Mitt­ lungsschicht 240 (der Offset-Wert = 0) zu bilden.
Aufgrund der in der Neuralzelle benutzten differenzierbaren Aktivierungsfunktionseinheit (siehe Fig. 12, 13 und 14) wur­ de eine Form des gut bekannten Rückwärtsausbreitungsalgo­ rithmus (beschrieben durch Rumelhart, D.E., u. a. in "Learning Internal Representations by Error Propagation", 318-362 (Kapitel 8) von "Parallel Distributed Processing", Vol. 1: Foundations, The MIT Press, Cambridge, MA, 1960) verwendet, um die Neuralnetzwerksgewichte zu trainieren. Die Fehlerfunktion des Ausgangs während des Trainings war bedeutend verschieden von der, die in obiger Druckschrift beschrieben ist.
Wenn es die Aufgabe eines Neural-Netzwerkes ist, die Klasse auszuwählen, zu der ein Eingangsmuster gehört, wenn alle Eingangsmuster nur einer einzigen Klasse angehören (eine Eins aus n Klassifizierung) und wenn der Ausgang des Neu­ ral-Netzwerkes aus n Werten besteht, die repräsentativ für eine Wahrscheinlichkeitsverteilung (d. h. die Summe der Werte=1) sind, so ist die Fehlermetrik für einen einzel­ nen Trainingsklassifikationsversuch
Fehler = -ln{(cl)},
wobei cl die korrekte Klassifizierung des l-ten Klassenmit­ glieds ist und (cl) der Versuchswert des Ausgangs ist, der die Wahrscheinlichkeit dafür darstellt, daß die Eingangsda­ ten zu Klasse cl gehören. Da die wahre Wahrscheinlichkeit dafür, daß die Eingangsäußerung, cl, eins ist (Sicherheit), muß obiger Ausdruck für den Fehler neu geschrieben werden als die Differenz von Logarithmen der wahren und Versuchs­ wahrscheinlichkeiten (p(cl) bzw. (cl) entsprechend), oder
Fehler = ln{p(cl)} - ln {(cl)} = ln {p(cl)/(cl)}.
Diese Fehlermetrik nutzt das Verhältnis der Wahrscheinlich­ keiten. Wenn in Erinnerung gerufen wird, daß die Wahr­ scheinlichkeiten durch die exponentiellen Aktivierungsfunk­ tionen (Fig. 13(c)) gebildet wurden, liefert die Substitu­ tion von
wobei zl bzw. l die korrekten und Versuchswerte des Ein­ gangs, z, für das l-te Neuralzellaktivierungsfunktionsklas­ sifikationsnetzwerk sind. Der negative Logarithmus der Versuchsausgangswahrscheinlichkeit ist deshalb ein Maß für den Fehler, der dadurch erzeugt wird, daß das Signal am Klassifikationsniveau einschließlich des Fehlers, der durch die Gewichte der l-ten Neuralzelle von NCA2 beigetragen wird, ankommt. Durch die Verwendung von Trainingsmustern, die repräsentativ für alle zu klassifizierenden Äußerungen sind, kann diese logarithmische Fehlerfunktion deshalb zum Training des TDNN-Netzwerks verwendet werden.
Experimente wurden unter Verwendung der beschriebenen Sy­ steme durchgeführt, um zehn gesprochene Buchstaben B, D, F, M, N, P, S, T, V und Z zu unterscheiden. Akustische und visuelle Information wurde von vier männlichen Versuchsper­ sonen, die amerikanisches Englisch als Muttersprache spre­ chen, gesammelt. Jeder Sprecher sprach jeden der Buchstaben fünfmal. Ein Beispiel des durch einen Sprecher gesprochenen Buchstabens P erwies sich aufgrund eines Fehlers im visu­ ellen Nachführungssystem als nicht nutzbar, was zu einer Gesamtzahl der Belegungsbits von 199 anstatt 200 führte. Jedes Belegungsbit wurde in einen visuellen (VO), akusti­ schen (AO), vollakustischen und Video (AV) Vektor zur wie oben beschriebenen Nutzung in der Klassifikationsschicht 230 umgewandelt.
Vier der fünf wiederholten Buchstabenäußerungen, die für jeden der zehn Buchstaben von den vier Sprechern gesprochen wurden (160 Muster), wurden für das Training verwendet. Die verbleibenden 39, die vier Beispiele für jeden Buchstaben mit Ausnahmen von drei für den Buchstaben P, wie oben be­ merkt, enthielten, wurden zum Testen verwendet.
Jedes der drei Netzwerke wurde unter Verwendung des Rück­ wärtsausbreitungsalgorithmus zur Auffindung des Satzes von Gewichten, die zum kleinsten Fehler für die Beispiele des Trainingssatzes führen, trainiert. Eine Lernratenkon­ stante von η=0,001 und Impulskonstante von α=0,9 wurde für den VO- und AO-Fall verwendet, wohingegen Konstanten von η=0,0002 und α=0,9 für den vollen AV-Fall verwendet wurden. Das volle AV-Netzwerk wurde durch Verknüpfung der trainierten AO- und VO-Netzwerke und Hinzufügen von Kreuz­ modell-Verbindungen zwischen den verborgenen A und V Schichten und der Klassifikationsschicht gebildet. Das Ler­ nen ging weiter, bis der Lernfehler über die letzten paar Hundert Trainingsiterationen nur noch eine vernachlässigba­ re Änderung aufwies. Die Softwaresimulation des Spektral­ analysators 24, des Lippen- und Mundpositionsvektorgenera­ tors 14 und TDNN-Sprachklassifikators 200 wurden auf einem Sun Sparcstation 2-Computer, hergestellt von Sun Micro­ systems, Inc., 2550 Garcia Avenue, Mountain View, California 94043-1100, durchgeführt. Das Training dauerte ungefähr 20 Sekunden je Trainingsiteration für das kompli­ zierteste volle AV-Netzwerk und weniger für die anderen. Alle 50 Trainingsiterationen wurden die Gewichte des Netz­ werks aufgezeichnet und der Fehler für das Testset berech­ net. Fig. 15 zeigt die fortschreitende Fehlerreduktion als Funktion der Zahl der Trainingsiterationen, die für den VO-, AO- und vollen AV-Fall verwendet wurden. Die gepunkte­ te Linie stellt den Fehler bei Verwendung eines Testsets aus Eingangsdaten dar, wohingegen die durchgezogene Linie den Fehler darstellt, den man beobachtet, wenn man das Trainingsset zum Testen verwendet. Wie erwartet, führt der zuletzt genannte Satz im allgemeinen zu einem geringeren Fehler.
Nachdem der "beste" Satz von Gewichten durch den Trainings­ prozeß für jeden der drei Fälle gefunden worden war, wurden Verwaschungsmatrizen für die Testdaten erzeugt. Für jede Buchstabenäußerung wurde das Mittel der Ausgangsverteilun­ gen über alle Testsatzbeispiele dieses Buchstabens berech­ net. Fig. 16 zeigt die resultierenden Verwaschungsmatrizen für die VO-, AO-, A×V- und die vollen AV-Netzwerke. Jede vertikale Spalte wird durch den als Eingang präsentierten, gesprochenen Buchstaben bezeichnet; jede horizontale Zeile stellt die Ausgangsbuchstaben dar, die mit ihren dazugehö­ rigen Wahrscheinlichkeiten, die durch die Größe jedes Krei­ ses angedeutet sind, ausgewählt wurden. Die Prozentzahl un­ ter jeder Verwaschungsmatrix entspricht der Gesamtgenauig­ keit des Systems.
Bemerkenswert ist die Verwaschung der /bi/- und /di/-Phone­ me in dem AO-Netzwerk und die asymmetrische Verwaschung der /bi/- und /pi/-Phoneme in dem VO-System. Obwohl /pi/ leicht mit /bi/ in dem VO-System verwechselt werden kann, können sie leicht in dem AO-System getrennt werden. Auf der ande­ ren Seite unterscheidet das VO-System problemlos zwischen /bi/ und /di/. Bemerkenswert ist auch die akustische (AO) Ähnlichkeit der /em/- und /en/-Phoneme, die sich im wesent­ lichen in dem akustisch subtilen Merkmal der Nasalität un­ terscheiden und klar in dem VO-System unterschieden werden. Das VO-System hat die Tendenz, /di/ und /ti/ miteinander zu verwechseln, das AO-System jedoch nicht. Das A×V-System eliminiert im wesentlichen diese und andere Verwechslungen, was durch die hohen Wahrscheinlichkeiten für die Klassifi­ zierung entlang der Hauptdiagonalen unter Beweis gestellt wird.
Obwohl man vernünftigerweise erwarten kann, daß das volle AV-System mit einer Gesamtgenauigkeit von 87% besser als das A×V-System mit einer gemessenen Genauigkeit von 91% aufgrund der Tatsache sein sollte, daß das volle AV-System Assoziationen auf einem niedrigeren (verborgene Schicht) Niveau lernen kann, zeigen Testergebnisse das Gegenteil. Dieses Resultat legt nahe, daß der 19elementige volle AV- Vektor nicht genau die Synchronisation zwischen den 10 aku­ stischen Elementen und den 5 visuellen Elementen des Ge­ samtvektors aufrechterhielt, da sie getrennt durch ihre entsprechenden Vorprozessoren verarbeitet wurden. Im Fall des A×V-Systems war die Synchronisation weniger kritisch, da die akustischen und visuellen Vektoren durch getrennte TDNN′s verarbeitet wurden. Mit anderen Worten könnten Kor­ relationen auf niedriger Ebene zwischen den Trainingsmu­ stern so verändert worden sein, daß das volle AV-Netz diese Information nicht gewinnbringend nutzen konnte.
Die relative Unempfindlichkeit des A×V-Systems gegenüber akustischem Rauschen wurde durch eine Simulation unter Be­ weis gestellt, bei der Rosa-Rauschen durch Hinzufügen einer vom Spektralanalysator erzeugten Zufallsvariable zu jedem Vektor A mit einer Standardabweichung von 0,4 hinzugefügt wurde. Unter diesen Bedingungen hatte das AO-Netzwerk eine Gesamtgenauigkeit von 43%, während das A×V-Netzwerk eine Genauigkeit von 74% hatte. Diese verbesserte Genauigkeit wurde ohne Anpassung irgendwelche frei veränderlicher Para­ meter, wie z. B. einer Veränderung des Verhältnisses der akustischen und visuellen Beiträge, erreicht.
In obiger Darstellung wurden zahlreiche spezifische Details, wie z. B. die spezifische Zahl von Äußerungen, Da­ tenbeispiele, Einrichtungen, usw. angegeben, um ein voll­ ständiges Verständnis der Ausführungsform zu ermöglichen. Es wird jedoch für jeden Fachmann auf dem Gebiet klar sein, daß die vorliegende Erfindung auch ohne diese spezifischen Details ausgeführt werden kann. In anderen Fällen wurden wohlbekannte Schaltkreise nicht in Detail gezeigt oder nur als Blockdiagramm dargestellt, um die vorliegende Erfindung nicht unnötigerweise unverständlicher zu machen.

Claims (17)

1. Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher etablierten Satz von zulässigen Kandi­ daten-Äußerungen gehören, gekennzeichnet durch
  • a) einen akustischen Merkmalsextraktionsapparat zur Um­ wandlung von Signalen, die repräsentativ für akusti­ sche Sprache sind, in einen entsprechenden akustischen Merkmalsvektorsatz von Signalen;
  • b) einen Apparat für die Extraktion dynamischer visueller Merkmale zur Umwandlung der Begleitsignale, die für die dynamischen Gesichtsmerkmale repräsentativ sind, die mit der akustischen Spracherzeugung verbunden sind in einen entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
  • c) einen Neural-Netzwerks-Klassifikationsapparat zur Er­ zeugung einer bedingten Wahrscheinlichkeitsverteilung der zulässigen Kandidaten-Sprechäußerungen durch ent­ sprechende Aufnahme und Verarbeitung der dynamischen akustischen und visuellen Merkmalsvektorsätze, die durch den akustischen und visuellen Merkmalsextrak­ tionsapparat gegeben werden.
2. Spracherkennungssystem nach Anspruch 1, dadurch ge­ kennzeichnet, daß der akustische Merkmalsextraktionsapparat einen logarithmischen Leistungsspektrumsanalysator umfaßt.
3. Spracherkennungssystem nach Anspruch 2, dadurch ge­ kennzeichnet, daß der Spektralanalysator ein nicht gleich­ förmiger Bandbreitenanalysator ist.
4. Spracherkennungssystem nach Anspruch 3, dadurch ge­ kennzeichnet, daß der Spektralanalysator ein gleichförmiger Mel-Bandbreitenspektralanalysator ist.
5. Spracherkennungssystem nach Anspruch 2, dadurch ge­ kennzeichnet, daß der akustische Merkmalsextraktionsapparat des weiteren ein Mikrophon und damit zugeordneten bzw. verbundenen Signalbearbeitungsapparat zur Erfassung der akustischen Sprachsignale umfaßt.
6. Spracherkennungssystem nach Anspruch 1, dadurch ge­ kennzeichnet, daß der visuelle dynamische Merkmalsextrak­ tionsapparat des weiteren eine Wandlereinheit zum Abtasten der Bewegung ausgewählter Gesichtsmerkmale und zur Umwand­ lung der abgetasteten Bewegung in ein elektrisches Signal, das repräsentativ für die Bewegung ist, zur Nutzung bei der Erzeugung des visuellen dynamischen Merkmalsvektorsatzes von Signalen umfaßt.
7. Spracherkennungssystem nach Anspruch 6, dadurch ge­ kennzeichnet, daß die abgetasteten Gesichtsmerkmale die ausgewählte Bewegung der vertikal gegenüberliegenden Ober- und Unterlippenpositionen, der Mundwinkelposition, der Na­ sen- und der Kinnposition umfaßt.
8. Spracherkennungssystem nach Anspruch 7, dadurch ge­ kennzeichnet, daß der visuelle dynamische Merkmalsextrak­ tionsapparat folgendes umfaßt:
  • a) eine Videokamera zur Produktion einer dynamischen Bildpunkt-Bilddarstellung des Mundes und der Lippen des entsprechenden Sprechers; und
  • b) eine Vorrichtung zur Charakterisierung der Mundform aus durch die Videokamera erzeugten Videoeinzelbil­ dern, durch Messung der Vielfalt der Abstände zwischen den mit den Ober- und Unterlippen verbundenen Schat­ ten.
9. Spracherkennungssystem nach Anspruch 7, dadurch ge­ kennzeichnet, daß der visuelle Merkmalsextraktionsapparat aus den abgetasteten Gesichtspunkten, die die Entfernungen zwischen den Kopf- und Kinnpositionen, zwischen den verti­ kal gegenüberliegenden Ober- und Unterlippenpositionen und zwischen den Mundwinkelpositionen umfaßt, visuelle Merk­ malsvektorkomponenten erzeugt.
10. Spracherkennungssystem nach Anspruch 9, dadurch ge­ kennzeichnet, daß die Gesichtsabstände bezüglich der Ge­ sichtsgröße und des Lippenabstandes in Ruheposition norma­ lisiert sind.
11. Spracherkennungssystem nach Anspruch 1, dadurch ge­ kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa­ rat folgendes umfaßt:
  • a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz­ werk, das mit den Ausgängen des akustischen und visu­ ellen Merkmalsextraktionsapparates zur Verbesserung zeitabhängiger Merkmale verbunden ist;
  • b) ein Klassifikationsschichts-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen der verborgenen Schicht zur Erzeugung eines Satzes zeit­ lich veränderlicher Ausgangssignale, von denen jedes für die Wahrscheinlichkeit, daß die entsprechende Äußerung stattgefunden hat, repräsentativ ist, verbun­ den ist; und
  • c) ein Mittelungsschichtapparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - jeweils einen für jeden zulässigen Äußerungstyp, der repräsentativ für die Gesamtwahrscheinlichkeit ist, daß die damit ver­ bundene Äußerung gesprochen wurde - verbunden ist.
12. Spracherkennungssystem nach Anspruch 11, dadurch ge­ kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa­ rat des weiteren Vorrichtungen zur Normalisierung der Ver­ knüpfungswahrscheinlichkeiten, die mit dem Ausgang des Mit­ telungsschichtsapparats verbunden sind, umfaßt.
13. Spracherkennungssystem nach Anspruch 11, dadurch ge­ kennzeichnet, daß das verborgene-Schicht-Zeitverzögerungs- Neural-Netzwerk einen getrennten akustischen und visuellen Zeitverzögerungs-Neural-Netzwerks-Merkmalsextraktionsappa­ rat umfaßt.
14. Spracherkennungssystem nach Anspruch 13, gekennzeich­ net durch:
  • a) getrennte akustische und visuelle Zeitverzögerungs- Neural-Netzwerks-Klassifikationsapparate in der Klas­ sifikationsschicht, die jeweils nur mit ihrem entspre­ chenden akustischen und visuellen verborgene-Schicht- Merkmalsextraktionsapparat verbunden sind;
  • b) eine getrennte akustische und visuelle Mittelungsvor­ richtung in der Mittelungsschicht zur Erzeugung zeit­ lich veränderlicher Ausgänge, die repräsentativ für die Wahrscheinlichkeit, daß die damit verbundene Äuße­ rung gesprochen wurde, sind; und
  • c) einer Wahrscheinlichkeitsverknüpfungsvorrichtung zur Bildung einer Abschätzung für die Äußerungswahrschein­ lichkeitsverteilung, indem man die getrennten entspre­ chenden Wahrscheinlichkeitspaare, die am Ausgang der getrennten akustischen und visuellen Klassifikations­ apparate erzeugt werden, miteinander multipliziert.
15. Spracherkennungssystem nach Anspruch 1, dadurch ge­ kennzeichnet, daß es des weiteren Vorrichtungen zur Auswahl des wahrscheinlichsten Kandidaten für den Neural-Netzwerks- Klassifikationsapparat umfaßt.
16. Spracherkennungssystem zur Erkennung von Äußerungen, die zu einem vorher etablierten Satz zulässiger Äußerungen eines Kandidaten gehören, gekennzeichnet durch:
  • a) einen visuellen Merkmalsextraktionsapparat zur Umwand­ lung von Signalen, die repräsentativ für die Gesichts­ merkmale, die mit der akustischen Spracherzeugung ver­ bunden sind, sind in einem entsprechenden visuellen Merkmalsvektorsatz von Signalen; und
  • b) einen Zeitverzögerungs-Neural-Netzwerks-Klassifika­ tionsapparat, der zur Erzeugung einer bedingten Wahr­ scheinlichkeitsverteilung der zulässigen Äußerung des Kandidaten mit dem Ausgang des visuellen Merkmals­ extraktionsapparats verbunden ist.
17. Spracherkennungssystem nach Anspruch 16, dadurch ge­ kennzeichnet, daß der Neural-Netzwerks-Klassifikationsappa­ rat folgendes umfaßt:
  • a) ein verborgene-Schicht-Zeitverzögerungs-Neural-Netz­ werk, das mit den Ausgängen des akustischen und visu­ ellen Merkmalsextraktionsapparats zur Verbesserung zeitabhängiger Merkmale verbunden ist;
  • b) ein Klassifikations-Schicht-Zeitverzögerungs-Neural- Netzwerk, das mit dem Ausgang der Neuralzellen in der verborgenen Schicht zur Erzeugung eines Satzes zeit­ lich veränderlicher Ausgangssignale verbunden ist, die repräsentativ für die Wahrscheinlichkeit, daß die ent­ sprechende Äußerung stattgefunden hat, sind; und
  • c) einen Mittelungsschicht-Apparat, der mit dem Ausgang der Klassifikationsschicht zur Erzeugung eines Satzes zeitlich veränderlicher Ausgänge - einen für jeden zu­ lässigen Äußerungstyp, der repräsentativ für die Ver­ knüpfungswahrscheinlichkeit der damit verbundenen ge­ sprochenen Äußerung ist - verbunden ist.
DE4317372A 1992-05-26 1993-05-25 Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes Expired - Fee Related DE4317372C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/889,619 US5586215A (en) 1992-05-26 1992-05-26 Neural network acoustic and visual speech recognition system

Publications (2)

Publication Number Publication Date
DE4317372A1 true DE4317372A1 (de) 1993-12-02
DE4317372C2 DE4317372C2 (de) 1997-03-20

Family

ID=25395452

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4317372A Expired - Fee Related DE4317372C2 (de) 1992-05-26 1993-05-25 Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes

Country Status (3)

Country Link
US (2) US5586215A (de)
JP (1) JPH0643897A (de)
DE (1) DE4317372C2 (de)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19502554A1 (de) * 1994-02-28 1995-08-31 Fujitsu Ltd Verfahren und Vorrichtung zur Informationsverarbeitung und Verfahren und Vorrichtung zur Ausführung einer Arbeitsanweisung
DE19653553C1 (de) * 1996-12-20 1998-04-30 Siemens Nixdorf Advanced Techn Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens
EP0950239A1 (de) * 1996-03-08 1999-10-20 Motorola, Inc. Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE19925046A1 (de) * 1999-06-01 2001-05-03 Alcatel Sa Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos
DE10043271A1 (de) * 2000-09-02 2002-10-02 Deutsche Telekom Ag Doppelt klassifiziertes Name-Dailling
DE10221391A1 (de) * 2002-05-14 2003-12-04 Siemens Ag Verfahren zum Analysieren einer Szene
DE10244722A1 (de) * 2002-09-25 2004-04-08 Infineon Technologies Ag Verfahren und Vorrichtung zum rechnergestützten Vergleich einer ersten Folge lautsprachlicher Einheiten mit einer zweiten Folge lautsprachlicher Einheiten, Spracherkennungseinrichtung und Sprachsyntheseeinrichtung
DE10111056B4 (de) * 2000-04-07 2005-11-10 International Business Machines Corporation Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6101264A (en) * 1994-03-15 2000-08-08 Fraunhofer Gesellschaft Fuer Angewandte Forschung E.V. Et Al Person identification based on movement information
US5878389A (en) * 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US5745874A (en) * 1996-03-04 1998-04-28 National Semiconductor Corporation Preprocessor for automatic speech recognition system
US5963899A (en) * 1996-08-07 1999-10-05 U S West, Inc. Method and system for region based filtering of speech
JPH1091789A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 単語認識装置
US6014625A (en) * 1996-12-30 2000-01-11 Daewoo Electronics Co., Ltd Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model
JP3112254B2 (ja) 1997-03-04 2000-11-27 富士ゼロックス株式会社 音声検出装置
US5924066A (en) * 1997-09-26 1999-07-13 U S West, Inc. System and method for classifying a speech signal
JP2001511267A (ja) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声パターン認識用のモデル特殊因子の決定方法
JP3688879B2 (ja) * 1998-01-30 2005-08-31 株式会社東芝 画像認識装置、画像認識方法及びその記録媒体
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US7081915B1 (en) * 1998-06-17 2006-07-25 Intel Corporation Control of video conferencing using activity detection
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6185529B1 (en) * 1998-09-14 2001-02-06 International Business Machines Corporation Speech recognition aided by lateral profile image
JP3513030B2 (ja) * 1998-09-22 2004-03-31 シャープ株式会社 データ再生装置
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US6487531B1 (en) 1999-07-06 2002-11-26 Carol A. Tosaya Signal injection coupling into the human vocal tract for robust audible and inaudible voice recognition
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
DE19949637A1 (de) * 1999-10-14 2001-04-19 Dietrich Kuehner Verfahren und Vorrichtungen zur Geräuscherkennung und -trennung sowie Lärmüberwachung und -prognose
US7110951B1 (en) * 2000-03-03 2006-09-19 Dorothy Lemelson, legal representative System and method for enhancing speech intelligibility for the hearing impaired
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
US7095401B2 (en) * 2000-11-02 2006-08-22 Siemens Corporate Research, Inc. System and method for gesture interface
JP2004514970A (ja) * 2000-11-22 2004-05-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 候補レベルマルチモーダル統合システム
WO2002077972A1 (en) * 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2378776A (en) * 2001-05-22 2003-02-19 Canon Kk Apparatus and method for managing a multi-modal interface in which the inputs feedback on each other
US7027618B2 (en) * 2001-09-28 2006-04-11 Koninklijke Philips Electronics N.V. Head motion estimation from four feature points
US20030083872A1 (en) * 2001-10-25 2003-05-01 Dan Kikinis Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems
DE10157220A1 (de) * 2001-11-22 2003-06-12 Siemens Ag Verfahren zum Klassifizieren einer zeitlichen Folge von Eingangsgrößen unter Verwendung eines gepulste Neuronen enthaltenden neuronalen Netzes, neuronales Netz und Anordnung zum Durchführen des Verfahrens
JP2003316387A (ja) * 2002-02-19 2003-11-07 Ntt Docomo Inc 学習装置、移動通信端末、情報認識システム、及び、学習方法
JP2003255993A (ja) 2002-03-04 2003-09-10 Ntt Docomo Inc 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム
KR100445911B1 (ko) * 2002-04-17 2004-08-25 학교법인 포항공과대학교 시간차 신경망을 이용한 고립단어 인식을 위한 하드웨어구조
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
US6925438B2 (en) * 2002-10-08 2005-08-02 Motorola, Inc. Method and apparatus for providing an animated display with translated speech
DE10254612A1 (de) * 2002-11-22 2004-06-17 Humboldt-Universität Zu Berlin Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
JP4447857B2 (ja) 2003-06-20 2010-04-07 株式会社エヌ・ティ・ティ・ドコモ 音声検出装置
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US7398116B2 (en) * 2003-08-11 2008-07-08 Veran Medical Technologies, Inc. Methods, apparatuses, and systems useful in conducting image guided interventions
US8150495B2 (en) 2003-08-11 2012-04-03 Veran Medical Technologies, Inc. Bodily sealants and methods and apparatus for image-guided delivery of same
US20050071166A1 (en) * 2003-09-29 2005-03-31 International Business Machines Corporation Apparatus for the collection of data for performing automatic speech recognition
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
DE102004048348B4 (de) * 2004-10-01 2006-07-13 Daimlerchrysler Ag Verfahren zur Adaption und/oder Erzeugung statistischer Sprachmodelle
JP5008269B2 (ja) * 2005-04-08 2012-08-22 キヤノン株式会社 情報処理装置、情報処理方法
EP1924198B1 (de) 2005-09-13 2019-04-03 Veran Medical Technologies, Inc. Vorrichtung zur bildgelenkten präzisionsprüfung
US20070066881A1 (en) * 2005-09-13 2007-03-22 Edwards Jerome R Apparatus and method for image guided accuracy verification
WO2008079748A1 (en) * 2006-12-20 2008-07-03 Cytyc Corporation Method and system for locating and focusing on fiducial marks on specimen slides
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US9082177B2 (en) * 2009-11-25 2015-07-14 Dental Imaging Technologies Corporation Method for tracking X-ray markers in serial CT projection images
US9082036B2 (en) * 2009-11-25 2015-07-14 Dental Imaging Technologies Corporation Method for accurate sub-pixel localization of markers on X-ray images
US9826942B2 (en) * 2009-11-25 2017-11-28 Dental Imaging Technologies Corporation Correcting and reconstructing x-ray images using patient motion vectors extracted from marker positions in x-ray images
US8363919B2 (en) 2009-11-25 2013-01-29 Imaging Sciences International Llc Marker identification and processing in x-ray images
US9082182B2 (en) * 2009-11-25 2015-07-14 Dental Imaging Technologies Corporation Extracting patient motion vectors from marker positions in x-ray images
JP2011191423A (ja) * 2010-03-12 2011-09-29 Honda Motor Co Ltd 発話認識装置、発話認識方法
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
TWI398853B (zh) * 2010-05-10 2013-06-11 Univ Nat Cheng Kung 人臉說話模擬系統及方法
WO2012024686A2 (en) 2010-08-20 2012-02-23 Veran Medical Technologies, Inc. Apparatus and method for four dimensional soft tissue navigation
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US10249036B2 (en) 2012-02-22 2019-04-02 Veran Medical Technologies, Inc. Surgical catheter having side exiting medical instrument and related systems and methods for four dimensional soft tissue navigation
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US20140276165A1 (en) * 2013-03-14 2014-09-18 Covidien Lp Systems and methods for identifying patient talking during measurement of a physiological parameter
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
US20150305612A1 (en) 2014-04-23 2015-10-29 Mark Hunter Apparatuses and methods for registering a real-time image feed from an imaging device to a steerable catheter
US20150305650A1 (en) 2014-04-23 2015-10-29 Mark Hunter Apparatuses and methods for endobronchial navigation to and confirmation of the location of a target tissue and percutaneous interception of the target tissue
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US10275672B2 (en) * 2015-04-29 2019-04-30 Beijing Kuangshi Technology Co., Ltd. Method and apparatus for authenticating liveness face, and computer program product thereof
US10878318B2 (en) 2016-03-28 2020-12-29 Google Llc Adaptive artificial neural network selection techniques
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
JP6964044B2 (ja) * 2018-05-21 2021-11-10 株式会社デンソーアイティーラボラトリ 学習装置、学習方法、プログラム、学習済みモデルおよびリップリーディング装置
CN108831472B (zh) * 2018-06-27 2022-03-11 中山大学肿瘤防治中心 一种基于唇语识别的人工智能发声系统及发声方法
CN110767228B (zh) * 2018-07-25 2022-06-03 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及系统
US20200065654A1 (en) * 2018-08-22 2020-02-27 Electronics And Telecommunications Research Institute Neural network fusion apparatus and modular neural network fusion method and matching interface generation method for the same
EP3624113A1 (de) * 2018-09-13 2020-03-18 Nxp B.V. Vorrichtung zur verarbeitung eines signals
CN109524006B (zh) * 2018-10-17 2023-01-24 天津大学 一种基于深度学习的汉语普通话唇语识别方法
CN109410957B (zh) * 2018-11-30 2023-05-23 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
US11151979B2 (en) 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis
CN110931023B (zh) * 2019-11-29 2022-08-19 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN111326143B (zh) * 2020-02-28 2022-09-06 科大讯飞股份有限公司 语音处理方法、装置、设备及存储介质
US11790900B2 (en) * 2020-04-06 2023-10-17 Hi Auto LTD. System and method for audio-visual multi-speaker speech separation with location-based selection
CN111833859B (zh) * 2020-07-22 2024-02-13 科大讯飞股份有限公司 发音检错方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4620286A (en) * 1984-01-16 1986-10-28 Itt Corporation Probabilistic learning element
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0153439B1 (de) * 1983-06-03 1993-08-04 Fondazione Pro Juventute Don Carlo Gnocchi Modular ausbaufähiges System zur Echtzeit-Verarbeitung einer TV-Anzeige, besonders brauchbar zur Koordinatenerfassung von Objekten von bekannter Form und Verfahren zur Benutzung dieses Systems bei Röntgenaufnahmen.
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JPS62239231A (ja) * 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
FR2656700B1 (fr) * 1989-12-28 1992-08-07 Aerospatiale Procede de restitution du mouvement d'un mobile par observation d'un symbole forme sur ce dernier et dispositifs pour la mise en óoeuvre du procede.
US5022089A (en) * 1990-01-19 1991-06-04 Wilson Monti R Method and apparatus for fast registration using crosshair register marks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4620286A (en) * 1984-01-16 1986-10-28 Itt Corporation Probabilistic learning element
US4975960A (en) * 1985-06-03 1990-12-04 Petajan Eric D Electronic facial tracking and detection system and method and apparatus for automated speech recognition
US4757541A (en) * 1985-11-05 1988-07-12 Research Triangle Institute Audio visual speech recognition
US4937872A (en) * 1987-04-03 1990-06-26 American Telephone And Telegraph Company Neural computation by time concentration

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DODD, B. und CAMPBELL, R. (Hrsg.): "Hearing by Eye: The Psychology of Lipreading", Hillsdale, N.J., Lawrence Erlbaum Press (1987) *
PENTLAND, A. u.a.: "Lip Reading: Automatic Visual Recognition of Spoken Words" Proc. Image Under- standing and Machine Vision, Optical Society of America, June 12-14 (1984) *
PETAJAN, E.D. u.a.: "An Improved Automatic Lipreading System to Enhance Speech Recognition" ACM SIGCHI-88, 19-25 (1988) *
SIMS, D.G. (Hrsg.): "New Reflections on Speech- reading", Sonderausgabe des "The Volta Review" 90 (5), (1988) *
WAIBEL, A.: "Modular Construction of Time-Delay Neural Networks for Speech Recognition", Neural Computation 1, 1989, S. 39-46 *
YUHAS, B.P. u.a.: "Integration of Acoustic and Visual Speech Signals Using Neural Networks" Nov. 1989, IEEE Communications Magazine (1989) *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19502554A1 (de) * 1994-02-28 1995-08-31 Fujitsu Ltd Verfahren und Vorrichtung zur Informationsverarbeitung und Verfahren und Vorrichtung zur Ausführung einer Arbeitsanweisung
US5845050A (en) * 1994-02-28 1998-12-01 Fujitsu Limited Method and apparatus for processing information and a method and apparatus for executing a work instruction
DE19502554C2 (de) * 1994-02-28 1999-07-01 Fujitsu Ltd Lernverfahren für ein Objekterkennungsgerät, Objekterkennungsverfahren und -gerät, sowie Verfahren und Vorrichtung zur maschinellen Ausführung einer Arbeitsanweisung
EP0950239A1 (de) * 1996-03-08 1999-10-20 Motorola, Inc. Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
EP0950239A4 (de) * 1996-03-08 2000-07-12 Motorola Inc Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE19653553C1 (de) * 1996-12-20 1998-04-30 Siemens Nixdorf Advanced Techn Verfahren zum Trainieren eines mehrschichtigen neuronalen Netzes mit Trainingsdaten und Anordnung zur Durchführung des Verfahrens
DE19925046A1 (de) * 1999-06-01 2001-05-03 Alcatel Sa Verfahren und Vorrichtung zur Unterdrückung von Rauschen und Echos
DE10111056B4 (de) * 2000-04-07 2005-11-10 International Business Machines Corporation Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE10043271A1 (de) * 2000-09-02 2002-10-02 Deutsche Telekom Ag Doppelt klassifiziertes Name-Dailling
DE10221391A1 (de) * 2002-05-14 2003-12-04 Siemens Ag Verfahren zum Analysieren einer Szene
DE10221391B4 (de) * 2002-05-14 2006-08-24 Siemens Ag Verfahren zum Analysieren einer Szene
DE10244722A1 (de) * 2002-09-25 2004-04-08 Infineon Technologies Ag Verfahren und Vorrichtung zum rechnergestützten Vergleich einer ersten Folge lautsprachlicher Einheiten mit einer zweiten Folge lautsprachlicher Einheiten, Spracherkennungseinrichtung und Sprachsyntheseeinrichtung

Also Published As

Publication number Publication date
US5586215A (en) 1996-12-17
JPH0643897A (ja) 1994-02-18
DE4317372C2 (de) 1997-03-20
US5771306A (en) 1998-06-23

Similar Documents

Publication Publication Date Title
DE4317372C2 (de) Ein akustisches und visuelles Spracherkennungssystem auf der Basis eines Neural-Netzwerkes
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
US5680481A (en) Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
CN111261146B (zh) 语音识别及模型训练方法、装置和计算机可读存储介质
Rivet et al. Mixing audiovisual speech processing and blind source separation for the extraction of speech signals from convolutive mixtures
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
Peng et al. Multi-resolution modulation-filtered cochleagram feature for LSTM-based dimensional emotion recognition from speech
DE10030105A1 (de) Spracherkennungseinrichtung
WO2006000103A1 (en) Spiking neural network and use thereof
CN112818764A (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
Suuny et al. Performance of different classifiers in speech recognition
CN111275638A (zh) 基于多通道注意力选择生成对抗网络的人脸修复方法
Tzirakis et al. Synthesising 3D facial motion from “in-the-wild” speech
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
Movellan et al. Robust sensor fusion: Analysis and application to audio visual speech recognition
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Hong et al. Real-time speech-driven 3D face animation
Jati et al. An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks.
Sunny et al. Discrete wavelet transforms and artificial neural networks for recognition of isolated spoken words
DE4435272C2 (de) Verfahren und Vorrichtung zum Extrahieren eines visuellen Merkmalvektors aus einer Folge von Bildern sowie Spracherkennungsvorrichtung
CN112259086A (zh) 一种基于语谱图合成的语音转换方法
Moons et al. Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion
Yuanrong et al. Learning a discriminative high-fidelity dictionary for single channel source separation
Aarabi et al. The fusion of visual lip movements and mixed speech signals for robust speech separation

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee