DE602004003439T2 - Rauschunterdrückung zur robusten Spracherkennung - Google Patents

Rauschunterdrückung zur robusten Spracherkennung Download PDF

Info

Publication number
DE602004003439T2
DE602004003439T2 DE602004003439T DE602004003439T DE602004003439T2 DE 602004003439 T2 DE602004003439 T2 DE 602004003439T2 DE 602004003439 T DE602004003439 T DE 602004003439T DE 602004003439 T DE602004003439 T DE 602004003439T DE 602004003439 T2 DE602004003439 T2 DE 602004003439T2
Authority
DE
Germany
Prior art keywords
harmonic component
component
speech signal
harmonic
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004003439T
Other languages
English (en)
Other versions
DE602004003439D1 (de
Inventor
Michael L. Chicago Seltzer
James Duvall Droppo
Alejandro Bellevue Acero
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602004003439D1 publication Critical patent/DE602004003439D1/de
Application granted granted Critical
Publication of DE602004003439T2 publication Critical patent/DE602004003439T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Rauschreduzierung. Im Besonderen bezieht sich die vorliegende Erfindung auf das Entfernen von Rauschen (bzw. Geräuschen) aus Signalen, die in einer Spracherkennung verwendet werden.
  • Ein Mustererkennungssystem, wie z. B. ein Spracherkennungssystem, nimmt ein Eingangssignal und versucht, das Signal zu dekodieren, um ein Muster, das durch das Signal repräsentiert wird, zu finden. Zum Beispiel wird in einem Spracherkennungssystem ein Sprachsignal (oft als ein Testsignal bezeichnet) durch das Erkennungssystem empfangen und dekodiert, um eine Folge von Wörtern, die durch das Sprachsignal repräsentiert werden, zu identifizieren.
  • Um das eingehende Testsignal zu dekodieren, benutzen die meisten Erkennungssysteme ein oder mehrere Modelle, die die Wahrscheinlichkeit beschreiben, dass ein Teil des Testsignals ein bestimmtes Muster repräsentiert. Beispiele für solche Modelle schließen neuronale Netze, Dynamic Time Warping, Segmentmodelle und Hidden Markov Models ein.
  • Bevor ein Modell benutzt werden kann, um ein eingehendes Signal zu dekodieren, muss es trainiert werden. Dies wird üblicherweise durch das Messen von eingegebenen Trainingssignalen, die von einem bekannten Trainingsmuster erzeugt werden, getan. Zum Beispiel wird in einer Spracherkennung eine Sammlung von Sprachsignalen durch Sprecher erzeugt, die von einem bekannten Text lesen. Diese Sprachsignale werden anschließend verwendet, um die Modelle zu trainieren.
  • Damit die Modelle optimal arbeiten, sollten die Signale, die zum Trainieren der Modelle verwendet werden, gleich den eventuellen Testsignalen sein, die dekodiert werden. Im Besonderen sollten die Trainingssignale dieselbe Menge und denselben Typ von Rauschen (bzw. Geräuschen) haben, wie die Testsignale, die dekodiert werden.
  • Üblicherweise wird das Trainingssignal unter "sauberen" Bedingungen gesammelt und wird als relativ rauschfrei erachtet. Um dieses gleiche geringe Level an Rauschen in dem Testsignal zu erreichen, wenden viele Systeme nach Stand der Technik Rauschreduzierungstechniken auf die Testdaten an.
  • Eine Technik zum Entfernen von Rauschen versucht das Rauschen unter Verwendung einer Reihe von Trainingssignalen, die unter verschiedenen verrauschten Bedingungen gesammelt wurden, zu modellieren. Solche Systeme sind jedoch nur effektiv, wenn die Rauschbedingungen des Trainingssignals mit den Rauschbedingungen des Testsignals übereinstimmen. Aufgrund der großen Anzahl von möglichem Rauschen und den scheinbar unendlichen Kombinationen von Rauschen ist es sehr schwierig, Rauschmodelle anzulegen, die jede Testbedingung handhaben können.
  • Eine andere Technik zum Entfernen von Rauschen ist, das Rauschen zu schätzen und anschließend von dem verrauschten Sprachsignal abzuziehen. Üblicherweise schätzen solche Systeme das Rauschen von einem vorherigen Frame (Datenübertragungsblock) des Eingangssignals. Wenn sich das Rauschen mit der Zeit verändert, wird die Schätzung des Rauschens als solche für den aktuellen Frame ungenau sein.
  • Ein System nach Stand der Technik zum Schätzen des Rauschens in einem Sprachsignal verwendet die Obertöne (harmonics) der menschlichen Sprache. Die Obertöne der menschlichen Sprache produzieren Spitzen in dem Frequenzspektrum. Durch Identifizieren von Nullen zwischen diesen Spitzen identifizieren diese Systeme das Spektrum des Rauschens. Dieses Spektrum wird dann von dem Spektrum des verrauschten Sprachsignals abgezogen, um ein sauberes Sprachsignal bereitzustellen.
  • Die Obertöne der Sprache sind ebenso in der Sprachkodierung verwendet worden, um die Menge an Daten, die gesendet werden müssen, zu reduzieren, wenn Sprache für die Übertragung über einen digitalen Datenübertragungspfad kodiert wird. Solche Systeme versuchen, das Sprachsignal in eine harmonische (Oberton-) Komponente und eine Zufallskomponente aufzuteilen. Jede Komponente wird anschließend separat für die Übertragung kodiert. Im Besonderen verwendet ein System ein harmonisches plus Rauschen Modell (harmonic+noise model), in dem ein Modell der Sinuskurvensumme (sum-of-sinusoids model) auf das Sprachsignal angepasst wird, um die Zerlegung durchzuführen.
  • In der Sprachcodierung wird die Zerlegung gemacht, um eine Parametrisierung des Sprachsignals zu finden, die das eingegebene verrauschte Sprachsignal genau repräsentiert. Die Zerlegung hat keine rauschreduzierende Fähigkeit und war als solches nicht hilfreich in der Spracherkennung. Das Dokument US 6,029,128 offenbart ein Beispiel einer solchen Technik.
  • Dokument EP 0 899 718 beschreibt auf der anderen Seite ein Verfahren zum Reduzieren von Rauschen, basierend auf einer nichtlinearen Funktion.
  • KURZFASSUNG DER ERFINDUNG
  • Die Erfindung wird durch die anhängigen unabhängigen Ansprüche definiert.
  • Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen definiert.
  • Ein System und Verfahren werden bereitgestellt, die Rauschen in Sprachsignalen reduzieren. Das System und Verfahren zerlegt ein verrauschtes Sprachsignal in eine harmonische Komponente und in eine restliche Komponente. Die harmonische Komponente und restliche Komponente werden dann als eine Summe kombiniert, um einen rauschreduzierten Wert zu bilden. In manchen Ausführungsformen ist die Summe eine gewichtete Summe, wobei die harmonische Komponente mit einem Skalierungsfaktor multipliziert wird. In manchen Ausführungsformen wird der rauschreduzierte Wert in einer Spracherkennung verwendet.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Blockdiagramm einer Computerumgebung, in der die vorliegende Erfindung praktiziert werden kann.
  • 2 ist ein Blockdiagramm einer alternativen Computerumgebung, in der die vorliegende Erfindung praktiziert werden kann.
  • 3 ist ein Flussdiagramm eines Verfahrens zum Verwenden eines Rauschreduzierungssystems einer Ausführungsform der vorliegenden Erfindung.
  • 4 ist ein Blockdiagramm eines Rauschreduzierungssystems einer Ausführungsform der vorliegenden Erfindung.
  • 5 ist ein Blockdiagramm eines Mustererkennungssystems, mit dem Ausführungsformen der vorliegenden Erfindung praktiziert werden können.
  • DETAILLIERTE BESCHREIBUNG ILLUSTRATIVER AUSFÜHRUNGSFORMEN
  • 1 stellt ein Beispiel einer geeigneten Computersystemumgebung 100 dar, auf der die Erfindung implementiert werden kann. Die Computersystemumgebung 100 ist nur ein Beispiel einer geeigneten Computerumgebung und ist nicht gedacht, irgendeine Ein schränkung bezüglich des Umfangs der Verwendung oder Funktionalität der Erfindung vorzuschlagen. Noch sollte die Computerumgebung 100 interpretiert werden, als weise sie irgendwelche Abhängigkeiten oder Erfordernisse bezüglich irgendeiner oder einer Kombination von Komponenten auf, die in der exemplarischen Arbeitsumgebung 100 dargestellt sind.
  • Die Erfindung ist betriebsbereit mit zahlreichen anderen Allzweck- oder Spezialzweck-Computersystemumgebungen oder -konfigurationen. Beispiele von gut bekannten Computersystemen, -umgebungen und/oder -konfigurationen, die für die Verwendung mit der Erfindung geeignet sein können, schließen ein, sind aber nicht darauf begrenzt, Personalcomputer, Servercomputer, Hand-Held- oder Laptop-Geräte, Multiprozessorsysteme, Mikroprozessor-basierte Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Telefonsysteme, verteilte Computerumgebungen, die irgendeine der oben genannten Systeme oder Geräte einschließen, und Ähnliches.
  • Die Erfindung kann in dem allgemeinen Kontext von computerausführbaren Instruktionen beschrieben werden, wie z. B. Programmmodulen, die durch einen Computer ausgeführt werden. Im Allgemeinen schließen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, etc. ein, die bestimmte Funktionen durchführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung ist ausgelegt, um in verteilten Computerumgebungen praktiziert zu werden, wo Funktionen durch remote (dezentral) arbeitende Geräte ausgeführt werden, die durch ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Computerumgebung liegen Programmmodule sowohl auf lokalen als auch Remotecomputerspeicherdatenträgern, einschließlich Datenspeichergeräten.
  • Mit Bezug auf 1 schließt ein exemplarisches System zum Implementieren der Erfindung ein Allzweckcomputergerät in der Form eines Computers 110 ein. Komponenten des Computers 110 können einschließen, sind aber nicht darauf begrenzt, eine Prozessoreinheit 120, einen Systemspeicher 130 und einen Systembus 121, der verschiedene Systemkomponenten koppelt, einschließlich dem Systemspeicher mit der Prozessoreinheit 120. Der Systembus 121 kann irgendeiner von verschiedenen Busstrukturtypen sein, einschließlich einem Speicherbus oder Speichercontroller, einem Peripheriebus, und einem lokalen Bus, der irgendeine von einer Vielzahl von Busarchitekturen verwendet. Als Beispiel, und nicht Einschränkung, schließen solche Architekturen einen In dustry-Standard-Architecture-Bus (ISA-Bus), Micro-Channel-Architecture-Bus (MCA-Bus), Enhanced-ISA-Bus (EISA-Bus), Video-Electronics-Standards-Association-Local-Bus (VESA-Local-Bus), und Peripheral-Component-Interconnect-Bus (PCI-Bus), ebenso bekannt als Mezzanine-Bus, ein.
  • Computer 110 schließt üblicherweise eine Vielfalt von computerlesbaren Datenträgern ein. Computerlesbare Datenträger können irgendein verfügbarer Datenträger sein, auf den durch den Computer 110 zugegriffen werden kann und schließt sowohl flüchtige als auch nichtflüchtige Datenträger, entfernbare und nicht entfernbare Datenträger ein. Als Beispiel, und nicht Einschränkung, können computerlesbare Datenträger Computerspeichermedien und Datenübertragungsmedien einschließen. Computerspeichermedien schließen sowohl flüchtige als auch nichtflüchtige, entfernbare als auch nicht entfernbare Datenträger ein, die mit irgendeinem Verfahren oder Technologie zur Speicherung von Informationen, wie z. B. computerlesbaren Instruktionen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert werden. Computerspeichermedien schließen ein, sind aber nicht darauf begrenzt, RAM, ROM, EEPROM, Flashmemory oder anderen Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder andere optische Diskspeicher, magnetische Kassetten, magnetische Bänder, magnetische Diskspeicher oder andere magnetische Speichergeräte oder irgendein anderes Medium, welches verwendet werden kann, um die gewünschten Informationen zu speichern, und auf welches durch den Computer 110 zugegriffen werden kann. Datenübertragungsmedien enthalten üblicherweise computerlesbare Instruktionen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie z. B. einer Trägerwelle oder anderem Transportmechanismus, und schließen irgendwelche Informationsliefermedien ein. Der Begriff "moduliertes Datensignal" meint ein Signal, das eine oder mehrere seiner Charakteristiken in solch einer Weise gesetzt oder verändert hat, um Informationen in dem Signal zu kodieren. Als Beispiel und nicht Einschränkung schließen Datenübertragungsmedien verkabelte Medien, wie z. B. ein verkabeltes Netzwerk oder eine direkt verkabelte Verbindung, und kabellose Medien, wie z. B. Akustik, RF, infrarote oder andere kabellose Medien, ein. Kombinationen von irgendwelchen der oberen sollten ebenso in den Umfang der computerlesbaren Medien eingeschlossen sein.
  • Der Systemspeicher 130 schließt Computerspeichermedien in der Form von flüchtigem und/oder nichtflüchtigem Speicher, wie z. B. Read Only Memory (ROM) 131 und Random Access Memory (RAM) 132, ein. Ein Basic-Input/Output-System (BIOS) 133, das die Basisroutinen enthält, die helfen, Informationen zwischen Elementen innerhalb des Computers 110 zu übertragen, z. B. während des Hochfahrens, sind üblicherweise in dem ROM 131 gespeichert. Der RAM 132 enthält üblicherweise Daten und/oder Programmmodule, auf die sofort durch die Prozessoreinheit 120 zugegriffen werden kann und/oder auf denen durch die Prozessoreinheit 120 aktuell gearbeitet wird. Als Beispiel, und nicht Einschränkung, stellt 1 das Betriebssystem 134, Anwendungsprogramme 135, andere Programmmodule 136 und Programmdaten 137 dar.
  • Der Computer 110 kann ebenso andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computerspeichermedien einschließen. Nur als Beispiel stellt 1 ein Festplattenlaufwerk 141, das von/zu einem nicht-entfernbaren, nichtflüchtigen magnetischen Datenträger liest oder schreibt, ein magnetisches Disklaufwerk 151, das von/zu einer entfernen, nichtflüchtigen magnetischen Disk 152 liest oder schreibt, und ein optisches Disklaufwerk 155, das von/zu einer entfernbaren, nichtflüchtigen optischen Disk 156 liest oder schreibt, wie z. B. einer CD-ROM oder anderem optischen Datenträger, dar. Andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computerspeichermedien, die in der exemplarischen Arbeitsumgebung verwendet werden können, schließen ein, sind aber nicht darauf begrenzt, magnetische Bandkassetten, Flashmemorykarten, Digital Versatile Disks, digitale Videobänder, Solid State RAM, Solid State ROM und Ähnliches. Das Festplattenlaufwerk 141 ist üblicherweise mit dem Systembus durch eine Schnittstelle für nicht-entfernbaren Speicher verbunden, wie z. B. Schnittstelle 140, und das magnetische Disklaufwerk 151 und optische Disklaufwerk 155, sind üblicherweise mit dem Systembus 121 durch eine Schnittstelle für entfernbaren Speicher, wie z. B. Schnittstelle 150, verbunden.
  • Die Laufwerke und ihre zugehörigen Computerspeicherdatenträger, die oberhalb diskutiert und in 1 dargestellt sind, stellen Speicher von computerlesbaren Instruktionen, Datenstrukturen, Programmmodulen und anderen Daten für den Computer 110 bereit. In 1 ist z. B. das Festplattenlaufwerk 141 so dargestellt, dass es Betriebssystem 144, andere Programme 145, andere Programmmodule 146, und Programmdaten 147 speichert. Es ist zu beachten, dass diese Komponenten entweder dieselben sind oder unterschiedlich von dem Betriebssystem 134, Anwendungsprogrammen 135, anderen Programmmodulen 136 und Programmdaten 137 sein können. Das Betriebssystem 144, Anwendungsprogramme 145, andere Programmmodule 146 und Programmdaten 147 sind hier unterschiedliche Nummern gegeben worden, um darzustellen, dass sie wenigstens unterschiedliche Kopien sind.
  • Ein Benutzer kann Befehle und Informationen in den Computer 110 durch Eingabegeräte eingeben, wie z. B. eine Tastatur 162, ein Mikrofon 163, ein Zeigergerät 161, wie z. B. eine Maus, Trackball oder Touchpad. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, Gamepad, Satellitenschüssel, Scanner oder Ähnliches einschließen. Diese und andere Eingabegeräte sind oft mit der Prozessoreinheit 120 über eine Benutzereingabeschnittstelle 160 verbunden, die mit dem Systembus gekoppelt ist, können aber durch andere Schnittstellen und Busstrukturen verbunden sein, z. B. einen Parallelport, Gameport oder einen Universal Serial Bus (USB). Ein Monitor 191 oder anderer Typ von Anzeigegerät ist auch mit dem Systembus 121 über eine Schnittstelle, wie z. B. einer Videoschnittstelle 190, verbunden. Zusätzlich zu dem Monitor können Computer auch andere periphere Ausgabegeräte einschließen, wie z. B. Lautsprecher 197 und Drucker 196, welche durch eine Ausgabeperipherieschnittstelle 195 verbunden sind.
  • Der Computer 110 wird in einer vernetzten Umgebung betrieben, die logische Verbindungen zu einem oder mehreren Remotecomputern verwendet, z. B. ein Remotecomputer 180. Der Remotecomputer 180 kann ein Personalcomputer, ein Handheldgerät, ein Server, ein Router, ein Netzwerk-PC, ein Peer-Gerät oder anderer bekannter Netzwerkknoten sein, und schließt üblicherweise viele oder alle der oben mit Bezug auf Computer 110 beschriebenen Elemente ein. Die logischen Verbindungen, die in 1 dargestellt sind, schließen ein Local Area Network (LAN) 171 und ein Wide Area Network (WAN) 173 ein, können aber ebenso andere Netzwerke einschließen. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet.
  • Wenn er in einer LAN-Netzwerkumgebung verwendet wird, ist der Computer 110 mit dem LAN 171 durch eine Netzwerkschnittstelle oder -adapter 170 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der Computer 110 üblicherweise ein Modem 173 oder andere Mittel zum Herstellen von Datenübertragungen über das WAN 173, wie z. B. dem Internet, ein. Das Modem 172, welches intern oder extern sein kann, kann mit dem Systembus 121 über die Benutzereingabeschnittstelle 160 oder anderem passenden Mechanismus verbunden sein. In einer vernetzten Umgebung können Programmmodule, die mit Bezug auf Computer 110 dargestellt sind, oder Teile davon in dem Remotedatenspeichergerät gespeichert sein. Als Beispiel, und nicht Einschränkung, stellt 1 Remoteanwendungsprogramme 185 so dar, dass sie sich auf dem Remotecomputer 180 befinden. Es wird begrüßt, dass die gezeigten Netzwerkver bindungen exemplarisch sind, und andere Mittel zum Herstellen einer Datenübertragungsverbindung zwischen den Computern verwendet werden können.
  • 2 ist ein Blockdiagramm eines mobilen Gerätes 200, welches eine exemplarische Computerumgebung ist. Das Mobilgerät 200 schließt einen Mikroprozessor 202, Speicher 204, Eingabe/Ausgabe- (Input/Output – I/O-) -Komponenten 206 und eine Datenübertragungsschnittstelle 208 zum Kommunizieren mit Remotecomputern oder anderen Mobilgeräten ein. In einer Ausführungsform sind die zuvor erwähnten Komponenten zur Kommunikation miteinander über einen geeigneten Bus 210 gekoppelt.
  • Speicher 204 ist als ein nichtflüchtiger elektronischer Speicher implementiert, wie z. B. ein Random Access Memory (RAM) mit einem Batteriepuffermodul (nicht gezeigt), so dass Informationen, die in dem Speicher 204 gespeichert sind, nicht verloren gehen, wenn die allgemeine Stromversorgung des Mobilgeräts 200 abgeschaltet wird. Ein Teil des Speichers 204 wird vorzugsweise als adressierbarer Speicher für Programmausführungen zugewiesen, während ein anderer Teil des Speichers 204 vorzugsweise für die Speicherung verwendet wird, z. B. um das Speichern auf einem Disklaufwerk zu simulieren.
  • Der Speicher 204 schließt ein Betriebssystem 212, Anwendungsprogramme 214, sowie einen Objektspeicher 216 ein. Während des Betriebs wird das Betriebssystem 212 vorzugsweise durch den Prozessor 202 von dem Speicher 204 ausgeführt. Das Betriebssystem 212 ist in einer bevorzugten Ausführungsform ein WINDOWS® CE Markenbetriebssystem, das kommerziell von Microsoft Corporation verfügbar ist. Das Betriebssystem 212 ist vorzugsweise für Mobilgeräte ausgelegt, und implementiert Datenbankmerkmale, die durch die Anwendungen 214 durch eine Reihe von dargelegten (exposed) Application Programming Interfaces (Anwendungsprogrammschnittstellen) und Verfahren genutzt werden können. Die Objekte in dem Objektspeicher 216 werden durch die Anwendungen 214 und das Betriebssystem 212 wenigstens teilweise als Reaktion auf Aufrufe zu den dargelegten Application Programming Interfaces und Verfahren geführt.
  • Datenübertragungsschnittstelle 208 repräsentiert zahlreiche Geräte und Technologien, die es dem Mobilgerät 200 erlauben, Informationen zu senden und zu empfangen. Die Geräte schließen verkabelte und kabellose Modems, Satellitenempfänger und Rundfunkempfänger, um nur ein paar zu nennen, ein. Das Mobilgerät 200 kann auch direkt mit einem Computer verbunden sein, um Daten damit auszutauschen. In solchen Fällen kann die Datenübertragungsschnittstelle 208 ein infraroter Transceiver oder eine serielle oder parallele Datenübertragungsverbindung sein, von denen alle im Stande sind, Streaminginformationen zu übermitteln.
  • Eingabe/Ausgabe-Komponenten 206 schließen eine Vielfalt von Eingabegeräten ein, wie z. B. einen berührungssensitiven Bildschirm, Knöpfe, Rollen, und ein Mikrofon, sowie eine Vielfalt an Ausgabegeräten, einschließlich einem Audiogenerator, einem Vibrationsgerät und einem Display. Die oben aufgelisteten Geräte sind nur ein Beispiel und müssen nicht alle in dem obigen Gerät vorhanden sein. Zusätzlich können andere Eingabe/Ausgabe-Geräte innerhalb des Umfangs der vorliegenden Erfindung an das Mobilgerät 200 angeschlossen oder bei ihm gefunden werden.
  • Unter einem Aspekt der vorliegenden Erfindung werden ein System und Verfahren bereitgestellt, das Rauschen in einem Sprachsignal durch das Zerlegen des Sprachsignals in eine harmonische Komponente und eine Zufallskomponente bereitstellt, und anschließend eine gewichtete Summe der harmonischen Komponente und der Zufallskomponente nimmt, um einen rauschreduzierten Featurevektor (Merkmalsvektor) zu bilden, der ein rauschreduziertes Sprachsignal repräsentiert. Der rauschreduzierte Featurevektor kann anschließend als Eingabe zu einem Sprachdecodierer verwendet werden.
  • Ein Verfahren und Apparat zum Bilden von rauschreduzierten Featurevektoren werden in dem Flussdiagramm von 3 bzw. dem Blockdiagramm von 4 gezeigt.
  • Bei Schritt 300 wird ein verrauschtes Sprachsignal gesammelt und in digitale Samples konvertiert. Um dies zu tun, konvertiert ein Mikrofon 404 aus 4 Audiowellen von einem Sprecher 400 und einer oder mehreren zusätzlichen Rauschquellen 402 in elektrische Signale. Die elektrischen Signale werden anschließend durch einen Analog-zu-Digital-Konverter 406 gesammelt, um eine Sequenz von digitalen Werten zu erzeugen. In einer Ausführungsform sampelt der A-zu-D-Konverter 406 das analoge Signal bei 16kHz und 16 Bits pro Sample, und erzeugt dabei 32 Kilobytes an Sprachdaten pro Sekunde. Bei Schritt 302 werden die digitalen Samples in Frames durch einen Framebilder 408 gruppiert. Unter einer Ausführungsform erzeugt der Framebilder 408 alle 10 Millisekunden einen Frame, der 25 Millisekunden an Datenwert (worth of data) einschließt.
  • Die Samples von jedem Frame werden einer harmonischen Zerlegungseinheit 410 bereitgestellt, welche die Sample bei Schritt 304 verwendet, um das dem Frame zugehörige Signal in eine harmonische Komponente und eine Zufallskomponente zu zerlegen. Deshalb wird das verrauschte Signal dargestellt als: y = yh + yr Gleichung 1wobei y das verrauschte Signal, yh die harmonische Komponente und yr die Zufallskomponente ist.
  • Unter einer Ausführungsform wird die harmonische Komponente als eine Summe von harmonisch-bezogenen Sinuskurven (harmonically-related sinusoids) moduliert, so dass:
    Figure 00100001
    wobei ω0 die Grund- oder Pitch-Frequenz und K die gesamte Anzahl von Obertönen in dem Signal ist.
  • Deshalb muss, um die harmonische Komponente zu identifizieren, ein Schätzwert der Pitch-Frequenz und der Amplitudenparameter {a1,a2...akb1b2...bk} ermittelt werden.
  • Ein Schätzwert für die Pitch-Frequenz kann unter Verwendung irgendeiner Anzahl von verfügbaren Pitch-Verfolgungssystemen ermittelt werden. Unter vielen dieser Systeme werden Pitchkandidaten verwendet, um mögliche Abstände (spacing) zwischen den Zentren der Segmente des Sprachsignals zu identifizieren. Für jeden Pitchkandidaten wird eine Korrelation zwischen aufeinander folgenden Segmenten der Sprache ermittelt. Im Allgemeinen wird der Pitchkandidat, der die beste Korrelation bereitstellt, die Pitchfrequenz des Frames. In manchen Systemen werden zusätzliche Informationen verwendet, um die Pitchauswahl zu verfeinern, wie z. B. die Energie des Signals und/oder einen erwarteten Pitchtrack.
  • Angesichts eines Schätzwertes des Pitches kann eine Lösung der kleinsten Quadrate für die Amplitudenparameter ermittelt werden. Um dies zu tun, wird Gleichung 2 umgeschrieben als: y = AB Gleichung 3wobei y ein Vektor von N Samples des verrauschten Sprachsignals ist, A eine N × 2K-Matrix ist, die gegeben ist durch: A = |Acos Asin| Gleichung 4mit Elementen Acos(k,t) = cos(kω0t) Asin(k,t) = sin(kω0t) Gleichung 5 und b ein 2K × 1-Vektor ist, der gegeben ist durch: bτ = [a1a2 ... akb1b2 ... bk] Gleichung 6
  • Anschließend ist die Lösung der kleinsten Quadrate für die Amplitudenkoeffizienten: b ^ = (AτA)–1 Aτy Gleichung 7
  • Unter Verwendung von b^ kann ein Schätzwert für die harmonische Komponente des verrauschten Sprachsignals ermittelt werden als: yh = A b^ Gleichung 8
  • Ein Schätzwert der Zufallskomponente wird anschließend berechnet als: yr = y – yh Gleichung 9
  • Deshalb ist unter Verwendung der Gleichungen 7–9 von oben die harmonische Zerlegungseinheit 410 in der Lage, einen Vektor von harmonischen Komponentensamples 412, yh, und einen Vektor von Zufallskomponentensamples 414, yr, zu erzeugen.
  • Nachdem die Samples des Frames in harmonische und Zufalls-Sample zerlegt worden sind, wird ein Skalierungsparameter oder -gewicht für die harmonische Komponente bei Schritt 306 ermittelt. Dieser Skalierungsparameter wird als ein Teil der Berechnung eines rauschreduzierten Sprachsignals, wie weiter unterhalb diskutiert, verwendet. Unter einer Ausführungsform wird der Skalierungsparameter berechnet als:
    Figure 00110001
    wobei ah der Skalierungsparameter ist, yh(i) das i-te Sample in dem Vektor der harmonischen Komponentensamples yh ist, und y(i) das i-te Sample des verrauschte Sprachsignals für diesen Frame ist. In Gleichung 10 ist der Zähler die Summe der Energie von jedem Sample der harmonischen Komponente und der Nenner ist die Summe der Energie von jedem Sample des verrauschten Sprachsignals. Deshalb ist der Skalierungspa rameter das Verhältnis der harmonischen Energie des Frames zu der gesamten Energie des Frames.
  • In alternativen Ausführungsformen wird der Skalierungsparameter unter Verwendung einer probabilistischen, Erkennungseinheit für stimmbehaftet/ohneStimme (voiced unvoiced) festgelegt. Solche Einheiten stellen die Wahrscheinlichkeit bereit, dass ein bestimmter Sprachframe eher Stimme enthält (is voiced), was bedeutet, dass die Stimmbänder während des Frames schwingen, als ohne Stimme ist. Die Wahrscheinlichkeit, dass der Frame von einer sprachbehafteten Region der Sprache ist, kann direkt als der Skalierungsparameter verwendet werden.
  • Nachdem der Skalierungsparameter ermittelt worden ist, oder während er ermittelt wird, werden das Mel-Spektrum für den Vektor der harmonischen Komponentensamples und den Vektor der Zufallskomponentensamples bei Schritt 308 ermittelt. Dies bezieht das Durchführen jedes Samplevektors durch eine diskrete Fouriertransformation (DFT) 418 ein, um einen Vektor mit harmonischen Komponentenfrequenzwerten 422 und einen Vektor mit Zufallskomponentenfrequenzwerten 420 zu erzeugen. Die Energiespektren, die durch die Vektoren der Frequenzwerte repräsentiert werden, werden anschließend durch eine Mel-Gewichtungseinheit 424 unter Verwendung einer Reihe von Dreiecksgewichtungsfunktionen, die entlang der Mel-Skala angewandt werden, geglättet. Dies führt zu einem harmonischen Komponenten-Mel-Spektralvektor 428, Yh, und einem Zufallskomponenten-Mel-Spektralvektor 426, Yr.
  • Bei Schritt 310 werden die Mel-Spektren für die harmonische Komponente und die Zufallskomponente als eine gewichtete Summe kombiniert, um einen Schätzwert eines rauschreduzierten Mel-Spektrums zu bilden. Dieser Schritt wird, durch den Kalkulator für gewichtete Summen 430 unter Verwendung des oben ermittelten Skalierungsfaktors, in der folgenden Gleichung ausgeführt: X^(t) = αh(t)Y(t) + αt Yr(t) Gleichung 11wobei X^(t) der Schätzwert des rauschreduzierten Melspektrums ist, Yh(t) das harmonische Komponenten-Melspektrum ist, Yr(t) das Zufallskomponenten-Melspektrum ist, ah(t) der Skalierungsfaktor ist, der oberhalb ermittelt wurde, ar ein fester Skalierungsfaktor für die Zufallskomponente ist, der in einer Ausführungsform gleich 0,1 gesetzt ist, und der Zeitindex t verwendet wird, um hervorzuheben, dass der Skalierungsfaktor für die har monische Komponente für jeden Frame ermittelt wird, während der Skalierungsfaktor für die Zufallskomponente fest bleibt. Es ist zu beachten, dass in anderen Ausführungsformen der Skalierungsfaktor für die Zufallskomponente für jeden Frame ermittelt werden kann.
  • Nachdem das rauschreduzierte Melspektrum bei Schritt 310 berechnet worden ist, wird das Log 432 des Melspektrums ermittelt und wird anschließend bei Schritt 312 auf eine diskrete Kosinustransformation 434 angewandt. Dies erzeugt einen Mel-Frequency-Cepstral-Coefficient-Featurevektor 436 (MFCC-Featurevektor), der ein rauschreduziertes Sprachsignal darstellt.
  • Ein separater rauschreduzierter MFCC-Featurevektor wird für jeden Frame des verrauschten Signals erzeugt. Diese Featurevektoren können für irgendeinen gewünschten Zweck verwendet werden, einschließlich Sprachcodierung und Spracherkennung.
  • Unter einer Ausführungsform werden die MFCC-Featurevektoren für die rauschreduzierte Sprache direkt in einem Spracherkennungssystem, wie in 5 gezeigt, verwendet.
  • Wenn das Eingangssignal ein Trainingssignal ist, wird die Reihe von MFCC-Featurevektoren 436 für die rauschreduzierte Sprache einem Trainer 500 bereitgestellt, welcher die MFCC-Featurevektoren und einen Trainingstext 502 verwendet, um ein akustisches Modell 504 zu trainieren. Techniken zum Trainieren solcher Modelle sind in der Fachwelt bekannt und eine Beschreibung von ihnen ist für das Verständnis der vorliegenden Erfindung nicht erforderlich.
  • Wenn das Eingangssignal ein Testsignal ist, werden die MFCC-Sprach-Featurevektorer einem Decoder 506 bereitgestellt, welcher eine höchstwahrscheinliche Sequenz von Worten, basierend auf dem Strom von Featurevektoren, einem Lexikon 508, einem Sprachmodell 510 und dem akustischen Modell 504 identifiziert. Das bestimmte Verfahren, das zum Dekodieren verwendet wird, ist für die vorliegende Erfindung nicht wichtig, und irgendeines der vielen bekannten Verfahren zum Dekodieren kann verwendet werden.
  • Obwohl die Erfindung oberhalb in Verbindung mit Mel-Frequency-Cepstral-Coefficients beschrieben worden ist, können andere Featuretypen in dem gewichteten harmonischen und Rauschmodell aus Gleichung 11 verwendet werden.
  • Obwohl die vorliegende Erfindung mit Bezug auf bestimmte Ausführungsformen beschrieben worden ist, werden es Fachleute erkennen, dass Veränderungen an der Form und im Detail gemacht werden können, ohne von dem Umfang der Erfindung, wie sie durch die anhängigen Ansprüche definiert ist, abzuweichen.

Claims (11)

  1. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal, wobei das Verfahren umfasst: Zerlegen eines Teils eines verrauschten Sprachsignals in eine harmonische Komponente und eine Zufallskomponente; Ermitteln eines Skalierungsparameters für mindestens die harmonische Komponente; Multiplizieren der harmonischen Komponente mit dem Skalierungsparameter für die harmonische Komponente, um eine skalierte harmonische Komponente zu bilden; Multiplizieren der Zufallskomponente mit einem Skalierungsparameter für die Zufallskomponente, um eine skalierte Zufallskomponente zu bilden; und Summieren der skalierten harmonischen Komponente und der skalierten Zufallskomponente, um einen rauschreduzierten Wert zu bilden, der einen Teil eines Sprachsignals darstellt, das im Bezug auf das verrauschte Sprachsignal rauschreduziert ist.
  2. Verfahren nach Anspruch 1, wobei das Zerlegen eines Teils eines verrauschten Sprachsignals des Weiteren das Ermitteln einer Lösung der kleinsten Quadrate umfasst, um die harmonische Komponente zu identifizieren.
  3. Verfahren nach Anspruch 1, wobei das Ermitteln eines Skalierungsparameters für die harmonische Komponente das Ermitteln eines Verhältnisses der Energie der harmonischen Komponente zu der Energie des verrauschten Sprachsignals umfasst.
  4. Verfahren nach Anspruch 3, wobei das Ermitteln eines Verhältnisses umfasst: Summieren der Energie von Samples der harmonischen Komponente; Summieren der Energie von Samples des verrauschten Sprachsignals; und Dividieren der Summe für die harmonische Komponente durch die Summe für das verrauschte Sprachsignal.
  5. Verfahren nach Anspruch 1, wobei das Zerlegen eines Teils eines verrauschten Sprachsignals das Zerlegen eines Vektors aus Zeit-Samples von einem Frame des verrauschten Sprachsignals in einen harmonischen Komponentenvektor aus Zeit-Samples und einem Zufallskomponentenvektor aus Zeit-Samples umfasst.
  6. Verfahren nach Anspruch 5, das des Weiteren das Ermitteln eines Mel-Spektrums für die harmonische Komponente von dem harmonischen Komponentenvektor aus Zeit-Samples umfasst.
  7. Verfahren nach Anspruch 1, das des Weiteren das Bilden eines Mel-Frequenz-Cepstral-Koeffizienten-Feature-Vektor aus dem rauschreduzierten Wert umfasst.
  8. Verfahren nach Anspruch 7, das des Weiteren das Verwenden des Mel-Frequenz-Cepstral-Koeffizienten-Feature-Vektor, um eine Spracherkennung durchzuführen, umfasst.
  9. Verfahren nach Anspruch 1, wobei die harmonische Komponente als eine Summe von harmonischen Sinuskurven geformt ist.
  10. Computer-lesbarer Datenträger, auf dem Computer-ausführbare Instruktionen liegen, die, wenn sie auf einem Computer laufen, zum Ausführen der folgenden Schritte sind: Identifizieren einer harmonischen Komponente und einer Zufallskomponente in einem verrauschten Sprachsignal; Ermitteln eines Skalierungsparameters für mindestens die harmonische Komponente; Multiplizieren der harmonischen Komponente mit dem Skalierungsparameter für die harmonische Komponente, um eine skalierte harmonische Komponente zu bilden; Multiplizieren der Zufallskomponente mit einem Skalierungsparameter für die Zufallskomponente, um eine skalierte Zufallskomponente zu bilden; und Summieren der skalierten harmonischen Komponente und der skalierten Zufallskomponente, und dabei Kombinieren der harmonischen Komponente und der Zufallskomponente, um einen rauschreduzierten Wert zu bilden, der einen Teil eines Sprachsignals darstellt; das im Bezug auf das verrauschte Sprachsignal rauschreduziert ist; und Verwenden des rauschreduzierten Werts, um eine Spracherkennung durchzuführen.
  11. Computer-lesbarer Datenträger nach Anspruch 10, wobei die harmonische Komponente als eine Summe der harmonischen Sinuskurven geformt ist.
DE602004003439T 2003-08-25 2004-07-23 Rauschunterdrückung zur robusten Spracherkennung Active DE602004003439T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/647,586 US7516067B2 (en) 2003-08-25 2003-08-25 Method and apparatus using harmonic-model-based front end for robust speech recognition
US647586 2003-08-25

Publications (2)

Publication Number Publication Date
DE602004003439D1 DE602004003439D1 (de) 2007-01-11
DE602004003439T2 true DE602004003439T2 (de) 2007-03-29

Family

ID=34104651

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004003439T Active DE602004003439T2 (de) 2003-08-25 2004-07-23 Rauschunterdrückung zur robusten Spracherkennung

Country Status (7)

Country Link
US (1) US7516067B2 (de)
EP (1) EP1511011B1 (de)
JP (1) JP4731855B2 (de)
KR (1) KR101087319B1 (de)
CN (1) CN1591574B (de)
AT (1) ATE347162T1 (de)
DE (1) DE602004003439T2 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
KR100744352B1 (ko) * 2005-08-01 2007-07-30 삼성전자주식회사 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8005671B2 (en) * 2006-12-04 2011-08-23 Qualcomm Incorporated Systems and methods for dynamic normalization to reduce loss in precision for low-level signals
JP5089295B2 (ja) * 2007-08-31 2012-12-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理システム、方法及びプログラム
KR100919223B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
US8306817B2 (en) * 2008-01-08 2012-11-06 Microsoft Corporation Speech recognition with non-linear noise reduction on Mel-frequency cepstra
JP5640238B2 (ja) * 2008-02-28 2014-12-17 株式会社通信放送国際研究所 特異点信号処理システムおよびそのプログラム
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) * 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US9792925B2 (en) * 2010-11-25 2017-10-17 Nec Corporation Signal processing device, signal processing method and signal processing program
FR2980620A1 (fr) * 2011-09-23 2013-03-29 France Telecom Traitement d'amelioration de la qualite des signaux audiofrequences decodes
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
EP3353783B1 (de) * 2015-09-25 2019-12-11 Fraunhofer Gesellschaft zur Förderung der Angewand Codierer und verfahren zur codierung eines tonsignals mit reduziertem hintergrundrauschen mit linearer prädiktionscodierung
WO2017143334A1 (en) * 2016-02-19 2017-08-24 New York University Method and system for multi-talker babble noise reduction using q-factor based signal decomposition
CN108175436A (zh) * 2017-12-28 2018-06-19 北京航空航天大学 一种肠鸣音智能自动识别方法
US11545143B2 (en) 2021-05-18 2023-01-03 Boris Fridman-Mintz Recognition or synthesis of human-uttered harmonic sounds

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
GB9512284D0 (en) 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
JPH0944186A (ja) * 1995-07-31 1997-02-14 Matsushita Electric Ind Co Ltd 雑音抑制装置
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
JPH09152891A (ja) * 1995-11-28 1997-06-10 Takayoshi Hirata 非調和的周期検出法を用いた準周期的雑音の除去方式
US5913187A (en) 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
TW466471B (en) * 2000-04-07 2001-12-01 Ind Tech Res Inst Method for performing noise adaptation in voice recognition unit
US20020039425A1 (en) * 2000-07-19 2002-04-04 Burnett Gregory C. Method and apparatus for removing noise from electronic signals
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
JP3586205B2 (ja) * 2001-02-22 2004-11-10 日本電信電話株式会社 音声スペクトル改善方法、音声スペクトル改善装置、音声スペクトル改善プログラム、プログラムを記憶した記憶媒体
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
US6952482B2 (en) * 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법

Also Published As

Publication number Publication date
DE602004003439D1 (de) 2007-01-11
US20050049857A1 (en) 2005-03-03
ATE347162T1 (de) 2006-12-15
US7516067B2 (en) 2009-04-07
KR101087319B1 (ko) 2011-11-25
EP1511011B1 (de) 2006-11-29
CN1591574B (zh) 2010-06-23
KR20050022371A (ko) 2005-03-07
EP1511011A3 (de) 2005-04-13
JP2005070779A (ja) 2005-03-17
EP1511011A2 (de) 2005-03-02
JP4731855B2 (ja) 2011-07-27
CN1591574A (zh) 2005-03-09

Similar Documents

Publication Publication Date Title
DE602004003439T2 (de) Rauschunterdrückung zur robusten Spracherkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112012002524B4 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE60023517T2 (de) Klassifizierung von schallquellen
US6862558B2 (en) Empirical mode decomposition for analyzing acoustical signals
EP2431972B1 (de) Verfahren und Vorrichtung zur multisensorischen Sprachverstärkung
DE60218385T2 (de) Nachfilterung von kodierter Sprache im Frequenzbereich
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE112014004836B4 (de) Verfahren und System zum Verbessern eines verrauschten Eingangssignals
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
CN106486131A (zh) 一种语音去噪的方法及装置
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
MXPA04002919A (es) Metodo de calculo de ruido mediante el uso del aprendizaje de bayes de incremento.
CN108198576A (zh) 一种基于语音特征非负矩阵分解的阿尔茨海默症初筛方法
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
US20070055519A1 (en) Robust bandwith extension of narrowband signals
DE60220847T2 (de) Spracherkennungssystem, System zur Ermittlung von Referenzmustern, sowie entsprechende Verfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition