DE602004003439T2

DE602004003439T2 - Rauschunterdrückung zur robusten Spracherkennung

Info

Publication number: DE602004003439T2
Application number: DE602004003439T
Authority: DE
Inventors: Michael L. Chicago Seltzer; James Duvall Droppo; Alejandro Bellevue Acero
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-08-25
Filing date: 2004-07-23
Publication date: 2007-03-29
Anticipated expiration: 2024-07-24
Also published as: DE602004003439D1; US20050049857A1; ATE347162T1; US7516067B2; KR101087319B1; EP1511011B1; CN1591574B; KR20050022371A; EP1511011A3; JP2005070779A; EP1511011A2; JP4731855B2; CN1591574A

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf Rauschreduzierung. Im Besonderen bezieht sich die vorliegende Erfindung auf das Entfernen von Rauschen (bzw. Geräuschen) aus Signalen, die in einer Spracherkennung verwendet werden.
Ein Mustererkennungssystem, wie z. B. ein Spracherkennungssystem, nimmt ein Eingangssignal und versucht, das Signal zu dekodieren, um ein Muster, das durch das Signal repräsentiert wird, zu finden. Zum Beispiel wird in einem Spracherkennungssystem ein Sprachsignal (oft als ein Testsignal bezeichnet) durch das Erkennungssystem empfangen und dekodiert, um eine Folge von Wörtern, die durch das Sprachsignal repräsentiert werden, zu identifizieren.
Um das eingehende Testsignal zu dekodieren, benutzen die meisten Erkennungssysteme ein oder mehrere Modelle, die die Wahrscheinlichkeit beschreiben, dass ein Teil des Testsignals ein bestimmtes Muster repräsentiert. Beispiele für solche Modelle schließen neuronale Netze, Dynamic Time Warping, Segmentmodelle und Hidden Markov Models ein.
Bevor ein Modell benutzt werden kann, um ein eingehendes Signal zu dekodieren, muss es trainiert werden. Dies wird üblicherweise durch das Messen von eingegebenen Trainingssignalen, die von einem bekannten Trainingsmuster erzeugt werden, getan. Zum Beispiel wird in einer Spracherkennung eine Sammlung von Sprachsignalen durch Sprecher erzeugt, die von einem bekannten Text lesen. Diese Sprachsignale werden anschließend verwendet, um die Modelle zu trainieren.
Damit die Modelle optimal arbeiten, sollten die Signale, die zum Trainieren der Modelle verwendet werden, gleich den eventuellen Testsignalen sein, die dekodiert werden. Im Besonderen sollten die Trainingssignale dieselbe Menge und denselben Typ von Rauschen (bzw. Geräuschen) haben, wie die Testsignale, die dekodiert werden.
Üblicherweise wird das Trainingssignal unter "sauberen" Bedingungen gesammelt und wird als relativ rauschfrei erachtet. Um dieses gleiche geringe Level an Rauschen in dem Testsignal zu erreichen, wenden viele Systeme nach Stand der Technik Rauschreduzierungstechniken auf die Testdaten an.
Eine Technik zum Entfernen von Rauschen versucht das Rauschen unter Verwendung einer Reihe von Trainingssignalen, die unter verschiedenen verrauschten Bedingungen gesammelt wurden, zu modellieren. Solche Systeme sind jedoch nur effektiv, wenn die Rauschbedingungen des Trainingssignals mit den Rauschbedingungen des Testsignals übereinstimmen. Aufgrund der großen Anzahl von möglichem Rauschen und den scheinbar unendlichen Kombinationen von Rauschen ist es sehr schwierig, Rauschmodelle anzulegen, die jede Testbedingung handhaben können.
Eine andere Technik zum Entfernen von Rauschen ist, das Rauschen zu schätzen und anschließend von dem verrauschten Sprachsignal abzuziehen. Üblicherweise schätzen solche Systeme das Rauschen von einem vorherigen Frame (Datenübertragungsblock) des Eingangssignals. Wenn sich das Rauschen mit der Zeit verändert, wird die Schätzung des Rauschens als solche für den aktuellen Frame ungenau sein.
Ein System nach Stand der Technik zum Schätzen des Rauschens in einem Sprachsignal verwendet die Obertöne (harmonics) der menschlichen Sprache. Die Obertöne der menschlichen Sprache produzieren Spitzen in dem Frequenzspektrum. Durch Identifizieren von Nullen zwischen diesen Spitzen identifizieren diese Systeme das Spektrum des Rauschens. Dieses Spektrum wird dann von dem Spektrum des verrauschten Sprachsignals abgezogen, um ein sauberes Sprachsignal bereitzustellen.
Die Obertöne der Sprache sind ebenso in der Sprachkodierung verwendet worden, um die Menge an Daten, die gesendet werden müssen, zu reduzieren, wenn Sprache für die Übertragung über einen digitalen Datenübertragungspfad kodiert wird. Solche Systeme versuchen, das Sprachsignal in eine harmonische (Oberton-) Komponente und eine Zufallskomponente aufzuteilen. Jede Komponente wird anschließend separat für die Übertragung kodiert. Im Besonderen verwendet ein System ein harmonisches plus Rauschen Modell (harmonic+noise model), in dem ein Modell der Sinuskurvensumme (sum-of-sinusoids model) auf das Sprachsignal angepasst wird, um die Zerlegung durchzuführen.
In der Sprachcodierung wird die Zerlegung gemacht, um eine Parametrisierung des Sprachsignals zu finden, die das eingegebene verrauschte Sprachsignal genau repräsentiert. Die Zerlegung hat keine rauschreduzierende Fähigkeit und war als solches nicht hilfreich in der Spracherkennung. Das Dokument US 6,029,128 offenbart ein Beispiel einer solchen Technik.
Dokument EP 0 899 718 beschreibt auf der anderen Seite ein Verfahren zum Reduzieren von Rauschen, basierend auf einer nichtlinearen Funktion.
KURZFASSUNG DER ERFINDUNG
Die Erfindung wird durch die anhängigen unabhängigen Ansprüche definiert.
Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen definiert.
Ein System und Verfahren werden bereitgestellt, die Rauschen in Sprachsignalen reduzieren. Das System und Verfahren zerlegt ein verrauschtes Sprachsignal in eine harmonische Komponente und in eine restliche Komponente. Die harmonische Komponente und restliche Komponente werden dann als eine Summe kombiniert, um einen rauschreduzierten Wert zu bilden. In manchen Ausführungsformen ist die Summe eine gewichtete Summe, wobei die harmonische Komponente mit einem Skalierungsfaktor multipliziert wird. In manchen Ausführungsformen wird der rauschreduzierte Wert in einer Spracherkennung verwendet.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm einer Computerumgebung, in der die vorliegende Erfindung praktiziert werden kann.
2 ist ein Blockdiagramm einer alternativen Computerumgebung, in der die vorliegende Erfindung praktiziert werden kann.
3 ist ein Flussdiagramm eines Verfahrens zum Verwenden eines Rauschreduzierungssystems einer Ausführungsform der vorliegenden Erfindung.
4 ist ein Blockdiagramm eines Rauschreduzierungssystems einer Ausführungsform der vorliegenden Erfindung.
5 ist ein Blockdiagramm eines Mustererkennungssystems, mit dem Ausführungsformen der vorliegenden Erfindung praktiziert werden können.
DETAILLIERTE BESCHREIBUNG ILLUSTRATIVER AUSFÜHRUNGSFORMEN
1 stellt ein Beispiel einer geeigneten Computersystemumgebung 100 dar, auf der die Erfindung implementiert werden kann. Die Computersystemumgebung 100 ist nur ein Beispiel einer geeigneten Computerumgebung und ist nicht gedacht, irgendeine Ein schränkung bezüglich des Umfangs der Verwendung oder Funktionalität der Erfindung vorzuschlagen. Noch sollte die Computerumgebung 100 interpretiert werden, als weise sie irgendwelche Abhängigkeiten oder Erfordernisse bezüglich irgendeiner oder einer Kombination von Komponenten auf, die in der exemplarischen Arbeitsumgebung 100 dargestellt sind.
Die Erfindung ist betriebsbereit mit zahlreichen anderen Allzweck- oder Spezialzweck-Computersystemumgebungen oder -konfigurationen. Beispiele von gut bekannten Computersystemen, -umgebungen und/oder -konfigurationen, die für die Verwendung mit der Erfindung geeignet sein können, schließen ein, sind aber nicht darauf begrenzt, Personalcomputer, Servercomputer, Hand-Held- oder Laptop-Geräte, Multiprozessorsysteme, Mikroprozessor-basierte Systeme, Set-Top-Boxen, programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Telefonsysteme, verteilte Computerumgebungen, die irgendeine der oben genannten Systeme oder Geräte einschließen, und Ähnliches.
Die Erfindung kann in dem allgemeinen Kontext von computerausführbaren Instruktionen beschrieben werden, wie z. B. Programmmodulen, die durch einen Computer ausgeführt werden. Im Allgemeinen schließen Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, etc. ein, die bestimmte Funktionen durchführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung ist ausgelegt, um in verteilten Computerumgebungen praktiziert zu werden, wo Funktionen durch remote (dezentral) arbeitende Geräte ausgeführt werden, die durch ein Datenübertragungsnetzwerk verbunden sind. In einer verteilten Computerumgebung liegen Programmmodule sowohl auf lokalen als auch Remotecomputerspeicherdatenträgern, einschließlich Datenspeichergeräten.
Mit Bezug auf 1 schließt ein exemplarisches System zum Implementieren der Erfindung ein Allzweckcomputergerät in der Form eines Computers 110 ein. Komponenten des Computers 110 können einschließen, sind aber nicht darauf begrenzt, eine Prozessoreinheit 120, einen Systemspeicher 130 und einen Systembus 121, der verschiedene Systemkomponenten koppelt, einschließlich dem Systemspeicher mit der Prozessoreinheit 120. Der Systembus 121 kann irgendeiner von verschiedenen Busstrukturtypen sein, einschließlich einem Speicherbus oder Speichercontroller, einem Peripheriebus, und einem lokalen Bus, der irgendeine von einer Vielzahl von Busarchitekturen verwendet. Als Beispiel, und nicht Einschränkung, schließen solche Architekturen einen In dustry-Standard-Architecture-Bus (ISA-Bus), Micro-Channel-Architecture-Bus (MCA-Bus), Enhanced-ISA-Bus (EISA-Bus), Video-Electronics-Standards-Association-Local-Bus (VESA-Local-Bus), und Peripheral-Component-Interconnect-Bus (PCI-Bus), ebenso bekannt als Mezzanine-Bus, ein.
Computer 110 schließt üblicherweise eine Vielfalt von computerlesbaren Datenträgern ein. Computerlesbare Datenträger können irgendein verfügbarer Datenträger sein, auf den durch den Computer 110 zugegriffen werden kann und schließt sowohl flüchtige als auch nichtflüchtige Datenträger, entfernbare und nicht entfernbare Datenträger ein. Als Beispiel, und nicht Einschränkung, können computerlesbare Datenträger Computerspeichermedien und Datenübertragungsmedien einschließen. Computerspeichermedien schließen sowohl flüchtige als auch nichtflüchtige, entfernbare als auch nicht entfernbare Datenträger ein, die mit irgendeinem Verfahren oder Technologie zur Speicherung von Informationen, wie z. B. computerlesbaren Instruktionen, Datenstrukturen, Programmmodulen oder anderen Daten, implementiert werden. Computerspeichermedien schließen ein, sind aber nicht darauf begrenzt, RAM, ROM, EEPROM, Flashmemory oder anderen Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder andere optische Diskspeicher, magnetische Kassetten, magnetische Bänder, magnetische Diskspeicher oder andere magnetische Speichergeräte oder irgendein anderes Medium, welches verwendet werden kann, um die gewünschten Informationen zu speichern, und auf welches durch den Computer 110 zugegriffen werden kann. Datenübertragungsmedien enthalten üblicherweise computerlesbare Instruktionen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie z. B. einer Trägerwelle oder anderem Transportmechanismus, und schließen irgendwelche Informationsliefermedien ein. Der Begriff "moduliertes Datensignal" meint ein Signal, das eine oder mehrere seiner Charakteristiken in solch einer Weise gesetzt oder verändert hat, um Informationen in dem Signal zu kodieren. Als Beispiel und nicht Einschränkung schließen Datenübertragungsmedien verkabelte Medien, wie z. B. ein verkabeltes Netzwerk oder eine direkt verkabelte Verbindung, und kabellose Medien, wie z. B. Akustik, RF, infrarote oder andere kabellose Medien, ein. Kombinationen von irgendwelchen der oberen sollten ebenso in den Umfang der computerlesbaren Medien eingeschlossen sein.
Der Systemspeicher 130 schließt Computerspeichermedien in der Form von flüchtigem und/oder nichtflüchtigem Speicher, wie z. B. Read Only Memory (ROM) 131 und Random Access Memory (RAM) 132, ein. Ein Basic-Input/Output-System (BIOS) 133, das die Basisroutinen enthält, die helfen, Informationen zwischen Elementen innerhalb des Computers 110 zu übertragen, z. B. während des Hochfahrens, sind üblicherweise in dem ROM 131 gespeichert. Der RAM 132 enthält üblicherweise Daten und/oder Programmmodule, auf die sofort durch die Prozessoreinheit 120 zugegriffen werden kann und/oder auf denen durch die Prozessoreinheit 120 aktuell gearbeitet wird. Als Beispiel, und nicht Einschränkung, stellt 1 das Betriebssystem 134, Anwendungsprogramme 135, andere Programmmodule 136 und Programmdaten 137 dar.
Der Computer 110 kann ebenso andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computerspeichermedien einschließen. Nur als Beispiel stellt 1 ein Festplattenlaufwerk 141, das von/zu einem nicht-entfernbaren, nichtflüchtigen magnetischen Datenträger liest oder schreibt, ein magnetisches Disklaufwerk 151, das von/zu einer entfernen, nichtflüchtigen magnetischen Disk 152 liest oder schreibt, und ein optisches Disklaufwerk 155, das von/zu einer entfernbaren, nichtflüchtigen optischen Disk 156 liest oder schreibt, wie z. B. einer CD-ROM oder anderem optischen Datenträger, dar. Andere entfernbare/nicht-entfernbare, flüchtige/nichtflüchtige Computerspeichermedien, die in der exemplarischen Arbeitsumgebung verwendet werden können, schließen ein, sind aber nicht darauf begrenzt, magnetische Bandkassetten, Flashmemorykarten, Digital Versatile Disks, digitale Videobänder, Solid State RAM, Solid State ROM und Ähnliches. Das Festplattenlaufwerk 141 ist üblicherweise mit dem Systembus durch eine Schnittstelle für nicht-entfernbaren Speicher verbunden, wie z. B. Schnittstelle 140, und das magnetische Disklaufwerk 151 und optische Disklaufwerk 155, sind üblicherweise mit dem Systembus 121 durch eine Schnittstelle für entfernbaren Speicher, wie z. B. Schnittstelle 150, verbunden.
Die Laufwerke und ihre zugehörigen Computerspeicherdatenträger, die oberhalb diskutiert und in 1 dargestellt sind, stellen Speicher von computerlesbaren Instruktionen, Datenstrukturen, Programmmodulen und anderen Daten für den Computer 110 bereit. In 1 ist z. B. das Festplattenlaufwerk 141 so dargestellt, dass es Betriebssystem 144, andere Programme 145, andere Programmmodule 146, und Programmdaten 147 speichert. Es ist zu beachten, dass diese Komponenten entweder dieselben sind oder unterschiedlich von dem Betriebssystem 134, Anwendungsprogrammen 135, anderen Programmmodulen 136 und Programmdaten 137 sein können. Das Betriebssystem 144, Anwendungsprogramme 145, andere Programmmodule 146 und Programmdaten 147 sind hier unterschiedliche Nummern gegeben worden, um darzustellen, dass sie wenigstens unterschiedliche Kopien sind.
Ein Benutzer kann Befehle und Informationen in den Computer 110 durch Eingabegeräte eingeben, wie z. B. eine Tastatur 162, ein Mikrofon 163, ein Zeigergerät 161, wie z. B. eine Maus, Trackball oder Touchpad. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, Gamepad, Satellitenschüssel, Scanner oder Ähnliches einschließen. Diese und andere Eingabegeräte sind oft mit der Prozessoreinheit 120 über eine Benutzereingabeschnittstelle 160 verbunden, die mit dem Systembus gekoppelt ist, können aber durch andere Schnittstellen und Busstrukturen verbunden sein, z. B. einen Parallelport, Gameport oder einen Universal Serial Bus (USB). Ein Monitor 191 oder anderer Typ von Anzeigegerät ist auch mit dem Systembus 121 über eine Schnittstelle, wie z. B. einer Videoschnittstelle 190, verbunden. Zusätzlich zu dem Monitor können Computer auch andere periphere Ausgabegeräte einschließen, wie z. B. Lautsprecher 197 und Drucker 196, welche durch eine Ausgabeperipherieschnittstelle 195 verbunden sind.
Der Computer 110 wird in einer vernetzten Umgebung betrieben, die logische Verbindungen zu einem oder mehreren Remotecomputern verwendet, z. B. ein Remotecomputer 180. Der Remotecomputer 180 kann ein Personalcomputer, ein Handheldgerät, ein Server, ein Router, ein Netzwerk-PC, ein Peer-Gerät oder anderer bekannter Netzwerkknoten sein, und schließt üblicherweise viele oder alle der oben mit Bezug auf Computer 110 beschriebenen Elemente ein. Die logischen Verbindungen, die in 1 dargestellt sind, schließen ein Local Area Network (LAN) 171 und ein Wide Area Network (WAN) 173 ein, können aber ebenso andere Netzwerke einschließen. Solche Netzwerkumgebungen sind alltäglich in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet.
Wenn er in einer LAN-Netzwerkumgebung verwendet wird, ist der Computer 110 mit dem LAN 171 durch eine Netzwerkschnittstelle oder -adapter 170 verbunden. Wenn er in einer WAN-Netzwerkumgebung verwendet wird, schließt der Computer 110 üblicherweise ein Modem 173 oder andere Mittel zum Herstellen von Datenübertragungen über das WAN 173, wie z. B. dem Internet, ein. Das Modem 172, welches intern oder extern sein kann, kann mit dem Systembus 121 über die Benutzereingabeschnittstelle 160 oder anderem passenden Mechanismus verbunden sein. In einer vernetzten Umgebung können Programmmodule, die mit Bezug auf Computer 110 dargestellt sind, oder Teile davon in dem Remotedatenspeichergerät gespeichert sein. Als Beispiel, und nicht Einschränkung, stellt 1 Remoteanwendungsprogramme 185 so dar, dass sie sich auf dem Remotecomputer 180 befinden. Es wird begrüßt, dass die gezeigten Netzwerkver bindungen exemplarisch sind, und andere Mittel zum Herstellen einer Datenübertragungsverbindung zwischen den Computern verwendet werden können.
2 ist ein Blockdiagramm eines mobilen Gerätes 200, welches eine exemplarische Computerumgebung ist. Das Mobilgerät 200 schließt einen Mikroprozessor 202, Speicher 204, Eingabe/Ausgabe- (Input/Output – I/O-) -Komponenten 206 und eine Datenübertragungsschnittstelle 208 zum Kommunizieren mit Remotecomputern oder anderen Mobilgeräten ein. In einer Ausführungsform sind die zuvor erwähnten Komponenten zur Kommunikation miteinander über einen geeigneten Bus 210 gekoppelt.
Speicher 204 ist als ein nichtflüchtiger elektronischer Speicher implementiert, wie z. B. ein Random Access Memory (RAM) mit einem Batteriepuffermodul (nicht gezeigt), so dass Informationen, die in dem Speicher 204 gespeichert sind, nicht verloren gehen, wenn die allgemeine Stromversorgung des Mobilgeräts 200 abgeschaltet wird. Ein Teil des Speichers 204 wird vorzugsweise als adressierbarer Speicher für Programmausführungen zugewiesen, während ein anderer Teil des Speichers 204 vorzugsweise für die Speicherung verwendet wird, z. B. um das Speichern auf einem Disklaufwerk zu simulieren.
Der Speicher 204 schließt ein Betriebssystem 212, Anwendungsprogramme 214, sowie einen Objektspeicher 216 ein. Während des Betriebs wird das Betriebssystem 212 vorzugsweise durch den Prozessor 202 von dem Speicher 204 ausgeführt. Das Betriebssystem 212 ist in einer bevorzugten Ausführungsform ein WINDOWS^® CE Markenbetriebssystem, das kommerziell von Microsoft Corporation verfügbar ist. Das Betriebssystem 212 ist vorzugsweise für Mobilgeräte ausgelegt, und implementiert Datenbankmerkmale, die durch die Anwendungen 214 durch eine Reihe von dargelegten (exposed) Application Programming Interfaces (Anwendungsprogrammschnittstellen) und Verfahren genutzt werden können. Die Objekte in dem Objektspeicher 216 werden durch die Anwendungen 214 und das Betriebssystem 212 wenigstens teilweise als Reaktion auf Aufrufe zu den dargelegten Application Programming Interfaces und Verfahren geführt.
Datenübertragungsschnittstelle 208 repräsentiert zahlreiche Geräte und Technologien, die es dem Mobilgerät 200 erlauben, Informationen zu senden und zu empfangen. Die Geräte schließen verkabelte und kabellose Modems, Satellitenempfänger und Rundfunkempfänger, um nur ein paar zu nennen, ein. Das Mobilgerät 200 kann auch direkt mit einem Computer verbunden sein, um Daten damit auszutauschen. In solchen Fällen kann die Datenübertragungsschnittstelle 208 ein infraroter Transceiver oder eine serielle oder parallele Datenübertragungsverbindung sein, von denen alle im Stande sind, Streaminginformationen zu übermitteln.
Eingabe/Ausgabe-Komponenten 206 schließen eine Vielfalt von Eingabegeräten ein, wie z. B. einen berührungssensitiven Bildschirm, Knöpfe, Rollen, und ein Mikrofon, sowie eine Vielfalt an Ausgabegeräten, einschließlich einem Audiogenerator, einem Vibrationsgerät und einem Display. Die oben aufgelisteten Geräte sind nur ein Beispiel und müssen nicht alle in dem obigen Gerät vorhanden sein. Zusätzlich können andere Eingabe/Ausgabe-Geräte innerhalb des Umfangs der vorliegenden Erfindung an das Mobilgerät 200 angeschlossen oder bei ihm gefunden werden.
Unter einem Aspekt der vorliegenden Erfindung werden ein System und Verfahren bereitgestellt, das Rauschen in einem Sprachsignal durch das Zerlegen des Sprachsignals in eine harmonische Komponente und eine Zufallskomponente bereitstellt, und anschließend eine gewichtete Summe der harmonischen Komponente und der Zufallskomponente nimmt, um einen rauschreduzierten Featurevektor (Merkmalsvektor) zu bilden, der ein rauschreduziertes Sprachsignal repräsentiert. Der rauschreduzierte Featurevektor kann anschließend als Eingabe zu einem Sprachdecodierer verwendet werden.
Ein Verfahren und Apparat zum Bilden von rauschreduzierten Featurevektoren werden in dem Flussdiagramm von 3 bzw. dem Blockdiagramm von 4 gezeigt.
Bei Schritt 300 wird ein verrauschtes Sprachsignal gesammelt und in digitale Samples konvertiert. Um dies zu tun, konvertiert ein Mikrofon 404 aus 4 Audiowellen von einem Sprecher 400 und einer oder mehreren zusätzlichen Rauschquellen 402 in elektrische Signale. Die elektrischen Signale werden anschließend durch einen Analog-zu-Digital-Konverter 406 gesammelt, um eine Sequenz von digitalen Werten zu erzeugen. In einer Ausführungsform sampelt der A-zu-D-Konverter 406 das analoge Signal bei 16kHz und 16 Bits pro Sample, und erzeugt dabei 32 Kilobytes an Sprachdaten pro Sekunde. Bei Schritt 302 werden die digitalen Samples in Frames durch einen Framebilder 408 gruppiert. Unter einer Ausführungsform erzeugt der Framebilder 408 alle 10 Millisekunden einen Frame, der 25 Millisekunden an Datenwert (worth of data) einschließt.
Die Samples von jedem Frame werden einer harmonischen Zerlegungseinheit 410 bereitgestellt, welche die Sample bei Schritt 304 verwendet, um das dem Frame zugehörige Signal in eine harmonische Komponente und eine Zufallskomponente zu zerlegen. Deshalb wird das verrauschte Signal dargestellt als: y = yh + yr Gleichung 1wobei y das verrauschte Signal, y_h die harmonische Komponente und y_r die Zufallskomponente ist.
Unter einer Ausführungsform wird die harmonische Komponente als eine Summe von harmonisch-bezogenen Sinuskurven (harmonically-related sinusoids) moduliert, so dass:
wobei ω₀ die Grund- oder Pitch-Frequenz und K die gesamte Anzahl von Obertönen in dem Signal ist.
Deshalb muss, um die harmonische Komponente zu identifizieren, ein Schätzwert der Pitch-Frequenz und der Amplitudenparameter {a₁,a₂...a_kb₁b₂...b_k} ermittelt werden.
Ein Schätzwert für die Pitch-Frequenz kann unter Verwendung irgendeiner Anzahl von verfügbaren Pitch-Verfolgungssystemen ermittelt werden. Unter vielen dieser Systeme werden Pitchkandidaten verwendet, um mögliche Abstände (spacing) zwischen den Zentren der Segmente des Sprachsignals zu identifizieren. Für jeden Pitchkandidaten wird eine Korrelation zwischen aufeinander folgenden Segmenten der Sprache ermittelt. Im Allgemeinen wird der Pitchkandidat, der die beste Korrelation bereitstellt, die Pitchfrequenz des Frames. In manchen Systemen werden zusätzliche Informationen verwendet, um die Pitchauswahl zu verfeinern, wie z. B. die Energie des Signals und/oder einen erwarteten Pitchtrack.
Angesichts eines Schätzwertes des Pitches kann eine Lösung der kleinsten Quadrate für die Amplitudenparameter ermittelt werden. Um dies zu tun, wird Gleichung 2 umgeschrieben als: y = AB Gleichung 3wobei y ein Vektor von N Samples des verrauschten Sprachsignals ist, A eine N × 2K-Matrix ist, die gegeben ist durch: A = |Acos Asin| Gleichung 4mit Elementen Acos(k,t) = cos(kω0t) Asin(k,t) = sin(kω0t) Gleichung 5 und b ein 2K × 1-Vektor ist, der gegeben ist durch: bτ = [a1a2 ... akb1b2 ... bk] Gleichung 6
Anschließend ist die Lösung der kleinsten Quadrate für die Amplitudenkoeffizienten: b ^ = (AτA)–1 Aτy Gleichung 7
Unter Verwendung von b^ kann ein Schätzwert für die harmonische Komponente des verrauschten Sprachsignals ermittelt werden als: yh = A b^ Gleichung 8
Ein Schätzwert der Zufallskomponente wird anschließend berechnet als: yr = y – yh Gleichung 9
Deshalb ist unter Verwendung der Gleichungen 7–9 von oben die harmonische Zerlegungseinheit 410 in der Lage, einen Vektor von harmonischen Komponentensamples 412, y_h, und einen Vektor von Zufallskomponentensamples 414, y_r, zu erzeugen.
Nachdem die Samples des Frames in harmonische und Zufalls-Sample zerlegt worden sind, wird ein Skalierungsparameter oder -gewicht für die harmonische Komponente bei Schritt 306 ermittelt. Dieser Skalierungsparameter wird als ein Teil der Berechnung eines rauschreduzierten Sprachsignals, wie weiter unterhalb diskutiert, verwendet. Unter einer Ausführungsform wird der Skalierungsparameter berechnet als:
wobei a_h der Skalierungsparameter ist, y_h(i) das i-te Sample in dem Vektor der harmonischen Komponentensamples y_h ist, und y(i) das i-te Sample des verrauschte Sprachsignals für diesen Frame ist. In Gleichung 10 ist der Zähler die Summe der Energie von jedem Sample der harmonischen Komponente und der Nenner ist die Summe der Energie von jedem Sample des verrauschten Sprachsignals. Deshalb ist der Skalierungspa rameter das Verhältnis der harmonischen Energie des Frames zu der gesamten Energie des Frames.
In alternativen Ausführungsformen wird der Skalierungsparameter unter Verwendung einer probabilistischen, Erkennungseinheit für stimmbehaftet/ohneStimme (voiced unvoiced) festgelegt. Solche Einheiten stellen die Wahrscheinlichkeit bereit, dass ein bestimmter Sprachframe eher Stimme enthält (is voiced), was bedeutet, dass die Stimmbänder während des Frames schwingen, als ohne Stimme ist. Die Wahrscheinlichkeit, dass der Frame von einer sprachbehafteten Region der Sprache ist, kann direkt als der Skalierungsparameter verwendet werden.
Nachdem der Skalierungsparameter ermittelt worden ist, oder während er ermittelt wird, werden das Mel-Spektrum für den Vektor der harmonischen Komponentensamples und den Vektor der Zufallskomponentensamples bei Schritt 308 ermittelt. Dies bezieht das Durchführen jedes Samplevektors durch eine diskrete Fouriertransformation (DFT) 418 ein, um einen Vektor mit harmonischen Komponentenfrequenzwerten 422 und einen Vektor mit Zufallskomponentenfrequenzwerten 420 zu erzeugen. Die Energiespektren, die durch die Vektoren der Frequenzwerte repräsentiert werden, werden anschließend durch eine Mel-Gewichtungseinheit 424 unter Verwendung einer Reihe von Dreiecksgewichtungsfunktionen, die entlang der Mel-Skala angewandt werden, geglättet. Dies führt zu einem harmonischen Komponenten-Mel-Spektralvektor 428, Y_h, und einem Zufallskomponenten-Mel-Spektralvektor 426, Y_r.
Bei Schritt 310 werden die Mel-Spektren für die harmonische Komponente und die Zufallskomponente als eine gewichtete Summe kombiniert, um einen Schätzwert eines rauschreduzierten Mel-Spektrums zu bilden. Dieser Schritt wird, durch den Kalkulator für gewichtete Summen 430 unter Verwendung des oben ermittelten Skalierungsfaktors, in der folgenden Gleichung ausgeführt: X^(t) = αh(t)Y(t) + αt Yr(t) Gleichung 11wobei X^(t) der Schätzwert des rauschreduzierten Melspektrums ist, Y_h(t) das harmonische Komponenten-Melspektrum ist, Y_r(t) das Zufallskomponenten-Melspektrum ist, a_h(t) der Skalierungsfaktor ist, der oberhalb ermittelt wurde, a_r ein fester Skalierungsfaktor für die Zufallskomponente ist, der in einer Ausführungsform gleich 0,1 gesetzt ist, und der Zeitindex t verwendet wird, um hervorzuheben, dass der Skalierungsfaktor für die har monische Komponente für jeden Frame ermittelt wird, während der Skalierungsfaktor für die Zufallskomponente fest bleibt. Es ist zu beachten, dass in anderen Ausführungsformen der Skalierungsfaktor für die Zufallskomponente für jeden Frame ermittelt werden kann.
Nachdem das rauschreduzierte Melspektrum bei Schritt 310 berechnet worden ist, wird das Log 432 des Melspektrums ermittelt und wird anschließend bei Schritt 312 auf eine diskrete Kosinustransformation 434 angewandt. Dies erzeugt einen Mel-Frequency-Cepstral-Coefficient-Featurevektor 436 (MFCC-Featurevektor), der ein rauschreduziertes Sprachsignal darstellt.
Ein separater rauschreduzierter MFCC-Featurevektor wird für jeden Frame des verrauschten Signals erzeugt. Diese Featurevektoren können für irgendeinen gewünschten Zweck verwendet werden, einschließlich Sprachcodierung und Spracherkennung.
Unter einer Ausführungsform werden die MFCC-Featurevektoren für die rauschreduzierte Sprache direkt in einem Spracherkennungssystem, wie in 5 gezeigt, verwendet.
Wenn das Eingangssignal ein Trainingssignal ist, wird die Reihe von MFCC-Featurevektoren 436 für die rauschreduzierte Sprache einem Trainer 500 bereitgestellt, welcher die MFCC-Featurevektoren und einen Trainingstext 502 verwendet, um ein akustisches Modell 504 zu trainieren. Techniken zum Trainieren solcher Modelle sind in der Fachwelt bekannt und eine Beschreibung von ihnen ist für das Verständnis der vorliegenden Erfindung nicht erforderlich.
Wenn das Eingangssignal ein Testsignal ist, werden die MFCC-Sprach-Featurevektorer einem Decoder 506 bereitgestellt, welcher eine höchstwahrscheinliche Sequenz von Worten, basierend auf dem Strom von Featurevektoren, einem Lexikon 508, einem Sprachmodell 510 und dem akustischen Modell 504 identifiziert. Das bestimmte Verfahren, das zum Dekodieren verwendet wird, ist für die vorliegende Erfindung nicht wichtig, und irgendeines der vielen bekannten Verfahren zum Dekodieren kann verwendet werden.
Obwohl die Erfindung oberhalb in Verbindung mit Mel-Frequency-Cepstral-Coefficients beschrieben worden ist, können andere Featuretypen in dem gewichteten harmonischen und Rauschmodell aus Gleichung 11 verwendet werden.
Obwohl die vorliegende Erfindung mit Bezug auf bestimmte Ausführungsformen beschrieben worden ist, werden es Fachleute erkennen, dass Veränderungen an der Form und im Detail gemacht werden können, ohne von dem Umfang der Erfindung, wie sie durch die anhängigen Ansprüche definiert ist, abzuweichen.

Claims

Verfahren zum Reduzieren von Rauschen in einem Sprachsignal, wobei das Verfahren umfasst: Zerlegen eines Teils eines verrauschten Sprachsignals in eine harmonische Komponente und eine Zufallskomponente; Ermitteln eines Skalierungsparameters für mindestens die harmonische Komponente; Multiplizieren der harmonischen Komponente mit dem Skalierungsparameter für die harmonische Komponente, um eine skalierte harmonische Komponente zu bilden; Multiplizieren der Zufallskomponente mit einem Skalierungsparameter für die Zufallskomponente, um eine skalierte Zufallskomponente zu bilden; und Summieren der skalierten harmonischen Komponente und der skalierten Zufallskomponente, um einen rauschreduzierten Wert zu bilden, der einen Teil eines Sprachsignals darstellt, das im Bezug auf das verrauschte Sprachsignal rauschreduziert ist.
Verfahren nach Anspruch 1, wobei das Zerlegen eines Teils eines verrauschten Sprachsignals des Weiteren das Ermitteln einer Lösung der kleinsten Quadrate umfasst, um die harmonische Komponente zu identifizieren.
Verfahren nach Anspruch 1, wobei das Ermitteln eines Skalierungsparameters für die harmonische Komponente das Ermitteln eines Verhältnisses der Energie der harmonischen Komponente zu der Energie des verrauschten Sprachsignals umfasst.
Verfahren nach Anspruch 3, wobei das Ermitteln eines Verhältnisses umfasst: Summieren der Energie von Samples der harmonischen Komponente; Summieren der Energie von Samples des verrauschten Sprachsignals; und Dividieren der Summe für die harmonische Komponente durch die Summe für das verrauschte Sprachsignal.
Verfahren nach Anspruch 1, wobei das Zerlegen eines Teils eines verrauschten Sprachsignals das Zerlegen eines Vektors aus Zeit-Samples von einem Frame des verrauschten Sprachsignals in einen harmonischen Komponentenvektor aus Zeit-Samples und einem Zufallskomponentenvektor aus Zeit-Samples umfasst.
Verfahren nach Anspruch 5, das des Weiteren das Ermitteln eines Mel-Spektrums für die harmonische Komponente von dem harmonischen Komponentenvektor aus Zeit-Samples umfasst.
Verfahren nach Anspruch 1, das des Weiteren das Bilden eines Mel-Frequenz-Cepstral-Koeffizienten-Feature-Vektor aus dem rauschreduzierten Wert umfasst.
Verfahren nach Anspruch 7, das des Weiteren das Verwenden des Mel-Frequenz-Cepstral-Koeffizienten-Feature-Vektor, um eine Spracherkennung durchzuführen, umfasst.
Verfahren nach Anspruch 1, wobei die harmonische Komponente als eine Summe von harmonischen Sinuskurven geformt ist.
Computer-lesbarer Datenträger, auf dem Computer-ausführbare Instruktionen liegen, die, wenn sie auf einem Computer laufen, zum Ausführen der folgenden Schritte sind: Identifizieren einer harmonischen Komponente und einer Zufallskomponente in einem verrauschten Sprachsignal; Ermitteln eines Skalierungsparameters für mindestens die harmonische Komponente; Multiplizieren der harmonischen Komponente mit dem Skalierungsparameter für die harmonische Komponente, um eine skalierte harmonische Komponente zu bilden; Multiplizieren der Zufallskomponente mit einem Skalierungsparameter für die Zufallskomponente, um eine skalierte Zufallskomponente zu bilden; und Summieren der skalierten harmonischen Komponente und der skalierten Zufallskomponente, und dabei Kombinieren der harmonischen Komponente und der Zufallskomponente, um einen rauschreduzierten Wert zu bilden, der einen Teil eines Sprachsignals darstellt; das im Bezug auf das verrauschte Sprachsignal rauschreduziert ist; und Verwenden des rauschreduzierten Werts, um eine Spracherkennung durchzuführen.
Computer-lesbarer Datenträger nach Anspruch 10, wobei die harmonische Komponente als eine Summe der harmonischen Sinuskurven geformt ist.