Die Erfindung betrifft ein Verfahren zur Geräuschreduktion nach dem Oberbegriff des
Patentanspruchs 1.
Ein häufig verwendetes Verfahren zur Geräuschreduktion eines gestörten Nutzsignals,
z. B. ein Sprachsignal, Musiksignal etc. ist die spektrale Subtraktion. Vorteil der spek
tralen Subtraktion ist die geringe Komplexität und daß das gestörte Nutzsignal nur in
einer Variante (nur 1 Kanal) benötigt wird. Nachteil ist die Signalverzögerung (bedingt
durch die Blockverarbeitung im Spektralbereich), die begrenzte maximal erreichbare
Geräuschreduktion und die Schwierigkeit instationäre Geräusche zu kompensieren.
Stationäre Geräusche können bei noch guter Sprachqualität z. B. um 12 dB reduziert
werden.
Wird eine höhere Geräuschreduktion oder eine bessere Sprachqualität verlangt, sind
mehrere Aufnahmekanäle erforderlich. Es werden z. B. Mikrofon-Arrays verwendet. Von
den verschiedenen Mikrofon-Arrays sind für viele praktische Anwendungen solche
besonders interessant, die mit kleinen geometrischen Abmessungen für die Mikrofon
anordnung auskommen. Es werden kleine differentielle Mikrofon-Arrays (auch super
direktive Arrays genannt) gebildet und eine adaptive Variante dieser Mikrofonanord
nung, wobei zur Adaption der LMS(least mean square)-Algorithmus verwendet wird. Bei
der adaptiven Form dieses Arrays werden zwei Mikrofone laufzeitkompensiert auf zwei
Arten derart subtrahiert, daß ein virtuelles' Mikrofon mit nierenförmiger Richtcharakte
ristik zum Sprecher und ein ,virtuelles' Mikrofon mit nierenförmiger Charakteristik vom
Sprecher abgewandt entsteht. Die Laufzeitkompensation entspricht der Zeit, die der
Schall für die Distanz zwischen den beiden Mikrofonen benötigt, z. B. 1,5 cm. Es ergibt
sich eine "Rücken-an-Rücken" nierenförmige Richtcharakteristik. Das zum Sprecher
gerichtet Mikrofon ist das primäre Signal für das adaptive Filter und das entgegenge
setzt gerichtete Mikrofon ist das Referenzsignal der Störung.
Figure 1 zeigt eine adaptive Anordnung für einen Strahlformer. Der Laufzeitausgleich
mit einem Allpaß ALL wird durch Verschiebung um ganze Abtastwerte realisiert. Durch
die oben beschriebene Kombination zweier Einzelmikrofone mit Kugelcharakteristik
ergibt sich eine nierenförmige Richtcharakteristik zum Sprecher und eine entgegen
gesetzt gerichtete nierenförmige Richtcharakteristik als Störreferenz. Das adaptive
Filter H1 wird im Zeitbereich mit dem LMS(least mean square)-Algorithmus adaptiert.
Ein Tiefpaß TP am Systemausgang hebt tiefe Frequenzanteile an, die bei der Bildung der
nierenförmigen Richtcharakteristik gedämpft werden.
Die Anordnung der Mikrofone M hintereinander gemäß Fig. 1 wird als ,end fire array'
bezeichnet, im Gegensatz wird die Anordnung der Mikrofone nebeneinander mit ,broad
side array' bezeichnet.
Figure 2 zeigt eine Anordnung für ein "broad side array" aus zwei Mikrofonen im Ab
stand, wobei mit Hilfe der spektralen Subtraktion (SPS) die beiden Mikrofonsignale
vorverarbeitet werden. Ein Laufzeitausgleich mit dem Allpaß All zwischen beiden Ka
nälen wird ausgeführt und dient dem Ausgleich von Bewegungen des Sprechers. Die
Summe der beiden vorverarbeiteten Mikrofonsignale bildet den primären Eingang und
die Differenz den Referenzeingang für ein adaptives Filter H1. Das adaptive Filter in
dieser Anordnung mit Summen- und Differenzeingang wird auch als ,generalized
sidelobe canceller' bezeichnet. Die Adaption erfolgt mit dem LMS-Algorithmus, wobei
die Implementierung des LMS im Frequenzbereich erfolgt. Eine Nachverarbeitung der
Mikrofonsignale wird mit einer modifizierten Kreuzkorrelationsfunktion im Frequenz
bereich durchgeführt. Die grundlegende Struktur mit spektraler Vorverarbeitung mittels
SPS, Strahlfomung und Nachverarbeitung (Post) ist in der Patentschrift EP 0615226B 1
beschrieben, wobei eine genaue Spezifizierung des Strahlformers nicht erfolgt ist.
Figure 3 zeigt einen Überblick über Schaltungsanordnungen von Mikrofonen zur Bildung
der Richtcharakteristiken für zwei Mikrofone. Die beiden einzelnen Mikrofone selbst
können bereits eine nierenförmige Charakteristik haben oder die sogenannte Kugel
charakteristik. "ALL" bezeichnet einen Allpaß für den Laufzeitausgleich. ,Gain' ist ein
Verstärkungsausgleich zwischen beiden Kanälen der in der Praxis erforderlich ist, um
die Empfindlichkeit der Mikrofonkapseln anzugleichen.
Die Einsprechrichtung in den Polardiagrammen der Richtcharakteristiken ist 90°. Die
ersten 3 Anordnungen a, b und c sind als Sprachkanal geeignet, da bei 90° ein Maxi
mum vorliegt und für die weiteren Richtungen eine Dämpfung vorhanden ist. Anordnung
a und b führen auf die gleiche Richtcharakteristik. Die Anordnungen a, b werden als
Summen- oder Differenz Array und Anordnung c als differentielles Array bezeichnet.
Die Anordnungen d und e haben eine Nullstelle bei 90° im Polardiagramm und sind
damit als Störreferenz geeignet. Die Nullstelle bei 90° im Polardiagramm ist notwendig,
damit keine Sprachanteile in den Referenzkanal gelangen. Sprachanteile im Referenz
kanal führen zur teilweisen Kompensation der Sprache.
Unter idealen Bedingungen wird sich gemäß Anordnung d und e für die Störreferenz
eine Nullstelle in Richtung zum Sprecher einstellen. In praktischen Anwendungen wird
dies jedoch nicht der Fall sein. Die Folge ist, daß Sprachanteile wie Störsignale behan
delt werden und damit vom eigentlichen Sprachsignal entfernt werden.
Strahlformer werden meist nur in den Sprachpausen adaptiert, um keine Adaption an
Sprachanteile zu ermöglichen. Dennoch werden auch in diesem Fall in der Referenz
vorhandene Sprachanteile kompensiert, da sie dem Geräusch stets überlagert sind.
Eine andere Vorgehensweise ist die Verstärkung von Kanälen anzugleichen, damit bei
deren Subtraktion im Idealfall eine Nullstelle erzeugt wird. Dies ist notwendig, da
Mikrofone aus der Serienfertigung Toleranzen ausweisen. In den Anordnungen der Fig.
3 ist dies mit dem Funktionsblock ,Gain' berücksichtigt, der unterschiedliche Mikrofon-
Empfindlichkeiten ausgleicht.
In Anwendungen wird trotz Empfindlichkeitsausgleich mit ,Gain' dennoch keine Null
stelle für das Sprachsignal in der Referenz eingestellt. Nur unter der Voraussetzung, daß
das Mikrofon im akustischen Freifeld betrieben wird (ohne Reflexionen), können die
Sprachanteile vollständig kompensiert werden. Reale Anwendungen haben bedingt
durch Reflexionen einen gewissen Schallanteil aus unterschiedlichen Richtungen, der
eine Nullstelle für das Sprachsignal nicht entstehen läßt. Es wird sich bei Anordnungen
gemäß Fig. 1 oder Fig. 2 stets ein gewisser Sprachanteil in dem Referenzsignal des
Strahlformers wiederfinden, der zu Sprachverzerrungen führt.
Der vorliegende Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren zur Ge
räuschreduktion anzugeben, mit dem ein Übersprechen des Nutzsignals in das Stör
referenzsignal minmiert wird.
Die Erfindung ist in Anspruch 1 angegeben. Vorteilhafte Ausgestaltungen und Weiter
bildungen sind den Unteransprüchen zu entnehmen.
Die Erfindung hat den Vorteil, daß deutlich weniger Nutzsignalanteile, z. B. Sprachanteile
im Störreferenzsignal vorhanden sind als mit den bisherigen Verfahren. Die Beseitigung
der störenden Sprachanteile ist damit unter realen Bedingungen mit Reflexionen des
Sprachsignals in realen Räumen wie z. B. im Kraftfahrzeug möglich.
Die Erfindung geht davon aus, daß zur Bildung des Störreferenzsignals eine einseitige
spektrale Subtraktion durchgeführt wird. Wesentlich ist, daß die spektrale Subtraktion
zur Bildung eines Referenzsignals nur an einem Kanal stattfindet, was mit ,einseitig'
bezeichnet wird. Der eine Kanal enthält damit Nutz- und Störsignale, der zweite Kanal
nach der spektralen Subtraktion enthält nur Nutzsignale. Bei der anschließenden Sub
traktion der beiden Kanäle wird der Nutzanteil subtrahiert und es verbleibt die Störung.
Diese Differenz ist das Störreferenzsignal.
Werden z. B. Mikrofone zur Aufnahme von Sprachsignalen verwendet, so werden die
Sprachsignale derart verarbeitet, daß das Störreferenzsignal eine Nullstelle zum Spre
cher in der Form einer nierenförmigen oder einer achtförmigen Charakteristik aufweist.
Die einseitige spektrale Subtraktion führt zu einer selbststeuernden Regelung der
Charakteristik, derart, daß die Nullstelle nur bei Sprachaktivität entsteht. In Sprach
pausen führt die einseitige spektrale Subtraktion dazu, daß nichts oder nur ein geringes
Signal subtrahiert wird und damit näherungsweise die Charakteristik des Einzelmikro
fons (z. B. Niere oder Kugel) für die Störung zur Verfügung steht.
Die ideale Nullstelle für das Sprachsignal in der Referenz wird nur mit einer idealen
spektralen Subtraktion im akustischen Freifeld erreicht. Eine ideale spektrale Subtrak
tion ergibt das ungestörte Sprachsignal als Ausgangssignal und würde dann jede weiter
Bearbeitung unnötig machen. Die spektrale Subtraktion in der Praxis ergibt nur eine
gute Annäherung des Sprachsignals mit Geräuschresten in den Sprachpausen. Da die
einseitige spektrale Subtraktion ergänzend zu der Mikrofon-Nullstelle eingesetzt wird,
vermindern sich die Sprachanteile der Referenz deutlich.
Das Restgeräusch der spektralen Subtraktion in Sprachpausen wird mit einem Para
meter eingestellt, dem ,spectral floor'. Der spectral floor b ist der minimale Wert eines
Filterkoeffizienten W der spektralen Subtraktion bei jedem Frequenzindex i. Das Aus
gangssignal Y(i) ergibt sich durch Multiplikation der Filterkoeffizienten W(i) mit dem
Eingangswert X(i):
W(i): = max (W(i), b);
und
Y(i) = W(i).X(i);
Der maximale Wert für W ist 1 (Ausgang = Eingang). Wird b = 1 gewählt, ist die spektrale
Subtraktion praktisch ausgeschaltet. Mit b = 0 erreicht die spektrale Subtraktion die
maximale Wirksamkeit. In der Praxis ergibt sich mit b = 0 eine schlechte Sprachqualität.
Mit dem Parameter b ergibt sich für die vorliegende Erfindung die Möglichkeit die ein
seitige spektrale Subtraktion in ihrer Wirksamkeit kontinuierlich einzustellen. Mit einem
Wert von z. B. b = 0.25 wird eine Geräuschunterdrückung von ca. 12 dB und eine gute
Sprachqualität erzielt.
Die Erfindung wird im folgenden anhand von Ausführungsbeispielen unter Bezugnahme
auf schematische Zeichnungen näher erläutert.
Fig. 4 zeigt 3 Blockschaltbilder mit einseitiger spektraler Subtraktion für den Refe
renzeingang. In Fig. 4a ist das primäre Nutzsignal P des Strahlfomers (z. B. Sprach
signal) als differentielles Array DA für die Kanäle 1, 2 geschaltet ist (Anordnung c in
Fig. 3). Fig. 4b, 4c zeigt eine Schaltung des Primärsignals P als Summen- und Diffe
renz Array SD (Anordnung a und b in Fig. 3).
Der Störreferenzeingang verarbeitet das Referenzsignal R mit der zusätzlichen Erwei
terung der einseitigen spektralen Subtraktion in differentieller Form gemäß den An
ordnung d und e in Fig. 3. Die Differenz aus Nutzsignal in Kanal 2 und entstörtem
Nutzsignal aus Kanal 1 wird auf das adaptive Filter H1 gegeben. Das adaptive Filter H1
wird im Zeitbereich oder in einer äquivalenten Form im Frequenzbereich mit dem LMS -
Algorithmus adaptiert. Das gefilterte Störreferenzsignal R wird anschließend vom
primären Nutzsignal P subtrahiert.
Eine weitere Ausgestaltung der Erfindung gemäß Fig. 5 besteht darin, daß die ein
seitige spektrale Subtraktion ,SPS' einmal am Kanal 1 für das Nutzsignal durchgeführt
wird, um damit zusammen mit dem Nutzsignal in Kanal 2 einen erstes Referenzsignal
R1 zu bilden. Ein zweites Mal wird die einseitige spektrale Subtraktion ,SPS2' am Nutz
signal des Kanal 2 durchgeführt, um zusammen mit dem Nutzsignal in Kanal 1 ein
zweites Referenzsignal R2 zu bilden. Es entsteht ein System mit 2 Referenzsignalen, die
vom Primärsignal P subtrahiert werden. Bei Sprachsignalen wird in den Sprachpausen
die Störung jeweils mit der Charakteristik der Einzelmikrofone erfaßt und bei Sprach
aktivität eine Nullstelle für das Sprachsignal erzeugt.
Entsprechend den Erläuterungen zu den Blockschaltbildern der Fig. 4 wird die Ab
wandlung mit 2 Referenzeingängen für ,end fire' Mikrofonanordnung oder ,broad side'
Anordnung verwendet. Fig. 5 zeigt das Blockschaltschild für die ,end fire' Anordnung.
Der Strahlformer besteht aus dem Kanal 1 für das Sprachsignal und zwei Referenzkanä
len 2, 3. Jeder Referenzeingang wird von einem adaptiven Filter ,H1', bzw. ,H2' gefiltert.
Der Filterabgleich erfolgt mit einem mehrkanaligen LMS-Algorithmus.
Stehen mehr als 2 Eingangssignale zur Verfügung, so wird durch Kombination von je
weils 2 Eingängen in der beschriebenen Weise eine einseitige spektrale Subtraktion
durchgeführt, um ein Referenzsignal zu erhalten. Wird z. B. ein ,broad side array' mit 3
Mikrofonen angenommen, ergeben sich für die Paarbildung 6 Kombinationen. Wird
berücksichtigt, daß bei jedem Paar die einseitige spektrale Subtraktion wahlweise bei
dem einen oder dem anderen Kanal durchgeführt wird, so verdoppelt sich die Anzahl
der Kombinationen und somit die Anzahl der Referenzkänale. Bei einem Array aus
mehreren Mikrofonen wird eine eingeschränkte Anzahl aus den möglichen Kombina
tionen verwendet.
Die Erfindung ist nicht auf die Aufzeichnung der Nutzsignale durch Mikrofone be
schränkt, sondern es können Empfangssysteme wie z. B. Antennen verwendet werden.
Nutzsignale können jegliche Art von akustischen und elektrischen Signalen sein.