DE60122203T2 - Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation - Google Patents

Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation Download PDF

Info

Publication number
DE60122203T2
DE60122203T2 DE60122203T DE60122203T DE60122203T2 DE 60122203 T2 DE60122203 T2 DE 60122203T2 DE 60122203 T DE60122203 T DE 60122203T DE 60122203 T DE60122203 T DE 60122203T DE 60122203 T2 DE60122203 T2 DE 60122203T2
Authority
DE
Germany
Prior art keywords
speech
stationary
component
voice
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60122203T
Other languages
English (en)
Other versions
DE60122203D1 (de
Inventor
Jani Rotola-Pukkila
Hannu Mikkola
Janne Vainio
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE60122203D1 publication Critical patent/DE60122203D1/de
Publication of DE60122203T2 publication Critical patent/DE60122203T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft allgemein Sprachkommunikation und genauer die Erzeugung von Komfortrauschen bei diskontinuierlicher Übertragung (discontinuous transmission).
  • Hintergrund der Erfindung
  • In einem normalen Telefongespräch spricht immer ein Benutzer gleichzeitig und der andere hört zu. Zeitweise spricht keiner der Benutzer. Die stillen Perioden könnten zu einer Situation führen, in der die durchschnittliche Sprachaktivität unter 50% liegt. In diesen Stilleperioden ist vermutlich nur akustisches Rauschen vom Hintergrund zu hören. Das Hintergrundrauschen hat normalerweise keinen informativen Gehalt, und es ist nicht notwendig, das exakte Hintergrundrauschen von der Sendeseite (TX) zu der Empfangsseite (RX) zu übertragen. Bei Mobilkommunikation nutzt ein Verfahren, das als diskontinuierliche Übertragung (discontinuous transmission, DTX) bekannt ist, diese Tatsache aus, um in dem Mobilgerät Energie zu sparen. Insbesondere weist der TX-DTX-Mechanismus einen niedrigen Zustand auf (DTX Low), in dem die Funkübertragung von der Mobilstation (MS) zu der Basisstation (BS) während Sprachpausen die meiste Zeit über abgeschaltet ist, um in der MS Energie zu sparen und um den Gesamt-Interferenzpegel der Funkschnittstelle zu senken.
  • Ein grundlegendes Problem bei der Verwendung von DTX ist, dass das akustische Hintergrundrauschen, das mit der Sprache während Sprachperioden vorhanden ist, verschwinden würde, wenn die Funkübertragung abgeschaltet ist, was zu Unterbrechungen des Hintergrundrauschens führt. Da das DTX-Umschalten schnell stattfinden kann, hat sich herausgestellt, dass dieser Effekt für den Zuhörer sehr störend sein kann. Wenn der Sprachaktivitätsdetektor (voice activity detector, VAD) gelegentlich das Rauschen als Sprache einordnet, werden außerdem manche Teile des Hintergrundrauschens während der Sprachsynthese rekonstruiert, während andere Teile stumm bleiben. Das plötzliche Auftreten und Verschwinden des Hintergrundrauschens ist nicht nur sehr störend und ärgerlich, es verringert auch die Verständlichkeit des Gesprächs, insbesondere wenn das Energieniveau des Rauschens hoch ist, wie es in einem sich bewegenden Fahrzeug der Fall ist. Um diesen störenden Effekt zu verringern, wird ein synthetisches Rauschen, ähnlich dem Hintergrundrauschen auf der Sendeseite, auf der Empfangsseite erzeugt. Das synthetische Rauschen wird Komfortrauschen (CN) genannt, da es das Zuhören komfortabler bzw. angenehmer macht.
  • Zum Simulieren des Hintergrundrauschens auf der Sendeseite durch die Empfangsseite werden auf der Sendeseite die Komfortrauschparameter abgeschätzt und unter Verwendung von Silence Descriptor (SID)-Rahmen an die Empfangsseite übertragen. Die Übertragung findet vor dem Übergang in den DTX-Low-Zustand statt und danach mit einer von der MS bestimmten Rate. Der TX-DTX-Handler (bzw. -Steuerung) entscheidet, welche Arten von Parametern zu berechnen sind und ob ein Sprachrahmen oder ein SID-Rahmen erzeugt werden soll. 1 beschreibt den logischen Arbeitsablauf von TX-DTX. Dieser Arbeitsablauf wird mit Hilfe eines Sprachaktivitätsdetektors (VAD) ausgeführt, der angibt, ob der derzeitige Rahmen Sprache enthält oder nicht. Die Ausgabe des VAD-Algorithmus ist ein boolescher Bitschalter (flag), der mit „wahr" gekennzeichnet ist, wenn Sprache erkannt wird, und andernfalls mit „falsch". Der TX-DTX enthält auch Sprachcodierer- und Komfortrauscherzeugungs-Module.
  • Die grundlegende Arbeitsweise der TX DTX-Steuerung ist wie folgt. Ein Boolescher Sprach(SP)-Bitschalter zeigt an, ob der Rahmen ein Sprachrahmen oder ein SID-Rahmen ist. Während einer Sprachperiode ist der SP-Bitschalter auf „wahr" gesetzt und ein Sprachrahmen wird unter Verwendung des Sprachcodierungsalgorithmus erzeugt. Wenn die Sprachperiode für einen ausreichend langen Zeitraum aufrechterhalten wurde, bevor sich das VAD-Flag auf „falsch" ändert, liegt eine Überhangperiode vor (siehe 2). Dieser Zeitraum wird für die Berechnung der durchschnittlichen Hintergrundrausch-Parameter verwendet. Während der Überhangperiode werden normale Sprachrahmen an die Empfangsseite übertragen, obwohl das codierte Signal nur Hintergrundrauschen enthält. Der Wert des SP-Flags bleibt in der Überhangperiode „wahr". Nach der Überhangperiode beginnt die Komfortrausch(CN)-Periode. Während der CN-Periode ist der SP-Bitschalter mit „falsch" markiert, und die SID-Rahmen werden erzeugt.
  • Während der Überhangperiode werden das Spektrum S und der Leistungspegel E jedes Rahmens gespeichert. Nach der Überhangperiode werden die Mittelwerte der gespeicherten Parameter, Save und Eave, berechnet. Die Mittelungslänge ist einen Rahmen länger als die Länge der Überhangperiode. Somit sind die ersten Komfortrauschparameter die Mittelwerte aus der Überhangperiode und dem ersten Rahmen danach.
  • Während der Komfortrauschperiode werden in jedem Rahmen SID-Rahmen erzeugt, doch sie werden nicht alle gesendet. Das TX-Funk-Untersystem (RSS, radio subsystem) steuert die Zeitplanung (scheduling) der SID-Rahmen-Übertragung auf der Grundlage des SP-Bitschalters. Wenn eine Sprachperiode endet, wird die Übertragung nach dem ersten SID-Rahmen abgeschaltet. Anschließend wird von Zeit zu Zeit ein SID-Rahmen übertragen, um die Abschätzung des Komfortrauschens zu aktualisieren.
  • 3 beschreibt die logische Funktion des RX DTX. Wenn Fehler in dem empfangenen Rahmen erkannt wurden, wird das Flag zur Anzeige fehlerhafter Rahmen (bad frame indication flag, BFI) auf „wahr" gesetzt. Ähnlich wie das SP-Flag auf der Sendeseite wird auf der Empfangsseite ein SID-Flag verwendet, um zu beschreiben, ob der empfangene Rahmen ein SID-Rahmen oder ein Sprachrahmen ist.
  • Die RX-DTX-Steuerung ist für den RX-DTX-Betrieb insgesamt zuständig. Sie klassifiziert, ob der empfangene Rahmen ein gültiger Rahmen oder ein ungültiger Rahmen ist (BFI = 0 bzw. BFI = 1) und ob der empfangene Rahmen ein SID-Rahmen oder ein Sprachrahmen ist (SID = 1 bzw. SID = 0). Wenn ein gültiger Sprachrahmen empfangen wird, leitet die RX DTX-Steuerung ihn direkt an den Sprachdekoder weiter. Wenn ein fehlerhafter Sprachrahmen empfangen wird oder der Rahmen während einer Sprachperiode verloren geht, verwendet der Sprachdekoder die sprachbezogenen Parameter von dem letzten guten Sprachrahmen für die Sprachsynthese, und gleichzeitig beginnt der Decoder, das Ausgangssignal allmählich stumm zu schalten.
  • Wenn ein gültiger SID-Rahmen empfangen wird, wird Komfortrauschen erzeugt, bis ein neuer gültiger SID-Rahmen empfangen wird. Der Vorgang wiederholt sich auf die gleiche Weise. Wenn jedoch der empfangene Rahmen als ein ungültiger SID-Rahmen klassifiziert wird, wird der letzte gültige SID verwendet. Während der Komfortrauschperiode empfängt der Decoder Übertragungskanalrauschen zwischen SID-Rahmen, die nie gesendet wurden. Um Signale für diese Rahmen zu synthetisieren, wird Komfortrauschen mit den Parametern erzeugt, die aus den beiden zuvor empfangenen gültigen SID-Rahmen interpoliert wurden, um das Komfortrauschen zu aktualisieren. Die RX-DTX-Steuerung ignoriert die nichtgesendeten Rahmen während der CN-Periode, da diese vermutlich auf eine Übertragungspause zurückzuführen sind.
  • Komfortrauschen wird unter Verwendung von ausgewerteten Informationen aus dem Hintergrundrauschen erzeugt. Das Hintergrundrauschen kann, abhängig von seiner Quelle, sehr verschiedene Eigenschaften aufweisen. Daher gibt es keinen allgemeingültigen Weg, um einen Parametersatz zu ermitteln, der die Eigenschaften aller Arten von Hintergrundrauschen angemessen beschreiben würde und auch nur wenige male pro Sekunde unter Verwendung einer kleinen Anzahl von Bits übertragen werden könnte. Da Sprachsynthese bei Sprachkommunikation auf dem menschlichen Spracherzeugungssystem beruht, können die Sprachsynthese-Algorithmen nicht in gleicher Weise für die Komfortrauscherzeugung verwendet werden. Des weiteren werden im Gegensatz zu sprachbezogenen Parametern die Parameter in den SID-Rahmen nicht in bzw. zu jedem Rahmen übertragen. Es ist bekannt, dass das menschliche Hörsystem sich mehr auf das Amplitudenspektrum des Signals konzentriert als auf die Phasenantwort. Dementsprechend ist es ausreichend, nur Informationen über das durchschnittliche Spektrum und die Leistung des Hintergrundrauschens zu übertragen zur Erzeugung von Komfortrauschen. Komfortrauschen wird daher unter Verwendung dieser beiden Parameter erzeugt. Während diese Art von Komfortrauscherzeugung tatsächlich viel zeitliche Verzerrung mit sich bringt, ähnelt es dem Hintergrundrauschen im Frequenzraum. Dies ist ausreichend, um die lästigen Effekte in dem Übergangsintervall zwischen einer Sprachperiode und einer Komfortrauschperiode zu verringern. Komfortrauscherzeugung, die gut funktioniert, hat einen sehr beruhigenden Effekt, und das Komfortrauschen zieht keine Aufmerksamkeit auf sich. Da die Komfortrauscherzeugung die Übertragungsrate verringert, während sie nur einen kleinen Wahrnehmungsfehler mit sich bringt, ist das Konzept gut anerkannt. Wenn jedoch die Eigenschaften des erzeugten Komfortrauschens deutlich von dem tatsächlichen Hintergrundrauschen abweichen, ist der Übergang zwischen Komfortrauschen und echtem Hintergrundrauschen normalerweise hörbar.
  • Im Stand der Technik werden linear prädikative (LP) Synthese-Filter und Energiefaktoren erlangt, indem Parameter zwischen den beiden letzten SID-Rahmen interpoliert werden (siehe 4). Diese Interpolation wird auf einer Einzelrahmenbasis durchgeführt. Innerhalb eines Rahmens sind die Komfortrausch-Codebook-Gewinne bzw. -Verstärkungen (codebook gain) jedes Unterrahmens gleich. Die Komfortrauschparameter werden aus den empfangenen Parametern mit der Übertragungsrate der SID-Rahmen interpoliert. Die SID-Rahmen werden zu jedem k-ten Rahmen übertragen. Der SID-Rahmen, der nach dem n-ten Rahmen übertragen wird, ist der (n + k)te Rahmen. Die CN-Parameter werden in jedem Rahmen interpoliert, so dass die interpolierten Parameter sich von denen des n-ten SID-Rahmens zu denen des (n + k)ten SID-Rahmens ändern, wenn letzterer empfangen wird. Die Interpolation wird wie folgt ausgeführt: S'(n + i) = S(n)·ik + S(n – k)·(1 – ik ) (1)wobei k die Interpolationsperiode ist, S'(n + i) der Spektralparametervektor des (n + i)ten Rahmens ist, i = 0, ..., k-1, S(n) ist der Spektralparametervektor der letzten Aktualisierung und S(n – k) ist der Spektralparametervektor der zweitletzten Aktualisierung. Ebenso wird die empfangene Energie wie folgt interpoliert: E'(n + i) = E(n)·ik + E(n – k)·(1 – ik ) (2)wobei k die Interpolationsperiode ist, E'(n + i) die empfangene Energie des (n + i)ten Rahmens ist, i = 0, ..., k-1, E(n) die empfangene Energie der letzten Aktualisierung ist und E(n – k) die empfangene Energie der zweitletzten Aktualisierung ist. Auf diese Weise ändert sich das Komfortrauschen langsam und glatt, wobei es von einem Parametersatz zu einem anderen Parametersatz driftet. Ein Blockdiagramm dieser Lösung nach dem Stand der Technik ist in 4 gezeigt. Der GSM EFR(Global System for Mobile Communication Enhanced Full Rate)-Codec verwendet diesen Ansatz durch Übertragen von Synthese(LP)-Filterkoeffizienten im LSF-Bereich (line spectrum frequency domain). Ein fester Codebook-Gewinn wird verwendet, um die Energie des Rahmens zu übertragen. Diese beiden Parameter werden gemäß Gleichung 1 und Gleichung 2 mit k = 24 interpoliert. Eine ausführliche Beschreibung der GSM EFR CN-Erzeugung ist zu finden in Digital Cellular Telecommunications System (Phase 2+), Comfort Noise Aspects for Enhanced Full Rate Speech Traffic Channels (ETSI EN 300728 v8.0.0 (2000-07)).
  • Alternativ werden Energie-Dithering- und Spektral-Dithering-Blocks verwendet, um eine zufällige Komponente in diese jeweiligen Parameter einzubringen. Das Ziel ist, die Fluktuationen im Spektrum und Energieniveau des tatsächlichen Hintergrundrauschens zu simulieren. Der Betrieb des Spektral-Dithering-Blocks ist wie folgt (siehe 5): Save''(i) = Save'(i) + rand(–L,L), i = 0, ..., M-1 (3)wobei S in diesem Fall ein LSF-Vektor ist, L ein konstanter Wert ist, rand(–L,L) eine Zufallsfunktion ist, die Werte zwischen –L und L erzeugt, Save''(i) ist der LSF-Vektor, der für die spektrale Darstellung des Komfortrauschens verwendet wird, Save'(i) ist die gemittelte spektrale Information (im LSF-Raum) des Hintergrundrauschens und M ist die Ordnung des Synthesefilters (LP). Ebenso kann Energie-Dithering wie folgt ausgeführt werden: Eave''(i) = Eave'(i) + rand(–L,L), i = 0, ..., M-1 (4)Die Energie-Dithering- und Spektral(LP)-Dithering-Blocks führen in Lösungen nach dem Stand der Technik ein Dithering mit konstanter Größe durch. Es sollte beachtet werden, dass Synthese (LP)-Filter-Koeffizienten auch in der Beschreibung dieses zweiten Systems nach Stand der Technik im LSF-Raum dargestellt werden. Es kann jedoch auch jede andere Darstellung verwendet werden (z.B. ISP-Raum).
  • Manche Systeme des Stands der Technik, wie IS-641, verwerfen den Energie-Dithering-Block bei der Komfortrauscherzeugung. Eine ausführliche Beschreibung der IS-641-Komfortrauscherzeugung ist zu finden in TDMA Cellular/PCS – Radio Interface Enhanced Full-Rate Voice Codec, Revision A (TIA/EIA IS-641-A).
  • Die vorstehend beschriebenen Lösungen des Stands der Technik funktionieren mit manchen Arten von Hintergrundrauschen hinreichend gut, doch mit anderen Rauscharten schlecht. Für stationäre Arten von Hintergrundrauschen (wie Autogeräusche oder Wind als Hintergrundrauschen) funktioniert der Ansatz ohne Dithering gut, während der Dithering-Ansatz nicht so gut funktioniert. Das liegt daran, dass der Dithering-Ansatz zufällige bzw. stochastische Schwankungen in die Spektralparametervektoren für die Komfortrauscherzeugung einbringt, obwohl das Hintergrundrauschen eigentlich stationär ist. Für nicht-stationäre Arten von Hintergrundrauschen (Straßen- oder Bürogeräusche), funktioniert der Dithering-Ansatz gut, aber der Ansatz ohne Dithering nicht. Somit ist der Dithering-Ansatz eher zum Simulieren nicht-stationärer Eigenschaften des Hintergrundrauschens geeignet, während der Ansatz ohne Dithering eher zur Erzeugung von stationärem Komfortrauschen geeignet ist für Fälle, in denen das Hintergrundrauschen zeitlich fluktuiert. Bei Verwendung von einem von beiden Ansätzen zur Erzeugung von Komfortrauschen ist der Übergang zwischen dem künstlich erzeugten Hintergrundrauschen und dem echten Hintergrundrauschen in vielen Fällen hörbar.
  • Es ist vorteilhaft und wünschenswert, ein Verfahren und ein System zum Erzeugen von Komfortrauschen bereitzustellen, bei dem die Hörbarkeit an dem Übergang zwischen dem synthetisierten Hintergrundrauschen und dem echten Hintergrundrauschen verringert oder im Wesentlichen beseitigt werden kann, unabhängig davon, ob das echte Hintergrundrauschen stationär oder nicht-stationär ist. WO 0031719 beschreibt ein Verfahren zum Berechnen von Variabilitäts-Informationen, die zur Modifikation der Komfortrausch-Parameter verwendet werden sollen. Im Speziellen wird die Berechnung der Variabilitätsinformationen in dem Decoder ausgeführt. Die Berechnung kann vollständig in dem Dekoder vorgenommen werden, wobei während der Komfortrausch-Periode Variabilitäts-Informationen nur über einen Komfortrausch-Rahmen vorhanden sind (jeder 24. Rahmen) und die durch die Berechnung verursachte Verzögerung lang ist. Die Berechnung kann auch zwischen dem Codierer und dem Decoder aufgeteilt werden, doch wird in dem Übertragungskanal eine höhere Bitrate benötigt, um Informationen von dem Codierer zu dem Decoder zu senden. Es ist vorteilhaft, ein einfacheres Verfahren zum Modifizieren des Komfortrauschens bereitzustellen.
  • WO 0011649 offenbart einen Sprachcodierer, der zur Codierung von Spracheingaben verschiedene Codierungsschemata anwendet, die auf Parametern beruhen, einschließlich dem rauschartigen Spektralinhalt. Die Codierung eines rauschartigen Rahmens ändert sich in Abhängigkeit davon, ob das Rauschen stationär oder nicht-stationär ist. Dieses Dokument offenbart nicht die Verwendung von Komfortrauschen.
  • „Immitance spectral pairs (ISP) for speech encoding" von Bistritz Y. et al., IEEE, US, Vol.4, 27. April 1993, S. 9–12, ISBN:0-7803-0946-4 vergleicht das Leistungsverhalten zwischen Verwendung von Immitance Spectral Pairs und Line Spectral Pairs zur Darstellung des Linear-Predictive-Coding-Filters.
  • Zusammenfassung der Erfindung
  • Es ist ein Hauptziel der vorliegenden Erfindung, die Hörbarkeit des Übergangs zwischen dem echten Hintergrundrauschen in den Sprachperioden und dem Komfortrauschen, das in den Nicht-Sprach-Perioden bereitgestellt wird, zu verringern oder im wesentlichen zu beseitigen. Dieses Ziel kann erreicht werden, indem Komfortrauschen auf Grundlage der Eigenschaften des Hintergrundrauschens bereitgestellt wird.
  • Dementsprechend bietet die vorliegende Erfindung ein Verfahren zum Erzeugen von Komfortrauschen bei Sprachkommunikation, welche Sprachperioden und Nicht-Sprachperioden aufweist, wobei Signale, die eine Spracheingabe anzeigen, auf einer Empfangsseite in Rahmen von einer Sendeseite zu einer Empfangsseite empfangen werden, um die Sprachkommunikation durchzuführen, und wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprach-Komponente aufweist, wobei die Nicht-Sprachkomponente als stationär oder nichtstationär eingeordnet werden kann, wobei die Signale spektrale und Energie-Parameter einschließen; und wobei das Komfortrauschen auf Grundlage der spektralen und Energie-Parameter in den Nicht-Sprachperioden erzeugt wird, um die Nicht-Sprach-Komponente auf der Empfangsseite zu ersetzen, dadurch gekennzeichnet, dass von der Sendeseite ein weiteres Signal empfangen wird, welches einen ersten Wert aufweist, der anzeigt, dass die Nicht-Sprach-Komponente stationär ist oder einen zweiten Wert, der anzeigt, dass die Nicht-Sprach-Komponente nichtstationär ist, und Modifizieren der spektralen Parameter mit einer zufälligen Komponente vor der Erzeugung des Komfortrauschens, wenn das weitere Signal den zweiten Wert aufweist.
  • Gemäß der vorliegenden Erfindung können die Spektral- und Energie-Parameter einen Spektralparametervektor und ein Energieniveau einschließen, das aus der Nicht-Sprach-Komponente der Spracheingabe abgeschätzt wird, und das Komfortrauschen kann auf Grundlage des Spektralparametervektors und des Energieniveaus erzeugt werden. Wenn das weitere Signal den zweiten Wert aufweist, wird ein zufälliger Wert in Elemente des Spektralparametervektors und das Energieniveau zum Erzeugen des Komfortrauschens eingefügt.
  • Gemäß der vorliegenden Erfindung kann das Verfahren weiter umfassen, auf der Sendeseite zu bestimmen, ob die Nicht-Sprach-Komponente stationär oder nicht-stationär ist, auf Grundlage der spektralen Abstände zwischen den Spektralparametervektoren. Die spektralen Abstände können über eine Mittelungsperiode summiert werden, um einen summierten Wert bereitzustellen, und die Nicht-Sprach-Komponente kann als stationär eingeordnet werden, wenn der summierte Wert kleiner ist als ein vorbestimmter Wert, und als nicht-stationär, wenn der summierte Wert größer oder gleich dem vorbestimmten Wert ist. Die Spektralparametervektoren können linear spectral frequency (LSF)-Vektoren, immittance spectral frequency (ISF)-Vektoren und ähnliche sein.
  • Gemäß der Erfindung wird außerdem ein System zur Verwendung bei Sprachkommunikation bereitgestellt, welches eine Sendeseite aufweist, um sprachbezogene Parameter bereitzustellen, die eine Spracheingabe angeben, und eine Empfangsseite, um die Spracheingabe auf Grundlage der sprachbezogenen Parameter zu rekonstruieren, wobei die Sprachkommunikation Sprachperioden und Nicht-Sprach-Perioden aufweist und die Spracheingabe eine Sprachkomponente und eine Nicht-Sprach-Komponente aufweist, wobei die Nicht-Sprach-Komponente als stationär und nicht-stationär klassifizierbar ist, wobei die Empfangsseite einen Zufallsrauschgenerator zum Erzeugen des Komfortrauschens auf Grundlage von Energie- und Spektralparametern in den sprachbezogenen Parametern in den Nicht-Sprach-Perioden umfasst, um die Nicht-Sprach-Komponente zu ersetzen, wobei das System durch Mittel gekennzeichnet ist, die sich auf der Sendeseite befinden, um zu Bestimmen, ob die Nicht-Sprachkomponente stationär oder nicht-stationär ist und um ein Signal bereitzustellen, welches einen ersten Wert aufweist, der anzeigt, dass die Nicht-Sprach-Komponente stationär ist, oder einen zweiten Wert, welcher anzeigt, dass die Nicht-Sprach-Komponente nicht-stationär ist; und Mittel, die sich auf der Empfangsseite befinden, welche auf das Signal ansprechen, um die Spektralparameter mit einer zusätzlichen Zufallskomponente zu modifizieren, bevor das Komfortrauschen erzeugt wird, wenn das weitere Signal den zweiten Wert aufweist.
  • Die Sendeseite kann einen Codierer umfassen, und die Empfangsseite kann einen Decoder umfassen. Der Codierer kann ein Spektralanalyse-Modul umfassen, welches auf die Spracheingabe ansprechend ist, um einen Spektralparametervektor und einen Energieparameter bereitzustellen, welche die Nicht-Sprach-Komponente der Spracheingabe angeben. Der Dekodierer kann Mittel umfassen, um das Komfortrauschen auf Grundlage des Spektralparametervektors und des Energieniveaus bereitzustellen. Das Mittel zum Bestimmen, ob die Nicht-Sprach-Komponente stationär oder nicht-stationär ist, kann ein Rausch- bzw. Geräuschdetektormodul umfassen, das sich in dem Codierer befindet, und das Mittel zum Einfügen der zufälligen Komponente kann ein Dithering-Modul umfassen, welches sich in dem Decoder befindet, und das eingerichtet ist, eine zufällige Komponente in Elemente des Spektralparametervektors und des Energieniveaus einzufügen, um das Komfortrauschen zu modifizieren.
  • Zusätzlich wird gemäß der Erfindung ein Sprachdekoder zum Rekonstruieren eines Sprachsignals in Sprachkommunikation bereitgestellt, wobei das Sprachsignal Sprachperioden und Nicht-Sprach-Perioden aufweist, wobei Informationen, die eine Spracheingabe anzeigen, in Rahmen von einer Sendeseite empfangen werden, um die Sprachkommunikation zu ermöglichen, wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, wobei die Nicht-Sprach-Komponente als stationär oder nichtstationär klassifizierbar ist, wobei die Informationen Spektral- und Energieparameter umfassen, wobei der Sprachdecoder Mittel umfasst, die auf die Informationen ansprechen, um die Sprachsignale zumindest teilweise aufgrund der Informationen zu rekonstruieren, und Mittel zum Erzeugen von Komfortrauschen in Abhängigkeit der Spektral- und Energieparameter in den Nicht-Sprach-Perioden, um die Nicht-Sprach-Komponente zu ersetzen, wobei der Sprach-Decoder gekennzeichnet ist durch Mittel zum Empfangen weiterer Informationen von der Sendeseite, wobei die weiteren Informationen einen ersten Wert oder einen zweiten Wert aufweisen, um anzugeben, dass die Nicht-Sprach-Komponente stationär oder nicht-stationär ist; und Mittel zum Modifizieren der spektralen Parameter mit einer zufälligen Komponente vor der Erzeugung des Komfortrauschens, wenn das weitere Signal den zweiten Wert aufweist.
  • Darüber hinaus wird gemäß der Erfindung ein Sprachcodierer zur Verwendung bei Sprachkommunikation bereitgestellt, der einen Codierer zum Bereitstellen von Sprachparametern aufweist, die eine Spracheingabe anzeigen, wobei die Sprachkommunikation Sprachperioden und Nicht-Sprach-Perioden aufweist und die Spracheingabe eine Sprachkomponente und eine Nicht-Sprach-Komponente aufweist, wobei die Nicht-Sprach-Komponente als stationär oder nicht-stationär klassifizierbar ist, wobei der Codierer ein Spektralanalysemodul umfasst, das auf die Spracheingabe anspricht, um einen Spektralparametervektor und einen Energieparameter bereitzustellen, die die Nicht-Sprach-Komponente der Spracheingabe anzeigen, gekennzeichnet durch ein Geräuschdetektormodul, das sich in dem Codierer befindet, welches auf den Spektralparametervektor und den Energieparameter anspricht, zum Bestimmen ob die Nicht-Sprach-Komponente stationär oder nicht-stationär ist und zum Übertragen eines Signals, welches einen ersten Wert aufweist, der angibt, dass die Nicht-Sprach-Komponente stationär ist, und einen zweiten Wert, der angibt, dass die Nicht-Sprach-Komponente nicht-stationär ist, an einen Decoder, um Komfortrauschen in den Nicht-Sprach-Perioden zu erzeugen, um die Nicht-Sprach-Komponente der Spracheingabe zu ersetzen.
  • Darüber hinaus wird gemäß der Erfindung ein Verfahren zum Übermitteln von Parametern für die Rekonstruktion von Sprachkommunikation bereitgestellt, welche Sprachperioden und Nicht-Sprach-Perioden aufweist, umfassend ein Senden von Signalen, die eine Spracheingabe angeben, an einen Empfänger, um die Rekonstruktion von Sprachkommunikation auszuführen, wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, und wobei die Nicht-Sprach-Komponente als stationär oder nicht-stationär klassifizierbar ist; Bereitstellen eines Spektralparametervektors und eines Energieparameters, die die Nicht-Sprach-Komponente der Sprache anzeigen, unter Verwendung eines Spektralanalysemoduls, welches auf die Spracheingabe anspricht; gekennzeichnet durch Bestimmen, unter Verwendung eines Geräuschdetektormoduls, welches auf den Spektralparametervektor und den Energieparameter anspricht, ob die Nicht-Sprach-Komponente stationär oder nicht-stationär ist und Bereitstellen eines Signals an die Empfangsseite, welches einen ersten Wert aufweist, der anzeigt, dass die Nicht-Sprach-Komponente stationär ist, und einen zweiten Wert, der anzeigt, dass die Nicht-Sprach-Komponente nicht-stationär ist, zur Erzeugung von Komfortrauschen in den Nicht-Sprach-Perioden, um die Nicht-Sprach-Komponente der Spracheingabe zu ersetzen.
  • Die vorliegende Erfindung wird nach Lesen der Beschreibung in Verbindung mit den 1 bis 7 ersichtlich werden.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm, welches einen typischen Handler bzw. eine Steuerung für diskontinuierliche Übertragung der Sendeseite zeigt.
  • 2 ist ein Zeitablaufdiagramm, welches die Synchronisation zwischen einem Stimm-Aktivitätsdetektor und einem Booleschen Sprach-Flag zeigt.
  • 3 ist ein Blockdiagramm, welches einen typischen Handler für diskontinuierliche Übertragung der Empfangsseite zeigt.
  • 4 ist ein Blockdiagramm, welches ein System zur Erzeugung von Komfortrauschen nach dem Stand der Technik zeigt, das den Ansatz ohne Dithering verwendet.
  • 5 ist ein Blockdiagramm, welches ein System zur Erzeugung von Komfortrauschen nach dem Stand der Technik zeigt, das den Dithering-Ansatz verwendet.
  • 6 ist ein Blockdiagramm, welches das System zur Erzeugung von Komfortrauschen gemäß der vorliegenden Erfindung zeigt.
  • 7 ist ein Flussdiagramm, welches das Verfahren der Komfortrausch-Erzeugung gemäß der vorliegenden Erfindung zeigt.
  • Beste Art und Weise zur Ausführung der Erfindung
  • Das System zur Erzeugung von Komfortrauschen 1 gemäß der vorliegenden Erfindung ist in 6 gezeigt. Wie gezeigt umfasst das System 1 einen Codierer 10 und einen Decoder 12. In dem Codierer 10 wird ein Spektralanalysemodul 20 verwendet, um lineare Prädiktions(linear prediction, LP)-Parameter 112 aus dem Eingabesprachsignal 100 zu gewinnen. Gleichzeitig wird ein Energieberechnungsmodul 24 verwendet, um den Energiefaktor 122 aus dem Eingabesprachsignal 100 zu berechnen. Ein Spektral-Mittelungsmodul 22 berechnet die gemittelten Spektralparametervektoren 114 aus den LP-Parametern 112. Ebenso berechnet ein Energiemittelungsmodul 26 die empfangene Energie 124 aus dem Energiefaktor 122. Die Berechnung der gemittelten Parameter ist im Fach bekannt, wie offenbart in Digital Cellular Telecommunications system (Phase 2+), Comfort Noise Aspects for Enhanced Full Rate Speech Traffic Channels (ETSI EN 300 728 v8.0.0 (2000-07)). Die gemittelten Spektralparametervektoren 114 und die gemittelte empfangene Energie 124 werden von dem Codierer 10 auf der Sendeseite an den Decoder 12 auf der Empfangsseite gesendet, wie im Stand der Technik.
  • In dem Codierer 10 bestimmt gemäß der vorliegenden Erfindung ein Detektormodul 28 aus den Spektralparametervektoren 114 und der empfangenen Energie 124, ob das Hintergrundrauschen stationär oder nicht-stationär ist. Die Informationen, die anzeigen, ob das Hintergrundrauschen stationär oder nichtstationär ist, werden von dem Codierer 10 an den Decoder 12 in Form eines „Stationaritäts-Flags" 130 gesendet. Das Flag 130 kann in einer Binärzahl gesendet werden. Wenn zum Beispiel das Hintergrundrauschen als stationär klassifiziert ist, wird das Stationaritäts-Flag gesetzt und dem Flag 130 wird ein Wert von 1 zugeordnet. Andernfalls wird das Stationaritäts-Flag NICHT gesetzt, und dem Flag 130 wird ein Wert von 0 zugeordnet. Wie der Decoder nach dem Stand der Technik, wie in 4 und 5 gezeigt, interpolieren eine Spektralinterpolations-Einrichtung 30 und eine Energie-Interpolations-Einrichtung 36 S'(n + i) und E'(n + i) in einem neuen SID-Rahmen aus vorhergehenden SID-Rahmen gemäß Gleichung 1 bzw. Gleichung 2. Der interpolierte Spektralparametervektor S'ave wird mit Bezugsziffer 116 bezeichnet. Die interpolierte empfangene Energie E'ave wird mit Bezugsziffer 126 bezeichnet. Wenn das Hintergrundrauschen durch das Detektormodul 28 als nicht-stationär klassifiziert wird, wie durch den Wert des Flags 130 (= 0) angezeigt, simuliert ein Spektral-Dithering-Modul 32 die Fluktuation des tatsächlichen Hintergrundrausch-Spektrums durch Einbringen einer zufälligen Komponente in die Spektralparametervektoren 116, gemäß Gleichung 3, und ein Energie-Dithering-Modul 38 fügt zufälliges Dithering in die empfangene Energie 126 gemäß Gleichung 4 ein. Der mit Dithering versehene (dithered) Spektralparametervektor S''ave wird mit Bezugsziffer 118 bezeichnet, die mit Dithering versehene empfangene Energie E''ave wird mit Bezugsziffer 128 bezeichnet. Wenn jedoch das Hintergrundrauschen als stationär klassifiziert wird, wird das Stationaritäts-Flag 130 gesetzt. Das Spektral-Dithering-Modul 32 und das Energie-Dithering-Modul 38 werden gewissermaßen umgangen, so dass S''ave = S'ave und E''ave = E'ave. In diesem Fall ist das Signal 118 identisch mit dem Signal 116, und das Signal 128 ist identisch mit dem Signal 126. In beiden Fällen wird das Signal 128 an ein Skalierungsmodul 40 übermittelt. Auf Grundlage der gemittelten Energie E''ave modifiziert das Skalierungsmodul 40 die Energie des Komfortrauschens so, dass das Energieniveau 150, wie von dem Decoder 12 geliefert, in etwa gleich der Energie des Hintergrundrauschens in dem Codierer 10 ist. Wie in 6 gezeigt ist, wird ein Zufallsrausch-Generator 50 verwendet, um einen stochastischen weißen Rauschen-Vektor zu erzeugen, der als Anregung (excitation) verwendet werden soll. Das weiße Rauschen wird mit Bezugsziffer 140 bezeichnet, und das skalierte oder modifizierte weiße Rauschen wird mit Bezugsziffer 142 bezeichnet. Das Signal 118, oder der gemittelte Spektralparametervektor S''ave, der das gemittelte Hintergrundrauschen der Eingabe 100 darstellt, wird an ein Synthesefiltermodul 34 geliefert. Auf Grundlage des Signals 118 und der skalierten Anregung 142 liefert das Synthesefiltermodul 34 das Komfortrauschen 150.
  • Das Hintergrundrauschen kann basierend auf den spektralen Abständen ΔDi von jedem der Spektralparameter(LSF oder ISF)-Vektoren f(i) zu den übrigen Spektralparameter(LSF oder ISF)-Vektoren f(j), i = 0, ..., ldtx-1, j = 0, ..., ldtx-1, i ≠ j innerhalb der CN-Mittelungsperiode (ldtx) als stationär oder nichtstationär klassifiziert werden. Die Mittelungsperiode ist typischerweise 8. Die spektralen Abstände werden wie folgt genähert:
    Figure 00150001
    oder alle i = 0, ..., ldtx-1, i ≠ j, wobei
    Figure 00150002
    und fi(k) der k-te Spektralparameter des Spektralparametervektors f(i) bei Rahmen i ist, und M die Ordnung des Synthesefilters (LP) ist.
  • Wenn die Mittelungsperiode 8 ist, dann ist der gesamte Spektralabstand
    Figure 00150003
    Wenn Ds klein ist, wird das Stationaritäts-Flag gesetzt (das Flag 130 weist einen Wert von 1 auf), was anzeigt, dass das Hintergrundrauschen stationär ist. Andernfalls wird das Stationaritäts-Flag NICHT gesetzt (das Flag 130 weist einen Wert von 0 auf), was anzeigt, dass das Hintergrundrauschen nicht-stationär ist. Vorzugsweise wird der gesamte Spektralabstand Ds mit einer Konstante verglichen, die in Fixkommaarithmetik gleich 67108864 und in Gleitkomma etwa 5147609 sein kann. Das Stationaritäts-Flag wird gesetzt oder NICHT gesetzt, abhängig davon, ob Ds kleiner als diese Konstante ist oder nicht.
  • Zusätzlich kann die Leistungsänderung zwischen Rahmen in Betracht gezogen werden. Zu diesem Zweck wird das Energieverhältnis zwischen zwei aufeinanderfolgenden Rahmen, E(i)/E(i + 1), berechnet. Wie im Fach bekannt ist, wird die Rahmenenergie für jeden Rahmen, der mit VAD = 0 markiert ist, wie folgt berechnet:
    Figure 00150004
    wobei s(n) das hochpassgefilterte Eingabesprachsignal des derzeitigen Rahmens i ist. Wenn mehr als eines dieser Energieverhältnisse groß genug ist, wird das Stationaritäts-Flag zurückgesetzt (der Wert von Flag 130 wird 0), selbst wenn es zuvor bei kleinem Ds gesetzt wurde. Dies entspricht einem Vergleich der Rahmenenergie in logarithmischer Darstellung für jeden Rahmen mit der gemittelten logarithmischen Energie. Wenn somit die Summe der absoluten Abweichung enlog(i) von dem Durchschnitt enlog groß ist, wird das Stationaritäts-Flag zurückgesetzt, selbst wenn es zuvor bei kleinem Ds gesetzt wurde. Wenn die Summe der absoluten Abweichung größer als 180 in Fixkommaarithmetik ist (1.406 in Gleitkomma), wird das Stationaritäts-Flag zurückgesetzt.
  • Wenn ein Dithering in Spektralparametervektoren gemäß Gleichung 3 eingefügt wird, ist bevorzugt, dass in niedrigere spektrale Komponenten ein geringerer Umfang von Dithering eingesetzt wird als in die höheren spektralen Komponenten (LSF oder ISF-Elemente). Dies modifiziert die Einfügung von spektralem Dithering, Gleichung 3, in die folgende Form: Save''(i) = Save'(i) + rand(–L(i), L(i)), i = 0, ..., M-1 (8)wobei L(i) für hochfrequente Komponenten als Funktion von i ansteigt, und M die Ordnung des Synthesefilters (LP) ist. Wenn zum Beispiel auf den AMR Wideband-Codec angewandt, kann der L(i)-Vektor die folgenden Werte aufweisen:
    12800/32768 {128,140,152,164,176,188,200,212,224,236,248,260,272,284,296,0}
    (siehe 3rd Generation Partnership Project, Technical Specification Group Services and System Aspects, Mandatory Speech Codec speech processing functions, AMR Wideband speech codec, Transcoding functions (3G TS 26.190 version 0.02)). Es sollte beachtet werden, dass hier die ISF-Domäne für die spektrale Darstellung verwendet wird, und das vorletzte Element des Vektors (i-M-2) die höchste Frequenz und das erste Element des Vektors (i = 0) darstellt. In der LSF-Domäne stellt das letzte Element des Vektors (i-M-1) die höchste Frequenz und das erste Element des Vektors dar (i = 0).
  • Die Einfügung von Dithering für Energieparameter ist analog zum spektralen Dithering und kann gemäß Gleichung 4 berechnet werden. In logarithmischer Darstellung lautet die Dithering-Einfügung für Energieparameter wie folgt: enmeanlog = enmeanlog + rand(–L,L) (9)
  • 7 ist ein Flussdiagramm, welches das Verfahren des Erzeugens von Komfortrauschen während der Nicht-Sprach-Perioden gemäß der vorliegenden Erfindung veranschaulicht. Wie in Flussdiagramm 200 gezeigt ist, werden der gemittelte Spektralparametervektor S'ave und die gemittelte empfangene Energie E'ave in Schritt 202 berechnet. In Schritt 204 wird der gesamte Spektralabstand Ds berechnet. Wenn in Schritt 206 ermittelt wird, dass Ds nicht kleiner als ein vorbestimmter Wert ist, (z.B. 67108864 in Fixkommaarithmetik), dann wird das Stationaritäts-Flag nicht gesetzt. Entsprechend wird in Schritt 232 Dithering in S'ave und E'ave eingefügt, was S''ave und E''ave ergibt. Wenn Ds kleiner ist als der vorbestimmte Wert, dann wird das Stationaritäts-Flag gesetzt. Der Dithering-Vorgang in Schritt 232 wird übergangen, oder S''ave = S'ave und E''ave = E'ave. Optional wird ein Schritt 208 ausgeführt, um die Energieänderung zwischen Rahmen zu messen. Wenn die Energieänderung groß ist, wie in Schritt 230 ermittelt, dann wird das Stationaritäts-Flag zurückgesetzt und der Vorgang wird zurück zu Schritt 232 geführt. Auf Grundlage von S''ave und E''ave wird das Komfortrauschen in Schritt 234 erzeugt.
  • Es wurden unter Verwendung des Verfahren gemäß der Erfindung drei verschiedene Arten von Hintergrundrauschen getestet. Bei Autogeräuschen werden 95.0% der Komfort-Rausch-Rahmen als stationär eingeordnet. Bei Bürogeräuschen werden 36.9% der Komfort-Rausch-Rahmen als stationär eingeordnet, und bei Straßengeräuschen werden 25.8% der Komfort-Rausch-Rahmen als stationär eingeordnet. Dies ist ein sehr gutes Ergebnis, da Autogeräusche ein hauptsächlich stationäres Hintergrundgeräusch bzw. -rauschen darstellen, während Büro- und Straßengeräusche hauptsächlich nichtstationäre Arten von Hintergrundgeräuschen sind.
  • Es sollte beachtet werden, dass die Berechnung bezüglich des Stationaritäts-Flags gemäß der vorliegenden Erfindung vollständig in dem Codierer durchgeführt wird. Damit wird die Berechnungsverzögerung im Vergleich zu dem reinen Dekoder-Verfahren, wie in WO 00/31719, deutlich verringert. Des weiteren verwendet das Verfahren gemäß der vorliegenden Erfindung nur ein Bit, um Informationen von dem Codierer an den Decoder zur Komfortrausch-Modifikation zu senden. Im Gegensatz dazu ist im Übertragungskanal eine sehr viel höhere Bitrate erforderlich, wenn die Berechnung zwischen Codierer und Decoder aufgeteilt ist, wie in WO 00/31719 offenbart.
  • Auch wenn die Erfindung in Bezug auf eine ihrer bevorzugten Ausführungsformen beschrieben wurde, ist es für den Fachmann offensichtlich, dass die vorstehenden und verschiedene weitere Änderungen, Auslassungen und Abweichungen in Form und Details vorgenommen werden können, ohne den Schutzbereich dieser Erfindung zu verlassen.

Claims (26)

  1. Verfahren zum Erzeugen von Komfortrauschen (15) bei Sprachkommunikation mit Sprachperioden und Nicht-Sprachperioden, wobei Signale (114, 124), die eine Spracheingabe angeben, auf einer Empfangsseite in Rahmen von einer Sendeseite empfangen werden, um die Sprachkommunikation auszuführen, und wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, wobei die Nicht-Sprachkomponente als stationär oder nicht stationär klassifizierbar ist, wobei die Signale (114, 124) Spektral- und Energieparameter einschließen; und wobei das Komfortrauschen auf Grundlage der Spektral- und Energieparameter erzeugt wird, gekennzeichnet durch Empfangen eines weiteren Signals (130) von der Sendeseite, welches einen ersten Wert aufweist, der angibt, dass die Nicht-Sprachkomponente stationär ist, oder einen zweiten Wert, der angibt, dass die Nicht-Sprachkomponente nichtstationär ist, und Modifizieren der Spektrumparameter mit einer zufälligen Komponente vor dem Erzeugen des Komfortrauschens, wenn das weitere Signal (130) den zweiten Wert aufweist.
  2. Verfahren nach Anspruch 1, wobei die Nicht-Sprachkomponente ein Hintergrundrauschen von der Sendeseite ist.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Spektral- und Energieparameter einen Spektralparametervektor und ein Energieniveau einschließen, die aus einem Spektrum der Nicht-Sprachkomponente abgeschätzt werden, und wobei das Komfortrauschen auf Grundlage des Spektralparametervektors und des Energieniveaus erzeugt wird.
  4. Verfahren nach Anspruch 3, wobei, wenn das weitere Signal den zweiten Wert aufweist, ein zufälliger Wert in Elemente des Spektralparametervektors eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  5. Verfahren nach Anspruch 3, wobei, wenn das weitere Signal den zweiten Wert aufweist, ein erster Satz von zufälligen Werten in Elemente des Spektralparametervektors eingefügt wird, und ein zweiter zufälliger Wert in das Energieniveau eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  6. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei die Signale eine Vielzahl von Spektralparametervektoren einschließen, welche die Nicht-Sprach-Komponenten darstellen, und das Verfahren weiter umfasst Bestimmen auf der Sendeseite, ob die Nicht-Sprachkomponente stationär oder nicht-stationär ist, auf Grundlage von spektralen Abständen zwischen den Spektralparametervektoren.
  7. Verfahren nach Anspruch 6, wobei die spektralen Abstände über eine Mittelungsperiode summiert werden, um einen summierten Wert bereitzustellen, und wobei die Nicht-Sprach-Komponente als stationär klassifiziert wird, wenn der summierte Wert kleiner als ein vorbestimmter Wert ist, und die Nicht-Sprach-Komponente als nicht-stationär klassifiziert wird, wenn der summierte Wert größer oder gleich dem vorbestimmten Wert ist.
  8. Verfahren nach Anspruch 6 oder 7, wobei die Spektralparametervektoren lineare Spektralfrequenz(LSF)-Vektoren sind.
  9. Verfahren nach Anspruch 6 oder 7, wobei die Spektralparametervektoren Immitanz-Spektralfrequenz-(ISF)-Vektoren sind.
  10. Verfahren nach Anspruch 3, 4 oder 5, weiter umfassend den Schritt, Veränderungen des Energieniveaus zwischen Rahmen zu berechnen, wenn das weitere Signal den ersten Wert aufweist, und wobei, wenn die Änderungen des Energieniveaus einen vorbestimmten Wert überschreiten, das weitere Signal so geändert wird, dass es den zweiten Wert aufweist, und ein Zufallswert-Vektor in den Spektralparametervektor eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  11. Verfahren nach Anspruch 3, weiter umfassend den Schritt, Änderungen des Energieniveaus zwischen Rahmen zu berechnen, wenn das weitere Signal den ersten Wert aufweist, und wobei, wenn die Änderungen des Energieniveaus einen vorbestimmten Wert überschreiten, das weitere Signal so geändert wird, dass es den zweiten Wert aufweist, und ein Zufallswert-Vektor in den Spektralparametervektor und das Energieniveau eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  12. Verfahren nach Anspruch 3, wobei das weitere Signal ein Flag einschließt, das von der Sendeseite an die Empfangsseite gesendet wird, um anzugeben, ob die Nicht-Sprach-Komponente stationär oder nichtstationär ist, wobei das Flag gesetzt wird, wenn das weitere Signal den ersten Wert aufweist, und das Flag nicht gesetzt wird, wenn das weitere Signal den zweiten Wert aufweist.
  13. Verfahren nach Anspruch 12, wobei, wenn das Flag nicht gesetzt ist, ein zufälliger Wert in den Spektralparametervektor eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  14. Verfahren nach Anspruch 12, weiter umfassend die Schritte: Berechnen von Änderungen des Energieniveaus zwischen Rahmen, wenn das weitere Signal den ersten Wert aufweist; Bestimmen, ob die Änderungen des Energieniveaus einen vorbestimmten Wert überschreiten; und Zurücksetzen des Flags, wenn die Änderungen den vorbestimmten Wert überschreiten.
  15. Verfahren nach Anspruch 14, wobei, wenn das Flag nicht gesetzt ist, ein zufälliger Wert in den Spektralparametervektor eingefügt wird, bevor das Komfortrauschen bereitgestellt wird.
  16. Verfahren nach Anspruch 4, 13, oder 15, wobei der zufällige Wert von –L und L begrenzt wird, wobei L ein vorbestimmter Wert ist.
  17. Verfahren nach Anspruch 16, wobei der vorbestimmte Wert im wesentlichen gleich 100 + 0.8i Hz ist.
  18. Verfahren nach Anspruch 5, wobei der zweite zufällige Wert von –75 und 75 begrenzt wird.
  19. Verfahren nach Anspruch 4, 13 oder 15, wobei der zufällige Wert von –L und L begrenzt wird, wobei L ein Wert ist, der ansteigt, wenn die Elemente höhere Frequenzen darstellen.
  20. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei das weitere Signal ein binäres Flag ist, der erste Wert 1 ist und der zweite Wert 0 ist.
  21. Verfahren nach irgendeinem der vorhergehenden Ansprüche, wobei das weitere Signal ein binäres Flag ist, der erste Wert 0 ist und der zweite Wert 1 ist.
  22. System (10, 12) zur Verwendung bei Sprachkommunikation, welches eine Sendeseite zum Bereitstellen von sprachbezogenen Parametern (114, 124), die eine Spracheingabe angeben (100), und eine Empfangsseite zum Rekonstruieren der Spracheingabe auf Grundlage der sprachbezogenen Parameter (114, 124) aufweist, wobei die Sprachkommunikation Sprachperioden und Nicht-Sprachperioden aufweist und die Spracheingabe eine Sprachkomponente und eine Nicht-Sprach-Komponente aufweist, wobei die Nicht-Sprach-Komponente als stationär und nichtstationär klassifizierbar ist, wobei die Empfangsseite weiter eine Einrichtung zur Erzeugung von zufälligem Rauschen (50) umfasst zum Erzeugen von Komfortrauschen (150) auf der Grundlage von Energie- und Spektralparametern in den sprachbezogenen Parametern in den Nicht-Sprachperioden, um die Nicht-Sprachkomponente zu ersetzen, wobei das System gekennzeichnet ist durch: Mittel (28), die sich auf der Sendeseite befinden, zum Bestimmen, ob die Nicht-Sprach-Komponente stationär oder nichtstationär ist, und zum Bereitstellen eines Signals (130), welches einen ersten Wert aufweist, der angibt, dass die Nicht-Sprach-Komponente stationär ist, oder einen zweiten Wert, der angibt, dass die Nicht-Sprach-Komponente nichtstationär ist; und Mittel (32, 38), die sich auf der Empfangsseite befinden, ansprechend auf das Signal (130), zum Modifizieren der Spektralparameter mit einer zusätzlichen zufälligen Komponente vor dem Erzeugen des Komfortrauschens, wenn das weitere Signal den zweiten Wert aufweist.
  23. System (10, 12) nach Anspruch 22, wobei die Sendeseite einen Codierer (10) umfasst und die Empfangsseite einen Decoder (12) umfasst, wobei der Codierer (10) ein Spektralanalysemodul (20, 24) umfasst, ansprechend auf die Spracheingabe (100), zum Bereitstellen eines Spektralparametervektors (114) und eines Energieparameters (124), welche die Nicht-Sprach-Komponente der Spracheingabe angeben, wobei der Decoder (12) Mittel zum Bereitstellen des Komfortrauschens (150) auf Grundlage des Spektralparametervektors und des Energieparameters umfasst, wobei das Mittel (28) zum Bestimmen, ob die Nicht-Sprachkomponente stationär oder nichtstationär ist, ein Rauschdetektionsmodul umfasst, welches sich in dem Codierer befindet, und wobei das Mittel zum Einfügen der zufälligen Komponente ein Dithering-Modul (32, 38) umfasst, welches sich in dem Decoder befindet, und welches eingerichtet ist, eine zufällige Komponente in Elemente des Spektralparametervektors (114) und des Energieparameters (124) einzufügen, um das Komfortrauschen (150) zu modifizieren.
  24. Sprachdecoder (12) zum Rekonstruieren eines Sprachsignals (100) bei Sprachkommunikation, wobei das Sprachsignal Sprachperioden und Nicht-Sprachperioden aufweist, wobei Informationen (114, 124), die eine Spracheingabe angeben, in Rahmen von einer Sendeseite empfangen werden, um die Sprachkommunikation zu ermöglichen, wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, wobei die Nicht-Sprach-Komponente als stationär oder nichtstationär klassifizierbar ist, wobei die Informationen Spektral- und Energieparameter umfassen, wobei der Sprachdecoder umfasst Mittel, ansprechend auf die Informationen (114, 124), zum Rekonstruieren der Sprachsignale, zumindest teilweise auf Grundlage der Informationen, und Mittel zum Erzeugen von Komfortrauschen in Abhängigkeit von den Spektral- und Energieparametern in den Nicht-Sprachperioden zum Ersetzen der Nicht-Sprachkomponente, wobei der Sprachdecoder gekennzeichnet ist durch Mittel zum Empfangen von weiteren Informationen von der Sendeseite, wobei die weiteren Informationen einen ersten Wert oder einen zweiten Wert aufweisen, um anzugeben, dass die Nicht-Sprachkomponente stationär oder nichtstationär ist; und Mittel (30, 36) zum Modifizieren der Spektralparameter mit einer zufälligen Komponente vor dem Erzeugen des Komfortrauschens, wenn das weitere Signal den zweiten Wert aufweist.
  25. Sprachcodierer (1) zur Verwendung bei Sprachkommunikation, welcher einen Codierer (10) zum Bereitstellen von Sprachparametern (114, 124) aufweist, die eine Spracheingabe (100) angeben, wobei die Sprachkommunikation Sprachperioden und Nicht-Sprachperioden aufweist und die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, wobei die Nicht-Sprachkomponente als stationär oder nichtstationär klassifizierbar ist, wobei der Codierer (10) ein Spektralanalysemodul (20, 24) umfasst, ansprechend auf die Spracheingabe (100), zum Bereitstellen eines Spektralparametervektors (114) und eines Energieparameters (124), welche die Nicht-Sprachkomponente der Spracheingabe angeben, gekennzeichnet durch ein Rauschdetektormodul (28), welches sich in dem Codierer (10) befindet, ansprechend auf den Spektralparametervektor (114) und den Energieparameter (124), zum Bestimmen ob die Nicht-Sprachkomponente stationär oder nichtstationär ist und zum Senden eines Signals (130), welches einen ersten Wert aufweist, der angibt, ob die Nicht-Sprachkomponente stationär ist, und einen zweiten Wert, der angibt, ob die Nicht-Sprachkomponente nichtstationär ist, an einen Decoder zum Erzeugen von Komfortrauschen in den Nicht-Sprachperioden, um die Nicht-Sprachkomponenten der Spracheingabe zu ersetzen.
  26. Verfahren zum Übermitteln von Parametern zur Rekonstruktion von Sprachkommunikation, welche Sprachperioden und Nicht-Sprachperioden aufweist, umfassend Senden von Signalen, die eine Spracheingabe angeben, an einen Empfänger zum Ausführen der Rekonstruktion von Sprachkommunikation, wobei die Spracheingabe eine Sprachkomponente und eine Nicht-Sprachkomponente aufweist, wobei die Nicht-Sprachkomponente als stationär oder nichtstationär klassifizierbar ist, Bereitstellen eines Spektralparametervektors (114) und eines Energieparameters (124), welche die Nicht-Sprachkomponente der Sprache angeben, unter Verwendung eines Spektralanalysemoduls (20, 24), welches auf die Spracheingabe anspricht; gekennzeichnet durch Bestimmen, unter Verwendung eines Rauschdetektormoduls (28), das auf den Spektralparametervektor (114) und den Energieparameter (124) anspricht, ob die Nicht-Sprachkomponente stationär oder nichtstationär ist, und Bereitstellen eines Signals (130) an die Empfangsseite, welches einen ersten Wert aufweist, der angibt, ob die Nicht-Sprachkomponente stationär ist, und einen zweiten Wert, der angibt, ob die Nicht-Sprachkomponente nichtstationär ist, zum Erzeugen von Komfortrauschen in den Nicht-Sprachperioden zum Ersetzen der Nicht-Sprachkomponenten der Spracheingabe.
DE60122203T 2000-11-27 2001-11-26 Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation Expired - Lifetime DE60122203T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25317000P 2000-11-27 2000-11-27
US253170P 2000-11-27
PCT/IB2001/002235 WO2002043048A2 (en) 2000-11-27 2001-11-26 Method and system for comfort noise generation in speech communication

Publications (2)

Publication Number Publication Date
DE60122203D1 DE60122203D1 (de) 2006-09-21
DE60122203T2 true DE60122203T2 (de) 2007-08-30

Family

ID=22959162

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60122203T Expired - Lifetime DE60122203T2 (de) 2000-11-27 2001-11-26 Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation

Country Status (13)

Country Link
US (1) US6662155B2 (de)
EP (1) EP1337999B1 (de)
JP (1) JP3996848B2 (de)
KR (1) KR20040005860A (de)
CN (1) CN1265353C (de)
AT (1) ATE336059T1 (de)
AU (1) AU2002218428A1 (de)
BR (1) BR0115601A (de)
CA (1) CA2428888C (de)
DE (1) DE60122203T2 (de)
ES (1) ES2269518T3 (de)
WO (1) WO2002043048A2 (de)
ZA (1) ZA200303829B (de)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
JP2001242896A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
US7012901B2 (en) * 2001-02-28 2006-03-14 Cisco Systems, Inc. Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
JP4063508B2 (ja) * 2001-07-04 2008-03-19 日本電気株式会社 ビットレート変換装置およびビットレート変換方法
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
JP4381291B2 (ja) * 2004-12-08 2009-12-09 アルパイン株式会社 車載用オーディオ装置
DE102004063290A1 (de) * 2004-12-29 2006-07-13 Siemens Ag Verfahren zur Anpassung von Comfort Noise Generation Parametern
US20070038443A1 (en) * 2005-08-15 2007-02-15 Broadcom Corporation User-selectable music-on-hold for a communications device
US20070136055A1 (en) * 2005-12-13 2007-06-14 Hetherington Phillip A System for data communication over voice band robust to noise
US7573907B2 (en) * 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US20080059161A1 (en) * 2006-09-06 2008-03-06 Microsoft Corporation Adaptive Comfort Noise Generation
KR100834679B1 (ko) 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
PL2118889T3 (pl) * 2007-03-05 2013-03-29 Ericsson Telefon Ab L M Sposób i sterownik do wygładzania stacjonarnego szumu tła
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
US20090043577A1 (en) * 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
CA2697920C (en) * 2007-08-27 2018-01-02 Telefonaktiebolaget L M Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101651752B (zh) * 2008-03-26 2012-11-21 华为技术有限公司 解码的方法及装置
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044241B (zh) * 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
JP5482998B2 (ja) * 2009-10-19 2014-05-07 日本電気株式会社 音声復号化切替えシステムおよび音声復号化切替え方法
US10218327B2 (en) * 2011-01-10 2019-02-26 Zhinian Jing Dynamic enhancement of audio (DAE) in headset systems
DE102011076484A1 (de) * 2011-05-25 2012-11-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Tonwiedergabevorrichtung mit hörszenariosimulation
CN103093756B (zh) * 2011-11-01 2015-08-12 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133B (zh) 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
CN105144288B (zh) * 2013-04-05 2019-12-27 杜比国际公司 高级量化器
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
EP2980790A1 (de) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE501981C2 (sv) * 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
FI100932B (fi) * 1995-04-12 1998-03-13 Nokia Telecommunications Oy Äänitaajuussignaalien lähetys radiopuhelinjärjestelmässä
FR2739995B1 (fr) * 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
WO2000011649A1 (en) 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
US6823303B1 (en) 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
FI105635B (fi) 1998-09-01 2000-09-15 Nokia Mobile Phones Ltd Menetelmä taustakohinainformaation lähettämiseksi tietokehysmuotoisessa tiedonsiirrossa
US7124079B1 (en) 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity

Also Published As

Publication number Publication date
CN1513168A (zh) 2004-07-14
AU2002218428A1 (en) 2002-06-03
EP1337999B1 (de) 2006-08-09
CA2428888C (en) 2007-10-30
ZA200303829B (en) 2004-07-28
CN1265353C (zh) 2006-07-19
US20020103643A1 (en) 2002-08-01
ATE336059T1 (de) 2006-09-15
WO2002043048A3 (en) 2002-12-05
DE60122203D1 (de) 2006-09-21
EP1337999A2 (de) 2003-08-27
US6662155B2 (en) 2003-12-09
WO2002043048A2 (en) 2002-05-30
ES2269518T3 (es) 2007-04-01
KR20040005860A (ko) 2004-01-16
BR0115601A (pt) 2004-12-28
CA2428888A1 (en) 2002-05-30
JP3996848B2 (ja) 2007-10-24
JP2004525540A (ja) 2004-08-19

Similar Documents

Publication Publication Date Title
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE69917677T2 (de) SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69721349T2 (de) Sprachkodierung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60032797T2 (de) Geräuschunterdrückung
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69932593T2 (de) Dekodierungsverfahren und system mit einem adaptiven postfilter
DE102005032724B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE69928288T2 (de) Kodierung periodischer sprache
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60012760T2 (de) Multimodaler sprachkodierer
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition