DE60311619T2 - Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte - Google Patents

Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte Download PDF

Info

Publication number
DE60311619T2
DE60311619T2 DE60311619T DE60311619T DE60311619T2 DE 60311619 T2 DE60311619 T2 DE 60311619T2 DE 60311619 T DE60311619 T DE 60311619T DE 60311619 T DE60311619 T DE 60311619T DE 60311619 T2 DE60311619 T2 DE 60311619T2
Authority
DE
Germany
Prior art keywords
coverage
audio signal
index
signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60311619T
Other languages
English (en)
Other versions
DE60311619D1 (de
Inventor
Hossein Najaf-Zadeh
Hassan Lahdili
Louis Thibault
William Treurniet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CA MINISTER INDUSTRY
Canada Minister of Industry
Original Assignee
CA MINISTER INDUSTRY
Canada Minister of Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CA MINISTER INDUSTRY, Canada Minister of Industry filed Critical CA MINISTER INDUSTRY
Publication of DE60311619D1 publication Critical patent/DE60311619D1/de
Application granted granted Critical
Publication of DE60311619T2 publication Critical patent/DE60311619T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet, wahrnehmbare Audiosignale zu kodieren, und im Spezielleren ein Verfahren, um Überdeckungsschwellen unter Verwendung eines psychoakustischen Modells zu ermitteln.
  • Hintergrund der Erfindung
  • Beim derzeitigen Stand der Technik von Audiokodierern werden Wahrnehmungsmodelle, die auf Eigenschaften eines menschlichen Ohrs basieren, typischer Weise verwendet, um die Anzahl von Bits zu verringern, die benötigt werden, um ein vorgegebenes Eingangsaudiosignal zu kodieren. Die Wahrnehmungsmodelle basieren auf dem Umstand, dass ein beträchtlicher Teil eines dem menschlichen Ohr bereit gestellten akustischen Signals aufgrund der Eigenschaften des menschlichen Hörprozesses verworfen – überdeckt – werden. Wenn zum Beispiel dem menschlichen Ohr ein lauter Ton zusammen mit einem leiseren Ton präsentiert wird, wird das Ohr wahrscheinlich nur den lauteren Ton hören. Ob das menschliche Ohr beide, den lauten und den leiseren Ton, hört, hängt von der Frequenz und Intensität von jedem der Signale ab. Folglich können Audiokodiertechniken wirksam den leiseren Ton ignorieren und keine Bits seiner Übertragung und Reproduktion unter der Annahme zuordnen, dass ein menschlicher Zuhörer den leiseren Ton auch dann nicht zu hören vermag, wenn er genau übertragen und reproduziert wird. Daher spielen psychoakustische Modelle zum Berechnen einer Überdeckungsschwelle eine bedeutsame Rolle bei Audiokodieren im Stand der Technik. Eine Audiokomponente, deren Energie geringer als die Überdeckungsschwelle ist, ist nicht wahrnehmbar und wird daher von dem Kodierer entfernt. Für die hörbaren Komponenten legt die Überdeckungsschwelle den akzeptablen Pegel von Quantisierungsrauschen während des Kodierprozesses fest.
  • Es ist jedoch ein bekannter Umstand, dass die psychoakustischen Modelle zum Berechnen einer Überdeckungsschwelle bei Audiokodierern des Standes der Technik auf einfachen Modellen des menschlichen Hörsystems beruhen, was zu nicht akzeptablen Quantisierungsrauschpegeln oder verringerter Kompression führt. Es ist daher wünschenswert, das Audiokodieren des Standes der Technik zu verbessern, indem bessere – realistischerere – psychoakustische Modelle zum Berechnen einer Überdeckungsschwelle verwendet werden.
  • Des Weiteren wird der MPEG-1 Layer 2 Audiokodierer in großem Umfang beim digitalen Audio-Rundfunk (DAB; engl.: Digital Audio Broadcasting) verwendet und digitale Empfän ger, die auf diesem Standard beruhen, sind in großem Umfang hergestellt worden, was es unmöglich macht, den Dekodierer zu ändern, um die Tonqualität zu verbessern. Daher ist eine Verbesserung des psychoakustischen Modells eine Option, die Tonqualität zu verbessern, ohne dabei einen neuen Standard zu benötigen.
  • Ein bekannter Sprachkodierer, der ein psychoakustisches Modell verwendet, ist in der Patentschrift US-A 5 706 392 offenbart.
  • Zusammenfassung der Erfindung
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, wie sie in den Ansprüchen 1 bis 4 beansprucht ist, ein Verfahren bereit zu stellen, um ein Audiosignal zu kodieren, wobei ein verbessertes psychoakustisches Modell zum Berechnen einer Überdeckungsschwelle verwendet wird.
  • Es ist eine weitere Aufgabe der vorliegenden Erfindung, ein verbessertes psychoakustisches Modell bereit zu stellen, das eine nicht lineare Wahrnehmung natürlicher Eigenschaften eines Audiosignals durch ein menschliches Hörsystem beinhaltet.
  • Kurze Beschreibung der Zeichnungen
  • Beispielhafte Ausführungsformen der Erfindung werden nun in Verbindung mit den Zeichnungen beschrieben, in denen:
  • 1 ein vereinfachtes Flussdiagramm einer ersten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals gemäß der vorliegenden Erfindung ist;
  • 2 ein Diagramm ist, das eine Verringerung des SMR aufgrund zeitlicher Überdeckung veranschaulicht;
  • 3a und 3b Diagramme sind, die ein Beispiel eines harmonischen bzw. eines nicht harmonischen Signals veranschaulichen;
  • 4 ein vereinfachtes Flussdiagramm ist, das einen Prozess zum Ermitteln einer Nichtharmonie eines Audiosignals gemäß der Erfindung veranschaulicht;
  • 5a und 5b Diagramme sind, die die Ausgaben einer Gammaton-Filtergruppe für ein harmonisches bzw. ein nicht harmonisches Signal veranschaulichen;
  • 6a und 6b Diagramme sind, die Mantelkurvenautokorrelation für ein harmonisches bzw. ein nicht harmonisches Signal veranschaulichen; und
  • 7 ein vereinfachtes Flussdiagramm einer zweiten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals gemäß der vorliegenden Erfindung ist.
  • Detaillierte Beschreibung der Erfindung
  • Die meisten psychoakustischen Modelle basieren auf dem Hörphänomen "simultane Überdeckung", bei dem ein lauterer Ton einen gleichzeitig auftretenden schwächeren Ton nicht hörbar macht. Ein weiterer weniger hervortretender Überdeckungseffekt ist die "zeitliche Überdeckung". Zeitliche Überdeckung tritt auf, wenn ein Überdecker – lauterer Ton – und ein Überdeckter – schwächerer Ton – zu unterschiedlichen Zeitpunkten dem Hörsystem präsentiert werden. Detaillierte Information über die zeitliche Überdeckung ist in den folgenden Quellen offenbart:
    • B. Moore "An Introduction to the Psychology of Hearing", Academic Press, 1997;
    • E. Zwicker und T. Zwicker "Audio Engineering and Psychoacoustics, Matching Signals to the Final Receiver, the Human Auditory System", J. Audio Eng. Soc., Bd. 39, Nr. 3, Seiten 115 – 126, März 1991; und
    • E. Zwicker und H. Fastl "Psychoacoustics Facts and Models", Springer Verlag, Berlin, 1990.
  • Die zeitliche Überdeckungseigenschaft des menschlichen Hörsystems ist asymmetrisch, d. h. "Überdeckung in Rückwärtsrichtung" ist etwa 5 ms vor dem Auftreten eines Überdeckers wirksam, wohingegen "Überdecken in Vorwärtsrichtung" bis zu 200 ms nach dem Ende des Überdeckers andauert. Unterschiedliche Phänomene, die zu zeitlichen Hörüberdeckungseffekten beitragen, umfassen die zeitliche Überlappung von Basilarmembranantworten auf unterschiedliche Stimuli, kurzzeitige neuronale Ermüdung bei höheren neuronalen Pegeln und die Dauerhaftigkeit von von einem Überdecker verursachter neuronaler Aktivität, was in B. Moore "An Introduction to the Psychology of Hearing", Academic Press, 1997; und A. Harma "Psychoacoustic Temporal Masking Effects with Artificial and Real Signals", Hearing Seminar, Espoo, Finnland, Seiten 665 – 668, 1999 beschrieben ist.
  • Weil psychoakustische Modelle zur adaptiven Bitallokation verwendet werden, beeinflusst die Genauigkeit dieser Modelle stark die Qualität kodierter Audiosignale. Weil digitale Emp fänger in großem Umfang hergestellt worden und nun einfach verfügbar sind, ist es nicht wünschenswert, die Dekodiereranforderungen zu ändern, indem ein neuer Standard eingeführt wird. Ein Verbessern des psychoakustischen Modells, das in den Kodierern verwendet wird, ermöglicht jedoch eine verbesserte Tonqualität eines kodierten Audiosignals, ohne dabei die Dekodiererhardware zu modifizieren. Integrieren von nicht linearen Überdeckungseffekten, wie zum Beispiel zeitliche Überdeckung und Nichtharmonie, in das MPEG-1 psychoakustische Modell 2 verringert bedeutsam die Bitrate für transparentes Kodieren oder verbessert in äquivalenter Weise die Tonqualität eines kodierten Audiosignals bei einer gleichen Bitrate.
  • Bei einer ersten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals gemäß der Erfindung wird ein zeitlicher Überdeckungsindex auf nicht lineare Weise im Zeitbereich ermittelt und in ein psychoakustisches Modell implementiert, um eine Überdeckungsschwelle zu berechnen. Im Speziellen wird eine kombinierte Überdeckungsschwelle, die zeitliches und simultanes Überdecken berücksichtigt, unter Verwendung des MPEG-1 psychoakustischen Modells 2 berechnet. Mit einem MPEG-1 Layer 2 Audiokodierer unter Verwendung der kombinierten Überdeckungsschwelle sind Hörtests durchgeführt worden. Im Folgenden wird es Fachleuten auf dem Gebiet ersichtlich, dass das Verfahren zum Kodieren eines Audiosignals gemäß der Erfindung in das MPEG-1 psychoakustische Modell 2 implementiert worden ist, um eine Standardimplementierung des Standes der Technik zu verwenden, ist aber nicht darauf beschränkt.
  • Weil das zeitliche Überdeckungsverfahren gemäß der Erfindung in den MPEG-1 Layer 2 Kodierer implementiert ist, ist im Folgenden das Verhältnis zwischen einigen der Kodiererparameter und des zeitlichen Überdeckungsverfahrens diskutiert. Bei dem MPEG-1 psychoakustischen Modell werden 32 Signal-zu-Überdeckung-Verhältnisse (SMR; engl.: signal-to-maskratio), die 32 Teilbändern entsprechen, für jeden Block von 1152 Eingangsaudioabtastwerten berechnet. Weil die Zeit-zu-Frequenz-Abbildung in dem Kodierer genau abgetastet wird, erzeugt die Filtergruppe eine Matrix – Frame – von 1152 Teilbandabtastwerten, d. h. 36 Teilbandabtastwerte in jedem der 32 Teilbänder. Dem entsprechend ermittelt das zeitliche Überdeckungsverfahren gemäß der Erfindung, weil es in das MPEG-1 psychoakustische Modell implementiert ist, 72 Teilbandabtastwerte – 36 Abtastwerte, die zu einem aktuellen Frame gehören, und 36 Abtastwerte, die zu einem vorhergehenden Frame gehören – in jedem Teilband und stellt 32 zeitliche Überdeckungsschwellen bereit.
  • Bezug nehmend auf 1, ist ein vereinfachtes Flussdiagramm der ersten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals gezeigt. Das zeitliche Überdeckungsverfahren ist unter Verwendung des folgenden Modells implementiert worden, das von B. Jesteadt, S. Bacon und J. Lehman "Forward masking as a function of frequency, masker level, and signal delay", J. Acoust. Soc. Am., Bd. 71, Nr. 4, Seiten 950 – 962, April 1982, vorgeschlagen wurde: M = a(b – log10t)(Lm – c)wobei M die Überdeckungsstärke in dB ist, t der zeitliche Abstand zwischen dem Überdecker und dem Überdeckten in ms ist, Lm der Überdeckerpegel in dB ist und a, b und c aus psychoakustischen Daten ermittelte Parameter sind.
  • Zum Ermitteln der Parameter in dem obigen Modell ist der Umstand berücksichtigt worden, dass eine zeitliche Überdeckung in Vorwärtsrichtung bis zu 200 ms andauert, wohingegen eine zeitliche Überdeckung in Rückwärtsrichtung in weniger als 5 ms abklingt. Ferner wird bei jedem Zeitindex eine zeitliche Überdeckung berücksichtigt, wenn der Überdeckerpegel größer als 20 dB ist. Berücksichtigt man die oben genannten Annahmen und auf der Grundlage von Hörtests zahleichen Audiomatrials sind die folgenden zeitlichen Überdeckungsfunktionen in Vorwärtsrichtung bzw. Rückwärtsrichtung ermittelt worden. Zur Überdeckung in Vorwärtsrichtung FTM(j,i) = 0.2(2.3 – log10(τ(j – i)))Lf(i) – 20),wobei j = i + 1, ..., 36 der Teilbandabtastwertindex ist, τ der zeitliche Abstand zwischen aufeinander folgenden Teilbandabtastwerten in ms ist und Lf(i) der Pegel des Überdeckers in Vorwärtsrichtung in dB. Zur Überdeckung in Rückwärtsrichtung BTM(j.i) = 0.2(0.7 – log10(τ(i – j)))Lb(i) – 20),wobei j = 1, ..., i – 1 der Teilbandabtastwertindex ist, τ der zeitliche Abstand zwischen aufeinander folgenden Teilbandabtastwerten in ms ist und Lb(i) der Pegel des Überdeckers in Rückwärtsrichtung in dB ist. Für die zeitliche Überdeckungsfunktion in Rückwärtsrichtung ist die Zeitachse umgekehrt.
  • Der zeitliche Abstand τ zwischen aufeinander folgenden Teilbandabtastwerten ist eine Funktion der Abtastfrequenz. Weil die Filtergruppe in dem MPEG-Audiokodierer genau abgetastet wird – Box 10 – wird in jedem Teilband ein Teilbandabtastwert für 32 Eingangszeitabtastwerte erzeugt. Daher beträgt der zeitliche Abstand τ zwischen aufeinander folgenden Teilbandabtastwerten 32/fs ms, wobei fs die Abtastfrequenz in kHz ist.
  • Der Überdeckerpegel bei Überdeckung in Vorwärtsrichtung bei einem zeitlichen Index i ist gegeben durch
    Figure 00060001
    wobei s(k) den Teilbandabtastwert bei einem zeitlichen Index k angibt – Box 12. Der Überdeckerpegel wird bei jedem zeitlichen Index i als die mittlere Energie der 36 Teilbandabtastwerte in dem entsprechenden Teilband in dem vorherigen Frame und der Teilbandabtastwerte in dem aktuellen Frame bis zu dem zeitlichen Index i berechnet.
  • Auf vergleichbare Weise ist der Überdeckerpegel bei Überdeckung in Rückwärtsrichtung – Box 14 – bei einem zeitlichen Index i gegeben durch
    Figure 00060002
  • Die obige Gleichung gibt den Überdeckerpegel in Rückwärtsrichtung zu jedem Zeitpunkt als die mittlere Energie der aktuellen und zukünftigen Teilbandabtastwerte an.
  • Der zeitliche Überdeckungspegel in Vorwärtsrichtung bei einem zeitlichen Index j wird dann – Box 16 – wie folgt berechnet, Mf(j) = max{FTM(j,i)}.
  • Auf vergleichbare Weise wird dann der zeitliche Überdeckungspegel in Rückwärtsrichtung bei einem zeitlichen Index j – Box 18 – berechnet als, Mb(j) = max{BTM(j,i)}.
  • Die gesamte zeitliche Überdeckungsenergie bei einem zeitlichen Index j ist die Summe der beiden Komponenten – Box 20,
    Figure 00060003
    wobei Mf und Mb der zeitliche Überdeckungspegel in dB bei einem zeitlichen Index j in Vorwärtsrichtung bzw. Rückwärtsrichtung sind.
  • Das SMR bei jedem Teilbandabtastwert wird dann – Box 22 – berechnet als,
    Figure 00070001
    wobei s(j) der j-te Teilbandabtastwert ist.
  • Weil bei dem MPEG-Audiokodierer alle Teilbandabtastwerte in jedem Frame mit der gleichen Anzahl an Bits quantisiert werden, wird der maximale Wert von den 36 SMRs in jedem Teilband verwendet, um die benötigte Genauigkeit beim Quantisierungsprozess – Box 24 – zu ermitteln, SMR(n) = max{SMR(j)}, n = 1, ..., 32,wobei SMR(n) das geforderte Signal-zu-Überdeckung-Verhältnis im Teilband n ist.
  • Eine kombinierte Überdeckungsschwelle wird dann berechnet, wobei der Effekt sowohl zeitlicher als auch gleichzeitiger Überdeckung berücksichtigt wird. Zuerst werden die SMRs aufgrund zeitlicher Überdeckung in zulässige Rauschpegel in einem Frequenzbereich umgewandelt. Um das gleiche SMR in jedem Teilband in dem Frequenzbereich zu erreichen, wird der Rauschpegel in einem entsprechenden Teilband in dem Frequenzbereich berechnet – Box 26 – als,
    Figure 00070002
    wobei N (n) / TM der zulässige Rauschpegel aufgrund zeitlicher Überdeckung – zeitlicher Überdeckungsindex – im Teilband n in dem Frequenzbereich ist und E (n) / sb die Energie der DFT-Komponenten im Teilband n in dem Frequenzbereich ist. Alternativ wird das Parseval-Theorem verwendet, um den äquivalenten Rauschpegel in dem Frequenzbereich zu berechnen.
  • In dem folgenden Schritt werden die Rauschpegel aufgrund zeitlicher und gleichzeitiger Überdeckung kombiniert – Box 28. Eine Möglichkeit besteht darin, die Überdeckungsenergien linear zu summieren. Gemäß psychoakustischen Experimenten führt jedoch die lineare Kombination zu einer zu geringen Abschätzung der Gesamtüberdeckungsschwelle. Statt dessen wird ein "Leistungsgesetz"-Verfahren verwendet, um die Rauschpegel zu kombinieren, NRnel = (NpTM + NpTM )wobei NTM und NSM das zulässige Rauschen aufgrund zeitlicher bzw. gleichzeitiger Überdeckung sind und Nnet die Gesamtüberdeckungsenergie ist. Für die Parameter p, a ist festgestellt worden, dass ein Wert von 0,4 für eine genaue kombinierte Überdeckungsschwelle sorgt.
  • Die Gesamtüberdeckungsenergie wird in dem MPEG-1 psychoakustischen Modell 2 verwendet, um das entsprechende SMR – Überdeckungsschwelle – in jedem Teilband zu berechnen – Box 30
    Figure 00080001
    Schließlich wird das akustische Signal unter Verwendung der oben ermittelten Überdeckungsschwelle kodiert – Box 32.
  • 2 zeigt den Umfang einer Verringerung im SMR aufgrund zeitlicher Überdeckung in einem Frame von 1152 Teilbandabtastwerten – 36 Abtastwerte in jedem von 32 Teilbändern.
  • Zahlreiches Audiomaterial ist mit dem MPEG-1 Layer 2 Audiokodierer kodiert und dekodiert worden, wobei das psychoakustische Modell 2 auf der Grundlage gleichzeitiger Überdeckung und das Verfahren verwendet wurden, um ein Audiosignal gemäß der Erfindung auf der Grundlage des verbesserten psychoakustischen Modells einschließlich zeitlicher Überdeckung zu kodieren. Die Bitallokation wurde adaptiv variiert, um das Quantisierungsrauschen in jedem Frame unter die Überdeckungsschwelle abzusenken. Eine Verwendung des kombinierten Überdeckungsmodells führte zu einer Verringerung in der Bitrate von 5 – 12 %.
  • Tabelle 1
    Figure 00080002
  • Tabelle 1 zeigt die mittlere Bitrate für einige Testdateien, die mit einem MPEG-1 Layer 2 Kodierer unter Verwendung des herkömmlichen psychoakustischen Modells 2 und unter Verwendung des modifizierten psychoakustischen Modells kodiert wurden. Die Testdateien waren 2-Kanal-Stereo-Audiosignale, die bei einer Auflösung von 16 Bit mit 48 kHz abgetastet wurden.
  • Um die subjektive Qualität der komprimierten Audiomaterialien zu vergleichen, sind halbformelle Hörtests mit sechs Testpersonen durchgeführt worden. Die Hörtests zeigten, dass bei Verwendung des Verfahrens zum Kodieren eines Audiosignals gemäß der Erfindung die subjektive hohe Qualität der dekodierten komprimierten Klänge beibehalten wurde, während die Bitrate um etwa 10 % verringert wurde.
  • Weil psychoakustische Modelle zur adaptiven Bitallokation verwendet werden, beeinflusst die Genauigkeit dieser Modelle stark die Qualität kodierter Audiosignale. Zum Beispiel wird der MPEG-1 Layer 2 Audiokodierer beim digitalen Audio-Rundfunk (DAB) in Europa und Kanada verwendet. Weil digitale Empfänger in großen Umfang hergestellt worden sind und nun einfach verfügbar sind, ist es nicht möglich, den Dekodierer zu ändern, ohne dabei einen neuen Standard einzuführen. Verbessern des psychoakustischen Modells ermöglicht es jedoch, die Tonqualität eines kodierten Audiosignals zu verbessern, ohne dabei den Dekodierer zu modifizieren. Integration zeitlicher Überdeckung in das MPEG-1 psychoakustische Modell 2 verringert bedeutsam die Bitrate für transparente Kodierung oder verbessert in äquivalenter Weise die Tonqualität eines kodierten Audiosignals bei einer gleichen Bitrate.
  • W. C. Treurniet und D. R. Boucher haben in "A masking level difference due to harmonicity", J. Acoust. Soc. Am., 109(1), Seiten 306 – 320, 2001, gezeigt, dass die harmonische Struktur eines komplexen – multitonalen – Überdeckers Auswirkung auf das Überdeckungsmuster hat. Es ist festgestellt worden, dass, wenn die Teiltöne in einem multitonalen Signal nicht harmonisch in Beziehung stehen, die resultierende Überdeckungsschwelle um bis zu 10 dB ansteigt. Der Umfang des Anstiegs hängt von der Frequenz des Überdeckten und von der Frequenztrennung zwischen den Teiltönen und dem Pegel der Nichtharmonie des Überdeckers ab. Es ist zum Beispiel festgestellt worden, dass für zwei unterschiedliche multitonale Überdecker mit der gleichen Leistung der eine mit einer harmonischen Struktur eine niedrigerere Überdeckungsschwelle hervorruft. Diese Feststellung ist in eine zweite Ausführungsform eines Audiokodierers implementiert worden, der ein modifiziertes MPEG-1 psychoakustisches Modell 2 umfasst.
  • Ein Ton ist harmonisch, wenn seine Energie in gleich beabstandeten Frequenzklassen, d. h. harmonische Teiltöne, konzentriert ist. Der Abstand zwischen aufeinander folgenden harmonischen Teiltönen ist als Grundfrequenz bekannt, deren Inverses als Tonhöhe (engl.: pitch) bezeichnet wird. Viele natürliche Töne, wie zum Beispiel Cembalo oder Klarinette, bestehen aus Teiltönen, die harmonisch in Beziehung stehen. Im Gegensatz zu harmonischen Tönen bestehen nicht harmonische Signale aus einzelnen Sinuskurven, die in dem Frequenzbereich nicht gleichmäßig getrennt sind.
  • Ein zum Messen der Nichtharmonie entwickeltes Modell erkennt, dass die Mantelkurve einer Ausgabe eines Hörfilters moduliert wird, wenn das Filter zwei oder mehr Sinuskurven, wie in Anhang A gezeigt, durchlässt. Weil ein harmonischer Überdecker konstante Frequenzunterschiede zwischen seinen benachbarten Teiltönen hat, haben die meisten Hörfilter die gleiche dominante Modulationsrate. Andererseits ändert sich die Mantelkurvenmodulationsrate für einen nicht harmonischen Überdecker über Hörfiltern, weil die Frequenzunterschiede nicht konstant sind.
  • Wenn das Signal ein komplexer Überdecker mit einer Mehrzahl von Teiltönen ist, verursacht die Wechselwirkung von benachbarten Teiltönen lokale Variationen des Basilarmembranvibrationsmusters. Das Ausgangssignal eines bei der entsprechenden Frequenz zentrierten Hörfilters hat eine Amplitudenmodulation, die dieser Stelle entspricht. Als erste Näherung ist die Modulationsrate eines vorgegebenen Filters der Unterschied zwischen den benachbarten Frequenzen, die von diesem Filter verarbeitet werden. Daher ist die dominante Ausgabemodulationsrate über Filter für ein harmonisches Signal konstant, weil dieser Frequenzunterschied konstant ist. Für nicht harmonische Überdecker ändert sich jedoch die Modulationsrate über Filter. Im Fall eines harmonischen Überdeckers ist folglich die Modulationsrate für jedes Filterausgangssignal die Grundfrequenz. Wenn Nichtharmonie eingeführt wird, indem die Frequenzen der Teiltöne gestört werden, ist eine Variation der Modulationsrate über die Filter bemerkbar. Diese Variation steigt mit größer werdender Nichtharmonie an. Im Allgemeinen ist die harmonische Eigenschaft eines komplexen Überdeckers durch die Varianz charakterisiert, die aus den Mantelkurvenmodulationsraten über eine Mehrzahl von Hörfiltern berechnet wird.
  • Weil ein harmonisches Signal durch spezielle Verhältnisse zwischen deutlichen Spitzenwerten in dem Spektrum charakterisiert ist, ist ein geeigneter Ausgangspunkt, um den Effekt von Harmonie zu messen, ein Überdecker mit einer vergleichbaren Energieverteilung über Filtern, aber mit geringen Störungen der Verhältnisse zwischen den spektralen Spitzenwerten. 3a zeigt ein Beispiel eines harmonischen Signals mit einer Grundfrequenz von 88 Hz und insgesamt 45 gleich beabstandeten Teiltönen, die einen Bereich von 88 Hz bis 3960 Hz abdecken. 3b zeigt ein nicht harmonisches Signal, das erzeugt wird, indem die Frequenzen etwas gestört und die Phasen der Teiltöne des harmonischen Signals randomisiert werden.
  • Ein Prozess, um die Harmonie abzuschätzen, ist im Flussdiagramm von 4 veranschaulicht. Das Signal wird unter Verwendung einer "Gammatone"-Filtergruppe auf der Grundlage kritischer Bänder analysiert, was in E. Zwicker und E. Terhardt, "Analytical expressions for critical-band rate and critical handwidth as a function of frequency", J. Acoust. Soc. Am., 68(5), Seiten 1523 – 1525, 1980 offenbart ist. Die Ausgabe jedes Filters wird mit einer Hilbert-Transformation verarbeitet, um die Mantelkurve zu extrahieren. Dann wird eine Autokorrelation auf die Mantelkurve angewendet, um deren Periode abzuschätzen. Schließlich wird das Harmoniemaß mit der Varianz der Modulationsraten, d. h. Mantelkurvenperioden, in Beziehung gesetzt. Für einen harmonischen Überdecker ist diese Varianz vernachlässigbar. Für einen nicht harmonischen Überdecker wird jedoch erwartet, dass die Varianz sehr groß ist, weil sich die Modulationsraten über den Filtern ändern. Zum Beispiel sind die zwei in 3a und 3b gezeigten Signale analysiert worden, um den Prozess zu verifizieren. 5a, 5b, 6a und 6b veranschaulichen die Ausgangssignale der Gammatone-Filtergruppe – Kanäle 7 – 12 – und die entsprechenden Autokorrelationsfunktionen für die harmonischen – 5a und 6a – und nicht harmonischen Eingaben – 5b und 6b. Wie in 6a und 6b gezeigt, gibt es einen beträchtlichen Unterschied zwischen den Autokorrelationsfunktionen. Im Fall des harmonischen Signals fallen alle mit der dominanten Modulationsrate in Beziehung stehende Spitzenwerte zusammen. Folglich ist die Varianz der Modulationsraten vernachlässigbar. Andererseits fallen die Spitzenwerte für das nicht harmonische Signal nicht zusammen. Daher ist die Varianz viel größer. Ein Modell zum Abschätzen von Harmonie, das auf der Variabilität von Mantelkurvenmodulationsraten beruht, unterscheidet harmonische von nicht harmonischen Überdeckern. Die Varianz der Modulationsrate misst das Maß, in dem ein Audiosignal von Harmonie abweicht, d. h. ein Wert nahe Null impliziert ein harmonisches Signal, während ein großer Wert – einige hundert – einem rauschähnlichen Signal entspricht.
  • In dem MPEG-1 Layer 2 psychoakustischen Modell 2 werden die minimalen SMRs für die 32 Teilbänder wie folgt berechnet, um ein transparentes Kodieren zu erreichen. Ein Block von 1056 Eingangsabtastwerten wird dem Eingangssignal entnommen. Die ersten 1024 Abtastwerte werden unter Verwendung eines Hanning-Fensters ausgeschnitten und unter Verwendung einer 1024-stelligen FFT in den Frequenzbereich transformiert. Die Tonalität jeder Spektrallinie wird ermittelt, indem deren Amplitude und Phase von den zwei entsprechenden Werten in den vorherigen Transformierten vorhergesagt wird. Der Unterschied zwischen jedem DFT-Koeffizient und seinem vorhergesagten Wert wird verwendet, um das Nichtvorhersagbarkeitsmaß zu berechnen. Das Nichtvorhersagbarkeitsmaß wird in den "Tonalität"-Faktor unter Verwendung eines empirischen Faktors mit einem größeren Wert umgewandelt, der ein tonales Signal angibt. Das erforderliche SNR für transparentes Kodieren wird aus der Tonalität berechnet, wobei die folgende empirische Formel verwendet wird: SNRj = tjTMNj + (1 – tj)NMTj,wobei Tj der Tonalitätsfaktor ist, TMNj und NMTj die Werte für Tonüberdeckungsrauschen bzw. Rauschüberdeckungstöne im Teilband j sind. NMTj wird auf 5,5 dB festgelegt und TMNj liegt in einer Tabelle vor, die in dem MPEG-Audiostandard vorgesehen ist. Um nicht überdeckende Stereoeffekte zu berücksichtigen, wird SNRj so festgelegt, dass es größer als das minimale SNR minvalj ist, das im Standard vorgegeben ist. Das SMR wird ausgehend von dem entsprechenden SNR für jedes der 32 Teilbänder berechnet. Der obige Prozess wird für den nächsten Block von 1056 zeitlichen Abtastwerten – 480 alte und 576 neue Abtastwerte – wiederholt und eine weitere Gruppe von 32 SMR-Werten wird berechnet. Die zwei Gruppen von SMR-Werten werden verglichen und der größere Wert für jedes Teilband wird als das erforderlicher SMR verwendet.
  • Weil die Überdeckungsschwelle aufgrund eines tonalen und eines rauschähnlichen Signals unterschiedlich ist, wird ein Tonalitätsfaktor für jede Spektrallinie berechnet. Der Tonalitätsfaktor beruht auf der Nichtvorhersagbarkeit der spektralen Komponenten, was bedeutet, dass eine größere Nichtvorhersagbarkeit ein stärker rauschähnliches Signal angibt. Dieses Maß unterscheidet jedoch nicht zwischen den harmonischen und nicht harmonischen Eingangssignalen, weil es möglich ist, dass diese auf gleiche Weise vorhersagbar sind. Bei der zweiten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals ist das MPEG-1 psychoakustische Modell 2 modifiziert worden, wobei fehlerhafte harmonische Strukturen komplexer tonaler Töne berücksichtigt wurden. Es ist Fachleuten auf dem Gebiet ersichtlich, dass das Verfahren, das fehlerhafte harmonische Strukturen berücksichtigt, nicht auf die Implementierung in dem MPEG-1 psychoakustischen Modell 2 begrenzt ist, sondern auch in andere psychoakustische Modelle implementierbar ist. Das hier unten gezeigte Beispiel ist gewählt worden, weil das MPEG-1 Layer 2 Kodieren ein im großen Umfang verwendeter Standardkodierprozess gemäß dem Stand der Technik ist. Die Nichtharmonie eines Audiosignals erhöht die Überdeckungsschwelle und daher verringert ein Integrieren dieses Effekts in den Kodierprozess von nicht harmonischen Eingangssignalen die Bitrate bedeutsam.
  • In dem MPEG-1 psychoakustischen Modell 2 ist der TMN-Parameter in einer Tabelle vorgegeben. Die Werte für die TMNs basieren auf psychoakustischen Experimenten, bei denen ein reiner Ton verwendet wird, um schmalbandiges Rauschen zu überdecken. Bei diesen Experimenten ist der Überdecker periodisch, was bei einem nicht harmonischen Überdecker der Fall ist. Tatsächlich wird eine Rauschprobe bei einem geringeren Pegel detektiert, wenn der Überdecker harmonisch ist. Dies wird wahrscheinlich durch eine Unterbrechung der Tonhöhenwahrnehmung aufgrund der periodischen Struktur der zeitlichen Mantelkurve des Überdeckers verursacht, wie in W. C. Treurniet und D. R. Boucher, "A masking level difference due to harmonicity", J. Acoust. Soc. Am. 109(1), Seiten 306 – 320, 2001, gelehrt. Bei der zweiten Ausführungsform eines Verfahrens zum Kodieren eines Audiosignals wird der TMN-Parameter in Abhängigkeit von der Nichtharmonie des Eingangssignals modifiziert, wie in dem Flussdiagramm von 7 gezeigt. Weil bei dem MPEG-1 Layer 2 psychoakustischen Modell 2 eine Gruppe von 32 SMRs für alle 1152 zeitlichen Abtastwerte berechnet wird, werden die gleichen zeitlichen Abtastwerte analysiert, um den Pegel der Nichtharmonie des Eingangssignals zu messen. Nach Ermitteln der Nichtharmonie des Eingangssignals, wird ein Nichtharmonie-Index berechnet und von den TMN-Werten abgezogen. Der Nichtharmonie-Index als Funktion der periodischen Struktur des Eingangssignals wird wie folgt berechnet. Der Eingabeblock von 1632 zeitlichen Abtastwerten wird unter Verwendung einer Gammatone-Filtergruppe zerlegt – Box 100. Die Mantelkurve jeder Bandpasshörfilterausgabe wird unter Verwendung der Hilbert-Transformation detektiert – Box 102. Die Tonhöhe jeder Mantelkurve wird auf der Grundlage der Autokorrelation der Mantelkurve berechnet – Box 104. Jeder Tonhöhenwert wird dann mit den anderen Tonhöhenwerten verglichen und ein mittlerer Fehler wird ermittelt und die Varianz der mittleren Fehler wird berechnet – Box 106. Gemäß W. C. Treuniet und D. R. Boucher verursacht Nichtharmonie einen Anstieg von bis zu 10 dB der Überdeckungsschwelle. Daher ist der Nichtharmonie-Index δih als Funktion der Tonhöhenvarianz Vp von den Erfindern definiert worden, um einen Bereich von 10 dB abzudecken – Box 108, 3log10(Vp + 1).
  • Die obige Gleichung erzeugt einen Wert von Null für ein perfektes harmonisches Signal und von bis zu 10 dB für rauschähnliche Eingangssignale. Der neue Nichtharmonie-Index wird in das MPEG-1 psychoakustische Modell 2 zum Berechnen der Überdeckungsschwelle wie folgt integriert SNRj = max{min valjtj(TMNj – δih)+(1 – tj)NMTj},und das akustische Signal wird unter Verwendung der oben ermittelten Überdeckungsschwelle kodiert – Box 110.
  • Wie oben gezeigt, ist der Pegel an Nichtharmonie als die Varianz der Perioden der Mantelkurven von Hörfilterausgaben definiert. Die Periode jeder Mantelkurve wird unter Verwendung der Autokorrelationsfunktion ermittelt. Die Stelle des zweiten Spitzenwerts der Autokorrelationsfunktion bestimmt – wenn man den größten Spitzenwert am Ursprung ignoriert – die Periode. Weil die Autokorrelationsfunktion eines periodischen Signals eine Mehrzahl an Spitzenwerten aufweist, entspricht der zweite größte Spitzenwert manchmal nicht der korrekten Periode. Um dieses Problem beim Berechnen des Unterschieds zwischen zwei Perioden zu überwinden, wird die kleinere Periode mit einem Teil der größeren Periode verglichen, wenn der Unterschied kleiner wird. Ein MATLAB-Script zum Berechnen der Tonhöhenvarianz ist in Anhang B dargestellt. Ein weiteres Problem tritt auf, wenn es keinen Spitzenwert in der Autokorrelationsfunktion gibt. Diese Situation impliziert eine nicht periodische Mantelkurve. In diesem Fall wird die Periode auf einen willkürlichen oder zufälligen Wert festgelegt.
  • Wie in Anhang A gezeigt, ist die Mantelkurve des Ausgangssignals periodisch, wenn wenigstens zwei Harmonische durch ein Hörfilter hindurch gehen. Um ein Audiosignal korrekt zu analysieren, wird daher die kleinste Frequenz der Gammatone-Filtergruppe so gewählt, dass das Hörfilter, das bei dieser Frequenz zentriert ist, wenigstens zwei Harmonische hindurch lässt. Daher wird die entsprechende kritische, bei dieser Frequenz zentrierte Bandbreite so gewählt, dass sie mehr als doppelt so groß wie die Grundfrequenz des Eingangssignals ist.
  • Die Grundfrequenz wird ermittelt, indem das Eingangssignal entweder im Zeitbereich oder im Frequenzbereich analysiert wird. Um eine zusätzliche Berechnung zum Ermitteln der Grundfrequenz zu vermeiden, wird jedoch der Median der berechneten Tonhöhenwerte als Periode des Eingangssignals angenommen. Die Grundfrequenz des Eingangssignals ist dann einfach das Inverse des Tonhöhenwerts. Daher wird die untere Grenze für den Analysefrequenzbereich auf das doppelte des Inversen des Tonhöhenwerts festgelegt.
  • Um die subjektive Qualität des komprimierten Audiomaterials zu vergleichen, sind informelle Hörtests durchgeführt worden. Einige Audiodateien wurden kodiert und dekodiert, wobei das herkömmliche MPEG-1 psychoakustische Modell 2 und die modifizierte Version gemäß der Erfindung verwendet wurden. Die Bitallokation wurde Frame-für-Frame adaptiv variiert. Wenn das Nichtharmonie-Modell aufgenommen wurde, wurde die Bitrate ohne nachteilige Auswirkungen auf die Tonqualität verringert. Die informellen Hörtests haben gezeigt, dass die erforderliche Bitrate für multitonales Audiomaterial um etwa 10 % abfällt.
  • Wie oben offenbart, ist ein einzelner Wert verwendet worden, um die Überdeckungsschwelle für den gesamten Frequenzbereich des Eingangssignals auf der Grundlage des vollständigen Frequenzspektrums des Eingangssignals einzustellen. Alternativ wird die Überdeckungsschwelle auf der Grundlage der lokalen harmonischen Struktur des Eingangssignals auf der Grundlage eines lokalen breitbandigen Frequenzspektrums des Eingangssignals modifiziert.
  • Optional wird eine Kombination sowohl von nicht linearen, von dem zeitlichen Überdeckungsindex angegebenen Überdeckungseffekten als auch des Nichtharmonie-Index in das MPEG-1 psychoakustische Modell 2 implementiert.
  • Selbstverständlich sind zahlreiche weitere Ausführungsformen der Erfindung Fachleuten auf dem Gebiet ersichtlich, ohne sich dabei vom Umfang der Erfindung, wie sie in den beigefügten Ansprüchen definiert ist, zu entfernen.
  • Anhang A
  • Im Folgenden ist gezeigt, dass die Mantelkurve des folgenden Signals mit einer Periode von entweder einer Vielfachen oder einem Teil von P0 periodisch ist, d. h. das Inverse der Grundfrequenz f0. y(t) = amcos(mω0t + ϕm) + ancos(nω0t + ϕ1) (A1)
  • Umschreiben der Gleichung (A1) ergibt
    Figure 00150001
  • Wenn (m + n) viel größer als (m – n) ist, impliziert der erste Term in der obigen Gleichung (A3) Amplitudenmodulation. Das Tiefpasssignal wird dann ausgedrückt als
    Figure 00150002
  • Die Periode der Hüllkurve ξ(t) beträgt
    Figure 00150003
    was ein (Teil)Vielfaches von P0 ist. Der zweite Term in der Gleichung (A3) hat keine Auswirkung auf die Mantelkurve, weil er von dem Demodulator heraus gefiltert wird.
  • Anhang B
  • Die Tonhöhenvarianz wird unter Verwendung der folgendenden MATLAB-Routine berechnet:
    Figure 00160001
  • In dieser Routine ist N die Anzahl von Hörfiltern und P (.) der Tonhöhenwert.

Claims (4)

  1. Verfahren zum Kodieren eines Audiosignals, welches die Schritte aufweist: Empfangen des Audiosignals (10, 100); Ermitteln eines Überdeckungsindexes in Abhängigkeit von dem empfangenen Audiosignal (26, 108); Ermitteln einer Überdeckungsschwelle in Abhängigkeit vom Überdeckungsindex unter Verwendung eines psychoakustischen Modells (30, 110); und Kodieren des Audiosignals in Abhängigkeit von der Überdeckungsschwelle (32, 110), wobei das Verfahren dadurch gekennzeichnet ist, dass der Überdeckungsindex ein Nichtharmonie-Index (108) ist, welcher eine Funktion der Tonhöhenvarianz des Audiosignals ist.
  2. Verfahren zum Kodieren eines Audiosignals, wie in Anspruch 1 definiert, welches die Schritte aufweist: Zerlegen des Audiosignals unter Verwendung einer Vielzahl von Bandpass-Hörfiltern, wobei jedes Filter ein Ausgangssignal (100) liefert: Bestimmen einer Mantelkurve jedes Ausgangssignals unter Verwendung einer Hilbert-Transformation (102); Ermitteln eines Tonhöhenwertes jeder Mantelkurve unter Verwendung von Autokorrelation (104); Ermitteln eines mittleren Tonhöhenfehlers für jeden Tonhöhenwert durch Vergleichen des Tonhöhenwertes mit den anderen Tonhöhenwerten (106); Berechnen einer Tonhöhenvarianz der mittleren Tonhöhenfehler (106); und Ermitteln des Nichtharmonie-Indexes als Funktion der Tonhöhenvarianz (108).
  3. Verfahren zum Kodieren eines Audiosignals, wie in einem der Ansprüche 1 und 2 definiert, dadurch gekennzeichnet, dass der Nichtharmonie-Index einen Bereich von 10 dB abdeckt.
  4. Verfahren zum Kodieren eines Audiosignals, wie in einem der Ansprüche 1 bis 3 definiert, dadurch gekennzeichnet, dass das psychoakustische Modell das MPEG-1 psychoakustische Modell 2 ist.
DE60311619T 2002-08-27 2003-08-27 Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte Expired - Lifetime DE60311619T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US40605502P 2002-08-27 2002-08-27
US406055P 2002-08-27

Publications (2)

Publication Number Publication Date
DE60311619D1 DE60311619D1 (de) 2007-03-22
DE60311619T2 true DE60311619T2 (de) 2007-11-22

Family

ID=31888398

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60323412T Expired - Lifetime DE60323412D1 (de) 2002-08-27 2003-08-27 Bitraten-Reduktion in Audiokodierern unter Ausnutzung zeitlicher Maskierung
DE60311619T Expired - Lifetime DE60311619T2 (de) 2002-08-27 2003-08-27 Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE60323412T Expired - Lifetime DE60323412D1 (de) 2002-08-27 2003-08-27 Bitraten-Reduktion in Audiokodierern unter Ausnutzung zeitlicher Maskierung

Country Status (5)

Country Link
US (2) US7398204B2 (de)
EP (1) EP1398761B1 (de)
AT (1) ATE353464T1 (de)
CA (1) CA2438431C (de)
DE (2) DE60323412D1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
JP2006018023A (ja) * 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
US7720086B2 (en) * 2007-03-19 2010-05-18 Microsoft Corporation Distributed overlay multi-channel media access control for wireless ad hoc networks
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US20100225473A1 (en) * 2009-03-05 2010-09-09 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Postural information system and method
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
KR20110036175A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 멀티밴드를 이용한 잡음 제거 장치 및 방법
US20130297299A1 (en) * 2012-05-07 2013-11-07 Board Of Trustees Of Michigan State University Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition
US20140129215A1 (en) * 2012-11-02 2014-05-08 Samsung Electronics Co., Ltd. Electronic device and method for estimating quality of speech signal
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
CN105408955B (zh) * 2013-07-29 2019-11-05 杜比实验室特许公司 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法
US9564136B2 (en) * 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
WO2017151482A1 (en) 2016-03-01 2017-09-08 Mayo Foundation For Medical Education And Research Audiology testing techniques
CN115410583A (zh) 2018-04-11 2022-11-29 杜比实验室特许公司 基于机器学习的用于音频编码和解码的基于感知的损失函数

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706392A (en) 1995-06-01 1998-01-06 Rutgers, The State University Of New Jersey Perceptual speech coder and method
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6674876B1 (en) * 2000-09-14 2004-01-06 Digimarc Corporation Watermarking in the time-frequency domain
US6895374B1 (en) * 2000-09-29 2005-05-17 Sony Corporation Method for utilizing temporal masking in digital audio coding
US20020076049A1 (en) * 2000-12-19 2002-06-20 Boykin Patrick Oscar Method for distributing perceptually encrypted videos and decypting them
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals

Also Published As

Publication number Publication date
US20040044533A1 (en) 2004-03-04
DE60323412D1 (de) 2008-10-16
EP1398761A1 (de) 2004-03-17
US20080221875A1 (en) 2008-09-11
ATE353464T1 (de) 2007-02-15
CA2438431C (en) 2012-02-21
DE60311619D1 (de) 2007-03-22
CA2438431A1 (en) 2004-02-27
US7398204B2 (en) 2008-07-08
EP1398761B1 (de) 2007-02-07

Similar Documents

Publication Publication Date Title
DE60311619T2 (de) Datenreduktion in Audiokodierern unter Ausnutzung nichtharmonischer Effekte
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
EP1953739B1 (de) Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
EP0251028B1 (de) Verfahren zur Übertragung eines Audiosignales
EP0954909A1 (de) Verfahren zum codieren eines audiosignals
DE60113602T2 (de) Audiokodierer mit psychoakustischer Bitzuweisung
DE19959156A1 (de) Verfahren und Vorrichtung zum Verarbeiten eines Stereoaudiosignals
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE4343366C2 (de) Verfahren und Schaltungsanordnung zur Vergrößerung der Bandbreite von schmalbandigen Sprachsignalen
DE10023157A1 (de) Vorrichtung und Verfahren zum Verarbeiten der Phaseninformation eines akustischen Signals
DE112008003153B4 (de) Frequenzband-Bestimmungsverfahren zum Formen von Quantisierungsrauschen
Taghipour Psychoacoustics of detection of tonality and asymmetry of masking: implementation of tonality estimation methods in a psychoacoustic model for perceptual audio coding
EP1777698B1 (de) Bitraten-Reduktion in Audiokodierern unter Ausnutzung zeitlicher Maskierung
DE69532932T2 (de) Verfahren zum nicht linearen Quantisieren eines Informationssignals
Erne Signal adaptive audio coding using Wavelets and rate optimization
DE69534115T2 (de) Bitverteilung für Mehrkanal-Audiokodierer auf Grund von wahrnehmungsgebundener Entropie

Legal Events

Date Code Title Description
8364 No opposition during term of opposition