DE69731677T2 - Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung - Google Patents

Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung Download PDF

Info

Publication number
DE69731677T2
DE69731677T2 DE69731677T DE69731677T DE69731677T2 DE 69731677 T2 DE69731677 T2 DE 69731677T2 DE 69731677 T DE69731677 T DE 69731677T DE 69731677 T DE69731677 T DE 69731677T DE 69731677 T2 DE69731677 T2 DE 69731677T2
Authority
DE
Germany
Prior art keywords
signal
spectral component
prediction
signals
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69731677T
Other languages
English (en)
Other versions
DE69731677D1 (de
Inventor
Juergen Heinrich Basking Ridge Herre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia of America Corp
Original Assignee
Lucent Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lucent Technologies Inc filed Critical Lucent Technologies Inc
Application granted granted Critical
Publication of DE69731677D1 publication Critical patent/DE69731677D1/de
Publication of DE69731677T2 publication Critical patent/DE69731677T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Description

  • Querverweis auf verwandte Anmeldung
  • Der Gegenstand dieser Patentanmeldung ist verwandt mit dem Gegenstand der US-Patentanmeldung von J. Herre mit dem Titel „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain", Aktenzeichen 08/585086, eingereicht am 16. Januar 1996 und auf den Zessionar der vorliegenden Erfindung übertragen; die genannte US-Patentanmeldung entspricht EP-A-0 785 631, veröffentlicht am 23.07.1997. „Perceptual Noise Shaping in the Time Domain via LPC Prediction in the Frequency Domain" wird hiermit durch Literaturhinweis in die vorliegende Patentanmeldung eingefügt.
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft das Gebiet des Audiosignalkodierens, im Speziellen ein verbessertes Verfahren sowie eine verbesserte Vorrichtung zum Kombinationsstereokodieren von Mehrkanal-Audiosignalen.
  • Allgemeiner Stand der Technik
  • Über die letzten Jahre sind sogenannte „wahrnehmungsorientierte Audiokodierer" entwickelt worden, welche die Übertragung und Speicherung von hochwertigen Audiosignalen bei Bitraten von weniger als einem Zwölftel der üblicherweise auf einem herkömmlichen Compact-Disc-Medium (CD) benutzten Bitrate ermöglichen. Solche Kodierer nutzen die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz aus, indem sie das Signal nur mit der zum Erhalt eines bei der Wahrnehmung ununterscheidbaren rekonstruierten (d. h. dekodierten) Signals notwendigen Genauigkeit kodieren. Unter verschiedenen Standardisierungsorganisationen sind Standards festgelegt worden, beispielsweise die Audiostandards MPEG1 und MPEG2 der Moving Picture Experts Group der International Standardization Organization (ISO/MPEG). Wahrnehmungsorientierte Audiokodierer sind zum Beispiel in den folgenden US-Patentschriften detailliert beschrieben: 5,285,498, erteilt an James D. Johnston am 8. Februar 1994 und 5, 341, 457, erteilt an Joseph L. Hall II und James D. Johnston am 23. August 1994; beide sind an den Zessionar der vorliegenden Erfindung übertragen.
  • Generell kann der Aufbau eines wahrnehmungsorientierten Audiokodierers für monophone Audiosignale wie folgt beschrieben werden:
    • • Die Eingangssignalwerte werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die bekannte modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
    • • Unter Verwendung eines Wahrnehmungsmodells werden eine oder mehrere zeitabhängige Maskierungsschwellen abgeschätzt. Diese Schwellen geben den maximalen Kodierungsfehler an, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann. Insbesondere können diese Maskierungsschwellen für jedes Teilband einzeln festgelegt werden. D. h., die einzelnen Frequenzbänder des Kodierers, bestehend aus einer Gruppierung eines oder mehrerer Spektralkoeffizienten, werden vorteilhafterweise jeweils gemeinsam auf Basis einer entsprechend festgelegten Maskierungsschwelle kodiert.
    • • Die Spektralwerte werden quantisiert und auf Basis der Frequenzbänder des Kodierers in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise kann das Quantisierungsrauschen von dem jeweiligen übertra genen Signal versteckt (d. h. maskiert) werden und ist daher nach dem Dekodieren nicht wahrnehmbar.
    • • Schließlich werden alle relevanten Informationen (z. B. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.
  • Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:
    • • Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
    • • Die quantisierten Spektralwerte werden (auf Basis der im Kodierer verwendeten Frequenzbänder) invers quantisiert.
    • • Die Spektralwerte werden unter Verwendung einer Synthesefilterbank in eine Zeitbereichsdarstellung rücküberführt.
  • Mit einem solchen generischen Aufbau des Kodierers kann man die aufgrund der Irrelevanz des menschlichen Gehörs in einem Audiosignal enthaltene Irrelevanz effizient ausnutzen. Insbesondere kann das Spektrum des Quantisierungsrauschens entsprechend der Gestalt der Rauschmaskierungsschwelle des Signals geformt werden. Auf diese Weise kann das aus dem Kodiervorgang resultierende Rauschen unter dem kodierten Signal „versteckt" werden, und so kann bei hohen Kompressionsraten eine bei der Wahrnehmung transparente Qualität erzielt werden.
  • Wahrnehmungsorientierte Kodierverfahren für monophone Audiosignale sind erfolgreich auf das Kodieren von stereophonen Zweikanal- und Mehrkanalsignalen erweitert worden. Insbesondere sind sogenannte „Kombinations stereo"-Kodierverfahren eingeführt worden, die eine kombinierte Signalverarbeitung der Eingangssignale ausführen, anstatt separate (d. h. unabhängige) Kodiervorgänge für die einzelnen Eingangssignale auszuführen. (Es ist zu beachten, dass sich hier, wie auch im allgemeinen Gebrauch, und wie es dem Durchschnittsfachmann geläufig ist, die Begriffe „Stereo" und „stereophon" auf die Verwendung von zwei oder mehr einzelnen Audiokanälen beziehen.)
  • Der Einsatz von Kombinationsstereokodierverfahren bringt mindestens zwei Vorteile mit sich. Erstens ermöglicht der Einsatz von Kombinationsstereokodierverfahren die Berücksichtigung von binauralen psychoakustischen Effekten. Zweitens kann die für das Kodieren von stereophonen Signalen benötigte Bitrate erheblich unter die für ein separates, unabhängiges Kodieren der einzelnen Kanäle benötigte Bitrate abgesenkt werden.
  • Generell kann der Aufbau eines wahrnehmungsorientierten, stereophonen Mehrkanal-Audiokodierers wie folgt beschrieben werden:
    • • Die Signalwerte der Eingangssignale werden in eine unterabgetastete Spektraldarstellung umgewandelt, wobei verschiedene Arten von Filterbänken und Transformationen zum Einsatz kommen, so z. B. die modifizierte diskrete Kosinustransformation (MDCT), Polyphasenfilterbänke oder hybride Strukturen.
    • • Unter Verwendung eines Wahrnehmungsmodells wird die zeitabhängige Maskierungsschwelle des Signals für die einzelnen Kanäle abgeschätzt. Daraus ergibt sich der maximale Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
    • • Beim Kombinationsstereokodieren werden Anteile der Spektralkoeffizientendaten gemeinsam verarbeitet, um eine effizientere Darstellung des Stereosignals zu erzielen. Abhängig von dem eingesetzten Stereokodierverfahren können auch Anpassungen an den Maskierungsschwellen vorgenommen werden.
    • • Die Spektralwerte werden quantisiert und in der zu den Maskierungsschwellen-Schätzwerten korrespondierenden Genauigkeit kodiert. Auf diese Weise wird das Quantisierungsrauschen durch das jeweilige übertragene Signal versteckt (d. h. maskiert) und ist daher nach dem Dekodieren nicht wahrnehmbar.
    • • Schließlich werden alle relevanten Informationen (d. h. die kodierten Spektralwerte und zusätzliche Seiteninformationen) in einen Bitstrom gepackt und an den Dekodierer übertragen.
  • Die Verarbeitung im Kodierer ist im Dekodierer entsprechend umgekehrt:
    • • Der Bitstrom wird dekodiert, analysiert und in kodierte Spektraldaten und Seiteninformationen zerlegt.
    • • Die quantisierten Spektralwerte werden invers quantisiert.
    • • Mit den Spektralwerten wird der Dekodiervorgang für die Kombinationsstereoverarbeitung ausgeführt, wodurch man für die einzelnen Kanäle jeweils ein separates Signal erhält.
    • • Die Spektralwerte für die einzelnen Kanäle werden jeweils unter Verwendung entsprechender Synthesefilterbänke in die Zeitbereichsdarstellung rück überführt.
  • Die zwei derzeit meistverbreitetsten Kombinationsstereokodierverfahren sind als „Mitte-Seite-Stereokodieren" (M/S) bzw. „Intensitätsstereokodieren" bekannt. Aufbau und Betrieb eines Kodierers auf Basis des M/S-Stereokodierens sind z. B. in US-Patentschrift Nr. 5,285,498 beschrieben (siehe oben). Unter Verwendung dieses Verfahrens können binaurale Maskierungseffekte vorteilhaft berücksichtigt werden, und zusätzlich kann ein gewisses Maß an signalabhängigem Gewinn erzielt werden.
  • Ein größeres Biteinsparungspotential bietet jedoch das Intensitätsstereoverfahren. Insbesondere nutzt dieses Verfahren die Einschränkungen des menschlichen Gehörs bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) aus, indem nur ein Spektralkoeffizientensatz für alle kombinationskodierten Kanalsignale übertragen wird, wodurch erhebliche Einsparungen bei der Datenrate erzielt werden. Kodierer auf Basis des Intensitätsstereoprinzips sind in zahlreichen Quellen beschrieben, darunter die europäische Patentanmeldung 0 497 413 Al von R. Veidhuis et al., eingereicht am 24. Januar 1992 und publiziert am 5. August 1992, sowie (mit anderer Terminologie) die internationale PCT-Patentanmeldung WO 92/12607 von M. Davis et al., eingereicht am 8. Januar 1992 und publiziert am 23. Juli 1992.
  • Durch Kombinationsstereoverarbeiten der Spektralkoeffizienten vor der Quantisierung können weitere Einsparungen bezüglich der erforderlichen Bitrate erzielt werden. Im Falle des Intensitätsstereokodierens rühren einige dieser Einsparungen daher, dass das menschliche Gehör bei hohen Frequenzen (z. B. bei Frequenzen oberhalb 4 kHz) bekanntermaßen unempfindlich gegen Phaseninformationen ist. Aufgrund der Eigenschaften der menschlichen Haarzellen werden bei der Wahrnehmung Signalhüllkurven anstelle der Wellenform des Signals selbst ausgewertet. Daher genügt es, anstatt der gesamten Wellenform nur die Hüllkurve dieser Signalanteile zu kodieren. Dies kann beispielsweise bewerkstelligt werden, indem für alle in Frage kommende Kanäle ein gemeinsamer Spektralkoeffizientensatz (nachfolgend als das „Trägersignal" bezeichnet) übertragen wird, anstatt separate Koeffizientensätze für jeden Kanal zu übertragen. Im Dekodierer wird das Trägersignal dann für jeden Kanal unabhängig skaliert, um die gemittelte Hüllkurve (bzw. Signalenergie) für den jeweiligen Kodierblock anzupassen.
  • Beim Intensitätsstereokodieren/-dekodieren werden typischerweise auf Basis der Frequenzbänder des Kodierers die folgenden Verarbeitungsschritte ausgeführt:
    • • Aus den Spektralkoeffizienten aller in Frage kommender Kanäle wird ein „Träger"-Signal erzeugt, das dazu geeignet ist, die einzelnen Kanalsignale darzustellen. Hierzu werden üblicherweise Linearkombinationen der Teilsignale gebildet.
    • • Aus den ursprünglichen Signalen werden Skalierungsinformationen extrahiert, die die Hüllkurve bzw. den Energiegehalt des betreffenden Frequenzbands des Kodierers beschreiben.
    • • Sowohl das Trägersignal als auch die Skalierungsinformationen werden an den Dekodierer übertragen.
    • • Im Dekodierer werden die Spektralkoeffizienten des Trägersignals rekonstruiert. Daraufhin werden die Spektralkoeffizienten für die einzelnen Kanäle berechnet, indem das Trägersignal unter Verwendung der jeweiligen Skalierungsinformationen für die einzelnen Kanäle skaliert wird.
  • Dieser Ansatz bewirkt, dass anstelle separater Spektralkoeffizientensätze für jedes Kanalsignal nur ein Spektralkoeffizientensatz (nämlich die Koeffizienten des Trägersignals) sowie eine kleine Menge an Seiteninformationen (nämlich die Skalierungsinformationen) übertragen werden müssen. Im Falle von Zweikanal-Stereo führt dies bei den intensitätskodierten Frequenzbereichen zu einer Einsparung von fast 50% der Datenrate.
  • Ungeachtet der Vorteile dieses Ansatzes führt übermäßige oder unkontrollierte Anwendung des Intensitätsstereokodierverfahrens zu einer Verschlechterung des wahrgenommenen Stereobildes, weil die detaillierte zeitliche Struktur der Signale für Zeitintervalle, die kleiner als die Granularität der Kodieranordnung (z. B. 20 ms je Block) sind, nicht erhalten ist. Insbesondere sind infolge der Verwendung eines einzigen Trägers alle aus diesem Träger rekonstruierten Ausgangssignale notwendigerweise skalierte Versionen voneinander. Anders ausgedrückt: über die Dauer des kodierten Blocks (z. B. 10 bis 20 ms) hinweg haben sie die gleiche Hüllkurvenfeinstruktur. Für stationäre Signale oder für Signale mit in den intensitätsstereokodierten Kanälen ähnlichen Hüllkurvenfeinstrukturen stellt dies kein erhebliches Problem dar.
  • Bei transienten Signalen mit unähnlichen Hüllkurven in verschiedenen Kanälen jedoch kann die ursprüngliche Verteilung der Hüllkurveneinsätze über die kodierten Kanäle nicht zurückgewonnen werden. Beispielsweise unterscheiden sich in einer stereophonen Aufnahme eines applaudierenden Publikums die einzelnen Hüllkurven im rechten bzw. linken Kanal aufgrund der unterschiedlichen Klatschereignisse, die in den jeweiligen Kanälen zu verschiedenen Zeitpunkten stattfinden. Ähnliche Effekte treten bei Aufnahmen auf, die mit stereophonen Mikrophonen erzeugt wurden, so dass die räumliche Position einer Schallquelle letztendlich in Form von Zeitdifferenzen bzw. Verzögerungen zwischen den jewei ligen Kanalsignalen kodiert ist. Infolgedessen verringert sich die Qualität des Stereobildes eines intensitätsstereokodierten/-dekodierten Signals in diesen Fällen wesentlich. Der räumliche Eindruck tendiert dazu, sich zu verschmälern, und das wahrgenommene Stereobild tendiert dazu, in die Mittenposition zu kollabieren. Bei kritischen Signalen kann die erreichte Qualität nicht mehr als brauchbar betrachtet werden.
  • Um Verschlechterungen im Stereobild eines intensitätskodierten/-dekodierten Signals zu vermeiden, sind einige Strategien vorgeschlagen worden. Da das Intensitätsstereokodieren das Risiko einer Beeinträchtigung des Stereobildes trägt, ist vorgeschlagen worden, dieses Verfahren nur dann zu benutzen, wenn dem Kodierer die Bits ausgehen, um schwerwiegende Quantisierungsverzerrungen zu vermeiden, die vom Hörer als noch störender wahrgenommen würden.
  • Auch könnte ein Algorithmus eingesetzt werden, der Unähnlichkeiten in den zeitlichen Feinstrukturen der Kanäle erkennt. Wenn eine Nichtübereinstimmung der Hüllkurven erkannt wird, wird in dem betreffenden Block keine Intensitätsstereokodierung angewendet. Ein solcher Ansatz wird z. B. beschrieben in J. Herre et al., „Intensity Stereo Coding", 96th Audio Engineering Society Convention, Amsterdam, Februar 1994. Ein offensichtlicher Nachteil der bislang vorgeschlagenen Lösungen ist jedoch, dass das Biteinsparpotential nicht mehr voll ausgenutzt werden kann, da bei solchen Signalen das Intensitätsstereokodieren deaktiviert wird.
  • Kurzdarstellung der Erfindung
  • Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die Nachteile der Verfahren nach Stand der Technik mit Hilfe eines Verfahrens und einer Vorrichtung überwunden, die Mehrkanal-Audiosignale mittels Intensitätsstereokodierverfahren kombinationsstereo kodieren. Im Speziellen werden Prädiktionsfilterverfahren auf die Spektralkoeffizientendaten angewendet, wodurch die zeitliche Feinstruktur des Ausgangssignals der einzelnen Kanäle erhalten wird, dabei aber der Vorteil der durch Intensitätsstereokodieren ermöglichten hohen Bitrateneinsparungen erhalten bleibt. In einem Ausführungsbeispiel der vorliegenden Erfindung wird ein Verfahren zur Verbesserung des wahrgenommenen Stereobildes von intensitätsstereokodierten/-dekodierten Signalen geschaffen, indem in einem Kodierer für stereophone Zweikanalsignale die folgenden Verarbeitungsschritte zur Anwendung kommen:
    • • Das Eingangssignal der einzelnen Kanäle wird durch eine hochauflösende Filterbank bzw. Transformation in Spektralkoeffizienten zerlegt.
    • • Unter Verwendung eines Wahrnehmungsmodells werden für die einzelnen Kanäle eine oder mehrere zeitabhängige Maskierungsschwellen des Signals abgeschätzt. Dies ergibt vorteilhafterweise den maximalen Kodierungsfehler, der unter Erhalt einer bei der Wahrnehmung unbeeinträchtigten Signalqualität in das Audiosignal eingeführt werden kann.
    • • Für jeden Kanal wird ein Filter, der lineare Prädiktion in der Frequenz ausführt, an den Ausgängen der Filterbank angewendet, so dass für die folgenden Schritte das Restfehlersignal anstelle des tatsächlichen Ausgangssignals der Filterbank benutzt wird.
    • • Intensitätsstereokodierverfahren werden angewendet, um beide Restfehlersignale in ein Trägersignal zu kodieren.
    • • Die Spektralwerte des Trägersignals werden quantisiert und in der zu dem bzw. zu den Maskierungsschwellen-Schätzwert(en) korrespondierenden Genau igkeit kodiert.
    • • Alle relevanten Informationen (d. h. die kodierten Spektralwerte, Intensitätsskalierungsdaten und Prädiktionsfilterdaten) werden in einen Bitstrom gepackt und an den Dekodierer übertragen.
  • Entsprechend führt ein Dekodierer gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung für kombinationsstereokodierte Signale, der dem obenstehend beschriebenen Beispielkodierer entspricht, die folgenden Verarbeitungsschritte aus:
    • • Der Bitstrom wird dekodiert, analysiert und in die kodierten Spektraldaten und Seiteninformationen zerlegt.
    • • Die quantisierten Spektralwerte des Trägersignals werden invers quantisiert.
    • • Die Spektralwerte des Trägersignals werden intensitätsstereodekodiert, wodurch (Restfehler-)Signale für die einzelnen Kanäle erzeugt werden.
    • • Für die einzelnen Kanäle werden in der Frequenz arbeitende inverse Prädiktionsfilter auf das ursprüngliche Signal angewendet, die den Prädiktionsfiltern entsprechen, die von dem Kodierer, der benutzt wurde, um das ursprüngliche Signal zu kodieren, angewendet wurden.
    • • Die von den inversen Prädiktionsfiltern erzeugten Spektralwerte werden unter Verwendung von Synthesefilterbänken in die Zeitbereichsdarstellung rücküberführt.
  • Kurze Beschreibung der Zeichnungen
  • Es zeigen:
  • 1 einen Kodierer für stereophone Zweikanalsignale nach Stand der Technik, bei dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen.
  • 2 einen Kodierer für stereophone Zweikanalsignale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • 3 eine Beispielimplementierung der Prädiktionsfilter des Beispielkodierers aus 2.
  • 4 einen Dekodierer für Kombinationsstereosignale nach Stand der Technik, der dem Kodierer nach Stand der Technik aus 1 entspricht, in dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen.
  • 5 einen Dekodierer für kombinationsstereokodierte Signale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, der dem Beispielkodierer aus 2 entspricht.
  • 6 eine Beispielimplementierung der inversen Prädiktionsfilter des Beispielkodierers aus 5.
  • 7 ein Flussdiagramm eines Verfahrens zum Kodieren von stereophonen Zweikanalsignalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.
  • 8 ein Flussdiagramm eines Verfahrens zum Dekodieren von kombinationsstereokodierten Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das dem in 7 gezeigten Beispielkodierverfahren entspricht.
  • Detaillierte Beschreibung
  • Überblick
  • Die Aufnahme eines Prädiktionsfiltervorgangs in Kodierer und Dekodierer gemäß bestimmten Ausführungsbeispielen der vorliegenden Erfindung verbessert vorteilhafterweise die Qualität des intensitätsstereokodierten/-dekodierten Signals, indem die Einschränkung der Anordnungen nach Stand der Technik, dass in allen intensitätsstereodekodierten Kanalsignalen identische Hüllkurvenfeinstrukturen erzeugt werden, überwunden wird. Insbesondere überwindet das Beispielkodierverfahren die Nachteile der bisherigen Verfahren, indem die Filterbank durch die Prädiktionsfilterstufe effektiv derart erweitert wird, dass die über die Frequenz hinweg gemeinsamen Hüllkurveninformationen in Form von Filterkoeffizienten extrahiert und größtenteils aus dem Restfehlersignal entfernt werden.
  • Insbesondere wird für jedes Eingangskanalsignal auf den entsprechenden Spektralkoeffizientendaten eine lineare Prädiktion durchgeführt, wobei die lineare Prädiktion über die Frequenz ausgeführt wird. Da die Prädiktionskodierung auf Spektralbereichsdaten angewendet wird, sind bei den im Falle klassischer Prädiktionen bekannten gültigen Beziehungen der Zeit- und der Frequenzbereich zu vertauschen. Beispielsweise hat das Prädiktionsfehlersignal idealerweise eine „flache" (quadrierte) Hüllkurve, im Gegensatz zu einem „flachen" Leistungsspektrum (ein sogenannter „Prewhitening"-Filtereffekt). Die zeitlichen Feinstrukturinformationen für die einzelnen Kanalsignale sind in den jeweiligen Prädiktionsfilterkoeffizienten enthalten. Es kann daher davon ausgegangen werden, dass das für das Intensitätsstereokodieren benutzte Trägersignal ebenso eine flache Hüllkurve aufweist, da es durch Bilden von Linearkombinationen aus den (gefilterten) Kanalsignalen erzeugt wird.
  • In einem entsprechenden Dekodierer gemäß einem Ausführungsbeispiel der vorliegenden Erfindung werden die einzelnen Kanalsignale gemäß der übertragenen Skalierungsinformationen reskaliert, und auf die Spektralkoeffizienten wird der inverse Filtervorgang angewendet. Auf diese Weise wird der inverse „Prewhitening"-Vorgang mit den Hüllkurven der einzelnen dekodierten Kanalsignale ausgeführt, wodurch effektiv die Hüllkurveninformation in die Spektralkoeffizienten wieder eingeführt wird. Da dies individuell für jeden einzelnen Kanal geschieht, ist das erweiterte Kodier-/Dekodiersystem dazu in der Lage, die verschiedenen individuellen Hüllkurvenfeinstrukturen der einzelnen Kanalsignale zu reproduzieren. Es ist zu beachten, dass in der Praxis der Einsatz einer Kombination aus Filterbank und linearer Prädiktion in der Frequenz äquivalent ist zum Einsatz einer auf die Hüllkurve des Eingangssignals abgestimmten adaptiven Filterbank. Da der Vorgang der Hüllkurvenformung eines Signals entweder für das gesamte Spektrum des Signals oder nur für einen Teil davon ausgeführt werden kann, kann diese Hüllkurvensteuerung im Zeitbereich vorteilhafterweise in jeder beliebigen notwendigen frequenzabhängigen Weise angewendet werden.
  • Außerdem kann der Bitstrom, welcher zum Beispiel von dem oben beschriebenen und nachstehend anhand 2, 3 und 7 näher erläuterten Beispielkodierer erzeugt wird, gemäß einer weiteren Ausführungsform der vorliegenden Erfindung vorteilhafterweise auf einem Speichermedium, wie z. B. einer Compact Disc oder einem Digitaltonband, oder in einem Halbleiterspeicher gespeichert werden. Ein solches Speichermedium kann dann wieder eingelesen werden, um den Bitstrom für ein späteres Dekodieren beispielsweise durch den oben beschriebenen (und nachstehend anhand 5, 6 und 8 näher erläuterten) Beispieldekodierer bereitzustellen. Auf diese Art kann eine erhebliche Menge an Audiodaten (z. B. Musik) komp rimiert und ohne Verluste bei der (wahrgenommenen) Qualität des rekonstruierten Signals auf das gegebene Speichermedium geschrieben werden.
  • Ein Kodierer nach Stand der Technik
  • 1 zeigt einen wahrnehmungsorientierten Kodierer für stereophone Zweikanalsignale nach Stand der Technik, bei dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. Der Kodierer aus 1 arbeitet wie folgt:
    • • Die linken und rechten Eingangssignale, xl(k) und xr(k), werden durch die Analysefilterbank-/Transformationsmodule 12l bzw. 12r jeweils einzeln in Spektralkoeffizienten zerlegt, wobei sich für jeden Analyseblock b ein entsprechender Satz aus „n" Spektralkomponenten yl(b, 0 ... n – 1) bzw. yr(b, 0 ... n – 1) ergibt, wobei „n" die Anzahl der Spektralkoeffizienten pro Analyseblock (d. h. die Blockgröße) ist. Jeder Spektralkomponente yl(b, i) bzw. yr(b, i) ist eine Analysefrequenz in Übereinstimmung mit der speziellen eingesetzten Filterbank zugeordnet.
    • • Die Wahrnehmungsmodelle 11l bzw. 11r schätzen für jeden Kanal die Genauigkeit der Kodierung ab, die für bei der Wahrnehmung transparente Qualität des kodierten/dekodierten Signals benötigt wird. Die Schätzungsdaten können zum Beispiel auf dem in den einzelnen Bändern des Kodierers erforderlichen minimalen Signal-Rauschabstand (SNR) beruhen und werden an das Quantisierungs-/Kodiermodul weitergeleitet.
    • • Die Spektralwerte für sowohl den linken als auch den rechten Kanal, yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1), werden dem Intensitätsstereo-Kodiermodul 13 zur Verfügung gestellt, welches das herkömmliche In tensitätsstereokodieren durchführt. Für Spektralanteile, die vom Intensitätsstereokodieren ausgenommen werden sollen, können die entsprechenden Werte yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1) direkt an die Quantisierungs- und Kodierstufe weitergeleitet werden. Für Spektralanteile, bei denen intensitätsstereokodiert werden soll (d. h. vorzugsweise für die hochfrequenten Anteile) wird der Intensitätsstereokodiervorgang wie folgt ausgeführt: Von jedem der Signale yl() und yr() werden Skalierungsinformationen (d. h. Spitzenamplitude oder Gesamtenergie) für die einzelnen Frequenzbänder des Kodierers extrahiert und durch Kombinieren der entsprechenden yl()- und yr()-Werte ein einzelnes Trägersignal yi() erzeugt. Für die intensitätsstereokodierten Spektralanteile werden somit der Quantisierungs- und Kodierstufe nur ein Wertesatz yi() für beide Kanäle sowie Skalierungs-Seiteninformationen für jeden Kanal zur Verfügung gestellt. Alternativ können auch kombinierte Skalierungsinformationen zusammen mit Richtungsinformationen (und dem einzelnen Trägersignal) verwendet werden.
    • • Die Spektralkomponenten am Ausgang der Intensitätskodierstufe, die aus separaten Werten yl() und yr() sowie aus gemeinsamen Werten yi() bestehen, werden von dem Quantisierungs- und Kodiermodul 14 quantisiert und auf Übertragungssymbole abgebildet. Dieses Modul berücksichtigt die erforderliche Genauigkeit der Kodierung, wie sie von den Wahrnehmungsmodellen 11l und 11r bestimmt wird.
    • • Die von dem Quantisierungs- und Kodiermodul 14 erzeugten Übertragungssymbolwerte werden zusammen mit weiteren Seiteninformationen an den Bitstrom-Kodierer/-Multiplexer 15 weitergeleitet und werden dadurch in dem kodierten Bitstrom übertragen. Für Frequenzbänder des Kodierers, die Intensitätsstereokodierung einsetzen, werden dem Bitstrom-Kodierer/-Multiplexer 15 außerdem die von dem Intensitätsstereokodiermodul 13 gelieferten Skalierungsinformationen zur Verfügung gestellt.
  • Ein Beispielkodierer
  • 2 zeigt einen Kodierer für stereophone Zweikanalsignale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Die Funktionsweise des Beispielkodierers aus 2 entspricht derjenigen des Kodierers nach Stand der Technik aus 1, mit der Ausnahme, dass für jeden Kanal zwischen der entsprechenden Analysefilterbank und dem entsprechenden Intensitätsstereokodiermodul jeweils eine Prädiktionsfilterstufe eingeschoben ist. D. h., dass die Prädiktionsfilter 16l und 16r auf die Ausgänge der Analysefilterbänke 12l bzw. 12r angewendet werden. Dadurch werden die Spektralwerte yl(b, 0 ... n – 1) und yr(b, 0 ... n – 1) durch die Ausgangswerte yl'(b, 0 ... n – 1) bzw. yr'(b, 0 ... n – 1) des Prädiktionsfiltervorgangs ersetzt, bevor sie dem Intensitätsstereokodiermodul 13 zur Verfügung gestellt werden.
  • 3 zeigt eine Beispielimplementierung der Prädiktionsfilter des Beispielkodierers aus 2. Insbesondere wird in der Prädiktionsfilterstufe eine lineare Prädiktion über die Frequenz ausgeführt (im Gegensatz beispielsweise zum Prädiktionskodieren über die Zeit, wie es von Teilband-ADPCM-Kodierern eingesetzt wird).
  • Zu diesem Zwecke dient der „Drehschalter" 43, der die Spektralwerte y(b, 0 ... n – 1) vor der Verarbeitung in eine serielle Anordnung bringt; und die resultierenden Ausgangswerte y'(b, 0... n – 1) werden anschließend durch den „Drehschalter" 46 in paralleler Anordnung zur Verfügung gestellt. (Es ist zu beachten, dass die Verwendung von „Drehschaltern" als Mechanismus zur Umwandlung zwischen seriellen und parallelen Anordnungen hier ausschließ lich der Einfachheit und des besseren Verständnisses halber geschieht. Dem Durchschnittsfachmann wird klar sein, dass kein solches physikalisches Schaltgerät bereitgestellt werden muss. Vielmehr können Umwandlungen zwischen serieller und paralleler Anordnung auf mehrere verschiedene herkömmliche, dem Fachmann bekannte Weisen ausgeführt werden, unter anderem auch allein durch Software.) Obwohl das hier gezeigte Ausführungsbeispiel die Spektralwerte in der Reihenfolge steigender Frequenzen abarbeitet, können alternative Ausführungsformen die Spektralwerte beispielsweise in der Reihenfolge fallender Frequenzen abarbeiten. Andere Abarbeitungsreihenfolgen sind ebenso möglich, wie dem Durchschnittsfachmann klar sein wird.
  • Insbesondere werden, wie man in der Figur sehen kann, die resultierenden Ausgangswerte y'(b, 0 ... n – 1) aus den Eingangswerten y(b, 0 ... n – 1) berechnet, indem (mit Hilfe von Subtrahierer 48) die vorhergesagten Werte (vorhergesagt durch Prädiktor 47) von den Eingangswerten abgezogen werden, so dass nur das Prädiktionsfehlersignal weitergeleitet wird. Es ist zu beachten, dass die in der Figur mit „Hüllkurven-Prewhitening-Filter 44" bezeichnete Kombination aus Prädiktor 47 und Subtrahierer 48 die zeitliche Gestalt des entsprechenden Zeitsignals glättet.
  • Der von den Prädiktionsfiltern 16l und 16r von 2 ausgeführte Vorgang kann entweder für das gesamte Spektrum (d. h. für alle Spektralkoeffizienten) oder aber nur für einen Spektralanteil (d. h. für eine Teilmenge der Spektralkoeffizienten) ausgeführt werden. Darüber hinaus können für unterschiedliche Anteile des Signalspektrums unterschiedliche Prädiktorfilter (wie z. B. die in 3 gezeigten unterschiedlichen Prädiktoren 47) benutzt werden. Auf diese Weise kann das obenstehend beschriebene Verfahren zur Hüllkurvensteuerung im Zeitbereich auf jede benötigte frequenzabhängige Art und Weise angewendet werden.
  • Um das korrekte Dekodieren des Signals zu ermöglichen, enthält der Bitstrom vorteilhafterweise bestimmte zusätzliche Seiteninformationen. Ein Feld dieser Informationen könnte beispielsweise die Benutzung der Prädiktionsfilterung anzeigen sowie, falls zutreffend, die Anzahl unterschiedlicher Prädiktionsfilter. Falls Prädiktionsfilterung benutzt wird, können im Bitstrom für jeden Prädiktionsfilter zusätzliche Felder übertragen werden, die den Zielfrequenzbereich des jeweiligen Filters und seine Filterkoeffizienten angeben. Dementsprechend stellen, wie in 2 durch die mit „L-Filter-Daten" bzw. „R-Filter-Daten" beschrifteten gestrichelten Linien angezeigt, die Prädiktionsfilter 16l und 16r dem Bitstrom-Kodierer/-Multiplexer 17 die notwendigen Informationen zur Aufnahme in den übertragenen Bitstrom zur Verfügung.
  • 7 zeigt ein Flussdiagramm eines Verfahrens zum Kodieren von stereophonen Zweikanalsignalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das in diesem Flussdiagramm gezeigte Ausführungsbeispiel implementiert bestimmte relevante Abschnitte des Beispielkodierers aus 2. Insbesondere zeigt das Flussdiagramm den eingangsseitigen Abschnitt des Kodierers für einen einzelnen der Kanäle inklusive des Hüllkurven-Prewhitening-Vorgangs unter Verwendung eines einzelnen Prädiktionsfilters. Dieser Prewhitening-Vorgang wird nach der Berechnung der Spektralwerte durch die Analysefilterbank ausgeführt, wie in Schritt 61 der Figur gezeigt.
  • Insbesondere werden nach dem Analysefilterbanklauf die Ordnung des Prädiktionsfilters und der Zielfrequenzbereich festgelegt (Schritt 62). Zur Erläuterung können diese Parameter z. B. auf eine Filterordnung von 15 sowie auf einen Zielfrequenzbereich, der den gesamten mit Intensitätsstereokodierung zu kodierenden Frequenzbereich (z. B. von 4 kHz bis 20 kHz) umfasst, gesetzt werden. Auf diese Weise ist die Anordnung vorteilhafterweise zur Bereitstellung eines Satzes individueller zeitlicher Feinstrukturdaten je Audiokanal eingerichtet. In Schritt 63 ist der Prädiktionsfilter dadurch bestimmt, dass der mit dem Zielfrequenzbereich übereinstimmende Spektralkoeffizientenbereich sowie ein herkömmliches Verfahren zum Prädiktionskodieren, wie es beispielsweise im Zusammenhang mit Differenzpulscodemodulations-Kodierern (DPCM-Kodierern) bekannt ist, verwendet werden. Zum Beispiel kann die Autokorrelationsfunktion der Koeffizienten berechnet und in einem herkömmlichen, dem Fachmann bekannten Levinson-Durbin-Rekursionsalgorithmus benutzt werden. Infolgedessen sind die Prädiktionsfilterkoeffizienten, die entsprechenden Reflexionskoeffizienten („PARCOR"-Koeffizienten) und der erwartete Prädiktionsgewinn bekannt.
  • Wenn der zu erwartende Prädiktionsgewinn eine bestimmte, durch Entscheidung 64 festgelegte Schwelle (z. B. 2 dB) übersteigt, wird der aus den Schritten 65 bis 67 bestehende Prädiktionsfiltervorgang benutzt. In diesem Falle werden die Prädiktionsfilterkoeffizienten, wie für die Übertragung an den Dekodierer als Teil der Seiteninformationen erforderlich, quantisiert (in Schritt 65). Daraufhin wird in Schritt 66 der Prädiktionsfilter auf den mit dem Zielfrequenzbereich übereinstimmenden Spektralkoeffizientenbereich angewendet, wobei die quantisierten Filterkoeffizienten benutzt werden. Für die weitere Verarbeitung werden die Spektralkoeffizienten daher durch die Ausgangsdaten des Filtervorgangs ersetzt. Schließlich wird in Schritt 67 ein Feld des zur Übertragung bestimmten Bitstroms so gesetzt, dass die Verwendung von Prädiktionsfilterung angezeigt wird („Prädiktionsflag" an). Außerdem werden der Zielfrequenzbereich, die Ordnung des Prädiktionsfilters und Informationen, die die Filterkoeffizienten beschreiben, in den Bitstrom aufgenommen.
  • Wenn andererseits der erwartete Prädiktionsgewinn die von Entscheidung 64 festgelegte Entscheidungsschwelle nicht übersteigt, setzt Schritt 68 ein Feld in dem Bitstrom so, dass angezeigt wird, dass keine Prädiktionsfilterung zum Einsatz kam („Prädiktionsflag" aus). Nach Abschluss der obenstehend beschriebenen Verarbeitung schließlich werden herkömmliche Schritte ausgeführt, wie sie auch in Kodierern nach Stand der Technik (wie z. B. dem Kodierer aus 1) ausgeführt werden, d. h.: der Intensitätsstereokodiervorgang wird auf die Spektralkoeffizienten (bei denen es sich jetzt um Restfehlerdaten handeln kann) angewendet, die Ergebnisse des Intensitätsstereokodiervorgangs werden quantisiert und kodiert, und der konkret zu übertragende Bitstrom (mit den entsprechenden multiplexierten Seiteninformationen) wird zur Übertragung kodiert. Es ist jedoch zu beachten, dass der Bitstromkodierer/-multiplexer 17 des Beispielkodierers aus 2 den herkömmlichen Bitstromkodierer/-multiplexer 15 des Kodierers nach Stand der Technik aus 1 ersetzt, so dass die von den Prädiktionsfiltern 16l und 16r bereitgestellten zusätzlichen Seiteninformationen (d. h. die „L-Filter-Daten" und die „R-Filter-Daten") vorteilhafterweise in den sich ergebenden Bitstrom kodiert und mit ihm übertragen werden können.
  • Ein Dekodierer nach Stand der Technik
  • 4 zeigt einen Dekodierer für Kombinationsstereosignale nach Stand der Technik, der dem Kodierer nach Stand der Technik aus 1 entspricht, in dem herkömmliche Intensitätsstereokodierverfahren zum Einsatz kommen. Insbesondere führt der Dekodierer aus 4 die folgenden Schritte aus:
    • • Der eingehende Bitstrom wird von dem Bitstrom-Dekodierer/Demultiplexer 21 analysiert und zerlegt, und die Übertragungssymbole für die Spektralkoeffizienten werden zusammen mit den quantisierungsbezogenen Seiteninformationen an das Modul 22 zum Dekodieren und zum inversen Quantisieren weitergeleitet.
    • • Im Modul 22 zum Dekodieren und zum inversen Quantisieren werden die quantisierten Spektralwerte yql(), yqr() und yqi() rekonstruiert. Diese Signale entsprechen jeweils dem unabhängig kodierten Signalanteil des linken Kanals, dem unabhängig kodierten Signalanteil des rechten Kanals bzw. dem Intensitätsstereo-Trägersignal.
    • • Aus den rekonstruierten Spektralwerten des Trägersignals und der übertragenen Skalierungsinformationen werden unter Verwendung eines herkömmlichen Intensitätsstereodekodiervorgangs, der von Intensitätsstereodekodiermodul 23 ausgeführt wird, die fehlenden Anteile der yql()- und yqr()-Spektren der linken bzw. rechten Kanalsignale berechnet. Am Ausgang dieses Moduls sind zwei vollständige (und unabhängige) spektrale Kanalsignale yql() und yqr() verfügbar, die dem linken bzw. rechten Kanal entsprechen.
    • • Schließlich werden die einzelnen linken bzw. rechten spektralen Kanalsignale yql() und yqr() von den Synthesefilterbänken 24l bzw. 24r in eine Zeitbereichsdarstellung rücküberführt, wobei sich die endgültigen Ausgangssignale xl'(k) und xr'(k) ergeben.
  • Ein Beispieldekodierer
  • 5 zeigt einen Dekodierer für kombinationsstereokodierte Signale gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, der dem Beispielkodierer aus 2 entspricht. Die Funktionsweise des Beispieldekodierers aus 5 entspricht derjenigen des Kodierers nach Stand der Technik aus 4, mit der Ausnahme, dass für jeden Kanal zwischen dem entsprechenden Intensitätsstereokodiermodul und der entsprechenden Synthesefilterbank jeweils eine inverse Prädiktionsfilterstufe eingeschoben ist. D. h. die inversen Prädiktionsfilter 26l bzw. 26r sind vor den Synthesefilterbänken 24l bzw. 24r eingefügt. Folglich werden die von dem Intensitätsstereodekodiermodul 23 erzeugten Spektralwerte yql() und yqr() durch die Ausgangswerte yql'() bzw. yqr'() des entsprechenden inversen Prädiktionsfiltervorgangs ersetzt, bevor sie den entsprechenden Synthesefilterbänken (Synthesefilterbänke 24l und 24r) zur Verfügung gestellt werden.
  • 6 zeigt eine Beispielimplementierung der inversen Prädiktionsfilter des Beispieldekodierers aus 5.
  • Insbesondere wird in den inversen Prädiktionsfiltern eine lineare Filteroperation über die Frequenz ausgeführt (im Unterschied zum Prädiktionskodieren über die Zeit, wie es in Teilband-ADPCM-Kodierern stattfindet). Analog zu der Prädiktionsfilterimplementierung aus 3 wird der „Drehschalter" 33 aus 6 verwendet, um die Spektralwerte yq(b, 0 ... n – 1) vor der Verarbeitung in eine serielle Anordnung zu bringen, und der „Drehschalter" 36 aus der Figur wird verwendet, um anschließend die resultierenden Ausgangswerte yq'(b, 0 ... n – 1) in eine parallele Anordnung zu bringen. (Erneut ist zu beachten, dass die Verwendung von „Drehschaltern" als Mechanismus zur Umwandlung zwischen seriellen und parallelen Anordnungen hier ausschließlich der Einfachheit und des besseren Verständnisses halber geschieht. Dem Durchschnittsfachmann wird klar sein, dass kein solches physikalisches Schaltgerät bereitgestellt werden muss. Vielmehr können Umwandlungen zwischen serieller und paralleler Anordnung auf mehrere verschiedene herkömmliche, dem Fachmann bekannte Weisen ausgeführt werden, unter anderem auch allein durch Software.) Wiederum ist, wie im Falle des obenstehend beschriebenen Beispielkodierers, die Verarbeitung in der Reihenfolge steigender oder fallender Frequenzen genauso möglich, wie andere, dem Fachmann offenkundigen Verarbeitungsreihenfolgen.
  • Im Speziellen werden, wie aus der Figur ersichtlich, die Ausgangswerte yq'(b, 0 ... n – 1) aus den Eingangswerten yq(b, 0 ... n – 1) berechnet, indem die Umkehrung des in dem entsprechenden Kodierer eingesetzten Hüllkurven-Prewhitening-Filters angewendet wird. Insbesondere werden die Ausgangswerte aus den Eingangswerten berechnet, indem unter Verwendung des Addierers 38 die vorhergesagten Werte (vorhergesagt durch Prädiktor 37) wie gezeigt auf die Eingangswerte addiert werden. Es ist zu beachten, dass die in der Figur mit „Hüllkurven-Prewhitening-Filter" 34 bezeichnete Kombination aus Prädiktor 37 und Addierer 38 die zeitliche Gestalt des ursprünglichen Zeitsignals wieder einführt.
  • Wie zuvor bei der Behandlung des Beispielkodierers aus 2 und 3 erläutert, kann der obenstehend beschriebene Filtervorgang entweder für das gesamte Spektrum (d. h. für alle Spektralkoeffizienten) oder aber nur für einen Spektralanteil (d. h. für eine Teilmenge der Spektralkoeffizienten) ausgeführt werden. Darüber hinaus können für unterschiedliche Anteile des Signalspektrums unterschiedliche Prädiktorfilter (z. B. die in 6 gezeigten unterschiedlichen Prädiktoren 37) benutzt werden. In einem solchen Falle dekodiert der Beispieldekodierer aus 5 vorteilhafterweise die zusätzlichen (in der Figur mit „L-Filter-Daten" bzw. „R-Filter-Daten" beschrifteten) Seiteninformationen, die von dem Kodierer übertragen worden waren, aus dem Bitstrom und stellt diese Daten den inversen Prädiktionsfiltern 26l und 26r zur Verfügung (damit das Signal korrekt dekodiert werden kann). Auf diese Weise kann das Prädiktionsdekodieren in jedem gegebenen Zielfrequenzbereich mit einem entsprechenden Prädiktionsfilter durchgeführt werden.
  • 8 zeigt ein Flussdiagramm eines Verfahrens zum De kodieren von kombinationsstereokodierten Signalen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung, das dem in 7 gezeigten Beispielkodierverfahren entspricht. Das in diesem Flussdiagramm gezeigte Ausführungsbeispiel implementiert bestimmte relevante Abschnitte des Beispieldekodierers aus 5. Im Speziellen zeigt das Flussdiagramm den ausgangsseitigen Abschnitt des Kodierers für einen einzelnen der Kanäle inklusive des Hüllkurven-Prewhitening-Vorgangs unter Verwendung eines einzelnen (inversen) Prädiktionsfilters. Die von dem Dekodierer vor den in dem Flussdiagramm aus 8 gezeigten Schritten ausgeführte Verarbeitung umfasst herkömmliche Schritte, wie sie in Dekodierern nach Stand der Technik (z. B. dem Dekodierer aus 4) ausgeführt werden, d. h.: Der Bitstrom wird dekodiert/demultiplexiert, die resultierenden Daten werden dekodiert und invers quantisiert, und der Intensitätsstereodekodiervorgang wird ausgeführt. Es ist jedoch zu beachten, dass der Bitstromdekodierer/-demultiplexer 25 des Beispieldekodierers aus 5 den herkömmlichen Bitstromdekodierer/-demultiplexer 21 des Dekodierers nach Stand der Technik aus 4 ersetzt, so dass die von dem Kodierer bereitgestellten zusätzlichen Seiteninformationen (d. h. die „L-Filter-Daten" und die „R-Filter-Daten") vorteilhafterweise dekodiert und den inversen Prädiktionsfiltern 26l und 26r zur Verfügung gestellt werden können.
  • Nach Abschluss des Intensitätsstereodekodierens werden (von Entscheidung 72) die Daten aus dem Bitstrom überprüft, die die Verwendung von Prädiktionsfilterung signalisieren. Wenn die Daten anzeigen, dass im Kodierer Prädiktionsfilterung zum Einsatz kam (d. h. das „Prädiktionsflag" ist an), dann wird der aus den Schritten 73 und 74 bestehende erweiterte Dekodiervorgang ausgeführt. Insbesondere werden der Zielfrequenzbereich der Prädiktionsfilterung, die Ordnung des Prewhitening-(Prädiktions)-Filters und Informationen, die die Koeffizienten des Filters beschreiben, aus den (zuvor dekodierten) Seiteninformationen zurückgewonnen (Schritt 73). Dann wird der inverse (Dekodier-)Prädiktionsfilter (d. h. der Hüllkurvenformungsfilter) auf den dem Zielfrequenzbereich entsprechenden Spektralkoeffizientenbereich angewendet (Schritt 74). In beiden Fällen (d. h. unabhängig davon, ob Prädiktionsfilterung zum Einsatz kam oder nicht), wird die Verarbeitung im Dekodierer abgeschlossen, indem (für jeden Kanal) die Synthesefilterbank mit den Spektralkoeffizienten (gegebenenfalls nach deren Verarbeitung durch den Hüllkurvenformungsfilter) ausgeführt wird, wie in Schritt 75 gezeigt.
  • Schlussfolgerung
  • Durch Verwendung des obenstehend beschriebenen Verfahrens in Übereinstimmung mit den Ausführungsbeispielen der vorliegenden Erfindung (d. h. Prädiktionsfilterung im Kodierer und inverse Filterung im Dekodierer) kann für bestimmte herkömmliche Blocktransformationen, zu denen die diskrete Fouriertransformation (DFT) oder die diskrete Kosinustransformation (DCT) zählen, welche beide dem Durchschnittsfachmann bekannt sind, ein eindeutiger Hüllkurvenformungseffekt erzielt werden. Wenn beispielsweise ein wahrnehmungsorientierter Kodierer gemäß der vorliegenden Erfindung eine Filterbank mit kritischer Unterabtastung und überlappenden Fenstern – z. B. eine herkömmliche modifizierte diskrete Kosinustransformation (MDCT) oder eine andere herkömmliche, auf „Time Domain Aliasing Cancellation" (TDAC) beruhende Filterbank – benutzt, ist der resultierende Hüllkurvenformungseffekt den in der Filterbank inhärenten Aliasing-Effekten im Zeitbereich ausgesetzt. Zum Beispiel findet im Falle einer MDCT ein Rückspiegelungs-Vorgang (d. h. ein Aliasing-Vorgang) pro Fensterhälfte statt, und die Hüllkurvenfeinstruktur erscheint innerhalb der linken und der rechten Fensterhälfte nach dem Dekodieren jeweils gespiegelt (d. h. von Aliasing betroffen). Da die letztendlichen Ausgangsdaten der Filterbank durch Anwenden eines Synthesefensters auf die Ausgangsdaten der einzelnen inversen Transformationen und durch Ausführen einer überlappenden Addition dieser Datensegmente entstehen, werden die von Aliasing betroffenen unerwünschten Komponenten in Abhängigkeit des verwendeten Synthesefensters abgeschwächt. Es ist daher von Vorteil, ein Filterbankfenster auszuwählen, das nur eine geringe Überlappung zwischen aufeinanderfolgenden Blöcken zeigt, so dass der zeitliche Aliasing-Effekt minimal ist. Eine geeignete Strategie im Kodierer kann beispielsweise für kritische Signale adaptiv ein Fenster mit einem geringen Überlappungsgrad auswählen und dadurch für eine verbesserte Frequenztrennschärfe sorgen. Die Details der Implementierung einer solchen Strategie sind dem Fachmann bekannt.
  • Obwohl etliche spezifische Ausführungsformen dieser Entfindung gezeigt und beschrieben wurden, versteht es sich, dass diese Ausführungsformen nichts weiter als Beispiele für die vielen möglichen spezifischen Anordnungen sind, die unter Anwendung der Prinzipien der Erfindung ausgearbeitet werden können. Obwohl die gezeigten und beschriebenen Ausführungsbeispiele auf das Kodieren und Dekodieren von nur zwei Kanäle umfassenden stereophonen Audiosignalen beschränkt gewesen sind, werden dem Fachmann auf Grundlage der hier getätigten Offenbarungen alternative Ausführungsformen als naheliegend erscheinen, die zum Beispiel zum Kodieren und Dekodieren von stereophonen Audiosignalen benutzt werden können, die mehr als zwei Kanäle aufweisen. Außerdem können vom Durchschnittsfachmann in Übereinstimmung mit diesen Prinzipien zahlreiche und verschiedenartige andere Anordnungen ausgearbeitet werden, ohne dass vom Umfang der Erfindung abgewichen würde.

Claims (20)

  1. Verfahren zum Kombinationsstereokodieren eines Mehrkanal-Audiosignals, um ein kodiertes Signal zu erzeugen, wobei das Verfahren die folgenden Schritte aufweist: (a) Ausführen einer Spektralzerlegung eines ersten Audiokanalsignals in eine Mehrzahl an ersten Spektralkomponentensignalen; (b) Erzeugen eines ersten Prädiktionssignals, das eine Vorhersage eines der ersten Spektralkomponentensignale darstellt, wobei die Vorhersage auf einem oder mehreren weiteren der ersten Spektralkomponentensignale beruht; (c) Vergleichen des ersten Prädiktionssignals mit jenem einen der ersten Spektralkomponentensignale, um ein erstes Prädiktionsfehlersignal zu erzeugen; (d) Ausführen einer Spektralzerlegung eines zweiten Audiokanalsignals in eine Mehrzahl an zweiten Spektralkomponentensignalen; (e) Kombinationsstereokodieren jenes einen der ersten Spektralkomponentensignale sowie eines der zweiten Spektralkomponentensignale, um ein kombinationskodiertes Spektralkomponentensignal zu erzeugen, wobei die Kodierung auf dem ersten Prädiktionsfehlersignal beruht; und (f) Erzeugen des kodierten Signals auf der Grundlage des kombinationskodierten Spektralkomponentensignals.
  2. Verfahren nach Anspruch 1, welches außerdem die folgenden Schritte aufweist: (g) Erzeugen eines zweiten Prädiktionssignals, das eine Vorhersage jenes einen der zweiten Spektralkomponentensignale darstellt, wobei die Vorhersage auf einem oder mehreren weiteren der zweiten Spektralkomponentensignale beruht; und (h) Vergleichen des zweiten Prädiktionssignals mit jenem einen der zweiten Spektralkomponentensignale, um ein zweites Prädiktionsfehlersignal zu erzeugen; und wobei der Schritt des Kombinationsstereokodierens jenes einen der ersten Spektralkomponentensignale sowie jenes einen der zweiten Spektralkomponentensignale außerdem auf dem zweiten Prädiktionsfehlersignal beruht.
  3. Verfahren nach Anspruch 1, wobei der Schritt des Kombinationsstereokodierens jenes einen der ersten Spektralkomponentensignale sowie jenes einen der zweiten Spektralkomponentensignale das Intensitätsstereokodieren jenes einen der ersten Spektralkomponentensignale sowie jenes einen der zweiten Spektralkomponentensignale umfasst.
  4. Verfahren nach Anspruch 1, wobei der Schritt des Erzeugens des kodierten Signals auf der Grundlage des kombinationskodierten Spektralkomponentensignals das Quantisieren des kombinationskodierten Spektralkomponentensignals umfasst.
  5. Verfahren nach Anspruch 4, wobei die Quantisierung des kombinationskodierten Spektralkomponentensignals auf einem Wahrnehmungsmodell beruht.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das weiterhin den Schritt des Speicherns des kodierten Signals auf einem Speichermedium umfasst.
  7. Verfahren nach Anspruch 6, wobei das Speichermedium eine Compact Disc umfasst.
  8. Verfahren nach Anspruch 6, wobei das Speichermedium ein Digitaltonband umfasst.
  9. Verfahren nach Anspruch 6, wobei das Speichermedium einen Halbleiterspeicher umfasst.
  10. Verfahren zum Dekodieren eines kodierten Signals, um ein rekonstruiertes Mehrkanal-Audiosignal zu erzeugen, wobei das kodierte Signal eine Kombinationsstereokodierung eines ursprünglichen Mehrkanal-Audiosignals umfasst, und wobei das Verfahren die folgenden Schritte aufweist: (a) Kombinationsstereodekodieren des kodierten Signals, um eine Mehrzahl an dekodierten Kanalsignalen zu erzeugen, wobei jedes dekodierte Kanalsignal eine Mehrzahl an dekodierten Spektralkomponenten-Prädiktionsfehlersignalen umfasst; (b) Erzeugen eines ersten Spektralkomponentensignals auf der Grundlage eines oder mehrerer dieser Spektralkomponenten-Prädiktionsfehlersignale, die in einem ersten der dekodierten Kanalsignale inbegriffen sind; (c) Erzeugen eines ersten Prädiktionssignals, das eine Vorhersage eines zweiten Spektralkomponentensignals darstellt, wobei die Vorhersage auf dem ersten Spektralkomponentensignal beruht; (d) Erzeugen des zweiten Spektralkomponentensignals auf der Grundlage des ersten Prädiktionssignals sowie eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in dem ersten der dekodierten Kanalsignale inbegriffen sind; und (e) Erzeugen eines ersten Kanals des rekonstruierten Mehrkanal-Audiosignals auf der Grundlage der ersten und zweiten Spektralkomponentensignale.
  11. Verfahren nach Anspruch 10, welches außerdem die folgenden Schritte aufweist: (f) Erzeugen eines dritten Spektralkomponentensignals auf der Grundlage eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in einem zweiten der dekodierten Kanalsignale inbegriffen sind; (g) Erzeugen eines zweiten Prädiktionssignals, das eine Vorhersage eines vierten Spektralkomponentensignals darstellt, wobei die Vorhersage auf dem dritten Spektralkomponentensignal beruht; (h) Erzeugen des vierten Spektralkomponentensignals auf der Grundlage des zweiten Prädiktionssignals sowie eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in dem zweiten der dekodierten Kanalsignale inbegriffen sind; und (i) Erzeugen eines zweiten Kanals des rekonstruierten Mehrkanal-Audiosignals auf der Grundlage der dritten und vierten Spektralkomponentensignale.
  12. Verfahren nach Anspruch 10, wobei der Schritt des Kombinationsstereodekodierens des kodierten Signals das Intensitätsstereodekodieren des kodierten Signals umfasst.
  13. Kodierer zum Kombinationsstereokodieren eines Mehrkanal-Audiosignals, um ein kodiertes Signal zu erzeugen, wobei der Kodierer Folgendes aufweist: (a) eine erste Filterbank (12l, 12r), die eine Spektralzerlegung eines ersten Audiokanalsignals in eine Mehrzahl an ersten Spektralkomponentensignalen ausführt; (b) einen ersten Prädiktionsfilter (16l, 16r, 47), der ein erstes Prädiktionssignal erzeugt, welches eine Vorhersage eines der ersten Spektralkomponentensignale darstellt, wobei der Prädiktionsfilter auf eines oder mehrere weitere der ersten Spektralkompo nentensignale anspricht; (c) einen ersten Vergleicher (48), der das erste Prädiktionssignal mit jenem einen der ersten Spektralkomponentensignale vergleicht, um ein erstes Prädiktionsfehlersignal zu erzeugen; (d) eine zweite Filterbank (12l, 12r), die eine Spektralzerlegung eines zweiten Audiokanalsignals in eine Mehrzahl an zweiten Spektralkomponentensignalen ausführt; (e) einen Kombinationsstereokodierer (13), der das Kombinationsstereokodieren jenes einen der ersten Spektralkomponentensignale sowie eines der zweiten Spektralkomponentensignale ausführt, um ein kombinationskodiertes Spektralkomponentensignal zu erzeugen, wobei die Kodierung auf dem ersten Prädiktionsfehlersignal beruht; und (f) einen Kodierer (14), der das kodierte Signal auf der Grundlage des kombinationskodierten Spektralkomponentensignals erzeugt.
  14. Kodierer nach Anspruch 13, welcher außerdem Folgendes umfasst: (g) einen zweiten Prädiktionsfilter (16l, 16r, 47), der ein zweites Prädiktionssignal erzeugt, welches eine Vorhersage jenes einen der zweiten Spektralkomponentensignale darstellt, wobei die Vorhersage auf einem oder mehreren weiteren der zweiten Spektralkomponentensignale beruht; und (h) einen zweiten Vergleicher (48), der das zweite Prädiktionssignal mit jenem einen der zweiten Spektralkomponentensignale vergleicht, um ein zweites Prädiktionsfehlersignal zu erzeugen; und wobei der Kombinationsstereokodierer das Kombinationsstereokodieren außerdem auf der Grundlage des zweiten Prädiktionsfehlersignals ausführt.
  15. Kodierer nach Anspruch 13, wobei der Kombinationsstereokodierer einen Intensitätsstereokodierer umfasst, welcher das Intensitätsstereokodieren jenes einen der ersten Spektralkomponentensignale sowie jenes einen der zweiten Spektralkomponentensignale ausführt.
  16. Kodierer nach Anspruch 13, wobei der Kodierer, der das kodierte Signal auf der Grundlage des kombinationskodierten Spektralkomponentensignals erzeugt, einen Quantisierer umfasst, der das kombinationskodierte Spektralkomponentensignal quantisiert.
  17. Kodierer nach Anspruch 16, wobei der Quantisierer auf einem Wahrnehmungsmodell beruht.
  18. Dekodierer zum Dekodieren eines kodierten Signals, um ein rekonstruiertes Mehrkanal-Audiosignal zu erzeugen, wobei das kodierte Signal ein Kombinationsstereokodieren eines ursprünglichen Mehrkanal-Audiosignals umfasst, und wobei das Verfahren Folgendes aufweist: (a) einen Kombinationsstereodekodierer (23), der das Kombinationsstereodekodieren der kodierten Signale ausführt, um eine Mehrzahl an dekodierten Kanalsignalen zu erzeugen, wobei jedes dekodierte Kanalsignal eine Mehrzahl an dekodierten Spektralkomponenten-Prädiktionsfehlersignalen umfasst; (b) Mittel zum Erzeugen eines ersten Spektralkomponentensignals auf der Grundlage eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in einem ersten der dekodierten Kanalsignale inbegriffen sind; (c) einen ersten Prädiktionsfilter (26l, 26r), der ein erstes Prädiktionssignal erzeugt, das eine Vorhersage eines zweiten Spektralkomponentensignals darstellt, wobei die Vorhersage auf dem ersten Spektralkomponentensignal beruht; (d) Mittel zum Erzeugen des zweiten Spektralkomponentensignals auf der Grundlage des ersten Prädiktionssignals sowie eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in dem ersten der dekodierten Kanalsignale inbegriffen sind; und (e) eine erste Filterbank (24l, 24r), die einen ersten Kanal des rekonstruierten Mehrkanal-Audiosignals auf der Grundlage der ersten und zweiten Spektralkomponentensignale erzeugt.
  19. Dekodierer nach Anspruch 18, welcher außerdem Folgendes umfasst: (f) Mittel zum Erzeugen eines dritten Spektralkomponentensignals auf der Grundlage eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in einem zweiten der dekodierten Kanalsignale inbegriffen sind; (g) einen zweiten Prädiktionsfilter, welcher ein zweites Prädiktionssignal erzeugt, das eine Vorhersage eines vierten Spektralkomponentensignals darstellt, wobei die Vorhersage auf dem dritten Spektralkomponentensignal beruht; (h) Mittel zum Erzeugen des vierten Spektralkomponentensignals auf der Grundlage des zweiten Prädiktionssignals sowie eines oder mehrerer der Spektralkomponenten-Prädiktionsfehlersignale, die in dem zweiten der dekodierten Kanalsignale inbegriffen sind; und (i) eine zweite Filterbank, die einen zweiten Kanal des rekonstruierten Mehrkanal-Audiosignals auf der Grundlage der dritten und vierten Spektralkomponentensignale erzeugt.
  20. Dekodierer nach Anspruch 18, wobei der Kombinationsstereodekodierer einen Intensitätsstereodekodierer umfasst, welcher das Intensitätsstereodekodieren des kodierten Signals ausführt.
DE69731677T 1996-03-22 1997-03-12 Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung Expired - Lifetime DE69731677T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US621762 1996-03-22
US08/621,762 US5812971A (en) 1996-03-22 1996-03-22 Enhanced joint stereo coding method using temporal envelope shaping

Publications (2)

Publication Number Publication Date
DE69731677D1 DE69731677D1 (de) 2004-12-30
DE69731677T2 true DE69731677T2 (de) 2005-12-15

Family

ID=24491531

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69731677T Expired - Lifetime DE69731677T2 (de) 1996-03-22 1997-03-12 Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung

Country Status (5)

Country Link
US (1) US5812971A (de)
EP (1) EP0797324B1 (de)
JP (1) JP3316159B2 (de)
CA (1) CA2197128C (de)
DE (1) DE69731677T2 (de)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
WO1998020488A2 (en) * 1996-11-07 1998-05-14 Philips Electronics N.V. Data processing of a bitstream signal
US5913191A (en) * 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
WO1999033194A1 (en) * 1997-12-19 1999-07-01 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. Method and apparatus for phase estimation in a transform coder for high quality audio
DE69711102T2 (de) * 1997-12-27 2002-11-07 St Microelectronics Asia Verfahren und gerät zur schätzung von koppelparametern in einem transformationskodierer für hochwertige tonsignale
SE519552C2 (sv) 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
TR200100825T1 (tr) * 1999-07-20 2001-07-23 Koninklijke Philips Electronics N.V. Bir stereo sinyali ve bir veri sinyali taşıyan bir kayıt taşıyıcısı
EP1087557A3 (de) * 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Vorrichtung für die Übertragung von digitalen Tondaten bzw. Empfangsvorrichtung für den Empfang dieser digitalen Tondaten
DE19947877C2 (de) * 1999-10-05 2001-09-13 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Einbringen von Informationen in einen Datenstrom sowie Verfahren und Vorrichtung zum Codieren eines Audiosignals
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
DE60132853D1 (de) * 2000-07-07 2008-04-03 Nokia Siemens Networks Oy Verfahren und Vorrichtung für die perzeptuelle Tonkodierung von einem mehrkanal Tonsignal mit Verwendung der kaskadierten diskreten Cosinustransformation oder der modifizierten diskreten Cosinustransformation
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
JP4618873B2 (ja) * 2000-11-24 2011-01-26 パナソニック株式会社 オーディオ信号符号化方法、オーディオ信号符号化装置、音楽配信方法、および、音楽配信システム
FR2821475B1 (fr) * 2001-02-23 2003-05-09 France Telecom Procede et dispositif de reconstruction spectrale de signaux a plusieurs voies, notamment de signaux stereophoniques
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US6934676B2 (en) * 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7002618B2 (en) * 2001-06-01 2006-02-21 Stereographics Corporation Plano-stereoscopic DVD movie
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US6751587B2 (en) * 2002-01-04 2004-06-15 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
KR101016251B1 (ko) * 2002-04-10 2011-02-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 스테레오 신호의 코딩
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
ES2268340T3 (es) * 2002-04-22 2007-03-16 Koninklijke Philips Electronics N.V. Representacion de audio parametrico de multiples canales.
EP1523862B1 (de) * 2002-07-12 2007-10-31 Koninklijke Philips Electronics N.V. Audio-kodierung
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
EP1734511B1 (de) 2002-09-04 2009-11-18 Microsoft Corporation Entropische Kodierung mittels Anpassung des Kodierungsmodus zwischen Niveau- und Lauflängenniveau-Modus
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
KR100501930B1 (ko) * 2002-11-29 2005-07-18 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
CN1765153A (zh) * 2003-03-24 2006-04-26 皇家飞利浦电子股份有限公司 表示多信道信号的主和副信号的编码
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7725324B2 (en) * 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
US7653255B2 (en) 2004-06-02 2010-01-26 Adobe Systems Incorporated Image region of interest encoding
JP4950040B2 (ja) * 2004-06-21 2012-06-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネルオーディオ信号を符号化及び復号する方法及び装置
PL2175671T3 (pl) 2004-07-14 2012-10-31 Koninl Philips Electronics Nv Sposób, urządzenie, urządzenie kodujące, urządzenie dekodujące i system audio
EP1769491B1 (de) * 2004-07-14 2009-09-30 Koninklijke Philips Electronics N.V. Tonkanalkonvertierung
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
AU2012205170B2 (en) * 2004-08-25 2015-05-14 Dolby Laboratories Licensing Corporation Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
ATE442644T1 (de) * 2004-08-26 2009-09-15 Panasonic Corp Mehrkanalige signal-dekodierung
US7895034B2 (en) * 2004-09-17 2011-02-22 Digital Rise Technology Co., Ltd. Audio encoding system
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
DE602005017302D1 (de) 2004-11-30 2009-12-03 Agere Systems Inc Synchronisierung von parametrischer raumtonkodierung mit extern bereitgestelltem downmix
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (de) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametrische kombinierte Kodierung von Audio-Quellen
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
WO2006091139A1 (en) * 2005-02-23 2006-08-31 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR100818268B1 (ko) 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
CN102163429B (zh) 2005-04-15 2013-04-10 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
US7693709B2 (en) * 2005-07-15 2010-04-06 Microsoft Corporation Reordering coefficients for waveform coding or decoding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US7599840B2 (en) 2005-07-15 2009-10-06 Microsoft Corporation Selectively using multiple entropy models in adaptive coding and decoding
US7933337B2 (en) * 2005-08-12 2011-04-26 Microsoft Corporation Prediction of transform coefficients for image compression
US7565018B2 (en) * 2005-08-12 2009-07-21 Microsoft Corporation Adaptive coding and decoding of wide-range coefficients
CN101427307B (zh) * 2005-09-27 2012-03-07 Lg电子株式会社 编码/解码多声道音频信号的方法和装置
WO2007037613A1 (en) * 2005-09-27 2007-04-05 Lg Electronics Inc. Method and apparatus for encoding/decoding multi-channel audio signal
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
KR100754937B1 (ko) * 2006-03-30 2007-09-03 인하대학교 산학협력단 Ofdm/fdd 시스템에서 적응전송을 지원하기 위한 다단계 채널예측장치 및 방법
WO2007116809A1 (ja) * 2006-03-31 2007-10-18 Matsushita Electric Industrial Co., Ltd. ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
KR100718416B1 (ko) 2006-06-28 2007-05-14 주식회사 대우일렉트로닉스 예측필터를 이용한 채널간 스테레오 오디오 코딩 방법
US7797155B2 (en) * 2006-07-26 2010-09-14 Ittiam Systems (P) Ltd. System and method for measurement of perceivable quantization noise in perceptual audio coders
CN101169934B (zh) * 2006-10-24 2011-05-11 华为技术有限公司 时域听觉阈值加权滤波器的构造方法和设备、编解码器
DE102006055737A1 (de) * 2006-11-25 2008-05-29 Deutsche Telekom Ag Verfahren zur skalierbaren Codierung von Stereo-Signalen
US8184710B2 (en) 2007-02-21 2012-05-22 Microsoft Corporation Adaptive truncation of transform coefficient data in a transform-based digital media codec
US8983830B2 (en) 2007-03-30 2015-03-17 Panasonic Intellectual Property Corporation Of America Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
WO2009057327A1 (ja) * 2007-10-31 2009-05-07 Panasonic Corporation 符号化装置および復号装置
US8352249B2 (en) 2007-11-01 2013-01-08 Panasonic Corporation Encoding device, decoding device, and method thereof
US8179974B2 (en) 2008-05-02 2012-05-15 Microsoft Corporation Multi-level representation of reordered transform coefficients
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
KR101546793B1 (ko) 2008-07-14 2015-08-28 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US8406307B2 (en) 2008-08-22 2013-03-26 Microsoft Corporation Entropy coding/decoding of hierarchically organized data
BR122019023947B1 (pt) 2009-03-17 2021-04-06 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
CN102428512A (zh) * 2009-06-02 2012-04-25 松下电器产业株式会社 下混装置、编码装置以及其方法
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP4120246A1 (de) * 2010-04-09 2023-01-18 Dolby International AB Stereocodierung unter verwendung eines vorhersagemodus oder eines nicht-vorhersagemodus
WO2012158705A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
US8401863B1 (en) * 2012-04-25 2013-03-19 Dolby Laboratories Licensing Corporation Audio encoding and decoding with conditional quantizers
EP3067886A1 (de) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierer zur codierung eines mehrkanalsignals und audiodecodierer zur decodierung eines codierten audiosignals
EP3483878A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiodecoder mit auswahlfunktion für unterschiedliche verlustmaskierungswerkzeuge
EP3483884A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signalfiltrierung
EP3483886A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Auswahl einer grundfrequenz
EP3483882A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Steuerung der bandbreite in codierern und/oder decodierern
EP3483880A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Zeitliche rauschformung
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analyse-/synthese-fensterfunktion für modulierte geläppte transformation
EP3483883A1 (de) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierung und -dekodierung mit selektiver nachfilterung
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE457402B (sv) * 1987-02-20 1988-12-19 Harald Brusewitz Foerfarande och anordning foer kodning och avkodning av bildinformation
US4875095A (en) * 1987-06-30 1989-10-17 Kokusai Denshin Denwa Kabushiki Kaisha Noise-shaping predictive coding system
US4943855A (en) * 1988-07-22 1990-07-24 At&T Bell Laboratories Progressive sub-band image coding system
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
ATE138238T1 (de) * 1991-01-08 1996-06-15 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale

Also Published As

Publication number Publication date
JPH1051313A (ja) 1998-02-20
EP0797324A3 (de) 2004-01-14
JP3316159B2 (ja) 2002-08-19
DE69731677D1 (de) 2004-12-30
EP0797324B1 (de) 2004-11-24
CA2197128C (en) 2000-04-11
US5812971A (en) 1998-09-22
EP0797324A2 (de) 1997-09-24
CA2197128A1 (en) 1997-09-23

Similar Documents

Publication Publication Date Title
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE602004002390T2 (de) Audiocodierung
EP1687809B1 (de) Vorrichtung und verfahren zur wiederherstellung eines multikanal-audiosignals und zum erzeugen eines parameterdatensatzes hierfür
EP1763870B1 (de) Erzeugung eines codierten multikanalsignals und decodierung eines codierten multikanalsignals
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
EP0750811B1 (de) Verfahren zum codieren mehrerer audiosignale
DE602004005846T2 (de) Audiosignalgenerierung
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
EP0667063B2 (de) Verfahren zur übertragung und/oder speicherung digitaler signale mehrerer kanäle
EP1495464B1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
EP2005421B1 (de) Vorrichtung und verfahren zum erzeugen eines umgebungssignals
DE102005014477A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
DE10328777A1 (de) Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
DE69932861T2 (de) Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE60300500T2 (de) Signalisierung von Fensterschaltungen in einem MPEG Layer 3 Audio Datenstrom

Legal Events

Date Code Title Description
8364 No opposition during term of opposition