DE69927505T2 - Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom - Google Patents

Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom Download PDF

Info

Publication number
DE69927505T2
DE69927505T2 DE69927505T DE69927505T DE69927505T2 DE 69927505 T2 DE69927505 T2 DE 69927505T2 DE 69927505 T DE69927505 T DE 69927505T DE 69927505 T DE69927505 T DE 69927505T DE 69927505 T2 DE69927505 T2 DE 69927505T2
Authority
DE
Germany
Prior art keywords
data
data stream
auxiliary
main
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69927505T
Other languages
English (en)
Other versions
DE69927505D1 (de
Inventor
Kevin Andrew Epsom MCPARLAND
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Broadcasting Corp
Original Assignee
British Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Broadcasting Corp filed Critical British Broadcasting Corp
Application granted granted Critical
Publication of DE69927505D1 publication Critical patent/DE69927505D1/de
Publication of DE69927505T2 publication Critical patent/DE69927505T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission

Description

  • Die vorliegende Erfindung bezieht sich auf das Einbetten von Daten oder Synchronisationssignalen in einen anderen Datenstrom. Die Erfindung beschäftigt sich speziell mit dem Einfügen von Informationen in einen Datenstrom welcher kodiert und insbesondere komprimiert worden ist oder dafür vorgesehen ist, ein spezielles Beispiel kommt von einem linearen digitalen Format wie zum Beispiel PCM (Pulscodemodulation) in einen MPEG (oder ähnlichen) Audio-Datenstrom. Details zur MPEG-Audio-Kodierung werden in den ISO/IEC-Standards IS 11172-3 und IS 13818-3 definiert.
  • WO-A-98/33284 beschreibt ein Verfahren zur Audiosignalverarbeitung, in welcher Zusatzdaten mit einem dekodierten Audiosignal kommuniziert werden, um bei anschließender Re-Kodierung des Audiosignals zu helfen. Es werden mehrere Verfahren zum Kommunizieren der Daten offenbart; der Erfinder fand jedoch, dass es Raum für Verbesserung der Verfahren gibt, welche in dieser Anmeldung offenbart werden.
  • Der Erfinder hat wahrgenommen, dass eine andere Anwendung, bei welcher es hilfreich wäre zusätzliche Daten mit einem Audio-Bitstrom mitzuführen bzw. zu übertragen, darin liegt, Rahmengrenzen bzw. Frame-Grenzen und Synchronisierung mit einem vorher kodierten Signal zu erstellen. Insbesondere offenbart WO-A-99/04572 ein Verfahren zur Neukodierung eines vorher kodierten Signals, bei welchem das Signal analysiert wird, um vorhergehende Kodierungscharakteristika zu erkennen. Der Erfinder hat wahrgenommen, dass, wenn irgendeine Art von Synchronisierungsinformationen in dem Signal eingebettet sind, die Analyse vereinfacht werden könnte.
  • Es gab Diskussion über das Miführen bzw. Übertragen von zusätzlichen Daten in einem Audiosignal, zum Beispiel um Rundum-Klangkulissen-Informationen bzw. Surround-Sound-Information, durch Einfügen von Daten, um nahezu nicht wahrnehmbar zu sein; Vorschläge dieser Art beziehen jedoch gewöhnlich komplexe firmeneigene bzw. geschützte Signalerarbeitung ein, und sind nicht dazu bestimmt, weitere Kodierungen des Signals unterzubringen.
  • EP-A-0 372 601 offenbart ein Verfahren zum Einfügen von Informationen, wie zum Beispiel ein Kopierschutz-Signal, welches auf psychoakustischer Modellierung basiert. Es wird das Teilband-Signal, das die Information beinhaltet, aufgezeichnet. US 5,687,191 offenbart eine versteckte Post-Kompressions-Datenübertragung, bei welcher Zusatzdaten-Teilband-Abtastwerte in einem komprimierten Audiosignal übertragen werden, ohne die Daten zu dekomprimieren.
  • Die Erfindung zielt darauf ab, ein Verfahren zur Datenkommunikation oder Synchronisationsinformation zusammen mit einem Hauptdatensignal anzubieten, ohne die Übertragung des Hauptdatensignals übermäßig bzw. unzulässig zu beeinflussen.
  • In einem umfassenden Überblick sieht die Erfindung Verfahren und Apparate zum Einfügen von digitalen Zusatzdaten in einen Hauptdatenstrom vor, welche anschließend zu kodieren sind, um einen kodierten Datenstrom zu erzeugen (oder welche aus einem kodierten Datenstrom dekodiert worden ist), welches bzw. welcher das Identifizieren von mindestens einer Komponente des Hauptdatenstroms umfasst, welche keinen wesentlichen Beitrag zu dem kodierten Datenstrom liefern (oder welche nicht in dem kodierten Datenstrom vorhanden waren), und Daten von dem Zusatzdatenstrom in die oder jede Komponente einzufügen.
  • Aspekte der Erfindung sind in den unabhängigen Ansprüchen niedergelegt.
  • Auf diese Art und Weise bleibt der schließlich kodierte Datenstrom durch das Einfügen der Zusatzdaten im Wesentlichen unbeeinflusst, sodass es keine Gesamtverschlechterung oder Verzerrung gibt, die durch die zusätzlichen Daten eingeführt wird. Jedoch werden die Zusatzdaten mit dem Hauptdatensignal „umsonst" übertragen bis es den Kodierer erreicht. Obwohl die Erfindung normalerweise in Verbindung mit Daten eingesetzt wird, welche anschließend zu kodieren sind (wobei die Zusatzdaten in diesem Fall zur oder um die Zeit des Kodierens entfernt werden können), wobei die Erfindung mit Daten eingesetzt werden kann, welche vorher kodiert worden sind, aber es ist nicht unbedingt erforderlich ist, weiter kodiert zu werden; dies bietet noch den Vorteil, dass die Übertragung von Zusatzinformationen die Daten nicht weiter verschlechtern kann, da durch die Zusatzdaten keine „realen" Informationen überschrieben werden.
  • Ein weiterer potenzieller Vorteil ist der, dass, da das Einfügen von Daten auf den Prinzipien basiert, welche beim Kodieren angewendet werden, Komponenten von dem Dateneinfügungs-Apparat und einem Kodierer oder Dekodierer gemeinsam genutzt werden können, insbesondere wenn sie als eine Einheit zusammengefasst sind, welche lieber eine Dateneinfügungs-Funktion und eine Kodierungs- oder Dekodierungsfunktion beinhaltet, als ein maßgeschneidertes Design anzufordern. Die Zusatzdaten können mit dem kodierten Datenstrom weiter übertragen werden, aber nicht länger eingebettet in dem Hauptdatenstrom. Zum Beispiel kann es im Fall von Audiosignalen das kodierte Datenformat erlauben, die Zusatzdaten direkt als Daten zusätzlich zu den kodierten Audiosignalen zu übertragen. Die Zusatzdaten werden vorzugsweise dazu verwendet, um beim Auswählen der Kodierungsentscheidungen zu helfen, oder bei der Synchronisierung des Kodierers mit einem vorhergehenden Kodierer. Das Hauptdatensignal ist vorzugsweise ein Audiosignal, kann aber auch ein Video- oder anderes Signal sein.
  • Während sich die Erfindung vornehmlich mit dem Hinzufügen von Informationen zu einem digitalen Hauptdatensignal beschäftigt, sollte man verstehen, dass dieses Signal in andere Formen umgewandelt werden kann; zum Beispiel kann ein lineares, digitales PCM (Pulscodemodulations)-Signal, welches eingebettete digitale Daten oder ein Synchronisierungssignal überträgt, in eine analoge Form und wieder zurück umgewandelt werden, und, vorausgesetzt die Umwandlung ist genau, können die Daten wiederhergestellt werden, oder es kann zumindest das Synchronisationssignal identifiziert werden.
  • Das Verfahren kann weiter das Extrahieren der Zusatzdaten und das Kodieren der Hauptdaten beinhalten. Mindestens ein Kodierungsparameter oder eine Entscheidung basiert vorzugsweise auf den Zusatzdaten.
  • Das vorzugsweise Kodieren beinhaltet das Quantisieren der Wörter entsprechend des digitalen Hauptdatenstroms, oder, noch wünschenswerter, entsprechend eines transformierten Datenstroms zu einer Vielzahl von Ebenen, aber weniger als die Anzahl von Niveaus, welche durch die Wörter kodierbar sind.
  • Die Komponenten des Hauptdatenstroms können mit bedeutend weniger Bits von kodierten Datenwörtern korrespondieren, welche durch das Kodieren auf eine vorher festgelegte Anzahl von Niveaus zu quantisieren ist, wobei die Anzahl der Niveaus kleiner ist als die Anzahl von Niveaus, welche durch die Wörter kodierbar ist. Zum Beispiel können, wenn ein n-bit Wort durch Kodierung zu 2^m Ebenen quantisiert wird, wobei m < n ist, n-m Bits verfügbar sein, um Zusatzdaten zu übertragen.
  • Die Veränderung im Datenstrom, welche zum Beispiel durch das Einfügen von Zusatzdaten herbeigeführt wird, ist im Wesentlichen nicht wahrnehmbar, zum Beispiel unter (oder auf) dem hörbaren Störpegel, für den Fall von Audiodaten, oder haben im Falle eines Videosignals keinen wesentlichen Effekt auf die Bildqualität.
  • Das Einfügen der Zusatzdaten kann ebenfalls das Einfügen der Daten in nicht genutzte Sub-Bänder eines umgewandelten Datensatzes umfassen.
  • In einer bevorzugten Anwendung umfassen die Hauptdaten Audiodaten, welche gemäß eines MPEG-Typ-Audiokodierungsschemas zu kodieren sind (bei welchem jedes ähnliche Kodierschema gemeint ist, welches auf den Grundsätzen der Quantisierung einer Vielzahl von Teilbändern, oder anderen Komponenten basiert in welche das Signal analysiert wird), und die Identifikation wenigstens einer Komponente umfasst das Identifizieren von Unterbändern, die unbesetzt sind, und die Identifikation von Quantisierungsebenen, wobei die Zusatzdaten in unbesetzte Bänder, oder auf einer Ebene unterhalb des Quantisierungs-Stör-Untergrunds eingefügt werden.
  • Es wird deshalb ebenfalls ein Verfahren beschrieben, um Zusatzdaten in einen Audio-Datenstrom einzufügen, welcher zu kodieren ist, und zwar durch Analysieren der Audiodaten in einer Vielzahl von Teilbändern und durch Quantisieren der Teilbänder, wobei das Verfahren die Berechnung der Teilbänder und der Quantisierungsniveaus für ein anschließendes oder vorausgegangenes Kodieren und das Einfügen der Zusatzdaten in eine Ebene unterhalb der Ebene des berechneten Stör-Untergrunds umfasst.
  • Das Schätzen von Teilbändern und Quantisierungsniveaus bzw. -ebenen kann das Umwandeln der (Audio-) Daten von der Zeitdomäne (oder einer unkodierten Domäne) zu der Frequenzdomäne (oder einer kodierten Domäne) beinhalten, oder andernfalls das Analysieren der Daten in eine Vielzahl von Teilbändern, zum Beispiel die Verwendung einer Fourier- oder einer ähnlichen Analyse. Daten können in die Frequenzdomäne eingefügt werden, und die modifizierten Frequenz-Domäne-Daten können zurück in die Zeitdomäne transformiert werden.
  • Ein besonderer Vorteil ergibt sich, wenn die berechneten Teilbänder oder Quantisierungsniveaus bzw. -ebenen direkt den Teilbändern oder Quantisierungsparametern entsprechen, welche beim Kodieren der Daten verwendet wurden oder verwendet werden; es gibt keinen wesentlichen Effekt auf das kodierte Signal, da die Komponente(n) des Hauptdatensignals, welche verwendet werden, um die Zusatzdaten zu übertragen, sonst durch den Kodierungsprozess verloren gehen würden.
  • Die zu übertragenden Daten können eine definierte Synchronisationssequenz umfassen; dies kann das Ermitteln von Rahmengrenzen und ähnlichem ermöglichen bzw. erleichtern, und kann eingesetzt werden, um die Auskopplung bzw. Ausblendung von anderen Daten zu ermöglichen bzw. zu erleichtern, oder um eine Verschlechterung zwischen hintereinander geschalteten Kodierungs- und Dekodierungsoperationen zu minimieren.
  • Die Zusatzdaten oder Synchronisationssignale können ebenfalls in ein oberes Teilband der Hauptdaten eingefügt werden.
  • Es wird ebenfalls ein Verfahren beschrieben, um eine Synchronisationssequenz mit einem digitalen Hauptdatensignal, vorzugsweise einem Audiosignal, zum Beispiel ein lineares PCM-Audiosignal, zu übertragen, welches das Einfügen einer definierten Sequenz von Synchronisationswörtern in eine Komponente des Hauptdatensignals, bevorzugt ein nicht genutztes Teilband, umfasst, um die Identifizierung von oder die Synchronisation mit einer vorangegangenen Signalcodierung zu erleichtern bzw. zu ermöglichen.
  • Es wird weiter ein Verfahren beschrieben, um eine Rahmengrenze zu detektieren oder um eine Synchronisation mit einem Datensignal herzustellen, welches durch das obige Verfahren erzeugt wurde, welches die Suche nach einer Sequenz von Synchronisationswörtern in der Komponente des Datensignals, und das Vergleichen wenigstens eines gefundenen Wertes, oder eines abgeleiteten Wertes mit einer Sequenz von gespeicherten Werten umfasst.
  • Das Verfahren der Erfindung sieht ein digitales Datensignal vor, vorzugsweise einen linearen PCM-Audio-Bitstrom, welcher ein Audiosignal und mindestens eine der Synchronisationssequenzen, oder ein Zusatzdatensignal, welches in einem anderweitig, nicht genutzten Teilband oder in Teilbändern unterhalb eines MPEG-Quantisierungs-Stör-Untergrunds eingebettet ist, umfasst.
  • Die Erfindung erstreckt sich auf Apparate zum Einfügen von Zusatzdaten in einen Datenstrom und auf Datenströme, welche durch das obige Verfahren kodiert werden.
  • Ausführungsformen der Erfindung werden nun beispielhaft beschrieben, mit Bezug auf die beigefügten Zeichnungen, für welche gilt:
  • 1 zeigt schematische, hintereinander geschaltete MPEG-typ Kodierungs- und Dekodierungs-Umwandlungen;
  • 2 zeigt Bit-Zuordnung für ein typisches Signal;
  • 3 zeigt Skalenwerte und den niedrigsten Level, der für das Signal aus 2 kodiert werden kann.
  • 4 zeigt Leerstellen, welche als verfügbar für Datenübertragung gemäß der Erfindung festgestellt wurden;
  • 5 ist eine Abbildung des Effektes einer 32-Sample Ausrichtung auf einer ID-Sequenz;
  • 6 zeigt ein beispielhaftes Synchronisationssignal;
  • 7 zeigt das Einfügen und Ausblenden des Synchronisationssignals.
  • Eine bevorzugte Anwendung der Erfindung bezieht das Übertragen von Zusatzdaten mit einem Audiosignal ein, welche gemäß der MPEG-Kodierung zu kodieren sind. Es werden die elementaren Prinzipien beschrieben, um das Verständnis der Erfindung zu unterstützen.
  • Datenübertragung mit MPEG-Audiosignalen-Elementare Prinzipien
  • MPEG-Audiosignale setzen die Idee der psychoakustischen Maskierung ein, um die Menge an zu übertragenden Informationen zu reduzieren, um ein Audiosignal darzustellen. Die reduzierten Informationen werden als ein Bitstrom dargestellt. Psychoakustische Maskierung wird gewöhnlich auf einer Frequenzdarstellung eines Audiosignals berechnet. Bei MPEG-Audiosignalen wird eine Filterbank eingesetzt, um das Audiosignal in 32 Teilbänder aufzuteilen, von denen jedes einen Teil des Spektrums des Signals darstellt.
  • Der Encoder bzw. Kodierer verwendet ein psychoakustisches Modell um die Anzahl der Bits zu berechnen, die benötigt werden, um jedes dieser Teilbänder so zu kodieren, sodass die eingefügten Quantisierungsgeräusche nicht hörbar sind. Daher werden in jedem Teilband nur die maßgeblichen Bits übertragen.
  • In diesem Ausführungsbeispiel ist das Ziel, Daten mit Audiosignalen in einem linearen PCM-Format mitzuführen (obwohl andere digitale Formate eingesetzt werden können). Die Daten sollten unhörbar übertragen werden und die Eigenschaft besitzen, vollständig wieder herstellbar zu sein. Wir haben herausgefunden, dass es möglich ist, abhängig von der Bitrate, welche für die MPEG-Kodierung verwendet wird, und der Art des Signals, zwischen 50 und 400 kbits/sec von Daten unter einem Stereo-Audiosignal zu übertragen.
  • Allgemeine Anwendungen von Datenübertragung, welche mit der Ausführungsform möglich sind, beinhalten das Übertragen von zugeordneten Daten mit dem Audiosignal, wie zum Beispiel Text (z.B. Lyrik). Zusätzlich ergibt sich ein spezieller Einsatz der Erfindung, welcher unten detaillierter beschrieben wird, wenn das Signal bereits im MPEG-Format kodiert ist oder kodiert worden ist, aber in einer linearen Form befördert werden muss; hierbei können die zusätzlichen Daten Details über den Kodierungsprozess oder Synchronisationsinformationen beinhalten, um eine anschließenden Neukodierung zu unterstützen, oder Bilder welche mit dem Audiosignal verbunden sind.
  • Die Filterbanken im MPEG-Audiosignal weisen die Eigenschaft einer (fast) perfekten Rekonstruktion auf. Ein Diagramm eines Decoders zu einem Encoder ist in 1 gezeigt. Wenn die Filterbanken korrekt ausgerichtet sind, werden die Teilbänder im Encoder praktisch identisch mit solchen, welche im Decoder erzeugt werden.
  • Wenn ein Encoder das Signal kodiert, versucht er, genügend Bits für jedes Teilband zu reservieren, sodass das resultierende Signal nicht hörbar anders als das Original ist.
  • Auswahl von Komponenten zur Datenübertragung
  • Angesichts dieser zwei Eigenschaften haben wir wahrgenommen, dass Daten in Teilbänder unterhalb des signifikanten Audiosignals eingefügt werden können, sodass die eingefügten Daten unhörbar sind (oder wenigstens keine Beeinträchtigungen über die der MPEG-Kodierung hinaus eingeführt werden).
  • 2 zeigt das gemessene Niveau des Audio bzw. Audiosignals in jedem Teilband, welche als „Skalenfaktoren" bzw. „Skalenwerte" in dem MPEG-Audiosignal-Datenstrom kodiert sind. Sie zeigt ebenfalls die Bit-Zuweisung, welche durch einen Encoder gewählt wurde. Diese ist als die Anzahl von Quantisierungsniveaus für ein bestimmtes Teilband spezifiziert. In dem Diagramm wird die Bit-Zuweisung als Rauschabstand in dB Termen dargestellt, um eine Darstellung auf derselben Achse möglich zu machen. Für diesen Zweck ist jedes Bit, welches benötigt wird, um die Anzahl der Quantisierungsniveaus darzustellen, ungefähr äquivalent zu einem „Niveau" von 6 dB.
  • Wenn wir stattdessen die Skalenwerte und das niedrigste Niveau zeigen, welches mit der Bit-Zuweisung von 2 kodiert werden kann, erhalten wir die Kurve in 3.
  • Man kann sehen, dass die Niveaus unterhalb des untersten Niveaus unbenutzt sind. Da das MPEG-Modell erkannt hat, dass es unter diesen untersten Niveaus keine hörbaren Informationen gibt, steht es uns frei, diese für Daten zu verwenden.
  • Angesichts der Randbedingung, dass wir nicht störend auf die Audiosignale einwirken, werden Niveaus in der Nähe des untersten Niveaus nicht benutzt. Dies soll ebenfalls bedeuten, dass keine Begrenzungsprobleme eingeführt werden. Ebenfalls angesichts dessen, dass das Signal wahrscheinlich zu übertragen ist, oder über ein lineares Medium mit begrenzter Auflösung (z.B. 16 Bits) gespeichert wird, zwingt dies eine Randbedingung dem untersten Niveau, welches wir senden können, auf. Aufgrund von Ungenauigkeiten bei der Rekonstruktion wegen des Abbruchs bzw. der Trunkierung auf PCM (Pulscodemodulation), und Grenzen bei der Genauigkeit der Filterbankberechnung, ist es unklug, die Niveaus zu verwenden, die am dichtesten an der PCM-Quantisierungsgrenze liegen (z.B. das 16. Bit). Im Falle von Teilbändern, bei denen keine Informationen zu senden sind, sind zwei Strategien abrufbar.
  • Wenn wir einen MPEG-Datenstrom decodieren um Daten einzufügen, würden wir das Niveau des Teilbandes nicht kennen, daher sollten wir, um sicher zu sein, keine Daten in dieses Teilband senden. Wenn wir andererseits einen Encoder rein für die Datenerzeugung verwenden, könnten wir die Niveaus genau unter dem vollen Niveau in diesem Teilbandes verwenden. Ein Diagramm, welches den Bereich zeigt, in welchem die Daten für den letzten Fall eingefügt werden könnten, ist in 4 gezeigt.
  • Für den Fall, dass Teilbänder ein Audiosignal enthalten, wird sich das Niveau der Daten unterhalb der bedeutendsten Niveaus befinden. Daten könnten ebenfalls in andere Teilbänder eingefügt werden, unterhalb des Niveaus der Hörbarkeit, oder oberhalb des normalen Hörbereiches (z.B. in den Teilbändern, welche beim MPEG-Kodieren nicht verwendet werden).
  • Praktische Implementierungsdetails
  • Für eine praktische Implementierung müssen verschiedene Fragen bzw. Probleme behandelt werden, insbesondere wie die Daten eingefügt werden und wie die Daten wiederhergestellt werden. Daten könnten eingefügt werden, wenn ein MPEG-Audiosignal-Datenstrom decodiert wird, oder die Funktionen eines Encoders und Decoders könnten kombiniert werden könnten, um das Signal zu filtern, es zu analysieren, das Audiosignal entsprechend zu quantisieren, die Daten einzufügen, dann das Signal zurück zur PCM-Domäne umzuwandeln.
  • Dateneinfügung
  • Ein vorgeschlagenes Verfahren zur Dateneinfügung ist, zuerst die Anzahl verfügbarer Bits zu berechnen, und dann die Teilbandwerte mit den Daten zu maskieren bevor sie der Synthese-Filterbank zugeführt werden. Ein 16-Bit-System wird angenommen, aber die Berechnungen sind für eine größere Anzahl von Bits ähnlich. Das unten beschriebene Schema ist einfach und sicher.
  • Berechnung der verfügbaren Bits
  • Nimm den maximalen Skalenwert für ein Subband zur Darstellung eines Maximalwertsignals, welches in einem 16-Bit PCM-System befördert werden kann. Dann berücksichtige, dass sich ungefähr 96 dB darunter der Quantisierungsboden bzw. -untergrund des 16-Bit PCM-Systems befindet. Skalenwerte werden in 2 dB-Schritten definiert. Ist der Skalenwert für ein gegebenes Teilband einmal berechnet, ermittle die Differenz zwischen diesem und dem Störpegel-Untergund in dB (den Bereich, R). Das MPEG-psychoakustische Modell wird die Bit- Zuweisung ergeben. Setze die Bit-Zuweisung für das Teilband in eine Rauschabstandszahl in dB (Q) um. Berechne auf diese Weise den Bereich in dB, welcher für die Daten (D) vom Quantisierungsboden bzw. -untergrund zu dem untersten, dargestellten Niveau verfügbar ist. D = R – Q
  • Ziehe dann die Sicherheitsfaktoren von 1-bit nahe dem Signal und einem anderen Bit nahe dem Störpegel ab, man erinnere sich, dass 1-Bit ungefähr äquivalent zu 6 dB Rauschen ist. D = D – 12
  • Reserviere als nächstes eine Anzahl von Datenbits (N) pro Teilband durch Herausfinden der Integer-Zahl von Bits, welche in D dargestellt werden können, durch Vornehmen einer Integer-Division mit D. N = int(D/6)
  • Dieser Wert gilt für ein bestimmtes Teilband und Skalenwert. Im MPEG Layer 2 gibt es bis zu 3 verschiedene Skalenwerte pro Rahmengrenze, sodass jede ihre eigene Anzahl von Bits haben könnte, oder das Minimum aus allen 3 Skalenwerten genommen werden könnte.
  • Maskierung der Daten auf den Teilband-Werten
  • Aus dem oben beschriebenen Verfahren wird die Anzahl der verfügbaren Bits (N) verwendet, um eine Maske (M) zu erzeugen. M = Oxffff << (N + 1) für ein 16-Bit System.
  • Der Teilbandwert wird dann in eine 16-Bit Ganzzahl umgewandelt welche mit diesem Wert maskiert wird, und den Daten, welche auf die N am wenigsten bedeutenden Bits (ausschließlich natürlich des letzten Bits) eingefügt werden, um einen Abtastwert S als Resultat zu haben. Um die möglichst genaue Darstellung des Signals sicher zu stellen, wird ein Rundungswert zu S addiert, +0,5, wenn das Signal positiv ist, und –0,5, wenn es negativ ist. Dies hat eine fast perfekte Rekonstruktion im Analyse-Filter als Resultat und die Daten werden perfekt wiederhergestellt.
  • Ein einfaches Verfahren zum Einfügen der Daten ist, die Daten als einen Bitstrom zu behandeln und so viele Bits in jedes Teilband einzufügen wie möglich. Um jedoch Synchronisation anzuzeigen wäre es hilfreich, eine Sequenz in zwei (zeitlich) aufeinander folgende Werte von Teilband-Werten zu geben, sodass der gesamte Rahmen identifiziert werden kann.
  • Daten-Ausblendung
  • Um die Daten aus dem Signal auszublenden ist eine Ausrichtung der Filterbänke erforderlich, und ein Verfahren zur Beschreibung, wo sich die Daten befinden (die Bit-Zuweisung) und wie sie organisiert ist. Diese Punkte werden unten angesprochen.
  • Synchronisation
  • Um die Daten auszublenden ist Synchronisation mit dem 32-Sample und der Rahmenstruktur des Audiosignals erforderlich. Ein getrenntes Synchronisationssignal könnte gesendet werden, oder dieses Signal könnte in den gesendeten Daten enthalten sein. Eine andere Möglichkeit ist, die 32-Sample Grenze abzuleiten, und dann ein Synchronisationswort innerhalb der Daten zu verwenden, um die Rahmengrenze zu identifizieren. Dieser Aspekt wird unten weiter diskutiert.
  • Bit-Zuweisung
  • Um die Daten auszublenden muss die Position der Daten innerhalb der Teilbänder bekannt sein. Es gibt mehrere Optionen, wie diese Informationen befördert werden:
    Die Bit-Zuweisung könnte implizit sein, indem im Empfänger der Daten dasselbe psychoakustische Modell vorgesehen ist, wie im Sender.
  • Die Bit-Zuweisung könnte getrennt angezeigt werden, z.B. in einem oberen, unbenutzten Teilband, in den Anwender-Bits eines AES/EBU-Bitstroms, oder durch eine andere Technik, welche auf das oben beschriebene System nicht störend einwirkt.
  • Die Bit-Zuweisung kann innerhalb des Raumes für Daten enthalten sein, mit vorgesehenen Mechanismen, um den Platz der Bit-Zuweisung anzuzeigen.
  • Die letzte Option wird unten diskutiert.
  • Datenorganisation
  • Wenn die Bit-Zuordnung bekannt ist, können die Daten in einer wie auch immer gearteten Form, welche für diese bestimmten Daten geeignet ist, übertragen werden. Es ist sowohl eine Prüfsumme, als auch ein Synchronisationswort empfehlenswert, um den Beginn des Rahmens und/oder der Daten zu definieren. Wenn die Bit-Zuweisung innerhalb der Daten mitgeführt wird, dann muss die dynamische Natur der Bit-Zuordnung mit berücksichtigt werden.
  • Eine beispielhafte Anordnung für MPEG-Layer 2-Audiosignale, welche nur 1 Bit-Zuordnung pro Rahmen verwendet (d.h., dass die 3 möglichen, unterschiedlichen Skalenwerte nicht berücksichtigt werden), wird diskutiert werden.
  • Es wird ein Synchronisations-Wort benötigt, um zu zeigen, wo der Rahmen beginnt. Danach müssen die Bit-Zuordnungen durch die Bit-Zuordnungen für jedes Teilband erfolgen, wünschenswerterweise mit einer Prüfsumme, und dann gefolgt von den eigentlichen Daten, wiederum wünschenswerterweise mit einer Prüfsumme. Dem Synchronisations-Wort sollte ein Zeiger zu dem Platz folgen, an welchem die Bit-Zuordnung enthalten ist. Aufgrund der dynamischen Natur der Bit-Zuordnung würde die Folgende Art und Weise der Organisation geeignet sein, bei der die Informationen vorzugsweise in einer notierten bzw. gelisteten Reihenfolge erscheinen (Details können sich ändern):
  • Synchronisations-Wort
  • Dieses sollte idealerweise im untersten Teilband mit verfügbarem Platz platziert werden, gewöhnlich das erste Teilband. Die Sequenz kann jeweils mit 1 Bit zu einer Zeit in (zeitlich) aufeinander folgende Teilbandwerte platziert werden und zwar in dem niedrigsten Bit, das zur Datenübertragung verfügbar ist. Der Datenempfänger muss möglicherweise nach diesem Wort suchen, wenn das Sync-Wort nicht im ersten Teilband platziert wird. Es gibt ein Minimum von 36 verfügbaren Bits, welche in einem Teilband pro Rahmen verfügbar sind, und zum Beispiel können 18 Bits für das Sync-Wort verwendet werden.
  • Zeiger zur Bit-Zuweisung
  • Dieser sollte auf Teilbänder zeigen, welche Datenraum verfügbar haben, um die Bit-Zuweisung zu speichern. Angenommen, wir verwenden 4 Bits pro Teilband, um die Bit-Zuweisung für das Teilband zu beschreiben, mit 32 Teilbändern benötigen wir insgesamt 128 Bits. Daher, angesichts dessen, dass wir mehrere von 36 Bits pro Teilband und Rahmen verfügbar haben, müssen wir in der Lage sein auf Bereiche zu zeigen, welche 4 mal 36 Bits enthalten. Angesichts dessen, dass in dem Synchronisations-Teilband 18 Bits verfügbar sind, besteht eine Möglichkeit darin, einen 4-Bit-Zeiger zu einem Teilband zu verwenden, und eine 2-Bit Zählung der Anzahl der verfügbaren Bits. Der 4-Bit Zeiger kann einen Offset aufwärts zum nächsten Teilband anzeigen (mit dem Bereich 1 bis 16). Die 2-Bit Zählung kann von 1 bis 4 Bits gehen, da 4 die maximale Zahl ist, die wir benötigen. Wir könnten dann drei dieser Zeiger in dem ersten Teilband haben. Ein Ausnahmefall könnte definiert werden, wenn nur Teilbänder mit 1 Bit verfügbar haben.
  • Bit-Zuweisung
  • Diese sollte 32 mal 4-Bits enthalten, um die Anzahl von verfügbaren Bits pro Teilband anzuzeigen. Es sollte idealerweise eine nachfolgende 16-Bit Prüfsumme aufweisen, um sicher zu stellen, dass die Daten korrekt sind, was eine Gesamtsumme von 144 Bits ergibt.
  • Die Daten können dann den obigen Kopfzeilen-Informationen folgen.
  • Das obige Schema weist einen Zusatz von 180 Bits pro Rahmen auf, welcher ungefähr 6900 Bits pro Sekunde pro Audiosignal-Kanal bei 44,1 kHz aufweist.
  • Die oben beschriebene Implementierung ist geeignet, um alle möglichen gewünschten Daten zu übertragen, zum Beispiel Lyrik, Grafiken, oder andere zusätzlichen Informationen. Eine andere Möglichkeit ist, insbesondere da, wo die Daten vorher kodiert worden sind, um Informationen auf vorher kodierten Entscheidungen zu übertragen, zum Beispiel, um Beeinträchtigungen in der Signalqualität zu reduzieren, welche durch hintereinander geschaltetes Dekodieren und Neukodieren verursacht werden, oder um das nachfolgende Kodieren zu vereinfachen.
  • Eine weitere Möglichkeit besteht darin, ein Synchronisationssignal oder Datenwort (zusätzlich zu weiteren Daten oder alleine) entweder beim Herstellen einer Synchronisation (wie oben erwähnt) zu unterstützen, oder das Neukodieren eines vorher kodierten Signals durch Ableiten vorangegangener Kodierungsentscheidungen zu erleichtern. Eine Anordnung zum Übertragen eines Synchronisationssignales wird nun beschrieben.
  • Übertragung eines Synchronisationssignales
  • Die Technik, welche unten beschrieben wird, ermöglicht das Ableiten von Synchronisation aus den Charakteristika des Signals selbst, eher als hinzugefügte Daten. Sie ist ebenfalls in der Lage, einen Niveauwechsel zu überstehen. Um das Verständnis zu erleichtern, werden die elementaren Prinzipien von MPEG-Audiosignalen, welche oben diskutiert wurden, nochmals mit Bezug auf diese spezielle Ausführung zusammengefasst.
  • Synchronisation mit Audiosignalen vom MPEG-Typ – Elementare Prinzipien
  • MPEG-Audiosignale verwenden einen Filter, um das Audiosignal in unterschiedliche Teilbänder aufzuteilen. Die PCM-Eingabe-Abtastwerte werden durch einen Analyse-Filter in entsprechende Teilband-Abtastwerte umgewandelt. Diese Abtastwerte werden dann durch einen Synthese-Filter zurück in PCM-Abtastwerte umgewandelt. Es gibt in diesem Prozess eine inhärente Verzögerung, abhängig von der Auslegung der Filterbanken.
  • Für alle 32 eingegebenen PCM-Abtastwerte erzeugt der Analyse-Filter 32 Werte, einen für jedes Teilband. Diese Gruppe von Teilbändern ist als ein „Teilband-Abtastwert" bekannt. Bei MPEG-Audiosignalen werden eine feste Anzahl von PCM-Abtastwerten, ein Rahmen, zusammen gruppiert, um das Kodieren effizienter zu machen. MPEG Layer 2 zum Beispiel verwendet eine Rahmenlänge von 1152 PCM-Abtastwerten, was äquivalent ist zu 36 Teilband-Abtastwerten ist. Informationen werden dann in dem MPEG-Bitstrom über den gesamten Rahmen übertragen, z.B. die Anzahl der Bits pro Teilband und sowohl das Niveau von jedem Subband sowie die quantisierten Teilband-Werte.
  • Die Art der Filterbank ist derart, dass, wenn ein vorher kodiertes Signal neu kodiert wird, die Original-Teilband-Abtastwerte nur dann wiederhergestellt werden, wenn sich die PCM-Abtastwerte, welche in die Analyse-Filterbank gehen, mit denselben 32-Abtastwert-Grenzen abgleichen, die in der ursprünglichen Kodierung verwendet wurden. Wenn die Filterbank 32-Abtastwert-Grenzen nicht angepasst sind, werden zusätzliche Störgeräusche in den Teilbändern auftreten.
  • Um das Audiosignal nochmals optimal zu kodieren, wäre es hilfreich zu wissen, wo die 32-Abtastwert-Grenze liegt, um das Einfügen von zusätzlichen Störgeräuschen zu vermeiden. Es wäre ebenfalls hilfreich zu wissen, wo die Rahmengrenze liegt, sodass Berechnungen der entsprechenden Bit-Zuweisungen exakt auf demselben Signal basieren. Theoretisch könnte dies zu transparentem Neu-Kodieren führen.
  • Bei dieser Anwendung der Erfindung ist es das Ziel, eine spezielle Identifizierungssequenz in ein Teilband in einem Decoder einzufügen, welches dann in das lineare PCM-Ausgangssignal eingebettet wird. Ein nachfolgender Encoder kann diese Information verwenden, um die 32-Abtastwert-Grenzen in der Original-Kodierung abzuleiten, und/oder die Rahmengrenze abzuleiten, auf der die ursprüngliche Kodierung basierte.
  • Ein Vorteil der Technik, welche nun beschrieben wird ist, dass Ableitung aus Ausführung einer Filterbank auf das Audiosignal direkt ist. Durch Einfügen dieser Identifizierungssequenz in ein oberes Teilband, wird das Signal unhörbar und kontinuierlich vorhanden. Es könnte alternativ in ein unteres Teilband eingefügt werden, für sich allein, als ein Identifizierungssignal, oder getragen unterhalb des Audiosignals. Ein geeignetes Identifizierungssignal könnte immer noch nach einem Niveauwechsel dekodiert werden.
  • Identifizierungs-Sequenzen einfügen
  • Durch Einfügen einer passenden Identifizierungs-Sequenz in ein Teilband werden die ursprünglichen Werte dieser Sequenz nur dann exakt wiederhergestellt, wenn die ursprünglichen 32-Abtastwert-Grenzen des Ausgangs-Analyse-Filters in der aktuellen Analyse-Filterbank übereinstimmen. Daher wird, wenn das PCM-Audiosignal durch etwas anderes als 32 Abtastwerte versetzt ist, eine andere eindeutige Sequenz erzeugt. Aus dieser können die ursprünglichen 32-Abtastwert-Grenzen ermittelt werden. Wenn die Sequenz über die Länge eines Rahmens eindeutig ist (z.B. 1152 PCM-Abtastwerte für Layer 2, äquivalent zu 36 aufeinander folgenden Werten in einem bestimmten Teilband), kann die Rahmenposition einfach abgeleitet werden. Eine veranschaulichende Sequenz wird in 5 gezeigt.
  • Wenn auf das PCM-Audiosignal eine Änderung der Verstärkung angewendet wird, werden nur die betreffenden bzw. relativen Niveaus der Identifizierungs-Sequenz verändert. Somit könnten immer noch dieselben Informationen abgeleitet werden, abhängig von dem eingefügten Niveau der Identifizierungs-Sequenz. Bei sorgfältiger Wahl einer geeigneten Identifizierungs-Sequenz, kann die Rahmenposition mit nur einer Teilmenge ihrer 36 Abtastwerte berechnet werden. Die Sequenz umfasst vorzugsweise mindesten 4 Wörter.
  • Beispielhafte Identifizierungs-Sequenz
  • Eine beispielhafte Synchronisations-Sequenz, in 6 gezeigt, besteht aus einer Sinuswelle, bei welcher bestimmte Punkte auf Null gesetzt sind. Diese kann in ein oberes Teilband eingefügt werden, z.B. Teilband 30. Für 48 kHz Abtastwerte liegt dies oberhalb des maximalen Teilbands (27), definiert durch den MPEG-Standard. Daher würde dieses zusätzliche Synchronisations-Signal von einem „verstimmten" Kodierer nicht kodiert werden.
  • Diese Sequenz sollte vor dem Synthese-Filter in ein geeignetes Teilband eingefügt werden (siehe 7). Der Analyse-Filter würde dann Teilband-Abtastwerte erzeugen aus denen der Rahmen und 32-Abtastwert-Grenzen abgeleitet werden können.
  • Um den Offset zu analysieren kann der modifizierte Kodierer das folgende einfache Verfahren verwenden (angenommen, dass er zu diesem Zeitpunkt keine Synchronisations-Informationen hat):
    Beziehe die nächsten 32 PCM-Abtastwerte ein und bediene die Filterbank um einen Teilband-Abtastwert zu erhalten.
    Extrahiere den Wert aus dem entsprechenden Teilband (z.B. 30).
    Prüfe diesen Wert gegen eine Tabelle aller bekannten, möglichen Werte für alle Offsets. (Eine Tabelle von 32 bis 36 Werten.)
    Wenn eine Übereinstimmung gefunden wurde, bediene die Filterbank wieder einige Male und prüfe die aufeinander folgenden Werte in der Tabelle.
    Leite das exakte Abtastwert-Offset ab, welcher von der Position in der Tabelle gefordert wird.
    Wenn die Filterbank wieder mit dem korrekten Offset bedient wurde, kann die Anpassung sehr einfach doppelt überprüft werden.
  • Wenn das Synchronisations-Signal sorgfältig bestimmt wird, um eindeutige Werte für alle der Offsets und Positionen zu geben, kann die Zahl der Vergleiche auf einem Minimum gehalten werden. Das Synchronisations-Signal, welches oben definiert wurde, würde eine definite Antwort geben, nachdem die Filterbank 4-mal bedient wurde, z.B. mit nur 4 Teilband-Abtastwerten. Es ist möglich, andere Synchronisationssignale zu definieren, welche die Verzögerung direkt anzeigen würden, aber es gibt eine Abwägung darüber, wie viel Verarbeitungsleistung erforderlich ist, um die Filterbank auszuführen, gegenüber der Zeit, welche erforderlich ist, um Tabellen zu suchen und Werte abzuleiten.
  • Ein Verfahren, um Synchronisation zu bestimmen, wenn Verstärkung auf das Signal angewendet wurde, ist im Prinzip ähnlich zu dem Obigen, aber die relativen Niveaus der aufeinander folgenden Abtastwerte sollten verwendet werden. Z.B. würde, wenn die Teilband-Werte A, B, C, ... sind, eine Tabelle von A/B, B/C, ... verwendet. Dies kann weitere Anforderungen an das Synchronisations-Signal erzwingen. Das obige Signal könnte ebenfalls anzeigen, ob es eine Inversionsphase des Audiosignals gegeben hatte.
  • Um kurz zu wiederholen, es wurden Techniken beschrieben, um Daten in einem Datenstrom auf eine An und Weise „transparent" zu übertragen, welche mit nachfolgender oder vorhergehender Kodierung kompatibel ist, insbesondere mit MPEG-typ Audio-Signal-Kodierung. Techniken zum Herstellen von Synchronisation mit einem vorher kodierten Signal sind ebenfalls beschrieben worden. Die Erfindung kann auf andere Anwendungen ausgedehnt werden, und die oben erwähnten, bevorzugten Eigenschaften können unabhängig vorgesehen werden, sofern nicht anderweitig dargelegt.

Claims (27)

  1. Verfahren zum Einfügen von digitalen Zusatz- bzw. Hilfsdaten in einen digitalen Hauptdatenstrom, der ein definiertes, unkomprimiertes Format aufweist, wobei der digitale Hauptdatenstrom vorher in das definierte komprimierte Format, entsprechend einem definierten Kodierschemas, kodiert wurde, um einen kodierten Datenstrom zu erzeugen, wobei das Verfahren, welches das Empfangen und Dekodieren des kodierten Datenstroms umfasst, um den digitalen Hauptdatenstrom in dem definierten, unkomprimierten Format zu erzeugen, wobei die definierte Kodierschemakompression von dem definierten unkomprimierten Format zu dem definierten komprimierten Format kodiert, wobei das Verfahren Analysieren und Identifizieren basierend auf der Zusammensetzung des empfangenen Datenstroms, und basierend auf den Eigenschaften des definierten Kodierschemas, wenigstens einer Komponente des Hauptdatenstroms aufweist die das definierte, unkomprimierte Format hat, welches keinen wesentlichen Beitrag zu dem vorher kodierten Datenstrom macht, der das definierte, komprimierte Format aufweist, und dem Zusatz- bzw. Hilfsdatenstrom werden bei dem Dekoder, der das digitale Hauptdatensignal von dem kodierten Datenstrom erzeugt, in die oder jede Komponente eingesetzt, um einen Ausgabedatenstrom zu erzeugen, der das definierte, unkomprimierte Format aufweist, das die Zusatz- bzw. Hilfsdaten trägt.
  2. Verfahren gemäß Anspruch 1, bei welchem das Identifizieren der oder jeder Komponente auf Informationen basiert, die die vorhergehende Kodierung betreffen.
  3. Verfahren zum Einfügen von digitalen Zusatz- bzw. Hilfsdaten in einen digitalen Hauptdatenstrom, der: ein definiertes, unkomprimiertes Format aufweist, wobei der digitale Hauptdatenstrom anschließend in ein definiertes, komprimiertes Format entsprechend einem definierten Kodierschemas zu, kodieren ist, um einen kodierten Datenstrom zu erzeugen, wobei die definierte Kodierschemakomprimierung vor dem definierten unkomprimierten Format zu dem definierten komprimierten Format kodiert, wobei das Verfahren das Empfangen des digitalen Hauptdatenstroms in dem definierten unkomprimierten Format, das Analysieren und das Identifizieren des empfangenen Datenstroms basierend auf der Zusammensetzung des empfangenen Datenstroms und basierend auf den Eigenschaften des definierten Kodierschemas umfasst, wobei mindestens eine Komponente des Hauptdatenstroms, die das definierte unkomprimierte Format aufweist, das im Wesentlichen keinen Beitrag zu dem anschließend kodierten Datenstrom leistet, welcher das definierte komprimierte Format aufweist, und an einer Dateneinfügungseinheit die kombinierte Funktionen eines Kodierers und eines Dekodierers zu dem Analysieren aufweist, werden Daten von dem Zusatz- bzw. Hilfsdatenstrom in die oder jede Komponente eingefügt, um einen Ausgangsdatenstrom zu erzeugen, der das definierte, unkomprimierte Format aufweist, das die Zusatz- bzw. Hilfsdaten trägt.
  4. Verfahren gemäß irgend einem der vorhergehenden Ansprüche, bei dem die Hauptdaten Audiodaten umfassen, die entsprechend einem Audiokodierungsschema vom MPEG-Typ zu kodieren sind, und das Identifizieren wenigstens einer Komponente umfasst die Abschätzung von Quantisierungspegeln, wobei die Zusatz- bzw. Hilfsdaten bei einem Pegel unter dem Quantisierungsrauschuntergrund eingefügt werden.
  5. Verfahren zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Hauptdatenstrom gemäß irgend einem der vorangehenden Ansprüche, wobei der Hauptdatenstrom ein Audiodatenstrom ist, der anschließend gemäß einem definierten Kodierungsschema, durch Analysieren der Audiodaten in einer Vielzahl von Sub-Bändern, und Quantisieren der Sub-Bänder zu kodieren ist, oder welcher Audiodatenstrom vorher gemäß dem besagten definierten Kodierungsschema kodiert und dekodiert worden ist, wobei das Verfahren das Abschätzen von Sub-Bändern und Quantisierungspegelen für ein nachfolgendes oder vorangehendes Kodieren, und das Einfügen von Zusatz- bzw. Hilfsdaten einen Pegel im Wesentlichen unter dem Pegel des abgeschätzten Quantisierungsrauschens umfasst.
  6. Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, das ferner das Kodieren des Ausgangsdatenstroms umfasst.
  7. Verfahren gemäß Anspruch 6, welches das Anpassen oder Auswählen von wenigstens einem Parameter oder einer Entscheidung, der/die mit dem Kodieren verknüpft ist, in Abhängigkeit von Daten vom Zusatz- bzw. Hilfsdatenstrom aufweist.
  8. Verfahren gemäß Anspruch 6 oder 7, bei dem die Zusatz- bzw. Hilfsdaten vor oder während des Kodierens extrahiert werden.
  9. Verfahren gemäß irgend einem der vorausgehenden Ansprüche, bei welchem das Kodieren das Quantisieren von Datenworten entsprechend zu dem digitalen Hauptdatenstrom oder einer transformierten Version davon zu einer Vielzahl von Pegeln umfasst, die geringer als die Anzahl der Pegel ist, die durch die Datenworte kodierbar sind.
  10. Verfahren gemäß Anspruch 4 oder 5 oder irgendeinem davon abhängigen Anspruch, bei welchem geschätzte Sub-Bänder und Quantisierungspegel das Umwandeln der Audiodaten von der Zeitdomäne in die Frequenzdomäne umfassen.
  11. Verfahren gemäß Anspruch 10, bei welchem die Zusatz- bzw. Hilfsdaten in die Frequenzdomäne eingefügt werden, um modifizierte Frequenzdomänendaten zu erzeugen, und die modifizierten Frequenzdomänendaten werden zurück in die Zeitdomäne transformiert.
  12. Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die Zusatz- bzw. Hilfsdaten dazu verwendet werden, um eine Synchronisierung mit einer vorangegangenen Kodierung des Hauptdatenstroms einzurichten aufrecht zu erhalten oder eine Konsistenz dazu.
  13. Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die zu tragenden Zusatz- bzw. Hilfsdaten eine festgelegte Synchronisierungssequenz enthalten.
  14. Verfahren gemäß Anspruch 13, bei welchem die Sequenz mindestens 4 Wörter umfasst.
  15. Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die Hauptdaten Audiodaten umfassen, die entsprechend eines Audiokodierungsschemas vom MPEG-Typ zu kodieren, sind und das ferner das Einfügen weiterer Daten in Sub Bänder unter dem Pegel der Hörbarkeit oder über dem Bereich des normalen Hörens umfasst.
  16. Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Datenstrom, umfassend: Mittel zum Empfangen eines digitalen Hauptdatenstroms in einem definierten, unkomprimierten Format, wobei der digitale Hauptdatenstrom anschließend entsprechend einem festgelegten Kodierungsschema zu kodieren ist, um einen kodierten Datenstrom zu erzeugen, oder wobei der digitale Hauptdatenstrom vorher entsprechend einem festgelegten Kodierungsschema kodiert worden ist, um einen kodierten Datenstrom zu erzeugen, und zu dekodieren ist; Mittel zum Analysieren des empfangenen Datenstroms und zum Identifizieren mindestens einer Komponente des Hauptdatenstroms, die im Wesentlichen keinen Beitrag zum nachfolgend kodierten Datenstrom leistet oder die im Wesentlichen keinen Beitrag zum vorher kodierten Datenstrom leistet; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die oder jede Komponente, um einen auszugebenden Datenstrom zu erzeugen, der die Zusatz- bzw. Hilfsdaten trägt, bei welchem Mittel zum Einfügen von Daten kombinierte Funktionen eines Kodierers und eines Dekodierens aufweist, und das Mittel zum Analysieren zur Verfügung stellt.
  17. Vorrichtung gemäß Anspruch 16, welche einen Dekodierer zum Dekodieren eines vorher kodierten Datenstroms umfasst, um den digitalen Hauptdatenstrom zu erzeugen.
  18. Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Datenstrom, umfassend: Mittel zum Empfangen eines kodierten digitalen Datenstroms, der entsprechend einem festgelegten Kodierungsschema kodiert wurde; Mittel zum Dekodieren des empfangenen digitalen Datenstroms entsprechend zu dem festgelegten Kodierungsschema, um einen digitalen Hauptdatenstrom zu erzeugen; Mittel zum Analysieren und Identifizieren mindestens einer Komponente des Hauptdatenstroms, die im Wesentlichen keinen Beitrag zum vorher kodierten Datenstrom leisten; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die oder jede Komponente, um einen auszugebenden Datenstrom zu erzeugen, der die Zusatz- bzw. Hilfsdaten trägt, wobei die Mittel zum Einfügen in die Mittel zum Dekodieren integriert sind.
  19. Vorrichtung gemäß irgendeinem der Ansprüche 16 bis 18, bei welchem die identifizierenden Mittel ihrerseits Mittel um Sub Bänder zu berechnen, die nicht belegt sind, oder Mittel zur Abschätzung von Quantisierungspegeln eines Audiokodierungsprozesses vom MPEG-Typ umfassen.
  20. Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Hauptdatenstrom, gemäß irgendeinem der Ansprüche 16 bis 19, bei welchem der Hauptdatenstrom ein Audiodatenstrom ist, welcher anschließend entsprechend einem definierten Kodierungsschema Analysieren der Audiodaten in einer Vielzahl von Sub Bändern und Quantisierung der Sub Bändern, oder welcher der Audiodatenströme vorher entsprechend dem definierten Kodierungsschema kodiert wurde, zu kodieren ist, wobei das Vorrichtung umfasst: Mittel zurm Abschätzen von Sub- Bändern und Quantisierungspegeln für ein anschließendes oder vorheriges Kodieren; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten bei einem Pegel, der wesentlich unter des Pegels des abgeschätzten berechneten Quantisierungsrauschens ist.
  21. Vorrichtung gemäß irgendeinem der Ansprüche 19 bis 20, wobei das Mittel zur Abschätzung von Sub-Bändern und Quantisierungspegeln ein Mittel zum Transformieren der Audiodaten von der Zeitdomäne in die Frequenzdomäne umfasst.
  22. Vorrichtung gemäß Anspruch 21, welches ein Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die Frequenzdomäne, um modifizierte Frequenzdomänedaten zu erzeugen und Mittel umfasst, um die modifizierten Frequenzdomänedaten in die Zeitdomäne zurück zu transformieren.
  23. Vorrichtung gemäß Anspruch 17, bei welchem das Mittel zum Identifizieren der oder jeder Komponente oder zum Abschätzen von Sub Bändern und Quantisierungspegeln so eingerichtet ist, um Informationen zu benutzen, die das vorausgegangene Kodieren betreffen.
  24. Vorrichtung gemäß Anspruch 17 oder 23, das so eingerichtet ist, um Zusatz- bzw. Hilfsdaten einzufügen, die dazu genutzt werden, um Synchronisation mit einem vorausgegangenen Kodieren des Hauptdatenstroms herzustellen, oder Konsistenz mit diesem aufrecht zu erhalten.
  25. Vorrichtung gemäß irgendeinem der Ansprüche 16 bis 24, die eingerichtet ist, um eine definierte Synchronisierungssequenz wenigstens als Teil der Zusatz- bzw. Hilfsdaten einzufügen.
  26. Vorrichtung gemäß Anspruch 25, bei welchem die Sequenz bzw. Abfolge mindestens 4 Wörter umfasst.
  27. System gemäß irgendeinem der Ansprüche 16 bis 26, das ferner Mittel zum Kodieren des Ausgangsdatenstroms umfasst.
DE69927505T 1998-07-29 1999-07-29 Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom Expired - Lifetime DE69927505T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9816518A GB2340351B (en) 1998-07-29 1998-07-29 Data transmission
GB9816518 1998-07-29
PCT/GB1999/002473 WO2000007303A1 (en) 1998-07-29 1999-07-29 Method for inserting auxiliary data in an audio data stream

Publications (2)

Publication Number Publication Date
DE69927505D1 DE69927505D1 (de) 2005-11-03
DE69927505T2 true DE69927505T2 (de) 2006-07-06

Family

ID=10836376

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69927505T Expired - Lifetime DE69927505T2 (de) 1998-07-29 1999-07-29 Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom

Country Status (9)

Country Link
US (2) US20010038643A1 (de)
EP (1) EP1101289B1 (de)
JP (1) JP2002521739A (de)
AT (1) ATE305671T1 (de)
AU (1) AU770627B2 (de)
CA (1) CA2338531A1 (de)
DE (1) DE69927505T2 (de)
GB (1) GB2340351B (de)
WO (1) WO2000007303A1 (de)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU8491001A (en) * 2000-08-16 2002-02-25 Dolby Lab Licensing Corp Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
GB0103245D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of inserting additional data into a compressed signal
GB0103242D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of analysing a compressed signal for the presence or absence of information content
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
GB0124352D0 (en) 2001-10-11 2001-11-28 1 Ltd Signal processing device for acoustic transducer array
US7321642B2 (en) * 2002-04-05 2008-01-22 Micronas Semiconductors, Inc. Synchronization symbol re-insertion for a decision feedback equalizer combined with a trellis decoder
GB2392359B (en) * 2002-08-22 2005-07-13 British Broadcasting Corp Audio processing
JP4527369B2 (ja) 2003-07-31 2010-08-18 富士通株式会社 データ埋め込み装置及びデータ抽出装置
FR2859566B1 (fr) * 2003-09-05 2010-11-05 Eads Telecom Procede de transmission d'un flux d'information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre
KR20050028193A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 오디오 신호에 적응적으로 부가 정보를 삽입하기 위한방법, 오디오 신호에 삽입된 부가 정보의 재생 방법, 및그 장치와 이를 구현하기 위한 프로그램이 기록된 기록 매체
SG10202004688SA (en) 2004-03-01 2020-06-29 Dolby Laboratories Licensing Corp Multichannel Audio Coding
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CN101055719B (zh) * 2004-09-17 2011-02-02 广州广晟数码技术有限公司 编码和发送多声道数字音频信号的方法
KR101261212B1 (ko) 2004-10-26 2013-05-07 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 신호 처리 방법 및 장치
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
EP2363421B1 (de) * 2005-04-18 2013-09-18 Basf Se Copolymere CP für die Herstellung von Zubereitungen, enthaltend wenigstens ein Conazolfungizid
WO2006126858A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method of encoding and decoding an audio signal
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
WO2007004830A1 (en) 2005-06-30 2007-01-11 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
EP1913578B1 (de) 2005-06-30 2012-08-01 LG Electronics Inc. Verfahren und vorrichtung zum decodieren eines audiosignals
JP2009500656A (ja) 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP1941497B1 (de) 2005-08-30 2019-01-16 LG Electronics Inc. Vorrichtung zum kodieren und dekodieren von audiosignalen und verfahren dafür
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP5173811B2 (ja) 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7751485B2 (en) 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
WO2007040353A1 (en) 2005-10-05 2007-04-12 Lg Electronics Inc. Method and apparatus for signal processing
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
KR100857119B1 (ko) 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US8068569B2 (en) 2005-10-05 2011-11-29 Lg Electronics, Inc. Method and apparatus for signal processing and encoding and decoding
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US20070092086A1 (en) 2005-10-24 2007-04-26 Pang Hee S Removing time delays in signal paths
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
JP5185254B2 (ja) * 2006-04-04 2013-04-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Mdct領域におけるオーディオ信号音量測定と改良
UA93243C2 (ru) 2006-04-27 2011-01-25 ДОЛБИ ЛЕБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШи Регулирование усиления звука c использованием основанного ha конкретной громкости выявления аккустических событий
UA94968C2 (ru) 2006-10-20 2011-06-25 Долби Леборетериз Лайсенсинг Корпорейшн Обработка динамических свойств аудио с использованием перенастройки
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
US8396574B2 (en) * 2007-07-13 2013-03-12 Dolby Laboratories Licensing Corporation Audio processing using auditory scene analysis and spectral skewness
KR101418354B1 (ko) * 2007-10-23 2014-07-10 삼성전자주식회사 음성 통신 시스템에서 플레이아웃 스케줄링 방법 및 장치
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
US8577345B2 (en) * 2009-03-02 2013-11-05 First Data Corporation Systems, methods, and apparatus for providing promotion information to a mobile device
US20100223138A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods and apparatus for marketing by communicating tones to a mobile device
US20100222037A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, Methods, and Apparatus for Providing Terms and Conditions and Program Enrollment Information to a Mobile Device
US20100222038A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods, and devices for communicating supplemental information to mobile devices
US20100222072A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods and apparatus for providing information to a mobile device
US20100222100A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods and apparatus for facilitating communication between mobile devices
US9077800B2 (en) * 2009-03-02 2015-07-07 First Data Corporation Systems, methods, and devices for processing feedback information received from mobile devices responding to tone transmissions
US8725121B2 (en) * 2009-03-02 2014-05-13 First Data Corporation Systems, methods, and devices for prompting mobile device users for feedback information using tone transmissions
US20100222088A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods and apparatus for receiving information by a mobile device
US8606638B2 (en) * 2009-03-02 2013-12-10 First Data Corporation Systems, methods and apparatus for facilitating transactions using a mobile device
US8577346B2 (en) * 2009-03-02 2013-11-05 First Data Corporation Systems, methods, and apparatus for receiving promotion information by a mobile device
US20100222087A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods and apparatus for communicating information to a mobile device in a broadcast signal
US20100223120A1 (en) * 2009-03-02 2010-09-02 First Data Corporation Systems, methods, and devices for administering consumer reward programs through the use of tones sent to mobile devices
CN102369573A (zh) * 2009-03-13 2012-03-07 皇家飞利浦电子股份有限公司 嵌入和提取辅助数据
US20100324977A1 (en) * 2009-06-18 2010-12-23 First Data Corporation Systems, methods, and apparatus for providing promotional information to a mobile asset
GB2524682B (en) 2011-10-24 2016-04-27 Graham Craven Peter Lossless buried data
GB2507056A (en) 2012-10-17 2014-04-23 Ibm A protected wireless network access point allowing limited access to an affiliated group of mobile stations
CN111862994A (zh) * 2020-05-30 2020-10-30 北京声连网信息科技有限公司 一种声波信号解码的方法及装置
CN111816196A (zh) * 2020-05-30 2020-10-23 北京声连网信息科技有限公司 一种声波信息的解码方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4893308A (en) * 1986-09-03 1990-01-09 Motorola, Inc. Method and apparatus for time companding a digital voice signal
NL8901032A (nl) * 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
JP2680198B2 (ja) * 1991-02-08 1997-11-19 三菱電機株式会社 音声ディジタル1リンク接続方式
US5287182A (en) * 1992-07-02 1994-02-15 At&T Bell Laboratories Timing recovery for variable bit-rate video on asynchronous transfer mode (ATM) networks
DE4241068C2 (de) * 1992-12-05 2003-11-13 Thomson Brandt Gmbh Verfahren zum Übertragen, Speichern oder Decodieren eines digitalen Zusatzsignals in einem digitalen Tonsignal
DE69424888T2 (de) * 1993-01-22 2001-02-15 Koninkl Philips Electronics Nv Digitale Dreikanalübertragung von linken und rechten Stereosignalen und von einem Mittelsignal
DE4405659C1 (de) * 1994-02-22 1995-04-06 Fraunhofer Ges Forschung Verfahren zum kaskadierten Codieren und Decodieren von Audiodaten
US5404377A (en) * 1994-04-08 1995-04-04 Moses; Donald W. Simultaneous transmission of data and audio signals by means of perceptual coding
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
US6154484A (en) * 1995-09-06 2000-11-28 Solana Technology Development Corporation Method and apparatus for embedding auxiliary data in a primary data signal using frequency and time domain processing
US5687191A (en) * 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US6035177A (en) * 1996-02-26 2000-03-07 Donald W. Moses Simultaneous transmission of ancillary and audio signals by means of perceptual coding
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
GB2321577B (en) * 1997-01-27 2001-08-01 British Broadcasting Corp Audio compression
GB2327577B (en) * 1997-07-18 2002-09-11 British Broadcasting Corp Re-encoding decoded signals
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor

Also Published As

Publication number Publication date
GB2340351A (en) 2000-02-16
US20010038643A1 (en) 2001-11-08
AU5177699A (en) 2000-02-21
EP1101289A1 (de) 2001-05-23
US20070297455A1 (en) 2007-12-27
ATE305671T1 (de) 2005-10-15
WO2000007303A1 (en) 2000-02-10
AU770627B2 (en) 2004-02-26
GB9816518D0 (en) 1998-09-30
GB2340351B (en) 2004-06-09
EP1101289B1 (de) 2005-09-28
JP2002521739A (ja) 2002-07-16
DE69927505D1 (de) 2005-11-03
CA2338531A1 (en) 2000-02-10

Similar Documents

Publication Publication Date Title
DE69927505T2 (de) Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom
EP0910928B1 (de) Codieren und decodieren von audiosignalen unter verwendung von intensity-stereo und prädiktion
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE602004010885T2 (de) Audio-transkodierung
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE69632340T2 (de) Transport von versteckten daten nach komprimierung
DE60204039T2 (de) Vorrichtung zur kodierung und dekodierung von audiosignalen
DE69533500T2 (de) Verfahren und vorrichtung zum kodieren und dekodieren von nachrichten
DE602004013031T2 (de) Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
DE60002483T2 (de) Skalierbares kodierungsverfahren für hochqualitätsaudio
EP0910927B1 (de) Verfahren zum codieren und decodieren von stereoaudiospektralwerten
DE69534273T2 (de) Verfahren und vorrichtung zum signalkodieren, signalubertragungsverfahren und verfahren und vorrichtung zur signaldekodierung
DE69731677T2 (de) Verbessertes Kombinationsstereokodierverfahren mit zeitlicher Hüllkurvenformgebung
DE69432538T2 (de) Digitales Signalkodierungsgerät, dazugehöriges Dekodiergerät und Aufzeichnungsträger
EP2240929B1 (de) Vorrichtung und verfahren zum synchronisieren von mehrkanalerweiterungsdaten mit einem audiosignal und zum verarbeiten des audiosignals
DE69534140T2 (de) Verfahren und vorrichtung zur signalkodierung und -dekodierung, aufzeichnungsmedium und signalübertragungsverfahren
DE602004005784T2 (de) Verbesserte Anregung für Höherband-Kodierung in einem Codec basierend auf Frequenzbandtrennungs-Kodierungsverfahren
DE19811039A1 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE19742655C2 (de) Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE60116809T2 (de) Vorrichtung zum Transkodieren eines Audiodatenstroms
DE69931932T2 (de) Verfahren und Vorrichtung zum Dekodieren und Einfügen eines Wasserzeichens in einen Datenstrom
EP1277346B1 (de) Vorrichtung und Verfahren zum Analysieren der spektralen Darstellung eines decodierten Zeitsignales

Legal Events

Date Code Title Description
8364 No opposition during term of opposition