DE69927505T2

DE69927505T2 - Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom

Info

Publication number: DE69927505T2
Application number: DE69927505T
Authority: DE
Inventors: Kevin Andrew Epsom MCPARLAND
Original assignee: British Broadcasting Corp
Current assignee: British Broadcasting Corp
Priority date: 1998-07-29
Filing date: 1999-07-29
Publication date: 2006-07-06
Anticipated expiration: 2019-07-30
Also published as: GB2340351A; US20010038643A1; AU5177699A; EP1101289A1; US20070297455A1; ATE305671T1; WO2000007303A1; AU770627B2; GB9816518D0; GB2340351B; EP1101289B1; JP2002521739A; DE69927505D1; CA2338531A1

Description

Die vorliegende Erfindung bezieht sich auf das Einbetten von Daten oder Synchronisationssignalen in einen anderen Datenstrom. Die Erfindung beschäftigt sich speziell mit dem Einfügen von Informationen in einen Datenstrom welcher kodiert und insbesondere komprimiert worden ist oder dafür vorgesehen ist, ein spezielles Beispiel kommt von einem linearen digitalen Format wie zum Beispiel PCM (Pulscodemodulation) in einen MPEG (oder ähnlichen) Audio-Datenstrom. Details zur MPEG-Audio-Kodierung werden in den ISO/IEC-Standards IS 11172-3 und IS 13818-3 definiert.
WO-A-98/33284 beschreibt ein Verfahren zur Audiosignalverarbeitung, in welcher Zusatzdaten mit einem dekodierten Audiosignal kommuniziert werden, um bei anschließender Re-Kodierung des Audiosignals zu helfen. Es werden mehrere Verfahren zum Kommunizieren der Daten offenbart; der Erfinder fand jedoch, dass es Raum für Verbesserung der Verfahren gibt, welche in dieser Anmeldung offenbart werden.
Der Erfinder hat wahrgenommen, dass eine andere Anwendung, bei welcher es hilfreich wäre zusätzliche Daten mit einem Audio-Bitstrom mitzuführen bzw. zu übertragen, darin liegt, Rahmengrenzen bzw. Frame-Grenzen und Synchronisierung mit einem vorher kodierten Signal zu erstellen. Insbesondere offenbart WO-A-99/04572 ein Verfahren zur Neukodierung eines vorher kodierten Signals, bei welchem das Signal analysiert wird, um vorhergehende Kodierungscharakteristika zu erkennen. Der Erfinder hat wahrgenommen, dass, wenn irgendeine Art von Synchronisierungsinformationen in dem Signal eingebettet sind, die Analyse vereinfacht werden könnte.
Es gab Diskussion über das Miführen bzw. Übertragen von zusätzlichen Daten in einem Audiosignal, zum Beispiel um Rundum-Klangkulissen-Informationen bzw. Surround-Sound-Information, durch Einfügen von Daten, um nahezu nicht wahrnehmbar zu sein; Vorschläge dieser Art beziehen jedoch gewöhnlich komplexe firmeneigene bzw. geschützte Signalerarbeitung ein, und sind nicht dazu bestimmt, weitere Kodierungen des Signals unterzubringen.
EP-A-0 372 601 offenbart ein Verfahren zum Einfügen von Informationen, wie zum Beispiel ein Kopierschutz-Signal, welches auf psychoakustischer Modellierung basiert. Es wird das Teilband-Signal, das die Information beinhaltet, aufgezeichnet. US 5,687,191 offenbart eine versteckte Post-Kompressions-Datenübertragung, bei welcher Zusatzdaten-Teilband-Abtastwerte in einem komprimierten Audiosignal übertragen werden, ohne die Daten zu dekomprimieren.
Die Erfindung zielt darauf ab, ein Verfahren zur Datenkommunikation oder Synchronisationsinformation zusammen mit einem Hauptdatensignal anzubieten, ohne die Übertragung des Hauptdatensignals übermäßig bzw. unzulässig zu beeinflussen.
In einem umfassenden Überblick sieht die Erfindung Verfahren und Apparate zum Einfügen von digitalen Zusatzdaten in einen Hauptdatenstrom vor, welche anschließend zu kodieren sind, um einen kodierten Datenstrom zu erzeugen (oder welche aus einem kodierten Datenstrom dekodiert worden ist), welches bzw. welcher das Identifizieren von mindestens einer Komponente des Hauptdatenstroms umfasst, welche keinen wesentlichen Beitrag zu dem kodierten Datenstrom liefern (oder welche nicht in dem kodierten Datenstrom vorhanden waren), und Daten von dem Zusatzdatenstrom in die oder jede Komponente einzufügen.
Aspekte der Erfindung sind in den unabhängigen Ansprüchen niedergelegt.
Auf diese Art und Weise bleibt der schließlich kodierte Datenstrom durch das Einfügen der Zusatzdaten im Wesentlichen unbeeinflusst, sodass es keine Gesamtverschlechterung oder Verzerrung gibt, die durch die zusätzlichen Daten eingeführt wird. Jedoch werden die Zusatzdaten mit dem Hauptdatensignal „umsonst" übertragen bis es den Kodierer erreicht. Obwohl die Erfindung normalerweise in Verbindung mit Daten eingesetzt wird, welche anschließend zu kodieren sind (wobei die Zusatzdaten in diesem Fall zur oder um die Zeit des Kodierens entfernt werden können), wobei die Erfindung mit Daten eingesetzt werden kann, welche vorher kodiert worden sind, aber es ist nicht unbedingt erforderlich ist, weiter kodiert zu werden; dies bietet noch den Vorteil, dass die Übertragung von Zusatzinformationen die Daten nicht weiter verschlechtern kann, da durch die Zusatzdaten keine „realen" Informationen überschrieben werden.
Ein weiterer potenzieller Vorteil ist der, dass, da das Einfügen von Daten auf den Prinzipien basiert, welche beim Kodieren angewendet werden, Komponenten von dem Dateneinfügungs-Apparat und einem Kodierer oder Dekodierer gemeinsam genutzt werden können, insbesondere wenn sie als eine Einheit zusammengefasst sind, welche lieber eine Dateneinfügungs-Funktion und eine Kodierungs- oder Dekodierungsfunktion beinhaltet, als ein maßgeschneidertes Design anzufordern. Die Zusatzdaten können mit dem kodierten Datenstrom weiter übertragen werden, aber nicht länger eingebettet in dem Hauptdatenstrom. Zum Beispiel kann es im Fall von Audiosignalen das kodierte Datenformat erlauben, die Zusatzdaten direkt als Daten zusätzlich zu den kodierten Audiosignalen zu übertragen. Die Zusatzdaten werden vorzugsweise dazu verwendet, um beim Auswählen der Kodierungsentscheidungen zu helfen, oder bei der Synchronisierung des Kodierers mit einem vorhergehenden Kodierer. Das Hauptdatensignal ist vorzugsweise ein Audiosignal, kann aber auch ein Video- oder anderes Signal sein.
Während sich die Erfindung vornehmlich mit dem Hinzufügen von Informationen zu einem digitalen Hauptdatensignal beschäftigt, sollte man verstehen, dass dieses Signal in andere Formen umgewandelt werden kann; zum Beispiel kann ein lineares, digitales PCM (Pulscodemodulations)-Signal, welches eingebettete digitale Daten oder ein Synchronisierungssignal überträgt, in eine analoge Form und wieder zurück umgewandelt werden, und, vorausgesetzt die Umwandlung ist genau, können die Daten wiederhergestellt werden, oder es kann zumindest das Synchronisationssignal identifiziert werden.
Das Verfahren kann weiter das Extrahieren der Zusatzdaten und das Kodieren der Hauptdaten beinhalten. Mindestens ein Kodierungsparameter oder eine Entscheidung basiert vorzugsweise auf den Zusatzdaten.
Das vorzugsweise Kodieren beinhaltet das Quantisieren der Wörter entsprechend des digitalen Hauptdatenstroms, oder, noch wünschenswerter, entsprechend eines transformierten Datenstroms zu einer Vielzahl von Ebenen, aber weniger als die Anzahl von Niveaus, welche durch die Wörter kodierbar sind.
Die Komponenten des Hauptdatenstroms können mit bedeutend weniger Bits von kodierten Datenwörtern korrespondieren, welche durch das Kodieren auf eine vorher festgelegte Anzahl von Niveaus zu quantisieren ist, wobei die Anzahl der Niveaus kleiner ist als die Anzahl von Niveaus, welche durch die Wörter kodierbar ist. Zum Beispiel können, wenn ein n-bit Wort durch Kodierung zu 2^m Ebenen quantisiert wird, wobei m < n ist, n-m Bits verfügbar sein, um Zusatzdaten zu übertragen.
Die Veränderung im Datenstrom, welche zum Beispiel durch das Einfügen von Zusatzdaten herbeigeführt wird, ist im Wesentlichen nicht wahrnehmbar, zum Beispiel unter (oder auf) dem hörbaren Störpegel, für den Fall von Audiodaten, oder haben im Falle eines Videosignals keinen wesentlichen Effekt auf die Bildqualität.
Das Einfügen der Zusatzdaten kann ebenfalls das Einfügen der Daten in nicht genutzte Sub-Bänder eines umgewandelten Datensatzes umfassen.
In einer bevorzugten Anwendung umfassen die Hauptdaten Audiodaten, welche gemäß eines MPEG-Typ-Audiokodierungsschemas zu kodieren sind (bei welchem jedes ähnliche Kodierschema gemeint ist, welches auf den Grundsätzen der Quantisierung einer Vielzahl von Teilbändern, oder anderen Komponenten basiert in welche das Signal analysiert wird), und die Identifikation wenigstens einer Komponente umfasst das Identifizieren von Unterbändern, die unbesetzt sind, und die Identifikation von Quantisierungsebenen, wobei die Zusatzdaten in unbesetzte Bänder, oder auf einer Ebene unterhalb des Quantisierungs-Stör-Untergrunds eingefügt werden.
Es wird deshalb ebenfalls ein Verfahren beschrieben, um Zusatzdaten in einen Audio-Datenstrom einzufügen, welcher zu kodieren ist, und zwar durch Analysieren der Audiodaten in einer Vielzahl von Teilbändern und durch Quantisieren der Teilbänder, wobei das Verfahren die Berechnung der Teilbänder und der Quantisierungsniveaus für ein anschließendes oder vorausgegangenes Kodieren und das Einfügen der Zusatzdaten in eine Ebene unterhalb der Ebene des berechneten Stör-Untergrunds umfasst.
Das Schätzen von Teilbändern und Quantisierungsniveaus bzw. -ebenen kann das Umwandeln der (Audio-) Daten von der Zeitdomäne (oder einer unkodierten Domäne) zu der Frequenzdomäne (oder einer kodierten Domäne) beinhalten, oder andernfalls das Analysieren der Daten in eine Vielzahl von Teilbändern, zum Beispiel die Verwendung einer Fourier- oder einer ähnlichen Analyse. Daten können in die Frequenzdomäne eingefügt werden, und die modifizierten Frequenz-Domäne-Daten können zurück in die Zeitdomäne transformiert werden.
Ein besonderer Vorteil ergibt sich, wenn die berechneten Teilbänder oder Quantisierungsniveaus bzw. -ebenen direkt den Teilbändern oder Quantisierungsparametern entsprechen, welche beim Kodieren der Daten verwendet wurden oder verwendet werden; es gibt keinen wesentlichen Effekt auf das kodierte Signal, da die Komponente(n) des Hauptdatensignals, welche verwendet werden, um die Zusatzdaten zu übertragen, sonst durch den Kodierungsprozess verloren gehen würden.
Die zu übertragenden Daten können eine definierte Synchronisationssequenz umfassen; dies kann das Ermitteln von Rahmengrenzen und ähnlichem ermöglichen bzw. erleichtern, und kann eingesetzt werden, um die Auskopplung bzw. Ausblendung von anderen Daten zu ermöglichen bzw. zu erleichtern, oder um eine Verschlechterung zwischen hintereinander geschalteten Kodierungs- und Dekodierungsoperationen zu minimieren.
Die Zusatzdaten oder Synchronisationssignale können ebenfalls in ein oberes Teilband der Hauptdaten eingefügt werden.
Es wird ebenfalls ein Verfahren beschrieben, um eine Synchronisationssequenz mit einem digitalen Hauptdatensignal, vorzugsweise einem Audiosignal, zum Beispiel ein lineares PCM-Audiosignal, zu übertragen, welches das Einfügen einer definierten Sequenz von Synchronisationswörtern in eine Komponente des Hauptdatensignals, bevorzugt ein nicht genutztes Teilband, umfasst, um die Identifizierung von oder die Synchronisation mit einer vorangegangenen Signalcodierung zu erleichtern bzw. zu ermöglichen.
Es wird weiter ein Verfahren beschrieben, um eine Rahmengrenze zu detektieren oder um eine Synchronisation mit einem Datensignal herzustellen, welches durch das obige Verfahren erzeugt wurde, welches die Suche nach einer Sequenz von Synchronisationswörtern in der Komponente des Datensignals, und das Vergleichen wenigstens eines gefundenen Wertes, oder eines abgeleiteten Wertes mit einer Sequenz von gespeicherten Werten umfasst.
Das Verfahren der Erfindung sieht ein digitales Datensignal vor, vorzugsweise einen linearen PCM-Audio-Bitstrom, welcher ein Audiosignal und mindestens eine der Synchronisationssequenzen, oder ein Zusatzdatensignal, welches in einem anderweitig, nicht genutzten Teilband oder in Teilbändern unterhalb eines MPEG-Quantisierungs-Stör-Untergrunds eingebettet ist, umfasst.
Die Erfindung erstreckt sich auf Apparate zum Einfügen von Zusatzdaten in einen Datenstrom und auf Datenströme, welche durch das obige Verfahren kodiert werden.
Ausführungsformen der Erfindung werden nun beispielhaft beschrieben, mit Bezug auf die beigefügten Zeichnungen, für welche gilt:
1 zeigt schematische, hintereinander geschaltete MPEG-typ Kodierungs- und Dekodierungs-Umwandlungen;
2 zeigt Bit-Zuordnung für ein typisches Signal;
3 zeigt Skalenwerte und den niedrigsten Level, der für das Signal aus 2 kodiert werden kann.
4 zeigt Leerstellen, welche als verfügbar für Datenübertragung gemäß der Erfindung festgestellt wurden;
5 ist eine Abbildung des Effektes einer 32-Sample Ausrichtung auf einer ID-Sequenz;
6 zeigt ein beispielhaftes Synchronisationssignal;
7 zeigt das Einfügen und Ausblenden des Synchronisationssignals.
Eine bevorzugte Anwendung der Erfindung bezieht das Übertragen von Zusatzdaten mit einem Audiosignal ein, welche gemäß der MPEG-Kodierung zu kodieren sind. Es werden die elementaren Prinzipien beschrieben, um das Verständnis der Erfindung zu unterstützen.
Datenübertragung mit MPEG-Audiosignalen-Elementare Prinzipien
MPEG-Audiosignale setzen die Idee der psychoakustischen Maskierung ein, um die Menge an zu übertragenden Informationen zu reduzieren, um ein Audiosignal darzustellen. Die reduzierten Informationen werden als ein Bitstrom dargestellt. Psychoakustische Maskierung wird gewöhnlich auf einer Frequenzdarstellung eines Audiosignals berechnet. Bei MPEG-Audiosignalen wird eine Filterbank eingesetzt, um das Audiosignal in 32 Teilbänder aufzuteilen, von denen jedes einen Teil des Spektrums des Signals darstellt.
Der Encoder bzw. Kodierer verwendet ein psychoakustisches Modell um die Anzahl der Bits zu berechnen, die benötigt werden, um jedes dieser Teilbänder so zu kodieren, sodass die eingefügten Quantisierungsgeräusche nicht hörbar sind. Daher werden in jedem Teilband nur die maßgeblichen Bits übertragen.
In diesem Ausführungsbeispiel ist das Ziel, Daten mit Audiosignalen in einem linearen PCM-Format mitzuführen (obwohl andere digitale Formate eingesetzt werden können). Die Daten sollten unhörbar übertragen werden und die Eigenschaft besitzen, vollständig wieder herstellbar zu sein. Wir haben herausgefunden, dass es möglich ist, abhängig von der Bitrate, welche für die MPEG-Kodierung verwendet wird, und der Art des Signals, zwischen 50 und 400 kbits/sec von Daten unter einem Stereo-Audiosignal zu übertragen.
Allgemeine Anwendungen von Datenübertragung, welche mit der Ausführungsform möglich sind, beinhalten das Übertragen von zugeordneten Daten mit dem Audiosignal, wie zum Beispiel Text (z.B. Lyrik). Zusätzlich ergibt sich ein spezieller Einsatz der Erfindung, welcher unten detaillierter beschrieben wird, wenn das Signal bereits im MPEG-Format kodiert ist oder kodiert worden ist, aber in einer linearen Form befördert werden muss; hierbei können die zusätzlichen Daten Details über den Kodierungsprozess oder Synchronisationsinformationen beinhalten, um eine anschließenden Neukodierung zu unterstützen, oder Bilder welche mit dem Audiosignal verbunden sind.
Die Filterbanken im MPEG-Audiosignal weisen die Eigenschaft einer (fast) perfekten Rekonstruktion auf. Ein Diagramm eines Decoders zu einem Encoder ist in 1 gezeigt. Wenn die Filterbanken korrekt ausgerichtet sind, werden die Teilbänder im Encoder praktisch identisch mit solchen, welche im Decoder erzeugt werden.
Wenn ein Encoder das Signal kodiert, versucht er, genügend Bits für jedes Teilband zu reservieren, sodass das resultierende Signal nicht hörbar anders als das Original ist.
Auswahl von Komponenten zur Datenübertragung
Angesichts dieser zwei Eigenschaften haben wir wahrgenommen, dass Daten in Teilbänder unterhalb des signifikanten Audiosignals eingefügt werden können, sodass die eingefügten Daten unhörbar sind (oder wenigstens keine Beeinträchtigungen über die der MPEG-Kodierung hinaus eingeführt werden).
2 zeigt das gemessene Niveau des Audio bzw. Audiosignals in jedem Teilband, welche als „Skalenfaktoren" bzw. „Skalenwerte" in dem MPEG-Audiosignal-Datenstrom kodiert sind. Sie zeigt ebenfalls die Bit-Zuweisung, welche durch einen Encoder gewählt wurde. Diese ist als die Anzahl von Quantisierungsniveaus für ein bestimmtes Teilband spezifiziert. In dem Diagramm wird die Bit-Zuweisung als Rauschabstand in dB Termen dargestellt, um eine Darstellung auf derselben Achse möglich zu machen. Für diesen Zweck ist jedes Bit, welches benötigt wird, um die Anzahl der Quantisierungsniveaus darzustellen, ungefähr äquivalent zu einem „Niveau" von 6 dB.
Wenn wir stattdessen die Skalenwerte und das niedrigste Niveau zeigen, welches mit der Bit-Zuweisung von 2 kodiert werden kann, erhalten wir die Kurve in 3.
Man kann sehen, dass die Niveaus unterhalb des untersten Niveaus unbenutzt sind. Da das MPEG-Modell erkannt hat, dass es unter diesen untersten Niveaus keine hörbaren Informationen gibt, steht es uns frei, diese für Daten zu verwenden.
Angesichts der Randbedingung, dass wir nicht störend auf die Audiosignale einwirken, werden Niveaus in der Nähe des untersten Niveaus nicht benutzt. Dies soll ebenfalls bedeuten, dass keine Begrenzungsprobleme eingeführt werden. Ebenfalls angesichts dessen, dass das Signal wahrscheinlich zu übertragen ist, oder über ein lineares Medium mit begrenzter Auflösung (z.B. 16 Bits) gespeichert wird, zwingt dies eine Randbedingung dem untersten Niveau, welches wir senden können, auf. Aufgrund von Ungenauigkeiten bei der Rekonstruktion wegen des Abbruchs bzw. der Trunkierung auf PCM (Pulscodemodulation), und Grenzen bei der Genauigkeit der Filterbankberechnung, ist es unklug, die Niveaus zu verwenden, die am dichtesten an der PCM-Quantisierungsgrenze liegen (z.B. das 16. Bit). Im Falle von Teilbändern, bei denen keine Informationen zu senden sind, sind zwei Strategien abrufbar.
Wenn wir einen MPEG-Datenstrom decodieren um Daten einzufügen, würden wir das Niveau des Teilbandes nicht kennen, daher sollten wir, um sicher zu sein, keine Daten in dieses Teilband senden. Wenn wir andererseits einen Encoder rein für die Datenerzeugung verwenden, könnten wir die Niveaus genau unter dem vollen Niveau in diesem Teilbandes verwenden. Ein Diagramm, welches den Bereich zeigt, in welchem die Daten für den letzten Fall eingefügt werden könnten, ist in 4 gezeigt.
Für den Fall, dass Teilbänder ein Audiosignal enthalten, wird sich das Niveau der Daten unterhalb der bedeutendsten Niveaus befinden. Daten könnten ebenfalls in andere Teilbänder eingefügt werden, unterhalb des Niveaus der Hörbarkeit, oder oberhalb des normalen Hörbereiches (z.B. in den Teilbändern, welche beim MPEG-Kodieren nicht verwendet werden).
Praktische Implementierungsdetails
Für eine praktische Implementierung müssen verschiedene Fragen bzw. Probleme behandelt werden, insbesondere wie die Daten eingefügt werden und wie die Daten wiederhergestellt werden. Daten könnten eingefügt werden, wenn ein MPEG-Audiosignal-Datenstrom decodiert wird, oder die Funktionen eines Encoders und Decoders könnten kombiniert werden könnten, um das Signal zu filtern, es zu analysieren, das Audiosignal entsprechend zu quantisieren, die Daten einzufügen, dann das Signal zurück zur PCM-Domäne umzuwandeln.
Dateneinfügung
Ein vorgeschlagenes Verfahren zur Dateneinfügung ist, zuerst die Anzahl verfügbarer Bits zu berechnen, und dann die Teilbandwerte mit den Daten zu maskieren bevor sie der Synthese-Filterbank zugeführt werden. Ein 16-Bit-System wird angenommen, aber die Berechnungen sind für eine größere Anzahl von Bits ähnlich. Das unten beschriebene Schema ist einfach und sicher.
Berechnung der verfügbaren Bits
Nimm den maximalen Skalenwert für ein Subband zur Darstellung eines Maximalwertsignals, welches in einem 16-Bit PCM-System befördert werden kann. Dann berücksichtige, dass sich ungefähr 96 dB darunter der Quantisierungsboden bzw. -untergrund des 16-Bit PCM-Systems befindet. Skalenwerte werden in 2 dB-Schritten definiert. Ist der Skalenwert für ein gegebenes Teilband einmal berechnet, ermittle die Differenz zwischen diesem und dem Störpegel-Untergund in dB (den Bereich, R). Das MPEG-psychoakustische Modell wird die Bit- Zuweisung ergeben. Setze die Bit-Zuweisung für das Teilband in eine Rauschabstandszahl in dB (Q) um. Berechne auf diese Weise den Bereich in dB, welcher für die Daten (D) vom Quantisierungsboden bzw. -untergrund zu dem untersten, dargestellten Niveau verfügbar ist. D = R – Q
Ziehe dann die Sicherheitsfaktoren von 1-bit nahe dem Signal und einem anderen Bit nahe dem Störpegel ab, man erinnere sich, dass 1-Bit ungefähr äquivalent zu 6 dB Rauschen ist. D = D – 12
Reserviere als nächstes eine Anzahl von Datenbits (N) pro Teilband durch Herausfinden der Integer-Zahl von Bits, welche in D dargestellt werden können, durch Vornehmen einer Integer-Division mit D. N = int(D/6)
Dieser Wert gilt für ein bestimmtes Teilband und Skalenwert. Im MPEG Layer 2 gibt es bis zu 3 verschiedene Skalenwerte pro Rahmengrenze, sodass jede ihre eigene Anzahl von Bits haben könnte, oder das Minimum aus allen 3 Skalenwerten genommen werden könnte.
Maskierung der Daten auf den Teilband-Werten
Aus dem oben beschriebenen Verfahren wird die Anzahl der verfügbaren Bits (N) verwendet, um eine Maske (M) zu erzeugen. M = Oxffff << (N + 1) für ein 16-Bit System.
Der Teilbandwert wird dann in eine 16-Bit Ganzzahl umgewandelt welche mit diesem Wert maskiert wird, und den Daten, welche auf die N am wenigsten bedeutenden Bits (ausschließlich natürlich des letzten Bits) eingefügt werden, um einen Abtastwert S als Resultat zu haben. Um die möglichst genaue Darstellung des Signals sicher zu stellen, wird ein Rundungswert zu S addiert, +0,5, wenn das Signal positiv ist, und –0,5, wenn es negativ ist. Dies hat eine fast perfekte Rekonstruktion im Analyse-Filter als Resultat und die Daten werden perfekt wiederhergestellt.
Ein einfaches Verfahren zum Einfügen der Daten ist, die Daten als einen Bitstrom zu behandeln und so viele Bits in jedes Teilband einzufügen wie möglich. Um jedoch Synchronisation anzuzeigen wäre es hilfreich, eine Sequenz in zwei (zeitlich) aufeinander folgende Werte von Teilband-Werten zu geben, sodass der gesamte Rahmen identifiziert werden kann.
Daten-Ausblendung
Um die Daten aus dem Signal auszublenden ist eine Ausrichtung der Filterbänke erforderlich, und ein Verfahren zur Beschreibung, wo sich die Daten befinden (die Bit-Zuweisung) und wie sie organisiert ist. Diese Punkte werden unten angesprochen.
Synchronisation
Um die Daten auszublenden ist Synchronisation mit dem 32-Sample und der Rahmenstruktur des Audiosignals erforderlich. Ein getrenntes Synchronisationssignal könnte gesendet werden, oder dieses Signal könnte in den gesendeten Daten enthalten sein. Eine andere Möglichkeit ist, die 32-Sample Grenze abzuleiten, und dann ein Synchronisationswort innerhalb der Daten zu verwenden, um die Rahmengrenze zu identifizieren. Dieser Aspekt wird unten weiter diskutiert.
Bit-Zuweisung
Um die Daten auszublenden muss die Position der Daten innerhalb der Teilbänder bekannt sein. Es gibt mehrere Optionen, wie diese Informationen befördert werden:
Die Bit-Zuweisung könnte implizit sein, indem im Empfänger der Daten dasselbe psychoakustische Modell vorgesehen ist, wie im Sender.
Die Bit-Zuweisung könnte getrennt angezeigt werden, z.B. in einem oberen, unbenutzten Teilband, in den Anwender-Bits eines AES/EBU-Bitstroms, oder durch eine andere Technik, welche auf das oben beschriebene System nicht störend einwirkt.
Die Bit-Zuweisung kann innerhalb des Raumes für Daten enthalten sein, mit vorgesehenen Mechanismen, um den Platz der Bit-Zuweisung anzuzeigen.
Die letzte Option wird unten diskutiert.
Datenorganisation
Wenn die Bit-Zuordnung bekannt ist, können die Daten in einer wie auch immer gearteten Form, welche für diese bestimmten Daten geeignet ist, übertragen werden. Es ist sowohl eine Prüfsumme, als auch ein Synchronisationswort empfehlenswert, um den Beginn des Rahmens und/oder der Daten zu definieren. Wenn die Bit-Zuweisung innerhalb der Daten mitgeführt wird, dann muss die dynamische Natur der Bit-Zuordnung mit berücksichtigt werden.
Eine beispielhafte Anordnung für MPEG-Layer 2-Audiosignale, welche nur 1 Bit-Zuordnung pro Rahmen verwendet (d.h., dass die 3 möglichen, unterschiedlichen Skalenwerte nicht berücksichtigt werden), wird diskutiert werden.
Es wird ein Synchronisations-Wort benötigt, um zu zeigen, wo der Rahmen beginnt. Danach müssen die Bit-Zuordnungen durch die Bit-Zuordnungen für jedes Teilband erfolgen, wünschenswerterweise mit einer Prüfsumme, und dann gefolgt von den eigentlichen Daten, wiederum wünschenswerterweise mit einer Prüfsumme. Dem Synchronisations-Wort sollte ein Zeiger zu dem Platz folgen, an welchem die Bit-Zuordnung enthalten ist. Aufgrund der dynamischen Natur der Bit-Zuordnung würde die Folgende Art und Weise der Organisation geeignet sein, bei der die Informationen vorzugsweise in einer notierten bzw. gelisteten Reihenfolge erscheinen (Details können sich ändern):
Synchronisations-Wort
Dieses sollte idealerweise im untersten Teilband mit verfügbarem Platz platziert werden, gewöhnlich das erste Teilband. Die Sequenz kann jeweils mit 1 Bit zu einer Zeit in (zeitlich) aufeinander folgende Teilbandwerte platziert werden und zwar in dem niedrigsten Bit, das zur Datenübertragung verfügbar ist. Der Datenempfänger muss möglicherweise nach diesem Wort suchen, wenn das Sync-Wort nicht im ersten Teilband platziert wird. Es gibt ein Minimum von 36 verfügbaren Bits, welche in einem Teilband pro Rahmen verfügbar sind, und zum Beispiel können 18 Bits für das Sync-Wort verwendet werden.
Zeiger zur Bit-Zuweisung
Dieser sollte auf Teilbänder zeigen, welche Datenraum verfügbar haben, um die Bit-Zuweisung zu speichern. Angenommen, wir verwenden 4 Bits pro Teilband, um die Bit-Zuweisung für das Teilband zu beschreiben, mit 32 Teilbändern benötigen wir insgesamt 128 Bits. Daher, angesichts dessen, dass wir mehrere von 36 Bits pro Teilband und Rahmen verfügbar haben, müssen wir in der Lage sein auf Bereiche zu zeigen, welche 4 mal 36 Bits enthalten. Angesichts dessen, dass in dem Synchronisations-Teilband 18 Bits verfügbar sind, besteht eine Möglichkeit darin, einen 4-Bit-Zeiger zu einem Teilband zu verwenden, und eine 2-Bit Zählung der Anzahl der verfügbaren Bits. Der 4-Bit Zeiger kann einen Offset aufwärts zum nächsten Teilband anzeigen (mit dem Bereich 1 bis 16). Die 2-Bit Zählung kann von 1 bis 4 Bits gehen, da 4 die maximale Zahl ist, die wir benötigen. Wir könnten dann drei dieser Zeiger in dem ersten Teilband haben. Ein Ausnahmefall könnte definiert werden, wenn nur Teilbänder mit 1 Bit verfügbar haben.
Bit-Zuweisung
Diese sollte 32 mal 4-Bits enthalten, um die Anzahl von verfügbaren Bits pro Teilband anzuzeigen. Es sollte idealerweise eine nachfolgende 16-Bit Prüfsumme aufweisen, um sicher zu stellen, dass die Daten korrekt sind, was eine Gesamtsumme von 144 Bits ergibt.
Die Daten können dann den obigen Kopfzeilen-Informationen folgen.
Das obige Schema weist einen Zusatz von 180 Bits pro Rahmen auf, welcher ungefähr 6900 Bits pro Sekunde pro Audiosignal-Kanal bei 44,1 kHz aufweist.
Die oben beschriebene Implementierung ist geeignet, um alle möglichen gewünschten Daten zu übertragen, zum Beispiel Lyrik, Grafiken, oder andere zusätzlichen Informationen. Eine andere Möglichkeit ist, insbesondere da, wo die Daten vorher kodiert worden sind, um Informationen auf vorher kodierten Entscheidungen zu übertragen, zum Beispiel, um Beeinträchtigungen in der Signalqualität zu reduzieren, welche durch hintereinander geschaltetes Dekodieren und Neukodieren verursacht werden, oder um das nachfolgende Kodieren zu vereinfachen.
Eine weitere Möglichkeit besteht darin, ein Synchronisationssignal oder Datenwort (zusätzlich zu weiteren Daten oder alleine) entweder beim Herstellen einer Synchronisation (wie oben erwähnt) zu unterstützen, oder das Neukodieren eines vorher kodierten Signals durch Ableiten vorangegangener Kodierungsentscheidungen zu erleichtern. Eine Anordnung zum Übertragen eines Synchronisationssignales wird nun beschrieben.
Übertragung eines Synchronisationssignales
Die Technik, welche unten beschrieben wird, ermöglicht das Ableiten von Synchronisation aus den Charakteristika des Signals selbst, eher als hinzugefügte Daten. Sie ist ebenfalls in der Lage, einen Niveauwechsel zu überstehen. Um das Verständnis zu erleichtern, werden die elementaren Prinzipien von MPEG-Audiosignalen, welche oben diskutiert wurden, nochmals mit Bezug auf diese spezielle Ausführung zusammengefasst.
Synchronisation mit Audiosignalen vom MPEG-Typ – Elementare Prinzipien
MPEG-Audiosignale verwenden einen Filter, um das Audiosignal in unterschiedliche Teilbänder aufzuteilen. Die PCM-Eingabe-Abtastwerte werden durch einen Analyse-Filter in entsprechende Teilband-Abtastwerte umgewandelt. Diese Abtastwerte werden dann durch einen Synthese-Filter zurück in PCM-Abtastwerte umgewandelt. Es gibt in diesem Prozess eine inhärente Verzögerung, abhängig von der Auslegung der Filterbanken.
Für alle 32 eingegebenen PCM-Abtastwerte erzeugt der Analyse-Filter 32 Werte, einen für jedes Teilband. Diese Gruppe von Teilbändern ist als ein „Teilband-Abtastwert" bekannt. Bei MPEG-Audiosignalen werden eine feste Anzahl von PCM-Abtastwerten, ein Rahmen, zusammen gruppiert, um das Kodieren effizienter zu machen. MPEG Layer 2 zum Beispiel verwendet eine Rahmenlänge von 1152 PCM-Abtastwerten, was äquivalent ist zu 36 Teilband-Abtastwerten ist. Informationen werden dann in dem MPEG-Bitstrom über den gesamten Rahmen übertragen, z.B. die Anzahl der Bits pro Teilband und sowohl das Niveau von jedem Subband sowie die quantisierten Teilband-Werte.
Die Art der Filterbank ist derart, dass, wenn ein vorher kodiertes Signal neu kodiert wird, die Original-Teilband-Abtastwerte nur dann wiederhergestellt werden, wenn sich die PCM-Abtastwerte, welche in die Analyse-Filterbank gehen, mit denselben 32-Abtastwert-Grenzen abgleichen, die in der ursprünglichen Kodierung verwendet wurden. Wenn die Filterbank 32-Abtastwert-Grenzen nicht angepasst sind, werden zusätzliche Störgeräusche in den Teilbändern auftreten.
Um das Audiosignal nochmals optimal zu kodieren, wäre es hilfreich zu wissen, wo die 32-Abtastwert-Grenze liegt, um das Einfügen von zusätzlichen Störgeräuschen zu vermeiden. Es wäre ebenfalls hilfreich zu wissen, wo die Rahmengrenze liegt, sodass Berechnungen der entsprechenden Bit-Zuweisungen exakt auf demselben Signal basieren. Theoretisch könnte dies zu transparentem Neu-Kodieren führen.
Bei dieser Anwendung der Erfindung ist es das Ziel, eine spezielle Identifizierungssequenz in ein Teilband in einem Decoder einzufügen, welches dann in das lineare PCM-Ausgangssignal eingebettet wird. Ein nachfolgender Encoder kann diese Information verwenden, um die 32-Abtastwert-Grenzen in der Original-Kodierung abzuleiten, und/oder die Rahmengrenze abzuleiten, auf der die ursprüngliche Kodierung basierte.
Ein Vorteil der Technik, welche nun beschrieben wird ist, dass Ableitung aus Ausführung einer Filterbank auf das Audiosignal direkt ist. Durch Einfügen dieser Identifizierungssequenz in ein oberes Teilband, wird das Signal unhörbar und kontinuierlich vorhanden. Es könnte alternativ in ein unteres Teilband eingefügt werden, für sich allein, als ein Identifizierungssignal, oder getragen unterhalb des Audiosignals. Ein geeignetes Identifizierungssignal könnte immer noch nach einem Niveauwechsel dekodiert werden.
Identifizierungs-Sequenzen einfügen
Durch Einfügen einer passenden Identifizierungs-Sequenz in ein Teilband werden die ursprünglichen Werte dieser Sequenz nur dann exakt wiederhergestellt, wenn die ursprünglichen 32-Abtastwert-Grenzen des Ausgangs-Analyse-Filters in der aktuellen Analyse-Filterbank übereinstimmen. Daher wird, wenn das PCM-Audiosignal durch etwas anderes als 32 Abtastwerte versetzt ist, eine andere eindeutige Sequenz erzeugt. Aus dieser können die ursprünglichen 32-Abtastwert-Grenzen ermittelt werden. Wenn die Sequenz über die Länge eines Rahmens eindeutig ist (z.B. 1152 PCM-Abtastwerte für Layer 2, äquivalent zu 36 aufeinander folgenden Werten in einem bestimmten Teilband), kann die Rahmenposition einfach abgeleitet werden. Eine veranschaulichende Sequenz wird in 5 gezeigt.
Wenn auf das PCM-Audiosignal eine Änderung der Verstärkung angewendet wird, werden nur die betreffenden bzw. relativen Niveaus der Identifizierungs-Sequenz verändert. Somit könnten immer noch dieselben Informationen abgeleitet werden, abhängig von dem eingefügten Niveau der Identifizierungs-Sequenz. Bei sorgfältiger Wahl einer geeigneten Identifizierungs-Sequenz, kann die Rahmenposition mit nur einer Teilmenge ihrer 36 Abtastwerte berechnet werden. Die Sequenz umfasst vorzugsweise mindesten 4 Wörter.
Beispielhafte Identifizierungs-Sequenz
Eine beispielhafte Synchronisations-Sequenz, in 6 gezeigt, besteht aus einer Sinuswelle, bei welcher bestimmte Punkte auf Null gesetzt sind. Diese kann in ein oberes Teilband eingefügt werden, z.B. Teilband 30. Für 48 kHz Abtastwerte liegt dies oberhalb des maximalen Teilbands (27), definiert durch den MPEG-Standard. Daher würde dieses zusätzliche Synchronisations-Signal von einem „verstimmten" Kodierer nicht kodiert werden.
Diese Sequenz sollte vor dem Synthese-Filter in ein geeignetes Teilband eingefügt werden (siehe 7). Der Analyse-Filter würde dann Teilband-Abtastwerte erzeugen aus denen der Rahmen und 32-Abtastwert-Grenzen abgeleitet werden können.
Um den Offset zu analysieren kann der modifizierte Kodierer das folgende einfache Verfahren verwenden (angenommen, dass er zu diesem Zeitpunkt keine Synchronisations-Informationen hat):
Beziehe die nächsten 32 PCM-Abtastwerte ein und bediene die Filterbank um einen Teilband-Abtastwert zu erhalten.
Extrahiere den Wert aus dem entsprechenden Teilband (z.B. 30).
Prüfe diesen Wert gegen eine Tabelle aller bekannten, möglichen Werte für alle Offsets. (Eine Tabelle von 32 bis 36 Werten.)
Wenn eine Übereinstimmung gefunden wurde, bediene die Filterbank wieder einige Male und prüfe die aufeinander folgenden Werte in der Tabelle.
Leite das exakte Abtastwert-Offset ab, welcher von der Position in der Tabelle gefordert wird.
Wenn die Filterbank wieder mit dem korrekten Offset bedient wurde, kann die Anpassung sehr einfach doppelt überprüft werden.
Wenn das Synchronisations-Signal sorgfältig bestimmt wird, um eindeutige Werte für alle der Offsets und Positionen zu geben, kann die Zahl der Vergleiche auf einem Minimum gehalten werden. Das Synchronisations-Signal, welches oben definiert wurde, würde eine definite Antwort geben, nachdem die Filterbank 4-mal bedient wurde, z.B. mit nur 4 Teilband-Abtastwerten. Es ist möglich, andere Synchronisationssignale zu definieren, welche die Verzögerung direkt anzeigen würden, aber es gibt eine Abwägung darüber, wie viel Verarbeitungsleistung erforderlich ist, um die Filterbank auszuführen, gegenüber der Zeit, welche erforderlich ist, um Tabellen zu suchen und Werte abzuleiten.
Ein Verfahren, um Synchronisation zu bestimmen, wenn Verstärkung auf das Signal angewendet wurde, ist im Prinzip ähnlich zu dem Obigen, aber die relativen Niveaus der aufeinander folgenden Abtastwerte sollten verwendet werden. Z.B. würde, wenn die Teilband-Werte A, B, C, ... sind, eine Tabelle von A/B, B/C, ... verwendet. Dies kann weitere Anforderungen an das Synchronisations-Signal erzwingen. Das obige Signal könnte ebenfalls anzeigen, ob es eine Inversionsphase des Audiosignals gegeben hatte.
Um kurz zu wiederholen, es wurden Techniken beschrieben, um Daten in einem Datenstrom auf eine An und Weise „transparent" zu übertragen, welche mit nachfolgender oder vorhergehender Kodierung kompatibel ist, insbesondere mit MPEG-typ Audio-Signal-Kodierung. Techniken zum Herstellen von Synchronisation mit einem vorher kodierten Signal sind ebenfalls beschrieben worden. Die Erfindung kann auf andere Anwendungen ausgedehnt werden, und die oben erwähnten, bevorzugten Eigenschaften können unabhängig vorgesehen werden, sofern nicht anderweitig dargelegt.

Claims

Verfahren zum Einfügen von digitalen Zusatz- bzw. Hilfsdaten in einen digitalen Hauptdatenstrom, der ein definiertes, unkomprimiertes Format aufweist, wobei der digitale Hauptdatenstrom vorher in das definierte komprimierte Format, entsprechend einem definierten Kodierschemas, kodiert wurde, um einen kodierten Datenstrom zu erzeugen, wobei das Verfahren, welches das Empfangen und Dekodieren des kodierten Datenstroms umfasst, um den digitalen Hauptdatenstrom in dem definierten, unkomprimierten Format zu erzeugen, wobei die definierte Kodierschemakompression von dem definierten unkomprimierten Format zu dem definierten komprimierten Format kodiert, wobei das Verfahren Analysieren und Identifizieren basierend auf der Zusammensetzung des empfangenen Datenstroms, und basierend auf den Eigenschaften des definierten Kodierschemas, wenigstens einer Komponente des Hauptdatenstroms aufweist die das definierte, unkomprimierte Format hat, welches keinen wesentlichen Beitrag zu dem vorher kodierten Datenstrom macht, der das definierte, komprimierte Format aufweist, und dem Zusatz- bzw. Hilfsdatenstrom werden bei dem Dekoder, der das digitale Hauptdatensignal von dem kodierten Datenstrom erzeugt, in die oder jede Komponente eingesetzt, um einen Ausgabedatenstrom zu erzeugen, der das definierte, unkomprimierte Format aufweist, das die Zusatz- bzw. Hilfsdaten trägt.
Verfahren gemäß Anspruch 1, bei welchem das Identifizieren der oder jeder Komponente auf Informationen basiert, die die vorhergehende Kodierung betreffen.
Verfahren zum Einfügen von digitalen Zusatz- bzw. Hilfsdaten in einen digitalen Hauptdatenstrom, der: ein definiertes, unkomprimiertes Format aufweist, wobei der digitale Hauptdatenstrom anschließend in ein definiertes, komprimiertes Format entsprechend einem definierten Kodierschemas zu, kodieren ist, um einen kodierten Datenstrom zu erzeugen, wobei die definierte Kodierschemakomprimierung vor dem definierten unkomprimierten Format zu dem definierten komprimierten Format kodiert, wobei das Verfahren das Empfangen des digitalen Hauptdatenstroms in dem definierten unkomprimierten Format, das Analysieren und das Identifizieren des empfangenen Datenstroms basierend auf der Zusammensetzung des empfangenen Datenstroms und basierend auf den Eigenschaften des definierten Kodierschemas umfasst, wobei mindestens eine Komponente des Hauptdatenstroms, die das definierte unkomprimierte Format aufweist, das im Wesentlichen keinen Beitrag zu dem anschließend kodierten Datenstrom leistet, welcher das definierte komprimierte Format aufweist, und an einer Dateneinfügungseinheit die kombinierte Funktionen eines Kodierers und eines Dekodierers zu dem Analysieren aufweist, werden Daten von dem Zusatz- bzw. Hilfsdatenstrom in die oder jede Komponente eingefügt, um einen Ausgangsdatenstrom zu erzeugen, der das definierte, unkomprimierte Format aufweist, das die Zusatz- bzw. Hilfsdaten trägt.
Verfahren gemäß irgend einem der vorhergehenden Ansprüche, bei dem die Hauptdaten Audiodaten umfassen, die entsprechend einem Audiokodierungsschema vom MPEG-Typ zu kodieren sind, und das Identifizieren wenigstens einer Komponente umfasst die Abschätzung von Quantisierungspegeln, wobei die Zusatz- bzw. Hilfsdaten bei einem Pegel unter dem Quantisierungsrauschuntergrund eingefügt werden.
Verfahren zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Hauptdatenstrom gemäß irgend einem der vorangehenden Ansprüche, wobei der Hauptdatenstrom ein Audiodatenstrom ist, der anschließend gemäß einem definierten Kodierungsschema, durch Analysieren der Audiodaten in einer Vielzahl von Sub-Bändern, und Quantisieren der Sub-Bänder zu kodieren ist, oder welcher Audiodatenstrom vorher gemäß dem besagten definierten Kodierungsschema kodiert und dekodiert worden ist, wobei das Verfahren das Abschätzen von Sub-Bändern und Quantisierungspegelen für ein nachfolgendes oder vorangehendes Kodieren, und das Einfügen von Zusatz- bzw. Hilfsdaten einen Pegel im Wesentlichen unter dem Pegel des abgeschätzten Quantisierungsrauschens umfasst.
Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, das ferner das Kodieren des Ausgangsdatenstroms umfasst.
Verfahren gemäß Anspruch 6, welches das Anpassen oder Auswählen von wenigstens einem Parameter oder einer Entscheidung, der/die mit dem Kodieren verknüpft ist, in Abhängigkeit von Daten vom Zusatz- bzw. Hilfsdatenstrom aufweist.
Verfahren gemäß Anspruch 6 oder 7, bei dem die Zusatz- bzw. Hilfsdaten vor oder während des Kodierens extrahiert werden.
Verfahren gemäß irgend einem der vorausgehenden Ansprüche, bei welchem das Kodieren das Quantisieren von Datenworten entsprechend zu dem digitalen Hauptdatenstrom oder einer transformierten Version davon zu einer Vielzahl von Pegeln umfasst, die geringer als die Anzahl der Pegel ist, die durch die Datenworte kodierbar sind.
Verfahren gemäß Anspruch 4 oder 5 oder irgendeinem davon abhängigen Anspruch, bei welchem geschätzte Sub-Bänder und Quantisierungspegel das Umwandeln der Audiodaten von der Zeitdomäne in die Frequenzdomäne umfassen.
Verfahren gemäß Anspruch 10, bei welchem die Zusatz- bzw. Hilfsdaten in die Frequenzdomäne eingefügt werden, um modifizierte Frequenzdomänendaten zu erzeugen, und die modifizierten Frequenzdomänendaten werden zurück in die Zeitdomäne transformiert.
Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die Zusatz- bzw. Hilfsdaten dazu verwendet werden, um eine Synchronisierung mit einer vorangegangenen Kodierung des Hauptdatenstroms einzurichten aufrecht zu erhalten oder eine Konsistenz dazu.
Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die zu tragenden Zusatz- bzw. Hilfsdaten eine festgelegte Synchronisierungssequenz enthalten.
Verfahren gemäß Anspruch 13, bei welchem die Sequenz mindestens 4 Wörter umfasst.
Verfahren gemäß irgendeinem der vorausgehenden Ansprüche, bei welchem die Hauptdaten Audiodaten umfassen, die entsprechend eines Audiokodierungsschemas vom MPEG-Typ zu kodieren, sind und das ferner das Einfügen weiterer Daten in Sub Bänder unter dem Pegel der Hörbarkeit oder über dem Bereich des normalen Hörens umfasst.
Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Datenstrom, umfassend: Mittel zum Empfangen eines digitalen Hauptdatenstroms in einem definierten, unkomprimierten Format, wobei der digitale Hauptdatenstrom anschließend entsprechend einem festgelegten Kodierungsschema zu kodieren ist, um einen kodierten Datenstrom zu erzeugen, oder wobei der digitale Hauptdatenstrom vorher entsprechend einem festgelegten Kodierungsschema kodiert worden ist, um einen kodierten Datenstrom zu erzeugen, und zu dekodieren ist; Mittel zum Analysieren des empfangenen Datenstroms und zum Identifizieren mindestens einer Komponente des Hauptdatenstroms, die im Wesentlichen keinen Beitrag zum nachfolgend kodierten Datenstrom leistet oder die im Wesentlichen keinen Beitrag zum vorher kodierten Datenstrom leistet; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die oder jede Komponente, um einen auszugebenden Datenstrom zu erzeugen, der die Zusatz- bzw. Hilfsdaten trägt, bei welchem Mittel zum Einfügen von Daten kombinierte Funktionen eines Kodierers und eines Dekodierens aufweist, und das Mittel zum Analysieren zur Verfügung stellt.
Vorrichtung gemäß Anspruch 16, welche einen Dekodierer zum Dekodieren eines vorher kodierten Datenstroms umfasst, um den digitalen Hauptdatenstrom zu erzeugen.
Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Datenstrom, umfassend: Mittel zum Empfangen eines kodierten digitalen Datenstroms, der entsprechend einem festgelegten Kodierungsschema kodiert wurde; Mittel zum Dekodieren des empfangenen digitalen Datenstroms entsprechend zu dem festgelegten Kodierungsschema, um einen digitalen Hauptdatenstrom zu erzeugen; Mittel zum Analysieren und Identifizieren mindestens einer Komponente des Hauptdatenstroms, die im Wesentlichen keinen Beitrag zum vorher kodierten Datenstrom leisten; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die oder jede Komponente, um einen auszugebenden Datenstrom zu erzeugen, der die Zusatz- bzw. Hilfsdaten trägt, wobei die Mittel zum Einfügen in die Mittel zum Dekodieren integriert sind.
Vorrichtung gemäß irgendeinem der Ansprüche 16 bis 18, bei welchem die identifizierenden Mittel ihrerseits Mittel um Sub Bänder zu berechnen, die nicht belegt sind, oder Mittel zur Abschätzung von Quantisierungspegeln eines Audiokodierungsprozesses vom MPEG-Typ umfassen.
Vorrichtung zum Einfügen von Zusatz- bzw. Hilfsdaten in einen Hauptdatenstrom, gemäß irgendeinem der Ansprüche 16 bis 19, bei welchem der Hauptdatenstrom ein Audiodatenstrom ist, welcher anschließend entsprechend einem definierten Kodierungsschema Analysieren der Audiodaten in einer Vielzahl von Sub Bändern und Quantisierung der Sub Bändern, oder welcher der Audiodatenströme vorher entsprechend dem definierten Kodierungsschema kodiert wurde, zu kodieren ist, wobei das Vorrichtung umfasst: Mittel zurm Abschätzen von Sub- Bändern und Quantisierungspegeln für ein anschließendes oder vorheriges Kodieren; und Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten bei einem Pegel, der wesentlich unter des Pegels des abgeschätzten berechneten Quantisierungsrauschens ist.
Vorrichtung gemäß irgendeinem der Ansprüche 19 bis 20, wobei das Mittel zur Abschätzung von Sub-Bändern und Quantisierungspegeln ein Mittel zum Transformieren der Audiodaten von der Zeitdomäne in die Frequenzdomäne umfasst.
Vorrichtung gemäß Anspruch 21, welches ein Mittel zum Einfügen von Zusatz- bzw. Hilfsdaten in die Frequenzdomäne, um modifizierte Frequenzdomänedaten zu erzeugen und Mittel umfasst, um die modifizierten Frequenzdomänedaten in die Zeitdomäne zurück zu transformieren.
Vorrichtung gemäß Anspruch 17, bei welchem das Mittel zum Identifizieren der oder jeder Komponente oder zum Abschätzen von Sub Bändern und Quantisierungspegeln so eingerichtet ist, um Informationen zu benutzen, die das vorausgegangene Kodieren betreffen.
Vorrichtung gemäß Anspruch 17 oder 23, das so eingerichtet ist, um Zusatz- bzw. Hilfsdaten einzufügen, die dazu genutzt werden, um Synchronisation mit einem vorausgegangenen Kodieren des Hauptdatenstroms herzustellen, oder Konsistenz mit diesem aufrecht zu erhalten.
Vorrichtung gemäß irgendeinem der Ansprüche 16 bis 24, die eingerichtet ist, um eine definierte Synchronisierungssequenz wenigstens als Teil der Zusatz- bzw. Hilfsdaten einzufügen.
Vorrichtung gemäß Anspruch 25, bei welchem die Sequenz bzw. Abfolge mindestens 4 Wörter umfasst.
System gemäß irgendeinem der Ansprüche 16 bis 26, das ferner Mittel zum Kodieren des Ausgangsdatenstroms umfasst.