DE19743662A1 - Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms - Google Patents
Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-DatenstromsInfo
- Publication number
- DE19743662A1 DE19743662A1 DE19743662A DE19743662A DE19743662A1 DE 19743662 A1 DE19743662 A1 DE 19743662A1 DE 19743662 A DE19743662 A DE 19743662A DE 19743662 A DE19743662 A DE 19743662A DE 19743662 A1 DE19743662 A1 DE 19743662A1
- Authority
- DE
- Germany
- Prior art keywords
- core
- data stream
- audio data
- enhancement
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/665—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung
zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms.
Die Erfindung ist anwendbar auf dem Gebiet der
Datenkommunikation, insbesondere auf dem Gebiet der
Audio-Datenkommunikation.
Eine bekannte Problemstellung auf dem Gebiet der
Datenkommunikation ist, daß das zu übertragende
Datensignal in einer Datenquelle mit einer hohen Datenrate
zur Verfügung steht, bspw. mit 64 kbit je Sekunde, aber der
für eine Übertragung oder Verarbeitung zur Verfügung
stehende Datenkanal die übertragenden Daten nur mit einer
geringeren Datenrate übertragen kann, bspw. mit 32 kbit pro
Sekunde. In diesem Fall müssen die Daten zunächst mit der
hohen Datenrate dekodiert werden und anschließend mit der
geringeren Datenrate neu kodiert werden. Dies bedingt einem
hohen apparatetechnischen und rechentechnischen Aufwand,
insbesondere da in modernen Datennetzen die Datenrate nicht
konstant ist, sondern variabel ist und an den jeweiligen
Belastungsfall des Datennetzes angepaßt wird. Günstiger
wäre demgegenüber die Bereitstellung eines
bitratenskalierbaren Datenstroms, von dem nur ein Teil der
zur Verfügung stehenden Datenbits übertragen werden,
jeweils entsprechend der Datenrate, die der
Übertragungskanal zur Verfügung stellt. Entsprechende
Verfahren zur Erzeugung bitratenskalierbarer Audio-
Datenströme werden derzeit weltweit insbesondere im Rahmen
von Standardisierungsbemühungen unternommen, bspw. im
Rahmen der MPEG4 (Moving Picture Expert Group)-Stan
dardisierung. Insbesondere müssen die im Rahmen der
MPEG4-standardisierten entwickelten CODEC (COder/DECoder)
die Funktionalität der Bitratenskalierbarkeit
gewährleisten.
Der Erfindung liegt daher das Problem zugrunde, ein
Verfahren und eine Vorrichtung zur Erzeugung eines
bitratenskalierbaren Audio-Datenstromes bereitzustellen,
die vielseitig einsetzbar sind, auch bei geringer zur
Verfügung stehender Übertragungsrate eine gute
Übertragungsqualität gewährleisten, und mit geringem
Aufwand ein hohes Maß an Flexibilität hinsichtlich der
Anpassung an die zur Verfügung stehende Übertragungs-Da
tenrate erzielen.
Das Problem wird durch die in den unabhängigen
Patentansprüchen offenbarten Verfahren, Vorrichtungen und
Verwendungen gelöst. Besondere Ausführungsarten der
Erfindung sind in den Unteransprüchen offenbart.
Das Problem ist bei einem Verfahren zur Erzeugung eines
bitratenskalierbaren Audio-Datenstromes mit den Schritten
Komprimieren des Audio-Eingangs-Datenstroms in einem Core-Codec
unter Ermittlung von Core-Parametern, und Verbessern
der Codierung in mindestens einer nachgeschalteten
Enhancement-Stufe, dadurch gelöst, daß das Verbessern in
der Enhancement-Stufe von den Core-Parametern gesteuert
wird. Bei dem erfindungsgemäßen Verfahren bildet der Core-Codec
die Kerneinheit und codiert den ankommenden Eingangs-Da
tenstrom mit einer niedrigen Bitrate von bspw. 2, 4 oder
6 kbit pro Sekunde. Der Core-Codec wird gefolgt von einer
beliebigen Anzahl sogenannter Enhancement- oder
Verbesserungs-Stufen, die je nach Anwendung mit einer
Datenrate von 1, 2, 3 oder 4 kbit pro Sekunde codieren. Ein
Vorteil dieses Verfahrens ist, daß das Weglassen einer
beliebigen Enhancement-Stufe keine Auswirkung auf die
anderen Teile des Bit-Stroms hat. Eine wesentliche
Bedingung ist, daß das zur Verfügung stehende
Übertragungssystem zumindest die Bitrate des Core-Codec
garantiert. Der Core-Codec parametrisiert das eingehende
Audio-Signal und ermittelt bspw. Parameter wie Tonhöhe,
stimmhafte/stimmlose Laute oder die Lautstärke. Eingesetzt
werden kann bspw. ein Core-Codec gemäß ITU-T G.723.1 (ITU,
International Telecommunication Union). Vorteilhaft ist bei
dem erfindungsgemäßen Verfahren insbesondere, daß die von
dem Core-Codec ermittelten Core-Parameter die
nachgeschalteten Enhancement-Stufen steuern, weil dadurch
eine erhebliche Erhöhung der Effizienz der Enhancement-Stu
fen erreicht wird.
In einer besonderen Ausführungsart der Erfindung ist das
Verfahren dadurch gekennzeichnet, daß in der Enhancement-Stu
fe eine Vektorcodierung erfolgt und daß die Core-Pa
rameter die Auswahl von Code-Büchern steuern. Dies ist
vorteilhaft, da in periodischen Audio-Abschnitten andere
Code-Bücher für die Vektorcodierung verwendet werden als in
nichtperiodischen Audio-Abschnitten. Außerdem werden zur
Codierung der Signalenergie (Lautstärke) die
Energieparameter des Core-Codec direkt verwendet, was zu
einer erheblichen Bitraten-Einsparung führt. Die Verwendung
der Core-Parameter ist möglich, da diese in jedem Fall zum
Empfänger übertragen werden.
In einer besonderen Ausführungsform ist das Verfahren
gekennzeichnet durch die Schritte Transformieren des Audio-
Eingangs-Datenstroms, Transformieren eines von dem Core-Codec
erstellten synthetisierten Audio-Signals, und
Verknüpfen des transformierten synthetisierten Audio-Sig
nals mit dem transformierten Audio-Datenstrom. Dadurch
wird vorteilhaft mit geringem Aufwand und hoher Genauigkeit
der Unterschied zwischen dem vom Core-Codec komprimierten
Audio-Signal und dem Original-Signal ermittelt. Bei der
Verknüpfung kann es sich im einfachsten Fall um eine
Differenzbildung handeln; es können jedoch auch komplexere
Operationen enthalten sein, wie bspw. eine Anpassung des
Core-Spektrums zur besseren Adaption an das Original-Spek
trum. In der letztgenannten besonderen Ausführungsart
der Erfindung sind die der Anpassung dienenden
Verknüpfungsparameter an den Empfänger zu übertragen.
In einer besonderen Ausführungsart der Erfindung ist das
Verfahren dadurch gekennzeichnet, daß der Core-Codec das
Eingangssignal in mindestens zwei Unterrahmen unterteilt,
daß es sich bei dem Transformieren um eine
Frequenztransformation handelt, die synchron zu den
Unterrahmen des Core-Codec abläuft, daß durch die
Frequenztransformation je Unterrahmen eine Transformation
durchgeführt wird, die jeweils einen Spektrumsvektor
hervorbringt, daß jeder Spektrumsvektor in mindestens zwei
Teilvektoren entsprechend zwei Teilbändern unterteilt wird,
und daß jede Enhancement-Stufe eines dieser Teilbänder
verbessert. Die verwendete Frequenztransformation und die
Unterteilung in Teilbänder bietet den Vorteil, daß das
erfindungsgemäße Verfahren nicht nur nach objektiven
Kriterien eine hohe Effizienz bei der Bitratenskalierung
ermöglicht, sondern daß auch subjektive Kriterien, wie
bspw. die akustisch-physiologischen Randbedingungen des
menschlichen Gehörs, berücksichtigt werden. Welches
Teilband verbessert wird, wird über eine Ressourcen-Zu
teilungseinheit ermittelt. Diese Ermittlung kann wie
bereits erwähnt über ein psychoakustisches Modell erfolgen,
das feststellt, welche Frequenzbänder subjektiv wichtig
sind, oder bspw. über Signal/Rausch-Abstandsmessungen
erfolgen.
In einer besonderen Ausführungsart der Erfindung ist das
Verfahren dadurch gekennzeichnet, daß je
Verbesserungsstufe ein Parametersatz und eine Adresse des
verbesserten Teilbandes übertragen wird. Da die
Zuteilungseinheit die Teilbänder in der Reihenfolge ihrer
Wichtigkeit verbessert, bietet diese Ausführungsart der
Erfindung den Vorteil, daß die verbesserten Bits im
Bitstrom in der Reihenfolge ihrer Wichtigkeit abgespeichert
sind. Da jede Stufe mit einer Adresse versehen ist, kann
dies im Empfänger problemlos und zuverlässig richtig
zugeordnet werden. Eine Skalierung ist nun besonders
problemlos und ohne jeden zusätzlich Aufwand lediglich
durch Unterdrückung einer entsprechenden Anzahl von
Verbesserungsstufen möglich, wobei mit der letzten,
unwichtigsten Stufe begonnen wird. Weiterhin ist
vorteilhaft, daß diese Skalierung an einem beliebigen
Punkt der Übertragungsstrecke vorgenommen werden kann.
Dabei ist eine zusätzliche Modifikation des verbleibenden
Bitstroms nicht erforderlich.
In einer besonderen Ausführungsart der Erfindung ist das
Verfahren gekennzeichnet durch Abspeichern, für jedes
Teilband, wie viele Verbesserungsstufen für das jeweilige
Teilband in einem zu übertragenden Bitstrom hintereinander
vorhanden sind, Abspeichern von Zusatzinformationen für die
Bestimmung der relativen Bedeutung der einzelnen
Verbesserungsstufen der Teilbänder, und Zusammenführung des
Bitstroms und der Zusatzinformation vor der Übertragung in
einer Bitstrom-Manipulationseinheit. Dabei ist von Vorteil,
daß gegenüber der vorgenannten Speicher- und
Übertragungsformatierung ein geringerer Overhead durch die
wegfallende Adressierung der einzelnen Verbesserungsstufen
anfällt. Dieser Vorteil ist insbesondere für
Datenbankzugriffe relevant.
In einer weiteren besonderen Ausführungsart der Erfindung
ist das Verfahren gekennzeichnet durch ein Erzeugen von
Teilbändern auf der Empfängerseite durch Berechnung aus
empfangenen, benachbarten Teilbändern, insbesondere durch
Interpolation. Für die Berechnung kommen neben der
Interpolation auch weitere Verfahren der Mathematik in
Betracht, bspw. Verfahren der Statistik unter
Berücksichtigung der Charakteristiken des übertragenen
Datenstroms. Vorteilhaft ist dabei, daß Teilbänder, die
aufgrund einer Übertragungsstörung oder
Übertragungsunterbrechung nicht oder nicht rechtzeitig beim
Empfänger ankommen, rekonstruiert werden können, oder daß
sogar Teilbänder vorausberechnet werden können, wenn
einzelne Teilbänder oder Datenpakete auf dem
Übertragungsweg verzögert werden.
Zu der Lehre der Erfindung gehört auch eine Vorrichtung zur
Erzeugung eines bitratenskalierbaren Audio-Datenstroms mit
einem Core-Codec, der den Audio-Eingangs-Datenstrom unter
Ermittlung von Core-Parametern komprimiert, und mindestens
einer, dem Core-Codec nachgeschalteten Enhancement-Stufe,
dadurch gekennzeichnet, daß der Core-Codec mit der
Enhancement-Stufe verbunden ist, und daß die Core-Pa
rameter die Enhancement-Stufe steuern. Eine derartige
Vorrichtung wird insbesondere dann von der Lehre der
vorliegenden Erfindung erfaßt, wenn sie eines der
vorstehend beschriebenen Verfahren ausführt, insbesondere
wenn sie ein Verfahren ausführt, bei dem die Vorrichtung
eine Zuteilungssteuerung aufweist, die steuert, welches
Teilband verbessert wird. Für die erfindungsgemäße
Vorrichtung gelten die im Rahmen der Beschreibung des
erfindungsgemäßen Verfahrens vorstehend genannten Vorteile
entsprechend.
Von der Lehre der Erfindung wird auch erfaßt die
Verwendung von Core-Parametern eines Core-Codec zum Steuern
der Verbesserung der Codierung in einer Enhancement-Stufe.
Vorteilhaft ist dabei insbesondere, daß die vom Core-Codec
ermittelten und übertragenen Core-Parameter, die eine
Parametrisierung des Eingangssignals repräsentieren,
wirksam für die Steuerung der Verbesserungs-Stufen
eingesetzt werden können und insbesondere die subjektive
Übertragungsqualität schon ab einer ersten
Verbesserungsstufe deutlich verbessern.
Von der Lehre der Erfindung wird auch erfaßt ein
Datenträger, auf dem Steuerinformationen gespeichert sind,
dadurch gekennzeichnet, daß die Steuerinformationen den
Ablauf eines der vorstehend beschriebenen Verfahren in
einer elektronischen Rechenanlage oder in einer der
vorstehend beschriebenen Vorrichtungen steuern. Der
Datenträger kann dabei die Steuerinformation in beliebiger
Form speichern, insbesondere in mechanischer, optischer,
magnetischer oder elektronischer Form speichern.
Vorteilhaft ist insbesondere, daß die so gespeicherten
Steuerinformationen portabel, einfach zu implementieren,
kostengünstig zu reproduzieren und mit geringem Aufwand zu
warten sind. Eine Implementierung der Steuerinformation in
einer elektronischen Rechenanlage ist mit Mitteln des
Standes der Technik möglich.
Weitere Vorteile, Merkmale und Einzelheiten der Erfindung
ergeben sich aus den Unteransprüchen sowie der
nachfolgenden Beschreibung, in der unter Bezugnahme auf die
Zeichnungen mehrere Ausführungsbeispiele im Einzelnen
beschrieben sind. Dabei können die in den Ansprüchen und in
der Beschreibung erwähnten Merkmale jeweils einzeln für
sich oder in beliebiger Kombination erfindungswesentlich
sein. Ein Weg zum Ausführen der beanspruchten Erfindung ist
nachfolgend anhand der Zeichnungen im Einzelnen erläutert.
Fig. 1 zeigt die erfindungsgemäße Vorrichtung mit einem
Core-Codec und zwei Enhancement-Stufen.
Fig. 2 zeigt die Unterteilung eines Rahmens des
Core-Codec in vier Unterrahmen.
Fig. 3 zeigt ein Speicher- und Übertragungsformat, das
den subjektiven Prioritäten entspricht.
Fig. 4a zeigt ein alternatives Speicher- und
Übertragungsformat, das weniger Adressie
rungs-Overhead aufweist.
Fig. 4b zeigt eine Bitmanipulations-Einheit entsprechend
dem alternativen Speicher- und Übertragungsformat
der Fig. 4a.
Die Fig. 1 zeigt eine erfindungsgemäße Vorrichtung mit
einem Core-Codec 100 und zwei Enhancement-Stufen 110, 120.
Das Eingangssignal 130 wird zunächst mit dem Core-Encoder
101 komprimiert. Dieser Core-Encoder 101 kann einen
beliebigen Algorithmus repräsentieren und kann mit einer
beliebigen Abtastrate arbeiten. In einer bevorzugten
Ausführungsform wird ein standardisierter Codec, bspw. ein
Codec ITU-T, verwendet. Der vom Core-Encoder 101 erzeugte
Bitstrom, die Core-Paramenter 102, wird abgespeichert.
Anschließend erfolgt eine Decodierung mittels des Core-De
coder 103 unter Verwendung des Core-Algorithmus. Das vom
Core-Decoder 103 erzeugte synthetisierte Audiosignal 104
wird, ebenso wie das ursprüngliche Eingangssignal 130,
einer Rechenoperation 105 unterzogen. Diese Rechenoperation
kann bspw. eine schnelle Fourier-Transformation (FFT) eine
MDCT (Modified Discrete Cosine Transformation) oder eine
QMF-Filterbank sein. Durch die Transformation 105 entsteht
aus dem synthetisierten Audio-Signal 104 ein
transformiertes, synthetisiertes Audio-Signal 106. Mittels
der gleichen Transformation 105 entsteht aus dem
Eingangssignal 130 ein transformiertes Eingangssignal 107.
Das Eingangssignal 130, das transformierte Eingangssignal
107 und das transformierte, synthetisierte Audio-Signal 106
werden einer Zuteilungssteuerung 140 zugeführt. Außerdem
werden die beiden Signale 106, 107 durch eine Operation 108
miteinander verknüpft. Im einfachsten Fall kann diese
Operation 108 eine Differenzbildung (Subtraktion) sein, sie
kann jedoch auch komplexere Operationen enthalten, bspw.
eine Anpassung des Core-Spektrums zur besseren Adaption an
das Original-Spektrum, wobei in diesem Fall die Anpas
sungs- oder Kontroll-Parameter ebenfalls zu übertragen sind 109.
Das Verknüpfungssignal 111 wird anschließend einer ersten
Verbesserungs- oder Enhancementstufe 110 zugeführt. Diese
Verbesserungsstufe 110 kodiert nun das anstehende Signal
111. Als Codieralgorithmen sind verschiedene Verfahren der
Audio-Codierung möglich, vorzugsweise wird eine
Vektorquantisierung bzw. eine Vektorcodierung verwendet.
Die Ergebnisse bzw. die Parameter 102 des Core-Codec 100
werden für die Steuerung und Konfiguration 112 dieses
Codierabschnittes 113 der ersten Verbesserungsstufe 110
verwendet. Durch diese Maßnahme wird die Effizienz der
Verbesserungsstufe 110 wesentlich verbessert. Die
Verwendung der Core-Parameter 102 ist möglich, da diese auf
jeden Fall zum Empfänger übertragen werden. Im
dargestellten Fall steuern diese Core-Parameter 102 eine
Codebuchauswahl. In periodischen Audio-Abschnitten werden
andere Codebücher verwendet als in nichtperiodischen Audio-Ab
schnitten. Außerdem werden für die Codierung der
Signalenergie (Lautstärke) die Energieparameter des Core-Codec
100 direkt verwendet, was zu einer Bitraten-Ein
sparung führt. Die Code-Bücher sind insbesondere
trainiert und optimiert und werden ausgewählt, je nachdem
in welchem Sprachabschnitt sich das Audio-Signal derzeit
befindet, bspw. ob eine stimmhafte Lautfolge oder eine
stimmlose Lautfolge vorliegt. Auf der Empfängerseite können
die eingehenden empfangenen Daten interpretiert werden.
Die erste Verbesserungsstufe 110 erzeugt Enhancement 1
Parameter 114, die abgespeichert bzw. zum Empfänger
übertragen werden. Durch eine Decodierung 115 entsteht
wiederum ein decodiertes, verbessertes Signal 116. Das
Signal 116 wird zusammen mit dem transformierten,
synthetisierten Audio-Signal 106 einer inversen
Differenzbildung 117 zugeführt. Das aus der inversen
Differenzbildung 117 entstehende Signal 118 wird wiederum
zusammen mit dem transformierten Eingangssignal 107 einer
Verknüpfung 119 am Eingang einer zweiten Verbesserungsstufe
120 zugeführt. Es werden so viele Verbesserungsstufen 110,
120 angefügt, bis die auf dem Übertragungskanal zur
Verfügung stehende Bitrate voll ausgeschöpft ist. Die
Zuteilungssteuerung 140 steuert dabei die Codierstufen 113,
121 der Verbesserungsstufen 110, 120.
In dem vorgestellten Ausführungsbeispiel wird als
Transformation 105 eine Frequenztransformation,
insbesondere eine MDCT, durchgeführt. Diese Transformation
läuft synchron zu den Unterrahmen (subframes) des Core-Co
dec 100, bei dem es sich um einen Core-Codec vom Typ ITU-T
G.723.1 handelt. Dieser Core-Codec-Typ benutzt einen
Rahmen von 30 Millisekunden Dauer, der in vier Unterrahmen
mit jeweils 7,5 Millisekunden Dauer unterteilt ist.
Die Fig. 2 zeigt eine Unterteilung es Rahmens in vier
Unterrahmen, wobei für jeden Rahmen ein Vektor mit
Spektralwerten erzeugt wird, die nach subjektiven Kriterien
in Bänder eingeteilt sind, bspw. durch eine Gruppierung
nach BARKSCALE. Die Fig. 2 zeigt entlang der horizontalen
Zeitachse t einen Teil eines vorhergehenden Rahmens n-l
sowie einen kompletten Rahmen n 200. Pro Rahmen werden vier
Transformationen durchgeführt und entsprechend vier
Vektoren 210, 220, 230, 240 erzeugt. Jedem Spektrumsvektor
entspricht im Zeitbereich ein Unterrahmen der Dauer 7,5
Millisekunden. Jeder Spektrumsvektor wird in vier
Teilbänder unterteilt. Entsprechend weist der
Spektrumsvektor 210 vier Teilbänder 211 bis 214 auf, der
Spektrumsvektor 220 weist vier Teilbänder 221 bis 224 auf,
der Spektrumsvektor 230 weist vier Teilbänder 231 bis 234
auf und der Spektrumsvektor 240 weist vier Teilbänder 241
bis 244 auf. Damit existieren pro Rahmen 200 insgesamt
sechzehn Teilbänder. In jeder Verbesserungsstufe des
Codieralgorithmus wird nun eines dieser sechs zehn
Teilbänder verbessert. Welches Teilband dabei verbessert
wird, wird über die Zuteilungssteuerung 140 ermittelt und
bestimmt. Diese Bestimmung kann auf der Grundlage eines
psychoakustischen Modells erfolgen, das feststellt, welche
Frequenzbänder subjektiv wichtig sind, oder über
Signal/Rausch-Abstandsmessungen erfolgen. Die
Verbesserungsstufe erzeugt einen Parametersatz, der
abgespeichert wird. Zusätzlich zu diesen Parametern wird
noch die Adresse des Bandes abgespeichert, welches
verbessert wurde. Das verbesserte Teilband wird nun für die
weitere Codierung berücksichtigt und der
Verbesserungsvorgang erfolgt erneut. Dementsprechend kann
davon ausgegangen werden, daß die Bits einer n-ten
Verbesserungsstufe subjektiv wichtiger sind als die Bits
einer (n+1)-ten Stufe. Es ist auch möglich, daß mehrere
Verbesserungsstufen das gleiche Teilband verbessern.
Die Fig. 3 zeigt die gespeicherte bzw. übertragene
Bitfolge. Die Bitfolge beginnt mit den aus dem Core-Codec
100 ermittelten Core-Parametern 102. Darauf folgen nach
einer Adresse 213 des verbesserten Teilbandes die Parameter
der ersten Verbesserungsstufe ENH 1 114. Darauf folgt die
Adresse 232 des zweiten verbesserten Teilbandes sowie die
zugehörigen Enhancement-Parameter ENH 2. Das Ende des
Bitstroms bildet die Adresse 222 des letzten verbesserten
Teilbandes sowie die zugehörigen Enhancement-Parameter
ENHK. Durch die Anordnung der Bits im Bitstrom in der
Reihenfolge Core, erste Verbesserungsstufe, zweite
Verbesserungsstufe usw. bis zur letzten Verbesserungsstufe
werden die Bits automatisch entsprechend ihrer subjektiven
Wichtigkeit geordnet. Da jede Stufe mit einer Adresse 213,
232, 221 versehen ist, kann dies im Empfänger richtig
zugeordnet werden. Eine Skalierung auf die zur Verfügung
stehende Bitrate ist nun problemlos und ohne Aufwand durch
Unterdrückung der Verbesserungsstufen möglich, wobei mit
der letzten, unwichtigsten Stufe ENH K begonnen wird. Diese
Skalierung kann an einem beliebigen Punkt der
Übertragungsstrecke vorgenommen werden.
Einzelne Teilbänder müssen auch nicht absolut codiert
werden, sondern können durch Prädiktion oder Interpolation
aus benachbarten Bändern in einfacher Weise berechnet oder
approximiert werden. Damit ist es möglich, einige
Teilbänder nicht, oder nur mittels einer weniger
Interpolationsparameter zu übertragen, und sie im Empfänger
aus den benachbarten Bändern zu erzeugen. Im dargestellten
Beispiel ist es möglich, die Teilbänder 212 und 232 aus den
benachbarten Teilbändern zu interpolieren. Die
Interpolation kann dabei sowohl aus zeitlich benachbarten
Teilbändern wie auch aus im spektralen Frequenzbereich
benachbarten Teilbändern erfolgen. Die beschriebenen
Verfahren sind auch dann anwendbar, wenn die Transformation
weniger als vier mal pro Rahmen durchgeführt wird, bspw.
nur einmal. Günstige Realisierungen ergeben sich immer
dann, wenn im Verbesserungsteil die gleiche Anzahl von
Unterrahmen verwendet wird wie im Core-Codec.
Die Fig. 4a zeigt ein alternatives Speicher- und
Übertragungsformat, welches weniger Adressierungs-Overhead
aufweist. Ein solches Speicherformat ist insbesondere für
Datenbankzugriffe geeignet. Für jedes Teilband 211, 212,
244 wird abgespeichert, wieviel Verbesserungsstufen N 211,
N 212, N 244 dafür im Bitstrom vorhanden sind und alle
Verbesserungsbits 2110, 2120, 2440 werden anschließend
hintereinander abgespeichert. Damit geht die Organisation
des Bitstroms nach der subjektiven Wichtigkeit verloren. Um
bei der Skalierung jedoch zunächst die subjektiv
unwichtigsten Bits unterdrücken zu können, werden für jeden
Audio-Datenrahmen zusätzliche Skalierungsinformationen 2000
abgespeichert, welche diese Information der subjektiven
Wichtigkeit beinhalten.
Die Fig. 4b zeigt eine Bitmanipulationseinheit
entsprechend dem alternativen Speicher- und
Übertragungsformat der Fig. 4a. Die
Bitmanipulationseinheit 410 erhält aus einer Audio-Da
tenbank 405 den Audio-Datenstrom 400 sowie die
Skalierungsinformation 401. Entsprechend einer vorgegebenen
Bitrate 402 werden nun in der Bitmanipulationseinheit 410
so viele Verbesserungsstufen unterdrückt, bis die zur
Verfügung stehende Bitrate erreicht ist. Die
Nebeninformationen im Bitstrom, insbesondere die Anzahl der
Verbesserungsstufen je Teilband, muß natürlich nach dem
Entfernen einer Stufe korrigiert werden. Der resultierende
Datenstrom 420 wird anschließend übertragen.
Zwei wesentliche Anwendungsgebiete für die
Bitratenskalierung sind nachfolgend beschrieben.
Bei einem Zugriff auf eine Audio-Datenbank, auf der eine
Audioquelle mit maximaler Bitrate, bspw. mit 64 kbit pro
Sekunde, encodiert und abgespeichert ist, kann mit
unterschiedlichen Übertragungssystemen, die eine
unterschiedliche Bitrate aufweisen, zugegriffen werden. Die
Bitrate ist vor dem Versenden daher an die zur Verfügung
stehende Bitrate des Übertragungssystems durch
Unterdrückung geeigneter Bits oder durch Transcodierung
anzupassen. Im Empfänger wird dabei eine für die skalierte
Bitrate optimale Qualität garantiert.
Ein weiteres Beispiel ist die Übertragung in
Übertragungssystemen mit variabler Bitrate, bspw. durch
einen sogenannten ATM (Asynchronus Transfer Modus) -Modus
oder bspw. im Internet. Bei einer derartigen Anwendung kann
die Bitrate durch Unterdrückung geeigneter Bits in einem
Vermittlungsknoten lokal angepaßt werden, wenn dieser
Vermittlungsknoten wegen Überlastung oder sonstiger
Einflüsse den Audio-Datenstrom nicht mehr unverändert
verarbeiten kann, um somit eine kontinuierliche Übertragung
zu sichern.
Claims (15)
1. Ein Verfahren zur Erzeugung eines bitratenskalierbaren
Audio-Datenstroms, aufweisend die Schritte:
Komprimieren des Audio-Datenstroms in einem Core-Codec (100) unter Ermittlung von Core-Parametern (102), und Verbessern der Codierung in mindestens einer nachgeschalteten Enhancement-Stufe (110), dadurch gekennzeichnet, daß das Verbessern in der Enhancement-Stufe (110) von den Core-Parametern (102) gesteuert wird.
Komprimieren des Audio-Datenstroms in einem Core-Codec (100) unter Ermittlung von Core-Parametern (102), und Verbessern der Codierung in mindestens einer nachgeschalteten Enhancement-Stufe (110), dadurch gekennzeichnet, daß das Verbessern in der Enhancement-Stufe (110) von den Core-Parametern (102) gesteuert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
daß in der Enhancement-Stufe (102) eine
Vektorcodierung erfolgt.
3. Verfahren nach Anspruch 1 oder 2, dadurch
gekennzeichnet, daß die Core-Parameter (102) die
Auswahl von Code-Büchern steuern.
4. Verfahren nach einem der Ansprüche 1 bis 3,
gekennzeichnet durch die Schritte: Transformieren
(105) des Audio-Datenstroms (130), Transformieren
(105) eines von dem Core-Codec (100) erstellten
synthetisierten Audio-Signals (104), und Verknüpfen
(108) des transformierten synthetisierten Audio-Sig
nals (106) mit dem transformierten Audio-Da
tenstroms (107)
5. Verfahren nach Anspruch 4, gekennzeichnet durch das
Übertragen-der Verknüpfungsparameter an den Empfänger.
6. Verfahren nach Anspruch 4 oder 5, dadurch
gekennzeichnet, daß der Core-Codec (100) das
Eingangssignal (130) in mindestens zwei Unterrahmen
unterteilt, und daß es sich bei dem Transformieren
(105) um eine Frequenztransformation handelt, die
synchron zu den Unterrahmen des Core-Codec (100)
abläuft.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
daß durch die Frequenztransformation (105) je
Unterrahmen eine Transformation durchgeführt wird, die
jeweils einen Spektrumsvektor (210, 220, 230, 240)
hervorbringt, daß jeder Spektrumsvektor (210) in
mindestens zwei Teilbänder (211 bis 214) unterteilt
ist, und daß jede Enhancement-Stufe (110, 120) eines
dieser Teilbänder (211 bis 214) verbessert.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet,
daß je Enhancement-Stufe (110) ein Parametersatz
(ENH 1) und eine Adresse (213) des verbesserten
Teilbandes übertragen wird.
9. Verfahren nach Anspruch 7, gekennzeichnet durch
Abspeichern, für jedes Teilband, wieviele Enhancement-Stu
fen für das jeweilige Teilband in einem zu
übertragenden Bitstrom hintereinander vorhanden sind
(N211), Abspeichern von Zusatzinformationen (2000) für
die Bestimmung der relativen Bedeutung der einzelnen
Verbesserungsstufen der Teilbänder, und Zusammenführen
des Bitstroms (400) und der Zusatzinformation (401)
vor der Übertragung in einer Bitstrom-Mani
pulationseinheit (410).
10. Verfahren nach einem der Ansprüche 7 bis 9,
gekennzeichnet durch Erzeugen von Teilbändern auf der
Empfängerseite durch Berechnung aus empfangenen,
benachbarten Teilbändern, insbesondere durch
Interpolation.
11. Vorrichtung zur Erzeugung eines bitratenskalierbaren
Audio-Datenstroms mit einem Core-Codec (100), der den
Audio-Datenstrom (130) unter Ermittlung von Core-Pa
rametern (102) komprimiert, und mindestens einer,
dem Core-Codec (100) nachgeschalteten Enhancement-Stu
fe (110), dadurch gekennzeichnet, daß der Core-Codec
(100) mit der Enhancement-Stufe (110) verbunden
ist, und daß die Core-Parameter (102) die
Enhancement-Stufe (110) steuern.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet,
daß die Vorrichtung ein Verfahren nach einem der
Ansprüche 1 bis 10 ausführt.
13. Vorrichtung zur Erzeugung eines bitratenskalierbaren
Audio-Datenstroms, dadurch gekennzeichnet, daß die
Vorrichtung ein Verfahren nach einem der Ansprüche 7
bis 10 ausführt, und daß die Vorrichtung eine
Zuteilungssteuerung (140) aufweist, die steuert,
welches Teilband verbessert wird.
14. Verwendung von Core-Parametern (102) eines Core-Codec
(100) zum Steuern der Verbesserung der Codierung in
einer Enhancement-Stufe (110).
15. Datenträger, auf dem Steuerinformationen gespeichert
sind, dadurch gekennzeichnet, daß die
Steuerinformationen den Ablauf eines Verfahrens nach
einem der Ansprüche 1 bis 10 in einer elektronischen
Rechenanlage oder in einer Vorrichtung nach einem der
Ansprüche 11 bis 13 steuern.
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19743662A DE19743662A1 (de) | 1997-10-02 | 1997-10-02 | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms |
PCT/DE1998/002877 WO1999018673A1 (de) | 1997-10-02 | 1998-09-29 | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms |
JP2000515343A JP2001519552A (ja) | 1997-10-02 | 1998-09-29 | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 |
DE59807135T DE59807135D1 (de) | 1997-10-02 | 1998-09-29 | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms |
EP98958174A EP1023777B1 (de) | 1997-10-02 | 1998-09-29 | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms |
US09/509,842 US6526384B1 (en) | 1997-10-02 | 1998-09-29 | Method and device for limiting a stream of audio data with a scaleable bit rate |
JP2010041499A JP2010170142A (ja) | 1997-10-02 | 2010-02-26 | ビットレートスケーラブルなオーディオデータストリームを生成する方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19743662A DE19743662A1 (de) | 1997-10-02 | 1997-10-02 | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19743662A1 true DE19743662A1 (de) | 1999-04-08 |
Family
ID=7844454
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19743662A Withdrawn DE19743662A1 (de) | 1997-10-02 | 1997-10-02 | Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms |
DE59807135T Expired - Lifetime DE59807135D1 (de) | 1997-10-02 | 1998-09-29 | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59807135T Expired - Lifetime DE59807135D1 (de) | 1997-10-02 | 1998-09-29 | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms |
Country Status (5)
Country | Link |
---|---|
US (1) | US6526384B1 (de) |
EP (1) | EP1023777B1 (de) |
JP (2) | JP2001519552A (de) |
DE (2) | DE19743662A1 (de) |
WO (1) | WO1999018673A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001011609A1 (en) * | 1999-08-09 | 2001-02-15 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
DE10049571C1 (de) * | 2000-10-06 | 2002-06-13 | Siemens Ag | Verfahren und Anordnung zum Übertragen eines Vektors |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI106758B (fi) | 1999-04-16 | 2001-03-30 | Nokia Networks Oy | Segmentointimekanismi lohkoenkooderia varten |
JP3463752B2 (ja) | 2001-07-25 | 2003-11-05 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法および音響復号化方法 |
JP3469567B2 (ja) | 2001-09-03 | 2003-11-25 | 三菱電機株式会社 | 音響符号化装置、音響復号化装置、音響符号化方法及び音響復号化方法 |
KR100494555B1 (ko) * | 2001-12-19 | 2005-06-10 | 한국전자통신연구원 | 광대역 음성신호의 전송방법 및 그 장치 |
KR100465318B1 (ko) * | 2002-12-20 | 2005-01-13 | 학교법인연세대학교 | 광대역 음성신호의 송수신 장치 및 그 송수신 방법 |
DE10328777A1 (de) * | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
GB2403634B (en) * | 2003-06-30 | 2006-11-29 | Nokia Corp | An audio encoder |
KR100940531B1 (ko) * | 2003-07-16 | 2010-02-10 | 삼성전자주식회사 | 광대역 음성 신호 압축 및 복원 장치와 그 방법 |
EP1881485A1 (de) * | 2006-07-18 | 2008-01-23 | Deutsche Thomson-Brandt Gmbh | Audiobitstromdatenstruktur eines verlustbehafteten kodierten Signals mit verlustfreien Erweiterungkodierungsdaten für ein solches Signal. |
GB0822537D0 (en) * | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
FR2947944A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Codage/decodage perfectionne de signaux audionumeriques |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
WO2012065081A1 (en) * | 2010-11-12 | 2012-05-18 | Polycom, Inc. | Scalable audio in a multi-point environment |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0285902A3 (de) | 1987-04-07 | 1990-10-10 | Siemens Aktiengesellschaft | Verfahren zur Datenreduktion digitaler Bildsequenzen |
JPH02143735A (ja) * | 1988-11-25 | 1990-06-01 | Victor Co Of Japan Ltd | 音声多段符号化伝送方式 |
JPH0815261B2 (ja) * | 1991-06-06 | 1996-02-14 | 松下電器産業株式会社 | 適応変換ベクトル量子化符号化法 |
FI92272C (fi) * | 1992-05-20 | 1994-10-10 | Valtion Teknillinen | Kuvansiirtojärjestelmän tiivistyskoodausmenetelmä |
JP2976701B2 (ja) * | 1992-06-24 | 1999-11-10 | 日本電気株式会社 | 量子化ビット数割当方法 |
JP3139602B2 (ja) * | 1995-03-24 | 2001-03-05 | 日本電信電話株式会社 | 音響信号符号化方法及び復号化方法 |
JP3186020B2 (ja) * | 1995-09-26 | 2001-07-11 | 日本電信電話株式会社 | 音響信号変換復号化方法 |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
CN1126264C (zh) * | 1996-02-08 | 2003-10-29 | 松下电器产业株式会社 | 宽频带声音信号编码装置和宽频带声音信号编码解码装置 |
US6446037B1 (en) * | 1999-08-09 | 2002-09-03 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
-
1997
- 1997-10-02 DE DE19743662A patent/DE19743662A1/de not_active Withdrawn
-
1998
- 1998-09-29 WO PCT/DE1998/002877 patent/WO1999018673A1/de active IP Right Grant
- 1998-09-29 US US09/509,842 patent/US6526384B1/en not_active Expired - Lifetime
- 1998-09-29 EP EP98958174A patent/EP1023777B1/de not_active Expired - Lifetime
- 1998-09-29 JP JP2000515343A patent/JP2001519552A/ja active Pending
- 1998-09-29 DE DE59807135T patent/DE59807135D1/de not_active Expired - Lifetime
-
2010
- 2010-02-26 JP JP2010041499A patent/JP2010170142A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001011609A1 (en) * | 1999-08-09 | 2001-02-15 | Dolby Laboratories Licensing Corporation | Scalable coding method for high quality audio |
DE10049571C1 (de) * | 2000-10-06 | 2002-06-13 | Siemens Ag | Verfahren und Anordnung zum Übertragen eines Vektors |
US9014273B2 (en) | 2000-10-06 | 2015-04-21 | Apple Inc. | Method and assembly used for vector transfer |
Also Published As
Publication number | Publication date |
---|---|
JP2001519552A (ja) | 2001-10-23 |
EP1023777A1 (de) | 2000-08-02 |
US6526384B1 (en) | 2003-02-25 |
WO1999018673A1 (de) | 1999-04-15 |
EP1023777B1 (de) | 2003-02-05 |
DE59807135D1 (de) | 2003-03-13 |
JP2010170142A (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE19811039B4 (de) | Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen | |
EP1145227B1 (de) | Verfahren und vorrichtung zum verschleiern eines fehlers in einem codierten audiosignal und verfahren und vorrichtung zum decodieren eines codierten audiosignals | |
DE60214027T2 (de) | Kodiervorrichtung und dekodiervorrichtung | |
DE19747132C2 (de) | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms | |
DE60012198T2 (de) | Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung | |
DE2945414C2 (de) | Sprachsignal-Voraussageprozessor und Verfahren zur Verarbeitung eines Sprachleistungssignals | |
DE60206390T2 (de) | Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate | |
DE60207061T2 (de) | Audiokompression | |
DE60012860T2 (de) | Verfahren zur Verarbeitung mehrerer digitaler Audiodatenströme | |
EP2022043B1 (de) | Informationssignalcodierung | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE19647298C2 (de) | Kodiersystem | |
EP1953739B1 (de) | Verfahren und Vorrichtung zur Geräuschsunterdrückung bei einem decodierten Signal | |
DE60128121T2 (de) | Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale | |
DE60319590T2 (de) | Verfahren zur codierung und decodierung von audio mit variabler rate | |
DE102006051673A1 (de) | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale | |
DE102008042579A1 (de) | Verfahren zur Fehlerverdeckung bei fehlerhafter Übertragung von Sprachdaten | |
DE3710664A1 (de) | System zum uebertragen eines sprachsignals | |
DE69820362T2 (de) | Nichtlinearer Filter zur Geräuschunterdrückung in linearen Prädiktions-Sprachkodierungs-Vorrichtungen | |
DE602004007550T2 (de) | Verbesserte frequenzbereichs-fehlerverbergung | |
DE602005003358T2 (de) | Audiokodierung | |
WO1998048531A1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
DE60124079T2 (de) | Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8127 | New person/name/address of the applicant |
Owner name: SIEMENS AG, 80333 MUENCHEN, DE |
|
8139 | Disposal/non-payment of the annual fee |