DE69531471T2

DE69531471T2 - Mehrkanalsignalkodierung unter Verwendung gewichteter Vektorquantisierung

Info

Publication number: DE69531471T2
Application number: DE69531471T
Authority: DE
Inventors: Takehiro Takorozawa-shi Moriya; Naoki Yokohama-shi Iwakami
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-05-06
Filing date: 1995-05-05
Publication date: 2004-07-01
Anticipated expiration: 2015-05-06
Also published as: EP0684705A3; EP0684705A2; DE69531471D1; US5651090A; EP0684705B1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft Verfahren zum Codieren und Decodieren von Mehrkanalsignalen, als eine Einheit oder kollektiv, sowie einen Codierer bzw. einen Decodierer, die solche Verfahren verwenden.
Die Mehrkanalsignale, wie hier erwähnt, sind z. B. Audiosignale von rechtem und linkem Kanal, Vielkanalsignale, Kombinationen von akustischen und Bildsignalen, mehrere Sequenzsignale, die durch Verteilen eines Einkanalsignals auf eine Mehrzahl von Sequenzen in regelmäßigen Zeitintervallen erhalten sind, oder mehrere Signalsequenzen, die durch Aufspalten eines Einkanalsignals in eine Mehrzahl von Frequenzbändern erhalten sind; die vorliegende Erfindung ist anwendbar auf beliebige Signale, so lange sie Signalsequenzen sind, zwischen denen sich ein Leistungsungleichgewicht entwickeln kann.
Ein bekanntes typisches Verfahren zur hocheffizienten Codierung eines akustischen Signals wie etwa von Sprache oder eines Musiksignals ist ein Transformationscodierverfahren, demzufolge Frequenzbereichskoeffizienten (Abtastwerte an jeweiligen Frequenzen der Frequenzcharakteristik des akustischen Signals), erhalten durch eine rahmenweise Zeit-Frequenz-Transformation (eine Fourier-Transformation) des akustischen Signals, unter Verwendung der Hüllkurve (oder spektralen Hüllkurve) der Frequenzcharakteristik des akustischen Signals normiert werden und die resultierenden Restkoeffizienten vektorquantisiert werden. Ein anderes typisches Codierverfahren ist ein CELP-(Coded-Excited Linear Prediction Coding)-Verfahren, demzufolge ein Sprachsignal einer LPC(Linear Predictive Coding)-Analyse im Zeitbereich unterzogen wird und so erhaltene Vorhersagekoeffizienten als Filterkoeffizienten zum Synthetisieren von Sprache aus einem Erregungssignal durch ein Synthesefilter verwendet werden; das Erregungssignal ist mit einem Frequenzkomponentenvektor und einem Rauschkomponentenvektor codiert, so dass die Verzerrung der synthetisierten Sprache minimiert ist.
In 1A und 1B sind ein Encoder 10 und ein Decoder 50 gezeigt, die das herkömmliche Transformationscodierverfahren verwenden. Im Encoder 10 wird ein Musik-, Sprach- oder anderes akustisches Signal A_T, das als digitale Signalsequenz von einem Eingangsanschluss 11 aus zugeführt wird, in ein MDCT-(Modified Discrete Cosine Transform)-Teil 23 eingegeben, wo es rahmenweise, beispielsweise in Zeitintervallen von 16 bis 64 ms oder dergleichen im Falle eines Musiksignals und ca. 10 bis 20 ms im Falle eines Sprachsignals, in Frequenzbereichskoeffizienten A_F umgeformt wird. Gleichzeitig wird das akustische Signal A_T vom Eingangsanschluss 11 in ein Rechenteil 24 zum Berechnen der spektralen Hüllkurve eingegeben, wo die spektrale Hüllkurve des akustischen Eingangssignals A_T berechnet wird, dann wird die Hüllkurve in einem Quantisierteil 25 quantisiert, von dem ein Hüllindex I_E bereitgestellt wird, und in einem Normierungsteil 26 werden die Frequenzbereichskoeffizienten A_F aus dem MDCT-Teil 23 durch die quantisierte Hüllkurve Eq aus dem Quantisierteil 25 in weniger stark fluktierende Restkoeffizienten X dividiert. In einem Skalarquantisierteil 27 werden die Restkoeffizienten X skalar-quantisiert; in diesem Fall werden Bits jeweils Frequenzbändern entsprechend der Frequenzcharakteristik des akustischen Eingangssignals A_T zugeteilt. Diese Bitzuteilung findet in einem Bitzuteilungsrechenteil 28 statt. Ein Zuteilungsindex I_B wird als Zuteilungsinformation B von einem Codierteil 29 geliefert, und die Restkoeffizienten X sind skalar-quantisiert entsprechend der Bitzuteilung in dem Skalarquantisierteil 27, von dem quantisierte Restkoeffizienten Xq bereitgestellt werden.
In dem Decoder 50, wie in 1B abgebildet, werden die darin eingegebenen Indizes I_E und I_B in Decodierteilen 62 und 63 in die spektrale Hüllkurve Eq bzw. die Bitzuteilungsinformation B decodiert. In einem Decodierteil 64 werden die quantisierten Restkoeffizienten Xq auf der Grundlage der Bitzuteilungsinformation B zu den Restkoeffizienten X' decodiert. Die decodierte Hüllkurve Eq wird einem Denormierungsteil 65 bereitgestellt, in dem sie denormiert wird durch Multiplizieren mit den Restkoeffizienten X', wodurch die Frequenzbereichskoeffizienten wiederhergestellt werden. Die Frequenzbereichskoeffizienten, bezeichnet mit A_F', werden einem IMDCT-(Inverse Modified Discrete Cosine Transformation)-Teil 66 bereitgestellt, in dem sie durch eine inverse modifizierte diskrete Kosinustransformation in ein akustisches Signal A_T' im Zeitbereich rückumgewandelt werden; das akustische Signal A_T' wird einem Ausgangsanschluss 51 zugeführt.
2A zeigt die Konfiguration eines Sprachsignalencoders, der das CELP-Verfahren verwendet, der im Wesentlichen zu dem beispielsweise im US-Patent Nr. 5 195 137 offenbarten äquivalent ist. Ein dem Eingangsanschluss 11 zugeführtes Sprachsignal wird einer linearen vorhersagenden Codieranalyse in einem LPC-Analyseteil 12 für jeden Rahmen einer festgelegten Länge unterzogen, um lineare Vorhersagekoeffizienten α zu erhalten, die als Filterkoeffizienten einem LPC-Synthesefilter 13 zur Verfügung gestellt werden. In einem adaptiven Codebuch 14 ist ein im vorhergehenden Rahmen festgelegter und dem Synthesefilter 13 zur Verfügung gestellter Erregungsvektor E gespeichert. Ein Segment einer Länge S wird aus dem Erregungsvektor ausgeschnitten; ein solches Segment wird wiederholt verbunden, bis eine Rahmenlänge T erreicht ist, wodurch ein adaptiver Codevektor (auch als Tonhöhen-Komponentenvektor bezeichnet) erzeugt wird, der einer Sprachperiodenkomponente entspricht. Durch Ändern der Ausschnittlänge S kann auch ein adaptiver Codevektor, der einer anderen Tonhöhen-Komponente entspricht, erhalten werden. In einem Zufalls-Codebuch 16 ist eine Mehrzahl von zufälligen Codevektoren mit jeweils der Rahmenlänge aufgezeichnet; wenn ein Index C spezifiziert wird, wird der entsprechende Zufallscodevektor aus dem Zufallscodebuch 16 gelesen. Der adaptive Codevektor und der Zufallscodevektor, gelesen aus dem adaptiven Codebuch 14 und dem Zufallscodebuch 16, werden Multiplizierern 15 und 17 bereitgestellt, in denen sie mit Gewichtungsfaktoren (Gains) g₀ und g₁ multipliziert werden, die von dem Verzerrungsberechnungs-/Codebuchsuchteil 21 bereitgestellt werden. Die multiplizierten Ausgaben werden von einem Addierer 18 addiert, und die Addiererausgabe wird als Erregungsvektor E an das Synthesefilter 13 angelegt, um ein Sprachsignal zu synthetisieren.
Zuerst wird der Gewichtungsfaktor g₁ auf 0 gesetzt, und eine Segmentausschnittlänge S wird ausgewählt. Der Unterschied zwischen dem synthetisierten Sprachsignal (Vektor) aus dem Synthesefilter 13, angeregt durch den der ausgewählten Ausschnittlänge S entsprechenden adaptiven Codevektor, und dem Eingangssprachsignal (Vektor) wird mit einem Subtrahierer 19 berechnet. Der so erhaltene Fehlervektor wird dem Verzerrungsberechnungs-/Codebuchsuchteil 21 bereitgestellt, nachdem ihm im Bedarfsfall in einem psychoakustischen Gewichtungsteil 20 ein psychoakustisches Gewicht zugewiesen worden ist. In dem Verzerrungsberechnungs-/Codebuchsuchteil 21 wird die Summe der Quadrate von Elementen des gewichteten Fehlervektors (ein Intersymbolabstand) berechnet und als Verzerrung des synthetisierten Sprachsignals gespeichert. Durch Ändern der Ausschnittlänge S über einen vorgegebenen Wertebereich und dabei Wiederholen der obigen Verarbeitungen bestimmt das Verzerrungsberechnungs-/Codebuchsuchteil 21 einen bestimmten Wert der Ausschnittlänge S, der die synthetisierte Sprachverzerrung minimiert. Der Erregungsvektor E, der durch eine solche Manipulation erzeugt wird, wird dem Synthesefilter 13 zugeführt, um einen Ton zu synthetisieren, der wiederum vom Subtrahierer 19 aus dem Eingangssignal A_T entfernt wird, um eine Rauschkomponente zu erhalten. Dann wird der Zufallscodevektor, der die Verzerrung des synthetisierten Rauschens minimieren würde, aus dem Zufallscodebuch 16 ausgewählt, wobei die Rauschkomponente als Zielwert des synthetisierten Rauschens bei Verwendung des Zufallscodevektors aus dem Zufallscodebuch 16 als Erregungsvektor E verwendet wird; und der Index C wird erhalten, der dem so ausgewählten Zufallscodevektor entspricht. Der so bestimmte Zufallscodevektor wird benutzt, um den Gewichtungsfaktor g₁ zu berechnen, der die synthetisierte Sprachverzerrung minimieren würde. Die auf diese Weise festgelegten Gewichtungsfaktoren g₀ und g₁ sind als ein Gewichtungscode G = (g₀, g₁) in einem Codierteil 22 codiert. Die linearen Vorhersagekoeffizienten α, die Ausschnittlänge S, der Zufallscodevektorindex C und der Gewichtungscode G, die so für jeden Rahmen des eingegebenen Sprachsignals festgelegt werden, werden aus dem Encoder von 2A als dem Eingangssignal entsprechende Codes ausgegeben.
In einem Decoder wie in 2B gezeigt werden die diesem zugeführten linearen Vorhersagekoeffizienten α als Filterkoeffizienten in einem LPC-Synthesefilter 52 eingesetzt. Auf der Grundlage der Ausschnittlänge S und des Index C werden ein adaptiver Codevektor und ein Zufallsmustervektor aus einem adaptiven Codebuch 54 bzw. einem Zufallscodebuch 56 in der gleichen Weise wie beim Encoder von 2A gelesen; diese Vektoren werden den Multiplizierern 55 und 57 zugeführt, wo sie mit den Gewichtungsfaktoren g₀ und g₁ aus einem Gewichtungsrückgewinnungs- oder -decodierteil 53 multipliziert werden. Die multiplizierten Ausgaben werden durch einen Addierer 58 addiert, die Addiererausgabe wird als Erregungsvektor an den LPC-Synthesefilter 52 angelegt, aus dem synthetisierte Sprache dem Ausgangsanschluss 51 bereitgestellt wird.
Wie oben beschrieben, erzeugt der Encoder aus 2A die adaptiven Codevektoren durch wiederholtes Verbinden eines Segmentes, das aus dem Erregungsvektor des unmittelbar vorhergehenden Rahmens ausgeschnitten ist, der in dem adaptiven Codebuch gespeichert ist; wie jedoch z. B. in M. R. Schroeder und B. S. Atal "Code-Excited Linear Predition (CELP): High-Frequency Speech At Very Low Bit Rates", IEEE ICASSP '85, Seiten 937 bis 940 offenbart, kann das CELP-Schema das Erregungssignal in einer solchen Weise vektorquantisieren, dass die synthetisierte Sprachverzerrung durch Verwendung eines Codebuches mit einer Anzahl von vorgegebenen Wellenformvektoren als Erregungsvektoren minimiert wird. Es ist daher nicht immer notwendig, ein Codebuch zu verwenden, das adaptiv variiert, wie oben mit Bezug auf 2A beschrieben. Einem anderen CELP-Schema zufolge können die Vorhersagekoeffizienten erhalten werden durch eine LPC-Analyse von vorhergegangener synthetisierter Sprache, anstatt sie durch die LPC-Analyse des Eingangssprachsignals A_T wie in 2A zu berechnen, wie z. B. in Juin-Hwey Chen, High-Quality 16 kb/s Speech Coding With a One-Way Delay Less Than 2 ms", IEEE ICASSP '90, Seite 543 beschrieben. Dieses Schema vermeidet die Notwendigkeit, die Vorhersagekoeffizienten zu codieren und der decodierenden Seite zur Verfügung zu stellen.
Im Fall von Rechts- und Linkskanal-Audiosignalen z. B. beträgt ein Quantisierungsfehler für den Signalpegel jeweils 1/2⁵, wenn die rechten und linken Kanäle jeweils fest als 5-Bit-Information codiert sind. Wenn jedoch die Signalleistung zwischen rechtem und linken Kanal stark unausgeglichen ist, könnte der Quantisierungsfehler (Verzerrung) bis auf 1/2⁸ verringert werden, ohne die Gesamtmenge an Information für die Signalcodierung zu verändern, indem die gleiche Auflösung für rechte und linke Kanalpegel gemeinsam verwendet wird und beispielsweise 8 Bits an das Kanalsignal mit der größeren Leistung und 2 Bits an das Kanalsignal mit der kleineren Leistung zugeteilt werden.
Im Falle der Codierung von Stereosignalen von rechten und linken Kanälen mit einer vorgegebenen Informationsmenge durch Verwendung von zwei Sätzen solcher Codierer aus 2A ist es unmöglich, nur durch Codieren des Signals jedes Kanals mit nur einer Hälfte der Gesamtmenge der Information die Verzerrung durch effektive Ausnutzung von Eigenschaften solcher Stereosignale zu verringern, die manchmal ein starkes Leistungsungleichgewicht zwischen den Kanälen haben.
Ein bekanntes Verfahren zum Implementieren einer optimalen Codierung passend zu Leistungsungleichgewichten zwischen zwei Kanälen ist, Bits adaptiv auf der Grundlage des aus dem Codebuch gelesenen Index zuzuweisen. Mit dieser Technik ist die Zahl möglicher Arten von Bit-Zuteilung groß – dies führt zu der Notwendigkeit, ein Codebuch mit einer Größe zu verwenden, die der Zahl von die Bit-Zuweisungen darstellenden Indizes entspricht. Da jedoch in der Praxis die Codebuchgröße und der Verarbeitungsaufwand mit der Bitzahl als Potenz von zwei zunehmen, ist die Zuweisung von vielen Bits unpraktikabel. Außerdem würde ein Codefehler in der Gain-Information zu Mehrdeutigkeiten der Grenzen von Indizes führen, was zu schwerwiegenden Fehlern bei der Rekonstruktion aller Vektoren führen würde.
Auch im Fall der Verwendung von zwei Sätzen von Encodern aus 1A zum Codieren von rechtem und linkem Kanal von zweikanaligen Stereosignalen, zwischen denen manchmal ein starkes Leistungsungleichgewicht auftritt, könnte die Verringerung der Quantisierungsverzerrung aufgrund von Codieren mit der gleichen Infoimationsmenge für beide Kanäle erreicht werden durch Zuweisen von Bits zu rechtem und linkem Kanal in den Qantisierteilen 25 und den Bitzuteilungsrechenteilen 28 beider Kanäle entsprechend dem Leistungsungleichgewicht zwischen den Kanälen. Da dieses skalare Quantisierungsverfahren die Erzeugung eines Bitzuteilungscodes (des Index I_b) erfordert, der eng mit der spektralen Hüllkurve korreliert ist, wird die Effizienz des Encoders beeinträchtigt durch eine detaillierte Bitzuweisung an zu viele aus dem Frequenzband ausgeteilte enge Unterbänder. Wenn hingegen das Frequenzband in zwei relativ breite Unterbänder unterteilt ist, ist es unmöglich, ausreichend auf ein Ungleichgewicht der Frequenzcharakteristik des Eingangssignals zu reagieren; daher nimmt entsprechend die Quantisierungsverzerrung zu, und die Effizienz der Nutzung der Eingangssignalredundanz nimmt ab. Wenn ein Codefehler in dem Bitzuweisungsindex I_B auftritt, kommt die Aufteilung eines Bitzuges in die quantisierten Restkoeffizienten Xq durcheinander, was zu einer starken Verzerrung der codierten Restkoeffizienten X' auf der Decodierseite führt. Wie im Falle der CELP-Schemata wird ein Fehler bei der Decodierung des Bitzuteilungscodes rekonstruierte Sprache stark verzerren.
Die obige Beschreibung ist geliefert worden für zweikanalige akustische Signale, doch auch bei der Multiplexübertragung von Sprach- und Bildsignalen ist es üblich, jedes von diesen mit einer festen Informationsmenge zu codieren. Auch in diesem Fall ist es wünschenswert, wenn ein Informationsungleichgewicht zwischen Sprache und Information auftritt, diese Eigenschaft effizient zu nutzen. Z. B. hat Sprache stille Zeitspannen in sehr kurzen Intervallen; in stillen Zeitspannen muss im Wesentlichen keine Information übertragen werden. Auch in dem Fall, wo das Bild eine Interrahmenvorhersage durchläuft, um Information zu komprimieren, ist die zu sendende Informationsmenge sehr klein, wenn sich das Bild nicht bewegt. Wenn eine kombinierte Menge an Sprach- und Bildinformation festgelegt ist, kann die Gesamtverzerrung verringert werden durch eine adaptive Bitzuteilung zwischen beiden Arten von Information. Wie im Fall der oben erwähnten Stereosignale gibt es jedoch ernste Probleme bei der Vektorquantisierungsverarbeitung und der Robustheit gegen Codefehler.
Das Dokument International Conference on Acoustics, Speech and Signal Processing, 1984, Band 1, 19–21, März 1984, San Diego, Kalifornien, USA, Seiten 10.7.1 bis 10.7.4, XP002020702 Gersho et al.: „Fully Vector-Quantized Teilband Coding with Adaptive Codebook Allocation" offenbart einen Teilbandcodierer, der eine besondere Art von adaptiver Bitzuteilung verwendet. Der Teilbandcodierer spaltet ein Eingangssprachsignal in N Teilbänder auf und wendet Vektorquantisierung auf jedes Teilband an. In Abhängigkeit von der Leistungsverteilung unter den N Teilbändern wird das jeweils bestpassende von drei Codebüchern adaptiv jedem Teilband zugeteilt. Die drei Codebücher unterscheiden sich in der Zahl von Codevektoren, die sie enthalten, und somit in der Zahl von Bits, die erforderlich ist, um einen bestimmten Codevektor in dem jeweiligen Codebuch zu identifizieren. In dem bekannten Teilbandcodierer wird eine Analysefilterbank verwendet, um das Eingangs-Sprachsignal in die N Teilbänder aufzuspalten. Jedes Teilband ist dargestellt durch eine Folge von Teilbandvektoren, d. h. Blöcken von je acht Abtastwerten. Jeder Teilbandvektor wird erst mit der Gesamtleistung aller N Teilbandvektoren normiert. Dann wird die Leistung jedes der N normierten Teilbandvektoren erhalten und der jeweilige Vektor mit der jeweiligen Leistung normiert. Ein Leistungsvektor bestehend aus den N Leistungen aller Teilbänder wird auf eine Gain-Codebuchadresse j vektorquantisiert und wird dann verwendet, um das für jeden Teilbandvektor zu verwendende Codebuch festzulegen. Der entsprechende Decodierer empfängt die N Codebuchadressen k, die die N Teilbandvektoren, die Gain-Codebuch-Adresse und einen Index, der die Gesamtleistung aller Codebuchvektoren darstellt, um diese durch einen zum Codierprozeß im Wesentlichen inversen Prozess zu decodieren.
KURZBESCHREIBUNG DER ERFINDUNG
Ein Ziel der vorliegenden Erfindung ist, ein Codierverfahren anzugeben, das eine Verringerung der gesamten codierten Signalverzerrung ermöglicht, ohne die adaptive Bitzuteilung zwischen mehreren Kanälen beim Codieren der mehreren Kanäle mit einer kleinen Informationsmenge durch Multiplexieren zu beinhalten, ein Decodierverfahren zum Decodieren solcher codierter Signale und einen Encoder und einen Decodierer, die das Codier- bzw. Decodierverfahren verwenden.
Gemäß der vorliegenden Erfindung werden Signalkomponenten mehrerer Kanäle mit einem kombinierten Codebuch zu einem Signalvektor gewichtet vektorquantisiert, indem sie zusammen mit Gewichten kombiniert werden, die ihren Leistungskomponenten entsprechen; so ermöglicht die Erfindung eine Verringerung der Quantisierungsverzerrung durch Ausnutzung von Leistungsungleichgewicht zwischen Signalen der Kanäle, ohne die adaptive Bitzuteilung zu beinhalten. Außerdem wird durch Aufspaltung eines einkanaligen Signals in eine Mehrzahl von Teilkanälen Leistungsungleichgewicht in Richtung der Zeitachse auch wirksam genutzt, um die Quantisierungsverzerrung zu verringern – dies ermöglicht die Implementierung einer hocheffizienten Codierung.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1A ist ein Blockdiagramm eines Encoders, der eine Codierung mit einem herkömmlichen adaptiven Bitzuteilungs-/Skalarquantisierungsschema durchführt;
1B ist ein Blockdiagramm eines Decoders zur Verwendung mit dem Encoder aus 1A;
2A ist ein Blockdiagramm eines Encoders, der das herkömmliche CELP-Schema verwendet;
2B ist ein Blockdiagramm eines Decoders zur Verwendung mit dem Encoder aus 2A;
3A ist ein Blockdiagramm zur Erläuterung des Encoders nach den Prinzipien der vorliegenden Erfindung;
3B ist ein Blockdiagramm zur Erläuterung des Decoders nach den Prinzipien der vorliegenden Erfindung;
4A ist ein Blockdiagramm, das ein Beispiel des Encoders nach der vorliegenden Erfindung, angewendet auf das Transformationscodierschema, zeigt;
4B ist ein Blockdiagramm, das ein Beispiel der Konfiguration eines Rest-/Hüllkurvenrechenteiles in 4A zeigt,
5 ist ein Zeitdiagramm, das eine rahmenweise Segmentierung eines Eingangssignals in Teilrahmen und einen Rahmen für LOT-(Lapped Orthogonal Transform)-Verarbeitung in jedem Teilkanal zeigt;
6A ist ein Diagramm, das die Prozedur zum Ableiten einer spektralen Hüllkurve aus Vorhersagekoeffizienten in einem Hüllkurvenrechenteil 32E in 4A zeigt;
6B ist ein Diagramm, das eine abgewandelte Form der Prozedur von 6A zeigt;
7 ist ein Vektorelement-Anordnungsdiagramm, das Elemente von Restsequenzvektoren im Fall der Segmentierung von Rahmen des rechten und des linken Kanals in zwei Teile und ein Verschachtelungsschema dafür zeigt;
8 ist ein Vektorelement-Anordnungsdiagramm, das eine Abwandlung des Verschachtelungsschemas aus 7 zeigt;
9 ist ein Blockdiagramm, das die Konfiguration eines Vektorquantisierteiles zeigt;
10A ist ein Blockdiagramm, das ein anderes Beispiel jedes Rest-/Hüllkurvenrechenteiles in 4A zeigt;
10B ist ein Blockdiagramm, das ein weiteres Beispiel jedes Rest-/Hüllkurvenrechenteiles in 4A zeigt;
11 ist ein Blockdiagramm, das ein Beispiel eines Decoders zur Verwendung mit dem Encoder aus 4A zeigt;
12A ist ein Blockdiagramm, das ein Beispiel der Konfiguration zum Auswählen einer Mehrzahl von Verschachtelungsschemata im Encoder aus 4A zeigt;
12B ist ein Blockdiagramm, das ein Beispiel der Konfiguration zum Schalten eines zum Encoder aus 12A inversen Verschachtelungsschemas auf der Decoderseite zeigt;
13 ist ein Blockdiagramm, das die Funktionskonfiguration eines Encoders zeigt, der konstruiert ist, um nur einen transienten Rahmen eines Signals in Teilrahmen zu segmentieren;
14 ist ein Diagramm, das Beispiele der Rahmensegmentierung, der Segmentierung des transienten Rahmens in Teilrahmen und Fensterfunktionen in MDCTs im Encoder von 13 zeigt;
15 ist ein Blockdiagramm, das ein Beispiel der Funktionskonfiguration eines dem Encoder aus 13 entsprechenden Decoders zeigt;
16 ist ein Blockdiagramm, das ein Beispiel der Funktionskonfiguration eines Encoders zeigt, der das Codierverfahren aus 13 auf die Codierung von Stereosignalen anwendet;
17 ist ein Blockdiagramm, das ein Beispiel der Funktionskonfiguration eines dem Encoder aus 16 entsprechenden Decoders zeigt;
18 ist ein Blockdiagramm, das eine abgewandelte Konfiguration zum Codieren von Feinstrukturkoeffizienten anstelle des Codierens von Restkoeffizienten in den Encodern von 13 und 16 zeigt;
19 ist ein Blockdiagramm, das eine der 18 entsprechende abgewandelte Konfiguration in den Encodern der 15 und 17 zeigt;
20 ist ein Funktionsblockdiagramm, das die Konfiguration des Encoders nach der vorliegenden Erfindung, angewendet auf Multiplexcodierung von Bild- und akustischen Signalen, zeigt;
21 ist ein Blockdiagramm, das ein Beispiel der Konfiguration eines Interrahmen-Vorhersageteiles 95 in 20 zeigt;
22 ist ein Blockdiagramm, das die Konfiguration eines dem Encoder aus 20 entsprechenden Decoders zeigt;
23A ist ein Blockdiagramm, das den Encoder nach der vorliegenden Erfindung angewendet auf das CELP-Codierschema zeigt; und
23B ist ein Blockdiagramm eines dem Encoder aus 23A entsprechenden Decoders.
BESCHREIBUNG DER BEVORZUGTEN AUSGESTALTUNGEN
In 3A sind Funktionsblöcke eines Encoders zur Erläuterung der Prinzipien der vorliegenden Erfindung abgebildet. Signale (als Digitalsignale angenommen) von n (eine ganze Zahl größer oder gleich 2) Kanälen werden in jeweilige Kanäle CH₁ bis CH_n eingegeben und codiert. Die Signale der jeweiligen Kanäle werden in Signalsegmentierteilen 4₁ bis 4_n in Rahmen einer festgelegten Länge segmentiert und anschließend in Leistungsnormierungsteile 3₁ bis 3_n eingegeben. Die Leistungsnormierungsteile 3₁ bis 3_n berechnen Durchschnittsleistungen gewünschter Komponenten der Signale in den jeweiligen Rahmen und normieren (dividieren) die Signale durch die Durchschnittsleistungen, um normierte Signale X_N1 bis X_Nn zu erzeugen. Gleichzeitig geben die Leistungsnormierungsteile 3₁ bis 3_n Normierungsverstärkungen G₁ bis G_n (die jeweils den Durchschnittsleistungen entsprechen) und den Durchschnittsleistungen entsprechende Gewichte V₁ bis V_n aus.
Die Verarbeitung in den Leistungsnormierungsteilen 3₁ bis 3_n kann eine Verarbeitung im Zeitbereich oder im Frequenzbereich sein. Für die Durchschnittsleistungen G₁ bis G_n wird jeweils ein Wert in jeweils einem der Rahmen bestimmt. Wenn z. B. das Eingangssignal ein akustisches Signal ist, ist es in der Technik üblich, das psychoakustische Gewicht zu berücksichtigen; daher soll angenommen werden, dass die Gewichte V₁ bis V_n jeweils einen aus einer Mehrzahl von Elementen bestehenden Vektor darstellen. Alternativ kann, wie später beschrieben, wenn die Leistungsnoimierungsteile 3₁ bis 3_n eine Verarbeitung im Frequenzbereich durchführen, ein Leistungsungleichgewicht im Frequenzbereich auch verwendet werden, um die Quantisierungsverzerrung zu verringern, indem die spektrale Hüllkurve jedes Signals zum Gewicht beigetragen wird; auch in einem solchen Fall werden die Gewichte V₁ bis V_n als aus jeweils einer Mehrzahl von Elementen bestehende Vektoren gehandhabt. Bei der vorliegenden Erfindung jedoch können die Gewichte V₁ bis V_n auch ausschließlich von den Verstärkungen G₁ bis G_n abhängige Werte sein; in diesem Fall haben die Elemente in den jeweiligen Vektoren V₁ bis V_n gleiche Werte.
Die normierten Signale X_N1 bis X_Nn aus den Leistungsnormierungsteilen 3₁ bis 3_n werden einem Verschachtelungsteil 5 zugeführt, wo sie zu vorgegebenen Sequenzen kombiniert werden und aus dem sie als eine vorgegebene Zahl m (eine ganze Zahl größer oder gleich 1) von Signalvektoren X₁ bis X_m ausgegeben werden. In diesem Fall werden die normierten Signale kombiniert oder verschmolzen, so dass die Signalvektoren X₁ bis X_m jeweils Elemente enthalten, die Eingangssignalen von zwei oder mehr verschiedenen Kanälen entsprechen. Das Verschachtelungsteil 5 kombiniert auch die Gewichte V₁ bis V_n aus den Leistungsnormierungsteilen 3₁ bis 3_n in den gleichen Sequenzen wie denen der normierten Signale in dem Verschachtelungsteil 5 und gibt m Gewichtungsvektoren W₁ bis W_m aus. So wird die Entsprechung zwischen den Elementen der Gewichtungsvektoren W₁ bis W_m und den Elementen der Signalvektoren X₁ bis X_m aufrechterhalten.
Ein Vektorquantisierteil 6 hat ein eingebautes Codebuch 6CB, in dem Quantisierungsvektoren mit der gleichen Länge wie der der Signalvektoren entsprechend ihren Indizes vorgespeichert sind. Bei der herkömmlichen Vektorquantisierung wird ein einziges Codebuch für die Vektorquantisierung eines einzelnen Kanalsignals verwendet, doch bei der vorliegenden Erfindung wird jeder Quantisierungsvektor in dem einen Codebuch 6CB verwendet, um die Signalvektoren Y₁ bis Y_m mit Elementen, die den Signalen der Mehrzahl von verschiedenen Kanälen entsprechen, zu codieren; daher wird der Quantisierungsvektor im Folgenden als kombinierter Vektor bezeichnet, und das Codebuch 6CB mit vielen darin gespeicherten kombinierten Vektoren wird im Folgenden auch als kombiniertes Codebuch bezeichnet.
Das Vektorquantisierteil 6 durchsucht das kombinierte Codebuch 6CB nach den Signalvektoren Y₁ bis Y_m und basierend auf den den Quantisierungsvektoren entsprechenden Gewichtungsvektoren W₁ bis W_m bestimmt es Quantisierungsvektoren, die das gewichtete Abstandsmaß minimieren (d. h. die die Quantisierungsverzerrung verringern), und gibt entsprechende Quantisierungsindizes J₁ bis J_m aus. Wenn ein solches Vektorquantisierschema in dem Vektorquantisierteil 6 verwendet wird, ist der Beitrag von Elementen, die dem Kanal mit der größeren Leistung entsprechen, zum Wert der Quantisierungsverzerrung bei der Quantisierung der Signalvektoren groß; deshalb wird durch Auswählen des kombinierten Vektors, der die Quantisierungsverzerrung minimiert, das Signal des Kanals mit der höheren Leistung automatisch mit weniger Quantisierungsverzerrung codiert.
Der Encoder aus 3A gibt die Codes G₁ bis G_n aus, die die Verstärkungen und die Quantisierungsindizes J₁ bis J_m darstellen, als Ergebnis einer rahmenweisen Codierung der Signale der Kanäle CH₁ bis CH_n aus. Die Codes G₁ bis G_n und die Indizes J₁ bis J_m werden einem Decoder aus 3B bereitgestellt, der eine Decodierung wie nachfolgend beschrieben ausführt. Die Quantisierungsindizes J₁ bis J_m werden einem Vektordecodierteil 72 zugeführt. Das Vektordecodierteil 72 hat ein kombiniertes Codebuch 7CB, das mit dem in dem Encoder aus 3A vorgesehenen Codebuch 6CB identisch ist. Kombinierte Vektoren Y₁' bis Y_m', die den Quantisierungsindizes J₁ bis J_m entsprechen, werden aus dem Codebuch 7CB gelesen und einem inversen Verschachtelungsteil 76 zugeführt. Das inverse Verschachtelungsteil 76 arrangiert alle Elemente der kombinierten Vektoren Y₁' bis Y_m' in Folgen entgegengesetzt denen im Verschachtelungsteil 5 des Codierers aus 3A, wodurch n Sequenzen aus normierten Signalen X₁ bis X_n erhalten werden. Diese normierten Signale X₁ bis X_n werden Denormierungsteilen (Multiplizierern) 77₁ bis 77_n zugeführt, wo sie mit den Verstärkungen G₁ bis G_n multipliziert werden, um die Signale aus den Kanälen CH₁ bis CH_n wieder herzustellen.
4A zeigt in Blockform einen Encoder, der akustische Signale von rechten und linken Kanälen im Frequenzbereich codiert, wie auch bei 3A der Fall ist; dieser Encoder verringert eine Verzerrung durch Codieren unter Ausnutzung von Leistungsungleichgewicht in Richtung der Zeitachse und Leistungsungleichgewicht in Richtung der Frequenzachse sowie Leistungsungleichgewicht zwischen rechtem und linken Kanal. Im Falle von Leistungsungleichgewicht in Richtung der Zeitachse werden Rahmen von akustischen Eingangssignalen auf rechtem und linkem Kanal jeweils in n (eine ganz Zahl größer oder gleich 2) Teilrahmen segmentiert, die auf n Teilkanäle verteilt werden, um n Signalsequenzen (Teilsequenzen) zu erhalten; das Leistungsungleichgewicht in Richtung der Zeitachse wird als Leistungsungleichgewicht unter ihnen verwendet. Als Leistungsungleichgewicht in Richtung der Frequenzachse gibt es ein Leistungsungleichgewicht unter den Frequenzbereich-Restkoeffizienten von akustischen Signalen der n Teilkanäle. Der Encoder aus 4A wird nachfolgend im Detail beschrieben.
Der Encoder aus 4A umfasst: Rahmensegmentierteile 31_L und 31_R , die jeweils Rahmen von vom Links- bzw. Rechtskanalanschluss 11_L und 11_R zugeführten digitalen akustischen Eingangssignalen segmentieren und die n Teilrahmen an n Teilkanäle verteilen; Rest-/Hüllrechenteile 32_L1 bis 32_Ln und 32_R1 bis 32_Rn , die Frequenzbereich-Restkoeffizienten und spektrale Hüllkurve in den jeweiligen Teilrahmen der akustischen Signale in den jeweiligen Teilkanälen berechnen; Leistungsnormierungsteile 33_L1 bis 33_Ln und 33_R1 bis 33_Rn , die die Leistungen der Restkoeffizienten in den jeweiligen Teilkanälen normieren; Gewichtungsrechenteile 34_L1 bis 34_Ln und 34_R1 bis 34_Rn , die die spektralen Hüllkurven in den jeweiligen Teilkanälen mit entsprechenden Leistungsnormierungsverstärkungen multiplizieren und als Gewichtungsfaktoren V (Vektoren) die Multiplikationsergebnisse ausgeben, nachdem sie bei Bedarf ferner mit psychoakustischen Gewichtungsfaktoren multipliziert worden sind; ein Restverschachtelungsteil 35_XY , das die Restkoeffizienten von linkem und rechtem Kanal in vorgegebenen verschiedenen Sequenzen umordnet; ein Gewichtungsverschachtelungsteil 35_VW , das die Gewichtungsfaktoren des linken und rechten Kanals in den gleichen Sequenzen wie die Restkoeffizienten umordnet; ein Vektorquantisierteil 36, das eine gewichtete Vektorquantisierung mit den umgeordneten Restkoeffizienten und den ihnen entsprechenden umgeordneten Gewichtungs faktoren durchführt.
Allgemein ist ein mögliches Verfahren, das verwendet werden kann, um die Informationsmenge (die Zahl von Bits) zu verringern, die zum Codieren des akustischen Eingangssignals im Frequenzbereich notwendig ist, Restkoeffizienten durch Abflachen der Hüllkurve der Frequenzcharakteristika (des Spektrums) des akustischen Eingangssignals zu erhalten und die spektrale Hüllkurve und die Restkoeffizienten zu codieren. Z. B. werden die zwei nachfolgend erwähnten Methoden als brauchbar zum Gewinnen der Restkoeffizienten angesehen.

(a) Transformieren des akustischen Eingangssignals in Frequenzbereichskoeffizienten und gleichzeitig Berechnen der spektralen Hüllkurve des Eingangssignals, dann Normieren der Frequenzbereichskoeffizienten mit der spektralen Hüllkurve, um die Restkoeffizienten zu erhalten.
(b) Erhalten eines Restsignals durch Verarbeiten des Eingangssignals im Zeitbereich mit einem inversen Filter, das durch lineare Vorhersagekoeffizienten gesteuert ist, und Transformieren des Restsignals zu Frequenzbereichskoeffizienten, um die Restkoeffizienten zu erhalten.

Die folgenden drei Verfahren können verwendet werden, um die spektrale Hüllkurve des Eingangssignals im Verfahren (a) zu erhalten.

(c) Transformieren der linearen Vorhersagekoeffizienten des Eingangssignals mit einer Zeit-Frequenz-Transformation (z. B. Fourier-Transformation) durch Ausnutzung der obigen Tatsache.
(d) Aufspalten der durch die Zeit-Frequenz-Transformation des Eingangssignals erhaltenen Frequenzbereichskoeffizienten in eine Mehrzahl von Teilbändern und Erzeugen von Skalierungsfaktoren der jeweiligen Teilbänder (z. B. durchschnittliche Leistungen der Teilbänder) als die spektrale Hüllkurve.
(e) Berechnen der linearen Vorhersagekoeffizienten eines Zeitbereichssignals, erzeugt durch inverse Transformation der Absolutwerte der Frequenzbereichskoeffizienten, die durch Zeit-Frequenz-Transformation des Eingangssignals erhalten sind, und Transformieren der linearen Vorhersagekoeffizienten mit dem Fourier-Transformationsschema.

Die Verfahren (c) und (e) basieren auf den nachfolgend beschriebenen Tatsachen. Die linearen Vorhersagekoeffizienten stellen die Frequenzcharakteristika des Eingangssignals dar; deshalb entspricht die spektrale Hüllkurve der linearen Vorhersagekoeffizienten der spektralen Hüllkurve des Eingangssignals. Genauer gesagt ist die spektrale Amplitude, die durch die Fourier-Transformation der linearen Vorhersagekoeffizienten erhalten wird, der Kehrwert der spektralen Hüllkurve des Eingangssignals.
In der Ausgestaltung von 4A der vorliegenden Erfindung kann eine beliebige Kombination der Verfahren (a) und (c) oder (d) oder (e) für die akustischen Signalteilsequenzen der jeweiligen aus zwei N Abtastwerten bestehenden Teilrahmen verwendet werden. In 4B ist ein Beispiel des Rest-/Hüllkurven-Rechenteiles 32 (ein beliebiges der Teile 32_L1 bis 32_Ln und 32_R1 bis 32_Rn ) gezeigt, das verwendet wird, wenn die Verfahren (a) und (c) in Kombination eingesetzt werden. Wie in 4B gezeigt, umfasst das Rest-/Hüllkurven-Rechenteil 32: ein Fensterbildungsteil 32A, das das akustische Teilrahmensignal mit einer gewünschten Fensterfunktion multipliziert, ein MDCT-Teil 32B, das durch die MDCT-Transformation das Ausgangssignal vom Fensterbildungsteil 32A in Frequenzbereichskoeffizienten transformiert; ein LPC-Analyseteil 32C, das lineare Vorhersagekoeffizienten durch Durchführung einer LPC-Analyse des Ausgangssignals vom Fensterbildungsteil 32A erhält; ein Quantisierteil 32D, das die linearen Vorhersagekoeffizienten quantisiert und die quantisierten linearen Vorhersagekoeffizienten und den entsprechenden Quantisierungsindex I_E ausgibt (der der spektralen Hüllkurve entspricht und daher im Folgenden als Hüllkurvenindex bezeichnet wird); ein Hüllkurven-Rechenteil 32E, das die spektrale Hüllkurve E aus den quantisierten Vorhersagekoeffizienten berechnet; und ein Normierungsteil 32F, das die Frequenzbereichskoeffizienten aus dem MDCT-Teil 32B mit der spektralen Hüllkurve normiert (durch sie dividiert) und Restkoeffizienten X ausgibt.
Das Rahmensegmentierteil 31_L1 in 4A erzeugt für je N Abtastwerte jedes Rahmens (z. B. 16 bis 64 ms im Falle eines Musiksignals und 10 bis 20 ms im Falle eines Sprachsignals) des dem Linkskanal-Eingangsanschluss 31_L zugeführen akustischen Linkskanalsignals 2 N-Abtastwert-Teilsequenzen, die jeweils aus den N Abtastwerten und den unmittelbar vorhergehenden N Abtastwerten bestehen, als Rahmen zur Verwendung in der LOT-(Lapped Orthogonal Transform)-Verarbeitung; die Teilkanäle werden den Rest-/Hüllkurven-Rechenteilen 32_L1 bis 32_Ln in zyklischer Folge bereitgestellt. D. h., wie in 5 gezeigt, wo n = 4 ist, wird, wenn Rahmen F₁, F₂, ... (Reihe A) des akustischen Linkskanals sequentiell eingegeben werden, jeder Rahmen, z. B. F₁, in vier Teilrahmen F₁₁, F₁₂, F₁₃ und F₁₄ (Reihe B) aus je N Abtastwerten segmentiert; dann werden 2N-Abtastwert-Teilsequenzen {F₀₁, F₁₁}, {F₁₁, F₁₂}, {F₁₂, F₁₃} und {F₁₂, F₁₄}, die jeweils aus einem Teilrahmen und dem unmittelbar vorhergehenden Teilrahmen gebildet sind, als LOT-Verarbeitungsrahmen den Rest-/Hüllkurven-Rechenteilen 32₁ bis 32₄ der entsprechenden Teilkanäle CH₁ bis CH₄ zugeführt. Das gleiche gilt für die Rahmen F₂, F₃, ... Das LOT-Schema ist z. B. offenbart in H. S. Malvar „Signal Processing with Lapped Transform", Artech House.
In dem Rest-/Hüllkurven-Rechenteil 32 jedes Teilkanals in 4B werden die diesem zugeführten 2 N-Abtastwert-Teilsequenzen jeweils mit einer Fensterfunktion in dem Fensterbildungsteil 32A multipliziert. Das Fenster ist üblicherweise als Hamming-Fenster geformt. Die so mit der Fensterfunktion multiplizieiten 2 N-Abtastwert-Teilsequenzen werden einer modifizierten diskreten Kosinustransformation N-ter Ordnung unterzogen, die eine Art von orthogonaler Transformation ist, durch die N-Abtastwert-Frequenzbereichskoeffizienten. Gleichzeitig wird die Ausgabe vom Fensterbildungsteil 32A der LPC-Analyse in dem LPC-Analyseteil 32C unterzogen, um Vorhersagekoeffizienten α₀, ... α_p von p-ter Ordnung zu erhalten. In dem Quantisierteil 32D werden die Vorhersagekoeffizienten α₀ bis α_p z. B. in LSP-Parameter oder k-Parameter transformiert, dann werden sie quantisiert, um den den Vorhersagekoeffizienten entsprechenden Hüllkurvenindex I_E zu erhalten.
Die spektrale Hüllkurve der Vorhersagekoeffizienten α₀ bis α_p wird in dem Hüllkurven-Rechenteil 32E berechnet. Die spektrale Hüllkurve der Vorhersagekoeffizienten wird mit einem Verfahren wie in
6A gezeigt erhalten. D. h., eine 4 N-Abtastwert-Sequenz, die aus P + 1 quantisierten Vorhersagekoeffizienten mit nachfolgenden (4 N – P – 1) Nullen besteht, wird einer diskreten Fourier-Transformation (z. B. einer schnellen Fourier-Transformation FFT) unterzogen, dann wird sein Leistungsspektrum 2 N-ter Ordnung berechnet, aus dem Komponenten von ungeradzahliger Ordnung extrahiert werden durch Dezimieren von Komponenten geradzahliger Ordnung und ihre Quadratwurzeln werden berechnet. Die so erhaltenen spektralen Amplituden an N Punkten stellen den Kehrwert der spektralen Hüllkurve E dar.
Alternativ wird, wie in 6B gezeigt, eine 2 N-Abtastwert-Sequenz, die aus P + 1 quantisierten Vorhersagekoeffizienten gefolgt von (4 N – 1) Nullen besteht, FFT-analysiert, und das Leistungsspektrum N-ter Ordnung wird für das Ergebnis der Analyse berechnet. Der Kehrwert der spektralen Hüllkurve, von der i-ten bis zur 0-ten, wird erhalten durch Mitteln der Quadratwurzeln der (i + 1)ten und i-ten Leistungsspektren, d. h. durch Interpolieren mit ihnen, ausgenommen für i = N –1. Der Kehrwert der (N – 1)ten spektralen Hüllkurve wird erhalten durch Berechnen der Quadratwurzel des (n – 1)ten Leistungsspektrums.
Das Normierungsteil 32F normiert die spektrale Amplitude aus dem MDCT-Teil 32B durch Dividieren mit der so erhaltenen spektralen Hüllkurve für jeden entsprechenden Abtastwert, um die Restkoeffizienten X zu erhalten. Es ist jedoch der Kehrwert der spektralen Hüllkurve E, der direkt durch Fourier-Transformation der quantisierten Vorhersagekoeffizienten wie oben beschrieben erhalten wird; daher muss in der Praxis das Normierungsteil 32F nur die Ausgabe des MDCT-Teils 32B und die Ausgabe des Spektralhüllkurvenrechenteils 32E (den Kehrwert der spektralen Hüllkurve E) multiplizieren. Auch bei der nachfolgenden Beschreibung wird jedoch der Bequemlichkeit halber angenommen, dass das Spektralhüllkurven-Rechenteil 32E die spektrale Hüllkurve E ausgibt.
Wieder auf 4A bezogen werden die Restkoeffizienten X und die spektralen Hüllkurve E von dem Rest-/Hüllkurven-Rechenteil 32_L1 bis 32_Ln in den Teilkanälen CH₁ bis CH_n des linken Kanals den Leistungsnormierungsteilen 33_L1 bis 33_Ln bzw. den Gewichtungsrechenteilen 34_L1 bis 34_Ln bereitgestellt.
Die Leistungsnormierungsteile 33_L1 bis 33_Ln berechnen jeweils den Durchschnittswert der Leistungen der Restkoeffizienten X für jeden Verarbeitungsrahmen, dividieren dann die Restkoeffizienten durch den gemittelten Leistungswert, um normierte Koeffizienten X_N (einen aus N Abtastwerten bestehenden Vektor) zu erhalten und diese dem Rest-Verschachtelungsteil 35_XY bereitzustellen. Gleichzeitig stellen die Leistungsnormierungsteile 33_L1 bis 33_Ln die gemittelten Leistungswerte als Verstärkungen G den Gewichtungsrechenteilen 34_L1 bis 34_Ln bereit und geben die Verstärkungen G darstellende Indizes I_G1 bis I_Gn aus. Die Gewichtungsrechenteile 34_L1 bis 34_Ln multiplizieren jeweils die spektrale Hüllkurve E mit der Verstärkung G und liefern das Multiplikationsergebnis als einen Gewichtungsfaktor V (einen aus N Elementen bestehenden Vektor) an das Gewichtungsverschachtelungsteil 35_VW . Wenn nötig, wird das Multiplikationsergebnis mit einer psychoakustischen Gewichtung (einem aus N Elementen bestehenden Vektor) multipliziert, und das Ergebnis dieser Multiplikation wird als der Gewichtungsfaktor V bereitgestellt. Daher entspricht der so erhaltene Gewichtungsfaktor V dem Produkt der spektralen Hüllkurve und der Leistungsnormierungsverstärkung G (wobei das Produkt ferner bei Bedarf die psychoakustische Gewichtung enthält).
Das psychoakustische Gewichtungsschema ist z. B., die spektrale Hüllkurve auf eine Konstante von ca. –0,6 anzuheben, um eine psychoakustische Steuerung durchzuführen und so einen kleineren Wert zu vergrößern und einen größeren Wert zu verkleinern. Es ist auch möglich, ein anderes psychoakustisches Steuerschema anzuwenden, in welchem das für jeden Abtastwert erforderliche Signal-Rausch-Verhältnis (SNR), das mit einem in dem MPEG-Audioverfahren verwendeten psychoakustischen Modell erhalten wird, nicht-logarithmisch gemacht wird und mit dem oben erwähnten Kehrwert der spektralen Hüllkurve multipliziert wird. In diesem Schema wird das Minimum-SNR, das die psychoakustische Erfassung von Rauschen für jeden Frequenzabtastwert ermöglicht, durch Abschätzen des Ausmaßes der Maskierung mit einem psychoakustischen Modell aus der Frequenzcharakteristik des durch die Analyse des Signals erhaltenen Eingangssignals berechnet. Dieses SNR wird für jeden Abtastwert benötigt. Die im MPEG-Audioverfahren verwendeten psychoakustischen Modelltechniken sind in der ISO/IEC-Norm IS-11172-3 offenbart. Es ist auch möglich, den Kehrwert der spektralen Hüllkurve als Gewichtungssignal zu verwenden und die psychoakustische Steuerung wegzulassen.
Das Rahmensegmentierteil 31R, die Rest-/Hüllkurven-Rechenteile 32_R1 bis 32_Rn , die Leistungsnormierungsteile 33_R1 bis 33_Rn und die Gewichtungs-Rechenteile 34_R1 bis 34_Rn am rechten Kanal arbeiten in der gleichen Weise wie die am rechten Kanal, und die Rest-/Hüllkurven-Rechenteile 32_R1 bis 32_Rn auf den jeweiligen Teilkanälen geben Quantisierungsindizes I_PR1 bis I_PRn aus. Die Leistungsnormierungsteile 33_R1 bis 33_Rn geben Verstärkungsindizes I_GR1 bis I_GRn und normierte Restkoeffizienten X aus, wobei Letztere dem Restverschachtelungsteil 35_XY bereitgestellt werden. Die Gewichtungsrechenteile 34_R1 bis 34_Rn geben die Gewichtungsfaktoren aus, die dem Gewichtungsverschachtelungsteil 35_VW bereitgestellt werden.
Auf diese Weise werden insgesamt 2n Restkoeffizienten (also ist die Gesamtzahl von Abtastwerten 2nN) auf dem rechten und linken Kanal, die für jeden Rahmen des akustischen Eingangssignals erhalten werden, für jeden Rahmen in dem Restverschachtelungsteil 35 umgeordnet, aus dem sie als m Sequenzen ausgegeben werden. Dabei werden die Restkoeffizienten so umgeordnet oder verschachtelt, dass sie so stark wie möglich miteinander vermischt werden. Mit anderen Worten werden Leistungsungleichgewicht zwischen den dem linken und rechten Signal von den Anschlüssen 11_L und 11_R entsprechenden Restkoeffizienten und Leistungsungleichgewicht im Frequenzbereich beseitigt durch Mischen der Restkoeffizienten, und die Leistungen werden über jeden Rahmen hinweg im Wesentlichen gleichförmig gemacht.
Ein Beispiel eines solchen Verschachtelungsschemas wird in Verbindung mit dem Fall beschrieben, wo die akustischen Signale des linken und rechten Kanals in zwei Paar Signalteilsequenzen (d. h. n = 2) von Teilkanälen CH_L1, CH_L2 und CH_R1, CH_R2 aufgespalten werden. Dabei werden normierte Restkoeffizientenvektoren X_L1 und X_L2, die in den Telkanälen CH_L1 und CH_L2 der linken Kanalseite erhalten werden, durch ihre Frequenzkomponenten X wie folgt bezeichnet: {X1,1, X1,2, ..., X1,N}, {X2,1, X2,2, ..., X2,N} und normierte Restkoeffizientenvektoren, die in den Teilkanälen CH_R1 und CH_R2 der rechten Kanalseite erhalten werden, werden durch ihre Frequenzkomponenten X wie folgt bezeichnet: {X3,1, X3,2, ... X3,N}, {X4,1, X4,2, ... X4,N}
Wie in 7 gezeigt, sind diese Restkoeffizientenvektoren in Richtung in der Reihenfolge der Kanalnummer mit ihren Elementen (Frequenzkomponenten) in Spaltenrichtung angeordnet. In diesem Fall werden m Quintetts von Komponenten extrahiert, die aus den Komponenten x_1,1, x_2,1, ..., x_4,1 in der ersten bis vierten Zeile der Matrix von 4-Teilkanal-Komponenten herrühren und sequentiell viermal in Richtung der Frequenzachse verschoben, wobei sie in der Richtung, in der die Teilkanalnummern angeordnet sind, zirkulieren. Dann werden die folgenden m Sequenzen y₁ bis y_m erzeugt, die die Quintetts von Komponenten jeweils als ihre Elemente verwenden. Y1 = {x1,1, X2,5, X3,9, x4,13, X1,17} Y2 = {x2,1, X3,5, X4,9, x1,13, X2,17} Y3 = {X3,1, X4,5, X1,9, x2,13, X3,17} ... Ym = {X1,N–16, X2,N–12, X3,N–8, x4,N–4, X1,N }
Die m Sequenzen Y₁ bis Y_m seien dargestellt wie folgt: Y1 = {y1 1, y2 1, y3 1, y4 1, y5 1}, Y2 = {y1 2, y2 2, y3 2, y4 2, y5 2}, Y3 = {y1 1, y2 3, y3 3, y4 3, y5 3}, ... Ym = {y1 m, y2 m, y3 m, y4 m, y5 m}, daher gilt z. B. y₁ ¹ = x_1,1, Y₂ ¹ = x_2,5, ..., y₁ ² = x_2,1, y₂ ² = x_3,5, ...
In dem Beispiel von 7 werden, da die Elementextraktionsrouten von jeweiligen Elementen einer ersten 4 × 4-Anordnung ausgehen und die Zirkularverschiebung viermal wiederholen, um die 5-Element-Vektoren Y₁, Y₂, Y₃, ... zu erhalten, in der 17ten bis 20ten Reihe fünfte Elemente der ersten 16 Vektoren erhalten werden. Entsprechend startet die Elementextraktionsroute erneut von jeweiligen Elementen in der 17ten bis 20ten Reihe, wiederholt die Zirkularverschiebung viermal, wodurch die nächsten 16 Vektoren erhalten werden. So werden durch Wiederholen der Zirkularverschiebung alle 20 Reihen 16 Vektoren erhalten. Wenn z. B. N = 12, so ist 128 : 20 = 6 mit Rest 8; was die letzten 8 Reihen angeht, werden 5-Element-Vektoren unter Verwendung eines anderen Extraktionsschemas erzeugt, und die letzten zwei Elemente werden zu einem Vektor kombiniert. Folglich ist in diesem Fall die Gesamtzahl m von Vektoren 103.
Die 2 n (in diesem Beispiel ist n = 2) Gewichtungsfaktorvektoren VL1 = {V1,1, V1,2, ..., V1,N} VL2 = {V2,1, V2,2, ..., V2,N} VR1 = {V3,1, V3,2, ..., V3,N} VR2 = {V4,1, V4,2, ..., V4,N}die von den Gewichtungsrechenteilen 34_L1 , 34_L2 , 34_R1 , 34_R2 dem Gewichtungsverschachtelungsteil 35 bereitgestellt werden, werden ebenfalls in exakt derselben Weise wie die Restverschachtelung verschachtelt, wodurch die folgenden m Gewichtungsfaktorsequenzen W₁ bis W_m erhalten werden W1 = {v1,1, v2,5, v3,9, v4,13, v1,17} W2 = {v2,1, v3,5, v4,9, v1,13, v2,17} W3 = {v3,1, v4,5, v1,9, v2,13, v3,17} ... Wm = {v1,N–16, v2,N–12, v3,N–8, v4,N–4, v1,N}
Diese Sequenzen werden im Folgenden auch dargestellt wie folgt W1 = {w1 1, w2 1, w3 1, w4 1, w5 1} W2 = {w1 2, w2 2, w3 2, w4 2, w5 2} W3 = {w1 3, w2 3, w3 3, w4 3, w5 3} ... Wm = {w1 m, w2 m, w3 m, w4 m, w5 m}
Auch diese Sequenzen werden dem Vektorquantisierteil 36 bereitgestellt.
In 8 ist ein anderes Verschachtelungsschema gezeigt. Dieses Beispiel basiert auf der Anordnung von Elementen des normierten Restkoeffizientenvektors X_L1 = {x_1,1, x_1,2, ..., x_1,N} des linken Teilkanals CH_L1 im Fall von 7. Wie in 8 gezeigt, werden N Elemente der normierten Restkoeffizientenvektoren X_L2, X_R1 und X_R2 zyklisch in Richtung der Frequenzachse um 1, 2 und 3 Elemente verschoben und dann in einer Matrixform angeordnet. Wie im Fall des Beispiels von 7 werden m Komponentenquintetts wiederholt extrahiert, die aus jeweiligen Komponenten in der ersten bis vierten Reihe der Matrix herrühren und um vier Reihen in vertikaler Richtung verschoben, während sie durch vier Teilkanäle zirkulieren. Dann werden die folgenden m umgeordneten Sequenzen Y₁ bis Y_m erzeugt, die die fünf Komponenten jeweils als ihre Elemente verwenden. Dies gilt für die Gewichtungsfaktoren.
Bei der in 7A oder 8B abgebildeten Verschachtelung der Restkoeffizienten und der Gewichtungsfaktoren können die Koeffizienten vorzugsweise so stark wie möglich zwischen den Teilkanälen und im Frequenzbereich vermischt werden; daher ist es wünschenswert, sie zufällig zu verschachteln, und sie müssen nicht regelmäßig verschachtelt werden. Z. B. ist es möglich, die Positionen der zu verschachtelnden Elemente durch Verwendung einer Tabelle zu bestimmen, die die Entsprechung zwischen den Elementen der Sequenzen Y₁ bis Y_m und den Elementen der jeweiligen Kanäle angibt. Alternativ können die Positionen der Verschachtelung der Elemente durch eine relativ einfache Rechnung festgelegt werden.
Die so erhaltenen Sequenzen Y₁ bis Y_m von dem Restverschachtelungsteil 35_XY werden dem Vektorquantisierteil 36 bereitgestellt, wo sie mit den ihnen jeweils entsprechenden Gewichtungsfaktorsequenzen W₁ bis W_m gewichtet vektorquantisiert werden.
9 zeigt ein Beispiel der Konfiguration des Vektorquantisierteiles, von der gezeigt wird, dass sie die gewichtete Vektorquantisierung einer k-ten verschachtelten Restsequenz (angenommen als 5-Element-Sequenz wie in 7A oder 8A) Yk = {y1 k, y2 k, y3 k, y4 k, y5 k} = (y1 k|i = 1 bis 5}mit der entsprechenden k-ten verschachtelten Gewichtungsfaktorsequenz Wk = {w1 k, w2 k, ..., w5 k} = {wi k|i = 1 bis 5}durchführt.
In einem kombinierten Codebuch 36A sind diverse erwartete kombinierte Vektoren einer festgelegten Länge korrespondierend zu ihren jeweiligen Indizes vorabgespeichert. Wenn eins-tes Element eines aus einem Index j des kombinierten Codebuches 36A gelesenen kombinierten Vektors C(j) dargestellt ist als c_i(j), wird die Differenz y₁ ^k – c_i(j) zwischen entsprechenden Elementen der Vektoren Y_k und C(j) durch einen Subtrahierer 36B für i = 1 bis 5 berechnet; die Differenzen werden jeweils durch einen Quadrierer 36C quadriert, und die quadrierten Ausgaben werden an ein Skalarprodukt-Rechenteil 36E angelegt. Andererseits wird jede Komponente w_i ^k des Gewichtungsvektors W_k von einem Quadrierer 36D quadriert, und die quadrierte Ausgabe wird an das Skalarprodukt-Rechenteil 36E angelegt, wodurch das Skalarprodukt der quadrierten Ausgaben von den Quadrierern 36C und 36D als ein gewichtetes Abstandsmaß d^k(j) für die Vektorquantisierung berechnet und einem Optimum-Codebuch-Suchteil 36F zur Verfügung gestellt wird. D. h., das gewichtete Abstandsmaß ist gegeben durch die folgende Gleichung: dk(j) = Σ[wi k{yi k – ci(j)}]2 wobei Σ ein Additionsoperator für i = 1 bis 5 ist. Das Codebuchsuchteil 36F sucht aus dem kombinierten Codebuch 36A für alle Indizes j gelesene Codevektoren C(j) für den Index j des Codevektors, der das wie oben beschrieben berechnete Abstandsmaß d^k(j) minimiert; das Codebuch-Suchteil 36F gibt diesen Index j als einen festgelegten Vektorquantisierungsindex J_k aus. Anschließend wird die gewichtete Vektorquantisierung in gleicher Weise für alle k = 1 – m Restsequenzen Y₁ bis Y_m durchgeführt, und m so festgelegte Vektorquantisierungsindizes J₁ bis J_m werden einem Anschluss 37 in 4A zur Verfügung gestellt.
In 4A sind die Rest-/Hüllkurven-Rechenteile 32_L1 bis 32_Rn und 32_R1 bis 32_Rn nicht speziell auf die Konfiguration von 4B beschränkt; sie können auch wie in 10A abgebildet konfiguriert sein.
Bei der dargestellten Konfiguration sind die Frequenzbereichskoeffizienten, die durch Transformieren des mit der Fensterfunktion in dem Fensterbildungsteil 32A multiplizierten LOT-Verarbeitungsrahmens in den MDCT-Teilen 32B erhalten sind, verzweigt; der Betrag jedes einzelnen Abtastwertes (Spektrum) wird in einem Betragrechenteil 32G berechnet; der ausgegebene Betrag wird einer inversen Fourier-Transformation in einem inversen Fourier-Tiansformationsteil 32H unterzogen, um Autokorrelationskoeffizienten zu erhalten; ein Zeitbereichssignal, das die Autokorrelationskoeffizienten darstellt, wird in einem LPC-Analyseteil 32C LPC-analysiert. Darauf folgen die oben mit Bezug auf 4B beschriebenen Operationen. D. h., die Vorhersagekoeffizienten werden im Quantisierteil 32D quantisiert, von wo der die quantisierten Vorhersagekoeffizienten darstellende Index als Hüllkurvenindex I_E ausgegeben wird, und gleichzeitig werden die quantisierten Vorhersagekoeffizienten dem Hüllkurven-Rechenteil 32E zur Verfügung gestellt, um die spektrale Hüllkurve V zu berechnen, die dem Normierungsteil 32E zur Verfügung gestellt wird, um die Restkoeffizienten zu erhalten. Alternativ ist es möglich, eine Konfiguration wie in 10B gezeigt zu verwenden, wo die Frequenzbereichskoeffizienten von dem MDCT-Teil 32B in Teilbänder unterteilt werden, Skalierungsfaktoren SF₁ bis SF_p der Koeffizienten in den Teilbändern in den Skalierungsfaktor-Rechenteilen 32J₁ bis 32J_p berechnet werden, dann die Skalierungsfaktoren SF₁ bis SF_p in einem Quantisierteil 32K quantisiert werden, um einen den quantisierten Skalierungsfaktor darstellenden Index als Hüllkurvenindex I_E bereitzustellen, und gleichzeitig werden die quantisierten Skalierungsfaktoren als Hüllkurve V dem Normierungsteil 32F zur Verfügung gestellt. Die Skalierungsfaktoren können z. B. ein quadrierter Mittelwert der Koeffizienten in dem betreffenden Teilband sein.
11 zeigt in Blockform eine Ausgestaltung des Decoders zur Verwendung mit dem Encoder aus 3A. Die Vektorquantisierungsindizes J₁ bis J_m werden von einem Eingangsanschluss 71 einem Vektordecodierteil 72 zur Verfügung gestellt, in dem den jeweiligen Indizes entsprechende Vektoren Y₁' bis Y_m' decodiert werden, während gleichzeitig die Hüllkurvenindizes I_EL1 bis I_ELn und I_ER1 bis I_ERn von einem Eingangsanschluss 73 einem Hüllkurvendecodierteil 62a zugeführt werden, worin die Hüllkurve E_L1 bis E_Ln und E_R1 bis E_Rn decodiert werden. D. h., in dem entsprechend jedem Teilkanal vorgesehenen Decodierteil 62A werden die Vorhersagekoeffizienten α in den jeweiligen Teilkanälen für jeden Rahmen decodiert, und die Hüllkurve der Frequenzcharakteristiken wird aus den decodierten Vorhersagekoeffizienten α für jeden Rahmen in den jeweiligen Teilkanälen in einem Hüllkurven-Rechenteil 62b berechnet, das die gleiche Rechnung durchführt wie das Spektralhüllkurvenrechenteil 32E in dem Rest-/Hüllkurven-Rechenteil 32 des Encoders aus 4B; dadurch werden die Hüllkurve E_L1 bis E_Ln und E_R1 bis E_Rn erhalten. Von einem Eingangsanschluss 74 werden die Verstärkungsindizes I_GL1 bis I_GLn und I_GR1 bis I_GRn einem Verstärkungsdecodierteil 75 zugeführt, worin die normierten Verstärkungen (Durchschnittsleistungen) G_L1 bis G_n und G_R1 bis G_n für jeden Rahmen in den jeweiligen Kanälen decodiert werden.
Die in dem Vektordecodierteil 72 decodierten m Vektoren Y₁' bis Y_m' werden einem inversen Verschachtelungsteil 77_XY zugeführt, wo sie einer Verschachtelung entgegengesetzt der in dem Verschachtelungsteil 35 des Encoders aus 4A unterzogen werden, wodurch n Linkskanal-Restkoeffizientenvektoren X_L1 bis X_Ln und n Rechtskanal-Restkoeffizientenvektoren X_R1 bis X_Rn erhalten werden. Diese Restkoeffizientenvektoren X_L1 bis X_Ln und X_R ₁ bis X_Rn werden Denormierungsteilen 77_L1 bis 77_Ln und 77_R1 bis 77_Rn zugeführt, wo sie mit den entsprechenden decodierten Verstärkungen G_L1 bis G_Ln und G_R ₁ bis G_Rn multipliziert, d. h., durch sie denormiert werden. Die multiplizierten Ausgaben werden dann auf Multiplizierer 65_L1 bis 65_Ln und 65_R1 bis 65_Rn gegeben, wo sie mit den decodierten Hüllkurve E_L1 bis E_Ln und E_R1 bis E_Rn multipliziert werden; dadurch werden ihnen Hüllkurve hinzugefügt, und die Frequenzbereichschaiakteristiken werden jeweils reproduziert.
Diese Frequenzbereichscharakteristiken werden inversen MDCT-Teilen 66_L1 bis 66_Ln und 66_Rn zugeführt, wo sie durch inverse MDCT-Verarbeitung in Zeitbereichssignale mit 2 N Abtastwerten (2 × länger als der Teilrahmen: Verarbeitungsrahmen) umgeformt werden. Dann werden diese Zeitbereichssignale jeweils, wenn notwendig, mit einer Fensterfunktion multipliziert. In Rahmenüberlappungsteilen 78_L1 bis 78_Ln und 78_R1 bis 78_Rn werden die Zeitbereichsignale der Verarbeitungsrahmen einer benötigten Verarbeitung unterzogen; d. h., in dem jeweiligen Teilkanal werden die zweiten N Abtastwerte jedes Verarbeitungsrahmens und die ersten N Abtastwerte des unmittelbar vorhergehenden Verarbeitungsrahmens zu einem Teilrahmensignal mit N Abtastwerten überlappt. Die so in den jeweiligen Teilkanälen erzeugten Teilrahmensignale mit N Abtastwerten werden auf die entsprechenden Signalsyntheseteile 79_L und 79_R des linken und des rechten Kanals gegeben. In dem Linkskanal-Signalsyntheseteil 79_L werden für jeden Rahmen die Teilkanalsignale mit N Abtastwerten des linksseitigen Teilkanals kombiniert oder synthetisiert und dabei um eine Teilrahmenperiode (N Abtastwerte) sequentiell verschoben; dadurch wird das Linkskanalsignal eines Rahmens rekonstruiert und an einen Ausgangsanschluss 51_L gegeben. Auch im Rechtskanal-Signalsyntheseteil 79_R werden Teilrahmensignale mit N Abtastwerten der rechtsseitigen Teilkanäle entsprechend kombiniert oder synthetisiert und dabei um eine Teilrahmenperiode sequentiell verschoben. Auf diese Weise wird das Rechtskanalsignal eines Rahmens rekonstruiert und auf einen Ausgangsanschluss 51_R gegeben.
Während bei der Ausgestaltung der 4A das Restverschachtelungsteil 35_XY und das Gewichtungsverschachtelungsteil 35_VW jeweils Verschachtelung auf Grundlage einer vorgegebenen Verschachtelungsabbildung durchführen, ist es auch möglich, eine Konfiguration zu verwenden, in der eine Mehrzahl von Verschachtelungsabbildungen vorbereitet und eine Abbildung daraus ausgewählt wird, die die Verzerrung der Vektorquantisierung minimiert. Ein Beispiel einer solchen Konfiguration ist in 12A gezeigt. Dieses Beispiel umfasst: zwei Sätze von Restverschachtelungsteilen, Gewichtungsverschachtelungsteilen und Vektorquantisierteilen 35_XY1 , 35_VW1 , 36₁ und 35_XY2 , 35_VW2 , 36₂ ; Abbildungstabellen TB₁ und TB₂, in denen vorgegebene unterschiedliche Verschachtelungsabbildungen gespeichert sind, die den Verschachtelungsteilen 35_XY1 , 35_VW1 , und 35_XY2 , 35_VW2 zur Verfügung gestellt werden; einen Komparator 38, der die Stärke der Quantisierungsverzerrung in den zwei Vektoiquantisierteilen 36₁ und 36₂ vergleicht; und einen Selektor, der von den Ausgaben der zwei Vektorquantisierteile 36₁ und 36₂ auf der Grundlage des Vergleichs durch den Komparator 38 selektiv die weniger verzerrte ausgibt. Der Knappheit wegen sind die Rahmensegmentierteile 31_L und 31_R und die Rest-/Hüllkuiven-Rechenteile 32_L1 bis 32_Ln und 32_R1 bis 32_Rn in 4A nicht gezeigt, und die Leistungsnormierungsteile 33_L1 bis 33_Ln und 33_R1 bis 33_Rn und die Gewichtungsrechenteile 34_L ₁ bis 34_Ln und 34_R1 bis 34_Rn sind einfach durch 33_L , 33_R , 34_L bzw. 34_R identifiziert.
In den Restverschachtelungsteilen 35_XY1 , und 35_XY2 werden die normierten Restkoeffizienten X von den Normierungsteilen 33_L und 33_R in verschiedenen Sequenzen entsprechend in den Abbildungstabellen TB₁ und TB₂ vorhandenen Verschachtelungsabbildungen umgeordnet. Entsprechend werden in den Gewichtungsverschachtelungsteilen 35_VW1 und 35_VW2 die Gewichtungsfaktoren V von den Gewichtungsrechenteilen 34_L und 34_R in Sequenzen entsprechend den in den Abbildungstabellen TB₁ bzw. TB₂ vorhandenen Verschachtelungsabbildungen umgeordnet. Die entsprechend der Verschachtelungsabbildung in der Tabelle TB₁ umgeordnete Restkoeffizientensequenz und die entsprechende Gewichtungsfaktorsequenz werden dem Quantisierteil 36₁ zugeführt, wo die Restkoeffizientensequenz gewichtet vektorquantisiert wird. Entsprechend wird die gemäß der Verschachtelungsabbildung in der Tabelle TB₂ umgeordnete Restkoeffizientensequenz und die entsprechende Gewichtungsfaktorsequenz dem Vektorquantisierteil 36₂ zugeführt, wo die Restkoeffizientensequenz der zuvor mit Bezug auf 9 beschriebenen gewichteten Vektorquantisierung unterzogen wird. Der Komparator 38 vergleicht minimale Verzerrungen (minimale Abstände) d_i ^k, die bei der Vektorquantisierung in dem Quantisierteil 36₁ bzw. 36₂ erhalten sind; auf der Grundlage des Ergebnisses des Vergleichs durch den Komparator 38 wählt der Selektor 39 Ausgabeindizes J₁ bis J_m desjenigen der Vektorquantisierteile 36₁ und 36₂ , bei dem die berechnete Verzerrung kleiner als bei dem anderen ist. Der Selektor 39 liefert die so ausgewählten Indizes an den Anschluss 37 zusammen mit Information (dem Vergleichsergebnis), die angibt, welche Tabelle verwendet wurde.
In 12B ist der Decoder aus 11 gezeigt, der zur Verwendung mit dem Encoder modifiziert ist, der die Verschachtelungsabbildung so auswählt, dass die Quantisierungsverzerrung verringert wird, wie soeben oben mit Bezug auf 12A beschrieben. Der Decoder nach diesem Beispiel hat Abbildungstabellen ITB₁ und ITB₂, die den Abbildungstabellen TB₁ und TB₂ in 12A entsprechen, zum Wiederherstellen der Restkoeffizientensequenzen und der Gewichtungssequenzen im Originalzustand. Der Index Is, der die ausgewählte Abbildungstabelle darstellt, wird dem Anschluss 71 zusammen mit den Vektorquantisierungsindizes J₁ bis J_m zugeführt; ein Selektor 81 ist durch den Index Is so gesteuert, dass er diejenige der Abbildungstabellen ITB₁ und ITB₂ wählt, die der von dem Index Is spezifizierten Abbildungstabelle entspricht. Die so ausgewählte Abbildungstabelle wird zur Verschachtelung in dem inversen Verschachtelungsteil 76 verwendet. Die Konfiguration der nächsten Stufe ist identisch mit der der 11 und deshalb nicht gezeigt. In 11 muss das Hüllkurven-Decodierteil 62, wenn ihm die in 10B gezeigten Skalierungsfaktoren SF₁ bis SF_p der Teilbänder zugeführt werden, nur die Skalierungsfaktoren der Teilbänder entsprechend dem Hüllkurvenindex I_E decodieren und ausgeben.
Oben ist zwar das Eingangssignal als ein zweikanaliges, rechtes und linkes Stereosignal beschrieben worden, und jedes Kanalsignal ist für jeden Rahmen in eine Mehrzahl von Teilrahmen segmentiert, um eine Mehrzahl von Teilkanälen zu bilden, doch ist es auch möglich, ein 4- oder 5-kanaliges Stereosignal zu verwenden und jedes Kanalsignal in eine Mehrzahl von Teilrahmen zu segmentieren, um ein Vielkanalsignal zu erzeugen. Alternativ ist es möglich, ein Eingangssignal in Niedrigfrequenz- und Hochfrequenzsignale aufzuteilen und diese an die Eingangsanschlüsse 11_L und 11_R in 4A anzulegen. Oben werden die Signale von den Eingangsanschlüssen 11_L und 11_R für jeden Rahmen in Mehrheiten von Teilrahmen segmentiert, doch kann ein Schema verwendet werden, bei dem die Signale von den Eingangsanschlüssen 11_L und 11_R nicht in Teilrahmen segmentiert sind, sondern statt dessen die Restkoeffizienten beider Eingangssignale für jeden Rahmen durch das Verschachtelungsteil 35_XY in m Sequenzen segmentiert werden und die auf der Grundlage der spektralen Hüllkurve und der Leistung für jeden Rahmen erzeugten Gewichtungsfaktoren entsprechend von dem Verschachtelungsteil 35_VW verschachtelt werden und dann die gewichtete Vektorquantisierung für jede der m Sequenzen durchgeführt wird. Ferner ist es möglich, ein Schema zu verwenden, bei dem ein Eingangssignal, d. h., ein Monosignal, für jeden Rahmen in eine Mehrzahl von Teilrahmen segmentiert wird und Restsignale in den jeweiligen Teilrahmen gewichtet vektorquantisiert werden.
Oben ist zwar beschrieben worden, dass das MDCT-Schema für die Transformation in das Frequenzbereichssignal verwendet wird, doch können auch andere orthogonale Transformationsschemata verwendet werden, wenn nicht der Signalrahmen in Teilrahmen segmentiert ist.
Wie oben beschrieben ermöglichen die Ausgestaltungen der 4A und 11 im Falle eines Leistungsungleichgewichtes zwischen den Kanälen oder auf der Zeitachse in jedem Rahmen, die Quantisierungsverzerrung zu verringern, ohne die Bitzuweisung adaptiv zu ändern, und erfordern daher nicht die Berechnung für die Bitzuweisung. Außerdem übertragen diese Ausgestaltungen die Bitzuweisungsinformation nicht und sind daher robust gegen Codierfehler. Das Decodierverfahren nach der vorliegenden Erfindung ermöglicht daher eine korrekte Decodierung von mit dem oben beschriebenen Codierverfahren codierten Codes.
Während bei der in 4A gezeigten Ausgestaltung des Encoders das eingegebene akustische Signal immer für jeden Rahmen in Teilrahmen zur Verteilung auf eine Mehrzahl von Teilkanälen segmentiert wird, ist die vorliegende Erfindung nutzlos, wenn die Leistung des Eingangssignals stationär ist, da die Erfindung die Informationsmenge für die Codierung verringert (mit anderen Worten, die Quantisierungsverzerrung verringert), indem sie das Ungleichgewicht der Signalleistung in Richtung der Zeitachse ausnutzt. Das ständige Ausgeben der Vektorquantisierungsindizes J bis J_m, der Hüllkurvenindizes I_EL1 bis I_ELn und I_ER1 bis I_ERn und der Normierungsindizes I_GL1 bis I_GLn und I_GR1 bis I_GRn aller Teilkanäle kann trotz des oben Gesagten manchmal eine größere Informationsmenge für die Codierung erfordern als im Fall der Codierung ohne Segmentierung in Teilkanäle. Auch der Verarbeitungsaufwand für die Codierung kann manchmal größer werden als im Fall der Codierung ohne Segmentierung in Teilkanäle.
In 13 ist eine Ausgestaltung eines diesbezüglich verbesserten Encoders in Verbindung mit dem Fall eines einkanaligen akustischen Eingangssignals gezeigt.
In 13 sind ein Rahmensegmentierteil 31, Rest-/Hüllkurven-Rechenteile 32₁ bis 32_n , Leistungsnormierungsteile 33₁ bis 33_n , Gewichtungsrechenteile 34₁ bis 34_n , ein Restverschachtelungsteil 35_XY , ein Gewichtungsverschachtelungsteil 35_VW und ein Vektorquantisierteil 36 in Konstruktion und Betrieb identisch mit denen der Seite des rechten Kanals in 4A. Diese Ausgestaltung umfasst ferner: ein Signalsegmentierteil 41, das das akustische Eingangssignal in Rahmen segmentiert; ein Zustandsentscheidungsteil 42, welches den Zustand des Signals jedes Rahmens entscheidet; ein Rest-/Hüllkurven-Rechenteil 32₀ , welches die Restkoeffizienten und die spektrale Hüllkurve eines stationären Rahmens berechnet; ein Leistungsnormierungsteil 33₀ , das die Leistung der Restkoeffi zienten des stationären Rahmens berechnet; ein Gewichtungsrechenteil 34₀ , das Gewichtungsfaktoren aus der spektralen Hüllkurve und der Normierungsverstärkung des stationären Rahmens berechnet; ein Restverschachtelungsteil 43_XY , das die normierten Restkoeffizienten in eine Mehrzahl von Sequenzen verschachtelt; ein Gewichtungsverschachtelungsteil 43_WV , das die Gewichtungsfaktoren in die gleiche Mehrzahl von Sequenzen wie die der Restkoeffizienten verschachtelt; ein Vektorquantisierteil 44, das eine Rest-Teilsequenz mit der entsprechenden Gewichtungsteilsequenz gewichtet vektorquantisiert; einen Selektor 45A, der die Ausgaben von den Vektorquantisierteilen 36 und 44 entsprechend dem Zustand des betreffenden Rahmens selektiv ausgibt; einen Selektor 45B, der Hüllkurvenindizes I_E0 und I_E1 bis I_EN von stationären und transienten Rahmen entsprechend dem Zustand des betreffenden Rahmens selektiv ausgibt; und einen Selektor 45C, der Normierungsverstärkungsindizes I_G0 und I_G1 bis I_Gn von stationären und transienten Rahmen entsprechend dem Zustand des betreffenden Rahmens selektiv ausgibt. Die Rest-/Hüllkurven-Rechenteile 32₀ und 32₁ bis 32_n sind in der Konstruktion identisch, und beliebige der in 4B, 10A und 10B gezeigten Konfigurationen können verwendet werden. Die Blöcke 32Q in den Rest-/Hüllkurven-Rechenteilen 32₀ , 32₁ bis 32_n sind jeweils ein Hüllkurvenrechen-/Quantisierteil, das dem Block 32Q in 4B, 10A bzw. 10B entspricht. Das Fensterbildungsteil 32A ist der Kürze wegen nicht gezeigt.
Eine digitale akustische Eingangssignalsequenz vom Eingangsanschluss 11 wird dem Signalsegmentierteil 41 zugeführt und in Rahmen mit M Abtastwerten segmentiert, und diese Signale werden an das Rest-/Hüllkurven-Rechenteil 32₀ , das Zustandsentscheidungsteil 42 und das Rahmensegmentierteil 31 angelegt. In dem Zustandsentscheidungsteil 42 wird bestimmt, ob das Signal jedes Rahmens mit M Abtasiwerten stationär oder transient ist. D. h., wenn das Signal in dem Rahmen einer starken zeitlichen Veränderung unterliegt, d. h., wenn die Leistung oder die spektrale Hüllkurve des Signals sich schnell ändert, wird der Rahmen als transient festgelegt. Um dies durchzuführen, wird z. B. jeder Rahmen zeitlich in vier Blöcke unterteilt, und dann wird die durchschnittliche Leistung oder die durchschnittliche spektrale Hüllkurve jedes Blocks berechnet, und die Veränderungsverhältnisse der Leistung oder der spektralen Hüllkurve werden berechnet; der Rahmen wird als transient oder stationär festgelegt, je nachdem, ob die Änderungsverhältnisse der Leistung oder der spektralen Hüllkurve höher oder niedriger als ein vorgegebener Wert sind.
Die Entscheidung in dem Zustandsentscheidungsteil 42 findet statt für jeden der Rahmen F₁, F₂, ... Wie z. B. in 14 gezeigt, wird eine Überprüfung durchgeführt, um festzulegen, ob jede 2 M-Abtastwert-Signalsequenz (ein Einheits-MDCT-Verarbeitungsrahmen), der aus jedem Rahmen und dem unmittelbar vorhergehenden besteht, stationär oder transient ist, während er um M Abtastwerte (einen Rahmen) verschoben wird. Wenn z. B. in dem Rahmen F₂ entschieden wird, dass der aus dem Rahmen F₂ und dem unmittelbar vorhergehenden F₁ bestehende 2 M-Abtastwert-Verarbeitungsrahmen stationär ist, wird der 2 M-Abtastwert-Rahmen mit einer Fensterfunktion WF multipliziert und anschließend der MDCT-Verarbeitung unterzogen. Wenn ferner in dem Rahmen F₄ entschieden wird, dass der 2 M-Abtastwert-Verarbeitungsrahmen bestehend aus dem Rahmen F₄ und dem unmittelbar vorhergehenden Rahmen F₃ transient ist, wird der zentrale M-Abtastwert-Abschnitt des 2 M-Abtastwert-Rahmens in n (in diesem Beispiel n = 4) Teilrahmen SF₄₁ bis SF₄₄ zerlegt, und in den Rest-/Hüllkurven-Rechenteilen 32₁ bis 32₄ werden die Teilrahmen der MDCT-Verarbeitung als 2-Teilrahmen-Einheiten bestehend aus 2 M/n Abtastwerten der Teilrahmen und der unmittelbar vorhergehenden Teilrahmen SF₃₄, SF₄₁, SF₄₂ und SF₄₃ unterzogen; die Fensterfunktion WFs erstreckt sich über die zwei Teilrahmen, wie in 14 abgebildet. Damit vor und nach der Segmentierung in Teilrahmen die stationären und transienten Rahmen an der Grenze zwischen ihnen kontinuierlich miteinander verknüpft werden können, ist eine Fensterfunktion WFa auf der transienten Seite zu einer Hälfte aus der Fensterfunktion WFs gebildet, und die stationäre Seite bildet den Maximalwert der Fensterfunktion WFs, wie in 14 gezeigt. Diese Fensterfunktionen WFs und WFa sind nur beispielhaft dargestellt, und es können auch andere Schemata verwendet werden.
Wenn entschieden wird, dass der Rahmen stationär ist, berechnet das Rest-/Hüllkurven-Rechenteil 42₀ die spektrale Hüllkurve E₀ und die Frequenzbereichsrestkoeffizienten X₀ des Rahmen und gibt gleichzeitig den beim Berechnen der spektralen Hüllkurve erhaltenen Hüllkurvenindex I_E0 aus. D. h., wenn z. B. das in 4B gezeigte Rest-/Hüllkurven-Rechenteil als Teil 42₀ in 13 verwendet wird, wird der 2 M-Abtastwert-Verarbeitungsrahmen aus den M eingegebenen Abtastwerten und den unmittelbar vorhergehenden M Abtastwerten mit der Fensterfunktion in dem Fensterbildungsteil 32A multipliziert und in dem MDCT-Teil 32B in die Fiequenzbereichskoefftzienten transformiert, wie oben der Fall. Ferner wird die spektrale Hüllkurve E durch das LPC-Analyseteil 32C, das Vorhersagekoeffizientenquantisierteil 32D und das Spektralhüllkurvenrechenteil 32E berechnet, und gleichzeitig wird der Hüllkurvenindex I_E0 erzeugt.
Die Restkoeffizienten von dem Rest-/Hüllkurven-Rechenteil 32₀ werden mit der Durchschnittsleistung innerhalb des Verarbeitungsiahmens in dem Leistungsnormierungsteil 33₀ normiert, und die normierten Restkoeffizienten X_N0 werden dem Restverschachtelungsteil 43_XY zugeführt. Die Normierungsverstärkung G wird dem Gewichtungsrechenteil 34₀ zugeführt, wo sie mit der spektralen Hüllkurve E₀ multipliziert wird, um die Gewichtungsfaktoren V₀ zu erhalten, die dem Gewichtungsverschachtelungsteil 43_VW zugeführt werden. In dem Restverschachtelungsteil 43_XY werden die Restkoeffizienten X_N0 zu einer Mehrzahl von (z. B. h = 4) Teilsequenzen verschachtelt und dann dem Vektorquantisierteil 44 zugeführt. Es ist wünschenswert, dass die Restkoeffizienten X_N0 zu Teilsequenzen mit im Wesentlichen der gleichen Hüllkurve verschachtelt werden. In dem Gewichtungsverschachtelungsteil 34_VW werden auch die Gewichtungsfaktoren V₀ wie in dem Restverschachtelungsteil 43_XY zu h Teilsequenzen verschachtelt und dann dem Vektorquantisierteil 44 zugeführt. Das Vektorquantisierteil 44 vektoiquantisiert die h Rest-Teilsequenzen jeweils gewichtet mit den entsprechenden Gewichtungsteilsequenzen und gibt h Quantisierungsindizes J₀₁ bis J_0h aus, die dem einen Eingang des Selektors 45A zugeführt werden.
Wenn andererseits in dem Zustandsentscheidungsteil 42 entschieden wird, dass der Rahmen transient ist, wird jeder M-Abtastwert-Rahmen in n gleiche Teilrahmen in dem Rahmensegmentierteil 31 segmentiert, von wo aus 2 M/h-Abtastwert-Verarbeitungsrahmen, bestehend aus jeweils einem der n Teilrahmen und dem unmittelbar vorhergehenden Teilrahmen, auf n Teilkanäle CH₁ bis CH_n verteilt werden, wie im Falle der 4A. In den Rest-/Hüllkurven-Rechenteilen 32₁ bis 32_n werden Restkoeffizienten X₁ bis X_n und spektrale Hüllkurve E₁ bis E_n aus den so verteilten n Verarbeitungsrahmen erzeugt, wie im Falle der 4A. Die Leistungsnormierungsteile 33₁ bis 33_n normieren die Restkoeffizienten X₁ bis X_n mit den Durchschnittsleistungen der entsprechenden Teilrahmen und legen die normierten Restkoeffizienten X_N1 bis X_Nn an das Restverschachtelungsteil 35_XY und die entsprechenden Normierungsverstärkungen G₁ bis G_n an das Gewichtungsrechenteil 34₁ bis 34_n an und geben dabei gleichzeitig Indizes I_G1 bis I_Gn aus, die die Verstärkungen darstellen. Die Gewichtungsrechenteile 34₁ bis 34_n multiplizieren die spektralen Hüllkurve E₁ bis E_n jeweils mit den Normierungsverstärkungen G₁ bis G_n um Gewichtungsfaktoren V₁ bis V_n zu erzeugen, die an das Gewichtungsverschachtelungsteil 35_VW angelegt werden.
Die so erzeugten n normierten Restteilsequenzen X_N1 bis X_Nn der Teilkanäle CH₁ bis CH_n werden dem Restverschachtelungsteil 35_XY zugeführt, wo die Komponenten aller Teilsequenzen zu Sequenzen X₁ bis X_m verschachtelt werden, wie im Fall der 4A.
In dem Gewichtungsverschachtelungsteil 35_VW werden die n Gewichtungsfaktorteilsequenzen V₁ bis V_n der Teilkanäle CH₁ bis CH_n ebenfalls entsprechend zu m Sequenzen W₁ bis W_m verschachtelt. In dem Quantisierteil 36 werden die verschachtelten Restsequenzen (Vektoren) Y₁ bis Y_m durch Verwendung der entsprechenden verschachtelten Gewichtungssequenzen (Vektoren) W₁ bis W_m gewichtet vektorquantisiert, und die Quantisierungsindizes J₁ bis J_m werden von dem Quantisierteil 36 bereitgestellt.
Der 1-Bit-Code Id, der angibt, ob der Rahmen stationär oder transient ist, wird ausgegeben, und im Falle des stationären Rahmens werden die Vektorquantisierungsindizes J₀₁ bis J_0h, der Hüllkurvenindex I_E0 und der Normierungsverstärkungsindex I_G0 bereitgestellt, wohingegen im Falle des transienten Rahmens die Vektorquantisierungsindizes J₁ bis J_m, die Hüllkurvenindizes I_E1 bis I_En und die Normierungsindizes I_G1 bis I_Gn bereitgestellt werden. Diese Vektorquantisierungsindizes, Hüllkurvenindizes und Normierungsindizes werden von den Selektoren 45A, 45B bzw. 45C selektiv entsprechend dem Zustandsentscheidungscode Id ausgegeben.
In 15 ist ein Beispiel eines Decoders gezeigt, der zusammen mit dem Encoder aus 13 verwendet wird, wobei die Teile, die denen aus 12 entsprechen, mit den gleichen Bezugszeichen bezeichnet sind. Der in den Decoder eingegebene Hüllkurvenindex I_E0 oder I_E1 bis I_En wird über einen Selektor 80B einem Hüllkurvendecodierteil 62₀ oder 62, je nach Inhalt des Zustandsentscheidungscodes Id, zugeführt. Die Vektorquantisierungsindizes J₀₁ bis J_0h oder J₁ bis J_m werden einem Selektor 80A zugeführt, von wo sie einem Vektordecodierteil 72₀ oder 72 je nach Code Id zugeführt werden. Die Normierungsverstärkungsindizes I_G0 oder I_G1 bis I_Gn werden an einen Selektor 80C angelegt, von wo sie einem Verstärkungsdecodierteil 75₀ oder 75 je nach Code Id zugeführt werden. In den Hüllkurvendecodierteilen 62₀ und 62 werden die dem eingegebenen Index entsprechenden Vorhersagekoeffizienten im Decodierteil 62A₀ und 62A decodiert, und in Hüllkurven-Rechenteilen 62B werden die Vorhersagekoeffizienten verwendet, um die Hüllkurve der Frequenzcharakteristik zu berechnen.
Wenn der Code Id den stationären Rahmen angibt, werden die Vektorquantisierungsindizes J₀₁ bis J_0h einem Vektordecodierteil 81 zugeführt, wo sie decodiert werden, um n Teilsequenzen Y₀₁' bis Y_0h zu reproduzieren. Diese Teilsequenzen werden an ein Invers-Verschachtelungsteil 82_YX angelegt, wo sie einer Verschachtelung entgegengesetzt der in dem Restveischachtelungsteil 45 des Encoders aus 13 unterzogen werden, wodurch die Teilsequenzen zu der ursprünglichen Sequenz der normierten Restkoeffizienten X_N0 kombiniert werden. In einem Multiplizierer 77a werden die Restkoeffizienten X_N0 mit der decodierten Verstärkung G₀ aus dem Decodierteil 75 multipliziert. Die multiplizierten Restkoeffizienten werden an ein Leistungs-Denormierungsteil 65₀ angelegt, wo sie mit der decodierten Hüllkurve E₀ von dem Hüllkurvendecodierteil 62₀ multipliziert, d. h. denormiert werden, wodurch die Frequenzbereichskoeffizienten rekonstruiert werden. Wie in dem Decoder der 12 werden die Frequenzbereichskoeffizienten in ein Zeitbereichssignal durch die inverse modifizierte diskrete Kosinustransformation in einem IMDCT-Teil 66₀ transformiert. In einem Rahmenüberlappungsteil 78₀ werden, nachdem das Zeitbereichssignal nach Bedarf mit einer Fensterfunktion multipliziert worden ist, die erste Hälfte des 2 M-Abtastwert-Rahmens und die zweite Hälfte des unmittelbar vorhergehenden 2 M-Abtastwert-Rahmens zu einem rekonstruierten akustischen Signal eines M-Abtastwert-Rahmens überlappt, der an den Anschluss 51 angelegt wird.
Wenn der Code Id den transienten Rahmen angibt, werden spektrale Hüllkurve jeweiliger Teilrahmen aus den Hüllkurvenindizes I_E0 bis I_En in dem Hüllkurvendecodierteil 62 decodiert, aus dem Hüllkurvenkoeffizienten E₁ bis E_n ausgegeben werden. In dem Verstärkungsdecodierteil 75 werden die Normierungsverstärkungsindizes I_G1 bis I_Gn zu den Verstärkungen G₁ bis G_n decodiert. In dem Vektordecodierteil 72 werden die Vektorquantisierungsindizes J₁ bis J_m zu Vektoren Y₁' bis Y_m' decodiert. In einem Invers-Verschachtelungsteil 76_YX werden die so reproduzierten m Vektoren Y₁' bis Y_m' einer Verschachtelung entgegengesetzt zu der in dem Verschachtelungsteil 35_XY des Encoders aus 13 unterzogen, wodurch die n Teilsequenzen der normierten Restkoeffizienten Y_N1 bis Y_Nn (wiederhergestellt werden). In Multiplizierern 77₁ bis 77_n werden diese Restkoeffiziententeilsequenzen X_N1 bis X_Nn mit den ihnen entsprechenden reproduzierten Verstärkungen G₁ bis G_n multipliziert. Die multiplizierten Ausgaben werden jeweils mit den reproduzierten Hüllkurve E₁ bis E_n in Denormierungsteilen 65₁ bis 65_n multipliziert, wodurch die Frequenzbereichskoeffizienten reproduziert werden. In IMDCT-Teilen 66₁ bis 66_n werden die Frequenzbereichskoeffizienten jeweils in Zeitbereichssignale durch IMDT-Verarbeitung transformiert. Diese Zeitbereichssignale werden nach Bedarf in Rahmenüberlappungsteilen 78₁ bis 78_n mit Fensterfunktionen multipliziert, wonach erste und zweite Hälften von benachbarten Teilrahmen (benachbarten Teilkanälen) überlappt werden; in einem Rahmenkombinierteil 79 werden diese überlappten Abschnitte in einer Zeitsequenz zu einem reproduzierten akustischen Signal in dem transienten Rahmen kombiniert, das an den Ausgangsanschluss 51 angelegt wird.
Ein Encoder für Stereosignale ist in 16 gezeigt, in der die Teile, die denen in 13 entsprechen, mit den gleichen Bezugszeichen bezeichnet sind, allerdings mit einem zugefügten Suffix "L" für die Linkskanalkomponenten und mit einem Suffix "R" für die Rechtskanalkoeffizienten. D. h., in dem Fall des stationären Rahmens werden von den Eingangsanschlüssen 11_L und 11_R eingegebene Links- und Rechtskanalsignale der gleichen Verarbeitung wie der stationäre Rahmen unterzogen, wie in 13 gezeigt, doch im Fall des transienten Rahmens werden die Restkoeffizienten jeweiliger Teilrahmen von Links- und Rechtskanalsignalrahmen gemischt und dann einer gewichteten Vektorquantisierung unterzogen. In anderen Beziehungen ist dieser Encoder identisch mit dem der 13.
Ein Decoder zum Decodieren der codierten Ausgabe des Encoders aus 16 ist in 17 gezeigt, wobei diejenigen Teile, die denen aus 15 entsprechen, mit dem gleichen Bezugszeichen bezeichnet sind, allerdings mit einem hinzugefügten Suffix "L" für den linken Kanal und einem Suffix "R" für den rechten Kanal. Im Falle des stationären Rahmens werden Links- und Rechtskanalsignale beide in gleicher Weise decodiert, wie im Falle der 15. Im Falle des transienten Rahmens werden jedoch alle Komponenten der in dem Vektorreproduzierteil 72 reproduzierten m Vektoren in dem inversen Verschachtelungsteil 76_YX zu den Originalsequenzen von diesen durch das Restverschachtelungsteil 35_XY in 16 restauriert. So werden decodierte Signale der Linkskanal-Teilrahmen in einem Rahmenkombinierteil 79_L zu einem Kompositsignal kombiniert, das an einen Anschfuss 51_L angelegt wird, und decodierte Signale der Rechtskanal-Teilrahmen werden entsprechend in einem Rahmenkombinierteil 79_R zu einem Kompositsignal kombiniert, das an einen Anschluss 51_R angelegt wird.
Bei den Ausgestaltungen der 13, 15, 16 und 17 sind die Verschachtelungsabbildungen und die inversen Verschachtelungsabbildungen vorgegeben, doch ist es auch möglich, ein Verfahren zu verwenden, bei dem eine Mehrzahl von Verschachtelungsabbildungsschemata vorbereitet und jeweils verwendet werden, um Vektorquantisierung durchzuführen, dann wird eine Abbildung mit minimaler Verzerrung ausgewählt, und die Information über die ausgewählte Abbildung wird übertragen.
Die Hilfsinformation (d. h. der Hüllkurvenindex und der Verstärkungsindex) der spektralen Hüllkurve und die Normierungsverstärkung (Leistung) wird bei einem gewöhnlichen (stationären) Rahmen in jedem Rahmen übertragen. Bei den oben beschriebenen Ausgestaltungen werden, wenn der Rahmen transient ist, die spektrale Hüllkurveninformation und die Verstärkungsinformation unabhängig für jeden Teilrahmen übertragen, doch können aus den nachfolgend angegebenen Gründen diese Informationsstücke gemeinsam für jeden Rahmen vektorquantisiert sein. D. h., bei einem System, das eine feste Informationsmenge in jedem Rahmen überträgt, wird, wenn die gleiche Zahl von Bits wie für den gewöhnlichen Rahmen der Hilfsinformation für jeden Teilrahmen zugewiesen ist, das Verhältnis der Menge an Hilfsinformation zur Gesamtmenge an Information groß, wodurch die Möglichkeit herbeigeführt wird, dass die Gesamtverzerrung groß wird. Außerdem kann eine Mehrzahl von Teilrahmen als eine einzige Einheit vektorquantisiert werden. Alternativ können die spektrale Hüllkurve und die Verstärkung jedes Teilrahmens für alle Teilrahmen gemeinsam verwendet werden.
Bei den Ausgestaltungen der 13 und 16 wird zwischen den stationären und den transienten Rahmen unterschieden, da im stationären Zustand das Leistungsungleichgewicht nicht verwendet werden kann, um die Menge der zu codierenden Information zu verringern; wenn der Rahmen stationär ist, wird das Signal ohne Segmentierung in Teilrahmen codiert, und im Falle des transienten Rahmens wird das Signal in Teilrahmen segmentiert, um eine Mehrzahl von Signalsequenzen zu bilden. Bei einem akustischen Signal, das eine Tonhöhenkomponente enthält, wie etwa bei Sprache oder bei einem Musiksignal, wird die Korrelation zwischen Rahmen besonders hoch bei fortlaufenden stationären Rahmen. Diese Erscheinung kann genutzt werden, um die Menge an Information für die Codierung zu reduzieren, indem die Ausgestaltungen der 13 und 16 teilweise modifiziert werden, wie unten beschrieben.
D. h., wie in 18 gezeigt, wird die Hüllkurve E_R der Restkoeffizienten des gegenwärtigen Rahmens in einem Resthüllkurven-Rechenteil 91 anhand der Restkoeffizienten des vorhergehenden stationären Rahmens vorausgesagt, und in einem Resthüllkurven-Normierungsteil 92 werden die von dem Normierungsteil 32F in dem Rest-/Hüllkurven-Rechenteil 32 in 13 gelieferten Restkoeffizienten X₀ normiert durch Dividieren durch die vorhergesagte Resthüllkurve E_R. Bei einem Sprach- oder Musikton ist eine Tonhöhenkomponente üblicherweise in den Restkoeffizienten im Frequenzbereich in jedem Rahmen enthalten, und diese Tonhöhenkomponente dauert oft über eine Mehrzahl von Rahmen an. Bei dieser Ausgestaltung kann jedoch eine solche Tonhöhenkomponente unterdrückt werden durch Normieren der Restkoeffizienten X₀ in dem stationären Rahmen durch die Rest-Hüllkurve E_R; infolgedessen werden abgeflachte Feinstrukturkoeffizienten Z geliefert. D. h., die abgewandelte Ausgestaltung der 18 implementiert eine voraussagende Codierung, die die Inter-Rahmen-Korrelation durch Vektorquantisieren der Feinstrukturkoeffizienten Z anstatt durch Vektorquantisieren der Restkoeffizienten ausnutzt.
Die spektrale Hüllkurve E₀ von dem Spektralhüllkurven-Rechenteil 32E und die Restkoeffizienten-Hüllkurve E_R von dem Resthüllkurven-Rechenteil 91 werden für jeden entsprechenden Abtastwert miteinander multipliziert, um die Gewichtungsfaktoren V₀ in einem Gewichtungsrechenteil 93 zu erhalten. Das Leistungsnormierungsteil 33₀ normiert die Feinstrukturkoeffizienten Z mit ihrer Leistung und gibt den Normierungsverstärkungsindex I_G0 aus. Die leistungsnormierten Feinstrukturkoeffizienten Z_N werden an das Vektorquantisierteil 44 angelegt, wo sie mit den von dem Gewichtungsiechenteil 93 kommenden Gewichtungsfaktoren V₀ vektorquantisiert werden. Hier sind wie bei der Ausgestaltung der 13 die Feinstrukturkoeffizienten Z_N und die Gewichtungsfaktoren V₀ in Verschachtelungsteilen 43_ZY und 43_VW zu h Teilsequenzen Y₀₁ bis Y_0h bzw. W₀₁ bis W_0h verschachtelt. Das Vektorquantisierteil 44 quantisiert die Feinstrukturkoteffiziententeilsequenzen Y₀₁ bis Y_0h mit den entsprechenden Gewichtungsteilsequenzen W₀₁ bis W_0h. Die Quantisierungsindizes J₀₁ bis J_0h werden dem Selektor 35A in 13 zugeführt. Außerdem werden Vektoren C(J₀₁) bis C(J_0h), die den Quantisieiungsindizes J₀₁ bis J_0h entsprechen, an das Denormierungsteil 94 angelegt, wo sie mit der vom Resthüllkurven-Rechenteil 91 zugeführten Resthüllkurven denormiert werden, wodurch Restkoeffizienten Xq erhalten werden. Das Resthüllkurven-Rechenteil 91 sagt die Resthüllkurve des nächsten Rahmens auf der Grundlage der Restkoeffizienten Xq voraus. Es liegt auf der Hand, dass 16 entsprechend abgewandelt werden kann.
Die Decodierung der in 18 vektorquantisierten Feinstrukturkoeffizienten Z kann implementiert werden, indem, wie in 19 gezeigt, die Konfiguration zwischen dem Vektordecodierteil 81 und dem Denormierungsteil 65₀ in dem Decoder der 15 abgewandelt wird. D. h., in einem Vektordecodierteil 81 werden die Vektorquantisierungsindizes J₀₁ bis J_0h zu der Vektorteilsequenz Y₀₁ bis Y_0h', d. h., den Vektoren C(J₀₁) bis C(J_0h) decodiert, die einem inversen Verschachtelungsteil 82_YZ zugeführt werden, wo sie zu einer Sequenz invers zu der in dem Verschachtelungsteil 43 in 18 verschachtelt werden, wodurch sie zu einer Sequenz von normierten Feinstrukturkoeffizienten Z_N' verschachtelt werden. In dem Multiplizierer 77₀ werden die normierten Feinstrukturkoeffizienten N_Z' mit der Verstärkung G₀ multipliziert, die aus dem vom Leistungsnormierungsteil 33₀ in 18 (dem Verstärkungsdecodierteil 75) zugeführten Normierungsindex I_G0 decodiert ist, wodurch die Fein strukturkoeffizienten Z' reproduziert werden. In einem Resthüllkurven-Denormierungsteil 83 werden die Feinstrukturkoeffizienten Z' durch eine Rest-Spektralhüllkurve E_R' aus einem Resthüllkurven-Rechenteil 84 denormiert, wodurch Restkoeffizienten X₀' reproduziert werden. In dem Denormierungsteil 65₀ werden die Restkoeffizienten X₀' zu Frequenzbereichskoeffizienten anhand der vom Hüllkurven-Rechenteil 62B in 15 zugeführten spektralen Hüllkurve E₀ denormiert; die so erhaltenen Frequenzbereichskoeffizienten werden dem IMDCT-Teil 66₀ in 15 zugeführt. Die nachfolgende Verarbeitung ist die gleiche wie in 15. Das Resthüllkurven-Rechenteil 84 ist im Aufbau identisch mit dem Resthüllkurven-Rechenteil 91 des Encoders (18) und sagt die Hüllkurve E_R' der Restkoeffizienten des laufenden Rahmens aus den darin eingegebenen reproduzierten Restkoeffizienten X₀' des vorhergehenden Rahmens voraus. Der Decoder aus 17 kann ebenfalls entsprechend abgewandelt werden.
Bei der Codierung und Decodierung eines Signals in einer solchen Feinstruktur wird eine Codierung, die keine Interrahmenkorrelation verwendet (vorhersagende Codierung) z. B. in den transienten Rahmen durchgeführt, und wenn auf den stationären Rahmen umgeschaltet wird, wird der vorhergehende Zustand der Interrahmenkorrelation zurückgesetzt. D. h., nur das Innere der Resthüllkurven-Rechenteile 91 und 84 in 18 und 19 muss zurückgesetzt werden. Alternativ kann, obwohl der Teilrahmen im transienten Rahmen und der stationäre Rahmen sich in zeitlicher Länge unterscheiden, die auf der Interrahmenkorrelation basierende Vorhersage in Bezug auf die Leistungsnormierungsverstärkung und die Spektralhüllkurvenparameter durchgeführt werden, wie für transiente und stationäre Rahmen üblich. Mit anderen Worten werden die Spektralhüllkurvenparameter und die Verstärkung in zwei Teilrahmen z. B. als Spektralhüllkurvenparameter und Verstärkung zwei Rahmen früher verwendet, um die Resthüllkurven-Rechenteile 91 und 84 zu betreiben.
Es ist auch möglich, eine Konfiguration zu verwenden, die 4- oder 5-kanalige Stereosignale verwendet und in dem transienten Rahmen jeden Kanal in eine Mehrzahl von Teilkanälen segmentiert, um ein Multikanalsignal zu bilden. Es ist auch möglich, ein Eingangssignal in Niedrigfrequenz- und Hochfrequenzsignale aufzuteilen und sie an die Eingangsanschlüsse 11_L und 11_R in 16 anzulegen.
Einer solchen Abwandlung zufolge ist das Verschachtelungsteil 76_XY des Decoders konstruiert, um eine Mehrzahl von Gruppen von Restkoeffizienten, eine Mehrzahl von Restkoeffizienten entsprechend jedem Ausgangsanschluss, oder eine einzige Gruppe von Restkoeffizienten für die Reproduktion zu einem Zeitbereichssignal zu erzeugen.
Wie oben beschrieben wird bei den Ausgestaltungen der Encoder aus 13 und 16 das Eingangssignal nur für einen Rahmen, in dem das Signal eine starke Leistungsänderung auf der Zeitachse erfährt, in Teilrahmen segmentiert, dann werden die Teilrahmen jeweils der MDCT-Verarbeitung unterzogen, um die Frequenzbereichskoeffizienten zu erhalten; auf diese Weise können sich Leistungsungleichgewicht im Frequenzbereich und Leistungsungleichgewicht zwischen Teilrahmen, d. h. beide Ungleichgewichte im Zeitbereich, in der Veränderung des Gewichtungsfaktors in dem Vektor widerspiegeln. Ungleichgewicht des durchschnittlichen Gewichtungsfaktors (Leistung) zwischen den Teilsequenzen kann verringert werden. Wenn die Teilsequenzen in regelmäßiger Reihenfolge ohne Durchführung der Verschachtelung erzeugt werden, ist die Veränderung des Gewichtungsfaktors in den Teilsequenzen klein, was zu einer Zunahme der Veränderung des durchschnittlichen Gewichtungsfaktors zwischen den Teilsequenzen führt. In diesem Fall kann die Verzerrung nicht ohne die adaptive Bitzuteilung zwischen den Teilsequenzen verringert werden.
Da gemäß der vorliegenden Erfindung die Veränderung des Gewichtungsfaktors zwischen den Teilsequenzen klein ist, ist die Wirkung der Verringerung der Verzerrung kaum beeinträchtigt, auch wenn die Bitzuweisung festgelegt ist. Der Grund hierfür ist, dass die vorliegende Erfindung eine gewichtete Steuerung der Quantisierungsverzerrung zur Verringerung der Verzerrung durchführt und die Vektorquantisierungsverzerrung durch die gewichtete Vektorquantisierung steuert.
Die Ausgestaltungen der 4A, 11 und 16 waren zwar in der Lage, Signale von gleicher Art wie etwa akustische Signale zu codieren, doch ist die vorliegende Erfindung auch anwendbar auf eine Mehrzahl von unterschiedlichen Signalsequenzen, sofern sich ein Leistungsungleichgewicht zwischen ihnen entwickelt. Mit Bezug auf 20 wird eine Beschreibung eines Encoders geliefert, der das Codierverfahren nach der vorliegenden Erfindung verkörpert, um zwei Sequenzen von Bild- und Tonsignalen in einer gemultiplexten Form mit einer festgelegten Informationsmenge zu übertragen. Es wird beschrieben, dass dieser Encoder das Transformationscodierschema für das Tonsignal und sowohl Interrahmenvorhersage als auch das Transformationscodierungsschema für das Bildsignal verwendet, doch ist es nicht wesentlich für die vorliegende Erfindung, welche Codierschemata für einzelne Signale verwendet werden.
In 20 werden ein digitales Bildsignal und ein digitales Tonsignal an Anschlüsse 11a bzw. 11b angelegt. Die Verarbeitung des Tonsignals wird für jeden Rahmen gemeinsam mit der des Bildsignals durchgeführt, und die Verarbeitung ist die gleiche wie z. B. die eines Teilkanals in 4A; die Konfiguration hierfür ist in vereinfachter Form gezeigt. In einem Transfoimationsteil 32Bb wird das akustische Signal rahmenweise zeit-frequenz-transformiert. Die resultierenden Frequenzbereichskoeffizienten werden an ein Hüllkurven-Rechenteil 32Eb und ein Normierungsteil 32Fb angelegt. Das Hülfkurven-Rechenteil 32Eb verwendet die Frequenzbereichskoeffizienten, um deren spektrale Hüllkurve Eb zu berechnen, und liefert sie an das Normierungsteil 32Fb und ein Gewichtungsrechenteil 34b und gibt einen Index I_Eb aus, der die Hüllkurve Eb darstellt. Das Normierungsteil 32Fb gewinnt Restkoeffizienten durch Dividieren der jeweiligen Frequenzbereichskoeffizienten durch die entsprechenden Abschnitte der spektralen Hüllkurve Eb und normiert (dividiert) die Restkoeffizienten durch die durchschnittliche Leistung des Rahmens, um normierte Restkoeffizienten X_Nb zu erhalten, während es gleichzeitig einen Index I_Gb ausgibt, der die Leistungsnormierungsverstärkung Gb darstellt. Das Gewichtungsrechenteil 34b multipliziert die spektrale Hüllkurve Eb und die Verstärkung Gb und multipliziert, wenn nötig, die multiplizierte Ausgabe mit einer psychoakustischen Gewichtung, um Gewichtungsfaktoren Vb zu erhalten. Die Restkoeffizienten X_Nb und die Gewichtungsfaktoren Vb werden einem Rest-Verschachtelungsteil 35_XY und einem Gewichtungsverschachtelungsteil 35_VW zugeführt.
Andererseits wird das Bildsignal an ein Interrahmenvorhersageteil 95 angelegt, worin ein aus dem vorhergehenden Rahmen vorhergesagtes Signal von dem Bildsignal subtrahiert wird, und das Differenzsignal D wird an ein Transformationsteil 32Ba angelegt. Das Transformationsteil 32Ba führt eine Zeit-Frequenz-Tiansformation des Diffeienzsignals D aus, um Frequenzbereichskoeffizienten zu erzeugen, die einem Hüllkurven-Rechenteil 32Ea und einem Normierungsteil 32Fa zugeführt werden. Das Hüllkurven-Rechenteil 32Ea, das Normierungsteil 32Fa und das Gewichtungsrechenteil 34a arbeiten genauso wie die entsprechenden Teile 32Eb, 32Fb und 34b für das Tonsignal. Das Hüllkurven-Rechenteil 32Ea gibt eine spektrale Hüllkurve Ea und einen sie darstellenden Index I_Ea aus. Das Normierungsteil 32Fa gibt normierte Restkoeffizienten X_Na, eine Leistungsnormierungsverstärkung Ga und einen Verstärkungsindex I_Ga aus. Das Gewichtungsrechenteil 34a gibt Gewichtungsfaktoren Va aus. Die Restkoeffizienten X_Na und der Gewichtungsfaktor Va werden dem Restverschachtelungsteil 35_XY bzw. dem Gewichtungsverschachtelungsteil 35_VW zugeführt. Das Restverschachtelungsteil 35_XY verschachtelt die Komponenten der Restkoeffizienten X_Na und X_Nb zu m Restteilsequenzen (Vektoren) Y₁ bis Y_m, die einem Vektorquantisierteil 36 zugeführt werden. Das Gewichtungsverschachtelungsteil 35_VW verschachtelt die Komponenten der Gewichtungsfaktoren V und Vb zu den gleichen Teilsequenzen wie die Restteilsequenzen, d. h. zu m Gewichtungsteilsequenzen W₁ bis W_m, die dem Quantisierteil 36 zugeführt werden. Das Vektorquantisierteil 36 vektorquantisiert die Restteilsequenzen Y₁ bis Y_m mit den entsprechenden Gewichtungsteilsequenzen W₁ bis W_m und gibt die Quantisierungsindizes J₁ bis J_m aus. Der Codierer der 20 gibt schließlich als Ergebnisse der Codierung des Eingangs-Bildsignals und des Eingangs-Tonsignals für jeden Rahmen die Quantisierungsindizes J₁ bis J_m, die Hüllkurvenindizes I_Ea und I_Eb sowie die Verstärkungsindizes I_Ga und I_Gb aus.
21 zeigt ein Beispiel der Konfiguration des Interahmen-Vorhersageteils 95 in 20. Ein Subtrahierer 95F erzeugt das Differenzsignal durch Subtrahieren eines vom vorhergehenden Rahmen in einem Vorhersager 95E erhaltenen Vorhersagesignals von dem Eingangs-Bildsignal des gegenwärtigen Rahmens. Wenn ihm die Quantisieiungsindizes J₁ bis J_m des gegenwärtigen Rahmens von dem Vektorquantisierteil 36 geliefert werden, liest das Decodierteil 95A aus seinem internen Codebuch m Vektoren, die den Indizes J₁ bis J_m entsprechen (inverse Quantisierung) und unterzieht sie einer Verschachtelung entgegengesetzt zur der Restverschachtelung, um zwei Restsequenzen entsprechend den Restkoeffizienten X_Na und X_Nb zu reproduzieren. Die Restsequenz Xa' für das Bildsignal wird einem Denormierungsteil 95B zugeführt. Das Denormierungsteil 95B multipliziert die Restsequenz Xa' mit der spektralen Hüllkurve Ea (Denormierung), um Frequenzbereichskoeffizienten zu erhalten, die einem inversen Transformationsteil 95C zugeführt werden. Das inverse Transformationsteil 95C führt eine Frequenz-Zeit-Transformation der Frequenzbereichskoeffizienten zu einem Zeitbereichssignal (entsprechend dem reproduzierten Differenzsignal D') durch, das an einen Addierer 95D angelegt wird. Der Addierer 95D addiert das reproduzierte Differenzsignal D' zu dem im gegenwärtigen Rahmen verwendeten Vorhersagesignal, das vom Vorsager 95E geliefert ist, um ein aktualisiertes Vorhersagesignal zu liefern, das an den Vorhersager 95E angelegt wird. Der Vorhersager 95E hält das aktualisierte Vorhersagesignal und liefert es an den Subtrahierer 95F als ein Vorhersagesignal für das Eingangs-Bildsignal des nächsten Rahmens.
22 ist eine vereinfachte Darstellung eines Beispiels eines Decoders zur Verwendung mit dem in 20 abgebildeten Encoder. Ein mit den Quantisierungsindizes J₁ bis J_m versorgtes Vektorrepioduzierteil 72 liest aus seinem internen Codebuch m entsprechend Vektoren Y₁' bis Y_m' und liefert sie an ein inverses Verschachtelungsteil 76_XY Das inverse Verschachtelungsteil 76_XY verschachtelt die Komponenten der Vektoren Y₁' bis Y_m' zu Sequenzen invers zu den Restsequenzen und erzeugt die dem Differenzbildsignal und dem Tonsignal entsprechenden Restsequenzen Xa' und Xb', die Denormierungsteilen 65a bzw. 65b zugeführt werden. Andererseits decodiert ein Decodierteil 62a die spektrale Hüllkurve des Differenzbildsignals aus dem ihm zugeführten Spektralhüllkurvenindex I_Ea und multipliziert sie mit der vom Verstärkungsindex I_Ga spezifizierten Verstärkung Ga, um Spektralhüllkurvenkoeffizienten zu erzeugen, die den Denormierungsteilen 65a zugeführt werden. Das Denormierungsteil 65a multipliziert jeweilige Komponenten den Restkoeffizienten Xa' mit den entsprechenden Spektralhüllkurvenkoeffizienten des Differenzbildsignal (Denormierung), um Frequenzbereichskoeffizienten des Differenzbildsignals zu erhalten, die einem inversen Transformationsteil 66a zugeführt werden. Das inverse Transformationsteil 66a frequenztransformiert die Frequenzbereichskoeffizienten, um das Differenzbildsignal D' zu erzeugen, das an einen Addierer 67 angelegt wird. Der Addierer 67 addiert das Differenzbildsignal D' zu einem in einem Vorhersager 68 gehaltenen decodierten Bildsignal des vorhergehenden Rahmens und liefert das addierte Ergebnis als ein decodiertes Bildsignal des gegenwärtigen Rahmens an einen Ausgangsanschluss 51a; gleichzeitig wird das addierte Ergebnis in dem Vorhersager 68 für den nächsten Rahmen gespeichert.
Entsprechend decodiert ein Decodierteil 62b die Indizes IEb und I_Gb, um die Spektralhüllkurvenkoeffizienten des Tonsignals zu erhalten, und liefert sie an das Denormierungsteil 65b. Das Denormierungsteil 65b multipliziert jeweilige Komponenten der Restkoeffizienten Xb' mit den entsprechenden Koeffizienten der spektralen Hüllkurve des Tonsignals, um Frequenzbereichskoeffizienten des akustischen Signals zu erhalten, die einem inversen Transformationsteil 66b zugeführt werden. Das inverse Transformationsteil 66b führt eine Frequenz-Zeit-Transformation der Frequenzbereichskoeffizienten durch, um das Tonsignal zu decodieren, das einem Anschluss 51b zugeführt wird.
Wie oben beschrieben, wird gemäß der Ausgestaltung der 20, wenn ein Leistungsungleichgewicht zwischen dem Bildsignal und dem Tonsignal in dem gegenwärtigen Rahmen auftritt, die gewichtete Vektorquantisierung durchgeführt – dies führt zu der Codierung, die dem Signal mit größerer Leistung mehr Bedeutung gibt. Daher kann die Quantisierungsverzerrung entsprechend verringert werden. Da die Ausgestaltung der 20 eine Interrahmen-Vorhersageverarbeitung für das Bildsignal durchführt, ist der Pegel des Differenzbildsignals D niedrig, wenn das Bild über eine Mehrzahl von Rahmen hinweg keine wesentlichen Änderungen erfährt. Dadurch kann das Leistungsungleichgewicht für das Tonsignal erhöht werden, und die Quantisierungsverzerrung durch die Codierung des Bildsignals und des Tonsignals kann entsprechend verringert werden.
23A zeigt eine Ausgestaltung der vorliegenden Erfindung, angewandt auf einen Encoder, der Stereosignale von rechten und linken Kanälen durch Verwendung des CELP-Schemas codiert. In 23A sind diejenigen Teile, die denen in 2A entsprechen, mit den gleichen Bezugszeichen mit hinzugefügten Suffixes „L" bzw. „R" bezeichnet, die jeweils den linken bzw. den rechten Kanal angeben. Entsprechend den Eingangsanschlüssen 11_L und 11_R des linken bzw. des rechten Kanals sind LPC-Analyseteile 12_L und 12_R , LPC-Synthesefilter 13_L und 13_R , adaptive Codebücher 14_L und 14_R , Multiplizierer 15_L und 15_R , Addierer 18_L und 18_R , Subtrahierer 19_L und 19_R und psychoakusti sche Gewichtungsteile 20_L und 20_R vorgesehen, die alle im Aufbau identisch
mit den in 2A abgebildeten sind. Das Zufallscodebuch 16, das Verzerrungsberechnungs-Codebuchsuchteil 21 und das Gewichtungscodierteil 22 sind gemeinsam für den linken und den rechten Kanal vorgesehen, und sie arbeiten in der gleichen Weise wie oben mit Bezug auf 2A beschrieben. Die in den linken und rechten Kanal eingegebenen Sprachsignale werden für jeden Rahmen einer LPC-Analyse unterzogen, um Vorhersagekoeffizienten P_L, P_R zu erhalten. Diese Ausgestaltung weist auch die Konfiguration des kombinierten Zufallscodebuchs 16 auf. In dem kombinierten Zufallscodebuch 16 sind kombinierte Zufallscodevektoren, jeweils mit einer Länge gleich der Rahmenlänge multipliziert mit der Zahl der Kanäle zu jeweiligen Indizes C vorabgespeichert. Jeder kombinierte Zufallscodevektor ist in die Zahl von Kanälen unterteilt, und vorgegebene getrennte Abschnitte (Teilvektoren) werden als Zufallscodevektoren der jeweiligen Kanäle verwendet. Bei dieser Ausgestaltung sind entsprechend jeweiligen Indizes des Codebuchs Zufallscodevektoren mit jeweils einer Länge von zwei Rahmen geladen; die erste Hälfte und die zweite Hälfte der jeweiligen kombinierten Zufallscodevektoren werden als ein Linkskanal-Zufallscodevektor bzw. ein Rechtskanal-Zufallscodevektor verwendet. Indem dem kombinierten Zufallscodebuch 16 ein Vektorindex C angegeben wird, wird ein bestimmtes Paar von Linkskanal- und Rechtskanal-Zufallscodevektoren, das dem spezifizierten Index C entspricht, aus dem kombinierten Codebuch 16 ausgelesen und den Multiplizierern 17_L und 17_R zugeführt.
Wie zuvor mit Bezug auf 2A beschrieben, werden durch Setzen der Gewichtungsfaktoren auf g_L1 = g_R1 Ausschnittlängen S_L und S_R, die die Verzerrungen von synthetisierten Tönen für das linke und das rechte akustische Eingangssignal minimieren, in dem Verzerrungsberechnungs/Codebuchsuchteil 21 für jeden Rahmen festgelegt, und Perioden-Komponentenverstärkungen g_L0 und g_R0, die die jeweiligen Verzerrungen minimieren, werden aus den adaptiven Codevektoren (Tonhöhenkomponentenvektoren) berechnet, die von den Ausschnittlängen S_L und S_R erzeugt werden. Nachdem die Ausschnittlängen S_L und S_R und die Perioden-Komponentenverstärkungen g_L0 und g_R0 so festgelegt sind, werden die tonhöhenkomponentensynthetisierten Töne, die aus den Synthesefiltern 13_L und 13_R ausgegeben werden, in den Subtrahierern 19_L und 19_R von den eingegebenen Tonsignalen subtrahiert. Die resultierenden Differenzen, die Rauschkomponentenvektoren sind, werden als Ziele für rauschkomponentensynthetisierte Töne verwendet, die die Synthesefilter 13_L und 13_R erzeugen, wenn als nächstes Zufallscodevektoren als Erregungsvektoren verwendet werden. Wenn die rauschkomponentensynthetisierten Zieltöne durch R_L = [R_L1, ..., R_Ln]^t und R_R = [R_R1, ..., R_Rn]^t, die Impulsantwortmatrix der Synthesefilter 13L und 13R durch HL und HR und die dem linken bzw. rechten Kanal entsprechenden ausgelesenen kombinierten Vektoren durch C_Lj = [C_Lj, ..., C_Ljn]^t bzw. C_Rj = [C_Rj, ..., C_Rjn]^t gegeben sind, kann die gesamte oder kombinierte Verzerrung d durch folgende Gleichung ausgedrückt werden: d = ||RL – gL1HLCLj||2 + ||RR – gR1HRCRj||2
Wie oben mit Bezug auf 2A beschrieben, nimmt, wenn zur Bestimmung des Rauschvektors, der die Gesamtverzerrung minimiert, zeitweilig g_L1 = g_R1 = 1 gesetzt wird, der Minimalwert d_min folgenden Wert an: dmin = ||RL||2 + ||RR||2 – (RL tHLCLj)2/||HLCLj||2 – (RR tHRCRj)2/||HRCRj||2
Da die Zielwerte R_L und R_R Konstanten sind, kann die Gesamtverzerrung d minimiert werden durch Auswählen eines kombinierten Vektors C_j = {C_Lj, C_Rj} aus dem Zufallscodebuch 16, der folgende Gleichung maximiert. D = (RL tHLCLj)2/||HLCLj||2 + (RR tHRCRj)2/||HRCRj||2
Darauf folgt die Bestimmung der Verstärkungen g_L1 und g_R1, die die Verzerrungen im linken und rechten Kanal minimieren.
Da ideale Verstärkungen durch folgende Gleichungen gegeben sind gL1 = RL tHLCLj/||HLCLj||2 gR1 = RR tHRCRj/||HRCRj||2 ist der oben erwähnte Wert D gegeben durch folgende Gleichung D = gL1 2||HLCLj||2 + gR1 2||HRCRj||2
Dies bedeutet, dass in dieser das CELP-Schema verwendenden Ausgestaltung die optimalen Verstärkungen g_L1 und g_R1, die die Verzerrungen minimieren, automatisch bei der Vektorquantisierung des Erregungssignals durch Verwendung des Zufallscodebuchs 16 bestimmt werden.
Der Code D, der z. B. durch Vektorcodieren der so bestimmten Verstärkungen g_L0, g_R0, g_L0, g_R1 in dem Codierteil 22 erzeugt wird, und die oben erwähnten Codes S_L, S_R, C, P_L und P_R werden als Ergebnisse der rahmenweisen Codierung der akustischen Eingangssignale des linken und rechten Kanals durch den Encoder der 23A ausgegeben. Nebenbei bemerkt wurde oben nur der einfachen Verständlichkeit wegen in Bezug auf 23A erklärt, dass LPC-Analyse und Codierung für jeden Rahmen des Eingangssprachsignals durchgeführt werden, doch kann jeder Rahmen in eine Mehrzahl von Teilrahmen segmentiert werden, und die Codes S_L, S_R, C, G können, wie herkömmlicherweise praktiziert, für jeden Teilrahmen erhalten werden.
Wenn z. B. die akustischen Eingangssignale des linken und rechten Kanals in der Leistung im Wesentlichen gleich sind, sind die Verstärkungen g_L0 und g_R0 einander nahezu gleich, und auch die Verstärkungen g_L1 und g_R1 sind einander nahezu gleich. Daher bekommen zwei Linkskanal- und Rechtskanal-Rauschvektoren, die aus der ersten und zweiten Hälfte des aus dem Zufallscodebuch 16 gelesenen kombinierten Zufallscodevektors gebildet werden, ungefähr gleiche Verstärkungen und werden zu den Perioden-Komponentenvektoren (d. h. den adaptiven Codevektoren) addiert, um die Erregungsvektoren E_L bzw. E_R zu erzeugen. So tragen die zwei Linkskanal- und Rechtskanal-Zufallscodevektoren, die dem zum Minimieren der Gesamtverzerrung ausgewählten Index C entsprechen, zu dessen Erzeugung im Wesentlichen im gleichen Ausmaß bei. Dies bedeutet, dass das der Codierung der akustischen Signale des linken und des rechten Kanals ungefähr die gleiche Infoimationsmenge zugeteilt wird.
Wenn die Leistung des akustischen Signals des linken Kanals wesentlich größer als die Leistung des Rechtskanalsignals ist, gelten auch für die Verstärkungen g_L0 und g_R0 für die Perioden-Komponentenvektoren und die Verstärkungen g_L1 und g_R1 für die Zufallscodevektoren, die festgelegt werden, um die Verzerrungen der synthetisierten Töne in den jeweiligen Kanälen zu minimieren, Beziehungen wie etwa g_L0 >> g_R0 und g_L1 >> g_R0. Letztere Beziehung gibt an, dass in dem Prozess des Auswählens des kombinierten Vektors, der die kombinierte Verzerrung minimiert, aus dem Zufallscodebuch 16 der Linkskanal-Zufallscodevektor zur kombinierten Verzerrung wesentlich stärker beiträgt als der Rechtskanal-Zufallscodevektor. Dies ist gleichbedeutend mit der Zuteilung einer größeren Informationsmenge für die Codierung des leistungsstärkeren akustischen Signals des linken Kanals. Bei dieser Ausgestaltung wird jedoch ein Leistungsungleichgewicht in Zeitachsenrichtung nicht berücksichtigt, so dass die für die Codierung jedes Rahmens verwendete Gesamtinformationsmenge konstant ist. Wenn die Leistung des Eingangs-Tonsignals des rechten Kanals größer als die Leistung des Eingangs-Tonsignals des linken Kanals ist, wird der Zufallscodevektor des rechten Kanals als wichtiger als der des linken Kanals angesehen; dies ist gleichbedeutend mit der Zuteilung einer größeren Informationsmenge für die Codierung der akustischen Informationen des rechten Kanals.
Wie oben beschrieben, wird gemäß der Ausgestaltung der 23A die Informationsmenge für die Codierung automatisch und flexibel verteilt, ohne dass es notwendig ist, Bits entsprechend einem Leistungsungleichgewicht zwischen akustischen Signalen des rechten und linken Kanals zuzuweisen. Das Zufallscodebuch muss nicht sowohl im rechten als auch im linken Kanal bereitgestellt werden; es muss nur ein kombiniertes Codebuch gemeinsam für beide Kanäle bereitgestellt werden. Auch wenn in den festgelegten Verstärkungen g_L1 und g_R1 Fehler enthalten sind, gerät die gesamte Information nicht durcheinander.
23B zeigt ein Beispiel eines Decoders, der die akustischen Signale des linken und des rechten Kanals aus den vom Encoder der 23A bereitgestellten Codes S_L, P_L, P_R, G und C decodiert. Diejenigen Teile, die denen in 2B entsprechen, sind mit den gleichen Bezugszeichen bezeichnet und mit Suffizes „L" und „R" zum Bezeichnen des linken bzw. des rechten Kanals versehen. In diesem Decoder sind die Synthesefilter 52, die Multiplizierer 55 und 57 und der Addierer 58 im linken und im rechten Kanal vorgesehen; das Gewichtungsdecodierteil 53 und das kombinierte Zufallscodebuch 56 sind gemeinsam für beide Kanäle vorgesehen. Das kombinierte Zufallscodebuch 56 ist das gleiche wie das Codebuch 16 in 23A. Die Codes S_L und S_R werden den adaptiven Codebüchern 54_L und 54_R zugeführt, um die Ausschnittlängen der darin gehaltenen Erregungsvektoren der unmittelbar vorhergehenden Rahmen zu spezifizieren. Das Gewichtungsdecodierteil 53 decodiert die Verstärkungen g_L0, g_L1, g_R0, g_R1 aus dem Code G und liefert sie an die Multiplizierer 55_L , 57_L , 55_R bzw. 57_R .
Die adaptiven Codebücher 54_L und 54_R schneiden aus den Erregungsvektoren des vorhergehenden Rahmens die Teilvektoren mit den von den Codes S_L und S_R spezifizierten Längen aus und verketten Kopien von ihnen mehrmals, um Perioden-Komponentenvektoren von einem Rahmen Länge zu erzeugen, die den Multiplizierern 55_L und 55_R zugeführt werden. Die Multiplizierer 55_L und 55_R multiplizieren diese adaptiven Codevektoren mit den Verstärkungen g_L0 bzw. g_R0 und liefern die multiplizierten Ausgaben an die Addierer 55_L und 55_R . Die Codes P_L und P_R, die die linearen Vorhersagekoeffizienten darstellen, werden den LPC-Synthesefiltern 52_L und 52_R als Filterkoeffizienten zugeführt. Der von dem Indexcode C spezifizierte kombinierte Vektor wird aus dem kombinierten Zufallscodebuch 56 gelesen; erste und zweite Hälfte des Vektors werden den Multiplizierern 57_L bzw. 57_R zugeführt, wo sie mit den Verstärkungen g_L0 bzw. g_R0 multipliziert werden. Die multiplizierten Ergebnisse werden zu den adaptiven Codevektoren durch die Addierer 58_L und 58_R hinzuaddiert, um die Erregungsvektoren E_L und E_R zu erzeugen. Diese Erregungsvektoren werden den LPC-Synthesefiltern 52_L und 52_R zugeführt, die im linken und rechten Kanal Sprache synthetisieren und den Anschlüssen 51_L und 51_R zuführen. Wenn der Grad der Ähnlichkeit zwischen Links- und Rechtskanalsignalen L und R hoch ist, werden Signale L + Rund L – R als Eingangssignale verwendet, und die oben erwähnte Codierung wird mit auf die Version L + R fokussierter Signalleistung durchgeführt – dies ermöglicht eine weitere Verringerung der Verzerrung.
Wie zuvor mit Bezug auf 2A angegeben, ist es in 23A möglich, die adaptiven Codebücher 14_L und 14_R fortzulassen und ein kombiniertes Codebuch, das Erregungsvektoren als kombinierte Vektoren enthält, anstelle des Zufallscodebuchs 16 zu verwenden. Außerdem können in 23A die LPC-Analyseteile 12_L und 12_R so konstruiert werden, dass sie die Vorhersagekoeffizienten P_L und P_R durch LPC-Analysieren der synthetisierten Ausgabetöne von den Synthesefiltern 13_L und 13_R im vorhergehenden Rahmen festlegen. Um diesen Abwandlungen des Encoders zu entsprechen, ist es bei dem Decoder der 23B auch möglich, die adaptiven Codebücher 54_L und 54_R wegzulassen und ein kombiniertes Codebuch mit vielen darin entsprechend jeweiligen Indizes vorabgespeicherten Erregungsvektoren anstelle des Zufallscodebuchs 56 zu verwenden. Außerdem können die linearen Vorhersagekoeffizienten P_L und P_R, die den Synthesefiltern 52_L und 52_R zugeführt werden, auch durch LPC-Analysieren der synthetisierten Ausgabetöne aus den Synthesefiltern 52_L und 52_R erzeugt weiden, anstatt die Koeffizienten von außen zu benutzen.
Es liegt auf der Hand, das zahlreiche Änderungen und Abwandlungen durchgeführt werden können, ohne den Rahmen der neuartigen Konzepte der vorliegenden Erfindung zu verlassen.

Claims

Verfahren zum Codieren von Signalen einer Mehrzahl von Kanälen (CH₁–CH_n), bei dem das Signal jedes Kanals dargestellt ist durch jeweils einen Block von Signalabtastwerten, wobei das Verfahren folgende Schritte umfasst: (a) für jeden Block Berechnen einer Leistung und Ermitteln des Gewichts (V₁ bis V_n) jedes Signalabtastwerts auf der Grundlage einer spektralen Hüllkurve (E₁–E_n); (b) Normieren jedes Signalabtastwertes mit der Leistung des jeweiligen Blocks und Ermitteln eines jeweiligen Verstärkungsindex (G₁–G_n) für jeden Block, der die Normierungsverstärkungen des Blocks darstellt; und (b1) Codieren der Blöcke einschließlich einer Vektorquantisierung; dadurch gekennzeichnet, dass Schrit (b1) umfasst: (c) Umordnen der normierten Signalabtastwerte der Blöcke (X_N1–X_Nn) in einer vorgegebenen Reihenfolge, die einer vorgegebenen Abbildung entspricht, in eine oder mehrere Sequenzen von normierten Signalabtastwerten, so dass jede dieser einen oder mehreren Sequenzen normierte Signalabtastwerte aus mehreren Kanälen enthält, um jede dieser einen oder mehreren Sequenzen als einen jeweiligen kombinierten Signalvektor (Y₁–Y_m) zu erzeugen; (d) Umordnen der Gewichte (V₁–V_n) mit der gleichen Abbildung wie die normierten Signalabtastwerte, um für jeden der kombinierten Signalvektoren (Y₁–Ym) einen entsprechenden kombinierten Gewichtungsvektor (W₁–W_m) zu erhalten, der die Gewichte enthält, die den normierten Signalabtastwerten in dem jeweiligen Signalvektor zugeordnet sind; (e) Vektorquantisieren jedes kombinierten Signalvektors (Y₁–Y_m) unter Verwendung des entsprechenden kombinierten Gewichtungsvektors (W₁–W_m), wodurch ein Quantisierungsindex (J₁– J_m) erhalten wird, der einen entsprechenden kombinierten Quantisierungsvektor darstellt; und (f) Ausgeben jedes Quantisierungsindex (J₁–J_m) und der Verstärkungsindizes (G₁–G_n) als wenigstens ein Teil des Codierungsergebnisses.
Verfahren nach Anspruch 1, bei dem die Signalabtastwerte Zeitbereichssignalabtastwerte sind und Schritt (a) umfasst: (a-1) Transformieren der Zeitbereichssignalabtastwerte in dem jeweiligen Block in Frequenzbereichskoeffizienten; (a-2) Berechnen der spektralen Hüllkurve (E) der Frequenzbereichskoeffizienten; (a-3) Normieren der Frequenzbereichskoeffizienten mit den entsprechenden Hüllkurvenwerten der spektralen Hüllkurve, um Restkoeffizienten (X) zu erhalten; und Schritt (b) die Normierung der Restkoeffizienten (X) des Blocks als die Signalabtastwerte umfasst, um die normierten Restkoeffizienten (X_N) als die normierten Signalabtastwerte zu erzeugen, und Schritt (f) das Ausgeben, als einen anderen Teil des Codierungsergebnisses, von Hüllkurveninformation umfasst, die die in Schritt (a-2) berechnete spektrale Hüllkurve (E) darstellt.
Verfahren nach Anspruch 2, bei dem die Transformation in Schritt (a-1) eine modifizierte diskrete Cosinus-Transformation ist.
Verfahren nach Anspruch 2 oder 3, bei dem Schritt (a-3) das Bestimmen der Gewichte (V) auf der Grundlage eines psychoakustischen Modells umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, ferner mit einem Schritt des Segmentierens eines Eingangssignals eines einzelnen Kanals in Blöcke und des zyklischen Verteilens der Blöcke auf eine Mehrzahl von Kanälen (CH_L1 bis CH_Ln, CH_R1 bis CH_Rn), um besagte Signale einer Mehrzahl von Kanälen zu erhalten.
Verfahren nach Anspruch 5, bei dem jedes Paar von zwei aufeinanderfolgenden der Blöcke, in die das Eingangssignal segmentiert wird, um die halbe Blocklänge überlappen.
Verfahren nach Anspruch 2, 3 oder 4, bei dem Schritt (a-2) die Durchführung einer linearen vorhersagenden Codieranalyse des jeweiligen Blocks, um Vorhersagekoeffizienten zu erhalten, das Quantisieren der Vorhersagekoeffizienten und das Fourier-Transformieren der quantisierten Vorhersagekoeffizienten, um die spektrale Hüllkurve zu erhalten, umfasst, und Schritt (f) das Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E) umfasst, der die Quantisierung der Vorhersagekoeffizienten anzeigt.
Verfahren nach Anspruch 2, 3, oder 4, bei dem Schritt (a-2) eine inverse Fourier-Tiansformation der Absolutwerte der aus dem jeweiligen Block resultieienden Frequenzbereichskoeffizienten zu einem Zeitbereichssignal, das Durchführen einer linearen vorhersagenden Codieranalyse des Zeitbereichssignals, um Vorhersagekoeffizienten zu erhalten, und das Quantisieren der Vorhersagekoeffizienten und Fourier-Transformieren der quantisierten Vorhersagekoeffizienten zu der spektralen Hüllkurve umfasst, und Schritt (f) das Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E) umfasst, der die Quantisierung der Vorhersagekoeffizienten angibt.
Verfahren nach Anspruch 2, 3, 4 oder 6, bei dem Schritt (a-2) das Aufspalten der Frequenzbereichskoeffizienten in eine Mehrzahl von Teilbändern, das Ermitteln eines jeweiligen Skalierungsfaktors (SF₁ bis SF_P) für die Frequenzbereichskoeffizienten in jedem Teilband und das Quantisieren der Skalierungsfaktoren, um quantisierte Skalierungsfaktoren als die spektrale Hüllkurve zu erhalten, umfasst, und Schritt (f) das Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E) umfasst, der die quantisierten Skalierungsfaktoren angibt.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem Schritt (c) das Umordnen der normierten Signalabtastwerte der Blöcke entsprechend einer in Speichermitteln vorab gespeicherten Abbildung umfasst, um eine vorgegebene Anzahl von kombinierten Signalvektoren zu erzeugen, und Schritt (d) das Umordnen der entsprechenden Gewichte entsprechend der gleichen Abbildung, um eine vorgegebene Anzahl von kombinierten Gewichtungsvektoren zu erzeugen, umfasst.
Verfahren nach einem der Ansprüche 1 bis 9, bei dem: eine Mehrzahl von Abbildungen (TB₁, TB₂) in Speichermitteln vorab gespeichert sind; die Umordnung in Schritt (e) getrennt entsprechend jeder dieser Abbildungen durchgeführt wird, was zu einer entsprechenden Mehrzahl von Sätzen von kombinierten Signalvektoren führt, wobei jeder Satz einen oder mehrere Vektoren aufweist, die Vektorquantisierung in Schritt (e) für jeden der in Schritt (c) erhaltenen Sätze durchgeführt wird und das Auswählen desjenigen Satzes umfasst, der die aus der Vektorquantisierung resultierende Quantisierungsverzerrung minimiert; und Schritt (f) das Ausgeben, als die Quantisierungsindizes, desjenigen Quantisierungsindizes, die aus der Quantisierung der ein oder mehreren kombinierten Signalvektoren des ausgewählten Satzes erhalten werden, und, als ein anderer Teil des Codierergebnisses, eines Abbildungscodes umfasst, der die dem ausgewählten Satz entsprechende Abbildung bezeichnet.
Verfahren nach einem der Ansprüche 1 bis 11, bei dem das Signal eines vorgegebenen einzelnen Kanals aus der Mehrzahl von Kanälen ein Bildsignal ist.
Verfahren nach Anspruch 12, bei dem mit Bezug auf den diesem vorgegebenen einen Kanal entsprechenden Block Schnitt (a) das Durchführen einer Vorhersageverarbeitung des Blocks, um einen Diffeienzblock zu erzeugen, das Berechnen der Leistung des Differenzblocks und das Ermitteln der Gewichte der Signalabtastwerte in dem Differenzblock auf der Grundlage einer spektralen Hüllkurve umfasst; und Schritt (b) das Normieren der Signalabtastwerte in dem Differenzblock durch diese Leistung umfasst.
Verfahren nach Anspruch 12 oder 13, bei dem das Signal eines anderen Kanals aus der Mehrzahl von Kanälen ein Tonsignal ist.
Verfahren nach einem der Ansprüche 1 bis 14, ferner mit den Schritten: (g) Segmentieren eines Eingangssignals eines einzelnen Kanals in Rahmen einer festgelegten Länge und Ermitteln, für jeden Rahmen, ob er stationär oder transient ist; und, wenn ein jeweiliger Rahmen transient ist, (h) Segmentieren des Rahmens in eine Gruppe von Blöcken und Anwenden der Schritte (a) bis (f) auf diese Gruppe von Blöcken als Blöcke einer Mehrzahl von Kanälen; oder wenn ein jeweiliger Rahmen stationär ist, Durchführen der folgenden Schritte: (i) Berechnen der Leistung des Rahmens und Ermitteln des Gewichtes (V₀) jedes Signalabtastwertes in dem Rahmen auf der Grundlage dieser Leistung; (j) Normieren jedes Signalabtastwerts in dem stationären Rahmen mit der Leistung, um einen Rahmen von normierten Signalabtastwerten (X_N0) zu erhalten, und Ausgeben eines stationären Verstärkungsindex (I_G0), der die Normierungsveistärkung dieses Rahmens angibt; (k) Umordnen der normierten Signalabtastwerte des stationären Rahmens in einer vorgegebenen Reihenfolge, die einer vorgegebenen Abbildung entspricht, zu einer oder mehreren Sequenzen von normierten Signalabtastwerten, wobei jede Sequenz jeweils einen stationären Signalvektor (Y₀₁–Y_0h) bildet; (l) Umordnen der Gewichte (V₀) des stationären Rahmens in der gleichen Weise wie die normierten Signalabtastwerte, um für jeden stationären Signalvektor (Y₀₁–Y_0h) einen entsprechenden stationären Gewichtungsvektor (W₀₁–W_0h) zu erhalten, der die Gewichte enthält, die den normierten Signalabtastwerten in dem jeweiligen stationären Signalvektor zugeordnet sind; (m) Vektorquantisieren jedes stationären Signalvektors unter Verwendung des entsprechenden stationären Gewichtungsvektors, wodurch ein stationärer Quantisierungsindex (J₀₁–J_0h) erhalten wird, der einen entsprechenden Quantisierungsvektor darstellt; (n) Ausgeben jedes stationären Quantisierungsindex (J₀₁–J_0h) und des stationären Verstärkungsindex (I_G0) als Teil des Codierergebnisses für den stationären Rahmen; und (o) Ausgeben, zusätzlich zu Schritt (f) bzw. Schritt (n), als einen anderen Teil des jeweiligen Codierergebnisses, eines Zustandscodes (Id), der angibt, ob das Codierergebnis das eines transienten Rahmens oder das eines stationären Rahmens ist.
Verfahren nach Anspruch 15, bei dem die Signalabtastwerte Zeitbereichssignalabtastwerte sind und bei dem Schritt (a) umfasst: (a-1) Transformieren der Zeitbereichssignalabtastwerte des jeweiligen Blocks in Frequenzbereichskoeffizienten; (a-2) Berechnen der spektralen Hüllkurve (E₁–E_n) der Frequenzbereichskoeffizienten; und (a-3) Normieren der Frequenzbereichskoeffizienten mit den entsprechenden Hüllkurvenwerten der spektralen Hüllkurve, um Restkoeffizienten (X₁–X_n) zu erhalten, und Ermitteln des Gewichts jedes Restkoeffizienten auf der Grundlage dieser Leistung; Schritt (b) die Normierung der Restkoeffizienten (X₁–X_n) des Blocks mit der Leistung, um die normierten Restkoeffizienten (X_N) als die normierten Signalabtastwerte zu erhalten, umfasst; und Schritt (f) das Ausgeben, als ein anderer Teil des Codierergebnisses, eines Hüllkurvenindex (I_E1–I_En) umfasst, der die in Schritt (a-2) berechnete spektrale Hüllkurve bezeichnet.
Verfahren nach Anspruch 16, bei dem Schritt (f) das gemeinsame Codieren der Hüll-kurvenindizes (I_E1–I_En) und/oder der Verstärkungsindizes (I_G1–I_Gn) für die Blöcke und das Ausgeben des entsprechenden Quantisierungscodes als Teil des Codierergebnisses umfasst.
Verfahren nach Anspruch 15, 16 oder 17, bei dem Schritt (i) das vorhersagende Codieren des Rahmens und das Ausgeben des resultierenden Codes als Teil des Codierergebnisses umfasst.
Verfahren nach Anspruch 15, 16 oder 17, bei dem die Signalabtastwerte Zeitbereichssignalabtastwerte sind und bei dem Schritt (i) folgende Schritte umfasst: (i-1) Transformieren des Rahmens von Zeitbereichssignalabtastwerten in Frequenzbereichskoeffizienten; (i-2) Berechnen der spektralen Hüllkurve (E₀) und der Leistung (G₀) des stationären Rahmens; und (i-3) Normieren der Frequenzbereichskoeffizienten mit Spektralhüllkurvenwerten (E₀), um normierte Restkoeffizienten (X_N) zu erzeugen; und bei dem Schritt (n) das Ausgeben, als den stationären Verstärkungsindex, eines Index (I_G0), der die Durchschnittsleistung (G₀) angibt, und ferner das Ausgeben eines stationären Hüllkurvenindex (I_EO), der die spektrale Hüllkurve (E₀) bezeichnet, umfasst.
Verfahren nach Anspruch 15, 16 oder 17, bei dem die Signalabtastwerte Zeitbereichssignalabtastwerte sind und bei dem Schritt (i) folgende Schritte umfasst: (i-1) Transformieren des Rahmens von Zeitbereichssignalabtastwerten in Frequenzbereichskoeffizienten; (i-2) Berechnen der spektralen Hüllkurve des stationären Rahmens; (i-3) Normieren der Frequenzbereichskoeffizienten mit Spektralhüllkurvenwerten, um Restkoeffizienten zu erhalten; (i-4) Vorhersagen der Hüllkurve (E_R) der Restkoeffizienten aus Restkoeffizienten eines vorhergehenden stationären Rahmens; und (i-5) Normieren der Restkoeffizienten mit den jeweiligen Hüllkurvenwerten der vorhergesagten Hüllkurve (E_R), um Feinstrukturkoeffizienten (Z) zu erzeugen; Schritt (j) das Berechnen der Durchschnittsleistung der Feinstrukturkoeffizienten, das Normieren der Feistrukturkoeffizienten mit der Durchschnittsleistung und das Ausgeben der resultierenden normierten Koeffizienten (Z_N) als die normierten Signalabtastwerte umfasst; und Schritt (n) das Ausgeben, als den stationären Verstärkungsindex, eines Index (I_G0), der die Durchschnittsleistung angibt, und ferner das Ausgeben eines stationären Hüllkurvenindex, der die spektrale Hüllkurve angibt, umfasst.
Dekodierverfahren zum Rekonstruieren von Signalen einer Mehrzahl von Kanälen (CH₁-CH_n) aus einer Indexgruppe aus einem oder mehreren Quantisierungsindizes und einer zugeordneten Gruppe von Verstärkungsindizes, wobei das Verfahren folgende Schritte umfasst: (a) Lesen, für jeden des einen oder der mehreren Quantisierungsindizes in der Indexgruppe, eines entsprechenden kombinierten Quantisierungsvektors aus einem Codebuch (7CB), um einen oder mehrere kombinierte Quantisierungsvektoren (Y'₁–Y'_m) zu erhalten; (b) Umordnen der Elemente der in Schritt (a) erhaltenen ein oder mehreren kombinierten Quantisierungsvektoren (Y'₁–Y'_m) in einer einer vorgegebenen Abbildung entsprechenden vorgegebenen Reihenfolge zu einer Gruppe von Blöcken (X_N1–X_Nn) von normierten Signalabtastwerten, wobei jeder Block jeweils einem aus der Mehrzahl von Kanälen (CH₁–CH_n) zu geordnet ist; und (c) Rekonstruieren von Normierungsverstärkungen aus der Gruppe von Verstärkungsindizes und Denormieren der normierten Signalabtastwerte in jedem Block (X_N1–X_Nn) der Gruppe mit einer jeweiligen der Normierungsverstärkungen und Ausgeben, als rekonstruierte Signale, einer Gruppe von Blöcken von denormierten Signalabtastwerten, jeweils einen Block für jeden aus der Mehrzahl von Kanälen (CH₁–CH_n).
Verfahren nach Anspruch 21 , bei dem Schritt (c) folgende Schritte umfasst: (d) Rekonstruieren von Spektralhüllkurvenwerten (E_L1–E_Ln, E_R1–E_Rn) aus zusammen mit der Indexgruppe und Verstärkungsindizes empfangenen Hüllkurvenindizes und Multiplizieren der denormierten Signalabtastwerte jedes Blocks mit den entsprechenden Spektrafhüllkurvenwerten, um Blöcke von Frequenzbereichskoeffizienten zu erhalten; und (e) Transformieren jedes Blocks von Frequenzbereichskoeffizienten in einen jeweiligen Block von Zeitbereichssignalabtastwerten und Ausgeben der Blöcke von Zeitbereichssignalabtastwerten als die rekonstruierten Signale.
Verfahren nach Anspruch 22, bei der die Transformation eine inverse diskrete Cosinus-Transformation ist.
Verfahren nach Anspruch 22 oder 23, bei dem Schritt (e) ferner das sequenzielle Kombinieren der Blöcke von Zeitbereichssignalabtastwerten aus der Mehrzahl von Kanälen in einer vorgegebenen Zeitsequenz zu einem kombinierten rekonstruierten Signal umfasst.
Verfahren nach Anspruch 22, bei dem Schritt (e) ein Schritt des Kombinierens der Zeitbereichssignale der Mehrzahl von Kanälen zu einer Mehrzahl von rekonstruierten Signalen ist, deren Zahl kleiner als die der Zeitbereichssignale ist.
Verfahren nach einem der Ansprüche 21 bis 25 zum Rekonstruieren der Signale, die gemäß dem Verfahren nach Anspruch 11 zu einem Code codiert worden sind, der ferner Abbildungscodes enthält, bei dem Schritt (b) das Umordnen der Elemente in eine Reihenfolge entsprechend einer aus einer Mehrzahl von vorgegebenen Abbildungen (ITB₁, ITB₂) umfasst, wobei die eine Abbildung auf der Grundlage des Abbildungscodes (I_s) ausgewählt wird, der dem einen oder den mehreren kombinierten Quantisierungsvektoren entspricht, deren Elemente umzuordnen sind.
Verfahren nach Anspruch 21, 22, 23 oder 26 zum Rekonstruieren der Signale, die gemäß dem Verfahren nach Anspruch 15 zu einem Code codiert worden sind, der ferner für jede Indexgruppe (J₀₁–J_0h, J₁–J_m) eines oder mehrerer Quantisierungsindizes einen entsprechenden Zustandscode (Id) enthält, der den einen oder anderen der zwei Zustände angibt, mit den Schritten: wenn der Zustandscode (Id) den einen Zustand angibt, Durchführen der Schritte (a) bis (e) für die zugeordnete Indexgruppe (J₁–J_m) und eine zugeordnete Gruppe von Verstärkungsindizes (I_G1– I_Gn) und Kombinieren der rekonstruierten Blöcke von Signalabtastwerten in Zeitsequenz zu einem Rahmen, dessen Länge ein ganzzahliges Vielfaches der Blocklänge ist, und Ausgeben des Rahmens als rekonstruiertes Signal, und wenn der Zustandscode (Id) den anderen Zustand angibt: (d) Auslesen eines entsprechenden kombinierten Vektors aus dem Codebuch für jeden Quantisierungsindex (J₀₁–J_0h) in der jeweiligen Indexgruppe; (e) Umordnen der Elemente des in Schritt (d) erhaltenen einen oder der mehreren kombinierten Vektoren (Y'₀₁–Y'_0h) in einer einer vorgegebenen Abbildung entsprechenden vorgegebenen Reihenfolge zu einem Rahmen von normierten Signalabtastwerten (X_NO); und (f) Rekonstruieren einer Normierungsverstärkung (G_D) aus einem der jeweiligen Indexgruppe entsprechenden Verstärkungsindex (I_G0) und Denormieren der normierten Signalabtastwerte mit der Normierungsverstärkung und Ausgeben eines Rahmens von denormierten Signalabtastwerten als rekonstruiertes Signal.
Verfahren nach Anspruch 27 zum Rekonstruieren der Signale, die gemäß dem Verfahren nach Anspruch 16 zu einem Code codiert worden sind, der ferner Hüllkurvenindizes (I_E0, I_E1–I_En) enthält, wobei Schritt (e) folgende Schritte umfasst: (c-1) Rekonstruieren von spektralen Hüllkurven (E₁–E_n) aus den Hüllkurvenindizes (I_E0, I_E1– I_En) und Multiplizieren der denormierten Signalabtastwerte jedes Blocks mit entsprechenden Hüllkurvenwerten einer jeweiligen der spektralen Hüllkurven, um Blöcke von Frequenzbereichskoeffizienten zu erhalten, und (c-2) Transformieren der Frequenzbereichskoeffizienten in jedem Block in Zeitbereichssignale und Ausgeben von diesen als die rekonstruierten Signale der Mehrzahl von Kanälen.
Verfahren nach Anspruch 27 oder 28 zum Rekonstruieren der Signale, die gemäß dem Verfahren von Anspruch 19 zu einem Code codiert worden sind, der ferner Hüllkurvenindizes (I_E0, I_E1–I_En) enthält, wobei Schritt (f) folgende Schritte umfasst: (f-1) Rekonstruieren von Spektralhüllkurvenwerten (E₀) aus einem dem jeweiligen Rahmen entsprechenden Hüllkurvenindex (I_E0) und Multiplizieren der denormierten Signalabtastwerte mit jeweils entsprechenden unter den Spektralhüllkurvenwerten, um Frequenzbereichskoeffizienten(X_N0) zu erhalten; und (f-2) Transformieren der Frequenzbereichskoeffizienten in Zeitbereichssignalabtastwerte und Ausgeben von diesen als das rekonstruierte Signal.
Verfahren nach Anspruch 29, bei dem Schritt (f-1) das Reproduzieren der denormierten Signalabtastwerte zu Feinstrukturkoeffizienten (Z'), das Multiplizieren der Feinstrukturkoeffizienten mit Resthüllkurvenwerten einer aus einem vorhergehenden Rahmen vorhergesagten Resthüllkurven (E'_R), um Restkoeffizienten (X'₀) zu erhalten, und das Multiplizieren dieser Restkoeffizienten mit den Spektralhüllkurvenwerten, um die Frequenzbereichskoeffizienten zu erhalten, umfasst.
Verfahren nach Anspruch 30, bei dem die Resthüllkurve (E'_R) als Hüllkurve von im Schritt (f-1) in einem vorhergehenden Rahmen, für den der Zustandscode (Id) den anderen Zustand angab, erhaltenen Restkoeffizienten erhalten wird.
Verfahren nach Anspruch 30, bei dem die Resthüllkurve aus einer aus einem Hüllkurvenindex in einem Block in einem vorhergehenden Rahmen, für den der Zustandscode (Id) den einen Zustand angibt, rekonstruierten spektralen Hüllkurve erhalten wird.
Verfahren nach Anspruch 28, bei dem, wenn der Zustandscode (Id) den einen Zustand angibt, die in Schritt (c-1) reproduzierte spektrale Hüllkurve in einem Block gemeinsam für alle Blöcke eines jeweiligen Rahmens verwendet wird.
Verfahren nach einem der Ansprüche 21 bis 31, bei dem Schritt (c) für einen vorgegebenen Kanal aus der Mehrzahl von Kanälen einen Schritt des Erhaltens der denormierten Signalabtastwerte als ein Differenzsignal und des Addierens eines rekonstruierten Signals eines vorhergehenden Blocks zu dem Differenzsignal des gegenwärtigen Blocks, um ein rekonstruiertes Signal des gegenwärtigen Blocks zu erhalten, umfasst.
Encoder zum Codieren von Signalen einer Mehrzahl von Kanälen (CH₁–CH_n), bei dem das Signal jedes Kanals durch jeweils einen Block von Signalabtastwerten dargestellt ist, mit: Rechenmitteln (3₁ –3_n ) zum Berechnen einer Leistung für jeden Block und zum Bestimmen des Gewichts (V₁–V_n) jedes Signalabtastwertes auf der Grundlage einer spektralen Hüllkurve (E₁–E_n); Normierungsmitteln (E₁–E_n) zum Normieren jedes Signalabtastwertes mit der Leistung des jeweiligen Blocks und zum Ermitteln eines jeweiligen Verstärkungsindex (G₁–G_n), der die Normierungsverstärkungen dieses Blocks angibt, für jeden Block; und Codiermitteln, die Vektorquantisierungsmittel (6) enthalten; gekennzeichnet durch Signalumordnungsmittel (5_YX ) zum Umordnen der normierten Signalabtastwerte der Blöcke (X_N1–X_Nn) in einer vorgegebenen Reihenfolge entsprechend einer vorgegebenen Abbildung in eine oder mehrere Sequenzen von normierten Signalabtastwerten, so dass jede dieser einen oder mehreren Sequenzen normierte Signalabtastwerte von mehreren Kanälen enthält, um jede dieser einen oder mehreren Sequenzen als einen jeweiligen kombinierten Signalvektor (Y₁–Y_m) zu erzeugen; Gewichtungsumordnungsmittel (5_VW ) zum Umordnen der Gewichte (V₁–V_n) entsprechend der gleichen Abbildung wie die normierten Signalabtastwerte, um für jeden der kombinierten Signalvektoren (Y₁–Y_m) einen entsprechenden kombinierten Gewichtungsvektor (W₁–W_m) zu erhalten, der die den normierten Signalabtastwerten in dem jeweiligen Signalvektor zugeordneten Gewichte enthält; wobei die Vektorquantisierungsmittel (6) zum Vektorquantisieren jedes kombinierten Signalvektors (Y₁–Y_m) den entsprechenden kombinierten Gewichtungsvektor (W₁–W_m) verwenden, um dadurch einen Quantisierungsindex (J₁–J_m) zu erhalten, der einen entsprechenden kombinierten Quantisierungsvektor darstellt; und Ausgabemittel zum Ausgeben jedes Quantisierungsindex (J₁–J_m) und der Verstärkungsindizes (G₁–G_m) als wenigstens ein Teil des Codierergebnisses.
Encoder nach Anspruch 35, bei dem die Signalabtastwerte Zeitbereichsignalabtastwerte sind, und die Rechenmittel (32) Transformationsmittel (32B) zum Transformieren der Zeitbereichssignalabtastwerte in dem jeweiligen Block in Frequenzbereichskoeffizienten, Mittel (32Q) zum Berechnen der spektralen Hüllkurve (E) der Frequenzbereichskoeffizienten und Mittel (32F) zum Normieren der Frequenzbereichskoeffizienten mit den entsprechenden Hüllkuivenwerten der Hüllkurve, um Restkoeffizienten (X) zu erhalten, umfassen; die Normierungsmittel (33) Mittel zum Normieren der Restkoeffizienten (X) des Blocks, um die normierten Restkoeffizienten (X_N) als die normierten Signalabtastwerte zu erzeugen, umfassen; und die Ausgabemittel Mittel zum Ausgeben, als einen anderen Teil des Codierergebnisses, von Hüllkuiveninformation, die die in Schritt (a-2) berechnete Hüllkurve (E) darstellt, umfassen.
Encoder nach Anspruch 36, bei der die Transformationsmittel (32B) eingerichtet sind, um eine modifizierte diskrete Cosinus-Transformation auf die Zeitbereichssignalabtastwerte anzuwenden.
Encoder nach Anspruch 36, bei dem die Mittel (32Q) zum Berechnen der spektralen Hüllkurve (E) Mittel (32C, 32D, 32E) zum Machen einer linearen vorhersagenden Codieranalyse des jeweiligen Blocks, um Vorhersagekoeffizienten zu erhalten, und zum Quantisieren der Vorhersagekoeffizienten und Fourier-Transformieren der quantisierten Vorhersagekoeffizienten, um die spektrale Hüllkurve zu erhalten, umfassen, und dass die Ausgabemittel Mittel zum Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E), der die Quantisierung der Vorhersagekoeffizienten angibt, umfassen.
Encoder nach Anspruch 36, bei dem die Mittel (32Q) zum Berechnen der spektralen Hüllkurve (E) Mittel (32G, 32H, 32C, 32D, 32E) zum inversen Fourier-Transformieren der Absolutwerte der aus dem jeweiligen Block resultierenden Frequenzbereichskoeffizienten in ein Zeitbereichssignal, zum Machen einer linearen Vorhersagecodieranalyse des Zeitbereichssignals, um Vorhersagekoeffizienten zu erhalten, zum Quantisieren der Vorhersagekoeffizienten und zum Fourier-Transformieren der quantisierten Vorhersagekoeffizienten in die Hüllkurve umfassen, und dass die Ausgabemittel Mittel zum Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E), der die Quantisierung der Vorhersagekoeffizienten anzeigt, umfassen.
Encoder nach Anspruch 36, bei dem die Mittel (32Q) zum Berechnen der spektralen Hüllkurve (E) Mittel (32J₁ –32JP, 32K) zum Aufspalten der Frequenzbereichskoeffizienten in eine Mehrzahl von Teilbändern, zum Ermitteln, für die Frequenzbereichskoeffizienten in jedem Teilband, eines jeweiligen Skalierungsfaktors (SF₁–SF_P) und zum Quantisieren der Skalierungsfaktoren, um quantisierte Skalierungsfaktoren als die Hüllkurve zu erhalten, umfassen, und die Ausgabemittel Mittel zum Ausgeben, als die Hüllkurveninformation des jeweiligen Blocks, eines Index (I_E), der die quantisierten Skalierungsfaktoren angibt, umfassen.
Encoder nach einem der Ansprüche 35 bis 40, der ferner umfasst: Speichermittel, in denen eine Mehrzahl von verschiedenen Abbildungen (TB₁, TB₂) vorab gespeichert ist; eine Mehrzahl von Sätzen der Signalumordnungsmittel (35_XY1 –35_XY2 ), der Gewichtungsumordnungsmittel (35_VW1 –35_VW2 ) und der Vektorquantisieiungsmittel (36₁ –36₂ ), die entsprechend der Mehrzahl von verschiedenen Abbildungen vorgesehen sind; und Vergleichsmittel (38) zum Vergleichen der Quantisierungsverzerrungen, die aus der Vektorquantisierung durch die Mehrzahl von Sätzen von Mitteln resultieren, und zum Ausgeben eines Abbildungscodes (Is), der die Abbildung angibt, die demjenigen der Sätze von Mitteln entspricht, der die minimale Quantisierungsverzerrung ergab; wobei die Ausgabemittel eingerichtet sind, um den Abbildungscode (Is) als einen anderen Teil des Codierergebnisses auszugeben, und Auswahlmittel (39) aufweisen, die auf den Abbildungscode reagieren, um selektiv als die Quantisierungsindizes (J₁–J_m) diejenigen auszugeben, die mit dem Satz von Mitteln erhalten wurden, dessen entsprechende Abbildung durch den Abbildungscode (Is) angegeben ist.
Encoder nach einem der Ansprüche 35 bis 41, der ferner Vorhersagemittel (95) zum Durchführen einer Vorhersageverarbeitung eines Blocks, der einen einzelnen vorgegebenen Kanal aus der Mehrzahl von Kanälen darstellt, um einen Differenzblock (D) zu erzeugen, umfasst, und bei dem die Normierungsmittel (32Fa) eingerichtet sind, die Leistung dieses Differenzblocks zu berechnen, die Gewichte der Signalabtastwerte in dem Differenzblock zu berechnen und die Signalabtastwerte in dem Differenzblock mit dieser Leistung zu normieren.
Encoder nach einem der Ansprüche 35 bis 42, der ferner umfasst: Mittel (41) zum Segmentieren eines Eingangssignals eines einzelnen Kanals in Rahmen einer festgelegten Länge und zum Ermitteln, für jeden Rahmen, ob er stationär oder transient ist; Mittel (31) zum Segmentieren, wenn ein jeweiliger Rahmen transient ist, des Rahmens in eine Gruppe von Blöcken und zum Zuführen der Gruppe von Blöcken als Blöcke einer Mehrzahl von Kanälen (CH₁–CH_n) zu den Rechenmitteln (32₁ –32_n ), um sie von den Rechenmitteln, Normierungsmitteln (33₁ –33_n ), Signalumordnungsmitteln (35_XY ), Gewichtungsumordnungsmitteln (35_VW ), Vektorquantisierungsmitteln (36) und Ausgabemitteln verarbeiten zu lassen; stationäre Rechenmittel (32₀ , 34₀ ) zum Berechnen, wenn ein jeweiliger Rahmen stationär ist, der Leistung des Rahmens und zum Bestimmen des Gewichts (V₀) jedes Signalabtastwerts in dem Rahmen auf der Grundlage dieser Leistung; stationäre Normierungsmittel (33₀ ) zum Normieren jedes Signalabtastwerts in dem stationären Rahmen mit der Leistung, um einen Rahmen von normierten Signalabtastwerten (X_N0) zu erhalten, und zum Ausgaben eines stationären Verstärkungsindex (I_G0), der die Normierungsverstärkung des Rahmens angibt; stationäre Signalumordnungsmittel (43_XY ) zum Umordnen der normierten Signalabtastwerte des stationären Rahmens in einer vorgegebenen Reihenfolge entsprechend einer vorgegebenen Abbildung zu einer oder mehreren Sequenzen von normierten Signalabtastwerten und Ausgeben jeder dieser einen oder mehreren Sequenzen als einen jeweiligen stationären Signalvektor (Y₁– Y_0h); stationäre Gewichtungsumordnungsmittel (4_VW ) zum Umordnen der Gewichte (V₀) in der gleichen Weise wie die normierten Signalabtastwerte des stationären Rahmens, um für jeden stationären Signalvektor (Y₀₁–Y_0h) einen entsprechenden stationären Gewichtungsvektor (W₀₁– W_0h) zu erhalten, der die den normierten Signalabtastwerten in dem jeweiligen stationären Signalvektor entsprechenden Gewichte enthält; und stationäre Vektorquantisierungsmittel (44) zum Quantisieren jedes stationären Signalvektors unter Verwendung des entsprechenden stationären Gewichtungsvektors, um dadurch einen stationären Quantisierungsindex (J₀₁–J_0h) zu erhalten, der einen entsprechenden Quantisierungsvektor darstellt; wobei die Ausgabemittel eingerichtet ist, um einen Zustandscode (Id), der den einen oder anderen von zwei Zuständen angibt, und, wenn der Zustandscode den einen Zustand angibt, jeden Quantisierungsindex (J₁–J_m) und die Verstärkungsindizes (G₁–G_m) als das Codierergebnis eines transienten Rahmens oder, wenn der Zustandscode den anderen Zustand angibt, jeden stationären Quantisierungsindex (J₀₁–J_0h) und den stationären Verstärkungsindex (I_G0) als das Codierergebnis eines stationären Rahmens auszugeben.
Encoder nach Anspruch 43, bei dem die Signalabtastwerte Zeitbereichssignalabtastwerte sind, und bei dem die stationären Rechenmittel (32₀ ) umfassen: Mittel zum Transformieren des Rahmens von Zeitbereichssignalabtastwerten in Frequenzbereichskoeffizienten; Mittel (32E) zum Berechnen der spektralen Hüllkurve des Rahmens; Mittel (32F) zum Normieren der Frequenzbereichskoeffizienten mit den Spektralhüllkurvenwerten, um Restkoeffizienten zu erhalten; Mittel (91) zum Vorhersagen der Hüllkurve (E_R) der Restkoeffizienten aus Restkoeffizienten eines vorhergehenden stationären Rahmens; und Mittel (92) zum Normieren der Restkoeffizienten mit den jeweiligen Hüllkurvenwerten der vorhergesagten Hüllkurve (E_R), um Feinstrukturkoeffizienten (Z) zu erzeugen; wobei die stationären Normierungsmittel (33₀ ) Mittel zum Berechnen der Durchschnittsleistung der Feinstrukturkoeffizienten, Normieren der Feinstrukturkoeffizienten mit der Durchschnittsleistung und Ausgeben der resultierenden normierten Koeffizienten (Z_N) als die normierten Signalabtastwerte umfassen; und die Ausgabemittel eingerichtet ist, um als den stationären Verstärkungsindex einen Index (I_G0) auszugeben, der die Durchschnittsleistung angibt, und ferner einen stationären Hüllkurvenindex anzugeben, der die spektrale Hüllkurve angibt.
Decoder zum Rekonstruieren von Signalen einer Mehrzahl von Kanälen (CH₁–CH_n) aus einer Indexgruppe aus einem oder mehreren Quantisierungsindizes (J₁–J_m) und einer zugeordneten Gruppe von Verstärkungsindizes, mit: einem Codebuch (7CB), in dem kombinierte Quantisierungsvektoren in Entsprechung zu jeweiligen Quantisierungsindizes vorabgespeichert sind; Mitteln zum Lesen, für jeden des einen oder der mehreren Quantisierungsindizes (J₁–J_m) in der Indexgruppe, eines entsprechenden kombinierten Quantisierungsvektors aus dem Codebuch (7CB), um einen oder mehrere kombinierte Quantisierungsvektoren (Y'₁–Y'_m) zu erhalten; Umordnungsmitteln (76_YX ) zum Umordnen der Elemente des einen oder der mehreren kombinierten Quantisierungsvektoren (Y'₁–Y'_m) in einer vorgegebenen Reihenfolge entsprechend einer vorgegebenen Abbildung zu einer Gruppe von Blöcken (X_N1–X_N) von normierten Signalabtastwerten, wobei jeder Block jeweils einem aus der Mehrzahl von Kanälen (CH₁–CH_n) zugeordnet ist; und Denormierungsmitteln (77₁ bis 77_n ) zum Rekonstruieren von Normierungsverstärkungen (G₁–G_n) aus der Gruppe von Verstärkungsindizes, zum Denormieren der normierten Signalabtastwerte in jedem Block (X_N1–X_Nn) der Gruppe mit jeweils einer der Normierungsverstärkungen und zum Ausgeben, als rekonstruierte Signale, einer Gruppe von Blöcken von denormierten Signalabtastwerten, einem Block für jeden aus der Mehrzahl von Kanälen (CH₁–CH_n).
Decoder nach Anspruch 45, ferner mit: Mitteln (73) zum Empfangen von Hüllkurvenindizes; Mitteln (62A, 62B, 65_L1 –65_R1 , 65_Ln –65_Rn ) zum Rekonstruieren von Spektralhüllkurvenwerten (E_L1–E_Ln; E_R1–E_Rn) aus den Hüllkurvenindizes und zum Multiplizieren der denormierten Signalabtastwerte jedes Blocks mit den entsprechenden Spektralhüllkurvenwerten, um Blöcke von Frequenzbeieichskoeffizienten zu erhalten; und Mitteln (66_L1 –66_Ln , 66_R1 –66_Rn , 78_L1 –78_Ln , 78_R1 –78_Rn ) zum Transformieren jedes Blocks von Frequenzbereichskoeffizienten in einen jeweiligen Block von Zeitbereichssignalabtastwerten und zum Ausgeben der Blöcke von Zeitbereichssignalabtastwerten als die rekonstruierten Signale.
Decoder nach Anspruch 45 oder 46, ferner mit Mitteln (79_L –79_R ) zum sequentiellen Kombinieren der Blöcke von Zeitbereichssignalabtastwerten der Mehrzahl von Kanälen in vorgegebener Zeitsequenz zu einem kombinierten rekonstruierten Signal.
Decoder nach Anspruch 45, 46 oder 50, ferner mit: Mitteln (71) zum Empfangen von Abbildungscodes (I_a); Speichermitteln (MAP) mit einer Mehrzahl von darin vorab gespeicherten unterschiedlichen Abbildungen (ITB₁, ITB₂), wobei die Umordnungsmittel (76) eingerichtet sind, um eine aus der Mehrzahl von Abbildungen (ITB₁, ITB₂) auf der Grundlage des Abbildungscodes (I_S) auszuwählen, der dem einen oder den mehreren kombinierten Quantisierungsvektoren entspricht, deren Elemente umzuordnen sind.
Decoder nach Anspruch 45, 46, 47 oder 48, bei dem die Empfangsmittel (80A–80C) eingerichtet sind, um einen Zustandscode (Id), der den einen oder den anderen von zwei Zuständen angibt, und, wenn der Zustandscode den einen Zustand angibt, eine Indexgruppe (J₁–J_m) aus einem oder mehreren Quantisierungsindizes und entsprechende Verstärkungsindizes (I_G1– I_Gn) oder, wenn der Zustandscode den anderen Zustand angibt, eine Indexgruppe (J₀₁–J_0h) aus einem oder mehreren stationären Quantisierungsindizes und einen stationären Verstärkungsindex (I_G0) zu empfangen, wobei der Decoder ferner umfasst: Rahmenkombiniermittel (72, 76_XY , 77₁ –77_n , 65₁ –65_n , 66₁ –66_n , 78₁ –78_n , 79) zum Decodieren des Zustandscodes, um zu bestimmen, ob er den einen oder den anderen der zwei Zustände bezeichnet, und, wenn er den einen Zustand bezeichnet, die Signalrekonstruktion mit den Denormierungsmitteln (72) durchzuführen, und zum Kombinieren der rekonstruierten Blöcke der Mehrzahl von Kanälen in Zeitsequenz zu einem Rahmen, dessen Länge ein ganzzahliges Vielfaches der Blocklänge ist; stationäres Lesemittel (80A), die auf den den anderen Zustand anzeigenden Zustandscode reagieren, zum Auslesen eines entsprechenden stationären kombinierten Vektors (Y₀₁–Y_0h) aus dem Codebuch für jeden stationären Quantisierungsindex in der Indexgruppe; stationäre Umordnungsmittel (82_YX ) zum Umordnen der Elemente des einen oder der mehreren kombinierten Vektoren (Y'₀₁–Y'_0h) in einer vorgegebenen Reihenfolge entsprechend einer vorgegebenen Abbildung zu einem Rahmen von normierten Signalabtastwerten (X_N0); und stationäre Denormierungsmittel (75₀, 77₀ ) zum Rekonstruieren einer Normierungsverstärkung (G₀) aus dem stationären Verstärkungsindex (I_G0) und Denormieren der normierten Signalabtastwerte mit der Normierungsverstärkung und Ausgeben eines Rahmens von denormierten Signalabtastwerten als rekonstruiertes Signal.
Decoder nach Anspruch 49, ferner mit: Mittel (80B) zum Empfangen von Hüllkurvenindizes (I_E0, I_E1–I_En); Mittel (62) zum Rekonstruieren von spektralen Hüllkurven (E₁–E_n) aus den Hüllkurvenindizes (I_E0, I_E1–I_En) und Multiplizieren der denormierten Signalabtastwerte jedes Blocks mit entsprechenden Hüllkurvenwerten jeweils einer der spektralen Hüllkurve (I_E1–I_En), um Blöcke von Frequenzbereichskoeffizienten (X_N–X_Nn) zu erhalten; und Mitteln (66₁ –66_n , 78₁ –78_n ) zum Transformieren der Frequenzbereichskoeffizienten in jedem Block in Zeitbereichssignale und Ausgeben von diesen als die rekonstruierten Signale der Mehrzahl von Kanälen.
Decoder nach Anspruch 49 oder 50, ferner mit: Mitteln (80B) zum Empfangen von Hüllkurvenindizes (I_E0, I_E1–I_En); Restkoeffizientenreproduktionsmitteln (62a) zum Rekonstruieren von Spektralhüllkurvenwerten (E₀) aus einem dem jeweiligen Rahmen entsprechenden Hüllkurvenindex (I_E0) und Multiplizieren der denormierten Signalabtastwerte mit jeweiligen der Spektralhüllkurvenwerten, um Frequenzbereichskoeffizienten (X_N0) zu erhalten; und Mitteln (66₀ , 78₀ ) zum Transformieren der Frequenzbereichskoeffizienten in Zeitbereichsabtastwerte und Ausgeben von diesen als das rekonstruierte Signal.
Decoder nach Anspruch 51, bei dem die denormierten Signalabtastwerte Feinstrukturkoeffizienten sind und die Restkoeffizientenreproduziermittel umfassen: Vorhersagemittel (78) zum Vorhersagen einer Resthüllkurve (E_R') aus Restkoeffizienten eines vorhergehenden Rahmens; Denormierungsmittel (83) zum Denormieren der Feinstrukturkoeffizienten mit der vorhergesagten Resthüllkurve (E_R'), um die Restkoeffizienten des gegenwärtigen Rahmens zu erhalten; und Multipliziermittel (65₀ ) zum Multiplizieren der Restkoeffizienten (X₀') mit den Spektralhüllkurvenwerten (E₀'), um die Frequenzbereichskoeffizienten zu erhalten.
Decoder nach einem der Ansprüche 45 bis 52, bei dem die denormierten Signalabtastwerte in einem vorgegebenen der Mehrzahl von Kanälen Differenzsignalabtastwerte sind und der Decoder ferner Interrahmen-Vorhersagemittel (68) zum Addieren von rekonstruierten Signalabtastwerten eines vorhergehenden Blocks zu den Differenzsignalabtastwerten des gegenwärtigen Blocks, um rekonstruierte Signalabtastwerte des gegenwärtigen Blocks zu erhalten, umfasst.