DE602004011411T2

DE602004011411T2 - Verfahren zur blockbeschränkten trellis-kodierten Quantisierung und ihre Verwendung in einem Verfahren und einer Vorrichtung zur Quantisierung von LSF-Parametern in einem Sprachkodiersystem

Info

Publication number: DE602004011411T2
Application number: DE602004011411T
Authority: DE
Inventors: Chang-Yong Son; Yong-Won Shin; Sang-Won Kang; Thomas R. Fischer
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-02-19
Filing date: 2004-02-18
Publication date: 2009-01-15
Anticipated expiration: 2024-02-19
Also published as: KR20040074561A; DE602004011411D1; US7630890B2; KR100486732B1; EP1450352B1; EP1450352A3; JP2004252462A; JP4750366B2; US20040230429A1; EP1450352A2

Description

Hintergrund der Erfindung
Die vorliegende Erfindung betrifft ein Sprachkodierungssystem und insbesondere ein Verfahren und eine Vorrichtung zur Quantisierung einer Linearspektralfrequenz (LSF) unter Verwendung von blockbeschränkter Trellis-kodierter Quantisierung (BC-TCQ).
Zur Sprachkodierung in hoher Qualität in einem Sprachkodierungssystem ist es sehr wichtig, linearprädiktive Kodierungs(LPC)-Koeffizienten effizient zu quantisieren, die die Kurzintervallkorrelation eines Sprachsignals angeben. In einem LPC-Filter wird ein optimaler LPC-Koeffizient derart ermittelt, dass nachdem ein Eingangssprachsignal in Rahmeneinheiten unterteilt ist, die Energie des Vorhersagefehlers für jeden Rahmen minimiert wird. Beim 3rd Generation Partnership Project (3GPP) ist der LPC-Filter eines adaptiven Multiratenbreitband(AMR_WB)-Sprachkoders, der für International Mobile Telecommunications-2000 (IMT-2000) standardisiert ist, ein 16-dimensionaler Allpolfilter und hierbei werden zur Quantisierung von 16 verwendeten LPC-Koeffizienten viele Bits zugewiesen. Zum Beispiel verwendet die vom IS-96A Qualcomm-Kode angeregte linearprädiktive (QCELP) Kodierung, die das beim CDMA-Mobilkommuniktionssystem verwendete Sprachkodierverfahren darstellt, 25% der gesamten Bits zur LPC-Quantisierung und die AMR_WB-Sprachkodierung von Nokia verwendet maximale 27,3% bis minimal 9,6% der gesamten Bits in 9 verschiedenen Moden zur LPC-Quantisierung.
Bisher wurden viele Verfahren zum effizienten Quantisieren von LPC-Koeffizienten entwickelt und werden in Sprachkompressionsgeräten angewendet. Unter diesen Verfahren weist eine direkte Quantisierung von LPC-Filterkoeffizienten Probleme darin auf, dass die Charakteristik eines Filters auf Quantisierungsfehler zu empfindlich ist und die Stabilität des LPC-Filters nach einer Quantisierung nicht garantiert ist. Dementsprechend sollten LPC-Koeffizienten in andere Parameter, die eine gute Kompressionscharakteristik aufweisen, konvertiert und dann quantisiert werden. Typischerweise werden Reflexionskoeffizienten oder LSFs verwendet. Insbesondere, da ein LSF-Wert eine Charakteristik aufweist, die zur Frequenzcharakteristik von Sprache in enger Beziehung steht, setzen die meisten der jüngst entwickelten Sprachkompressionsgeräte ein LSF-Quantisierungsverfahren ein.
Wenn außerdem Interrahmenkorrelation von LSF-Koeffizienten angewendet wird, kann effiziente Quantisierung implementiert werden. Das heißt, ohne direktes Quantisieren der LSF in einem anstehenden Rahmen wird die LSF des anstehenden Rahmens aus der LSF-Information früherer Rahmen vorhergesagt und dann der Fehler zwischen der LSF und ihren Vorhersagerahmen quantisiert. Da dieser LSF-Wert eine enge Relation zur Frequenzcharakteristik eines Sprachsignals aufweist, kann dieses zeitlich vorhergesagt werden und kann außerdem einen beträchtlichen Vorhersagegewinn erreichen.
LSF-Vorhersageverfahren beinhalten einen autoregressiven (AR) Filter und einen Filter mit gleitendem Mittelwert (MA). Das AR-Filterverfahren weist eine gute Vorhersageleistung auf, zeigt aber einen Nachteil darin, dass auf der Dekoderseite der Einfluss eines Koeffizientenübertragungsfehlers sich in anschließende Rahmen ausbreiten kann. Obwohl das MA-Filterverfahren typischerweise eine geringere Vorhersageleistung zeigt als das AR-Filterverfahren, weist der MA-Filter den Vorteil auf, dass der Einfluss eines Übertragungsfehlers zeitlich beschränkt ist. Dementsprechend verwenden Sprachkompressionsgeräte wie AMR-, AMR_WB- und Selectable-Mode-Vocoder(SMV)-Geräte, die in einer Umgebung eingesetzt werden, in der Übertragungsfehler häufig auftreten, wie bei drahtloser Kommunikation, das MA-Filterverfahren zur Vor hersage von LSF. Ebenso wurden Vorhersageverfahren entwickelt, die zusätzlich zur LSF-Wertvorhersage zwischen Rahmen eine Korrelation zwischen benachbarten LSF-Elementewerten in einem Rahmen verwenden. Da für einen stabilen Filter die LSF-Werte immer sequentiell angeordnet werden müssen, kann zusätzliche Quantisierungseffizienz erreicht werden, wenn dieses Verfahren eingesetzt wird.
Quantisierungsverfahren für LSF-Vorhersagefehler können in skalare Quantisierung und Vektorquantisierung (VQ) unterteilt werden. Derzeit wird das Vektorquantisierungsverfahren verbreiteter angewendet als das skalare Quantisierungsverfahren, da VQ weniger Bits erfordert, um die gleiche Kodierungsleistung zu erreichen. Beim Vektorquantisierungsverfahren ist eine Quantisierung von ganzen Vektoren auf einmal nicht machbar, weil der Umfang der VQ-Kodebuchtabeile zu groß ist und die Kodebuchsuche zu lange dauert. Um die Komplexität zu reduzieren, wurde ein Verfahren entwickelt, bei dem der ganze Vektor in mehrere Untervektoren unterteilt wird und jeder Untervektor einer unabhängigen Vektorquantisierung unterzogen wird, das als Splitvektorquantisierungs(SVQ)-Verfahren bezeichnet wird. Wenn zum Beispiel bei 10-dimensionaler Vektorquantisierung unter Verwendung von 20 Bits, eine Quantisierung für den ganzen Vektor vorgenommen wird, wird der Umfang der Vektorkodebuchtabelle 10 × 2²⁰. Wenn jedoch ein Splitvektorquantisierungsverfahren verwendet wird, bei dem der Vektor in zwei 5-dimenionale Untervektoren unterteilt wird und 10 Bits für jeden Untervektor zugewiesen werden, wird der Umfang der Vektorkodebuchtabelle nur 5 × 2¹⁰ × 2.
1a zeigt eine LSF-Quantisierungseinrichtung, die in einem AMR-Breitbandsprachkoder mit einer mehrstufigen Splitvektorquantisierungs(S-MSVQ)-Struktur verwendet, und 1b zeigt eine LSF-Quantisierungseinrichtung, die in einem AMR-Schmalbandsprachkoder mit einer SVQ-Struktur verwendet wird. Bei LSF-Koeffizientenquantisierung mit 46 zugewiesenen Bits weist im Vergleich zu einer Vektorquantisierungseinrichtung mit Vollsuche, die LSF-Quantisierungseinrichtung mit einer in 1a gezeigten S-MSVQ-Struktur einen kleineren Speicher auf und einen geringeren Umfang an Rechenaufwand zur Kodebuchsuche, aber aufgrund der Komplexität von Speicher und Kodebuchsuche erfordert sie einen größeren Rechenaufwand. Ebenso kann beim SVQ-Verfahren, wenn der Vektor in mehr Untervektoren unterteilt wird, der Umfang der Vektortabelle abnehmen und der Speicher kann entlastet werden und die Suchdauer kann abnehmen, aber die Leistung ist vermindert, weil die Korrelation zwischen Vektorwerten nicht voll genutzt wird. In einem Extremfall wird eine skalare Quantisierung erreicht, wenn eine 10-dimensionale Vektorquantisierung in 10 1-dimensionale Vektoren unterteilt wird. Wenn das SVQ-Verfahren ohne LSF-Vorhersage zwischen 20 msec Rahmen verwendet wird, wird die LSF direkt quantisiert, wobei eine akzeptable Quantisierungsleistung unter Verwendung von 24 Bits pro Vektor erreicht werden kann. Da jedoch beim SVQ-Verfahren jeder Untervektor unabhängig quantisiert wird, kann eine Korrelation zwischen Untervektoren nicht vollständig genutzt werden und es kann nicht der ganze Vektor optimiert werden.
Es wurden viele VQ-Verfahren entwickelt, darunter ein Verfahren, bei dem Vektorquantisierung in einer Mehrzahl von Schritten durchgeführt wird, ein selektives Vektorquantisierungsverfahren, bei dem zwei Tabellen für selektive Quantisierung verwendet werden, und ein Linksplitvektorquantisierungsverfahren, bei dem eine Tabelle durch Prüfen eines Grenzwerts jedes Untervektors ausgewählt wird. Diese Verfahren der LSF-Quantisierung können transparente Tonqualität erreichen, vorausgesetzt, dass die Kodierungsrate ausreichend hoch ist.
Der Artikel "Trellis-searched adaptive predictive coding" von Malone K T at al. aus Globecom 88, IEEE Global Telecommunications Conference and Exhibition, 28. November 1988, Seiten 566–570, XP 010071652 of fenbart die Verwendung von TCQ in einer adaptiv prädiktiven Kodierungsstruktur.
US 6148283 offenbart eine Mehrwege-Mehrstufen-Vektorquantisierungseinrichtung, zum Beispiel zur Verwendung bei der Quantisierung von Linearspektralfrequenzen (LSFs) in einer Sprachkodierungseinrichtung.
Zusammenfassung der Erfindung
Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zur blockbeschränkten(BC)-Trellis-kodierten Quantisierung (TCQ) wie in Anspruch 1 definiert zur Verfügung gestellt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zur Linearspektralfrequenz(LSF)-Koeffizientenquantisierung für ein Sprachkodierungssystem wie in Anspruch 1 definiert zur Verfügung gestellt, das das BC-TCQ-Verfahren des ersten Aspekts der Erfindung verwendet.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird eine Vorrichtung zur LSF-Koeffizientenquantisierung für ein Sprachkodierungssystem wie in Anspruch 8 definiert zur Verfügung gestellt.
Die Erfindung stellt auf diese Weise ein Verfahren zur blockbeschränkten-Trellis-kodierten Quantisierung zur Verfügung, bei dem, wenn ein Eingangssignal und Koeffizienten in einem Sprachkodierungssystem quantisiert werden, der erforderliche Speicherumfang und der Rechenaufwand und die Komplexität in einem Kodebuchsuchprozess in starkem Maße vermindert sind, und eine gute Leistung beim Signalrauschverhältnis (SNR) erreicht wird. Durch Anwenden des erfindungsgemäßen Verfahrens zur blockbeschränkten-Trellis-kodierten Quantisierung werden Linearspektralfrequenzkoeffizienten quantisiert.
Kurze Beschreibung der Zeichnungen
Beispiele der Erfindung werden nun ausführlich mit Bezug zu den beigefügten Zeichnungen beschrieben, in denen:
1a und 1b Blockdiagramme von Quantisierungseinrichtungen sind, die bei adaptiven Multiraten(AMR)-Breitband- und Schmalband-Sprachkodern eingesetzt werden, die vom 3rd Generation Partnership Project (3GPP) vorgeschlagen sind,
2 ein Diagramm ist, das die Trellis-kodierte Quantisierungs(TCQ)-Struktur und Ausgabewerte zeigt,
3 ein Diagramm ist, das die Struktur der Trellisweginformation in der TCQ zeigt,
4 ein Diagramm ist, das die Struktur der Trellisweginformation in der TB-TCQ zeigt,
5 ein Diagramm ist, das einen Trellisweg zeigt, der in einem einzigen Viterbi-Kodierprozess in einem Ausgangszustand berücksichtigt werden sollte, wenn ein TB-TCQ-Algorithmus in einer 4-stufigen Trellis-Struktur verwendet wird,
6 ein Blockdiagramm ist, das die Struktur einer Vorrichtung zur Linearspektralfrequenz(LSF)-Koeffizientenquantisierung in einem Sprachkodierungssystem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt,
7 ein Diagramm ist, das Trelliswege zeigt, die in einem einzigen Viterbi-Kodierprozess in einem beschränkten Ausgangszustand berücksichtigt werden sollte, wenn ein TB-TCQ-Algorithmus in einer 4-stufigen Trellis-Struktur verwendet wird,
8 ein schematisches Diagramm eines Viterbi-Kodierprozesses in einer speicherlosen Trellis-kodierten Quantisierungseinheit von 6 ist,
9 ein schematisches Diagramm eines Viterbi-Kodierprozesses in einer speicherbasierten Trellis-kodierten Quantisierungseinheit von 6 ist,
10a bis 10c Flussbilder zur Erläuterung des BC-TCQ-Kodierprozesses in der speicherlosen Trellis-kodierten Quantisierungseinheit von 6 sind,
11a bis 11c Flussbilder zur Erläuterung des BC-TCQ-Kodierprozesses in der speicherbasierten Trellis-kodierten Quantisierungseinheit von 6 sind und
12 ein Flussbild ist, das ein LSF-Koeffizientenquantisierungsverfahren in einem Sprachkodiersystem gemäß der vorliegenden Erfindung darstellt.
Beschreibung der bevorzugten Ausführungsformen
Vor einer ausführlichen Erläuterung der vorliegenden Erfindung wird nun ein Verfahren zur Trellis-kodierten Quantisierung (TCQ) erläutert.
Während gewöhnliche Vektorquantisierungseinrichtungen einen großen Speicherplatz und viel Rechenarbeit erfordern, ist das TCQ-Verfahren dadurch gekennzeichnet, dass es einen kleineren Speicherumfang und geringeren Rechenaufwand erfordert. Das bedeutendste Merkmal des TCQ-Verfahrens ist Quantisierung eines Objektsignals unter Verwendung eines strukturierten Kodebuchs, das basierend auf einem Signalsetexpansionskonzept konstruiert ist. Unter Verwendung des Setpartitionkonzepts von Ungerboeck verwendet eine Trellis-kodierte Quantisierungseinrichtung einen erweiterten Satz von Quantisierungswerten und kodiert ein Objektsignal bei einer gewünschten Übertragungsbitrate. Der Viterbi-Algorithmus wird zum Kodieren eines Objektsignals verwendet. Bei einer Übertragungsrate von R Bit pro Abtastung wird bei Kodierung jeder Abtastung eine Ausgangsstufe unter 2^R+1 Stufen gewählt.
2 ist ein Diagramm, das ein Ausgangssignal und eine Trellis-Struktur für ein Eingangssignal mit einer gleichförmigen Verteilung zeigt, wenn jeder Abtastung 2 Bits zugewiesen sind. Es sind acht Ausgangssignale in den Unterkodebüchern D0, D1, D2 und D3 verschachtelt verteilt, wie es in 2 gezeigt ist. Wenn ein Quantisierungsobjektvektor x gegeben ist, wird das Ausgangssignal (x ^) mit minimaler Verzerrung (d(x, x ^)) unter Verwendung des Viterbi-Algorithmus bestimmt, und das mit dem Viterbi-Algorithmus bestimmte Ausgangssignal (x ^) wird unter Verwendung der 1-Bit/Abtastinformation dargestellt, um einen zugehörigen Trellisweg und (R-1)-Bit/Abtastinformation anzugeben, um ein Kodewort anzugeben, das im Unterkodebuch bestimmt ist, das dem zugehörigen Trellisweg zugewiesen ist. Diese Informationsbits werden durch einen Kanal zu einem Dekoder übertragen und der Dekodierprozess von den übertragenen Bitinformationseinheiten wird nun erläutert. Das Bit, das Trellisweginformation anzeigt, wird als Eingabe in eine Faltungskodierungseinrichtung mit Rate-1/2 verwendet und die zugehörigen Ausgabebits der Faltungskodierungseinrichtung spezifizieren das Unterkodebuch. Trellisweginformation erfordert in jeder Stufe ein Bit Weginformation und Ausgangszustandinformation. Die Anzahl an zusätzlichen Bits, die zum Darstellen der Ausgangszustandinformation erforderlich ist, beträgt log₂N, wenn Trellis N Zustände aufweist.
3 ist ein Diagramm, das Zuschlagsinformation von TCQ für eine 4-stufige Trellisstruktur zeigt. Zum Übertragen von nach dem TCQ-Verfahren bestimmter Trellisweginformation (dicke unterbrochene Linien) sollte Ausgangszustandinformation "01" zusätzlich zu L Bits der Weginformation übertragen werden, um L Stufen zu spezifizieren. Dementsprechend sollte, wenn Daten nach dem TCQ-Verfahren in Blockeinheiten quantisiert werden, das Objektsignal unter Verwendung der verbleibenden verfügbaren Bits außer log₂N Bits von den gesamten Übertragungsbits in jedem Block kodiert werden, was die Ursache für eine Leistungsminderung ist. Um dieses Problem zu lösen, haben Nikneshan und Kandani einen Tail-Biting(TB)-TCQ-Algorithmus vorgeschlagen. Ihr Algorithmus beschränkt die Auswahl einer Ausgangstrellisstufe und einer letzten Stufe im Trellisweg.
4 ist ein Diagramm, das einen Trellisweg (dicke unterbrochene Linien) nach dem von Nikneshan und Kandani vorgeschlagenen TB-TCQ-Verfahren quantisiert und ausgewählt zeigt. Da eine Übertragung von Wegwechselinformation in der letzten log₂N-Stufe nicht notwendig ist, kann Trellisweginformation unter Verwendung einer Gesamtzahl von L Bits übertragen werden und es sind keine zusätzlichen Bits notwendig wie beim herkömmlichen TCQ. Das heißt, der von Nikneshan und Kandani vorgeschlagene TB-TCQ-Algorithmus löst das Zuschlagsproblem der herkömmlichen TCQ. Unter dem Gesichtspunkt der Quantisierungskomplexität sollte der bei der TCQ notwendige einzige Viterbi-Kodierprozess jedoch so oft durchgeführt werden, wie es der Anzahl an zulässigen Trellis-Ausgangszuständen entspricht. Das TB-TCQ-Verfahren mit maximaler Komplexität lässt alle Ausgangszustände zu, jedes Paar mit einem einzigen (nominal dem gleichen) Endzustand und deshalb wird die Komplexität durch Multiplizieren der von TCQ mit der Anzahl an Trelliszuständen ermittelt. Zum Beispiel ist 5 ein Diagramm, das Trelliswege (dicke durchgezogene Linien) zeigt, die in jedem einer Gesamtzahl von vier Viterbi-Kodierprozessen gewählt werden können, um einen optimalen Trellisweg unter Verwendung des von Nikneshan und Kandani vorgeschlagenen TB-Algorithmus zu ermitteln.
6 ist ein Blockdiagramm, das die Struktur einer Vorrichtung zur Linearspektralfrequenz(LSF)-Koeffizientenquantisierung in einem Sprachkodierungssystem gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt. Die Vorrichtung zur LSF-Koeffizientenquantisierung umfasst einen ersten Subtraktor 610, eine speicherbasierte Trellis-kodierte Quantisierungseinheit 620, eine speicherlose Trellis-kodierte Quantisierungseinheit 630, die parallel mit der speicherbasierten Trellis kodierten Quantisierungseinheit 620 verbunden ist, und eine Schalteinheit 640. Hier umfasst die speicherbasierte Trellis-kodierte Quantisierungseinheit 620 eine erste Vorhersageeinrichtung 621, eine zweite Vorhersageeinrichtung 624, einen zweiten Subtraktor 622, einen dritten Subtraktor 625, erste bis vierte Addierer 623, 627, 628 und 629 und eine erste blockbeschränkte Trellis-kodierte Quantisierungseinheit (BC-TCQ) 626. Die speicherlose Trellis-kodierte Quantisierungseinheit 630 umfasst erste bis siebte Addierer 631, 635 und 636, einen vierten Subtraktor 633, eine dritte Vorhersageeinrichtung 633 und eine zweite BC-TCQ 634.
Mit Bezug zu 6 subtrahiert der erste Subtraktor 610 die DC-Komponente (f_{_DC}(n)) eines eingegebenen LSF-Koeffizientenvektors (f_(n)) vom LSF-Koeffizientenvektor und der LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, wird als Eingabe in die speicherbasierte Trellis-kodierte Quantisierungseinheit 620 und die speicherlose Trellis-kodierte Quantisierungseinheit 630 gleichzeitig eingegeben.
Die speicherbasierte Trellis-kodierte Quantisierungseinheit 620 empfängt den LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, erzeugt einen Vorhersagefehlervektor (t_i(n)) durch Ausführen einer Interrahmen- und Intrarahmenvorhersage, quantisiert den Vorhersagefehlervektor (t_i(n)) unter Verwendung des BC-TCQ-Algorithmus, der später erläutert wird, und erzeugt dann, durch Ausführen einer Intrarahmen- und Interrahmenvorhersagekompensation den quantisierten und vorhersagekompensierten LSF-Koeffizientenvektor
und stellt den endgültig quantisierten LSF-Koeffizientenvektor
bereit, der durch Addieren des quantisierten und vorhersagekompensierten LSF- Koeffizientenvektors
und der DC-Komponente
des LSF-Koeffizientenvektors ermittelt ist, und als Eingabe in die Schalteinheit 640 eingegeben wird.
Zu diesem Zweck wird eine MA-Vorhersage, zum Beispiel ein MA-Vorhersagealgorithmus vierter Ordnung bei der ersten Vorhersageeinrichtung 621 angewendet und die erste Vorhersageeinrichtung 621 erzeugt einen Vorhersagewert, der aus Vorhersagefehlervektoren vorhergehender Rahmen (n-i, hier i = 1, ... 4) ermittelt ist, die Quantisierung und Intrarahmenvorhersage erfahren haben. Der zweite Subtraktor 622 ermittelt einen Vorhersagefehlervektor (e(n)) des anstehenden Rahmens (n) durch Subtrahieren des von der ersten Vorhersageeinrichtung 621 bereitgestellten Vorhersagewerts vom LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist.
Bei der zweiten Vorhersageeinrichtung 624 wird eine AR-Vorhersage, wird zum Beispiel ein AR-Vorhersagealgorithmus erster Ordnung angewendet und die zweite Vorhersageeinrichtung 624 erzeugt einen Vorhersagewert, der durch Multiplizieren eines Vorhersagefaktors (ρ_i) für das i-te Element mit dem (i-1)-ten Elementewert
ermittelt ist, der durch die erste BC-TCQ 626 quantisiert und den ersten Addierer 623 einer Intrarahmenvorhersagekompensation unterzogen wird. Der dritte Subtraktor 625 ermittelt den Vorhersagefehlervektor des i-ten Elementewers (t_i(n)) durch Subtrahieren des von der zweiten Vorhersageeinrichtung 624 bereitgestellten Vorhersagewerts vom i-ten Elementewert (e_i(n)) im Vorhersagefehlervektor (e(n)) des anstehenden Rahmens (n), der vom zweiten Subtraktor 622 bereitgestellt ist.
Die erste BC-TCQ 626 erzeugt den quantisierten Vorhersagefehlervektor mit dem i-ten Elementewert (t ^i(n)) durch Ausführen einer Quantisierung des Vorhersagefehlervektors mit dem i-ten Elementewert (t_i(n)), der vom zweiten Subtraktor 625 bereitgestellt ist, unter Verwendung des BC-TCQ-Algorithmus. Der zweite Addierer 627 addiert den Vorhersagewert der zweiten Vorhersageeinrichtung 624 zum quantisierten Vorhersagefehlervektor mit dem i-ten Elementewert (t ^i(n)), der vom ersten BC- TCQ 626 bereitgestellt ist, und führt auf diese Weise eine Intrarahmenvorhersagekompensation für den quantisierten Vorhersagefehlervektor mit dem i-ten Elementewert (t ^i(n)) durch und erzeugt den i-ten Elementewert (e ^i(n)) des quantisierten Interrahmenvorhersagefehlervektors. Der Elementewert jeder Ordnung bildet den quantisierten Vorhersagefehlervektor
des anstehenden Rahmens.
Der dritte Addierer 628 addiert den quantisierten LSF-Koeffizientenvektor
durch Addieren des Vorhersagewerts der ersten Vorhersageeinrichtung 612 zum quantisierten Interrahmenvorhersagefehlervektor
des anstehenden Rahmens, der vom zweiten Addierer 627 bereitgestellt ist, das heißt durch Ausführen einer Interrahmenvorhersagekompensation für den quantisierten Vorhersagefehlervektor
des anstehenden Rahmens. Der vierte Addierer 629 erzeugt den quantisierten LSF-Koeffizientenvektor
durch Addieren einer DC-Komponente
des LSF-Koeffizientenvektors zum quantisierten LSF-Koeffizientenvektor
der vom dritten Addierer 628 bereitgestellt ist. Der endgültig quantisierte LSF-Koeffizientenvektor
wird zu einem Ende der Schalteinheit 640 gegeben.
Die speicherlose Trellis-kodierte Quantisierungseinheit 630 empfängt den LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, führt eine Intrarahmenvorhersage durch, erzeugt einen Vorhersagefehlervektor (t_i(n)), quantisiert den Vorhersagefehlervektor (t_i(n)) unter Verwendung des BC-TCQ-Algorithmus, der später erläutert wird, führt dann eine Intrarahmenvorhersagekompensation durch und erzeugt den quantisierten und vorhersagekompensierten LSF-Koeffizientenvektor
Die speicherlose Trellis-kodierte Quantisierungseinheit 630 gibt der Schalteinheit 640 den endgültig quantisierten LSF-Koeffizien tenvektor
der durch Addieren des quantisierten und vorhersagekompensierten LSF-Koeffizientenvektors
und der DC-Komponente (f_{_DC}(n)) des LSF-Koeffizientenvektors ermittelt ist.
Zu diesem Zweck wird in der dritten Vorhersageeinrichtung 632 eine AR-Vorhersage, zum Beispiel ein AR-Vorhersagealgorithmus erster Ordnung verwendet und die dritte Vorhersageeinrichtung 632 erzeugt einen Vorhersagewert, der durch Multiplizieren eines Vorhersageelements (ρ_i) für das i-te Element mit dem Intrarahmenvorhersagefehlervektor mit dem (i-1)-ten Element
erhalten ist, das vom zweiten BC-TCQ 634 quantisiert wird und dann vom fünften Addierer 631 Intrarahmenvorhersagekompensation erfährt. Der vierte Subtraktor 633 erzeugt den Vorhersagefehlervektor mit dem i-ten Element (t_i(n)) durch Subtrahieren des von der dritten Vorhersageeinrichtung 632 bereitgestellten Vorhersagewerts vom i-ten Element (x_i(n)) des LSF-Koeffizientenvektors (x(n)), bei dem die DC-Komponente eliminiert ist, der vom ersten Subtraktor 610 bereitgestellt ist.
Die zweite BC-TCQ 634 erzeugt den quantisierten Vorhersagefehlervektor des i-ten Elementswerts (t ⌢i(n)) durch Ausführen einer Quantisierung des Vorhersagefehlervektors des i-ten Elements (t_i(n)), das vom vierten Subtraktor 633 bereitgestellt ist, unter Verwendung des BC-TCQ-Algorithmus. Der sechste Addierer 635 addiert den Vorhersagewert der dritten Vorhersageeinrichtung 632 zum quantisierten Vorhersagefehlervektor des i-ten Elementswerts (t ^i(n)), der von der zweiten BC-TCQ 634 bereitgestellt ist, und führt auf diese Weise eine Intrarahmenvorhersagekompensation für den quantisierten Vorhersagefehlervektor des i-ten Elementswerts (t ⌢i(n)) durch und erzeugt den quantisierten und vorhersagekompensierten LSF-Koeffizientenvektor des i-ten Elementewerts
Der LSF-Koeffizientenvektor der Elementwerte jeder Ordnung bildet den quantisierten Vorhersagefehlervektor
des anstehenden Rahmens. Der siebte Addierer 636 erzeugt den quantisierten LSF-Koeffizientenvektor
durch Addieren des vom sechsten Addierer 635 bereitgestellten quantisierten LSF-Koeffizientenvektors
zur DC-Komponente (f_{_DC}(n)) des LSF-Koeffizientenvektors. Der endgültig quantisierte LSF-Koeffizientenvektor
wird zu einem Ende der Schalteinheit 640 gegeben.
Zwischen den LSF-Koeffizientenvektoren
die in der speicherbasierten Trellis-kodierten Quantisierungseinheit 620 bzw. der speicherlosen Trellis-kodierten Quantisierungseinheit 630 quantisiert sind, wählt die Schalteinheit 640 eine aus, die einen kürzeren Euclid-Abstand vom eingegebenen LSF-Koeffizientenvektor (f(n)) aufweist und gibt den ausgewählten LSF-Koeffizientenvektor aus.
Bei der vorliegenden Ausführungsform sind der vierte Addierer 629 und der siebte Addierer 636 in der speicherbasierten Trellis-kodierten Quantisierungseinheit 620 bzw. der speicherlosen Trellis-kodierten Quantisierungseinheit 630 angeordnet. In einer anderen Ausführungsform können der vierte Addierer 629 und der siebte Addierer 636 fehlen und stattdessen ein Addierer am Ausgangsende der Schalteinheit 640 so angeordnet sein, dass die DC-Komponente (f_{_DC}(n)) des LSF-Koeffizientenvektors zum quantisierten LSF-Koeffizientenvektor
addiert werden kann, der von der Schalteinheit 640 selektiv ausgegeben wird.
Der bei der vorliegenden Erfindung verwendete BC-TCQ-Algorithmus wird nun beschrieben.
Der BC-TCQ-Algorithmus verwendet eine Faltungskodierungseinrichtung mit Rate-1/2 und eine Trellisstruktur mit insgesamt N Zuständen, (N = 2^v, wobei v die Anzahl an binären Zustandsvariablen für eine finite Kodierungszustandmaschine bezeichnet) basierend auf einer Kodiererstruktur ohne Feedback. Als Voraussetzungen für den BC-TCQ-Algorithmus sind die Ausgangszustände von Trelliswegen, die ausgewählt werden können, auf 2^k (0 ≤ k ≤ v) der insgesamt N Zustände beschränkt und die Anzahl an Zuständen einer letzten Stufe sind auf 2^v-k (0 ≤ k ≤ v) der insgesamt N Zustände beschränkt und von den Ausgangszuständen des Trelliswegs abhängig.
Beim Prozess zur Durchführung einer einzigen Viterbi-Kodierung unter Anwendung dieses BC-TCQ-Algorithmus werden die N stehenbleibenden Wege, die unter der Beschränkung des Ausgangszustands bestimmt sind, von der ersten Stufe bis zur Stufe L-log₂N ermittelt (wobei hier L die Gesamtzahl an Stufen bezeichnet und N die Gesamtzahl an Trelliszuständen bezeichnet) und dann werden bei der Kodierung über die verbliebenen v Stufen nur Trelliswege berücksichtigt, die in einem Zustand der letzten Stufe enden, die aus 2^v-k (0 ≤ k ≤ v) Zuständen gewählt sind, die gemäß jedem Ausgangszustand bestimmt sind. Aus den berücksichtigten Trelliswegen wird ein optimaler Trellisweg ausgewählt und übertragen.
7 ist ein Diagramm, das Trelliswege zeigt, die berücksichtigt werden, wenn der BC-TCQ-Algorithmus mit k gleich 1 und einer Trellisstruktur mit einer Gesamtzahl von 4 Stufen verwendet wird. In diesem Beispiel sind die Einschränkungen derart vorgegeben, dass die Ausgangszustände der Trelliswege, die aus den 4 Zuständen wählbar sind "00" und "10" sind und der Zustand der letzten Stufe "00" oder "01" ist, wenn der Ausgangszustand "00" ist und "10" oder "11", wenn der Ausgangszustand "10" ist. Mit Bezug zu 7 sind Trelliswege, die in den verbliebenen Stufen gewählt werden können, durch dicke unterbrochene Linien markiert, wobei die Zustände der letzten Stufe "00" und "01" sind, da der Ausgangszustand des stehenbleibenden Wegs (dicke unterbro chene Linien) der in Stufe L-log₂4 für den Zustand "00" bestimmt ist, "00" ist.
Als nächstes wird der in ausgewählten Trelliswegen, wie in 7 gezeigt, in der speicherbasierten Trellis-kodierten Quantisierungseinheit 620 durchgeführte BC-TCQ-Kodierprozess mit Bezug zu 8 und den 10a bis 10c erläutert.
Zunächst wird der Viterbi-Kodierprozess in der j-ten Stufe in 8 oder 10a erläutert. Im Gegensatz zu xⁱ im BC-TCQ-Kodierprozess der speicherlosen Trellis-kodierten Quantisierungseinheit 630 lauten die dem Zustand ρ der j-ten Stufe zugeordneten Quantisierungsobjektsignale e' = xj – μj·x ^j-1i' und e'' = xj – μj·x ^j-1i'' und sind in Abhängigkeit vom Zustand der vorhergehenden Stufe veränderlich. Dies ist in den 10a bis 10c gezeigt. In Schritt 101 wird eine Initialisierung des Gesamtabstands (ρ 0 / p) im Zustand p in Stufe 0 durchgeführt und in den Schritten 102 und 103 werden N stehenbleibende Wege von der ersten Stufe bis zur Stufe L-log₂N bestimmt (wobei hier L die Gesamtanzahl an Stufen bezeichnet und N die Gesamtanzahl an Trelliszuständen bezeichnet). Das heißt, in Schritt 102a wird für N Zustände von der ersten Stufe zur Stufe L-log₂N eine Quantisierungsverzerrung (d_i',p, d_i'',p) für ein in Schritt 102a-1 erhaltenes Quantisierungsobjektsignal gemäß der folgenden Gleichungen 1 und 2 ermittelt, indem ein zugehöriges Unterkodebuch verwendet wird, und in Schritt 102a-2 in Abstandsmetrik (d_i',p, d_i'',p) gespeichert: di'p = min(d(e', yi',p)| yi',p ε Dj i',p) (1) di'',p = min(d(e'', yi'',p)| yi'',p ε Dj i'',p) (2)
In den Gleichungen 1 und 2 bezeichnet D^j _i',p ein Unterkodebuch, das einem Abschnitt zwischen Zustand p in der j-ten Stufe und Zustand i' in der (j-1)-ten Stufe zugewiesen ist, und D^j _i'',p bezeichnet ein Unterkodebuch, das einem Abschnitt zwischen Zustand p in der j-ten Stufe und Zustand i'' in der (j-1)-ten Stufe zugewiesen ist. Hier bezeichnen y_i',p und y_'',p Kodevektoren in D^j _i',p bzw.
Dann werden ein Prozess zum Auswählen eines Wegs zwischen zwei Trelliswegen, die mit dem Zustand p in der j-ten Stufe verbunden sind und ein akkumulierter Verzerrungsaktualisierungsprozess gemäß der folgenden Gleichung 3 (Schritt 102b-1 in Schritt 102b) durchgeführt: ρjp = min(ρj-1i' + di',p, ρj-1i'' + di'',p) (3)
Dann wird, wenn Zustand i' der vorhergehenden Stufe zwischen den beiden Wegen bestimmt ist, der Quantisierungswert für x^j im Zustand p in der j-ten Stufe gemäß der folgenden Gleichung 4 (Schritt 102b-2 in Schritt 102b) ermittelt: x ^jp = e ^' + μj·x ^j-1i' (4)
Danach sind in Schritt 104 in den verbleibenden v Stufen die einzigen berücksichtigen Trelliswege diejenigen, für die der Zustand der letzten Stufe aus 2^v-k (0 ≤ k ≤ v) Zuständen gewählt ist, die gemäß jedem Ausgangszustand bestimmt sind. Zu diesem Zweck werden in Schritt 104a der Ausgangszustand jedes von N stehenbleibenden Wegen, die in Schritt 103 bestimmt sind, und 2^v-k (0 ≤ k ≤ v) Trelliswegen in den letzten v Stufen in Schritt 104a bestimmt.
In den Schritten 104b bis 104e wird für jeden der 2^v-k (0 ≤ k ≤ v) Zustände, die gemäß jedem Ausgangszustandswert in den gesamten N stehenbleibenden Wegen definiert sind, Information zu einem Trellisweg, der den kürzesten Abstand zwischen einer Eingangssequenz und einer quantisierten Sequenz in einem Weg, der für den letzten Zustand bestimmt ist, aufweist und die Kodewortinformation ermittelt. In den Schritten 104b bis 104e bezeichnet ρ L / i,n den gesamten Abstand zwischen einer Eingangssequenz und einer quantisierten Sequenz in einem Weg, der für den letzten Zustand (n = 1, ..., 2^v-k) im stehenbleibenden Weg bestimmt ist, und d j / i,n bezeichnet den Abstand zwischen dem Quantisierungswert der Eingangsabtastung x_j und der Eingangsabtastung in einem Weg, der für den letzten Zustand (n = 1, ..., 2^v-k) im stehenbleibenden Weg i bestimmt ist.
Als nächstes wird der BC-TCQ-Kodierprozess, der in Trelliswegen, wie in 7 gezeigt, in der speicherlosen Trellis-kodierten Quantisierungseinheit 630 durchgeführt wird, mit Bezug zu 9 und den 11a bis 11c beschrieben.
Beschränkungen des Ausgangszustands und des letzten Zustands sind gleich wie beim BC-TCQ-Kodierprozess in der speicherbasierten Trelliskodierten Quantisierungseinheit 620, aber es wird keine Interrahmenvorhersage von Eingangsabtastungen verwendet.
Zunächst wird nun der Viterbi-Kodierprozess in der j-ten Stufe von 9 mit Bezug zu den 11a bis 11c erläutert.
In Schritt 11 wird eine Initialisierung des gesamten Abstands (ρ 0 / p) im Zustand p in Stufe 0 durchgeführt und in den Schritten 112 und 113 werden N stehenbleibende Wege aus der ersten Stufe bis zur Stufe L-log₂N bestimmt (wobei L die Gesamtzahl an Stufen bezeichnet und N die Gesamtzahl an Trelliszuständen bezeichnet). Das heißt, in Schritt 112a wird für N Zustände von der ersten Stufe zur Stufe L-log₂N eine Quantisierungsverzerrung (d_i'p, d_i'',p) wie in den folgenden Gleichungen 5 und 6 ermittelt, wobei Unterkodebücher verwendet werden, die zwei Ab schnitten zugewiesen sind, die mit dem Zustand p in der j-ten Stufe verbunden sind, und in Abstandsmetrik (d_i',p, d_i'',p) gespeichert: di'p = min(d(x', yi',p)| yi',p ε Dj i',p) (5)y_i',p ∈ D j / i',p di'',p = min(d(x'', yi'',p)| yi'',p ε Dj i'',p) (6)y_i'',p ∈ D j / i'',p
In den Gleichungen 5 und 6 bezeichnet D^j _i',p ein Unterkodebuch, das einem Abschnitt zwischen Zustand p in der j-ten Stufe und Zustand i' in der (j-1)-ten Stufe zugewiesen ist, und D^j _i'',p bezeichnet ein Unterkodebuch, das einem Abschnitt zwischen Zustand p in der j-ten Stufe und Zustand i'' in der (j-1)-ten Stufe zugewiesen ist. Hier bezeichnen y_i',p und y_'',p Kodevektoren in D^j _i',p bzw. D^j _i'',p.
Dann werden ein Prozess zum Auswählen eines Wegs zwischen zwei Trelliswegen, die mit dem Zustand p in der j-ten Stufe verbunden sind, und ein akkumulierter Verzerrungsaktualisierungsprozess gemäß der folgenden Gleichung 7 durchgeführt und gemäß dem Ergebnis wird ein Weg ausgewählt und x ^jp aktualisiert (Schritt 112b-1 und 112b-2 in Schritt 112b): ρjp = min(ρj-1i' + di',p, ρj-1i'' + di'',p) (7)
Die Vorgehenssequenz und Funktionen des nächsten Schritts, Schritt 114 sind gleich wie beim in 10c gezeigten Schritt 104.
Daher ermöglicht der BC-TCQ-Algorithmus gemäß der vorliegenden Erfindung, im Gegensatz zum TB-TCQ-Algorithmus, eine Quantisierung durch einen einzigen Viterbi-Kodierprozess in der Weise, dass zusätzliche Komplexität im TB-TCQ-Algorithmus vermieden werden kann.
12 ist ein Flussbild zur Erläuterung eines LSF-Koeffizientenquantisierungsverfahrens in einem Sprachkodiersystem gemäß der vorliegenden Erfindung. Das Verfahren umfasst einen DC-Komponenteneliminierungsschritt 121, einen speicherbasierten Trellis-kodierten Quantisierungsschritt 122, einen speicherlosen Trellis-kodierten Quantisierungsschritt 123, einen Schaltschritt 124 und einen DC-Komponentenwiederherstellungsschritt 125. Hier kann der DC-Komponentenwiederherstellungsschritt 125 dadurch implementiert werden, dass der Schritt in den speicherbasierten Trellis-kodierten Quantisierungsschritt 122 und den speicherlosen Trellis-kodierten Quantisierungsschritt 123 aufgenommen wird.
Mit Bezug zu 12 wird in Schritt 121 die DC-Komponente (f_{_DC}(n)) eines eingegebenen LSF-Koeffizientenvektors (f_(n)) vom LSF-Koeffizientenvektor subtrahiert und der LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, erzeugt.
In Schritt 122 wird der LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, empfangen und durch Ausführen einer Interrahmen- und Intrarahmenvorhersage wird der Vorhersagefehlervektor (t_i(n)) erzeugt. Der Vorhersagefehlervektor (t_i(n)) wird unter Verwendung des BC-TCQ-Algorithmus quantisiert und dann durch Ausführen einer Intrarahmen- und Interrahmenvorhersagekompensation der quantisierte LSF-Koeffizientenvektor
erzeugt und der Euclid-Abstand (d_memory) zwischen dem quantisierten LSF-Koeffizientenvektor
und dem LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, ermittelt.
Der Schritt 122 wird nun ausführlicher erläutert. In Schritt 122a wird eine MA-Vorhersage, zum Beispiel eine 4-dimensionale MA-Interrahmenvorhersage beim LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente in Schritt 121 eliminiert ist, angewendet und der Vorhersagefeh lervektor (e(n)) des anstehenden Rahmens (n) ermittelt. Der Schritt 122a kann durch die folgende Gleichung 8 dargestellt werden:
Hier bezeichnet
den Vorhersagefehlervektor des vorhergehenden Rahmens (n-i, hier ist i = 1, ..., 4), der unter Verwendung des BC-TCQ-Algorithmus quantisiert ist und dann Intrarahmenvorhersagekompensation erfahren hat.
In Schritt 122b wird eine AR-Vorhersage, zum Beispiel eine 1-dimensionale AR-Intrarahmenvorhersage beim i-ten Elementewert (e_i(n)) im Vorhersagefehlervektor (e(n)) des anstehenden Rahmens (n), der in Schritt 122a ermittelt ist, angewendet und der Vorhersagefehlervektor (t_i(n)) des i-ten Elementewerts wird ermittelt. Die AR-Vorhersage kann durch die folgende Gleichung 9 dargestellt werden: ti(n) = ei(n) – ρi·e ^i-1(n) (9)
Hier bezeichnet ρ_i den Vorhersagefaktor des i-ten Elements und e ^i-1(n) bezeichnet den (i-1)-ten Elementewert, der unter Verwendung des BC-TCQ-Algorithmus quantisiert ist und dann eine Intrarahmenvorhersagekompensation erfährt.
Danach wird der Vorhersagefehlervektor mit dem i-ten Elementewert (t_i(n)), der in Gleichung 9 erhalten ist, unter Verwendung des BC-TCQ-Algorithmus quantisiert und der quantisierte Vorhersagefehlervektor des i-ten Elementewerts (t ^i(n)) ermittelt. Eine Intrarahmenvorhersagekompensation wird für den quantisierten Vorhersagefehlervektor mit dem i-ten Elementewert (t ^i(n)) und den LSF-Koeffizientenvektor mit dem i-ten Elementewert (e ^i(n)) ermittelt. Der LSF-Koeffizientenvektor des Elementewerts jeder Ordnung bildet quantisierte Interrahmenvorhersagefehlervektoren
des anstehenden Rahmens. Die Intrarahmenvorhersagekompensation kann durch die folgende Gleichung 10 dargestellt werden: e ^i(n) = t ^i(n) + ρi·e ^i-1(n) (10)
In Schritt 122c wird eine Interrahmenvorhersagekompensation für den quantisierten Interrahmenvorhersagefehlervektor
des anstehenden Rahmens durchgeführt, der in Schritt 122b ermittelt ist, und es wird der quantisierte LSF-Koeffizientenvektor
erhalten. Der Schritt 122c kann durch die folgende Gleichung 11 dargestellt werden:
In Schritt 122d wird der Euclid-Abstand
zwischen dem in Schritt 122c ermittelten quantisierten LSF-Koeffizientenvektor
und dem in Schritt 122a eingegebenen LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, ermittelt.
In Schritt 123 wird der LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente in Schritt 121 eliminiert wurde, empfangen und durch Ausführen einer Intrarahmenvorhersage wird ein Vorhersagefehlervektor (t_i(n)) erzeugt. Der Vorhersagefehlervektor (t_i(n)) wird unter Verwendung des BC-TCQ-Algorithmus quantisiert und einer Intrarahmenvorhersagekompensation unterzogen, und auf diese Weise wird der quantisierte LSF-Koeffizientenvektor
erzeugt. Der Euclid-Abstand (d_memoryless) zwischen dem quantisierten LSF-Koeffizientenvektor
und dem LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert wurde, wird ermittelt.
Der Schritt 123 wird nun ausführlicher erläutert. In Schritt 123a wird eine AR-Vorhersage, zum Beispiel eine 1-dimensionale AR-Intrarahmenvorhersage beim LSF-Koeffizientenvektor (x(n)) mit i-tem Element (x_i(n)), bei dem die DC-Komponente in Schritt 121 eliminiert wurde, angewendet und ein Intrarahmenvorhersagefehlervektor mit i-tem Element (t_i(n)) ermittelt. Die AR-Vorhersage kann durch die folgende Gleichung 12 dargestellt werden: ti(n) = xi(n) – ρi·x ^i-1(n) (12)
Hier bezeichnet ρ_i den Vorhersagefaktor des i-ten Elements und x ^i-1(n) bezeichnet den Intrarahmenvorhersagefehlervektor des (i-1)-ten Elements, der unter Verwendung des BC-TCQ-Algorithmus quantisiert ist und dann eine Intrarahmenvorhersagekompensation erfährt.
Danach wird der Intrarahmenvorhersagefehlervektor mit dem i-ten Element (t_i(n)), der in Gleichung 12 erhalten ist, unter Verwendung des BC-TCQ-Algorithmus quantisiert und der quantisierte Intrarahmenvorhersagefehlervektor mit dem i-ten Element (t ^i(n)) ermittelt. Eine Intrarahmenvorhersagekompensation wird für den quantisierten Intrarahmenvorhersagefehlervektor mit dem i-ten Element (t ^i(n)) und den quantisierten LSF-Koeffizientenvektor mit dem i-ten Elementewert (x ^i(n)) ermittelt. Der quantisierte LSF-Koeffizientenvektor des Elementewerts jeder Ordnung bildet den quantisierten LSF-Koeffizientenvektor
des anstehenden Rahmens. Die Intrarahmenvorhersagekompensation kann durch die folgende Gleichung 13 dargestellt werden: x ^i(n) = t ^i(n) + ρi·x ^i-1(n) (13)
In Schritt 123b wird der Euclid-Abstand
zwischen dem in Schritt 123a ermittelten quantisierten LSF-Koeffizientenvektor
und dem in Schritt 123a eingegebenen LSF-Koeffizientenvektor (x(n)), bei dem die DC-Komponente eliminiert ist, ermittelt.
In Schritt 124 werden die in den Schritten 122d bzw. 123b ermittelten Euclid-Abstände (d_memory, d_memoryless) verglichen und der quantisierte LSF-Koeffizientenvektor (x(n)) mit dem kleineren Euclid-Abstand ausgewählt.
In Schritt 125 wird die DC-Komponente (f_{_DC}(n)) des LSF-Koeffizientenvektors zum in Schritt 124 ausgewählten quantisierten LSF-Koeffizientenvektor
hinzuaddiert und schließlich der quantisierte LSF-Koeffizientenvektor
ermittelt.
Hierbei kann die vorliegende Erfindung in einem Kode auf einem computerlesbaren Aufzeichnungsmedium verkörpert sein, der von einem Computer gelesen werden kann. Das computerlesbare Aufzeichnungsmedium beinhaltet alle Arten von Aufzeichnungsvorrichtungen, auf denen computerlesbare Daten gespeichert werden.
Das computerlesbare Aufzeichnungsmedium beinhaltet Speichermedien wie Magnetspeichermedien (z. B. ROM, Floppy-Disk, Festplatte usw.), optisch lesbare Medien (z. B. CD-ROM, DVD usw.) und Trägerwellen (z. B. Übertragungen über das Internet). Ebenso können computerlesbare Aufzeichnungsmedien auf Computersystemen verteilt sein, die durch ein Netzwerk verbunden sind und können einen computerlesbaren Kode in einem verteilten Modus speichern und ausführen. Ebenso können Funktionsprogramme, Kodes und Kodesegmente zum Implementieren der vorliegenden Erfindung von Programmierern im Fachbereich der vorliegenden Erfindung leicht abgeleitet werden.
Experimentelle Beispiele
Zum Vergleich der Funktionen des in der vorliegenden Erfindung vorgeschlagenen BC-TCQ-Algorithmus mit dem TB-TCQ-Algorithmus wird das Signal-Rausch-Verhältnis (SNR) der Quantisierung bei einer speicherlosen Gauß-Quelle (Mittel 0, Dispersion 1) bestimmt. Die folgende Tabelle 1 zeigt einen Vergleich von SNR-Leistungswerten in Bezug auf die Blocklänge. Eine Trellisstruktur mit 16 Zuständen und einem doppelten Ausgangswert wurde im Leistungsvergleichsexperiment verwendet und jeder Abtastung sind 2 Bits zugewiesen. Das TB-TCQ-Referenzsystem erlaubt 16 Trellis-Ausgangszustände, wobei ein einziger (zum Ausgangszustand identischer) Endzustand für jeden Ausgangszustand zulässig ist. Tabelle 1

Blocklänge TB-TCQ (dB) BC-TCQ (dB)

16 10,53 10,47

32 10,70 10,68

64 10,74 10q,76

128 10,74 10,82
Mit Bezug zu Tabelle 1, wenn die Blocklänge der Quelle 16 und 32 beträgt, zeigt der TB-TCQ-Algorithmus die bessere SNR-Leistung, während wenn die Blocklänge der Quelle 64 und 128 beträgt, zeigt der BC-TCQ-Algorithmus die bessere Leistung.
Die folgende Tabelle 2 zeigt einen Vergleich der Komplexität zwischen dem von der vorliegenden Erfindung vorgeschlagenen BC-TCQ-Algo rithmus und dem TB-TCQ-Algorithmus, wenn die Blocklänge der Quelle in Tabelle 1 16 beträgt. Tabelle 2

Vorgang TB-TCQ BC-TCQ Anmerkung

Addition 5184 696 89,57% Abnahme

Multiplikation 64 64 -

Vergleich 2302 223 90,32% Abnahme
Mit Bezug zu Tabelle 2 nimmt die Komplexität des BC-TCQ-Algorithmus gemäß der vorliegenden Erfindung im Vergleich zu der des TB-TCQ-Algorithmus bei Additions- und Vergleichsvorgängen stark ab.

Hierbei kann die Anzahl an Ausgangszuständen in einer Trellis-Struktur mit 16 Zuständen auf 2^k (0 ≤ k ≤ v) gehalten werden und die folgende Tabelle 3 zeigt einen Vergleich des Quantisierungsverhaltens für ein speicherloses Laplace-Signal unter Verwendung von BC-TCQ, wenn k = 0, 1, ..., 4 beträgt. Das im Leistungsvergleichsexperiment verwendete Kodebuch weist 32 Ausgangswerte auf und die Kodierungsrate beträgt 3 Bit pro Abtastung. Tabelle 3

Ordnung, k	Blocklänge, L
Ordnung, k	L = 8	L = 16	L = 32	L = 64
k = 0	13,6287	14,4819	15,1030	15,5636
k = 1	14,7567	15,2100	15,5808	15,8499
k = 2	14,9591	15,4942	15,7731	15,9887
k = 3	13,4285	14,5864	15,3346	15,7704
k = 4	11,6558	13,2499	14,4951	15,2912

Mit Bezug zu Tabelle 3 ist gezeigt, dass wenn k = 2 ist, der BC-TCQ-Algorithmus die beste Leistung erbringt. Wenn k = 2 ist, sind 4 Zustände von insgesamt 16 Zuständen als Ausgangszustände im BC-TCQ-Algorithmus zulässig. Die folgende Tabelle 4 zeigt Information zum Ausgangszustand und letzten Zustnad des BC-TCQ-Algorithmus, wenn k = 2 ist. Tabelle 4

Ausgangszustand letzter Zustand

0 0, 1, 2, 3,

4 4, 5, 6, 7

8 8, 9, 10, 11

12 12, 13, 14, 15
Danach wurden zum Bestimmen der Leistungsfähigkeit der vorliegenden Erfindung Sprachabtastungen für Breitbandsprache von NTT verwendet. Die Gesamtlänge der Sprachabtastungen beträgt 13 Minuten und die Abtastungen beinhalten männliche koreanische, weibliche koreanische, männliche englische und weibliche englische Ansagen. Zum Vergleich mit der Leistungsfähigkeit der von der 3GPP AMR_WB Sprachkodierungseinrichtung verwendeten LSF-Quantisierungseinrichtung S-MSVQ wurde der gleiche Prozess wie bei der AMR_WB Sprachkodierungseinrichtung als Vorverarbeitungsprozess vor einer LSF-Quantisierungseinrichtung verwendet und ein Vergleich des spektralen Verzerrungs(SD)-Verhaltens, der Rechenaufwand und der erforderliche Speicherumfang eingesetzt, wie in den Tabellen 5 und 6 gezeigt. Tabelle 5

AMR_WB S-MSVQ Erfindung

SD Mittel SD (dB) 0,7933 0,6979

2–4 dB (%) 0,4099 0,1660

> 4 dB (%) 0,0026 0

Tabelle 6

AMR_WB Erfindung Anmerkung

Rechenaufwand Addition 15624 3784 76% Abn.

Multiplikation 8832 2968 66% Abn.

Vergleich 3570 2335 35% Abn.

Speicherbedarf 5280 1056 80% Abn.
Mit Bezug zu den Tabellen 5 und 6 zeigt die vorliegende Erfindung beim SD-Verhalten eine Abnahme von 0,0954 beim mittleren SD und eine Abnahme von 0,2439 bei der Anzahl an Ausreißerquantisierungsbereichen zwischen 2 dB bis 4 dB im Vergleich zu AMR_WB S-MSVQ. Ebenso zeigt die vorliegende Erfindung eine starke Abnahme beim notwendigen Rechenaufwand bei Addition, Multiplikation und Vergleich, der für eine Kodebuchsuche erforderlich ist, und dementsprechend nimmt auch der Speicherbedarf entsprechend ab.
Gemäß der vorliegenden Erfindung, wie sie oben beschrieben ist, können durch Quantisieren des ersten Vorhersagefehlervektors, der durch Interrahmen- und Intrarahmenvorhersage unter Verwendung des eingegebene LSF-Koeffizientenvektors ermittelt ist, und des zweiten Vorhersagefehlervektors, der durch Intrarahmenvorhersage unter Verwendung des BC-TCQ-Algorithmus ermittelt ist, der erforderliche Speicherumfang für die Quantisierung und der Rechenaufwand beim Kodebuchsuchprozess stark vermindert werden.
Wenn außerdem in Rahmeneinheiten analysierte Daten unter Verwendung eines Trellis-kodierten Quantisierungsalgorithmus übertragen werden, sind keine zusätzlichen Übertragungsbits für Ausgangszustände notwendig und die Komplexität kann stark vermindert werden.
Ferner kann durch Einführen eines Sicherheitsnetzes eine Fehlerausbreitung, die unter Verwendung von Vorhersageeinrichtungen auftreten kann, derart verhindert werden, dass Ausreißerquantisierungsbereiche vermindert sind, der Gesamtaufwand zur Berechnung und beim Speicherbedarf abnimmt und gleichzeitig die SD-Leistung verbessert wird.
Es wurden oben optimale Ausführungsformen erläutert und gezeigt. Die vorliegende Erfindung ist jedoch nicht auf die oben beschriebene bevorzugte Ausführungsform beschränkt und es ist ersichtlich, dass die Fachleute Variationen und Modifikationen vornehmen können, die im Rahmen der vorliegenden Erfindung liegen, wie sie in den beigefügten Ansprüchen definiert ist. Deshalb ist der Rahmen der vorliegenden Erfindung nicht durch die obige Beschreibung, sondern nur durch die beigefügten Ansprüche bestimmt.

Claims

Verfahren zur blockbeschränkten(BC)-Trellis-kodierten Quantisierung (TCQ) umfassend: für eine Trellisstruktur mit insgesamt N Zuständen, wobei N = 2^v ist, wobei v die Anzahl an binären Zustandsvariablen für eine finite Kodierungszustandmaschine bezeichnet, Beschränken der Anzahl an Ausgangszuständen von Trelliswegen, die zur Auswahl verfügbar sind, auf 2^k, wobei 0 ≤ k ≤ v ist, der insgesamt N Zustände und Beschränken der Anzahl an Zuständen einer letzten Stufe auf 2^v-k der insgesamt N Zustände in Abhängigkeit von den Ausgangszuständen von Trelliswegen, nach Bezugnahme auf Ausgangszustände von N verbliebenen Wegen, die unter der Ausgangszustandbeschränkung von einer ersten Stufe zur Stufe L-log₂N bestimmt wurden, wobei L die Anzahl an gesamten Stufen und N die Anzahl an gesamten Trelliszuständen bezeichnet, Berücksichtigen von Trelliswegen, bei denen der zulässige Zustand einer letzten Stufe aus 2^v-k Zuständen gewählt ist, die von jedem Ausgangszustand unter der Beschränkung auf den Zustand einer letzten Stufe durch das Beschränken der übrigen v Stufen bestimmt ist, und Ermitteln eines optimalen Trellisweges aus den berücksichtigten Trelliswegen und Übertragen des optimalen Trellisweges.
Verfahren zur Linearspektralfrequenz(LSF)-Koeffizientenquantisierung für ein Sprachkodierungssystem umfassend: Eliminieren einer Gleichstrom(DC)-Komponente aus einem eingegebenen LSF-Koeffizientenvektor, Erzeugen eines ersten Vorhersagefehlervektors durch Ausführen einer Intrarahmen- und Interrahmenvorhersage für den LSF-Koeffizientenvektor, in dem die DC-Komponente eliminiert ist, Quantisieren des ersten Vorhersagefehlervektors unter Anwendung des BC-TCQ-Verfahrens nach Anspruch 1 und dann, durch Ausführen einer Interrahmen- und Intrarahmenvorhersagekompensation, Erzeugen eines ersten quantisierten LSF-Koeffizientenvektors, Erzeugen eines zweiten Vorhersagefehlervektors durch Ausführen einer Intrarahmenvorhersage für den LSF-Koeffizientenvektor, in dem die DC-Komponente eliminiert ist, Quantisieren des zweiten Vorhersagefehlervektors unter Anwendung des BC-TCQ-Algorithmus und dann, durch Ausführen einer Intrarahmenvorhersagekompensation, Erzeugen eines zweiten quantisierten LSF-Koeffizientenvektors und selektives Ausgeben eines Vektors mit einer kürzeren Euklid-Distanz zum eingegebenen LSF-Koeffizientenvektor zwischen den erzeugten ersten und zweiten quantisierten LSF-Koeffizientenvektoren.
Verfahren zur LSF-Koeffizientenquantisierung nach Anspruch 2, ferner umfassend: Ermitteln eines abschließend quantisierten LSF-Koeffizientenvektors durch Addieren der DC-Komponente des LSF-Koeffizientenvektors zum selektiv ausgegebenen quantisierten LSF-Koeffizientenvektor.
Verfahren zur LSF-Koeffizientenquantisierung nach Anspruch 2 oder 3, wobei beim Erzeugen eines ersten quantisierten LSF-Koeffizientenvektors die Interrahmenvorhersage durch Filtern mit gleitendem Mittelwert (MA) vorgenommen wird und die Intrarahmenvorhersage durch autoregressives (AR) Filtern vorgenommen wird.
Verfahren zur LSF-Koeffizientenquantisierung nach Anspruch 2, 3 oder 4, wobei beim Erzeugen eines zweiten quantisierten LSF-Koeffizientenvektors die Intrarahmenvorhersage durch AR-Filtern vorgenommen wird.
Verfahren zur LSF-Koeffizientenquantisierung nach einem der Ansprüche 2 bis 5, wobei für eine Trellisstruktur mit insgesamt N Zuständen, wobei N = 2^v ist, wobei v die Anzahl an binären Zustandsvariablen für eine finite Kodierungszustandmaschine bezeichnet, der BC-TCQ-Algorithmus die Anzahl an Ausgangszuständen von Trelliswegen, die zur Auswahl verfügbar sind, auf 2^k, wobei 0 ≤ k ≤ v ist, der insgesamt N Zustände beschränkt und die Anzahl an Zuständen einer letzten Stufe auf 2^v-k der insgesamt N Zu stände in Abhängigkeit von den Ausgangszuständen von Trelliswegen beschränkt.
Verfahren zur LSF-Koeffizientenquantisierung nach Anspruch 6, wobei der BC-TCQ-Algorithmus auf Ausgangszustände von N verbliebenen Wegen, die unter der Ausgangszustandbeschränkung durch Beschränken von einer ersten Stufe zur Stufe L-log₂N bestimmt wurden, wobei L die Anzahl an gesamten Stufen und N die Anzahl an gesamten Trelliszuständen bezeichnet, Bezug nimmt und dann bei den übrigen v Stufen Trelliswege berücksichtigt, bei denen der Zustand einer letzten Stufe aus 2^v-k Zuständen gewählt ist, die von jedem Ausgangszustand unter der Beschränkung auf den Zustand einer letzten Stufe bestimmt ist, einen optimalen Trellisweg aus den berücksichtigten Trelliswegen ermittelt und den optimalen Trellisweg überträgt.
Vorrichtung zur LSF-Koeffizientenquantisierung für ein Sprachkodierungssystem umfassend: einen ersten Subktraktor, der eine DC-Komponente aus einem eingegebenen LSF-Koeffizientenvektor eliminiert und einen LSF-Koeffizientenvektor bereitstellt, in dem die DC-Komponente eliminiert ist, eine speicherbasierte Trellis-kodierte Quantisierungseinheit, die durch Ausführen einer Interrahmen- und Intrarahmenvorhersage für den LSF-Koeffizientenvektor, der vom ersten Subtraktor bereitgestellt ist, in dem die DC-Komponente eliminiert ist, einen ersten Vorhersagefehlervektor erzeugt, den ersten Vorhersagefehlervektor unter Anwendung eines blockbeschränkten(BC)-Trellis-kodierten Quantisierungs(TCQ)-Algorithmus quantisiert und dann, durch Ausführen einer Intrarahmen- und Interrahmenvorhersagekompensation, einen ersten quantisierten LSF-Koeffizientenvektor erzeugt, eine speicherlose Trellis-kodierte Quantisierungseinheit, die durch Ausführen einer Intrarahmenvorhersage für den LSF-Koeffizientenvektor, in dem die DC-Komponente eliminiert ist, einen zweiten Vorhersagefehlervektor erzeugt, den zweiten Vorhersagefehlervektor unter Anwendung des BC-TCQ-Algorithmus quantisiert und dann, durch Ausführen einer Intrarahmenvorhersage kompensation, einen zweiten quantisierten LSF-Koeffizientenvektor erzeugt, und eine Schalteinheit, die selektiv einen Vektor mit einer kürzeren Euklid-Distanz zum eingegebenen LSF-Koeffizientenvektor zwischen dem ersten und zweiten quantisierten LSF-Koeffizientenvektor, die von der speicherbasierten Trellis-kodierten Quantisierungseinheit bzw. der speicherlosen Trellis-kodierten Quantisierungseinheit bereitgestellt sind, ausgibt, wobei für eine Trellisstruktur mit insgesamt N Zuständen, wobei N = 2^v ist, wobei v die Anzahl an binären Zustandsvariablen für eine finite Kodierungszustandmaschine bezeichnet, der BC-TCQ-Algorithmus die Anzahl an Ausgangszuständen von Trelliswegen, die zur Auswahl verfügbar sind, auf 2^k, wobei 0 ≤ k ≤ v ist, der insgesamt N Zustände beschränkt und die Anzahl an Zuständen einer letzten Stufe auf 2^v-k der insgesamt N Zustände in Abhängigkeit von den Ausgangszuständen von Trelliswegen beschränkt und wobei der BC-TCQ-Algorithmus auf Ausgangszustände von N verbliebenen Wegen, die unter der Ausgangszustandbeschränkung durch Beschränken von einer ersten Stufe zur Stufe L-log₂N bestimmt wurden, wobei L die Anzahl an gesamten Stufen und N die Anzahl an gesamten Trelliszuständen bezeichnet, Bezug nimmt und dann bei den übrigen v Stufen Trelliswege berücksichtigt, bei denen der Zustand einer letzten Stufe aus 2^v-k Zuständen gewählt wird, die von jedem Ausgangszustand unter der Beschränkung auf den Zustand einer letzten Stufe bestimmt ist, einen optimalen Trellisweg aus den berücksichtigten Trelliswegen ermittelt und den optimalen Trellisweg überträgt.
Vorrichtung zur LSF-Koeffizientenquantisierung nach Anspruch 8, wobei die speicherbasierte Trellis-kodierte Quantisierungseinheit umfasst: eine erste Vorhersageeinrichtung, die einen Vorhersagewert durch MA-Filtern erzeugt, der aus der Summe von quantisierten und vorhersage-kompensierten Vorhersagefehlervektoren vorhergehender Rahmen ermittelt ist, einen zweiten Subtraktor, der den Vorhersagefehlervektor eines anstehenden Rahmens durch Subtrahieren des von der ersten Vorhersageeinrichtung be reitgestellten Vorhersagewerts vom LSF-Koeffizientenvektor, in dem die DC-Komponente eliminiert ist, ermittelt, eine zweite Vorhersageeinrichtung, die einen Vorhersagewert durch RR-Filtern erzeugt, der durch Multiplizieren des Vorhersagefaktors des i-ten Elementewerts mit dem (i-1)-ten Elementewert, der durch den BC-TCQ-Algorithmus quantisiert und dann durch Intrarahmenvorhersagekompensation ermittelt ist, einen dritten Subtraktor, der den Vorhersagefehlervektor des i-ten Elementewerts durch Subtrahieren des von der zweiten Vorhersageeinrichtung bereitgestellten Vorhersagewerts vom i-ten Elementewert des vom zweiten Subtraktor bereitgestellten Vorhersagefehlervektor des anstehenden Rahmens ermittelt, eine erste BC-TCQ, die den quantisierten Vorhersagefehlervektor des i-ten Elementewerts durch Quantisieren des Vorhersagefehlervektors des i-ten Elementewerts, der vom dritten Subtraktor bereitgestellt ist, nach dem BC-TCQ-Algorithmus ermittelt, und eine erste Vorhersagekompensationseinheit, die eine Interrahmenvorhersagekompensation durch Addieren des Vorhersagewerts der zweiten Vorhersageeinrichtung zum quantisierten Vorhersagefehlervektor des i-ten Elementewerts, der von der ersten BC-TCQ bereitgestellt ist, und Addieren des Vorhersagewerts der ersten Vorhersageinrichtung zum Additionsergebnis ausführt.
Vorrichtung zur LSF-Koeffizientenquantisierung nach Anspruch 8 oder 9, wobei die speicherlose Trellis-kodierte Quantisierungseinheit umfasst: eine dritte Vorhersageeinrichtung, die einen Vorhersagewert durch AR-Filtern erzeugt, der durch Multiplizieren des Vorhersagefaktors des i-ten Elementewerts mit dem Intrarahmenvorhersagefehlervektor des (i-1)-ten Elementewerts, der durch den BC-TCQ-Algorithmus quantisiert und dann durch Intrarahmenvorhersagekompensation, ermittelt ist, einen vierten Subtraktor, der den Vorhersagefehlervektor des i-ten Elementewerts durch Subtrahieren des von der dritten Vorhersageeinrichtung bereitgestellten Vorhersagewerts vom LSF-Koeffizientenvektor des i-ten Elemen tewerts des LSF-Koeffizientenvektors, in dem die DC-Komponente eliminiert ist, der vom ersten Subtraktor bereitgestellt ist, ermittelt, eine zweite BC-TCQ, die den quantisierten Vorhersagefehlervektor des i-ten Elementewerts durch Quantisieren des Vorhersagefehlervektors des i-ten Elementewerts, der vom vierten Subtraktor bereitgestellt ist, nach dem BC-TCQ-Algorithmus ermittelt, und eine zweite Vorhersagekompensationseinheit, die eine Intrarahmenvorhersagekompensation für den quantisierten Vorhersagefehlervektor des i-ten Elementewerts durch Addieren des Vorhersagewerts der dritten Vorhersageeinrichtung zum quantisierten Vorhersagefehlervektor des i-ten Elementewerts, der von der zweiten BC-TCQ bereitgestellt ist, ausführt.
Vorrichtung zur LSF-Koeffizientenquantisierung nach einem der Ansprüche 8 bis 10, ferner umfassend: einen Addierer, der einen abschließend quantisierten LSF-Koeffizientenvektor durch Addieren der DC-Komponente des LSF-Koeffizientenvektors zum von der Schalteinheit selektiv ausgegebenen quantisierten LSF-Koeffizientenvektor ermittelt.
Vorrichtung zur LSF-Koeffizientenquantisierung nach Anspruch 9, wobei die speicherbasierte Trellis-kodierte Quantisierungseinheit ferner umfasst: einen Addierer, der einen ersten quantisierten LSF-Koeffizientenvektor durch Addieren der DC-Komponente des LSF-Koeffizientenvektors zum von der ersten Vorhersagekompensationseinheit selektiv ausgegebenen quantisierten LSF-Koeffizientenvektor ermittelt.
Vorrichtung zur LSF-Koeffizientenquantisierung nach Anspruch 10, wobei die speicherlose Trellis-kodierte Quantisierungseinheit ferner umfasst: einen Addierer, der einen zweiten quantisierten LSF-Koeffizientenvektor durch Addieren der DC-Komponente des LSF-Koeffizientenvektors zum von der zweiten Vorhersagekompensationseinheit selektiv ausgegebenen quantisierten LSF-Koeffizientenvektor ermittelt.
Computerprogramm umfassend Computerprogrammkodemittel, die geeignet sind, alle Schritte aus einem der Ansprüche 1 bis 7 auszuführen, wenn das Programm auf einem Computer abläuft.
Computerprogramm nach Anspruch 14, das auf einem computerlesbaren Medium verkörpert ist.