DE60023913T2

DE60023913T2 - Verfahren und vorrichtung zur unterabtastung der im phasenspektrum erhaltenen information

Info

Publication number: DE60023913T2
Application number: DE60023913T
Authority: DE
Inventors: Sharath Manjunath
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1999-07-19
Filing date: 2000-07-18
Publication date: 2006-08-10
Anticipated expiration: 2020-07-19
Also published as: CN1279510C; KR20020013966A; KR100752001B1; EP1204968B1; EP1617416A2; JP4860859B2; DE60037286T2; EP1204968A1; JP4861271B2; ATE309600T1; HK1047816B; CN1290077C; BRPI0012537B1; US6397175B1; DE60037286D1; US20050119880A1; HK1047816A1; US6678649B2; JP2008040509A; ES2256022T3

Description

Hintergrund der Erfindung
I. Gebiet der Erfindung
Die vorliegende Erfindung betrifft generell das Gebiet der Sprachverarbeitung und im speziellen Verfahren und die Vorrichtung zur Unterabtastung bzw. zum Subsampling von Phasenspektrumsinformation, die von einem Sprachcodierer gesendet werden.
II. Hintergrund
Die Sendung von Sprache mit Digitaltechniken ist weit verbreitet, speziell in Langdistanz- und Digitalradiotelefonapplikationen. Dieses hat wiederum Interesse für die Bestimmung der kleinsten Menge von Informationen, die über einen Kanal gesendet werden können, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird, geschaffen. Wenn die Sprache durch simples Abtasten und Digitalisieren gesendet wird, wird eine Datenrate um die 64 Kilobits pro Sekunde (kbps) benötigt, um eine Sprachqualität eines konventionellen, analogen Telefons, zu erreichen. Durch die Verwendung von Sprachanalyse, gefolgt von der passenden Codierung, Sendung und Resynthese bei dem Empfänger, kann jedoch eine signifikante Reduzierung in der Datenrate erreicht werden.
Geräte zum Komprimieren von Sprache finden Verwendung auf vielen Telekommunikationsgebieten. Ein Beispiel für ein Gebiet sind drahtlose Kommunikationen. Das Gebiet der drahtlosen Kommunikationen hat viele Anwendungen, wie zum Beispiel schnurlose Telefone, Paging, drahtlose Lokalschleifen, drahtlose Telefonie, wie zum Beispiel zellulare und PCS-Telefonsysteme, Mobilinternetprotokolltelefonie (IP) und Satellitenkommunikationssysteme. Eine besonders wichtige Applikation ist die drahtlose Telefonie für Mobilteilnehmer.
Verschiedene Über-die-Luft-Interface bzw. -Schnittstellen wurden für drahtlose Kommunikationssysteme, die zum Beispiel Frequenzmultiplex-Vielfachzugriff (FDMA = frequency division multiple access), Zeitmultiplex-Vielfachzugriff (TDMA = time division multiple access) und Codemultiplex-Vielfachzugriff (CDMA = code division multiple access) beinhalten, entwickelt. In Verbindung damit, wurden verschiedene inländische und internationale Standards entwickelt, die zum Beispiel Advanced Mobile Phone Service (AMPS), Global System for Mobile Communications (GSM) und Interim Standard 95 (IS-95) beinhalten. Ein Beispiel für ein drahtloses Telefonkommunikationssystem ist ein Codemultiplex-Vielfachzugriffsystem (CDMA). Der IS-95-Standard und seine Derivate, IS-95A, ANSI J-STD-008, IS-95B, vorgeschlagene dritte Generationstandards IS-95C und IS-2000, etc. (hierin kollektiv bezeichnet als IS-95) sind von der Telecommunication Industry Association (TIA) und anderen bekannten Standardgremien veröffentlicht, um die Verwendung von einem CDMA-Über-Die-Luft-Interface für zellulare oder PCS-Telefonie-Kommunikationssysteme zu spezifizieren. Als Beispiel sind drahtlose Kommunikationssysteme konfiguriert im Wesentlichen gemäß der Verwendung des IS-95-Standards beschrieben im U.S. Patent Nr. 5,103,459 und Nr. 4,901,307, die dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet sind.
Geräte, die Techniken anwenden, um Sprache durch Extrahieren von Parametern, die sich auf ein Modell der menschlichen Sprachgenerierung beziehen, zu komprimieren, werden Sprachcodierer genannt. Ein Sprachcodierer teilt das ankommende Sprachsignal in Zeitblöcke oder Analyserahmen auf. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den ankommenden Sprachrahmen, um bestimmte, relevante Parameter zu extrahieren und quantisiert anschließend die Parameter in eine binäre Repräsentation, d.h., in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal zu einem Empfänger und einem Decodierer gesendet. Der Decodierer verarbeitet die Datenpakete, dequantisiert bzw. entquantisiert sie, um die Parameter zu produzieren und die Sprachrahmen unter Verwendung der dequantisierten Parameter zu resynthetisieren.
Die Funktion des Sprachcodierers ist die Komprimierung des digitalisierten Sprachsignals in ein Niedrig-Bitratensignal durch Entfernen der natürlichen Redundanzen, die der Sprache anhaftend sind. Die digitale Komprimierung wird durch die Repräsentierung des eingegebenen Sprachrahmens durch einen Satz von Parametern und das Anwenden der Quantisierung, um die Parameter durch einen Satz von Bits zu repräsentieren, erreicht. Wenn der eingegebene Sprachrahmen eine Anzahl von Bits N_i hat und das Datenpaket, das vom Sprachcodierer produziert wurde, eine Anzahl Bits N_o hat, ist der Komprimierungsfaktor, der durch den Sprachcodierer erreicht wird, C_T = N_i/N_o. Die Herausforderung ist die Bewahrung der hohen Sprachqualität der decodierten Sprache, und dabei den Zielkomprimierungsfaktor zu erreichen. Die Performance eines Sprachcodierers ist abhängig von (1) wie gut das Sprachmodell oder die Kombination des Analyse- und Syntheseprozesses, wie oben beschrieben, arbeitet, und (2) wie gut der Parameterquantisierungsprozess bei der Zielbitrate von N_o-Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit die Essenz des Sprachsignals oder die Zielsprachqualität einzufangen, und zwar mit einem kleinen Satz von Parametern für jeden Rahmen.
Das wichtigste in der Entwicklung eines Sprachcodierers ist vielleicht die Suche nach einem guten Satz von Parametern (einschließlich Vektoren), um das Sprachsignal zu beschreiben. Ein guter Satz von Parametern benötigt eine niedrige Systembandbreite für die Rekonstruktion eines richtig wahrgenommenen Sprachsignals. Pitch, Signalstärke, spektrale Einhüllende (oder Formanten), Amplitudenspektren und Phasenspektren sind Beispiele für Sprachcodierungsparameter.
Sprachcodierer können als Codierer in der Zeitdomäne implementiert werden, die versuchen, die Sprachwellenform in der Zeitdomäne durch Anwenden einer Verarbeitung mit hoher Zeitauflösung einzufangen, um kleine Sprachsegmente (typischerweise 5 Millisekunden (ms) Unterrahmen) gleichzeitig zu codieren. Für jeden Unterrahmen findet man einen Hochpräzisen Repräsentanten auf einem Kodebucheraum (codebooks), und zwar mit Mitteln verschiedener Suchalgorithmen, die auf dem Fachgebiet bekannt sind. Alternativ können Sprachcodierer als Frequenz-Domänen-Codierer implementiert werden, die versuchen, dass Kurzzeitsprachspektrum des eingegebenen Sprachrahmens mit einem Satz von Parametern (Analyse) einzufangen und einen entsprechenden Syntheseprozess anzuwenden, um die Sprachwellenform aus den Spektralparametern wiederherzustellen. Der Parameterquantisierer bewahrt die Parameter auf durch Repräsentieren derselben mit den gespeicherten Repräsentationen der Codevektoren gemäß den bekannten Quantisierungstechniken beschrieben im A. Gersho & R.M. Gray, Vector Quantization and Signal Compression (1992).
Ein bekannter Zeitdomänensprachcodierer ist der Code Excited Linear Predictive-Codierer (CELP) beschrieben im L.B. Rabiner & R.W. Schafer, Digital Processing of Speech Signals 396–453 (1978). In einem CELP-Codierer werden die Kurzzeitkorrolationen oder Redundanzen im Sprachsignal entfernt, und zwar durch eine Linearvorhersageanalyse bzw. LP-Analyse (LP = linear prediction), die die Koeffizienten eines Kurzzeitformantfilters findet. Das Anwenden des Kurzzeit-Vorhersagefilters auf den ankommenden Sprachrahmen generiert ein LP-Restsignal, welches ferner modelliert und quantisiert wird, und zwar mit Langzeit-Vorhersagefilterparametern und einem nachfolgenden stochastischen Codebuch. Somit teilt die CELP-Codierung die Aufgabe des Codierens der Zeit-Domänen-Sprachwellenform in die separaten Aufgaben des Codierens der LP-Kurzzeit-Filterkoeffizienten und des Codierens des LP-Rests. Zeitdomänen-Codierung kann bei einer festen Rate (d.h., Verwenden der gleichen Anzahl von Bits N_o für jeden Rahmen) oder bei einer variablen Rate (in der verschiedene Bitraten für verschiedene Typen von Rahmeninhalte genutzt werden) durchgeführt werden. Codierer mit variabler Rate versuchen nur die Menge an Bits zu verwenden, die gebraucht werden, um die Codec-Parameter auf ein Level, der adäquat ist, um die Zielqualität zu erreichen, zu codieren. Ein Beispiel für einen variablen Raten-CELP-Codierer ist beschrieben im U.S. Patent Nr. 5,414,796, das dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet ist.
Zeit-Domänen-Codierer, wie zum Beispiel der CELP-Codierer sind typischerweise auf eine hohe Anzahl an Bits N_o pro Rahmen angewiesen, um die Genauigkeit der Zeitdomänensprachwellenform zu erhalten. Solche Codierer liefern typischerweise eine exzellente Sprachqualität ab unter der Vorraussetzung, dass die Anzahl an Bits N_o pro Rahmen relativ groß ist (zum Beispiel 8 kbps oder darüber). Bei niedrigen Bitraten (4 kbps und darunter) schaffen es jedoch Zeit-Domänen-Codierer nicht, die hohe Qualität und die robuste Performance wegen der limitierten Anzahl der verfügbaren Bits beizubehalten. Bei niedrigen Bitraten schneidet der limitierte Codebuchraum die Fähigkeit der Wellenformanpassung von konventionellen Zeit-Domänen-Codierern ab, die deshalb erfolgreich in höher-ratigen, kommerziellen Applikationen eingesetzt werden. Trotz Verbesserungen über die Zeit leiden deswegen viele CELP-Codierungssysteme, die bei niedrigen Bitraten betrieben werden, an wahrnehmbar signifikanter Verzerrung, die typischerweise als Rauschen charakterisiert wird.
Momentan gibt es eine Zunahme an Vorschungsinteresse und einen starken, kommerziellen Bedarf einen Hochqualitätssprachcodierer zu entwickeln, der bei mittleren bis niedrigen Bitraten (d.h., in dem Bereich von 2,4 bis 4 kbps und darunter) betrieben wird. Die Applikationsbereiche beinhalten drahtlose Telefonie, Satellitenkommunikationen, Internettelefonie, verschiedene Multimedia und Sprach-Streaming-Applikationen, Sprachmail und andere Sprachspeichersysteme. Die treibenden Kräfte sind der Bedarf an hoher Kapazität und das Verlangen für robuste Performance in Paketverlustsituationen. Für verschiedene, kürzliche Sprachcodierungsstandardisierungsbemühungen sind andere direkte treibende Kräfte, die die Forschung und die Entwicklung von niedriger Sprachcodierungsalgorithmen antreiben. Ein Niedrigratensprachcodierer erschafft mehr Kanäle, oder Benutzer, pro erlaubbare Applikationsbandbreite, und ein Niedrigratensprachcodierer gekoppelt mit einer zusätzlichen Ebene der passenden Kanalcodierung kann dem gesamten Bit-Budget der Codierspezifikationen entsprechen und eine robuste Performance in Kanalfehlerbedingungen abgeben.
Eine effektive Technik, um Sprache effizient bei niedrigen Bitraten zu codieren, ist die Multimode- bzw. Multimodalcodierung. Ein Beispiel für eine Multimode-Codierungstechnik ist beschrieben im U.S. Patent Nr. 6,691,084 mit dem Titel "VARIABLE RATE SPEECH CODING", dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet. Konventionelle Multimode-Codierer wenden verschiedene Modi, oder Codierungs-Decodierungsalgorithmen an, und zwar auf verschiedene Typen von Eingabesprachrahmen. Jeder Modus, oder Codierungs-Decodierungsprozess, ist angepasst, um auf optimale Art und Weise einen bestimmten Typ des Sprachsegments, wie zum Beispiel stimmhafte Sprache, stimmlose Sprache, Übergangssprache (zum Beispiel zwischen stimmhaft und stimmlos) und Hintergrundgeräusch (keine Sprache) auf größtmöglichste Art und Weise zu repräsentieren. Ein externer Modus-Entscheidungsmechanismus mit offener Schleife untersucht den Eingabesprachrahmen und entscheidet bezüglich welcher Modus auf den Rahmen angewendet wird. Die Modusentscheidung mit offener Schleife wird typischerweise durch Extrahieren einer Anzahl von Parametern aus dem Eingaberahmen, Evaluierung der Parameter auf bestimmte temporale und spektrale Charakteristiken hin und eine Modusentscheidung, der die Evaluierung zu Grunde liegt, durchgeführt.
Codierungssysteme, die bei Raten von ungefähr 2,4 kbps operieren, sind generell parametrischer Natur. Das heißt, solche Codierungssysteme operieren durch Senden von Parametern, die die Pitchperiode und die spektrale Einhüllende (oder Formanten) des Sprachsignals zu geregelten Intervallen beschreiben. Das LP-Vocodersystem veranschaulicht diese so genannten parametrischen Codierer.
LP-Vocoder modellieren ein stimmhaftes Sprachsignal mit einem einzelnen Impuls pro Pitchperiode. Diese grundlegende Technik kann unter anderem mit der Sendungsinformation über die spektrale Einhüllende erweitert werden. Obwohl LP-Vocoder generell vernünftige Performance vorsehen, können sie wahrnehmbar signifikante Verzerrungen, typischerweise charakterisiert als Buzz, einführen.
In den letzten Jahren haben sich Codierer abgezeichnet, die hybride von beidem, Wellenformcodierer und parametrische Codierer, sind. Veranschaulichend für diese so genannten hybriden Codierer ist das Prototyp-Wellenforminterpolationssprachcodierungssystem (PWI = prototype-waveform interpolation). Das PWI-Codierungssystem kann auch als ein Prototyp-Pitch-Periodensprachcodierer (PPP = prototype pitch period) bekannt sein. Ein PWI-Codierungssystem sieht ein effizientes Verfahren für die Codierung von stimmhafter Sprache vor. Das grundlegende Konzept des PWI ist das Extrahieren eines repräsentativen Pitch-Zyklus (die Prototyp-Wellenform) zu festen Intervallen, um ihre Beschreibung zu senden und das Sprachsignal durch Interpolation zwischen den Prototyp-Wellenformen zu rekonstruieren. Das PWI-Verfahren kann entweder auf dem LP-Restsignal oder auf dem Sprachsignal operieren. Ein Beispiel für PWI-, oder PPP-Sprachcodierer ist beschrieben im U.S. Patent Nr. 6,456,964 mit dem Titel "Periodic Speech Coding", dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet. Andere PWI-, oder PPP-Sprachcodierer sind beschrieben im U.S. Patent Nr. 5,884,253 und W. Bastiaan Kleijn & Wolfgang Granzow "Methods for Waveform Interpolation in Speech coding, in one Digital Signal Processing" 215–230 (1991).
In vielen konventionellen Sprachcodierern werden die Phasenparameter eines gegebenen Pitch-Prototyps jeder für sich individuell quantisiert und durch den Codierer gesendet. Alternativ können die Phasenparameter vektorquantisiert werden, um die Bandbreite zu konservieren bzw. aufzusparen. In einem Niedrig-Bitratensprachcodierer ist es jedoch vorteilhaft die letzte Anzahl möglichen Bits zu senden, um genügend Sprachqualität Aufrecht zu erhalten. Aus diesem Grund können in einigen konventionellen Sprachcodierern die Phasenparameter überhaupt nicht durch den Codierer gesendet werden und der Decodierer kann entweder die Phasen für die Rekonstruktion nicht verwenden, oder benutzt einige feste, gespeicherte Sätze von Phasenparametern. In jedem Fall kann die resultierende Sprachqualtiät abbauen. Daher wäre es wünschenswert einen Niedrig-Ratensprachcodierer vorzusehen, der die Anzahl der Elemente, die notwendig sind, um die Phasenspektrumsinformation vom Codierer zum Decodierer zu senden, reduziert, und dabei weniger Phaseninformation sendet. Somit gibt es einen Bedarf für einen Sprachcodierer, der weniger Phasenparameter pro Rahmen sendet.
US Patent Nr. 5,884,253 beschreibt ein Sprachcodierungssystem, das rekonstruierte, stimmhafte Sprache mit einer glattentwickelnden Pitch-Zykluswellenform. Ein Sprachsignal wird repräsentiert durch Isolieren und Codieren von Prototypwellenformen. Jede Prototypwellenform ist ein Beispiel für den Pitch-Zyklus von stimmhafter Sprache. Eine codierte Prototypwellenform wird zu geregelten Intervallen zu einem Empfänger gesendet, der eine Schätzung des originalen Sprachsegments synthetisiert (oder rekonstruiert), und zwar basierend auf den Prototypen. Die Schätzung des originalen Sprachsignals wird durch einen Prototypinterpolationsprozess vorgesehen, der eine glatte Zeitentwicklung der Pitch-Zykluswellenformen in der rekonstruierten Sprache vorsieht. Ein Rahmen von originaler Sprache wird codiert durch zuerst Filtern des Rahmens mit einem linearen Vorhersagefilter und ein Pitch-Zyklus wird identifiziert und extrahiert als eine Prototypwellenform. Die Prototypwellenform wird dann als ein Satz von Fourierserienkoeffizienten (Frequenzdomäne) repräsentiert. Die Pitchperiode und die Fourierkoeffizienten des Prototyps, wie auch die Parameter des Linear-Vorhersagefilters, werden dazu benutzt, einen Rahmen von originaler Sprache zu repräsentieren. Diese Parameter werden durch Vektor- und Skalarquantisierung codiert und über einen Kanal zu einem Empfänger kommuniziert, welcher die Information bestehend aus zwei aufeinander folgende Rahmen benutzt, um den früheren der zwei Rahmen basierend auf einen kontinuierlichen Prototypwellenforminterpolationsprozess zu rekonstruieren. Wellenforminterpolation kann mit den konventionellen CELP- Techniken zum Codieren von stimmlosen Teilen des originalen Sprachsignals kombiniert werden.
Zusammenfassung der Erfindung
Die vorliegende Erfindung adressiert einen Sprachcodierer, der weniger Phasenparameter pro Rahmen sendet. In einem Aspekt der Erfindung beinhaltet dementsprechend ein Verfahren zum Verarbeiten eines Prototyps von einem Rahmen in einem Sprachcodierer auf vorteilhafte Weise das Produzieren von einer Vielzahl von Phasenparametern von einem Referenzprototypen, das Generieren von einer Vielzahl von Phasenparametern des Prototypen und Korrelieren der Phasenparameter des Prototypen mit den Phasenparametern des Referenzprototypen in jedem einer Vielzahl von Frequenzbändern.
In einem anderen Aspekt der Erfindung beinhaltet ein Verfahren zum Verarbeiten eines Prototyps von einem Rahmen in einem Sprachcodierer auf vorteilhafte Weise das Produzieren einer Vielzahl von Phasenparametern eines Referenzprototypen, das Generieren bzw. Erzeugen einer Vielzahl von Linearphasenverschiebungswerten, die mit dem Prototyp assoziiert sind und Zusammensetzen eines Phasenvektors aus den Phasenparametern und den Linearphasenverschiebungswerten über jedes einer Vielzahl von Frequenzbändern.
In einem anderen Aspekt der Erfindung beinhaltet ein Verfahren zum Verarbeiten eines Prototyps von einem Rahmen in einem Sprachcodierer auf vorteilhafte Art und Weise das Produzieren bzw. Erzeugen einer Vielzahl von Kreisrotationswerten bzw. zirkularen Rotationswerten, die mit dem Prototyp assoziiert sind, das Generieren bzw. Erzeugen einer Vielzahl von Bandpasswellenformen bzw. – signalformen in jedem einer Vielzahl von Frequenzbändern, wobei die Vielzahl von Bandpasswellenformen mit einer Vielzahl von Phasenparametern eines Referenzprototyps assoziiert ist, und Modifizieren der Vielzahl von Bandpasswellenformen in jedem der Vielzahl von Frequenzbändern, basierend auf der Vielzahl von Kreisrotationswerten.
In einem anderen Aspekt der Erfindung beinhaltet ein Sprachcodierer auf vorteilhafte Art und Weise Mittel zum Produzieren bzw. Erzeugen von einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmens, Mittel zum Generieren bzw. Erzeugen einer Vielzahl von Phasenparametern eines derzeitigen bzw. aktuellen Prototyps eines derzeitigen bzw. aktuellen Rahmens, und Mittel zum Korrelieren der Phasenparameter des derzeitigen bzw. aktuellen Prototyps mit den Phasenparametern des Referenzprototyps in jedem einer Vielzahl von Frequenzbändern.
In einem anderen Aspekt der Erfindung beinhaltet ein Sprachcodierer auf vorteilhafte Art und Weise Mittel zum Produzieren bzw. Erzeugen einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmens, Mittel zum Generieren bzw. Erzeugen einer Vielzahl von Linearphasenverschiebungswerten, die mit einem aktuellen Prototyp eines aktuellen Rahmens assoziiert sind, und Mittel zum Zusammensetzen eines Phasenvektors aus den Phasenparametern und den Linearphasenverschiebungswerten über jedes einer Vielzahl von Frequenzbändern.
In einem anderen Aspekt der Erfindung beinhaltet ein Sprachcodierer auf vorteilhafte Art und Weise Mittel zum Produzieren bzw. Erzeugen einer Vielzahl von Kreisrotationswerten, die mit einem aktuellen Prototyp eines aktuellen Rahmens assoziiert ist, Mittel zum Generieren bzw. Erzeugen einer Vielzahl von Bandpasswellenformen in jedem einer Vielzahl von Frequenzbändern, wobei die Vielzahl von Bandpasswellenformen mit einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmens assoziiert ist, und Mittel zum Modifizieren der Vielzahl von Bandpasswellenformen in jedem der Vielzahl von Frequenzbändern, basierend auf der Vielzahl von Kreisrotationswerten.
Kurze Beschreibung der Zeichnungen
1 ist ein Blockdiagramm eines drahtlosen Telefonsystems.
2 ist ein Blockdiagramm eines Kommunikationskanals, der an beiden Enden durch Sprachcodierer terminiert ist.
3 ist ein Blockdiagramm eines Codierers.
4 ist ein Blockdiagramm eines Decodierers.
5 ist ein Flussdiagramm, das einen Sprachcodierungsentscheidungsprozess zeigt.
6A ist ein Graph von einer Sprachsignalamplitude gegenüber der Zeit und 6B ist ein Graph einer Linearvorhersagerestwertamplitude (LP) gegenüber der Zeit.
7 ist ein Blockdiagramm eines Prototyp-Pitch-Periodensprachcodierers.
8 ist ein Blockdiagramm eines Prototypquantisierers, der in dem Sprachcodierer der 7 benutzt werden kann.
9 ist ein Blockdiagramm eines Prototypdequantisierers bzw. Prototypentquantisierers, der in dem Sprachcodierer der 7 benutzt werden kann.
10 ist ein Blockdiagramm eines Prototypdequantisierers, der in dem Sprachcodierer der 7 benutzt werden kann.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Die exemplarischen Ausführungsbeispiele, die hierin unten beschrieben werden, befinden sich in einem drahtlosen Telefonkommunikationssystem konfiguriert, um ein CDMA-über-die-Luft-Interface zu verwenden. Nichts desto trotz wird es von den Fachleuten verstanden werden, dass ein Unterabtastungsverfahren und -vorrichtung, die die Merkmale der vorliegenden Erfindung verwirklichen, sich in beliebigen, verschiedenen Kommunikationssystemen befinden können, die einen weiten Bereich von Technologien, die auf dem Fachgebiet bekannt sind, anwenden.
Wie gezeigt in 1 beinhaltet ein CDMA-Drahtlostelefonsystem generell eine Vielzahl von Mobilteilnehmereinheiten 10, eine Vielzahl von Basisstationen 12, Basisstationscontroller bzw. Basisstationssteuereinrichtungen (BSCs = base station controllers) 14 und eine Mobilvermittlungsstelle (MSC = mobile switching center) 16. Die MSC 16 ist konfiguriert zur Verbindung mit einem konventionellen, öffentlichen Telefonnetzwerk (PSTN = public switch telephone network) 18. Die MSC 16 ist auch konfiguriert zur Verbindung mit den BSCs 14. Die BSCs 14 sind an die Basisstationen 12 über Backhaul-Leitungen gekoppelt. Die Backhaul-Leitungen können konfiguriert werden, um jede der mehreren bekannten Interface einschließlich, zum Beispiel, E1/T1, ATM, IP, PPP, Frame Relay bzw. Rahmenrelay, HDSL, ADSL oder xDSL zu unterstützen. Es sei anzumerken, dass mehr als zwei BSCs 14 in dem System sein können. Jede Basisstation 12 beinhaltet auf vorteilhafte Art und Weise mindestens einen Sektor (nicht gezeigt), wobei jeder Sektor eine Omni-Direktionale Antenne oder eine Antenne, die in eine bestimmte Richtung zeigt, und zwar auf radiale Weise weg von der Basisstation 12, aufweist. Alternativ kann jeder Sektor zwei Antennen für den Vielfaltigkeitsempfang bzw. Diversity-Empfang auf. Jede Basisstation 12 kann auf vorteilhafte Art und Weise für die Unterstützung bei einer Vielzahl von Frequenzzuweisungen ausgestattet sein. Auf die Überschneidung eines Sektors und einer Frequenzzuweisung kann als ein CDMA-Kanal Bezug genommen werden. Die Basisstationen 12 können auch als Basisstationstransceiversubsysteme (BTSs) 12 bekannt sein. Alternativ kann die "Basisstation" in der Industrie benutzt werden, um sich kollektiv auf ein BSC 14 und ein oder mehrere BTSs 12 zu beziehen. Die BTSs 12 können auch als "Zellstandorte" 12 bezeichnet werden. Alternativ können individuelle Sektoren eines gegebenen BTS 12 als Zellstandorte bezeichnet werden. Die Mobilteilnehmereinheiten 10 sind typischerweise Zellulare oder PCS-Telefone 10. Das System ist auf vorteilhafte Art und Weise konfiguriert für die Verwendung gemäß dem IS-95-Standard.
Während dem typischen Betrieb eines Zellulartelefonsystems empfangen die Basisstationen 12 Sätze von Rückwärts-Verbindungssignalen von den Sätzen der Mobileinheiten 10. Die Mobileinheiten 10 führen Telefonanrufe oder andere Kommunikationen durch. Jedes Rückwärtsverbindungssignal, das von einer gegebenen Basisstation 12 empfangen wird, wird in dieser Basisstation 12 verarbeitet. Die resultierenden Daten werden zur BSC 14 weitergeleitet. Die BSC 14 sehen Anrufresourcezuordnung und Mobilitätsmanagementfunktionalität vor, einschließlich der Instrumentation bzw. Orchestration von den Soft-Handoffs zwischen den Basisstationen 12. Die BSC 14 leitet auch die empfangenen Daten zur MSC 16, die zusätzliche Leitungsdienste zur Verbindung mit der PSTN 18 vorsieht. Auf ähnliche Weise verbindet sich die PSTN 18 mit der MSC 16 und die MSC 16 verbindet sich mit der BSC 14, die wiederum die Basisstationen 12 steuert, um die Sätze von Vorwärts-Verbindungssignalen zu den Sätzen von Mobileinheiten 10 zu senden.
In 2 empfängt ein erster Codierer 100 digitalisierte Sprach-Samples s(n) und codiert die Samples s(n) für die Sendung auf einem Übertragungsmedium 102, oder Kommunikationskanal 102, zu einem ersten Decodierer 104. Der Decodierer 104 decodiert die codierten Sprach-Samples und synthetisiert ein Ausgabesprachsignal s_SYNTH(n). Für die Sendung in der gegenüberliegenden Richtung codiert ein zweiter Codierer 106 die digitalisierten Sprach-Samples s(n), die auf einem Kommunikationskanal 108 gesendet werden. Ein zweiter Decodierer 110 empfängt und decodiert die codierten Sprach-Samples, wobei ein synthetisiertes Ausgabesprachsignal s_SYNTH(n) generiert bzw. erzeugt wird.
Die Sprach-Samples s(n) repräsentieren Sprachsignale, die digitalisiert und quantisiert wurden, und zwar gemäß mit verschiedenen Verfahren, die auf dem Fachgebiet bekannt sind, einschließlich, zum Beispiel, Puls-Kode-Modulationen (PCM), companded μ-law, oder A-law. Wie auf dem Fachgebiet bekannt ist, sind Sprach-Samples s(n) in Rahmen von Eingabedaten organisiert, wobei jeder Rahmen eine vorbestimmte Anzahl von digitalisierten Sprach-Samples s(n) aufweist. In einem exemplarischen Ausführungsbeispiel wird eine Abtastrate von 8kHz angewandt, wobei jeder 20 Millisenkunden-Rahmen 160 Samples aufweist. In den Ausführungsbeispielen, die unten beschrieben sind, kann die Datenübertragungsrate auf vorteilhafte Art und Weise variiert werden, und zwar auf eine Rahmen-zu-Rahmen-Basis von 13,2 kbps (volle Rate) bis 6,2 kbps (halbe Rate) zu 2,6 kbps (viertel Rate) bis 1 kbps (achtel Rate). Das Variieren der Datenübertragungsrate ist vorteilhaft, da niedrige Bitraten selektiv angewandt werden können, und zwar für Rahmen, die relativ wenig Sprachinformation beinhalten. Wie von den Fachleuten verstanden wird, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten benutzt werden.
Der erste Codierer 100 und der zweite Decodierer 110 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Der Sprachcodierer könnte in jedem Kommunikationsgerät zum Senden von Sprachsignalen verwendet werden, einschließlich, zum Beispiel, die Teilnehmereinheiten, BTSs oder BSCs, die oben mit Bezug auf 1 beschrieben wurden. Auf ähnliche Weise weist der zweite Codierer 106 und der erste Decodierer 104 zusammen einen zweiten Sprachcodierer auf. Es wird von den Fachmännern verstanden werden, dass Sprachcodierer in einem Digitalsignalprozessor (DSP), einer applikations-spezifischen, integrierten Schaltung (ASIC = application-specific integrated circuit), einer diskreten Gatterlogik, in einer Firmware oder in jedem konventionellen, programmierbaren Softwaremodul und einem Mikroprozessor implementiert werden kann. Das Softwaremodul könnte sich in einem RAM-Speicher, Flash-Speicher, in Registern oder jeglichen anderen Formen von beschreibbaren Speichermedien, die auf dem Fachgebiet bekannt sind, befinden. Als Alternative könnte jeder konventionelle Prozessor, Controller bzw. Steuereinrichtung oder Zustandsmaschine den Mikroprozessor ersetzen. Beispiele für ASICs, die speziell für die Sprachcodierung entwickelt wurden, sind beschrieben im U.S. Patent Nr. 5,727,123, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet, und U.S. Patent Nr. 5,784,532, dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet.
In 3 beinhaltet ein Codierer 200, der in einem Sprachcodierer verwendet werden kann, ein Modusentscheidungsmodul 202, ein Pitch-Schätzungsmodul 204, ein LP-Analysemodul 206, ein LP-Analysefilter 208, ein LP-Quantisierungsmodul 210 und Rest- bzw. Restwertquantisierungsmodul 212. Die Eingabesprachrahmen s(n) werden zum Modusentscheidungsmodul 202, zum Pitch-Schätzungsmodul 204, zum LP-Analysemodul 206 und zum LP-Analysefilter 208 geliefert. Das Modusentscheidungsmodul 202 produziert bzw. erzeugt einen Modusindex I_M und einen Modus M, basierend auf der Periodizität, Energie, das Signal-zu-Rausch-Verhältnis (SNR = signal-to-noise ratio), oder die Nulldurchgangsrate bzw. Zero Crossing Rate, neben anderen Merkmalen, und zwar eines jeden Eingabesprachrahmens s(n). Verschiedene Verfahren zur Klassifizierung von Sprachrahmen gemäß der Periodizität sind beschrieben im U.S. Patent Nr. 5,911,128, das dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet ist. Solche Verfahren sind auch in den Telecommunication Industry Association Industry Interim Standards TIA/EIA IS-127 und TIA/EIA IS-733 inkorporiert. Ein Beispiel für ein Modusentscheidungsschema ist auch in dem zuvor genannten U.S. Patent Nr. 6,691,084 beschrieben.
Das Pitch-Schätzungsmodul 204 erzeugt einen Pitch-Index I_P und einen Verzögerungswert bzw. Lag-Wert P₀ basierend auf jeden Eingabesprachrahmen s(n). Das LP-Analysemodul 206 führt Linearvorhersageanalyse von jedem Eingabesprachrahmen s(n) durch, um einen LP-Parameter a zu generieren. Der LP-Parameter a wird zum LP-Quantisierungsmodul 210 geliefert. Das LP-Quantisierungsmodul 210 empfängt auch den Modus M, um dadurch den Quantisierungsprozess in einer modusabhängigen Art und Weise durchzuführen. Das LP-Quantisierungsmodul 210 erzeugt einen LP-Index I_LP und einen quantisierten LP-Parameter â. Der LP-Analysefilter 208 empfängt den quantisierten LP-Parameter â zusätzlich zu dem Eingabesprachrahmen s(n). Der LP-Analysefilter 208 generiert ein LP-Rest- bzw. Restwertsignal R[n], das den Fehler zwischen dem Eingabesprachrahmen s(n) und der rekonstruierten Sprache repräsentiert, und zwar basierend auf die quantisierten Linearvorhersageparameter â. Der LP-Restwert R[n], der Modus M und der quantisierte LP-Parameter â werden zum Restwertquantisierungsmodul 212 geliefert. Basierend auf diesen Werten erzeugt das Restwertquantisierungsmodul 212 einen Restwertindex I_R und ein quantisiertes Restwertsignal R ^[n].
In 4 beinhaltet ein Decodierer 300, der in einem Sprachcodierer benutzt werden kann, ein LP-Parameterdecodierungsmodul 302, ein Restwertdecodierungsmodul 304, ein Modusdecodierungsmodul 306 und einen LP-Synthesefilter 308. Das Modusdecodierungsmodul 306 empfängt und decodiert einen Modusindex I_M, aus dem ein Modus M generiert wird. Das LP-Parameterdecodierungsmodul 302 empfängt den Modus M und einen LP-Index I_LP. Das LP-Parameterdecodierungsmodul 302 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter â zu erzeugen. Das Restwertdecodierungsmodul 304 empfängt einen Restwertindex I_R, einen Pitch-Index I_P und den Modusindex I_M. Das Restwertdecodierungsmodul 304 decodiert die empfangenen Werte, um ein quantisiertes Restwertsignal R ^[n] zu generieren. Das quantisierte Restwertsignal R ^[n] und der quantisierte LP-Parameter ä werden zum LP-Synthesefilter 308 geliefert, der daraus ein decodiertes Ausgabesprachsignal ŝ[n] synthetisiert.
Die Operation und die Implementation der verschiedenen Module des Codierers 200 der 3 und des Decodierers 300 der 4 sind auf dem Fachgebiet bekannt und beschrieben in dem zuvor genannten U.S. Patent Nr. 5,414,796 und L.B. Rabiner & R.W. Schafer, "Digital Processing of Speech Signals" 396–453 (1978).
Wie in dem Flussdiagramm der 5 gezeigt, folgt einem Sprachcodierer gemäß einem Ausführungsbeispiel ein Satz von Schritten zur Verarbeitung der Sprach-Samples für die Übertragung. Im Schritt 400 empfängt der Sprachcodierer digitale Samples eines Sprachsignals in sukzessiven Rahmen. Beim Empfangen eines gegebenen Rahmens fährt der Sprachcodierer fort im Schritt 402. Im Schritt 402 detektiert der Sprachcodierer die Energie des Rahmens. Die Energie ist eine Messung der Sprachaktivität des Rahmens. Sprachdetektion wird durch Summieren des Quadrate der Amplituden der digitalisierten Sprach-Samples und Vergleichen der resultierenden Energie gegenüber einem Schwellenwert durchgeführt. In einem Ausführungsbeispiel passt sich der Schwellenwert auf den sich ändernden Pegel des Hintergrundrauschens an. Ein Beispiel für einen Sprachaktivitätsdetektor mit variabler Schwelle ist in dem zuvor genannten U.S. Patent Nr. 5,414,796 beschrieben. Einige stimmlose Sprachklänge können extrem Niedrig-Energie-Samples sein, die fälschlicherweise als Hintergrundgeräusch codiert werden. Um zu verhindern, dass dies auftritt, kann die spektrale Neigung der Niedrig-Energie-Samples dazu benutzt werden, um die stimmlose Sprache vom Hintergrundrauschen zu unterscheiden, wie beschrieben im zuvor genannten U.S. Patent Nr. 5,414,796.
Nach dem Detektieren der Energie des Rahmens fährt der Sprachcodierer fort mit Schritt 404. Im Schritt 404 bestimmt der Sprachcodierer, ob die detektierte Rahmenenergie genügend groß ist, um den Rahmen als Rahmen, der Sprachinformation enthält, zu klassifizieren. Wenn die detektierte Rahmenenergie unter einen vorbestimmten Schwellenpegel fällt, fährt der Sprachcodierer fort mit Schritt 406. Im Schritt 406 codiert der Sprachcodierer den Rahmen als Hintergrundrauschen (d.h., keine Sprache, oder Stille). In einem Ausführungsbeispiel wird der Hintergrundrauschrahmen mit der Achtel Rate oder 1 kbps codiert. Wenn im Schritt 404 die detektierte Rahmenenergie den vordefinierten Schwellenpegel trifft oder überschreitet, wird der Rahmen als Sprache klassifiziert und der Sprachcodierer fährt fort im Schritt 408.
Im Schritt 408 bestimmt der Sprachcodierer, ob der Rahmen stimmlose Sprache ist, d.h., der Sprachcodierer untersucht die Periodizität des Rahmens. Verschiedene bekannte Verfahren für die Periodizitätsbestimmung beinhalten, zum Beispiel, Verwendung von Nulldurchgängen und die Verwendung von normalisierten Autokorrelationsfunktionen (NACFs = normalized autocorrolation functions). Die Verwendung von Nulldurchgängen und NACFs, um die Periodizität zu detektieren, ist im speziellen beschrieben in dem zuvor genannten U.S. Patent Nr. 5,911,128 und U.S. Patent Nr. 6,691,084. Zusätzlich sind die oben genannten Verfahren, die verwendet werden, um stimmhafte Sprache von stimmloser Sprache zu unterscheiden, inkorporiert bzw. eingebunden in den Telecommunication Industry Association Interim Standards TIA/EIA IS-127 und TIA/EIA IS-733. Wenn der Rahmen im Schritt 408 als stimmlose Sprache bestimmt wird, fährt der Sprachcodierer fort im Schritt 410. Im Schritt 410 codiert der Sprachcodierer den Rahmen als stimmlose Sprache. In einem Ausführungsbeispiel werden die stimmlosen Sprachrahmen bei der viertel Rate oder 2,6 kbps codiert. Wenn im Schritt 408 der Rahmen nicht als stimmlose Sprache bestimmt wird, fährt der Sprachcodierer fort im Schritt 412.
Im Schritt 412 bestimmt der Sprachcodierer, ob der Rahmen Übergangssprache ist, und zwar unter Verwendung von Periodizitätsdirektionsverfahren, die auf dem Fachgebiet bekannt sind, wie beschrieben in zum Beispiel, dem zuvor genannten U.S. Patent Nr. 5,911,128. Wenn der Rahmen als Übergangssprache bestimmt wurde, fährt der Sprachcodierer fort im Schritt 414. Im Schritt 414 wird der Rahmen als Übergangssprache codiert (d.h., Übergang von stimmloser Sprache zu stimmhafter Sprache). In einem Ausführungsbeispiel wird der Übergangssprachrahmen gemäß einem interpolativen Mehrfachpulscodierungsverfahren beschrieben im U.S. Patent Nr. 6,260,017, mit dem Titel "MULTIPULSE INTERPOLATIVE CODING OF TRANSITION SPEECH FRAMES", dem Rechtsnachfolger der vorliegenden Erfindung zugeordnet. In einem anderen Ausführungsbeispiel wird der Übergangssprachrahmen bei der vollen Rate oder 13,2 kbps codiert.
Wenn im Schritt 412 der Sprachcodierer bestimmt, dass der Rahmen keine Übergangssprache enthält, fährt der Sprachcodierer fort im Schritt 416. Im Schritt 416 codiert der Sprachcodierer den Rahmen als stimmhafte Sprache. In einem Ausführungsbeispiel werden die stimmhaften Sprachrahmen bei der halben Rate oder 6,2 kbps codiert. Es ist auch möglich die stimmhaften Sprachrahmen bei der vollen Rate oder 13,2 kbps (oder volle Rate, 8 kbps, in einem 8k CELP-Codierer) zu codieren. Wie die Fachleute erkennen werden, erlaubt jedoch das Codieren stimmhafter Rahmen bei der halben Rate im Codierer wertvolle Bandbreite durch Ausnutzen der stationären Natur der stimmhaften Rahmen zu sparen. Ferner wird die stimmhafte Sprache, ungeachtet der Rate, die benutzt wurde, um die stimmhafte Sprache zu codieren, auf vorteilhafte Art und Weise unter Verwendung der Information von vergangenen Rahmen codiert, und ist deswegen benannt als Vorhersagecodierung.
Wie die Fachleute erkennen werden, kann entweder das Sprachsignal oder der entsprechende LP-Restwert durch folgende Schritte, die in 5 gezeigt sind, codiert werden. Die Wellenformcharakteristiken von Rauschen, stimmlosen, Übergangs- und stimmhafter Sprache kann als Funktion der Zeit in dem Graphen von 6A gesehen werden. Die Wellenformcharakteristiken von Rauschen, stimmlosen, Übergangs- und stimmhaften LP-Restwert kann gesehen werden als eine Funktion der Zeit, und zwar im Graphen der 6B.
In einem Ausführungsbeispiel beinhaltet ein Prototyp-Pitch-Periodensprachcodierer (PPP) 500 einen inversen Filter 502, einen Prototypextrahierer 504, einen Prototypquantisierer 506, einen Prototypdequantisierer 508, ein Interpolations-/Synthesemodul 510 und ein LPC-Synthesemodul 512, wie gezeigt in 7. Der Sprachcodierer 500 kann auf vorteilhafte Art und Weise als Teil eines DSP's implementiert werden, und sich in zum Beispiel, einer Teilnehmereinheit oder Basisstation in einem PCS oder Zellulartelefonsystem, oder in einer Teilnehmereinheit oder einem Gateway in einem Satellitensystem befinden.
In dem Sprachcodierer 500 wird ein digitalisiertes Sprachsignal s(n), wobei n die Rahmennummer ist, zum inversen LP-Filter 502 geliefert. In einem bestimmten Ausführungsbeispiel ist die Rahmenlänge 20ms. Die Transferfunktion des inversen Filters A(z) wird gemäß der folgenden Gleichung berechnet: A(z) = 1 – a1z–1 – a2z–2 – ... –aPz–P, wobei die Koeffizienten a_i Filter-Taps sind, mit vordefinierten Werten, die gemäß bekannter Verfahren ausgewählt werden, wie beschrieben in dem zuvor genannten U.S. Patent Nr. 5,414,796 und U.S. Patent Nr. 6,456,964. Die Nummer p zeigt die Anzahl der vorangegangenen Samples, die der inverse LP-Filter 502 für Vorhersagungszwecke benutzt, an. In einem bestimmten Ausführungsbeispiel ist p auf zehn gesetzt.
Der inverse Filter 502 liefert ein LP-Restwertsignal r(n) zum Prototypextrahierer 504. Der Prototypextrahierer 504 extrahiert einen Prototyp aus dem aktuellen Rahmen. Der Prototyp ist ein Teil des aktuellen Rahmens, der auf lineare Weise interpoliert wird, und zwar durch Interpolations/Synthesemodul 510 mit Prototypen aus den vorangegangenen Rahmen, die auf ähnliche Weise im Rahmen positioniert wurden, um das LP-Restwertsignal beim Decodierer zu rekonstruieren.
Der Prototypextrahierer 504 liefert den Prototyp zum Prototypquantisierer 506, der den Prototyp gemäß einer Technik, die weiter unten mit Bezug auf 8 beschrieben ist, quantisiert. Die quantisierten Werte, die von einer Nachschlagetabelle (nicht gezeigt) erhalten werden können, werden in ein Paket zusammengestellt, welches die Verzögerung und andere Kodebuchparameter enthält, und zwar für die Übertragung über den Kanal. Das Paket wird zu einem Sender (nicht gezeigt) geliefert und über den Kanal zu einem Empfänger (auch nicht gezeigt) gesendet. Der inverse LP-Filter 502, der Prototypextrahierer 504 und der Prototypquantisierer 506 haben somit eine PPP-Analyse auf dem derzeitigen Rahmen durchgeführt.
Der Empfänger empfängt das Paket und liefert das Paket zum Prototypdequantisierer 508. Der Prototypdequantisierer 508 dequantisiert das Paket gemäß einer Technik, wie unten beschrieben mit Bezug auf 9. Der Prototypdequantisierer 508 liefert den dequantisierten Prototyp zum Interpolations-/Synthesemodul 510. Das Interpolations-/Synthesemodul 510 interpoliert den Prototyp mit Prototypen vorhergehender Rahmen, die ähnlich im Rahmen positioniert wurden, um das LP-Restwertsignal für den aktuellen Rahmen zu rekonstruieren. Die Interpolation und die Rahmensynthese wird auf vorteilhafte Weise vollzogen, gemäß bekannter Verfahren beschrieben im U.S. Patent Nr. 5,884,253 und in dem zuvor genannten U.S. Patent Nr. 6,456,964.
Das Interpolations-/Synthesemodul 510 liefert das rekonstruierte LP-Restwertsignal r ^(n) zum LPC-Synthesemodul 512. Das LPC-Synthesemodul 512 empfängt auch Linienspektralpaarwerte (LSP = line spectral pair) vom gesendeten Paket, die dazu benutzt werden, um LPC-Filtration am rekonstruierten LP-Restwertsignal r ^(n) durchzuführen, um das rekonstruierte Sprachsignal ŝ(n) für den aktuellen Rahmen zu schaffen. In einem alternativen Ausführungsbeispiel kann die LPC-Synthese des Sprachsignals ŝ(n) für den Prototyp vor der Durchführung der Interpolation/Synthese des aktuellen Rahmens durchgeführt werden. Der Prototypdequantisierer 508, das Interpolations-/Synthesemodul 510 und das LPC-Synthesemodul 512 haben somit eine PPP-Synthese des aktuellen Rahmens durchgeführt.
In einem Ausführungsbeispiel führt ein Prototypquantisierer 600 die Quantisierung der Prototypphasen unter Verwendung einer intelligenten Unterabtastung für die effiziente Übertragung, wie gezeigt in 8, durch. Der Prototypquantisierer 600 beinhaltet erste und zweite diskrete Fourier-Serienkoeffizienten (DFS) Berechnungsmodule 602, 604, erste und zweite Zerlegungsmodule 606, 608, ein Bandidentifikationsmodul 610, ein Amplitudenvektorquantisierer 612, ein Korrelationsmodul 614 und einen Quantisierer 616.
In dem Prototypquantisierer 600 wird ein Referenzprototyp zum ersten DFS-Koeffizientenberechnungsmodul 602 geliefert. Das erste DFS-Koeffizientenberechnungsmodul 602 berechnet die DFS-Koeffizienten für den Referenzprototyp, wie weiter unten beschrieben, und liefert die DFS-Koeffizienten für den Referenzprototyp zum ersten Zerlegungsmodul 606. Das erste Zerlegungsmodul 606 zerlegt die DFS-Koeffizienten für den Referenzprototyp in Amplitude und Phasenvektoren, wie weiter unten beschrieben. Das erste Zerlegungsmodul 606 liefert die Amplitude und die Phasenvektoren zum Korrelationsmodul 614.
Der aktuelle Prototyp wird zum zweiten DFS-Koeffizientenberechnungsmodul 604 geliefert. Das zweite DFS-Koeffizientenberechnungsmodul 604 berechnet die DFS-Koeffizienten für den aktuellen Prototyp, wie weiter unten beschrieben, und liefert die DFS-Koeffizienten für den aktuellen Prototyp zum zweiten Zerlegungsmodul 608. Das zweite Zerlegungsmodul 608 zerlegt die DFS-Koeffizienten für den aktuellen Prototyp in Amplitude- und Phasenvektoren, wie weiter unten beschrieben. Das zweite Zerlegungsmodul 608 liefert die Amplitude und Phasenvektoren zum Korrelationsmodul 614.
Das zweite Zerlegungsmodul 608 liefert auch die Amplitude und Phasenvektoren für den aktuellen Prototyp zum Bandidentifikationsmodul 610. Das Bandidentifikationsmodul 610 identifiziert die Frequenzbänder für die Korrelation, wie weiter unten beschrieben, und liefert die Bandidentifikationsindizes zum Korrelationsmodul 614.
Das zweite Zerlegungsmodul 608 liefert auch den Amplitudenvektor für den aktuellen Prototyp zum Amplitudenvektorquantisierer 612. Der Amplitudenvektorquantisierer 612 quantisiert den Amplitudenvektor für den aktuellen Prototyp, wie weiter unten beschrieben und generiert die Amplitudenquantisierungsparameter für die Übertragung. In einem bestimmten Ausführungsbeispiel liefert der Amplitudenvektorquantisierer 612 die quantisierten Amplitudenwerte zum Bandidentifikationsmodul 610 (diese Verbindung ist nicht gezeigt in der Zeichnung zum Zwecke der Klarheit) und/oder zum Korrelationsmodul 614.
Das Korrelationsmodul 614 korreliert in allen Frequenzbändern, um die optimale lineare Phasenverschiebung für alle Bänder, weiter unten beschrieben, zu bestimmen. In einem alternativen Ausführungsbeispiel wird die Kreuzkorrelation in der Zeitdomäne an dem Bandpasssignal durchgeführt, um die optimale Kreisrotation für alle Bänder, auch wie unten beschrieben, zu bestimmen. Das Korrelationsmodul 614 liefert die Linearphasenverschiebungswerte zum Quantisierer 616. In einem alternativen Ausführungsbeispiel liefert das Korrelationsmodul 614 die Kreisrotationswerte zum Quantisierer 616. Der Quantisierer 616 quantisiert die empfangenen Werte, wie weiter unten beschrieben, um die Phasenquantisierungsparameter für die Übertragung zu generieren.
In einem Ausführungsbeispiel führt ein Prototypdequantisierer 700 die Rekonstruktion des Prototypphasenspektrums unter Verwendung der Linearverschiebungen auf einzelne Frequenzbänder eines DFS, wie gezeigt in 9, durch. Der Prototypdequantisierer 700 beinhaltet ein DFS-Koeffizientenberechnungsmodul 702, ein inverses DFS-Berechnungsmodul 704, ein Zerlegungsmodul 706, ein Kombinationsmodul 708, ein Bandidentifikationsmodul 710, einen Amplitudenvektordequantisierer 712, ein Zusammenfügungsmodul 714 und einen Phasendequantisierer 716.
In dem Prototypdequantisierer 700 wird ein Referenzprototyp zum DFS-Koeffizientenberechnungsmodul 702 geliefert. Das DFS-Koeffizientenberechnungsmodul 702 berechnet die DFS-Koeffizienten für den Referenzprototyp, wie weiter unten beschrieben, und liefert die DFS-Koeffizienten für den Referenzprototyp zum Zerlegungsmodul 706. Das Zerlegungsmodul 706 zerlegt die DFS-Koeffizienten für den Referenzprototyp in Amplitude- und Phasenvektoren, wie weiter unten beschrieben. Das Zerlegungsmodul 706 liefert die Referenzphasen (d.h., den Phasenvektor des Referenzprototyps) zum Zusammenfügungsmodul 714.
Die Phasenquantisierungsparameter werden vom Phasendequantisierer 716 empfangen. Der Phasendequantisierer 716 dequantisiert die empfangenen Phasenquantisierungsparameter, wie weiter unten beschrieben, um Linearphasenverschiebungswerte zu generieren. Der Phasendequantisierer 716 liefert die Linearphasenverschiebungswerte zum Mischungsmodul 714.
Die Amplitudenvektorquantisierungsparameter werden vom Amplitudenvektordequantisierer 712 empfangen. Der Amplitudenvektordequantisierer 712 dequantisiert die empfangenen Amplitudenquantisierungsparameter, wie weiter unten beschrieben, um dequantisierte Amplitudenwerte zu generieren. Der Amplitudenvektordequantisierer 712 liefert die dequantisierten Amplitudenwerte zum Kombinationsmodul 708. Der Amplitudenvektordequantisierer 712 liefert auch die dequantisierten Amplitudenwerte zum Bandidentifikationsmodul 710. Das Bandidentifikationsmodul 710 identifiziert die Frequenzbänder für die Kombination, wie unten beschrieben, und liefert die Bandidentifikationsindizes zu dem Mischungsmodul 714.
Das Mischungsmodul 714 setzt einen modifizierten Phasenvektor aus den Referenzphasen und den Linearphasenverschiebungswerten zusammen, wie unten beschrieben. Das Zusammenfügungsmodul 714 liefert die modifizierten Phasenvektorenwerte zum Kombinationsmodul 708.
Das Kombinationsmodul 708 kombiniert die dequantisierten Amplitudenwerte und die Phasenwerte, wie weiter unten beschrieben, um einen rekonstruierten, modifizierten DFS-Koeffizientenvektor zu generieren. Das Kombinationsmodul 708 liefert die kombinierten Amplituden- und Phasenvektoren zu dem inversen DFS-Berechnungsmodul 704. Das inverse DFS-Berechnungsmodul 704 berechnet die inverse DFS des rekonstruierten, modifizierten DFS-Koeffizientenvektors, wie unten beschrieben, um den rekonstruierten, aktuellen Prototyp zu generieren.
In einem Ausführungsbeispiel führt ein Prototypdequantisierer 800 die Rekonstruktion des Prototypphasenspektrums unter Verwendung der Kreisrotationen durch, die in der Zeitdomäne auf die einzelnen Bandpasswellenformen der Prototypwellenform beim Codierer, wie gezeigt in 10, durchgeführt wurde. Der Prototypdequantisierer 800 beinhaltet ein DFS-Koeffizientenberechnungsmodul 802, einen Bandpasswellenformsummierer 804, ein Zerlegungsmodul 806, einen inversen DFS, ein Bandpasssignalerstellungsmodul 808, ein Bandidentifikationsmodul 810, einen Amplitudenvektordequantisierer 812, ein Zusammenfügungsmodul 814, und einen Phasendequantisierer 816.
In dem Prototypdequantisierer 800 wird ein Referenzprototyp zum DFS-Koeffizientenberechnungsmodul 802 geliefert. Das DFS-Koeffizientenberechnungsmodul 802 berechnet die DFS-Koeffizienten für den Referenzprototyp, wie weiter unten beschrieben, und liefert die DFS-Koeffizienten für den Referenzprototyp zum Zerlegungsmodul 806. Das Zerlegungsmodul 806 zerlegt die DFS-Koeffizienten für den Referenzprototyp in Amplituden- und Phasenvektoren, wie weiter unten beschrieben. Das Zerlegungsmodul 806 liefert die Referenzphasen (d.h., den Phasenvektor des Referenzprototyps) zum Zusammenfügungsmodul 814.
Die Phasenquantisierungsparameter werden vom Phasendequantisierer 816 empfangen. Der Phasendequantisierer 816 dequantisiert die empfangenen Phasenquantisierungsparameter, wie unten beschrieben, um die Kreisrotationswerte zu generieren. Der Phasendequantisierer 816 liefert die Kreisrotationswerte zum Zusammenfügungsmodul 814.
Die Amplitudenvektorquantisierungsparameter werden vom Amplitudenvektordequantisierer 812 empfangen. Der Amplitudenvektordequantisierer dequantisiert die empfangenen Amplitudenquantisierungsparameter, wie unten beschrieben, um die dequantisierten Amplitudenwerte zu generieren. Der Amplitudendequantisierer 812 liefert die dequantisierten Amplitudenwerte zum inversen DFS-Bandpasssignalerstellungsmodul 808. Der Amplitudenvektordequantisierer 812 liefert die dequantisierten Amplitudenwerte auch zum Bandidentifikationsmodul 810. Das Bandidentifikationsmodul 810 identifiziert die Frequenzbänder für die Kombination, wie unten beschrieben, und liefert die Bandidentifikationsindizes zur inversen DFS/Bandpasssignalerstellung 808.
Das inverse DFS/Bandpasssignalerstellungsmodul 808 kombiniert die dequantisierten Amplitudenwerte und den Referenzphasenwert für jedes der Bänder, und berechnet ein Bandpasssignal aus der Kombination, unter Verwendung der inversen DFS für jedes der Bänder, wie unten beschrieben. Das inverse DFS/Bandpasssignalerstellungsmodul 808 liefert die Bandpasssignale zum Zusammenfügungsmodul 814.
Das Zusammenfügungsmodul 814 rotiert jedes der Bandpasssignale kreisartig unter Verwendung der dequantisierten Kreisrotationswerte, wie unten beschrieben, um die modifizierten, rotierten Bandpasssignale zu generieren. Das Zusammenfügungsmodul 814 liefert die modifizierten, rotierten Bandpasssignale zum Bandpasswellenformsummierer 804. Der Bandpasswellenformsummierer 804 addiert alle Bandpasssignale, um den rekonstruierten Prototyp zu generieren.
Der Prototypquantisierer 600 von 8 und der Prototypdequantisierer 700 von 9 dienen im normalen Betrieb entsprechend dem Codieren und Decodieren des Phasenspektrums der PrototypPitchperiodenwellenformen. Beim Sender/Codierer (8) wird das Phasenspektrum ϕ c / k des Prototyps s_c(n) des aktuellen Rahmens unter Verwendung der DFS-Darstellung
wobei C c / k die komplexen DFS-Koeffizienten des aktuellen Prototyps sind und ω c / o die normalisierte Fundamentalfrequenz von s_c(n) ist. Das Phasenspektrum ϕ c / k ist der Winkel der komplexen Koeffizienten, die die DFS ausmacht. Das Phasenspektrum ϕ r / k des Referenzprototyps wird auf ähnliche Weise berechnet, um C r / k und ϕ r / k vorzusehen. Als Alternative wird das Phasenspektrum ϕ r / k des Referenzprototyps nach dem Rahmen gespeichert, und zwar mit dem Referenzprototyp verarbeitet und einfach aus dem Speicher geholt. In einem bestimmten Ausführungsbeispiel ist der Referenzprototyp ein Prototyp aus dem vorhergegangenen Rahmen. Die komplexe DFS für beide Prototypen von beiden, dem Referenzrahmen und dem aktuellen Rahmen, kann als Produkt der Amplitudenspektren und der Phasenspektren repräsentiert werden, wie gezeigt in der folgenden Gleichung:
Es sei angemerkt, dass beide, die Amplitudenspektren und die Phasenspektren, Vektoren sind, weil die komplexe DFS auch ein Vektor ist. Jedes Element des DFS-Vektors ist eine Harmonische der Frequenz gleichzusetzen mit dem Reziproken der Zeitdauer des entsprechenden Prototyps. Für ein Signal der maximalen Frequenz Fm Hz (abgetastet bei einer Rate von mindestens zwei Fm Hz) und eine harmonische Frequenz von Fo Hz, gibt es M Harmonische. Die Anzahl der Harmonischen M ist gleich Fm/Fo. Deswegen besteht der Phasenspektrenvektor und der Amplitudenspektrenvektor jedes Prototyps aus M-Elementen.
Der DFS-Vektor des aktuellen Prototyps ist eingeteilt in B Bänder und das Zeitsignal entsprechend jedes der B Bänder ist ein Bandpasssignal. Die Anzahl der Bänder B ist begrenzt auf weniger als die Anzahl der harmonischen M. Das Aufsummieren aller B Bandpasszeitsignale würde den originalen, aktuellen Prototyp ergeben. Auf ähnliche Art und Weise ist der DFS-Vektor des Referenzprototyps auch in die gleichen B Bänder eingeteilt.
Für jedes der B Bänder wird eine Kreuzkorrelation zwischen dem Bandpasssignal entsprechend dem Referenzprototyp und dem Bandpasssignal entsprechend dem aktuellen Prototyp durchgeführt. Die Kreuzkorrelation kann auf die Frequenz-Domänen DFS-Vektoren
durchgeführt werden, wobei
der Satz der harmonischen Zahlen in dem i-ten Band b_i ist, und θ_i eine mögliche Linearphasenverschiebung für das i-te Band b_i ist. Die Kreuzkorrelation kann ebenso auf die entsprechenden Zeitdomänenbandpasssignale (zum Beispiel mit dem Dequantisierer 800 der 10) gemäß der folgenden Gleichung durchgeführt werden:
wobei L die Länge in Samples des aktuellen Prototyps ist, wo und wo sind normalisierte Fundamentalfrequenzen des Referenzprototyps und des aktuellen Prototyps, entsprechend, und r_i ist die Kreisrotation in Samples. Die Bandpass-Zeit-Domänen-Signale s r / bi(n) und s c / bi(n) entsprechend dem Band b_i sind entsprechend durch die folgenden Ausdrücke gegeben:
In einem Ausführungsbeispiel wird der quantisierte Amplitudenvektor Â c / k benutzt, um C c / k, wie gezeigt in der folgenden Gleichung, zu erhalten:
Die Kreuzkorrelation wird über alle möglichen Linearphasenverschiebungen des Bandpass-DFS-Vektors des Referenzprototyps durchgeführt. Alternativ dazu kann die Kreuzkorrelation über ein Subset bzw. Untersatz von allen möglichen Linearphasenverschiebungen des Bandpass-DFS-Vektors des Referenzprototyps durchgeführt werden. In einem alternativen Ausführungsbeispiel wird ein Zeitdomänen-Ansatz angewandt, und die Kreuzkorrelation wird über alle möglichen Kreisrotationen des Bandpasszeitsignals des Referenzprototyps durchgeführt. In einem Ausführungsbeispiel wird die Kreuzkorrelation über ein Subset aller möglichen Kreisrotationen des Bandpasszeitsignal des Referenzprototpys durchgeführt. Der Kreuzkorrelationsprozess generiert B Linearphasenverschiebungen (oder B Kreisrotationen, in dem Ausführungsbeispiel, indem die Kreuzkorrelation in der Zeitdomäne auf das Bandpasszeitsignal durchgeführt wird), die den Maximalwerten der Kreuzkorrelation für jedes B Bänder entspricht. Die B Linearphasenverschiebungen (oder, in einem alternativen Ausführungsbeispiel, die B Kreisrotationen) werden anschließend quantisiert und als Repräsentanten der Phasenspektren als Ersatz für die M originalen Phasenspektrenvektorelemente gesendet. Der Amplitudenspektrenvektor wird separat quantisiert und gesendet. Somit dienen die Bandpass-DFS-Vektoren (oder die Bandpasszeitsignale) des Referenzprototyps auf vorteilhafte Art und Weise als Kodebücher, um die entsprechenden DFS-Vektoren (oder die Bandpasssignale) des Prototyps des aktuellen Rahmens zu codieren. Dementsprechend werden weniger Elemente gebraucht, um die Phaseninformation zu quantisieren und zu senden, dabei wird eine resultierende Unterabtastung der Phaseninformation herbeigeführt und bewirkt eine effizienteren Übertragung. Dies ist im speziellen dienlich bei Niedrigbitratensprachcodierung, wo aufgrund von Fehlen von genügend Bits entweder die Phaseninformation sehr schlecht aufgrund der großen Menge von Phasenelementen quantisiert wird oder die Phaseninformation gar nicht gesendet wird, was beides in niedriger Qualität resultiert. Die Ausführungsbeispiele, die weiter oben beschrieben wurden, erlauben es Niedrigbitratencodierern, gute Sprachqualität Aufrecht zu erhalten, weil es weniger Elemente gibt, die zu quantisieren sind.
Beim Empfänger/Decodierer (9) (und auch bei der Kopie des Codierers des Decodierers, wie von dem Fachmann verstanden werden wird) werden die B Linearphasenverschiebungswerte auf die Kopie des Decodierers des DFS-B-Band eingeteilten Vektors des Referenzprototpys angewandt, um einen modifizierten Prototyp-DFS-Phasenvektor zu generieren:
Der modifizierte DFS-Vektor wird dann als Produkt des empfangenen und decodierten Amplitudenspektrenvektors und des modifizierten Prototyp-DFS-Phasenvektors erhalten. Der rekonstruierte Prototyp wird dann unter Verwendung einer Invers-DFS-Operation auf dem modifizierten DFS-Vektor konstruiert. In einem alternativen Ausführungsbeispiel, indem ein Zeitdomänenansatz eingesetzt wird, werden der Amplitudenspektrenvektor jedes der B Bänder und der Phasenvektor des Referenzprototyps für die B Bänder kombiniert, und eine inverse DFS-Operation wird auf die Kombination durchgeführt, um B Bandpasszeitsignale zu generieren. Die B Bandpasszeitsignale werden dann kreisförmig rotiert, unter Verwendung der B Kreisrotationswerte. Alle B Bandpasszeitsignale werden addiert, um den rekonstruierten Prototyp zu generieren.
Somit ist ein neues Verfahren und Vorrichtung für die Unterabtastung der Phasenspektrumsinformation beschrieben worden. Der Fachmann wird verstehen, dass die verschiedenen gezeigten logischen Blöcke und Algorithmusschritte, beschrieben in Verbindung mit den Ausführungsbeispielen, die hierin offenbart wurden, können implementiert werden oder mit einem Digitalsignalprozessor (DSP), einer applikationsspezifischen integrierten Schaltung (ASIC), einem diskreten Gatter oder Transistor Logic, diskrete Hardwarekomponenten wie zum Beispiel, zum Beispiel Register und FIFO, einen Prozessor, der einen Satz von Firmware-Instruktionen ausführt, oder jedes konventionelle, programmierbare Softwaremodul und ein Prozessor durchgeführt werden. Der Prozessor kann auf vorteilhafte Art und Weise ein Mikroprozessor sein, aber in der Alternative, kann der Prozessor jeder konventionelle Prozessor, Controller bzw. Steuervorrichtung, Mikrocontroller oder Zustandsmaschine sein. Das Softwaremodul könnte sich im RAM-Speicher, Flash-Speicher, Registern oder jede andere Form der schreibbaren Speichermedien, die auf dem Fachgebiet bekannt sind, befinden. Der Fachmann wird ferner erkennen, dass die Daten, Instruktionen, Befehle, Information, Signale, Bits, Symbole und Chips, auf die sich durch die ganze obige Beschreibung bezogen wurde auf vorteilhafte Art und Weise repräsentiert werden durch Spannungen, Ströme, elektromagnetische Wellen, magnetische Felder oder Partikel, optische Felder oder Partikel oder eine Kombination daraus.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es wird für den Fachmann ersichtlich sein, dass jedoch zahlreiche Abänderungen der Ausführungsbeispiele, die hierin offenbart sind, ohne den Rahmen der Erfindung zu verlassen, gemacht werden können. Deswegen ist die vorliegende Erfindung nicht begrenzt, außer gemäß den folgenden Ansprüchen.

Claims

Verfahren zum Verarbeiten eines Prototyps eines Rahmens bzw. Frames in einem Sprachcodierer, wobei das Verfahren die folgenden Schritte aufweist: Erzeugen (602, 606) einer Vielzahl von Phasenparametern eines Referenzprototyps; und Erzeugen (604, 608) einer Vielzahl von Phasenparametern des Prototyps, gekennzeichnet durch: Korrelieren (614) der Phasenparameter des Prototyps mit den Phasenparametern des Referenzprototyps in jedem einer Vielzahl von Frequenzbändern.
Verfahren nach Anspruch 1, wobei das Erzeugen (602, 606) das Berechnen (602) von diskreten Fourier-Serienkoeffizienten für den Referenzprototyp und das Zerlegen (606) der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den Referenzprototyp aufweist; und wobei das Erzeugen (604, 608) das Berechnen (604) von diskreten Fourier-Serienkoeffizienten für den Prototyp und das Zerlegen (608) der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den Prototyp aufweist.
Verfahren nach Anspruch 1, das ferner das Identifizieren (610) der Frequenzbänder aufweist, in denen das Korrelieren (614) durchgeführt wird.
Verfahren nach Anspruch 1, wobei das Korrelieren (614) eine Vielzahl von optimalen Linearphasenverschiebungswerten für den Prototyp erzeugt.
Verfahren nach Anspruch 1, wobei das Korrelieren (614) eine Vielzahl von optimalen Kreisrotationswerten für den Prototyp erzeugt.
Verfahren nach Anspruch 4, das ferner das Quantisieren (616) der Linearphasenverschiebungswerte und das Quantisieren (612) einer Vielzahl von Amplitudenparametern für den Prototyp aufweist.
Verfahren nach Anspruch 5, das ferner das Quantisieren (616) der Kreisrotationswerte und das Quantisieren (612) einer Vielzahl von Amplitudenparametern für den Prototyp aufweist.
Verfahren zum Verarbeiten bzw. Prozessieren eines Prototyps eines Rahmens bzw. eines Frames in einem Sprachcodierer, wobei das Verfahren Folgendes aufweist: Erzeugen (702, 706) einer Vielzahl von Phasenparametern eines Referenzprototyps; und Erzeugen (716) einer Vielzahl von Linearphasenverschiebungswerten, die mit dem Prototyp assoziiert sind, gekennzeichnet durch: Zusammensetzen (714) eines Phasenvektors aus den Phasenparametern und den Linearphasenverschiebungswerten über jedes einer Vielzahl von Frequenzbändern.
Verfahren nach Anspruch 8, wobei das Erzeugen (702, 706) das Berechnen (702) diskreter Fourier-Serienkoeffizienten für den Referenzprototyp und das Zerlegen (706) der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den Referenzprototyp aufweist.
Verfahren nach Anspruch 8, das ferner das Identifizieren (710) der Frequenzbänder aufweist, in denen das Zusammensetzen (714) durchgeführt wird.
Verfahren nach Anspruch 8, wobei das Erzeugen (716) das Quantisieren einer Vielzahl von quantisierten Phasenparametern aufweist, die mit dem Prototyp assoziiert sind, zum Erzeugen der Vielzahl von Linearphasenverschiebungswerten.
Verfahren nach Anspruch 10, das ferner das Ent- bzw. Dequantisieren (712) einer Vielzahl von Amplituden-Quantisierungsparametern aufweist, die mit dem Prototyp assoziiert sind, zum Erzeugen einer Vielzahl von dequantisierten Amplitudenparametern, wobei das Identifizieren (710) das Identifizieren von Bändern aufweist, basierend auf der Vielzahl von dequantisierten Amplitudenparametern.
Verfahren nach Anspruch 8, das ferner Folgendes aufweist: Kombinieren (708) des zusammengesetzten Phasenvektors mit einer Vielzahl von Amplitudenparametern, die mit dem Prototyp assoziiert sind, zum Erzeugen eines kombinierten Vektors; und Berechnen (704) einer inversen diskreten Fourierserie des kombinierten Vektors zum Erzeugen einer rekonstruierten Version des Prototyps.
Verfahren zum Verarbeiten bzw. Prozessieren eines Prototyps eines Rahmens bzw. Frames in einem Sprachcodierer, wobei das Verfahren Folgendes aufweist: Erzeugen (816) einer Vielzahl von Kreisrotationswerten, die mit dem Prototyp assoziiert sind, gekennzeichnet durch: Erzeugen (802, 806, 808) einer Vielzahl von Bandpasswellenformen bzw. -signalformen in jedem einer Vielzahl von Frequenzbändern, wobei die Vielzahl von Bandpasswellenformen mit einer Vielzahl von Phasenparametern eines Referenzprototyps assoziiert ist; und Modifizieren (814) der Vielzahl von Bandpasswellenformen in jedem der Vielzahl von Frequenzbändern, basierend auf der Vielzahl von Kreisrotationswerten.
Verfahren nach Anspruch 14, das ferner das Identifizieren (810) der Frequenzbänder aufweist, in denen das Erzeugen durchgeführt wird.
Verfahren nach Anspruch 1, 8 oder 14, wobei der Rahmen ein Sprachrahmen ist.
Verfahren nach Anspruch 1, 8 oder 14, wobei der Rahmen ein Rahmen eines Linearvorhersagerestes bzw. -restwertes (linear prediction residue) ist.
Verfahren nach Anspruch 14, wobei das Erzeugen (816) das Dequantisieren (802, 806, 808) einer Vielzahl von quantisierten Phasenparametern aufweist, die mit dem Prototyp assoziiert sind, zum Erzeugen der Vielzahl von Kreisrotationswerten.
Verfahren nach Anspruch 15, das ferner das Dequantisieren (812) einer Vielzahl von Amplituden-Quantisierungsparametern aufweist, die mit dem Prototyp assoziiert sind, zum Erzeugen einer Vielzahl von dequantisierten Amplitudenparametern, wobei das Identifizieren (810) das Identifizieren von Bändern, basierend auf der Vielzahl von dequantisierten Amplitudenparametern aufweist.
Verfahren nach Anspruch 19, wobei das Erzeugen Folgendes aufweist: Berechnen (802) diskreter Fourier-Serienkoeffizienten für den Referenzprototyp; Zerlegen (806) der diskreten Fourier-Serienkoeffizienten in einen Amplitudenvektor und einen Phasenvektor für den Referenzprototyp; Kombinieren des Phasenvektors mit der Vielzahl von dequantisierten Amplitudenparametern; und Berechnen (808) der inversen diskreten Fourier-Serie des Phasenvektors, zum Erzeugen der Vielzahl von Bandpasswellenformen.
Verfahren nach Anspruch 14, das ferner das Summieren (804) der Vielzahl von modifizierten Bandpasswellenformen aufweist, zum Erzeugen einer rekonstruierten Version des Prototyps.
Sprachcodierer, der Folgendes aufweist: Mittel (602, 606) zum Erzeugen einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmens bzw. eines Frames; und Mittel (604, 608) zum Erzeugen einer Vielzahl von Phasenparametern eines aktuellen Prototyps eines aktuellen Rahmens, gekennzeichnet durch: Mittel (614) zum Korrelieren der Phasenparameter des aktuellen Prototyps mit den Phasenparametern des Referenzprototyps in jedem einer Vielzahl von Frequenzbändern.
Sprachcodierer nach Anspruch 22, wobei: die Mittel (602, 606) zum Erzeugen Mittel (602) aufweisen, zum Berechnen diskreter Fourier-Serienkoeffizienten für den Referenzprototyp und Mittel (606) zum Zerlegen der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den Referenzprototyp; und die Mittel (604, 608) zum Erzeugen Mittel (604) aufweisen, zum Berechnen diskreter Fourier-Serienkoeffizienten für den aktuellen Prototyp und Mittel (608) zum Zerlegen der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den aktuellen Prototyp.
Sprachcodierer nach Anspruch 22, der ferner Mittel (610) aufweist zum Identifizieren der Vielzahl von Frequenzbändern.
Sprachcodierer nach Anspruch 22, wobei die Mittel (614) zum Korrelieren eine Vielzahl von optimalen, Linearphasenverschiebungswerten für den aktuellen Prototyp erzeugen.
Sprachcodierer nach Anspruch 22, wobei die Mittel (614) zum Korrelieren eine Vielzahl von optimalen Kreisrotationswerten für den aktuellen Prototyp erzeugen.
Sprachcodierer nach Anspruch 25, der ferner Mittel (616) aufweist, zum Quantisieren der Linearphasenverschiebungswerte, und Mittel (612) zum Quantisieren einer Vielzahl von Amplitudenparametern des aktuellen Prototyps.
Sprachcodierer nach Anspruch 26, der ferner Mittel (616) aufweist, zum Quantisieren der Kreisrotationswerte und Mittel (612) zum Quantisieren einer Vielzahl von Amplitudenparametern für den aktuellen Prototyp.
Sprachcodierer der Folgendes aufweist: Mittel (702, 706) zum Erzeugen einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmens bzw. eines Frames; und Mittel (716) zum Erzeugen einer Vielzahl von Linearphasenverschiebungswerten, die mit einem aktuellen Prototyp eines aktuellen Rahmens assoziiert sind, gekennzeichnet durch: Mittel (714) zum Zusammensetzen eines Phasenvektors aus den Phasenparametern und den Linearphasenverschiebungswerten über jedes einer Vielzahl von Frequenzbändern.
Sprachcodierer nach Anspruch 29, wobei die Mittel (702, 706) zum Erzeugen Folgendes aufweisen: Mittel (702) zum Berechnen diskreter Fourier-Serienkoeffizienten für den Referenzprototyp; und Mittel (706) zum Zerlegen der diskreten Fourier-Serienkoeffizienten in Amplitudenvektoren und Phasenvektoren für den Referenzprototyp.
Sprachcodierer nach Anspruch 29, der ferner Mittel (710) zum Identifizieren der Vielzahl von Frequenzbändern aufweist.
Sprachcodierer nach Anspruch 29, wobei die Mittel (716) zum Erzeugen Mittel aufweisen zum Dequantisieren einer Vielzahl von quantisierten Phasenparametern, die mit dem aktuellen Prototyp assoziiert sind, zum Erzeugen der Vielzahl von Linearphasenverschiebungswerten.
Sprachcodierer nach Anspruch 31, der ferner Mittel (712) aufweist zum Dequantisieren einer Vielzahl von Amplituden-Quantisierungsparametern, die mit dem aktuellen Prototyp assoziiert sind, zum Erzeugen einer Vielzahl von dequantisierten Amplitudenparametern, wobei die Mittel (710) zum Identifizieren Mittel aufweisen zum Identifizieren der Vielzahl von Bändern, basierend auf der Vielzahl von dequantisierten Amplitudenparametern.
Sprachcodierer nach Anspruch 29, der ferner Folgendes aufweist: Mittel (708) zum Kombinieren des zusammengesetzten Phasenvektors mit einer Vielzahl von Amplitudenparametern, die mit dem aktuellen Prototyp assoziiert sind, zum Erzeugen eines kombinierten Vektors; und Mittel (704) zum Berechnen einer inversen diskreten Fourier-Serie des kombinierten Vektors, zum Erzeugen einer rekonstruierten Version des aktuellen Prototyps.
Sprachcodierer, der Folgendes aufweist: Mittel (816) zum Erzeugen einer Vielzahl von Kreisrotationswerten, die mit einem aktuellen Prototyp eines aktuellen Rahmens assoziiert sind, gekennzeichnet durch: Mittel (802, 806, 808) zum Erzeugen einer Vielzahl von Bandpasswellenformen in jedem einer Vielzahl von Frequenzbändern, wobei die Vielzahl von Bandpasswellenformen mit einer Vielzahl von Phasenparametern eines Referenzprototyps eines Rahmen assoziiert ist; und Mittel (814) zum Modifizieren der Vielzahl von Bandpasswellenformen in jedem der Vielzahl von Frequenzbändern, basierend auf der Vielzahl von Kreisrotationswerten.
Sprachcodierer nach Anspruch 35, der ferner Mittel (810) aufweist, zum Identifizieren der Vielzahl von Frequenzbändern.
Sprachcodierer nach Anspruch 22, 29 oder 35, wobei der aktuelle Rahmen ein Sprachrahmen ist.
Sprachcodierer nach Anspruch 22, 29 oder 35, wobei der aktuelle Rahmen ein Rahmen eines Linearvorhersagerestes bzw. -restwertes (linear prediction residue) ist.
Sprachcodierer nach Anspruch 35, wobei die Mittel (816) zum Erzeugen Mittel aufweisen zum Dequantisieren einer Vielzahl von quantisierten Phasenparametern, die mit dem aktuellen Prototyp assoziiert sind, zum Erzeugen der Vielzahl von Kreisrotationswerten.
Sprachcodierer nach Anspruch 36, der ferner Mittel (812) aufweist zum Dequantisieren einer Vielzahl von Amplituden-Quantisierungsparametern, die mit dem aktuellen Prototyp assoziiert sind, zum Erzeugen einer Vielzahl von dequantisierten Amplitudenparametern, wobei die Mittel zum Identifizieren (810) Mittel aufweisen zum Identifizieren von Bändern, basierend auf der Vielzahl von dequantisierten Amplitudenparametern.
Sprachcodierer nach Anspruch 40, wobei die Mittel (802, 806, 808) zum Erzeugen Folgendes aufweisen: Mittel (802) zum Berechnen diskreter Fourier-Serienkoeffizienten für den Referenzprototyp; Mittel (806) zum Zerlegen der diskreten Fourier-Serienkoeffizienten in einen Amplitudenvektor und einen Phasenvektor für den Referenzprototyp; Mittel zum Kombinieren des Phasenvektors mit der Vielzahl von dequantisierten Amplitudenparametern; und Mittel (808) zum Berechnen der inversen diskreten Fourier-Serie des Phasenvektors zum Erzeugen der Vielzahl von Bandpasswellenformen.
Sprachcodierer nach Anspruch 35, der ferner Mittel (804) aufweist zum Summieren der Vielzahl von modifizierten Bandpasswellenformen, zum Erzeugen einer rekonstruierten Version des aktuellen Prototyps.
Sprachcodierer nach Anspruch 22, 29 oder 35, wobei der Sprachcodierer in einer Teilnehmer- bzw. Subscribereinheit (10) eines drahtlosen Kommunikationssystems enthalten ist.