DE69534285T3 - Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate - Google Patents

Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate Download PDF

Info

Publication number
DE69534285T3
DE69534285T3 DE69534285T DE69534285T DE69534285T3 DE 69534285 T3 DE69534285 T3 DE 69534285T3 DE 69534285 T DE69534285 T DE 69534285T DE 69534285 T DE69534285 T DE 69534285T DE 69534285 T3 DE69534285 T3 DE 69534285T3
Authority
DE
Germany
Prior art keywords
rate
frames
signal
encoded
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69534285T
Other languages
English (en)
Other versions
DE69534285D1 (de
DE69534285T2 (de
Inventor
Andrew P. San Diego Dejaco
William R. San Diego Gardner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23106989&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69534285(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of DE69534285D1 publication Critical patent/DE69534285D1/de
Publication of DE69534285T2 publication Critical patent/DE69534285T2/de
Application granted granted Critical
Publication of DE69534285T3 publication Critical patent/DE69534285T3/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Description

  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf Vocoder. Insbesondere bezieht sich die vorliegende Erfindung auf ein neues und verbessertes Verfahren zum Hinzufügen von Hangover bzw. Überhang-Rahmen.
  • II. Beschreibung des Standes der Technik
  • Sprachkomprimierungssysteme mit variabler Rate benutzen üblicherweise eine Art von Ratenbestimmungsalgorithmus vor dem Beginn des Codierens. Der Ratenbestimmungsalgorithmus weist ein Codierungsschema mit höherer Bitrate Segmenten des Audiosignals zu, in denen Sprache vorliegt, und weist ein Codierschema mit niedrigerer Rate Pausensegmenten zu. Auf diese Art und Weise wird eine niedrigere durchschnittliche Bitrate erreicht, während die Sprachqualität der rekonstruierten Sprache hoch verbleibt. Um daher effizient betrieben zu werden, benötigt ein Sprachcodierer mit variabler Rate einen robusten Raten- bzw. Geschwindigkeitsbestimmungsalgorithmus, der Sprache von Pausen (silence) in einer Vielzahl von Hintergrundrauschumgebungen unterscheiden kann.
  • Ein solches Sprachkomprimierungssystem mit variabler Rate bzw. Vocoder mit variabler Rate ist in dem ebenfalls anhängigen U.S. Patent 5,414,796 , eingereicht am 11. Juli 1991, betitelt „Variable rate vocoder” und dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen, offenbart. In dieser bestimmten Implementierung eines Vocoders mit variabler Rate wird Eingabesprache mittels Code Excited Linear Predictive Coding-(CELP)-Techniken mit einer von mehreren Raten codiert, und zwar bestimmt durch den Pegel der Sprachaktivität (level of speech activity). Der Pegel der Sprachaktivtät wird aus der Energie in den Eingabe-Audio-Samples, die Hintergrundrauschen zusätzlich zu stimmhafter Sprache enthalten können, bestimmt. Damit der Vocoder eine hochqualitative Sprachcodierung bei verschiedenen Pegeln von Hintergrundrauschen vorsehen kann, wird eine adaptive Technik zur Schwel lenwerteinstellung benötigt, um die Auswirkungen des Hintergrundrauschens auf den Ratenentscheidungsalgorithmus zu kompensieren.
  • Vocoder werden typischerweise in Kommunikationsvorrichtungen, wie z. B. zellularen Telefonen oder Personenkommunikationsvorrichtungen (personal communication devices) eingesetzt, um digitale Signalkomprimierung eines Analog-Audiosignals, das für die Übertragung in digitale Form konvertiert wird, vorzusehen. In einer Mobilfunkumgebung, in der ein zellulares Telefon oder eine Personenkommunikationsvorrichtung eingesetzt werden kann, gestalten es hohe Pegel von Hintergrundrauschenergie für den Ratenbestimmungsalgorithmus schwierig, unstimmhafte Töne mit niedriger Energie von Pausenhintergrundrauschen mittels eines auf Signalenergie basierenden Ratenbestimmungsalgorithmus zu unterscheiden. Die unstimmhaften Töne werden häufig mit niedrigeren Bitraten codiert, und die Sprachqualität verschlechtert sich, da Konsonanten, wie z. B. „s”, „x”, „ch”, „sh”, „t”, etc. in der rekonstruierten Sprache verloren gehen.
  • Vocoder, die Ratenentscheidungen nur auf der Energie des Hintergrundrauschens basieren, berücksichtigen nicht die Signalstärke relativ zu dem Hintergrundrauschen beim Setzen von Schwellenwerten. Ein Vocoder, der seine Schwellenwertpegel nur auf Hintergrundrauschen basiert, tendiert dazu, die Schwellenwertpegel zusammenzukomprimieren, wenn das Hintergrundrauschen ansteigt. Verbliebe der Signalpegel festgelegt, wäre dies der korrekte Ansatz, die Schwellenwertpegel einzustellen. Wenn der Signalpegel jedoch mit dem Hintergrundrauschpegel ansteigt, dann ist die Kompression bzw. Komprimierung der Schwellenwertpegel nicht eine optimale Lösung. Ein alternatives Verfahren zum Einstellen der Schwellenwertpegel, das die Signalstärke berücksichtigt, wird für Vocoder mit variabler Rate benötigt.
  • Ein Schlussproblem, das noch verbleibt, ergibt sich während des Abspielens von Musik bei Vocodern, deren Ratenentscheidung auf der Hintergrundrauschenergie basiert. Wenn Personen sprechen, müssen sie zwischendurch anhalten, um zu atmen, was es den Schwellenwertpegeln ermöglicht, auf den richtigen Hintergrundrauschpegel zurückgesetzt zu werden. Bei der Übertragung von Musik durch einen Vocoder, wie es z. B. bei Musikwarteschleifen-Zuständen auftritt, treten keine Pausen auf, und die Schwellenwertpegel werden kontinuierlich ansteigen bis damit begonnen wird, die Musik mit einer Rate, die geringer ist als die Vollrate zu kodieren. In einem solchen Zustand hat der Codierer mit variabler Rate Musik mit Hintergrundrauschen verwechselt.
  • Weiterhin wird auch auf das Dokument betitelt ”Voice Activity Detection For Cellular Networks” von K. Srinivasan und A. Gersho, Proceedings: IEEE Workshop an Speech Coding for Telecommunications, 13–15. Oktober 1993, Seiten 85–86, XP002204645, University of California aufmerksam gemacht. Das Dokument diskutiert Algorithmen zur Sprachaktivitätsdetektierung wenn Fahrzeugrauschen und sprachähnliches Rauschen vorhanden ist. Insbesondere offenbart das Dokument einen Sprachaktivitätsdetektierungsalgorithmus, in dem eine adaptive Hangover- bzw. Überhangperiode, die zwischen 40 ms und 180 ms variiert, eingeführt wird. Die tatsächliche Überhangperiode basiert auf dem Verhältnis r der Rauschunterdrückungsfilterausgangsleistung zu der entsprechenden adaptiven Schwelle.
  • Weiterhin wird auf das Dokument Paksoy E et al: ”Variable rate speech coding for multiple access wireless networks”, Electrotechnical Conference, 1994, Proceedings, 7th Mediterranean Antalya, Turkei 12.–14. April 1994, New York, NY, USA, IEEE, 12, April 1994, Seiten 47–50, XP10130866 ISBN: 0-7803-1772-6 aufmerksam gemacht, das Sprachkodierung mit variabler Rate für Mehrfachzugriffsdrahtlosnetzwerke diskutiert und das insbesondere eine Sprachaktivitätsdetektierung mit einer Adaption der Überhangperiode auf die detektierten Signalpegel hin erwähnt.
  • Weiterhin wird verwiesen auf die WO-A1-93/13516 , die eine Berechnung einer CAD Überhangzeit und der Verwendung eines SNR und auf die Recommendation GSM 06,32, ”VOICE ACTIVITY DETECTION”; Februar 1992, die ein VAD Überhang-Hinzufügen zu Sprach-Bursts, die eine Gewisse Länge überschreiten, offenbart.
  • Zusammenfassung der Erfindung
  • Gemäß der vorliegenden Erfindung wird ein Verfahren und eine Vorrichtung zum Hinzufügen von Überhangrahmen zu einer Vielzahl von Rahmen, die von einem Sprachdekodierer bzw. Vocoder kodiert werden, gemäß Ansprüchen 1 und 3 vorgesehen.
  • Die vorliegende Beschreibung beschreibt ein neues und verbessertes Verfahren und eine Vorrichtung zum Bestimmen einer Kodierrate in einem Vocoder mit variablar Rate. Es ist ein erstes Ziel ein Verfahren vorzusehen, bei dem die Wahrscheinlichkeit des Kodierens von unstimmhafter Sprache mit niedriger Energie als Hintergrundrauschen reduziert wird. Das Eingangssignal wird in eine Hochfrequenzkomponente und eine Niedrigfrequenzkomponente gefiltert. Die gefilterten Komponenten des Eingangssignals werden dann individuell analysiert, um das Vorliegen von Sprache zu detektieren. Da unstimmhafte Sprache (unvoiced speech) eine Hochfrequenzkomponente hat, ist deren Stärke relativ zu einem Hochfrequenzband gegenüber dem Hintergrundrauschen in dem Frequenzband ausgeprägter als deren Stärke im Vergleich zu dem Hintergrundrauschen über das gesamte Frequenzband.
  • Ein zweites Ziel ist es, ein Mittel vorzusehen, mit dem die Schwellenwertpegel eingestellt werden, und das Signalenergie sowie Hintergrundrauschenergie berücksichtigt. Das Einstellen der Sprachdetektierschwellenwerte basiert auf einer Schätzung des Signal-zu-Rausch-Verhältnisses (signal to noise ratio (SNR)) des Eingangssignals. In dem Beispiel wird die Signalenergie als die Maximalsignalenergie während Zeiten von aktiver Sprache geschätzt, und die Hintergrundrauschenergie wird als die minimale Signalenergie während Pausenzeiten geschätzt.
  • Ein drittes Ziel ist es, ein Verfahren zum Kodieren von Musik, die durch einen Vocoder mit variabler Rate tritt, vorzusehen. In dem Beispiel detektiert die Ratenauswahlvorrichtung eine Anzahl von aufeinanderfolgenden Rahmen, über denen die Schwellenwertpegel angestiegen sind und überprüft hinsichtlich einer Periodizität über die Anzahl der Rahmen hinweg. Wenn das Eingangssignal periodisch ist, würde dies das Vorliegen von Musik anzeigen. Wenn das Vorliegen von Musik. detektiert wird, werden die Schwellenwerte auf solche Pegel gesetzt, dass das Signal mit voller Rate kodiert wird.
  • Kurze Beschreibung der Zeichnungen
  • Die Merkmale, Ziele und Vorteile der vorliegenden Erfindung werden aus der unten folgenden detaillierten Beschreibung noch offensichtlicher, wenn diese in Zusammenhang mit den Zeichnungen gesehen wird, wobei in den Zeichnungen gleiche Bezugszeichen Entsprechendes durchgängig identifizieren, und wobei:
  • 1 ein Blockdiagramm der vorliegenden Erfindung ist.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Bezugnehmend auf 1 wird das Eingangssignal bzw. Eingabesignal S(n) an ein Teilbandenergieberechnungselement 4 und ein Teilbandenergieberechnungselement 6 geliefert. Das Eingangssignal S(n) besteht aus einem Audiosignal und Hintergrundrauschen. Das Audiosignal ist typischerweise Sprache, kann jedoch auch Musik sein. In dem Ausführungsbeispiel wird S(n) in 20 Millisekundenrahmen von jeweils 160 Samples bzw. Abtastwerten vorgesehen. In dem Ausführungsbeispiel hat das Eingangssignal S(n) Frequenzkomponenten von 0 kHz bis 4 kHz, was ungefähr die Bandbreite eines menschlichen Sprachsignals ist.
  • In dem Ausführungsbeispiel wird das 4 kHz Eingangssignal S(n) auf zwei separate Teilbänder (subbands) gefiltert. Die zwei separaten Teilbänder liegen zwischen 0 und 2 kHz bzw. 2 kHz und 4 kHz. Bei einem Ausführungsbeispiel kann das Eingangssignal durch Teilbandfilter, deren Konstruktion im Fachgebiet bekannt ist, und z. B. detailliert in dem U.S. Patent 5,644,596 , eingereicht am 1. Februar 1994, betitelt „Frequency Selective Adaptive Filtering”, und dem Rechtsnachfolger der vorliegenden Erfindung zugewiesen ist, dargestellt, auf Teilbänder aufgeteilt werden.
  • Die Impulsantworten der Teilbandfilter werden mit hL(n) für den Tiefpassfilter und hH(n) für den Hochpassfilter bezeichnet. Die Energie der resultierenden Teilbandkomponenten des Signals kann auch durch einfaches Summieren der Quadrate der Teilbandfilterausgabesamples berechnet werden, um die Werte RL(0) und RH(0) zu liefern, wie es auf dem Fachgebiet bekannt ist.
  • In dem bevorzugten Ausführungsbeispiel wird, wenn das Eingangssignal S(n) an das Teilbandenergieberechnungselement 4 geliefert wird, der Energiewert der Niedrig- bzw. Tieffrequenzkomponente des Eingaberahmens RL(0), wie folgt berechnet:
    Figure 00060001
    wobei L die Anzahl der Taps bzw. Abgriffe in dem Tiefpassfilter mit der Impulsantwort hL(n) ist,
    wobei RS(i) die Autokorrelationsfunktion des Eingangssignals S(n) ist, und zwar gegeben durch die Gleichung:
    Figure 00060002
    wobei N die Anzahl der Samples in dem Rahmen ist,
    und wobei RhL die Autokorrelationsfunktion des Tiefpassfilters hL(n) ist, und zwar gegeben durch:
    Figure 00060003
    Figure 00070001
  • Die Hochfrequenzenergie, RH(0) wird auf ähnliche Art und Weise in dem Teilbandenergieberechnungselement 6 berechnet.
  • Die Werte der Autokorrelationsfunktion der Teilbandfilter können zeitlich voraus berechnet werden, um die Rechenlast zu reduzieren. Weiterhin werden einige der berechneten Werte von RS(i) in anderen Berechnungen bei der Kodierung des Eingangssignals S(n) verwendet, was weiterhin die effektive Berechnungslast des Kodierungsratenauswahlverfahrens der vorliegenden Erfindung reduziert. So. benötigt z. B. die Herleitung der LPC-Filter-Tap-Werte die Berechnung eines Satzes von Eingangssignalautokorrelationskoeffizienten.
  • Die Berechnung von LPC-Filter–Tap-Werten ist auf dem Fachgebiet bekannt und wird in dem oben zitierten U.S. Patent 5,414,796 detailliert dargestellt. Würde man die Sprache mit einem Verfahren kodieren, das einen LPC-Filter mit zehn Taps benötigt, müssten nur die Werte von RS(i) für Werte für i zwischen 11 und L-1 berechnet werden, und zwar zusätzlich zu denen, die in der Kodierung des Signals eingesetzt werden, da die RS(i) für Werte von i zwischen 0 und 10 in der Berechnung der LPC-Filter-Tap-Werte verwendet werden. In dem Ausführungbeispiel haben die Teilbandfilter 17 Taps, L = 17.
  • Das Teilbandenergieberechnungselement 4 liefert die berechneten Werte von RL(0) an das Teilbandratenentscheidungselement 12, und das Teilbandenergieberechnungselement 6 liefert die berechneten Werte von RH(0) an Teilbandratenentscheidungselement 14. Das Ratenentscheidungselement 12 vergleicht die Werte von RL(0) mit zwei vorbestimmten Schwellenwerten TL1/2 und TLfull und weist eine vorgeschlagene Kodierrate, RATEL zu, und zwar gemäß dem Vergleich. Die Ratenzuweisung wird wie folgt ausgeführt:
    RATEL = Achtelrate RL(0) ≤ TL1/2 (4)
    RATEL = Halbrate TL1/2 < RL(0) ≤ TLfull (5)
    RATEL = Vollrate RL(0) > TLfull (6)
  • Teilbandratenentscheidungselement 14 operiert auf ähnliche Art und Weise und wählt eine vorgeschlagene Kodierrate RATEN aus, und zwar gemäß dem Hochfrequenzenergiewert RH(0) und basierend auf einem unterschiedlichen Satz von Schwellenwerten TH1/2 und THfull. Das Teilbandratenentscheidungselement 12 liefert seine vorgeschlagene Kodierrate, RATE, an Kodierratenauswahlelement 16, und Teilbandratenentscheidungselement 14 liefert seine vorgeschlagene Kodierrate, RATEN, an Kodierratenauswahlelement 16. In dem Ausführungsbeispiel wählt Kodierratenauswahlelement 16 die höhere der zwei vorgeschlagenen Raten und liefert die höhere Rate als die ENCODING RATE bzw. Kodierrate.
  • Teilbandenergieberechnungselement 4 liefert außerdem den Tieffrequenzenergiewert RL(0) an das Schwellenwerteinstellelement 8, wo die Schwellenwerte TL1/2 und TLfull für den nächsten Eingaberahmen berechnet werden. Ähnlich liefert Teilbandenergieberechnungselement 6 den Hochfrequenzenergiewert RH(0) an Schwellenwerteinstellelement 10, wo die Schwellenwerte TL1/2 und TLfull für den nächsten Eingaberahmen berechnet werden.
  • Schwellenwerteinstellelement 8 empfängt den Tieffrequenzenergiewert, RL(0), und berechnet ob S(n) Hintergrundrauschen oder ein Audiosignal enthält. In einer beispielhaften Implementierung geschieht das Verfahren, durch welches das Schwellenwerteinstellelement 8 bestimmt, ob ein Audiosignal vorliegt, durch Untersuchen der normalisierten Autokorrelationsfunktion (normalized autocorrelation function NACF), die durch die folgende Gleichung gegeben ist
    Figure 00080001
    wobei e(n) das Formant-Restsignal ist, das vom Filtern des Eingangssignals S(n), durch einen LPC-Filter resultiert.
  • Die Konstruktion eines LPC-Filters, sowie das Filtern eines Signals durch einen LPC-Filter ist auf dem Fachgebiet bekannt und ist in dem zuvor erwähnten U.S. Patent 5,414,796 detailliert dargestellt. Das Eingangssignal, S(n) wird durch den LPC-Filter gefiltert, um Wechselwirkungen der Formanten zu entfernen. Die NACF wird mit einem Schwellenwert verglichen, um zu bestimmen, ob ein Audiosignal vorliegt. Wenn die NACF größer ist als ein vorbestimmter Schwellenwert, zeigt dies an, dass der Eingaberahmen eine periodische Charakteristik hat, die anzeigend ist für das Vorliegen eines Audiosignals, wie z. B. Sprache oder Musik. Es ist anzumerken, dass während Teile von Sprache und Musik nicht periodisch sind und niedrige Werte für NACF aufzeigen, Hintergrundrauschen typischerweise niemals eine Periodizität aufzeigt und fast immer niedrige Werte für NACF aufweist.
  • Wenn bestimmt ist, dass S(n) Hintergrundrauschen enthält, ist der Wert von NACF geringer als ein Schwellenwert TH1, wobei dann der Wert RL(0) eingesetzt wird, den Wert der momentanen Hintergrundrauschschätzung BGNL zu aktualisieren. In dem Ausführungsbeispiel ist TH1 0,35. RL(0) wird mit dem momentanen Wert der Hintergrundrauschschätzung BGNL verglichen. Wenn RL(0) kleiner ist als BGNL, dann wird die Hintergrundrauschschätzung BGNL gleich RL(0) gesetzt, unabhängig von dem Wert von NACF.
  • Die Hintergrundrauschschätzung BGNL wird nur erhöht, wenn NACF kleiner ist der Schwellenwert TH1. Wenn RL(0) größer ist als BGNL und NACF kleiner ist als TH1, dann wird die Hintergrundrauschenergie BGNL auf α1BGNL gesetzt, wobei α1 eine Zahl größer als 1 ist. In dem Ausführungsbeispiel ist α1 gleich 1,03. Die BGNL wird solange fortfahren sich zu erhöhen, solange NACF kleiner ist als der Schwellenwert TH1 und RL(0) größer ist als der momentane Wert von BGNL , und zwar bis BGNL einen vorbestimmten Maximalwert BGNmax erreicht, wobei bei diesem Punkt die Hintergrundrauschschätzung BGNL auf BGNmax gesetzt wird.
  • Wenn ein Audiosignal detektiert wird, was dadurch gekennzeichnet ist, dass der Wert von NACF einen zweiten Schwellenwert TH2 überschreitet, dann wird die Signalenergieschätzung, SL, aktualisiert. In dem Ausführungsbeispiel ist TH2 auf 0,5 gesetzt. Der Wert von RL(0) wird mit einer momentanen Tiefpasssignalenergieschätzung SL verglichen. Wenn RL(0) größer ist als der momentane Wert von SL, dann wird SL gleich RL(0) gesetzt. Wenn RL(0) kleiner ist als der momentane Wert von SL, dann wird SL gleich α2·SL gesetzt, und zwar nur dann, wenn NACF größer ist als TH2. In dem beispielhaften Ausführungsbeispiel ist α2 auf 0,96 gesetzt.
  • Das Schwellenwerteinstellelement 8 berechnet dann eine Signal-zu-Rausch-Verhältnisschätzung gemäß der folgenden Gleichung 8:
    Figure 00100001
  • Das Schwellenwerteinstellelement 8 bestimmt dann einen Index des quantisierten Signal-zu-Rausch-Verhältnisses ISNRL gemäß der folgenden Gleichung 9 bis 12:
    Figure 00100002
    wobei nint eine Funktion ist, die den Bruchwert auf den nächsten Integer rundet.
  • Schwellenwerteinstellelement 8 wählt dann zwei Skalierungsfaktoren, kL1/2 und kLfull aus oder berechnet diese, und zwar gemäß dem Signal-zu-Rausch-Index, ISNRL. Eine Beispielnachschlagetabelle für Skalierungswerte wird in der folgenden Tabelle 1 angegeben. Tabelle 1
    ISNRL KL1/2 KLfull
    0 7,0 9,0
    1 7,0 12,6
    2 8,0 17,0
    3 8,6 18,5
    4 8,9 19,4
    5 9,4 20,9
    6 11,0 25,5
    7 15,8 39,8
  • Diese zwei Werte werden eingesetzt, um die Schwellenwerte für die Ratenauswahl gemäß der folgenden Gleichungen zu verwenden. TL1/2 = KL1/2·BGNL, und (11) TLfull = KLfull·BGNL, (12)wobei TL1/2 der Tieffrequenz-Halbraten-Schwellenwert ist und
    TLfull der Tieffrequenz-Vollraten-Schwellenwert ist.
  • Das Schwellenwerteinstellelement 8 bzw. das Schwellenwertanpasselement 8 liefert die angepassten Schwellenwerte TL1/2 und TLfull an das Ratenentscheidungselement 12. Das Schwellenwerteinstellelement 10 operiert auf ähnliche Art und Weise und liefert die Schwellenwerte TH1/2 und THfull an das Teilbandratenentscheidungselement 14.
  • Der Anfangswert der Audiosignalenergieschätzung S, wobei S für SL oder SH steht, wird, wie folgt, eingestellt: Die anfängliche Signalenergieschätzung SINIT wird auf –18,0 dBmO gesetzt, wobei 3,17 dBmO die Signalstärke einer ganzen Sinuswelle bezeichnet, wobei die Sinuswelle in dem Ausführungsbeispiel eine digitale Sinuswelle mit einem Amplitudenbereich von –8031 bis 8031 ist. SINIT wird verwendet, bis bestimmt wird, dass ein akustisches Signal vorliegt.
  • Das Verfahren, mit dem ein akustisches Signal anfänglich detektiert wird, geschieht durch Vergleichen des NACF-Wertes mit einem Schwellenwert, wobei dann ein akustisches Signal als vorliegend bestimmt wird, wenn die NACF den Schwellenwert für eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen überschreitet. In dem Ausführungsbeispiel muss die NACF den Schwellenwert zehn aufeinanderfolgende Rahmen lang überschreiten. Nachdem diese Bedingung erfüllt ist, wird die Signalenergieschätzung, S, auf die maximale Signalenergie in den vorhergehenden zehn Rahmen gesetzt.
  • Der anfängliche Wert der Hintergrundrauschschätzung BGNL wird anfänglich auf BGNmax gesetzt. Sobald eine Teilbandrahmenenergie empfangen wird, die geringer ist als BGNmax, wird die Hintergrundrauschschätzung auf den Wert des empfangenden Teilbandenergiepegels gesetzt, und die Generierung der Hintergrundrausch-BGNL-Schätzung fährt, wie zuvor beschrieben, fort.
  • Gemäß der vorliegenden Erfindung wird ein Hangover- bzw. Überhangzustand betätigt, wenn nach einer Serie von Sprachrahmen mit voller Rate ein Rahmen mit niedrigerer Rate detektiert wird. In dem Ausführungsbeispiel wird, wenn vier aufeinanderfolgende Sprachrahmen mit Vollrate kodiert werden, gefolgt von einem Rahmen, bei dem die Rate auf eine niedrigere als die Vollrate gesetzt ist, und die berechneten Signal-zu-Rausch-Verhältnisse geringer sind als ein vorbestimmtes Minimum SNR, die ENCODING RATE für diesen Rahmen auf Vollrate gesetzt. In dem Ausführungsbeispiel ist das vordefinierte Minimal-SNR 27,5 dBas, gemäß der Definition in Gleichung 8.
  • In dem bevorzugten Ausführungsbeispiel ist die Zahl der Überhangrahmen eine Funktion des Signal-zu-Rausch-Verhältnisses. In dem Ausführungsbeispiel wird die Zahl der Überhangrahmen wie folgt bestimmt:
    #Hangover-Rahmen = 1 22,5 < SNR < 27,5 (13)
    #Hangover-Rahmen = 2 SNR ≤ 22,5 (14)
    #Hangover-Rahmen = 0 SNR ≥ 27,5 (15)
  • Die vorliegende Beschreibung liefert außerdem ein Verfahren, mit dem das Vorliegen von Musik detektiert werden kann, bei der, wie zuvor beschrieben, Pausen fehlen, die es ermöglichen, die Hintergrundrauschmessungen zurückzusetzen. Das Verfahren zum Detektieren des Vorliegens von Musik geht davon aus, dass Musik zu Beginn des Anrufes nicht vorliegt. Dies erlaubt es der Kodierratenauswahlvorrichtung eine anfängliche Hintergrundrauschenergie, BGNinit genau zu schätzen. Da Musik im Gegensatz zu Hintergrundrauschen eine periodische Charakteristik hat, wird der Wert der NACF untersucht, um Musik von Hintergrundrauschen zu unterscheiden. Das Musikdetektierverfahren berechnet eine durchschnittliche NACF gemäß der folgenden Gleichung:
    Figure 00130001
    wobei NACF in Gleichung 7 definiert ist, und
    wobei T die Anzahl von aufeinanderfolgenden Rahmen ist, in denen sich der geschätzte Wert des Hintergrundrauschens, ausgehend von einer anfänglichen Hintergrundrauschschätzung BGNinit erhöht hat.
  • Wenn sich das Hintergrundrauschen BGN eine vorbestimmte Anzahl von Rahmen von T lang erhöht hat und NACFAVE einen vorbestimmten Schwellenwert überschreitet, wird Musik detektiert und das Hintergrundrauschen BGN wird auf BGNinit zurückgesetzt. Es ist anzumerken, dass für eine gewisse Effektivität der Wert T niedrig genug gesetzt werden muss, so dass die Kodierungsrate nicht unter die Vollrate fällt. Daher sollte der Wert von T als eine Funktion des akustischen Signals und BGNinit gesetzt werden.
  • Die vorliegende Beschreibung der bevorzugten Ausführungsbeispiele wurde vorgesehen, um es einem Fachmann zu ermöglichen, die vorliegende Erfindung herzustellen oder zu verwenden. Die verschiedenen Modifikationen dieses Ausführungsbeispiels werden einem Fachmann leicht offensichtlich werden, und die Grundprinzipien, die in den Ausführungsbeispielen definiert sind, können auf andere Ausführungsbeispiele, ohne den Einsatz einer erfinderischen Tätigkeit, angewendet werden. Daher ist die vorliegende Erfindung nicht als durch die Ausführungsbeispiele eingeschränkt anzusehen, sondern ihr ist ein Schutzbereich, wie er durch die beigefügten Ansprüche definiert ist, zuzuordnen.

Claims (4)

  1. Verfahren zur Addieren von Überhangrahmen zu einer Vielzahl von Rahmen codiert durch einen Vocoder, wobei das Verfahren folgendes vorsieht: Detektieren, dass eine vorbestimmte Anzahl von aufeinander folgenden Rahmen mit einer Vollrate codiert ist; Bestimmen, dass ein nächst folgender Rahmen mit einer Rate aus einer Vielzahl von Raten, die kleiner sind als die Vollrate, codiert werden soll; und Auswahl einer Anzahl von aufeinander folgenden Überhangrahmen beginnend mit dem erwähnten nächst folgenden Rahmen, der codiert werden soll mit der Rate aus der Vielzahl von Raten, die kleiner sind als die Vollrate, wobei die Zahl eine Funktion eines Signal-zu-Rausch-Verhältnisses ist, und zwar bestimmt aus dem Eingangssignal S(n), das zu codieren ist.
  2. Verfahren nach Anspruch 1, wobei das Detektieren folgendes aufweist: Detektieren, dass eine vordefinierte Anzahl von aufeinander folgenden Rahmen mit der Vollrate codiert ist, die für Sprachrahmen gedacht ist.
  3. Eine Vorrichtung zum Hinzuaddieren von Überhangrahmen zu einer Vielzahl von Rahmen codiert durch einen Vocoder, wobei die Vorrichtung folgendes aufweist: Mittel zum Detektieren, dass eine vorbestimmte Anzahl von aufeinander folgenden Rahmen, die mit der Vollrate codiert ist; Mittel zur Bestimmung, dass ein nächst darauf folgender Rahmen mit einer Rate aus einer Vielzahl von Raten, die kleiner sind als die Vollrate, codiert werden soll; Mittel zur Auswahl einer Anzahl von aufeinander folgenden Überhangrahmen beginnend mit dem erwähnten nächst folgenden Rahmen, der mit der erwähnten zweiten Rate aus der Vielzahl von Raten, die kleiner sind als die Vollrate, codiert werden soll, wobei die Anzahl eine Funktion eines Signal-zu-Rausch-Verhältnisses ist, und zwar bestimmt aus dem Eingangssignal S(n), das codiert werden soll.
  4. Vorrichtung nach Anspruch 3, wobei die Mittel zum Detektieren folgendes aufweisen: Mittel zum Detektieren, dass eine vorgeschriebene bzw. vordefinierte Anzahl von aufeinander folgenden Rahmen mit der Vollrate codiert wurde, vorgesehen für die Codierung von Sprachrahmen.
DE69534285T 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate Expired - Lifetime DE69534285T3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US288413 1994-08-10
US08/288,413 US5742734A (en) 1994-08-10 1994-08-10 Encoding rate selection in a variable rate vocoder

Publications (3)

Publication Number Publication Date
DE69534285D1 DE69534285D1 (de) 2005-07-21
DE69534285T2 DE69534285T2 (de) 2006-03-23
DE69534285T3 true DE69534285T3 (de) 2010-09-09

Family

ID=23106989

Family Applications (5)

Application Number Title Priority Date Filing Date
DE69535452T Expired - Lifetime DE69535452T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate
DE69535709T Expired - Lifetime DE69535709T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE69530066T Expired - Lifetime DE69530066T2 (de) 1994-08-10 1995-08-01 Verfahren und vorrichtung zur auswahl der kodierrate in einem vocoder mit variabler rate
DE69533881T Expired - Lifetime DE69533881T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate
DE69534285T Expired - Lifetime DE69534285T3 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate

Family Applications Before (4)

Application Number Title Priority Date Filing Date
DE69535452T Expired - Lifetime DE69535452T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate
DE69535709T Expired - Lifetime DE69535709T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE69530066T Expired - Lifetime DE69530066T2 (de) 1994-08-10 1995-08-01 Verfahren und vorrichtung zur auswahl der kodierrate in einem vocoder mit variabler rate
DE69533881T Expired - Lifetime DE69533881T2 (de) 1994-08-10 1995-08-01 Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit Variabler Rate

Country Status (20)

Country Link
US (1) US5742734A (de)
EP (6) EP1703493B1 (de)
JP (8) JP3502101B2 (de)
KR (3) KR100455225B1 (de)
CN (5) CN1320521C (de)
AT (5) ATE298124T1 (de)
AU (1) AU711401B2 (de)
BR (2) BR9510780B1 (de)
CA (3) CA2488918C (de)
DE (5) DE69535452T2 (de)
DK (3) DK1239465T4 (de)
ES (5) ES2299122T3 (de)
FI (5) FI117993B (de)
HK (2) HK1015185A1 (de)
IL (1) IL114874A (de)
MX (1) MX9600920A (de)
PT (3) PT1239465E (de)
TW (1) TW277189B (de)
WO (1) WO1996005592A1 (de)
ZA (1) ZA956081B (de)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6389010B1 (en) 1995-10-05 2002-05-14 Intermec Ip Corp. Hierarchical data collection network supporting packetized voice communications among wireless terminals and telephones
US7924783B1 (en) 1994-05-06 2011-04-12 Broadcom Corporation Hierarchical communications system
TW271524B (de) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6292476B1 (en) * 1997-04-16 2001-09-18 Qualcomm Inc. Method and apparatus for providing variable rate data in a communications system using non-orthogonal overflow channels
JPH09162837A (ja) * 1995-11-22 1997-06-20 Internatl Business Mach Corp <Ibm> 圧縮方式を動的に変更する通信方法及び装置
JPH09185397A (ja) * 1995-12-28 1997-07-15 Olympus Optical Co Ltd 音声情報記録装置
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
FI964975A (fi) * 1996-12-12 1998-06-13 Nokia Mobile Phones Ltd Menetelmä ja laite puheen koodaamiseksi
JPH10210139A (ja) * 1997-01-20 1998-08-07 Sony Corp 音声記録機能付き電話装置及び音声記録機能付き電話装置の音声記録方法
US6202046B1 (en) 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US5920834A (en) * 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
DE19742944B4 (de) * 1997-09-29 2008-03-27 Infineon Technologies Ag Verfahren zum Aufzeichnen eines digitalisierten Audiosignals
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6393074B1 (en) 1998-12-31 2002-05-21 Texas Instruments Incorporated Decoding system for variable-rate convolutionally-coded data sequence
JP2000244384A (ja) * 1999-02-18 2000-09-08 Mitsubishi Electric Corp 移動通信端末装置及び移動通信端末装置における音声符号化レート決定方法
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
AU4603800A (en) * 1999-05-10 2000-11-21 Nokia Networks Oy Header compression
US7127390B1 (en) 2000-02-08 2006-10-24 Mindspeed Technologies, Inc. Rate determination coding
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6745012B1 (en) * 2000-11-17 2004-06-01 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive data compression in a wireless telecommunications system
US7120134B2 (en) 2001-02-15 2006-10-10 Qualcomm, Incorporated Reverse link channel architecture for a wireless communication system
EP1470550B1 (de) 2002-01-30 2008-09-03 Matsushita Electric Industrial Co., Ltd. Verfahren und vorrichtung zur audio-kodierung und -dekodierung
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7602722B2 (en) * 2002-12-04 2009-10-13 Nortel Networks Limited Mobile assisted fast scheduling for the reverse link
KR100754439B1 (ko) 2003-01-09 2007-08-31 와이더댄 주식회사 이동 전화상의 체감 음질을 향상시키기 위한 디지털오디오 신호의 전처리 방법
KR101213840B1 (ko) * 2004-05-14 2012-12-20 파나소닉 주식회사 복호화 장치 및 복호화 방법, 및 복호화 장치를 구비하는 통신 단말 장치 및 기지국 장치
CN1295678C (zh) * 2004-05-18 2007-01-17 中国科学院声学研究所 子带自适应谷点降噪系统和方法
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
US20060224381A1 (en) * 2005-04-04 2006-10-05 Nokia Corporation Detecting speech frames belonging to a low energy sequence
KR100757858B1 (ko) * 2005-09-30 2007-09-11 와이더댄 주식회사 선택적 인코딩 시스템 및 상기 선택적 인코딩 시스템의동작 방법
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
JP4065314B2 (ja) * 2006-01-12 2008-03-26 松下電器産業株式会社 対象音分析装置、対象音分析方法および対象音分析プログラム
TWI318397B (en) * 2006-01-18 2009-12-11 Lg Electronics Inc Apparatus and method for encoding and decoding signal
US8204754B2 (en) 2006-02-10 2012-06-19 Telefonaktiebolaget L M Ericsson (Publ) System and method for an improved voice detector
US8920343B2 (en) 2006-03-23 2014-12-30 Michael Edward Sabatino Apparatus for acquiring and processing of physiological auditory signals
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101217037B (zh) * 2007-01-05 2011-09-14 华为技术有限公司 对音频信号的编码速率进行源控的方法和系统
JPWO2009038170A1 (ja) * 2007-09-21 2011-01-06 日本電気株式会社 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム
WO2009038115A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 音声符号化装置、音声符号化方法及びプログラム
US20090099851A1 (en) * 2007-10-11 2009-04-16 Broadcom Corporation Adaptive bit pool allocation in sub-band coding
US8554551B2 (en) * 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context replacement by audio level
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN103366755B (zh) * 2009-02-16 2016-05-18 韩国电子通信研究院 对音频信号进行编码和解码的方法和设备
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
US9373332B2 (en) * 2010-12-14 2016-06-21 Panasonic Intellectual Property Corporation Of America Coding device, decoding device, and methods thereof
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
US8666753B2 (en) 2011-12-12 2014-03-04 Motorola Mobility Llc Apparatus and method for audio encoding
US9263054B2 (en) * 2013-02-21 2016-02-16 Qualcomm Incorporated Systems and methods for controlling an average encoding rate for speech signal encoding
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9564136B2 (en) 2014-03-06 2017-02-07 Dts, Inc. Post-encoding bitrate reduction of multiple object audio
EP3413306B1 (de) * 2014-03-24 2019-10-30 Nippon Telegraph and Telephone Corporation Kodierungsverfahren, kodierer, programm und aufzeichnungsmedium
KR102061316B1 (ko) * 2014-07-28 2019-12-31 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 장치, 프로그램 및 기록 매체
WO2016018186A1 (en) * 2014-07-29 2016-02-04 Telefonaktiebolaget L M Ericsson (Publ) Estimation of background noise in audio signals
KR101619293B1 (ko) 2014-11-12 2016-05-11 현대오트론 주식회사 전원 반도체의 제어 방법 및 제어 장치
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
EP3751567B1 (de) * 2019-06-10 2022-01-26 Axis AB Verfahren, computerprogramm, codierer und überwachungsvorrichtung
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3633107A (en) * 1970-06-04 1972-01-04 Bell Telephone Labor Inc Adaptive signal processor for diversity radio receivers
JPS5017711A (de) * 1973-06-15 1975-02-25
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
DE3023375C1 (de) * 1980-06-23 1987-12-03 Siemens Ag, 1000 Berlin Und 8000 Muenchen, De
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
USRE32580E (en) * 1981-12-01 1988-01-19 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder
JPS6011360B2 (ja) * 1981-12-15 1985-03-25 ケイディディ株式会社 音声符号化方式
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
EP0111612B1 (de) * 1982-11-26 1987-06-24 International Business Machines Corporation Verfahren und Einrichtung zur Kodierung eines Sprachsignals
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
EP0163829B1 (de) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Sprachsignaleverarbeitungssystem
DE3412430A1 (de) * 1984-04-03 1985-10-03 Nixdorf Computer Ag, 4790 Paderborn Schalteranordnung
EP0167364A1 (de) * 1984-07-06 1986-01-08 AT&T Corp. Sprachpausenbestimmung mit Teilbandkodierung
FR2577084B1 (fr) * 1985-02-01 1987-03-20 Trt Telecom Radio Electr Systeme de bancs de filtres d'analyse et de synthese d'un signal
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4827517A (en) * 1985-12-26 1989-05-02 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech processor using arbitrary excitation coding
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US4899384A (en) * 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
US4903301A (en) * 1987-02-27 1990-02-20 Hitachi, Ltd. Method and system for transmitting variable rate speech signal
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
CA1337217C (en) * 1987-08-28 1995-10-03 Daniel Kenneth Freeman Speech coding
JPS6491200A (en) * 1987-10-02 1989-04-10 Fujitsu Ltd Voice analysis system and voice synthesization system
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4897832A (en) 1988-01-18 1990-01-30 Oki Electric Industry Co., Ltd. Digital speech interpolation system and speech detector
EP0331858B1 (de) * 1988-03-08 1993-08-25 International Business Machines Corporation Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten
EP0331857B1 (de) * 1988-03-08 1992-05-20 International Business Machines Corporation Verfahren und Einrichtung zur Sprachkodierung mit niedriger Datenrate
JP3321156B2 (ja) * 1988-03-11 2002-09-03 ブリテツシユ・テレコミユニケイシヨンズ・パブリツク・リミテツド・カンパニー 音声の動作特性検出
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
US4864561A (en) * 1988-06-20 1989-09-05 American Telephone And Telegraph Company Technique for improved subjective performance in a communication system using attenuated noise-fill
JPH0783315B2 (ja) * 1988-09-26 1995-09-06 富士通株式会社 可変レート音声信号符号化方式
CA1321645C (en) * 1988-09-28 1993-08-24 Akira Ichikawa Method and system for voice coding based on vector quantization
JP3033060B2 (ja) * 1988-12-22 2000-04-17 国際電信電話株式会社 音声予測符号化・復号化方式
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
EP0392126B1 (de) * 1989-04-11 1994-07-20 International Business Machines Corporation Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion
JPH0754434B2 (ja) * 1989-05-08 1995-06-07 松下電器産業株式会社 音声認識装置
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5054075A (en) * 1989-09-05 1991-10-01 Motorola, Inc. Subband decoding method and apparatus
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
US5307441A (en) 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
JP3004664B2 (ja) * 1989-12-21 2000-01-31 株式会社東芝 可変レート符号化方法
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
US5103459B1 (en) * 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
JPH04100099A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
JPH04157817A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 可変レート符号化装置
US5206884A (en) * 1990-10-25 1993-04-27 Comsat Transform domain quantization technique for adaptive predictive coding
JP2906646B2 (ja) * 1990-11-09 1999-06-21 松下電器産業株式会社 音声帯域分割符号化装置
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
KR940001861B1 (ko) * 1991-04-12 1994-03-09 삼성전자 주식회사 오디오 대역신호의 음성/음악 판별장치
US5187745A (en) * 1991-06-27 1993-02-16 Motorola, Inc. Efficient codebook search for CELP vocoders
ES2240252T3 (es) * 1991-06-11 2005-10-16 Qualcomm Incorporated Vocodificador de velocidad variable.
DE69217590T2 (de) * 1991-07-31 1997-06-12 Matsushita Electric Ind Co Ltd Verfahren und Einrichtung zur Kodierung eines digitalen Audiosignals
JP2705377B2 (ja) * 1991-07-31 1998-01-28 松下電器産業株式会社 帯域分割符号化方法
US5410632A (en) 1991-12-23 1995-04-25 Motorola, Inc. Variable hangover time in a voice activity detector
JP3088838B2 (ja) * 1992-04-09 2000-09-18 シャープ株式会社 音楽検出回路及び該回路を用いた音声信号入力装置
JP2976701B2 (ja) * 1992-06-24 1999-11-10 日本電気株式会社 量子化ビット数割当方法
US5341456A (en) * 1992-12-02 1994-08-23 Qualcomm Incorporated Method for determining speech encoding rate in a variable rate vocoder
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5644596A (en) 1994-02-01 1997-07-01 Qualcomm Incorporated Method and apparatus for frequency selective adaptive filtering
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US6134215A (en) 1996-04-02 2000-10-17 Qualcomm Incorpoated Using orthogonal waveforms to enable multiple transmitters to share a single CDM channel

Also Published As

Publication number Publication date
ES2194921T3 (es) 2003-12-01
EP1703493A2 (de) 2006-09-20
IL114874A0 (en) 1995-12-08
DE69534285D1 (de) 2005-07-21
AU711401B2 (en) 1999-10-14
TW277189B (de) 1996-06-01
CN1512487A (zh) 2004-07-14
IL114874A (en) 1999-03-12
ES2240602T3 (es) 2005-10-16
US5742734A (en) 1998-04-21
EP1239465B2 (de) 2010-02-17
JP3502101B2 (ja) 2004-03-02
DE69530066D1 (de) 2003-04-30
HK1077911A1 (en) 2006-02-24
CN1512488A (zh) 2004-07-14
CA2488918C (en) 2011-02-01
EP1703493A3 (de) 2007-02-14
ATE386321T1 (de) 2008-03-15
DE69534285T2 (de) 2006-03-23
JP4680957B2 (ja) 2011-05-11
CN1945696A (zh) 2007-04-11
JP2007304605A (ja) 2007-11-22
DK1239465T4 (da) 2010-05-31
CN1131473A (zh) 1996-09-18
KR100455225B1 (ko) 2004-11-06
EP1239465A3 (de) 2002-09-18
EP1239465A2 (de) 2002-09-11
JP4870846B2 (ja) 2012-02-08
ATE358871T1 (de) 2007-04-15
JP2007293355A (ja) 2007-11-08
CA2488921A1 (en) 1996-02-22
KR20040004421A (ko) 2004-01-13
AU3275195A (en) 1996-03-07
FI123708B (fi) 2013-09-30
DK1233408T3 (da) 2005-01-24
CN1168071C (zh) 2004-09-22
FI122272B (fi) 2011-11-15
FI20050702A (fi) 2005-07-01
FI961112A (fi) 1996-04-12
CN1320521C (zh) 2007-06-06
DE69533881T2 (de) 2006-01-12
EP0728350A1 (de) 1996-08-28
CN100508028C (zh) 2009-07-01
FI20050704A (fi) 2005-07-01
DE69533881D1 (de) 2005-01-27
ATE285620T1 (de) 2005-01-15
ES2240602T5 (es) 2010-06-04
WO1996005592A1 (en) 1996-02-22
KR20040004420A (ko) 2004-01-13
DK0728350T3 (da) 2003-06-30
MX9600920A (es) 1997-06-28
BR9506036A (pt) 1997-10-07
DE69535709T2 (de) 2009-02-12
EP1530201B1 (de) 2007-04-04
EP0728350B1 (de) 2003-03-26
KR100455826B1 (ko) 2005-04-06
ATE235734T1 (de) 2003-04-15
JP2007304604A (ja) 2007-11-22
DK1239465T3 (da) 2005-08-29
EP1233408B1 (de) 2004-12-22
EP1530201A2 (de) 2005-05-11
JP2007304606A (ja) 2007-11-22
ZA956081B (en) 1996-03-15
EP1239465B1 (de) 2005-06-15
KR960705305A (ko) 1996-10-09
FI117993B (fi) 2007-05-15
JPH09504124A (ja) 1997-04-22
ES2233739T3 (es) 2005-06-16
EP1703493B1 (de) 2008-02-13
PT1233408E (pt) 2005-05-31
EP1530201A3 (de) 2005-08-10
DE69530066T2 (de) 2004-01-29
JP2004004971A (ja) 2004-01-08
BR9510780B1 (pt) 2011-05-31
CA2488921C (en) 2010-09-14
JP4680958B2 (ja) 2011-05-11
ES2299122T3 (es) 2008-05-16
FI20061084A (fi) 2006-12-07
CA2171009A1 (en) 1996-02-22
EP1233408A1 (de) 2002-08-21
DE69535452T2 (de) 2007-12-13
JP3927159B2 (ja) 2007-06-06
CA2171009C (en) 2006-04-11
FI20050703A (fi) 2005-07-01
FI961112A0 (fi) 1996-03-08
CN1512489A (zh) 2004-07-14
FI119085B (fi) 2008-07-15
JP4680956B2 (ja) 2011-05-11
JP2004046228A (ja) 2004-02-12
JP2011209733A (ja) 2011-10-20
HK1015185A1 (en) 1999-10-08
ATE298124T1 (de) 2005-07-15
ES2281854T3 (es) 2007-10-01
FI122273B (fi) 2011-11-15
CA2488918A1 (en) 1996-02-22
DE69535452D1 (de) 2007-05-16
PT1239465E (pt) 2005-09-30
DE69535709D1 (de) 2008-03-27
EP1424686A3 (de) 2006-03-22
EP1424686A2 (de) 2004-06-02
PT728350E (pt) 2003-07-31

Similar Documents

Publication Publication Date Title
DE69534285T3 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE60032797T2 (de) Geräuschunterdrückung
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE69830721T2 (de) Verfahren und vorrichtung zur bestimmung der übertragungsrate in einem kommunikationssystem
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69814517T2 (de) Sprachkodierung
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE69917677T2 (de) SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT
DE60316396T2 (de) Interoperable Sprachkodierung
DE602004003610T2 (de) Halbrätiger Vocoder
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60032006T2 (de) Prädiktionssprachkodierer mit musterauswahl für kodierungsshema zum reduzieren der empfindlichkeit für rahmenfehlern
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
DE60124079T2 (de) Sprachverarbeitung
DE112014000945B4 (de) Sprachbetonungsgerät
DE19715126A1 (de) Sprachsignal-Codiervorrichtung
DE60037286T2 (de) Verfahren und Vorrichtung zur Unterabtastung der im Phasenspektrum erhaltenen Information
DE60030997T2 (de) Verteilung des Frequenzspektrums einer Prototypwellenform

Legal Events

Date Code Title Description
8363 Opposition against the patent
8366 Restricted maintained after opposition proceedings