DE3228757A1 - Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen - Google Patents
Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalenInfo
- Publication number
- DE3228757A1 DE3228757A1 DE19823228757 DE3228757A DE3228757A1 DE 3228757 A1 DE3228757 A1 DE 3228757A1 DE 19823228757 DE19823228757 DE 19823228757 DE 3228757 A DE3228757 A DE 3228757A DE 3228757 A1 DE3228757 A1 DE 3228757A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- amplitude
- time
- dependent
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Description
Die Erfindung betrifft ein Informations-Komprimierungsverfahren, das auf hörbare Töne anwendbar isty und insbesondere betrifft die
Erfindung Sprach-Komprimierungs-,Speicherungs-,-Übertragungsund
Syntheseverfahren. Dabei ist die Erfindung auf zeitabhängige Sprachkomprimierung und -synthese anwendbar. Die Erfindung
findet auch Anwendung auf Gebieten, bei denen der Informationsgehalt im Leistungsspektrum, jedoch nicht in den Phasenkomponenten
des Signals beruht.
Normale Sprach- und ähnliche hörbare Töne enthalten etwa 100.000 Informationsbit/s. Die Speicherung und Übertragung
großer Mengen solcher Information kann sich aus Kostengründen, und wegen der nötigen Bandbreite und dem notwendigen Speicherplatz
verbieten. Es besteht deswegen ein dringendes Bedürfnis, die Speicherung und Übertragung von irgendwelchen redundanten
oder sonst unnötigen Informationsanteilen bei Sprache und ähnlichen hörbaren Signalen zu eliminieren. Es wurden Sprachkomprimierungs-
und -Syntheseverfahren entwickelt, um dieses Problem
der Informationsspeicherung und -Übertragung zu behandeln.
Komprimierungsverfahren besitzen den Vorteil, daß der Informationsgehalt
der benutzten Wellenformen vermindert wird, um so die erforderliche Übertragungsbandbreite und den nötigen Speicherraum
zu verringern. Dabei besteht die Notwendigkeit, den Informationsgehalt der komprimierten Information bei geringstmöglicher
Verschlechterung der Signalerkennbarkeit und -qualität zu erreichen.
Es wurde festgestellt, daß Sprach- und ähnliche hörbare Töne
bestimmte charakteristische Eigenschaften zeigen, die zur Minimalisierung der Informationsredundanz bei gleichzeitiger
Beibehaltung der wesentlichen Qualitätseigenschaften ausgenutzt werden können. Die Energiequelle kann beispielsweise entweder
eine stimmhafte oder eine stimmlose Anregung sein. Beim Sprechen wird stimmhafte Anregung durch periodisches Oszillieren der
Stimmbänder mit einer Frequenz erreicht, die die Tonfrequenz
3 22B757
genannt wird, und zwar während minimaler Zeitlängen, die die Tonzeitlängen genannt werden. Die Vokaltöne ergeben sich normalerweise
aus einer derartigen stimmhaften Anregung.
Stimmlose Anregung wird dadurch erreicht, daß Luft durch das Sprachsystem durchgeleitet wird, ohne die Stimmbänder zur
Schwingung anzuregen. Als Beispiele von stimmlosen Anregungen können die Verschlußlaute wie "P" (wie z.B. in "Panne"),
"T" (wie in "Tanne") und "K" (wie z.B. in "Kanne"), die Reibelaute wie "s" (z.B. in "Tasse"), "f" (wie in "Fink"), "h"
(wie in "Hans"), "sch" (wie in "Schule"), die beiden "ch"-Laute (wie in "nicht" bzw. "Nacht"), und der englische
"th"-Laut (wie z.B. in "three") und alle geflüsterten Sprachlaute genannt werden. Stimmhafte Laute zeigen eine quasiperiodische
Amplitudenänderung mit der Zeit, während stimmlose Laute, wie die Reibelaute, Verschlußlaute und andere hörbare
Signale, z.B. bewegte Luft, Schließen einer Tür, das Geräusch von Zusammenstößen, von Düsenflugzeugen und dergleichen keinen
derartigen guasiperiodischen Aufbau besitzen, sondern eher dem weißen Zufallsrauschen ähneln.
Es ist bekannt, daß die Erkennbarkeit von Sprachphonemen und stimmlosen Lauten durch das Leistungsspektrum und nicht durch
die Phasenwinkel des zeitabhängig aufgenommenen Signals bestimmt werden. Das Leistungsspektrum wird durch das menschliche
Gehirn dadurch analysiert, daß eine Signaldurchschnittsbildung während einer Zeit in der Größenordnung von 10 ms erfolcjt.
Ein mit der Speicherung von zeitabhängiger Amplitudeninformation verbundenes Problem besteht in der anscheinenden Notwendigkeit,
für relativ hohe Auflösung bei der Amplitudenspeicherung zu sorgen. Beispielsweise ist eine Genauigkeit
von 8 bis 12 Amplitudenbit erforderlich, um die Amplitude jedes nacheinander aufgezeichneten Abtastpunktes genau zu
kategorisieren. Jeder Amplitudenwert entspricht in Abhängigkeit vom Vorzeichen zwei möglichenDigitalisierungen. Die allgemeine
Erfahrung lehrt, daß eine Reduzierung der Anzahl von
Amplitudenpegelwerten die Auflösung des Signales reduziert und dadurch die Erkennbarkeit verschlechtert. Es wird in
dieser Hinsicht also ein Verfahren gebraucht, die Auflösung der Wellenform ohne unnötige Verschlechterung der Erkennbarkeit
des sich ergebenden hörbaren Signals zu reduzieren.
Seit mehreren Jahrzehnten wurde die Komprimierung und die Synthese von Sprachsignalen und dergleichen untersucht,
siehe z.B. Flanagan, Speech Analysis, Synthesis and Perception, Springer-Verlag, 19 72 . Das Interesse an diesem Thema hat beschleunigt
zugenommen mit der gestiegenen technischen Fähigkeit, komplizierte elektronische Schaltungen in einem einzelnen
integrierten Schaltkreis (IC) durch das Großmaßstabs-Integrationsverfahren
herzustellen.
Kompressions- und Syntheseverfahren werden allgemein in zwei
Kategorien unterteilt, nämlich frequenzabhängige Verfahren und zeitabhängige Verfahren. Diese Verfahren unterscheiden sich bezüglich
der gespeicherten und benutzten Datenart. Bei der freguenzabhängigen Synthese wird die Komprimierung dadurch erreicht,
daß bei jedem Sprachsegment oder jedem Tonhöhenzeitraum nur Information über die wichtigen Frequenzen gespeichert wird.
Beispiele von frequenzabhängigen Synthesizern sind in den US-PS
3 575 555 und 3 588 353 gegeben.
Zeitabhängige Synthesizer speichern im Gegensatz dazu eine repräsentative Version des Signals in Form von zeitabhängig
aufgenommenen Amplitudenwerten.
Bekannte digitale zeitabhängige Komprimierungsverfahren sind
in den US-PS 3 641 496, 3 892 919 und 4 214 125 beschrieben.
Im Jahre 1975 wurde der erste zeitabhängige Sprachsynthesizer mit LSI-(large-scale-integration)Technik hergestellt, der die
Komprimierungstechnik nach US-PS 4 214 125 benutzt. Seit der
3ZZSVbY
Einführung der zeitabhängigen Sprachsynthesizer sind verschiedene Abarten von Sprachsynthesizergeräten mit LSI-Technik
für eine Vielzahl von Anwendungsmöglichkeiten, insbesondere in Verbrauchermärkten, entworfen und eingeführt
worden.
Ein Verfahren zum Speichern und Auslesen von musikalischen Wellenzügen, die durch leicht identifizierbare Periodizität
ausgezeichnet sind, wird in US-PS 3 763 364 beschrieben. In dieser Schrift und in der US-PS 4 214 125 werden Phasenangleichverfahren
zur Erreichung von äquivalenten Wellenformen benutzt, die sich durch Zeitsymmetrie auszeichnen.
Keine der beiden Schriften schlägt jedoch eine Möglichkeit vor, um die für stimmlose Laute charakteristische Aperiodizität
zu erzielen, oder zur Optimierung der Amplitudenauflösung einen Phasenangleich zu benutzen.
Die Information eines zeitabhängig aufgezeichneten Signals,
dessen Informationsgehalt in erster Linie im Leistungsspektrum (im Gegensatz zur Phase) enthalten ist, z.B. ausreichend unterteilte
Sprachlaute, kann mit minimaler Verschlechterung der Auflösung dadurch digitalamplituden-komprimiert werden, daß
ein äquivalentes Signal mit diskreten Amplitudenpegeln mit dem gleichen Leistungsspektrum, aber unterschiedlicher Phase abgeleitet
wird. Das Äquivalentsignal wird dadurch abgeleitet, daß die Phase der harmonischen Bestandteile des Quellensignals
so eingestellt wird, daß ein bestmöglicher Angleich an eine ausgewählte begrenzte Anzahl von diskreten Pegeln bei vorbestimmten
Zeitabständen erreicht wird. Die Analyse der harmonischen Bestandteile geschieht vorzugsweise durch Prüfung der
Fourier-Transformation eines abgetasteten Abschnittes des zeitabhängig aufgezeichneten Quellensignals. Die Erfindung
findet Anwendung bei der Komprimierung und Synthese von Signalen, die hörbar erfaßt werden sollen, wie Sprache, die sowohl
aus stimmhaften (quasiperiodischen) als auch stimmlosen (aperiodischen) Lauten besteht.
Die Komprimierungstechnik kann separat oder kombiniert mit anderen zeitabhängigen Komprimierungs- und Synthesetechniken
eingesetzt werden, um ein Ausgangssignal zu erzeugen, das minimalen Speicherraum und minimale Bandbreite erfordert.
Eines der primären Ziele der Erfindung besteht in der Entwicklung neuer Verfahren zum Komprimieren des Informationsgehaltes
von Sprachsignalen und ähnlichen hörbaren Wellenformen ohne wesentliche Verschlechterung der Qualität der
sich ergebenden Laute, um den Kostenaufwand und die Größe der Sprachsynthesegeräte zu reduzieren. Insbesondere besteht
ein Ziel der Erfindung darin, ein insbesondere für zeitabhängige Synthese geeignetes Komprimierungsverfahren zu
schaffen.
Ein weiteres Ziel der Erfindung besteht darin, die Menge der zum Speichern oder Übertragen erforderlichen digitalen Information
zu reduzieren, um dadurch die nötige Bandbreite und den notwendigen Speicherraum bei einem Analogausgabe-Signalsystem
herabzusetzen.
Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert; in dieser zeigt:
Fig. 1 ein Wellenformdiagramm der Amplitude eines Signals
als Funktion der Zeit,
Fig. 2 eine Rekonstruktion des Wellenformdiagramms aus
Fig. 1 aus 128 Abtaststellen,
Fig. 3 ein Wellenformdiagramm der Amplitude als Funktion der Zeit mit dem gleichen Leistungsspektrum wie
das Wellenformdiagramm in Fig. 2, mit einer Anhäufung
der Amplitudenwerte um 16 diskrete Amplitudenpegel,
32ZSVbY
St» · ι
>l »ill >■>
- 10 -
Fig. 4 ein WellenformdiagraiTim als Funktion der Zeit eines Signals mit dem gleichen Leistungsspektrum
wie dem in Fig..2 gezeigten, mit einer Häufung der Amplitudenwerte um vier diskrete Amplitudenpegel,
Fig. 5 ein Wellenformdiagramm einer Signalamplitude als Funktion der Zeit, bei dem die Amplituden
auf genau vier mögliche Amplitudenwerte beschränkt sind,
Fig. 6 eine Darstellung nach Art eines Ablaufdiagramms
der Entwicklung eines zeitabhängigen Signales mit einer begrenzten Reihe zugelassener Amplitudenpegel,
das ein einem zeitabhängigen Quellensignal äquivalentes Leistungsspektrum besitzt, und
Fig. 7 ein Blockschaltbild eines zeitabhängig arbeitenden Sprachsynthesizers nach der Erfindung.
Da die Erkennbarkeit verschiedener stimmhafter und stimmloser Laute in dem Leistungsspektrum und nicht in den Phasenwinkeln
liegt, kann man sich verschiedene Freiheiten bezüglich der Phasencharakteristik der aperiodischen (stimmlosen) und quasiperiodischen
(stimmhaften) Laute erlauben. Beispielsweise zeigt eine Fourier-Analyse eines Lautes, daß eine anscheinend
unbegrenzte Anzahl von äquivalenten Signalen existiert, deren Leistungsspektren äquivalent einem Quellensignal sind, die sich
jedoch nur in der Phase unterscheiden. Beispielsweise sei die Amplitude einer Wellenform in Funktion der Zeit F(t) durch
die folgende Gleichung repräsentiert:
F(t) = Σ An cos( + 0n) (1)
wobei T die Zeitdauer der betrachteten Wellenform und A und
0 Konstanten sind, die so bestimmt werden, daß die Gleichung
(1) genau die Original- oder Quellenwellenform innerhalb der Abnahmegenauigkeit wiedergibt.
Beispielsweise werde eine Wellenform betrachtet, die 128
Digitalisierungen enthält. Die Gleichung (1) muß dann 128 mal erfüllt werden, so daß die Wellenform als aus 128 Gleichungen
bestehend angesehen werden kann mit 128 unbekannten Parametern, für die es eine Lösung gibt. Die Hälfte dieser Unbekannten besteht
in den Amplituden A , während die andere Hälfte dieser Unbekannten durch die Phasenwinkel 0 gebildet wird. Nur die
Amplituden A brauchen der Quellenwellenform äquivalent sein zur hörbaren Information, da das menschliche Ohr im wesentlichen
für Phasenbeziehungen unempfindlich ist.
Erfindungsgemäß kann der Informationsgehalt sowohl stimmhafter
wie stimmloser Laute durch Phaseneinstellung des Leistungsspektrums eines einem Quellensignal äquivalenten Signals so
optimiert werden, daß die Amplituden des iiquivalentsignals auf eine ausgewählte diskrete Maximalzahl von gewählten Werten
begrenzt wird. Ein solches Verfahren wird anhand der Figuren
1 bis 5 dargestellt.
In Fig. 1 ist beispielsweise ein Amplitudenverlauf einer Wellenform
10 eines Phonems, in diesem Falle des Phonems "s" gezeigt. Fig. 2 zeigt eine Wellenform 10', die eine 10 ms-Digitalisierung
des Phonems nach Fig. 1 ist und zwar mit 128 Abtastwerten,die
auf 12bit-Genauigkeit digitalisiert sind. Folglich gibt es 40.96 mögliche Amplitudenpegel dieser 128 Abtastwerte. Die Erkennbarkeit
des Segmentes mit 128 Abtastwerten ist nun 64 Amplitudenwerten A der Gleichung (1) zugeordnet und hat nichts mit den
64 Phasenwerten 0 zu tun. Damit können einige oder sogar alle 64 Phasenwerte im wesentlichen willkürlich geändert werden,
ohne die Erkennbarkeit der Wellenform zu ändern, auch wenn die Änderung der Phasen im wesentlichen die Amplitudenwerte als
Funktion der Zeit verändert.
.. .. J Zi:8,7
- 12 -
Fig. 3 zeigt nun eine Wellenform 12 aus vielen möglichen Wellenformen, die ein Leistungsspektrum äquivalent zu dem
der Wellenform 10' in Fig. 2 besitzen. Wellenform 12 wurde so erhalten, daß wahlweise die Phase der Fourier-Bestandteile
0 in Gleichung (1) angeglichen wurde, welche die mit Abtastwerten erhaltene Wellenform 10' der Fig. 2 bilden. Die sich
ergebende Wellenform 12 in Fig. 3 besitzt die interessante Eigenschaft, daß ihre 128 Digitalisierungen sich um nur 16
Amplitudenpegel haufen. Die 16 Amplitudenpegel können durch
nur vier Informationsbit repräsentiert werden. Im Vergleich zur 12-bit Amplitudendigitalisierung des Quellensignals 10
wird so ein Kompressionsfaktor 3 erreicht.
Es kann jedoch auch eine wesentlich größere Komprimierung erreicht werden ohne eine unzulässige Verschlechterung des
Signales herbeizuführen, durch Einstellen der Phasenkomponenten in der Weise, daß die zeitabhängig gewonnenen Amplitudenwellenform-Abtastungen
sich um 8 oder sogar nur 4 Amplitudenpegel haufen. So zeigt Fig. 4 eine Wellenform 14 als Funktion der
Zeit, die die gleichen Fourier-Amplitudenkomponenten wie die Wellenform 10' in Fig. 2 besitzt. Die Wellenform 14 besitzt
die Eigenschaft, daß die Abtastwerte sich um 4 bestimmte Amplitudenpegelwerte häufen. Die Wellenform 14 legt nahe,
daß sie mit guter Annäherung durch nur zwei Informationsbit pro Abtastung repräsentiert werden kann, so daß ein Kompressionsfaktor der Größe 6 im Vergleich zur Digitalisierung der 12-bit
Amplitude der Quellfunktion erhalten wird.
Die Fig. 5 zeigt dann eine Abtastwellenform 16, die als beste
Anpassungsrekonstruktion der Wellenform derFig. 4 aufgezeichnet ist, mit genau 4 Digitalisierungspegeln. Insbesondere wurde jede
Abtastung der Wellenform 14 in Fig. 4 analysiert und dann durch die naheliegendste 4 Pegel-Repräsentation angenähert. Die Erkennbarkeit
des Signals ist für Audiozwecke annehmbar, da die hauptsächliche Änderung des Signals in der Phasenlage der harmonischen
Bestandteile besteht.
Das Verfahren zum Entwickeln des mit minimalen Amplitudenpegeln versehenen Segmentes geschieht auf folgende Weise:
Wie Fig. 6 zeigt, wird der erste Schritt typischerweise mit Hilfe eines Computers ausgeführt, und zwar werden die Amplituden
und Phasen der harmonischen Bestandteile der· zeitabhängigen Wellenform (Schritt 21) ermittelt. Die harmonischen
Bestandteile werden vorzugsweise durch Fourier-Analyse des
betrachteten Zeitsegmentes erhalten, so daß sich eine Reihe von Amplitudenkoeffizienten und Phasenkoeffizienten für
trigonometrische Funktionen unterschiedlicher Ordnung ergibt. Theoretisch kann jede Reihe von transzendenten Funktionen
benutzt werden, um die harmonischen Bestandteile zu rekonstruieren, so lange Amplituden- und Phasenkomponenten getrennt
werden können. Als nächster Schritt werden einige oder alle Phasenkomponenten entweder willkürlich oder in einer bestimmten
Weise so geändert, daß sich eine neue zeitabhängige Wellenform mit dem gleichen Leistungsspektrum ergibt (Schritt 23).
Die sich ergebende Reihe von Gleichungen wird dann zunächst invers transformiert, um die zeitabhängige Wellenform aus
den Originalamplituden mit ungeänderten Phasen zu ermitteln. (Schritt 25) und dann die zeitabhängige Wellenform der
Originalamplituden mit geänderten Phasen (Schritt 27).
Die sich ergebenden zwei zeitabhängigen Wellenformen werden dann jeweils mit einer beschränkten Reihe von zugelassenen
zeitabhängigen Amplitudenwerten verglichen, um zu bestimmen, welche sich ergebende Wellenform besser durch die beschränkte
Reihe von zugelassenen Werten angenähert wird (Schritt 29). Falls die mittels des' Schrittes 23 geänderte Wellenform besser
durch beispielsweise 16 Pegelwerte approximiert wird, dann
werden die Phasenwerte der geänderten Wellenform statt den Phasenwerten der ungeänderten Wellenform in der Reihe von
freguenzabhängigen Gleichungen gespeichert (Schritt 31). Falls jedoch die geänderte Wellenform keine Verbesserung
der Approximation der originalen Wellenform ergibt, werden
% 3
- 1
die Phasenkomponenten der Reihe entsprechender frequenzabhängiger Gleichungen nochmals geändert (Schritt 23) und
eine neue zeitabhängige Wellenform rekonstruiert mit geänderten Phasen (Schritt 27) zum Vergleich mit der beschränkten
Reihe der zugelassenen zeitabhängigen Amplitudenpegelwerte (Schritt 29). Schließlich wird die erforderliche
zeitabhängige Wellenform erreicht, deren Leistungsspektrum innerhalb annehmbarer Grenzen äquivalent dem der originalen
zeitabhängigen Wellenform ist.
Verschiedene mathematische Optimierungstechniken sind für dieses Verfahren bekannt, die an einem Digitalrechner ausgeführt
werden können. Beispielsweise kann der Vergleich die Berechnung der Summe der Unterschiedquadrate an jedem
Punkt der bestimmten Wellenform und dem entsprechenden Punkt der repräsentativen Wellenform mit einer beschränkten
Reihe zugelassener Amplituden enthalten. Dabei wird dann nach dem kleinsten Quadratsummenwert optimiert.
Während das besprochene Beispiel einen stimmlosen Laut als Beispiel benutzte, ist das Verfahren auch gleich gut für
jedes Zeitinformationssignal geeignet, bei dem die Information in erster Linie im Leistungsspektrum statt in der Phaseninformation
des Signals sitzt. Beispielsweise werden alle Arten von Sprachlauten einschließlich stimmhaften Lauten, die in
erster Linie durch Amplitudentechniken erfaßt werden, in dieser Weise analysiert und erfindungsgemäß komprimiert.
Die Erfindung kann bei einem Kompaktsprachsynthesizer benutzt werden, wie er beispielsweise von der Firma National
Semiconductor, Santa Clara, California hergestellt wird, der die Prinzipien der zeitabhängigen Sprachsynthese benutzt.
Fig. 7 gibt ein Ausführungsbeispiel eines Gerätes 40 entsprechend der Erfindung wieder. Ein Speicher 42 speichert die
verarbeiteten und komprimierten Daten. Der Speicher wird über eine Steuerschaltung 44 adressiert, um Daten zu erzeugen
und an einen Zwischenprozessor 46 abzugeben, der das notwendige Ausgangssignal in Digitalform rekonstruiert. Die
Steuerschaltung 44 instruiert gleichzeitig den Zwischenprozessor 46. Das digitale Ausgangssignal des Zwischenprozessors
46 wird an einen Digital/Analogwandler 48 angelegt, der zum Ansteuern eines Verstärkers 50 benutzt
wird, welcher wiederum einen Lautsprecher 52 ansteuert.
Bei der vorangehenden Diskussion wurde prinzipiell die Optimierung von hörbaren Signalen angesprochen zur Sprachanalyse
,-komprimierung und-synthese. Die Erfindung kann
gleich gut auch bei anderen Informationen benutzt werden, bei denen der Informationsgehalt im wesentlichen auf die
Spektralcharakteristik des Signals statt auf die Phase begrenzt wird.
Claims (12)
- Verfahren und Vorrichtung zur zeitabhängigen Komprimierung und Synthese von hörbaren Signalen- Patentansprüche -( 1J Verfahren zum Komprimieren eines zeitabhängig aufgezeichneten Informationssignals, dadurch gekennzeichnet , daß das Informationssignal aufgenommen wird und die Phase der harmonischen Bestandteile des aufgenommenen Signals zur Erzeugung eines Äquivalentsignals nachgestellt wird, wobei das Äquivalentsignal Abtastamplitudenwerte bei ausgewählten Abtastzeitpunkten besitzt, die auf eine ausgewählte Maximalzahl von Amplitudenpegeln, kleiner als die Anzahl der zur Definierung des Informationssignals bei den ausgewählten Abtastzeiten benutzten Amplitudenpegelzahl, begrenzt sind und wobei das Äquivalentsignal ein Leistungsspektrum im wesentlichen gleich dem Leistungsspektrum des Informationssignals besitzt.
- 2. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß die Anzahl der zulässigen von Null verschiedenen Amplitudenspitzenwerte auf nicht mehr als zwei Größenpegel begrenzt wird.
- 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet , daß die zulässigen von Null verschiedenen Amplitudenspitzenwerte bezogen auf einen Referenzpegel Null symmetrisch sind.
- 4. Vorrichtung zum Komprimieren eines zeitabhängigen Informationssignals, dadurch gekennzeichnet , daß eine eine Aufnahme des Informationssignals bewirkende Einrichtung vorgesehen ist und eine mit der Aufnahmeeinrichtung gekoppelte Einrichtung zum Nachstellen der Phase von harmonischen Komponenten des aufgenommenen Informationssignals zur Erzeugung eines Äquivalentsignals mit einem im wesentlichen dem des Informationssignals gleichen Leistungsspektrum, wobei die Einstelleinrichtung weiter das Äquivalentsignal als eine serielle Folge von abgetasteten Amplitudenwerten bei ausgewählten Abtastzeiten erzeugt und die Anzahl der Amplitudenwerte auf eine ausgewählte Maximalzahl von Amplitudenpegeln begrenzt ist, die kleiner als die Anzahl der bei der Definierung des Informationssignals an den ausgewählten Abtastzeiten benutzten Amplitudenpegelzahl ist.
- 5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß eine die Anzahl der zulässigen von Null unterschiedlichen Amplitudenwerte bei ausgewählten Abtastzeiten auf nicht mehr als zwei Größenpegel begrenzende Einrichtung vorgesehen ist.
- 6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß eine die zulässigen von Null verschiedenen Amplitudenwerte bei ausgewählten Abtastzeiten auf mit bezug auf einen Nullreferenzpegel symmetrischeWerte begrenzende Einrichtung vorgesehen ist.
- 7. Verfahren zum Komprimieren eines zeitabhängig aufgezeichneten Informationssignals, dessen Informationsinhalt hauptsächlich in seinem Leistungsspektrum sitzt, dadurch gekennzeichnet , daß ein begrenztes Segment des zeitabhängigen Signals digitalisiert wird, daß die digitalisierte Wellenform zur Bestimmung von Amplituden- und Phasenparametern, bezogen auf harmonisch bezogene Transzendenzfunktionen, analysiert wird, und daß die Größe und das Vorzeichen von ausgewählten Phasenparametern ohne Änderung der Amplitudenparameter zum Erzielen eines äquivalenten zeitabhängigen Signals geändert wird, dessen zeitabhängige Amplitude durch eine ausgewählte begrenzte Maximalzahl von endlichen Amplitudenwerten rekonstruierbar ist, die kleiner als die Anzahl von zur Digitalisierung des Informationssignals erforderlichen Amplitudenwerten ist.
- 8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Änderung durch Fourier-Transformation des zeitabhängigen Informationssignals in die Frequenzabhängigkeit durchgeführt wird, um Frequenz- und Phasenkomponenten des Informationssignals zu bestimmen.
- 9. Vorrichtung zur Synthese eines im wesentlichen einem zeitabhängigen Quellsignal, dessen Informationsgehalt hauptsächlich in seinem Leistungsspektrum vorhanden ist, äquivalenten Signals aus komprimierter Information, dadurch gekennzeichnet, daß eine Speichereinrichtung (42) zum Speichern digitaler Darstellungen der Amplitude von Segmenten eines komprimierten zeitabhängigen Signals und zum Speichern von die Segmente mit dem Ausgangssignal korrelierender Instruktionen vorgesehen ist und eine Einrichtung, die in Abhängigkeit von den digitalen Repräsentationen und den Instruktionssignalen das Ausgangssignal aus den Segmenten konstruiert,1)99 -· ··wobei die Segmente eine begrenzte Maximalzahl von endlichen Amplitudenwerten bei ausgewählten Abtastzeiten besitzt und das Ausgangssignal ein im wesentlichen gleiches Leistungsspektrum, jedoch unterschiedlicher Phasenkomponenten gegenüber dem Quellensignal besitzt.
- 10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet , daß Einrichtungen (46) zum Begrenzen der Anzahl der von Null verschiedenen Amplitudenwerte bei ausgewählten Abtastzeiten auf nicht mehr als zwei Größenpegel vorgesehen sind.
- 11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet , daß zusätzlich Einrichtungen zur Beschränkung der zulässigen, von Null verschiedenen, mit bezug auf einen Null-Referenzpegel symmetrischen Amplitudenwerte vorgesehen sind.
- 12. Verfahren zur Synthese eines im wesentlichen einem zeitabhängigen Signal, dessen Informationsgehalt hauptsächlich in seinem Leistungsspektrum sitzt, äquivalenten Ausgangssignalsaus komprimierter Information, dadurch gekennzeichnet , daß digitale Repräsentationen der Amplitude von Segmenten eines komprimierten zeitabhängigen Signals mit Repräsentationen von Instruktionssignalen gespeichert werden, welche die Segmente mit dem Ausgangssignal korrelieren, und daß das Ausgangssignal aus den Segmenten in Abhängigkeit von den Instruktionssignalen konstruiert wird, wobei die Segmente eine begrenzte Maximalzahl von endlichen Amplitudenwerten bei ausgewählten Abtastzeiten besitzen und das Ausgangssignal ein dem Leistungsspektrum des Quellsignales im wesentlichen äquivalentes Leistungsspektrum, jedoch von denen des Quellsignals unterschiedliche Phasenkomponenten besitzt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/335,312 US4433434A (en) | 1981-12-28 | 1981-12-28 | Method and apparatus for time domain compression and synthesis of audible signals |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3228757A1 true DE3228757A1 (de) | 1983-07-07 |
Family
ID=23311245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823228757 Withdrawn DE3228757A1 (de) | 1981-12-28 | 1982-08-02 | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen |
Country Status (3)
Country | Link |
---|---|
US (1) | US4433434A (de) |
JP (1) | JPS58117599A (de) |
DE (1) | DE3228757A1 (de) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6145297A (ja) * | 1984-08-09 | 1986-03-05 | カシオ計算機株式会社 | 電子楽器 |
JP2547549B2 (ja) * | 1986-10-04 | 1996-10-23 | 株式会社河合楽器製作所 | 電子楽器 |
JPH0727397B2 (ja) * | 1988-07-21 | 1995-03-29 | シャープ株式会社 | 音声合成装置 |
WO1991006944A1 (en) * | 1989-10-25 | 1991-05-16 | Motorola, Inc. | Speech waveform compression technique |
US5248845A (en) * | 1992-03-20 | 1993-09-28 | E-Mu Systems, Inc. | Digital sampling instrument |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5217378A (en) * | 1992-09-30 | 1993-06-08 | Donovan Karen R | Painting kit for the visually impaired |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
US5692098A (en) * | 1995-03-30 | 1997-11-25 | Harris | Real-time Mozer phase recoding using a neural-network for speech compression |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5803748A (en) | 1996-09-30 | 1998-09-08 | Publications International, Ltd. | Apparatus for producing audible sounds in response to visual indicia |
US5899974A (en) * | 1996-12-31 | 1999-05-04 | Intel Corporation | Compressing speech into a digital format |
US6754265B1 (en) * | 1999-02-05 | 2004-06-22 | Honeywell International Inc. | VOCODER capable modulator/demodulator |
GB2398981B (en) * | 2003-02-27 | 2005-09-14 | Motorola Inc | Speech communication unit and method for synthesising speech therein |
CN105765655A (zh) * | 2013-11-22 | 2016-07-13 | 高通股份有限公司 | 高频带译码中的选择性相位补偿 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1463980A (en) * | 1973-10-17 | 1977-02-09 | Gen Electric Co Ltd | Electrical filters |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
US4194427A (en) * | 1978-03-27 | 1980-03-25 | Kawai Musical Instrument Mfg. Co. Ltd. | Generation of noise-like tones in an electronic musical instrument |
US4327419A (en) * | 1980-02-22 | 1982-04-27 | Kawai Musical Instrument Mfg. Co., Ltd. | Digital noise generator for electronic musical instruments |
US4395703A (en) * | 1981-06-29 | 1983-07-26 | Motorola Inc. | Precision digital random data generator |
-
1981
- 1981-12-28 US US06/335,312 patent/US4433434A/en not_active Expired - Lifetime
-
1982
- 1982-08-02 DE DE19823228757 patent/DE3228757A1/de not_active Withdrawn
- 1982-12-28 JP JP57234869A patent/JPS58117599A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US4433434A (en) | 1984-02-21 |
JPS58117599A (ja) | 1983-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE60103086T2 (de) | Verbesserung von quellcodierungssystemen durch adaptive transposition | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69932786T2 (de) | Tonhöhenerkennung | |
DE60212696T2 (de) | Bandbreitenvergrösserung für audiosignale | |
EP1741039B1 (de) | Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung | |
DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
DE69534942T2 (de) | System zur sprecher-identifizierung und-überprüfung | |
DE3228757A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen | |
DE69826446T2 (de) | Stimmumwandlung | |
DE69725670T2 (de) | Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
EP1280138A1 (de) | Verfahren zur Analyse von Audiosignalen | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE3228756A1 (de) | Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen | |
DE60305716T2 (de) | Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals | |
WO2005122135A1 (de) | Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung | |
DE60202161T2 (de) | Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache | |
DE60105576T3 (de) | Verfahren und vorrichtung zur spektralen anreicherung | |
DE3006339C2 (de) | Sprachsyntesizer | |
DE2519483A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE60024403T2 (de) | Verfahren zur extraktion von klangquellen-informationen | |
DE4033350B4 (de) | Verfahren und Vorrichtung für die Sprachverarbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |