DE3228757A1 - Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen - Google Patents

Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen

Info

Publication number
DE3228757A1
DE3228757A1 DE19823228757 DE3228757A DE3228757A1 DE 3228757 A1 DE3228757 A1 DE 3228757A1 DE 19823228757 DE19823228757 DE 19823228757 DE 3228757 A DE3228757 A DE 3228757A DE 3228757 A1 DE3228757 A1 DE 3228757A1
Authority
DE
Germany
Prior art keywords
signal
amplitude
time
dependent
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19823228757
Other languages
English (en)
Inventor
Forrest Shrago Berkeley Calif. Mozer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of DE3228757A1 publication Critical patent/DE3228757A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Description

Die Erfindung betrifft ein Informations-Komprimierungsverfahren, das auf hörbare Töne anwendbar isty und insbesondere betrifft die Erfindung Sprach-Komprimierungs-,Speicherungs-,-Übertragungsund Syntheseverfahren. Dabei ist die Erfindung auf zeitabhängige Sprachkomprimierung und -synthese anwendbar. Die Erfindung findet auch Anwendung auf Gebieten, bei denen der Informationsgehalt im Leistungsspektrum, jedoch nicht in den Phasenkomponenten des Signals beruht.
Normale Sprach- und ähnliche hörbare Töne enthalten etwa 100.000 Informationsbit/s. Die Speicherung und Übertragung großer Mengen solcher Information kann sich aus Kostengründen, und wegen der nötigen Bandbreite und dem notwendigen Speicherplatz verbieten. Es besteht deswegen ein dringendes Bedürfnis, die Speicherung und Übertragung von irgendwelchen redundanten oder sonst unnötigen Informationsanteilen bei Sprache und ähnlichen hörbaren Signalen zu eliminieren. Es wurden Sprachkomprimierungs- und -Syntheseverfahren entwickelt, um dieses Problem der Informationsspeicherung und -Übertragung zu behandeln.
Komprimierungsverfahren besitzen den Vorteil, daß der Informationsgehalt der benutzten Wellenformen vermindert wird, um so die erforderliche Übertragungsbandbreite und den nötigen Speicherraum zu verringern. Dabei besteht die Notwendigkeit, den Informationsgehalt der komprimierten Information bei geringstmöglicher Verschlechterung der Signalerkennbarkeit und -qualität zu erreichen.
Es wurde festgestellt, daß Sprach- und ähnliche hörbare Töne bestimmte charakteristische Eigenschaften zeigen, die zur Minimalisierung der Informationsredundanz bei gleichzeitiger Beibehaltung der wesentlichen Qualitätseigenschaften ausgenutzt werden können. Die Energiequelle kann beispielsweise entweder eine stimmhafte oder eine stimmlose Anregung sein. Beim Sprechen wird stimmhafte Anregung durch periodisches Oszillieren der Stimmbänder mit einer Frequenz erreicht, die die Tonfrequenz
3 22B757
genannt wird, und zwar während minimaler Zeitlängen, die die Tonzeitlängen genannt werden. Die Vokaltöne ergeben sich normalerweise aus einer derartigen stimmhaften Anregung.
Stimmlose Anregung wird dadurch erreicht, daß Luft durch das Sprachsystem durchgeleitet wird, ohne die Stimmbänder zur Schwingung anzuregen. Als Beispiele von stimmlosen Anregungen können die Verschlußlaute wie "P" (wie z.B. in "Panne"), "T" (wie in "Tanne") und "K" (wie z.B. in "Kanne"), die Reibelaute wie "s" (z.B. in "Tasse"), "f" (wie in "Fink"), "h" (wie in "Hans"), "sch" (wie in "Schule"), die beiden "ch"-Laute (wie in "nicht" bzw. "Nacht"), und der englische "th"-Laut (wie z.B. in "three") und alle geflüsterten Sprachlaute genannt werden. Stimmhafte Laute zeigen eine quasiperiodische Amplitudenänderung mit der Zeit, während stimmlose Laute, wie die Reibelaute, Verschlußlaute und andere hörbare Signale, z.B. bewegte Luft, Schließen einer Tür, das Geräusch von Zusammenstößen, von Düsenflugzeugen und dergleichen keinen derartigen guasiperiodischen Aufbau besitzen, sondern eher dem weißen Zufallsrauschen ähneln.
Es ist bekannt, daß die Erkennbarkeit von Sprachphonemen und stimmlosen Lauten durch das Leistungsspektrum und nicht durch die Phasenwinkel des zeitabhängig aufgenommenen Signals bestimmt werden. Das Leistungsspektrum wird durch das menschliche Gehirn dadurch analysiert, daß eine Signaldurchschnittsbildung während einer Zeit in der Größenordnung von 10 ms erfolcjt.
Ein mit der Speicherung von zeitabhängiger Amplitudeninformation verbundenes Problem besteht in der anscheinenden Notwendigkeit, für relativ hohe Auflösung bei der Amplitudenspeicherung zu sorgen. Beispielsweise ist eine Genauigkeit von 8 bis 12 Amplitudenbit erforderlich, um die Amplitude jedes nacheinander aufgezeichneten Abtastpunktes genau zu kategorisieren. Jeder Amplitudenwert entspricht in Abhängigkeit vom Vorzeichen zwei möglichenDigitalisierungen. Die allgemeine Erfahrung lehrt, daß eine Reduzierung der Anzahl von
Amplitudenpegelwerten die Auflösung des Signales reduziert und dadurch die Erkennbarkeit verschlechtert. Es wird in dieser Hinsicht also ein Verfahren gebraucht, die Auflösung der Wellenform ohne unnötige Verschlechterung der Erkennbarkeit des sich ergebenden hörbaren Signals zu reduzieren.
Seit mehreren Jahrzehnten wurde die Komprimierung und die Synthese von Sprachsignalen und dergleichen untersucht, siehe z.B. Flanagan, Speech Analysis, Synthesis and Perception, Springer-Verlag, 19 72 . Das Interesse an diesem Thema hat beschleunigt zugenommen mit der gestiegenen technischen Fähigkeit, komplizierte elektronische Schaltungen in einem einzelnen integrierten Schaltkreis (IC) durch das Großmaßstabs-Integrationsverfahren herzustellen.
Kompressions- und Syntheseverfahren werden allgemein in zwei Kategorien unterteilt, nämlich frequenzabhängige Verfahren und zeitabhängige Verfahren. Diese Verfahren unterscheiden sich bezüglich der gespeicherten und benutzten Datenart. Bei der freguenzabhängigen Synthese wird die Komprimierung dadurch erreicht, daß bei jedem Sprachsegment oder jedem Tonhöhenzeitraum nur Information über die wichtigen Frequenzen gespeichert wird.
Beispiele von frequenzabhängigen Synthesizern sind in den US-PS 3 575 555 und 3 588 353 gegeben.
Zeitabhängige Synthesizer speichern im Gegensatz dazu eine repräsentative Version des Signals in Form von zeitabhängig aufgenommenen Amplitudenwerten.
Bekannte digitale zeitabhängige Komprimierungsverfahren sind in den US-PS 3 641 496, 3 892 919 und 4 214 125 beschrieben.
Im Jahre 1975 wurde der erste zeitabhängige Sprachsynthesizer mit LSI-(large-scale-integration)Technik hergestellt, der die Komprimierungstechnik nach US-PS 4 214 125 benutzt. Seit der
3ZZSVbY
Einführung der zeitabhängigen Sprachsynthesizer sind verschiedene Abarten von Sprachsynthesizergeräten mit LSI-Technik für eine Vielzahl von Anwendungsmöglichkeiten, insbesondere in Verbrauchermärkten, entworfen und eingeführt worden.
Ein Verfahren zum Speichern und Auslesen von musikalischen Wellenzügen, die durch leicht identifizierbare Periodizität ausgezeichnet sind, wird in US-PS 3 763 364 beschrieben. In dieser Schrift und in der US-PS 4 214 125 werden Phasenangleichverfahren zur Erreichung von äquivalenten Wellenformen benutzt, die sich durch Zeitsymmetrie auszeichnen. Keine der beiden Schriften schlägt jedoch eine Möglichkeit vor, um die für stimmlose Laute charakteristische Aperiodizität zu erzielen, oder zur Optimierung der Amplitudenauflösung einen Phasenangleich zu benutzen.
Die Information eines zeitabhängig aufgezeichneten Signals, dessen Informationsgehalt in erster Linie im Leistungsspektrum (im Gegensatz zur Phase) enthalten ist, z.B. ausreichend unterteilte Sprachlaute, kann mit minimaler Verschlechterung der Auflösung dadurch digitalamplituden-komprimiert werden, daß ein äquivalentes Signal mit diskreten Amplitudenpegeln mit dem gleichen Leistungsspektrum, aber unterschiedlicher Phase abgeleitet wird. Das Äquivalentsignal wird dadurch abgeleitet, daß die Phase der harmonischen Bestandteile des Quellensignals so eingestellt wird, daß ein bestmöglicher Angleich an eine ausgewählte begrenzte Anzahl von diskreten Pegeln bei vorbestimmten Zeitabständen erreicht wird. Die Analyse der harmonischen Bestandteile geschieht vorzugsweise durch Prüfung der Fourier-Transformation eines abgetasteten Abschnittes des zeitabhängig aufgezeichneten Quellensignals. Die Erfindung findet Anwendung bei der Komprimierung und Synthese von Signalen, die hörbar erfaßt werden sollen, wie Sprache, die sowohl aus stimmhaften (quasiperiodischen) als auch stimmlosen (aperiodischen) Lauten besteht.
Die Komprimierungstechnik kann separat oder kombiniert mit anderen zeitabhängigen Komprimierungs- und Synthesetechniken eingesetzt werden, um ein Ausgangssignal zu erzeugen, das minimalen Speicherraum und minimale Bandbreite erfordert.
Eines der primären Ziele der Erfindung besteht in der Entwicklung neuer Verfahren zum Komprimieren des Informationsgehaltes von Sprachsignalen und ähnlichen hörbaren Wellenformen ohne wesentliche Verschlechterung der Qualität der sich ergebenden Laute, um den Kostenaufwand und die Größe der Sprachsynthesegeräte zu reduzieren. Insbesondere besteht ein Ziel der Erfindung darin, ein insbesondere für zeitabhängige Synthese geeignetes Komprimierungsverfahren zu schaffen.
Ein weiteres Ziel der Erfindung besteht darin, die Menge der zum Speichern oder Übertragen erforderlichen digitalen Information zu reduzieren, um dadurch die nötige Bandbreite und den notwendigen Speicherraum bei einem Analogausgabe-Signalsystem herabzusetzen.
Die Erfindung wird nachfolgend anhand der Zeichnung näher erläutert; in dieser zeigt:
Fig. 1 ein Wellenformdiagramm der Amplitude eines Signals als Funktion der Zeit,
Fig. 2 eine Rekonstruktion des Wellenformdiagramms aus Fig. 1 aus 128 Abtaststellen,
Fig. 3 ein Wellenformdiagramm der Amplitude als Funktion der Zeit mit dem gleichen Leistungsspektrum wie das Wellenformdiagramm in Fig. 2, mit einer Anhäufung der Amplitudenwerte um 16 diskrete Amplitudenpegel,
32ZSVbY
St» · ι
>l »ill >■>
- 10 -
Fig. 4 ein WellenformdiagraiTim als Funktion der Zeit eines Signals mit dem gleichen Leistungsspektrum wie dem in Fig..2 gezeigten, mit einer Häufung der Amplitudenwerte um vier diskrete Amplitudenpegel,
Fig. 5 ein Wellenformdiagramm einer Signalamplitude als Funktion der Zeit, bei dem die Amplituden auf genau vier mögliche Amplitudenwerte beschränkt sind,
Fig. 6 eine Darstellung nach Art eines Ablaufdiagramms der Entwicklung eines zeitabhängigen Signales mit einer begrenzten Reihe zugelassener Amplitudenpegel, das ein einem zeitabhängigen Quellensignal äquivalentes Leistungsspektrum besitzt, und
Fig. 7 ein Blockschaltbild eines zeitabhängig arbeitenden Sprachsynthesizers nach der Erfindung.
Da die Erkennbarkeit verschiedener stimmhafter und stimmloser Laute in dem Leistungsspektrum und nicht in den Phasenwinkeln liegt, kann man sich verschiedene Freiheiten bezüglich der Phasencharakteristik der aperiodischen (stimmlosen) und quasiperiodischen (stimmhaften) Laute erlauben. Beispielsweise zeigt eine Fourier-Analyse eines Lautes, daß eine anscheinend unbegrenzte Anzahl von äquivalenten Signalen existiert, deren Leistungsspektren äquivalent einem Quellensignal sind, die sich jedoch nur in der Phase unterscheiden. Beispielsweise sei die Amplitude einer Wellenform in Funktion der Zeit F(t) durch die folgende Gleichung repräsentiert:
F(t) = Σ An cos( + 0n) (1)
wobei T die Zeitdauer der betrachteten Wellenform und A und
0 Konstanten sind, die so bestimmt werden, daß die Gleichung (1) genau die Original- oder Quellenwellenform innerhalb der Abnahmegenauigkeit wiedergibt.
Beispielsweise werde eine Wellenform betrachtet, die 128 Digitalisierungen enthält. Die Gleichung (1) muß dann 128 mal erfüllt werden, so daß die Wellenform als aus 128 Gleichungen bestehend angesehen werden kann mit 128 unbekannten Parametern, für die es eine Lösung gibt. Die Hälfte dieser Unbekannten besteht in den Amplituden A , während die andere Hälfte dieser Unbekannten durch die Phasenwinkel 0 gebildet wird. Nur die Amplituden A brauchen der Quellenwellenform äquivalent sein zur hörbaren Information, da das menschliche Ohr im wesentlichen für Phasenbeziehungen unempfindlich ist.
Erfindungsgemäß kann der Informationsgehalt sowohl stimmhafter wie stimmloser Laute durch Phaseneinstellung des Leistungsspektrums eines einem Quellensignal äquivalenten Signals so optimiert werden, daß die Amplituden des iiquivalentsignals auf eine ausgewählte diskrete Maximalzahl von gewählten Werten begrenzt wird. Ein solches Verfahren wird anhand der Figuren
1 bis 5 dargestellt.
In Fig. 1 ist beispielsweise ein Amplitudenverlauf einer Wellenform 10 eines Phonems, in diesem Falle des Phonems "s" gezeigt. Fig. 2 zeigt eine Wellenform 10', die eine 10 ms-Digitalisierung des Phonems nach Fig. 1 ist und zwar mit 128 Abtastwerten,die auf 12bit-Genauigkeit digitalisiert sind. Folglich gibt es 40.96 mögliche Amplitudenpegel dieser 128 Abtastwerte. Die Erkennbarkeit des Segmentes mit 128 Abtastwerten ist nun 64 Amplitudenwerten A der Gleichung (1) zugeordnet und hat nichts mit den 64 Phasenwerten 0 zu tun. Damit können einige oder sogar alle 64 Phasenwerte im wesentlichen willkürlich geändert werden, ohne die Erkennbarkeit der Wellenform zu ändern, auch wenn die Änderung der Phasen im wesentlichen die Amplitudenwerte als Funktion der Zeit verändert.
.. .. J Zi:8,7
- 12 -
Fig. 3 zeigt nun eine Wellenform 12 aus vielen möglichen Wellenformen, die ein Leistungsspektrum äquivalent zu dem der Wellenform 10' in Fig. 2 besitzen. Wellenform 12 wurde so erhalten, daß wahlweise die Phase der Fourier-Bestandteile 0 in Gleichung (1) angeglichen wurde, welche die mit Abtastwerten erhaltene Wellenform 10' der Fig. 2 bilden. Die sich ergebende Wellenform 12 in Fig. 3 besitzt die interessante Eigenschaft, daß ihre 128 Digitalisierungen sich um nur 16 Amplitudenpegel haufen. Die 16 Amplitudenpegel können durch nur vier Informationsbit repräsentiert werden. Im Vergleich zur 12-bit Amplitudendigitalisierung des Quellensignals 10 wird so ein Kompressionsfaktor 3 erreicht.
Es kann jedoch auch eine wesentlich größere Komprimierung erreicht werden ohne eine unzulässige Verschlechterung des Signales herbeizuführen, durch Einstellen der Phasenkomponenten in der Weise, daß die zeitabhängig gewonnenen Amplitudenwellenform-Abtastungen sich um 8 oder sogar nur 4 Amplitudenpegel haufen. So zeigt Fig. 4 eine Wellenform 14 als Funktion der Zeit, die die gleichen Fourier-Amplitudenkomponenten wie die Wellenform 10' in Fig. 2 besitzt. Die Wellenform 14 besitzt die Eigenschaft, daß die Abtastwerte sich um 4 bestimmte Amplitudenpegelwerte häufen. Die Wellenform 14 legt nahe, daß sie mit guter Annäherung durch nur zwei Informationsbit pro Abtastung repräsentiert werden kann, so daß ein Kompressionsfaktor der Größe 6 im Vergleich zur Digitalisierung der 12-bit Amplitude der Quellfunktion erhalten wird.
Die Fig. 5 zeigt dann eine Abtastwellenform 16, die als beste Anpassungsrekonstruktion der Wellenform derFig. 4 aufgezeichnet ist, mit genau 4 Digitalisierungspegeln. Insbesondere wurde jede Abtastung der Wellenform 14 in Fig. 4 analysiert und dann durch die naheliegendste 4 Pegel-Repräsentation angenähert. Die Erkennbarkeit des Signals ist für Audiozwecke annehmbar, da die hauptsächliche Änderung des Signals in der Phasenlage der harmonischen Bestandteile besteht.
Das Verfahren zum Entwickeln des mit minimalen Amplitudenpegeln versehenen Segmentes geschieht auf folgende Weise:
Wie Fig. 6 zeigt, wird der erste Schritt typischerweise mit Hilfe eines Computers ausgeführt, und zwar werden die Amplituden und Phasen der harmonischen Bestandteile der· zeitabhängigen Wellenform (Schritt 21) ermittelt. Die harmonischen Bestandteile werden vorzugsweise durch Fourier-Analyse des betrachteten Zeitsegmentes erhalten, so daß sich eine Reihe von Amplitudenkoeffizienten und Phasenkoeffizienten für trigonometrische Funktionen unterschiedlicher Ordnung ergibt. Theoretisch kann jede Reihe von transzendenten Funktionen benutzt werden, um die harmonischen Bestandteile zu rekonstruieren, so lange Amplituden- und Phasenkomponenten getrennt werden können. Als nächster Schritt werden einige oder alle Phasenkomponenten entweder willkürlich oder in einer bestimmten Weise so geändert, daß sich eine neue zeitabhängige Wellenform mit dem gleichen Leistungsspektrum ergibt (Schritt 23). Die sich ergebende Reihe von Gleichungen wird dann zunächst invers transformiert, um die zeitabhängige Wellenform aus den Originalamplituden mit ungeänderten Phasen zu ermitteln. (Schritt 25) und dann die zeitabhängige Wellenform der Originalamplituden mit geänderten Phasen (Schritt 27).
Die sich ergebenden zwei zeitabhängigen Wellenformen werden dann jeweils mit einer beschränkten Reihe von zugelassenen zeitabhängigen Amplitudenwerten verglichen, um zu bestimmen, welche sich ergebende Wellenform besser durch die beschränkte Reihe von zugelassenen Werten angenähert wird (Schritt 29). Falls die mittels des' Schrittes 23 geänderte Wellenform besser durch beispielsweise 16 Pegelwerte approximiert wird, dann werden die Phasenwerte der geänderten Wellenform statt den Phasenwerten der ungeänderten Wellenform in der Reihe von freguenzabhängigen Gleichungen gespeichert (Schritt 31). Falls jedoch die geänderte Wellenform keine Verbesserung der Approximation der originalen Wellenform ergibt, werden
% 3
- 1
die Phasenkomponenten der Reihe entsprechender frequenzabhängiger Gleichungen nochmals geändert (Schritt 23) und eine neue zeitabhängige Wellenform rekonstruiert mit geänderten Phasen (Schritt 27) zum Vergleich mit der beschränkten Reihe der zugelassenen zeitabhängigen Amplitudenpegelwerte (Schritt 29). Schließlich wird die erforderliche zeitabhängige Wellenform erreicht, deren Leistungsspektrum innerhalb annehmbarer Grenzen äquivalent dem der originalen zeitabhängigen Wellenform ist.
Verschiedene mathematische Optimierungstechniken sind für dieses Verfahren bekannt, die an einem Digitalrechner ausgeführt werden können. Beispielsweise kann der Vergleich die Berechnung der Summe der Unterschiedquadrate an jedem Punkt der bestimmten Wellenform und dem entsprechenden Punkt der repräsentativen Wellenform mit einer beschränkten Reihe zugelassener Amplituden enthalten. Dabei wird dann nach dem kleinsten Quadratsummenwert optimiert.
Während das besprochene Beispiel einen stimmlosen Laut als Beispiel benutzte, ist das Verfahren auch gleich gut für jedes Zeitinformationssignal geeignet, bei dem die Information in erster Linie im Leistungsspektrum statt in der Phaseninformation des Signals sitzt. Beispielsweise werden alle Arten von Sprachlauten einschließlich stimmhaften Lauten, die in erster Linie durch Amplitudentechniken erfaßt werden, in dieser Weise analysiert und erfindungsgemäß komprimiert.
Die Erfindung kann bei einem Kompaktsprachsynthesizer benutzt werden, wie er beispielsweise von der Firma National Semiconductor, Santa Clara, California hergestellt wird, der die Prinzipien der zeitabhängigen Sprachsynthese benutzt. Fig. 7 gibt ein Ausführungsbeispiel eines Gerätes 40 entsprechend der Erfindung wieder. Ein Speicher 42 speichert die verarbeiteten und komprimierten Daten. Der Speicher wird über eine Steuerschaltung 44 adressiert, um Daten zu erzeugen
und an einen Zwischenprozessor 46 abzugeben, der das notwendige Ausgangssignal in Digitalform rekonstruiert. Die Steuerschaltung 44 instruiert gleichzeitig den Zwischenprozessor 46. Das digitale Ausgangssignal des Zwischenprozessors 46 wird an einen Digital/Analogwandler 48 angelegt, der zum Ansteuern eines Verstärkers 50 benutzt wird, welcher wiederum einen Lautsprecher 52 ansteuert.
Bei der vorangehenden Diskussion wurde prinzipiell die Optimierung von hörbaren Signalen angesprochen zur Sprachanalyse ,-komprimierung und-synthese. Die Erfindung kann gleich gut auch bei anderen Informationen benutzt werden, bei denen der Informationsgehalt im wesentlichen auf die Spektralcharakteristik des Signals statt auf die Phase begrenzt wird.

Claims (12)

  1. Verfahren und Vorrichtung zur zeitabhängigen Komprimierung und Synthese von hörbaren Signalen
    - Patentansprüche -
    ( 1J Verfahren zum Komprimieren eines zeitabhängig aufgezeichneten Informationssignals, dadurch gekennzeichnet , daß das Informationssignal aufgenommen wird und die Phase der harmonischen Bestandteile des aufgenommenen Signals zur Erzeugung eines Äquivalentsignals nachgestellt wird, wobei das Äquivalentsignal Abtastamplitudenwerte bei ausgewählten Abtastzeitpunkten besitzt, die auf eine ausgewählte Maximalzahl von Amplitudenpegeln, kleiner als die Anzahl der zur Definierung des Informationssignals bei den ausgewählten Abtastzeiten benutzten Amplitudenpegelzahl, begrenzt sind und wobei das Äquivalentsignal ein Leistungsspektrum im wesentlichen gleich dem Leistungsspektrum des Informationssignals besitzt.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeich net, daß die Anzahl der zulässigen von Null verschiedenen Amplitudenspitzenwerte auf nicht mehr als zwei Größenpegel begrenzt wird.
  3. 3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet , daß die zulässigen von Null verschiedenen Amplitudenspitzenwerte bezogen auf einen Referenzpegel Null symmetrisch sind.
  4. 4. Vorrichtung zum Komprimieren eines zeitabhängigen Informationssignals, dadurch gekennzeichnet , daß eine eine Aufnahme des Informationssignals bewirkende Einrichtung vorgesehen ist und eine mit der Aufnahmeeinrichtung gekoppelte Einrichtung zum Nachstellen der Phase von harmonischen Komponenten des aufgenommenen Informationssignals zur Erzeugung eines Äquivalentsignals mit einem im wesentlichen dem des Informationssignals gleichen Leistungsspektrum, wobei die Einstelleinrichtung weiter das Äquivalentsignal als eine serielle Folge von abgetasteten Amplitudenwerten bei ausgewählten Abtastzeiten erzeugt und die Anzahl der Amplitudenwerte auf eine ausgewählte Maximalzahl von Amplitudenpegeln begrenzt ist, die kleiner als die Anzahl der bei der Definierung des Informationssignals an den ausgewählten Abtastzeiten benutzten Amplitudenpegelzahl ist.
  5. 5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, daß eine die Anzahl der zulässigen von Null unterschiedlichen Amplitudenwerte bei ausgewählten Abtastzeiten auf nicht mehr als zwei Größenpegel begrenzende Einrichtung vorgesehen ist.
  6. 6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß eine die zulässigen von Null verschiedenen Amplitudenwerte bei ausgewählten Abtastzeiten auf mit bezug auf einen Nullreferenzpegel symmetrische
    Werte begrenzende Einrichtung vorgesehen ist.
  7. 7. Verfahren zum Komprimieren eines zeitabhängig aufgezeichneten Informationssignals, dessen Informationsinhalt hauptsächlich in seinem Leistungsspektrum sitzt, dadurch gekennzeichnet , daß ein begrenztes Segment des zeitabhängigen Signals digitalisiert wird, daß die digitalisierte Wellenform zur Bestimmung von Amplituden- und Phasenparametern, bezogen auf harmonisch bezogene Transzendenzfunktionen, analysiert wird, und daß die Größe und das Vorzeichen von ausgewählten Phasenparametern ohne Änderung der Amplitudenparameter zum Erzielen eines äquivalenten zeitabhängigen Signals geändert wird, dessen zeitabhängige Amplitude durch eine ausgewählte begrenzte Maximalzahl von endlichen Amplitudenwerten rekonstruierbar ist, die kleiner als die Anzahl von zur Digitalisierung des Informationssignals erforderlichen Amplitudenwerten ist.
  8. 8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Änderung durch Fourier-Transformation des zeitabhängigen Informationssignals in die Frequenzabhängigkeit durchgeführt wird, um Frequenz- und Phasenkomponenten des Informationssignals zu bestimmen.
  9. 9. Vorrichtung zur Synthese eines im wesentlichen einem zeitabhängigen Quellsignal, dessen Informationsgehalt hauptsächlich in seinem Leistungsspektrum vorhanden ist, äquivalenten Signals aus komprimierter Information, dadurch gekennzeichnet, daß eine Speichereinrichtung (42) zum Speichern digitaler Darstellungen der Amplitude von Segmenten eines komprimierten zeitabhängigen Signals und zum Speichern von die Segmente mit dem Ausgangssignal korrelierender Instruktionen vorgesehen ist und eine Einrichtung, die in Abhängigkeit von den digitalen Repräsentationen und den Instruktionssignalen das Ausgangssignal aus den Segmenten konstruiert,
    1)99 -· ··
    wobei die Segmente eine begrenzte Maximalzahl von endlichen Amplitudenwerten bei ausgewählten Abtastzeiten besitzt und das Ausgangssignal ein im wesentlichen gleiches Leistungsspektrum, jedoch unterschiedlicher Phasenkomponenten gegenüber dem Quellensignal besitzt.
  10. 10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet , daß Einrichtungen (46) zum Begrenzen der Anzahl der von Null verschiedenen Amplitudenwerte bei ausgewählten Abtastzeiten auf nicht mehr als zwei Größenpegel vorgesehen sind.
  11. 11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet , daß zusätzlich Einrichtungen zur Beschränkung der zulässigen, von Null verschiedenen, mit bezug auf einen Null-Referenzpegel symmetrischen Amplitudenwerte vorgesehen sind.
  12. 12. Verfahren zur Synthese eines im wesentlichen einem zeitabhängigen Signal, dessen Informationsgehalt hauptsächlich in seinem Leistungsspektrum sitzt, äquivalenten Ausgangssignalsaus komprimierter Information, dadurch gekennzeichnet , daß digitale Repräsentationen der Amplitude von Segmenten eines komprimierten zeitabhängigen Signals mit Repräsentationen von Instruktionssignalen gespeichert werden, welche die Segmente mit dem Ausgangssignal korrelieren, und daß das Ausgangssignal aus den Segmenten in Abhängigkeit von den Instruktionssignalen konstruiert wird, wobei die Segmente eine begrenzte Maximalzahl von endlichen Amplitudenwerten bei ausgewählten Abtastzeiten besitzen und das Ausgangssignal ein dem Leistungsspektrum des Quellsignales im wesentlichen äquivalentes Leistungsspektrum, jedoch von denen des Quellsignals unterschiedliche Phasenkomponenten besitzt.
DE19823228757 1981-12-28 1982-08-02 Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen Withdrawn DE3228757A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US06/335,312 US4433434A (en) 1981-12-28 1981-12-28 Method and apparatus for time domain compression and synthesis of audible signals

Publications (1)

Publication Number Publication Date
DE3228757A1 true DE3228757A1 (de) 1983-07-07

Family

ID=23311245

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823228757 Withdrawn DE3228757A1 (de) 1981-12-28 1982-08-02 Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen

Country Status (3)

Country Link
US (1) US4433434A (de)
JP (1) JPS58117599A (de)
DE (1) DE3228757A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6145297A (ja) * 1984-08-09 1986-03-05 カシオ計算機株式会社 電子楽器
JP2547549B2 (ja) * 1986-10-04 1996-10-23 株式会社河合楽器製作所 電子楽器
JPH0727397B2 (ja) * 1988-07-21 1995-03-29 シャープ株式会社 音声合成装置
WO1991006944A1 (en) * 1989-10-25 1991-05-16 Motorola, Inc. Speech waveform compression technique
US5248845A (en) * 1992-03-20 1993-09-28 E-Mu Systems, Inc. Digital sampling instrument
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
US5217378A (en) * 1992-09-30 1993-06-08 Donovan Karen R Painting kit for the visually impaired
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5692098A (en) * 1995-03-30 1997-11-25 Harris Real-time Mozer phase recoding using a neural-network for speech compression
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5803748A (en) 1996-09-30 1998-09-08 Publications International, Ltd. Apparatus for producing audible sounds in response to visual indicia
US5899974A (en) * 1996-12-31 1999-05-04 Intel Corporation Compressing speech into a digital format
US6754265B1 (en) * 1999-02-05 2004-06-22 Honeywell International Inc. VOCODER capable modulator/demodulator
GB2398981B (en) * 2003-02-27 2005-09-14 Motorola Inc Speech communication unit and method for synthesising speech therein
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1463980A (en) * 1973-10-17 1977-02-09 Gen Electric Co Ltd Electrical filters
US4214125A (en) * 1977-01-21 1980-07-22 Forrest S. Mozer Method and apparatus for speech synthesizing
US4194427A (en) * 1978-03-27 1980-03-25 Kawai Musical Instrument Mfg. Co. Ltd. Generation of noise-like tones in an electronic musical instrument
US4327419A (en) * 1980-02-22 1982-04-27 Kawai Musical Instrument Mfg. Co., Ltd. Digital noise generator for electronic musical instruments
US4395703A (en) * 1981-06-29 1983-07-26 Motorola Inc. Precision digital random data generator

Also Published As

Publication number Publication date
US4433434A (en) 1984-02-21
JPS58117599A (ja) 1983-07-13

Similar Documents

Publication Publication Date Title
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE69932786T2 (de) Tonhöhenerkennung
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
EP1741039B1 (de) Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE69826446T2 (de) Stimmumwandlung
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE69720861T2 (de) Verfahren zur Tonsynthese
DE3228756A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von stimmlosen hoerbaren signalen
DE60305716T2 (de) Verfahren zum synthetisieren eines nicht stimmhaften sprachsignals
WO2005122135A1 (de) Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE60105576T3 (de) Verfahren und vorrichtung zur spektralen anreicherung
DE3006339C2 (de) Sprachsyntesizer
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee