DE2111072C3 - Verfahren und Vorrichtung zum Erfassen eines Sprachsignals - Google Patents

Verfahren und Vorrichtung zum Erfassen eines Sprachsignals

Info

Publication number
DE2111072C3
DE2111072C3 DE2111072A DE2111072A DE2111072C3 DE 2111072 C3 DE2111072 C3 DE 2111072C3 DE 2111072 A DE2111072 A DE 2111072A DE 2111072 A DE2111072 A DE 2111072A DE 2111072 C3 DE2111072 C3 DE 2111072C3
Authority
DE
Germany
Prior art keywords
sign
speech
sequence
signal
signs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE2111072A
Other languages
English (en)
Other versions
DE2111072B2 (de
DE2111072A1 (de
Inventor
Ettore Gaithersburg Fariello, Md.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Publication of DE2111072A1 publication Critical patent/DE2111072A1/de
Publication of DE2111072B2 publication Critical patent/DE2111072B2/de
Application granted granted Critical
Publication of DE2111072C3 publication Critical patent/DE2111072C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/04Control of transmission; Equalising
    • H04B3/06Control of transmission; Equalising by the transmitted signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Description

1. Erzeugung einer Bezugswellenform, die eine vorbestimmte Vorzeichenfoige aufweist,
2. Vorrichtung zur Erzeugung eines Taktsignals, das mit dem Vorzeichenbit eines jeden Kodewortes in Phase ist,
3. Vergleichen des Taktsignals mit dem Vorzeichenbit jedes Kodewortes,
4. Erzeugung eines ersten Ausgangssignals zu der Zeit, zu der das Taktsignal mit dem Kodewort, das demselben Zeichen der Probe entspricht, vergleichbar ist,
5. Vergleichen des ersten Ausgangssignals und der Bezugswellenform und
6. Erzeugen eines für die Sprache bezeichnenden Impulses, wenn die Bezugswellenform und das erste Ausgangssignal mit einer vorbestimmten minimalen Zeitdauer übereinstimmen.
18. Vorrichtung nach Anspruch 17, gekennzeichnet durch:
1. Erzeugen eines Kennungssignals zu jedem Zeitpunkt, zu dem das erste Ausgangssignal und das Bezugssignal übereinstimmen,
2. Verzögern des Kennungssignals, um ein verzögertes Kennungssignal zu erzeugen,
3. Vergleichen des Kennungssignals mit dem verzögerten Kennungssignal, um ein zweites Ausgangssignal zu dem Zeilpunkt zu erzeugen, indem das Kennungssignal seinen Zustand ändert und
4. Feststellen der Zeitdauer des zweiten Ausgangssignals.
Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zum Erfassen eines Sprachsignals in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird, entsprechend der Oberbegriffe der Ansprüche 1,7. 13 und 17.
In einer Vielzahl von Anwendungsfällcn ist es erforderlich, eine Vorrichtung zu beireiben, die nur auf Sprach- und nich! auf Rauschsignale anspricht. So kann beispielsweise in Nachrichten-Übertraglingssystemen die Wirksamkeit des Sy items durch Leistungsspcicherung verbessert werden, wenn die Inbetriebnahme eines Transmitters nur auf Grund des Ansprechend auf einen Transmitter erfolgt, welcher Signale mit Nachricntengrhalt, d. h. Sprachsignale, vom Rauschen unterscheidet. Diese Technik ist insbesondere in Satelliten-Nachrichtenübertragungssystemen von Vorteil, da der Leistungsverbrauch einen der begrenzenden Faktoren bei der Bestimmung der Anzahl der Sprachkanäle, welche benutzt werden können, darstellt.
Die meisten bekannten Sprachdetektoren arbeiten vorwiegend analog und nicht digital.
Einige dieser Vorrichtungen entsprechen dem »Nulldurchgangs«-Typ.
Dabei wird das Signal zuerst mit Hilfe zweier Schwellwertdetektoren hinsichtlich seiner Amplitude und anschließend hinsichtlich der Zeitdauer von einem monostabilen Multivibrator und einem Nulldurchgangsdetektor überprüft. Wenn das Signal die erwähnten Überprüfungen erfolgreich überstanden hat, ist es als Sprachsignal identifiziert Genauer gesagt wird ein analoges Sprachsignal zuerst gefilten um die Grundfrequenzkompor.ente zu erhalten, die dann von einem Schmitt-Trigger digitalisiert wird. Das digitalisierte Signal wird dann einem ersten Schwellwertkomparator zugeführt, indem der digitalisierte Wert mit einem vorbestimmten oberen Wert verglichen wird, und falls dieser höher ist, von einem monostabilen Multivibrator getiggert. Ein zweiter Amplitudenschwellenwertkomparator stellt fest, wenn das Signal unterhalb eines
jo vorbestimmten unteren Wertes fällt, und bewirkt dann ein Zurückstellen des monostabilen Multivibrators. Falls das digitalisierte Signal die oberen und unteren Amplitudenprüfungen durchläuft, wird es hinsichtlich der Dauer überprüft, und wenn es kürzer als eine eingestellte Zeit des monostabilen Multivibrators sein sollte, wird kein Signal erzeugt, das Sprache anzeigt.
Dieser Sprachdetektor ist vollständig von dem Amplitudenpegel des Signals abhängig.
Allgemein ausgedrückt arbeiten die Vorrichtungen nach dem »Nulldurchgangsu-Prinzip auf der Erkenntnis, daß für verschiedene Worte eine gewisse Anzahl von Üb srkreuzungen mit einer Nullinie kennzeichnend ist, worunter zu verstehen ist, daß ein Signal eine Referenzachse innerhalb eines vorgegebenen Zeitintervalls mehrfach kreuzt. Durch Zählung der Gesamtanzahl von Überquerungen der Nullachse innerhalb eines gegebenen Zeitintervalls kann eine Analyse der Wellenform erfolgen, so daß ein Sprachsignal vom Rauschen unterscheidbar ist. Ein wesentlicher Nachteil
so dieser Vorrichtungen beim Unterscheiden der Sprache vom Rauschen ist jedoch derjenige, daß unerwünschtes Rauschen Spuren von Schnitten mit der Referenzachse erzeugt.
Da im allgemeinen das Rauschen eine kleine Amplitude im Vergleich zu der Sprachamplitude aufweist, kann dieser Nachteil dadurch behoben werden, daß an Stelle der Feststellung der Anzahl von Überquerungen Über eine Referenzachse der Amplitude Null Durchbruchachsen mit positiven und negativen Amplituden gröjer als die Rauschamplitude als Referenzachsen vorgesehen werden. Derartige Vorrichtungen verbessern die Unterscheidungsfähigkeit zwischen den Sprachsignalen und dem Rauschen, sie sind jedoch nicht imstande. Sprachsignale niedriger
„-, Amplitude zu registrieren und arbeiten nicht so rasch wie ein bereits vorgeschlagener Digital-Dctcktor. Dadurch tritt ein Abschneiden der Worte zu Beginn der Sprache auf.
Andere bekannte AnalogVorrichtungen arbeiten nach dem Prinzip, dal! unterschiedliche Buchstaben ein akustisches Spektrum aufweisen, in welchem tier größere Teil der Klangenergie in bestimmten Frequenz-Komponenten des betreffenden Buchstabens enthalten ist. So besitzt beispielsweise der Konsonant »m« seinen grollten F.ncrgicinhalt in den niedrigen Frequenzkomponcnten. Diese Vorrichtungen vergleichen den Friergicinhalt der verschiedenen Frequenzen von »m«, und IaIIs der Großteil der Rnergie die niedrigen Frequenzen umfaßt, tritt eine die Sprache anzeigende Ausgangsgröße auf. Neben dem Zeitverzögcrungsproblem. welches Analogssstem innewohnt, die den F.nergieinhalt feststellen, weisen die Vorrichtungen noch eine Amplitudenempfindlichkeit auf. auf Grund welcher die Wahrscheinlichkeit von unerwünschten Registrierungen infolge der Möglichkeit von energiestarkem llintergrundrauschen gegeben ist. Hieraus resultiert die Schwierigkeil einer genauen Unterscheidung der Sprache vom Rauschen.
Fs ist nun Aufgabe der vorliegenden Erfindung, in einem Nachrichtenübermittlungssystem das Feststellen von Sprache bei Vorhandensein von Rauschen und die Unterscheidung /wischen Sprachsignalen und Rauschen sowie die Kennzeichnung der registrierten Sprache zu verbessern, wodurch die Anzahl der Übermittlungsfehler bei der Nachrichtenübertragung erheblich vcrkleinert wird.
Die Aufgabe wird entsprechend der kennzeichnenden Teile der Ansprüche I. 7. 13 und 17 gelöst. Ausgestaltungen der Erfindung ergeben sich .ms den Unteransprüchen.
Der Sprachdctekior arbeitet digital und ist amplitiidencmpfindlieh. Fin Analog-Spraehsignal wird durch einen Pulszahlenmodulations-Encoder in eine Vielzahl von PCM-Worten der Bit-Länge »n« puls/ahlenmoduliert (PCM), wobei jeweils das erste Bit jedes PCM-Wortes das Vorzeichen (+ oder -) des Wortes oder des Abfragewertes darstellt. Jedes PCM Wort wird dann einem Digital-Detektor zugeleitet, der die Reihenfolge der Vorzeichen der aufeinanderfolgenden PCM-Worte feststellt. Der Digital-Dctektor oder - wie n:!i-H5tf»hpnH norh hp^rhrichon wprrlrn wird — Snrarhvorzcichensequenz-Detektor sendet zu jedem Zeitpunkt einen Impuls aus. zu dem eine bestimmte Reihenfolge der Vorzeichen festgestellt w ird.
Die Wellenform der meisten Sprachsignale weist periodische Veränderungen auf. die unterschiedlich zu denen des Rauschens sind. Dies bedeutet, daß verschlüsselte Rauschsignale eine Änderung der Vorzeichen von aufeinanderfolgenden PCM-Worten erzeugen, welche diese vor den meisten Sprachsignalen unterscheidet. Da der Sprachvorzeichensequenz-Detektor auf eine gewisse Periodizität eingestellt ist. welche nur für die Sprache eigentümlich ist. bleibt er weitgehend unempfindlich gegenüber Rauschen. Als weiterer Vorteil ergibt sich, daß wegen der Einstellung des Detektors auf periodische Vorgänge keine Schwellenspannung benutzt wird, wodurch die Feststellung von Sprachsignalen extrem kleiner Amplitude möglich ist. Da der Sprachvorzeichensequenz-Detektor digital arbeitet und amplitudenunempfindlich ist. wird eine erhebliche Verbesserung seiner Wirksamkeit im Vergleich zu bekannten Vorrichtungen in bezug auf die Zählung niedriger Amplitudensignale. Feststeilung der Verzögerung und Filterung des Rauschens erzielt. Der Sprachzeichensequenz-Detektor der vortiegenden Erfindung wird von zwei elektrischen Kreisen gebildet. Der erste Kreis wird beispielsweise nur durch Buchstaben ausgelost, die reine Zischlaute wie »s« und »/« sind, deren rrequenz-l.eistiingsverteiliing in dem oberen Bereich der Sprachhandbreitc liegt, welche von 300 II/ bis etwa 3.4 kl I/ reicht. Der /weite Kreis wird nur durch jene Buchstaben ausgelöst, wie beispielsweise die Konsonanten >l«. >-m«, »n« und die Stoppkonsonanten »b«. »d«. »g«. »p«. »k«. deren Frequenz-I.eistungs· verteilung in dem unteren Bereich der .Sprachbandbreite liegt. Der erste Kreis kann ein Schmalbandfilter und der zweite Stromkreis cm Tiefpaßfilter sein.
Mit Bezug auf den ersten Kreis oder das Schmalband filter erzeugt eine 4 kllz-Sinuswellc. wenn sie mit einer Frequen/geschwindiukeit von 8 klI/ oder alle 125 msec abgetastet wird, eine Sequenz, bestehend aus einem positiven Abtastwert, gefolgt von einem negativen Abtastwert, auf unbegrenzte Zeit Fin Signal mit einer schmalen Bandbreite und einer Haupt- oder Zcntralfrcquen/ von 4 kHz weist diese Sequenz aus einem positiven und einem negativen Abiasiweii iiii eine lange, jedoch nicht unbegrenzte Zeit auf. Bei der Betrachtung eines kurzen Zeitabschnittes besitzt dieses Signal andere Vor/eichen-Frequen/charaktcristika als ein positives Signal, gefolgt von einem negativen. Dies bedeutet, daß je breiter die Bandbreite und je weiter die Hauptfrequenz cer Signalbandbrcite von 4 kHz abweicht, desto kürzer ist die Dauer der voranstehend erwähnten Vorzeichen-Sequenz, bei der einem positiven Sign.·.' cm negatives folgt.
Die reinen Zischlaute haben eine Frcquenz-I.eisuingsverteilung. welche im oberen Teil der Sprachbandbreite gruppiert ist, mit einer llauptfrequenz. welche näher an 4 kHz liegt a<s beispielsweise die llauptfrequenz des Gaußschen Rauschens der Übertragungsstrecke. Daher ist die Dauer der Sequenz eines positiven Abtastwertes, gefolgt von einem negativen. für diese Buchstaben größer als für das Rauschen. Die Dauer für Buchstaben beträgt mehr als 2 msec, während sie beim Rauschen um einiges geringer als 2 msec ist. Daher wird ein vollständiger Schutz gegen Tiggerung durch Rauschsignale erreicht, wenn eine Wahrnchmungszeit von 2 msec vor dem Tiggern für den Snrarhvorzeichenseouenz-Detektor festgelegt wird.
Der zweite Kreis wird durch ein Signal nur dann ausgelöst, wenn Ib Abtastwerten eines Vorzeichens zumindest ν Abtasiwcrte des entgegengesetzten Vorzeichens folgen, wobei der Wert von ν zw ischen 4 und 8 variieren kann. Dieser Kreis wird auch dann ausgelöst, wenn χ Abtastwerten eines Vorzeichens 16 Abtastwerte des entgegengesetzten Vorzeichens folgen. Diese Bedingungen entsprechen einer sehr niedrigen Frequenz. Die Konstanten »1«. »m« und beispielsweise >b«. »d«. »g«. »p« und '>k« haben jeweils eine Frequenz-Leistungsverteilung, die in dem unteren Teil der Sprachbandbreite liegt, und werden daher eine derartige Vorzeichen-Folge erzeugen, wie sie vom Gaußschen Rauschen der Übertragungsstrecke niemals erhalten werden kann. Wegen der Charakteristik dieser Kreise ist eine Schwellenspannung nicht erforderlich, und die Registrierung oder Zählung beginnt im wesentlichen mit dem Auftreten des Sprachsignals.
Ein Verfahren und eine Vorrichtung für das digitale Feststellen von Sprachsignalen mittels Schwellenwertvergleich ist der DE-OS 20 34 623 zu entnehmen, die einer älteren Anmeldung entspricht. Dabei wird ein PCM-verschlüsseltes Sprachsignal einer Vergleichsschaltung zugeführt, in der jeder digital kodierte Abtastwert der momentanen Amplitude mit einem digital verschlüsselten Wort entsprechend dem gewähl-
1 072
ten Schwellenwertpcgel in eirKT Digilal-Verulcichsvor richtung verglichen wird. |edesmal. wenn einer der Sprach Abtastwerte gleich dem Schwellenwertpcgel ist. oder diesen überschreitet, wird eine die Sprache anzeigende Ausgangsgröße erzeugt.
Dieser Kreis registriert augenblicklich Amplituden Abtiistwertc. deren Pegel erheblich über einer Schwel-Icnwcri-Einstclliing auf verhältnismäßig hohem Niveau liegen, hevor er Signale mit mittlerer oder effektiver Leistung, größer als der eingestellte Schwellenwert, feststellt. Dies ist eine weitere Möglichkeit der Unterscheidung der Sprache vom Kauschen und beruht auf der Tatsache, daß für gleiche effektive Leistung von Sprache und Rauschen die Wahrscheinlichkeit für Sprachsignale, daß sie eine vorgegebene Schwellen werteinstellung überschreiten, viel größer ist als diejenige für Rauschsignale. Die Spanne /wischen Sprache und Rauschen ist so groß wie das Verhältnis Schcilclwert zu Effektivwerl der verschiedenen Buchstaben. Die Spanne zwischen dem Auslosen durch Sprache und Rauschen ist für Buchstaben, wie beispielsweise Konsonanten, deren Verhältnis Scheitelwert zu Effektivwert verhältnismäßig groß is;, größer als für diejenigen Buchstaben, wie beispielsweise reine /ischlaute, deren Verhältnis Scheitelwert zu Effektivwert klein ist.
Der Sprachvorzeichensequenz-Detektor der vorliegenden Erfindung kann daher in komplementärer Weise mit dem voranstchend beschriebenen Schwellwerl Komparator-System benutzt werden, um jene Buchstaben mit niedrigem Schwellwert zu Effektivwert-Vcr hai tins, wie dies bei reinen Zischlauten vorliegt. festzustellen. Es sind daher die Registricrkreisc des voranstellend erwähnten Systems zusammen mit denen der vorliegenden Erfindung hochempfindlich für sämtliche Sprachsignale.
Obwohl die spez.ifische Ausführungsform der vorliegenden Erfindung darauf abgestellt ist. die Reihenfolge von Vorzeichen der Zischlaute, der Konsonanten und der Vokale bei vollständiger Abschirmung gegemiber Rauschen festzustellen, ist es selbstverständlich, daß alle übrigen Buchstaben, welche eine gewisse Periodizitäi Sprnchsignnl im hochfrequenten Uereich feststellt, während die untere Hälfte der Zeichnung jenen Teil des Sprachvorzcichen-Delektors zeigt, welcher die Sprachsignale in dem niedrigen Frequenzbereich registriert. Ein analoges Eingangssignal wird mit einer Frequenz von 8 kl I/ abgetastet oder alle 125 μ see und durch einen Standard-PCM Encoder in emc Serie von aufeinander folgenden PCM-Worten der Bit Lange »n« digital verschlüsselt, wobei das erste Bit jedes PCM-Wortes das Vorzeichen (positiv oder negativ) des Abfragewertes darstellt. Die PC VI-Daten werden dann in einen UNIVIKSAI 1!!NCiANCiS-I lipllop I. wie bcispiels weise einen I LIPfLOP mit Voreinstellung, durch den taktimpuls H eingespeist. Der Taktimpuls li\ ist in Phase mit ilen: ersten Bit (dem Vorzeichen-Bit) jedes PCM-Wortes. Der Wnivcrsal-Eingangs-Flip-Flop I erzeugt jedesmal eine Ausgangsgröße Q\. wenn der Taktimpuls B1 in Phase mit einem PCM-Wort ist. dessen erstes Bit positives Vorzeichen aufweist. Die Ausgangsgröße (/ nimmt den Zustand »i« an. wenn das Vor/eichen des PCM-Wortes positiv und den Zustand »0«. wenn das Vor/eichen des PCM-Wortes negativ ist. wie aus dem Zeitdiagramm der I i g. 2 ersichtlich ist.
Mit Bezug auf den Hochfrequenz Spraehvorzeiehen sequenzkreis wird die Ausgangsgröße Q< mit der Wellenform I der E i g. 2 in einer Exclusiv-ODER-I.ogik 2 verglichen. Die Wellenform I wird durch einen Taktimpuls lh 2 oder 4 kl Iz erzeugt. Die Ausgangsgröße (J gleicht der Wellenform I. wenn einem PCM Wort positiven Vorzeichens ein weiteres PCM-Wort des entgegengesetzten Vorzeichens folg1 In federn Zeitpunkt, in welchem die Ausgangsgröße Q< und die Wellenform I koinzident sind, geht die negative Ausgangsgröße der Exdusiv ODER-Logik 2 in den Zustand »1« über. In jedem Zeitpunkt, in dem die Ausgangsgröße Q< und die Wellenform I nicht koinzident sind, weist die negative Ausgangsgroße der Exclusiv-ODER-Logik 2 den Zustand »0« auf.
Dies bedeutet, daß bei einer Ausgangsgröße der Exclusiv-ODER-I.ogik 2 im Zustand »0« oder »I« die Vorzeichensequenz aufeinanderfolgender PCMWorie einmal positiv und einmal negativ mit einer Dauer von
anderfolgende PCM-Worte erzeugen. Die vorliegende Ausführungsform dieser Erfindung kann selbstverständlich von einem Fachmann jederzeit abgewandelt werden, um jede gewünschte Vorzeichen-Folgen für die genaue Sprach-Kennzeichnung zu erhalten. Dabei wird jedoch nicht eine komplette Unterdrückung des Rausches erreicht, da die Vorzeichen Folge einiger anderer Buchstaben sehr ähnlich der Vorzeichen Sequenz des Rauschens ist. Dies gilt für alle Buchstaben, deren Frequenz-Leistungsverteilung im mittleren Teil der Sprach-Bandbreite liegt.
Die Erfindung wird an Hand der Zeichnungen näher erläutert. Es zeigt
Fig.! ein Schaltdiagramm der elektrischen Kreise des Sprachvorzeichensequenz-Detektors für hochfrequente und niederfrequente Signale.
Fig. 2 ein Zeitdiagramm des Hochfrequenzteils des Sprachvorzeichensequenz-Detektors.
Fi g. 3 ein Zeitdiagramm des Niederfrequenzteils des Sprachvorzeichensequenz-Detektors und
F i g. 4 ein Blockschaltbild eines Digital-Sprachdetektors zusammen mit dem Sprachvorzeichensequenzdetektor der vorliegenden Erfindung.
F i g. i zeigt in der oberen Hälfte der Zeichnung den Teil des Sprachvorzeichensequenz-Detektors, der Vor/eichen, von denen jeweils eines positiv und eines neg.iiv isi. besitzt die Ausgangsgröße Q\ denselben Ta kl wie die Wellenform I und ist in Koinzidenz mit I oder I. wobei I der Komplementärwert von 1 ist. sobald einem positiven PC M-Won ein negatives PCM-Wort folgt. Das bedeutet, daß der Ausgangswert Q, ± I der Exclusiv-ODER-Logik 2 im Zustand »1« oder »0« verbleibt, wie aus dem Zeitdiagramm gemäß F 1 g. 2 ersichtlich ist. Die Ausgangsgröße (PiS1I wird dann in der Universal-Flip-Flop-Schaltung 3 durch den Taktimpub Sj wieder abgetastet, wobei Bi dieselbe Frequenz wie B- aufweist, jedoch in Phase mit dem zweiten Bit des PCM-Wortes steht, um eine Ausgangsgröße O2 zu erzeugen, wie sie in F i g. 2 gezeigt ist. Dies geschieht, um die Spitzen infolge der Übertragungsverzögerung zu eliminieren, weiche während der Zustandsänderungen der Ausgangsgröße Q1 und der Wellenform I auftreten. Die Ausgangsgröße Q> wird dann in der Universal-Flip-Flop-Schaltung 4 durch den Taktimpuls Bi abgetastet, wobei Bi dieselbe Frequenz wie B? aufweist, jedoch um ein Bit in bezug auf den Taktimpuls B2 verzögert ist.
Die Ausgangsgröße Qj wird der Exclusiv-ODER-Logik 5 zugeleitet. Die Flip-Flop-Schaltung 4 verzögert den Ausgangswert Q2 um ein Bit. um einen Ausgangs-
130 226 49
21
wen Qi zu cr/.cugcn. Die Ausgangswerle Qi und y( werden in der Fxelusiv-ODFK-I.ogik 5 verglichen, um einen Ausgangsweri Qi^Qt /ti erhallen. Diese Ausgangsgroße Qi®Qi weist nur negative Impulse auf, wenn Q] seinen Zustand wie in F i g. 2 gezeigt ändert. Die Ausgangsgrolle Q2 T)(?i wird dann der direkten Rück Villung des liinärzählcrs 6 zugeleitet. Der binäre Zähler b wird jedesmal zurückgestellt, wenn Q seinen Zustand ändert. Der Binärzähler 6 ist eingestellt auf einen Taktimpuls Ii1,2 oder 4 kHz. Der Ausgangswert Q^ des Binärzählcrs f> weist nur einen negativen Impuls auf, wenn die Ausgangsgröße Q\ des Univcrsal-F.ingangs-Flip-Flop I in Koinzidenz mit der Wellenform I oder mit I ist. für eine Zeitdauer ~
072
4 χ
see 2 msec.
wobei der erste Term gleich dem Kehrwert der Frequenz und der zweite Term gleich der Hälfte der vierten Ausgangsgröße des Binärzählers 6 ist. Das ist dann der Fall, wenn die Sprachkennzcichnungsfolge aus einem positiven Vorzeichen, gefolgt von einem negativen, mindestens 2 msec dauert, wodurch das Auftreten von Sprache angezeigt wird und der Binärzähler den Ausgangswert Q\h erzeugt.
Der untere Teil von Fig. 1 zeigt das logische Schaltdiagramm für den niederfrequenten Sprachvorzeichensequenz-Detektor. F i g. 3 zeigt das Zeitdiagramm dieses Kreises. Der Kennzeichnungskreis für niedrige Frequenzen ist ähnlich dem für hohe Frequenzen aufgebaut, der voranstchend beschrieben ist, mit der Ausnahme, daß die Frequenz der Wellenform, welche mit dem Ausgangswert C>i verglichen wird, ebenso wie die Dauer der Beobachtungszeit verschieden ist.
Es sei nun angenommen, daß ein .Sprachsignal niederer Frequenz mit einer Frequenz von 8 kHz oder alle 125 nscc abgetastet wird und die PCM-Daten eine
r_: ι r_
sen, deren Vorzeichen positiv ist. gefolgt von einer Serie von aufeinanderfolgenden PCM-Worten mit negativen Vor/eichen. Diese Daten werden dann durch den positiven Rahmen-Taktimpuls B\ in dem Universal-Fingangs-F lip-Flop 1 abgetastet, um die Ausgangsgröße C^i des Zcitdiagramms in F i g. 3 zu erhalten.
Die <\usgangsgröße Q\ wird dann mit der Wellenform Il von F i g. 3 in der Fxelusiv-ODF.R-I.ogik 7 verglichen. Die Wellenform Il entspricht dem Taktimpuls ßi/32. die Ausgangsgröße ζ>ι ist gleich der Wellenform II. wenn 16 PCM-Worte mit demselben Vorzeichen von 16 PCM-Worten des umgekehrten Vorzeichens gefolgt werden.
Der Ausgangswert Q] wird in der gleichen Art wie voranstehend beschrieben verarbeitet. Zu jedem Zeitpunkt, zu dem die Ausgangsgröße Q\ und die Weilenform II nicht koinzider.t sind, geht der Ausgangswert QvSTi der Exclusiv-ODER-Logik 7 in den Zustand »0«. Bei Obereinstimmung des Ausgangswertes (?i und der Wellenform Il geht der Ausgangswert 0i©II der Exclusiv-ODER-Logik 7 in den Zustand »1« über. Verbleibt der Ausgangswert (?ιΦΙΙ der Exclusiv-ODER-Logik 7 in dem Zustand »0« oder »!«. so ist die Vorzeichensequenz der aufeinanderfolgender '6 PCM-Worte positiv, gefolgt von 16 negativen Zeichen.
Der Aasgangswert φ© H wird dann neuerlich in der 1 )mversalT'lip-F'')p-Schaitung 8 durch den Taktimpuls lh abgetastet, um einen Ausgangswert Qi — wie in F i g. 3 gezeigt - zu erzeugen, wodurch die voranstellend beschriebenen Spitzen eliminiert werden. Die Ausgangsgröße Qi wird dann sowohl in die Flip-Flop-Schallung 9 als auch in die F.xclusiv-ODER-Logik IO eingespeist. Die Flip-Hop-Schaltung 9 verzögert den Aiisgangswert Qi um ein Bit, wodurch eine Ausgangsgröße Qs' erhalten wird. Die Werte Qi und Qi werden dann in der Exclusiv-ODER-Logik 10 verglichen, um die Ausgangsgröße Qi(^)Qs zu erzeugen, welche nur dann negative Impulse aufweist, wenn der Alisgangswert Qi seinen Zustand wie in F i g. 3 gezeigt ändert.
Die Ausgangsgröße Qi'@Q\ wird der direkten Rückstellung des Binärzählers Il zugeleitet. Der Bmärzähler Il ist in der gleichen Weise wie de; Binärzähler 6 angesteuert, d. h. mit dem Wert B\n oder Λ kHz. Der dritte Alisgangswert Qn und der vierte Ausgangswert Q\t, des Binarzahiers ti werden der logischen NAND-Schaltung 12 zugeleitet. Auf diese Weise erzeugt die logische NAND-Schaltung 12 einen negativen Impuls Qn'Q\b\ wenn die Koinzidenz zwischen dem Ausgangswert Q\ und der Wellenform Il zumindest während 3 Millisekunden gegeben ist, d. h. für 24 PCM-Abschnitte. Auf diese Weise ist es ausreichend, daß 16 PCM-Worte mit einem Vorzeichen durch nur 8 PCM-Worte des entgegengesetzten Vorzeichens gefolgt werden oder umgekehrt, um einen Impuls an der Ausgangsseite des Sprachvorzeichensequenz-Detektors für niedrige Frequenzen zu erhalten. Dies bedeutet, daß eine Zählung dieser Reihenfolge ausreicht, um eine Unterscheidung zwischen Sprache und Rauschen anzustellen.
Die erste Stufe des Binärzählers 11 wird niemals zurückgestellt, d. h. die direkte Rückstellung DR\ ist abgetrennt. Die Folgerung davon ist, daß die Koinzidenz zwischen Q\ und der Wellenform Il zumindest über ein minimales Zeitintervall andauert, welches statistisch zwischen 20 und 24 Abschnitten variierbar ist. Das bedeutet vergleichsweise für die Wellenform Il des Sprachvorzeichensequenz-Detektors für ni drige Frequenzen. daS er seinen Z-js'.^nd 2Üe tf> PrM-Ah<;rhnitto (Worte) ändert, so daß die Summe aus den PCM-Worten mit gleichen Vorzeichen und der Anzahl der nachfolgenden Worte mit entgegengesetzten Vorzeichen zumindest zwischen 20 und 24 liegen muß. um sicherzustellen, daß eine exakte Sprachfeststellung mit Unterdrückung des Rauschens stattfindet.
Im Blockdiagramm der Fig. 4 wird das PCM-Wort mit einem Schwellenwertkomparator 13 und dem Sprachvorzeichensequenz-Detektor 14 zugeleitet. Der Ausgang des Komparator 13 wird anschließend in den Entscheidungs-Impulszählkreis 15 eingespeist. Die Ausgangswerte des Zählkreises 15 und des Detektors 14 werden am Eingang des Impulsgeneratorkreises 16 iogisch als »ODER« verknüpft. Nachdem der Impulsgenerator 16 einen Impuls empfangen hat. wird ein Transmittel angeregt.
Der Schwellenwertkomparator 13 vergleicht digital die Abfrageamplitude eines Signals mit einem kodierten Schwellenwertpegel. Zu jedem Zeitpunkt, in dem die Abfrageamplitude dem Schwellenwertpegel gleich ist oder diesen überschreitet, wird ein Impuls ausgesandt. Der Entscheidungs-impulszählerkreis 15 erzeugt nur dann einen Ausgangswert, nachdem eine vorherbestimmte Anzahl von aufeinanderfolgenden nicht unterbrochenen Impulsen von dem Komparator 13 kommend empfangen werden.
Der Sprachvorzeichcnseqticnz-D'jlektor 14 ist daher mplitudetninempfindlich und arbeitet in einer zu dem chwellcnwcrt-Komparator 13 komplementären Weie. Wenn das ankommende Signal eine Amplitude nterhalb des Schwellenwerlpegels des Komparators
U aufweist, ühcrpriift der Detektor 14 die l'eriodizitiit ties Signals und sendet ein Signal aus. wenn Sprache vorhanden ist. um den Pulsgenerator 16 zu triggcrn. wodurch ein Transmitter angeregt wird.
llier/u 2 HIaIl /en

Claims (17)

Patentansprüche: 1, Verfahren zum Erfassen eines Sprachsignals unabhängig von seiner Amplitude in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird, und jede Abtastprobe ein charakteristisches Vorzeichen aufweist, das durch eine binäre I oder eine binäre 0 in dargestellt ist, gekennzeichnet durch :
1. Erfassung des Vorzeichens jeder der aufeinanderfolgenden Abtastproben,
2. Feststellen des Vorhandenseins einer vorbe- r, stimmten Folge von Vorzeichen, die durch die aufeinanderfolgenden Abtastproben charakterisiert sind, wobei die Folge eine Mischung von Vorzeichen umfaßt, die durch die binäre 1 und die binäre 0 dargestellt werden, und
3. Erzeugung eines Impulses, der das Vorhandensein von Sprache anzeigt, wenn die vorbestimmte Vorzeichenfolge für eine vorbestimmte Zeitdauer vorhanden ist
2. Verfahren nach Anspruch 1, gekennzeichnet durch:
25
1. Erzeugung einer Bezugswellenform, die der vorbestimmten Vorzeichenfolge entspricht, und jo
2. Vergleichen der Bezugswellenform mit der erfaßtem Vorzeichenfolge.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die vorbestiTnmte Vorzeichenfolge die ιί Abtastprobe eines Vorzeichens gefolgt von der Abtastprobe des anderen Vorzeichens ist.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die vorbestimmte Zeitdauer 2 msec beträgt.
5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge 16 Vorzeichen eines binären Wertes umfaßt, der von χ Vorzeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 variiert werden kann.
6. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge χ Vorzeichen eines Binärwertes umfaßt, die von 16 Vorzeichen des anderen Wertes gefolgt wird, wobei χ zwischen 4 und 8 variiert werden kann.
7. Vorrichtung zum Erfassen eines Sprachsignals unabhängig von seiner Amplitude in Gegenwart von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet wird und jede Abtastprobe ein charakteristisches Vorzeichen auf- v, weist, das durch eine binäre I oder eine binäre 0 dargestellt ist, gekennzeichnet durch:
1. eine Detektor-Vorrichuing(14)fürdas Feststellen des Vorzeichens jeder der aufeinanderfol- wi genden Abtastproben,
2. eine damit verbundene Feststellvorrichtung für das Feststellen des Vorhandenseins einer vorbestimmten Vor/eichenfolge, die durch die aufeinanderfolgenden Abtastproben bestimm! h, ist. wobei die Folge eine Mischung der Zeichen umfaßt, die (lurch die binäre 1 und durch die binäre 0 dargestellt werden und
3, eine mit der Erfassungsvorrichtung verbundene Schaltung zur Erzeugung eines Impulses, der für das Vorhandensein von Sprache bezeichnend ist, wenn die vorbestimmte Vorzeichenfolge für eine vorbestimmte Zeitdauer vorhanden ist.
8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, daß eine eine der vorbestimmten Vorzeichenfolge entsprechende Bezugswellenfom erzeugende Generatorvorrichtung vorhanden ist und eine Vorrichtung, die die Bezugswellenform mit der erfaßten Vorzeichenfolge vergleicht.
9. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge ein Vorzeichen eines binären Wertes gefolgt von dem Vorzeichen, des anderen binären Wertes ist.
10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die vorbestimmte Zeitdauer 2 msec beträgt.
11. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfoige 16 Vorzeichen eines binären Wertes umfaßt, der von χ Zeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 gewählt werden kann.
12. Vorrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die vorbestimmte Vorzeichenfolge χ Vorzeichen eines binären Wertes umfaßt, die von 16 Vorzeichen des anderen binären Wertes gefolgt wird, wobei χ zwischen 4 und 8 variieren kann.
13. Verfahren zum Feststellen eines Sprachsignals in Anwesenheit von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet ist, und jede Abtastprobe digital in ein pulskodemoduliertes (PCM) Wort der Bitlänge η verschlüsselt ist, wobei ein Bit des Kodeworts das Vorzeichen der Sprachabtastprobe darstellt, gekennzeichnet durch :
1. Erzeugen einer Bezugswi'tenform, die eine vorherbestimmte Vorzeichenfolge umfaßt,
2. Erzeugen eines Taktsignals, welches mit dem Vorzeichenbil jedes Kodewortes in Phase gesetzt ist,
3. Vergleichen jedes Taktsignals mit dem Zeichenbit jedes Kodewortes,
4. Erzeugung eine» ersten Ausgangssignals, wobei jederzeit das Taktsignal mit dem Kodewort verglichen wird, das demselben Zeichen der Abtastprobe entspricht,
5. Vergleichen des ersten Ausgangssignals mit der Bezugswellenform und
6. Erzeugung eines für Sprache bezeichnenden Impulses, wenn die Bezugswellenform und das erste Ausgangssignal während einer vorbestimmten minimalen Dauer übereinstimmen.
14. Verfahren nach Anspruch 13 zur Erzeugung eines Impulses, gekennzeichnet durch:
1. Erzeugung eines Kennungssignals zu jeder Zeit, indem das erste Ausgangssignal und die Be/ugswellenform übereinstimmen,
2. Verzögerung des Kennungssignals. um ein verzögertes Kennungssignal zu erzeugen.
3. Vergleichen des Kennungssignals mit dem verzögerten Kennungssignal, um ein zweites Ausgangssignal bis 711 einem Zeitpunkt zu
erhalten, bei dem das Kennungssignal seinen Zustand ändert und
4. Feststellen der Zeitdauer des zweiten Kennungssignals.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, daß die vorbestimmte minimale Zeitdauer 2 msec beträgt.
16. Verfahren nach Anspruch 14, dadurch gekennzeithnet, daß die vorbestimmte minimale Zeitdauer 3 msec beträgt.
17. Vorrichtung zum Feststellen eines Sprachsignars in Anwesenheit von Rauschen, wobei das Sprachsignal in eine Vielzahl von Abtastproben abgetastet ist, und jede Abtastprobe digital in ein impulskodemoduliertes Wort (PCM) der Bitlänge η verschlüsselt ist, wobei ein Bit des Kodeworts dem Vorzeichen der Sprachabtastprobe entspricht, gekennzeichnet durch:
DE2111072A 1970-03-13 1971-03-09 Verfahren und Vorrichtung zum Erfassen eines Sprachsignals Expired DE2111072C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US019188A US3878337A (en) 1970-03-13 1970-03-13 Device for speech detection independent of amplitude

Publications (3)

Publication Number Publication Date
DE2111072A1 DE2111072A1 (de) 1971-09-23
DE2111072B2 DE2111072B2 (de) 1980-07-31
DE2111072C3 true DE2111072C3 (de) 1981-06-25

Family

ID=21791888

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2111072A Expired DE2111072C3 (de) 1970-03-13 1971-03-09 Verfahren und Vorrichtung zum Erfassen eines Sprachsignals

Country Status (7)

Country Link
US (1) US3878337A (de)
JP (1) JPS5149361B1 (de)
DE (1) DE2111072C3 (de)
FR (1) FR2084567A5 (de)
GB (1) GB1342909A (de)
NL (1) NL175572C (de)
SE (1) SE388061B (de)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1014614B (it) * 1974-04-24 1977-04-30 Sits Soc It Telecom Siemens Circuito per rivelare la presenza di attivita in banda fonica in una giunzione telefonica
IT1044353B (it) * 1975-07-03 1980-03-20 Telettra Lab Telefon Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici
US4061878A (en) * 1976-05-10 1977-12-06 Universite De Sherbrooke Method and apparatus for speech detection of PCM multiplexed voice channels
US4059730A (en) * 1976-08-17 1977-11-22 Bell Telephone Laboratories, Incorporated Apparatus for mitigating signal distortion and noise signal contrast in a communications system
US4275270A (en) * 1979-11-29 1981-06-23 The Regents Of The University Of California Speech detector for use in an adaptive hybrid circuit
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
CN113450776A (zh) * 2020-03-24 2021-09-28 合肥君正科技有限公司 一种改善婴儿哭声检测模型效果的数据增强方法及其系统
CN111653276B (zh) * 2020-06-22 2022-04-12 四川长虹电器股份有限公司 一种语音唤醒系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3358083A (en) * 1964-07-28 1967-12-12 Bell Telephone Labor Inc Time-division multiplex digital transmission arrangement employing a linear digital filter
US3369080A (en) * 1964-12-16 1968-02-13 Bell Telephone Labor Inc Conference circuit for coded signals permitting conference calls between vocoder and analogue stations
GB1102020A (en) * 1965-08-26 1968-02-07 Peter Heaton Improvements relating to digital telephone systems
US3484554A (en) * 1967-03-02 1969-12-16 Itt Pseudo-orthogonal pulse code system
US3555189A (en) * 1967-03-06 1971-01-12 Jesse T Quatse Automatic telephone answering mechanism
US3520999A (en) * 1967-03-27 1970-07-21 Bell Telephone Labor Inc Digital speech detection system

Also Published As

Publication number Publication date
DE2111072B2 (de) 1980-07-31
NL175572B (nl) 1984-06-18
JPS5149361B1 (de) 1976-12-25
GB1342909A (en) 1974-01-10
NL175572C (nl) 1984-11-16
SE388061B (sv) 1976-09-20
US3878337A (en) 1975-04-15
DE2111072A1 (de) 1971-09-23
NL7103353A (de) 1971-09-15
FR2084567A5 (de) 1971-12-17

Similar Documents

Publication Publication Date Title
DE3834457C2 (de) Spread-Spektrum-Empfänger
DE2608879C3 (de) Decodierschaltung
DE2250390A1 (de) Verfahren zur erzielung einer konstanten fehlalarmrate und detektoreinrichtung zur durchfuehrung des verfahrens
DE2111072C3 (de) Verfahren und Vorrichtung zum Erfassen eines Sprachsignals
DE2352941A1 (de) Verfahren und einrichtung zur ausloesung eines impulses innerhalb eines verstellbereiches
DE2440150A1 (de) Anordnung und verfahren zur umwandlung einer frequenz in eine zahl
DE2015813A1 (de) Verfahren und Vorrichtung zur Über tragung von zweiwertigen Signalen
DE2047697B2 (de) Schaltungsanordnung zur demodulation von phasendifferenzmodulierten datensignalen
DE3246211C2 (de) Schaltungsanordnung zur Detektion von Folgen identischer Binärwerte
DE2624173A1 (de) Signal-erkennungsschaltung
DE2702581C2 (de) Verfahren und Schaltungsanordnungen zur Frequenzerkennung
DE2345491A1 (de) Codewortdetektor
DE1623261A1 (de) Vorrichtung zur Bestimmung der Groesse und des Vorzeichens eines Frequenzunterschiedes
DE2601351C2 (de) Verfahren zur Unterdrückung von Signalteilen mit zu kleiner Amplitude sowie Vorrichtung zur Durchführung des Verfahrens
EP0072393B1 (de) Digitaler Frequenzdiskriminator
DE1264830B (de) Verfahren zur maschinellen Zeichenerkennung
DE2847149A1 (de) Verfahren und vorrichtung zur wiedergabe einer pulscodemodulierten information
DE2606515C2 (de) Verfahren und Schaltungsanordnung zur Demodulation eines frequenzmodulierten Signals
DE1115297B (de) Verfahren und Anordnung zur Kennzeichnung bestimmter Zeitpunkte in einer binaeren Signalfolge
DE2425147C3 (de) Wortanfangsdetektor für digitale Datenübertragung
DE2712831B2 (de) Sprachgeschützter frequenzselektiver Zeichenempfänger
DE2341223C3 (de) Schaltungsanordnung für einen selektiven Zeichenempfänger, insbesondere für Fernsprechanlagen
DE1548629A1 (de) Zaehlfehlerfreie Steuerschaltung fuer Stellungsmesswandler
AT399973B (de) Messeinrichtung zur bestimmung der qualität von übertragenen impulstelegrammen
DE2540859C2 (de) Schaltungsanordnung für einen selektiven Zeichenempfänger, insbesondere für Fernsprechanlagen

Legal Events

Date Code Title Description
OD Request for examination
C3 Grant after two publication steps (3rd publication)