-
Die
Erfindung bezieht sich auf ein Verfahren, mittels dessen ein Gespräch in komprimierter
Form auf einem Speicherelement aufgezeichnet werden kann, und auch
auf ein System, um so ein Verfahren zu verwirklichen.
-
Es
ist bekannt, einen getrenntes Bandaufzeichnungsgerät oder dergleichen
mit einem Telefonapparat zu verbinden und ein Gespräch auf diesem Gerät aufzuzeichnen.
Ein solches Verfahren ist ziemlich unhandlich, wenn es auf mobile
Kommunikationsvorrichtungen angewandt wird, da zusätzlich zu einem
Bandaufzeichnungsgerät
auch ein Mischer benötigt
wird, der die ankommenden und nach außen gehenden Audiosignale in
ein Audiosignal kombiniert, damit dieses vom Bandaufzeichnungsgerät aufgezeichnet
werden kann. Weiterhin müssen
in einem digitalen mobilen Kommunikationssystem, wie dem GSM-System,
die Audiosignale von einem digitalen in ein analoges Format vor
dem Aufzeichnen umgewandelt werden, was somit den Rauschpegel des
aufzuzeichnenden Audiosignals erhöht. Ein solches Verfahren für die Aufzeichnung
erfordert mehrere getrennte Geräte,
was teuer und unpraktisch ist.
-
Es
ist bekannt, den Ton einer Rufrichtung zu einer Zeit in einem digitalen
Format im Speicher einer mobilen Kommunikationsvorrichtung aufzuzeichnen. Ein
solches System ist im
finnischen
Patentdokument Nr. 91457 und dem entsprechenden britischen Patentdokument
GB 2 254 986 offenbart.
Das in Frage stehende Patentdokument offenbart ein Verfahren für das Aufzeichnen
von Sprache ohne Pausen. In dem Verfahren wird die Sprache zuerst
durch einen A/D-Wandler in ein digitales Format umgewandelt und
in Rahmen kodiert. Die Rahmen, die Sprache enthalten, werden im
Speicher aufgezeichnet, bis ein Sprachaktivitätsdetektor eine Pause in der
Sprache detektiert. Eine Pausestartmarkierung und die Länge der
Pause werden im Speicher aufgezeichnet, bevor der nächste Sprachrahmen
aufgezeichnet wird. Mittels eines solchen Verfahrens kann Sprache
sehr effizient aufgezeichnet werden, da das Audiosignal während Pausen
nicht aufgezeichnet wird. Während der
Sprachwiedergabe werden die aufgezeichneten Rahmen zu Wiedergabemitteln
gesandt, und wenn man auf eine Pausenmarkierung trifft, wartet das System
während
einer Zeitdauer, die der aufgezeichneten Pausenlängeninformation entspricht,
bevor es die nächsten
Rahmen sendet. Das in diesem Patentdokument offenbarte Verfahren
hat den Nachteil, dass es zu einer Zeit nur den Ton einer Audioquelle, beispielsweise
die Antwortnachricht eines automatischen Telefonanrufbeantworters,
aufzeichnen kann.
-
Die
Patentveröffentlichung
EPA-0725 499 beschreibt
einen Sende-Empfänger,
in welchem eingegebene Audiosignale komprimiert und durch einen Sprachkodierer
kodiert werden, aber sie offenbart nur Merkmale gemäß den Oberbegriffen
der unabhängigen
Ansprüche.
-
Eine
Aufgabe der Erfindung besteht darin, ein Verfahren für das Aufzeichnen
der Sprache beider Parteien eines Gesprächs auf einem Speichermittel
zu liefern. Eine andere Aufgabe der Erfindung besteht darin, ein
Verfahren für
das Aufzeichnen der Sprache beider Parteien eines Gesprächs auf
einem Speichermedium in einer effizienten Weise zu liefern, um somit
Kapazität
des Speichermediums zu sparen. Eine weitere Aufgabe der Erfindung
besteht darin, ein Verfahren zu liefern, das nur wenig Rechenkapazität erfordert,
um die obigen Aufgaben zu verwirklichen.
-
Die
Aufgaben werden gelöst
durch das Aufzeichnen der Rahmen, die aus einem Audiosignal gebildet
wurden, nur dann wenn der Sprachaktivitätsdetektor, wobei es von diesem
einen oder mehrere geben kann, Sprache detektiert, und durch das
Kombinieren der Rahmen, die aus den Signalen von zwei oder mehr
Quellen gebildet sind, und das Aufzeichnen der Rahmen, die das kombinierte
Signal darstellen, wenn der eine oder die mehreren Sprachaktivitätsdetektoren
Sprache detektieren.
-
Das
Verfahren gemäß der Erfindung
ist gekennzeichnet durch das, was im kennzeichnen Teil des unabhängigen Verfahrensanspruchs
spezifiziert ist. Die Erfindung ist weiter auf ein System gerichtet, das
durch das gekennzeichnet ist, was im kennzeichnenden Teil des unabhängigen Systemanspruchs spezifiziert
ist. Abhängige
Ansprüche
beschreiben weitere vorteilhafte Ausführungsformen der Erfindung.
-
Im
System gemäß der Erfindung
werden die Audiosignalabtastungen nur aufgezeichnet, wenn Sprache
in den Audiosignalen detektiert wird. Das System gemäß der Erfindung
spart Speicherkapazität,
die für
das Aufzeichnen erforderlich ist, durch das Kombinieren der Audiosignalabtastungen,
wenn Sprache in den Abtastungen von mindestens einem Audiosignal
detektiert wird. Die Erfindung erniedrigt auch die erforderliche
mittlere Rechenkapazität
und somit auch den Leistungsverbrauch, da die Signalkombination
oder das Mischen vorteilhafterweise nur ausgeführt wird, wenn Sprache in Abtastungen
von mehr als einem Audiosignal detektiert wird.
-
Die
Erfindung wird detaillierter unter Bezug auf die bevorzugten Ausführungsformen,
die nur beispielhaft präsentiert
werden, und unter Bezug auf die angefügten Zeichnungen beschrieben.
-
1 zeigt
ein Flussdiagramm des Betriebs des Systems gemäß der Erfindung;
-
2 zeigt
ein Blockdiagramm einer bevorzugten Ausführungsform der Erfindung; und
-
3 zeigt
ein Zustandsdiagramm des Betriebs einer bevorzugten Ausführungsform
der Erfindung.
-
Im
Verfahren gemäß einer
bevorzugten Ausführungsform
der Erfindung wird das Audiosignal in Abtastungen einer gewissen
Länge aufzeichnet.
Die aufzuzeichnenden Abtastungen werden gemäß den Ausgaben der Sprachaktivitätsdetektoren
für die
gesendeten und empfangenen Audiosignale ausgebildet. Wenn Sprache
sowohl im empfangenen als auch gesendeten Signal detektiert wird,
wird die Abtastung als ein Kombination dieser Signale, beispielsweise durch
eine Summation, ausgebildet. Wenn Sprache nur in einem Signal detektiert
wird, wird die Abtastung vorzugsweise nur aus diesem Signal gebildet. Alternativ
können
die Abtastungen in diesem Fall ebenfalls kombiniert werden, und
die Abtastung des stillen Signals kann vorteilhafterweise durch
eine Nullabtastung ersetzt werden, das ist eine Abtastungen, die
eine oder mehrere Nullen oder andere Werte, die Ruhe entsprechen,
enthält.
Wenn keine Sprache in keinem der Signale detektiert wird, wird keines der
Signale aufgezeichnet. Dann wird ein Ruheperiodenstartmarkierung
im Speichermittel aufgezeichnet, und die Länge der Ruheperiode wird gemessen,
und wenn die Ruhe endet, wird die Ruhelängeninformation aufgezeichnet.
-
In
dieser Patentanmeldung bedeutet "Sprache" zusätzlich zur
normalen Definition von Sprache auch alle Arten von Tönen, die
möglicherweise
im Audiosignal erscheinen, mit Ausnahme des Hintergrundrauschens.
-
1 zeigt
ein Flussdiagramm des Betriebs einer Ausführungsform des Systems gemäß dieser Erfindung.
Dieses Beispiel zeigt das Aufzeichnen eines normalen Gespräches zwischen
zwei Parteien. Ein Benutzer startet, 100, die Gesprächsaufzeichnung,
beispielsweise durch das Drücken
einer Taste des Mobiltelefons oder durch das Ausgeben des Aufzeichnungsstartbefehls
in einer anderen bekannten Art. Als nächstes erhält das System, 101,
eine Abtastung des ankommenden Audiosignals und des abgehenden Audiosignals,
das vom Benutzer gesprochen wird. Dann prüft, 102, das System,
ob der Benutzer einen Aufzeichnungsstopbefehl ausgegeben hat, beispielsweise
durch das Drücken
einer gewissen Taste oder auf eine andere bekannte Weise. Typischerweise
ist das am Beginn der Aufzeichnung nicht der Fall, so dass das System
als nächstes
die Werte der Ausgaben der Sprachaktivitätsdetektoren beider Audiosignale
prüft, 103.
Wenn beide Detektoren anzeigen, dass die Signale Sprache enthalten,
erzeugt, 110, das System die Abtastung, die an das Speicherelement
zu senden ist, auf der Basis sowohl der Abtastung des empfangenen
ankommenden Audiosignals als auch der Abtastung des abgehenden Audiosignals,
das durch den Benutzer gesprochen wird. Im Verfahren gemäß der Erfindung
ist es möglich,
jedes Verfahren aus dem Stand der Technik zu verwenden, um zwei
Signalabtastungen zu kombinieren, und die Erfindung ist nicht auf
die Verwendung irgend eines speziellen Kombinationsverfahrens begrenzt.
Die so erzeugte Abtastung wird kodiert, 113, um den erforderlichen
Aufzeichnungsspeicher zu vermindern und an das Speicherelement gesandt, 115,
wonach die Ausführung
zum Schritt 101 zurückkehrt.
Das Verfahren gemäß der Erfindung
kann vorteilhafterweise eine A-law-Kodierung verwenden. Die Erfindung
ist jedoch nicht auf die Verwendung einer A-law-Kodierung begrenzt, sondern das Verfahren
und das System gemäß der Erfindung
können
auch andere Kodier- und Komprimierungsverfahren gemäß dem Stand
der Technik verwenden, wie Verfahren, die im GSM-System verwendet
werden. Die Kodierverfahren, die im GSM-System verwendet werden,
und die GSM-Systemarchitektur werden beispielsweise beschrieben
in "The GSM System
for Mobile Communications" von
Michel Mouly und Marie-Bernadette Pautet, veröffentlicht von den Autoren,
ISBN 2-9507190-0-7, Palaiseau 1992, 701 pp.
-
Wenn
im Schritt 103 von beiden Detektoren Sprache nicht detektiert
wurde, prüft, 104,
das System als nächstes,
ob der Sprachaktivitätsdetektor des
ankommenden Audiosignals Sprache detektiert. Wenn Sprache im ankommenden
Signal detektiert wird, wird die Abtastung des ankommenden Audiosignals
als die aufzuzeichnende Abtastung festgelegt, 111. Die
aufzuzeichnende Abtastung wird in einem A-law-Kodierer kodiert, 113 und
an das Speicherelement gesandt, 115, wonach die Ausführung zum Schritt 101 zurückkehrt.
-
Wenn
im Schritt 104 der Sprachaktivitätsdetektor des ankommenden
Audiosignals keine Sprache detektiert, prüft, 105, das System
als nächstes, ob
der Sprachaktivitätsdetektor
des abgehenden Audiosignals Sprache detektiert. Wenn Sprache im
abgehenden Signal detektiert wird, wird die abgehende Sprachabtastung
als die aufzuzeichnende Abtastung festgelegt, 111. Die
aufzuzeichnende Abtastung wird in einem A-law-Kodierer kodiert, 113, und
an das Speicherelement gesandt, 115, wonach die Ausführung zum
Schritt 101 zurückkehrt.
-
Wenn
im Schritt 105 der Sprachaktivitätsdetektor des abgehenden Audiosignals
keine Sprache detektiert, wird eine Ruhestartmarkierung an das Speicherelement
gesandt, 106. Als nächstes
erhält, 107,
das System eine Abtastung des ankommenden Audiosignals und des abgehenden
Audiosignals, das vom Benutzer gesprochen wird, und erhöht, 116 den Wert
des Zählers,
der die Länge
der Ruhe misst, um eins. Wenn keine Sprache in den im Schritt 107 geholten
Abtastungen detektiert wird, kehrt das System zum Schritt 107 zurück und holt
die nächsten
Abtastungen. Die Schritte 107, 116 und 108 werden
wiederholt, bis Sprache in der Abtastung von mindestens einem Audiosignal
detektiert wird, wonach das System die Länge der Ruhe im Speicherelement
aufzeichnet, 109, den Zähler,
der die Länge
der Ruhe misst, zurücksetzt
(aus Gründen
der Klarheit ist dieser Schritt in 1 nicht
gezeigt) und zu Schritt 102 zurückkehrt.
-
Die
oben beschriebene Sequenz wird wiederholt, bis der Benutzer den
Aufzeichnungsstopbefehl ausgibt, der Speicher, der für die Aufzeichnung reserviert
ist, ausgeht, das Gespräch
gelöst
wird, die Verbindung unterbrochen wird oder beispielsweise eine
vorbestimmte Zeitgrenze, die für
die Aufzeichnung festgelegt ist, erreicht wird.
-
Im
vorigen Beispiel wird die Aufzeichnung beendet, wenn die Verbindung
aus irgend einem Grund unterbrochen wird, oder wenn der andere Teilnehmer
oder der Benutzer die Gesprächsverbindung beendet.
Dies soll jedoch keine Begrenzung der Erfindung darstellen. In einer
anderen vorteilhaften Ausführungsform
der Erfindung wird das Aufzeichnen nach einem solchen Ereignis fortgesetzt,
bis der Benutzer die Aufzeichnung beendet, beispielsweise indem
er einen entsprechenden Befehl über
die Benutzerschnittstelle, beispielsweise ein Tastenfeld, eines
mobilen Kommunikationsmittels gibt. In dieser Ausführungsform
beeinflusst die unterbrochene oder gelöste Verbindung vorzugsweise
die Aufzeichnung in einer ähnliche
Weise wie ein Schweigen der anderen Partei. Beispielsweise wird
nur das Sprachsignal des Benutzers aufgezeichnet, oder das Sprachsignal des
Benutzers wird mit einem Signal gemischt, das Ruhe entspricht. Diese
Ausführungsform
hat den Vorteil, dass der Benutzer abschließende Kommentare der Aufzeichnung
hinzufügen
kann, nachdem die Verbindung unterbrochen oder gelöst wurde.
-
Vorteilhafterweise
prüft das
System in Schritt 116, dass der Zählerwert eine gewisse Grenze
nicht übersteigt,
die von der Implementierung der Ausführungsform abhängt. Beispielsweise
wird in mobilen GSM-Stationen das Audiosignal durch 13 Bit dargestellt,
so dass nach der A-law-Kodierung im Schritt 113 die kodierte
Abtastung, die im Speicherelement aufzuzeichnen ist, durch 8 Bits
dargestellt werden kann, was eine vorteilhafte Länge für ein Speicherelementwort darstellt.
Dann ist auch der Zähler
für die Länge der
Ruhe vorteilhafterweise ein 8-Bit Element, wobei er in diesem Fall
maximal 255 Ruheabtastungen zählen
kann. Wenn der Zähler
den Maximalwert erreicht, kann das System beispielsweise an das Speicherelement
den Maximalwert des Zählers
senden, und eine neue Ruhestartmarkierung und den Zähler zurücksetzen,
um das Zählen
vom Beginn zu starten.
-
Es
ist möglich
im Schritt 113 statt der A-law-Kodierung ein anderes bekanntes
Signalkomprimierungsverfahren, wie eine μ-law-Kodierung, eine adaptive differentielle
Pulskodemodulation (ADPCM) oder eine GSM FR Kodierung zu verwenden. Das
im Schritt 113 verwendete Kodierelement kann beispielsweise
ein Kodierelement sein, das man in der Mobilstation findet, das
verwendet wird, um das Audiosignal, das zum Funkpfad gesendet wird,
zu kodieren, oder ein getrenntes Kodierelement, das speziell für die Aufzeichnung
konstruiert ist.
-
2 zeigt
ein Blockdiagramm einer bevorzugten Ausführungsform der Erfindung, die
beispielsweise in GSM-Mobilstationen
verwendet werden kann. Ein Empfängerteil 200 empfängt eine
ankommende Übertragung
und wandelt das Audiosignal, das in den Rahmen des GSM-Basisstationssignals enthalten
ist, in digitale 13-Bit-Abtastungen um, die zum Sprachaktivitätsdetektor 206 des
ankommenden Audiosignals und zu einem digitalen Signalprozessor
(DSP) 210 genommen werden. Die Sprache des Benutzers der
Mobilstation, die in ein Mikrofon 202 gesprochen wird,
wird in einem A/D-Wandler 204 in digitale Abtastungen umgewandelt,
die zum Sprachaktivitätsdetektor 208 des
abgehenden Audiosignals und zum digitalen Signalprozessor 210 genommen
werden. Die Ausgaben der Detektoren 206, 208 sind
funktional mit dem digitalen Signalprozessor 210 verbunden.
Die Blöcke
des in 1 gezeigten Flussdiagramms können vorteilhafterweise als
Programme im digitalen Signalprozessor 210 verwirklicht
werden. Der digitale Signalprozessor 210 erzeugt die aufzunehmenden
Abtastungen aus den Abtastungen des ankommenden Audiosignals, aus
den Abtastungen des abgehenden Audiosignals, oder aus beiden, und
sendet die aufgezeichneten Abtastungen über einen A-law-Kodierer 214 an
ein Speicherelement 212. Der digitale Signalprozessor 210 berechnet
auch die Längen
der Ruhepausen und sendet, 216, die Ruhepausenstartmarkierungen
und die gemessenen Längen
an das Speicherelement 212 ohne eine Kodierung im Kodierer 214.
Aus Gründen
der Klarheit zeigt 2 nur solche Teile eines mobilen
Kommunikationsmittels, die notwendig sind, um die Ausführungsform
zu illustrieren.
-
Im
in 2 dargestellten Beispiel werden zwei ankommende
Audiosignale durch zwei getrennte Sprachaktivitätsdetektoren 206, 208 überwacht. Es
kann sein, dass es mehr als zwei Audiosignale gibt, die aufzuzeichnen
sind. Zusätzlich
kann ein Sprachaktivitätsdetektor
oder ein äquivalentes Überwachungselement
des Audiosignals festgesetzt werden, um mehr als ein Audiosignal
zu überwachen. Solche
Sprachaktivitätsdetektoren
oder äquivalente Audiosignalüberwachungselemente
können
auch als Programme im digitalen Signalprozessor 210 verwirklicht
werden. Andererseits kann das System statt dem gebräuchlichen
digitalen Signalprozessor 210 ein spezielles Mischelement 210 umfassen,
das mindestens von einem Audiosignalüberwachungselement gesteuert
wird, das Audiosignalabtastungen mischt, wenn Sprache in mehr als
einem Audiosignal detektiert wird, und das Abtastungen von nur einem Audiosignal
an seine Ausgänge
kopiert, wenn Sprache in den Abtastungen von dem nur einen Audiosignal
detektiert wird. Die Wiedergabe des aufgezeichneten Gesprächs kann
in ähnlicher
Weise bewirkt werden. Während
der Wiedergabe kann eine Sprachaktivitätsüberwachungseinrichtung eine Überwachung
ausführen,
ob der Benutzer der Mobilstation spricht oder dies nicht tut. Wenn
der Benutzer spricht, wird das Sprachsignal mit dem Signal gemischt,
das in einem Mischelement abgespielt wird. Wenn der Benutzer nicht
spricht, kann das Mischelement das wiedergegebene Signal an seinen
Ausgang kopieren oder das wiedergegebene Signal mit einem Nullsignal
mischen, das ist ein Signal, das Nullwerte oder andere Werte, die
Ruhe entsprechen, aufweist.
-
Die
Wiedergabe eines aufgezeichneten Gesprächs kann beispielsweise auch
so ausgelegt werden, das kodierte Audiosignalabtastungen aus dem Speicherelement 212 geholt
werden, wobei zur selben Zeit beobachtet wird, ob es eine Ruhestartmarkierung
unter den Abtastungen gibt. Die kodierten Audiosignalabtastungen
werden in einem A-law-Dekodierer dekodiert, wonach die Abtastungen
zum gewünschten
Signaleingang, beispielsweise über
einen A/D-Wandler zu einem Lautsprecher oder externen Verstärkersystem
oder möglicherweise über den Senderteil
der Mobilstation zum anderen Teilnehmer des Gesprächs, gegeben
werden. Wenn eine Ruhestartmarkierung unter den Abtastungen detektiert wird,
wird die Ruhelängeninformation
aus dem Speicherelement gelesen, und das Lesen der Abtastungen aus
dem Speicherelement 212 wird für die Dauer der Ruhe unterbrochen.
-
3 zeigt
ein Zustandsdiagramm des Betriebs einer bevorzugten Ausführungsform
der Erfindung in einer Situation, wo die Sprachen der zwei Teilnehmer
eines Gesprächs
aufgezeichnet werden. Der Betrieb kann als eine Vierzustandsmaschine
gemäß 3 dargestellt
werden. Das Zustandsdiagramm der 3 kann beispielsweise
verwendet werden, um den Betrieb der in 2 gezeigten
Ausführungsform
darzustellen. Die Zustände
sind folgende:
- 31 Der Benutzer der Mobilstation
spricht zur Mobilstation
- 32 Ruhe, beide Teilnehmer sind ruhig
- 33 Der andere Teilnehmer spricht, und
- 34 Beide Teilnehmer sprechen
-
Im
Zustand 31, bei dem nur der Benutzer der Mobilstation spricht,
werden Abtastungen der Sprache des Benutzers der Mobilstation im
Speicherelement aufgezeichnet. Im Zustand 32 werden überhaupt
keine Signalabtastungen aufgezeichnet, aber das System misst die
Länge der
Pause. Im Zustand 33 spricht der andere Teilnehmer, und
Abtastungen der Sprache des anderen Teilnehmers werden im Speicherelement
aufgezeichnet. Im Zustand 34 sprechen beide Parteien, und
die Abtastungen der Audiosignale beider Parteien werden kombiniert,
und die kombinierten Abtastungen werden im Speicherelement aufgezeichnet.
-
Der Übergang 301 tritt
auf, wenn der Benutzer der Mobilstation mit dem Sprechen beginnt.
Das System sieht dies als Aktivierung des Sprachaktivitätsdetektors,
der die Sprache des Benutzers der Mobilstation überwacht. Das System zeichnet
dann im Speicherelement die Länge
der Ruhedauer auf.
-
Der Übergang 302 tritt
auf, wenn der Benutzer der Mobilstation das Sprechen beendet. Das
System sieht dies als Deaktivierung des Sprachaktivitätsdetektors,
der die Sprache des Benutzers der Mobilstation überwacht. Das System zeichnet
dann im Speicherelement die Ruhedauerstartmarkierung auf.
-
Der Übergang 303 tritt
auf, wenn beide Teilnehmer des Gesprächs das Sprechen beenden. Das System
sieht dies als Deaktivierung beider Sprachaktivitätsdetektoren.
Das System zeichnet dann im Speicherelement die Ruhedauerstartmarkierung
auf.
-
Der Übergang 304 tritt
auf, wenn beide Teilnehmer mit dem Sprechen beginnen. Das System sieht
dies als Aktivierung beider Sprachaktivitätsdetektoren. Das System zeichnet
dann im Speicherelement die Länge
der Ruhedauer auf.
-
Der Übergang 305 tritt
auf, wenn der Benutzer der Mobilstation in einer Situation mit dem
Sprechen aufhört,
während
der andere Teilnehmer spricht. Das System sieht dies als Deaktivierung
des Sprachaktivitätsdetektors,
der die Sprache des Benutzers der Mobilstation überwacht.
-
Der Übergang 306 tritt
auf, wenn der Benutzer der Mobilstation mit dem Sprechen beginnt,
wenn der andere Teilnehmer spricht. Das System sieht dies als Aktivierung
des Sprachaktivitätsdetektors,
der die Sprache des Benutzers der Mobilstation überwacht.
-
Der Übergang 307 tritt
auf, wenn der andere Teilnehmer in einer Situation mit dem Sprechen
beginnt, in der der Benutzer der Mobilstation spricht. Das System
sieht dies als Aktivierung des Sprachaktivitätsdetektors, der die Sprache
des anderen Teilnehmers überwacht.
-
Der Übergang 308 tritt
auf, wenn der andere Teilnehmer in einer Situation mit dem Sprechen
aufhört,
bei der der Benutzer der Mobilstation spricht. Das System sieht
dies als Deaktivierung des Sprachaktivitätsdetektors, der die Sprache
des anderen Teilnehmers überwacht.
-
Der Übergang 309 tritt
auf, wenn der anderen Teilnehmer das Sprechen beendet zur selben Zeit,
zu der der Benutzer der Mobilstation mit dem Sprechen beginnt. Das
System sieht dies als Deaktivierung des Sprachaktivitätsdetektors,
der die Sprache des anderen Teilnehmers überwacht und als Aktivierung
des Detektors, der die Sprache des Benutzers der Mobilstation überwacht.
-
Der Übergang 310 tritt
auf, wenn der anderen Teilnehmer zur selben Zeit mit dem Sprechen
beginnt, zu der der Benutzer der Mobilstation das Sprechen beendet.
Das System sieht dies als Aktivierung des Sprachaktivitätsdetektors,
der die Sprache des anderen Teilnehmers überwacht, und als Deaktivierung
des Detektors, der die Sprache des Benutzers der Mobilstation überwacht.
-
Der Übergang 311 tritt
auf, wenn der andere Teilnehmer mit dem Sprechen beginnt. Das System sieht
dies als Aktivierung des Sprachaktivitätsdetektors, der die Sprache
des anderen Teilnehmers überwacht.
Das System zeichnet dann die Länge
der Ruhedauer im Speicherelement auf.
-
Der Übergang 312 tritt
auf, wenn der andere Teilnehmer das Sprechen beendet. Das System
sieht dies als Deaktivierung des Sprachaktivitätsdetektors, der die Sprache
des anderen Teilnehmers überwacht.
Das System zeichnet dann die Ruhedauerstartmarkierung im Speicherelement
auf.
-
Das
Verfahren gemäß der Erfindung
ist nicht auf das Aufzeichnen der Sprache von zwei Teilnehmern begrenzt,
sondern das Verfahren gemäß der Erfindung
kann auch für
das Aufzeichnen eines sogenannten Konferenzgesprächs mit mehreren Teilnehmern
verwendet werden. Das System gemäß der Erfindung
kann verwendet werden, um mehr als zwei getrennte Audiosignale aufzuzeichnen,
wobei in diesem Fall das System einen Sprachaktivitätsdetektor für jedes
aufzuzeichnende Audiosignal umfasst, und wobei die aufzuzeichnende
Abtastung in der oben beschriebenen Weise aus den Abtastungen des
Audiosignals, in dem Sprache detektiert wird, erzeugt wird.
-
Im
Verfahren gemäß der Erfindung
werden das Signalmischen und die Rechenkapazität des digitalen Signalprozessors,
die für
das Mischen erforderlich ist, nur benötigt, wenn die Teilnehmer eines Gesprächs zur
selben Zeit sprechen, was erforderliche Rechenkapazität und ebenso
Leistung, die durch das System verbraucht wird, spart. Weiterhin
muss ein getrennter analoger Mischer nicht zu den analogen Teilen
der Mobilstation hinzugefügt
werden, um ein Gespräch
aufzuzeichnen.
-
Das
System gemäß der Erfindung
kann leicht aktuellen Mobilstationen hinzugefügt werden, da die meisten Funktionen
des Systems als Programme im digitalen Signalprozessor, den man
typischerweise in Mobilstationen findet, verwirklicht werden können. Einige
Mobilstationsmodelle haben schon die Speicherkapazität, die vom
System gemäß der Erfindung
gefordert wird, und das Hinzufügen
erforderlicher Speicherkapazität
ist bei den aktuellen Preisen von Speicherbausteinen nicht teuer.
-
Es
ist für
einen Fachmann offensichtlich, dass die verschiedenen Ausführungsformen
der Erfindung nicht auf die oben beschriebenen Beispiele beschränkt sind,
sondern dass sie innerhalb des Umfangs der nachfolgenden Ansprüche modifiziert
werden können.
-
In
den hier angefügten
Ansprüchen
bezeichnet "Signal" das Ausgangssignal
einer Audioquelle, das möglicherweise
Ruhepausen, einfaches Hintergrundrauschen oder beispielsweise Sprache
oder Musik einschließt.
In den hier angefügten
Ansprüchen
bezeichnet "Sprache" zusätzlich zur
normalen Definition von Sprache auch andere Töne im aufzunehmenden Signal,
die sich vom Hintergrundrauschen unterscheiden, wie Musik und Töne von Maschinen,
aber spezifisch kein Hintergrundrauschen.