-
Die
vorliegende Erfindung betrifft ein Verfahren und ein System zur
Verarbeitung eines Tonsignals gemäß extrahierter Merkmale des
Tonsignals. Die vorliegende Erfindung weist eine besondere, aber
nicht ausschließliche
Anwendung bei Systemen auf, die musikalische Merkmale eines Tonsignals
wie etwa das Tempo oder die Tonart bestimmen und extrahieren. Die
extrahierten Merkmale werden in Metadaten übersetzt.
-
Umgebungsumweltsysteme,
die die Umwelt steuern, sind zum Beispiel aus der Veröffentlichung unserer
US-Patentanmeldung US 2002/0169,817 bekannt, die ein Echtwelt-Darstellungssystem
offenbart, das einen Satz von Einrichtungen umfasst, wobei jede
Einrichtung dazu eingerichtet ist, einen oder mehrere Echtwelt-Parameter,
zum Beispiel Ton- und Bildeigenschaften, bereitzustellen. Zumindest
eine der Einrichtungen ist dazu eingerichtet, eine Echtwelt-Beschreibung
in der Form eines Befehlssatzes einer Auszeichnungssprache zu erhalten,
und die Einrichtungen werden gemäß der Beschreibung
betrieben. Allgemeine Ausdrücke,
die in der Sprache ausgedrückt
sind, werden entweder durch einen lokalen Server oder durch einen
verteilten Browser interpretiert, um die Einrichtungen zu betreiben,
um dem Benutzer die Echtwelt-Erfahrung zu erbringen.
-
Die
Veröffentlichung
der US-Patentanmeldung US 2002/0169,012 offenbart ein Verfahren
zum Betreiben eines Satzes von Einrichtungen, das das Erhalten eines
Signals, zum Beispiel zumindest eines Teils eines Spielweltmodells,
von einem Computerprogramm umfasst. Das Signal wird analysiert,
um eine Echtwelt-Beschreibung in der Form eines Befehlssatzes einer
Auszeichnungssprache zu erzeugen, und der Satz von Einrichtungen
wird gemäß der Beschreibung
betrieben.
-
Es
ist erwünscht,
ein Verfahren zum automatischen Erzeugen von Befehlssätzen der
Auszeichnungssprache aus einem Tonsignal bereitzustellen. "Structured Description
Method For General Acoustic Signals Using XML-Format" von Toshio Modegi, IEEE
Int. Conf. On Multimedia And Expo, 22. August 2001, Seite 725 bis
728, offenbart das Abtrennen von Vokaltönen, die in populären Liedern
enthalten sind, und das Codieren gegebener musikalischer Töne in ein
Mehrkanal-MIDI-Format. Diese MIDI- Hinweisereignisse werden in Symbole
umgewandelt, und die Symbole werden in Phrasen umgewandelt, die
im XML-Format beschrieben sind.
-
Das
Dokument
GB 2 354 602 offenbart
ein System zum Steuern von Beleuchtungseinrichtungen auf Grundlage
der Analyse eines Tonsignals und die Erzeugung eines Satzes von
Auslösebefehlen
auf einem Datenbus.
-
Nach
einem durch Anspruch 1 definierten ersten Gesichtspunkt der vorliegenden
Erfindung wird ein Verfahren zur Verarbeitung eines Tonsignals bereitgestellt,
das das Erhalten eines Tonsignals, das Extrahieren von Merkmalen
aus dem Tonsignal, das Übersetzen
der extrahierten Merkmale in Metadaten, wobei die Metadaten einen
Befehlssatz einer Auszeichnungssprache umfassen, das Senden (208) des
Befehlssatzes zu einem Browser (124), das Erhalten (210)
von Auszeichnungssprachenobjekten (126) und das Erbringen
(212) der Auszeichnungssprachenobjekte (126) in
Synchronisation mit dem erhaltenen Tonsignal umfasst.
-
Nach
einem durch Anspruch 6 definierten zweiten Gesichtspunkt der vorliegenden
Erfindung wird ein System zur Verarbeitung eines Tonsignals bereitgestellt,
das eine Eingabeeinrichtung zum Erhalten eines Tonsignals, einen
Prozessor zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen
der extrahierten Merkmale in Metadaten, wobei die Metadaten einen
Befehlsatz einer Auszeichnungssprache umfassen, eine Ausgabeeinrichtung
(116, 118) zum Ausgeben des erhaltenen Tonsignals,
und einen über
einen Satz von Einrichtungen verteilten Browser (124) umfasst,
wobei der Browser (124) dazu eingerichtet ist, den Befehlssatz
der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte
(126) zu erhalten und den Satz von Einrichtungen entsprechend
und in Synchronisation mit dem ausgegebenen Tonsignal zu steuern.
-
Dank
der Erfindung ist es möglich,
aus einem Tonsignal automatisch Metadaten zu erzeugen, die auf dem
Inhalt des Tonsignals beruhen, und diese zu verwenden, um ein Umgebungsumweltsystem
in Synchronisation mit dem Tonsignal zu steuern.
-
Das
Verfahren umfasst vorteilhaft ferner das Speichern der Metadaten.
Dies erlaubt dem Benutzer die Option, die Metadaten, die ausgegeben
wurden, wiederzuverwenden, zum Beispiel, indem sie zu einem Ort
gesendet werden, der nicht über
die Verarbeitungsleistung zur Ausführung der Merkmalextraktion
aus dem Tonsignal verfügt.
Vorzugsweise umfasst das Speichern ein Speichern der Metadaten mit zugehörigen Zeitdaten,
wobei die Zeitdaten die Beginnzeit und die Dauer, in Bezug auf das
erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks im Befehlssatz
definieren. Durch das Speichern von Zeitdaten mit den Metadaten,
die mit dem ursprünglichen
Tonsignal synchronisiert sind, definieren die Metadaten, wenn sie
mit dem Tonsignal wiederverwendet werden, eine Erfahrung, die zeitabhängig ist, die
aber auch dem ursprünglichen
Tonsignal entspricht.
-
Das
Verfahren umfasst das Senden des Befehlssatzes zu einem Browser,
und umfasst ferner auch das Erhalten von Auszeichnungssprachenobjekten.
Das Verfahren umfasst ferner auch das Erbringen der Auszeichnungssprachenobjekte
in Synchronisation mit dem erhaltenen Tonsignal. Auf diese Weise
werden die Metadaten direkt verwendet, um die Umgebungsumwelt bereitzustellen.
Der Browser erhält
den Befehlssatz und die Auszeichnungssprachenobjekte und erbringt
die Objekte wie durch den Befehlssatz angewiesen in Synchronisation
mit dem ausgegebenen Ton.
-
Die
aus dem Tonsignal extrahierten Merkmale beinhalten in einer bevorzugten
Ausführungsform eines
oder mehrere aus dem Tempo, der Tonart und der Lautstärke. Diese
Merkmale definieren in einem weiten Sinn Gesichtspunkte des Tonsignals.
Sie geben solche Dinge wie etwa die Stimmung an, die verwendet werden
können,
um Metadaten zu definieren, die die Umgebungsumwelt bestimmen werden,
um das Tonsignal zu bereichern.
-
Die
vorliegende Erfindung wird nun nur beispielhaft und unter Bezugnahme
auf die beiliegenden Zeichnungen beschrieben werden, wobei
-
1 eine
schematische Darstellung eines Systems zur Verarbeitung eines Tonsignals
ist,
-
2 ein
Ablaufdiagramm eines Verfahrens zur Verarbeitung eines Tonsignals
ist, und
-
3 eine
schematische Darstellung der Speicherung von Metadaten mit zugehörigen Zeitdaten
ist.
-
1 zeigt
eine schematische Darstellung eines Systems 100 zur Verarbeitung
eines Tonsignals. Das System 100 besteht aus einem Prozessor (ZVE) 102,
der über
einen allgemeinen Datenbus 108 mit einem Speicher (ROM) 104 und
einem Speicher (RAM) 106 verbunden ist. Ein Computercode
oder eine Software 110 auf einem Träger 112 kann in den RAM 106 geladen
werden (oder alternativ im ROM 104 bereitgestellt sein),
wobei der Code den Prozessor 102 veranlasst, Befehle durchzuführen, die
das Verarbeitungsverfahren verkörpern.
Zusätzlich
ist der Prozessor 102 mit einem Speicher 114,
mit Ausgabeeinrichtungen 116, 118, und mit einer
Eingabeeinrichtung 122 verbunden. Eine Benutzerschnittstelle
(UI) 120 ist ebenfalls bereitgestellt.
-
Das
System 100 kann als ein herkömmlicher Heimpersonalcomputer
(PC) ausgeführt
sein, wobei die Ausgabeeinrichtung 116 die Form eines Computerbildschirms
oder einer Anzeige annimmt. Der Speicher 114 kann eine
Ferndatenbank sein, die über eine
Netzwerkverbindung verfügbar
ist. Wenn das System 100 in einem Heimnetzwerk ausgeführt ist, können die
Ausgabeeinrichtungen 116, 118 alternativ überall im
Heim verteilt sein und zum Beispiel einen an der Wand angebrachten
Flachbildschirm, computergesteuerte Heimbeleuchtungseinheiten, und/oder Tonlautsprecher
umfassen. Die Verbindungen zwischen dem Prozessor 102 und
den Ausgabeeinrichtungen 116, 118 können kabellos
(zum Beispiel Kommunikationen über
die Funkstandards WiFi oder Bluetooth) und/oder verdrahtet (zum
Beispiel Kommunikationen über
die verdrahteten Standards Ethernet, USB) sein.
-
Das
System 100 erhält
eine Eingabe eines Tonsignals (wie etwa eines Musiktitels von einer
CD), woraus musikalische Merkmale extrahiert werden. In dieser Ausführungsform
wird das Tonsignal über
eine interne Eingabeeinrichtung 122 des PC wie etwa ein CD/DVD-
oder ein Festplattenlaufwerk bereitgestellt. Alternativ kann das
Tonsignal über
einen Anschluss an ein vernetztes Heimunterhaltungssystem (Hi-Fi, Heimkino,
usw.) erhalten werden. Fachleute werden erkennen, dass die genaue
Hardware/Software-Gestaltung und der Mechanismus der Bereitstellung
eines Tonsignals nicht wichtig sind, sondern vielmehr, dass derartige
Signale dem System 100 verfügbar gemacht werden.
-
Die
Extraktion von musikalischen Merkmalen aus einem Tonsignal ist im
Dokument "Querying
large collections of music for similarity" (Matt Welsh et al, UC Berkeley Technical
Report UCB/CSD-.00-1096, November 1999) beschrieben. Das Dokument
beschreibt, wie Merkmale wie etwa ein durchschnittliches Tempo,
eine Lautstärke,
Rauschen, und tonale Übergänge aus
dem Analysieren eines eingegebenen Tonsignals bestimmt werden können. Ein
Verfahren zur Bestimmung der musikalischen Tonart eines Tonsignals
ist in der US-Patentschrift
US
5,038,658 beschrieben.
-
Die
Eingabeeinrichtung 122 dient zum Erhalten des Tonsignals
und der Prozessor 102 dient zum Extrahieren von Merkmalen
aus dem Tonsignal und zum Übersetzen
der extrahierten Merkmale in Metadaten, wobei die Metadaten einen
Befehlssatz einer Auszeichnungssprache umfassen. Der Prozessor 102 erhält das Tonsignal
und extrahiert wie in den oben erwähnten Literaturverweisen beschrieben
musikalische Merkmale wie etwa die Lautstärke, das Tempo und die Tonart.
Sobald der Prozessor 102 die musikalischen Merkmale aus
dem Tonsignal extrahiert hat, übersetzt
der Prozessor 102 diese musikalischen Merkmale in Metadaten.
Diese Metadaten werden in der Form sehr allgemeiner Ausdrücke wie etwa <SOMMER> oder <VERTRÄUMTER TEICH> sein. Die Übersetzungsmaschine
im Prozessor 102 betreibt entweder eine definierte Reihe
von Algorithmen, um die Metadaten zu erzeugen, oder ist in der Form
einer Anordnung eines "neuralen
Netzes", um die
Metadaten aus den extrahierten Merkmalen zu erzeugen. Die sich ergebenden
Metadaten sind in der Form eines Befehlssatzes einer Auszeichnungssprache.
-
Das
System 100 umfasst ferner einen Browser 124 (der
in 2 schematisch gezeigt ist), der über einen
Satz von Einrichtungen verteilt ist, wobei der Browser 124 dazu
eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten
und Auszeichnungssprachenobjekte zu erhalten und den Satz von Einrichtungen
entsprechend zu steuern. Der Satz von Einrichtungen, die durch den
Browser 124 gesteuert werden, kann die Ausgabeeinrichtungen 116 und 118 beinhalten
und/oder kann weitere Einrichtungen beinhalten, die vom System entfernt sind.
Zusammen bauen diese Einrichtungen ein Umgebungsumweltsystem auf,
wobei die verschiedenen Ausgabeeinrichtungen 116, 118 mit
einer Auszeichnungssprache und einem Befehlssatz, der gestaltet ist,
um Echtwelt-Erfahrungen
zu liefern, konform sind.
-
Ein
Beispiel für
eine derartige Sprache ist die physische Auszeichnungssprache (physical
markup language PML), die in den ebenfalls anhängigen Anmeldungen des Anmelders,
auf die oben verwiesen wurde, beschrieben ist. PML beinhaltet ein
Mittel, um einem Endnutzer Erfahrungen zu verfassen, zu kommunizieren
und zu erbringen, damit der Endnutzer einen bestimmten Grad des
Eintauchens in einen echten physischen Raum erfährt. Zum Beispiel können PML-fähige Konsumenteneinrichtungen
wie etwa ein Tonsystem und ein Beleuchtungssystem Befehle von einer
Wirtsnetzwerkeinrichtung erhalten (welche Befehle zum Beispiel in
einen DVD-Videostrom eingebettet sein können), die verursacht, dass
die Lichter oder Tonausgänge
von den Einrichtungen modifiziert werden. So verursacht eine dunkle
Szene in einem Film, dass sich die Lichter im Heim des Konsumenten passend
verdunkeln.
-
PML
ist im Allgemeinen eine höhere
beschreibende Auszeichnungssprache, die in XML mit Deskriptoren,
welche sich auf Echtwelt-Ereignisse beziehen, wie zum Beispiel <WALD>, verwirklicht werden
kann. Somit ermöglicht
PML, das Einrichtungen überall
im Heim eine Erfahrung für
einen Konsumenten in einer standardisierten Weise bereichern.
-
Daher
erhält
der Browser 124 den Befehlssatz, der zum Beispiel <SOMMER> oder <ABEND> beinhalten kann. Der
Browser erhält
auch Auszeichnungssprachenobjekte 126, die zumindest ein
Objekt für
jedes Mitglied des Befehlssatzes sein werden. So kann für <SOMMER> eine Videodatei vorhanden sein,
die ein Standbild enthält,
und auch eine Datei vorhanden sein, die eine Farbdefinition enthält. Für <ABEND> können ähnliche Dateien vorhanden sein, die
Daten für
die Farbe, ein Standbild und/oder ein bewegtes Video enthalten.
Wenn die ursprüngliche Musik
gespielt (oder wiedergegeben) wird, erbringt der Browser 124 die
zugehörigen
Auszeichnungssprachenobjekte 126, damit die Farben und
Bilder je nach der Fähigkeit
jeder Einrichtung im Satz durch jede Einrichtung erbracht werden.
-
2 fasst
das Verfahren zur Verarbeitung des Tonsignals zusammen, welches
Verfahren das Erhalten 200 eines Tonsignals, das Extrahieren 202 von
Merkmalen aus dem Tonsignal, und das Übersetzen 204 der
extrahierten Merkmale in Metadaten umfasst, welche Metadaten einen
Befehlssatz einer Auszeichnungssprache umfassen. Das Tonsignal wird über die
Eingabeeinrichtung 122 von 1 von einer
CD erhalten. Die Schritte des Extrahierens 202 der musikalischen
Merkmale des Tonsignals und des Übersetzens 204 der
Merkmale in die passenden Metadaten werden im Prozessor 102 des
Systems von 1 ausgeführt. Der Ausgang der Merkmalextraktion 202 ist
eine Metabeschreibung über
das erhaltene Tonsignal. Der Aufbau der Metabeschreibung wird von
der Natur des Extraktionssystems abhängen, das durch den Prozessor 102 verwendet wird.
Ein verhältnismäßig einfaches
Extraktionssystem wird eine Beschreibung wie "Tonart: A-Moll; mittlere Lautstärke: 8/10;
Standardabweichung der Lautstärke:
+/– 2" ergeben. Ein komplizierteres
System würde
fähig sein, äußerst ausführliche
Informationen über
das Tonsignal einschließlich
Veränderungen
der Merkmale im Zeitablauf im verarbeiteten Musikstück zu ergeben.
-
Das
Verfahren kann ferner den Schritt 206 des Speicherns der
Metadaten umfassen. Dies ist in 3 veranschaulicht.
Das Speichern kann das Speichern der Metadaten 302 mit
zugehörigen
Zeitdaten 304 umfassen. Unter Umständen, in denen in Schritt 202 ein
fortgeschrittenes Merkmalextraktionssystem verwendet wird, das Daten
ergibt, die zeitabhängig
sind, können
die Metadaten, die vom Übersetzer
ausgegeben werden, ebenfalls zeitabhängig sein.
-
Zum
Beispiel kann im Musikstück,
das das Tonsignal bildet, eine definierte Stimmungsänderung vorhanden
sein. Der Übersetzer
kann dies mit den Ausdrücken <SOMMER> und <HERBST>, und mit einem definierten
Punkt, wann der <SOMMER> in der Musik endet,
und der <HERBST> beginnt, darstellen.
Die Zeitdaten 146, die gespeichert werden, können die
Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal,
jedes Auszeichnungssprachenausdrucks im Befehlssatz definieren.
Im Beispiel, das in 3 verwendet wird, ist gezeigt,
dass der Ausdruck <SOMMER> eine Beginnzeit (S)
von 0, was sich auf die Zeit in Sekunden nach dem Beginn des Musikstücks bezieht,
und eine Dauer (D) von 120 Sekunden aufweist. Die anderen beiden
gezeigten Ausdrücke
weisen wie durch den Übersetzer
definiert unterschiedliche Beginnzeiten und Dauern auf. In 3 zeigt
der Pfeil 306 den Ausgang vom Übersetzer.
-
Das
Verfahren kann ferner das Senden 208 des Befehlssatzes
zum Browser 124 umfassen. Wie in Bezug auf das System von 1 besprochen
kann der Browser 124 auch Auszeichnungssprachenobjekte 126 erhalten
(Schritt 210). Der Browser 124 ist dazu eingerichtet,
die Auszeichnungssprachenobjekte 126 in Synchronisation
mit dem erhaltenen Tonsignal zu erbringen (Schritt 212).