DE60308904T2

DE60308904T2 - Verfahren und system zur markierung eines tonsignals mit metadaten

Info

Publication number: DE60308904T2
Application number: DE60308904T
Authority: DE
Inventors: David A. Philips Intellectual Redhill EVES; Richard S. Philips Intellectual Redhill COLE; Christopher Philips Intellectual Redhill THORNE
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Ambx UK Ltd
Priority date: 2002-12-24
Filing date: 2003-12-10
Publication date: 2007-06-06
Anticipated expiration: 2023-12-11
Also published as: US20060100882A1; US7689422B2; EP1579422A1; WO2004059615A1; KR20050094416A; EP1579422B1; DE60308904D1; AU2003303419A1; ATE341381T1

Description

Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Verarbeitung eines Tonsignals gemäß extrahierter Merkmale des Tonsignals. Die vorliegende Erfindung weist eine besondere, aber nicht ausschließliche Anwendung bei Systemen auf, die musikalische Merkmale eines Tonsignals wie etwa das Tempo oder die Tonart bestimmen und extrahieren. Die extrahierten Merkmale werden in Metadaten übersetzt.
Umgebungsumweltsysteme, die die Umwelt steuern, sind zum Beispiel aus der Veröffentlichung unserer US-Patentanmeldung US 2002/0169,817 bekannt, die ein Echtwelt-Darstellungssystem offenbart, das einen Satz von Einrichtungen umfasst, wobei jede Einrichtung dazu eingerichtet ist, einen oder mehrere Echtwelt-Parameter, zum Beispiel Ton- und Bildeigenschaften, bereitzustellen. Zumindest eine der Einrichtungen ist dazu eingerichtet, eine Echtwelt-Beschreibung in der Form eines Befehlssatzes einer Auszeichnungssprache zu erhalten, und die Einrichtungen werden gemäß der Beschreibung betrieben. Allgemeine Ausdrücke, die in der Sprache ausgedrückt sind, werden entweder durch einen lokalen Server oder durch einen verteilten Browser interpretiert, um die Einrichtungen zu betreiben, um dem Benutzer die Echtwelt-Erfahrung zu erbringen.
Die Veröffentlichung der US-Patentanmeldung US 2002/0169,012 offenbart ein Verfahren zum Betreiben eines Satzes von Einrichtungen, das das Erhalten eines Signals, zum Beispiel zumindest eines Teils eines Spielweltmodells, von einem Computerprogramm umfasst. Das Signal wird analysiert, um eine Echtwelt-Beschreibung in der Form eines Befehlssatzes einer Auszeichnungssprache zu erzeugen, und der Satz von Einrichtungen wird gemäß der Beschreibung betrieben.
Es ist erwünscht, ein Verfahren zum automatischen Erzeugen von Befehlssätzen der Auszeichnungssprache aus einem Tonsignal bereitzustellen. "Structured Description Method For General Acoustic Signals Using XML-Format" von Toshio Modegi, IEEE Int. Conf. On Multimedia And Expo, 22. August 2001, Seite 725 bis 728, offenbart das Abtrennen von Vokaltönen, die in populären Liedern enthalten sind, und das Codieren gegebener musikalischer Töne in ein Mehrkanal-MIDI-Format. Diese MIDI- Hinweisereignisse werden in Symbole umgewandelt, und die Symbole werden in Phrasen umgewandelt, die im XML-Format beschrieben sind.
Das Dokument GB 2 354 602 offenbart ein System zum Steuern von Beleuchtungseinrichtungen auf Grundlage der Analyse eines Tonsignals und die Erzeugung eines Satzes von Auslösebefehlen auf einem Datenbus.
Nach einem durch Anspruch 1 definierten ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren zur Verarbeitung eines Tonsignals bereitgestellt, das das Erhalten eines Tonsignals, das Extrahieren von Merkmalen aus dem Tonsignal, das Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen, das Senden (208) des Befehlssatzes zu einem Browser (124), das Erhalten (210) von Auszeichnungssprachenobjekten (126) und das Erbringen (212) der Auszeichnungssprachenobjekte (126) in Synchronisation mit dem erhaltenen Tonsignal umfasst.
Nach einem durch Anspruch 6 definierten zweiten Gesichtspunkt der vorliegenden Erfindung wird ein System zur Verarbeitung eines Tonsignals bereitgestellt, das eine Eingabeeinrichtung zum Erhalten eines Tonsignals, einen Prozessor zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlsatz einer Auszeichnungssprache umfassen, eine Ausgabeeinrichtung (116, 118) zum Ausgeben des erhaltenen Tonsignals, und einen über einen Satz von Einrichtungen verteilten Browser (124) umfasst, wobei der Browser (124) dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte (126) zu erhalten und den Satz von Einrichtungen entsprechend und in Synchronisation mit dem ausgegebenen Tonsignal zu steuern.
Dank der Erfindung ist es möglich, aus einem Tonsignal automatisch Metadaten zu erzeugen, die auf dem Inhalt des Tonsignals beruhen, und diese zu verwenden, um ein Umgebungsumweltsystem in Synchronisation mit dem Tonsignal zu steuern.
Das Verfahren umfasst vorteilhaft ferner das Speichern der Metadaten. Dies erlaubt dem Benutzer die Option, die Metadaten, die ausgegeben wurden, wiederzuverwenden, zum Beispiel, indem sie zu einem Ort gesendet werden, der nicht über die Verarbeitungsleistung zur Ausführung der Merkmalextraktion aus dem Tonsignal verfügt. Vorzugsweise umfasst das Speichern ein Speichern der Metadaten mit zugehörigen Zeitdaten, wobei die Zeitdaten die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks im Befehlssatz definieren. Durch das Speichern von Zeitdaten mit den Metadaten, die mit dem ursprünglichen Tonsignal synchronisiert sind, definieren die Metadaten, wenn sie mit dem Tonsignal wiederverwendet werden, eine Erfahrung, die zeitabhängig ist, die aber auch dem ursprünglichen Tonsignal entspricht.
Das Verfahren umfasst das Senden des Befehlssatzes zu einem Browser, und umfasst ferner auch das Erhalten von Auszeichnungssprachenobjekten. Das Verfahren umfasst ferner auch das Erbringen der Auszeichnungssprachenobjekte in Synchronisation mit dem erhaltenen Tonsignal. Auf diese Weise werden die Metadaten direkt verwendet, um die Umgebungsumwelt bereitzustellen. Der Browser erhält den Befehlssatz und die Auszeichnungssprachenobjekte und erbringt die Objekte wie durch den Befehlssatz angewiesen in Synchronisation mit dem ausgegebenen Ton.
Die aus dem Tonsignal extrahierten Merkmale beinhalten in einer bevorzugten Ausführungsform eines oder mehrere aus dem Tempo, der Tonart und der Lautstärke. Diese Merkmale definieren in einem weiten Sinn Gesichtspunkte des Tonsignals. Sie geben solche Dinge wie etwa die Stimmung an, die verwendet werden können, um Metadaten zu definieren, die die Umgebungsumwelt bestimmen werden, um das Tonsignal zu bereichern.
Die vorliegende Erfindung wird nun nur beispielhaft und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben werden, wobei
1 eine schematische Darstellung eines Systems zur Verarbeitung eines Tonsignals ist,
2 ein Ablaufdiagramm eines Verfahrens zur Verarbeitung eines Tonsignals ist, und
3 eine schematische Darstellung der Speicherung von Metadaten mit zugehörigen Zeitdaten ist.
1 zeigt eine schematische Darstellung eines Systems 100 zur Verarbeitung eines Tonsignals. Das System 100 besteht aus einem Prozessor (ZVE) 102, der über einen allgemeinen Datenbus 108 mit einem Speicher (ROM) 104 und einem Speicher (RAM) 106 verbunden ist. Ein Computercode oder eine Software 110 auf einem Träger 112 kann in den RAM 106 geladen werden (oder alternativ im ROM 104 bereitgestellt sein), wobei der Code den Prozessor 102 veranlasst, Befehle durchzuführen, die das Verarbeitungsverfahren verkörpern. Zusätzlich ist der Prozessor 102 mit einem Speicher 114, mit Ausgabeeinrichtungen 116, 118, und mit einer Eingabeeinrichtung 122 verbunden. Eine Benutzerschnittstelle (UI) 120 ist ebenfalls bereitgestellt.
Das System 100 kann als ein herkömmlicher Heimpersonalcomputer (PC) ausgeführt sein, wobei die Ausgabeeinrichtung 116 die Form eines Computerbildschirms oder einer Anzeige annimmt. Der Speicher 114 kann eine Ferndatenbank sein, die über eine Netzwerkverbindung verfügbar ist. Wenn das System 100 in einem Heimnetzwerk ausgeführt ist, können die Ausgabeeinrichtungen 116, 118 alternativ überall im Heim verteilt sein und zum Beispiel einen an der Wand angebrachten Flachbildschirm, computergesteuerte Heimbeleuchtungseinheiten, und/oder Tonlautsprecher umfassen. Die Verbindungen zwischen dem Prozessor 102 und den Ausgabeeinrichtungen 116, 118 können kabellos (zum Beispiel Kommunikationen über die Funkstandards WiFi oder Bluetooth) und/oder verdrahtet (zum Beispiel Kommunikationen über die verdrahteten Standards Ethernet, USB) sein.
Das System 100 erhält eine Eingabe eines Tonsignals (wie etwa eines Musiktitels von einer CD), woraus musikalische Merkmale extrahiert werden. In dieser Ausführungsform wird das Tonsignal über eine interne Eingabeeinrichtung 122 des PC wie etwa ein CD/DVD- oder ein Festplattenlaufwerk bereitgestellt. Alternativ kann das Tonsignal über einen Anschluss an ein vernetztes Heimunterhaltungssystem (Hi-Fi, Heimkino, usw.) erhalten werden. Fachleute werden erkennen, dass die genaue Hardware/Software-Gestaltung und der Mechanismus der Bereitstellung eines Tonsignals nicht wichtig sind, sondern vielmehr, dass derartige Signale dem System 100 verfügbar gemacht werden.
Die Extraktion von musikalischen Merkmalen aus einem Tonsignal ist im Dokument "Querying large collections of music for similarity" (Matt Welsh et al, UC Berkeley Technical Report UCB/CSD-.00-1096, November 1999) beschrieben. Das Dokument beschreibt, wie Merkmale wie etwa ein durchschnittliches Tempo, eine Lautstärke, Rauschen, und tonale Übergänge aus dem Analysieren eines eingegebenen Tonsignals bestimmt werden können. Ein Verfahren zur Bestimmung der musikalischen Tonart eines Tonsignals ist in der US-Patentschrift US 5,038,658 beschrieben.
Die Eingabeeinrichtung 122 dient zum Erhalten des Tonsignals und der Prozessor 102 dient zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen. Der Prozessor 102 erhält das Tonsignal und extrahiert wie in den oben erwähnten Literaturverweisen beschrieben musikalische Merkmale wie etwa die Lautstärke, das Tempo und die Tonart. Sobald der Prozessor 102 die musikalischen Merkmale aus dem Tonsignal extrahiert hat, übersetzt der Prozessor 102 diese musikalischen Merkmale in Metadaten. Diese Metadaten werden in der Form sehr allgemeiner Ausdrücke wie etwa <SOMMER> oder <VERTRÄUMTER TEICH> sein. Die Übersetzungsmaschine im Prozessor 102 betreibt entweder eine definierte Reihe von Algorithmen, um die Metadaten zu erzeugen, oder ist in der Form einer Anordnung eines "neuralen Netzes", um die Metadaten aus den extrahierten Merkmalen zu erzeugen. Die sich ergebenden Metadaten sind in der Form eines Befehlssatzes einer Auszeichnungssprache.
Das System 100 umfasst ferner einen Browser 124 (der in 2 schematisch gezeigt ist), der über einen Satz von Einrichtungen verteilt ist, wobei der Browser 124 dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte zu erhalten und den Satz von Einrichtungen entsprechend zu steuern. Der Satz von Einrichtungen, die durch den Browser 124 gesteuert werden, kann die Ausgabeeinrichtungen 116 und 118 beinhalten und/oder kann weitere Einrichtungen beinhalten, die vom System entfernt sind. Zusammen bauen diese Einrichtungen ein Umgebungsumweltsystem auf, wobei die verschiedenen Ausgabeeinrichtungen 116, 118 mit einer Auszeichnungssprache und einem Befehlssatz, der gestaltet ist, um Echtwelt-Erfahrungen zu liefern, konform sind.
Ein Beispiel für eine derartige Sprache ist die physische Auszeichnungssprache (physical markup language PML), die in den ebenfalls anhängigen Anmeldungen des Anmelders, auf die oben verwiesen wurde, beschrieben ist. PML beinhaltet ein Mittel, um einem Endnutzer Erfahrungen zu verfassen, zu kommunizieren und zu erbringen, damit der Endnutzer einen bestimmten Grad des Eintauchens in einen echten physischen Raum erfährt. Zum Beispiel können PML-fähige Konsumenteneinrichtungen wie etwa ein Tonsystem und ein Beleuchtungssystem Befehle von einer Wirtsnetzwerkeinrichtung erhalten (welche Befehle zum Beispiel in einen DVD-Videostrom eingebettet sein können), die verursacht, dass die Lichter oder Tonausgänge von den Einrichtungen modifiziert werden. So verursacht eine dunkle Szene in einem Film, dass sich die Lichter im Heim des Konsumenten passend verdunkeln.
PML ist im Allgemeinen eine höhere beschreibende Auszeichnungssprache, die in XML mit Deskriptoren, welche sich auf Echtwelt-Ereignisse beziehen, wie zum Beispiel <WALD>, verwirklicht werden kann. Somit ermöglicht PML, das Einrichtungen überall im Heim eine Erfahrung für einen Konsumenten in einer standardisierten Weise bereichern.
Daher erhält der Browser 124 den Befehlssatz, der zum Beispiel <SOMMER> oder <ABEND> beinhalten kann. Der Browser erhält auch Auszeichnungssprachenobjekte 126, die zumindest ein Objekt für jedes Mitglied des Befehlssatzes sein werden. So kann für <SOMMER> eine Videodatei vorhanden sein, die ein Standbild enthält, und auch eine Datei vorhanden sein, die eine Farbdefinition enthält. Für <ABEND> können ähnliche Dateien vorhanden sein, die Daten für die Farbe, ein Standbild und/oder ein bewegtes Video enthalten. Wenn die ursprüngliche Musik gespielt (oder wiedergegeben) wird, erbringt der Browser 124 die zugehörigen Auszeichnungssprachenobjekte 126, damit die Farben und Bilder je nach der Fähigkeit jeder Einrichtung im Satz durch jede Einrichtung erbracht werden.
2 fasst das Verfahren zur Verarbeitung des Tonsignals zusammen, welches Verfahren das Erhalten 200 eines Tonsignals, das Extrahieren 202 von Merkmalen aus dem Tonsignal, und das Übersetzen 204 der extrahierten Merkmale in Metadaten umfasst, welche Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen. Das Tonsignal wird über die Eingabeeinrichtung 122 von 1 von einer CD erhalten. Die Schritte des Extrahierens 202 der musikalischen Merkmale des Tonsignals und des Übersetzens 204 der Merkmale in die passenden Metadaten werden im Prozessor 102 des Systems von 1 ausgeführt. Der Ausgang der Merkmalextraktion 202 ist eine Metabeschreibung über das erhaltene Tonsignal. Der Aufbau der Metabeschreibung wird von der Natur des Extraktionssystems abhängen, das durch den Prozessor 102 verwendet wird. Ein verhältnismäßig einfaches Extraktionssystem wird eine Beschreibung wie "Tonart: A-Moll; mittlere Lautstärke: 8/10; Standardabweichung der Lautstärke: +/– 2" ergeben. Ein komplizierteres System würde fähig sein, äußerst ausführliche Informationen über das Tonsignal einschließlich Veränderungen der Merkmale im Zeitablauf im verarbeiteten Musikstück zu ergeben.
Das Verfahren kann ferner den Schritt 206 des Speicherns der Metadaten umfassen. Dies ist in 3 veranschaulicht. Das Speichern kann das Speichern der Metadaten 302 mit zugehörigen Zeitdaten 304 umfassen. Unter Umständen, in denen in Schritt 202 ein fortgeschrittenes Merkmalextraktionssystem verwendet wird, das Daten ergibt, die zeitabhängig sind, können die Metadaten, die vom Übersetzer ausgegeben werden, ebenfalls zeitabhängig sein.
Zum Beispiel kann im Musikstück, das das Tonsignal bildet, eine definierte Stimmungsänderung vorhanden sein. Der Übersetzer kann dies mit den Ausdrücken <SOMMER> und <HERBST>, und mit einem definierten Punkt, wann der <SOMMER> in der Musik endet, und der <HERBST> beginnt, darstellen. Die Zeitdaten 146, die gespeichert werden, können die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks im Befehlssatz definieren. Im Beispiel, das in 3 verwendet wird, ist gezeigt, dass der Ausdruck <SOMMER> eine Beginnzeit (S) von 0, was sich auf die Zeit in Sekunden nach dem Beginn des Musikstücks bezieht, und eine Dauer (D) von 120 Sekunden aufweist. Die anderen beiden gezeigten Ausdrücke weisen wie durch den Übersetzer definiert unterschiedliche Beginnzeiten und Dauern auf. In 3 zeigt der Pfeil 306 den Ausgang vom Übersetzer.
Das Verfahren kann ferner das Senden 208 des Befehlssatzes zum Browser 124 umfassen. Wie in Bezug auf das System von 1 besprochen kann der Browser 124 auch Auszeichnungssprachenobjekte 126 erhalten (Schritt 210). Der Browser 124 ist dazu eingerichtet, die Auszeichnungssprachenobjekte 126 in Synchronisation mit dem erhaltenen Tonsignal zu erbringen (Schritt 212).

Claims

Verfahren zur Verarbeitung eines Tonsignals, umfassend das Erhalten (200) eines Tonsignals, das Extrahieren (202) von Merkmalen aus dem Tonsignal, das Übersetzen (204) der extrahierten Merkmale in Metadaten (302), wobei die Metadaten (302) einen Befehlssatz einer Auszeichnungssprache umfassen, das Senden (208) des Befehlssatzes zu einem Browser (124), das Erhalten (210) von Auszeichnungssprachenobjekten (126) und das Erbringen (212) der Auszeichnungssprachenobjekte (126) in Synchronisation mit dem erhaltenen Tonsignal.
Verfahren nach Anspruch 1, ferner umfassend das Speichern (206) der Metadaten (302).
Verfahren nach Anspruch 2, wobei das Speichern (206) den Schritt des Speicherns (206) der Metadaten (302) mit zugehörigen Zeitdaten (304) umfasst.
Verfahren nach Anspruch 3, wobei die Zeitdaten (304) die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks (302) im Befehlssatz definieren.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die aus dem Tonsignal extrahierten Merkmale eines oder mehrere aus dem Tempo, der Tonart und der Lautstärke beinhalten.
System zur Verarbeitung eines Tonsignals, umfassend eine Eingabeeinrichtung (122) zum Erhalten eines Tonsignals, einen Prozessor (102) zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten (302), wobei die Metadaten (302) einen Befehlsatz einer Auszeichnungssprache umfassen, eine Ausgabeeinrichtung (116, 118) zum Ausgeben des erhaltenen Tonsignals, und einen über einen Satz von Einrichtungen verteilten Browser (124), wobei der Browser (124) dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte (126) zu erhalten und den Satz von Einrichtungen entsprechend und in Synchronisation mit dem ausgegebenen Tonsignal zu steuern.
System nach Anspruch 6, ferner umfassend eine Speichereinrichtung (114) zum Speichern der Metadaten.