DE60308904T2 - Verfahren und system zur markierung eines tonsignals mit metadaten - Google Patents

Verfahren und system zur markierung eines tonsignals mit metadaten Download PDF

Info

Publication number
DE60308904T2
DE60308904T2 DE60308904T DE60308904T DE60308904T2 DE 60308904 T2 DE60308904 T2 DE 60308904T2 DE 60308904 T DE60308904 T DE 60308904T DE 60308904 T DE60308904 T DE 60308904T DE 60308904 T2 DE60308904 T2 DE 60308904T2
Authority
DE
Germany
Prior art keywords
metadata
markup language
sound signal
audio signal
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60308904T
Other languages
English (en)
Other versions
DE60308904D1 (de
Inventor
David A. Philips Intellectual Redhill EVES
Richard S. Philips Intellectual Redhill COLE
Christopher Philips Intellectual Redhill THORNE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ambx UK Ltd
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB0230097.8A external-priority patent/GB0230097D0/en
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60308904D1 publication Critical patent/DE60308904D1/de
Publication of DE60308904T2 publication Critical patent/DE60308904T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Verarbeitung eines Tonsignals gemäß extrahierter Merkmale des Tonsignals. Die vorliegende Erfindung weist eine besondere, aber nicht ausschließliche Anwendung bei Systemen auf, die musikalische Merkmale eines Tonsignals wie etwa das Tempo oder die Tonart bestimmen und extrahieren. Die extrahierten Merkmale werden in Metadaten übersetzt.
  • Umgebungsumweltsysteme, die die Umwelt steuern, sind zum Beispiel aus der Veröffentlichung unserer US-Patentanmeldung US 2002/0169,817 bekannt, die ein Echtwelt-Darstellungssystem offenbart, das einen Satz von Einrichtungen umfasst, wobei jede Einrichtung dazu eingerichtet ist, einen oder mehrere Echtwelt-Parameter, zum Beispiel Ton- und Bildeigenschaften, bereitzustellen. Zumindest eine der Einrichtungen ist dazu eingerichtet, eine Echtwelt-Beschreibung in der Form eines Befehlssatzes einer Auszeichnungssprache zu erhalten, und die Einrichtungen werden gemäß der Beschreibung betrieben. Allgemeine Ausdrücke, die in der Sprache ausgedrückt sind, werden entweder durch einen lokalen Server oder durch einen verteilten Browser interpretiert, um die Einrichtungen zu betreiben, um dem Benutzer die Echtwelt-Erfahrung zu erbringen.
  • Die Veröffentlichung der US-Patentanmeldung US 2002/0169,012 offenbart ein Verfahren zum Betreiben eines Satzes von Einrichtungen, das das Erhalten eines Signals, zum Beispiel zumindest eines Teils eines Spielweltmodells, von einem Computerprogramm umfasst. Das Signal wird analysiert, um eine Echtwelt-Beschreibung in der Form eines Befehlssatzes einer Auszeichnungssprache zu erzeugen, und der Satz von Einrichtungen wird gemäß der Beschreibung betrieben.
  • Es ist erwünscht, ein Verfahren zum automatischen Erzeugen von Befehlssätzen der Auszeichnungssprache aus einem Tonsignal bereitzustellen. "Structured Description Method For General Acoustic Signals Using XML-Format" von Toshio Modegi, IEEE Int. Conf. On Multimedia And Expo, 22. August 2001, Seite 725 bis 728, offenbart das Abtrennen von Vokaltönen, die in populären Liedern enthalten sind, und das Codieren gegebener musikalischer Töne in ein Mehrkanal-MIDI-Format. Diese MIDI- Hinweisereignisse werden in Symbole umgewandelt, und die Symbole werden in Phrasen umgewandelt, die im XML-Format beschrieben sind.
  • Das Dokument GB 2 354 602 offenbart ein System zum Steuern von Beleuchtungseinrichtungen auf Grundlage der Analyse eines Tonsignals und die Erzeugung eines Satzes von Auslösebefehlen auf einem Datenbus.
  • Nach einem durch Anspruch 1 definierten ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren zur Verarbeitung eines Tonsignals bereitgestellt, das das Erhalten eines Tonsignals, das Extrahieren von Merkmalen aus dem Tonsignal, das Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen, das Senden (208) des Befehlssatzes zu einem Browser (124), das Erhalten (210) von Auszeichnungssprachenobjekten (126) und das Erbringen (212) der Auszeichnungssprachenobjekte (126) in Synchronisation mit dem erhaltenen Tonsignal umfasst.
  • Nach einem durch Anspruch 6 definierten zweiten Gesichtspunkt der vorliegenden Erfindung wird ein System zur Verarbeitung eines Tonsignals bereitgestellt, das eine Eingabeeinrichtung zum Erhalten eines Tonsignals, einen Prozessor zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlsatz einer Auszeichnungssprache umfassen, eine Ausgabeeinrichtung (116, 118) zum Ausgeben des erhaltenen Tonsignals, und einen über einen Satz von Einrichtungen verteilten Browser (124) umfasst, wobei der Browser (124) dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte (126) zu erhalten und den Satz von Einrichtungen entsprechend und in Synchronisation mit dem ausgegebenen Tonsignal zu steuern.
  • Dank der Erfindung ist es möglich, aus einem Tonsignal automatisch Metadaten zu erzeugen, die auf dem Inhalt des Tonsignals beruhen, und diese zu verwenden, um ein Umgebungsumweltsystem in Synchronisation mit dem Tonsignal zu steuern.
  • Das Verfahren umfasst vorteilhaft ferner das Speichern der Metadaten. Dies erlaubt dem Benutzer die Option, die Metadaten, die ausgegeben wurden, wiederzuverwenden, zum Beispiel, indem sie zu einem Ort gesendet werden, der nicht über die Verarbeitungsleistung zur Ausführung der Merkmalextraktion aus dem Tonsignal verfügt. Vorzugsweise umfasst das Speichern ein Speichern der Metadaten mit zugehörigen Zeitdaten, wobei die Zeitdaten die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks im Befehlssatz definieren. Durch das Speichern von Zeitdaten mit den Metadaten, die mit dem ursprünglichen Tonsignal synchronisiert sind, definieren die Metadaten, wenn sie mit dem Tonsignal wiederverwendet werden, eine Erfahrung, die zeitabhängig ist, die aber auch dem ursprünglichen Tonsignal entspricht.
  • Das Verfahren umfasst das Senden des Befehlssatzes zu einem Browser, und umfasst ferner auch das Erhalten von Auszeichnungssprachenobjekten. Das Verfahren umfasst ferner auch das Erbringen der Auszeichnungssprachenobjekte in Synchronisation mit dem erhaltenen Tonsignal. Auf diese Weise werden die Metadaten direkt verwendet, um die Umgebungsumwelt bereitzustellen. Der Browser erhält den Befehlssatz und die Auszeichnungssprachenobjekte und erbringt die Objekte wie durch den Befehlssatz angewiesen in Synchronisation mit dem ausgegebenen Ton.
  • Die aus dem Tonsignal extrahierten Merkmale beinhalten in einer bevorzugten Ausführungsform eines oder mehrere aus dem Tempo, der Tonart und der Lautstärke. Diese Merkmale definieren in einem weiten Sinn Gesichtspunkte des Tonsignals. Sie geben solche Dinge wie etwa die Stimmung an, die verwendet werden können, um Metadaten zu definieren, die die Umgebungsumwelt bestimmen werden, um das Tonsignal zu bereichern.
  • Die vorliegende Erfindung wird nun nur beispielhaft und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben werden, wobei
  • 1 eine schematische Darstellung eines Systems zur Verarbeitung eines Tonsignals ist,
  • 2 ein Ablaufdiagramm eines Verfahrens zur Verarbeitung eines Tonsignals ist, und
  • 3 eine schematische Darstellung der Speicherung von Metadaten mit zugehörigen Zeitdaten ist.
  • 1 zeigt eine schematische Darstellung eines Systems 100 zur Verarbeitung eines Tonsignals. Das System 100 besteht aus einem Prozessor (ZVE) 102, der über einen allgemeinen Datenbus 108 mit einem Speicher (ROM) 104 und einem Speicher (RAM) 106 verbunden ist. Ein Computercode oder eine Software 110 auf einem Träger 112 kann in den RAM 106 geladen werden (oder alternativ im ROM 104 bereitgestellt sein), wobei der Code den Prozessor 102 veranlasst, Befehle durchzuführen, die das Verarbeitungsverfahren verkörpern. Zusätzlich ist der Prozessor 102 mit einem Speicher 114, mit Ausgabeeinrichtungen 116, 118, und mit einer Eingabeeinrichtung 122 verbunden. Eine Benutzerschnittstelle (UI) 120 ist ebenfalls bereitgestellt.
  • Das System 100 kann als ein herkömmlicher Heimpersonalcomputer (PC) ausgeführt sein, wobei die Ausgabeeinrichtung 116 die Form eines Computerbildschirms oder einer Anzeige annimmt. Der Speicher 114 kann eine Ferndatenbank sein, die über eine Netzwerkverbindung verfügbar ist. Wenn das System 100 in einem Heimnetzwerk ausgeführt ist, können die Ausgabeeinrichtungen 116, 118 alternativ überall im Heim verteilt sein und zum Beispiel einen an der Wand angebrachten Flachbildschirm, computergesteuerte Heimbeleuchtungseinheiten, und/oder Tonlautsprecher umfassen. Die Verbindungen zwischen dem Prozessor 102 und den Ausgabeeinrichtungen 116, 118 können kabellos (zum Beispiel Kommunikationen über die Funkstandards WiFi oder Bluetooth) und/oder verdrahtet (zum Beispiel Kommunikationen über die verdrahteten Standards Ethernet, USB) sein.
  • Das System 100 erhält eine Eingabe eines Tonsignals (wie etwa eines Musiktitels von einer CD), woraus musikalische Merkmale extrahiert werden. In dieser Ausführungsform wird das Tonsignal über eine interne Eingabeeinrichtung 122 des PC wie etwa ein CD/DVD- oder ein Festplattenlaufwerk bereitgestellt. Alternativ kann das Tonsignal über einen Anschluss an ein vernetztes Heimunterhaltungssystem (Hi-Fi, Heimkino, usw.) erhalten werden. Fachleute werden erkennen, dass die genaue Hardware/Software-Gestaltung und der Mechanismus der Bereitstellung eines Tonsignals nicht wichtig sind, sondern vielmehr, dass derartige Signale dem System 100 verfügbar gemacht werden.
  • Die Extraktion von musikalischen Merkmalen aus einem Tonsignal ist im Dokument "Querying large collections of music for similarity" (Matt Welsh et al, UC Berkeley Technical Report UCB/CSD-.00-1096, November 1999) beschrieben. Das Dokument beschreibt, wie Merkmale wie etwa ein durchschnittliches Tempo, eine Lautstärke, Rauschen, und tonale Übergänge aus dem Analysieren eines eingegebenen Tonsignals bestimmt werden können. Ein Verfahren zur Bestimmung der musikalischen Tonart eines Tonsignals ist in der US-Patentschrift US 5,038,658 beschrieben.
  • Die Eingabeeinrichtung 122 dient zum Erhalten des Tonsignals und der Prozessor 102 dient zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten, wobei die Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen. Der Prozessor 102 erhält das Tonsignal und extrahiert wie in den oben erwähnten Literaturverweisen beschrieben musikalische Merkmale wie etwa die Lautstärke, das Tempo und die Tonart. Sobald der Prozessor 102 die musikalischen Merkmale aus dem Tonsignal extrahiert hat, übersetzt der Prozessor 102 diese musikalischen Merkmale in Metadaten. Diese Metadaten werden in der Form sehr allgemeiner Ausdrücke wie etwa <SOMMER> oder <VERTRÄUMTER TEICH> sein. Die Übersetzungsmaschine im Prozessor 102 betreibt entweder eine definierte Reihe von Algorithmen, um die Metadaten zu erzeugen, oder ist in der Form einer Anordnung eines "neuralen Netzes", um die Metadaten aus den extrahierten Merkmalen zu erzeugen. Die sich ergebenden Metadaten sind in der Form eines Befehlssatzes einer Auszeichnungssprache.
  • Das System 100 umfasst ferner einen Browser 124 (der in 2 schematisch gezeigt ist), der über einen Satz von Einrichtungen verteilt ist, wobei der Browser 124 dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte zu erhalten und den Satz von Einrichtungen entsprechend zu steuern. Der Satz von Einrichtungen, die durch den Browser 124 gesteuert werden, kann die Ausgabeeinrichtungen 116 und 118 beinhalten und/oder kann weitere Einrichtungen beinhalten, die vom System entfernt sind. Zusammen bauen diese Einrichtungen ein Umgebungsumweltsystem auf, wobei die verschiedenen Ausgabeeinrichtungen 116, 118 mit einer Auszeichnungssprache und einem Befehlssatz, der gestaltet ist, um Echtwelt-Erfahrungen zu liefern, konform sind.
  • Ein Beispiel für eine derartige Sprache ist die physische Auszeichnungssprache (physical markup language PML), die in den ebenfalls anhängigen Anmeldungen des Anmelders, auf die oben verwiesen wurde, beschrieben ist. PML beinhaltet ein Mittel, um einem Endnutzer Erfahrungen zu verfassen, zu kommunizieren und zu erbringen, damit der Endnutzer einen bestimmten Grad des Eintauchens in einen echten physischen Raum erfährt. Zum Beispiel können PML-fähige Konsumenteneinrichtungen wie etwa ein Tonsystem und ein Beleuchtungssystem Befehle von einer Wirtsnetzwerkeinrichtung erhalten (welche Befehle zum Beispiel in einen DVD-Videostrom eingebettet sein können), die verursacht, dass die Lichter oder Tonausgänge von den Einrichtungen modifiziert werden. So verursacht eine dunkle Szene in einem Film, dass sich die Lichter im Heim des Konsumenten passend verdunkeln.
  • PML ist im Allgemeinen eine höhere beschreibende Auszeichnungssprache, die in XML mit Deskriptoren, welche sich auf Echtwelt-Ereignisse beziehen, wie zum Beispiel <WALD>, verwirklicht werden kann. Somit ermöglicht PML, das Einrichtungen überall im Heim eine Erfahrung für einen Konsumenten in einer standardisierten Weise bereichern.
  • Daher erhält der Browser 124 den Befehlssatz, der zum Beispiel <SOMMER> oder <ABEND> beinhalten kann. Der Browser erhält auch Auszeichnungssprachenobjekte 126, die zumindest ein Objekt für jedes Mitglied des Befehlssatzes sein werden. So kann für <SOMMER> eine Videodatei vorhanden sein, die ein Standbild enthält, und auch eine Datei vorhanden sein, die eine Farbdefinition enthält. Für <ABEND> können ähnliche Dateien vorhanden sein, die Daten für die Farbe, ein Standbild und/oder ein bewegtes Video enthalten. Wenn die ursprüngliche Musik gespielt (oder wiedergegeben) wird, erbringt der Browser 124 die zugehörigen Auszeichnungssprachenobjekte 126, damit die Farben und Bilder je nach der Fähigkeit jeder Einrichtung im Satz durch jede Einrichtung erbracht werden.
  • 2 fasst das Verfahren zur Verarbeitung des Tonsignals zusammen, welches Verfahren das Erhalten 200 eines Tonsignals, das Extrahieren 202 von Merkmalen aus dem Tonsignal, und das Übersetzen 204 der extrahierten Merkmale in Metadaten umfasst, welche Metadaten einen Befehlssatz einer Auszeichnungssprache umfassen. Das Tonsignal wird über die Eingabeeinrichtung 122 von 1 von einer CD erhalten. Die Schritte des Extrahierens 202 der musikalischen Merkmale des Tonsignals und des Übersetzens 204 der Merkmale in die passenden Metadaten werden im Prozessor 102 des Systems von 1 ausgeführt. Der Ausgang der Merkmalextraktion 202 ist eine Metabeschreibung über das erhaltene Tonsignal. Der Aufbau der Metabeschreibung wird von der Natur des Extraktionssystems abhängen, das durch den Prozessor 102 verwendet wird. Ein verhältnismäßig einfaches Extraktionssystem wird eine Beschreibung wie "Tonart: A-Moll; mittlere Lautstärke: 8/10; Standardabweichung der Lautstärke: +/– 2" ergeben. Ein komplizierteres System würde fähig sein, äußerst ausführliche Informationen über das Tonsignal einschließlich Veränderungen der Merkmale im Zeitablauf im verarbeiteten Musikstück zu ergeben.
  • Das Verfahren kann ferner den Schritt 206 des Speicherns der Metadaten umfassen. Dies ist in 3 veranschaulicht. Das Speichern kann das Speichern der Metadaten 302 mit zugehörigen Zeitdaten 304 umfassen. Unter Umständen, in denen in Schritt 202 ein fortgeschrittenes Merkmalextraktionssystem verwendet wird, das Daten ergibt, die zeitabhängig sind, können die Metadaten, die vom Übersetzer ausgegeben werden, ebenfalls zeitabhängig sein.
  • Zum Beispiel kann im Musikstück, das das Tonsignal bildet, eine definierte Stimmungsänderung vorhanden sein. Der Übersetzer kann dies mit den Ausdrücken <SOMMER> und <HERBST>, und mit einem definierten Punkt, wann der <SOMMER> in der Musik endet, und der <HERBST> beginnt, darstellen. Die Zeitdaten 146, die gespeichert werden, können die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks im Befehlssatz definieren. Im Beispiel, das in 3 verwendet wird, ist gezeigt, dass der Ausdruck <SOMMER> eine Beginnzeit (S) von 0, was sich auf die Zeit in Sekunden nach dem Beginn des Musikstücks bezieht, und eine Dauer (D) von 120 Sekunden aufweist. Die anderen beiden gezeigten Ausdrücke weisen wie durch den Übersetzer definiert unterschiedliche Beginnzeiten und Dauern auf. In 3 zeigt der Pfeil 306 den Ausgang vom Übersetzer.
  • Das Verfahren kann ferner das Senden 208 des Befehlssatzes zum Browser 124 umfassen. Wie in Bezug auf das System von 1 besprochen kann der Browser 124 auch Auszeichnungssprachenobjekte 126 erhalten (Schritt 210). Der Browser 124 ist dazu eingerichtet, die Auszeichnungssprachenobjekte 126 in Synchronisation mit dem erhaltenen Tonsignal zu erbringen (Schritt 212).

Claims (7)

  1. Verfahren zur Verarbeitung eines Tonsignals, umfassend das Erhalten (200) eines Tonsignals, das Extrahieren (202) von Merkmalen aus dem Tonsignal, das Übersetzen (204) der extrahierten Merkmale in Metadaten (302), wobei die Metadaten (302) einen Befehlssatz einer Auszeichnungssprache umfassen, das Senden (208) des Befehlssatzes zu einem Browser (124), das Erhalten (210) von Auszeichnungssprachenobjekten (126) und das Erbringen (212) der Auszeichnungssprachenobjekte (126) in Synchronisation mit dem erhaltenen Tonsignal.
  2. Verfahren nach Anspruch 1, ferner umfassend das Speichern (206) der Metadaten (302).
  3. Verfahren nach Anspruch 2, wobei das Speichern (206) den Schritt des Speicherns (206) der Metadaten (302) mit zugehörigen Zeitdaten (304) umfasst.
  4. Verfahren nach Anspruch 3, wobei die Zeitdaten (304) die Beginnzeit und die Dauer, in Bezug auf das erhaltene Tonsignal, jedes Auszeichnungssprachenausdrucks (302) im Befehlssatz definieren.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die aus dem Tonsignal extrahierten Merkmale eines oder mehrere aus dem Tempo, der Tonart und der Lautstärke beinhalten.
  6. System zur Verarbeitung eines Tonsignals, umfassend eine Eingabeeinrichtung (122) zum Erhalten eines Tonsignals, einen Prozessor (102) zum Extrahieren von Merkmalen aus dem Tonsignal und zum Übersetzen der extrahierten Merkmale in Metadaten (302), wobei die Metadaten (302) einen Befehlsatz einer Auszeichnungssprache umfassen, eine Ausgabeeinrichtung (116, 118) zum Ausgeben des erhaltenen Tonsignals, und einen über einen Satz von Einrichtungen verteilten Browser (124), wobei der Browser (124) dazu eingerichtet ist, den Befehlssatz der Auszeichnungssprache zu erhalten und Auszeichnungssprachenobjekte (126) zu erhalten und den Satz von Einrichtungen entsprechend und in Synchronisation mit dem ausgegebenen Tonsignal zu steuern.
  7. System nach Anspruch 6, ferner umfassend eine Speichereinrichtung (114) zum Speichern der Metadaten.
DE60308904T 2002-12-24 2003-12-10 Verfahren und system zur markierung eines tonsignals mit metadaten Expired - Lifetime DE60308904T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GBGB0230097.8A GB0230097D0 (en) 2002-12-24 2002-12-24 Method and system for augmenting an audio signal
GB0230097 2002-12-24
GBGB0320578.8A GB0320578D0 (en) 2002-12-24 2003-09-03 Processing an audio signal
GB0320578 2003-09-03
PCT/IB2003/006019 WO2004059615A1 (en) 2002-12-24 2003-12-10 Method and system to mark an audio signal with metadata

Publications (2)

Publication Number Publication Date
DE60308904D1 DE60308904D1 (de) 2006-11-16
DE60308904T2 true DE60308904T2 (de) 2007-06-06

Family

ID=32683992

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60308904T Expired - Lifetime DE60308904T2 (de) 2002-12-24 2003-12-10 Verfahren und system zur markierung eines tonsignals mit metadaten

Country Status (7)

Country Link
US (1) US7689422B2 (de)
EP (1) EP1579422B1 (de)
KR (1) KR20050094416A (de)
AT (1) ATE341381T1 (de)
AU (1) AU2003303419A1 (de)
DE (1) DE60308904T2 (de)
WO (1) WO2004059615A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
KR100744512B1 (ko) * 2005-03-14 2007-08-01 엘지전자 주식회사 디지털 오디오 기기에서 디지털 오디오 인터페이스를이용한 볼륨 조정 방법 및 장치
CA2552062C (en) 2005-07-22 2016-06-28 4121856 Canada Inc. System and methods for enhancing the experience of spectators attending a live sporting event
US8140338B2 (en) * 2005-12-08 2012-03-20 Nuance Communications Austria Gmbh Method and system for speech based document history tracking
US20080003551A1 (en) * 2006-05-16 2008-01-03 University Of Southern California Teaching Language Through Interactive Translation
US8706471B2 (en) * 2006-05-18 2014-04-22 University Of Southern California Communication system using mixed translating while in multilingual communication
EP2025164A1 (de) * 2006-05-19 2009-02-18 AMBX UK Limited Umgebungserlebnis-instruktionserzeugung
US8032355B2 (en) * 2006-05-22 2011-10-04 University Of Southern California Socially cognizant translation by detecting and transforming elements of politeness and respect
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
KR100838208B1 (ko) * 2006-11-30 2008-06-19 건국대학교 산학협력단 메타데이터를 제공하기 위한 방법 및 멀티미디어 콘텐츠제공 서버와, 이를 이용하여 파일을 관리하는 방법 및웹하드 서버
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9411882B2 (en) 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5038658A (en) 1988-02-29 1991-08-13 Nec Home Electronics Ltd. Method for automatically transcribing music and apparatus therefore
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
JP4438144B2 (ja) * 1999-11-11 2010-03-24 ソニー株式会社 信号分類方法及び装置、記述子生成方法及び装置、信号検索方法及び装置
ATE502354T1 (de) * 2000-01-13 2011-04-15 Digimarc Corp Authentifizierende metadaten und einbettung von metadaten in wasserzeichen von mediensignalen
GB2361096A (en) * 2000-04-05 2001-10-10 Sony Uk Ltd Metadata generation in audio or video apparatus
US6308154B1 (en) * 2000-04-13 2001-10-23 Rockwell Electronic Commerce Corp. Method of natural language communication using a mark-up language
EP1170967B1 (de) 2000-07-04 2003-10-22 Siemens Aktiengesellschaft System und Verfahren zum Betrieb eines interaktiven Servers in einem zellularen Kommunikationsnetz
KR20040041082A (ko) * 2000-07-24 2004-05-13 비브콤 인코포레이티드 멀티미디어 북마크와 비디오의 가상 편집을 위한 시스템및 방법
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
EP1346559A4 (de) * 2000-11-16 2006-02-01 Mydtv Inc System und verfahren zur bestimmung der popularität von videoprogrammereignissen
WO2002092182A1 (en) 2001-05-11 2002-11-21 Koninklijke Philips Electronics N.V. Operation of a set of devices
US20020198994A1 (en) * 2001-05-15 2002-12-26 Charles Patton Method and system for enabling and controlling communication topology, access to resources, and document flow in a distributed networking environment

Also Published As

Publication number Publication date
US20060100882A1 (en) 2006-05-11
US7689422B2 (en) 2010-03-30
EP1579422A1 (de) 2005-09-28
WO2004059615A1 (en) 2004-07-15
KR20050094416A (ko) 2005-09-27
EP1579422B1 (de) 2006-10-04
DE60308904D1 (de) 2006-11-16
AU2003303419A1 (en) 2004-07-22
ATE341381T1 (de) 2006-10-15

Similar Documents

Publication Publication Date Title
DE60308904T2 (de) Verfahren und system zur markierung eines tonsignals mit metadaten
DE69633863T2 (de) Tonblockfolge-computer zur erzeugung von tonfolgen mit vorgeschriebener dauer
DE69932796T2 (de) MIDI-Schnittstelle mit Sprachfähigkeit
CN100559460C (zh) 用元数据标记音频信号的方法和系统
DE60105995T2 (de) Animation von personen
CN102256049A (zh) 自动化故事生成
WO2022184055A1 (zh) 文章的语音播放方法、装置、设备、存储介质及程序产品
DE202015006043U1 (de) Signalfolge und Datenträger mit einem Computerprogramm zur Wiedergabe eines Musikstücks
DE112011103067T5 (de) Grafische Benutzerschnittstelle für die Programmierung von Musiksequenzen
US10134374B2 (en) Signal processing method and signal processing apparatus
CN105224581A (zh) 在播放音乐时呈现图片的方法和装置
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
JP2021530726A (ja) オブジェクトベースのオーディオコンテンツを作成するための方法およびシステム
CN111108557A (zh) 修改音频对象的风格的方法、以及对应电子装置、计算机可读程序产品和计算机可读存储介质
CN110312161B (zh) 一种视频配音方法、装置及终端设备
CN111046226A (zh) 一种音乐的调音方法及装置
DE112019007274T5 (de) Automatisches untertiteln hörbarer teile von inhalten auf einem computergerät
CN108241597A (zh) 一种演示文稿的制作方法和装置
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
Taylor et al. Visualizing emotion in musical performance using a virtual character
DE102019219406A1 (de) Kontext-sensitives sprachdialogsystem
CN112465679B (zh) 一种钢琴学习与创作系统及方法
CN116612781B (zh) 一种音频数据可视化处理方法、装置、设备及存储介质
US11386150B2 (en) Display control system and display control method
Cera Three years of fragments: music, sound design, and sketching.

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: HOFFMANN & EITLE, 81925 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: AMBX UK LTD., REDHILL, SURREY, GB

8327 Change in the person/name/address of the patent owner

Owner name: AMBX UK LTD., REDHILL, SURREY, GB