DE60120417T2 - Verfahren zur suche in einer audiodatenbank - Google Patents

Verfahren zur suche in einer audiodatenbank Download PDF

Info

Publication number
DE60120417T2
DE60120417T2 DE60120417T DE60120417T DE60120417T2 DE 60120417 T2 DE60120417 T2 DE 60120417T2 DE 60120417 T DE60120417 T DE 60120417T DE 60120417 T DE60120417 T DE 60120417T DE 60120417 T2 DE60120417 T2 DE 60120417T2
Authority
DE
Germany
Prior art keywords
sample
fingerprint
landmark
file
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60120417T
Other languages
English (en)
Other versions
DE60120417D1 (de
Inventor
Li-Chun Avery Palo Alto WANG
O. III Julius Palo Alto SMITH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Landmark Digital Services LLC
Original Assignee
Landmark Digital Services LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Landmark Digital Services LLC filed Critical Landmark Digital Services LLC
Publication of DE60120417D1 publication Critical patent/DE60120417D1/de
Application granted granted Critical
Publication of DE60120417T2 publication Critical patent/DE60120417T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft im Allgemeinen die inhaltsbasierte Suche von Informationen. Insbesondere betrifft sie die Erkennung eines Audiosignals, einschließlich Ton oder Musik, das stark verzerrt ist oder einen hohen Rauschpegel aufweist.
  • ALLGEMEINER STAND DER TECHNIK
  • Es besteht ein wachsender Bedarf für die automatische Erkennung von Musik- oder sonstigen Audiosignalen, die von vielfältigen Quellen erzeugt werden. Besitzer urheberrechtlich geschützter Arbeiten oder Werbefachleute sind beispielsweise daran interessiert, Daten zur Sendungsfrequenz ihres Materials zu erhalten. Services zum Tracking von Musik stellen Titellisten der Hauptradiostationen breiter Märkte bereit. Verbraucher würden gerne die während einer Rundfunksendung gespielten Liedstücke oder die vermittelte Werbung identifizieren, um neue und interessante Musik- oder andere Produkte und Services zu kaufen. Doch jede An konstanter oder bedarfsgebundener Tonerkennung ist ineffizient und arbeitsaufwändig, wenn sie von Menschen durchgeführt wird. Ein automatisches Verfahren zur Musik- oder Tonerkennung würde somit Verbrauchern, Künstlern und einer Vielfalt von Industriebranchen wesentliche Vorteile bieten. Da das Musikverteilungsparadigma vom Geschäftskauf auf das Herunterladen über das Internet wechselt, ist es durchaus möglich, die computerimplementierte Musikerkennung direkt mit dem Internetkauf und sonstigen Internet-basierten Services zu verknüpfen.
  • Herkömmlicherweise wurde die Erkennung von im Rundfunk gespielten Liedstücken durchgeführt, indem Rundfunkstationen und Zeiten, während welcher die Liedstücke gespielt wurden, mit Titellisten, die entweder von den Rundfunkstationen oder von Drittquellen bereitgestellt wurden, abgestimmt wurden. Diese Vorgehensweise ist schon an sich nur auf Rundfunkstationen, für welche Informationen verfügbar sind, beschränkt. Andere Verfahren beruhen auf dem Einbetten unhörbarer Codes in Rundfunksignalen. Die eingebetteten Signale werden am Empfänger decodiert, um die Identifizierungsinformation zum Rundfunksignal zu extrahieren. Dieses Verfahren hat den Nachteil, dass spezielle Decodiervorrichtungen zum Identifizieren der Signale erforderlich sind und dass nur die Gesangstücke mit eingebetteten Codes identifiziert werden können.
  • Jede Audioerkennung in großem Umfang benötigt irgendeine Art inhaltsbasierter Audiosuche, in welcher ein nicht identifiziertes Audiosignal mit einer Datenbank bekannter Signale verglichen wird, um ähnliche oder identische Datenbanksignale zu identifizieren. Erwähnenswert ist, dass sich die inhaltsbasierte Audiosuche von der bestehenden Audiosuche über Websuchmaschinen unterscheidet, bei welchen nur die Metadatentextumgebung oder in Zusammenhang mit Audio- bzw. Tonfiles gesucht wird. Ferner ist zu erwähnen, dass eine Spracherkennung zwar nützlich ist, um Stimmsignale in Text umzuwandeln, der dann indexiert wird und mittels wohlbekannter Techniken gesucht werden kann, aber für die große Mehrheit der Audiosignale, die Musik und Töne beinhalten, nicht anwendbar ist. In mancher Hinsicht ähnelt die Suche von Audioinformation der von den Suchmaschinen bereitgestellten textbasierten Informationssuche. Ansonsten ist die Audioerkennung jedoch nicht analog, denn Audiosignalen bzw. Tonsignalen fehlt es bei weitem an identifizierbaren Elementen, zum Beispiel Wörter, die Indikatoren zum Suchen und Indexieren bereitstellen. Als solche indexieren gegenwärtige Audiosuchschemen Audiosignale über berechnete Wahrnehmungseigenschaften, die verschiedene Eigenschaften oder Merkmale des Signals darstellen.
  • Die inhaltsbasierte Audiosuche wird typischerweise durch Analyse eines Anfragesignals durchgeführt, um eine Anzahl repräsentativer Eigenschaften zu erhalten und dann ein Ähnlichkeitsmaß auf die abgeleiteten Eigenschaften anzuwenden, um Datenbankfiles, die diesem Anfragesignal am ähnlichsten sind, zu lokalisieren. Die Ähnlichkeit der empfangen Objekte ist notwendigerweise ein Spiegelbild der ausgewählten Wahrnehmungseigenschaften. Eine Anzahl inhaltsbasierter Suchverfahren ist aus dem Stand der Technik bekannt. Die von Kenyon ausgegebene US-Patentschrift 5,210,820 offenbart beispielsweise ein Signalerkennungsverfahren, bei welchem die empfangenen Signale verarbeitet und abgetastet werden, um Signalwerte an jedem Abtastpunkt zu erhalten. Die statistischen Momente der abgetasteten Werte werden dann berechnet, um einen Merkmalsvektor zu generieren, der mit den Indikatoren gespeicherter Signale verglichen werden kann, um ähnliche Signale zu suchen. Die von Kenyon u.a. ausgegebenen US-Patentschriften 4,450,531 und 4,843,562 offenbaren ähnliche Klassifikationsverfahren für Rundfunkinformationen, in welchen Kreuzkorrelationen zwischen den nicht identifizierten Signalen und den gespeicherten Bezugssignalen berechnet werden.
  • Ein System zur Suche von Audiodokumenten nach akustischer Ähnlichkeit wird von J. T. Foote in „Content-Based Retrieval of Music and Audio", C.-C.J. Kuo u.a., Herausgeber, in Multimedia Storage and Archiving Systems II, Proc. of SPIE, Buch 3229, Seite 138–147, 1997 offenbart. Merkmalsvektoren werden durch Parametrierung jeder Audiodatei in Mel-skalierte Cepstral-Koeffizienten konstruiert, und aus den Parametrierungsdaten entwickelt sich ein Quantisierungsbaum. Um eine Anfrage durchzuführen, wird ein unbekanntes Signal parametrisiert, um Merkmalsvektoren, die dann in Blattknoten einsortiert werden, zu erhalten. Für jeden Blattknoten wird ein Histogramm erfasst und dabei ein n-dimensionaler Vektor generiert, der das unbekannte Signal darstellt. Die Distanz zwischen zwei solcher Vektoren ist ein Beispiel für die Ähnlichkeit zwischen zwei Tonfiles. Bei diesem Verfahren lernt das überwachte Quantisierungsschema, Audiomerkmale zu unterscheiden, während es unwichtige Variationen auf der Basis von Klassen, in welchen die Trainingsdaten durch einen Menschen zugeordnet werden, ignoriert. In Abhängigkeit vom Klassifikationssystem werden verschiedene akustische Eigenschaften als wichtige Eigenschaften gewählt. Somit eignet sich dieses Verfahren eher zum Herausfinden von Ähnlichkeiten zwischen Gesangstücken und zum Sortieren von Musik in Klassen als zum Erkennen von Musik.
  • Ein Verfahren zur inhaltsbasierten Analyse, Speicherung, Suche und Segmentierung von Audioinformation wird in der von Blum u.a. ausgegebenen US-Patentschrift 5,918,223 offenbart. Bei diesem Verfahren wird eine Anzahl akustischer Merkmale wie Lautstärke, Bass, Tonhöhe, Helligkeit, Bandbreite und Cepstral-Koeffizienten der Mel-Frequenz in periodischen Intervallen von jeder Datei gemessen. Statistische Messungen der Merkmale werden übernommen und kombiniert, um einen Merkmalsvektor zu bilden. Audiodatenfiles in einer Datenbank werden auf der Basis der Ähnlichkeit ihrer Merkmalsvektoren mit den Vektoren einer nicht identifizierten Datei gesucht. Der Artikel „Landmark detection for distinctive feature-based speed recognition", S.A. Liu, J.A.S.A, (100(5), Nov. 1996 offenbart ein Spracherkennungssystem, das Kennungsmarken zur Führung der Suche nach unterscheidenden Merkmalen verwendet.
  • Ein Schlüsselproblem aller zuvor erwähnten Verfahren zur Audioerkennung nach dem Stand der Technik ist, dass sie dazu neigen, auszufallen, wenn die zu erkennenden Signale linearer oder nichtlinearer Verzerrung ausgesetzt sind aufgrund von beispielsweise Hintergrundgeräusch, Übertragungsfehlern und Abbrüchen, Interferenz, Bandbegrenzungsfilterung, Quantisierung, Zeitschleifen und digitaler Stimmqualitätskomprimierung. Wenn bei Verfahren nach dem Stand der Technik eine verzerrte Tonprobe verarbeitet wird, um akustische Merkmale zu erhalten, wird nur ein Anteil der für die Originalaufzeichnung abgeleiteten Merkmale gefunden. Der resultierende Merkmalsvektor hat deshalb nicht viel Ähnlichkeit mit dem Merkmalsvektor der Originalaufzeichnung, und es ist unwahrscheinlich, dass ein genaues Erkennen durchgeführt werden kann. Es besteht weiterhin ein Bedarf für ein Tonerkennungssysteme, das unter Bedingungen mit hohem Rauschpegel und starker Verzerrung gut arbeitet.
  • Ein weiteres Problem bei Verfahren nach dem Stand der Technik ist, dass sie berechnungsintensiv sind und nicht gut skalieren. Echtzeiterkennung ist somit anhand von Verfahren nach dem Stand der Technik mit großen Datenbanken nicht möglich. In solchen Systemen ist eine Datenbank von ein paar hundert oder tausend Aufzeichnungen unmöglich. Die Suchzeit bei Verfahren nach dem Stand der Technik neigt dazu, linear mit der Größe der Datenbank zu wachsen, so dass das Skalieren von Millionen von Tonaufzeichnungen wirtschaftlich unmöglich wird. Daneben erfordern die Verfahren von Kenyon große Datenbanken mit spezialisierter Hardware zur digitalen Signalverarbeitung.
  • Bestehende handelsübliche Verfahren stellen häufig strenge Anforderungen an die Erkennungsleistung der Eingangsprobe. Sie setzen beispielsweise voraus, dass das gesamte Gesangstück oder mindestens 30 Sekunden des Gesangstücks abgetastet oder dass das Gesangstück ab dem Anfang abgetastet wird. Außerdem können sie nur schwierig mehrere Gesangstücke, die in einem einzigen Strom miteinander vermischt sind, erkennen. Alle diese Nachteile machen es unmöglich, dass Verfahren nach dem Stand der Technik in vielen praktischen Anwendungen eingesetzt werden können.
  • AUFGABEN UND VORTEILE
  • Die erste Aufgabe der vorliegenden Erfindung ist es daher ein Verfahren zum Erkennen eines Audiosignals, das einem hohen Rausch- und Verzerrungspegel unterliegt, bereitzustellen.
  • Ein weitere Aufgabe der Erfindung ist es, ein Erkennungsverfahren beizustellen, dass in Echtzeit auf der Basis von nur ein paar Sekunden des zu identifizierenden Signals durchgeführt werden kann.
  • Eine andere Aufgabe der Erfindung ist es, ein Erkennungsverfahren bereitzustellen, dass Töne auf der Basis von Proben nahezu überall im Ton, nicht nur am Anfang, erkennen kann.
  • Eine zusätzliche Aufgabe der Erfindung ist es, ein Erkennungsverfahren bereitzustellen, das keine zu codierenden oder mit besonderen Rundfunkstationen oder Titellisten korrelierte Tonproben erfördert.
  • Eine weitere Aufgabe der Erfindung ist es, ein Erkennungsverfahren bereitzustellen, dass jede der vielfachen Tonaufzeichnungen, die in einem Einzelstrom miteinander vermischt sind, erkennen kann.
  • Eine noch weitere Aufgabe der Erfindung ist es, ein Tonerkennungssystem bereitzustellen, in welchem ein unbekannter Ton dem System aus einer beliebigen Umgebung durch praktisch jedes bekannte Verfahren bereitgestellt werden kann.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Diese Aufgaben und Vorteile werden mittels des nach Anspruch 1 beanspruchten Verfahrens zum Erkennen einer Mediaprobe, zum Beispiel Tonprobe bzw. Audioprobe bzw. -abtastung bzw. -sample, erreicht in Anbetracht eines Datenbankindexes einer großen Anzahl bekannter Mediafiles. Der Datenbankindex umfasst Fingerabdrücke, die Merkmale an speziellen Orten der indexierten Mediafiles darstellen. Die unbekannten Mediaproben werden mit einem Mediafile in der Datenbank identifiziert (dem gewinnenden Mediafile oder dem Gewinnerfile), dessen jeweilige Orte von Fingerabdrücken den jeweiligen Orten von Fingerabdrücken der Probe äußerst nahe sind. Im Fall von Audio- bzw. Tonfiles stimmt der Zeitverlauf von Fingerabdrücken des gewinnenden Files mit dem Zeitverlatf von Fingerabdrücken in der Probe überein.
  • Das Verfahren wird vorzugsweise in einem verteilten Computersystem implementiert und umfasst folgende Schritte:
    Bestimmen eines Satzes von Fingerabdrücken an speziellen Orten der Proben; Lokalisieren von Fingerabdrücken, die abgestimmt werden können, im Datenbankindex; Generieren von Korrespondenzen zwischen Orten in der Probe und Orten im File, welche äquivalente Fingerabdrücke haben; und Identifizieren von Mediafiles, die eine signifikante Anzahl von im Wesentlichen linear-bezogenen Korrespondenzen aufweisen. Das File mit der größten Anzahl linear-bezogener Korrespondenzen wird als das gewinnende Mediafile erachtet. Ein Verfahren zum Identifizieren von Files mit einer großen Anzahl von Korrespondenzen besteht darin, ein äquivalentes Abtasten für eine diagonale Linie im Streudiagramm, die von den Korrespondenzpaaren, erzeugt wird, durchzuführen. In einer Ausführungsform gehört zum Identifizieren der Mediafiles mit einer großen Anzahl linearer Korrespondenzen das Suchen von nur einem ersten Subsatz der Mediafiles. Für Files im ersten Subsatz besteht eine größere Wahrscheinlichkeit identifiziert zu werden als für Files, die sich nicht im ersten Subsatz befinden. Die Wahrscheinlichkeit eines Identifizierens basiert vorzugsweise auf einer empirischen Frequenz oder Neuheitsmessungen von vorherigen Identifizierungen zusammen mit A priori-Berechnungen der Identifikationsfrequenz. Werden im ersten Subsatz keine Mediafiles identifiziert, wird der zweite Subsatz, enthaltend die verbleibenden Files, durchsucht. Alternativ können die Files nach Wahrscheinlichkeit geordnet und nach Ranking (Rangordnung) durchsucht werden. Die Suche ist beendet, wenn ein File lokalisiert ist.
  • Vorzugsweise werden die speziellen Orte in der Probe auf reproduzierbare Weise in Abhängigkeit von der Probe berechnet. Solche Orte, die sich reproduzierbar berechnen lassen, werden „Kennungsmarken genannt. Fingerabdrücke sind vorzugsweise Zahlenwerte. In einer Ausführungsform, stellt jeder Fingerabdruck eine Anzahl von Merkmalen der Mediaprobe jedes Orts, oder geringfügig von dem Ort versetzt, dar.
  • Das Verfahren ist insbesondere zum Erkennen von Tonproben nützlich, wobei die speziellen Orte Zeitpunkte innerhalb der Tonprobe sind. Diese Zeitpunkte treten beispielsweise bei lokalen Maxima der Spektral-Lp-Norm der Tonprobe auf. Fingerabdrücke können durch Analyse der Tonprobe berechnet werden und sind vorzugsweise invariant gegenüber einer Zeiterstreckung bzw. -dehnung der Probe. Beispiele von Fingerabdrücken umfassen Spektral-Slice-Fingerabdrücke, Multi-Slice-Fingerabdrücke, LPC-Koeffizienten, Ceptral-Koreffizienten und Frequenzkomponenten von Spektrogrammpeaks bzw. -spitzen.
  • Die vorliegende Erfindung stellt ferner ein System zum Implementieren des obigen Verfahrens bereit, umfassend ein Kennungsmarkenobjekt zum Berechnen der speziellen Orte, ein Fingerabdruckobjekt zum Berechnen der Fingerabdrücke, einen Datenbankindex mit den Fileorten und Fingerabdrücken für die Mediafiles und ein Analyseobjekt. Das Analyseobjekt implementiert das Verfahren durch Lokalisieren von übereinstimmenden Fingerabdrücken im Datenbankindex, Generieren von Korrespondenzen und Analysieren der Korrespondenzen zur Auswahl des gewinnenden Mediafiles.
  • Ferner ist eine über einen Computer zugriffbare Programmspeichervorrichtung vorgesehen, die konkret ein Programm mit durch den Computer ausführbaren Anweisungen enthält, um die Verfahrensschritte für das zuvor erwähnte Verfahren durchzuführen.
  • Des Weiteren stellt die Erfindung ein Verfahren zum Erstellen eines Indizes einer Anzahl von Audiofiles in einer Datenbank bereit, dass die folgenden Schritte umfasst: Berechnen eines Satzes von Fingerabdrücken an speziellen Orten jeder Datei und Speichern der Fingerabdrücke, Orte, Indikatoren von Files in einem Speicher. Ein entsprechender Fingerabdruck, Ort und Indikator ist in einem Speicher zugeordnet, um ein Triplet zu bilden. Vorzugsweise werden die Orte, die Zeitpunkte innerhalb des Audiofiles sein können, in Abhängigkeit vom File berechnet und sind reproduzierbar. Die Zeitpunkte können beispielsweise bei lokalen Maxima der Spektral-Lp-Norm der Tonprobe auftreten. In einigen Fällen stellt jeder Fingerabdruck, der vorzugsweise ein Zahlenwert ist, eine Anzahl von Merkmalen des Files, das nahe dem speziellen Ort ist, dar. Fingerabdrücke können ab jeder Analyse oder digitalen Signalverarbeitung des Audiofiles berechnet werden. Beispiele von Fingerabdrücken umfassen Spektral-Slice-Fingerabdrücke, Multi-Slice-Fingerabdrücke, LPC-Koeffizienten, Ceptral-Koreffizienten und Frequenzkomponenten von Spektrogrammpeaks bzw. -spitzen.
  • Letztendlich stellt die Erfindung Verfahren zum Identifizieren von Audioproben bereit, welche Fingerabdrücke, die invariant gegenüber einer Zeiterstreckung bzw. -dehnung sind, und verschiedene hierarchisch aufgebaute Suchmöglichkeiten einbeziehen.
  • KURZE DARSTELLUNG DER FIGUREN
  • 1 zeigt ein Ablaufdiagram eines Verfahrens gemäß der Erfindung zum Erkennen einer Tonprobe.
  • 2 zeigt ein Blockdiagramm eines beispielhaften verteilten Computersystems zum Implementieren des Verfahrens von 1.
  • 3 zeigt ein Ablaufdiagramm eines Verfahrens zur Konstruktion eines Datenbankindexes von Tonfiles, die im Verfahren von 1 verwendet werden.
  • 4 veranschaulicht schematisch Kennungsmarken und Fingerabdrücke, die für eine Tonprobe berechnet werden.
  • 5 ist ein Graph von L4-Normen für eine Tonprobe, der die Auswahl von Kennungsmarken veranschaulicht.
  • 6 zeigt ein Ablaufdiagramm einer alternativen Ausführungsform zur Konstruktion eines Datenbankindexes von Tonfiles, die im Verfahren von 1 verwendet werden.
  • 7A7G zeigt ein Spektrogramm mit herausragenden Punkten (Salient Points) und verknüpften herausragenden Punkten, die angegeben sind.
  • 8A8C veranschaulicht Indexsätze, eine Indexliste und eine Masterindexliste des Verfahrens von 3
  • 9A9C veranschaulicht eine Indexliste, Kandidatenliste und Streuliste des Verfahrens von 1.
  • 10A10B zeigt Streudiagramme, welche jeweils das richtige Identifizieren und mangelnde Identifizieren einer unbekannten Tonprobe veranschaulichen.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die vorliegende Erfindung stellt ein Verfahren zum Erkennen einer exogenen Mediaprobe bereit, die in einer Datenbank mit einer großen Anzahl unbekannter Mediafiles enthalten ist. Daneben stellt sie ein Verfahren zum Generieren eines Datenbankindexes bereit, der ein effizientes Suchen anhand des Erkennungsverfahrens der Erfindung ermöglicht. Selbst wenn die folgende Darstellung vor allem Audiodaten betrifft, versteht es sich, dass das Verfahren der vorliegenden Erfindung für jeden Typ von Mediaproben und Mediafiles anwendbar ist, einschließlich Text-, Audio-, Video-, Bild- und jede Multimedediakombination von individuellen Mediatypen, ohne sich jedoch auf diese Anwendungsbereiche zu beschränken. Im Fall von Ton ist die vorliegende Erfindung insbesondere nützlich, um Proben, die hohe Pegel linearer und nichtlinearer Verzerrung beinhalten, zu erkennen, beispielsweise Hintergrundgeräusch, Übertragungsfehler und Abbrüche, Interferenz, Bandbegrenzungsfilterung, Quantisierung, Zeitschleifen und digitale Stimmqualitätskomprimierung. Aus der nachstehenden Beschreibung wird offensichtlich, dass die Erfindung unter solchen Bedingungen arbeitet, denn sie kann ein verzerrtes Signal genau erkennen, selbst wenn nur ein geringfügiger Anteil der berechneten Eigenschaften die Verzerrung überleben. Jeder Audiotyp, einschließlich Ton, Stimme, Musik oder Kombinationen von Typen können durch die vorliegende Erfindung erkannt werden. Beispiele von Audioproben umfassen aufgezeichnete Musik, Radiosendeprogramme und Werbung.
  • Die exogene Mediaprobe, so wie sie hier verwendet wird, ist ein Segment von Mediadaten jeder Größe, die durch eine Vielfalt von Quellen, so wie nachstehend erläutert, erhalten werden. Damit eine Erkennung durchgeführt werden kann, muss die Probe eine Wiedergabe eines Bestandteils eines Mediafiles sein, das in einer von der vorliegenden Erfindung verwendeten Datenbank indexiert ist. Das indexierte Mediafile kann man sich wie eine Originalaufzeichnung vorstellen und die Probe wie eine verzerrte und/oder verkürzte Darstellung oder Wiedergabe der Originalaufzeichnung. Typischenweise entspricht die Probe nur einem geringfügigen Abschnitt des indexierten Files. Die Erkennung kann beispielsweise auf einem Zehnsekunden-Segment eines Fünfminuten-Gesangstücks, das in der Datenbank indexiert ist, durchgeführt werden. Obwohl der Begriff „File" zur Beschreibung des indexierten Elements verwendet wird, kann das Element jedes Format aufweisen, für welches die erforderlichen Werte (nachstehend beschrieben) erhalten werden können. Darüber hinaus ist es nicht erforderlich, dass das File gespeichert oder zugriffbar sein muss, nachdem die Werte erhalten sind.
  • Ein Ablaufdiagramm, welches das Konzept der allgemeinen Schritte eines Verfahrens 10 dieser Erfindung veranschaulicht, ist in 1 dargestellt. Die einzelnen Schritte werden nachstehend näher erläutert. Das Verfahren identifiziert ein gewinnendes Mediafile, ein Mediafile, dessen jeweilige Orte charakteristische Fingerabdrücke ganz nahe mit den jeweiligen Orten derselben Fingerabdrücke der exogenen Probe übereinstimmen. Nachdem eine exogene Probe in Schritt 12 gefangen ist, werden die Kennungsmarken und Fingerabdrücke in Schritt 14 berechnet. Kennungsmarken treten an speziellen Orten, zum Beispiel Zeitpunkten innerhalb der Probe auf. Der Ort innerhalb der Probe der Kennungsmarken wird vorzugsweise durch die Probe selber bestimmt, ist beispielsweise abhängig von den Eigenschaften der Probe und ist reproduzierbar. Das heißt, jedes Mal, wenn das Verfahren wiederholt wird, werden dieselben Kennungsmarken für dasselbe Signal berechnet. Für jede Kennungsmarke wird ein Fingerabdruck, der ein oder mehrere Merkmale der Probe an oder nahe der Kennungsmarke charakterisiert, erhalten. Die Nähe eines Merkmals zu einer Kennungsmarke wird durch das verwendete Fingerabdruckverfahren definiert. In einigen Fällen geht man davon aus, dass ein Merkmal nahe einer Kennungsmarke ist, wenn es eindeutig der Kennungsmarke und nicht einer vorherigen oder nachfolgenden Kennungsmarke entspricht. In anderen Fällen entsprechen Merkmale mehreren benachbarten Kennungsmarken. Beispielsweise können Textfingerabdrücke Wortfolgen, Audiofingerabdrücke, spektrale Komponenten und Audiofingerabdrücke Pixel-RGB-Werte sein. Zwei allgemeine Ausführungsformen von Schritt 14 sind nachstehend beschrieben, eine, in welcher die Kennungsmarken und Fingerabdrücke sequentiell berechnet werden und eine, in welcher sie gleichzeitig berechnet werden.
  • In Schritt 16 werden die Probenfingerabdrücke verwendet, um Sätze von übereinstimmenden Fingerabdrücken, die in einem Datenbankindex 18 gespeichert sind, zu suchen, in welchem die übereinstimmenden Fingerabdrücke Kennungsmarken und Indikatoren eines Satzes von Mediafiles zugeordnet sind. Der Satz gesuchter Fileindikatoren und Kennungsmarkenwerte wird dann zum Generieren von Korrespondenzpaaren (Schritt 20) benutzt, die Probenkennungsmarken (die in Schritt 14 berechnet werden) und gesuchte Filekennungsmarken beinhalten, an welchen dieselben Fingerabdrücke berechnet wurden. Die resultierenden Korrespondenzpaare werden dann nach Gesangstückindikator gespeichert, wobei Sätze von Korrespondenzen zwischen Probenkennungsmarken und Filekennungsmarken für jedes anwendbare File generiert werden. Jeder Satz wird abgetastet für den Abgleich zwischen den Filekennungsmarken und den Probenkennungsmarken. Das heißt, lineare Korrespondenzen in den Kennungsmarkenpaaren werden identifiziert, und der Satz wird entsprechend der Anzahl linear-bezogener Paare gepunktet. Eine lineare Korrespondenz tritt auf, wenn eine große Anzahl korrespondierender Probenorte und Fileorte mit im Wesentlichen derselben linearen Gleichung innerhalb eines Toleranzbereis zusammenfällt. Wenn beispielsweise die Steigungen einer Anzahl von Gleichungen, die einen Satz von Korrespondenzpaaren beschreiben, um ±5% schwanken, dann wird der gesamte Satz von Korrespondenzen als linear-bezogen angesehen. Selbstverständlich kann jede geeignete Toleranz ausgewählt werden. Der Indikator des Satzes mit dem höchsten Score, d.h. mit der größten Anzahl linear-bezogener Korrespondenzen, ist der gewinnende File-Indikator, der im Schritt 22 lokalisiert ist und in ihn zurückkehrt.
  • Wie nachstehend weiter beschrieben, kann die Erkennung mit einer Zeitkomponente proportional zum Logarithmus der Anzahl von Einträgen in die Datenbank durchgeführt werden. Die Erkennung kann im Wesentlichen in Echtzeit, selbst mit einer sehr großen Datenbank, durchgeführt werden. Das heißt, eine Probe kann, in dem Maße wie sie erhalten wird, mit einer kurzen Zeitdifferenz erkannt werden. Das Verfahren kann einen Ton auf der Basis von Segmenten von 5–10 Sekunden und sogar von so niedrigen Segmenten wie 1–3 Sekunden identifizieren. In einer bevorzugten Ausführungsform wird die Kennungsmarken- und Fingerabdruckverfahrensanalyse, Schritt 14, in Echtzeit ausgeführt, in dem Maße wie die Probe in Schritt 12 gefangen wird. Datenbankanfragen (Schritt 16) werden, in dem Maße wie Probenfingerabdrücke verfügbar sind, ausgeführt, und die resultierenden Korrespondenzen werden gesammelt und periodisch auf lineare Korrespondenzen abgetastet. Somit treten alle Verfahrensschritte gleichzeitig auf und nicht, wie in 1 vorgeschlagen, in sequentiell linearer Weise. Es ist zu beachten, dass das Verfahren teilweise einer Textsuchmaschine ähnelt: ein Benutzer unterbreitet eine Probenanfrage, und es wird ein Matching-File, das in der Sound-Datenbank indexiert ist, zurückgesendet.
  • Das Verfahren ist typischerweise als auf einem Computersystem laufende Software implementiert, mit einzelnen Schritten, die äußerst effizient als unabhängige Softwaremodule implementiert sind. Demnach kann von einem System, das die vorliegende Erfindung implementiert, angenommen werden, dass es beinhaltet ein Kennungsmarken- und Fingerabdruckverfahrensobjekt, eine indexierte Datenbank und ein Analyseobjekt zur Suche des Datenbankindexes, zum Berechnen von Korrespondenzen und zum Identifizieren des gewinnenden Files. Im Fall von sequentiellen Kennungsmarken- und Fingerabdruckverfahren kann das Kennungsmarken- und Fingerabdruckverfahrensobjekt angesehen werden, als ob es verschiedenen Landmarking und Fingerprinting-Objekten entspricht. Der Computerbefehlscode für die einzelnen Objekte ist in einem Speicher eines oder mehrerer Computer gespeichert und wird von einem oder mehreren Computerprozessoren ausgeführt. In einer Ausführungsform sind die Codeobjekte in einem einzigen Computersystem gruppiert, zum Beispiel einem Intelbasiertem Personalcomputer oder einem sonstigen Arbeitsplatzsystem. In einer bevorzugten Ausführungsform wird das Verfahren durch ein vernetztes Mehrplatzsystem von Zentraleinheiten (CPUs) implementiert, in welchen verschiedene Softwareobjekte durch verschiedene Prozessoren ausgeführt werden, um den Rechenaufwand zu verteilen. Alternativ kann jede CPU eine Kopie aller Softwareobjekte haben, so dass ein einheitliches Netzwerk mit identisch konfigurierten Elementen ermöglicht wird. In dieser letzten Konfiguration ist jede CPU ein Subsatz des Datenbankindexes und für das Durchsuchen ihres eigenen Subsatzes von Mediafiles zuständig.
  • Obgleich die Erfindung nicht auf ein besonderes Hardwaresystem beschränkt ist, wird ein Beispiel einer bevorzugten Ausführungsform eines verteilten Computersystems 30 schematisch in 2 gezeigt. Das System 30 beinhaltet ein Mehrplatzsystem mit Linux-basierten Prozessoren 32a32f, die durch eine Multiprocessing-Busarchitektur 34 verbunden sind, oder ein vernetztes Protokoll wie ein Beowulf-Cluster-Rechenprotokoll oder eine Mischung aus beiden Möglichkeiten. In einer derartigen Anordnung wird der Datenbankindex vorzugsweise im Direktzugriffsspeicher (RAM) auf mindestens einem Knoten 32a gespeichert. Die Berechnungsknoten entsprechen den anderen Objekten wie Landmarking-Knoten 32c und 32f Fingerprinting-Knoten 32b und 32e und Abgleichabtastungsknoten 32d brauchen keinen so große RAM-Menge wie der bzw. die Knoten 32a, die den Datenbankindex unterstützen. Die Anzahl von Berechnungsknoten, die jedem Objekt zugeordnet sind, kann folglich bedarfsgerecht skaliert werden, so dass kein einzelnes Objekt zum Engpass wird. Aus diesem Grunde ist das Berechnungsnetzwerk höchst parallelisierbar und kann zusätzlich mehrere gleichzeitige Signalerkennungsanfragen, die über verfügbare Berechnungshilfsmittel verteilt werden, verarbeiten. Erwähnenswert ist, dass dadurch Applikationen ermöglicht werden, bei welchen eine große Anzahl von Benutzern eine Erkennung anfordern und Ergebnisse in naher Echtzeit erhalten können.
  • In einer alternativen Ausführungsform sind bestimmte funktionale Objekte straffer miteinander verkoppelt, während die verbleibenden Objekte weniger straff mit anderen Objekten verkoppelt sind. Das Erkennungsmarken- und Fingerabdrucksverfahrensobjekt kann sich beispielsweise an einem physisch separaten Ort vom Rest der Berechnungsobjekte befinden. Ein Beispiel dafür ist eine straffe Zuordnung von Erkennungsmarken- und Fingerabdruckverfahrensobjekten zum Signalfangablauf. Bei dieser Anordnung kann das Erkennungsmarken- und Fingerabdruckverfahrensobjekt als zusätzliche Hardware oder Software einbezogen werden, beispielsweise in ein mobiles Telefon, einen WAP-Browser (WAP/Wireless Application Protocol/Drahtloses Applikationsprotokoll), einen PDA (Personal Digital Assistant/Persönlicher digitaler Assistent), oder sonstiges Fernterminal, zum Beispiel das Klientenende einer Audiosuchmaschine. In einem Internet-basierten Audiosuchservice wie ein Service zur Inhaltsidentifizierung kann das Erkennungsmarken- und Fingerabdruckverfahrensobjekt in die Browser-Applikation der Klienten als verknüpfter Satz von Softwareanweisungen oder unter Microsoft verwendete Programmbibliothek, die Dynamic Link Library (DLL), eingebunden sein. Bei diesen Ausführungsformen stellt das kombinierte Signalfang-, Erkennungsmarken- und Fingerabdruckobjekt das Klientenende des Services dar. Das Klientenende sendet eine Merkmalextrahierte Zusammenfassung der gefangenen Signalprobe bzw. -abtastung bzw. sample, enthaltend Kennungsmarken- und Fingerabdruckpaare, zu einem Serverende, welches die Wiedererkennung ausführt. Das Senden des Merkmal-extrahierten Auszugs zum Server anstelle des gefangenen Rohsignals ist vorteilhaft, da die Datenmenge erheblich reduziert ist, oftmals um einen Faktor von 500 oder darüber. Solche Information kann in Echtzeit über einen Seitenkanal mit niedriger Bandbreite gesendet werden gemeinsam mit oder beispielsweise anstelle eines Audiostroms bzw. -streams, der zum Server übertragen wird. Auf diese Weise kann die Erfindung über öffentliche Kommunikationsnetzwerke, die jedem Benutzer verhältnismäßig kleine Bandbreiten bieten, durchgeführt werden.
  • Das Verfahren wird nun unter Bezugnahme auf Audioproben und Audio- bzw. Tonfiles, die in einer Sound-Datenbank indexiert sind, näher erläutert. Das Verfahren umfasst zwei ausgedehnten Komponenten, die Sound-Datenbankindexkonstruktion und die Probenerkennung.
  • Datenbankindexkonstruktion
  • Bevor die Tonerkennung durchführbar ist, muss ein suchbarer Sound-Datenbankindex konstruiert werden. So wie hier verwendet, ist eine Datenbank jede indexierte Sammlung von Daten und ist nicht auf die handelsüblichen Datenbanken beschränkt. Im Datenbankindex werden relationale Datenelemente miteinander verbunden und einzelne Elemente können verwendet werden, um die zugehörigen Daten zu suchen. Der Sound-Datenbankindex umfasst einen Indexsatz für jedes File oder jede Aufzeichnung in der ausgewählten Sammlung oder Bibliothek von Aufzeichnungen, die Sprache, Musik, Werbung, Sonarsignaturen oder sonstige Töne umfassen können. Jede Aufzeichnung hat einen einzigen Indikator mit der Bezeichnung Sound_ID. Die Sound-Datenbank selber speichert nicht unbedingt die Audiofiles bzw. die Audiodateien für jede Aufzeichnung, aber die SOUND-Ids können verwendet werden, um die Audiofiles bzw. Audiodateien an anderen Orten zu suchen. Vom Sound-Datenbankindex wird angenommen, dass er sehr umfangreich ist, indem er Indizes für Millionen oder sogar Billionen von Dateien enthält. Neue Aufzeichnungen werden dem Datenbankindex vorzugsweise inkrementell hinzugefügt.
  • Ein Blockdiagramm eines bevorzugten Verfahrens 40 zur Konstruktion des suchbaren Sound-Datenbankindexes entsprechend einer ersten Ausführungsform ist in 3 dargestellt. Bei dieser Ausführungsform werden erst Kennungsmarken berechnet, und dann werden Fingerabdrücke an oder nahe an den Fingerabdrücken berechnet. Für einen Fachmann ist es offensichtlich, dass alternative Verfahren für die Konstruktion des Datenbankindexes entwickelt werden können. Insbesondere sind mehrere der nachstehenden Schritte optional angeführt, dienen jedoch zum Generieren eines Datenbankindexes, der auf effiziente Weise suchbar ist. Selbst wenn ein effizientes Suchen in Echtzeit für die Tonerkennung von großen Datenbanken wichtig ist, lassen sich kleine Datenbanken, selbst ohne optimale Sortierung, verhältnismäßig schnell durchsuchen.
  • Um die Sound-Datenbank zu indexieren, unterliegt jede Aufzeichnung einer Kennungsmarken- und Fingerabdruckverfahrensanalyse, die einen Indexsatz für jedes Audiofile generiert. 4 zeigt schematisch ein Segment einer Tonaufzeichnung, für welche Kennungsmarken (landmarks LM) und Fingerabdrücke (fingerprints FP) berechnet wurden. Kennungsmarken treten zu spezifischen Zeitpunkten des Tons auf und haben Werte in Offset-Zeiteinheiten ab dem Anfang des Files, während Fingerabdrücke den Ton an oder nahe einer speziellen Kennungsmarke charakterisieren. Bei dieser Ausführungsform ist folglich jede Kennungsmarke für ein spezielles File eindeutig, während derselbe Fingerabdruck häufig innerhalb eines einzelnen Files oder mehrere Files auftreten kann.
  • In Schritt 42 ist jede Tonaufzeichnung anhand von Verfahren zum Auffinden unterscheidender und reproduzierbarer Orte innerhalb der Tonaufzeichnung kennungsmarkiert. Ein bevorzugter Landmarking-Algorithmus ist in der Lage, trotz der Anwesenheit von Geräusch und sonstiger linearer oder nichtlinearer Verzerrung, dieselben Zeitpunkte innerhalb einer Tonaufzeichnung zu markieren. Einige Kennungsmarkenverfahren sind konzeptgemäß unabhängig vom nachstehend beschriebenen Fingerabdruckverfahren, können aber gewählt werden, um dessen Leistung zu optimieren. Das Kennungsmarkenverfahren führt zu einer Liste von Zeitpunkten {landmarkk} innerhalb der Tonaufzeichnung, an welcher Fingerabdrücke anschließend berechnet werden. Ein gutes Erkennungsmarkenverfahrensschema markiert etwa 5–10 Kennungsmarken pro Tonaufzeichnungssekunde; selbstverständlich hängt die Dichte des Kennungsmarkenverfahrens vom Aktivitätsumfang innerhalb der Tonaufzeichnung ab.
  • Zum Berechnen von Kennungsmarken stehen vielfältige Techniken bereit, die alle zum Geltungsbereich dieser Erfindung gehören. Die spezifischen technischen Verfahren, die zum Implementieren der Kennungsmarkenverfahrensschemen der Erfindung zur Anwendung kommen, sind aus dem Stand der Technik bekannt und werden nicht näher beschrieben. Eine einfache Kennungsmarkenverfahrenstechnik, die als Power-Norm bekannt ist, besteht darin, die momentane Leistung an jedem möglichen Zeitpunkt in der Aufzeichnung zu messen und alle Maxima auszuwählen. Eine Vorgehensweise hierzu ist die Berechnung des Tonumfangs durch direkte Berichtigung und Filterung der Wellenform. Mit einer anderen Vorgehensweise wird die Hilbert-Transformation (90°-Phasenverschiebung) des Signals berechnet und die Summe der quadrierten Größen der Hilbert-Transformation und des Originalsignals verwendet.
  • Das Landmarking nach dem Power-Norm-Verfahren eignet sich gut zum Auffinden von Einschwingvorgängen im Tonsignal. Die Power-Norm-Technik ist eigentlich ein spezieller Fall der mehr allgemeinen Spektral-Lp-Norm, bei welcher p=2. Die allgemeine Spektral-Lp-Norm wird jedes Mal entlang des Tonsignals durch Berechnung eines Kurzzeitspektrums berechnet, beispielsweise anhand einer schnellen Fourier-Transformation (Fast-Fourier- Transformation/FFT) mit Hanning-Fenster. Eine bevorzugte Ausführungsform verwendet eine Abtastrate von 8000 Hz, eine FFT-Rahmengröße von 1024 Proben und einen Schritt von 64 Proben für jeden Zeitschlitz bzw. -slice. Die Lp-Norm für jeden Zeitschlitz bzw. -slice wird dann als die Summe der pth-Leistung der absoluten Werte der spektralen Komponenten berechnet, die optional von der pth-Wurzel gefolgt sein kann. Wie zuvor, werden die Kennungsmarken als lokale Maxima der resultierenden Werte im Zeitablauf gewählt. Ein Beispiel des Spektral-Lp-Normverfahrens wird in 5 gezeigt, ein Graph der L4-Norm als Funktion der Zeit für ein spezielles Tonsignal. Die gestrichelten Linien der lokalen Maxima geben den Ort der gewählten Kennungsmarken an.
  • Wenn p=∞, ist die L∞-Norm gewissermaßen die Maximalnorm. Das heißt, der Wert der Norm ist der absolute Wert der größten spektralen Komponente im spektralen Stück bzw. -slice. Diese Norm führt zu robusten Kennungsmarken und einem guten Gesamterkennungsverhalten und wird für Tonmusik bevorzugt.
  • Alternativ lassen sich spektrale „Multi-Slice"-Kennungsmarken berechnen, indem die Summe von pth- Leistungen von absoluten Werten spektraler Komponenten über mehrere Zeitschlitze bzw. -slices an festgelegten oder variablen Versetzungen voneinander anstelle eines einzigen Zeitschlitzes übernommen wird. Das Auffinden der lokalen Maxima dieser erweiterten Summe ermöglicht eine optimierte Einordnung der nachstehend beschriebnen Multi-Slice-Fingerabdrücke.
  • Sobald die Kennungsmarken berechnet sind, wird ein Fingerabdruck an jedem Kennungsmarkenzeitpunkt in der Aufzeichnung in Schritt 44 berechnet. Der Fingerabdruck ist im Allgemeinen ein Wert oder Satz von Werten, der einen Satz von Merkmalen in der Aufzeichnung am oder nahe des Zeitpunktes zusammenfasst. In einer zurzeit bevorzugten Ausführungsform ist jeder Fingerabdruck ein einziger Zahlenwert, der eine zerteilte Funktion mehrerer Merkmale ist. Mögliche Fingerabdrucktypen umfassen spektrale Slice-Fingerabdrücke, Multi-Slice-Fingerabdrücke, LPC-Koeffizienten und Cepstral-Koeffizienten. Selbstverständlich gehört jeder Fingerabdrucktyp, der das Signal oder Merkmale des Signals nahe einer Kennungsmarke charakterisiert, zum Geltungsbereich der Erfindung. Fingerabdrücke lassen sich durch jede Art von digitaler Signalverarbeitung oder Frequenzanalyse des Signals berechnen.
  • Um spektrale Fingerabdrücke zu generieren wird eine Frequenzanalyse in der Nachbarschaft jedes Kennungsmarkenzeitpunkts durchgeführt, um die Höchstspitze mehrerer spektraler Peaks zu extrahieren. Ein einfacher Fingerabdruckwert ist gerade noch der Einfrequenzwert der stärksten spektralen Spitze. Die Verwendung derart einfacher Spitzen führt erstaunlicherweise zu einer guten Erkennung in Anwesenheit von Geräusch; jedoch neigen spektrale Slice-Fingerabdrücke von Einfrequenzen dazu, mehr falsche positive Ergebnisse als andere Fingerabdruckschemen zu generieren, da sie nicht eindeutig sind. Die Anzahl falscher positiver Ergebnisse lässt sich anhand von Fingerabdrücken reduzieren, die eine Funktion der zwei oder drei stärksten spektralen Spitzen beinhalten. Allerdings kann sich die Geräuschanfälligkeit erhöhen, wenn die zweitstärkste spektrale Spitze nicht stark genug ist, um sie von ihren Konkurrenten in Anwesenheit von Geräusch zu unterscheiden. Das heißt, dass der berechnete Fingerabdruckwert nicht genügend robust sein kann, um zuverlässig reproduzierbar zu sein. Trotz allem ist die Leistung dieses Falls ebenfalls gut.
  • Um den Zeitverlauf mehrerer Töne zu nutzen, wird ein Satz von Zeitschlitzen bzw. -slices bestimmt, indem ein Satz von Zeitversetzungen einem Kennungsmarkenzeitpunkt zugefügt wird. Bei jedem resultierenden Zeitschlitz bzw. -slice wird ein Fingerabdruck berechnet. Der resultierende Satz von Fingerabdruckinformationen wird dann kombiniert, um einen Multiklang- oder Multi-Slice-Fingerabdruck zu bilden. Jeder Multi-Slice-Fingerabdruck ist viel eindeutiger als der einzelne spektrale Slice-Fingerabdruck, da er einen zeitlichen Verlauf verfolgt, was wenige falsche Matches (Übereinstimmungen) in der nachstehend beschriebenen Datenbankindexsuche zur Folge hat. Experimente weisen darauf hin, dass aufgrund ihrer erhöhten Eindeutigkeit Multi-Slice-Fingerabdrücke, die ab der stärksten spektralen Einzelspitze in jedem der beiden Zeitschlitze berechnet werden, eine viel schnellere Berechnung (etwas 10 mal schneller) in der anschließenden Datenbankindexsuche zur Folge haben, allerdings mit einer Verschlechterung in Bezug auf den Erkennungsprozentanteil in Anwesenheit eines signifikanten Geräuschs.
  • Alternativ lassen sich anstelle einer festen Versetzung oder Versetzungen von einem gegebenen Zeitschlitz bzw. -slice variable Versetzungen zur Berechnung eines Multi-Slice-Fingerabdrucks verwenden. Die variable Versetzung zum gewählten Zeitschlitz bzw. -slice ist die Versetzung zur nächsten Kennungsmarke oder einer Kennungsmarke in einem bestimmten Versetzungsbereich ab der „Ankerpunkt"-Kennungsmarke für den Fingerabdruck. In diesem Fall ist der Zeitunterschied zwischen den Kennungsmarken ebenfalls im Fingerabdruck zusammen mit der Mehrfrequenzinformation codiert. Indem den Fingerabdrücken weitere Dimensionen hinzugefügt werden, wird ihre Eindeutigkeit erhöht und sie laufen weniger Gefahr, falsch übereingestimmt bzw. abgestimmt bzw. gematcht zu werden.
  • Außer den spektralen Komponenten können andere spektrale Merkmale extrahiert und als Fingerabdrücke dienen. Die Analyse mittels Linear Predictive Coding (LPC/Lineare prädiktive Codierung) extrahiert die linear prädiktiven Merkmale eines Signals, beispielsweise spektrale Peaks sowie spektrale Form. LPC ist in der Technik der digitalen Signalverarbeitung wohlbekannt. Für die vorliegende Erfindung können LPC-Koeffizienten von Wellenformstücken, die an Kennungsmarkenpositionen verankert sind, als Fingerabdrücke durch Zerteilen der quantisierten LPC-Koeffizienten in einen Indexwert verwendet werden.
  • Cepstral-Koeffizientren sind als Periodizitätsmaß nützlich und können dazu dienen, um Signale, die harmonisch sind, wie Stimmen oder zahlreiche Musikinstrumente, zu charakterisieren. Ceptral-Analysen sind in der Technik der digitalen Signalverarbeitung wohlbekannt. Für die vorliegende Erfindung wird eine Anzahl von Cepstral-Koeffizienten gemeinsam in einen Index zerteilt und als Fingerabdruck verwendet.
  • Eine alternative Ausführungsform 50, in welcher Kennungsmarken und Fingerabdrücke gleichzeitig berechnet werden, ist in 6 dargestellt. Anstelle der Schritte 42 und 44 von 3 treten die Schritte 52, 54 und 56. So wie nachstehend beschrieben, wird eine mehrdimensionale Funktion aus dem im Schritt 52 aufgezeichneten Ton berechnet, und Kennungsmarken (54) und Fingerabdrücke (56) werden aus der Funktion extrahiert.
  • In einer Implementierung der Ausführungsform von 6 werden Kennungsmarken und Fingerabdrücke von einem Spektrogramm der Tonaufzeichnung berechnet. Ein Spektrogramm ist eine Zeit-Frequenz-Analyse einer Tonaufzeichnung, in welcher Fenster- und überlappte Rahmen von Tonproben spektral analysiert werden, typischerweise anhand einer Fast-Fourier-Transformation (FFT). Wie zuvor angesprochen, verwendet eine bevorzugte Ausführungsform eine Abtastrate von 8000 Hz, einen FFT-Rahmengröße von 1024 Proben und einen Schritt von 64 Proben für jeden Zeitschlitz. Ein Beispiel eines Spektogramms ist in 7A veranschaulicht. Die Zeit ist auf der horizontalen Achse und die Frequenz auf der vertikalen Achse dargestellt. Jeder sequentielle FFT-Rahmen ist vertikal an entsprechenden gleichmäßigen Zeitabständen entlang der Zeitachse gestapelt. Ein Spektrogramm-Streuausdruck stellt die Energiedichte und jeden Zeit-Frequenzpunkt anschaulich dar; dunklere Bereiche auf dem Streuausdruck stellen eine höhere Energiedichte dar. Spektrogramme sind in der Technik der Audiosignalverarbeitung wohlbekannt. Für die vorliegende Erfindung können Kennungsmarken und Fingerabdrücke von herausragenden Punkten (Salient Points), zum Beispiel lokale Maxima des Spektrogramms, erhalten werden, die im Spektrogramm von 7B gestreut sind. Es können beispielsweise Zeit- und Frequenzkoordinaten von jedem Peak erhalten werden, wobei die übernommene Zeit die Kennungsmarke und die zum Berechnen des entsprechenden Fingerabdrucks verwendete Frequenz ist. Diese Peak-Kennungsmarke des Spektrogramms ähnelt der L∞-Norm, in welcher der maximale absolute Wert der Norm den Kennungsmarkenort bestimmt. Im Spektrogramm erfolgt die lokale Maximumsuche jedoch eher über Korrekturen der Zeit-Frequenzebene als über einen ganzen Zeitschlitz.
  • In diesem Zusammenhang wird der Satz herausragender Punkte (Salient Points), der aus der Punktextraktionsanalyse einer Tonaufzeichnung resultiert, Konstellation genannt. Eine bevorzugte Analyse für eine aus lokalen Maxima bestehende Konstellation besteht in der Auswahl von Punkten, die Energiemaxima der Zeitfiequenzebene über eine Nachbarschaft um jeden ausgewählten Punkt sind. Ein Punkt an Koordinate (to, fo) wird beispielsweise ausgewählt, wenn er der Maximum-Energiepunkt innerhalb eines Rechtecks mit Kanten (to-T, fo-F),(to-T fo+F),(to+T, fo–F) und (to+T, fo+F)ist, d.h. ein Rechteck mit Seiten von einer Länge 2T und 2F; wobei T und F gewählt werden, um eine geeignete Anzahl von Konstellationspunkten bereitzustellen. Die Begrenzungen des Rechtecks können sich größenmäßig entsprechend des Frequenzwertes ändern. Selbstverständlich lässt sich jede Bereichsform verwenden. Das Maximum-Energiekriterium kann auch in einer Weise gewichtet werden, dass eine konkurrierende Zeit-Frequenzenergiespitze umgekehrt entsprechend eines Abstands, der metrisch in der Zeit-Frequenzebene ist, gewichtet werden kann, das heißt, dass weiter entfernte Punkte eine niedrigere Gewichtung aufweisen. Die Energie kann beispielsweise gewichtet werden als
    Figure 00180001
    wobei S(t, f) die Stärke des Quadratwertes des Spektrogramms am Punkt (t, f) ist, und Ct und Cf positive Werte sind (nicht unbedingt konstant). Andere Abstandsgewichtungsfunktionen sind möglich. Bedingungen zur Auswahl lokaler Maxima können auf anderen (nicht maximalen) Merkmalsextraktionsschemen von hervorragenden Punkten (Salient Points) angewandt werden und gehören zum Geltungsbereich der Erfindung.
  • Das Resultat dieses Verfahrens sind Wertpaare, die dem nachstehend beschriebenen spektralen Einfrequenz-Fingerabdruck sehr ähneln. Das Zeit-Frequenzverfahren des Spektrogramms generiert mehr Erkeunungsmarken/Fingerabdruckpaare als das Einfrequenzverfahren, kann jedoch auch viele falsche Übereinstimmungen in der nachstehend beschriebenen Matching-Stufe hervorbringen. Es stellt allerdings mehr robuste Kennungsmarken und Fingerabdrücke als der spektrale Einfrequenz-Fingerabdruck bereit, da sich dominantes Rauschen in der Tonprobe nicht auf alle Teile des Spektrums in jedem Stück erstrecken kann. Das heißt, es gibt höchstwahrscheinlich ein paar Kennungsmarken- und Fingerabdruckpaare in Teilen des Spektrums, die nicht von dem dominanten Rauschen in Mitleidenschaft gezogen werden.
  • Dieses Kennungsmarken- und Fingerabdruckverfahren mit Spektrogramm ist ein spezieller Fall eines Merkmalsanalyseverfahrens, dass eine mehrdimensionale Funktion des Tonsignals berechnet, in welchem eine der Dimensionen die Zeit ist, und herausragende Punkte (Salient Points) in den Funktionswerten lokalisiert. Herausragende Punkte können lokale Maxima, lokale Minima, Nulldurchgänge oder sonstige unterscheidenden Merkmale sein. Die Kennungsmarken werden als Zeitkoordinaten der herausragenden Punkte übernommen, und die entsprechenden Fingerabdrücke werden von mindestens einer der verbleibenden Koordinaten berechnet. Zum Beispiel kann (können) die Nicht-Zeitkoordinate(n) der mehrdimensionalen hervorragenden Punkte zusammen zerteilt werden, um einen mehrdimensionalen funktionalen Fingerabdruck zu bilden.
  • Das zuvor beschriebene variable Versetzungsverfahren für spektrale Multi-Slice-Fingerabdrücke lässt sich für Spektrogramm- oder andere mehrdimensionale Funktionsfingerabdrücke anwenden. In diesem Fall sind Punkte in einer Konstellation miteinander verknüpft, um verknüpfte Punkte, wie im Spektrogramm von 7C gezeigt, zu bilden. Jeder Punkt in der Konstellation dient als Ankerpunkt, der die Kennungsmarkenzeit definiert, und die verbleibenden Koordinatenwerte der anderen Punkten werden kombiniert, um den verknüpften Fingerabdruck zu bilden. Punkte die nahe nebeneinander liegen, beispielsweise wie zuvor angesprochen, werden miteinander verknüpft, um komplexere kombinierte Merkmalsfingerabdrücke zu bilden, die leichter unterschieden und gesucht werden können. Wie bei den spektralen Multi-Slice-Fingerabdrücken bezweckt man mit dem Zusammenfassen von Informationen aus mehreren verknüpften hervorragenden Punkten in einem einzigen Fingerabdruck die Schaffung erhöhter Vielfältigkeit bei potentiellen Fingerabdruckwertes, wodurch die Wahrscheinlichkeit einer falschen Übereinstimmung verringert wird, d.h. die Wahrscheinlichkeit, dass derselbe Fingerabdruck zwei verschiedene Musikproben beschreibt, verringert wird.
  • Jeder der N-Salient Points kann im Prinzip mit jedem anderen Punkt in einem Zwei-Punkt-Verknüpfungsschema, das etwa N2/2-Kombinationen erzeugt, verknüpft werden. Auf ähnliche Weise entspricht für eine K-Punktverknüpfung die Anzahl möglicher Kombinationen, die aus einer Konstellation resultieren, NK. Um eine derartige Kombinationsexplosion zu vermeiden, ist es erstrebenswert, die Nachbarschaft von miteinander verknüpften Punkten einzuschränken. Eine Vorgehensweise zum Erreichen einer solchen Einschränkung besteht darin, eine „Zielzone" für jeden Ankerpunkt zu definieren. Ein Ankerpunkt wird dann mit Punkten in seiner Zielzone verknüpft. Es ist möglich, einen Subsatz von Punkten innerhalb der Zielzone auszuwählen, um jeden Punkt, der verknüpft werden muss, zu oder nicht zu verknüpfen. Es können beispielsweise nur die Punkte, die den stärksten Spitzen (Peaks) in der Zielzone zugeordnet sind, verknüpft werden. Eine Zielzone kann eine feste Form haben oder sich je nach Eigenschaften des Ankerpunkts ändern. Ein einfaches Beispiel einer Zielzone eines Ankerpunkts (t0, f0) für eine Spektrogramm-Konstellationsspitze ist der Satz von Punkten (t, f) im Spektrogrammstreifen, wo t das Intervall [t0+L, t0+L+W] ist, wobei L der Hinweis zur Zukunft und W die Breite der Zielzone ist. Bei diesem Schema sind alle Frequenzen in der Zielzone erlaubt. L oder W können variabel sein, zum Beispiel wenn ein Mengenregelungsmechanismus verwendet wird, um die Anzahl der erzeugten Verknüpfungskombinationen zu modulieren. Alternativ lassen sich Frequenzbegrenzungen implementieren, beispielsweise durch Einschränken der Zielzone in einer Weise, dass die Frequenz f das Intervall [f0F, f0+F] ist, wobei F einem Abgrenzungsparameter entspricht. Ein Vorteil einer Frequenzeinschränkung besteht darin, dass, wie in der Psychoakustik bekannt, Melodien dazu neigen, besser zusammenzuhängen, wenn Notensequenzen Frequenzen aufweisen, die sich einander nähern. Solch eine Einschränkung kann für ein erhöhtes „psychoakustisch realistisches" Erkennungsverhalten sorgen, obgleich die Formulierung eines Psychoakustikmodells nicht unbedingt ein Ziel dieser Erfindung ist. Es ist auch möglich, die entegegengesetzte Regel zu betrachten, in welcher f außerhalb des Bereichs [f0-F, f0+F] gewählt wird. Auf diese Weise wird das Verknüpfen von Punkten erzwungen, welche sich frequenzmäßig voneinander unterscheiden und möglicherweise Fälle verhindern, in welchen die Artefakte der Konstellationsextraktion stotternde Zeit-Frequenzpunktsequenzen erzeugen, die zeitnahe sind und dieselbe Frequenz haben. Genauso wie bei anderen Lokalitätsparametern ist f nicht unbedingt konstant und kann beispielsweise eine Funktion von f0 sein.
  • Wenn Zeitkoordinaten von nicht verankerten hervorragenden Punkten (Salient Points) in Fingerabdruckwerten eingebunden sind, müssen relative Zeitwerte benutzt werden, damit die Fingerabdrücke invariant gegenüber der Zeit bleiben. Beispielsweise kann der Fingerabdruck eine Funktion von (i) nicht zeitgebundenen Koordinaten sein und/oder (ii) der Differenz(en) der korrespondierenden Zeitkoordinatenwerte der hervorragenden Punkte. Die Zeitdifferenz(en) können beispielsweise in Bezug auf den Verankerungspunkt oder als aufeinanderfolgende Differenzen zwischen sequentiellen Salient Points im verknüpften Satz übernommen werden. Die Koordinate und Differenzwerte können in verketteten Bildfeldern komprimiert werden, um den zerteilten Fingerabdruck zu bilden. Für einen Fachmann ist es offensichtlich, dass es zahlreiche andere Vorgehensweisen gibt, um Sätze von Koordinatenwerten in einem Fingerabdruckwert zuzuordnen und die zum Geltungsbereich dieser Erfindung gehören.
  • Eine konkrete Instantiierung dieses Schemas verwendet N>1-verknüpfte Spektrogrammspitzen mit Koordinaten (tk, fk), k=1,..,N. Dann wird (i) die Zeit t1 der ersten Spitze als Kennungsmarkenzeit übernommen, und (ii) die Zeitdifferenzen Δtk = tk – t1, k=2,..,N plus die Frequenzen fk,k=1,..N der verknüpften Spitzen werden gemeinsam zerteilt, um einen Fingerabdruckwert zu bilden. Der Fingerabdruck kann von allen oder von einem Subsatz aller verfügbaren Δtk- und fk-Koordinaten berechnet werden. Es können zum Beispiel auf Wunsch alle Zeitdifferenzkoordinaten ausgelassen werden.
  • Ein anderer Vorteil beim Verwenden mehrerer Punkte zur Bildung des Fingerabdrucks besteht darin, dass die Fingerabdruckcodierung invariant gegenüber Zeiterstreckung bzw. -dehnung sein kann, beispielsweise wenn eine Tonaufzeichnung mit einer anderen Geschwindigkeit als die Originalaufzeichnungsgeschwindigkeit abgespielt wird. Dieser Vorteil gilt sowohl für das Spektrogramm als auch für die Zeitschlitzverfahren. Erwähnenswert ist, dass bei einem gedehnten Zeitsignal die Zeitdifferenzen und Frequenz eine wechselseitige Beziehung haben (beispielsweise wird durch Verringerung der Zeitdifferenz zwischen zwei Punkten um einen Faktor Zwei die Frequenz verdoppelt). Dieses Verfahren nutzt diese Tatsache, indem es Zeitdifferenzen und Frequenzen in einer Weise kombiniert, dass die Zeiterstreckung bzw. – dehnung aus dem Fingerabdruck entfernt wird.
  • Beispielsweise sind im Fall einer N-Punkt-Spektrogrammspitze mit Koordinatenwerten (tk, fk), k=1,..,N die verfügbaren Zwischenwerte zum Zerteilen in einen Fingerabdruck Δtk = tk – t1,k=2,.N und fk,k=1,..N. Diese Zwischenwerte lassen sich dann invariant gegenüber Zeiterstreckung bzw. -dehnung machen durch Übernahme einer der Frequenzen als Bezugsfrequenz, nehmen wir mal f1 an, und bilden (i) Quotienten mit den verbleibenden Frequenzen und (ii) Produkten mit den Zeitdifferenzen.
  • Beispielsweise können Zwischenwerte gk=fk/f1,k=2..,N und sk= Δtk= Δtkf1,k=2,..,N sein. Wenn die Probe um einen Faktor α beschleunigt wird, dann wird die Frequenz fk zu αfk und die Zeitdifferenz Δtk wird zu Δtk/α, sodass gk= αfk/αf1 und sk =(Δtk/α)(αf1)= Δtkf1. Diese neuen Zwischenwerte werden dann anhand einer Funktion kombiniert, um einen zerteilten Fingerabdruckwert zu bilden, der unabhängig von der Zeiterstreckung bzw. -dehnung ist. Beispielsweise lassen sich die Werte gk und sk zerteilen, indem sie zu verketteten Bitfeldern komprimiert werden.
  • Alternativ kann anstelle einer Bezugsfrequenz eine Bezugszeitdifferenz, zum Beispiel Δt2 verwendet werden. In diesem Fall werden die neuen Zwischenwerte als die (i) Quotienten Δtk/Δt2 mit den verbleibenden Zeitdifferenzen und (ii) Produkten Δt2fk mit den Frequenzen berechnet. Dieser Fall ist äquivalent mit der Verwendung einer Bezugsfrequenz, da die resultieren Werte aus Produkten und Quotienten der obigen Werte gk und sk gebildet werden kann. Reziproke Werte der Frequenzraten können ebenso wirksam verwendet werden; Summen und Differenzen logarithmischer Werte der Originalzwischenwerte lassen sich ebenfalls jeweils für Produkte und Differenzen substituieren. Jeder von der Zeiterstreckung bzw. -dehnung unabhängige Fingerabdruckwert, der durch solche Kommutationen, Substitutionen und Permutationen mathematischer Operationen erhalten werden kann, gehört zum Geltungsbereich der Erfindung. Des Weiteren können mehrere Bezugsfrequenzen oder Bezugszeitdifferenzen, die auch Zeitdifferenzen relativieren, verwendet werden. Die Verwendung mehrerer Bezugsfrequenzen oder Bezugszeitdifferenzen ist gleichbedeutend mit der Verwendung eines einzelnen Bezugs, da dasselbe Ergebnis durch arithmetische Manipulation Werte gk und sk erreicht werden kann.
  • In 3 und 6, auf die nochmals Bezug genommen wird, führen Kennungsmarken- und Fingerabdruckverfahrensanalysen anhand eines der obigen Verfahren zu einem Indexsatz für jeden Sound-ID, so wie in 8A dargestellt. Ein Indexsatz für eine gegeben Tonaufzeichnung ist eine Liste von Wertepaaren (fingerprint, landmark). Jede indexierte Aufzeichnung hat typischerweise etwa Tausend Paare (fingerprint, landmark) in ihrem Indexsatz. In der zuvor beschreibenen ersten Ausführungsform, bei welcher Kennungsmarken- und Fingerabdrucktechniken im Wesentlichen unabhängig sind, können sie als separate und austauschbare Module behandelt werden. Je nach System, Signaleigenschaften oder zu erkennendem Tontyp kann eines aus der Anzahl verschiedener Kennungsmarken- oder Fingerabdruckverfahrensmodule zum Einsatz kommen. Doch da sich der Indexsatz einfach aus Wertepaaren zusammensetzt, ist es eigentlich möglich und häufig wünschenswert mehrere Kennungsmarken- oder Fingerabdruckverfahrensschemen gleichzeitig zu verwenden. Ein Kennungsmarken- oder Fingerabdruckverfahrensschema kann beispielsweise gut zum Erfassen eindeutiger Tonstrukturen sein, aber schwach beim Identifizieren von Schlagzeug, wohingegen ein verschiedenartiger Algorithmus die entegegengesetzten Eigenschaften aufweisen kann. Die Verwendung mehrerer Kennungsmarken-oder Fingerabdruckverfahrensstrategien führt zu einem robusteren und reicheren Erkennungsverhaltensbereich. Es können verschiedene Fingerabdruckverfahrenstechniken gemeinsam eingesetzt werden, indem bestimmte Bereiche von Fingerabdruckwerten für bestimmte Arten von Fingerabdrücken reserviert werden. Beispielsweise können in einem 32-Bit-Fingerabdruckwert die ersten 3 Bits verwendet werden, um anzugeben, welches von 8 Fingerabdruckverfahrensschemen die folgenden 29 Bits codieren soll.
  • Nachdem Indexsätze für jede in der Sound-Datenbank zu indexierende Tonaufzeichnung generiert sind, erfolgt die Konstruktion eines suchbaren Datenbankindexes in einer Weise, dass ein schnelles (d.h. Einloggzeit) Suchen ermöglicht wird. Dies wird bewerkstelligt in Schritt 46 anhand der Konstruktion einer Liste von Triplets (fingerprint, landmark, sound_ID), indem der entsprechende Sound_ID an jedes Doublet innerhalb jedes Indexsatzes angehängt wird. Alle derartigen Triplets für alle Tonaufzeichnungen werden in einer großen Indexliste zusammengetragen, von welcher ein Beispiel in 8B gezeigt ist. Um den anschließenden Suchablauf zu optimieren, wird die Liste der Triplets entsprechend dem Fingerabdruck sortiert. Schnelle Sortieralgorithmen sind aus dem Stand der Technik wohlbekannt und werden weitgehend im Werk von D.E. Knuth The Art of Computer Programming, Band 3: Sorting und Searching, Reading, Massachusetts: Addison-Wesley, 1988 behandelt, welches hier zur Bezugnahme erwähnt wird. Hochleistungsfähige Sortieralgorithmen können verwendet werden, um die Liste in N log N Zeit zu sortieren, wobei N die Anzahl der Einträge in die Liste ist.
  • Sobald die Indexliste sortiert ist, wird siez in Schritt 43 durch Segmentieren weiter verarbeitet, so dass jeder einzelne Fingerabdruck in der Liste in einer neuen Masterindesliste zusammengetragen wird, von welcher ein Beispiel in 8C gezeigt wird. Jeder Eintrag in die Masterindexliste umfasst einen Fingerabdruckwert und einen Zeiger zu einer Liste von Paaren (landmark, sound_ID). In Abhängigkeit von der Anzahl und Zeichen der indexierten Aufzeichnungen kann ein gegebener Fingerabdruck x-mal innerhalb der gesamten Sammlung erscheinen. Das Umordnen der Indexliste in eine Masterindexliste ist optional, spart aber Speicherplatz, da jeder Fingerabdruchwert nur einmal erscheint. Es beschleunigt außerdem die anschließende Datenbanksuche, da die effektive Anzahl der Einträge erheblich reduziert wird und sich auf eine Liste eindeutiger Werte beschränkt. Alternativ kann die Masterindexliste durch Einfügen jedes Triplets in einem B-Baum konstruiert werden. Es gibt andere Möglichkeiten zur Konstruktion der Masterindexliste, die dem Fachmann wohlbekannt sind. Die Masterindexliste wird vorzugsweise in einem Speichersystem verwaltet, wie zum Beispiel ein DRAM für den schnellen Zugriff während der Signalerkennung. Die Masterindexliste kann im Speicher eines einzigen Knotens innerhalb des Systems, wie in 2 veranschaulicht, verwaltet werden. Alternativ kann die Masterindexliste in Stücke gebrochen werden, die zwischen mehreren Rechenknoten verteilt werden. Vorzugsweise ist der obige Datenbankindex die in 8C veranschaulichte Masterindexliste.
  • Die Sound-Datenbank wird vorzugsweise offline konstruiert und inkrementell aktualisiert, wenn neue Töne in das Erfassungssystem eingebunden werden. Um die Liste zu aktualisieren, können neue Fingerabdrücke in den geeigneten Ort in der Masterliste eingefügt werden. Falls neue Aufzeichnungen bestehende Fingerabdrücke enthalten, werden die entsprechenden Paare (landmark, sound_ID) den bestehenden Listen für diese Fingerabdrücke hinzugefügt.
  • Erkennungssystem
  • Mittels der Masterindexliste, die, wie zuvor beschrieben, generiert wird, erfolgt die Tonerkennung auf einer exogenen Tonprobe, die typischerweise von einem Benutzer geliefert wird, der an einem Identifizieren der Probe interessiert ist. Der Benutzer hört beispielsweise ein neues Gesangstück im Radio und würde gerne den Künstler und den Titel des Lieds kennen. Die Probe kann aus jeder Art von Umgebung stammen – wie Rundfunksendung, Disko, Kneipe, Submarine, Tonfile, Segment eines Audiostroms oder Stereosystem – und kann Hintergrundgeräusch, Abbrüche oder sprechende Stimmen umfassen. Der Benutzer kann die Audioprobe in einer Speichervorrichtung speichern, zum Beispiel einem Anrufbeantworter, einer Computerdatei, einem Tonbandgerät oder einem Telefort oder einem mobilen Telefon, einem Voicemail-System, bevor sie dem System zur Erkennung bereitgestellt wird. Je nach Systemaufbau und Benutzereinschränkungen wird die Audioprobe dem Erkennungssystem der vorliegenden Erfindung aus einer beliebigen Anzahl analoger oder digitaler Quellen bereitgestellt, wie Stereosysteme, Fernsehen, CD-Spieler, Rundunksendung, Anrufbeantworter, Telefon, mobiles Telefon Internet-Streaming-Übertragung, FTP, Computerdatei als angehängte E-Mail-Datei oder jedes sonstige Mittels zum Übertragen derartig aufgezeichneten Materials. In Abhängigkeit von der Quelle kann die Probe in Form von akustischen Wellen, Radiowellen, einem digitalen Audio-PCM-Strom bzw. -Stream, einem komprimierten digitalen Audiostrom bzw. -stream (wie Dolby Digital oder MP3) oder einer Internet-Streaming-Übertragung vorliegen. Ein Benutzer kommuniziert mit dem Erfassungssystem über eine Standardschnittstelle, zum Beispiel ein Telefon, mobiles Telefon, einen Web-Browser oder eine E-Mail. Die Probe kann durch das System gefangen und in Echtzeit verarbeitet werden, oder sie kann reproduziert werden, um von einem zuvor gefangenen Ton (oder zum Beispiel einer Tonfile) verarbeitet zu werden. Beim Fangen wird die Audioprobe digital abgetastet und zum System durch eine Abtastvorrichtung, beispielsweise ein Mikrofon, gesendet. Je nach Fangverfahren unterliegt die Probe wahrscheinlich einer weiteren Verschlechterung aufgrund von Begrenzungen des Kanals oder der Tonfangvorrichtung.
  • Sobald das Tonsignal in eine digitale Form umgesetzt ist, wird es hinsichtlich einer Erkennung verarbeitet. Auf die gleiche Weise wie bei der Konstruktion von Indexsätzen für Datenbankfiles werden Kennungsmarken- und Fingerabdrücke für die Probe anhand desselben Algorithmus, der für die Verarbeitung der Tonaufzeichnungsdatenbank verwendet wurde, berechnet. Das Verfahren arbeitet optimal, wenn die Verarbeitung einer stark verzerrten Wiedergabe eines Originaltonfiles den identischen oder ähnlichen Satz von Kennungsmarken- und Fingerabdruckpaaren, wie er für die Originalaufzeichnung erhalten wurde, hervorbringt. Der resultierende Indexsatz für die Tonprobe ist, wie in 9A gezeigt, ein Satz von Paaren analysierter Werte (fingerprint, landmark).
  • In Anbetracht der Paare für die Audioprobe wird der Datenbankindex gesucht, um potentielle Matching-Files zu lokalisieren. Das Suchen wird folgendermaßen ausgeführt: Jedes Paar (fingerprintk, landmarkk) im Indexsatz der unbekannten Probe wird durch Suchen des fingerprintk in der Masterindexliste verarbeitet. Schnelle Sortieralgorithmen auf einer geordneten Liste sind aus dem Stand der Technik wohlbekannt und werden weitgehend im Werk von D.E.
  • Knuth The Art of Computer Programming, Band 3: Sorting und Searching, Reading, Massachusetts: Addison-Weslay, 1988 behandelt. Sobald fingerprintk in der Masterindexliste gefunden ist, wird seine korrespondierende Liste der Paare (landmark*j, sound_IDj), die übereingestimmt bzw. abgestimmt bzw. gematcht werden können, kopiert und mit landmarkk vergrößert, um einen Satz von Triplets der Art (landmarkk, landmark*j, sound_Idj) zu bilden. Bei dieser Schreibweise bedeutet ein Stern (*) eine Kennungsmarke (landmark) einer der in der Datenbank indexierten Files, während die Kennungsmarke ohne Stern die Probe betrifft. Vorzugsweise sind in einigen Fällen die korrespondierenden Fingerabdrücke nicht unbedingt identisch, sind jedoch ähnlich; beispielsweise können sie innerhalb einer vorher bestimmten Toleranz voneinander abweichen. Fingerabdrücke, die übereingestimmt bzw. abgestimmt bzw. gematcht werden können, ob identisch oder ähnlich, werden als äquivalent bezeichnet. Der Sound_Idj im Triplet entspricht dem File, das die Kennungsmarke mit Stern hat. Ein derartiges Triplet beinhaltet zwei verschiedene Kennungsmarken, eine im Datenbankindex und eine in der Probe, wobei äquivalente Fingerabdrücke berechnet wurden. Dieser Ablauf wird für alle k, die sich über den eingegebenen Probenindexsatz erstrecken, wiederholt. Alle resultierenden Triplets werden in einer großen Kandidatenliste, die in 9B dargestellt ist, zusammengetragen. Die Kandidatenliste wird so genannt, weil sie die Sound_Ids von Tonfiles beinhaltet, die aufgrund ihrer übereinstimmenden Fingerabdrücke, Kandidaten zum Identifizieren mit der exogenen Tonprobe sind.
  • Nach dem Kompilieren wird die Kandidatenliste weiter verarbeitet, indem sie entsprechend des Sound_Id segmentiert wird. Dies kann auf geeignete Weise durch Sortieren der Kandidatenliste nach Sound_Id geschehen oder indem sie in einen B-Baum eingefügt wird. Nach dem Stand der Technik ist eine große Anzahl von Sortieralgorithmen, wie zuvor angesprochen, verfügbar. Das Resultat dieses Ablaufs ist eine Kandidatenliste von Sound_Ids, wobei jede eine Streuliste von Probenpaaren und Filekennungsmarken-Zeitpunkten mit dem optional abgestreiften Sound_Id (landmarkk, landmark*j), wie in 9C gezeigt, aufweist. Jede Streuliste beinhaltet somit einen Satz korrespondierender Kennungsmarken, deren Korrespondenz darauf beruht, dass sie durch einen äquivalenten Fingerabdruckwert charakterisiert sind.
  • Die Streuliste für jeden Kandidaten Sound_Id wird dann analysiert, um zu bestimmen, ob der Sound_Id ein Match für die Probe ist. Ein optionaler Schwellwertschritt kann zum ersten Aussondern einer großen Anzahl potentieller Kandidaten, die sehr kleine Streulisten aufweisen, verwendet werden. Es ist klar, dass Kandidaten mit nur einem Eintrag in ihrer Streuliste, d.h. nur einem gemeinsamen Fingerabdruck mit der Probe, nicht mit der Probe übereinstimmen. Es kann jede geeignete Schwellwertzahl, die größer als oder gleich Eins ist, verwendet werden.
  • Sobald eine Anzahl von Kandidaten bestimmt ist, wird der gewinnende Kandidat lokalisiert. Wenn der folgende Algorithmus keinen gewinnenden Kandidaten lokalisiert, wird eine Störung zurückgemeldet. Eine entscheidende Erkenntnis hinsichtlich des Matching-Ablaufs ist die, dass das Zeitverhalten, wenn die Töne abgestimmt werden, einer linearen Korrespondenz folgen muss in der Annahme, dass Zeitbasen auf beiden Seiten konstant sind. Dies trifft nahezu immer zu, es sei denn, dass einer der Töne absichtlich auf nichtlineare Weise verzerrt wurde oder einem defekten Playbackgerät unterzogen wurde, zum Beispiel einer Bandeinheit mit einem Trillergeschwindigkeitsproblem. Korrekte Kennungsmarkenpaare (landmarkn, landmark*n) in der Streuliste eines gegebenen Sound_ID müssen folglich eine lineare Korrespondenz der Art landmark*n = m*landmarkn + offsetaufweisen, wobei m die Steigung ist, die bei Eins liegen sollte, landmarkn der korrespondierende Zeitpunkt innerhalb der durch den Sound_ID indexierten Tonaufzeichnung und offset die Zeitversetzung in der Tonaufzeichnung, die dem Beginn der exogenen Tonprobe entspricht. Kennungsmarkenpaare, die mit der obigen Gleichung für spezielle Werte m und offset ausgestattet werden können, werden als linear-bezogen bezeichnet. Das Konzept der linearen Beziehung ist offensichtlich nur für mehr als ein Paar korrespondierender Kennungsmarken gültig. Besonders zu erwähnen ist, dass die lineare Beziehung das richtige Tonfile mit hoher Wahrscheinlichkeit identifiziert, während sie außerhalb liegende Kennungsmarkenpaare, die nicht signifikant sind, ausschließt. Obgleich es möglich ist, dass zwei verschiedene Signale eine Anzahl identischer Fingerabdrücke beinhalten, ist es sehr unwahrscheinlich, dass diese Fingerabdrücke dieselben relativen Zeitverhalten aufweisen. Die Voraussetzung linearer Korrespondenz ist ein Schlüsselmerkmal dieser Erfindung und stellt eine signifikant bessere Erkennung bereit als Techniken, die nur die Gesamtanzahl der gemeinsamen Merkmale zählen oder die Ähnlichkeit zwischen den Merkmalen messen. Aufgrund dieses Aspektes der Erfindung können nämlich Töne erkannt werden, selbst wenn weniger als 1% der ursprünglichen Aufzeichnungsfingerabdrücke in der exogenen Tonprobe erscheinen, d.h., wenn die Tonprobe sehr kurz oder signifikant verzerrt ist.
  • Das Problem der Bestimmung, ob ein Match für die exogene Probe besteht, wird damit auf das äquivalente Auffinden einer diagonalen Linie mit Steigung bei Eins innerhalb eines Streudiagramms der Kennungsmarkenpunkte einer gegebenen Streuliste reduziert. Die zwei horizontalen Streudiagramme werden in 10A und 10B mit Tonfilekennungsmarken auf der horizontalen Achse und exogenen Tonprobenkennungsmarken auf der vertikalen Achse gezeigt. In 10A wird eine diagonale Steigungslinie von gleich Eins identifiziert, die angibt, dass das Gesangstück in der Tat mit der Probe übereinstimmt, d.h., dass das Tonfile ein gewinnendes File bzw. Gewinnerfile ist. Das Abfangen an der horizontalen Achse gibt die Versetzung in das Audiofile an, bei welchem die Probe beginnt. Im Streudiagramm von 10B wird keine statistisch signifikante diagonale Linie gefunden, was bedeutet, dass das Tonfile kein Match für die exogene Probe ist.
  • Es gibt viel Möglichkeiten, eine diagonale Linie in einem Streudiagramm zu finden, die alle zum Geltungsbereich dieser Erfindung gehören. Es versteht sich, dass der Ausdruck „Lokalisieren einer diagonalen Linie" alle Verfahren betrifft, die äquivalent mit dem Lokalisieren einer diagonalen Zeile sind, ohne ausdrücklich eine diagonale Linie zu erzeugen. Eine bevorzugtes Verfahren startet, indem m*landmarkn aus beiden Seiten der obigen Gleichung subtrahiert wird, um hervorzubringen (landmark*n – m*landmarkn) = offset
  • Unter der Annahme, dass m etwa gleich Eins ist, d.h. angenommen, dass keine Zeitdehnung vorliegt, kommen wir zu (landmark*n = m*landmarkn) = offset
  • Das Problem des Findens der Diagonale ist damit auf das Finden mehrerer Kennungsmarkenpaare für einen gegebenen Sound_ID beschränkt, die nahe desselben Versetzungswertes (Offset) angehäuft sind. Dies kann ohne Umstände erreicht werden, indem eine Kennungsmarke von der anderen subtrahiert und ein Histogramm der resultierenden Versetzungswerte zusammengetragen wird. Das Histogramm kann durch Sortieren der resultierenden Versetzungswerte anhand eines schnellen Sortieralgorithmus vorbereitet werden oder durch Erstellen von Speichereinträgen mittels Zählern und ihrem Einfügen in einen B-Baum. Der gewinnende Offset-Speicher im Histogramm beinhaltet die höchste Punkzahl. Dieser Speicher wird hier als Peak des Histogramms bezeichnet. Da die Versetzung positiv sein muss, wenn das exogene Tonsignal vollständig innerhalb der richtigen Tonfilebibliothek enthalten ist, können Kennungsmarkenpaare, die zu einer negativen Versetzung führen, ausgeschlossen werden. Gleichzeitig können Versetzungen außerhalb des Fileendes ebenso ausgeschlossen werden. Die Punktzahl im gewinnenden Offset-Speicher des Histogramms wird für jeden qualifizierenden Sound_ID vermerkt. Diese Zahl wird zum Score für jede Tonaufzeichnung. Die Tonaufzeichnung in der Kandidatenliste mit dem höchsten Score wird als Gewinner gewählt. Der gewinnende Sound_ID wird einem Benutzer, wie nachstehend beschrieben, angezeigt, um das erfolgreiche Identifizieren zu melden. Um falsches Identifizieren zu verhindern, kann ein minimaler Schwellwert-Score verwendet werden, um den Erfolg des Identifizierablaufs zu sperren. Wenn kein Bibliotheksound einen diesen Grenzwert überschreitenden Score aufweist, dann liegt keine Erkennung vor, und der Benutzer wird entsprechend informiert.
  • Wenn das exogene Signal mehrere Töne beinhaltet, dann kann jeder einzelne Ton erkannt werden. In diesem Fall sind mehrere Gewinner in der Abgleichabtastung lokalisiert. Man braucht nicht zu wissen, dass das Tonsignal mehrere Gewinner beinhaltet, da die Abgleichabtastung mehr als einen Sound_ID mit einem Score lokalisieren kann, der viel höher als die verbleibenden Scores ist. Das verwendete Fingerabdruckverfahren hat vorzugsweise eine gute lineare Überlagerung, so dass einzelne Fingerabdrücke extrahiert werden können. Ein Spektrogramm-Fingerabdruckverfahren weist zum Beispiel eine lineare Überlagerung auf.
  • Wenn die Tonprobe eine Zeitdehnung unterzogen wurde, ist die Steigung nicht auf identische Weise gleich Eins. Bei Annahme einer Steigung von Eins auf einer zeitgedehnten Probe (unter der Annahme, dass die Fingerabdrücke invariant gegenüber einer Zeiterstreckung bzw. – dehnung sind) ergibt sich, dass die berechneten Versetzungswerte nicht gleich sind. Eine Möglichkeit dies zu behandeln und eine mäßige Zeiterstreckung bzw. -dehnung anzupassen, besteht darin, die Größe der Offset-Speicher zu erhöhen, das heißt, eine Reihe von Versetzungen als gleich zu betrachten. In der Regel, wenn die Punkte nicht auf eine gerade Linie fallen, unterscheiden sich berechneten Versetzungswerte signifikant, und eine geringfügig zunehmende Größe der Offset-Speicher bringt keine signifikante Anzahl falscher Positivwerte hervor.
  • Andere Strategien zum Finden von Linien sind möglich. Beispielsweise kann eine Radon- oder Hough-Transformation verwendet werden, so wie sie im Werk von T. Risse „Hough Transform for Line Recognition", Computer Vision and Image Processing, 46, 327–345, 1980 beschrieben ist, welche in den Fachbereichen Maschinenbild- und Grafikbearbeitungsforschung wohlbekannt ist. Bei der Hough-Transformation projiziert sich jeder Punkt des Streudiagramms auf eine Linie (Steigung, Versetzung) im Raum. Der Punktsatz im Streudiagramm wird somit auf den Dualraum von Linien in der Hough-Transformation projiziert. Peaks in der Hough-Transformation entsprechen Schnittpunkten von Parameterlinien. Die globalen Peaks einer derartigen Transformation eines gegebenen Streudiagramms geben die höchste Anzahl von Schnittpunktlinien in der Hough-Transformation an und damit die größte Anzahl colinearer Punkte. Um eine Geschwindigkeitsschwankung von beispielsweise 5% zu erlauben, kann die Konstruktion der Hough-Transformation auf den Bereich, wo der Steigungsparameter zwischen 9,95 und 1,05 schwankt begrenzt sein, wodurch etwas Rechenaufwand eingespart wird.
  • Hierarchische Suche
  • Zusätzlich zum Schwellwertschritt, der Kandidaten mit sehr kleinen Streulisten entfernt, können weitere Effizienzverbesserungen gemacht werden. Bei einer Verbesserungsform wird der Datenbankindex in mindestens zwei Teile entsprechend der Wahrscheinlichkeit des Auftretens segmentiert, und es werden zunächst nur die Tonfiles mit der höchsten Wahrscheinlichkeit, mit der Probe übereingestimmt bzw. abgestimmt bzw. gematcht zu werden, gesucht. Die Segmentierung kann an verschiedenen Stufen des Ablaufs auftreten. Die Masterindexliste (8C) kann beispielsweise in zwei oder mehrere Teile segmentiert werden, so dass die Schritte 16 und 20 zuerst auf einem der Segmente durchgeführt werden. Das heißt, Files, welche Fingerabdrücken, die abgestimmt werden können, entsprechen, werden nur aus einem Bruchstück des Datenbankindexes gesucht, und aus diesem Bruchstück wird eine Streuliste erzeugt. Wenn kein gewinnendes Tonfile lokalisiert wird, wird der Ablauf auf dem verbleibenden Teil des Datenbankindexes wiederholt. In einer anderen Implementierung werden alle Files aus dem Datenbankindex gesucht, aber die Abtastung der diagonalen Zeile wird separat auf verschiedenen Segmenten durchgeführt.
  • Mittels dieser Technik wird das Abtasten der diagonalen Linie, ein berechnungsintensiver Teil des Verfahrens, zuerst auf einem kleinen Subsatz in den Tonfiles des Datenbankindexes durchgeführt. Da das Abtasten der diagonalen Linie eine beinahe lineare Zeitkomponente in Bezug auf die Anzahl der abzutastenden Tonfiles aufweist, ist die Durchführung einer derartigen hierarchischen Suche von großem Vorteil. Man kann beispielsweise annehmen, dass der Sound-Datenbankindex Fingerabdrücke beinhaltet, die 1.000.000 Tondateien darstellen, aber dass nur etwa 1000 Files mit den Probenanfragen mit hoher Frequenz übereinstimmen, d.h., dass 95% der Anfragen für 1000 Dateien und nur 5% der Anfragen für die verbleibenden 999.000 Dateien sind. Unter der Annahme einer linearen Abhängigkeit des Rechenaufwands von der Anzahl der Files, entspricht der Aufwand proportional zu 1000 95% von der Zeit und proportional zu 999.0000 nur 5% von der Zeit. Der durchschnittliche Aufwand ist demnach proportional zu etwa 50.900. Eine hierarchische Suche bringt folglich einen Faktor von 20 Rechenaufwandeinsparungen hervor, beispielsweise eine Gruppe neuer Versionen, eine Gruppe von vor kurzem ausgegebenen Gesangstücken und eine Gruppe älterer Gesangstücke, die weniger verbreitet sind.
  • Wie oben erwähnt, wird die Suche auf einem ersten Subsatz von Tonfiles durchgeführt, den Files mit hoher Wahrscheinlichkeit, und dann, und zwar nur wenn die erste Suche missglückt, auf einem zweiten Subsatz, der die verbleibenden Files beinhaltet. Die Abtastung der diagonalen Linie missglückt, wenn die Anzahl der Punkte in jedem Offset-Speicher nicht einen vorher bestimmten Schwellwert erreicht. Alternativ können die beiden Suchen parallel (gleichzeitig) vorgenommen werden. Wenn das zutreffende Tonfile in einer Suche des ersten Subsatzes lokalisiert wird, dann wird ein Signal gesendet, um die Suche des zweiten Subsatzes zu beenden. Wird das richtige Soundfile nicht in der ersten Suche lokalisiert, dann wird die zweite Suche fortgesetzt, bis ein gewinnendes File lokalisiert ist. Diese zwei verschiedenen Implementierungen bedingen Kompromisse in Bezug auf den Rechenaufwand und die Rechenzeit. Die erste Implementierung ist recheneffizient, führt jedoch eine leichte Wartezeit ein, wenn die erste Suche missglückt, während die zweite Implementierung rechenverschwenderisch ist, wenn das gewinnende File im ersten Subsatz ist, minimiert jedoch die Wartezeit, falls es nicht dort ist.
  • Mit dem Segmentieren der Liste wird bezweckt, die Wahrscheinlichkeit, dass ein Tonfile das Ziel einer Anfrage ist, zu schätzen und die Suche solcher Files zu begrenzen, die höchstwahrscheinlich mit der Anfrageprobe abgestimmt werden können. Es gibt verschiedene Möglichkeiten zum Zuordnen von Wahrscheinlichkeiten und Sortieren von Tönen in der Datenbank, die alle zum Geltungsbereich dieser Erfindung gehören. Vorzugsweise werden Wahrscheinlichkeiten zugeordnet auf der Basis von Neuheit oder Häufigkeit als das gewinnende Tonfile identifiziert zu werden. Neuheit ist ein nützliches Maß, insbesondere bei volkstümlichen Gesangstücken, da sich musikalische Interessen im Laufe der Zeit schnell ändern, sobald neue Gesangstücke ausgegeben werden. Nachdem die Wahrscheinlichkeits-Scores berechnet sind, werden den Files Rankings (Rangordnungen) zugewiesen, und die Liste sortiert sich selbst durch das Ranking. Die sortierte Liste wird dann in zwei oder mehr Subsätze zum Suchen segmentiert. Der kleine Subsatz kann eine vorbestimmte Anzahl von Dateien beinhalten. Wenn das Ranking beispielsweise ein File in den, sagen wir mal, 1000 Files an vorderster Stelle lokalisiert, wird das File in der kleineren, schnelleren Suche abgelegt. Alternativ können die Abschneidpunkte für die beiden Subsätze dynamisch abgeglichen werden. Beispielsweise lassen sich alle Files mit einem Score, der einen besonderen Schwellwert überschreitet, im ersten Subsatz anordnen, und auf diese Weise ändert sich die Anzahl der Files in jedem Subsatz ständig.
  • Eine spezielle Möglichkeit zum Berechnen der Wahrscheinlichkeit, besteht darin, ein Tonfile-Score jedes Mal um Eins zu inkrementieren, wenn es als eine Abstimmung für die Anfrageprobe identifiziert wird. Zur Berücksichtigung von Neuheit werden alles Scores periodisch absteigend reduziert, damit neue Anfragen eine stärkere Wirkung auf das Ranking als ältere Anfragen haben. Alle Scores können beispielsweise anhand eines konstanten Multiplikationsfaktors auf jede Anfrage absteigend verschärft werden, was eine Exponentialdämpfung des Scores, falls er nicht aktualisiert wird, zur Folge hat. In Abhängigkeit von der Anzahl der Files in der Datenbank, die sich bei weitem auf eine Million belaufen kann, kann dieses Verfahren bedingen, dass eine große Anzahl von Scores bei jeder Anfrage zu aktualisieren ist, weshalb es eventuell unerwünscht ist. Alternativ können die Scores absteigend mit relativ seltenen Intervallen angepasst werden, wie zum Beispiel einmal pro Tag. Die Abwicklung, die aus einer weniger häufigen Anpassung resultiert, ist gewissermaßen ähnlich, aber nicht vollkommen identisch mit der Abwicklung, die aus der Anpassung mit jeder Abfrage resultiert. Allerdings ist der Rechenaufwand zum Aktualisieren der Rankings viel niedriger.
  • Eine leichte Abweichung dieser Neuheitsanpassung, welche den Neuheits-Score genauer einhält, besteht darin, dem gewinnenden File bei der Anfrage eine exponentiell ansteigende Score-Aktualiserung αt hinzuzufügen, wobei t das Resultat der seit der letzten Globalaktualisierung verflossenen Zeit ist. Alle Scores werden dann absteigend angepasst, indem bei jeder Globalaktualisierung durch αT geteilt wird, wobei T die seit der letzten Globalaktualisierung verflossene Gesamtzeit ist. Bei dieser Abweichung ist α ein Neuheitsfaktor, der größer als Eins ist.
  • Zusätzlich zum oben beschriebenen Ranking kann eine A priori-Kenntnis eingeführt werden, um das Setzen der Liste zu unterstützen. Beispielsweise können neue Versionen voraussichtlich eine höher Anzahl von Anfragen als ältere Gesangstücke aufweisen. Dadurch lassen sich neue Versionen automatisch im ersten Subsatz mit den Gesangstücken anordnen, die eine höhere Wahrscheinlichkeit besitzen, mit Anfragen abgestimmt zu werden. Dies lässt sich unabhängig vom oben beschriebenen Selbst-Ranking-Algorithmus durchführen. Kommt ferner noch das Selbst-Ranking-Merkmal zum Einsatz, können neue Versionen anfänglichen Rankings zugeordnet werden, welche sie irgendwo im ersten Subsatz anordnen. Diese neuen Versionen können am äußersten Anfang der Liste, am unteren Ende der Liste oder irgendwo dazwischen gesetzt werden. Für die Suche ist der anfängliche Ort ohne Bedeutung, da sich das Ranking im Zeitablauf der Wiedergabe dem genauen Interessensstand nähert.
  • In einer alternativen Ausführungsform wird die Suche in der Reihenfolge von Neuheits-Rankings ausgeführt und endet, sobald ein Sound_ID-Score einen vorher bestimmten Schwellwert überschreitet. Experimente zeigen, dass der Score eines gewinnenden Tons viel größer als die Scores aller anderen Tonfiles ist, und somit lässt sich ein geeigneter Schwellwert mit minimalem Experimentieren wählen. Eine Möglichkeit zur Implementierung dieser Ausführungsform besteht darin, alle Sound_IDs im Datenbankindex entsprechend der Neuheit zu ordnen mit beliebigen Stichfragen im Fall identischer Scores. Da jedes Neuheits-Ranking eindeutig ist, besteht eine bijektive Abbildung zwischen dem Neuheits-Score und dem Sound_ID. Das Ranking kann dann beim Sortieren nach Sound_ID anstelle des Sound_ID verwendet werden, um die Kandidatenliste Sound_IDs und zugehörigen Streulisten (9C) zu bilden. Die Ranking-Nummern können an den Index gebunden sein, wenn die Indexliste der Triplets (fingerprint, landmark, sound_ID) generiert und bevor die Indexliste in die Masterindexliste einsortiert wird. Das Ranking tritt dann an die Stelle des Sound_ID. Alternativ kann eine Funktion Suchen und Ersetzen verwendet werden, um den Sound_ID durch das Ranking zu ersetzen. Da Rankings aktualisiert werden, werden neue Rankings auf den alten Rankings abgebildet, sofern die Abbildungsintegrität erhalten bleibt.
  • Alternativ können die Rankings später im Ablauf eingebunden werden. Sobald die Streulisten erstellt sind, lässt sich ein Ranking jedem Sound_ID zuordnen. Die Sätze werden dann nach Ranking sortiert. Bei dieser Implementierung brauchen nur die Zeiger zu den Streulisten geändert zu werden; das Zusammentragen in Streulisten braucht nicht mehr wiederholt zu werden. Der Vorteil späterer Bindungen liegt darin, dass der gesamte Datenbankindex nicht jedes Mal, wenn die Rankings aktualisiert werden, neu erstellt zu werden braucht.
  • Erwähnenswert ist, dass das Beliebtheits-Ranking selber als Ziel mit wirtschaftlichem Wert von Interesse sein kann. Das Ranking spiegelt nämlich das von Verbrauchern erwünschte Identifizieren einer unbekannten Tonprobe wieder. In vielen Fällen folgt der Anfrage unverzüglich der Wunsch, eine Aufzeichnung des Gesangstücks zu kaufen. In der Tat, falls bevölkerungsstatistische Informationen vorliegen, dann lassen sich alternative Ranking-Schemen für jede gewünschte demografische Gruppe implementieren. Eine demografische Benutzergruppe lässt sich aus den Selbstdarstellungsinformationen, die bei der Anmeldung des Benutzers beim Erkennungs-Service angefordert werden, erhalten. Gemeinschaftliche Filtertechniken können ebenfalls dynamisch nach Maßstab festgelegt werden.
  • In einem Echtzeitsystem wird der Ton dem Erkennungssystem inkrementell im Zeitverlauf bereitgestellt, was leitungsgebundene Erfassung ermöglicht. In diesem Fall können die ankommenden Daten in Segmenten verarbeitet und der Probenindex inkrementell gesetzt werden. Nach jeder Aktualisierungsperiode wird der neu vergrößerte Indexsatz verwendet, um Tonaufzeichnungen der Kandidatenbibliothek anhand der zuvor angesprochenen Such- und Abtastungsschritte zu finden. Der Datenbankindex wird nach Fingerabdrücken, die mit neu erhaltenen Fingerabdruckproben abgestimmt werden können, durchsucht, und es werden neue Triplets (landmarkk, landmark*j, sound_Idj) generiert. Neue Paare werden den Streulisten hinzugefügt, und die Histogramme werden vergrößert. Der Vorteil diese Ansatzes liegt darin, dass, wenn eine ausreichende Anzahl von Daten gesammelt wurde, um die Tonaufzeichnung eindeutig zu identifizieren – zum Beispiel, wenn die Anzahl der Punkte in einem Offset-Speicher eines der Tonfiles einen hohen Schwellwert oder den nächsthöchsten Tonfile-Score überschreitet – die Datenerfassung beendet und das Resultat verkündet werden kann.
  • Sobald der richtige Ton identifiziert ist, wird das Resultat einem Benutzer oder einem System anhand jedes geeigneten Verfahrens gemeldet. Beispielsweise kann das Ergebnis per Computerausdruck, E-Mail, Web-Suchergebnisseite, SMS-Nachricht zu einem Handy, computer-generiertem Stimmenkommentar über ein Telefon oder Senden des Ergebnisses zu einer Web-Site oder einem Internet-Konto, auf das der Benutzer später zugreifen kann, gemeldet werden. Die gemeldeten Ergebnisse können Identifizierungsinformationen des Tons wie den Namen und Künstler eines Gesangstücks umfassen, den Tondichter, Namen und die Aufzeichnungsattribute (zum Beispiel Artisten, Leiter, Veranstaltungsort) eines klassischen Stücks, das Unternehmen und Produkt einer Werbung oder jede sonstigen geeigneten Indikatoren. Daneben können Biographieinformationen, Informationen zu Konzerten in der Nähe und sonstige Informationen, die für die Fans von Interesse sind, bereitgestellt werden; auch Hyperlinks zu solchen Daten lassen sich bereitstellen. Die gemeldeten Ergebnisse können auch den absoluten Score des Tonfiles oder seinen Score im Vergleich zum nächsthöchsten Score-File umfassen.
  • Eine nützliche Folge des Erkennungsverfahrens besteht darin, dass es nicht zwei verschiedene Wiedergaben desselben Tons verwechselt. Beispielsweise werden unterschiedliche Ausführungen desselben klassischen Musikstücks nicht als dieselben Stücke betrachtet, selbst wenn ein Mensch zwischen den beiden Darstellungen keinen Unterschied feststellen kann. Es ist nämlich höchst unwahrscheinlich, dass die Kennungsmarken/Fingerabdruckpaare und ihr Zeitverlauf genau mit zwei anderen Ausführungen abgestimmt werden können. In einer gegenwärtigen Ausführungsform müssen die Kennungsmarken/Fingerabdruckpaare innerhalb von etwa 10 ms voneinander für eine lineare Korrespondenz identifiziert werden. Demzufolge sorgt die von der vorliegenden Erfindung durchgeführte automatische Erkennung dafür, dass Performance/Soundtrack und Artist/Label, die einwandfrei sind, in allen Fällen angerechnet werden.
  • Implementierungsbeispiel
  • Eine bevorzugten Implementierung der Erfindung ist die nachstehend beschriebene kontinuierliche Tonerkennung in einem rollenden Fenster. Ein Mikrofon oder eine Tonquelle wird kontinuierlich in einem Puffer abgetastet, um eine Aufzeichnung der vorhergehenden N Tonsekunden zu erhalten. Die Inhalte des Tonpuffers werden periodisch analysiert, um die Identität des Toninhalts zu ermitteln. Der Tonpuffer kann eine feste Größe haben oder in dem Maße, wie der Ton abgetastet wird, an Größe zunehmen, hier als sequentiell zunehmende Segmente der Tonprobe bezeichnet. Eine Berichterstattung gibt das Vorhandensein der identifizierten Tonaufzeichnungen an. Es kann beispielsweise eine Log-Datei erfasst werden, oder ein Display kann auf einer Vorrichtung gezeigt werden, um Informationen zur Musik wie Titel, Artist, Einbandtechnik des Albums, Schlagertext oder Kaufinformationen anzuzeigen.
  • Um Redundanz zu vermeiden, ist es möglich, einen Bericht nur dann zu erstatten, wenn sich die Identität der erkannten Töne ändert, beispielsweise nach einem Programmwechsel auf einer Jukebox. Eine derartige Vorrichtung kann zur Erstellung einer Liste von Musikstücken dienen, die von einem beliebigen Audiostrom bzw. -stream (Radio, Internet-Streaming-Übertragung, unsichtbarem Mikrofon, Telefonanruf, usw.) gespielt wird. Zusätzlich zur Musikidentität kann Information wie Zeiterkennung aufgezeichnet werden. Falls Information zum Ort verfügbar ist (zum Beispiel per GPS), kann diese auch aufgezeichnet werden.
  • Um das Identifizieren zu vollenden, kann jeder Puffer als de novo identifiziert werden. Alternativ können Tonparameter extrahiert werden, beispielsweise in Fingerabdrücke oder sonstige dazwischenliegende Merkmal-extrahierte Formen, und in einem zweiten Puffer gespeichert werden. Neue Fingerabdrücke können an der Front des zweiten Puffers hinzugefügt werden, wobei die alten Fingerabdrücke vom Ende des Puffers verworfen werden. Der Vorteil einer derartigen Rollpufferform besteht darin, dass dieselbe Analyse nicht redundant auf alten überlappenden Tonproben durchgeführt werden muss, wodurch Rechenaufwand eingespart wird. Der Identifikationsablauf wird periodisch auf den Inhalten des rollenden Fingerabdruckpuffers ausgeführt. Im Fall einer kleinen portablen Vorrichtung lässt sich die Fingerabdruckanalyse in der Vorrichtung ausführen, und die Resultate können zu einem Erkennungsserver übertragen werden, der einen Datenkanal mit relativ niedriger Bandbreite benutzt, da der Fingerabdruckstrom nicht sehr datenintensiv ist. Der rollende Fingerabdruckpuffer kann auf der portablen Vorrichtung einbehalten und jedes Mal zum Erkennungsserver übertragen werden, oder er kann am Erkennungsserver einbehalten werden, wobei sich in diesem Fall eine anhaltende Erkennungssitzung im Cache auf dem Server befindet.
  • In einem derartigen Rollpuffer-Erkennungssystem können neue Tonaufzeichnungen erkannt werden, sobald ausreichende Information in dem Puffer für eine Erkennung verfügbar ist. Ausreichende Information kann weniger als die Länge des Puffers einnehmen. Wenn beispielsweise ein unverwechselbares Gesangstück nur nach einer Spielsekunde erkannt wird und das System eine Einsekunden-Erkennungsperiodizität aufweist, dann kann das Gesangstück sofort erkannt werden, selbst bei einer Pufferlänge von 15–30 Sekunden. Wenn umgekehrt ein weniger unverwechselbares Gesangstück mehr Probensekunden zum Erkennen erfordert, muss das System auf eine längere Periode warten, bevor es die Identität des Gesangstücks angibt. Bei dieser Erkennungsform mit rollendem Fenster werden Töne erkannt, sobald sie identifizierbar sind.
  • Es ist wichtig zur Kenntnis zu nehmen, dass der Fachmann an der vorliegende Erfindung, die im Kontext eines völlig zweckmäßigen Erkennungssystems und -verfahrens beschrieben wurde, schätzen wird, dass der Mechanismus dieser Erfindungsidee in der Lage ist, als computerlesbares Anweisungsmedium in einer Vielfalt von Formen verteilt zu werden und dass die Erfindung hier in gleicher Weise gilt, unabhängig vom speziellen Signalpeilungsmedium, das zur eigentlichen Durchführung der Verteilung verwendet wird. Beispiele solcher computerlesbaren Vorrichtungen umfassen Computerspeicher (RAM oder ROM), Disketten und CD-ROMs sowie Medien zur Weiterleitung, wie zum Beispiel digitale und analoge Nachrichtenverbindungen.

Claims (28)

  1. Verfahren zum Identifizieren einer Tonprobe bzw. Audioprobe bzw. -abtastung bzw. -sample, gekennzeichnet durch: für die Probe ein Generieren von Probenkennungsmarken/Fingerabdruckpaaren, wobei jede Kennungsmarke an einem speziellen Ort in der Zeit innerhalb der Audioprobe auftritt, wobei der Ort in Abhängigkeit von dem Inhalt der Audioprobe berechnet wird, und wobei jeder Fingerabdruck ein oder mehrere Merkmal(e) der Audioprobe an oder nahe dem speziellen Ort charakterisiert; für jedes von einem oder mehreren Audio- bzw. Tonfiles ein Generieren von Filekennungsmarken/Fingerabdruckpaaren, wobei jede Kennungsmarke an einem speziellen Ort in der Zeit innerhalb des Audiofiles bzw. der Audiodatei auftritt, wobei der Ort in Abhängigkeit von dem Inhalt des Audiofiles berechnet wird, und wobei jeder Fingerabdruck ein oder mehrere Merkmal(e) des Audiofiles an oder nahe dem speziellen Ort charakterisiert; ein Identifizieren von im wesentlichen linearen Korrespondenzen bzw. Zusammenhängen zwischen entsprechenden Probenkennungsmarken/Fingerabdruckpaaren und den zuvor generierten bzw. erzeugten Filekennungsmarken/Fingerabdruckpaaren; und ein Identifizieren eines gewinnenden Files bzw. Gewinnerfiles als jenem, welches eine signifikante Anzahl von im wesentlichen linearen Korrespondenzen aufweist.
  2. Verfahren nach Anspruch 1, in welchem jeder Fingerabdruck eine Anzahl von Merkmalen des Tons an jedem Kennungsmarkenort oder geringfügig von dem Ort versetzt aufweist.
  3. Verfahren nach einem der vorhergehenden Ansprüche, in welchem jeder Fingerabdruck durch ein Verfahren derart berechnet wird, daß er invariant gegenüber einer Zeiterstreckung bzw. -dehnung der Probe ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, in welchem jeder Fingerabdruck als einer eines Fingerabdrucks eines spektralen Stücks bzw. Slices, eines Multi-Slice-Fingerabdrucks, eines LPC-Koeffizienten, eines Ceptral-Koeffizienten und einer Frequenzkomponente von Spektrogrammpeaks bzw. -spitzen berechnet wird.
  5. Verfahren nach Anspruch 4, in welchem ein Spektral-Slice-Fingerabdruck an einem Satz von Zeitversetzungen zu einem Kennungsmarken-Zeitpunkt berechnet wird.
  6. Verfahren nach einem der vorhergehenden Ansprüche, in welchem die Position von jeder Kennungsmarke unter Verwendung eines Kennungsmarkierungsverfahrens identifiziert wird, welches unterscheidende und reproduzierbare Orte innerhalb der Tonaufzeichnung finden.
  7. Verfahren nach Anspruch 6, in welchem das Kennungsmarkierungsverfahren eine Spektral-Lp-Norm verwendet, um eine momentane Leistung zu jedem möglichen Zeitpunkt beim Aufzeichnen verwendet und lokale Maxima als die Kennungsmarken auswählt.
  8. Verfahren nach Anspruch 6 oder 7, in welchem eine oder mehrere Kennungsmarke(n) eine eine Multi-Slice-Kennungsmarke ist bzw. wird, die von spektralen Komponenten über mehrere Zeitschlitzen bzw. -slices an festgelegten oder variablen Versetzungen voneinander abgeleitet ist.
  9. Verfahren nach einem der vorhergehenden Ansprüche, in welchem die Filekennungsmarken/Fingerabdruckpaare in einer Datenbank gespeichert werden, wobei jedes File in der Datenbank durch Fingerabdrücke dieses Files indexiert wird.
  10. Verfahren nach Anspruch 9, in welchem die Indizes entsprechend dem Fingerabdruck sortiert werden.
  11. Verfahren nach Anspruch 10, in welchem eine Masterindexliste zusammengetragen wird, die einen Eintrag für jeden einzelnen Fingerabdruck und einen Zeiger zu einer Liste von entsprechenden Kennungsmarken aufweist.
  12. Verfahren nach einem der Ansprüche 9 bis 11. In welchem jedes File durch ein SOUND_ID identifiziert wird, und die Datenbank eine Mehrzahl von Fingerabdruck-, Kennungsmarken- und SOUND_ID-Triplets speichert.
  13. Verfahren nach einem der vorhergehenden Ansprüche, in welchem das File mit den meisten statistisch signifikanten, linear-bezogenen Korrespondenzpaaren als das gewinnende File gewählt wird.
  14. Verfahren nach einem der vorhergehenden Ansprüche, in welchem eine lineare Korrespondenz zwischen Proben- und Filekennungsmarken (landmarkn, landmark*n) auftritt, wenn ein Probenkennungsmarken/Fingerabdruckpaar mit einem Filekennungsmarken/Fingerabdruckpaar innerhalb eines Toleranzbereichs zusammenfällt.
  15. Verfahren nach einem der vorhergehenden Ansprüche, in welchen eine lineare Korrespondenz zwischen einem Probenkennungsmarken/Fingerabdruckpaar und einem Filekennungsmarken/Fingerabdruckpaar auftritt, wenn die entsprechenden Fingerabdrücke übereingestimmt bzw. abgestimmt bzw. gematcht werden und die entsprechenden Kennungsmarken durch eine lineare Beziehung bezogen werden.
  16. Verfahren nach Anspruch 15, in welchem die Fingerabdrücke abgestimmt werden, wenn sie identisch sind oder innerhalb einer vorher bestimmten Toleranz voneinander abweichen.
  17. Verfahren nach Anspruch 15 oder 16, in welchem eine lineare Übereinstimmung auftritt, wenn Proben/Filekennungsmarken (landmarkn, landmark*n) innerhalb der Liste in Übereinstimmung mit der Beziehung landmark*n = m*landmarkn + offset (landmark*n = m*landmarkn + Versetzung) in Bezug sind.
  18. Verfahren nach einem der vorhergehenden Ansprüche, in welchem die Probe in der Form von akustischen Wellen, Radiowellen, einem digitalen Audio-PCM-Strom bzw. -Stream, einem komprimierten digitalen Audiostrom bzw. -stream oder einer Internet-Streaming-Übertragung vorliegt.
  19. Verfahren nach einem der vorhergehenden Ansprüche, in welchem die Probenfingerabdrücke in einem Rollpuffer gespeichert werden.
  20. Verfahren nach Anspruch 19, in welchem der identifizierende bzw. Identifizierungsschritt periodisch ausgeführt werden kann, der an den Inhalten des rollenden Fingerabdruckpuffers ausgeführt wird.
  21. Verfahren nach Anspruch 19 oder 20, in welchem der Identifizierungsschritt ausgeführt werden kann, sobald ausreichende Information in dem Puffer für eine Erkennung verfügbar ist.
  22. Verfahren nach einem der vorhergehenden Ansprüche, in welchem der Identifizierschritt zuerst an einem Subsatz von Files bzw. Dateien ausgeführt wird, und wenn kein gewinnendes File in dem ersten Subsatz identifiziert wird, ein zweiter Subsatz, enthaltend die verbleibenden Files, durchsucht wird.
  23. Verfahren nach Anspruch 22, in weichem der erste Subsatz Files beinhaltet, welche eine a priori oder empirisch eine höhere Wahrscheinlichkeit besitzen, daß sie identifiziert werden als Files, welche nicht in dem ersten Subsatz sind.
  24. Verfahren nach Anspruch 1, wobei der Schritt eines Identifizierens von linearen Korrespondenzen ein Lokalisieren einer diagonalen Linie innerhalb eines Streuausdrucks des entsprechenden Orts durch ein Ausbilden von Unterschieden bzw. Differenzen zwischen den entsprechenden Orten und ein Berechnen eines Peaks eines Histogramms dieser Unterschiede umfaßt.
  25. Verfahren nach Anspruch 1, in welchem der Schritt eines Identifizierens eines gewinnenden Files weiterhin ein Bereitstellen eines Indikators einer Versetzung bzw. eines Offsets zu einem Ort in dem gewinnenden File umfaßt, wo die signifikante Anzahl von Korrespondenzen auftritt.
  26. Verfahren zum Identifizieren einer Audio- bzw. Tonprobe bzw. -abtastung bzw. -sample, umfassend die Schritte: antworend auf eine Anfrage von einem Klienten, Vermitteln von wenigstens einem Abschnitt einer Audioprobe zu einem Server, wobei der Server die Verfahrensschritte von Anspruch 1 ausführt; und antwortend auf den Server, welcher ein, gewinnendes File identifiziert, dementsprechendes Antworten zu den Klienten.
  27. Computerprogrammprodukt, welches alle Schritte des Verfahrens gemäß einem der vorhergehenden Ansprüche ausführt, wenn es in einen Computer geladen wird oder ist.
  28. Computersystem, das angeordnet ist, um ein Verfahren nach einem der Ansprüche 1 bis 25 auszuführen, welches ein Klientenende beinhaltet, welches eine Merkmal-extrahierte Zusammenfassung der gefangenen Signalprobe bzw. -abtastung bzw. -sample, enthaltend Kennungsmarken- und Fingerabdruckpaare zu einem Serverende sendet, welches die Wiedererkennung ausführt.
DE60120417T 2000-07-31 2001-07-26 Verfahren zur suche in einer audiodatenbank Expired - Lifetime DE60120417T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US22202300P 2000-07-31 2000-07-31
US222023P 2000-07-31
US09/839,476 US6990453B2 (en) 2000-07-31 2001-04-20 System and methods for recognizing sound and music signals in high noise and distortion
US839476 2001-04-20
PCT/EP2001/008709 WO2002011123A2 (en) 2000-07-31 2001-07-26 Method for search in an audio database

Publications (2)

Publication Number Publication Date
DE60120417D1 DE60120417D1 (de) 2006-07-20
DE60120417T2 true DE60120417T2 (de) 2007-01-11

Family

ID=26916372

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60120417T Expired - Lifetime DE60120417T2 (de) 2000-07-31 2001-07-26 Verfahren zur suche in einer audiodatenbank

Country Status (14)

Country Link
US (9) US6990453B2 (de)
EP (1) EP1307833B1 (de)
JP (1) JP4945877B2 (de)
KR (1) KR100776495B1 (de)
CN (1) CN1592906B (de)
AT (1) ATE329319T1 (de)
AU (1) AU2001289766A1 (de)
BR (1) BRPI0112901B1 (de)
DE (1) DE60120417T2 (de)
DK (1) DK1307833T3 (de)
ES (1) ES2266254T3 (de)
HK (1) HK1051248A1 (de)
PT (1) PT1307833E (de)
WO (1) WO2002011123A2 (de)

Families Citing this family (762)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449377B1 (en) * 1995-05-08 2002-09-10 Digimarc Corporation Methods and systems for watermark processing of line art images
US6560349B1 (en) * 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US7362775B1 (en) * 1996-07-02 2008-04-22 Wistaria Trading, Inc. Exchange mechanisms for digital information packages with bandwidth securitization, multichannel digital watermarks, and key management
US6760463B2 (en) * 1995-05-08 2004-07-06 Digimarc Corporation Watermarking methods and media
US7805500B2 (en) * 1995-05-08 2010-09-28 Digimarc Corporation Network linking methods and apparatus
US7224819B2 (en) 1995-05-08 2007-05-29 Digimarc Corporation Integrating digital watermarks in multimedia content
US5613004A (en) * 1995-06-07 1997-03-18 The Dice Company Steganographic method and device
US6965682B1 (en) 1999-05-19 2005-11-15 Digimarc Corp Data transmission by watermark proxy
US7289643B2 (en) 2000-12-21 2007-10-30 Digimarc Corporation Method, apparatus and programs for generating and utilizing content signatures
US6829368B2 (en) * 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US6411725B1 (en) * 1995-07-27 2002-06-25 Digimarc Corporation Watermark enabled video objects
US7562392B1 (en) * 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US7711564B2 (en) * 1995-07-27 2010-05-04 Digimarc Corporation Connected audio and other media objects
US6505160B1 (en) * 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6205249B1 (en) 1998-04-02 2001-03-20 Scott A. Moskowitz Multiple transform utilization and applications for secure digital watermarking
US7664263B2 (en) 1998-03-24 2010-02-16 Moskowitz Scott A Method for combining transfer functions with predetermined key creation
US7457962B2 (en) * 1996-07-02 2008-11-25 Wistaria Trading, Inc Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7095874B2 (en) 1996-07-02 2006-08-22 Wistaria Trading, Inc. Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7177429B2 (en) 2000-12-07 2007-02-13 Blue Spike, Inc. System and methods for permitting open access to data objects and for securing data within the data objects
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US7159116B2 (en) 1999-12-07 2007-01-02 Blue Spike, Inc. Systems, methods and devices for trusted transactions
US5889868A (en) 1996-07-02 1999-03-30 The Dice Company Optimization methods for the insertion, protection, and detection of digital watermarks in digitized data
US7730317B2 (en) * 1996-12-20 2010-06-01 Wistaria Trading, Inc. Linear predictive coding implementation of digital watermarks
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
US7664264B2 (en) 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
GB9909362D0 (en) * 1999-04-23 1999-06-16 Pace Micro Tech Plc Memory database system for encrypted progarmme material
US8874244B2 (en) * 1999-05-19 2014-10-28 Digimarc Corporation Methods and systems employing digital content
US7185201B2 (en) 1999-05-19 2007-02-27 Digimarc Corporation Content identifiers triggering corresponding responses
US7302574B2 (en) * 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
US20050038819A1 (en) * 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US7475246B1 (en) 1999-08-04 2009-01-06 Blue Spike, Inc. Secure personal content server
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6671407B1 (en) 1999-10-19 2003-12-30 Microsoft Corporation System and method for hashing digital images
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US20060217828A1 (en) * 2002-10-23 2006-09-28 Hicken Wendell T Music searching system and method
US8121843B2 (en) * 2000-05-02 2012-02-21 Digimarc Corporation Fingerprint methods and systems for media signals
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
BR0107127A (pt) 2000-08-23 2002-07-02 Koninkl Philips Electronics Nv Método para aperfeiçoar a renderização de um item de conteúdo, sistema cliente configurado para aperfeiçoar a renderização de um item de conteúdo, e, sistema servidor configurado para facilitar uma renderização aperfeiçoada de um item de conteúdo
US8010988B2 (en) * 2000-09-14 2011-08-30 Cox Ingemar J Using features extracted from an audio and/or video work to obtain information about the work
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US7127615B2 (en) * 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
JP2002108350A (ja) * 2000-09-28 2002-04-10 Internatl Business Mach Corp <Ibm> 音楽配信のための方法及びシステム
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
US8918812B2 (en) 2000-10-24 2014-12-23 Aol Inc. Method of sizing an embedded media player page
AU2002245191A1 (en) 2000-10-26 2002-07-24 Digimarc Corporation Method and system for internet access
FR2816157A1 (fr) * 2000-10-31 2002-05-03 Thomson Multimedia Sa Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede
US20020103920A1 (en) * 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US20020091761A1 (en) * 2001-01-10 2002-07-11 Lambert James P. Technique of generating a composite media stream
KR100893671B1 (ko) * 2001-02-12 2009-04-20 그레이스노트, 인크. 멀티미디어 콘텐트의 해시들의 생성 및 매칭
WO2003005242A1 (en) * 2001-03-23 2003-01-16 Kent Ridge Digital Labs Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval
EP1490767B1 (de) 2001-04-05 2014-06-11 Audible Magic Corporation Copyright-erkennung und schutzsystem und verfahren
US7248715B2 (en) * 2001-04-06 2007-07-24 Digimarc Corporation Digitally watermarking physical media
DE10117871C1 (de) * 2001-04-10 2002-07-04 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Extrahieren einer Signalkennung, Verfahren und Vorrichtung zum Erzeugen einer Datenbank aus Signalkennungen und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
US7421376B1 (en) * 2001-04-24 2008-09-02 Auditude, Inc. Comparison of data signals using characteristic electronic thumbprints
US6996273B2 (en) 2001-04-24 2006-02-07 Microsoft Corporation Robust recognizer of perceptually similar content
US7020775B2 (en) 2001-04-24 2006-03-28 Microsoft Corporation Derivation and quantization of robust non-local characteristics for blind watermarking
US6975743B2 (en) * 2001-04-24 2005-12-13 Microsoft Corporation Robust and stealthy video watermarking into regions of successive frames
US6973574B2 (en) * 2001-04-24 2005-12-06 Microsoft Corp. Recognizer of audio-content in digital signals
US7356188B2 (en) * 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US7046819B2 (en) * 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
US7962482B2 (en) * 2001-05-16 2011-06-14 Pandora Media, Inc. Methods and systems for utilizing contextual feedback to generate and modify playlists
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
DE60236161D1 (de) * 2001-07-20 2010-06-10 Gracenote Inc Automatische identifizierung von klangaufzeichnungen
KR100961461B1 (ko) * 2001-07-31 2010-06-08 그레이스노트 아이엔씨 기록의 다단계 식별
US6724914B2 (en) * 2001-10-16 2004-04-20 Digimarc Corporation Progressive watermark decoding on a distributed computing platform
US7035867B2 (en) * 2001-11-28 2006-04-25 Aerocast.Com, Inc. Determining redundancies in content object directories
US20050010604A1 (en) 2001-12-05 2005-01-13 Digital Networks North America, Inc. Automatic identification of DVD title using internet technologies and fuzzy matching techniques
US7020304B2 (en) 2002-01-22 2006-03-28 Digimarc Corporation Digital watermarking and fingerprinting including synchronization, layering, version control, and compressed embedding
WO2003067466A2 (en) 2002-02-05 2003-08-14 Koninklijke Philips Electronics N.V. Efficient storage of fingerprints
US7330538B2 (en) * 2002-03-28 2008-02-12 Gotvoice, Inc. Closed-loop command and response system for automatic communications between interacting computer systems over an audio communications channel
US7287275B2 (en) 2002-04-17 2007-10-23 Moskowitz Scott A Methods, systems and devices for packet watermarking and efficient provisioning of bandwidth
CA2483042C (en) 2002-04-22 2016-06-14 Nielsen Media Research, Inc. Methods and apparatus to collect audience information associated with a media presentation
DK1504445T3 (da) * 2002-04-25 2008-12-01 Landmark Digital Services Llc Robust og invariant lydmönster-matching
WO2003096337A2 (en) * 2002-05-10 2003-11-20 Koninklijke Philips Electronics N.V. Watermark embedding and retrieval
US7824029B2 (en) * 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
AU2003239385A1 (en) * 2002-05-10 2003-11-11 Richard R. Reisman Method and apparatus for browsing using multiple coordinated device
US7421096B2 (en) * 2004-02-23 2008-09-02 Delefevre Patrick Y Input mechanism for fingerprint-based internet search
US7461392B2 (en) * 2002-07-01 2008-12-02 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
US7006703B2 (en) * 2002-06-28 2006-02-28 Microsoft Corporation Content recognizer via probabilistic mirror distribution
US7095873B2 (en) 2002-06-28 2006-08-22 Microsoft Corporation Watermarking via quantization of statistics of overlapping regions
EP1518409B1 (de) * 2002-07-01 2019-01-09 Microsoft Technology Licensing, LLC System und verfahren zur bereitstellung von benutzerkontrolle über in einen strom eingebettete sich wiederholende objekte
US7949689B2 (en) * 2002-07-18 2011-05-24 Accenture Global Services Limited Media indexing beacon and capture device
DE10232916B4 (de) * 2002-07-19 2008-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
US7239981B2 (en) 2002-07-26 2007-07-03 Arbitron Inc. Systems and methods for gathering audience measurement data
US20030191764A1 (en) * 2002-08-06 2003-10-09 Isaac Richards System and method for acoustic fingerpringting
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
WO2004029831A2 (en) * 2002-09-27 2004-04-08 International Business Machines Corporation System and method for enhancing live speech with information accessed from the world wide web
CN1685703A (zh) * 2002-09-30 2005-10-19 皇家飞利浦电子股份有限公司 “指纹”的提取
US7171561B2 (en) * 2002-10-17 2007-01-30 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for detecting and extracting fileprints
SE524936C2 (sv) * 2002-10-23 2004-10-26 Softhouse Nordic Ab Mobil likhetsbedömning av objekt
CN1708758A (zh) * 2002-11-01 2005-12-14 皇家飞利浦电子股份有限公司 改进的音频数据指纹搜索
JP2006505821A (ja) * 2002-11-12 2006-02-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 指紋情報付マルチメディアコンテンツ
JP4172259B2 (ja) * 2002-11-26 2008-10-29 ソニー株式会社 情報処理装置および方法、並びにコンピュータ・プログラム
US6958103B2 (en) * 2002-12-23 2005-10-25 Kimberly-Clark Worldwide, Inc. Entangled fabrics containing staple fibers
EP1586045A1 (de) 2002-12-27 2005-10-19 Nielsen Media Research, Inc. Verfahren und vorrichtung zur transkodierung von metadaten
US8201194B2 (en) * 2003-01-06 2012-06-12 Wijnands Rudi J M Real-time recording agent for streaming data from an internet
US7593915B2 (en) * 2003-01-07 2009-09-22 Accenture Global Services Gmbh Customized multi-media services
EP2456104A1 (de) 2003-02-10 2012-05-23 Nielsen Media Research, Inc. Verfahren und Vorrichtung zum adaptiven Sammeln von Daten zur Publikummessung
US7606790B2 (en) 2003-03-03 2009-10-20 Digimarc Corporation Integrating and enhancing searching of media content and biometric databases
WO2004084467A2 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US20060235864A1 (en) * 2005-04-14 2006-10-19 Apple Computer, Inc. Audio sampling and acquisition system
US20040243852A1 (en) * 2003-05-28 2004-12-02 Rosenstein Adam H. Method, system and software for state signing of internet resources
US20040237759A1 (en) * 2003-05-30 2004-12-02 Bill David S. Personalizing content
WO2005113099A2 (en) 2003-05-30 2005-12-01 America Online, Inc. Personalizing content
JP2007528144A (ja) 2003-07-11 2007-10-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディア信号おいてトリガーマーカとして機能するフィンガープリントを生成及び検出する方法及び装置
US7454417B2 (en) * 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
WO2005036877A1 (en) 2003-09-12 2005-04-21 Nielsen Media Research, Inc. Digital video signature apparatus and methods for use with video program identification systems
US7505964B2 (en) * 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US7715934B2 (en) * 2003-09-19 2010-05-11 Macrovision Corporation Identification of input files using reference files associated with nodes of a sparse binary tree
JP4328169B2 (ja) * 2003-10-02 2009-09-09 オリンパス株式会社 データ処理装置
US7383174B2 (en) * 2003-10-03 2008-06-03 Paulin Matthew A Method for generating and assigning identifying tags to sound files
WO2005041109A2 (en) * 2003-10-17 2005-05-06 Nielsen Media Research, Inc. Methods and apparatus for identifiying audio/video content using temporal signal characteristics
US7379875B2 (en) * 2003-10-24 2008-05-27 Microsoft Corporation Systems and methods for generating audio thumbnails
US8554681B1 (en) * 2003-11-03 2013-10-08 James W. Wieder Providing “identified” compositions and digital-works
US9053299B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using rating
US7884274B1 (en) 2003-11-03 2011-02-08 Wieder James W Adaptive personalized music and entertainment
US9098681B2 (en) 2003-11-03 2015-08-04 James W. Wieder Adaptive personalized playback or presentation using cumulative time
US11165999B1 (en) 2003-11-03 2021-11-02 Synergyze Technologies Llc Identifying and providing compositions and digital-works
US20150128039A1 (en) 2003-11-03 2015-05-07 James W. Wieder Newness Control of a Personalized Music and/or Entertainment Sequence
US8001612B1 (en) 2003-11-03 2011-08-16 Wieder James W Distributing digital-works and usage-rights to user-devices
US8396800B1 (en) 2003-11-03 2013-03-12 James W. Wieder Adaptive personalized music and entertainment
US9053181B2 (en) 2003-11-03 2015-06-09 James W. Wieder Adaptive personalized playback or presentation using count
US8521725B1 (en) 2003-12-03 2013-08-27 Google Inc. Systems and methods for improved searching
US7831832B2 (en) * 2004-01-06 2010-11-09 Microsoft Corporation Digital goods representation based upon matrix invariances
JP4933899B2 (ja) 2004-02-19 2012-05-16 ランドマーク、ディジタル、サーヴィセズ、エルエルシー 放送源の識別のための方法および装置
KR20060135794A (ko) 2004-02-26 2006-12-29 미디어 가이드, 인코포레이티드 방송 오디오 또는 비디오 프로그래밍 신호의 자동 검출 및식별 방법, 및 장치
US7877810B2 (en) * 2004-03-02 2011-01-25 Rovi Solutions Corporation System, method and client user interface for a copy protection service
US7925657B1 (en) 2004-03-17 2011-04-12 Google Inc. Methods and systems for adjusting a scoring measure based on query breadth
KR100967125B1 (ko) * 2004-03-26 2010-07-05 노키아 코포레이션 네트워크 휴대용 장치에서의 특징 추출
US20050216512A1 (en) * 2004-03-26 2005-09-29 Rahav Dor Method of accessing a work of art, a product, or other tangible or intangible objects without knowing the title or name thereof using fractional sampling of the work of art or object
US7221902B2 (en) * 2004-04-07 2007-05-22 Nokia Corporation Mobile station and interface adapted for feature extraction from an input media sample
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
WO2005101243A1 (en) * 2004-04-13 2005-10-27 Matsushita Electric Industrial Co. Ltd. Method and apparatus for identifying audio such as music
JP2007533274A (ja) 2004-04-19 2007-11-15 ランドマーク、ディジタル、サーヴィセズ、エルエルシー コンテントのサンプリングおよび識別のための方法およびシステム
KR20070004891A (ko) * 2004-04-29 2007-01-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호의 분류를 위한 방법 빛 시스템
US7770014B2 (en) * 2004-04-30 2010-08-03 Microsoft Corporation Randomized signal transforms and their applications
DE102004022659B3 (de) * 2004-05-07 2005-10-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Charakterisieren eines Tonsignals
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
US7273978B2 (en) 2004-05-07 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for characterizing a tone signal
US20050251455A1 (en) * 2004-05-10 2005-11-10 Boesen Peter V Method and system for purchasing access to a recording
DE102004023436B4 (de) * 2004-05-10 2006-06-14 M2Any Gmbh Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US20150051967A1 (en) 2004-05-27 2015-02-19 Anonymous Media Research, Llc Media usage monitoring and measurment system and method
US20050267750A1 (en) * 2004-05-27 2005-12-01 Anonymous Media, Llc Media usage monitoring and measurement system and method
CN100485399C (zh) 2004-06-24 2009-05-06 兰德马克数字服务有限责任公司 表征两个媒体段的重叠的方法
DE602005018776D1 (de) 2004-07-01 2010-02-25 Nippon Telegraph & Telephone System für detektionssektion mit einem bestimmten akustischen signal, verfahren und programm dafür
US20090138108A1 (en) * 2004-07-06 2009-05-28 Kok Keong Teo Method and System for Identification of Audio Input
EP1768102B1 (de) 2004-07-09 2011-03-02 Nippon Telegraph And Telephone Corporation System zur detektion eines tonsignals und system zur detektion eines bildsignals
US8694049B2 (en) * 2004-08-06 2014-04-08 Digimarc Corporation Fast signal detection and distributed computing in portable computing devices
US20060212149A1 (en) * 2004-08-13 2006-09-21 Hicken Wendell T Distributed system and method for intelligent data analysis
US7623823B2 (en) 2004-08-31 2009-11-24 Integrated Media Measurement, Inc. Detecting and measuring exposure to media content items
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
US7826708B2 (en) * 2004-11-02 2010-11-02 Microsoft Corporation System and method for automatically customizing a buffered media stream
US7574451B2 (en) * 2004-11-02 2009-08-11 Microsoft Corporation System and method for speeding up database lookups for multiple synchronized data streams
DE602004024318D1 (de) * 2004-12-06 2010-01-07 Sony Deutschland Gmbh Verfahren zur Erstellung einer Audiosignatur
US20060135098A1 (en) * 2004-12-17 2006-06-22 Yarosz Matthew J Method and apparatus for processing digital broadcast audio in the AM/FM bands
US7567899B2 (en) * 2004-12-30 2009-07-28 All Media Guide, Llc Methods and apparatus for audio recognition
US7921369B2 (en) 2004-12-30 2011-04-05 Aol Inc. Mood-based organization and display of instant messenger buddy lists
US7451078B2 (en) * 2004-12-30 2008-11-11 All Media Guide, Llc Methods and apparatus for identifying media objects
US7634405B2 (en) * 2005-01-24 2009-12-15 Microsoft Corporation Palette-based classifying and synthesizing of auditory information
WO2006086556A2 (en) * 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
US20060224798A1 (en) * 2005-02-22 2006-10-05 Klein Mark D Personal music preference determination based on listening behavior
US7818350B2 (en) 2005-02-28 2010-10-19 Yahoo! Inc. System and method for creating a collaborative playlist
WO2006096664A2 (en) * 2005-03-04 2006-09-14 Musicip Corporation Scan shuffle for building playlists
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
WO2006112843A1 (en) * 2005-04-19 2006-10-26 Sean Ward Distributed acoustic fingerprint based recognition
US20090193033A1 (en) * 2005-05-19 2009-07-30 Zulfikar Amin Ramzan Method and apparatus for communication efficient private information retrieval and oblivious transfer
US20070016918A1 (en) * 2005-05-20 2007-01-18 Alcorn Allan E Detecting and tracking advertisements
US7613736B2 (en) * 2005-05-23 2009-11-03 Resonance Media Services, Inc. Sharing music essence in a recommendation system
KR20060133410A (ko) * 2005-06-20 2006-12-26 엘지전자 주식회사 복합 미디어 장치에서 파일 검색 및 파일 데이터베이스관리 방법
US20070028262A1 (en) * 2005-07-29 2007-02-01 Zermatt Systems, Inc. Virtual discovery of content available to a device
US20070033229A1 (en) * 2005-08-03 2007-02-08 Ethan Fassett System and method for indexing structured and unstructured audio content
US20070106405A1 (en) * 2005-08-19 2007-05-10 Gracenote, Inc. Method and system to provide reference data for identification of digital content
US8938217B2 (en) * 2005-08-22 2015-01-20 Apple Inc. Communicating and storing information associated with media broadcasts
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
CN100367279C (zh) * 2005-09-08 2008-02-06 上海交通大学 数字音乐旋律的跨越式高速匹配装置
US7809943B2 (en) * 2005-09-27 2010-10-05 Rovi Solutions Corporation Method and system for establishing trust in a peer-to-peer network
US20070078708A1 (en) * 2005-09-30 2007-04-05 Hua Yu Using speech recognition to determine advertisements relevant to audio content and/or audio content relevant to advertisements
US20070076869A1 (en) * 2005-10-03 2007-04-05 Microsoft Corporation Digital goods representation based upon matrix invariants using non-negative matrix factorizations
RU2008118509A (ru) * 2005-10-13 2009-11-20 Конинклейке Филипс Электроникс Н.В. (Nl) Система удаленного информированного обнаружения водяных знаков
US9697230B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US9697231B2 (en) 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for providing virtual media channels based on media search
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
US7801910B2 (en) 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
KR100803206B1 (ko) * 2005-11-11 2008-02-14 삼성전자주식회사 오디오 지문 생성과 오디오 데이터 검색 장치 및 방법
US7844774B2 (en) * 2005-11-16 2010-11-30 Sun Microsystems, Inc. Extensible fingerprinting functions and content addressed storage system using the same
US20070294705A1 (en) 2005-12-20 2007-12-20 Gopalakrishnan Vijoy K Methods and systems for conducting research operations
US8086722B2 (en) * 2005-12-21 2011-12-27 Rovi Solutions Corporation Techniques for measuring peer-to-peer (P2P) networks
EP2312470B1 (de) 2005-12-21 2018-09-12 Digimarc Corporation Regelgesteuertes pan-id-metadaten-routingsystem und -netzwerk
US20070162761A1 (en) * 2005-12-23 2007-07-12 Davis Bruce L Methods and Systems to Help Detect Identity Fraud
US8254308B1 (en) * 2006-01-05 2012-08-28 Sprint Spectrum L.P. Method and system for acoustically triggering electronic coupon retrieval
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
US8108452B2 (en) * 2006-01-12 2012-01-31 Yahoo! Inc. Keyword based audio comparison
FR2897217A1 (fr) * 2006-02-03 2007-08-10 France Telecom Determination d'identificateur de signal
CN101379549B (zh) * 2006-02-08 2011-11-23 日本电气株式会社 声音合成装置、声音合成方法
KR100774585B1 (ko) * 2006-02-10 2007-11-09 삼성전자주식회사 변조 스펙트럼을 이용한 음악 정보 검색 방법 및 그 장치
US7653342B2 (en) * 2006-02-16 2010-01-26 Dell Products L.P. Providing content to a device when lost a connection to the broadcasting station
US20070196802A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Visually Enhanced Personal Music Broadcast
KR100788682B1 (ko) * 2006-03-03 2007-12-26 삼성전자주식회사 음원 컨텐츠 전송 서비스 제공 방법 및 장치
US8626707B2 (en) * 2006-03-15 2014-01-07 Beats Music, Llc Automatic meta-data sharing of existing media to create streamable collections
US8285595B2 (en) 2006-03-29 2012-10-09 Napo Enterprises, Llc System and method for refining media recommendations
US7765192B2 (en) 2006-03-29 2010-07-27 Abo Enterprises, Llc System and method for archiving a media collection
MX2007015979A (es) * 2006-03-31 2009-04-07 Nielsen Media Res Inc Metodos, sistemas y aparato para medicion de multiples fines.
CA3099528C (en) 2006-03-31 2023-07-25 The Nielsen Company (Us), Llc Methods, systems, and apparatus for multi-purpose metering
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US20070244985A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews of a user's media collection to an associated portable media player
US7444388B1 (en) 2006-04-13 2008-10-28 Concert Technology Corporation System and method for obtaining media content for a portable media player
US8316081B2 (en) * 2006-04-13 2012-11-20 Domingo Enterprises, Llc Portable media player enabled to obtain previews of a user's media collection
US20070245378A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation User system providing previews to an associated portable media player
US20070245377A1 (en) * 2006-04-13 2007-10-18 Concert Technology Corporation Central system providing previews to a portable media player
US7603434B2 (en) * 2006-04-13 2009-10-13 Domingo Enterprises, Llc Central system providing previews of a user's media collection to a portable media player
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US7774385B1 (en) 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US7840540B2 (en) * 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
US9020964B1 (en) * 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
KR100684457B1 (ko) * 2006-05-04 2007-02-22 주식회사 모빌리언스 이동통신단말의 외부 음원 인식을 이용하여 사용자에게고유정보를 제공하는 고유정보 제공 시스템, 고유정보 제공방법 및 그 이동통신단말
US8903843B2 (en) 2006-06-21 2014-12-02 Napo Enterprises, Llc Historical media recommendation service
WO2008006241A1 (en) * 2006-07-03 2008-01-17 Intel Corporation Method and apparatus for fast audio search
US8327266B2 (en) 2006-07-11 2012-12-04 Napo Enterprises, Llc Graphical user interface system for allowing management of a media item playlist based on a preference scoring system
US8805831B2 (en) 2006-07-11 2014-08-12 Napo Enterprises, Llc Scoring and replaying media items
US7680959B2 (en) 2006-07-11 2010-03-16 Napo Enterprises, Llc P2P network for providing real time media recommendations
US9003056B2 (en) 2006-07-11 2015-04-07 Napo Enterprises, Llc Maintaining a minimum level of real time media recommendations in the absence of online friends
US8059646B2 (en) 2006-07-11 2011-11-15 Napo Enterprises, Llc System and method for identifying music content in a P2P real time recommendation network
US7970922B2 (en) 2006-07-11 2011-06-28 Napo Enterprises, Llc P2P real time media recommendations
US9633356B2 (en) * 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US8090606B2 (en) 2006-08-08 2012-01-03 Napo Enterprises, Llc Embedded media recommendations
US8620699B2 (en) * 2006-08-08 2013-12-31 Napo Enterprises, Llc Heavy influencer media recommendations
JP4961300B2 (ja) * 2006-08-14 2012-06-27 三洋電機株式会社 楽曲一致判定装置、楽曲記録装置、楽曲一致判定方法、楽曲記録方法、楽曲一致判定プログラム、及び楽曲記録プログラム
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US20080051029A1 (en) * 2006-08-25 2008-02-28 Bradley James Witteman Phone-based broadcast audio identification
US8738749B2 (en) 2006-08-29 2014-05-27 Digimarc Corporation Content monitoring and host compliance evaluation
US8707459B2 (en) 2007-01-19 2014-04-22 Digimarc Corporation Determination of originality of content
US9654447B2 (en) 2006-08-29 2017-05-16 Digimarc Corporation Customized handling of copied content based on owner-specified similarity thresholds
US8726195B2 (en) * 2006-09-05 2014-05-13 Aol Inc. Enabling an IM user to navigate a virtual world
ES2433966T3 (es) 2006-10-03 2013-12-13 Shazam Entertainment, Ltd. Método para caudal alto de identificación de contenido de radiodifusión distribuido
US9135951B2 (en) * 2006-10-10 2015-09-15 Qualcomm Incorporated System and method for dynamic audio buffer management
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8874655B2 (en) * 2006-12-13 2014-10-28 Napo Enterprises, Llc Matching participants in a P2P recommendation network loosely coupled to a subscription service
US9179200B2 (en) 2007-03-14 2015-11-03 Digimarc Corporation Method and system for determining content treatment
US10242415B2 (en) 2006-12-20 2019-03-26 Digimarc Corporation Method and system for determining content treatment
US20090070185A1 (en) * 2007-01-17 2009-03-12 Concert Technology Corporation System and method for recommending a digital media subscription service
WO2008097780A2 (en) * 2007-02-02 2008-08-14 Websense, Inc. System and method for adding context to prevent data leakage over a computer network
US8307092B2 (en) * 2007-02-21 2012-11-06 Napo Enterprises, Llc Method and system for collecting information about a user's media collections from multiple login points
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US7873634B2 (en) * 2007-03-12 2011-01-18 Hitlab Ulc. Method and a system for automatic evaluation of digital files
WO2008110002A1 (en) * 2007-03-12 2008-09-18 Webhitcontest Inc. A method and a system for automatic evaluation of digital files
US7453379B2 (en) * 2007-03-12 2008-11-18 Citrix Systems, Inc. Systems and methods for identifying long matches of data in a compression history
US7532134B2 (en) 2007-03-12 2009-05-12 Citrix Systems, Inc. Systems and methods for sharing compression histories between multiple devices
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US7460038B2 (en) * 2007-03-12 2008-12-02 Citrix Systems, Inc. Systems and methods of clustered sharing of compression histories
US7619545B2 (en) * 2007-03-12 2009-11-17 Citrix Systems, Inc. Systems and methods of using application and protocol specific parsing for compression
US7865585B2 (en) * 2007-03-12 2011-01-04 Citrix Systems, Inc. Systems and methods for providing dynamic ad hoc proxy-cache hierarchies
US8255570B2 (en) * 2007-03-12 2012-08-28 Citrix Systems, Inc. Systems and methods of compression history expiration and synchronization
US7827237B2 (en) * 2007-03-12 2010-11-02 Citrix Systems, Inc. Systems and methods for identifying long matches of data in a compression history
GB0704856D0 (en) * 2007-03-13 2007-04-18 Wesby Philip B System and method for data acquisition and processing
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9224427B2 (en) 2007-04-02 2015-12-29 Napo Enterprises LLC Rating media item recommendations using recommendation paths and/or media item usage
US8112720B2 (en) 2007-04-05 2012-02-07 Napo Enterprises, Llc System and method for automatically and graphically associating programmatically-generated media item recommendations related to a user's socially recommended media items
US10489795B2 (en) * 2007-04-23 2019-11-26 The Nielsen Company (Us), Llc Determining relative effectiveness of media content items
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US20080274687A1 (en) * 2007-05-02 2008-11-06 Roberts Dale T Dynamic mixed media package
US7840177B2 (en) * 2007-05-23 2010-11-23 Landmark Digital Services, Llc Device for monitoring multiple broadcast signals
US8849432B2 (en) * 2007-05-31 2014-09-30 Adobe Systems Incorporated Acoustic pattern identification using spectral characteristics to synchronize audio and/or video
US20080301187A1 (en) * 2007-06-01 2008-12-04 Concert Technology Corporation Enhanced media item playlist comprising presence information
US9037632B2 (en) 2007-06-01 2015-05-19 Napo Enterprises, Llc System and method of generating a media item recommendation message with recommender presence information
US8839141B2 (en) 2007-06-01 2014-09-16 Napo Enterprises, Llc Method and system for visually indicating a replay status of media items on a media device
US9164993B2 (en) 2007-06-01 2015-10-20 Napo Enterprises, Llc System and method for propagating a media item recommendation message comprising recommender presence information
US20090049045A1 (en) 2007-06-01 2009-02-19 Concert Technology Corporation Method and system for sorting media items in a playlist on a media device
US8285776B2 (en) 2007-06-01 2012-10-09 Napo Enterprises, Llc System and method for processing a received media item recommendation message comprising recommender presence information
JP5090523B2 (ja) * 2007-06-06 2012-12-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数の検索の組み合わせを使用して、オーディオ/ビデオの指紋検索精度を改善する方法及び装置
US8171030B2 (en) 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8238669B2 (en) * 2007-08-22 2012-08-07 Google Inc. Detection and classification of matches between time-based media
US7712150B2 (en) * 2007-10-01 2010-05-11 Pardillo Joseph M Protective pad assembly magnetically attachable to garment
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
KR100921867B1 (ko) * 2007-10-17 2009-10-13 광주과학기술원 광대역 오디오 신호 부호화 복호화 장치 및 그 방법
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
US7865522B2 (en) 2007-11-07 2011-01-04 Napo Enterprises, Llc System and method for hyping media recommendations in a media recommendation system
US9060034B2 (en) 2007-11-09 2015-06-16 Napo Enterprises, Llc System and method of filtering recommenders in a media item recommendation system
KR100939215B1 (ko) * 2007-12-17 2010-01-28 한국전자통신연구원 인덱스 데이터베이스 생성 장치 및 검색 장치
US9224150B2 (en) 2007-12-18 2015-12-29 Napo Enterprises, Llc Identifying highly valued recommendations of users in a media recommendation network
US9130686B2 (en) * 2007-12-20 2015-09-08 Apple Inc. Tagging of broadcast content using a portable media device controlled by an accessory
US9734507B2 (en) 2007-12-20 2017-08-15 Napo Enterprise, Llc Method and system for simulating recommendations in a social network for an offline user
US8396951B2 (en) 2007-12-20 2013-03-12 Napo Enterprises, Llc Method and system for populating a content repository for an internet radio service based on a recommendation network
US8060525B2 (en) * 2007-12-21 2011-11-15 Napo Enterprises, Llc Method and system for generating media recommendations in a distributed environment based on tagging play history information with location information
US8117193B2 (en) 2007-12-21 2012-02-14 Lemi Technology, Llc Tunersphere
US8316015B2 (en) 2007-12-21 2012-11-20 Lemi Technology, Llc Tunersphere
JP5345154B2 (ja) * 2008-01-11 2013-11-20 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Ipマルチメディアサブシステムにおけるメッセージハンドリング
US20110019805A1 (en) * 2008-01-14 2011-01-27 Algo Communication Products Ltd. Methods and systems for searching audio records
WO2009107049A2 (en) * 2008-02-26 2009-09-03 Koninklijke Philips Electronics N.V. Content identification method
US10216761B2 (en) * 2008-03-04 2019-02-26 Oath Inc. Generating congruous metadata for multimedia
US9130986B2 (en) * 2008-03-19 2015-09-08 Websense, Inc. Method and system for protection against information stealing software
US8407784B2 (en) * 2008-03-19 2013-03-26 Websense, Inc. Method and system for protection against information stealing software
US9015842B2 (en) * 2008-03-19 2015-04-21 Websense, Inc. Method and system for protection against information stealing software
US8370948B2 (en) * 2008-03-19 2013-02-05 Websense, Inc. System and method for analysis of electronic information dissemination events
US8312022B2 (en) 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8725740B2 (en) * 2008-03-24 2014-05-13 Napo Enterprises, Llc Active playlist having dynamic media item groups
US8484311B2 (en) 2008-04-17 2013-07-09 Eloy Technology, Llc Pruning an aggregate media collection
US9106801B2 (en) 2008-04-25 2015-08-11 Sony Corporation Terminals, servers, and methods that find a media server to replace a sensed broadcast program/movie
DE102008022125A1 (de) 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
US9128945B1 (en) 2008-05-16 2015-09-08 Google Inc. Query augmentation
US8275177B2 (en) * 2008-05-23 2012-09-25 Oracle America, Inc. System and method for media fingerprint indexing
GB2460306B (en) 2008-05-29 2013-02-13 Intrasonics Sarl Data embedding system
JP4327888B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音声音楽判定装置、音声音楽判定方法及び音声音楽判定用プログラム
JP4327886B1 (ja) * 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
US20090305665A1 (en) * 2008-06-04 2009-12-10 Irwin Oliver Kennedy Method of identifying a transmitting device
US20090307084A1 (en) * 2008-06-10 2009-12-10 Integrated Media Measurement, Inc. Measuring Exposure To Media Across Multiple Media Delivery Mechanisms
US20090307061A1 (en) * 2008-06-10 2009-12-10 Integrated Media Measurement, Inc. Measuring Exposure To Media
WO2010006334A1 (en) 2008-07-11 2010-01-14 Videosurf, Inc. Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
US20100023328A1 (en) * 2008-07-28 2010-01-28 Griffin Jr Paul P Audio Recognition System
US20100057545A1 (en) * 2008-08-28 2010-03-04 Daniel Jean System and method for sending sponsored message data in a communications network
CN101673262B (zh) * 2008-09-12 2012-10-10 未序网络科技(上海)有限公司 音频内容的搜索方法
US20100070537A1 (en) * 2008-09-17 2010-03-18 Eloy Technology, Llc System and method for managing a personalized universal catalog of media items
US8983677B2 (en) * 2008-10-01 2015-03-17 Honeywell International Inc. Acoustic fingerprinting of mechanical devices
US20100082180A1 (en) * 2008-10-01 2010-04-01 Honeywell International Inc. Errant vehicle countermeasures
US20170034586A1 (en) * 2008-10-08 2017-02-02 Wakingapp Ltd. System for content matching and triggering for reality-virtuality continuum-based environment and methods thereof
US8880599B2 (en) * 2008-10-15 2014-11-04 Eloy Technology, Llc Collection digest for a media sharing system
US8484227B2 (en) 2008-10-15 2013-07-09 Eloy Technology, Llc Caching and synching process for a media sharing system
US8121830B2 (en) 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
GB2465141B (en) * 2008-10-31 2014-01-22 Media Instr Sa Simulcast resolution in content matching systems
US20100205628A1 (en) 2009-02-12 2010-08-12 Davis Bruce L Media processing methods and arrangements
US10880340B2 (en) 2008-11-26 2020-12-29 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US9961388B2 (en) 2008-11-26 2018-05-01 David Harrison Exposure of public internet protocol addresses in an advertising exchange server to improve relevancy of advertisements
US10334324B2 (en) 2008-11-26 2019-06-25 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10567823B2 (en) 2008-11-26 2020-02-18 Free Stream Media Corp. Relevant advertisement generation based on a user operating a client device communicatively coupled with a networked media device
US10419541B2 (en) 2008-11-26 2019-09-17 Free Stream Media Corp. Remotely control devices over a network without authentication or registration
US10631068B2 (en) 2008-11-26 2020-04-21 Free Stream Media Corp. Content exposure attribution based on renderings of related content across multiple devices
US9154942B2 (en) 2008-11-26 2015-10-06 Free Stream Media Corp. Zero configuration communication between a browser and a networked media device
US9986279B2 (en) 2008-11-26 2018-05-29 Free Stream Media Corp. Discovery, access control, and communication with networked services
US9519772B2 (en) 2008-11-26 2016-12-13 Free Stream Media Corp. Relevancy improvement through targeting of information based on data gathered from a networked device associated with a security sandbox of a client device
US8180891B1 (en) 2008-11-26 2012-05-15 Free Stream Media Corp. Discovery, access control, and communication with networked services from within a security sandbox
US10977693B2 (en) 2008-11-26 2021-04-13 Free Stream Media Corp. Association of content identifier of audio-visual data with additional data through capture infrastructure
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
WO2010065673A2 (en) * 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
US8433431B1 (en) 2008-12-02 2013-04-30 Soundhound, Inc. Displaying text to end users in coordination with audio playback
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8200602B2 (en) 2009-02-02 2012-06-12 Napo Enterprises, Llc System and method for creating thematic listening experiences in a networked peer media recommendation environment
JP2012517188A (ja) * 2009-02-05 2012-07-26 ディジマーク コーポレイション テレビベースの広告と携帯電話向けtvウィジェットの配信
US8312061B2 (en) * 2009-02-10 2012-11-13 Harman International Industries, Incorporated System for broadcast information database
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US9633117B2 (en) 2009-04-27 2017-04-25 Hewlett Packard Enterprise Development Lp System and method for making a recommendation based on user data
CA3094520A1 (en) 2009-05-01 2010-11-04 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
JP5710604B2 (ja) 2009-05-21 2015-04-30 ディジマーク コーポレイション ウォーターマーキングとフィンガープリンティングとの組合せ
WO2010135623A1 (en) * 2009-05-21 2010-11-25 Digimarc Corporation Robust signatures derived from local nonlinear filters
US9130972B2 (en) * 2009-05-26 2015-09-08 Websense, Inc. Systems and methods for efficient detection of fingerprinted data and information
US8805723B2 (en) * 2009-05-27 2014-08-12 Iviu Technologies, Llc Acoustically transmitting a resource identifier in multiple concurrent segments
US8489774B2 (en) 2009-05-27 2013-07-16 Spot411 Technologies, Inc. Synchronized delivery of interactive content
US10116972B2 (en) 2009-05-29 2018-10-30 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US9449090B2 (en) 2009-05-29 2016-09-20 Vizio Inscape Technologies, Llc Systems and methods for addressing a media database using distance associative hashing
US9094715B2 (en) 2009-05-29 2015-07-28 Cognitive Networks, Inc. Systems and methods for multi-broadcast differentiation
US10375451B2 (en) 2009-05-29 2019-08-06 Inscape Data, Inc. Detection of common media segments
US8595781B2 (en) 2009-05-29 2013-11-26 Cognitive Media Networks, Inc. Methods for identifying video segments and displaying contextual targeted content on a connected television
US10949458B2 (en) 2009-05-29 2021-03-16 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
US20100319043A1 (en) * 2009-06-11 2010-12-16 Microsoft Corporation Interactive television architecture
US8635211B2 (en) * 2009-06-11 2014-01-21 Dolby Laboratories Licensing Corporation Trend analysis in content identification based on fingerprinting
US8713068B2 (en) * 2009-06-11 2014-04-29 Yahoo! Inc. Media identification system with fingerprint database balanced according to search loads
US8620967B2 (en) 2009-06-11 2013-12-31 Rovi Technologies Corporation Managing metadata for occurrences of a recording
US8381290B2 (en) * 2009-07-17 2013-02-19 Exelis Inc. Intrusion detection systems and methods
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
JP5440051B2 (ja) * 2009-09-11 2014-03-12 株式会社Jvcケンウッド コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US20110069937A1 (en) * 2009-09-18 2011-03-24 Laura Toerner Apparatus, system and method for identifying advertisements from a broadcast source and providing functionality relating to the same
EP3217403B1 (de) * 2009-09-30 2018-12-19 Rovi Guides, Inc. Systeme und verfahren zur identifizierung von audioinhalten mit einer anwendung für interaktive medienanleitung
US8161071B2 (en) 2009-09-30 2012-04-17 United Video Properties, Inc. Systems and methods for audio asset storage and management
US8677400B2 (en) 2009-09-30 2014-03-18 United Video Properties, Inc. Systems and methods for identifying audio content using an interactive media guidance application
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
US8521779B2 (en) 2009-10-09 2013-08-27 Adelphoi Limited Metadata record generation
US8121618B2 (en) 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US9218530B2 (en) 2010-11-04 2015-12-22 Digimarc Corporation Smartphone-based methods and systems
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US8594392B2 (en) * 2009-11-18 2013-11-26 Yahoo! Inc. Media identification system for efficient matching of media items having common content
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
EP2541963B1 (de) * 2009-12-29 2021-03-17 Inscape Data, Inc. Verfahren zur Identifizierung von Videosegmenten und zur Anzeige eines kontextuell gezielten Inhalts auf einem verbundenen Fernseher
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
US20110173185A1 (en) * 2010-01-13 2011-07-14 Rovi Technologies Corporation Multi-stage lookup for rolling audio recognition
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8731943B2 (en) * 2010-02-05 2014-05-20 Little Wing World LLC Systems, methods and automated technologies for translating words into music and creating music pieces
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US20110238679A1 (en) * 2010-03-24 2011-09-29 Rovi Technologies Corporation Representing text and other types of content by using a frequency domain
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
US8560583B2 (en) 2010-04-01 2013-10-15 Sony Computer Entertainment Inc. Media fingerprinting for social networking
US9264785B2 (en) * 2010-04-01 2016-02-16 Sony Computer Entertainment Inc. Media fingerprinting for content determination and retrieval
WO2011130564A1 (en) * 2010-04-14 2011-10-20 Sven Riethmueller Platform-independent interactivity with media broadcasts
US9275141B2 (en) 2010-05-04 2016-03-01 Shazam Entertainment Ltd. Methods and systems for processing a sample of a media stream
US9026034B2 (en) 2010-05-04 2015-05-05 Project Oda, Inc. Automatic detection of broadcast programming
KR101582436B1 (ko) 2010-05-04 2016-01-04 샤잠 엔터테인먼트 리미티드 미디어의 동기화 방법 및 시스템
US9159338B2 (en) 2010-05-04 2015-10-13 Shazam Entertainment Ltd. Systems and methods of rendering a textual animation
US20120191231A1 (en) * 2010-05-04 2012-07-26 Shazam Entertainment Ltd. Methods and Systems for Identifying Content in Data Stream by a Client Device
US9413477B2 (en) 2010-05-10 2016-08-09 Microsoft Technology Licensing, Llc Screen detector
US9311708B2 (en) 2014-04-23 2016-04-12 Microsoft Technology Licensing, Llc Collaborative alignment of images
US9508011B2 (en) * 2010-05-10 2016-11-29 Videosurf, Inc. Video visual and audio query
US9838753B2 (en) 2013-12-23 2017-12-05 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US10192138B2 (en) 2010-05-27 2019-01-29 Inscape Data, Inc. Systems and methods for reducing data density in large datasets
WO2011154722A1 (en) * 2010-06-09 2011-12-15 Adelphoi Limited System and method for audio media recognition
US20110307786A1 (en) * 2010-06-11 2011-12-15 Brian Shuster Method and apparatus for bookmarking and retrieval of video content
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US20110320944A1 (en) * 2010-06-29 2011-12-29 Nokia Corporation Systems, methods, and apparatuses for generating an integrated user interface
US8730354B2 (en) 2010-07-13 2014-05-20 Sony Computer Entertainment Inc Overlay video content on a mobile device
US9143699B2 (en) 2010-07-13 2015-09-22 Sony Computer Entertainment Inc. Overlay non-video content on a mobile device
US9832441B2 (en) 2010-07-13 2017-11-28 Sony Interactive Entertainment Inc. Supplemental content on a mobile device
US9159165B2 (en) 2010-07-13 2015-10-13 Sony Computer Entertainment Inc. Position-dependent gaming, 3-D controller, and handheld as a remote
US9814977B2 (en) 2010-07-13 2017-11-14 Sony Interactive Entertainment Inc. Supplemental video content on a mobile device
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US9876905B2 (en) 2010-09-29 2018-01-23 Genesys Telecommunications Laboratories, Inc. System for initiating interactive communication in response to audio codes
KR20120034378A (ko) * 2010-10-01 2012-04-12 엔에이치엔(주) 사운드 인식을 통한 광고 정보 제공 시스템 및 방법
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8716584B1 (en) * 2010-11-01 2014-05-06 James W. Wieder Using recognition-segments to find and play a composition containing sound
US8863165B2 (en) * 2010-11-01 2014-10-14 Gracenote, Inc. Method and system for presenting additional content at a media system
US8762852B2 (en) * 2010-11-04 2014-06-24 Digimarc Corporation Smartphone-based methods and systems
US9484046B2 (en) 2010-11-04 2016-11-01 Digimarc Corporation Smartphone-based methods and systems
US8346792B1 (en) 2010-11-09 2013-01-01 Google Inc. Query generation using structural similarity between documents
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
TWI716169B (zh) * 2010-12-03 2021-01-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012078142A1 (en) * 2010-12-07 2012-06-14 Empire Technology Development Llc Audio fingerprint differences for end-to-end quality of experience measurement
US20120158769A1 (en) * 2010-12-15 2012-06-21 Dish Network L.L.C. Music distribution and identification systems and methods
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
WO2012091938A1 (en) 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
WO2012120531A2 (en) 2011-02-02 2012-09-13 Makarand Prabhakar Karanjkar A method for fast and accurate audio content match detection
US9093120B2 (en) 2011-02-10 2015-07-28 Yahoo! Inc. Audio fingerprint extraction by scaling in time and resampling
CN103562909A (zh) * 2011-02-18 2014-02-05 沙扎姆娱乐有限公司 客户端设备识别数据流的内容的方法及系统
US20120224711A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated Method and apparatus for grouping client devices based on context similarity
US8589171B2 (en) 2011-03-17 2013-11-19 Remote Media, Llc System and method for custom marking a media file for file matching
US8688631B2 (en) 2011-03-17 2014-04-01 Alexander Savenok System and method for media file synchronization
US8478719B2 (en) 2011-03-17 2013-07-02 Remote Media LLC System and method for media file synchronization
US9380356B2 (en) 2011-04-12 2016-06-28 The Nielsen Company (Us), Llc Methods and apparatus to generate a tag for media content
US8937537B2 (en) 2011-04-29 2015-01-20 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Method and system for utilizing spread spectrum techniques for in car applications
US8612390B2 (en) * 2011-05-02 2013-12-17 Microsoft Corporation Lightweight caching of transaction log for sequential access
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US8996557B2 (en) * 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
WO2012089288A1 (en) 2011-06-06 2012-07-05 Bridge Mediatech, S.L. Method and system for robust audio hashing
CN103797482A (zh) 2011-06-08 2014-05-14 沙扎姆娱乐有限公司 进行接收到的数据的比较并基于比较提供后续服务的方法和系统
CA2837725C (en) 2011-06-10 2017-07-11 Shazam Entertainment Ltd. Methods and systems for identifying content in a data stream
US9209978B2 (en) 2012-05-15 2015-12-08 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9515904B2 (en) 2011-06-21 2016-12-06 The Nielsen Company (Us), Llc Monitoring streaming media content
US9953039B2 (en) * 2011-07-19 2018-04-24 Disney Enterprises, Inc. Method and system for providing a compact graphical user interface for flexible filtering of data
US8564684B2 (en) * 2011-08-17 2013-10-22 Digimarc Corporation Emotional illumination, and related arrangements
US8639178B2 (en) 2011-08-30 2014-01-28 Clear Channel Management Sevices, Inc. Broadcast source identification based on matching broadcast signal fingerprints
US9461759B2 (en) 2011-08-30 2016-10-04 Iheartmedia Management Services, Inc. Identification of changed broadcast media items
US9374183B2 (en) 2011-08-30 2016-06-21 Iheartmedia Management Services, Inc. Broadcast source identification based on matching via bit count
US9049496B2 (en) * 2011-09-01 2015-06-02 Gracenote, Inc. Media source identification
US8498627B2 (en) 2011-09-15 2013-07-30 Digimarc Corporation Intuitive computing methods and systems
US20130111514A1 (en) * 2011-09-16 2013-05-02 Umami Co. Second screen interactive platform
US9113202B1 (en) * 2011-09-21 2015-08-18 Google Inc. Inverted client-side fingerprinting and matching
US9460465B2 (en) 2011-09-21 2016-10-04 Genesys Telecommunications Laboratories, Inc. Graphical menu builder for encoding applications in an image
CN103918247B (zh) 2011-09-23 2016-08-24 数字标记公司 基于背景环境的智能手机传感器逻辑
CA2849974C (en) * 2011-09-26 2021-04-13 Sirius Xm Radio Inc. System and method for increasing transmission bandwidth efficiency ("ebt2")
US8433577B2 (en) * 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US9384272B2 (en) 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
US9402099B2 (en) * 2011-10-14 2016-07-26 Digimarc Corporation Arrangements employing content identification and/or distribution identification data
US9223893B2 (en) 2011-10-14 2015-12-29 Digimarc Corporation Updating social graph data using physical objects identified from images captured by smartphone
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
WO2013077983A1 (en) 2011-11-01 2013-05-30 Lemi Technology, Llc Adaptive media recommendation systems, methods, and computer readable media
US8886543B1 (en) * 2011-11-15 2014-11-11 Google Inc. Frequency ratio fingerprint characterization for audio matching
CN102508916B (zh) * 2011-11-21 2013-08-14 电子科技大学 一种海量数据的文件指纹分析方法
US9286942B1 (en) * 2011-11-28 2016-03-15 Codentity, Llc Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions
US9696336B2 (en) 2011-11-30 2017-07-04 The Nielsen Company (Us), Llc Multiple meter detection and processing using motion data
US8492633B2 (en) 2011-12-02 2013-07-23 The Echo Nest Corporation Musical fingerprinting
US8586847B2 (en) * 2011-12-02 2013-11-19 The Echo Nest Corporation Musical fingerprinting based on onset intervals
EP2600545A1 (de) * 2011-12-02 2013-06-05 Waterford Institute Of Technology Untersuchung Daten Messsystem und Verfahren
JP2013117688A (ja) * 2011-12-05 2013-06-13 Sony Corp 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム
DE102011087843B4 (de) * 2011-12-06 2013-07-11 Continental Automotive Gmbh Verfahren und System zur Auswahl mindestens eines Datensatzes aus einer relationalen Datenbank
US9116928B1 (en) * 2011-12-09 2015-08-25 Google Inc. Identifying features for media file comparison
CN103999150B (zh) * 2011-12-12 2016-10-19 杜比实验室特许公司 媒体数据中的低复杂度重复检测
US8538333B2 (en) 2011-12-16 2013-09-17 Arbitron Inc. Media exposure linking utilizing bluetooth signal characteristics
US8977194B2 (en) 2011-12-16 2015-03-10 The Nielsen Company (Us), Llc Media exposure and verification utilizing inductive coupling
US8892572B2 (en) 2011-12-30 2014-11-18 Cellco Partnership Video search system and method of use
US10078690B2 (en) * 2011-12-31 2018-09-18 Thomson Licensing Dtv Method and device for presenting content
US20130178966A1 (en) * 2012-01-09 2013-07-11 Function(x), Inc. Method and System for Identifying a Media Program From an Audio Signal Associated With the Media Program
US9043821B2 (en) 2012-02-07 2015-05-26 Turner Broadcasting System, Inc. Method and system for linking content on a connected television screen with a browser
US9384734B1 (en) * 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9519909B2 (en) 2012-03-01 2016-12-13 The Nielsen Company (Us), Llc Methods and apparatus to identify users of handheld computing devices
US9684715B1 (en) * 2012-03-08 2017-06-20 Google Inc. Audio identification using ordinal transformation
US9292894B2 (en) 2012-03-14 2016-03-22 Digimarc Corporation Content recognition and synchronization using local caching
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
US8768003B2 (en) 2012-03-26 2014-07-01 The Nielsen Company (Us), Llc Media monitoring using multiple types of signatures
US8681950B2 (en) 2012-03-28 2014-03-25 Interactive Intelligence, Inc. System and method for fingerprinting datasets
US9202472B1 (en) * 2012-03-29 2015-12-01 Google Inc. Magnitude ratio descriptors for pitch-resistant audio matching
CN102663090B (zh) * 2012-04-10 2013-11-06 华为技术有限公司 元数据查询方法和装置
US8473975B1 (en) 2012-04-16 2013-06-25 The Nielsen Company (Us), Llc Methods and apparatus to detect user attentiveness to handheld computing devices
US9052986B1 (en) * 2012-04-18 2015-06-09 Google Inc. Pitch shift resistant audio matching
US8953811B1 (en) * 2012-04-18 2015-02-10 Google Inc. Full digest of an audio file for identifying duplicates
WO2014020449A2 (en) * 2012-05-10 2014-02-06 Magiktunes Limited Identifying audio stream content
US9418669B2 (en) * 2012-05-13 2016-08-16 Harry E. Emerson, III Discovery of music artist and title for syndicated content played by radio stations
US8886635B2 (en) 2012-05-23 2014-11-11 Enswers Co., Ltd. Apparatus and method for recognizing content using audio signal
KR101315970B1 (ko) * 2012-05-23 2013-10-08 (주)엔써즈 오디오 신호를 이용한 콘텐츠 인식 장치 및 방법
US9235867B2 (en) * 2012-06-04 2016-01-12 Microsoft Technology Licensing, Llc Concurrent media delivery
US9628829B2 (en) 2012-06-26 2017-04-18 Google Technology Holdings LLC Identifying media on a mobile device
US9118951B2 (en) 2012-06-26 2015-08-25 Arris Technology, Inc. Time-synchronizing a parallel feed of secondary content with primary media content
US9213703B1 (en) 2012-06-26 2015-12-15 Google Inc. Pitch shift and time stretch resistant audio matching
KR102040199B1 (ko) 2012-07-11 2019-11-05 한국전자통신연구원 오디오 품질 측정 장치 및 그 방법
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US20140041054A1 (en) * 2012-08-01 2014-02-06 Microsoft Corporation Attestation of possession of media content items using fingerprints
US9282366B2 (en) 2012-08-13 2016-03-08 The Nielsen Company (Us), Llc Methods and apparatus to communicate audience measurement information
CN103593356A (zh) * 2012-08-16 2014-02-19 丁瑞彭 基于多媒体信息指纹技术的信息搜索方法、系统和应用
GB201214842D0 (en) * 2012-08-21 2012-10-03 Omnifone Ltd Content tracker
US20140074466A1 (en) * 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9549253B2 (en) 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US9554203B1 (en) * 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
JP2014067292A (ja) * 2012-09-26 2014-04-17 Toshiba Corp 情報処理装置及び情報処理方法
US20160210957A1 (en) 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US9460204B2 (en) * 2012-10-19 2016-10-04 Sony Corporation Apparatus and method for scene change detection-based trigger for audio fingerprinting analysis
US9992729B2 (en) 2012-10-22 2018-06-05 The Nielsen Company (Us), Llc Systems and methods for wirelessly modifying detection characteristics of portable devices
US9064318B2 (en) 2012-10-25 2015-06-23 Adobe Systems Incorporated Image matting and alpha value techniques
US8735708B1 (en) 2012-10-28 2014-05-27 Google Inc. System and method for synchronizing tag history
EP2731030A1 (de) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Musikinformationssuchverfahren und Vorrichtung dafür
US10638221B2 (en) 2012-11-13 2020-04-28 Adobe Inc. Time interval sound alignment
US9355649B2 (en) * 2012-11-13 2016-05-31 Adobe Systems Incorporated Sound alignment using timing information
US9201580B2 (en) 2012-11-13 2015-12-01 Adobe Systems Incorporated Sound alignment user interface
US9027048B2 (en) * 2012-11-14 2015-05-05 Bank Of America Corporation Automatic deal or promotion offering based on audio cues
US9076205B2 (en) 2012-11-19 2015-07-07 Adobe Systems Incorporated Edge direction and curve based image de-blurring
US10249321B2 (en) 2012-11-20 2019-04-02 Adobe Inc. Sound rate modification
US10366419B2 (en) 2012-11-27 2019-07-30 Roland Storti Enhanced digital media platform with user control of application data thereon
US10339936B2 (en) 2012-11-27 2019-07-02 Roland Storti Method, device and system of encoding a digital interactive response action in an analog broadcasting message
US9106953B2 (en) 2012-11-28 2015-08-11 The Nielsen Company (Us), Llc Media monitoring based on predictive signature caching
US9451304B2 (en) 2012-11-29 2016-09-20 Adobe Systems Incorporated Sound feature priority alignment
US10455219B2 (en) 2012-11-30 2019-10-22 Adobe Inc. Stereo correspondence and depth sensors
US9241259B2 (en) 2012-11-30 2016-01-19 Websense, Inc. Method and apparatus for managing the transfer of sensitive information to mobile devices
US9135710B2 (en) 2012-11-30 2015-09-15 Adobe Systems Incorporated Depth map stereo correspondence techniques
CN104520719B (zh) 2012-11-30 2017-12-08 尼尔森(美国)有限公司 使用运动数据的多计量检测和处理
US9912713B1 (en) 2012-12-17 2018-03-06 MiMedia LLC Systems and methods for providing dynamically updated image sets for applications
US9208547B2 (en) 2012-12-19 2015-12-08 Adobe Systems Incorporated Stereo correspondence smoothness tool
US10249052B2 (en) 2012-12-19 2019-04-02 Adobe Systems Incorporated Stereo correspondence model fitting
US9159327B1 (en) 2012-12-20 2015-10-13 Google Inc. System and method for adding pitch shift resistance to an audio fingerprint
US9214026B2 (en) 2012-12-20 2015-12-15 Adobe Systems Incorporated Belief propagation and affinity measures
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9183849B2 (en) 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation
US9167276B2 (en) 2012-12-28 2015-10-20 Turner Broadcasting System, Inc. Method and system for providing and handling product and service discounts, and location based services (LBS) in an automatic content recognition based system
US9529907B2 (en) * 2012-12-31 2016-12-27 Google Inc. Hold back and real time ranking of results in a streaming matching system
CN103970793B (zh) * 2013-02-04 2020-03-03 腾讯科技(深圳)有限公司 信息查询方法、客户端及服务器
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9706252B2 (en) 2013-02-04 2017-07-11 Universal Electronics Inc. System and method for user monitoring and intent determination
US9317872B2 (en) 2013-02-06 2016-04-19 Muzak Llc Encoding and decoding an audio watermark using key sequences comprising of more than two frequency components
US9313544B2 (en) 2013-02-14 2016-04-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9008490B1 (en) 2013-02-25 2015-04-14 Google Inc. Melody recognition systems
US9223297B2 (en) 2013-02-28 2015-12-29 The Nielsen Company (Us), Llc Systems and methods for identifying a user of an electronic device
US9344759B2 (en) * 2013-03-05 2016-05-17 Google Inc. Associating audio tracks of an album with video content
US9275625B2 (en) * 2013-03-06 2016-03-01 Qualcomm Incorporated Content based noise suppression
US9307337B2 (en) 2013-03-11 2016-04-05 Arris Enterprises, Inc. Systems and methods for interactive broadcast content
US9301070B2 (en) 2013-03-11 2016-03-29 Arris Enterprises, Inc. Signature matching of corrupted audio signal
US9451048B2 (en) 2013-03-12 2016-09-20 Shazam Investments Ltd. Methods and systems for identifying information of a broadcast station and information of broadcasted content
US9298758B1 (en) 2013-03-13 2016-03-29 MiMedia, Inc. Systems and methods providing media-to-media connection
US9465521B1 (en) 2013-03-13 2016-10-11 MiMedia, Inc. Event based media interface
US9153239B1 (en) * 2013-03-14 2015-10-06 Google Inc. Differentiating between near identical versions of a song
US9384273B1 (en) * 2013-03-14 2016-07-05 Google Inc. Compressed patch features for audio fingerprinting
CA2906199C (en) * 2013-03-15 2021-08-24 Cognitive Media Networks, Inc. Systems and methods for addressing a media database using distance associative hashing
US9773058B2 (en) 2013-03-15 2017-09-26 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US10257301B1 (en) 2013-03-15 2019-04-09 MiMedia, Inc. Systems and methods providing a drive interface for content delivery
US9183232B1 (en) 2013-03-15 2015-11-10 MiMedia, Inc. Systems and methods for organizing content using content organization rules and robust content information
US8990638B1 (en) * 2013-03-15 2015-03-24 Digimarc Corporation Self-stabilizing network nodes in mobile discovery system
US20140278845A1 (en) 2013-03-15 2014-09-18 Shazam Investments Limited Methods and Systems for Identifying Target Media Content and Determining Supplemental Information about the Target Media Content
US9390170B2 (en) 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings
US9223458B1 (en) 2013-03-21 2015-12-29 Amazon Technologies, Inc. Techniques for transitioning between playback of media files
US9269022B2 (en) 2013-04-11 2016-02-23 Digimarc Corporation Methods for object recognition and related arrangements
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US9305038B2 (en) 2013-04-19 2016-04-05 International Business Machines Corporation Indexing of significant media granulars
CN104125509B (zh) * 2013-04-28 2015-09-30 腾讯科技(深圳)有限公司 节目识别方法、装置及服务器
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US9460201B2 (en) 2013-05-06 2016-10-04 Iheartmedia Management Services, Inc. Unordered matching of audio fingerprints
US20140336797A1 (en) * 2013-05-12 2014-11-13 Harry E. Emerson, III Audio content monitoring and identification of broadcast radio stations
US20140336799A1 (en) * 2013-05-13 2014-11-13 Harry E. Emerson, III Discovery of music artist and title via companionship between a cellular phone and a broadcast radio receiver
JP2016526826A (ja) 2013-06-20 2016-09-05 トムソン ライセンシングThomson Licensing コンテンツの分散型再生の同期化を支援するシステム及び方法
US20150312369A1 (en) * 2013-06-26 2015-10-29 Intel Corporation Checkpoints for media buffering
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9542488B2 (en) 2013-08-02 2017-01-10 Google Inc. Associating audio tracks with video content
US9373320B1 (en) 2013-08-21 2016-06-21 Google Inc. Systems and methods facilitating selective removal of content from a mixed audio recording
CN103440330A (zh) * 2013-09-03 2013-12-11 网易(杭州)网络有限公司 一种音乐节目信息获取方法和设备
US9275427B1 (en) * 2013-09-05 2016-03-01 Google Inc. Multi-channel audio video fingerprinting
CN103442083A (zh) * 2013-09-10 2013-12-11 百度在线网络技术(北京)有限公司 音频文件传输关联内容的方法、系统、客户端和服务器
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
US9053711B1 (en) * 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
TW201513095A (zh) * 2013-09-23 2015-04-01 Hon Hai Prec Ind Co Ltd 語音處理系統、裝置及方法
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9275136B1 (en) * 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
US9354778B2 (en) 2013-12-06 2016-05-31 Digimarc Corporation Smartphone-based methods and systems
US9286902B2 (en) * 2013-12-16 2016-03-15 Gracenote, Inc. Audio fingerprinting
US9466310B2 (en) 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
US9955192B2 (en) 2013-12-23 2018-04-24 Inscape Data, Inc. Monitoring individual viewing of television events using tracking pixels and cookies
US9426525B2 (en) 2013-12-31 2016-08-23 The Nielsen Company (Us), Llc. Methods and apparatus to count people in an audience
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US9311639B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods, apparatus and arrangements for device to device communication
DK3111672T3 (en) 2014-02-24 2018-01-02 Widex As HEARING WITH SUPPORTED NOISE PRESSURE
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US10430985B2 (en) 2014-03-14 2019-10-01 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
CN103853836B (zh) * 2014-03-14 2017-01-25 广州酷狗计算机科技有限公司 一种基于音乐指纹特征的音乐检索方法及系统
US9438940B2 (en) 2014-04-07 2016-09-06 The Nielsen Company (Us), Llc Methods and apparatus to identify media using hash keys
CN104978968A (zh) * 2014-04-11 2015-10-14 鸿富锦精密工业(深圳)有限公司 水印加载装置及水印加载的方法
US20150302458A1 (en) * 2014-04-16 2015-10-22 Ebay Inc. Identifying advertisements based on audio data and performing associated tasks
US9699499B2 (en) 2014-04-30 2017-07-04 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9590755B2 (en) 2014-05-16 2017-03-07 Alphonso Inc. Efficient apparatus and method for audio signature generation using audio threshold
CN104093079B (zh) 2014-05-29 2015-10-07 腾讯科技(深圳)有限公司 基于多媒体节目的交互方法、终端、服务器和系统
US9905233B1 (en) 2014-08-07 2018-02-27 Digimarc Corporation Methods and apparatus for facilitating ambient content recognition using digital watermarks, and related arrangements
US9558272B2 (en) 2014-08-14 2017-01-31 Yandex Europe Ag Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine
US9881083B2 (en) 2014-08-14 2018-01-30 Yandex Europe Ag Method of and a system for indexing audio tracks using chromaprints
US10748539B2 (en) 2014-09-10 2020-08-18 Crestron Electronics, Inc. Acoustic sensory network
US10204622B2 (en) 2015-09-10 2019-02-12 Crestron Electronics, Inc. Acoustic sensory network
CN104361889B (zh) * 2014-10-28 2018-03-16 北京音之邦文化科技有限公司 一种对音频文件进行处理的方法及装置
US20160132600A1 (en) * 2014-11-07 2016-05-12 Shazam Investments Limited Methods and Systems for Performing Content Recognition for a Surge of Incoming Recognition Queries
EP3023884A1 (de) * 2014-11-21 2016-05-25 Thomson Licensing Verfahren und Vorrichtung zur Erzeugung des Fingerabdrucks eines Audiosignals
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram
WO2016085414A1 (en) * 2014-11-27 2016-06-02 JOHN SMITH s.r.o. Method to lower decline in watching channels during commercial breaks and a connection
US9363562B1 (en) 2014-12-01 2016-06-07 Stingray Digital Group Inc. Method and system for authorizing a user device
BR112017011522A2 (pt) 2014-12-01 2018-05-15 Inscape Data Inc sistema, e, método
WO2016086905A1 (es) * 2014-12-05 2016-06-09 Monitoreo Tecnológico, S.A Método de medición de audiencias
JP2018505442A (ja) 2014-12-31 2018-02-22 ピーシーエムエス ホールディングス インコーポレイテッド 聴取ログおよび音楽ライブラリの生成のためのシステムおよび方法
US10333696B2 (en) 2015-01-12 2019-06-25 X-Prime, Inc. Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency
AU2016211254B2 (en) 2015-01-30 2019-09-19 Inscape Data, Inc. Methods for identifying video segments and displaying option to view from an alternative source and/or on an alternative device
US10929464B1 (en) * 2015-02-04 2021-02-23 Google Inc. Employing entropy information to facilitate determining similarity between content items
US10360583B2 (en) 2015-02-05 2019-07-23 Direct Path, Llc System and method for direct response advertising
US10269392B2 (en) 2015-02-11 2019-04-23 Immersion Corporation Automated haptic effect accompaniment
US10142471B2 (en) * 2015-03-02 2018-11-27 Genesys Telecommunications Laboratories, Inc. System and method for call progress detection
US9955274B2 (en) 2015-04-08 2018-04-24 The Boeing Company Vibration monitoring systems
WO2016168556A1 (en) 2015-04-17 2016-10-20 Vizio Inscape Technologies, Llc Systems and methods for reducing data density in large datasets
CN107533850B (zh) 2015-04-27 2022-05-24 三星电子株式会社 音频内容识别方法和装置
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
GB201508963D0 (en) 2015-05-26 2015-07-01 Geo Track Identifier Gmbh Audio identification method
US9762965B2 (en) 2015-05-29 2017-09-12 The Nielsen Company (Us), Llc Methods and apparatus to measure exposure to streaming media
US10323612B2 (en) 2015-06-12 2019-06-18 Ford Global Technologies, Llc Methods and systems for dual fuel injection
US10094320B2 (en) 2015-06-23 2018-10-09 Ford Global Technologies, Llc Methods and systems for dual fuel injection
JP6654209B2 (ja) 2015-06-30 2020-02-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ノイズを関連付けそして分析するための方法および装置
AU2016291674B2 (en) * 2015-07-16 2021-08-26 Inscape Data, Inc. Systems and methods for partitioning search indexes for improved efficiency in identifying media segments
US10080062B2 (en) 2015-07-16 2018-09-18 Inscape Data, Inc. Optimizing media fingerprint retention to improve system resource utilization
AU2016293589B2 (en) * 2015-07-16 2020-04-02 Inscape Data, Inc. System and method for improving work load management in ACR television monitoring system
WO2017011792A1 (en) 2015-07-16 2017-01-19 Vizio Inscape Technologies, Llc Prediction of future views of video segments to optimize system resource utilization
EP3323245B1 (de) 2015-07-16 2021-08-25 Inscape Data, Inc. Erkennung von gemeinsamen mediensegmenten
US9900636B2 (en) 2015-08-14 2018-02-20 The Nielsen Company (Us), Llc Reducing signature matching uncertainty in media monitoring systems
US9654891B2 (en) 2015-09-15 2017-05-16 D&M Holdings, Inc. System and method for determining proximity of a controller to a media rendering device
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和系统
US9769607B2 (en) 2015-09-24 2017-09-19 Cisco Technology, Inc. Determining proximity of computing devices using ultrasonic audio signatures
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
TWI579716B (zh) * 2015-12-01 2017-04-21 Chunghwa Telecom Co Ltd Two - level phrase search system and method
US10594689B1 (en) 2015-12-04 2020-03-17 Digimarc Corporation Robust encoding of machine readable information in host objects and biometrics, and associated decoding and authentication
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
US10089987B2 (en) 2015-12-21 2018-10-02 Invensense, Inc. Music detection and identification
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
WO2017127571A1 (en) 2016-01-19 2017-07-27 Magic Leap, Inc. Augmented reality systems and methods utilizing reflections
US9848235B1 (en) 2016-02-22 2017-12-19 Sorenson Media, Inc Video fingerprinting based on fourier transform of histogram
US9924222B2 (en) 2016-02-29 2018-03-20 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on location
US10063918B2 (en) 2016-02-29 2018-08-28 Gracenote, Inc. Media channel identification with multi-match detection and disambiguation based on single-match
US9930406B2 (en) 2016-02-29 2018-03-27 Gracenote, Inc. Media channel identification with video multi-match detection and disambiguation based on audio fingerprint
KR20170101500A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 노이즈 제거를 통한 오디오 신호 식별 방법 및 장치
US10433026B2 (en) * 2016-02-29 2019-10-01 MyTeamsCalls LLC Systems and methods for customized live-streaming commentary
US9959885B2 (en) 2016-03-08 2018-05-01 Samsung Eletrônica Da Amazônia Ltda Method for user context recognition using sound signatures
US9786298B1 (en) 2016-04-08 2017-10-10 Source Digital, Inc. Audio fingerprinting based on audio energy characteristics
CA3021964A1 (en) 2016-04-26 2017-11-02 Magic Leap, Inc. Electromagnetic tracking with augmented reality systems
NL2016742B1 (en) 2016-05-09 2017-11-16 Audiocoup B V System for determining user exposure to audio fragments.
US10015612B2 (en) * 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
JP6787624B2 (ja) * 2016-06-22 2020-11-18 グレースノート インコーポレイテッド 音声指紋の照合のための方法、マシン可読媒体及びシステム
US9959448B2 (en) * 2016-08-19 2018-05-01 Google Llc Multi-step sequence alignment
GB201617409D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
EP3312724B1 (de) 2016-10-21 2019-10-30 Fujitsu Limited Auf mikrodiensten basierende datenverarbeitungsvorrichtung, -verfahren und -programm
JP7100422B2 (ja) 2016-10-21 2022-07-13 富士通株式会社 データプロパティ認識のための装置、プログラム、及び方法
JP6805765B2 (ja) 2016-10-21 2020-12-23 富士通株式会社 ソフトウェアサービスの実行のためのシステム、方法、及びプログラム
EP3312722A1 (de) 2016-10-21 2018-04-25 Fujitsu Limited Datenverarbeitungsvorrichtung, -verfahren und -programm
US10776170B2 (en) 2016-10-21 2020-09-15 Fujitsu Limited Software service execution apparatus, system, and method
US10701438B2 (en) 2016-12-31 2020-06-30 Turner Broadcasting System, Inc. Automatic content recognition and verification in a broadcast chain
US10785329B2 (en) 2017-01-05 2020-09-22 The Nielsen Company (Us), Llc Methods and apparatus to facilitate meter to meter matching for media identification
US10922720B2 (en) 2017-01-11 2021-02-16 Adobe Inc. Managing content delivery via audio cues
EP3379814A1 (de) 2017-03-23 2018-09-26 Christian Rymarenko Umwandlung von medien mithilfe von mobilvorrichtungen
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
US10983984B2 (en) 2017-04-06 2021-04-20 Inscape Data, Inc. Systems and methods for improving accuracy of device maps using media viewing data
RU172737U1 (ru) * 2017-04-18 2017-07-21 Общество с ограниченной ответственностью "ДЖЕНТ КЛАБ" Устройство для идентификации музыкальных произведений
US10166472B2 (en) 2017-05-04 2019-01-01 Shazam Investments Ltd. Methods and systems for determining a reaction time for a response and synchronizing user interface(s) with content being rendered
RU2662939C1 (ru) * 2017-05-12 2018-07-31 Общество с ограниченной ответственностью "ИСКОНА ХОЛДИНГ" Способ идентификации музыкальных произведений
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
US10271095B1 (en) 2017-12-21 2019-04-23 Samuel Chenillo System and method for media segment indentification
US10867185B2 (en) 2017-12-22 2020-12-15 Samuel Chenillo System and method for media segment identification
GB2562515A (en) 2017-05-17 2018-11-21 Snell Advanced Media Ltd Generation of audio or video hash
US11157553B2 (en) 2017-05-25 2021-10-26 J.W. Pepper & Son, Inc. Sheet music search and discovery system
EP3425522A1 (de) * 2017-07-06 2019-01-09 Bmat Licensing, S.L.U. Identifizierung von hintergrundaudio in rundfunksignalen unter verwendung mehrerer quellen
US20190028766A1 (en) * 2017-07-18 2019-01-24 Audible Magic Corporation Media classification for media identification and licensing
CN107367676A (zh) * 2017-09-04 2017-11-21 厦门斯玛特思智能电气股份有限公司 基于音频智能识别的局放指示器
US10264297B1 (en) * 2017-09-13 2019-04-16 Perfect Sense, Inc. Time-based content synchronization
US20190104335A1 (en) * 2017-09-29 2019-04-04 Theater Ears, LLC Theater ears audio recognition & synchronization algorithm
US10599702B2 (en) * 2017-10-05 2020-03-24 Audible Magic Corporation Temporal fraction with use of content identification
US10158907B1 (en) 2017-10-10 2018-12-18 Shazam Investments Ltd. Systems and methods for performing playout of multiple media recordings based on a matching segment among the recordings
US10129575B1 (en) 2017-10-25 2018-11-13 Shazam Entertainment Limited Methods and systems for determining a latency between a source and an alternative feed of the source
US10249319B1 (en) 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
EP3477505B1 (de) 2017-10-31 2021-10-20 Spotify AB Fingerabdruck-clustering zur inhaltsbasierten audioerkennung
EP3477643B1 (de) * 2017-10-31 2019-10-16 Spotify AB Audiofingerabdruckextraktion und audioerkennung unter verwendung der besagten fingerabdrücke
CN108012173B (zh) * 2017-11-16 2021-01-22 百度在线网络技术(北京)有限公司 一种内容识别方法、装置、设备和计算机存储介质
US10276175B1 (en) 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
US10140966B1 (en) * 2017-12-12 2018-11-27 Ryan Laurence Edwards Location-aware musical instrument
CN107967922A (zh) * 2017-12-19 2018-04-27 成都嗨翻屋文化传播有限公司 一种基于特征的音乐版权识别方法
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
SE542269C2 (en) 2017-12-21 2020-03-31 Telia Co Ab Methods and apparatuses for determining meta data related to media content
US11048946B2 (en) 2017-12-21 2021-06-29 Samuel Chenillo System and method for identifying cognate image sequences
DE102017131266A1 (de) 2017-12-22 2019-06-27 Nativewaves Gmbh Verfahren zum Einspielen von Zusatzinformationen zu einer Liveübertragung
CN111656795A (zh) 2017-12-22 2020-09-11 原生波股份有限公司 用于使附加信号与主要信号同步的方法
US10089994B1 (en) 2018-01-15 2018-10-02 Alex Radzishevsky Acoustic fingerprint extraction and matching
ES2779985B2 (es) 2019-02-20 2021-03-04 Moehs Iberica Sl Sal de dietilamina del ácido 3alfa-tetrahidropiraniloxi-6alfa-etil-7alfa-hidroxi-5ß-colánico
CN110322886A (zh) * 2018-03-29 2019-10-11 北京字节跳动网络技术有限公司 一种音频指纹提取方法及装置
CN110322897B (zh) 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
GB201810202D0 (en) * 2018-06-21 2018-08-08 Magus Communications Ltd Answer machine detection method & apparatus
US10904587B2 (en) 2018-07-19 2021-01-26 Gracenote, Inc. Establishment and use of time mapping based on interpolation using low-rate fingerprinting, to help facilitate frame-accurate content revision
US10915292B2 (en) 2018-07-25 2021-02-09 Eagle Acoustics Manufacturing, Llc Bluetooth speaker configured to produce sound as well as simultaneously act as both sink and source
US11483785B2 (en) 2018-07-25 2022-10-25 Trulli Engineering, Llc Bluetooth speaker configured to produce sound as well as simultaneously act as both sink and source
US10860647B2 (en) 2018-09-06 2020-12-08 Gracenote, Inc. Systems, methods, and apparatus to improve media identification
US10771828B2 (en) * 2018-09-18 2020-09-08 Free Stream Media Corp. Content consensus management
US10868620B2 (en) * 2018-12-26 2020-12-15 The Nielsen Company (Us), Llc Methods and apparatus for optimizing station reference fingerprint loading using reference watermarks
TR201902782A2 (tr) * 2019-02-25 2019-03-21 Aksoy Ahmet Kamusal alanlar için müzik analiz sistemi ve yöntemi.
US11683236B1 (en) 2019-03-30 2023-06-20 Snap Inc. Benchmarking to infer configuration of similar devices
US11853192B1 (en) 2019-04-16 2023-12-26 Snap Inc. Network device performance metrics determination
US11240104B1 (en) * 2019-05-21 2022-02-01 Snap Inc. Device configuration parameter determination
US11234049B2 (en) * 2019-06-24 2022-01-25 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to control implementation of dynamic content modification
US11212560B2 (en) 2019-06-24 2021-12-28 The Nielsen Company (Us), Llc Use of steganographically-encoded time information as basis to establish a time offset, to facilitate taking content-related action
CN110635824B (zh) * 2019-10-19 2021-07-09 广东石油化工学院 一种利用分类回归树的plc信道脉冲噪声检测方法和系统
US20220414808A1 (en) * 2019-11-19 2022-12-29 Google Llc Methods, systems, and media for rights management of embedded sound recordings using composition clustering
CN110910899B (zh) * 2019-11-27 2022-04-08 杭州联汇科技股份有限公司 一种实时音频信号一致性对比检测方法
CN112995759A (zh) * 2019-12-13 2021-06-18 腾讯科技(北京)有限公司 互动业务处理方法、系统、装置、设备及存储介质
CN111008301B (zh) * 2019-12-19 2023-08-15 新华智云科技有限公司 一种以图搜视频的方法
US11922532B2 (en) 2020-01-15 2024-03-05 Digimarc Corporation System for mitigating the problem of deepfake media content using watermarking
US11356720B2 (en) 2020-01-30 2022-06-07 Snap Inc. Video generation system to render frames on demand
US11284144B2 (en) * 2020-01-30 2022-03-22 Snap Inc. Video generation system to render frames on demand using a fleet of GPUs
KR20220133249A (ko) 2020-01-30 2022-10-04 스냅 인코포레이티드 온 디맨드로 미디어 콘텐츠 아이템들을 생성하기 위한 시스템
US11036781B1 (en) 2020-01-30 2021-06-15 Snap Inc. Video generation system to render frames on demand using a fleet of servers
US11616797B2 (en) 2020-04-30 2023-03-28 Mcafee, Llc Large scale malware sample identification
GB2597334A (en) * 2020-07-17 2022-01-26 Playrcart Ltd A media player
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
US11283586B1 (en) 2020-09-05 2022-03-22 Francis Tiong Method to estimate and compensate for clock rate difference in acoustic sensors
US11284139B1 (en) * 2020-09-10 2022-03-22 Hulu, LLC Stateless re-discovery of identity using watermarking of a video stream
KR102447554B1 (ko) * 2020-11-18 2022-09-27 주식회사 샵캐스트 오디오 핑거프린트 매칭을 기반으로하는 음원 인식 방법 및 장치
US11405684B1 (en) * 2021-01-08 2022-08-02 Christie Digital Systems Usa, Inc. Distributed media player for digital cinema
US20220222294A1 (en) * 2021-01-14 2022-07-14 Smule, Inc. Densification in Music Search and Recommendation
WO2022198065A1 (en) 2021-03-19 2022-09-22 Evalve, Inc. Systems for tissue grasping and assessment
US11589100B1 (en) * 2021-03-31 2023-02-21 Amazon Technologies, Inc. On-demand issuance private keys for encrypted video transmission
US11665377B2 (en) * 2021-04-23 2023-05-30 At&T Intellectual Property I, L.P. System and method for identifying encrypted, pre-recorded media content in packet data networks
EP4200721A1 (de) * 2021-04-30 2023-06-28 Huawei Technologies Co., Ltd. System und verfahren zum indizieren eines datensatzes in einem datenspeichersystem
US20220392435A1 (en) * 2021-06-08 2022-12-08 Comcast Cable Communications, Llc Processing Voice Commands
US11496776B1 (en) 2021-07-19 2022-11-08 Intrado Corporation Database layer caching for video communications
TWI806210B (zh) * 2021-10-29 2023-06-21 宏碁股份有限公司 聲音浮水印的處理方法及聲音浮水印處理裝置
EP4336381A1 (de) 2022-09-09 2024-03-13 Sparwk AS System und verfahren zum abgleich von musikentitäten

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4415767A (en) * 1981-10-19 1983-11-15 Votan Method and apparatus for speech recognition and reproduction
US4450531A (en) * 1982-09-10 1984-05-22 Ensco, Inc. Broadcast signal recognition system and method
US4582181A (en) * 1983-08-12 1986-04-15 Advanced Cardiovascular Systems, Inc. Steerable dilatation catheter
JPS62159195A (ja) * 1986-01-06 1987-07-15 沖電気工業株式会社 音声パタン作成方法
JPS6273298A (ja) * 1985-09-26 1987-04-03 沖電気工業株式会社 音声認識方式
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
US4843562A (en) * 1987-06-24 1989-06-27 Broadcast Data Systems Limited Partnership Broadcast information classification system and method
JPH03291752A (ja) * 1990-04-10 1991-12-20 Matsushita Electric Ind Co Ltd データ検索装置
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
WO1991019989A1 (en) * 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5627915A (en) * 1995-01-31 1997-05-06 Princeton Video Image, Inc. Pattern recognition system employing unlike templates to detect objects having distinctive features in a video field
JPH09138691A (ja) * 1995-11-15 1997-05-27 Brother Ind Ltd 楽曲検索装置
US7346472B1 (en) 2000-09-07 2008-03-18 Blue Spike, Inc. Method and device for monitoring and analyzing signals
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
JP2001042866A (ja) * 1999-05-21 2001-02-16 Yamaha Corp ネットワークを介したコンテンツ提供方法及びシステム
GR1003625B (el) 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
JP2001075992A (ja) * 1999-09-07 2001-03-23 Hitachi Ltd 音響検索方法及び装置、並びに、コンピュータ読みとり可能な記録媒体
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US7174293B2 (en) 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6834308B1 (en) * 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
US6453252B1 (en) * 2000-05-15 2002-09-17 Creative Technology Ltd. Process for identifying audio content
AU2001267028A1 (en) 2000-06-23 2002-01-08 Mmr Technologies Inc Flexible counter-flow heat exchangers
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6748360B2 (en) * 2000-11-03 2004-06-08 International Business Machines Corporation System for selling a product utilizing audio content identification
US7359889B2 (en) * 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7117159B1 (en) * 2001-09-26 2006-10-03 Sprint Spectrum L.P. Method and system for dynamic control over modes of operation of voice-processing in a voice command platform
DK1504445T3 (da) * 2002-04-25 2008-12-01 Landmark Digital Services Llc Robust og invariant lydmönster-matching
JP4933899B2 (ja) * 2004-02-19 2012-05-16 ランドマーク、ディジタル、サーヴィセズ、エルエルシー 放送源の識別のための方法および装置
WO2006086556A2 (en) * 2005-02-08 2006-08-17 Landmark Digital Services Llc Automatic identfication of repeated material in audio signals
WO2010065673A2 (en) 2008-12-02 2010-06-10 Melodis Corporation System and method for identifying original music
US8428955B2 (en) * 2009-10-13 2013-04-23 Rovi Technologies Corporation Adjusting recorder timing
EP2529527B1 (de) 2010-01-25 2015-12-02 Nokia Solutions and Networks Oy Verfahren zur steuerung des zugriffs auf ressourcen
US9390170B2 (en) * 2013-03-15 2016-07-12 Shazam Investments Ltd. Methods and systems for arranging and searching a database of media content recordings

Also Published As

Publication number Publication date
KR20030059085A (ko) 2003-07-07
DK1307833T3 (da) 2006-10-02
US20110071838A1 (en) 2011-03-24
JP2004505328A (ja) 2004-02-19
US7865368B2 (en) 2011-01-04
EP1307833B1 (de) 2006-06-07
BR0112901A (pt) 2003-06-10
US20020083060A1 (en) 2002-06-27
US7346512B2 (en) 2008-03-18
EP1307833A2 (de) 2003-05-07
CN1592906B (zh) 2010-09-08
ATE329319T1 (de) 2006-06-15
HK1051248A1 (en) 2003-07-25
ES2266254T3 (es) 2007-03-01
US20140316787A1 (en) 2014-10-23
US20060122839A1 (en) 2006-06-08
US8700407B2 (en) 2014-04-15
US8386258B2 (en) 2013-02-26
US9401154B2 (en) 2016-07-26
US20130138442A1 (en) 2013-05-30
WO2002011123A3 (en) 2002-05-30
US20120221131A1 (en) 2012-08-30
US8190435B2 (en) 2012-05-29
PT1307833E (pt) 2006-10-31
KR100776495B1 (ko) 2007-11-16
DE60120417D1 (de) 2006-07-20
JP4945877B2 (ja) 2012-06-06
US20160328473A1 (en) 2016-11-10
US10497378B2 (en) 2019-12-03
BRPI0112901B1 (pt) 2015-12-22
WO2002011123A2 (en) 2002-02-07
AU2001289766A1 (en) 2002-02-13
US9899030B2 (en) 2018-02-20
US20080208891A1 (en) 2008-08-28
CN1592906A (zh) 2005-03-09
US6990453B2 (en) 2006-01-24
US20180374491A1 (en) 2018-12-27

Similar Documents

Publication Publication Date Title
DE60120417T2 (de) Verfahren zur suche in einer audiodatenbank
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE60302651T2 (de) Schnelles hash-basiertes metadatenretrieval für multimediaobjekte
US6744922B1 (en) Signal processing method and video/voice processing device
CN103797483B (zh) 用于标识数据流中的内容的方法和系统
DE10134471C2 (de) Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
CN102799605A (zh) 一种广告监播方法和系统
DE102017005963A1 (de) Bereitstellen von relevanten Videoszenen in Reaktion auf eine Videosuchabfrage
US20090192640A1 (en) Method and apparatus for identifying an unknown work
EP1368805A2 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
DE60319710T2 (de) Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale
CN112291589A (zh) 视频文件的结构检测方法、装置
Flexer et al. Effects of album and artist filters in audio similarity computed for very large music databases
DE60318450T2 (de) Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals
EP1671315B1 (de) Vorrichtung und verfahren zum charakterisieren eines tonsignals
Dong et al. Birdcall retrieval from environmental acoustic recordings using image processing
CN117409215A (zh) 图像清晰度识别方法、装置及存储介质
CN114971976A (zh) 一种用于提升校园阅读素养的智能引导系统及方法
EP1191460A1 (de) Verfahren und System für die Klassifizierung von digitalen Audio- und Videodateien

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
R082 Change of representative

Ref document number: 1307833

Country of ref document: EP

Representative=s name: DEHMEL & BETTENHAUSEN PATENT- UND RECHTSANWAELTE,