DE60203436T2 - Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen - Google Patents

Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen Download PDF

Info

Publication number
DE60203436T2
DE60203436T2 DE60203436T DE60203436T DE60203436T2 DE 60203436 T2 DE60203436 T2 DE 60203436T2 DE 60203436 T DE60203436 T DE 60203436T DE 60203436 T DE60203436 T DE 60203436T DE 60203436 T2 DE60203436 T2 DE 60203436T2
Authority
DE
Germany
Prior art keywords
features
sound
spectral
unknown
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60203436T
Other languages
English (en)
Other versions
DE60203436D1 (de
Inventor
Michael A. Casey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE60203436D1 publication Critical patent/DE60203436D1/de
Application granted granted Critical
Publication of DE60203436T2 publication Critical patent/DE60203436T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Description

  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft allgemein das Gebiet der Verarbeitung akustischer Signale und insbesondere das Erkennen, Indexieren und Aufsuchen von akustischen Signalen.
  • HINTERGRUND DER ERFINDUNG
  • Bis heute ist hinsichtlich der Charakterisierung von Klängen der Umgebung und Nebengeräuschen sehr wenig Arbeit getan worden. Die meisten Verfahren zur Darstellung akustischer Signale im Stand der Technik haben sich auf menschliche Sprache und Musik konzentriert. Jedoch gibt es für viele, in Filmen, Fernsehen, Videospielen und virtuellen Umgebungen gehörten Klangeffekte wie Fußschritte, Verkehr, Zuschlagen von Türen, Laserpistolen, Hämmern, Zersplittern, Donnerschläge, Rascheln von Laub, Wasser verschütten, usw. keine guten Darstellungsverfahren. Diese akustischen Signale der Umgebung sind im Allgemeinen viel schwieriger zu charakterisieren als Sprache und Musik, weil sie oft sowohl mannigfaltige geräuschvolle und strukturierte Komponenten als auch strukturelle Komponenten höherer Ordnung wie Iterationen und Streuung umfassen.
  • Eine spezielle Anwendung, die ein solches Darstellungsschema nutzen könnte, ist Videobearbeitung. Es sind Verfahren zum Herausziehen, Komprimieren, Aufsuchen und Klassifizieren von Videoobjekten, siehe zum Beispiel die verschiedenen MPEG-Standards, verfügbar. Keine solchen Verfahren existieren für „Audio" Objekte, es sei denn, die Audioobjekte sind Sprache. Zum Beispiel kann es erwünscht sein, eine Videobibliothek zu durchsuchen, um alle Videosegmente zu lokalisieren, in denen John Wayne auf einem Pferd galoppiert, während er seinen sechsschüssigen Revolver abfeuert. Gewiss ist es möglich, John Wayne oder ein Pferd visuell zu identifizieren. Es ist jedoch viel schwieriger, das rhythmische Getrappel eines galoppierenden Pferdes und das Staccato eines Revolvers auszumachen. Die Erkennung von Hörereignissen kann eine Aktion in Video schildern.
  • Eine andere Anwendung, die diese Darstellung nutzen könnte, ist die Klangsynthese. Erst wenn die Merkmale eines Klangs vorher identifiziert sind, wird es möglich, einen Klang außer durch Versuch-und-Irrtum-Methode synthetisch zu erzeugen.
  • Im Stand der Technik haben sich Darstellungen für nicht sprachliche Klänge in der Regel auf spezielle Klassen nicht gesprochenen Klangs konzentriert, zum Beispiel das Simulieren und Identifizieren spezieller Musikinstrumente, das Unterscheiden von Unterwassergeräuschen aus umgebenden Meerestönen und eine Erkennung von Unterwassersäugetieren durch ihre stimmlichen Äußerungen. Jede dieser Anwendungen erfordert eine spezielle Anordnung von akustischen Merkmalen, die sich über die spezifische Anwendung hinaus nicht auf eine allgemeine Formel bringen lassen.
  • Zusätzlich zu diesen speziellen Anwendungen hat sich andere Arbeit auf die Entwicklung von verallgemeinerten Darstellungen akustischer Szeneanalysen konzentriert. Diese Untersuchung wurde bekannt als „Rechentechnische Analyse von Hörszenen". Diese Systeme erfordern auf Grund ihrer algorithmischen Komplexität eine Menge rechentechnischen Aufwandes. Typisch ist, dass sie sowohl heuristische Schemen von künstlicher Intelligenz als auch verschiedene Überlagerungsschemen nutzen.
  • Während solche Systeme einen verwertbaren Einblick in das schwierige Problem von akustischen Darstellungen bewirken, wurde niemals gezeigt, dass die Leistungsfähigkeit solcher Systeme in Bezug auf Klassifizierung und Synthese von akustischen Signalen in einer Mischung zufrieden stellend ist.
  • In einer noch anderen Anwendung könnten Klangdarstellungen verwendet werden, um hörfrequente Medien, die einen breiten Bereich von Klangphänomenen einschließlich Umgebungstöne, Hintergrundgeräusche, Klangeffekte (Geräuschmacher), tierische Töne, Sprache, nicht stimmliche Äußerungen und Musik umfassen, in ein Verzeichnis aufzunehmen. Das würde es einem erlauben, Klangerkennungs-Tools zum Aufsuchen von hörfrequenten Medien mittels automatisch herausgezogenen Sachregistern zu entwerfen. Unter Verwendung dieser Tools könnten reiche Soundtracks wie Filme oder Nachrichtenprogramme durch semantische Beschreibungen des Inhalts oder durch Ähnlichkeit mit einer Zielhörabfrage aufgesucht werden. Zum Beispiel ist es erwünscht, alle Filmclips zu lokalisieren, in denen Löwen brüllen oder Elefanten trompeten.
  • Es gibt viele mögliche Lösungswege zur automatischen Klassifizierung und Aufnahme in ein Verzeichnis. Wold et al., „IEEE Multimedia, S. 27–36, 1996, Martin et al., „Musical instrument identification: a pattern-recognition approach" („Erkennung von Musikinstrumenten: Lösungsweg zur Mustererkennung"), vorgestellt auf dem 136. Meeting der Akustischen Gesellschaft von Amerika, Norfolk, Virginia, 1998 beschreiben eine Klassifizierung ausschließlich für Musikinstrumente. Zhang et al. beschreibt in „Content-based classification and retrieval of audio" (Inhaltsbasierte Klassifizierung und Wiedergewinnung von Audiosignalen"), SPIE, 43. Jahresversammlung, Konferenz für fortgeschrittene Algorithmen der Signalverarbeitung, Architekturen und Realisierungen VIII, 1998, ein System, das Modelle mit Daten eines Spektrogramms trainiert, und Boreczky et al. „A hidden Markov model framework for video segmentation using audio and image features" (Datenblock mit verstecktem Markov-Modell für Bildzerlegung mittels Audio- und Bildmerkmalen"), Proceedings of ICASSP, '98, S. 3741–3744, 1998, das Markov-Modelle einsetzt.
  • Das Registrieren und Aufsuchen von Hörmedien ist besonders passend für den neu in Erscheinung tretenden Standard MPEG-7 für Multimedia. Der Standard benötigt eine vereinheitlichte Schnittstelle für allgemeine Klangklassen. Kompatibilität zu Kodiereinrichtungen ist ein Faktor in der Ausführung. Dann könnte eine Datenbank für „Klänge" mit Sachregistern, die durch eine Realisierung bereitgestellt wird, mit denen, die durch eine unterschiedliche Realisierung herausgezogen werden, verglichen werden.
  • Außerdem ist vom Stand der Technik (Tong Zhang und C.-C. Jay Kuo: „Hierarchical Classification of Audio Data for Archiving and Retrieving" [„Hierarchische Klassifizierung hörfrequenter Daten zur Archivierung und Wiedergewinnung"] von Integrated Media Systems Center and Department of Electrical Engineering Systems der Universität Südkalifornien, Los Angeles, IEEE 1999) ein hierarchisches System zur Tonklassifizierung und Wiedergewinnung bekannt, das auf der Analyse eines Hörinhalts basiert. Das System besteht aus drei Stufen. Die erste Stufe ist eine Tonklassifizierung und Zerlegung auf grobem Niveau. Die zweite Stufe klassifiziert außerdem Umgebungsklänge in feinere Klassen. In der dritten Stufe wird eine Tonwiedergewinnung mit Abfrage-durch-Beispiel realisiert.
  • Darüber hinaus wird in US 6 321 200 ein Verfahren beschrieben, das Merkmale aus einer Mischung von Signalen herauszieht. In diesem Verfahren wird eine Mischung von Signalen durch eine Filteranordnung gefiltert, um eine Vielzahl von Bandpass- Signalen zu erzeugen. Jedes Bandpass-Signal wird ausschnittweise dargestellt, um eine Vielzahl von mehrdimensionalen Beobachtungsmatrizen zu erzeugen. Die Matrizen werden in ihrer Dimensionalität reduziert, und es werden Merkmale herausgezogen.
  • ABRISS DER ERFINDUNG
  • Die Erfindung ist in Anspruch 1 definiert. Ein rechnergestütztes Verfahren zieht aus einem akustischen Signal, das von einer oder mehreren Quellen erzeugt wird, Merkmale heraus. Die akustischen Signale werden zuerst ausschnittweise dargestellt und gefiltert, um eine spektrale Hüllkurve für jede Quelle zu erzeugen. Die Dimensionalität der spektralen Hüllkurve wird dann verringert, um für das akustische Signal einen Satz von Merkmalen zu erzeugen. Die Merkmale in dem Satz werden zusammengeballt, um eine Gruppe von Merkmalen für jede der Quellen zu erzeugen. Die Merkmale in jeder Gruppe umfassen spektrale Merkmale und entsprechende zeitliche Merkmale, die jede Quelle kennzeichnen.
  • Jede Gruppe von Merkmalen ist ein quantitativer Deskriptor (Beschreibungssatz), der auch mit einem qualitativen Deskriptor verknüpft ist. Versteckte Markov-Modelle werden mit Sätzen bekannter Merkmale trainiert und in einer Datenbank gespeichert. Die Datenbank kann anschließend durch Sätze unbekannter Merkmale indexiert werden, um ähnliche akustische Signale auszuwählen oder zu erkennen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigen
  • 1 ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zum Herausziehen von Merkmalen aus einer Mischung von Signalen;
  • 2 ein Blockdiagramm der Schritte Filtern und Darstellen in Ausschnitten;
  • 3 ein Blockdiagramm der Schritte Normalisieren, Reduzieren und Herausziehen;
  • 4 und 5 grafische Darstellungen von Merkmalen eines metallischen Schwingungserregers;
  • 6 das Blockdiagramm eines Beschreibungsmodells für Hundebellen;
  • 7 das Blockdiagramm eines Beschreibungsmodells für Töne von Haustieren;
  • 8 ein Spektrogramm, das aus vier spektralen Grundfunktionen und vier Basisprojektionen rekonstruiert ist;
  • 9a die Hüllkurve einer Basisprojektion für Gelächter;
  • 9b ein Tonfrequenzspektrum für das Gelächter von 9;
  • 10a ein Spektrogramm für Gelächter im logarithmischen Maßstab;
  • 10b ein rekonstruiertes Spektrogramm für Gelächter;
  • 11a ein logarithmisches Spektrogramm für Hundebellen;
  • 11b eine Folge von Klangmodell-Zustandsverläufen von Zuständen durch ein kontinuierliches, verstecktes Markov-Modell für das Hundebellen von 11a;
  • 12 das Blockdiagramm eines Klassifikators für Tonerkennung;
  • 13 das Blockdiagramm eines erfindungsgemäßen Systems zum Herausziehen von Tönen;
  • 14 das Blockdiagramm eines erfindungsgemäßen Prozesses zum Trainieren eines versteckten Markov-Modells;
  • 15 das Blockdiagramm eines erfindungsgemäßen Systems zum Identifizieren und Klassifizieren von Tönen;
  • 16 eine grafische Darstellung des Betriebsverhaltens des Systems von 15;
  • 17 das Blockdiagramm eines Klangabfragesystems nach der Erfindung;
  • 18a das Blockdiagramm eines Zustandsverlaufs von Gelächter;
  • 18b ein Histogramm des Zustandsverlaufs von Gelächter;
  • 19a Zustandsverläufe von zusammenpassenden Gelächtern; und
  • 19b Histogramme des Zustandsverlaufs von zusammenpassenden Gelächtern.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNG
  • 1 stellt ein Verfahren 100 zum Herausziehen von spektralen und zeitlichen Merkmalen 108109 aus einer Mischung von Signalen 101 gemäß meiner Erfindung dar. Mein Verfahren 100 kann zum Charakterisieren und Herausziehen von Merkmalen aus Tonaufzeichnungen zur Klassifizierung der Klangquellen und für einen erneuten Zweck in strukturierten Multimedia-Anwendungen wie eine parametrische Synthese eingesetzt werden. Das Verfahren kann außerdem verwendet werden, um Merkmale aus anderen linearen Mischungen oder, was das anbetrifft, aus mehrdimensionalen Mischungen herauszuziehen. Die Mischung kann von einer einzigen Quelle oder von mehreren Quellen wie eine Stereoklangquelle erhalten werden.
  • Um Merkmale aus aufgezeichneten Signalen herauszuziehen, setze ich statistische Verfahren ein, die auf einer Analyse unabhängiger Komponenten (ICA) basieren. Unter Verwendung einer Kontrastfunktion, die auf kumulativen Entwicklungen bis zu einer vierten Ordnung definiert ist, erzeugt die ICA-Transformation eine Drehung der Basis der Beobachtungsmatrizen 121 von Zeit und Frequenz.
  • Die sich ergebenden Basiskomponenten sind statistisch so unabhängig wie möglich und charakterisieren die Struktur der einzelnen Merkmale, z.B. Klänge innerhalb der Mischquelle 101. Diese charakteristischen Strukturen können verwendet werden, um das Signal zu klassifizieren oder neue Signale mit vorhersagbaren Merkmalen aufzuführen.
  • Die Darstellung nach meiner Erfindung ist imstande, mehrfaches Klangverhalten aus einem kleinen Satz von Merkmalen künstlich zu erzeugen. Sie kann sowohl komplexe Strukturen akustischer Ereignisse wie Aufschläge, Stöße, Krach und Kratzen als auch Eigenschaften akustischer Objekte wie Werkstoffe, Größe und Form künstlich erzeugen.
  • In dem Verfahren 100 wird die Tonmischung 101 zuerst durch eine Anordnung von logarithmischen Filtern 110 bearbeitet. Jedes der Filter erzeugt ein Bandpass-Signal 111 für einen vorbestimmten Frequenzbereich. Typischerweise werden vierzig bis fünfzig Bandpass-Signale 111 mit mehr Signalen in niedrigeren als höheren Frequenzbereichen erzeugt, um die Eigenschaften einer Frequenzwiedergabe des menschlichen Ohrs nachzuahmen. Als andere Möglichkeit können die Filter eine Filteranordnung mit Konstante Q (CQ) oder kleiner Welle sein, oder sie können wie in einer kurzzeitigen Darstellung mit schneller Fourier-Transformation (STFT) linear beabstandet sein.
  • Im Schritt 120 wird jedes der Bandpass-Signale in kurze Segmente von zum Beispiel 20 Millisekunden „im Ausschnitt dargestellt", um Beobachtungsmatrizen zu erzeugen. Jede Matrix kann Hunderte von Abtastwerten enthalten. Die Einzelheiten 110 und 120 sind in 2 und 3 ausführlicher dargestellt. Es soll angemerkt werden, dass das Darstellen im Ausschnitt vor dem Filtern vorgenommen werden kann.
  • Im Schritt 130 wird an den Beobachtungsmatrizen 121 eine Singulärwertzerlegung (SVD) angewandt, um eine reduzierte Dimensionalität der Matrizen 131 zu erzeugen. SVD wurde zuerst von dem italienischen Experten auf dem Gebiet der Geometrie, Beltrami, 1873 beschrieben. Die Singulärwertzerlegung ist eine gut definierte Verallgemeinerung der Hauptkomponentenanalyse (PCA). Die Singulärwertzerlegung einer Matrix m × n ist eine beliebige Zerlegung in Faktoren der Form: X = UΣVT in der U eine Orthogonalmatrix m × m ist, d.h. U besitzt rechtwinklige, kartesische Spalten; V eine Orthogonalmatrix n × n ist und Σ eine Diagonalmatrix m × n von singulären Werten ist, wobei Komponenten σij = 0 sind, wenn i nicht gleich j ist.
  • Als Vorteil und im Gegensatz zur PCA kann die SVD eine nichtquadratische Matrix zerlegen, womit es möglich ist, die Beobachtungsmatrizen entweder in spektraler oder in zeitlicher Orientierung direkt zu zerlegen, ohne eine Kovarianz-Matrix berechnen zu müssen. Weil die SVD eine nichtquadratische Matrix direkt zerlegt, ohne eine Kovarianz-Matrix berechnen zu müssen, ist die sich ergebende Basis für Probleme mit dynamischem Bereich nicht so empfindlich wie die PCA.
  • Ich wende im Schritt 140 auf die Matrizen 131 mit reduzierter Dimensionalität eine optionale Analyse unabhängiger Komponenten (ICA) an. Eine ICA, die einen iterativen, rechnerabhängigen Algorithmus auf der Basis einer neuromimetischen Architektur zur Blindsignaltrennung nutzt, ist bekannt. Kürzlich wurden viele neuronale Netzwerk-Architekturen zum Lösen des ICA-Problems vorgeschlagen, siehe zum Beispiel US-Patent Nr. 5 383 164 „Adaptive system for broadband multisignal discrimination in a channel with reverberation" („Anpassungsfähiges System zur Unterscheidung von Breitband-Mehrfachsignalen in einem Kanal mit Nachhall"), das am 17. Januar 1995 an Sejnowski ausgegeben wurde.
  • Die ICA erzeugt spektrale und zeitliche Merkmale 108109. Die als Vektoren ausgedrückten spektralen Merkmale entsprechen Schätzwerten der statistisch am meisten unabhängigen Komponente in einem Segmentierungsfenster. Die zeitlichen Merkmale, die ebenfalls als Vektoren ausgedrückt sind, beschreiben die Entwicklung der spektralen Komponenten während des Verlaufs des Segments.
  • Jedes Paar spektraler und zeitlicher Vektoren kann unter Verwendung eines Vektorprodukts kombiniert werden, um ein partielles Spektrum für das gegebene Eingangsspektrum zu rekonstruieren. Wenn diese Spektren umkehrbar sind, wie es eine Darstellung mit Filteranordnung wäre, dann können die unabhängigen Signale im Zeitbereich beurteilt werden. Für jede der in dem Schema beschriebenen unabhängigen Komponenten wird eine Matrix von Kompatibilitätsbewertungen für Komponenten im vorherigen Segment verfügbar gemacht. Dies ermöglicht das Verfolgen von Komponenten über die Zeit, indem die am meisten wahrscheinlichen, aufeinander folgenden Korrespondenzen beurteilt werden. Identisch mit der rückwärts gerichteten Kompatibilitätsmatrix wird nur zeitlich nach vorn geschaut.
  • Eine Zerlegung von unabhängigen Komponenten einer Tonspur kann verwendet werden, um einzelne Signalkomponenten innerhalb einer Tonspur zu beurteilen. Während das Trennungsproblem schwer zu bearbeiten ist, es sei denn, eine vollrangige Signalmatrix ist verfügbar (N lineare Mischungen von N Quellen), kann die Verwendung von unabhängigen Komponenten kurzzeitlicher Sektionen von Frequenzbereichsdarstellungen die Approximationen für die zugrunde liegenden Quellen ergeben. Diese Approximationen können sowohl für Klassifizierungs- und Erkennungsaufgaben als auch für Vergleiche zwischen Klängen verwendet werden.
  • Wie in 3 dargestellt ist, kann die zeitliche Frequenzverteilung (TFD) durch die spektrale Leistungsdichte 115 (PSD) normalisiert werden, um den Beitrag von Komponenten mit geringer Frequenz, die mehr Energie in einigen akustischen Bereichen transportieren, zu verringern.
  • 4 und 5 zeigen jeweils die zeitliche und räumliche Zerlegung für den Schwingungserreger eines Schlaginstruments, das im regelmäßigen Rhythmus gespielt wird. Die beobachtbaren Strukturen lassen deutlich gegliederte Breitbandkomponenten, die den Stößen entsprechen, und eine horizontale Gliederung, die dem Schwingen des Metallmantels entspricht, erkennen.
  • Anwendungen für akustische Merkmale von Tönen
  • Meine Erfindung kann in einer Anzahl von Anwendungen genutzt werden. Die herausgezogenen Merkmale können als trennbare Komponenten einer akustischen Mischung betrachtet werden, die die eigene Struktur innerhalb der Quellenmischung darstellen. Herausgezogene Merkmale können mit einem Satz von vorgegebenen Klassen verglichen werden, die durch Mustererkennungsverfahren bestimmt werden, um die Komponenten zu erkennen oder zu identifizieren. Diese Klassifikatoren können im Bereich von Sprachphonemen, Klangeffekten, Musikinstrumenten, Tiertönen oder beliebigen anderen analytischen Modellen, die auf einer Sammlung basieren, liegen. Herausgezogene Merkmale können erneut unabhängig künstlich erzeugt werden, indem eine umgekehrte Filteranordnung verwendet wird, womit „Nicht Mischen" der akustischen Quellenmischung erreicht wird. Eine beispielhafte Verwendung trennt den Sänger, das Schlagzeug und die Gitarren aus einer akustischen Aufzeichnung, um einige Komponenten für einen neuen Zweck zu verwenden oder die musikalische Struktur automatisch zu analysieren. Ein anderes Beispiel trennt die Stimme eines Akteurs vom Hintergrundgeräusch, um das bereinigte Sprachsignal zu einer Spracherkennungsschaltung zur automatischen Transkription eines Films zu leiten.
  • Die spektralen Merkmale und die zeitlichen Merkmale können getrennt betrachtet werden, um verschiedene Eigenschaften der akustischen Struktur einzelner Klangobjekte innerhalb einer Mischung zu identifizieren. Spektrale Merkmale können solche Eigenschaften wie Werkstoffe, Größe und Form darstellen, wogegen zeitliche Merkmale das Verhalten wie Zerspringen, Zerbrechen und Zersplittern darstellen können. Folglich kann das Zersplittern von Glas vom Zerspringen von Glas oder dem Zersplittern eines Tontopfes unterschieden werden. Die herausgezogenen Merkmale können verändert und erneut künstlich erzeugt werden, um modifizierte synthetische Beispiele des Quellenklangs zu erzeugen. Wenn der Eingangsklang ein einzelnes Tonereignis mit einer Vielzahl von akustischen, Merkmalen wie das Zersplittern von Glas ist, dann können die einzelnen Merkmale zur erneuten Synthese gesteuert werden. Dies ist nutzbar für Medienanwendungen auf der Basis von Modellen wie das Erzeugen von Klang in virtuellen Umgebungen.
  • Indexieren und Aufsuchen
  • Meine Erfindung kann auch zum Indexieren und Aufsuchen einer großen multimedialen Datenbank mit vielen unterschiedlichen Klangtypen z.B. Klangeffekte, tierische Töne, Musikinstrumente, Stimmen, Strukturen, Umgebungsklänge, männliche und weibliche Töne eingesetzt werden.
  • In diesem Zusammenhang werden Klangbeschreibungen allgemein in zwei Typen eingeteilt: eine auf Text basierende, qualitative Beschreibung durch Kategoriekennsätze und eine quantitative Beschreibung mittels probabilistischer Modellzustände. Kategoriekennsätze liefern qualitative Informationen über den Klanginhalt. Beschreibungen in dieser Form sind geeignet für Abfrage-Anwendungen, die auf Text basieren wie Internet-Suchmaschinen oder ein beliebiges Bearbeitungs-Tool, das Textfelder verwendet.
  • Im Gegensatz dazu umfassen die quantitativen Deskriptoren kompakte Informationen über ein Klangsegment und können zur numerischen Bewertung von Klangähnlichkeit eingesetzt werden. Zum Beispiel können diese Deskriptoren verwendet werden, um spezielle Instrumente in einer Bild- oder Tonaufzeichnung zu erkennen. Die qualitativen und quantitativen Deskriptoren sind gut geeignet für hörfrequente Suchanwendungen mit Abfrage-durch-Beispiel.
  • Deskriptoren der Klangerkennung und Beschreibungsschemen Qualitative Deskriptoren
  • Beim Segmentieren einer Tonaufzeichnung in Klassen ist es erwünscht, passende semantische Informationen über den Inhalt zu erlangen. Zum Beispiel kann die Erkennung eines Schreis in einem Soundtrack Entsetzen oder Gefahr anzeigen, und Gelächter kann eine komische Sache anzeigen. Darüber hinaus können Töne die Anwesenheit einer Person angeben, und daher können die Bildsegmente, zu denen diese Töne gehören, Anwärter bei einer Suche nach Menschen enthaltenden Clips sein. Deskriptoren für Klangkategorie und Klassifizierungsschema stellen Mittel bereit, um Kategoriekonzepte in hierarchische Strukturen zu organisieren, die diesen Typ einer komplexen relationalen Suchstrategie ermöglichen.
  • Klangkategorie
  • Wie in 6 für eine einfache systematische Klassifikation 600 dargestellt ist, wird ein Beschreibungsschema (DS) zur Benennung von Klangkategorien eingesetzt. Als Beispiel kann dem Klang von Hundebellen der Kennsatz mit qualitativer Kategorie „Hunde" 610 mit „Kläffen" 611 als untergeordneter Kategorie gegeben werden. Außerdem können „Bellen" 612 oder „Jaulen" 613 erwünschte untergeordnete Kategorien von „Hunde" sein. Die ersten zwei untergeordneten Kategorien sind nahe verwandt, jedoch ist die dritte ein gänzlich anderes Klangereignis. Deshalb stellt 6 vier Kategorien dar, die zu einer systematischen Klassifikation mit „Hunde" als dem Stammwortknoten 610 organisiert sind. Jede Kategorie hat zumindest eine relationale Verknüpfung 601 zu einer anderen Kategorie in der systematischen Klassifikation. Durch Voreinstellung wird eine enthaltene Kategorie als Kategorie (NC) 601 betrachtet, die enger als die enthaltende Kategorie ist. Jedoch ist in diesem Beispiel „Bellen" als mit „Kläffen" nahezu gleichbedeutend aber als weniger vorzuziehen definiert. Um eine solche Struktur zu erfassen, sind die folgenden Beziehungen als Teil meines Beschreibungsschemas festgelegt.
  • BC – Breitere Kategorie bedeutet, die zugeordnete Kategorie ist in der Bedeutung allgemeiner als die enthaltende Kategorie. NC – Engere Kategorie bedeutet, die zugeordnete Kategorie ist in der Bedeutung spezieller als die enthaltende Kategorie. US – Verwendung der zugeordneten Kategorie, die mit der ständigen Kategorie im Wesentlichen gleichbedeutend ist, weil sie für die gegenwärtige Kategorie bevorzugt wird. UF – Verwendung der gegenwärtigen Kategorie wird für den Gebrauch der nahezu gleichbedeutenden, zugeordneten Kategorie bevorzugt. RC – Die zugeordnete Kategorie ist nicht eine gleichbedeutende, quasi-synonyme, breitere oder engere Kategorie, jedoch mit der enthaltenden Kategorie verbunden.
  • Der folgende Code eines XML-Schemas zeigt, wie man das qualitative Beschreibungsschema für die systematische Klassifikation von in 6 dargestellten Kategorien unter Verwendung einer Deskriptor-Definitionssprache (DDL) konkret darstellt:
  • Figure 00150001
  • Die Attribute für Kategorie und Schema stellen zusammen einzigartige Kennsätze zur Verfügung, die zum Bewerten von Kategorien und systematischen Klassifikationen aus den quantitativen Beschreibungsschemen wie die nachstehend ausführlicher beschriebenen Wahrscheinlichkeitsmodelle verwendet werden können. Der Kennsatz-Deskriptor gibt einen bedeutungsvollen semantischen Kennsatz für jede Kategorie, und der relationale Deskriptor beschreibt Beziehungen unter Kategorien in der systematischen Klassifikation gemäß der Erfindung.
  • Klassifizierungsschema
  • Gemäß 7 können Kategorien durch die relationalen Verknüpfungen zu einem Klassifizierungsschema 700 kombiniert werden, um eine reichere systematische Klassifikation herzustellen, wobei zum Beispiel „Kläffen" 611 eine untergeordnete Kategorie von „Hunde" 610 ist, die wiederum eine untergeordnete Kategorie von „Haustiere" 701 ist, wie es die Kategorie „Katzen" 710 ist. Katzen 710 besitzen die Klangkategorien „Miauen" 711 und „Schnurren" 712. Das Folgende ist ein Beispiel eines einfachen Klassifizierungsschemas für „Haustiere", das zwei Kategorien „Hunde" und „Katzen" enthält.
  • Um dieses Klassifizierungsschema durch Erweiterung des zuvor definierten Schemas zu realisieren, wird ein zweites Schema, „CATS" genannt, wie folgt konkret dargestellt:
  • Figure 00170001
  • Um diese Kategorien jetzt zu kombinieren, wird ein „PETS" genanntes Klassifizierungsschema konkret dargestellt, das sich auf die zuvor definierten Schemen bezieht:
  • Figure 00170002
  • Jetzt umfasst das "PETS" genannte Klassifizierungsschema alle Kategoriekomponenten von "DOGS" und "CATS" mit der zusätzlichen Kategorie "Pets" als Stammwort. Eine qualitative systematische Klassifikation, wie die oben beschriebene, genügt für Anwendungen zum Indexieren von Texten.
  • Die folgenden Abschnitte beschreiben quantitative Deskriptoren zur Klassifizierung und Indexierung, die zusammen mit den qualitativen Deskriptoren verwendet werden können, um ein komplettes Klangmaß und eine Suchmaschine zu bilden.
  • Quantitative Deskriptoren
  • Die quantitativen Deskriptoren der Tonerkennung beschreiben Merkmale eines mit statistischen Klassifikatoren zu verwendenden Audiosignals. Die quantitativen Deskriptoren der Tonerkennung können zur allgemeinen Tonerkennung einschließlich Klangeffekte und Musikinstrumente verwendet werden. Zusätzlich zu den vorgeschlagenen Deskriptoren kann jeder andere Deskriptor, der innerhalb des Tonrahmens definiert ist, zur Klassifizierung eingesetzt werden.
  • Basismerkmale des Tonfrequenzspektrums
  • Unter den Merkmalen zur Tonklassifizierung, die am meisten verwendet werden, sind Darstellungen, die auf einem Spektrum wie spektrale Leistungsanteile oder Datenblöcke basieren. Bezeichnenderweise ist jeder spektrale Anteil ein n-dimensionaler Vektor, wobei n die Anzahl von Spektrumskanälen mit bis zu 1024 Datenkanälen ist. Ein logarithmisches Frequenzsystem wie es durch einen hörfrequenten Rahmen-Deskriptor dargestellt wird, unterstützt die Reduzierung der Dimensionalität auf etwa 32 Kanäle. Daher sind vom Spektrum abgeleitete Merkmale im Allgemeinen auf Grund ihrer hohen Dimensionalität mit Wahrscheinlichkeitsmodell-Klassifikatoren nicht kompatibel. Wahrscheinlichkeits-Klassifikatoren arbeiten am besten mit weniger als 10 Dimensionen.
  • Deshalb bevorzuge ich die Grundfunktionen mit geringer Dimensionalität, die durch die Singulärwertzerlegung (SVD), wie sie oben und nachstehend beschrieben ist, erzeugt werden. Dann ist ein Basisdeskriptor für Tonspektren ein Container für die Grundfunktionen, die verwendet werden, um das Spektrum auf den untergeordneten Raum mit geringerer Dimensionalität, der für Wahrscheinlichkeitsmodell-Klassifikatoren geeignet ist, zu projizieren.
  • Ich bestimme eine Basis für jede Klangklasse und untergeordnete Klassen. Die Basis erfasst die statistisch regelmäßigsten Merkmale des Raumes von Klangmerkmalen. Eine Dimensionsreduzierung tritt auf durch Projektion von spektralen Vektoren gegenüber einer Matrix von aus Daten abgeleiteten Grundfunktionen wie es oben beschrieben ist. Die Grundfunktionen werden in den Spalten einer Matrix gespeichert, in der die Zeilenzahl der Länge des spektralen Vektors und die Spaltenzahl der Anzahl von Grundfunktionen entspricht. Eine Basisprojektion ist das Matrizenprodukt des spektralen Vektors und des Basisvektors.
  • Aus Grundfunktionen rekonstruiertes Spektrogramm
  • 8 stellt ein Spektrogramm 800 dar, das aus vier Grundfunktionen gemäß der Erfindung rekonstruiert wurde. Das spezifische Spektrogramm ist für „Popmusik". Die spektralen Basisvektoren 801 auf der linken Seite sind mit Basisvektoren 802 der Projektion kombiniert, indem das Vektorprodukt verwendet wird. Jede resultierende Matrix des Vektorprodukts wird summiert, um die endgültige Rekonstruktion zu erzeugen. Grundfunktionen werden gewählt, um die Informationen in weniger Dimensionen als die Ursprungsdaten zu maximieren. Zum Beispiel können Grundfunktionen nicht korrelierten Merkmalen, die unter Verwendung der Hauptkomponentenanalyse (PCA) oder einer Karhunen-Loeve Transformation (KLT) herausgezogen werden oder statistisch unabhängigen Komponenten entsprechen, die durch Analyse unabhängiger Komponenten (ICA) herausgezogen werden. Die KLT oder die Hotelling-Transformation ist die bevorzugte de-korrelierende Transformation, wenn die Statistik zweiter Ordnung, d.h. Kovarianzen bekannt sind. Diese Rekonstruktion wird mit Bezug auf 13 ausführlicher beschrieben.
  • Für Klassifizierungszwecke wird eine Basis für eine ganze Klasse abgeleitet. Folglich umfasst der Klassifizierungsraum die statistisch am meisten herausragenden Komponenten der Klasse. Die folgende konkrete Darstellung der DDL (Deskriptor-Definitionssprache) definiert eine Projektions-Grundmatrix, die eine Reihe von 31-kanaligen, logarithmischen Frequenzspektren auf fünf Dimensionen reduziert.
  • Figure 00200001
  • loEdge, hiEdge und Auflösungsattribute geben untere und obere Frequenzgrenzen der Grundfunktionen und den Abstand der spektralen Kanäle in Oktavband-Schreibweise an. In dem erfindungsgemäßen Klassifizierungsrahmen werden die Grundfunktionen für eine ganze Klangklasse zusammen mit einem Wahrscheinlichkeitsmodell für die Klasse gespeichert.
  • Merkmale der Tonerkennung
  • Merkmale, die zur Tonerkennung eingesetzt werden, können in einem einzelnen Beschreibungsschema gesammelt werden, das für vielfältige unterschiedliche Anwendungen verwendet werden kann. Die vorgegebenen Projektionsdeskriptoren für Tonfrequenzspektren bringen eine gute Leistung bei der Klassifizierung vieler Klangtypen, zum Beispiel Töne, die aus Soundeffekt-Bibliotheken und Klangprobenplatten für Musikinstrumente entnommen wurden.
  • Die Basismerkmale werden aus einem wie oben beschriebenen Hüllkurven-Extraktionsprozess für Tonfrequenzspektren abgeleitet. Der Projektionsdeskriptor für Tonfrequenzspektren ist ein Container für dimensionsreduzierte Merkmale, die durch Projektion einer spektralen Hüllkurve gegenüber einem Satz von ebenfalls oben beschriebenen Grundfunktionen erhalten werden. Zum Beispiel wird die Hüllkurve für Tonfrequenzspektren durch schnelle Fourieranalyse mit Schiebefenster mit dem Verändern der Abtastrate auf Frequenzbänder mit logarithmischem Abstand herausgezogen. In der bevorzugten Ausführung beträgt die Datenblockperiode der Analyse 10 ms. Jedoch wird eine Extraktion mit Schiebefenster von 30 ms Dauer mit einem Hamming-Fenster verwendet. Das Intervall von 30 ms wird zur genügenden Bereitstellung spektraler Auflösung gewählt, um den ersten Kanal von 62,5 Hz Breite eines Oktavbandspektrums grob aufzulösen. Die Fenstergröße der schnellen Fourieranalyse ist die nächstgrößere Zahl zur zweiten Potenz von Abtastwerten. Das bedeutet für 30 ms bei 32 kHz, es gibt 960 Abfragewerte, wobei die schnelle Fourieranalyse an 1024 Abfragewerten ausgeführt werden würde. Für 30 ms bei 44,1 kHz gibt es 1323 Abfragewerte, jedoch würde die schnelle Fourieranalyse an 2048 Abfragewerten mit auf Null gesetzten Abfragewerten außerhalb des Fensters ausgeführt werden.
  • Die 9a und 9b zeigen drei spektrale Basiskomponenten 901903 für eine Zeitmarke 910 und die sich ergebenden Basisprojektionen 911913 mit einer Frequenzmarke 920 für ein Spektrogramm 1000 von „Gelächter" in den 10a–b. Hierbei ist das Format den in 4 und 5 gezeigten ähnlich.
  • 10a stellt ein Spektrogramm von Gelächter mit logarithmischem Maßstab und 10b die Rekonstruktion eines Spektrogramms dar. In beiden Abbildungen sind Zeitmarke und Frequenzmarke auf der x-Achse bzw. der y-Achse aufgetragen.
  • Zusätzlich zu den Basisdeskriptoren kann eine große Sequenz von alternativen quantitativen Deskriptoren verwendet werden, um Klassifikatoren zu definieren, die spezielle Eigenschaften einer Klangklasse, wie die harmonische Hüllkurve und grundlegende Frequenzmerkmale nutzen, die zur Klassifizierung von Musikinstrumenten oft eingesetzt werden.
  • Eine Bequemlichkeit der Dimensionsreduzierung, wie sie durch meine Erfindung vorgenommen wird, ist, dass ein beliebiger Deskriptor, der auf einer skalierbaren Reihe basiert, an spektrale Deskriptoren mit der gleichen Abtastrate angefügt werden kann. Außerdem kann eine geeignete Basis für den gesamten Satz von erweiterten Merkmalen in der gleichen Art und Weise wie eine dem Spektrum zugrunde gelegte Basis berechnet werden.
  • Zusammenfassung von Daten eines Spektrogramms mit einer Grundfunktion
  • Eine andere Anwendung für das Beschreibungsschema der Klangerkennungsmerkmale nach der Erfindung ist eine effiziente Spektrogrammdarstellung. Für Zwecke der Sichtbarmachung und Zusammenfassung von Daten für Spektrogramme können die Merkmale der Tonfrequenz-Basisprojektion und der Tonfrequenzbasis als sehr wirksamer Speichermechanismus eingesetzt werden.
  • Um ein Spektrogramm zu rekonstruieren, benutzen wir Gleichung 2, die nachstehend ausführlich beschrieben wird. Die Gleichung 2 erzeugt ein zweidimensionales Spektrogramm aus dem Vektorprodukt von jeder Grundfunktion und ihrer entsprechenden Spektrogrammbasisprojektion wie es ebenfalls in 8, wie oben beschrieben, dargestellt ist.
  • Beschreibungsschemen von Wahrscheinlichkeitsmodellen
  • Modell des endlichen Zustands
  • Klangphänomene sind dynamisch, weil sich spektrale Merkmale über die Zeit verändern. Es ist diese sehr zeitliche Veränderung, die akustischen Signalen ihre charakteristischen „unverwechselbaren Kennzeichen" für eine Erkennung geben. Daher teilt mein Modell das durch eine spezielle Quelle oder Klangklasse erzeugte akustische Signal in eine endliche Anzahl von Zuständen. Die Teilung basiert auf den spektralen Merkmalen. Individuelle Töne werden durch ihre Trajektorien durch diesen Zustandsraum beschrieben. Dieses Modell wird nachstehend mit Bezug auf die 11a–b ausführlicher beschrieben. Jeder Zustand kann durch eine stetige Verteilung der Wahrscheinlichkeit wie zum Beispiel eine Gaußsche Verteilung dargestellt werden.
  • Das dynamische Verhalten einer Klangklasse durch den Zustandsraum wird durch eine Übergangsmatrix k × k dargestellt, die die Wahrscheinlichkeit eines Übergangs in einen nächsten Zustand beschreibt, wenn ein aktueller Zustand gegeben ist. Eine Übergangsmatrix T modelliert die Wahrscheinlichkeit des Übergangs vom Zustand i zum Zeitpunkt t – 1 in den Zustand j zum Zeitpunkt t. Eine Verteilung von Anfangszuständen, die ein Vektor k × 1 von Wahrscheinlichkeiten ist, wird in der Regel auch in einem endlichen Zustandsmodell verwendet. Das k-te Element in diesem Vektor ist die Wahrscheinlichkeit, sich beim Zustand k in dem ersten Beobachtungs-Datenblock zu befinden.
  • Gaußscher Verteilungstyp
  • Zur Modellierung von Zuständen bei einer Klangklassifizierung wird eine mehrdimensionale Gaußsche Verteilung verwendet. Gaußsche Verteilungen sind durch einen Vektor 1 × n von Mitteln m und eine n × n Kovarianz-Matrix K parameterisiert, wobei n die Anzahl von Merkmalen in jedem Beobachtungsvektor ist. Der Ausdruck zur Berechnung von Wahrscheinlichkeiten für einen speziellen Vektor x bei gegebenen Gaußschen Parametern ist.
  • Figure 00240001
  • Ein stetiges, verstecktes Markov-Modell ist ein endliches Zustandsmodell mit einem Verteilungsmodell von stetigen Wahrscheinlichkeiten für die Wahrscheinlichkeiten von Beobachtungszuständen. Die folgende konkrete Darstellung in DDL ist ein Beispiel für den Einsatz von Beschreibungsschemen für Wahrscheinlichkeitsmodelle zum Darstellen eines stetigen, versteckten Markov-Modells mit Gaußschen Zuständen. In diesem Beispiel wurden Gleitkommazahlen nur für Darstellungszwecke auf zwei Dezimalstellen gerundet.
  • Figure 00250001
  • In diesem Beispiel wird "ProbabilityModel" konkret als ein Gaußscher Verteilungstyp dargestellt, der aus der Basisklasse von Wahrscheinlichkeitsmodellen abgeleitet ist.
  • Beschreibungsschemen für Tonerkennungsmodelle
  • Bis jetzt habe ich Tools ohne irgendeine Anwendungsstruktur isoliert. Die folgenden Datentypen kombinieren die oben beschriebenen Deskriptoren und Beschreibungsschemen zu einem vereinheitlichten Rahmen für Klangklassifizierung und Indexierung. Klangsegmente können mit einem Kategoriekennsatz indexiert werden, der auf dem Ausgang eines Klassifikators basiert. Zusätzlich können die Parameter eines Wahrscheinlichkeitsmodells zum Indexieren von Klang in einer Datenbank eingesetzt werden. Indexieren durch Modellparameter, wie zum Beispiel Zustände, ist für Anwendungen mit Abfrage-durch-Beispiel notwendig, wenn die Abfragekategorie unbekannt ist oder wenn ein Anpassungskriterium, das enger als der Umfang einer Kategorie ist, erforderlich wird.
  • Tonerkennungsmodell
  • Ein Beschreibungsschema für Tonerkennungsmodelle bestimmt ein Wahrscheinlichkeitsmodell einer Klangklasse wie zum Beispiel ein verstecktes Markov-Modell oder ein Gaußsches Mischmodell. Das folgende Beispiel ist eine konkrete Darstellung eines versteckten Markov-Modells der Klangkategorie 611 „Kläffen" von 6. Ein Wahrscheinlichkeitsmodell und zugeordnete Basisfunktionen für die Klangklasse werden auf die gleiche Art und Weise wie für die vorherigen Beispiele definiert.
  • Figure 00260001
  • Klangmodell-Zustandsverlauf
  • Dieser Deskriptor bezieht sich auf ein Endlich-Zustand-Wahrscheinlichkeitsmodell und beschreibt den dynamischen Zustandsverlauf eines Klangs durch das Modell. Die Klänge können auf zwei Wegen indexiert werden, entweder durch Segmentieren der Klänge zu Modellzuständen oder durch Abtasten des Zustandsverlaufs in regelmäßigen Abständen. Im ersten Fall enthält jedes Tonsegment einen Bezug auf den Zustand, und die Dauer des Segments gibt die Aktivierungsdauer für den Zustand an. Im zweiten Fall wird der Klang durch abgetastete Reihen von Sachregistern beschrieben, die sich auf die Modellzustände beziehen. Klangkategorien mit verhältnismäßig lang dauernden Zuständen werden effizient beschrieben, indem der Ein-Segment, Ein-Zustand-Lösungsweg verwendet wird. Klänge mit relativ kurzer Dauer des Zustands werden effizienter beschrieben, indem die abgetasteten Reihen von Zustands-Sachregistern beschrieben werden.
  • 11a zeigt ein logarithmisches Spektrogramm 1100 (Frequenz gegenüber Zeit) des Klangs 611 von Hundekläffen von 6. 11b stellt eine Sequenz der Klangmodell-Zustandsverläufe von Zuständen durch ein stetiges, verstecktes Markov-Modell für das Modell „Kläffen" von 11a über das gleiche Zeitintervall dar. In 11b ist die x-Achse die Zeitmarke und die y-Achse die Zustandsmarke.
  • Klassifikator für Klangerkennung
  • 12 zeigt einen Klassifikator für Klangerkennung, der eine einzelne Datenbank 1200 für alle notwendigen Komponenten des Klassifikators verwendet. Der Klangerkennungs-Klassifikator beschreibt Beziehungen zwischen einer Anzahl von Wahrscheinlichkeitsmodellen, die somit eine Ontologie von Klassifikatoren definieren. Zum Beispiel kann eine hierarchische Erkennungsvorrichtung weit reichende Klangklassen, wie zum Beispiel Tiere, an den Wurzelknoten und feinere Klassen, wie zum Beispiel Hundekläffen und Katzenmiauen, an den Blattknoten, wie für die 6 und 7 beschrieben, klassifizieren. Dieses Schema definiert eine Abbildung zwischen einer Ontologie von Klassifikatoren und einer systematischen Klassifikation von Klangkategorien unter Verwendung einer Deskriptor-Schemastruktur des Kurvenbildes, um zu ermöglichen, dass hierarchische Klangmodelle zum Herausziehen von Kategoriebeschreibungen für eine gegebene systematische Klassifikation verwendet werden.
  • 13 stellt ein System 1300 zum Aufbau einer Datenbank von Modellen dar. Das in 13 gezeigte System ist eine Erweiterung des in 1 dargestellten Systems. Hierbei wird das eingegebene akustische Signal vor dem Filtern selektiert, um die spektrale Hüllkurve herauszuziehen. Das System kann einen hörfrequenten Eingang 1301 in Form von z.B. Klangdateien im WRV-Format aufnehmen. Das System zieht Klangmerkmale aus den Dateien heraus und trainiert ein verstecktes Markov-Modell mit diesen Merkmalen. Das System nutzt außerdem ein Verzeichnis von Klangbeispielen für jede Klangklasse. Die hierarchische Verzeichnisstruktur definiert eine Ontologie, die einer gewünschten systematischen Klassifikation entspricht. Für jedes der Verzeichnisse in der Ontologie wird ein verstecktes Markov-Modell trainiert.
  • Extraktion von Klangmerkmalen
  • Das System 1300 von 13 zeigt ein Verfahren zum Herausziehen von Grundfunktionen des Tonspektrums und Merkmalen aus einem akustischen Signal wie es oben beschrieben ist. Ein eingegebenes akustisches Signal 1301 kann entweder durch eine einzelne Quelle, z.B. ein Mensch oder ein Tier oder ein Musikinstrument oder viele Quellen, z.B. ein Mensch und ein Tier sowie mehrere Instrumente oder auch synthetische Klänge erzeugt werden. Im letzteren Fall ist das akustische Signal eine Mischung. Das eingegebene akustische Signal wird zuerst in Datenblöcke von 10 ms selektiert 1310. Anzumerken ist, dass in 1 das Eingangssignal vor dem Selektieren mit Bandpass gefiltert ist. Hierbei wird das akustische Signal zuerst selektiert und anschließend gefiltert 1320, um ein kurzzeitiges frequenz-logarithmisches Spektrum herauszuziehen. Filtern führt eine Analyse des Zeitfrequenz-Leistungsspektrums wie eine schnelle Fourieranalyse mit quadratischer Größe aus. Das Ergebnis ist eine Matrix mit M Datenblöcken und N Frequenz-Intervallbereichen. Die spektralen Vektoren x sind die Zeilen dieser Matrix.
  • Im Schritt 1330 wird eine Normalisierung im logarithmischen Maßstab durchgeführt. Jeder spektrale Vektor x wird aus dem Leistungsspektrum in einen Dezibel-Maßstab 1331 z = 10log10(x) umgewandelt. Im Schritt 1332 wird die L2-Norm der Vektorelemente
    Figure 00290001
    bestimmt. Durch den spektralen Vektor mit neuer Einheitsnorm wird anschließend durch z/r die spektrale Hüllkurve X ~ bestimmt, die jeden Anteil z durch ihre Potenz r dividiert, und die sich ergebende, normalisierte spektrale Hüllkurve X ~ 1340 wird in den Basisextraktionsprozess 1360 geleitet.
  • Die spektrale Hüllkurve X ~ ordnet jeden Vektor zeilenweise in Form einer Beobachtungsmatrix an. Die Größe der sich ergebenden Matrix ist M × N, wobei M die Anzahl der zeitlichen Datenblöcke und N die Anzahl von Frequenz-Intervallbereichen ist. Die Matrix wird die folgende Struktur aufweisen:
  • Figure 00290002
  • Basisextraktion
  • Grundfunktionen werden mittels Singulärwertzerlegung SVD 130 von 1 herausgezogen. Die SVD wird unter Verwendung des Befehls [U, S, V] = SVD(X, 0) durchgeführt. Ich bevorzuge es, eine „sparsame" SVD zu verwenden. Eine sparsame SVD lässt unnötige Zeilen und Spalten während der Faktorenbildung der SVD weg. Ich benötige die Zeilen-Grundfunktionen nicht, somit wird die Effektivität der Extraktion der SVD erhöht. Die SVD faktorisiert die Matrix wie folgt. X ~ = USVT, wobei X ~ zu einem Matrizenprodukt von drei Matrizen, die Zeilenbasis U, die diagonale Singulärwertmatrix S und die transponierten Spalten-Grundfunktionen V faktorisiert wird. Die Basis wird reduziert, indem nur die ersten K Grundfunktionen, d.h. die ersten K Spalten von V beibehalten werden: Vk = [v1 v2 ... vk],wobei K bezeichnenderweise im Bereich von 3–10 Grundfunktionen für auf Klangmerkmalen basierenden Anwendungen liegt. Zum Bestimmen des Verhältnisses von Informationen, die für K Grundfunktionen beibehalten werden, setzt man die in der Matrix S enthaltenen Singulärwerte ein:
    Figure 00300001
    wobei I(K) das Verhältnis von Informationen ist, die für K Grundfunktionen beibehalten werden, und N die gesamte Anzahl von Grundfunktionen ist, die ebenfalls gleich der Anzahl von spektralen Intervallbereichen ist. Die SVD Grundfunktionen sind in den Spalten der Matrix gespeichert.
  • Zur größtmöglichen Verträglichkeit zwischen den Anwendungen besitzen die Grundfunktionen Spalten mit einheitlicher L2-Norm, und die Funktionen maximieren die Informationen in k Dimensionen in Bezug auf andere mögliche Grundfunktionen. Grundfunktionen können orthogonal, wie es durch eine PCA-Extraktion vorgegeben ist, oder nicht orthogonal sein, wie es durch eine ICA-Extraktion vorgegeben ist, siehe unten. Basisprojektion und Rekonstruktion werden durch die folgenden Analyse-Synthese-Gleichungen beschrieben. Y = XV (1)und X = YV+ (2)wobei X die spektrale Hüllkurve, Y die spektralen Merkmale und V die zeitlichen Merkmale sind. Die spektralen Merkmale werden aus der Beobachtungsmatrix m × k von Merkmalen herausgezogen, X ist die Matrix m × n der Spektrumsdaten mit zeilenweise organisierten spektralen Vektoren, und V ist eine Matrix n × k von Grundfunktionen, die in den Spalten angeordnet sind.
  • Die erste Gleichung entspricht einer Extraktion von Merkmalen, und die zweite Gleichung entspricht einer Rekonstruktion des Spektrums, siehe 8, wobei V+ die Pseudoinverse von V für den nicht orthogonalen Fall bezeichnet.
  • Analyse unabhängiger Komponenten
  • Nachdem die reduzierte Basis V der SVD herausgezogen worden ist, kann ein optionaler Schritt eine Basisdrehung in Richtungen maximaler statistischer Unabhängigkeit ausführen. Diese isoliert unabhängige Komponenten eines Spektrogramms und ist für jede Anwendung verwendbar, die eine maximale Trennung von Merkmalen erforderlich macht. Um eine statistisch unabhängige Basis unter Verwendung der oben erzielten Grundfunktionen zu finden, kann ein beliebiger der bekannten, weit und breit veröffentlichten Analysenprozesse unabhängiger Komponenten (ICA) eingesetzt werden, zum Beispiel JADE oder FastICA (Schnelle Analyse unabhängiger Komponenten), siehe Cardoso, J. F. und Laheld, B. H. „Equivariant adaptive source separation" („Äquivariante anpassungsfähige Quellentrennung"), IEEE Trans. On Signal Processing, 4: 112–114, 1996, oder Hyvarinen, A. „Fast and robust fixed-point algorithms for independent component analysis" („Schnelle und stabile Festkomma-Algorithmen zur Analyse unabhängiger Komponenten"), IEEE Trans. On Neural Networks, 10(3): 626–634, 1999.
  • Die folgende Verwendung der ICA faktorisiert einen Satz von Vektoren zu statistisch unabhängigen Vektoren [V T / k, A] = ica(VT k), wobei die neue Basis als Produkt der eingegebenen SVD-Vektoren und der Pseudo-Inversen der abgeschätzten Mischmatrix A, die durch den ICA-Prozess gegeben ist, erhalten wird. Die ICA-Basis ist die gleiche Größe wie die SVD-Basis und wird in den Spalten der Basismatrix gespeichert. Das festgehaltene Informationsverhältnis I(K) entspricht der SVD, wenn das gegebene Extraktionsverfahren genutzt wird. Die Grundfunktionen V K 1361 können in der Datenbank 1200 gespeichert werden.
  • In dem Fall, bei dem das eingegebene akustische Signal eine Mischung ist, die aus mehreren Quellen erzeugt wird, kann der Satz von Merkmalen, die durch die SVD erzeugt wurden, zu Gruppen zusammengeballt werden, indem ein beliebiges Verfahren von Clusterbildung mit einer Dimensionalität verwendet wird, die der Dimensionalität der Merkmale entspricht. Dieses ordnet gleiche Merkmale in der gleichen Gruppe an. Folglich umfasst jede Gruppe Merkmale für das durch eine einzelne Quelle erzeugte akustische Signal. Die Anzahl von bei Clusterbildung zu verwendenden Gruppen kann in Abhängigkeit von einem gewünschten Unterscheidungsniveau per Hand oder automatisch eingestellt werden.
  • Verwendung von Grundfunktionen untergeordneter Spektrumsräume
  • Um eine Projektion oder zeitliche Merkmale Y zu erhalten, wird die Matrix X der spektralen Hüllkurve mit den Basisvektoren der spektralen Merkmale V multipliziert. Dieser Schritt ist für Grundfunktionen sowohl von SVD als auch ICA der gleiche, d.h. Y ~k = X ~V k, wobei Y eine Matrix ist, die aus den reduzierten Dimensionsmerkmalen nach einer Projektion des Spektrums gegenüber der Basis V besteht.
  • Zur Rekonstruktion und Betrachtung eines unabhängigen Spektrogramms ziehe ich die nicht normalisierte spektrale Projektion heraus, indem der Normalisierungsschritt 1330 der Extraktion übersprungen wird, somit ist Yk = XV k. Um jetzt ein unabhängiges Spektrogramm Xk gemäß 8 zu rekonstruieren, werden die einzelnen Vektorpaare, die dem K-ten Projektionsvektor yk und dem umgekehrten K-ten Basisvektor vk entsprechen, als Komponenten eingesetzt, und es wird die Rekonstruktionsgleichung Xk = yk v k + angewendet, wobei der „+" Operator die Transponierte angibt für SVD-Grundfunktionen, die orthonormal sind, oder die Pseudo-Inverse für ICA-Grundfunktionen, die nicht orthogonal ist.
  • Zusammenfassung von Daten des Spektrogramms durch unabhängige Komponenten
  • Eine der Verwendungen für diese Deskriptoren ist es, ein Spektrogramm mit viel weniger Daten als ein volles Spektrogramm effektiv darzustellen. Unter Verwendung einer Basis von unabhängigen Komponenten entsprechen einzelne Spektrogramm-Rekonstruktionen, z.B. wie in 8 ersichtlich, im Allgemeinen den Quellenobjekten im Spektrogramm.
  • Modellerfassung und Training
  • Viel Mühe bei der Ausführung eines Klangklassifikators wird beim Sammeln und Vorbereiten von Trainingsdaten aufgebracht. Der Bereich von Tönen sollte den Umfang der Klangkategorie wiedergeben. Zum Beispiel kann das Hundebellen einzelnes Bellen, mehrfaches aufeinander folgendes Bellen oder das Bellen vieler Hunde auf einmal enthalten. Der Prozess der Modellextraktion passt sich dem Umfang der Daten an, somit erzeugt ein engerer Bereich von Beispielen einen Klassifikator, der spezialisierter ist.
  • 14 zeigt einen Prozess 1400 zum Herausziehen von Merkmalen 1410 und die Grundfunktion 1420 wie oben beschrieben aus akustischen Signalen, die durch bekannte Quellen 1401 erzeugt wurden. Diese werden anschließend verwendet, um versteckte Markov-Modelle zu trainieren 1440. Die trainierten Modelle werden in der Datenbank 1200 zusammen mit ihren entsprechenden Merkmalen gespeichert. Während des Trainings wird ein unbeaufsichtigter Clusterbildungsprozess genutzt, um einen n-dimensionalen Merkmalsraum in k Zustände aufzuteilen. Der Merkmalsraum wird durch Beobachtungsvektoren mit reduzierter Dimension besetzt. Der Prozess bestimmt eine optimale Anzahl von Zuständen für die gegebenen Daten durch Streichen einer Übergangsmatrix, wenn eine erste Abschätzung für k gegeben ist. Bezeichnenderweise sind für eine gute Leistungsfähigkeit von Klassifikatoren zwischen fünf und zehn Zustände ausreichend.
  • Die versteckten Markov-Modelle können mit einer Variante des bekannten Baum-Welch-Prozesses, der auch als Vorwärts-Rückwärts-Prozess bekannt ist, trainiert werden. Diese Prozesse werden erweitert durch Verwendung einer Vorwegnahme des Informationsgehaltes und der praktischen Ausführung einer deterministischen Vergütung eines Prozesses der Erwartungsmaximierung (EM).
  • Einzelheiten für einen geeigneten HMM-Trainingsprozess 1430 sind durch Brand in „Pattern discovery via entropy minimization" („Feststellung von Mustern durch Minimierung des Informationsgehalts") In Proceedings, Uncertainty '99, Society of Artificial intelligence and Statistics No. 7 (Gesellschaft für künstliche Intelligenz und Statistik Nr. 7), Morgan Kaufmann, 1999 und Brand, „Structure discovery in conditional probability models via an entropic prior and parameter extinction" („Feststellung von Strukturen in Modellen bedingter Wahrscheinlichkeit durch Vorwegnahme des Informationsgehalts und Parameterunterscheidung"), Neural Computation, 1999, beschrieben.
  • Nachdem jedes HMM (verstecktes Markov-Modell) für jede Quelle trainiert worden ist, wird das Modell im permanenten Speicher 1200 zusammen mit seinen Grundfunktionen, d.h. dem Satz von Klangmerkmalen, abgelegt. Wenn eine Anzahl von Klangmodellen, die einer ganzen systematischen Klassifikation von Klangkategorien entspricht, trainiert wurde, werden die HMM zusammen in einer größeren Datenstruktur eines Klangerkennungs-Klassifikators gesammelt, wodurch eine Ontologie von Modellen gemäß 12 erzeugt wird. Die Ontologie wird eingesetzt, um neue Klänge mit qualitativen und quantitativen Deskriptoren zu indexieren.
  • Klangbeschreibung
  • 15 zeigt ein automatisches Extraktionssystem 1500 zum Indexieren eines Klangs in einer Datenbank unter Verwendung von vorher trainierten Klassifikatoren, die als DDL-Datensätze im Speicher abgelegt wurden. Ein unbekannter Klang wird aus dem Format einer Medienquelle wie eine WAVE-Datei 1501 gelesen. Der unbekannte Klang wird wie oben beschrieben als Spektrum projiziert 1520. Die Projektion, das heißt der Satz von Merkmalen wird dann verwendet, um eines der HMM aus der Datenbank 1200 auszuwählen 1530. Ein Viterby-Dekodierer 1540 kann eingesetzt werden, um sowohl ein am besten passendes Modell als auch einen Zustandsverlauf durch das Modell für den unbekannten Klang zu geben. Das heißt, es gibt einen Modellzustand für jeden ausschnittweise dargestellten Datenblock des Klangs, siehe 11b. Jeder Klang wird dann durch seine Kategorie indexiert; Beziehung und Zustandsverlauf des Modells sowie die Deskriptoren werden zu einer Datenbank im DDL-Format geschrieben. Die indexierte Datenbank 1599 kann anschließend aufgesucht werden, um passende Klänge zu finden, indem ein beliebiger der wie oben beschriebenen, gespeicherten Deskriptoren, zum Beispiel alles Hundebellen, verwendet wird. Die im Wesentlichen ähnlichen Klänge können dann in einer Ergebnisliste 1560 dargestellt werden.
  • 16 zeigt die Leistungsfähigkeit der Klassifizierung jeweils für zehn Klangklassen 16011610: Vogelzwitschern, Applaus, Hundebellen, Explosionen, Fußschritte, Brechen von Glas, Gewehrschüsse, Turnschuhe, Gelächter und Telefone. Die Leistungsfähigkeit des Systems wurde gegenüber einer völligen Echtheit gemessen, indem der Kennsatz des Quellenklangs wie er durch eine professionelle Klangeffekt-Bibliothek spezifiziert ist verwendet wird. Die gezeigten Ergebnisse sind für neue, während des Trainings der Klassifikatoren nicht verwendete Klänge und zeigen daher die Verallgemeinerungsfähigkeiten des Klassifikators. Die durchschnittliche Leistungsfähigkeit ist zu etwa 95% korrekt.
  • Anwendungen der Beispielsuche
  • Die folgenden Abschnitte geben Beispiele davon, wie man die Beschreibungsschemen nutzt, um Suchläufe unter Verwendung von sowohl DDL-basierten Abfragen als auch Abfragen des Formats der Medienquelle durchzuführen.
  • Abfrage durch Beispiel mit DDL
  • Wie in 17 in vereinfachter Form dargestellt ist, wird dem System 1700 eine Klangabfrage mittels Beschreibung 1710 des Klangmodell-Zustandsverlaufs im DDL-Format vorgebracht. Das System liest die Abfrage und besetzt interne Datenstrukturen mit den Beschreibungsinformationen. Diese Beschreibung wird auf Beschreibungen abgestimmt 1550, die von der auf Magnetplatte gespeicherten Klangdatenbank 1599 entnommen werden. Die sortierte Ergebnisliste 1560 der stärksten Übereinstimmungen wird zurückgeführt.
  • Der Abstimmungsschritt 1550 kann die Summe quadratischer Fehler (SSE) zwischen Histogrammen von Zustandsverläufen nutzen. Dieses Abstimmungsverfahren erfordert wenig Berechnung und kann direkt aus den gespeicherten Deskriptoren von Zustandsverläufen berechnet werden.
  • Histogramme von Zustandsverläufen sind die gesamte Länge der Zeit, die ein Klang in jedem Zustand braucht, dividiert durch die gesamte Länge des Klangs, womit eine diskrete Funktion der Wahrscheinlichkeitsdichte mit dem Zustandsanzeiger als zufälliger Variabler gegeben ist. Die SSE zwischen dem Histogramm des Abfrageklangs und dem von jedem Klang in der Datenbank wird als Metrik des zeitlichen Abstands verwendet. Ein Abstand von Null läuft auf eine identische Übereinstimmung hinaus, und vermehrte Abstände von ungleich Null sind zeitliche Übereinstimmungen, die unähnlicher sind. Diese Metrik des zeitlichen Abstands wird zum Klassifizieren der Klänge in der Datenbank in einer Ordnung von Ähnlichkeiten genutzt; dann wird die gewünschte Anzahl von Übereinstimmungen mit der zuerst aufgeführten, stärksten Übereinstimmung zurückgeführt.
  • 18a zeigt einen Zustandsverlauf und 18b ein Histogramm von Zustandsverläufen für eine Klangabfrage von Gelächter. 19a zeigt Zustandsverläufe und 19b Histogramme für die fünf besten Übereinstimmungen auf die Abfrage. Alle Übereinstimmungen sind von der gleichen Klasse wie die Abfrage, die den Erfolg der korrekten Leistungsfähigkeit des Systems anzeigt.
  • Um die Struktur der Ontologie zu beeinflussen, werden Klänge innerhalb äquivalenter oder engerer Kategorien wie sie durch eine systematische Klassifikation definiert sind, als Übereinstimmungen zurückgeführt. Folglich wird die Kategorie „Hunde" solche Klänge zurückführen, die zu allen Kategorien gehören, die zu „Hunden" in einer systematischen Klassifikation in Bezug stehen.
  • Abfrage-durch-Beispiel mit hörfrequentem Signal
  • Das System kann auch eine Abfrage mit einem Audiosignal als Eingabe durchführen. Hierbei ist die Eingabe für die Anwendung Abfrage-durch-Beispiel eine hörfrequente Abfrage anstelle einer Abfrage, die auf einer DDL-Beschreibung basiert. In diesem Fall wird der Extraktionsprozess des Audiomerkmals zuerst durchgeführt, nämlich ein Spektrogramm und Extraktion der Hüllkurve mit anschließender Projektion gegenüber einem gespeicherten Satz von Grundfunktionen für jedes Modell in dem Klassifikator.
  • Die resultierenden Merkmale mit reduzierter Dimension werden in den Viterby-Dekodierer für den gegebenen Klassifikator geleitet, und es wird das HMM mit dem Ergebnis größtmöglicher Wahrscheinlichkeit für die gegebenen Merkmale ausgewählt. Der Viterby-Dekodierer funktioniert im Wesentlichen wie ein Algorithmus zur Modellanpassung für das Klassifizierungsschema. Beziehung und Zustandsverlauf des Modells werden aufgezeichnet und die Ergebnisse gegenüber einer vorher berechneten Datenbank wie im ersten Beispiel angepasst.

Claims (12)

  1. Verfahren zum Herausziehen von Merkmalen aus einem akustischen Signal (101), das aus mehreren Quellen erzeugt ist, welches aufweist: Bilden eines Fensters (120) für das und Filtern (110) des akustischen Signals (101) um eine spektrale Umhüllung zu erzeugen; Reduzieren der Dimensionalität der spektralen Umhüllung (130, 131), um einen Satz von Merkmalen zu erzeugen; Zusammenballen der Merkmale in dem Satz, um eine Gruppe von Merkmalen für jede der mehreren Quellen zu erzeugen, wobei die Merkmale in jeder Gruppe spektrale Merkmale (108) und entsprechende zeitliche Merkmale (109), die jede Quelle charakterisieren, enthalten, und jede Gruppe von Merkmalen ein quantitativer Beschreibungssatz für jede Quelle ist; gekennzeichnet durch Assoziieren eines qualitativen Beschreibungssatzes mit jedem quantitativen Beschreibungssatz, um eine Kategorie für jede Quelle zu erzeugen; Organisieren der Kategorien in einer Datenbank (1599) als eine Systematik (600, 700) von klassifizierten Quellen; und Inbeziehungsetzen jeder Kategorie mit zumindest einer anderen Kategorie in der Datenbank durch eine beziehungsweise Verbindung (601).
  2. Verfahren nach Anspruch 1, bei dem die Kategorien in der Datenbank (1599) unter Verwendung einer Beschreibungsdefinitionssprache gespeichert werden.
  3. Verfahren nach Anspruch 2, bei dem eine besondere Kategorie in einer DDL-Beispielsdarstellung eine Basisprojektionsmatrix definiert, die eine Reihe von logarithmischen Frequenzspektren einer besonderen Quelle auf weniger Dimensionen reduziert.
  4. Verfahren nach Anspruch 1, bei dem die Kategorien Umwelttöne, Hintergrundrauschen, Toneffekte, Tonstrukturen, tierische Töne, Sprache, nichtsprachliche Äußerungen und Musik enthalten.
  5. Verfahren nach Anspruch 1, welches weiterhin aufweist: Kombinieren im Wesentlichen ähnlicher Kategorien in der Datenbank (1599) als Hierarchie von Klassen.
  6. Verfahren nach Anspruch 1, bei dem ein besonderer quantitativer Beschreibungssatz weiterhin einen Beschreibungssatz für eine harmonische Umhüllung und einen Beschreibungssatz für eine Grundfrequenz enthält.
  7. Verfahren nach Anspruch 1, bei dem die zeitlichen Merkmale (109) eine Trajektorie der Spektralmerkmale (108) über die Zeit beschreiben, und das weiterhin aufweist: Teilen des durch eine besondere Quelle erzeugten akustischen Signals in eine endliche Anzahl von Zuständen auf der Grundlage der entsprechenden Spektralmerkmale (108); Darstellen jedes Zustands durch eine kontinuierliche Wahrscheinlichkeitsverteilung; Darstellen der zeitlichen Merkmale (109) durch eine Übergangsmatrix, um Wahrscheinlichkeiten von Übergängen zu einem nächsten Zustand in Anbetracht eines gegenwärtigen Zustands zu modellieren.
  8. Verfahren nach Anspruch 7, bei dem die kontinuierliche Wahrscheinlichkeitsverteilung eine Gaußsche Verteilung ist, die parameterisiert ist durch einen 1 × n-Vektor von Mitteln m, und eine n × n-Kovarianzmatrix K, wobei n die Anzahl von Spektralmerkmalen (108) in jeder spektralen Umhüllung ist und die Wahrscheinlichkeiten einer besonderen spektralen Umhüllung x gegeben sind durch:
    Figure 00420001
  9. Verfahren nach Anspruch 1, bei dem jede Quelle bekannt ist, und das weiterhin aufweist: Trainieren eines versteckten Markov-Modells (1200) für jede bekannte Quelle mit dem Satz von Merkmalen; Speichern jedes trainierten versteckten Markov-Modells (1200) mit dem assoziierten Satz von Spektralmerkmalen in einer Datenbank.
  10. Verfahren nach Anspruch 1, bei dem der Satz von akustischen Signalen zu einer bekannten Kategorie gehört, und das weiterhin aufweist: Herausziehen einer Spektralbasis für die akustischen Signale; Trainieren eines versteckten Markov-Modells (1200) unter Verwendung der zeitlichen Merkmale der akustischen Signale; Speichern jedes trainierten versteckten Markov- Modells mit den assoziierten spektralen Basismerkmalen.
  11. Verfahren nach Anspruch 9, welches weiterhin aufweist: Erzeugen eines unbekannten akustischen Signals von einer unbekannten Quelle; Bilden eines Fensters (120) für das und Filtern (110) des unbekannten akustischen Signals (101), um eine unbekannte spektrale Umhüllung zu erzeugen; Reduzieren der Dimensionalität (130, 131) der unbekannten spektralen Umhüllung, um einen Satz von unbekannten Merkmalen zu erzeugen, wobei der Satz unbekannte Spektralmerkmale (108) und entsprechende unbekannte zeitliche Merkmale (109), die die unbekannte Quelle charakterisieren, enthält; Auswählen eines der gespeicherten versteckten Markov-Modelle (1200), das dem unbekannten Satz von Merkmalen am besten angepasst ist, um die unbekannte Quelle zu identifizieren.
  12. Verfahren nach Anspruch 11, bei dem mehrere der gespeicherten versteckten Markov-Modelle (1200) ausgewählt werden, um mehrere bekannte Quellen zu identifizieren, die im Wesentlichen der unbekannten Quelle ähnlich sind.
DE60203436T 2001-05-21 2002-05-14 Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen Expired - Lifetime DE60203436T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US861808 2001-05-21
US09/861,808 US20010044719A1 (en) 1999-07-02 2001-05-21 Method and system for recognizing, indexing, and searching acoustic signals

Publications (2)

Publication Number Publication Date
DE60203436D1 DE60203436D1 (de) 2005-05-04
DE60203436T2 true DE60203436T2 (de) 2006-02-09

Family

ID=25336821

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60203436T Expired - Lifetime DE60203436T2 (de) 2001-05-21 2002-05-14 Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen

Country Status (4)

Country Link
US (1) US20010044719A1 (de)
EP (1) EP1260968B1 (de)
JP (1) JP2003015684A (de)
DE (1) DE60203436T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
AU2002243448A1 (en) 2000-10-24 2002-06-24 Singingfish.Com, Inc. Method of sizing an embedded media player page
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
US7925967B2 (en) 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
EP1410380B1 (de) * 2001-07-20 2010-04-28 Gracenote, Inc. Automatische identifizierung von klangaufzeichnungen
EP1280298A1 (de) * 2001-07-26 2003-01-29 BRITISH TELECOMMUNICATIONS public limited company Verfahren und Vorrichtung zum Detektieren von Netzwerkaktivitäten
US7343082B2 (en) * 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US7359550B2 (en) * 2002-04-18 2008-04-15 Mitsubishi Electric Research Laboratories, Inc. Incremental singular value decomposition of incomplete data
ES2312772T3 (es) * 2002-04-25 2009-03-01 Landmark Digital Services Llc Equivalencia solida e invariante de patron de audio.
WO2004015954A1 (en) * 2002-08-07 2004-02-19 British Telecommunications Public Limited Company Server for sending electronics messages
FR2844079B1 (fr) * 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
EP1579422B1 (de) * 2002-12-24 2006-10-04 Koninklijke Philips Electronics N.V. Verfahren und system zur markierung eines tonsignals mit metadaten
US7617104B2 (en) * 2003-01-21 2009-11-10 Microsoft Corporation Method of speech recognition using hidden trajectory Hidden Markov Models
WO2004075093A2 (en) * 2003-02-14 2004-09-02 University Of Rochester Music feature extraction using wavelet coefficient histograms
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7424423B2 (en) * 2003-04-01 2008-09-09 Microsoft Corporation Method and apparatus for formant tracking using a residual model
CN100543731C (zh) 2003-04-24 2009-09-23 皇家飞利浦电子股份有限公司 参数化的时间特征分析
US7539617B2 (en) * 2003-07-01 2009-05-26 France Telecom Method and system for analysis of vocal signals for a compressed representation of speakers using a probability density representing resemblances between a vocal representation of the speaker in a predetermined model and a predetermined set of vocal representations reference speakers
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
US8918316B2 (en) 2003-07-29 2014-12-23 Alcatel Lucent Content identification system
US20050049876A1 (en) * 2003-08-28 2005-03-03 Ian Agranat Method and apparatus for automatically identifying animal species from their vocalizations
US7454334B2 (en) * 2003-08-28 2008-11-18 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations
GB0326539D0 (en) * 2003-11-14 2003-12-17 Qinetiq Ltd Dynamic blind signal separation
US7305132B2 (en) * 2003-11-19 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Classification in likelihood spaces
DE60319449T2 (de) * 2003-11-27 2009-03-12 Advestigo Abfangsystem von multimediadokumenten
CN100590710C (zh) * 2003-12-05 2010-02-17 株式会社建伍 设备控制装置及设备控制方法
JP2007534995A (ja) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を分類する方法及びシステム
US7565213B2 (en) * 2004-05-07 2009-07-21 Gracenote, Inc. Device and method for analyzing an information signal
DE102004036154B3 (de) * 2004-07-26 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur robusten Klassifizierung von Audiosignalen sowie Verfahren zu Einrichtung und Betrieb einer Audiosignal-Datenbank sowie Computer-Programm
US7505902B2 (en) * 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US7895138B2 (en) 2004-11-23 2011-02-22 Koninklijke Philips Electronics N.V. Device and a method to process audio data, a computer program element and computer-readable medium
US20060116878A1 (en) * 2004-11-30 2006-06-01 Kenji Nagamine Asthma diagnostic apparatus, asthma diagnostic method, and storage medium storing asthma diagnostic program
US7617188B2 (en) 2005-03-24 2009-11-10 The Mitre Corporation System and method for audio hot spotting
US7475014B2 (en) * 2005-07-25 2009-01-06 Mitsubishi Electric Research Laboratories, Inc. Method and system for tracking signal sources with wrapped-phase hidden markov models
US20070237342A1 (en) * 2006-03-30 2007-10-11 Wildlife Acoustics, Inc. Method of listening to frequency shifted sound sources
US7814070B1 (en) 2006-04-20 2010-10-12 Datascout, Inc. Surrogate hashing
US8156132B1 (en) 2007-07-02 2012-04-10 Pinehill Technology, Llc Systems for comparing image fingerprints
US7774385B1 (en) * 2007-07-02 2010-08-10 Datascout, Inc. Techniques for providing a surrogate heuristic identification interface
US7801868B1 (en) 2006-04-20 2010-09-21 Datascout, Inc. Surrogate hashing
US8463000B1 (en) 2007-07-02 2013-06-11 Pinehill Technology, Llc Content identification based on a search of a fingerprint database
US9020964B1 (en) 2006-04-20 2015-04-28 Pinehill Technology, Llc Generation of fingerprints for multimedia content based on vectors and histograms
US7991206B1 (en) 2007-07-02 2011-08-02 Datascout, Inc. Surrogate heuristic identification
US7840540B2 (en) * 2006-04-20 2010-11-23 Datascout, Inc. Surrogate hashing
US8549022B1 (en) 2007-07-02 2013-10-01 Datascout, Inc. Fingerprint generation of multimedia content based on a trigger point with the multimedia content
US9633356B2 (en) 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US7499858B2 (en) * 2006-08-18 2009-03-03 Talkhouse Llc Methods of information retrieval
CN101226526A (zh) * 2007-01-17 2008-07-23 上海怡得网络有限公司 一种基于音乐片段信息查询的音乐搜索方法
US8380494B2 (en) * 2007-01-24 2013-02-19 P.E.S. Institute Of Technology Speech detection using order statistics
JP4403436B2 (ja) * 2007-02-21 2010-01-27 ソニー株式会社 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
WO2008126347A1 (ja) * 2007-03-16 2008-10-23 Panasonic Corporation 音声分析装置、音声分析方法、音声分析プログラム、及びシステム集積回路
JP5418223B2 (ja) 2007-03-26 2014-02-19 日本電気株式会社 音声分類装置、音声分類方法、および音声分類用プログラム
US8126262B2 (en) * 2007-06-18 2012-02-28 International Business Machines Corporation Annotating video segments using feature rhythm models
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
RU2472306C2 (ru) 2007-09-26 2013-01-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды
JP5169760B2 (ja) * 2008-01-28 2013-03-27 富士通株式会社 通信装置、受信データサイズチェック方法、倍数判定回路および倍数判定方法
US7782195B2 (en) * 2008-03-19 2010-08-24 Wildlife Acoustics, Inc. Apparatus for scheduled low power autonomous data recording
US20090235809A1 (en) * 2008-03-24 2009-09-24 University Of Central Florida Research Foundation, Inc. System and Method for Evolving Music Tracks
DE102008021362B3 (de) * 2008-04-29 2009-07-02 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum Erkennen eines Zustandes einer zu untersuchenden geräuscherzeugenden Maschine
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8954173B1 (en) * 2008-09-03 2015-02-10 Mark Fischer Method and apparatus for profiling and identifying the source of a signal
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
US20100138010A1 (en) * 2008-11-28 2010-06-03 Audionamix Automatic gathering strategy for unsupervised source separation algorithms
US9286911B2 (en) * 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
FI20086260A (fi) * 2008-12-31 2010-09-02 Teknillinen Korkeakoulu Menetelmä hahmon löytämiseksi ja tunnistamiseksi
US20100174389A1 (en) * 2009-01-06 2010-07-08 Audionamix Automatic audio source separation with joint spectral shape, expansion coefficients and musical state estimation
CN101546555B (zh) * 2009-04-14 2011-05-11 清华大学 用于语种识别的约束异方差线性鉴别分析方法
EP2446282A4 (de) * 2009-06-23 2013-02-27 Ericsson Telefon Ab L M Verfahren und anordnung für ein mobiltelekommunikationsnetz
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9026034B2 (en) 2010-05-04 2015-05-05 Project Oda, Inc. Automatic detection of broadcast programming
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8805697B2 (en) 2010-10-25 2014-08-12 Qualcomm Incorporated Decomposition of music signals using basis functions with time-evolution information
US8966515B2 (en) 2010-11-08 2015-02-24 Sony Corporation Adaptable videolens media engine
US8700400B2 (en) * 2010-12-30 2014-04-15 Microsoft Corporation Subspace speech adaptation
ES2834442T3 (es) * 2011-05-11 2021-06-17 Silentium Ltd Sistema y método de control del ruido
US9928824B2 (en) 2011-05-11 2018-03-27 Silentium Ltd. Apparatus, system and method of controlling noise within a noise-controlled volume
US8938393B2 (en) * 2011-06-28 2015-01-20 Sony Corporation Extended videolens media engine for audio recognition
WO2013012952A1 (en) 2011-07-18 2013-01-24 Viggle Inc System and method for tracking and rewarding media and entertainment usage including substanitally real time rewards
US9098576B1 (en) * 2011-10-17 2015-08-04 Google Inc. Ensemble interest point detection for audio matching
US8965766B1 (en) * 2012-03-15 2015-02-24 Google Inc. Systems and methods for identifying music in a noisy environment
GB2504918B (en) * 2012-04-23 2015-11-18 Tgt Oil And Gas Services Fze Method and apparatus for spectral noise logging
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9159327B1 (en) * 2012-12-20 2015-10-13 Google Inc. System and method for adding pitch shift resistance to an audio fingerprint
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
KR101756287B1 (ko) * 2013-07-03 2017-07-26 한국전자통신연구원 음성인식을 위한 특징 추출 장치 및 방법
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
KR101473592B1 (ko) * 2013-12-05 2014-12-16 한국항공우주연구원 교란 신호 검출 장치 및 방법
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US11308928B2 (en) * 2014-09-25 2022-04-19 Sunhouse Technologies, Inc. Systems and methods for capturing and interpreting audio
EP3198247B1 (de) * 2014-09-25 2021-03-17 Sunhouse Technologies, Inc. Vorrichtung zur erfassung von schwingungen von einem objekt, und system zur erfassung von schwingungen von einer trommel.
EP3023884A1 (de) * 2014-11-21 2016-05-25 Thomson Licensing Verfahren und Vorrichtung zur Erzeugung des Fingerabdrucks eines Audiosignals
US10134389B2 (en) * 2015-09-04 2018-11-20 Microsoft Technology Licensing, Llc Clustering user utterance intents with semantic parsing
US10534994B1 (en) * 2015-11-11 2020-01-14 Cadence Design Systems, Inc. System and method for hyper-parameter analysis for multi-layer computational structures
US9830931B2 (en) * 2015-12-31 2017-11-28 Harman International Industries, Incorporated Crowdsourced database for sound identification
US10346405B2 (en) * 2016-10-17 2019-07-09 International Business Machines Corporation Lower-dimensional subspace approximation of a dataset
WO2018091086A1 (en) * 2016-11-16 2018-05-24 Huawei Technologies Duesseldorf Gmbh Techniques for pre- and decoding a multicarrier signal based on a mapping function with respect to inband and out-of-band subcarriers
GB201718800D0 (en) * 2017-11-14 2017-12-27 Univ London Queen Mary Sound effects synthesis
US10529357B2 (en) 2017-12-07 2020-01-07 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
JP6722165B2 (ja) 2017-12-18 2020-07-15 大黒 達也 音楽情報の特徴解析方法及びその装置
US10249293B1 (en) 2018-06-11 2019-04-02 Capital One Services, Llc Listening devices for obtaining metrics from ambient noise
US11069334B2 (en) 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
EP3847646B1 (de) 2018-12-21 2023-10-04 Huawei Technologies Co., Ltd. Audioverarbeitungsvorrichtung und verfahren zur klassifizierung von audioszenen
CN110910479B (zh) * 2019-11-19 2023-09-22 中国传媒大学 视频处理方法、装置、电子设备及可读存储介质
RU2728121C1 (ru) * 2019-12-20 2020-07-28 Шлюмберже Текнолоджи Б.В. Способ определения характеристик фильтрационного потока в околоскважинной зоне пласта
US11295756B2 (en) * 2019-12-27 2022-04-05 Robert Bosch Gmbh Ontology-aware sound classification
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
US11670322B2 (en) 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
CN112464777B (zh) * 2020-11-20 2023-04-18 电子科技大学 一种光纤振动源垂直距离智能估算方法
US20230358872A1 (en) * 2022-05-03 2023-11-09 Oracle International Corporation Acoustic fingerprinting

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5293448A (en) * 1989-10-02 1994-03-08 Nippon Telegraph And Telephone Corporation Speech analysis-synthesis method and apparatus therefor
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
US5377305A (en) * 1991-10-01 1994-12-27 Lockheed Sanders, Inc. Outer product neural network
JPH07146679A (ja) * 1992-11-13 1995-06-06 Internatl Business Mach Corp <Ibm> 音声データを変換する方法及びシステム
DE4316297C1 (de) * 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Frequenzanalyseverfahren
US5383164A (en) * 1993-06-10 1995-01-17 The Salk Institute For Biological Studies Adaptive system for broadband multisignal discrimination in a channel with reverberation
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
US5812972A (en) * 1994-12-30 1998-09-22 Lucent Technologies Inc. Adaptive decision directed speech recognition bias equalization method and apparatus
US5878389A (en) * 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
US5865626A (en) * 1996-08-30 1999-02-02 Gte Internetworking Incorporated Multi-dialect speech recognition method and apparatus
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
US5835912A (en) * 1997-03-13 1998-11-10 The United States Of America As Represented By The National Security Agency Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
US5930753A (en) * 1997-03-20 1999-07-27 At&T Corp Combining frequency warping and spectral shaping in HMM based speech recognition
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013111784A1 (de) * 2013-10-25 2015-04-30 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US10249322B2 (en) 2013-10-25 2019-04-02 Intel IP Corporation Audio processing devices and audio processing methods
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren

Also Published As

Publication number Publication date
JP2003015684A (ja) 2003-01-17
EP1260968A1 (de) 2002-11-27
EP1260968B1 (de) 2005-03-30
DE60203436D1 (de) 2005-05-04
US20010044719A1 (en) 2001-11-22

Similar Documents

Publication Publication Date Title
DE60203436T2 (de) Verfahren und System zum Erkennen, Indizieren und Suchen von akustischen Signalen
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1405222B1 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
Casey General sound classification and similarity in MPEG-7
US6321200B1 (en) Method for extracting features from a mixture of signals
DE60126564T2 (de) Verfahren und Anordnung zur Sprachsysnthese
DE69925479T2 (de) Dynamisch konfigurierbares akustisches modell für spracherkennungssysteme
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69838189T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE60120323T2 (de) System und Verfahren zur Mustererkennung im sehr hochdimensionalen Raum
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
Dennis Sound event recognition in unstructured environments using spectrogram image processing
DE112020004052T5 (de) Sequenzmodelle zur audioszenenerkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
EP2180463A1 (de) Verfahren zur Erkennung von Notenmustern in Musikstücken
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
Andono et al. Bird Voice Classification Based on Combination Feature Extraction and Reduction Dimension with the K-Nearest Neighbor.
DE19719381C1 (de) Verfahren zur Spracherkennung durch einen Rechner
Al-Irhayim et al. Speech recognition of isolated Arabic words via using wavelet transformation and fuzzy neural network
DE60225536T2 (de) Verfahren und Vorrichtung zur Spracherkennung
Wan et al. Content-based audio retrieval: a comparative study of various features and similarity measures

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)