EP1430750A2 - Verfahren und vorrichtung zur auswahl eines klangalgorithmus - Google Patents

Verfahren und vorrichtung zur auswahl eines klangalgorithmus

Info

Publication number
EP1430750A2
EP1430750A2 EP02777268A EP02777268A EP1430750A2 EP 1430750 A2 EP1430750 A2 EP 1430750A2 EP 02777268 A EP02777268 A EP 02777268A EP 02777268 A EP02777268 A EP 02777268A EP 1430750 A2 EP1430750 A2 EP 1430750A2
Authority
EP
European Patent Office
Prior art keywords
audio signal
signal
audio
music
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP02777268A
Other languages
English (en)
French (fr)
Other versions
EP1430750B1 (de
Inventor
Donald Schulz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Grundig Multimedia BV
Original Assignee
Grundig AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grundig AG filed Critical Grundig AG
Publication of EP1430750A2 publication Critical patent/EP1430750A2/de
Application granted granted Critical
Publication of EP1430750B1 publication Critical patent/EP1430750B1/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems

Definitions

  • the invention relates to a method and a device for selecting a sound algorithm for processing audio signals according to the features of the preamble of claims 1 and 28.
  • Modern hi-fi systems are equipped with various sound programs that allow stereophonic audio signals to be distributed to more than just two loudspeakers or otherwise to produce a surround sound. For example, after decoding the audio signals, they are split into five individual audio channels and used for so-called “virtualizers” for playback via only two loudspeakers. Special “virtualizers” are also known which convert the audio signals for playback especially via headphones.
  • Dolby Pro Logic is used in film material to influence the localization of the sound. Speakers are usually mapped onto the center channel and noises can only come from the rear speakers Furthermore, there is a whole class of methods which are used to simulate room acoustics. Commonly used names of such methods are "Hall”, “Stadium”, “Jazz”, “Club” etc. This method is optimized for music signals it is not desirable to hear voice signals (vocals) only from the center speaker or to output a music signal only from the rear speakers, which is possible using the "Dolby Pro Logic” method.
  • the Dolby Pro Logic successor which was called Dolby Pro Logic II, has a mode for music that takes these differences into account, aside from the film mode.
  • a method for coding speech is known from EP 0 481 374 B1.
  • a speech window is discrete transformed in order to obtain a discrete spectrum of coefficients.
  • An approximate envelope of the discrete spectrum is calculated in each of a plurality of subbands and used to digitally encode the defined ones
  • each scaled coefficient is converted into a number of bits with at least one of a large number of quantizers of different bit lengths.
  • the quantizer used for each subband is determined for each speech window by calculating the allocation of bits as a number of bits greater than or equal to zero, depending on a power density estimate for the subband and a distortion error estimate for the speech window.
  • a signal analysis system for filtering an input sample representing one or more signals is known from EP 0 587 733 B1.
  • Input buffer means are provided for grouping the input samples into time domain signal sample blocks.
  • the input samples are analysis window weighted samples.
  • Analysis means are also provided for generating spectral information in response to the time domain signal sample blocks; wherein the spectral information includes spectral coefficients that substantially correspond to an evenly stacked time-domain aliasing cancellation transformation applied to the time-domain signal sample blocks.
  • the spectral coefficients are essentially coefficients of a modified discrete cosine transformation or coefficients of a modified discrete sine transformation.
  • the analysis means comprise forward-pre-transformation means for generating modified sample blocks and forward-transformation means for generating frequency domain transformation coefficients.
  • a coding device for adaptive processing of audio signals for coding, transmission or storage and retrieval is known, the noise level fluctuating with the signal amplitude level.
  • a processing device is provided which is responsive to input signals such that it outputs either a first and a second signal or the sum and difference of the first and second signals.
  • the first and second signals correspond to the two matrix-coded audio signals of a four to two audio signal matrix, the processing device also generating a control signal which indicates whether the first and second signals or the sum and difference of the first and second signals are output.
  • a decoder consisting of a receiving means for receiving a plurality of information channels formatted information, deformatting means for generating in response to the receiving means, a deformed representation depending on each delivery channel, and synthesis means for generating output signals depending on the deformatted representations , known.
  • Distribution means are arranged between the deforming means and the synthesis means, which respond to the deforming means and generate one or more intermediate signals, at least one intermediate signal being generated by combining the information from two or more of the deformed representations.
  • the synthesis means produce a respective output signal in response to each of the intermediate signals.
  • EP 0 520 068 B1 discloses an encoder for encoding two or more audio channels.
  • the encoder has a subband device for generating subband signals, a mixing device for creating one or more composite signals, and means for generating control information for a corresponding composite signal.
  • the encoder also includes encoding means for generating encoded information by allocating bits to the one or more composite signals.
  • a speech encoder is known from EP 0 208 712 B1.
  • This speech encoder includes a Fourier transform for performing a discrete Fourier transform of an incoming speech signal to produce a discrete transform spectrum of coefficients, a normalizer for modifying the transform spectrum to produce a normalized, flatter spectrum and for encoding a function by which the discrete spectrum is modified becomes.
  • the normalization means includes means (44) for defining the approximated envelope of the discrete spectrum in each of a plurality of subbands of coefficients and for encoding the defined envelope of each subband of coefficients and means for scaling each spectrum coefficient relative to the defined envelope of the relevant subband of coefficients ,
  • a disadvantage of all known inventions is that the selection of a sound algorithm has to be set manually. If, for example, a TV sound of a currently set TV channel is processed via a Dolby Pro Logic II decoder and the TV channel is switched several times between music channels and films or news, each time you switch between the individual audio sound algorithms, which the
  • Process audio data such as switching between music and film mode.
  • the object of the invention is to provide a method and a device which independently assigns an audio signal to a sound algorithm.
  • the present invention solves this problem by means of the features of claims 1 and 28.
  • Advantageous refinements and developments of the invention are specified in the dependent claims, the associated description and figures.
  • the present invention achieves the object in that the type of the audio signal is recognized and an automatic setting of the sound algorithm is assigned on the basis of the recognition of the type of the audio signal. Various dimensions are defined and evaluated to identify the type of audio signal.
  • the dynamics are determined as follows.
  • the samples of the left and right audio channels are squared, added and the resulting signal is filtered by a low pass.
  • the low-pass filter advantageously has a cut-off frequency of approximately 3 Hz.
  • the minimum and maximum of the audio signal is determined in this time frame.
  • the current dynamic range in decibels then corresponds to ten times the difference between the logarithms of the two values.
  • the dynamics of the right and left audio channels are calculated separately.
  • the audio channel that has the greater dynamic range is used.
  • a corresponding measure can be obtained in a surprisingly simple way by comparing the determined dynamic range with a threshold value. If the dynamic range is greater than the threshold value, the measure is set to the value -1 (film mode), otherwise to the value 1 (music mode). Instead of this hard subdivision, a sliding measure is determined below. For this purpose, the dynamic range is mapped to the value range [-1, 0..1, 0] using a function. A simple function is to subtract the calculated dynamic range from the threshold value, divide the result by the threshold value and then limit this value to the value range [-1, 0..1, 0]. This value is referred to below as M1.
  • M1 is calculated to be 1, with a dynamic range corresponding to the threshold value, M1 is calculated to be 0, which is to be rated as neutral, and with dynamic ranges greater than or equal to twice the threshold value, M1 is calculated to be -1.0 ,
  • a minimum level is also required, which is, for example, 30 dB below the maximum value, which occurred in a certain period of time beforehand, in an advantageous embodiment about 5 minutes.
  • the maximum value found in the dynamic determination is used as the comparison level. If this value is below the minimum level, the dimension M1 calculated from the dynamic range is set to -1.0. For a smooth cross-fade, the value range from 40 dB below the maximum level to 20 dB below the maximum level can be used. M1 is set to -1 for values of more than 40 dB below the maximum level and below for values of less than 20 dB The maximum level remains unchanged; for values in between, a linear interpolation between these two limit cases is carried out accordingly.
  • the periodicity of the audio signal is used as a further measure.
  • Many methods for determining the periodicity of an audio signal are known from the standard literature. A very simple method consists in squaring the left and right channel samples, adding them up and filtering the resulting signal through a low pass filter with a cutoff frequency of approximately 50 Hz. The maxima are then sought in this signal. If it is determined that the level maxima occur periodically with time intervals typical of music of between a third and a full second, this measure, M2, is set to 1, otherwise to -1.
  • Music signals can also be identified as such based on their spectral profiles. For example, wind and string instruments have very characteristic spectra that can be easily detected. If such spectral profiles are detected, a measure M3 is set to 1, otherwise to 0. The value -1 is not used here, since the absence of these spectra does not automatically mean that none
  • Spectral constellations a measure M4 is set to the value 1, otherwise, as shown in the previous one for the measure M3, to the value 0.
  • a measure M4 is set to the value 1, otherwise, as shown in the previous one for the measure M3, to the value 0.
  • One more a more precise statement is possible by comparing the frequencies of these tones. If it is music, it will most likely have a musical connection to one another, i.e. only differ by a factor that corresponds to an integer power of the twelfth root of 2. If such tones are detected, music can also be detected over time by means of the detection of melodies, that is to say the observation of the pitches of this instrument.
  • the level of the input signal in particular the sum of the right and left audio channels, is determined in different frequency bands, in particular in the frequency bands from 20 Hz to 200 Hz, from 200 Hz to 2 kHz and 2 kHz to 20 kHz.
  • the maximum level of each of these levels is determined and this value is multiplied by the number of bands.
  • the levels of the individual bands are subtracted from this. If this results in a large value, this indicates that the performance is spectrally concentrated in a few bands and therefore it is probably not music.
  • M5 a value range from a maximum value to a minimum value is mapped linearly to the value range [-1, 0..1, 0]. Values outside this range are mapped to the limit values.
  • a similar measure can be derived from the number of spectral maxima with a certain minimum level. If there are many instruments, there are also many such maxima. The number of maxima present can be mapped directly linearly to the value range [-1, 0..1, 0] to determine a further dimension M6.
  • the source also allows conclusions to be drawn about the sound material. For example, when playing a radio broadcast or a CD, the probability is very high that the signals are musical. On the other hand, the playback of a DVD encoded in AC3 will be more of a film.
  • Each source is assigned an individual dimension, for example, the source CD can be assigned the value 0.5 and a DVD the value -0.3. This dimension is called M7.
  • a total dimension MG is determined from the individual dimensions M1 to M7. For this purpose, all dimensions M1 to M7 are weighted and added up with an individual factor. Since M1 is very important, it is rated with the greatest factor in relation to the other dimensions M2 to M7. In the further description of the invention, the dimension M1 is weighted by a factor of 1, M2 is weighted by a factor of 0.5, M3, M4, M5, M6 and M7 only by a factor of 0.2. Values for the total dimension MG less than 0 then correspond to a signal without music, which should be reproduced in film mode, and values greater than 0 classify a music signal, for which the music mode should then be used. The more negative or positive this value is, the clearer the classification.
  • a hysteresis is used. This means that switching from film mode to music mode only takes place when MG exceeds a value greater than zero (for example 0.3). A switch from music mode to film mode only takes place when the value falls below a value of less than zero (for example -0.3).
  • Switching between film mode and music mode takes place with a delay time and inertia that can be set by the user.
  • the signal type must be constant for a period of time corresponding to the delay time, otherwise the playback mode is not changed.
  • Delay time then takes place with a time constant corresponding to the inertia, a cross-fading between the modes, as a result of which audible signal jumps that are otherwise possibly audible can be avoided and the transition from one mode to the other mode can be made inconspicuous.
  • This time constant is normally around 10 seconds. If the time constant is very short, an attempt is made to change within a signal pause.
  • the delay time selected by the user and the time constant of inertia should be further reduced, for example, immediately after the channel is switched on a television and the audio signal of the television is reproduced. This can be easily determined if the corresponding audio processing is housed in the television or the television sends a corresponding message to the other connected devices. Such a switching process can also be recognized by an abrupt signal pause, which will always have the duration typical for this device when switching processes within a device.
  • the detection of the channel changeover is possible based on the image signal, since the synchronization is usually lost during the changeover.
  • a change of channel can also be inferred from a loss of synchronization.
  • the delay time is then set to zero and the time constant is reduced to a time of, for example, 3 seconds.
  • the delay time and the inertia are also changed depending on the absolute value of MG. Very high absolute values correspond to a very clear classification, which is why an earlier change is possible in such cases.
  • Various sound programs can be used to play back music signals. For example, it is possible to output the difference signal between the left and right input signal to the rear speakers and to leave the front channels unaffected.
  • the difference signal can also be individually preprocessed for both channels, for which purpose allpass filters are usually used. This achieves a decorrelation of the rear speakers.
  • a sound program often referred to as "reverb" can be used for music signals. In addition to the difference signal, this also outputs a reverb component of the original signal and the difference signal on all loudspeakers.
  • Dolby Pro Logic For signals other than music, Dolby Pro Logic or a similar method is used, for example.
  • the level of the front channels is reduced if the difference signal of the input assumes a large level compared to the sum signal. If the difference signal is very small, the signals from the front right and left channels are also diverted to the front center channel in order to achieve a central location for speakers. Instead of a 5-speaker constellation, even more speakers can be used, so that e.g. the difference signal is output to three rear speakers.
  • the invention is explained below on the basis of a specific exemplary embodiment.
  • the exemplary embodiment shows a device according to the invention.
  • the device V according to the invention has a signal input E, a source information input Q and a signal output A.
  • the device V is supplied with audio data via the input E.
  • stereo audio data that is to say audio data
  • the audio signals are channel separated and digitized in an upstream device.
  • the device V is then supplied with digital data.
  • the device V is expanded in such a way that it can also process multi-channel audio data, for example in AC3 format.
  • a purely analog implementation is also possible if the devices V8, V4, V5, V6 and V7 are implemented by means of corresponding analog variants using filter banks instead of the FFT or the evaluation of these characteristics is dispensed with.
  • the audio signals which are fed via the input E of the device V, are simultaneously fed to various other devices V1 to V10.
  • Devices V1 to V7 evaluate the input audio signal and feed it to a further device VM1 to VM6 for mapping to a measure.
  • the device VM1 is used for mapping to dimension 1, the device VM2 for mapping to dimension 2, etc.
  • the device V1 is used for determining the dynamics, the device V2 for determining the level, the device V3 for determining the periodicity, the device V4 for determining frequency spectra, in particular of musical instruments, the device V5 for determining the flatness of the frequency response of the audio signal, and the device V6 for determining the number of maxima in the frequency spectrum, the device V7 for determining the proportion of similar spectral structures in the frequency spectrum, the device V8 for transforming the audio signals from the time domain into the frequency domain, the device V9 for processing music signals, the device V10 for processing other signals , the device V11 for detecting switching processes and the device V12 for mapping to a factor for controlling the switching speed.
  • the dimensions obtained from the devices MV1 to MV7 are weighted with weighting factors G1 to G7 and added up.
  • the overall dimension obtained in this way is again weighted by the devices V11 and V12 and passed through the hysteresis device H.
  • the hysteresis device H prevents a switch from film mode to music mode and vice versa only taking place when the overall dimension exceeds or falls below a predefined value.
  • the overall dimension is then fed to an integrator I, which is advantageously limited to the range [- 0.5..1.5], and to a device B for limiting the range to [0..1.0].
  • the total dimension, which is passed over the integrator I and the device B, is weighted and added with the audio signals which come from the devices V9 and V10. In this way, the appropriate audio processing mode is selected.
  • VM5 device for mapping to dimension 5
  • VM6 device for mapping to dimension 6
  • VI Device for determining the dynamics V2 Device for determining the level
  • V4 Device for determining frequency spectra of musical instruments
  • V5 Device for determining the flatness of the frequency response
  • V6 device for determining the number of maxima in the frequency spectrum
  • V9 device for processing music signals
  • V10 device for processing other signals
  • V12 device for mapping to a factor for controlling the switching speed

Abstract

Die Erfindung betrifft ein Verfahren zur Auswahl eines Klangalgorithmus zur Verarbeitung eines Audiosignals. Das Audiosignal wird analysiert und auf Grund der Analyse wird die Art des Audiosignals ermittelt. Es wird eine Klassifizierung des Audiosignals als ein Musiksignal oder ein anderes Signal vorgenommen und in Abhängigkeit der Klassifizierung werden zur Weiterverarbeitung und späteren Ausgabe des Audiosignals unterschiedliche Klangalgorithmen verwendet.

Description

Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus
Beschreibung
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswahl eines Klangalgorithmus zur Verarbeitung von Audiosignalen gemäss den Merkmalen des Oberbegriffes der Ansprüche 1 und 28.
Moderne Hifi-Anlagen sind mit verschiedenen Klangprogrammen ausgestattet, die es erlauben, stereophone Audiosignale auf mehr als nur zwei Lautsprecher zu verteilen oder anderweitig einen Raumklang zu erzeugen. So werden beispielsweise nach der Dekodierung der Audiosignale diese in fünf einzelne Audiokanäle aufgespaltet und über sogenannte „Virtualizer" zur Wiedergabe über lediglich zwei Lautsprecher verwendet. Es sind auch spezielle „Virtualizer" bekannt, welche die Audiosignale zur Wiedergabe speziell über Kopfhörer umwandeln.
Eines der bekanntesten Verfahren hierfür ist das sogenannte „Dolby Pro Logic" Verfahren, welches bei Filmmaterial im wesentlichen dazu eingesetzt wird, die Lokalisation des Klanges beeinflussen zu können. So werden Sprecher üblicherweise auf den Center-Kanal abgebildet und Geräusche können ausschließlich aus den hinteren Lautsprechern kommen. Weiterhin gibt es eine ganze Klasse von Verfahren, die zur Nachbildung von Raumakustiken verwendet werden. Häufig anzutreffende Bezeichnungen derartiger Verfahren lauten „Hall", „Stadium", „Jazz", „Club" etc.. Bei diesen auf Musiksignale optimierten Verfahren ist es nicht erwünscht, Sprachsignale (Gesang) nur aus dem Center-Lautsprecher zu vernehmen oder ein Musiksignal nur aus den hinteren Lautsprechern auszugeben, welches unter Verwendung des „Dolby Pro Logic" Verfahrens möglich ist. Bei dem Nachfolgeverfahren von Dolby Pro Logic, welches Dolby Pro Logic II genannt wurde, ist abgesehen von dem Filmmodus ein Modus für Musik vorgesehen, der diese Unterschiede berücksichtigt. Aus EP 0 481 374 B1 ist ein Verfahren zum Kodieren von Sprache bekannt. Hierbei wird eine diskrete Umformung eines Sprachfensters vorgenommen, um ein diskretes Spektrum von Koeffizienten zu erhalten. Eine angenäherte Einhüllenden des diskreten Spektrums wird in jedem einer Vielzahl von Unterbändern errechnet und zum digitalen Kodieren der definierten
Einhüllenden eines jeden Unterbands verwendet. Innerhalb von Subbändem wird jeder skalierte Koeffizient in eine Anzahl von Bits mit mindestens einem von einer Vielzahl von Quantisierern unterschiedlicher Bitlängen umgerechnet. Der für jedes Unterband benutzte Ouantisierer wird für jedes Sprachfenster durch Berechnen der Zuweisung von Bits als eine Anzahl von Bits größer als oder gleich Null bestimmt, in Abhängigkeit einer Leistungsdichteabschätzung für das Unterband und einer Verzerrungsfehlerabschätzung für das Sprachfenster.
Aus EP 0 587 733 B1 ist ein Signalanalysesystem zur Filterung von einem ein oder mehrere Signale repräsentierenden Eingangsabtastwert bekannt. Es sind Eingangspuffermittel zum Gruppieren der Eingangsabtastwerte in Zeitbereichs- Signalabtastwertblöcke vorgesehen. Die Eingangsabtastwerte sind analysefenster-gewichtete Abtastwerte. Außerdem sind Analysemittel zur Erzeugung von Spektralinformation als Antwort auf die Zeitbereichs- Signalabtastwertblöcke vorhanden; wobei die Spektralinformation Spektralkoeffizienten umfaßt, die im wesentlichen einer geradzahlig gestapelten Zeitbereichs-Aliasingaufhebungs-Transformation angewendet auf die Zeitbereichs-Signal-Abtastwertblöcke entspricht. Bei den Spektralkoeffizienten handelt es sich im wesentlichen um Koeffizienten einer modifizierten diskreten Cosinus-Transformation bzw. Koeffizienten einer modifizierten diskreten Sinus- Transformation. Die Analysemittel umfassen Vorwärts-Vor- Transformationsmittel zur Erzeugung modifizierter Abtastwertblöcke und Vorwärts-Transformationsmittel zur Erzeugung von Frequenzbereichs- Transformationskoeffizienten. Aus EP 0 664 943 B1 ist eine Kodiervorrichtung zur adaptiven Verarbeitung von Audiosignalen für das Kodieren, Übertragen oder Speichern und Wiedergewinnen bekannt, wobei der Rauschpegel mit dem Signalamplitudenpegel schwankt. Es ist eine Verarbeitungseinrichtung vorhanden, welche auf Eingangssignale derart anspricht, daß sie entweder ein erstes und ein zweites Signal oder die Summe und Differenz des ersten und zweiten Signals ausgibt. Das erste und zweite Signal entsprechen den beiden matrixkodierten Audiosignalen einer vier zu zwei Audiosignalmatrix, wobei die Verarbeitungseinrichtung auch ein Steuersignal erzeugt, welches anzeigt, ob das erste und zweite Signal oder die Summe und Differenz des ersten und zweiten Signals ausgegeben wird.
Aus EP 0 519 055 B1 ist ein Decoder, bestehend aus einem Empfangsmittel zum Empfang einer Mehrzahl von Lieferkanälen formatierter Information, Deformatierungsmitteln zur Erzeugung ansprechend auf die Empfangsmittel, einer deformatierten Darstellung abhängig von jedem Lieferkanal, und Synthesemittel zur Erzeugung von Ausgangssignalen abhängig von den deformatierten Darstellungen, bekannt. Zwischen den Deformatierungsmitteln und den Synthesemitteln sind Verteilermittel angeordnet, welche auf die Deformatierungsmittel ansprechen und einen oder mehrere Zwischensignale erzeugen, wobei wenigstens ein Zwischensignal durch Kombination der Information von zwei oder mehr der deformatierten Darstellungen erzeugt wird. Die Synthesemittel erzeugen ein jeweiliges Ausgangssignal als Antwort auf jedes der Zwischensignale.
Aus EP 0 520 068 B1 ist ein Kodierer zum Kodieren von zwei oder mehr Audiokanälen bekannt. Der Kodierer weist eine Teilbandeinrichtung zum Erzeugen von Teilbandsignalen, eine Mischeinrichtung zum Schaffen eines oder mehrerer zusammengesetzter Signale, und Mittel zum Erzeugen von Steuerinformation für ein entsprechendes zusammengesetztes Signal auf. Außerdem weist der Kodierer eine Kodiereinrichtung zum Erzeugen kodierter Information durch Zuteilen von Bits zu dem einen oder mehreren zusammengesetzten Signalen auf. Es ist weiterhin eine Formatiereinrichtung zum Zusammensetzen der kodierten Information und der Steuerinformation zu einem Ausgabesignal vorhanden.
Aus EP 0 208 712 B1 ist ein Sprachkodierer bekannt. Dieser Sprachkodierer enthält eine Fourier-Transformationseinrichtung zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten, eine Normierungseinrichtung zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird. Außerdem ist eine Einrichtung zum Codieren wenigstens eines Teils des Spektrums vorhanden. Die Normierungseinrichtung weist eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten auf.
Nachteilig bei allen bekannten Erfindungen ist aber, dass die Auswahl eines Klangalgorithmus manuell einzustellen ist. Wird beispielsweise ein Fernsehton eines aktuell eingestellten Fernsehkanales über einen Dolby Pro Logic II Decoder verarbeitet und der Fernsehkanal mehrmals zwischen Musiksendern und Filmen oder Nachrichten umgeschaltet, so muss bei jedem Wechsel manuell zwischen den einzelnen Audioklangalgorithmen, welche die
Audiodaten verarbeiten, wie zum Beispiel zwischen Musik- und Filmmodus, umgeschaltet werden.
Aufgabe der Erfindung ist es ein Verfahren und eine Vorrichtung anzugeben, welches einem Audiosignal selbständig einem Klangalogrithmus zuweist. Die vorliegende Erfindung löst diese Aufgabe durch die Merkmale der Ansprüche 1 und 28. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen, der zugehörigen Beschreibung nebst Figuren angegeben.
Die vorliegende Erfindung löst die Aufgabe dadurch, dass die Art des Audiosignales erkannt wird und auf Grund der Erkennung der Art des Audiosignales eine automatische Einstellung des Klangalgorithmus zugeordnet wird. Zur Erkennung der Art des Audiosignales werden verschiedene Maße definiert und ausgewertet.
Als ein erstes Maß wird bestimmt, welche Dynamik in dem Audiosignal aktuell vorhanden ist. Die Bestimmung der Dynamik wird wie folgt vorgenommen. Die Abtastwerte des linken und rechten Audiokanals werden quadriert, aufaddiert und das resultierende Signal durch einen Tiefpass gefiltert. Der Tiefpass weist vorteilhaft eine Grenzfrequenz von etwa 3 Hz auf. Über eine definierte Zeitdauer, vorteilhaft z.B. fünf Sekunden, wird in diesem Zeitrahmen das Minimum und das Maximum des Audiosignals ermittelt. Der aktuell vorhandene Dynamikumfang in Dezibel entspricht dann dem zehnfachen der Differenz der Logarithmen beider Werte.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung werden die Dynamiken vom rechten und linken Audio-Kanal getrennt berechnet. Bei der weiteren Betrachtung wird nur der Audio-Kanal weiterverwendet, welcher den größeren Dynamikumfang aufweist.
Es besteht auch die Möglichkeit statt der Quadrierung eine Absolutwertbildung vorzunehmen und anstelle der Tiefpassfilterung mit anschließender Maximasuche eine Pegelbestimmung für kurze Zeitdauern, beispielsweise über eine Zeitdauer von einer Drittel Sekunde durchzuführen und dann unter diesen Pegelwerten ein Maxima und Minima zur Berechnung der Dynamik durchzuführen.
Bei Filmmaterial sind große Pegelsprünge und damit ein großer Dynamikumfang vorhanden, da beispielsweise der Signalpegel in
Sprachpausen stark abfällt. Musiksignale haben üblicherweise jedoch nur einen Dynamikumfang von etwa zwanzig dB oder weniger. Auf überraschend einfache Art ist ein entsprechenden Maßes zu gewinnen indem der ermittelte Dynamikumfang mit einem Schwellwert verglichen wird. Ist der Dynamikumfang größer als der Schwellwert, so wird das Maß auf den Wert -1 gesetzt (Filmmodus), ansonsten auf den Wert 1 (Musikmodus). Anstelle dieser harten Unterteilung wird im weiteren ein gleitendes Maß bestimmt. Dazu wird der Dynamikumfang über eine Funktion auf den Wertebereich [-1 ,0..1 ,0] abgebildet. Eine einfache Funktion dazu ist vom Schwellwert den errechneten Dynamikumfang abzuziehen, das Ergebnis durch den Schwellwert zu teilen und diesen Wert dann noch auf den Wertebereich [-1 ,0..1 ,0] zu begrenzen. Dieser Wert wird im Folgenden als M1 bezeichnet. Sollte der Dynamikumfang 0 sein, so wird M1 zu 1 errechnet, bei einem dem Schwellwert entsprechenden Dynamikumfang errechnet sich M1 zu 0, was also als neutral zu bewerten ist und bei Dynamikumfängen größer oder gleich dem Doppelten des Schwellwertes errechnet sich M1 zu -1 ,0.
Um zu vermeiden, dass dieses Maß bei längeren Signalpausen anspricht, wird zudem ein Mindestpegel vorausgesetzt, der beispielsweise 30 dB unter dem Maximalwert liegt, welcher in einer gewissen Zeitspanne zuvor, in vorteilhafter Ausgestaltung etwa 5 Minuten, aufgetreten ist. Als Vergleichspegel wird dabei der bei der Dynamikermittlung gefundene Maximalwert verwendet. Sollte dieser Wert unter dem Mindestpegel liegen, so wird das aus dem Dynamikumfang errechnete Maß M1 auf -1 ,0 gesetzt. Für eine gleitende Überblendung kann man den Wertebereich von 40 dB unter Maximalpegel bis 20 dB unter Maximalpegel heranziehen. Bei Werten von mehr als 40 dB unter Maximalpegel wird M1 dann auf -1 gesetzt, bei Werten von weniger als 20 dB unter Maximalpegel bleibt es unverändert, bei Werten dazwischen wird entsprechend eine lineare Interpolation zwischen diesen beiden Grenzfällen vorgenommen.
Als weiteres Maß wird die Periodizität des Audio-Signales, im Weiteren mit M2 bezeichnet, herangezogen. Aus der Stand ardliteratur sind viele Verfahren zur Bestimmung der Periodizität eines Audiosignales bekannt. Ein sehr einfaches Verfahren besteht darin, die Abtastwerte des linken und rechten Kanals zu quadrieren, aufzuaddieren und das resultierende Signal durch einen Tiefpass mit einer Grenzfrequenz von etwa 50 Hz filtern. In diesem Signal werden dann die Maxima gesucht. Wird festgestellt, dass die Pegelmaxima periodisch mit für Musik typischen Zeitabständen von zwischen einer drittel bis einer ganzen Sekunde auftreten, so wird dieses Maß, M2, auf 1 gesetzt, ansonsten auf -1.
Musiksignale lassen sich auch anhand ihrer Spektralverläufe als solche identifizieren. So haben beispielsweise Blas- und Streichinstrumente sehr charakteristische Spektren, die leicht detektiert werden können. Sollten derartige Spektralverläufe detektiert werden, so wird ein Maß M3 auf 1 gesetzt, ansonsten auf 0. Der Wert -1 wird hierbei nicht verwendet, da das Nicht- Vorhandensein dieser Spektren nicht automatisch bedeutet, dass kein
Musiksignal vorliegt. Dieses Maß kann also nur eine Entscheidung in Richtung der Musikdetektion bewirken.
Auch unbekannte Instrumente können im Spektrum identifiziert werden wenn sie mehrstimmig gespielt werden, d.h. wenn gleichzeitig mehr als ein Ton wahrzunehmen ist. In diesem Fall wird das für das Instrument typische Spektrum mehrfach bei unterschiedlichen Frequenzen vorhanden sein. Eine Verwechslung mit Sprache ist dabei nicht möglich, da sich die Spektren unterschiedlicher Sprecher unterscheiden und eine Person zu einem Zeitpunkt nur in einer Tonhöhe sprechen kann. Bei der Detektion derartiger
Spektralkonstellationen wird ein Maß M4 auf den Wert 1 gesetzt, ansonsten wie bei im vorherigen für das Maß M3 aufgezeigt, auf den Wert 0. Eine noch genauere Aussage ist dadurch möglich, dass die Frequenzen dieser Töne verglichen werden. Sollte es sich um Musik handeln, so werden diese mit großer Wahrscheinlichkeit in einem musikalischen Zusammenhang zueinander stehen, also sich nur durch einen Faktor unterscheiden, der einer ganzzahligen Potenz der zwölften Wurzel aus 2 entspricht. Sollten derartige Töne detektiert werden, so kann auch anhand der Erkennung von Melodien, also der Beobachtung der Tonhöhen dieses Instruments über der Zeit Musik detektiert werden.
Da bei Musiksignalen üblicherweise mehrere Instrumente spielen, die von ihrem Frequenzverhalten so aufeinander abgestimmt sind, dass sie sich gegenseitig ergänzen und nicht überdecken, kann man bei Musiksignalen einen verhältnismäßig flachen Frequenzgang beobachten. Die Flachheit des Frequenzganges wird ebenfalls als Maß für das Vorhandensein als Musik genutzt. Dazu wird der Pegel des Eingangssignales, insbesondere die Summe des rechten und linken Audio-Kanales, in verschiedenen Frequenzbändern insbesondere in den Frequenzbändern von 20 Hz bis 200 Hz, von 200 Hz bis 2 kHz und 2 kHz bis 20 kHz, ermittelt. Von jedem dieser Pegel wird der Maximalpegel ermittelt und dieser Wert mit der Anzahl an Bändern multipliziert. Davon werden die Pegel der einzelnen Bänder subtrahiert. Ergibt sich dabei ein großer Wert, so deutet dies daraufhin, dass die Leistung spektral in wenigen Bändern konzentriert ist und es sich somit wahrscheinlich nicht um Musik handelt. Zur Findung dieses Maßes, im weiteren mit M5 bezeichnet, wird ein Wertebereich von einem Maximalwert bis zu einem Minimalwert auf den Wertebereich [-1 ,0..1 ,0] linear abgebildet. Werte außerhalb dieses Bereiches werden auf die Grenzwerte abgebildet.
Ein ähnliches Maß lässt sich aus der Anzahl an spektralen Maxima mit einem gewissen Mindestpegel ableiten. Bei Vorhandensein vieler Instrumente sind auch viele derartige Maxima vorhanden. Die Anzahl an vorhandenen Maxima kann direkt linear auf den Wertebereich [-1 ,0..1 ,0] zur Bestimmung eines weiteren Maßes M6 abgebildet werden. Abgesehen von der Analyse des Klangmaterials lässt auch die Quelle Rückschlüsse auf das Klangmaterial zu. So ist z.B. bei Wiedergabe einer Rundfunksendung oder einer CD die Wahrscheinlichkeit sehr hoch, dass es sich um Musiksignale handelt. Hingegen wird es sich bei der Wiedergabe einer in AC3 codierten DVD eher um einen Film handeln. Jeder Quelle wird also ein individuelles Maß zugewiesen, so kann z.B. der Quelle CD der Wert 0,5 und einer DVD der Wert -0,3 zugewiesen werden. Dieses Maß wird als M7 bezeichnet.
Aus den einzelnen Maßen M1 bis M7 wird ein Gesamtmaß MG ermittelt. Dazu werden alle Maße M1 bis M7 mit einem individuellen Faktor gewichtet und aufaddiert. Da M1 eine sehr hohe Bedeutung hat, wird es mit dem größten Faktor, im Verhältnis zu den anderen Maßen M2 bis M7 bewertet. In der weiteren Beschreibung der Erfindung wird das Maß M1 mit dem Faktor 1 gewichtet, M2 wird mit Faktor 0,5, M3, M4, M5, M6 und M7 jeweils nur mit Faktor 0,2. Werte für das Gesamtmaß MG kleiner 0 entsprechen dann einem Signal ohne Musik, welches im Filmmodus wiedergegeben werden sollte und Werte größer 0 klassifizieren ein Musiksignal, wofür dann der Musikmodus Verwendung finden sollte. Je stärker negativ oder positiv dieser Wert ist, umso eindeutiger ist die Klassifizierung.
Um ein häufiges Umschalten im Grenzfall, d.h. bei Werten von MG nahe Null, zu vermeiden, wird eine Hysterese verwendet. Das bedeutet dass eine Umschaltung vom Filmmodus zum Musikmodus erst dann erfolgt, wenn MG einen Wert größer Null (beispielsweise 0,3) überschreitet. Eine Umschaltung vom Musikmodus zum Filmmodus erfolgt erst bei Unterschreitung eines Wertes kleiner Null (beispielsweise -0,3).
Das Umschalten zwischen dem Filmmodus und dem Musikmodus erfolgt mit einer durch den Benutzer einstellbaren Verzögerungszeit sowie Trägheit. Der Signaltyp muss für eine Zeitdauer entsprechend der Verzögerungszeit konstant sein, ansonsten erfolgt kein Wechsel des Wiedergabemodus. Nach dieser Verzögerungszeit erfolgt dann mit einer der Trägheit entsprechenden Zeitkonstante eine Überblendung zwischen den Modi, wodurch ansonsten eventuell hörbare Signalsprünge vermieden werden können und der Übergang von einem Modus in den anderen Modus unauffällig gestaltet werden kann. Im Normalfall liegt diese Zeitkonstante bei etwa 10 Sekunden. Bei sehr kurzen Zeitkonstanten wird versucht, einen Wechsel innerhalb einer Signalpause durchzuführen. In manchen Fällen sollte die vom Benutzer vorgewählte Verzögerungszeit sowie die Zeitkonstante der Trägheit weiter verringert werden, z.B. direkt nachdem bei einem Fernseher der Kanal umgeschaltet wird und das Audiosignal des Fernsehers wiedergegeben wird. Dieser Fall kann einfach festgestellt werden, wenn die entsprechende Audioverarbeitung im Fernseher untergebracht ist oder der Fernseher eine entsprechende Nachricht an die anderen angeschlossenen Geräte sendet. Ein derartiger Umschaltvorgang kann auch an einer abrupt auftretenden Signalpause erkannt werden, die bei Umschaltvorgängen innerhalb eines Gerätes immer die für dieses Gerät typische Dauer haben wird.
Weiterhin ist die Detektion der Kanalumschaltung basierend auf dem Bildsignal möglich, da beim Umschalten üblicherweise die Synchronisation verlorengeht. Aus einem Synchronisationsverlust kann also auch auf einen Kanalwechsel geschlossen werden. Bei der Detektion eines Kanalwechsels wird die
Verzögerungszeit dann auf Null gesetzt und die Zeitkonstante auf eine Zeit von beispielsweise 3 Sekunden reduziert. Nach der ersten darauffolgenden Bestimmung des Klangmaterials und einer entsprechend langen Zeit zum Überblenden auf den gewünschten Modus kann dann wieder auf die normale Verzögerungszeit und die lange Zeitkonstante gewechselt werden.
Die Verzögerungszeit und die Trägheit werden auch in Abhängigkeit des Absolutwertes von MG verändert. Sehr hohe Absolutwerte entsprechen einer sehr deutlichen Klassifizierung, weshalb in solchen Fällen ein früherer Wechsel möglich ist. Zur Wiedergabe von Musiksignalen können verschiedene Klangprogramme verwendet werden. Beispielsweise ist es möglich, das Differenzsignal zwischen dem linken und rechten Eingangssignal auf die hinteren Lautsprecher auszugeben und die vorderen Kanäle unbeeinflusst zu lassen. Das Differenzsignal kann zusätzlich noch für beide Kanäle individuell vorverarbeitet werden, wozu üblicherweise Allpassfilter verwendet werden. Damit wird eine Dekorrelation der hinteren Lautsprecher erreicht. Alternativ kann bei Musiksignalen ein häufig als „Hall" bezeichnetes Klangprogramm eingesetzt werden. Bei diesem wird zusätzlich zu dem Differenzsignal noch ein Hallanteil des Originalsignales sowie des Differenzsignales auf allen Lautsprechern ausgegeben. Allen derart für Musiksignale geeigneten Klangprogrammen ist gemein, dass die Stereobreite weitestgehend erhalten bleibt, also kein oder nur wenig Signal auf den vorderen Centerlautsprecher ausgegeben wird und auch keine aktive Matrizierung stattfindet, d.h. dass der Pegel für die vorderen Kanäle nicht abgesenkt wird, wenn das Differenzsignal der Eingangskanäle im Vergleich zu deren Summe groß wird.
Bei anderen Signalen als Musik wird beispielsweise Dolby Pro Logic oder ein ähnliches Verfahren eingesetzt werden. Dabei wird zum einen der Pegel der vorderen Kanäle reduziert, falls das Differenzsignal des Einganges im Vergleich zum Summensignal einen großen Pegel annimmt. Sollte das Differenzsignal sehr klein sein, so werden die Signale von den vorderen rechten und linken Kanälen zudem zum vorderen Centerkanal umgeleitet um eine Mittenortung bei Sprechern zu erreichen. Anstelle einer 5-Lautsprecher-Konstellation können auch noch mehr Lautsprecher verwendet werden, so dass dann z.B. das Differenzsignal auf drei hintere Lautsprecher ausgegeben wird.
Im Weiteren wird die Erfindung anhand eines konkreten Ausführungsbeispieles erläutert. Das Ausführungsbeispiel zeigt eine erfindungsgemäße Vorrichtung. Die erfindungsgemäße Vorrichtung V weist einen Signaleingang E, einen Quelleninformationseingang Q sowie einen Signalausgang A auf. Über den Eingang E werden der Vorrichtung V Audiodaten zugeführt. Insbesondere werden Stereo-Audiodaten, d.h. Audiodaten in Zweikanalverfahren zugeführt. Werden die Daten in analoger Form zugeführt, so erfolgt in einer vorgeschalteten Vorrichtung eine Kanaltrennung der Audiosignale und eine Digitalisierung. Der Vorrichtung V werden dann digitale Daten zugeführt. Die Vorrichtung V ist jedoch in der Weise erweitert, dass sie auch mehrkanalige Audiodaten, beispielsweise im AC3 Format, verarbeitet kann. Auch ist eine rein analoge Realisierung möglich, wenn die Vorrichtungen V8, V4, V5, V6 und V7 durch entsprechende analoge Varianten unter Verwendung von Filterbänken anstelle der FFT realisiert werden oder auf die Auswertung dieser Charakteristiken verzichtet wird.
Die Audiosignale, welche über den Eingang E der Vorrichtung V zugeführt werden, werden diversen weiteren Vorrichtungen V1 bis V10 zeitgleich zugeführt.
Die Vorrichtungen V1 bis V7 bewerten das Eingangs-Audiosignal und führen es jeweils einer weiteren Vorrichtung VM1 bis VM6 zur Abbildung auf ein Maß zu. Hierbei dient die Vorrichtung VM1 zur Abbildung auf das Maß 1 , die Vorrichtung VM2 zur Abbildung auf das Maß 2, usw.
Im weiteren dient die Vorrichtung V1 zur Dynamikermittlung, die Vorrichtung V2 zur Pegelbestimmung, die Vorrichtung V3 zur Periodizitätsmittlung, die Vorrichtung V4 zur Ermittlung von Frequenzspektren, insbesondere von Musikinstrumenten, die Vorrichtung V5 zur Bestimmung der Flachheit des Frequenzganges des Audiosignals, die Vorrichtung V6 zur Ermittlung der Anzahl an Maxima im Frequenzspektum, die Vorrichtung V7 zur Ermittlung des Anteils ähnlicher spektraler Strukturen im Frequenzspektum, die Vorrichtung V8 zur Transformation der Audiosignale aus dem Zeitbereich in den Frequenzbereich, die Vorrichtung V9 zur Verarbeitung von Musiksignalen, die Vorrichtung V10 zur Verarbeitung von anderen Signalen, die Vorrichtung V11 zur Detektion von Umschaltvorgängen und die Vorrichtung V12 zur Abbildung auf einen Faktor zur Steuerung der Schaltgeschwindigkeit.
Die aus den Vorrichtungen MV1 bis MV7 gewonnenen Maße werden mit Gewichtungsfaktoren G1 bis G7 gewichtet und aufaddiert. Das auf diese Weise gewonnene Gesamtmaß wird nochmals durch die Vorrichtungen V11 und V12 gewichtet und über die Hysteresevorrichtung H geleitet. Die Hysteresevorrichtung H verhindert, daß eine Umschaltung vom Filmmodus zum Musikmodus und umgekehrt erst dann erfolgt, wenn das Gesamtmaß einen vordefinierten Wert überschreitet oder unterschreitet. Anschließend wird das Gesamtmaß einem Integrator I, der vorteilhafterweise auf den Bereich [- 0.5..1.5] begrenzt, und einer Vorrichtung B zur Begrenzung auf den Bereich [0..1.0] zugeführt.
Das Gesamtmaß, welches über den Integrator I und die Vorrichtung B geführt ist, wird mit den Audiosignalen, welche von den Vorrichtungen V9 und V10 stammen gewichtet und addiert. Auf diese Weise wird der entsprechende Audioverarbeitungsmodus gewählt.
Bezugszeichenliste
A Ausgang (5-Kanal)
B Vorrichtung zur Begrenzung auf Bereich [0..1.0]
G1 , G2, G3, G4, G5, G6, G7 Gewichtungsfaktoren
H Hysteresevorrichtung
I Integrator VM1 Vorrichtung zur Abbildung auf das Maß 1
VM2 Vorrichtung zur Abbildung auf das Maß 2
VM3 Vorrichtung zur Abbildung auf das Maß 3
VM4 Vorrichtung zur Abbildung auf das Maß 4
VM5 Vorrichtung zur Abbildung auf das Maß 5 VM6 Vorrichtung zur Abbildung auf das Maß 6
VM7 Vorrichtung zur Abbildung auf das Maß 7
VI Vorrichtung zur Dynamikermittlung V2 Vorrichtung zur Pegelbestimmung V3 Vorrichtung zur Periodizitätsmittlung V4 Vorrichtung zur Ermittlung von Frequenzspektren von Musikinstrumenten
V5 Vorrichtung zur Bestimmung der Flachheit des Frequenzganges
V6 Vorrichtung zur Ermittlung der Anzahl an Maxima im Frequenzspektum
V7 Vorrichtung zur Ermittlung des Anteils ähnlicher spektraler Strukturen im Frequenzspektum V8 Vorπchtung zur Transformation in den Frequenzbereich
V9 Vorrichtung zur Verarbeitung von Musiksignalen
V10 Vorπchtung zur Verarbeitung von anderen Signalen
VI I Vorrichtung zur Detektion von Umschaltvorgängen
V12 Vorrichtung zur Abbildung auf einen Faktor zur Steuerung der Schaltgeschwindigkeit

Claims

Patentansprüche
1. Verfahren zur Auswahl eines Klangalgorithmus zur Verarbeitung eines Audiosignals, dadurch gekennzeichnet, dass das Audiosignal analysiert wird und auf Grund der Analyse die Art des
Audiosignals ermittelt wird, wobei eine Klassifizierung des Audiosignals als ein Musiksignal oder ein anderes Signal vorgenommen wird und in
Abhängigkeit der Klassifizierung zur Weiterverarbeitung und späteren
Ausgabe des Audiosignals unterschiedliche Klangalgorithmen verwendet werden.
2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass das Audiosignal ein stereophones Audiosignal ist.
3. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Audiosignal aus mindestens zwei Audiokanälen besteht.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei einem Musiksignal ein Klangprogramm gewählt wird, welches die Stereobreite weitestgehend oder ganz erhält.
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei einem Musiksignal ein Klangprogramm gewählt wird, welches keine Pegelreduktion oder nur eine geringe Pegelreduktion der vorderen Kanäle vornimmt.
6. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass bei anderen Signalen als Musik ein Klangprogramm gewählt wird, welches ähnlich dem Dolby Pro Logic Verfahren arbeitet.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass in Abhängigkeit von der Klassifizierung des Audiosignals die einzustellenden Parameter für Musik und Filmmaterial automatisch ausgewählt werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass eine Umlenkung des vorderen Centerkanales auf die vorderen linken und rechten Kanäle vorgenommen wird und der Grad der Umlenkung individuell vorgenommen wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals verschiedene Maße (M1 bis M6) aus dem Audiosignal und/oder der Quelle des Audiosignals (M7) ermittelt werden, die ermittelten Maße (M1 bis M7) unterschiedlich gewichtet werden und ein Gesamtmaß (MG) ermittelt wird, anhand welchem die Klassifizierung des Audiosignals vorgenommen wird.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals der Dynamikumfang des Eingangssignals und/oder dessen Pegel als ein erstes Maß (M1 ) herangezogen wird.
11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Periodizität des Audiosignals als ein zweites Maß (M2) herangezogen wird.
12. Verfahren nach einem der Ansprüche 9 bis 11 , dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals das Vorhandensein von in Musik typischen Signalspektren als ein drittes Maß (M3) herangezogen wird.
13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass die typischen Signalspektren von Blas- und Streichinstrumenten erkannt werden.
14. Verfahren nach einem der Ansprüche 9 bis 13, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Flachheit des Frequenzganges des Audiosignales als ein viertes Maß (M4) herangezogen wird.
15. Verfahren nach einem der Ansprüche 9 bis 14, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Anzahl an zu beobachtenden Maxima mit einem gewissen Mindestpegel im Spektrum als ein fünftes Maß (M5) herangezogen wird.
16. Verfahren nach einem der Ansprüche 9 bis 15 dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals das Vorhandensein ähnlicher spektraler Strukturen bei unterschiedlichen Frequenzen in einem Spektrum als ein sechstes Maß (M6) herangezogen wird.
17. Verfahren nach einem der Ansprüche 9 bis 16, dadurch gekennzeichnet, dass zur Klassifizierung des Audiosignals die Art der Quelle des Audiosignals als ein siebtes Maß (M7) herangezogen wird.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, dass die Quelle des Audiosignals eine CD, eine DVD, ein Datenfile, ein Rundfunksignalempfänger, ein Audiorundfunksignalempfänger, ein Satellitenrundfunksignalempfänger, ein Kabelrundfunksignalempfänger, ein Fernsehsenderempfänger ist.
19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass das Datenfile ein MP3-File ist.
20. Verfahren nach einem der Ansprüche 1 bis 19, dadurch gekennzeichnet, dass das Gesamtmaß (MG) für das Audiosignal durch gewichtete Addition der einzelnen Maße (M1 bis M7) ermittelt wird.
21.Verfahren nach einem der Ansprüche 1 bis 20, dadurch gekennzeichnet, dass bei der Auswertung des Gesamtmaßes (MG) eine Hysterese verwendet wird, wodurch ein häufiges Umschalten an der Schwelle bei leichten Schwankungen vermieden wird.
22. Verfahren nach einem der Ansprüchen 1 bis 21 , dadurch gekennzeichnet, dass eine Umschaltung auf einen anderen Klangalgorithmus erst dann vorgenommen wird, wenn die Klassifizierung des Audiosignals für eine einstellbare Zeitdauer konstant ist.
23. Verfahren nach Anspruch 22, dadurch gekennzeichnet, dass die Klangalgorithmen ineinander übergeblendet werden und die Zeit zur Überblendung durch den Benutzer einstellbar ist.
24. Verfahren nach einem der Ansprüchen 22 oder 23, dadurch gekennzeichnet, dass die Zeitdauer in der die Klassifizierung des Audiosignals ermittelt wird und die Zeit zur Überblendung eines Klangalgorithmus in einen anderen Klangalgorithmus in Abhängigkeit vom Gesamtmaß (MG) verringert wird, wenn das Gesamtmaß (GM) eine eindeutige Klassifizierung liefert.
25. Verfahren nach einem der Ansprüche 22 bis 24, dadurch gekennzeichnet, dass Umschaltvorgänge des Quellensignals erkannt werden und in solchen
Fällen die Zeitdauer zur Klassifizierung des Audiosignals und die Zeit zur Überblendung eines Klangalgorithmus in einen anderen Klangalgorithmus verringert wird.
26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass
Umschaltvorgänge an einer abrupt auftretenden Signalpause erkannt werden.
27. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass
Umschaltvorgänge an einem Synchronisationsverlust eines Bildsignals erkannt werden.
28. Vorrichtung zur Durchführung des Verfahren nach einem oder mehreren der vorangehenden Ansprüche.
EP02777268A 2001-09-29 2002-09-30 Verfahren und vorrichtung zur auswahl eines klangalgorithmus Expired - Lifetime EP1430750B1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10148351 2001-09-29
DE10148351A DE10148351B4 (de) 2001-09-29 2001-09-29 Verfahren und Vorrichtung zur Auswahl eines Klangalgorithmus
PCT/EP2002/010961 WO2003030588A2 (de) 2001-09-29 2002-09-30 Verfahren und vorrichtung zur auswahl eines klangalgorithmus

Publications (2)

Publication Number Publication Date
EP1430750A2 true EP1430750A2 (de) 2004-06-23
EP1430750B1 EP1430750B1 (de) 2010-11-10

Family

ID=7700947

Family Applications (1)

Application Number Title Priority Date Filing Date
EP02777268A Expired - Lifetime EP1430750B1 (de) 2001-09-29 2002-09-30 Verfahren und vorrichtung zur auswahl eines klangalgorithmus

Country Status (8)

Country Link
US (1) US7206414B2 (de)
EP (1) EP1430750B1 (de)
JP (1) JP4347048B2 (de)
CN (1) CN1689372B (de)
AT (1) ATE488101T1 (de)
DE (2) DE10148351B4 (de)
ES (1) ES2356226T3 (de)
WO (1) WO2003030588A2 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005009244D1 (de) * 2004-11-23 2008-10-02 Koninkl Philips Electronics Nv Einrichtung und verfahren zur verarbeitung von audiodaten, computerprogrammelement und computerlesbares medium
US20060115104A1 (en) * 2004-11-30 2006-06-01 Michael Boretzki Method of manufacturing an active hearing device and fitting system
WO2006070768A1 (ja) * 2004-12-27 2006-07-06 P Softhouse Co., Ltd. オーディオ波形処理装置、方式およびプログラム
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100717387B1 (ko) * 2006-01-26 2007-05-11 삼성전자주식회사 유사곡 검색 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
JP4439579B1 (ja) * 2008-12-24 2010-03-24 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102340598A (zh) * 2011-09-28 2012-02-01 上海摩软通讯技术有限公司 具有广播音乐捕捉功能的移动终端及其音乐捕捉方法
CN105895111A (zh) * 2015-12-15 2016-08-24 乐视致新电子科技(天津)有限公司 基于Android的音频内容处理方法及设备
CN105828272A (zh) * 2016-04-28 2016-08-03 乐视控股(北京)有限公司 音频信号处理方法和装置
CN110620986B (zh) * 2019-09-24 2020-12-15 深圳市东微智能科技股份有限公司 音频处理算法的调度方法、装置、音频处理器和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0517233B1 (de) * 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Gerät zur Unterscheidung von Musik und Sprache
KR0129989B1 (ko) * 1993-06-30 1998-10-01 김광호 자동 음색 조정방법 및 장치
US5617478A (en) * 1994-04-11 1997-04-01 Matsushita Electric Industrial Co., Ltd. Sound reproduction system and a sound reproduction method
US5666430A (en) * 1995-01-09 1997-09-09 Matsushita Electric Corporation Of America Method and apparatus for leveling audio output
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US5712953A (en) * 1995-06-28 1998-01-27 Electronic Data Systems Corporation System and method for classification of audio or audio/video signals based on musical content
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
JP3700890B2 (ja) * 1997-07-09 2005-09-28 ソニー株式会社 信号識別装置及び信号識別方法
CN1192358C (zh) * 1997-12-08 2005-03-09 三菱电机株式会社 声音信号加工方法和声音信号加工装置
US6819863B2 (en) * 1998-01-13 2004-11-16 Koninklijke Philips Electronics N.V. System and method for locating program boundaries and commercial boundaries using audio categories
DE19848491A1 (de) * 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
DE19854125A1 (de) * 1998-11-24 2000-05-25 Bosch Gmbh Robert Wiedergabegerät für Audiosignalträger und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals von einem Audiosignalträger

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO03030588A3 *

Also Published As

Publication number Publication date
WO2003030588A2 (de) 2003-04-10
JP2005507584A (ja) 2005-03-17
US7206414B2 (en) 2007-04-17
DE50214765D1 (de) 2010-12-23
WO2003030588A3 (de) 2003-12-11
JP4347048B2 (ja) 2009-10-21
CN1689372B (zh) 2011-08-03
ES2356226T3 (es) 2011-04-06
EP1430750B1 (de) 2010-11-10
US20050129251A1 (en) 2005-06-16
ATE488101T1 (de) 2010-11-15
CN1689372A (zh) 2005-10-26
DE10148351B4 (de) 2007-06-21
DE10148351A1 (de) 2003-04-17

Similar Documents

Publication Publication Date Title
DE69533822T2 (de) Verfahren zur Wiedergabe von Audiosignalen und Vorrichtung dafür
DE60306512T2 (de) Parametrische beschreibung von mehrkanal-audio
DE60305712T2 (de) Lautstärkeregelung von sprache in signalen, die sprache oder andere arten von audiosignalen enthalten
DE4209544C2 (de)
EP1430750B1 (de) Verfahren und vorrichtung zur auswahl eines klangalgorithmus
DE69827775T2 (de) Tonkanalsmischung
DE69333394T2 (de) Hochwirksames Kodierverfahren und -gerät
DE102005014477A1 (de) Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
EP1230827A2 (de) Verfahren und vorrichtung zum verarbeiten eines stereoaudiosignals
EP0251028B1 (de) Verfahren zur Übertragung eines Audiosignales
DE10260657B4 (de) Audioverstärker mit Spannungsbegrenzung in Reaktion auf den Spektralgehalt
EP2939445B1 (de) Erzeugung von 3d-audiosignalen
EP2457389A1 (de) Vorrichtung und verfahren zur verbesserung stereophoner oder pseudostereophoner audiosignale
WO2012032178A1 (de) Vorrichtung und verfahren zur zeitlichen auswertung und optimierung von stereophonen oder pseudostereophonen signalen
DE102007029381A1 (de) Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren
WO2010015275A1 (de) Verfahren zur mehrkanalbearbeitung in einem mehrkanaltonsystem
EP0712264A2 (de) Verfahren und Vorrichtung zur mehrkanaligen Tonwiedergabe
DE102012014310A1 (de) Verfahren und Vorrichtung zur Einstellung der Lautheit eines Audiosignals
EP1318502B1 (de) Verfahren zur Audiocodierung
DE2252132C3 (de) Decodierer für ein 4-2-4-Matrixsystem
DE4308175C2 (de) Verfahren zum Wiedergeben eines ein- oder mehrkanaligen digitalen, blockweise codierten Tonsignals
WO2017186756A1 (de) Verfahren zur verarbeitung eines fm-stereosignals
WO2015128379A1 (de) Kodierung und dekodierung eines niederfrequenten kanals in einem audiomultikanalsignal
DE3923447C2 (de)
DE1297677B (de) Verfahren zur Umwandlung monofon oder unzureichend stereofon aufgenommener, gespeicherter oder uebertragener Toninformationen in eine zwei- oder mehrkanalige Toninformation stereofonen und raeumlichen Charakters und Einrichtungen zur Durchfuehrung des Ver-fahrens sowie eine Anwendung des Verfahrens

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20040303

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK RO SI

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GRUNDIG MULTIMEDIA B.V.

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAJ Information related to disapproval of communication of intention to grant by the applicant or resumption of examination proceedings by the epo deleted

Free format text: ORIGINAL CODE: EPIDOSDIGR1

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: GRUNDIG MULTIMEDIA B.V.

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REF Corresponds to:

Ref document number: 50214765

Country of ref document: DE

Date of ref document: 20101223

Kind code of ref document: P

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20101110

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2356226

Country of ref document: ES

Kind code of ref document: T3

Effective date: 20110406

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110210

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110310

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20110211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20101110

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed

Effective date: 20110811

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 50214765

Country of ref document: DE

Effective date: 20110811

BERE Be: lapsed

Owner name: GRUNDIG MULTIMEDIA B.V.

Effective date: 20110930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20120531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 488101

Country of ref document: AT

Kind code of ref document: T

Effective date: 20110930

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

PGRI Patent reinstated in contracting state [announced from national office to epo]

Ref country code: FR

Effective date: 20121121

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20110930

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 15

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 16

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: TR

Payment date: 20170720

Year of fee payment: 16

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 17

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20210930

Year of fee payment: 20

Ref country code: FR

Payment date: 20210924

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20210923

Year of fee payment: 20

Ref country code: GB

Payment date: 20210925

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20211001

Year of fee payment: 20

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20180930

REG Reference to a national code

Ref country code: DE

Ref legal event code: R071

Ref document number: 50214765

Country of ref document: DE

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20220929

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20220929

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20221031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20221001