WO2000077537A1 - Procede et appareil de determination d'une source sonore - Google Patents

Procede et appareil de determination d'une source sonore Download PDF

Info

Publication number
WO2000077537A1
WO2000077537A1 PCT/JP2000/003695 JP0003695W WO0077537A1 WO 2000077537 A1 WO2000077537 A1 WO 2000077537A1 JP 0003695 W JP0003695 W JP 0003695W WO 0077537 A1 WO0077537 A1 WO 0077537A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
sound source
information
position information
processing means
Prior art date
Application number
PCT/JP2000/003695
Other languages
English (en)
French (fr)
Inventor
Hiroshi Okuno
Hiroaki Kitano
Yukiko Nakagawa
Original Assignee
Japan Science And Technology Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science And Technology Corporation filed Critical Japan Science And Technology Corporation
Priority to US09/926,673 priority Critical patent/US7035418B1/en
Priority to DE60036216T priority patent/DE60036216T2/de
Priority to EP00935570A priority patent/EP1205762B1/en
Publication of WO2000077537A1 publication Critical patent/WO2000077537A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Definitions

  • the present invention relates to a sound source identification apparatus and method for individually identifying each sound source based on image information and acoustic information from a plurality of sound sources.
  • a method has been proposed in which sound sources are identified based on acoustic information from each sound collecting microphone by using the same number of sound collecting microphones as the number of sound sources. This is to identify the sound intensity and the position of the sound source, but the frequency information is spread along the azimuth axis, and it is difficult to identify a good sound source. Furthermore, such a method can increase the recognition rate of the sound sources, but the costs are high because each sound source is independent and the number of microphones required is the same as the number of sound sources.
  • a first object of the present invention is to use acoustic information and image information to identify the position of a sound source object with higher accuracy. It is an object of the present invention to provide a sound source identification device capable of separating each sound from a mixed sound with high accuracy using position information. Further, as a second object of the present invention, the sound information and the image information are used to identify the position of the sound source object with higher accuracy, and the position information is used to obtain each sound with high accuracy from the mixed sound. It is an object of the present invention to provide an identification method which enables to separate S. Disclosure of the invention
  • a sound collecting means including two sound collecting microphones arranged at a predetermined interval with respect to a plurality of sound sources; Both of the imaging means for continuous imaging and the sensing means for detecting an object, and / or both, and a sound source from either or both of the image captured by the imaging means and the directional information of the object detected by the sensing means.
  • Image processing means for selecting position information on an object to be obtained; sound processing means for identifying the position of a sound source based on the sound information collected by the sound collecting means and the position information selected by the image processing means; And a control means for controlling the sound collecting means, the imaging means, the sensing means, the image processing means, and the sound processing means.
  • the sound processing means includes a direction filter for extracting only sound information at a specific time.
  • the sound processing means preferably has a function of selecting approximate position information of the sound source.
  • the sensing means preferably detects based on magnetism or infrared light of an object that can be a sound source.
  • the object that can be a sound source is provided with a magnetic device.
  • the sound source identification device of the present invention when identifying the position of the sound source based on the acoustic information obtained from the sound collecting microphone, the image information captured by the imaging means and the direction information obtained by the sensing means are used.
  • the direction of the sound source is narrowed down by referring to the positional information based on the above.
  • an object that can be a sound source is specified using the moving image and the direction information of the object, and the sound source separation can be reliably performed using the position information and the acoustic information.
  • the sound source identification method of the present invention preferably includes a fifth step of roughly selecting the position information of the sound source based only on the sound information collected in the first step.
  • the third step based on the approximate position information selected in the fifth step, the direction of the sound source is narrowed down in advance to select the position information on the object that can be the sound source.
  • the fifth step roughly selects a direction of the sound source based on a phase difference and an intensity difference of acoustic information obtained by the two sound collecting microphones.
  • the sound source identification method of the present invention is preferably selected based on one or both of the position information color and the shape of the object that can be the sound source in the third step.
  • the sound source identification method of the present invention is preferably arranged such that the fourth step selects a preset directional filter based on the position information selected in the third step.
  • the sound information from each sound source is extracted, and the position of each sound source is identified.
  • the fourth step or the fifth step is based on the acoustic information obtained in the first step, and arbitrarily divided signals in each frequency band as a reference. Select the position of the sound source.
  • positional information relating to an object that can be the sound source it may also be configured to select a motion of an object as a reference Les, 0
  • the direction can be detected based on magnetism or infrared rays.
  • sound information is obtained for a plurality of sound sources by a sound collecting means including two sound collecting microphones, and these sound sources are imaged by an image pickup means. Obtain image information. Furthermore, the direction of the sound source is detected based on magnetism and infrared rays, and direction detection information is obtained.
  • the sound processing unit identifies the position of the sound source based on the sound information, for example, based on the phase difference and the intensity difference of each sound information acquired by the sound collecting microphone, the image information obtained by the imaging unit Based on one or both of the direction detection information and the direction detection information, the direction of the sound source is narrowed down by referring to the position information on the object that can be the sound source selected by the image processing means based on, for example, its color, shape, movement, etc.
  • the position of the sound source is identified based on the band signal, for example, the harmonic structure. Therefore, it is not necessary to process sound information in all directions for identifying the position of the sound source, and it is possible to more accurately identify the position of the sound source, to reduce the amount of processing information, and to shorten the processing time. .
  • two or more sound collecting microphones of the sound collecting means can identify the positions of three or more sound sources, so that it is possible to accurately identify the positions of the sound sources with a simple configuration. .
  • the method includes a fifth step of roughly selecting the position information of the sound source based only on the sound information collected in the first step, and the third step is selected by the fifth step. If the direction of the sound source is narrowed down in advance and the position information on the object that can be the sound source is selected based on the approximated position information obtained, the object that can be the sound source based on the image information in the third stage is selected. Since the amount of information to be processed in the selection of the location information on the object is reduced, the processing can be performed easily.
  • the fourth step extracts the acoustic information from each sound source by selecting a preset directional filter based on the position information selected in the third step, and identifies the position of each sound source In this case, since a direction filter for extracting acoustic information from a sound source in a certain direction is set in advance, processing for identifying the position of the sound source can be performed smoothly.
  • FIG. 1 is a schematic diagram showing a configuration of a first embodiment of a sound source identification device according to the present invention.
  • FIG. 2 is a schematic diagram showing an example of an image screen by an imaging means in the sound source identification device of FIG.
  • FIG. 3A and 3B are explanatory diagrams for an image screen in the sound source identification device of FIG. 1, wherein FIG. 3A shows schematic directions AO, BO, and CO by sound processing means, and FIG. 1 and C1, and (C) shows position information A3, B3, and C3 of an object that can be a sound source by the image processing means, respectively.
  • FIG. 4 is an explanatory diagram showing a distance difference between two sound collecting microphones of the sound collecting means and the sound source in the sound source identification device of FIG.
  • FIG. 5 is a graph showing the effect of the directional filter in the sound processing means in the sound source identification device of FIG.
  • FIG. 6 is a graph showing extraction of two pieces of sound information from the same sound source by the sound processing means in the sound source identification device of FIG.
  • FIG. 7 is an explanatory diagram showing the extraction of sound information from each sound source by the direction filter in the sound processing means in the sound source identification device of FIG.
  • FIG. 8 is a flowchart showing an operation method in the sound source identification device of FIG.
  • FIG. 9 is a diagram showing a part of a continuous imaging screen by the imaging means in the sound source identification device of FIG.
  • FIG. 10 is a graph showing positional information of an object that can be a sound source on various references by the image processing means in the sound source identification device of FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 1 shows an embodiment of the sound source identification device of the present invention.
  • the sound source identification device 10 includes a sound collection unit 11, an imaging unit 12, an image processing unit 13, a sound processing unit 14, and a control unit 15.
  • the sound collecting means 11 captures sounds from a plurality of sound sources (for example, three speakers) with two sound collecting microphones 11a and 11b arranged at a predetermined interval D (see FIG. 1). Processing.
  • the arrangement of these sound-collecting microphones is a force that can be determined as appropriate. In the example shown in FIG.
  • the imaging means 12 is composed of, for example, a CCD (solid-state imaging device) camera. As shown in FIG. 2, an image including the plurality of sound sources (three speakers A, B, and C) is continuously output. It is for imaging.
  • CCD solid-state imaging device
  • the image processing means 13 is for selecting position information on an object that can be a sound source based on an image taken by the imaging means 12, for example, a color, shape, or motion in the image. In addition, movement includes vibration.
  • the image processing means 13 performs three operations on the image captured by the imaging means 12 based on the color (for example, the color of human skin) and the height.
  • the frames A1, B1, and C1 are set for the speakers A, B, and C, respectively, and the center position A of these frames A1, B1, and C1 is set as shown in FIG.
  • the horizontal coordinates A 3, B 3, and C 3 of 2, 2, 2, and 2 are used as positional information about the object that can be a sound source. Select.
  • the term “object that can be a sound source” is used because it is not always possible to determine whether or not the sound source is based on image recognition alone.
  • the image processing means 13 preferably includes, in order to simplify the image processing, the general directions AO, BO of the sound sources selected by the sound processing means 14 as described later before the above-described image processing.
  • CO see Fig. 3 (A)
  • the above image processing is performed in a state where it is narrowed down to the general directions AO, BO, C0, that is, within the range of these general directions A0, BO, CO.
  • position information A3, B3, C3 relating to an object that can be a sound source is selected.
  • the sound processing means 14 is a sound source based on the sound information collected by the microphone of the sound collection means 11, for example, based on the sound information and the position information A 3, B 3, C 3 selected by the image processing means 13. It identifies the position.
  • the identification of the position of the sound source is performed based on the phase difference and the intensity difference between the sound information of the left and right sound collecting microphones 11a and 11 with respect to the sound information.
  • the sound processing means 14 performs the above-described processing over the entire angle range of ⁇ 90 degrees ⁇ ⁇ ⁇ + 90 degrees.
  • the processing may be performed at regular intervals, for example, at 0, for example, at intervals of 5 degrees.
  • the sound processing means 14 first selects the approximate directions AO, B O, and CO of the sound source based on the left and right sound information from the sound collection means 11. This is the same as the conventional sound source identification, and has an accuracy of about ⁇ 10 degrees.
  • the sound processing means 14 outputs the general directions A 0, B O, and C O to the image processing means 13.
  • the sound processing means 14 refers to the position information A 3, B 3, C 3 inputted from the image processing means 13, and narrows down the range of the position information A 3, B 3, C 3. In the prone position, that is, near the position information A3, B3, and C3, the position of the sound source is identified again based on the acoustic information.
  • the sound processing unit 14 identifies the position of the sound source by selecting an appropriate so-called directional filter for each of the sound sources A, B, and C.
  • the directional filter is created as shown in FIG. 5 to extract only the acoustic information at the specific time t0, and is used as a reference table for the direction of the sound source in the auxiliary storage means in the control means 15 (not shown).
  • the sound processing means 14 selects an appropriate direction file based on the position information A3, B3, C3 from the image processing means 13 and reads it from the auxiliary storage means. .
  • the time t 2 (t 2 t 1 + ⁇ t) after the delay time ⁇ t due to the phase difference with respect to the right acoustic information at a certain time t 1 in by retrieving the audio information of the left, to obtain the acoustic information collected emitted by the respective sound collecting microphone 1 1 a, 1 1 b simultaneously from the sound source.
  • a t Can be negative.
  • the sound processing means 14 selects a direction filter, and as shown in FIG. Can be obtained.
  • the sound processing means 14 uses the position information A 3, B 3, and C 3 to narrow down the direction of the sound source to some extent, so that the entire angle range of 0 ( ⁇ 90 degrees ⁇ 0 ⁇ + 90) It is not necessary to perform the processing for (degree), and it is sufficient to perform the processing for the position information A3, B3, and C3 within a predetermined angle range.
  • the control means 15 is composed of, for example, a computer or the like.
  • the control means 15 controls the sound collection means 11, the imaging means 12, the image processing means 13 and the sound processing means 14, as described above.
  • the preset direction field is stored in an auxiliary storage means (not shown).
  • the sound source identification device 10 according to the embodiment of the present invention is configured as described above, and operates as described below according to the flowchart shown in FIG.
  • step ST1 the control means 15 controls the sound collecting means 11 so that the sound collecting microphones 11a, 11 of the sound collecting means 11 generate the sound sources A, At the same time that the sounds from B and C are collected, in step ST2, the control means 15 controls the imaging means 12 to continuously capture the image of the sound source.
  • step ST3 the control means 15 controls the sound processing means 14 so that the sound processing means 14 can determine the phase difference between the same two sounds of the same sound source obtained by the sound collecting means 11
  • the approximate directions AO, BO, and CO of the sound source are selected based on the acoustic information of the intensity difference.
  • all harmonic structures with a phase difference are examined and sound source separation is performed. Note that the harmonic structure was used as a reference as an example of the signal in each frequency band that was arbitrarily divided.
  • step ST4 the control means 15 controls the image processing means 13 so that the image processing means 13 and the imaging means 12 can output the sound processing means 14 based on the imaging screen.
  • position information A3, B3, C3 (see Fig. 3 (C)) about the object that can be a sound source depending on the color, shape, etc. of the image is selected.
  • step ST5 the control means 15 controls the sound processing means 14.
  • the sound processing means 14 generates the sound sources A, B, C Identify the location.
  • the sound processing means 14 selects a directional filter, and extracts only sound information including a specific time delay of the same sound from the same sound source. At this time, the acoustic information of the erroneous other harmonic structure is not processed, so that the error is reduced and the sound source separation rate is increased.
  • the sound source identification device 10 not only the sound processing unit 14, the sound information from the force collecting unit 11, but also the image captured by the imaging unit 12.
  • the position of the sound source is identified by referring to the position information A 3, B 3, and C 3 of the object that can be the sound source by the image processing means 13, so that only the sound information from the conventional sound collecting means 11 is used.
  • the sound source identification device 10 can more accurately identify the position of the sound source.
  • the sound source information obtained by roughly separating the sound source in advance can reliably identify the sound source even if the sound source is close to the sound source.
  • FIG. 9 shows the seventh, 51st, 78th, and 158th frames of the continuously captured images.
  • each speaker is located near 0 degrees, ⁇ 30 degrees, 0 degrees, and +20 degrees.
  • the image processing means 13 performs the image processing based on only the color and selects the position of the object which can be a sound source, as shown in the graph of FIG.
  • the misidentification decreases as shown in the graph of FIG. 10 (C).
  • FIG. 10 (E) As shown in the graph, it is clear that compared to the accurate face position shown in FIG. 10 (A), that is, it is possible to select a rather accurate sound source position information.
  • the image processing means 13 determines the center positions A 2, B 2, and C 2 of the frames A 1, B 1, and C 1 of the object that can be a sound source based on the captured continuous images.
  • the horizontal coordinates A3, B3, and C3 are used as the position information regarding the object that can be the sound source, the horizontal and vertical coordinates may be used as the position information regarding the object that can be the sound source.
  • the image processing means 13 selects position information of an object that can be a sound source on the basis of a color, a shape (for example, height), etc., based on a captured continuous image. ing.
  • the image processing means 13 performs the image processing with reference to the general directions AO, BO, and C0 from the sound processing means 14, but is not limited thereto. Only the image information from 12 may be used to select the positional information of the object that can be a sound source.
  • an active badge made of magnetic equipment may be attached to each sound source, and the direction in which magnetism is emitted may be selected using a magnetic detection device as a sensing means. This may be fed back to the sound processing means, and the sound processing means may create a directional filter using the direction obtained from the magnetic detection device to separate the sound source.
  • the sound source is, for example, a human, it emits heat rays, so the direction of the sound source may be detected by an infrared sensor.
  • the direction of the sound source is determined based on the image information and the direction detection information with reference to positional information on an object that can be a sound source. Since there is no need to process sound information in all directions for sound source identification, more accurate sound source identification can be performed, and the amount of processing information can be reduced and processing time can be reduced. Can be. It Therefore, according to the present invention, there is provided an extremely excellent sound control apparatus and method capable of identifying a plurality of sound sources with high accuracy using two microphones.
  • the sound source identification device and the identification method of the present invention identify the position of the sound source object with higher accuracy based on the acoustic information and the image information, and use the position information to separate each sound from the mixed sound. It is extremely useful as a sound source identification device and a method for identifying the same that can be separated with high accuracy.

Description

明 細 書 音源同定装置及びその同定方法 技術分野
本発明は、 複数の音源からの画像情報と音響情報に基づいて、 各音源を個別に 同定するための音源同定装置及び方法に関するものである。 背景技術
従来から、 混合音における音声、 楽音といった特定の音について混合音から分 離する方法の研究が行われている。 例えば、 入力音として音声を仮定する音声認 識システムが知られている。 また画像処理自体に関して、 対象物の抽出に色、 形 状、 動きを特徴として仮定するシステムが知られている。
しかしながら、 音認識と画像処理を組み合わせた音認識システムはなく、 また 音声を仮定する音認識システムでは、 マイクロフォンが口元にある時や他の音源 が全く存在しない時にしか成立しない。
さらに複数の音源から調波構造を基に特定の音響信号を分離するとともに音源 方向を求めるものもあるが、 音源方向の精度は ± 1 0。 であり、 隣接音源が近接 している場合は音源の分離ができない。
また音源の数と同じ数の集音マィクを使用することにより、 各集音マイクから の音響情報に基づいて、 音源の同定を行なう方法も提案されている。 これは音の 強度と音源の位置を同定するものであるが、 その周波数情報は方位軸に沿って拡 散してしまい、 良質な音源同定が困難である。 さらにこのような方法では、 音源 の認識率を高めることは可能であるが、 各音源がそれぞれ独立していることと、 音源の数だけ集音マイクが必要であることから、 コストが高くなる。
本発明は、 このような従来の技術における欠点を解決するものであり、 第 1の 目的として、 音響情報と画像情報とを用レ、て音源物体の位置をより高精度に同定 して、 その位置情報を用いて混合音から高精度で各音を分離し得るようにした、 音源同定装置を提供することにある。 さらに本発明の第 2の目的として、 音響情報と画像情報とを用レ、て音源物体の 位置をより高精度に同定して、 その位置情報を用レ、て混合音から高精度で各音を 分離し得るようにする同定方法を提供することにある。 発明の開示
上記第 1の目的を達成するために、 本発明に係る音源同定装置によれば、 複数 の音源に対して所定間隔に配置した二つの集音マイクから成る集音手段と、 上記 複数の音源を連続撮像する撮像手段及び物体を検知する感知手段のレ、ずれか或レ、 は両方と、 上記撮像手段により撮像された画像及び感知手段により検知した物体 の方向情報のいずれか或いは両方から音源となり得る物体に関する位置情報を選 定する画像処理手段と、 集音手段により集音された音響情報と画像処理手段によ り選定された位置情報に基づいて、 音源の位置を同定する音響処理手段と、 上記 集音手段, 撮像手段, 感知手段, 画像処理手段及び音響処理手段を制御する制御 手段とを具備することにより構成される。
さらに上記構成に加え、 好ましくは、 音響処理手段が特定時刻の音響情報だけ を取り出す方向フィル夕を備えてし、る。
音響処理手段は、 好ましくは、 音源の概略位置情報を選定する機能を有してい る。
上記感知手段は、 好ましくは、 音源となり得る物体の磁気又は赤外線に基づい て検知する。
好ましくは、 音源となり得る物体には、 磁気を帯びた器材が設けられる。
このような構成により、 本発明の音源同定装置では、 集音マイクから得た音響 情報により音源の位置を同定する際に、 撮像手段によって撮像した画像情報と感 知手段によつて得た方向情報とに基づく位置情報を参考にして音源の方向を絞り 込んでいる。
したがって本発明の音源同定装置では、 動画像や物体の方向情報を用いて音源 となりうる物体を特定するとともに、 その位置情報と音響情報とを用いて音源分 離を確実に行うことができる。
本発明の第 2の目的を達成するために、 本発明に係る音源同定方法によれば、 複数の音源に対して所定間隔に配置した二つの集音マイクから成る集音手段によ り集音する第一の段階と、 第一の段階と同時に、 上記複数の音源となり得る物体 の連続撮像及び方向検知のレ、ずれか或レ、は両方を行なう第二の段階と、 第二の段 階で撮像された画像及び方向検知のいずれか或いは両方から音源となり得る物体 に関する位置情報を選定する第三の段階と、 第一の段階により集音された音響情 報及び第三の段階で選定された位置情報に基づいて、 音源の位置を同定する第四 の段階とを具備することにより構成される。
本発明の音源同定方法は、 好ましくは、 上記第一の段階により集音された音響 情報のみに基づいて、 音源の位置情報を概略的に選定する第五の段階を含んでお り、 上記第三の段階が、 この第五の段階により選定された概略位置情報に基づい て、 前以て音源の方向を絞り込んで音源となり得る物体に関する位置情報を選定 する。
本発明の音源同定方法は、 好ましくは、 上記第五の段階が、 二つの集音マイク により取得された音響情報の位相差及び強度差により、 音源の方向を概略的に選 定する。
本発明の音源同定方法は、 好ましくは、 上記第三の段階における音源となり得 る物体に関する位置情報力 色及び形状のいずれか或いは両方を基準として選定 される。
本発明の音源同定方法は、 好ましくは、 上記第四の段階が、 第三の段階で選定 された位置情報に基づレ、て、 前以て設定された方向フィルタを選択することによ り、 各音源からの音響情報を取り出して、 各音源の位置を同定する。
本発明の音源同定方法は、 好ましくは、 上記第四の段階または第五の段階が、 第一の段階により得られた音響情報に基づいて、 任意に分割した各周波数帯域の 信号を基準として、 音源の位置を選定する。
さらに音源となり得る物体に関する位置情報を、 物体の動きを基準として選定 するようにしてもよレ、0
また方向検知を磁気又は赤外線に基づいて検知することもできる。
これらの構成によれば、 複数の音源に対して二つの集音マイクからなる集音手 段によつて音響情報を得ると共に、 これらの音源を撮像手段によつて撮像して画 像情報を得る。 さらに音源の方向を磁気、 赤外線に基づいて検知し、 方向検知情 報を得る。 そして、 音響処理手段が音響情報に基づいて、 例えばその集音マイク により取得された各音響情報の位相差及び強度差によつて音源の位置を同定する 際に、 撮像手段によって得られた画像情報及び方向検知情報のいずれか、 或いは 両方に基づいて、 例えばその色, 形状, 動き等により画像処理手段によって選定 された音源となり得る物体に関する位置情報を参考にして音源の方向を絞り込ん で、 各周波数帯域の信号例えば調波構造を基準として音源の位置を同定するよう にしている。 したがって、 音源の位置の同定に関して全方向に関する音響情報の 処理が不要となり、 より正確な音源の位置の同定を行なうことができると共に、 処理情報量が少なくて済み、 処理時間を短縮することができる。
この場合、 集音手段の二つの集音マイクによって、 三つ以上の複数の音源の位 置を同定することができるので、 簡単な構成によって正確な音源の位置の同定を 行なうことが可能になる。
また、 上記第一の段階により集音された音響情報のみに基づいて、 音源の位置 情報を概略的に選定する第五の段階を含んでおり、 第三の段階がこの第五の段階 により選定された概略位置情報に基づいて、 前以て音源の方向を絞り込んで音源 となり得る物体に関する位置情報を選定するようになっている場合には、 第三の 段階による画像情報に基づく音源となり得る物体に関する位置情報の選定におけ る処理情報量が軽減されるので、 処理を簡単に行なうことができる。
上記第四の段階が、 第三の段階で選定された位置情報に基づいて前以て設定さ れた方向フィルタを選択することにより各音源からの音響情報を取り出して、 各 音源の位置を同定する場合には、 ある方向に対する音源からの音響情報を取り出 すための方向フィル夕が前以て設定されているので、 音源の位置の同定のための 処理を円滑に行なうことができる。 図面の簡単な説明
本発明は以下の詳細な説明及び本発明の実施の形態を示す添付図面によって、 よりょく理解されるものとなろう。 なお、 添付図面に示す実施例は本発明を特定 又は限定することを意図するものではなく、 単に説明及び理解を容易とするため にだけ用いられるものである。
図中、
図 1は本発明による音源同定装置の第 1の実施例の構成を示す概略図である。 図 2は図 1の音源同定装置における撮像手段による撮像画面の一例を示す概略 図である。
図 3は図 1の音源同定装置における撮像画面に対する説明図であり、 (A) は 音響処理手段による概略方向 A O , B O , C Oを、 また、 (B ) は画像処理手段 による枠 A l , B 1 , C 1を、 さらに、 (C ) は画像処理手段による音源となり 得る物体の位置情報 A 3, B 3 , C 3を、 それぞれ示している。
図 4は図 1の音源同定装置における集音手段の二つの集音マイクと音源との距 離差を示す説明図である。
図 5は図 1の音源同定装置における音響処理手段での方向フィルタの作用を示 すグラフである。
図 6は図 1の音源同定装置における音響処理手段での同一音源からの二つの音 響情報の取出しを示すグラフである。
図 7は図 1の音源同定装置における音響処理手段での方向フィル夕による各音 源からの音響情報の取出しを示す説明図である。
図 8は図 1の音源同定装置における動作方法を示すフローチヤ一トである。 図 9は図 1の音源同定装置における撮像手段による連続撮像画面の一部を示す 図である。
図 1 0は図 1の音源同定装置における画像処理手段による種々の基準での音源 となり得る物体の位置情報を示すグラフである。 発明を実施するための最良の形態
次に、 本発明の音源同定装置及びその同定方法における最良の実施形態を図面 を参照して詳細に説明する。
図 1は本発明の音源同定装置の実施例を示している。
図 1において、 音源同定装置 1 0は、 集音手段 1 1と、 撮像手段 1 2と、 画像 処理手段 1 3と、 音響処理手段 1 4と、 制御手段 1 5と、 を含んでいる。 上記集音手段 1 1は、 複数の音源 (例えば三人の話者) に対して、 所定間隔 D (図 1参照) に配置した二つの集音マイク 1 1 a, 1 1 bで音を取り込んで処理 している。 これらの集音マイクの配置は適宜決定し得る力 図 1に示した例では 撮像手段 1 2の両側、 すなわち左右に設けられている。
上記撮像手段 1 2は、 例えば CCD (固体撮像素子) カメラから構成されてお り、 図 2に示すように、 上記複数の音源 (三人の話者 A, B, C) を含む画像を 連続撮像するものである。
上記画像処理手段 1 3は、 撮像手段 1 2により撮像された画像、 例えば画像に おける色、 形状又は動きに基づいて、 音源となり得る物体に関する位置情報を選 定するものである。 なお、 動きには振動なども含まれる。
この場合、 画像処理手段 1 3は、 図 3 (B) に示すように、 撮像手段 1 2によ り撮像された画像について、 色 (例えば人の肌の色) や高さ等に基づいて三人の 話者 A, B, Cについてそれぞれ枠 A 1, B 1, C 1を設定し、 図 3 (C) に示 すように、 これらの枠 A 1, B 1 , C 1の中心位置 A 2, B 2, C 2 (図 3にて それぞれ枠 A 1, B 1, C 1内にて 「十」 図示) の水平座標 A 3, B 3, C 3を 音源となり得る物体に関する位置情報として選定する。
ここで、 「音源となり得る物体」 としたのは、 必ずしも画像認識のみでは音源 か否か不明だからである。
なお、 画像処理手段 1 3は、 好ましくは画像処理の簡略化のために、 上述の画 像処理の前に、 後述するように音響処理手段 1 4で選定された各音源の概略方向 AO, B O, C O (図 3 (A) 参照) が入力され、 この概略方向 AO, B O, C 0に絞り込んだ状態にて、 即ちこれらの概略方向 A 0, B O, C Oの範囲内で上 記画像処理を行なうことにより、 音源となり得る物体に関する位置情報 A 3, B 3, C 3を選定する。
上記音響処理手段 1 4は、 集音手段 1 1のマイクにより集音された、 例えば音 響情報と画像処理手段 1 3により選定された位置情報 A 3, B 3, C 3に基づい て音源の位置を同定するものである。
音源の位置の同定は、 音響情報に関しては左右の集音マイク 1 1 a, 1 1 の 音響情報の間の位相差及び強度差に基づいて行なわれる。 これは、 図 4に示すように、 一つの音源からの音響情報は、 その音源の方向 0 は、 正面を 0度とし、 左にマイナス、 右にプラスとする。 ) に対応して、 左 右の集音マイク 1 1 a, 1 1 bから音源までの距離が d (d = D · s i η θ) だ け異なることに起因して、 集音マイク 1 1 a, 1 1 bに達する音の位相が異なる と共に、 距離差 dによる減衰により強度差が異なることを利用している。
なお、 ここでは、 音源の位置が不明であることから、 音響処理手段 1 4は、 - 9 0度≤Θ≤+ 9 0度の全角度範囲に亘つて上記処理を行なう。 この場合、 処 理作業の軽減のために、 例えば 0に関して一定間隔、 例えば 5度間隔で処理を行 なうようにしてもよレ、。
音響処理手段 1 4は、 先ず集音手段 1 1からの左右の音響情報に基づいて、 音 源の概略方向 AO, B O, C Oを選定する。 これは、 従来行なわれている音源同 定と同じであって、 ± 1 0度程度の精度である。
そして、 音響処理手段 1 4は、 この概略方向 A 0, B O, C Oを画像処理手段 1 3に出力する。
さらに、 音響処理手段 1 4は、 画像処理手段 1 3から入力される位置情報 A 3 , B 3, C 3を参照して、 これらの位置情報 A 3, B 3, C 3の範囲内に絞り込 んだ伏態で、 即ちこれらの位置情報 A 3, B 3, C 3の近傍にて、 再び音響情報 に基づいて音源の位置を同定する。
この場合、 音響処理手段 1 4は、 各音源 A, B, Cに関してそれぞれ適宜の所 謂方向フィルタを選択することにより音源の位置を同定する。
ここで、 方向フィルタは、 図 5に示すように、 特定時刻 t 0の音響情報のみを 取り出すために作成され、 音源の方向に対する対照表として制御手段 1 5内の補 助記憶手段 (図示せず) 内に記憶されており、 画像処理手段 1 3からの位置情報 A3, B 3, C 3に基づいて、 音響処理手段 1 4が適宜の方向フィル夕を選択し て、 上記補助記憶手段から読み出す。
これにより、 図 6に示すように一つの方向 0に関して、 ある時刻 t 1における 右側の音響情報に対して、 位相差による遅延時間 Δ t後の時刻 t 2 (t 2 = t 1 + Δ t) における左側の音響情報を取り出すことにより、 音源から同時に発して 各集音マイク 1 1 a, 1 1 bにより集音された音響情報を取得する。 なお、 A t は負の場合もあり得る。
このようにして、 ある程度正確な方向情報を持った各音源 A, B, Cについて 、 音響処理手段 1 4が方向フィルタを選択することにより、 図 7に示すように、 混合音からそれぞれの音響情報を得ることができる。
なお、 ここでは、 音響処理手段 1 4は、 位置情報 A 3, B 3, C 3により音源 の方向がある程度絞り込まれているので、 0の全角度範囲 (― 9 0度≤0≤+ 9 0度) について処理を行なう必要はなく、 位置情報 A 3, B 3, C 3に関して所 定の角度範囲で処理を行なえばよい。
上記制御手段 1 5は、 例えばコンピュータ等から構成されており、 上記集音手 段 1 1, 撮像手段 1 2, 画像処理手段 1 3及び音響処理手段 1 4を制御すると共 に、 上述したように前以て設定された方向フィル夕が補助記憶手段 (図示せず) に記憶されている。
本発明実施形態による音源同定装置 1 0は以上のように構成されており、 図 8 に示すフローチヤ一トに従って、 以下に説明するように動作する。
即ち、 図 8において、 先ずステップ ST 1にて、 制御手段 1 5が集音手段 1 1 を制御することにより、 集音手段 1 1の各集音マイク 1 1 a, 1 1 で、 音源 A , B, Cからの音を集音すると同時に、 ステップ ST 2にて、 制御手段 1 5が撮 像手段 1 2を制御することにより、 音源の画像を連続的に撮像する。
次に、 ステップ ST 3にて、 制御手段 1 5が音響処理手段 1 4を制御すること により、 音響処理手段 1 4が、 集音手段 1 1で得た同じ音源の同じ二つの音の位 相差及び強度差の音響情報に基づいて、 音源の概略方向 AO, B O, C O (図 3 (A) 参照) を選定する。 このとき位相差のある全ての調波構造を調べ、 大体の 音源分離を行っている。 なお、 任意に分割した各周波数帯域の信号の一例として 調波構造を基準とした。
続いて、 ステップ ST 4にて、 制御手段 1 5が画像処理手段 1 3を制御するこ とにより、 画像処理手段 1 3カ、 撮像手段 1 2から撮像画面に基づいて音響処理 手段 1 4からの概略方向の範囲内で、 画像の色, 形状等により音源となり得る物 体に関する位置情報 A 3, B 3, C 3 (図 3 (C) 参照) を選定する。
その後、 ステップ ST 5にて、 制御手段 1 5が音響処理手段 1 4を制御するこ とにより、 音響処理手段 1 4が、 画像処理手段 1 4からの位置情報 A 3 , B 3 , C 3に関する所定角度範囲内の集音手段による音響情報に基づいて、 音源 A, B , Cの位置を同定する。
最後にステップ S T 6にて、 音響処理手段 1 4が方向フィルタを選択し、 同じ 音源の同じ音の特定の時間遅れを含んだ音響情報だけを取り出す。 このとき誤つ た他の調波構造の音響情報は処理しないので誤差が減り、 音源分離率が上がる。 このようにして、 本発明実施形態による音源同定装置 1 0によれば、 音響処理 手段 1 4力 集音手段 1 1からの音響情報だけでなく、 撮像手段 1 2により撮像 された画像に基づいて、 画像処理手段 1 3により音源となり得る物体の位置情報 A 3 , B 3 , C 3を参照しながら、 音源の位置を同定するので、 従来の集音手段 1 1からの音響情報だけの場合には ± 1 0度前後の精度であつたのに対して、 本 発明実施例による音源同定装置 1 0によれば、 より正確に音源の位置を同定する ことができる。
また予め大体の音源分離をした音源情報を画像情報から得られた位置情報を基 に音源の位置精度を高めているので、 近接する音源であっても音源同定が確実に できる。
具体的には、 撮像手段 1 2により、 音源である三人の話者の連続撮像を行なつ た場合、 例えば図 9に示すような画像が得られる。 なお、 図 9は連続撮像された 画像のうち、 7, 5 1 , 7 8及び 1 5 8番目のフレームを示している。
ここで、 各話者の正確な顔の位置は、 図 1 0 ( A) に示すようになつている。 これにより各話者は、 0がー 3 0度, 0度及び + 2 0度付近に位置していること が明らかである。
これに対して、 画像処理手段 1 3が色のみを基準として画像処理を行なって音 源となり得る物体の位置を選定した場合、 図 1 0 ( B ) のグラフに示すように、 撮像画面中の種々の物体をも音源となり得る物体として誤認している力 色及び 高さを基準として画像処理を行なった場合には、 図 1 0 ( C ) のグラフに示すよ うに誤認が減少している。
また、 画像処理手段 1 3が、 音響処理手段 1 4からの概略方向 A O , B 0 , C 0を参照して、 色を基準として画像処理を行なった場合には、 図 1 0 ( D ) のグ ラフに示すようにより一層誤認が減少している。
さらに、 画像処理手段 1 3力 音響処理手段 1 4からの概略方向 A O , B O , C Oを参照して、 色及び高さを基準として画像処理を行なった場合には、 図 1 0 ( E ) のグラフに示すように、 図 1 0 ( A) に示した正確な顔の位置と比較して 遜色のない、 すなわち、 かなり正確な音源の位置情報が選択され得ることが明白 である。
なお、 上述した実施例においては、 画像処理手段 1 3は、 撮像した連続画像に 基づいて、 音源となり得る物体の枠 A 1, B l, C 1の中心位置 A 2 , B 2 , C 2の水平座標 A 3, B 3 , C 3を音源となり得る物体に関する位置情報としてい るが、 水平垂直座標を音源となり得る物体に関する位置情報としてもよい。 また、 上述した実施例においては、 画像処理手段 1 3は、 撮像した連続画像に 基づいて、 色や形状 (例えば高さ) 等を基準として音源となり得る物体の位置情 報を選定するようになっている。
さらに、 上述した実施例においては、 画像処理手段 1 3は音響処理手段 1 4か らの概略方向 A O , B O , C 0を参考にして画像処理を行なっているが、 これに 限らず、 撮像手段 1 2からの画像情報のみにより、 音源となり得る物体の位置情 報を選定するようにしてもよし、。
音源の方向を検知する場合、 音源のそれぞれに磁気を帯びた器材のアクティブ バッジなどを装着し、 感知手段である磁気検知装置を用いて磁気を発する方向を 選定してもよい。 これを音響処理手段にフィードバックし、 音響処理手段はこの 磁気検知装置から得られた方向を用いて方向フィルターを作成し、 音源を分離す るようにしてもよい。
さらに音源が例えば人の場合、 熱線を発しているので赤外線センサにより音源 の方向を検知するようにしてもよレ、。
以上述べたように、 この発明によれば、 音響情報に基づいて音源を同定する際 に、 画像情報と方向検知情報とに基づいて、 音源となり得る物体に関する位置情 報を参考にして音源の方向を絞り込んでいるので、 音源の同定に関して全方向に 関する音響情報の処理が不要となり、 より正確な音源の同定を行なうことができ ると共に、 処理情報量が少なくて済み、 処理時間を短縮することができる。 それ 故、 この発明によれば、 二本のマイク Πフォンで高精度で複数の音源を同定し得 るようにした極めて優れた音 司定装置及び方法が提供される。
なお本発明は例示的な実施 こついて説明したものであり、 本発明の要旨及び 範囲を逸脱することなく、 実 例での種々の変更、 省略、 追加が可能である。 し たがって本発明は実施例に限定されるものではなく、 特許請求の範囲に記載され た要素によって規定される範囲及びその均等範囲を包含するものとして理解され なければならない。 産業上の利用可能性
以上のように、 本発明の音源同定装置及びその同定方法は、 音響情報と画像情 報に基づき音源物体の位置をより高精度に同定し、 その位置情報を用いて混合音 から各音をより高精度に分離し得る音源同定装置及びその同定方法として極めて 有用である。

Claims

請 求 の 範 囲 . 複数の音源に対して所定間隔に配置した二つの集音マイクで音を取り込んで 処理する集音手段と、
上記複数の音源となり得る物体を連続撮像する撮像手段及び物体を検知する 感知手段のいずれか、 或いは両方と、
上記撮像手段により撮像された画像及び上記感知手段により検知した物体の 方向情報のいずれか、 或いは両方から、 音源となり得る物体に関する位置情報 を選定する画像処理手段と、
集音手段により集音された音響情報と画像処理手段により選定された位置情 報に基づいて、 音源の位置を同定する音響処理手段と、
上記集音手段, 撮像手段, 感知手段, 画像処理手段及び音響処理手段を制御 する制御手段とを備える、 音源同定装置。 . 前記音響処理手段が、 特定時刻の音響情報だけを取り出す方向フィルタを備 えていることを特徴とする、 請求の範囲第 1項に記載の音源同定装置。 . 前記音響処理手段が、 前記音源となり得る物体の概略位置情報を選定する機 能を有していることを特徴とする、 請求の範囲第 1項又は第 2項に記載の音源 . 前記感知手段が、 前記音源となり得る物体の磁気に基づいて検知することを 特徴とする、 請求の範囲第 1項〜第 3項のいずれかに記載の音源同定装置。 . 前記感知手段が、 前記音源となり得る物体の赤外線に基づいて検知すること を特徴とする、 請求の範囲第 1項〜第 3項のいずれかに記載の音源同定装置。 . 前記音源となり得る物体に磁気を帯びた器材を設けたことを特徴とする、 請 求の範囲第 1項〜第 3項のレ、ずれかに記載の音源同定装置。
. 複数の音源に対して所定間隔に配置した二つの集音マイクで音を取り込んで 処理する集音手段により集音する第一の段階と、
第一の段階と同時に、 上記複数の音源となり得る物体の連铳撮像及び方向検 知のいずれか、 或いは両方を行なう第二の段階と、
第二の段階で撮像された画像及び方向検知のいずれか、 或いは両方から、 音 源となり得る物体に関する位置情報を選定する第三の段階と、
第一の段階により集音された音響情報及び第三の段階で選定された位置情報 に基づいて、 音源の位置を同定する第四の段階と、
を含んでいることを特徴とする、 音源同定方法。 . 前記第一の段階により集音された音響情報のみに基づいて、 音源の位置情報 を概略的に選定する第五の段階を含んでおり、
前記第三の段階が、 この第五の段階により選定された概略位置情報に基づい て、 前以て音源の方向を絞り込んで音源となり得る物体に関する位置情報を選 定することを特徴とする、 請求の範囲第 7項に記載の音源同定方法。 . 前記第五の段階が、 前記二つの集音マイクにより取得された音響情報の位相 差及び強度差により、 音源の方向を概略的に選定することを特徴とする、 請求 の範囲第 8項に記載の音源同定方法。 0 . 前記第三の段階における音源となり得る物体に関する位置情報が、 色及び 形状のいずれか、 或いは両方を基準として選定されることを特徴とする、 請求 の範囲第 7項〜第 9項の何れかに記載の音源同定方法。 1 . 前記第四の段階が、 前記第三の段階で選定された位置情報に基づいて、 前 以て設定された方向フィル夕を選択することにより、 各音源からの音響情報を 取り出して、 各音源の位置を同定することを特徴とする、 請求の範囲第 7項に 記載の音源同定方法。
2 . 前記第四の段階または第五の段階が、 前記第一の段階により得られた音響 情報に基づいて、 任意に分割した各周波数帯域の信号を基準として、 音源の位 置を選定することを特徴とする、 請求の範囲第 7項〜第 1 1項の何れかに記載 の音源同定方法。
3 . 前記音源となり得る物体に関する位置情報を物体の動きを基準として選定 していることを特徴とする、 請求の範囲第 7項〜第 9項, 第 1 1項, 第 1 2項 のレ、ずれかに記載の音源同定方法。
4 . 前記方向検知を磁気に基づいて検知することを特徴とする、 請求の範囲第 7項〜第 1 3項のいずれかに記載の音源同定方法。
5 . 前記方向検知を赤外線に基づいて検知することを特徴とする、 請求の範囲 第 7項〜第 1 3項のいずれかに記載の音源同定方法。
PCT/JP2000/003695 1999-06-11 2000-06-07 Procede et appareil de determination d'une source sonore WO2000077537A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US09/926,673 US7035418B1 (en) 1999-06-11 2000-06-07 Method and apparatus for determining sound source
DE60036216T DE60036216T2 (de) 1999-06-11 2000-06-07 Verfahren und gerät zur bestimmung einer tonquelle
EP00935570A EP1205762B1 (en) 1999-06-11 2000-06-07 Method and apparatus for determining sound source

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/165182 1999-06-11
JP16518299A JP3195920B2 (ja) 1999-06-11 1999-06-11 音源同定・分離装置及びその方法

Publications (1)

Publication Number Publication Date
WO2000077537A1 true WO2000077537A1 (fr) 2000-12-21

Family

ID=15807412

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/003695 WO2000077537A1 (fr) 1999-06-11 2000-06-07 Procede et appareil de determination d'une source sonore

Country Status (6)

Country Link
US (1) US7035418B1 (ja)
EP (1) EP1205762B1 (ja)
JP (1) JP3195920B2 (ja)
DE (1) DE60036216T2 (ja)
ES (1) ES2292441T3 (ja)
WO (1) WO2000077537A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105388478A (zh) * 2014-09-03 2016-03-09 计算机科学应用促进会 用于检测声学和光学信息的方法和装置、以及对应的计算机程序和对应的计算机可读存储介质
WO2019080705A1 (zh) * 2017-10-23 2019-05-02 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE517765C2 (sv) * 2000-11-16 2002-07-16 Ericsson Telefon Ab L M Registrering av rörliga bilder medelst en portabel kommunikationsenhet samt en tillbehörsanordning vilken är samlokaliserad med objektet
JP2004266343A (ja) * 2003-02-05 2004-09-24 Matsushita Electric Ind Co Ltd 画像サーバーと画像サーバーシステム、そのプログラム及び記録媒体
US20080120100A1 (en) * 2003-03-17 2008-05-22 Kazuya Takeda Method For Detecting Target Sound, Method For Detecting Delay Time In Signal Input, And Sound Signal Processor
JP4269883B2 (ja) * 2003-10-20 2009-05-27 ソニー株式会社 マイクロホン装置、再生装置及び撮像装置
US20090018828A1 (en) * 2003-11-12 2009-01-15 Honda Motor Co., Ltd. Automatic Speech Recognition System
GB0330253D0 (en) 2003-12-31 2004-02-04 Mitel Networks Corp Self-discovery method
JP2006245725A (ja) * 2005-03-01 2006-09-14 Yamaha Corp マイクロフォンシステム
JP4441879B2 (ja) * 2005-06-28 2010-03-31 ソニー株式会社 信号処理装置および方法、プログラム、並びに記録媒体
JP4757786B2 (ja) * 2006-12-07 2011-08-24 Necアクセステクニカ株式会社 音源方向推定装置、音源方向推定方法、及びロボット装置
IL188156A0 (en) * 2007-12-16 2008-11-03 Maly Edelman A method and system for protecting an area
US20100098258A1 (en) * 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
US20100123785A1 (en) * 2008-11-17 2010-05-20 Apple Inc. Graphic Control for Directional Audio Input
WO2010149823A1 (en) * 2009-06-23 2010-12-29 Nokia Corporation Method and apparatus for processing audio signals
TWI402531B (zh) * 2009-06-29 2013-07-21 Univ Nat Cheng Kung 音源辨位方法與應用此音源辨位方法之音源辨位系統和電腦程式產品
US9094645B2 (en) * 2009-07-17 2015-07-28 Lg Electronics Inc. Method for processing sound source in terminal and terminal using the same
TWI417563B (zh) * 2009-11-20 2013-12-01 Univ Nat Cheng Kung 遠距離音源定位晶片裝置及其方法
US9955209B2 (en) 2010-04-14 2018-04-24 Alcatel-Lucent Usa Inc. Immersive viewer, a method of providing scenes on a display and an immersive viewing system
US9294716B2 (en) 2010-04-30 2016-03-22 Alcatel Lucent Method and system for controlling an imaging system
US8754925B2 (en) * 2010-09-30 2014-06-17 Alcatel Lucent Audio source locator and tracker, a method of directing a camera to view an audio source and a video conferencing terminal
US8185387B1 (en) 2011-11-14 2012-05-22 Google Inc. Automatic gain control
US9008487B2 (en) 2011-12-06 2015-04-14 Alcatel Lucent Spatial bookmarking
JP6216169B2 (ja) * 2012-09-26 2017-10-18 キヤノン株式会社 情報処理装置、情報処理方法
JP2014143678A (ja) * 2012-12-27 2014-08-07 Panasonic Corp 音声処理システム及び音声処理方法
CN103902963B (zh) * 2012-12-28 2017-06-20 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
KR101997449B1 (ko) * 2013-01-29 2019-07-09 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
EP2879047A3 (en) * 2013-11-28 2015-12-16 LG Electronics Inc. Mobile terminal and controlling method thereof
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
JP6297858B2 (ja) * 2014-02-25 2018-03-20 株式会社熊谷組 音源推定用画像の作成装置
CN104914409B (zh) * 2014-03-10 2017-11-07 李文嵩 智能住宅定位装置
CN105070304B (zh) * 2015-08-11 2018-09-04 小米科技有限责任公司 实现对象音频录音的方法及装置、电子设备
JP6589041B1 (ja) * 2018-01-16 2019-10-09 ハイラブル株式会社 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05244587A (ja) * 1992-02-26 1993-09-21 Mitsubishi Electric Corp テレビ会議用カメラ制御装置
JPH06105306A (ja) * 1992-09-16 1994-04-15 Funai Denki Kenkyusho:Kk テレビ会議システム
JPH0739000A (ja) * 1992-12-05 1995-02-07 Kazumoto Suzuki 任意の方向からの音波の選択的抽出法
JPH08251561A (ja) * 1995-03-09 1996-09-27 Nec Corp 画像通信端末装置のユーザインタフェース
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JPH0933330A (ja) * 1995-07-17 1997-02-07 Nippon Telegr & Teleph Corp <Ntt> 音響信号分離方法およびこの方法を実施する装置
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JPH10313497A (ja) * 1996-09-18 1998-11-24 Nippon Telegr & Teleph Corp <Ntt> 音源分離方法、装置及び記録媒体
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3232608B2 (ja) * 1991-11-25 2001-11-26 ソニー株式会社 収音装置、再生装置、収音方法および再生方法、および、音信号処理装置
US5402499A (en) * 1992-08-07 1995-03-28 Lsi Logic Corporation Multimedia controller
JP2937009B2 (ja) * 1994-03-30 1999-08-23 ヤマハ株式会社 音像定位制御装置
CA2148631C (en) 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
GB2309105A (en) * 1996-01-12 1997-07-16 Ibm Intuitive GUI in the form of a representation of a physical environment
AUPN988996A0 (en) * 1996-05-16 1996-06-06 Unisearch Limited Compression and coding of audio-visual services
EP1016002A4 (en) * 1996-09-04 2000-11-15 David A Goldberg METHOD AND DEVICE FOR PRODUCING PERSONAL-SPECIFIC IMAGES IN A PUBLIC SPACE
US6021206A (en) * 1996-10-02 2000-02-01 Lake Dsp Pty Ltd Methods and apparatus for processing spatialised audio
TW379309B (en) * 1997-05-16 2000-01-11 Samsung Electronics Co Ltd Signal management apparatus and method using on screen display
US6072522A (en) * 1997-06-04 2000-06-06 Cgc Designs Video conferencing apparatus for group video conferencing
JP3541339B2 (ja) 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置
US6192134B1 (en) * 1997-11-20 2001-02-20 Conexant Systems, Inc. System and method for a monolithic directional microphone array
US5940118A (en) * 1997-12-22 1999-08-17 Nortel Networks Corporation System and method for steering directional microphones
US6005610A (en) * 1998-01-23 1999-12-21 Lucent Technologies Inc. Audio-visual object localization and tracking system and method therefor
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05244587A (ja) * 1992-02-26 1993-09-21 Mitsubishi Electric Corp テレビ会議用カメラ制御装置
JPH06105306A (ja) * 1992-09-16 1994-04-15 Funai Denki Kenkyusho:Kk テレビ会議システム
JPH0739000A (ja) * 1992-12-05 1995-02-07 Kazumoto Suzuki 任意の方向からの音波の選択的抽出法
JPH08286680A (ja) * 1995-02-17 1996-11-01 Takenaka Komuten Co Ltd 音抽出装置
JPH08251561A (ja) * 1995-03-09 1996-09-27 Nec Corp 画像通信端末装置のユーザインタフェース
JPH0933330A (ja) * 1995-07-17 1997-02-07 Nippon Telegr & Teleph Corp <Ntt> 音響信号分離方法およびこの方法を実施する装置
JPH1051889A (ja) * 1996-08-05 1998-02-20 Toshiba Corp 音声収集装置及び音声収集方法
JPH10313497A (ja) * 1996-09-18 1998-11-24 Nippon Telegr & Teleph Corp <Ntt> 音源分離方法、装置及び記録媒体
JPH1141577A (ja) * 1997-07-18 1999-02-12 Fujitsu Ltd 話者位置検出装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1205762A4 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105388478A (zh) * 2014-09-03 2016-03-09 计算机科学应用促进会 用于检测声学和光学信息的方法和装置、以及对应的计算机程序和对应的计算机可读存储介质
CN105388478B (zh) * 2014-09-03 2019-10-18 计算机科学应用促进会 用于检测声学和光学信息的方法和装置、以及对应的计算机可读存储介质
WO2019080705A1 (zh) * 2017-10-23 2019-05-02 京东方科技集团股份有限公司 采集设备、声音采集方法、声源跟踪系统及其方法
US11525883B2 (en) 2017-10-23 2022-12-13 Beijing Boe Technology Development Co., Ltd. Acquisition equipment, sound acquisition method, and sound source tracking system and method

Also Published As

Publication number Publication date
US7035418B1 (en) 2006-04-25
EP1205762B1 (en) 2007-08-29
EP1205762A1 (en) 2002-05-15
DE60036216D1 (de) 2007-10-11
EP1205762A4 (en) 2005-07-06
DE60036216T2 (de) 2008-05-15
ES2292441T3 (es) 2008-03-16
JP3195920B2 (ja) 2001-08-06
JP2000356674A (ja) 2000-12-26

Similar Documents

Publication Publication Date Title
WO2000077537A1 (fr) Procede et appareil de determination d&#39;une source sonore
US9595259B2 (en) Sound source-separating device and sound source-separating method
JP6289121B2 (ja) 音響信号処理装置、動画撮影装置およびそれらの制御方法
JP4896838B2 (ja) 撮像装置、画像検出装置及びプログラム
JP2009141555A (ja) 音声入力機能付き撮像装置及びその音声記録方法
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP5597956B2 (ja) 音声データ合成装置
JP5618043B2 (ja) 映像音響処理システム、映像音響処理方法及びプログラム
JP2001243466A (ja) 顔認識装置およびその方法
JP4595364B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP6216169B2 (ja) 情報処理装置、情報処理方法
JP3714706B2 (ja) 音抽出装置
JP4968346B2 (ja) 撮像装置、画像検出装置及びプログラム
JP2009239348A (ja) 撮影装置
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
JP2009177480A (ja) 撮影装置
JP2003078988A (ja) 収音装置、方法及びプログラム、記録媒体
JP6881267B2 (ja) 制御装置、変換装置、制御方法、変換方法、およびプログラム
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2009239349A (ja) 撮影装置
JP6456171B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
WO2021020197A1 (ja) 映像生成方法
JPH11341592A (ja) 撮像装置に同調する録音装置
JPH10191498A (ja) 音信号処理装置

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09926673

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2000935570

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2000935570

Country of ref document: EP

WWG Wipo information: grant in national office

Ref document number: 2000935570

Country of ref document: EP