CN101606191A - 使用语音状态模型的多传感语音增强 - Google Patents

使用语音状态模型的多传感语音增强 Download PDF

Info

Publication number
CN101606191A
CN101606191A CNA2006800226393A CN200680022639A CN101606191A CN 101606191 A CN101606191 A CN 101606191A CN A2006800226393 A CNA2006800226393 A CN A2006800226393A CN 200680022639 A CN200680022639 A CN 200680022639A CN 101606191 A CN101606191 A CN 101606191A
Authority
CN
China
Prior art keywords
likelihood
voice
signal
voice status
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006800226393A
Other languages
English (en)
Other versions
CN101606191B (zh
Inventor
张正友
刘自成
A·艾斯洛
A·塞博拉曼亚
J·G·德罗波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN101606191A publication Critical patent/CN101606191A/zh
Application granted granted Critical
Publication of CN101606191B publication Critical patent/CN101606191B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Abstract

一种方法和装置基于一比较传感器信号(316)和空气传导麦克风信号(318)确定语音状态的似然性。该语音状态的似然性连同该比较传感器信号和该空气传导麦克风信号一起被用于为清晰语音信号(324)估计(322)清晰语音值。

Description

使用语音状态模型的多传感语音增强
背景技术
语音识别和语音传输中一个常见的问题是由加性噪声对语音信号造成的破坏。尤其是,由于另一扬声器的语音造成的破坏被证明是难于检测和/或纠正的。
最近,已开发出试图通过使用比较传感器——例如骨传导麦克风和空气传导麦克风——来移除噪声的系统。已开发出使用比较传感器信号和空气传导麦克风信号来形成比空气传导麦克风信号具有更少噪声的增强语音信号的各种技术。然而,完美地增强的语音尚未被实现,并且需要在增强的语音信号的形成上的进一步进展。
概要
一种方法和装置基于比较传感器信号和空气传导麦克风信号确定语音状态的似然性。语音状态的似然性被用于为清晰语音信号估计清晰语音值。
附图简要说明
图1是可在其中实践本发明的实施例的一个计算环境的框图。
图2是可在其中实践本发明的实施例的替换计算环境的框图。
图3是本发明的一般的语音处理系统的框图。
图4是在本发明一实施例下的用于增强语音的系统的框图。
图5是在本发明一实施例下的语音增强所基于的模型。
图6是在本发明一实施例下的用于增强语音的流程图。
示例性实施例的具体说明
图1示出了本发明的实施例可以在其上实现的合适的计算环境100的示例。计算环境100仅仅是合适的计算环境的一个例子,并不旨在限制本发明的使用范围或功能集。也不应将计算环境100解释为具有与示例性操作环境100中图解的任一组件或组件组合的依赖或要求。
本发明的实施例可使用许多其他通用或专用计算系统环境或配置来运行。适合用于本发明实施例的公知的计算系统、环境、和/或配置可包括但是不限于个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、电话系统、包括任何上述系统或设备的分布式计算环境等。
本发明的实施例可以在由计算机执行的诸如程序模块的计算机可执行指令的一般化上下文中描述。一般来说,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明被设计为在分布式计算环境中实施,在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中,程序模块位于包括记忆存储设备的本地和远程计算机存储介质上。
参见图1,用于实现本发明的示例系统包括计算机110形式的通用计算设备。计算机110的组件可以包括,但不限于,处理单元120、系统存储器130、和将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任何一种的局部总线在内的数种类型的总线结构中的任何一种。作为示例,而非限定,这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型工业标准结构(EISA)总线、视频电子标准协会(VESA)局部总线、和也称为Mezzanine总线的外围组件互连(PCI)总线。
计算机110典型地包括各种计算机可读介质。计算机可读介质可以是能被计算机110访问的任意可用介质,并且计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质。作为示例,而非限定,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储例如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字视频光盘(DVD)或其他光盘存储,磁卡带、磁带、磁盘存储或其他磁性存储设备,或任何其他可被用于存储所需信息并可被计算机110访问的介质。通信介质典型地具体表现为计算机可读指令、数据结构、程序模块或在例如是载波或其他传输机制的已调制的数据信号中的其他数据,并且包括任何信息传输介质。术语“已调制的数据信号”是指其特征中有一个或多个被以在该信号中编码信息的方式设置或改变的信号。作为示例,而非限定,通信介质包括例如是有线网络或直接有线连接的有线介质、以及例如是声音、RF、红外和其他无线介质的无线介质。任何上述的组合也应该包括在计算机可读介质的范围内。
系统存储器130包括例如是只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器形式的计算机存储介质。包含在例如启动期间帮助在计算机110内各元件之间传输信息基本例程的基本输入/输出系统131(BIOS)典型的存储于ROM 131中。RAM 132典型地包含可由处理单元120立即存取和/或当前正被其操作的数据和/或程序模块。作为示例,而非限定,图1示出了操作系统134、应用程序135、其他程序模块136和程序数据137.
计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1示出了读写不可移动、非易失性磁性介质的硬盘驱动器141、读写可移动、非易失性磁盘152的磁盘驱动器151、以及读写例如是CD ROM或其他光学介质的可移动、非易失性光盘的光盘驱动器155。其他能用于示例操作环境的可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,磁卡带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141典型地通过例如是接口140的非易失性存储器接口连接到系统总线121,并且磁盘驱动器151和光盘驱动器155典型地通过例如是接口150的可移动存储器接口连接到系统总线121.
上述以及在图1中示出的各驱动器和它们相关的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块和其他数据的存储。例如,在图1中,硬盘驱动器141被图解为存储了操作系统144、应用程序145、其他程序模块146、以及程序数据147。注意到这些组件可以和操作系统134、应用程序135、其他程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其他程序模块146和程序数据147在这里给予不同的附图标记以至少说明他们是不同的副本。
用户可以通过例如是键盘162、麦克风163和定点设备161的输入设备将命令和信息输入至计算机110中,定点设备161例如是鼠标、轨迹球或触摸板。其他输入设备(未图示)可以包括操纵杆、游戏垫、卫星天碟、扫描仪等。这些及其他的输入设备通常通过耦接到系统总线的用户输入接口160连接到处理单元120,但也可以通过例如是并行端口、游戏端口或通用串行总线(USB)的其他接口和总线结构来连接。监视器191或其他类型的显示设备也经由例如是视频接口190的接口连接到系统总线121。除了监视器,计算机还可以包括例如是扬声器197和打印机196的其他的外围输出设备,其可以通过输出外围接口195连接。
计算机110使用到例如是远程计算机180的一个或多个远程计算机的逻辑连接在连网环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其他通用网络节点,且典型地包括以上关于计算机110描述的许多或所有的要素。在图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但是也可以包括其他网络。这样的网络化环境在办公室、企业范围的计算机网络、内联网、以及因特网中是常见的。
当用在LAN网络化环境中时,计算机110通过网络接口或适配器170连接到LAN 171。当用在WAN网络化环境中时,计算机110典型地包括调制解调器172或其他用于在例如是因特网的WAN 173上建立通信的手段。可以是内置的或外置的调制解调器172可以经由用户输入接口160或其他合适机构连接到系统总线121。在连网环境中,以上关于计算机110描述的程序模块或其部分可以存储在远程记忆存储装置中。作为示例,而非限定,图1示出了远程应用程序185驻留在远程计算机180上。应知晓所示的网络连接是示例性的,而且可以使用在各计算机之间建立通信链路的其他手段。
图2是移动设备200的框图,其是示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动设备通信的通信接口208。在一实施例中,前面提到的组件在合适总线210上耦合以便相互通信。
存储器204用电池备份模块(未图示)实现为诸如随机存取存储器等的非易失性电子存储器,以使存储在存储器204中的信息在对移动设备200的总电源关闭时不会丢失。存储器204的一部分优选地被分配为用于程序执行的可寻址存储器,而存储器204的另一部分优选地被用于存储,例如模拟硬盘驱动器上的存储。
存储器204包括操作系统212、应用程序214以及对象存储216。在运行期间,操作系统212优选地由处理器202从存储器204执行。操作系统212在一优选实施例中是可从微软公司购得的CE操作系统。操作系统212优选地为移动设备设计,并且实现数据库特征,该数据库特征能被应用程序214通过一组曝露的应用程序编程接口和方法来利用。在对象存储216中的对象由应用程序214和操作系统212至少部分地响应对曝露的应用程序编程接口和方法的调用来维护。
通信接口208代表多种允许移动设备200发送和接收信息的设备和技术。仅举数例,这些设备包括有线和无线调制解调器、卫星接收机和广播调谐器。移动设备200还可以直接连接到计算机以与其交换数据。在此类情形中,通信接口208可以是红外收发机或者串行或并行通信连接,所有的这些都能传输流信息。
输入/输出组件206包括例如是触敏屏、按钮、滚轮、和麦克风等的各种输入设备,以及包括音频发生器、振动设备和显示器等的输出设备。以上列出的设备是作为示例且不需要都出现在移动设备200上。此外,其他输入/输出设备可以被附连至移动设备200或在移动设备200中找到,这落在本发明的范围内。
图3提供了本发明的实施例的基本框图。在图3中,扬声器300生成语音信号302(X),其被空气传导麦克风304和比较传感器306检测到。比较传感器的例子包括测量用户喉咙振动的喉部麦克风、定位于或邻近于用户的面部或颅骨(例如是颌骨)或在用户的耳朵中、且感测对应于由用户发出的语音的颅和颌的振动的骨传导传感器。空气传导麦克风304是通常用于将音频空气波转化成电信号的类型的麦克风。、
空气传导麦克风304接收由一个或多个噪声源310产生的环境噪声308(V)且产生它自身的传感器噪声305(U)。取决于环境噪声的类型和环境噪声的声级,环境噪声308也可以被比较传感器306检测到。然而,在本发明实施例之下,比较传感器306对环境噪声的灵敏度相比空气传导麦克风304来说较弱。因此,由比较传感器306生成的比较传感器信号316(B)通常比由空气传导麦克风304生成的空气传导麦克风信号318(Y)包括更少的噪声。尽管比较传感器306对环境噪声灵敏度较低,但是它的确会产生一些传感器噪声320(W)。
从扬声器300到比较传感器信号316的路径能被建模为具有信道响应H的信道。从环境噪声308到比较传感器信号316的路径能被建模为具有信道响应G的信道。
比较传感器信号316(B)和空气传导麦克风信号318(Y)被提供至清晰信号估计器322,其估计清晰信号324。清晰信号估计324被提供至语音处理器328。清晰信号估计324或可以是时域信号,或可以是傅立叶变换矢量。如果清晰信号估计324是时域信号,则语音处理328就可以采取监听器、语音编码系统、或语音识别系统的形式。如果清晰信号估计324是傅立叶变换矢量,则语音处理328典型地将是语音识别系统,或包含傅立叶逆变换以将傅立叶变换矢量转换成波形。
在清晰信号估计器322内,比较传感器信号316和麦克风信号318被转换成用于估计清晰语音的频域。如图4所示,比较传感器信号316和空气传导麦克风信号318分别被提供至模数转换器404和414以生成一序列的数字值,它们分别由帧构建器406和416编组成数值帧。在一实施例中,模数转换器404和414在16kHz和每采样16比特下采样模拟信号,由此创建每秒32K字节的语音数据,且帧构建器406和416每10毫秒创建各自新的一帧,其包括了相当于20毫秒的数据。
由帧构建器406和416提供的相应各帧数据分别使用快速傅立叶变换(FFT)408和418转换至频域。
对应于比较传感器信号和空气传导信号的频域值被提供给清晰信号估计器420,其使用这些频域值来估计清晰语音信号324.
在一些实施例之下,清晰语音信号324使用快速傅立叶逆变换422转换回时域。这创建了清晰语音信号324的时域形式。
本发明采用包括语音状态以便实现清晰语音的图3系统的模型,以产生增强的语音信号。图5提供了该模型的图形表示。
在图5的模型中,清晰语音500取决于语音状态502。空气传导麦克风信号504取决于传感器噪声506、环境噪声508和清晰语音信号500。比较传感器信号510取决于传感器噪声512、通过信号响应514的清晰语音信号500以及通过信道响应516的环境噪声508。
图5的模型在本发明下用于从噪声观察Yt和Bt估计清晰语音信号Xt,并标识多个语音状态St的似然性。
在本发明一实施例下,通过首先在系统模型中对噪声分量假定高斯分布来形成清晰语音信号估计和清晰语音信号估计的状态的似然性。由此:
V~N(0,g2σv 2)                式1
U~N(0,σu 2)            式2
W~N(0,σw 2)            式3
其中每个噪声分量被建模为一个各自具有方差g2σv 2、σu 2和σw 2的零均值高斯。V是环境噪声、U是空气传导麦克风中的传感器噪声,而W是在比较传感器中的传感器噪声。在式1中,g是允许环境噪声的方差被调谐的调谐参数。
此外,本发明的这一实施例将给定一状态下清晰语音信号的似然性建模为具有方差σs 2的零均值高斯以使:
X|(S=s)~N(0,σs 2)                            式4
在本发明一实施例下,给定状态的先验的概率被假定为均匀概率以使所有的状态相等地似然。具体地,先验概率被定义为:
P ( s t ) = 1 N s 式5
其中Ns是模型中可用语音状态的数目。
在下面为确定清晰语音信号的估计以及语音状态的似然性而对等式的描述中,所有变量在复数频谱域中建模。每个频率分量(Bin)被独立于其他频率分量地来对待。为简化注记,该方法在下面针对单频率分量来描述。本领域技术人员将认识到,计算是对输入信号的频谱形式中的每个频率分量来执行的。对于随时间变化的变量,下标t被添加至该变量。
为了从有噪观察Yt和Bt估计出清晰语音信号Xt,本发明使条件概率p(Xt|Yt,Bt)最大化,其是给定有噪空气传导麦克风信号和有噪比较传感器信号情况下清晰语音信号的概率。由于在该模型下清晰语音信号的估计取决于语音状态St,因此这个条件概率确定为:
p ( X t | Y t , B t ) = Σ s ∈ { S } p ( X t | Y t , B t , S t = s ) p ( S t = s | Y t , B t ) 式6
其中{S}指示所有语音状态的集合,p(Xt|Yt,Bt,St=s)是给定当前有噪观察和语音状态s情况下Xt的似然性,而p(St=s|Yt,Bt)是给定有噪观察情况下语音状态s的似然性。在本发明下任意数目的可能的语音状态可被使用,包括对应于浊音、摩擦音、鼻音和后元音的语音状态。在一些实施例中,为例如音素等的语音单元集合中的每一个提供一单独的语音状态。然而,在一个实施例下,只提供两个语音状态,一个是给语音而一个是给非语音。
在一些实施例下,单状态被用于所有的频率分量。因此,每一帧具有单个语音状态变量。
在式6的右手边的项能被计算为:
p ( X t | Y t , B t , S t = s ) = p ( X t , Y t , B t , S t = s ) p ( Y t , B t , S t = s ) ∝ p ( X t , Y t , B t , S t = s ) 式7
p ( S t = s | Y t , B t ) = ∫ x p ( X t , Y t , B t , S t = s ) p ( Y t , B t ) dX ∝ ∫ x p ( X t , Y t , B t , S t = s ) dX
                                    式8
其指示给定这些观察情况下清晰语音信号的条件概率能由清晰语音信号、观察和状态的联合概率来估计,并且指示了给定这些观察的情况下状态的条件概率能通过将清晰语音信号、观察以及状态的联合概率在所有可能的清晰语音值上积分来近似。
使用以上在式1-3中讨论的噪声分布的高斯假设,清晰语音信号、观察和状态的联合概率可被计算为:
p ( X t , S t , Y t , B t ) = N ( Y t ; X t , σ u 2 + g 2 σ v 2 ) p ( X t | S t ) p ( S t ) .
N ( G g 2 σ v 2 ( Y t - X t ) σ u 2 + g 2 σ v 2 ; B t - HX t , σ w 2 + | G | 2 g 2 σ v 2 σ u 2 σ u 2 + g 2 σ v 2 )
                                       式9
其中 p ( X t | S t = s ) = N ( X t ; 0 , σ s 2 ) , p(St)是由式5中的均匀概率分布给定的状态的先验概率,G是比较传感器环境噪声的信号响应,H是该比较传感器信号对清晰语音信号的信道响应,而且在垂线标志之间的复数项例如|G|指示该复数值的幅值。
比较传感器对背景语音的信号响应G是自空气麦克风Y的信号以及跨用户没有说话的最后D帧的比较传感器B的信号估计出的。具体地说,G被确定为:
G = Σ t = 1 D ( σ u 2 | B t | 2 - σ w 2 | Y t | 2 ) ± ( Σ t = 1 D ( σ u 2 | B t | 2 - σ w 2 | Y t | 2 ) ) 2 + 4 σ u 2 σ w 2 | Σ t = 1 D B t * Y t | 2 2 σ u 2 Σ t = 1 D B t * Y t 式10
在此D是其中用户没有说话但是存在背景语音的帧的数目。这里,我们假定G是跨所有时间帧D恒定的。在其他实施例中,不是平等地使用所有D个帧,我们代之以使用称作“指数式老化”的技术以使最近的帧相比较早前的帧对G的估计贡献更多。
比较传感器的对清晰语音信号的信号响应H是自空气麦克风Y的信号和跨用户没有说话的最后T帧的比较传感器B的信号估计出的。具体地说,H被确定为:
H = Σ t = 1 T ( g 2 σ v 2 | B t | 2 - σ w 2 | Y t | 2 ) ± ( Σ t = 1 T ( g 2 σ v 2 | B t | 2 - σ w 2 | Y t | 2 ) ) 2 + 4 g 2 σ v 2 σ w 2 | Σ t = 1 T B t * Y t | 2 2 g 2 σ v 2 Σ t = 1 T B t * Y t
                                    式11
在此T是其中用户在说话的帧的数目。这里,我们假定H是跨所有时间帧T恒定的。在其他实施例中,不是平等地使用所有T个帧,我们代之以使用称作“指数式老化”的技术以使最近的帧相比较早前的帧对H的估计贡献更多。
状态p(St=s|Yt,Bt)的条件似然性使用式8的近似以及式9的联合概率计算来计算为:
p ( S t | Y t , B t ) ∝ ∫ x N ( Y t ; X t , σ u 2 + g 2 σ v 2 ) .
N ( G g 2 σ v 2 ( Y t - X t ) σ u 2 + g 2 σ v 2 ; B t - HX t , σ w 2 + | G | 2 g 2 σ v 2 σ u 2 σ u 2 + g 2 σ v 2 ) .
p ( X t | S t ) p ( S t ) dX
                                 式12
其可被简化为:
p ( S t | Y t , B t ) ∝
N ( B t ; ( σ s 2 H + g 2 σ v 2 G ) Y t σ s 2 + g 2 σ v 2 + σ u 2 , σ w 2 + | G | 2 g 2 σ v 2 σ u 2 σ u 2 + g 2 σ v 2 + | H - G g 2 σ v 2 σ u 2 + g 2 σ v 2 | 2 σ s 2 ( σ u 2 + g 2 σ v 2 ) σ s 2 + σ u 2 + g 2 σ v 2 )
N ( Y t ; 0 , σ s 2 + σ u 2 + g 2 σ v 2 ) p ( S t )
                         式13
仔细观察式13显示在某些传感建模中第一项是比较传感器信道与空气传导麦克风信道之间的互相关,而第二项利用状态模型和噪声模型来解释在空气麦克风信道中的观察。第三项仅仅是状态上的先验,在一实施例下其是均匀分布。
如在式13中计算出的给定观察的情况下状态的似然性有两个可能的应用。首先,它能被用于建立语音状态分类器,其可用于将观察分类成包括语音或不包括语音以使噪声源的方差能自不包括语音的帧确定。它还能被用于在如下进一步示出地估计清晰语音信号时提供“软”权重。
如上所述,在上面各式中的每个变量是在复数频谱域中的特定频率分量定义的。因此,式13的似然性是对应于与特定频率分量相关联的状态。然而,由于每帧仅有单个状态变量,因此通过跨频率分量累计似然性来形成一帧的状态的似然性如下:
L ( S t ) = Π f L ( S t ( f ) ) 式14
其中L(St(f))=p(St(f)|Yt(f),Bt(f))式13中定义的频率分量f的似然性。乘积是在除了DC和Nyquist频率外的所有频率分量上确定的。注意到如果似然性计算是在对数-似然域中执行的,则在上式中的乘积用总和来替换。
上面的似然性能用于建立语音/非语音分类,基于似然性比率测试:
Figure A20068002263900142
式15
其中帧在比值r大于0时被认为包含语音,否则被认为不包含语音。
通过使用语音状态的似然性,能形成对清晰语音信号的估计。在一实施例下,基于以上式6通过使用最小均方估计(MMSE)来形成这一估计:
X ^ t = E ( X t | Y t , B t ) = Σ s ∈ { S } p ( S t = s | Y t , B t ) E ( X t | Y t , B t , S t = s ) 式16
其中E(Xt|Yt,Bt)是给定该观察情况下清晰语音信号的期望,而E(Xt|Yt,Bt,St=s)是给定该观察和该语音状态的情况下清晰语音信号的期望。
通过使用式7和9,可据之计算期望E(Xt|Yt,Bt,St=s)的条件概率p(Xt|Yt,Bt,St=s)可被确定为:
p ( X t | Y t , B t , S t = s ) ∝ N ( Y t ; X t , σ u 2 + g 2 σ v 2 ) .
N ( g 2 σ v 2 G ( Y t - X t ) σ u 2 + g 2 σ v 2 ; B t - HX t , σ w 2 + g 2 σ v 2 σ u 2 | G | 2 σ u 2 + g 2 σ v 2 ) .
N ( X t ; 0 , σ s 2 ) p ( S t = s )
                            式17
这产生期望:
E ( X t | Y t , B t , S t = s ) = σ s 2 ( σ p 2 Y t + M * ( ( σ u 2 + g 2 σ v 2 ) B t - g 2 σ v 2 G Y t ) σ p 2 ( σ u 2 + g 2 σ v 2 + σ s 2 ) + | M | 2 σ s 2 ( σ u 2 + g 2 σ v 2 ) )
式18
其中
σ p 2 = σ w 2 + g 2 σ v 2 σ u 2 σ u 2 + g 2 σ v 2 | G | 2 式19
M = H - g 2 σ v 2 σ u 2 + g 2 σ v 2 G 式20
且M*是M的复共轭。
因此,清晰语音信号Xt的MMSE估计由下式给出:
X ^ t = Σ s ∈ { S } π s E ( X t | Y t , B t , S t = s ) 式21
其中πs在状态上的后验且其由下式给出:
π s = L ( S t = s ) Σ s ∈ { S } L ( S t = s ) 式22
其中L(St=s)由式14给出。因此,清晰语音信号的估计是部分基于特定语音状态的相对似然性而且这一相对似然性为清晰语音信号的估计提供了软权重。
在上述的计算中,H被假定为认为高精度已知。然而,在实践中,H仅为有限精度已知。在本发明的另一实施例中,H被建模为高斯随机变量N(H;H0,σH 2)。在这样的实施例下,上述所有的计算在H的所有可能值之上被边缘化。然而,这将使得在数学上难以处理。在一实施例下,使用迭代处理来克服这一难以处理之处。在每次迭代中,H在式13和20中用H0来代替,并且σw 2被用
Figure A20068002263900155
替换,其中
Figure A20068002263900156
是自前次一迭代确定的清晰语音信号的估计。然后使用式21来估计清晰语音信号。然后,清晰语音信号的这一新的估计被设置为
Figure A20068002263900157
的新值,接着执行下一次迭代。当清晰语音信号的估计变得稳定就结束该迭代。
图6提供了使用以上各式来估计清晰语音信号的方法。在步骤600中,标识出输入说话中用户没有说话的帧。然后,使用这些帧来确定环境噪声σv 2的方差、比较传感器噪声σw 2的方差以及空气传导麦克风噪声σu 2的方差。
为了标识出用户在其中没有说话的帧,可检查比较传感器信号。由于比较传感器信号将对背景语音产生比对噪声产生的小的多的信号值,因此当比较传感器信号的能量低时,它能初始假定为扬声器不在说话。对应于不包含语音的帧的空气传导麦克风信号和比较传感器信号的值被存储在缓冲中且被用于计算噪声方差如下:
Figure A20068002263900158
式23
Figure A20068002263900161
式24
其中Nv是在说话中被用于形成方差的噪声帧的数目,V是用户在其中没有说话的噪声帧的集合,B′t指已经虑及漏泄之后的比较传感器信号,其计算为:
B′t=Bt-GYt                     式25
其在一些实施例中被替换地计算为:
B t ′ = ( 1 - | G Y t | | B t | ) B t 式26
在一些实施例下,基于低能量级在比较传感器信号中标识出非语音帧的技术仅仅在初始训练帧期间执行。在已形成噪声方差的初始值之后,它们可以被用于通过使用式15的似然比来确定哪些帧包含语音以及哪些帧不包含语音。
作为可用于增大或者减小估计的方差σv 2的调谐参数g的值在一特定实施例下被设置为1。这暗示了在噪声估计过程中的完全置信度。在本发明的不同实施例下可以使用不同的g值。
空气传导麦克风的噪声方差σu 2是基于空气传导麦克风相比于比较传感器较不易于受传感器噪声影响的观察来估计的。如此,空气传导麦克风的方差能被计算为:
σ u 2 = 1 e - 4 σ w 2 式27
在步骤602中,使用具有时间平滑的噪声抑制滤波器来估计语音方差σs 2。该抑制滤波器是差谱的一般化。具体地,语音方差计算为:
σ ^ s 2 = τ | X ^ t - 1 | 2 + ( 1 - τ ) K s 2 | Y t | 2 式28
其中
Figure A20068002263900165
式29
连同
Q = σ v | Y t | 式30
其中
Figure A20068002263900167
是来自在前帧的清晰语音估计,τ是平滑因子,在某些实施例中设置为.2,α控制噪声减少的程度以使如果α>1,则以语音失真增大为代价降低更多的噪声,并且β给出最小噪声本底并提供增加背景噪声以掩饰察觉到的剩余音乐噪声的手段。在一些实施例中,γ1=2且γ2=1/2。在一些实施例中,为对纯噪声帧,将β设置为0.01以实现20dB的噪声减少。
因此,在式28中,方差被确定为在前帧的估计的清晰语音信号和经噪声抑制滤波器Ks滤波的空气传导麦克风信号的能量的加权总和。
在一些实施例下,α是根据信噪比和屏蔽原理来选择的,该屏蔽原理表明在高语音能量带中的相同量的噪声比在低语音能量带中具有更小的影响,以及在一个频率上高语音能量的存在将减少在邻近频带中的噪声的感知度。在这一实施例下,α被选择为:
Figure A20068002263900171
式31
其中SNR是以分贝计的信噪比,B是所需的信噪比等级,在该等级之上不应执行噪声减少,并且α0是在信噪比值为0时应该被移除的噪声量。在一些实施例下,B被设置成等于20dB。
通过使用信噪比的定义:
SNR = 10 log ( | Y t | 2 - σ v 2 σ v 2 ) 式32
式29的噪声抑制滤波器变成:
Figure A20068002263900173
式33
这一噪声抑制滤波器为正的信噪比提供弱噪声抑制,而为负的信噪比提供较强的噪声抑制。事实上,对于足够负的信噪比,所有观察到的信号和噪声都将被移除而唯一存在的信号是噪声本底,其由式33的噪声抑制滤波器的“其他”分支加回。
在一些实施例下,使α0频率相关以使对不同频率移除不同量的噪声。在一实施例下,通过在30Hz下的α0和8KHz下的α0之间使用线性内插来形成这一频率相关:
α0(k)=α0min+(α0max0min)k/225                  式34
其中k是频率分量的计数,σ0min是在30Hz下期望的α0值,α0max是在8KHz下期望的α0值,并且假定存在256个频率分量。
在步骤602中确定语音方差后,在步骤604中通过使用上述式13和14,利用方差来确定每个语音状态的似然性。然后在步骤606中利用语音状态的似然性为当前帧确定清晰语音估计。如上所述,在高斯分布被用于代表H的实施例中,通过在每一次迭代中使用清晰语音信号的最近估计以及通过使用上述各式的变化来容纳H的高斯模型,从而来迭代步骤604和606。
尽管本发明已经参考具体实施例描述,但本领域计数人员会认识到在形式和细节上可作出改变而不脱离本发明的精神和范围。

Claims (20)

1、一种确定对代表经降噪语音信号的一部分的经降噪值的估计的方法,所述方法包括:
使用比较传感器来生成比较传感器信号;
生成空气传导麦克风信号;
使用所述比较传感器信号和所述空气传导麦克风信号来估计语音状态的似然性;以及
使用所述语音状态的似然性来估计所述经降噪值。
2、根据权利要求1所述的方法,其中使用所述语音状态的似然性来估计所述经降噪值包括,使用所述语音状态的似然性和所述经降噪值的期望值来估计所述经降噪值。
3、根据权利要求2所述的方法,其中所述经降噪值的期望值是基于所述比较传感器信号和所述空气传导麦克风信号。
4、根据权利要求1所述的方法,其中估计语音状态的似然性包括,为多个语音状态中的每一个估计单独的似然性,并且其中使用所述语音状态的似然性来估计所述经降噪值包括使用所述多个语音状态中的每个语音状态的似然性。
5、根据权利要求4所述的方法,其中使用所述多个语音状态中的每个语音状态的似然性包括,使用每个语音状态的似然性来对所述经降噪值的各期望值加权。
6、根据权利要求1所述的方法,其中估计语音状态的似然性包括,为一组频率分量中的每一个估计单独的似然性分量并且组合这些单独的似然性分量以形成所述语音状态似然性的估计。
7、根据权利要求1所述的方法,还包括使用语音状态的似然性的估计来确定一帧所述空气传导麦克风信号是否包含语音。
8、根据权利要求7所述的方法,还包括使用被确定为不包含语音的一帧空气传导麦克风信号来确定噪声源的方差,以及使用该噪声源的方差来估计所述经降噪值。
9、根据权利要求1所述的方法,还包括建模在给定状态下经降噪值的概率来作为具有方差的分布。
10、根据权利要求9所述的方法,还包括估计所述分布的方差为前一帧的经降噪值的估计与当前帧的空气传导麦克风信号的经滤波形式的线性组合。
11、根据权利要求10所述的方法,其中所述空气传导麦克风信号的经滤波形式是通过使用频率相关的滤波器来形成的。
12、根据权利要求10所述的方法,其中所述空气传导麦克风信号的经滤波形式是通过信噪比相关的滤波器来形成的。
13、根据权利要求1所述的方法,还包括通过使用所述经降噪值的估计来形成所述经降噪值的新估计来执行迭代。
14、一种计算机可读介质,具有用于执行步骤的计算机可执行指令,所述步骤包括:
基于比较传感器信号和空气传导麦克风信号确定语音状态的似然性;以及
使用所述语音状态的似然性来估计清晰语音值。
15、根据权利要求14所述的计算机可读介质,其中使用所述语音状态的似然性来估计清晰语音值包括,对期望值加权。
16、根据权利要求14所述的计算机可读介质,其中使用所述语音状态的似然性来估计清晰语音值包括:
使用所述语音状态的似然性来将一帧信号标识为非语音帧;
使用所述非语音帧来估计噪声的方差;以及
使用所述噪声方法来估计所述清晰语音值。
17、根据权利要求14所述的计算机可读介质,其中估计语音状态的似然性包括,为多个频率分量中的每一个估计单独的似然性,并且组合这些单独的似然性以形成所述语音状态的似然性。
18、一种为清晰语音信号标识出清晰语音值的方法,所述方法包括:
形成一模型,在所述模型中所述清晰语音信号取决于语音状态,比较传感器信号取决于所述清晰语音信号,并且空气传导麦克风信号取决于所述清晰语音信号;以及
基于所述模型、所述比较传感器信号的值、以及所述空气传导麦克风信号的值来确定所述清晰语音值的估计。
19、根据权利要求18所述的方法,还包括为状态确定似然性,并且其中确定所述清晰语音值的估计还包括使用所述状态的似然性。
20、根据权利要求18所述的方法,其中形成所述模型包括形成其中所述比较传感器信号和所述空气传导麦克风信号取决于噪声源的模型。
CN2006800226393A 2005-06-28 2006-06-13 使用语音状态模型的多传感语音增强 Expired - Fee Related CN101606191B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/168,770 US7680656B2 (en) 2005-06-28 2005-06-28 Multi-sensory speech enhancement using a speech-state model
US11/168,770 2005-06-28
PCT/US2006/022863 WO2007001821A2 (en) 2005-06-28 2006-06-13 Multi-sensory speech enhancement using a speech-state model

Publications (2)

Publication Number Publication Date
CN101606191A true CN101606191A (zh) 2009-12-16
CN101606191B CN101606191B (zh) 2012-03-21

Family

ID=37568662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800226393A Expired - Fee Related CN101606191B (zh) 2005-06-28 2006-06-13 使用语音状态模型的多传感语音增强

Country Status (11)

Country Link
US (1) US7680656B2 (zh)
EP (1) EP1891624B1 (zh)
JP (2) JP5000647B2 (zh)
KR (1) KR101224755B1 (zh)
CN (1) CN101606191B (zh)
AT (1) ATE508454T1 (zh)
BR (1) BRPI0612668A2 (zh)
DE (1) DE602006021741D1 (zh)
MX (1) MX2007015446A (zh)
RU (1) RU2420813C2 (zh)
WO (1) WO2007001821A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
CN104464737A (zh) * 2013-09-12 2015-03-25 联发科技股份有限公司 声音验证系统和声音验证方法
CN107045874A (zh) * 2016-02-05 2017-08-15 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2621940C (en) * 2005-09-09 2014-07-29 Mcmaster University Method and device for binaural signal enhancement
KR100738332B1 (ko) * 2005-10-28 2007-07-12 한국전자통신연구원 성대신호 인식 장치 및 그 방법
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
JP4940956B2 (ja) * 2007-01-10 2012-05-30 ヤマハ株式会社 音声伝送システム
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
KR101597752B1 (ko) * 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
US10418047B2 (en) 2011-03-14 2019-09-17 Cochlear Limited Sound processing with increased noise suppression
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
TWM492015U (zh) * 2014-07-30 2014-12-11 Wen-Tsung Sun 電子式助發聲裝置
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
US10535364B1 (en) * 2016-09-08 2020-01-14 Amazon Technologies, Inc. Voice activity detection using air conduction and bone conduction microphones
CN110265056B (zh) * 2019-06-11 2021-09-17 安克创新科技股份有限公司 音源的控制方法以及扬声设备、装置
EP4005226A4 (en) 2019-09-12 2022-08-17 Shenzhen Shokz Co., Ltd. SYSTEMS AND METHODS FOR AUDIO SIGNAL GENERATION

Family Cites Families (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US3838466A (en) * 1973-01-26 1974-10-01 White S Non-fogging face shield
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03108997A (ja) 1989-09-22 1991-05-09 Temuko Japan:Kk 骨伝導マイク
US5148488A (en) * 1989-11-17 1992-09-15 Nynex Corporation Method and filter for enhancing a noisy speech signal
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
JPH05276587A (ja) 1992-03-30 1993-10-22 Retsutsu Corp:Kk イヤーマイクロフォン
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JP3082825B2 (ja) 1994-08-29 2000-08-28 日本電信電話株式会社 通信装置
DE69527731T2 (de) 1994-05-18 2003-04-03 Nippon Telegraph & Telephone Sender-Empfänger mit einem akustischen Wandler vom Ohrpassstück-Typ
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JP3488749B2 (ja) 1994-08-23 2004-01-19 株式会社ダッド・ジャパン 骨伝導型マイクロホン
JP3306784B2 (ja) 1994-09-05 2002-07-24 日本電信電話株式会社 骨導マイクロホン出力信号再生装置
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
JP3095214B2 (ja) 1996-06-28 2000-10-03 日本電信電話株式会社 通話装置
JP3097901B2 (ja) 1996-06-28 2000-10-10 日本電信電話株式会社 通話装置
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
JP3108997B2 (ja) 1997-03-31 2000-11-13 武田薬品工業株式会社 アゾール化合物、その製造法および用途
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US5924065A (en) * 1997-06-16 1999-07-13 Digital Equipment Corporation Environmently compensated speech processing
JPH1115191A (ja) * 1997-06-20 1999-01-22 Fuji Xerox Co Ltd 静電荷像現像用トナー及びその製造方法
AU8205398A (en) 1997-07-16 1999-02-10 Siemens Aktiengesellschaft Hand-held telephone device
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
US6912287B1 (en) 1998-03-18 2005-06-28 Nippon Telegraph And Telephone Corporation Wearable communication device
JPH11265199A (ja) 1998-03-18 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 送話器
JP2000009688A (ja) 1998-04-22 2000-01-14 Tokyo Gas Co Ltd 一酸化炭素センサ
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
WO2000021194A1 (en) 1998-10-08 2000-04-13 Resound Corporation Dual-sensor voice transmission system
JP2000196723A (ja) 1998-12-25 2000-07-14 Koichi Tamura 筒状アンテナ、マイク
JP2000209688A (ja) 1999-01-19 2000-07-28 Temuko Japan:Kk 骨導マイク
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
US6408269B1 (en) * 1999-03-03 2002-06-18 Industrial Technology Research Institute Frame-based subband Kalman filtering method and apparatus for speech enhancement
JP2000261534A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 送受話器
JP2000261529A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
JP2000261530A (ja) 1999-03-10 2000-09-22 Nippon Telegr & Teleph Corp <Ntt> 通話装置
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
JP2000330597A (ja) * 1999-05-20 2000-11-30 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP2000354284A (ja) 1999-06-10 2000-12-19 Iwatsu Electric Co Ltd 送受一体形電気音響変換器を用いる送受話装置
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
JP2001119797A (ja) 1999-10-15 2001-04-27 Phone Or Ltd 携帯電話装置
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
JP3576915B2 (ja) 2000-02-28 2004-10-13 株式会社ケンウッド 携帯電話装置
JP2001292489A (ja) 2000-04-10 2001-10-19 Kubota Corp 骨伝導マイク付きヘッドホン
GB2363557A (en) * 2000-06-16 2001-12-19 At & T Lab Cambridge Ltd Method of extracting a signal from a contaminated signal
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
JP2002125298A (ja) 2000-10-13 2002-04-26 Yamaha Corp マイク装置およびイヤホンマイク装置
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US7617099B2 (en) 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
WO2002077972A1 (en) 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
JP2002358089A (ja) 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
AU2002222893A1 (en) 2001-12-21 2003-07-09 Rti Tech Pte Ltd. Vibration-based talk-through method and apparatus
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
GB2390264B (en) 2002-06-24 2006-07-12 Samsung Electronics Co Ltd Usage position detection
US7103541B2 (en) 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7225124B2 (en) * 2002-12-10 2007-05-29 International Business Machines Corporation Methods and apparatus for multiple source signal separation
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
EP1600947A3 (en) * 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtractive cancellation of harmonic noise
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7590529B2 (en) 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411936A (zh) * 2010-11-25 2012-04-11 歌尔声学股份有限公司 语音增强方法、装置及头戴式降噪通信耳机
CN104464737A (zh) * 2013-09-12 2015-03-25 联发科技股份有限公司 声音验证系统和声音验证方法
US9928851B2 (en) 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
CN104464737B (zh) * 2013-09-12 2018-09-04 联发科技股份有限公司 声音验证系统和声音验证方法
CN107045874A (zh) * 2016-02-05 2017-08-15 深圳市潮流网络技术有限公司 一种基于相关性的非线性语音增强方法

Also Published As

Publication number Publication date
JP2012155339A (ja) 2012-08-16
BRPI0612668A2 (pt) 2010-11-30
US20060293887A1 (en) 2006-12-28
EP1891624A2 (en) 2008-02-27
JP2009501940A (ja) 2009-01-22
RU2007149546A (ru) 2009-07-10
JP5452655B2 (ja) 2014-03-26
KR20080019222A (ko) 2008-03-03
KR101224755B1 (ko) 2013-01-21
WO2007001821A2 (en) 2007-01-04
MX2007015446A (es) 2008-02-25
EP1891624A4 (en) 2009-11-04
DE602006021741D1 (de) 2011-06-16
JP5000647B2 (ja) 2012-08-15
US7680656B2 (en) 2010-03-16
RU2420813C2 (ru) 2011-06-10
WO2007001821A3 (en) 2009-04-30
EP1891624B1 (en) 2011-05-04
CN101606191B (zh) 2012-03-21
ATE508454T1 (de) 2011-05-15

Similar Documents

Publication Publication Date Title
CN101606191B (zh) 使用语音状态模型的多传感语音增强
CN100583243C (zh) 多传感器语音增强的方法和装置
CN101887728B (zh) 多传感语音增强方法
CN108564963B (zh) 用于增强语音的方法和装置
CN101510905B (zh) 移动设备上多传感语音增强的方法和装置
CN101199006B (zh) 使用先验无噪声语音的多传感语音增强方法和系统
CN110164467A (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
CN106486131A (zh) 一种语音去噪的方法及装置
CN106663446A (zh) 知晓用户环境的声学降噪
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN1591574B (zh) 用于减少在语音信号中的噪音的方法和系统
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
CN104685562A (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
US20150112670A1 (en) Denoising Noisy Speech Signals using Probabilistic Model
EP2845190B1 (en) Processing apparatus, processing method, program, computer readable information recording medium and processing system
Han et al. Reverberation and noise robust feature compensation based on IMM
CN113035176B (zh) 语音数据处理方法、装置、计算机设备及存储介质
Uhle et al. Speech enhancement of movie sound
Yechuri et al. An iterative posterior regularized nmf-based adaptive wiener filter for speech enhancement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150427

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150427

Address after: Washington State

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120321

CF01 Termination of patent right due to non-payment of annual fee