CN101606191A

CN101606191A - 使用语音状态模型的多传感语音增强

Info

Publication number: CN101606191A
Application number: CNA2006800226393A
Authority: CN
Inventors: 张正友; 刘自成; A·艾斯洛; A·塞博拉曼亚; J·G·德罗波
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2005-06-28
Filing date: 2006-06-13
Publication date: 2009-12-16
Anticipated expiration: 2026-06-13
Also published as: JP2012155339A; BRPI0612668A2; US20060293887A1; EP1891624A2; JP2009501940A; RU2007149546A; JP5452655B2; KR20080019222A; KR101224755B1; WO2007001821A2; MX2007015446A; EP1891624A4; DE602006021741D1; JP5000647B2; US7680656B2; RU2420813C2; WO2007001821A3; EP1891624B1; CN101606191B; ATE508454T1

Abstract

一种方法和装置基于一比较传感器信号(316)和空气传导麦克风信号(318)确定语音状态的似然性。该语音状态的似然性连同该比较传感器信号和该空气传导麦克风信号一起被用于为清晰语音信号(324)估计(322)清晰语音值。

Description

使用语音状态模型的多传感语音增强

背景技术

语音识别和语音传输中一个常见的问题是由加性噪声对语音信号造成的破坏。尤其是，由于另一扬声器的语音造成的破坏被证明是难于检测和/或纠正的。

最近，已开发出试图通过使用比较传感器——例如骨传导麦克风和空气传导麦克风——来移除噪声的系统。已开发出使用比较传感器信号和空气传导麦克风信号来形成比空气传导麦克风信号具有更少噪声的增强语音信号的各种技术。然而，完美地增强的语音尚未被实现，并且需要在增强的语音信号的形成上的进一步进展。

概要

一种方法和装置基于比较传感器信号和空气传导麦克风信号确定语音状态的似然性。语音状态的似然性被用于为清晰语音信号估计清晰语音值。

附图简要说明

图1是可在其中实践本发明的实施例的一个计算环境的框图。

图2是可在其中实践本发明的实施例的替换计算环境的框图。

图3是本发明的一般的语音处理系统的框图。

图4是在本发明一实施例下的用于增强语音的系统的框图。

图5是在本发明一实施例下的语音增强所基于的模型。

图6是在本发明一实施例下的用于增强语音的流程图。

示例性实施例的具体说明

图1示出了本发明的实施例可以在其上实现的合适的计算环境100的示例。计算环境100仅仅是合适的计算环境的一个例子，并不旨在限制本发明的使用范围或功能集。也不应将计算环境100解释为具有与示例性操作环境100中图解的任一组件或组件组合的依赖或要求。

本发明的实施例可使用许多其他通用或专用计算系统环境或配置来运行。适合用于本发明实施例的公知的计算系统、环境、和/或配置可包括但是不限于个人计算机、服务器计算机、手持或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、微型计算机、大型计算机、电话系统、包括任何上述系统或设备的分布式计算环境等。

本发明的实施例可以在由计算机执行的诸如程序模块的计算机可执行指令的一般化上下文中描述。一般来说，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。本发明被设计为在分布式计算环境中实施，在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中，程序模块位于包括记忆存储设备的本地和远程计算机存储介质上。

参见图1，用于实现本发明的示例系统包括计算机110形式的通用计算设备。计算机110的组件可以包括，但不限于，处理单元120、系统存储器130、和将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。系统总线121可以是包括存储器总线或存储器控制器、外围总线和使用各种总线体系结构中的任何一种的局部总线在内的数种类型的总线结构中的任何一种。作为示例，而非限定，这样的体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型工业标准结构(EISA)总线、视频电子标准协会(VESA)局部总线、和也称为Mezzanine总线的外围组件互连(PCI)总线。

计算机110典型地包括各种计算机可读介质。计算机可读介质可以是能被计算机110访问的任意可用介质，并且计算机可读介质包括易失性和非易失性介质、可移动和不可移动介质。作为示例，而非限定，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储例如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术，CD-ROM、数字视频光盘(DVD)或其他光盘存储，磁卡带、磁带、磁盘存储或其他磁性存储设备，或任何其他可被用于存储所需信息并可被计算机110访问的介质。通信介质典型地具体表现为计算机可读指令、数据结构、程序模块或在例如是载波或其他传输机制的已调制的数据信号中的其他数据，并且包括任何信息传输介质。术语“已调制的数据信号”是指其特征中有一个或多个被以在该信号中编码信息的方式设置或改变的信号。作为示例，而非限定，通信介质包括例如是有线网络或直接有线连接的有线介质、以及例如是声音、RF、红外和其他无线介质的无线介质。任何上述的组合也应该包括在计算机可读介质的范围内。

系统存储器130包括例如是只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器形式的计算机存储介质。包含在例如启动期间帮助在计算机110内各元件之间传输信息基本例程的基本输入/输出系统131(BIOS)典型的存储于ROM 131中。RAM 132典型地包含可由处理单元120立即存取和/或当前正被其操作的数据和/或程序模块。作为示例，而非限定，图1示出了操作系统134、应用程序135、其他程序模块136和程序数据137.

计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1示出了读写不可移动、非易失性磁性介质的硬盘驱动器141、读写可移动、非易失性磁盘152的磁盘驱动器151、以及读写例如是CD ROM或其他光学介质的可移动、非易失性光盘的光盘驱动器155。其他能用于示例操作环境的可移动/不可移动、易失性/非易失性计算机存储介质包括，但不限于，磁卡带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141典型地通过例如是接口140的非易失性存储器接口连接到系统总线121，并且磁盘驱动器151和光盘驱动器155典型地通过例如是接口150的可移动存储器接口连接到系统总线121.

上述以及在图1中示出的各驱动器和它们相关的计算机存储介质为计算机110提供计算机可读指令、数据结构、程序模块和其他数据的存储。例如，在图1中，硬盘驱动器141被图解为存储了操作系统144、应用程序145、其他程序模块146、以及程序数据147。注意到这些组件可以和操作系统134、应用程序135、其他程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其他程序模块146和程序数据147在这里给予不同的附图标记以至少说明他们是不同的副本。

用户可以通过例如是键盘162、麦克风163和定点设备161的输入设备将命令和信息输入至计算机110中，定点设备161例如是鼠标、轨迹球或触摸板。其他输入设备(未图示)可以包括操纵杆、游戏垫、卫星天碟、扫描仪等。这些及其他的输入设备通常通过耦接到系统总线的用户输入接口160连接到处理单元120，但也可以通过例如是并行端口、游戏端口或通用串行总线(USB)的其他接口和总线结构来连接。监视器191或其他类型的显示设备也经由例如是视频接口190的接口连接到系统总线121。除了监视器，计算机还可以包括例如是扬声器197和打印机196的其他的外围输出设备，其可以通过输出外围接口195连接。

计算机110使用到例如是远程计算机180的一个或多个远程计算机的逻辑连接在连网环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其他通用网络节点，且典型地包括以上关于计算机110描述的许多或所有的要素。在图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但是也可以包括其他网络。这样的网络化环境在办公室、企业范围的计算机网络、内联网、以及因特网中是常见的。

当用在LAN网络化环境中时，计算机110通过网络接口或适配器170连接到LAN 171。当用在WAN网络化环境中时，计算机110典型地包括调制解调器172或其他用于在例如是因特网的WAN 173上建立通信的手段。可以是内置的或外置的调制解调器172可以经由用户输入接口160或其他合适机构连接到系统总线121。在连网环境中，以上关于计算机110描述的程序模块或其部分可以存储在远程记忆存储装置中。作为示例，而非限定，图1示出了远程应用程序185驻留在远程计算机180上。应知晓所示的网络连接是示例性的，而且可以使用在各计算机之间建立通信链路的其他手段。

图2是移动设备200的框图，其是示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动设备通信的通信接口208。在一实施例中，前面提到的组件在合适总线210上耦合以便相互通信。

存储器204用电池备份模块(未图示)实现为诸如随机存取存储器等的非易失性电子存储器，以使存储在存储器204中的信息在对移动设备200的总电源关闭时不会丢失。存储器204的一部分优选地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分优选地被用于存储，例如模拟硬盘驱动器上的存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在运行期间，操作系统212优选地由处理器202从存储器204执行。操作系统212在一优选实施例中是可从微软公司购得的CE操作系统。操作系统212优选地为移动设备设计，并且实现数据库特征，该数据库特征能被应用程序214通过一组曝露的应用程序编程接口和方法来利用。在对象存储216中的对象由应用程序214和操作系统212至少部分地响应对曝露的应用程序编程接口和方法的调用来维护。

通信接口208代表多种允许移动设备200发送和接收信息的设备和技术。仅举数例，这些设备包括有线和无线调制解调器、卫星接收机和广播调谐器。移动设备200还可以直接连接到计算机以与其交换数据。在此类情形中，通信接口208可以是红外收发机或者串行或并行通信连接，所有的这些都能传输流信息。

输入/输出组件206包括例如是触敏屏、按钮、滚轮、和麦克风等的各种输入设备，以及包括音频发生器、振动设备和显示器等的输出设备。以上列出的设备是作为示例且不需要都出现在移动设备200上。此外，其他输入/输出设备可以被附连至移动设备200或在移动设备200中找到，这落在本发明的范围内。

图3提供了本发明的实施例的基本框图。在图3中，扬声器300生成语音信号302(X)，其被空气传导麦克风304和比较传感器306检测到。比较传感器的例子包括测量用户喉咙振动的喉部麦克风、定位于或邻近于用户的面部或颅骨(例如是颌骨)或在用户的耳朵中、且感测对应于由用户发出的语音的颅和颌的振动的骨传导传感器。空气传导麦克风304是通常用于将音频空气波转化成电信号的类型的麦克风。、

空气传导麦克风304接收由一个或多个噪声源310产生的环境噪声308(V)且产生它自身的传感器噪声305(U)。取决于环境噪声的类型和环境噪声的声级，环境噪声308也可以被比较传感器306检测到。然而，在本发明实施例之下，比较传感器306对环境噪声的灵敏度相比空气传导麦克风304来说较弱。因此，由比较传感器306生成的比较传感器信号316(B)通常比由空气传导麦克风304生成的空气传导麦克风信号318(Y)包括更少的噪声。尽管比较传感器306对环境噪声灵敏度较低，但是它的确会产生一些传感器噪声320(W)。

从扬声器300到比较传感器信号316的路径能被建模为具有信道响应H的信道。从环境噪声308到比较传感器信号316的路径能被建模为具有信道响应G的信道。

比较传感器信号316(B)和空气传导麦克风信号318(Y)被提供至清晰信号估计器322，其估计清晰信号324。清晰信号估计324被提供至语音处理器328。清晰信号估计324或可以是时域信号，或可以是傅立叶变换矢量。如果清晰信号估计324是时域信号，则语音处理328就可以采取监听器、语音编码系统、或语音识别系统的形式。如果清晰信号估计324是傅立叶变换矢量，则语音处理328典型地将是语音识别系统，或包含傅立叶逆变换以将傅立叶变换矢量转换成波形。

在清晰信号估计器322内，比较传感器信号316和麦克风信号318被转换成用于估计清晰语音的频域。如图4所示，比较传感器信号316和空气传导麦克风信号318分别被提供至模数转换器404和414以生成一序列的数字值，它们分别由帧构建器406和416编组成数值帧。在一实施例中，模数转换器404和414在16kHz和每采样16比特下采样模拟信号，由此创建每秒32K字节的语音数据，且帧构建器406和416每10毫秒创建各自新的一帧，其包括了相当于20毫秒的数据。

由帧构建器406和416提供的相应各帧数据分别使用快速傅立叶变换(FFT)408和418转换至频域。

对应于比较传感器信号和空气传导信号的频域值被提供给清晰信号估计器420，其使用这些频域值来估计清晰语音信号324.

在一些实施例之下，清晰语音信号324使用快速傅立叶逆变换422转换回时域。这创建了清晰语音信号324的时域形式。

本发明采用包括语音状态以便实现清晰语音的图3系统的模型，以产生增强的语音信号。图5提供了该模型的图形表示。

在图5的模型中，清晰语音500取决于语音状态502。空气传导麦克风信号504取决于传感器噪声506、环境噪声508和清晰语音信号500。比较传感器信号510取决于传感器噪声512、通过信号响应514的清晰语音信号500以及通过信道响应516的环境噪声508。

图5的模型在本发明下用于从噪声观察Y_t和B_t估计清晰语音信号X_t，并标识多个语音状态S_t的似然性。

在本发明一实施例下，通过首先在系统模型中对噪声分量假定高斯分布来形成清晰语音信号估计和清晰语音信号估计的状态的似然性。由此：

V～N(0，g²σ_v ²) 式1

U～N(0，σ_u ²) 式2

W～N(0，σ_w ²) 式3

其中每个噪声分量被建模为一个各自具有方差g²σ_v ²、σ_u ²和σ_w ²的零均值高斯。V是环境噪声、U是空气传导麦克风中的传感器噪声，而W是在比较传感器中的传感器噪声。在式1中，g是允许环境噪声的方差被调谐的调谐参数。

此外，本发明的这一实施例将给定一状态下清晰语音信号的似然性建模为具有方差σ_s ²的零均值高斯以使：

X|(S＝s)～N(0，σ_s ²) 式4

在本发明一实施例下，给定状态的先验的概率被假定为均匀概率以使所有的状态相等地似然。具体地，先验概率被定义为：

P (s_{t}) = \frac{1}{N_{s}}

式5

其中N_s是模型中可用语音状态的数目。

在下面为确定清晰语音信号的估计以及语音状态的似然性而对等式的描述中，所有变量在复数频谱域中建模。每个频率分量(Bin)被独立于其他频率分量地来对待。为简化注记，该方法在下面针对单频率分量来描述。本领域技术人员将认识到，计算是对输入信号的频谱形式中的每个频率分量来执行的。对于随时间变化的变量，下标t被添加至该变量。

为了从有噪观察Y_t和B_t估计出清晰语音信号X_t，本发明使条件概率p(X_t|Y_t，B_t)最大化，其是给定有噪空气传导麦克风信号和有噪比较传感器信号情况下清晰语音信号的概率。由于在该模型下清晰语音信号的估计取决于语音状态S_t，因此这个条件概率确定为：

p (X_{t} | Y_{t}, B_{t}) = \underset{s &Element; {S}}{Σ} p (X_{t} | Y_{t}, B_{t}, S_{t} = s) p (S_{t} = s | Y_{t}, B_{t})

式6

其中{S}指示所有语音状态的集合，p(X_t|Y_t，B_t，S_t＝s)是给定当前有噪观察和语音状态s情况下X_t的似然性，而p(S_t＝s|Y_t，B_t)是给定有噪观察情况下语音状态s的似然性。在本发明下任意数目的可能的语音状态可被使用，包括对应于浊音、摩擦音、鼻音和后元音的语音状态。在一些实施例中，为例如音素等的语音单元集合中的每一个提供一单独的语音状态。然而，在一个实施例下，只提供两个语音状态，一个是给语音而一个是给非语音。

在一些实施例下，单状态被用于所有的频率分量。因此，每一帧具有单个语音状态变量。

在式6的右手边的项能被计算为：

p (X_{t} | Y_{t}, B_{t}, S_{t} = s) = \frac{p (X_{t}, Y_{t}, B_{t}, S_{t} = s)}{p (Y_{t}, B_{t}, S_{t} = s)} &Proportional; p (X_{t}, Y_{t}, B_{t}, S_{t} = s)

式7

p (S_{t} = s | Y_{t}, B_{t}) = {&Integral;}_{x} \frac{p (X_{t}, Y_{t}, B_{t}, S_{t} = s)}{p (Y_{t}, B_{t})} dX &Proportional; {&Integral;}_{x} p (X_{t}, Y_{t}, B_{t}, S_{t} = s) dX

式8

其指示给定这些观察情况下清晰语音信号的条件概率能由清晰语音信号、观察和状态的联合概率来估计，并且指示了给定这些观察的情况下状态的条件概率能通过将清晰语音信号、观察以及状态的联合概率在所有可能的清晰语音值上积分来近似。

使用以上在式1-3中讨论的噪声分布的高斯假设，清晰语音信号、观察和状态的联合概率可被计算为：

p (X_{t}, S_{t}, Y_{t}, B_{t}) = N (Y_{t}; X_{t}, σ_{u}^{2} + g^{2} σ_{v}^{2}) p (X_{t} | S_{t}) p (S_{t}) .

N (G \frac{g^{2} σ_{v}^{2} (Y_{t} - X_{t})}{σ_{u}^{2} + g^{2} σ_{v}^{2}}; B_{t} - {HX}_{t}, σ_{w}^{2} + {| G |}^{2} \frac{g^{2} σ_{v}^{2} σ_{u}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}})

式9

其中

p (X_{t} | S_{t} = s) = N (X_{t}; 0, σ_{s}^{2}),

p(S_t)是由式5中的均匀概率分布给定的状态的先验概率，G是比较传感器环境噪声的信号响应，H是该比较传感器信号对清晰语音信号的信道响应，而且在垂线标志之间的复数项例如|G|指示该复数值的幅值。

比较传感器对背景语音的信号响应G是自空气麦克风Y的信号以及跨用户没有说话的最后D帧的比较传感器B的信号估计出的。具体地说，G被确定为：

G = \frac{Σ_{t = 1}^{D} (σ_{u}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}) &PlusMinus; \sqrt{{(Σ_{t = 1}^{D} (σ_{u}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}))}^{2} + 4 σ_{u}^{2} σ_{w}^{2} {| Σ_{t = 1}^{D} B_{t}^{*} Y_{t} |}^{2}}}{2 σ_{u}^{2} Σ_{t = 1}^{D} B_{t}^{*} Y_{t}}

式10

在此D是其中用户没有说话但是存在背景语音的帧的数目。这里，我们假定G是跨所有时间帧D恒定的。在其他实施例中，不是平等地使用所有D个帧，我们代之以使用称作“指数式老化”的技术以使最近的帧相比较早前的帧对G的估计贡献更多。

比较传感器的对清晰语音信号的信号响应H是自空气麦克风Y的信号和跨用户没有说话的最后T帧的比较传感器B的信号估计出的。具体地说，H被确定为：

H = \frac{Σ_{t = 1}^{T} (g^{2} σ_{v}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}) &PlusMinus; \sqrt{{(Σ_{t = 1}^{T} (g^{2} σ_{v}^{2} {| B_{t} |}^{2} - σ_{w}^{2} {| Y_{t} |}^{2}))}^{2} + 4 {g^{2} σ}_{v}^{2} σ_{w}^{2} {| Σ_{t = 1}^{T} B_{t}^{*} Y_{t} |}^{2}}}{2 {g^{2} σ}_{v}^{2} Σ_{t = 1}^{T} B_{t}^{*} Y_{t}}

式11

在此T是其中用户在说话的帧的数目。这里，我们假定H是跨所有时间帧T恒定的。在其他实施例中，不是平等地使用所有T个帧，我们代之以使用称作“指数式老化”的技术以使最近的帧相比较早前的帧对H的估计贡献更多。

状态p(S_t＝s|Y_t，B_t)的条件似然性使用式8的近似以及式9的联合概率计算来计算为：

p (S_{t} | Y_{t}, B_{t}) &Proportional; \underset{x}{&Integral;} N (Y_{t}; X_{t}, σ_{u}^{2} + g^{2} σ_{v}^{2}) .

N (G \frac{g^{2} σ_{v}^{2} (Y_{t} - X_{t})}{σ_{u}^{2} + g^{2} σ_{v}^{2}}; B_{t} - {HX}_{t}, σ_{w}^{2} + {| G |}^{2} \frac{g^{2} σ_{v}^{2} σ_{u}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}}) .

p (X_{t} | S_{t}) p (S_{t}) dX

式12

其可被简化为：

p (S_{t} | Y_{t}, B_{t}) &Proportional;

N (B_{t}; \frac{(σ_{s}^{2} H + g^{2} σ_{v}^{2} G) Y_{t}}{σ_{s}^{2} + g^{2} σ_{v}^{2} + σ_{u}^{2}}, σ_{w}^{2} + {| G |}^{2} \frac{g^{2} σ_{v}^{2} σ_{u}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}} + | H - G \frac{g^{2} σ_{v}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}} |^{2} \frac{σ_{s}^{2} (σ_{u}^{2} + g^{2} σ_{v}^{2})}{σ_{s}^{2} + σ_{u}^{2} + g^{2} σ_{v}^{2}})

N (Y_{t}; 0, σ_{s}^{2} + σ_{u}^{2} + g^{2} σ_{v}^{2}) p (S_{t})

式13

仔细观察式13显示在某些传感建模中第一项是比较传感器信道与空气传导麦克风信道之间的互相关，而第二项利用状态模型和噪声模型来解释在空气麦克风信道中的观察。第三项仅仅是状态上的先验，在一实施例下其是均匀分布。

如在式13中计算出的给定观察的情况下状态的似然性有两个可能的应用。首先，它能被用于建立语音状态分类器，其可用于将观察分类成包括语音或不包括语音以使噪声源的方差能自不包括语音的帧确定。它还能被用于在如下进一步示出地估计清晰语音信号时提供“软”权重。

如上所述，在上面各式中的每个变量是在复数频谱域中的特定频率分量定义的。因此，式13的似然性是对应于与特定频率分量相关联的状态。然而，由于每帧仅有单个状态变量，因此通过跨频率分量累计似然性来形成一帧的状态的似然性如下：

L (S_{t}) = \underset{f}{Π} L (S_{t} (f))

式14

其中L(S_t(f))＝p(S_t(f)|Y_t(f)，B_t(f))式13中定义的频率分量f的似然性。乘积是在除了DC和Nyquist频率外的所有频率分量上确定的。注意到如果似然性计算是在对数-似然域中执行的，则在上式中的乘积用总和来替换。

上面的似然性能用于建立语音/非语音分类，基于似然性比率测试：

式15

其中帧在比值r大于0时被认为包含语音，否则被认为不包含语音。

通过使用语音状态的似然性，能形成对清晰语音信号的估计。在一实施例下，基于以上式6通过使用最小均方估计(MMSE)来形成这一估计：

{\hat{X}}_{t} = E (X_{t} | Y_{t}, B_{t}) = \underset{s &Element; {S}}{Σ} p (S_{t} = s | Y_{t}, B_{t}) E (X_{t} | Y_{t}, B_{t}, S_{t} = s)

式16

其中E(X_t|Y_t，B_t)是给定该观察情况下清晰语音信号的期望，而E(X_t|Y_t，B_t，S_t＝s)是给定该观察和该语音状态的情况下清晰语音信号的期望。

通过使用式7和9，可据之计算期望E(X_t|Y_t，B_t，S_t＝s)的条件概率p(X_t|Y_t，B_t，S_t＝s)可被确定为：

p (X_{t} | Y_{t}, B_{t}, S_{t} = s) &Proportional; N (Y_{t}; X_{t}, σ_{u}^{2} + g^{2} σ_{v}^{2}) .

N (\frac{g^{2} σ_{v}^{2} G (Y_{t} - X_{t})}{σ_{u}^{2} + g^{2} σ_{v}^{2}}; B_{t} - {HX}_{t}, σ_{w}^{2} + \frac{g^{2} σ_{v}^{2} σ_{u}^{2} {| G |}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}}) .

N (X_{t}; 0, σ_{s}^{2}) p (S_{t} = s)

式17

这产生期望：

E (X_{t} | Y_{t}, B_{t}, S_{t} = s) = σ_{s}^{2} (\frac{σ_{p}^{2} Y_{t} + M * ((σ_{u}^{2} + g^{2} σ_{v}^{2}) B_{t} - g^{2} σ_{v}^{2} G Y_{t})}{σ_{p}^{2} (σ_{u}^{2} + g^{2} σ_{v}^{2} + σ_{s}^{2}) + {| M |}^{2} σ_{s}^{2} (σ_{u}^{2} + g^{2} σ_{v}^{2})})

式18

其中

σ_{p}^{2} = σ_{w}^{2} + \frac{g^{2} σ_{v}^{2} σ_{u}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}} {| G |}^{2}

式19

M = H - \frac{g^{2} σ_{v}^{2}}{σ_{u}^{2} + g^{2} σ_{v}^{2}} G

式20

且M*是M的复共轭。

因此，清晰语音信号X_t的MMSE估计由下式给出：

{\hat{X}}_{t} = \underset{s &Element; {S}}{Σ} π_{s} E (X_{t} | Y_{t}, B_{t}, S_{t} = s)

式21

其中π_s在状态上的后验且其由下式给出：

π_{s} = \frac{L (S_{t} = s)}{Σ_{s &Element; {S}} L (S_{t} = s)}

式22

其中L(S_t＝s)由式14给出。因此，清晰语音信号的估计是部分基于特定语音状态的相对似然性而且这一相对似然性为清晰语音信号的估计提供了软权重。

在上述的计算中，H被假定为认为高精度已知。然而，在实践中，H仅为有限精度已知。在本发明的另一实施例中，H被建模为高斯随机变量N(H；H₀，σ_H ²)。在这样的实施例下，上述所有的计算在H的所有可能值之上被边缘化。然而，这将使得在数学上难以处理。在一实施例下，使用迭代处理来克服这一难以处理之处。在每次迭代中，H在式13和20中用H₀来代替，并且σ_w ²被用

替换，其中

是自前次一迭代确定的清晰语音信号的估计。然后使用式21来估计清晰语音信号。然后，清晰语音信号的这一新的估计被设置为

的新值，接着执行下一次迭代。当清晰语音信号的估计变得稳定就结束该迭代。

图6提供了使用以上各式来估计清晰语音信号的方法。在步骤600中，标识出输入说话中用户没有说话的帧。然后，使用这些帧来确定环境噪声σ_v ²的方差、比较传感器噪声σ_w ²的方差以及空气传导麦克风噪声σ_u ²的方差。

为了标识出用户在其中没有说话的帧，可检查比较传感器信号。由于比较传感器信号将对背景语音产生比对噪声产生的小的多的信号值，因此当比较传感器信号的能量低时，它能初始假定为扬声器不在说话。对应于不包含语音的帧的空气传导麦克风信号和比较传感器信号的值被存储在缓冲中且被用于计算噪声方差如下：

式23

式24

其中N_v是在说话中被用于形成方差的噪声帧的数目，V是用户在其中没有说话的噪声帧的集合，B′_t指已经虑及漏泄之后的比较传感器信号，其计算为：

B′_t＝B_t-GY_t 式25

其在一些实施例中被替换地计算为：

B_{t}^{'} = (1 - \frac{| G Y_{t} |}{| B_{t} |}) B_{t}

式26

在一些实施例下，基于低能量级在比较传感器信号中标识出非语音帧的技术仅仅在初始训练帧期间执行。在已形成噪声方差的初始值之后，它们可以被用于通过使用式15的似然比来确定哪些帧包含语音以及哪些帧不包含语音。

作为可用于增大或者减小估计的方差σ_v ²的调谐参数g的值在一特定实施例下被设置为1。这暗示了在噪声估计过程中的完全置信度。在本发明的不同实施例下可以使用不同的g值。

空气传导麦克风的噪声方差σ_u ²是基于空气传导麦克风相比于比较传感器较不易于受传感器噪声影响的观察来估计的。如此，空气传导麦克风的方差能被计算为：

σ_{u}^{2} = 1 e^{- 4} σ_{w}^{2}

式27

在步骤602中，使用具有时间平滑的噪声抑制滤波器来估计语音方差σ_s ²。该抑制滤波器是差谱的一般化。具体地，语音方差计算为：

{\hat{σ}}_{s}^{2} = τ {| {\hat{X}}_{t - 1} |}^{2} + (1 - τ) K_{s}^{2} {| Y_{t} |}^{2}

式28

其中

式29

连同

Q = \frac{σ_{v}}{| Y_{t} |}

式30

其中

是来自在前帧的清晰语音估计，τ是平滑因子，在某些实施例中设置为.2，α控制噪声减少的程度以使如果α＞1，则以语音失真增大为代价降低更多的噪声，并且β给出最小噪声本底并提供增加背景噪声以掩饰察觉到的剩余音乐噪声的手段。在一些实施例中，γ1＝2且γ2＝1/2。在一些实施例中，为对纯噪声帧，将β设置为0.01以实现20dB的噪声减少。

因此，在式28中，方差被确定为在前帧的估计的清晰语音信号和经噪声抑制滤波器K_s滤波的空气传导麦克风信号的能量的加权总和。

在一些实施例下，α是根据信噪比和屏蔽原理来选择的，该屏蔽原理表明在高语音能量带中的相同量的噪声比在低语音能量带中具有更小的影响，以及在一个频率上高语音能量的存在将减少在邻近频带中的噪声的感知度。在这一实施例下，α被选择为：

式31

其中SNR是以分贝计的信噪比，B是所需的信噪比等级，在该等级之上不应执行噪声减少，并且α₀是在信噪比值为0时应该被移除的噪声量。在一些实施例下，B被设置成等于20dB。

通过使用信噪比的定义：

SNR = 10 \log (\frac{{| Y_{t} |}^{2} - σ_{v}^{2}}{σ_{v}^{2}})

式32

式29的噪声抑制滤波器变成：

式33

这一噪声抑制滤波器为正的信噪比提供弱噪声抑制，而为负的信噪比提供较强的噪声抑制。事实上，对于足够负的信噪比，所有观察到的信号和噪声都将被移除而唯一存在的信号是噪声本底，其由式33的噪声抑制滤波器的“其他”分支加回。

在一些实施例下，使α₀频率相关以使对不同频率移除不同量的噪声。在一实施例下，通过在30Hz下的α₀和8KHz下的α₀之间使用线性内插来形成这一频率相关：

α₀(k)＝α_0min+(α_0max-α_0min)k/225 式34

其中k是频率分量的计数，σ_0min是在30Hz下期望的α₀值，α_0max是在8KHz下期望的α₀值，并且假定存在256个频率分量。

在步骤602中确定语音方差后，在步骤604中通过使用上述式13和14，利用方差来确定每个语音状态的似然性。然后在步骤606中利用语音状态的似然性为当前帧确定清晰语音估计。如上所述，在高斯分布被用于代表H的实施例中，通过在每一次迭代中使用清晰语音信号的最近估计以及通过使用上述各式的变化来容纳H的高斯模型，从而来迭代步骤604和606。

尽管本发明已经参考具体实施例描述，但本领域计数人员会认识到在形式和细节上可作出改变而不脱离本发明的精神和范围。

Claims

1、一种确定对代表经降噪语音信号的一部分的经降噪值的估计的方法，所述方法包括：

使用比较传感器来生成比较传感器信号；

生成空气传导麦克风信号；

使用所述比较传感器信号和所述空气传导麦克风信号来估计语音状态的似然性；以及

使用所述语音状态的似然性来估计所述经降噪值。

2、根据权利要求1所述的方法，其中使用所述语音状态的似然性来估计所述经降噪值包括，使用所述语音状态的似然性和所述经降噪值的期望值来估计所述经降噪值。

3、根据权利要求2所述的方法，其中所述经降噪值的期望值是基于所述比较传感器信号和所述空气传导麦克风信号。

4、根据权利要求1所述的方法，其中估计语音状态的似然性包括，为多个语音状态中的每一个估计单独的似然性，并且其中使用所述语音状态的似然性来估计所述经降噪值包括使用所述多个语音状态中的每个语音状态的似然性。

5、根据权利要求4所述的方法，其中使用所述多个语音状态中的每个语音状态的似然性包括，使用每个语音状态的似然性来对所述经降噪值的各期望值加权。

6、根据权利要求1所述的方法，其中估计语音状态的似然性包括，为一组频率分量中的每一个估计单独的似然性分量并且组合这些单独的似然性分量以形成所述语音状态似然性的估计。

7、根据权利要求1所述的方法，还包括使用语音状态的似然性的估计来确定一帧所述空气传导麦克风信号是否包含语音。

8、根据权利要求7所述的方法，还包括使用被确定为不包含语音的一帧空气传导麦克风信号来确定噪声源的方差，以及使用该噪声源的方差来估计所述经降噪值。

9、根据权利要求1所述的方法，还包括建模在给定状态下经降噪值的概率来作为具有方差的分布。

10、根据权利要求9所述的方法，还包括估计所述分布的方差为前一帧的经降噪值的估计与当前帧的空气传导麦克风信号的经滤波形式的线性组合。

11、根据权利要求10所述的方法，其中所述空气传导麦克风信号的经滤波形式是通过使用频率相关的滤波器来形成的。

12、根据权利要求10所述的方法，其中所述空气传导麦克风信号的经滤波形式是通过信噪比相关的滤波器来形成的。

13、根据权利要求1所述的方法，还包括通过使用所述经降噪值的估计来形成所述经降噪值的新估计来执行迭代。

14、一种计算机可读介质，具有用于执行步骤的计算机可执行指令，所述步骤包括：

基于比较传感器信号和空气传导麦克风信号确定语音状态的似然性；以及

使用所述语音状态的似然性来估计清晰语音值。

15、根据权利要求14所述的计算机可读介质，其中使用所述语音状态的似然性来估计清晰语音值包括，对期望值加权。

16、根据权利要求14所述的计算机可读介质，其中使用所述语音状态的似然性来估计清晰语音值包括：

使用所述语音状态的似然性来将一帧信号标识为非语音帧；

使用所述非语音帧来估计噪声的方差；以及

使用所述噪声方法来估计所述清晰语音值。

17、根据权利要求14所述的计算机可读介质，其中估计语音状态的似然性包括，为多个频率分量中的每一个估计单独的似然性，并且组合这些单独的似然性以形成所述语音状态的似然性。

18、一种为清晰语音信号标识出清晰语音值的方法，所述方法包括：

形成一模型，在所述模型中所述清晰语音信号取决于语音状态，比较传感器信号取决于所述清晰语音信号，并且空气传导麦克风信号取决于所述清晰语音信号；以及

基于所述模型、所述比较传感器信号的值、以及所述空气传导麦克风信号的值来确定所述清晰语音值的估计。

19、根据权利要求18所述的方法，还包括为状态确定似然性，并且其中确定所述清晰语音值的估计还包括使用所述状态的似然性。

20、根据权利要求18所述的方法，其中形成所述模型包括形成其中所述比较传感器信号和所述空气传导麦克风信号取决于噪声源的模型。