背景技术
在语音信号被传送给接听者或者被电话答录机记录的通信系统中,无论实际的语音电平是多少,人们都期望把语音信号的电平自动调整到预定参考电平。这样会提高能听度和收听者舒适度。对应的自动增益控制设备的调整机制应该把输出电平置于参考值,而这需要对长期活动语音电平进行可靠的测量和估计。该控制设备还应该能够在语音说话期间防止背景噪声的非理想升高。这需要一种即使存在高背景噪声电平的情况下也能工作正常的语音活动检测电路(VAD),所述背景噪声电平可能随着时间而有相当大的变动。
图1的时间相关信号图示出了纯语音信号s(上图)和根据纯语音信号生成的短期电平信号S。在这种没有噪声的情况下,可以通过将电平信号和一个绝对阀值进行比较,来执行语音活动检测,从而识别出具有活动语音的段。这一般通过对信号s的输入采样平方(短期功率估值)或者输入采样的绝对值(短期电平幅度估值)施加低通滤波器或者平滑滤波器来实现。低通滤波器可以是用于所谓泄漏积分(leaky integration)的数字一阶回归滤波器(无限冲击响应(IIR)滤波器)。对于8KHz的采样率,通常在2-5到2-7范围之间选择一个时间常量参数α。
为了特别强调语音信号的开始,该参数可以根据上升电平或者下降电平进行转换。现在,如果纯语音信号s的短期电平S高于固定的绝对阀值参数TH_A,则检测到语音活动。这可以由下面的表达式表示:
VAD=1如果S(i)-TH_A>0 (1)
图2示出了在文件EP0 110 464 B2中用作例子所描述的语音活动检测器的示意方框图。根据图1,通过输入端E向模拟/数字(A/D)转换器2提供带噪声的语音信号,所述A/D转换器以在预定采样时刻生成采样值x(k),其中k是整数且表示采样值的序号。接着,采样值x(k)被提供给噪声基底估计单元4,所述单元4用于对接收语音信号的数字样点值(即采样值x(k))中存在的背景噪声进行估计。并行地,采样值x(k)也被提供给信号功率估计单元6,所述单元6执行计算和/或处理,从而确定接收语音信号中存在的信号功率。信号功率估计单元6中的计算和/或处理可以基于输入采样值的均方值的确定。接着,噪声基底估计单元4和信号功率估计单元6的输出被提供给比较器或者比较器单元8,所述单元8用于根据估计的噪声基底确定一个相对阀值,并且将估计的信号功率电平和该相对阀值进行比较。根据比较的结果,比较单元8生成一个控制信号,并将该控制信号给语音活动检测处理单元10,所述单元10生成一个用于指示语音活动的VAD标记,以响应所接收的控制信号。
因此,图2中示出的语音活动检测器依赖于带噪声的输入电平值和背景噪声电平估计值的阀值比较来分配它的VAD标记。
图3示出了类似于图1的时间相关信号图,其针对带噪声的语音信号x包括一个稳态背景噪声的情况。该较稳态背景噪声如同一个常数偏移量被加到纯语音信号电平S上,从而形成了具有噪声的组合语音信号的短期电平X(图3中的实线)。应该注意的是,此处由小写字母表示的信号对应于从图2的A/D转换器获得的实际的或者真实的采样值,而由大写字母表示的信号对应于根据原始采样信号获得的电平信号,它们分别通过对采样平方或者幅度采样分别进行平滑滤波或平均滤波而获得。
现在,语音活动检测机制应该包括这样的特性:考虑语音信号x的活动部分偏离背景噪声的量,这意味着带噪声的语音信号x的短期电平显著跨越估计的偏移量电平N的相对量,估计的偏移量电平N即所谓的噪声基底(noise floor)。因此,VAD判决应该另外还包括一个由估计的噪声基底进行加权的相对阀值参数TH_R,并且可以表示如下:
VAD=1如果X(i).TH_R-N(i)-TH_A>0 (2)
在图3中,该估计的噪声基底N用点线表示,经过噪声加权的相对检测阀值用虚线表示。如果为了获得纯语音信号的短期电平估计S’而首先从带噪声的语音信号的短期电平X中消除估计的噪声基底N,则这可以用改变的方程表示为:
VAD=1如果S’(i)-(1-TH_R)X(i)-TH_A>0 (3)
电平分离的基本原则可以作为VAD机制应用在很多应用中,所述电平分离的基本原则即把稳态噪声基底N从语音信号的较稳态电平中分离出来。这意味着没有考虑语音信号和噪声信号的其它特性,如频谱结构、零交叉率、信号—幅度分布等。在多数应用中,语音和噪声之间的充分区分可以只基于它们短期电平的不同稳态行为。但是,噪声在整个时间将是或多或少地恒定的假设必须在现实中必须经受考验。确实,该判决也有必要基于噪声基底随时间缓慢变化甚至突然改变的可能性。因此,该VAD机制应该具有跟踪噪声基底的功能。跟踪噪声基底可以基于背景噪声估计的更新过程,其可以使用缓慢上升/快速下降的技术来实现,根据所述缓慢上升/快速下降的技术,如果输入电平小于噪声基底估计,则将噪声基底直接设置为等于输入电平。另一方面,上升的输入电平也应当优选地分配给活动语音段,并且只是小心地用于升高背景噪声电平估计。此目的是为了减少语音活动检测和背景噪声基底更新之间的相互依赖。已经显示的是,实际噪声基底的良好独立跟踪行为也将导致VAD和长期活动语音电平估计的良好性能,并且这又提高了整体AGC性能。
在上述文件EP0 110 467 B2中,描述了使用保守更新的噪声基底跟踪过程,其中用一个常数增量提高噪声基底估计,只有在噪声电平保持非常稳定时,这才是可以接受的。该过程只在噪声基底的变化是缓和的情况下才有良好的性能。但是,噪声基底突然增加的跟踪性能很差。有时需要花费几秒钟才能适应新的噪声基底。
在文件US2002/0152066 A1中描述了另外一种噪声基底跟踪方案,其中通过斜率因子加权过程,使得跟踪速度在噪声基底上升的情况下得到相当的增加。选择该斜率因子,以使得在对数域中实现恒定的上升时间2.8dB/s。但是,因为噪声基底更新中的增长量依赖于当前实际的噪声基底估计本身,所以在整个动态范围内从来没有可比的定时行为。这使得以一个常数斜率因子工作很困难。假如噪声基底的第一次估计离真实的噪声基底很远,则应该使用一个很高值的斜率因子,并且斜率随后需要相当地减少,以仅跟踪小的实际偏差。
总而言之,这两种公知的跟踪方案在实际使用中都存在不能在整个动态范围内维持性能的问题。在互相排斥的可能方案中取得一个好的折衷,即在语音活动期间不跟踪太多的语音电平、但能足够快速地跟踪一个上升的噪声电平,仍然是一个主要问题。
附图说明
现在结合附图,在优选实施例的基础上描述本发明,在附图中:
图1的信号图示出了一种对纯语音进行语音活动检测的原理;
图2示出了一种现有技术的语音活动检测器装置的方框示意图;
图3的信号图示出了一种对含噪声的语音信号进行语音活动检测的原理;
图4示出了一个可以执行本发明的语音活动检测器装置的方框示意图;
图5是槽型滤波器的频率响应的示意图;
图6示出了根据本发明的第一优选实施例的非线性自适应槽型电平滤波器的示意功能框图;
图7示出了可在本发明的第二优选实施例中使用的偏移量减法滤波器的示意功能框图;
图8示出了根据第二优选实施例的自适应噪声基底跟踪滤波器的示意功能框图;
图9的信号图示出了根据第一优选实施例和第二优选实施例的具有快速跟踪的自适应噪声基底估计;以及
图10示出了比较不同噪声基底估计方案的跟踪行为的信号图。
发明详述
下面,将基于图4中示出的语音活动检测方案来描述优选的实施例。根据图4,通过输入端子E提供一个带噪音的语音信号给模/数(A/D)转换器2,后者类似于图2的装置。接着,采样值被提供给电平计算装置42,电平计算装置42用于计算所述采样值的被平滑的短期电平值X。该被平滑的短期电平值X被提供给噪声基底估计单元44,所述单元44包括限制功能部件141,并且用于估计出现在接收语音信号的数字样本(即被平滑的电平值)中的背景噪声。并行地,被平滑的短期电平值也和噪声基底估计单元44的输出一起被提供给参数控制单元46和语音活动控制单元48,其中所述单元46控制噪声基底估计单元44中提供的滤波器功能的参数,所述单元48生成VAD控制信号,例如,VAD标记。
根据优选的实施例,所提出的语音活动检测器通过把预定相对阀值和绝对阀值进行组合而工作,并且,如果诸如输入采样的低通滤波绝对值之类的短期输入电平值显著高于噪声基底估计值,则表示语音活动。基于相对阀值,对输入电平值进行加权,然后对其进行噪声基底减法。最后,绝对阀值和作为噪声基底减法结果的纯语音信号电平值相关,从而生成如上述方程(2)所定义的VAD控制信号。
在下面的优选实施例中,噪声基底估计单元44和参数控制单元46的功能结合在单个估计处理单元40中。
噪声基底的更新通常通过在原始采样率的子采样基础上的降低采样率来实现。图4的噪声基底估计单元44中执行的噪声基底估计通过具有至少一个时变滤波系数的滤波器来实现,所述滤波系数确定实际的跟踪速度。该滤波器可以用于估计或者计算噪声基底,或者,从输入信号电平值中直接消除噪声基底。如果输入电平值降到噪声基底估计之下,则通过限制功能部件141执行噪声基底估计的限制,并且可以将自适应滤波系数复位到最慢跟踪速度值,从所述最慢跟踪速度值起,跟踪速度例如可以通过指数函数上升到最快跟踪速度。
根据第一优选实施例,噪声基底消除使用了一个非线性自适应槽型滤波器。因此,在噪声基底估计单元44中获得了纯语音信号电平值S’的估值。可以把该纯语音信号电平值S’和输入电平值X直接提供给其中可以执行VAD阀值比较的语音活动控制单元48。或者,噪声基底估计单元44也可以通过在带噪声的语音电平值X中再次减去估计的纯语音信号电平值S’来确定噪声基底。
槽带位于零频率处的槽型滤波器消除了信号的DC分量。下述公式给出了这种通用一阶回归滤波器的差分方程和Z变换:
y(k)=x(k)-x(k-1)+γ·γ(k-1) (4)
通过滤波系数γ,可以控制槽型共振(notch resonance)的锐度。假如滤波参数γ向“1”移动,则槽带变得更加突出。反之,滤波器响应时间将增加。
图5示出了一个通用DC槽型滤波器在滤波参数γ的两种不同设置下的频率响应。从图5可以推断出,与由虚线表示的滤波系数γ的较低值相比,滤波系数γ的较高值(其对应于实线)能够提供更加突出的滤波操作。
但是,对带噪声的语音电平值X直接应用DC槽型滤波器不会有助于消除噪声基底,因为它不是复合电平的DC分量。只有在确保减去常数偏移量电平绝不会导致负输出电平值的情况下,才能消除噪声基底。这可以通过在DC槽型滤波器的回归路径中增加具有限制曲线的非线性滤波单元来实现。所以,纯语音信号电平值S’总是大于或者等于0的值。
图6的示意功能框图示出了根据本发明第一优选实施例的估计处理单元40的一个例子,其具有非线性自适应槽型电平滤波器。从图6可以看出,在回归路径中引进了具有限制曲线的非线性滤波单元16,并且因此提供了图4中的限制功能部件141。限制曲线用于阻挡或抑制小于0值的信号,但让正信号通过。这保证了纯语音信号电平S’总是正值。根据通常的DC槽型滤波器结构,输入信号电平值X被直接供给算术功能部件13,通过该算术功能13,输入信号电平值X加上延迟输入信号电平值X(i-1),所述X(i-1)在第一延迟单元11中被延迟了一个采样周期。此外,还加上根据上一个采样周期的纯语音信号电平值S`(i-1)生成的反馈信号,从而生成实际的纯语音电平信号S`(i)。反馈信号按如下方式获得:将上一个纯语音电平信号S`(i-1)在第二延迟单元12中延迟一个采样周期,然后在乘法器14中用滤波参数γ乘以或者加权延迟的信号。为了满足在整个动态范围获得良好性能的需求,使滤波参数γ成为自适应的,如后文所述。从而获得了非线性自适应槽型电平滤波器。在参数控制单元46中生成自适应滤波参数γ,其中输出的纯语音信号电平值S`(i)被供给所述参数控制单元46。鉴于纯语音信号电平S`(i)已经对应于输入信号电平值X(i)和噪声基底N(i)之间差值的事实,只向参数控制单元46提供纯语音信号电平值就足够了。
通过DC槽型滤波器消除DC分量或者偏移量也可被视为一种过程,在该过程中,首先通过低通滤波器操作,生成偏移分量的估计,然后,从原始输入信号中减去偏移量信号,从而获得没有偏移量的输出信号或者纯的输出信号。
图7示出了与非线性DC槽型滤波操作等效的处理或者过程的示意功能框图。此处,首先通过输入信号x(k)的低通滤波,来获得偏移量信号d(k)的估计。接着,减去该偏移量信号d(k)。输入信号x(k)的低通滤波是通过IIR滤波器来获得的,所述IIR滤波器包括两个延迟单元20、22和两个乘法或者加权单元24、26,延迟单元20、22具有与一个采样周期相对应的延迟,乘法或者加权单元24、26用于对接收信号分别乘以或者加权各自的滤波系数α和(1-α)。在减法单元29中,从原始输入信号x(k)中减去偏移量信号d(k),从而得没有偏移量或者纯的输出信号y(k)。图6中所示的这个偏移量减法结构也可以通过等价方程(4)的简单变换来获得。下述方程(3)对应于图7中的偏移量减法滤波器结构:
dd(k)=(1-α)·d(k-1)+α·x(k-1)其中α=1-γ (5)
y(k)=x(k)-d(k)
图8示出了根据第二优选实施例的估计处理单元40的另一个实例,其具有自适应噪声基底跟踪滤波器。该滤波器基于图7中示出的偏移量减法滤波器结构。
根据图8,获得了噪声基底估计N,其包括上文提到的缓慢上升/快速下降技术的原理。在比较器功能部件39中,通过对输入信号电平值X(i)进行低通滤波而获得的噪声基底估计N(i)和原始的输入信号电平值X(i)进行比较,然后将比较结果用于控制切换功能部件35,所述切换功能部件35把噪声基底估值N(i)或者原始输入信号电平值X(i)切换到输出端,作为最终的噪声基底估计N(i)。因此,比较器功能部件39和切换功能部件35充当了图4中的限制功能部件141。该结构可以通过下述方程描述:
N(i)=(1-α(i))·N(i-1)+α(i)·X(i) (6)
N(i)=X(i)如果X(i)<N(i)
类似于第一优选实施例,滤波参数α(i)和(1-α(i))由参数控制单元46生成,其中比较功能39的输出被供给所述参数控制单元46。
因此,通过紧记可以从输入信号电平值X(i)中减去噪声基底估计N(i)来获得不含噪声电平的语音电平估计S`(i)以及可以根据第一优选实施例的槽型滤波器参数γ导出偏移量减法滤波器的参数α,则可以建立从图6中非线性单元16的限制功能曲线到根据第二优选实施例的噪声基底跟踪滤波器中的缓慢上升/快速下降技术之间的联系。因此,这两个实施例都使用了同样的基本原则。在这个程度上说,使用第一优选实施例的非线性自适应槽型电平滤波器结构和第二优选实施例的自适应噪声基底跟踪滤波器结构是等价的。
图9的时间相关信号图示出了输入电平信号(实线)和噪声基底估计(虚线)。另外,打点的矩形信号表示图4所示的语音控制单元48的输出端的VAD标记值。图9所示的信号对于本发明的第一和第二优选实施例都是有效的。从图9可以看出,可以通过噪声基底估计获得真实噪声基底的良好跟踪。而且,可在第一语音期之后大约200ms的时刻看到快速下降技术,其中噪声基底估计直接追随下降的输入电平信号。改良的噪声基底跟踪性能可以提高VAD标记值和活动语音期的匹配。
下面,更加详细地描述由第一和第二优选实施例的参数控制单元46执行的参数控制。
根据第一优选实施例的非线性自适应槽型电平滤波器的滤波参数γ或者根据第二优选实施例的噪声基底跟踪滤波器的滤波参数α通常都影响噪声基底估计追随上升的输入信号电平值X的速度。所以,这些参数的自适应控制必须和缓慢上升/快速下降的技术相结合或者适应。如果实际的输入信号电平值X降到估计的噪声基底N之下,这也表示已经到达了噪声基底,则应该跟踪速度应该复位成很慢的值。因此,选择相应的低跟踪值αmin=αslow和γmm=γslow,以避免噪声基底估计追随语音电平。另一方面,如果相反的情况持续的时间间隔比非稳态语音段还长(即输入信号电平值X高于噪声基底估计电平N),则应该认为存在上升的噪声基底,故应使滤波参数变得越来越敏感,即通过连续增加滤波参数来提高跟踪速度,直到到达相应快速跟踪值αmax=αfast和γmax=γfast为止。
滤波参数的连续改变可以基于上面两个限制值之间的指数自适应。为了实现这一点,可以引入一个临时状态变量a(i),其包括一个开始值as和一个系数Ca。现在,根据第一优选实施例的自适应非线性槽型电平滤波器结构可以在参数控制单元18中根据下面的方程(6)执行滤波参数的更新:
a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0 (7)
a(i)=as否则重新开始
γ(i)=max[γmin,(γmax-a(i))]
而且,根据第二优选实施例的噪声基底跟踪电平滤波结构的参数控制单元38可以根据下面的方程(7)执行滤波参数的更新:
a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0 (8)
a(i)=as否则重新开始
α(i)=min[αmax,(αmin+a(i))]
所述滤波参数的这种控制或设置导致了语音活动期间静态噪声基底的稳定估计。另一方面,对于缓慢上升/快速下降原理,追随上升的噪声基底的跟踪速度得到了优化。所以,可以在较宽的动态范围获得良好的整体性能。
图10的信号图示出了最初描述的公知跟踪过程和根据第一和第二优选实施例的改进自适应跟踪过程,以便于获得不同噪声基底估计方案的跟踪行为的比较。
在图10的最上方图中,显示了在文件EP0 110 467 B2中描述的具有恒定增量的动态范围噪声基底估计。从该图可以看出,由于噪声基底跟踪速度太慢,VAD标记的值(点线)在噪声基底突然上升的情况下不能追随或者反映实际的语音期。
上面的第二个图显示了在文件US 2002/015266 A1中描述的具有常数斜率因子的动态范围噪声基底估计。同样,语音检测行为在强跳跃噪声基底的情况下不能满足要求,如从t=8.000ms到t=14.000ms期间所示。
下面的两幅图分别涉及根据第一和第二优选实施例的自适应槽型滤波器结构和噪声基底跟踪结构。在用于增长噪声基底估计所需的一个相对短的时间段后,VAD标记和实际的语音活动即使在强噪声基底变动的情况下也能很好地匹配。
应该注意的是,本发明不局限于上面的优选实施例,而是能够应用于任何语音活动检测机制。具体而言,具有较高滤波阶数的其他滤波装置也可以用于分别获得纯语音信号电平值S`或者噪声基底估计N。图4、6和8中示出的功能流程图的单元可以实现为具有分离硬件元件的具体硬件功能部件,或者实现为控制信号处理器件的软件例程。所以,优选的实施例可以在所附的权利要求的范围内进行改变。