CN1867965A - 使用自适应噪声基底跟踪的语音活动检测 - Google Patents

使用自适应噪声基底跟踪的语音活动检测 Download PDF

Info

Publication number
CN1867965A
CN1867965A CNA200480030041XA CN200480030041A CN1867965A CN 1867965 A CN1867965 A CN 1867965A CN A200480030041X A CNA200480030041X A CN A200480030041XA CN 200480030041 A CN200480030041 A CN 200480030041A CN 1867965 A CN1867965 A CN 1867965A
Authority
CN
China
Prior art keywords
signal
level
filter
noise floor
offset component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200480030041XA
Other languages
English (en)
Other versions
CN1867965B (zh
Inventor
沃尔夫冈·布罗克斯
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1867965A publication Critical patent/CN1867965A/zh
Application granted granted Critical
Publication of CN1867965B publication Critical patent/CN1867965B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

本发明涉及一种用于检测通信信号中的语音活动的方法和设备,其中提供了滤波装置,用于估计和抑制通信信号电平的偏移分量。滤波参数是根据滤波装置的输出来进行控制的。此外,响应于滤波装置的输出,限制偏移分量的估计或抑制。滤波装置可以基于非线性自适应槽型电平滤波器或者噪声基底跟踪滤波器。所以,可以改进在噪声基底突然上升情况下噪声基底估计的跟踪行为,并且语音活动检测可以在较宽的动态范围内高效地工作。

Description

使用自适应噪声基底跟踪的语音活动检测
技术领域
本发明涉及在移动应用和无线应用的主要领域中的通信系统的通信信号中检测语音活动的方法和设备,特别涉及应用于在噪声环境中估计活动语音电平的自动增益控制设备中的方法和系统。
背景技术
在语音信号被传送给接听者或者被电话答录机记录的通信系统中,无论实际的语音电平是多少,人们都期望把语音信号的电平自动调整到预定参考电平。这样会提高能听度和收听者舒适度。对应的自动增益控制设备的调整机制应该把输出电平置于参考值,而这需要对长期活动语音电平进行可靠的测量和估计。该控制设备还应该能够在语音说话期间防止背景噪声的非理想升高。这需要一种即使存在高背景噪声电平的情况下也能工作正常的语音活动检测电路(VAD),所述背景噪声电平可能随着时间而有相当大的变动。
图1的时间相关信号图示出了纯语音信号s(上图)和根据纯语音信号生成的短期电平信号S。在这种没有噪声的情况下,可以通过将电平信号和一个绝对阀值进行比较,来执行语音活动检测,从而识别出具有活动语音的段。这一般通过对信号s的输入采样平方(短期功率估值)或者输入采样的绝对值(短期电平幅度估值)施加低通滤波器或者平滑滤波器来实现。低通滤波器可以是用于所谓泄漏积分(leaky integration)的数字一阶回归滤波器(无限冲击响应(IIR)滤波器)。对于8KHz的采样率,通常在2-5到2-7范围之间选择一个时间常量参数α。
为了特别强调语音信号的开始,该参数可以根据上升电平或者下降电平进行转换。现在,如果纯语音信号s的短期电平S高于固定的绝对阀值参数TH_A,则检测到语音活动。这可以由下面的表达式表示:
VAD=1如果S(i)-TH_A>0                       (1)
图2示出了在文件EP0 110 464 B2中用作例子所描述的语音活动检测器的示意方框图。根据图1,通过输入端E向模拟/数字(A/D)转换器2提供带噪声的语音信号,所述A/D转换器以在预定采样时刻生成采样值x(k),其中k是整数且表示采样值的序号。接着,采样值x(k)被提供给噪声基底估计单元4,所述单元4用于对接收语音信号的数字样点值(即采样值x(k))中存在的背景噪声进行估计。并行地,采样值x(k)也被提供给信号功率估计单元6,所述单元6执行计算和/或处理,从而确定接收语音信号中存在的信号功率。信号功率估计单元6中的计算和/或处理可以基于输入采样值的均方值的确定。接着,噪声基底估计单元4和信号功率估计单元6的输出被提供给比较器或者比较器单元8,所述单元8用于根据估计的噪声基底确定一个相对阀值,并且将估计的信号功率电平和该相对阀值进行比较。根据比较的结果,比较单元8生成一个控制信号,并将该控制信号给语音活动检测处理单元10,所述单元10生成一个用于指示语音活动的VAD标记,以响应所接收的控制信号。
因此,图2中示出的语音活动检测器依赖于带噪声的输入电平值和背景噪声电平估计值的阀值比较来分配它的VAD标记。
图3示出了类似于图1的时间相关信号图,其针对带噪声的语音信号x包括一个稳态背景噪声的情况。该较稳态背景噪声如同一个常数偏移量被加到纯语音信号电平S上,从而形成了具有噪声的组合语音信号的短期电平X(图3中的实线)。应该注意的是,此处由小写字母表示的信号对应于从图2的A/D转换器获得的实际的或者真实的采样值,而由大写字母表示的信号对应于根据原始采样信号获得的电平信号,它们分别通过对采样平方或者幅度采样分别进行平滑滤波或平均滤波而获得。
现在,语音活动检测机制应该包括这样的特性:考虑语音信号x的活动部分偏离背景噪声的量,这意味着带噪声的语音信号x的短期电平显著跨越估计的偏移量电平N的相对量,估计的偏移量电平N即所谓的噪声基底(noise floor)。因此,VAD判决应该另外还包括一个由估计的噪声基底进行加权的相对阀值参数TH_R,并且可以表示如下:
VAD=1如果X(i).TH_R-N(i)-TH_A>0             (2)
在图3中,该估计的噪声基底N用点线表示,经过噪声加权的相对检测阀值用虚线表示。如果为了获得纯语音信号的短期电平估计S’而首先从带噪声的语音信号的短期电平X中消除估计的噪声基底N,则这可以用改变的方程表示为:
VAD=1如果S’(i)-(1-TH_R)X(i)-TH_A>0        (3)
电平分离的基本原则可以作为VAD机制应用在很多应用中,所述电平分离的基本原则即把稳态噪声基底N从语音信号的较稳态电平中分离出来。这意味着没有考虑语音信号和噪声信号的其它特性,如频谱结构、零交叉率、信号—幅度分布等。在多数应用中,语音和噪声之间的充分区分可以只基于它们短期电平的不同稳态行为。但是,噪声在整个时间将是或多或少地恒定的假设必须在现实中必须经受考验。确实,该判决也有必要基于噪声基底随时间缓慢变化甚至突然改变的可能性。因此,该VAD机制应该具有跟踪噪声基底的功能。跟踪噪声基底可以基于背景噪声估计的更新过程,其可以使用缓慢上升/快速下降的技术来实现,根据所述缓慢上升/快速下降的技术,如果输入电平小于噪声基底估计,则将噪声基底直接设置为等于输入电平。另一方面,上升的输入电平也应当优选地分配给活动语音段,并且只是小心地用于升高背景噪声电平估计。此目的是为了减少语音活动检测和背景噪声基底更新之间的相互依赖。已经显示的是,实际噪声基底的良好独立跟踪行为也将导致VAD和长期活动语音电平估计的良好性能,并且这又提高了整体AGC性能。
在上述文件EP0 110 467 B2中,描述了使用保守更新的噪声基底跟踪过程,其中用一个常数增量提高噪声基底估计,只有在噪声电平保持非常稳定时,这才是可以接受的。该过程只在噪声基底的变化是缓和的情况下才有良好的性能。但是,噪声基底突然增加的跟踪性能很差。有时需要花费几秒钟才能适应新的噪声基底。
在文件US2002/0152066 A1中描述了另外一种噪声基底跟踪方案,其中通过斜率因子加权过程,使得跟踪速度在噪声基底上升的情况下得到相当的增加。选择该斜率因子,以使得在对数域中实现恒定的上升时间2.8dB/s。但是,因为噪声基底更新中的增长量依赖于当前实际的噪声基底估计本身,所以在整个动态范围内从来没有可比的定时行为。这使得以一个常数斜率因子工作很困难。假如噪声基底的第一次估计离真实的噪声基底很远,则应该使用一个很高值的斜率因子,并且斜率随后需要相当地减少,以仅跟踪小的实际偏差。
总而言之,这两种公知的跟踪方案在实际使用中都存在不能在整个动态范围内维持性能的问题。在互相排斥的可能方案中取得一个好的折衷,即在语音活动期间不跟踪太多的语音电平、但能足够快速地跟踪一个上升的噪声电平,仍然是一个主要问题。
发明内容
所以本发明的目的是提供一种语音活动检测机制,通过该机制,噪声基底估计的可跟踪性能在一个宽的动态范围内得到提高。
该目标通过如权利要求1所述的一种语音活动检测设备以及如权利要求7所述的一种语音活动检测方法来获得。
相应地,提供了一种简单和具鲁棒性的方案,用于在语音活动检测中跟踪噪声基底。和现有技术方案不同,本发明获得了宽动态范围以及在语音活动检测与快速而可靠的噪声基底跟踪之间实现了良好的相互依赖。噪声基底估计是通过具有时变滤波系数的滤波器来实现的,所述滤波系数用于确定跟踪速度。如果输入通信信号的电平高于估计的偏移分量(即噪声基底),则假定是一个上升的噪声电平,故选择滤波系数以使得跟踪速度越来越快。另一方面,如果输入通信信号的电平小于估计的偏移分量,则跟踪速度可以立刻下降,从而避免估计的噪声电平追随(follow)语音电平的问题。因此,本方案能够在噪声基底突然上升期间改进噪声基底跟踪,并且在一个大的动态范围工作良好。
根据第一方面,所述滤波装置可以包括一个槽带(notch)处于零频率的槽型滤波器,并且所述限制装置可以包括一个具有限制特性的非线性单元,所述限制特性用于抑制负信号通过所述槽型滤波器的回归路径的传输回归。因此,通过在槽型滤波器的回归路径中增加非线性单元,可以保证在槽型滤波器中减去偏移分量绝不会导致负的输出电平值。
根据第二方面,所述滤波装置可以包括用于提取偏移分量的低通滤波器,并且所述限制装置可以包括比较装置和切换装置,其中比较装置用于把提取的偏移分量和通信信号进行比较,切换装置用于选择提取的偏移分量或者选择通信信号,以响应比较装置的输出。因此,如果输入信号小于噪声基底,则当切换装置直接把输入电平复制成噪声基底时,低通滤波器直接估计噪声基底。所以,可以获得快速的向下更新。
参数控制装置可用于:如果所述通信信号电平下降到所述估计的偏移分量的电平之下,则把所述滤波参数设置为第一参数,该第一参数导致所述估计的较低跟踪速度;如果所述通信信号的电平高于所述估计的偏移分量的电平,则把所述滤波参数设置为第二参数,该第二参数导致所述估计的较高跟踪速度。具体而言,参数控制装置可以通过滤波参数在最小值和最大值的限制范围内的指数自适应来工作,而且依赖于比较装置可以被复位成最小值。所以,滤波参数的自适应对应于优选的缓慢上升/快速下降技术。因此,可以获得在语音活动期间对噪声基底的稳定估计。
附图说明
现在结合附图,在优选实施例的基础上描述本发明,在附图中:
图1的信号图示出了一种对纯语音进行语音活动检测的原理;
图2示出了一种现有技术的语音活动检测器装置的方框示意图;
图3的信号图示出了一种对含噪声的语音信号进行语音活动检测的原理;
图4示出了一个可以执行本发明的语音活动检测器装置的方框示意图;
图5是槽型滤波器的频率响应的示意图;
图6示出了根据本发明的第一优选实施例的非线性自适应槽型电平滤波器的示意功能框图;
图7示出了可在本发明的第二优选实施例中使用的偏移量减法滤波器的示意功能框图;
图8示出了根据第二优选实施例的自适应噪声基底跟踪滤波器的示意功能框图;
图9的信号图示出了根据第一优选实施例和第二优选实施例的具有快速跟踪的自适应噪声基底估计;以及
图10示出了比较不同噪声基底估计方案的跟踪行为的信号图。
发明详述
下面,将基于图4中示出的语音活动检测方案来描述优选的实施例。根据图4,通过输入端子E提供一个带噪音的语音信号给模/数(A/D)转换器2,后者类似于图2的装置。接着,采样值被提供给电平计算装置42,电平计算装置42用于计算所述采样值的被平滑的短期电平值X。该被平滑的短期电平值X被提供给噪声基底估计单元44,所述单元44包括限制功能部件141,并且用于估计出现在接收语音信号的数字样本(即被平滑的电平值)中的背景噪声。并行地,被平滑的短期电平值也和噪声基底估计单元44的输出一起被提供给参数控制单元46和语音活动控制单元48,其中所述单元46控制噪声基底估计单元44中提供的滤波器功能的参数,所述单元48生成VAD控制信号,例如,VAD标记。
根据优选的实施例,所提出的语音活动检测器通过把预定相对阀值和绝对阀值进行组合而工作,并且,如果诸如输入采样的低通滤波绝对值之类的短期输入电平值显著高于噪声基底估计值,则表示语音活动。基于相对阀值,对输入电平值进行加权,然后对其进行噪声基底减法。最后,绝对阀值和作为噪声基底减法结果的纯语音信号电平值相关,从而生成如上述方程(2)所定义的VAD控制信号。
在下面的优选实施例中,噪声基底估计单元44和参数控制单元46的功能结合在单个估计处理单元40中。
噪声基底的更新通常通过在原始采样率的子采样基础上的降低采样率来实现。图4的噪声基底估计单元44中执行的噪声基底估计通过具有至少一个时变滤波系数的滤波器来实现,所述滤波系数确定实际的跟踪速度。该滤波器可以用于估计或者计算噪声基底,或者,从输入信号电平值中直接消除噪声基底。如果输入电平值降到噪声基底估计之下,则通过限制功能部件141执行噪声基底估计的限制,并且可以将自适应滤波系数复位到最慢跟踪速度值,从所述最慢跟踪速度值起,跟踪速度例如可以通过指数函数上升到最快跟踪速度。
根据第一优选实施例,噪声基底消除使用了一个非线性自适应槽型滤波器。因此,在噪声基底估计单元44中获得了纯语音信号电平值S’的估值。可以把该纯语音信号电平值S’和输入电平值X直接提供给其中可以执行VAD阀值比较的语音活动控制单元48。或者,噪声基底估计单元44也可以通过在带噪声的语音电平值X中再次减去估计的纯语音信号电平值S’来确定噪声基底。
槽带位于零频率处的槽型滤波器消除了信号的DC分量。下述公式给出了这种通用一阶回归滤波器的差分方程和Z变换:
y(k)=x(k)-x(k-1)+γ·γ(k-1)                (4)
H z = ( z ) = z - 1 z - γ
通过滤波系数γ,可以控制槽型共振(notch resonance)的锐度。假如滤波参数γ向“1”移动,则槽带变得更加突出。反之,滤波器响应时间将增加。
图5示出了一个通用DC槽型滤波器在滤波参数γ的两种不同设置下的频率响应。从图5可以推断出,与由虚线表示的滤波系数γ的较低值相比,滤波系数γ的较高值(其对应于实线)能够提供更加突出的滤波操作。
但是,对带噪声的语音电平值X直接应用DC槽型滤波器不会有助于消除噪声基底,因为它不是复合电平的DC分量。只有在确保减去常数偏移量电平绝不会导致负输出电平值的情况下,才能消除噪声基底。这可以通过在DC槽型滤波器的回归路径中增加具有限制曲线的非线性滤波单元来实现。所以,纯语音信号电平值S’总是大于或者等于0的值。
图6的示意功能框图示出了根据本发明第一优选实施例的估计处理单元40的一个例子,其具有非线性自适应槽型电平滤波器。从图6可以看出,在回归路径中引进了具有限制曲线的非线性滤波单元16,并且因此提供了图4中的限制功能部件141。限制曲线用于阻挡或抑制小于0值的信号,但让正信号通过。这保证了纯语音信号电平S’总是正值。根据通常的DC槽型滤波器结构,输入信号电平值X被直接供给算术功能部件13,通过该算术功能13,输入信号电平值X加上延迟输入信号电平值X(i-1),所述X(i-1)在第一延迟单元11中被延迟了一个采样周期。此外,还加上根据上一个采样周期的纯语音信号电平值S`(i-1)生成的反馈信号,从而生成实际的纯语音电平信号S`(i)。反馈信号按如下方式获得:将上一个纯语音电平信号S`(i-1)在第二延迟单元12中延迟一个采样周期,然后在乘法器14中用滤波参数γ乘以或者加权延迟的信号。为了满足在整个动态范围获得良好性能的需求,使滤波参数γ成为自适应的,如后文所述。从而获得了非线性自适应槽型电平滤波器。在参数控制单元46中生成自适应滤波参数γ,其中输出的纯语音信号电平值S`(i)被供给所述参数控制单元46。鉴于纯语音信号电平S`(i)已经对应于输入信号电平值X(i)和噪声基底N(i)之间差值的事实,只向参数控制单元46提供纯语音信号电平值就足够了。
通过DC槽型滤波器消除DC分量或者偏移量也可被视为一种过程,在该过程中,首先通过低通滤波器操作,生成偏移分量的估计,然后,从原始输入信号中减去偏移量信号,从而获得没有偏移量的输出信号或者纯的输出信号。
图7示出了与非线性DC槽型滤波操作等效的处理或者过程的示意功能框图。此处,首先通过输入信号x(k)的低通滤波,来获得偏移量信号d(k)的估计。接着,减去该偏移量信号d(k)。输入信号x(k)的低通滤波是通过IIR滤波器来获得的,所述IIR滤波器包括两个延迟单元20、22和两个乘法或者加权单元24、26,延迟单元20、22具有与一个采样周期相对应的延迟,乘法或者加权单元24、26用于对接收信号分别乘以或者加权各自的滤波系数α和(1-α)。在减法单元29中,从原始输入信号x(k)中减去偏移量信号d(k),从而得没有偏移量或者纯的输出信号y(k)。图6中所示的这个偏移量减法结构也可以通过等价方程(4)的简单变换来获得。下述方程(3)对应于图7中的偏移量减法滤波器结构:
dd(k)=(1-α)·d(k-1)+α·x(k-1)其中α=1-γ (5)
y(k)=x(k)-d(k)
图8示出了根据第二优选实施例的估计处理单元40的另一个实例,其具有自适应噪声基底跟踪滤波器。该滤波器基于图7中示出的偏移量减法滤波器结构。
根据图8,获得了噪声基底估计N,其包括上文提到的缓慢上升/快速下降技术的原理。在比较器功能部件39中,通过对输入信号电平值X(i)进行低通滤波而获得的噪声基底估计N(i)和原始的输入信号电平值X(i)进行比较,然后将比较结果用于控制切换功能部件35,所述切换功能部件35把噪声基底估值N(i)或者原始输入信号电平值X(i)切换到输出端,作为最终的噪声基底估计N(i)。因此,比较器功能部件39和切换功能部件35充当了图4中的限制功能部件141。该结构可以通过下述方程描述:
N(i)=(1-α(i))·N(i-1)+α(i)·X(i)          (6)
N(i)=X(i)如果X(i)<N(i)
类似于第一优选实施例,滤波参数α(i)和(1-α(i))由参数控制单元46生成,其中比较功能39的输出被供给所述参数控制单元46。
因此,通过紧记可以从输入信号电平值X(i)中减去噪声基底估计N(i)来获得不含噪声电平的语音电平估计S`(i)以及可以根据第一优选实施例的槽型滤波器参数γ导出偏移量减法滤波器的参数α,则可以建立从图6中非线性单元16的限制功能曲线到根据第二优选实施例的噪声基底跟踪滤波器中的缓慢上升/快速下降技术之间的联系。因此,这两个实施例都使用了同样的基本原则。在这个程度上说,使用第一优选实施例的非线性自适应槽型电平滤波器结构和第二优选实施例的自适应噪声基底跟踪滤波器结构是等价的。
图9的时间相关信号图示出了输入电平信号(实线)和噪声基底估计(虚线)。另外,打点的矩形信号表示图4所示的语音控制单元48的输出端的VAD标记值。图9所示的信号对于本发明的第一和第二优选实施例都是有效的。从图9可以看出,可以通过噪声基底估计获得真实噪声基底的良好跟踪。而且,可在第一语音期之后大约200ms的时刻看到快速下降技术,其中噪声基底估计直接追随下降的输入电平信号。改良的噪声基底跟踪性能可以提高VAD标记值和活动语音期的匹配。
下面,更加详细地描述由第一和第二优选实施例的参数控制单元46执行的参数控制。
根据第一优选实施例的非线性自适应槽型电平滤波器的滤波参数γ或者根据第二优选实施例的噪声基底跟踪滤波器的滤波参数α通常都影响噪声基底估计追随上升的输入信号电平值X的速度。所以,这些参数的自适应控制必须和缓慢上升/快速下降的技术相结合或者适应。如果实际的输入信号电平值X降到估计的噪声基底N之下,这也表示已经到达了噪声基底,则应该跟踪速度应该复位成很慢的值。因此,选择相应的低跟踪值αmin=αslow和γmm=γslow,以避免噪声基底估计追随语音电平。另一方面,如果相反的情况持续的时间间隔比非稳态语音段还长(即输入信号电平值X高于噪声基底估计电平N),则应该认为存在上升的噪声基底,故应使滤波参数变得越来越敏感,即通过连续增加滤波参数来提高跟踪速度,直到到达相应快速跟踪值αmax=αfast和γmax=γfast为止。
滤波参数的连续改变可以基于上面两个限制值之间的指数自适应。为了实现这一点,可以引入一个临时状态变量a(i),其包括一个开始值as和一个系数Ca。现在,根据第一优选实施例的自适应非线性槽型电平滤波器结构可以在参数控制单元18中根据下面的方程(6)执行滤波参数的更新:
a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0  (7)
a(i)=as否则重新开始
γ(i)=max[γmin,(γmax-a(i))]
而且,根据第二优选实施例的噪声基底跟踪电平滤波结构的参数控制单元38可以根据下面的方程(7)执行滤波参数的更新:
a(i)=(1+ca)·a(i-1)如果S`(i)=X(i)-N(i)>0  (8)
a(i)=as否则重新开始
α(i)=min[αmax,(αmin+a(i))]
所述滤波参数的这种控制或设置导致了语音活动期间静态噪声基底的稳定估计。另一方面,对于缓慢上升/快速下降原理,追随上升的噪声基底的跟踪速度得到了优化。所以,可以在较宽的动态范围获得良好的整体性能。
图10的信号图示出了最初描述的公知跟踪过程和根据第一和第二优选实施例的改进自适应跟踪过程,以便于获得不同噪声基底估计方案的跟踪行为的比较。
在图10的最上方图中,显示了在文件EP0 110 467 B2中描述的具有恒定增量的动态范围噪声基底估计。从该图可以看出,由于噪声基底跟踪速度太慢,VAD标记的值(点线)在噪声基底突然上升的情况下不能追随或者反映实际的语音期。
上面的第二个图显示了在文件US 2002/015266 A1中描述的具有常数斜率因子的动态范围噪声基底估计。同样,语音检测行为在强跳跃噪声基底的情况下不能满足要求,如从t=8.000ms到t=14.000ms期间所示。
下面的两幅图分别涉及根据第一和第二优选实施例的自适应槽型滤波器结构和噪声基底跟踪结构。在用于增长噪声基底估计所需的一个相对短的时间段后,VAD标记和实际的语音活动即使在强噪声基底变动的情况下也能很好地匹配。
应该注意的是,本发明不局限于上面的优选实施例,而是能够应用于任何语音活动检测机制。具体而言,具有较高滤波阶数的其他滤波装置也可以用于分别获得纯语音信号电平值S`或者噪声基底估计N。图4、6和8中示出的功能流程图的单元可以实现为具有分离硬件元件的具体硬件功能部件,或者实现为控制信号处理器件的软件例程。所以,优选的实施例可以在所附的权利要求的范围内进行改变。

Claims (10)

1、一种用于检测通信信号中的语音活动的设备,所述设备包括:
a)滤波装置,用于对所述通信信号电平的偏移分量进行估计或者抑制;
b)参数控制装置(46),用于根据所述滤波装置的输出,控制所述滤波装置的滤波参数;以及
c)限制装置(16;35,39),用于限制所述偏移分量的所述抑制或者所述估计,以响应所述滤波装置的所述输出。
2、根据权利要求1所述的设备,还包括用于计算所述通信信号短期电平的电平计算装置(42)以及用于比较所述滤波装置的输入和输出电平的语音活动控制装置(48)。
3、根据权利要求1或2所述的设备,其中,所述偏移分量是所述通信信号电平的噪声基底分量。
4、根据前述权利要求任意之一所述的设备,其中,所述滤波装置包括槽带处于零频率的槽型滤波器,并且,所述限制装置包括具有限制特性的非线性单元(16),所述限制特性用于抑制负信号在所述槽型滤波器的回归路径上的传输。
5、根据权利要求1到3中任意之一所述的设备,其中,所述滤波装置包括用于提取所述偏移分量的低通滤波器,并且,所述限制装置(35,39)包括比较装置(39)和切换装置(35),其中所述比较装置(39)用于比较所述提取的偏移分量和所述通信信号,所述切换装置(35)用于选择所述提取的偏移分量和所述的通信信号中之一,以响应所述比较装置(39)的输出。
6、根据前述权利要求任意之一所述的设备,其中,如果所述通信信号电平下降到所述估计的偏移分量电平之下,则所述参数控制装置(46)把所述滤波参数设置为第一数值,该第一数值导致所述估计的跟踪速度的降低,如果所述通信信号电平高于所述估计的偏移分量电平,则所述参数控制装置(46)把所述滤波参数设置为第二数值,该第二数值导致所述估计的跟踪速度的提高。
7、根据权利要求6所述的设备,其中,所述参数控制装置(46)在预定参数值的限制范围内应用所述滤波参数的指数自适应。
8、一种用于检测通信信号中的语音活动的方法,所述方法包括以下步骤:
a)对所述通信信号电平的偏移分量进行滤波;
b)根据所述滤波步骤的结果,控制在所述滤波步骤中使用的滤波参数;以及
c)限制所述滤波步骤,以响应所述滤波步骤的结果。
9、根据权利要求8所述的方法,其中,所述滤波步骤用于通过应用槽带处于零频率的滤波特性来抑制所述偏移分量,并且所述限制步骤是通过应用抑制负信号传输的限制特性来执行的。
10、根据权利要求8所述的方法,其中,所述滤波步骤用于提取所述偏移分量,并且所述限制步骤包括下列步骤:将提取的偏移分量和所述通信信号电平进行比较;以及,选择所述提取的偏移分量和所述通信信号电平中之一,以响应所述比较结果。
CN200480030041XA 2003-10-16 2004-10-08 使用自适应噪声基底跟踪的语音活动检测 Expired - Fee Related CN1867965B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03103839 2003-10-16
EP03103839.1 2003-10-16
PCT/IB2004/052025 WO2005038773A1 (en) 2003-10-16 2004-10-08 Voice activity detection with adaptive noise floor tracking

Publications (2)

Publication Number Publication Date
CN1867965A true CN1867965A (zh) 2006-11-22
CN1867965B CN1867965B (zh) 2010-05-26

Family

ID=34443026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480030041XA Expired - Fee Related CN1867965B (zh) 2003-10-16 2004-10-08 使用自适应噪声基底跟踪的语音活动检测

Country Status (6)

Country Link
US (1) US7535859B2 (zh)
EP (1) EP1676261A1 (zh)
JP (1) JP4739219B2 (zh)
KR (1) KR20060094078A (zh)
CN (1) CN1867965B (zh)
WO (1) WO2005038773A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102971789A (zh) * 2010-12-24 2013-03-13 华为技术有限公司 用于执行话音活动检测的方法和设备
CN106611596A (zh) * 2015-10-22 2017-05-03 德克萨斯仪器股份有限公司 模拟信息特征提取的基于时间的频率调谐
CN111105810A (zh) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US8204754B2 (en) * 2006-02-10 2012-06-19 Telefonaktiebolaget L M Ericsson (Publ) System and method for an improved voice detector
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
GB0703275D0 (en) * 2007-02-20 2007-03-28 Skype Ltd Method of estimating noise levels in a communication system
EP2294832B1 (en) * 2008-06-30 2012-01-11 Freescale Semiconductor, Inc. Multi-frequency tone detector
JP5287642B2 (ja) * 2009-09-28 2013-09-11 沖電気工業株式会社 有音無音判定装置、有音無音判定方法、および、有音無音判定プログラム
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
HUE053127T2 (hu) 2010-12-24 2021-06-28 Huawei Tech Co Ltd Eljárás és berendezés hang aktivitás adaptív detektálására egy bemeneti audiójelben
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
DE102011016804B4 (de) * 2011-04-12 2016-01-28 Drägerwerk AG & Co. KGaA Vorrichtung und Verfahren zur Datenverarbeitung physiologischer Signale
EP2896126B1 (en) 2012-09-17 2016-06-29 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9198588B2 (en) 2012-10-31 2015-12-01 Welch Allyn, Inc. Frequency-adaptive notch filter
US9196262B2 (en) * 2013-03-14 2015-11-24 Qualcomm Incorporated User sensing system and method for low power voice command activation in wireless communication systems
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
EP3152756B1 (en) 2014-06-09 2019-10-23 Dolby Laboratories Licensing Corporation Noise level estimation
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3243231A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
DE3473373D1 (en) * 1983-10-13 1988-09-15 Texas Instruments Inc Speech analysis/synthesis with energy normalization
US5548642A (en) * 1994-12-23 1996-08-20 At&T Corp. Optimization of adaptive filter tap settings for subband acoustic echo cancelers in teleconferencing
US5566167A (en) * 1995-01-04 1996-10-15 Lucent Technologies Inc. Subband echo canceler
US5699434A (en) * 1995-12-12 1997-12-16 Hewlett-Packard Company Method of inhibiting copying of digital data
DE19730518C1 (de) 1997-07-16 1999-02-11 Siemens Ag Verfahren und Einrichtung zum Erkennen einer Sprechpause
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US6249757B1 (en) * 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
US20030088622A1 (en) 2001-11-04 2003-05-08 Jenq-Neng Hwang Efficient and robust adaptive algorithm for silence detection in real-time conferencing
US20040054528A1 (en) * 2002-05-01 2004-03-18 Tetsuya Hoya Noise removing system and noise removing method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102971789A (zh) * 2010-12-24 2013-03-13 华为技术有限公司 用于执行话音活动检测的方法和设备
US8818811B2 (en) 2010-12-24 2014-08-26 Huawei Technologies Co., Ltd Method and apparatus for performing voice activity detection
US9390729B2 (en) 2010-12-24 2016-07-12 Huawei Technologies Co., Ltd. Method and apparatus for performing voice activity detection
CN106611596A (zh) * 2015-10-22 2017-05-03 德克萨斯仪器股份有限公司 模拟信息特征提取的基于时间的频率调谐
CN106611596B (zh) * 2015-10-22 2021-11-09 德克萨斯仪器股份有限公司 模拟信息特征提取的基于时间的频率调谐
CN111105810A (zh) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质
CN111105810B (zh) * 2019-12-27 2022-09-06 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
US20070110263A1 (en) 2007-05-17
EP1676261A1 (en) 2006-07-05
JP2007509364A (ja) 2007-04-12
US7535859B2 (en) 2009-05-19
WO2005038773A1 (en) 2005-04-28
CN1867965B (zh) 2010-05-26
KR20060094078A (ko) 2006-08-28
JP4739219B2 (ja) 2011-08-03

Similar Documents

Publication Publication Date Title
CN1867965A (zh) 使用自适应噪声基底跟踪的语音活动检测
US7155385B2 (en) Automatic gain control for adjusting gain during non-speech portions
JP3484801B2 (ja) 音声信号の雑音低減方法及び装置
CN1122970C (zh) 由时域频谱减法减少信号噪声的降噪处理器、方法和电话
KR101461141B1 (ko) 잡음 억제기를 적응적으로 제어하는 시스템 및 방법
WO2004075167A2 (en) Log-likelihood ratio method for detecting voice activity and apparatus
US8818811B2 (en) Method and apparatus for performing voice activity detection
CA2679476C (en) Method of estimating noise levels in a communication system
US6360199B1 (en) Speech coding rate selector and speech coding apparatus
US10726857B2 (en) Signal processing for speech dereverberation
AU619679B2 (en) Digital signal processor based agc
US9036816B1 (en) Frequency domain acoustic echo cancellation using filters and variable step-size updates
CN1153483C (zh) 用于信道译码器的软归一化器
US20090010452A1 (en) Adaptive noise gate and method
CN1134768C (zh) 由时域频谱相减进行信号噪声减小的电话机、处理器及方法
US7277510B1 (en) Adaptation algorithm based on signal statistics for automatic gain control
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
US6816591B2 (en) Voice switching system and voice switching method
US6842526B2 (en) Adaptive noise level estimator
CN112102818B (zh) 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
US9940946B2 (en) Sharp noise suppression
CN116667873A (zh) 一种射频基带联合快速agc控制系统及方法
CN111200409A (zh) 信号的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090206

Address after: Holland Ian Deho Finn

Applicant after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Applicant before: Koninklijke Philips Electronics N.V.

ASS Succession or assignment of patent right

Owner name: NXP CO., LTD.

Free format text: FORMER OWNER: KONINKLIJKE PHILIPS ELECTRONICS N.V.

Effective date: 20090206

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20151008

EXPY Termination of patent right or utility model