CN1113306C - 用于噪声环境的语音检测系统 - Google Patents

用于噪声环境的语音检测系统

Info

Publication number
CN1113306C
CN1113306C CN99104095A CN99104095A CN1113306C CN 1113306 C CN1113306 C CN 1113306C CN 99104095 A CN99104095 A CN 99104095A CN 99104095 A CN99104095 A CN 99104095A CN 1113306 C CN1113306 C CN 1113306C
Authority
CN
China
Prior art keywords
threshold
threshold value
frequency band
band
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN99104095A
Other languages
English (en)
Other versions
CN1242553A (zh
Inventor
赵翊
金-克劳德·军全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1242553A publication Critical patent/CN1242553A/zh
Application granted granted Critical
Publication of CN1113306C publication Critical patent/CN1113306C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

将输入信号变换到频域,随后划分为与不同频率范围相对应的频带。分别对各频带的数据施加自适应阈值。从而测试短期限带能量,以确定有无语音信号。通过利用直方图数据结构累加表示有关频带能量均值和方差的长期数据,独立更新各信号路径的自适应阈值。利用状态机完成端点检测,其中状态机根据阈值比较结果,从无语音状态变换到有语音状态,反之亦然。局部语音检测系统处理输入信号被截短的情况。

Description

用于噪声环境的语音检测系统
技术领域
本发明一般涉及语音处理和语音识别系统。更确切地说,本发明涉及用于检测输入信号内语音开始和语音结束的检测系统。
背景技术
目前,用于语音识别和其他目的的自动语音处理是计算机能够进行的最具挑战性的任务之一。例如,语音识别采用对变化非常敏感的高度复杂的模式匹配技术。在用户应用中,识别系统需要处理各种各样的不同发言者,并且需要在各种互不相同的环境下运行。无关信号和噪声的出现可能严重降低识别质量和语音处理性能。
大部分自动语音识别系统按如下方式工作,首先建立声音模式的模型,然后使用该模式确定音素,字母,最后确定单词。对于精确识别而言,排除实际语音之前或之后的所有无关声音(噪声)是非常重要的。存在一些检测语音开始和语音结束的公知技术,尽管还有许多地方需要改进。
发明内容
本发明将输入信号划分为各种频带,各频带代表不同的频率范围。然后将各频带内的短期能量与若干阈值进行比较,并利用比较结果驱动状态机,当至少某个频带的限带信号能量高于该频带的至少一个有关阈值时,状态机就从“无语音”状态切换到“有语音”状态。同样,当至少某个频带的限带信号能量低于该频带的至少一个有关阈值时,状态机就从“有语音”状态切换到“无语音”状态。该系统还包括一个基于实际语音开始之前的“无声段”假设的局部语音检测机制。
直方图数据结构累加与各频带内的能量均值和方差有关的长期数据,该信息用于调整自适应阈值。根据噪声特征分配频带。直方图表示能够明显区分语音信号、无声和噪声。在语音信号内,无声部分(仅有背景噪声)通常占主导地位,并且在直方图上有明显反映。相比为常量的背景噪声,在直方图上表示为明显峰值。
本系统非常适用于噪声环境中的语音检测,该系统检测语音的开始和结束并处理经过截短而丢失语音开始的情况。
本发明提供一种用于检测输入信号以确定有无语音信号的语音检测系统,该系统包括:一个频带分裂器,用于将所述输入信号分裂为若干频带,各频带表示与不同频率范围相对应的限带信号能量;一个能量比较系统,用于把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及一个与所述能量比较系统相连的语音信号状态机,该状态机完成以下切换:(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,从无语音状态切换到有语音状态,以及(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,从有语音状态切换到无语音状态。
本发明提供一种确定输入信号内有无语音信号的方法,该方法包括以下步骤:将所述输入信号分裂为若干频带,各频带表示与不同频率范围相对应的限带信号能量;把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及确定:(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,存在有语音状态,以及(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,为无语音状态。
附图说明
参照以下详细说明书和附图,将更加理解本发明,其目的以及其优点。
图1为本发明之最佳实施方式(2频带实施方式)中语音检测系统的框图;
图2为用于调整自适应阈值的系统的详细框图;
图3为局部语音检测系统的框图;
图4表示本发明的语音信号状态机;
图5表示用于理解本发明的典型直方图;
图6为一个波形图,该图表示为进行语音检测而比较信号能量时所使用的若干阈值;
图7为一个波形图,该图表示为避免错误检测强噪声脉冲而使用的开始语音延迟检测机制;
图8为一个波形图,该图表示为允许连续语音内的停顿而使用的结束语音延迟判定机制;
图9A为表示局部语音检测机制的一方面的波形图;
图9B为表示局部语音检测机制的另一方面的波形图;
图10为一组波形图,该图表示为了选择与有语音状态相对应的最终范围,如何综合多频带阈值分析;
图11表示出现强噪声时使用S阈值的波形图;以及
图12表示当自适应阈值适应背景噪声电平时,自适应阈值的性能。
具体实施方式
本发明将输入信号划分为多个信号路径,各路径代表一个不同频带。图1表示采用两频带实施方式的本发明的实施方式,一个频带表示输入信号的总频谱,另一频带表示总频谱的高频子集。所示实施方式特别适用于检测具有较低信噪比(SNR)的输入信号,如在正在行驶的汽车内或噪杂的办公环境中所获得的信号。在以上常见环境中,大部分噪声能量分布在2,000Hz以下。
尽管本文说明了两频带系统,可以将本发明轻易扩展为其他多频带结构。通常,各频带覆盖不同的频率范围,其目的是从噪声中分离信号(语音)。本实施方式为数字式。当然,也可以利用本文包含的详细说明实现模拟实施方式。
参照图1,在20提供包含潜在语音信号和噪声的输入信号。利用汉明窗口22数字化处理输入信号,以便将输入信号数据划分为帧。本发明之最佳实施方式采用时长为10ms的预定采样频率(8,000Hz情况下)的帧,每帧80个数字采样。所示系统被设计成能够在其频率范围为300Hz到3,400Hz的输入信号下运行。因此,选择采样频率为频率上限的两倍(2×4,000=8,000)。如果在输入信号的信息传送部件中发现不同频谱,就适当调整采样频率和频带。
汉明窗口22的输出为表示输入信号(语音和噪声)的数字采样序列,并且将其排列为预定尺寸的帧。随后将以上各帧馈入到快速傅立叶变换(FFT)变换器24,后者将输入信号数据从时域变换到频域。此时,将该信号分裂为若干路径,位于26的第一路径和位于28的第二路径。第一路径表示包含输入信号所有频率的频带,而第二路径28表示输入信号总频谱的高频子集。由于利用数字数据表示频域含量,所以分别利用累加部件30和32实现频带分裂。
请注意,累加部件30累加范围10-108内的频谱分量;而累加部件32累加范围64-108内的频谱分量。这样,累加部件30选择输入信号内的所有频率,而部件32仅选择高频频带。此时,部件32抽取部件30所选频带的一个子集。这正是检测通常在行驶的汽车内或噪杂的办公室中所获得的噪声输入信号中语音含量的最佳实施方式。其他噪声环境可以规定其他频带分裂方式。例如,如果需要,可以配置若干信号路径以覆盖各个非重叠频带和部分重叠频带。
累加部件30和32每次累加一帧的频率分量。因此,部件30和32的结果输出表示信号内的限带短期能量。如果需要,可以经过平滑滤波器,如滤波器34和36,传送原始数据。在本发明的最佳实施方式中,采用3-抽头平均器作为两处的平滑滤波器。
正如下文中将要更加全面说明的那样,根据若干受限频带短期能量与若干阈值的比较,进行语音检测。根据与讲话前之无声部分(假设在系统运行后但在发言者开始发言之间,出现无声部分)有关的能量的长期平均值与方差,自适应更新以上阈值。以上实施方式采用直方图数据结构生成自适应阈值。在图1中,组合框38和40分别表示信号路径26和28的自适应阈值更新部件。将结合图2和有关波形图,提供以上部件的细节。
尽管沿快速傅立叶变换部件24的下行方向保持不同的信号路径,各通过自适应阈值更新部件38和40,但有关输入信号中有无语音的最终决定是同时考虑两条信号路径产生的。因此,语音状态检测部件42以及与其有关的局部语音检测部件44从两条路径26和28考虑信号能量数据。语音状态部件42实现将在图4中进一步说明其细节的状态机。图3更详细地说明了局部语音检测部件。
现在参照图2,以下将说明自适应阈值更新部件38。本发明的最佳实施方式对各频带采用3个不同阈值。因此,在所示实施方式中,共有6个阈值。通过考虑波形图以及其有关论述,各阈值的目的将变得更加显而易见。对各能量频带,确定3个阈值:Threshold,WThreshold和SThreshold。第一阈值Threshold为用于检测语音开始的基本阈值。WThreshold为用于检测语音结束的弱阈值。SThreshold为用于评估语音检测判定之有效性的强阈值。以上阈值的更正式的定义为:
Threshold=Noise_Level+Offset
WThreshold=Noise_Level+Offset*R1;(R1=0.2..1,这里最好为0.5)
SThreshold=Noise_Level+Offset*R2;(R2=1..4,这里最好为2)
其中:
Noise_Level为长期平均值,即直方图中所有过去的输入能量的最大值。
Offset=Noise_Level*R3+Variance*R4;(R3=0.2..1,这里最好为0.5;R4=2..4,这里最好为4).
Variance为短期方差,即M个刚刚过去的输入帧的方差。
图6表示叠加在某个典型信号上的3个阈值之间的关系。请注意,SThreshold高于Threshold,而WThreshold通常低于Threshold。以上阈值以噪声电平为基础,利用直方图数据结构确定输入信号的讲话前的无声部分中包含的所有过去输入的能量的最大值。图5表示叠加在某个波形上的典型直方图,该波形表示典型噪声电平。该直方图记录讲话前无声部分包含预定噪声电平能量的次数的“计数”。从而直方图作为能量电平的函数(在x轴上)绘制计数(在y轴上)。请注意,在图5所示的示例中,最普通的(最大计数)噪声电平能量具有能量值Ea。值Ea将与预定噪声电平能量相对应。
直方图(图5)中记录的噪声电平能量数据是从输入信号的讲话前的无声部分中抽取的。关于这一点,假设提供输入信号的音频通道是有效的,并且在实际讲话开始之前向语音检测系统发送数据。因此,在讲话前的无声部分,系统正在对环境噪声电平本身的能量特征进行有效采样。
本发明的最佳实施方式采用固定尺寸的直方图,以便降低计算机存储需求。正确配置直方图数据结构能够提供精度估计要求(意味着小的直方图步长)与宽阔动态范围(意味着大的直方图步长)之间的折衷。为了解决精度估计(小的直方图步长)与宽阔动态范围(大的直方图步长)之间的冲突,本系统根据实际操作环境,自适应地调整直方图步长。以下伪码说明了在调整直方图步长大小时所采用的算法,其中M为步长大小(表示各直方图步长中能量值的范围)。
自适应直方图步长的伪码
在初始化步骤之后:
计算缓冲区内过去各帧的平均值
M=前一所述平均值的十分之一
If(M<MIN_HISTOGRAM_STEP)
M=MIN_HISTOGRAM_STEP
End
请注意,在上述伪码中,根据开始时在初始化步骤中放入缓冲区的假设无声部分的平均值,修改直方图步长M。这里,假设所述平均值能够表现实际背景的噪声环境。请注意,直方图步长以MIN_HISTOGRAM_STEP为下界。此后,固定直方图步长。
通过为各帧插入一个新值来更新直方图。为了适应缓慢变化的背景噪声,每10帧引入一个遗忘因子(在本实施方式中为0.90)。
用于更新直方图的伪码
If(value<HISTOGRAM_SIZE*M)
{
  //利用遗忘因子更新直方图
  if(frame_in_histogram%10==0)
  {
    for(I=0;I<HISTOGRAM_SIZE;I++)
    histogram[I]*=HISTOGRAM_FORGETTING_FACTOR;
  }
  //通过插入新值更新直方图
  histogram[value+M/2)/M]+=1;
  histogram[value-M/2)M}+=1;
}
现在参照图2,图2表示自适应阈值更新机制的基本框图。该框图表示部件38和40(图1)所执行的操作。在更新缓冲器50中存储短期(当前数据)能量,部件52按上述方式使用该能量以便更新直方图数据结构。
随后,由部件54检查更新缓冲器,部件54计算缓冲器50中所存储的刚刚过去的若干数据帧的方差。
期间,部件56确定该直方图内的最大能量值(即图5中的值Ea),并将该值提供给阈值更新部件58。阈值更新部件利用以上最大能量值以及来自部件54的统计数据(方差)修改主要阈值Threshold。如上所述,Threshold等于噪声电平与预定偏移量之和。偏移量以利用直方图中的最大值所确定的噪声电平和部件54所提供的方差为基础。按照上面所列方程,根据Threshold计算剩余阈值,即WThreshold和SThreshold。
在正常操作中,通常经过跟踪讲话前的信号部分内的噪声电平,自适应调整阈值。图12说明以上概念。在图12中,100表示讲话前的信号部分,200表示开始讲话。已经将Threshold电平叠加到该波形中。请注意,以上阈值电平跟踪讲话前的信号部分内的噪声电平,外加一个偏移量。因此,应用于某个给定讲话范围的Threshold(以及SThreshold和WThreshold)为以下阈值,即刚开始讲话前的实际阈值。
现在回到图1,以下将说明语音状态检测和局部语音检测部件42和44。根据当前帧以及当前帧后面的某几帧进行有语音/无语音判定,而不是根据某个数据帧进行判定。就检测语音开始而言,考虑当前帧后面的附加帧(超前)避免了出现短暂但却是强噪声脉冲时,如电脉冲,的错误检测。就检测语音结束而言,帧超前防止连续语音信号中的暂停或短暂无声造成的语音结束的错误检测。通过在更新缓冲器50(图2)中缓冲数据并采用以下伪码所描述的处理,实现以上延迟判定或超前策略。
语音开始测试:
  开始延迟判定=FALSE
  Loop M个顺序帧(M=3;30ms)
    If Energy_All>Threshold或Energy_HPF>Threshold
      Then开始延迟判定=TRUE
语音结束测试:
  结束延迟判定=FALSE
  Loop N个顺序帧(N=30;300ms)
    If Energy_All<Threshold与Energy_HPF<Threshold
      Then结束延迟判定=TRUE
  End of Loop
参见图7,图7表示语音开始测试中30ms的延迟是如何避免错误检测超过阈值的噪声峰值110的。同时参见图8,图8表示语音结束测试中300ms的延迟是如何防止语音信号中的短暂暂停120触发语音结束状态的。
上述伪码设置了两个标记,开始延迟判定标记和结束延迟判定标记。图4所示的语音信号状态机使用以上标记。请注意,语音开始使用30ms的延迟,相当于3帧(M=3)。通常该延迟足以筛去由于短暂噪声峰值而造成的错误检测。语音结束使用较长的延迟,相当于300ms,业已证明该延迟足以处理连续语音中的出现的正常暂停。300ms延迟相当于30帧(N=30)。为了避免语音信号消波或削波而造成的误差,可以根据检测的语音开始与语音结束的语音部分,利用附加帧填充以上数据。
语音开始检测算法假设讲话前存在至少某个指定的最小长度的无声部分。实际上,某些时候以上假设可能无效,如由于信号漏失或电路切换突变而消波输入信号,从而缩短或消除假定的“无声段”。当出现以上情况时,可能会错误更新阈值,这是由于该阈值是以噪声电平能量为基础,利用无语音信号估计的。此外,当消波输入信号,从而该信号不包含无声段时,语音检测系统可能不能识别该输入信号包含语音,或许丢失输入阶段的语音,从而使随后的语音处理无效。
为了避免局部语音状态,采用图3所示的或非策略。图3表示局部语音检测部件44(图1)所采用的机制。局部语音检测机制通过监视阈值(Threshold)确定自适应阈值电平是否存在瞬时跳变而起作用。跳变检测部件60首先通过累加表示一连串帧的阈值变化的某个值,完成以上分析。产生累加阈值变化Δ的部件62完成该步处理。在部件64,比较累加阈值变化Δ与某个预定绝对值Athrd,并且根据Δ是否大于Athrd,经由分支66或分支68继续该处理。如果Δ小于Athrd,就激活部件70(否则,激活部件72)。部件70和72保持独立平均阈值。部件70保持并更新阈值T1,T1表示所测跳变之前的阈值,部件72保持并更新阈值T2,T2表示跳变之后的阈值。随后在部件74,将两个阈值之比率(T1/T2)与第三阈值Rthrd进行比较。如果以上比率大于第三阈值,则设置ValidSpeech(有效语音)标记。图4的语音信号状态机使用ValidSpeech标记。
图9A和9B表示运转中的部分语音检测机制。图9A表示采取Yes分支68(图3)的状态,而图9B表示采取No分支66的状态。参照图9A,请注意,从150到160存在阈值跳变。在所示示例中,该跳变大于绝对值Athrd。在图9B中,从152到162的阈值跳变表示并不大于Athrd的跳变。在图9A和9B中,虚线170表示跳变位置。T1表示跳变位置之前的平均阈值,T2表示跳变位置后的平均阈值。随后比较比率T1/T2与比率阈值Rthrd(图3中框74)。按下述方式,仅从讲话前范围内的杂散噪声中区分ValidSpeech。如果阈值跳变小于Athrd,或者比率T1/T2小于Rthrd,就将引起阈值跳变的信号识别为噪声。另一方面,如果比率T1/T2大于Rthrd,就将引起阈值跳变的信号看作部分语音,但不用来更新阈值。
现在参照图4,300表示的语音信号状态机启动初始化状态310。随后转到无声状态320,语音信号状态机保持在无声状态320直到在无声状态执行的步骤确定要转到语音状态330。一旦进入语音状态330,当满足某些条件时,如语音状态框330所示步骤所指示的那样,状态机将转回到无声状态320。
在初始化状态310,在缓冲器50(图2)中存储数据帧,并且更新直方图步长的大小。我们记得最佳实施方式利用额定步长大小M=20开始运行。根据上面提供的伪码所述,在初始化状态期间可以修改步长的大小。此外,在初始化状态期间,初始化直方图数据结构,以便删除早期操作的所有预先存储数据。执行完这些步骤后,状态机转到无声状态320。
在无声状态内,比较各受限频带短期能量值与基础阈值Threshold。如上所述,各信号路径具有其特有的阈值集。在图4中,Threshold_All表示适用于信号路径26(图1)的阈值,而Threshold_HPF表示适用于信号路径28的阈值。对于语音状态330中采用的其他阈值,使用类似名称。
如果任一短期能量值超过其本身的阈值,就测试开始延迟判定标记。如上所述,如果已经将该标记设置为TRUE,就返回语音开始消息,并且状态机转到语音状态330。反之,状态机保持无声状态,并且更新直方图数据结构。
本发明之最佳实施方式利用遗忘因子0.99更新直方图,以使非当前数据的影响随时间推移消失。通过在累加与当前帧能量有关的Count(计数)数据之前用0.99乘直方图中的现有数据,完成以上处理。这样,历史数据的影响随时间推移逐渐消失。
沿类似路径继续语音状态330内的处理,尽管使用不同的阈值集。语音状态把信号路径26和28内的有关能量同WThreshold比较。如果任一信号路径大于WThreshold,则与SThreshold进行类似比较。如果任一信号路径中的能量大于SThreshold,则将ValidSpeech标记设置为TRUE。在随后的比较步骤中使用该标记。
如上所述,如果预先将结束延迟判定标记设置为TRUE,并且如果已经将ValidSpeech标记设置为TRUE,则返回结束语音消息,并且状态机返回到无声状态320。另一方面,如果并未将ValidSpeech标记设置为TRUE,则发送消息以便取消前述语音检测,并且状态机返回到无声状态320。
图10和图11表示不同电平如何影响状态机的操作。图10比较两条路径,即全频频带Band_All和高频频带Band_HPF,的并发操作。请注意,由于信号波形包含不同的频谱,所以其信号波形不同。在所示示例中,识别为被检测语音的最终范围对应于b1处阈值与全频频带相交所产生的语音开始,而语音结束对应于高频频带在e2处的相交点。当然,根据图4所描述的算法,不同输入波形将产生不同结果。
图11表示在出现强噪声电平时,如何使用强阈值SThreshold来证实存在ValidSpeech。如图所示,区域R表示低于SThreshold的强噪声,该区域对应于将ValidSpeech标记设置为FALSE的区域。
根据上述说明可以理解,本发明提供一种检测输入信号内语音开始和语音结束的系统,解决了用户在噪声环境中应用时遇到的许多问题。尽管以本发明之最佳实施方式说明了本发明,然而可以理解的是,在不背离权利要求书所规定之发明实质下,可以对本发明作某些修改。

Claims (16)

1.用于检测输入信号以确定有无语音信号的语音检测系统,该系统包括:
一个频带分裂器,用于将所述输入信号分裂为若干频带,各频带表示与不同频率范围相对应的限带信号能量;
一个能量比较系统,用于把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及
一个与所述能量比较系统相连的语音信号状态机,该状态机完成以下切换:
(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,从无语音状态切换到有语音状态,以及
(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,从有语音状态切换到无语音状态。
2.权利要求1的系统还包括自适应阈值更新系统,该系统采用直方图数据结构累加表示至少一个所述频带内的能量的历史数据。
3.权利要求1的系统还包括一个与各所述频带有关的独立的自适应阈值更新系统。
4.权利要求1的系统还包括根据各所述频带内的能量均值和方差,修改所述若干阈值的自适应阈值更新系统。
5.权利要求1的系统还包括对至少一个所述若干阈值的变化率的预定跳变敏感的局部语音检测系统,如果所述跳变之前与所述跳变之后的所述某个阈值的平均值的比率超过某个预定值,所述局部语音检测系统就阻止所述状态机切换到有语音状态。
6.权利要求1的系统还包括定义以下阈值的多阈值系统:
第一阈值为噪声基数上的预定偏移;
第二阈值为所述第一阈值的预定百分比,所述第二阈值小于所述第一阈值;以及
第三阈值为所述第一阈值的预定倍数,所述第三阈值大于所述第一阈值;以及
其中所述第一阈值控制从所述无语音状态切换到所述有语音状态;以及
其中所述第二和第三阈值控制从所述有语音状态切换到所述无语音状态。
7.权利要求6的系统,其中如果至少一个所述频带的限带信号能量低于所述第二阈值并且如果至少一个所述频带的限带信号能量低于所述第三阈值,所述状态机就从所述有语音状态切换到所述无语音状态。
8.权利要求1的系统还包括延迟判定缓冲器,该缓冲器存储代表所述输入信号的预定时间增量的数据,并且如果至少一个所述若干频带的限带信号能量不超过至少一个整个所述预定时间增量期间的阈值,该缓冲器就阻止状态机从所述无语音状态切换到所述有语音状态。
9.确定输入信号内有无语音信号的方法,该方法包括以下步骤:
将所述输入信号分裂为若干频带,各频带表示与不同频率范围相对应的限带信号能量;
把所述若干频带的限带信号能量同若干阈值比较,从而把各频带同至少一个与该频带有关的阈值比较;以及
确定:
(a)当至少一个所述频带的限带信号能量高于至少一个与该频带有关的阈值时,存在有语音状态,以及
(b)当至少一个所述频带的限带信号能量低于至少一个与该频带有关的阈值时,为无语音状态。
10权利要求9的方法还包括利用直方图累加表示至少一个所述频带内的能量的历史数据,以定义至少一个所述若干阈值。
11.权利要求9的方法还包括分别对各所述频带自适应更新至少一个所述若干阈值。
12.权利要求9的方法还包括根据各所述频带内的能量均值和方差,修改所述若干阈值。
13.权利要求9的方法还包括检测至少一个所述若干阈值的变化率的预定跳变,并且如果所述跳变之前的与所述跳变之后的所述某个阈值的平均值的比率超过某个预定值,就确定不存在所述有语音状态。
14.权利要求9的方法还包括定义以下阈值:
第一阈值为噪声基数上的预定偏移;
第二阈值为所述第一阈值的预定百分比,所述第二阈值小于所述第一阈值;以及
第三阈值为所述第一阈值的预定倍数,所述第三阈值大于所述第一阈值;以及
根据所述第一阈值确定存在所述有语音状态;以及
根据所述第二和第三阈值确定存在所述无语音状态。
15.权利要求14的方法,其中如果至少一个所述频带的限带信号能量降到所述阈值以下,则确定存在所述无语音状态,并且其中尽管至少一个所述频带的限带信号能量超过所述第一阈值,仍确定存在所述无语音状态,除非超出的频带的限带信号能量在降到所述第二阈值以下之前也超过所述第三阈值。
16.权利要求9的方法还包括如果至少一个所述若干频带的限带信号能量在整个预定时间增量期间不超过至少一个阈值,就确定不存在所述有语音状态。
CN99104095A 1998-03-24 1999-03-23 用于噪声环境的语音检测系统 Expired - Fee Related CN1113306C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US047,276 1998-03-24
US09/047,276 US6480823B1 (en) 1998-03-24 1998-03-24 Speech detection for noisy conditions
US047276 1998-03-24

Publications (2)

Publication Number Publication Date
CN1242553A CN1242553A (zh) 2000-01-26
CN1113306C true CN1113306C (zh) 2003-07-02

Family

ID=21948048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99104095A Expired - Fee Related CN1113306C (zh) 1998-03-24 1999-03-23 用于噪声环境的语音检测系统

Country Status (9)

Country Link
US (1) US6480823B1 (zh)
EP (1) EP0945854B1 (zh)
JP (1) JPH11327582A (zh)
KR (1) KR100330478B1 (zh)
CN (1) CN1113306C (zh)
AT (1) ATE267443T1 (zh)
DE (1) DE69917361T2 (zh)
ES (1) ES2221312T3 (zh)
TW (1) TW436759B (zh)

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
WO2002089458A1 (en) * 2001-04-30 2002-11-07 Octave Communications, Inc. Audio conference platform with dynamic speech detection threshold
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7277585B2 (en) * 2001-05-25 2007-10-02 Ricoh Company, Ltd. Image encoding method, image encoding apparatus and storage medium
JP2003087547A (ja) * 2001-09-12 2003-03-20 Ricoh Co Ltd 画像処理装置
US6901363B2 (en) * 2001-10-18 2005-05-31 Siemens Corporate Research, Inc. Method of denoising signal mixtures
US7299173B2 (en) 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
EP1654728A1 (en) * 2003-08-01 2006-05-10 Philips Intellectual Property & Standards GmbH Method for driving a dialog system
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7278092B2 (en) * 2004-04-28 2007-10-02 Amplify, Llc System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources
JP4483468B2 (ja) * 2004-08-02 2010-06-16 ソニー株式会社 ノイズ低減回路、電子機器、ノイズ低減方法
US7457747B2 (en) * 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US7545435B2 (en) * 2004-10-15 2009-06-09 Lifesize Communications, Inc. Automatic backlight compensation and exposure control
US8149739B2 (en) * 2004-10-15 2012-04-03 Lifesize Communications, Inc. Background call validation
US20060106929A1 (en) * 2004-10-15 2006-05-18 Kenoyer Michael L Network conference communications
US7692683B2 (en) * 2004-10-15 2010-04-06 Lifesize Communications, Inc. Video conferencing system transcoder
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20060248210A1 (en) * 2005-05-02 2006-11-02 Lifesize Communications, Inc. Controlling video display mode in a video conferencing system
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7664635B2 (en) * 2005-09-08 2010-02-16 Gables Engineering, Inc. Adaptive voice detection method and system
GB0519051D0 (en) * 2005-09-19 2005-10-26 Nokia Corp Search algorithm
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
KR100800873B1 (ko) * 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8319814B2 (en) 2007-06-22 2012-11-27 Lifesize Communications, Inc. Video conferencing system which allows endpoints to perform continuous presence layout selection
US8139100B2 (en) 2007-07-13 2012-03-20 Lifesize Communications, Inc. Virtual multiway scaler compensation
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
US9661267B2 (en) * 2007-09-20 2017-05-23 Lifesize, Inc. Videoconferencing system discovery
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR20110023878A (ko) * 2008-06-09 2011-03-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US8514265B2 (en) 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
US20100110160A1 (en) * 2008-10-30 2010-05-06 Brandt Matthew K Videoconferencing Community with Live Images
EP2359361B1 (en) * 2008-10-30 2018-07-04 Telefonaktiebolaget LM Ericsson (publ) Telephony content signal discrimination
SG174207A1 (en) * 2009-03-03 2011-10-28 Agency Science Tech & Res Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal
US8643695B2 (en) * 2009-03-04 2014-02-04 Lifesize Communications, Inc. Videoconferencing endpoint extension
US8456510B2 (en) * 2009-03-04 2013-06-04 Lifesize Communications, Inc. Virtual distributed multipoint control unit
WO2010106734A1 (ja) * 2009-03-18 2010-09-23 日本電気株式会社 音声信号処理装置
US8305421B2 (en) * 2009-06-29 2012-11-06 Lifesize Communications, Inc. Automatic determination of a configuration for a conference
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
US8350891B2 (en) * 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
PT3493205T (pt) 2010-12-24 2021-02-03 Huawei Tech Co Ltd Método e aparelho para detetar de forma adaptativa uma atividade de voz num sinal de áudio de entrada
WO2012083554A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. A method and an apparatus for performing a voice activity detection
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
CN103455021B (zh) * 2012-05-31 2016-08-24 科域半导体有限公司 改变检测系统和方法
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
CN103413554B (zh) * 2013-08-27 2016-02-03 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
JP6045511B2 (ja) * 2014-01-08 2016-12-14 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US10573304B2 (en) * 2015-05-26 2020-02-25 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
EP3545691B1 (en) * 2017-01-04 2021-11-17 Harman Becker Automotive Systems GmbH Far field sound capturing
WO2019061055A1 (zh) * 2017-09-27 2019-04-04 深圳传音通讯有限公司 电子设备的测试方法及系统
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
US10948581B2 (en) * 2018-05-30 2021-03-16 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
US10928502B2 (en) * 2018-05-30 2021-02-23 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
CN108962249B (zh) * 2018-08-21 2023-03-31 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质
CN112687273B (zh) * 2020-12-26 2024-04-16 科大讯飞股份有限公司 一种语音转写方法及装置
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4032711A (en) 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
USRE32172E (en) 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
FR2502370A1 (fr) 1981-03-18 1982-09-24 Trt Telecom Radio Electr Dispositif de reduction du bruit dans un signal de parole mele de bruit
US4410763A (en) 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
FR2535854A1 (fr) 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4627091A (en) 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
CA1227573A (en) * 1984-06-08 1987-09-29 David Spalding Adaptive speech detector system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4815136A (en) 1986-11-06 1989-03-21 American Telephone And Telegraph Company Voiceband signal classification
JPH01169499A (ja) 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5222147A (en) 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5305422A (en) 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus

Also Published As

Publication number Publication date
EP0945854A2 (en) 1999-09-29
TW436759B (en) 2001-05-28
EP0945854A3 (en) 1999-12-29
ES2221312T3 (es) 2004-12-16
US6480823B1 (en) 2002-11-12
JPH11327582A (ja) 1999-11-26
ATE267443T1 (de) 2004-06-15
DE69917361T2 (de) 2005-06-02
KR100330478B1 (ko) 2002-04-01
KR19990077910A (ko) 1999-10-25
EP0945854B1 (en) 2004-05-19
DE69917361D1 (de) 2004-06-24
CN1242553A (zh) 2000-01-26

Similar Documents

Publication Publication Date Title
CN1113306C (zh) 用于噪声环境的语音检测系统
CA2575632C (en) Speech end-pointer
US8311819B2 (en) System for detecting speech with background voice estimates and noise estimates
CN1257486C (zh) 用于将可感知相关信息保留在音频信号中的方法和设备
CN1254433A (zh) 用于语音解码器的高分辨率后处理方法
CN1912993A (zh) 基于能量及谐波的语音端点检测方法
EP1775719A2 (en) Minimization of transient noises in a voice signal
CN1727860A (zh) 增益受限的噪音抑制
CN105118502A (zh) 语音识别系统的端点检测方法及系统
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN1530928A (zh) 抑制风噪声的系统
CN1530929A (zh) 抑制风噪声的系统
CN1808570A (zh) 抑制雨噪声的系统
CN1210685C (zh) 语音编码中噪音鲁棒分类方法
CN1841500A (zh) 一种基于自适应非线性谱减的抗噪方法和装置
CN1046366C (zh) 静态和非静态信号的鉴别
CN1949364A (zh) 检测输入语音信号可识别度的系统与方法
JP4736632B2 (ja) ボーカル・フライ検出装置及びコンピュータプログラム
EP2257034B1 (en) Measuring double talk performance
US6757651B2 (en) Speech detection system and method
CN1513278A (zh) 使用声学传感器和非声学传感器检测有声和无声语音
US8392197B2 (en) Speaker speed conversion system, method for same, and speed conversion device
CN1754204A (zh) 低频带噪声检测
CN1064159C (zh) 语音检测装置
Kabal et al. Adaptive postfiltering for enhancement of noisy speech in the frequency domain

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee