CN1174623A

CN1174623A - 声音活动检测

Info

Publication number: CN1174623A
Application number: CN96191952A
Authority: CN
Inventors: J·A·布里奇斯
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1995-02-15
Filing date: 1996-02-15
Publication date: 1998-02-25
Also published as: AU707896B2; FI973329A0; US5978763A; KR19980701943A; NO973756L; NO973756D0; EP0809841A1; AU4672196A; MX9706033A; ES2157420T3; EP0809841B1; HK1005520A1; FI973329A; WO1996025733A1; DE69612480D1; NZ301329A; DE69612480T2; CA2212658C; JPH11500277A; CA2212658A1

Abstract

一种声音活动检测器(26),该检测器包括一个用于接收从语音系统(2)传送到用户的流出语音信号的输入和一个用于接收来自用户的流入信号的输入。流出和流入信号两者都被划分成时间有限的帧。装置(263)被提供用来根据流入信号的每一帧来计算一个特征值,并产生一个关于计算所得特征值和一个阈值的函数。基于该函数,(可)判定流入信号是否包括语音。装置被提供用来判定在交互式语音系统流出语音信号期间的回声回输损失,并依赖于测量到的回声回输损失来控制阈值。

Description

声音活动检测

该发明涉及声音活动检测。

有许多依赖于语音检测来运行的自动化系统。例如，自动语音系统和蜂窝无线编码系统。这些系统为了检测到语音发生而监听始于用户设备的传输路线，并且在语音发生时采取适当的行动。不幸的是，传输路线极少没有噪声。如果路线上有噪声存在，被安排在路线上仅用来检测声音活动的系统可能会因此不正确地采取行动。

通常出现的噪声是线路噪声(即，出现的噪声与是否有信号正在被传输无关)和电话对话中的背景噪声，例如狗叫声，电视的声音，汽车发动机噪声等等。

在通信系统中的另一噪声源是回声。例如，在公共交换电话网(PSTN)中的回声基本上由电和/或声耦合造成，例如，在传统的交换盒的四线到两线的接口处；或在电话听筒中，从耳朵部位到麦克风的声偶。在一次呼叫过程中，由于空气路径的变化，声学回声是时变的。也就是说，说话者变换他们的头在麦克风和扬声器之间的位置。同样的，在电话亭里，电话亭内部具有一种有限的阻尼特性并且是回响的，这造成共振效果。另外，如果说话者在电话亭周围移动或者确实有任何空气运动，这又会造成声学回声路径变化。由于免提电话的增加使用，声学回声这时成为一个更重要的问题。总的回声或反射路径的影响是衰减、延迟和滤波信号。

回声路径依赖于线路、交换路由和电话类型。这意味着，正象于不同的开关设备将被选取用来建立连接一样，由于线路、交换路由和电话听筒中的任何一个会在一次呼叫和另一次呼叫间改变，因而反射路径的传递函数会在呼叫间变化。

已知有多种用来在人-人语音通信系统中改进回声控制的技术。其中有三种主要的技术。第一，插入损耗可被加入到说话者的传输路线以降低输出信号的电平。然而，插入损耗会造成接收到的信号对于听者来说，变得无法容忍地低。另一种方法是基于这样一种原理运行的回声抑制器，这种原理是在发送和接收路线上检测信号电平，然后比较电平来决定怎样操作可变换的插入损耗器。当在接收路线上检测到语音时，在发送路线上加上一个高的衰减。回声抑制器通常用于长延迟连接，例如，国际电话连接，其中适当的、固定的插入损耗是不够的。

回声消除器是声音操作的设备，它利用自适应信号处理，通过估计一个回声路径的传递函数来减小或消除回声。输出信号被送入该设备，产生的输出信号被从接收到的信号中减去。如果模型代表了真实的回声路径，理论上，回声应该被消除。然而，回声消除器在稳定性问题上有缺点，而且需要大量的计算。在训练过程中，回声消除器对噪声冲击也非常敏感。

自动语音系统的一个例子是电话应答机，它记录呼叫者留下的信息。通常，当用户呼叫自动语音系统时，用户会被给予提示，该提示通常要求回答。因此，来自语音系统的流出信号被沿着传输线传送到用户电话的扬声器。于是用户对提示作出响应，该响应被传送到语音系统，语音系统于是采取适当的行动。

允许自动语音系统的呼叫者打断来自该系统的流出提示对于那些熟悉该系统对话的呼叫者会大大增强系统的可用性这一点已经被提议。这种便利通常被称做“闯入”或“可超速指引”。

如果用户在提示期间说话，说出的字可能会被流出提示的回声居前或破坏。来自用户的本来孤立的、无噪声的词汇发音被转换成为嵌入词汇的发音(其中，该词汇字掺有附加的声音)。在涉及自动语音识别的自动语音系统中，由于现有语音识别技术的限制，这造成了识别性能的减弱。

如果一个用户从来没有使用过自动语音系统提供的服务，该用户将需要听语音生成器提供的全部的提示。然而，一旦用户已经熟悉了该服务和每一阶段要求的信息，用户会希望在提示完成之前给出所需的响应。如果语音识别器或录音装置在提示完成之前一直关闭，(系统)不会作出任何尝试来识别用户的提早响应。如果，另一方面，语音识别器和录音装置一直打开，输入信号将既包括流出提示的回声又包括用户给出的响应两者。这样的信号将不可能被语音识别器识别。声音活动检测器(VADS)因此被开发来在线路上检测声音活动。

已知的声音活动检测器依赖于产生流入信号中噪声的估计值，并将流入信号与在非语音期间固定不变或变化的估计值相比较。这样一种声音激励系统的例子在美国专利No5155760和美国专利No4410763中被描述。

声音活动检测器被用来检测流入信号中的语音并当该语音被检测到时，用来打断流出提示和打开识别器。用户将听到一个省略的提示。如果用户强行加入，这是令人满意的。然而如果声音活动检测器不正确地检测到语音，用户将听到一个省略的提示，并且没有怎样继续系统的指令，显然，这是不希望的。

该发明提供了一种与语音系统一起使用的声音活动检测器，该声音活动检测器包括一个用于接收从一个语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端，流出和流入信号两者都被划分成时间有限的帧；用于根据流入信号的每一帧计算一个特征值的装置；用于生成一个关于计算所得的特征值和一个阈值的函数，并基于该函数，判定流入信号是否包括语音的装置。其特征在于该装置被提供用来判定在交互式语音系统流出语音信号期间的回声回输损失，并用于控制依赖于测量到的回声回输损失的阈值。

回声回输损失由流出信号的电平和声音活动检测器接收到的流出信号的回声电平的差值得出。回声回输损失是传输路径对流出提示衰减的一个测量值。

在测量到的回声回输损失基础上控制阈值不仅降低了由于回声造成的声音活动检测器的错误触发的次数，而且可以减少当用户通过具有大量回声的线路作出响应时，声音活动检测器触发的次数。尽管这可能显得令人讨厌，但是应该理解的是，对于声音活动检测器，当用户闯入时不触发优于当用户不闯入时触发，不闯入时触发将给用户一个省略的提示并不再有另外的帮助。

阈值可能是回声回输损失和流出信号最大可能功率的函数，两者都是线路的长时特性(尽管回声回输损失可以时常加以测量)。阈值最好是最大功率和回声回输损失之间的差值。可能更好的是，阈值是回声回输损失和根据流出语音信号的每一帧计算得到的特征值的函数(即，阈值表示流出信号每一帧的衰减)。

计算得到的特征值最好是每一帧信号的平均功率，尽管其他特征值，例如帧能量可能被使用。不只一个流入信号的特征值可被计算出，并可生成各种函数。

声音活动检测器可以进一步包括涉及统计模型的数据，该统计模型表示至少一个包括基本无噪声语音和噪声信号的信号的计算所得特征值，计算所得特征值和阈值的函数被拿来与该统计模型比较。噪声信号统计模型可以表示线路噪声和/或典型背景噪声和/或输出信号的回声。

依照该发明，这里也提供了一种声音活动检测的方法，该方法包括接收从一个语音系统传送到用户的流出语音信号和接收来自用户的流入信号，流出和流入信号两者都被划分成时间有限的帧，根据流入信号的每一帧来计算一个特征值，生成一个关于计算所得特征值和一个阈值的函数，基于该函数，判定流入信号是否包括语音，其特征在于测量在语音系统流出语音信号期间的回声回输损失，并控制依赖于测量到的回声回输损失的阈值。

阈值最好是回声回输损失和流出信号最大可能功率的函数。如同上面提到的，阈值可以是回声回输损失和根据一帧流出语音信号计算所得的相同特征值的函数。计算所得的特征值可以是信号每一帧的平均功率。

通过例子并参考附图，该发明将被进一步描述，在附图中：

图1表示一个包括根据该发明的声音活动检测器的自动语音系统，

图2表示根据该发明一个声音活动检测器的组成部件。

图1给出了一个自动语音系统2，它包括一个根据该发明的声音活动检测器，该检测器通过公共交换电话网连到一个通常是电话4的用户终端。自动语音系统最好位于网络中的交换处。自动语音系统通过流出线8和流入线10被连到一个混合变换器，用户电话通过双向线12连到混合变换器处。

PSTN中的回声主要由电和/或声耦合造成，例如，在混合变换器6处的四线到两线接口(由箭头7表示)。电话4的电话听筒中从耳朵部位到麦克风的声耦合造成回声(由箭头9表示)。

自动语音系统2包括一个语音生成器22，一个语音识别器24和一个声音活动检测器(VAD)26。语音生成器22和语音识别器24的类型将不被进一步讨论，因为这并不构成该发明的一部分。该领域内的技术人员都清楚，任何适当的语音生成器，例如那些使用文本到语音技术或预录音信息的生成器都可以被使用。此外，任何适当类型的识别器24都可以被使用。

在使用中，当用户呼叫自动语音系统时，语音生成器22产生给用户一个提示，该提示通常要求回答。这样，语音系统的流出语音信号被沿着传输线8传送到混合变换器6，该变换器将信号切换到用户电话4的扬声器。在提示结束时，用户给出一个响应，该响应通过混合变换器6和流入线10被传送到语音识别器24。语音识别器则尝试识别该响应并相应于识别结果采取适当的行动。

如果用户从来没有使用过自动语音系统提供的服务，用户将需要听到语音生成器22提供的提示的全部。然而，一旦用户已经熟悉了该服务及每一阶段所要求的信息，用户将希望在提示结束之前给出所需的响应。如果语音识别器24在提示结束之前一直关闭，(系统)将不会作出任何尝试来识别用户的过早响应。如果，另一方面，语音识别器24一直打开，语音识别器的输入将包括流出提示的回声和用户给出的响应两者。这样的信号将不可能被语音识别器的识别。

声音活动检测器26被提供来检测流入信号中的直接语音(即，来自用户的语音〕。语音识别器24在语音被声音活动检测器26检测到之前一直保持不活动的模式。声音活动检测器26的输出信号传送到语音生成器22，该生成器于是被中断(因此缩减提示)，相应地，语音识别器的24被激活。

图2更详细的表示了该发明的声音活动检测器26。声音活动检测器26包括一个输入端260用来接收来自语音生成器22的流出提示信号和一个输入端261用来接收通过流入线10接收到的信号。对于每一个信号，声音活动检测器包括一个帧顺序器，它将流入信号划分为包含256个连续样本的数据帧。由于语音能量在15毫秒之内相对不变，在相邻帧之间，32毫秒的帧最好有16毫秒的重叠。这使得VAD抗脉冲噪声性能增强。

之后，数据帧被传送到特征生成器263，该生成器计算每一帧的平均功率。信号帧的平均功率由下面公式确定。对数平均帧功率

P_{av} = 10 lo g_{10} \frac{Σ_{n = 1}^{N} f_{n} {(t)}^{2}}{N}

其中，N是一帧中的样本数，这种情况下是256。

回声回输损失是衰减的一个测量，即，流出和反射的信号之间的差值(分贝)。回声回输损失(ERL)是为流出提示计算的特征值和返回回声之间的差值，即

其中N是在其上计算平均功率Pi的样本的数目。N应该与实际可行的N一样大。

如同能从图2中看到的一样，回声回输损失通过从流入回声的一帧的平均功率中减去流出提示的一帧的平均功率来确定。这是通过用来自系统的提示，例如一个欢迎提示，激励传输路径8，10来完成的。然后，流出提示和返回回声的信号电平象上面描述的那样被帧顺序器262和特征生成器263计算。产生的信号电平被减法器264减去以形成回声回输损失。

然后减法器265为传输路径从最大可能功率中将回声回输损失减去。即，减法器265计算阈值信号：

阈值＝最大可能功率-回声回输损失

尽管范围大约是在6-30db，典型的回声回输损失近似是12db。对于一个A-律信号，电话线上的最大可能功率是72db左右。

尽管更多或更少的帧可以被使用，ERL由流出提示的大约前50的帧来计算。

一旦ERL已经被计算出，转换器267被切换到将涉及流入线的数据传送到减法器266。之后，在呼叫的剩余时间里，减法器266将阈值信号从每一帧流入信号的平均功率中减去。这样，减法器266的输出是

Pav｜_流入信号-(最大可能功率-ERL)

减法器266的输出被传送到比较器268，该比较器将此结果与一个阈值比较。如果该结果大于阈值，流入信号被认为包含来自用户的直接语音，并从声音活动检测器输出一个信号来使语音生成器22无效和激活语音识别器的24。如果结果小于阈值，声音活动检测器不输出信号，语音识别器保持为不活动状态。

在该发明的另一个实施例中，减法器266的输出被传送到一个分类器(没有画出〕，该分类器将流入信号分成语音或非语音。这可以通过将减法器266的输出与表示典型语音和非语音的相同特征的统计模型相比较来完成。

在另一个实施例中，阈值信号根据下面公式形成：

(Pav｜_流出提示-ERL)

产生的阈值信号被输入到减法器266来形成结果：

Pav｜_流入信号-(Pav｜_流出提示-ERL)

回声回输损失至少在语音系统的第一个提示的开始被计算。如果需要，回声回输损失可以从单个帧中计算出，因为回声回输损失是逐帧计算的。因此，即使用户几乎立即说话，回声回输损失仍然可能被计算出。

帧顺序器262和特征生成器263已经被描述为声音活动检测器的一个组成部分，该领域的技术人员会很清楚这不是该发明的根本特征，它们中的一个或两个是分离的部件。同样地，没有必要为每一个信号提供一个单独帧顺序器和特征生成器。单个的帧顺序器和特征生成器可能足以由每一个信号生成一个特征值。

Claims

1一种与语音系统一起使用的声音活动检测器，该声音活动检测器包括一个用于接收从语音系统传送到用户的流出语音信号的输入端和一个用于接收来自用户的流入信号的输入端，流出和流入信号两者都被划分成时间有限的帧；用来根据流入信号的每一帧计算一个特征值的装置；用于产生关于计算所得特征值和一个阈值的函数，并基于该函数，判定流入信号是否包括语音的装置，

其特征在于，这些装置被提供用来判定在语音系统流出语音信号期间的回声回输损失，并依赖于测量到的回声回输损失来控制阈值。

2根据权利要求1的声音活动检测器，其特征在于阈值是回声回输损失和流出信号最大可能功率的函数。

3根据权利要求1的声音活动检测器，其特征在于阈值是回声回输损失和根据一帧流出语音信号计算所得特征值的函数。

4根据权利要求1，2，3中任何一个的声音活动检测器，其中计算所得的特征值是每一帧信号的平均功率。

5根据任何一个前面的权利要求的声音活动检测器，进一步包括涉及统计模型的数据，这些统计模型表示至少一个包含基本无噪声语音和噪声信号的信号的计算所得特征值，计算所得特征值和阈值的函数被用来与统计模型比较。

6根据权利要求5的声音活动检测器，其中噪声信号统计模型表示线路噪声，典型背景噪声和/或流出信号的回声。

7一种声音活动检测的方法，该方法包括接收从一个语音系统传送到用户的流出信号和接收来自用户的流入信号，流出和流入信号两者都被划分成时间有限的帧；根据流入信号的每一帧来计算一个特征值；生成一个关于计算所得特征值和一个阈值的函数，并且基于该函数，判定流入信号是否包括语音，

其特征在于测量在语音系统流出语音信号期间的回声回输损失，并依赖于测量到的回声回输损失来控制阈值。

8根据权利要求7的方法，其特征在于阈值是回声回输损失和流出信号最大可能功率的函数。

9根据权利要求7的方法，其特征在于阈值是回声回输损失和根据一帧流出语音信号计算所得的相同特征值的函数。

10根据权利要求7-9中任何一个的方法，其中计算所得的特征值是每一帧信号的平均功率。