CN1462427A

CN1462427A - 估算压缩声频中的信号功率

Info

Publication number: CN1462427A
Application number: CN02801550A
Authority: CN
Inventors: A·斯特拉; J·A·D·尼斯瓦德拉; M·巴比里; F·斯尼德尔
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-11
Filing date: 2002-05-08
Publication date: 2003-12-17
Anticipated expiration: 2022-05-08
Also published as: CN1462426A; US7617095B2; WO2002093552A1; CN100348034C; KR20030015385A; KR100916959B1; US7356464B2; EP1393301B1; ATE438968T1; EP1393301A1; DE60233223D1; EP1393480A2; JP4560269B2; US20040138880A1; DE60217484D1; DE60217484T2; WO2002093801A2; WO2002093801A3; EP1393480B1; CN1612607A

Abstract

提供对压缩声频信号[A]中信号功率的估算，所述声频信号包括量化的样值块，指定块配备有比例因数集。通过从压缩声频信号中提取比例因数集以及根据比例因数组合估算指定块中的信号功率来进行所述估算。有利的是，仅仅对比例因数集的子集执行提取步骤和估算步骤。所述信号功率估算可以用在无声检测器(11)中，后者用于接收器(1)中。

Description

估算压缩声频中的信号功率

本发明涉及估算压缩声频信号中的信号功率。本发明还涉及无声检测和利用这种无声检测的接收器。

WO96/3271公开了用于数字传输的对声频信号进行压缩和去压缩的系统，其中可以对辅助数据进行多路复用、并以可以将其解码的方式利用声频数据对其进行编码并发送。该文件在第159页公开了对最小比例系数值的计算以便在另一声道中查找是否存在声频信号。

本发明的一个目的是提供一种在压缩的声频信号中有利的信号功率估算。为此目的，本发明提供一种估算信号功率的方法和装置、一种无声检测器和接收器，如独立权利要求中定义的。在从属权利要求中定义了有利的实施例。

按照本发明的第一方面，对包含量化样值块的压缩声频信号中的信号功率进行估算，其中，指定块配备有比例系数集。从压缩声频信号中提取比例系数集，并且根据比例系数的组合估算指定块中的信号功率。指定块可以是一个或多个音频帧，或者音频帧的一部分。可以容易地从压缩声频信号中提取比例系数集。本发明基于这样一种见解：比例系数代表着与其有关的样值的最大可能值。比例系数的组合，例如比例系数平方和，给出信号功率的粗略估算，仅需要有限的计算负荷。粗略估算对于某些应用(例如商业广告检测器的无声检测)已足够。

在一个优选实施例中，只使用比例系数的子集。通过仅仅使用比例系数总集中的子集，进一步减小计算负荷。这也许会降低精确度，但是对于某些应用(例如商业广告检测器的无声检测)仍是可以接受的。

可以通过省略时间方向上和/或频率方向上的比例系数来形成比例系数的子集。例如，所述子集可以仅包括压缩声频信号中可用的多个窄带子信号的子集，该子集最好包括许多较低频率子信号的比例系数。

在压缩声频信号是立体声或多声道信号的情况下，只有可用声道的子集可以使用。

通过参考附图，本发明的这些和其他方面将得以阐述，使其一目了然。

附图中：

图1示出根据本发明实施例的接收器；

图2示出示范的声频帧，它包括32个子带，每个子带再分为3块，每一块包括12个量化的并配备有比例系数的样值；

图3示出图2的示范的声频帧，其中为每个子带选择最大比例系数，一种可能的选择用灰色增亮显示；

图4示出一个示范图，其中圆代表检测到的无声的局部信号功率，叉代表这些局部信号功率的平均值；以及

图5示出与图4有关的示范的似然函数。

附图仅示出那些有助于理解本发明实施例的元件。

图1示出根据本发明一个实施例的接收器1，它用于接收压缩声频信号[A]。接收器1包括输入端10，用于获得压缩声频信号[A]。输入端10可以是天线、网络连接、读出装置等。接收器1还包括：无声检测器11，用于检测压缩声频信号中的无声；以及影响块12，用于根据对无声的检测来影响声频信号。块12可以是例如解码器，用来将所述压缩声频信号解码，而所述解码依赖于检测的无声。块12也可以是跳跃处理块，用于根据检测的无声对所述压缩声频的各部分进行跳跃处理。可以增强所述无声检测器11，以便形成商业广告检测器。解码期间可以对检测到的商业广告进行跳跃处理。受影响的声频信号A，无论是解码的还是压缩的，都可输出到输出端13。输出端13可以是网络连接、重放装置或记录装置。压缩的声频信号[A]可以被包含在程序流中，该程序流还包括视频信号。此时，根据在压缩的声频信号中检测到的无声至少可以部分地影响块12中的程序信号。一种有利的应用是仅存储非商业广告内容的存储装置。

将在例如用于商业广告检测的无声检测的范围内描述本发明的实施例。应当指出，EP 1006685 A2公开一种用于处理电视信号并用于检测电视信号中有无商业广告的方法和装置。商业广告侯选段检测器根据静段和场景变化点检测商业广告侯选段。商业广告特征量检测器判断该商业广告候选段是否有各种商业广告特征，并根据判断结果在商业广告特征值上加一预定数值。商业广告特征量检测器将最终的商业广告特征值与预定的阈值相比较，根据比较结果判断该商业广告侯选段是否是商业广告段。静段检测器将数字化的声频信号电平与阈值进行比较以检测静段，并将检测结果输出到场景变化检测器。还可以参阅EP 1087557 A2。

根据本发明的实施例的商业广告检测器自动检测视听流中的商业广告块。这就可以在任何处理中，例如提取关键帧，编辑或重放时跳过商业广告。对于某些声频特征，在滑动窗口上测得局部统计，并与商业广告的统计模型作比较。通过这种比较可以推导出归一化的似然函数，由该函数可知该声频信号局部类似于商业广告的程度。可以适当地触发用于商业广告检测的似然函数。选择统计窗口以便既在局部分析中仔细处理又能抵制局部不规律和波动，这样就不影响检测。该算法对于某些条件、例如可沿着单一流或在一个流和另一个流之间变化的某些条件是自适应的。该算法与视频无关。但也可包括视频分析以增强或扩大分类。该算法可应用于数种存储系统。

许多声频编码器(MPEG-1 Layer-1/2/3，MPEG-2 Layer-1/2/3，MPEG-2AAC，MPEG-4AAC，AC-3)都是频率域编码器。它们将源频谱分成许多窄带子信号，并分别量化各频率分量或样值。根据比例系数并根据位分配对频率分量或样值进行量化。这些比例系数可以被认为是频率分量或样值的最大值的标志。

在AC-3中，频率分量用尾数2^(-指数)表示。此处指数作为每个尾数的比例系数，等于2^(-指数)。

在MPEG-1层2中窄带子信号被分成有12个量化样值的组，每一组具有对应的比例系数。该比例系数对应于与之相关的样值的最大值。

检测算法最好利用比例系数的子集。在窄带子信号的全部或一个子集中，通过将比例系数平方，就可计算出信号功率的上限。

现对利用MPEG声频压缩的实施例作更为详细的说明。在MPEGlayer2中，对于取样速率48kHz，44.1kHz或32kHz，分别将声频信号分为24msec，26.1msec或36msed的时间间隔。在这些间隔的每个间隔中，将信号编码为一个帧。参阅图1，把每个帧的时间间隔分为三部分并且把所述信号分解成32个子带成分。对于每一个子带成分和每一个三分之一帧(图1中的一个长方形)，根据比例系数并且根据适当选择的若干位来量化12个样值。该比例系数给出12个样值绝对值的上限估算。这种估算可能不十分精确，但商业广告检测并不要求十分精确。比例系数可以从每个声频帧中提取，而计算负荷可忽略不计，因为在这些帧中它们作为伪对数指数直接可用。只需要对有限的帧标题解码。不需要去压缩。

在立体声模式中，每个声道有其自己的每帧96个比例系数。检测算法只在左或右的声道的每个子带中选择最大的比例系数(见图2)：32个值被缓冲并转换成线性(不是对数)格式。例如，对于48kHz的取样速率，按标准只用0...26子带：这样每24msec产生27个样值，即1125样值/sec，对于商业广告检测器，这是非常小的输入数据速率。计算缓冲比例系数的平方，求出各子带信号功率的上限。然后如下使用它们：

(1)它们的总和给出总的短时间功率的上限；

(2)可用它们计算短时间带宽估算；

下表列出了MPEG layer中比例系数的几个伪对数指数(见ISO/IEC 11172-3：1993中的表B.1)：

指数	比例系数
指数	比例系数	0	2.0000
1	1.5847	0	2.0000
1	1.5847	2	1.2599
3	1.0000	2	1.2599
3	1.0000	4	0.7937
5	0.6299	4	0.7937

声频帧j的短时间功率的估算以下式表示：帧_功率_j≈∑比例系数² _jj≈∑10^{0.6-0.2指数}

或者也可使用查阅表来找到比例系数。应在给定的时刻对子带数进行求和。当使用子带的子集时，需根据应用对子带总数或所用的子带数进行总和。

无声检测基于关于以下各项的嵌套阈：

1)局部信号功率电平，如上所述，利用例如帧_功率(Framepower)；

2)无声持续时间；

以及至少以下参数之一：

3)无声期中的局部功率线性偏差；

4)无声开始前局部功率下降速率；以及

5)无声结束时局部功率上升速率。

由于信号功率特性与无声检测器的工作环境密切相关，所以无声检测器最好是自适应的。因此，为了能自适应，与局部功率电平有关的参数(即1)，3)和/或4))应及时与它们的平均值进行比较。局部信号功率的典型阈值为0.01，即局部信号功率应小于信号功率时间平均值的1％。时间平均值利用适应窗口用长度w帧计算。一个实际的解如下：平均_帧_功率_-1＝0

式中j为指数。

无声持续时间是指局部信号功率电平低于给定的固定的或自适应的阈值功率电平的时间。线性偏差是指对至少部分无声持续时间的(帧功率减去平均帧功率)的总和。线性偏差和下降/上升速率用来对部分无声进行滤波，这对商业广告检测来说可以感觉到但却无关。局部信号功率电平最好如上述利用比例系数来确定，例如每一声频帧或声频帧的一部分。在商业广告块中商业广告之间的无声持续时间间隔的实际范围为3/25秒到20/25秒。

为了以下所述的统计计算，对无声开始时间、无声持续时间以及无声局部功率电平的值进行缓冲处理。可用具有以下特征的局部统计模型来说明商业广告的特征：

1)在两个连续检测到的无声之间的时间距离；

2)检测到的无声的局部信号功率电平(绝对和/或相对)；

3)无声持续时间；以及

4)声频信号的局部带宽；

声频信号j的局部带宽可以按以下方式从比例系数计算：

对于每种特征，求出用0.5归一化的似然函数，数值在0到1之间。它代表该特征的局部统计与商业广告的局部统计的类似程度。然后不同的似然函数用不同的加权组合，得出全局似然函数，仍用0.5归一化，这样就利用了某个时刻的全部信息。计算时间轴上每一点的全局似然函数，它是作为无声开始时间被缓冲处理的。数值0.5指基本上“完全不确定”或“有0.5的概率位于商业广告块内”。似然函数可以用不同方式使用。它可以被适当触发以检测商业广告边界。作进一步分析和分类的算法也可使用它(作为商业广告和非商业广告之间的归一化软分类)，有时可选择利用视频特征。不同电平的视频特征(如单亮度，单色度帧检测，场景变化检测)可以采用同样的似然方法或其他方法与声频特征一起进行统计分析。根据前述的声频分析已开发并测试了具有再填充的触发商业广告检测。0.5归一化似然函数L(t)可用来决定检测到的无声是否属于商业广告块。这可以用函数Q(L(t))来进行，函数Q(L(t))定义如下：

如果L(t)＞0.5，则Q(L(t))＝1，

如果L(t)＜＝0.5，则Q(L(t))＝0

式中数值0和1表示检测到的无声分别属于非商业广告块和商业广告块。

在实际实施例中，商业广告序列仅当其延续至少60秒时才作检测。如果似然函数仅在少于45秒的短间隔中低于0.5，则设Q(t)为1。这种过程称为“内部再填充”。内部再填充消除了散在的内部漏检，在商业广告开始和结束时使用“外部再填充”。例如假定：

t_i，t_i+1...，t_i+N，…为在汽锤检测到无声开始的瞬间的序列，并且

L(t_i)＝0.2

L(t_i+1)＝0.4

L(t_i+2)＝0.6

L(t_j)＞0.5对于每个j＝i+3，…，i+N

L(t_j)＜0.5对于j＞i+N，而且如果

t_i+2-t_i+1＜45.0秒

t_i+N+1-t_i+N＜45.0秒

则

Q(L(t_i))＝0

Q(L(t_i+1))＝1

Q(L(t_i+2))＝1

Q(L(t_i+N+1))＝1

Q(L(t_j))＝0对于j＞i+N+1

外部再填充在避免第一和最终处的系统漏检很有效。该事实与窗口详情有关。外部和内部再填充可以认为是一种特殊的向上驱动的非线性滤波。可以使用商业广告块的通用统计模型。也可以对一天中不同时间和/或不同类型的节目(连续剧，谈话节目，足球比赛等)和/或不同的声道利用不同的商业广告块模型来改善统计细节。虽然这样做并不一定能获得令人满意的性能，但当然能改善性能。这是在目标系统的复杂性及其性能之间权衡取舍的一件事情。对于单一声道，最好有随不同时间的条件变化的检测的自适应性。而且最好有对声道转换的自适应性。特别是，对于单一声道，本地最低噪声电平会随不同时间而变化，而从一个声道转换到另一声道就可能变化很大：对于无声检测来说这就很关键了。此外，商业广告块的统计模型中的自适应性要求并不严格但却很有用。系统可以在本地最低噪声电平上作全部自训练(适应)。唯一的限制是每次声道转换要使用一次算法复位。这是因为在初始阶段自适应很快，然后就比较慢，这是为了在自适应和精确度之间综合折中的事情。如果使算法在任何时间都快速自适应，则检测精确度就会降低，因为在商业广告块中相对较快的自适应会降低精确度。在实际实施例中，转换自适应性仅在最初的几分钟有效(即对随后的转换复位)，但始终具有单一声道的自适应性。用不对称方案来确保自适应性的稳定性。当最低噪声电平下降时，自适应比最低噪声电平上升时要快。这就是说，例如，利用低于以前所检测的本地功率能量检测无声时，用于无声检测的本地功率能量下降很快。可能发生两种误差：或是商业广告漏检，或是商业广告错检。这两种情况的发生率都很低，限于商业广告块的开始或结束部分。而且算法是灵活的：决定参数可以改变这两种误差之间的综合折中，取决于哪一个更有关。例如，商业广告块的检测是自动关键帧提取的预处理，则低漏检率就更重要。如果是简单重放，则低错检就更重要。根据所选择的特征(但也可添加其他特征)，就有可能不作子带分析而分别估计局部功率能量和带宽。在两分钟(也可选其他数值)对称滑动窗口上用低取样速率时需要带宽值。因此可以例如利用少量的点通过对连续短时间间隔FFT求平均值来估算。可以进行不同类型的一个或数个似然函数的归一化和组合，或逐项或全局。一种实际的实现是基于与归一化逐项或全局的乘积组合。该乘积基本上是从布尔集{0，1}到连续时间间隔[0，1]延伸的布尔“与”(AND)。它可确保良好的选择性。大致地说，完全同时软性地加上不同的条件。它们不需要全部都能理想地被满足，但它们必需大部分被满足。而一种加法组合会成为布尔“或”(OR)的某种外延，它不能确保足够的选择性。通过利用持续时间阈值对似然做硬决定可以确保更好的选择性和健壮性。还通过内部再填充来确保似然-噪声容限。

在以下实例中，考虑一个36分钟的记录。该记录从一部电影的最后部分开始。[646，866]秒含商业广告。在866秒时一个电视节目开始。其他商业广告在[1409，1735]秒的间隔内。图4用圆圈绘出在每个检测到的无声期间计算的局部信号功率。叉代表这些数值的反向平均值。显然，商业广告无声(在间隔[646，866]和[1409，1735]内)主要是剪辑无声，功率较低。也可大致看出在商业广告内无声的不同分布。例如大部分为10到30秒的距离。如图所示的详细统计可用在似然函数的估算上。图5示出得到的似然函数。所述充填触发检测到[648，866]和[1408，1735]。可能的改型

1)有可能对较大部分的比例系数进行缓冲处理。也有可能对它们作子取样。已经证明从96左声道比例系数中选择32的当前选择是有效的。

2)有可能选择不同的声频特征集。当然在引入其他特征前需仔细进行调查研究。

3)如上所述，有可能进行一个或数个似然函数的不同种类的归一化和组合。当前的实现是基于利用再归一化的乘积组合。该乘积基本上是从布尔集{0，1}到连续间隔[0，1]外延的布尔“与”(AND)。它可确保良好的选择性。半总和是布尔“或”(OR)的一种外延，但它不能确保足够的选择性。

4)可以利用再充填来修改对所述触发全局似然函数的选择，例如如果使用不同的窗口样式和/或不同的声频特征的话。

5)也可以通过直接处理比例系数来实现对声频序列、比如许多广播商通常置于商业广告块开始和结束处的序列的识别。

在发射器端，有可能通过以能被更好检测到的方式适配剪辑无声而有助于似然函数，例如通过降低它们的信号功率、适配无声持续时间、提高信号功率下降速率和/或减少无声时的功率偏差。反之，也有可能通过增加它们的信号功率而降低剪辑无声的可检测性，例如通过引入噪声、适配无声持续时间、减小信号功率下降速率和/或增加无声时的功率偏差。此外，还有可能在信号中引入假剪辑无声。在实际实施例中，类似于剪辑无声的低功率0.15秒的假剪辑无声以及间隔30秒可能会破坏商业广告块检测。假剪辑无声最好插在已经存在的无声中，例如语音无声中。在此情况下，一般用户几乎无法注意到它们。

该算法在音像材料中检测商业广告块并标记它们的边界。在进行任何类型的处理时，例如浏览，自动尾部创建，编辑或简单重放，就可跳过商业广告块。该功能可以集成到数种存储系统中，附加的成本很低。它可以在获得数据时实时应用，也可对存储的材料离线应用。

应当指出，上述实施例是说明而非限制本发明，且本专业的技术人员在不背离所附权利要求书的范围内能够设计出许多不同的实施例。在权利要求中，括弧内的任何参考符号不应被认为是限制该权利要求。“包括”一词不排除有除权利要求中所列之外的其他元件和步骤。本发明可以用包括数个不同元件的硬件实现，也可用适当编程的电脑实现。在列举数种装置的装置权利要求中，数种装置可以由同一硬件项目实施。某些措施在互不相同的从属权利要求中叙述这一事实并不表明这些措施的组合不能更有效地利用。

Claims

1.一种估算压缩声频信号中信号功率的方法，所述声频信号包含量化的样值块，指定块配备有比例系数集，所述方法包括：

从所述压缩声频信号中提取所述比例系数集；以及

根据比例系数组合估算所述指定块中的所述信号功率。

2.如权利要求1所述的方法，其特征在于：仅仅对所述比例系数集的子集进行所述提取步骤和估算步骤。

3.如权利要求1或2所述的方法，其特征在于：所述声频信号包括多个窄带子信号，每个窄带子信号再分为信号块，每个信号块包含量化的样值并且每个块配备有一个或多个比例系数，其中，对一个或多个所述子信号执行所述提取步骤。

4.如权利要求3所述的方法，其特征在于：仅仅对所述多个子信号的子集执行所述提取步骤。

5.如权利要求4所述的方法，其特征在于：所述子集主要包括许多低频率子信号的比例系数。

6.如权利要求2，3，4或5所述的方法，其特征在于：所述块再分为至少两个子块，每个子块配备有比例系数，其中，仅仅提取每个块的最大比例系数用于所述估算步骤。

7.如上述权利要求中任何一项所述的方法，其特征在于：所述压缩信号为立体声或多声道信号，其中，仅仅对所述可利用声道子集执行所述提取步骤。

8.一种用于估算压缩声频信号中信号功率的装置，所述声频信号包含量化的样值块，指定块配备有比例系数集，所述装置包括：

用于从所述压缩声频信号中提取所述比例系数集的装置；以及

用于根据所述比例系数组合估算所述指定块中所述信号功率的装置。

9.一种无声检测器，它包括：

如权利要求8的装置，用于获得对压缩声频信号中信号功率的估算；以及

用于评价对所述信号功率的所述估算、以便检测所述声频信号中的无声的装置。

10.一种用于接收压缩声频信号的接收器，所述接收器包括：

用于获得压缩声频信号的输入端；

如权利要求9所述的无声检测器、用于检测所述压缩声频信号中的无声；以及

用于影响所述声频信号的装置，其中，所述影响至少部分地取决于对所述无声的所述检测。