CN1462427A - 估算压缩声频中的信号功率 - Google Patents

估算压缩声频中的信号功率 Download PDF

Info

Publication number
CN1462427A
CN1462427A CN02801550A CN02801550A CN1462427A CN 1462427 A CN1462427 A CN 1462427A CN 02801550 A CN02801550 A CN 02801550A CN 02801550 A CN02801550 A CN 02801550A CN 1462427 A CN1462427 A CN 1462427A
Authority
CN
China
Prior art keywords
audio signal
scale
signal
factor
compressed audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN02801550A
Other languages
English (en)
Other versions
CN100380441C (zh
Inventor
A·斯特拉
J·A·D·尼斯瓦德拉
M·巴比里
F·斯尼德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1462427A publication Critical patent/CN1462427A/zh
Application granted granted Critical
Publication of CN100380441C publication Critical patent/CN100380441C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • H04H60/58Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54 of audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/812Monomedia components thereof involving advertisement data

Abstract

提供对压缩声频信号[A]中信号功率的估算,所述声频信号包括量化的样值块,指定块配备有比例因数集。通过从压缩声频信号中提取比例因数集以及根据比例因数组合估算指定块中的信号功率来进行所述估算。有利的是,仅仅对比例因数集的子集执行提取步骤和估算步骤。所述信号功率估算可以用在无声检测器(11)中,后者用于接收器(1)中。

Description

估算压缩声频中的信号功率
本发明涉及估算压缩声频信号中的信号功率。本发明还涉及无声检测和利用这种无声检测的接收器。
WO96/3271公开了用于数字传输的对声频信号进行压缩和去压缩的系统,其中可以对辅助数据进行多路复用、并以可以将其解码的方式利用声频数据对其进行编码并发送。该文件在第159页公开了对最小比例系数值的计算以便在另一声道中查找是否存在声频信号。
本发明的一个目的是提供一种在压缩的声频信号中有利的信号功率估算。为此目的,本发明提供一种估算信号功率的方法和装置、一种无声检测器和接收器,如独立权利要求中定义的。在从属权利要求中定义了有利的实施例。
按照本发明的第一方面,对包含量化样值块的压缩声频信号中的信号功率进行估算,其中,指定块配备有比例系数集。从压缩声频信号中提取比例系数集,并且根据比例系数的组合估算指定块中的信号功率。指定块可以是一个或多个音频帧,或者音频帧的一部分。可以容易地从压缩声频信号中提取比例系数集。本发明基于这样一种见解:比例系数代表着与其有关的样值的最大可能值。比例系数的组合,例如比例系数平方和,给出信号功率的粗略估算,仅需要有限的计算负荷。粗略估算对于某些应用(例如商业广告检测器的无声检测)已足够。
在一个优选实施例中,只使用比例系数的子集。通过仅仅使用比例系数总集中的子集,进一步减小计算负荷。这也许会降低精确度,但是对于某些应用(例如商业广告检测器的无声检测)仍是可以接受的。
可以通过省略时间方向上和/或频率方向上的比例系数来形成比例系数的子集。例如,所述子集可以仅包括压缩声频信号中可用的多个窄带子信号的子集,该子集最好包括许多较低频率子信号的比例系数。
在压缩声频信号是立体声或多声道信号的情况下,只有可用声道的子集可以使用。
通过参考附图,本发明的这些和其他方面将得以阐述,使其一目了然。
附图中:
图1示出根据本发明实施例的接收器;
图2示出示范的声频帧,它包括32个子带,每个子带再分为3块,每一块包括12个量化的并配备有比例系数的样值;
图3示出图2的示范的声频帧,其中为每个子带选择最大比例系数,一种可能的选择用灰色增亮显示;
图4示出一个示范图,其中圆代表检测到的无声的局部信号功率,叉代表这些局部信号功率的平均值;以及
图5示出与图4有关的示范的似然函数。
附图仅示出那些有助于理解本发明实施例的元件。
图1示出根据本发明一个实施例的接收器1,它用于接收压缩声频信号[A]。接收器1包括输入端10,用于获得压缩声频信号[A]。输入端10可以是天线、网络连接、读出装置等。接收器1还包括:无声检测器11,用于检测压缩声频信号中的无声;以及影响块12,用于根据对无声的检测来影响声频信号。块12可以是例如解码器,用来将所述压缩声频信号解码,而所述解码依赖于检测的无声。块12也可以是跳跃处理块,用于根据检测的无声对所述压缩声频的各部分进行跳跃处理。可以增强所述无声检测器11,以便形成商业广告检测器。解码期间可以对检测到的商业广告进行跳跃处理。受影响的声频信号A,无论是解码的还是压缩的,都可输出到输出端13。输出端13可以是网络连接、重放装置或记录装置。压缩的声频信号[A]可以被包含在程序流中,该程序流还包括视频信号。此时,根据在压缩的声频信号中检测到的无声至少可以部分地影响块12中的程序信号。一种有利的应用是仅存储非商业广告内容的存储装置。
将在例如用于商业广告检测的无声检测的范围内描述本发明的实施例。应当指出,EP 1006685 A2公开一种用于处理电视信号并用于检测电视信号中有无商业广告的方法和装置。商业广告侯选段检测器根据静段和场景变化点检测商业广告侯选段。商业广告特征量检测器判断该商业广告候选段是否有各种商业广告特征,并根据判断结果在商业广告特征值上加一预定数值。商业广告特征量检测器将最终的商业广告特征值与预定的阈值相比较,根据比较结果判断该商业广告侯选段是否是商业广告段。静段检测器将数字化的声频信号电平与阈值进行比较以检测静段,并将检测结果输出到场景变化检测器。还可以参阅EP 1087557 A2。
根据本发明的实施例的商业广告检测器自动检测视听流中的商业广告块。这就可以在任何处理中,例如提取关键帧,编辑或重放时跳过商业广告。对于某些声频特征,在滑动窗口上测得局部统计,并与商业广告的统计模型作比较。通过这种比较可以推导出归一化的似然函数,由该函数可知该声频信号局部类似于商业广告的程度。可以适当地触发用于商业广告检测的似然函数。选择统计窗口以便既在局部分析中仔细处理又能抵制局部不规律和波动,这样就不影响检测。该算法对于某些条件、例如可沿着单一流或在一个流和另一个流之间变化的某些条件是自适应的。该算法与视频无关。但也可包括视频分析以增强或扩大分类。该算法可应用于数种存储系统。
许多声频编码器(MPEG-1 Layer-1/2/3,MPEG-2 Layer-1/2/3,MPEG-2AAC,MPEG-4AAC,AC-3)都是频率域编码器。它们将源频谱分成许多窄带子信号,并分别量化各频率分量或样值。根据比例系数并根据位分配对频率分量或样值进行量化。这些比例系数可以被认为是频率分量或样值的最大值的标志。
在AC-3中,频率分量用尾数2(-指数)表示。此处指数作为每个尾数的比例系数,等于2(-指数)
在MPEG-1层2中窄带子信号被分成有12个量化样值的组,每一组具有对应的比例系数。该比例系数对应于与之相关的样值的最大值。
检测算法最好利用比例系数的子集。在窄带子信号的全部或一个子集中,通过将比例系数平方,就可计算出信号功率的上限。
现对利用MPEG声频压缩的实施例作更为详细的说明。在MPEGlayer2中,对于取样速率48kHz,44.1kHz或32kHz,分别将声频信号分为24msec,26.1msec或36msed的时间间隔。在这些间隔的每个间隔中,将信号编码为一个帧。参阅图1,把每个帧的时间间隔分为三部分并且把所述信号分解成32个子带成分。对于每一个子带成分和每一个三分之一帧(图1中的一个长方形),根据比例系数并且根据适当选择的若干位来量化12个样值。该比例系数给出12个样值绝对值的上限估算。这种估算可能不十分精确,但商业广告检测并不要求十分精确。比例系数可以从每个声频帧中提取,而计算负荷可忽略不计,因为在这些帧中它们作为伪对数指数直接可用。只需要对有限的帧标题解码。不需要去压缩。
在立体声模式中,每个声道有其自己的每帧96个比例系数。检测算法只在左或右的声道的每个子带中选择最大的比例系数(见图2):32个值被缓冲并转换成线性(不是对数)格式。例如,对于48kHz的取样速率,按标准只用0...26子带:这样每24msec产生27个样值,即1125样值/sec,对于商业广告检测器,这是非常小的输入数据速率。计算缓冲比例系数的平方,求出各子带信号功率的上限。然后如下使用它们:
(1)它们的总和给出总的短时间功率的上限;
(2)可用它们计算短时间带宽估算;
下表列出了MPEG layer中比例系数的几个伪对数指数(见ISO/IEC 11172-3:1993中的表B.1):
 指数  比例系数
 0  2.0000
 1  1.5847
 2  1.2599
 3  1.0000
 4  0.7937
 5  0.6299
声频帧j的短时间功率的估算以下式表示:帧_功率j≈∑比例系数2 jj≈∑100.6-0.2指数
或者也可使用查阅表来找到比例系数。应在给定的时刻对子带数进行求和。当使用子带的子集时,需根据应用对子带总数或所用的子带数进行总和。
无声检测基于关于以下各项的嵌套阈:
1)局部信号功率电平,如上所述,利用例如帧_功率(Framepower);
2)无声持续时间;
以及至少以下参数之一:
3)无声期中的局部功率线性偏差;
4)无声开始前局部功率下降速率;以及
5)无声结束时局部功率上升速率。
由于信号功率特性与无声检测器的工作环境密切相关,所以无声检测器最好是自适应的。因此,为了能自适应,与局部功率电平有关的参数(即1),3)和/或4))应及时与它们的平均值进行比较。局部信号功率的典型阈值为0.01,即局部信号功率应小于信号功率时间平均值的1%。时间平均值利用适应窗口用长度w帧计算。一个实际的解如下:平均_帧_功率-1=0
Figure A0280155000091
式中j为指数。
无声持续时间是指局部信号功率电平低于给定的固定的或自适应的阈值功率电平的时间。线性偏差是指对至少部分无声持续时间的(帧功率减去平均帧功率)的总和。线性偏差和下降/上升速率用来对部分无声进行滤波,这对商业广告检测来说可以感觉到但却无关。局部信号功率电平最好如上述利用比例系数来确定,例如每一声频帧或声频帧的一部分。在商业广告块中商业广告之间的无声持续时间间隔的实际范围为3/25秒到20/25秒。
为了以下所述的统计计算,对无声开始时间、无声持续时间以及无声局部功率电平的值进行缓冲处理。可用具有以下特征的局部统计模型来说明商业广告的特征:
1)在两个连续检测到的无声之间的时间距离;
2)检测到的无声的局部信号功率电平(绝对和/或相对);
3)无声持续时间;以及
4)声频信号的局部带宽;
声频信号j的局部带宽可以按以下方式从比例系数计算:
Figure A0280155000101
对于每种特征,求出用0.5归一化的似然函数,数值在0到1之间。它代表该特征的局部统计与商业广告的局部统计的类似程度。然后不同的似然函数用不同的加权组合,得出全局似然函数,仍用0.5归一化,这样就利用了某个时刻的全部信息。计算时间轴上每一点的全局似然函数,它是作为无声开始时间被缓冲处理的。数值0.5指基本上“完全不确定”或“有0.5的概率位于商业广告块内”。似然函数可以用不同方式使用。它可以被适当触发以检测商业广告边界。作进一步分析和分类的算法也可使用它(作为商业广告和非商业广告之间的归一化软分类),有时可选择利用视频特征。不同电平的视频特征(如单亮度,单色度帧检测,场景变化检测)可以采用同样的似然方法或其他方法与声频特征一起进行统计分析。根据前述的声频分析已开发并测试了具有再填充的触发商业广告检测。0.5归一化似然函数L(t)可用来决定检测到的无声是否属于商业广告块。这可以用函数Q(L(t))来进行,函数Q(L(t))定义如下:
如果L(t)>0.5,则Q(L(t))=1,
如果L(t)<=0.5,则Q(L(t))=0
式中数值0和1表示检测到的无声分别属于非商业广告块和商业广告块。
在实际实施例中,商业广告序列仅当其延续至少60秒时才作检测。如果似然函数仅在少于45秒的短间隔中低于0.5,则设Q(t)为1。这种过程称为“内部再填充”。内部再填充消除了散在的内部漏检,在商业广告开始和结束时使用“外部再填充”。例如假定:
ti,ti+1...,ti+N,…为在汽锤检测到无声开始的瞬间的序列,并且
L(ti)=0.2
L(ti+1)=0.4
L(ti+2)=0.6
L(tj)>0.5对于每个j=i+3,…,i+N
L(tj)<0.5对于j>i+N,而且如果
ti+2-ti+1<45.0秒
ti+N+1-ti+N<45.0秒
Q(L(ti))=0
Q(L(ti+1))=1
Q(L(ti+2))=1
Q(L(ti+N+1))=1
Q(L(tj))=0对于j>i+N+1
外部再填充在避免第一和最终处的系统漏检很有效。该事实与窗口详情有关。外部和内部再填充可以认为是一种特殊的向上驱动的非线性滤波。可以使用商业广告块的通用统计模型。也可以对一天中不同时间和/或不同类型的节目(连续剧,谈话节目,足球比赛等)和/或不同的声道利用不同的商业广告块模型来改善统计细节。虽然这样做并不一定能获得令人满意的性能,但当然能改善性能。这是在目标系统的复杂性及其性能之间权衡取舍的一件事情。对于单一声道,最好有随不同时间的条件变化的检测的自适应性。而且最好有对声道转换的自适应性。特别是,对于单一声道,本地最低噪声电平会随不同时间而变化,而从一个声道转换到另一声道就可能变化很大:对于无声检测来说这就很关键了。此外,商业广告块的统计模型中的自适应性要求并不严格但却很有用。系统可以在本地最低噪声电平上作全部自训练(适应)。唯一的限制是每次声道转换要使用一次算法复位。这是因为在初始阶段自适应很快,然后就比较慢,这是为了在自适应和精确度之间综合折中的事情。如果使算法在任何时间都快速自适应,则检测精确度就会降低,因为在商业广告块中相对较快的自适应会降低精确度。在实际实施例中,转换自适应性仅在最初的几分钟有效(即对随后的转换复位),但始终具有单一声道的自适应性。用不对称方案来确保自适应性的稳定性。当最低噪声电平下降时,自适应比最低噪声电平上升时要快。这就是说,例如,利用低于以前所检测的本地功率能量检测无声时,用于无声检测的本地功率能量下降很快。可能发生两种误差:或是商业广告漏检,或是商业广告错检。这两种情况的发生率都很低,限于商业广告块的开始或结束部分。而且算法是灵活的:决定参数可以改变这两种误差之间的综合折中,取决于哪一个更有关。例如,商业广告块的检测是自动关键帧提取的预处理,则低漏检率就更重要。如果是简单重放,则低错检就更重要。根据所选择的特征(但也可添加其他特征),就有可能不作子带分析而分别估计局部功率能量和带宽。在两分钟(也可选其他数值)对称滑动窗口上用低取样速率时需要带宽值。因此可以例如利用少量的点通过对连续短时间间隔FFT求平均值来估算。可以进行不同类型的一个或数个似然函数的归一化和组合,或逐项或全局。一种实际的实现是基于与归一化逐项或全局的乘积组合。该乘积基本上是从布尔集{0,1}到连续时间间隔[0,1]延伸的布尔“与”(AND)。它可确保良好的选择性。大致地说,完全同时软性地加上不同的条件。它们不需要全部都能理想地被满足,但它们必需大部分被满足。而一种加法组合会成为布尔“或”(OR)的某种外延,它不能确保足够的选择性。通过利用持续时间阈值对似然做硬决定可以确保更好的选择性和健壮性。还通过内部再填充来确保似然-噪声容限。
在以下实例中,考虑一个36分钟的记录。该记录从一部电影的最后部分开始。[646,866]秒含商业广告。在866秒时一个电视节目开始。其他商业广告在[1409,1735]秒的间隔内。图4用圆圈绘出在每个检测到的无声期间计算的局部信号功率。叉代表这些数值的反向平均值。显然,商业广告无声(在间隔[646,866]和[1409,1735]内)主要是剪辑无声,功率较低。也可大致看出在商业广告内无声的不同分布。例如大部分为10到30秒的距离。如图所示的详细统计可用在似然函数的估算上。图5示出得到的似然函数。所述充填触发检测到[648,866]和[1408,1735]。可能的改型
1)有可能对较大部分的比例系数进行缓冲处理。也有可能对它们作子取样。已经证明从96左声道比例系数中选择32的当前选择是有效的。
2)有可能选择不同的声频特征集。当然在引入其他特征前需仔细进行调查研究。
3)如上所述,有可能进行一个或数个似然函数的不同种类的归一化和组合。当前的实现是基于利用再归一化的乘积组合。该乘积基本上是从布尔集{0,1}到连续间隔[0,1]外延的布尔“与”(AND)。它可确保良好的选择性。半总和是布尔“或”(OR)的一种外延,但它不能确保足够的选择性。
4)可以利用再充填来修改对所述触发全局似然函数的选择,例如如果使用不同的窗口样式和/或不同的声频特征的话。
5)也可以通过直接处理比例系数来实现对声频序列、比如许多广播商通常置于商业广告块开始和结束处的序列的识别。
在发射器端,有可能通过以能被更好检测到的方式适配剪辑无声而有助于似然函数,例如通过降低它们的信号功率、适配无声持续时间、提高信号功率下降速率和/或减少无声时的功率偏差。反之,也有可能通过增加它们的信号功率而降低剪辑无声的可检测性,例如通过引入噪声、适配无声持续时间、减小信号功率下降速率和/或增加无声时的功率偏差。此外,还有可能在信号中引入假剪辑无声。在实际实施例中,类似于剪辑无声的低功率0.15秒的假剪辑无声以及间隔30秒可能会破坏商业广告块检测。假剪辑无声最好插在已经存在的无声中,例如语音无声中。在此情况下,一般用户几乎无法注意到它们。
该算法在音像材料中检测商业广告块并标记它们的边界。在进行任何类型的处理时,例如浏览,自动尾部创建,编辑或简单重放,就可跳过商业广告块。该功能可以集成到数种存储系统中,附加的成本很低。它可以在获得数据时实时应用,也可对存储的材料离线应用。
应当指出,上述实施例是说明而非限制本发明,且本专业的技术人员在不背离所附权利要求书的范围内能够设计出许多不同的实施例。在权利要求中,括弧内的任何参考符号不应被认为是限制该权利要求。“包括”一词不排除有除权利要求中所列之外的其他元件和步骤。本发明可以用包括数个不同元件的硬件实现,也可用适当编程的电脑实现。在列举数种装置的装置权利要求中,数种装置可以由同一硬件项目实施。某些措施在互不相同的从属权利要求中叙述这一事实并不表明这些措施的组合不能更有效地利用。

Claims (10)

1.一种估算压缩声频信号中信号功率的方法,所述声频信号包含量化的样值块,指定块配备有比例系数集,所述方法包括:
从所述压缩声频信号中提取所述比例系数集;以及
根据比例系数组合估算所述指定块中的所述信号功率。
2.如权利要求1所述的方法,其特征在于:仅仅对所述比例系数集的子集进行所述提取步骤和估算步骤。
3.如权利要求1或2所述的方法,其特征在于:所述声频信号包括多个窄带子信号,每个窄带子信号再分为信号块,每个信号块包含量化的样值并且每个块配备有一个或多个比例系数,其中,对一个或多个所述子信号执行所述提取步骤。
4.如权利要求3所述的方法,其特征在于:仅仅对所述多个子信号的子集执行所述提取步骤。
5.如权利要求4所述的方法,其特征在于:所述子集主要包括许多低频率子信号的比例系数。
6.如权利要求2,3,4或5所述的方法,其特征在于:所述块再分为至少两个子块,每个子块配备有比例系数,其中,仅仅提取每个块的最大比例系数用于所述估算步骤。
7.如上述权利要求中任何一项所述的方法,其特征在于:所述压缩信号为立体声或多声道信号,其中,仅仅对所述可利用声道子集执行所述提取步骤。
8.一种用于估算压缩声频信号中信号功率的装置,所述声频信号包含量化的样值块,指定块配备有比例系数集,所述装置包括:
用于从所述压缩声频信号中提取所述比例系数集的装置;以及
用于根据所述比例系数组合估算所述指定块中所述信号功率的装置。
9.一种无声检测器,它包括:
如权利要求8的装置,用于获得对压缩声频信号中信号功率的估算;以及
用于评价对所述信号功率的所述估算、以便检测所述声频信号中的无声的装置。
10.一种用于接收压缩声频信号的接收器,所述接收器包括:
用于获得压缩声频信号的输入端;
如权利要求9所述的无声检测器、用于检测所述压缩声频信号中的无声;以及
用于影响所述声频信号的装置,其中,所述影响至少部分地取决于对所述无声的所述检测。
CNB028015509A 2001-05-11 2002-05-08 检测给定类型节目的方法和设备、无声检测器和接收器 Expired - Fee Related CN100380441C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201730 2001-05-11
EP01201730.7 2001-05-11

Publications (2)

Publication Number Publication Date
CN1462427A true CN1462427A (zh) 2003-12-17
CN100380441C CN100380441C (zh) 2008-04-09

Family

ID=8180284

Family Applications (3)

Application Number Title Priority Date Filing Date
CNB028015509A Expired - Fee Related CN100380441C (zh) 2001-05-11 2002-05-08 检测给定类型节目的方法和设备、无声检测器和接收器
CNB2004100956810A Expired - Fee Related CN100348034C (zh) 2001-05-11 2002-05-10 传送节目的方法和传送节目的发射机
CNB028015444A Expired - Fee Related CN1244900C (zh) 2001-05-11 2002-05-10 检测音频信号中无声的方法和接收压缩音频信号的接收机

Family Applications After (2)

Application Number Title Priority Date Filing Date
CNB2004100956810A Expired - Fee Related CN100348034C (zh) 2001-05-11 2002-05-10 传送节目的方法和传送节目的发射机
CNB028015444A Expired - Fee Related CN1244900C (zh) 2001-05-11 2002-05-10 检测音频信号中无声的方法和接收压缩音频信号的接收机

Country Status (8)

Country Link
US (2) US7356464B2 (zh)
EP (2) EP1393301B1 (zh)
JP (2) JP4365103B2 (zh)
KR (2) KR100916959B1 (zh)
CN (3) CN100380441C (zh)
AT (1) ATE438968T1 (zh)
DE (2) DE60217484T2 (zh)
WO (2) WO2002093552A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3870193B2 (ja) 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
US20040088723A1 (en) * 2002-11-01 2004-05-06 Yu-Fei Ma Systems and methods for generating a video summary
US7260261B2 (en) * 2003-02-20 2007-08-21 Microsoft Corporation Systems and methods for enhanced image adaptation
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal
JP4675884B2 (ja) * 2004-04-06 2011-04-27 パナソニック株式会社 特定番組検出装置及び方法並びにプログラム
JP4387408B2 (ja) * 2004-06-18 2009-12-16 パナソニック株式会社 Avコンテンツ処理装置、avコンテンツ処理方法、avコンテンツ処理プログラムおよびavコンテンツ処理装置に用いる集積回路
US9053754B2 (en) * 2004-07-28 2015-06-09 Microsoft Technology Licensing, Llc Thumbnail generation and presentation for recorded TV programs
US7986372B2 (en) * 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
WO2007039998A1 (ja) * 2005-09-30 2007-04-12 Pioneer Corporation 本編外シーン抽出装置およびそのプログラム
US20070112811A1 (en) * 2005-10-20 2007-05-17 Microsoft Corporation Architecture for scalable video coding applications
US7773813B2 (en) 2005-10-31 2010-08-10 Microsoft Corporation Capture-intention detection for video content analysis
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US8196032B2 (en) * 2005-11-01 2012-06-05 Microsoft Corporation Template-based multimedia authoring and sharing
US7599918B2 (en) 2005-12-29 2009-10-06 Microsoft Corporation Dynamic search with implicit user intention mining
JP4698453B2 (ja) * 2006-02-28 2011-06-08 三洋電機株式会社 コマーシャル検出装置、映像再生装置
TWI312981B (en) * 2006-11-30 2009-08-01 Inst Information Industr Voice detection apparatus, method, computer program product, and computer readable medium for adjusting a window size dynamically
GB2482444B (en) * 2007-03-30 2012-08-01 Wolfson Microelectronics Plc Pattern detection circuitry
GB2447985B (en) 2007-03-30 2011-12-28 Wolfson Microelectronics Plc Pattern detection circuitry
US8081313B2 (en) * 2007-05-24 2011-12-20 Airbus Operations Limited Method and apparatus for monitoring gas concentration in a fluid
JP2008009442A (ja) * 2007-07-23 2008-01-17 Video Research:Kk 音声データ処理方法
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
KR20100006492A (ko) * 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
GB0813715D0 (en) * 2008-07-28 2008-09-03 Airbus Uk Ltd A monitor and a method for measuring oxygen concentration
PA8847501A1 (es) * 2008-11-03 2010-06-28 Telefonica Sa Metodo y sistema de identificacion en tiempo real de un anuncio audiovisual en un flujo de datos
WO2010103422A2 (en) 2009-03-10 2010-09-16 Koninklijke Philips Electronics N.V. Apparatus and method for rendering content
US20100319015A1 (en) * 2009-06-15 2010-12-16 Richard Anthony Remington Method and system for removing advertising content from television or radio content
US8340964B2 (en) * 2009-07-02 2012-12-25 Alon Konchitsky Speech and music discriminator for multi-media application
US8606569B2 (en) * 2009-07-02 2013-12-10 Alon Konchitsky Automatic determination of multimedia and voice signals
US10116902B2 (en) * 2010-02-26 2018-10-30 Comcast Cable Communications, Llc Program segmentation of linear transmission
US9047878B2 (en) * 2010-11-24 2015-06-02 JVC Kenwood Corporation Speech determination apparatus and speech determination method
FI20145493A (fi) 2014-05-28 2015-11-29 Exaget Oy Sisällön lisääminen mediavirtaan
CN105741835B (zh) * 2016-03-18 2019-04-16 腾讯科技(深圳)有限公司 一种音频信息处理方法及终端
CN108665657B (zh) * 2017-03-30 2019-12-10 国基电子(上海)有限公司 传感器及应用该传感器的监控系统
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0127718B1 (fr) * 1983-06-07 1987-03-18 International Business Machines Corporation Procédé de détection d'activité dans un système de transmission de la voix
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JPS63118197A (ja) * 1986-11-06 1988-05-23 松下電器産業株式会社 音声検出装置
JPH0636158B2 (ja) * 1986-12-04 1994-05-11 沖電気工業株式会社 音声分析合成方法及び装置
JPH03253899A (ja) * 1990-03-05 1991-11-12 Ricoh Co Ltd 音声区間検出方式
JPH0666738B2 (ja) * 1990-04-06 1994-08-24 株式会社ビデオ・リサーチ Cm自動確認装置
WO1996003271A1 (fr) 1993-01-25 1996-02-08 Jean Alphonse David Procede de fabrication de caissons a parois multicellulaires en materiaux composites thermodurcissables realises par enroulement filamentaire
US5334947A (en) * 1993-07-06 1994-08-02 Aphex Systems, Ltd. Logic enhanced noise gate
JPH07225593A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd 音処理装置
JPH0854895A (ja) * 1994-08-11 1996-02-27 Matsushita Electric Ind Co Ltd 再生装置
JPH08237135A (ja) * 1994-10-28 1996-09-13 Nippon Steel Corp 符号化データ復号装置およびそれを用いた画像オーディオ多重化データ復号装置
KR0171840B1 (ko) * 1995-02-04 1999-04-15 김광호 스케일 팩터 분리회로
WO1996032710A1 (en) * 1995-04-10 1996-10-17 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5890109A (en) * 1996-03-28 1999-03-30 Intel Corporation Re-initializing adaptive parameters for encoding audio signals
GB9606680D0 (en) * 1996-03-29 1996-06-05 Philips Electronics Nv Compressed audio signal processing
JPH1055150A (ja) * 1996-08-12 1998-02-24 Syst Works:Kk 音声割り込み方法及びその装置
CN1189664A (zh) * 1997-01-29 1998-08-05 合泰半导体股份有限公司 语音编码的子音识别方法
EP0867856B1 (fr) * 1997-03-25 2005-10-26 Koninklijke Philips Electronics N.V. "Méthode et dispositif de detection d'activité vocale"
KR100302370B1 (ko) * 1997-04-30 2001-09-29 닛폰 호소 교카이 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
US6324188B1 (en) * 1997-06-12 2001-11-27 Sharp Kabushiki Kaisha Voice and data multiplexing system and recording medium having a voice and data multiplexing program recorded thereon
JP2000029486A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声認識システムおよび方法
US6801895B1 (en) * 1998-12-07 2004-10-05 At&T Corp. Method and apparatus for segmenting a multi-media program based upon audio events
CN1094280C (zh) * 1998-08-17 2002-11-13 英业达股份有限公司 网络电话中的静音检测方法
JP2000165806A (ja) 1998-11-30 2000-06-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2000214872A (ja) * 1999-01-20 2000-08-04 Matsushita Electric Ind Co Ltd 音声検出装置
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
JP4287545B2 (ja) * 1999-07-26 2009-07-01 パナソニック株式会社 サブバンド符号化方式
US6658027B1 (en) * 1999-08-16 2003-12-02 Nortel Networks Limited Jitter buffer management
JP3697967B2 (ja) * 1999-09-22 2005-09-21 松下電器産業株式会社 オーディオ送信装置及びオーディオ受信装置
EP1087557A3 (en) 1999-09-22 2005-01-19 Matsushita Electric Industrial Co., Ltd. Apparatus for transmitting digital audio data and receiving apparatus for receiving the digital audio data
US6993245B1 (en) * 1999-11-18 2006-01-31 Vulcan Patents Llc Iterative, maximally probable, batch-mode commercial detection for audiovisual content
JP4300697B2 (ja) * 2000-04-24 2009-07-22 ソニー株式会社 信号処理装置及び方法
JP2001344905A (ja) * 2000-05-26 2001-12-14 Fujitsu Ltd データ再生装置、その方法及び記録媒体

Also Published As

Publication number Publication date
CN1462426A (zh) 2003-12-17
US7617095B2 (en) 2009-11-10
WO2002093552A1 (en) 2002-11-21
CN100348034C (zh) 2007-11-07
KR20030015385A (ko) 2003-02-20
KR100916959B1 (ko) 2009-09-14
US7356464B2 (en) 2008-04-08
EP1393301B1 (en) 2007-01-10
ATE438968T1 (de) 2009-08-15
EP1393301A1 (en) 2004-03-03
DE60233223D1 (de) 2009-09-17
EP1393480A2 (en) 2004-03-03
JP4560269B2 (ja) 2010-10-13
US20040138880A1 (en) 2004-07-15
DE60217484D1 (de) 2007-02-22
DE60217484T2 (de) 2007-10-25
WO2002093801A2 (en) 2002-11-21
WO2002093801A3 (en) 2003-01-30
EP1393480B1 (en) 2009-08-05
CN1612607A (zh) 2005-05-04
JP4365103B2 (ja) 2009-11-18
JP2004520627A (ja) 2004-07-08
US20040125961A1 (en) 2004-07-01
KR20030027938A (ko) 2003-04-07
CN1244900C (zh) 2006-03-08
CN100380441C (zh) 2008-04-09
JP2004531766A (ja) 2004-10-14

Similar Documents

Publication Publication Date Title
CN100380441C (zh) 检测给定类型节目的方法和设备、无声检测器和接收器
JP4418748B2 (ja) ストリームに繰り返し埋め込まれたメディアオブジェクトを識別し、セグメント化するためのシステムおよび方法
US20090279840A1 (en) Image Digesting Apparatus
US6766523B2 (en) System and method for identifying and segmenting repeating media objects embedded in a stream
JP5440051B2 (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
CN1426563A (zh) 使用音频类别界定节目边界和商业广告边界的系统和方法
CN1719909A (zh) 一种测量音视频内容变化的方法
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
CN1663281A (zh) 用于从压缩多媒体内容中生成散列的方法
US8543228B2 (en) Coded domain audio analysis
US8014606B2 (en) Image discrimination apparatus
KR100863122B1 (ko) 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
US20040133420A1 (en) Method of analysing a compressed signal for the presence or absence of information content
US20020095297A1 (en) Device and method for processing audio information
Shieh Audio content based feature extraction on subband domain
Joyce Content-based temporal processing of video

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080409

Termination date: 20180508

CF01 Termination of patent right due to non-payment of annual fee