CN1327407C - 用于确定语音信号的质量的方法和设备 - Google Patents
用于确定语音信号的质量的方法和设备 Download PDFInfo
- Publication number
- CN1327407C CN1327407C CNB02806416XA CN02806416A CN1327407C CN 1327407 C CN1327407 C CN 1327407C CN B02806416X A CNB02806416X A CN B02806416XA CN 02806416 A CN02806416 A CN 02806416A CN 1327407 C CN1327407 C CN 1327407C
- Authority
- CN
- China
- Prior art keywords
- power
- signal
- scaling factor
- scaling
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Abstract
对于包括极度微弱或静寂部分的劣化信号来说,用于预测在语音处理/传输系统中劣化的语音信号的感知质量的客观测量方法和设备可能具有差的预测结果。通过在预处理阶段中使用第一定标因子(S(Y+Δ))应用第一定标步骤,并利用第二定标因子(Sα(Y+Δ);Sα(Y+Δi),i=1,2)通过第二定标步骤,实现了改进,其中所述第一定标因子是被增加一个调整值(Δ)的输出信号的功率的倒数值的一个函数,而所述第二定标因子基本上等于自乘到一个具有0和1之间的调整值(α)的幂的第一定标因子。可以在该设备中在各个位置上执行第二定标步骤。使用测试信号和恰当定义的主观质量分数来调整这些调整值。
Description
A.技术领域
本发明属于诸如音频、语音和话音信号等声音信号的质量测量的技术领域。更具体地说,本发明涉及一种用于根据客观测量技术相对参考信号确定从语音信号处理系统中接收到的一个输出信号的语音质量的方法和设备。
背景技术
这种类型的方法和设备是已知的,例如从参考文献(1,-,5)中获知(对于有关这些参考文献更详细的书目细节,参见下面的C.参考文献)。遵循ITU-T推荐标准P.861或者其后继推荐标准P.862的方法和设备(参见参考文献(6)和(7))也属于这种类型。根据现在已知的技术,根据人类听觉的心理物理感知模型将一个输出信号和一个参考信号映射在表示信号上,所述输出信号来自一个语音信号处理和/或传输系统(例如,无线电信系统、基于网际协议的话音传输系统和语音编译码器),它通常是一个劣化的信号,并将确定其信号质量。如同所引用的参考文献中,可以将提供有获得的输出信号的系统的输入信号用作一个参考信号。随后,根据所述表示信号来确定一个差分信号(differential signal),所述差分信号根据所使用的感知模型代表在输出信号中出现的在系统内遭受的干扰。差分或者干扰信号构成根据表示模型输出信号偏离参考信号的程度(extent)的表示。然后,根据一个认知模型来处理该干扰信号,在所述认知模型中已经模拟了(model)人类测试对象的某些属性,从而获得一个随时间变化的质量信号,该信号是输出信号的听觉感知质量的测量值。
然而,遵循推荐标准P.862的已知技术(具体而言是方法和设备)具有下述缺点:由于劣化信号中的极度微弱或静寂部分所导致的并且包含参考信号中语音的严重失真可能导致一个质量信号,该质量信号具有与诸如人类测试对象的平均意见得分(MOS)等客观确定的质量测量值非常小的相关性。因为时间限制(time clipping),即,例如在分组交换系统中丢失分组的情况下,用静寂信号替代语音或音频信号中的较短部分,可能会出现这样的失真。在这种情况下,预测质量明显高于主观感知的质量。
B.发明内容
本发明的一个目的是提供一种克服所述缺点的用于确定语音信号的质量的改进的方法和相应的设备。
特别地,本发明基于下面的观察。受测试的系统的增益通常不是先验可知的。因此,在处理输出(劣化)信号和参考信号的主要步骤的初始化或预处理阶段,通过应用一个用于将输出信号的功率整体或者全局定标(scale)到一个特定功率电平的定标因子,至少对输出信号执行一个定标步骤。此特定的功率电平可以在诸如遵循推荐标准P.861的技术中与参考信号的功率电平有关,或者在遵循推荐标准P.862的技术中与一个预定的固定电平有关。定标因子是输出信号的平均功率的平方根的倒数值(reciprocal value)的函数。在劣化信号包括极度微弱或者静寂部分的情况下,该倒数值增加成很大的数值。正是这样的一个功率相关参数的倒数值的此行为可以以能够更好地预测受测试的系统的主观质量的这样一种方式被用于适应失真计算。
本发明的另一个目的是分别提供一种上述类型的方法和设备,包括一个更好的可控制的定标操作和用于这样更好的可控制的定标操作。
通过在上述种类的方法和设备中引入一个附加的第二定标步骤来实现这个以及其它的目的,所述第二定标步骤通过使用至少一个调整参数(但是最好是两个调整参数)应用第二定标因子来执行。在优选的情况下,第二定标因子是自乘到(raiseto)一个指数(exponent)的功率相关参数的倒数值的一个函数,其中该指数具有对应于第一调整参数的一个值,在该函数中,将功率相关参数增加一个对应于第二调整参数的值。该第二定标步骤可以在该方法和设备的各个阶段中执行。
因为依然存在将导致不可靠的语音质量预测的其它情况,所以定标因子的使用依然具有其它的缺点,所述定标因子是作为输出信号的平均功率的已知平方根的一种功率相关参数的倒数值的一个函数。这样的一种情况如下所述。两个劣化的语音信号可能具有相同的平均功率值,所述两个劣化的语音信号是受测试的具有相同输入参考信号的两个不同语音信号处理系统的输出信号。例如,一个信号仅在整个语音信号持续时间的很短时间内具有很高的功率,而在其它时间内具有非常低或者为零的功率,而另一个信号在整个语音持续时间内具有相对低的功率。这样的劣化的信号可能具有基本相同的语音质量预测,但是它们在主观体验的语音质量上可能明显不同。
本发明的又一个目的是提供一种上述类型的方法和设备,其中引入一个定标因子,所述方法和设备在如上所述具有基本相同的功率平均值的不同劣化信号的情况下也能够产生可靠的语音质量预测。
通过在上述类型的方法和设备的第一和/或第二定标操作中使用两个基于与平均信号功率不同的功率相关参数的两个新的定标因子来实现这个和其它的目的。第一新的定标因子是一个称作信号功率活动性(SPA)的新的功率相关参数的函数,所述信号功率活动性被定义为所关心的信号的功率高于或者等于一个预定阈值的整个持续时间。第一新的定标因子被定义用于在第一定标操作中定标输出信号,并且是输出信号SPA的倒数值的函数。优选地,第一新的定标因子是参考信号的SPA和输出信号的SPA之间比值的函数。这个第一新定标因子可以与以平均信号功率为基础的已知定标因子相组合(例如相乘)或者替代其使用。可以根据称作局部定标因子(即,参考信号和输出信号瞬时功率之比)获得第二新定标因子,其中在局部电平上引入调整参数。可以在执行第二定标操作操作时分别在该方法和设备的组合阶段中将第二新定标因子的局部型式(local version)直接应用于依然随时间变化的差分信号。通过在语音信号的整个持续时间上首先平均局部定标因子以及然后在执行第二定标操作时在信号组合阶段中予以应用,替代或者与使用根据在第一定标操作中使用的(已知的和/或第一新的)定标因子所获得的定标因子的定标操作相组合,实现第二新定标因子的全局型式(global version)。
在包含很长持续时间的非常低或者零功率部分的劣化语音信号的情况下,第一新定标因子更为有利,而对于包含较短持续时间的类似部分的此类信号,则第二新定标因子更为有利。
具体地,本发明提供用于根据一种客观语音测量技术相对一个参考信号确定语音信号处理系统的输出信号的质量的一种方法,该方法包括处理输出信号和参考信号并生成质量信号的主要步骤,其中该处理主要步骤包括:第一定标步骤,用于通过应用第一定标因子来定标输出信号的功率电平,其中第一定标因子是输出信号的第一功率相关参数的倒数值的一个函数;和使用至少一个调整参数,通过应用第二定标因子执行的第二定标步骤,其中第二定标因子是输出信号的第二功率相关参数的倒数值的一个函数。
本发明还提供用于根据一种客观语音测量技术相对一个参考信号确定语音信号处理系统的输出信号的质量的一种设备,该设备包括:预处理装置,用于预处理输出信号与参考信号;处理装置,用于根据一个感知模型来处理由预处理装置预处理过的信号,并生成代表输出信号与参考信号的表示信号;和信号组合装置,用于组合表示信号,并生成质量信号,所述预处理装置包括第一定标装置,用于通过应用第一定标因子来定标输出信号的功率电平,其中第一定标因子是输出信号的第一功率相关参数的倒数值的一个函数,其中该设备还包括第二定标装置,用于使用至少一个调整参数通过应用第二定标因子来执行定标操作,其中第二定标因子是输出信号的第二功率相关参数的倒数值的一个函数。
C.参考文献
[1]Beerends J.G.,Stemerdink J.A.,“根据心理声学声音表示的感知语音质量测量(A perceptual speech-quality measurebased on a psychoacoustic sound representation)”,音频工程协会杂志(J.Audio Eng.Soc.),第42卷,第3期,1994年12月,第115-123页。
[2]WO-A-96/28950;
[3]WO-A-96/28952;
[4]WO-A-96/28953;
[5]WO-A-97/44779;
[6]ITU-T推荐标准P.861,“电话频带(330-3400Hz)语音编译码器的客观测量”,06/96;
[7]ITU-T推荐标准P.862(02/2001),系列出版物:电话传输质量、电话安装、本地线路网络(Telephone Transmission Quality,Telephone Installatiohs,Local Line Networks);质量的客观和主观评估的方法-语音质量的感性估计(PESQ),一种窄带电话网络和语音编译码器的端到端语音质量评估的客观方法(an objectivemethod for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs)。
参考文献[1]-[7]作为参考引入在本申请中。
D.附图说明
将参考附图通过示范性实施例的描述进一步解释本发明,附图包括:
图1示意性地图示一个已知的系统结构,包括一个用于确定语音信号的质量的设备;
图2以方框图的形式图示一个用于确定语音信号的质量的已知设备的细节;
图3以方框图的形式图示另一个已知设备的如图2所示的类似细节;
图4以方框图的形式图示根据本发明如图2或图3所示的类似细节;
图5以方框图的形式图示一个根据本发明用于确定语音信号的质量的设备,其中包括图4所示细节的变型;
图6以图5的方框图的一部分图示图5所示设备的细节的变型;
图7以与图6类似的方式图示另一个变型。
E.具体实施方式
图1示意性地图示以人类听觉感知和识别模型为基础的一种客观测量技术的应用的已知结构,所述人类听觉感知和识别模型用于估计语音链路或编译码器的感知质量,例如遵循ITU-T推荐标准P.861和P.862之一的一种模型。它包括:受测试的系统或电信网络10,在下文中简称为系统10;和用于对所提供的语音信号进行感知分析的质量测量设备11。一方面将语音信号X0(t)用作网络10的输入信号,另一方面用作设备11的第一输入信号X(t)。将网络10的输出信号Y(t)(实际上,这是受网络10影响的语音信号X0(t))用作设备11的第二输入信号。设备11的输出信号Q代表经网络10的语音链路的感知质量的估计。因为语音链路的输入端和输出端相距很远,尤其在语音链路穿越一个电信网络的情况下,对于质量测量设备的输入信号,在大多数情况下,使用存储在数据库内的语音信号X(t)。在此,按照惯例,将语音信号理解为平均人类听觉基本上可感知的每个声音,例如语音和音调。受测试的系统当然也可以是一个仿真系统,例如仿真一个电信网络。设备11执行主要处理步骤,它顺序地包括:在预处理部11.1内由预处理装置12执行的预处理步骤;在处理部11.2内由第一和第二信号处理装置13和14执行的其他处理步骤;和在信号组合部11.3内由信号差动装置15和模拟(modelling)装置16执行的组合信号处理步骤。在预处理步骤中,为在装置13和14中的其他处理步骤准备信号X(t)和Y(t),预处理包括功率电平定标和时间校准操作。再处理步骤是指根据人类听觉系统的心理物理感知模型将(劣化的)输出信号Y(t)和参考信号X(t)映射在表示信号R(Y)和R(X)上。在组合信号处理步骤期间,由差动装置15根据所述表示信号确定差分或干扰信号D,然后根据其中已经模拟了人类测试对象某些属性的认知模型由模拟装置16处理所述信号,从而获得质量信号Q。
最近,已经通过实验得出:公知的技术(具体而言,推荐标准P.862之一)存在一个严重的缺点,即在参考信号中未出现的由于劣化信号中极度微弱或静寂部分所导致的严重失真可能导致质量信号Q,这些质量信号预测显著高于主观感觉质量的质量并因此与主观确定的质量测量结果(例如,人类测试对象的平均意见得分(MOS))的相关性很低。这种失真可能因为时间限制而出现,所述时间限制即在诸如分组交换系统中丢失分组的情况下使用静寂代替语音或音频信号内较短的部分。
因为受测试的系统的增益通常不是先验可知的,所以在初始化或者预处理阶段期间,通过使用一个定标因子至少对(劣化的)输出信号执行一个定标步骤,以便将输出信号的功率定标到一个特定功率电平上。在诸如遵循推荐标准P.861的技术中,所述特定功率电平可以与参考信号的功率电平有关。在图2中示意性地图示了用于这样的一个定标步骤的定标装置20。该定标装置20具有作为输入信号的信号X(t)和Y(t)和作为输出信号的Xs(t)和Ys(t)。定标是保持信号X(t)=Xs(t)不变,并且在定标单元21中使用一个定标因子将信号Y(t)定标成Ys(t)=S1·Y(t),所述定标因子是:
在这个公式中Paverage(X)和Paverage(Y)分别是指信号X(t)和Y(t)的平均功率。
在可能遵循推荐标准P.862的技术中,所述特定功率电平也可能与预先定义的固定电平有关。在图3中示意性地图示了用于这样一个定标步骤的定标装置30。该定标装置30具有作为输入信号的信号X(t)和Y(t)和作为输出信号的Xs(t)和Ys(t)。定标是分别使用定标因子在定标单元31中将信号X(t)定标成Xs(t)=S2·X(t),并且在定标单元32中将信号Y(t)定标成Ys(t)=S3·Y(t),所述定标因子是:
和
其中Pfixed(即,Pf)是一个预先定义的功率电平,即所谓的恒定目标电平,以及Paverage(X)和Paverage(Y)的含义分别与前面相同。
在这两种情况下,都使用定标因子,这些定标因子是功率相关参数的倒数值的函数,即,对于S1和S3来说,这是输出信号的功率的平方根,或者对于S2来说,这是参考信号的功率的平方根。在劣化信号和/或参考信号包括极度微弱或者静寂部分的大部分的情况下,这样的功率相关参数可能会降低成非常小的数值,甚至是零,并因此其倒数值可能增加成非常大的数值。这一事实提供用于使定标操作以及最好还使在其中使用的定标因子是可以调整的并因而更好地进行控制的原因。
为了实现这样的更佳的可控制性,首先,通过应用又一个第二定标因子引入又一个第二定标步骤。这个第二定标因子可以被选择为等于(但不是必需的,参见下文)在第一定标步骤中用于定标输出信号的第一定标因子,但是自乘到一个指数α。该指数α是第一调整参数,其值最好在0和1之间。有可能在质量测量设备中的各个阶段上执行第二定标步骤(参见下文)。其次,可以将一个数值大于等于零的第二调整参数Δ添加给分别在上述两种现有技术情况的第一和第二种情况中分别在一个或多个定标因子中使用的每个时间上平均的信号功率值。第二调整参数Δ具有一个预先定义的可调整数值,以便将每个定标因子的分母增加到一个更大的数值,尤其在极度微弱或者静寂部分的所述情况下。以与先前参考图2和图3所述的类似方式在初始化阶段的第一定标步骤以及第二定标步骤中使用如此修改(对于Δ≠0)或者未修改(对于Δ=0)的定标因子。下面参考图4和图5描述根据第一定标因子获得第二定标因子的三种不同方式,然后参考图6和图7描述并非此种情况的一些方式。
图4示意性地图示一个定标设备40,用于使用修改后的定标因子执行第一定标步骤和第二定标步骤。该定标设备40具有作为输入信号的信号X(t)和Y(t)以及作为输出信号的信号X’s(t)和Y’s(t)。第一定标步骤是使用修改后的定标因子分别在定标单元41中将信号X(t)定标成Xs(t)=S’2·X(t)和在定标单元42中将信号Y(t)定标成Ys(t)=S’3·Y(t),所述修改后的定标因子在具有根据图2的定标步骤的情况下是:
其中Xs(t)=X(t)(即,图4中S(X+Δ)=1),并且所述修改后的定标因子在具有根据图3的定标步骤的情况下是:
和
第二定标步骤是使用定标因子在定标单元43中将信号Xs(t)定标成X’s(t)=S4·Xs(t)和在定标单元44中将信号Ys(t)定标成Y’s(t)=S4·Ys(t),所述定标因子是:
S4=Sα(Y+Δ) (4)
如图所示,定标因子S4可以由定标单元42生成并传送给第二定标步骤的定标单元43和44。否则,定标因子S4也可以由定标单元43和44在第二定标步骤中使用在第一定标步骤中从定标单元42接收的定标因子S3生成。
显然也可以通过使用作为在各个定标单元中使用的定标因子的乘积的定标因子,将在定标设备40中执行的第一和第二定标步骤组合成由定标单元对信号X(t)和Y(t)执行的单个定标步骤,所述定标单元分别是定标单元41和43以及定标单元42和44的组合。这样一个将参数选择为-1<α≤0和Δ≥0的组合定标步骤将等价于其中仅存在使用一个定标因子的第一定标步骤的情况,在所述定标因子中将功率相关参数的倒数值自乘到一个对应于0<(α′=1+α)≤1的调整参数α′的指数,并将功率相关参数增加一个对应于参数Δ的调整值。
如此调整参数α和Δ的数值,以使对于测试信号X(t)和Y(t),客观测量的质量与主观感知的质量(MOS)高度相关。因而,将语音完全用静寂替代的劣化信号的例子看起来给出高于0.8的相关性,而使用已知方式测量的相同例子的质量显示出低于0.5的相关性。而且,对于推荐标准P.862的情况来说,看起来也是相同的。
参数α和Δ的数值可以存储在测量设备的预处理器装置内。然而,也可以通过在设备11的输入上将一定量的噪声添加给劣化的输出信号来实现参数Δ的调整,以这样一种方式使噪声量值的平均功率等于在一种特定情况下调整参数Δ所需要的值。
并非在预处理阶段,也可以在输出和参考信号的处理过程期间在后一阶段上执行第二定标步骤。然而,并不需要将第二定标步骤的位置限制在分别处理信号的阶段上。也可以在信号组合阶段中执行第二定标步骤,但是参数α和Δ的数值不同。这在图5中图示,它示意性地图示了一个类似于图1的测量设备11的测量设备50,并且该设备依次包括预处理部50.1、处理部50.2和信号组合部50.3。预处理部50.1包括第一定标步骤的定标单元41和42,定标单元42生成在图中用Sαi(Y+Δi)所示的定标因子S4(参见公式(4)),其中对于第一和第二种情况,i分别等于1和2。
在第一种情况下(i=1),第二定标步骤由定标单元51并且使用定标因子S4=Sα1(Y+Δ1)在信号组合部50.3中执行,从而将差分信号D定标成一个定标差分信号D′=Sα1(Y+Δ1)·D。
或者,在第二种情况下(i=2),第二定标步骤由定标单元52并且使用定标因子S4=Sα2(Y+Δ2)同样在信号组合部50.3中执行,从而将质量信号Q定标成一个定标质量信号Q′=Sα2(Y+Δ2)·Q。
对于参数αi和Δi,使用方法与前面结合参数α和Δ的描述相同。
作为另外一种可选择的方式,也可以作为第一种情况(i=1)的第二定标步骤的补充,但是,利用不同的适当调整参数,作为第三定标步骤来执行第二种情况(i=2)的定标步骤。
通过在第一和/或第二定标操作中引入以不同于平均信号功率的功率相关参数为基础的两个新的定标因子来实现进一步的改进。
可以在第一定标步骤以及在第二定标步骤中定义和应用第一种新类型的定标因子,此定标因子以一个与信号X(t)和/或信号Y(t)的功率有关的不同参数为基础。不使用公式(1)-(3)和(1’)-(3’)中的信号X(t)和Y(t)的时间平均的功率Paverage,可以使用一个不同的功率相关参数来定义一个用于将(劣化的)输出信号的功率定标到一个特定功率电平上的定标因子。这个不同的功率相关参数称作信号功率活动性(SPA)。将一个语音信号Z(t)的信号功率活动性表示为SPA(Z),表示信号Z(t)的功率至少等于预先定义的阈值功率电平Pthr的总的持续时间。
总的持续时间T的信号Z(t)的SPA的数学表达式如下:
其中F(t)是如下的阶跃函数:
在这里,P(Z(t))表示信号Z(t)在时间t上的瞬时功率,并且Ptr表示用于该信号功率的预定阈值。
用于SPA的表达式(5)适合于连续信号处理的情况。在使用时间帧的离散信号处理的情况中是合适的表达式如下:
其中F(ti)是如下的阶跃函数:
其中ti=(i/N)T,对于i=1,-,N和t0=0,N是分割信号Z(t)以便处理的时间帧的总数。将一个F(ti)=1的时间帧称作一个活动帧,公式(5’)累计信号Z(t)中活动帧的总数。
使用如此定义的功率相关参数SPA,以与公式(1)-(3)、(1’)-(3’)和(4)的定标因子类似的方式来定义新的定标因子,或者替代它们,或者与它们相乘进行使用。这些新的定标因子如下:
T1=T(X,Y)=SPA(X)/SPA(Y) (6.1)
T2=T(SPAf,X)=SPAfixed/SPA(X) (6.2)
T3=T(SPAf,Y)=SPAfixed/SPA(Y) (6.3)
T′1=T(Y+Δ)={SPA(X)+Δ}/{SPA(Y)+Δ} (6.1’)
T′2=T(X+Δ)=SPAfixed/{SPA(X)+Δ} (6.2’)
T′3=T(Y+Δ)=SPAfixed/{SPA(Y)+Δ} (6.3’)
和
T4=Tα(Y+Δ) (6.4)
在此,SPAfixed(即SPAf)是一个预先定义的信号功率活动性电平,可以与前面所述的预先定义的功率电平Pfixed相类似的方式来选择。
因为如此定义的定标因子也是功率相关参数(即,参数SPA)的倒数值的函数,在某些情况下,该参数也可以具有非常小甚至为零的数值,因此,在公式(6.1’)-(6.3’)和(6.4)的定标因子中使用的参数α和Δ对于定标操作更好的可控性是非常有利的。以类似于在根据公式(1’)-(3’)和(4)的定标因子中使用的参数的方式来调整这些参数,但是通常将有所不同。例如,在后一情况下,Δ具有功率的大小,并应当具有一个相对Paverage(X)(在(1’)中)或者Pfixed(在(2’)或(3’)中)不可忽略的值,而在前一情况下,Δ是非常小的数,可以简单地将其设置为1。
在下文中,将一个以语音信号的SPA为基础的定标因子称作T型定标因子,而将一个以语音信号的Paverage为基础的定标因子称作S型定标因子。
在参考图1至图5所描述的每个定标操作中,可以使用一个T型定标因子来代替一个相应的S型定标因子。
在两个不同的劣化语音信号具有相同平均功率值的情况下,所述两个不同的劣化语音信号是两个受测试的不同语音信号处理系统的输出信号并且产生于相同输入参考信号,T型定标因子的使用提供了对于不可靠的语音质量预测问题的一种解决方法。例如,如果信号之一仅在整个语音信号持续时间的短时间期间具有相对大的功率,而在其它的时间上功率极低或者为零,而另一信号在整个语音持续时间上具有很低的功率,则这样的劣化信号可能导致几乎相同的语音质量的预测,但是它们在主观体验的语音质量上可能有很大差别。在这种情况下,使用一个T型定标因子而不是一个S型定标因子将产生不同的并因而更可靠的预测。然而,因为也有可能这两个不同的劣化语音信号具有相同的信号功率活动性值,而不具有相同的平均功率值,因此也可能导致不可靠的预测,所以使用作为一个S型和一个T型定标因子组合的一个定标因子将是有利的。
可以使用各种组合方式,例如S型和T型定标因子不同或相同的功率的线性组合或者乘积组合。
一种优选的组合方式是一个S型定标因子与它对应的T型定标因子的简单乘积,从而定义一个相应的U型定标因子,如下:
U1=S1·T1,U2=S2·T2,U3=S3·T3,
U’1=S’1·T’1,U’2=S’2·T’2,U’3=S’3·T’3,和
U4=S4·T4
将在参考图1至图5描述的每个定标操作中使用每个如此定义的U型定标因子来替代相应的S型定标因子。
第二种新的定标因子是又一个不同的功率相关参数(即,语音信号的瞬时功率)的倒数值的函数。更具体地说,它是从可以称作一个局部定标因子(即,参考信号和输出信号的瞬时功率之比)中获得的。通过在语音信号的整个持续时间上平均这个局部定标因子来获得该第二新定标因子,其中已经在局部电平上引入调整参数α和Δ。如此获得的定标因子(在下文中称作V型定标因子)可以使用在测量设备50的信号组合部50.3中所执行的定标操作中,替代或者与由定标单元51和52执行的定标操作之一和在预处理部50.1中由定标单元42执行的基本上未改变的定标操作进行组合。存在多种可能性来执行一个以V型定标因子为基础的定标操作,这取决于应用其局部还是全局型式。现在,将参考图6和图7描述一些可能的执行方式。
通过下面的数学表达式给出一个V型定标因子的局部型式VL:
其中已经引入了两个调整参数,P(X(t))和P(Y(t))分别是用于参考和劣化信号的瞬时功率的表达式。参数α3和Δ3的含义与前面所述的含义类似,但是通常具有与之不同的数值。在组合部50.3内在差动装置15和模拟装置16之间的定标单元61中将这个局部型式VL应用于随时间变化的差分信号D,有可能与定标单元51执行的定标操作相组合。因此,为了指示平均,求其平均值,这隐含在模拟装置16中。
通过在语音信号的整个持续时间上求该局部型式VL的平均值,获得该V型定标因子的全局型式VG。可以如下以直接的方式求平均值:
可以由定标单元62将该V型定标因子的全局型式应用于模拟装置16输出的质量信号Q,产生定标的质量信号Q’,有可能与即在此之后(如图7所示)或者之前的由定标单元52执行的定标操作相组合,产生进一步的定标的质量信号Q”。
或者,可以由定标单元61将该V型定标因子的全局型式替代V型定标因子的局部型式,以便应用于差动装置15输出的差分信号D,有可能与即在此之后(如图7所示)或者之前的由定标单元51执行的定标操作相组合。
V型定标因子的表达式(7.1)和(7.2)也是为连续信号处理提供的。简单地将各个随时间变化的信号函数用它们的每个时间帧的离散值替代以及在这些时间帧上求和操作的积分操作,就可以获得适合于离散信号处理情况的对应表达式。
通过将特定的成对测试信号X(t)和Y(t)用于一个特定的受测试的系统,以与上述类似的方式确定α3和Δ3的多个合适的值,以使客观测试的质量与根据平均意见得分获得的主观感知质量具有很高的相关性。应当为具有相应成对测试信号的每个特定受测试的系统分别地确定V型定标因子的型式、在设备组合部内使用的位置以及与哪一种其它的定标因子相组合。总之,在劣化语音信号具有很长持续时间的极低或零功率部分的情况下,U型定标因子更为有利,而对于具有很短持续时间的类似部分的信号来说,则V型定标因子更为有利。
Claims (28)
1.用于根据一种客观语音测量技术相对一个参考信号确定语音信号处理系统的输出信号的质量的一种方法,该方法包括处理输出信号和参考信号并生成质量信号的主要步骤,
其中该处理主要步骤包括:
第一定标步骤,用于通过应用第一定标因子来定标输出信号的功率电平,其中第一定标因子是输出信号的第一功率相关参数的倒数值的一个函数;和
使用至少一个调整参数,通过应用第二定标因子执行的第二定标步骤,其中第二定标因子是输出信号的第二功率相关参数的倒数值的一个函数。
2.根据权利要求1的方法,其中对在第一定标步骤中定标的输出信号与参考信号执行第二定标步骤。
3.根据权利要求2的方法,其中通过应用第一和第二定标因子的乘积,将第一和第二定标步骤组合为单个定标步骤。
4.根据权利要求1的方法,其中对至少两个信号之一执行第二定标步骤,所述两个信号是在处理主要步骤的信号组合阶段(50.3)中确定的差分信号(D)和利用处理主要步骤生成的质量信号(Q)。
5.根据权利要求1-4之中任何一项权利要求的方法,其中第二定标因子是第二功率相关参数的倒数值的幂函数,该幂函数具有一个指数,该指数具有对应于第一调整参数的值,以及其中所述第二功率相关参数被增加一个对应于第二调整参数的值。
6.根据权利要求5的方法,其中第一定标因子是以被增加一个对应于第三调整参数的值的第一功率相关参数为自变量的函数。
7.根据权利要求6的方法,其中从第一定标因子中导出第二定标因子,第一和第二功率相关参数是相同的,并且第二和第三调整参数是相同的。
8.根据权利要求7的方法,其中第一功率相关参数包括被增加一个对应于第三调整参数的值的输出信号的平均功率。
9.根据权利要求8的方法,其中通过给输出信号增加一个具有对应于第三调整参数的平均功率的噪声信号来实现利用所述对应于第三调整参数的值增加输出信号的平均功率。
10.根据权利要求7的方法,其中第一功率相关参数包括一个总持续时间,在该总持续时间期间输出信号的功率高于或者等于一个阈值。
11.根据权利要求10的方法,其中将所述第一功率相关参数中的总持续时间增加一个对应于第三调整参数的值。
12.根据权利要求10的方法,其中在处理主要步骤期间,使用时间帧来处理参考信号与输出信号,并且利用在其期间输出信号的功率不小于该阈值的时间帧的总数来表示所述第一功率相关参数中的总持续时间。
13.根据权利要求12的方法,其中将所述时间帧的总数增加一个对应于第三调整参数的值。
14.根据权利要求5的方法,其中第一调整参数具有一个在0和1之间的值。
15.根据权利要求6的方法,其中在第一定标步骤中,通过应用第三定标因子来定标参考信号,其中第三定标因子是参考信号的功率相关参数的倒数值的一个函数,利用一个对应于第二调整参数的值来增加参考信号的功率相关参数。
16.根据权利要求10的方法,其中在第一定标步骤中,定标输出信号,第一定标因子是第四定标因子和第五定标因子的乘积,第四定标因子是以输出信号的平均功率的倒数值增加第一调整值为自变量的一个函数,其中第一调整值对应于第二调整参数,而第五定标因子是被增加对应于第二调整参数的一个值之后的总持续时间的倒数值的一个函数,在所述总持续时间期间输出信号的功率高于或等于该阈值。
17.根据权利要求4的方法,其中第二定标因子的第二功率相关参数包括被增加一个对应于第二调整参数的值之后的输出信号的功率的瞬时值。
18.根据权利要求17的方法,其中将第二定标因子的局部型式应用于差分信号(D),所述第二定标因子的局部型式是各自被增加对应于第二调整参数的所述值之后的参考信号的瞬时功率值与输出信号的瞬时功率值的比率的一个函数。
19.根据权利要求17的方法,其中将第二定标因子的全局型式应用于所述至少一个信号,所述第二定标因子的全局型式是各自被增加对应于第二调整参数的所述值之后的参考信号的瞬时功率值与输出信号的瞬时功率值的比率的一个函数在输出信号的总持续时间上被平均的结果。
20.用于根据一种客观语音测量技术相对一个参考信号确定语音信号处理系统(10)的输出信号的质量的一种设备,该设备包括:
预处理装置(12),用于预处理输出信号与参考信号;
处理装置(13,14),用于根据一个感知模型来处理由预处理装置预处理过的信号,并生成代表输出信号与参考信号的表示信号;和
信号组合装置(15,16),用于组合表示信号,并生成质量信号,
该预处理装置包括第一定标装置(21;31,32;41,42),用于通过应用第一定标因子来定标输出信号的功率电平,其中第一定标因子是输出信号的第一功率相关参数的倒数值的一个函数,
其中该设备还包括第二定标装置(43,44;51;52;61;62),用于使用至少一个调整参数通过应用第二定标因子来执行定标操作,其中第二定标因子是输出信号的第二功率相关参数的倒数值的一个函数。
21.根据权利要求20的设备,其中在预处理装置中包括该第二定标装置,用于通过应用第二定标因子来定标在第一定标装置中定标的输出信号与参考信号。
22.根据权利要求20的设备,其中信号组合装置包括:
差动装置(15),用于根据表示信号来确定差分信号(D);
模拟装置(16),用于处理差分信号,并生成质量信号;和
该第二定标装置,该第二定标装置被安排用于通过应用第二定标因子来定标两个信号之一,所述两个信号是利用差动装置(15)确定的差分信号(D)和利用模拟装置(16)生成的质量信号(Q)。
23.根据权利要求21-22之中任何一项权利要求的设备,其中该第二定标装置被配置用于通过应用第二定标因子进行定标,其中第二定标因子是第二功率相关参数的倒数值的幂函数,该幂函数具有一个指数,该指数具有对应于第一调整参数的值,以及其中所述第二功率相关参数被增加一个对应于第二调整参数的值。
24.根据权利要求23的设备,其中第一定标装置包括定标单元(42),用于通过应用第一定标因子来定标输出信号,其中第一定标因子是以被增加一个对应于第三调整参数的值的第一功率相关参数为自变量的一个函数。
25.根据权利要求21-22之中任何一项权利要求的设备,其中第二定标装置包括耦合到第一定标装置(42)的至少一个定标单元(43,44;51;52),用于接收第一定标因子,并用于应用从第一定标因子中导出的第二定标因子来执行定标操作。
26.根据权利要求22的设备,其中第二定标装置包括定标单元(61;62),用于通过应用第二定标因子来定标所述两个信号之一,第二定标因子的第二功率相关参数包括被增加第二调整参数的值的输出信号的功率的瞬时值。
27.根据权利要求21-22之中任何一项权利要求的设备,其中第一定标因子的第一功率相关参数包括输出信号的平均功率。
28.根据权利要求21-22之中任何一项权利要求的设备,其中第一功率相关参数包括一个总持续时间,在该总持续时间期间输出信号的功率高于或等于一个阈值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01200945.2 | 2001-03-13 | ||
EP01200945A EP1241663A1 (en) | 2001-03-13 | 2001-03-13 | Method and device for determining the quality of speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1496558A CN1496558A (zh) | 2004-05-12 |
CN1327407C true CN1327407C (zh) | 2007-07-18 |
Family
ID=8180008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB02806416XA Expired - Lifetime CN1327407C (zh) | 2001-03-13 | 2002-03-01 | 用于确定语音信号的质量的方法和设备 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7624008B2 (zh) |
EP (2) | EP1241663A1 (zh) |
JP (1) | JP3927497B2 (zh) |
CN (1) | CN1327407C (zh) |
AT (1) | ATE300779T1 (zh) |
AU (1) | AU2002253093A1 (zh) |
CA (1) | CA2440685C (zh) |
DE (1) | DE60205232T2 (zh) |
ES (1) | ES2243713T3 (zh) |
WO (1) | WO2002073601A1 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
CN100347988C (zh) * | 2003-10-24 | 2007-11-07 | 武汉大学 | 一种宽频带语音质量客观评价方法 |
US7525952B1 (en) * | 2004-01-07 | 2009-04-28 | Cisco Technology, Inc. | Method and apparatus for determining the source of user-perceived voice quality degradation in a network telephony environment |
US20050216260A1 (en) * | 2004-03-26 | 2005-09-29 | Intel Corporation | Method and apparatus for evaluating speech quality |
AU2005285694B2 (en) * | 2004-09-20 | 2010-09-16 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Frequency compensation for perceptual speech analysis |
US8005675B2 (en) * | 2005-03-17 | 2011-08-23 | Nice Systems, Ltd. | Apparatus and method for audio analysis |
TWI279774B (en) * | 2005-04-14 | 2007-04-21 | Ind Tech Res Inst | Adaptive pulse allocation mechanism for multi-pulse CELP coder |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
DE602007007090D1 (de) * | 2007-10-11 | 2010-07-22 | Koninkl Kpn Nv | Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems |
US8027651B2 (en) * | 2008-12-05 | 2011-09-27 | Motorola Solutions, Inc. | Method and apparatus for removing DC offset in a direct conversion receiver |
JP2013500498A (ja) * | 2009-07-24 | 2013-01-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 音声品質の評価のための方法、コンピュータ、コンピュータプログラム、およびコンピュータプログラム製品 |
CN101609686B (zh) * | 2009-07-28 | 2011-09-14 | 南京大学 | 基于语音增强算法主观评估的客观评估方法 |
WO2011018430A1 (en) * | 2009-08-14 | 2011-02-17 | Koninklijke Kpn N.V. | Method and system for determining a perceived quality of an audio system |
US9025780B2 (en) | 2009-08-14 | 2015-05-05 | Koninklijke Kpn N.V. | Method and system for determining a perceived quality of an audio system |
EP2372700A1 (en) * | 2010-03-11 | 2011-10-05 | Oticon A/S | A speech intelligibility predictor and applications thereof |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
EP2733700A1 (en) * | 2012-11-16 | 2014-05-21 | Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating intelligibility of a degraded speech signal |
US9396738B2 (en) | 2013-05-31 | 2016-07-19 | Sonus Networks, Inc. | Methods and apparatus for signal quality analysis |
KR102467707B1 (ko) * | 2013-09-12 | 2022-11-17 | 돌비 인터네셔널 에이비 | Qmf 기반 처리 데이터의 시간 정렬 |
EP2922058A1 (en) * | 2014-03-20 | 2015-09-23 | Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO | Method of and apparatus for evaluating quality of a degraded speech signal |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1192309A (zh) * | 1995-07-27 | 1998-09-02 | 英国电讯公司 | 信号质量的评估 |
US6041294A (en) * | 1995-03-15 | 2000-03-21 | Koninklijke Ptt Nederland N.V. | Signal quality determining device and method |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345535A (en) * | 1990-04-04 | 1994-09-06 | Doddington George R | Speech analysis method and apparatus |
US6232965B1 (en) * | 1994-11-30 | 2001-05-15 | California Institute Of Technology | Method and apparatus for synthesizing realistic animations of a human speaking using a computer |
DE19647399C1 (de) * | 1996-11-15 | 1998-07-02 | Fraunhofer Ges Forschung | Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen |
ATE192896T1 (de) * | 1996-12-13 | 2000-05-15 | Koninkl Kpn Nv | Vorrichtung und verfahren zur signalqualitätsbestimmung |
JP3515903B2 (ja) * | 1998-06-16 | 2004-04-05 | 松下電器産業株式会社 | オーディオ符号化のための動的ビット割り当て方法及び装置 |
DE19840548C2 (de) * | 1998-08-27 | 2001-02-15 | Deutsche Telekom Ag | Verfahren zur instrumentellen Sprachqualitätsbestimmung |
US6246345B1 (en) * | 1999-04-16 | 2001-06-12 | Dolby Laboratories Licensing Corporation | Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding |
US6661832B1 (en) * | 1999-05-11 | 2003-12-09 | Qualcomm Incorporated | System and method for providing an accurate estimation of received signal interference for use in wireless communications systems |
EP1226578A4 (en) * | 1999-12-31 | 2005-09-21 | Octiv Inc | TECHNIQUES TO IMPROVE THE CLARITY AND UNDERSTANDING OF AUDIO-REDUCED AUDIO SIGNALS IN A DIGITAL NETWORK |
NL1014075C2 (nl) * | 2000-01-13 | 2001-07-16 | Koninkl Kpn Nv | Methode en inrichting voor het bepalen van de kwaliteit van een signaal. |
ES2318820T3 (es) * | 2000-04-24 | 2009-05-01 | Qualcomm Incorporated | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. |
DK1206104T3 (da) * | 2000-11-09 | 2006-10-30 | Koninkl Kpn Nv | Måling af en samtalekvalitet af en telefonforbindelse i et telekommunikationsnetværk |
EP1244312A1 (en) * | 2001-03-23 | 2002-09-25 | BRITISH TELECOMMUNICATIONS public limited company | Multimodal quality assessment |
US20020193999A1 (en) * | 2001-06-14 | 2002-12-19 | Michael Keane | Measuring speech quality over a communications network |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
EP1465156A1 (en) * | 2003-03-31 | 2004-10-06 | Koninklijke KPN N.V. | Method and system for determining the quality of a speech signal |
-
2001
- 2001-03-13 EP EP01200945A patent/EP1241663A1/en not_active Withdrawn
-
2002
- 2002-03-01 DE DE60205232T patent/DE60205232T2/de not_active Expired - Lifetime
- 2002-03-01 CN CNB02806416XA patent/CN1327407C/zh not_active Expired - Lifetime
- 2002-03-01 CA CA002440685A patent/CA2440685C/en not_active Expired - Lifetime
- 2002-03-01 US US10/468,087 patent/US7624008B2/en active Active
- 2002-03-01 EP EP02722174A patent/EP1374229B1/en not_active Expired - Lifetime
- 2002-03-01 AT AT02722174T patent/ATE300779T1/de not_active IP Right Cessation
- 2002-03-01 AU AU2002253093A patent/AU2002253093A1/en not_active Abandoned
- 2002-03-01 JP JP2002572569A patent/JP3927497B2/ja not_active Expired - Lifetime
- 2002-03-01 WO PCT/EP2002/002342 patent/WO2002073601A1/en active IP Right Grant
- 2002-03-01 ES ES02722174T patent/ES2243713T3/es not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6041294A (en) * | 1995-03-15 | 2000-03-21 | Koninklijke Ptt Nederland N.V. | Signal quality determining device and method |
CN1192309A (zh) * | 1995-07-27 | 1998-09-02 | 英国电讯公司 | 信号质量的评估 |
Also Published As
Publication number | Publication date |
---|---|
JP2004524753A (ja) | 2004-08-12 |
CN1496558A (zh) | 2004-05-12 |
EP1241663A1 (en) | 2002-09-18 |
AU2002253093A1 (en) | 2002-09-24 |
CA2440685A1 (en) | 2002-09-19 |
EP1374229B1 (en) | 2005-07-27 |
JP3927497B2 (ja) | 2007-06-06 |
EP1374229A1 (en) | 2004-01-02 |
WO2002073601A1 (en) | 2002-09-19 |
DE60205232D1 (de) | 2005-09-01 |
DE60205232T2 (de) | 2006-04-20 |
US20040078197A1 (en) | 2004-04-22 |
CA2440685C (en) | 2009-12-08 |
ATE300779T1 (de) | 2005-08-15 |
US7624008B2 (en) | 2009-11-24 |
ES2243713T3 (es) | 2005-12-01 |
WO2002073601B1 (en) | 2002-11-28 |
WO2002073601A8 (en) | 2005-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1327407C (zh) | 用于确定语音信号的质量的方法和设备 | |
KR100610228B1 (ko) | 오디오 신호의 전송 품질 평가 방법 | |
AU694932B2 (en) | Assessment of signal quality | |
JPH09505701A (ja) | 電気通信装置の試験 | |
EP2048657A1 (en) | Method and system for speech intelligibility measurement of an audio transmission system | |
JP4263620B2 (ja) | システムの伝送品質を測定する方法及びシステム | |
Kressner et al. | Evaluating the generalization of the hearing aid speech quality index (HASQI) | |
JP4570609B2 (ja) | 音声伝送システムの音声品質予測方法及びシステム | |
US20080267425A1 (en) | Method of Measuring Annoyance Caused by Noise in an Audio Signal | |
EP1975924A1 (en) | Method and system for speech quality prediction of the impact of time localized distortions of an audio transmission system | |
Liang et al. | Output-based objective speech quality | |
CN103151049A (zh) | 一种面向移动音频的服务质量保障方法及系统 | |
US20090161882A1 (en) | Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence | |
CA2396455C (en) | Method and device for determining the quality of a signal | |
EP1492084A1 (en) | Binaural quality assessment apparatus and method | |
Meky et al. | Prediction of speech quality using radial basis functions neural networks | |
Beritelli et al. | A psychoacoustic auditory model to evaluate the performance of a voice activity detector | |
Somek et al. | Speech quality assessment | |
Gierlich et al. | Objective Prediction of Speech Quality for Wideband Communication Scenarios Including Background Noise | |
SU1007206A1 (ru) | Объективный измеритель эквивалентов затухани | |
Chen et al. | An erb loudness pattern based objective speech quality measure | |
Badzmirowski et al. | Methods and systems for accurate as well as estimated evaluation of quality of speech signals transcoding in inter-network telecommunications link | |
Adar et al. | TESPAR coded speech quality evaluation (TCSQE) | |
Bramsløw | Objective Scaling of Sound Quality for Normal-Hearing and Hearing-Impaired Listeners | |
Marzin et al. | A prediction of audio quality for personal audio devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20070718 |