CN1311581A

CN1311581A - 计算机实现的音频数据隐藏的方法和装置

Info

Publication number: CN1311581A
Application number: CN01103253.7A
Authority: CN
Inventors: 洪·H·于(音译); 李欣(音译)
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-02-10
Filing date: 2001-02-08
Publication date: 2001-09-05
Anticipated expiration: 2021-02-08
Also published as: JP2001282265A; JP3856652B2; DE60107308D1; EP1132895B1; EP1132895A2; US7058570B1; EP1132895A3; DE60107308T2; CN1290290C

Abstract

一种计算机实现的将隐藏数据嵌入音频信号的方法和装置。在基域接收一个音频信号,随后将其变换到诸如对数倒频谱域或线性预测剩余域的非基域。对所选定的变换系数进行统计平均值操作,以嵌入隐藏数据。引入的失真由心理声学模型控制以保证所嵌入的隐藏数据不被察觉。插入加密技术能够进一步提高数据隐藏系统的安全性。对于广域的常规信号处理攻击,本新颖的音频数据隐藏方案提供透明的音质、足够的嵌入容量、以及高耐久性。

Description

计算机实现的音频数据隐藏的方法和装置

本发明一般涉及计算机实现的数据隐藏。更具体地说，本发明涉及计算机实现的音频数据隐藏。

电子媒体发行对内容保护机制提出了高要求，以保证媒体发行的安全。主要由于因特网上极为突出的电子媒体发行，用于数字媒体的复制控制及版权保护的不易察觉的数据隐藏正逐步受到广泛重视。

尤其是，数字数据能够通过因特网方便地传输，以及能够制作和发行原始数据的无条件完整拷贝的事实，主要引起了对知识产权管理的忧虑。需要着手进行版权保护和重放/记录控制，使得产权人同意数字媒体的电子发行。诸如DVD-RAM,CD-R,CD-RW,DTV的数字拷贝技术、以及高质量压缩和数字多媒体信号处理软件的广泛应用，增加了知识产权方面的问题。例如，使用MP3压缩(MPEG-I第3层音频编码标准)使得用户能够通过因特网上未经许可的web网站下载CD(compact disc)质量的音乐。

音频媒体中数据隐藏的以往方法集中于将隐藏数据嵌入基域(原始时域)。这些方法导致对音频信号同步结构的攻击和失真。这种攻击和失真(例如，时标偏差和声调移动偏差的攻击)能够根本上改变时域中音频信号的结构，但对声音质量几乎没有影响。因此，它们通常被视为音频数据隐藏中最具有挑战性的问题。

本发明目的在于克服前述不足。本发明将隐藏数据嵌入变换域，优先地，嵌入对数倒频谱或线性预测剩余域。本发明的要义是，提供将隐藏数据嵌入音频信号的计算机实现的方法和装置。在基域接收音频信号。所接收的音频信号被变换到非基域。在变换的非基域音频信号中嵌入隐藏数据。对于严格同步的破坏性攻击，变换域表示法可以显示出比基域表示法更为强健。例如，音频信号重要的知觉特征，诸如声调或声道，能够在某变换域中被适当地参数化。通常的信号处理攻击很少修正这些特征，除非根据透明要求对性能恶化，即话音听觉质量显著下降，进行补偿。

在变换域中，本发明采用统计平均值控制嵌入方案。此方案基于选择的变换系数的统计平均值在大多数常用信号处理后通常发生小扰动。通过控制统计平均值，将以二值格式隐藏的数据一帧一帧的嵌入话音。对正平均(比某预设阈值大)强制进位“1”位。引入的失真由心理声学模型控制以满足透明要求。此外，通过使用由产权人持有作为安全密钥的加密滤波器对变换系数施用加密技术，此方案的安全等级能够进一步提高。使用这些新技术，本发明在满足透明(指嵌入数据不会引入任何显著可听见的失真)要求的条件下使嵌入数据存留得最久。

连同附图一起所作的后续描述以及所附权利要求将使附加的优点和特征更为明确，附图中相同参考数字代表相同部件。

图1为描述音频数据隐藏系统的方框图；

图2a-2c描述的曲线图说明了使用本发明的线性预测剩余域技术处理音频信号；

图3是说明利用对数倒频谱域处理音频数据信号的方框流程图；

图4a-4d是描述某段声音信号的对数倒频谱表示的x-y曲线图；

图5是描述例示的二值调制的曲线图；

图6a-4b是描述使用本发明的线性预测剩余域技术进行嵌入处理的x-y曲线图；

图7a-7b是描述使用本发明的对数倒频谱域技术进行嵌入处理的x-y曲线图；以及

图8是用作本发明中加密技术的、包含一个示明N个极点随机分布于其上的单位圆的曲线图。

用于隐藏音频信号中次要数据的本发明系统示于图1。音频信号x(n)20通过输入装置在时域被接收，并通过变换处理28映射为变换域中一个等价表示X(n)24。变换处理28产生描述信号X(n)特性的变换域系数29。数据嵌入器模块32在变换域中将隐藏数据36(诸如识别数据)嵌入信号X(n)24以产生Y(n)信号40。优选地，数据嵌入器32利用系数控制器模块41控制变换域系数，以嵌入数据。

通过逆变换处理44Y(n)信号40被映射回时域，以恢复标记的音频信号y(n)48。使用变换域中的心理声学模型52以控制嵌入数据具有不被听见性，以使y(n)信号48在感觉上与x(n)信号20无显著区别。经过由块60表示的可能的攻击后，播放信号z(n)64以致能听见音频信号。通过全球通信网(如因特网)传输的信号z(n)64可以在一台远处计算机上听见。为了取出信号z(n)64中的隐藏数据，将信号z(n)64通过变换块68映射为要通过处理76进行数据提取的变换域信号Z(n)71。为了从信号Z(n)71中产生提取数据，提取处理76本质上与块32的嵌入处理相反。

尤其是，本发明采用一种在变换域使用的音频定期隐藏的新方法。变换域系数(通过非基本变换域产生的，并且在对数倒频谱域例示描述的特征)对于各种不同的攻击更为有效。例如，攻击会显著改变时域中音频同步结构，但是其变换域表示受到的扰动少得多。因此，对于音频数据隐藏方案，本发明包括但不限于以下组成部分：参数表示，数据嵌入策略，以及心理声学模型。

变换域

在优选实施例中，变换处理28和68均使用一个非基本域变换处理100。某变换域表示能够提供一种等价的、但常常更标准的音频信号表示。例如，音频信号的对数倒频分析从激励信息中清楚地分离出声道信息，并且频域表示准确包含了不同频率处具有物理意义的相同的音频信息。表示方法的选择取决于特定的应用和问题的组成。在数据隐藏方案中，本发明目标在于具有尽可能多的“攻击不变式”的变换域，即经过常用的信号处理或甚至蓄意的攻击后，变换域表示比原始时域表示产生的变化小得多。本发明的优选实施例产生的变换域系数能够被分为两种情况：线性预测剩余域处理104和对数倒频谱域处理108。

LP剩余域

线性预测分析104将信号x(n)20表示为两部分线性卷积：全作用(AR)滤波器a(n)和剩余序列e(n)。AR滤波器a(n)几乎包含了x(n)包络的全部信息，并且剩余e(n)包括其精细结构的信息。图2a-2c示出对于某段话音信号所作的一个具有示范阶数N=50的线性预测分析的实例。图2a描绘了原始音频信号X(n)20的示例曲线图。图2b描绘了应用AR滤波器a(n)后图2a的原始音频信号X(n)20的示例曲线图。结果信号由参考数120示出。图2c是描述图2a原始音频信号X(n)20的剩余信号e(n)124的曲线图。甚至在攻击信号x(n)后，信号a(n)和e(n)在保持x(n)的音频质量期间几乎不受影响。因此，本发明能够将a(n)和e(n)用于数据隐藏域。

在优选实施例中，选择剩余域而不是a(n)是出于以下理由：1)e(n)与原始信号x(n)具有相同的维数，而a(n)通常与预测阶数具有相同的维数。较大维数更适于数据隐藏目的；2)从感官上a(n)更为重要，并且它允许的扰动比e(n)少得多。因而，LP合成和LP分析均依赖于a(n)。随着a(n)被变形，变换不再是线性的，并且通常难以用解码器恢复a(n)。

对数倒频谱域

对数倒频谱分析将声道信息从激励信息中分离，并且分离出包括物理声谱特征的频率分量。各由三个线性运算组成的对数倒频谱域变换108和其逆处理204在图3中示出。对数倒频谱域变换108的线性运算包括对信号x(n)20的一个快速付里叶变换(FFT)，一个对数运算，随后一个快速付里叶逆变换。对数倒频谱域变换108的结果为对数倒频谱域中的信号X(n)24。逆对数倒频谱变换204的线性运算为信号X(n)24的一个快速付里叶变换，一个指数运算，以及一个快速付里叶逆变换。逆对数倒频谱变换204的结果为时域中的x′(n)。优选地，本发明使用复对数倒频谱的实部。

对数倒频谱分析的一个特征是，对数将频域中的乘积(时域中的卷积)变为对数频率域的和。因此，它将一个线性化结构施加于此系统。图4a-4d示出了对于某段话音信号的对数倒频谱表示法。更具体地，图4a-4d描述所记录的复对数倒频谱X(n)的实部。值得注意的是，在中心附近的大的对数倒频谱系数包含x(n)包络的重要信息；而在两边的小的对数倒频谱系数包含精细结构。由图4c和4d可以看出，在时域中经过严重的攻击后它们大部分受到小的扰动(即1％的抖动)。

数据嵌入方案

结合变换域处理及本发明的其它特征方面，本发明采用了一种新颖的数据嵌入方法。本发明利用变换域系数以嵌入数据。通过利用选定特征的统计平均值控制嵌入位，实现优选的嵌入。例如，在对数倒频谱域嵌入中，通过强制正平均值，嵌入“1”，并且如果嵌入“0”则零平均值保持不变。

注意到，选定特征常常遵守其平均值为或几乎为零的单一形式的分布。如果平均值m_I不精确为零，一个I_I=I_I-m_I处理将除去偏离的平均值而不影响音频质量。

统计平均值处理技术能被视为一种基于所选定特征的统计平均值的调制方法。如上所述，这种平均值通常无需调制即位于零附近。因此，通过将统计平均值取为某预设值，特别的信息被载入解码器。(注意尽管为了数据隐藏目的，此值必须足够小以使调制后不会出现可听出的人为效果。)

例如，本发明的二值调制方案使用如下：

H₁：使E{X_I}=T

H₀：使E{X_I}=-T

其中E{X_I}代表X_I的期待值，并且T＞0为某预设值。

在解码器，通过计算X_I的统计平均值，嵌入的数据值“0”或“1”被解码。为了得到更高的精度，常常需要将图5中的区域T和-T尽可能地分开，即保持尽可能少的重叠区域。也可以采用其它调制方案。例如，在传统的扩频方案中，调制是通过将一个作为识别标志的伪随机序列插入主信号而实现的，并且识别标志携带了一位信息。与传统的基于扩频相关检测方案相比，本发明具有对在攻击中引入的失真的统计行为的不太严格的假设。它假设引入的失真具有零平均值，而基于相关的方法常常要求在识别标志和主信号间进行校正，这在实际上并不总是可行的。在涉及时标偏差和声调移动偏差的宽域攻击方面，本发明的实验结果表现得极为强健。

以下各节详细讨论本发明在LP剩余域和对数倒频谱域这两个变换域的嵌入。

LP(线性预测)剩余域中的嵌入

信号e(n)用于表示经LP分析后的剩余信号。参考图6a和6b，当预计阶数足够大时，e(n)非常接近于白噪声，因此常常能够以零平均值单形态概率函数模拟。为了在e(n)中嵌入一位(一个bit)，对e(n)进行如下操作：

为嵌入“1”:e’(n)=e(n)+th，如果e(n)≤0；为嵌入“0“:e’(n)=e(n)-th，如果e(n)≤0；其中th是正数，用于控制心理声学分析决定的引入失真的量值。一遍操作不能保证解码器产生的剩余数与解码器中的数遵从同样的分布。因此，优选地采用重复操作以保证其收敛。通常重复K=3足够得到收敛结果。

完成上述操作后，e(n)的统计平均值可能偏离其原始值，并且其符号代表嵌入位。图6a和6b示出了上述操作对e(n)统计平均值的直方图的影响。图6a的原始单形态分布250被分开为图7b的一个双形态分布254：一个其中心位于左半平面的峰258，以及一个其中心位于右半平面的峰262。因此，通过选择阈值为零，可以确定哪一位已被嵌入解码器。

对数倒频谱域的嵌入

在本发明的对数倒频谱域变换实施例中，偏离中心(｜i-N/2｜＞d)的对数倒频谱系数的统计平均值能够由零平均值单形态概率函数模拟。同样地，使用其平均值以隐藏附加信息。可是，由实验发现对数倒频谱表示法具有不对称特性：完成某种信号处理后，负平均值常常得到比正平均值大得多的差别，即正平均值比负平均值强健得多。因此，优选地对以上平均值操作进行如下补充：

为嵌入“1”:e’(n)=e(n)+th，如果e(n)...0；为嵌入“0”:e’(n)=e(n)

其中th又是正数，它由心理声学模型控制。本发明优先避免使用负平均值，并且使用正平均值以表示符号的存在。数据隐藏前的统计平均值直方图示于图7a，并且图7b示出了数据隐藏后的直方图。同样地，试验统计学的双形态分布能够正确检测嵌入位。应该认为本发明不局限于只处理统计平均值，而是包括处理其它统计测量值(例如标准偏差)。

加密方案

有意的攻击者也许能够使用类似的平均值操作方案消除或修改嵌入数据。为了对付此种情况，使用加密技术能够提高其安全性。加密滤波器由产权人选择并保密。参照图8，长度为N的加密滤波器f(n)是具有随机分布于单位圆上的N个极点的全通滤波器。加密/解密操作被定义为：y=ifft(fft(x).^*f)  x=ifft(fft(y).^*conj(f))加密解密

由于控制加密滤波器的“密钥”远离攻击者，因此难以攻击上述系统。同时，测试结果表明，对于LP剩余域方法，加密还显示了生成更良好声音质量的优点。

心理声学模型

引入的失真直接由定标因子控制。为保持嵌入的识别标志不被听见，由心理声学模型控制偏移因子th。频率域中的心理声学模型先前已得到研究并已提出。例如，在MPEG音频译码中指定了一种普遍接受的子频带域的优良模型。在LP剩余域或对数倒频谱域中，仍然缺乏系统的心理声学模型来控制引入失真的不被听见。解决此问题的一个途径是，在频率域或通过使用频率域模型对阈值进行控制。本发明中采用LP剩余域和对数倒频谱域中的直观模型。它们根据生成阈值表的主观听力测试构成。

如上所述，引入的失真由选定特征所被偏移的正数值th进行控制。该数选择得越大，此方案越优异，但引入的噪声越可能是可听见的。为了保证标记的音频从听觉上与原音无区别，本发明采用一种心理声学模型，即由调节th的主观听力测试生成的上述阈值表。对于各帧音频抽样，根据阈值表中设立的值调整th。根据对不同类型的音频信号的测试结果，采用以下特定模型：

1)LP剩余域

当涉及加密和迭代时，将th选择为：

th=max(const,var(e))

其中常数取值范围为0.5～1e-4，并且项“e”代表LP剩余信号，它使用“var”表示标准偏差函数。噪声音乐如摇滚乐的常数值普遍比轻柔音乐的大。

2)对数倒频谱域

与音频信号的不同符号对应的对数倒频谱系数具有不同的允许失真。中心附近(大系数)的这些系数普遍比远离中心的系数能承受更大的失真：

th=1～2e-3用于小的对数倒频谱系数；1～2e-2用于大的系数。

当然，上述选择仅仅是对于以上无限制示例的示范。以上示例描述了20～40bps容量范围的音频数据隐藏(音频以44,100Hz采样并且以16bits数字化)。如果较低的嵌入容量是足够的，那么本发明在透明度和容量间取得了较好均衡。

试验结果

1．透明度测试

定量测量音频信号的听觉质量常常是困难的。可是，由信噪比(SNR)衡量的测试信号与原信号之间的差别能够部分地表明引入失真的能量。下表所示为数据隐藏方案与流行的MP3压缩技术的信噪比的比较。

	MPEG-I			数据隐藏
	MPEG-I			数据隐藏	(Kbps)	64	48	32	**
SNR(dB)	26.4	22.1	16.6	21.9	(Kbps)	64	48	32	**

具体地，此表将标记音频的信噪比与不同比特率的解码音频的信噪比进行比较。包括摇滚乐及经典柔和音乐的小测试台，对于所述系统给出了至少21.9dB的信噪比。普遍认为，以64kbps压缩的MP3具有透明的音质。尽管本数据隐藏测方案的信噪比值比以64kbps压缩的MP3的信噪比大约低4～5dB，家庭、办公室、以及实验室环境中的主观听力测试表明，在听觉上标记的话音与原音无差别。

2．容量

本发明具有足够的嵌入容量以满足多数实际应用的需要。本发明的数据隐藏容量达到40bps。考虑普通歌曲的间隔大约为2～4分钟，本发明能具有高达1,200bytes的容量，它足够用于嵌入一个Java小应用程序。因此，本发明具有很多的应用，以致它能用于(但不限于)重放和录音控制、以及要求嵌入现用数据的任何应用中。

3．耐久性

本发明通过将音频信号的常规攻击分为两类，提出了提取阶段的同步化问题。类型-Ⅰ攻击包括MPEG-Ⅰ编码/解码、低通/带通滤波、相加/相乘噪声、迭加回声以及重新抽样/重新量化。这类攻击通常不显著改变话音的同步结构，而仅仅由某些随机抽样数全局移动整个序列。类型-Ⅱ攻击包括抖动、时标变形、声调移动变形以及上抽样/下抽样。此类攻击通常破坏话音的同步结构。采用本发明的初步实验结果表明，嵌入数据显示出超过上述两类攻击的高耐久性。例如，它能耐久64kbps MP3压缩、8kHz低通滤波器、音量达40％并且延迟0.1s的回声迭加，5％的抖动、以及因子为0.8的时标偏差。

显然，如上描述的本发明可以具有许多变化形式。这些改变并没有背离本发明的实质和范围，并且所有本领域中的技术改良形式显然均属于以下权利要求的范围。

Claims

1．一种计算机实现的、用于在音频信号中嵌入隐藏数据的方法包括步骤：

接收基域中的音频信号；

将所接收的音频信号变换到非基域；并且

由音频信号的参数表示法将隐藏数据嵌入变换的非基域中。

2．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到非基域，以便生成由变换的非基域音频信号表示的变换域系数。

3．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到非基域，以便生成由变换的非基域音频信号表示的变换域系数；并且

对变换域系数的选定子集的统计测量进行控制，以嵌入隐藏数据。

4．根据权利要求3的方法进一步包括步骤：

由变换的非基域音频信号的至少一个预定统计特征调制嵌入数据。

5．根据权利要求3的方法进一步包括步骤：

增加变换的非基域音频信号的至少一个预定特征的幅值，使得预定特征的统计平均值为正以在音频信号中嵌入一位“1”。

6．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到线性预测剩余域；并且将隐藏数据嵌入线性预测剩余域。

7．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到对数倒频谱域；并且将隐藏数据嵌入对数倒频谱域。

8．根据权利要求1的方法进一步包括步骤：

使用伪声学模型控制嵌入数据不被听见。

9．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到非基域，其中非基域从由线性预测剩余域和对数倒频谱域构成的群中选取；

使用变换的非基域音频信号中的嵌入隐藏数据生成一个逆变换信号；

接收对生成的逆变换信号的攻击；

将被攻击的逆变换信号变换到非基域，以生成一个非基域中的第二变换音频信号；以及

从非基域的第二变换音频信号中提取嵌入的隐藏数据。

10．根据权利要求1的方法进一步包括步骤：

将所接收的音频信号变换到对数倒频谱域；

将隐藏数据嵌入对数倒频谱域；以及

强制正平均值嵌入一个“1”，并且保持零平均值不动以在对数倒频谱域中嵌入一个“0”。

11．一种计算机实现的将隐藏数据嵌入音频信号的装置，包括步骤：

一个用于接收基域中的音频信号的数据输入装置；

一个连接于数据输入装置、用于将所接收的音频信号变换到非基域的信号变换器；

一个连接于信号变换器、用于将隐藏数据嵌入已变换的音频信号非基域的嵌入器。

12．根据权利要求11的装置，其特征在于，信号变换器将所接收的音频信号变换到非基域，以致生成表示已变换的非基域音频信号的变换域系数，所述嵌入器为了嵌入隐藏数据对变换域系数的选定子集的统计测量进行控制。

13．根据权利要求11的装置，其特征在于，信号变换器将所接收的音频信号变换到线性预测剩余域，所述嵌入器将隐藏数据嵌入线性预测剩余域。

14．根据权利要求11的装置，其特征在于，变换器将所接收的音频信号变换到对数倒频谱域，所述嵌入器将隐藏数据嵌入对数倒频谱域。

15．根据权利要求11的装置进一步包括：

一个用以控制所嵌入的数据不被听见的伪声学模型。

16．根据权利要求11的装置，其特征在于，变换器将所接收的音频信号变换到对数倒频谱域，通过强制正平均值嵌入“1”以及保持零平均值不动以在对数倒频谱域中嵌入一个“0”，所述嵌入器将隐藏数据嵌入对数倒频谱域。