文仁軼 王樞 葛運龍
摘 要 MP3已經(jīng)成為數(shù)字音頻的主流壓縮編碼。本文從實驗出發(fā)探討了MP3編解碼對時域和頻域兩方面影響,重點分析MP3編解碼對水印信號的影響,基于此得出針對時域變化采用載體信號和重采樣劃分來實現(xiàn)嵌入與提取同步,通過量化相鄰子幀低頻能量比來嵌入信息以消除頻域失真。
關(guān)鍵詞 MP3 音頻水印 同步機制
中圖分類:TP393 文獻標識碼:A
0引言
隨著數(shù)字音頻技術(shù)的發(fā)展,水印技術(shù)得到越來越多的研究與關(guān)注。由于人類聽覺系統(tǒng)(HAS)極為靈敏,音頻感知冗余較小,水印同時滿足隱蔽性和魯棒性條件的困難較大,音頻水印的研究相比較于圖像水印更具有挑戰(zhàn)性。
1MP3音頻水印
現(xiàn)有MP3音頻水印算法大致可以分為兩類:一類為壓縮中和壓縮后嵌入,其實質(zhì)是通過修改MP3的編碼中的感知非敏感信息來嵌入秘密信息,可以獲得較好隱蔽性和較大的嵌入容量,MP3Stego隱寫工具就采用了這種方法但是這類算法只是“躲過”了有損壓縮,本身并不能抵抗MP3壓縮算法。另一類為壓縮前嵌入,一般通過修改頻域嵌入來獲得較好的魯棒性。此類算法都缺乏變采樣率MP3編解碼測試,對MP3攻擊的測試也較簡單,碼率設(shè)置較高,壓縮比較低,或者不說明壓縮參數(shù),無法證明其同樣適用于高壓縮比的MP3編碼;且水印算法設(shè)計僅考慮了有損壓縮帶來的波形失真,嵌入與提取缺乏相應的同步機制雖然在音頻水印系統(tǒng)中引入了同步信號,缺點是所用的算法對音頻能量幅度的變化非常敏感,不適合壓縮編碼。本文采用多種MP3工具分析了編解碼后信號時域和頻域的變化,根據(jù)編解碼前后低頻能量的穩(wěn)定性,通過量化相鄰子幀低頻能量之比比較對水印信息的影響,然后對每一幀進行了不可感知性評價。
2MP3編解碼對音頻信號的影響
原始音頻信號經(jīng)過MP3編解碼后在時域和頻域都發(fā)生了改變,時域變化主要受編碼器影響,頻域失真則與壓縮采用的碼率和采樣頻率有關(guān)。實驗用原始音頻都為從CD抓取的wav格式音頻,44.1kHz采樣頻率f下文中如不特別聲明,原始信號采樣頻率默認為44.1kHz),16bit精度,MP3工具包括了Co0ledit2000Pro,iTunes,MP3 Audio Converter,Win amp Prov5.34。
2.1時域變化
任意截取長度為0.5s的原始音頻片段用Cooledit2000Pro經(jīng)過128kbps,44.1kHz的MP3編解碼后音頻時長從O.58變?yōu)?.574s,前面增加1635個樣點。這些增加的樣點大部分為零值點,少量為頭尾幀邊緣效應數(shù)據(jù)。MP3編碼時采用的MDCT為正交重疊變換,頭尾幀變換時需補零,從而產(chǎn)生邊緣效應,MP3編解碼后這部分數(shù)據(jù)也被加到音頻中。這里把前后增加的樣點分別稱為前邊緣信號和后邊緣信號,而把中間的樣點稱為有效信號。前邊緣信號長度與后邊緣信號大致相等,邊緣信號長度與MP3編碼器有關(guān),是不同的MP3編解碼工具音頻的前邊緣信號樣點個數(shù)。經(jīng)過MP3編解碼后進行水印提取時,由于邊緣信號的加入,嵌入位置在時域上已經(jīng)改變,須要進行重定位。若有效信號本身的開始或者結(jié)尾就為一系列零值樣點,那么經(jīng)過MP3編解碼后這些有效信號的零值樣點會與邊緣信號混淆,更難確定時域的提取起始點。
2.2頻域失真
MP3編碼是一種有損壓縮,將每幀樣點分為等寬子帶,每個子帶根據(jù)心理聲學模型計算信掩比,再根據(jù)編碼碼率進行比特分配,得到量化因子,最后對MDCT系數(shù)進行量化和Huffman編碼。若進行變采樣率MP3壓縮,還會對信號進行減采樣。MP3編碼主要是利用聲音的頻域掩蔽效應,使量化噪聲處于頻域的掩蔽閾值之下,去除了音頻中的感知冗余成分,包括一些能量很小的頻率成分。低頻(<3kHz)部分集中了音頻信號大部分能量,可感知的頻率成分最多,雖然掩蔽閾值較大,但信掩比(signal-to-mask ratio,SMR,表示信號聲強與最小掩蔽閾值之比1相對較大,所以低頻能量經(jīng)過MP3編解碼后失真很小。反之高頻(>10kHz)部分能量很小,可感知的頻率分量也相對較少,雖然掩蔽閾值較小,但信掩比相對較小,高頻能量經(jīng)過MP3編解碼后失真較大。如果采用變采樣率MP3編解碼,隨著采樣頻率的降低,高頻部分損失會進一步增大。隨著編碼碼率和采樣頻率的降低,壓縮比增大,高頻能量失真幅度也顯著增大,而低頻能量失真很小且?guī)缀醴€(wěn)定。由此可見,經(jīng)MP3編解碼后,10k以上頻率能量變化幅度最大可達到33.24%,而3kHz以下頻率能量變化幅度最大只有4.19%。更多實驗顯示,若音頻信號本身能量較大且高頻成分豐富,例如~段節(jié)奏很快的搖滾樂,經(jīng)MP3編碼后,10kHz以上頻率能量變化幅度最大可以超過90%,而3kHz以下頻率能量變化幅度仍然不超過4%。故音頻的低頻能量對MP3編解碼具有很好的魯棒性。
3結(jié)束語
本文主要分析了MP3編解碼對于水印的影響,通過分析如果在原始音頻中嵌入水印再編碼,這種水印在采樣和量化環(huán)節(jié)的失真比較嚴重,故在低頻中嵌入水印有更好的魯棒性。
參考文獻
[1] Katzenbeisser S,F(xiàn)abien A Petit colas P編,吳秋新,鈕心忻,楊義先,羅守山,楊曉兵譯,信息隱藏技術(shù)—— 隱寫術(shù)與數(shù)字水印.北京:人民郵電出版社,2001:104—105.
[2] 劉偉,王朔中,張新鵬一種基于部分mp3編碼原理的音頻水印.中山大學學報(自然科學版),2004年,43增刊(2):26—33.
[3] 項世軍,黃繼武,王永雄.一種抗AD/DA變換的音頻水印算法.計算機學報,2006年,29(2):308—316