林曉丹
(華僑大學 信息科學與工程學院,福建 廈門361021)
近年來,由于數(shù)字錄音設(shè)備的廣泛應用和音頻編輯處理技術(shù)的發(fā)展,編輯數(shù)字錄音變得非常容易.非專業(yè)人士也可以輕而易舉地修改音頻內(nèi)容而不留下痕跡.數(shù)字錄音作為法庭舉證中一項非常重要的證據(jù),可能被非法篡改.如果這些偽造音頻被利用,將嚴重影響司法判決的公正.盡管數(shù)字簽名和數(shù)字水印技術(shù)也能為音頻的真實性和完整性提供保障,但現(xiàn)有的錄音設(shè)備大多無法預先嵌入水印或簽名信息,因此,數(shù)字語音盲取證技術(shù)變得迫在眉睫[1].現(xiàn)有的音頻盲取證主要著眼于以下4個方面:1)基于電網(wǎng)頻率的分析[2],這是目前最有效的音頻盲取證方法,但對使用電池供電的錄音設(shè)備,例如MP3、錄音筆、手機等,這種檢測方法失去了其有效性;2)基于錄音環(huán)境的分析[3-4];3)針對特定類型篡改的檢測[5-7];4)分析音頻統(tǒng)計特性的變化[8].目前,多數(shù)錄音設(shè)備直接錄制的音頻都是wav格式的數(shù)字音頻文件,以原始的波形文件作為檢測對象,由于插入、替換、刪除、拼接操作,導致音頻前后樣點相關(guān)性減弱,線性預測殘差與原始音頻的殘差相比出現(xiàn)明顯差異.因此,本文通過分析原始音頻和篡改音頻的線性預測殘差,在對殘差信號進行統(tǒng)計分析的基礎(chǔ)上,提出一種能夠檢測并定位篡改位置的語音盲取證方法.
線性預測的基本思想是用若干個過去的語音取樣的線性組合來預測當前的語音樣值.1個p階的線性預測模型可表示為
式(1)中:p為預測階數(shù);s(n)對應n時刻輸入的語音樣點;ai為線性預測系數(shù)(LPC);(n)為線性預測方法對s(n)的估值.線性預測誤差(n)為
線性預測模型的關(guān)鍵在于預測系數(shù)ai的求解.通過使預測誤差的均方值最小,即滿足E[(n)]2最小,可解得ai.求取ai的過程中,采用Levinson-Durbin遞推算法對Yule-Walker方程組求解,即
式(3)中:R(m)=E[s(n+m)s(n)]為s(n)的自相關(guān)序列.
預測系數(shù)ai可以準確捕獲說話人的聲道特征,對于錄音信號的篡改痕跡,同樣可以體現(xiàn)在預測系數(shù)上.語音信號在短時間內(nèi)具有較大的相關(guān)性,對語音的篡改操作必然會破壞前后樣點的相關(guān)性,篡改音頻在頻譜上也將出現(xiàn)明顯的不連續(xù)性,最終導致在篡改位置預測系數(shù)無法準確表征語音的頻譜幅度.線性預測階數(shù)為13時,對一段語音的預測結(jié)果如圖1所示.由圖1可知:未發(fā)生篡改時,線性預測結(jié)果能夠準確跟蹤輸入語音的變化;而對于篡改語音,預測結(jié)果則無法準確跟蹤其變化情況,產(chǎn)生較大的預測誤差.為了克服語音能量變化的影響,將線性預測殘差信號歸一化,即其中:Ep為求解線性預測系數(shù)ai時得到的最小均方誤差.
圖1 語音線性預測結(jié)果Fig.1 Linear prediction results of the speech
對于原始的語音信號,在計算線性預測系數(shù)的過程中,語音信號的短時相關(guān)性已被大部分去除,可認為預測殘差和語音信號無關(guān).理論上,理想的殘差信號應具有平坦的功率譜.然而,上述結(jié)論只有當殘差信號為零均值,且預測階數(shù)足夠高的前提下才成立.采樣率均為16kHz的原始語音和篡改語音LPC殘差信號的頻域解釋,如圖2所示.圖2中:S(f)為功率譜.由圖2(a)可知:即使語音未遭受篡改,其預測殘差也不具有平坦的功率譜;殘差信號包含的諧波分量非常明顯,其頻率ωm是語音基頻ω0的整數(shù)倍,即ωm=m·ω0.考慮到實際錄音環(huán)境和錄音設(shè)備可能存在噪聲,原始語音的線性預測殘差信號e(n)表示為.其中:am,θm分別為諧波幅度和相位;M為殘差信號中的諧波數(shù)目;w(n)為環(huán)境噪聲,其帶寬為Bw.
圖2 語音線性預測殘差信號功率譜對比Fig.2 Power spectrums of LPC residual of the speech
由圖2(b)可知:篡改處的不連續(xù)性使預測殘差出現(xiàn)了許多新的頻率分量,這些頻率分量可能包含新的基音頻率,例如,拼接、替換、插入操作引入新的諧波分量.這時殘差信號包含原語音的諧波分量、環(huán)境噪聲及篡改引入的隨機噪聲c(n).其中:c(n)包含的頻率成分與原語音的基頻無關(guān).新的諧波分量不單獨列出,也包含于c(n)中.因此,篡改語音的殘差表示為θ′m).其中:篡改語音中原語音殘差的諧波數(shù)目、幅度和相位可能發(fā)生變化,分別記為N,a′m和θ′m.
盲檢測方法沒有原始的語音信號作為參考,且可能存在錄音環(huán)境和設(shè)備噪聲,因此,僅從語音信號功率譜的變化情況很難判斷是否出現(xiàn)了篡改.從信號的統(tǒng)計特性出發(fā),對殘差信號進行分析.
如果x(n)是零均值隨機序列,其三階和四階累積量為γ3=E{x3(n)}=m3{0,0},γ4=E{x4(n)}-3E2{x2(n)}=m4{0,0,0}-3m22(0).x(n)的偏度和峰度分別用三階和四階累積量測定,即α=
語音的諧波分量主要集中在中低頻范圍內(nèi).圖2(a)中:原始語音的諧波主要集中在0~4 000Hz的頻帶內(nèi),這些諧波分量的高階累積量不為零,將對檢測產(chǎn)生干擾.因此,先對殘差信號進行帶通濾波.帶通濾波器的沖激響應為h(n),帶寬為Bm.殘差信號e(n)通過帶通濾波器后,諧波分量大部分被濾除.因此,原始語音e0(n)和篡改語音通過濾波器的殘差信號et(n)分別表示為e0(n)=BPF[w(n)],et(n)=BPF[w(n)+c(n)].其中:BPF為帶通濾波.通常環(huán)境噪聲w(n)具有較大的帶寬,即Bw?Bm.因此,殘差信號e0(n)為具有高斯分布的窄帶信號,e0(n)的高階統(tǒng)計量為0.而篡改信號由于c(n)的存在,et(n)具有明顯的高階統(tǒng)計量.帶通濾波后原始語音和篡改語音殘差信號的分布直方圖,如圖3所示.圖3中:N為頻次.在對大量語音片段測試后發(fā)現(xiàn):et(n)的直方圖具有更尖銳的峰值和更長的拖尾,符合超高斯分布的特性,且e0(n)的分布直方圖更接近高斯特性.
圖3 殘差信號分布直方圖Fig.3 Histograms of residual LPC
將待檢測的語音信號進行分幀,對語音幀進行預加重、加窗處理,計算各幀的歸一化線性預測殘差.第i幀殘差信號通過上述帶通濾波器的輸出記為ei(n),對ei(n)進行高階累積量分析.利用偏度和峰度聯(lián)合特征作為是否篡改的判斷依據(jù).根據(jù)上述分析,若未經(jīng)篡改,ei(n)的偏度和峰度應接近于零,而篡改語音由于明顯的非高斯特性,其偏度和峰度均偏離零值.因此,計算第i幀ei(n)的偏度和峰度,分別記為α(i),β(i),設(shè)置合適的閾值λ1,λ2即可進行判斷.若|α(i)|>λ1,且β(i)>λ2,則認為在該幀位置發(fā)生了篡改.
為檢驗算法的有效性,將文中算法性能與文獻[7]進行比較.采用PC機(連接外置麥克風)、手機、錄音筆、MP3,共錄制了4種不同采樣率的音頻,各為44.1,32.0,16.0,8.0kHz,每種采樣率男聲和女聲各25段.從TIMIT語音庫選取100段語音(16kHz),將其采樣率轉(zhuǎn)換成44.1,32.0,8.0kHz,即每種采樣率各100段.此外,從互聯(lián)網(wǎng)下載了如上4種采樣率的音頻各50段.測試集中每種采樣率的未篡改語音各200段,選取4種采樣率的音頻各100段分別進行隨機刪除、拼接、替換和插入,篡改后音頻保持采樣率不變,每種采樣率的篡改音頻各400段.將上述所有篡改和未篡改音頻作為測試集(共2 400段語音).虛警率(原始音頻誤判為篡改音頻)和漏警率(篡改音頻誤判為原始音頻)分別記為ηFP,ηFN.
實驗中發(fā)現(xiàn)線性預測階數(shù)越高,殘差信號的相關(guān)性越小,檢測準確率越高.然而,當預測階數(shù)高達13時,隨著預測階數(shù)的增大,檢測性能無明顯提高.因此,選取線性預測階數(shù)為13,幀長20ms,兩幀之間有50%重疊.設(shè)置帶通濾波器中心頻率為fs/4+500,其中:fs為音頻采樣頻率,帶寬Bm為1 000 Hz.實驗中λ1,λ2越大,漏警率越高.若λ1,λ2過小,則虛警率也隨之增大,實驗選取檢測閾值λ1=0.03,λ2=1.5.不同采樣率下文中算法與文獻[7]的檢測性能,如表1所示.由表1可知:與文獻[7]相比,文中的檢測準確率有所提高.由于文中算法中各幀的時長相同,采樣率越高,語音幀包含的樣點數(shù)越多,殘差信號的相關(guān)性越小.因此,檢測準確率隨采樣率的增大而提高.
表1 不同采樣率下檢測性能比較Tab.1 Detection results under different sample rates compared with method in[7]
圖4,5分別為兩段不同的篡改語音.圖6,7分別為對應于上述篡改語音的殘差信號經(jīng)帶通濾波后的偏度和峰度.由圖6可知:第99幀和第300幀的|α(i)|和β(i)均高于所設(shè)閾值.因此,可判斷在該位置發(fā)生了篡改.由圖7可知:在第300幀附近發(fā)生了篡改.
圖4 原始語音與篡改語音1Fig.4 Original and tampered signal 1
圖5 原始語音與篡改語音2Fig.5 Original and tampered signal 2
圖6 篡改定位結(jié)果1Fig.6 Forgery detection result 1
圖7 篡改定位結(jié)果2Fig.7 Forgery detection result 2
為了檢驗文中方法對噪聲的魯棒性,對上述音頻添加不同強度的背景噪聲.噪聲由Adobe Audition軟件生成,包含兩類噪聲(白噪聲和粉色噪聲),用于模擬環(huán)境噪聲.調(diào)整噪聲強度,從而得到不同信噪比的含噪語音.選取每種采樣率下的含噪語音各100段,分別進行隨機刪除、插入、替換、拼接,檢測結(jié)果如表2所示.表2中:RSN為信噪比.由表2可知:文中方法考慮了噪聲的統(tǒng)計特性,因此,檢測魯棒性更高.
表2 不同信噪比時的檢測性能比較Tab.2 Detection performance under different noise conditions compared with method in[7]
分析了語音信號的線性預測模型殘差,并將殘差信號的統(tǒng)計特性用于語音的被動取證.原始音頻LPC殘差信號的高階累積量幾乎為零,而篡改音頻的預測殘差體現(xiàn)出明顯的超高斯特性,其高階累積量偏離零值.實驗結(jié)果表明:文中方法對于語音的插入、刪除、替換、拼接具有較高的檢測可靠性,而且可以準確定位出篡改位置;與現(xiàn)有算法比較,在噪聲環(huán)境中,文中方法的檢測魯棒性更好.
[1]SWATI G,SEONGHO C,KUO C C J.Current developments and future trends in audio authentication[J].IEEE Multimedia,2012,19(1):50-59.
[2]LIU Yu-ming,YUAN Zhi-yong,MARKHAM P N,et al.Application of power system frequency for digital audio authentication[J].IEEE Transactions on Power Delivery,2012,27(4):1820-1828.
[3]MALIK H,F(xiàn)ARID H.Audio forensics from acoustic reverberation[C]∥IEEE International Conference on Acoustics,Speech,and Signal Processing.Dallas:IEEE Press,2010:1710-1713.
[4]IKRAM S,MALIK H.Digital audio forensics using background noise[C]∥IEEE International Conference on Multimedia and Expo.Singapore:IEEE Press,2010:106-110.
[5]QIAN Shi,MA Xiao-h(huán)ong.Detection of audio interpolation based on singular value decomposition[C]∥Awareness Science and Technology.Dalian:[s.n.],2011:287-290.
[6]YANG Rui,QU Zhen-h(huán)ua,HUANG Ji-wu.Exposing MP3audio forgeries using frame offsets[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2012,33(8):1-20.
[7]CHEN Jiao-rong,XIANG Shi-jun.Exposing digital audio forgeries in time domain by using singularity analysis with wavelets[C]∥Proceedings of the First ACM Workshop on Information Hiding and Multimedia Security.New York:[s.n.],2013:149-158.