何少巖,陳蕉容,陳舜兒
(暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院 電子工程系,廣東 廣州510632)
為了解決虛假音頻廣泛傳播和使用在法律取證、商業(yè)版權(quán)、社會安全等方面引起的諸多問題,數(shù)字音頻取證的篡改分析技術(shù)應(yīng)運(yùn)而生。音頻取證作為一個新興的、剛剛開辟的研究領(lǐng)域,在國內(nèi)外的研究均處于起步階段,深入研究的空間很大。而音頻錄制環(huán)境的檢測方面,由于其自然環(huán)境多樣性和復(fù)雜性等因素導(dǎo)致鮮有人涉及研究[1]。音頻環(huán)境的檢測可以一定程度上判斷出該音頻的原始性和真實(shí)性,能夠?yàn)樗痉ㄈ∽C、犯罪偵查等提供重要依據(jù),因此成為了數(shù)字音頻取證技術(shù)的重要研究方向[2,3]。國外學(xué)者Christian Kraetzer等采取傳統(tǒng)MFCC分析方法進(jìn)行特征提取,應(yīng)用貝葉斯分類器進(jìn)行分類對音頻錄制環(huán)境和設(shè)備的檢測進(jìn)行了首次實(shí)驗(yàn)[4],開辟了數(shù)字取證研究中基于音頻環(huán)境和設(shè)備檢測的研究領(lǐng)域。該實(shí)驗(yàn)結(jié)果顯示對音頻錄制設(shè)備檢測的準(zhǔn)確率最高為75.99% ,對音頻錄制環(huán)境的準(zhǔn)確率最高為41.51% 。隨后Robert Buchholz等[5]人又專門針對音頻錄制設(shè)備進(jìn)行檢測,該實(shí)驗(yàn)利用傅里葉系數(shù)進(jìn)行麥克風(fēng)的分類,分類效果明顯提高,準(zhǔn)確率達(dá)93.5%。然而,此實(shí)驗(yàn)思路下對音頻錄制環(huán)境的檢測準(zhǔn)確率一直未有提高。國內(nèi)學(xué)者主要著重于音頻分類領(lǐng)域的研究,使用傅里葉、小波等數(shù)學(xué)工具將音頻文件分為語音、音樂、環(huán)境音等類型 ,在音頻錄制環(huán)境辨別與檢測領(lǐng)域的研究并未涉及。本文借鑒前人研究思路,利用已有的音頻分析工具(梅爾倒譜系數(shù)分析和小波包分析等)提取音頻的頻域統(tǒng)計(jì)特性,該頻域統(tǒng)計(jì)特性和音頻的6種時域特征構(gòu)造特征集合,借助基于期望最大化的機(jī)器訓(xùn)練方法對音頻錄制地點(diǎn)進(jìn)行分類和判斷,從而實(shí)現(xiàn)數(shù)字音頻錄制環(huán)境的取證。實(shí)驗(yàn)結(jié)果表明 ,本文提出的特征提取方式和分類方法合理有效,能夠?qū)Υ蟛糠忠纛l錄制環(huán)境進(jìn)行正確的判斷和分類,性能較好。
音頻信號通常采用MFCC進(jìn)行分析處理,其本質(zhì)是適應(yīng)語音特性的濾波器組,是基于同態(tài)處理的去卷積倒譜改進(jìn)算法。傳統(tǒng)的MFCC處理方法是將信號進(jìn)行傅里葉變換或短時傅里葉變換后,再經(jīng)一系列處理,得到信號在不同譜帶的功率變化速度。時域信號S的MFCC算法流程如圖1所示[6]。
為了更加充分地計(jì)算音頻動態(tài)特性,本文中的算法還引入信號的一階差分梅爾倒譜系數(shù) (FMFCC)。該系數(shù)更好地消除了音頻每幀之間的相關(guān)性,能夠提高音頻特征的辨識率[6]。FMFCC計(jì)算如下
其中,sfmel(n+i)表示第n+i幀的倒譜系數(shù)。通常j=2,用以求第n幀的前兩幀和后兩幀倒譜系數(shù)的線性組合,即一階差分倒譜系數(shù)。同理,繼續(xù)迭代可求得二階FMFCC。MFCC傳統(tǒng)算法中的傅里葉變換將信號進(jìn)行等間隔的頻帶劃分。一旦分析窗口大小確定,F(xiàn)FT分析就不能隨著信號的變化而隨時調(diào)整時頻分辨率。而多分辨率分析由于尺度變化的局限性,也會導(dǎo)致其在高頻段頻率分辨率較差,在低頻段時間分辨率較差。
圖1 MFCC算法流程
小波包變換思想較好地彌補(bǔ)了上述缺陷。小波包變換延續(xù)多分辨率分析方法,并且將時頻空間進(jìn)行非均勻劃分,在頻率較低的地方采用較長的時間窗。這使得成分復(fù)雜的音頻信號能夠被不同分辨率的小波系數(shù)表示。本文將小波包變換和MFCC以及FMFCC相結(jié)合,再增加音頻時域的6個主要特征 (能量熵、短時能量,頻譜滾降,頻譜重心,頻譜通量,零值點(diǎn)),用以提取音頻特征,從而對數(shù)據(jù)進(jìn)行分類。特征提取算法步驟如圖2所示。
圖2 特征提取算法結(jié)構(gòu)
期望最大化算法 (EM)作為k均值算法的擴(kuò)展,是用于估計(jì)未知參數(shù)的迭代優(yōu)化過程。EM根據(jù)隸屬概率的權(quán)重把數(shù)據(jù)歸到最為相似的類別中[7]。首先,EM對整體數(shù)據(jù)集進(jìn)行初始估計(jì);再反復(fù)根據(jù)參數(shù)向量產(chǎn)生的混合密度對每個數(shù)據(jù)重新估計(jì);被估計(jì)的數(shù)據(jù)最后用來更新參數(shù)估計(jì)。EM過程中每個數(shù)據(jù)產(chǎn)生一個概率值,概率值反映了該數(shù)據(jù)屬于某定類別集合的可能性大小。
EM算法流程具體描述如下:
期望步驟:每個迭代過程中,EM根據(jù)當(dāng)前估計(jì)值為數(shù)據(jù)尋找一個最佳下界,用期望表示;再用如下概率將數(shù)據(jù)xi歸類到類別Ck中[8]
其中,p(xi∈Ck)=N(mk,Ek(xi))服從均值為 mk、期望為Ek的高斯分布。該步驟計(jì)算了每類別中對象xi的隸屬概率。
最大化步驟:為了使數(shù)據(jù)集相似性更大化,EM利用期望步驟得到的概率需要重新估計(jì)分布,給出未知變量的期望估計(jì)[7]
其中,mk表示最終期望估計(jì)值。經(jīng)實(shí)驗(yàn)驗(yàn)證,EM算法容易實(shí)現(xiàn),對于某些特性的優(yōu)化函數(shù),收斂性較快。
實(shí)驗(yàn)采用的硬件設(shè)備為:得勝PCM5550麥克風(fēng)、客所思錄音外置聲卡、hp筆記本電腦。為了采集更加細(xì)微的環(huán)境噪聲數(shù)據(jù),麥克風(fēng)和聲卡均需要特殊的處理和配置,以增加敏感度,適應(yīng)實(shí)驗(yàn)需求。實(shí)驗(yàn)采用的軟件設(shè)備為:Audacity 1.3.5、Matlab 2010b和 WEKA3.7.0,用以實(shí)現(xiàn)音頻錄制、特征提取分析和根據(jù)提取特征的分類。音頻錄制參數(shù)為單聲道、工程采樣率44.1kHz,32-bit float。
為了驗(yàn)證上述特征提取和分類算法的有效性,音頻數(shù)據(jù)在六個不同的環(huán)境下進(jìn)行采集[4,9]。錄制地點(diǎn)如下: (i)實(shí)驗(yàn)室,(ii)圖書館,(iii)自習(xí)室,(iv)食堂,(v)樓道,(vi)湖邊。為了反映某個環(huán)境整體的噪聲特性,在一個環(huán)境下音頻的采集工作將分為10個時間點(diǎn)均勻錄制,時間范圍是早八點(diǎn)至晚六點(diǎn),每個時間點(diǎn)連續(xù)錄制5段音頻,每段音頻30s。
采用Matlab 2010b提取錄制音頻的30個特征數(shù)據(jù),包括6種時域特征 (能量熵、短時能量,頻譜滾降,頻譜重心,頻譜通量,零值點(diǎn)),12個 MFCC特征 (sfmel1,sfmel2,…,sfmel12)和12個 FMFCC 特征 (sfmelf1,sfmelf2,…,sfmelf12)。特征數(shù)據(jù)不需要預(yù)處理,采用WEKA3.7.0分類工具直接進(jìn)行聚類分析。分類工具采用EM算法[10,11],聚類模式選用訓(xùn)練模型。
表1 使用MFCC結(jié)合小波包的特征提取算法和EM分類器的分類結(jié)果
由表1對角線方向數(shù)據(jù)可知,本文算法分類的正確率最高可達(dá)100% (食堂),最差的正確率為58% (實(shí)驗(yàn)室)。該系統(tǒng)實(shí)驗(yàn)的正確檢測期望為84%。
觀察表1縱向數(shù)據(jù)可知,在6個類別中Cluster1(圖書館)和Cluster5(湖邊)分類情況最為復(fù)雜。Cluster1中,圖書館的分類率為92%,但同時又有一定數(shù)目的其他環(huán)境下的錄音也被分到了該類中,包括20%的實(shí)驗(yàn)室錄音、30%自習(xí)室錄音和10%的湖邊錄音。Cluster5也有相似的結(jié)果。這兩組雖然自身的分類正確率均在90%以上,但混入了相當(dāng)數(shù)量的其他類別的錄音,說明圖書館和湖邊這兩個環(huán)境下的音頻特征存在與其他環(huán)境下音頻特征的相似之處,或者其他環(huán)境下某些時段的音頻特征與圖書館和自習(xí)室的音頻特征相似。而Cluster0、Cluster2和Cluster4沒有混入其他環(huán)境下的音頻。雖然Cluster3的分類正確率為100%,但該組仍混入了其他環(huán)境下的音頻。相比而言,Cluster4(樓道)分類正確達(dá)98%,說明樓道的音頻特征較為明顯,綜合辨識率較好。
表2 僅使用MFCC特征提取算法和EM分類器的分類結(jié)果
橫向觀察表1數(shù)據(jù),可知每行的百分?jǐn)?shù)相加均為100%,但不同行數(shù)據(jù)的離散程度相差較大。R0、R1和R2數(shù)據(jù)都分布了3列,表明實(shí)驗(yàn)室、圖書館和自習(xí)室的音頻特征明顯度較低,或者該環(huán)境下不同時段的音頻特征變化較大,易被誤認(rèn)為其他環(huán)境下的音頻。顯而易見,食堂的音頻只集中在1列,沒有被誤判到其他環(huán)境。
與上述對比,表2列出了使用MFCC傅里葉變換進(jìn)行特征提取的分類結(jié)果 (其他條件相同)。觀察表2對角線方向發(fā)現(xiàn)該算法未采用小波包變換,辨識準(zhǔn)確率較低。但該算法在實(shí)驗(yàn)室和自習(xí)室兩種環(huán)境下的分類效果優(yōu)于小波包提取算法 (如圖3所示),仍然具有研究意義。
圖3 使用傅里葉和小波提取算法的分類結(jié)果對比
此外,本文還采用了基于質(zhì)心的k均值分類方法進(jìn)行結(jié)果分類,結(jié)果如表3所示??梢钥闯觯瑹o論采用傅里葉還是小波包進(jìn)行特征提取,k均值的分類準(zhǔn)確率低于期望最大化算法的準(zhǔn)確率。然而,無論采用k均值還是期望最大化分類算法,使用小波包進(jìn)行特征后分類的結(jié)果總是優(yōu)于傅里葉算法的。表3展示了各個算法下結(jié)果的期望、方差以及最大值,用來評價(jià)對比各算法的優(yōu)劣。
表3 EM分類算法和k均值算法分類結(jié)果對比
本文針對數(shù)字音頻盲取證技術(shù)中的環(huán)境檢測進(jìn)行了分析和測試,采用小波包和梅爾倒譜系數(shù)分析等數(shù)學(xué)工具提取特征,結(jié)合期望最大化算法進(jìn)行機(jī)器訓(xùn)練聚類。實(shí)驗(yàn)結(jié)論如下:其一,對音頻錄制環(huán)境的分類準(zhǔn)確率得到了大幅提高;其二,基于期望最大化的分類器比貝葉斯分類器更適合背景環(huán)境檢測分類;其三,在k平均值分類器下小波包特征提取算法仍然占優(yōu)。
本文提出的算法有較大的優(yōu)越性,但同時有需要提升改進(jìn)的地方:首先,音頻大多僅具有有限時間長度的純背景噪聲,故在極短噪聲采樣下的音頻環(huán)境監(jiān)測成為了實(shí)驗(yàn)的一大挑戰(zhàn);其次,算法核心為小波包變換,故小波函數(shù)的選取對分類檢測結(jié)果有著不可估量的作用,繼續(xù)尋找合適的小波函數(shù)也是需要進(jìn)行的又一工作。因此本文的后續(xù)研究將繼續(xù)深入和提高,期待形成行之有效的檢測系統(tǒng),從而達(dá)到實(shí)用的效果。
[1]Ghulam Muhammad,Khaled Alghathbar.Environment recognition from audio using mprg-7features[C]//IEEE Embedded and Multimedia Computing International Conference,2009:1-6.
[2]Malik H,F(xiàn)arid H.Audio forensics from acoustic reverberation[C]//IEEE International Conference on Acoustics Speech and Signal Processing,2010:1710-1713.
[3]Ikram S,Malik H.Digital audio forensics using background noise[C]//IEEE International Conference on Multimedia and Expo,2010:106-110.
[4]Kraetzer C,Oermann A,Dittmann J.A digital audio forensics:A first practical evaluation on microphone and environment classification[C]//the 9th workshop on Multimedia &Security,2007:63-74.
[5]Bucholz R,Kraetzerr C,Dittmann J.Microphone classification using fourier coefficients[C]//11th International Workshop,Darmstadt,2009:236-246.
[6]Kraetzer C,Dittmann J.Mel-cepstrum based steganalysis for voIP-steganography[C]//Security,Steganography and Watermarking of Multimedia Contents IX,2007:6505.
[7]Ngai Ewt,Hu Yong,Wong Yh.The application of data mining techniques in financial fraud detection:A classification framework and an academic review of literature[J].Decision Support Systems,2011,50 (3):559-569.
[8]Uri Nodelman,Christian R,Daphne Koller.Expectation maximization and complex duration distributions for continuous time bayesian networks[C]//the Twenty-First Conference on Uncertainty in Artificial Intelligence,2012:421-430.
[9]Hong Zhao,Hafiz Malik.Audio forensics using acoustic environment[C]//Statistical Signal Processing Workshop,2012:373-376.
[10]ZHANG Xueyuan,HE Qianhua,LI Yanxiong,et al.An inverted index based audio retrieval method[J].Journal of Electronics Information Technology,2012,34 (11):2561-2567(in Chinese).[張雪源,賀前華,李艷雄,等.一種基于倒排索引的音頻檢索方法[J].電子與信息學(xué)報(bào),2012,34(11):2561-2567.]
[11]Godiy Daniela.One-class support vector machines for personalized tag-based resource classification in social bookmarking systems[J].Concurrency and Computation-Practice &Experience,2012,24 (17):2193-2206.