何朝霞,潘 平,羅 輝
(1.長江大學(xué)工程技術(shù)學(xué)院,湖北 荊州 434023;2.貴州大學(xué)計算機(jī)科學(xué)與信息學(xué)院,貴州 貴陽 550025;3.哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
復(fù)制粘貼音頻信號的篡改檢測技術(shù)研究
何朝霞1,潘平2,羅輝3
(1.長江大學(xué)工程技術(shù)學(xué)院,湖北 荊州 434023;2.貴州大學(xué)計算機(jī)科學(xué)與信息學(xué)院,貴州 貴陽 550025;3.哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001)
根據(jù)數(shù)字錄音設(shè)備在錄音過程中不僅記錄語音內(nèi)容本身,還攜帶微弱的電網(wǎng)信號的特點,提出一種基于電網(wǎng)頻率的特征提取和復(fù)制粘貼篡改檢測方法。方法利用Duffing帶通濾波器獲取攜帶電網(wǎng)信號的語音信號,然后提取該語音信號的Mel頻標(biāo)倒譜系數(shù)(MFCC),最后將特征參數(shù)運用于基于量子模距離的判決模型,對音頻信號進(jìn)行復(fù)制粘貼篡改檢測。通過實驗分析,該方法在數(shù)字語音刪除、復(fù)制粘貼篡改檢測方面,具有較高的正確率;音頻信號越長,檢測的正確率越高;MFCC參數(shù)提取過程中,幀長和幀移越小,檢測的正確率越高。該方法可為音頻信號篡改檢測提供一個新的研究方向。
篡改檢測;特征提取;MFCC;Duffing帶通濾波器;量子模距離
隨著數(shù)字媒體技術(shù)的發(fā)展,人們已經(jīng)可以很方便地獲取數(shù)字音頻信號,并利用音頻編輯軟件對其進(jìn)行編輯或修改。復(fù)制粘貼篡改是對音頻信號進(jìn)行篡改最為簡單和直接的方式,可以完全改變原音頻信號的內(nèi)容。這種惡意的篡改行為不僅對語音數(shù)據(jù)的安全構(gòu)成威脅,也給司法取證帶來了極大困難;所以,語音篡改檢測成為學(xué)者研究的熱點問題。
針對復(fù)制粘貼篡改,KRACTZER等[1]分析了語音信號的梅爾倒譜系數(shù)(MFCC)和其他幾個時域特征,然后根據(jù)特征對背景環(huán)境進(jìn)行分類,來判斷音頻信號是否經(jīng)過篡改;邵松年等[2]通過分析音頻信號中殘留的錄音設(shè)備的本底噪聲檢測音頻信號是否經(jīng)過篡改。BUCHHOLZ等[3]以傅里葉系數(shù)的直方圖作為特征對錄制音頻信號的設(shè)備進(jìn)行分類,從而判斷音頻信號是否是在同一設(shè)備上錄制的。MALIK等[4]通過對房間回響的分析,檢測音頻信號是否拼接而成。近年來,基于電網(wǎng)頻率的音頻信號篡改檢測方法頗受關(guān)注,該方法首先由Grigoras[5]提出。Grigoras認(rèn)為,錄音設(shè)備由電網(wǎng)供電,攜帶微弱的當(dāng)?shù)仉娏ο到y(tǒng)頻率為50Hz或60Hz的交流電壓信號即電網(wǎng)信號,這個頻率即稱為電網(wǎng)頻率,所以數(shù)字錄音設(shè)備在錄音過程中不僅記錄語音內(nèi)容本身,而且還攜帶電網(wǎng)信號;因此,可以通過比對從音頻信號中提取的電網(wǎng)頻率軌跡和電網(wǎng)頻率數(shù)據(jù)庫中該音頻信號錄制時間段內(nèi)電網(wǎng)頻率軌跡,來判斷音頻信號是否經(jīng)過篡改。文獻(xiàn)[6-7]認(rèn)為,可采用將語音信號通過帶通濾波器的方法提取微弱的電網(wǎng)信號。劉育民等[8]改進(jìn)短時傅里葉變換,采用窗函數(shù)法設(shè)計帶通濾波器,利用兩階段電網(wǎng)頻率估計,減少了運算量的同時能獲得滿意的頻率估計效果。李金鳳等[9]提出了一種基于MFCC系數(shù)相關(guān)性的語音感知哈希內(nèi)容認(rèn)證算法,其中的相似性度量函數(shù)對語音篡改檢測定位具有較高的靈敏性。
本文作者前期將Duffing共振理論運用到提取MFCC參數(shù)的過程中,得到改進(jìn)的MFCC特征參數(shù),運用到說話人識別系統(tǒng)中,驗證得到了良好的識別性能[10]。其中的Duffing共振系統(tǒng)就是一帶通濾波器[11-12],通過參數(shù)的設(shè)置,本文試圖將語音信號通過Duffing帶通濾波器,獲取攜帶電網(wǎng)信號的語音信號,然后再提取該語音信號的MFCC參數(shù),最后將特征參數(shù)運用于基于量子模距離的判決模型[13],對音頻信號進(jìn)行復(fù)制粘貼篡改檢測,與文獻(xiàn)[8]的方法進(jìn)行對比,驗證和分析本文方法的有效性和實用性。
式中:γ——阻尼系數(shù);
κ,ζ——常數(shù);
Fcos(Ωt)——系統(tǒng)的外力項;
Ω——外力項頻率。
式(1)中正、負(fù)號分別表示硬彈簧和軟彈簧兩種情況。理論上,在線性系統(tǒng)中當(dāng)強(qiáng)迫力的頻率與系統(tǒng)本身的頻率相同時,系統(tǒng)會出現(xiàn)共振現(xiàn)象,在非線性系統(tǒng)中也會出現(xiàn)類似的情況。
無阻尼Duffing方程的通解為
式中:α——振幅;
ω——角頻率;θ0——初始相位。
考慮有外力驅(qū)動的情況(式(1)),即當(dāng)式(2)中ω=Ω時系統(tǒng)發(fā)生共振,中國的電網(wǎng)頻率值f=50 Hz,所以Ω=2πf。
以式(2)中x(t)作為Duffing共振系統(tǒng)的單位脈沖響應(yīng)h(t),對h(t)進(jìn)行采樣,得到離散Duffing共振系統(tǒng)的單位脈沖響應(yīng)h(n),然后對h(n)傅里葉變換。圖1為頻率為50Hz的Duffing共振系統(tǒng)幅頻特性曲線。
Duffing方程的一般形式[14]為
圖1 Duffing共振系統(tǒng)的幅頻特性曲線
由圖可知,Duffing共振系統(tǒng)就是一帶通濾波器,通帶內(nèi)的衰減較大,具有較好的頻率選擇性。
文獻(xiàn)[8]基于電網(wǎng)頻率的數(shù)字錄音真?zhèn)舞b別研究中,采用窗函數(shù)法設(shè)計帶通濾波器,考察了4種常見的窗函數(shù),即矩形窗、漢寧窗、漢明窗和布萊克曼窗。其中布萊克曼窗在提取微弱的電網(wǎng)信號方面,具有最小的相對誤差。本文算例分析采用隨機(jī)生成的正弦信號,補(bǔ)零系數(shù)在0~10變化,步長為0.2。給定某一補(bǔ)零系數(shù),算法循環(huán)100次,然后用布萊克曼窗和Duffing帶通濾波器提取正弦信號的頻率,取相對誤差的最大值以檢驗算法的準(zhǔn)確性,通過該值反映頻率估計的結(jié)果。兩種帶通濾波器的最大相對誤差比較如圖2所示。
由圖可知,基于Duffing共振系統(tǒng)的微弱電網(wǎng)信號提取方法具有可行性。
圖2 兩種帶通濾波器的最大相對誤差的比較
本文的音頻信號特征提取方法如圖3所示。
具體實現(xiàn)步驟如下:
1)語音信號經(jīng)過抗混疊、預(yù)加重等預(yù)處理后,重采樣,經(jīng)過Duffing帶通濾波器,獲取包含微弱電網(wǎng)信號的語音信號。
2)將獲取的語音信號加窗分幀變?yōu)槎虝r信號,進(jìn)行快速傅里葉變換(FFT)轉(zhuǎn)化為頻域信號,求出頻譜平方,即能量譜,并通過Mel頻率濾波器組得到Mel頻譜,并通過對數(shù)能量的處理得到對數(shù)頻譜。
圖3 基于Duffing共振的MFCC參數(shù)提取流程
3)將上述對數(shù)頻譜經(jīng)過離散余弦變換(DCT)得到L個Mel頻率倒譜系數(shù)。MFCC系數(shù)為
4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征做一階差分,得到相應(yīng)的動態(tài)特征。
5)對提取出的MFCC靜態(tài)特征、一階差分,合并作為復(fù)制粘貼篡改檢測的特征參數(shù)。
3.1實驗可行性分析
有5段待檢測錄音音頻,都為同一人的錄音,編號為1,2,3,4,5。所采用的語音編輯軟件為Cool Edit Pro V2.1簡體中文版。其中,錄音1為未經(jīng)過篡改的原始錄音,內(nèi)容為“一二三四零”。其余4段錄音都是以錄音1為基礎(chǔ),在Cool Edit Pro V2.1簡體中文版上進(jìn)行了編輯,錄音2是對錄音1進(jìn)行復(fù)制粘貼操作,內(nèi)容為“一二一三四零”;錄音3是對錄音1進(jìn)行復(fù)制粘貼操作,內(nèi)容為“一二二三四零”;錄音4是對錄音1進(jìn)行刪除操作,內(nèi)容為“一三四零”;錄音5是對錄音1進(jìn)行了刪除操作,內(nèi)容為“二三四零”。
圖4為音頻信號按照圖3提取的特征參數(shù)。特征參數(shù)提取過程中,將經(jīng)過Duffing帶通濾波器的語音信號加漢明窗,256點作為1幀,幀移80點,Mel濾波器組的階數(shù)為24。
觀察圖4,比較原始錄音信號與復(fù)制粘貼篡改音頻信號的特征參數(shù),特征參數(shù)的部分區(qū)域的幅度發(fā)生了明顯的變化,見圖中標(biāo)注處,而其他區(qū)域的特征參數(shù)的幅度相差不大。
圖5為音頻信號經(jīng)過Duffing帶通濾波器后加漢明窗,128點作為1幀,幀移40點,Mel濾波器組的階數(shù)為24獲得的特征參數(shù)。
觀察圖5,對比原音頻信號和篡改音頻信號的特征參數(shù),大部分幀的特征參數(shù)幅度接近,僅有部分區(qū)域的幅度發(fā)生了明顯變化。綜合圖4和圖5,該特征參數(shù)提取方法能檢測出語音信號是否被篡改,從而確定信號的真實性;同時,幀長和幀移較小時,獲取的特征參數(shù)細(xì)節(jié)更豐富。
3.2實驗比較和分析
本文進(jìn)行了大量實測,測試的基礎(chǔ)是語料庫,語料庫包括100段10min的長語音,100段1min的短語音和100段5s的短句。這些語音信號部分是原始語音,部分是在原始語音基礎(chǔ)上利用Cool Edit Pro V2.1軟件進(jìn)行了刪除、復(fù)制粘貼等操作。利用基于量子模距離的判決模型對音頻信號進(jìn)行檢測,具體的模型如圖6所示。
圖4 256點作為1幀,幀移80點的特征參數(shù)
圖5 128點作為1幀,幀移40點的特征參數(shù)
利用本文的方法和文獻(xiàn)[8]方法,對所用的語音信號進(jìn)行篡改檢測,檢測正確率如表1所示。
文獻(xiàn)[8]中,語音文件采用Free Sound Recorder錄制,16位PCM WAV格式,采樣頻率為44,100Hz。
圖6 音頻信號量子模距離篡改檢測模型
表1 篡改檢測正確率
由表可知,本文方法具有以下特點:1)在數(shù)字語音刪除、復(fù)制粘貼篡改檢測方面,具有較高的正確率;2)針對不同長度的音頻信號,檢測正確率有所區(qū)別,音頻信號越長,檢測的正確率越高;3)MFCC參數(shù)提取過程中,幀長和幀移越小,檢測的正確率越高。但同時也存在著問題:MFCC參數(shù)提取過程中,幀長和幀移較大的情況下,復(fù)制粘貼篡改檢測的正確率低于文獻(xiàn)[8]檢測方法的正確率,只有當(dāng)幀長和幀移足夠小的情況下,復(fù)制粘貼篡改檢測的正確率才高于于文獻(xiàn)[8]檢測方法的正確率。
本文提出將基于Duffing共振的MFCC特征參數(shù)運用于量子模距離的判決模型,通過判決結(jié)果檢測音頻信號是否經(jīng)過篡改操作,并且具有較高的檢測正確率。在以后的實驗和仿真過程中,將不斷改進(jìn)特征參數(shù)提取算法和檢測算法,探討其他的數(shù)字錄音篡改檢測。
[1]KRACTZERC,OERMANNA,DITTMANN J,et al. Digital audio forensics:a first practical evaluation on microphone and environment classification[C]∥Procedings of the 9th Workshop on Multimedia&Security.New York:ACM,2007:63-74.
[2]邵松年,黃征,徐徹,等.數(shù)字音頻與錄制設(shè)各的相關(guān)性研究[J].計算機(jī)工程,2009,35(19):224-226.
[3]BUCHHOLZR,KRAETZERC,DITTMAN J.Microphone classification using Fourier coefficients[M].InformationHiding:LectureNotesinComputerScience. Berlin:Springer Berlin Heidlberg,2009:235-246.
[4]MALIK H,F(xiàn)ARID H.Audio forensics from acoustic reverberation[C]∥InternationalConferenceonAcoustic,Speech,and Signal Processing.IEEE,2010:1710-1713.
[5]GRIGORAS C.Applications of ENF analysis in forensic authentication of digital audio and video recordings[J]. The Journal of Audio Engineering Society,2009,57(9):643-661.
[6]HUIJBKEGTSE M,GERADTS Z.Using the ENF criterion for determining the time of short digital audio recordings[M].Compwtational Forersics.Berlin:Sprirger Berlin Heidelberg,2009:116-124.
[7]RODRIGUEZ D P N,APOLINARIO J,BISCAINHO L. AudioAuthenticity:DetectingENFdiscontinuitywith high precisionphaseanalysis[J].IEEE Transaction on Information Forensics and Security,2010,5(3):534-543.
[8]劉育明,姚陳果,孫才新,等.基于電網(wǎng)頻率的數(shù)字錄音真?zhèn)舞b別研究[J].儀器儀表學(xué)報,2013(6):1434-1439.
[9]李金鳳,吳濤,王宏霞.基于MFCC相關(guān)系數(shù)的語音感知哈希認(rèn)證算法[J].北京郵電大學(xué)學(xué)報,2015(2):89-93.
[10]何朝霞,潘平.說話人識別中改進(jìn)的MFCC參數(shù)提取方法[J].科學(xué)技術(shù)與工程,2011(18):4215-4217.
[11]潘平,何朝霞.基于Duffing隨機(jī)共振的說話人特征提取方法[J].計算機(jī)工程與應(yīng)用,2012(35).
[12]張賀,沈天飛,滕秋霞.小詞匯量孤立詞語音識別系統(tǒng)多種特征組合參數(shù)的選擇方法研究[J].電子測量技術(shù),2015 (3):48-53.
[13]羅輝,潘平,王洋.基于量子模距離的說話人識別方法[J].計算機(jī)工程與科學(xué),2014,36(1):39-43.
[14]王海波.Duffing方程非線性振動特性的計算與分析[D].西安:西安建筑科技大學(xué),2009.
(編輯:莫婕)
Study on tamper detection technology for audio signal copying and pasting
HE Zhaoxia1,PAN Ping2,LUO Hui3
(1.College of Technology&Engineering,Yangtze University,Jingzhou 434023,China;2.Computer Science and Information Institute,Guizhou University,Guiyang 550025,China;3.School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China)
Aiming at the condition that the digital recording equipment not only records the contents of the voice during the recording process but also carries weak power network signals,a feature extraction and copying and pasting tamper detection method based on power frequency is put forward.The method obtains the audio signal carrying power network signal through the Duffing band-pass filter and then extracts the Mel frequency cepstrum coefficient(MFCC)of the audio signal and applies the characteristic parameters to judgment model based on quantum module distance,and finally conducts copying and pasting tamper detection for the audio signal. Through experimental analysis,it was found the method has high accuracy in the aspect of digital voice deletion,copying and pasting tamper detection,longer the audio signal is,higher the detection accuracy will be,smaller the frame size and frame shift during MFCC parameter extraction process are,higher the detection accuracy will be.The method provides a new research direction for the audio signal tamper detection.
tamper detection;feature extraction;MFCC;Duffing band-pass filter;quantum module distance
A
1674-5124(2016)07-0107-05
10.11857/j.issn.1674-5124.2016.07.022
2015-12-12;
2016-01-20
貴州省科學(xué)技術(shù)基金項目(黔科合J字[2012]2132);貴陽市科技計劃項目(筑科合同[2011101]1-2號);長江大學(xué)工程技術(shù)學(xué)院科學(xué)研究發(fā)展基金(15j0401)
何朝霞(1984-),女,湖北黃岡市人,講師,碩士,研究方向為語音信號處理。