路東生,張玉金,黨良慧
(上海工程技術(shù)大學(xué)電子電氣工程學(xué)院,上海 201620)
智能設(shè)備與社交軟件的升級迭代,促進了數(shù)字圖像的應(yīng)用與發(fā)展,主流的圖像處理軟件如Photoshop、Gimp、美圖秀秀等,具有強大的圖像編輯功能,讓圖像篡改操作變得更加便利。數(shù)字圖像篡改可廣泛地分為內(nèi)容保留與內(nèi)容改變兩類,內(nèi)容保留包括JPEG 壓縮[1]、濾波操作[2]、對比度增強等,對圖像具有較低的破壞性,并未改變語義信息;內(nèi)容改變具體分為拼接[3-4]、復(fù)制-粘貼[5-6]、移除[7],這些操作將修改圖片內(nèi)容并導(dǎo)致語義信息改變。復(fù)制-粘貼操作在同一張圖片中進行,即復(fù)制圖片中的局部區(qū)域并粘貼在同一圖片的另一個區(qū)域從而形成偽造圖片[8-9],拼接篡改是把來自2 張或多張圖片中不同的局部區(qū)域進行拼接以形成偽造圖片,移除篡改是依據(jù)圖片中的背景區(qū)域填補同一圖片中被移除的區(qū)域。一般來說,改變內(nèi)容的篡改操作是通過隱藏物體或增加物體數(shù)量達到信息誤導(dǎo)的目,并結(jié)合圖像模糊、縮放、扭曲等處理操作使篡改圖像檢測及定位研究更具挑戰(zhàn)性,偽造圖像經(jīng)過專業(yè)圖像篡改者的加工可以不留下任何視覺線索。
目前,有很多研究工作僅對待檢測圖像進行分類,即一幅圖像是否被篡改,只有少數(shù)研究工作嘗試進行圖像塊[10-11]的分類或像素級[12-13]篡改區(qū)域定位。相較于圖像篡改檢測,圖像篡改區(qū)域的定位同樣不可忽視,篡改區(qū)域定位能夠進一步甄別偽造者的意圖,在司法鑒定和法醫(yī)領(lǐng)域發(fā)揮重要作用。此外,多數(shù)圖像篡改取證方法僅僅關(guān)注某一特定的篡改類型,如復(fù)制-粘貼、拼接、移除等,但針對單一篡改類型的圖像取證方法可能不適用于另一種圖像篡改類型,例如由于拼接操作類型來源不同源的圖像會引入不同的光電響應(yīng)、噪聲等固有特征,而復(fù)制-粘貼操作類型的篡改檢測方法不能利用固有特征差異,因此無法對該類型圖像進行檢測。現(xiàn)實生活中的偽造圖像復(fù)雜多樣,這就要求圖像篡改取證研究者的工作不能局限于特定的篡改操作類型。
本文提出一種面向圖像篡改取證的多特征融合U 形深度網(wǎng)絡(luò),以實現(xiàn)端到端的篡改圖像檢測與定位。利用CNN 網(wǎng)絡(luò)和SRM 卷積層提取篡改信息,并將其輸入到基于編解碼網(wǎng)絡(luò)和多特征融合的特征提取模塊,以實現(xiàn)篡改特征提取。在融合定位模塊中利用分級監(jiān)督策略,結(jié)合不同分辨率提取的篡改特征,完成對篡改區(qū)域的預(yù)測。
在圖像篡改取證研究中,通常根據(jù)真實圖像與篡改圖像間不同特性進行圖像檢測和篡改區(qū)域定位,這些特征包括JPEG 壓縮效應(yīng)[1]、邊緣不一致[14-15]、噪聲模式[16]、色彩一致性、視覺相似度[8-9]、EXIF 一致性[3]、相機模型等特性。
待檢測圖像若曾被復(fù)制粘貼,圖像中必然存在局部相似的區(qū)域,基于此假設(shè),一般的研究方法[7-8]將待檢測圖像分為非重疊區(qū)域和重疊區(qū)域,并利用相似性或相關(guān)性進行度量,以確定圖像塊是否被復(fù)制,常用的特征提取方法有局部二值模式(Local Binary Patterns,LBP)、方向梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)及其改進的算法。文獻[5]通過分割待檢測圖像,對比各個語義獨立補丁的仿射變換矩陣以確定匹配點,并進一步匹配確定相似的補丁。文獻[17]所提圖像塊匹配算法能有效用于計算圖像上的近似最近鄰域,并使用不變特征來匹配相似圖像塊,例如圓諧波轉(zhuǎn)換,展現(xiàn)了該應(yīng)用經(jīng)過幾何變換圖像塊的魯棒性。在深度學(xué)習(xí)出現(xiàn)前,研究主要關(guān)注判定圖像及圖像塊是否被篡改,由于深度學(xué)習(xí)在目標(biāo)檢測、語言分割方面取得了優(yōu)異表現(xiàn),復(fù)制-粘貼取證也有較大進展。文獻[7]定義了兩分支的神經(jīng)網(wǎng)絡(luò)框架,并分別用于提取篡改區(qū)域留下的視覺痕跡、區(qū)分篡改區(qū)域與背景區(qū)域,最終實現(xiàn)像素級的檢測定位。文獻[8]使用卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取局部塊的特征,計算不同塊之間的自相關(guān)性,并利用點特征提取器定位匹配點,通過反卷積網(wǎng)絡(luò)定位篡改區(qū)域,對于仿射變換、JPEG 壓縮、模糊等各種已知攻擊具有較強的魯棒性。
若偽造圖像經(jīng)過拼接操作,則拼接區(qū)域?qū)⒁氩煌诒尘皡^(qū)域的固有特征,例如噪聲不連續(xù)、篡改區(qū)域邊緣和色彩不一致等線索。MAHDIAN 等[18]利用小波變換原理估計圖像塊的噪聲水平,并設(shè)定閾值不斷融合領(lǐng)域圖像塊,根據(jù)噪聲的局部不一致性進行篡改區(qū)域定位。PAN 等[19]利用帶通濾波器下的峰值濃度與噪聲水平的關(guān)系檢測篡改區(qū)域,該方法首先計算每個局部窗口的噪聲,接著對這些噪聲值進行K-means 聚類,最終確定拼接區(qū)域。當(dāng)拼接區(qū)域和原始圖像內(nèi)在噪聲方差的差異較小時,該方法的檢測結(jié)果不理想。ZENG 等[20]基于主成分分析(Principal Component Analysis,PCA)方法估算每個圖像塊的協(xié)方差矩陣的最小特征值,通過估計較大圖像塊的噪聲水平確定圖像塊是否為可疑圖像塊,將較大的圖像塊繼續(xù)分割為較小圖形塊,并再次進行噪聲水平估計,該方法能較有效地定位拼接區(qū)域。
文獻[21]把待檢測圖像分為水平和垂直的條帶,根據(jù)局部區(qū)域光源顏色的不一致性實現(xiàn)圖像塊級的拼接區(qū)域定位,因深度學(xué)習(xí)具有高緯數(shù)據(jù)的特征多級表征學(xué)習(xí)能力,基于卷積神經(jīng)網(wǎng)絡(luò)的方法應(yīng)運而生。文獻[14]使用卷積神經(jīng)網(wǎng)絡(luò)提取篡改區(qū)域邊緣的顯著性差異,同時預(yù)測篡改區(qū)域及其邊緣,最終結(jié)合幾何限制定位篡改區(qū)域。文獻[4]設(shè)計深度稠密匹配層來尋找2 個給定圖像特征的潛在拼接區(qū)域,并設(shè)計了視覺一致性驗證模塊,該模塊通過交叉驗證潛在拼接區(qū)域上的圖像內(nèi)容來確定檢測。文獻[3]使用自動記錄的照片EXIF 元數(shù)據(jù)作為訓(xùn)練模型的監(jiān)督信號,以確定圖像是否具有自一致性,將自我一致性模型應(yīng)用于偽造圖像的檢測和定位。
文獻[9]和文獻[22]提出基于修復(fù)的圖像移除取證方法,可以實現(xiàn)無明顯痕跡的物體去除[22]。文獻[23]提出一種集成的圖像移除篡改檢測方法,利用中心像素映射加速相似圖像對的搜索,減少處理時間的同時維持了較高的精度,然而針對壓縮、低通濾波、模糊等攻擊偽造圖像效果不理想。文獻[9]采用2 種強化監(jiān)督策略以引導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)自動學(xué)習(xí)修補特征而非圖像內(nèi)容特征,該方法采用編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu),以實現(xiàn)在不考慮特征提取的情況下自動檢測、去除篡改區(qū)域。
文獻[24-26]提出針對復(fù)合篡改類型的深度學(xué)習(xí)方法用于篡改取證,文獻[12]在生成特征圖上使用長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)建立相鄰像素之間的相關(guān)性,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲取篡改區(qū)域與背景區(qū)域的邊界不連續(xù)特點,實現(xiàn)端到端的像素級定位。若篡改區(qū)域邊緣未留下明顯痕跡,則篡改性能下降。文獻[24]利用LSTM網(wǎng)絡(luò)捕獲篡改引起的重采樣特征,同時使用編解碼網(wǎng)絡(luò)結(jié)構(gòu)捕獲篡改痕跡,融合特征完成篡改區(qū)域的定位。文獻[25]在文獻[24]基礎(chǔ)上充分考慮淺層特征圖對篡改定位的影響,采用跳躍連接以避免邊緣、紋理等線索的丟失,進一步提升篡改定位精度。文獻[26]提出兩階段的篡改方法,先通過復(fù)制粘貼檢測器判斷圖像是否經(jīng)過克隆和移除篡改操作,再結(jié)合基于深度學(xué)習(xí)的重采樣檢測器判斷是否經(jīng)過拼接和重采樣篡改操作,在一定程度上提高了檢測性能。
本文提出面向圖像篡改取證的多特征融合U 形深度網(wǎng)絡(luò)(Multi-Feature Fusion U-Structure deep network for image forgeries detection,MFF-US net)用于圖像篡改檢測和定位,如圖1 所示(彩色效果見《計算機工程》官網(wǎng)HTML 版),該網(wǎng)絡(luò)包含信息融合、特征提取、區(qū)域定位3 個模塊,相較于現(xiàn)有使用圖像分類的預(yù)訓(xùn)練模型深度學(xué)習(xí)方法,MFF-US net 是從0 開始訓(xùn)練的高效深度學(xué)習(xí)網(wǎng)絡(luò),能夠避免過量的參數(shù)增加計算量。
圖1 MFF-US net 的框架Fig.1 Framework of MFF-US net
在篡改圖像顏色空間,對篡改區(qū)域邊緣和對比度差異等語義特征建模并不能充分利用篡改區(qū)域遺留的噪聲痕跡。因此,在信息融合模塊中加入富隱寫模型卷積層自動提取噪聲特征,通過聯(lián)結(jié)操作最大程度地保留篡改線索,并在特征提取模塊中利用編碼-解碼網(wǎng)絡(luò)多尺度地提取上下文信息。在區(qū)域定位模塊中,為了避免篡改特征表征的損失,將提取的融合特征分級進行監(jiān)督并逐層實現(xiàn)特征融合,實現(xiàn)篡改區(qū)域檢測和高置信度的像素級分類。
本文的貢獻主要有以下3 個方面:
1)提出一種并不依賴預(yù)訓(xùn)練模型的圖像篡改取證方法,更加關(guān)注篡改區(qū)域與真實區(qū)域間的特征建模,并在多個公共數(shù)據(jù)集上取得較優(yōu)性能。
2)利用SRM 模型提取噪聲分布特征并融合RGB 視覺線索,實現(xiàn)像素級的檢測與定位。
3)篡改區(qū)域和真實區(qū)域存在樣本標(biāo)簽不平衡的情況,常篡改區(qū)域的像素數(shù)量遠小于真實的背景區(qū)域,因此引入損失函數(shù)緩解樣本不平衡問題。
圖像篡改取證與目標(biāo)檢測任務(wù)相比,后者關(guān)注于物體的檢測,前者更強調(diào)篡改區(qū)域遺留的痕跡且要求深度學(xué)習(xí)網(wǎng)絡(luò)需要學(xué)習(xí)更豐富的特征。因此,本文在融合RGB 信息和噪聲信息的基礎(chǔ)上,引入U 型殘差塊[27]構(gòu)造可堆疊U 型結(jié)構(gòu)的MFF-US net,以捕捉更多上下文信息。該網(wǎng)絡(luò)不同于Hourgalss network、Docu-Net、CU-Net 等網(wǎng)絡(luò)[27],其網(wǎng)絡(luò)的堆疊不會引起計算參數(shù)和消耗量被成倍放大,滿足高效提取多尺度偽造特征的篡改取證網(wǎng)絡(luò)。
圖像作為網(wǎng)絡(luò)的輸入,不需要額外進行預(yù)處理操作。在信息融合階段通過對輸入圖像進行雙分支處理,SRM 卷積層和2D 卷積層經(jīng)過卷積處理分別生成相同維度的特征,通過聯(lián)結(jié)所獲取的特征作為特征提取模塊的輸入信息。
3.1.1 RGB 信息
復(fù)制-粘貼、拼接、移除等圖像篡改操作普遍會留下視覺痕跡,在篡改區(qū)域形成的過程中,容易造成篡改區(qū)域邊緣不自然和紋理不連續(xù)的現(xiàn)象,如圖2(b)所示,篡改區(qū)域邊緣相較于自然物體邊緣更模糊,自然物體邊緣視覺上過渡更加自然。
圖2 篡改痕跡示例Fig.2 Examples of tamper marks
卷積神經(jīng)網(wǎng)絡(luò)具有局部感知和參數(shù)共享的特點,在目標(biāo)檢測、物體分類等領(lǐng)域表現(xiàn)出較大的潛力,同樣能夠提取篡改遺留的視覺痕跡。專業(yè)的圖像篡改者為了使篡改區(qū)域與背景區(qū)域相似及避免篡改圖像上語義信息的不合理性,常使用后處理操作,如旋轉(zhuǎn)、縮放、扭曲、模糊及其組合篡改等操作。從語義信息考慮蒲公英花的拼接、廣告牌信息的擦除、賽車數(shù)量的增加等符合自然事物的存在,篡改區(qū)域邊緣的篡改痕跡經(jīng)過模糊等后處理操作,很難被人察覺,尤其是圖2 第2 行的移除篡改類型,篡改區(qū)域為融合背景區(qū)域的領(lǐng)域信息,在紋理、對比度等方面無明顯差異。經(jīng)過精心的后處理操作能夠使篡改邊緣和對比度差異減弱,RGB 圖像遺留的篡改痕跡并不明顯,其采用了噪聲特征分支信息來彌補顏色信息空間的不足,因此本文引入局部噪聲信息。
3.1.2 噪聲信息
相較于RGB 圖像信息較多關(guān)注圖像內(nèi)容提取的低級、高級特征,噪聲信息更加注重局部噪聲的分布規(guī)律。經(jīng)過篡改的圖像必然導(dǎo)致噪聲分布不均,圖像上的噪聲信息作為篡改痕跡的補充,在一定程度上能夠解決視覺差異不明顯的問題,通過對比噪聲估計方法,更好地體現(xiàn)局部噪聲特征[28]。采用圖3 所示的SRM 卷積核,圖像經(jīng)過SRM卷積后生成噪聲圖像,如圖2第3列所示。顯然,噪聲圖像強調(diào)局部噪聲而非圖像內(nèi)容,并能夠顯示RGB 通道中不可見的篡改痕跡,通過相鄰元素間的殘差建模,形成噪聲圖表示元素間的共存關(guān)系。實驗室設(shè)置中,2D 卷積層的卷積核維度和SRM 卷積層相同,維度為5×5×3,并保證得到相同維度的輸出。
圖3 SRM 卷積核Fig.3 SRM convolution kernel
由于現(xiàn)實生活中偽造圖像的篡改區(qū)域存在大小和形狀多樣性,因此要求深度學(xué)習(xí)網(wǎng)絡(luò)必須具有多尺度特征學(xué)習(xí)能力,較為常見的處理方法為高頻使用1×1、3×3較小卷積核提取特征,以便占用較小的儲存空間,以及避免在減少計算量的同時在特征提取階段只能提取局部特征信息的情況發(fā)生。VGG、ResNet、DenseNet[27]等網(wǎng)絡(luò)并不能滿足篡改檢測任務(wù)對全局信息和局部信息高效提取的要求,他們?yōu)樘崛「叻直媛侍卣鲌D的全局上下文信息,通常使用inception 網(wǎng)絡(luò),在網(wǎng)絡(luò)框架的淺層階段使用空洞卷積增加接受野,但這將導(dǎo)致計算和內(nèi)存資源消耗增加。為減少計算資源占用,PoolNet在下采樣階段使用較小卷積核代替空洞卷積。由于在多尺度特征融合階段,上采樣和連接操作會導(dǎo)致高分辨率特征信息的損失,因此引入殘差U-blocks 塊作為信息提取的結(jié)構(gòu)。
殘差塊和殘差U 型塊的結(jié)構(gòu)如圖4 所示。殘差U-blocks 能夠獲取多尺度塊內(nèi)特征,其結(jié)構(gòu)為RSUL(Cin,M,Cout),如圖4(c)所示。
圖4 殘差塊和殘差U 型塊的結(jié)構(gòu)Fig.4 Structure of the residual block and RSU
在圖4(c)中:L代表編碼階段層數(shù);Cin、Cout分別代表輸入、輸出特征通道;M為RSU 內(nèi)中間層通道數(shù),主要由3 個部分組成:
1)普通卷積層,用于提取局部特征信息,將輸入特征圖x(H×w×Cin)轉(zhuǎn)換為中間映射F1(x)。
2)高度為L的對稱U 型結(jié)構(gòu)的編碼-解碼結(jié)構(gòu),能夠提取并編碼多尺度上下文信息u(F1(x)),L越大,代表更多的池化操作、更廣范圍的感受野、更多的局部和全局特征信息。編碼-解碼結(jié)構(gòu)逐步在下采樣的特征圖中提取多尺度特征,并通過逐步上采樣、拼接和卷積操作編碼成高分辨率特征圖,這一過程能夠減少大尺度特征直接上采樣造成的細節(jié)損失。
3)殘差連接結(jié)構(gòu),用于融合局部特征和多尺度特征u(F1(x))+F1(x)。
為更清晰地闡述殘差U-blocks 和原始殘差塊的差異,原始殘差塊被定義為:H(x)=F2(F1(x))+x,其中:H(x)為輸入特征x的映射結(jié)果;F2和F1分別表示權(quán)重層的卷積操作。殘差U-blocks 最大的差異在于使用U型結(jié)構(gòu)代替卷積結(jié)構(gòu),其定義為:HRSU(x)=u(F1(x))+F1(x),其中:u代表多尺度的U 型框架,由于U 型框架較小,在提取多尺度特征的過程中不會消耗明顯的計算力。
編碼-解碼結(jié)構(gòu)是對稱結(jié)構(gòu),能有效提取各分辨率特征圖的多尺度信息,避免有效信息的損失。編碼階段如圖1 所示,共6 個塊,其中En-1、En-2、En-3、En-4 分別為不同L的殘差U-block 塊,相對應(yīng)的L為7、6、5、4,L取決于輸入圖像特征圖的分辨率大小。對于En-5、En-6 塊,此時的特征圖尺寸較小,進一步的下采樣和池化會導(dǎo)致有效信息的丟失。采用空洞卷積代替下采樣或者池化操作,此時輸入與輸出的維度相同。解碼結(jié)構(gòu)與編碼結(jié)構(gòu)相似,并使用相對應(yīng)的上采樣和拼接操作,能夠逐步恢復(fù)特征圖的分辨率,有效避免特征信息的損失。解碼階段分為5 個塊,其中,De-1、De-2、De-3、De-4 對應(yīng) 編碼階段 的殘差U-block 塊,De-5 與En-5 結(jié)構(gòu)相似。
篡改定位融合模塊用于生成篡改區(qū)域概率圖。首先,分別在En-6、De-5、De-4、De-3、De-2 和De-1 中使用一個3×3 的卷積層和一個sigmoid 函數(shù),用于產(chǎn)生篡改區(qū)域概率圖。其次,將3×3的卷積層卷積輸出(logit)篡改區(qū)域映射到輸入圖像的尺寸,并將他們進行拼接操作,最后通過卷積層和sigmoid函數(shù)生成最終篡改區(qū)域概率圖S0。
實驗設(shè)置中,在訓(xùn)練階段使用深度監(jiān)督策略,訓(xùn)練損失被定義為:
其中:(r,c) 為像素坐標(biāo);(H,W)分別為圖片尺寸高和寬;分別為對應(yīng)輸入圖片的Groundtruth 和預(yù)測出來的概率圖。
然而對于篡改檢測而言,篡改區(qū)域面積與背景區(qū)域存在較大差異,易造成不同類間的不均衡。
在式(2)的基礎(chǔ)上,增加參數(shù)β以控制類別不平衡,定義新的損失函數(shù)Lt如式(3)所示:
本節(jié)將驗證本文方法在4 個標(biāo)準公共數(shù)據(jù)集上的篡改效果,包含NIST Nimble 2016[29](NIST16)、CASIA[30]、COVER[15]以 及Columbia dataset[31]數(shù) 據(jù)集,通過F1、AUC、ROC 曲線、定位結(jié)果等多方面分析模型的泛化能力,同時采用縮放、JPEG 壓縮等后處理操作實驗,分析模型的魯棒性。
在實驗過程中,使用NIST Nimble 2016、CASIA、COVER、Columbia dataset 和文獻[24]的synthesized 數(shù)據(jù)集共同作為本文實驗的訓(xùn)練集。
1)NIST16 數(shù)據(jù)集。應(yīng)用于競賽中,包含3 種篡改類型,分別為拼接、復(fù)制-粘貼和移除,篡改的數(shù)字圖像經(jīng)過后處理操作難以通過視覺痕跡觀察到,此數(shù)據(jù)集中的圖片具有不同的背景、光照條件和物體,并提供了篡改圖像相對應(yīng)的Ground-truth 圖像。
2)CASIA 數(shù)據(jù)集。其包含大量物體的復(fù)制粘貼和拼接圖像,篡改區(qū)域經(jīng)過精心選擇、濾波模糊等后處理操作。該數(shù)據(jù)集提供了相對應(yīng)的Ground-truth圖像,本文使用CASIA 2.0 進行訓(xùn)練,在CASIA 1.0中進行測試性能。
3)COVER 數(shù)據(jù)集。專注于復(fù)制粘貼的小型數(shù)據(jù)集,通過縮放、旋轉(zhuǎn)、扭曲、改變光照等手段產(chǎn)生相似的物體形成篡改圖像,并利用多種指標(biāo)衡量篡改圖像的相似度,該數(shù)據(jù)集也提供篡改圖像相對應(yīng)的mask數(shù)據(jù)。
4)Columbia 數(shù)據(jù)集。含有拼接圖像與真實圖像共363 幅,其中183 幅來自不同數(shù)碼相機拍攝的真實圖像,180 幅為拼接而成的圖像,圖像格式為TIFF 格式,尺寸大小范圍為757×568 像素~1 152×768 像素,這些圖像主要在室內(nèi)拍攝而成,場景包含走廊、辦公桌、人物、盆栽植物等。
本著公平原則,訓(xùn)練數(shù)據(jù)集的圖像數(shù)量劃分如表1所示。為加強模型的泛化能力,對輸入圖像進行縮放、隨機垂直翻轉(zhuǎn)、裁剪為280×280 等操作以避免過擬合現(xiàn)象的出現(xiàn),圖像縮放使用的是雙線性插值方法。
表1 不同數(shù)據(jù)集中訓(xùn)練集和測試集的圖像數(shù)量劃分Table 1 Image quantity division of training set and test set in different data sets
在訓(xùn)練模型過程中,采用Pytorch 定義深度網(wǎng)絡(luò)框架,使用單張GPU,利用NVIDIA TITAN RTX GPU 在不同設(shè)置條件下進行實驗,使用Adam 優(yōu)化算法,初始化學(xué)習(xí)率為0.001,betas=(0.9,0.999),eps=1×10-8,weight decay=0,通過batch-size 為183 000 個epoch 迭代訓(xùn)練模型。
為定量評價本文方法的有效性,采用F1 分數(shù)和接收器操作特性曲線(Receiver Operating Characteristic,ROC)作為對比性能的評價標(biāo)準,F(xiàn)1 得分表示對于篡改檢測像素水平的評估標(biāo)準,利用不同的閾值及最高F1 得分作為每張圖片最終得分,其定義如式(4)所示。正確檢測率(True Positive Rate,TPR)和錯誤檢測率(False Positive Rate,F(xiàn)PR)的計算公式如式(5)和式(6)所示,其中,F(xiàn)FN表示篡改像素點被誤檢測為真實像素點的數(shù)量,F(xiàn)FP表示真實像素點被誤檢測為篡改像素點的數(shù)量,TTN表示真實像素點被正確檢測出的數(shù)量,TTP表示篡改像素點被正確檢測出的數(shù)量。
ROC 曲線是描述不同閾值下二分類的預(yù)測表現(xiàn),ROC 曲線的面積表示不同方法下二分類的性能表現(xiàn),其定義為根據(jù)不同的分類閾值,即設(shè)置判斷像素點為篡改像素點的閾值t,若像素點的分類概率≥閾值t(常取t=0.5),則判定樣本為篡改像素點,其中TPR 為縱坐標(biāo),F(xiàn)PR 為橫坐標(biāo)。根據(jù)TPR 和FPR 的值不同,將他們的值繪制形成曲線,即為ROC 曲線。
4.3.1 與現(xiàn)有方法的對比
現(xiàn)有的圖像篡改取證方法分為傳統(tǒng)的手工特征提取網(wǎng)絡(luò)和基于深度學(xué)習(xí)的篡改網(wǎng)絡(luò),本節(jié)對比現(xiàn)有方法,采用消融實驗驗證本文方法的有效性,實驗中采用以下方法進行對比。
1)ELA[32]方法,通過查找在不同壓縮因子情況下篡改區(qū)域與背景區(qū)域間的壓縮錯誤差異以定位篡改區(qū)域。
2)NOI1 方法,利用高頻的小波系數(shù)來模擬局部噪聲,設(shè)定閾值并不斷融合領(lǐng)域圖像塊,依據(jù)噪聲的局部不連續(xù)性進行篡改區(qū)域定位[18]。
3)CFA1 方法,假設(shè)圖像是使用一個彩色濾波器陣列獲得的,并且篡改消除了由馬賽克算法產(chǎn)生的偽影,通過在局部水平上測量CFA 偽影的存在推理出篡改區(qū)域[33]。
4)MFCN 方法,構(gòu)造全卷積網(wǎng)絡(luò)實現(xiàn)篡改邊緣和初步篡改區(qū)域的預(yù)測,利用幾何知識整合篡改邊緣和初步篡改區(qū)域并確定最終篡改區(qū)域[14]。
5)J-LSTM 方法,聯(lián) 合LSTM 網(wǎng)絡(luò)和CNN 網(wǎng)絡(luò)完成篡改塊的判定和像素級的篡改區(qū)域分割[12]。
6)RGB-N 方法,通過利用雙線性池化融合圖像信息和噪聲信息實現(xiàn)篡改區(qū)域的定位[34]。
7)MANTRA-NET 方法,利用CNN 網(wǎng)絡(luò)解決篡改痕跡提取和局部異常檢測問題,實現(xiàn)篡改區(qū)域像素級的定位[35]。
8)Single-RGB 方法,本文所提方法采用單流輸入的方式,即只考慮RGB 信息的輸入,記為Single-RGB。
9)Single-Noise 方法,Single-RGB,本文所提方法采用單流輸入的方式,即只考慮噪聲信息的輸入,記為Single-Noise。
對比現(xiàn)有方法包括ELA、NOI、CFA1、MFCN、RGBN 和本文方法的F1 指標(biāo),結(jié)果如表2 所示。其中:對比Single-RGB、Single-Noise 和本文方法可知,具有融合特征的網(wǎng)絡(luò)優(yōu)于單流輸入的噪聲信息和RGB 信息。在NIST16、COVER 和CASIA 數(shù)據(jù)集上的數(shù)據(jù)結(jié)果可知,Single-RGB方法略優(yōu)于Single-Nois。然而在Columbia數(shù)據(jù) 集中,Single-Noise 取 得的F1 值比Single-RGB 方法高2.3 個百分點,原因是Columbia為未壓縮的拼接圖像,噪聲差異較為明顯,并未受到后處理操作的影響。
表2 不同方法在不同數(shù)據(jù)集上的F1 值對比Table 2 Comparison of F1 values of different methods on different data sets
基于深度學(xué)習(xí)的篡改檢測方法要遠優(yōu)于傳統(tǒng)特征提取方法,單一特征的篡改取證方法容易導(dǎo)致多數(shù)偽造圖像的檢測任務(wù)失敗,這是因為ELA、NOI、CFA1 特征提取方法只強調(diào)單一的篡改痕跡,且多類型的篡改取證需要更豐富的區(qū)分特征。
本文方法在NIST16、Columbia、CASIA 數(shù)據(jù)集上表現(xiàn)較優(yōu),分別高于RGB-N 方法11.9、2.6 和19.7 個百分點。在深度學(xué)習(xí)方法中,MFCN 方法的表現(xiàn)性能較差,這是因為在特征提取過程中,采用較小尺寸的卷積核和上采樣操作容易致使低層特征損失及較小篡改區(qū)域檢測效果不理想。與RGB-N 方法相比,本文方法采用了RSU 結(jié)構(gòu)和分級監(jiān)督策略,具有豐富的多尺度特征,在一定程度上能夠避免較大篡改區(qū)域的邊緣與較小篡改區(qū)域的細節(jié)丟失。由表2 還可知,本文方法在COVER 數(shù)據(jù)集上的F1 值低于RGB-N 方法1.9 個百分點,這是因為復(fù)制粘貼操作產(chǎn)生類似的噪聲分布不利于產(chǎn)生區(qū)分特征。由此可見本文所提方法的綜合性能優(yōu)于現(xiàn)有方法。
4.3.2 ROC 曲線
本節(jié)采用ROC 曲線對比不同方法的性能,包括ELA、NOI、CFA1、J-LSTM、MANTRA-NET 和RGB-N方法,其中ROC 曲線與橫軸坐標(biāo)軸形成的區(qū)域面積稱為AUC 值,AUC 值越高代表該方法的泛化能力越強。
如表3所示,與基于CNN的深度學(xué)習(xí)方法相比,ELA方法、NOI方法和CFA1方法因無法實現(xiàn)通用的取證模型表現(xiàn)出較弱的泛化能力,通過對比本文方法、Single-RGB方法和Single-Noise方法在不同數(shù)據(jù)集上的AUC值高低,驗證了本文方法的有效性。其中,J-LSTM方法利用CNN提取淺層特征圖并分塊輸入LSTM 網(wǎng)絡(luò)中,在一定程度上造成篡改區(qū)域的邊緣定位不準確,在NIST16和COVER數(shù)據(jù)集上的AUC值分別為0.764和0.614,泛化能力較弱。本文方法在NIST16、Columbia、CASIA數(shù)據(jù)集上的AUC值均為最高,分別高于MANTRA-NET方法14.7、8.5和2.8個百分點,且MANTRA-NET方法利用多層CNN 提取特征過程中易造成淺層特征的丟失,如篡改區(qū)域的邊緣等細節(jié)不準確。本文所提方法在NIST16、Columbia、COVER 和CASIA 數(shù)據(jù)集上的AUC 值分別為0.942、0.909、0.727和0.845,其相對應(yīng)的ROC曲線為圖5所示像素級分割的ROC曲線,由圖5可知由于不同數(shù)據(jù)集分布不同,單一的閾值設(shè)置并不能取得最優(yōu)性能,這進一步說明了本文所提方法具有較強的泛化能力。
圖5 在4 個標(biāo)準數(shù)據(jù)集上像素級分類的ROC 曲線Fig.5 ROC curve of pixel-level classification on four standard data sets
表3 在標(biāo)準數(shù)據(jù)集上AUC 值的比較Table 3 Comparison of AUC values on the standard data set
4.3.3 定位結(jié)果分析
為進一步驗證本文方法的有效性,本節(jié)對一些偽造圖像進行了篡改檢測與定位,圖6 所示的是來源于4 個標(biāo)準數(shù)據(jù)集中的篡改檢測實例,其中包括篡改圖像、噪聲圖像、Ground-truth 圖像以及本文方法的檢測結(jié)果。圖6(a)、圖6(b)、圖6(c)和圖6(d)分別來自數(shù)據(jù)集NIST16、Columbia、COVER 和CASIA,包括拼接、復(fù)制-粘貼和移除篡改類型,第1 列為待檢測的篡改圖像直接輸入到網(wǎng)絡(luò)模型中,無需縮放等預(yù)處理操作,第2 列為噪聲圖像,第3 列為Ground-truth 圖像,第4 列為本文方法的輸出結(jié)果。顯然,由于MFF-US 網(wǎng)絡(luò)具有多尺度高分辨率特征提取能力,篡改區(qū)域能夠應(yīng)對任意圖像尺寸的篡改檢測,并且在較小篡改區(qū)域檢測和較大篡改區(qū)域邊緣均取得高置信度的檢測結(jié)果。從圖6(c)和圖6(d)中可以發(fā)現(xiàn)檢測結(jié)果存在漏檢篡改區(qū)域的情況,對于多數(shù)篡改圖像能夠精確地檢測并分割篡改區(qū)域。
圖6 不同數(shù)據(jù)集的篡改檢測結(jié)果示例Fig.6 Examples of tamper detection results for different data sets
4.3.4 魯棒性分析
JPEG 圖像壓縮及幾何變換是常見的拼接圖像后處理操作,為進一步評估本文所提方法的魯棒性,統(tǒng)計NIST16 數(shù)據(jù)庫中的測試集分別經(jīng)過壓縮因子QF=70的JPEG 壓縮,QF=50 的JPEG 壓縮縮放0.7 和縮放0.5操作后檢測的F1 值,結(jié)果如表4 所示。由表4 可知,本文方法相較于現(xiàn)有其他方法具有較強的抗縮放和抗JPEG攻擊的能力,在壓縮因子為70和縮放0.7的情況下,F(xiàn)1值略有降低,分別減少2.3 和2.7 個百分點,在壓縮因子為50和縮放0.5的情況下,F(xiàn)1值有明顯下降,分別減少10.3和5.4 個百分點,本文方法的F1 值相較于RGB-N 方法分別提高了6.1 和10.6 個百分點。綜上所述,本文所提方法具有較強的魯棒性和泛化能力。
表4 不同方法在NIST16 測試集JPEG 壓縮和縮放情況下的F1 值Table 4 F1 value of different methods under JPEG compression and scaling of NIST16 test set
4.3.5 復(fù)雜度分析
本節(jié)針對現(xiàn)有基于深度學(xué)習(xí)的方法復(fù)雜度進行分析,結(jié)果如表5 所示。表5 所示為不同方法模型的參數(shù)量和圖像的平均推理幀率,用于圖像偽造取證的本文方法參數(shù)量為168M,僅高于MANTRA-net 參數(shù)量,遠低于MFCN 和RGB-N 模型參數(shù)量,這是因為采用殘差U-blocks 結(jié)構(gòu)代替常用的卷積層有助于減少模型空間和時間復(fù)雜度。在時間復(fù)雜度方面,本文方法的幀率達20 frame/s,高于其他方法,能有效滿足現(xiàn)實生活中對于篡改取證實時性和有效性的需求。
表5 不同方法模型參數(shù)量和耗時的對比Table 5 Comparison of model parameters and time-consuming of different methods
本文提出一種用于圖像偽造取證的高效U 形深度網(wǎng)絡(luò)MFF-US net,實現(xiàn)篡改區(qū)域的檢測與分割。利用CNN 網(wǎng)絡(luò)和SRM 卷積層構(gòu)建特征融合模塊,以提取并融合RGB 和噪聲信息。同時,引入RSU 結(jié)構(gòu)并構(gòu)造出具有多尺度特征的噪聲提取模塊,并在融合定位模塊利用分級監(jiān)督策略,以融合不同分辨率提取的篡改特征,實現(xiàn)篡改區(qū)域檢測與像素級的分割。實驗結(jié)果表明,基于編解碼網(wǎng)絡(luò)和多特征融合的取證方法能夠自動學(xué)習(xí)篡改特征,且無需考慮特征提取和分類設(shè)計。與MFCN、RGB-N、MANTRA-net 等現(xiàn)有方法相比,本文方法在多個標(biāo)準篡改取證數(shù)據(jù)集上均取得較優(yōu)性能,針對縮放、JPEG 壓縮等攻擊操作具有較強的魯棒性。下一步將通過生成對抗網(wǎng)絡(luò),產(chǎn)生更豐富的篡改數(shù)據(jù),加強篡改取證中小目標(biāo)檢測,以應(yīng)對復(fù)雜偽造圖像的情況。