袁國龍,張玉金,劉 洋
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
隨著手機(jī)、數(shù)碼相機(jī)、計(jì)算機(jī)等設(shè)備的飛速發(fā)展,出現(xiàn)了Photoshop、Gimp 和Pixlr 等一系列操作簡單、高效的圖像編輯軟件,人們可以輕松地對(duì)圖像內(nèi)容進(jìn)行篡改。圖像經(jīng)過篡改后還會(huì)經(jīng)過高斯平滑等多種后處理操作,在視覺上很難分辨真?zhèn)危诒粣阂馐褂煤髸?huì)影響他人對(duì)客觀事件的判斷,甚至?xí):野踩蜕鐣?huì)穩(wěn)定。
當(dāng)前的圖像篡改取證算法分為傳統(tǒng)取證算法和基于深度學(xué)習(xí)的取證算法兩大類。傳統(tǒng)的圖像取證算法[1-3]在局部水平上提取噪聲、顏色濾波陣列(Color Filter Array,CFA)偽影等單篡改特征區(qū)分篡改區(qū)域和非篡改區(qū)域,因此泛化性和檢測(cè)效果不佳?;谏疃葘W(xué)習(xí)的取證算法通過深度模型訓(xùn)練自動(dòng)學(xué)習(xí)期望的特征,不需提取顯式特征,逐漸成為圖像篡改取證領(lǐng)域的主流算法。然而,現(xiàn)有的基于深度學(xué)習(xí)的圖像篡改檢測(cè)算法[4-5]一方面僅檢測(cè)圖像是否被篡改,忽視了對(duì)圖像篡改區(qū)域的定位。在司法鑒定等領(lǐng)域中,對(duì)圖像篡改區(qū)域的精確定位能有效甄別篡改者的意圖,具有重大意義。另一方面,這些算法集中于單一類型的篡改方式。當(dāng)前有多種圖像篡改類型,主要包括拼接[6-7]、復(fù)制-粘貼[8-9]和內(nèi)容移除[10]三種類型。文獻(xiàn)[6-10]中的算法雖然能有效地檢測(cè)特定的單一篡改類型,但不適用于其他篡改類型,如文獻(xiàn)[10]中的算法適用于內(nèi)容移除篡改類型檢測(cè),但是對(duì)拼接和復(fù)制-粘貼篡改類型檢測(cè)失效,這就需要相關(guān)研究者的工作不能局限于特定的篡改類型和圖像是否被篡改的簡單分類。
近年來,一些基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)算法被提出,它們能在一個(gè)網(wǎng)絡(luò)框架上檢測(cè)多種篡改類型圖像并對(duì)篡改區(qū)域進(jìn)行定位。文獻(xiàn)[11]中設(shè)計(jì)了一個(gè)自監(jiān)督學(xué)習(xí)任務(wù),使用Z-score 特征和長短期記憶(Long Short-Term Memory,LSTM)分別定位和評(píng)估篡改區(qū)域。文獻(xiàn)[12]中提出基于編-解碼器結(jié)構(gòu)的CNN模型Fals-Unet,編碼器使用ResNet50 的拓?fù)浣Y(jié)構(gòu),能夠有效定位圖像篡改區(qū)域。文獻(xiàn)[13]中使用噪聲特征來定位圖像篡改區(qū)域,并使用自對(duì)抗訓(xùn)練策略提高模型的訓(xùn)練精度和魯棒性。文獻(xiàn)[14-16]中通過雙流CNN 學(xué)習(xí)圖像篡改的混合特征,其中:文獻(xiàn)[14]中使用LSTM 模塊提取重采樣特征,同時(shí)使用編-解碼器網(wǎng)絡(luò)RGB 像素上的對(duì)比度差異等篡改特征;文獻(xiàn)[15]中采用SRM(Steganalysis Rich Model)濾波器提取圖像噪聲,并將圖像噪聲特征和RGB 像素篡改特征輸入到Faster R-CNN 中檢測(cè)篡改區(qū)域,但該算法只能對(duì)篡改區(qū)域進(jìn)行框定位;文獻(xiàn)[16]中采用雙流編-解碼器網(wǎng)絡(luò)同時(shí)檢測(cè)RGB 像素和噪聲層面的篡改偽影,最后將檢測(cè)到的多種特征進(jìn)行融合然后定位篡改區(qū)域,并在一定程度上取得了良好的檢測(cè)效果。然而,文獻(xiàn)[15-16]中對(duì)復(fù)制-粘貼篡改類型的檢測(cè)性能不佳,這是因?yàn)樵摯鄹念愋蛨D像的偽造區(qū)域內(nèi)容來自原圖像,導(dǎo)致局部噪聲、對(duì)比度等特征差異不夠明顯。如何進(jìn)一步增強(qiáng)圖像篡改區(qū)域和真實(shí)區(qū)域的特征差異,是解決以上問題的關(guān)鍵。
因此,本文提出一種基于殘差反饋和自注意力機(jī)制的雙流編-解碼器圖像篡改取證網(wǎng)絡(luò),有效應(yīng)對(duì)包括復(fù)制-粘貼在內(nèi)的多種篡改類型的復(fù)雜取證場(chǎng)景。在使用噪聲特征的雙流圖像篡改取證網(wǎng)絡(luò)[16]的基礎(chǔ)上,本文的主要工作如下:
1)在網(wǎng)絡(luò)的兩個(gè)流中設(shè)計(jì)了融合殘差反饋的雙重殘差結(jié)構(gòu),有效增強(qiáng)多種篡改類型圖像偽造區(qū)域和真實(shí)區(qū)域間的高、低特征差異,如篡改邊緣、噪聲等。
2)在網(wǎng)絡(luò)中引入了自注意力機(jī)制并進(jìn)行改進(jìn),使它能更有效地捕獲全局篡改特征在空間、通道各自維度上的長期依賴關(guān)系,更加關(guān)注圖像篡改區(qū)域的特征增強(qiáng)。
3)將淺層網(wǎng)絡(luò)提取的低層次特征與對(duì)應(yīng)深層網(wǎng)絡(luò)提取的高層次特征進(jìn)行融合,對(duì)編碼器階段最大池化操作丟失的語義信息進(jìn)行補(bǔ)充,提高了網(wǎng)絡(luò)的特征提取能力。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)層次越深,就能夠提取越多層次的特征信息。然而隨著神經(jīng)網(wǎng)絡(luò)層次的不斷加深,會(huì)出現(xiàn)梯度退化和消失問題。為了解決該問題,文獻(xiàn)[17]中提出殘差網(wǎng)絡(luò)(Residual Network,ResNet)殘差結(jié)構(gòu),如圖1 所示。其中,激活函數(shù)為修正線性函數(shù)(Rectified Linear Unit,ReLU),采用批歸一化(Batch Normalization,BN)對(duì)網(wǎng)絡(luò)相應(yīng)層特征進(jìn)行標(biāo)準(zhǔn)化處理。殘差映射定義如式(1)所示:
圖1 ResNet結(jié)構(gòu)Fig.1 Structure of ResNet
其中:x表示卷積層的輸入;F(x)表示卷積操作輸出結(jié)果;ya表示殘差結(jié)構(gòu)的輸出。殘差網(wǎng)絡(luò)憑借良好的性能廣泛應(yīng)用于CNN 中,但在圖像多篡改類型取證中,如何檢測(cè)篡改區(qū)域和非篡改區(qū)域的多種特征差異是關(guān)鍵。受特征鞏固機(jī)制[6]啟發(fā),本文在殘差結(jié)構(gòu)中添加殘差反饋機(jī)制,設(shè)計(jì)了雙重殘差結(jié)構(gòu)進(jìn)一步增強(qiáng)篡改區(qū)域和真實(shí)區(qū)域的特征差異。
注意力機(jī)制將固定權(quán)重替換為與輸入相關(guān)的權(quán)重,建立輸入感知連接,從而使神經(jīng)網(wǎng)絡(luò)更關(guān)注有意義的區(qū)域特征。文獻(xiàn)[18]中在空間和通道兩個(gè)維度上使用了自注意力機(jī)制,對(duì)空間和通道這兩個(gè)維度上的注意特征圖進(jìn)行簡單融合,并應(yīng)用于語義分割領(lǐng)域,但很容易受到單維度特征的影響。文獻(xiàn)[19]中提出的自注意力機(jī)制使用自適應(yīng)融合方法來融合兩個(gè)通道上的注意特征圖,但它是從語義分割領(lǐng)域簡單引用和改進(jìn)自注意力機(jī)制,不能很好地完成圖像篡改區(qū)域檢測(cè)任務(wù)。為此,本文設(shè)計(jì)了一種改進(jìn)的自適應(yīng)注意力機(jī)制,使用Sigmoid 函數(shù)激活相關(guān)權(quán)重,并將更新后的各維度的偽造注意特征和原始注意輸入特征融合,以獲得更適合篡改區(qū)域檢測(cè)的注意特征圖。
本文設(shè)計(jì)了一種基于殘差反饋和自注意力機(jī)制的雙流編-解碼器圖像篡改取證網(wǎng)絡(luò),網(wǎng)絡(luò)框架如圖2 所示。網(wǎng)絡(luò)分為RGB 編-解碼器流和噪聲編-解碼器流,其中RGB 流和噪聲流分別使用兩個(gè)相同結(jié)構(gòu)的編-解碼器結(jié)構(gòu)。本文在每個(gè)編-解碼器中設(shè)計(jì)了雙重殘差單元和改進(jìn)的自注意力機(jī)制以增強(qiáng)篡改區(qū)域和真實(shí)區(qū)域的特征差異,同時(shí)在解碼器階段將深層特征與相應(yīng)的編碼器淺層特征進(jìn)行融合來提高網(wǎng)絡(luò)的特征提取能力。RGB 編-解碼器流從輸入的RGB 圖像中提取非自然邊緣等高階特征以發(fā)現(xiàn)篡改偽影,噪聲流利用HPF(High-Pass Filter)層提取的噪聲低階特征來檢測(cè)局部噪聲不一致性。最后,將兩個(gè)流檢測(cè)到的多種篡改特征進(jìn)行融合,通過1×1 Sigmoid 特殊卷積層的卷積操作判斷圖像的每個(gè)像素點(diǎn)是否被篡改,實(shí)現(xiàn)在一個(gè)網(wǎng)絡(luò)框架內(nèi)檢測(cè)多種篡改類型圖像并對(duì)篡改區(qū)域進(jìn)行像素級(jí)定位。
圖2 本文算法的網(wǎng)絡(luò)框架Fig.2 Network framework of the proposed algorithm
網(wǎng)絡(luò)中的噪聲信息由HPF 高通濾波層提取。本文使用的HPF 層是一個(gè)特殊的約束卷積層,主要用于計(jì)算圖像的高通殘差,在抑制圖像語義內(nèi)容的同時(shí)增強(qiáng)噪聲內(nèi)容。在預(yù)定義約束下通過學(xué)習(xí)權(quán)值提取內(nèi)容自適應(yīng)的高通殘差,相關(guān)權(quán)值約束定義如式(2)所示:
為了有效增強(qiáng)圖像本質(zhì)屬性的差異,本文在編-解碼器中設(shè)計(jì)了能夠自動(dòng)學(xué)習(xí)多種篡改特征差異的雙重殘差單元,如圖3 所示。每個(gè)殘差單元有3 個(gè)卷積層用于提取相關(guān)篡改特征。3 個(gè)卷積層的卷積核大小均為3×3×n(n為濾波器的個(gè)數(shù)),每個(gè)卷積層后采用ReLU 激活函數(shù)和BN 操作,以降低參數(shù)之間的依賴性,防止過擬合現(xiàn)象發(fā)生。雙重殘差單元在ResNet 的基礎(chǔ)上添加了殘差反饋機(jī)制,反饋函數(shù)如下:
圖3 殘差反饋和雙重殘差單元的處理流程Fig.3 Processing flows of residual feedback and dual residual unit
其中:x表示輸入;ya表示圖1 中的ResNet 殘差輸出;H()表示能夠改變ya維度的卷積操作;s()表示Sigmoid 激活函數(shù);yr表示雙重殘差結(jié)構(gòu)的反饋輸入。Sigmoid 能使網(wǎng)絡(luò)有效學(xué)習(xí)特征通道之間的非線性關(guān)系,并抑制相關(guān)特征發(fā)散。將Sigmoid 激活獲得的響應(yīng)值疊加到輸入信息上,以放大未篡改區(qū)域和篡改區(qū)域之間圖像本質(zhì)屬性的差異。
雙重殘差單元的相關(guān)特征處理流程如下:首先,將相關(guān)特征x輸入到雙重殘差單元中,先經(jīng)過3 次卷積運(yùn)算和1 次殘差正向連接運(yùn)算,得到首次殘差輸出ya;然后,首次殘差輸出ya通過殘差反饋函數(shù)轉(zhuǎn)化為該雙重殘差單元的輸入yr;最后,yr作為輸入經(jīng)過與第1 步相同的操作得到該雙重殘差單元最終的輸出。
傳統(tǒng)的編-解碼器在提取篡改特征時(shí)只提取局部特征,忽略了全局特征對(duì)篡改區(qū)域檢測(cè)的影響。為此,本文在編-解碼器網(wǎng)絡(luò)中設(shè)計(jì)了自適應(yīng)注意力機(jī)制。如圖4 所示,在空間和通道兩個(gè)維度上使用自適應(yīng)注意力機(jī)制獲取全局像素上的長期依賴性,通過相應(yīng)兩個(gè)位置之間的局部特征相似性計(jì)算位置權(quán)重,使用所有位置局部篡改特征的加權(quán)和更新每個(gè)位置的特征表示??臻g或通道維度上任意兩個(gè)位置上的相似特征相互影響,增強(qiáng)圖像篡改區(qū)域和真實(shí)區(qū)域上的特征差異,提高網(wǎng)絡(luò)的篡改區(qū)域檢測(cè)性能。
圖4 本文設(shè)計(jì)的自注意力機(jī)制Fig.4 Self-attention mechanism designed in this paper
空間自注意力機(jī)制如圖4 所示,局部輸入特征X經(jīng)過相應(yīng)的卷積操作后生3 個(gè)新的映射特征X1、X2和X3,其中{X1,X2,X3}∈RC×H×W。經(jīng)重塑操作后{X1,X2,X3}∈RC×N,其中N=W×H。然后,對(duì)X1與X2的轉(zhuǎn)置矩陣執(zhí)行矩陣乘法,并使用Sigmoid 函數(shù)作為激活函數(shù),得到空間注意矩陣圖M(M∈RN×N)。M描述了篡改特征圖在空間維度中任意兩個(gè)位置的相似性,定義如式(4)所示。
其中:Mji表示第i個(gè)位置特征對(duì)第j個(gè)位置的影響,兩個(gè)位置的特征表示越相似,關(guān)聯(lián)性就越大表示X1在i位置的特征同理。X3與M的轉(zhuǎn)置矩陣相乘,結(jié)果重塑為RC×H×W再乘以比例參數(shù)α,最后與輸入X執(zhí)行元素求和運(yùn)算,得到最終的空間注意特征ES∈RC×H×W:
其中,α為初始化為0 的可學(xué)習(xí)的參數(shù)。與空間自注意力機(jī)制類似,通道自注意力機(jī)制得到最終的通道注意輸出為EC∈RC×H×W。將ES和EC進(jìn)行自適應(yīng)融合,如式(6)所示,其中μ和η為自適應(yīng)參數(shù),由高斯標(biāo)準(zhǔn)分布初始化,在網(wǎng)絡(luò)訓(xùn)練過程中持續(xù)自動(dòng)更新。
與多分類任務(wù)如語義分割、目標(biāo)檢測(cè)等不同,圖像篡改定位是二分類任務(wù),即圖像區(qū)域?yàn)榇鄹幕蛘叻谴鄹?,每個(gè)像素的預(yù)測(cè)范圍為[0,1]。同時(shí),空間和通道注意力矩陣圖描述的是在空間和通道維度上兩個(gè)位置的相似性。因此,與文獻(xiàn)[19]中使用Softmax 不同,本文計(jì)算空間和通道注意力矩陣圖時(shí)使用值域?yàn)椋?,1]且更適用于二分類任務(wù)的Sigmoid??臻g和通道維度上得到的注意特征ES和EC是原始特征和所有位置特征的加權(quán)和,因此輸出特征更具有上下文視圖,并根據(jù)空間和通道注意圖有選擇性地聚合上下文信息。
2.4.1 編碼器
編碼器由四個(gè)下采樣塊組成,每個(gè)下采樣塊包含一個(gè)雙重殘差單元和一個(gè)最大池化層。四個(gè)雙重殘差單元卷積層的濾波器個(gè)數(shù)分別為32、64、128 和256,每個(gè)雙重殘差單元后接一個(gè)卷積核尺寸為2 × 2 的最大池化層,將特征圖的高和寬變?yōu)樵瓉淼?/2。每個(gè)下采樣塊對(duì)應(yīng)得到的特征圖高寬分別是128 × 128、64 × 64、32 × 32 和16 × 16。RGB 流將任意尺寸的圖像重塑為256 × 256 × 3 大小的圖像作為編碼器的輸入,噪聲流將任意尺寸的圖像轉(zhuǎn)化為256 × 256 × 1 的噪聲圖像輸入到編碼器,兩個(gè)流的編碼器均輸出尺寸為16 ×16 × 256 的粗特征圖。
2.4.2 解碼器
將自注意力機(jī)制輸出的粗特征圖作為解碼器的輸入,進(jìn)行上采樣和卷積操作。解碼器有四個(gè)上采樣模塊,每個(gè)上采樣模塊由一個(gè)上采樣因子為2 的上采樣層和一個(gè)雙重殘差單元構(gòu)成。每個(gè)雙重殘差單元的卷積層濾波器數(shù)量分別為64、64、32 和32,四個(gè)上采樣塊輸出的特征圖大小依次為32 × 32 × 64、64 × 64 × 64、128 × 128 × 32 和256 × 256 ×32。RGB 流和噪聲流的解碼器輸出特征串聯(lián)融合生成一個(gè)大小為256 × 256 × 64 的混合特征圖,最后混合特征圖輸入到卷積核大小1 × 1 并具有Sigmoid 非線性函數(shù)的卷積層,得到對(duì)應(yīng)的像素點(diǎn)被篡改的概率結(jié)果,最終得到預(yù)測(cè)mask 圖。
2.4.3 語義補(bǔ)充
編碼器階段的四次最大池化操作會(huì)丟失大量的邊緣細(xì)節(jié)信息,不利于篡改特征的檢測(cè)。為補(bǔ)充最大池化操作丟失的語義信息,將編碼器上采樣塊的最大池化層前的特征輸入1×1×c(c為卷積層的濾波器數(shù)量)的自適應(yīng)卷積層,調(diào)整特征圖的通道數(shù)與對(duì)應(yīng)的解碼器一致。調(diào)整后的淺層特征與對(duì)應(yīng)的解碼器深層特征串聯(lián)融合,融合后的特征用于對(duì)應(yīng)解碼器中的雙重殘差單元的輸入,使解碼器更充分利用編碼器的淺層語義信息進(jìn)行語義增強(qiáng),提高網(wǎng)絡(luò)的特征提取能力。
在深度網(wǎng)絡(luò)的訓(xùn)練過程中,本文通過最小化dice 損失函數(shù)來更新網(wǎng)絡(luò)參數(shù)。dice 損失函數(shù)是一種用于評(píng)估兩個(gè)樣本的相似性的度量函數(shù),相關(guān)定義[16]如式(7)所示。
其中:Ldice表示dice 損失;c=1,2 分別表示當(dāng)前像素點(diǎn)為真實(shí)像素點(diǎn)和篡改像素點(diǎn);gc(i)和pc(i)表示對(duì)應(yīng)c類像素點(diǎn)的實(shí)際值和預(yù)測(cè)值;K為該批次圖像中的像素點(diǎn)總數(shù)。dice 損失最大化了預(yù)測(cè)篡改區(qū)域和實(shí)際篡改區(qū)域的重疊,取值范圍為[0,1],取值越小表示預(yù)測(cè)區(qū)域和實(shí)際區(qū)域越相似。dice 損失與每種像素標(biāo)簽類的像素個(gè)數(shù)無關(guān),能有效解決像素標(biāo)簽種類分布不平衡的問題。
使用單張NVIDIA TATAN RTX GPU 訓(xùn)練本文模型,在Windows10 系統(tǒng)上使用TensorFlow 定義深度學(xué)習(xí)框架。在訓(xùn)練過程中每個(gè)批次取8 張圖像及對(duì)應(yīng)ground-truth 圖,使用Adam 優(yōu)化器將損失最小化,學(xué)習(xí)率設(shè)置為5 × 10-5。
3.2.1 預(yù)訓(xùn)練數(shù)據(jù)集
深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練需要大量的相關(guān)數(shù)據(jù)。在預(yù)訓(xùn)練方面,本文使用文獻(xiàn)[14]中約27 000 張拼接圖像的預(yù)訓(xùn)練數(shù)據(jù)集,其中90%的圖像用于訓(xùn)練,10%的圖像用于測(cè)試。
3.2.2 標(biāo)準(zhǔn)數(shù)據(jù)集
本文使用NIST16[20]、COVERAGE[21]、CASIA[22]和Columbia[23]4 個(gè)公共標(biāo)準(zhǔn)數(shù)據(jù)集來驗(yàn)證網(wǎng)絡(luò)性能。
1)NIST16 數(shù)據(jù)集包含564 張各場(chǎng)景經(jīng)過各種后處理操作的篡改圖像,包含了拼接、復(fù)制-粘貼和內(nèi)容移除3 種篡改類型圖像。
2)COVERAGE 數(shù)據(jù)集包含100 張基于復(fù)制-粘貼篡改類型的偽造圖像。
3)CASIA 數(shù)據(jù)集有CASIA v1.0 和CASIA v2.0 兩個(gè)子數(shù)據(jù)集,均包含了拼接和復(fù)制-粘貼篡改類型的偽造圖像,并進(jìn)行了模糊、濾波等后處理操作。CASIA v1.0 和CASIA v2.0數(shù)據(jù)集分別包含921 張偽造圖像和5 123 張圖像,本文將CASIA v1.0 用于測(cè)試,CASIA v2.0 用于訓(xùn)練。
4)Columbia 數(shù)據(jù)集有180 張未壓縮的拼接偽造圖像,同時(shí)包含對(duì)應(yīng)的ground-truth 圖像。
實(shí)驗(yàn)中在不同數(shù)據(jù)集上的訓(xùn)練集和測(cè)試集劃分與現(xiàn)有的方法一致。隨機(jī)取70%的圖像用于訓(xùn)練,30%的圖像用于測(cè)試,相關(guān)數(shù)據(jù)集的劃分如表1 所示,并在不同的數(shù)據(jù)集上對(duì)模型進(jìn)行微調(diào)。為了使網(wǎng)絡(luò)更有效地學(xué)習(xí)不同篡改類型的相關(guān)特征,減少過擬合,對(duì)相關(guān)訓(xùn)練集上的圖像進(jìn)行隨機(jī)水平或垂直翻轉(zhuǎn)、圖像180°旋轉(zhuǎn)和隨機(jī)裁剪等操作。
表1 不同數(shù)據(jù)集的信息Tab.1 Information of different datasets
3.3.1 不同算法對(duì)比
為了驗(yàn)證本文算法在圖像篡改檢測(cè)領(lǐng)域的優(yōu)越性,與一系列的傳統(tǒng)取證算法[1-3]和當(dāng)前主流的深度學(xué)習(xí)取證算法[11,15-16]進(jìn)行對(duì)比,相關(guān)對(duì)比算法介紹如下。
1)ELA(Error Level Analysis)[1]:在不同的壓縮因子下檢測(cè)圖像篡改區(qū)域與真實(shí)區(qū)域間的特征差異來定位篡改區(qū)域。
2)NOI(NOise Inconsistencies)[2]:引入了一種檢測(cè)噪聲水平變化的方法,利用高頻的小波系數(shù)對(duì)局部噪聲建模。
3)CFA1[3]:通過在局部水平上測(cè)量CFA 偽影的存在推理出篡改區(qū)域。
4)ManTra-Net[11]:設(shè)計(jì)了一個(gè)自監(jiān)督學(xué)習(xí)任務(wù),使用Z-score 特征和LSTM 模型來分別定位和評(píng)估篡改區(qū)域。
5)RGB-N[15]:一種雙流Faster R-CNN,兩個(gè)流分別檢測(cè)RGB 像素上的非自然邊界等特征和噪聲不一致特征,采用雙線性池化層融合特征,定位篡改區(qū)域。
6)TED-Net(Two-stream Encoder-Decoder Network)[16]:一種基于雙流編-解碼器的圖像篡改取證網(wǎng)絡(luò),能同時(shí)檢測(cè)RGB 像素和噪聲層面的篡改偽影。
3.3.2 算法性能評(píng)估指標(biāo)
本文選擇F1 和曲線下面積(Area Under Curve,AUC)作為衡量算法性能的評(píng)估指標(biāo)。F1 為召回率和準(zhǔn)確率的加權(quán)平均,在統(tǒng)計(jì)學(xué)中用來衡量分類模型精度,F(xiàn)1 的值域?yàn)椋?,1],值越大表示模型檢測(cè)性能越好。相較于準(zhǔn)確率,F(xiàn)1也將假陰性和假陽性率考慮在內(nèi),更能準(zhǔn)確評(píng)估模型的性能,如式(8)所示:
其中:FN(False Negative)表示篡改像素點(diǎn)被誤檢的數(shù)量;FP(False Positive)表示真實(shí)像素點(diǎn)被誤檢的數(shù)量;TN(Truth Negative)表示真實(shí)像素點(diǎn)被正確檢測(cè)出的數(shù)量,TP(Truth Positive)表示篡改像素點(diǎn)被正確檢測(cè)出的數(shù)量。
AUC 為受試者操作特征(Receiver Operating Characteristic,ROC)曲線下的面積,本文算法在各個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的ROC 曲線如圖5 所示。AUC 在分類任務(wù)中定義為分類閾值,當(dāng)樣本圖像的像素點(diǎn)分類概率大于或等于該閾值則判定為篡改像素點(diǎn)。AUC 的取值范圍為[0,1],值越大表明模型的泛化能力越好。
圖5 本文算法在不同數(shù)據(jù)集上的ROC曲線Fig.5 ROC curves of proposed algorithm on different datasets
3.3.3 對(duì)比實(shí)驗(yàn)分析
在4 個(gè)公共標(biāo)準(zhǔn)數(shù)據(jù)集上,本文算法與對(duì)比算法的F1 對(duì)比結(jié)果如表2 所示。本文算法的F1 值在COVERAGE、CASIA v1.0 和Columbia 共3 個(gè)數(shù)據(jù)集上遠(yuǎn)高于對(duì)比算法,在NIST16、Columbia 數(shù)據(jù)集上相較于次優(yōu)的TED-Net 提高了9.8 和7.7 個(gè)百分點(diǎn),充分展示了本文算法在圖像多篡改類型檢測(cè)性能上的優(yōu)越性。本文算法在COVERAGE 數(shù)據(jù)集上的F1 比RGB-N[15]高出18.8 個(gè)百分點(diǎn),在復(fù)制-粘貼篡改類型檢測(cè)中有著優(yōu)秀的表現(xiàn),能適用于圖像篡改區(qū)域和真實(shí)區(qū)域的篡改特征差異較小的情況;在NIST16 數(shù)據(jù)集上,F(xiàn)1 值比RGB-N 低1.4 個(gè)百分點(diǎn),因?yàn)镹IST16 數(shù)據(jù)集分辨率較大,輸入網(wǎng)絡(luò)前的放縮操作會(huì)使圖像削弱或丟失部分篡改特征。傳統(tǒng)的取證算法的性能遠(yuǎn)遠(yuǎn)落后于基于深度學(xué)習(xí)的篡改取證算法,這是因?yàn)榛谏疃葘W(xué)習(xí)的篡改取證算法提取了更豐富的偽造特征。
表2 不同數(shù)據(jù)集上F1值的比較 單位:%Tab.2 Comparison of F1 scores on different datasets unit:%
表3 為本文算法和對(duì)比算法在不同數(shù)據(jù)集上的AUC 結(jié)果。本文算法在4 個(gè)數(shù)據(jù)集上都取得了最好的結(jié)果,充分展示了較強(qiáng)的泛化能力。在CASIA v1.0 數(shù)據(jù)集上,與TED-Net相比,本文算法的AUC 僅提高了0.9 個(gè)百分點(diǎn),這是由于CASIA v1.0 數(shù)據(jù)集中的很多圖像篡改區(qū)域比較大,甚至超過了真實(shí)區(qū)域,因此在進(jìn)行數(shù)據(jù)增強(qiáng)操作時(shí)可能會(huì)裁剪到篡改區(qū)域,導(dǎo)致邊緣不一致性等特征丟失。基于深度學(xué)習(xí)的算法中ManTra-Net[11]效果不佳,因?yàn)樗捎昧溯^大的卷積核,連續(xù)的下采樣階段使得許多低層特征信息丟失,不適應(yīng)于圖像的小篡改區(qū)域檢測(cè)。
表3 不同數(shù)據(jù)集上AUC值的比較 單位:%Tab.3 Comparison of AUC values on different datasets unit:%
為了進(jìn)一步驗(yàn)證本文的各個(gè)模塊在篡改檢測(cè)中的有效性,將本文算法與4 個(gè)基線模型在NIST16 和Columbia 數(shù)據(jù)集上進(jìn)行了比較,結(jié)果如表4 所示。其中:Base 表示本文所用的基礎(chǔ)編解碼器取證網(wǎng)絡(luò);Base-RF 表示在基礎(chǔ)編解碼器網(wǎng)絡(luò)中進(jìn)行語義補(bǔ)充;Base-RF-RP 表示在Base-RF 模型中使用了雙重殘差單元;Base-RF-RP-Adap 表示在Base-RF-RP 模型中加入文獻(xiàn)[19]中的自適應(yīng)注意力機(jī)制。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的解碼器語義補(bǔ)充、雙重殘差單元和自注意力機(jī)制均能進(jìn)一步地提高網(wǎng)絡(luò)的檢測(cè)性能,其中雙重殘差單元對(duì)網(wǎng)絡(luò)檢測(cè)性能的提升尤為明顯,改進(jìn)后的自注意力機(jī)制也更適用于圖像篡改取證任務(wù)。
表4 不同模型在NIST16和Columbia數(shù)據(jù)集上的F1值和AUC值的對(duì)比 單位:%Tab.4 Comparison of F1 scores and AUC values of different models on NIST16 and Columbia datasets unit:%
為了驗(yàn)證本文算法對(duì)多種篡改類型檢測(cè)的有效性,在不同的數(shù)據(jù)集上對(duì)圖像篡改區(qū)域的定位結(jié)果如圖6、7 所示。
圖6 本文算法在不同數(shù)據(jù)集上的篡改區(qū)域定位結(jié)果Fig.6 Tampered area localization results of proposed algorithm on different datasets
如圖6 所示,在不同類型的圖像篡改方式和不同形狀的圖像篡改區(qū)域情況下,本文算法具有多尺度特征提取能力,能夠?qū)D像的篡改區(qū)域進(jìn)行有效定位。
本文算法和TED-Net 算法在NIST16 數(shù)據(jù)集的定位效果對(duì)比如圖7 所示,在復(fù)制-粘貼篡改類型檢測(cè)中,TED-Net 算法失效而本文算法能夠有效定位篡改區(qū)域,進(jìn)一步驗(yàn)證了本文算法在復(fù)制-粘貼篡改類型檢測(cè)中的有效性。對(duì)于其他篡改類型,本文算法更準(zhǔn)確地檢測(cè)出篡改區(qū)域邊緣,具有更優(yōu)的定位效果。
圖7 本文算法在與TED-Net算法在NIST16數(shù)據(jù)集上的定位效果對(duì)比Fig.7 Comparison of localization effect of proposed algorithm and TED-Net algorithm on NIST16 dataset
JPEG 壓縮是圖像篡改中常見的后處理操作,為了進(jìn)一步驗(yàn)證本文算法的魯棒性,將NIST16 數(shù)據(jù)集的篡改圖像按不同品質(zhì)因子(Quality Factor,QF)進(jìn)行JPEG 壓縮操作。將壓縮后的圖像輸入到網(wǎng)絡(luò)中,以F1 值為評(píng)價(jià)指標(biāo),在NIST16和Columbia 數(shù)據(jù)集上的結(jié)果如表5 所示。
表5 NIST16和Columbia數(shù)據(jù)集上不同品質(zhì)因子JPEG壓縮的F1值Tab.5 F1 scores of JPEG compression with different quality factors on NIST16 and Columbia datasets
從表5 可以看出,本文算法的魯棒性隨著QF 值的降低而降低,是因?yàn)镴PEG 壓縮品質(zhì)因子越低,圖像質(zhì)量就越差,低階篡改痕跡丟失得越多。但在QF=50 的壓縮等級(jí)下,在NIST16 和Columbia 數(shù)據(jù)集上的F1 值仍有0.568 和0.735,顯示出本文算法具有較好的魯棒性。
本文提出了一種融合殘差反饋和自注意力機(jī)制的雙流圖像篡改取證網(wǎng)絡(luò),對(duì)RGB 像素篡改偽影和局部噪聲不一致性等高、低階篡改特征進(jìn)行檢測(cè)。由殘差連接和殘差反饋構(gòu)成的雙重殘差結(jié)構(gòu)和改進(jìn)后的自注意力機(jī)制能夠有效增強(qiáng)篡改區(qū)域和真實(shí)區(qū)域的高、低階特征差異。改進(jìn)后的自注意力機(jī)制使用Sigmoid 函數(shù)激活相關(guān)權(quán)重,并使用更新后的各維度的偽造注意力特征和原始注意力輸入特征融合,能夠獲得更適合篡改區(qū)域檢測(cè)的注意特征圖。同時(shí),對(duì)解碼器階段提取到的深層特征進(jìn)行語義補(bǔ)充以增強(qiáng)網(wǎng)絡(luò)的特征提取能力。在多個(gè)公共標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相較于當(dāng)前的主流算法,本文算法對(duì)于復(fù)雜的圖像篡改檢測(cè)有著更廣泛的適用性和更好的處理效果,特別是對(duì)復(fù)制-粘貼篡改類型的檢測(cè)。未來的工作將專注于更復(fù)雜的圖像篡改檢測(cè),并進(jìn)一步增強(qiáng)模型的魯棒性。