劉 旭
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610207)
隨著圖像處理軟件的廣泛應(yīng)用,人們可以在不需要專業(yè)技能的情況下對圖片進行美化與修飾。這類軟件在給人們生活帶來便利和樂趣的同時,也帶來了一個問題:圖像篡改?,F(xiàn)有的常用圖像篡改方法有:復(fù)制粘貼、拼接和移除。復(fù)制粘貼是指篡改者復(fù)制圖像中的某一特殊區(qū)域,然后粘貼到這幅圖像的另一個區(qū)域。由于同一幅圖像中的色彩、亮度等不會有明顯變化,因此復(fù)制粘貼篡改一般很難被人眼察覺。拼接是指篡改者剪切圖像中的某一區(qū)域,然后粘貼到其他圖像中。由于兩幅圖像間色彩、亮度等的差異,因此拼接篡改區(qū)域和非篡改區(qū)域會存在明顯的差異,通常篡改者會使用模糊,壓縮等后處理方式消除這些差異。移除是指篡改者刪除圖像中的某一區(qū)域,然后利用區(qū)域周圍的像素對刪除區(qū)域進行填充。它和復(fù)制粘貼一樣,都是操作同一張圖像,因此篡改區(qū)域很難被人察覺。
針對網(wǎng)絡(luò)中篡改圖像泛濫問題,學(xué)術(shù)界進行了大量的研究?,F(xiàn)有的檢測方法主要分為兩類:基于手工特征提取的傳統(tǒng)檢測方法和基于深度學(xué)習(xí)的檢測方法。基于手工特征提取的檢測方法依賴于人工選擇和提取特征,耗費大量的人力、物力和時間,并且得到的特征向量魯棒性也不夠健壯。深度學(xué)習(xí)不僅能自適應(yīng)從圖像中提取特征,解決了特征工程的局限性,而且提取的特征向量具有更好的表征性,從而能實現(xiàn)更好的分類效果?,F(xiàn)有的基于深度學(xué)習(xí)的方法雖然在模型的魯棒性和準確性上有一定程度的優(yōu)化,但深層網(wǎng)絡(luò)中篡改特征丟失,導(dǎo)致現(xiàn)有方法對小尺度篡改區(qū)域檢測性能不佳,存在較高的漏報率,并且連續(xù)降采樣使得特征圖分辨率不斷減小,篡改區(qū)域邊緣特征丟失,導(dǎo)致現(xiàn)有方法無法精確定位篡改區(qū)域。
針對現(xiàn)有主流圖像篡改檢測方法存在的問題,本文提出并實現(xiàn)了一種改進DeepLabV3+算法的圖像篡改檢測模型。首先基于約束卷積層設(shè)計了一個可學(xué)習(xí)多種篡改特征的特征提取器,用于自適應(yīng)提取多種篡改特征;其次使用不同步長的可分離卷積代替池化層和利用空洞卷積在不改變特征圖大小的同時,擴大感受野,提取更有效的篡改特征;利用多級跳層結(jié)構(gòu)融合低級特征和高級特征,精細化定位區(qū)域;最后利用CBAM關(guān)注篡改特征抑制非篡改特征,減少篡改特征在深層網(wǎng)絡(luò)中消失并且利用ASPP模塊融合不同采樣率的空洞卷積提取的特征,提取多尺度特征,改善了現(xiàn)有模型對小尺度篡改區(qū)域檢測不佳的問題,提高了檢測的準確率。
本文提出了一種基于改進DeepLabV3+的圖像篡改檢測模型,如圖1所示,模型主要由可學(xué)習(xí)的特征提取器,ASPP模塊和特征融合模塊組成。首先利用可學(xué)習(xí)的特征提取器捕獲由篡改操作導(dǎo)致的相鄰像素之間關(guān)系的變化特征,其次利用ASPP模塊提取多尺度特征以增強對不同尺度篡改區(qū)域的檢測性能,然后特征融合模塊融合多級特征以增強全局特征表示,最后使用SoftMax分類器進行逐像素分類,定位篡改區(qū)域。
圖1 基于改進Deep LabV3+的圖像篡改檢測模型結(jié)構(gòu)
為了抑制圖像的語義信息并自適應(yīng)學(xué)習(xí)豐富的篡改特征,本文基于約束卷積層、空洞卷積和CBAM模塊設(shè)計了一個可學(xué)習(xí)的特征提取器。約束卷積層通過提取像素殘差特征抑制圖像語義信息,將像素殘差輸入到主干網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)由篡改操作導(dǎo)致相鄰像素之間關(guān)系的變化特征;空洞卷積在不改變特征圖分辨率大小的前提下,擴大感受野,保留了更多細節(jié)特征;CBAM模塊從空間和通道兩個不同的維度計算注意力權(quán)重,關(guān)注篡改特征抑制非篡改特征,強化對篡改特征學(xué)習(xí)能力,緩解篡改特征在深層網(wǎng)絡(luò)中的消散問題。
約束卷積層位于特征提取器的第一層,用于提取像素殘差特征抑制圖像語義信息。特征提取方法公式(1)所述:
其中上標(biāo)表示CNN的第一層,下標(biāo)表示層內(nèi)的第個卷積核,卷積核的中心點值為-1,其余所有值之和為1。
盡管約束卷積層能捕獲豐富的篡改信息,但在DCNN中為了增加感受野并降低計算量,需要進行連續(xù)降采樣操作,這就使得特征圖分辨率降低,損失了一部分細節(jié)特征,導(dǎo)致現(xiàn)有方法無法精確定位篡改區(qū)域。為了解決這個問題本文使用空洞卷積在不改變特征圖分辨率大小的前提下,擴大感受野,提升了模型的定位精度。在二維空間上對于位置,在輸入上使用卷積核進行卷積,輸出為:
其中是卷積核大小,速率在采樣點之間引入-1個零,將感受野從擴大到(+(-1)×(-1)),而不增加參數(shù)和計算量。
隨著網(wǎng)絡(luò)結(jié)構(gòu)的深入,篡改特征在深層網(wǎng)絡(luò)中的弱化問題導(dǎo)致模型漏報率較高。為了降低漏報率本文引入CBAM模塊沿著空間和通道兩個不同的維度依次推斷出注意力權(quán)重,然后與原始特征圖相乘來對特征進行自適應(yīng)調(diào)整,把更多的權(quán)重分配給篡改特征,達到關(guān)注篡改特征,抑制非篡改特征的目的,有效緩解了特征弱化問題。如圖2所示,其中?表示逐元素相乘。
圖2 CBAM體系結(jié)構(gòu)
為了檢測出多尺度篡改區(qū)域降低漏報率,本文利用ASPP模塊來提取多尺度特征。ASPP模塊采用不同比例的并行空洞卷積來挖掘不同尺度的篡改信息,如圖3所示。ASPP模塊由四個并行的空洞卷積和一個全局最大池化組成,其中四個并行的空洞卷積分別為1個1×1的空洞卷積,3個3×3的空洞卷積,膨脹率分別為(1,6,12,18)。最后將不同尺度的特征圖合并后輸入到特征融合模塊。
圖3 ASPP體系結(jié)構(gòu)
為了捕獲到更豐富的細節(jié)特征,實現(xiàn)更精確的定位,本文對主干網(wǎng)絡(luò)的最后三個模塊都進行跳躍連接。網(wǎng)絡(luò)輸入一張(512,512,3)的圖片,三級跳層和ASPP模塊的輸出分別為:(128,128,256)、(64,64,256)、(32,32,728)和(32,32,1280)。融合模塊如圖4所示,由于這些特征中包含大量的通道,使網(wǎng)絡(luò)訓(xùn)練變得更加困難,所以分別對這四個特征進行1×1的卷積降低通道數(shù)。然后對后面三個特征分別進行2倍、4倍和4倍雙線性上采樣得到相同的特征大小,接著將這4個相同大小的特征圖拼接在一起。拼接后,使用3×3的卷積來細化這些特征,然后進行4倍雙線性上采樣還原回輸入特征圖大小。最后使用SoftMax逐像素進行分類。
圖4 特征融合模塊結(jié)構(gòu)
為了使網(wǎng)絡(luò)具有較強的泛化能力,本文選擇四個公開數(shù)據(jù)集大約50 K篡改圖像作為網(wǎng)絡(luò)訓(xùn)練集,每個數(shù)據(jù)集都提供篡改圖片和二進制掩碼,具體細節(jié)如表1所示。
表1 訓(xùn)練數(shù)據(jù)集信息
表1中篡改方式一列中C表示復(fù)制粘貼篡改,S表示拼接篡改。表二中R表示移除篡改。
為了證明提出的篡改檢測方法的通用性,本文選擇了四個公開可用的數(shù)據(jù)集作為測試數(shù)據(jù) 集:NIST16、CASIA、COLUMBIA和COVERAGE數(shù)據(jù)集,具體細節(jié)如表2所示。
表2 測試數(shù)據(jù)集信息
表2中CASIA數(shù)據(jù)集是指:CASIA 1.0數(shù)據(jù)集有921張圖片,CASIA 2.0有5123張圖片。
為了在測試數(shù)據(jù)集上微調(diào)模型,本文參考[1]對測試數(shù)據(jù)集進行劃分。CASIA 2.0用于訓(xùn)練,CASIA1.0用于測試,COLUMBIA僅用于測試,具體細節(jié)如表3所示。
表3 四個標(biāo)準數(shù)據(jù)集訓(xùn)練和測試集劃分
本文在tensorflow平臺上實現(xiàn)了基于改進DeepLabV3+的圖像篡改檢測模型。在模型中,首先將所有圖像調(diào)整為512×512×3的標(biāo)準尺寸作為網(wǎng)絡(luò)的輸入,然后使用均值為0,方差為0.01的高斯分布初始化網(wǎng)絡(luò)權(quán)重,接著使用Adam優(yōu)化器進行訓(xùn)練,初始學(xué)習(xí)率為1e-3,使用交叉熵記錄模型的損失,在訓(xùn)練過程中測試集損失兩次不下降就將學(xué)習(xí)率降低為原來的0.1倍。本文的所有實驗均在NVIDIA GTX 1080 Ti GPU上進行。
本文在像素級別使用查準率(precision)、召回率(recall)和1分數(shù)來評估實驗性能,將提出的方法與現(xiàn)有的基準模型進行比較,這些基準模型包括傳統(tǒng)的無監(jiān)督方法ELA和NOI1和最 新 的 基 于DNN的 方 法:HLED、Man?TraNet和RGB-N。實驗結(jié)果如表4所示。
表4 四個標(biāo)準數(shù)據(jù)集上precision比較
表4、表5和表6分別展示了本文方法與基準方法在四個標(biāo)準數(shù)據(jù)上precision、recall和1的比較,其中DLV3+表示基于DeepLabV3+的篡改檢測方法。上述結(jié)果中ELA、NOI1、HLED和ManTraNet是運行代碼后的到的結(jié)果,RGB-N是直接從原文復(fù)制而來。
表5 四個標(biāo)準數(shù)據(jù)集上recall比較
表6 四個標(biāo)準數(shù)據(jù)集上F1分數(shù)比較
從實驗結(jié)果可以發(fā)現(xiàn),基于深度學(xué)習(xí)的檢測方法明顯優(yōu)于基于手工特征的傳統(tǒng)檢測方法,如ELA,NOI1。這是因為傳統(tǒng)的檢測方法需要人工選擇和提取特征,這些特征都傾向于檢測單一篡改類型,并且模型的準確率依賴于特征工程。本文提出的模型優(yōu)于現(xiàn)有的基于深度學(xué)習(xí)的方法,如:HLED,RGB-N和ManTraNet。這是因為HLED利用重采樣特征、RGB-N利用噪聲域特征捕獲篡改區(qū)域和非篡改區(qū)域不一致,這些手工設(shè)計特征和傳統(tǒng)檢測類似都傾向于檢測單一篡改類型。與RGB-N相比本文提出的模型在四個公開數(shù)據(jù)集上1分數(shù)提高了0.092、0.234、0.091和0.238,增長率分別為12.7%、57.4%、13.1%和54.5%。
圖5展示了本文提出的方法與基準方法在部分測試數(shù)據(jù)集上的篡改區(qū)域定位圖。其中R表示移除篡改、S表示拼接篡改、C表示復(fù)制粘貼篡改,圖像中黑色像素表示真實區(qū)域,白色像素表示篡改區(qū)域。從實驗結(jié)果可知本文提出的方法不僅能有效檢測出移除、拼接和復(fù)制粘貼三種篡改類型的圖像,而且能更精確定位篡改區(qū)域,最后一組圖像說明了本文提出的方法適用于小篡改區(qū)域和多篡改區(qū)域的檢測。
圖5 測試數(shù)據(jù)集上篡改區(qū)域定位圖
本文提出了一種基于改進DeepLabV3+的圖像篡改檢測模型。首先可學(xué)習(xí)的特征提取器能自適應(yīng)從圖像中提取多種篡改特征;其次利用CBAM模塊關(guān)注篡改特征抑制非篡改特征,緩解深層網(wǎng)絡(luò)中篡改特征消失問題,利用ASPP模塊提取多尺度篡改特征;最后利用特征融合模塊融合低級特征和高級特征獲得更精細化的定位結(jié)果。在幾個公開數(shù)據(jù)集上結(jié)果表明,本文提出的方法優(yōu)于現(xiàn)有的主流方法。