王 宏,錢 清,王 歡,龍 永
(貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴陽 550025)
在過去十年中,全球數(shù)據(jù)流量以前所未有的速度增長,促進(jìn)了圖像在當(dāng)代社會(huì)的傳播。但隨著多媒體應(yīng)用的普及和數(shù)字圖像編輯軟件的發(fā)展,圖像的真實(shí)性嚴(yán)重影響了圖像的使用,懷有惡意的圖像偽造篡改成為全球關(guān)注的問題。在圖像被動(dòng)取證領(lǐng)域,圖像的復(fù)制-粘貼篡改因源區(qū)域和目標(biāo)區(qū)域源于同一張圖像,篡改區(qū)域具有的特征(如飽和度、光源、噪聲等)能不加改變就具有良好的適應(yīng)性,因此具有較強(qiáng)的隱匿性,不易被識(shí)別[1]。同時(shí),海量圖像的傳播對復(fù)制-粘貼篡改檢測計(jì)算量提出嚴(yán)苛的挑戰(zhàn),對算法效率要求較高。
深度學(xué)習(xí)作為一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)概念,以數(shù)據(jù)驅(qū)動(dòng)通過分析海量數(shù)據(jù)捕捉任務(wù)的主要特征。根據(jù)深度學(xué)習(xí)的結(jié)構(gòu)特點(diǎn),可分為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]和循環(huán)神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)因具有精準(zhǔn)度高、結(jié)構(gòu)多樣、可自主學(xué)習(xí)[3]等優(yōu)點(diǎn),能夠解決不同應(yīng)用領(lǐng)域的大部分問題,具有廣泛的應(yīng)用空間。
研究表明,CNN 具有平移不變性,能夠通過重復(fù)簡單的模式來描述復(fù)雜的模型,不易發(fā)生過擬合,模型更易理解,能夠充分利用局部語義信息等優(yōu)點(diǎn)。但是卷積層只能緩慢增加感受野,忽略了長端依賴性,從而影響模型的表現(xiàn)能力。
注意力模型已經(jīng)成為自然語言處理領(lǐng)域中的主流技術(shù)之一,近年來,也在計(jì)算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用[4],注意力模型具有在初期就可獲取全局感受野、可并行化操作等優(yōu)點(diǎn),但注意力模型所需要的計(jì)算資源龐大,同時(shí)還有忽略圖像位置信息、在小數(shù)據(jù)集上表現(xiàn)不強(qiáng)、無法捕捉局部信息和不能實(shí)現(xiàn)通道維度適應(yīng)性等缺點(diǎn)。雖然利用CNN 的特點(diǎn)將注意力模型進(jìn)行輕量化能有效克服計(jì)算資源龐大等缺點(diǎn)[5];然而,局部信息的獲取、在小數(shù)據(jù)集上表現(xiàn)不強(qiáng)和通道維度適應(yīng)性差等問題仍未解決。
因此,本文改進(jìn)了原有EfficientNetV2[6],將大核注意力(Large Kernel Attention,LKA)卷積模塊引入EfficientNetV2,提出了LKA-EfficientNet(Large Kernel Attention EfficientNet)算法,從而在圖像被動(dòng)取證領(lǐng)域?qū)D像復(fù)制-粘貼篡改進(jìn)行檢測。本文的主要工作如下:
1)在EfficientNetV2 中設(shè)計(jì)大核注意力(LKA)卷積塊,實(shí)現(xiàn)圖像復(fù)制-粘貼定位,通過通道卷積、標(biāo)準(zhǔn)卷積、空洞卷積的融合,在網(wǎng)絡(luò)初期利用注意力優(yōu)勢獲取全局感受野,規(guī)避注意力機(jī)制的高計(jì)算開銷并提高了運(yùn)算速度。
2)針對圖像復(fù)制-粘貼篡改操作所固有的特點(diǎn),進(jìn)一步壓縮精簡EfficientNetV2,通過精簡網(wǎng)絡(luò)結(jié)構(gòu)降低計(jì)算復(fù)雜度并有效提高精度。
早期的圖像復(fù)制-粘貼篡改檢測算法聚焦于圖像塊的遷移[7]。Cozzolino 等[8]提出一種較通用的傳統(tǒng)復(fù)制-粘貼篡改檢測框架,包含提取圖像特征、相似特征匹配、定位源區(qū)域和目標(biāo)區(qū)域?;诖擞址譃閳D像塊檢測[9]和特征點(diǎn)檢測算法[10],但不論是基于圖像塊還是基于特征點(diǎn)的算法都有局限性,例如圖像處理緩慢、泛化性差、只針對特定的幾類篡改類型的圖像等[11]。
近年來,由于深度學(xué)習(xí)的精準(zhǔn)度高、結(jié)構(gòu)多樣、可自主學(xué)習(xí)性強(qiáng)的特點(diǎn),深度學(xué)習(xí)逐漸被應(yīng)用到圖像被動(dòng)取證領(lǐng)域。Rao 等[12]提出以第一層為高通濾波器的CNN 架構(gòu),提取殘差特征映射,從而分辨篡改偽造圖像;Wu 等[13]設(shè)計(jì)端到端的篡改檢測網(wǎng)絡(luò)BusterNet,采取雙分支結(jié)構(gòu),通過檢測圖像相似度來識(shí)別源區(qū)域和目標(biāo)區(qū)域,但對雙分支要求較高,辨識(shí)效果較差;Chen 等[14]提出一種串行分支網(wǎng)絡(luò)模型以改進(jìn)BusterNet 的缺點(diǎn),該網(wǎng)絡(luò)包含相似性檢測網(wǎng)絡(luò)CMSDNet(Copy-Move Similarity Detection Network)和目標(biāo)鑒別網(wǎng)絡(luò)STRDNet(Source/Target Region Distinguishment Network)。STRDNet 研究CMSDNet 獲得的相似塊的分類問題,相較于BusterNet 的分支更簡單且準(zhǔn)確率更高,但是運(yùn)算量過大。Zhou 等[15]基 于RGB 流和噪聲流,提出雙流Faster R-CNN(Faster Region-based Convolutional Neural Network)的圖像篡改檢測,并使用雙線性池化層將特征進(jìn)行融合,該方法對圖片縮放、壓縮具有很強(qiáng)的魯棒性,但網(wǎng)絡(luò)能力有限,對多種篡改類型的檢測效果不佳;Wu 等[16]設(shè)計(jì)的ManTra-Net(Manipulation Tracing Network)為串行網(wǎng)絡(luò),包括圖像檢測網(wǎng)絡(luò)和局部異常檢測網(wǎng)絡(luò),在圖像檢測網(wǎng)絡(luò)中通過ZPool2D 層模擬人眼進(jìn)行距離分析,并通過Z 分?jǐn)?shù)的形式標(biāo)準(zhǔn)化局部特征與其參考之間的差異;該網(wǎng)絡(luò)對微小篡改具有魯棒性,輸入圖像尺寸靈活可變,但網(wǎng)絡(luò)檢測效果較差。徐代等[17]基于文獻(xiàn)[15]提出三流網(wǎng)絡(luò),分別對圖像不同特征進(jìn)行檢測從而提高網(wǎng)絡(luò)輸出精度;Zhong 等[18]提出基于Dense-InceptionNet 的檢測方案,充分使用多尺度信息和稠密特征,通過特征金字塔提取特征,使用特征相關(guān)匹配算法和后處理步驟定位源區(qū)域與目標(biāo)區(qū)域。該算法對幾何變換篡改和JPEG(Joint Photographic Experts Group)壓縮都有一定的魯棒性。吳旭等[19]通過副分支研究篡改區(qū)域邊緣的像素間差異來提高檢測精度;Barni 等[20]提出多分支網(wǎng)絡(luò)對圖像復(fù)制篡改進(jìn)行檢測以識(shí)別源區(qū)域和目標(biāo)區(qū)域,分別對4-Twins Net 分支和Siamese Net 分支進(jìn)行訓(xùn)練并完成定位,具有精度高、識(shí)別明顯等優(yōu)點(diǎn),但利用四分支導(dǎo)致網(wǎng)絡(luò)龐大且臃腫。
近些年來,自注意力模塊在各種計(jì)算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用。然而,圖像的性質(zhì)和自注意力的機(jī)制相性不高,自注意力的應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域中出現(xiàn)了以下問題:1)將圖像作為一維序列處理,不符合圖像的二維架構(gòu);2)較高復(fù)雜度的計(jì)算開銷對于高分辨率圖像來說資源耗費(fèi)過于龐大;3)只考慮空間適應(yīng)性,忽略了圖像的通道適應(yīng)性。
為了解決自注意力存在的問題,基于大核卷積的注意力機(jī)制應(yīng)運(yùn)而生。如圖1 所示,LKA 模塊由三個(gè)卷積組成,分別是普通卷積,卷積核為5 × 5;空洞卷積,卷積核為7 × 7,間距為3;通道卷積,卷積核為1 × 1。LKA 兼顧卷積和Transformer 的優(yōu)點(diǎn),解決了卷積在長端依賴性差和Transformer 在局部信息和通道維度上適應(yīng)性差的問題;但目前基于卷積的注意力機(jī)制主要應(yīng)用在圖像分類領(lǐng)域,應(yīng)用在圖像復(fù)制-粘貼取證領(lǐng)域的相關(guān)研究較少。
圖1 LKA模塊的構(gòu)成Fig.1 Composition of LKA module
因此,為了克服傳統(tǒng)卷積的缺點(diǎn),本文采用大核注意力卷積提取全局感受野的圖像特征,使提取的圖像特征相較于傳統(tǒng)卷積具有長端依賴性。
EfficientNetV2 利用漸進(jìn)式學(xué)習(xí)策略,通過復(fù)合縮放對比不同深度、寬度和輸入圖像的分辨率,尋找最優(yōu)解,進(jìn)而實(shí)現(xiàn)精度和計(jì)算量的均衡[6]。它的主要模塊Fused-MBConv 和MBConv 如圖2 所示,MBConv 模塊先進(jìn)行升維操作,再通過深度可分離卷積進(jìn)行運(yùn)算,最后進(jìn)行降維操作;Fused-MBConv 將升維卷積和可分離卷積替換為普通3 × 3卷積,從而提高運(yùn)算速度。在早期階段中Fused-MBConv 在網(wǎng)絡(luò)上層參數(shù)和理論計(jì)算量的開銷較小,通過融合能提高運(yùn)算速度;但是如果所有塊都使用Fused-MBConv,網(wǎng)絡(luò)會(huì)增加參數(shù)量和理論計(jì)算量,降低運(yùn)算速度。
圖2 EfficientNetV2的主要模塊Fig.2 Main modules of EfficientNetV2
圖像的篡改部分通常都具有與原圖某片區(qū)域相似的性質(zhì),更深層的特征在消耗更多計(jì)算資源的情況下趨于收斂從而難以區(qū)分,降低了算法精度。因此傳統(tǒng)的EfficientNetV2不適用于圖像復(fù)制-粘貼檢測,相關(guān)研究較少。
本文在EfficientNetV2 中設(shè)計(jì)LKA 卷積塊,并經(jīng)過大量實(shí)驗(yàn)對基干網(wǎng)絡(luò)中輸出通道數(shù)和重復(fù)次數(shù)進(jìn)行了壓縮,優(yōu)化了網(wǎng)絡(luò)結(jié)構(gòu),在保證檢測精度的同時(shí)提高檢測效率。
特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)作為多尺度目標(biāo)識(shí)別的關(guān)鍵組件,能同時(shí)利用低層特征的高辨識(shí)度特點(diǎn)和高層特征的強(qiáng)語義信息,融合不同層的特征從而檢測出目標(biāo)區(qū)域。由于FPN 的內(nèi)存占用和計(jì)算量大,嚴(yán)重限制了它的廣泛使用[21]。本文利用網(wǎng)絡(luò)本身固有的多尺度、層次化特點(diǎn)構(gòu)建FPN,在多層不同尺度上構(gòu)建高層語義特征,克服FPN 的缺點(diǎn)并實(shí)現(xiàn)目標(biāo)區(qū)域檢測。
不同圖像對同一目標(biāo)的表征不同,這一表征的外在表現(xiàn)為顏色、尺寸的不同,但它的內(nèi)在特征具有同一性。FPN 能實(shí)現(xiàn)低層特征語義信息與高層語義信息的融合,從而精確地定位源區(qū)域與目標(biāo)區(qū)域。FPN 通過相關(guān)特征層數(shù)的累加獲得一個(gè)強(qiáng)語義信息,變相增加低層特征的深度并融合多層的信息特征,從而對不同的特征進(jìn)行輸出并提高檢測性能。
FPN 對不同層數(shù)的不同特征分別進(jìn)行圖像篡改檢測,而后對結(jié)果進(jìn)行加權(quán),當(dāng)使用更深的層次構(gòu)造FPN 時(shí),能夠得到更魯棒的信息,從而通過低層特征和經(jīng)過上采樣處理過的高層特征的融合,利用低層特征所提供的準(zhǔn)確位置信息來修正高層特征經(jīng)過多次降采樣和上采樣所造成的定位誤差。
近年來,隨著多媒體的興起和圖像的廣泛使用,對圖像的復(fù)制-粘貼篡改操作愈加容易,而圖像的真實(shí)性也變得愈加重要。由于篡改圖像的圖像特性,在消耗更多硬件資源的情況下所進(jìn)行的更深層次的信息抽取網(wǎng)絡(luò)結(jié)構(gòu)并不能有效提升算法的精度。與此同時(shí),傳統(tǒng)卷積感受野增加緩慢且無法實(shí)現(xiàn)長端依賴性,會(huì)影響算法的表現(xiàn)能力。為此,本文充分融合大核卷積注意力機(jī)制的長端依賴性和全局感受野特性,對傳統(tǒng)EfficientNetV2 進(jìn)行了改進(jìn),設(shè)計(jì)了一種新的基于大核注意力卷積塊的輕量化網(wǎng)絡(luò)模型以實(shí)現(xiàn)復(fù)制-粘貼篡改圖像的檢測和定位。如圖3 所示,本文提出的LKAEfficientNet 是一種高效的端到端篡改檢測算法,可將所有模塊連接起來作為一個(gè)整體進(jìn)行訓(xùn)練。
圖3 融合大核卷積的輕量級多尺度融合的圖像篡改檢測算法流程Fig.3 Flow chart of image tamper detection algorithm based on lightweight multi-scale fusion with large kernel convolution
針對現(xiàn)有基干網(wǎng)絡(luò)特征提取不全、檢測精度較低、泛化能力差、時(shí)間復(fù)雜度高等問題,本文改進(jìn)了原始EfficientNetV2,采用LKA 卷積塊替代傳統(tǒng)卷積塊,使得網(wǎng)絡(luò)獲得長端依賴性和全局感受野,從而提取粗粒度的全局圖像特征;隨后,進(jìn)一步壓縮了EfficientNetV2 中輸出通道和重復(fù)層數(shù),從全局圖像特征中提取多維、多尺度的細(xì)粒度特征;最后,利用通過FPN 得到的三個(gè)候選匹配圖融合處理獲得三元組交叉熵函損失函數(shù)[22]進(jìn)行訓(xùn)練并更新網(wǎng)絡(luò)權(quán)重,從而在定位源區(qū)域與目標(biāo)區(qū)域的同時(shí)提高網(wǎng)絡(luò)性能。
原始EfficientNetV2 和LKA-EfficientNet 的網(wǎng)絡(luò)結(jié)構(gòu)分別如 表1~2 所示。表1 中Conv3×3 表示普通3 × 3 卷積+SiLU(Sigmoid Linear Unit)激活函數(shù)+批歸一化(BatchNorm,BN)正則函數(shù);SE(Squeeze and Excitation)為自注意力模塊,0.25為SE 模塊中第一個(gè)全連接層的系數(shù),表示輸入該模塊特征矩陣通道數(shù)量的表示卷積核大??;Fused-MBConv、MBConv 后的數(shù)字為膨脹系數(shù)。由于傳統(tǒng)卷積模塊的感受野較小且增長緩慢,無法高效利用圖像的遠(yuǎn)端像素,本文在基干網(wǎng)絡(luò)開端引入LKA,充分利用LKA 具有長端依賴和能夠獲取全局感受野的特性,提取了圖像粗粒度全局特征,有效提高了網(wǎng)絡(luò)精度。
表1 原始EfficientNetV2算法的網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of original EfficientNetV2 algorithm
此外,為了能夠提高基干網(wǎng)絡(luò)的運(yùn)行效率和檢測精度,本文通過實(shí)驗(yàn)論證對Fused-MBConv 和MBConv 層中的輸出通道和重復(fù)層數(shù)進(jìn)行了壓縮,在減少參數(shù)與理論計(jì)算量的前提下保證了檢測精度,提高了檢測效率。
從表2 可以看出,本文在EfficientNetV2 模型設(shè)計(jì)了LKA卷積塊,并在后續(xù)的各模塊中壓縮了輸出通道數(shù)和重復(fù)層數(shù)。在壓縮過程中,充分利用網(wǎng)格搜索對網(wǎng)絡(luò)深度進(jìn)行搜索,在確定深度的前提下對網(wǎng)絡(luò)層間重復(fù)次數(shù)進(jìn)行搜索,然后再對網(wǎng)絡(luò)寬度進(jìn)行搜索從而確定網(wǎng)絡(luò)參數(shù),通過參數(shù)和維度的縮減來優(yōu)化精簡算法,在保證算法精度的同時(shí)減小網(wǎng)絡(luò)計(jì)算開銷,經(jīng)過基干網(wǎng)絡(luò)提取的細(xì)粒度、多尺度特征圖像將輸出至FPN。
表2 LKA-EfficientNet算法的網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 Network structure of LKA-EfficientNet algorithm
LKA-EfficientNet 利用一個(gè)輔助匹配模塊來定位源區(qū)域與目標(biāo)區(qū)域并學(xué)習(xí)豐富的層次特征之間的相關(guān)性。三個(gè)候選像素塊的區(qū)域大小分別為28 × 28、14 × 14、7 × 7,候選像素塊的深度分別為48、64、128。LKA-EfficientNet 使用歐氏距離定義特征相關(guān)系數(shù)。設(shè)特征塊為P0,其中P0={P1,P2,…,Pi…,PN×N},則P1的M維的描述算子為:
其中:N為候選像素塊中像素點(diǎn)的數(shù)量;M為特征深度。定義特征點(diǎn)Pi與其他特征點(diǎn)的特征相關(guān)系數(shù),如式(2)所示:
其中:下標(biāo)i和j表示特征點(diǎn)Pi和Pj在相應(yīng)的匹配映射中的定位;Pci,j為配對測量值,表示特征點(diǎn)Pi和Pj間特征相關(guān)系數(shù)。當(dāng)相關(guān)系數(shù)接近0 時(shí),說明兩個(gè)特征點(diǎn)非常相似,其中Pci,i的相關(guān)系數(shù)為0。
LKA-EfficientNet 利用2NN(Two Nearest Neighbour)匹配算法減小匹配誤差[23]。定義Pci,j為次小特征相關(guān)系數(shù),Pci,k為第三小特征相關(guān)系數(shù),設(shè)定閾值TL=0.65,匹配條件為:
隨后,LKA-EfficientNet 對相關(guān)特征進(jìn)行篩選,使用特征匹配度量來度量源像素與其候選目標(biāo)像素之間的相似性,并將其轉(zhuǎn)化為二分類問題,步驟如式(4)所示,α=2:當(dāng)特征匹配度量符合條件時(shí),輸出結(jié)果接近1;而當(dāng)不符合條件時(shí),輸出結(jié)果接近0,由此篩選出特征候選區(qū)域。圖4 表示了FPN中不同層的處理結(jié)果與融合結(jié)果。
圖4 三個(gè)匹配圖及其組合Fig.4 Three matching maps and their combinations
利用低層特征所提供的準(zhǔn)確位置信息修正高層特征經(jīng)過多次降采樣和上采樣所造成的定位誤差。圖像篡改定位部分以偽代碼形式給出。
從表 1中可以看出, 當(dāng)網(wǎng)格節(jié)點(diǎn)數(shù)量大于5×105時(shí), 數(shù)值計(jì)算收斂, 計(jì)算的平均誤差小于7%, 在可以接受的范圍之內(nèi), 并且隨著網(wǎng)格節(jié)點(diǎn)數(shù)量的增大, 計(jì)算結(jié)果沒有發(fā)生顯著變化, 綜合考慮計(jì)算準(zhǔn)確性與經(jīng)濟(jì)性, 本文選用節(jié)點(diǎn)數(shù)量為8.5×105的網(wǎng)格作為數(shù)值模擬所用的計(jì)算網(wǎng)格.
輸入M維特征,每個(gè)維度中N×N特征值,TL閾值,系數(shù)因子α;
輸出 特征相似性表征P。
LKA-EfficientNet 將2NN 匹配算法處理后的對數(shù)化候選特征矩陣作為損失函數(shù)中的函數(shù),將事實(shí)像素GT(Ground Truth)中不同類別的像素作為損失函數(shù)中的系數(shù),兩者配合組成損失函數(shù)。隨后LKA-EfficientNet 利用損失函數(shù)量化網(wǎng)絡(luò)預(yù)測結(jié)果與GT 之間的差值,通過梯度下降更新網(wǎng)絡(luò)權(quán)重,進(jìn)而減小量化指標(biāo)提升網(wǎng)絡(luò)預(yù)測結(jié)果與GT 的相似性。
為了提升圖像篡改定位的精確性,本文利用三元組交叉熵?fù)p失函數(shù)對輸入相似結(jié)構(gòu)能夠精確地對細(xì)節(jié)建模的性質(zhì),通過訓(xùn)練縮減錨(Anchor)與標(biāo)記區(qū)域之間的距離并擴(kuò)大Anchor 與無篡改區(qū)域的距離,促使類間距離大于類內(nèi)距離,如圖5 所示。
圖5 三元組損失函數(shù)Fig.5 Triplet loss function
由式(4)計(jì)算得到相對應(yīng)的候選矩陣后,特征匹配Ⅰ、Ⅱ、Ⅲ組成了特征金字塔,其中:特征匹配Ⅰ提供全局和粗粒度特性的匹配相關(guān)性,特征匹配Ⅱ、Ⅲ提供局部和精細(xì)特性的匹配相關(guān)性。為便于使用交叉熵進(jìn)行全局統(tǒng)計(jì)與局部統(tǒng)計(jì),使用雙線性插值將候選圖拓展成224×224。由式(4)可知,上采樣特征匹配的特征匹配系數(shù)P(Xi,j)在(0,1)范圍內(nèi),計(jì)算上采樣后的匹配映射的像素i和j相較于它的標(biāo)簽的交叉熵:
通過交叉熵衡量候選矩陣與GT 概率分布的差異程度,隨后通過熵的大小表征真實(shí)概率分布與預(yù)測概率分布之間的差異,并利用交叉熵?fù)p失函數(shù)的梯度從其負(fù)梯度方向進(jìn)行反向傳播更新參數(shù)進(jìn)而優(yōu)化網(wǎng)絡(luò)。
本文主要從消融實(shí)驗(yàn)、抗攻擊實(shí)驗(yàn)、泛化實(shí)驗(yàn)等幾個(gè)方面對LKA-EfficientNet 和相關(guān)算法進(jìn)行性能比較與分析。
實(shí)驗(yàn)環(huán)境為:Python3.8、PyTorch1.10,GPU 為RTX3060,實(shí)驗(yàn)參數(shù)為Dropout=0.15,batchsize=32,優(yōu)化器為SGD+Momentum,初始學(xué)習(xí)率為0.001,訓(xùn)練集和驗(yàn)證集的劃分比例為8∶2,輸入圖像大小為224 × 224,三個(gè)候選像素塊的區(qū)域大小分別為28 × 28、14 × 14、7 × 7,三個(gè)候選像素塊的深度為48、64、128。
混合數(shù)據(jù)集:將CASIA2.0[24]和Comofod_small[25]數(shù)據(jù)集進(jìn)行混合,總計(jì)20 665 張圖片,包含真實(shí)圖片12 449 張,篡改圖片8 216 張。數(shù)據(jù)集的混合不僅能增大訓(xùn)練量,并且包含被攻擊數(shù)據(jù),所以網(wǎng)絡(luò)能通過數(shù)據(jù)集的訓(xùn)練提高檢測性能。
Dataset 數(shù)據(jù)集[26]:包含多種攻擊下的篡改圖片總計(jì)2 200 張。
MICC-F2000 數(shù)據(jù)集[27]:由2 000 張圖片組成,其中,1 300張為真實(shí)圖片,700 張為篡改圖片。
COVERAGE 數(shù)據(jù)集[28]:由200 張圖片組成,包含100 張篡改圖片。
MICC-F600 數(shù)據(jù)集[29]:共計(jì)600 張圖片,其中,440 張為真實(shí)圖片,160 張為篡改圖片。
使用查準(zhǔn)率P(Precision)、查全率R(Recall)、F1 分?jǐn)?shù)[30]和精度Acc(Accuracy)評估性能,并且使用浮點(diǎn)運(yùn)算量[31]和參數(shù)量衡量算法復(fù)雜程度。Acc為模型預(yù)測為真且標(biāo)簽為真的數(shù)據(jù)與模型預(yù)測為假且標(biāo)簽為假的數(shù)據(jù)之和除以總樣本數(shù);P為正確檢測到的偽造圖像與所有檢測到的圖像的比率;R為正確檢測到的偽造圖像與所有偽造圖像的比例。
P=預(yù)測為1且正確的樣本數(shù)所有預(yù)測為1的樣本數(shù)
R=預(yù)測為1且正確的樣本數(shù)真實(shí)標(biāo)簽為1的樣本數(shù)
F1 值作為綜合標(biāo)準(zhǔn),兼顧查準(zhǔn)率和查全率。
RF1=2PR(P+R)
4.2.1 消融實(shí)驗(yàn)
消融實(shí)驗(yàn)均在混合數(shù)據(jù)集上進(jìn)行。表3 是在多個(gè)不同類型的網(wǎng)絡(luò)上進(jìn)行的消融實(shí)驗(yàn),實(shí)驗(yàn)的具體設(shè)置參數(shù)如下:使用第三類Early Stopping 函數(shù),代數(shù)為20 代,使用SGD+Momentum 優(yōu)化器。對網(wǎng)絡(luò)代數(shù)進(jìn)行限制,16 層時(shí)代數(shù)為150 代,每增加4 層,代數(shù)增加50 代,添加LKA 模塊后網(wǎng)絡(luò)代數(shù)在原有基礎(chǔ)上增加30 代。
表3 不同層數(shù)的基干網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experimental results of backbone networks with different layers
通過表3 可以看出,在添加LKA 模塊后,網(wǎng)絡(luò)在相同層數(shù)下,精度因?yàn)榫W(wǎng)絡(luò)未能充分訓(xùn)練而發(fā)生訓(xùn)練效果減弱等問題。通過擴(kuò)展一定的模型層數(shù),能夠顯著提高模型精度,提升檢測性能。
現(xiàn)行的圖像復(fù)制-粘貼篡改網(wǎng)絡(luò)[12]因源區(qū)域和目標(biāo)區(qū)域的性質(zhì)而被限制網(wǎng)絡(luò)的深度。而網(wǎng)絡(luò)的深度影響模型的精度,當(dāng)使用CNN 定位源區(qū)域和目標(biāo)區(qū)域或通過CNN 區(qū)分圖像是否篡改時(shí),網(wǎng)絡(luò)的深度都至關(guān)重要。本文通過三類典型的CNN 比較,可以看出LKA 模塊能夠有效拓展網(wǎng)絡(luò)深度,從而優(yōu)化算法。
表4 為不同網(wǎng)絡(luò)的層數(shù)的消融實(shí)驗(yàn),層數(shù)通過原始基干網(wǎng)絡(luò)乘以膨脹系數(shù)得出。對比的網(wǎng)絡(luò)如下:
表4 不同層數(shù)下各網(wǎng)絡(luò)的精度對比Tab.4 Comparison of accuracy of different networks under different layers
殘差網(wǎng)絡(luò)(Residual Network,ResNet)[32]:作為經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),通過引入殘差連接解決了深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題。
ShuffleNet[33]:輕量級的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過分組卷積、逐點(diǎn)卷積以及通道重排等操作提高模型的計(jì)算效率和并減少內(nèi)存消耗。
RegNet[34]:作為一種通用型的網(wǎng)絡(luò)結(jié)構(gòu),提供了一組網(wǎng)絡(luò)架構(gòu)計(jì)算規(guī)則,根據(jù)不同的計(jì)算資源和性能需求來設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),從而提供高效的模型設(shè)計(jì)和計(jì)算資源利用。
通過以上3 種經(jīng)典網(wǎng)絡(luò)模型的消融實(shí)驗(yàn),定量分析LKA模塊的泛用性。
表5 為同一層數(shù)時(shí)層間重復(fù)次數(shù)的消融實(shí)驗(yàn),層間重復(fù)次數(shù)的比較以原始基干網(wǎng)絡(luò)為中間節(jié)點(diǎn):上限為盡量保持前4 層網(wǎng)絡(luò)架構(gòu),修改后兩層;下限為盡量保持后兩層網(wǎng)絡(luò)架構(gòu),在確定上下限及圖像復(fù)制-粘貼篡改檢測任務(wù)的前提條件下,利用折半查找最終得到最優(yōu)的基干網(wǎng)絡(luò)通道數(shù)量。
表5 同一層數(shù)時(shí)不同層間重復(fù)次數(shù)的精度對比Tab.5 Comparison of accuracy of different repetitions between layers under same number of layers
表6 為基干網(wǎng)絡(luò)通道數(shù)與原始網(wǎng)絡(luò)通道數(shù)之比與精度的關(guān)系。
表6 基干網(wǎng)絡(luò)不同通道數(shù)量的精度對比Tab.6 Accuracy comparison of different channel numbers in backbone network
實(shí)驗(yàn)結(jié)果表明,LKA 模塊擴(kuò)充了網(wǎng)絡(luò)的深度,不僅提高了算法的精度,并且提升了后續(xù)多尺度特征金字塔的定位性能,在實(shí)現(xiàn)網(wǎng)絡(luò)高檢測精度性能的同時(shí)極大降低了模型的理論計(jì)算量。
4.2.2 抗攻擊實(shí)驗(yàn)及分析
為衡量網(wǎng)絡(luò)的魯棒性,使用Dataset[26]和MICC-F2000[27]數(shù)據(jù)集,共140 張圖片,其中70 張為篡改圖片,進(jìn)行如下抗攻擊實(shí)驗(yàn)。
1)圖像中的復(fù)制的片段以5°、30°、60°、90°、180°的旋轉(zhuǎn)角度旋轉(zhuǎn)。
2)圖像附加[2%,10%]的高斯噪聲,幅度為2%。
3)圖像按[20%,100%]的JPEG 壓縮系數(shù)進(jìn)行壓縮,幅度為20%。
4)模糊攻擊,高斯模糊核大小依次為3、5、7、9、11。
5)圖像的復(fù)制的片段按50%、75%、120%、160%、200%的縮放系數(shù)進(jìn)行縮放。
將本文算法與使用深度學(xué)習(xí)的相關(guān)算法進(jìn)行對比,結(jié)果如圖6 所示。對比算法如下:
圖6 抗攻擊性能比較Fig.6 Comparison of anti-attack performance
1)EfficientNetV2[6]:通過使用復(fù)合縮放技術(shù)和改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了更好的性能和計(jì)算效率。
2)BusterNet[13]:端到端的篡改檢測網(wǎng)絡(luò),采用雙分支結(jié)構(gòu),通過比較圖像相似度來識(shí)別源區(qū)域和目標(biāo)區(qū)域。
3)文獻(xiàn)[14]算法:通過引入兩個(gè)串行構(gòu)建的子網(wǎng)絡(luò):拷貝移動(dòng)相似性檢測網(wǎng)絡(luò)(CMSDNet)和源/目標(biāo)區(qū)域區(qū)分網(wǎng)絡(luò)(STRDNet),以改進(jìn)BusterNet 存在的問題。
4)Dense-InceptionNet[18]:作為一種輕量化圖像篡改復(fù)制-粘貼篡改檢測方案,利用多尺度信息和圖像所蘊(yùn)含的稠密特征,結(jié)合特征相關(guān)匹配算法和后處理步驟實(shí)現(xiàn)精準(zhǔn)定位與檢測。
5)文獻(xiàn)[35]算法:通過全分辨率信息從整個(gè)圖像中進(jìn)行決策,并通過弱監(jiān)督學(xué)習(xí)與端到端訓(xùn)練實(shí)現(xiàn)參數(shù)的聯(lián)合優(yōu)化,從而賦予模型優(yōu)異的表達(dá)能力。
從圖6 可以看出,本文算法總體上在5 類攻擊中取得較優(yōu)結(jié)果,表現(xiàn)更穩(wěn)定,通過原始EfficientNetV2 與改進(jìn)后的網(wǎng)絡(luò)對比能夠發(fā)現(xiàn),LKA 模塊的引入使得網(wǎng)絡(luò)抵抗攻擊的能力明顯增強(qiáng)。
4.2.3 對比實(shí)驗(yàn)
不同算法的性能對比如表7 所示??梢钥闯?,本文算法和Dense-InceptionNet 算法[18]相比,在浮點(diǎn)運(yùn)算量減小29.54%的基礎(chǔ)上,F(xiàn)1 提高了4.88%。
表7 不同算法的性能對比結(jié)果Tab.7 Performance comparison results of different algorithms
4.2.4 篡改檢測實(shí)驗(yàn)及分析
為了檢測LKA-EfficientNet 算法的篡改檢測的能力,本文 在Dataset[26]、MICC-F2000[27]、COVERAGE[28]、MICCF600[29]這4 個(gè)數(shù)據(jù)集上進(jìn)行泛化測試,不同算法的F1 如表8所示。通過4 個(gè)測試數(shù)據(jù)集中相關(guān)實(shí)驗(yàn)結(jié)果說明本文算法具有良好的泛化性。
表8 不同算法在4個(gè)數(shù)據(jù)集上的F1結(jié)果對比Tab.8 Comparison of F1 results of different algorithms on four datasets
圖7 為本文提出的LKA-EfficientNet 算法的篡改檢測定位效果圖,白色表示源、目標(biāo)區(qū)域,深色代表檢測區(qū)域??梢钥闯觯疚乃惴芎芎玫乩枚喑叨刃畔?,從而實(shí)現(xiàn)源區(qū)域與目標(biāo)區(qū)域的定位。
圖7 本文算法的篡改檢測定位效果Fig.7 Effect of tamper detection and localization of the proposed algorithm
本文設(shè)計(jì)了一種結(jié)合多尺度特征金字塔和深度學(xué)習(xí)優(yōu)點(diǎn)、融合大核注意力卷積的輕量化圖像篡改定位算法LKAEfficientNet,利用深度學(xué)習(xí)實(shí)現(xiàn)端到端的圖像篡改檢測。首先利用大核注意力卷積塊獲取全局感受野,再利用基干網(wǎng)絡(luò)進(jìn)行特征提??;然后通過金字塔特征提取器提取三層特征,通過匹配獲取可能的目標(biāo)區(qū)域;最后,LKA-EfficientNet 利用三個(gè)候選匹配圖獲得交叉熵的組合,通過反向傳播進(jìn)行更具細(xì)粒度的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,LKA-EfficientNet 優(yōu)于對比算法,在保持高檢測性能的同時(shí)降低了計(jì)算量。