摘" 要: 傳統(tǒng)的篡改方法如拷貝粘貼和拼接已演變?yōu)槔蒙疃葘W習生成的高質(zhì)量偽造圖像,這些篡改技術(shù)在圖像紋理和細節(jié)上留下難以察覺的痕跡,如高頻噪聲模式的異常、顏色分布的微妙變化,以及邊緣區(qū)域的不自然過渡。這些痕跡分布在不同分辨率層次和空間位置,增加了檢測的難度?,F(xiàn)有模型在整合多尺度和多位置特征時存在不足,難以有效捕捉局部細微紋理變化。針對這一問題,文中提出一種基于多分支HRNet的圖像篡改檢測與定位模型。該模型通過集成紋理增強模塊,增強對圖像篡改細節(jié)特征的捕獲能力。同時,結(jié)合Spatial Weighting與Cross Resolution Weighting策略優(yōu)化特征融合,并使用新的損失函數(shù)W_Arcloss,顯著提升了模型在復雜篡改檢測任務中的性能。在CASIA、Columbia、COVERAGE和NIST16等數(shù)據(jù)集上,該模型的檢測準確度相較于PSCC?Net、HIFI?Net模型分別平均提升了6.5%與0.8%,并且泛化能力得到提升。這些結(jié)果證明了模型在處理多種篡改類型時的有效性和魯棒性,為圖像篡改檢測與定位領(lǐng)域提供了新的研究視角和技術(shù)手段。
關(guān)鍵詞: 圖像篡改檢測; 深度學習; 多分支HRNet; 紋理增強模塊; Spatial Weighting; Cross Resolution Weighting; W_Arcloss
中圖分類號: TN911.73?34; TP391.41" " " " nbsp; " " " 文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)03?0035?08
Image tampering detection and localization model based on multi?branch HRNet
ZENG Zhen1, 2, TAN Ping1
(1. School of Information, Guizhou University of Finance and Economics, Guiyang 550025, China; 2. Big Data Institute, Wuhan University, Wuhan 430000, China)
Abstract: Traditional tampering methods such as the copy and paste and the stitching have evolved into high?quality forged images generated by deep learning. These tampering technologies leave imperceptible marks on the textures and details of the image, such as anomalies in high?frequency noise patterns, subtle changes in color distribution, and unnatural transitions in edge regions. These traces are distributed at different levels of resolution and spatial positions, which increases the difficulty of detection. The existing models have shortcomings in integrating multi?scale and multi?position features, which makes it difficult to capture local subtle texture changes effectively. In view of the above, this study proposes an image tamper detection and localization model based on multi?branch HRNet (high?resolution net). This model enhances the ability to capture the image tampering details by integrating a texture enhancement module. In addition, the feature fusion is optimized by combining the strategies of Spatial Weighting and Cross Resolution Weighting, and a new loss function W_Arcloss is adopted, which significantly improves the model performance in complex tasks of tamper detection. On datasets such as CASIA, Columbia, COVERAGE and NIST16, the detection accuracy of this model has improved by an average of 6.5% and 0.8% in comparison with the PSCC?Net and HIFI?Net models, respectively, and its generalization ability has been improved. These results demonstrate the effectiveness and robustness of the model in processing multiple types of tampering, which provides a new perspective of research and technical means for the field of image tampering detection and localization.
Keywords: image tampering detection; deep learning; multi?branch HRNet; texture enhancement module; Spatial Weighting; Cross Resolution Weighting; W_Arcloss
0" 引" 言
在數(shù)字化時代,圖像篡改技術(shù)快速發(fā)展,對圖像真實性構(gòu)成挑戰(zhàn)。社交媒體虛假信息[1]和操縱圖像造成公共秩序混亂[2]等問題引起關(guān)注。因此,開發(fā)高效、準確的圖像篡改檢測技術(shù)成為計算機視覺領(lǐng)域的重要課題。
傳統(tǒng)圖像篡改包括復制移動[3]、拼接[4]和移除[5]等。近年來,基于深度學習的DeepFake[6?7]和GAN[8]等技術(shù)生成的虛假圖像更難檢測。篡改方式多樣,但現(xiàn)有檢測方法通常只適用于特定類型的篡改。
針對深度學習偽造圖像(如DeepFake和GAN),出現(xiàn)了一些檢測方法。文獻[9]提出ManTra?Net,一個全卷積網(wǎng)絡提取操縱特征和捕捉異常,但未充分利用圖像塊間的空間關(guān)系。另外,文獻[10]提出了SPAN(Spatial Pyramid Attention Network),通過空間金字塔注意力模塊建立多尺度的像素級空間關(guān)系,雖然嘗試利用空間信息,但其注意力機制仍基于單個像素,未能很好地捕捉像素之間的相關(guān)性。文獻[11]提出了PSCC?Net,利用密集交叉連接融合不同尺度特征,從粗到細生成操縱掩碼預測,展現(xiàn)出不錯的魯棒性,但該方法使用標準卷積操作,難以建模長范圍上下文依賴。文獻[12]則引入Transformer的自注意力機制,提出ObjectFormer,雖性能不錯,但在無明顯對象結(jié)構(gòu)的篡改檢測中可能受影響,難以深挖篡改屬性和建立偽造像素的空間聯(lián)系。文獻[13]則提出HiFi?Net,從層次化細粒度分類出發(fā),雖檢測效果不錯,但在淺層篡改細節(jié)捕捉和不同分辨率圖像的權(quán)重處理上存在不足。
綜上所述,近年來深度學習篡改檢測方法雖有進展,但存在問題,如模型多針對單一篡改方式,難以應對實際場景;難以捕捉深度偽造圖像的深層次痕跡;多數(shù)模型未能有效建模圖像空間位置相關(guān)性,限制了檢測能力。鑒于此,本文提出基于多分支HRNet的圖像篡改檢測與定位模型,具有以下三個創(chuàng)新點。
1) 提出了DuaTex_Extractor特征抽取器,通過圖像頻率域和顏色域抽取特征,并通過紋理增強模塊提升對紋理的感知,增強對細微篡改特征的捕捉,提高復雜場景的檢測精度。
2) 設計了HRWFuse?Net,在傳統(tǒng)HRNet[14]結(jié)構(gòu)上融合Spatial Weighting與Cross Resolution Weighting策略,通過加權(quán)融合不同分辨率下的特征以及空間位置信息,用于捕獲空間和通道相關(guān)性,提升對篡改區(qū)域的定位精確性。
3) 提出W_Arcloss優(yōu)化損失函數(shù),使模型在訓練過程中更加注重區(qū)分篡改區(qū)域與真實區(qū)域之間的差異,進一步提高識別篡改圖像的準確率。
本文在CASIA、Columbia、COVERAGE和NIST16等多個公認的數(shù)據(jù)集上進行了廣泛的實驗,實驗結(jié)果表明,與現(xiàn)有的基線模型相比,本文模型在[F1]分數(shù)和AUC值上分別提高了0.8%和0.1%。這些成果不僅證明了模型在處理多種篡改類型時的有效性和魯棒性,而且為圖像篡改檢測與定位領(lǐng)域提供了一種新的解決方案。
1" 基于多分支HRNet的圖像篡改檢測與定位模型
本文任務是檢測可疑圖像是否被篡改,并定位篡改區(qū)域。采用的多分支HRNet模型由DuaTex_Extractor、HRWFuse?Net網(wǎng)絡、定位模塊和分類模塊構(gòu)成,具體結(jié)構(gòu)如圖1所示。
設輸入圖像的尺寸為[H×W×C],[H]、[W]、[C]分別表示輸入圖像的長、寬和通道數(shù)。輸入圖像首先通過DuaTex_Extractor在頻域和顏色域提取特征,提取后的特征各自經(jīng)紋理增強模塊(Texture Enhancement Module)進行紋理增強,使得模型能更準確地識別和理解圖像的篡改細節(jié)特性,而后進行特征融合,融合后的特征輸入HRWFuse?Net網(wǎng)絡。定位模塊通過直接依賴于HRWFuse?Net最高分辨率分支(即[L4])的特征輸出生成二元掩碼[M],二元掩碼(Binary Mask)[M]與輸入圖像疊加得到掩碼圖像[Xmask],通過兩層PConv后進入分類模塊得到分類結(jié)果。
1.1" DuaTex_Extractor
針對現(xiàn)有模型難以捕捉深層次偽造痕跡和建模圖像空間相關(guān)性的問題,本文提出DuaTex_Extractor特征提取器。該提取器從頻域和顏色域捕捉分析篡改痕跡。該設計參考了文獻[15],利用圖像生成偽影可存在于RGB和頻域的特點。篡改會在圖像邊緣留下不連續(xù)痕跡,本文采用高斯拉普拉斯(Laplacian of Gaussian, LoG)[16]濾波器增強邊緣,捕捉偽造細節(jié),專注分析異常高頻模式或噪聲,有效檢測先進模型產(chǎn)生的篡改。
顏色域分支深入挖掘圖像的顏色信息,包括色彩分布、飽和度變化等,這對于識別那些通過色彩調(diào)整進行掩飾的篡改區(qū)域至關(guān)重要。
此外,頻域和顏色域分支抽取的特征會各自進入紋理增強模塊。
圖2是紋理增強模塊的結(jié)構(gòu)圖。紋理增強模塊旨在提升模型對篡改區(qū)域細節(jié)特征的敏感度,特別是偽造紋理細節(jié)。模塊采用注意力機制使模型聚焦?jié)撛诖鄹膮^(qū)域,自動檢測并強調(diào)異常紋理特征。訓練時重點關(guān)注這些區(qū)域,提高定位和識別篡改的準確性。
首先用3×3卷積層提取基本特征,然后1×1卷積核產(chǎn)生注意力圖,以識別和強調(diào)可能篡改的區(qū)域。而后注意力圖作為加權(quán)因子與原特征圖相乘,使模型專注于可能含篡改痕跡的區(qū)域。接著,模塊引入5×5卷積核的紋理增強層(Conv0)廣泛捕捉上下文,識別異常紋理。之后,特征通過3×3卷積層(Conv1、Conv2、Conv3)增強,每層后接批量歸一化和ReLU激活。在這個過程中,每個紋理增強層輸出既進入下一層,也與之前層輸出融合,確保網(wǎng)絡深入時考慮更多紋理信息。例如,feature_maps1是feature_maps0和Conv1輸出的融合,同樣,feature_maps2和feature_maps3也是累積結(jié)果。最終的1×1卷積層整合所有特征,提供全面的篡改特征表示。
紋理增強模塊結(jié)合頻域和顏色域特征,通過注意力機制提高對篡改區(qū)域的識別敏感度。頻域分支的LoG濾波器捕捉高頻變化,如邊緣不連續(xù),與注意力加權(quán)特征結(jié)合,精確描繪篡改輪廓。顏色域分支分析色彩分布和飽和度變化,識別顏色調(diào)整異常,紋理增強后,顏色域信息強化,尤其在篡改區(qū)域紋理細節(jié)上,揭示掩飾的篡改行為。
1.2" HRWFuse?Net
為了在細粒度層次上檢測偽造屬性,設計了HRWFuse?Net,以HRNet作為基礎框架,因其在保持高分辨率特征的同時,通過多分辨率并行結(jié)構(gòu)提取豐富的上下文信息,對精確定位篡改區(qū)域至關(guān)重要。HRNet內(nèi)部并行處理不同分辨率信息,確保特征豐富連貫,使模型同時觀察細節(jié)和整體,在細粒度層次檢測偽造特征。
然后通過Spatial Weighting和Cross Resolution Weighting兩種策略對特征進行加權(quán)。
Spatial Weighting側(cè)重于強化每個通道內(nèi)的關(guān)鍵特征,關(guān)注局部區(qū)域的精確性。如式(1)所示,通過全局平均池化捕獲通道的全局統(tǒng)計信息,而后通過一對1×1的卷積層和ReLU激活,將這些信息映射到一個較小的維度空間并重新投影回原始通道數(shù)量,通過sigmoid激活函數(shù)產(chǎn)生的空間權(quán)重圖與輸入特征圖逐像素相乘,增強了對關(guān)鍵區(qū)域的關(guān)注,同時抑制了不太相關(guān)的區(qū)域。Spatial Weighting生成了一個按通道分的注意力圖。這個注意力圖被應用到輸入的特征圖上,細化模型焦點,以強調(diào)與偽造檢測相關(guān)特征,空間加權(quán)確保模型優(yōu)先考慮潛在操作區(qū)域。
[FLSP_W=FL⊙σConv2ReLUConv1AvgPool(FL)]
(1)
與此同時,Cross Resolution Weighting確保了不同分辨率特征之間的有效融合,平衡了全局上下文和局部細節(jié)之間的關(guān)系。如式(2)所示,首先將來自不同分辨率流的特征圖進行自適應池化,以匹配最低分辨率,然后,這些特征圖在通道上被合并,并通過一個1×1的卷積層,以減少參數(shù)數(shù)量并學習跨尺度的特征表示。經(jīng)過ReLU激活和第二個1×1的卷積層,生成通道級的權(quán)重。最后,通過sigmoid函數(shù)將這些權(quán)重標準化,然后將它們應用到對應的特征圖上,每個特征圖都根據(jù)其分辨率大小通過最近鄰插值被放大到原始尺寸。通過將來自所有分辨率的特征圖聚合和加權(quán),然后再重新分配回各自的分辨率流,確保模型在每個尺度上都有最適宜的特征表征。
[FLCR_W=FLUpsampleσConv2ReLUConv1CatPool(FL)]
(2)
二者共同為HRNet提供了全面的權(quán)重調(diào)整能力,不僅保留了高分辨率細節(jié)信息,同時也利用了低分辨率的上下文信息,為圖像篡改檢測帶來了更細致的層次分析能力,允許在不犧牲高層次特征的情況下進行低層次的精準分類。
1.3" 定位模塊
定位模塊的目的是利用高分辨率特征輸出([L4])生成二元掩碼[M],以精確標識圖像中的篡改區(qū)域。二元掩碼[M]被覆蓋在輸入圖像上以產(chǎn)生一個掩蔽圖像[Xmask],用以突出顯示被篡改的區(qū)域。定位模塊采用自注意力機制[17?18],使?jié)撛诘拇鄹膮^(qū)域更加突出。
此外,參照文獻[15]的方法,本文采用度量學習目標函數(shù)來增強模型對真實和篡改像素之間差異的識別。具體地,基于訓練集中所有真實圖像的像素特征,計算出一個參考中心向量[c∈RD]。使用[F′ij∈RD]表示最終掩碼預測層的第[ij]個像素。因此定位損失[Lloc]為:
[Lloc=1HWi=1Hj=1WLFtij,Mij,c,τ] (3)
式中:
[L=F′ij-c2," " " Mij realmax0,τ-F′ij-c2," " " "Mij" forged]
與文獻[15,19]的方法不完全相同,在特征空間中使用了預定的邊界[τ],用于控制真實像素和篡改像素之間的最小特征距離。式(3)中,[Mij]表示在掩碼圖像[M]的[ij]位置像素。當[Mij]為真時,使真實像素的特征向量朝著參考中心收斂;當[Mij]為假時,強制篡改像素的特征向量與參考中心保持至少[τ]的距離。這種機制在訓練中不斷拉大兩類像素間的特征距離,提高了模型的分類準確性,是生成高質(zhì)量的掩蔽圖[Xmask]的關(guān)鍵。
為了最大程度地利用掩蔽圖像[Xmask],使用PConv(Partial Convolution Operato)[20]處理。PConv的卷積核經(jīng)過改動后僅適用于未被掩蓋的像素,從而確保特征圖專注于被操作的像素。
1.4" 分類模塊
二元掩碼[M]不僅作為分類模塊的前奏,也作為后續(xù)分類模塊的重要先驗。
采用式(4)掩碼更新機制:
[M=1," " " " " "M≥00," " " " " otherwise] (4)
將掩碼更新后的[M]與HRWFuse?Net不同分支([L1]~[L4])的輸出特征一起傳入分類模塊。分類模塊采用層次化方法預測偽造屬性,學習不同屬性間的依賴關(guān)系。以下是各層的屬性分類。
[L1]:全局篡改檢測,判斷整張圖像是否遭到篡改。利用HRWFuse?Net提供的高分辨率特征圖,模型能在全局層面捕捉微妙的篡改跡象,如整體色調(diào)、紋理或邊緣的異常變化。
[L2]:篡改類型區(qū)分,確定是完全合成(全圖篡改),還是局部篡改(對象插入、移除或編輯),深入分析特定區(qū)域。
[L3]:篡改手法識別,識別用于篡改的具體技術(shù)或工具,如基于GAN的方法、克隆工具或圖像編輯軟件。
[L4]:細化篡改特征,關(guān)注篡改區(qū)域的紋理、邊緣和噪點等細節(jié)。
層次化路徑預測的原理如下。
給定圖像[X],將分支[Lb]的輸出對數(shù)和預測概率分別記為[Lb(X)]和[pybX],那么:
[pybX=softmaxLb(X)⊙1+pyb-1X] (5)
在計算分支[Lb]的概率[pybX]時,會結(jié)合前一個分支的預測概率,即[pyb-1X]與當前分支的輸出對數(shù)logits[Lb(X)]來計算。
通過這一系列層次化的細粒度分類步驟,實現(xiàn)了對篡改圖像的全面識別和定位,每一層級的分類都為最終的判定提供了支持。
1.5" W_Arcloss
為了增強模型的區(qū)分能力,本文基于ArcFaceloss[21]引入了基于樣本難度和類別特異性的動態(tài)權(quán)重,創(chuàng)造W_Arcloss損失函數(shù)。具體見式(6):
[LW_Arc=-1Ni=1Nwi?loges?wc?cosθyi+mes?wc?cosθyi+m+j=1,j≠yines?cosθj] (6)
式中:[N]是批次中樣本的總數(shù);[wi]是第[i]個樣本的權(quán)重,反映了樣本的難度或?qū)δP陀柧毜闹匾?;[wc]是對應于樣本真實類別[yi]的類別權(quán)重;[s]是縮放因子,用于調(diào)整特征向量的范數(shù);[m]是加入到類別間角度的邊界間隔,用于增加類別間的可分性;[θyi]是樣本[i]的特征向量和其對應的類別權(quán)重[wyi]之間的角度。
W_Arcloss通過在特征空間中加入角度邊界[m],顯著增加了不同篡改類型之間的區(qū)分度。樣本權(quán)重和類別權(quán)重使模型能針對難度不同的樣本和重要性不同的類別進行優(yōu)化,確保模型更關(guān)注提高整體性能最關(guān)鍵的部分。通過動態(tài)調(diào)整損失,W_Arcloss有助于模型在[L1]~[L4]分支上對具體篡改行為的細粒度分類任務實現(xiàn)更高的準確率。W_Arcloss通過角度間隔和權(quán)重調(diào)整,促進模型學習到的特征表示在類內(nèi)緊湊、類間分離的同時,還具有高度的魯棒性。這意味著即使在圖像質(zhì)量變化或篡改技術(shù)微妙變化的情況下,模型也能保持高效的分類性能。
2" 實驗部分
2.1" 數(shù)據(jù)集和評價指標
模型訓練使用的數(shù)據(jù)集是HIFI?IFDL[13]數(shù)據(jù)集。HIFI?IFDL數(shù)據(jù)集包含多張真實圖像,以及通過先進的生成對抗網(wǎng)絡(GAN),例如StyleGAN[22]、StarGAN?v2[23]和基于自動編碼器的方法生成的偽造圖像,以及使用其他圖像編輯軟件(如Photoshop)進行的手工篡改圖像。具體數(shù)據(jù)集的構(gòu)成和圖像數(shù)量參考HIFI?IFDL[13]論文介紹。為了評估模型性能,使用了5個主流的篡改檢測數(shù)據(jù)集進行測試,分別為:CASIA[24]、Columbia[25]、COVERAGE[26]以及NIST16[27]和IMD2020[28]。
評估指標使用了像素級曲線下面積(Area Under ROC Curve, AUC)、[F1]分數(shù)([F1]?score)。
[F1]分數(shù)的計算方式如式(7)所示:
[F1=2×TP2×TP+FN+FP] (7)
式中:TP表示模型預測正確的篡改像素點數(shù)目;FP表示模型預測錯誤的篡改像素點數(shù)目;FN表示模型預測錯誤的載體像素點數(shù)目。
2.2" 實驗設置
本文的實驗環(huán)境為:Python=3.7.16,PyTorch=1.11.0,Torchvision=0.12.0。使用的顯卡為RTX 4090,采用Adam優(yōu)化器降低網(wǎng)絡損失,并加入學習率衰減使后期迭代不再需要手動調(diào)整,初始化學習率為0.000 1,一共訓練了150個迭代次數(shù)(epoch)、批次大?。╞atchsize)為16。
2.3" 實驗結(jié)果
篡改定位比二進制檢測更具挑戰(zhàn)性,因為它需要模型捕獲更精細的篡改特征。沿用SPAN和PSCCNet的模型評估實驗,將本文模型與其他最先進的篡改定位方法在兩種設置下進行比較。
1) 經(jīng)hifi?ifdl進行訓練后,在完整測試數(shù)據(jù)集上評估。
2) 在NIST16、Coverage和CASIA上微調(diào)預訓練模型,再對其評估。
2.3.1" 圖像篡改定位性能對比
1) 預訓練模型評估
將多分支HRNet模型與MantraNet、SPAN和PSCCNet、Objectformer、HIFINet進行了比較,結(jié)果見表1。在表1中報告了AUC分數(shù),可以觀察到Objectformer在多數(shù)數(shù)據(jù)集上取得了最佳的定位性能。特別地,多分支HRNet模型在真實數(shù)據(jù)集IMD2020上達到了84.5%,比HIFINet提高了1.1%。這表明本文方法具有優(yōu)越的捕獲篡改特征的能力,并且可以很好地推廣到高質(zhì)量的篡改圖像數(shù)據(jù)集。在Columbia數(shù)據(jù)集上,超SPAN 3.7%、Objectformer 1.8%,但低于PSCCNet 0.9%、HIFINet 1.1%,認為原因可能是他們的訓練數(shù)據(jù)與Columbia的分布非常相似。
2) 微調(diào)模型評估
為了微調(diào)多分支HRNet,遵循了與文獻[19?20,22]相同的設置進行公平比較。在NIST16、Coverage和CASIA上微調(diào)預訓練模型,微調(diào)后的模型性能對比如表2所示。本文方法在平均AUC和[F1]上取得最佳性能。具體來說,僅在NIST16上稍顯落后。
2.3.2" 圖像篡改檢測性能對比
各模型篡改檢測的性能如表3所示。
結(jié)果表明,本文模型取得了比HIFINet更好的性能,AUC為99.5%,[F1]為97.8%,這證明了本文方法捕捉偽造痕跡的有效性。
2.4" 可視化
圖3為多分支HRNet模型與SPAN以及HIFINet預測圖像可視化對比結(jié)果。在可視化時,三個網(wǎng)絡都是以0.5為閾值,超過0.5則認為該像素被篡改,否則認為該像素未被篡改。
如圖3所示,多分支HRNet模型相比于SPAN及HIFINet在定位篡改區(qū)域上表現(xiàn)得更加準確。這說明了多分支HRNet模型相較于其他模型具有更好的檢測及定位性能。
2.5" 消融實驗
本節(jié)進行消融實驗探究多分支HRNet模型中關(guān)鍵組件對篡改檢測與定位性能的影響。表4呈現(xiàn)了在CASIA數(shù)據(jù)集上進行篡改定位任務時,不同模塊和策略添加或移除后模型性能的變化。
首先關(guān)注紋理增強模塊對性能的提升?;鶞誓P鸵爰y理增強模塊后,AUC和[F1]值分別提升0.7%和0.3%,證實了其提取異常篡改特征的重要性。
接下來考察Spatial及Cross Resolution Weighting策略加入的影響。實驗顯示,AUC從基準的86.6%降至83.5%,[F1]值反而從58.7%增至61.2%,猜測可能的原因是過度聚焦于特定區(qū)域或過度依賴偽造痕跡,忽略了全局語義。
但當它們與紋理增強模塊共同使用時,AUC和[F1]值分別從87.3%和59.0%提升至89.0%和61.9%。這一明顯改善印證了紋理增強模塊與這兩種權(quán)重策略之間存在協(xié)同效應,這意味著Spatial Weighting和Cross Resolution Weighting策略在確保對關(guān)鍵特征有效突出的同時,又與紋理增強模塊互補,共同促進了對篡改區(qū)域的識別和定位精度。
表5呈現(xiàn)了在CASIA數(shù)據(jù)集上進行篡改檢測任務時,隨著W_Arcloss的加入帶來的性能變化情況。
當單獨加入W_Arcloss時,模型在CASIA數(shù)據(jù)集上的篡改檢測性能指標[F1]提高了0.4%,盡管提升幅度相對較小,但也證實了W_Arcloss在優(yōu)化模型對篡改區(qū)域與正常區(qū)域之間差異的區(qū)分能力方面起到了積極的作用。
3" 結(jié)" 論
在當今信息時代,圖像內(nèi)容安全成為重要議題,圖像篡改檢測成為維護內(nèi)容真實性的關(guān)鍵手段。然而,過去工作常忽視現(xiàn)實中無法預知圖像的具體篡改方式這一困難。
因此,本文提出了多分支HRNet圖像篡改檢測模型,能夠?qū)Χ喾N篡改方式進行檢測。該模型集成了紋理增強模塊DuaTex_Extractor,能更好地挖掘圖像中細微的篡改特征。HRWFuse?Net中的Weighting策略優(yōu)化了特征融合,使模型能更精確地定位篡改區(qū)域。本文還引入了W_Arcloss損失函數(shù),通過基于樣本難度和類別特異性的動態(tài)權(quán)重,顯著提高了模型區(qū)分真實與篡改區(qū)域的能力。
實驗結(jié)果表明,與現(xiàn)有基線模型相比,本文模型檢測準確度平均提升了6.5%和0.8%,并通過消融實驗證明了每個模塊的必要性和貢獻度。未來工作將圍繞輕量化網(wǎng)絡設計和更高效的特征提取融合策略,使模型能在資源受限環(huán)境中保持高性能。
注:本文通訊作者為譚平。
參考文獻
[1] 廖汨,劉暢.廣西柳州一男子P圖篡改核酸檢測結(jié)果被查[EB/OL].[2022?02?12]. https://www.chinanews.com.cn/sh/2022/02?12/9674485.shtml.
[2] 黃成.南京祿口機場要求成都旅客“原路返回”?機場回應:謠言![EB/OL].[2020?12?12]. https://m.news.cctv.com/2020/12/12/ARTIu2yVmUDoFiCpmRumHhaG201212.shtml.
[3] 趙鴻圖,周秋豪.基于改進顯著圖和局部特征匹配的copy?move竄改檢測[J].計算機應用研究,2023,40(9):2838?2844.
[4] HUH M, LIU A, OWENS A, et al. Fighting fake news: Image splice detection via learned self?consistency [C]// Proceedings of European Conference on Computer Vision. Heidelberg: Springer, 2018: 106?124.
[5] ZHU X S, QIAN Y J, ZHAO X F, et al. A deep learning approach to patch?based image inpainting forensics [J]. Signal processing: Image communication, 2018, 67: 90?99.
[6] TOLOSANA R, VERA?RODRIGUEZ R, FIERREZ J, et al. Deepfakes and beyond: A survey of face manipulation and fake detection [J]. Information fusion, 2020, 64: 131?148.
[7] DANG H, LIU F, STEHOUWER J, et al. On the detection of digital face manipulation [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 5780?5789.
[8] GOODFELLOW I J, POUGET?ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. [S.l.: s.n.], 2014: 2672?2680.
[9] WU Y, ABDALMAGEED W, NATARAJAN P. ManTra?Net: Manipulation tracing network for detection and localization of image forgeries with anomalous features [C]// Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 9543?9552.
[10] HU X F, ZHANG Z H, JIANG Z Y, et al. SPAN: Spatial pyramid attention network for image manipulation localization [C]// Proceedings of 16th European Conference on Computer Vision. [S.l.: s.n.], 2020: 312?328.
[11] LIU X H, LIU Y J, CHEN J, et al. PSCC?Net: Progressive spatio?channel correlation network for image manipulation detection and localization [J]. IEEE transactions on circuits and systems for video technology (TCSVT), 2022, 32(11): 7505?7517.
[12] WANG J K, WU Z X, CHEN J J, et al. ObjectFormer for image manipulation detection and localization [EB/OL]. [2022?03?29]. https://arxiv.org/abs/2203.14681.
[13] GUO X, LIU X H, REN Z Y, et al. Hierarchical fine?grained image forgery detection and localization [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2023: 3155?3165.
[14] SUN K, XIAO B, LIU D, et al. Deep high?resolution representation learning for human pose estimation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 5693?5703.
[15] MASI I, KILLEKAR A, MASCARENHAS R M, et al. Two?branch recurrent network for isolating deepfakes in videos [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2020: 667?684.
[16] BURT P J, ADELSON E H. The Laplacian pyramid as a compact image code [J]. IEEE transactions on communications, 1983, 31(4): 532?540.
[17] WANG X L, GIRSHICK R B, GUPTA A, et al. Non?local neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2018: 7794?7803.
[18] ZHANG H, GOODFELLOW I J, METAXAS D N, et al. Self?attention generative adversarial networks [C]// Proceedings of the International Conference on Machine Learning (ICML). New York: PMLR, 2019: 7354?7363.
[19] RUFF L, GORNITZ N, DEECKE L, et al. Deep one?class classification [C]// Proceedings of the International Conference on Machine Learning (ICML). New York: PMLR, 2018: 4390?4399.
[20] LIU G L, REDA F A, SHIH K J, et al. Image inpainting for irregular holes using partial convolutions [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 89?105.
[21] DENG J K, GUO J, XUE N N, et al. ArcFace: Additive angular margin loss for deep face recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 4690?4699.
[22] TERO K, SAMULI L, TIMO A. A style?based generator architecture for generative adversarial networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 4217?4228.
[23] CHOI Y, UH Y, YOO J, et al. StarGAN v2: Diverse image synthesis for multiple domains [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 8185?8194.
[24] DONG J, WANG W, TAN T N. CASIA image tampering detection evaluation database [C]// 2013 IEEE China Summit and International Conference on Signal and Information Processing. New York: IEEE, 2013: 422?426.
[25] NG T T, HSU J, CHANG S F. Columbia image splicing detection evaluation dataset [EB/OL]. [2007?02?14]. https://www.ee.columbia.edu/ln/dvmm/downloads/AuthSplicedDataSet/detailed.htm.
[26] WEN B H, ZHU Y, SUBRAMANIAN R, et al. COVERAGE: A novel database for copy?move forgery detection [C]// 2016 IEEE International Conference on Image Processing. New York: IEEE, 2016: 161?165.
[27] NIST. Nist nimble 2016 datasets [EB/OL]. [2016?05?28]. https://www.nist.gov/sites/default/files/documents/2016/11/30/should i believe or not.pdf.
[28] NOVOZAMSKY A, MAHDIAN B, SAIC S. IMD2020: A large?scale annotated dataset tailored for detecting manipulated images [C]// IEEE Winter Applications of Computer Vision Workshops. New York: IEEE, 2020: 71?80.