陳俊韜,朱子奇
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430081)
隨著數(shù)字時(shí)代的發(fā)展,大量含有篡改圖像的虛假新聞在網(wǎng)絡(luò)上傳播。在案件分析、法庭取證等重要領(lǐng)域,數(shù)字圖像常常作為重要的物證,而圖像偽造技術(shù)會(huì)混淆事實(shí),給社會(huì)帶來(lái)巨大危害。
復(fù)制-粘貼偽造是一種常見的圖像偽造技術(shù)[1]。在復(fù)制-粘貼偽造中,圖像的一部分區(qū)域(源區(qū)域)被復(fù)制粘貼到同一張圖像的其他區(qū)域(目標(biāo)區(qū)域),以隱藏部分內(nèi)容或增加部分內(nèi)容,這改變了圖像原本的語(yǔ)義信息[2]。為了讓偽造圖像更逼真,通常會(huì)對(duì)被篡改的圖像內(nèi)容執(zhí)行一些幾何學(xué)變換(如旋轉(zhuǎn)、縮放、變形等)和后處理操作(如圖像模糊、噪聲添加、JPEG 壓縮等)。復(fù)制-粘貼偽造檢測(cè)(Copy-Move Forgery Detection,CMFD)就是分析一張圖像是否經(jīng)過(guò)復(fù)制粘貼偽造,輸出二進(jìn)制掩碼,其中,黑色部分表示背景(未篡改區(qū)域);白色部分表示源-目標(biāo)區(qū)域。
早期的CMFD 研究可以追溯到20 世紀(jì)初,主要集中在傳統(tǒng)的機(jī)器學(xué)習(xí)方法[3]。傳統(tǒng)的CMFD 方法[4]主要分為兩類:基于塊的方法和基于關(guān)鍵點(diǎn)的方法?;趬K的技術(shù)將輸入圖像分割為固定大小的重疊/不重疊的塊,再進(jìn)行特征提取,最后匹配塊特征,目前已有許多提取塊特征的方法,如離散余弦變換[5]、主成分分析[6]、奇異值分解[7]、梯度直方圖[8]、局部二進(jìn)制模式[9]、zernike 矩[10]等;但這些方法計(jì)算代價(jià)高昂。基于關(guān)鍵點(diǎn)的技術(shù)提取具有魯棒性的關(guān)鍵點(diǎn)特征,并通過(guò)相似性匹配來(lái)定位被篡改的區(qū)域,尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[11]和加速穩(wěn)健特征(Speeded Up Robust Features,SURF)[12-13]是其中最流行的CMFD 方法;但是當(dāng)源-目標(biāo)區(qū)域光滑時(shí)(如天空),這些方法經(jīng)常檢測(cè)失敗。Meena 等[14]提出了結(jié)合基于塊和關(guān)鍵點(diǎn)的方法,利用兩者互補(bǔ)的特點(diǎn),取得了良好的效果。傳統(tǒng)方法基于先驗(yàn)知識(shí)手工提取的特征通常只在特定數(shù)據(jù)集上表現(xiàn)良好,泛化能力卻不足。
近十年,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了大量成果,因此,一些研究者試圖用深度學(xué)習(xí)處理CMFD[15]。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法使用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取圖像特征,替代了手工提取特征,模型的表現(xiàn)效果往往更好,而且具有良好的泛化能力。由于CMFD 領(lǐng)域公開的數(shù)據(jù)集只有幾百到幾千張圖像,而深度學(xué)習(xí)方法常常需要大量的數(shù)據(jù)驅(qū)動(dòng),Ouyang 等[16]使用遷移學(xué)習(xí),把AlexNet 在ImageNet 數(shù)據(jù)集上的預(yù)訓(xùn)練模型放到少量的CMFD 數(shù)據(jù)集上作微調(diào),最后輸出二分類結(jié)果(真/偽),該方法在簡(jiǎn)單的復(fù)制-粘貼偽造圖像上表現(xiàn)良好,但是無(wú)法像素級(jí)地定位篡改區(qū)域。Wu 等[17]最先提出了像素級(jí)的端到端深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。由于區(qū)分偽造圖像中的源-目標(biāo)區(qū)域也十分重要,隨后他又開創(chuàng)性地提出了BusterNet[18],該網(wǎng)絡(luò)并行組合兩個(gè)子網(wǎng)絡(luò):Simi-Det 用于檢測(cè)相似區(qū)域;Mani-Det 用于檢測(cè)篡改區(qū)域。BusterNet 最先做到了區(qū)分源-目標(biāo)區(qū)域,但是需要兩個(gè)分支的輸出結(jié)果都正確才能保證最終的結(jié)果可靠;而且,BusterNet 的相似性檢測(cè)網(wǎng)絡(luò)在特征提取時(shí)只使用了單一尺度的特征,無(wú)法有效檢測(cè)出經(jīng)過(guò)縮放的篡改區(qū)域,因此性能有限。Chen 等[19]改進(jìn)了BusterNet,提出串行組合兩個(gè)子網(wǎng)絡(luò)的方法,將前一個(gè)網(wǎng)絡(luò)的輸出作為后一個(gè)網(wǎng)絡(luò)的輸入,子網(wǎng)絡(luò)CMSDNet(Copy-Move Similarity Detection Network)負(fù)責(zé)檢測(cè)圖像中的相似區(qū)域,STRDNet(Source Target Region Distinguishment Network)負(fù)責(zé)對(duì)CMSDNet 輸出的相似區(qū)域中的源-目標(biāo)區(qū)域進(jìn)行區(qū)分。CMSDNet 中使用空洞卷積提取多尺度特征,并使用雙重自相關(guān)匹配以有效利用多層次的特征,使CMFD 性能得到了明顯提升。
在CMFD 中,圖像中的篡改區(qū)域通常比未篡改區(qū)域小很多,以上深度學(xué)習(xí)方法在訓(xùn)練過(guò)程中使用交叉熵?fù)p失函數(shù),該損失函數(shù)逐像素地計(jì)算篡改區(qū)域與背景,模型在訓(xùn)練過(guò)程中會(huì)學(xué)到更多的背景特征,導(dǎo)致輸出的預(yù)測(cè)結(jié)果偏向于把篡改區(qū)域標(biāo)記為背景,進(jìn)而拉低了評(píng)估指標(biāo)。同時(shí),這些模型采用沙漏結(jié)構(gòu),在編碼過(guò)程下采樣丟失的空間信息在解碼過(guò)程的上采樣后無(wú)法恢復(fù),這些模型沒(méi)有利用編碼特征以在解碼過(guò)程中彌補(bǔ)丟失的信息,導(dǎo)致圖像中被篡改的小目標(biāo)的空間信息丟失,從而對(duì)小目標(biāo)的邊界識(shí)別不精確,影響了輸出結(jié)果的可視化效果。
本文針對(duì)相似性檢測(cè)問(wèn)題,進(jìn)一步改進(jìn)了檢測(cè)模型的性能。首先,在特征提取模塊的第4 個(gè)卷積塊中,并行設(shè)置3 個(gè)不同空洞率的空洞卷積層,進(jìn)行多尺度的特征提取,再分別進(jìn)行自相關(guān)特征匹配,最后融合這些分支的特征,這樣可以有效地檢測(cè)到不同大小的篡改目標(biāo);其次,在特征提取模塊與解碼模塊之間添加跳躍連接,彌補(bǔ)編碼特征與解碼特征之間的差異;最后,使用Log-Cosh Dice Loss 函數(shù)替代交叉熵?fù)p失函數(shù),解決CMFD 中存在的類別不平衡問(wèn)題。
在CMFD 中,基于深度學(xué)習(xí)的方法通??梢苑譃? 個(gè)組成部分:特征提取、自相關(guān)匹配以及掩碼解碼。BusterNet 中的相似性檢測(cè)子網(wǎng)絡(luò)Simi-Det 的特征提取模塊由VGG16[20]的前4 個(gè)卷積塊組成。自相關(guān)匹配模塊使用前面提取的特征矩陣與自身的轉(zhuǎn)置做乘法,逐像素計(jì)算相似性。在掩碼解碼過(guò)程中使用Inception[21]與上采樣層逐漸恢復(fù)圖像的尺寸,最后使用Sigmoid 激活函數(shù)輸出二進(jìn)制掩碼。
CMSDNet[19]用于檢測(cè)圖像中的相似區(qū)域,定位出復(fù)制粘貼偽造圖像中的源-目標(biāo)區(qū)域。該網(wǎng)絡(luò)的特征提取模塊的前3 個(gè)卷積塊與VGG16 對(duì)應(yīng)的部分相同,第4 個(gè)卷積塊使用3個(gè)串行的空洞卷積以增加過(guò)濾器的感受野[22],并去掉了池化層以提高分辨率。自相關(guān)匹配模塊使用特征提取模塊中第3 個(gè)和第4 個(gè)卷積塊的輸出特征,分別先經(jīng)過(guò)通道注意力增強(qiáng)重要特征,再進(jìn)行特征自匹配來(lái)識(shí)別相似的特征,最后把兩個(gè)分支的特征圖融合,這種雙重自相關(guān)操作可以匹配到多層次的特征。在掩碼解碼模塊,先用空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)獲取多尺度的特征,再通過(guò)帶有空間注意力的卷積層和上采樣層逐漸恢復(fù)特征圖的分辨率,最后使用Softmax 激活函數(shù)輸出二進(jìn)制掩碼。
CMFD 也可以看作是圖像分割任務(wù),目標(biāo)是逐像素地分類圖像中的篡改部分與非篡改部分。U-Net[23]在醫(yī)學(xué)圖像分割領(lǐng)域應(yīng)用廣泛,它巧妙地使用跳躍連接,將編碼器下采樣前的特征與對(duì)應(yīng)的解碼器特征融合,消除編碼器中下采樣操作導(dǎo)致的編碼特征與解碼特征之間的差異,從而更精準(zhǔn)地分割醫(yī)學(xué)圖像中的病灶。
基于以上研究,本文在特征提取模塊中把第4 個(gè)卷積塊中的空洞卷積層并行組合,使用了多尺度特征提取、多重自匹配,用特征融合的方法檢測(cè)圖像中不同尺寸的篡改目標(biāo)。利用跳躍連接把不同分辨率的編碼特征傳遞給解碼器,幫助解碼器更精準(zhǔn)地定位篡改區(qū)域。
由于現(xiàn)有方法存在引言中所描述的不足,本文繼續(xù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,提出的相似性檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,記為SimiNet。
圖1 SimiNet結(jié)構(gòu)Fig.1 Structure of SimiNet
本文提出的SimiNet 可以分為3 個(gè)模塊:特征提取模塊、自相關(guān)模塊以及解碼模塊。
在特征提取模塊中,編碼器使用VGG16 的前3 個(gè)卷積塊。由于復(fù)制粘貼偽造圖像時(shí)常常會(huì)對(duì)篡改區(qū)域進(jìn)行縮放操作,利用多尺度特征可以有效識(shí)別出CMFD 中被縮放的篡改區(qū)域。因此,在編碼器后面加入空洞卷積,并把這3 個(gè)空洞卷積并行組合,擴(kuò)大過(guò)濾器的感受野,獲取更多不同尺度的信息,還可以讓后續(xù)的自相關(guān)模塊同時(shí)進(jìn)行三重自匹配。
在自相關(guān)模塊中,SimiNet 很自然地直接使用特征提取模塊中3 個(gè)并行組合的空洞卷積的輸出特征進(jìn)行三重自相關(guān)匹配,因此可以匹配到更多尺度上的特征并共享信息。在自相關(guān)操作前,特征圖先經(jīng)過(guò)通道注意力(Channel Attention,CA)處理,以關(guān)注通道上的重要信息。具體地,特征提取模塊輸出的3 個(gè)特征圖大小為32×32×512,可以看作32×32 個(gè)塊特征,每個(gè)塊特征 512 維,即F={F[i,j]|i,j∈{ 0,1,…,31} }。自相關(guān)匹配會(huì)計(jì)算特征圖中每個(gè)塊之間的相似性,使用皮爾遜相關(guān)系數(shù)ρ來(lái)量化特征之間的相似性,計(jì)算公式如下:
最后,自相關(guān)模塊輸出形狀為32×32×1 024 的張量S;接著把得到的張量S中各維度的相似性分?jǐn)?shù)按從高到低排序;再通過(guò)百分比池化操作過(guò)濾掉其中不相關(guān)的信息,該操作同時(shí)也降低了特征的維度。執(zhí)行百分比池化操作前,特征的總維度是1 024,百分比池化操作后保留其中的128 個(gè)維度的特征。最后把三重自相關(guān)匹配的輸出結(jié)果進(jìn)行融合操作。
在解碼模塊中,由于復(fù)制-粘貼的區(qū)域可能經(jīng)過(guò)縮放,先使用空洞空間金字塔池化(ASPP)提取多尺度特征。接著使用多個(gè)Inception 變體進(jìn)行多尺度的特征提取和融合,每個(gè)Inception 后接一個(gè)上采樣操作以逐漸恢復(fù)圖像的尺寸。由于特征提取模塊中的下采樣操作以及解碼模塊中的上采樣操作,使編碼特征與解碼特征之間存在差異。網(wǎng)絡(luò)淺層的低級(jí)別特征中包含更多的偽造痕跡,而深層的高級(jí)別特征中包含更多的語(yǔ)義信息,在CMFD 中含有鑒別偽造痕跡的特征往往比語(yǔ)義特征更重要。為了彌補(bǔ)這些差異,本文把特征提取模塊中第2、3 個(gè)卷積塊的輸出特征經(jīng)過(guò)跳躍連接操作后與對(duì)應(yīng)的解碼特征融合,幫助解碼器更精準(zhǔn)地定位篡改區(qū)域:
其中:concat 是融合操作;conv3×3是核大小為3×3 的卷積操作,conv1×1是核大小為1×1 的卷積操作;Fe、Fd分別表示編碼特征與解碼特征。在初步實(shí)驗(yàn)中發(fā)現(xiàn),在特征提取模塊的第1 個(gè)卷積塊后添加跳躍連接會(huì)損害復(fù)制粘貼偽造檢測(cè)的精度,因此,在第1 個(gè)卷積塊后不添加跳躍連接。最后通過(guò)一個(gè)標(biāo)準(zhǔn)卷積層與Softmax 激活函數(shù),輸出二進(jìn)制掩碼。
在CMFD 中,篡改區(qū)域通常比背景面積小很多,這種現(xiàn)象被稱為類別不平衡。當(dāng)前CMFD 方法中常用的交叉熵?fù)p失函數(shù)逐像素計(jì)算篡改區(qū)域與背景,模型在訓(xùn)練過(guò)程中會(huì)學(xué)到更多的背景特征,導(dǎo)致輸出的預(yù)測(cè)結(jié)果偏向于把篡改區(qū)域標(biāo)記為背景。因此,交叉熵?fù)p失函數(shù)不是一種良好的應(yīng)對(duì)類別不平衡問(wèn)題的方法,而一個(gè)合適的損失函數(shù)對(duì)于深度學(xué)習(xí)至關(guān)重要,此處要求選擇的損失函數(shù)在監(jiān)督模型訓(xùn)練時(shí)忽略大量的背景像素,重點(diǎn)關(guān)注篡改區(qū)域。
CMFD 任務(wù)中常用的評(píng)估指標(biāo)為F1 分?jǐn)?shù),它在計(jì)算中忽略了大量的背景像素,因此,適用于類別不平衡問(wèn)題。Dice系數(shù)的計(jì)算方式等價(jià)于F1 分?jǐn)?shù)。因此,理論上來(lái)說(shuō)使用由Dice 系數(shù)生成的Dice Loss 作為損失函數(shù),訓(xùn)練得到的模型表現(xiàn)更好。但是Dice Loss 是非凸函數(shù),它會(huì)給訓(xùn)練過(guò)程帶來(lái)不穩(wěn)定性與不確定性,從而導(dǎo)致訓(xùn)練損失無(wú)法收斂或者得到的只是局部最優(yōu)解,而不是全局最優(yōu)解。本文使用Log-Cosh Dice Loss[24]作為損失函數(shù),Log-Cosh 方法被廣泛應(yīng)用于基于回歸問(wèn)題的曲線平滑,可以表示為:
其中,L′(x)為L(zhǎng)(x)的導(dǎo)數(shù)。由于tanhx的值域?yàn)閇-1,1],L(x)的一階導(dǎo)數(shù)連續(xù)且有界,因此,Log-Cosh 方法可以修復(fù)Dice Loss 的非凸特性。假設(shè)模型輸出的二進(jìn)制掩碼為p,真實(shí)的掩碼為y,損失函數(shù)計(jì)算公式如式(6)~(7)所示,SimiNet 的目標(biāo)是最小化損失Llc-dce。
CMFD 領(lǐng)域公開的數(shù)據(jù)集通常只有幾百到幾千張圖像。Wu 等[18]創(chuàng)建了一個(gè)包含105張圖像的合成數(shù)據(jù)集USCISI,以8∶1∶1 的方式劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。將本文的SimiNet 在USCISI 訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上挑選超參數(shù),最后在測(cè)試集上驗(yàn)證效果。同時(shí),為了測(cè)試SimiNet 的泛化能力,在兩個(gè)公開數(shù)據(jù)集CASIA v2.0[25]與CoMoFoD[26]上驗(yàn)證模型的表現(xiàn)。這3 個(gè)數(shù)據(jù)集的詳細(xì)信息如表1 所示。CASIA 數(shù)據(jù)集是Wu 等[18]從CASIA v2.0 中手動(dòng)挑選的1 313張復(fù)制粘貼偽造圖像,并生成了對(duì)應(yīng)的真實(shí)掩碼,沒(méi)有使用該數(shù)據(jù)集全部的復(fù)制粘貼偽造圖像。
表1 數(shù)據(jù)集信息Tab.1 Information of datasets
本文使用像素級(jí)的F1 分?jǐn)?shù)作為評(píng)估CMFD 表現(xiàn)的指標(biāo)。評(píng)價(jià)方法與BusterNet[18]中的方案B 相同,即先計(jì)算每張圖像的F1 分?jǐn)?shù),然后在整個(gè)測(cè)試集上取平均值。對(duì)于一張測(cè)試圖像,在像素級(jí)上計(jì)算TP(True Positive)、FP(False Positive)、FN(False Negative)。其中,TP表示正確識(shí)別出的被篡改的像素;FP表示錯(cuò)誤標(biāo)記為被篡改的像素(誤報(bào));FN表示錯(cuò)誤標(biāo)記為未篡改的像素(漏報(bào))。分別按如下公式計(jì)算準(zhǔn)確率P和召回率R:
用式(9)計(jì)算像素級(jí)的F1 分?jǐn)?shù);F1 分?jǐn)?shù)越大,檢測(cè)效果越好。
SimiNet 的全部代碼都是使用keras 框架實(shí)現(xiàn)。訓(xùn)練時(shí)使用Nadam 優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,批大小為16。當(dāng)驗(yàn)證損失連續(xù)10 輪不下降,將學(xué)習(xí)率調(diào)整為10-4并繼續(xù)訓(xùn)練,當(dāng)驗(yàn)證損失再次經(jīng)歷10 輪不下降就停止訓(xùn)練,選擇其中表現(xiàn)最好的一組權(quán)重。本文不對(duì)模型輸出的二進(jìn)制掩碼執(zhí)行任何的后處理操作。
3.4.1 消融實(shí)驗(yàn)
本文通過(guò)消融實(shí)驗(yàn)驗(yàn)證SimiNet 是否有益于CMFD,實(shí)驗(yàn)結(jié)果如表2 所示,其中:base 表示基礎(chǔ)模型(特征提取模塊中串行排列3 個(gè)空洞卷積,并且不使用跳躍連接);skip 表示添加了跳躍連接;multi-channel 表示使用并行的空洞卷積并進(jìn)行多重自相關(guān)匹配??梢钥闯?,相較于模型1,添加跳躍連接后的模型2 的F1 分?jǐn)?shù)提升了4.19 個(gè)百分點(diǎn),驗(yàn)證了跳躍連接的有效性,它彌補(bǔ)了編碼特征與解碼特征之間的差異,因此能更精確地定位篡改區(qū)域的邊界。把base 中串行排列的空洞卷積改為并行,并且進(jìn)行多重自相關(guān)匹配后,模型3的性能大幅提高,F(xiàn)1 分?jǐn)?shù)相較于模型1 提升了9.54 個(gè)百分點(diǎn),驗(yàn)證了多尺度特征提取與融合對(duì)CMFD 的重要性,這是因?yàn)閺?fù)制粘貼偽造圖像中的篡改區(qū)域通常都經(jīng)過(guò)縮放,利用多尺度的特征可以有效識(shí)別出這些篡改痕跡。在此基礎(chǔ)上繼續(xù)添加跳躍連接,相較于模型3,模型4 的F1 分?jǐn)?shù)又提升了1.16 個(gè)百分點(diǎn)。綜上,與基礎(chǔ)模型相比,模型4(即SimiNet)的F1 提高了10.7 個(gè)百分點(diǎn),后續(xù)的實(shí)驗(yàn)都使用表現(xiàn)最好的這一組模型。以上結(jié)果驗(yàn)證了多尺度特征提取與融合以及跳躍連接的有效性。
表2 SimiNet在USCISI數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.2 Ablation experimental results of SimiNet on USCISI dataset
3.4.2 Log-Cosh Dice Loss與交叉熵?fù)p失對(duì)比
交叉熵?fù)p失逐像素計(jì)算篡改區(qū)域與背景,在CMFD 中類別不平衡的情況下,使用交叉熵?fù)p失會(huì)偏向于把偽造區(qū)域識(shí)別為背景,導(dǎo)致F1 分?jǐn)?shù)偏低。Dice 損失在圖像分割中十分常用,對(duì)于輕微的數(shù)據(jù)不平衡問(wèn)題有一定的幫助[24]。本文使用Log-Cosh Dice Loss 替代交叉熵?fù)p失,對(duì)BusterNet 的相似性檢測(cè)子網(wǎng)絡(luò)(簡(jiǎn)寫為BusterNet-simi)、CMSDNet 以及本文的SimiNet 這3 個(gè)模型進(jìn)行對(duì)比實(shí)驗(yàn),并對(duì)比了分別使用Log-Cosh Dice Loss 與交叉熵?fù)p失進(jìn)行訓(xùn)練的表現(xiàn)差異,結(jié)果見表3??梢钥闯?,使用Log-Cosh Dice Loss 作為損失函數(shù)的實(shí)驗(yàn)組都表現(xiàn)得比使用交叉熵的對(duì)照組好,F(xiàn)1 分?jǐn)?shù)分別提高了3.56、2.08 和2.14 個(gè)百分點(diǎn)。而且,同樣使用Log-Cosh Dice Loss 作為損失函數(shù),SimiNet 的F1 比CMSDNet 提高了1.31 個(gè)百分點(diǎn),再次驗(yàn)證了本文方法的有效性。
表3 在USCISI數(shù)據(jù)集上3個(gè)模型使用不同損失函數(shù)的F1 單位:%Tab.3 F1 scores of three models with different loss functions on USCISI dataset unit:%
3.4.3 在USCISI數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比
為了驗(yàn)證本文SimiNet 的有效性,將兩種傳統(tǒng)方法與兩種基于深度學(xué)習(xí)(deep learning)的方法作為對(duì)比基線。傳統(tǒng)方法中,本文選擇了文獻(xiàn)[27]中的基于塊(block-based)的方法與文獻(xiàn)[28]中的基于關(guān)鍵點(diǎn)(key point-based)的方法;兩種深度學(xué)習(xí)方法分別是BusterNet-simi[18]與CMSDNet[19],實(shí)驗(yàn)結(jié)果如表4 所示??梢钥闯?,深度學(xué)習(xí)方法比傳統(tǒng)方法表現(xiàn)更好。SimiNet 表現(xiàn)最佳,F(xiàn)1 分?jǐn)?shù)達(dá)到了72.54%,比次優(yōu)的CMSDNet 方法提高了3.39 個(gè)百分點(diǎn),因?yàn)镾imiNet 使用了多尺度特征提取和融合,進(jìn)行了三重自相關(guān)匹配,還引入了跳躍連接以及Log-Cosh Dice Loss。同時(shí),SimiNet 的參數(shù)量比CMSDNet 更小,說(shuō)明了SimiNet 的性能提升不是因?yàn)槟P透鼜?fù)雜引起的,而是由于模型的結(jié)構(gòu)更適用于CMFD。在時(shí)間復(fù)雜度方面,SimiNet 的運(yùn)算量也比CMSDNet 更少,表明SimiNet 的運(yùn)行效率更高。綜上,SimiNet 的性能從整體上超越了CMSDNet 方法。
表4 不同類別方法在USCISI數(shù)據(jù)集上的檢測(cè)表現(xiàn)對(duì)比Tab.4 Comparison of detection performance of different types of methods on USCISI dataset
3.4.4 在CASIA與CoMoFoD數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比
為了測(cè)試模型的泛化能力,本文在兩個(gè)公開數(shù)據(jù)集(CASIA 與CoMoFoD)上進(jìn)行實(shí)驗(yàn)。CASIA 數(shù)據(jù)集中包含的部分圖像把目標(biāo)區(qū)域復(fù)制粘貼到具有相似背景的其他位置,導(dǎo)致圖像的偽造檢測(cè)難度更大。觀察表5 可以看出,SimiNet在兩個(gè)數(shù)據(jù)集上都取得了最好的結(jié)果,雖然與次優(yōu)的CMSDNet 方法表現(xiàn)接近,但是SimiNet 的參數(shù)量與運(yùn)算量都比CMSDNet 小,模型更輕量化。與CMSDNet 相比,SimiNet 的優(yōu)勢(shì)在于能更精確地定位被篡改的小目標(biāo)的邊界。從表5中還可以發(fā)現(xiàn),深度學(xué)習(xí)方法整體上比傳統(tǒng)方法表現(xiàn)更好,這兩個(gè)傳統(tǒng)方法在CASIA 數(shù)據(jù)集上表現(xiàn)不理想,但是在CoMoFoD 數(shù)據(jù)集上的檢測(cè)結(jié)果與深度學(xué)習(xí)方法差距不大。
表5 在CASIA與CoMoFoD數(shù)據(jù)集上的F1對(duì)比 單位:%Tab.5 Comparison of F1 on CASIA and CoMoFoD datasets unit:%
CoMoFoD 數(shù)據(jù)集中應(yīng)用亮度改變、對(duì)比度調(diào)整、顏色降低、圖像模糊、JPEG 壓縮與高斯噪聲添加等后處理操作,可以用來(lái)測(cè)試模型對(duì)抗攻擊的能力。實(shí)驗(yàn)結(jié)果如圖2 所示,可以看出,SimiNet 總體表現(xiàn)良好,具有一定的抗攻擊性,但是對(duì)JPEG 壓縮比較敏感,特別是當(dāng)壓縮因子為20 或30 時(shí),壓縮程度太高,模型表現(xiàn)不佳。這可能是由于訓(xùn)練集中的圖像被壓縮的程度較低,模型沒(méi)有學(xué)習(xí)到抗JPEG 壓縮的特性。
圖2 在CoMoFoD(帶攻擊)數(shù)據(jù)集上的F1分?jǐn)?shù)Fig.2 F1 scores on CoMoFoD dataset under attacks
本文在圖3 中可視化展示了一些檢測(cè)結(jié)果的對(duì)比圖像,并標(biāo)出了對(duì)應(yīng)的F1 分?jǐn)?shù)。從圖3 可以看出,SimiNet 比其他方法定位的偽造區(qū)域更精確,對(duì)圖像篡改區(qū)域的邊界的識(shí)別效果更好,這主要是由于引入的跳躍連接彌補(bǔ)了編碼特征與解碼特征之間的差異。觀察圖3(b)中圖像5 可以發(fā)現(xiàn),SimiNet 可以精確檢測(cè)到圖中小人的兩條腿,預(yù)測(cè)的結(jié)果與真實(shí)的掩碼很相似,而其他兩個(gè)方法的輸出無(wú)法區(qū)分人的兩條腿。類似的結(jié)果還有圖3(a)中圖像3 中的天鵝與圖像4中的小狗,這驗(yàn)證了本文方法的有效性。同時(shí),F(xiàn)1 分?jǐn)?shù)高的預(yù)測(cè)結(jié)果在視覺上確實(shí)表現(xiàn)更佳,證明了該評(píng)估指標(biāo)的有效性。
圖3 相似性檢測(cè)的可視化比較與對(duì)應(yīng)的F1分?jǐn)?shù)Fig.3 Visual comparison of similarity detection and corresponding F1 scores
本文提出了一種基于多尺度特征提取與融合的方法SimiNet 用于圖像復(fù)制粘貼偽造檢測(cè)。使用多尺度特征提取與融合方式,可以有效檢測(cè)出復(fù)制粘貼偽造圖像中經(jīng)過(guò)縮放的篡改目標(biāo);添加跳躍連接可以幫助解碼器利用編碼器中高分辨率特征圖中的偽造痕跡來(lái)更精確定位篡改區(qū)域;Log-Cosh Dice Loss 可以有效應(yīng)對(duì)CMFD 中存在的類別不平衡問(wèn)題。在3 個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了SimiNet 比其他對(duì)比的CMFD 方法表現(xiàn)更好。
在CMFD 任務(wù)中,相似性檢測(cè)通常是區(qū)分源-目標(biāo)區(qū)域的先決條件,它的效果直接決定了后續(xù)區(qū)分源-目標(biāo)區(qū)域工作的可靠性。下一步計(jì)劃研究區(qū)分源-目標(biāo)區(qū)域的方法,這對(duì)于CMFD 也十分有意義。