中圖分類號:TP751文獻標志碼:A
A Model for Detection and Recognition of Tampered Ancient Text Images
LI Yongbo 1 , QIAN Yonggang 2 , LIU Qin 1 , MA Yuqi 1 , WU Sheng 1 , YU Xianping 1 , CHEN Shanxiong ?1,3 (1.Collge of Computer and Information Science,Southwest University,Chongqing 40O715,China;2. Information Center, ChongqigVocational CollgeofIntellgntEngineeing,Chongqing 40216O,China;3.KeyLaboratoryofEthnic Language Intellgent Analysisand SecurityGovernance,MinistryofEducation,Minzu UniversityofChina,Beijing1Ooo81,China)
Abstract:Toeffectively detectandrecognize tampered textinancientdocument images,atampering detectionand recognition model named MDAS-Net,which canbe used for the character images of ancient texts,was proposed.A fuse atention block was introduced inthe edge-supervised branch to enhance multi-scale feature extraction of imagecontent. Additionally,to improve feature integration between theedge-supervised branch and the noise-sensitive branch,acrossbranch feature transfer modulenamedE-2-N/N-2-EHelp Block wasdesigned,whichfacilitatedeffectiveinformation exchangeand yields higher-qualityfused features.To verifytheefectivenessofthemodel,adatasetofancient textimage tampering was created,and comparative experimentsandablation experimentswereconducted in combination with the Text in Tampered Images (TTI)dataset.The experimental results show that MDAS-Net achieves promising performance in tampered region detection,with an area under curve of receiver operating characteristic(AUC)of O.852 and an F1 (204 score of O.784,confirming its practical value in ancient text image tampering detection.
Keywords: image processing;feature fusion;detection of tampered image;ancient text image;deep learning
在文字圖像篡改檢測和識別任務中,模型須要通過像素級別的精確定位來區(qū)分篡改圖像和真實圖像,這意味著模型不僅要識別被篡改的區(qū)域,而且要精確地定位這些區(qū)域。如果僅考慮篡改的存在,那么篡改識別任務可以被視作圖像分類任務的簡化版本,篡改檢測任務則可被視作圖像分割任務的簡化版本。將現(xiàn)有的圖像分類模型和語義分割模型直接應用于文字圖像篡改檢測和識別的效果并不是最佳的,因為這些模型通常被設計為用于捕獲圖像中的語義信息,使得模型對數(shù)據集的依賴性過強,泛化能力差,因此,設計一個能夠學習篡改區(qū)域中語義不可知特征的模型至關重要。該模型從篡改區(qū)域中提取出特定的特征,這些特征不應只是基于語義信息的簡單表征,而應該是基于像素級別的微小變化,可以用于確定被篡改的區(qū)域?,F(xiàn)有篡改檢測研究大多是基于自然圖像,雖然以往的文本分析和識別研究也著重于檢測和理解文本的內容,但對于文本篡改的真實性卻鮮有研究。
近年來,人們對信息安全的擔憂與日俱增,并且隨著越來越多古籍文本的轉錄被提上日程,古籍文本圖像篡改檢測越來越受到學術界和文博界的關注。古籍文本圖像篡改檢測作為一個全新的領域,離不開自然圖像篡改檢測的相關方法與理論作為支撐。傳統(tǒng)的篡改檢測方法通?;谀撤N特定圖像操作所引起的圖像特征改變進行分析,例如基于重疊塊、特征點、圖像屬性或設備屬性等。Rao等[1]將深度學習模型應用于數(shù)字圖像的篡改檢測,并通過特征融合技術獲得最終的用于分類的判別特征,為后續(xù)的研究奠定了基礎。Zhang等[2]提出一種兩階段的深度學習方法來學習特征以檢測不同類型的篡改圖像。Bappy等[3]用混合卷積神經網絡(CNN)-長短期記憶網絡(LSTM)模型來捕獲篡改區(qū)域與非篡改區(qū)域之間的判別特征,使得整個框架能夠檢測不同類型的圖像篡改操作。Bunk 等[4]提出一種基于重采樣特征的檢測算法,利用隨機游走分割方法定位篡改區(qū)域。Bondi等[5]根據不同相機的成像特性,提出一種圖像篡改檢測和定位的算法,通過迭代聚類的方法對特征進行分類以檢測圖像是否被篡改,并定位篡改區(qū)域。Liu等提出一種深度融合網絡,通過跟蹤篡改文本特征邊界來定位篡改區(qū)域,從而識別圖像塊的來源是否相同。 Wu 等[7]提出一種深度匹配和驗證網絡(DMVN),將提取特征開展視覺匹配和驗證,并對文本特征掩碼(mask)進行融合。Chen等[8]研發(fā)一種基于相機響應函數(shù)(CRF)分析的篡改檢測技術,證明了CRF有助于區(qū)分邊緣或者偽造的拼接邊界。Bi等[9提出一種用于圖像拼接篡改檢測的環(huán)形殘差U-Net 網絡(RRU-Net),使未篡改區(qū)域和篡改區(qū)域的圖像屬性差異更加明顯。Ma等[10]設計一個特征金字塔的增強融合模塊,能夠增強捕捉文字細微差別的能力。
目前在圖像篡改檢測模型中最常用的深度學習方法主要分為基于噪聲視圖和基于邊緣監(jiān)督兩類,前者旨在利用篡改區(qū)域在噪聲分布方面與真實圖像之間的差異,后者則通過尋找邊界偽影作為篡改痕跡,并增加一個輔助模塊來重建篡改區(qū)域的邊界。基于噪聲視圖的方法是將通過預定義的特征提取網絡生成噪聲特征視圖,并將其送人網絡學習或者將噪聲視圖與輸人圖像一同送人網絡學習。為了減少模型對語義信息的關注,Li等[1提出一種全卷積網絡(FCN),用可訓練的高通濾波器構建FCN的第一個卷積層,從而增強圖像中的篡改痕跡,并通過4個串聯(lián)的殘余神經網絡ResNet塊建立特征提取模塊來學習圖像差異性。Yang等[12]提出一種粗細粒度的約束區(qū)域卷積神經網絡(R-CNN)兩階段模型:第1個階段是通過可學習的篡改特征提取器捕捉特征,并執(zhí)行篡改分類和邊界框的回歸;第2個階段是融合多層特征以增強全局的特征表示。 Hu 等[13提出一種用于檢測和定位多種篡改類型的空間金字塔注意網絡(SPAN),通過局部自注意模塊的引入,提高了模型的檢測效率和準確性。 Wu 等[14]提出一種端到端全卷積網絡ManTra-Net,通過自監(jiān)督學習的方式從多種圖像篡改類型中學習特征,并將篡改定位問題當作局部異常點檢測問題處理。Zhou 等[15]提出一種雙流快速R-CNN(FasterR-CNN)網絡,分別提取外觀流和噪聲流不同特征,最終將2種空間模式特征融合在一起。
由于篡改圖像中的區(qū)域不可避免地會留下痕跡,因此基于邊界監(jiān)督的方法利用這種邊界偽影也可以提升檢測性能。Salloum等[16]提出一種多任務全卷積網絡(MFCN),通過2個輸出分支進行多任務學習。Zhou等[17]提出一個新的分割框架GSR-Net,首先利用生成網絡來創(chuàng)建數(shù)據集,然后通過一個由邊界信息引導的分割和細化網絡,關注篡改圖像的邊界偽影而不是語義內容。為了兼顧模型在篡改圖像上的靈敏度和在真實圖像上的特異度,Chen等[18]提出一種基于多視角、多尺度監(jiān)督的篡改檢測模型MVSS-Net,通過聯(lián)合利用噪聲圖和邊界偽影來學習篡改檢測特征,達到SOTA模型(指檢測效果最好、識別率最高、正確率最高的算法模型)的效果,但是該模型直接使用深層特征來捕獲淺層邊緣特征并不利于分割任務的準確性,原因是深層特征可能導致邊緣輪廓信息丟失,而直接使用淺層特征又不具備區(qū)分性。此外,該模型中采用簡單的特征拼接來進行特征融合,忽視了來自不同塊特征的重要性。
本文中改進和優(yōu)化MVSS-Net,提出一個可用于古籍文字圖像篡改的檢測識別模型MDAS-Net。首先,針對深層特征丟失邊緣信息的問題,提出基于注意力機制的特征融合方法,使網絡更加關注篡改邊界的語義不可知特征;其次,針對通過簡單拼接進行特征融合的問題,提出一種用于不同分支間的特征交流模塊,使得網絡的2個分支能夠實現(xiàn)信息共享;最后,通過全局平均池化處理融合后的特征,可以得到最終的特征向量。這些改進和優(yōu)化都旨在提升MDAS-Net模型在文字圖像篡改區(qū)域檢測任務中的效果,并且通過消融實驗證明該模型的有效性。
MDAS-Net模型
本文中提出的MDAS-Net模型結構如圖1所示。模型主要包含邊緣監(jiān)督分支(edge-supervisedbranch,ESB)和噪聲敏感分支(noise-sensitivebranch,NSB)2個分支結構,均用于提取語義不可知特征。其中,邊緣監(jiān)督分支專門利用被篡改區(qū)域周圍的邊界偽影信息,而噪聲敏感分支則用于捕獲被篡改區(qū)域和真實區(qū)域之間的不一致性。一張RGB顏色空間圖像輸入到模型中,在邊緣監(jiān)督分支中,首先通過4個殘差卷積模塊來提取初步特征,其中每個殘差卷積模塊的特征經過一個Sobel層和邊緣殘差模塊(Sobelamp;ERB)層后,通過提出的混合注意力模塊(fuseattentionblock)結構漸進式地組合在一起;在噪聲敏感分支中,首先通過一個Bayer約束卷積(BayarConv)18生成輸入圖像的噪聲圖,然后通過4個殘差卷積模塊提取噪聲圖的特征。為了使這2個分支之間的特征得到學習,MDAS-Net中設計一個新的模塊,即特征傳遞模塊E-2-N/N-2-EHelpBlock,在邊緣監(jiān)督分支和噪聲敏感分支之間相同尺寸的殘差卷積模塊中相互傳遞信息,促進特征之間的相互交流,從而生成最終的像素級預測結果。
本文的研究目標可形式化為:給定一個寬度為W? 高度為 H? 通道數(shù)為3的 RGB 顏色空間圖像,通過建立深度神經網絡 P ,經過反向傳播訓練后,使得檢測模型不僅能檢測到圖像是否被篡改,而且可以定位到被篡改的像素。用 P(x) 表示網絡預測到的圖像是否被篡改的概率,用 P(xi) 表示網絡預測到的每個像素是否被篡改的概率,其中 i=1,2,…,W× H ,因此全局分割掩碼可表示為 {P(xi)} 。由于圖像級別的預測概率會受到像素級別概率的影響,因此在全局分割掩碼上通過全局最大池化(globalmax-pooling,GMP)獲得 P(x) ,即
P(x)GMP({P(xi)}i=0i=W×H)?q
1. 1 改進的邊界監(jiān)督機制
不同于使用傳統(tǒng)模型中使用ResNet作為主干網絡,為了充分利用不同尺度的特征,MDAS-Net模型改進ResNet-18的結構,設計一個基于空洞卷積的多尺度特征提取模塊,其結構如圖2所示。3個具有不同步長的空洞卷積分支的作用是最大程度地提升特征更新的感受野,提取到的多尺度特征可記作
Xnew=FC(Conv(X))+X,
式中: X 為模塊的輸入特征圖; Xnew 為輸出特征圖;Conv(X) 表示對 X 進行多尺度空洞卷積并通道級連接操作;FC(·)表示全連接操作。
為了使模型更關注于被篡改的區(qū)域,MDAS-Net在邊緣監(jiān)督分支中采用類似于MVSS-Net模型的方法,通過邊界監(jiān)督來引導模型將注意力集中在被篡改的區(qū)域上,但是,MVSS-Net模型中通過直接使用網絡的最后一層特征,即用最后一個ResNet提取到的特征對邊界進行監(jiān)督,導致邊界信息丟失,如圖3中(a)所示。為了解決這一問題,本文中設計一個混合注意力模塊,如圖3中(b)所示,通過引入注意力機制,聯(lián)合使用淺層和深層的特征來提高檢測和識別的準確率,同時通過聯(lián)合特征來監(jiān)督損失函數(shù)的學習。
作為一種全新的特征融合方式,混合注意力模塊可以將來自不同層次結構的特征漸進式地組合在一起,從而生成最終的特征表示?;旌献⒁饬K的結構如圖4所示。
為了進一步增強模型對圖像中邊界的感知能力和對局部特征的提取能力,MDAS-Net模型中的邊緣監(jiān)督分支除了使用多尺度特征提取模塊組外,還采用了與MVSS-Net模型相同的Sobelamp;ERB結構,將來自相鄰模塊的特征通過注意力模塊組合,組合后的特征再通過一個邊緣殘差模塊(ERB)后,與下一模塊的對應特征采用加權求和的方式漸進地組合在一起。Sobel層和ERB模塊的結構如圖5所示,計算過程如式(3)所示,其中 Xi 為多尺度特征模塊提取到的特征, Xsobel 為Sobel層的輸出特征,XERB 為ERB模塊的輸出特征, BN(?) 表示批次歸一化操作, L2(?) 為 L2 范數(shù)。
混合注意力模塊中的注意力模塊與傳統(tǒng)的注意力機制不同,它可以同時考慮空間和通道維度的重要性,從而更好地提取和組合特征。注意力模塊的結構如圖6所示。空間注意力和通道注意力共同作用于特征圖中的每個像素,以確定每個像素在特征圖的重要性,然后將重要性權重應用于特征圖的每個通道上,從而生成融合的特征圖。這種融合方式生成的特征既具有代表性又具有魯棒性,能夠顯著提高模型的精度。注意力模塊的計算過程如式(4)所示。
Sobelamp;ERB—Sobel層和邊緣殘差模塊;Q、K、V—特征向量矩陣。
式中: Z 為注意力模塊的輸出; 和 V 為來自不同的多尺度特征提取模塊的特征向量矩陣; dq 為縮放因子。
這些特征將被用于計算注意力范式,以便更好地結合多個特征。為了防止過度的累積效應,須要在組合后的特征進入下一輪特征組合之前用另一個ERB模塊處理。這種機制類似于MVSS-Net模型,可以有效地防止邊緣頭信息被過度監(jiān)督或完全忽略深層特征的情況發(fā)生,同時確保模型能夠更準確地學習到不同尺度的特征,從而提高模型的整體性能。
最終,邊緣監(jiān)督分支有2個輸出:一是來自最后一個殘差卷積模塊多尺度特征提取模塊的用于主任務的特征圖,可表示為 {fesh,1,fesh,2,…,fesh,k} ;二是預測的篡改邊界圖,可表示為 {fedge(xi)} 。整個邊緣監(jiān)督分支的數(shù)據流可表示為
其中 MD(x) 表示對特征 x 進行殘差卷積操作。
1. 2 改進的噪聲敏感分支
為了充分利用噪聲圖,本文中建立一個與邊界監(jiān)督分支平行的噪聲敏感分支,使用多尺度特征提取模塊作為基礎模塊以擴大網絡感受野,并在分支頭通過BayarConv來生成原始圖像的噪聲視圖。
1.3 改進的融合分支
為了在邊緣監(jiān)督分支和噪聲敏感分支之間實現(xiàn)信息共享,本文中在MDAS-Net模型中設計一個可用于信息傳遞的特征傳遞模塊,這種模塊只作用在相同層級的多尺度特征提取模塊中(如邊緣監(jiān)督分支和噪聲敏感分支的的殘差卷積模塊2之間)。同時為了減少網絡的復雜度,特征傳遞模塊采用與ERB相同的結構實現(xiàn),該結構能夠有效地傳遞不同分支特征之間的信息,從而提高模型的性能。
此外,在2個分支末端進行特征融合時,MDAS Net模型采用可訓練的雙重注意力(DA)模塊。DA模塊具有2個平行工作的注意機制,即通道注意力(CA)和位置注意力(PA),如圖7所示。其中,通道注意力用于選擇性地強調相互依賴的通道特征圖,位置注意力則對所有位置的特征進行加權求和,從而選擇性地更新每個位置的特征。這種融合方式可以在不同分支之間有效地共享信息,從而提高模型的性能和泛化能力。
將通道注意力和位置注意力的輸出相加,并通過 1×1 卷積轉化為大小為 (W/16)×(H/16) 的特征圖,記作 {P′(xi)} 。模型通過一個沒有參數(shù)的雙線性上采樣,再通過一個逐元素的Sigmoid函數(shù),{P′(xi)} 被轉化為最終的分割圖,雙重注意的融合可表示為
式中: fesb?fnsb 分別為從邊緣監(jiān)督分支和噪聲敏感分支中提取的特征; σ(?) 為Sigmoid激活函數(shù);Up(?) 為對特征進行上采樣操作。
1.4 損失函數(shù)
MDAS-Net模型采用像素級、邊緣級和圖像級的損失函數(shù)來更好地學習語義不可知特征,其中基于像素尺度的損失用于提高模型對像素級篡改檢測的敏感性,基于邊界尺度的損失用于學習語義不可知特征,基于圖像尺度的損失用于改進模型對圖像級篡改檢測的特性。
1)像素損失。由于在給定圖像中被篡改的像素通常為少數(shù),因此使用可以從極不平衡的數(shù)據中有效學習的Dice損失,其中 yi∈{0,1} 是一個二分類標簽,用于表示第 i 個像素是否被篡改
式中: Lseg(x) 為像素損失; G(xi) 1 yi 分別為像素 i 的二分類預測概率和標簽值。
2)邊緣損失。由于邊緣像素被非邊緣像素所包圍,即邊緣像素在給定圖像中也為少數(shù),因此再次使用Dice損失檢測篡改邊緣,記作 Ledge 。由于篡改邊緣檢測是一項輔助任務,因此不在完整尺寸 W×H 上計算 Ledge ,而是在更小尺寸 (W/4)×(H/4) 上計算損失,從而在降低訓練成本的同時提高模型的性能。
3)圖像尺度損失。為了減少誤報,在訓練階段必須考慮到真實圖像的情形,然而,之前的篡改檢測方法大多依賴于分割損失。例如,對于一個真實的圖像而言,在使用二分類交叉熵(BCE)損失時,如果有一小部分像素被錯誤分類,那么對BCE損失的貢獻是微乎其微的,導致模型難以有效地減少誤報。此外,由Dice損失的定義可知,它不能處理真實圖像,因此本文采用基于圖像尺度的BCE損失。
式中: Lclf(x) 為圖像尺度損失; y 為二分類標簽0或1; G(x) 為模型對輸入圖像 x 的圖像級別預測概率,即整張圖像被篡改的概率。
4)總損失函數(shù)。最終的損失函數(shù)由上述3種損失的加權求和得到,
LT=αLseg+βLelf+(1-α-β)Ledge,
其中 α , β∈(0,1) 為權重,需要注意的是,真實圖像只用于計算 Lclf 。
2 實驗與結果分析
2.1 數(shù)據集
古籍圖像的珍貴和特殊性導致目前沒有可支撐研究的古籍圖像篡改數(shù)據集。為了解決這一問題,本文中從蘇軾書法作品數(shù)據集中選取100張邊緣完整、背景清晰的古籍圖像作為實驗的基礎數(shù)據集。為了模擬實際應用場景中的篡改情況,通過Photo-shop軟件,對其中的80張圖像進行篡改處理,每張圖像隨機篡改2\~5處字符或者印章,并在篡改過程中力求保持圖像的真實性和可信度,如圖8所示。采用這種方式,得到一個包含100張古籍圖像的篡改數(shù)據集,其中80張圖像經過篡改處理,20張圖像作為對照組,無任何篡改。每張篡改圖像都有相應的掩碼,掩碼中分辨率與原始圖像一致,像素值為0(黑色)表示該像素被標記為未篡改,像素值為255(白色)表示該像素被標記為已篡改。每個掩碼的形狀都是根據像素被編輯的標準來定義的,即:如果被篡改的文本區(qū)域是不規(guī)則的,那么掩碼的形狀也是不規(guī)則的;如果一個文本與其周圍的背景一起被篡改,那么周圍的背景和文本都將被注釋為被篡改的像素
此外,為了更好地探究古籍圖像篡改的問題,本文中引入阿里巴巴公司制作的圖像文本(TTI)數(shù)據集作為擴充,構建更加全面、豐富的實驗數(shù)據集。TTI數(shù)據集中包含19000張圖像,其中15994張圖像為被篡改的圖像(包括5999張人工篡改圖像和9995張自動生成的篡改圖像)。由于生活中大多數(shù)都是真實的文本圖像,因此為了評估模型在真實圖像上的誤判情況,數(shù)據集還選取了3006張未經過任何處理的圖像。將TTI數(shù)據集劃分為訓練集和測試集,其中訓練集包含4000張篡改圖像和4285張真實圖像。
2.2 評價指標
F1 值為準確率和回歸率的調和平均值,
式中 P,R 分別為準確率、回歸率。
式中: NTP 為篡改像素被判斷正確的數(shù)量; NFP 為原始像素被判斷錯誤的數(shù)量; NFN 為篡改像素被判斷錯誤的數(shù)量。
受試者工作特性曲線下的面積(AUC)是評價分類模型性能優(yōu)劣的一個重要指標,取值為 0.5~ 1.0,數(shù)值越大則模型的分類性能越好,區(qū)分正負樣本的準確度越高。針對圖像篡改檢測任務中正樣本(篡改區(qū)域)通常比負樣本(未篡改區(qū)域)少得多導致類別不平衡問題,AUC作為一個綜合指標,不受類別不平衡的影響,能夠客觀地評價檢測方法的性能
2.3 實驗設置
實驗采用深度學習框架PyTorch實現(xiàn),并在NVIDIA2070圖像處理器(GPU)進行訓練,輸入圖像的尺寸為512像素 ×512 像素。模型的2個分支結構ESB和NSB中使用的多尺度特征提取網絡,通過圖像數(shù)據集ImageNet預訓練初始化。訓練過程中使用Adam優(yōu)化器,學習率周期性地從 10-4 衰減到 10-7 。聯(lián)合損失函數(shù)中的將2個權重設置為 α=0.16和 β=0. 04 。此外,在訓練過程中還采用了數(shù)據增強策略,包括模糊、對比度增強等。
2.4 實驗結果和分析
2.4.1 MDAS-Net模型對比實驗
為了驗證本文中提出的MDAS-Net模型的有效性,首先采用廣泛認可的CASIAv1基準數(shù)據集進行檢測實驗。為了降低檢測難度,本文中僅比較文本圖片是否被篡改的圖像級別,即在分割損失后采取了與MVSS-Net模型一致的分類損失處理,并輸出概率。為了驗證模塊的有效性,本文只使用了單個模型進行比較,實驗結果如表1所示。實驗結果表明,在MVSS-Net模型中加入本文所提出的模塊后,AUC和 F1 指標均得到一定的提升,表明所設計的模塊是有效的。此外,將MDAS-Net模型與其他2個篡改檢測模型在融合數(shù)據集進行對比實驗,實驗
注: ①AUC 為受試者工作特性曲線下的面積。 ②F1 值為準確率和回歸率的調和平均值。 ③ MDAS-Net為本文中提出的古籍文字圖像篡改的檢測識別模型。
結果如表2所示。從表中可以看出,MDAS-Net模型的AUC指標提升了0.019,證明了MDAS-Net模型在篡改檢測任務中的有效性。
注: ①AUC 為受試者工作特性曲線下的面積。 ②MDAS-Net 為本文中提出的古籍文字圖像篡改的檢測識別模型。
2.4.2 不同模塊的消融實驗
本文中提出的MDAS-Net模型改進點主要有以下3個:一是基于ResNet-18改進的多尺度特征提取模塊;二是在邊界監(jiān)督分支中提出混合注意力模塊的特征融合方式;三是在邊界監(jiān)督分支和噪聲敏感分支通過特征傳遞模塊進行特征交流。為了驗證各模塊的有效性,本文中在融合數(shù)據集進行消融實驗,結果如表3所示。實驗結果表明,獨立使用3個模塊可使模型的AUC指標分別提升0.001、0.004和0.003,但是,當3個模塊經過聯(lián)合訓練后,模型的AUC、 F1 值分別提升了0.020和0.019,充分證明了聯(lián)合使用淺層和深層特征方法在提高模型檢測性能方面的有效性。此外,注意力機制與分支間的特征交流對于模型的檢測性能確實有益,進一步證明了聯(lián)合使用混合注意力、特征傳遞模塊的有效性。
2.4.3 不同主干網絡的對比實驗
在MDAS-Net模型中,邊界監(jiān)督分支和噪聲敏感分支均使用基于ResNet-18改進的多尺度特征提取的殘差卷積模塊,因此本文中采用不同的主干網絡進行消融實驗,結果如表4所示。實驗結果表明,采用更深層的主干網絡對于模型檢測性能有明顯提升,并且能夠幫助模型更好地處理輸入圖像中的特征尺度變化和視角變化等問題,因為它們具有更強的表示能力和更大的感受野,能夠更好地捕捉輸入圖像中的局部和全局上下文信息,并從中提取更豐富的特征,提高模型的檢測性能。
2.4.4多尺度殘差卷積模塊的消融
為了探究不同數(shù)量的多尺度殘差卷積模塊對MDAS-Net模型性能的影響,因此對模塊數(shù)量進行消融實驗,結果如表5所示。實驗結果表明,當殘差卷積模塊的數(shù)量為4時,MDAS-Net模型性能最佳;但是,隨著多尺度殘差卷積模塊數(shù)量的增加,模型的復雜度也隨之增加,因此導致檢測性能略有下降。
2.5 可視化分析
MDAS-Net模型在融合數(shù)據集的圖像篡改檢測實驗結果如圖9所示。由圖可見,MDAS-Net模型將篡改的古籍文字區(qū)域(掩碼區(qū)域)都有效地檢測出來,相比之下,MVSS-Net模型對篡改區(qū)域的檢測效果稍差,表明MDAS-Net模型具有較強的泛化性,能夠應用于不同類型的圖像數(shù)據集,并在各種實際場景中具有出色的檢測識別效果。
3 結語
本文中在自然圖像篡改檢測模型MVSS-Net的基礎上,設計了一個可用于古籍圖像文字篡改的檢測識別模型MDAS-Net,針對邊緣監(jiān)督分支和噪聲敏感分支提出了兩方面改進,除了改進主干網絡外,在邊緣監(jiān)督分支中,還設計一個全新的特征融合方式混合注意力模塊。針對2個分支的特征融合,設計特征傳遞模塊用于增強特征之間的信息交流。通過對比和消融實驗證明了MDAS-Net模型在古籍文字篡改檢測任務中的有效性。該研究成果對古籍文字圖像篡改檢測和識別提供了新的解決方案,為該領域的實際應用提供了有價值的參考。
參考文獻:
[1] RAO Y,NI J Q.A deep learning approach to detection of splicing and copy-move forgeriesin images[C]//2016 IEEE International WorkshoponInformationForensicsandSecurity(WIFS),December4-7,2016,AbuDhabi,UAE.NewYork:IEEE,2016:1-6.
[2] ZHANGY,GOHJ,WINLL,etal. Image region forgery detection:a deep learning approach[C]//MATHURA,ROY-CHOUDHURYA. Proceedings of the Singapore Cyber-Security Conference (SG-CRC)2016.Amsterdam:IOS Press,2016:1-11.
[3] BAPPY JH,ROY-CHOWDHURY AK,BUNKJ, et al. Exploiting spatial structure for localizing manipulated image regions [C]/? 2017IEEE Iternational Conference on Computer Vision(ICCV), October 22-29,2017,Venice,Italy.New York:1EEE,201/: 4980-4989.
[4]BUNK J,BAPPY JH,MOHAMMED T M, et al. Detection and localization of image using resampling features and deep learning [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR),July 21-26,2017. Honolulu, HI,USA.New York:IEEE,2017:1881-1889.
[5]BONDI L,LAMERI S,GUERA D,et al. Tampering detection and localization through clustering of camera-based CNN features [C]/2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR).July 21-26,2017.Honolulu, HI,USA.New York:IEEE,2017:1855-1864.
[6]LIU B,PUN C M. Deep fusion network for splicing forgery localization[C]//LEAL-TAIXE L,ROTH S. Computer Vision-ECCV 2018 Workshops. Cham: Springer Cham,2018:237-251.
[7]WU Y,ABD-ALMAGEED W,NATARAJAN P. Deep matching and validation network :an end-to-end solution to constrained image splicing localization and detection[C]//MM’17:Proceedings of the 25th ACMInternational Conference on Multimedia,October 23- 27,2017,MountainView,California,USA.New York:ACM, 2017:1480-1502.
[8] CHEN C,McCLOSKEY S,YU J. Image splicing detection via camera response function analysis[C]//2O17 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPR), July 21-26,2017.Honolulu,HI,USA.New York:IEEE,2017: 1876-1885.
[9] BIXL,WEIY,XIAOB,etal.RRU-Net:theringed residual U-Net for image splicing forgery detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops,June 16-17,2019,Long Beach,CA,USA.New York: IEEE,2019:30-39.
[10]MA Y Q,CHEN S X,LI YB,et al. STEF: a swin transformerbased enhanced feature pyramid fusion model for Dongba character detection[J].Heritage Science,2024,12:206.
[11]LI H D,HUANG J W. Localization of deep inpainting using high-pass fully convolutional network[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV), October 27- November2,2019,Seoul,Republic of Korea.New York: IEEE, 2019:8300-8309.
[12] YANG C, LI HZ,LIN FT,et al. Constrained R-CNN: a general image manipulation detection model[ C]//2O20 IEEE International Conference on Multimedia and Expo(ICME 2020 London),July 6-10,2020,London,UK.New York:IEEE,2020:1-6.
[13] HU X F, ZHANG Z H, JIANG Z Y, et al. SPAN: spatial pyramid attention network for image manipulation localization[C]// Computer Vision-ECCV 2020: 16th European Conference,August 23-28,2020,Glasgow,UK. Cham:Springer,2020:312-328.
[14]WU Y,ABD-ALMAGEED W,NATARAJAN P. ManTra-Net: anipulation tracing network for detection and localization of image forgeries with anomalous features[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),June 15-20,2019,Long Beach,CA,USA.New York:IEEE, 2019: 9535-9544.
[15]ZHOU P,HAN X T,MORARIU V I,et al. Learning rich features for image manipulation detection[C]//2O18 IEEE/CVF Conference on Computer Vision and Pattern Recognition,June 18- 23,2018,Salt Lake City,UT,USA. New York:IEEE,2018: 1053-1061.
[16] SALLOUM R,REN Y Z,KUO C C J. Image splicing localization using a multi-task fully convolutional network (MFCN)[J]. Journal of Visual Communication and Image Representation,2018, 51:201-209.
[17] ZHOU P,CHEN B C,HAN X T,et al. Generate,segment, and refine: towards generic manipulation segmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence:Vol. 34,No.7:AAAI-2O Technical Tracks 7. Palo Alto:AAAI Press,2020:13058-13065.
[18] CHENXR,DONG C B,JI JQ,et al. Image manipulation detection by multi-view multi-scale supervision[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV),October 10-17,2021,Montreal,QC,Canada.NewYork: IEEE,2021:14165-14173.
(責任編輯:劉飚)