王裕鑫,張博強(qiáng),謝洪濤,張勇東
(中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026)
文本作為一種重要的信息傳播媒介,蘊(yùn)含大量的重要敏感信息[1-3]。隨著篡改技術(shù)的發(fā)展,計(jì)算機(jī)可以自動(dòng)將敏感內(nèi)容轉(zhuǎn)化為虛假信息,用于欺詐、營(yíng)銷或其他非法目的。近年來(lái),經(jīng)由深度學(xué)習(xí)篡改算法生成的文本圖像在互聯(lián)網(wǎng)上廣泛傳播[4-6],對(duì)多個(gè)領(lǐng)域產(chǎn)生了極大的負(fù)面影響[7-8],包括金融票據(jù)識(shí)別領(lǐng)域、證件識(shí)別領(lǐng)域、網(wǎng)頁(yè)內(nèi)容識(shí)別領(lǐng)域等。
篡改文本檢測(cè)(TTD,tampered text detection)作為多媒體信息安全領(lǐng)域的一個(gè)新興研究方向,是指通過(guò)對(duì)文本圖像中紋理特征的分析,捕捉真實(shí)文本和篡改文本之間的紋理差異性,以確定文本圖像中文字區(qū)域的真?zhèn)涡?。如圖1所示,篡改文本檢測(cè)技術(shù)包含兩個(gè)步驟:文本定位和文本真?zhèn)涡澡b別。文本定位步驟需要對(duì)文本圖像內(nèi)容進(jìn)行分析,定位出具有文本紋理特征的文本實(shí)例。真?zhèn)涡澡b別步驟需要對(duì)文本實(shí)例的紋理真?zhèn)涡赃M(jìn)行分析,鑒別當(dāng)前文本實(shí)例是否為篡改文本。
圖1 篡改文本檢測(cè)任務(wù)流程Figure 1 The pipeline of tampered text detection task
篡改文本技術(shù)研究領(lǐng)域已經(jīng)有較多公開發(fā)表的研究成果,而篡改文本檢測(cè)研究仍處于起步階段,未得到足夠重視。篡改文本檢測(cè)技術(shù)一方面能夠與篡改文本技術(shù)相抗衡,保護(hù)文本圖像內(nèi)容的真實(shí)性,保障網(wǎng)絡(luò)信息安全與人民財(cái)產(chǎn)安全;另一方面,篡改文本檢測(cè)技術(shù)能有效地反映篡改文本技術(shù)的性能,實(shí)現(xiàn)矛與盾的良性可持續(xù)發(fā)展。
篡改文本檢測(cè)任務(wù)有兩個(gè)主要挑戰(zhàn)。① 局部紋理差異性捕捉困難。篡改文本與真實(shí)文本僅存在局部紋理差異。② 真實(shí)和篡改文本檢測(cè)精度平衡困難。相較傳統(tǒng)的文本檢測(cè)任務(wù),篡改文本檢測(cè)任務(wù)需要進(jìn)一步區(qū)分篡改和真實(shí)文本。由于真實(shí)和篡改文本分類難度不一致,訓(xùn)練過(guò)程中網(wǎng)絡(luò)無(wú)法平衡兩類的學(xué)習(xí)過(guò)程,導(dǎo)致在測(cè)試過(guò)程中兩類檢測(cè)精度差異較大。上述挑戰(zhàn)極大地限制了篡改文本檢測(cè)方法的性能。因此,如何準(zhǔn)確地捕捉局部紋理差異性,同時(shí)平衡篡改和真實(shí)類別學(xué)習(xí)難度,是目前篡改文本檢測(cè)研究的重要方向。
本文提出一種基于空域和頻域(RGB and frequency)關(guān)系建模的篡改文本檢測(cè)方法。為了準(zhǔn)確地捕捉局部紋理差異性,引入頻域特征以增強(qiáng)對(duì)篡改紋理的鑒別能力。此外,采用全局空頻域關(guān)系模塊建模文本實(shí)例之間的紋理真?zhèn)涡躁P(guān)系,通過(guò)參考同幅圖像中其他所有文本區(qū)域的空頻域特征輔助當(dāng)前文本實(shí)例的真?zhèn)涡澡b別,平衡篡改和真實(shí)類別的學(xué)習(xí)難度。進(jìn)一步地,為了驗(yàn)證本文方法的性能,同時(shí)為今后的篡改文本檢測(cè)方法提供評(píng)估基準(zhǔn),本文提出一個(gè)新的票據(jù)篡改文本圖像數(shù)據(jù)集。
早期的圖像篡改檢測(cè)方法主要針對(duì)不同的篡改手段設(shè)計(jì)對(duì)應(yīng)的檢測(cè)算法,常見的有復(fù)制粘貼檢測(cè)、拼接檢測(cè)等。Fridrich等[9]在2003年提出一種檢測(cè)復(fù)制粘貼篡改手段的方法,利用離散余弦變換(DCT,discrete cosine transform)對(duì)圖像塊進(jìn)行分類,并且結(jié)合字典排序,解決了計(jì)算量大的問(wèn)題?;诰夭蛔兞康膹?fù)制粘貼檢測(cè)算法[10]和基于關(guān)鍵點(diǎn)SIFT特征的復(fù)制粘貼檢測(cè)算法[11]對(duì)旋轉(zhuǎn)縮放等處理具有魯棒性。Farid[12]利用JPEG(joint photographic experts group)壓縮特性的不一致性,檢測(cè)原始圖片和經(jīng)過(guò)拼接的篡改圖片的JPEG壓縮特性,根據(jù)其差異性進(jìn)行篡改檢測(cè)。
常見的文檔篡改操作包括文檔區(qū)域復(fù)制移動(dòng)、文檔拼接以及像素級(jí)的更改篡改字符區(qū)域等。文檔篡改檢測(cè)的一系列研究方法針對(duì)篡改操作所導(dǎo)致的缺陷展開。早期的文檔篡改檢測(cè)主要通過(guò)打印機(jī)分類和識(shí)別技術(shù)以確定在文檔生成過(guò)程中所使用的硬件類型[13-15],這些方法利用了不同源類型之間所選特性的顯著差異性,但它們無(wú)法檢測(cè)到文檔圖像內(nèi)部復(fù)制粘貼和重打印偽造操作的痕跡??紤]到原始文檔經(jīng)機(jī)器重打印、掃描或經(jīng)文字編輯軟件處理之后,會(huì)存在不均勻的垂直尺度問(wèn)題,文獻(xiàn)[16]利用內(nèi)在文檔元素特性,通過(guò)自動(dòng)識(shí)別同一來(lái)源不同文檔之間保持靜態(tài)一致的模板區(qū)域來(lái)衡量文檔內(nèi)容的真實(shí)性,從而檢測(cè)同源文檔中的篡改操作。
在大多數(shù)文檔圖像中,同一單詞或句子中所采用的字體大多一致。因此,一些工作通過(guò)關(guān)注字體識(shí)別[17-18]來(lái)進(jìn)行篡改文本與真實(shí)文本的劃分。文獻(xiàn)[19]提出基于文檔字體特征的自動(dòng)偽造檢測(cè)方法以檢測(cè)同一單詞內(nèi)部不同字體拼接篡改,其使用條件隨機(jī)場(chǎng),通過(guò)分類字符字體及與鄰域字符字體類型進(jìn)行對(duì)比,來(lái)區(qū)分真實(shí)字符區(qū)域和篡改字符區(qū)域。除使用字體屬性外,字符形狀和文本對(duì)齊等屬性也被用來(lái)檢測(cè)篡改文檔。文獻(xiàn)[20]采用行級(jí)一致性檢測(cè)的方式,基于統(tǒng)計(jì)模型,通過(guò)檢測(cè)文本行對(duì)齊與旋轉(zhuǎn)變化,來(lái)鑒別文檔中每行文本的真實(shí)性。與基于文本字體、排列、形狀布局等外觀特征進(jìn)行區(qū)域鑒別的方式不同,文獻(xiàn)[21]采用基于支持向量機(jī)的分類方式進(jìn)行篡改文檔檢測(cè),利用局部二值模式特征描述算子(LBP)捕獲篡改區(qū)域的可分辨紋理特征,以尋找文檔圖像內(nèi)在特征不一致性。文獻(xiàn)[22]將自然場(chǎng)景圖像篡改檢測(cè)任務(wù)中基于圖像塊的重復(fù)項(xiàng)檢測(cè)方法遷移到掃描文檔篡改區(qū)域檢測(cè)任務(wù)中,探索特定閾值和參數(shù)影響下基于圖像塊的檢測(cè)方法對(duì)復(fù)制移動(dòng)到文檔的偽造文本的檢測(cè)性能。
相較上述使用人工設(shè)計(jì)的特征及評(píng)分方式,以數(shù)據(jù)為驅(qū)動(dòng)的基于深度學(xué)習(xí)的篡改文檔檢測(cè)方法獲得了更好的檢測(cè)性能。文獻(xiàn)[23]將拼接檢測(cè)問(wèn)題定義為圖節(jié)點(diǎn)分類問(wèn)題,通過(guò)光學(xué)字符識(shí)別(OCR)技術(shù)獲取文檔圖像中文本塊的位置及內(nèi)容,并基于此結(jié)果構(gòu)建圖神經(jīng)網(wǎng)絡(luò)。具體地,該方法以各文本塊為圖節(jié)點(diǎn),節(jié)點(diǎn)間的連接與否由檢測(cè)框距離決定,基于預(yù)訓(xùn)練過(guò)的變分自動(dòng)編碼器對(duì)文檔圖像進(jìn)行特征提取,進(jìn)而引入圖注意力機(jī)制捕獲更強(qiáng)的文本塊上下文特征,以提升分類準(zhǔn)確度。上述方法僅在RGB域捕獲淺層語(yǔ)義特征差異,然而篡改操作通常會(huì)留下高頻痕跡,此類高頻信息很難在RGB域中被捕獲。因此,本文方法通過(guò)引入頻率特征并將其與RGB域特征融合來(lái)增強(qiáng)網(wǎng)絡(luò)對(duì)篡改紋理的鑒別能力,同時(shí)使用關(guān)系模塊對(duì)篡改類別與真實(shí)文本類別進(jìn)行關(guān)系建模,平衡真實(shí)文本和篡改文本的學(xué)習(xí)難度,實(shí)現(xiàn)精確度更高的篡改文本檢測(cè)。
隨著圖像偽造技術(shù)手段的進(jìn)一步提升,篡改檢測(cè)方法已經(jīng)難以從視覺(jué)上檢測(cè)出圖像是否被篡改。因此,越來(lái)越多的研究轉(zhuǎn)向引入更多的信息和先驗(yàn)知識(shí)[24-25]作為篡改檢測(cè)的輔助信息。
在難以從視覺(jué)圖像中獲取有效偽造線索的情況下,有研究[26-28]發(fā)現(xiàn),原圖和相應(yīng)篡改后的圖像在頻域上相同位置特征不一致。因此,圖像的頻域信息對(duì)于準(zhǔn)確的篡改檢測(cè)至關(guān)重要。在面部偽造檢測(cè)中,由于背景、性別、年齡、偽造方法的多樣性,基于固定的頻域信息提取方法不足以從頻域中捕捉細(xì)微的偽造模式[26],因此,文獻(xiàn)[27]引入兩種提取頻域特征的方法FAD(frequency- aware decomposition)和LFS(local frequency statistics),并設(shè)計(jì)了一個(gè)融合模塊來(lái)融合雙流網(wǎng)絡(luò)的特征,從而在頻域內(nèi)實(shí)現(xiàn)對(duì)面部偽造圖像視頻的檢測(cè)。這種方法將傳統(tǒng)學(xué)習(xí)和深度學(xué)習(xí)結(jié)合,在低質(zhì)量的偽造圖片檢測(cè)上取得了不錯(cuò)的結(jié)果。文獻(xiàn)[28]提出新穎的頻率感知判別特征學(xué)習(xí)框架來(lái)進(jìn)行篡改鑒別,利用自適應(yīng)的頻率特征生成模塊以數(shù)據(jù)驅(qū)動(dòng)的方式挖掘頻率線索,從而避免使用太多不全面的先驗(yàn)知識(shí),同時(shí)結(jié)合度量學(xué)習(xí),提出單中心損失來(lái)學(xué)習(xí)更多的判別特征,進(jìn)一步提高模型的篡改檢測(cè)能力。
上述頻域信息的捕獲主要針對(duì)人臉或其他非文本目標(biāo)區(qū)域。由于文本獨(dú)特的性質(zhì),直接使用上述頻域信息提取方式會(huì)限制篡改文本檢測(cè)器的性能,因此需要針對(duì)文本特性,設(shè)計(jì)符合文本特性(如局部存在、長(zhǎng)寬比例變化大)的頻域特征提取器。
本文提出的基于空頻域關(guān)系建模的篡改文本檢測(cè)方法有以下幾點(diǎn)貢獻(xiàn)。
(1)創(chuàng)新性地在篡改文本檢測(cè)任務(wù)中引入頻域信息增強(qiáng)篡改紋理特征,通過(guò)同時(shí)捕捉空域和頻域的信息提升網(wǎng)絡(luò)對(duì)局部紋理差異性的鑒別能力。
(2)全局空頻域關(guān)系模塊提供了一種簡(jiǎn)潔、有效的平衡篡改和真實(shí)類別學(xué)習(xí)難度的方法,通過(guò)建模全局文本實(shí)例之間的空頻域特征關(guān)系,借助其他文本實(shí)例空頻域信息來(lái)輔助鑒別當(dāng)前文本實(shí)例的真?zhèn)涡?,幫助網(wǎng)絡(luò)更好地平衡真實(shí)和篡改文本的學(xué)習(xí)難度,提升檢測(cè)精度。
基于空域和頻域關(guān)系建模的篡改文本檢測(cè)方法流程如圖2所示。本文采用兩階段目標(biāo)檢測(cè)的框架,包含文本區(qū)域建議框的生成、文本區(qū)域建議框微調(diào)、文本幾何預(yù)測(cè)和文本真?zhèn)涡澡b別。文本區(qū)域建議框微調(diào)僅在測(cè)試過(guò)程使用,用于微調(diào)文本區(qū)域建議框的位置,提升檢測(cè)器對(duì)多尺度文本的檢測(cè)能力。首先,輸入圖像經(jīng)過(guò)主干網(wǎng)絡(luò)提取空域特征,同時(shí)通過(guò)離散余弦變換提取頻域特征。其次,通過(guò)空域特征結(jié)合區(qū)域建議網(wǎng)絡(luò)(RPN,region proposal network)生成文本候選框。然后,使用N個(gè)區(qū)域候選框?qū)ξ谋镜目沼蛱卣骱皖l域特征進(jìn)行裁剪,通過(guò)感興趣區(qū)域?qū)R(RoI align)歸一化特征尺寸,再輸入全局空頻域關(guān)系模塊進(jìn)行關(guān)系建模。最后,將全局空頻域關(guān)系模塊的輸出特征用于真?zhèn)涡澡b別和文本區(qū)域建議框微調(diào)。為了表示任意形狀文本,文本幾何預(yù)測(cè)分支采用基于輪廓點(diǎn)的分割算法,通過(guò)預(yù)測(cè)并連接文本區(qū)域輪廓點(diǎn)描述任意形狀文本。
全局空頻域關(guān)系模塊的輸入為文本候選框的空域特征和頻域特征,文本候選框的空域特征直接通過(guò)對(duì)空域的特征進(jìn)行裁剪得到。文本候選框頻域特征的獲取方式如下。① 將輸入圖像進(jìn)行離散余弦變換得到頻域特征。如圖3所示,整個(gè)過(guò)程包含RGB圖像向YCbCr圖像轉(zhuǎn)變、DCT變換、幾何變換和級(jí)聯(lián)過(guò)程。② 通過(guò)三層卷積增強(qiáng)頻域特征的表達(dá)能力,同時(shí)與空域特征維度對(duì)齊。③ 采用空域特征得到的文本建議框,對(duì)頻域特征中的對(duì)應(yīng)區(qū)域進(jìn)行裁剪,生成對(duì)應(yīng)文本候選框的頻域特征。相較人臉篡改檢測(cè)的頻域信息獲取,本文方法能夠捕捉到局部紋理的頻域特征,通過(guò)結(jié)合文本區(qū)域建議框的多尺度特性,提取符合文本特征的局部、多尺度頻域特征。
圖3 DCT過(guò)程Figure 3 The process of DCT
若簡(jiǎn)單地根據(jù)當(dāng)前文本候選框內(nèi)的特征進(jìn)行紋理真?zhèn)涡澡b別,由于缺乏全局信息的感知能力,將導(dǎo)致網(wǎng)絡(luò)無(wú)法平衡真實(shí)和篡改文本類別的學(xué)習(xí)難度,從而在測(cè)試過(guò)程中兩類的檢測(cè)精度差異較大,造成檢測(cè)精度不平衡的問(wèn)題。為了捕獲全局信息輔助當(dāng)前文本候選框的真?zhèn)涡澡b別,本文提出全局空頻域關(guān)系模塊,通過(guò)感知當(dāng)前文本候選框與其他文本候選框的空頻域特征相似性,平衡真實(shí)和篡改類別的學(xué)習(xí)難度。
全局空頻域關(guān)系模塊結(jié)構(gòu)如圖4所示,主要包含兩個(gè)部分:融合模塊和關(guān)系模塊。首先,輸入文本候選框的空域特征和頻域特征并通過(guò)融合模塊進(jìn)行特征融合。然后,將融合后的特征輸入關(guān)系模塊,建模不同文本候選框之間的空頻域特征相似性。
圖4 全局空頻域關(guān)系模塊結(jié)構(gòu)Figure 4 The structure of global RGB-frequency relationship module
在關(guān)系模塊中,首先采用通道注意力機(jī)制控制空域和頻域的信息表達(dá)。通道注意力機(jī)制如圖5所示,輸入特征通過(guò)池化和全連接層獲得通道注意力圖,然后通過(guò)通道注意力圖控制不同通道的特征表達(dá)。基于通道注意力機(jī)制的信息增強(qiáng)方法有效地解決了空域和頻域特征之間的特征異質(zhì)性問(wèn)題,針對(duì)不同的文本候選框,自適應(yīng)地考慮不同域的信息,提升特征的表達(dá)能力。然后,使用池化操作將通道注意力機(jī)制輸出特征的尺寸變?yōu)镹×512×2×2,并通過(guò)展開操作將特征尺寸變換為N×2048。最后,采用自注意力機(jī)制(self-attention),融合其他文本候選框的空頻域特征對(duì)當(dāng)前文本候選框的空頻域特征增強(qiáng)。自注意力機(jī)制的計(jì)算方法如式(1)所示。
圖5 通道注意力機(jī)制Figure 5 The channel attention mechanism
其中,finput是輸入特征,d是輸入特征k的通道數(shù),Wq、Wk、Wv是可學(xué)習(xí)的參數(shù)。在自注意力機(jī)制中,首先計(jì)算當(dāng)前文本框和其他文本框空頻域特征的相似性;然后通過(guò)相似性矩陣,在每個(gè)文本框空頻域特征中,融合其余文本框的空頻域特征。因此,全局空頻域關(guān)系模塊有效地通過(guò)感知全局的空頻域信息,輔助當(dāng)前文本框的真?zhèn)涡澡b別,平衡真實(shí)和篡改文本檢測(cè)的學(xué)習(xí)難度。
在文本幾何預(yù)測(cè)模塊中,采用預(yù)測(cè)輪廓點(diǎn)分割圖表示任意形狀文本。由于分割過(guò)程易受假陽(yáng)性背景噪聲點(diǎn)的影響(如柵格、波浪線等),本文參考了ContourNet[1]中正交紋理感知模塊結(jié)構(gòu)和正交融合操作。
首先,將RoI align后的特征圖上采樣,感知細(xì)節(jié)紋理特征。然后,使用兩個(gè)正交卷積核捕捉水平和垂直方向上的紋理,預(yù)測(cè)兩個(gè)方向上具有文字紋理響應(yīng)的輪廓點(diǎn)。在訓(xùn)練過(guò)程中,將兩個(gè)正交輪廓點(diǎn)分割圖的損失函數(shù)相加,作為文本幾何預(yù)測(cè)模塊的學(xué)習(xí)目標(biāo)。在測(cè)試過(guò)程中,首先,使用正交的卷積核分別感知水平和垂直方向上的紋理;然后,使用0.5閾值過(guò)濾正交輪廓點(diǎn)分割圖,得到輪廓點(diǎn)候選集合;最后,采用正交融合操作[1]抑制背景的假陽(yáng)性噪聲點(diǎn),生成最終文本輪廓點(diǎn),通過(guò)連接最終文本輪廓點(diǎn),實(shí)現(xiàn)任意形狀文本的檢測(cè)。
基于空頻域關(guān)系建模的篡改文本檢測(cè)網(wǎng)絡(luò)優(yōu)化指標(biāo)由4個(gè)部分組成:文本區(qū)域建議網(wǎng)絡(luò)損失函數(shù)(Lrpn)、真?zhèn)涡澡b別損失函數(shù)(Lcls)、文本區(qū)域建議框微調(diào)損失函數(shù)(Lref)與文本幾何預(yù)測(cè)損失函數(shù)(Lgeo)。整體的損失函數(shù)如式(5)所示。
在文本區(qū)域建議網(wǎng)絡(luò)損失函數(shù)部分,本文采用交并比(IoU)優(yōu)化指標(biāo),通過(guò)計(jì)算預(yù)測(cè)文本候選框和標(biāo)簽文本候選框的IoU,并優(yōu)化IoU指標(biāo)來(lái)指導(dǎo)文本區(qū)域建議網(wǎng)絡(luò)對(duì)文本粗定位的學(xué)習(xí)。如式(6)所示,其中P和G分別是預(yù)測(cè)框和標(biāo)簽框,Lcross_entropy為交叉熵?fù)p失函數(shù)。
在真?zhèn)涡澡b別損失函數(shù)部分,本文采用交叉熵?fù)p失函數(shù)優(yōu)化分類網(wǎng)絡(luò)。在文本建議框微調(diào)損失函數(shù)部分,本文借鑒Mask r-CNN[29],采用smoothL1損失函數(shù)優(yōu)化微調(diào)層。smoothL1損失函數(shù)如式(7)所示。
在文本幾何損失函數(shù)部分,本文參考了ContourNet[1],通過(guò)平衡的交叉熵?fù)p失函數(shù)指導(dǎo)文本幾何預(yù)測(cè)的學(xué)習(xí)。
其中,Nneg和Npos表示負(fù)樣本和正樣本個(gè)數(shù),yi和pi表示標(biāo)簽和預(yù)測(cè)樣本,N表示正負(fù)樣本的總和。
本文提出的票據(jù)篡改文本圖像數(shù)據(jù)集(Tampered-SROIE)是通過(guò)對(duì)當(dāng)前主流的SROIE票據(jù)數(shù)據(jù)集中文本圖像篡改得到的[30]。SROIE數(shù)據(jù)集公布于ICDAR2019掃描收據(jù)光學(xué)字符識(shí)別和信息提取(scanned receipts OCR and information extraction)挑戰(zhàn)賽。該數(shù)據(jù)集有986幅完整的掃描收據(jù)圖像,其中訓(xùn)練圖像626幅,測(cè)試集360幅。數(shù)據(jù)集文本內(nèi)容主要由數(shù)字和英文字符組成,文本位置標(biāo)注為文本矩形包圍框的4個(gè)角點(diǎn)坐標(biāo)。特別地,該數(shù)據(jù)集中一些票據(jù)紙張墨水和印刷質(zhì)量較差,且存在掃描失真、折疊等干擾因素,這使在其上開展的篡改文本檢測(cè)任務(wù)更具挑戰(zhàn)。
本文所提出的篡改數(shù)據(jù)集Tampered-SROIE的制作包括兩個(gè)步驟。1) 成對(duì)篡改文本的選取。本文對(duì)SROIE中每幅圖像隨機(jī)挑選包含數(shù)字且不包含字母的文本實(shí)例進(jìn)行篡改,并選擇1/2至1/3數(shù)量文本實(shí)例作為篡改對(duì)象(源字串),同時(shí)保證每幅圖像至少篡改一個(gè)文本實(shí)例。為了增加篡改文本的多樣性, 源字串對(duì)應(yīng)的篡改字串通過(guò)隨機(jī)生成,并使1/3數(shù)量篡改字串的長(zhǎng)度增加一位。2) 篡改操作。本文使用SRNet[31]進(jìn)行文本篡改。為了訓(xùn)練一個(gè)強(qiáng)大的篡改網(wǎng)絡(luò),本文基于準(zhǔn)備好的源篡改詞對(duì)生成5萬(wàn)對(duì)合成訓(xùn)練樣本,并在1張2080Ti GPU上進(jìn)行10萬(wàn)次迭代訓(xùn)練。本文使用篡改對(duì)象的標(biāo)簽包圍框來(lái)裁剪SROIE圖像中的文本實(shí)例圖像,并使用訓(xùn)練后的SRNet生成篡改文本實(shí)例圖像,隨后將篡改后的文本實(shí)例圖放回原始圖像中相應(yīng)位置。
在Tampered-SROIE訓(xùn)練集的10 251個(gè)數(shù)字文本實(shí)例中有3 947個(gè)被標(biāo)記為篡改類,在測(cè)試集的5 829個(gè)數(shù)字文本實(shí)例中有2 251個(gè)被標(biāo)記為篡改類。Tampered-SROIE數(shù)據(jù)集的可視化結(jié)果如圖6所示。Tampered-SROIE篡改文本圖像質(zhì)量較高,能夠有效反映篡改文本檢測(cè)方法的檢測(cè)性能。
圖6 Tampered-SROIE數(shù)據(jù)集可視化(左:原始圖像;右:篡改圖像;紅框:篡改文本;綠框:真實(shí)文本)Figure 6 The visualization of Tampered-SROIE dataset(left: origin image; right: tampered image; texts in red box: tampered texts; texts in green box: real-world texts)
本文在一張2080Ti顯卡上部署網(wǎng)絡(luò)模型,并使用隨機(jī)梯度下降法(SGD)優(yōu)化網(wǎng)絡(luò)參數(shù)。在訓(xùn)練過(guò)程中,使用多尺度數(shù)據(jù)增廣提升網(wǎng)絡(luò)對(duì)多尺度文本的擬合能力。具體地,將長(zhǎng)邊固定為2 000,短邊選擇400、600、720、1 000、1 200對(duì)圖像進(jìn)行等比例縮放。測(cè)試過(guò)程中,將圖像縮放到1 200×2 000進(jìn)行預(yù)測(cè)。非極大值抑制算法在測(cè)試過(guò)程中用于濾除冗余的檢測(cè)結(jié)果。
本文采用召回率、準(zhǔn)確率、F值評(píng)估真實(shí)文本和篡改文本的檢測(cè)結(jié)果。F值的計(jì)算方式如式(9)所示。
為了評(píng)估真實(shí)類別和篡改類別檢測(cè)精度不平衡性,本文進(jìn)一步引入Gap-F。Gap-F值為真實(shí)類別和篡改類別F值的差,Gap-F的計(jì)算方式如式(10)所示。
召回率、準(zhǔn)確率、F值和Gap-F評(píng)估指標(biāo)能有效地反映篡改文本檢測(cè)方法的檢測(cè)性能,從多方面反映真實(shí)和篡改文本檢測(cè)效果。
通過(guò)部署全局空頻域關(guān)系模塊,篡改文本檢測(cè)模型能夠感知全局空頻域關(guān)系以輔助當(dāng)前文本框真?zhèn)涡耘袛啵行У仄胶獯鄹暮驼鎸?shí)文本的學(xué)習(xí)難度。全局空頻域關(guān)系模塊的消融實(shí)驗(yàn)結(jié)果如表1所示,相較不使用全局空頻域關(guān)系模塊的方法,本文方法有效提升了網(wǎng)絡(luò)在真實(shí)類別和篡改類別的檢測(cè)精度。具體地,針對(duì)真實(shí)文本,召回率、準(zhǔn)確率、F值提升分別為2.58%、0.08%、1.35%;針對(duì)篡改文本,召回率、準(zhǔn)確率、F值提升分別為0.08%、0.12%、0.11%。進(jìn)一步地,通過(guò)平衡真實(shí)類別和篡改類別的學(xué)習(xí)難度,本文方法降低了真實(shí)類別和篡改類別之間的檢測(cè)性能差距(1.96%和0.72%)。
全局空頻域關(guān)系模塊有效解決了真實(shí)類別和篡改類別檢測(cè)精度不平衡的問(wèn)題。在篡改文本檢測(cè)任務(wù)中,本文證明了該不平衡問(wèn)題是由于全局信息感知能力缺失所導(dǎo)致的:因?yàn)闊o(wú)法參考其他文本實(shí)例的紋理真?zhèn)涡?,?dǎo)致真實(shí)和篡改文本的學(xué)習(xí)難度無(wú)法平衡。得益于本文全局空頻域關(guān)系模塊的簡(jiǎn)潔性和有效性,該模塊能夠方便地移植到其他篡改文本檢測(cè)算法中,同時(shí)能夠通過(guò)增強(qiáng)每個(gè)子模塊的性能,進(jìn)一步提升網(wǎng)絡(luò)對(duì)篡改文本的鑒別能力。
雖然手動(dòng)調(diào)節(jié)真實(shí)和篡改文本損失函數(shù)能夠一定限度上緩解檢測(cè)精度不平衡的問(wèn)題,但是針對(duì)不同的檢測(cè)方法,檢測(cè)精度不平衡是無(wú)法預(yù)先確定的。如表2所示,EAST[32]和ATRR[33]分別傾向于對(duì)篡改文本和真實(shí)文本具有更好的檢測(cè)性能。這表明基于人工的損失函數(shù)調(diào)節(jié)是煩瑣的,同時(shí)損失函數(shù)的系數(shù)改變會(huì)引入更多不確定性,因此很難調(diào)節(jié)到最優(yōu)的檢測(cè)性能。但本文提出的全局空頻域關(guān)系模塊是可學(xué)習(xí)的,經(jīng)過(guò)實(shí)驗(yàn)證明,該模塊能夠自適應(yīng)地緩解檢測(cè)精度不平衡問(wèn)題,實(shí)現(xiàn)更加魯棒的平衡過(guò)程。
通過(guò)對(duì)頻域信息的感知,本文方法能夠更好地捕捉局部紋理的差異性。如表1所示,通過(guò)融合空域和頻域的特征,本文方法將真實(shí)文本和篡改文本的檢測(cè)精度提升到一個(gè)新的高度。具體地,在真實(shí)文本和篡改文本類別上,檢測(cè)的F值分別達(dá)到95.97%和96.80%。進(jìn)一步分析表1中的結(jié)果,雖然頻域信息的引入導(dǎo)致網(wǎng)絡(luò)Gap-F指標(biāo)略微升高(0.11%),但是針對(duì)篡改和真實(shí)文本的精度提升仍然是可觀的。因此,本文總結(jié)Gap-F性能的略微下降原因?yàn)椋侯l域信息的引入極大地增強(qiáng)了篡改文本類別的檢測(cè)性能,使篡改文本檢測(cè)精度相較真實(shí)文本檢測(cè)精度增長(zhǎng)速度更快(F值增長(zhǎng):真實(shí)0.18%和篡改0.29%),從而導(dǎo)致Gap-F性能略微下降。
表1 消融實(shí)驗(yàn)結(jié)果(GRM表示全局空頻域關(guān)系模塊)Table 1 The result of ablation study (GRM is the global RGB-frequency relationship module)
值得注意的是,本文通過(guò)多尺度的文本區(qū)域建議框?qū)︻l域特征進(jìn)行裁剪,相較一般的頻域信息提取,本文所引入的頻域特征提取過(guò)程是符合文本的局部存在和多尺度特性的。因此,該方法能夠廣泛適用于篡改文本檢測(cè)模型,通過(guò)提取符合文本特性的頻域信息,提升檢測(cè)模型對(duì)篡改紋理特征的鑒別能力。同時(shí),本文的頻域信息提取方式為今后篡改文本檢測(cè)模型引入額外信息輔助檢測(cè)提供參考,即可以通過(guò)文本區(qū)域建議框裁剪的形式,引入符合文本特性的輔助信息幫助提升模型檢測(cè)性能。
為了展現(xiàn)本文方法的有效性,本文從單階段和兩階段分別選取了最具代表性的方法進(jìn)行性能對(duì)比。具體地,本文復(fù)現(xiàn)了EAST[32]和 ATRR[33]方法,模型配置和訓(xùn)練細(xì)節(jié)參考EAST和ATRR論文原文進(jìn)行部署。為了將傳統(tǒng)文本檢測(cè)算法向篡改文本檢測(cè)任務(wù)遷移,本文引入額外的文本分類操作對(duì)上述傳統(tǒng)文本檢測(cè)算法的文本定位過(guò)程進(jìn)行了改動(dòng)。例如,在EAST中,將原始的中心區(qū)域預(yù)測(cè)圖分為真實(shí)文本中心預(yù)測(cè)圖和篡改文本中心預(yù)測(cè)圖,并分別對(duì)兩個(gè)中心文本預(yù)測(cè)圖進(jìn)行優(yōu)化;對(duì)于文本幾何預(yù)測(cè)過(guò)程,本文對(duì)真實(shí)和篡改文本共享文本幾何預(yù)測(cè)圖。
實(shí)驗(yàn)結(jié)果如表2所示,本文方法在真實(shí)文本和篡改文本上都展現(xiàn)了領(lǐng)先的檢測(cè)水平。相較同為兩階段的檢測(cè)算法[33],本文提出的基于空頻域關(guān)系建模的篡改文本檢測(cè)方法在真實(shí)文本和篡改文本檢測(cè)精度上都取得了更好的效果,同時(shí)可以有效解決檢測(cè)精度不平衡問(wèn)題,防止篡改檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)單一類文本的準(zhǔn)確檢測(cè)。
表2 Tampered-SROIE實(shí)驗(yàn)效果Table 2 The experiment result on Tampered-SROIE
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的進(jìn)一步分析發(fā)現(xiàn),檢測(cè)精度不平衡問(wèn)題普遍存在于篡改文本檢測(cè)算法(|Gap-F|指標(biāo)在EAST和ATRR算法分別為2.99%和2.37%),且該不平衡性呈現(xiàn)隨機(jī)出現(xiàn)的特點(diǎn),即檢測(cè)精度可能出現(xiàn)向真實(shí)文本或篡改文本傾斜的情況。本文通過(guò)對(duì)全局信息的感知,捕獲全局真?zhèn)涡孕畔?,有效地解決了該不平衡問(wèn)題,且本文可學(xué)習(xí)的平衡方式能夠更好地幫助網(wǎng)絡(luò)同時(shí)提升真實(shí)文本和篡改文本的檢測(cè)精度,使兩類文本的檢測(cè)性能都達(dá)到最好的效果。
另外,本文將檢測(cè)結(jié)果進(jìn)行了可視化。如圖7所示,相較EAST[32]和 ATRR[33],本文的篡改文本檢測(cè)方法能夠更準(zhǔn)確地區(qū)分篡改和檢測(cè)文本,同時(shí)生成更加緊致的文本包圍框,因此在實(shí)際應(yīng)用場(chǎng)景中,本文所提出的篡改文本檢測(cè)算法更具有實(shí)用價(jià)值。
圖7 檢測(cè)結(jié)果可視化Figure 7 The visualization of detection results
本文提出了一種基于空頻域關(guān)系建模的篡改文本檢測(cè)方法,在高質(zhì)量篡改文本圖像中,通過(guò)引入頻域信息同時(shí)建模不同文本實(shí)例之間的空頻域特征關(guān)系,實(shí)現(xiàn)準(zhǔn)確的篡改文本檢測(cè)。雖然對(duì)傳統(tǒng)文本檢測(cè)方法的簡(jiǎn)單修改能夠適用于篡改文本檢測(cè)任務(wù),但本文實(shí)驗(yàn)證明,篡改文本檢測(cè)任務(wù)中局部紋理差異性感知困難和檢測(cè)精度平衡困難問(wèn)題極大地限制了篡改文本檢測(cè)算法性能。
此外,本文所提出的思想可以擴(kuò)展到其他篡改文本檢測(cè)算法中,通過(guò)直接使用或者簡(jiǎn)單修改文中的模塊,可以實(shí)現(xiàn)篡改文本檢測(cè)精度的顯著提升,這為篡改文本檢測(cè)技術(shù)的相關(guān)研究提供了新的方向和思路。