劉 平,姜永峰,張 良
1.中國(guó)民航大學(xué) 電子信息與自動(dòng)化學(xué)院,天津 300300
2.浙江省溫州市公安局 情報(bào)信息支隊(duì),浙江 溫州 325000
通用場(chǎng)景文本檢測(cè)近些年來(lái)已經(jīng)成為計(jì)算機(jī)視覺(jué)和文檔分析領(lǐng)域的一個(gè)熱門研究方向,在地圖導(dǎo)航、拍照翻譯、車牌識(shí)別以及無(wú)人駕駛等領(lǐng)域應(yīng)用廣泛。相較于文檔文本,通用場(chǎng)景文本在字體、比例、排列和背景方面更加復(fù)雜多變,檢測(cè)難度更大。傳統(tǒng)的圖像文本檢測(cè)方法無(wú)法準(zhǔn)確有效地解決通用場(chǎng)景文本檢測(cè)的問(wèn)題,深度學(xué)習(xí)技術(shù)憑借其獨(dú)特的優(yōu)勢(shì)成為通用場(chǎng)景文本檢測(cè)的主流方法?;谏疃葘W(xué)習(xí)的場(chǎng)景文本檢測(cè)模型根據(jù)模型特點(diǎn)分為以下三類:基于回歸、基于分割和基于連通域的文本檢測(cè)方法。
基于回歸的通用場(chǎng)景文本檢測(cè)方法大部分都是在依賴錨框的目標(biāo)檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合文本檢測(cè)算法設(shè)計(jì)出適合通用場(chǎng)景文本檢測(cè)方向的網(wǎng)絡(luò)模型[1]。Liao等人[2]提出TextBoxes++模型,該模型主要使用四邊形文本框或具有特定傾斜角的文本框檢測(cè)任意方向的文本。以上檢測(cè)方法雖然在四邊形文本檢測(cè)方面取得了良好效果,但是在任意形狀文本檢測(cè)方面效果不理想。Jiang 等人[3]用自適應(yīng)中心區(qū)域掩碼和其與全文區(qū)域間的擴(kuò)展比率來(lái)表示任意形狀文本實(shí)例。ABCNet[4]和ABCNet v2[5]模型引入了貝塞爾曲線彎曲文本表示方法,解決基于回歸方法參數(shù)化復(fù)雜和魯棒性差的問(wèn)題。TESTR模型[6]在Transformers檢測(cè)中加入邊框引導(dǎo)多邊形檢測(cè)過(guò)程。SwimTextSpotter 模型[7]用可學(xué)習(xí)的建議框代替RPN。
基于分割的通用場(chǎng)景文本檢測(cè)方法主要從語(yǔ)義分割中獲得靈感,分為分離文本區(qū)域和精細(xì)分割兩部分。Zhou 等人提出一種高效準(zhǔn)確的文本檢測(cè)模型EAST[8],該模型不使用錨框機(jī)制和建議網(wǎng)絡(luò),直接推斷候選文本的像素級(jí)四邊形。Deng 等人提出基于像素連接的PixelLink 模型[9],該模型的輸出分為像素分類和連接預(yù)測(cè)兩部分,只有分類任務(wù)沒(méi)有回歸任務(wù),訓(xùn)練更有效。Xu等人提出檢測(cè)不規(guī)則文本的模型TextField[10],該模型使用場(chǎng)向量解決基于分割方法中鄰近文本目標(biāo)難以區(qū)分的問(wèn)題。PGNet[11]模型應(yīng)用PG-CTC損失來(lái)學(xué)習(xí)像素級(jí)字符分類特征圖,避免了應(yīng)用字符級(jí)標(biāo)注。Mask textspotter v3[12]模型使用SPN(分割建議網(wǎng)絡(luò))代替RPN,有利于檢測(cè)極端高寬比和不規(guī)則的文本實(shí)例。DLD模型[13]使用一種低成本的低分辨率動(dòng)態(tài)蒸餾框架,可以在精度和效率之間實(shí)現(xiàn)更好的平衡?;诜指畹奈谋緳z測(cè)方法的性能受到分割精度的強(qiáng)烈影響。
基于連通域的通用場(chǎng)景文本檢測(cè)方法大部分通過(guò)鏈接單個(gè)文本部分或字符生成最終文本。Shi等人提出使用文本段和鏈接關(guān)系的多向文本檢測(cè)模型SegLink[14],該模型可以很好地檢測(cè)出大尺度和小尺度文本。Feng等人提出TextDragon文本檢測(cè)模型[15],該模型使用一系列局部四邊形來(lái)定位局部區(qū)域,再根據(jù)它們的幾何關(guān)系對(duì)這些文本框進(jìn)行分組?;谶B通域的文本檢測(cè)方法通常對(duì)長(zhǎng)文本或非四邊形文本具有魯棒性,這些方法的性能很大程度上依賴于分組或鏈接結(jié)果的魯棒性?;贑NN(convolutional neural network)的算法會(huì)受到局部算子的限制,從而不能直接捕獲遙遠(yuǎn)分量區(qū)域之間的關(guān)系。DRRG 網(wǎng)絡(luò)(deep relational reasoning graph network)[16]引用GCN(graph convolutional network)推理網(wǎng)絡(luò)解決了CNN 方法受局部算子限制的問(wèn)題,可直接捕獲遙遠(yuǎn)文本組件之間的關(guān)系。
雖然DRRG 網(wǎng)絡(luò)通過(guò)使用GCN 提升了網(wǎng)絡(luò)性能,但是該模型并未針對(duì)長(zhǎng)短不一的文本對(duì)文本組件進(jìn)行合理應(yīng)用。本文對(duì)高階圖卷積網(wǎng)絡(luò)進(jìn)行了深入研究,在文本檢測(cè)網(wǎng)絡(luò)中融入了高階圖,對(duì)局部圖形構(gòu)造模塊和關(guān)系推理網(wǎng)絡(luò)進(jìn)行了優(yōu)化。本文主要做出以下三點(diǎn)貢獻(xiàn):
(1)設(shè)計(jì)了自適應(yīng)高階圖方案。該方案結(jié)合文本長(zhǎng)短不一的特點(diǎn),在局部圖中合理地設(shè)置高階鄰居的階數(shù)和個(gè)數(shù)。該方案使得網(wǎng)絡(luò)更有效地推理組件間的關(guān)系,更加精準(zhǔn)地連接組件,進(jìn)而提升文本檢測(cè)網(wǎng)絡(luò)的平均精度。
(2)考慮人臉聚類與文本檢測(cè)不同,本文對(duì)一階鄰居進(jìn)行了合理設(shè)置。在反向傳播和鏈接過(guò)程中,減少了無(wú)關(guān)組件的干擾。
(3)設(shè)計(jì)了高階圖卷積關(guān)系推理網(wǎng)絡(luò)。不同中心節(jié)點(diǎn)的子圖領(lǐng)域不同,每一階鄰居需要分配的權(quán)重不同。所以在關(guān)系推理網(wǎng)絡(luò)中改變圖卷積方式,且使用SE 聚合模塊為每個(gè)節(jié)點(diǎn)分配不同的聚合方案。該網(wǎng)絡(luò)可以更合理地利用高階鄰居節(jié)點(diǎn)的輔助信息。
機(jī)器學(xué)習(xí)問(wèn)題的輸入可以用圖來(lái)表示。眾多研究者已經(jīng)在圖結(jié)構(gòu)數(shù)據(jù)卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中投入了大量工作[17-21]。根據(jù)圖形數(shù)據(jù)卷積的定義,圖卷積網(wǎng)絡(luò)(GCN)分為光譜方法和空間方法?;诠庾V的GCN[17-19]推廣了基于圖傅里葉變換的卷積,而基于空間的GCN[20-21]直接對(duì)圖節(jié)點(diǎn)及其鄰居執(zhí)行手動(dòng)定義的卷積。圖卷積網(wǎng)絡(luò)的發(fā)展也為目標(biāo)檢測(cè)的領(lǐng)域注入新鮮血液,Chen等人[22]在Faster R-CNN 的基礎(chǔ)上加入兩個(gè)獨(dú)立圖網(wǎng)絡(luò)并分別用于捕獲全局語(yǔ)義信息和標(biāo)簽局部信息及定位信息,Shu等人[23]使用GCN和GAT來(lái)提取對(duì)象與場(chǎng)景之間的語(yǔ)義關(guān)系。盧光曦[24]從多個(gè)方面探討了圖卷積網(wǎng)絡(luò)在目標(biāo)檢測(cè)和識(shí)別領(lǐng)域的應(yīng)用。圖卷積在目標(biāo)檢測(cè)的應(yīng)用也為文本檢測(cè)方法帶來(lái)新的啟發(fā)。
在本文中,一個(gè)圖由G=(P,ε)表示,P表示節(jié)點(diǎn)集且|P|=n,ε是邊集。X=[x1,x2,…,xp,…,xn]T定義為節(jié)點(diǎn)特征,其中xp∈Rm表示節(jié)點(diǎn)的m維特征向量。給定一個(gè)L層網(wǎng)絡(luò),向量是節(jié)點(diǎn)p在第l層的狀態(tài),且0 ≤l≤L
高階圖卷積對(duì)多跳鄰域進(jìn)行操作,為了推導(dǎo)出能夠同時(shí)利用圖上高階和低階鄰域信息的方法,需將WL算法(公式(1))推廣到一個(gè)具有高階邊和低階邊的新圖上,將節(jié)點(diǎn)狀態(tài)從一維向量推廣到m維向量,讓G原始圖和G′新圖兩個(gè)節(jié)點(diǎn)共用一個(gè)邊。為了引入邊的權(quán)值,將聚合方式更改為加權(quán)線性組合。使用多層感知機(jī)近似hash函數(shù)[25],如公式(2)所示。
EK(p)表示節(jié)點(diǎn)p的鄰居集,其中K表示一組節(jié)點(diǎn)最多可以跳躍的次數(shù)。wu,p表示節(jié)點(diǎn)u與節(jié)點(diǎn)p之間邊(u,p)的權(quán)重。hash 表示散列函數(shù)。下文是從公式(1)推廣到公式(2)的具體過(guò)程。
通過(guò)可學(xué)習(xí)權(quán)值的線性組合來(lái)組合所有的聚合結(jié)果,最后使用多層感知機(jī)從高階和低階鄰居中獲取信息。公式(4)表示圖G經(jīng)過(guò)L層高階GCN的過(guò)程。
高階方案和廣義WL-1算法之間是等價(jià)的[25],即:
如公式(6)所示,將公式(5)代入公式(4)中即可導(dǎo)出公式(2):
高階圖卷積網(wǎng)絡(luò)具有學(xué)習(xí)結(jié)構(gòu)感知特征的能力[25],更深層次的模型可以從遙遠(yuǎn)的節(jié)點(diǎn)(高階鄰居)訪問(wèn)更多的信息。
本文提出兩階段(文本區(qū)域建議階段+文本區(qū)域生成階段)的高階圖卷積關(guān)系推理模型如圖1所示。骨干網(wǎng)絡(luò)提取特征,特征金字塔(feature pyramid networks,F(xiàn)PN)將特征融合后共享給文本建議網(wǎng)絡(luò)和高階局部圖,文本組件之間有了大致的鏈接后,再用自適應(yīng)關(guān)系推理網(wǎng)絡(luò)進(jìn)一步推理組件與相鄰組件間連接的深層可能性,最后建立鏈接并合并組件生成文本實(shí)例。與DRRG網(wǎng)絡(luò)[16]相似,文本建議網(wǎng)絡(luò)中的幾何特征和RRoI(rotation region of interest)[26]特征組成節(jié)點(diǎn)特征矩陣,鄰接矩陣由局部圖粗略建立鏈接信息生成。
圖1 高階圖卷積關(guān)系推理網(wǎng)絡(luò)整體框架圖Fig.1 Overall framework diagram of high-order graph convolution relation reasoning network
本文用兩個(gè)節(jié)點(diǎn)之間的上下文信息計(jì)算文本組件之間鏈接的概率。一階鄰居節(jié)點(diǎn)在網(wǎng)絡(luò)中至關(guān)重要,訓(xùn)練時(shí)只對(duì)其進(jìn)行反向傳播,鏈接時(shí)只考慮中心節(jié)點(diǎn)與其鏈接的概率,測(cè)試時(shí)只對(duì)其進(jìn)行分類。人臉聚類[27]中一階鄰居數(shù)量為8,細(xì)長(zhǎng)的文本與人臉不同,僅鏈接左右的鄰居,所以本文改進(jìn)一階鄰居的設(shè)置。
圖2中不同文本實(shí)例距離較近,同一顏色的文本組件為一個(gè)文本實(shí)例,從中挑選一個(gè)鄰居情況復(fù)雜的組件舉例說(shuō)明。圖2中展示中心節(jié)點(diǎn)p和其8個(gè)最近的鄰居節(jié)點(diǎn),1~8表示距離由近及遠(yuǎn),需要鏈接的點(diǎn)為1、2和4。理論上只要能鏈接到1和2就可以傳遞下去從而鏈接到整個(gè)文本實(shí)例,但是可能出現(xiàn)如圖3文組件密集和疏松相間等情況,從而導(dǎo)致文本實(shí)例鏈接中斷,所以一階鄰居個(gè)數(shù)擴(kuò)充到5。對(duì)數(shù)據(jù)集中所有文本實(shí)例研究后,發(fā)現(xiàn)需要鏈接的左右兩邊最近文本組件必定在距離最近的5個(gè)組件中。綜上所述,將一階鄰居的個(gè)數(shù)設(shè)置為5。
圖2 一階鄰居示意圖Fig.2 First-order neighbors diagram
圖3 一階鄰居特殊情況Fig.3 Special case of first-order neighbors
雖然反向傳播過(guò)程不考慮高階鄰居節(jié)點(diǎn),但是在關(guān)系推理網(wǎng)絡(luò)中遠(yuǎn)處的鄰居節(jié)點(diǎn)不可或缺。高階鄰居可以提供中心節(jié)點(diǎn)p和鄰居之間的上下文局部結(jié)構(gòu)的輔助信息。為了更有效地推理文本組件間的關(guān)系,本文設(shè)計(jì)了一種自適應(yīng)的高階圖生成方案,可以為根據(jù)文本實(shí)例自身特點(diǎn)生成合適的高階鄰居方案。
數(shù)據(jù)集中文本長(zhǎng)短不一,也就導(dǎo)致文本組件的數(shù)量不一,根據(jù)局部圖中文本組件的個(gè)數(shù)對(duì)鄰居節(jié)點(diǎn)進(jìn)行設(shè)置。分別用公式(7)和公式(8)來(lái)確定鄰居的階數(shù)h以及kh(h階鄰居中距離每個(gè)h-1 階鄰居最近的鄰居數(shù)量),一階鄰居數(shù)固定為5,其中n表示節(jié)點(diǎn)(局部圖中文本組件)個(gè)數(shù),Ceiling表示向上取整,h表示第幾階,F(xiàn)loor表示向下取整。n不大于25的短文本實(shí)例,直接設(shè)置階數(shù)h=2,且k1=5,k2=4;對(duì)于特長(zhǎng)文本,不需要對(duì)所有的文本組件都進(jìn)行訓(xùn)練,否則會(huì)加入干擾信息且減緩網(wǎng)絡(luò)的收斂速度,用階數(shù)h來(lái)限制進(jìn)行關(guān)系推理的鄰居總個(gè)數(shù)。
本文3.3節(jié)實(shí)驗(yàn)中使用表示高階圖方案。一階鄰居是距離中心節(jié)點(diǎn)p最近的k1個(gè)鄰居節(jié)點(diǎn)。二階鄰居是距離每個(gè)一階鄰居距離最近的k2個(gè)鄰居之和(不考慮中心節(jié)點(diǎn)及一階鄰居節(jié)點(diǎn))。以此類推,h階鄰居是距離每個(gè)h-1 階最近的kh個(gè)鄰居之和(不考慮中心節(jié)點(diǎn)及1到h-1 階鄰居節(jié)點(diǎn))。
圖是非歐幾里德數(shù)據(jù),不同節(jié)點(diǎn)之間存在異質(zhì)性,因此固定組合方法會(huì)限制模型的靈活性。此外,對(duì)不同聚合之間的關(guān)系建模不當(dāng)會(huì)帶來(lái)噪聲,損害網(wǎng)絡(luò)的性能。為了更好、更深地挖掘高階節(jié)點(diǎn)間的上下文信息,本文引入注意力機(jī)制,設(shè)計(jì)了一種高階圖卷積推理網(wǎng)絡(luò),可以為每一階的節(jié)點(diǎn)獨(dú)立地生成一套聚合方案。
如圖4 所示,高階深度關(guān)系推理網(wǎng)絡(luò)以4 層級(jí)聯(lián)的GCN 為基礎(chǔ),用SE(squeeze-and-excitation)聚合模塊[25]為特征矩陣重新分配權(quán)重,最后用激活函數(shù)ReLu6將不同層GCN相連。SENet中的SE塊可以通過(guò)顯式地建模信道之間的相互依賴關(guān)系,并根據(jù)這些信道之間的相互依賴關(guān)系生成每個(gè)信道的權(quán)重。在本文中,使用SE塊依據(jù)不同階鄰居間的依賴關(guān)系生成每階鄰居的權(quán)重。其中,圖卷積的方式改為逐階圖卷積,在進(jìn)行逐階圖卷積時(shí)不需要學(xué)習(xí)權(quán)重,這樣方便為每一階鄰居分配權(quán)重。
圖4 高階關(guān)系推理網(wǎng)絡(luò)Fig.4 High-order relational reasoning network
圖5所示,以第一層GCN為例,介紹SE聚合模塊的實(shí)現(xiàn)過(guò)程。給定特征矩陣X和鄰接矩陣A,X先與權(quán)重W進(jìn)行矩陣相乘得到矩陣Z,Z與A進(jìn)行逐階圖卷積得到聚合結(jié)果Y。圖卷積是一次性聚合所有鄰居節(jié)點(diǎn)的特征信息,而逐階圖卷積則是將每階的鄰居分開(kāi)聚合得到ak,再串聯(lián)每階的聚合結(jié)果得到Y(jié)。逐階圖卷積使用公式(9)[16]:
圖5 SE聚合模塊詳解圖Fig.5 Detailed explanation of SE-aggregation module
其中,δ表示激活函數(shù)ReLu6,W1,W2分別表示兩層感知機(jī)可訓(xùn)練的權(quán)重,W1∈R(K+1)×(K+1)且W2∈R(K+1)×(K+1)。qp被用作組合所有聚合結(jié)果的權(quán)重。
其中,qp,i是qp中第i個(gè)元素,a′p是節(jié)點(diǎn)p當(dāng)前層的特征聚合結(jié)果。SE模塊的輸出qp可以為高階圖中每一階的鄰居節(jié)點(diǎn)生成一個(gè)聚合權(quán)重矩陣。高階推理網(wǎng)絡(luò)有效利用了輔助信息,進(jìn)而提高一階鄰居鏈接的準(zhǔn)確性。
每層逐階圖卷積的時(shí)間復(fù)雜度(計(jì)算量)和空間復(fù)雜度(參數(shù)量)由公式(16)表示[19],其中ε是邊集,邊數(shù)是線性的,Ci表示輸入通道數(shù),Co表示輸出通道數(shù):
每個(gè)SE 聚合的時(shí)間復(fù)雜度和空間復(fù)雜度由公式(17)表示,H表示階數(shù),r表示SE模塊的縮減率。
值得注意的是,SE 聚合模塊的引入意味著權(quán)重的增加,對(duì)于鄰居設(shè)置單一的原網(wǎng)絡(luò)性能提升較小,但對(duì)于本文提出高階圖卷積網(wǎng)絡(luò)而言,SE 聚合模塊可以配合不同長(zhǎng)度的文本生成不同的權(quán)重,使得網(wǎng)絡(luò)更有效地挖掘深層次的上下文信息,預(yù)計(jì)使網(wǎng)絡(luò)的性能得到較為顯著的提升。
表1 中分別對(duì)本文所用3 個(gè)數(shù)據(jù)集從訓(xùn)練圖片張數(shù)、測(cè)試圖片張數(shù)、數(shù)據(jù)集中包含文本實(shí)例類型和標(biāo)注方式四個(gè)方面進(jìn)行介紹。
表1 數(shù)據(jù)集介紹Table 1 Introduction to datasets
本文中所有實(shí)驗(yàn)使用的系統(tǒng)為Ubuntu16.04,中央處理器CPU為Intel?Xen?Silver 4110。使用PyTorch1.2.0框架搭建網(wǎng)絡(luò)模型,使用GPU(GTX 1080 Ti)搭配運(yùn)算平臺(tái)CUDA 9.0訓(xùn)練網(wǎng)絡(luò)。
本文訓(xùn)練過(guò)程使用SynthText[28]數(shù)據(jù)集預(yù)訓(xùn)練模型,訓(xùn)練策略為mini-batch,epoch 設(shè)置為700,采用SGD 優(yōu)化器,初始學(xué)習(xí)率為0.001,每迭代50 次后下降10%。Total-Text 和CTW-1500 數(shù)據(jù)集的批大?。╞atch_size)為4,ICDAR2015數(shù)據(jù)集的batch_size為6。
首先,本文為了證明8 個(gè)一階鄰居不合理,分別用7、6、5、4階鄰居進(jìn)行替換實(shí)驗(yàn)。本次實(shí)驗(yàn)的骨干網(wǎng)絡(luò)為vgg16,使用數(shù)據(jù)集Total-Tex(t后文不做特殊說(shuō)明,實(shí)驗(yàn)中骨干網(wǎng)絡(luò)和數(shù)據(jù)集同本次實(shí)驗(yàn)一樣)。表2為一階鄰居數(shù)量研究實(shí)驗(yàn),其中P、R和F1分別表示精度、召回率和平均精度(F1-measure)。鄰居設(shè)置都為2 階,且k2=4。k1=8 是原網(wǎng)絡(luò)中的設(shè)置。
表2 不同一階鄰居實(shí)驗(yàn)Table 2 Experiments of different first-order neighbors 單位:%
在表2 中,k1=7 時(shí),F(xiàn)1 的值最高,比原網(wǎng)絡(luò)提升了0.64 個(gè)百分點(diǎn)。但k1=6、5、4 時(shí),F(xiàn)1 值反而降低,與2.2節(jié)局部圖中對(duì)一階鄰居的分析不符。出現(xiàn)此結(jié)果是因?yàn)?,? 中的實(shí)驗(yàn)只考慮到了一階鄰居,忽略了鄰居總數(shù),導(dǎo)致關(guān)系推理的輔助信息不夠。
2.2節(jié)所提出的高階圖方案是自適應(yīng)的,是由文本實(shí)例的文本長(zhǎng)短決定。為了證明本文所提高階圖方案的優(yōu)勢(shì),設(shè)計(jì)兩種固定的高階方案與之進(jìn)行比較。第一種,鄰居階數(shù)和ki成反比。以5 階為例,鄰居設(shè)置為k-hop=[5,4,3,2,1]。第二種,除一階鄰居外,剩余階數(shù)的ki分別為3 和2,k-hop=[5,3,3,2,2]。表3 所示為高階方案的實(shí)驗(yàn)結(jié)果,其中k-hop=[k1,k2,k3,k4,k5],第三種即本文方案,該實(shí)驗(yàn)中限制最高階數(shù)是5階,k1=5。
表3 不同高階方案實(shí)驗(yàn)Table 3 Experiments of different high-order schemes 單位:%
從表3中F1值的變化可得,第三種高階圖方案明顯優(yōu)于第一種和第二種高階方案。第三種方案的F1值比表3中k1=7的F1值高0.36個(gè)百分點(diǎn)、比k1=5的F1值高1.59 個(gè)百分點(diǎn),說(shuō)明了輔助信息的重要性,也側(cè)面說(shuō)明了設(shè)置k1=5的合理性。
表4 為高階圖卷積上在不同數(shù)據(jù)集上不同階數(shù)的實(shí)驗(yàn)結(jié)果,其中h表示采用第三種高階方案時(shí)的最高階數(shù),即2.2 節(jié)中的hmax。表4 中的實(shí)驗(yàn)數(shù)據(jù)表明本文網(wǎng)絡(luò)在Total-Text 和CTW1500 數(shù)據(jù)集上hmax取值為5 的平均精度最高,在ICDAR2015 數(shù)據(jù)集上hmax取值為4的平均精度最高。此情況是因?yàn)镮CDAR2015中小面積文本較多。為了進(jìn)一步挖掘深層的輔助信息,在高階圖卷積方案的基礎(chǔ)上引入SE聚合模塊。
表4 不同階數(shù)實(shí)驗(yàn)方案Table 4 Experiments schemes of different orders 單位:%
表5 中H-order 表示本文提出的高階圖卷積方案,H-order+SE表示在高階圖卷積方案的基礎(chǔ)上加入SE聚合模塊。實(shí)驗(yàn)結(jié)果表明,SE 聚合模塊在高階推理網(wǎng)絡(luò)中發(fā)揮其優(yōu)勢(shì),使得網(wǎng)絡(luò)性能提升了0.37個(gè)百分點(diǎn)。同時(shí),表5 中DRRG+SE 的F1 值較DRRG 網(wǎng)絡(luò)降低了1.6個(gè)百分點(diǎn),驗(yàn)證了2.3節(jié)提出的SE聚合模塊不適用原網(wǎng)絡(luò)的假設(shè)。表5 中參數(shù)量和計(jì)算量的結(jié)果是以輸入640×640像素圖片為前提得出的,SE聚合模塊的加入增加了精度的同時(shí)也增加了網(wǎng)絡(luò)復(fù)雜度。
表5 SE聚合模塊對(duì)比實(shí)驗(yàn)Table 5 Comparison experiments of SE-aggregation module
SENet[29]在全連接層中設(shè)置縮減率r來(lái)限制模型復(fù)雜度,本文在不同數(shù)據(jù)集上討論了r對(duì)模型精度的影響。表6中數(shù)值為F1值,不同數(shù)據(jù)集對(duì)r的取值不同。
表6 不同r 值實(shí)驗(yàn)Table 6 Experiments with different value of r
為了驗(yàn)證自適應(yīng)高階圖卷積推理網(wǎng)絡(luò)的普適性和有效性,本文分別在Total-Text、CTW1500和ICDAR2015數(shù)據(jù)集上進(jìn)行與不同網(wǎng)絡(luò)模型的對(duì)比實(shí)驗(yàn)。表6 中New Model 表示:實(shí)驗(yàn)采用表3 中第三種高階方案,階數(shù)最高為5 階,并且引入SE 聚合模塊。ICDAR2015 該數(shù)據(jù)集上最高階數(shù)設(shè)置為4 階進(jìn)行實(shí)驗(yàn)。從表5 和表6 中F1 值可以得出,本文提出的方法在CTW1500、ICDAR2015 和Total-text 數(shù)據(jù)集上的平均精度相較于DRRG 網(wǎng)絡(luò)分別提高了1.05、1.26 和1.4 個(gè)百分點(diǎn)。本文方法在ICDAR2015和Total-text數(shù)據(jù)集中精度提升較多,在Total-text 數(shù)據(jù)集中優(yōu)化效果最好,在CTW1500數(shù)據(jù)集上提升最小,可能因?yàn)镃TW1500 數(shù)據(jù)的標(biāo)注不統(tǒng)一[16]。
對(duì)表7 中實(shí)驗(yàn)數(shù)據(jù)中不同模型在不同數(shù)據(jù)集中F1值進(jìn)行比較。在Total-text數(shù)據(jù)集上,本文網(wǎng)絡(luò)的平均精度明顯其他網(wǎng)絡(luò)。在CTW1500 和ICDAR2015 數(shù)據(jù)集上,本文方法優(yōu)于大部分網(wǎng)絡(luò)。證明了本文方法的優(yōu)越性。圖6(a)、(b)、(c)分別為本文方法在ICDAR2015、CTW1500和Total-text數(shù)據(jù)集中的最終檢測(cè)結(jié)果圖。本文方法可以在復(fù)雜背景干擾下準(zhǔn)確地檢測(cè)任意形狀的文本。
表7 本文模型與其他文本檢測(cè)模型的對(duì)比實(shí)驗(yàn)Table 7 Comparative experiments between this model and other text detection models 單位:%
圖6 不同數(shù)據(jù)集上的檢測(cè)效果圖Fig.6 Detection effect on different datasets
針對(duì)通用場(chǎng)景下任意形狀文本檢測(cè)困難的問(wèn)題,本文提出一種基于高階圖卷積推理的文本檢測(cè)方法,該方法主要對(duì)局部圖和推理網(wǎng)絡(luò)兩個(gè)部分進(jìn)行優(yōu)化。首先,局部圖中分別對(duì)高階鄰居和一階進(jìn)行了合理的設(shè)置,高階鄰居方案可以讓關(guān)系推理網(wǎng)絡(luò)有效地從遙遠(yuǎn)的組件獲得輔助信息,一階鄰居數(shù)量的降低使得網(wǎng)絡(luò)提高了工作效率。其次,在推理網(wǎng)絡(luò)中加入SE聚合模塊,可以為每個(gè)節(jié)點(diǎn)的每一階鄰居生成不同的權(quán)重。實(shí)驗(yàn)結(jié)果表明,本文提出的自適應(yīng)高階圖方案在不同的數(shù)據(jù)集上都展示出其優(yōu)越性,高階圖卷積關(guān)系推理網(wǎng)絡(luò)有效地利用了輔助信息,進(jìn)而提高了模型的平均精度。但是本文提出的網(wǎng)絡(luò)參數(shù)量和計(jì)算量偏大,所以下一步工作可以對(duì)該網(wǎng)絡(luò)進(jìn)行輕量化,增加其實(shí)用性。