孟月波,金 丹,劉光輝,徐勝軍,韓九強(qiáng),石德旺
(西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055)
圖像中的文本信息可以傳達(dá)豐富而準(zhǔn)確的高層語(yǔ)義信息,具有高度的概括性和抽象的描述能力,是理解圖像場(chǎng)景內(nèi)容的重要線索。自然場(chǎng)景文本檢測(cè)技術(shù)使用邊界框精確捕捉與定位場(chǎng)景中的文本實(shí)例,在智能交通、基于內(nèi)容的圖像/視頻檢索以及可穿戴/便攜式視覺(jué)系統(tǒng)等諸多領(lǐng)域具有重要的應(yīng)用[1-2]。
深度神經(jīng)網(wǎng)絡(luò)因其具有較強(qiáng)的深層次特征提取能力以及非線性擬合能力,相較于傳統(tǒng)文本檢測(cè)方法,能夠較好地解決復(fù)雜自然場(chǎng)景下的文本圖像到文本位置和文本內(nèi)容的映射問(wèn)題[3],并且已取得了諸多的研究成果。按照文本目標(biāo)的排列方向不同,這些方法可以分為水平方向文本檢測(cè)方法[4]、傾斜方向文本檢測(cè)方法[5-11]、彎曲文本乃至任意方向文本檢測(cè)方法[12-16]。文獻(xiàn)[4]針對(duì)水平方向文本首次利用垂直錨點(diǎn)回歸機(jī)制得到固定寬度的豎直矩形文本區(qū),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)聯(lián)合預(yù)測(cè)文本的位置和類(lèi)別,最終定位水平文本行;但垂直錨點(diǎn)結(jié)構(gòu)的設(shè)計(jì),使得該方法無(wú)法檢測(cè)傾斜文本。文獻(xiàn)[5]利用局部信息連接文本行切片,實(shí)現(xiàn)傾斜文本檢測(cè);但信息的切片與連接過(guò)程會(huì)引入一定的誤差,影響檢測(cè)精度。為降低中間步驟對(duì)性能的影響,文獻(xiàn)[8]直接 通 過(guò) 全 卷 積 網(wǎng) 絡(luò)[17](Fully Convolutional Net‐works,F(xiàn)CN)產(chǎn)生文本框的預(yù)測(cè),實(shí)現(xiàn)了端到端的訓(xùn)練和優(yōu)化;但受感受野限制,對(duì)較長(zhǎng)文本框檢測(cè)效果欠佳。文獻(xiàn)[9]提出了將長(zhǎng)文本檢測(cè)問(wèn)題轉(zhuǎn)換為檢測(cè)文本頭部和尾部邊界問(wèn)題的新思路,但當(dāng)該模型應(yīng)用于各種形狀及大小共存的自然場(chǎng)景文本檢測(cè)任務(wù)時(shí),魯棒性較差。至此,實(shí)現(xiàn)彎曲乃至任意形狀大小的文本檢測(cè)成為難點(diǎn)問(wèn)題。文獻(xiàn)[13]通過(guò)對(duì)輸出層采用不規(guī)則卷積核來(lái)適應(yīng)文本長(zhǎng)度變化,克服了較大長(zhǎng)寬比對(duì)文本檢測(cè)任務(wù)的影響;但該模型在比例變化劇烈的情況下效果仍不理想。文獻(xiàn)[15]結(jié)合回歸思想,通過(guò)提出新的文本邊緣點(diǎn)回歸方式,克服了對(duì)文本目標(biāo)長(zhǎng)寬比大小的限制,實(shí)現(xiàn)多邊形文本重構(gòu);但由于回歸方式的約束,該方法對(duì)于彎曲程度較大的文本檢測(cè)效果不佳。文獻(xiàn)[16]首次提出了一種基于實(shí)例分割的掩模文本檢測(cè)方法,通過(guò)掩膜分支完成文本實(shí)例的分割任務(wù),打破了形狀與大小的限制,且有效避免了同一圖片中多目標(biāo)的類(lèi)間競(jìng)爭(zhēng)問(wèn)題,實(shí)現(xiàn)了任意形狀文本區(qū)域的檢測(cè),檢測(cè)精度提升顯著。
隨著科技水平的不斷進(jìn)步,高分辨率圖像越來(lái)越普及,逐漸成為文本檢測(cè)的主要對(duì)象。該類(lèi)圖像特征尺度差異較大,想要獲取其多尺度信息,需要有更豐富的感受野,否則在提取文本目標(biāo)特征時(shí),會(huì)造成細(xì)粒度特征難以捕獲、多尺度特征不佳問(wèn)題。同時(shí),復(fù)雜場(chǎng)景中的文本實(shí)例具有極端長(zhǎng)寬比特點(diǎn),現(xiàn)有候選框篩選方式難以實(shí)現(xiàn)偽目標(biāo)的精細(xì)過(guò)濾,導(dǎo)致檢測(cè)結(jié)果存在掩膜過(guò)度重疊問(wèn)題,影響檢測(cè)性能。
針對(duì)上述問(wèn)題,本文借鑒文獻(xiàn)[16]的掩膜文本檢測(cè)思想,提出一種共享核空洞卷積與注意力機(jī)制引導(dǎo)FPN(Kernel-sharing Dilated Convolutions and Attention-guided FPN,KDA-FPN)的文本檢測(cè)方法。特征提取部分通過(guò)具有共享核的空洞卷積,擴(kuò)大感受野,深挖感受野細(xì)粒度特征,獲取多尺度特征;同時(shí),減少參數(shù)量,提升計(jì)算效率。并引入上下文注意模塊與內(nèi)容注意模塊,加強(qiáng)對(duì)特征間語(yǔ)義關(guān)系與空間位置信息的關(guān)注,得到更全面的特征表達(dá),提升特征融合質(zhì)量。文本后處理部分,提出最小交集的候選框篩選策略(Intersec‐tion Over Minimum,IOM),將候選框中面積最大的框與相鄰文本框之間區(qū)域的交集面積占較小框面積的比值作為候選框篩選評(píng)價(jià)指標(biāo),抑制采用交并比(Intersection Over Union,IOU)[28]策略衡量?jī)蓚€(gè)集合的重疊度時(shí),因文本區(qū)域長(zhǎng)寬比和大小的劇烈變化導(dǎo)致掩膜重疊的問(wèn)題,實(shí)現(xiàn)候選框精細(xì)篩選,從而提高檢測(cè) 精度。ICDAR2013[21],ICDAR2015[22]以及Total-Text[23]數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法顯著提高了文本檢測(cè)性能。
本文方法整體結(jié)構(gòu)如圖1所示,具體包括4個(gè)部分:特征提取網(wǎng)絡(luò)、候選框生成網(wǎng)絡(luò)(Region Proposal Network,RPN)[20]、分類(lèi)與回歸網(wǎng)絡(luò)、Mask分支。特征提取網(wǎng)絡(luò)以Resnet50為主干網(wǎng)絡(luò)采用自底向上的前向傳播方式,得到多尺度特征圖{F2、F3、F4、F5},通過(guò)共享核空洞卷積與注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)KDA-FPN,提升特征的辨識(shí)能力。候選框生成網(wǎng)絡(luò)通過(guò)anchor錨框機(jī)制[20]生成大量文本候選區(qū)域,本文anchor的大小設(shè)置為{32×32,64×64,128×128,256×256,512×512},長(zhǎng)寬比為{0.5,1,2},候選區(qū)域經(jīng)ROI Align[24]實(shí)現(xiàn)輸出與輸入像素的一一對(duì)應(yīng)。候選框生成網(wǎng)絡(luò)RPN可看作文本區(qū)域粗檢測(cè)過(guò)程,經(jīng)ROI Align后的本文候選框區(qū)域?yàn)槲谋绢?lèi)別,非候選框區(qū)域?yàn)楸尘邦?lèi)別。分類(lèi)與回歸網(wǎng)絡(luò)采用Fast RCNN模型[25],分類(lèi)分支通過(guò)全連接層輸出置信度大小,將候選框生成網(wǎng)絡(luò)RPN得到的文本區(qū)域進(jìn)一步細(xì)分為文本區(qū)域與背景區(qū)域兩類(lèi);回歸分支將全連接層作為邊界框回歸器,通過(guò)真值與預(yù)測(cè)值的偏差權(quán)重,取得分類(lèi)分支得到的本文區(qū)域的坐標(biāo)位置信息。Mask分支用于像素級(jí)別的文本實(shí)例輸出,通過(guò)非極大值抑制NMS[18]以及提出的IOM最小邊界框生成策略精細(xì)過(guò)濾候選框,生成與目標(biāo)文本區(qū)域大小、形狀一致的Mask掩模。
圖1 整體結(jié)構(gòu)Fig.1 Overall structure
特征金字塔網(wǎng)絡(luò)FPN在文本檢測(cè)任務(wù)中特征提取效果顯著,但對(duì)高分辨率圖像而言,其粗細(xì)粒度特征的尺度差異懸殊,使得模型捕獲特征能力受到限制,造成部分細(xì)節(jié)信息缺失;同時(shí),多尺度感受野間信息缺乏溝通,導(dǎo)致特征圖質(zhì)量欠佳。本文提出一種共享核空洞卷積與注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)KDA-FPN,具體結(jié)構(gòu)如圖2所示,該網(wǎng)絡(luò)通過(guò)共享核空洞卷積,在減少參數(shù)量的同時(shí)改善多層次特征捕獲能力,引入自注意力機(jī)制獲得更強(qiáng)的語(yǔ)義和更準(zhǔn)的定位信息,增強(qiáng)特征圖辨識(shí)能力。
圖2 共享卷積核空洞卷積與注意力引導(dǎo)的特征金字塔KDA-FPN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Shared convolution kernel dilated convolution and attention-guided FPN structure diagram
2.2.1 共享核空洞卷積模塊
共享核空洞卷積模塊(Kernel-sharing Dilat‐ed Convolution Module,KDM)結(jié)構(gòu)如圖2所示,通過(guò)共享3×3卷積核的空洞卷積擴(kuò)大輸入特征F5的感受野,挖掘深層次細(xì)粒度特征,利用共享機(jī)制加強(qiáng)各感受野間的聯(lián)系,減少參數(shù)量,降低模型復(fù)雜度;同時(shí),對(duì)F5進(jìn)行上采樣得到全局粗粒度信息描述特征,并將其與獲取的細(xì)粒度特征進(jìn)行融合,得到模塊KDM的輸出特征F。圖2中,⊕表示特征融合操作。
2.2.2 注意力引導(dǎo)模塊
特征F雖包含豐富的感受野信息,但由于冗余信息的存在,會(huì)降低檢測(cè)精度。本文通過(guò)引入注意力引導(dǎo)模塊(Attention-guide Module,AM),獲得語(yǔ)義與定位信息之間的依賴關(guān)系,精確定位,提升特征質(zhì)量,進(jìn)而提高檢測(cè)精度。AM模塊如圖2所示,由兩部分組成:上下文注意模塊(Context Attention Module,CxAM)以及內(nèi)容注意模塊(Content Attention Module,CnAM)。其中,CxAM模塊強(qiáng)化相關(guān)區(qū)域間特征的語(yǔ)義關(guān)系,使輸出特征語(yǔ)義表達(dá)更加清晰;CnAM模塊加強(qiáng)對(duì)空間位置信息的關(guān)注,弱化共享核空洞卷積對(duì)特征幾何特性的影響,精確目標(biāo)位置。最后,將CxAM、CnAM與KDM模塊的輸出特征融合,得到更全面的特征表達(dá)F'。
2.2.2 .1上下文注意模塊CxAM
如圖3所示,通道數(shù)為C、高度為H、寬度為W的輸入特征圖F經(jīng)式(1)~式(3),獲得通道數(shù)為C'的隱層子區(qū)域特征Q、K以及圖像增強(qiáng)特征
圖3 上下文注意模塊Fig.3 Context attention module
V,{Q,K}∈RC'×H×W,V∈RC×H×W:
采用公式(4)計(jì)算Q和K的關(guān)系矩陣A,A∈RX×H×W,X=H×W。通過(guò)sigmoid激活函數(shù)和平均池化操作,得子區(qū)域特征相關(guān)性注意力矩陣A',A'∈R1×H×W。
式中,?表示張量相乘。
最后,采用公式(5)獲取區(qū)域間特征語(yǔ)義關(guān)系的注意力表征E,E∈RC×H×W:
式中,⊙表示按元素相乘。
2.2.2 .2內(nèi)容注意模塊CnAM
Resnet50網(wǎng)絡(luò)中通道數(shù)為C''、高度為H、寬度為W的F5特征圖包含豐富空間位置信息。如圖4所示,將F5特征圖作為輸入,經(jīng)公式(6)和(7),獲得通道數(shù)為C'的隱層子區(qū)域特征P,Z;通過(guò)公式(8)生成其關(guān)系矩陣S;之后,經(jīng)sigmoid激活函數(shù)和平均池化操作,得子區(qū)域特征相關(guān)性注意 力 矩 陣S'。{P,Z}∈RC'×H×W,S∈RX×H×W,X=H×W,S'∈R1×H×W。
圖4 內(nèi)容注意模塊Fig.4 Content attention module
式中,?表示張量相乘。
最后,將S'結(jié)合式(3)生成圖像增強(qiáng)特征V,通過(guò)式(9)獲取區(qū)域間特征空間位置信息的注意力表征D,D∈RC×H×W:
式中,⊙表示按元素相乘。
檢測(cè)任務(wù)通常采用非極大值抑制算法(Non-Maximum Suppression,NMS)[18],通過(guò)計(jì)算邊界框之間交集與并集的比值IOU過(guò)濾多余候選框,尋找最佳檢測(cè)位置。然而,文本數(shù)據(jù)具有長(zhǎng)寬比變化劇烈特點(diǎn),候選區(qū)域經(jīng)IOU篩選后,預(yù)測(cè)的結(jié)果仍會(huì)出現(xiàn)掩膜重疊現(xiàn)象,影響檢測(cè)效果。
本文提出一種IOM(Intersection Over Mini‐mum)的后處理篩選策略,實(shí)現(xiàn)候選框的精確過(guò)濾,具體步驟如下:
(1)同一文本區(qū)域預(yù)測(cè)得到N個(gè)候選框,分別計(jì)算候選框面積,并按照面積大小將其排序,記作Si(i=1,2…,N),S1>S2>…>SN。
(2)將當(dāng)前面積最大候選框S1分別與其他候選框按照公式(10)計(jì)算評(píng)價(jià)閾值Tj,j=1,2…,N-1,將依據(jù)該閾值進(jìn)行候選框篩選。
其中,分子部分描述兩個(gè)對(duì)比候選框的交疊面積,評(píng)價(jià)閾值Tj反映對(duì)比候選框的交疊程度:
i.若Tj>0.5,說(shuō)明候選框交疊程度占比較大,將S1+j移出候選框集合。為防止有效信息丟失,移除S1+j前需保留兩部分的最小外接矩形;
ii.若Tj<0.5,說(shuō)明候選框交疊程度占比較小,分別保留兩個(gè)對(duì)比候選框S1與S1+j。
(3)計(jì)算當(dāng)前候選框個(gè)數(shù),假設(shè)個(gè)數(shù)為N',令N=N',重復(fù)步驟(1)操作,直到Tj均小于0.5,得到篩選結(jié)果。
本文采用如式(11)所示多任務(wù)損失函數(shù),具體包括RPN網(wǎng)絡(luò)損失Lrpn,F(xiàn)ast Rcnn模塊損失Lrcnn和掩碼損失Lmask三部分。
Lrpn和Lrcnn采用Faster RCNN中的損失定義形式[20],掩碼損失Lmask采用交叉熵?fù)p失形式,計(jì)算如式(12)所示:
式中,M表示所有像素?cái)?shù)目,xm和ym表示第m個(gè)像素的坐標(biāo)位置(m=1,2,…,M),S表示sigmoid函數(shù)。
本文及所對(duì)比算法均在Ubuntu系統(tǒng)下進(jìn)行,GPU型號(hào)為T(mén)itanV,環(huán)境配置為CUDA9.0+ana‐conda3+python3+tensorflow1.11.0。采用自然場(chǎng)景文本數(shù)據(jù)集ICDAR2013[21],ICDAR2015[22]和Total-Text[23]進(jìn)行實(shí)驗(yàn),驗(yàn)證本文方法的有效性。
準(zhǔn)確度、召回率和F度量值是文本檢測(cè)任務(wù)常采用的評(píng)價(jià)指標(biāo),具體計(jì)算如式(13)、(14)和(15)所示。準(zhǔn)確度表示預(yù)測(cè)為正的樣本中預(yù)測(cè)正確的數(shù)目,常用P表示;召回率表示正樣本被預(yù)測(cè)正確的數(shù)目,常用R表示;F度量值是基于準(zhǔn)確度和召回率的調(diào)和平均值,常用F表示。
其中,TP表示正樣本被判斷為正確樣本的數(shù)目,F(xiàn)N表示正樣本被判斷為錯(cuò)誤樣本的數(shù)目,F(xiàn)P表示負(fù)樣本被判斷為正確樣本的數(shù)目。
主 干 網(wǎng) 絡(luò)ResNet50選 擇ImageNet[29]預(yù) 訓(xùn) 練結(jié)果作為初始化參數(shù),其余模塊的初始化參數(shù)采用隨機(jī)生成方式。采用隨機(jī)梯度下降算法SGD對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,動(dòng)量、權(quán)重衰減系數(shù)以及初始學(xué)習(xí)率分別設(shè)置為0.9,5×10-4,0.001。網(wǎng)絡(luò)訓(xùn)練過(guò)程中,Batch Size均設(shè)置為8,IC‐DAR2013數(shù)據(jù)集設(shè)置迭代次數(shù)為5 000次,IC‐DAR2015數(shù)據(jù)集設(shè)置迭代次數(shù)為50 000次,To‐tal-text數(shù)據(jù)集設(shè)置迭代次數(shù)為60 000次。以IC‐DAR2015數(shù)據(jù)集為例對(duì)網(wǎng)絡(luò)訓(xùn)練過(guò)程進(jìn)行分析,其損失下降曲線如圖5所示。可以看出,網(wǎng)絡(luò)訓(xùn)練初期損失下降較快,迭代到26 000次左右時(shí)損失曲線下降趨于平穩(wěn),最終收斂在0.2左右,說(shuō)明本文網(wǎng)絡(luò)參數(shù)的訓(xùn)練結(jié)果較為理想。
圖5 損失下降曲線Fig.5 Loss decline curve
本文KDA-FPN網(wǎng)絡(luò)的特征提取過(guò)程如圖6所示,首先利用Resnet50主干網(wǎng)絡(luò)獲取多尺度特征圖{F2、F3、F4、F5};然后采用共享核空洞卷積KDM模塊改善多層次特征的捕獲能力;之后通過(guò)AM模塊中的上下文注意模塊CxAM、內(nèi)容注意模塊CnAM分別強(qiáng)化特征的語(yǔ)義關(guān)系和空間位置信息,提高特征表達(dá)能力;最后采用特征金字塔網(wǎng)絡(luò)FPN將特征圖{F2、F3、F4、F5}與其相鄰特征圖通過(guò)上采樣和1×1卷積進(jìn)行橫向鏈接合并,得到描述不同語(yǔ)義信息的特征映射{P2、P3、P4、P5}。
圖6 KDA-FPN特征提取過(guò)程Fig.6 KDA-FPN feature extraction network process
本文以圖1展示的文本圖像為例,對(duì)上述各模塊文本特征提取過(guò)程進(jìn)行實(shí)驗(yàn)說(shuō)明。待檢測(cè)圖像經(jīng)Resnet50主干網(wǎng)絡(luò)提取到的多尺度特征{F2、F3、F4、F5}如圖7所示,KDM、AM中的CxAM和CnAM模塊特征提取與融合結(jié)果如圖8所示。
圖7 Resnet50主干網(wǎng)絡(luò)多尺度特征提取結(jié)果Fig.7 Resnet50 network multi-scale feature extraction re‐sults
圖8 KDM,CxAM和CnAM模塊特征提取與融合結(jié)果Fig.8 KDM,CxAM and CnAM module feature extrac‐tion and fusion results
由實(shí)驗(yàn)結(jié)果可以看出,KDM模塊提取的特征圖細(xì)節(jié)表達(dá)更豐富;CxAM模塊提取到的特征圖更為關(guān)注語(yǔ)義信息;CnAM模塊提取到的特征圖對(duì)空間位置關(guān)系更敏感;將三個(gè)模塊輸出的特征進(jìn)行融合,為后續(xù)文本檢測(cè)提供了強(qiáng)辨識(shí)能力特征圖。
為進(jìn)一步說(shuō)明KDM與AM模塊作用,此處對(duì)兩個(gè)模塊引入前后特征金字塔網(wǎng)絡(luò)FPN特征提取結(jié)果進(jìn)行對(duì)比分析。如圖6所示,不引入KDM模塊、AM模塊時(shí),將特征金字塔網(wǎng)絡(luò)FPN得到的特征映射記作{C2、C3、C4、C5},具體實(shí)驗(yàn)結(jié)果如圖9(a)所示;引入KDM模塊、AM模塊時(shí),將特征金字塔網(wǎng)絡(luò)FPN得到的特征映射記作{P2、P3、P4、P5},實(shí)驗(yàn)結(jié)果如圖9(b)所示。由實(shí)驗(yàn)結(jié)果可以看出,相較于{C2、C3、C4、C5},{P2、P3、P4、P5}特征表征能力更強(qiáng),文本信息捕獲更全面。
圖9 特征金字塔網(wǎng)絡(luò)FPN特征提取實(shí)驗(yàn)結(jié)果Fig.9 Feature pyramid network FPN feature extraction experimental results
IOM后處理策略是一個(gè)迭代過(guò)程,這里仍以圖1展示的文本圖像為例,通過(guò)其某一文本區(qū)域的一次迭代過(guò)程對(duì)IOM策略的實(shí)現(xiàn)進(jìn)行說(shuō)明。
待檢測(cè)圖像的當(dāng)前次迭代輸入如圖10(a)所示,紅框位置文本區(qū)域包含6個(gè)交疊候選框,按照面積大小將其排序,記為S1,S2,S3,S4,S5,S6,如圖10(b)所示。將S1與S2按照 公 式10進(jìn) 行計(jì) 算 交疊閾值T1,可以看出T1>0.5,因此將S2移除并保留S1與S2的最小外接矩形S'1,該過(guò)程如圖10(c)、圖10(d)所示。繼續(xù)重復(fù)上述操作,最終得到該區(qū)域候選框篩選結(jié)果,如圖10(e)所示。
圖10 IOM后處理過(guò)程Fig.10 IOM post-processing process
該數(shù)據(jù)集是在2013年ICDAR閱讀挑戰(zhàn)賽中提出的,包含229張訓(xùn)練樣本和233張測(cè)試樣本,樣本為外景街拍的水平文本圖像,一幅圖像中存在多種尺寸和多種字體的文本區(qū)域。實(shí)驗(yàn)結(jié)果如圖11所示,多算法性能結(jié)果對(duì)比如表1所示。
圖11 ICDAR2013數(shù)據(jù)集結(jié)果對(duì)比圖Fig.11 Comparison of ICDAR2013 data set result
由圖11中箭頭指向處可見(jiàn),本文算法明顯改善了水平文本檢測(cè)任務(wù)中的掩膜重疊問(wèn)題,且改進(jìn)后的定位結(jié)果更加準(zhǔn)確。
由表1可知,本文算法的準(zhǔn)確度P較對(duì)比算法文獻(xiàn)[16]提升了1.2,召回率R提升了2.3,F(xiàn)度量值提升了1.8。表明本文算法對(duì)復(fù)雜自然場(chǎng)景中的水平方向文本檢測(cè)效果較好,優(yōu)于近幾年先進(jìn)的文本檢測(cè)算法。
表1 ICDAR2013數(shù)據(jù)集算法性能對(duì)比Tab.1 Algorithm performance comparison of the IC‐DAR2013 dataset
該數(shù)據(jù)集是2015年ICDAR閱讀挑戰(zhàn)賽中提出的,包含1 000個(gè)訓(xùn)練樣本和500個(gè)測(cè)試樣本,樣本為商場(chǎng)里隨拍的傾斜文本圖像,一幅圖像中存在大小差異較大的文本區(qū)域。實(shí)驗(yàn)結(jié)果如圖 12所示,多算法性能結(jié)果對(duì)比如表2所示。
圖12 ICDAR2015數(shù)據(jù)集結(jié)果對(duì)比圖Fig.12 Comparison of ICDAR2015 data set results
表2 ICDAR2015數(shù)據(jù)集算法性能對(duì)比Tab.2 Algorithm performance comparison of the IC‐DAR2015 dataset
從圖12箭頭指向處可見(jiàn),本文算法明顯抑制了水平和傾斜文本檢測(cè)時(shí)掩膜重疊的現(xiàn)象,使定位結(jié)果更加準(zhǔn)確。并且對(duì)于一些較小的文本區(qū)域,本文算法表現(xiàn)優(yōu)異。
由表2可知,本文算法的準(zhǔn)確度P較對(duì)比算法文獻(xiàn)[16]提升了1.3,召回率R提升了3,F(xiàn)度量值提升了2.2;相較對(duì)比算法文獻(xiàn)[31],本文算法召回率R、F度量值均較高,準(zhǔn)確度P與其相當(dāng)。表明本文算法對(duì)復(fù)雜自然場(chǎng)景中的傾斜方向文本檢測(cè)效果較好,優(yōu)于近幾年先進(jìn)的文本檢測(cè)算法。
該數(shù)據(jù)集包含1 255個(gè)訓(xùn)練樣本和300個(gè)測(cè)試樣本,樣本多采自現(xiàn)實(shí)生活場(chǎng)景和商業(yè)標(biāo)識(shí)等,圖像中存在水平、傾斜和彎曲三種文本區(qū)域。實(shí)驗(yàn)結(jié)果如圖13所示,多算法性能結(jié)果對(duì)比如表3所示。
圖13 Total-text數(shù)據(jù)集結(jié)果對(duì)比圖Fig.13 Comparison of Total-text data set results
表3 Total-text數(shù)據(jù)集算法性能對(duì)比Tab.3 Algorithm performance comparison of the Totaltext dataset
圖13中箭頭處表明本文算法對(duì)于任意形狀文本檢測(cè)的掩膜重疊問(wèn)題有明顯的改善,使定位更加精準(zhǔn)。對(duì)于圖中出現(xiàn)的漏檢情況,分析其原因主要為:受訓(xùn)練數(shù)據(jù)的影響,有一些“文本”區(qū)域的標(biāo)記帶有背景,這樣的訓(xùn)練數(shù)據(jù)在一定程度上影響訓(xùn)練過(guò)程。
由表3可知,相較對(duì)比算法文獻(xiàn)[16],本文算法準(zhǔn)確度P提升了0.6,召回率R提升了2.3,F(xiàn)度量值提升了1.6;相較對(duì)比算法文獻(xiàn)[32],本文算法準(zhǔn)確度P,F(xiàn)度量值均較高,召回率R與其相當(dāng)。表明本文算法對(duì)復(fù)雜自然場(chǎng)景中的水平方向、傾斜方向以及彎曲方向文本檢測(cè)效果較好,具有一定的競(jìng)爭(zhēng)力。
為了驗(yàn)證本文提出的后處理篩選策略IOM有 效 性,在ICDAR2013數(shù) 據(jù) 集、ICDAR2015數(shù)據(jù)集以及Total-text數(shù)據(jù)集上進(jìn)行了測(cè)試,結(jié)果如表4所示??梢钥闯觯啾菼OU,提出的IOM后處理篩選策略在ICDAR2013數(shù)據(jù)集上將算法的準(zhǔn)確度P提升了0.7,召回率R提升了0.6,F(xiàn)度量值提升了0.7;在ICDAR2015數(shù)據(jù)集上將算法的準(zhǔn)確度P提升了0.5,召回率R提升了1.5,F(xiàn)度量值提升了1;在Total-text數(shù)據(jù)集上將算法的準(zhǔn)確度P提升了0.4,召回率R提升了1.4,F(xiàn)度量值提升了1.1。消融實(shí)驗(yàn)結(jié)果表明,IOM后處理篩選策略顯著提高了算法的檢測(cè)性能。
表4 ICDAR2013、ICDAR2015、Total-text數(shù)據(jù)集后處理算法消融研究Tab.4 Research on ablation of post-processing algorithms for ICDAR2013、ICDAR2015 and Total-text datasets
本文提出了一種復(fù)雜場(chǎng)景下共享核空洞卷積與注意力引導(dǎo)FPN的文本檢測(cè)方法(KDAFPN)。該方法在特征提取階段,通過(guò)共享核空洞卷積深層次挖掘細(xì)粒度特征,同時(shí)減少參數(shù)量、降低模型復(fù)雜度。利用上下文注意模塊與內(nèi)容注意模塊精確表達(dá)目標(biāo)位置信息,促進(jìn)多尺度特征融合,提高特征圖質(zhì)量。提出IOM后處理策略來(lái)改善文本區(qū)域長(zhǎng)寬比變化較大所帶來(lái)的掩膜重疊問(wèn)題,進(jìn)而實(shí)現(xiàn)檢測(cè)性能的提升。實(shí)驗(yàn)結(jié)果證明:本文模型對(duì)于自然場(chǎng)景水平文本檢測(cè)的精度和召回率分別為95.3和90.4;對(duì)于傾斜文本檢測(cè)的精度和召回率分別為87.1和84.2;對(duì)于任意形狀文本檢測(cè)的精度和召回率分別為69.6和57.3,效果提升顯著。未來(lái)的工作將考慮把復(fù)雜場(chǎng)景下任意形狀文本的識(shí)別作為最終目標(biāo)。