楊鍶齊,易堯華,湯梓偉,王新宇
武漢大學(xué) 印刷與包裝系,武漢430079
自然場(chǎng)景圖像含有豐富的文本信息,準(zhǔn)確檢測(cè)到圖像中的文本信息有助于正確理解圖像內(nèi)容。傳統(tǒng)文本檢測(cè)方法主要基于連通域分析[1]和紋理特征分析[2],人工痕跡較重、適用范圍較窄。近年來,基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)[3-4]方法發(fā)展迅速,廣泛應(yīng)用于圖像/視頻檢索[5]、智能導(dǎo)航無人駕駛[6]等領(lǐng)域,并成為當(dāng)下研究熱點(diǎn)之一。自然場(chǎng)景文本檢測(cè)方法主要存在以下三方面挑戰(zhàn):(1)圖像文本形式多樣,具有不同顏色、字體、大小、形狀;(2)自然場(chǎng)景圖像背景復(fù)雜,存在類文本目標(biāo)如柵欄或窗戶等;(3)自然場(chǎng)景圖像中文本上存在光照不均勻、噪聲等干擾因素。
為了應(yīng)對(duì)上述挑戰(zhàn),大量基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)方法被提出。其中,基于Faster R-CNN[7]的自然場(chǎng)景文本檢測(cè)方法檢測(cè)速度快、精度高、具有較好的穩(wěn)定性。此類方法利用CNN網(wǎng)絡(luò)進(jìn)行特征提取,通過預(yù)設(shè)數(shù)量固定、尺度不同、長寬比不同的anchor,生成包含文本的感興趣區(qū)域(ROIs),最后進(jìn)行回歸和分類計(jì)算,得到文本檢測(cè)結(jié)果。在此基礎(chǔ)上,Tian等[8]提出CTPN自然場(chǎng)景文本檢測(cè)方法。首先,由RPN提取固定寬度為16像素的子文本區(qū)域,再將子文本區(qū)域的特征送入循環(huán)神經(jīng)網(wǎng)絡(luò)得到一系列子文本信息,最后合并得到最終文本檢測(cè)結(jié)果。Prasad等[9]以Faster R-CNN為基礎(chǔ),串聯(lián)文字載體目標(biāo)檢測(cè)網(wǎng)絡(luò)與文本檢測(cè)網(wǎng)絡(luò),利用文字載體信息輔助定位文字,文本檢測(cè)效果達(dá)到先進(jìn)水平。此外,在anchor的研究中,Liao等[10]提出的自然場(chǎng)景文本檢測(cè)方法TextBoxes,為適合文本檢測(cè),重新設(shè)計(jì)anchor的長寬比為1、2、3、5、7、10提高了文本檢測(cè)的召回率。雖然上述方法基本解決了圖像文本形式多樣的問題,并且可以從背景中定位文本,但是檢測(cè)效果會(huì)受到文本圖像中各種噪聲的影響,極易導(dǎo)致檢測(cè)文本的內(nèi)容不完整和漏檢如圖1所示。
圖1 文本檢測(cè)中的文本不完整與漏檢Fig.1 Broken results and omissions in text detection
通常情況下,檢測(cè)文本的內(nèi)容不完整可以通過圖像后處理加以減弱,例如按比例擴(kuò)大檢測(cè)框邊界,但是這種方法適用性較差、調(diào)參復(fù)雜。鑒于目標(biāo)分類領(lǐng)域的注意力機(jī)制,被廣泛地應(yīng)用于提升CNN模型對(duì)圖像中有效區(qū)域的感知能力,能夠減少圖像噪聲與背景對(duì)分類結(jié)果的影響。Woo等[11]提出了一種輕量、通用的注意力機(jī)制模塊,分別在空間和通道上對(duì)特征賦予注意力權(quán)重加成,從而特征具有更好的解釋性,并且更加關(guān)注目標(biāo)物體本身。但是該模塊被運(yùn)用在每段CNN網(wǎng)絡(luò)主干上,導(dǎo)致運(yùn)算緩慢并不適用于實(shí)時(shí)性較強(qiáng)的文本檢測(cè)任務(wù)。為了保證檢測(cè)方法的時(shí)效性,本文將注意力機(jī)制運(yùn)用到結(jié)構(gòu)簡單的RPN中,從而保留了注意力機(jī)制的引導(dǎo)作用。
為了解決檢測(cè)文本的內(nèi)容不完整和漏檢問題,綜上考慮,本文提出嵌入注意力機(jī)制的自然場(chǎng)景文本檢測(cè)方法,主要內(nèi)容如下:
(1)使用FPN融合深層、淺層CNN語義信息,兼顧大尺度文本與小尺度文本的檢測(cè),提升了召回率。
(2)設(shè)計(jì)嵌入注意力機(jī)制的RPN(AM-RPN),利用注意力機(jī)制增強(qiáng)圖像中文本特征并引導(dǎo)模型的關(guān)注方向,提升獲取ROIs的準(zhǔn)確性,保證檢測(cè)文本的完整,進(jìn)一步提高召回率。
本文方法共分為三個(gè)部分:CNN特征提取、AM-RPN以及后處理模塊,如圖2所示。CNN特征提取在基礎(chǔ)網(wǎng)絡(luò)后增加了優(yōu)化后的FPN結(jié)構(gòu),最終輸出多層融合深層、淺層特征的特征層。AM-RPN通過引入注意力機(jī)制,對(duì)輸入的特征層在顏色通道以及空間上增強(qiáng)其文本特征,最后輸出多個(gè)包含文本的建議區(qū)域。后處理部分將各層檢測(cè)得到的文本框進(jìn)行NMS處理,融合得到最終的文本檢測(cè)結(jié)果。
圖2 方法流程圖Fig.2 Flow sheet of proposed method
本文方法以Faster R-CNN為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),ResNet-101為骨干網(wǎng)絡(luò)。但隨著網(wǎng)絡(luò)模型的不斷加深,特征所具有的深層語義信息更加顯著,淺層顏色紋理等信息逐漸丟失,小尺度文本難以檢測(cè)。為了解決該問題,本文在CNN特征提取模塊使用了FPN。如圖3所示。圖中{C2,C3,C4,C5}分別表示ResNet-101中conv2_x、conv3_x、conv4_x、conv5_x層,經(jīng)FPN處理計(jì)算得到特征層集合表示為fi={f2,f3,f4,f5,f6},計(jì)算過程如公式(1)所示:
圖3 CNN特征提取模塊Fig.3 CNN feature extraction module
其中,Upsample(·)表示步長為2的上采樣,MaxPool(·)表示最大值池化計(jì)算;由于fi的每一層均會(huì)作為RPN的輸入并完成回歸與分類的計(jì)算,所以Convi(·)為1×1卷積模版的卷積層,并約束fi的通道數(shù)均為256。通過深層特征的上采樣與淺層特征進(jìn)行融合,在顧及小尺度目標(biāo)檢測(cè)同時(shí),增強(qiáng)對(duì)大尺度目標(biāo)的感知,一定程度提升文本檢測(cè)召回率。
RPN在生成ROIs以便于進(jìn)行后續(xù)文本檢測(cè)任務(wù)起到關(guān)鍵作用。一般情況下,經(jīng)RPN生成的得分高的ROIs中存在大量非文本區(qū)域即負(fù)樣本。因而在對(duì)文本/非文本分類同時(shí),更多地過濾非文本的區(qū)域,有助于提升正樣本的準(zhǔn)確性,生成更準(zhǔn)確的ROIs。本文方法利用注意力機(jī)制增強(qiáng)圖像中文本特征的特點(diǎn),提出引入注意力機(jī)制的AM-RPN,其中注意力機(jī)制包含空間注意力機(jī)制和通道注意力機(jī)制,如圖4所示。
圖4 AM-RPN模塊Fig.4 AM-RPN module
首先,輸入的特征fi∈RC×H×W經(jīng)通道注意力模塊得到一維通道注意力權(quán)重系數(shù)Wc∈RC×1×1,再和原來的特征fi相乘得到加權(quán)后的特征如公式(2)所示。其次,′經(jīng)空間注意力模塊得到的二維空間注意力權(quán)重系數(shù),與加權(quán)后的特征′相乘即可得到最終輸出的特征,如公式(3)所示:
其中,?表示為對(duì)應(yīng)矩陣元素進(jìn)行相乘的運(yùn)算。利用通道注意力權(quán)重和空間注意力權(quán)重對(duì)特征進(jìn)行加權(quán),達(dá)到文本特征加強(qiáng),非文本特征抑制的效果。
1.2.1 通道注意力權(quán)重和空間注意力權(quán)重
為有效計(jì)算通道注意力權(quán)重,本文方法通過利用平均值池化和最大值池化計(jì)算挖掘更精確的通道注意力信息,如圖5所示。
圖5 通道注意力方法示意圖Fig.5 Diagram of channel attention
首先,對(duì)經(jīng)FPN輸出的特征fi分別進(jìn)行平均值池化和最大值池化計(jì)算,得到兩組一維通道特征。然后,將所得一維通道特征經(jīng)“卷積層—RELU激活函數(shù)—卷積層”的計(jì)算得到新的兩組一維通道特征。最后,將兩組一維特征相加后激活后得到最終通道注意力權(quán)重,計(jì)算公式如式(4)所示:
其中,⊕為矩陣加法運(yùn)算符,Sigmoid為Sigmoid激活函數(shù),AvgPool和MaxPool為將特征層fi分別進(jìn)行平均池化、最大值池化至C×1×1的特征,σ(x)如公式(5)所示,x為函數(shù)變量。
σ(x)的計(jì)算中,Relu為RELU激活函數(shù);Conv_1為1×1卷積模版的卷積層,其輸入特征的通道數(shù)是輸出特征的16倍;Conv_2為1×1卷積模版的卷積層,其輸入特征的通道數(shù)是輸出特征的1/16倍。
在利用特征的通道間的信息,由通道注意力模塊生成Wc后,對(duì)經(jīng)Wc加權(quán)后的特征fi′送入空間注意力模塊得到Ws。如圖6所示,在空間注意力模塊中,先對(duì)輸入的特征fi′沿通道方向進(jìn)行最大值池化和平均值池化,再對(duì)所得二維特征進(jìn)行卷積,經(jīng)Sigmoid函數(shù)激活后得到最終的空間注意力權(quán)重,過程如公式(6)所示:
圖6 空間注意力方法示意圖Fig.6 Diagram of spatial attention
其中,Sigmoid為Sigmoid激活函數(shù),Maxc與Meanc為對(duì)特征fi′在通道方向上分別求最大值與平均值,結(jié)果均為1×H×W的二維特征,Θ(x,y)如公式(7)所示,(x,y)為函數(shù)變量,即任意2個(gè)1×H×W的二維特征。
Θ(x,y)公式中,Concat(x,y)表示將特征x與y從通道維度上進(jìn)行拼接,得到2×H×W的特征;Conv_3為7×7卷積模版的卷積層,輸入2×H×W的特征,輸出為1×H×W的特征。
上述方法,利用特征層的通道以及空間關(guān)系得到通道注意力權(quán)重和空間注意力權(quán)重,能夠增強(qiáng)檢測(cè)模型對(duì)文本區(qū)域的感知,便于ROIs生成。
1.2.2 Anchor的設(shè)置
在本文方法中,anchor長寬比設(shè)置為1、2、3、5、7、10、1/2、1/3,其中,1、2、3、5、7、10便于水平方向的文本檢測(cè),1/2、1/3便于垂直方向的文本檢測(cè);anchor的單元尺度設(shè)置為8;在{f2,f3,f4,f5,f6}上anchor的步長分別設(shè)置為{64,32,16,8,4}。
在本文方法中,AM-RPN將產(chǎn)生大量的ROIs,為了便于ROIs進(jìn)行后續(xù)的分類與回歸計(jì)算,本文使用ROIAlign[12]對(duì)fi(i={2,3,4,5,6})與各層對(duì)應(yīng)的ROIs分別進(jìn)行處理,得到各層對(duì)應(yīng)的大小統(tǒng)一的特征。
當(dāng)分類計(jì)算完成后,仍然存在大量的候選區(qū)域,通過使用NMS,過濾冗余、重疊的檢測(cè)結(jié)果,簡單高效地獲取最優(yōu)文本檢測(cè)結(jié)果。NMS算法原理如下:
經(jīng)NMS處理后,文本檢測(cè)的結(jié)果,如圖7所示。圖7(a)為輸入圖像,圖7(b)為候選區(qū)域映射在原圖的示意圖,其中紅色框表示文本分類置信度最高的區(qū)域,圖7(c)為經(jīng)NMS處理后文本檢測(cè)結(jié)果,紅色框表示最終的檢測(cè)區(qū)域。
圖7 NMS處理效果示意圖Fig.7 Diagram of NMS results
依據(jù)Faster R-CNN中損失函數(shù)的設(shè)計(jì)思路,本文方法總損失函數(shù)L主要由分類損失和回歸損失兩部分構(gòu)成,其計(jì)算如式(8)所示,λ為權(quán)重平衡參數(shù),此處取λ=1。
其中分類損失部分,將原本的多類損失改為“文本”與“非文本”的二分類交叉熵,計(jì)算如式(9)所示,當(dāng)真實(shí)文本框與anchor的交并比大于0.7時(shí),anchor為正樣本,小于0.3時(shí),anchor為負(fù)樣本,交并比計(jì)算如式(10)所示,其中area(G)、area(A)分別為真實(shí)文本框與anchor的面積。pi為anchori的預(yù)測(cè)分類概率,anchori是正樣本時(shí)是負(fù)樣本時(shí),為最小批尺寸數(shù)值。
回歸損失使用的是Smooth L1 loss,其計(jì)算如式(11)、(12)所示。分別為anchori利用本文方法實(shí)際檢測(cè)到的文本框以及真實(shí)文本框的參數(shù)化坐標(biāo),Nreg為生成anchor的數(shù)量。
需要說明的是,在訓(xùn)練過程中AM-RPN將直接由損失函數(shù)L進(jìn)行參數(shù)調(diào)節(jié)。
ICDAR 2013數(shù)據(jù)集[13]是一個(gè)全英文的自然場(chǎng)景文本檢測(cè)競賽標(biāo)準(zhǔn)數(shù)據(jù)集,共含有462張自然場(chǎng)景,其中229張為訓(xùn)練集,233張為測(cè)試集,圖像分辨率不一,圖像中文本為水平文本,且提供單詞級(jí)別的文本標(biāo)注。
本文采用DetEval評(píng)價(jià)方法[14],檢測(cè)匹配順序?yàn)橐粚?duì)多、多對(duì)一、一對(duì)一。主要利用準(zhǔn)確率(Precision,P)、召回率(Recall,R)、綜合評(píng)價(jià)指標(biāo)(F-measure,F(xiàn))這個(gè)三個(gè)評(píng)價(jià)指標(biāo)表征結(jié)果,如式(13)~(15)。此外,利用表征檢測(cè)速度的參數(shù)即每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)作為效率參考標(biāo)準(zhǔn)。
其中,召回率閾值tr和準(zhǔn)確率tp閾值取值范圍為[0,1],依據(jù)文獻(xiàn)取值分別為tr=0.8,tp=0.4。G、D分別表示真實(shí)文本框與本文方法實(shí)際檢測(cè)的文本框,MatchG和MatchD是真實(shí)文本框和實(shí)際文本框的匹配函數(shù),用于區(qū)分匹配類型。
本文方法在Linux系統(tǒng)搭建實(shí)驗(yàn)平臺(tái),CPU型號(hào)為Xeon?E5-2640 v4、內(nèi)存為128 GB、GPU型號(hào)為Tesla V100。
本文使用ResNet-101作為方法的基礎(chǔ)模型,通過隨機(jī)梯度下降的優(yōu)化方式進(jìn)行端到端的訓(xùn)練,學(xué)習(xí)率(learning rate)初始設(shè)置均設(shè)置為0.004,迭代500次內(nèi)逐漸上升到0.01,并設(shè)定在第9個(gè)迭代輪次(epoch)和第12個(gè)迭代輪次分別將學(xué)習(xí)率調(diào)整為0.001與0.000 1。批尺寸均設(shè)置為(batchsize)為4,動(dòng)量(momentum)均設(shè)為0.9。
在訓(xùn)練階段,訓(xùn)練數(shù)據(jù)通過以下方法進(jìn)行數(shù)據(jù)增強(qiáng):(1)輸入圖像按照0.5的比例進(jìn)行左右翻轉(zhuǎn);(2)輸入圖像將短邊縮放到800像素且保持原有縱橫比。先利用Synth-1k人工合成數(shù)據(jù)集進(jìn)行50個(gè)迭代輪次的模型預(yù)訓(xùn)練。再利用ICDAR-2013數(shù)據(jù)集中229張訓(xùn)練集,迭代25個(gè)迭代輪次進(jìn)行微調(diào)得到最終的檢測(cè)模型。
2.3.1 NMS參數(shù)分析
在測(cè)試階段,AM-RPN模塊與后處理模塊均采用了NMS算法對(duì)候選區(qū)域進(jìn)行了篩選,避免文本候選框冗余。本文將對(duì)NMS的閾值進(jìn)行實(shí)驗(yàn)分析,利用ICDAR2013測(cè)試集進(jìn)行測(cè)試,為了減小分類置信度對(duì)實(shí)驗(yàn)的影響,所以將分類置信度設(shè)置為0.1。實(shí)驗(yàn)結(jié)果如圖8所示,分別為AM-RPN模塊NMS閾值(ARNMS)與后處理模塊NMS閾值(PPNMS)設(shè)置對(duì)P、R、F的影響??梢园l(fā)現(xiàn)AM-RPNNMS∈[0.1,0.3]、PPNMS∈[0.1,0.3]時(shí),P、R、F均可以取得優(yōu)秀的結(jié)果,所以,AM-RPNNMS與PPNMS均設(shè)置為0.2。
圖8 NMS參數(shù)實(shí)驗(yàn)結(jié)果圖Fig.8 Presentation for NMS parameters selection
2.3.2 消融實(shí)驗(yàn)對(duì)比分析
為了說明方法設(shè)計(jì)的每個(gè)模塊對(duì)最終結(jié)果是否為正相關(guān),本文將進(jìn)行消融實(shí)驗(yàn)加以驗(yàn)證。本文以Faster-RCNN為基礎(chǔ)框架,引入并優(yōu)化了FPN以滿足適合各尺度文本檢測(cè)要求;針對(duì)自然場(chǎng)景中文本內(nèi)容檢測(cè)不完整、漏檢的問題,提出AM-RPN。消融實(shí)驗(yàn)在ICDAR2013數(shù)據(jù)集進(jìn)行,從Faster-RCNN開始逐步融合各個(gè)模塊并計(jì)算出對(duì)應(yīng)的準(zhǔn)確率、召回率與F值,實(shí)驗(yàn)結(jié)果如表1所示。實(shí)驗(yàn)過程其他參數(shù)均保持一致,F(xiàn)aster-RCNN選取Resnet-101的conv4_x最后一層作為RPN的輸入。
表1 消融實(shí)驗(yàn)結(jié)果Table 1 Ablation experiment results
通過表1發(fā)現(xiàn),{P6}層的使用召回率和F值分別提高了0.024和0.006但準(zhǔn)確率下降了0.014,經(jīng)分析由于{P6}層的增加擴(kuò)大了模型的感受野,使得更多較大的文本得到檢測(cè),但{P6}也會(huì)相對(duì)應(yīng)地增加干擾區(qū)域?qū)е聹?zhǔn)確率下降;在Faster-RCNN與FPN融合的基礎(chǔ)上,單獨(dú)使用通道注意力對(duì)RPN進(jìn)行優(yōu)化,通道注意力加強(qiáng)了文本區(qū)域在各個(gè)通道里的權(quán)重,但也丟失了一些難例文本區(qū)域,因此準(zhǔn)確率提高了0.028,但是召回率下降了0.02;最后完整地使用AM-RPN,通過利用空間注意力使得文本區(qū)域更加顯著并減少了各種因素的干擾,召回率、準(zhǔn)確率和F值分別達(dá)到0.845、0.880和0.862。此外,本文對(duì)Faster R-CNN與AM-RPN融合進(jìn)行了實(shí)驗(yàn)召回率、準(zhǔn)確率和F值分別為0.595、0.835、0.695,由于AM-RPN的輸入為ResNet-101的深層特征導(dǎo)致模型難以捕捉到小文本造成了召回率下降。
2.3.3 實(shí)驗(yàn)結(jié)果對(duì)比
本文在ICDAR-2013數(shù)據(jù)集上進(jìn)行方法性能驗(yàn)證的實(shí)驗(yàn)。用召回率、準(zhǔn)確率、F值和檢測(cè)時(shí)間(frame/s,F(xiàn)PS)評(píng)價(jià)方法的性能,實(shí)驗(yàn)結(jié)果如表2所示。
表2 ICDAR-2013數(shù)據(jù)集評(píng)估結(jié)果Table 2 Evaluation results on ICDAR-2013 dataset
與近幾年的自然場(chǎng)景文本檢測(cè)方法相比,本文方法得到了較高的召回率、準(zhǔn)確率和F值分別為0.845、0.880和0.862。在保證了檢測(cè)效果的同時(shí),本文方法的時(shí)間損耗同樣良好,F(xiàn)PS為6.5。與文獻(xiàn)[18]對(duì)比,本文在召回率、F值和FPS分別提升了0.028、0.015和3.5;與文獻(xiàn)[20]相比,本文召回率提升了0.015,準(zhǔn)確率落后了0.02,F(xiàn)值提升了0.002。
2.3.4 檢測(cè)結(jié)果分析
本文提出嵌入注意力機(jī)制的自然場(chǎng)景文本檢測(cè)方法。使用優(yōu)化了FPN結(jié)構(gòu)使得小文本得到一定程度檢測(cè),同時(shí)提出AM-RPN,有效地提高了檢測(cè)文本的完整度和召回率,檢測(cè)結(jié)果與對(duì)比如圖9所示。
圖9 本文方法檢測(cè)效果示意圖Fig.9 Diagram of detection results
圖9 (a)為文獻(xiàn)[15-16,19-20]檢測(cè)效果圖;圖9(b)是(a)的本文方法檢測(cè)效果圖,圖9(c)為圖1的對(duì)比樣本展示??梢园l(fā)現(xiàn)本文方法可以完整地檢測(cè)到文本區(qū)域,且未出現(xiàn)漏檢;對(duì)比其他文獻(xiàn)的結(jié)果,本文檢測(cè)到的文本區(qū)域更加精準(zhǔn)、更加貼合實(shí)際的文本邊界;此外,從圖9(c)的檢測(cè)結(jié)果中可以發(fā)現(xiàn)本文方法對(duì)小目標(biāo)文本和干擾環(huán)境下文本的檢測(cè)也具有一定的魯棒性。
本文提出了嵌入注意力機(jī)制的自然場(chǎng)景文本檢測(cè)方法。該方法主要解決自然場(chǎng)景文本檢測(cè)內(nèi)容不完整和漏檢的問題。通過在主干網(wǎng)絡(luò)中增加FPN,利用多尺度特征融合的方法將待檢測(cè)圖像輸入CNN特征提取網(wǎng)絡(luò),再利用嵌入注意力機(jī)制的區(qū)域建議網(wǎng)絡(luò)結(jié)合CNN提取的區(qū)域特征,經(jīng)端到端的訓(xùn)練,生成高質(zhì)量的區(qū)域候選框,最后IoU設(shè)定為0.2的NMS后處理篩選得到檢測(cè)結(jié)果。本文方法在ICDAR-2013數(shù)據(jù)集測(cè)試實(shí)驗(yàn)結(jié)果的召回率、準(zhǔn)確率、F值以及FPS分別為0.845、0.880、0.862和6.5。
與最新的方法相比,本文在保證檢測(cè)速度的同時(shí)提高了召回率、準(zhǔn)確率,顯著改善了自然場(chǎng)景文本檢測(cè)的效果。但是本文方法對(duì)類文本目標(biāo)的誤檢和多方向文本的檢測(cè)處理效果不佳,后續(xù)擬分別通過級(jí)聯(lián)文本識(shí)別模塊和設(shè)置多方向、多角度的anchor加以解決。