方承志,火興龍,程宥鋮
南京郵電大學(xué) 電子與光學(xué)工程學(xué)院,南京210023
文本作為人類(lèi)溝通和信息交流的主要載體,廣泛地存在于自然場(chǎng)景圖像中,例如商鋪招牌、道路標(biāo)志、產(chǎn)品包裝等都含有大量文本。相較于圖像中的其他自然場(chǎng)景內(nèi)容,例如樹(shù)木、行人、建筑等,自然場(chǎng)景文本(scene text)具有更豐富且明確的高層語(yǔ)義信息和更強(qiáng)的描述能力,因而準(zhǔn)確地檢測(cè)并識(shí)別圖像中的文本將有助于場(chǎng)景內(nèi)容的分析與理解。隨著計(jì)算機(jī)圖形處理能力的顯著提升和互聯(lián)網(wǎng)的高速發(fā)展,自然場(chǎng)景文本檢測(cè)技術(shù)在許多場(chǎng)景中都有著廣泛的應(yīng)用,例如文檔分析[1]、圖像檢索[2-3]、智能交通[4-5]等,因而該技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域正逐漸成為近年研究與應(yīng)用的熱點(diǎn)。
目前自然場(chǎng)景文本檢測(cè)算法大致可分為兩類(lèi),一類(lèi)是基于字符檢測(cè)的傳統(tǒng)算法,另一類(lèi)算法則基于近年來(lái)興起的深度學(xué)習(xí)。傳統(tǒng)算法主要沿用兩條技術(shù)路線,基于連通成分(connected component)分析的算法和基于滑動(dòng)窗口(sliding window)分類(lèi)的算法。傳統(tǒng)算法一般涉及多個(gè)處理步驟,為了讓各部分相互協(xié)同工作,需要在參數(shù)調(diào)整和啟發(fā)式規(guī)則(heuristic rules)設(shè)計(jì)方面付出大量努力。此外,步驟較多且計(jì)算量大導(dǎo)致其速度較慢,效率不高。基于深度學(xué)習(xí)的算法也主要沿用兩條技術(shù)路線,基于位置回歸(location regression based)的算法和基于分割(segmentation based)的算法。不同于傳統(tǒng)算法的手工設(shè)計(jì)特征(handcraft feature),深度學(xué)習(xí)網(wǎng)絡(luò)組合淺層特征形成抽象深層特征,特征語(yǔ)義信息豐富且表達(dá)力強(qiáng)。此外,端到端的模型結(jié)構(gòu)訓(xùn)練過(guò)程簡(jiǎn)單高效且檢測(cè)效率高。
基于深度學(xué)習(xí),目前性能較好的算法包括CTPN[6]、TextBoxes[7]、SegLink[8]、EAST[9]、PixelLink[10]等,它們都借鑒了通用目標(biāo)檢測(cè)(general object detection)的思路。然而,把自然場(chǎng)景文本檢測(cè)看作是通用目標(biāo)檢測(cè)的特例時(shí),它也有自身的特殊點(diǎn)和難點(diǎn)。具體如圖1 所示,一是文本對(duì)象的長(zhǎng)寬比(aspect ratio)范圍很大,而在通用目標(biāo)檢測(cè)中,目標(biāo)對(duì)象的長(zhǎng)寬比一般在3以內(nèi)[11];二是通用目標(biāo)檢測(cè)中的邊界框(bounding box)是水平矩形,而文本對(duì)象是有方向的,其邊界框需要用旋轉(zhuǎn)矩形或四邊形來(lái)表示。
圖1 自然場(chǎng)景文本檢測(cè)與通用目標(biāo)檢測(cè)的比較
面對(duì)上述問(wèn)題,CTPN 引入類(lèi)似“微分”的思想,利用修改過(guò)的錨框(Anchor)機(jī)制和LSTM[12]網(wǎng)絡(luò)檢測(cè)一個(gè)個(gè)小的、固定寬度的文本片段,通過(guò)規(guī)則將文本片段連接成文本對(duì)象。TextBoxes 錨框長(zhǎng)寬比最大可到10,并用長(zhǎng)條形(1×5)卷積核替代傳統(tǒng)方形(3×3)卷積核。TextBoxes++[13]作為T(mén)extBoxes 的改進(jìn),增加了縱向錨框且卷積核形狀變更為3×5。SegLink 既融入了CTPN 小尺度錨框的思想又借鑒了SSD[11]算法,同時(shí)預(yù)測(cè)文本片段及片段間的連接關(guān)系。EAST 沒(méi)有錨框機(jī)制,每個(gè)文本像素直接預(yù)測(cè)自身所在文本對(duì)象的坐標(biāo)和旋轉(zhuǎn)角度。區(qū)別于上述基于位置回歸的算法,PixelLink則是基于分割的算法,其Link思想來(lái)源于SegLink,但存在質(zhì)的不同:SegLink 連接對(duì)象是文本片段,而PixelLink 連接對(duì)象是文本像素。
通常,基于錨框機(jī)制的文本檢測(cè)算法會(huì)設(shè)計(jì)較多錨框以覆蓋文本對(duì)象不同的方向和長(zhǎng)寬比。隨著錨框增多,采樣密度增大,負(fù)樣本所占比例也相應(yīng)升高,導(dǎo)致訓(xùn)練時(shí)正負(fù)樣本類(lèi)別失衡愈發(fā)嚴(yán)重,進(jìn)而影響模型學(xué)習(xí)過(guò)程。對(duì)此,本文設(shè)計(jì)錨框時(shí)剝離錨框的方向特征但保留其長(zhǎng)寬比特征,在模型訓(xùn)練的正負(fù)樣本判定階段,錨框與真值(ground truth)做匹配計(jì)算時(shí),同樣先剝離真值的方向特征,然后將其與無(wú)方向特征的錨框按中心點(diǎn)對(duì)齊,最后進(jìn)行IoU(Intersection over Union)計(jì)算。如此,在覆蓋相同的錨框長(zhǎng)寬比范圍時(shí),錨框的數(shù)量相對(duì)較少,從而在一定程度上減輕了正負(fù)樣本類(lèi)別失衡的影響。同時(shí),每個(gè)網(wǎng)格(Grid)的所有錨框共享旋轉(zhuǎn)角度偏移量的回歸值,相對(duì)于直接回歸旋轉(zhuǎn)角度偏移量,本文以一種不同的形式實(shí)現(xiàn),即通過(guò)獨(dú)立的子網(wǎng)預(yù)測(cè)均勻分割的角度區(qū)間概率值,選取概率值最高的角度區(qū)間量化值作為所屬網(wǎng)格的共享旋轉(zhuǎn)角度偏移量。當(dāng)然,量化的旋轉(zhuǎn)角度偏移量勢(shì)必帶來(lái)一定的角度偏差,如果預(yù)測(cè)的邊界框不能準(zhǔn)確且緊致地框住文本對(duì)象,必然影響到后續(xù)文本識(shí)別的精確率。針對(duì)于此,本文提出一種邊界框校準(zhǔn)算法,作為模型后處理層的最后一個(gè)步驟。該算法利用MSER[14]獲取字符邊緣信息,通過(guò)基于規(guī)則的邏輯判斷,對(duì)邊界框進(jìn)行收縮或膨脹操作,從而達(dá)到邊界框校準(zhǔn)目的。綜上所述,本文的主要貢獻(xiàn)如下:
(1)設(shè)計(jì)錨框時(shí)剝離錨框的方向特征但保留其長(zhǎng)寬比特征,在覆蓋相同長(zhǎng)寬比范圍時(shí),錨框設(shè)計(jì)數(shù)量減少,從而緩解采樣密集時(shí)正負(fù)樣本類(lèi)別失衡的影響。
(2)每個(gè)網(wǎng)格的所有錨框共享旋轉(zhuǎn)角度偏移量的回歸值,并且以一種不同的形式實(shí)現(xiàn)其回歸。
(3)提出一種邊界框校準(zhǔn)算法,作為模型后處理層的最后一個(gè)步驟。
本文模型以基于位置回歸的一階段通用目標(biāo)檢測(cè)框架為基礎(chǔ),模型結(jié)構(gòu)如圖2 所示,按照功能的不同分為四個(gè)部分:特征提取層、特征融合層、文本預(yù)測(cè)層和后處理層。首先,原始圖像經(jīng)過(guò)縮放處理轉(zhuǎn)為輸入圖像,輸入圖像饋入特征提取層,經(jīng)由連續(xù)的卷積和下采樣(downsample)操作,以旁路的方式得到三個(gè)不同尺度與抽象層級(jí)的特征圖。然后,通過(guò)特征融合層,不同尺度的特征圖自頂向下進(jìn)行融合,使得深層語(yǔ)義特征與淺層紋理特征相融合。接著,文本預(yù)測(cè)層用三個(gè)相互獨(dú)立的子網(wǎng)分別輸出置信度(confidence)、邊界框坐標(biāo)偏移量和旋轉(zhuǎn)角度偏移量。最后,后處理層包含三個(gè)步驟:(1)置信度閾值操作,濾除非文本對(duì)象;(2)非極大值抑制(Non-Maximum Suppression,NMS),去除冗余文本對(duì)象;(3)對(duì)最終篩選出的文本對(duì)象進(jìn)行邊界框校準(zhǔn)。
特征提取層以修改過(guò)的Darknet-53[15]為框架,去除后部的全連接層,保留前部連續(xù)的卷積結(jié)構(gòu),并以歸一化尺寸(608×608)的三通道彩色圖像作為輸入。Darknet-53 采用殘差結(jié)構(gòu),如圖3 所示,殘差塊(residual block)包含兩個(gè)分支:恒等分支和殘差分支,其公式定義如下:
其中,xt和xt+1分別是第t個(gè)殘差塊的輸入與輸出。Ft(xt) 為變換函數(shù),對(duì)應(yīng)殘差分支,xt則對(duì)應(yīng)恒等分支。激活函數(shù)采用LReLU[16](Leaky Rectified Linear Unit),負(fù)值部分的斜率α設(shè)為0.1,其表達(dá)式如下:
同時(shí),下采樣不采用池化(pooling)操作,而是采用步長(zhǎng)(stride)為2 的卷積操作替代。具體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
圖2 模型結(jié)構(gòu)
圖3 殘差塊結(jié)構(gòu)
表1 特征提取層網(wǎng)絡(luò)結(jié)構(gòu)
在CNN(Convolutional Neural Networks)網(wǎng)絡(luò)中,靠近輸入的卷積層負(fù)責(zé)提取保留了很多細(xì)節(jié)但缺少語(yǔ)義信息的淺層特征,而靠近輸出的卷積層負(fù)責(zé)提取有很強(qiáng)語(yǔ)義信息但缺少細(xì)節(jié)的深層特征。通過(guò)特征融合,高分辨率的淺層特征圖將包含深層語(yǔ)義信息,使網(wǎng)絡(luò)綜合考慮深層特征與淺層特征,從而提高了預(yù)測(cè)的準(zhǔn)確率。
本文特征融合層主要包含上采樣(upsample)和融合(fusion)兩個(gè)步驟。首先,在特征提取層的最后三個(gè)卷積階段加入旁路,輸出三個(gè)不同分辨率的特征圖。然后,通過(guò)采用最近鄰插值(nearest neighbor interpolation)的上采樣操作,由深層至淺層,使相鄰卷積階段的特征圖分辨率相一致。最后,將兩個(gè)相同分辨率的特征圖以拼接(concat)的方式相融合。具體過(guò)程見(jiàn)圖2特征融合層描述,其中卷積塊(Conv Block 5L)表示Conv 1×1和Conv 3×3交替執(zhí)行且總共5層(5L)卷積。
1.3.1 錨框設(shè)計(jì)
在TextBoxes++里,為應(yīng)對(duì)多方向文本,額外增加了縱向的錨框,致使錨框數(shù)量變多。與其不同,本文設(shè)計(jì)錨框時(shí)剝離錨框的方向特征但保留其長(zhǎng)寬比特征,即錨框只有寬和高兩個(gè)屬性,同時(shí)也剝離真值的方向?qū)傩?,使其只具有其最小外接矩形寬和高兩個(gè)屬性。在模型訓(xùn)練過(guò)程的正負(fù)樣本判定階段,真值中心點(diǎn)所在網(wǎng)格的錨框與真值做匹配計(jì)算時(shí),先將已無(wú)方向?qū)傩缘腻^框和真值按中心點(diǎn)對(duì)齊,接著進(jìn)行IoU計(jì)算,最后將IoU值最大且大于0.5的錨框判定為正樣本,小于0.4的錨框判定為負(fù)樣本,其余錨框則被忽略。如此,在覆蓋相同的錨框長(zhǎng)寬比范圍時(shí),可避免錨框數(shù)量過(guò)多的問(wèn)題,從而在一定程度上減輕了正負(fù)樣本類(lèi)別失衡對(duì)學(xué)習(xí)過(guò)程的影響。
感受野(receptive field)指的是神經(jīng)元在輸入圖像上可感知的區(qū)域,隨著網(wǎng)絡(luò)由淺到深,神經(jīng)元感受野逐漸擴(kuò)大,所以設(shè)計(jì)錨框尺度時(shí),從淺層特征圖到深層特征圖,其相關(guān)聯(lián)的錨框尺度將逐漸變大。本文錨框設(shè)計(jì)借鑒了SSD 中方法,每個(gè)特征圖關(guān)聯(lián)兩個(gè)尺度的錨框,尺度總范圍從23至28,長(zhǎng)寬比范圍覆蓋{1∶1,3∶1,5∶1,7∶1,9∶1}。但由于輸入圖像尺寸為608×608,所以與最頂層特征圖相關(guān)聯(lián)的錨框并不包含長(zhǎng)寬比{7∶1,9∶1},錨框邊長(zhǎng)計(jì)算公式如下:
其中,s表示尺度,a表示長(zhǎng)寬比。另外,每個(gè)尺度都有一大一小兩個(gè)正方形錨框,小的邊長(zhǎng)為s,大的邊長(zhǎng)為。
1.3.2 子網(wǎng)設(shè)計(jì)
如圖2 文本預(yù)測(cè)層所示,本文采用三個(gè)相互平行且獨(dú)立的子網(wǎng)分別輸出置信度、邊界框坐標(biāo)偏移量和旋轉(zhuǎn)角度偏移量。圖2 中Conv Block×4 表示卷積塊(Conv 3×3,256;Conv 1×1,128)執(zhí)行4次,其中最后一次Conv 1×1 操作的通道(Channel)數(shù)目根據(jù)子網(wǎng)的不同分別為2A、4A和18,而A表示特征圖上每個(gè)網(wǎng)格所屬錨框的數(shù)量。另外,置信度和旋轉(zhuǎn)角度子網(wǎng)后接Softmax激活函數(shù),邊界框坐標(biāo)子網(wǎng)只有x和y兩個(gè)通道后接Sigmoid激活函數(shù),而w和h兩個(gè)通道則不接激活函數(shù)。
在自然場(chǎng)景中,位于同一區(qū)域的文本對(duì)象往往具有一致的方向性。利用此特性,在回歸錨框旋轉(zhuǎn)角度偏移量的方式上,本文以一種不同的形式實(shí)現(xiàn)。首先,本文假設(shè)同一網(wǎng)格中的所有錨框具有相同的旋轉(zhuǎn)角度偏移量,因此每個(gè)網(wǎng)格只輸出一個(gè)旋轉(zhuǎn)角度偏移量,供網(wǎng)格內(nèi)所有錨框共享。其次,旋轉(zhuǎn)角度偏移量并非直接回歸的連續(xù)值,而是角度區(qū)間量化值,即將0°至180°均勻地分割為18 個(gè)角度區(qū)間,每個(gè)區(qū)間的量化值為區(qū)間中間值,但量化值為0°的區(qū)間較為特殊,其由[0°,5°]和[175°,180°]兩個(gè)子區(qū)間共同組成。最后,旋轉(zhuǎn)角度子網(wǎng)輸出特征圖的18 個(gè)通道分別依次代表每個(gè)角度區(qū)間。具體描述如圖4 所示,其中θ為實(shí)際值,而Θ為相應(yīng)的量化值。
1.3.3 損失函數(shù)
本文以加權(quán)和的形式定義多任務(wù)損失函數(shù)L,其表達(dá)式如下:
圖4 旋轉(zhuǎn)角度偏移量量化值
其中,Lconf、Lcoord和Langle分別表示置信度、邊界框坐標(biāo)偏移量和旋轉(zhuǎn)角度偏移量的損失函數(shù)。Nc表示判定為正樣本的錨框數(shù)量,用于損失函數(shù)標(biāo)準(zhǔn)化。α1=10和α2=1 用于平衡任務(wù)間損失。{1.0,0.1}用于平衡正負(fù)樣本置信度損失,正樣本設(shè)為1.0,負(fù)樣本設(shè)為0.1。{1.0,0.9,0.8}用于平衡旋轉(zhuǎn)角度偏移量損失,18 個(gè)角度區(qū)間依序設(shè)為{0.8,0.8,0.9,0.9,1.0,1.0,1.0,1.0,0.9,0.9,0.9,1.0,1.0,1.0,1.0,0.9,0.9,0.8}。)用于平衡不同尺度邊界框坐標(biāo)偏移量損失,為歸一化的真值w和h。
1.3.4 坐標(biāo)計(jì)算
文本預(yù)測(cè)層輸出相對(duì)于錨框的邊界框坐標(biāo)偏移量和旋轉(zhuǎn)角度偏移量,即(Δx,Δy,Δw,Δh,Δθ),分別表示中心點(diǎn)、寬高和旋轉(zhuǎn)角度的偏移量。在模型評(píng)價(jià)階段,輸出的邊界框?yàn)槲谋緦?duì)象的最小外接矩形,表示形式為其四個(gè)頂點(diǎn)的坐標(biāo),即(x1,y1,x2,y2,x3,y3,x4,y4),相應(yīng)的坐標(biāo)轉(zhuǎn)換計(jì)算如下所示。首先由偏移量計(jì)算出絕對(duì)量:
其中,xg和yg為錨框所屬網(wǎng)格的左上角坐標(biāo),wa和ha為錨框的寬高。接著:
其中,()為邊界框水平狀態(tài)時(shí)4個(gè)頂點(diǎn)的坐標(biāo)。最后,引入旋轉(zhuǎn)角度的邊界框頂點(diǎn)坐標(biāo)由以下計(jì)算得出:
1.4.1 置信度閾值操作
本文實(shí)驗(yàn)數(shù)據(jù)集采用ICDAR2015[17],在其訓(xùn)練集中,只有1%的文本對(duì)象邊界框短邊長(zhǎng)度小于10或面積小于300。結(jié)合此特性,本文在執(zhí)行完閾值為0.5的置信度閾值操作后,便將具有上述特征的文本對(duì)象邊界框全部拋棄。
1.4.2 非極大值抑制
在通用目標(biāo)檢測(cè)任務(wù)中,大尺度目標(biāo)的邊界框中往往會(huì)含有同類(lèi)別或不同類(lèi)別的小尺度目標(biāo),如圖5(a)所示。因此,標(biāo)準(zhǔn)的非極大值抑制利用IoU 閾值操作去除冗余邊界框時(shí),可以保留大尺度邊界框中包含的小尺度邊界框。然而,在文本檢測(cè)任務(wù)中,本文采用的ICDAR2015 數(shù)據(jù)集以單詞為標(biāo)注單位,從而在模型的輸出中,框住單詞的大尺度邊界框中經(jīng)常包含了框住若干字母的小尺度邊界框,如圖5(b)所示。
圖5 不同尺度邊界框包含關(guān)系
針對(duì)于此,本文使用另一種指示量來(lái)替代IoU,其目的在于抑制如上所述的小尺度邊界框。指示量定義如下:
其中,Area(bi)表示邊界框bi的面積,Inter(b1,b2)表示邊界框b1與b2“交”的面積,指示量閾值為0.4。
1.4.3 邊界框校準(zhǔn)
給定三通道彩色圖像后,先將其轉(zhuǎn)換為單通道灰度圖像,接著利用MSER算法得到圖像中的所有MSER區(qū)域,最后將MSER區(qū)域的表示形式由輪廓轉(zhuǎn)換為最小外接矩形。在邊界框校準(zhǔn)執(zhí)行邏輯中,優(yōu)先考慮收縮操作,其次考慮膨脹操作,偽代碼見(jiàn)算法1。
算法1 邊界框校準(zhǔn)算法
輸入:未校準(zhǔn)預(yù)測(cè)框集合P,MSER區(qū)域集合的集合R
輸出:已校準(zhǔn)預(yù)測(cè)框集合P′
1. forrs∈R,p∈Pdo //rs包含中心點(diǎn)在p內(nèi)的所有區(qū)域
2. ifrs=? then
3. 將p加入P′ //p不做校準(zhǔn)
4. else
5.rs1 ←rs中與p的面積比大于等于0.8 且小于等于1.2的區(qū)域所組成的集合
6.rs2 ←rs中與p的面積比大于0.05 且小于0.8的區(qū)域所組成的集合
7.rs3 ←rs中與p的面積比大于1.2 的區(qū)域所組成的集合
8.flag←False//邊界框校準(zhǔn)標(biāo)志
9. 將rs1 中區(qū)域按面積升序排列
10. forr∈rs1 do
11. ifr與p的中心間距小于p短邊長(zhǎng)度的0.3倍then
12. 將r加入P′
13.flag←True
14. break
15. end if
16. end for
17. ifflag=Falsethen
18. 對(duì)rs2 進(jìn)行過(guò)濾操作 //按1.4.2小節(jié)中定義的指示量濾除rs2 中指示量小于0.6 的區(qū)域,指示量中b1為rs2 中區(qū)域,b2為p
19. ifrs2 與p的中心間距小于p短邊長(zhǎng)度的0.5倍andrs2 與p的面積比大于0.2且小于1.5 then
20. 將rs2 的最小外接矩形加入P′
21.flag←True
22. end if
23. end if
24. ifflag=Falsethen
25. 將rs3 中區(qū)域按面積升序排列
26. forr∈rs3 do
27. ifr與p的中心間距小于p短邊長(zhǎng)度的0.5倍then
28. 將r加入P′
29.flag←True
30. break
31. end if
32. end for
33. end if
34. ifflag=Falsethen
35. 將p加入P′ //p不做校準(zhǔn)
36. end if
37. end if
38. end for
本文僅在公開(kāi)數(shù)據(jù)集ICDAR2015 上評(píng)價(jià)模型性能,具體為其第四個(gè)挑戰(zhàn)的第一個(gè)任務(wù)。數(shù)據(jù)集共包含1 500 張圖像,其中1 000 張用于訓(xùn)練,500 張用于測(cè)試。圖像通過(guò)可穿戴設(shè)備隨機(jī)拍攝,尺寸統(tǒng)一為1 280×760。由于拍攝時(shí)并未聚焦于文本內(nèi)容,所以文本對(duì)象會(huì)出現(xiàn)在圖像的任意位置,且伴隨對(duì)焦模糊、顏色失真和扭曲變形等情況。另外,文本對(duì)象在圖像中還具有占比較小、大小不一、方向隨機(jī)等特征,從而相較于以往其他數(shù)據(jù)集,檢測(cè)難度大大提升。
ICDAR2015 數(shù)據(jù)集以單詞為標(biāo)注單位,所有單詞和文本區(qū)域都會(huì)被標(biāo)注出來(lái),真值的表示形式為其四邊形邊界框四個(gè)頂點(diǎn)的坐標(biāo)。在模型的訓(xùn)練階段,為了適應(yīng)文本預(yù)測(cè)層的邏輯結(jié)構(gòu),真值的表示需要做轉(zhuǎn)換計(jì)算,(x,y,w,h,Θ)為其轉(zhuǎn)換后的表示形式,分別為真值最小外接矩形的中心點(diǎn)坐標(biāo)、寬高和以中心點(diǎn)為旋轉(zhuǎn)中心的旋轉(zhuǎn)角度偏移量。其中,中心點(diǎn)坐標(biāo)和寬高均為歸一化值,旋轉(zhuǎn)角度偏移量則為所在角度區(qū)間的量化值。
在文本檢測(cè)任務(wù)中,評(píng)價(jià)標(biāo)準(zhǔn)包含召回率(Recall)、精確率(Precision)和F分?jǐn)?shù)(F-Score)三個(gè)常用評(píng)價(jià)指標(biāo),其定義分別如下:
其中,D為預(yù)測(cè)框集合,G為真值框集合,Match(Xi,Y)為一對(duì)一匹配函數(shù),表示當(dāng)X中元素Xi與Y中任意元素相匹配時(shí),函數(shù)值為1,否則為0。匹配程度以IoU衡量,當(dāng)IoU 值大于0.5 時(shí),即表示匹配成功,否則匹配失敗。
本文僅通過(guò)ICDAR2015 訓(xùn)練集中的1 000 張圖像進(jìn)行模型訓(xùn)練,采用自適應(yīng)矩估計(jì)[18](Adaptive Moment Eestimation,ADAM)優(yōu)化器優(yōu)化模型,權(quán)值衰減系數(shù)(weight decay)為1E-4,學(xué)習(xí)率為1E-3,圖像由原始尺寸縮放至統(tǒng)一尺寸608×608,使用在公開(kāi)數(shù)據(jù)集ImageNet[19]上預(yù)訓(xùn)練的參數(shù)值初始化特征提取層參數(shù),模型訓(xùn)練階段并未采用數(shù)據(jù)增強(qiáng)(data augmentation)、多尺度訓(xùn)練(multi-scale training)、在線難例挖掘[20](Online Hard negative Example Mining,OHEM)等技術(shù),整個(gè)算法使用Python3.6同Pytorch0.4實(shí)現(xiàn)。
本文在ICDAR2015 測(cè)試集上的檢測(cè)結(jié)果如圖6 所示,圖中綠色框和紅色框分別表示檢測(cè)正確和檢測(cè)錯(cuò)誤的預(yù)測(cè)框。其中,圖6(a)為邊界框未校準(zhǔn)的檢測(cè)結(jié)果,可以看到部分預(yù)測(cè)框旋轉(zhuǎn)角度有偏差,同時(shí)框體相比于對(duì)應(yīng)的文本對(duì)象存在過(guò)大或過(guò)小的現(xiàn)象。相對(duì)的,圖6(b)為邊界框已校準(zhǔn)的檢測(cè)結(jié)果,可以看到圖6(a)中存在的問(wèn)題在圖6(b)中得到了一定程度的改善,使得邊界框能夠相對(duì)準(zhǔn)確且緊致地框住文本對(duì)象。
圖6 ICDAR2015測(cè)試集檢測(cè)結(jié)果
如表2,同時(shí)列出了近年來(lái)提出的幾種基于位置回歸的文本檢測(cè)算法以及本文算法在ICDAR2015測(cè)試集上取得的客觀指標(biāo)??梢钥闯?,在僅使用單一數(shù)據(jù)集進(jìn)行訓(xùn)練且訓(xùn)練階段未使用數(shù)據(jù)增強(qiáng)等附加技術(shù)的情況下,本文算法取得了與其他算法可比較的檢測(cè)結(jié)果。同時(shí),相比于本文算法邊界框未校準(zhǔn)時(shí)的指標(biāo),邊界框已校準(zhǔn)時(shí)的召回率、精確率、F分?jǐn)?shù)分別高出1.4、1.6、1.4個(gè)百分點(diǎn),從而驗(yàn)證了本文邊界框校準(zhǔn)算法的有效性。
表2 ICDAR2015數(shù)據(jù)集檢測(cè)結(jié)果
基于深度學(xué)習(xí),針對(duì)自然場(chǎng)景下多方向文本對(duì)象檢測(cè)任務(wù),本文模型以基于位置回歸的一階段通用目標(biāo)檢測(cè)框架為基礎(chǔ),通過(guò)設(shè)計(jì)錨框時(shí)剝離錨框的方向特征但保留其長(zhǎng)寬比特征,在覆蓋相同長(zhǎng)寬比范圍時(shí),錨框設(shè)計(jì)數(shù)量減少,從而緩解采樣密集時(shí)正負(fù)樣本類(lèi)別失衡的影響。同時(shí),每個(gè)網(wǎng)格的所有錨框共享旋轉(zhuǎn)角度偏移量的回歸值,并且以一種不同的形式實(shí)現(xiàn)其回歸。另外,本文提出一種邊界框校準(zhǔn)算法,作為模型后處理層的最后一個(gè)步驟,該算法利用MSER 獲取字符邊緣信息,通過(guò)基于規(guī)則的邏輯判斷,對(duì)邊界框進(jìn)行收縮或膨脹操作,從而使邊界框能夠相對(duì)準(zhǔn)確且緊致地框住文本對(duì)象。通過(guò)在公開(kāi)數(shù)據(jù)集ICDAR2015 上的測(cè)試與比較,驗(yàn)證了所提邊界框校準(zhǔn)算法的有效性。本文未來(lái)的研究將專(zhuān)注于以下兩個(gè)方面:(1)檢測(cè)算法魯棒性的增強(qiáng);(2)多語(yǔ)種共存的文本檢測(cè)。