趙 旭,趙朝陽(yáng),杜曉杰,2,張振清,劉松巖,郭海云,唐 明,2,王金橋,2
(1.中國(guó)科學(xué)院自動(dòng)化研究所,北京100190;2.中國(guó)科學(xué)院大學(xué),北京100049;3.鐵道警察學(xué)院,河南 鄭州450053;4.云南大學(xué) 信息學(xué)院,云南 昆明650504)
場(chǎng)景文本檢測(cè)一般是指將文本目標(biāo)按矩形框或傾斜矩形框的形式定位出來(lái),是文本識(shí)別的前序步驟。主流的場(chǎng)景文本檢測(cè)算法采用面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。本文認(rèn)為,由于文本形狀的特殊性,現(xiàn)有方法所采用的主干網(wǎng)絡(luò)結(jié)構(gòu)并不適用于場(chǎng)景文本檢測(cè)任務(wù)。
一方面,圖像分類任務(wù)中的物體一般不會(huì)像文本有極大的寬高比。因此,圖像分類網(wǎng)絡(luò)的卷積核一般是方形的,例如3×3大小。在文本檢測(cè)任務(wù)中,目標(biāo)往往占據(jù)一塊寬高比懸殊的狹長(zhǎng)區(qū)域。這時(shí),直接沿用方形卷積核在神經(jīng)網(wǎng)絡(luò)的理論感受野中引入了背景噪聲,也會(huì)加大有效感受野[1]的收斂難度。
另一方面,圖像分類網(wǎng)絡(luò)一般層數(shù)越深準(zhǔn)確率越高[2-4],而本文認(rèn)為由于文本目標(biāo)的小尺寸特點(diǎn),網(wǎng)絡(luò)深度不宜過(guò)大,避免形成遠(yuǎn)大于目標(biāo)尺寸的感受野。此外,文本檢測(cè)網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)層的寬度應(yīng)該足夠?qū)捯匀菁{文本豐富的表觀特征。
基于上述分析,提出了面向文本檢測(cè)的十字感受野網(wǎng)絡(luò)(CrossNet),有效提高了文本檢測(cè)性能。
十字感受野網(wǎng)絡(luò)(CrossNet)是一種根據(jù)文本檢測(cè)任務(wù)特點(diǎn)設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),可以整合進(jìn)任何現(xiàn)有的文本檢測(cè)方法中。本節(jié)對(duì)其搭建細(xì)節(jié)進(jìn)行了闡述。
為了處理文本檢測(cè)的目標(biāo)形狀與主干網(wǎng)絡(luò)感受野不匹配的問(wèn)題,本文提出了采用不同寬高比的矩形卷積核來(lái)搭建網(wǎng)絡(luò)的基礎(chǔ)模塊,然后通過(guò)堆疊該基礎(chǔ)模塊組合成具備合適感受野的主干網(wǎng)絡(luò),優(yōu)化文本檢測(cè)器的性能。本文提出的基礎(chǔ)模塊為十字感受野模塊(Cross-Receptive-Field Block,CrossRecepBlock),其結(jié)構(gòu)如圖1所示。模塊內(nèi)包含3個(gè)分支通路:一個(gè)跨層連接和兩個(gè)由不同矩形卷積核(分別是3×1和1×3)開(kāi)始的分支通路。通過(guò)堆疊CrossRecepBlock,可使神經(jīng)網(wǎng)絡(luò)通過(guò)選擇不同模塊的不同分支組合成多種感受野形狀。
圖1展示了3個(gè)面向神經(jīng)網(wǎng)絡(luò)不同位置的CrossRecepBlock。CrossRecepBlock-A是一般形式,CrossRecepBlock-B用來(lái)將特征圖進(jìn)行寬、高維度的降采樣,來(lái)獲得更大的感受野,CrossRecepBlock-C用來(lái)增加輸出特征圖的通道數(shù)。
(a) 殘差模塊 (b) 十字感受野模塊-A (c) 十字感受野模塊-B (d) 十字感受野模塊-C圖1 CrossRecepBlock結(jié)構(gòu)示意圖Fig.1 Proposed CrossRecepBlock
本文認(rèn)為分類網(wǎng)絡(luò)中常用的深度、寬度設(shè)置并不十分適用于文本目標(biāo)檢測(cè)任務(wù),有如下兩點(diǎn)。
第一,用于文本檢測(cè)任務(wù)的神經(jīng)網(wǎng)絡(luò)的深度不宜過(guò)深。在場(chǎng)景文本大多數(shù)目標(biāo)都是小目標(biāo),即高度較小。適當(dāng)深的網(wǎng)絡(luò)層數(shù)可提高網(wǎng)絡(luò)所提取特征的語(yǔ)義強(qiáng)度,而過(guò)于深的網(wǎng)絡(luò)意味著較大的理論感受野,也意味著引入了過(guò)多的背景噪聲來(lái)傷害最終的檢測(cè)性能。實(shí)際上,一些文本檢測(cè)[3,5-6]中的實(shí)驗(yàn)也表明了在主干網(wǎng)絡(luò)從ResNet-50變?yōu)镽esNet-101后,準(zhǔn)確率并不提高。此外,在感受野較小的前幾個(gè)網(wǎng)絡(luò)階段(Stage)設(shè)置更多的層數(shù)有利于小文本目標(biāo)的檢測(cè)。
第二,網(wǎng)絡(luò)寬度就是每一層的通道數(shù)目,應(yīng)該設(shè)置得足夠大,特別是低層。網(wǎng)絡(luò)的寬度與網(wǎng)絡(luò)對(duì)樣本變化的容量正相關(guān)。而場(chǎng)景文本通常在字體、顏色以及排版等底層特征上變化比較豐富。因而網(wǎng)絡(luò)需要有足夠的容量來(lái)處理這些變化。
根據(jù)上兩節(jié)的思考,本節(jié)搭建了針對(duì)文本檢測(cè)任務(wù)的主干網(wǎng)絡(luò)CrossNet,詳細(xì)的網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。和ResNet的構(gòu)成方式類似,CrossNet由CrossRecepBlock堆疊而來(lái)。CrossNet在輸入側(cè)有兩個(gè)普通的卷積,用來(lái)將特征圖空間分辨率下采樣到原圖邊長(zhǎng)1/4大小,在這兩個(gè)卷積之后有8個(gè)CrossRecepBlock。
表1 CrossNet 網(wǎng)絡(luò)結(jié)構(gòu)示意
初始的兩個(gè)卷積使得圖像分辨率快速縮小,為了能保留更多細(xì)節(jié)信息,參考了AlexNet[7]和ResNet[4]中的設(shè)置,第一個(gè)卷積的卷積核采用了7×7大小。CrossNet在第一層卷積后采用了跨度為2的卷積層來(lái)進(jìn)行下采樣以保持更多細(xì)節(jié)。根據(jù)上面對(duì)于網(wǎng)絡(luò)深度和寬度的討論,4個(gè)網(wǎng)絡(luò)階段中CrossRecepBlock的數(shù)量設(shè)置為3、2、2、1。
為了驗(yàn)證本文提出的CrossNet有效性,本節(jié)選取了當(dāng)前性能較高的EAST算法,并用CrossNet作為EAST的主干網(wǎng)絡(luò),和其他主干網(wǎng)絡(luò)對(duì)比,說(shuō)明其有效性。圖2展示了基于CrossNet的EAST算法,EAST算法是一種基于分割的場(chǎng)景文本檢測(cè)算法,其在多個(gè)數(shù)據(jù)集上都有不錯(cuò)的表現(xiàn)。FOTS[8]的工作更是表明,通過(guò)豐富的數(shù)據(jù)擴(kuò)增、大尺度訓(xùn)練圖像尺寸等多種策略,EAST算法可以達(dá)到遠(yuǎn)超其他算法的最優(yōu)水平。本文的主干網(wǎng)絡(luò)和這些策略是兼容的。
圖2 基于CrossNet的EAST算法結(jié)構(gòu)示意圖Fig.2 CrossNet based EAST text detector
EAST方法在主干網(wǎng)絡(luò)之后添加了一個(gè)類似于特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,FPN)的模塊,用于將不同層的信息進(jìn)行融合。最后在融合后的最大空間分辨率特征圖上,輸出分類和回歸兩個(gè)任務(wù)的預(yù)測(cè)結(jié)果。
本節(jié)在ICDAR2015數(shù)據(jù)集[9]上進(jìn)行了實(shí)驗(yàn)。各個(gè)模型采用了統(tǒng)一的超參數(shù)設(shè)置。所有模型均在ICDAR2015和ICDAR2013的訓(xùn)練圖像上訓(xùn)練,在ICDAR2015的測(cè)試圖像上測(cè)試。除非額外說(shuō)明,本節(jié)的實(shí)驗(yàn)均是將網(wǎng)絡(luò)權(quán)重隨機(jī)初始化后,從頭開(kāi)始訓(xùn)練的。
為了驗(yàn)證CrossNet設(shè)計(jì)思路的有效性,在ICDAR2015上,對(duì)基于CrossNet的EAST的算法的各種結(jié)構(gòu)變種做了一系列對(duì)比實(shí)驗(yàn)。同時(shí),也對(duì)比了基于ResNet-50的EAST算法。
基礎(chǔ)對(duì)比:表2對(duì)比了基于CrossNet的EAST文本檢測(cè)器和基于ResNet-50的EAST文本檢測(cè)器的性能。由表2可以看出,在參數(shù)量大致相同的情況下,CrossNet比ResNet-50提高了8.36%的準(zhǔn)確率。為了對(duì)比FLOPS一致情況下的性能,將CrossNet每一層的通道數(shù)降為原通道數(shù)的1/2,得到0.5CrossNet。實(shí)驗(yàn)結(jié)果表明,0.5CrossNet依舊比ResNet-50高出3.86%,可見(jiàn),CrossNet的結(jié)構(gòu)在FLOPS和ResNet-50大致相同、參數(shù)量遠(yuǎn)小于ResNet-50的情況下,依然有明顯的優(yōu)勢(shì)。這主要是由于本文提出的CrossRecepBlock使得網(wǎng)絡(luò)可以學(xué)到更貼合文本區(qū)域的有效感受野,并且CrossNet有著更合理的深度、寬度設(shè)置,如圖1所示。
表2 ICDAR2015數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)的評(píng)測(cè)結(jié)果比較
CrossRecepBlock對(duì)比:表3單獨(dú)驗(yàn)證了CrossRecepBlock的作用。CrossRecepBlock中,最重要的部分是兩個(gè)由矩形卷積核(3×1和1×3)的卷積分別開(kāi)頭的通路分支。這也是它和ResNet網(wǎng)絡(luò)基礎(chǔ)模塊的區(qū)別。因而,將矩形卷積改成1×1的卷積,將這兩個(gè)分支替換為ResNet的1×1-3×3-1×1單分支,同時(shí)保持每一層的通道數(shù)和對(duì)應(yīng)的CrossRecepBlock一致,形成用殘差網(wǎng)絡(luò)基本模塊搭建的CrossNet-ResNet’,來(lái)對(duì)比兩種模塊的性能。由于0.5CrossNet在FLOPS上和ResNet-50更接近,并且顯存占用和速度上更高效,本組實(shí)驗(yàn)采用了0.5CrossNet進(jìn)行修改和對(duì)比。實(shí)驗(yàn)結(jié)果表明,0.5CrossNet+ResBlock’比0.5CrossNet低了2.16%,而二者的參數(shù)量和FLOPS相似。所以,CrossRecepBlock中的矩形卷積核在文本檢測(cè)主干網(wǎng)絡(luò)中十分重要。
表3 ICDAR2015 上,采用不同基礎(chǔ)模塊搭建主干網(wǎng)絡(luò)的評(píng)測(cè)結(jié)果比較
網(wǎng)絡(luò)深度對(duì)比:表4驗(yàn)證了上文中關(guān)于文本檢測(cè)主干網(wǎng)絡(luò)的深度不必要太深的觀點(diǎn),并列舉了 CrossNet和ResNet不同深度時(shí)的檢測(cè)性能。為了避免顯存不足,本組實(shí)驗(yàn)將ResNet和CrossNet的每層通道數(shù)砍至原網(wǎng)絡(luò)1/4、1/2進(jìn)行實(shí)驗(yàn)。首先,0.5CrossNet-double-D是把0.5CrossNet的每個(gè)網(wǎng)絡(luò)階段的CrossRecepBlock數(shù)翻倍,使得網(wǎng)絡(luò)總深度也翻倍。由此可以看出,深度翻倍后,F(xiàn)-score略有提高,但是相對(duì)CrossNet比0.5CrossNet的提高要少很多。
為了說(shuō)明結(jié)論的一般性,表4在ResNet上進(jìn)行了對(duì)比實(shí)驗(yàn)。其中,0.25ResNet-50-half-D代表將0.25ResNet的每個(gè)網(wǎng)絡(luò)階段的模塊數(shù)砍一半后得到的網(wǎng)絡(luò),該網(wǎng)絡(luò)相對(duì)0.25ResNet-50有略微降低,但也不多,和CrossNet上的結(jié)論類似。而繼續(xù)將0.25ResNet的每個(gè)網(wǎng)絡(luò)階段的模塊數(shù)翻倍,得到0.25ResNet-50-double-D,實(shí)驗(yàn)結(jié)果表明,深度變深后,F(xiàn)-score反而有很明顯的降低。為了說(shuō)明這不是由于每個(gè)網(wǎng)絡(luò)階段的模塊數(shù)配置不合理導(dǎo)致的,本文還評(píng)測(cè)了參數(shù)量和深度與0.25ResNet-50-double-D差不多的0.25ResNet-101網(wǎng)絡(luò),0.25ResNet-101比0.25ResNet-50-double-D略好,但仍比0.25ResNet-50差。并且,需要指出,這不是由于參數(shù)量大帶來(lái)的過(guò)擬合導(dǎo)致的,因?yàn)镽esNet-50、CrossNet比本組實(shí)驗(yàn)的100層左右的網(wǎng)絡(luò)(0.25ResNet-50-double-D,0.25ResNet-101)參數(shù)量大很多,但是有著遠(yuǎn)遠(yuǎn)高于這些網(wǎng)絡(luò)的評(píng)測(cè)得分。
表4 ICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)深度的評(píng)測(cè)結(jié)果比較
網(wǎng)絡(luò)寬度對(duì)比:由表5可以看出,不管是CrossNet結(jié)構(gòu)還是ResNet結(jié)構(gòu),增大網(wǎng)絡(luò)寬度(即網(wǎng)絡(luò)每層特征圖通道數(shù))可以明顯增強(qiáng)檢測(cè)器性能。
表5 WICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)寬度的評(píng)測(cè)結(jié)果比較
本節(jié)在ICDAR2015數(shù)據(jù)集上將基于CrossNet的文本檢測(cè)算法和當(dāng)前最優(yōu)算法進(jìn)行對(duì)比。為了進(jìn)一步提高性能,還將主干網(wǎng)絡(luò)CrossNet在ImageNet上進(jìn)行了預(yù)訓(xùn)練。
基于不同主干網(wǎng)絡(luò)的EAST算法在ICDAR2015數(shù)據(jù)集上的評(píng)測(cè)結(jié)果如表6所示,可以看出在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練之后再在文本檢測(cè)數(shù)據(jù)集ICDAR2015上訓(xùn)練的模型EAST-CrossNet-Pretrain達(dá)到了82.5%的F-score。這表明,盡管CrossNet不是針對(duì)分類任務(wù)設(shè)計(jì)的,在ImageNet上預(yù)訓(xùn)練依然可使其獲得更好的初始化權(quán)重,相比隨機(jī)初始化提升了4.23%。值得一提的是CrossNet可以用在其他任何文本檢測(cè)框架中,表6中所有基于深度學(xué)習(xí)的方法都可以將其主干網(wǎng)絡(luò)替換為專門(mén)針對(duì)文本檢測(cè)任務(wù)設(shè)計(jì)的CrossNet來(lái)獲得進(jìn)一步提高。
表6 ICDAR2015數(shù)據(jù)集上,多種方法的評(píng)測(cè)結(jié)果比較
圖3對(duì)比了基于CrossNet的EAST[11]文本檢測(cè)算法和基于ResNet-50的EAST算法各自訓(xùn)練完畢后形成的有效感受野。其中,有效感受野是指在網(wǎng)絡(luò)預(yù)測(cè)層上對(duì)應(yīng)原圖紅點(diǎn)位置處的有效感受野,可視化采用了文獻(xiàn)[13]的方法。有效感受野利用文獻(xiàn)[13]的方法進(jìn)行可視化。通過(guò)圖3可以看出,基于CrossNet的EAST方法感受野比基于ResNet-50的EAST方法的感受野更好地聚焦在文字區(qū)域上。
圖3 基于ResNet-50和CrossNet時(shí)的兩種EAST方法有效感受野對(duì)比Fig.3 Visualization of effective receptive fields of EAST based on ResNet-50 and the proposed CrossNet respectively
本文提出了一種針對(duì)文本檢測(cè)任務(wù)設(shè)計(jì)的主干網(wǎng)絡(luò)結(jié)構(gòu),即CrossNet。首先設(shè)計(jì)了CrossNet的基礎(chǔ)模塊“CrossRecepBlock”。 CrossRecepBlock包含3個(gè)卷積通路,其中兩個(gè)通路中包含了不同形狀的矩形卷積核的卷積層,通過(guò)堆疊此模塊,可以使搭建的主干網(wǎng)絡(luò)形成更貼合文本區(qū)域的感受野。之后討論了關(guān)于文本檢測(cè)主干網(wǎng)絡(luò)的寬度和深度的設(shè)置策略,發(fā)現(xiàn)主干網(wǎng)絡(luò)應(yīng)該足夠?qū)挼灰颂??;谏鲜鰞煞N策略,搭建了CrossNet。實(shí)驗(yàn)結(jié)果表明,CrossNet相比當(dāng)前普遍采用的針對(duì)圖像分類任務(wù)設(shè)計(jì)的主干網(wǎng)絡(luò)更適合文本目標(biāo)檢測(cè)任務(wù),在同等參數(shù)量或同等計(jì)算量條件下均比圖像分類網(wǎng)絡(luò)有顯著的準(zhǔn)確率提升。