劉建云 李海山 李 恒
(武漢數(shù)字工程研究所 武漢 430000)
場(chǎng)景文本檢測(cè)在深度學(xué)習(xí)領(lǐng)域可被視為計(jì)算機(jī)視覺(jué)中物體檢測(cè)任務(wù)的特定物體檢測(cè),也就是說(shuō)將文本作為一種特定的物體來(lái)檢測(cè)?;谏疃葘W(xué)習(xí)的文本檢測(cè)方法按照網(wǎng)絡(luò)輸出的數(shù)據(jù)分為基于邊框回歸的方法和基于語(yǔ)義分割的方法?;谶吙蚧貧w的文本檢測(cè)方法,如 CTPN[1]、SegLink[2]等,其檢測(cè)效果嚴(yán)重依賴(lài)于錨框或者錨點(diǎn)的選擇,導(dǎo)致模型中超參數(shù)的數(shù)量增加,降低了模型的泛化能力。而 PSENet[3]、DBNet[4]等網(wǎng)絡(luò)采用語(yǔ)義分割的方法根據(jù)圖片生成二值圖,然后根據(jù)二值圖生成文本框,因而檢測(cè)結(jié)果更加魯棒。為了提高檢測(cè)算法對(duì)于自然場(chǎng)景圖像中任意形狀文本的魯棒性和檢測(cè)精度,本文提出了一個(gè)以ResNet[5]為基礎(chǔ)網(wǎng)絡(luò),同時(shí)利用特征金字塔(Feature Pyramid Networks,F(xiàn)PN[6])進(jìn)行特征融合,最后利用雙通道殘差網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割的檢測(cè)算法。該方法不僅保證了深度學(xué)習(xí)模型的精度和推理速度,同時(shí)通過(guò)語(yǔ)義分割網(wǎng)絡(luò)提高網(wǎng)絡(luò)模型的泛化能力。
本文提出的語(yǔ)義分割網(wǎng)絡(luò)如圖1所示,一共分為上下兩個(gè)通道,通道中的網(wǎng)絡(luò)進(jìn)行殘差連接,故而命名為雙通道殘差。網(wǎng)絡(luò)的特征輸入為經(jīng)過(guò)特征融合網(wǎng)絡(luò)得到的特征圖,輸出為通道數(shù)為1的概率圖,其表示的是每個(gè)像素點(diǎn)處于文本區(qū)域的概率。由于通道2的網(wǎng)絡(luò)層數(shù)小于通道1,因而通道2相當(dāng)于是通道1殘差連接,加上圖1中的1、2、3這三個(gè)殘差連接,整個(gè)語(yǔ)義分割網(wǎng)絡(luò)中共有4個(gè)殘差連接。由于輸出概率圖的分辨率大于輸入特征圖,因此通道1和通道2進(jìn)行的都是上采樣操作,本文采用反卷積[7]實(shí)現(xiàn)上采樣。通道1和通道2的最后一層都是對(duì)輸入圖像每個(gè)像素點(diǎn)的分類(lèi)結(jié)果,這兩層進(jìn)行逐像素相加后得到網(wǎng)絡(luò)的最后一層。
圖1 基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)
本文的文本檢測(cè)算法流程如圖2所示,從輸入圖片到輸出圖片一共經(jīng)過(guò);是個(gè)階段,其中前三階段為網(wǎng)絡(luò)處理部分,第四個(gè)階段為后處理部分,目的是從二值圖中生成文本區(qū)域。本文設(shè)計(jì)整個(gè)檢測(cè)網(wǎng)絡(luò)分為三個(gè)部分,分別為backbone、neck和head。backbone部分采用ResNet作為整個(gè)網(wǎng)絡(luò)的網(wǎng)絡(luò)骨架,用以提取圖像中的語(yǔ)義信息。neck部分采用FPN進(jìn)行特征融合,特征融合之后對(duì)得到的特征圖進(jìn)行concat操作,然后連接注意力層[8],使得分割結(jié)構(gòu)更加魯棒。head部分采用2.1小節(jié)提出的雙通道殘差語(yǔ)義分割網(wǎng)絡(luò),對(duì)輸入圖像中的每個(gè)像素點(diǎn)進(jìn)行預(yù)測(cè),輸出每個(gè)點(diǎn)處于文本區(qū)域的概率值。
圖2 算法流程
網(wǎng)絡(luò)的損失函數(shù)層一共有三個(gè),分別是通道1最后輸出的概率圖1和通道2最后輸出的概率圖2,以及網(wǎng)絡(luò)最后輸出的概率圖3。其中,由于通道1的深度更深,所以得到特征圖的語(yǔ)義信息更強(qiáng),因而使用交叉熵?fù)p失函數(shù),以此來(lái)保證每個(gè)點(diǎn)分類(lèi)的準(zhǔn)確性,而通道2更短,因而使用IOU Loss來(lái)保證文本的召回率。最后概率圖3同樣使用IOU Loss,以此來(lái)提高整體網(wǎng)絡(luò)對(duì)于檢測(cè)結(jié)果召回率。
本文選擇的實(shí)驗(yàn)數(shù)據(jù)集為ICDAR2015。該數(shù)據(jù)集一共包含1500張圖片,按照2:1的比例分為訓(xùn)練集和測(cè)試集,每張圖片的大小都為1280×720像素。該數(shù)據(jù)集中的圖像都是通過(guò)可穿戴設(shè)備隨意采集的,圖像中的文本大小、文本行方向等都具有隨機(jī)性,這些因素增加了其文本檢測(cè)的難度。
實(shí)驗(yàn)基于Pytorch,利用ICDAR2015開(kāi)源數(shù)據(jù)集對(duì)本文提出的方法進(jìn)行了性能評(píng)估。實(shí)驗(yàn)中的硬件平臺(tái)配置如表1所示。
表1 實(shí)驗(yàn)環(huán)境
在實(shí)驗(yàn)中,我們將訓(xùn)練的batch size設(shè)為6,初始學(xué)習(xí)率設(shè)為0.001,優(yōu)化器選擇Adam,一共迭代1200個(gè)epoch。圖3為模型在測(cè)試集的準(zhǔn)確率和召回率的變化曲線,圖中的橫坐標(biāo)表示迭代次數(shù),縱坐標(biāo)為百分比,可以看到隨著迭代次數(shù)的增加,網(wǎng)絡(luò)的精度也在逐漸提升。當(dāng)?shù)螖?shù)過(guò)少時(shí),深度學(xué)習(xí)模型的精度會(huì)比較差,反之,模型可能會(huì)出現(xiàn)過(guò)擬合,使得在訓(xùn)練集的精度上升而測(cè)試集的準(zhǔn)確率下降,因此,在我們的研究中每訓(xùn)練完一個(gè)ep?och,就將此時(shí)得到的模型權(quán)重與之前迭代得到的最高精度的模型權(quán)重進(jìn)行對(duì)比,如果此時(shí)的模型權(quán)重測(cè)試結(jié)果更優(yōu),則將權(quán)重保存下來(lái),同時(shí)將其更新為當(dāng)前的最優(yōu)結(jié)果。最終,本文提出的場(chǎng)景文本檢測(cè)算法在ICDAR2015數(shù)據(jù)集中取得了88.99%的準(zhǔn)確率和80.16%的召回率。圖4顯示了測(cè)試集中的部分檢測(cè)結(jié)果。
圖3 測(cè)試集準(zhǔn)確率和召回率變化曲線
圖4 部分檢測(cè)結(jié)果
表2是目前主流的文本檢測(cè)方法與本文方法的對(duì)比結(jié)果,本文的baseline算法為DB-ResNet-18[8],它發(fā)表在AAAI2020,是當(dāng)時(shí)場(chǎng)景文本檢測(cè)的最佳算法。本文的檢測(cè)網(wǎng)絡(luò)與DB-ResNet-18都是采用resnet18+特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取和融合。本文所提出算法的準(zhǔn)確率、召回率、F-mea?sure相比于DB-ResNet-18分別提升了2.19%、1.66%、2.05%,這表明本文所提出的基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)對(duì)于分割精度的提升是有效的。同時(shí)可以看到本文提出的方法相比于SegLink[2],PixelLink[9],EAST[10]等多方向文本檢測(cè)網(wǎng)絡(luò)有所提升,與FTSN[11]等目前檢測(cè)效果優(yōu)異的網(wǎng)絡(luò)相比性能接近。
表2 ICDAR2015檢測(cè)結(jié)果對(duì)比
為了提高場(chǎng)景文本檢測(cè)的精度和模型的泛化能力,本文將基于雙通道殘差的語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用在場(chǎng)景文本檢測(cè)算法中。特別地,我們利用ResNet作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行特征提取,同時(shí)利用FPN對(duì)提取的特征進(jìn)行融合,最后送到語(yǔ)義分割網(wǎng)絡(luò)中。與基于邊框回歸的檢測(cè)算法相比,檢測(cè)網(wǎng)絡(luò)的泛化能力得到增強(qiáng),同時(shí)提高了模型的推理速度。最終的實(shí)驗(yàn)結(jié)果證明,本文提出的網(wǎng)絡(luò)是行之有效的。其在ICDAR2015的測(cè)試集的準(zhǔn)確率達(dá)到88.99%,召回率達(dá)到80.16%。在未來(lái),我們可以進(jìn)一步優(yōu)化分割網(wǎng)絡(luò)的結(jié)構(gòu)以提高深度學(xué)習(xí)模型準(zhǔn)確性。