駱 遙
(同濟大學(xué) 測繪與地理信息學(xué)院,上海 200092)
基于深度全卷積神經(jīng)網(wǎng)絡(luò)的文字區(qū)域定位方法
駱 遙
(同濟大學(xué) 測繪與地理信息學(xué)院,上海 200092)
近年來,深度學(xué)習(xí)模型在各種計算機視覺方面都展現(xiàn)出了遠遠優(yōu)于傳統(tǒng)方法的性能,在自然場景中的文字區(qū)域定位問題中引入深度學(xué)習(xí)方法無疑也是大勢所趨。文章提出了一種基于深度全卷積網(wǎng)絡(luò)方法的文字區(qū)域定位方法,實現(xiàn)了端到端的訓(xùn)練、檢測,使得訓(xùn)練更為有效,檢測過程更加高效。最終文中方法在ICDAR 2015數(shù)據(jù)集上對比基于MSER等的傳統(tǒng)方法有了很大提升,達到了86.57%的查準(zhǔn)率和82.1%的召回率。
深度全卷積網(wǎng)絡(luò);自然場景文字區(qū)域定位;圖像區(qū)域分割
傳統(tǒng)的自然場景文字定位問題通常遵循自下而上的檢測流程,首先是對圖像進行預(yù)處理,然后通過傳統(tǒng)的檢測方法通常是使用模版匹配的方法來選擇候選區(qū)域,接著對候選區(qū)域進行投票選擇融合或者非極大值抑制方法生成最后的文字區(qū)域[1]。這類模板在解決特定場景下的定位問題時非常有效,例如應(yīng)用在掃描文件的OCR問題上[2],因為這類問題通常帶有很強的先驗信息,比如字體統(tǒng)一、大小統(tǒng)一等信息,但是在自然場景中文字字體千差萬別、尺度跨度非常廣,背景信息復(fù)雜,面對這些情況從低層特征構(gòu)建出的模板泛化能力非常有限,這類方法的代表有SWT和MSER方法。
本文提出一種利用深度全卷積網(wǎng)絡(luò)來對像素點進行分類,從而達到檢測文字區(qū)域的目的。這種方法有如下幾個優(yōu)點,第一深度全卷積網(wǎng)絡(luò)不同于傳統(tǒng)的深度卷積神經(jīng)網(wǎng)絡(luò),不需要對輸入圖像的尺寸做歸一化操作,因此能最大程度上地在不損失原有圖像信息的基礎(chǔ)上利用好圖像信息。第二,由于是利用對像素點進行分類來檢測文字區(qū)域,因此對文字區(qū)域的尺度變化和旋轉(zhuǎn)變化要比傳統(tǒng)的模板匹配的方法魯棒很多。第三,這是一種端到端的訓(xùn)練檢測方法,能最大程度上的利用圖像的上下文信息和局部信息對參數(shù)進行有效訓(xùn)練,檢測階段只需要進行一次前向傳播就能完成所有的檢測步驟,因此對比傳統(tǒng)的模板匹配方法效率要提高不少。
1.1 傳統(tǒng)方法
過去很長一段時間內(nèi),自然場景的文字區(qū)域檢測問題都依賴于單個文字的檢測。單個文字通常使用一些低層特征例如HOG,LBP、區(qū)域面積、區(qū)域長寬比等來對單個文字進行描述,然后使用模板匹配的方法利用SVM,Random Forest等強分類器進行單個文字的檢測。近年來,深度卷積神經(jīng)網(wǎng)絡(luò)所表現(xiàn)出的強大的特征表達能力使得該類方法在各個計算機視覺方向都取得了突破性的進展,因此也有一些工作使用深度卷積神經(jīng)網(wǎng)絡(luò)來代替低層特征加強分類器來進行單個字符的檢測,也確實取得了更好的結(jié)果。但是基于該種思想的方法仍然無法在復(fù)雜的自然場景中游刃有余。
1.2 本文方法
VGG-16[7]是牛津大學(xué)視覺幾何組在2015年提出的一種圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型。該模型所采用的小卷積核(3×3)有效地減少了參數(shù)數(shù)量,防止過擬合,提升了訓(xùn)練效率,一經(jīng)提出就在各大視覺競賽中取得了優(yōu)異的成績。
由于VGG-16具有優(yōu)異的特征表達能力,基于這個模型的各種衍生品層出不窮[3]。本文也是基于VGG-16的特征表達來實現(xiàn)自然場景的文字區(qū)域檢測。本文提出網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,前五層卷積部分完全繼承自VGG-16,每個卷積部分都包含2個卷積層,2個激活層和一個下采樣層。雖然卷積核的大小固定為3×3,可是由于網(wǎng)絡(luò)層深不同的緣故,不同卷積部分所提取的特征側(cè)重也有所不同,淺層的卷積部分更關(guān)注圖像的局部細節(jié),例如邊緣和紋理等;深層的卷積部分更關(guān)注圖像的全局信息,不同深度的卷積部分提取不同尺度上的圖像特征,級聯(lián)。這些特征對于準(zhǔn)確地描述圖像特征非常有幫助。承接5個卷積部分的是5個反卷積層,分別對應(yīng)不同深度的卷積特征,其將這些卷積特征反卷積到和輸入圖像相同的尺寸大小。反卷積操作效果相當(dāng)于上采樣再加上一個1×1卷積核的卷積層。然后將這些反卷積得到的結(jié)果級聯(lián)起來,再通過一個1×1的卷積層,這樣就生成了最終的特征圖。特征圖通過Sigmoid層來實現(xiàn)對每個像素點的二分類。
基于深度全卷積網(wǎng)絡(luò)的訓(xùn)練方法還是采用傳統(tǒng)的minibatch的隨機梯度下降方法,由于采用logistic作為二分類器,損失函數(shù)很自然地選擇了交叉熵損失函數(shù)。訓(xùn)練階段為了加速模型的收斂速度使用了Dropout層來加速收斂。測試階段是用Sigmoid層代替Cross-Entropy損失層來得到最后的概率預(yù)測圖,針對概率選擇閾值就可以確定最后的結(jié)果。
2.1 實驗數(shù)據(jù)
實驗數(shù)據(jù)選擇了ICDAR—2015中的自然場景文本標(biāo)準(zhǔn)數(shù)據(jù)集。這個數(shù)據(jù)集是ICDAR—2015自然場景文本區(qū)域定位比賽的專用數(shù)據(jù)集,是一個公認的具有挑戰(zhàn)性的數(shù)據(jù)集。
2.2 訓(xùn)練細節(jié)
本文所提出的方法基于Caffe開源框架實現(xiàn),服務(wù)器配置如下:2.0 GHz 8-coreCPU,32 GRAM,GTX—1070GPU,操作系統(tǒng)為Ubuntu-14.04 LTS。
2.3 檢測結(jié)果
采用查準(zhǔn)率和召回率來定量評價算法的性能與表現(xiàn)。設(shè)Nt為圖像中文字區(qū)域數(shù)量,Nc為正確檢測的文字區(qū)域數(shù)量、Nf為錯檢的文字區(qū)域數(shù)量,則查準(zhǔn)率定義為:precision=Nc/(Nc+Nf),召回率定義為:recall=Nc/Nt。所有測試圖像上有文字區(qū)域,基于本文算法共檢測出1 508個文字區(qū)域,其中1 303個是正確的,205個是錯誤的,即查準(zhǔn)率為86.57%,查全率為82.1%。
本論文將深度學(xué)習(xí)引入了自然場景的文字區(qū)域識別問題中,并設(shè)計采用深度全卷積網(wǎng)絡(luò)來進行像素分類并以此來解決文字區(qū)域定位的問題。像素分類不易受尺度變化、方向變化等要素影響,全卷積網(wǎng)絡(luò)不受輸入圖像的圖幅限制,本文將二者結(jié)合起來設(shè)計了端到端的訓(xùn)練、檢測方法。對比以往的基于單個字符的區(qū)域檢測方法更具有魯棒性,在標(biāo)準(zhǔn)數(shù)據(jù)集上取得了不錯的測試效果。
圖1 本文設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)
[1]MATAS J, CHUM O, URBAN M, et al.Robust wide baseline stere of rommaximally stable extremal regions.[C].British: British Machine Vision Conference, 2002:384-396.
[2]DONOSER M, BISCH H.Efficient Maximally Stable Extremal Region(MSER)Tracking[C].USA: IEEE Conference on Computer Vision and Pattern Recognition, 2006:625-630.
[3]SALEMBIER, PHILIPPE, OLIVERAS A, et al. Antiextensive Connected Operators for Image and Sequence Processing.[J]. Transactions on Image Processing, 1998(4):555–570.
[4]NEUMANN L. A Method for Text Localization and Recognition in Real-World Images[C].Taibei: Asian Conference on Computer Vision,2010:770-783.
Text area location method based on depth full convolutional neural network
Luo Yao
(Surveying and Mapping and Geographic Information College of Tongji University, Shanghai 200092, China)
Deep learning has drawn lots of attention recently due to its powerful ability in both computer vision and voice field. Introducing depth learning method in text area localization problem of natural scene undoubtedly is the trend. In this paper we proposed a new method based on deep fully convolutional networks for neural scene text localization task which is an end-to-end method.The method we proposed makes the training and detection much more efficient compared with the traditional method such as MSER method. Finally we achieved 86.57% precision and 82.1% recall in ICDAR 2015 data set.
neural scene text localization;natural scene text area location; image region segmentation
駱遙(1992— ),男,甘肅天水,碩士研究生;研究方向:計算機視覺。