王 林,張曉鋒
(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,西安 710048)
隨著智能硬件的普及,通過(guò)手機(jī)、平板和數(shù)碼相機(jī)等移動(dòng)可穿戴設(shè)備的終端攝像頭獲取、處理和分享信息己經(jīng)逐漸成為客觀的發(fā)展趨勢(shì).自然場(chǎng)景中的文本檢測(cè)是檢測(cè)圖像中是否含有文本信息,并確定文本信息的位置.通過(guò)文本信息來(lái)對(duì)場(chǎng)景進(jìn)行理解,將有助于我們對(duì)日夜增加的視頻、圖像和圖片等海量信息的檢索管理等.因此,本文主要集中在檢測(cè)自然場(chǎng)景中的文本信息.
目前,自然場(chǎng)景中的文本檢測(cè)有兩種經(jīng)典模型:卷積神經(jīng)網(wǎng)絡(luò)[1]和深度置信網(wǎng)絡(luò)[2],卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由個(gè)二維平面組成,而每個(gè)平面又由多個(gè)獨(dú)立的神經(jīng)元組成.卷積神經(jīng)網(wǎng)絡(luò)可以看成是卷積層和子采樣層兩種結(jié)構(gòu)交替連接而成的.卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有良好的適應(yīng)性,但是忽略了圖像中的高階統(tǒng)計(jì)特征.相應(yīng)地,深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)是一種由多個(gè)受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)疊加而成的深度學(xué)習(xí)結(jié)構(gòu),兩者的區(qū)別在與卷積的使用.對(duì)于深度置信網(wǎng)絡(luò)模型而言,雖然它在提取圖像高階特征方面具有很好的性能,但忽略了圖像的局部不變性,對(duì)外部變化較為敏感.
Lee等人[3]提出了卷積深度置信網(wǎng)絡(luò)(Convolutional Deep Belief Network,CDBN),該網(wǎng)絡(luò)由卷積受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,CRBM)為基礎(chǔ)堆疊而成的,是一個(gè)分層的概率生成模型.該網(wǎng)絡(luò)結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,解決了對(duì)于擴(kuò)展圖像到原尺寸,以及圖像特征會(huì)因輸入局部變換而變換的問(wèn)題.Huang[4]利用卷積深度置信網(wǎng)絡(luò)模型CDBN和局部二進(jìn)制模式LBP相結(jié)合所形成的深度學(xué)習(xí)方法,更好的學(xué)習(xí)到高分辨率圖像中的特征,實(shí)驗(yàn)結(jié)果表明該方法在真實(shí)世界的人臉驗(yàn)證數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了最新的結(jié)果.Wicht[5]利用卷積深度置信網(wǎng)絡(luò)模型CDBN識(shí)別包含手寫(xiě)和打印數(shù)字的數(shù)獨(dú)拼圖,實(shí)驗(yàn)結(jié)果表明當(dāng)考慮檢測(cè)誤差時(shí),識(shí)別精確率達(dá)到92%;當(dāng)不考慮檢測(cè)誤差時(shí),識(shí)別精確率提高到97.7%.何灼彬[6]利用卷積深度置信網(wǎng)絡(luò)模型CDBN進(jìn)行歌手識(shí)別,實(shí)驗(yàn)結(jié)果表明該模型在聲音識(shí)別分類表現(xiàn)上具有一定的優(yōu)勢(shì).Ren等[7]提出利用卷積深度置信網(wǎng)絡(luò)模型CDBN對(duì)腦電信號(hào)特征提取,與其他提取方法相比,利用卷積深度置信網(wǎng)絡(luò)學(xué)習(xí)的特征具有更好的性能.祝軍[8]利用卷積深度置信網(wǎng)絡(luò)模型CDBN進(jìn)行場(chǎng)景圖像分類識(shí)別,實(shí)驗(yàn)結(jié)果表明該模型在場(chǎng)景圖像分類識(shí)別中取得較好的效果.
綜上所說(shuō),卷積深度置信網(wǎng)絡(luò)因結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,已廣泛應(yīng)用于圖像分類、語(yǔ)音識(shí)別和人臉識(shí)別[9]等領(lǐng)域,但是目前尚未發(fā)現(xiàn)有研究將卷積深度置信網(wǎng)絡(luò)應(yīng)用于自然場(chǎng)景中的文本檢測(cè)領(lǐng)域.因此,本文考慮將卷積深度置信網(wǎng)絡(luò)模型應(yīng)用到自然場(chǎng)景中文本檢測(cè)中,旨在解決圖像背景復(fù)雜、分辨率低和文本分布隨意的問(wèn)題,從而提高文本檢測(cè)的精確率以及召回率.
2011年,Lee提出了卷積深度置信網(wǎng)絡(luò)CDBN,該卷積深度置信網(wǎng)絡(luò)有多個(gè)卷積受限玻爾茲曼機(jī)CRBM堆疊而成,這種結(jié)構(gòu)的層與層之間引入了一種最新的操作,即概率型最大池化(Probabilistic Max-pooling)[3],如圖1所示.一般而言,要獲取高層的特征描述需要更多的區(qū)域信息,通過(guò)用最大值池化特征表示,能夠使得高層特征描述對(duì)輸入的微小變化具有良好的不變性,同時(shí)能夠減少計(jì)算復(fù)雜度.
在本文中CDBN模型的輸入層設(shè)置為28×28×3大小(即將輸入可以看成3個(gè)大小為28×28的映射層),第一隱含層中的卷積層包含6個(gè)特征映射,卷積核大小均為7×7,池化層的池化區(qū)域?yàn)?×2,第二個(gè)隱含層的卷積層包含8個(gè)特征映射,卷積核的大小為5×5,池化層的池化區(qū)域?yàn)?×2,最后將模型的輸出單元組合成長(zhǎng)度為一維的向量.學(xué)習(xí)速率為0.05,模型的激活函數(shù)采用sigmoid函數(shù),第一層的稀疏系數(shù)為0.02,第二層為0.03.采用Dropout方法對(duì)隱含層以50%的概率進(jìn)行隨機(jī)丟取.最后的分類器采用Softmax.
圖1 一個(gè)概率max-pooling卷積CRBM結(jié)構(gòu)示意圖
一個(gè)典型的自然場(chǎng)景文本檢測(cè)主要流程如圖2所示,簡(jiǎn)單描述自然場(chǎng)景文本檢測(cè)的主要步驟[10-12]:
1) 最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions,MSERs)[13]文本定位:假定同一個(gè)區(qū)域成分的某些相似特征(顏色、亮度和筆劃寬度的特征)差別較大,并且與背景的特征也存在較大區(qū)別的前提下,采用自底向上的方法在圖像中把連通成分作提取處理,獲取文本候選區(qū)域.
2) 預(yù)處理:對(duì)最大穩(wěn)定極值區(qū)域MSER提取的文本候選區(qū)域進(jìn)行裁剪分割,過(guò)濾掉一些很長(zhǎng)很細(xì)的MSER區(qū)域(很長(zhǎng)很細(xì)的MSER區(qū)域不可能是文本區(qū)域),把不規(guī)整的MSER區(qū)域統(tǒng)一規(guī)范成28×28的輸入圖像如圖3所示,并在整理好的28×28輸入圖像上添加Ground truth矩形框.
圖2 MSER區(qū)域統(tǒng)一規(guī)范成28×28的輸入圖像
圖3 自然場(chǎng)景文本檢測(cè)主要流程
3) CDBN特征提取:將從最大穩(wěn)定極值區(qū)域MSER中提取出來(lái)的候選文本區(qū)域經(jīng)過(guò)預(yù)處理后輸入到卷積深度置信網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,從訓(xùn)練最大穩(wěn)定極值區(qū)域數(shù)據(jù)中進(jìn)行學(xué)習(xí)更多隱藏特征,對(duì)候選文本區(qū)域進(jìn)行驗(yàn)證,進(jìn)而過(guò)濾掉大量的非文本的MSER區(qū)域.
下面通過(guò)數(shù)值實(shí)驗(yàn)來(lái)驗(yàn)證本文所提出的場(chǎng)景文本檢測(cè)方法性能,將本文的方法和其他方法進(jìn)行比較.本文使用一些公開(kāi)的自然場(chǎng)景文本檢測(cè)的數(shù)據(jù)集,包括ICDAR2011魯棒閱讀競(jìng)賽(Robust Reading Competition)數(shù)據(jù)集[14],和街景(Street View Text,SVT)數(shù)據(jù)集[15].數(shù)據(jù)集中的圖片是彩色的,尺寸在307×93到1280×960內(nèi).本實(shí)驗(yàn)的文本檢測(cè)輸出結(jié)果為單詞級(jí)別的矩形框,與數(shù)據(jù)集的Ground truth匹配.對(duì)于文本檢測(cè)任務(wù)而言,有兩個(gè)重要的評(píng)價(jià)指標(biāo)[1]:精確率(使用p表示)和召回率(使用r表示).其中p用來(lái)反映檢測(cè)出的單詞在Ground truth被標(biāo)記的比例,而r則用來(lái)表示Ground truth里標(biāo)記的單詞被檢測(cè)出的比例p和r通過(guò)計(jì)算Ground truth矩形框和檢測(cè)到的矩形框之間的差異得到.
硬件環(huán)境:64位Intel(R)Core(TM)i7-4790 3.6 GHz CPU,4 G RAM.
軟件環(huán)境:Windows 8.1旗艦版,Matlab R2016b.
本文實(shí)驗(yàn)在Visual Studio 2013和Opencv 2.4.8環(huán)境中進(jìn)行了數(shù)據(jù)準(zhǔn)備和在Matlab R2016b環(huán)境中進(jìn)行了基于稀疏自動(dòng)編碼的文本檢測(cè).
① ICDAR2011數(shù)據(jù)集
ICDAR 2011數(shù)據(jù)集包含484張圖片,其中訓(xùn)練集包229張(848個(gè)單詞),測(cè)試集包含255張(1189個(gè)單詞,6393個(gè)字符).ICDAR 2011數(shù)據(jù)集的評(píng)價(jià)協(xié)議考慮三種匹配情況:一對(duì)一、一對(duì)多和沒(méi)有匹配.相應(yīng)地,其精確率和召回率的計(jì)算方式如下:
其中,N是數(shù)據(jù)集中圖像的總數(shù),分別是第i個(gè)圖像中的檢測(cè)到矩形數(shù)和真實(shí)矩形數(shù).分別是檢測(cè)矩形Dj和真實(shí)矩形Gi的匹配分?jǐn)?shù).對(duì)于一對(duì)一匹配,它們的值設(shè)置為1,對(duì)于一對(duì)多的匹配,它們的值為0.8,不匹配的值為0.當(dāng)它們的重疊比率高于定義的閾值時(shí),兩個(gè)矩形認(rèn)為是匹配的,即重疊率越高,檢測(cè)率越高.
② SVT數(shù)據(jù)集
SVT數(shù)據(jù)集從Google街景中搜集的,圖像背景多為街道,其中包含的文本信息主要是商業(yè)名稱,建筑名稱等.由于其圖像是通過(guò)移動(dòng)的車(chē)輛拍攝獲得,所以不可避免地會(huì)產(chǎn)生運(yùn)動(dòng)模糊以及形變,而且圖像的分辨率較低,文本字體差異明顯[16].共包含350張,其中101張用作訓(xùn)練集(257個(gè)單詞),249張用作測(cè)試集(674個(gè)單詞,3796個(gè)字符).對(duì)于SVT數(shù)據(jù)集,使用與ICDAR2011數(shù)據(jù)集相同的評(píng)價(jià)協(xié)議.
① ICDAR數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了評(píng)價(jià)本文兩個(gè)方法的有效性,首先在ICDAR數(shù)據(jù)集上與其它較好的方法進(jìn)行比較.表1是在ICDAR2011數(shù)據(jù)集上的文本檢測(cè)對(duì)比結(jié)果.可以看到,MSER-CDBN方法的精確率和召回率都取得改善,提高了1.45%-2.18%并且F-measure分?jǐn)?shù)超過(guò)了78.63%.由于MSER-CDBN使用了對(duì)復(fù)雜圖像更加魯棒的候選字符提取算法MSER和可以更好學(xué)習(xí)特征的CDBN模型,因此識(shí)別精確率和召回率都得到提高.
表1 ICDAR2011數(shù)據(jù)集上實(shí)驗(yàn)對(duì)比結(jié)果
為了提高模型檢測(cè)精確率,一個(gè)非常重要的策略就是引入隨機(jī)噪聲.為了驗(yàn)證隨機(jī)噪聲引入與否的影響,在其他條件不變的情況下,引入隨機(jī)噪聲和不引入隨機(jī)噪聲的實(shí)驗(yàn)結(jié)果對(duì)比,如表2所示.
表2 ICDAR2011數(shù)據(jù)集上引入隨機(jī)噪聲和不引入隨機(jī)噪聲的實(shí)驗(yàn)結(jié)果對(duì)比
由表2可知加入了噪聲后的CDBN學(xué)習(xí)到的特征比較好,ICDAR2011數(shù)據(jù)集上的精確率提高到了89.49%,可以看出隨著訓(xùn)練次數(shù)的增加,文本檢測(cè)的精確率也在提高,對(duì)于那些誤判的文本進(jìn)行歸類發(fā)現(xiàn)很大一部分是由于復(fù)雜的背景造成的,為此,本文給輸入數(shù)據(jù)加入噪聲,利用污染后的數(shù)據(jù)進(jìn)行特征學(xué)習(xí),和原先的數(shù)據(jù)進(jìn)行對(duì)比發(fā)現(xiàn),精確率有所提高.圖4顯示了MSER-CDBN方法在ICDAR2011數(shù)據(jù)集上的部分檢測(cè)結(jié)果.
② SVT數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
SVT數(shù)據(jù)集比ICDAR2011數(shù)據(jù)集更為復(fù)雜,擁有更多的字體變化,而且圖像常常包含大量的噪聲信息.在SVT數(shù)據(jù)集上對(duì)比方法比較少,本文選擇了兩個(gè)代表性的方法用于對(duì)比實(shí)驗(yàn).這里需要注意的是下列方法均采用ICDAR 2011官方的評(píng)價(jià)協(xié)議.
圖4 MSER-CDBN在ICDAR2011數(shù)據(jù)集上實(shí)驗(yàn)示例
可以從表3看到,本文的方法相比MSERCNN和SWT-DBN的方法,精確率提高了2.53%,召回率與SWT-DBN方法相比提高了9.24%,主要得益于本文方法使用了深度學(xué)習(xí)模型,將從最大穩(wěn)定極值區(qū)域中提取出來(lái)的候選文本區(qū)域經(jīng)過(guò)預(yù)處理后輸入到卷積深度置信網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,從訓(xùn)練最大穩(wěn)定極值區(qū)域數(shù)據(jù)中學(xué)習(xí)更多隱藏特征,進(jìn)而過(guò)濾掉大量的非文本的MSER區(qū)域.圖5顯示了MSER-CDBN方法在SVT數(shù)據(jù)集上的部分識(shí)別結(jié)果.
表3 SVT數(shù)據(jù)集上實(shí)驗(yàn)對(duì)比結(jié)果
由于卷積深度置信網(wǎng)絡(luò)結(jié)合了深度置信網(wǎng)絡(luò)在圖像高階特征方面具有的良好性能和卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的位移、縮放及其他旋轉(zhuǎn)等變化具有很好的適應(yīng)性,本文將該模型和最大穩(wěn)定極值區(qū)域算法相結(jié)合用于場(chǎng)景文本檢測(cè)解決了圖像背景復(fù)雜、分辨率低和分布隨意的問(wèn)題.本文在ICADR和SVT數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明與其它場(chǎng)景文本檢測(cè)算法相比本文的算法在檢測(cè)精確率和召回率上有了提高.
圖5 MSER-CDBN在SVT數(shù)據(jù)集上的實(shí)驗(yàn)示例
1 Huang WL,Qiao Y,Tang XO.Robust scene text detection with convolution neural network induced MSER trees.Computer Vision(ECCV 2014).Cham:Springer,2014.497-511.
2 Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform.Proceedings of Computer Vision and Pattern Recognition.San Francisco,CA,USA.2010.2963-2970.
3 Lee H,Grosse R,Ranganath R,et al.Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations.Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,QC,Canada.2009.609-616.
4 Huang GB,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks.Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2518-2525.
5 Wicht B,Henneberty J.Mixed handwritten and printed digit recognition in Sudoku with Convolutional Deep Belief Network.Proceedings of the 13th International Conference on Document Analysis and Recognition.Tunis,Tunisia.2015.861-865.
6 何灼彬.基于卷積深度置信網(wǎng)絡(luò)的歌手識(shí)別[碩士學(xué)位論文].廣州:華南理工大學(xué),2015.38-48.
7 Ren YF,Wu Y.Convolutional deep belief networks for feature extraction of EEG signal.Proceedings of International Joint Conference on Neural Networks.Beijing,China.2014.2850-2853.
8 祝軍,趙杰煜,董振宇.融合顯著信息的層次特征學(xué)習(xí)圖像分類.計(jì)算機(jī)研究與發(fā)展,2014,51(9):1919-1928.[doi:10.7544/issn1000-1239.2014.20140138]
9 Shao H,Chen S,Zhao JY,et al.Face recognition based on subset selection via metric learning on manifold.Frontiers of Information Technology &Electronic Engineering,2015,16(12):1046-1058.
10 Yin XC,Yin XW,Huang KZ,et al.Robust text detection in natural scene images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(5):970-983.
11 Xu HL,Xue LK,Su F.Scene text detection based on robust stroke width transform and deep belief network.Computer Vision-ACCV 2014.Cham:Springer,2014.195-209.
12 Wang K,Babenko B,Belongie S.End-to-end scene text recognition.Proceedings of International Conference on Computer Vision.Barcelona,Spain.2012.1457-1464.
13 Chen HZ,Tsai SS,Schroth G,et al.Robust text detection in natural images with edge-enhanced maximally stable extremal regions.Proceedings of IEEE International Conference on Image Processing.Brussels,Belgium.2011.2609-2612.
14 Shahab A,Shafait F,Dengel A.ICDAR 2011 robust reading competition challenge 2:Reading text in scene images.Proceedings of International Conference on Document Analysis and Recognition.Beijing,China.2011.1491-1496.
15 Minetto R,Thome N,Cord M,et al.Text detection and recognition in urban scenes.Proceedings of IEEE International Conference on Computer Vision Workshops.Barcelona,Spain.2012.227-234.
16 Yu TS,Wang RS.Scene parsing using graph matching on street-view data.Computer Vision and Image Understanding,2016,145:70-80.[doi:10.1016/j.cviu.2016.01.004]