楊 飛
(1.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所 上海200050;2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201210;3.中國科學(xué)院大學(xué) 北京 100049)
自然場景圖像中的文字檢測綜述
楊 飛1,2,3
(1.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所 上海200050;2.上??萍即髮W(xué) 信息科學(xué)與技術(shù)學(xué)院,上海201210;3.中國科學(xué)院大學(xué) 北京 100049)
近年來自然場景圖像中的文字檢測與識(shí)別越來越得到人們的關(guān)注,主要是因?yàn)閳D像中的文字檢測與識(shí)別對于理解圖片內(nèi)容、建立圖像索引具有重要的意義。本文針對圖像文字檢測與識(shí)別這一領(lǐng)域的核心的問題即文字檢測與定位,首先通過介紹了圖像中的文字檢測的基本概念,然后通過介紹和對比各種圖像文字檢測的方法的優(yōu)缺點(diǎn),我們可以得出這樣一個(gè)結(jié)論即結(jié)合深度學(xué)習(xí)方法和大數(shù)據(jù)來進(jìn)行自然場景圖像文字檢測與識(shí)別已經(jīng)成為一個(gè)趨勢和熱點(diǎn),文章最后總結(jié)了該領(lǐng)域的挑戰(zhàn)和最新的發(fā)展趨勢。
自然場景文字檢測;文字識(shí)別;深度學(xué)習(xí)方法
自上世紀(jì)90年代,復(fù)雜彩色圖像中的文本定位課題被提出以來,由于具有巨大的經(jīng)濟(jì)效益,該課題已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域和文檔分析領(lǐng)域的一個(gè)熱點(diǎn),吸引了眾多的研究人員持續(xù)進(jìn)行研究。比如從2003年開始,每兩年舉辦一次的國際范圍內(nèi)的魯棒性閱讀競賽[1],每次比賽國內(nèi)外都有許多學(xué)者及研究人員參與。近年來隨著數(shù)字多媒體技術(shù)的發(fā)展,移動(dòng)互聯(lián)的發(fā)展,數(shù)碼相機(jī)以及智能手機(jī)的普及,抓拍的非文檔圖片越來越多,怎么樣才能使得圖像、視頻檢索更加方便、快速,成為了亟待解決的一個(gè)課題。其中的一個(gè)解決方案就是基于圖像語義理解圖片內(nèi)容以及建立索引,從而更利于我們理解圖片的內(nèi)容、使得我們對圖像、視頻的檢索更加方便、高效。正因?yàn)槲淖謾z測、識(shí)別的這個(gè)優(yōu)勢,催生了文字檢測、識(shí)別在諸多行業(yè)的應(yīng)用,如智能手機(jī)實(shí)時(shí)拍照翻譯軟件、智能交通系統(tǒng)的車牌識(shí)別、視頻檢索系統(tǒng)、結(jié)合穿戴式的計(jì)算機(jī)視覺識(shí)別系統(tǒng)、工業(yè)自動(dòng)化以及機(jī)器人視覺等。
場景圖像中的文字識(shí)別不同于文檔圖像中的文字識(shí)別,文本文檔一般是白底黑字,背景顏色單一,因而文本文檔的識(shí)別率早已達(dá)到實(shí)用的要求,比如常見的OCR應(yīng)用。而復(fù)雜的圖像尤其自然場景圖像文字檢測存在許多的新挑戰(zhàn),比如光照變化、分別率不同、復(fù)雜的背景、字體大小不同、文字的位置的變化等[2],這些因素給場景文字的檢測、識(shí)別造成了很大的干擾,往往檢測、識(shí)別的準(zhǔn)確率不夠高,難以達(dá)到工業(yè)應(yīng)用的要求。
圖片中的文字信息提取的第一步驟是文字檢測,而檢測的效果直接決定后面的識(shí)別結(jié)果的好壞,正因?yàn)榇嗽?,文字檢測顯得尤其的重要。如前文所提到的場景圖片文字檢測、識(shí)別存在各種各樣的挑戰(zhàn),為了解決這些問題,研究人員已經(jīng)提出了許多的方法,文章將主要介紹、分析、對比各種文字檢測的方法。
1.1 場景文字檢測概念
場景文字檢測主要是指從圖像中提取圖片所包含的文字,這些文字本身是圖像內(nèi)容的一部分。場景圖像文字檢測,首先需要根據(jù)文字所具有的特征去確定圖像中的文字區(qū)域,當(dāng)然會(huì)因?yàn)楦蓴_因素的存在錯(cuò)把一些非文字區(qū)域判為文字區(qū)域,這需要根據(jù)一些規(guī)則或者候選區(qū)域的統(tǒng)計(jì)特性等來予以排除非文本區(qū)域,從而能準(zhǔn)確定位圖片中的文本區(qū)域。然后還需要對多行文本進(jìn)行分割,也需要對同一文本行進(jìn)行字符分割,拆分成一個(gè)個(gè)單詞。
圖1 自然圖像文字檢測
1.2 場景文字檢測方法
自文復(fù)雜的彩色圖像中的文字檢測被首次提出來后,在過去的20年,有許多的文字檢測和識(shí)別的方法被提出來。專門針對場景文字檢測的工作也有許多,尤其近5年來場景圖片文字的研究頗多,如其中的部分文獻(xiàn)[3-5]都是專門研究場景圖片文字檢測的。一般來說這些不同的方法可以分為基于邊緣特征、基于連通區(qū)域、基于紋理特征、基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法這四大類,也有文獻(xiàn)將這些方法歸納為三類方法即基于連通域、基于紋理和綜合方法[6]。基于邊緣的方法主要利用了文字有豐富的邊緣信息這一特征,一般來說文字具有邊緣密度大、文字和背景具有較高的對比度的特點(diǎn)。該類方法常用Canny算子、Sobel算子[7]在來進(jìn)行邊緣檢測?;谶B通域的方法主要利用文本區(qū)域的顏色和背景區(qū)域具有強(qiáng)的對比性這一特點(diǎn),從而將文本區(qū)域和背景區(qū)域分割開來?;诩y理的方法將文本看成一種特殊的紋理,比如局部像素強(qiáng)度信息、小波變換系數(shù)等,利用這些紋理特性將文本區(qū)域和背景區(qū)域區(qū)分開來。如前文提到的場景圖片文字檢測存在光照、字體顏色和大小、多語言等干擾,這些干擾因素也沒有什么規(guī)律可循,因此利用機(jī)器學(xué)習(xí)方法來解決這個(gè)復(fù)雜問題取得了不錯(cuò)的效果,常用的有SVM、卷積神經(jīng)網(wǎng)絡(luò)[8]、Adaboost等方法。除了利用上述的單一方法,也有像文獻(xiàn)[4]的作者一樣綜合利用多種方法來進(jìn)行文字檢測和識(shí)別的,文獻(xiàn)[4]主要利用連通域和紋理特征中的HOG特征來做文字檢測。
2.1 基于邊緣的文字檢測
邊緣特征是在文字檢測中常用的一種特征,主要是根據(jù)文字的邊緣信息來區(qū)分文本與非文本,這一類方法也是比較早就被學(xué)者們提出了。Zhang等[9]在研究從場景文字檢測的時(shí)候,基于他們的觀察——文字區(qū)域都是封閉的、文字的邊緣都是成對出現(xiàn),然后在這兩個(gè)現(xiàn)象上基于邊緣的特性計(jì)算候選字符區(qū)域的能量,然后再利用計(jì)算出來的能量的不同來排除非文本。作者假設(shè)每個(gè)文本包含至少兩個(gè)字符,然后根據(jù)相鄰區(qū)域的空間關(guān)系以及區(qū)域的顏色、高度、寬度等信息的相似度求得能量鏈接,最后也是根據(jù)顏色信息、像素強(qiáng)度、尺寸等信息將候選區(qū)域連接成文本。印度學(xué)者Shivakumara等[10]提出的檢測文字的方法比較簡單,首先是對輸入圖像做拉普拉斯變換,然后在大小為3*3的滑動(dòng)窗內(nèi)求得最大值與最小值的差作為窗口中心位置的像素值,這樣得到和原圖同尺寸的MGD圖,然后對MGD用k-means方法聚類,均值大的區(qū)域認(rèn)為是文本候選區(qū),最后在利用水平和豎直方向投影,確定文字區(qū)域的精確位置,最后利用候選區(qū)域的寬度、高度、寬高比、邊緣密度等信息排除非文本區(qū)域。
基于邊緣方法的有點(diǎn)是原理簡單易于實(shí)現(xiàn),同時(shí)計(jì)算速度快,缺點(diǎn)是當(dāng)背景復(fù)雜,邊緣檢測不到的時(shí)候,該類方法就會(huì)失效。
2.2 基于連通域的文字檢測
基于連通域的方法首先是通過顏色或者區(qū)域極值等屬性聚類,得到連通域,如最近非常流行的MSER方法,然后再根據(jù)人為設(shè)置的規(guī)則或者機(jī)器學(xué)習(xí)方法學(xué)習(xí)到的特征來排除非文本區(qū)域。文獻(xiàn)[3]基于字符的筆畫寬度近似常量這么一個(gè)假設(shè),設(shè)計(jì)了SWT特征。作者認(rèn)為字符的邊緣是成對出現(xiàn)的,先是利用Canny算子對灰度圖做邊緣檢測得到一個(gè)邊緣圖,然后從每一個(gè)邊緣點(diǎn)p沿梯度方向出發(fā),如果達(dá)到一個(gè)邊緣點(diǎn)q,若p和q點(diǎn)的梯度方向近似地在同一直線上,那么p和q之間的距離|p-q|作為這兩點(diǎn)之間的筆畫寬度,然后將距離|p-q|賦值給線段pq上的每一個(gè)像素點(diǎn),直到它有更小的值則選擇更小的值作為當(dāng)前點(diǎn)的筆畫寬度。若沒有找到q點(diǎn),則從p出發(fā)的射線被丟掉。在找出所有線段后,再從找出的這些線段上的邊緣點(diǎn)出發(fā),選擇線段上的中位值作為改線段上的每一個(gè)點(diǎn)的像素值,直到線段的上的每一個(gè)點(diǎn)都有更小的值為止,得到一個(gè)SWT圖。最后再利用SWT圖中的相鄰像素的比值不超過3這一規(guī)則構(gòu)造連通域,然后要求每個(gè)連通域的方差的值比較小,以及寬度和高度、高寬比等信息來排除非文本區(qū)域。Shi等[11]利用極值穩(wěn)定區(qū)域(MSER)方法,找到原圖中MSERs,然后為MSERs區(qū)域設(shè)計(jì)一些特征,利用Graph模型去區(qū)分文本和非文本區(qū)域。
基于連通域方法的優(yōu)點(diǎn)是提取出來的連通域的數(shù)目相對較少,方法比較有效,同時(shí)具有尺度不變性、對文字大小不敏感等優(yōu)點(diǎn),因?yàn)樵擃惙椒ǔ蔀榱艘粋€(gè)主流的方法,尤其近年來SWT,MSER方法非常普遍,也有許多文獻(xiàn)是基于這兩種方法的,比如文獻(xiàn)[5]就是對SWT的改進(jìn),使得該方法能檢測任意方向的文字。缺點(diǎn)是這一類方法需要得到好的連通域,而自然場景圖中文本和非文本往往很難根據(jù)顏色、亮度等信息區(qū)分開,從而導(dǎo)致該方法在有復(fù)雜背景的自然場景圖像中有時(shí)表現(xiàn)不太好。
2.3 基于紋理的文字檢測
基于紋理的方法將字符看成一類特殊的紋理,然后根據(jù)局部的強(qiáng)度信息、Gabor變換、小波變換以及傅里葉變換等來檢測文本的紋理,然后根據(jù)檢測到的紋理的特性來區(qū)分文本和非文本。可以利用水平空間的方差信息來對文本進(jìn)行定位,首先對整個(gè)圖像做一個(gè)邊緣檢測,常用Canny算子做邊緣檢測,然后對每一行計(jì)算空間方差,方差比較大的為候選文本行,方差小的為非文本行,在得到文本候選區(qū)域后,再利用顏色信息來排除非文本區(qū)域。主要根據(jù)候選區(qū)域的局部極值來構(gòu)建連通域,根據(jù)連通域內(nèi)文本的像素比較接近,從而排除非文本區(qū)域。Kim等[12]直接利用原圖的像素的值作為SVM分類器的輸入,根據(jù)有標(biāo)簽的訓(xùn)練數(shù)據(jù)來學(xué)特征,區(qū)分文本與非文本,得到的候選區(qū)域再用自適應(yīng)的meanSIFT算法進(jìn)行連通域紋理分析,最后得到文本區(qū)域。
基于紋理的方法的有點(diǎn)在于對字體、大小有比較好的魯棒性,但是計(jì)算復(fù)雜度高,耗時(shí)長,尤其很多結(jié)合機(jī)器學(xué)習(xí)算法如SVM,Adaboost等,需要大量的有標(biāo)簽的訓(xùn)練數(shù)據(jù)來訓(xùn)練分類器,制作這些有標(biāo)簽的數(shù)據(jù)成本高。
2.4 基于機(jī)器學(xué)習(xí)的文字檢測
自然場景圖像最大的一個(gè)特點(diǎn)就是背景復(fù)雜,文字的位置、顏色、大小等沒有規(guī)律地變化,有時(shí)還是多語言的,這些因素使得自然場景圖片中的文字檢測非常麻煩,而機(jī)器學(xué)習(xí)算法在解決自然場景圖片的文字檢測常常有不錯(cuò)的結(jié)果,這也是最近幾年為什么機(jī)器學(xué)習(xí)尤其深度學(xué)習(xí)在場景圖片文字檢測應(yīng)用中越來越行得原因。文獻(xiàn)[12]采用SVM來訓(xùn)練分類器,得到文本候選區(qū)域。Kung等[13]也使用了SVM,只不過文章中沒有像其他的研究人員使用傳統(tǒng)的特征比如邊緣、腳點(diǎn)、紋理等,而是提取了新的特征。首先利用一種用于檢測文本的筆畫濾波器排除了干擾強(qiáng)的非文本區(qū)域,然后還利用了形態(tài)學(xué)操作。然后文章中設(shè)計(jì)了兩種特征即歸一化后的灰度和常量梯度,把這兩種特征作為SVM的輸入來訓(xùn)練分類器,篩選出候選文本區(qū)域,最后為了增強(qiáng)效果還做了文本增強(qiáng)的處理。Huang等[14]在2014年的研究中,先利用MSER檢測到文字候選區(qū)域,然后利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來做分類器,從而區(qū)分開文本和非文本區(qū)域,MSER和CNN結(jié)合取得了比之前其他研究人員更好好的結(jié)果。
隨著文字檢測這個(gè)領(lǐng)域的研究不斷進(jìn)展,有越來越多的公開數(shù)據(jù)集可供研究人員用來檢驗(yàn)他們自己所提出的方法的性能。最常見的數(shù)據(jù)集有國際文檔分析識(shí)別大賽的ICDAR03,ICDAR05,ICDAR11,ICDAR13,最具難度的IIIT 5K-Word以及微軟的MSRA-TD500等。這些數(shù)據(jù)的特點(diǎn)如表1所示。
表1 常用數(shù)據(jù)集
表2 不同算法在場景文字中的檢測識(shí)別準(zhǔn)確率(%)
從表2中的數(shù)據(jù)我們可以看到,準(zhǔn)確率已經(jīng)從5年前的文獻(xiàn)[6]中的75.7%增長到2014年的文獻(xiàn)[8]中的90%以上。通過閱讀文獻(xiàn),我們發(fā)現(xiàn)在文獻(xiàn)[8]中利用了深度學(xué)習(xí)和大數(shù)據(jù)的方法,從而大大提高了準(zhǔn)確率。同時(shí)從最近5年發(fā)表的論文來看,借助深度學(xué)習(xí)、大數(shù)據(jù)等方法的論文越來越多。
從前文的論述我們可以知道,場景文字檢測和識(shí)別是一個(gè)非常熱的研究領(lǐng)域。盡管由于自然圖片背景復(fù)雜多變,給場景文字檢測與識(shí)別帶來了巨大的挑戰(zhàn)。但是在近年來也取得了非??焖俚陌l(fā)展,比如針對ICDAR2011這個(gè)數(shù)據(jù)集,檢測結(jié)果的F指數(shù)從2011年的0.58增長到2014年的0.78,針對更有難度的數(shù)據(jù)集IIIT 5K-Word已經(jīng)從2012年的0.555增長2014年的0.802[16]。場景文字檢測雖然取得了大進(jìn)步,但是仍然面臨很多挑戰(zhàn)。研究趨勢和熱點(diǎn)也正從單一的方法、單一方向的文字檢測、單一語言文字的檢測研究,轉(zhuǎn)向如文獻(xiàn)[5]等多方向或者任意方向的文字檢測,這更具有實(shí)際應(yīng)用價(jià)值,因?yàn)楝F(xiàn)實(shí)中,水平方向的文字只占很小的一部分,大多數(shù)情況下場圖片中文字的方向是多方向的?,F(xiàn)有的研究大多是針對英語這種語言研究的,但是現(xiàn)在研究不同語言的文字檢測也正在變?yōu)橐粋€(gè)趨勢,如文獻(xiàn)[5]中有漢字的檢測,比如有涉及韓文等的檢測。而實(shí)際應(yīng)用中比如拍照翻譯軟件,需要的是多種語言的檢測、識(shí)別。另外的一個(gè)大的研究趨勢就是結(jié)合深度學(xué)習(xí)和大數(shù)據(jù)方法的端到端的文字檢測、識(shí)別系統(tǒng)的研究[17],也更接近實(shí)際應(yīng)用的要求,如文獻(xiàn)[8]中就使用了深度學(xué)習(xí)和大數(shù)據(jù)的方法,取得了非常好的效果。
文字具有高層的語義信息,而語義信息能用于許多自動(dòng)化的應(yīng)用,因而具有非常大的經(jīng)濟(jì)價(jià)值,這導(dǎo)致關(guān)于自然場景圖片中的文字檢測與識(shí)別成為了研究熱點(diǎn)。但是由于自然場景圖片具有復(fù)雜的背景,這給文字檢測識(shí)別帶了非常大的干擾,為了解決這一難題,許多的研究人員不斷提出新方法,從而不斷改善了場景文字檢測與識(shí)別的效果。文章總結(jié)了最近幾年國內(nèi)外同行在該領(lǐng)域的主要方法,同時(shí)對不同類別的方法進(jìn)行了分析和對比,同時(shí)還展望了該領(lǐng)域未來的研究趨勢即使用深度學(xué)習(xí)和大數(shù)據(jù)結(jié)合的方法,希望能對國內(nèi)的該領(lǐng)域的學(xué)者了解國內(nèi)外該領(lǐng)域的研究有所幫助。
[1]Ye Q,Doermann D.Text detection and recognition in imagery: A survey[J].2014.
[2]Chen X,Yang J,Zhang J,et al.Automatic detection and recognition of signs from natural scenes[J].Image Processing,IEEE Transactions on,2004,13(1):87-99.
[3]Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Computer Vision and PatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010:2963-2970.
[4]Pan Y F,Hou X,Liu C L.A hybrid approach to detect and localize texts in natural scene images[J].Image Processing,IEEE Transactions on,2011,20(3):800-813.
[5]Yao C,Bai X,Liu W,et al.Detecting texts of arbitrary orientations in natural images[C]//Computer Vision and Pattern Recognition(CVPR),2012 IEEE Conference on.IEEE,2012:1083-1090.
[6]Zhu Y,Yao C,Bai X.Scene text detection and recognition: Recent advances and future trends[J].Frontiers of Computer Science,2016,10(1):19-36.
[7]Sun Q,Lu Y.Text Detection from Natural Scene Images Using Scale Space Model[M]//Advances on Digital Television and Wireless Multimedia Communications.Springer Berlin Heidelberg,2012:156-161.
[8]Jaderberg M,Simonyan K,Vedaldi A,et al.Reading text in the wild with convolutional neural networks[J].International Journal of Computer Vision,2014:1-20.
[9]Zhang J,Kasturi R.Character energy and link energy-based text extraction in scene images[M]//Computer Vision-ACCV 2010.Springer Berlin Heidelberg,2011:308-320.
[10]Phan T Q,Shivakumara P,Tan C L.A Laplacian method for video text detection[C]//Document Analysis and Recognition,2009.ICDAR'09.10thInternationalConferenceon.IEEE,2009:66-70.
[11]Shi C,Wang C,Xiao B,et al.Scene text detection using graph model built upon maximally stable extremal regions[J].Pattern Recognition Letters,2013,34(2):107-116.
[12]Kim K I,Jung K,Kim J H.Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2003,25(12):1631-1639.
[13]Jung C,Liu Q,Kim J.A stroke filter and its application to text localization[J].Pattern Recognition Letters,2009,30(2):114-122.
[14]Huang W,Qiao Y,Tang X.Robust scene text detection with convolution neural network induced msertrees[M]//Computer Vision-ECCV 2014.Springer International Publishing,2014:497-511.
[15]Almazán J,Gordo A,F(xiàn)ornés A,et al.Word spotting and recognition with embedded attributes[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(12): 2552-2566.
[16]張翔,徐洪平,安雪巖,等.液體火箭發(fā)動(dòng)機(jī)穩(wěn)態(tài)運(yùn)行故障數(shù)據(jù)聚類分析研究[J].火箭推進(jìn),2015(2):118.
[17]張少博,王乃世,陳海峰,等.基于聲壓測量的閥門故障檢測方法研究[J].火箭推進(jìn),2015(4):100.
Detecting text in natural scence images were reviewed
YANG Fei1,2,3
(1.Shanghai Institute of Microsystem and Information Technology,Chinese Academy of Sciences,Shanghai 200050,China;2.School of Information Science and Technology,ShanghaiTech University,Shanghai 201210,China;3.University of Chinese Academy of Sciences,Beijing 100049,China)
In recent years,natural image scene text detection has attracted more and more attention.Scene text detection is of significant value for comprehending content of image and retrieving image.To detect and locate text in image is the key problem in image text recognition.First,the paper introduces the basic concept of scene text detection and recognition.Then the paper analyzes,compares,and contrast different methods.So we can learn about the advantages and disadvantages of different methods.Naturally,we can conclude that the combination of deep learning and big data has become a trend for researchers because of the obvious of big data.At the end of the paper,it summarizes the challenge and trend in natural image scene text detection and recognition.
scene text recognition;natural scene text recognition;deep learning
TN911.73
A
1674-6236(2016)24-0165-04
2015-12-15 稿件編號(hào):201512159
楊 飛(1988—),男,湖南邵陽人,碩士研究生。研究方向:圖像視頻中的文字檢測識(shí)別、數(shù)據(jù)挖掘。