完顏勇,王宗賢
(北方工業(yè)大學(xué) 城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100144)
基于關(guān)鍵點(diǎn)檢測(cè)的文檔文本定位算法研究
完顏勇,王宗賢
(北方工業(yè)大學(xué) 城市道路交通智能控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100144)
文本中的定位是文本提取的前提和基礎(chǔ),文中針對(duì)手機(jī)拍攝的文檔文本定位易受背景和文檔自身質(zhì)量干擾的問題,根據(jù)文檔文本的特性,提出了一種基于關(guān)鍵點(diǎn)檢測(cè)的文檔文本定位算法。算法使用二值化算法對(duì)文檔文本進(jìn)行增強(qiáng)處理,運(yùn)用FASText關(guān)鍵點(diǎn)檢測(cè)方法實(shí)現(xiàn)對(duì)文本的局部定位,運(yùn)用文檔文本的特性去除偽關(guān)鍵點(diǎn),進(jìn)行連通域檢測(cè)和非最大值壓制,獲取文本候選區(qū)域;訓(xùn)練高、低精度兩個(gè)文本分類器,對(duì)得到的文本候選區(qū)域進(jìn)行雙閾值分類,將候選文本集分為強(qiáng)文本集、弱文本集和非文本集;在弱文本集中,根據(jù)文本相似的特征,尋找與強(qiáng)文本集中相似的文本,去除虛假文本,提高定位精度。實(shí)驗(yàn)結(jié)果證明,該算法可以快速、精確地實(shí)現(xiàn)對(duì)文檔文本的定位。
文本定位;關(guān)鍵點(diǎn);雙閾值分類;非最大值壓制;分類器
隨著智能手機(jī)的普及,使得人們獲取數(shù)字圖像變得更加地便利,圖像中文本的提取蘊(yùn)含著巨大商業(yè)和應(yīng)用價(jià)值。然而,由于人們基于手機(jī)等便攜式設(shè)備拍攝圖像的隨意性,所拍攝的文本圖像會(huì)受到光照、背景、拍攝角度等諸多因素的影響,文本定位具有更多的難度和不確定性,定位精度無法達(dá)到較高的水平。
文本定位的算法主要可分為基于滑動(dòng)窗口的算法和基于連通區(qū)域的算法?;诨瑒?dòng)窗口的算法[1-5]是將多尺度窗口在圖像中所有可能出現(xiàn)文本的位置上進(jìn)行滑動(dòng),提取滑動(dòng)窗口梯度、紋理、變換域等特征,然后設(shè)計(jì)分類器進(jìn)行分類;該類算法精確度與魯棒性較好,但算時(shí)間復(fù)雜度通常比較高?;谶B通區(qū)域的算法[6-10]是首先根據(jù)圖像像素屬性的相似性對(duì)像素進(jìn)行聚合,形成大量的文本候選區(qū)域,然后運(yùn)用幾何約束條件或者分類器來獲得文本區(qū)域;該類算法時(shí)間復(fù)雜度低,在背景簡(jiǎn)單的情況下能取得較好的文本檢測(cè)效果。
文中結(jié)合文檔文本的特性,應(yīng)用FASText關(guān)鍵點(diǎn)檢測(cè)算法[11],實(shí)現(xiàn)對(duì)文本的局部定位;根據(jù)文本的顏色特征將K均值聚類算法[12]應(yīng)用到關(guān)鍵點(diǎn)檢測(cè)的結(jié)果中,剔除一些誤檢測(cè)的關(guān)鍵點(diǎn);通過連通域檢測(cè),將獲取的候選文本進(jìn)行非最大值壓制,來消除文本的重復(fù)檢測(cè);訓(xùn)練高、低精度兩個(gè)Adaboost分類器[13],對(duì)候選文本集進(jìn)行雙閾值分類,得到強(qiáng)、弱和非3個(gè)候選文本集,根據(jù)文本的相似特性,在弱候選文本集中找出與強(qiáng)候選文本相似的文本,作為檢測(cè)結(jié)果。
1.1.1 FASText關(guān)鍵點(diǎn)
Fast關(guān)鍵點(diǎn)檢測(cè)算法[14]檢測(cè)出的特征具有平移和旋轉(zhuǎn)不變形、快速等特點(diǎn),廣泛應(yīng)用于目標(biāo)檢測(cè)中。Fast關(guān)鍵點(diǎn)檢測(cè)算法應(yīng)用于文本的關(guān)鍵點(diǎn)檢測(cè)時(shí),往往聚焦于文本筆畫的轉(zhuǎn)角(如:字母‘L’)和端點(diǎn)(如:字母‘l’),不能檢測(cè)出筆畫沒有轉(zhuǎn)角和端點(diǎn)的文本(如:字母‘0’)。
考慮到文本定位精度取決于文本筆畫的檢測(cè),引入了兩類關(guān)鍵點(diǎn):筆畫端點(diǎn)關(guān)鍵點(diǎn)(the Stroke Ending Keypoint,SEK)聚焦于筆畫端點(diǎn)和筆畫彎曲關(guān)鍵點(diǎn)(the Stroke Bend Keypoint,SBK)聚集于筆畫彎曲處。兩類關(guān)鍵點(diǎn)如圖1所示,左圖為SEK關(guān)鍵點(diǎn),右圖為SBK關(guān)鍵點(diǎn)。
圖1 FASText關(guān)鍵點(diǎn)
對(duì)圖像中任一像素p,強(qiáng)度為Ip,以像素p為中心,兩個(gè)像素寬為半徑的圓上的12個(gè)像素x∈{1,2,…,12},根據(jù)其像素強(qiáng)度與Ip之間的關(guān)系,將像素x標(biāo)記為下列3種標(biāo)簽之一
(1)
m的取值影響關(guān)鍵點(diǎn)檢測(cè)的不精確和文本漏檢率,m取值越大,文本的漏檢率越小,但同時(shí)會(huì)造成較高的不精確度,反之漏檢率較大,不精確度較低。
1.1.2 文檔圖像的二值化處理
由于文檔圖像自身的質(zhì)量和手機(jī)拍攝狀況的影響,文檔圖像可能會(huì)出現(xiàn)背景文本的滲透、陰影、污點(diǎn)、文本的對(duì)比度較弱等現(xiàn)象,為減少文檔圖像的質(zhì)量對(duì)文檔文本定位的影響,文中采二值化算法對(duì)文檔圖像進(jìn)行增強(qiáng)處理,二值化的處理算法如下:
算法1
步驟1使用形態(tài)學(xué)閉運(yùn)算對(duì)文檔圖像進(jìn)行處理,得到背景估計(jì)圖像;
步驟2背景估計(jì)圖像減去原文檔圖像,消除背景對(duì)文檔的影響;
步驟3使用雙邊濾波濾去噪聲,對(duì)步驟2得到的圖像進(jìn)行Ostu二值化處理;
步驟4使用Sauvola算法對(duì)原文檔圖像進(jìn)行二值化處理;
步驟5對(duì)步驟3和步驟4得到的圖像進(jìn)行與運(yùn)算。
圖2 文檔圖像的二值化處理
1.1.3 文檔文本的關(guān)鍵點(diǎn)檢測(cè)
Fast關(guān)鍵點(diǎn)檢測(cè)器僅能檢測(cè)出文本筆畫寬度為兩個(gè)或者3個(gè)像素的文本,為了檢測(cè)出不同尺度圖像中的文本,需對(duì)文檔的二值化圖像進(jìn)行多級(jí)降采樣處理,在每一級(jí)降采樣子圖中進(jìn)行關(guān)鍵點(diǎn)檢測(cè),降采樣的系數(shù)為1.6。
根據(jù)文檔圖像中文本筆畫寬度的變化范圍較小的特性,為減少文本的重復(fù)檢測(cè),計(jì)算每一級(jí)子圖上關(guān)鍵點(diǎn)的數(shù)目,保留關(guān)鍵點(diǎn)數(shù)目最多的子圖及它上兩級(jí)和下兩級(jí)子圖中的關(guān)鍵點(diǎn)。
1.1.4 偽關(guān)鍵點(diǎn)的濾除
基于手機(jī)獲取的文檔圖像往往處于不同的背景中,在背景中檢測(cè)出的關(guān)鍵點(diǎn)對(duì)文本檢測(cè)造成一定的干擾。由于文本中的關(guān)鍵點(diǎn)的分布比較集中且具有一定的規(guī)律,結(jié)合文本的特性,使用下列條件對(duì)關(guān)鍵點(diǎn)進(jìn)行過濾:
(1)文檔圖像中文本行都是按行排列的,統(tǒng)計(jì)每行的關(guān)鍵點(diǎn)數(shù)目,若該行的關(guān)鍵點(diǎn)數(shù)目<5,則將該行的關(guān)鍵點(diǎn)濾去;
(2)為了防止成片的噪音對(duì)文本檢測(cè)的干擾,在以關(guān)鍵點(diǎn)為中心,大小為25×25文檔圖像子塊中,若關(guān)鍵點(diǎn)的數(shù)目<3,則將該關(guān)鍵點(diǎn)濾除。結(jié)合同一文檔中文本色彩相近的特性,使用K均值聚類算法在原文檔圖像中對(duì)關(guān)鍵點(diǎn)進(jìn)行聚類,進(jìn)一步對(duì)關(guān)鍵點(diǎn)濾除,具體算法流程如下:
算法2
步驟2計(jì)算每個(gè)像素P(Rp,Gp,Bp)與第i個(gè)聚類中心的顏色距離Di,根據(jù)式(2)和式(3)對(duì)像素P所屬的類別進(jìn)行判定
(2)
(3)
步驟4重復(fù)步驟2和步驟3,直到每個(gè)聚類中心顏色均值分量不再改變。
1.2.1 文本候選區(qū)域的獲取
使用上述關(guān)鍵點(diǎn)檢測(cè)算法,獲取關(guān)鍵點(diǎn)的位置信息,在文檔的二值化圖像中以關(guān)鍵點(diǎn)為種子點(diǎn),采用漫水填充算法[15]來獲取文本候選區(qū)域。通過觀察,文檔文本具有一定的幾何特征。文本區(qū)域的長(zhǎng)寬比不應(yīng)超過10,文本區(qū)域長(zhǎng)度或?qū)挾葢?yīng)在10~300像素之間。
1.2.2 非最大值壓制
應(yīng)用Fast關(guān)鍵點(diǎn)算法檢測(cè)文本的關(guān)鍵點(diǎn)時(shí),同一個(gè)文本在不同級(jí)的降采樣子圖中可能均會(huì)被檢測(cè)出關(guān)鍵點(diǎn),出現(xiàn)文本被重復(fù)檢測(cè)的現(xiàn)象。為保持文本檢測(cè)的獨(dú)特性,利用式(4)進(jìn)行非最大值壓制,來消除重復(fù)檢測(cè)現(xiàn)象
(4)
其中,Rt、Rt+1分別為由第i級(jí)、第i+1級(jí)降采樣子圖檢測(cè)出的關(guān)鍵點(diǎn)形成的文本候選區(qū)域。當(dāng)S(Rt,Rt+1)≥0.8時(shí),保留Rt、Rt+1面積較大的區(qū)域,刪除另一區(qū)域。
基于上述算法獲取的候選文本集,包含了大量的非文本區(qū)域,為了提高文本定位的精度,引入Adaboost分類器對(duì)候選文本集進(jìn)行分類處理。
文本特征選取,對(duì)分類器的性能有著至關(guān)重要的影響,4個(gè)特征被用于訓(xùn)練Adaboost 分類器:占空比、HOG特征、字符筆畫面積比例、平均局部二值模型。占空比表示候選文本區(qū)域的面積與其外接矩形面積之比。
字符筆畫面積比例是計(jì)算字符筆畫的面積與整個(gè)候選文本像素面積的比例,能夠有效的區(qū)分文本片斷和背景區(qū)域。
給定的文本候選區(qū)域R,SEKR為區(qū)域R的SEK的集合,對(duì)任一P∈SEKR,由算法2求出p對(duì)應(yīng)的連續(xù)筆畫關(guān)鍵點(diǎn)的集合SSKp。
算法3
步驟1以p為起始點(diǎn),沿著背離筆畫端點(diǎn)的方向,將p移動(dòng)至p對(duì)應(yīng)的ps中最暗(或最亮)的點(diǎn)上;
步驟3若p為連續(xù)筆畫關(guān)鍵點(diǎn),則重復(fù)操作步驟2,否則終止操作。
字符筆畫面積As(R)由式(5)計(jì)算可得
平均局部二值模型是局部二值模型的一個(gè)變化,對(duì)光照和旋轉(zhuǎn)變化具有很強(qiáng)的魯棒性。平均局部二值模型的計(jì)算方法:對(duì)候選文本中的任一元素p,計(jì)算以p為中心的3×3子塊中,p的8連通區(qū)域的像素強(qiáng)度均值;如果p的8連通區(qū)域中像素強(qiáng)度比均值大,則置為1,否則置為0;然后從子塊中的左頂點(diǎn)開始,順時(shí)針將上述8連通區(qū)域每個(gè)像素點(diǎn)對(duì)應(yīng)的值,放入一個(gè)8位的字節(jié)中進(jìn)行編碼。
本文選用了基于手機(jī)在不同背景和光照條件下拍攝的500張文檔圖像作為圖像數(shù)據(jù)庫(kù),其中300張作為訓(xùn)練圖像,另外200張作為測(cè)試圖像。在300張訓(xùn)練圖像中截取了3 100個(gè)正樣本和8 200個(gè)負(fù)樣本作為分類器的訓(xùn)練樣本,所有樣本均一化為64×32像素的灰度圖。
為了提高文本定位的召回率和精度,文中應(yīng)用Adaboost算法訓(xùn)練一種多級(jí)聯(lián)分類器,該分類器有兩個(gè)級(jí)聯(lián)分類器組成,第一個(gè)級(jí)聯(lián)分類器為高精度Adaboost分類器,使用占空比、HOG特征、文本筆畫面積比例和平均二值化模型特征進(jìn)行訓(xùn)練,對(duì)樣本集的分精度為99%。第二個(gè)級(jí)聯(lián)分類器為低精度Adaboost分類器,使用占空比、HOG特征[16]、文本筆畫面積比例等特征進(jìn)行訓(xùn)練,對(duì)樣本集的分精度為87%。
在雙閾值分類中,高精度分類器對(duì)應(yīng)的是高閾值,低精度分類器對(duì)應(yīng)的是低閾值。候選文本集經(jīng)過第一級(jí)分類器后,被分類為強(qiáng)文本集和非強(qiáng)文本集,由于高精度分類器的分類精度高,非強(qiáng)文本集中可能存在文本集。為了提高文本定位的精度,非強(qiáng)文本集經(jīng)過第二級(jí)分類器進(jìn)行分類,被分類為弱文本集和非文本集。
由于強(qiáng)文本集對(duì)應(yīng)高精度分類器,所以將強(qiáng)文本集作為檢測(cè)結(jié)果集的一部分。而弱文本集是低精度分類器檢測(cè)的結(jié)果,存在一定的誤檢區(qū)域,需對(duì)弱文本集進(jìn)一步處理。
為了滿足高召回率的要求,對(duì)強(qiáng)文本集中的任一強(qiáng)文本Rs,在弱文本集中追蹤Rs的鄰近文本Rw。若Rs與Rw具有相似的文本屬性,則將Rw的狀態(tài)置為強(qiáng)文本,遍歷查詢強(qiáng)文本集所有元素的相似文本。當(dāng)兩文本滿足以下條件時(shí),兩文本為相似文本:(1)兩文本的空間距離不超過兩文本中長(zhǎng)和寬最大值的2倍;(2)兩文本對(duì)應(yīng)的HSV模型各通道的差值最大不超過20;(3)兩文本的筆畫寬度之比不超過1.5;(4)兩文本對(duì)應(yīng)的長(zhǎng)或?qū)捴炔粦?yīng)超過2。
圖3 文檔圖像的文本定位過程
為驗(yàn)證算法的有效性,文中使用了200張文檔測(cè)試圖像數(shù)據(jù)集進(jìn)行測(cè)試。實(shí)驗(yàn)平臺(tái)為:VS2013,Core i5-3230M CPU,主頻2.60 GHz,8 GB內(nèi)存。
實(shí)驗(yàn)1關(guān)鍵點(diǎn)檢測(cè)實(shí)驗(yàn) 。
關(guān)鍵點(diǎn)檢測(cè)算法采用的評(píng)估指標(biāo)為:重復(fù)檢測(cè)率(|D|/|GT|)、文本漏檢率(|FN|/|GT|)、運(yùn)行時(shí)間(T);其中|D|為檢測(cè)出的關(guān)鍵點(diǎn)的數(shù)目,|GT|為文本的真實(shí)數(shù)目,|FN|為漏檢的文本數(shù)目。表1對(duì)比了3種關(guān)鍵點(diǎn)檢測(cè)算法,如表1所示,與Fast相比,本文算法在重復(fù)檢測(cè)率、文本漏檢率上得到了改善;與FastText相比,本文算法改善了重復(fù)檢測(cè)率,且能保持其它方面的性能。
表1 不同關(guān)鍵點(diǎn)檢測(cè)算法結(jié)果對(duì)比
實(shí)驗(yàn)2文本定位實(shí)驗(yàn)。
文本定位算法采用的性能評(píng)估指標(biāo)為:召回率(R%)、正確率(P%)、綜合性能(F%)、算法運(yùn)行時(shí)間(T)。表2對(duì)比了4種文本定位算法,如表2所示,本文算法召回率為 75.2%,正確率為86.5%,綜合性能為 80.5%,運(yùn)行時(shí)間為7.9 s,優(yōu)于其它算法。
表2 不同文本定位算法結(jié)果對(duì)比
文中提出了一種基本關(guān)鍵點(diǎn)檢測(cè)的文檔文本定位算法。首先使用根據(jù)文檔文本特性改進(jìn)的關(guān)鍵點(diǎn)檢測(cè)算法實(shí)現(xiàn)對(duì)文本初步定位,通過連通域檢測(cè)獲取候選文本,對(duì)候選文本集進(jìn)行雙閾值分類和相似文本追蹤,提高定位的精度。實(shí)驗(yàn)表明,本文算法應(yīng)用于復(fù)雜背景下的文檔文本的定位時(shí),獲得了較高的精度和綜合性能,快速、精確地實(shí)現(xiàn)對(duì)文檔文本的定位。
[1] Wang K,Babenko B,Belongie S. End-to-end scene text in natural scenes[C].Barcelona:Proceeding of IEEE Conference on Computer Vision and Pattern Recognition,2011.
[2] Jaderberg M,Vedaldi A,Zisserman A. Deep features for text spotting[C]. Zurich: Computer Vision-ECCV 2014,2014.
[3] Lee J J,Lee P H,Lee S S,et al.Adaboost for text detection in natural scene[C].Beijing:ICDAR 2011,2011.
[4] Mishra A,Alahari K,Jawahar C.Top-downand bottom-up cues for scene text recognition[C].Providence:Proceeding of IEEE Conference on Computer Vision,2012.
[5] Yi C,Tian Y.Localizing text in scene images by boundary clustering,stroke segmentation,and string fragment classification[J].IEEE Transaction on Image Processing,2014, 72(10):4256-4268.
[6] Epshtein B,Ofek E,Wexler Y.Detecting t-ext in natural scenes with stroke width trans-form[C].San Francisco:Proceeding of Computer Vision and Pattern Recognition,2010.
[7] Chen H,Tsai S S,G.Schroth,at al,Robust text detection in natural images with edge-enhanced maximally stable extremal region[C].Brussels:International Conference on Image Processing,2011.
[8] Li Y,Jia W,Shen C,et al.Characterness:An Indicator of text in the wild[J].IEEE Transactions on Image Processing,2014,23(4): 1666-1677.
[9] Huang W,Qiao Y,Tang X. Robust scene text detection with convolution neural network induced MSER trees[C].Zurich:Proceeding of European Conference on Computer Vision,2014.
[10] Li Yao,Lu Huchuan.Scene text detection via strokes width[C].Rhode Island:Proceeding of 21nd IEEE Conference on Pattern Recognition,2012.
[11] Buta M,Neumann L,Matas J.FASText: efficient unconstrained scene text detector[C].Santiago:IEEE International Conference on Computer Vision,2015.
[12] 韓凌波. 基于密度的 K-means初始聚類中心選取算法[J].電子科技,2015,28(7): 32-34.
[13] 付忠良.關(guān)于AdaBoost有效性的分析[J].計(jì)算機(jī)研究與發(fā)展,2008,45(10):1747-1755.
[14] Rosten E,Porter R,Drummond T.Faster and better:A machine learning approach to corner detection[J].IEEE Transaction on Image Processing,2010,2(32):105-119.
[15] Treuenfels A.An efficient flood visit al-gorithm[J].C/C++ Users Journal,1994,12(8):39-62.
[16] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C].Hong Kong:IEEE Computer Society on Computer Vision & Pattern Recognition,2005.
[17] Yao C,Bai X,Liu W,et al.Detecting texts of arbitrary orientations in natural images[C].Providence:Computer Vision an-d Pattern Recognition,2012.
Document Text Localization Algorithm Based on Keypoint Detection
WANYAN Yong,WANG Zongxian
(Beijing Key Lab of Urban Intelligent Traffic Control Technology,North China University of Technology,Beijing 100144,China)
Text localization is the hypothesis and foundation of text extraction. To solve the problem that document which is shooted by cell phone text localization is susceptible to the complex background and document quality,a document text localization algorithm based on keypoint detection is proposed, which adequately takes advantage of document text features .The algorithm firstly uses FASText keypoint detection method to achieve local text localization and to improve the localization accuracy,document text features is used to filter keypoints.Then through connected-component detection and non-maximum suppression ,obtain the text candidate regions.Finally, train two classifiers to classify the candidate regions,which is respectively high and low accuracy. These two classifiers divide the candidate text set into strong text sets, weak text sets and non-text sets.Utilize similar text characteristic to remove false text and improve localization accuracy.The experiments demonstrate that the algorithm can accurately and fastly locate the text region in document image.
text localization;keypoint;double threshold classification;non-maximum suppression;classifier
2017- 02- 07
科技創(chuàng)新服務(wù)能力建設(shè)-科技成果轉(zhuǎn)化-提升計(jì)劃項(xiàng)目-基于交通大數(shù)據(jù)的北京道路交通疏堵決策支持系統(tǒng)研發(fā)(PXM2016_014212_000036)
完顏勇(1988-),男,碩士研究生。研究方向:數(shù)字圖像處理。王宗賢(1991-),男,碩士研究生。研究方向:數(shù)字圖像處理。
10.16180/j.cnki.issn1007-7820.2017.12.017
TP391
A
1007-7820(2017)12-062-05