熊承義,田清越,高志榮,龔忠毅
(1 中南民族大學(xué) 電子信息工程學(xué)院,智能無線通信湖北省重點(diǎn)實(shí)驗(yàn)室,武漢430074;2 中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)
自然場(chǎng)景文本檢測(cè)與識(shí)別是圖像處理、機(jī)器視覺領(lǐng)域的研究熱點(diǎn),其在增強(qiáng)現(xiàn)實(shí)[1]、盲人輔助系統(tǒng)[2]以及無人駕駛等方面有著重要的應(yīng)用.雖然經(jīng)過多年發(fā)展,背景較單一的文本檢測(cè)與識(shí)別已經(jīng)取得了不錯(cuò)的效果,但是基于復(fù)雜場(chǎng)景的文本檢測(cè)在當(dāng)前仍然存在著許多困難.主要原因在于:一是不同的自然場(chǎng)景嵌雜許多不同的干擾,如縱橫交錯(cuò)的鐵絲網(wǎng)、密集的樹葉、相互重疊的柵欄等;二是自然圖像中的文本可能還存在光照變化、模糊和顏色不同及方向變化等情況.
目前的文本檢測(cè)方法大致可以劃分為3類,即基于邊緣的方法[3,4],基于紋理的方法[5,6]及基于連通域的方法[7-11].基于邊緣的方法通常利用文字區(qū)域結(jié)構(gòu)以及灰度的變化,先采用邊緣檢測(cè)算子來檢測(cè)圖像的邊緣,然后結(jié)合數(shù)學(xué)形態(tài)學(xué)方法與啟發(fā)式規(guī)則去除非文本區(qū)域,從而實(shí)現(xiàn)文本檢測(cè);基于紋理的方法是將文字視為特殊類型的紋理,并利用其幅頻響應(yīng)、離散余弦變換系數(shù)、小波變換等紋理屬性判斷文本與非文本; 基于連通域的方法通常利用文本區(qū)域的特點(diǎn),采用聚類分析等方法對(duì)圖像進(jìn)行連通域提取,并通過逐步的分類規(guī)則將連通區(qū)域中的非文本排除并獲取最終的文本.
Guo等人[7]較早提出采用筆畫作為濾波器來定位場(chǎng)景中的文字,由于大量的參數(shù)根據(jù)經(jīng)驗(yàn)而設(shè)置,缺乏普適性,無法滿足應(yīng)用的需要.受到筆劃濾波器的啟發(fā),Epstein等人[8]提出了一種有效描述文字的筆劃寬度特征,稱之為筆畫寬度變化.該方法充分利用了局部區(qū)域文字的筆畫寬度基本一致的原理,結(jié)合圖像數(shù)據(jù)的局部特征,使得檢測(cè)結(jié)果具有較大的改善,并且在ICDAR 2011文本定位競(jìng)賽中取得了優(yōu)異的成績(jī).不過,原始的基于SWT的檢測(cè)方法存在兩個(gè)主要的問題:一是采用的Canny檢測(cè)算子,對(duì)噪聲會(huì)比較敏感,易產(chǎn)生梯度方向不規(guī)則的邊緣像素,降低了筆畫寬度提取的準(zhǔn)確度;二是在復(fù)雜背景中(樹枝、網(wǎng)格、人群等),較多的邊緣信息易產(chǎn)生大量的虛警文字區(qū)域,在增加計(jì)算量的同時(shí)易造成文本區(qū)域的漏檢;到目前,許多研究者針對(duì)原始SWT文本檢測(cè)存在的不足開展了大量的改進(jìn)性的工作.Yi等人[9]提出通過將SWT與顏色聚類的方法相結(jié)合來對(duì)文本區(qū)域進(jìn)行提取,并利用高斯濾波以降低噪聲的干擾,增加了SWT檢測(cè)的召回率.但該方法存在大量經(jīng)驗(yàn)參數(shù)的設(shè)置,具有一定的局限性.Yao等人[10]通過設(shè)計(jì)多層的文本與非文本分類器,并在筆畫寬度的特征之中加入具有魯棒的旋轉(zhuǎn)不變特征,以彌補(bǔ)單一筆畫寬度特征的不足,有效提高了SWT檢測(cè)的準(zhǔn)確率.Liu等人[11]提出利用最大穩(wěn)定極值區(qū)域(MSER)與SWT相結(jié)合的方法,通過將筆畫寬度的作用對(duì)象從原始圖像轉(zhuǎn)換到MSER標(biāo)記的候選區(qū)域,在減少非文本因素的基礎(chǔ)上結(jié)合SWT的方法,有效提升了SWT的檢測(cè)效率.但當(dāng)圖像較模糊或低對(duì)比度時(shí),基于MSER的方法無法準(zhǔn)確的標(biāo)記出候選區(qū)域,影響了后續(xù)的SWT檢測(cè).
本文提出了一種結(jié)合紋理背景抑制的筆畫寬度變化的文本檢測(cè)方法.主要工作體現(xiàn)在以下幾點(diǎn):通過在DCT域中采用Butterworth高通濾波與紋理特征結(jié)合進(jìn)行背景抑制,能夠在有效抑制背景的同時(shí)突出圖像的文本區(qū)域,使得保留的區(qū)域具有良好的區(qū)分性;采用加權(quán)引導(dǎo)濾波的圖像去噪技術(shù),減少噪聲對(duì)邊緣檢測(cè)的干擾;針對(duì)文本與非文本在筆畫寬度以及邊緣梯度上的差異,結(jié)合利用SVM分類的方法改善對(duì)非文本的濾除.基于ICDAR數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.
筆畫寬度變換(SWT)是由Epshtein等人[8]根據(jù)同一區(qū)域的文本元素具有相同的筆畫寬度而提出的一種文本檢測(cè)方法.基于文獻(xiàn)[8]SWT的方法簡(jiǎn)單描述如下,有關(guān)細(xì)節(jié)可參考原文獻(xiàn).先通過邊緣檢測(cè)算子提取圖像的邊緣,令其中一邊緣像素點(diǎn)P的梯度方向?yàn)閐p,從P出發(fā)沿射線r=p+n×dp(n>0)的方向?qū)ふ?,直到找到另一個(gè)邊緣像素點(diǎn)q,令其梯度方向?yàn)閐p;若dp與dq方向相反且滿足dq-dp±π/6,那么p與q則是筆畫邊緣上的匹配像素點(diǎn),兩點(diǎn)之間的距離通過歐氏距離來度量,將其表示為|p-q|.得到像素點(diǎn)之間的距離后,通過遍歷整個(gè)區(qū)域,選取合適的距離作為筆畫寬度,然后根據(jù)筆畫寬度特性作為篩選條件,從而達(dá)到文本檢測(cè)的目的.一般文本內(nèi)部的筆畫寬度以及結(jié)構(gòu)比較相似,可以用筆畫寬度進(jìn)行表征.但是對(duì)于背景復(fù)雜度較高的圖像,背景之間的筆畫寬度與文本區(qū)域的筆畫寬度也存在相似,通過SWT提取圖像顯得較為復(fù)雜,不能得到滿意的檢測(cè)效果.圖1給出了不同背景復(fù)雜度的SWT提取結(jié)果比較,從圖中可以看出,當(dāng)圖像背景較單一時(shí),SWT可有效檢測(cè)文本區(qū)域,但是當(dāng)圖像背景較復(fù)雜時(shí),SWT檢測(cè)中則出現(xiàn)了較多的干擾,從而一定程度上影響了后續(xù)的處理.
圖1 不同背景復(fù)雜度的SWT提取結(jié)果比較Fig.1 The comparison of differentcomplexbackgroundSWT
本文提出了一種新的結(jié)合紋理背景抑制的筆畫寬度變換自然場(chǎng)景文本檢測(cè)方法,包括三個(gè)主要模塊:1)結(jié)合DCT高通濾波與紋理特征的背景抑制;2)基于圖像去噪的特征提取;3)基于SVM的非文本濾除.具體步驟如下.
(1)先通過對(duì)圖像做離散余弦變換,劃分出圖像的高頻與低頻信息;然后利用Butterworth高通濾波器來濾除處于低頻的背景,最后結(jié)合灰度共生矩陣來對(duì)圖像紋理進(jìn)行表征,利用有效的判別函數(shù)來保留潛在文本塊;
(2)先對(duì)保留的區(qū)域采用加權(quán)引導(dǎo)濾波處理,然后在有效提取筆畫寬度的基礎(chǔ)上,分別對(duì)筆畫寬度特征以及邊緣梯度特征進(jìn)行表征;
(3)利用連通域的形狀以及縱橫比啟發(fā)式規(guī)則對(duì)文本候選區(qū)域進(jìn)行初步過濾,結(jié)合SVM的分類方法來排除非文本,最后將保留的文本區(qū)域聚合成文本行輸出.
由于復(fù)雜背景中較多的邊緣信息易對(duì)筆畫寬度的提取造成干擾,因此通過將SWT的作用對(duì)象從原始圖像轉(zhuǎn)換到含有較少背景干擾的圖像,可有效提升SWT檢測(cè)的準(zhǔn)確性.雖然文獻(xiàn)[11]利用MSER的方法可實(shí)現(xiàn)將原始圖像轉(zhuǎn)換到含有較少背景的區(qū)域,其對(duì)于后續(xù)的SWT檢測(cè)具有良好的增強(qiáng)效果.但是MSER標(biāo)記的效果易受到圖像模糊及低對(duì)比度的干擾,本文探討一種結(jié)合DCT高通濾波與紋理特征的背景抑制方法,其好處在于能夠在有效抑制背景的同時(shí)突出圖像的文本區(qū)域,使得保留的區(qū)域具有良好的區(qū)分性.
(1)基于DCT的高通濾波.離散余弦變換(DCT)是由Ahmed等人[12]提出的一種變換壓縮的方法.考慮到連續(xù)的背景在頻域中呈現(xiàn)出低頻的特性,本文先通過對(duì)圖像進(jìn)行離散余弦變換,以區(qū)分出低頻的背景,然后采用高通濾波的方法來篩除這些背景.
首先給定輸入圖像為f(x,y),通過將圖像轉(zhuǎn)化為多個(gè)8×8的宏塊,對(duì)每個(gè)宏塊分別做DCT變換,進(jìn)而得到變換后的圖像G(u,v);經(jīng)DCT變換后,低頻信息集中在矩陣的左上角,高頻信息則集中右下角,考慮到連續(xù)的背景在頻域中呈現(xiàn)出低頻的特性,通過高通濾波的方法可以濾除低頻部分.由于圖像的背景往往較為復(fù)雜,以往常用的理想高通濾波器存在的“振鈴”現(xiàn)象會(huì)導(dǎo)致文本信息的漏檢.與理想高通濾波器相比,Butterworth高通濾波器[13]振鈴微小,并且具有靈活多變的濾波特性.這里采用Butterworth高通濾波器來實(shí)現(xiàn)圖像的高通濾波,其傳遞函數(shù)如公式(1)所示:
(1)
其中ωε為截止頻率,ωp為通頻帶邊緣頻率;最后通過反DCT變換得到濾波后的圖像g(x,y),有g(shù)(x,y)=DCT-1[P(u,v)].圖2給出了基于DCT的高通濾波流程圖.
圖2 基于DCT的高通濾波流程圖Fig.2 Theflow chart with DCT high pass filter
(2)基于紋理特征的文本保留.灰度共生矩陣(GLCM)是由Haralick[14]提出的一種分析圖像紋理的方法,由于它能夠有效反映圖像灰度在相鄰方向的綜合信息以及相同灰度級(jí)像素之間的位置分布特征,因而被廣泛的應(yīng)用于紋理特征的計(jì)算中.文獻(xiàn)[14]提出利用GLCM提取了角二階矩、對(duì)比度、逆差距等14種特征值來表述紋理,但全部考慮這些影響參數(shù),存在較高的計(jì)算復(fù)雜度.文獻(xiàn)[5]通過理論證明和實(shí)驗(yàn)分析得出上述特征值之間存在冗余,其中對(duì)比度和逆差矩這兩個(gè)特征之間不相關(guān),并且具有良好地分辨文本與非文本的能力.因此,本文通過利用對(duì)比度和逆差矩這兩種特征值來描述文本的紋理特征,其好處在于在較低計(jì)算復(fù)雜度的條件下可有效保留潛在的文本區(qū)域.計(jì)算方法如公式(2)、(3)所示:
(2)
(3)
其中p(i,j;d,θ)表示在θ方向上,相隔距離d的一對(duì)像素分別具有灰度值i和j出現(xiàn)的概率,L表示圖像的灰度集,R為歸一化常數(shù).對(duì)比度C反映了圖像的清晰度和紋理溝紋深淺的程度.紋理溝紋越深,其對(duì)比度越大,視覺效果越清晰.逆差距H反映圖像紋理的同質(zhì)性,度量圖像紋理局部變化的多少.逆差距越大則說明圖像紋理的不同區(qū)域間缺少變化,局部非常均勻.根據(jù)其特性設(shè)定的閾值T1,T2作為判別條件(具體細(xì)節(jié)參見3.1實(shí)驗(yàn)參數(shù)設(shè)置),在特征向量Xi=[rmin,rmax,cmin,cmax,fj]上將每個(gè)塊分成兩類w1和w2,其中w1指的是含有文本的塊,w2指的是不含文本的圖像塊,rmin,rmax,cmin,cmax行和列的最(小)大坐標(biāo).通過判別函數(shù)將文本塊與非文本塊分類出來后,將每個(gè)文本塊Ci中的行和列中最大和最小的坐標(biāo)保留到新的向量B中,最后將潛在的文本塊Ci在行和列中連接起來形成,含有文本的區(qū)域ri.表1給出了具體結(jié)合紋理特征的背景抑制方法.
表1 結(jié)合紋理特征的背景抑制方法Tab.1 The method of joint texture background suppression
盡管采用背景抑制的方法可降低復(fù)雜背景對(duì)SWT提取的干擾,但是由于SWT在提取邊緣時(shí)采用的是Canny檢測(cè)算子,其使用的一階偏導(dǎo)有限差分對(duì)噪聲會(huì)比較敏感.為了降低噪聲的干擾,我們采用加權(quán)引導(dǎo)濾波[15]的方法對(duì)圖像進(jìn)行平滑處理,以有效抑制噪聲的干擾.與傳統(tǒng)方法相比,該方法在實(shí)時(shí)性和去除偽影等方面表現(xiàn)出了明顯優(yōu)勢(shì),通過結(jié)合局部窗口的方差信息,自適應(yīng)地調(diào)整規(guī)整化因子,從而可以更好地降低噪聲的干擾.
首先在以k為中心的窗口ωk中,通過求解加權(quán)引導(dǎo)濾波模型來得到濾波輸出圖像q,這里濾波模型表示為:
qi=akIi+bk,?i∈ωk,
(4)
其中i為像素標(biāo)簽,I為引導(dǎo)圖像,ak、bk為ωk中的常系數(shù).由公式(4)可以看出,濾波模型的關(guān)鍵在于常系數(shù)的求解,而通常求解的方式是將其轉(zhuǎn)化為最小化窗口的損失函數(shù)E,通過得到損失函數(shù)來實(shí)現(xiàn)常系數(shù)的計(jì)算,如式(5):
(5)
式中ε為正則化因子,用來防止系數(shù)ak過大,Γ為加權(quán)因子,規(guī)整化因子通過Γ的定義來實(shí)現(xiàn).通過采用線性回歸方法求解(5)得到ak,bk代入式(4)進(jìn)而得到濾波后的輸出圖像q.
有了加權(quán)引導(dǎo)濾波的去噪處理,降低了噪聲的干擾.增強(qiáng)了Canny算子邊緣提取的有效性,在此基礎(chǔ)上利用圖像中的邊緣像素,采用SWT在區(qū)域內(nèi)做距離變換,計(jì)算并統(tǒng)計(jì)區(qū)域內(nèi)像素點(diǎn)的歐式距離,通過遍歷整個(gè)標(biāo)記的區(qū)域,并由此得到原圖像各像素的筆畫寬度值映射.鑒于文獻(xiàn)[8]中的筆畫寬度具有良好的區(qū)分文本與非文本的特性,在這里首先根據(jù)筆畫寬度變化系數(shù)來描述文本筆畫寬度特征.
在筆畫寬度圖像中對(duì)每個(gè)連通區(qū)域求筆畫寬度的平均值,根據(jù)變化系數(shù)SW來度量筆畫寬度變化的大小,如公式(6)所示:
(6)
其中meanSW是指筆畫寬度的平均值,N是指區(qū)域內(nèi)的像素個(gè)數(shù),xi是指區(qū)域內(nèi)某一點(diǎn)像素的筆畫寬度.SW越大,表明該區(qū)域中含有非文本的概率越大.一般來說,文本區(qū)域內(nèi)的筆畫寬度變化都會(huì)保持相對(duì)穩(wěn)定即SW較小.
盡管筆畫寬度可以較好的區(qū)分文本與非文本,但僅由單一的筆畫寬度,無法充分地表征文本的局部特征[10].文獻(xiàn)[16]研究發(fā)現(xiàn)場(chǎng)景文本區(qū)域的邊緣存在大量的混合像素,這些混合像素的梯度幅值往往大于其它區(qū)域的像素,并通過實(shí)驗(yàn)證明了邊緣方向的梯度具有良好的區(qū)分文本的特性.這里將邊緣梯度特征引入,以彌補(bǔ)單一筆畫寬度的不足.在Canny邊緣提取的基礎(chǔ)上,利用字符邊緣的對(duì)稱性,將邊緣梯度特征定義為:
(7)
其中wi(r)表示區(qū)域r中第i類邊緣像素點(diǎn)的個(gè)數(shù).
經(jīng)過上述方法的處理,文本候選區(qū)域中仍然存在著一些非文本區(qū)域,需要進(jìn)一步的將這些非文本進(jìn)行排除,才能獲得最終的文本定位.盡管文獻(xiàn)[8]通過利用6種不同類型的先驗(yàn)信息濾除非文本取得了一定的效果,但該方法中含有大量的人工定義的規(guī)則以及經(jīng)驗(yàn)參數(shù),會(huì)產(chǎn)生一些漏檢,影響最終的定位.為了減少人工參數(shù)的設(shè)置,本文通過在利用筆畫寬度以及邊緣梯度兩種有效的特征的基礎(chǔ)上,結(jié)合采用支持向量機(jī)(SVM)[17]的方法來改善對(duì)非文本的濾除.
在SVM分類前,先利用一些啟發(fā)式規(guī)則對(duì)文本候選區(qū)域進(jìn)行過濾,以去除明顯不含有文本的區(qū)域,有了背景的有效抑制,這里僅采用連通域的形狀以及縱橫比來進(jìn)行排除,最后利用SVM訓(xùn)練的模型得到最終的文本區(qū)域,采用形態(tài)學(xué)膨脹的方法聚合成文本行輸出.
圖3 給出了原始圖像到最終文本定位過程中每個(gè)環(huán)節(jié)的效果圖,從圖中可以清晰地看出,在SVM分類器的作用下,通過有效地筆畫寬度特征以及邊緣梯度特征可以達(dá)到有效濾除非文本的效果,大大減少了經(jīng)驗(yàn)參數(shù)的設(shè)置.
圖3 文本定位效果圖Fig.3 The results of text detection
為驗(yàn)證本文方法的有效性,以 Windows 7 操作系統(tǒng)、Matlab R2015b 為模擬實(shí)驗(yàn)平臺(tái),在ICDAR2003 數(shù)據(jù)庫(kù)上實(shí)驗(yàn),并將本文方法和其它相關(guān)算法[4,6,8,10,11]進(jìn)行對(duì)比.
實(shí)驗(yàn)中用到libsvm以及vl-feat兩種開源數(shù)據(jù)包;將對(duì)比度和反差的判定條件閾值分別設(shè)定為T1=0.4,T2=50;將綜合指數(shù)計(jì)算中的權(quán)系數(shù)a設(shè)置為0.5;從ICDAR2003訓(xùn)練集中選取了900個(gè)正樣本和1400個(gè)負(fù)樣本訓(xùn)練分類器.將所有正樣本的標(biāo)簽記為1,負(fù)樣本的標(biāo)簽為-1,提取樣本的EHOG和SW特征并歸一化.
ICDAR2003數(shù)據(jù)庫(kù)共由509幅場(chǎng)景圖像組成,包含有258幅訓(xùn)練集圖像和251幅測(cè)試集圖像.這些場(chǎng)景圖像涵蓋了街道門牌、衣服商標(biāo)、路牌等不同場(chǎng)景,以及不同大小、顏色和光照的水平排列的英文文本.采用信息檢索系統(tǒng)中的準(zhǔn)確率P和召回率R作為評(píng)價(jià)標(biāo)準(zhǔn).對(duì)于文本檢測(cè),L為圖像中原有的目標(biāo)總數(shù),E為正確估計(jì)目標(biāo)的總數(shù),m(j,E)是矩形j最佳的匹配,準(zhǔn)確率P、召回率R以及綜合測(cè)量值f分別表示為:
P=∑j∈Em(j,L)/|E|,
(8)
R=∑j∈Tm(j,E)/|L|,
(9)
(10)
其中準(zhǔn)確率P表示正確檢測(cè)的文本框個(gè)數(shù)與檢測(cè)的總文本框個(gè)數(shù)的比值;召回率R表示正確檢測(cè)的文本框個(gè)數(shù)與真實(shí)文本框總數(shù)的比值;系數(shù)f綜合衡量了算法的回召率和準(zhǔn)確率.
本次實(shí)驗(yàn)分別將紋理背景抑制方法以及整體的方法在ICDAR2003測(cè)試集上進(jìn)行試驗(yàn),選取其中具有代表性的指示牌、路標(biāo)、房屋以及門牌等自然場(chǎng)景圖像,實(shí)驗(yàn)結(jié)果如圖4(b)、4(c)所示.從圖4(b)中可以看出結(jié)合DCT高通濾波與紋理特征的方法能夠有效地降低背景的干擾,突出潛在的文本塊;從圖4(c)中可以看出,當(dāng)文本所處位置較附近復(fù)雜的場(chǎng)景存在一定對(duì)比時(shí),本文方法取得了較好的檢測(cè)效果.但是當(dāng)背景和文本之間顏色極為為相近時(shí)或者文本尺度不一時(shí),檢測(cè)效果不太理想,如圖4(c)最后一行所示.
圖4 基于ICDAR文本檢測(cè)效果示例Fig.4 The results of text detection based on ICDAR
將本文方法與其他相關(guān)算法[4,6,8,10,11]進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示.從表2結(jié)果可以看出,與文獻(xiàn)[8]相比,本文提出的方法在各項(xiàng)指數(shù)上均獲得了較好提升,這是由于提出的背景抑制的方法有效抑制了背景的干擾,縮小了SWT的檢測(cè)范圍,增加了正確檢測(cè)的總數(shù)量,從而使得召回率和綜合指數(shù)有較大的提升.由于文獻(xiàn)[8]是直接對(duì)原始的圖像進(jìn)行的SWT變換,其單幅圖像處理的時(shí)間平均為0.72 s,而本文在處理過程中結(jié)合了背景抑制方法,其計(jì)算復(fù)雜度略有提升,處理時(shí)間為1.015s,綜合來看,本文方法總體獲得了最優(yōu)效果.
表2 幾種檢測(cè)算法的性能比較Tab.2 Performance comparison of different method
針對(duì)復(fù)雜背景中存在的邊緣信息與噪聲干擾引起筆畫寬度檢測(cè)不準(zhǔn)確的問題,提出了一種結(jié)合紋理背景抑制的筆畫寬度變換文本檢測(cè)方法.采用Butterworth高通并結(jié)合文本紋理特征,實(shí)現(xiàn)了在抑制背景的同時(shí)有效保留文本區(qū)域的信息.通過結(jié)合利用加權(quán)引導(dǎo)濾波的圖像增強(qiáng)技術(shù)降低噪聲對(duì)邊緣檢測(cè)的影響,文本圖像的筆畫寬度與邊緣梯度信息得到更準(zhǔn)確提取,從而有效提升了基于筆畫寬度變換文本檢測(cè)的性能.基于ICDAR數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性.但是當(dāng)背景和文本之間顏色極為為相近時(shí)或者文本尺度不一時(shí),檢測(cè)效果不太理想,可作為進(jìn)一步研究方向.
[1]Fragoso V, Gauglitz S, Zamora S, et al. TranslatAR: A mobile augmented reality translator[C]//IEEE.Applications of Computer Vision. New Jersey:IEEE Xplore, 2011:497-502.
[2]Merino-Gracia C, Lenc K, Mirmehdi M. A head-mounted device for recognizing text in natural scenes[C]//CDAR.International Conference on Camera-Based Document Analysis and Recognition. Berlin:Springer-Verlag, 2011:29-41.
[3]Shivakumara P, Phan T Q, Tan C L. Video text detection based on filters and edge features[C]// IEEE. International Conference on Multimedia and Expo. New Jersey:IEEE Press, 2009:514-517.
[4]Meng Q, Song Y. Text Detection in Natural Scenes with Salient Region[C]//IEEE.Iapr International Workshop on Document Analysis Systems. New Jersey:IEEE, 2012:384-388.
[5]Angadi S A, Kodabagi M M. Text region extraction from low resolution natural scene images using texture features[C]//IEEE.Advance Computing Conference.New Jersey:IEEE, 2010:121-128.
[6]寧仲, 唐雁, 張宏,等. 一種基于頻域紋理特征的圖像文字定位算法[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,(02):306-312.
[7]Liu Q, Jung C, Kim S, et al. Stroke filter for text localization in video images[C]// IEEE. International Conference on Image Processing.New Jersey:IEEE, 2006:1473-1476.
[8]Epshtein B, Ofek E, Wexler Y. Detecting text in natural scenes with stroke width transform[C]//IEEE. Computer Vision and Pattern Recognition.New Jersey:IEEE, 2010:2963-2970.
[9]Yi C, Tian Y. Localizing text in scene images by boundary clustering, stroke segmentation, and string fragment classification[J]. IEEE Transactions on Image Processing, 2012, 21(9):4256-4268.
[10]Yao C. Detecting texts of arbitrary orientations in natural images[C]//IEEE.Computer Vision and Pattern Recognition. New Jersey:IEEE, 2012:1083-1090.
[11]劉亞亞, 于鳳芹, 陳瑩. 基于筆畫寬度變換的場(chǎng)景文本定位[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2016, 37(2):350-353.
[12]Ahmed N, Natarajan T, Rao K R. Discrete Cosine Transfom[J]. IEEE Transactions on Computers, 1974, 23(1):90-93.
[13]侯潔, 辛云宏. 基于高通濾波和圖像增強(qiáng)的紅外小目標(biāo)檢測(cè)方法[J]. 紅外技術(shù), 2013, 35(5):279-284.
[14]Haralick R M. Texture features for image classification[J]. Systems Man & Cybernetics IEEE Transactions on, 1973, 3(6):610-621.
[15]Li Z, Zheng J, Zhu Z, et al. Weighted guided image filtering[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(1):120-9.
[16]Li Y, Jia W, Shen C, et al. Characterness: An Indicator of Text in the Wild[J]. IEEE Transactions on Image Processing, 2014, 23(4):1666-1677.
[17]Kim K I, Jung K, Jin H K. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2003, 25(12):1631-1639.