• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于色彩空間的最大穩(wěn)定極值區(qū)域的自然場景文本檢測

      2018-03-20 00:43:05范一華鄧德祥
      計算機(jī)應(yīng)用 2018年1期
      關(guān)鍵詞:字符貝葉斯顏色

      范一華,鄧德祥,顏 佳

      (武漢大學(xué) 電子信息學(xué)院,武漢 430072)(*通信作者電子郵箱ddx_dsp@163.com)

      0 引言

      近幾年來,文本檢測已經(jīng)成為計算機(jī)視覺研究的熱點(diǎn)。作為人類想法和表達(dá)方式的承載體,自然場景中的文本例如廣告牌、路標(biāo)等包含豐富的有價值的信息,這些信息極大地方便了大家的生活,并且為商業(yè)帶來巨大的利益。文本檢測被廣泛地應(yīng)用在圖像檢索和人機(jī)交互等領(lǐng)域,因此,自然場景中的文本檢測的研究不可避免地成為研究的趨勢,如何設(shè)計一個健壯的文本檢測算法是一個亟待解決的問題。

      文本檢測最常用的兩個方法是基于滑動窗口[1-2]的方法和基于連通域分析[3-6]的方法?;诨瑒哟翱诘姆椒梢詫?shí)現(xiàn)很高的召回率,但是需要多種尺寸的窗口在整幅圖像移動,窮舉的搜索增加了計算復(fù)雜度,并且會產(chǎn)生大量的錯誤候選區(qū)域,此方法的檢測率和實(shí)時性都不能滿足目前的需求?;谶B通域分析的方法是通過連通域分析提取字符候選區(qū)域,然后采用分類器篩選非字符區(qū)域,最后將字符整合成文本行。筆畫寬度變換(Stroke Width Transform, SWT)[7]和最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Region, MSER)[6]是最常用的連通域分析的方法。最近幾年,MSER由于尺度旋轉(zhuǎn)不變性、仿射不變性的優(yōu)勢被廣泛地應(yīng)用于文本檢測,成為文本檢測的主流方法;但是,目前基于MSER的自然場景文本區(qū)域檢測的方法仍然存在無法提取低對比度圖像文本區(qū)域的缺陷,主要原因有以下兩個方面。

      首先,自然場景的圖像容易受到光照、外部環(huán)境和噪聲的影響,MSER抗污跡和抗噪聲的能力較弱,從而導(dǎo)致檢測出的文本區(qū)域出現(xiàn)粘連現(xiàn)象。為了解決這個問題,Chen等[3]移除邊界外的像素,結(jié)合MSER與Canny邊緣檢測提取小區(qū)域,此方法可以有效地提高圖像的邊緣對比度;但是噪聲的邊緣也被增強(qiáng),加大了篩選正確的字符候選區(qū)域的難度。Yin等[8-9]提出修剪MSER造成的重復(fù)的區(qū)域,使其能夠檢測任意方向的文本,這增強(qiáng)了文本檢測的魯棒性,但是并沒有解決低對比度圖像不能被提取文本區(qū)域的問題。Forssen等[10]結(jié)合MSER與尺度不變特征變換(Scale Invariant Feature Transform, SIFT)來增強(qiáng)MSER對復(fù)雜圖像的魯棒性,但是算法復(fù)雜度較高,不利于系統(tǒng)的實(shí)時性。為了有效地增強(qiáng)文本區(qū)域與背景的對比度而同時不增大噪聲的對比度,本文充分利用方向梯度直方圖(Histogram of Oriented Gradients, HOG)增強(qiáng)圖像的邊緣信息,以此提高M(jìn)SER的魯棒性。

      其次,大多數(shù)的MSER方法都是在灰度通道進(jìn)行處理,而忽略了顏色信息。彩色圖像轉(zhuǎn)換成灰度圖像時,丟失了顏色和紋理信息,極大地影響系統(tǒng)的性能。最近的一些研究也逐漸地把目光轉(zhuǎn)移到色彩空間,Neumann等[11]使用RGB和HSI(Hue-Saturation-Intensity)空間提取文本候選區(qū)域,這個系統(tǒng)對噪聲穩(wěn)定并在一定的程度上解決了低分辨率的字符不能被提取的問題,但是此方法采取6個顏色通道提取文本區(qū)域,導(dǎo)致檢測出的文本區(qū)域重復(fù),并且耗時較多,降低了算法的實(shí)時性。唐有寶等[12]在RGB、HSI色彩空間進(jìn)行多閾值MSER區(qū)域檢測,此方法取得了較好的結(jié)果,但是在6個顏色通道利用兩個閾值提取MSER,時間復(fù)雜度過高,不利于系統(tǒng)的實(shí)時性。HSI空間是更符合人類視覺的顏色空間,色域較廣,并且顏色和亮度相互獨(dú)立,因此本文選擇在HSI空間利用改進(jìn)的MSER方法提取文本候選區(qū)域。

      隨著神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺中的成功應(yīng)用,大多數(shù)學(xué)者將MSER與神經(jīng)網(wǎng)絡(luò)結(jié)合,并取得了較好的效果。唐有寶等[12]利用MSER提取文本候選區(qū)域,通過神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,使F指標(biāo)在ICDAR (International Conference on Document Analysis and Recognition) 2011等數(shù)據(jù)集上達(dá)到了79%。李鑒鴻[13]利用Canny算子增強(qiáng)邊緣信息提取MSER,并將預(yù)處理得到的MSER區(qū)域作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,最終在ICDAR 2011數(shù)據(jù)集實(shí)現(xiàn)了字符定位正確率為81%;但李鑒鴻[13]沒有將字符整合成文本行,無法驗證文本檢測的召回率。神經(jīng)網(wǎng)絡(luò)的應(yīng)用極大地提高了自然場景的文本檢測率;但是它的算法復(fù)雜度過高,不利于系統(tǒng)的實(shí)時性。而本文提出的貝葉斯模型算法復(fù)雜度低,三個特征具有平移旋轉(zhuǎn)不變性,訓(xùn)練得到的模型對字符分類的穩(wěn)定性較高。MSER與貝葉斯模型的結(jié)合在提高系統(tǒng)性能的同時也提高了系統(tǒng)的實(shí)時性,因此本文提出的算法對未來文本檢測的研究有一定的借鑒意義。

      綜上所述,本文在顏色空間充分利用HOG算子改進(jìn)MSER,并使用貝葉斯分類器進(jìn)行字符的篩選,最終能夠很好地解決低對比度、背景復(fù)雜的圖像不能被檢測出文本的問題,從而提高系統(tǒng)的檢測率和實(shí)時性。整個系統(tǒng)在兩個公共數(shù)據(jù)集ICDAR 2003[14]和ICDAR 2013[15]進(jìn)行測試,實(shí)驗結(jié)果表明,召回率和檢測率相對于傳統(tǒng)的MSER方法都有所提升,因此本文提出的基于色彩空間的邊緣增強(qiáng)的MSER文本檢測方法對于自然場景的文本檢測具有一定的有效性。

      1 自然場景文本檢測流程

      本文提出的基于色彩空間的MSER的文本檢測的方法主要分為以下三個步驟:提取字符候選區(qū)域,篩選非字符,整合成文本行。算法的整體流程如圖1所示。首先,利用HOG算子增強(qiáng)圖像邊緣信息,并在H、S、I三個顏色通道提取文本候選區(qū)域;其次,將筆畫寬度[7]、邊緣梯度方向[15]、拐角點(diǎn)[11]這三個特征送入貝葉斯系統(tǒng)中篩選出非字符區(qū)域;最后,將濾波后的字符區(qū)域整合成文本行。

      圖1 算法整體流程

      2 提取字符候選區(qū)域

      2.1 基于邊緣增強(qiáng)的最大穩(wěn)定極值區(qū)域

      MSER首次被Matas等[6]提出,MSER的數(shù)學(xué)表達(dá)式如下:

      qi=|Qi+Δ-Qi-Δ|/|Qi|

      (1)

      其中:Qi代表閾值為i時所求的極值區(qū)域;Δ是灰度閾值的變化量,通過對訓(xùn)練集進(jìn)行不同閾值變化量的MSER候選區(qū)域檢測,發(fā)現(xiàn)Δ太小會出現(xiàn)大量的極值區(qū)域,Δ太大會導(dǎo)致小區(qū)域無法被檢測出來,本文將Δ設(shè)置為10能夠獲得較好的文本候選區(qū)域;qi代表閾值為i時,極值區(qū)域的變化率,當(dāng)qi達(dá)到最小值時,則Qi為最大極值區(qū)域。

      MSER對于抗污跡和抗噪聲的能力較弱,這個弱勢使MSER無法成功地從低對比度圖像中檢測出文本,如圖2所示,原始的MSER方法檢測出的文本區(qū)域可能會出現(xiàn)粘連現(xiàn)象??紤]用增強(qiáng)邊緣信息的方法來增大圖像的對比度。最簡單的方法就是利用Canny算子提取圖像的邊緣信息,然后將這些邊緣點(diǎn)所對應(yīng)的像素值相應(yīng)地增大或者減小。雖然此方法在一定的程度上提高了邊緣對比度;但是處理時忽略了邊緣的梯度信息,不重要的邊緣(比如噪聲)也被增強(qiáng),導(dǎo)致圖像有較小的失真(如圖3所示),影響MSER的性能。從視覺角度上分析,由于顏色和對比度信息,一般自然場景圖像的文本區(qū)域是最引人注目的,因此文本邊緣區(qū)域的梯度值較大,這一特性使本文方法可以有效地增強(qiáng)文本區(qū)域的對比度而減少噪聲的影響,從而提高文本檢測的準(zhǔn)確率。為了更好地利用原圖像的信息,采用HOG算子提取圖像的梯度信息,利用梯度值重新構(gòu)建圖像,計算式如下:

      I原圖像=I原圖像±λ▽I原圖像

      (2)

      其中:I原圖像代表將要處理的圖像;▽I原圖像代表I原圖像的梯度;λ是調(diào)節(jié)像素大小的參數(shù);±分別代表亮背景暗區(qū)域和暗背景亮區(qū)域。

      圖2 原始的MSER與改進(jìn)后的MSER比較

      圖3 利用Canny算子和本文算法的邊緣增強(qiáng)效果對比

      2.2 色彩空間的最大穩(wěn)定極值區(qū)域

      顏色和對比度在視覺感知中占據(jù)著舉足輕重的地位,自然場景中的文本往往都是通過顏色和對比度信息被人們捕捉到。目前大多數(shù)的圖像處理集中在灰度通道實(shí)現(xiàn)相關(guān)的算法,而忽略了包含大量有價值信息的顏色通道。對于背景復(fù)雜的圖像,灰度通道上的文本區(qū)域與背景之間的對比度不夠明顯,導(dǎo)致無法利用MSER正確地提取文本候選區(qū)域,而觀察顏色通道上的圖像,可能會有清晰的對比度,能夠幫助正確地提取文本區(qū)域,因此本文充分利用色彩空間加強(qiáng)文本候選區(qū)域的提取。

      顏色空間的選擇對字符候選區(qū)域的提取也有著顯著的影響。一些常用的顏色空間包含RGB、HSI和Lab色彩空間。顏色和亮度在RGB顏色空間相互關(guān)聯(lián);但在HSI和Lab顏色空間相互獨(dú)立,從理論上分析,RGB顏色空間的文本檢測結(jié)果不如HSI和Lab色彩空間。HSI色彩空間更符合人類的視覺效果,它在業(yè)界是更常用的一種色彩空間,并且色域足夠廣,因此選擇在H、S、I三個通道分別提取最大穩(wěn)定極值區(qū)域來獲得文本候選區(qū)域。圖4展示了本文在HSI空間提取文本候選區(qū)域的結(jié)果。其中:MSER+代表深色背景淺色區(qū)域的圖像檢測結(jié)果;MSER-代表淺色背景深色區(qū)域的圖像檢測結(jié)果。通過MSER+和MSER-可以更多地提取圖像的最大穩(wěn)定極值區(qū)域。

      從圖4中可以看出,對于背景復(fù)雜的圖像,在H、S、I三個通道共同采用本文改進(jìn)的MSER方法,能夠很好地提取文本候選區(qū)域,從而可以實(shí)現(xiàn)較高的召回率,提高系統(tǒng)的性能。

      此外本文對原始的MSER方法、基于Canny算子增強(qiáng)MSER的方法和本文提出的基于HOG算子增強(qiáng)MSER的方法分別在灰度通道和色彩通道作文本檢測的實(shí)驗,所用的數(shù)據(jù)集是ICDAR 2013。實(shí)驗結(jié)果如表1所示,從表1得到,本文提出的方法優(yōu)于原始的MSER方法和基于Canny增強(qiáng)的MSER方法,能夠有效地提高文本檢測的召回率和檢測率(f-measure),而對HSI顏色空間的利用可以獲得更好的文本檢測率。

      3 篩選非字符區(qū)域

      從視覺角度上看,在一幅圖像上,文本區(qū)域更具有顯著性,它們具有自己單獨(dú)的特征。本文結(jié)合筆畫寬度、邊緣梯度方向和拐角點(diǎn)這三個特征從候選區(qū)域中篩選出正確的字符。與其他分類器不同的是,本文采用貝葉斯模型進(jìn)行分類。

      3.1 筆畫寬度

      筆畫寬度(Stroke Width, SW)是文字的一個標(biāo)志性特征,被廣泛地應(yīng)用于文本檢測。首次被Epshtein等[7]提出,筆畫邊緣上總有兩點(diǎn)的梯度方向相反,這兩點(diǎn)之間的距離就是這兩點(diǎn)的筆畫寬度值。如圖5所示,字符的筆畫寬度一般來說都是比較穩(wěn)定均勻的,而非字符的筆畫寬度變化是不均勻的。將SW的貝葉斯模型定義為下邊的形式:

      (3)

      其中:E(r)和var(r)分別區(qū)域r的筆畫寬度的均值和方差。與非字符區(qū)域相比,字符區(qū)域的SW(r)值相對較小。

      圖4 HSI色彩空間的MSER結(jié)果

      Tab. 1 Detection results comparison of three methods on different channels (ICDAR 2013 dataset)

      圖5 字符與非字符的筆畫寬度對比

      3.2 邊緣梯度方向

      方向梯度直方圖特征(HOG)[16]對圖像幾何和光學(xué)的形變都能保持不變性。圖6展示了字符的梯度方向分布圖,把邊緣點(diǎn)的梯度方向定義成四個區(qū)間[17]。

      區(qū)間1 0<θ≤π/4或者7π/4<θ≤2π。

      區(qū)間2 π/4<θ≤3π/4。

      區(qū)間3 3π/4<θ≤5π/4。

      區(qū)間4 5π/4<θ≤7π/4。

      其中:1、2、3、4分別代表對應(yīng)的四個區(qū)間,對于字符來說,位于區(qū)間1和區(qū)間3的邊緣點(diǎn)數(shù)基本相同,區(qū)間2和區(qū)間4也如此,因此定義HOG的貝葉斯模型如下:

      HOG(r)=(|num1(r)-num3(r)|+

      (4)

      圖6 字符的邊緣梯度方向分布

      3.3 字符的拐角點(diǎn)

      一個字符通常只有有限個拐角點(diǎn),而非字符可能有非常多的拐角點(diǎn)。拐角點(diǎn)特征具有旋轉(zhuǎn)、平移、尺度不變性。在本文,將這個特征的貝葉斯模型定義為以下形式:

      (5)

      其中:cornernum(r)代表在區(qū)域r內(nèi)拐角點(diǎn)的個數(shù);edgenum(r)表示在區(qū)域r內(nèi)邊緣的點(diǎn)數(shù)。Corner(r)越小,這個區(qū)域是字符的可能性越大。

      3.4 貝葉斯多個模型的融合

      假設(shè)SW、HOG、字符邊界拐角點(diǎn)這三個特征之間是相互獨(dú)立的,根據(jù)貝葉斯理論,知道一個區(qū)域是字符的后驗概率[17]可以由以下計算式進(jìn)行計算:

      (6)

      其中:Ω={SW,HOG,拐角點(diǎn)};p(c)和p(b)分別表示字符和非字符的先驗概率。通過正樣本和負(fù)樣本來定義似然函數(shù)p(cue/c)和p(cue/b),其中正樣本和負(fù)樣本來自ICDAR 2013自然場景文本分割的訓(xùn)練集。這個訓(xùn)練集擁有像素級的人為標(biāo)注,包含229張可供訓(xùn)練的自然場景的圖像,在本文的實(shí)驗中,選擇159張作為訓(xùn)練,剩余的70張作為測試集用來評估模型。

      3.5 貝葉斯分類與SVM分類

      為了證明本文提出的貝葉斯模型的有效性和穩(wěn)定性,分別做10組實(shí)驗比較貝葉斯分類與支持向量機(jī)(Support Vector Machine, SVM)分類的性能。其中第一組隨機(jī)選取129張作為訓(xùn)練,剩下的100張作為測試;第二組隨機(jī)選取169張作為訓(xùn)練,剩下的60張作為測試;剩下的8組分別隨機(jī)選取159張作為訓(xùn)練,剩余的70張作為測試。10組訓(xùn)練數(shù)據(jù)保證每組與每組的樣本不完全重合,貝葉斯模型利用上述的三個特征模型計算候選區(qū)域?qū)儆谧址母怕?。SVM分類首先要對候選區(qū)域進(jìn)行預(yù)處理,歸一化為32×32大小,然后提取HOG特征。最終的分類結(jié)果如圖7所示。在10組實(shí)驗中,本文提出的貝葉斯模型篩選字符的召回率基本保持穩(wěn)定,并且相比SVM分類有較高的召回率,能夠更好地篩選出字符區(qū)域。這是因為自然場景中的字符是各式各樣的,貝葉斯模型采用的這三個特征具有平移旋轉(zhuǎn)不變形,對字符的形狀、拉伸、大小均無嚴(yán)格要求,無需對候選區(qū)域進(jìn)行預(yù)處理,從而提高了系統(tǒng)分類的魯棒性,而SVM分類對訓(xùn)練集要求較為嚴(yán)格,在樣本量較少的情況下,訓(xùn)練集很難包含所有的字符形狀,從而出現(xiàn)誤判的問題。

      圖7 貝葉斯與SVM對候選字符區(qū)域分類結(jié)果

      4 整合字符成文本行

      本章的目的是將濾波后的字符區(qū)域整合成文本行。利用字符的幾何特性寬、高、面積、字符之間的距離來判斷字符是否在同一行。定義區(qū)域R={R1,R2,…,Rp,…,RQ},Q=charnum;charnum為最終留下來的字符個數(shù),其中Rp,Rq∈R;p,q∈charnum。

      1)區(qū)域Rp和Rq的寬和高大小相似。

      (7)

      2)區(qū)域Rp和Rq的中心點(diǎn)水平距離小于Rp和Rq的寬度的平均值的3倍;中心點(diǎn)的垂直距離小于Rp和Rq的高度的平均值的1/2。

      多個檢測結(jié)果的融合如下。

      本文在HSI空間利用改進(jìn)后的MSER來提取文本候選區(qū)域,最終的文本定位分別由H、S、I三個通道的MSER+和MSER-檢測結(jié)果共同組成,多個檢測結(jié)果會出現(xiàn)重復(fù)的文本框,簡單地將這些結(jié)果疊加會降低文本的檢測率。Rp={leftp,upp,rightp,downp},定義文本框與文本框之間的關(guān)系有3種:相交、包含、獨(dú)立。當(dāng)兩個區(qū)域呈相交的關(guān)系時,本文合并這兩個區(qū)域,分別取兩個區(qū)域的左邊的最小值、右邊的最大值為新區(qū)域的左邊值和右邊值,即leftnew=min(leftp,leftq),rightnew=max(rightp,rightq);對上邊值和下邊值做相同的處理同樣的處理。當(dāng)兩個區(qū)域呈包含關(guān)系時,如果兩個區(qū)域的寬(高)之差小于最大寬(高)的1/5,剔除掉小區(qū)域;當(dāng)兩個區(qū)域呈完全獨(dú)立的關(guān)系時,認(rèn)為這兩個區(qū)域是檢測的不同的文本區(qū)域。

      5 實(shí)驗結(jié)果與分析

      本文的實(shí)驗環(huán)境是Windows 7、64位系統(tǒng)、Intel i5處理器、Matlab R2016a平臺。為了評價算法的性能,系統(tǒng)在最常用的兩個公共數(shù)據(jù)集ICDAR 2003和ICDAR 2013進(jìn)行測試。其中ICDAR 2003包含258張圖像用于訓(xùn)練,251張圖像供測試;ICDAR 2013包含229張圖像用于訓(xùn)練,233張圖像用于測試。ICDAR 2013有專門的網(wǎng)上評價性能系統(tǒng),將每幅圖像的檢測結(jié)果按照左、上、右、下的順序以txt的格式存儲文本區(qū)域的坐標(biāo),最終將233張圖像的txt壓縮上傳至評估平臺,即可得到精確率和召回率。

      ICDAR 2003沒有網(wǎng)上評估系統(tǒng),通過匹配所檢測區(qū)域的文本框與標(biāo)準(zhǔn)框之間的最大相似度獲得召回率和精確率。首先定義:

      m(t;T)=max{mp(t:t1)/t1∈T}

      其中:m(t;T)代表矩形框t與標(biāo)準(zhǔn)框T的最大相似度。

      召回率和精確率定義如下:

      (8)

      (9)

      (10)

      其中:G代表的是標(biāo)準(zhǔn)框的集合;E是本系統(tǒng)文本檢測的結(jié)果;f-measure用來綜合評價召回率和精確率;β代表召回率和精確率所占的權(quán)重。

      5.1 實(shí)驗結(jié)果比較與分析

      本文方法對ICDAR 2013和ICDAR 2003兩個數(shù)據(jù)集的測試結(jié)果如表2所示。針對最近幾年基于MSER的文本檢測方法進(jìn)行效果比較。從表2中可以看到,唐有寶等[12]檢測率、精確率、召回率是最好的,采用在RGB、HSI色彩空間進(jìn)行多閾值MSER區(qū)域檢測,在RGB、HSI、Lab九個色彩空間提取顏色特征并送入神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,雖然實(shí)現(xiàn)了較高的檢測率;但是算法復(fù)雜度過高,耗費(fèi)時間較長,在提升文本檢測率的同時降低了系統(tǒng)的實(shí)時性。Turki[4]采用索貝爾算子(Sobel operator, Sobel)進(jìn)行邊緣增強(qiáng),并在Y顏色通道提取MSER,此方法雖然也利用顏色空間和增強(qiáng)對比度提升MSER的性能,但是如前邊2.1節(jié)所述,單純地利用邊緣檢測增強(qiáng)邊緣信息會導(dǎo)致不感興趣的區(qū)域?qū)Ρ榷纫苍黾樱瑥亩绊懳谋緳z測的精確率。Ren等[18]采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行文本檢測,Neumann等[11]同樣在RGB、HSI空間利用MSER提取候選區(qū)域,但是效果都差于本文效果。對ICDAR 2013數(shù)據(jù)庫,本文方法在HSI空間的召回率達(dá)到71%,低于唐有寶等[12]算法結(jié)果4個百分點(diǎn),但是本文算法不涉及復(fù)雜的卷積操作,系統(tǒng)實(shí)時性優(yōu)于唐有寶等[12]算法。通過實(shí)驗結(jié)果可以獲得,本文提出的算法優(yōu)于其他類似基于色彩空間和MSER提取文本區(qū)域的方法。

      表2中,在ICDAR 2003數(shù)據(jù)集的結(jié)果對比中:張國和等[19]將MSER與SWT相結(jié)合提取文本區(qū)域;楊磊[20]采用在色彩空間基于均值漂移的圖像分割的方法,選取HOG和局部二值模式特征(Local Binary Pattern, LBP)送入AdaBoost分類器篩選字符區(qū)域;Neumann等[21]采用MSER獲取文本候選區(qū)域;Chen等[3]結(jié)合MSER與Canny邊緣檢測提取文本候選區(qū)域??梢院芮逦乜吹奖疚乃惴▋?yōu)于其他競爭算法,實(shí)現(xiàn)了最高的召回率,f-measure也達(dá)到了最高。

      綜合上述的主觀分析和客觀實(shí)驗結(jié)果可知,本文的召回率的提升正是由于利用文本區(qū)域的梯度值高于其他區(qū)域這一特性來改進(jìn)MSER,將改進(jìn)后的MSER應(yīng)用到色彩空間,可充分利用顏色和梯度信息來解決背景復(fù)雜、低對比度的圖像無法提取文本候選區(qū)域的問題。貝葉斯分類方法保證了字符分類的精確率,從而提升f-measure。與此同時,本文方法的精確率略低于其他競爭的算法,精確率較低的原因是本文將多個通道的文本檢測結(jié)果進(jìn)行融合,這些檢測結(jié)果會產(chǎn)生多個重復(fù)的文本框,雖然字符分類的召回率較高,但是最終形成的重復(fù)的文本行降低了文本檢測的精確率。圖8展示了本文系統(tǒng)對數(shù)據(jù)集ICDAR 2013和ICDAR 2003進(jìn)行文本檢測的一部分結(jié)果。

      表2 本文算法與其他競爭算法在不同數(shù)據(jù)庫的檢測結(jié)果對比

      圖8 本文方法對不同數(shù)據(jù)庫中的部分檢測結(jié)果

      5.2 算法復(fù)雜度分析

      本文的算法復(fù)雜度主要涉及提取最大穩(wěn)定極值區(qū)域和篩選候選區(qū)域兩大部分。其中,篩選文本候選區(qū)域采用的是貝葉斯模型,無需進(jìn)行卷積操作,主要是對候選區(qū)域提取3個特征,求取筆畫寬度、邊緣梯度方向、拐角點(diǎn)只需要對區(qū)域內(nèi)每個像素進(jìn)行操作,因此時間復(fù)雜度為O(n),其中n為候選區(qū)域所包含的像素總數(shù)。最大穩(wěn)定極值區(qū)域的復(fù)雜度為O(Nlog logN),MSER是對按照閾值從小到大和從大到小檢測極值區(qū)域,因此每個通道提取最大穩(wěn)定極值區(qū)域的算法復(fù)雜度為O(2Nlog logN),其中N為原圖像的像素總數(shù)。

      為了直觀地證明系統(tǒng)既可以實(shí)現(xiàn)較高的檢測率,又可以實(shí)現(xiàn)較好的實(shí)時性,在RGB、HSI空間分別做實(shí)驗觀察運(yùn)行一幅圖像消耗的時間。如表3所示,系統(tǒng)在RGB通道上的檢測結(jié)果差于HSI通道的檢測結(jié)果,這與本文所分析的一致,RGB通道的亮度和顏色相關(guān),不能使系統(tǒng)達(dá)到較好的效果。系統(tǒng)在RGB和HSI六個通道上的文本檢測實(shí)現(xiàn)了最高的檢測率,處理一幅圖像的平均時間是25 ms,在HSI空間上召回率達(dá)到了71%,低于最好結(jié)果2個百分點(diǎn),但是處理一幅圖像的時間減少了一半,因此在HSI空間提取文本候選區(qū)域可以同時兼顧系統(tǒng)的檢測率和實(shí)時性。

      表3 本文算法在RGB、HSI空間的檢測結(jié)果(數(shù)據(jù)集ICDAR 2013)

      6 結(jié)語

      本文針對MSER不能檢測低對比度、背景復(fù)雜的圖像文本區(qū)域的問題,提出了一種基于色彩空間的邊緣增強(qiáng)的MSER自然場景文本檢測算法。大多數(shù)的邊緣增強(qiáng)的方法會同時增加文本區(qū)域與噪聲的對比度,本文從全新的角度思考利用方向梯度值來減小噪聲的影響,再利用色彩空間提取出更多感興趣的候選區(qū)域;本文提出的三個特征具有平移旋轉(zhuǎn)不變性,貝葉斯分類算法簡單并對字符分類有一定的精確性和魯棒性。實(shí)驗結(jié)果表明,本文所提出的方法既實(shí)現(xiàn)了較高的檢測率又有一定的實(shí)用性;但本文算法也存在一定的缺陷,如:對于一些在顏色空間對比度不明顯的圖像,即使利用HOG算子增強(qiáng)對比度,也不能獲得理想的結(jié)果;將字符組合成文本行的方法過于簡單,容易形成重復(fù)的文本行,導(dǎo)致在字符分類精確率很高的情況下得到很低的文本檢測精確率。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,將傳統(tǒng)方法與神經(jīng)網(wǎng)絡(luò)結(jié)合是一個發(fā)展方向,后期,我們將集中研究如何將本文提出的邊緣增強(qiáng)的MSER和三個特征的貝葉斯模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合,在保證系統(tǒng)實(shí)時性的同時實(shí)現(xiàn)更好的文本檢測率。

      References)

      [1] CHEN X, YUILLE A L. Detecting and reading text in natural scenes [C]// CVPR 2004: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 366-373.

      [2] NEUMANN L, MATAS J. Scene text localization and recognition with oriented stroke detection [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 97-104.

      [3] CHEN H Z, TSAI S S, SCHROTH G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions [C]// ICIP 2011: Proceedings of the 2011 IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2011: 2609-2612.

      [4] TURKI R, HALIMA M B, ALIMI A M. Scene text detection images with pyramid image and MSER enhanced [C]// ISDA 2015: Proceedings of the 2015 International Conference on Intelligent Systems Design and Applications. Piscataway, NJ: IEEE, 2015: 301-306.

      [5] AO C, BAI X, LIU W, et al. Detecting texts of arbitrary orientations in natural images [C]// CVPR 2012: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 1083-1090.

      [6] MATAS J, CHUM O, URBAN M, et al. Robust wide baseline stereo from maximally stable extremal regions [J]. Image and Vision Computing, 2004, 22(10): 761-767.

      [7] EPSHTEIN B, OFEK E, WEXLER Y. Detecting text in natural scenes with stroke width transform [C]// CVPR 2010: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2963-2970.

      [8] YIN X C, YIN X, HUANG K, et al. Robust text detection in natural scene images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(5): 970-983.

      [9] YIN X, PEI W, ZHANG J, et al. Multi-orientation scene text detection with adaptive clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1930-1937.

      [10] FORSSEN P E, LOWE D G. Shape descriptors for maximally stable extremal regions [C]// ICCV 2007: Proceedings of the 2007 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-8.

      [11] NEUMANN L, MATAS J. Real-time scene text localization and recognition [C]// CVPR 2012: Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3538-3545.

      [12] 唐有寶,卜巍,鄔向前.多層次MSER自然場景文本檢測[J].浙江大學(xué)學(xué)報(工學(xué)版),2016,50(6):1134-1140.(TANG Y B, BU W, WU X Q. Natural scene text detection based on multi-level MSER [J]. Journal of Zhejiang University (Engineering Science), 2016, 50(6): 1134-1140.)

      [13] 李鑒鴻.基于MSER的圖像文本定位的應(yīng)用研究[D].廣州:華南理工大學(xué),2015:30-41.(LI J H. Application research on text location in image based on maximally stable extremal regions [D]. Guangzhou: South China University of Technology, 2015: 30-41.)

      [14] LUCAS S M, PANARETOS A, SOSA L, et al. ICDAR 2003 robust reading competitions [C]// ICDAR 2003: Proceedings of the 2003 International Conference on Document Analysis and Recognition. Berlin: Springer, 2003: 682-687.

      [15] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition [C]// ICDAR 2013: Proceedings of the 2013 International Conference on Document Analysis and Recognition. Piscataway, NJ: IEEE, 2013: 1484-1493.

      [16] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// CVPR 2005: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2005: 886-893.

      [17] LI Y, JIA W, SHEN C, et al. Characterness: an indicator of text in the wild [J]. IEEE Transactions on Image Processing, 2014, 23(4): 1666-1677.

      [18] REN X H, ZHOU Y, HE J H, et al. A convolutional neural network-based Chinese text detection algorithm via text structure modeling [J]. IEEE Transactions on Multimedia, 2017, 19(3): 506-519.

      [19] 張國和,黃凱,張斌,等.最大穩(wěn)定極值區(qū)域與筆畫寬度變換的自然場景文本提取方法[J].西安交通大學(xué)學(xué)報,2017,51(1):135-140.(ZHANG G H, HUANG K, ZHANG B, et al. A natural scene text extraction method based on the maximum stable extremal region and stroke width transform [J]. Journal of Xi’an Jiaotong University, 2017, 51(1): 135-140.)

      [20] 楊磊.復(fù)雜背景圖像中文本檢測與定位研究[D].廣州:華南理工大學(xué),2013:57-61.(YANG L. Research on text detection and location in complex background images [D]. Guangzhou: South China University of Technology, 2013: 57-61.)

      [21] NEUMANN L, MATAS J. A method for text localization and recognition in real-world images [C]// ACCV 2010: Proceedings of the 2010 IEEE Computer Asian Conference on Computer Vision. Piscataway, NJ: IEEE, 2010: 770-783.

      FANYihua, born in 1993, M.S. candidate. Her research interests include natural language processing of image, character recognition.

      DENGDexiang, born in 1961, M.S., professor. His research interests include computer vision, target tracking.

      YANJia, born in 1983, Ph. D., lecturer. His research interests include target tracking, image quality assessment.

      猜你喜歡
      字符貝葉斯顏色
      尋找更強(qiáng)的字符映射管理器
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      貝葉斯公式及其應(yīng)用
      認(rèn)識顏色
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      特殊顏色的水
      和顏色捉迷藏
      兒童繪本(2015年8期)2015-05-25 17:55:54
      大安市| 望城县| 麻城市| 惠东县| 蒙城县| 乐清市| 福州市| 唐山市| 监利县| 滨海县| 曲阜市| 晋城| 汉沽区| 平顶山市| 平塘县| 阿拉善右旗| 无锡市| 兰州市| 荃湾区| 谢通门县| 宣城市| 合作市| 景东| 新巴尔虎右旗| 邵东县| 尖扎县| 太白县| 宝山区| 广宗县| 广德县| 鞍山市| 金湖县| 庐江县| 涪陵区| 榆树市| 隆林| 建德市| 乌什县| 和田县| 北安市| 安龙县|