宋 文,陳國龍
1.淮北師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽淮北,235000 2.宿州學(xué)院信息工程學(xué)院,安徽宿州,234000
圖像中的文本信息通常包含了圖像的高層語義內(nèi)容,為完整地理解圖像提供了重要依據(jù),捕獲并且識(shí)別這些文本信息已經(jīng)成為許多學(xué)者研究的熱點(diǎn)問題?,F(xiàn)有的文本定位方法主要有基于連通區(qū)域的定位方法[1]、基于紋理的定位方法[2]和基于邊緣的定位方法[3]。
本文提出一種基于小波和形態(tài)學(xué)的圖像文本定位方法,該方法利用小波變換實(shí)現(xiàn)文本區(qū)域的粗檢測,再通過形態(tài)學(xué)的相關(guān)技術(shù)實(shí)現(xiàn)文本區(qū)域的細(xì)定位,文本定位效果較好。
本文提出的基于小波和形態(tài)學(xué)的圖像文本定位方法主要包括如下3個(gè)部分:小波分解與重構(gòu)、基于小波的文本區(qū)域的粗檢測、基于形態(tài)學(xué)的文本區(qū)域的細(xì)定位。文本定位過程如圖1所示。
圖1 文本定位過程圖
金字塔結(jié)構(gòu)算法是小波分解的理論基礎(chǔ),該算法是對圖像進(jìn)行離散小波分解,分解過程中用到一組低通分解濾波器(L)和高通分解濾波器(H)。經(jīng)小波分解后的原始圖像依據(jù)不同的頻帶和分辨率被分解成4個(gè)子帶圖像{LL、LH、HL、HH},如圖2所示,
圖2 小波分解示意圖
其中,低頻用L表示,高頻用H表示,一級(jí)或二級(jí)小波分解用下標(biāo)1、2表示。特別指出,基于遞歸操作的思想,可對低頻子帶進(jìn)行二級(jí)小波分解,最終被分解成{LL2、LH2、HL2、HH2}共4個(gè)更精細(xì)的子帶。
4個(gè)子帶的關(guān)系如下[4]:
(1)LL:垂直和水平方向低頻子帶,該頻帶是圖像內(nèi)容的近似表達(dá),其保留了原始圖像的基本信息。
(2)LH:水平方向低頻和垂直方向高頻子帶,圖像垂直方向的灰度變化信息和邊緣信息被存放在該高頻子帶中。
(3)HL:垂直方向低頻和水平方向高頻子帶,圖像水平方向的灰度變化信息和邊緣信息被存放在該高頻子帶中。
(4)HH:垂直和水平方向高頻子帶,圖像對角線方向的高頻信息被存放在該子帶中,它除了描述水平方向和垂直方向上的圖像灰度的綜合變化信息外,還描述了少量的邊緣信息。
由以上關(guān)系可以看出,3個(gè)高頻子帶能反映出圖像在水平方向、垂直方向、對角方向的邊緣紋理信息和其他的細(xì)節(jié)特征[5],這些信息及特征為文本信息的精確定位提供了重要的依據(jù)。
由于圖像中文本信息的檢測效果在很大程度上取決于小波分解的層數(shù),分解層數(shù)少,則檢測效果差,分解層數(shù)過多,不僅會(huì)減少圖像所包含的信息,同時(shí)也會(huì)增加小波分解后特征選擇的難度,所以本文采用Biorthogonal中的雙正交小波基bior6.8對原始圖像進(jìn)行一級(jí)小波分解與重構(gòu)。
對圖3(a)進(jìn)行一級(jí)小波分解,結(jié)果如圖3(b)所示。可以看出,經(jīng)一級(jí)小波分解后的圖像中的文本區(qū)域邊緣在3個(gè)高頻子帶中都有突出顯示,并且各高頻子帶所反映的信息基本相同,但是在低頻子帶上僅僅體現(xiàn)了灰度變化不大的邊緣、紋理信息,因此本文只考慮高頻子帶。
圖3 圖像一級(jí)小波分解
因?yàn)橹豢紤]高頻子帶,所以將圖3(b)的低頻子帶的小波分解系數(shù)置成0后再進(jìn)行小波重構(gòu),結(jié)果如圖4所示,可以看出,圖像中的文本信息突出顯示,為提取文本區(qū)域奠定了基礎(chǔ)。
圖4 圖像一級(jí)小波重構(gòu)
多分辨、多分析是小波變換的最大特點(diǎn),基于這個(gè)特點(diǎn),可以選擇不同的距離(即不同的尺度)對事物進(jìn)行觀察分析,從而實(shí)現(xiàn)對事物整體輪廓和局部細(xì)節(jié)的把握。
本文對圖4分別進(jìn)行一尺度、二尺度的水平與垂直重建,結(jié)果如圖5(a)和(b)所示,相對于一尺度的水平與垂直方向小波重構(gòu)的圖像,二尺度的水平與垂直方向小波重構(gòu)后的圖像中信息的整體輪廓更加清晰,特別是文本信息的邊緣密集。
為了實(shí)現(xiàn)文本區(qū)域的粗檢測,本文采用二尺度的圖像小波重構(gòu)與形態(tài)學(xué)處理中的膨脹技術(shù)相結(jié)合的復(fù)合方法。文本區(qū)域的粗檢測的具體步驟如下:
(1)對低頻系數(shù)設(shè)置為零后重構(gòu)的圖像進(jìn)行二尺度的水平與垂直重構(gòu)。
圖5 圖像小波重構(gòu)
(2)對二尺度水平與垂直的小波重構(gòu)后的特征圖像進(jìn)行閾值二值化。圖6為對圖5(b)進(jìn)行閾值二值化的結(jié)果。
圖6 閾值二值化
(3)生成候選文本塊區(qū)域。從圖6看出,圖像中存在一些虛假的非文本區(qū)域,要想提取出真實(shí)的文本區(qū)域,需結(jié)合形態(tài)學(xué)中的膨脹技術(shù),使相鄰的文字邊緣連通起來形成連通區(qū)域塊。
圖像中的文字排列方向一般以水平或者傾斜方向排列為主,上下相鄰行的文本區(qū)域可能會(huì)粘連在一起。為此,本文采用膨脹方向?yàn)樗椒较颉⑴蛎洶霃綖?0的圓盤型結(jié)構(gòu)元素SE,對圖6進(jìn)行形態(tài)學(xué)處理,結(jié)果如圖7所示,文本區(qū)域和非文本區(qū)域都各自形成連通區(qū)域,即完成了圖像中文本區(qū)域的粗檢測。
圖7 水平膨脹后的圖像
文本區(qū)域的細(xì)定位就是剔除虛假的非文本連通區(qū)域,細(xì)定位的過程如下:
(1)利用bwlabel函數(shù)將圖7中的所有的連通分量標(biāo)記出來。
(2)通過regionprops函數(shù)計(jì)算出圖像中各連通區(qū)域中像素的總個(gè)數(shù)。
(3)按照循環(huán)遍歷的方法遍歷每個(gè)連通區(qū)域中的所有像素,把非文本連通域中的像素用黑色表示,從而剔除圖像中那些非文本區(qū)域,如圖8所示。
(4)提取圖8中的文本連通區(qū)域并進(jìn)行外接矩形標(biāo)定,最終完成文本區(qū)域的細(xì)定位,結(jié)果如圖9所示。
圖8 去除虛假的非文本區(qū)域 圖9 文本區(qū)域定位結(jié)果
將本文提出的基于小波和形態(tài)學(xué)的圖像文本定位方法與基于邊緣的方法進(jìn)行比較,可以看出,基于邊緣的文本區(qū)域定位方法將文本區(qū)域標(biāo)記出來的同時(shí)也將一些非文本區(qū)域標(biāo)記出來,顯然提取的文本區(qū)域不夠準(zhǔn)確,而本文的方法很好地實(shí)現(xiàn)了文本區(qū)域的定位。
圖10 實(shí)驗(yàn)結(jié)果分析
針對圖像中文本定位問題,本文提出一種基于小波和形態(tài)學(xué)的圖像文本定位方法。與基于邊緣的圖像文本定位方法相比,本文方法所提取的文本區(qū)域的背景干凈,更好地完成了文本與背景的分離,取得了較好的定位效果。
參考文獻(xiàn):
[1]Song Yan,Liu An-an,Pang Lin.A novel image text extraction method based on k-means clustering[C]//Portland,OR:Seventh IEEE ACIS International Conference on Computer and Information Science,2008:185-190
[2]Tebourbi R,Belhadj Z.A texture based multispectral images indexing[C].Tunisia:12th IEEE International Conference on Eletronics,Circuits and Systems,Gammarth,2005:1-4
[3]Shivakumar P,Huang Weihua,Chew L T.An efficient edge based technique for text detection in video frames[C]//Nara:The Eighth IAPR International Workshop on Document Analysis Systems,2008:307-314
[4]沈慶華,李樹濤,李怡.基于小波變換和形態(tài)學(xué)的復(fù)雜背景文本定位[C]//張家界:第二十六屆中國控制會(huì)議論文集,2007:467-471
[5]王麗,盧迪,呂劍飛.一種基于小波方向?qū)Ρ榷鹊亩嗑劢箞D像融合方法[J].中國圖象圖形學(xué)報(bào),2008,13(1):145-150