杜 媛
(西安職業(yè)技術(shù)學院 西安 710077)
基于二維Gabor濾波與機器視覺的字符圖像識別算法?
杜 媛
(西安職業(yè)技術(shù)學院 西安 710077)
為了解決字符識別算法在噪聲、文本旋轉(zhuǎn)下出現(xiàn)識別不準確的問題。論文提出了基于二維Gabor濾波與機器視覺的字符識別算法,從圖像預處理和特征提取分析這兩個模塊展開分析。首先,搭建視覺采集硬件平臺,采集原始字符圖像。然后通過鄰域像素灰度信息迭代,有效降低噪聲,以提高字符圖像質(zhì)量,通過霍夫直線檢測完成圖像旋轉(zhuǎn)角度計算和圖像校正,達到準確定位字符區(qū)域的目的。然后,通過二維Gabor濾波得到字符圖像的紋理特征,采用歐式距離構(gòu)建分類標準,達到準確識別字符的目的。實驗測試數(shù)據(jù)表明:與當前識別機制相比,在面對噪聲與文本旋轉(zhuǎn)干擾條件下,論文算法具有更高的識別準確率與魯棒性。
字符識別;計算機視覺;Gabor濾波;圖像校正;霍夫直線檢測;歐式距離
以科技驅(qū)動經(jīng)濟,以技術(shù)領(lǐng)先市場已經(jīng)成為各行業(yè)的共識,特別是計算機視覺技術(shù)更是眾多先進技術(shù)的聚焦[1]。視覺領(lǐng)域廣泛,其中應用最廣泛的就是文字識別,因為文字識別本身是人類社會文明的基石,如何利用計算機技術(shù)代替人眼實現(xiàn)文字識別,提高社會效率,已經(jīng)成為當下推動經(jīng)濟前進的關(guān)鍵技術(shù)[2~3]。文字識別已經(jīng)應用很多場合:身份證自動識別、名片文本自動讀取器、火車票識別系統(tǒng)等等。但是當字符背景存在噪聲干擾、圖像角度旋轉(zhuǎn)時,往往導致算法不能準確定位字符,甚至識別錯誤[4]。國內(nèi)科技公司也相繼推出基于計算機視覺的字符識別系統(tǒng),但是當碰到以上干擾時,往往會大幅度影響系統(tǒng)準確度和穩(wěn)定性,本文基于這樣的背景,從改善圖像質(zhì)量,提高定位成功率,達到準確識別字符目的。
在字符識別方面,國內(nèi)研究人員已經(jīng)將計算機視覺技術(shù)引入到該領(lǐng)域中,對其展開研究,如肖誠求[5]提出了基于稀疏編碼直方圖的TSM識別場景文本算法,構(gòu)建以稀疏編碼直方圖(HSC)為底層特征的基于部件的樹結(jié)構(gòu)模型(HSC-TSM)識別場景文本,將K-SVD學習字典用于計算稀疏編碼,逐像素地將稀疏編碼聚合成HSC,描述文字的局部外觀信息,通過奇異值分解對HSC進行降維,避免信息丟失,達到字符識別目的。但是,此技術(shù)未充分考慮圖像源存在噪聲和角度不正干擾,往往在此情況下影響了識別效果。劉勇華[6]提出了以主觀線索為特征的主觀性文本識別,提出以主觀線索為特征的主觀性文本識別方法,選取關(guān)聯(lián)詞、情感詞以及指示性動詞、感嘆詞、程度副詞、帶有情感色彩的標點符號等6種主觀線索特征作為主觀性文本識別依據(jù),建立主觀線索特征詞表,用樸素貝葉斯分類器,達到了字符識別目的。但是,此技術(shù)未充分考慮選取特征的客觀性,往往存在識別率很低的問題。
本文提出了基于二維Gabor濾波與機器視覺的字符識別算法,首先,(對存在噪聲、角度干擾的圖像展開分析,通過區(qū)域信息迭代降噪方法、霍夫直線檢測達到字符圖像質(zhì)量提高和校正目的。然后通過二維Gabor濾波器提取紋理特征,基于歐式距離公式完成字符分類。最后,整合算法,編程驗證,測試了本文算法的字符識別性能。
圖1 本文字符識別算法的樣本與過程
本文算法對帶有字符的卡片材料進行識別,采用工業(yè)相機采集圖像,環(huán)形光源正面打光,底部載盤為快速轉(zhuǎn)盤,以傳感器觸發(fā)相機完成圖像采集,硬件結(jié)構(gòu)如圖1(a)所示。系統(tǒng)軟件架構(gòu)分為:基于圖像預處理的字符圖像定位、基于特征提取分析的分類識別。字符定位:采用鄰域像素灰度信息迭代,達到去噪目的;采用霍夫直線檢測,達到旋轉(zhuǎn)角度計算和圖像校正目的;采用形態(tài)學閉運算對二值圖像進行線性處理,達到字符圖像精定位目的。識別模塊:采用Gabor提取字符圖像紋理特征(均值、方差、能量、熵、慣量和相關(guān)一致性),經(jīng)過歐式距離公式計算,達到字符識別的目的,系統(tǒng)軟件架構(gòu)如圖1(b)所示,采集到的圖像如圖2所示。
圖2 待處理圖
在圖像數(shù)據(jù)采集中,難免混入椒鹽噪聲,噪聲來源光電轉(zhuǎn)換自帶噪聲和電機轉(zhuǎn)盤高速運轉(zhuǎn)產(chǎn)生磁場噪聲。首先需要對圖像進行降噪處理,為了充分消除噪聲,本文提出鄰域信息迭代降噪技術(shù),通過噪聲點的八鄰域相似性,加權(quán)濾波去噪,當噪聲點八鄰域信息不滿足去噪條件時,該噪聲點不處理,在后續(xù)迭代中,鄰域信息滿足條件時再處理。八鄰域如下所示:
Ω ={(k,l)|X(k,l)≠ X(i,j),|k-i|≤ 1,|l-j|≤ 1}(1)式中X(i,j)為噪聲點,Ω代表噪聲點的八鄰域,以八鄰域中的八個點為中心建立3*3窗口,其分別與(i,j)為中心建立的3*3窗口比較[7]。接著引入下式評價塊與塊之間的相似性:
KL(a||b)=aloga/b+(1-a)log(1-a)/(1-b)(2)
該式基于相對熵提出,a、b代表待評價相似度的兩個鄰域塊,兩個鄰域塊越相似,值越小,以計算出的相似度為權(quán)值,每個鄰域乘以自身權(quán)值累加求和后替代噪聲點[8]。如圖2所示為帶有噪聲的原圖,經(jīng)過本文降噪處理后如圖3所示,可見噪聲已被有效去除。得到降噪圖像后,需要對字符圖像進行旋轉(zhuǎn)較正,本文以霍夫直線檢測得到字符卡片邊緣角度,霍夫變換是利用兩個坐標空間之間的變換,將問題由檢測任意形狀轉(zhuǎn)換為統(tǒng)計峰值問題,主體任務是將直角坐標系下的直線方程中系數(shù)和變量交換,即完成直角坐標到極坐標的轉(zhuǎn)換,霍夫直線檢測模型如下:
式中極坐標(p,θ)將多條直線相交于一點,如果是同一直線上點,滿足直線條件的可以檢出,得到直線取直線上兩點計算斜率,以此作為旋轉(zhuǎn)校正角度,如圖4所示,檢出直線用綠色標注,同時圖像旋轉(zhuǎn)較正。接著進行字符區(qū)域精定位,在二值化的基礎(chǔ)上,引入閉運算,填充目標內(nèi)部狹窄的裂縫和長細的窄溝,消除小的空洞[9],采取集合方法描述如下:
式中A為原圖,B為形態(tài)學結(jié)構(gòu)分子(5*5單位矩陣),圖像中像素被平移的結(jié)構(gòu)元素B覆蓋時的公共點,突出字符邊緣區(qū)域,經(jīng)過處理如圖5(a)所示,可見準確定位字符區(qū)域,以此提取字符區(qū)域,如圖5(b)所示,作為后續(xù)特征提取的基礎(chǔ)數(shù)據(jù)。
圖3 去噪效果圖
圖4 角度旋轉(zhuǎn)校正效果圖
圖5 目標圖像中的字符提取
提取字符區(qū)域后,開始特征提取,本文主要從紋理特征、出發(fā)分析,因為單純依靠字符結(jié)構(gòu)特征和統(tǒng)計特征,不足以區(qū)分字符,為了進一步增強系統(tǒng)細分性能,本文采取基于Gabor的紋理特征提取,二維Gabort特征提取可以達到空間域和頻率域的局部最優(yōu)化。Gabor濾波器函數(shù)如下:
式中G為二維Gabor濾波器函數(shù),f為圖像函數(shù),由于Gabor具有非常好的時域局部特征,且適用于人的視覺通道。二維Gabor濾波在紋理分析中廣泛使用[10],接著以字符圖像與二維Gabor濾波器進行卷積處理:
式中I(x,y)代表字符圖像函數(shù),G代表Gabor函數(shù),此輸出可以描述圖像字符紋理特征,他們是均值、方差、能量、熵、慣量及局部統(tǒng)一性[11~12]。
均值公式如下:
u為均值,I為經(jīng)過Gabor卷積處理的結(jié)果,m,n為圖像長寬[11]。方差公式如下:
σ為方差,I為經(jīng)過Gabor卷積處理的結(jié)果,m,n為圖像長寬。能量公式如下:
Eg為能量,G為Gabor濾波器,m,n為圖像長寬。熵公式如下:
Et為熵,G為Gabor濾波器。慣量公式如下:
J為慣量,G為Gabor濾波器。局部統(tǒng)一性公式如下:
H為局部統(tǒng)一性,G為Gabor濾波器。最后采用歐式距離公式作為特征分類器,歐式:
式中(X,Y)代表特征標準,(x,y)代表待確定的特征,根據(jù)最近原則,將字符特征分類,并計入分類器結(jié)果。經(jīng)過處理,如圖6所示,可見本文方法識別正確。
圖6 字符識別結(jié)果圖
本文機制采用帶有圖像預處理與特征提取分析的字符識別算法,同時搭建硬件系統(tǒng)(工業(yè)相機、鏡頭、光源、轉(zhuǎn)盤和傳感器)對字符進行取像。本文將軟硬件系統(tǒng)都進行實現(xiàn),并選取目前字符識別性能較好的文獻[5]、文獻[6]兩種技術(shù)做實驗對比,待處理原圖為7。實驗參數(shù):噪聲比(0.8)、結(jié)構(gòu)分子(3*3單位矩陣)、均值(87)、方差(0.9)。
圖7 待處理原圖
本機制采用客觀的相機采集,精確的圖像處理算法,對每一個字符進行自動降噪,去噪結(jié)果如圖8所示,可見達到了去噪目的。本文采用霍夫變換定為字符材料直線邊緣,并校正圖像,如圖9(a)所示,可見達到了補償旋轉(zhuǎn)角度,把字符擺正的目的。利用字符形態(tài)學,采用閉運算,提取字符區(qū)域,達到定位字符目的,如圖9(b)所示。最后提取紋理特征,經(jīng)過歐式距離分類器,得到準確的識別結(jié)果,如圖9(c)所示。
而利用文獻[5]對圖7進行識別時,因此技術(shù)未充分考慮圖像源存在噪聲和角度不正干擾,往往在此情況下影響了識別效果。如圖10(a)所示,字符定位錯誤,如圖10(b)所示,識別功能無效。
圖8 去噪效果圖
圖9 本文算法的字符識別結(jié)果
圖11 文獻[6]算法的字符識別測試
利用文獻[6]對圖7進行識別時,此技術(shù)未充分考慮選取特征的客觀性,往往存在識別率很低的問題。如圖11(a)所示,字符定位勉強滿意,如圖11(b)所示,識別錯誤。
為了實現(xiàn)用計算機視覺自動識別字符材料,從而改善傳統(tǒng)字符識別抗干擾性能差、識別不穩(wěn)定的問題。本文首先對硬件打光進行檢討,采集出完整的字符圖像。然后設(shè)計出基于鄰域信息迭代降噪方法、基于霍夫變換的圖像校正技術(shù)、基于Gabor的字符紋理特征提取技術(shù)、基于歐氏距離的分類器識別,并用編程實現(xiàn)。實驗結(jié)果表明:與傳統(tǒng)機制相比,本文機制具有更好的識別精度和魯棒性。
[1]Meng-Han Hu,Qing-Li Dong,Pradeep K.Malakar.Deter?mining Banana Size Based on Computer Vision[J].Inter?national Journal of Food Properties,2015,18(3):508-520.
[2]楊美妮.不規(guī)則文本中商品名稱識別的特征選擇[J].計算機工程與科學,2015,11(17):96-99.YANG Meini.Feature selection of commodity name recog?nition in irregular texts[J].Computer engineering and sci?ence,2015,11(17):96-99.
[3]W.Y.Liu,J.L.Jiang.A new Chinese character recogni?tion approach based on the fuzzy clustering analysis[J].Neural Computing and Applications,2014,25(2):421-428.
[4]álvarez D.,F(xiàn)ernández R.,Sánchez L.Stroke-based intel?ligent character recognition using a deterministic finite au?tomaton[J].Logic Journal of IGPL,2015,23(3):463-471.
[5]肖誠求.基于稀疏編碼直方圖的TSM識別場景文本算法[J].計算機工程與設(shè)計,2016,23(2):171-176.XIAO Chengqiu.TSM scene text recognition algorithm based on sparse coding histogram[J].Computer engineer?ing and design,2016,23(2):171-176.
[6]劉勇華.以主觀線索為特征的主觀性文本識別[J].計算機工程與設(shè)計,2016,18(15):42-47.LIU Yonghua.Subjective text recognition based on subjec?tive cues[J].Computer engineering and design,2016,18(5):42-47.
[7]屈亞運,程英蕾,邱浪波.改進的八鄰域搜索提取建筑物立體特征方法[J].計算機工程與應用,2015,23(4):66-69.QU Yayun,CHENG Yinglei,QIU Langbo.Improved eight neighborhood search method for building stereo feature[J].computer engineering and applications,2015,23(4):66-69.
[8]Evans Gary W.The mediating roles of Neighborhood char?acteristics and physical activity[J].Social Science&Med?icine,2012,75(3):477-81.
[9] Huiling Hou,Cunsuo Pang,Hualing Guo.Study on high-speed and multi-target detection algorithm based on STFT and FRFT combination[J].Optik-International Journal for Light and Electron Optics,2016,127(2):713-717.
[10]M.N.Sumaiya,R.Shantha Selva Kumari.Gabor filter based change detection in SAR images by KI thresholding[J].Optik-International Journal for Light and Electron Optics,2016,130(2):114-122.
[11]霍光.基于二維Gabor濾波的虹膜特征表達及識別方法研究[D].長春:吉林大學,2016:26-29.HUO Guang.Iris feature representation and recognition based on 2D Gabor filtering[D].Changchun:Jilin Uni?versity,2016:26-29.
[12]Fei He,Yuanning Liu,Xiaodong Zhu.Multiple local fea?ture representations and their fusion based on an SVR model for iris recognition using optimized Gabor filters[J].EURASIP Journal on Advances in Signal Process?ing,2014(1):1-7.
Research and Application on the Character Recognition Algorithm Based on Machine Vision and Two-Dimensional Gabor Filter
DU Yuan
(Xi'an Vocation and Technology College,Xi'an 710077)
In order to solve the character recognition algorithm in noise,identify inaccurate problem under text rotation.Char?acter recognition algorithm based on computer vision is proposed in this paper,from the image preprocessing and feature extraction and analysis of the two analysis module.First of all,visual acquisition hardware platform is created,the original character image is collected.Then through iterative neighborhood information noise reduction the quality of character image is improved,by hoff straight line detection the image rotation angle calculation and correction are completed to achieve the purpose of accurate position?ing character area.Then,by 2D Gabor filter to get the texture feature of character image,the classification criteria of Euclidean dis?tance was used to construct and achieve the purpose of accurate identification character.Experimental test data show that compared with the traditional recognition mechanism,this mechanism has higher recognition and robustness.
character recognition,computer vision,Gabor filter,image correction,hof line detection,euclidean distance
Class Number TP391
TP391
10.3969/j.issn.1672-9722.2017.12.041
2017年6月8日,
2017年7月30日
杜媛,女,碩士,講師,研究方向:圖像處理,目標識別,計算機應用。