李志明
摘 要:通過光學(xué)字符識別技術(shù)可將紙質(zhì)文檔內(nèi)容快速轉(zhuǎn)換為可編輯電子文檔,該技術(shù)識別的準(zhǔn)確率與掃描文檔圖像質(zhì)量的好壞緊密相關(guān)。對紙質(zhì)文檔掃描或拍照時不可避免的會產(chǎn)生文檔圖像傾斜的現(xiàn)象,為了保證光學(xué)字符識別技術(shù)識別的準(zhǔn)確度,對文檔圖像進(jìn)行傾斜校正是非常有必要的。文中針對傳統(tǒng)文檔圖像傾斜校正算法對文檔圖像中存在圖片區(qū)域干擾時校正精度低的問題,提出了一種基于Radon變換的改進(jìn)算法。該算法首先將預(yù)處理后的文檔圖像進(jìn)行分塊,并利用Radon變換計算各子塊圖像的傾斜角所對應(yīng)的Radon曲線;其次,結(jié)合文本行子塊與圖片子塊的Radon曲線的周期性差異,再利用傅里葉變換求功率譜密度將圖片子塊檢測出來并排除;最后,利用Radon對已排除圖片區(qū)域干擾的文檔圖像進(jìn)行傾斜角檢測并校正。實驗結(jié)果表明,該改進(jìn)算法能將傾斜文檔圖像中的絕大多數(shù)圖片干擾排除,從而使傾斜校正精度得到提高。
關(guān)鍵詞:文檔圖像處理;傾斜校正;傅里葉變換;Radon變換
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2016)07-00-04
0 引 言
文檔圖像處理通過光學(xué)字符識別技術(shù)(Optical Character Recognition,OCR)對文檔圖像進(jìn)行相應(yīng)處理,以達(dá)到對文檔圖像中的文字、圖片和圖表等信息進(jìn)行分析和識別的目的。然而,在利用數(shù)碼相機或掃描儀等圖像獲取設(shè)備將紙質(zhì)文檔轉(zhuǎn)換為數(shù)字圖像的過程中,因掃描設(shè)備機械缺陷或人為因素不可避免的會使文檔圖像發(fā)生傾斜。為提高OCR技術(shù)識別的準(zhǔn)確率,對傾斜的文檔圖像進(jìn)行校正很有必要。由于文檔圖像版面結(jié)構(gòu)的復(fù)雜性,建立一種通用的傾斜文檔圖像校正算法非常困難。如何高效、準(zhǔn)確地檢測出文檔圖像的傾斜角是成功實現(xiàn)傾斜校正的關(guān)鍵。當(dāng)前,科研人員已開發(fā)了多種不同的文檔傾斜校正算法,包括基于Hough變換的校正算法[1-3]、基于Fourier變換的校正法[4]、基于特征點最小距離擬合的文檔圖像傾斜檢測[5]、基于交叉關(guān)聯(lián)校正算法[6]、基于投影的文檔圖像傾斜校正方法[7]以及k-最近鄰簇校正法[8,9]等。其中,Hough變換校正算法的思想是將圖像空間變換到參數(shù)空間,使得圖像空間中的直線被映射到參數(shù)空間的一點,而圖像空間中的一點則對應(yīng)參數(shù)空間的一條正弦曲線;圖像空間中的任意兩點所對應(yīng)的正弦曲線在參數(shù)空間中相交于一點,通過上述兩點所在直線的點對應(yīng)的正弦曲線在參數(shù)空間中都相交于該交點。利用上述特性可將圖像空間中直線檢測問題轉(zhuǎn)換為求參數(shù)空間中局部最大值的問題?;贔ourier變換的校正算法利用文檔頁面傾斜角與Fourier空間密度最大值的對應(yīng)特性實現(xiàn)檢測計算,由于對文檔圖像中的全部像素進(jìn)行計算,運算量非常大,因此目前使用較少。交叉關(guān)聯(lián)算法是基于等距離豎直(水平)平行線上像素點相關(guān)性設(shè)計的,該算法先以平行線上像素點來建立相關(guān)矩陣,然后對相關(guān)矩陣在豎直方向上進(jìn)行投影,投影圖的全局最大值與文檔圖像的傾斜角對應(yīng);由于相關(guān)矩陣的計算量非常大,且要確定全局最大值,某些情況下還需回溯計算相關(guān)矩陣和投影,進(jìn)一步增加了計算量。k-最近鄰簇校正法通過計算所有連通區(qū)域的中心點的k個最近鄰確定出每對近鄰點的矢量方向,并統(tǒng)計生成直方圖,直方圖的峰值就對應(yīng)于整個文檔圖像的傾角。通過實驗分析發(fā)現(xiàn),利用以上算法對純文本行圖像進(jìn)行處理時,算法檢測精度較高,當(dāng)文檔中存在圖片區(qū)域時,圖片區(qū)域的干擾導(dǎo)致算法精度降低。此外,從算法設(shè)計原理可以看出,上述算法都存在計算量大的問題。
針對傳統(tǒng)傾斜文檔圖像校正算法處理包含圖片區(qū)域的文檔圖像時檢測精度低的問題,提出了一種基于Radon變換的改進(jìn)算法,并通過實驗驗證了該算法對圖片區(qū)域干擾的排除效果以及算法檢測精度。
1 算法原理
1.1 基于Radon變換的傳統(tǒng)校正算法
Radon變換利用投影積分的思想,沿著某條特定直線求積分,并將積分值投影到Radon變換平面上,該積分結(jié)果又被稱為Radon曲線,由該直線與圖像坐標(biāo)系原點的距離和傾斜角共同確定,Radon變換示意圖如圖1所示。文檔圖像沿θ方向的Radon曲線可表示為:
其中,f(x,y)為初始文檔圖像,g(s,θ)為Radon曲線。
基于Radon變換原理實現(xiàn)傾斜文檔校正的一般思路如下:
(1)圖像預(yù)處理:通過圖像二值化、邊緣檢測等手段提取同一行文本的邊框;
(2)傾斜角檢測:對步驟(1)中的結(jié)果進(jìn)行Radon變換,求出文檔圖像對應(yīng)的傾斜角;
(3)傾斜校正:將原始文檔旋轉(zhuǎn)相應(yīng)角度,完成傾斜校正。然而,同其它傾斜校正算法類似,此算法對文檔中包含大量純文本行時檢測精度較高,當(dāng)文檔圖像中存在圖片區(qū)域時,Radon曲線將由文本行和圖片區(qū)域像素點積分累積獲得;當(dāng)圖片區(qū)域所占像素點較多時,會導(dǎo)致Radon曲線峰值所對應(yīng)的投影角度較大地偏離文檔圖像的真實傾斜角,從而導(dǎo)致校正算法失效。因此,開發(fā)一種對文檔圖像中的圖片區(qū)域干擾免疫效果更強的檢測算法很有必要。
1.2 改進(jìn)算法
將文檔的先驗知識與Radon變換檢測算法相結(jié)合,從Radon變換出發(fā),結(jié)合文檔圖像內(nèi)容特征對傳統(tǒng)的Radon變換校正算法進(jìn)行改進(jìn),以提高算法的精度。對包含圖片區(qū)域的傾斜文檔圖像進(jìn)行分析:
對純文本行區(qū)域而言,每行文字的大小和間距是確定的,故沿著垂直于文字行的方向來看,文本區(qū)域呈現(xiàn)周期性特征;對圖片區(qū)域而言,通常圖片中各像素點的信息分布不具有周期性,是隨機的。根據(jù)文本行區(qū)域的周期特征和圖片區(qū)域的隨機特征,可利用數(shù)字信號處理技術(shù)將圖片區(qū)域識別出來并排除,再利用Radon變換對消除圖片干擾的文檔圖像進(jìn)行檢測和校正[10,11]。算法具體實現(xiàn)步驟如下:
(1)圖像預(yù)處理
因受外界因素的干擾,獲取的文檔圖像中通常包含噪聲,故在對傾斜文檔圖像進(jìn)行處理前需要對其進(jìn)行預(yù)處理,包括圖像平滑、二值化及邊緣檢測等步驟。圖像平滑可消除圖像采集過程中的高頻噪聲,主要有鄰域平均法、中值濾波法和選擇式掩膜平滑法等。二值化圖像可反映圖像的整體和局部特征,選擇合適的閾值方能將文檔圖像較好地轉(zhuǎn)化為二值圖像。常用的二值化方法有全局閾值法、自適應(yīng)閾值法和局部自適應(yīng)閾值法等。邊緣檢測的實質(zhì)是提取圖像中對象與背景的交界線,可采用差分、梯度、拉普拉斯算子及高通濾波等方法對圖像進(jìn)行邊緣檢測,常用的檢測算子有梯度算子、拉普拉斯算子、Sobel算子和Canny算子[12]等。
(2)圖像分塊
結(jié)合被處理文檔圖像中文本行區(qū)域和圖片區(qū)域的分布特征,將被處理文檔圖像分成M×N個子塊,如8×8。圖像分塊時應(yīng)確保絕大多數(shù)圖片區(qū)域為單獨子塊,以確保后續(xù)算法能將這些僅包含圖片區(qū)域的子塊盡可能地排除。
(3)計算各子塊傾斜角所對應(yīng)的Radon曲線
利用Radon變換分別對所有子塊圖像進(jìn)行處理,求出各子塊圖像的傾斜角及其對應(yīng)的Radon曲線。若子塊圖像為純文本行,其傾斜角對應(yīng)的Radon變換投影方向正交于文本行方向,Radon曲線呈周期性分布;若子塊為圖片區(qū)域,對應(yīng)的Radon曲線將是非周期的;若子塊為空白區(qū)域,對應(yīng)的Radon曲線為一條直線。
(4)排除圖片區(qū)域子塊
從上文分析可知,純文本行子塊所對應(yīng)的Radon曲線是周期信號,圖片子塊所對應(yīng)的Radon曲線是隨機變換的。因此,可將純文本行子塊和圖片子塊的識別問題轉(zhuǎn)換為周期信號和非周期信號處理的問題。從數(shù)字信號處理角度入手,對周期信號進(jìn)行傅里葉變換求其功率譜密度(周期-功率),可提取出信號周期[13,14]。利用此原理,對所有子塊圖像對應(yīng)的Radon曲線進(jìn)行傅里葉變換求其功率譜密度,周期-功率曲線中的最大峰值對應(yīng)的橫坐標(biāo)即為信號周期。利用統(tǒng)計學(xué)分析手段,對所有子塊的“周期值”進(jìn)行分析,獲得文本行子塊的周期,從而達(dá)到識別文本行子塊和圖片子塊的目的。在此基礎(chǔ)上,將識別出的圖片子塊所有像素點置零,以消除圖片區(qū)域?qū)z測算法的干擾。特別地,部分子塊同時包含文本行區(qū)域和圖片區(qū)域,此時若文本行區(qū)域占比較大,則該子塊將會保留,若圖片區(qū)域占比較大則會被排除。通過上述方法可將文檔中的絕大多數(shù)圖片區(qū)域排除,僅剩余的少許圖片邊界將不會對后續(xù)檢測結(jié)果產(chǎn)生明顯干擾。
(5)子塊圖像合并與補零
排除圖片子塊干擾后,將所有子塊圖像按照分割序號重新合并。此外,因子塊圖像劃分時部分外圍空白邊界區(qū)域被截斷舍去,需將合并后的子塊外圍所對應(yīng)的截斷區(qū)域進(jìn)行補零,確保合并圖像與原始文檔圖像大小相同。
(6)傾斜校正
利用Radon變換對合并圖像進(jìn)行處理,求出其對應(yīng)的傾斜角,并對其進(jìn)行旋轉(zhuǎn)校正。圖2所示為改進(jìn)算法的流程示意圖。
2 實驗結(jié)果與分析
選取一幀沒有傾斜且包含圖片的文檔圖像,并旋轉(zhuǎn)不同角度得到傾斜圖像,利用這些傾斜文檔圖像對提出的算法進(jìn)行驗證。驗證實驗基于Matlab 2009a平臺展開,計算機配置為主頻3.1 GHz的Intel雙核CPU、4 GB RAM。圖3所示為傾斜15度的樣本圖像及其預(yù)處理結(jié)果。圖3(a)~(d)分別為傾斜文檔圖像、二值化圖像、邊緣檢測結(jié)果以及劃分子塊結(jié)果。其中,圖像二值化閾值計算采用最大類間方差法,邊緣檢測采用canny算子。為確保盡可能多的圖片區(qū)域被消除,將該文檔圖像劃分為64個子塊。
圖4所示為四種不同特征子塊區(qū)域,其功率譜密度如圖5所示。圖4(a)代表空白子塊,其功率譜密度曲線如圖5(a)所示,為一條直線;圖4(b)所示為純文本行子塊,故所對應(yīng)的Radon曲線是周期信號,圖5(b)所示的功率譜密度曲線中最大峰值的橫坐標(biāo)即為該信號周期;圖4(c)所示為圖片子塊,與之對應(yīng)的Radon變換曲線是非周期信號,其功率譜密度曲線如圖5(c)所示,可以看出,圖片子塊的Radon曲線功率譜密度中不存在周期特征峰;圖4(d)所示子塊同時包含文本行區(qū)域和圖片區(qū)域,因圖片邊界方向與文本行同向,故從圖5(d)所示的功率譜密度曲線中仍能準(zhǔn)確求出信號周期。因此,可采用上述手段將所有子塊中的圖片子塊找出并排除。
圖6(a)所示為排除圖片子塊干擾后將所有子塊合并的結(jié)果,可以看出,文檔中的絕大多數(shù)圖片區(qū)域已被排除,部分圖片因其邊界與文本行同向而不能被徹底排除,但是不會對后續(xù)檢測結(jié)果產(chǎn)生明顯干擾。圖6(b)所示為傾斜校正后的文檔圖像。
此外,為進(jìn)一步驗證提出算法的檢測精度,將提出的算法與Hough變換算法及傳統(tǒng)Radon變換算法進(jìn)行比較,其結(jié)果如表1所列。從表1可以看出,因文檔中存在圖片干擾,Hough變換算法和傳統(tǒng)Radon變換算法的檢測誤差遠(yuǎn)大于提出的算法。提出算法的最大絕對誤差為0.07°,最小絕對誤差為0.01°,多組測試結(jié)果對應(yīng)的標(biāo)準(zhǔn)誤差為0.024°。實驗證明,提出的算法能較好地排除文檔圖像中的圖片干擾,算法檢測精度較高。此外,提出的算法因兩次進(jìn)行Radon變換計算,運算量相對于傳統(tǒng)Radon變換算法翻倍,這在一定程度上增加了時間成本。
3 結(jié) 語
文中提出了一種基于Radon變換的文檔圖像傾斜校正改進(jìn)算法,利用圖像分塊和傅里葉變換求功率譜密度等手段,可將文檔中的圖片區(qū)域干擾盡可能地排除。實驗結(jié)果表明,該算法對文檔圖像中的圖片區(qū)域干擾免疫能力強,檢測精度高,為文檔圖像后續(xù)階段的處理奠定了良好的基礎(chǔ)。
參考文獻(xiàn)
[1]周冠瑋,平西建,程娟.基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J].計算機應(yīng)用,2007,27(7):1813-1816.
[2] Nandini N,Srikanta M K,Kumar G H.Estimation of skew angle inbinary document images using hough transform[Z].World Academy of Science,Engineering and Technology,2008.
[3] Chandan Singh,Nitin Bhatia,Amandeep Raur.Hough transform based fast skew detection and accurate skew correction methods[J]. Pattern Recognition,2008,41:3528-3546.
[4]蔣海波.掃描圖像的傾斜校正、分割與壓縮[D].濟南:山東大學(xué),2012.
[5]吳一全,謝靜.基于特征點最小距離擬合的文檔圖像傾斜檢測[J].光學(xué)技術(shù),2009,35(1):152-155.
[6]吳飛飛.文本圖像傾斜校正算法的研究與應(yīng)用[D].北京:北方工業(yè)大學(xué),2014.
[7]張順利,李衛(wèi)斌,吉軍.基于投影的文檔圖像傾斜校正方法[J].計算機工程與應(yīng)用,2010(3):166-168.
[8] L.J. Tong,Y.Zhang,H.Q. Zhao.A Warped Document Image Mosaicing Method Based on Registration and TRS Transform[C].2011 IEEE/ACIS 10th International Conference on Computer and Information Science (ICIS) ,2011.
[9] KUMAR V,BANSAL A.Sparse document image coding for restoration[C].12th International Conference on Document Analysis and Recognition (ICDAR),2013.
[10] Gaofeng Meng,Chunhong Pan,Nanning Zheng,et al.Skew estimation of document images using bagging[J].IEEE Transactions on Image Processing,2010,19(7):1837-1846.
[11] L.G. Miao,Y.J. Yue.Automatic document image mosaicing algorithm with hand-held camera[C].2011 2nd International Conference on Intelligent Control and Information Processing (ICICIP),2011.
[12]馬歌.基于Canny算子和Radon變換的證件圖像傾斜校正[J].中國新技術(shù)新產(chǎn)品,2014(15):14-15.
[13] Manjunath Aradhya V N,Hemantha Kumar G,Shivakumara P.Skew Detection Technique for Binary Document Images based on Hough Transform[J].international journal of information technology,2007(3).
[14] Doermann D,Liang Jian,Li Huiping.Progress in camera-based document image analysis[C].Proc of the 7thInter-national Conference on Document Analysis and Recognition ,2003.