劉劍飛 石翔宇 杜子俊 孫源辰 王敬烜
摘 要:針對(duì)低質(zhì)量的退化文檔存在文字污染、受自然侵蝕等情況,提出一種基于背景估計(jì)和最大類間方差法的二值化算法。首先對(duì)原圖用加權(quán)平均值與平均值混合法灰度化進(jìn)行預(yù)處理;然后對(duì)灰度化處理后的圖像進(jìn)行兩次形態(tài)學(xué)閉操作估計(jì)圖像背景,計(jì)算背景估計(jì)圖與灰度圖的絕對(duì)差值,確定前景像素候選點(diǎn),取反,再對(duì)圖像進(jìn)行對(duì)比度增強(qiáng)得到背景刪減圖;最后利用最大方差類間法進(jìn)行二值化處理。實(shí)驗(yàn)結(jié)果表明,本文算法的綜合性能優(yōu)于傳統(tǒng)的最大類間方差二值化算法,從視覺(jué)效果來(lái)看,本文算法的二值分割較為精準(zhǔn),提升了經(jīng)典算法處理受污染文檔圖像的精確度。
關(guān)鍵詞:文本圖像二值化;灰度化;背景估計(jì);最大類間方差法
一 緒論
1.1 算法研究背景及意義
文字是人類文明傳承的媒介,如今隨著科學(xué)的飛速發(fā)展,信息流通方式不再拘泥于紙張,人們可以通過(guò)獲取大量數(shù)字化的文本信息。古典書(shū)籍受外界物理?xiàng)l件或人為因素的影響,使得珍貴文獻(xiàn)難以保存,研究機(jī)構(gòu)將書(shū)籍電子化,相比于傳統(tǒng)文檔,具有更環(huán)保、傳播范圍更廣以及耐儲(chǔ)存的優(yōu)勢(shì)。
二值化屬于數(shù)字圖像處理的基礎(chǔ)技術(shù),已被應(yīng)用于醫(yī)學(xué)影像分析、工業(yè)缺陷檢測(cè)、光學(xué)字符識(shí)別、遙感圖像觀測(cè)以及智能交通管理等領(lǐng)域。圖像二值化將關(guān)鍵信息與背景分離,從而達(dá)到排除干擾、減少分析量的目的。一種優(yōu)秀的圖像二值化解決方案,在光學(xué)字符識(shí)別以及復(fù)雜背景圖像分割領(lǐng)域中均起到關(guān)鍵作用,諸多形態(tài)學(xué)圖像分割算法需要將二值圖像的輪廓作為輸入,以便分析前景信息,因此二值化準(zhǔn)確率對(duì)后續(xù)的解析與識(shí)別有較大關(guān)聯(lián)性。
受到外界或人為因素的影響,文檔圖像存在多種退化因素,如古籍文檔在發(fā)掘時(shí)遭受到自然的侵蝕,使得文字被模糊與浸染,在拍攝、掃描文檔時(shí),現(xiàn)場(chǎng)光照分布不均勻,導(dǎo)致文字信息與背景區(qū)分度較小。雖然文檔圖像二值化已被研究多年,但針對(duì)不同類型的退化情況建模難度較大,因此歷史文檔圖像閾值處理方法仍然需要不斷地優(yōu)化改進(jìn)。
考慮到現(xiàn)有圖像二值化算法的局限性,未能適用多種類型的退化情況,因此要找到一種擁有語(yǔ)言通用性更強(qiáng)、魯棒性更高的文檔圖像二值化算法,具有重要的實(shí)際應(yīng)用意義。
1.2 二值化國(guó)內(nèi)外研究現(xiàn)狀
低質(zhì)量歷史文檔圖像二值化成為近年來(lái)國(guó)內(nèi)外研究的關(guān)注熱點(diǎn),目前文檔圖像二值化依據(jù)閾值計(jì)算方式不同,大致分全局閾值分割法、局部閾值分割法和混合閾值分割法。由于低質(zhì)量歷史文檔圖像含有多種退化因素,各種二值化方法都未能較好地解決二值分割問(wèn)題,因此歷史文檔圖像二值化算法仍是研究的難點(diǎn)。
1.3研究?jī)?nèi)容及創(chuàng)新點(diǎn)
本文針對(duì)退化文本存在污染的問(wèn)題,提出了一種結(jié)合加權(quán)平均值與平均值混合法灰度化、背景估計(jì)和最大類間方差法的退化文本圖像二值化的處理方法。
二 算法介紹
2.1 算法框架
2.2 加權(quán)平均值與平均值混合法灰度化
數(shù)字圖像通過(guò)顏色空間模型承載圖像的信息分布,如一幅彩色的掃描文檔圖像,如圖2.2所示。
灰度化算法能夠?qū)⒏呔S數(shù)據(jù)映射至低維空間,并通過(guò)單維度圖像的梯度特征結(jié)構(gòu),反映出原始圖像的顏色信息,避免依次處理圖像各通道分量,從而降低算法冗余度。 目前灰度化算法有最大值法、平均值法、加權(quán)平均法等,本文采用加權(quán)平均與平均值混合法對(duì)圖像進(jìn)行灰度化處理。
相較傳統(tǒng)的最大值法、平均值法、加權(quán)平均值法。圖2.3的字符與背景的對(duì)比度更加明顯,同時(shí)經(jīng)過(guò)加權(quán)平均值與平均值混合法灰度化處理的圖像,在二值化后,字符前景基本保持完整,僅有少量噪聲。
所以本文采用加權(quán)平均值與平均值混合法對(duì)文檔圖像做灰度化處理。
2.3 背景估計(jì)
低質(zhì)量文檔圖像由于含有墨跡浸潤(rùn)、字符褪色等復(fù)雜情況,造成受污染區(qū)域字符與背景之間的灰度值較為接近,在墨跡的邊緣處產(chǎn)生較強(qiáng)的灰度突變,從而導(dǎo)致算法將污漬像素點(diǎn)錯(cuò)判為前景,如圖2.4所示。
本文通過(guò)形態(tài)學(xué)操作背景估計(jì)方法削弱污漬對(duì)文檔圖像的影響。
2.4圖像背景移除
圖像形態(tài)學(xué)操作是基于形狀的一系列圖像處理操作的集合,主要是基于集合論基礎(chǔ)上的形態(tài)學(xué)數(shù)學(xué)。
本文采用兩次形態(tài)學(xué)閉操作來(lái)對(duì)圖像進(jìn)行背景估計(jì)。筆畫(huà)結(jié)構(gòu)屬于文檔圖像獨(dú)有的特征,字符的結(jié)構(gòu)元半徑依賴于筆畫(huà)粗細(xì),因此第一次閉操作需要估計(jì)出圖像的字符寬度,本文采用筆畫(huà)寬度變換方法(Stroke Width Transform, SWT)估計(jì)字符寬度。
第二次閉操作比第一次閉操作的結(jié)構(gòu)元增加△d。關(guān)于△d的選取,本文將2008年至2018
年國(guó)際文本圖像二值化競(jìng)賽的數(shù)據(jù),作為訓(xùn)練集,依次對(duì)進(jìn)行取值。依據(jù)測(cè)試結(jié)果,當(dāng)△d取12時(shí),F(xiàn)M值較高為。所以本文選用12為?d的值。
圖像經(jīng)過(guò)兩次形態(tài)學(xué)閉操處理作后,可以大致估計(jì)出文檔圖像的背景,得到原圖的背景估計(jì)圖像fbg,如圖2.5所示。計(jì)算估計(jì)背景圖像fbg與灰度圖像fgray的絕對(duì)差值結(jié)果,得到背景刪減文檔圖像fdiff,如圖2.6所示,此時(shí)圖像中白色的點(diǎn)屬于前景像素候選點(diǎn),對(duì)圖像fdiff取反,得到背景去除圖像fnegate,如圖2.7所示。最后在對(duì)圖像fnegate做對(duì)比度增強(qiáng),得到對(duì)比度增強(qiáng)圖像feq,如圖2.8所示。
最大類間方差法二值化處理
最大類間方差法是一種自適應(yīng)閾值確定的方法,是一種基于全局的二值化算法。它是按圖像的灰度特性,將圖像分成背景和字符兩部分。背景和字符之間的類間方差越大,說(shuō)明構(gòu)成圖像的兩部分的差別越大,當(dāng)部分字符錯(cuò)分為背景或部分背景錯(cuò)分為字符都會(huì)導(dǎo)致兩部分差別變小。因此,使類間方差最大的分割意味著錯(cuò)分概率最小。
最大類間方差算法,算法簡(jiǎn)單,當(dāng)目標(biāo)與背景的面積相差不大時(shí),能夠有效地對(duì)圖像進(jìn)行分割。
三 實(shí)驗(yàn)結(jié)果與分析
本文方法,對(duì)比傳統(tǒng)的基于最大類間方差法,主要區(qū)別在于圖像灰度化時(shí),采用了加權(quán)平均值與平均值混合法對(duì)原圖進(jìn)行灰度化。減小了前景像素間的灰度值差異,增強(qiáng)了對(duì)比度。
下圖是本文算法與傳統(tǒng)算法得到的結(jié)果的對(duì)比圖。
由圖3.2可見(jiàn),左側(cè)為本文算法效果圖,右側(cè)為傳統(tǒng)最大類間方差算法的效果圖。本文算法在處理有污漬的效果圖時(shí),文檔和圖像的分割更為準(zhǔn)確。在精確分離文檔和圖像的同時(shí),又能很好的去除噪聲、抑制污染、并保留字符筆畫(huà)??梢?jiàn)本文算法優(yōu)于傳統(tǒng)的最大類間方差法。
四、結(jié)語(yǔ)
本文提出了一個(gè)結(jié)合加權(quán)平均值與平均值混合法灰度化與最大類間方差法的二值化算法,該算法能有效的處理受污染的文本圖像,并通過(guò)實(shí)驗(yàn)比較與視覺(jué)對(duì)比,該算法要優(yōu)于傳統(tǒng)的最大類間方差法。
參考文獻(xiàn):
[1]? 岡薩雷斯.數(shù)字圖像處理(第三版)[M],電子工業(yè)出版社,2011:479-483.(GONGZALEZ. Digital image processing (third edition)[M],Publishing House of Electronics Industry,2011:479-483)
[2] Gatos B, Ntirogiannis K, Pratikakis I.? ICDAR 2009 document image binarization contest
(DIBCO 2009) [C]// Proceedings of the 10th International Conference on Document Analysis
and Recognition, Barcelona, SPAIN, 2009: 1375-1382.
[3] Pratikakis I, Gatos B, Ntirogiannis K. H-DIBCO 2010 handwritten document image binarization competition[C]// Proceedings of the 12th International Conference on Frontiers in Handwriting Recognition, Kolkata, INDIA, 2010: 727-732.
[4] Pratikakis I, Gatos B, Ntirogiannis K. ICDAR 2011 document image binarization contest (DIBCO 2011) [C]// Proceedings of the 11th International Conference on Document Analysis and Recognition, Beijing, CHINA, 2011: 1506-1510.
[5] Pratikakis I, Gatos B, Ntirogiannis K. ICFHR 2012 competition on handwritten document image binarization (H-DIBCO 2012) [C]// Proceedings of the 13th International Conference on Frontiers in Handwriting Recognition, Monopoli, ITALY, 2012: 817-822.
[6]Pratikakis I, Gatos B, Ntirogiannis K. ICDAR 2013 document image binarization contest
(DIBCO 2013) [C]// Proceedings of the 12th International Conference on Document Analysis
and Recognition, Washington, DC, USA, 2013: 1471-1476.
[7] Ntirogiannis K, Gatos B, Pratikakis I. ICFHR2014 competition on handwritten document image binarization (H-DIBCO 2014) [C]//Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition, Hersonissos, Greece, 2014: 809-813.
[8] Pratikakis I, Zagoris K, Barlas G, et al. ICFHR2016 handwritten document image binarization
contest (H-DIBCO 2016) [C]// Proceedings of the 15th International Conference on Frontiers in Handwriting Recognition, Shenzhen, CHINA, 2016: 619-623.
[9] Pratikakis I, Zagoris K, Barlas G, et al. ICDAR2017 competition on document image binarization (DIBCO 2017) [C]// Proceedings of the 14th International Conference on Document Analysis and Recognition, Kyoto, JAPAN, 2017: 1395-1403.
[10] Pratikakis I, Zagoris K, Kaddas P, et al. ICFHR2018 competition on handwritten document image binarization (H-DIBCO 2018) [C]// Proceedings of the 16th International Conference on Frontiers in Handwriting Recognition, Niagara Falls, USA, 2018: 489-493.
[11] Eskenazi S, Petra G K, Ogier J M. A comprehensive survey of mostly textual document segmentation algorithms since 2008[J]. Pattern Recognition, 2017, 64(1): 1-14.
[12] 熊煒. 基于背景估計(jì)和能量最小化的文檔圖像處理.? 湖北工業(yè)大學(xué), 2018.
[13] Ma J, Sheridan R P, Liaw A, et al. Deep neural nets as a method for quantitative structure–activity relationships[J]. Journal of Chemical Information and Modeling, 2015, 55(2): 263-274.