賈坤昊 夾尚豐 楊栩 余振軍 蔡麗杰 李志國 孫林
摘 要:文本二值化是光學字符識別的關鍵技術,但在光照不均的情況下,采用傳統(tǒng)全局閾值二值化在圖像過亮或暗區(qū)域情況下會造成大量文字信息丟失,因此通常采用局部閾值二值化方法。Niblack二值化是一種經典的局部閾值法,能夠提取全部文字信息,缺點是存在大量偽影,且運算效率低,但優(yōu)點是方法簡單,易于實現(xiàn)。針對Niblack算法存在的問題,提出一種基于鄰域信息的Niblack算法。該算法結合像素點空間八鄰域灰度信息,能自適應調整閾值,逐點進行二值化處理,從而基本消除了偽影,并使用積分圖法使運算時間從30s降低到3s,同時運用形態(tài)學腐蝕操作對筆畫進行增強。實驗結果表明,與傳統(tǒng)Niblack、Sauvola等算法相比,在光照不均條件下,該方法圖像噪聲少、速度快,筆畫更清晰,且更易于識別。
關鍵詞:二值化;Niblack算法;圖像分割;閾值選取;積分圖
DOI:10. 11907/rjdk. 191109
中圖分類號:TP312文獻標識碼:A文章編號:1672-7800(2019)004-0082-05
0 引言
文本圖像二值化[1-2]是提取圖像文本信息的重要步驟,也是保證圖像文本信息提取質量的前提。文本圖像分割效果決定著提取信息量的大小及準確度。因文本圖像目標區(qū)域與背景區(qū)域灰度級差別明顯,所以通常利用閾值化方法[3-6]進行圖像分割。閾值法分為全局閾值法[7]與局部閾值法[8-11]。全局閾值法根據(jù)文本圖像直方圖或灰度空間分布確定一個閾值,算法較為簡單,對于目標和背景明顯分離、直方圖分布呈雙峰的圖像效果良好,但對光照不均勻、噪聲干擾較大的圖像,二值化效果則明顯變差。局部閾值法通過定義考察點的鄰域,并根據(jù)鄰域計算模板對考察點灰度與鄰域點進行比較,根據(jù)區(qū)域灰度分布特性,自適應調節(jié)閾值,但缺點也十分明顯,如存在偽影現(xiàn)象、運算速度慢等。
Niblack算法[12]最早于1896年提出,是局部閾值法中較為常用的方法之一。趙天雪等[13]在視頻文本圖像增強算法研究中,對Niblack算法公式中的偏移量進行改進,通過加入概率系數(shù),增加了背景或前景分離出來的可能性; 吳留生等[14]在基于Niblack的手掌靜脈圖像二值化研究中,結合Niblack算法與局部靜態(tài)閾值方法,降低了偽影及斷紋出現(xiàn)的概率,但需要先將圖像分成6塊,并進行分塊處理; 申森等[15]對槍號圖像二值化進行研究,利用小波包將低通圖像作為二值化閾值進行處理,并與Niblack算法獲得的二值化圖像進行融合,很好地實現(xiàn)了槍號圖像的二值化,但由于其提出的算法應用小波濾波器的分解與重構,增加了一些計算量,執(zhí)行時間有所延長;卜飛宇[16]針對字符斷裂和偽影問題,對Niblack算法閾值計算公式進行改進,但由于光照不均的暗區(qū)域相機噪點灰度值接近目標點灰度值,所以僅根據(jù)像素灰度值作為判斷依據(jù)并不能有效去除此類偽影;Guo等[17]在Niblack動態(tài)閾值分割法基礎上,結合形態(tài)學開閉運算,獲得失真較小的靜脈圖像;Nandy等[18]對Niblack和Sauvola兩種二值化技術在視網膜血管分割中的應用進行對比分析;Li等[19]提出一種基于閾值分割Niblack算法的陶瓷瓶表面缺陷可視化檢測方法。
本文在文獻[16]基礎上,根據(jù)點與八鄰域點的關系,對其計算公式進行改進,使其能夠自適應調整局部閾值。相較于文獻[16],本文方法結合了像素點八鄰域之間的空間關系,對孤立噪點進行二次判別,不僅消除了常規(guī)偽影, 也基本消除了由暗區(qū)域相機噪點產生的偽影,并且保留了足夠的文本信息,使文本圖像更加清晰,且更易于識別;在速度方面,結合積分圖法大大加快了算法速度,加速后所用運算時間僅為原算法的1/10。因此,本文提出算法在光照不均的文本圖像分割上可取得更好效果。
1 Niblack算法及改進
Niblack算法中,對圖像的每一個像素點,在大小為w×w的鄰域窗口[20-21]中求取所有點的灰度均值及方差,再以下式計算每個點的閾值:
Niblack算法通過逐點計算確定閾值,其計算量較大,導致運算速度較慢。當鄰域窗口在大片背景區(qū)域移動時,根據(jù)算法公式,必然有點的灰度值小于均值m(x,y),且s(x,y)較小,減去0.2×s(x,y)后結果依然小于T(x,y),則被判定為目標點。大量背景點被判定為目標點,則形成了偽影,偽影的出現(xiàn)對后續(xù)文本信息提取帶來不利影響。依據(jù)偽影產生的原因,只要通過合理方式適當減小閾值T(x,y),使背景點灰度值不會小于閾值,即可消除偽影,同時保留足夠的圖像信息。
本文主要從提高運算速度與盡量有效地消除偽影兩方面對Niblack算法進行改進,在提高運算速度方面,結合全局閾值并利用積分圖法進行加速; 在消除偽影方面,通過改進計算公式的方法進行偽影消除。
1.1 積分圖法提高運算速度
Niblack算法運算速度較慢,主要由于該算法需遍歷圖像中每一個點,逐點計算窗口鄰域的像素均值及標準差,而且需要重復求和,計算量較大。若采用積分圖法,則可避免重復求和計算,從而大大減少了運算量。對于一幅灰度圖像,積分圖[22]中任意一點(x,y)的值是指從圖像左上角到該點所構成矩形區(qū)域內所有點的灰度值之和。
式(5)中M(x,y)為該點灰度值,Mmin為該點八鄰域內灰度最小值,Mmax為該點八鄰域內灰度最大值。p的取值在2~10之間,若該點灰度值與八鄰域各點灰度值越相近,該點是噪點的可能性越小,則p接近于10,閾值僅略微減小,不會將目標黑色區(qū)域判定為白色; 若該點灰度值與八鄰域各點灰度值差別越大,該點是噪點的可能性越大,則p值越接近于2,閾值越小,會將黑色噪點判定為白色背景區(qū)域,可以消除噪點。二值化閾值T(x,y)隨該點與八鄰域各點的差異大小動態(tài)變化,可起到消除噪點的作用,同時目標區(qū)域因不是孤立點受影響較小,保留了足夠的圖像信息。但仍有少數(shù)目標點被作為噪點消除,影響了成像效果,最后利用形態(tài)學腐蝕處理后,圖像取得了更清晰的效果,如圖4所示。
2 實驗結果分析
實驗所用的兩張圖像大小分別為780×1 040(見圖5)、1 040×780(見圖6),實驗在CPU為Intel(R)Core(TM)i3-6100 3.70GHz的臺式機上進行,編譯軟件為Visual Studio 2013。
對兩張光照不均的文本照片分別采用OTSU(最大類間方差法)算法、Niblack算法、文獻[16]提出的算法、VFCM算法[23]、Sauvola算法與本文方法進行實驗對比。
圖5(b)、圖6(b)與圖5(c)、圖6(c)相比可以看出,因光照不均,圖像在不同區(qū)域的背景灰度值差異較大,而采用局部閾值的Niblack算法提取的文本信息量多于全局閾值的OTSU算法,能夠顯示全部目標文字區(qū)域,但存在大量明顯的偽影。
圖5(c)、圖6(c)與圖5(d)、圖6(d)相比可以看出,文獻[16]提出的改進Niblack算法中基本消除了常規(guī)偽影,但在圖5(d)、圖6(d)中可以發(fā)現(xiàn),在原圖像暗區(qū)域存在大量相機噪點產生的偽影,文獻[16]算法公式未對光照不均的暗區(qū)域噪點偽影進行單獨討論,沒有消除在較暗區(qū)域中相機噪點產生的偽影。
圖5(e)、圖6(e)、圖5(f)、圖6(f)與圖5(g)、圖6(g)相比可看出,VFCM算法在較暗區(qū)域噪聲明顯,而Sauvola算法在較暗區(qū)域也存在部分偽影無法消除的現(xiàn)象。
圖5(d)、圖6(d)與圖5(g)、圖6(g)相比可以看出,因本文算法通過對噪點八鄰域特點的分析,采用噪點相關系數(shù)p改進了算法公式,解決了常規(guī)偽影與噪點偽影的問題,并運用形態(tài)學腐蝕算法得到更清晰的成像效果。由表1可以看出,本文算法相較于原算法也較大程度上縮短了時間,從原本的30s左右縮短到3s左右,且成像效果最佳。
3 結語
本文主要工作是對光照不均條件下的文本圖像進行二值化處理,提出一種基于Niblack算法改進的局部閾值法,對Niblack算法偽影產生的原因進行討論,并根據(jù)相關原因對公式進行改進,從而消除了偽影。針對之前改進Niblack算法在光照不均條件下,文本圖像暗區(qū)域在進行二值化處理后,依然存在相機噪點形成的偽影不能消除的問題,通過分析噪點、非噪點灰度值與八鄰域點灰度值的差異,對計算公式再次進行改進,添加了動態(tài)調節(jié)系數(shù),使閾值能夠根據(jù)像素點與八鄰域點灰度值的差值大?。ㄈ舨钪递^大則視為噪點)進行自適應調節(jié),消除了在光照不均時暗區(qū)域相機噪點產生的偽影; 通過分析算法計算過程,發(fā)現(xiàn)重復求和計算影響計算效率的問題,因此采用積分圖法避免了重復求和計算,提高了運算速度;最后對圖像進行形態(tài)學腐蝕處理,以增強成像效果,使文字信息更加清晰。從實驗結果可以看出,本文提出的改進算法消除噪聲的效果優(yōu)于傳統(tǒng)算法,運算速度也得到了大幅提升,可廣泛運用于光照不均條件下文本圖像的二值化處理。
為了盡量消除噪聲,本文雖然利用形態(tài)學方法進行了效果增強,但仍不可避免地會丟失少量字符信息,影響后續(xù)識別效果。因此,在盡可能消除噪聲的前提下,如何保留更多文字信息,是下一步需要研究的方向。
參考文獻:
[1] NATARAJAN J,SREEDEVI I. Enhancement of ancient manuscript images by log based binarization technique[J]. AEU-International Journal of Electronics and Communications, 2017, 75: 15-22.
[2] SU B, LU S, TAN C L. Robust document image binarization technique for degraded document images[J]. IEEE Transactions on Image Processing, 2013, 22(4):1408.
[3] WANG Y S. A new image threshold segmentation based on fuzzy entropy and improved intelligent optimization algorithm[J]. Journal of Multimedia,2014.
[4] KITTLER J,ILLINGWORTH J. On threshold selection using clustering criteria[J]. Systems Man & Cybernetics IEEE Transactions on, 1985(5): 652-655.
[5] NTIROGIANNIS K,GATOS B,PRATIKAKIS I. A combined approach for the binarization of handwritten document images[M]. Elsevier Science Inc,2014.
[6] WAGDY M,F(xiàn)AYE I,ROHAYA D. Fast and efficient document image clean up and binarization based on retinex theory[C]. IEEE, International Colloquium on Signal Processing and ITS Applications. IEEE, 2013:58-62.
[7] SMITH P,REID D B,ENVIRONMENT C,et al. A threshold selection method from gray-level histograms[J]. Systems Man & Cybernetics IEEE Transactions on, 1979, 9(1): 62-66.
[8] THEPADE S,DAS R,GHOSH S. A novel feature extraction technique using binarization of bit planes for content based image classification[J]. Journal of Engineering, 2014.
[9] HEMA S K. To detect the text stroke in degraded document images using canny's map, binarization technique[J]. International Journal of Engineering Sciences & Research Technology, 2014.
[10] SAUVOLA J,PIETIK?INEN M. Adaptive document image binarization[J]. Pattern Recognition, 2000,33(2):225-236.
[11] BLAYVAS I,BRUCKSTEIN A,KIMMEL R. Efficient computation of adaptive threshold surfaces for image binarization[J]. Pattern Recognition, 2006, 39(1): 89-101.
[12] NIBLACK W. An introduction to digital image processing[C]. Advances in Computer Graphics Vi, Images: Synthesis, Analysis, and Interaction. Springer-Verlag, 1986: 205-267.
[13] 趙天雪,孫光民,許爽. 視頻文本圖像增強算法研究[J]. 微計算機信息,2007(33): 193-194,179.
[14] 吳留生,陳家新,黎蔚. 基于Niblack的手掌靜脈圖像二值化技術研究[J]. 通信技術,2010,43(1): 112-114.
[15] 申森,李艾華,姚良,等. 基于小波包和Niblack法的槍號圖像二值化算法[J]. 光子學報, 2013, 42(3): 354-358.
[16] 卜飛宇. 一種改進的文本圖像二值化方法[J]. 電腦知識與技術,2014,10(12): 2822-2824,2840.
[17] 江明,劉輝,黃歡. 圖像二值化技術的研究[J]. 軟件導刊,2009(4):175-177.
[18] NANDY M, BANERJEE M. A comparative analysis of application of Niblack and Sauvola binarization to retinal vessel segmentation[C].International Conference on Computational Intelligence and Networks,IEEE Computer Society, 2017:105-109.
[19] LI L Y,ZHANG X W,LI W T,et al. Visual inspection method of ceramic bottle surface defects based on Niblack optimization[J]. Computer Science and Engineering,2017.
[20] BATAINEH B,ABDULLAH S N H S,OMAR K. An adaptive local binarization method for document images based on a novel thresholding method and dynamic Windows[J]. Pattern Recognition Letters, 2011, 32(14):1805-1813.
[21] 李倩. 文檔圖像的二值化算法綜述[J]. 中國傳媒大學學報:自然科學版,2008,15(4): 66-70.
[22] 黃文杰, 陳斌. 一種快速圖像處理的積分圖方法[J]. 計算機應用,2005(S1): 266-268.
[23] 童立靖,陳侃,付曉玲,等. 文檔圖像二值化算法VFCM[J]. 計算機工程與設計,2009,30(13):3216-3218,3243.
(責任編輯:黃 ?。?/p>