摘 要:針對文本圖像中的文字難以提取分割的問題,文章提出了一種基于連通域的算法。算法通過連通域閥值分析,將文本塊聯(lián)通,繼而將文字成功分割。實驗結(jié)果表明本算法能快速準(zhǔn)確地分割文字。
關(guān)鍵詞:文本圖像;連通域;文字分割
中圖分類號:TP391.4
隨著WWW網(wǎng)頁中圖片的大量使用,以及圖像、視頻數(shù)據(jù)庫的廣泛應(yīng)用,使得圖像成為另一種重要的信息載體。Loprest指出,互聯(lián)網(wǎng)上許多文字是嵌入在圖像中的,而且大部分文字并沒有在HTML網(wǎng)頁的其他地方重復(fù)出現(xiàn)。[1]如何經(jīng)過計算機處理從這些圖片中重新獲取原來的文字信息則成了一個難題。為了解決這一問題,需要對圖片進行一定的處理。圖像灰度化、圖像二值化和單字域擴充等。將彩色圖像轉(zhuǎn)化為灰度圖像的過程稱為圖像灰度化。選取合適的分割閥值是圖像二值化的重要步驟,針對圖像像素的閾值選取方法可分為全局閾值算法和局部閾值算法兩類。全局閾值算法是根據(jù)整幅圖像選取一個固定的閾值將圖像二值化。常用的全局閾值算法有大律法等。局部閥值算法是將圖像劃分為若干個子圖像再確定其閥值。常用的局部閥值法有Bemsen算法等。[2]
本算法通過灰度化將普通圖像轉(zhuǎn)化為灰度圖片,將經(jīng)過灰度化的圖片進行二值化處理,此時圖片呈現(xiàn)出明顯的只有黑和白的視覺效果。將顏色相同且相鄰的黑白區(qū)域相連使文字塊連通,將圖片中的文字分割。
1 連通域文字分割的特征分析
1.1 概念介紹
(1)連通域。連通域是數(shù)學(xué)中最基本的一個概念,一般定義形式為:空間E(有限維的或是無窮維的)中區(qū)域D稱為單連通的,如果任何一條屬于D的簡單連續(xù)閉曲線,都能連續(xù)收縮到D中預(yù)先指定的任何一點,在收縮過程中曲線始終是閉的、且完全屬于D。
(2)二值化。一幅圖像包括目標(biāo)物體、背景還有噪聲,要想從數(shù)字圖像中直接提取出目標(biāo)物體,最常用的方法就是設(shè)定一個閾值T,用T將圖像的數(shù)據(jù)分成兩部分:大于T的像素群和小于T的像素群。這是研究灰度變換的最特殊的方法,稱為圖像的二值化(BINARIZATION)。[3]
(3)圖像的二值化。就是將圖像上的像素點的灰度值設(shè)置為0或255,也就是將整個圖像呈現(xiàn)出明顯的只有黑和白的視覺效果。二值化是圖像處理的基本操作,任何圖像處理基本離不開二值化的操作。其應(yīng)用非常廣泛。
(4)文字識別。文字識別一般包括文字信息的采集、信息的分析與處理、信息的分類判別等幾個部分。
(5)信息采集。將紙面上的文字灰度變換成電信號,輸入到計算機中去。實驗主要依靠照相機實現(xiàn)。
(6)信息分析和處理。對變換后的電信號消除各種由于印刷質(zhì)量、紙質(zhì)(均勻性、污點等)或書寫工具等因素所造成的噪音和干擾,進行大小、偏轉(zhuǎn)、濃淡、粗細等各種正規(guī)化處理。
(7)信息的分類判別。對去掉噪聲并正規(guī)化后的文字信息進行分類判別,以輸出識別結(jié)果。
(8)平均灰度值。平均灰度反映了灰度圖像的亮度。
1.2 特征分析
在一張圖像上整體劃分為文字區(qū)和背景區(qū),對圖像進行了模糊操作后,可以形成許多大的連通區(qū)域,這時候,就可以通過同一分欄區(qū)域連通的性質(zhì)以及分析連通域的位置關(guān)系對圖像進行分割.首先用邊緣檢測算子對輸入圖像f(x,y)進行邊緣提取,這樣每一個功能區(qū)域均可以用一個閉合曲線表示出來。對得到的邊緣圖像進行二值化處理,得到二值邊緣圖像.每個連通集即為一個連通區(qū)域的邊緣曲線,可以用連通集的連通空間來近似地表示出該區(qū)域。[4]這時候得到的連通集,并不是每一個都能表示一個功能分欄,有的只是區(qū)域的內(nèi)部邊緣對于水平近鄰的高度近似且連通面積比較小的連通域,還可以進一步合并.最后得到的連通集個數(shù)即為版面圖像的分欄個數(shù),各連通集的連通空間即為版面各分欄的外接矩形。[5]
2 基于連通域的文字分割處理
2.1 基于上述的特征分析
圖1 算法流程圖
基本思路:首先把載入的圖像進行灰度化,然后把圖像二值化,使圖像顯示為黑白方塊,通過判斷顏色找到相連的黑色塊,把相連無間斷的黑色塊視為同一個區(qū)域,從而把文字劃分為多個區(qū)域,之后把不同區(qū)域進行連通,從而實現(xiàn)文字分割。算法流程如圖1所示。
Step1:求出每個像素點的R,G,B三個分量的平均值,然后將這個平均值賦予給這個像素的三個分量,存在數(shù)組中。
Step2:利用大津算法按圖像的灰度特性,將圖像分成白色背景和目標(biāo)(黑色文字)兩部分。
Step3:指針指向第一個像素點(黑色方塊)對其標(biāo)號1,并讀取其周圍的8個像素點,同時把與其相鄰的黑色方塊標(biāo)記為1,指針指向下一像素點,重復(fù)操作,當(dāng)出現(xiàn)空白行列則標(biāo)號2(依次遞增),當(dāng)相鄰的標(biāo)號有不同時,取其最小。
Step4:利用記錄下來的最外延的黑色方塊坐標(biāo),通過比較求出方框的長寬大小。
2.2 結(jié)果分析
通過本算法處理后的文字,能夠比較快的實現(xiàn)文字的分割處理,與其他一些文字分割處理算法相比,識別率相對較高。實際效果如圖2所示。
為了使實驗數(shù)據(jù)更具有說服力,均選取文字分布較為均勻的樣張,黑白像素比例不存在極高或極低的情況,經(jīng)過一百多張樣本測試,表明本文算法在時間性能和識別率上都有較大改善,結(jié)果見表1。[6]
3 結(jié)束語
通過構(gòu)造連通域可以有效的對文字進行切割。這種切割方法相對于一般方法來說,不僅速度快而且識別度強。對于文檔圖像的整體信息進行考慮,連通域文字分割技術(shù)應(yīng)用范圍較廣泛,無論是簡單的版面還是較為復(fù)雜的版面都適用,有利于處理各種圖片。從實驗結(jié)果看,本文算法對漢字的分割效果較好,但英文文字的分割效果稍差,還有待改進。本文的下一部將研究適應(yīng)性更強的判決標(biāo)準(zhǔn)以分割更多種類的文字。
參考文獻:
[1]Zhou J Y,Lopresti D.Extracting Text from WWW Images,IN;Proc of the 4th International Coference on Document Analysis and Recognition.Ulm,Germany,1997:248-252.
[2]孫少林,馬志強,湯偉.灰度圖像二值化算法研究[J].價值工程,2010(05).
[3]易劍,彭宇新,肖建國.一種圖片文字分割的方法[A].全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C],2007.
[4]郭麗,黃元元,楊靜宇.基于連通域的版面分割研究[J].南京理工大學(xué)學(xué)報(自然科學(xué)版),2003(01).
[5]李良旭,張哲,孫高祥.一種光照不均文字圖像的校正算法[J].電腦與信息技術(shù),2014(02).
[6]朱亞平.基于K均值聚類的文字分割算法研究與實現(xiàn)[J].計算機光盤軟件與應(yīng)用,2013(02).
作者簡介:林孜陽(1995.06-),男,本科在讀,研究方向:圖像處理;穆雪(1995.02-),女,本科在讀,研究方向:圖像處理。
作者單位:北方工業(yè)大學(xué)信息工程學(xué)院,北京 100144
基金項目:本研究是國家科技支撐項目(項目編號:2009BA171B02)的內(nèi)容延續(xù),并受國家級大學(xué)生創(chuàng)業(yè)計劃項目的資助。