孫孝坤,黃繼風(fēng)
?
國際音標(biāo)圖像字符細(xì)化方法
孫孝坤,黃繼風(fēng)
(上海師范大學(xué)信息與機(jī)電工程學(xué)院,上海 200234)
對圖像文字進(jìn)行細(xì)化有助于突出文字的形狀特點和減少冗余的信息量,在文字識別領(lǐng)域有著重要的應(yīng)用。在分析研究傳統(tǒng)細(xì)化算法后,針對傳統(tǒng)細(xì)化出現(xiàn)的畸變、細(xì)化不完全現(xiàn)象,提出了一種對國際音標(biāo)圖像字符的細(xì)化方法。該算法通過對文字區(qū)域的邊緣分類標(biāo)記,并判斷被標(biāo)記點是否滿足可去除條件,然后逐步去除邊緣像素點,最終能讓國際音標(biāo)圖像字符的寬度細(xì)化到一個像素寬度。針對國際音標(biāo)圖像字符的實驗表明,該算法能夠準(zhǔn)確地對國際音標(biāo)圖像字符進(jìn)行細(xì)化,且簡單高效。
圖像;國際音標(biāo);字符;細(xì)化
隨著國際化的發(fā)展,各個國家之間的交流越來越密切,為了更好地溝通,需要一種統(tǒng)一的語音系統(tǒng),國際音標(biāo)就是記錄所有語音的統(tǒng)一音標(biāo)。國際音標(biāo)的產(chǎn)生是世界優(yōu)秀文化的結(jié)晶,閃爍著世界人民智慧的光芒。然而,如何把大量傳統(tǒng)紙質(zhì)文獻(xiàn)中的國際音標(biāo)進(jìn)行數(shù)字化,是一個比較復(fù)雜而龐大的工程。對這些文獻(xiàn)進(jìn)行數(shù)字化最常見的手段是先對文獻(xiàn)進(jìn)行掃描,然后再對數(shù)字圖片字符直接進(jìn)行識別,這種方法對文字字符不但不能準(zhǔn)確地識別,而且會大大降低識別的效率。對圖像字符進(jìn)行細(xì)化可以有效地解決這些問題,因為細(xì)化的目的是得到圖像文字的骨架,去除圖像上多余的像素,從而突出圖像文字的主要特征。對數(shù)量龐大的國際音標(biāo)圖像字符進(jìn)行細(xì)化,不但會提高識別準(zhǔn)確度,還會提高識別速度,進(jìn)而提高工作效率。提取識別圖像中的文字信息,是把圖像信息轉(zhuǎn)化為文本信息的一個重要組成部分。而對圖像文字細(xì)化又是提取識別圖像中文字信息的首要工作,并且對圖像文字細(xì)化的好壞將直接影響圖像文字識別的準(zhǔn)確與否,所以圖像文字的細(xì)化是圖像文字識別與再存儲領(lǐng)域的一個重要的研究方向。
現(xiàn)有的細(xì)化算法如文獻(xiàn)[1]采用了ZS算法;文獻(xiàn)[2]歸納和分析了多種經(jīng)典細(xì)化方法。關(guān)于細(xì)化方面的算法最近幾年有:文獻(xiàn)[3]使用的擊中-擊不中方法和文獻(xiàn)[4-5]提出的細(xì)化方法,但這些方法均是對指紋進(jìn)行細(xì)化的,而針對字符的新的細(xì)化算法卻很少出現(xiàn);文獻(xiàn)[6]提出了一種廣義的草書和非草書文字細(xì)化算法;文獻(xiàn)[7]提出了一種手寫體文字細(xì)化方法;文獻(xiàn)[8]對15種細(xì)化算法進(jìn)行了測評,但這些方法也均不是針對音標(biāo)字符細(xì)化設(shè)計的。由于國際音標(biāo)字符字跡的粗細(xì)不同,弧線部分較多且弧度也不同,字跡交叉、鏈接也是各種各樣的,用現(xiàn)有的一些細(xì)化算法進(jìn)行細(xì)化,如在實驗部分所展示的結(jié)果會出現(xiàn)畸變、細(xì)化不完全現(xiàn)象。雖然人們可以對畸變進(jìn)行修正,但作用是有限的;文獻(xiàn)[9]使用的EPTA算法及類似的改進(jìn)算法[10],這些算法對字符的斜線和弧線部分細(xì)化時會出現(xiàn)畸變。還有一些細(xì)化算法的抗干擾性差,比如Hilditch算法[11],當(dāng)圖像中有噪聲時,細(xì)化結(jié)果不能達(dá)到很好的效果;文獻(xiàn)[12]提出及列舉的一些細(xì)化算法雖然對文字的細(xì)化效果很好,但是細(xì)化所用時間較長且效率低。
本文提出的國際音標(biāo)細(xì)化算法通過對文字區(qū)域的邊緣分類標(biāo)記,并按標(biāo)記對滿足可去條件部分逐步細(xì)化,針對性強(qiáng),能夠有效地解決細(xì)化畸變、細(xì)化不完全的問題,而且具有較強(qiáng)的魯棒性,計算復(fù)雜度底,能夠快速高效地對國際音標(biāo)進(jìn)行細(xì)化。本文提出的細(xì)化算法雖然是針對國際音標(biāo)圖像字符的,但是也適用于對一般文字字符的細(xì)化,可以為文字細(xì)化研究提供一種新思路。
提出的對國際音標(biāo)圖像字符細(xì)化的流程如圖1所示。首先對國際音標(biāo)圖像進(jìn)行二值化處理,目標(biāo)為1,背景為0。然后用標(biāo)記法對文字區(qū)域邊緣分類進(jìn)行標(biāo)記,再計算標(biāo)記后的邊緣像素點周圍的鄰域編碼值,并判斷編碼值是否滿足文字連接可去點條件,如果滿足則刪除,即此邊緣像素點的像素值賦為0;否則保留,即此邊緣像素點的像素值賦為1。最后保存處理后的圖像,再反復(fù)調(diào)用算法對保存的圖像處理,直到與最近一次保存的圖像相比沒有像素點變化,即完成了對國際音標(biāo)圖像字符細(xì)化,并且此時圖像字符的寬度為一個像素。
圖1 國際音標(biāo)圖像字符細(xì)化流程圖
對國際音標(biāo)圖像字符細(xì)化之前,首先要對圖像進(jìn)行預(yù)處理。圖像預(yù)處理是實現(xiàn)圖像文字高精度細(xì)化的基礎(chǔ)和前提,其中包括對圖像的濾波和二值化處理[13]。
輸入的字符圖像中往往有噪聲存在,圖像去噪是圖像預(yù)處理中一個基本且重要的環(huán)節(jié),其可以從復(fù)雜的信息中提取所需的信息,并抑制干擾信息。對國際音標(biāo)字符圖像去噪后可得到一個對比度比較高,比較清楚干凈的灰度圖像。常用的去噪聲方法有高斯濾波、均值濾波、中值濾波和最小均方差濾波等。本文采用的是3×3鄰域的中值濾波。
對國際音標(biāo)圖像字符細(xì)化需要先將前景和背景分離,并且重點是對文字進(jìn)行細(xì)化,所以只需要提取圖像中的文字,可將文字以外的部分都當(dāng)作背景。對圖像進(jìn)行二值化處理,即圖像中文字區(qū)域標(biāo)記為1(像素點值置為1),其余區(qū)域標(biāo)記為0。本文采用最大類間方差法,即OTSU[14](大津法)求取二值化處理的閾值,該方法基于圖像的灰度直方圖,以目標(biāo)和背景的類間方差最大或最小為閾值選取準(zhǔn)則,計算簡單,可以滿足實時性要求。
假設(shè)原始圖像為(,),閾值為,對圖像進(jìn)行二值化處理,即
細(xì)化是一種簡化圖像的方法,在圖像處理和模式識別中得到了廣泛的研究和應(yīng)用。細(xì)化的好處主要是能夠保持圖形的連通性和拓?fù)潢P(guān)系的不變性,細(xì)化后的骨架信息比輪廓線和游程編碼更直觀,圖形特征易提取。對被處理的文字圖像進(jìn)行細(xì)化有助于減少冗余的信息量,而突出主要特征。本文提出的針對國際音標(biāo)圖像字符細(xì)化方法,與傳統(tǒng)的細(xì)化算法相比,該方法設(shè)計靈活,便于實現(xiàn),是一種非常有效的細(xì)化算法,能避免圖像細(xì)化的毛刺現(xiàn)象,保持圖像連通性。
該算法的細(xì)化部分可分為兩大步驟:①分類識別標(biāo)記文字區(qū)域的邊緣;②對標(biāo)記過的文字區(qū)域邊緣按查表法進(jìn)行取舍。
(1) 識別并標(biāo)記文字區(qū)域的邊緣。將經(jīng)過預(yù)處理后的原國際音標(biāo)字符圖像矩陣另存為1,如果原圖像矩陣中像素點(,)的值是1,并且其鄰域上下左右的4個像素點值中至少有一個是0,如圖2(1)~(14)所示,則像素點(,)為文字區(qū)域的邊緣(此處包括邊緣的內(nèi)角點和外角點),將圖像矩陣1中對應(yīng)的邊緣像素點1(,)的像素值賦值為2,即
其中,1為判斷文字區(qū)域邊緣的條件,即在像素值為1的像素點(,)處,其鄰域上下左右的4個像素點值中至少有一個是0為真。
(2) 識別并標(biāo)記文字區(qū)域邊緣的內(nèi)角點。將圖像矩陣1另存為2,如果像素點1(,)的值是1,且其3×3鄰域4個角點中任意一個角點的像素值是0,且該角點在此領(lǐng)域內(nèi)緊鄰的另兩個像素點的像素值都不是0,如圖3(1)~(4)所示(其中代表1或2),則1(,)為文字區(qū)域邊緣的內(nèi)角點,把圖像矩陣2中對應(yīng)的像素點2(,)的像素值賦值為3,即
其中,k2是判斷文字區(qū)域邊緣內(nèi)角點的條件,即在像素值為1的像素點g1(x,y)處,其3×3鄰域4個角點中任意一個角點的像素值是0,且該角點在此領(lǐng)域內(nèi)緊鄰的另兩個像素點的像素值都不是0為真。
圖3 判斷文字區(qū)域邊緣的角點
(3) 識別并標(biāo)記文字區(qū)域邊緣的外角點。將圖像矩陣2另存為3,如果像素點2(,)的值是2,即文字區(qū)域的邊緣。然后計算其3×3鄰域的編碼值,并對其編碼值進(jìn)行查表,判斷是否屬于文字區(qū)域邊緣外角點,如果是則把圖像矩陣3中對應(yīng)點的像素值賦值為4,即
圖4 編碼值計算
經(jīng)過對文字區(qū)域的邊緣分類識別標(biāo)記后,可進(jìn)行下一步的分類查表法對文字區(qū)域取舍,也即是細(xì)化。其目的不但是能夠保證只對文字區(qū)域的邊緣一步步做細(xì)化操作,而且能夠準(zhǔn)確地判斷出文字區(qū)域的邊緣哪些可以去掉或保留。使最終細(xì)化的結(jié)果能夠保障字符字跡的長度不變,字跡的寬度細(xì)化成一個像素,并且不會出現(xiàn)毛刺,細(xì)化不完全或過度細(xì)化的現(xiàn)象。
(1) 刪除文字區(qū)域邊緣外角角點。將圖像矩陣3另存為4,在圖像矩陣4中找出像素值為4的點,即文字區(qū)域邊緣外角角點,然后進(jìn)行刪除操作,即將此點的像素值賦值為0。見式(5),圖5為對應(yīng)刪除文字區(qū)域邊緣外角角點操作前后的圖示。
(2) 刪除文字區(qū)域邊緣點。將圖像矩陣4另存為5,在矩陣5中找出像素值為2的點,即文字區(qū)域邊緣點。然后計算其3×3鄰域的編碼值,并對其編碼值進(jìn)行查表,判斷是否屬于可去點,如果是則做刪除操作,即將此點的像素值賦值為0;否者作保留操作,即像素值賦值為1,式(6),圖6是對應(yīng)刪除文字區(qū)域邊緣點操作前后的圖示。
其中,N=[3 5 7 12 13 14 15 20 21 22 23 28 29 30 31 48 52 53 54 55 56 60 61 62 63 65 67 69 71 77 79 80 81 83 84 85 86 87 88 89 91 92 93 94 95 97 99 101 103 109 111 112 113 115 116 117 118 119 120 121 123 124 125 126 127 131 133 135 141 143 149 151 157 159 181 183 189 191 192 193 195 197 199 205 207 208 209 211 212 213 214 215 216 217 219 220 221 222 223 224 225 227 229 231 237 239 240 241 243 244 245 246 247 248 249 251 252 253 254 255]為判斷文字區(qū)域邊緣點鄰域編碼值滿足可去點的取值集合,即由所有滿足可去點的文字區(qū)域邊緣3×3鄰域的編碼值種類組成的集合;是像素點g5(x,y)處3×3鄰域計算的編碼值,其中所用的編碼矩陣W=[128 1 2 64 0 4 32 16 8],其目的為可以對文字區(qū)域邊緣的每一種情況作唯一編碼。
(3) 刪除文字區(qū)域內(nèi)角角點。在矩陣5中找出像素值為3的點,即文字區(qū)域邊緣內(nèi)角角點。然后計算其3×3鄰域編碼值,并對其編碼值進(jìn)行查表,判斷是否是可去點,如果是則做刪除操作,即把此點的像素值賦值為0;否者作保留操作,即像素值賦值為1。式(7),圖7是對應(yīng)刪除文字區(qū)域邊緣內(nèi)角角點操作前后的圖示。
另創(chuàng)建像素值全為0的圖像矩陣6,在圖像矩陣5中找出像素值大于零的點,并把圖像矩陣6中對應(yīng)的點像素值賦值為1。然后對圖像矩陣6重復(fù)第2章節(jié)步驟,直到與上一次保存的圖像相比沒有像素點變化,則此時圖像字符的寬度為一個像素。
為驗證本文提出的國際音標(biāo)圖像字符細(xì)化方法的實際效果,在CPU為Intel(R) Core(TM)i5 @ 3.20 GHz的電腦上和Matlab 2015b環(huán)境下,對 100幅國際音標(biāo)字符圖像進(jìn)行實驗,結(jié)果見表1,其中每幅圖像分別用3種算法細(xì)化用時對比,并以部分實驗結(jié)果為例進(jìn)行分析,如圖8~13所示。
文獻(xiàn)中評價細(xì)化算法通常從連通性、對噪聲的魯棒性和速度等方面考慮。在速度上,本文算法的時間復(fù)雜度為()=(2)。處理時間與字體筆跡的形態(tài)密切相關(guān),筆跡粗的處理時間相對長。從表1和圖8的實驗結(jié)果可看出,本文算法無論在單幅圖像細(xì)化用時上,還是在多幅圖像平均用時上都少于ZS[1]和EPTA[9]算法,且能夠?qū)ψ址耆?xì)化,沒有冗余。
表1 實驗結(jié)果分析比較
圖8 3種算法對每幅圖像細(xì)化用時對比
圖9~11為細(xì)化實驗結(jié)果對比圖,ZS算法細(xì)化的結(jié)果斜線部分不連續(xù)、交叉點部分有冗余,且有時會出現(xiàn)畸變情況,如圖10(b)中的第一個字符。EPTA算法細(xì)化結(jié)果有冗余,不能完全細(xì)化,且會出現(xiàn)斷點畸變情況,如圖11(c)中第5個字符。而本文算法細(xì)化結(jié)果沒有冗余,字跡寬度也都為一個像素,字符具有很好地連通性,不會出現(xiàn)畸變情況。
圖10 細(xì)化實驗結(jié)果圖2
圖11 細(xì)化實驗結(jié)果圖3
為了驗證本文算法的魯棒性,又分別對手寫毛筆中文漢字圖像、斜體英文和羅馬數(shù)字圖像進(jìn)行了細(xì)化實驗,分別如圖12~13所示。圖12(a)是手寫毛筆漢字字符原圖像,字符筆跡的邊緣有凸凹不平的地方,但是經(jīng)過本文算法細(xì)化時并沒有產(chǎn)生畸變或細(xì)化不完全的情況。最終的細(xì)化結(jié)果是字符筆跡的寬度為一個像素,而長度仍然是原字符的長度,如圖12(b)所示。圖13(a)為斜體英文和羅馬數(shù)字原圖像,字符雖然是斜體,并且筆跡寬度也不盡相同,但是絲毫不影響本文算法的細(xì)化,細(xì)化結(jié)果仍然很出色,如圖13(b)所示。
圖12 手寫毛筆中文漢字圖像字符實驗圖
圖13 斜體英文和羅馬數(shù)字圖像字符實驗圖
實驗結(jié)果表明,本算法非常出色地實現(xiàn)了對國際音標(biāo)字符圖像的細(xì)化,細(xì)化后的字符圖像不但沒有產(chǎn)生畸變,而且平均細(xì)化時間較短,細(xì)化效果滿足一個像素寬度,沒有冗余,魯棒性強(qiáng)。該算法有效地解決了國際音標(biāo)字符圖像的細(xì)化問題,為進(jìn)一步對國際音標(biāo)字符圖像的識別起到了重要作用。但是對圖像文字的細(xì)化僅僅是提取識別圖像中文字信息的第一步,而提取識別圖像中的文字信息還有很多困難要克服,并且也是圖像處理領(lǐng)域的一個重要研究方向,這也是下一步的工作方向。
[1] ZHANG Y T, SUEN Y C. A fast parallel algorithm for thinning digital patterns [J]. Communications of the ACM, 1984, 27(3): 236-239.
[2] LAM L, LEE S W, SUEN C Y. Thinning methodologies a comprehensive survey [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002, 14(9): 869-885.
[3] WEN C, AO G, TIAN Y. A thinning method for fingerprint image based on Hit-miss transformation [C]//IEEE International Conference on Computer Science and Automation Engineering (CSAE). New York: IEEE Press, 2011: 225-228.
[4] VADVADGI G K, SANDEEPP P H. A modified thinning algorithm for minutiae feature extraction of fingerprint images on FPGA [J]. International Journal of Electrical, Electronics and Data Communication, 2015, 3(3): 42-47.
[5] ZHOU Z, WANG L. A method of thinning interference fringes based on the characteristic of interference fringes [C]// 2011 International Conference on Computer Science and Service System (CSSS 2011). New York: IEEE Press, 2011: 2885-2887.
[6] SHAIKH N A, SHAIKH Z A. A generalized thinning algorithm for cursive and Non-Cursive language scripts [C]// 9th International Multitopic Conference. New York: IEEE Press, 2007: 1-4.
[7] 王會英, 張有會, 張靜, 等. 一種基于離散Voronoi圖的手寫體文字細(xì)化方法[J]. 計算機(jī)工程與應(yīng)用, 2008, 44(15): 178-181.
[8] VINCZE M, KOVARI B. Comparative survey of thinning algorithms [EB/OL]. (2009-11-14) [2012-02-17]. http://uni- obuda.hu/conference/cinti2009.
[9] BAO J, FAN J. Robust parallel thinning algorithm for binary images [J]. Computer Aided Engineering, 2006, 15(4): 43-46.
[10] 韓建峰, 宋麗麗. 改進(jìn)的字符圖像細(xì)化算法[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2013, 25(1): 62-66.
[11] 賈瑜, 饒建輝. 一種對文字圖像細(xì)化的改進(jìn)Hilditch算法研究[J]. 武漢工業(yè)學(xué)院學(xué)報, 2006, 25(3): 37-39.
[12] ZHU X F, ZHANG S Y. A shape-adaptive thinning method for binary images [C]//IEEE International Conference on Cyberworlds. New York: IEEE Press, 2008, 721-724.
[13] ZHANG S H. Study and realization of algorithms for Chinese characters image’s preprocessing [J]. Microcomputer Development, 2003, 4(4): 53-57.
[14] OTSU N. A threshold selection method from graylevel histograms [J]. IEEE Transactions on Sysems Man and Cybernetics, 1979, 9(1): 62-66.
A Thinning Method for International Phonetic Alphabet Characters
SUN Xiaokun, HUANG Jifeng
(The College of Information, Machanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China)
To refine image characters can help to highlight the shape features of the character and reduce the amount of redundant information, which has important applications in the field of character recognition. After analyzing and studying the traditional thinning algorithm, aiming at the distortion and incomplete phenomenon of traditional refinement, this paper proposes a refinement method for the characters of international phonetic symbols. The algorithm makes it possible to refine the width of the international phonetic image character to a pixel width by marking the edge of the text area and judging whether the marked point satisfies the removable condition and then gradually removing the edge pixel. Experiment on the international phonetic alphabet character image shows that the algorithm proposed in this paper can accurately refine the international phonetic alphabet character image, simple and efficiently.
image; international phonetic alphabet; character; thinning
TP 391
10.11996/JG.j.2095-302X.2018020214
A
2095-302X(2018)02-0214-07
2017-06-17;
2017-08-11
孫孝坤(1992–),男,河南駐馬店人,碩士研究生。主要研究方向為數(shù)字圖像處理與模式識別。E-mail:2323350313@qq.com
黃繼風(fēng)(1963–),男,河南鄭州人,教授,博士。主要研究方向為模式識別與數(shù)字處理、生物信息學(xué)、視頻圖像識別等。E-mail:jfhuang@shnu.edu.cn