丁 李,曾水玲,熊 濤
(1.吉首大學(xué)物理與機(jī)電工程學(xué)院,湖南 吉首 416000;2.吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南 吉首 416000)
民族文字信息處理研究對于保護(hù)民族文化遺產(chǎn)和弘揚(yáng)民族文化有重要意義.湘西苗文流傳至今,有廣泛的社會意義,起著文化傳承的作用,給當(dāng)?shù)靥峁┝烁嗟奈幕厣吐糜钨Y源.為了傳播擁有悠久歷史的古文化苗文文字,使其在儲存、教育上緊跟時代步伐,需要用數(shù)字化手段識別手寫苗文.筆者參考學(xué)者們設(shè)計(jì)的其他文字的識別方法,如基于拓?fù)涮卣髋c投影法的東巴象形文識別方法[1]、基于顏色聚類與多幀融合的視頻文字識別方法[2]、動態(tài)規(guī)劃識別算法[3]、基于費(fèi)舍爾的向量識別法[4]和異態(tài)漢字識別方法[5]等,提出了一種改進(jìn)的識別苗文文字的方法,并且對各種網(wǎng)格劃分進(jìn)行模擬實(shí)驗(yàn),以驗(yàn)證新的文字網(wǎng)格劃分方式能否提高識別率.
文字圖像預(yù)處理的目的在于標(biāo)準(zhǔn)化文字圖像的大小和位置.目前研究者總結(jié)了許多巧妙的圖像預(yù)處理方法[6-8],最常用的方法是使用一套完整的離線文字圖像預(yù)處理算法對圖像進(jìn)行預(yù)處理.筆者將圖像預(yù)處理分為4個步驟:圖像灰度化、圖像二值化、筆畫細(xì)化和網(wǎng)格劃分.
圖1 使用加權(quán)平均法進(jìn)行灰度化后的圖像Fig.1 Image After Grayscale Processing
圖像灰度化,即將原始真彩色圖像處理為灰度圖像,采用RGB顏色分量加權(quán)和的全局映射對圖像進(jìn)行有選擇性地灰度化處理.對于高清、色彩鮮明的圖像,采用基于最大加權(quán)投影的灰度化算法能充分保留原彩色圖像的對比度[9].考慮到湘西方塊苗文字庫中的標(biāo)準(zhǔn)化圖像并沒有復(fù)雜的色彩變化,為了節(jié)約計(jì)算機(jī)資源的消耗,筆者采用常規(guī)的圖像灰度化算法即加權(quán)平均法對苗文圖像進(jìn)行灰度化,處理結(jié)果如圖1所示.
圖2 二值化后的圖像Fig. 2 Image After Binarization Processing
圖3 取反和細(xì)化后的圖像Fig. 3 Image After Reverse and Thinning
傳統(tǒng)的細(xì)化算法有細(xì)化不徹底、過度腐蝕等弊端.近年來研究出了許多改進(jìn)后的細(xì)化算法,如自動矢量化算法[12]和并行細(xì)化算法[13]等.筆者對細(xì)化算法進(jìn)行改進(jìn),消除了傳統(tǒng)算法造成的筆道丟失與斷開.筆畫細(xì)化的實(shí)質(zhì)是把圖像中的寬線條經(jīng)算法處理后變?yōu)閱蜗袼鼐€條,細(xì)化后的單像素線條必須盡量和寬線條的中心線相吻合,這樣才能盡可能保證細(xì)化后文字的拓?fù)浣Y(jié)構(gòu)與細(xì)化前具有最大程度的相似性.細(xì)化算法實(shí)際上是一種迭代算法,可分為串行、并行、混合和其他4種類別,但其本質(zhì)都是通過迭代來層層剝離筆畫的邊緣像素進(jìn)而實(shí)現(xiàn)細(xì)化[14].細(xì)化后的文字消減了手寫字體的部分個性化特征,為特征提取創(chuàng)造了有利條件.在計(jì)算機(jī)圖像處理過程中,由于黑底白字更有利于形成數(shù)據(jù)矩陣,因此筆者先對二值化后的圖像取反,再利用細(xì)化算法對其細(xì)化,結(jié)果如圖3所示.
網(wǎng)格劃分的優(yōu)化方法是本研究的重點(diǎn)之一.網(wǎng)格劃分的細(xì)膩程度對識別的效果有很大影響,網(wǎng)格劃分過密勢必增大特征矩陣的維數(shù),進(jìn)而導(dǎo)致識別過程中出現(xiàn)過擬合.根據(jù)文字的形態(tài)特點(diǎn),方塊手寫苗文文字的圖像特征零星分布于圖像筆畫的部分特定區(qū)域,因此最優(yōu)的網(wǎng)格維數(shù)成為可探究的問題之一.筆者列舉了2×2,3×3,…,8×8和不劃分共8種網(wǎng)格劃分方式,前7種劃分方式如圖4所示.
圖4 各種網(wǎng)格劃分Fig. 4 Various Mesh Divisions
特征的提取對文字識別正確率有至關(guān)重要的影響[15],筆者以2×2網(wǎng)格為例來說明特征的提取過程.依據(jù)網(wǎng)格將目標(biāo)文字分離后,圖像被預(yù)處理成黑底白字的二值圖像,4塊圖像是4個分塊的邏輯矩陣,白點(diǎn)對應(yīng)于邏輯矩陣中數(shù)值為1的點(diǎn).分別統(tǒng)計(jì)出 4個邏輯矩陣中元素1的個數(shù)(白點(diǎn)個數(shù)),其在一定程度上代表了目標(biāo)文字的特征,也就是二值特征.據(jù)此方式對苗文文字進(jìn)行特征提取,得到的二值特征代表了苗文文字的 4 維特征向量.其他網(wǎng)格劃分方式以此類推.
將二值化后的待識別圖像進(jìn)行細(xì)化,可以提取代表圖像自身特點(diǎn)的點(diǎn)特征.除了每個邏輯矩陣中邏輯值為1的元素數(shù)目可作為特征外,文字筆畫結(jié)構(gòu)內(nèi)的點(diǎn)特征也能反映出文字的特性.從簡單到復(fù)雜的點(diǎn)特征有端點(diǎn)、連接點(diǎn)、三叉點(diǎn)、四叉點(diǎn)和五以上叉點(diǎn)等5種:
(1)端點(diǎn).端點(diǎn)是最為常見的點(diǎn)特征,有8種形式(其中一種形式如圖5a所示),能代表一個文字的端點(diǎn)特征,可作為文字的代表特征來提取.
(2)連接點(diǎn).連接點(diǎn)普遍存在于文字的各個部位,因其缺乏文字特征的代表性,故不能作為文字的代表特征.
(3)三叉點(diǎn).三叉點(diǎn)的形式頗多,在手寫苗文文字中共有 14 種三叉點(diǎn)(其中一種形式如圖5b所示).由于三叉點(diǎn)數(shù)量適中,也不像連接點(diǎn)那樣過于普遍,因此具有一定的代表性,可以代表文字的特征.
(4)四叉點(diǎn).理論四叉點(diǎn)存在于筆畫交叉的部位.大多情況下,四叉點(diǎn)存在的部位經(jīng)細(xì)化處理后并不能成為單像素四叉點(diǎn),而是弱化為2個三叉點(diǎn)(圖6).這種不穩(wěn)定性注定它不能成為特征量.
(5)五以上叉點(diǎn).由于形成條件更加嚴(yán)格,它們被細(xì)化后幾乎都弱化為三叉點(diǎn),因此只存在于理論中,不予考慮.
綜上所述,具有代表性的文字形態(tài)特征只有2個,一個是端點(diǎn),另一個是三叉點(diǎn).
圖5 各種點(diǎn)特征示例Fig. 5 Examples of Various Point Features
圖6 四叉點(diǎn)弱化為三叉點(diǎn)Fig. 6 Four Fork Points Weaken into Trigeminal Points
1986年由Rumelhart和McClelland為首的科學(xué)家提出的BP(Back Propagation)神經(jīng)網(wǎng)絡(luò),是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),其突出的優(yōu)點(diǎn)是具有很強(qiáng)的非線性映射能力和柔性的網(wǎng)絡(luò)結(jié)構(gòu).網(wǎng)絡(luò)的中間層數(shù)、各層的神經(jīng)元個數(shù)可根據(jù)具體情況任意設(shè)定,并且因?yàn)榻Y(jié)構(gòu)的差異其性能也有所不同.目前絕大部分的神經(jīng)網(wǎng)絡(luò)模型都采用BP網(wǎng)絡(luò)及其變化形式,主要應(yīng)用于函數(shù)逼近、模式識別、分類和數(shù)據(jù)壓縮等領(lǐng)域.基于BP神經(jīng)網(wǎng)絡(luò)的分類算法包括BP神經(jīng)網(wǎng)絡(luò)的構(gòu)建、訓(xùn)練和分類 3 個部分,具體步驟如下:
步驟1初始化原始網(wǎng)絡(luò).根據(jù)系統(tǒng)的輸入輸出序列確定輸入的網(wǎng)絡(luò)層節(jié)點(diǎn)數(shù)n、隱含層節(jié)點(diǎn)數(shù)l和輸出層節(jié)點(diǎn)數(shù)m;初始化輸入層、隱含層和輸出層的神經(jīng)元之間的連接權(quán)值ωij和ωjk;初始化隱含層閾值a,輸出層閾值b;給定學(xué)習(xí)速率和神經(jīng)元激勵函數(shù).
步驟4計(jì)算誤差.根據(jù)網(wǎng)絡(luò)預(yù)測輸出O和期望輸出Y,計(jì)算網(wǎng)絡(luò)預(yù)測誤差e,ek=Yk-Ok(k=1,2,…,m).
圖7 100個預(yù)測樣本的預(yù)測類別和實(shí)際類別Fig. 7 Prediction Category and Actual Category of 100 Prediction Samples
步驟7判斷算法迭代是否結(jié)束,若沒有結(jié)束,則返回步驟2.
從苗文手寫字庫中挑選出10個文字,用這些文字的1 000個樣本進(jìn)行訓(xùn)練,其中900個樣本作為訓(xùn)練樣本,另外100個樣本作為預(yù)測樣本.利用上述方法提取特征向量,并將特征向量構(gòu)建為一個特征矩陣.經(jīng)多次試運(yùn)行和調(diào)試程序,得到如圖7所示的訓(xùn)練和分類結(jié)果.
從圖7可以看出,預(yù)測類別和實(shí)際類別的重合度不錯,這驗(yàn)證了BP神經(jīng)網(wǎng)絡(luò)對手寫方塊苗文的識別分類能力.把多次運(yùn)行后得到的數(shù)據(jù)取平均值,得到8種劃分方式下10個文字的識別率(圖8).
a 各種劃分方式的識別率
b 平均識別率圖8 苗文文字的識別效果Fig. 8 Recognition Effect of Miao Characters
從圖8可以看出,在8種劃分方式下對10個手寫方塊苗文進(jìn)行識別,隨著劃分密度的不斷升高,系統(tǒng)的針對性逐漸增強(qiáng),擴(kuò)展性越來越低.識別率極高時其值接近100%,極低時則接近0%.這是由于劃分越密集,特征矩陣越大,從而導(dǎo)致擬合過剩的結(jié)果.圖8b平均識別率結(jié)果表明,最高綜合識別率出現(xiàn)在3×3網(wǎng)格劃分方式上,可見識別率與識別擴(kuò)展性之間在3×3劃分上具有最佳平衡效果.
筆者提出了一套適合于手寫苗文文字的識別方法,在各種密度的網(wǎng)格劃分方法的基礎(chǔ)上,結(jié)合方塊苗文手寫字體各種叉點(diǎn)特征,通過具體的模擬實(shí)驗(yàn),確定了方塊苗文網(wǎng)格劃分的最佳方式.這不僅減小了網(wǎng)格劃分對計(jì)算機(jī)資源的占用,而且能彌補(bǔ)識別過程中系統(tǒng)缺乏擴(kuò)展性的缺陷;但這種識別手寫苗文的方法對采集圖像的清晰度和文字相對位置有較高要求.降低方法對原始圖像清晰度的高依賴性,或是尋找更具普遍特性的特征,都是今后提高手寫苗文文字識別工作效率的研究方向.