門光福,潘晨,柳長青
(1.寧夏大學(xué)數(shù)學(xué)計算機(jī)學(xué)院,寧夏銀川750021;2.中國計量學(xué)院信息工程學(xué)院,浙江杭州310018)
近年來西夏研究在國內(nèi)外引起了廣大學(xué)者的高度重視,也取得了很大進(jìn)展,大批西夏古籍文獻(xiàn)如《俄藏黑水城文獻(xiàn)》、《中國藏西夏文獻(xiàn)》、《英藏西夏文獻(xiàn)》經(jīng)整理被影印出版。目前,西夏文及西夏文獻(xiàn)的研究仍停留在傳統(tǒng)手工翻閱查找階段,研究工作因此耗時費(fèi)力,異常辛苦。計算機(jī)技術(shù)的迅猛發(fā)展無疑給西夏研究工作帶來了契機(jī),如何快速、準(zhǔn)確地將這些文獻(xiàn)資料轉(zhuǎn)換為文本并為西夏文獻(xiàn)建立文本數(shù)據(jù)庫具有重要的研究與應(yīng)用價值[1-2]。
當(dāng)前國際上在西夏文字的計算機(jī)數(shù)字化方面的研究主要集中在日本、俄羅斯和中國臺灣[3]。日本國立亞非語言文化研究所1996年制作了西夏文字庫和排版系統(tǒng),1997年中國學(xué)者李范文教授和日本學(xué)者中島干起利用該排版系統(tǒng)合作出版了《電腦處理西夏文〈雜字〉研究》一書。該所副教授荒川懊太郎與俄羅斯西夏學(xué)專家克恰諾夫合作出版了《西夏文字典》。另外,值得一提的是國際合作中的國際敦煌項目[4]。1994年,旨在促進(jìn)敦煌文物文獻(xiàn)保護(hù)和研究以及數(shù)字化的敦煌國際合作項目組(簡稱IDP)正式成立,秘書處設(shè)在大英圖書館。IDP早期工作主要集中在修復(fù)、保護(hù)與編目等方面,近年來加快了數(shù)字化步伐,目前正朝著將包括西夏文獻(xiàn)影印圖像在內(nèi)的敦煌及絲綢之路文物文獻(xiàn)全部網(wǎng)絡(luò)化的目標(biāo)而努力。在國內(nèi),馬希榮、柳長青[5-8]等從西夏文字識別的版面分析、二值化、傾斜檢測、尺寸歸一化及去噪等預(yù)處理技術(shù)到西夏文字的各種特征提取及西夏文字神經(jīng)網(wǎng)絡(luò)的識別等方面都做了一些研究。
西夏文獻(xiàn)中的西夏文字多以刻板文字或手寫體形式出現(xiàn),與印刷體文字有很大的區(qū)別,存在大小不固定,整體或局部位置產(chǎn)生偏移等情形,這對識別過程及識別率會產(chǎn)生很大的影響。西夏文獻(xiàn)中的西夏文字的識別可以借鑒手寫體漢字識別的相關(guān)技術(shù),但由于西夏文字筆畫繁多,平均筆畫數(shù)在25畫左右,而且西夏文字之間具有很大的相似性,這無疑又增加了識別的難度。
近年來,大量的研究實(shí)驗(yàn)表明,方向特征是一種較好的手寫體文字特征[9],彈性網(wǎng)格技術(shù)[10-14,20]可以提取字符圖像的局部特征,能很好地區(qū)分相似字,容忍不同書寫風(fēng)格所引起的筆劃位置不穩(wěn)定、局部字形變形等變化,所以在手寫體字符識別中得到廣泛應(yīng)用。本文將采用彈性網(wǎng)格對西夏文字進(jìn)行網(wǎng)格劃分,并提取筆畫特征,然后對提取的筆畫特征采用LDA方法進(jìn)行降維處理,給出西夏文字識別的一種有效方法。
在對西夏文字提取筆畫特征之前,首先采用大津方法[15]對西夏文字圖像進(jìn)行二值化處理,然后對二值化后的西夏文字圖像采用形態(tài)學(xué)細(xì)化算法[16,21]進(jìn)行細(xì)化。
盡管西夏文字結(jié)構(gòu)復(fù)雜,但都是由直線段組成,而且這些直線段具有橫、豎、撇、捺4個方向。西夏文字中的“橫、豎、撇、捺”四種筆劃的多少客觀上來講可以代表其特征,并且“橫、豎、撇、捺”四種筆劃分量的結(jié)構(gòu)組合是不同的,因此將西夏文字進(jìn)行“橫、豎、撇、捺”四個方向分解后再提取統(tǒng)計特征,比起整體上提取特征來識別西夏文字更能反映西夏文字的組成結(jié)構(gòu),更具有區(qū)分性。具體的分解策略見圖1。考慮黑像素的8個鄰域,按如下方法確定4個方向分量:
(1)橫分量:P1或 P5為黑像素;
(2)豎分量:P3或 P7為黑像素;
(3)撇分量:P2或 P6為黑像素;
(4)捺分量:P4或P8為黑像素。
圖1 點(diǎn)P的八鄰域
圖2 給出了西夏文字分解的結(jié)果。
圖2 西夏文字分解結(jié)果
彈性網(wǎng)格是一種根據(jù)文字圖像的像素密度分布,用非均勻的網(wǎng)線劃分文字的網(wǎng)格方法。將西夏文字如圖2所示進(jìn)行四種基本筆劃方向分解后,構(gòu)造彈性網(wǎng)格并作用于分解后的各西夏文字分量上,然后提取各分量在網(wǎng)格內(nèi)像素點(diǎn)的概率分布特征。
設(shè)水平方向的網(wǎng)線數(shù)為N1,垂直方向的網(wǎng)線數(shù)為N2,當(dāng)滿足下面兩式時,分別得到水平、垂直方向的非均勻網(wǎng)線Ii,Ij:
非均勻網(wǎng)線 Ii,Ij兩兩相交即構(gòu)成彈性網(wǎng)格,選取不同的網(wǎng)線數(shù)可以得到不同的網(wǎng)格。當(dāng) N1=8,N2=6時,構(gòu)造的全局8×6彈性網(wǎng)格如圖 3所示。
假設(shè)得到的網(wǎng)格為B1,B2,…,Bn,西夏文字四個方向“橫”、“豎”、“撇”、“捺”子圖像為(x,y),則第i個子塊內(nèi)的方向統(tǒng)計特征如下:
圖3 全局8×6彈性網(wǎng)格
在第2部分中將西夏文字采用彈性網(wǎng)格劃分,提取筆畫方向特征后,得到的高維特征向量可以直接用距離方式度量,但由于基于高維特征空間內(nèi)的算法時間復(fù)雜度和空間復(fù)雜度都大大增加,并且不容易估計參數(shù)值。所以為優(yōu)化算法需要對特征空間進(jìn)行降維處理。LDA方法是一種通用的提高類別分辨能力的線性變換,其優(yōu)點(diǎn)是通過對可分性測度函數(shù)的優(yōu)化,在變換后的低維特征空間內(nèi)保留分類能力最強(qiáng)的一組特征[17-18]。本文選擇將選用 LDA方法對提取的西夏文字筆畫方向特征進(jìn)行壓縮。
(3)設(shè)X為初始特征向量,通過Y=WTX變換得到壓縮后特征向量Y。
采用原寧夏大學(xué)計算中心夏漢字典第一區(qū)的前240個西夏文字的40套樣本作為實(shí)驗(yàn)用西夏文字,每個西夏文字為48×48個像素。為檢驗(yàn)各種識別方法的性能,實(shí)驗(yàn)中選取v重交叉驗(yàn)證法作為識別方法性能的衡量指標(biāo)。用此方法把訓(xùn)練集劃分成4個子集,每個子集包含10個樣本,訓(xùn)練時用3個子集的樣本訓(xùn)練,用剩下的1個子集的樣本做測試得到1次識別率,依次對每個子集都做測試可得到4次識別率,取4次識別率的平均值作為識別方法性能的衡量指標(biāo)。實(shí)驗(yàn)所采用的計算機(jī)的硬件配置為AMD Athlon Dual Core 4000+,內(nèi)存為 2G DDR,硬盤為日立串口250G。軟件環(huán)境為WindowsXP SP3下的matlab7.0。圖4為實(shí)驗(yàn)中用到的部分西夏古籍文獻(xiàn)中的西夏文字樣本。
圖4 實(shí)驗(yàn)所采用的部分西夏古籍中西夏文字樣本
本小節(jié)實(shí)驗(yàn)的目的是:討論用筆畫方向分解特征作為文字的特征,在歐式距離度量方式下,采用不同網(wǎng)格劃分下的識別效果。實(shí)驗(yàn)數(shù)據(jù)如下:
表1 不同網(wǎng)格劃分方法下的識別率比較
由表1中的實(shí)驗(yàn)結(jié)果可以看出:使用全局8×6網(wǎng)格時的識別率最高。因此,在實(shí)際應(yīng)用時可以選用全局8×6網(wǎng)格共192維特征作為西夏文字的識別特征。
LDA方法可以有效壓縮特征并提高識別率,其中維數(shù)d的選擇對識別率有一定的影響。本實(shí)驗(yàn)選歐氏距離分類器,取4重交叉驗(yàn)證平均識別率,對提取的8×6彈性網(wǎng)格的筆畫特征共192維原始特征采用LDA方法降維。圖5給出了壓縮維數(shù)d從20到190時的識別率變化趨勢。
圖5 不同參數(shù)d下的識別率
由圖5可知,當(dāng)壓縮維數(shù)在80左右時識別率達(dá)到最大。高維時識別率略有下降,主要是由于分類器模型的符合程度、參數(shù)的估計誤差等隨著維數(shù)的增大而逐漸惡化所導(dǎo)致。
通過上面實(shí)驗(yàn),選定維數(shù)d=80,采用不同距離度量方式下的識別率如表2所示。
表2 不同距離度量方式下LDA方法壓縮特征前后的識別率比較
表2結(jié)果表明,使用LDA方法將特征從192維壓縮到80維后,各種距離測度下的識別率都顯著提高,該實(shí)驗(yàn)也說明了 LDA方法壓縮西夏文字彈性網(wǎng)格筆畫方向特征的有效性。
本實(shí)驗(yàn)主要討論采用LDA方法壓縮全局8×6彈性網(wǎng)格的筆畫方向特征作為多個候選字的識別特征時的識別率比較,分類距離選用歐式距離,實(shí)驗(yàn)結(jié)果如表3和圖6所示。從實(shí)驗(yàn)結(jié)果中可以看出,隨著候選字個數(shù)的增加,識別率逐步提高。如果測試樣本作為前15個候選字時,識別率可達(dá)到99.05%。因此,用該特征及分類方式作為樣本的粗分類可以達(dá)到很高的準(zhǔn)確率。
表3 前n個候選字的識別率
圖6 多候選字識別率
本文基于彈性網(wǎng)格上筆畫方向的特征分解和提取,采用LDA方法壓縮特征對西夏文字進(jìn)行分類識別研究。實(shí)驗(yàn)證明對于西夏文字這樣一種相似度遠(yuǎn)遠(yuǎn)高于漢字的象形文字,本文所提方法能夠有效的進(jìn)行識別,識別率可達(dá)87.99%以上。本文的研究成果為以后的手寫體西夏文字、西夏文獻(xiàn)圖片資料中的西夏文字的自動識別等的深入研究打下基礎(chǔ)。
[1]柳長青.基于 Level Set方法的西夏字輪廓提取[J].中文信息學(xué)報,2009,23(4):71-75.
[2]李宇明.搭建中華宇符集大平臺[J].中文信息學(xué)報,2003,17(2):1-6.
[3]史金波,陳育寧.中國藏西夏文獻(xiàn)[M〕.甘肅:教煌文藝出版社,2005.
[4]劉扭,段慈明,王惠臨,等.中醫(yī)藥古文獻(xiàn)語料庫設(shè)計與開發(fā)研究[J].中文信息學(xué)報,2005,22(4):24-0.
[5]馬希榮,王行愚.西夏文字特征提取的研究[J].計算機(jī)工程與應(yīng)用,2002,38(13):38-39.
[6]馬希榮,王行愚.神經(jīng)網(wǎng)絡(luò)的西夏字識別技術(shù)研究[J].計算機(jī)工程與應(yīng)用,2001,37(18):10-11.
[7]柳長青,杜建錄.網(wǎng)絡(luò)下的西夏文及西夏文獻(xiàn)處理研究[J].寧夏社會科學(xué),2008,(5):113-115.
[8]馬希榮,柳長青,等.夏漢字處理及電子字典[M].北京:清華大學(xué)出版社,1999.
[9]劉偉,朱寧波,何浩智,等.彈性網(wǎng)格模糊特征的手寫體漢字識別方法[J].中文信息學(xué)報,2007,21(3):117-121.
[10]陳章輝,黃小暉,陳鵬飛,等.基于雙彈性網(wǎng)格的手寫體漢字識別[J].計算機(jī)應(yīng)用,2009,29(2):395:397.
[11]Lianwen Jin,Gang Wei.Handwritten Chinese Character Recognition with Directional Decomposition Cellular Features[J].Journal of Circuit,System and Computer,1998,8(4):517-524.
[12]S W Lee,J S Park.Nonlinear Shape Normalization M ethods for the Recognition of Large Set Handwritten Character[J].Pattern Recognition,1994,27(7):895-902.
[13]金連文,高學(xué).幾種手寫體漢字網(wǎng)格方向特征提取方法的比較研究[J].計算機(jī)應(yīng)用研究,2004,21(11):38-40.
[14]金連文.手寫體漢字識別的研究[D].廣州:華南理工大學(xué),1996.
[15]Otsu.A Threshold Selection M ethod from Gray-Level Histogram[J].IEEE Trans on SMC-9,1979:62-66.
[16]楊淑瑩.VC++圖像處理程序設(shè)計[M].清華大學(xué)出版社,2003.
[17]Balakrishnama S,Ganapathiraju A,Picone J.Linear Discriminant Analysis for Signal Processing Problems.Southeastcon'99 Proceedings.IEEE 25-28,1999-04:78-81.
[18]姜錚銦,丁曉青.基于M QDF的英文OCR多模板分類器[J].計算機(jī)工程,2005,31(15):56-58.
[19]王華,丁曉青.多字體印刷藏文字符識別[J].中文信息學(xué)報,2003,17(6):47-52.
[20]金連文,徐秉錚.手寫體漢字識別中的一種新的特征提取方法——彈性網(wǎng)格方向分解特征[J].電路與系統(tǒng)學(xué)報,1997,2(3):7-12.
[21]門光福.一種基于多級分類的西夏文字識別算法[J].高師理科學(xué)報,2010,30(4):44-47.