貢嘎頓珠 仁青諾布
摘要:藏文文字識別包括文字處理、模式識別以及圖像處理等技術(shù),逐漸向人工智能領(lǐng)域方向發(fā)展,廣泛應(yīng)用于古籍資料的整理、藏文數(shù)字圖書館以及新聞出版印刷業(yè)等領(lǐng)域。探究藏文文字識別技術(shù),并與傳統(tǒng)文字識別技術(shù)進行實驗對比,通過實驗結(jié)果可以看出,藏文文字識別技術(shù)的識別效率較高,具有較好的應(yīng)用價值。
關(guān)鍵詞:藏文文字;文字識別;技術(shù)
中圖分類號:TP317.4? ? ? 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)27-0182-01
文字識別技術(shù)源于20世紀(jì)30年代的德國,我國在此方面的研究與應(yīng)用較晚,相比的發(fā)達國家要晚40年左右。所謂文字識別技術(shù)就是指使用某種設(shè)備或系統(tǒng)對文字與圖像進行處理與分析,是一種全新的技術(shù)[1-2]。節(jié)省了人工作業(yè)的麻煩,直接將文字與圖像信息呈現(xiàn)在電腦中,輸入的效率與準(zhǔn)確程度均會得到提升。我國語言文化豐富,許多少數(shù)民族都擁有自己的語言與文字,其中藏文已經(jīng)出現(xiàn)了相關(guān)的文字識別系統(tǒng),通常以代碼的形式通過鍵盤進行輸入[3]。藏文文字識別技術(shù)的出現(xiàn),從一定程度上促進了藏族相關(guān)的文化產(chǎn)業(yè)與其他各個行業(yè)。但目前我國藏文文字識別技術(shù)仍然存在許多弊端,需要相關(guān)工作人員對文字識別技術(shù)進行更新與完善,在對藏文進行處理的過程中隨時記錄,實時分析,以達到更好的文字識別效果。
1 藏文文字識別技術(shù)
如今的藏文文字識別技術(shù)大體可分為以下幾個類型,既對印刷體與對手寫體的分別識別。其中手寫體還包括不同的書法寫法,多種文字識別類型如圖1所示。
藏文文字識別技術(shù)中,因為識別文字的種類不同,識別難度也都不一樣。通常來說,手寫藏文的識別要難于打印體藏文的識別。從手寫的手法來看,聯(lián)機寫法要簡單于脫機寫法[4-5]。藏文手寫具有一定規(guī)律,通常是從左到右的順序進行。藏文與其他語言存在一些差距,文字中存在一些元音與輔音的成分,這種組合文字的識別具有更大難度。經(jīng)過組合疊加的藏文變化效果較大,在語法的要求與語句含義方面都需要考慮到文字識別技術(shù)中。藏文字符圖像的算法如下:
其中[R]表示定義函數(shù),[A]表示給定的輸入,[G]表示模擬參數(shù)。通過計算藏文與一些圖像經(jīng)過處理后形成一個統(tǒng)一的整體,其中除文字與圖像外,還包括一些空格與留白。所以此種情況下并不適合將文章進行整體識別,需要將藏文逐個從文章中分離出來,再進行識別。注意將每一行、每一列具體區(qū)分,在這一過程中,通常會采用映射的方式,將每一行、每一列分別映射,全部識別完畢后方可進行校正工作。隨后再將藏文中的圖像進行映射,將文字識別與圖像識別區(qū)分開。印刷體藏文文字識別相對簡單,但由于文章排版等因素影響,在文字識別過程中極易出現(xiàn)誤差,識別技術(shù)不完善的情況下,文字識別率也將出現(xiàn)降低的情況。因此藏文印刷體的文字識別過程中,要預(yù)先對文本進行處理,將阻礙文字識別的字符消除后再進行識別作業(yè)[6-7]。在對藏文文章的識別過程中要找到其中心點,在圖像上設(shè)置網(wǎng)格,再進行識別,這種方式能夠最大程度上的減小藏文識別產(chǎn)生的誤差。
2 實驗結(jié)果與分析
為分析藏文識別技術(shù)的實用性,將藏文文字識別技術(shù)與傳統(tǒng)文字識別技術(shù)進行對比,對比結(jié)果如表1所示。
由表中數(shù)據(jù)能夠看出,藏文文章識別技術(shù)相比傳統(tǒng)文字識別技術(shù)具有很大優(yōu)勢,無論是在文字識別率或是速度上,都有很大進步。識別率從原有的90.17%上升至95.13%,識別速度從原有的每秒32.15個上升到每秒95.12個。由此可見,藏文文字識別技術(shù)的出現(xiàn),使藏文識別能力得到總體提高,有效解決了傳統(tǒng)文字識別技術(shù)中速度慢、效率低的問題。
3 結(jié)束語
我國語言文化博大精深,語種豐富,藏文是我國藏族獨有的語言,包括其文字的書寫方式,都帶有濃厚的民族特色,與我國漢字存在很大差異。因此要加強對藏文文字識別技術(shù)的發(fā)展,為藏區(qū)與其他地區(qū)的溝通帶來便利。藏文文字識別技術(shù)在不斷實踐過程中,總結(jié)出一定經(jīng)驗和方法,但仍存在許多不足之處。例如藏文文字識別準(zhǔn)確度不夠高、一些語句表達不夠完全等。因此需要針對這些暴露出的問題進行進一步分析與改革,使藏文文字識別技術(shù)得到更加具體的應(yīng)用,加強各民族之間的交流,促進我國藏族地區(qū)的穩(wěn)定和諧發(fā)展。
參考文獻:
[1] 王維蘭, 盧小寶, 蔡正琦,等. 基于部件組合的聯(lián)機手寫“藏文—梵文”樣本生成[J]. 中文信息學(xué)報, 2017, 31(5):64-73.
[2] 朱利娟, 云中華, 邊巴旺堆. 基于極坐標(biāo)變換的脫機手寫藏文字符特征提取方法[J]. 計算機應(yīng)用與軟件, 2018,11(3):162-166.
[3] 拉巴頓珠, 歐珠, 趙棟材. 藏文自動分詞系統(tǒng)中虛詞識別算法研究[J]. 計算機應(yīng)用與軟件, 2017, 34(9):299-301.
[4] 劉芳, 張云洋. 基于像素鄰域點信息的藏文圖像細化算法研究[J]. 計算機技術(shù)與發(fā)展, 2018, 28(4):21-24.
[5] 扎西拉旦, 安見才讓. 藏文字結(jié)構(gòu)自動識別與形式化描述研究[J]. 中國信息化, 2018(3):61-64.
[6] 李亞超, 加羊吉, 江靜,等. 融合無監(jiān)督特征的藏文分詞方法研究[J]. 中文信息學(xué)報, 2017, 31(02):76-80+90.
[7] 王維蘭, 盧小寶, 蔡正琦,等. 基于部件組合的聯(lián)機手寫“藏文—梵文”樣本生成[J]. 中文信息學(xué)報, 2017, 31(5):64-73.
【通聯(lián)編輯:張薇】