王海燕,王紅軍,,徐小力
(1. 北京信息科技大學 機電學院,北京 100192;2. 北京信息科技大學 現(xiàn)代測控技術教育部重點實驗室,北京 100192)
基于拓撲特征的納西東巴文象形文字輸入方法研究
王海燕1,王紅軍1,2,徐小力2
(1. 北京信息科技大學 機電學院,北京 100192;2. 北京信息科技大學 現(xiàn)代測控技術教育部重點實驗室,北京 100192)
納西東巴文字是一種比甲骨文還要原始的圖畫象形文字,該文針對大量納西經(jīng)典古籍資料需要錄入、整理、分析的需要,設計一種普通用戶即可使用的基于拓撲特征的輸入方法。首先針對納西東巴象形文字的1 561個基本字形的五個拓撲特征-塊數(shù)、孔數(shù)、端點數(shù)、三叉點數(shù)和四叉點數(shù)進行了統(tǒng)計和分析,然后基于Java程序結合TTF字庫文件進行了測試,證明了該方法可行。統(tǒng)計結果表明,50%以上的納西東巴象形文字通過這五個特征可以唯一識別,80%以上的東巴文字通過該方法識別時重復數(shù)不高于4,人工輸入、識別的效率較高,為納西東巴象形文字的輸入方法提供一種新的思路。
納西;東巴;象形文字;輸入方法
東巴文是一種兼?zhèn)浔硪夂捅硪舫煞值膱D畫象形文字,其文字形態(tài)十分原始,甚至比甲骨文的形態(tài)還要原始,屬于文字起源的早期形態(tài),是世界上極少數(shù)依舊活著的象形文字,被譽為文字的“活化石”[1],被國際學界認為是當今世界上唯一還在使用的象形文字[2]。之所以被稱為東巴文,是因為這是納西族特有的宗教-東巴教的東巴(智者的意思)們所使用的文字,至今仍被在世的東巴祭司使用,用來主持各種儀式、寫信、記賬等。東巴們使用這種文字記錄的經(jīng)書稱為東巴經(jīng)(圖1),2003年納西族東巴經(jīng)典古籍被聯(lián)合國教科文組織列為“世界記憶遺產(chǎn)”(Memory of the World)。
東巴經(jīng)典古籍內(nèi)容涉及哲學、歷史、宗教、醫(yī)學、天文、地理、民俗、動植物、軍事、文學和藝術等領域,堪稱納西族古代社會的百科全書[3-4]。但是東巴文一般不容易釋讀,一直被視為“天書”[5],目前只有該領域的專家學者和幾個已年逾古稀的老東巴祭司能釋讀。同時,由于歷史原因,大多數(shù)東巴經(jīng)典原始手稿在一個世紀前甚至更早,就被世界上許多著名圖書館和博物館所收藏,其內(nèi)容又不被收藏者所了解。因此,針對東巴經(jīng)典古籍急需搶救的瀕危狀況,建立了國家社會科學基金重大項目-“世界記憶遺產(chǎn)”東巴經(jīng)典傳承體系數(shù)字化國際共享平臺建設研究(項目號: 12&ZD234),實現(xiàn)東巴文化資源的信息化傳播,并推動東巴傳統(tǒng)文化的保護與發(fā)展。
古籍數(shù)字化就是采用計算機技術,對古籍文獻進行加工、處理,制成古籍文獻書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫,用以揭示古籍文獻中所蘊涵的極其豐富的信息資源,從而達到使用和保護古籍的目的[6]。從國內(nèi)外古籍數(shù)字化的實踐來看,民族古籍數(shù)字化涉及的技術領域非常廣泛, 包括三維建模、人工智能、聲頻、視頻技術、語言處理技術、光學字符識別等幾十種相關技術。劉洋等利用數(shù)字化技術中的虛擬技術較好地解決由于敦煌地域偏遠所帶來的參觀不便,使人們可以免去長途跋涉而欣賞到敦煌的精彩壁畫[7]。
本項目組第一子課題主要進行東巴經(jīng)典的數(shù)字化信息采集與釋讀過程數(shù)字記錄,工作包括對國內(nèi)外收藏信息進行匯集,召開國際研討會,與收藏機構簽訂協(xié)議,實現(xiàn)無爭議共享,對國內(nèi)外藏品實施數(shù)據(jù)采集;按國際慣例對東巴祭司釋讀過程進行現(xiàn)場記錄;本項目的第二子課題主要進行東巴經(jīng)典象形文的釋讀、翻譯與編目整理的研究,通過開展田野調(diào)查,進行書目整理和編目;共同分析各國藏本的存量、來源、時間等;以學術成果為基礎進行調(diào)研、分類與整理,對現(xiàn)存編目進行審核、整理、修正與充實。
圖1 麗江市玉龍納西族自治縣魯?shù)猷l(xiāng)收集的用象形文字書寫的古代東巴經(jīng)書
通過資料的整理與匯總,并借助計算機和網(wǎng)絡技術進行存儲,形成包括納西語、漢語、英語的多語語料庫,為信息檢索和知識庫提供素材,為納西東巴文字庫的建立奠定了基礎。但是由于納西東巴象形文字只有極少數(shù)的人能夠辨識, 很多原始資料的利
用效率太低,文字的辨識、整理工作非常困難,同時能兼具納西東巴文知識、現(xiàn)在漢語知識并熟練應用計算機的人非常少,所以建立一種方便快捷的納西東巴象形文字的輸入法非常必要。
通過在麗江研究院調(diào)研,目前應用的納西東巴象形文輸入法主要有云龍公司的國際音標輸入法和楊曉輝的電子東巴輸入法。前者通過輸入國際音標,輸出對應的納西文字,后者有兩種輸入形式: (1)通過輸入納西音標,輸出對應的納西象形文字;(2)通過輸入漢字,輸出對應的納西象形文字。 這三種方法需要用戶本身對納西文字比較熟悉,僅僅適用于納西東巴文專家,而對于國際共享平臺來說,不能滿足其他文字研究專家、社會研究專家、歷史研究專家以及一般用戶的需求,因此,需要開發(fā)一種更加簡易、容易理解及易于結合圖像處理的輸入方法。
3.1 拓撲特征的提取
納西象形文字是一種圖畫文字,不具備現(xiàn)代漢字那樣規(guī)范的筆畫和順序,跟甲骨文類似,表現(xiàn)出線條圖的特征,因此可以引用圖論中圖的概念,把納西象形文字抽象為圖論中的平面無向圖來處理,提取其拓撲特征作為識別的依據(jù),初步提取的拓撲特征有: 塊數(shù)、孔數(shù)、端點數(shù)、叉點數(shù)四種,說明如下:
(1) 塊數(shù): 即圖論中的連通分支,即塊的個數(shù);
(2) 孔數(shù): 即圖論匯總的內(nèi)網(wǎng)孔數(shù);
(3) 端點數(shù): 即圖論中度數(shù)等于1的頂點,對應于字符中線條的末端;
(4) 叉點數(shù): 即圖論中度數(shù)大于2的頂點,對應于線條的交點,包括三叉點、四叉點、五叉點等。因為是試驗性的研究,故目前僅測試了三叉點和四叉點。
納西古籍中象形文字的變體較多,即同一個字有多種不同的書寫形式,目前統(tǒng)計了1 561個基本字形的拓撲特征,同時為了簡化輸入工作量,將以上四種特征數(shù)大于9的統(tǒng)一標記為9,得到的統(tǒng)計特征如表1所示。
表1 納西象形文字基本字體拓撲特征統(tǒng)計
3.2 識別統(tǒng)計
對納西象形文字的基本字體進行拓撲特征統(tǒng)計后,測試其識別效率,步驟如下。
(1) 單獨記錄所有的納西骨架字體中的特征數(shù),如: 塊數(shù),孔數(shù),端點個數(shù),三叉點數(shù),四叉點數(shù);
(2) 將特征數(shù)合成一個字符串,如E900的塊數(shù)目為1,空數(shù)為0,端點個數(shù)為2,三叉點和四叉點個數(shù)都為0,則合并字符串為: “10200”;
(3) 統(tǒng)計不同特征組合字符串的重復數(shù)量。比如統(tǒng)計特征字符串“10200”的個數(shù)為15,表明具有同樣特征的納西文字共有15個;而符合特征字符串“59145”的納西文字僅有1個。
得到的識別統(tǒng)計表如表2所示, 得到的統(tǒng)計直方圖如圖2所示??梢钥闯?,有一半以上的東巴字通過五個拓撲特征可以唯一定位,有80%以上的東巴字通過這五個特征進行定位時重復數(shù)僅有四個,94.3%的東巴字用這五個特征數(shù)進行定位時重復數(shù)不高于10。
表2 納西象形文字識別統(tǒng)計表
得到納西象形文字的拓撲特征后,可以寫入統(tǒng)計數(shù)據(jù)庫,然后再結合字庫文件進行顯示。曲線輪廓納西象形文字庫一般采用TrueType字庫結構,這種字庫文件由文件首、文件描述表、目錄表和描述表四大部分組成。文字讀取采用多級映射字庫訪問機制,即當用戶使用TTF (TrueType Font)納西文字時,只需給出該納西文字的機內(nèi)碼,TTF解釋器便查找cmap表得到該納西文字在loca表中的文字字模序號,再從loca表中獲得對應納西文輪廓數(shù)據(jù)的存放地址,再從glyf中讀出輪廓數(shù)據(jù)。
因此,基于拓撲特征的納西象形文字輸入方法可以總結為:
(1) 基礎: 建立基于納西象形文字拓撲特征的統(tǒng)計數(shù)據(jù)庫;
(3) 輸出: 通過客戶端讀取用戶的輸入,在數(shù)據(jù)庫查找匹配拓撲特征的納西象形文字,然后輸出到客戶端;
(4) 選擇: 用戶根據(jù)需求確定需要輸出的納西象形文字。
圖3 從符合特征124**的11個選擇中確定“”
圖4 符合特征1240*的唯一納西象形文字“”
納西東巴象形文字對于民族文化和人類文化的傳承有非常重要的作用,其輸入方法是國際共享平臺中非常關鍵的一步。因為東巴文字不為一般用戶所認識,目前只有該領域的為數(shù)不多的專家學者和幾個已年逾古稀的老東巴祭司能夠釋讀。針對大量
的東巴古籍需要進行錄入、整理、統(tǒng)計分析的現(xiàn)狀,在音標輸入法、對應漢字輸入法之外設計一種新的輸入方法,即根據(jù)納西象形文字的拓撲特征進行識別,針對1 561個東巴象形文字的五個拓撲特征(塊數(shù)、孔數(shù)、端點數(shù)、三叉點數(shù)、四叉點數(shù))進行統(tǒng)計,然后結合TTF字庫文件利用Java程序進行文字的錄入和顯示,為東巴象形文字的輸入提供一種新的思路。
東巴象形文字的變體較多,文章僅統(tǒng)計了基本字形,隨著研究的深入,需要增加更多擴展字形的統(tǒng)計信息;同時,對于拓撲特征的優(yōu)化選擇及配置,需要進一步的試驗,以提高輸入效率和識別效率。
致謝 感謝國家重大社科基金對于本研究的支持,感謝麗江東巴文化研究院對本研究工作的支持。
[1] 林向蕭. 關于“東巴文是什么文字”的再探討 [J]. 云南民族學院學報, 2002, 19(5): 83-89.
[2] X L Xu, G X, H J Wang, et al. Construction of an International IT-Driven Sharing Platform for Inheriting and Communication of Dongba Manuscripts [J]. Applied Mechanics & Materials, 2014, 610: 760-763.
[3] 白庚勝. 白庚勝納西學論集 [M]. 北京: 民族出版社, 2008.
[4] Zheng Liping. The Living Hieroglyphs, The Picture and Characters of Naxi Dongba [J]. Art and Design, 2009, 12: 311-313.
[5] Nishida Tatsuo. The Living Hieroglyph-Naxi Nationality’s Culture [M]. Japan Public Books.1996.
[6] ?;萜? 張琳. 對我國古籍數(shù)字化相關問題的研究 [J]. 當代圖書館, 2006, 85(1): 39-42.
[7] Liu Yang, Lu Dongming, Diao Changyu, et al. Dunhuang 284 Cave Multimedia Integrated Virtual Exhibit [J]. Journal of Computer-aided Design & Computer Graphics, 2004, 16(11): 1528-1534.
Research on Input Method of Naxi Dongba Hieroglyphs Based on Topological Characteristics
WANG Haiyan1, WANG Hongjun1,2, XU Xiaoli2
(1. School of Electromechanical Engineering, Beijing Information Science and Technology University, Beijing 100192, China;2. Key Lab of Modern Measurement & Control Technology (BISTU), Ministry of Education,Beijing Information Science and Technology Univerity, Beijing 100192, China)
Naxi Dongba characters are a kind of pictographs that is even more primitive than Oracle pictographs. As there is a large number of ancient Naxi classical books are needed to be protected and input into the computer system, an input method based on the topological characteristics of Dongba characters is designed for ordinary users. Firstly, the five basic topological features including number of blocks, number of holes, end points counts, three-connection-points counts and four-connection-points counts of 1,561 Naxi Dongba characters are after statistics and recorded. After that, this method is tested by a Java-based program combined with TTF font file and it proves that the method is feasible. Statistics show that more than 50% of Dongba pictographs can be identified uniquely through these five characteristics and more than 80% of them can be identified by this method with no more than 4 repetitions. It provides a new way to input Naxi Dongba hieroglyphs with the manual input and with high efficiency of identification.
Naxi; Dongba; hieroglyphs; input method
王海燕(1979-),碩士,講師,主要研究領域為系統(tǒng)優(yōu)化、信息化。E-mail:asmylady@163.com王紅軍(1966-),博士,教授,主要研究領域為信息化、故障診斷等。E-mail:wanghj86@163.com徐小力(1951-),博士,教授,博士生導師,主要研究領域為光機電信息及數(shù)字化網(wǎng)絡化技術。E-mail:xuxiaoli@bistu.edu.cn
1003-0077(2016)04-0106-04
2014-02-17 定稿日期: 2015-06-09
國家社科基金(12&ZD234)
TP391
A