孟一飛+楊文慧+謝堂健+劉麗萍
摘要:西夏文是記錄古代黨項羌語言的文字,共約6000字。在西夏文西夏文數(shù)字化發(fā)展歷程中,如何保存、利用、出版西夏古籍文獻,是西夏學(xué)者一直以來的研究重點。如何基于Unicode建立一個西夏文True Type字體庫并且與其他語言共同錄入或輸出成為社會各界和出版工作者需要解決的現(xiàn)實問題。在西夏文Unicode編碼方案的基礎(chǔ)上,結(jié)合西夏古籍文字的字形特征,為了保證字形的準確性,充分還原西夏文字的形態(tài),通過基于文字構(gòu)件的字模設(shè)計和True Type字體技術(shù)創(chuàng)建了西夏古籍文獻字體庫,成功地實現(xiàn)了西夏、漢字、英文的同屏顯示處理。西夏文字體庫的建立對推動西夏文信息處理及西夏古籍文獻的數(shù)字化有重要意義。
關(guān)鍵詞:西夏文;Unicode編碼;文字構(gòu)件;古籍文字字形;True Type字庫
中圖分類號 :TP391.12 文獻標識碼:A 文章編號:1009-3044(2017)26-0166-03
Abstract:The Tangut script is the record of the ancient party of the Qiang language, a total of about 6,000 Words. In the study of Tangut history and culture in recent hundred years, how to preserve, use and publish the Tangut literature of the XiXia Dynasty has been the goal of several generations of Tangut scholars. How to build a Tangut True Type font library Based on Unicode and input or output it with other languages is a realistic problem that all circles of society and publishing workers need to solve. Based on the coding scheme of Tangut Unicode, this article combines the font features of Tangut characters, In order to ensure the accuracy of the glyphs and to fully restore the form of the Tangut script, through the font design Based on the text component and True Type font technology to create the Tangut font library. It successfully achieved the same screen display of Tangut script, Chinese characters and English. The establishment of Tangut font library is of great significance to promote the information processing of Tangut script and the digitization of Tangut script literature.
Key words: tangut script,;unicode encoding; text component; ancient characters; True Type font library
1 概述
1.1 西夏學(xué)與西夏文研究
西夏(1038-1227年)是中國歷史上由黨項族在中國西部建立的一個政權(quán)。在西夏立國前夕,李元昊(西夏開國皇帝)建議創(chuàng)立屬于本國的語言,遂仿照漢字創(chuàng)立了西夏文[1]。西夏文字曾在西夏王朝統(tǒng)治的地區(qū)盛行,應(yīng)用范圍十分之廣泛,如官署文書、法律條例、審案記錄、買賣文契、文學(xué)著作、歷史書籍、字典詞書、碑刻、印章、浮牌、錢幣、以及譯自藏、漢文的佛經(jīng)等。20世紀在中國歷史文獻和考古的幾次重大發(fā)現(xiàn),使西夏學(xué)有了長足的發(fā)展。20世紀初期,俄國探險家科茲洛夫前后兩次對中國黑水城遺址進行了有組織的發(fā)掘工作[2],發(fā)現(xiàn)了大量的西夏文相關(guān)的文物和文獻資料。其中最為重要的就是被學(xué)術(shù)界譽為“打開西夏文字之門金鑰匙”的一本西夏文和漢語雙解詞語集《番漢合時掌中珠》,由此催生了一個幾乎敦煌學(xué)齊名的現(xiàn)代學(xué)科—西夏學(xué)。國內(nèi)外多處收藏的西夏文獻寶庫,這些發(fā)現(xiàn)為當(dāng)今西夏文的研究奠定了堅實可靠的基礎(chǔ),西夏文字已成為西夏文化中最為珍貴的文化遺產(chǎn),具有很高的研究和傳承價值。
1.2 西夏文數(shù)字化的發(fā)展
西夏文的數(shù)字化研究開始于20世紀后半葉,隨著信息技術(shù)的高速發(fā)展和國內(nèi)外對西夏文研究的不斷深入,西夏古籍文獻的研究逐漸朝著數(shù)字化方向發(fā)展[3]。字符制作軟件的問世使得西夏文的計算機字符相繼生成。隨后,各種不同編碼形式的西夏文字符集也在各國陸續(xù)推出。
在西夏文近百年研究歷史中,國內(nèi)外西夏學(xué)研究學(xué)者們一直在為西夏文的數(shù)字化發(fā)展付之努力。在國外最具代表性的西夏文字符集是由日本東京外國語大學(xué)亞非語言文化研究院和文字鏡研究會開發(fā)研制的文字鏡西夏文字庫和排版系統(tǒng),但是這套字庫從未公開化使用,除了本單位進行使用外,沒有授權(quán)其他單位使用。同時,由中國臺灣中央研究院歷史語言學(xué)研究所制作的西夏文字符集在21世紀初完成,該研究中心應(yīng)用該字符集成功設(shè)計了西夏文字形屬性數(shù)據(jù)庫[4]。
在中國大陸由寧夏大學(xué)主持的國家自然科學(xué)基金項目,開發(fā)并且研制出了《夏漢字處理及電子字典》,這套系統(tǒng)的其中一個課題就是關(guān)于西夏文字符集的創(chuàng)立。但由于這套系統(tǒng)的錄入方法及其繁瑣,難以實現(xiàn)大規(guī)模西夏文文獻的錄入,因此這套系統(tǒng)也沒有廣泛地被推廣使用。但值得一提的是這套系統(tǒng)是當(dāng)時在國內(nèi)外首個能夠獨立完整實現(xiàn)在個人電腦上進行西夏文錄入編輯和排版的軟件,可以實現(xiàn)不同文字的混排和互譯,對西夏文數(shù)字化研究具有重要的作用。其中最重要的研究成果是建立了“西夏文字形屬性資料庫”,并通過數(shù)據(jù)庫的方式對西夏文字頻進行了統(tǒng)計學(xué)的研究分析,致力于解決編纂西夏文常用字和次用字。endprint
2005年西夏學(xué)研究者景永時和賈常業(yè)針對現(xiàn)有系統(tǒng)的不足,進行了改進,這就是在學(xué)術(shù)界非常有名的《基于北大方正典碼之上的西夏文錄入系統(tǒng)》,該系統(tǒng)通過模仿漢字的楷體字形制作了全新的西夏文字符集。2007年該套字符集被國際標準化組織(ISO)選定為《信息技術(shù)通用多八位編碼字符集(UCS)》,這套字符集是目前國內(nèi)外收錄西夏文字最準確、數(shù)量最大的一套,被國內(nèi)外眾多機構(gòu)和研究學(xué)者所采用。
1.3 西夏文字體庫的應(yīng)用前景
20世紀初,由于帝國主義侵略以及對中國古文物的開采掠奪,使得大批西夏文文獻流落國外。 在西夏文的數(shù)字化發(fā)展過程中,如何保存、利用、出版西夏文獻,是研究和喜愛西夏學(xué)的學(xué)者一直努力奮斗的目標[5]。西夏文是歷史遺留給我們的文化財富,在現(xiàn)代文明的沖擊下,這些古文字逐漸被遺忘或消亡,因此在信息時代創(chuàng)建西夏古籍文字字體庫對保護和發(fā)揚這些非物質(zhì)文化遺產(chǎn)具有重要的歷史意義,也是促進西夏文數(shù)字化發(fā)展的基礎(chǔ)性工作。現(xiàn)存的西夏古籍文獻中,例如碑文、佛經(jīng)中書寫體字形清晰、剛勁有力、美觀大方、字距行距安排合理、視覺空間張弛有度,使得文本閱讀起來流暢自如,這些古文字形充分展現(xiàn)了西夏文書寫藝術(shù)的最高水平和當(dāng)時的文化底蘊,因此開發(fā)創(chuàng)建基于文字構(gòu)件的西夏文字體庫能夠以文本的形式再現(xiàn)西夏古籍文獻中的古文字形,將徹底改變古籍文獻“紙書于筆”的傳承方式,使得紙質(zhì)版或者碑文中的古文字形能夠以電子文本的方式保存下來[6],并且充分體現(xiàn)古文字的藝術(shù)性和歷史韻味。此外,隨著西夏文印刷字體廣泛應(yīng)用于文獻翻譯研究、印刷出版等相關(guān)領(lǐng)域,這不僅豐富了西夏文字庫的字體形式,賦予西夏文新的發(fā)展內(nèi)容,還擴大了西夏文的使用范圍,有利于西夏文的保存、收藏以及傳播,加快了西夏文的數(shù)字化進程,使西夏學(xué)更好地服務(wù)于中華傳統(tǒng)民族文化和教育事業(yè)的發(fā)展,讓國內(nèi)外更多的人認識并了解西夏學(xué),充分感受神秘西夏學(xué)的魅力。
2 研究現(xiàn)狀
2.1 Unicode 9.0與西夏文字編碼
2.1.1 西夏文字統(tǒng)一編碼之前的西夏字體庫
過去曾經(jīng)存在過不少西夏文字體,比如:景永時字體、韓小忙字體、柳常青字體、日本今昔文字鏡字體等。這些字體的共同特點是占用漢字的編碼空間,使得這些字體在Word里使用時必須不停的設(shè)置字體,否則將會顯示為漢字。而且這些字體都互不兼容。如果設(shè)置不當(dāng)則會和漢字混合顯示影響閱讀理解。另外由于國際標準的不完善以及民間形式多樣古文字字庫編碼方案使用混亂,Windows環(huán)境下輸入法都在使用獨自開發(fā)的沒有規(guī)范化的古文字字庫編碼,且互不兼容,因此給西夏文與其他語言文化之間的信息交流帶來了極大的不便。
2.1.2 Unicode 9.0
在Unicode被廣泛使用前,世界上存在著多種編碼方式,一種文字也可能有多種編碼方案。因此,如果用錯誤的編碼方式解讀一個文本文件,就會出現(xiàn)亂碼或者顯示為問號、空白或方格,給信息的傳遞帶來了極大的不便。隨著計算機在全球的發(fā)展以及在全球的普及,編碼的問題日益重要[7],人們需要一種更加靈活和統(tǒng)一的編碼系統(tǒng),而Unicode出現(xiàn)解決了ASCII碼不能表示的符號問題,它是一種所有符號的編碼,每個字符都有唯一標識的二進制編碼,任何字符都可以轉(zhuǎn)換成Unicode,以滿足跨語言、跨平臺進行文本轉(zhuǎn)換、處理的要求[8]{邱發(fā)林, 2006 #82}。Unicode編碼是目前最完善并且規(guī)模最大的字符集,現(xiàn)在可以容納100多萬個符號,每個符號的編碼都不一樣,比如,U+590F表示漢字“夏”,U+0061表示英語的小寫字母a,U+0042表示英語的大寫字母B。Unicode已經(jīng)成為國際軟件和多語言環(huán)境中主要使用的編碼方案,2016年6月最新版本的Unicode是9.0版本。
為了規(guī)范西夏文編碼方案,世界各國的西夏文研究員積極開展申請西夏文Unicode編碼的工作,在2006年美國加利福尼亞大學(xué)語言學(xué)系Richard博士向國際Unicode組織申請對西夏文分配Unicode編碼。在經(jīng)歷了多年的討論和研究后,Unicode于2016年6月的9.0版本終于收錄了西夏文字符。截至目前,Unicode組織為西夏文分配的碼位范圍從U+17000至U+187EC共5910個字符位,收錄了1986年、1997年李范文《夏漢字典》字體(1999年馬希榮制作2套字庫),韓小忙字體(2004年《西夏文正字研究》所用字體),荒川慎太郎字體(2006年“文字鏡研究會”),景永時字體(2008年“西夏文字處理系統(tǒng)”所用字體)等作為西夏文字形數(shù)據(jù)庫[9]。西夏文Unicode編碼的建立有效促進西夏文字庫的國際標準化,成功解決了西夏文占用漢字碼位、漢字和西夏文字同屏顯示等問題。本文的西夏古籍文字體庫就是基于Unicode編碼方案進行創(chuàng)建的。
2.2 目前的西夏文字體庫
隨著西夏文研究工作的廣泛開展和信息化處理技術(shù)的快速發(fā)展,各種新的文字信息化處理技術(shù)應(yīng)運而生,編碼體系也從早期的各國、各民族文字單獨編碼到當(dāng)前世界統(tǒng)一編碼Unicode碼的建立和不斷擴充;字體技術(shù)從早期的點陣技術(shù)發(fā)展到最新的TrueType輪廓字體技術(shù),各種新技術(shù)的發(fā)展為實現(xiàn)西夏文字體庫的創(chuàng)建研究提供了可靠的技術(shù)支持[10]。目前的西夏文字體庫如景永時字體庫、日本今昔文字鏡字體庫等大多是仿制漢字楷體形式的,沒有自己獨特的筆形特征,因而不能體現(xiàn)西夏古文字所具有的獨特美感和藝術(shù)性。而本文所要創(chuàng)建的西夏文字體庫是基于西夏古籍文獻原始圖像之上的字庫建立的研究,也是傳統(tǒng)藝術(shù)與現(xiàn)代科技的碰撞結(jié)合的產(chǎn)物,最大限度的還原古籍文字的原始韻味,豐富西夏字體庫的多樣性,突顯西夏文字的美感、力道、思想性和藝術(shù)性。
3 基于文字構(gòu)件的字模設(shè)計
本文選取了現(xiàn)藏于國家博物館的“敕燃馬牌”中的文字為例,如圖 1所示,從文字結(jié)構(gòu)上可以看出,西夏文是從成熟的楷書體漢字的影響下造出來的, 吸取了漢字的基本筆畫和構(gòu)字方法,但字形相比漢字較復(fù)雜,我國古代的漢文典籍中就有西夏文“字畫繁冗,屈曲類符篆”的記載,可見西夏文字的繁雜[11]。本文重點講述基于文字構(gòu)件的西夏字體庫創(chuàng)建的過程,首先設(shè)計字模符號,為了保證字形的準確性和原始性,完全遵循史料中的文字筆形設(shè)計文字構(gòu)件, 各個部分利用Adobe illustrator軟件(是一種應(yīng)用于出版、多媒體和在線圖像的工業(yè)標準矢量插畫的軟件)矢量化,然后全部添加到Illustrator符號庫中, 如圖 2所示。endprint
文字構(gòu)件處理完之后,接下來就是將這些符號進行任意重組,就可以得到不同的西夏文字,此時,重組后的西夏文也是矢量字體,將字體保存為.ai格式。下面圖 3展示的矢量重組后的西夏古文字:
4 創(chuàng)建True Type西夏文字體庫
TrueType是一款包含字形壓縮、還原等整套字形處理技術(shù),它與漢字系統(tǒng)普遍采用的Post Script字形技術(shù)相比有更好的字形和更快的還原速度。該字體采用直線和二次Bezier曲線來描述字形輪廓,克服了點陣字體、矢量字體和向量輪廓字體顯示、處理易失真的缺陷,能夠平滑連接每個字體輪廓的曲線和線段,使得任意放縮大小字模都不出現(xiàn)變形結(jié)果[12]。將上述過程中處理好的字模,導(dǎo)入到Font Creator軟件中,F(xiàn)ont Creator是一款可以制作和編輯字體、符號的工具,主要功能包括:查看和編輯TureType 和OpenType字體、創(chuàng)建新的符號或字體、修改單個字形的輪廓、添加或編輯合成符號、調(diào)整字符距離、編輯修改字體名稱和轉(zhuǎn)換單個字符或整個字體等,是文字更加規(guī)范美觀。
在FontCreator中將導(dǎo)入的ai格式的字模進行縮放、旋轉(zhuǎn)、動等處理后導(dǎo)出,就可生成一個格式為.ttf的True Type字體文件,這一過程相當(dāng)于進行人工修飾,使古籍中文字所包含的力道與美感表現(xiàn)出來,這些過程電腦程序則無法自動實現(xiàn)。每一個西夏文字形都由一組Bezier曲線構(gòu)成,如圖 4所示,可以通過添加、刪除或調(diào)整Bezier曲線上點的位置這些操作對字形進行修整、美化和平滑輪廓。然后可以設(shè)置字體參數(shù),如字模的大小、位置、軸線等。最后按西夏字庫編碼表確定該字形的Unicode字符集中的編碼值,西夏文的Unicode編碼標準規(guī)定西夏文的編碼介于U+17000至U+187EC之間。所有字符制作完成并導(dǎo)出字體后就完成西夏文TrueType字體庫的創(chuàng)建。
5 西夏文字體庫的安裝與使用
將導(dǎo)出的字體庫雙擊,可以直接安裝到Windows系統(tǒng)的字體庫里了。需要注意的是,在使用本字體庫之前,需要安裝一個西夏文輸入法。
按Unicode編碼體系進行編碼后生成的西夏文TrueType字體庫安裝到Windows系統(tǒng)中后,就可隨意使用這個西夏文字庫了。在Word文檔中,字體一欄選擇新西夏文字體,切換到西夏文輸入法,按每個文字對應(yīng)的編碼來輸入該西夏文字,在Word界面顯示的西夏文如圖 5所示:
6 結(jié)論
在數(shù)字化技術(shù)越來越發(fā)達的當(dāng)代社會,傳統(tǒng)文化研究學(xué)者也越來越不拘泥于在紙制品上研究中國古文字。本文的西夏文字體庫是基于西夏古籍文獻原始圖像進行創(chuàng)建的,充分體現(xiàn)中華傳統(tǒng)文化與現(xiàn)代科技的完美融合,該字體庫能夠真實的再現(xiàn)古籍文獻中西夏文字的筆形原貌,較好地保持西夏文原有的韻味與美感,有利于傳統(tǒng)文化的傳承和發(fā)揚。西夏文字體庫的建立,為西夏文國家標準字庫的建立提供了有益的參考,同時對于西夏古籍文獻的保存和收藏以及西夏古籍文獻的數(shù)字化發(fā)展有一定的促進作用,對于其他少數(shù)民族語言文字的字體庫建立也提供了借鑒和參考。本文研究的目的就是使西夏文可以更加方便快捷使用和研究,并且作為中華文化遺產(chǎn)可以更長久的保存下來。本文所講述的方法雖然簡單,但是工作量巨大。相信隨著時間的推移,會有越來越多的更加快捷簡便的方法可以將中華古老文化永恒的流傳下來,讓整個世界都能體會到中華文化的博大精深。
參考文獻:
[1] 史金波. 西夏文概述[C]. 中國民族古文字研究, 1980.
[2] 束錫紅, 府憲展. 英藏黑水城文獻和法藏敦煌西夏文文獻的版本學(xué)價值[J]. 敦煌研究, 2005(5):48-53+120-121.
[3] 景永時. 西夏文數(shù)字化的現(xiàn)狀與未來[J]. 西夏學(xué), 2011(1).
[4] 柳長青. 西夏文計算機數(shù)字化現(xiàn)狀與展望[J]. 西夏學(xué), 2011(1):204-209.
[5] 導(dǎo)夫. 基于方正書版(Founder BookMaker9.X/10.X)的西夏文字處理技術(shù)研究[J]. 寧夏大學(xué)學(xué)報:人文社會科學(xué)版, 2005(2):89-94.
[6] 吳勰. 貴州古彝文True Type字體開發(fā)與設(shè)計[J]. 畢節(jié)學(xué)院學(xué)報, 2012(11):30-33.
[7] 鐘小莉, 謝旻旻, 李永寧. 文字編碼與Unicode編碼研究[J]. 經(jīng)營管理者, 2010(20):364.
[8] 瓦熱斯江·阿布都克力木. 維文Unicode在線處理技術(shù)與實現(xiàn)[D]. 新疆大學(xué), 2002.
[9] 柳長青. 西夏文古籍字庫建立研究[C]. 黑水城文獻與西夏學(xué)國際學(xué)術(shù)論壇, 2010:7.
[10] 張浩華. 納西象形文字信息化處理方法及輸入平臺的設(shè)計與實現(xiàn)[D]. 昆明理工大學(xué), 2003.
[11] 呂科. 西夏文字庫的建立與實現(xiàn)[J]. 寧夏大學(xué)學(xué)報:自然科學(xué)版, 1998(3):75-77.
[12] 吳海輝, 樊慶林, 王虎. TrueType字體技術(shù)的研究分析與應(yīng)用[J]. 電腦知識與技術(shù)(學(xué)術(shù)交流), 2007(3):783-784+794.endprint