摘要:采用XML技術(shù)開展古籍專書的標(biāo)注和研究,是計算機輔助語言研究的一個新領(lǐng)域。利用該標(biāo)注技術(shù)建成的清人小學(xué)注疏五種詞源研究語料庫,對清代五部小學(xué)注疏詞源研究成果的諸多方面有著準(zhǔn)確的反映,為研究者查詢利用相關(guān)詞源研究成果提供了極大便利。該語料庫的建設(shè)能為應(yīng)用XML技術(shù)處理古籍文本,提取相關(guān)語言學(xué)知識提供借鑒。
關(guān)鍵詞:XML詞源學(xué)建模技術(shù)數(shù)字化一、引言
《廣雅疏證》《說文解字注》《爾雅義疏》《方言箋疏》《釋名疏證補》這五部清代小學(xué)注疏作品,不僅保存了歷代探索字詞源流豐富的詁訓(xùn)資料,而且能以“因聲求義”之法疏解詞義、補證理據(jù)、說解詞源,堪稱傳統(tǒng)詞源研究的一座寶庫?,F(xiàn)代先進的信息技術(shù),為我們利用這些古籍開展現(xiàn)代詞源學(xué)研究提供了有力支撐。
我們利用XML標(biāo)注技術(shù)[1]建成了清人小學(xué)注疏五種詞源研究語料庫,該語料庫對清代五部小學(xué)注疏詞源研究成果的諸多方面有著準(zhǔn)確的反映。通過檢索該語料庫,研究者可以及時而清楚地了解:1.各家對某組語詞是否同源的判斷;2.各家論證某組語詞同源關(guān)系所征引的文獻證據(jù)和語音證據(jù);3.各家研究古今字、通假字、異體字的情況。下文將對該語料庫的建設(shè)作詳細介紹。
二、電子文本的生產(chǎn)
清人小學(xué)注疏五種的電子文本由吾師尉遲治平教授及門下弟子共同完成,筆者為主要參與者之一。
五種文本均系手工錄入,所用底本之版本信息如下:
《廣雅疏證》(中華書局,王氏家刻本影印,1983年版)
《說文解字注》(上海古籍出版社,經(jīng)韻樓本影印,1981年版)
《爾雅義疏》(上海古籍出版社,郝氏家刻本影印,1983年版)
《方言箋疏》(上海古籍出版社,仁和王文韶紅蝠山房??居坝。?983年版)
《釋名疏證補》(上海古籍出版社,光緒丙申刊本影印,1984年版)
我們在制作以上電子文本的過程中,以“存真”為基本原則,盡量保持典籍原貌。
所有文本文件均采用支持超大字符集的“UTF-8編碼”?!癠TF-8編碼”是國際標(biāo)準(zhǔn)超大字符集統(tǒng)一碼“Unicode”的一種變長字符編碼,又稱“萬國碼”。用在網(wǎng)頁上,可以在同一頁面顯示簡體中文、繁體中文及其他語言,其顯示范圍遠大于“ANSI”。[2]在字體選擇上,我們選擇了“宋體-方正超大字符集”和“PMingLiU-ExtB”字體,以保證絕大多數(shù)古籍漢字的正確錄入與顯示。即便如此,清人小學(xué)注疏五種中依然有少數(shù)古文字、俗字、別字、冷僻字等無法正常錄入和顯示。針對此問題,我們對古籍文本在堅持“存真”的基本原則下,用既有的漢字字形來組字造字,其組字規(guī)則及示例如下:
表1:
所用符號字形結(jié)構(gòu)說明示例
*左右結(jié)構(gòu)明: 日*月
/上下結(jié)構(gòu)皇: 白/王
@包含結(jié)構(gòu)虎: 虍@幾
﹢﹣增減部件虔:虎-幾+文
所有文本均系繁體字純文本,能夠進行字符串的全文檢索,并能夠供諸位學(xué)人根據(jù)自己需要作進一步加工或標(biāo)注。
三、清人小學(xué)注疏五種的數(shù)據(jù)建模
(一)構(gòu)建樹形結(jié)構(gòu)圖
清人小學(xué)注疏五種橫跨雅學(xué)、說文學(xué)兩大領(lǐng)域,性質(zhì)不同,體例不一,具體文檔結(jié)構(gòu)更是紛繁復(fù)雜。現(xiàn)要集合五種注疏,綜合利用,惟有求同存異,小而統(tǒng)之,粗分大類。
大致而言,五種注疏皆包含了序言、正文、附錄三個部分。正文部分包含了大量我們需要分析的語言學(xué)屬性。初步分析,五種注疏的正文部分都是篇目名和逐條小學(xué)注疏循環(huán)構(gòu)成的一個整體。
由小學(xué)原文和清人注疏構(gòu)成的單條小學(xué)注疏的內(nèi)部情況雖復(fù)雜多樣,但各個研究者都可以根據(jù)自己的研究目的,對其內(nèi)容作出自己的分析。因我們的研究主要關(guān)乎詞源研究,所以我們將單條小學(xué)注疏下面細分出一條條分析聲義同源的字詞關(guān)系斷語,字詞關(guān)系斷語下面又可以析分出數(shù)個聲義同源的同源字。
基于詞源學(xué)的研究初衷,我們畫出了清人小學(xué)注疏五種文檔的樹形結(jié)構(gòu)圖,如圖1:
圖1:文檔結(jié)構(gòu)樹形圖
(二)使用XSD Schema進行數(shù)據(jù)建模
1.設(shè)計標(biāo)記名
鑒于我們需要提取分析的語言屬性、語言知識都存儲在清人小學(xué)注疏五種文檔中的正文部分,為了文檔結(jié)構(gòu)層次的簡潔、經(jīng)濟,我們擬直接以清人小學(xué)注疏五種正文作為我們的根元素,序言、附錄等暫時被剝離,這不會影響我們工作的開展。另外,由于目前大量主流軟件尚不支持漢字標(biāo)記,我們便采用漢語拼音作為標(biāo)記。對根元素及各節(jié)點子元素的標(biāo)記分別定義如下:
清人小學(xué)注疏五種正文:qingrenxiaoxuezhushu
篇目名: pianmuming
疏證語段:zhushuquanwen
字詞關(guān)系斷語:ziciguanxiduanyu
同源字:tongyuanzi
2.編寫擴展名為“xsd”的文件
Schema是強大而靈活的數(shù)據(jù)建模工具。XML Schema的W3C的推薦標(biāo)準(zhǔn)叫作XSD,它可以準(zhǔn)確地描述文檔結(jié)構(gòu),即定義XML文件中允許哪些元素和屬性、哪些元素和屬性是必需的、哪些是可選的、允許的數(shù)據(jù)種類以及XML文件內(nèi)容和結(jié)構(gòu)的其他方面。使用XSD建模的成品是擴展名為“xsd”的源文件。[3]該文件代表了上面我們對清人小學(xué)注疏五種文檔結(jié)構(gòu)分析的成果,既能夠鏈接到已有的XML文檔中,以驗證其文檔的有效性,也可以作為模式架構(gòu),添加到文本編輯器中,以實現(xiàn)XML標(biāo)記的自動標(biāo)注。其源代碼本文暫略。
四、清人小學(xué)注疏五種的標(biāo)注方法
(一)添加架構(gòu)
Office2003聲稱全面支持XML,我們使用其組件Word2003中文版作為XML文檔的編輯器。雖然目前還有大量的處理XML文檔的專門軟件,但它們遠不及Word2003通用易得;特別是Word2003對超大字符集的支持功能在很多軟件中還未實現(xiàn),也促使我們選擇它作為我們工作的軟件平臺。[4]
首先,我們用Word2003打開我們制作的清人小學(xué)注疏五種電子純文本。然后在“工具”菜單上,單擊“模板和加載項”,然后單擊“XML架構(gòu)”選項卡。單擊“添加架構(gòu)”,瀏覽并找到要添加到架構(gòu)庫中的XML架構(gòu)文件(xsd文件),然后單擊“打開”。在“架構(gòu)設(shè)置”對話框中,選擇所需的選項,在“別名”框中鍵入架構(gòu)的名稱,最后點擊“確定”完成。如圖2:
圖2:添加架構(gòu)的方法
(二)半自動標(biāo)注
添加架構(gòu)后,Word2003編輯框右邊會出現(xiàn)如下“XML結(jié)構(gòu)”任務(wù)窗格。我們可以依次在清人小學(xué)注疏五種文檔中選擇相應(yīng)元素,然后在“XML結(jié)構(gòu)”任務(wù)窗格的“選擇一種元素并應(yīng)用于當(dāng)前的選定內(nèi)容”框中單擊一個元素,完成對該元素的標(biāo)注,已標(biāo)注的元素被圖3所示紅色光帶嵌套。標(biāo)注中或完成標(biāo)注后,如文檔結(jié)構(gòu)不符合架構(gòu)規(guī)則,將會在文檔中以紫色波浪線標(biāo)記出來,并在“XML結(jié)構(gòu)”任務(wù)窗格中報告此違規(guī)錯誤。整個標(biāo)注界面如圖3所示:
圖3:標(biāo)注的方法
(三)生成XML文檔
完成標(biāo)注,且通過架構(gòu)驗證的文檔可選擇“文件”菜單上的“另存為”命令,保存為“qingrenxiaoxuezhushu.xml”文檔。為保證其他XML的軟件也能閱讀并處理我們保存為XML格式的文檔數(shù)據(jù),我們選擇“僅保存數(shù)據(jù)”備選項。如圖4:
圖4:生成xml文檔
五、清人小學(xué)注疏五種的屬性提取方法
(一)XML與XSL的整合
XML文檔中事先標(biāo)注過的元素和信息,都可利用XML的可擴展樣式表技術(shù)加以提取?,F(xiàn)欲提取“qingrenxiaoxuezhushu.xml”文檔中的“字詞關(guān)系斷語”和“同源字”兩元素,可編寫“tongyuanzi.xsl”文檔,其源代碼如下:
)
已標(biāo)注的“qingrenxiaoxuezhushu.xml”在鏈接上述“tongyuanzi.xsl”文檔后,經(jīng)IE瀏覽器解析,可直接轉(zhuǎn)換成我們需要的詞源研究資料,包括我們教學(xué)中常用的各種同族詞、古今字、通假字、異體字等方面的寶貴材料。其轉(zhuǎn)換結(jié)果如圖5:
圖5:樣式表轉(zhuǎn)換結(jié)果
(二)HTML對XML的整合
超級文本標(biāo)記語言(即HTML)是一種超文本鏈接標(biāo)記語言,依據(jù)該標(biāo)準(zhǔn)創(chuàng)建的HTML文件具有極強的描述和鏈接下級文本的功能。
為此,我們創(chuàng)建了“清人小學(xué)注疏五種詞源研究語料庫.html”文件。該文件可以順利地整合我們標(biāo)注好的五種清人小學(xué)注疏的XML文檔,并為瀏覽整個語料庫提供一個初始界面,該語料庫初始界面如圖6:
圖6:清人小學(xué)注疏五種詞源研究語料庫
六、結(jié)語
長期以來,在古漢語研究領(lǐng)域,人們最常用的計算機功能僅僅是能提高閱讀速度的全文檢索,但這無助于增進對古籍文本的理解。關(guān)系數(shù)據(jù)庫技術(shù)出現(xiàn)后,人們又將古籍文本的內(nèi)容分析為字段和記錄的形式以存儲,從而為人們獲得較系統(tǒng)的語言學(xué)知識開辟了新的途徑。但是關(guān)系數(shù)據(jù)庫往往會肢解原古籍文檔內(nèi)容的整體性,從而降低語言學(xué)典籍的可讀性。
XML有效避免了這些缺陷,它奉行數(shù)據(jù)存儲與數(shù)據(jù)顯示相分離的原則[5],人們可借助自定義標(biāo)簽,從XML文檔中無限次地提取自己需要的語言學(xué)知識,且能在顯示上與源數(shù)據(jù)相獨立。清人小學(xué)注疏五種詞源研究語料庫的建設(shè),是應(yīng)用XML技術(shù)標(biāo)注處理古籍文檔的一次大膽嘗試,將為應(yīng)用XML技術(shù)處理古籍文本提供寶貴借鑒。
(本文系教育部人文社會科學(xué)研究青年基金項目“清人小學(xué)注疏五種詞源研究語料庫建設(shè)及研究”的階段性成果,項目編號為[11YJC740028])
參考文獻:
[1][3][5]Extensible Markup Language (XML) 1.0 (Fifth Edition) [JB/OL]. http: //www.w3.org/TR/REC-xml,2008-11-26.
[2]RFC 3629 - UTF-8, a transformation format of ISO 10646 [JB/OL].http://www.faqs.org/rfcs/rfc3629.html,2003-11-30.
[4]Peter G.Aitken.微軟XML技術(shù)指南[M].謝君英譯.北京:中國電力出版社,2003.
(甘勇湖北武漢 中南財經(jīng)政法大學(xué)新聞與文化傳播學(xué)院430073)