扎西加,高定國
(1. 西藏大學(xué) 工學(xué)院計算機科學(xué)系,西藏 拉薩 850000;2. 西藏大學(xué) 藏文信息技術(shù)研究中心,西藏 拉薩 850000)
據(jù)目前相關(guān)報道: 西北民族大學(xué)建立了1.3億字節(jié)的大型藏文語料庫,用于藏文詞匯頻度和通用度的統(tǒng)計;中國社會科學(xué)院民族學(xué)與人類學(xué)研究所建立了 500 萬藏語字符的藏語語料庫,進(jìn)行詞語切分和標(biāo)注的研究;青海師范大學(xué)建立了100萬字的藏語語料庫;西藏大學(xué)也建立了規(guī)模較大的藏語文本語料庫和語音語料庫,語料庫的收集范圍比較廣泛,并且正在不斷地擴充,豐富了藏語語料庫的內(nèi)容和應(yīng)用范圍。
“語料庫不是任意文本的隨意堆積,為了發(fā)揮語料庫的作用,通常都需要對語料庫進(jìn)行一定的加工,進(jìn)行何種加工和加工深度如何通常和應(yīng)用目標(biāo)相關(guān)”[1]。經(jīng)過不同階段的語料庫加工處理,語料庫所攜帶的信息也不斷地增加和完善,最終將成為一個名副其實的語言知識庫。這樣的知識庫可以為藏語統(tǒng)計分析、機器理解和機器翻譯提供豐富的資源。
藏文編碼的不統(tǒng)一問題導(dǎo)致語料分散,資源無法共享。目前有北大方正、華光、同元、班智達(dá)、桑布扎等近10種編碼不同的藏文字處理軟件,各種語料資源編碼不一,互不兼容。因此,便于語料庫的管理、處理、共享和交換,我們將不同編碼的語料資源全部統(tǒng)一為藏文ISO/IEC10646的小字符集編碼。TEI(Text Encoding Initiative)語言作為編碼的元語言,它是目前在信息處理界普遍使用的置標(biāo)語言,TEI所訂規(guī)范的應(yīng)用范圍廣,標(biāo)記的層次高,通用度強,軟件支持好,因此對藏語語料庫采用TEI語言來標(biāo)記。
“TEI適用于對電子形式的全文的編碼和描述。TEI元數(shù)據(jù)標(biāo)準(zhǔn)同時也規(guī)定了可供數(shù)據(jù)交換的標(biāo)準(zhǔn)編碼格式,使用SGML作為編碼語言”[2]。TEI 格式具有很大限度的靈活性、 綜合性、可擴展性,能支持對各種類型或特征的文檔進(jìn)行編碼。TEI元數(shù)據(jù)標(biāo)記可以對語料庫的文本屬性信息與文本結(jié)構(gòu)信息進(jìn)行規(guī)范的標(biāo)記。
TEI文檔,也是一個SGML文檔,一般有四個部分: teiHeader(題名), front(文本前的信息), body(正文), back(文本后的信息)。其含義分別是:
TeiHeader: 對電子文本對象的描述。front: 對正文前的信息描述,包含位于文件最前端的項目 (標(biāo)頭、題名頁、前言、獻(xiàn)詞等)。body: 對正文信息的描述,單篇文章的整體部分,不包含正文前及正文后信息。back: 對正文后的信息描述,包含附錄等。
TEI標(biāo)頭的第一層可以包含
TEI元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定了描述文本的書目信息所需要的標(biāo)記,主要在fileDesc部分,有6個復(fù)合元素;在此6種元素的基礎(chǔ)上,為了便于對語料搜索和統(tǒng)計,可自定義語料的標(biāo)題、作者、來源、領(lǐng)域、體裁、語言層次、文類、語式、年代、譯者、編者、本次、版本、出版、日期、語言、國家、性別、年代、創(chuàng)作時間、記錄者等18項屬性信息,具體如下:
1)標(biāo)題屬性信息
2)作者屬性信息
3)來源屬性信息
4)領(lǐng)域?qū)傩孕畔?/p>
5)載體屬性信息
6)語言種類信息
7)語式屬性信息
8)年代屬性信息
9)譯者屬性信息
10)編者屬性信息
11)版本屬性信息
12)地方屬性信息
13)出版屬性信息
14)語言屬性信息
15)國家屬性信息
16)作者性別屬性信息
17)時代屬性信息
18)記錄者屬性信息
以上18項屬性信息比較全面地反映了一個文本的總體信息,在實際標(biāo)注時,按照文本收集的具體情況和文本使用的具體情況,可以進(jìn)行一定的附加屬性的標(biāo)記,也可以只標(biāo)記其中部分屬性。
“任何文件或?qū)V加衅渥陨淼慕Y(jié)構(gòu)。如: 書信由發(fā)信人、收信人、信件本體等部分組成,公文由發(fā)文單位、收文單位、題目、文號、公文本體等部分組成[3]”,一般學(xué)術(shù)著作是由文本前的信息(出版說明等)、序言、目錄、正文、后記、文本后的信息(如: 參考文獻(xiàn)等)等組成。比如: 學(xué)術(shù)專著的結(jié)構(gòu)可以用下面的樹形圖來表示。
圖1 學(xué)術(shù)專著樹形圖
樹形圖上的每一個非終端節(jié)點叫做“元素”,一個元素的子節(jié)點,叫做這個元素的“內(nèi)容”。例如,在學(xué)術(shù)著作的樹形圖結(jié)構(gòu)中,“章”是“著作本體”的內(nèi)容,“節(jié)”是“章”的內(nèi)容,“段”是“節(jié)”的內(nèi)容,“句”是“段”的內(nèi)容,“詞”是“句”的內(nèi)容。樹形圖上的每一個終端節(jié)點沒有內(nèi)容,這些沒有內(nèi)容的終極節(jié)點,叫做“數(shù)據(jù)”。此樹形圖可以用來仿造書籍的傳統(tǒng)結(jié)構(gòu)。書籍的傳統(tǒng)結(jié)構(gòu)可依照層次分解為許多單位。普遍來說,TEI文件都符合這個簡單的層次模式。正文中“章”與“節(jié)”的標(biāo)記可以簡單用章節(jié)號和相應(yīng)的標(biāo)題來進(jìn)行標(biāo)記,其“段落”、“句”和“詞”的標(biāo)記可以采用如下的標(biāo)記方式。
…
,該標(biāo)記必須有一個屬性,屬性的名稱是ID,ID的值即為該段落的序號。在標(biāo)記規(guī)范中規(guī)定: 對于文中出現(xiàn)的標(biāo)題、子標(biāo)題等均作為特殊的段落加以標(biāo)記。加入了段落標(biāo)記的文本體部(含有n個段落)形狀一般如:......
......
......
......
內(nèi)部。例如在某個藏語文本第20個段落中出現(xiàn)了4個句子,標(biāo)記情況如下:
如果建立雙語對齊語料庫,還可以增加對齊標(biāo)記。
詞匯標(biāo)記用來標(biāo)記文本中詞匯的開始邊界和結(jié)束邊界。無論是漢語文本還是藏語文本,一個句子都是由若干個詞組成的。在語料庫中詞匯標(biāo)記用TEI標(biāo)記,標(biāo)記中還需要標(biāo)記分詞和詞性規(guī)范,其中有一個pos的屬性,用來記錄詞性屬性。例如:
......
至此,語料庫就詳細(xì)標(biāo)記到了詞的層面。有了該層面的標(biāo)記,就可以按照需求開展相應(yīng)的很多工作了。
以上探討了語料庫整體框架的標(biāo)記。下面對《更敦群培文集》進(jìn)行一個整體框架的標(biāo)記,供大家參考。
< /titleStmt>
以上范例中描述了電子文本的標(biāo)題、作者、來源、語式、載體、語言、出版日期、修訂、編碼等屬性,對藏語語料庫框架標(biāo)記提供一個參考。 本文由于篇幅所限,不再贅述藏語料庫結(jié)構(gòu)標(biāo)記的實例。
本文結(jié)合我們建設(shè)語料庫和使用語料庫的實際情況,提出了藏語語料庫框架標(biāo)記、結(jié)構(gòu)標(biāo)記規(guī)范及標(biāo)記方法,并嘗試用一定的實例表述我們的標(biāo)記方法。藏文語料庫的建設(shè)比較滯后,并且規(guī)模也不大。希望我們提出的藏語語料庫的標(biāo)記方法對藏語語料庫的建設(shè)起一個拋磚引玉的作用。
[1] 常寶寶,柏曉靜. 北京大學(xué)漢英雙語語料庫標(biāo)記規(guī)范
[J].漢語語言與計算學(xué)報,2003,13(2): 197-214.
[2] 中文元數(shù)據(jù)標(biāo)準(zhǔn)研究項目組. 國外元數(shù)據(jù)標(biāo)準(zhǔn)比較研究報告—中文文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)系列報告之一[R]. http://www.idl.pku.edu.cn/pdf/metadata1.pdf.2000.
[3] 馮志偉.標(biāo)準(zhǔn)通用置標(biāo)語言SGML及其在自然語言處理中的應(yīng)用[J].當(dāng)代語言學(xué)(試刊). 1998,(4):1-11.
[4] 魯·伯納,麥克·蘇寶麥昆,馬德偉著,謝筱琳,黃韋寧譯.TEI使用指南—運用TEI處理中文文獻(xiàn)[OL].http://ablogtags.info/2011/tei-chinloc-2ndprinted-gjba/.
[5] David Mertz博士.TEI—文本編碼規(guī)范[OL]. [2003 年 10 月 01 日].http://www.ibm.com/ developerworks/cn/xml/x-matters/part30/.
[6] 扎西加,頓珠次仁.自然語言處理用藏語格助詞的語法信息研究[J].中文信息學(xué)報,2010,24(5):41-45.
[7] Roma:制作TEI的文件模型檔[OL].http://www.tei-c.org/Roma/.
[8] 圣才學(xué)習(xí)網(wǎng).圖書館資源描述標(biāo)準(zhǔn)[OL].[2010-10-19 11:49].http://www.100bjcb.com/HP/20101019/OTD 246998.shtml.
[9] 吳守用,古麗拉·阿東別克.哈薩克文語料庫XML格式標(biāo)注規(guī)范初探[C]//中國少數(shù)民族語言文字信息處理研究與發(fā)展.民族出版社, 2010.