宋 欣 魯國軒/中國人民大學(xué)信息資源管理學(xué)院
貝葉檔案以棕櫚葉為記錄載體,其年代久遠(yuǎn)、載體材料特殊,具有獨特的文獻(xiàn)價值、歷史文化價值和文物價值,是珍貴的世界文化遺產(chǎn)。由于自然老化、保存不善和人為破壞等原因,存世的貝葉檔案數(shù)量十分稀少,亟待進(jìn)行搶救性保護。貝葉檔案數(shù)字化建設(shè)是貝葉檔案搶救性保護的有效途徑,元數(shù)據(jù)框架的確定則是數(shù)字化建設(shè)的前提和基礎(chǔ)。本文首先闡述了貝葉檔案元數(shù)據(jù)設(shè)計的必要性和可行性,其次分析了DC、EAD和CDWA等與貝葉檔案相關(guān)的常用國際元數(shù)據(jù)標(biāo)準(zhǔn),并將這3種元數(shù)據(jù)標(biāo)準(zhǔn)作為構(gòu)建貝葉檔案元數(shù)據(jù)框架的基礎(chǔ),最后按照分析貝葉檔案信息資源特征、設(shè)置元數(shù)據(jù)的設(shè)計目標(biāo)、遵循元數(shù)據(jù)設(shè)計原則的設(shè)計思路,構(gòu)建面向貝葉檔案數(shù)字化建設(shè)和信息資源利用的元數(shù)據(jù)設(shè)計方案。
1.1.1 貝葉檔案數(shù)字化建設(shè)的必要性
貝葉檔案中記錄了有關(guān)歷史學(xué)、文學(xué)、天文學(xué)、藝術(shù)學(xué)、傳統(tǒng)醫(yī)學(xué)等方面的知識,具有較高的利用價值。但由于自然、人為等原因,保存至今的貝葉檔案數(shù)量很少,且部分保存狀況較差,隨著時間的流逝,貝葉檔案老化情況也不斷加劇。因此,除對貝葉檔案本體進(jìn)行保護和修復(fù)外,還應(yīng)利用數(shù)字化技術(shù)對內(nèi)容進(jìn)行搶救性保護,對非結(jié)構(gòu)化的原始數(shù)據(jù)進(jìn)行描述,使其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)貝葉檔案資源整合、管理和長期保存的目標(biāo)[1],促進(jìn)貝葉檔案資源的開發(fā)和利用。
此外,我國貝葉檔案的保存地點較為分散,對于集中利用造成了極大的障礙。目前,貝葉檔案除在西藏檔案館、布達(dá)拉宮、西藏博物館、羅布林卡、薩迦寺等西藏地區(qū)外,在北京的民族文化宮、杭州的靈隱寺、四川的萬年寺等地也有分布[2],貝葉檔案資源數(shù)字化是解決上述問題的最佳方法,且國外很多國家和地區(qū)都對貝葉檔案進(jìn)行了數(shù)字化。2003年,印度旅游與文化部成立了印度手稿國家使命項目,專門負(fù)責(zé)調(diào)查、記錄和保存貝葉檔案,將貝葉檔案進(jìn)行數(shù)字化并且使用開源軟件DSpace作為在線數(shù)據(jù)庫;老撾國家圖書館將貝葉檔案的縮微膠片進(jìn)行數(shù)字化,并開發(fā)了在線數(shù)據(jù)庫供檢索利用。
1.1.2 貝葉檔案元數(shù)據(jù)設(shè)計的必要性
上述機構(gòu)雖建立了貝葉檔案數(shù)據(jù)庫,但由于缺乏統(tǒng)一的元數(shù)據(jù)方案指導(dǎo),導(dǎo)致形成多個異構(gòu)的貝葉檔案數(shù)據(jù)庫,數(shù)據(jù)庫之間缺乏關(guān)聯(lián),檔案資源仍無法共享。泰國學(xué)者尼薩喬·查姆農(nóng)斯里(Nisachol Chamnongei)調(diào)研了16個貝葉檔案保存項目的元數(shù)據(jù)使用情況后發(fā)現(xiàn),各項目組按照自身的需求對貝葉檔案元數(shù)據(jù)框架進(jìn)行設(shè)計,依據(jù)元數(shù)據(jù)框架建立的檔案數(shù)據(jù)庫之間資源缺乏關(guān)聯(lián)性,形成了眾多貝葉檔案“信息孤島”。當(dāng)前,國內(nèi)外尚未形成規(guī)范的貝葉檔案元數(shù)據(jù)方案,異構(gòu)的貝葉檔案數(shù)據(jù)庫信息資源無法共享、缺乏資源關(guān)聯(lián)性,貝葉檔案信息資源的利用存在障礙。因此,有必要設(shè)計一套具有互操作性、專指性、規(guī)范化的元數(shù)據(jù)方案。
1.2.1 以理論研究成果為支撐
目前,國外關(guān)于貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)的研究已經(jīng)取得了一些成果。2001年以來,泰國運用技術(shù)手段對包括貝葉檔案在內(nèi)的古代文獻(xiàn)進(jìn)行數(shù)字化處理,專門創(chuàng)建了貝葉檔案數(shù)據(jù)庫。但實踐發(fā)現(xiàn),由于缺少對用戶使用、服務(wù)系統(tǒng)等需求的考慮,該數(shù)據(jù)庫的元數(shù)據(jù)設(shè)計存在缺陷,并未達(dá)到高效便捷利用的目的。因此,尼薩喬·查姆農(nóng)斯里等人提出將FRBR模型作為概念模型應(yīng)用于泰國貝葉檔案數(shù)字化過程中的元數(shù)據(jù)開發(fā)環(huán)節(jié),實現(xiàn)對貝葉檔案中知識的描述和組織,使貝葉檔案數(shù)據(jù)庫具備支持訪問、獲取和管理的各種功能,由此為貝葉檔案元數(shù)據(jù)設(shè)計提供了有效可行的方案[3]。2017年,尼薩喬·查姆農(nóng)斯里對英國、美國、老撾、印度、泰國等國家和地區(qū)的16個貝葉檔案保存項目開展了一項調(diào)查,發(fā)現(xiàn)使用頻數(shù)最高的10個貝葉檔案描述元素分別是標(biāo)題/主題、腳本語言、分冊編號/標(biāo)識符、保存地點、頁數(shù)、發(fā)現(xiàn)的日期和地點、尺寸、材料的類型、描述/摘要、護經(jīng)板[4],并結(jié)合對貝葉檔案用戶需求和檢索行為的研究,提出建立面向用戶需求的貝葉檔案元數(shù)據(jù)模式[5]。
1.2.2 以現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)
EAD、DC、CDWA等與數(shù)字化建設(shè)相關(guān)的國際元數(shù)據(jù)框架已得到廣泛應(yīng)用,其設(shè)計思路為貝葉檔案元數(shù)據(jù)設(shè)計提供了重要參考。EAD(檔案元數(shù)據(jù))可用于描述貝葉檔案資源,DC(都柏林核心元數(shù)據(jù))廣泛用于描述網(wǎng)絡(luò)信息資源,CDWA(藝術(shù)作品描述類目)可用于描述貝葉檔案的物理形態(tài)等信息。由于貝葉檔案兼具檔案和文物的特征,同時其數(shù)字化版本又屬于網(wǎng)絡(luò)信息資源,因此上述三個元數(shù)據(jù)框架對貝葉檔案元數(shù)據(jù)的設(shè)計均具有指導(dǎo)意義。此外,EAD、DC和CDWA是國際上通用的元數(shù)據(jù)標(biāo)準(zhǔn),因此在此基礎(chǔ)上構(gòu)建的貝葉檔案元數(shù)據(jù)方案具有較好的互操作性。
綜上,在實踐層面,國內(nèi)外眾多收藏機構(gòu)將貝葉檔案進(jìn)行了數(shù)字化處理,并建設(shè)了貝葉檔案數(shù)據(jù)庫,但由于缺乏統(tǒng)一的貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn),異構(gòu)數(shù)據(jù)庫之間的資源無法共享和利用,各機構(gòu)之間也無法開展合作,不能發(fā)揮貝葉檔案數(shù)據(jù)庫真正的價值和作用。在理論層面,國內(nèi)外貝葉檔案元數(shù)據(jù)的相關(guān)研究仍處于比較零散的狀態(tài),且沒有形成統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),嚴(yán)重制約了貝葉檔案數(shù)字化的發(fā)展。因此,制定規(guī)范化的貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)迫在眉睫。
檔案元數(shù)據(jù)(Encoding Archival Description)簡稱EAD,主要用于描述檔案和手稿資源,包括文本文檔、電子文檔、可視材料和聲音記錄,同時還可廣泛地應(yīng)用于其他領(lǐng)域的科學(xué)文獻(xiàn)資料的編目工作[6]。EAD高層元素由EAD頭標(biāo)、檔案描述以及前置事項組成,其中EAD頭標(biāo)和前置事項提供檢索信息,檔案描述提供關(guān)于檔案資源主體信息。貝葉檔案元數(shù)據(jù)框架設(shè)計中可借鑒EAD頭標(biāo)的描述項,對貝葉檔案的出處、來源、語言等進(jìn)行描述;參考檔案描述的描述項對貝葉檔案的內(nèi)容摘要、貝葉檔案裝具、物理位置、館藏單位等信息進(jìn)行描述。
都柏林核心元數(shù)據(jù)(Dublin Core)簡稱DC[7],主要用于網(wǎng)絡(luò)資源的著錄、發(fā)現(xiàn)和組織。DC共有15個核心元素,簡單易用、普適性強,但由于描述對象是所有網(wǎng)絡(luò)資源,故欠缺針對性。因此,在選擇DC元數(shù)據(jù)作為貝葉檔案元數(shù)據(jù)設(shè)計的主干框架時,還需在此基礎(chǔ)上注入更多針對貝葉檔案信息資源特征的高質(zhì)量、專指性強的元素[8]。
藝術(shù)作品描述類目(Categories for the Description of Works of Art)簡稱CDWA,旨在對藝術(shù)品物理形態(tài)及數(shù)字化影像資料進(jìn)行描述和編目,支持對藝術(shù)品及其數(shù)字化資料的管理、檢索和發(fā)現(xiàn),提升信息之間的兼容性[9]。CDWA共有532個元數(shù)據(jù)項,元素豐富、結(jié)構(gòu)復(fù)雜。其中,用于描述藝術(shù)品外部物理特征的元數(shù)據(jù)項,如測量數(shù)據(jù)(尺寸、形狀、大小、比例)、材質(zhì)與技術(shù)(材質(zhì)、工藝)、外觀描述(藝術(shù)品形狀)等,可用于描述貝葉檔案的形狀、尺寸、材質(zhì)等物理特征。
在設(shè)計貝葉檔案元數(shù)據(jù)時,首先要明確的是元數(shù)據(jù)應(yīng)具備的功能和要達(dá)到的目標(biāo)。當(dāng)前,貝葉檔案信息資源檢索和利用方面最大的困難是檔案資源相對分散,資源間原有的體系和聯(lián)系被打亂,難以組織和管理;即便是同一來源地區(qū)的貝葉檔案,其本體被分散保存在不同機構(gòu)當(dāng)中,數(shù)字化版本被分散保存在各個異構(gòu)數(shù)據(jù)庫中。貝葉檔案資源分散的現(xiàn)狀導(dǎo)致貝葉檔案資源共享困難、信息資源利用效率低。在貝葉檔案實體無法集中的情況下,建立一套面向貝葉檔案數(shù)字化建設(shè)和信息資源利用的元數(shù)據(jù)框架,保證其兼容性的同時突出貝葉檔案的資源特征,最終建成具有貝葉檔案特色的數(shù)據(jù)庫,實現(xiàn)對貝葉檔案資源的描述、定位、檢索、保存和組織管理,支持多種檢索方式和異構(gòu)數(shù)據(jù)庫間的互操作,提高貝葉檔案資源檢索的效率,實現(xiàn)跨庫資源共享和開發(fā)利用。
3.2.1 確定著錄對象及資源類型
界定著錄對象的范圍是提高著錄準(zhǔn)確性和針對性的前提。以貝葉為記錄載體的檔案是貝葉檔案元數(shù)據(jù)的著錄對象。當(dāng)前,貝葉檔案主要的資源類型是貝葉檔案本體和經(jīng)數(shù)字化后形成的貝葉檔案圖片和視頻等。
3.2.2 提煉貝葉檔案資源屬性
貝葉檔案具有材質(zhì)特殊、外觀各異、尺寸不一、裝幀各具特色、語種眾多、書寫方式多樣等特點。為使貝葉檔案元數(shù)據(jù)框架資源描述更全面、更具針對性,有必要對貝葉檔案的資源屬性進(jìn)行分析和提取。貝葉檔案資源屬性可分為身份識別、內(nèi)容屬性、外部物理屬性和保護屬性4個部分[10]。
一是身份識別。主要用于對貝葉檔案數(shù)字資源的定位和管理。參考EAD標(biāo)識符對貝葉檔案資源的標(biāo)識符、資源類型、來源等進(jìn)行身份識別號碼的編制與設(shè)計,為檢索提供唯一的識別號和代碼,同時還能表明資源的類型、來源等信息。
二是內(nèi)容屬性。主要用于貝葉檔案的資源描述和檢索?!皹?biāo)識符”“題名”“時間”“地點”“相關(guān)人物”不僅能對貝葉檔案信息進(jìn)行描述;還能提高資源組織的效率,提供編號檢索、題名檢索和人物檢索等多種檢索方式,提高檢索的效率和準(zhǔn)確度。“文字”是筆者新增的自定義核心元素,用于描述貝葉檔案所使用的“語種”“書寫方式”“書寫風(fēng)格”“字跡顏色”,通過分析不同時期和地區(qū)流行的語種和書寫風(fēng)格就可以推斷出貝葉檔案產(chǎn)生的年代和地區(qū);其中“字跡成分”也可用來推斷貝葉檔案的年代,還能為修復(fù)貝葉檔案字跡提供依據(jù)。因此,“文字”這一新增元素對于判斷貝葉檔案的來源具有重要作用?!罢薄案袷健蹦軌蛎枋鲐惾~檔案的主要內(nèi)容信息和數(shù)字化后的電子形態(tài),幫助用戶快速高效地獲得所需資源。
三是外部物理屬性。用以描述資源實體的外觀信息,如貝葉檔案的材質(zhì)、形狀、尺寸、裝幀形式、葉數(shù)、行數(shù)等。旨在通過對貝葉檔案外部物理特征的描述,使利用者和檔案工作者對貝葉檔案有更加直觀了解,突出貝葉檔案外形的特點,并為其后續(xù)保存和修復(fù)提供依據(jù)。
四是保護屬性。用以實現(xiàn)對貝葉檔案實體的管理和保護?!白o經(jīng)夾板”是新增的自定義核心元素,這也是貝葉檔案特有的元素,貝葉檔案通常配有上下兩個夾板來進(jìn)行保護(護經(jīng)夾板通常指的是貝葉檔案上下的兩個木板,類似于書籍的封面,起到保護內(nèi)容的作用,還能防止檔案邊緣破損),不同的材質(zhì)保護效果不同,例如樟木制成的夾板能夠較好的防蟲;可以根據(jù)夾板的“材質(zhì)”和“尺寸”等信息,發(fā)現(xiàn)并更換保護效果不理想的夾板?!氨4鏍顟B(tài)”是另一個自定義核心元素,通過“基本性能”(色差、酸度、含水率)、“病害類型”(殘缺、破損、鼠嚙、字跡褪色等)和“完殘程度”(保存完好、輕度破損、中度破損、嚴(yán)重破損、特殘破損)[11]這3個描述項,反映貝葉檔案本體的保存狀況和物理狀態(tài)。一方面,能夠使管理者全面掌握貝葉檔案保存狀況的信息,采取有效的分級保護措施來加以改善和治理;另一方面,能夠使用戶對貝葉檔案保存狀態(tài)有直觀的了解。
DC元數(shù)據(jù)作為貝葉檔案元數(shù)據(jù)設(shè)計的主干框架,為元數(shù)據(jù)框架提供普適性的元素;EAD作為元數(shù)據(jù)設(shè)計的核心借鑒元素,提供更具針對性的元素,用于描述貝葉檔案內(nèi)容和管理方面的元素;CDWA作為輔助借鑒元素,提供具有貝葉檔案特色的“外觀物理屬性”元素,突出貝葉檔案的外觀物理特征。
DC元數(shù)據(jù)具有廣泛的適用性和兼容性,能夠與其他類型元數(shù)據(jù)建立映射,是基礎(chǔ)元數(shù)據(jù)的最佳選擇。選用DC元數(shù)據(jù)中的“題名”來描述貝葉檔案的標(biāo)題和名稱;“相關(guān)人物”來說明與貝葉檔案有關(guān)聯(lián)的人物,如原創(chuàng)作者、抄寫或謄寫者、譯者等;“日期”用來描述貝葉檔案的制作日期、發(fā)現(xiàn)/出土日期、收藏日期等重要的時間節(jié)點;“格式”用來描述貝葉檔案數(shù)字化后的電子形態(tài)。
EAD檔案元數(shù)據(jù)標(biāo)準(zhǔn)具有簡潔、靈活和可擴展性的特點,能廣泛支持文本和文字處理系統(tǒng)。貝葉檔案與紙質(zhì)檔案一樣具有檔案編號、裝具和館藏單位等信息,本方案將復(fù)用EAD標(biāo)準(zhǔn)中的“標(biāo)識符”“摘要”“裝具”“館藏單位”這4項核心元素項來描述貝葉檔案的內(nèi)容和館藏等信息。
貝葉檔案的載體為貝葉材質(zhì)較為特殊,其外部物理特征極具特色,因此在元數(shù)據(jù)框架中應(yīng)納入貝葉檔案的材質(zhì)、裝幀、尺寸等元素,突出貝葉檔案的載體特點。本方案借鑒CDWA“外部物理特征”中的“材質(zhì)”“裝幀”“尺寸”等元素來描述貝葉檔案的外部特征。
表1:貝葉檔案元數(shù)據(jù)框架
元數(shù)據(jù)框架設(shè)計以貝葉檔案資源特征為核心,借鑒EAD、DC、CDWA這3個元數(shù)據(jù)標(biāo)準(zhǔn),運用分類和分層的思想,將元數(shù)據(jù)按照功能分為描述性元數(shù)據(jù)和管理型元數(shù)據(jù),將元素分為核心元素、子元素和部分孫元素,層級清晰明確。最終設(shè)計的貝葉檔案元數(shù)據(jù)框架,共有20個核心元素、18個描述性元數(shù)據(jù)、2個管理性元數(shù)據(jù)。
設(shè)計統(tǒng)一規(guī)范的貝葉檔案元數(shù)據(jù)框架是貝葉檔案數(shù)字化建設(shè)、信息資源整合、利用、共享的基礎(chǔ)性工作。目前,在國內(nèi)貝葉檔案研究領(lǐng)域還沒有統(tǒng)一的、系統(tǒng)的、成熟的元數(shù)據(jù)標(biāo)準(zhǔn)。為實現(xiàn)貝葉檔案信息資源的整合共享、組織檢索、知識發(fā)現(xiàn)提供技術(shù)支持,本文遵循元數(shù)據(jù)設(shè)計的原則,借鑒國際上相關(guān)的成熟的元數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合貝葉檔案自身的特點,制訂出貝葉檔案元數(shù)據(jù)核心框架元素。以期通過貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)的研究,實現(xiàn)貝葉檔案在網(wǎng)絡(luò)環(huán)境下的高效檢索、跨平臺資源共享和開發(fā)利用。但是由于貝葉檔案內(nèi)容涉及范圍廣、制式多樣,本文提出的貝葉檔案元數(shù)據(jù)框架還存在諸多不足,要全面且準(zhǔn)確的描述貝葉檔案的本質(zhì)特征,仍需進(jìn)一步深入探討。