內(nèi)容摘要:分析了敦煌學(xué)信息資料數(shù)字化特點(diǎn)及其資源建設(shè)的特點(diǎn),提出了元數(shù)據(jù)的內(nèi)容及設(shè)計(jì)原則。
關(guān)鍵詞:敦煌文獻(xiàn);數(shù)字圖書館;元數(shù)據(jù)
中圖分類號(hào):G250.76 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1000-4106(2007)03-0086-05
一 元數(shù)據(jù)及元數(shù)據(jù)方案剖析
計(jì)算機(jī)技術(shù)及現(xiàn)代信息處理技術(shù)的發(fā)展,使得潮水般的文獻(xiàn)信息資料紛紛登上網(wǎng)絡(luò)媒體,已構(gòu)成對(duì)圖書情報(bào)界的挑戰(zhàn)。目前,互聯(lián)網(wǎng)上使用的引擎技術(shù)在編制方面又過(guò)于簡(jiǎn)便、不能滿足專指性很高的檢索。因此,對(duì)網(wǎng)上資源的開(kāi)發(fā)、管理和有效利用是廣大文獻(xiàn)信息工作者面前的重要課題。文獻(xiàn)信息資料工作急需完成一個(gè)重要角色的轉(zhuǎn)換,即從傳統(tǒng)的文獻(xiàn)收藏者變成社會(huì)信息的管理者和發(fā)布者,圖書館將成為信息集散地和發(fā)布中心。與傳統(tǒng)圖書館不同的是它將從原來(lái)面向由印刷技術(shù)為依托的紙質(zhì)文獻(xiàn)載體為處理對(duì)象,轉(zhuǎn)變?yōu)橐跃W(wǎng)絡(luò)技術(shù)為依托的數(shù)字化文獻(xiàn)信息資源。
我們知道,傳統(tǒng)文獻(xiàn)信息資料是依靠圖書館分類、編目工作,組織文獻(xiàn)資源的整序管理并提供用戶服務(wù)的,而在網(wǎng)絡(luò)環(huán)境下數(shù)字資源已逐漸成為信息資源的主流,僅僅依靠傳統(tǒng)的技術(shù)和方法,將很難適應(yīng)形勢(shì)的發(fā)展。
互聯(lián)網(wǎng)上所有的應(yīng)用都是建立在協(xié)議、標(biāo)準(zhǔn)的基礎(chǔ)上,這也是當(dāng)代信息資源開(kāi)發(fā)的基礎(chǔ)。為了能夠適應(yīng)現(xiàn)代計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)環(huán)境中信息資源的組織、管理、存儲(chǔ)及傳輸和檢索,20世紀(jì)末,不同版本的元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)運(yùn)而生。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)一般定義為,關(guān)于數(shù)據(jù)的數(shù)據(jù)(data about data),也稱為描述數(shù)據(jù)的數(shù)據(jù)(date that describe data),是有效地組織與處理任何數(shù)字化文獻(xiàn)信息資源的工具。在數(shù)字圖書館中,它提供完整的數(shù)據(jù)描述形式,為分散的、由多種數(shù)字化資源有機(jī)構(gòu)成的信息體系提供規(guī)范、普遍的描述方法和整合工具與紐帶,是廣泛分布的數(shù)字圖書館資源站點(diǎn)具有充分的互操作性和可擴(kuò)展性的基礎(chǔ),是提供數(shù)字圖書館中資源描述、資源發(fā)現(xiàn)、資源處理、資源評(píng)價(jià)與排序以及資源的人機(jī)交互和理解的基本要素。
國(guó)際圖書館協(xié)會(huì)聯(lián)盟(IFIA)對(duì)元數(shù)據(jù)的定義是:描述資料的資料,可用來(lái)協(xié)助對(duì)網(wǎng)絡(luò)電子資源的辨識(shí)指示其位置的任何資料。
從元數(shù)據(jù)的定義出發(fā),我們可以認(rèn)為傳統(tǒng)圖書館的編目工作以及其后由計(jì)算機(jī)自動(dòng)生成的MARC數(shù)據(jù)是元數(shù)據(jù)和元數(shù)據(jù)產(chǎn)品,但如果從更嚴(yán)格、更科學(xué)的意義上講,后者僅僅是繼承了前者的思想體系,其功能則不可同日而語(yǔ)。
DC(Dublin Core)元數(shù)據(jù)也稱為都柏林元數(shù)據(jù),是目前世界上最具影響力的元數(shù)據(jù)格式,由美國(guó)OCLC公司發(fā)起,1995年在美國(guó)俄亥俄州的都柏林鎮(zhèn)召開(kāi)了第一屆元數(shù)據(jù)研討會(huì),提出了都柏林核心元素集(Dublin Metadata Core ElementSet)。其目的是通過(guò)對(duì)信息數(shù)字化及網(wǎng)絡(luò)資源的描述、管理和定位、評(píng)估,為非專業(yè)用戶提供一種易于掌握和使用的網(wǎng)絡(luò)資源著錄格式。
二 敦煌學(xué)信息資料數(shù)字化特點(diǎn)及其建設(shè)思路
在敦煌學(xué)信息資源中,一個(gè)將被元數(shù)據(jù)描述的對(duì)象往往是一個(gè)較為復(fù)雜的復(fù)合對(duì)象,是一個(gè)抽象對(duì)象的集合體。它包括原始對(duì)象、對(duì)象的復(fù)制品、數(shù)字復(fù)制品。在進(jìn)行數(shù)字化資源建設(shè)時(shí),應(yīng)做好前期調(diào)研工作,制作計(jì)劃。在制定業(yè)務(wù)工作標(biāo)準(zhǔn)時(shí)應(yīng)有趨前意識(shí),即主動(dòng)靠攏國(guó)際標(biāo)準(zhǔn),并兼顧敦煌學(xué)信息資源的特點(diǎn)及用戶的需求特點(diǎn)。對(duì)文獻(xiàn)類型的信息資源應(yīng)遵照國(guó)際互聯(lián)網(wǎng)有關(guān)框架協(xié)議及國(guó)際上通用的工作規(guī)范和標(biāo)準(zhǔn)。對(duì)文物類型的信息資源則應(yīng)當(dāng)根據(jù)其自身特點(diǎn)、注重對(duì)描述性元數(shù)據(jù)的拓展。
敦煌學(xué)研究信息資源具有與其他學(xué)科資源的巨大差異,表現(xiàn)在以下幾個(gè)方面:1.類型復(fù)雜、文字多樣。主要包括:印刷型圖書、地方志、手稿、畫稿、出土文書、報(bào)刊論文等。在文字記錄方面則有西文、俄文、日文、中文等,其中中文又包括了古代漢語(yǔ)及中國(guó)少數(shù)民族語(yǔ)言文字,如:吐蕃文、回鶻文、西夏文,以及梵文、波邏迷文、栗特文、突厥文等。2.資源分散。敦煌學(xué)資源廣泛分散在世界各地的圖書館、資料室、博物館、網(wǎng)站及相關(guān)的管理部門等。3.載體形式多樣。無(wú)論是傳統(tǒng)印刷型,還是數(shù)字化資源以及音像制品等各類資源均有多種存在形式。在對(duì)敦煌學(xué)文獻(xiàn)信息資源描述時(shí)應(yīng)注意與一般圖書文獻(xiàn)著錄方式有所區(qū)別。它不僅是對(duì)文獻(xiàn)資料所含內(nèi)容及其紙質(zhì)載體及其文物衍生品本身的描述,而且在很大程度上要求對(duì)描述該文獻(xiàn)所反映的原始事物對(duì)象的具體說(shuō)明。因此,一個(gè)完整的敦煌學(xué)元數(shù)據(jù),實(shí)際上是對(duì)原始文物(壁畫或者雕塑)及其衍生品(攝影或臨臨摹作品)、數(shù)字化衍生品和研究全文文獻(xiàn)的全面揭示和描述。例如文物原件的出土(發(fā)現(xiàn))時(shí)間及所在地點(diǎn)、具體方位,臨摹作品及數(shù)字化產(chǎn)品都需要全面的三位一體的描述。
對(duì)于壁畫元數(shù)據(jù)的使用者來(lái)說(shuō),首先需要檢索的是石窟中原始壁畫的相關(guān)信息資料。這就要求對(duì)原壁畫中的信息進(jìn)行盡可能全面細(xì)致而又客觀的描述,而對(duì)于以此為基礎(chǔ)再加工創(chuàng)作的其他形式的衍生作品也應(yīng)當(dāng)充分揭示與其原始壁畫的內(nèi)在聯(lián)系。如原始壁畫所在洞窟號(hào)、窟內(nèi)位置、時(shí)代、原作品大小等。這樣將能夠便用戶對(duì)照原文物方便瀏覽。
(1)以一幅原始壁畫為基本素材,經(jīng)過(guò)各專業(yè)門類的藝術(shù)家再創(chuàng)作,可產(chǎn)生不同版本、不同類型的衍生品。它們是由于在不同的時(shí)期、使用不同的技術(shù)手段和藝術(shù)手法,以及不同的載體形式出現(xiàn)的文獻(xiàn)信息資料。
(2)由同一幅原始壁畫及其臨品和攝影作品又可產(chǎn)生不同的數(shù)字圖像,它們的大小、分辨率等方面可能有所差別。由于臨摹者自身的藝術(shù)素養(yǎng)、對(duì)原作的理解及繪畫技法、顏料、紙張、裝裱形式等情況不同而形成的各種臨摹作品。
(3)敦煌壁畫是依附在洞窟地仗上的易損文物,隨著時(shí)光流逝,自然因素和人為因素的共同作用,原始壁畫將出現(xiàn)不同程度的老化,色彩逐漸變得模糊不清。以此為原始素材而創(chuàng)作的各種藝術(shù)品也將會(huì)因客體對(duì)象的表現(xiàn)特征不同而對(duì)創(chuàng)作者提供不盡相同的信息特征,使作品存在極大差異。如以某洞窟的同一幅壁畫為例,上個(gè)世紀(jì)初期拍攝的照片與現(xiàn)代人拍攝的照片就存在很大差異。
(4)敦煌壁畫、臨品、攝影作品及數(shù)字圖像在記載內(nèi)容上是重復(fù)的,主要區(qū)別是載體不同。臨品和攝影作品復(fù)制了原始壁畫的內(nèi)容,數(shù)字圖像又是洞窟原始壁畫和臨品及攝影作品的數(shù)字化虛擬再現(xiàn),因此在元數(shù)據(jù)結(jié)構(gòu)上,關(guān)于三者的記錄無(wú)法獨(dú)立存在,在著錄體系上必將形成三位一體,共同組成完整的元數(shù)據(jù)記錄。
敦煌學(xué)數(shù)字化館藏的基本特征是信息資源的數(shù)字化,一件文物(作品)往往不僅有其最原始的表現(xiàn)形式,通過(guò)數(shù)字化等過(guò)程又產(chǎn)生了一個(gè)或多個(gè)衍生品。這個(gè)過(guò)程包括:(1)對(duì)某洞窟一幅壁畫的拍照,分傳統(tǒng)的攝影及現(xiàn)代化的數(shù)碼攝像而形成的攝影作品和數(shù)字化產(chǎn)品;對(duì)以上作品翻拍及對(duì)膠片(底片)等的數(shù)字化文件的拷貝,由此形成的一系列數(shù)字化衍生品。(2)對(duì)某洞窟一幅壁畫(雕塑)作品的臨摹復(fù)制,形成的臨摹作品和復(fù)制品以及根據(jù)這資源進(jìn)再創(chuàng)作而形成的系列衍生品。這就需要一種基本的信息組織和系統(tǒng)組織方法,為信息系統(tǒng)各層次內(nèi)容提供規(guī)范定義、描述、交換、和解析機(jī)制,為分散的由系統(tǒng)環(huán)境提供互操作和整合的紐帶,為計(jì)算機(jī)智能地識(shí)別、處理、集成各種信息內(nèi)容、信息過(guò)程和信息系統(tǒng)提供有力工具。
由于這些文獻(xiàn)資料很多都是以相關(guān)文物實(shí)體為研究對(duì)象的,與這些文物內(nèi)容及其價(jià)值有密切關(guān)聯(lián),應(yīng)明確反映這部分重要事實(shí)。例如:某一洞窟內(nèi)某幅壁畫在某一時(shí)間被某位藝術(shù)家臨摹形成一件繪畫作品,之后又被相關(guān)單位數(shù)字化處理,成為數(shù)字化產(chǎn)品,在著錄時(shí),應(yīng)盡可能詳盡描述相關(guān)聯(lián)的所有信息,包括洞窟空間方位、開(kāi)鑿年代、編號(hào)、壁畫名稱、壁畫所在空間位置、臨摹作者、所用紙張及顏料類型、臨摹手法、收藏單位、版權(quán)、數(shù)字化時(shí)間、作品大小、所用機(jī)器類型、存儲(chǔ)在何服務(wù)器上、服務(wù)器型號(hào)等。此后,該壁畫作品不僅有其最原始的出版形式,某一研究領(lǐng)域的專業(yè)人員通過(guò)臨摹、拍照及數(shù)字化等過(guò)程又產(chǎn)生一個(gè)或多個(gè)衍生品,管理元數(shù)據(jù)也就應(yīng)運(yùn)而生。管理元數(shù)據(jù)的范圍很廣,一般包括:創(chuàng)建者元數(shù)據(jù),用以表明誰(shuí)擁有資源,誰(shuí)承擔(dān)資源存儲(chǔ)的費(fèi)用,誰(shuí)有權(quán)改動(dòng)甚至刪除資源等;存取權(quán)元數(shù)據(jù),用來(lái)決定誰(shuí)可以使用資源以及以何種方式使用資源等。若進(jìn)行專題研究,則又形成該研究領(lǐng)域的專題文獻(xiàn)。該文獻(xiàn)中又包含若干幅攝像作品,也包括以上那位藝術(shù)家的那幅臨摹作品。它們與作者專題研究文獻(xiàn)中的信息內(nèi)容已構(gòu)成一個(gè)有機(jī)的整體,已成為原始文獻(xiàn)不可分割的一部分。因此,對(duì)于敦煌學(xué)文獻(xiàn)信息資源進(jìn)行描述時(shí),必須充分揭示涉及原始文物實(shí)體及其系列衍生品以及在文獻(xiàn)中交叉重復(fù)的再現(xiàn)作品。
在文獻(xiàn)信息資料實(shí)現(xiàn)數(shù)字化以后,還應(yīng)當(dāng)對(duì)數(shù)字影像作品及全文進(jìn)行詳盡著錄。凡屬敦煌學(xué)研究范圍內(nèi)的文物實(shí)體及其相關(guān)聯(lián)的信息資料都應(yīng)在元數(shù)據(jù)框架內(nèi)全面反映和充分揭示。
(1)洞窟內(nèi)原始壁畫與其有關(guān)的研究論文、專著及臨摹作品、攝影作品及其數(shù)字圖像是原始文物的衍生品,是同一研究對(duì)象在不同知識(shí)層面的交叉再現(xiàn),只是由于研究手段、技術(shù)方法不同,而形成不同的載體形態(tài)。文字型資料是根據(jù)壁畫特征,緊密結(jié)合相關(guān)資料綜合研究的成果,而臨摹作品及其攝影作品則是針對(duì)壁畫的原貌實(shí)體的客觀描述,而數(shù)字圖像,無(wú)論是針對(duì)原始文物或者衍生品則統(tǒng)稱為數(shù)字化再現(xiàn)。
(2)對(duì)于同一幅壁畫,由于研究的目的、方法不同,也將產(chǎn)生不同形式的文獻(xiàn)信息資料。如在攝影過(guò)程中使用的相機(jī)型號(hào)、用光、取景角度不同,也會(huì)產(chǎn)生不同的藝術(shù)效果。同一幅壁畫被不同的藝術(shù)家臨摹時(shí),由于對(duì)原始作品的理解不同,采用的技法、紙張、裝裱形式不盡相同,也會(huì)產(chǎn)生風(fēng)格各異的藝術(shù)作品。隨著時(shí)光流逝,周邊自然環(huán)境的變遷,受各種病害的侵襲,壁畫本體也會(huì)發(fā)生較大的變化,雖然是同一幅原始壁畫,但呈現(xiàn)在不同時(shí)期的人們面前的卻存在著極大的差異。
(3)同一幅壁畫及其復(fù)制品(臨摹作品、攝影作品及底片)利用不同方式(數(shù)碼相機(jī)、掃描儀等)形成的數(shù)字產(chǎn)品,由于所使用的技術(shù)手段及硬件設(shè)備不同、機(jī)器型號(hào)及性能不同,因此,產(chǎn)生的數(shù)字化圖像也存在著差異。它們?cè)诖笮?、分辨率、清晰度等方面可能有所差別。如:現(xiàn)存于莫高窟第257窟(北魏)西壁的“九色鹿本生故事”曾以攝影和臨摹及影視等各種藝術(shù)手段再現(xiàn),據(jù)初步統(tǒng)計(jì)僅公開(kāi)出版發(fā)行的就達(dá)十余種。其中有代表性的作品當(dāng)屬著名畫家張大千先生及常書鴻先生的臨摹作品以及由敦煌文物研究所編,文物出版社1982年12月出版的《中國(guó)石窟 敦煌莫高窟》中的攝影作品。
對(duì)于壁畫研究者和欣賞者來(lái)說(shuō),首先要檢索的對(duì)象是洞窟內(nèi)的原始壁畫。如需要深入研究,則根據(jù)需要檢索相關(guān)文獻(xiàn)資料及其系列衍生品。因此,壁畫元數(shù)據(jù)應(yīng)首先提供壁畫的描述性元素,其次為相關(guān)文字型資料、壁畫復(fù)制品及數(shù)字圖像記錄。
由于敦煌文物在不同載體、不同時(shí)空、地域分布上對(duì)信息資源的著錄內(nèi)容比較廣泛,因此,對(duì)同一描述對(duì)象的不同表現(xiàn)形式的相關(guān)信息及復(fù)制品、再現(xiàn)的數(shù)字化產(chǎn)品,要求在元數(shù)據(jù)體系框架內(nèi)應(yīng)當(dāng)建立多重有效的關(guān)聯(lián),使之彼此獨(dú)立而又相互連接。用戶只要檢索到其中一條記錄,即可由此方便地檢索到全部相關(guān)記錄。
不同形式的文獻(xiàn)信息資料。如在攝影過(guò)程中使用的相機(jī)型號(hào)、用光、取景角度不同,也會(huì)產(chǎn)生不同的藝術(shù)效果。同一幅壁畫被不同的藝術(shù)家臨摹時(shí),由于對(duì)原始作品的理解不同,采用的技法、紙張、裝裱形式不盡相同,也會(huì)產(chǎn)生風(fēng)格各異的藝術(shù)作品。隨著時(shí)光流逝,周邊自然環(huán)境的變遷,受各種病害的侵襲,壁畫本體也會(huì)發(fā)生較大的變化,雖然是同一幅原始壁畫,但呈現(xiàn)在不同時(shí)期的人們面前的卻存在著極大的差異。
三 關(guān)于敦煌學(xué)元數(shù)據(jù)方案的內(nèi)容及設(shè)計(jì)原則
元數(shù)據(jù)方案是指數(shù)字圖書館中所使用的描述某類資源的具體對(duì)象時(shí)所有規(guī)則的集合,是提供數(shù)字圖書館數(shù)字模型的基礎(chǔ)。它一般包括了完整描述一個(gè)具體對(duì)象時(shí)所需要的數(shù)據(jù)項(xiàng)集合、各數(shù)據(jù)項(xiàng)語(yǔ)義定義、著錄規(guī)則和計(jì)算機(jī)應(yīng)用時(shí)的語(yǔ)法規(guī)定。數(shù)字圖書館的運(yùn)作,無(wú)論是存取過(guò)程還是檢索過(guò)程,都是以元數(shù)據(jù)方案為基礎(chǔ)實(shí)現(xiàn)的。元數(shù)據(jù)方案決定了數(shù)字圖書館的功能特征、運(yùn)行模式和系統(tǒng)運(yùn)行的總體性能。為分布式信息資源的發(fā)現(xiàn)和檢索奠定了基礎(chǔ)。敦煌學(xué)元數(shù)據(jù)方案的設(shè)計(jì)應(yīng)當(dāng)以三個(gè)方面的調(diào)查分析人手,1.著錄者,包括專業(yè)和非專業(yè)編目人員,以及管理者。2.使用者,指圖書館用戶。3.著錄對(duì)象,即被描述的資源。在標(biāo)準(zhǔn)的制定過(guò)程中,要充分考慮前兩者的需求和后者的特征,并在其間做一最佳平衡和組配。
(一)敦煌學(xué)元數(shù)據(jù)方案的內(nèi)容
由于元數(shù)據(jù)本身就起到人機(jī)交互的橋梁作用,因此,元數(shù)據(jù)方案的設(shè)計(jì)必須充分考慮人機(jī)兩個(gè)方面的因素。包括:為用戶揭示文獻(xiàn)內(nèi)部特征,而這些特征是為特定對(duì)象使用,元數(shù)據(jù)方持必須能夠滿足這些揭示需求;為系統(tǒng)開(kāi)發(fā)人員提供管理型元數(shù)據(jù)等。完整的元數(shù)據(jù)方案,應(yīng)該定義以下內(nèi)容:
(1)資源描述型元數(shù)據(jù)方案,完整地揭示數(shù)字資源的內(nèi)容屬性,包括特定知識(shí)域的核心元數(shù)據(jù)元素集、擴(kuò)展集、限定方案,包括整語(yǔ)義定義、關(guān)系、數(shù)據(jù)類型以及重復(fù)、可選的規(guī)定等。
(2)管理型元數(shù)據(jù)方案,包括對(duì)數(shù)字資源外部屬性的描述,例如格式、類型、分辨率等等,常作為內(nèi)容描述的補(bǔ)充。
(3)元數(shù)據(jù)置標(biāo)方案,亦即怎樣“使用”元數(shù)據(jù)以SGML/XML/DTD/Schema/RDF等。給出命名空間。
(4)資源站點(diǎn)的元數(shù)據(jù)方案,對(duì)于資源站點(diǎn)的描述,包括各類站點(diǎn)相關(guān)屬性的標(biāo)注,例如知識(shí)領(lǐng)域、站點(diǎn)能力、提問(wèn)格式等。常用于開(kāi)放式數(shù)字圖書館資源站點(diǎn)的注冊(cè),經(jīng)過(guò)注冊(cè)后其他查詢服務(wù)可以通過(guò)規(guī)范的服務(wù)接口直接訪問(wèn)其中的數(shù)字資源。
(5)元數(shù)據(jù)體系映射方案及知識(shí)本體聯(lián)系,提供不同元數(shù)據(jù)體系間的動(dòng)態(tài)映射、自動(dòng)映射等,接受索引服務(wù)、查詢服務(wù)等其他服務(wù)的調(diào)用,并支持資源站點(diǎn)在知識(shí)本體層次上的聯(lián)系,以使系統(tǒng)能夠動(dòng)態(tài)地轉(zhuǎn)發(fā)用戶的查詢請(qǐng)求。
(6)元數(shù)據(jù)著錄方案,定義關(guān)于元數(shù)據(jù)的數(shù)據(jù),如何進(jìn)行元數(shù)據(jù)的標(biāo)注等。
(7)技術(shù)實(shí)現(xiàn)方案,包括定義對(duì)象包結(jié)構(gòu),內(nèi)部存儲(chǔ)方式,索引方式,元數(shù)據(jù)抽取方案,結(jié)構(gòu)化轉(zhuǎn)換方案等等。
(8)敦煌學(xué)元數(shù)據(jù)方案的標(biāo)準(zhǔn)化原則
元數(shù)據(jù)標(biāo)準(zhǔn),一般包括語(yǔ)義層次上著錄規(guī)則和語(yǔ)法層次上的規(guī)定。語(yǔ)法層次上的規(guī)定有:描述所使用的元語(yǔ)言,文檔類型定義,使用什么語(yǔ)法,具有內(nèi)容的元數(shù)據(jù)的格式(也可以包括內(nèi)容數(shù)據(jù),即Content)及其描述方法。
標(biāo)準(zhǔn)化是開(kāi)發(fā)和利用信息資源的基本保障,數(shù)字圖書館的本質(zhì)就是信息資源的開(kāi)發(fā)利用與共享。敦煌學(xué)文獻(xiàn)信息資料數(shù)字化是一項(xiàng)浩繁的系統(tǒng)工程,從技術(shù)到內(nèi)容、從工具到環(huán)境,都存在很多亟待解決的難題,只有采取統(tǒng)一的格式、標(biāo)準(zhǔn)和規(guī)范,才能保證信息表達(dá)、篩選、存儲(chǔ)、檢索、傳輸?shù)捻樌M(jìn)行;才能實(shí)現(xiàn)網(wǎng)絡(luò)的互聯(lián)互通,資源的共建共享,管理的井然有序;才能將各單位開(kāi)發(fā)出來(lái)的信息資源按統(tǒng)一的格式組織起來(lái),既能與國(guó)際網(wǎng)絡(luò)接軌,又能為各單位共享;只有使用統(tǒng)一的檢索標(biāo)準(zhǔn)建立起分布式的存儲(chǔ)和檢索系統(tǒng),使分散在國(guó)內(nèi)外的敦煌學(xué)信息資源能為廣大用戶方便利用。
敦煌學(xué)元數(shù)據(jù)方案的標(biāo)準(zhǔn)化具有廣泛的內(nèi)涵。它包括元素著錄內(nèi)容的標(biāo)準(zhǔn)化、同類型數(shù)字化信息資源的著錄所采用元數(shù)據(jù)的一致性、元數(shù)據(jù)方案所采用編碼語(yǔ)的統(tǒng)一性等幾個(gè)方面。
(三)敦煌學(xué)元數(shù)據(jù)方案的實(shí)用性原則
實(shí)用性主要指設(shè)計(jì)的元數(shù)據(jù)在著錄實(shí)踐時(shí)應(yīng)較為簡(jiǎn)單,易于掌握,在設(shè)計(jì)元數(shù)據(jù)框架時(shí),對(duì)元數(shù)據(jù)的選擇應(yīng)考慮其在一定范圍內(nèi)的通用性,使其在實(shí)際應(yīng)用中盡可能覆蓋多種相似或相近的對(duì)象實(shí)體,達(dá)到既能有效地控制元數(shù)據(jù)的數(shù)量,又能使編目人員及用戶簡(jiǎn)便易用,提高工作質(zhì)量及檢索效率。同時(shí),對(duì)廣大用戶的使用需求,包括檢索習(xí)慣,對(duì)元數(shù)據(jù)的理解,接受程度等因素都應(yīng)當(dāng)認(rèn)真考慮。因?yàn)橹贫ㄔ獢?shù)據(jù)標(biāo)準(zhǔn)的目的是向用戶更充分的揭示信息資源(特別是網(wǎng)上資源),用戶的需要應(yīng)當(dāng)是最終衡量標(biāo)準(zhǔn)。因此,在結(jié)構(gòu)與格式的設(shè)計(jì)、元數(shù)據(jù)的增刪、語(yǔ)法及語(yǔ)義規(guī)則的制定等方面要盡可能從用戶實(shí)際需要出發(fā),增加系統(tǒng)與用戶之間交互式對(duì)話功能(如開(kāi)放式的入口詞表、反饋元素的設(shè)計(jì)等)。尤其要考慮到著錄人員外,更多的是相關(guān)專業(yè)人士,如文物考古專家、文獻(xiàn)研究專家、文物保護(hù)專家等。
(四)敦煌學(xué)元數(shù)據(jù)方案的針對(duì)性原則
由于元數(shù)據(jù)應(yīng)用的各類資源的各自特性不盡相同,著錄深度(如書目、內(nèi)容和插圖等)和廣度(指相關(guān)的一批文獻(xiàn)的總體著錄)不盡相同,因此,無(wú)法只使用一種數(shù)據(jù)標(biāo)準(zhǔn)。因此,應(yīng)針對(duì)敦煌學(xué)特色數(shù)據(jù)庫(kù)中的每一種類型資源選擇相應(yīng)的元數(shù)據(jù)標(biāo)準(zhǔn)。唯有如此,才能在敦煌學(xué)資源的描述時(shí)更為準(zhǔn)確、全面,且有利于資源的確認(rèn)、檢索以及分類管理與利用。另一方面必須考慮到確定的某種標(biāo)準(zhǔn)應(yīng)盡可能覆蓋多種相似或有相近特性的對(duì)象,以減少(專業(yè)或非專業(yè))編目人員在選用適當(dāng)元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)的人為誤差,即必須考慮元數(shù)據(jù)標(biāo)準(zhǔn)在一定范圍的通用性。
(五)敦煌學(xué)元數(shù)據(jù)方案的互操作性原則,應(yīng)具有支持對(duì)異構(gòu)系統(tǒng)間的互操作能力。
元數(shù)據(jù)的互操作性體現(xiàn)在對(duì)異構(gòu)系統(tǒng)問(wèn)互操作能力的支持,即不僅能方便地為自己建立的各相關(guān)應(yīng)用系統(tǒng)所操作,還應(yīng)盡可能地為其他組織或機(jī)構(gòu)所建立的應(yīng)用系統(tǒng)所操作?;ゲ僮餍院玫脑獢?shù)據(jù)標(biāo)準(zhǔn)在與其他元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行映射、轉(zhuǎn)換和互聯(lián)時(shí),能夠保證資源描述的準(zhǔn)確性和完整性,即在所攜信息損失最小的前提下,可方便地轉(zhuǎn)換為其他系統(tǒng)常用的元數(shù)據(jù)。在設(shè)計(jì)敦煌學(xué)元數(shù)據(jù)標(biāo)準(zhǔn)時(shí)要非常慎重地考慮元數(shù)據(jù)標(biāo)準(zhǔn)定義的元素的語(yǔ)義和元數(shù)據(jù)結(jié)構(gòu)兩個(gè)重要的方面,盡量選用國(guó)內(nèi)外權(quán)威性機(jī)構(gòu)制定和發(fā)布的元數(shù)據(jù)標(biāo)準(zhǔn)。
(六)敦煌學(xué)元數(shù)據(jù)方案的可擴(kuò)展性原則。
可擴(kuò)展性的基礎(chǔ)是模塊化,要求整個(gè)元數(shù)據(jù)體系和每個(gè)元數(shù)據(jù)模塊都可以擴(kuò)展,通過(guò)復(fù)用、嵌接、擴(kuò)展,和修改增加不同的模塊來(lái)形成和發(fā)展新的元數(shù)據(jù),從而更加適應(yīng)復(fù)雜的元數(shù)據(jù)互操作環(huán)境。一般是采用一個(gè)核心元數(shù)據(jù)模塊來(lái)描述那些基本和共通的內(nèi)容,通過(guò)規(guī)范的擴(kuò)展機(jī)制,允許應(yīng)用領(lǐng)域或具體系統(tǒng)根據(jù)內(nèi)容變化或功能需要,復(fù)用已有的或者定義新的元數(shù)據(jù)模塊或元素,核心元數(shù)據(jù)和被復(fù)用的或新定義的元數(shù)據(jù)(稱擴(kuò)展元數(shù)據(jù))共同組成應(yīng)用元數(shù)據(jù)。由于敦煌學(xué)文獻(xiàn)信息資料所涉及的數(shù)字資源非常廣泛,而各類應(yīng)用背景更為復(fù)雜,元數(shù)據(jù)標(biāo)準(zhǔn)只能提供最廣泛意義上的描述,可能會(huì)對(duì)一些具體應(yīng)用要求更為細(xì)致精確的描述及某些特殊應(yīng)用背景的內(nèi)容未被納入。應(yīng)允許使用者在不破壞標(biāo)準(zhǔn)內(nèi)容(如元素的語(yǔ)義定義)的前提下,擴(kuò)充一些元素、子元素或?qū)傩灾?,以保證元數(shù)據(jù)及其描述資源在更大范圍內(nèi)的良性發(fā)展。
(責(zé)任編輯 包菁萍)