王 靜 李 爍/吉林大學檔案館
圖書館、檔案館和博物館(以下簡稱圖檔博)是國家公眾文化服務體系的重要組成部分,三者雖然彼此獨立,但在文化遺產(chǎn)數(shù)字化加工保存、政府信息管理與服務、民主社會與公民信息獲取權(quán)保障、終身學習推動等方面有共同的愿景與職責[1],在業(yè)務模式、資源屬性以及服務對象上有著極大的趨同性。開展三館間的深層次合作,在一個更加寬泛的框架內(nèi)配置資源, 為用戶提供全方位、一體化的信息資源服務,已成為學術(shù)界和實際工作者的關(guān)注熱點。筆者通過文獻研究方法對國內(nèi)外圖檔博融合服務中的數(shù)字資源整合現(xiàn)狀進行了對比研究,分析總結(jié)了國外圖檔博數(shù)字資源整合特色優(yōu)勢,并以此為基礎(chǔ)探討了符合我國國情的圖檔博數(shù)字資源整合策略。
為全面掌握國內(nèi)外相關(guān)研究現(xiàn)狀,筆者在中國知網(wǎng)上以“圖檔博/圖書檔案博物+數(shù)字資源整合”為關(guān)鍵詞進行了精確檢索,共檢索到相關(guān)論文156篇,其中2013年前并沒有相關(guān)論著產(chǎn)生,2014年后論著數(shù)量呈波動增長趨勢。從論著引用頻次、相關(guān)知識點的圖譜分析來看,國內(nèi)研究偏重于討論數(shù)字文化資源整合的概念、意義、趨勢,分析面臨的問題,以及介紹國外數(shù)字資源整合的項目實踐狀況,并提出了其中可供借鑒的地方。如,朱學芳在介紹國內(nèi)外三館信息資源服務融合研究成果情況基礎(chǔ)上,針對我國三館信息資源特征,提出需要加強檔案、博物資源的共建共享以及資源融合服務的理論和實踐的研究工作[2];肖希明對國外圖檔博數(shù)字資源整合研究和實踐探索的最新進展進行了綜述,內(nèi)容涉及數(shù)字資源整合的背景、政策、平臺建設、發(fā)展趨勢等方面[3];戴艷清通過深度訪談和網(wǎng)上調(diào)查等方式,對湖南當?shù)氐墓嫘詳?shù)字文化資源整合情況進行了實例分析,指出存在資源共建機構(gòu)單一、可獲取性不強,整合欠深入等問題[4]。以上研究工作為國內(nèi)圖檔博數(shù)字資源整合奠定了基礎(chǔ)并指明了發(fā)展方向,然而對于資源整合技術(shù)標準、資源整合平臺建設等方面的研究稍顯不足,也尚未提出較多切實可行的數(shù)字資源整合策略,用以指導三館融合服務項目的開展。
相比而言,歐美發(fā)達國家圖檔博三者間的資源共建共享和服務融合方面的研究與實踐成果較為豐富。自1998年Boyd Rayward教授發(fā)表首篇圖檔博數(shù)字資源整合的論文開始,有關(guān)三館數(shù)字資源整合的討論就逐漸興起[5]。2002年至今,每年都有以圖檔博數(shù)字資源整合為主題召開的學術(shù)會議[6],討論范圍涉及數(shù)字資源的融合及相關(guān)技術(shù)的發(fā)展、對歷史文化遺產(chǎn)的數(shù)字化和保存、圖檔博教育的變革以及數(shù)字資源整合平臺建設等方面。與此同時,在實踐領(lǐng)域也產(chǎn)生了一系列代表性項目,如世界數(shù)字圖書館(WDL)[7]、歐洲虛擬博物館(Europeana)[8]、美國聯(lián)機圖書館中心(OCLC)[9]、德國圖書館、檔案館和博物館門戶(BAMP)[10]等,其中部分實踐項目開放了開發(fā)指南網(wǎng)站供研究人員使用。這些項目資料以及相關(guān)研究論文也為指導國外數(shù)字資源整合理論以及實際工作的可持續(xù)發(fā)展提供了幫助。
一是基于廣泛合作的模式開展資源建設與服務。資源共建單位既包括圖檔博三館,也可根據(jù)項目需求擴展至其他文化部門乃至其他領(lǐng)域。相關(guān)項目具有資源內(nèi)容豐富多樣、載體形式多變等特點,因而項目的資源內(nèi)容覆蓋面全、資源分類方式多樣化。以WDL為例,該項目的資源來源機構(gòu)包括圖書館、檔案館、基金會、協(xié)會、個體公司等多個單位,資源包括手稿、地圖、珍本書籍、樂譜、錄音、電影、印刷品、照片、建筑圖等多種類型。
二是資源組織標準化與關(guān)聯(lián)化。由于原始數(shù)據(jù)資源存在海量、分散與異構(gòu)等特征,國外相關(guān)項目均采用了與將要開展的服務模式相適應的元數(shù)據(jù)標準來規(guī)范這些數(shù)據(jù)信息。同時為保證資源間的延續(xù)性及互操作性,還在不同程度上構(gòu)建了資源間的關(guān)聯(lián)關(guān)系。此外不同項目的實現(xiàn)細節(jié)不盡相同,如WDL和BAMP自建元數(shù)據(jù)標準并采用較為簡單的超鏈接形式實現(xiàn)資源間的互聯(lián),而Europeana基于較為成熟的DC元數(shù)據(jù)標準擴展了自己的元數(shù)據(jù)標準,在此基礎(chǔ)上又基于關(guān)聯(lián)數(shù)據(jù)RDF及元數(shù)據(jù)及其封裝標準METS,設計了開放、跨領(lǐng)域的EDM數(shù)據(jù)模型,實現(xiàn)資源間的語義關(guān)聯(lián)。
三是建立了完備的資源融合與服務平臺。圖檔博數(shù)字資源整合的最終目標就是滿足用戶的信息需求,而這一過程需要搭載一個功能穩(wěn)定、完備的平臺來實現(xiàn)。國外相關(guān)項目在平臺建設之初即充分考慮資源的采集方式、資源整合后的呈現(xiàn)方式、資源的分類體系設置以及專家智慧與技術(shù)應用的融合等方面,由此帶給用戶較好的交互體驗。以Europeana為例,截至2015年底已有37個國家的3500個機構(gòu)參與進來,用戶可直接存取超過4800萬條的數(shù)據(jù)信息;該項目還充分利用圖像、視頻、音頻、地圖、動畫等,設計出具有高度親和力和很強互動性的用戶界面,并支持歐盟官方語言中的24種語言查詢,為用戶提供基于資源內(nèi)容、時間表等多種形式的瀏覽模式[11]。Europeana平臺構(gòu)建及運營模式較為成熟,平臺的功能齊全完備,值得深入研究與推廣。
三館的數(shù)字資源包含著各種形式的結(jié)構(gòu)化信息、半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息,工作人員首先應對這些數(shù)據(jù)進行甄選和優(yōu)化。此外,數(shù)字資源的特征以及組織方式對后期融合服務開展的模式起到?jīng)Q定性作用,因此在融合工作開展的初期就要進行規(guī)劃。初期的工作可分為:(1)建立周密的資源建設計劃,數(shù)字化的書籍、原始檔案、期刊、編研產(chǎn)品、多媒體資源、史料、藏品等都應納入資源建設范圍,以擴大資源覆蓋面、優(yōu)化資源結(jié)構(gòu);(2)三館協(xié)商并明確待整合的資源類型及范疇,該范疇的劃定既要遵守相關(guān)法律法規(guī),也要尊重三館原有傳統(tǒng);(3)根據(jù)預計開展的服務模式定義采集分類標準,可按照資源的外在特征如題名、時間、作者、格式、來源、載體等,也可按照內(nèi)在特征如主題、類別等。
都柏林核心集DC是一種跨領(lǐng)域的信息資源描述標準,其以簡便高效的特性獲得了廣泛的認可。很多大型的數(shù)字資源建設項目如Europeana、CALIMERA、我國的“數(shù)字圖書館推廣工程”等,都基于這一標準構(gòu)建了自己的元數(shù)據(jù)標準。新標準開發(fā)也可以DC為基礎(chǔ),融合機構(gòu)類型、資源類型以及預期開展的服務模式等,制定核心元素集。實現(xiàn)過程可按照資源屬性,分為歸納與提煉、擴展與個性化兩個環(huán)節(jié),第一個環(huán)節(jié)應提取每類資源的最基本的核心字段以及最能體現(xiàn)該類資源特質(zhì)的個性字段,并對同語義、近語義字段進行歸并與凝煉;第二個環(huán)節(jié)應根據(jù)具體資源類型的特征,通過橫向擴展(增加元素)或縱向擴展(增加修飾詞)建立各資源類型特有的元數(shù)據(jù)[12]。由于數(shù)字資源的來源、形式、載體各異,因此制定核心元素集時可參考其他國際通用標準,如圖書館廣泛應用的機讀目錄格式MARC、檔案國際編碼著錄標準EAD、藝術(shù)作品描述類目CDWA、視覺資源協(xié)會核心類目VRACore等。
資源間關(guān)聯(lián)度的不同在很大程度上決定了平臺后續(xù)開展服務形式的差異。國外WDL和BAMP項目的主要服務模式為提供較為簡單的文化資源的檢索和瀏覽,因此僅需實現(xiàn)資源外在特征上的整合即可;而Europeana項目可以為用戶提供基于資源內(nèi)容深度整合的服務,因此在資源組織過程中引入了RDF技術(shù)來建立資源間的內(nèi)外部關(guān)聯(lián)。鑒于互聯(lián)網(wǎng)時代用戶對信息資源的需求趨于個性化、知識化和精準化,故建議采集而來的數(shù)據(jù)資源在元數(shù)據(jù)轉(zhuǎn)換完畢后,通過統(tǒng)一資源標識符(URI)以及資源描述框架(RDF)進行資源重構(gòu)。
整合圖檔博數(shù)字資源,需要根據(jù)用戶需求構(gòu)建融合三館資源的“一站式”服務平臺。應當注意到,這個平臺不應只是用簡易的接口技術(shù)實現(xiàn)三者之間的系統(tǒng)互聯(lián),也不應只是將不同類目的資源進行簡單羅列,或?qū)⒉煌乃阉饕孢M行簡單聚合;平臺應當保障資源得到標準化、關(guān)聯(lián)化、知識化的深度加工,能將信息資源組打造成為貼近用戶需求的數(shù)字文化產(chǎn)品,并能按照用戶的個性化需求展示檢索結(jié)果。因此平臺在開發(fā)時就應將門戶網(wǎng)站的需求分析、功能設計、搜索引擎以及導航菜單的設計、資源的分類采集模式和存儲模式、移動服務模式的開發(fā)與應用、集成服務的實現(xiàn)機制等進行全面規(guī)劃,并充分利用多語言技術(shù)、可視化技術(shù)、WEB3.0技術(shù)、云存儲等現(xiàn)代化信息技術(shù)提升資源的利用效率。數(shù)據(jù)的相似度分析、聚類分析、數(shù)據(jù)挖掘等數(shù)據(jù)處理技術(shù)也可引入進來,進一步分析與挖掘資源間的潛在聯(lián)系,從而提升資源質(zhì)量。