摘要數(shù)字資源作為圖書(shū)館館藏資源的重要組成部分,其采購(gòu)經(jīng)費(fèi)在圖書(shū)館資源建設(shè)經(jīng)費(fèi)中所占的比重越來(lái)越大。與紙質(zhì)資源相比,數(shù)字資源對(duì)存儲(chǔ)介質(zhì)及網(wǎng)絡(luò)的依賴(lài)性非常強(qiáng)。一旦存儲(chǔ)介質(zhì)損壞或者因各種原因?qū)е戮W(wǎng)絡(luò)中斷,數(shù)字資源將無(wú)法獲取和使用。文章以北京大學(xué)圖書(shū)館長(zhǎng)期保存系統(tǒng)建設(shè)實(shí)踐出發(fā),從系統(tǒng)建設(shè)概況、長(zhǎng)期保存的技術(shù)保障、長(zhǎng)期保存的實(shí)踐探索、長(zhǎng)期保存實(shí)踐中的問(wèn)題與未來(lái)展望等方面全面介紹了長(zhǎng)期保存系統(tǒng)建設(shè)情況,并對(duì)數(shù)字人文資源的長(zhǎng)期保存難點(diǎn)進(jìn)行了探索。
關(guān)鍵詞數(shù)字資源保存長(zhǎng)期保存數(shù)字人文
分類(lèi)號(hào)G250.74
數(shù)字資源作為館藏資源中的重要部分,其采購(gòu)經(jīng)費(fèi)在圖書(shū)館資源建設(shè)經(jīng)費(fèi)中所占比重越來(lái)越大。以北京大學(xué)圖書(shū)館(以下簡(jiǎn)稱(chēng)北大圖書(shū)館)為例,2014年購(gòu)買(mǎi)數(shù)字資源的經(jīng)費(fèi)占資源建設(shè)經(jīng)費(fèi)的38%,2016年已上升至65%,比重大幅上升。澳大利亞的維多利亞大學(xué)圖書(shū)館在其2016-2020年的戰(zhàn)略規(guī)劃中提到,到2020年該館新購(gòu)的信息資源將是100%電子化的。作為館藏資源中的重要組成部分,各圖書(shū)館越來(lái)越重視數(shù)字資源的揭示,越來(lái)越多的圖書(shū)館建設(shè)了資源發(fā)現(xiàn)系統(tǒng),以期能夠最大限度地揭示館藏?cái)?shù)字資源,提高數(shù)字資源的使用率,更好地服務(wù)讀者。然而,與紙質(zhì)資源相比,數(shù)字資源對(duì)存儲(chǔ)介質(zhì)的依賴(lài)性非常強(qiáng),存儲(chǔ)介質(zhì)非常脆弱,一旦受到破壞或者損傷,所承載的內(nèi)容就無(wú)法獲取和利用,這使得數(shù)字資源面臨著非常大的消失和不可獲得的風(fēng)險(xiǎn)[1]。
2000年12月,美國(guó)國(guó)會(huì)為國(guó)家數(shù)字信息基礎(chǔ)設(shè)施和保護(hù)計(jì)劃(National Digital Information Infrastructure and Preservation Program,以下簡(jiǎn)稱(chēng)NDIIPP)撥款1億美元,用于收集、保存重要的數(shù)字內(nèi)容并確保其長(zhǎng)期可用,建立和加強(qiáng)合作伙伴網(wǎng)絡(luò),并協(xié)同開(kāi)發(fā)一系列的工具和服務(wù)技術(shù)框架,用于支撐長(zhǎng)期保存。該計(jì)劃由美國(guó)國(guó)會(huì)圖書(shū)館領(lǐng)導(dǎo),通過(guò)與美國(guó)國(guó)家科學(xué)基金會(huì)、斯坦福大學(xué)、州政府等眾多機(jī)構(gòu)建立合作伙伴關(guān)系,對(duì)WEB信息、音頻、視頻、數(shù)字期刊、電子書(shū)、數(shù)字電視、州政府?dāng)?shù)字信息等多種類(lèi)型的數(shù)字資源開(kāi)展長(zhǎng)期保存研究和實(shí)踐。該計(jì)劃還建立了完善的資助制度,鼓勵(lì)對(duì)新型數(shù)字資源開(kāi)展保存研究和實(shí)踐[2][3]。作為一個(gè)國(guó)家級(jí)的項(xiàng)目,該計(jì)劃建立起了成熟的合作保存機(jī)制,形成了廣泛的社會(huì)參與,并不斷把新型數(shù)字內(nèi)容納入保存體系當(dāng)中,具有很好的借鑒意義。
“大量拷貝確保數(shù)據(jù)安全”(Lots Of Copies Keep Stuff Safe,以下簡(jiǎn)稱(chēng)LOCKSS)項(xiàng)目是由斯坦福大學(xué)圖書(shū)館發(fā)起的開(kāi)源的、由圖書(shū)館主導(dǎo)的長(zhǎng)期保存系統(tǒng),其系統(tǒng)設(shè)計(jì)原則是大量拷貝確保數(shù)據(jù)安全。LOCKSS系統(tǒng)的參與者包括出版商、圖書(shū)館和用戶。出版商通過(guò)發(fā)布LOCKSS權(quán)限聲明和資源清單對(duì)允許保存的內(nèi)容進(jìn)行限定;圖書(shū)館在本地部署LOCKSS BOX,根據(jù)出版商的權(quán)限聲明和資源清單獲取和存儲(chǔ)出版商的內(nèi)容,并將本地LOCKSS BOX注冊(cè)加入到LOCKSS分布式保存網(wǎng)絡(luò);用戶在出版商內(nèi)容因故(網(wǎng)絡(luò)擁塞、退訂、自然災(zāi)害、戰(zhàn)爭(zhēng)等)不能訪問(wèn)時(shí)通過(guò)本地LOCKSS BOX獲取內(nèi)容。一旦數(shù)據(jù)攝入完成,LOCKSS BOX中的內(nèi)容將不再依賴(lài)數(shù)據(jù)庫(kù)商,通過(guò)不斷與分布式保存網(wǎng)絡(luò)中其他LOCKSS BOX節(jié)點(diǎn)中的相同內(nèi)容進(jìn)行對(duì)比及同步,LOCKSS BOX確保本地保存的內(nèi)容始終是正確的。目前,已經(jīng)有超過(guò)530家出版商加入了LOCKSS全球保存網(wǎng)絡(luò),另有大量機(jī)構(gòu)創(chuàng)建了LOCKSS私有網(wǎng)絡(luò)保存機(jī)構(gòu)的特殊數(shù)字內(nèi)容[4]。LOCKSS保存系統(tǒng)有眾多的出版社及圖書(shū)館參與,在長(zhǎng)期保存領(lǐng)域具有很大的影響力,值得國(guó)內(nèi)保存系統(tǒng)學(xué)習(xí)和借鑒。
“柱廊”(Portico)項(xiàng)目不同于前述長(zhǎng)期保存系統(tǒng),是由獨(dú)立于出版商和圖書(shū)館的第三方提供的保存服務(wù)。Portico保存服務(wù)是非營(yíng)利機(jī)構(gòu)ITHAKA的一部分,截至2018年8月25日,Portico已與554家出版社和1013家圖書(shū)館開(kāi)展合作,獲取授權(quán)保存期刊31379種、電子書(shū)1246248種,已保存期刊26808種、電子書(shū)918893種[5]。
北京大學(xué)圖書(shū)館長(zhǎng)期保存系統(tǒng)建設(shè)與探索/張乃帥,孫超Construction and Exploration of
Longterm Preservation System of Peking University Library
/Zhang Naishuai,Sun Chao
北京大學(xué)圖書(shū)館長(zhǎng)期保存系統(tǒng)建設(shè)與探索/張乃帥,孫超Construction and Exploration of
Longterm Preservation System of Peking University Library/Zhang Naishuai,Sun Chao
與國(guó)外長(zhǎng)期保存現(xiàn)狀不同的是,目前國(guó)內(nèi)各圖書(shū)館在數(shù)字資源的長(zhǎng)期保存方面投入的經(jīng)費(fèi)及關(guān)注度遠(yuǎn)遠(yuǎn)不夠,并未引起足夠重視。
北大圖書(shū)館于2016年承建國(guó)家數(shù)字科技文獻(xiàn)資源長(zhǎng)期保存體系(National Digital Preservation Program,以下簡(jiǎn)稱(chēng)NDPP)北京大學(xué)節(jié)點(diǎn)建設(shè)項(xiàng)目,并以項(xiàng)目為依托,組建了由館長(zhǎng)牽頭、兩位副館長(zhǎng)分頭負(fù)責(zé)的長(zhǎng)期保存項(xiàng)目團(tuán)隊(duì)。項(xiàng)目團(tuán)隊(duì)成員來(lái)自信息化與數(shù)據(jù)中心及中國(guó)高校人文社會(huì)科學(xué)文獻(xiàn)中心(China Academic Social Sciences and Humanities Library,以下簡(jiǎn)稱(chēng)CASHL)管理中心,在資源談判、軟件開(kāi)發(fā)及運(yùn)行維護(hù)領(lǐng)域積累了豐富經(jīng)驗(yàn)。同時(shí),以項(xiàng)目為依托,除了完成項(xiàng)目約定的國(guó)外重要數(shù)據(jù)庫(kù)的國(guó)內(nèi)保存以外,逐漸向館藏資源輻射,與資源建設(shè)中心合作探討?zhàn)^藏?cái)?shù)字資源的長(zhǎng)期保存事宜。
本文將以北大圖書(shū)館在長(zhǎng)期保存方面的工作實(shí)踐為基礎(chǔ),闡述長(zhǎng)期保存體系的建設(shè)經(jīng)驗(yàn),從系統(tǒng)建設(shè)概況、長(zhǎng)期保存的技術(shù)保障、長(zhǎng)期保存的實(shí)踐探索、長(zhǎng)期保存實(shí)踐中的問(wèn)題與未來(lái)展望等方面進(jìn)行介紹,以期能為更多圖書(shū)館的長(zhǎng)期保存系統(tǒng)建設(shè)提供經(jīng)驗(yàn)和借鑒。
1長(zhǎng)期保存系統(tǒng)建設(shè)概況
眾所周知,大部分外文數(shù)據(jù)庫(kù)的服務(wù)器都位于境外,且在境內(nèi)沒(méi)有鏡像服務(wù)器。一旦因網(wǎng)絡(luò)擁塞、自然災(zāi)害、戰(zhàn)爭(zhēng)、政治因素等原因?qū)е鲁鼍尘W(wǎng)絡(luò)中斷,外文數(shù)據(jù)庫(kù)將無(wú)法訪問(wèn)。這將使大量經(jīng)費(fèi)購(gòu)買(mǎi)的國(guó)外數(shù)據(jù)庫(kù)無(wú)法產(chǎn)生科研和社會(huì)效益,直接影響我國(guó)的科研、教育和創(chuàng)新環(huán)境,對(duì)國(guó)家科技自主創(chuàng)新能力和國(guó)家科技安全造成影響。為此,科技部于2013年批準(zhǔn)由國(guó)家科技圖書(shū)文獻(xiàn)中心(National Science and Technology Library,以下簡(jiǎn)稱(chēng)NSTL)牽頭組織實(shí)施,以NSTL主要成員單位和少數(shù)重要高校為核心,進(jìn)行國(guó)家保存體系的建設(shè)工作,NDPP應(yīng)運(yùn)而生。NDPP由管理機(jī)構(gòu)和保存節(jié)點(diǎn)構(gòu)成,管理機(jī)構(gòu)為NSTL,保存節(jié)點(diǎn)包括中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、中國(guó)科學(xué)技術(shù)信息研究所和北大圖書(shū)館。
保存節(jié)點(diǎn)每季度召開(kāi)例會(huì),匯報(bào)各節(jié)點(diǎn)在資源談判、資源保存方面的工作進(jìn)展及存在的問(wèn)題,并就已發(fā)現(xiàn)問(wèn)題的解決進(jìn)展進(jìn)行說(shuō)明。NDPP還建立了完整性檢查制度和審計(jì)制度,確保各節(jié)點(diǎn)對(duì)簽署保存協(xié)議的數(shù)字資源進(jìn)行了準(zhǔn)確、完整、有效的保存。保存節(jié)點(diǎn)還形成了聯(lián)合談判機(jī)制,對(duì)部分配合度低、談判進(jìn)展緩慢的數(shù)據(jù)庫(kù)商開(kāi)展聯(lián)合談判。
作為NDPP的參建節(jié)點(diǎn)和唯一的高校保存節(jié)點(diǎn),北大圖書(shū)館重點(diǎn)保存基礎(chǔ)科學(xué)、跨學(xué)科領(lǐng)域和高科技領(lǐng)域的數(shù)字資源,也涉及社會(huì)科學(xué)相關(guān)資源的長(zhǎng)期保存,同時(shí)承擔(dān)探索新型數(shù)字資源如數(shù)字人文資源長(zhǎng)期保存方案的任務(wù)。根據(jù)項(xiàng)目組成員所承擔(dān)的任務(wù)不同,北大圖書(shū)館組建了權(quán)益談判團(tuán)隊(duì)、系統(tǒng)運(yùn)行團(tuán)隊(duì)和軟件開(kāi)發(fā)團(tuán)隊(duì),分別承擔(dān)數(shù)字資源的保存權(quán)益談判、保存系統(tǒng)的穩(wěn)定運(yùn)行及新增數(shù)字資源的攝入插件開(kāi)發(fā)等任務(wù)。
北大圖書(shū)館長(zhǎng)期保存系統(tǒng)采用了由保存體系承建單位中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心研發(fā)的基于Fedora倉(cāng)儲(chǔ)的數(shù)字資源長(zhǎng)期保存系統(tǒng)(Digital Preservation System,以下簡(jiǎn)稱(chēng)DPS)。有關(guān)DPS的系統(tǒng)架構(gòu),付鴻鵠等在《分布式數(shù)字資源保存系統(tǒng)與技術(shù)架構(gòu)研究》一文中已經(jīng)詳細(xì)論述,在此不再贅述。
經(jīng)過(guò)兩年多的實(shí)踐和探索,北大圖書(shū)館在資源權(quán)益談判、插件開(kāi)發(fā)和資源保存方面均取得了較大進(jìn)展, 與Emerald期刊數(shù)據(jù)庫(kù)、ProQuest碩博士論文數(shù)據(jù)庫(kù)簽署了長(zhǎng)期保存協(xié)議,開(kāi)發(fā)Emerald數(shù)據(jù)攝入插件一個(gè),保存Emerald期刊305種、258506篇,獲取Proquest碩博士論文71.6萬(wàn)篇。并根據(jù)工作需要,開(kāi)始在館藏?cái)?shù)據(jù)資源和新型數(shù)字資源長(zhǎng)期保存方面開(kāi)展研究和探索。
2長(zhǎng)期保存的技術(shù)保障
長(zhǎng)期保存作為一個(gè)復(fù)雜的系統(tǒng)工程,需要來(lái)自技術(shù)、政策、組織等多個(gè)層面的保障。其中技術(shù)層面包括系統(tǒng)部署、網(wǎng)絡(luò)安全、系統(tǒng)備份、插件開(kāi)發(fā)和數(shù)據(jù)更新等,用于確保數(shù)據(jù)真正做到“長(zhǎng)期”保存,可謂長(zhǎng)期保存系統(tǒng)的基礎(chǔ)。
2.1系統(tǒng)部署
長(zhǎng)期保存系統(tǒng)建設(shè)的第一步是系統(tǒng)部署。系統(tǒng)部署需要根據(jù)DPS系統(tǒng)要求,結(jié)合館內(nèi)的網(wǎng)絡(luò)、存儲(chǔ)、服務(wù)器環(huán)境,制定部署架構(gòu)及方案,確保長(zhǎng)期保存系統(tǒng)在系統(tǒng)性能、網(wǎng)絡(luò)安全等方面滿足設(shè)計(jì)需求。最終,北大圖書(shū)館將DPS系統(tǒng)部署在兩臺(tái)物理服務(wù)器上,一臺(tái)服務(wù)器部署web服務(wù)器、數(shù)據(jù)庫(kù)及索引服務(wù),另一臺(tái)服務(wù)器直連存儲(chǔ)服務(wù)器,用于數(shù)據(jù)存儲(chǔ)。長(zhǎng)期保存系統(tǒng)的首要任務(wù)是對(duì)資源進(jìn)行可靠保存,平時(shí)不對(duì)外提供服務(wù),為確保服務(wù)器的可靠穩(wěn)定,在長(zhǎng)期保存系統(tǒng)前端與校園網(wǎng)之間架設(shè)了防火墻,對(duì)服務(wù)器進(jìn)行嚴(yán)格的訪問(wèn)控制。
2.2系統(tǒng)安全
DPS系統(tǒng)采用了大量的開(kāi)源組件進(jìn)行建設(shè),而開(kāi)源組件面臨的一項(xiàng)重大挑戰(zhàn)是源代碼對(duì)所有人開(kāi)放,一旦開(kāi)源組件出現(xiàn)安全漏洞,漏洞即對(duì)所有人可見(jiàn)且漏洞特征將會(huì)非常明顯。開(kāi)源組件的漏洞如果被別有用心的攻擊者利用,造成的損失不可估量。雖然DPS系統(tǒng)位于防火墻后,不會(huì)受到直接攻擊,但是目前仍與其他服務(wù)器處于同一個(gè)網(wǎng)絡(luò)環(huán)境,一旦其他服務(wù)器存在安全漏洞被攻擊者利用,DPS系統(tǒng)仍將受到威脅。為了盡早發(fā)現(xiàn)DPS系統(tǒng)存在的漏洞,降低受到網(wǎng)絡(luò)安全威脅的概率,確保長(zhǎng)期保存系統(tǒng)的數(shù)據(jù)安全,系統(tǒng)運(yùn)行團(tuán)隊(duì)定期對(duì)DPS系統(tǒng)進(jìn)行網(wǎng)絡(luò)安全掃描和滲透測(cè)試,如果發(fā)現(xiàn)新的漏洞,第一時(shí)間與開(kāi)發(fā)團(tuán)隊(duì)溝通,獲取漏洞解決方案并進(jìn)行相應(yīng)的網(wǎng)絡(luò)安全升級(jí)。通過(guò)網(wǎng)絡(luò)安全掃描和滲透測(cè)試,北大圖書(shū)館共發(fā)現(xiàn)命令執(zhí)行、注入、WebShell等類(lèi)型高危漏洞6個(gè),通過(guò)與開(kāi)發(fā)團(tuán)隊(duì)合作,及時(shí)封堵了漏洞,清除了潛在威脅。
2.3數(shù)據(jù)備份
除了網(wǎng)絡(luò)安全掃描以外,數(shù)據(jù)備份是另一項(xiàng)對(duì)長(zhǎng)期保存系統(tǒng)數(shù)據(jù)安全至關(guān)重要的維護(hù)任務(wù),主要應(yīng)對(duì)硬件故障及網(wǎng)絡(luò)攻擊等帶來(lái)的數(shù)據(jù)損壞和丟失。目前,系統(tǒng)運(yùn)行團(tuán)隊(duì)根據(jù)長(zhǎng)期保存系統(tǒng)的特點(diǎn)及備份系統(tǒng)架構(gòu),制定了在線磁盤(pán)備份和離線磁帶庫(kù)備份兩種備份策略,在線磁盤(pán)備份可進(jìn)行快速恢復(fù),保留的備份周期較短;離線磁帶庫(kù)備份恢復(fù)周期比磁盤(pán)備份恢復(fù)周期長(zhǎng),但是能保存較長(zhǎng)的備份周期。
目前,北大圖書(shū)館僅有一個(gè)數(shù)據(jù)中心,距離金融系統(tǒng)的“兩地三中心”運(yùn)營(yíng)安全體系尚有較大差距,無(wú)法應(yīng)對(duì)災(zāi)難級(jí)故障。為了提高安全系數(shù),北大圖書(shū)館正在規(guī)劃建設(shè)“同城異地?cái)?shù)據(jù)中心”,將備份數(shù)據(jù)放置于同城其他校區(qū)的數(shù)據(jù)中心內(nèi),避免因一個(gè)數(shù)據(jù)中心遇到災(zāi)難級(jí)故障導(dǎo)致數(shù)據(jù)丟失的極端情況發(fā)生。
2.4插件開(kāi)發(fā)
由于不同電子資源的數(shù)據(jù)類(lèi)型不同、數(shù)據(jù)格式不同,這些數(shù)據(jù)要存入長(zhǎng)期保存系統(tǒng),需要不同的數(shù)據(jù)攝入插件做支撐。對(duì)于DPS系統(tǒng)已經(jīng)支持的電子資源類(lèi)型如期刊、電子書(shū)等,通過(guò)分析數(shù)據(jù)庫(kù)商提供的樣例數(shù)據(jù)形成新增資源格式分析報(bào)告,以格式分析報(bào)告為基礎(chǔ),調(diào)用DPS系統(tǒng)提供的接口開(kāi)發(fā)數(shù)據(jù)攝入插件。開(kāi)發(fā)完成并測(cè)試通過(guò)以后,部署到DPS服務(wù)器,用于新增資源的數(shù)據(jù)攝入。
對(duì)于首次保存的資源類(lèi)型如ProQuest碩博士論文,目前的底層數(shù)據(jù)模型并不能滿足保存需求。通過(guò)調(diào)研學(xué)位論文相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),北大圖書(shū)館提出學(xué)位論文類(lèi)型電子資源的保存規(guī)范,并與中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心開(kāi)發(fā)團(tuán)隊(duì)進(jìn)行了深入溝通。后續(xù)將在中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心開(kāi)發(fā)團(tuán)隊(duì)對(duì)底層數(shù)據(jù)模型進(jìn)行調(diào)整后及時(shí)開(kāi)發(fā)ProQuest碩博士論文攝入插件。
2.5數(shù)據(jù)更新
長(zhǎng)期保存系統(tǒng)最核心的常規(guī)工作是根據(jù)保存協(xié)議的約定周期定期獲取電子資源的更新數(shù)據(jù)并上載至DPS系統(tǒng)。為規(guī)范數(shù)據(jù)來(lái)源,北大圖書(shū)館統(tǒng)一通過(guò)FTP服務(wù)器向DPS系統(tǒng)提供保存資源的數(shù)據(jù)更新。FTP服務(wù)器上的數(shù)據(jù)來(lái)源,根據(jù)數(shù)據(jù)量大小、數(shù)據(jù)庫(kù)商的數(shù)據(jù)傳遞策略等多種因素的不同,有多種更新途徑,包括硬盤(pán)更新、FTP更新等。如通過(guò)硬盤(pán)更新數(shù)據(jù),在獲取硬盤(pán)并校驗(yàn)硬盤(pán)數(shù)據(jù)后由項(xiàng)目組成員上傳至FTP服務(wù)器;如通過(guò)FTP更新數(shù)據(jù),則在FTP服務(wù)器上向數(shù)據(jù)庫(kù)商服務(wù)器發(fā)起FTP下載請(qǐng)求獲取更新數(shù)據(jù)。為確保更新數(shù)據(jù)的安全可靠,通過(guò)配置防火墻策略,僅允許FTP服務(wù)器對(duì)外發(fā)起請(qǐng)求,不允許外部服務(wù)器向FTP服務(wù)器發(fā)起請(qǐng)求,盡量降低FTP服務(wù)器被攻擊的可能性。
3長(zhǎng)期保存的實(shí)踐探索
經(jīng)過(guò)兩年的建設(shè)和努力,北大圖書(shū)館長(zhǎng)期保存系統(tǒng)在權(quán)益談判、數(shù)據(jù)建設(shè)等方面均取得豐碩成果,并著手探索數(shù)字人文資源及館藏?cái)?shù)字資源的長(zhǎng)期保存。
3.1權(quán)益談判
北大圖書(shū)館組建了由主管副館長(zhǎng)及CASHL管理中心成員構(gòu)成的權(quán)益談判團(tuán)隊(duì),負(fù)責(zé)重要數(shù)字資源的保存權(quán)益談判。團(tuán)隊(duì)成員均主持及參與高校圖書(shū)館數(shù)字資源采購(gòu)聯(lián)盟(Digital Resource Acquisition Alliance of Chinese Academic Libraries,以下簡(jiǎn)稱(chēng)DRAA)的日常工作,對(duì)數(shù)據(jù)庫(kù)資源非常了解,在資源采購(gòu)談判方面具有豐富經(jīng)驗(yàn)。同時(shí)借助DRAA理事會(huì)等渠道,能夠獲得DRAA各牽頭館的廣泛支持,而且能夠擴(kuò)大保存體系的宣傳途徑和影響力。
權(quán)益談判團(tuán)隊(duì)經(jīng)過(guò)漫長(zhǎng)談判和不懈努力,成功簽署Emerald期刊數(shù)據(jù)庫(kù)保存協(xié)議、ProQuest碩博士論文數(shù)據(jù)庫(kù)保存協(xié)議。其中,ProQuest碩博士論文數(shù)據(jù)庫(kù)保存協(xié)議是NDPP中首次簽署學(xué)位論文類(lèi)型的保存協(xié)議,在保存資源類(lèi)型和保存數(shù)據(jù)量上均取得突破性進(jìn)展。權(quán)益談判團(tuán)隊(duì)積極推動(dòng)與Elsevier公司的談判進(jìn)程,目前雙方已基本達(dá)成一致,即將進(jìn)入實(shí)質(zhì)性操作階段。與Taylor & Francis公司的談判也在持續(xù)進(jìn)行,公司董事會(huì)支持NDPP項(xiàng)目,雙方正就協(xié)議內(nèi)容展開(kāi)討論。在牽頭開(kāi)展電子資源采購(gòu)過(guò)程中,北大圖書(shū)館積極推動(dòng)長(zhǎng)期保存談判,已與“一帶一路專(zhuān)題數(shù)據(jù)庫(kù)”“南亞研究回溯數(shù)據(jù)庫(kù)”“美洲回溯文獻(xiàn)典藏?cái)?shù)據(jù)庫(kù)”三個(gè)數(shù)據(jù)庫(kù)提供商達(dá)成向北大圖書(shū)館提供長(zhǎng)期保存數(shù)據(jù)的意向。此外,權(quán)益談判團(tuán)隊(duì)還向Brill發(fā)出了保存要約。
3.2長(zhǎng)期保存數(shù)據(jù)建設(shè)
截至2018年8月25日,北大圖書(shū)館長(zhǎng)期保存系統(tǒng)已完成Emerald 2017年前回溯數(shù)據(jù)的保存工作,共保存期刊305種、全文258506篇;已獲得ProQuest碩博士論文全文71.6萬(wàn)篇,由于底層數(shù)據(jù)模型及數(shù)據(jù)攝入插件尚未調(diào)整及開(kāi)發(fā)完成,ProQuest碩博士論文還未進(jìn)行保存。
3.3數(shù)字人文資源及館藏資源的長(zhǎng)期保存實(shí)踐
數(shù)字人文是計(jì)算機(jī)學(xué)科和人文學(xué)科交叉研究的一個(gè)新領(lǐng)域,由計(jì)算人文和人文計(jì)算領(lǐng)域發(fā)展而來(lái)。對(duì)數(shù)字人文學(xué)科本質(zhì)的認(rèn)識(shí)一直存在不同觀點(diǎn),其中一個(gè)被廣泛引用的典型解釋是:數(shù)字人文是針對(duì)計(jì)算工具與所有文化產(chǎn)品交叉領(lǐng)域的研究[6]。中國(guó)歷代人物傳記資料庫(kù)(China Biographical Database,以下簡(jiǎn)稱(chēng)CBDB)是由哈佛大學(xué)費(fèi)正清中國(guó)研究中心、北京大學(xué)中國(guó)古代史研究中心、臺(tái)灣“中央”研究院歷史語(yǔ)言研究所共同主持的學(xué)術(shù)數(shù)據(jù)庫(kù)。截至2018年8月,CBDB共收錄41.7萬(wàn)人的傳記資料,是數(shù)字人文領(lǐng)域具有深遠(yuǎn)影響力和極具代表性的學(xué)術(shù)項(xiàng)目。經(jīng)過(guò)溝通,CBDB項(xiàng)目組已同意在北大圖書(shū)館設(shè)立CBDB鏡像站點(diǎn),將CBDB數(shù)據(jù)在本地保存。項(xiàng)目組也已原則上同意北大圖書(shū)館將CBDB數(shù)據(jù)長(zhǎng)期保存,詳細(xì)條款正在進(jìn)行溝通探討。
Gale數(shù)據(jù)庫(kù)整合了多種來(lái)源的信息,收錄了跨越全球500年歷史的大量原始檔案一次文獻(xiàn),涉及包括經(jīng)濟(jì)、歷史、社會(huì)、國(guó)際關(guān)系、文學(xué)、地理、政治、法律等在內(nèi)的豐富的學(xué)科主題。北大圖書(shū)館于2017年訂購(gòu)了Gale數(shù)據(jù)庫(kù),在訂購(gòu)時(shí)即注重?cái)?shù)據(jù)的本地存儲(chǔ),在簽訂合同時(shí)明確約定全部數(shù)據(jù)在本地進(jìn)行備份存儲(chǔ)。長(zhǎng)期保存系統(tǒng)運(yùn)行團(tuán)隊(duì)已于2018年6月完成Gale數(shù)據(jù)庫(kù)平臺(tái)全部數(shù)據(jù)的獲取和本地存儲(chǔ)工作,共存儲(chǔ)文件1.82億個(gè),數(shù)據(jù)量103T。目前,北大圖書(shū)館項(xiàng)目團(tuán)隊(duì)正在與資源建設(shè)中心、Gale集團(tuán)探討將Gale數(shù)據(jù)長(zhǎng)期保存的可行性。
4長(zhǎng)期保存實(shí)踐中的問(wèn)題與未來(lái)展望
經(jīng)過(guò)兩年的探索和實(shí)踐,北大圖書(shū)館在長(zhǎng)期保存系統(tǒng)建設(shè)方面取得了一定成果,同時(shí)也發(fā)現(xiàn)了一些問(wèn)題,制約著長(zhǎng)期保存系統(tǒng)的建設(shè)和發(fā)展。
4.1數(shù)據(jù)庫(kù)商提供的回溯數(shù)據(jù)和更新數(shù)據(jù)格式不一致
數(shù)據(jù)庫(kù)商提供的回溯數(shù)據(jù)和后續(xù)提供的更新數(shù)據(jù),在數(shù)據(jù)格式方面有時(shí)候會(huì)存在差異,為此,需要開(kāi)發(fā)兩個(gè)版本的數(shù)據(jù)攝入插件,一個(gè)版本用于攝入回溯數(shù)據(jù),另一個(gè)版本用于后續(xù)的常規(guī)數(shù)據(jù)更新。這種狀況除帶來(lái)額外的開(kāi)發(fā)工作量,也可能造成同一數(shù)據(jù)庫(kù)保存的數(shù)據(jù)項(xiàng)前后不一致。造成這種狀況的原因,一部分跟數(shù)據(jù)庫(kù)商原始數(shù)據(jù)本身存在差異有關(guān),另一部分也跟圖書(shū)館和數(shù)據(jù)庫(kù)商之間的數(shù)據(jù)格式約定不嚴(yán)格有關(guān)。后續(xù)建設(shè)過(guò)程中,應(yīng)從權(quán)益談判階段開(kāi)始關(guān)注電子資源的數(shù)據(jù)格式,必要時(shí)將插件開(kāi)發(fā)人員引入權(quán)益談判團(tuán)隊(duì),盡量從源頭避免回溯數(shù)據(jù)與更新數(shù)據(jù)不一致的問(wèn)題。
4.2部分功能需手動(dòng)啟用
由于系統(tǒng)本身的架構(gòu)設(shè)計(jì)原因,北大圖書(shū)館長(zhǎng)期保存系統(tǒng)的部分功能需要在服務(wù)器后臺(tái)通過(guò)執(zhí)行特定命令開(kāi)啟,無(wú)法通過(guò)管理界面直接使用。這導(dǎo)致長(zhǎng)期保存系統(tǒng)在使用及運(yùn)行過(guò)程中需要進(jìn)行人工干預(yù),自動(dòng)化程度有待提高。
4.3底層數(shù)據(jù)模型兼容性較差
由于DPS系統(tǒng)最初設(shè)計(jì)面向的保存類(lèi)型主要是電子書(shū)和電子期刊,底層數(shù)據(jù)模型對(duì)其他類(lèi)型的數(shù)字資源比如學(xué)位論文兼容性較差。對(duì)學(xué)位論文類(lèi)型的數(shù)字資源進(jìn)行保存,首先要調(diào)整底層數(shù)據(jù)模型,然后才可以進(jìn)行數(shù)據(jù)攝入插件開(kāi)發(fā)及保存,耗時(shí)周期長(zhǎng),時(shí)效性較差。
4.4數(shù)字人文資源保存難度大
數(shù)字人文研究的基本方法為社會(huì)網(wǎng)絡(luò)分析、文本分析、空間分析和時(shí)序分析。社會(huì)網(wǎng)絡(luò)分析是一門(mén)對(duì)社會(huì)關(guān)系進(jìn)行量化分析的藝術(shù)和技術(shù),它要求有較高的統(tǒng)計(jì)學(xué)、數(shù)學(xué)功底, 以及計(jì)算機(jī)編程技術(shù)和能力等[7]。文本分析是指利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理、可視化技術(shù)等多學(xué)科領(lǐng)域的技術(shù)和方法,對(duì)文本數(shù)據(jù)進(jìn)行抽取進(jìn)而發(fā)現(xiàn)新穎、有趣的知識(shí)[8]??臻g分析和時(shí)序分析經(jīng)常被結(jié)合使用,以地理信息系統(tǒng)(GIS)為依托,利用GIS技術(shù)的空間數(shù)據(jù)采集、時(shí)空數(shù)據(jù)建模、多層地圖疊加功能,分析不同時(shí)間切面中的地理、社會(huì)、自然之間的關(guān)系,探索發(fā)展演變規(guī)律[9]。
通過(guò)數(shù)字人文研究的基本方法可以看出,數(shù)字人文資源除了包括文本、圖像、音頻、視頻等傳統(tǒng)數(shù)字對(duì)象外,還包括圖論語(yǔ)言和技術(shù)、數(shù)學(xué)模型、計(jì)算機(jī)模擬軟件、數(shù)據(jù)挖掘算法、自然語(yǔ)言處理技術(shù)及軟件、地理信息系統(tǒng)等大量技術(shù)工具。這一點(diǎn)與傳統(tǒng)數(shù)字資源有很大不同。傳統(tǒng)數(shù)字資源如期刊、電子書(shū)等,一般具有規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)和全文,長(zhǎng)期保存系統(tǒng)只需設(shè)計(jì)出相對(duì)固定的底層數(shù)據(jù)模型,配合不同的數(shù)據(jù)庫(kù)攝入插件,即可完成大部分期刊、電子書(shū)數(shù)據(jù)的保存,而且新增數(shù)據(jù)相對(duì)獨(dú)立,可以認(rèn)為與已保存數(shù)據(jù)沒(méi)有直接關(guān)系。而數(shù)字人文資源與人文研究過(guò)程緊密相連,是動(dòng)態(tài)變化的、帶有時(shí)間序列的,變化本身是連續(xù)的、不可分割的,甚至這種變化本身也是數(shù)字人文所關(guān)注的,且每種不同的數(shù)字人文資源,其基礎(chǔ)數(shù)據(jù)和所采用的技術(shù)工具都存在很大不同。如何設(shè)計(jì)一種靈活的數(shù)據(jù)模型,能夠在保存數(shù)字人文資源時(shí)體現(xiàn)其動(dòng)態(tài)變化過(guò)程,并能將其依賴(lài)的技術(shù)工具加以保存或說(shuō)明,且能滿足大部分?jǐn)?shù)字人文資源的保存需求,是數(shù)字人文資源長(zhǎng)期保存面臨的極大挑戰(zhàn),需要經(jīng)歷長(zhǎng)時(shí)間的探索。
如前文所述,數(shù)字資源已成為教育科研的主要資源,世界各國(guó)已開(kāi)始對(duì)數(shù)字資源的長(zhǎng)期保存進(jìn)行戰(zhàn)略部署。但由于數(shù)字資源內(nèi)容增速快、規(guī)模大、結(jié)構(gòu)復(fù)雜、格式多變,給長(zhǎng)期保存和永久利用帶來(lái)了極大挑戰(zhàn)。北大圖書(shū)館在參與國(guó)家科技部“國(guó)家數(shù)字科技文獻(xiàn)資源長(zhǎng)期保存體系”項(xiàng)目的過(guò)程中,積累了一定經(jīng)驗(yàn),更體會(huì)到這是一項(xiàng)復(fù)雜的長(zhǎng)期的任務(wù),目前尚有許多技術(shù)、政策、組織等方面的問(wèn)題需要解決,需要更多的機(jī)構(gòu)參與進(jìn)來(lái),共同推動(dòng)此項(xiàng)工作。
參考文獻(xiàn)
1陸泉,韓雪,韓陽(yáng),陳靜. 我國(guó)數(shù)字信息資源長(zhǎng)期保存研究綜述[J]. 圖書(shū)館學(xué)研究,2015(4): 2-8.
2DigitalPreservation[EB/OL].[2018-8-25]. http://www.digitalpreservation.gov.
3LoC[EB/OL].[2018-8-25].https://www.loc.gov.
4LOCKSS[EB/OL].[2018-8-25].https://www.lockss.org.
5Portico[EB/OL].[2018-8-25].https://www.portico.org.
6柯平,宮平. 數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2016(6): 13-30.
7湯匯道. 社會(huì)網(wǎng)絡(luò)分析法評(píng)述[J]. 學(xué)術(shù)界.2009(3): 205-208.
8郭金龍,許鑫. 數(shù)字人文中的文本挖掘研究[J]. 大學(xué)圖書(shū)館學(xué)報(bào).2012(3): 11-18.
9夏翠娟. 中國(guó)歷史地理數(shù)據(jù)在圖書(shū)館數(shù)字人文項(xiàng)目中的開(kāi)放應(yīng)用研究[J]. 中國(guó)圖書(shū)館學(xué)報(bào).2017(2): 40-53.
作者單位:北京大學(xué)圖書(shū)館,北京,100871
收稿日期:2018年9月5日