王曉玲
關(guān)鍵詞:大數(shù)據(jù)環(huán)境;數(shù)字資源;長期保存
摘 要:大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存實施過程中面臨很多問題,概括起來分為技術(shù)方面的問題和非技術(shù)方面的問題。文章介紹了大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的研究現(xiàn)狀,分析了大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的法律問題、技術(shù)問題、網(wǎng)絡(luò)安全問題及資金投入問題等,并提出了相應(yīng)的解決方案。
中圖分類號:G250文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2019)08-0066-03
近年來,大數(shù)據(jù)一詞越來越多地被提及,人們用它描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。哈佛大學(xué)社會學(xué)教授加里·金認(rèn)為:這是一場革命,龐大的數(shù)據(jù)資源使各個領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程[1]。2015年12月16日,國家主席習(xí)近平在第二屆世界互聯(lián)網(wǎng)大會開幕式上發(fā)表主旨演講時指出,“十三五”期間我國將大力實施網(wǎng)絡(luò)強(qiáng)國戰(zhàn)略、國家大數(shù)據(jù)戰(zhàn)略、“互聯(lián)網(wǎng)+”行動計劃[2]。目前,大數(shù)據(jù)已經(jīng)被廣泛應(yīng)用于行政管理、科技創(chuàng)新、日常生產(chǎn)等領(lǐng)域。在大數(shù)據(jù)環(huán)境下,如何對數(shù)字資源進(jìn)行長期保存,已成為圖書館界及信息研究所亟須研究和探討的問題。
1 大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的研究現(xiàn)狀
1991年,瑞士、挪威、丹麥、芬蘭、冰島5個北歐國家的檔案館出版了《電子文件的存取與保護(hù)》。1994年,歐洲保存與獲取委員會ECPA(The European Commission on Preservation and Access)成立,它是研究數(shù)字資源長期保存與獲取的最大的跨國協(xié)會,旨在共同研究各種類型文獻(xiàn)的檢索能力及數(shù)字資源保護(hù)問題[3]。1994年12月,美國研究圖書館組織RLG(Research Library Government)與美國保護(hù)與存取委員會CPA(Commission on Preservation & Access)共同組建了數(shù)字歸檔特別工作組,主要對數(shù)字信息的長期存取問題進(jìn)行調(diào)研,并提出保護(hù)措施和建議。
對于數(shù)字資源長期保存的研究和探討,我國起步較晚。筆者以“數(shù)字資源長期保存”為主題檢索詞,在中國知網(wǎng)的學(xué)術(shù)期刊庫進(jìn)行了檢索。檢索結(jié)果顯示,我國學(xué)者對數(shù)字資源長期保存的研究從2002年開始,隨后逐年增加,2007年至今基本維持在同一水平。
自2004年以來,我國持續(xù)開展數(shù)字科技文獻(xiàn)資源長期保存的研究和實踐。2009年,我國成立了數(shù)字科技文獻(xiàn)資源長期保存中心,保存了包括Springer、Willy、IOP、Nature等十多家國外重要出版商的數(shù)字資源。該中心主動參與國家平臺建設(shè),在NSTL支持下聯(lián)合中國科學(xué)技術(shù)信息研究所、北京大學(xué)圖書館等機(jī)構(gòu),建設(shè)了以重要的國外數(shù)字科技文獻(xiàn)為主要保存資源的國家數(shù)字科技文獻(xiàn)資源長期保存體系。此外,我國還與其他國家合作,在數(shù)字資源長期保存領(lǐng)域進(jìn)行了戰(zhàn)略布局、重點研究和大規(guī)模建設(shè),自2004年在北京召開首屆數(shù)字資源長期保存國際會議以來,iPres系列會議已成為國際上對數(shù)字資源長期保存進(jìn)行專門研究、交流和推進(jìn)的主要學(xué)術(shù)會議,全面反映了數(shù)字資源長期保存的前沿問題、最新進(jìn)展、發(fā)展趨勢、新技術(shù)新方法和重大實踐進(jìn)展,也成為國際同行交流、共享、合作的主要平臺[4]。
2 大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的法律問題
在大數(shù)據(jù)環(huán)境下,法律是數(shù)字資源長期保存得以順利進(jìn)行的重要保障和依據(jù)。由于不同地區(qū)有不同的法律和法規(guī),因此不同的保存機(jī)構(gòu)會面臨不同的法律問題。聯(lián)合國教科文組織的《數(shù)字遺產(chǎn)保存指南》指出,要對有長期保存能力的機(jī)構(gòu)進(jìn)行身份確認(rèn),確保數(shù)字資源長期保存項目的順利進(jìn)行。目前,我國也開始加強(qiáng)數(shù)字資源長期保存方面的法律法規(guī)建設(shè),出臺了一系列與數(shù)字資源保存有關(guān)的法律條款。數(shù)字資源長期保存涉及保存方、資源方、用戶方等主體對數(shù)字資源的影響等問題,這三個主體在法律層面主要涉及合理保存、合理利用和合理權(quán)利的平衡等問題[5]。因此,數(shù)字資源長期保存主要涉及知識產(chǎn)權(quán)法、合同法、國家保密法、隱私權(quán)保護(hù)等相關(guān)法律法規(guī),這些法律法規(guī)在諸多方面影響著數(shù)字資源長期保存的良性發(fā)展。例如,數(shù)字資源在存儲過程中可能會涉及出版商的技術(shù)保密問題,在傳播過程中可能會涉及數(shù)據(jù)信息的保密問題和用戶信息保密問題。我國只有不斷健全法律法規(guī),才能確保數(shù)字資源長期保存工作的持續(xù)開展。
在大數(shù)據(jù)環(huán)境下,數(shù)字資源長期保存涉及的法律問題較多,包括制定和實施兩個方面。因此,國家應(yīng)該制定相關(guān)的法律法規(guī),平衡各方面的利益關(guān)系,促進(jìn)數(shù)字資源長期保存工作的健康有序開展。為了解決我國數(shù)字資源長期保存法律方面的問題,我國不僅應(yīng)加強(qiáng)數(shù)字資源長期保存的法律體系建設(shè),對數(shù)字資源長期保存進(jìn)行直接立法,加大法律法規(guī)的執(zhí)行力度,還應(yīng)建立數(shù)字資源長期保存機(jī)構(gòu)與出版機(jī)構(gòu)及用戶之間的互信協(xié)議。
3 大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的技術(shù)問題
3.1 數(shù)字資源長期保存的主要技術(shù)
數(shù)字資源是一種數(shù)字化信息,與傳統(tǒng)文獻(xiàn)資源有著根本的不同。傳統(tǒng)文獻(xiàn)的信息都依附在載體上,而數(shù)字化信息在存儲和利用過程中都會受到軟硬件和支撐系統(tǒng)的制約。常用的技術(shù)方案主要有以下幾種。
3.1.1 數(shù)據(jù)遷移技術(shù)。數(shù)據(jù)遷移是指將很少使用的數(shù)字信息從一種存儲介質(zhì)上轉(zhuǎn)移到另一種存儲介質(zhì)上。數(shù)據(jù)遷移是數(shù)字資源保存中比較成熟的技術(shù),優(yōu)點是數(shù)字資源的格式容易被人們接受,現(xiàn)行的硬件與軟件能夠兼容,數(shù)字資源可被復(fù)制轉(zhuǎn)化;缺點是遷移過程中一些數(shù)字資源的樣式甚至一些數(shù)據(jù)會丟失[6]。
3.1.2 數(shù)據(jù)仿真技術(shù)。數(shù)據(jù)仿真技術(shù)是在新環(huán)境下建立一個兼容的運(yùn)行環(huán)境,使原始數(shù)據(jù)和系統(tǒng)能在新的軟硬件平臺上運(yùn)行。該技術(shù)被認(rèn)為是理想的保存技術(shù),優(yōu)點是具有兼容性及可靠性等特點,能對數(shù)字信息的內(nèi)容和外觀進(jìn)行保護(hù),適用于所有的數(shù)據(jù)對象;缺點是技術(shù)成本較高。
3.1.3 數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)。數(shù)據(jù)標(biāo)準(zhǔn)化技術(shù)是指將數(shù)字信息轉(zhuǎn)化成一種固有的格式,如HTML或其他格式。標(biāo)準(zhǔn)是一項重要的技術(shù)因素,是保障數(shù)字資源長期保存各個環(huán)節(jié)的基礎(chǔ),始終貫穿于數(shù)字資源長期保存的整個過程[7]。在數(shù)字資源長期保存的過程中,保存機(jī)構(gòu)應(yīng)盡可能地選擇簡單、有效、便于解析、具有長久可讀性的技術(shù)標(biāo)準(zhǔn)。
3.1.4 數(shù)據(jù)封裝技術(shù)。數(shù)據(jù)封裝技術(shù)是指將協(xié)議數(shù)據(jù)單元封裝在一組協(xié)議頭和尾中的過程,也就是說將數(shù)字資源長期保存所必需的軟硬件一起打包,以便其能在新的環(huán)境下運(yùn)行。
3.1.5 數(shù)據(jù)轉(zhuǎn)換技術(shù)。數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過程,包括格式的轉(zhuǎn)換、程序的轉(zhuǎn)換、字符編碼的轉(zhuǎn)換、媒體的轉(zhuǎn)換、操作系統(tǒng)的轉(zhuǎn)換及硬件系統(tǒng)的轉(zhuǎn)換等[8]。
3.1.6 數(shù)據(jù)更新技術(shù)。數(shù)據(jù)更新是指將數(shù)據(jù)信息從舊的存儲環(huán)境轉(zhuǎn)移到新的存儲環(huán)境中,數(shù)據(jù)本身不受存儲環(huán)境變化的影響。
3.2 數(shù)字資源長期保存技術(shù)應(yīng)用中的幾個問題
目前,在數(shù)字資源長期保存實踐過程中有些技術(shù)方案比較實用,而有些技術(shù)方案還停留在理論研究層面,保存機(jī)構(gòu)在挑選方案時要充分考慮技術(shù)方案的可行性、持續(xù)性、實用性和合理性。此外,任何數(shù)字資源長期保存方案的執(zhí)行都受到技術(shù)標(biāo)準(zhǔn)、數(shù)字資源評價和應(yīng)用效果的約束。以下是數(shù)字資源長期保存技術(shù)在應(yīng)用中需要注意的幾個問題。
3.2.1 技術(shù)標(biāo)準(zhǔn)問題。標(biāo)準(zhǔn)化是指在工業(yè)生產(chǎn)和社會管理等生產(chǎn)實踐中,對重復(fù)性的事物和概念通過制定、發(fā)布和實施標(biāo)準(zhǔn)實現(xiàn)統(tǒng)一,以獲得最佳秩序和社會效益。數(shù)字資源的標(biāo)準(zhǔn)化是以某種廣泛認(rèn)可的標(biāo)準(zhǔn)進(jìn)行數(shù)字資源的信息描述。目前,在數(shù)字資源長期保存領(lǐng)域影響較廣泛的國際標(biāo)準(zhǔn)包括《ISO14721-2003航空航天數(shù)據(jù)和信息傳輸系統(tǒng).開放式檔案信息系統(tǒng).參考模型》《ISO19005-1文件管理—電子文件長期保存格式第一部分PDF的使用(PDF/A-1)》《ISO/TR18492-2005電子文件信息的長期保存》[9]。
3.2.2 數(shù)字資源評價。由于制訂的技術(shù)方案應(yīng)與資源內(nèi)容相匹配,因此資源評價很重要。目前,數(shù)字資源評價指標(biāo)體系僅關(guān)注數(shù)字資源的價值評價問題,而在實際的保存過程中涉及的問題很多,包括數(shù)字資源的來源、使用率、存在的價值、格式及訪問方式、系統(tǒng)相關(guān)性等。
3.2.3 技術(shù)效果反饋。在利用仿真、遷移等技術(shù)對數(shù)字資源進(jìn)行長期保存的過程中,任何一種技術(shù)方案都不能適用于所有的情況,因此選擇合適的技術(shù)方案成了首要任務(wù)。國內(nèi)外數(shù)字資源長期保存的實踐結(jié)果顯示,如果內(nèi)容是最主要的,標(biāo)準(zhǔn)化工作就是關(guān)鍵;如果數(shù)字對象的關(guān)聯(lián)是最重要的,封裝就是最佳選擇;如果信息資源的結(jié)構(gòu)比較復(fù)雜,仿真技術(shù)就是首選。
4 大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存中的網(wǎng)絡(luò)安全問題
隨著全球網(wǎng)絡(luò)化的不斷發(fā)展,大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存也面臨網(wǎng)絡(luò)安全的考驗。Internet的信息安全問題近年來也較突出,病毒感染事件逐年增加,網(wǎng)絡(luò)攻擊事件大幅上升,超過70%的用戶受到各種形式的網(wǎng)絡(luò)入侵,垃圾信息、垃圾郵件等電子垃圾泛濫,網(wǎng)絡(luò)犯罪日益猖獗,這些情況表明全球網(wǎng)絡(luò)信息安全形勢不容樂觀。我國網(wǎng)民已近十億人,網(wǎng)絡(luò)安全事件的數(shù)量不斷增加,包括經(jīng)濟(jì)犯罪、信息泄漏、黑客入侵等。
網(wǎng)絡(luò)安全問題伴隨著數(shù)字資源長期保存的建設(shè)和發(fā)展的始終,并有加重之勢,因此,保證網(wǎng)絡(luò)安全是數(shù)字資源長期保存得以順利實施的關(guān)鍵。大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的網(wǎng)絡(luò)安全管理是一個系統(tǒng)工程,是需要技術(shù)部門與管理部門通力合作完成的工作。
5 大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存的資金投入問題
數(shù)字資源長期保存需要大量的資金投入,如果沒有穩(wěn)定、持續(xù)的資金支持體系,數(shù)字資源長期保存將很難得到有效實施。與技術(shù)問題相比,大數(shù)據(jù)環(huán)境下數(shù)字資源長期保存實施過程中的資金投入問題更難解決。
5.1 資金投入問題
5.1.1 長期投入資金與短期利益回收不平衡。一方面,數(shù)字資源長期保存屬于公益事業(yè),但受某些因素的影響,有些數(shù)字資源的長期保存雖然投入了較多資金,但讀者卻不能免費(fèi)獲取這些資源,這就使資金投入與利益回收失衡;另一方面,數(shù)字資源的長期保存機(jī)構(gòu)需要政府持續(xù)投入大量資金,才能保障數(shù)字資源長期保存的正常實施,但是保存數(shù)字資源的機(jī)構(gòu)僅以提供服務(wù)為主,這就使資金投入與經(jīng)濟(jì)效益產(chǎn)出失衡。
5.1.2 潛在利益產(chǎn)生的問題。圖書館或其他信息服務(wù)單位購買的數(shù)字資源只有使用權(quán),如果采購合同終止,圖書館或其他信息服務(wù)單位就不能再使用已經(jīng)購買的數(shù)字資源。例如,河南科技大學(xué)圖書館購買了愛思唯爾2002—2016年的SD數(shù)據(jù)庫使用權(quán),2017年由于經(jīng)費(fèi)問題停止了采購,目前該館已無法再使用2002—2016年的SD數(shù)據(jù)庫的資源。數(shù)字資源出版商為了使經(jīng)濟(jì)利益最大化,通常會掌握信息資源的所有權(quán),如果數(shù)字資源出版商出現(xiàn)財務(wù)危機(jī)或服務(wù)器受到自然災(zāi)害、災(zāi)難性系統(tǒng)故障等威脅,數(shù)字資源就會有消失的危險。
5.1.3 策略選擇的復(fù)雜性。由于軟件開發(fā)商在自主開發(fā)軟件系統(tǒng)時很少融入用戶的特定需求,對業(yè)務(wù)流程管理關(guān)注的較多,對記錄管理關(guān)注得較少,很少考慮業(yè)務(wù)流程的再造和整合,致使數(shù)字記錄在生命周期管理中出現(xiàn)斷層及系統(tǒng)維修成本增加等情況[10]。
5.2 我國數(shù)字資源長期保存的資金投入策略
持續(xù)而穩(wěn)定的資金投入是數(shù)字資源長期保存有序?qū)嵤┑母唧w的策略有以下四條:一是建立國家級別的數(shù)字資源長期保存合作體。國家級別的數(shù)字資源長期保存合作體可通過多種渠道籌集資金,對資金進(jìn)行統(tǒng)一調(diào)度,并監(jiān)督資金的流向。二是選擇性保存。從經(jīng)濟(jì)學(xué)的角度看,數(shù)字資源保存機(jī)構(gòu)沒有必要對所有的數(shù)字資源進(jìn)行長期保存,可選擇一些易消失且價值高的數(shù)字資源進(jìn)行長期保存。三是選擇適合的技術(shù)手段。數(shù)字資源保存機(jī)構(gòu)選擇適合的技術(shù)手段對數(shù)字資源進(jìn)行長期保存,可有效降低投入成本。四是參與國際項目合作。我國應(yīng)鼓勵國家圖書館、中國科學(xué)技術(shù)信息研究所等單位開展數(shù)字資源長期保存工作,并引導(dǎo)他們積極參與國際項目合作。
6 結(jié)語
在大數(shù)據(jù)環(huán)境下,相關(guān)機(jī)構(gòu)在實施數(shù)字資源長期保存的過程中面臨很多問題,這些問題概括起來分為技術(shù)問題和非技術(shù)問題。技術(shù)問題和網(wǎng)絡(luò)安全問題不是影響數(shù)字資源長期保存的關(guān)鍵問題,而非技術(shù)方面的政策、法律、經(jīng)濟(jì)因素等則制約著數(shù)字資源長期保存的有效實施。因此,我國應(yīng)該出臺相關(guān)政策以保障數(shù)字資源長期保存的有效實施。
參考文獻(xiàn):
[1]大數(shù)據(jù)時代[EB/OL].[2019-06-10].https://baike.so.com/doc/5340323-5575766.html.
[2]新華網(wǎng).習(xí)近平在第二屆世界互聯(lián)網(wǎng)大會開幕式上的講話[EB/OL].[2019-06-10].http://news.xinhuanet.com/video/2015-12/16/c_1117481089.htm.
[3]賀姝祎.國外數(shù)字資源長期保存發(fā)展歷程[J].圖書館理論與實踐,2010(6):72-76.
[4]中國成功申辦iPRES 2020數(shù)字資源長期保存國際會議[EB/OL].[2019-06-10].http://www.las.cas.cn/xwzx/zhxw/201806/t20180608_5024149.html.
[5]郎玉林.數(shù)字信息長期保存影響因素分析[D].哈爾濱:黑龍江大學(xué),2009.
[6]臧國全.數(shù)字遷移風(fēng)險管理[J].中國圖書館學(xué)報,2006(3):54-56.
[7]丁麗鴿.非技術(shù)因素對數(shù)字資源長期保存的影響及應(yīng)對策略[J].山西檔案,2010(2):28-30.
[8]林麗群.數(shù)字檔案信息長期保存的策略研究[J].廣東工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2011(1):78-82.
[9]殷立欣,旻蘇,李景,等.數(shù)字資源長期保存的技術(shù)保障機(jī)制[J].標(biāo)準(zhǔn)科學(xué),2010(6):42-46.
[10]劉家真,許杰.影響我國數(shù)字信息長期保存的問題與解決方案[J].檔案學(xué)研究,2008(4):50-55.