鄭悅萍
摘 要:分析電子文件資源本身、存儲格式、存儲載體、存儲技術(shù)對電子文件長期保存的影響,探討長期保存技術(shù)策略,介紹國內(nèi)外長期保存研究和實踐成果。
關(guān)鍵詞:長期保存;格式;載體
電子文件長期保存是全世界圖書情報檔案學(xué)科研究和探索實踐的必要且重要的課題,采取合適的技術(shù)手段和管理措施,使電子文件、電子檔案獨立于特定軟硬件環(huán)境,在所需的時間段里能被持續(xù)訪問或利用,且內(nèi)容真實、有效、可靠、完整是電子文件長期保存的核心任務(wù)。
一、電子文件長期保存難點分析
在電子文件長期或永久保存過程中,影響真實性、完整性、可用性最大風險來自于時間、空間轉(zhuǎn)換引起的系統(tǒng)性問題。電子文件長期保存難點涉及三方面:一是資源本身能否長期保持其真實性、完整性、可靠性、可用性;二是資源存儲所依賴的載體或系統(tǒng)是否處于持續(xù)穩(wěn)定的運行狀態(tài);三是資源長期保存過程安全可靠,是否所有的長期保存行為活動都被完整記錄并可追蹤。具體表現(xiàn)為:
1.1 存儲格式多樣
電子文件、電子檔案以標準格式存儲到數(shù)據(jù)庫之前,其原始存儲的形態(tài)多種多樣。尤其是非文本的音視頻文件,具有存儲格式多樣,數(shù)據(jù)占據(jù)空間大的特點。數(shù)字檔案室建設(shè)到一定階段,所有電子文件、電子檔案都應(yīng)以數(shù)字化的形態(tài)存儲到數(shù)字檔案室系統(tǒng)中。對于檔案資源構(gòu)成年代跨度大、單位歷史悠久的單位而言,面對的檔案資源格式問題更為突出。
1.2 載體或系統(tǒng)不確定性
一方面,電子文件存儲所依賴的載體多樣,例如光盤、軟盤、硬盤等,若沒有定期開展載體及內(nèi)容鑒定、維護,載體損壞及數(shù)據(jù)丟失情況很難被發(fā)現(xiàn)。另一方面,隨著電子文件處理、傳遞、存儲、讀取所用軟硬件技術(shù)不斷更新?lián)Q代,管理利用依賴特定軟硬件條件產(chǎn)生的信息將具有不確定性,可能要使用不同于其形成環(huán)境的軟硬件條件來進行。[1]
1.3 缺乏電子文件管理基礎(chǔ)
電子文件的憑證和查考價值來自其形成階段,依賴于文件現(xiàn)行階段的控制和歸檔后的維護管理。產(chǎn)生階與現(xiàn)行階段對元數(shù)據(jù)管理不善,后期將無法修補,真實性、完整性、可靠性、可用性就無從保障。完整的電子文件長期保管鏈條,始于立檔單位的電子文件管理。文件的形成應(yīng)與業(yè)務(wù)活動相關(guān)聯(lián),在缺乏管理要求或規(guī)則的情況下,文件產(chǎn)生的方式很大程度上由產(chǎn)生者個人或業(yè)務(wù)部門決定,不利于文件的長期保存。中國人民大學(xué)謝麗教授研究回顧了自1999年啟動的“電子文件真實性永久保障國際合作項目”(InterPARES),提出了“現(xiàn)行文件管理是數(shù)字保存不可或缺的基礎(chǔ)”觀點。她通過調(diào)查分析美、加、澳、英等國家政府機構(gòu)文件管理現(xiàn)狀,發(fā)現(xiàn)現(xiàn)行電子文件管理基礎(chǔ)的薄弱會影響這些機構(gòu)無法即時啟動數(shù)字保存機制,這些國家的檔案館因現(xiàn)行電子文件管理不善而難以接收適當?shù)谋4鎸ο?。強調(diào)了立檔單位電子文件管理對于數(shù)字保存的極端重要性。[2]
二、電子文件長期保存策略
2.1 存儲格式
(1)格式規(guī)范
在接收電子文件時,因考慮文件格式的長久保存能力,對繁多的文件格式進行篩選,降低因?qū)S懈袷皆斐傻臄?shù)據(jù)失效風險,盡量選取源代碼公開、國際通用、標準化、可擴展、系統(tǒng)依賴度低、支持格式轉(zhuǎn)換與遷移的、有利于長期保存的數(shù)據(jù)格式。
以靜態(tài)圖像格式為例,若保存重要圖像,適合使用無損壓縮格式TIFF,能最大限度保存圖像的原始信息。若是對圖像信息要素要求不,可以使用國際靜態(tài)圖像壓縮標準格式JPEG。而PDF格式因其具有兼容性強、可跨平臺操作等特長, 查閱方便且節(jié)省存儲空間的特點,被廣泛使用。[3]
(2)格式轉(zhuǎn)換
廣義的數(shù)據(jù)格式轉(zhuǎn)換包含數(shù)據(jù)格式轉(zhuǎn)換、字段代碼轉(zhuǎn)換、媒體格式轉(zhuǎn)換、操作系統(tǒng)及硬件系統(tǒng)等技術(shù)層面的轉(zhuǎn)換等。市場共享率低的專用格式、依賴于特定硬件和操作系統(tǒng)的格式、已經(jīng)淘汰的老版本格式等, 都需要進行格式轉(zhuǎn)換。
數(shù)據(jù)格式轉(zhuǎn)換的方法有多種,這里介紹二種:一是,在電子文件移交歸檔時,將文件轉(zhuǎn)換成國際通用標準的文本文件格式保存,減少因格式不兼容帶來的數(shù)據(jù)保存長期風險。第二,保存或開發(fā)格式轉(zhuǎn)換軟件,為了保證電子文件能夠永久可處理,及時關(guān)注電子文件信息技術(shù)變化,當文件產(chǎn)生時所用技術(shù)與讀取保存的數(shù)字信息所需技術(shù)不一致時,對所保存的數(shù)字信息進行相應(yīng)的轉(zhuǎn)換,使其保持與新技術(shù)的兼容。[4]
在格式轉(zhuǎn)換前要做好數(shù)據(jù)備份及格式轉(zhuǎn)換策劃,避免因轉(zhuǎn)換技術(shù)不成熟帶來的風險。因格式轉(zhuǎn)換前后的數(shù)據(jù)元素和結(jié)構(gòu)次序可能不完全一致,若不做好數(shù)據(jù)備份,策劃好來源格式結(jié)構(gòu)要素與轉(zhuǎn)換格式結(jié)構(gòu)要素的匹配關(guān)系,盲目的進行格式轉(zhuǎn)換,極有可能發(fā)生元數(shù)據(jù)、文件信息要素丟失等問題,影響文件真實性,造成文件不能讀取或信息不完整、不準確。
2.2 存儲介質(zhì)
電子檔案是一種海量信息資源,其存儲介質(zhì)必須滿足容量大、壽命長、穩(wěn)定可靠等要求。目前,數(shù)字檔案的存儲載體包括硬盤、光盤、磁盤陣列等。
硬盤在使用中,應(yīng)保持供電穩(wěn)定,避免隨意關(guān)機和頻繁啟動,每天關(guān)停機的次數(shù)不宜過多。做好避震、防磁、防凍,注意溫濕度調(diào)節(jié)。
光盤是能以標記的形式接受并保留信息在其記錄層上的盤片,這些信息能用激光讀出。正確使用和存放光盤,應(yīng)注意避免頻繁使用造成的標記面機械損傷,防塵、防空氣污染、注意溫濕度調(diào)節(jié),禁止在標記面書寫或貼標簽。
磁盤陣列是當前在檔案系統(tǒng)中有相當廣泛的應(yīng)用也比較成熟的一種存儲設(shè)備。由多塊獨立磁盤組合成容量巨大的磁盤組,利用數(shù)組方式來做磁盤組可降低硬盤故障造成的讀取風險,具有數(shù)據(jù)存取速度快、容錯率、便于管理等特點。
2.3 數(shù)據(jù)安全存儲技術(shù)
(1)數(shù)據(jù)拷貝更新
數(shù)據(jù)信息拷貝,復(fù)制存儲。這種方法被廣泛應(yīng)用于磁帶、磁盤、光盤的保存上。
(2)數(shù)據(jù)遷移
遷移是在保證文件數(shù)據(jù)真實性、完整性、可靠性、有效性、可讀性的原則下, 運用一定的遷移工具,將文件、數(shù)據(jù)或是功能從一個系統(tǒng)轉(zhuǎn)移到另一個系統(tǒng)的行動。數(shù)據(jù)遷移保證了數(shù)字信息在不斷變化的環(huán)境中總能夠被識別和讀取,使數(shù)字資源獨立于特定的軟硬件環(huán)境而長期保存。
2.4 電子文件管理
統(tǒng)籌建設(shè)電子文件管理和電子檔案管理系統(tǒng),借助平臺推進電子文件前端控制。通過統(tǒng)一的系統(tǒng)開發(fā)、標準宣貫等工作,逐步推進電子文件管理系統(tǒng)應(yīng)用,指導(dǎo)辦公自動化系統(tǒng)電子文件的產(chǎn)生與管理,統(tǒng)籌設(shè)計電子文件在線管理和歸檔功能設(shè)計,實施電子文件前端管理,將檔案要求融入電子文件產(chǎn)生業(yè)務(wù)中。[5]
統(tǒng)籌設(shè)計規(guī)劃電子文件管理和電子檔案管理系統(tǒng),各業(yè)子系統(tǒng)之間相互協(xié)調(diào)。重過程也重結(jié)果,不斷提升檔案部門在自動化、信息化建設(shè),尤其是電子檔案管理系統(tǒng)規(guī)劃設(shè)計、功能需求、文件格式要求等反面的話語權(quán)。
三、探索與實踐
針對數(shù)字檔案資源長期保存,很多國家都展開了積極探索,投入尖端人力物力和科學(xué)技術(shù),在保存策略、標準、技術(shù)、方法、設(shè)施上開展理論和實踐探索。
1990年,應(yīng)國際標準化組織(ISO)的要求,美國國家航空和宇宙航行局(NASA)的空間數(shù)據(jù)系統(tǒng)咨詢委員會(CCSDS)承擔起了制訂長期保存數(shù)字信息標準的任務(wù)。1995年, CCSDS開始開發(fā)框架模型。1999年5月,開放檔案信息系統(tǒng)(OAIS)參考模型雛形公布,OAIS 旨在對數(shù)字信息的長期保存和維護的檔案系統(tǒng)提供一個概念性的框架。2001年7月,OAIS正式發(fā)布,2002年OAIS藍皮書發(fā)布,2003年OAIS參考模型作為ISO的標準頒發(fā),成為檔案館、圖書館及其它信息系統(tǒng)普遍遵守的數(shù)字信息長期保存國際標準。
電子文件永久真實性保障國際研究項目(InterPARES)經(jīng)歷了“保存電子文件的完整性”的第一階段,“對迅速發(fā)展的信息技術(shù)及其對個人和機構(gòu)文件生成者活動的普遍性作出應(yīng)對”的第二階段,“檔案管理理論闡述:在數(shù)字系統(tǒng)和中、小型檔案機構(gòu)中應(yīng)用保障文件真實性的理論”的第三階段,第四階段“InterPARES信任”,系多國、多學(xué)科合作的國際項目,主要探討了日益網(wǎng)絡(luò)化環(huán)境中數(shù)字文件和數(shù)據(jù)的相關(guān)問題。[6]
2017年8月,美國國家檔案與文件管理署(NARA)發(fā)布《數(shù)字檔案資源長期保存戰(zhàn)略》,該《戰(zhàn)略》包括數(shù)字檔案資源長期保存制度建設(shè)、對象識別、可信保存與組織管理等方面的宏觀基本戰(zhàn)略,還同時制定了以實現(xiàn)長期保持數(shù)字檔案資源的數(shù)據(jù)完整,數(shù)據(jù)格式與存儲數(shù)據(jù)載體穩(wěn)定、可持續(xù),數(shù)字信息安全等目標的中觀策略。[7]
2010年,歐盟科學(xué)項目PLANETS(Preservation and Long-term Access through networked sercices )將承載著歐洲多個國家圖書館、檔案館及大學(xué)、技術(shù)公司等合作伙伴的科研成果和數(shù)字文化寶藏以及相關(guān)的電子文件閱讀器和各種詳細描述和說明的信息密封艙放入了位于瑞士阿爾卑斯山的諾克斯地堡。
2000年4月,深圳市數(shù)字檔案館在國家檔案局正式立項,項目總體目標包含“保證電子檔案保存、利用的長期性”,是我國開啟電子文件長期保存實踐探索的標志性項目。2019年,中國國家圖書館“互聯(lián)網(wǎng)信息戰(zhàn)略保存項目”立項,將建設(shè)覆蓋全國的分級分布式中文互聯(lián)網(wǎng)信息資源采集與保存體系。[8]
相信在不斷的實踐探索中,國內(nèi)研究也將不斷完善,以應(yīng)對數(shù)字檔案資源長期保存和利用可能出現(xiàn)的新需求。
參考文獻
[1] [5] 劉越男,劉語葉,李雪君,吳云鵬,電子文件的長期保存:多維互動的領(lǐng)域——第四屆中國電子文件管理論壇綜述[J]. 檔案學(xué)研究,2014,(4).
[2] [6] 謝麗,王健,馬林青, InterPARES項目:成果回顧與未來方向[J]. 檔案學(xué)研究,2017,(S1).
[3] 張美芳,馬丹寧,聲像檔案數(shù)字化搶救中存儲與長期保存策略的研究[J].數(shù)字與縮微影像,2007,(1).
[4] 于嘉,數(shù)字信息長期保存的策略探討[J]. 河南圖書館學(xué)刊,2005,(3).
[7] 祁天嬌,美國數(shù)字檔案資源長期保存戰(zhàn)略的分析與啟示[J]. 檔案學(xué)研究,2019,(01):110-115.
[8] 馮惠玲,學(xué)科探路時代——從未知中探索未來[J].信息資源管理學(xué)報,2020,10(3):4-10.