關(guān)鍵詞:長期保存;數(shù)字保存系統(tǒng);存儲模型
摘 要:無論軟硬件基礎(chǔ)設(shè)施和目標(biāo)用戶如何變化,數(shù)字資源長期保存系統(tǒng)在可預(yù)期的未來能夠確保信息的完整性和真實(shí)性,為用戶提供數(shù)字信息獲取服務(wù)。SIRF是由SNIA(全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會)提出的一種標(biāo)準(zhǔn)化數(shù)字資源存儲格式,能夠簡化數(shù)字資源長期保存的流程,節(jié)省成本。文章通過對SIRF的定義和存儲模型的分析,詳細(xì)介紹了SIRF在各行業(yè)的應(yīng)用模式,以期為我國數(shù)字資源長期保存系統(tǒng)的建設(shè)和發(fā)展提供借鑒。
中圖分類號:G250文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2021)06-0085-03
1 背景
隨著互聯(lián)網(wǎng)應(yīng)用的普及,越來越多的組織機(jī)構(gòu)需要長期保存和訪問各種大數(shù)據(jù)信息,如電子郵件、醫(yī)療記錄及財(cái)務(wù)記錄等,并對這些大數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)、分析,進(jìn)而為商業(yè)決策或科學(xué)研究提供數(shù)據(jù)支撐。為了搶奪用戶,大型網(wǎng)絡(luò)公司積極為用戶提供照片、視頻、音頻等個(gè)人數(shù)據(jù)的云存儲服務(wù),并提供電子圖書、流行音樂、電影和其他數(shù)字資源的訪問和下載服務(wù)。全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會(SNIA)的統(tǒng)計(jì)結(jié)果顯示,有83%的企業(yè)、機(jī)構(gòu)需要保存數(shù)字資源50年以上,有53%的機(jī)構(gòu)需要永久保存他們的數(shù)字資源[1]。
為了應(yīng)對以上挑戰(zhàn),全球網(wǎng)絡(luò)存儲工業(yè)協(xié)會專門成立了數(shù)字資源長期保存工作組,并構(gòu)建了SIRF信息自存儲模型,以期建立一個(gè)獨(dú)立的數(shù)字資源存儲標(biāo)準(zhǔn)格式,確保數(shù)字資源的完整性、真實(shí)性和可用性。SIRF在數(shù)據(jù)存儲層為元數(shù)據(jù)提供了一個(gè)容器,保證原始數(shù)據(jù)信息在跨設(shè)備和跨系統(tǒng)遷移過程中能夠得到妥善保存。數(shù)字資源長期保存是指在可預(yù)期的未來,無論軟硬件基礎(chǔ)設(shè)施和目標(biāo)用戶如何變化,系統(tǒng)仍能為用戶提供數(shù)字信息獲取服務(wù),并保證信息的完整性和真實(shí)性[2]。數(shù)字資源長期保存通常面臨比特存儲和邏輯存儲兩種挑戰(zhàn)。比特存儲是指系統(tǒng)在遭遇各種風(fēng)險(xiǎn)時(shí),如系統(tǒng)軟硬件設(shè)施老化、過時(shí),遭遇黑客攻擊,甚至發(fā)生火災(zāi)、地震、洪水等自然災(zāi)害等,系統(tǒng)仍能為用戶提供數(shù)字資源訪問和存取服務(wù)。邏輯存儲是指當(dāng)使用環(huán)境(包括服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫管理軟件及其他應(yīng)用)和目標(biāo)用戶發(fā)生變化時(shí),系統(tǒng)仍可以保證數(shù)字資源的可理解性、可用性、真實(shí)性和完整性,為用戶提供數(shù)字資源長期保存服務(wù)。
雖然開放檔案信息系統(tǒng)(OAIS)作為核心的數(shù)字資源保存系統(tǒng),擁有靈活適應(yīng)各種環(huán)境的數(shù)字資源保存框架和結(jié)構(gòu),但僅對系統(tǒng)高層的參考模型進(jìn)行了定義,相關(guān)機(jī)構(gòu)需要根據(jù)實(shí)際情況對工作流程進(jìn)行細(xì)化。SIRF信息自存儲模型提供了一種存儲容器,可以保存包含大量語義信息的元數(shù)據(jù),并能與其他類型的存儲容器連接,對數(shù)字資源保存系統(tǒng)的原始數(shù)據(jù)進(jìn)行解釋和說明。同時(shí),SIRF信息自存儲模型具備跨軟硬件系統(tǒng)平臺的操作能力,能夠?yàn)槲磥淼臄?shù)據(jù)遷移提供良好的支持。
2 SIRF信息自存儲模型介紹
在過去的檔案、磁帶等文件的保存過程中,管理人員會根據(jù)資源的使用范圍、類型等進(jìn)行分類,將這些文件存放在貼有序號、時(shí)間和內(nèi)容介紹的文件柜中進(jìn)行保存,以備將來查詢、使用。SIRF信息自存儲模型作為一種數(shù)字資源存儲容器,包括對數(shù)字資源進(jìn)行描述的元數(shù)據(jù)目錄、數(shù)據(jù)對象及其之間的關(guān)系等內(nèi)容。相關(guān)機(jī)構(gòu)可利用SIRF信息自存儲模型,有效解決數(shù)字資源在長期保存過程中遇到的一些問題,最大限度地滿足用戶對數(shù)字資源的長期存取需求。
2.1 SIRF組件
SIRF為計(jì)算機(jī)文件系統(tǒng)、云存儲系統(tǒng)和數(shù)據(jù)倉庫等存儲子系統(tǒng)提供了一種邏輯數(shù)據(jù)格式,其主要包括以下三個(gè)組件:一是Magic Object,該組件獨(dú)立于物理存儲介質(zhì),名稱和大小固定,用于標(biāo)示SIRF容器及版本,并提供訪問SIRF目錄的方法。二是Preservation Objects,該組件存放需要長期保存的原始數(shù)據(jù),如OAIS系統(tǒng)中的AIP數(shù)據(jù)信息。三是Catalog,目錄一般會經(jīng)常更新,包括對原始數(shù)據(jù)進(jìn)行描述、解釋等信息內(nèi)容,能為用戶通過存儲系統(tǒng)獲取數(shù)字資源提供便利。傳統(tǒng)數(shù)字資源保存系統(tǒng)的元數(shù)據(jù)信息較少,容易導(dǎo)致原始數(shù)據(jù)在長期保存過程中無法被理解和使用。SIRF通過目錄組件保存了豐富的語義信息元數(shù)據(jù),為用戶充分理解數(shù)字資源保存系統(tǒng)中的原始數(shù)據(jù)提供了便利,保證了數(shù)字資源的可用性。
2.2 SIRF屬性
隨著數(shù)字技術(shù)的不斷發(fā)展,軟硬件設(shè)施的更新速度加快。為了長期保存數(shù)字資源,并隨時(shí)為用戶提供數(shù)字資源存取服務(wù),相關(guān)機(jī)構(gòu)必須對數(shù)字資源的內(nèi)容進(jìn)行遷移,以保證信息的長期可用性和可理解性。SIRF具有自我包含、自我描述和可擴(kuò)展性等特點(diǎn),能夠解決數(shù)字資源長期保存過程中存在的一些問題[3]。
2.2.1 自我包含。相關(guān)機(jī)構(gòu)在長期保存數(shù)字資源的過程中需要保存其內(nèi)容信息和元數(shù)據(jù),如果不能對這些數(shù)據(jù)進(jìn)行有效管理,在未來就可能發(fā)生內(nèi)容信息與元數(shù)據(jù)分離的情況,進(jìn)而導(dǎo)致數(shù)字資源無法被正常使用。針對長期保存的數(shù)字資源,SIRF能夠把內(nèi)容信息和元數(shù)據(jù)作為單一的數(shù)字單元進(jìn)行存儲、遷移和管理,從而保證數(shù)字對象生命周期期間的內(nèi)容完整性和一致性。
2.2.2 自我描述。目標(biāo)用戶在獲取數(shù)字資源的過程中既可通過描述信息判斷哪些是內(nèi)容信息,哪些是元數(shù)據(jù),也可通過元數(shù)據(jù)理解內(nèi)容信息的含義。但是,如果描述信息本身較復(fù)雜,需要相應(yīng)的描述信息對其進(jìn)行解釋說明,就容易陷入一個(gè)不斷重復(fù)的死循環(huán)。SIRF在最原始的根描述信息環(huán)節(jié)采用ASCII碼等國際通用格式進(jìn)行解釋說明,并不斷對描述信息進(jìn)行更新和遷移,從而保證了數(shù)字資源的長期可用性和可理解性。
2.2.3 可擴(kuò)展性。隨著時(shí)間的推移,相關(guān)機(jī)構(gòu)不可能對所有技術(shù)環(huán)境的變化和目標(biāo)用戶的改變進(jìn)行準(zhǔn)確預(yù)測和判斷,因此,其應(yīng)對環(huán)境和用戶的變化情況進(jìn)行記錄。例如,相關(guān)機(jī)構(gòu)在對數(shù)字資源進(jìn)行遷移或增加新的數(shù)字資源的過程中,應(yīng)對原始數(shù)據(jù)的格式和新的數(shù)據(jù)格式進(jìn)行保存。SIRF容器具有靈活性、可擴(kuò)展性等特點(diǎn),能夠?qū)ο鄳?yīng)的變化情況進(jìn)行及時(shí)的記錄。
3 SIRF元數(shù)據(jù)目錄
SIRF元數(shù)據(jù)目錄是一個(gè)包括元數(shù)據(jù)描述及其相互關(guān)系的數(shù)字對象,其格式經(jīng)過標(biāo)準(zhǔn)化定義,能夠?yàn)槲磥碛脩舻睦斫夂屠锰峁┍憷?。存儲對象的元?shù)據(jù)信息是由不同軟硬件系統(tǒng)生成的,相關(guān)機(jī)構(gòu)很難對其數(shù)據(jù)格式進(jìn)行標(biāo)準(zhǔn)化處理。因此,相關(guān)機(jī)構(gòu)應(yīng)對SIRF目錄對象與存儲對象的元數(shù)據(jù)進(jìn)行區(qū)分。SIRF目錄既包括描述SIRF組件的元數(shù)據(jù)信息,也包括描述單個(gè)存儲對象(Preservation Object)的元數(shù)據(jù)信息,SIRF能按照不同類型、成分和屬性對兩種元數(shù)據(jù)信息進(jìn)行分層組織、表示。
3.1 SIRF組件元數(shù)據(jù)
SIRF組件元數(shù)據(jù)信息包括詳細(xì)的描述信息、組件ID、狀態(tài)信息、起源信息等。隨著時(shí)間的推移,針對SIRF組件內(nèi)容進(jìn)行詳細(xì)描述的元數(shù)據(jù)信息會產(chǎn)生不同版本,單個(gè)組件也可能擁有多個(gè)描述性元數(shù)據(jù)信息。因此,每一條詳細(xì)描述信息都會被設(shè)置不同的ID號和版本號,以保證元數(shù)據(jù)的長期可用性。組件ID元數(shù)據(jù)包括每個(gè)SIRF組件的唯一標(biāo)識符,能夠確保數(shù)據(jù)的真實(shí)性和完整性。狀態(tài)信息對SIRF組件的工作狀態(tài)進(jìn)行了詳細(xì)描述,如:哪些容器包括所有的存儲對象數(shù)據(jù);哪些容器正在進(jìn)行數(shù)據(jù)遷移,僅包括部分存儲對象數(shù)據(jù)。狀態(tài)信息完整記錄了每個(gè)組件的狀態(tài),為用戶存取數(shù)字資源提供了支撐。起源信息對SIRF組件中存儲對象的來源、版權(quán)、存儲行為和影響等歷史數(shù)據(jù)進(jìn)行記錄。由于信息類型或用戶類型的不同,起源信息存在較大區(qū)別,數(shù)據(jù)量規(guī)模龐大。因此,SIRF目錄僅存儲相關(guān)的地址信息。起源信息能夠?qū)?shù)字資源的來源、遷移過程、使用環(huán)境和意義進(jìn)行詳細(xì)描述,對于用戶在未來能否順利獲取、理解和使用數(shù)字資源具有至關(guān)重要的作用。
3.2 SIRF目標(biāo)對象元數(shù)據(jù)
SIRF目標(biāo)對象元數(shù)據(jù)包括對象ID、不變性信息和審計(jì)日志等。對象ID用于確認(rèn)長期保存對象,并與其他長期保存對象建立聯(lián)系。對象標(biāo)識符元數(shù)據(jù)的設(shè)置可以解決數(shù)字資源長期保存過程中如何保證標(biāo)識符唯一性的問題。針對長期保存對象的發(fā)展變化,SIRF允許使用多個(gè)對象標(biāo)識符記錄其不同版本,但同一時(shí)間僅能使用一個(gè)對象標(biāo)識符。這種方式既能解決冗余問題,也能保證標(biāo)識符在發(fā)展、更新過程中的可擴(kuò)展性。不變性信息元數(shù)據(jù)能保證數(shù)字資源的準(zhǔn)確性,相關(guān)機(jī)構(gòu)可通過簡單的CRC(循環(huán)冗余校驗(yàn))或復(fù)雜的MD5(信息摘要算法)對不變性信息進(jìn)行計(jì)算和驗(yàn)證,但隨著時(shí)間的推移,強(qiáng)大的驗(yàn)證算法也會過時(shí)。因此,SIRF目錄允許使用多種冗余算法對長期保存的對象進(jìn)行驗(yàn)證。審計(jì)日志能夠保存系統(tǒng)對長期保存對象的存取和修改等重要信息。不同的數(shù)字資源長期保存系統(tǒng)對審計(jì)日志的內(nèi)容和擴(kuò)展信息的要求不同,管理方式也不一樣。審計(jì)日志信息一般以長期保存對象鏈接的形式被保存在SIRF目錄中。
4 SIRF的應(yīng)用
4.1 SIRF應(yīng)用模型
SIRF應(yīng)用模型主要包括Storage(存儲模塊)、TP-Service(當(dāng)前存儲服務(wù)模塊)、FP-Service(未來存儲服務(wù)模塊)、T-App(當(dāng)前應(yīng)用模塊)、F-App(未來應(yīng)用模塊)及Registry(功能信息模塊)。Storage(存儲模塊),即存儲子系統(tǒng),負(fù)責(zé)保存所有的數(shù)字資源;TP-Service(當(dāng)前存儲服務(wù)模塊),即當(dāng)前系統(tǒng)提供的存儲服務(wù)類型,如數(shù)字?jǐn)z取服務(wù)、數(shù)據(jù)轉(zhuǎn)換服務(wù)等;FP-Service(未來存儲服務(wù)模塊),即未來能夠提供的存儲服務(wù);T-App(當(dāng)前應(yīng)用模塊),即當(dāng)前使用的各種應(yīng)用軟件;F-App(未來應(yīng)用模塊),即未來使用的應(yīng)用軟件;Registry(功能信息模塊)負(fù)責(zé)保存文件格式信息(如PDF、docx、jpg)等內(nèi)容。
4.2 個(gè)人云存儲數(shù)字保存系統(tǒng)應(yīng)用案例
個(gè)人用戶通過SIRF數(shù)據(jù)模型的云存儲系統(tǒng)能夠?qū)彝フ掌拖嚓P(guān)文檔等數(shù)字資源進(jìn)行長期保存,并在未來便利地存取和保存。使用流程如下:個(gè)人用戶在云存儲系統(tǒng)創(chuàng)建一個(gè)關(guān)于家譜的數(shù)字容器,存放需要保存的照片、音頻、視頻及文檔資源;個(gè)人用戶通過云存儲系統(tǒng)的TP-Service服務(wù)模塊,使用T-App服務(wù)模塊對家譜相關(guān)內(nèi)容進(jìn)行攝取;TP-Service服務(wù)模塊能夠把攝取的內(nèi)容按照國際標(biāo)準(zhǔn)轉(zhuǎn)換為適合長期保存的數(shù)據(jù)格式,并把轉(zhuǎn)換后的數(shù)字保存對象保存在家譜數(shù)字容器中;隨著時(shí)間的推移,用戶的后代如果需要訪問、獲取家譜數(shù)字容器中保存的相關(guān)內(nèi)容,就要通過FP-Service服務(wù)模塊驗(yàn)證用戶身份并提供授權(quán);F-App模塊能夠通過FP-Service服務(wù)模塊獲取最新版本的數(shù)字資源,并以PDF等通用的數(shù)字格式提供給用戶。
云存儲數(shù)字資源保存系統(tǒng)應(yīng)具備以下條件:支持長期保存對象的格式轉(zhuǎn)換,并能夠保存原始和轉(zhuǎn)換后的版本;能夠?qū)?shù)字唯一標(biāo)識符進(jìn)行長期管理,保證唯一性;當(dāng)安全保密機(jī)制過時(shí),能夠及時(shí)更新系統(tǒng),保證數(shù)字資源的安全性;保證數(shù)字容器符合SIRF數(shù)字容器標(biāo)準(zhǔn),并能夠與其他云存儲系統(tǒng)連接;保證數(shù)字資源在數(shù)字遷移或數(shù)字仿真后的真實(shí)性、完整性和可理解性。
參考文獻(xiàn):
[1] 吳振新.長期保存中的數(shù)字對象不變性研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(11):1-9.
[2] 吳振新,付鴻鵠,馬海收,等.長期保存系統(tǒng)監(jiān)控服務(wù)內(nèi)容框架研究[J].圖書情報(bào)工作,2014(3):51-57.
[3] 董曉莉.SIRF與長期保存數(shù)字對象的不變性研究[J].圖書館雜志,2017(3):69-76.
(編校:孫新梅)
收稿日期:2021-05-09
作者簡介:陳志鵬(1977— ),鄭州財(cái)經(jīng)學(xué)院圖書館館員。