程妍妍
摘 要:從縮短我國(guó)檔案機(jī)構(gòu)摸索和運(yùn)用云計(jì)算服務(wù)周期,提高其運(yùn)用效率和質(zhì)量出發(fā),對(duì)目前國(guó)際檔案館應(yīng)用云計(jì)算的主要平臺(tái)和模式進(jìn)行調(diào)研,包括公共云、私有云、混合云和領(lǐng)域云四種模式,并對(duì)每一種模式進(jìn)行了案例分析,為我國(guó)檔案領(lǐng)域積極引進(jìn)和運(yùn)用云計(jì)算服務(wù),提供最佳實(shí)踐指南和有益借鑒。
關(guān)鍵詞:云計(jì)算平臺(tái);公共云;領(lǐng)域云;混合云
Abstract:To shorten the period of exploration and application of cloud computing services in our archives,as well as improve the efficiency and quality of the application, the paperconducts a survey of international archives main platform and mode of cloud computing,including public cloud, private cloud, hybrid cloud and community cloud, each mode withcase studies analyzed. It aims at providing best practice and useful reference for the introduction and use of cloud computing services in our archives.
Keywords: Cloud computing platform,Public cloud, Community cloud,Hybrid cloud
據(jù)國(guó)際數(shù)據(jù)存儲(chǔ)和管理公司(EMC)的一份研究報(bào)告預(yù)測(cè)[1],從2009年至2020年,每年數(shù)字信息的新增幅度將達(dá)40余倍,而每年新生成的數(shù)字信息,三分之一以上都會(huì)存儲(chǔ)至云環(huán)境中。在此背景之下,國(guó)際檔案界正在積極主動(dòng)地運(yùn)用云計(jì)算技術(shù)進(jìn)行館藏存儲(chǔ)、格式遷移等工作,其積累的寶貴經(jīng)驗(yàn)可以縮短我國(guó)檔案機(jī)構(gòu)摸索和運(yùn)用云計(jì)算服務(wù)的周期,提高其運(yùn)用效率和質(zhì)量。因此,本文通過(guò)調(diào)研和分析國(guó)際檔案館應(yīng)用云計(jì)算的主要平臺(tái)和模式,為我國(guó)檔案領(lǐng)域積極引進(jìn)和運(yùn)用云計(jì)算服務(wù),提供最佳實(shí)踐指南和有益借鑒。
1 國(guó)際檔案館應(yīng)用云計(jì)算的必要性
所謂云計(jì)算,指的是一種按使用量付費(fèi)的計(jì)算模式,這種模式可提供方便快捷、按需的網(wǎng)絡(luò)訪問(wèn),進(jìn)入到以服務(wù)形式提供給用戶的計(jì)算資源共享池(包括網(wǎng)絡(luò)、IT資源、存儲(chǔ)、應(yīng)用軟件)。云計(jì)算服務(wù)商可以為檔案館提供軟硬件設(shè)施、應(yīng)用服務(wù)、存儲(chǔ)資源等動(dòng)態(tài)虛擬化資源,來(lái)支持檔案資源的存儲(chǔ)、長(zhǎng)久保存、管理、利用等服務(wù)。
國(guó)際檔案館應(yīng)用云計(jì)算服務(wù)的必要性主要來(lái)自于:(1)受政府“云優(yōu)先”采購(gòu)技術(shù)的推動(dòng):目前,各國(guó)政府為減少系統(tǒng)維護(hù)費(fèi)用和尋求更高程度的資源利用效率和控制能力,紛紛出臺(tái)或計(jì)劃“云優(yōu)先”(Cloud First)的信息化采購(gòu)策略,例如英國(guó)政府2012年制定的“云優(yōu)先”政策中,規(guī)定所有政府部門的信息化建設(shè)和產(chǎn)品采購(gòu)都應(yīng)優(yōu)先考慮使用云計(jì)算的潛力,英國(guó)國(guó)會(huì)檔案館成為這項(xiàng)政策的先驅(qū)實(shí)踐者,成為英國(guó)國(guó)會(huì)第一個(gè)部門應(yīng)用G-Cloud框架來(lái)進(jìn)行云存儲(chǔ)的實(shí)踐者;(2)云計(jì)算在數(shù)字檔案長(zhǎng)久保存方面具備特殊優(yōu)勢(shì),主要表現(xiàn)在:云服務(wù)價(jià)格低廉,可以大幅度減少長(zhǎng)久保存工作費(fèi)用,特別適用于小型檔案館;云服務(wù)商可以為檔案館量身定做適用于其需求的長(zhǎng)久保存工作、方法、工作流和服務(wù)協(xié)議等;云服務(wù)可以提供方便自動(dòng)化的檔案?jìng)浞莺蛯I(yè)化的完整性校驗(yàn)、存儲(chǔ)等工作,其保管數(shù)字檔案位流的能力可能會(huì)超過(guò)檔案館自身的系統(tǒng)能力;云服務(wù)靈活、易測(cè)試和實(shí)驗(yàn)等。
2 國(guó)際檔案館應(yīng)用云計(jì)算的主要平臺(tái)
國(guó)際檔案館應(yīng)用云計(jì)算的平臺(tái)主要分為兩種,通用和專業(yè)云計(jì)算服務(wù)商。
(1)通用云計(jì)算服務(wù)商:通用云服務(wù)商向全球各領(lǐng)域提供服務(wù),可對(duì)大數(shù)據(jù)集進(jìn)行存儲(chǔ)和處理,代表包括Amazon Web Services (AWS)、Google、IBM、Microsoft云服務(wù)等,例如美國(guó)國(guó)家檔案館應(yīng)用通用云服務(wù)Amazon EC2,轉(zhuǎn)化希拉里作為第一夫人期間大量PDF格式檔案,9小時(shí)轉(zhuǎn)換完畢,費(fèi)用僅144.62美元。一般來(lái)說(shuō),通用云服務(wù)商提供的服務(wù)比專業(yè)服務(wù)商價(jià)格低,用戶幫助和開(kāi)發(fā)支持服務(wù)更完善,用戶群也更廣泛,但是,通用云服務(wù)商通常不能夠完全滿足檔案領(lǐng)域的專業(yè)需求,例如檔案采集、處理、長(zhǎng)久保存、數(shù)據(jù)丟失和恢復(fù)等。
(2)專業(yè)云計(jì)算服務(wù)商:專業(yè)云服務(wù)商通常是在通用服務(wù)商提供的基礎(chǔ)設(shè)施基礎(chǔ)上,附加了一層檔案工作流和方法層,專門提供給檔案機(jī)構(gòu)使用。專業(yè)云服務(wù)商代表包括Arkivum、DuraCloud、Preservica、Archivematica等,這些云服務(wù)商收費(fèi)比通用服務(wù)商略高,服務(wù)時(shí)間通常以月或年計(jì)算,而不是像Google等以小時(shí)或分鐘計(jì)算。專業(yè)云服務(wù)商可以為檔案機(jī)構(gòu)實(shí)現(xiàn)基于云的檔案長(zhǎng)久保存和利用功能,可以以云主機(jī)或本地部署安裝的形式支持這些功能的完成。其中有一些專業(yè)云服務(wù)商提供非常有針對(duì)性的服務(wù),例如美國(guó)互聯(lián)網(wǎng)檔案館提供的云服務(wù)“Archive-It”專門針對(duì)Web站點(diǎn)歸檔。
3 國(guó)際檔案館應(yīng)用云計(jì)算的主要模式及案例
目前,國(guó)際檔案館應(yīng)用云計(jì)算主要有四種模式:公共云、私有云、混合云和領(lǐng)域云模式。
3.1 公共云模式及案例。公共云模式,指由云服務(wù)商提供檔案館所需的各類資源,例如服務(wù)器資源、應(yīng)用軟件等,檔案館以免費(fèi)或按量付費(fèi)的形式通過(guò)網(wǎng)絡(luò)來(lái)使用這些資源,云中資源的運(yùn)營(yíng)和維護(hù)完全由云服務(wù)商負(fù)責(zé)。公共云是目前使用最為廣泛的方式,世界各地都有提供商業(yè)服務(wù)的大型云數(shù)據(jù)中心。公共云服務(wù)主要通過(guò)在用戶間共享昂貴的硬件資源,在同一個(gè)物理服務(wù)器上運(yùn)行多個(gè)安全虛擬機(jī)來(lái)降低經(jīng)濟(jì)成本,可用于檔案館檔案存儲(chǔ)和其他長(zhǎng)久保存任務(wù)。使用公共云模式的檔案館例如多塞特歷史中心檔案館(Dorset History Centre)[2]。
多塞特歷史中心檔案館,為多塞特、普爾和伯恩茅斯三個(gè)地方政府提供檔案采集、利用和長(zhǎng)久保存服務(wù)。該館從2010年開(kāi)始和ancestry.com項(xiàng)目合作,數(shù)字化五十萬(wàn)份數(shù)字圖像文件,提供網(wǎng)絡(luò)利用,未來(lái)還需要長(zhǎng)久保存大量數(shù)字化膠片檔案和音像檔案等。該館使用的是公共云Preservica Cloud Edition提供的數(shù)字檔案長(zhǎng)久保存服務(wù),其獲取的主要經(jīng)驗(yàn)是:(1)檔案機(jī)構(gòu)應(yīng)在云服務(wù)方面采取主動(dòng),因?yàn)閿?shù)字檔案的長(zhǎng)久保存工作,只不過(guò)是檔案機(jī)構(gòu)核心職能在數(shù)字時(shí)代另外一種形式的延續(xù)。長(zhǎng)久保存工作對(duì)檔案領(lǐng)域來(lái)說(shuō)是一種挑戰(zhàn),同時(shí)也決定檔案機(jī)構(gòu)存在的必要性。(2)采用云服務(wù),獲取持續(xù)性經(jīng)費(fèi)支持是非常重要的,因?yàn)樵品?wù)需要資金的不斷投入,該館計(jì)劃在未來(lái)3年,能夠通過(guò)收費(fèi)服務(wù)或廣告贊助在數(shù)字長(zhǎng)久保存方面產(chǎn)生收益,或是進(jìn)一步研究基于云服務(wù)的用戶收費(fèi)機(jī)制。(3)地方政府對(duì)使用云服務(wù)會(huì)有疑慮,主要集中在安全性問(wèn)題,為確保安全,一是明確遠(yuǎn)程存儲(chǔ)數(shù)據(jù)的物理地址,該館在選擇云服務(wù)商時(shí)就考慮到服務(wù)器的地點(diǎn)問(wèn)題,采用的Preservica Cloud Edition是基于亞馬遜位于都柏林的服務(wù)器存儲(chǔ)檔案數(shù)據(jù),確保數(shù)據(jù)存放的物理地址位于歐盟區(qū)內(nèi);二是云服務(wù)商安全資質(zhì),該館對(duì)云系統(tǒng)進(jìn)行風(fēng)險(xiǎn)評(píng)估,建議云系統(tǒng)在存儲(chǔ)和處理檔案信息時(shí)達(dá)到政府云存儲(chǔ)認(rèn)證標(biāo)準(zhǔn)第一或第二級(jí)別,達(dá)到該級(jí)別后檔案仍然會(huì)面臨一些風(fēng)險(xiǎn)因素,檔案館必須對(duì)這些因素進(jìn)行評(píng)估。
3.2 私有云模式及案例。私有云模式,指檔案館單獨(dú)構(gòu)建云環(huán)境,具備云環(huán)境所需的基礎(chǔ)設(shè)施、應(yīng)用軟件、數(shù)據(jù)等,通過(guò)大型物理服務(wù)器集的虛擬化以及實(shí)施方法來(lái)讓用戶按需獲取計(jì)算資源。這樣既復(fù)制了公共云的優(yōu)勢(shì),同時(shí)也保持了對(duì)硬件、數(shù)據(jù)和成本的直接控制。在私有云建設(shè)中,機(jī)構(gòu)規(guī)模很重要,因?yàn)闄n案機(jī)構(gòu)需要足夠大型的IT基礎(chǔ)設(shè)施來(lái)支持彈性按需資源獲取和用戶快速申請(qǐng)新虛擬機(jī)。
私有云最適合于那些已經(jīng)具備大型數(shù)據(jù)中心、設(shè)備和員工的檔案機(jī)構(gòu),只需要增加投資即可。檔案機(jī)構(gòu)可以使用專業(yè)云服務(wù)提供商提供的本地部署軟件來(lái)創(chuàng)建私有云,實(shí)現(xiàn)檔案存儲(chǔ)和數(shù)字長(zhǎng)久保存功能,例如DuraCloud提供OpenStack版本支持機(jī)構(gòu)建立私有云服務(wù)。使用私有云模式的例如牛津大學(xué)圖書(shū)館。
牛津大學(xué)圖書(shū)館為其檔案材料數(shù)字館藏提供私有云服務(wù),該圖書(shū)館具備300TB的數(shù)據(jù)容量,未來(lái)三年將計(jì)劃在Petabyte級(jí)別展開(kāi)數(shù)據(jù)歸檔,目前主要內(nèi)容是圖像和文本,未來(lái)將擴(kuò)展至音視頻和其他格式檔案。該館建立的私有云主要為研究人員提供研究檔案數(shù)據(jù)的存儲(chǔ)服務(wù),按月付費(fèi),基于Vmware ESX系統(tǒng)建立,在多個(gè)地點(diǎn)集群服務(wù)器上運(yùn)行。該機(jī)構(gòu)在云建設(shè)方面的經(jīng)驗(yàn)是:(1)云服務(wù)風(fēng)險(xiǎn)對(duì)檔案機(jī)構(gòu)來(lái)說(shuō)比服務(wù)提供商更高,因?yàn)橐坏┰品?wù)商停止運(yùn)行,可能無(wú)法及時(shí)把數(shù)據(jù)導(dǎo)出來(lái)。一旦發(fā)生問(wèn)題,對(duì)檔案機(jī)構(gòu)的影響要遠(yuǎn)大于云服務(wù)商,檔案機(jī)構(gòu)需要在實(shí)施云服務(wù)時(shí)降低這種風(fēng)險(xiǎn)和實(shí)施退出戰(zhàn)略。(2)私有云建立不簡(jiǎn)單,得面臨大量的數(shù)據(jù)集、網(wǎng)絡(luò)基礎(chǔ)設(shè)施和帶寬問(wèn)題。(3)采用共享的私有云服務(wù)或者是集合相同目標(biāo)的機(jī)構(gòu)形成聯(lián)盟,共同完成云,對(duì)檔案機(jī)構(gòu)來(lái)說(shuō)更為可行,類似美國(guó)數(shù)字長(zhǎng)久保存網(wǎng)絡(luò)服務(wù)聯(lián)盟。(4)私有云維護(hù)費(fèi)用較高:該館目前主要針對(duì)研究數(shù)據(jù)存儲(chǔ)收費(fèi),其付費(fèi)收入模型從長(zhǎng)期看是非常昂貴的,該項(xiàng)目也擔(dān)心未來(lái)將數(shù)據(jù)提取出來(lái)的費(fèi)用也會(huì)代價(jià)太高,因此,也在研究考慮未來(lái)采用公共云Arkivum的可能性。
3.3 混合云模式及案例。混合云模式,指由檔案館和云服務(wù)商共同建造云。混合云主要基于信息安全考慮,對(duì)于涉密檔案資源和關(guān)鍵應(yīng)用程序可以運(yùn)行在檔案館自身的私有云中,而普通的應(yīng)用程序可以運(yùn)行在服務(wù)商提供的公共云中。檔案館應(yīng)用混合云,可以充分利用公共云的規(guī)模和彈性,存儲(chǔ)大規(guī)模的公開(kāi)數(shù)據(jù)或者執(zhí)行批量的格式轉(zhuǎn)化任務(wù)。而在私有云中,易于控制和確保數(shù)字檔案的真實(shí)性,可以用于存儲(chǔ)密級(jí)檔案。理想的系統(tǒng)可以充分利用兩者的優(yōu)勢(shì),無(wú)縫鏈接。使用混合云架構(gòu)的例如英國(guó)國(guó)會(huì)檔案館[3]。
英國(guó)國(guó)會(huì)檔案館負(fù)責(zé)管理、長(zhǎng)久保存和提供英國(guó)國(guó)會(huì)相關(guān)歷史檔案的利用。該館目前擁有50TB檔案材料需要采集,格式包括PDF、JPEG、TIFF、Audio Visual (AV)、CAD、Web和XML等。該館在本地存儲(chǔ)系統(tǒng)存儲(chǔ)涉密敏感信息,同時(shí)使用公共云(G-cloud)存儲(chǔ)公開(kāi)信息,形成混合云結(jié)構(gòu)。英國(guó)國(guó)會(huì)檔案館應(yīng)用云的經(jīng)驗(yàn)是: (1)檔案館應(yīng)用云服務(wù)應(yīng)首先考慮管理數(shù)據(jù)的完整性、信息的安全性以及如何在服務(wù)發(fā)生變更時(shí)將數(shù)據(jù)完整取回。(2)云中數(shù)據(jù)的安全性方案:該館決定只使用云存儲(chǔ)公開(kāi)檔案,其他檔案本地存儲(chǔ)。但是未來(lái)將對(duì)云服務(wù)提供商進(jìn)行資質(zhì)審查,以決定是否將密級(jí)檔案交由云存儲(chǔ)。(3)云服務(wù)商的依賴性問(wèn)題:?jiǎn)为?dú)依賴于一家云服務(wù)商保管數(shù)字檔案是否穩(wěn)妥值得商榷,特別是在發(fā)生業(yè)務(wù)終止,或出于風(fēng)險(xiǎn)管理的考慮。因此,該館同時(shí)選擇兩家云服務(wù)商,其中一家相當(dāng)于應(yīng)急備份,作為退出戰(zhàn)略的一部分,并且這兩家云服務(wù)商使用的是完全不同的底層技術(shù),一家云服務(wù)商基于Amazon S3,另外一家基于EMC Atoms,以確保不依賴于特定的技術(shù)。
3.4 領(lǐng)域云模式及案例。領(lǐng)域云是云的一種特殊實(shí)例,領(lǐng)域云僅提供給特定領(lǐng)域的用戶使用,例如亞馬遜公司在美國(guó)運(yùn)行的一個(gè)版本的云環(huán)境,僅供美國(guó)聯(lián)邦和州政府使用。從體系架構(gòu)上說(shuō),該領(lǐng)域云和亞馬遜公共云服務(wù)效率一樣高,但是其利用只限定在一定范圍的用戶。無(wú)論機(jī)構(gòu)采購(gòu)的是公共、私有還是混合云資源,如果僅提供給一定范圍的用戶使用,都可以視作領(lǐng)域云。領(lǐng)域云先驅(qū)性的項(xiàng)目例如威爾士數(shù)字長(zhǎng)久保存聯(lián)盟[4]正在朝領(lǐng)域云的方向過(guò)渡。
威爾士數(shù)字長(zhǎng)久保存聯(lián)盟,是威爾士檔案和文件委員會(huì)內(nèi)部成立的,致力于威爾士數(shù)字化和原生檔案的長(zhǎng)期利用問(wèn)題,成員來(lái)自政府各部門、院校等,由于該工作組的成員來(lái)自于不同的部門,因此項(xiàng)目需要在各個(gè)具體的需求中取得平衡,共享最佳實(shí)踐和盡量爭(zhēng)取采用一致的方法。該項(xiàng)目計(jì)劃向固定的用戶群提供云服務(wù),因此可視為領(lǐng)域云,具體的云技術(shù)包括開(kāi)源歸檔軟件Archivematica和CloudSigma云存儲(chǔ),其使用云的經(jīng)驗(yàn)是:(1)在云項(xiàng)目正式上馬之前,開(kāi)展一些測(cè)試性的項(xiàng)目是非常重要的,可以獲取關(guān)于系統(tǒng)的實(shí)際經(jīng)驗(yàn)。該項(xiàng)目測(cè)試了Archivematica、Microsoft Azure、CloudSigma、Preservica等云產(chǎn)品,這些測(cè)試讓成員在系統(tǒng)操作中理解了長(zhǎng)久保存理論的實(shí)施,加深理解,同時(shí),項(xiàng)目也對(duì)不同云服務(wù)的優(yōu)劣進(jìn)行了比較和選擇,例如對(duì)微軟提供的Microsoft Azure平臺(tái)和云服務(wù)提供商CloudSigma進(jìn)行了比較,當(dāng)使用微軟平臺(tái)的時(shí)候,為保持和機(jī)構(gòu)歸檔系統(tǒng)(基于Linux)的兼容,測(cè)試組不得不在云平臺(tái)和歸檔系統(tǒng)之間增加了一層虛擬化層,增加了成本和云實(shí)施的復(fù)雜性。因此,選擇云產(chǎn)品也要考慮和檔案機(jī)構(gòu)現(xiàn)有系統(tǒng)的兼容性問(wèn)題。(2)在使用領(lǐng)域云的時(shí)候,能夠提供基于瀏覽器的接口來(lái)實(shí)現(xiàn)共享云安裝是非常具備前景的,威爾士的所有機(jī)構(gòu)能夠合作建立領(lǐng)域云基礎(chǔ)設(shè)施,通過(guò)瀏覽器提供數(shù)字長(zhǎng)久保存軟件的利用和云存儲(chǔ)鏈接。
參考文獻(xiàn):
[1]Kendz.y.2010年全球數(shù)字信息量可達(dá)1.2ZB[EB/OL].2014-4-22.http://www.jifang360.com/news/2010624/n69407438.html.
[2]The National Archives.Case Study:Dorset History Center[EB/OL].2014-4-22.https://www.dorsetforyou.com/dorsethistorycentre.
[3]UK Parliament.Digital Preservation in Parliament[EB/OL].2014-4-22.http://www.parliament.uk/business/publications/parliamentary-archives/digitalpreservation/.
[4]The National Archives.Case Study: Archives And Records Council wales Digital Preservation Working Group[EB/OL].2014-4-22.http://archiveswales.org.uk/.
(作者單位:南京政治學(xué)院上海校區(qū)軍事信息管理系 來(lái)稿日期:2015-09-18)