韓同欣 李楠
摘要:基于虛擬化技術(shù)構(gòu)建的云計算平臺成為數(shù)據(jù)中心的主流架構(gòu),針對虛擬平臺只是提供了主機之間的高可用,未實現(xiàn)虛機系統(tǒng)層及用戶數(shù)據(jù)可靠性保護的情況,給出了一種面向虛擬平臺的備份恢復(fù)架構(gòu),在虛擬環(huán)境發(fā)生故障時能夠迅速從平臺級、數(shù)據(jù)級恢復(fù)虛擬平臺及業(yè)務(wù)虛機正常運行,同時實現(xiàn)虛機內(nèi)文件級細粒度備份及恢復(fù),并通過數(shù)據(jù)去重刪除技術(shù)實現(xiàn)在有限的備份空間下保存更多備份數(shù)據(jù)。
關(guān)鍵詞:虛擬化;數(shù)據(jù)保護;備份恢復(fù);云計算;數(shù)據(jù)重刪
中圖分類號:TP391 文獻標志碼:A 文章編號:1009-3044(2015)20-0018-02
虛擬平臺具有的按需資源分配、動態(tài)資源調(diào)整[1]等特點吸引著越來越多的用戶將業(yè)務(wù)科研應(yīng)用系統(tǒng)遷移、部署到云平臺。一旦由于軟硬件原因?qū)е略破脚_底層文件系統(tǒng)出現(xiàn)錯誤,會影響到之上的多個虛機系統(tǒng)。因此,建立面向虛擬環(huán)境的備份恢復(fù)系統(tǒng),在云環(huán)境發(fā)生故障時能夠迅速從平臺級、數(shù)據(jù)級恢復(fù)云平臺正常運行及業(yè)務(wù)虛機正常運行,成為目前虛擬平臺亟需解決的問題之一。
1 備份恢復(fù)功能設(shè)計
面向虛擬環(huán)境的備份恢復(fù)系統(tǒng)能夠從異構(gòu)的環(huán)境、異構(gòu)平臺和異構(gòu)應(yīng)用提供一體化的恢復(fù)和管理模式,從操作系統(tǒng)、虛擬化環(huán)境、應(yīng)用數(shù)據(jù)庫到文件數(shù)據(jù)提供保護。需要實現(xiàn)以下功能點:
1)支持對不同虛擬環(huán)境的備份保護,例如Vmware、vSphere、Xen等??蓪崿F(xiàn)虛擬機整個虛擬磁盤文件的整體備份保護,也可以采用安裝客戶端的方式,對虛擬機里面的文件、數(shù)據(jù)進行選擇性的備份。
2)可通過掛載恢復(fù)方式在分鐘級內(nèi)完成核心業(yè)務(wù)虛擬機的應(yīng)急恢復(fù);實現(xiàn)對核心虛擬服務(wù)器的文件級細粒度恢復(fù),可選擇所需要恢復(fù)的文件或目錄,恢復(fù)到指定位置,而無需恢復(fù)整個虛擬機,提升恢復(fù)效率。
3)針對虛擬機里面Oracle通過RMAN熱備份的方式保護數(shù)據(jù)庫中的重要數(shù)據(jù),同時在用戶數(shù)據(jù)丟失的情況下給予原服務(wù)器恢復(fù)或者是指定Oracle數(shù)據(jù)庫的異機恢復(fù)選擇。分鐘級內(nèi)即可將用戶的Oracle數(shù)據(jù)庫和應(yīng)用數(shù)據(jù)有效保護起來。
4)同時實現(xiàn)Lan-Base與Lan-Free備份,最大化利用網(wǎng)絡(luò)資源,在不影響生產(chǎn)運行的情況下完成數(shù)據(jù)保護。
5)通過全局重復(fù)數(shù)據(jù)刪除技術(shù)實現(xiàn)在有限的備份空間下,可以保存更多備份數(shù)據(jù),并節(jié)約網(wǎng)絡(luò)帶寬。
2 備份架構(gòu)設(shè)計
2.1 備份機制
備份系統(tǒng)包含管理控制臺系統(tǒng)、介質(zhì)服務(wù)器系統(tǒng)、客戶端系統(tǒng),由客戶端發(fā)起備份連接請求,保持和管理控制臺的通訊,最終將備份數(shù)據(jù)同步到備份介質(zhì)中。備份過程采用模塊化備份方式,調(diào)用數(shù)據(jù)庫或虛擬化平臺的API完成備份,以Vmware為例,可通過VStorageAPI實現(xiàn)整體備份恢復(fù)[2],并利用CBT增量備份技術(shù)實現(xiàn)虛擬機真正的增量備份,提升備份效率。其他應(yīng)用與此類似。
此外,針對海量數(shù)據(jù)尤其是虛擬機居多的現(xiàn)狀,可采用重復(fù)數(shù)據(jù)刪除技術(shù)[3],在備份介質(zhì)中只存放非重復(fù)數(shù)據(jù),大量節(jié)約備份空間及網(wǎng)絡(luò)帶寬,降低整體成本及運維成本。
2.2備份策略
根據(jù)虛機承載的應(yīng)用系統(tǒng)業(yè)務(wù)運行特點,制定不同的備份計劃,選擇最合適的備份策略,如是否開啟重復(fù)數(shù)據(jù)刪除、備份周期、保留周期、選擇普通備份或高級備份模式、備份目的地等。
對于不同類型的應(yīng)用采用不同分組和不同的備份策略,并將時間錯開,避免對網(wǎng)絡(luò)、計算資源的爭用,最大化提升資源利用率,提升備份效率。備份虛擬機數(shù)目較大的情況,應(yīng)采用分組方式,將全量和增量備份時間完全錯開,以在現(xiàn)有網(wǎng)絡(luò)條件下,盡可能提升備份效率。
2.3 系統(tǒng)架構(gòu)
此次設(shè)計的備份系統(tǒng)獨立部署,對接虛擬平臺。采用一體化備份恢復(fù)架構(gòu),包括軟件、備份存儲介質(zhì),在不改變現(xiàn)有網(wǎng)絡(luò)架構(gòu)的前提下,可將備份恢復(fù)系統(tǒng)直接接入生產(chǎn)環(huán)境,對虛擬平臺數(shù)據(jù)進行保護。不使用虛擬平臺現(xiàn)有的存儲,主要優(yōu)點如下:
1)當原有存儲發(fā)生故障時,備份數(shù)據(jù)在另外的位置,不會因為原有存儲異常導(dǎo)致生產(chǎn)數(shù)據(jù)與備份數(shù)據(jù)同時丟失。
2)不使用虛擬機自帶的快照等機制,一方面更加便于管理,在統(tǒng)一界面實現(xiàn)備份與恢復(fù)管理、存儲管理、用戶管理等;另一方面具備更廣泛的兼容性,可保護不同的虛擬機、系統(tǒng)及數(shù)據(jù)庫、文件等,并具備重復(fù)數(shù)據(jù)刪除等特性。
備份系統(tǒng)架構(gòu)如圖1:
圖1 備份系統(tǒng)與虛擬平臺的架構(gòu)關(guān)系
架構(gòu)說明:
備份恢復(fù)系統(tǒng)采用一體化形態(tài),云計算架構(gòu),集群式部署,可Scale-Out動態(tài)擴展。集群內(nèi)包含管理節(jié)點與多個數(shù)據(jù)備份節(jié)點,可以形成統(tǒng)一的備份存儲池,實現(xiàn)統(tǒng)一管理。
在要保護的虛擬機或服務(wù)器上部署備份客戶端,通過向?qū)瓿蛇B接配置,同時可采用模塊化備份方式,實現(xiàn)無代理備份,只需在Vcenter等虛擬管理控制臺上面安裝一個客戶端,即可實現(xiàn)對所有虛擬機的一次性備份。針對虛擬化有NBD方式、NBD-SSL方式、SAN方式[4]。將備份恢復(fù)系統(tǒng)連接到內(nèi)區(qū)的FC-SAN交換機上,通過備份恢復(fù)系統(tǒng)實現(xiàn)對內(nèi)網(wǎng)區(qū)存儲中的數(shù)據(jù)使用FC網(wǎng)絡(luò)進行快速備份。備份恢復(fù)系統(tǒng)通過內(nèi)網(wǎng)區(qū)的以太網(wǎng)交換機接入到IP網(wǎng)絡(luò)中,通過IP網(wǎng)絡(luò)對備份進行管理。對于DMZ區(qū),在虛擬機管理平臺上安裝備份客戶端,由內(nèi)網(wǎng)區(qū)的備份恢復(fù)系統(tǒng)通過IP網(wǎng)絡(luò)實現(xiàn)虛機數(shù)據(jù)流的備份和恢復(fù)以及備份控制管理。在制定備份策略時可通過管理平臺設(shè)置備份策略選擇對虛擬機的獨立備份或統(tǒng)一備份功能。
2.4 系統(tǒng)可靠性設(shè)計
備份恢復(fù)系統(tǒng)采用集群架構(gòu),多個備份節(jié)點并發(fā)備份,可保證部分節(jié)點故障時,不會影響其他節(jié)點的備份任務(wù)運行,同時備份恢復(fù)系統(tǒng)具備自備份機制,在備份恢復(fù)系統(tǒng)故障時,可通過自備份數(shù)據(jù)將索引、任務(wù)信息等導(dǎo)回,快速恢復(fù)備份作業(yè)。備份存儲空間與備份恢復(fù)系統(tǒng)在不同介質(zhì)部署,備份存儲支持Raid0、1、5、6,依據(jù)經(jīng)驗,一般做Raid5+熱備盤方式使用,提升備份介質(zhì)的可靠性。備份恢復(fù)系統(tǒng)軟硬件均有告警機制,確保及時發(fā)現(xiàn)問題與處理。
3 備份恢復(fù)流程
由客戶端發(fā)起恢復(fù)連接請求,保持和管理控制臺的通訊,最終將備份數(shù)據(jù)從備份介質(zhì)中恢復(fù)到目標服務(wù)器或虛擬化平臺下。數(shù)據(jù)恢復(fù)調(diào)用各應(yīng)用系統(tǒng)的接口,如VstorageAPI、Oracle rman等,以保證恢復(fù)一致性及有效性,同時選擇相應(yīng)歷史時間點的備份集作為恢復(fù)源,將所需恢復(fù)數(shù)據(jù)恢復(fù)到原機或異機。
當整個虛擬機故障時,若緊急恢復(fù)業(yè)務(wù),可通過“掛載恢復(fù)”方式實現(xiàn)應(yīng)急接管,恢復(fù)時間在分鐘級;虛擬機故障時,可采用“普通恢復(fù)”模式,將虛擬機整體恢復(fù)到指定的虛機管理控制臺下,并可設(shè)置是否自動開機、聯(lián)網(wǎng)。當只是損壞虛擬機部分文件或目錄時,可通過“細粒度恢復(fù)”方式,選擇需要的文件或目錄,恢復(fù)到原機或異機任意路徑下。以上恢復(fù)場景均需選擇想要恢復(fù)的時間點,實現(xiàn)歷史數(shù)據(jù)找回。
對于數(shù)據(jù)庫恢復(fù)場景(以O(shè)racle為例),若Oracle數(shù)據(jù)庫服務(wù)異常或整庫故障,可通過恢復(fù)任務(wù),選擇整個實例,完成整體恢復(fù),整體恢復(fù)需要停機恢復(fù),可通過日志回滾結(jié)合的方式找到更多時間點的數(shù)據(jù);若因誤操作誤刪除等原因?qū)е虏糠謹?shù)據(jù)文件或控制文件損壞,可選擇“高級恢復(fù)”模式,將損壞的控制文件結(jié)合有關(guān)聯(lián)的文件,在圖形化界面上自動完成恢復(fù),高級恢復(fù)也需要停機恢復(fù);若因誤操作誤刪除等原因?qū)е聰?shù)據(jù)庫單表或部分表丟失,可選擇“單表恢復(fù)”模式,在不停止數(shù)據(jù)庫服務(wù)的情況下,快速將特定的表找回,恢復(fù)到原數(shù)據(jù)庫中,此過程完全采用圖形化界面操作,不需定制腳本,可行性高,恢復(fù)速度快,且不會造成二次傷害。
4 結(jié)束語
通過該備份系統(tǒng)使虛擬平臺中的各業(yè)務(wù)系統(tǒng)得到有效的保護,增強基礎(chǔ)設(shè)施和重要系統(tǒng)災(zāi)難恢復(fù)能力,解決了目前虛擬平臺對于災(zāi)難恢復(fù)能力弱的問題。為虛擬平臺中核心業(yè)務(wù)系統(tǒng)虛擬主機、關(guān)鍵業(yè)務(wù)應(yīng)用構(gòu)建應(yīng)急恢復(fù)機制,建立可用的備用應(yīng)急系統(tǒng)和數(shù)據(jù),保證業(yè)務(wù)數(shù)據(jù)不丟失和數(shù)據(jù)丟失后數(shù)據(jù)的快速恢復(fù)。以全局去重刪除技術(shù)為基礎(chǔ)設(shè)計的此架構(gòu),滿足了未來數(shù)據(jù)增長的存儲備份需求,解決了不斷擴展的備份數(shù)據(jù)量問題。
參考文獻:
[1] 任昱, 李青榮.基于VMware vSphere虛擬化資源管理平臺研究[J]. 計算機應(yīng)用與軟件, 2012(5).
[2] Designing Backup Solutions for VMware vSphere[EB/OL].https://www.vmware.com/support/developer/vddk/vadp_vsphere_backup12.pdf.
[3] 敖莉, 舒繼武, 李明強. 重復(fù)數(shù)據(jù)刪除技術(shù)[J]. 軟件學報, 2010, 21(5): 916-929.
[4] Sphere Data Protection管理指南[EB/OL].http://www.wmware.corn.