王浩銘,穆道生
(裝備學(xué)院 北京 101416)
容災(zāi)備份[4]指預(yù)判災(zāi)難產(chǎn)生和降低災(zāi)難損害程度的準(zhǔn)備工作。是利用技術(shù)手段、管理方法和軟硬件資源保證系統(tǒng)中的關(guān)鍵數(shù)據(jù)、核心數(shù)據(jù)處理系統(tǒng)和重要業(yè)務(wù)在災(zāi)難發(fā)生后可以迅速恢復(fù)的過程,達(dá)到保障業(yè)務(wù)連續(xù),將損失降到最低的目的。
保證數(shù)據(jù)完整性和業(yè)務(wù)的連續(xù)性是容災(zāi)系統(tǒng)中最核心的部分。一個(gè)絕對(duì)完整的容災(zāi)系統(tǒng)如圖1應(yīng)該由本地生產(chǎn)系統(tǒng)、本地備用生產(chǎn)系統(tǒng)、生產(chǎn)數(shù)據(jù)中心、本地備份數(shù)據(jù)中心、異地應(yīng)用系統(tǒng)和異地?cái)?shù)據(jù)中心組成。高可用系統(tǒng)由本地生產(chǎn)系統(tǒng)、本地備用生產(chǎn)系統(tǒng)和生產(chǎn)數(shù)據(jù)中心組成。
圖1 容災(zāi)備份系統(tǒng)Fig.1 Disaster recovery system
本地容災(zāi)中心由本地高可靠系統(tǒng)和本地?cái)?shù)據(jù)中心組成,是解決本地硬件損壞等災(zāi)難的有效手段,但是對(duì)大型自然災(zāi)害卻無能為力;異地備份系統(tǒng)由異地應(yīng)用系統(tǒng)異地?cái)?shù)據(jù)中心組成;使用本地高可靠系統(tǒng)、本地備用數(shù)據(jù)中心、異地應(yīng)用系統(tǒng)可以組建異地應(yīng)用容災(zāi)系統(tǒng),而根據(jù)預(yù)防災(zāi)難的傷毀范圍可以確定本地生產(chǎn)系統(tǒng)和異地備份系統(tǒng)的距離。
在設(shè)計(jì)災(zāi)備系統(tǒng)時(shí),容災(zāi)要達(dá)到什么樣的目標(biāo)與層次,就需要用某些定量的指標(biāo)[5]來衡量。公認(rèn)指標(biāo)有RTO、RPO、NRO和DOO。
RPO(Recovery Point Objective):數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),指業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量,針對(duì)數(shù)據(jù)丟失。RTO(Recovery Time Objective):恢復(fù)時(shí)間目標(biāo),指從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間,針對(duì)服務(wù)丟失。系統(tǒng)對(duì)二者要求越小,服務(wù)效果越好,所需投入越高。NRO(Network Recovery Object):網(wǎng)絡(luò)恢復(fù)目標(biāo),指災(zāi)難發(fā)生后網(wǎng)絡(luò)切換需要的時(shí)間。 DOO(Degrade Operation Object):降級(jí)運(yùn)作目標(biāo),指本次恢復(fù)完成到下一次故障或?yàn)?zāi)難發(fā)生的時(shí)間間隔。
容災(zāi)系統(tǒng)的關(guān)鍵技術(shù)有數(shù)據(jù)備份、異地容災(zāi)技術(shù)、數(shù)據(jù)復(fù)制、災(zāi)難檢測(cè)、系統(tǒng)遷移和系統(tǒng)恢復(fù)[6],是IT技術(shù)與管理學(xué)結(jié)合的應(yīng)用。
1)數(shù)據(jù)備份
周國平:一個(gè)靈魂已經(jīng)覺醒的人,不會(huì)再嘲笑和傷害別人,因?yàn)槟阒溃鋵?shí)別人只是附在另一軀體上的最敏感的你。
數(shù)據(jù)備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將主系統(tǒng)的數(shù)據(jù)復(fù)制到備用系統(tǒng)存儲(chǔ)介質(zhì)的過程,是容災(zāi)的基石。如表1,按照備份環(huán)境分為主機(jī)備份、網(wǎng)絡(luò)備份和專有存儲(chǔ)網(wǎng)絡(luò)備份,他們的容災(zāi)等級(jí)依次增強(qiáng);按照應(yīng)用技術(shù)分為DAS(直接附加存儲(chǔ))、NAS(網(wǎng)絡(luò)附加存儲(chǔ))、SAN(存儲(chǔ)區(qū)域網(wǎng)絡(luò))和IP存儲(chǔ)網(wǎng)絡(luò);按照備份方式分為基于存儲(chǔ)備份、基于操作系統(tǒng)備份、基于應(yīng)用軟件備份和磁盤備份。
表1 數(shù)據(jù)備份方法Tab.1 Method of data backup
2)異地容災(zāi)
異地容災(zāi)技術(shù)主要包括遠(yuǎn)程鏡像復(fù)制、快照技術(shù)、互聯(lián)技術(shù)、虛擬存儲(chǔ)技術(shù)。遠(yuǎn)程鏡像已經(jīng)成為目前容災(zāi)備份方法的核心部分,是在多個(gè)磁盤系統(tǒng)上產(chǎn)生同一個(gè)鏡像視圖的存儲(chǔ)過程,也是實(shí)現(xiàn)本地與異地系統(tǒng)數(shù)據(jù)同步和災(zāi)難恢復(fù)的基礎(chǔ);快照技術(shù)是存儲(chǔ)設(shè)備中數(shù)據(jù)時(shí)間節(jié)點(diǎn)的指針,通常和鏡像技術(shù)結(jié)合用于遠(yuǎn)程備份;互聯(lián)技術(shù)指的是基于IP的SAN遠(yuǎn)程容災(zāi)備份,節(jié)約成本且可擴(kuò)展;虛擬存儲(chǔ)技術(shù)允許異質(zhì)系統(tǒng)和應(yīng)用程序共享存儲(chǔ)設(shè)備。
3)數(shù)據(jù)復(fù)制
數(shù)據(jù)復(fù)制是指生產(chǎn)系將數(shù)據(jù)不斷地復(fù)制到備用系統(tǒng)中,強(qiáng)調(diào)過程的連續(xù)性。一般分為同步數(shù)據(jù)復(fù)制和異步數(shù)據(jù)復(fù)制。同步數(shù)據(jù)復(fù)制是通過將本地生產(chǎn)數(shù)據(jù)以完全同步的方式復(fù)制到異地,由于每一次數(shù)據(jù)交換都要等待遠(yuǎn)程復(fù)制結(jié)束,故可以做到零數(shù)據(jù)丟失,缺點(diǎn)是是對(duì)系統(tǒng)性能影響較大;異步數(shù)據(jù)復(fù)制是將本地生產(chǎn)數(shù)據(jù)以后臺(tái)同步的方式復(fù)制到異地,數(shù)據(jù)交換無需等待遠(yuǎn)程復(fù)制結(jié)束,缺點(diǎn)是一旦發(fā)生災(zāi)難會(huì)造成少量數(shù)據(jù)丟失,優(yōu)點(diǎn)是對(duì)系統(tǒng)性能影響較小。
4)災(zāi)難檢測(cè)
災(zāi)難檢測(cè)反應(yīng)系統(tǒng)自身未雨綢繆的主動(dòng)性而不是災(zāi)難發(fā)生后的“亡羊補(bǔ)牢”,目前主要災(zāi)難檢測(cè)方法有心跳技術(shù)和檢查點(diǎn)技術(shù)。心跳技術(shù)是系統(tǒng)各個(gè)重要節(jié)點(diǎn)每隔一段時(shí)間都要向外廣播自身的狀態(tài),如果周期內(nèi)節(jié)點(diǎn)廣播消失則證明此節(jié)點(diǎn)失效。檢查點(diǎn)技術(shù)為主動(dòng)檢測(cè)手段,是每隔一段時(shí)間會(huì)對(duì)系統(tǒng)重要節(jié)點(diǎn)進(jìn)行檢測(cè),若周期內(nèi)被檢測(cè)節(jié)點(diǎn)沒有響應(yīng),則認(rèn)為檢測(cè)節(jié)點(diǎn)失效。兩種方法都存在周期問題,如果周期太頻繁,會(huì)影響系統(tǒng)性能,占用系統(tǒng)資源;如果間隔時(shí)間過長(zhǎng),檢測(cè)不靈敏,增加容災(zāi)難度和任務(wù)量。
5)系統(tǒng)遷移
系統(tǒng)遷移技術(shù)是保證災(zāi)難發(fā)生時(shí)實(shí)現(xiàn)系統(tǒng)透明的遷移,利用備用系統(tǒng)透明的代替生產(chǎn)系統(tǒng),以保證業(yè)務(wù)連續(xù)性。系統(tǒng)遷移技術(shù)主要分為基于DNS的遷移、基于IP重定向遷移和基于集群的遷移?;贒NS遷移技術(shù)利用動(dòng)態(tài)域名解析系統(tǒng)完成業(yè)務(wù)遷移,實(shí)時(shí)性較差;基于IP重定向遷移技術(shù)利用重定向設(shè)備實(shí)現(xiàn)容災(zāi)自動(dòng)切換,智能性較高;基于集群遷移技術(shù)指集群中任意節(jié)點(diǎn)出現(xiàn)故障,這個(gè)節(jié)點(diǎn)服務(wù)器的業(yè)務(wù)將由另一臺(tái)服務(wù)器承擔(dān),保證業(yè)務(wù)連續(xù)性,且成本較低。
6)系統(tǒng)恢復(fù)
系統(tǒng)恢復(fù)指在發(fā)生災(zāi)難事故時(shí),能利用已備份的數(shù)據(jù)或者其他手段,及時(shí)開展恢復(fù)本地生產(chǎn)工作,保證數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性。系統(tǒng)恢復(fù)需要按照容災(zāi)計(jì)劃和策略,可以利用本地或者異地的備份數(shù)據(jù)進(jìn)行系統(tǒng)恢復(fù),也可以通過本地或者異地備份系統(tǒng)及時(shí)接管業(yè)務(wù),體現(xiàn)IT技術(shù)與管理學(xué)的融合。
一般企業(yè)級(jí)局域網(wǎng)可以實(shí)現(xiàn)在區(qū)域內(nèi)資源共享、信息交流和協(xié)同工作的功能。具有如下特點(diǎn):1)網(wǎng)絡(luò)分布相對(duì)集中,方便統(tǒng)一管理,接入網(wǎng)絡(luò)設(shè)備架設(shè)在中心位置,減小線路成本;2)應(yīng)用系統(tǒng)復(fù)雜,各個(gè)部門信息系統(tǒng)互不兼容。通常有業(yè)務(wù)處理系統(tǒng),數(shù)據(jù)信息系統(tǒng),一卡通信息系統(tǒng)和財(cái)務(wù)系統(tǒng)等;3)為了避免網(wǎng)絡(luò)攻擊、自然災(zāi)害和系統(tǒng)故障等造成損失,對(duì)安全性要求較高。4)受企業(yè)規(guī)模影響,資金投入能力有限。針對(duì)以上特點(diǎn),通??梢圆捎萌缦?種方案:
1)基于磁盤陣列數(shù)據(jù)同步容災(zāi)方案
根據(jù)局域網(wǎng)各個(gè)服務(wù)器分布特點(diǎn),可以構(gòu)建兩個(gè)網(wǎng)絡(luò)中心或者多個(gè)數(shù)據(jù)中心,按照互為備份原則進(jìn)行部署,如結(jié)構(gòu)圖2所示,達(dá)到所有數(shù)據(jù)異地備份的目的。此方案利用磁盤陣列作為中心存儲(chǔ)完成復(fù)制工作,結(jié)合遠(yuǎn)程鏡像技術(shù)和快照技術(shù)實(shí)現(xiàn)數(shù)據(jù)中心異地互備份,保證數(shù)據(jù)同步一致性。優(yōu)點(diǎn)是磁盤陣列可以保障大量數(shù)據(jù)復(fù)制的質(zhì)量和性能,對(duì)于主機(jī)應(yīng)用而言完全透明;缺點(diǎn)是復(fù)制數(shù)據(jù)較大,對(duì)鏈路帶寬要求較高,整體投資較高。
圖2 基于磁盤陣列數(shù)據(jù)同步容災(zāi)方案Fig.2 Disaster recovery scheme of data synchronization based on disk array
2)基于軟件數(shù)據(jù)同步方案
如結(jié)構(gòu)圖3,由于不同應(yīng)用系統(tǒng)兼容性差的原,因需在每個(gè)服務(wù)器的操作系統(tǒng)安裝兼容性強(qiáng)的鏡像同步軟件,實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)同步,使數(shù)據(jù)同時(shí)存儲(chǔ)于本地和異地的磁盤設(shè)備上。異地磁盤陣列保存鏡像數(shù)據(jù),實(shí)現(xiàn)異地備份。此方案借助操作系統(tǒng)鏡像軟件的兼容性,使本地邏輯卷與異地邏輯卷數(shù)據(jù)同步,在災(zāi)難情況下可以方便備份服務(wù)器激活相應(yīng)邏輯卷,保證業(yè)務(wù)連續(xù)性,且成本較少。
圖3 基于軟件數(shù)據(jù)同步方案Fig.3 Disaster recovery scheme of data synchronization based on software
3)定期自動(dòng)備份
如結(jié)構(gòu)圖4,部分?jǐn)?shù)據(jù)由于不是業(yè)務(wù)的核心內(nèi)容,只需要在系統(tǒng)空閑時(shí)定期備份到異地磁盤陣列中就可滿足其容災(zāi)需求。
圖4 定期自動(dòng)備份方案Fig.4 Scheme of regular automatic backup
而最優(yōu)化的方案則是在局域網(wǎng)中根據(jù)具體情況和不同部門要求采取不同的容災(zāi)方案。有些部門信息重要但是并不經(jīng)常更新,例如人事信息等,可以采用定期自動(dòng)備份方案;一些科研數(shù)據(jù)、郵件系統(tǒng)數(shù)據(jù)更新較快但是沒有達(dá)到金融數(shù)據(jù)要求的速度和安全性,不必實(shí)時(shí)更新,可以采用軟件數(shù)據(jù)同步方案;重要業(yè)務(wù)部門數(shù)據(jù)更新頻率很快,實(shí)時(shí)性要求極高,適用于基于磁盤陣列數(shù)據(jù)同步方案,滿足高可靠高性能需求。另外在網(wǎng)絡(luò)建設(shè)上,不必完全架設(shè)專用備份網(wǎng)絡(luò),采用現(xiàn)有IP網(wǎng)絡(luò)分時(shí)復(fù)用策略,在減少不必要投入的情況下,充分利用資源,達(dá)到容災(zāi)要求。
容災(zāi)系統(tǒng)是信息系統(tǒng)數(shù)據(jù)和業(yè)務(wù)安全的重要保障,在信息結(jié)構(gòu)日益復(fù)雜的環(huán)境下,確保網(wǎng)絡(luò)業(yè)務(wù)連續(xù)性,應(yīng)該進(jìn)一步對(duì)容災(zāi)備份技術(shù)深入研究,生產(chǎn)出自主研發(fā)、成本可控并能結(jié)合局域網(wǎng)自身特點(diǎn)的容災(zāi)產(chǎn)品,保證在自然災(zāi)害、網(wǎng)絡(luò)攻擊等災(zāi)難發(fā)生后,數(shù)據(jù)不丟失,系統(tǒng)能盡快恢復(fù)運(yùn)行,起到對(duì)系統(tǒng)數(shù)據(jù)和應(yīng)用的保護(hù)作用,做到“有備無患”。
[1]Kurose,James F,Ross K W.Computer networking[C].Pearson Education,2012.
[2]Chivers I D,Sleightholme J.Compiler support for the Fortran 2003 and 2008 standards[C]//ACM SIGPLAN Fortran Forum.2009,28(2):15.
[3]Atkin C P.Computer system with transparent data migration between storage volumes:U.S.Patent 6,145,066[P].2000-11-7.
[4]Schmidt K.High availability and disaster recovery:concepts,design,implementation[M].Springer Publishing Company,Incorporated,2010.
[5]Keeton K,Santos C A,Beyer D,et al.Designing for Disasters[C]//FAST,2004:59-62.
[6]Yang Y X,Yao W B,Chen Z.Review of disaster backup and recovery technology of information system [J].Journal of Beijing University of Posts and Telecommunications,2010,33(2):1-6.