新疆烏魯木齊69010部隊(duì) 趙學(xué)軍
當(dāng)前,在單位信息化系統(tǒng)建設(shè)與運(yùn)行管理過(guò)程中,數(shù)據(jù)安全及應(yīng)用安全作為建設(shè)中的重要環(huán)節(jié)應(yīng)當(dāng)放到首要位置,立足長(zhǎng)遠(yuǎn),優(yōu)先考慮,未雨綢繆,容災(zāi)系統(tǒng)就是在這種情況下應(yīng)運(yùn)而生的,它能保證關(guān)鍵數(shù)據(jù)不丟失、關(guān)鍵業(yè)務(wù)不中斷,最大限度地保障數(shù)據(jù)及應(yīng)用的高可靠性。
容災(zāi)為系統(tǒng)提供了比數(shù)據(jù)備份更高等級(jí)的保護(hù),數(shù)據(jù)備份只能保證數(shù)據(jù)的可靠,在數(shù)據(jù)恢復(fù)期間系統(tǒng)服務(wù)是停滯的,而容災(zāi)在數(shù)據(jù)安全的基礎(chǔ)上,更強(qiáng)調(diào)業(yè)務(wù)系統(tǒng)的安全。容災(zāi)工程就是采用必要的技術(shù)和特定機(jī)制,防范由于軍事打擊、自然災(zāi)害、社會(huì)動(dòng)亂、病毒入侵、人為破壞或系統(tǒng)故障等造成的信息系統(tǒng)數(shù)據(jù)損失、業(yè)務(wù)中斷,確保計(jì)算機(jī)信息系統(tǒng)在遭受破壞的情況下能夠盡可能減少損失、盡快恢復(fù)運(yùn)行的一項(xiàng)系統(tǒng)工程。容災(zāi)的實(shí)現(xiàn)主要是通過(guò)在本地或異地建立和維護(hù)一個(gè)備份系統(tǒng),利用地理上的分散性加強(qiáng)對(duì)災(zāi)難事件的抵御能力。容災(zāi)系統(tǒng)更加強(qiáng)調(diào)外界環(huán)境對(duì)系統(tǒng)的影響,特別是大范圍的災(zāi)難性事件對(duì)信息系統(tǒng)節(jié)點(diǎn)的影響,提供節(jié)點(diǎn)級(jí)別的系統(tǒng)恢復(fù)功能。
容災(zāi)系統(tǒng)有兩個(gè)關(guān)鍵性指標(biāo):一是恢復(fù)時(shí)間目標(biāo)(RTO)(Recovery Time Objective),即災(zāi)難發(fā)生后,業(yè)務(wù)功能從停頓到恢復(fù)的時(shí)間要求;二是恢復(fù)點(diǎn)目標(biāo)(RPO)(Recovery Point Objective),即當(dāng)災(zāi)難發(fā)生后,系統(tǒng)和數(shù)據(jù)必須恢復(fù)到的時(shí)間點(diǎn)要求。在國(guó)際標(biāo)準(zhǔn)SHARE 78中定義的容災(zāi)系統(tǒng)有七個(gè)層次,從最簡(jiǎn)單的僅在本地進(jìn)行磁帶備份到將備份的磁帶存儲(chǔ)在異地,再到建立應(yīng)用系統(tǒng)實(shí)時(shí)切換的異地備份系統(tǒng),恢復(fù)時(shí)間從幾天到小時(shí)級(jí)到分鐘級(jí)、秒級(jí)或0數(shù)據(jù)丟失。
容災(zāi)按不同的劃分方式有不同的類(lèi)型。
一是按照業(yè)務(wù)系統(tǒng)與備份系統(tǒng)之間的距離遠(yuǎn)近劃分為本地容災(zāi)和異地容災(zāi)。本地容災(zāi)一般將業(yè)務(wù)系統(tǒng)與備份系統(tǒng)放在同一個(gè)建筑物內(nèi)或相近的范圍之內(nèi)。異地容災(zāi)則將備份系統(tǒng)遠(yuǎn)離業(yè)務(wù)系統(tǒng),從數(shù)十公里到上千公里不等。
二是按照實(shí)施容災(zāi)的層次劃分為數(shù)據(jù)容災(zāi)、應(yīng)用容災(zāi)與業(yè)務(wù)容災(zāi)。數(shù)據(jù)容災(zāi)是指在異地建立一個(gè)數(shù)據(jù)備份系統(tǒng),該系統(tǒng)是業(yè)務(wù)系統(tǒng)關(guān)鍵數(shù)據(jù)的一個(gè)可用復(fù)制。該數(shù)據(jù)可以是業(yè)務(wù)系統(tǒng)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比業(yè)務(wù)系統(tǒng)數(shù)據(jù)略微落后,確保災(zāi)難發(fā)生后業(yè)務(wù)數(shù)據(jù)一定是可用的。應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,建立一套完整的與業(yè)務(wù)系統(tǒng)相當(dāng)?shù)膫浞菹到y(tǒng)。建立這樣一個(gè)系統(tǒng)不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源以及各資源之間的良好協(xié)調(diào)。業(yè)務(wù)容災(zāi)是將業(yè)務(wù)分解為粒度較細(xì)的應(yīng)用,當(dāng)災(zāi)難發(fā)生時(shí)可以通過(guò)對(duì)業(yè)務(wù)進(jìn)行重組從而保證業(yè)務(wù)的連續(xù)性。
三是按照數(shù)據(jù)復(fù)制模式不同劃分為同步復(fù)制、異步復(fù)制、半同步復(fù)制和自適應(yīng)復(fù)制。同步復(fù)制要求在主備中心同時(shí)提交I/O操作(主要是寫(xiě)操作),并且只有在都完成之后才能進(jìn)行下一次I/O操作,它能保證數(shù)據(jù)的RPO在秒級(jí),但同步模式通常會(huì)對(duì)系統(tǒng)的性能產(chǎn)生較大的影響,對(duì)網(wǎng)絡(luò)帶寬要求較高,整體投資較大,運(yùn)營(yíng)成本較高,支持的距離有限。異步復(fù)制不要求數(shù)據(jù)在主、備節(jié)點(diǎn)同時(shí)提交,數(shù)據(jù)首先在主節(jié)點(diǎn)提交,隨后處理后續(xù)服務(wù),然后才在備份節(jié)點(diǎn)提交。半同步復(fù)制基本與異步復(fù)制相同,但是它只允許在接收到備份中心確認(rèn)信息前進(jìn)行讀操作而不允許寫(xiě)操作。自適應(yīng)復(fù)制則是同步、異步復(fù)制的折衷。
一般服務(wù)器數(shù)據(jù)存儲(chǔ)都采用磁盤(pán)陣列來(lái)確保數(shù)據(jù)安全,常用的有RAID1、RAID5、RAID6等,能夠提供不同方式的磁盤(pán)數(shù)據(jù)保護(hù),這種保護(hù)提供了信息系統(tǒng)最為基礎(chǔ)的數(shù)據(jù)保護(hù)方式,當(dāng)單塊硬盤(pán)出現(xiàn)故障時(shí),能夠通過(guò)磁盤(pán)陣列恢復(fù)數(shù)據(jù)。
但其缺點(diǎn)也較為明顯,首先,它無(wú)法保護(hù)業(yè)務(wù),在數(shù)據(jù)恢復(fù)期間系統(tǒng)是無(wú)法提供正常服務(wù)的,而且服務(wù)器其它部件導(dǎo)致的宕機(jī)或其它原因?qū)е碌臉I(yè)務(wù)停滯,它是無(wú)法解決的;其次,它只能解決單個(gè)服務(wù)器問(wèn)題,不是一種集中解決方案。
傳統(tǒng)的磁帶庫(kù)及近年出現(xiàn)的虛擬磁帶庫(kù)技術(shù)是一種超大容量存儲(chǔ)備份方式,廣泛應(yīng)用于銀行、石油、圖書(shū)館、廣播電視、軍隊(duì)等需要海量存儲(chǔ)的部門(mén)和行業(yè),能夠以較高性能和較低成本為異構(gòu)系統(tǒng)提供存儲(chǔ)歸檔和備份,便于離線和異地保存。
這種方式與應(yīng)用系統(tǒng)無(wú)關(guān),是基于數(shù)據(jù)層面的備份,可以為異構(gòu)應(yīng)用提供大容量集中式數(shù)據(jù)備份。但磁帶庫(kù)技術(shù)仍舊只是一種備份技術(shù),它不能解決業(yè)務(wù)系統(tǒng)的應(yīng)急恢復(fù)能力,在數(shù)據(jù)和應(yīng)用系統(tǒng)恢復(fù)期間業(yè)務(wù)是停滯的,只能保證數(shù)據(jù)的容災(zāi),不能保證應(yīng)用的容災(zāi)。
集群(Cluster)技術(shù)是指一組相互獨(dú)立的計(jì)算機(jī),利用高速通信網(wǎng)絡(luò)組成一個(gè)計(jì)算機(jī)系統(tǒng),每個(gè)群集節(jié)點(diǎn)(即集群中的每臺(tái)計(jì)算機(jī))都是運(yùn)行其自己進(jìn)程的一個(gè)獨(dú)立服務(wù)器。這些進(jìn)程可以彼此通信,對(duì)網(wǎng)絡(luò)客戶(hù)機(jī)來(lái)說(shuō)是就像是形成了一個(gè)單一系統(tǒng),協(xié)同起來(lái)向用戶(hù)提供應(yīng)用程序、系統(tǒng)資源和數(shù)據(jù),并以單一系統(tǒng)的模式加以管理。計(jì)算機(jī)集群技術(shù)的出發(fā)點(diǎn)是為了提供更高的可用性、可管理性、可伸縮性的計(jì)算機(jī)系統(tǒng)。一個(gè)集群包含多臺(tái)擁有共享數(shù)據(jù)存儲(chǔ)空間的服務(wù)器,各服務(wù)器通過(guò)內(nèi)部局域網(wǎng)相互通信。當(dāng)一個(gè)節(jié)點(diǎn)發(fā)生故障時(shí),它所運(yùn)行的應(yīng)用程序?qū)⒂善渌?jié)點(diǎn)自動(dòng)接管。
其中,只有兩個(gè)節(jié)點(diǎn)的高可用集群又稱(chēng)為雙機(jī)熱備,即使用兩臺(tái)服務(wù)器互相備份。當(dāng)一臺(tái)服務(wù)器出現(xiàn)故障時(shí),可由另一臺(tái)服務(wù)器承擔(dān)服務(wù)任務(wù),從而在不需要人工干預(yù)的情況下,自動(dòng)保證系統(tǒng)能持續(xù)對(duì)外提供服務(wù)??梢?jiàn),雙機(jī)熱備是集群技術(shù)中的最簡(jiǎn)單的一種。
雖然集群技術(shù)能夠達(dá)到數(shù)據(jù)和應(yīng)用的雙保險(xiǎn),但這種模式也有弊端。它無(wú)法避免數(shù)據(jù)誤刪除、邏輯性破壞和自然災(zāi)難,且代價(jià)高昂,無(wú)法統(tǒng)一管理和集中。
持續(xù)數(shù)據(jù)保護(hù)(CDP)是一種在不影響應(yīng)用系統(tǒng)正常運(yùn)行的前提下,持續(xù)捕捉或跟蹤目標(biāo)數(shù)據(jù)所發(fā)生的任何改變,可以恢復(fù)到此前任意時(shí)間點(diǎn)的方法。CDP系統(tǒng)能夠提供塊級(jí)、文件級(jí)和應(yīng)用級(jí)的備份。CDP技術(shù)通過(guò)在操作系統(tǒng)核心層中植入文件過(guò)濾驅(qū)動(dòng)程序來(lái)實(shí)時(shí)捕獲所有文件的訪問(wèn)操作,對(duì)于需要CDP連續(xù)備份保護(hù)的文件,當(dāng)CDP管理模塊經(jīng)由文件過(guò)濾驅(qū)動(dòng)攔截到其改寫(xiě)操作時(shí),則預(yù)先將文件數(shù)據(jù)變化部分連同當(dāng)前的系統(tǒng)時(shí)間戳(System Time Stamp)一起自動(dòng)備份到存儲(chǔ)設(shè)備。從理論上說(shuō),任何一次的文件數(shù)據(jù)變化都會(huì)被自動(dòng)記錄,因而稱(chēng)之為持續(xù)數(shù)據(jù)保護(hù)。
CDP技術(shù)是對(duì)傳統(tǒng)數(shù)據(jù)備份技術(shù)的一次革命性的重大突破。傳統(tǒng)的數(shù)據(jù)備份解決方案專(zhuān)注于對(duì)數(shù)據(jù)的周期性備份上,因此一直伴隨有備份窗口、數(shù)據(jù)一致性以及對(duì)生產(chǎn)系統(tǒng)的影響等問(wèn)題?,F(xiàn)在,CDP為用戶(hù)提供了新的數(shù)據(jù)保護(hù)手段,系統(tǒng)管理者無(wú)須關(guān)注數(shù)據(jù)的備份過(guò)程(因?yàn)镃DP系統(tǒng)會(huì)不斷監(jiān)測(cè)關(guān)鍵數(shù)據(jù)的變化,從而可以自動(dòng)實(shí)現(xiàn)數(shù)據(jù)的保護(hù)),而是僅僅當(dāng)災(zāi)難發(fā)生后,簡(jiǎn)單地選擇需要恢復(fù)到的時(shí)間點(diǎn)即可實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù)。
通過(guò)在客戶(hù)端加裝iSCSI型主機(jī)總線適配器(HBA卡,Host Bus Adapter)實(shí)現(xiàn)SANboot,其功能是當(dāng)受保護(hù)服務(wù)器操作系統(tǒng)不能正常啟動(dòng)時(shí),通過(guò)對(duì)HBA卡的配置,并選用相應(yīng)系統(tǒng)啟動(dòng)選項(xiàng),就可實(shí)現(xiàn)受保護(hù)服務(wù)器操作系統(tǒng)的快速啟動(dòng),SANboot啟動(dòng)速度與本地相當(dāng)。
將最新的CDP技術(shù)和iSCSI HBA遠(yuǎn)程引導(dǎo)技術(shù)相結(jié)合,就能夠提供文件、數(shù)據(jù)庫(kù)、操作系統(tǒng)的實(shí)時(shí)備份與恢復(fù),整合數(shù)據(jù)備份、系統(tǒng)恢復(fù)、災(zāi)難恢復(fù)、本地及異地容災(zāi)等多項(xiàng)功能,并且能同時(shí)給多個(gè)系統(tǒng)提供容災(zāi)服務(wù),在容量、帶寬、成本等方面是一種較為出色的解決方案,可以滿足大多數(shù)單位信息化建設(shè)的要求,提高數(shù)據(jù)防護(hù)能力,為業(yè)務(wù)工作正常開(kāi)展提供有力支撐。
容災(zāi)系統(tǒng)的建立,一定要以用戶(hù)的需求為出發(fā)點(diǎn),首先要根據(jù)應(yīng)用的類(lèi)型確定需求的優(yōu)先順序原則,這樣才能確定相關(guān)的方案。以下的因素應(yīng)是容災(zāi)系統(tǒng)建設(shè)重點(diǎn)考慮的相關(guān)原則:
1.容災(zāi)系統(tǒng)應(yīng)具有開(kāi)放性,不依賴(lài)特定硬件系統(tǒng)。應(yīng)支持包括TCP/IP網(wǎng)絡(luò)在內(nèi)的廣泛的傳輸介質(zhì)。
2.考慮到容災(zāi)能力和對(duì)應(yīng)用系統(tǒng)性能的影響,容災(zāi)方案不僅要支持近距的、同步的數(shù)據(jù)容災(zāi),還必須能支持遠(yuǎn)程的、異步的數(shù)據(jù)容災(zāi)。對(duì)于異地?cái)?shù)據(jù)容災(zāi),數(shù)據(jù)復(fù)制不僅僅要求在異地有一份數(shù)據(jù)拷貝,同時(shí)必須保證異地?cái)?shù)據(jù)的完整性、可用性。
3.容災(zāi)系統(tǒng)本身應(yīng)具備各種容錯(cuò)考慮。能支持靈活多樣的容災(zāi)結(jié)構(gòu)。
4.完善的容災(zāi)系統(tǒng)應(yīng)該考慮實(shí)用的災(zāi)難恢復(fù)手段,建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。在遠(yuǎn)程的容災(zāi)系統(tǒng)中,既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說(shuō),一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確保快速的反應(yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個(gè)整體,實(shí)現(xiàn)多級(jí)的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個(gè)范圍的可靠和安全。