如今云計算、大數(shù)據(jù)等新興領域方興未艾,作為實現(xiàn)和承載的最佳平臺的數(shù)據(jù)中心,無疑吸引了諸多的關注。事實上,數(shù)據(jù)中心已成為保障企業(yè)信息系統(tǒng)正常工作的重要基礎設施,如何保證數(shù)據(jù)中心的持續(xù)可靠運行。
1 引言
如今云計算、大數(shù)據(jù)等新興領域方興未艾,作為實現(xiàn)和承載的最佳平臺的數(shù)據(jù)中心,無疑吸引了諸多的關注。事實上,數(shù)據(jù)中心已成為保障企業(yè)信息系統(tǒng)正常工作的重要基礎設施,如何保證數(shù)據(jù)中心的持續(xù)可靠運行,如何應對和有效化解數(shù)據(jù)集中帶來的風險,已成為企業(yè)CTO們愈發(fā)關注的重要問題。
2 容備建設勢在必行
·全球在2004年因自然災害和人為事故造成的直接損失達到1230億美元
·全球2005年共發(fā)生約400起巨災,損失超過2300億美元
·在世界范圍內(nèi)與20世紀60年代相比,到了20世紀90年代,世界上可統(tǒng)計的自然災害發(fā)生率增長了3倍,其經(jīng)濟損失增長了9倍
·9.11事件中,美國世貿(mào)中心里數(shù)百家沒有災難備份系統(tǒng)的公司徹底消失
·受汶川地震影響,整個銀行業(yè)凈損失約在50億~130億人民幣, 沒有災備中心的城市商業(yè)銀行影響很大,08年銀行業(yè)凈利潤下滑0.7%
·世事無常,災難一直如影隨行的陪伴著人類社會的發(fā)展。隨著信息化的快速發(fā)展,以政府、金融、電力、大型企業(yè)等為主的各行業(yè)逐步建立大型數(shù)據(jù)中心完成數(shù)據(jù)集中處理,數(shù)據(jù)的集中也意味著風險的加劇,對數(shù)據(jù)中心的可靠性也提出了更高的要求。企業(yè)數(shù)據(jù)中心必須能做到7×24小時不間斷的服務能力,為避免數(shù)據(jù)中心遭受災難時造成的巨大損失,容災備份系統(tǒng)的建設已勢在必行。
9.11之后,災難備份被提升到前所未有的高度,國內(nèi)研究機構、咨詢機構、IT服務企業(yè)不斷呼吁災難備份建設。國家信息化辦公室也在2005年發(fā)布《重要信息系統(tǒng)災難恢復指南》,將災備建設推到新的高度。2010年銀監(jiān)會發(fā)布的《商業(yè)銀行數(shù)據(jù)中心監(jiān)管指引》明確指出商業(yè)銀行需要建設災備中心。
3 容備建設概念
根據(jù)國家標準《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007)的定義:災難是指由于人為或自然的原因,造成信息系統(tǒng)嚴重故障或癱瘓,使信息系統(tǒng)支持的業(yè)務功能停頓或服務水平不可接受、達到特定的時間的突發(fā)性事件。典型的災難事件包括機房內(nèi)事件(如系統(tǒng)單點故障、機房電源系統(tǒng)故障、廣域網(wǎng)故障、機房漏水、空調(diào)系統(tǒng)故障、存儲陣列關鍵設備故障、人為破壞、軟件邏輯錯誤、信息安全故障等)、建筑物災難(如建筑物外部火災、建筑物內(nèi)部火災、機房內(nèi)部火災、長時間停電、光纜中斷等)和區(qū)域性災難(指機房所在區(qū)域或有緊密聯(lián)系的地區(qū)交通、電訊、能源及其它關鍵基礎設施遭到嚴重破壞,或大規(guī)模人口疏散的事件,如地震、大規(guī)模衛(wèi)生事件、恐怖襲擊、電網(wǎng)故障等)。
災難備份是指為了災難恢復而對數(shù)據(jù)、數(shù)據(jù)處理系統(tǒng)、網(wǎng)絡系統(tǒng)、基礎設施、專業(yè)技術支持能力和運行管理能力進行備份的過程;而災難恢復是指為了將信息系統(tǒng)從災難造成的故障或癱瘓狀態(tài)恢復到可正常運行狀態(tài)、并將其支持的業(yè)務功能從災難造成的不正常狀態(tài)恢復到可接受狀態(tài),而設計的活動和流程。災備系統(tǒng)的建設包含七要素:數(shù)據(jù)備份系統(tǒng)、備用數(shù)據(jù)處理系統(tǒng)、備用網(wǎng)絡系統(tǒng)、備用基礎設施、專業(yè)技術支持能力、運行維護管理能力、災難恢復預案。
《信息系統(tǒng)災難恢復規(guī)范》將災難恢復能力劃分為6級,災難恢復能力等級越高,對信息系統(tǒng)的保護效果越好,但同時成本也會迅速上升。災備等級主要從RTO(恢復時間目標)和RPO(恢復點目標)來考慮,RPO(恢復點目標)是指發(fā)生災難前最后一次備份的時間點距離當前時間差(數(shù)據(jù)丟失時間);RTO(時間恢復目標)是指發(fā)生災難后恢復物理系統(tǒng)環(huán)境的時間。大部分的用戶關注的是數(shù)據(jù)安全性,即RPO值(RPO越小,數(shù)據(jù)丟失越少),但是用戶往往談的更多的是RTO(RTO越小,恢復生產(chǎn)越快)。
基于上述定義,災備系統(tǒng)可以理解為以“備份”為手段,以“恢復”為目標,是一項周密的系統(tǒng)工程。這一工程不僅需要進行備份中心的建設以及相關IT系統(tǒng)的購置,還需要在生產(chǎn)中心與備份中心之間搭建一張安全可靠的災備傳送網(wǎng)絡。
4 容備網(wǎng)絡建設
絕大部分情況下,容災系統(tǒng)需要借助廣域網(wǎng)進行互聯(lián),由于災備的特殊性和重要性,對廣域網(wǎng)的要求比較高:
(1)超大容量:在信息爆炸的趨勢下,存儲容量動輒數(shù)十到數(shù)百G,甚至到Tbit級別,需要足夠大的網(wǎng)絡帶寬進行傳送。
(2)高擴展性:隨著企業(yè)數(shù)據(jù)業(yè)務量的迅速增加,存儲容量每年都要高速擴展;
(3)高實時性:實時性是數(shù)據(jù)存儲業(yè)務的一個基本要求,舉一個我們?nèi)粘I钪械睦泳涂梢悦靼走@一點:我們到銀行存錢的時候,都希望這筆錢能夠?qū)崟r到賬,稍有滯后我們都會無法容忍;
(4)高可靠性:對企業(yè)來說,關鍵業(yè)務數(shù)據(jù)的丟失是難以容忍的;
(5)接口多樣性:雖然目前主流的接口類型是FC(Fiber Channel),但數(shù)據(jù)存儲網(wǎng)絡依然存在多種協(xié)議共存的情況,導致網(wǎng)絡存在多種類型的接口,包括ESCON、FICON、IP等,甚至還有ATM、SDH接口類型。另外,現(xiàn)在各主流存儲廠商如IBM、EMC、Hitachi、HP等,提供的接口也不完全兼容。這些情況導致了數(shù)據(jù)存儲業(yè)務接口類型不統(tǒng)一、多種接口并存的狀況。
災難類型不同,應對的策略也不盡相同。對于機房內(nèi)事件,可以在本地數(shù)據(jù)中心完成災難恢復;對于建筑物災難,需要通過同城災備中心完成災難恢復;而對于區(qū)域性災難,則需要通過異地災備系統(tǒng),對業(yè)務運營進行保障。比較典型的方式比如華為的“兩地三中心”方案,即設立主數(shù)據(jù)中心、同城災備中心和異地災備中心。
本地數(shù)據(jù)中心通過雙機熱備、本地備份、CDP這些在線/近線的數(shù)據(jù)保護手段完成機房內(nèi)事件的災備。
同城災備中心方案顧名思義是指在同一個城市中部署的災備中心,能實現(xiàn)數(shù)據(jù)的同城實時備份和業(yè)務的實時倒換,保證業(yè)務的連續(xù)性。同城實時備份可保證主數(shù)據(jù)中心和災備中心的數(shù)據(jù)完全一致,達到最高的數(shù)據(jù)保護級別,尤其適合于核心和關鍵業(yè)務,如要求RPO/RTO接近于零的應用。因此,同城災備對網(wǎng)絡的性能和穩(wěn)定性要求較高,如高帶寬和低延時,目前主流的傳送網(wǎng)技術是DWDM技術。
首先,DWDM具有超大的帶寬及較強的擴展能力,特別適合數(shù)據(jù)存儲業(yè)務帶寬需求巨大、后續(xù)帶寬擴展頻繁的應用場景。DWDM是一個多波長的傳送系統(tǒng),傳送帶寬巨大,并可靈活擴展。目前,業(yè)界主流的DWDM系統(tǒng)是40/80波。如果每個波長傳送10G的帶寬,那么80個波長可傳送的帶寬將達到800G;如果每個波長傳送40G的帶寬,那么80個波長可傳送的帶寬將達到3.2T;如果每個波長傳送100G的帶寬,那么單根光纖將可實現(xiàn)8T的海量傳送帶寬。
DWDM可以根據(jù)帶寬需求的增長靈活地增加波長數(shù)。比如,目前有80G的存儲數(shù)據(jù)要從生產(chǎn)中心傳送到備份中心,那么DWDM系統(tǒng)只需要采用8個波長;如果后續(xù)又有40G的數(shù)據(jù)需要備份傳送,則只需在DWDM系統(tǒng)上再增加4個波長,從DWDM設備角度來說,只需增加4塊板卡即可。
其次,DWDM作為一種成熟的技術形態(tài),在網(wǎng)絡安全、可靠性方面已非常完備。DWDM不但具有光線路層面的保護措施,而且具有業(yè)務接入層面的完善保護措施,完全可以滿足數(shù)據(jù)存儲業(yè)務的災備網(wǎng)絡在高安全性、高可靠性等方面的要求。
第三,經(jīng)過多年的發(fā)展,DWDM已能支持當前所有主流的存儲業(yè)務接口。只要DWDM設備廠商與主流存儲設備廠商做過對接認證測試,DWDM系統(tǒng)將能滿足數(shù)據(jù)災備系統(tǒng)對接口多樣化的需求,華為是目前為止通過與主流存儲及服務器廠商認證測試最多的光傳輸廠商。
異地災備中心方案是把數(shù)據(jù)備份到相對較遠的城市,跨越地質(zhì)災害半徑,能消除地震等地質(zhì)災害對業(yè)務數(shù)據(jù)的破壞,可采用MSTP、WDM等技術構建異地災備系統(tǒng)。
MSTP作為一種成熟的傳輸技術,支持幾乎所有的以太網(wǎng)和存儲業(yè)務接口類型,完全可以滿足災備系統(tǒng)接口多樣性的需求。
MSTP在網(wǎng)絡可靠性方面已非常成熟。異地災備系統(tǒng)采用兩套設備和主備路由保護等物理隔離方式,可以實現(xiàn)業(yè)務網(wǎng)絡、核心單板“雙重”保護,確保異地災備網(wǎng)絡的私有性和安全性。
目前,業(yè)界主流MSTP廠商比如華為等都支持線路側(cè)采用彩光模塊,可以跟WDM設備直接連接,減少故障點,進一步提高網(wǎng)絡可靠性。
5 結束語
信息數(shù)據(jù)對企業(yè)發(fā)展至關重要,災備系統(tǒng)建設是企業(yè)信息化的一個必要進程。隨著技術的不斷發(fā)展和相應法律的不斷完善,全球范圍內(nèi)將會掀起數(shù)據(jù)災備傳送網(wǎng)絡的建設熱潮。