Mary Shacklett
2018年9月4日,微軟Azure云服務(wù)由于數(shù)據(jù)中心冷卻問題而導(dǎo)致突然中斷,影響了美國中南部的很多用戶。一位IT專業(yè)人士表示:“微軟Azure云服務(wù)在當(dāng)天的大部分時間一直處在宕機(jī)中斷的狀態(tài)。雖然我們是一家全國性的公司,但所有的流量都經(jīng)過德克薩斯州的達(dá)拉斯,所以我們公司的業(yè)務(wù)受到了很大影響——它導(dǎo)致我們的許多業(yè)務(wù)流程放緩。”
作為一家領(lǐng)先的公共云服務(wù)提供商,微軟Azure這次的宕機(jī)中斷事件并不是孤例。谷歌云和亞馬遜AWS的云平臺都經(jīng)歷過停機(jī)中斷的事件,對他們的用戶造成了不利影響。
通過這樣的事例企業(yè)應(yīng)當(dāng)意識到,如果尚未修改基于云計算的災(zāi)難恢復(fù)計劃,那么應(yīng)當(dāng)需要立即實施。
迫在眉睫
“到目前為止,我們還沒有考慮修改自己的災(zāi)難恢復(fù)計劃。”美國西海岸的一家金融服務(wù)公司的一位IT經(jīng)理表示,“當(dāng)我們回顧與云計算供應(yīng)商簽署的合同時,我們發(fā)現(xiàn)幾乎所有合同都包含免責(zé)聲明條款,即如果發(fā)生災(zāi)難,云計算提供商將不會對其服務(wù)的安全性或數(shù)據(jù)恢復(fù)服務(wù)等級協(xié)議(SLA)負(fù)責(zé)。而這真的讓我們感到擔(dān)憂?!?/p>
對于使用軟件即服務(wù)(SaaS)供應(yīng)商而又依賴第三方云計算提供商來托管其服務(wù)的企業(yè)而言,這種擔(dān)心將會進(jìn)一步加劇。
當(dāng)SaaS公司使用的第三方云計算提供商的服務(wù)在遇到宕機(jī)中斷時會發(fā)生什么?“這種情況很少發(fā)生,我們會讓客戶與我們的云計算提供商保持聯(lián)系?!奔又菀患襍aaS公司的一名高管表示。
不幸的是,如果企業(yè)正在經(jīng)歷一場災(zāi)難,可能發(fā)現(xiàn)自己的第三方服務(wù)商并沒有安全責(zé)任。因此,將業(yè)務(wù)遷移到云中的企業(yè),必須以不同的方式思考。
災(zāi)備策略
專為內(nèi)部計算而設(shè)計的災(zāi)難恢復(fù)計劃與云計算的應(yīng)用并不同步,云計算需要考慮諸如系統(tǒng)和數(shù)據(jù)復(fù)制,與供應(yīng)商的協(xié)作測試,以及甚至故障轉(zhuǎn)移到備用供應(yīng)商等策略。
以下是用于修改云計算災(zāi)難恢復(fù)計劃的最佳實踐的7個建議。
定期備份和復(fù)制系統(tǒng)和數(shù)據(jù)
網(wǎng)絡(luò)基礎(chǔ)設(shè)施供應(yīng)商Saalex IT公司銷售總監(jiān)Michael Flavin說:“目前很多企業(yè)并沒有考慮到云計算的巨大風(fēng)險。企業(yè)可以保護(hù)自己免受云中斷的方法之一是通過對其系統(tǒng)和數(shù)據(jù)進(jìn)行安全備份,以便可以實施故障轉(zhuǎn)移。這可以通過定期將數(shù)據(jù)復(fù)制到第二個備份數(shù)據(jù)中心來實現(xiàn)?!?/p>
了解停機(jī)期間還原系統(tǒng)的順序
在原有的數(shù)據(jù)中心時代,需要確定哪些系統(tǒng)在停機(jī)期間必須首先恢復(fù),以及之后的哪些系統(tǒng)恢復(fù)相對來說比較簡單。而更容易確定的原因是所有這些系統(tǒng)都在企業(yè)自己的直接控制之下。
混合計算的情況并非如此,其中應(yīng)用程序和數(shù)據(jù)可以從一個云平臺移動到另一個云平臺,或者在云平臺和內(nèi)部部署數(shù)據(jù)中心之間移動。超過半數(shù)的企業(yè)領(lǐng)導(dǎo)者認(rèn)為組織之間的溝通可以幫助他們實現(xiàn)這樣的愿景。
“當(dāng)客戶與我們溝通合作時,我們做的第一件事就是與他們確定哪些系統(tǒng)需要先恢復(fù)。然后我們進(jìn)行測試,以確?;謴?fù)工作的真正有效?!被旌螴T解決方案提供商US Signal公司云計算工程和研發(fā)總監(jiān)Derrin Rummelt說。
了解恢復(fù)順序以及不同系統(tǒng)和數(shù)據(jù)組的運行和存儲位置對于企業(yè)來說至關(guān)重要。這是因為在某些情況下,可能需要采用另一個云平臺或數(shù)據(jù)中心來完成系統(tǒng)的功能。因為即使其中一個資源不可用,企業(yè)的災(zāi)難恢復(fù)也會受到威脅。隨著應(yīng)用程序和數(shù)據(jù)的修改,這將變得更加復(fù)雜,因為很多企業(yè)無法重新測試新的修改是否會引入額外的風(fēng)險。因此,災(zāi)難恢復(fù)不再有效。
定期測試災(zāi)難恢復(fù)計劃
即使企業(yè)的系統(tǒng)和數(shù)據(jù)保持相對不變,也始終存在風(fēng)險,也就是云計算供應(yīng)商為用戶提供的基礎(chǔ)設(shè)施和平臺可能會引入新的更改,這些更改會影響用戶自己的系統(tǒng)和數(shù)據(jù)的性能。防止這種情況發(fā)生的唯一方法是每年與云計算供應(yīng)商一起測試災(zāi)難恢復(fù)計劃,以確?;謴?fù)確實有效。
Saalex公司的Flavin說:“一家公司可以在其IT中使用多個SaaS、PaaS和IaaS云平臺。通過定期測試這些系統(tǒng),甚至通過復(fù)制,也可以確保每個云場景中的災(zāi)難恢復(fù)都能正常運行。”
那么,這些用戶能切實地完成這項任務(wù)嗎?“我們最近對一些企業(yè)進(jìn)行了一項調(diào)查,34%的受訪者表示他們每年都會測試災(zāi)難恢復(fù)計劃?!泵绹鳶ignal公司產(chǎn)品和服務(wù)執(zhí)行副總裁Amanda Regnerus表示,“30%的受訪者表示他們每六個月測試一次災(zāi)難恢復(fù)計劃,40%的受訪者表示他們每兩年或更長時間測試一次災(zāi)難恢復(fù)計劃。而這些公司的災(zāi)難恢復(fù)狀況有些令人擔(dān)憂。”
定義災(zāi)難恢復(fù)目標(biāo)
隨著持續(xù)復(fù)制技術(shù)的采用和災(zāi)難恢復(fù)專業(yè)化,推動了更多災(zāi)難恢復(fù)即服務(wù)(DRaaS)公司的發(fā)展和成長,對于那些計劃為其混合計算環(huán)境進(jìn)行災(zāi)難恢復(fù)的公司來說,可以獲得更多可用的幫助。
但是,如果沒有定義災(zāi)難恢復(fù)目標(biāo),則這些幫助都不會非常有效。
提供虛擬復(fù)制服務(wù)的Zerto公司技術(shù)傳播者Steve Blow說:“我們?yōu)槠髽I(yè)提出的建議是,根據(jù)其IT環(huán)境的規(guī)模和正在運行的工作負(fù)載類型,為數(shù)據(jù)設(shè)定一個30秒以下的恢復(fù)點目標(biāo)(RPO),以及幾分鐘到一小時之間的恢復(fù)時間目標(biāo)(RTO)?!?/p>
管理供應(yīng)商的關(guān)系
“在許多方面,用戶還沒有很好地管理與供應(yīng)商之間的關(guān)系?!币患铱偛课挥诿绹骱0豆镜腎T經(jīng)理表示,“我們還沒有仔細(xì)研究合同,還沒有與供應(yīng)商討論服務(wù)等級協(xié)議(SLA),我們從未測試過災(zāi)難恢復(fù),盡管我們知道他們在全國各地都設(shè)有數(shù)據(jù)中心?!?/p>
這樣的案例還有很多。除非是擁有專職合同管理人員的大型企業(yè),否則用戶的不堪重負(fù)的IT人員可能難以跟蹤供應(yīng)商或花費時間維護(hù)與供應(yīng)商的良好關(guān)系,這可能有助于災(zāi)難恢復(fù)規(guī)劃和執(zhí)行。
“我們與云計算服務(wù)提供商合作的一件事就是每年與他們溝通交流。也會定期與他們商討,以確定共同策略,并討論和解決問題?!狈?wù)于零售業(yè)的SaaS公司Island Pacific公司首席技術(shù)官Benjamin Baghdadi說,“這確實幫助我們與云計算提供商建立了密切的合作關(guān)系,讓我們知道他們會在災(zāi)難中迅速做出回應(yīng)?!?/p>
選擇擁有并運營自己的數(shù)據(jù)中心的SaaS供應(yīng)商
當(dāng)用戶與云計算供應(yīng)商進(jìn)行合作以獲取SaaS解決方案時,建議邀請書(RFP)的關(guān)鍵點應(yīng)該是他們是否擁有并運營自己的云計算數(shù)據(jù)中心。擁有和運營其解決方案所運行的云平臺的SaaS運營商在災(zāi)難恢復(fù)方案中是一個更好的選擇,因為如果發(fā)生服務(wù)中斷的事件,云計算供應(yīng)商就應(yīng)該對故障負(fù)全部責(zé)任。
管理風(fēng)險
為混合云環(huán)境調(diào)整災(zāi)難恢復(fù)計劃的最后一個要素是風(fēng)險管理。
當(dāng)一位IT專業(yè)人士被問及企業(yè)管理層如何評估進(jìn)入云端的風(fēng)險時,他說:“我認(rèn)為高層管理人員將會非常謹(jǐn)慎地權(quán)衡風(fēng)險與成本,但可能傾向于節(jié)省成本。”
權(quán)威機(jī)構(gòu)的一項調(diào)查結(jié)果表明,三分之二的公司采用云計算的原因主要是因為可以節(jié)省成本。
這就強(qiáng)調(diào)了為什么云計算策略還必須包括與企業(yè)管理層和組織董事會進(jìn)行良好溝通的原因,即向云平臺遷移業(yè)務(wù)也為用戶帶來了不能獲得完全控制的新風(fēng)險,尤其是當(dāng)涉及災(zāi)難恢復(fù)時。
如果企業(yè)的管理層已經(jīng)了解這些風(fēng)險,并且已相應(yīng)地重新調(diào)整了災(zāi)難恢復(fù)計劃,那么他們應(yīng)該對自己的云計算戰(zhàn)略感到更加安全。