于 天
2007年11月1日正式實施的國標《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007,以下簡稱《規(guī)范》)是我國目前較為實用的關于災難恢復建設的標準,對各企業(yè)進行災備建設具有重要的指導意義。該標準的內容完全符合國際流行的BCM(業(yè)務連續(xù)性管理)最佳慣例。然而,中國標準通常有個特點,就是篇幅短小,條款簡潔,文字精練。如果沒有對標準進行配套的宣傳解釋和相應的理論培訓,標準在貫徹執(zhí)行時就難免遇到一些問題。
建立組織機構
國標中明確要求設立災難恢復組織機構,通常包括災難恢復領導小組、災難恢復規(guī)劃小組、災難恢復運維小組。這充分反映了我國的災難恢復建設國家標準的先進性和科學性,也是中國標準與國際慣例相結合的體現(xiàn)。
然而目前許多單位對這三個小組的建立,在理解和執(zhí)行上都存在不同程度的不足。
關于領導小組因為災難恢復的最終目標就是恢復業(yè)務的運行,所以整個災難恢復活動與全企業(yè)各個部門都緊密相關。因此,如何使各部門都積極參與災難恢復的建設過程,有效地協(xié)調各部門的資源,是災備建設成敗的關鍵環(huán)節(jié)。因此,成立一個強有力的領導小組來調動、分配和協(xié)調各種資源就顯得非常重要。
但是許多單位對高管層領導參與災難恢復建設工作的重要性認識不足,在成立災備領導小組時,參與的人員級別并不夠高,或者雖有高管層人員參與,卻只是掛名,并不參與實際工作。另外,某些單位的災難恢復領導小組在災備系統(tǒng)規(guī)劃建設完成后,人員就發(fā)生變化,災難恢復領導小組實際只是一個臨時性的組織。
關于規(guī)劃小組 規(guī)劃小組具體負責災難恢復建設的項目規(guī)劃、需求分析、策略選擇、設計實施、DRP制定和演練等工作。這些工作涉及到整個企業(yè)的各個業(yè)務部門及技術、行政和后勤保障相關部門,因此,規(guī)劃小組的人員組成是一個非常關鍵的環(huán)節(jié),他們必須覆蓋所有相關的部門,而且必須指定專人配合。
然而,很多單位的規(guī)劃小組成員往往以IT部門的人員為主,基本上沒有各業(yè)務部門的人員參與,這就使得規(guī)劃小組在進行項目規(guī)劃、需求分析等工作時,很難調動各種資源,自然也無法充分地分析各種數(shù)據(jù),得出客觀合理的需求結果,更無法協(xié)調所需災備需求資源。這樣,很難保證災難恢復建設的順利進行,也無法保證所建成的災備系統(tǒng)真正有效。
關于維護小組維護小組也就是災難恢復日常運行小組,主要負責災備中心的日常運維、技術支持、DRP維護,以及事發(fā)時的控制和評估、執(zhí)行業(yè)務恢復等。維護小組也不應該只是由IT部門的人員組成。事實上,IT人員只是側重于系統(tǒng)和技術的維護,整個小組還應該有負責業(yè)務功能和流程、應急響應、安保的人員,同時還要有行政后勤人員參與。
但目前各單位的災難恢復維護小組通常主要都是由IT部門的人員組成,這必然給DRP的日常維護及事發(fā)時的啟動埋下隱患。
有效確定需求
通常人們認為災難恢復建設的第一步是確定災難恢復需求,然后才能決定恰當?shù)慕鉀Q方法——災難恢復策略。但在現(xiàn)實中,我們常常發(fā)現(xiàn)災備項目小組歷盡千辛萬苦整理出來的需求分析報告和制定出來的相關災備策略,在最后評審時卻發(fā)現(xiàn)需求分析的結果與實際業(yè)務需求有偏差,只能重新開始。造成這種現(xiàn)象的主要原因并非小組人員不夠努力,也不完全是業(yè)務部門配合不夠,而是缺少一個完善的災難恢復組織機構來保證災難恢復需求分析工作的順利進行。
走出策略誤區(qū)
《規(guī)范》中給出了制定災難恢復策略的七要素,以及根據(jù)這七個要素對災難恢復能力劃分的六個等級,這無疑為各單位制定災難恢復策略提供了一個很好的參考指南。
然而在實際工作中,人們常常還是會陷入某些誤區(qū)。比如說:過分注重災難恢復的技術方案,而忽視了整個業(yè)務恢復流程的有效性,造成技術支持的RTO值(反映所允許的中斷時間)要求很高(這造成投資大大增加),而整個恢復流程的RTO值所滿足的要求并不太高。還有些單位混淆對RPO(反映所允許丟失的數(shù)據(jù)量)的要求與對RTO的要求。許多單位對RPO要求很高,這是可以理解的(尤其是關系到國計民生的業(yè)務),但對RTO值的要求卻不一定很高(如零中斷)。譬如,發(fā)生重大災難時,銀行的自動取款業(yè)務允許中斷幾小時,但客戶存款數(shù)據(jù)卻不能有任何丟失。做到零丟失是完全可能的,而要做到零中斷卻是較難的,有時即使技術上做到了,業(yè)務流程也不可能做到。
考慮災難恢復策略時應該更多地關注整個業(yè)務的恢復流程,而不僅是注重技術方案——最好的技術方案并不一定是技術指標最高的,而是從整個業(yè)務恢復流程來看是最合理的。因此,對各種恢復策略進行成本效益分析時也應從整個業(yè)務流程來考慮,這樣才可能得出合理的業(yè)務恢復RTO值,并選擇合理的災難恢復策略。
加強演練和培訓
雖然大多數(shù)企業(yè)在制定了災難恢復計劃(DRP)后都清楚應該進行認知培訓、測試演練及維護更新,《規(guī)范》中對這些提出了明確的要求。但是在實際執(zhí)行中,多數(shù)企業(yè)在這方面做得不全面。這主要表現(xiàn)在以下幾個方面:
其一,對認知活動不夠重視。雖然大多數(shù)企業(yè)完成DRP后會進行相關的培訓,但培訓人員的覆蓋面不夠廣,還有很多應該了解DRP的人并未得到相應的培訓,而對全體員工的災難恢復認知宣傳就更加不足,這必會影響事發(fā)時DRP的啟動和執(zhí)行效果。
其二,演練不夠充分。許多單位雖然對災難恢復系統(tǒng)進行了一定的測試,但普遍缺乏對計劃流程和人員進行充分的演練,這就無法確保DRP的有效性。
其三,維護更新不及時。由于演練不夠充分,所制定的DRP中存在的問題就無法及時暴露出來,也就不能及時改進。此外,由于災難恢復組織機構不夠完善,企業(yè)內部發(fā)生的變更可能得不到及時反映,也就無法對DRP進行相應的更新。另外,由于目前我國尚缺乏強制性的相關法規(guī),無法對DRP提出強制性的審計要求,而企業(yè)的自查有時會流于形式,這也使得DRP不能得到定期的有效更新。
BCM是最佳方法
解決以上所述災難恢復建設中遇到的各種問題的最佳方法是BCM。BCM是專門幫助組織機構應對災難的一體化管理方法。相對于應對公共突發(fā)事件的問題,BCM主要是解決組織機構自身應對災難的問題。BCM方法論的核心內容被歸納為10個國際最佳慣例。
項目啟動與管理:確定BCM項目需求,獲得高管層的支持,建立BCM組織機構及各小組人員的責任,明確BCM項目的范圍,確定計劃編制時間表等。
風險評估和控制:識別可能的威脅和風險,確定應采取的控制措施等。
業(yè)務沖擊分析(BIA):確定關鍵業(yè)務功能和流程,確定RTO和RPO,以及確定互依賴性及優(yōu)先級別等。
制定業(yè)務持續(xù)策略:根據(jù)BIA的結果制定恢復策略(包括企業(yè)級和部門級策略),進行成本效益分析,選擇最佳的策略等。
應急響應和措施:制定和貫徹執(zhí)行用于事件發(fā)生后進行響應并使狀態(tài)得到穩(wěn)定的流程(應急預案),建立和管理緊急運行中心,該中心作為緊急情況時期的指揮中心。
編制和貫徹執(zhí)行業(yè)務持續(xù)計劃:設計、編制和貫徹執(zhí)行業(yè)務持續(xù)計劃以提供滿足恢復時間目標(RTO)和恢復點目標(RPO)的業(yè)務持續(xù)。
認知和培訓計劃:制定相關的計劃,對相關人員進行培訓,使其掌握必要的技能來執(zhí)行BC/DR計劃,并對全體員工進行BCM認知教育,從而將BCM融入到整個企業(yè)的文化中去。
維護及演練業(yè)務持續(xù)計劃:制定測試計劃,以測試系統(tǒng)和技術的可靠性;制定演練計劃,以檢驗BC計劃流程和人員行為的有效性;對測試和演練結果進行評價并提出改進意見;制定計劃維護和更新的流程。
危機溝通:制定、協(xié)調、評估和演練危機溝通計劃,這些計劃用于與各類利益相關者、外部機構、以及媒體等的溝通。
與外部機構的協(xié)調:建立適當?shù)牧鞒毯陀媱潄砼c外部機構進行協(xié)調,從而完成持續(xù)和恢復活動,同時確保符合相應的法令法規(guī)要求。
這十個最佳慣例包含了任何組織機構為應對災難所應做的各項工作(包括預案制定、貫徹執(zhí)行、演練維護及認知培訓等等),按照這十個最佳慣例制定的各種預案覆蓋了災難恢復的六個階段(6R模型):
1.減小(Reduce):事件發(fā)生前為預防災難的發(fā)生所應做的準備工作。
2.響應(Respond):事件發(fā)生時,按照計劃進行響應和評估。
3.恢復(Recover):按照優(yōu)先級別啟動相應的恢復計劃來使相關流程和支持功能恢復到穩(wěn)定的運行狀態(tài)。
4.重啟(Resume):按照優(yōu)先級別重新啟動事先確定的關鍵業(yè)務運行。
5.重建(Restore):災難過去后,執(zhí)行相關程序修復或重建永久站點及其內容,并重建原來的正常運行。此時的業(yè)務運行通常是在后備(或臨時)中心進行。
6.返回(Return):按計劃將后備(或臨時)中心的業(yè)務運行返回到永久站點。
以上這六個階段形成了一個完整的災難恢復生命周期,如左圖所示。
可以看出,BCM的主要內容(十個國際最佳慣例及6R模型)完全與國家標準 《信息系統(tǒng)災難恢復規(guī)范》的要求相一致。事實上,《規(guī)范》中對災難恢復建設的基本要求正是參照BCM的國際最佳慣例提出的,這是因為企業(yè)的DRP本來就屬于企業(yè)業(yè)務連續(xù)性計劃(BCP)的一部分,可將DRP看作是一種專門針對IT服務業(yè)務的BCP,而且DRP的制定與BCP的制定在方法上也是基本一致的。一個完整的DRP和BCP都應該包含6R模型中各階段所需的程序和計劃(預案)。因此,參照BCM的方法論來制定災難恢復建設的標準是非常合理的。