湯小蘋
由于銀行業(yè)在國民經(jīng)濟中的戰(zhàn)略定位及其服務(wù)敏感性,其業(yè)務(wù)連續(xù)性計劃(BCP)對于保證銀行持續(xù)經(jīng)營能力有著特殊重要的意義。本文結(jié)合國內(nèi)銀行業(yè)的實際情況,從IT管理者的角度出發(fā),對銀行業(yè)業(yè)務(wù)連續(xù)性計劃的定位、制定、演練等做了一個初步的探討
BCP計劃的制定首先要明確本行面臨的風(fēng)險,包括自然風(fēng)險、人為風(fēng)險、硬件類型風(fēng)險、應(yīng)用類型風(fēng)險;并對風(fēng)險可能造成的損失進行評估,以指導(dǎo)后續(xù)應(yīng)對計劃的制定。
其次根據(jù)本行的實際情況,決策本行BCP計劃的目標(biāo)和指標(biāo);
然后根據(jù)目標(biāo)和指標(biāo),通過技術(shù)手段和管理手段,明確整個BCP計劃貫徹涉及到的組織結(jié)構(gòu)、職責(zé)分工、技術(shù)體系、演練和維護環(huán)節(jié)等,保證整個計劃的可落實性、可管理性、可維護性。
1、基本過程分析
1.1七級容災(zāi)和七級恢復(fù)
據(jù)國際標(biāo)準(zhǔn)SHARE78的定義,災(zāi)難恢復(fù)解決方案可根據(jù)以下主要方面所達到的程度分為七級,即從低到高有七種不同層次的災(zāi)難恢復(fù)解決方案。
0層-沒有異地數(shù)據(jù)
1層-PTAI卡車運送訪問方式
2層-PTAM卡車運送訪問方武+熱備份中心
3層-電子鏈接
4層-話動狀態(tài)的備份中心
5層-兩個活動的數(shù)據(jù)中心
6層-O數(shù)據(jù)丟失,自動系統(tǒng)故障切換
同樣的,七級恢復(fù)包括:
O層:無異地備份數(shù)據(jù)
1層:有數(shù)據(jù)備份,無備用系統(tǒng)
2層:有數(shù)據(jù)備份,有備用系統(tǒng)
3層:電子鏈接
4層:使用快照技術(shù)拷貝數(shù)據(jù)
5層:交易的完整性
6層:少量或無數(shù)據(jù)丟失
7層:解決方案與具體業(yè)務(wù)相結(jié)合,實現(xiàn)自主管理
1.2業(yè)務(wù)連續(xù)規(guī)劃基本方面
本業(yè)務(wù)連續(xù)性規(guī)劃包括以下幾個方面的主要部分:
災(zāi)難類型分析
業(yè)務(wù)沖擊分析
當(dāng)前業(yè)務(wù)環(huán)境及恢復(fù)能力分析
容災(zāi)策略制訂
容災(zāi)方案設(shè)計
業(yè)務(wù)連續(xù)性流程設(shè)計
業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測試
其過程如下圖所示,是一個周而復(fù)始的過程,隨著銀行內(nèi)部環(huán)境的變化隨時靈活變化
階段一、災(zāi)難類型分析(風(fēng)險分析)
在本階段,需要進行詳細而量化的風(fēng)險分析,以確定當(dāng)前IT環(huán)境之中存在哪些無法接受的物理威脅或者可能發(fā)生的災(zāi)難,并對災(zāi)難發(fā)生的可能性、目前可能的防護措施的有效性和該災(zāi)難所威脅的資產(chǎn)價值進行分析,最終得到帶有優(yōu)先級別的需要防護的災(zāi)難列表,并制訂可能的處理方法,如接受該災(zāi)難發(fā)生的風(fēng)險而不進行防護、自行制訂該災(zāi)難的防護方法或者采取購買保險等風(fēng)險轉(zhuǎn)嫁策略。
階段二、業(yè)務(wù)沖擊分析
在本階段,應(yīng)該針對各種業(yè)務(wù)流程進行分析,通過走訪各業(yè)務(wù)部門的相關(guān)人員,了解各種業(yè)務(wù)流程本身對該銀行的重要程度。(例如在銀行業(yè)里,儲蓄和單據(jù)、網(wǎng)上支付、電話銀行等業(yè)務(wù)就具有不同的優(yōu)先等級。)同時根據(jù)一定的評判原則,得出在核心流程由于災(zāi)難的發(fā)生而無法正常進行時對銀行本身的損失情況。這種損失可能是可以量化的,例如單據(jù)的丟失、計算的錯誤而導(dǎo)致的直接損失;也可以是無形的損失,例如客戶滿意度及競爭優(yōu)勢的丟失。通過對可量化和不可量化損失的綜合考慮,得出各種核心業(yè)務(wù)流程由于災(zāi)難受損的可容忍程度及損失的決策依據(jù)。體現(xiàn)在IT系統(tǒng)上,是三個指標(biāo)
數(shù)據(jù)恢復(fù)點目標(biāo)(RECOVERY POINTOBJECTIVE):體現(xiàn)為該流程在災(zāi)難發(fā)生后,恢復(fù)運轉(zhuǎn)時數(shù)據(jù)丟失的可容忍程度;
恢復(fù)時間目標(biāo)(RECOVERY TIMEOBJECTIE):體現(xiàn)為該流程在災(zāi)難發(fā)生后,需要恢復(fù)的緊迫性也即多久能夠得到恢復(fù)的問題;
網(wǎng)絡(luò)恢復(fù)目標(biāo)(NETWORK RECOV—ERY OBJECTIVE):即營業(yè)網(wǎng)點什么時候才能通過備份網(wǎng)絡(luò)與數(shù)據(jù)中心重新恢復(fù)通信的指標(biāo);
階段三、容災(zāi)環(huán)境分析
本階段主要針對業(yè)務(wù)沖擊分析的結(jié)果,對目前的內(nèi)部環(huán)境進行評估,得出與恢復(fù)目標(biāo)之間的差距。分析的對象為業(yè)務(wù)流程需要的資源,如IT環(huán)境等。通過本階段的工作,得出各業(yè)務(wù)流程所牽涉的銀行資產(chǎn)及資源(人力資源、IT架構(gòu)、技術(shù)儲備、技術(shù)使用程度、網(wǎng)絡(luò)環(huán)境等),并分析得出目前的業(yè)務(wù)環(huán)境對客災(zāi)需求、冗余程度、可能造成的數(shù)據(jù)損失是否能夠支持等方面的報告。
階段四、容災(zāi)策略制訂
在本階段,結(jié)合以上各階段的分析成果,以及銀行本身在容災(zāi)上的投入能力,制訂銀行短期、長期范圍內(nèi)的容災(zāi)策略和目標(biāo),并有意識地將銀行本身的人員組成和組織架構(gòu)做出調(diào)整以適應(yīng)策略要求。最重要的是制訂出容災(zāi)實施步驟,優(yōu)先解決最為重點的問題。
階段五、容災(zāi)方案設(shè)計
容災(zāi)方案可供選擇的范圍很大,但所有的容災(zāi)方案都必須考慮的因素包括恢復(fù)時間、實施與維護容災(zāi)策略所需的投入等。容災(zāi)恢復(fù)時間的需求越短,所需的實施成本就越大,實施難度也就越高。
階段六、業(yè)務(wù)連續(xù)性流程設(shè)計
有了IT系統(tǒng)的恢復(fù)方案,只能夠保證在災(zāi)難環(huán)境下,IT系統(tǒng)的恢復(fù)能夠保證業(yè)務(wù)沖擊分析的目標(biāo),但是業(yè)務(wù)的連續(xù)性并不只是IT系統(tǒng)的恢復(fù),還包括辦公場地、辦公設(shè)備、緊急流程、指揮架構(gòu)、人員調(diào)度等等多方面、各部門的綜合考慮。只有業(yè)務(wù)流程執(zhí)行過程的每一個環(huán)節(jié)都達到容災(zāi)目標(biāo)的要求,才能夠認(rèn)為業(yè)務(wù)沖擊分析的目標(biāo)得到了滿足。一般來說,每個銀行都應(yīng)該設(shè)立一個由領(lǐng)導(dǎo)掛帥,各業(yè)務(wù)部門和IT部門聯(lián)合組成的一個容災(zāi)指揮小組:由該小組指揮,IT部門和業(yè)務(wù)部門分別執(zhí)行,IT恢復(fù)計劃和業(yè)務(wù)連續(xù)性計劃才能得到同步,從而達到容災(zāi)設(shè)計的目標(biāo)。
階段七、業(yè)務(wù)連續(xù)性流程及容災(zāi)方案管理和測試
任何制訂的計劃,都必須經(jīng)過不斷的測試和修正,才能滿足銀行不斷發(fā)展的需求。同時,通過測試過程,也能夠使銀行內(nèi)部各部門及人員熟悉自己在業(yè)務(wù)連續(xù)性計劃中所扮演的角色,做到胸有成竹,才能夠在災(zāi)難真正發(fā)生的時刻有條不紊地開展恢復(fù)的過程。
2、步驟一:危險評估和定義
2.1分類
危險評估的主要目的是從IT管理者角度出發(fā),對于本行可能遇到的危險進行評估和分類,并提出應(yīng)對方向和原則。
我們將危險劃分為自然災(zāi)害類型危險、人為類型危險、硬件類型危險、應(yīng)用軟件類型危險。
對于每類危險應(yīng)該明確其類別、危險程度、發(fā)生可能性、主要預(yù)防和預(yù)防措施。
例如針對應(yīng)用軟件類型,我們可以定義:
2.2業(yè)務(wù)影響分析
失效損害定義:業(yè)務(wù)分析影響主要是針對各類危險進行綜合評估,對我行功能影響進行評估,從而指導(dǎo)BCP目標(biāo)的制定。
首先,需要定義基本功能表。此表對IT系統(tǒng)進行全面整理,區(qū)分系統(tǒng)內(nèi)交易和系統(tǒng)外交易,并且對其失效后可能造成的損害做一個評估。評估可以按照交易發(fā)生頻率、交易失效后人替代交易或者人工交易是否可行、是否是關(guān)聯(lián)外系統(tǒng)的交易等等方面綜合考評,并精確定義失效損害。
其中對于特殊業(yè)務(wù)的渠道要特別注意,例如電話銀行業(yè)務(wù),其中的掛失業(yè)務(wù)作為非營業(yè)時間緊急口頭掛失的唯一途徑,其失效性質(zhì)是非常嚴(yán)重的。
允許失效定義:在上述失效損害定義的基礎(chǔ)上,結(jié)合本行的實際情況對允許失效的交易功能進行定義。
允許失效的功能可以劃分為以下兩類:(1)非基本必須業(yè)務(wù)。例如柜面通等業(yè)務(wù)。(2)可替代業(yè)務(wù)。通過其它途徑可以達到同樣目的的業(yè)務(wù)。例如借記卡行內(nèi)交易可以通過柜面完成、行內(nèi)資金管理業(yè)務(wù)可以通過手工傳單辦理等。
2.3新客戶業(yè)務(wù)。銀行在遭受巨大災(zāi)難的時候,首要目標(biāo)是保持現(xiàn)有客戶的基本服務(wù)功能,對于新客戶業(yè)務(wù)可以暫時不辦理。
2.4管理業(yè)務(wù)。主要是行內(nèi)管理業(yè)務(wù),可以通過手工方式予以辦理。
最大可承受/允許失效建義:進一步的在上述基礎(chǔ)上定義最大可承受/允許失效的功能。超出這個定義范圍之外的功能是必須保證的。這個定義規(guī)則和允許失效定義形成了兩層隔離,以便于針對不同情況作出不同安排,并確定BCP計劃承受的失效底線。
3、步驟二:BCP目標(biāo)制定
明確了系統(tǒng)功能范圍,對可允許失效功能和最大失效功能進行定義后,需要對業(yè)務(wù)恢復(fù)進行定義。
首先要定義業(yè)務(wù)恢復(fù)所需要的資源:
其次要定義業(yè)務(wù)恢復(fù)的順序和恢復(fù),時II間等要求。
業(yè)務(wù)恢復(fù)資源定義
業(yè)務(wù)的恢復(fù)涉及到硬件資源、系統(tǒng)軟件資源、應(yīng)用軟件資源、業(yè)務(wù)要素資源。我們針對每類必須恢復(fù)的業(yè)務(wù)分析其需要的上述備類資源,從而能明確在恢復(fù)時候的目標(biāo)。
例如對于網(wǎng)上銀行業(yè)務(wù),其需要的硬件資源有網(wǎng)上銀行WEB服務(wù)器、網(wǎng)銀應(yīng)用服務(wù)器、硬件防火墻、證書服務(wù)器、核心主機存儲網(wǎng)絡(luò)系統(tǒng)等;其需要軟件資源有網(wǎng)上銀行應(yīng)用平臺、證書服務(wù)軟件、安全代理軟件、系統(tǒng)軟件等。這樣就可以明確定義恢復(fù)時候的恢復(fù)序列及其操作步驟。
業(yè)務(wù)恢復(fù)等級和目標(biāo):針對我行定義四種功能恢復(fù)等級。分別是:
a)IT基礎(chǔ)一這是所有功能恢復(fù)的前提。他的恢復(fù)時效我們定位于2小時。
b)關(guān)鍵功能——如果這類功能被中斷或失效,就會徹底危及銀行的業(yè)務(wù)并造成嚴(yán)重?fù)p失。我們定義其恢復(fù)的時效為4小時。
c)必要功能
銀行可以繼續(xù)運營,但這些功能的失效會在很大程度上限制銀行的客戶服務(wù)效率,我們定位其恢復(fù)失效為1天。
d)有利功能——這些功能對銀行是有利的;它們的缺失不會影響銀行的運營能力;對于運行效率有影響,我們定位其恢復(fù)失效為3天。
影響分析可以確定各類業(yè)務(wù)功能的優(yōu)先順序,換句話說,也就確定了各業(yè)務(wù)功能的優(yōu)先恢復(fù)順序。在一次災(zāi)難之后恢復(fù)業(yè)務(wù)運營時,首先恢復(fù)部分功能就足夠了,比如說在24小時內(nèi)先恢復(fù)日常業(yè)務(wù)的40%就夠了。
除了確定恢復(fù)的時序、恢復(fù)最大允許的時間外,還需要精確定義每部恢復(fù)之間的相互依賴關(guān)系。例如核心應(yīng)用的恢復(fù)依賴中心主機、中心存儲、sAN網(wǎng)絡(luò)、中心網(wǎng)絡(luò)等IT基礎(chǔ)的恢復(fù)。
4、步驟三:實施和維護
4.1組織機構(gòu)
業(yè)務(wù)恢復(fù)所需要的組織機構(gòu)和日常業(yè)務(wù)辦理所需要的組織結(jié)構(gòu)不同。其關(guān)鍵在于:
(1)決策機構(gòu)。明確具體的決策機構(gòu),根據(jù)決策依據(jù)下達業(yè)務(wù)恢復(fù)指令。決策依據(jù)需要需要詳細描述災(zāi)難類型、災(zāi)難表現(xiàn)、啟動恢復(fù)的標(biāo)準(zhǔn)。
(2)在具體實施的時候,要將全行各人力資源進行重組,劃分為BCP領(lǐng)導(dǎo)小組、BCP管理小組、EDP執(zhí)行組三個層次。每個層次按照其具體職責(zé)決定其在業(yè)務(wù)恢復(fù)中的角色和權(quán)利。
上述關(guān)系如下圖所示:
4.2操作和演練
定義恢復(fù)時序表:在上述危險評估和定義、BCP目標(biāo)制定的基礎(chǔ)上,精確定義業(yè)務(wù)恢復(fù)的時序表。其基本原則IT基礎(chǔ)為第一環(huán)節(jié);關(guān)鍵功能為第二階段;必要功能為第三階段;有利功能為第四階段。每個階段內(nèi)在詳細劃分為不同的子目標(biāo),井明確順序、并發(fā)、交錯等時序關(guān)系。
定義操作手冊:針對恢復(fù)是續(xù)表中的每步恢復(fù)日標(biāo),定義恢復(fù)操作手冊,明確具體的操作方法。主要包括技術(shù)操作說明書、業(yè)務(wù)管理說明書、風(fēng)險防范措施等。
定義演練手冊:BCP計劃制定后,必須通過演練來使得全行各職能部門熟悉和掌握整個業(yè)務(wù)恢復(fù)的過程,同時檢驗各技術(shù)條件是否完備。否則只有計劃而沒有演練,將可能導(dǎo)致各種不可預(yù)料的后果。
演練計劃的制定要充分考慮的是和現(xiàn)有真實生產(chǎn)的關(guān)系。對于IT部門要仔細考慮演練技術(shù)環(huán)境和生產(chǎn)技術(shù)環(huán)境的關(guān)系;對于業(yè)務(wù)部門要仔細考慮演練賬務(wù)環(huán)境、管理手段和生產(chǎn)之間的差異。
演練需要準(zhǔn)備的預(yù)案和備案主要包括:
演練計劃
各部門、崗位操作手冊
主機環(huán)境表
存儲環(huán)境表
網(wǎng)絡(luò)環(huán)境表
用戶環(huán)境表
特殊管理憑證清單等等。