文/馬毅波
(優(yōu)刻得科技股份有限公司 上海市 200090)
隨著銀行業(yè)務(wù)快速發(fā)展和互聯(lián)網(wǎng)化的業(yè)務(wù)轉(zhuǎn)型創(chuàng)新,其產(chǎn)業(yè)呈現(xiàn)出多樣化、復(fù)雜化,業(yè)務(wù)范圍迅速膨脹,隨之而來(lái)的是IT信息化的步伐也就不斷加快,從以前核心賬務(wù)、卡系統(tǒng)、柜面系統(tǒng)三大核心轉(zhuǎn)變?yōu)橐蕾囉诨ヂ?lián)網(wǎng)綜合復(fù)雜的新一代銀行系統(tǒng),更多的業(yè)務(wù)從原來(lái)的5×8的運(yùn)行時(shí)間變?yōu)?×24小時(shí)365天不間斷服務(wù),然而IT信息系統(tǒng)本身面臨眾多安全隱患,小至一般性的硬件故障、人為誤刪除,大到區(qū)域性的自然災(zāi)害,都可能造成整個(gè)信息系統(tǒng)的癱瘓,銀行面對(duì)IT信息系統(tǒng)的風(fēng)險(xiǎn),通過(guò)構(gòu)建同城雙活災(zāi)備系統(tǒng),可以確保災(zāi)難發(fā)生時(shí),銀行能夠快速反應(yīng),盡快恢復(fù)業(yè)務(wù)系統(tǒng),降低損失,保障業(yè)務(wù)系統(tǒng)可持續(xù)性運(yùn)營(yíng)。
銀行建立災(zāi)備系統(tǒng)能夠提供業(yè)務(wù)連續(xù)性能力,能夠在銀行信息系統(tǒng)面臨災(zāi)難風(fēng)險(xiǎn)時(shí),快速應(yīng)對(duì)降低損失,結(jié)合之前國(guó)內(nèi)銀行建設(shè)災(zāi)備系統(tǒng)的項(xiàng)目經(jīng)驗(yàn),參考國(guó)家對(duì)銀行建設(shè)災(zāi)備系統(tǒng)的行業(yè)規(guī)范,銀行建設(shè)同城雙活災(zāi)備中心整體框架包括:
(1)確定災(zāi)備建設(shè)目標(biāo),RTO和RPO;
(2)選擇關(guān)鍵的災(zāi)備實(shí)現(xiàn)技術(shù);
(3)制定災(zāi)難恢復(fù)預(yù)案;
(4)制定雙活災(zāi)備中心的運(yùn)維制度和流程;
以上的建設(shè)框架能夠確保同城雙活災(zāi)備中心日常運(yùn)行、災(zāi)難突發(fā)、災(zāi)備回切等多個(gè)場(chǎng)景的有效性。
同城雙活災(zāi)備中心建設(shè)目標(biāo)的核心就是“確定IT系統(tǒng)的RTO和RPO的技術(shù)標(biāo)準(zhǔn)”,需要先從RA和BIA分析結(jié)果出發(fā),確定銀行各個(gè)業(yè)務(wù)和應(yīng)用系統(tǒng)對(duì)應(yīng)的RTO和RPO。
風(fēng)險(xiǎn)分析RA的主要目的是為了明確應(yīng)用、系統(tǒng)、數(shù)據(jù)以及網(wǎng)絡(luò)等IT資產(chǎn)所面臨的風(fēng)險(xiǎn)和脆弱性,其難點(diǎn)在于如何識(shí)別風(fēng)險(xiǎn)、確定風(fēng)險(xiǎn)脆弱程度影響的范圍,風(fēng)險(xiǎn)定量分析,最終以某個(gè)風(fēng)險(xiǎn)值為基準(zhǔn),在其上的風(fēng)險(xiǎn)值我們需要重點(diǎn)關(guān)注,提出應(yīng)對(duì)方案,小于該風(fēng)險(xiǎn)值,采取暫時(shí)忽略或者持續(xù)跟蹤。
風(fēng)險(xiǎn)分析RA的計(jì)算公式如下:
脆弱點(diǎn)風(fēng)險(xiǎn)值=業(yè)務(wù)&應(yīng)用系統(tǒng)影響值*影響程度值*影響范圍值
通過(guò)風(fēng)險(xiǎn)分析RA,能夠確定風(fēng)險(xiǎn)值相對(duì)較高的業(yè)務(wù)和應(yīng)用系統(tǒng),需要在雙活災(zāi)備中心技術(shù)方案選型中進(jìn)行重點(diǎn)關(guān)注的。
業(yè)務(wù)中斷影響分析BIA,是信息系統(tǒng)中斷服務(wù)的場(chǎng)景下業(yè)務(wù)部門(mén)對(duì)信息系統(tǒng)所支持的業(yè)務(wù)中斷影響進(jìn)行多角度的評(píng)估,以期能夠確定業(yè)務(wù)最大能夠容忍系統(tǒng)停機(jī)時(shí)間或者數(shù)據(jù)損失的程度,將會(huì)成為RTO和RPO關(guān)鍵的參考依據(jù)和標(biāo)準(zhǔn)。
信息系統(tǒng)中斷影響評(píng)估值的計(jì)算公式如下:
信息系統(tǒng)中斷影響評(píng)估值=∑nk=1(AVG(所支持業(yè)務(wù)產(chǎn)品影響類(lèi)型k)/n
BIA分析過(guò)程的難度在于,如何平衡業(yè)務(wù)層面對(duì)于系統(tǒng)中斷要求過(guò)高,比如業(yè)務(wù)部門(mén)要求RTO和RPO等于0,即業(yè)務(wù)不允許中斷,結(jié)果是造成同城雙活災(zāi)備技術(shù)方案成本無(wú)限增大,因此在進(jìn)行BIA業(yè)務(wù)中斷影響分析過(guò)程中,需要借鑒行業(yè)內(nèi)其它客戶的標(biāo)桿,引導(dǎo)業(yè)務(wù)客戶,使得BIA結(jié)果盡量趨向于合理。
表1:RTO&RPO建設(shè)目標(biāo)
表2
根據(jù)風(fēng)險(xiǎn)分析RA和業(yè)務(wù)中斷影響分析BIA的分析結(jié)果,按照業(yè)務(wù)和應(yīng)用系統(tǒng)分別匯總RTO和RPO,一般形式如表1所示。
RTO和RPO將會(huì)作為下一階段同城雙活災(zāi)備建設(shè)的關(guān)鍵技術(shù)指標(biāo)。
同城雙活災(zāi)備技術(shù)實(shí)現(xiàn)參考之前的項(xiàng)目經(jīng)驗(yàn)和目前國(guó)內(nèi)外災(zāi)備建設(shè)最佳實(shí)踐,屬于同城雙活災(zāi)備項(xiàng)目建設(shè)的核心,設(shè)計(jì)可從如下三個(gè)方面著重入手:
(1)網(wǎng)絡(luò)互聯(lián)互通;
(2)雙活災(zāi)備中心主機(jī)系統(tǒng);
(3)數(shù)據(jù)復(fù)制;
在設(shè)計(jì)同城雙活災(zāi)備中心的網(wǎng)絡(luò)互聯(lián)互通方案時(shí),需考慮網(wǎng)絡(luò)可達(dá)且便于管理和運(yùn)維,因?yàn)?zāi)難是小概率事件,為了充分利用網(wǎng)絡(luò)資源,雙活災(zāi)備中心一般會(huì)作為銀行的一個(gè)“活”節(jié)點(diǎn),各分支行、營(yíng)業(yè)網(wǎng)點(diǎn)的能夠有一條備份鏈路通過(guò)同城雙活中心連接到銀行主數(shù)據(jù)中心,這條線路也對(duì)各分支機(jī)構(gòu)到主數(shù)據(jù)中心核心業(yè)務(wù)線路提供備份。
對(duì)同城雙活災(zāi)備中心的網(wǎng)絡(luò)技術(shù)規(guī)劃,需要考慮以下方面:
(1)與主中心相近的網(wǎng)絡(luò)和通信的技術(shù)配置;
(2)具備穩(wěn)定、高效、冗余的通信數(shù)據(jù)線路連接生產(chǎn)中心,保障數(shù)據(jù)的實(shí)時(shí)備份;
(3)災(zāi)備中心的網(wǎng)絡(luò)建設(shè)需要滿足各分行、外聯(lián)單位、互聯(lián)網(wǎng)等業(yè)務(wù)在災(zāi)難發(fā)生時(shí)的訪問(wèn)要求;
(4)具備日常維護(hù)的網(wǎng)絡(luò)通訊條件,災(zāi)備中心運(yùn)營(yíng)需要對(duì)應(yīng)用系統(tǒng)及網(wǎng)絡(luò)設(shè)備進(jìn)行升級(jí)與維護(hù)。
同時(shí)強(qiáng)烈建議規(guī)劃帶外管理網(wǎng)絡(luò),能夠在緊急情況下連接同城雙中心進(jìn)行故障診斷和應(yīng)急處理。
主機(jī)系統(tǒng)的設(shè)計(jì)屬于同城雙活災(zāi)備項(xiàng)目中關(guān)鍵要素之一,根據(jù)同城雙活災(zāi)備建設(shè)的目標(biāo),在主機(jī)系統(tǒng)設(shè)計(jì)時(shí),需要考慮如下因素:
(1)主機(jī)選型:一般建議對(duì)標(biāo)現(xiàn)有生產(chǎn)中心的硬件配置和型號(hào)即可;
(2)主機(jī)性能配置:根據(jù)各個(gè)應(yīng)用同城雙活災(zāi)備中心運(yùn)行的原則,可采用1:1、1:0.8、1:0.5,從而降低建設(shè)成本;
(3)主機(jī)切換方式:同城雙活災(zāi)備中心應(yīng)用同時(shí)在兩個(gè)數(shù)據(jù)中心運(yùn)行,切換時(shí)僅需要切換客戶網(wǎng)絡(luò)接入;
(4)主機(jī)命名規(guī)范:因同城雙活災(zāi)備中心主機(jī)較多,為管理方便,建議命名格式為:數(shù)據(jù)中心編碼(4位)+環(huán)境編號(hào)(1位)+應(yīng)用名編碼(3位)+服務(wù)器用途碼(2位)+序號(hào)(2位)。
同城雙活災(zāi)備中心數(shù)據(jù)復(fù)制通常采用數(shù)據(jù)實(shí)時(shí)鏡像的技術(shù),確保雙中心數(shù)據(jù)一致性和完整性,災(zāi)難發(fā)生切換時(shí),確保數(shù)據(jù)不會(huì)丟失而造成雙活災(zāi)備中心切換失敗,可選擇的災(zāi)備技術(shù)比較多,根據(jù)RTO和RPO,災(zāi)備復(fù)制技術(shù)選擇參考模型,如表2所示。
災(zāi)難恢復(fù)組織職責(zé)定義屬于事先按照銀行組織架構(gòu),一般分為IT恢復(fù)小組和業(yè)務(wù)恢復(fù)小組,分別定義當(dāng)災(zāi)難發(fā)生后,各個(gè)小組的職責(zé)分工。
一般情況下,IT恢復(fù)小組的職責(zé):
(1)在接到災(zāi)難預(yù)警后,負(fù)責(zé)對(duì)災(zāi)難備份中心環(huán)境進(jìn)行檢查,準(zhǔn)備災(zāi)難切換;
(2)決定災(zāi)難切換后,負(fù)責(zé)完成災(zāi)難備份中心內(nèi)恢復(fù)系統(tǒng)運(yùn)行的工作;
(3)負(fù)責(zé)在重續(xù)運(yùn)行期間災(zāi)備系統(tǒng)的日常運(yùn)行維護(hù)工作;
(4)確定災(zāi)后回切方案,并完成回切工作;
業(yè)務(wù)恢復(fù)小組職責(zé)——業(yè)務(wù)部門(mén)職責(zé):
(1)負(fù)責(zé)災(zāi)難發(fā)生后災(zāi)備中心業(yè)務(wù)恢復(fù)后的功能驗(yàn)證;
(2)負(fù)責(zé)系統(tǒng)切換完成后,丟失數(shù)據(jù)的追補(bǔ);
(3)負(fù)責(zé)在災(zāi)備中心重續(xù)運(yùn)行的日常業(yè)務(wù)操作等;
(4)分支行在總行應(yīng)急指揮組的統(tǒng)一領(lǐng)導(dǎo)下負(fù)責(zé)支行業(yè)務(wù)的恢復(fù)工作;
災(zāi)難恢復(fù)流程主要是指突發(fā)事件發(fā)生后,事件等級(jí)隨時(shí)間不斷升級(jí),觸發(fā)預(yù)警臨界,執(zhí)行災(zāi)備切換流程,流程如圖1災(zāi)難恢復(fù)流程圖所示。
圖1:災(zāi)難恢復(fù)流程圖
圖2:統(tǒng)一運(yùn)維管理
銀行災(zāi)難切換和回切流程目的提供災(zāi)難恢復(fù)切換的總體指導(dǎo)和技術(shù)操作,以確保銀行在發(fā)生災(zāi)難情況時(shí),能夠在應(yīng)急指揮小組的指揮下,迅速恢復(fù)對(duì)外服務(wù),一般分為計(jì)劃內(nèi)和計(jì)劃外兩種場(chǎng)景。
同城雙活災(zāi)備中心建設(shè)完成后,根據(jù)銀行的具體運(yùn)維管理方式,圍繞ITIL和ISO20000完善和規(guī)范運(yùn)維管理流程和制度,建議從流程與制度、組織和人員及管理工具等方面進(jìn)行規(guī)劃與設(shè)計(jì),如圖2統(tǒng)一運(yùn)維管理所示。
基于同城雙活建設(shè)框架,從RTO和RPO技術(shù)建設(shè)指標(biāo)出發(fā),選擇合適的災(zāi)備技術(shù)實(shí)現(xiàn),制定災(zāi)備預(yù)案和災(zāi)備運(yùn)維管理制度,達(dá)成商業(yè)銀行建設(shè)同城雙活災(zāi)備中心的目的。