目標(biāo):通過盡快恢復(fù)的服務(wù)操作,來最小化事故的負(fù)面影響。
為了避免對(duì)用戶滿意度產(chǎn)生巨大影響,應(yīng)在期望的時(shí)間內(nèi)解決,并根據(jù)約定的分類分級(jí)標(biāo)準(zhǔn),優(yōu)先解決影響業(yè)務(wù)最大的事故。
通過資源分配,確保那些影響較小的事故不會(huì)消費(fèi)太多的資源。
使用能夠關(guān)聯(lián)CI、變更、問題、已知錯(cuò)誤和其他知識(shí)鏈接的工具,實(shí)現(xiàn)快速有效地診斷和恢復(fù)。
處理事件可能觸發(fā)變更,因此變更應(yīng)包括癥狀、業(yè)務(wù)影響、受影響的CI、已完成的操作、操作的時(shí)間戳以及人員信息。
極端情況下,可能會(huì)觸發(fā)災(zāi)難恢復(fù)計(jì)劃。
與供應(yīng)商交互,讓雙方之間的合同成為事故管理實(shí)踐的一部分。
企業(yè)應(yīng)當(dāng)根據(jù)自身的規(guī)模和行業(yè)特點(diǎn),在內(nèi)部組建一支專門的計(jì)算機(jī)事故響應(yīng)團(tuán)隊(duì)(CIRT)。不過,光有事故響應(yīng)人員是遠(yuǎn)遠(yuǎn)不夠的,我們還應(yīng)該通過事先準(zhǔn)備好一整套處置的流程,來實(shí)現(xiàn)對(duì)于不同事故的管理。
團(tuán)隊(duì)成員參考本企業(yè)和系統(tǒng)以往的事故報(bào)告,通過開展業(yè)務(wù)影響分析(BIA),來推算出MTD。為了根據(jù)現(xiàn)有的資源,來制定相應(yīng)的應(yīng)急響應(yīng)計(jì)劃,我們需要參照業(yè)界常規(guī)的處置標(biāo)準(zhǔn)與方法,來定義事故的級(jí)別(從一般性的事件到嚴(yán)重的災(zāi)難)和中斷的分類。具體類別包括但不僅限于如下方面:
(1)內(nèi)/外部網(wǎng)絡(luò)、以及云端服務(wù)的中斷。
(2)針對(duì)系統(tǒng)漏洞的攻擊。
(3)針對(duì)主機(jī)與網(wǎng)站的惡意代碼注入。
(4)應(yīng)用程序的自身缺陷和異常終止。
(5)信息數(shù)據(jù)的篡改、泄漏與刪除。
(6)硬件設(shè)備與設(shè)施的故障。
(7)大面積的自然或人為災(zāi)難等。
面對(duì)用戶反饋來的且?guī)в兄饔^判斷的報(bào)告、以及自動(dòng)化工具平臺(tái)推送來的海量平臺(tái)信息,值守監(jiān)控人員根據(jù)自己的經(jīng)驗(yàn)、以及制定好的事故分類標(biāo)準(zhǔn),剔除誤報(bào)并初步分揀定級(jí)。
為了界定系統(tǒng)與服務(wù)的受損程度,響應(yīng)團(tuán)隊(duì)需要從數(shù)量與程度兩個(gè)維度進(jìn)行分析。當(dāng)然,在需要時(shí)也會(huì)涉及通過深入調(diào)查與跟蹤,來對(duì)一些滯后、間接的影響予以評(píng)估。
如果是安全攻擊類事故,那么取證環(huán)節(jié)是必不可少的。安全專家可以從主機(jī)系統(tǒng)、網(wǎng)絡(luò)數(shù)據(jù)、軟件應(yīng)用、存儲(chǔ)介質(zhì)四個(gè)邏輯層面,以及現(xiàn)場(chǎng)物品等物理層面上,開展取證工作。
為了實(shí)現(xiàn)有效的危機(jī)管理,事故管理團(tuán)隊(duì)需要做到如下幾個(gè)方面:
(1)根據(jù)聯(lián)系人列表,以郵件、電話、微信、甚至是廣播的形式,告知可能波及到的內(nèi)部相關(guān)人員。
(2)按照“快報(bào)事實(shí)、慎報(bào)原因”的原則,向客戶、合作方以及外部監(jiān)管部門提供事故情況說明、以及必要的技術(shù)細(xì)節(jié)問答。
真正的補(bǔ)救工作,在這個(gè)階段才正式打響。其中可能會(huì)包括:
(1)基礎(chǔ)設(shè)施的恢復(fù)。
(2)系統(tǒng)與主機(jī)的安裝。
(3)網(wǎng)絡(luò)的搭建與恢復(fù)。
(4)軟件應(yīng)用的安裝與調(diào)試。
(5)數(shù)據(jù)的恢復(fù)與服務(wù)的測(cè)試。
在針對(duì)事故的抑制、恢復(fù)、以及根除過程中,響應(yīng)團(tuán)隊(duì)需要根據(jù)既定的業(yè)務(wù)單元優(yōu)先級(jí),來穩(wěn)步推進(jìn)。當(dāng)然,各種職能角色之間的溝通與協(xié)調(diào),也是非常必要的。
在整個(gè)事故處理的最終階段,我們需要回顧響應(yīng)的執(zhí)行情況,事故管控的效果,提出建設(shè)性整改意見,并防止問題的復(fù)發(fā)。
在我們企業(yè)中,為了有效地管理好各種潛在的事故,我們?cè)谇捌跍?zhǔn)備階段就事先準(zhǔn)備好了各種參考表格,其中包括:緊急聯(lián)系人列表、業(yè)務(wù)單元優(yōu)先級(jí)列表、事故界定與分類參考表、嚴(yán)重性矩陣參考表、事故原始記錄表、事故性質(zhì)與嚴(yán)重性報(bào)告、以及具體的應(yīng)急響應(yīng)計(jì)劃與測(cè)試演練報(bào)告等。當(dāng)然,這些表格與報(bào)告模板都被呈交到了各個(gè)相關(guān)的業(yè)務(wù)部門,根據(jù)收集和反饋的意見進(jìn)行了及時(shí)調(diào)整,并最終得到了管理層的批準(zhǔn)。
另外,由于我們用到了云業(yè)務(wù)環(huán)境,因此對(duì)于上述解讀中所提及的通用流程,我們進(jìn)行了針對(duì)云服務(wù)的細(xì)化。其中包括:
我們分別抓取和過濾來自各個(gè)虛擬機(jī)的系統(tǒng)事件、以及基于網(wǎng)絡(luò)的異常流量信息,然后持續(xù)將經(jīng)過整理的日志信息寫入HBase 數(shù)據(jù)庫(kù),為后期的各種關(guān)聯(lián)分析、以及攻擊取證提供重要的判定依據(jù)。
我們運(yùn)用工具按照特征代碼,對(duì)事件的種類予以分組、對(duì)事件的發(fā)生頻率進(jìn)行統(tǒng)計(jì)。同時(shí),我們引入了應(yīng)用性能分析(APM)模塊,精確地定位應(yīng)用服務(wù)中是哪個(gè)URL 的訪問速度出現(xiàn)了驟降、或是用戶在提交哪個(gè)SQL 語句時(shí)碰到了延時(shí),這些都能夠協(xié)助運(yùn)維人員更快地定位事故背后的問題。
我們可以通過暫停被攻破的虛機(jī)鏡像,來隔離它與其他系統(tǒng)及服務(wù)之間的邏輯聯(lián)系,此舉既不會(huì)破壞該虛機(jī)上的證據(jù),又能夠阻止事態(tài)的惡化。
此外,根據(jù)云服務(wù)的特點(diǎn),許多業(yè)務(wù)系統(tǒng)已不再孤立地存在于我們可控的環(huán)境中,而那些針對(duì)云服務(wù)商或其他租戶系統(tǒng)的攻擊,也可能可能殃及我們的服務(wù)。
因此,我們需要通過對(duì)現(xiàn)有管理流程的整改,以實(shí)現(xiàn)事前防范、事中控制以及事后溯源。
綜上所述,我們從企業(yè)日常服務(wù)運(yùn)維的角度,解讀了在ITIL 4 的服務(wù)管理實(shí)踐中,所涉及到的可用性管理、業(yè)務(wù)分析、能力和性能管理、變更控制以及事故管理。常言道:“工欲善其事,必先利其器?!笨梢?,這些都是我們進(jìn)行常規(guī)化服務(wù)管理的基本方面,也是我們需要夯實(shí)與做透的基礎(chǔ)。