1.管理活動包括協(xié)商可以性目標,其中有:收集衡量架構(gòu)、應(yīng)用與數(shù)據(jù),監(jiān)控、分析、報告,以及規(guī)劃與改進。
2.平均故障間隔時間(MTBF):測量服務(wù)失敗的頻率。較舊的服務(wù)通常很少會失敗,所以MTBF 較高。
3.恢復(fù)服務(wù)的平均時間(MTRS):測量故障后服務(wù)恢復(fù)的速度。已優(yōu)化的服務(wù)可以快速地恢復(fù),所以MTRS 較小。
4.測量維度:包括用戶中斷的分鐘數(shù)、丟失的交易數(shù)量、業(yè)務(wù)價值的損失、用戶的滿意度。
5.可作為風險管理的一部分,并設(shè)置站點可靠性工程師(SRE)。
簡單而言,可用性管理的目標是兩個方面:
1.在事故發(fā)生前,保證業(yè)務(wù)服務(wù)和系統(tǒng)架構(gòu)的穩(wěn)定性;在事故發(fā)生后,盡量減少中斷所持續(xù)的時間以及此類事故的發(fā)生頻率。
因此,我們需要對業(yè)務(wù)服務(wù)和IT 環(huán)境事先做到充分了解,其中包括四個維度:
(1)應(yīng)用架構(gòu)的復(fù)雜程度。
(2)各個組件在其他組件故障時的魯棒性。
(3)團隊的故障響應(yīng)能力。
(4)各種SLA(Service Level Agreement,組 織與客戶間服務(wù)的協(xié)議)、OLA(Operational Level Agreement,組織內(nèi)部IT 與其他部門間的協(xié)議)、以及UC(Unpinning Contract,組織與外部供應(yīng)商的支撐合同)的落實情況。
2.在管理效果上,主要體現(xiàn)在如下三個特性的落實上。
(1)可靠性(Reliability)。
在正常狀態(tài)下,我們應(yīng)該保障IT 系統(tǒng)的平穩(wěn)運行和服務(wù)組件的按時交付。值得一提的是,對于那些經(jīng)歷了較長時間,如:超過7 秒鐘才能打開某個網(wǎng)頁的服務(wù)來說,我們可直接視為服務(wù)已不可用了。另外,小到某個組件,大至整體業(yè)務(wù),也需要有一定的容錯性與自愈恢復(fù)能力(Resilience),以實現(xiàn)在極端情況下的業(yè)務(wù)不間斷能力。
(2)可維護性(Maintainability)。
IT 系統(tǒng)乃至服務(wù)組件平時是否易于維護和獲悉狀態(tài)。通常我們可以采取如下兩種途徑:
被動:如采用持續(xù)的自動化監(jiān)測手段,來進行評估與分析,以及根據(jù)既定的事故管理流程與記錄,來推斷故障的根本原因。
主動:如通過CFIA(組件故障影響分析)、SFA(服務(wù)故障分析)、VBFA(關(guān)鍵業(yè)務(wù)功能分析)、SPoFA(單點故障分析)以及根據(jù)變更管理流程,來不斷尋求改進穩(wěn)定性水平的方式。
同時,我們在出現(xiàn)中斷或事故時,也要能夠通過人工診斷與糾正等干預(yù)方式迅速恢復(fù)原有運能。
(3)可服務(wù)性(Serviceability)。
無論是SLA 里涉及到的乙方聯(lián)系人員,還是OLA 中提及的IT 部門技術(shù)角色,都應(yīng)該保證“召之即來、來之能戰(zhàn)、戰(zhàn)之必勝”。
在具體實操中,我們企業(yè)從現(xiàn)有服務(wù)與系統(tǒng)的業(yè)務(wù)價值、外部可能帶來的威脅以及內(nèi)部存在的弱點等維度,開展了可用性狀態(tài)調(diào)查。為了化繁為簡并找到可衡量的抓手,我們開展了對于目標組件可用性程度的計算,也就是業(yè)界常說的“幾個九”。以下用到的便是我們針對單一服務(wù)組件所采用的計算方法,如圖1 所示。
而對于較為復(fù)雜的服務(wù)系統(tǒng),我們采用了如圖2 所示算法。
可見,對于MTRS 而言,由于涉及到我們對于事故的綜合處置能力,包括響應(yīng)、檢測、識別、補救恢復(fù)等環(huán)節(jié)。因此,我們需要盡量縮短MTRS 的耗時。
圖1 對單一服務(wù)組件的算法
圖2 對于較為復(fù)雜的服務(wù)系統(tǒng)的算法
而為了提高MTBF 乃至整體可用性的程度,我們總結(jié)并踐行了如下防御性措施:
預(yù)防性例行檢查。從機房的日常巡檢開始,通過設(shè)備面板上的狀態(tài)燈或LED 屏,結(jié)合手冊上的相關(guān)說明,迅速發(fā)現(xiàn)并定位各種部件上的問題。而對于軟件應(yīng)用而言,我們通過運用日志與事件監(jiān)控服務(wù)工具,集中式地審查并跟蹤各項性能指標。
發(fā)現(xiàn)潛在的薄弱環(huán)節(jié)。我們既依賴用戶的主動反饋,又根據(jù)遠程工具的實時數(shù)據(jù)采集,來抽絲剝繭地發(fā)現(xiàn)當前業(yè)務(wù)在性能方面的瓶頸問題。
緩沖中斷產(chǎn)生的焦慮。在出現(xiàn)事故以及服務(wù)可用性缺失時,運維與支持人員運用郵件、電話和微信等方式,及時通知涉事人員,有關(guān)當前中斷的原因和臨時性的解決方案。此舉不但能夠讓大家產(chǎn)生一定的思想準備,而且能夠展現(xiàn)IT 部門的“關(guān)懷”與運作。