通過調(diào)查分析,以確定事故的根本原因,通過制定變通方法,或是找到長期有效的解決方案,來減少事故的數(shù)量和影響。
變通方法:是一種為了減少事故發(fā)生的可能性與影響,在未找到完全解決方案事前的方法。變通方法需清晰地定義其適用的癥狀。
管理的三個階段:問題識別,問題控制和錯誤控制。
問題識別階段包括:根據(jù)記錄進行趨勢分析,檢查是否屬于重復或重現(xiàn),識別重現(xiàn)的風險,從外部供應(yīng)商與合作伙伴處收集信息并進行分析,從內(nèi)部開發(fā)、測試、項目團隊處收集信息并分析。
問題控制階段包括:基于風險的潛在影響與可能性,進行優(yōu)先級分析,文檔化變通方法與已知錯誤(經(jīng)由分析尚未解決的問題)。
錯誤控制階段包括:定期評估已知錯誤的狀態(tài),以及變通方法的有效性,根據(jù)成本、風險和收益觸發(fā)變更請求。
問題管理與其他管理實踐的關(guān)系:
問題管理是風險管理的特定案例;
問題管理可利用知識管理系統(tǒng)中的信息來開展調(diào)查、診斷和解決;
問題管理不包括實施,需要通過變更控制來啟動解決方案;
問題管理可被視為持續(xù)改進的一種實踐。
至此,ITIL 中有關(guān)事件、事故、問題三種管理的最佳實踐都已出現(xiàn),為了理清它們之間的關(guān)系,我們一起對照著日常工作實際來比較一下:
一般是指某種IT 服務(wù)或是被監(jiān)控項到達了門限值,而引發(fā)的警告;或者是伴隨著某項操作所觸發(fā)的通知等。
例如,數(shù)據(jù)存儲的剩余空間小于已設(shè)定的百分比數(shù)值,對某個賬號的權(quán)限變更,或是用戶組的成員調(diào)整等。當然,正如我們在上面事件管理實踐中所討論過的那樣,事故也包括一些尚未產(chǎn)生影響的監(jiān)控項異常。例如,在做了RAID 5 的磁盤組,有一顆磁盤出現(xiàn)了故障,但整體所提供的服務(wù)尚未中斷。
是指計劃外的IT 服務(wù)中斷,或是服務(wù)質(zhì)量的驟降。
例如,由于專線出現(xiàn)問題,某個分公司失去了與總公司的網(wǎng)絡(luò)連接;或是某用戶利用公司內(nèi)網(wǎng)觀看在線視頻,而拖慢了整體的內(nèi)、外網(wǎng)訪問速度。
通常情況下,對于處理人員來說,能夠快速找到那些能夠所謂“能治標不治本”處置方法,可能會比花費更多的時間去研究癥結(jié),更容易被用戶所接受和認可。
可見,對于事故的管理,我們主要是以止損、抑制不良影響、以及快速恢復為目標。
表4 問題跟蹤表格
如果說處理事故是利用應(yīng)急措施,去盡快地恢復IT服務(wù)的話,那么解決問題則是通過查找根源,預防中斷的再次發(fā)生,以及對于那些經(jīng)過分析仍無法解決的問題,通過變通方法來控制其影響的程度與范圍。相對于事故管理而言,它往往會涉及到更多的人員角色,也會耗費更長的時間。
例如,軟件開發(fā)部門協(xié)同運維部門一起,對其所發(fā)布的產(chǎn)品中所出現(xiàn)代碼的漏洞、以及不正確的配置進行安全加固,以消除攻擊隱患等。
因此,我們需要通過跟蹤那樣已知故障、診斷根本原因,引入變更控制,來防止同類問題在整個系統(tǒng)中的復發(fā)。
一般而言,由于問題管理主要致力于“治本”,因此企業(yè)可設(shè)立問題管理委員會來對問題的整個生命周期進行跟蹤與評估,其中涉及到的關(guān)鍵績效指標包括:
問題處置過程的平均耗時;
已確定根源、已解決、以及未關(guān)閉問題的占比;
問題解決所消耗的綜合成本;
管理前的數(shù)量與解決之后復發(fā)數(shù)量的對比。
在本企業(yè),為了留存在問題處理過程中產(chǎn)生的記錄,我們根據(jù)業(yè)界的處置標準,采用了如表4 所示的問題跟蹤表格。
根據(jù)上表,我們還制定了如圖2 所示問題管理的相關(guān)流程。
從管理的角度來說,上述流程的重點在于評估問題和分派問題:
1.在問題產(chǎn)生相關(guān)的通知之后,問題管理委員會根據(jù)該問題的特征和本團隊的經(jīng)驗,對需要人工干預的問題進行二次判斷與評估。他們往往會參考我們在變更管理中提到的矩陣列表,對問題的影響范圍與程度,進行審查或修正。當然,他們也會參考技術(shù)人員的工作量和實際處理能力。
圖2 問題管理的相關(guān)流程
2.為了將合適的問題分派給合適的處置人員,我們會直接讀取系統(tǒng)目錄(如:Active Dictionary)里IT角色和相關(guān)的組群信息,甚至會在必要時,引入各部門進行聯(lián)動“會診”。另外,為了保證始終有人去接手問題,問題管理委員會通過自動化跟蹤,來確保如果被分派到的處理人員不在崗,或是無法勝任時,能夠升級到其所在的技術(shù)團隊。而如果某個問題超出了企業(yè)內(nèi)部現(xiàn)有的處理能力,則需要添置相應(yīng)的專業(yè)技術(shù)與工具,或是及時轉(zhuǎn)呈給外部資源,以尋求援助。