文/徐鳴亮
傳統(tǒng)IT運(yùn)維,維護(hù)著龐大的網(wǎng)絡(luò)設(shè)備、主機(jī)群、應(yīng)用群。對(duì)于如此多的硬件設(shè)備,軟件應(yīng)用如果出現(xiàn)故障,通過故障告警快速定位具體的故障IT部件的難度較大。同時(shí),在傳統(tǒng)方式下往往通過人工檢索方式來查找對(duì)應(yīng)的應(yīng)急維護(hù)文檔。對(duì)于數(shù)量龐大的應(yīng)急維護(hù)文檔,雖然通過一些檢索工具能夠查詢到故障IT部件的應(yīng)急文檔,但是在時(shí)效性上往往不夠及時(shí),對(duì)人的依賴和操作要求較高。
通知的方式一般以短信,郵件以及手工電話通知為主,在通知的時(shí)效性上效果不佳。
鑒于以上問題,本文提出建立了一種基于配置項(xiàng)模型的事件快速處理裝置,整個(gè)處理過程包含了事件單自動(dòng)創(chuàng)建、短信和電話自動(dòng)通知、影響性分析定位故障、故障解決方案自動(dòng)查找和執(zhí)行,避免人工甄別帶來的故障定位的困難,提高了事件處理的實(shí)效。整個(gè)事件處理過程如下:
當(dāng)告警監(jiān)控系統(tǒng)監(jiān)控到告警后,將告警轉(zhuǎn)義成故障現(xiàn)象,并將故障現(xiàn)象與告警配置項(xiàng)送至流程平臺(tái)。流程平臺(tái)利用配置項(xiàng)關(guān)系模型進(jìn)行配置項(xiàng)影響性分析,并自動(dòng)開出事件單,在此過程中系統(tǒng)會(huì)利用事件單過濾算法過濾掉重復(fù)的事件單。在事件單處理過程中由系統(tǒng)自動(dòng)進(jìn)行解決方案的推薦和解決方案自動(dòng)化的執(zhí)行,并通過電話語音系統(tǒng)主動(dòng)通知相關(guān)責(zé)任人關(guān)注事件的處理,事件單處理完畢后通知告警監(jiān)控系統(tǒng)完成告警關(guān)閉。
整個(gè)處理過程主要包含以下幾部分:
對(duì)于數(shù)量眾多的配置項(xiàng),通過梳理我們整理出各配置項(xiàng)之間的關(guān)系可以歸納為影響關(guān)系、傳遞關(guān)系、拓?fù)潢P(guān)系三大類。每一種大類關(guān)系又被劃分為若干二級(jí)關(guān)系,一共是8種關(guān)系。這些關(guān)系與配置項(xiàng)一起組成了龐大的配置項(xiàng)網(wǎng)絡(luò)。針對(duì)每一種關(guān)系,均有對(duì)應(yīng)的影響性算法來計(jì)算影響性。例如對(duì)于任意存在影響-直接關(guān)系的配置項(xiàng),直接算出上級(jí)配置項(xiàng)即可,再利用遞歸算法和圖的廣度優(yōu)先遍歷算法即可獲得一條完整的影響配置項(xiàng)集合。
在計(jì)算影響性的過程中系統(tǒng)維護(hù)了兩張表格,一張表格為表-1配置項(xiàng)-故障現(xiàn)象關(guān)系表(記錄了配置項(xiàng)、故障現(xiàn)象、出現(xiàn)時(shí)間);另一張表格為表-2配置項(xiàng)-事件單關(guān)系表(記錄了配置項(xiàng)、事件單、故障現(xiàn)象、影響到的配置項(xiàng)集合),兩張表格結(jié)構(gòu)如下:
表1:配置項(xiàng)-故障現(xiàn)象關(guān)系表
表2:配置項(xiàng)-事件單關(guān)系表
表1中記錄了每一個(gè)配置項(xiàng)及其對(duì)應(yīng)的故障現(xiàn)象的出現(xiàn)時(shí)間,只有一定時(shí)間范圍內(nèi)(如1分鐘)的出現(xiàn)的故障現(xiàn)象才會(huì)作為該配置項(xiàng)的故障現(xiàn)象組合。表2記錄了處理該配置項(xiàng)故障的事件單,以及該配置項(xiàng)當(dāng)前一段時(shí)間的已經(jīng)出現(xiàn)的故障現(xiàn)象,以及該配置項(xiàng)影響到的配置項(xiàng)。如果有該配置項(xiàng)影響的新的配置項(xiàng)出現(xiàn),則不會(huì)開出新的事件單,而是過濾掉,否則系統(tǒng)會(huì)系統(tǒng)創(chuàng)建事件單并更新表-2。當(dāng)事件單解決后,也會(huì)更新表-2移除記錄。
當(dāng)事件單自動(dòng)開單成功后,會(huì)根據(jù)事先配置的通知規(guī)則,自動(dòng)觸發(fā)電話通知事件單責(zé)任人的功能。
事件單通過接口調(diào)用,將責(zé)任人信息(姓名、電話號(hào)碼)和事件單信息(事件級(jí)別、事件描述)等信息傳遞給電話通知模塊;電話通知模塊依據(jù)電話號(hào)碼,給事件請(qǐng)求分析員自動(dòng)撥打電話,并將事件級(jí)別和事件描述進(jìn)行TTS語音合成,語音播報(bào)給責(zé)任人;電話通知模塊自動(dòng)記錄撥打時(shí)間、撥打是否成功和通話時(shí)長;對(duì)于撥打失敗的情況,電話通知模塊會(huì)按照配置失敗重?fù)艽螖?shù),自動(dòng)進(jìn)行多次嘗試撥打;電話通知模塊會(huì)將相關(guān)通話記錄信息回傳給事件單。
每個(gè)配置項(xiàng)均包含若干故障場景,每個(gè)故障場景都由故障現(xiàn)象和處理步驟組成。系統(tǒng)根據(jù)事件單中關(guān)聯(lián)的配置項(xiàng)以及關(guān)聯(lián)的故障現(xiàn)象來計(jì)算該配置項(xiàng)各場景的匹配度,計(jì)算公式為:
(其中分子為事件中記錄的故障現(xiàn)象,分母為配置項(xiàng)故障場景中的故障現(xiàn)象)。系統(tǒng)按照匹配度由高到低,來推薦處理步驟。當(dāng)處理步驟匹配度為100%時(shí),系統(tǒng)可自動(dòng)執(zhí)行處理步驟中的腳本來解決事件單;如果匹配度不足100%,則通過人工方式來進(jìn)行處理步驟選擇。
本文建立了一種結(jié)合告警監(jiān)控和運(yùn)維流程的自動(dòng)處理IT事件的裝置,利用影響性算法、事件過濾算法以及處理步驟推薦算法實(shí)現(xiàn)故障的快速解決。通過該方法,在IT運(yùn)維過程中實(shí)現(xiàn)了事件處理全過程自動(dòng)化,消除了人工操作的延遲,提高了事件處理時(shí)效性。
參考文獻(xiàn)
[1]王麗麗.IT運(yùn)維管理流程優(yōu)化研究[D].北京林業(yè)大學(xué),2010.
[2]甄云恒.基站告警監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].大連理工大學(xué),2013.
[3]陸懿.網(wǎng)管監(jiān)控告警系統(tǒng)的研究與實(shí)現(xiàn)[D].上海交通大學(xué),2012.