【摘要】傳輸網(wǎng)絡(luò)規(guī)模大,結(jié)構(gòu)復(fù)雜,維護(hù)工作繁重,為提高故障處理響應(yīng)速度,本文對(duì)傳輸網(wǎng)絡(luò)告警進(jìn)行預(yù)處理,制定告警過(guò)濾規(guī)則,將滑動(dòng)窗口的理念引入綜合網(wǎng)管告警呈現(xiàn)窗口,討論分析故障診斷的規(guī)則和自學(xué)習(xí)能力,提高故障的處理效率與準(zhǔn)確率。
【關(guān)鍵詞】故障;預(yù)處理;告警采集;告警過(guò)濾;告警分析;故障診斷
1.引言
傳輸網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),規(guī)模龐大,結(jié)構(gòu)復(fù)雜,一個(gè)網(wǎng)絡(luò)故障的發(fā)生常伴隨大量告警產(chǎn)生,告警分析是故障預(yù)處理的重要手段。如何在復(fù)雜龐大的網(wǎng)絡(luò)中迅速對(duì)告警進(jìn)行分析,進(jìn)行故障定位,提高故障的處理效率與準(zhǔn)確率,是當(dāng)今傳輸網(wǎng)絡(luò)維護(hù)的一個(gè)日益迫切而重要的課題。
2.基本概念
故障是指系統(tǒng)由于其組成部件出現(xiàn)硬件或軟件上的紊亂,從而導(dǎo)致使系統(tǒng)不能正常工作并且提供服務(wù),故障可能會(huì)導(dǎo)致系統(tǒng)產(chǎn)生告警。傳輸網(wǎng)絡(luò)中故障主要分為硬件故障和軟件故障,硬件故障有單板故障、線路中斷、尾纖故障等,軟件故障一般是指主控板、業(yè)務(wù)版的軟件故障。
告警則是指在系統(tǒng)中發(fā)生某些特定的異常事件時(shí),由系統(tǒng)發(fā)出的通報(bào)組成的事件報(bào)告,主要用來(lái)進(jìn)行告警信息的傳遞。告警表示有故障發(fā)生。告警信息分析是故障進(jìn)行分析和預(yù)處理的重要手段。
3.告警預(yù)處理
告警信息分為特征告警和非特征告警,非特征告警的分析價(jià)值低,且常常存在信息冗余、數(shù)據(jù)不完整、時(shí)間同步、告警中包含一些與關(guān)聯(lián)規(guī)則無(wú)關(guān)的噪聲,告警信息的屬性不同等等等問(wèn)題,故需要根據(jù)告警進(jìn)行相關(guān)性分析。告警相關(guān)性分析是指對(duì)告警進(jìn)行合并和轉(zhuǎn)化,將多個(gè)告警合并成少數(shù)幾條或一條具有更準(zhǔn)確信息的告警,減少傳輸綜合網(wǎng)管上報(bào)告警數(shù)量,協(xié)助網(wǎng)絡(luò)運(yùn)維人員及時(shí)發(fā)現(xiàn)故障,減少業(yè)務(wù)中斷時(shí)間,提高故障診斷和業(yè)務(wù)恢復(fù)的效率,最終提高運(yùn)營(yíng)商的效益。
目前,中國(guó)移動(dòng)的傳輸網(wǎng)絡(luò)由多個(gè)廠家提供,各廠家自帶網(wǎng)管系統(tǒng),分散監(jiān)控、分散管理多廠家設(shè)備,操作復(fù)雜性高,缺乏統(tǒng)一、整體的全網(wǎng)網(wǎng)絡(luò)級(jí)管理系統(tǒng);缺乏對(duì)全網(wǎng)資源、網(wǎng)絡(luò)拓?fù)涞暮暧^把握和數(shù)據(jù)分析;為了解決這一問(wèn)題,集團(tuán)組織開發(fā)了傳輸綜合網(wǎng)管系統(tǒng)來(lái)實(shí)現(xiàn)跨平臺(tái)跨廠商的傳輸網(wǎng)絡(luò)的維護(hù)和管理,其最重要的目標(biāo)在于對(duì)全網(wǎng)故障的宏觀把握,尤其在重大故障的處理上,第一時(shí)間呈現(xiàn)重大故障的告警信息,幫助網(wǎng)絡(luò)線維護(hù)人員通過(guò)監(jiān)控手段第一時(shí)間發(fā)現(xiàn)故障,并進(jìn)行預(yù)處理。因此,傳輸綜合網(wǎng)管系統(tǒng)是告警分析和故障預(yù)處理的重要工具。
在傳輸綜合網(wǎng)管中,為了幫助監(jiān)控人員盡快地發(fā)現(xiàn)故障,需要對(duì)告警進(jìn)行預(yù)處理,這些預(yù)處理的具體內(nèi)容包括:
(1)告警采集,從各廠家的子網(wǎng)網(wǎng)管服務(wù)器上盡可能采集更多的告警;
(2)告警壓縮:將多個(gè)同時(shí)發(fā)生的相同告警縮減成一個(gè)告警。
(3)告警過(guò)濾:根據(jù)告警過(guò)濾規(guī)則,刪減冗余告警,呈現(xiàn)本征告警。
(4)告警計(jì)數(shù):用一個(gè)新的告警替代特定數(shù)目的同時(shí)發(fā)生的相同告警。
(5)告警呈現(xiàn):通過(guò)滑動(dòng)窗口將經(jīng)上述處理后的告警呈現(xiàn)出來(lái)。
3.1 告警采集
采集的主要任務(wù)是與所接系統(tǒng)進(jìn)行雙向交互,一方面將從通過(guò)設(shè)備廠家網(wǎng)管接口采集到的數(shù)據(jù)轉(zhuǎn)換成數(shù)據(jù)管理層和應(yīng)用管理層的所需數(shù)據(jù),另一方面將數(shù)據(jù)管理層和功能應(yīng)用層下發(fā)的命令轉(zhuǎn)換成廠商網(wǎng)管系統(tǒng)所能識(shí)別的命令,從而對(duì)廠商網(wǎng)管系統(tǒng)進(jìn)行管理操作。
3.2 告警過(guò)濾
批量采集上來(lái)的大量告警中,有些只持續(xù)短短幾秒鐘,有些關(guān)鍵字段缺失,有些重復(fù)出現(xiàn),有些屬性冗余,影響數(shù)據(jù)挖掘的準(zhǔn)確度和效率,為將原始數(shù)據(jù)轉(zhuǎn)換成便于挖掘的形式,需去除閃斷告警、處理缺值數(shù)據(jù)、合并重復(fù)告警、完成數(shù)據(jù)類型轉(zhuǎn)換。
從廣西移動(dòng)區(qū)公司傳輸綜合網(wǎng)管系統(tǒng)隨機(jī)抽取2012年8.6-8.20共15天告警數(shù)據(jù),共1461822條告警,將這些告警作為原始告警數(shù)據(jù),處理結(jié)果下表所示。
表1 告警過(guò)濾效果統(tǒng)計(jì)表
3.3 告警呈現(xiàn)
在告警相關(guān)性分析系統(tǒng)開始運(yùn)行之前,預(yù)先設(shè)定一個(gè)較大的初始時(shí)間窗口,盡可能多的采集告警序列,以確保采集的告警序列中包含完整的特征告警組。然后對(duì)采集到的特征告警組進(jìn)行分析,包括告警壓縮、告警過(guò)濾、告警計(jì)數(shù)等處理,確定特征告警組上報(bào)時(shí)間T(30分鐘)。在系統(tǒng)運(yùn)行過(guò)程中,引入滑動(dòng)窗口的概念,確保在盡可能短的時(shí)間窗口內(nèi),采集到完整的特征告警組。
3.4 故障診斷規(guī)則
告警進(jìn)行預(yù)處理后,需根據(jù)告警進(jìn)行故障診斷。故障診斷常見的方法是基于規(guī)則的故障診斷。建立基于規(guī)則的故障診斷有助于實(shí)現(xiàn)告警的自動(dòng)派單,減輕監(jiān)控人員的工作,使得監(jiān)控人員能把主要精力集中在告警的及時(shí)發(fā)現(xiàn)、告警的預(yù)判斷和告警的跟進(jìn)處理上?;谝?guī)則的方法不需要深刻理解網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)行原理,符合人的思維,便于理解,易于維護(hù)和開發(fā)實(shí)現(xiàn)和升級(jí)。
在告警相關(guān)性分析中,故障診斷規(guī)則的獲取方法大致分為兩種:人工方式和數(shù)據(jù)挖掘方式。人工方式建立故障診斷規(guī)則是指監(jiān)控人員和維護(hù)專家通過(guò)分析歷史故障和告警的典型案例,或者通過(guò)相關(guān)的通信文檔等多種途徑,確定產(chǎn)生故障的根本原因,從而手工建立故障診斷規(guī)則。
為了使故障診斷具備自學(xué)習(xí)能力,本文引入數(shù)據(jù)挖掘方式,結(jié)合人工方式提高診斷自學(xué)能力。數(shù)據(jù)挖掘方式是在海量數(shù)據(jù)中發(fā)現(xiàn)新模式的一種分析技術(shù),通過(guò)分析歷史故障所引起的典型告警的上報(bào)規(guī)律,建立故障診斷規(guī)則。當(dāng)網(wǎng)絡(luò)穩(wěn)定運(yùn)行的一段時(shí)間以后,在數(shù)據(jù)庫(kù)中累積了大量的歷史告警和故障的信息,特別適合數(shù)據(jù)挖掘的應(yīng)用。
3.5 應(yīng)用舉例
本節(jié)將以二干三期柳州文惠至永福光纜中斷故障為例,說(shuō)明本文的告警預(yù)處理方法及告警診斷規(guī)則在現(xiàn)網(wǎng)運(yùn)維中的應(yīng)用。
柳州文惠往永福方向?yàn)镺TM網(wǎng)元,華為1600G設(shè)備,在本地有業(yè)務(wù)上下;永福往柳州文惠方向?yàn)镺LA網(wǎng)元,充當(dāng)中繼站的角色。從故障發(fā)生0:46至故障結(jié)束2:36,柳州文惠上報(bào)相關(guān)告警工共134條;中繼站永福上報(bào)告警12條。
經(jīng)告警預(yù)處理,及告警采集、告警壓縮、告警抑制、告警過(guò)濾、告警計(jì)數(shù)后,呈現(xiàn)在綜合網(wǎng)管的與本故障相關(guān)的告警為柳州文惠10條、永福3條,告警壓縮率為90%.
根據(jù)歷史故障案例規(guī)則庫(kù)中,典型的光纜中斷故障告警現(xiàn)象表現(xiàn)為主光路信號(hào)失效,OTM網(wǎng)元監(jiān)控信號(hào)板、光放板、D40單板及單波波長(zhǎng)轉(zhuǎn)換板上報(bào)告警,OLA網(wǎng)元監(jiān)控信號(hào)板及光放板上報(bào)告警,經(jīng)故障診斷規(guī)則判斷,這是典型的主光路信號(hào)丟失,在OTDR系統(tǒng)上測(cè)試結(jié)果表明確實(shí)為光纜中斷引起,證明告警預(yù)判斷結(jié)果正確,監(jiān)控人員當(dāng)即通知線路維護(hù)人員處理。從故障發(fā)生至告警預(yù)處理、綜合網(wǎng)管系統(tǒng)上報(bào)告警、告警診斷預(yù)判斷、監(jiān)控人員發(fā)現(xiàn)告警及通知維護(hù)人員處理僅需要10分鐘不到的時(shí)間,大大縮短了告警的預(yù)處理時(shí)間,提高搶修維護(hù)工作效率。
4.結(jié)論
本文在日益擴(kuò)大復(fù)雜的傳輸網(wǎng)絡(luò)維護(hù)工作量日益加重的背景下,以現(xiàn)網(wǎng)維護(hù)中柳州文惠至永福光纜中斷故障為例,討論了如何分析網(wǎng)絡(luò)的故障外在形式——告警信息,結(jié)合傳輸綜合網(wǎng)管平臺(tái),進(jìn)行告警信息、告警壓縮、告警過(guò)濾、告警計(jì)數(shù)、告警呈現(xiàn)等告警預(yù)處理措施,引入告警診斷規(guī)則進(jìn)行過(guò)故障的初步判斷,有效地提高故障的預(yù)判斷處理能力,提高網(wǎng)絡(luò)的維護(hù)效率,縮短故障處理時(shí)間,從而達(dá)到節(jié)約人力成本,提高運(yùn)營(yíng)效益的目的。
參考文獻(xiàn)
[1]鄧歆,孟洛明.告警相關(guān)性分析模型在通信網(wǎng)故障診斷中的應(yīng)用[J].北京郵電大學(xué)學(xué)報(bào),2006,29(3):66-70.
[2]逞曉鵬.數(shù)據(jù)挖掘在綜合網(wǎng)管告警相關(guān)性分析中的研究和應(yīng)用[D].北京交通大學(xué),2009.
[3]王瑋.對(duì)通信綜合網(wǎng)管系統(tǒng)故障管理的設(shè)計(jì)[J].山東電力技術(shù),2003.06.
[4]鄭秋華.網(wǎng)絡(luò)故障智能診斷關(guān)鍵技術(shù)研究[J].光通信研究,2007,08.