涂婷婷,李德軍
(中國電子科技集團(tuán)公司第三十研究所,成都610041)
通信網(wǎng)絡(luò)管理的主要任務(wù)是對網(wǎng)絡(luò)進(jìn)行實(shí)時監(jiān)控,確保網(wǎng)絡(luò)在日常運(yùn)行中的穩(wěn)定、高效和可靠。隨著通信技術(shù)的快速發(fā)展和業(yè)務(wù)量的增長,網(wǎng)絡(luò)運(yùn)行告警規(guī)模與頻度也相應(yīng)增長。特別是在大型復(fù)雜異構(gòu)型網(wǎng)絡(luò)中,判斷引發(fā)設(shè)備告警的原因更加復(fù)雜,需要投入大量的人力物力進(jìn)行監(jiān)控。如何對海量的告警數(shù)據(jù)進(jìn)行分析和判斷,找出根源故障成為當(dāng)前研究的熱點(diǎn)。
在當(dāng)前的研究中,一是通過研究網(wǎng)絡(luò)告警數(shù)據(jù)的分布特性,提出使用多等級告警處理模型從而提升故障關(guān)聯(lián)分析效率的方法;
二是提出使用神經(jīng)網(wǎng)絡(luò)對告警數(shù)據(jù)進(jìn)行分類,實(shí)現(xiàn)對網(wǎng)絡(luò)告警分析的方法。在本研究中提出了采用故障規(guī)則推理引擎,分析現(xiàn)有告警數(shù)據(jù),挖掘出根源故障從而提高故障診斷率的方法。
規(guī)則引擎最初來源于專家系統(tǒng)。該系統(tǒng)屬于人工智能領(lǐng)域,用于人類推理方式的模擬,通過使用探索方法實(shí)現(xiàn)推理并證明這種推理的過程。規(guī)則引擎是基于規(guī)則方式實(shí)現(xiàn)推理的一種重要引擎。該引擎的規(guī)則依托一階邏輯呈現(xiàn)的二元結(jié)構(gòu),其關(guān)注準(zhǔn)確表達(dá)命題和一階邏輯表達(dá),不能含有模糊定義。規(guī)則引擎能夠用于處理大量規(guī)則的推理場景,并將事實(shí)數(shù)據(jù)與產(chǎn)生式規(guī)則匹配,最后通過推理獲得結(jié)論[1]。
規(guī)則引擎是由規(guī)則庫、推理機(jī)以及事實(shí)這三大部分共同構(gòu)成,如圖1 所示。
圖1 規(guī)則引擎結(jié)構(gòu)示意圖
規(guī)則庫能夠用于推理規(guī)則的儲存,規(guī)則是由結(jié)論、條件構(gòu)成的語句,當(dāng)滿足該條件時能夠激活結(jié)論。推理機(jī)能夠?qū)崿F(xiàn)引擎匹配,決定符合事實(shí)的規(guī)則,并設(shè)置規(guī)則優(yōu)先級,符合條件的規(guī)則會被加入當(dāng)前議程中。事實(shí)是指對象之間的多元關(guān)系。
模式匹配器可決定規(guī)則匹配的方式,議程用于管理模式匹配器挑選規(guī)則的執(zhí)行次序,執(zhí)行引擎可用于規(guī)則執(zhí)行。
規(guī)則引擎可以通過規(guī)則維護(hù)人員根歷史據(jù)經(jīng)驗(yàn)對告警分析歸納并形成規(guī)則或者對告警數(shù)據(jù)進(jìn)行挖掘和案例學(xué)習(xí)后形成規(guī)則。規(guī)則形成后,推理引擎通過算法匹配決定執(zhí)行順序。從一定程度上來看,規(guī)則條件、匹配效率直接影響引擎性能。推理引擎需要迅速檢測工作區(qū)域中的數(shù)據(jù)對象,從規(guī)則中找到符合相應(yīng)條件的規(guī)則進(jìn)行數(shù)據(jù)分析。大部分規(guī)則引擎產(chǎn)品的算法都來自于Charles Forgy 博士于1979 年提出Rete 算法及其變體。Rete 匹配算法是目前效率最高的一個前向鏈形推理算法,其核心思想是將分離的匹配項(xiàng)根據(jù)內(nèi)容動態(tài)構(gòu)造匹配樹,以達(dá)到顯著降低計(jì)算量的效果[2]。
規(guī)則引擎的具體推理流程如下:
①將初始數(shù)據(jù)(事實(shí))輸入推理機(jī)中;
②利用模式匹配器比較規(guī)則庫中的數(shù)據(jù)和規(guī)則;
③如果執(zhí)行規(guī)則存在沖突,即同時激活了多個規(guī)則,將沖突的規(guī)則放入沖突集合;
④解決沖突,將激活的規(guī)則按順序放入議程中;
⑤使用執(zhí)行引擎執(zhí)行相應(yīng)的規(guī)則,直到所有規(guī)則執(zhí)行完成。
基于規(guī)則引擎故障診斷系統(tǒng)主要由兩部分構(gòu)成:規(guī)則管理模塊和故障處理模塊,如2 圖所示。
①規(guī)則管理模塊通過對故障規(guī)則庫的維護(hù)實(shí)現(xiàn)對規(guī)則的管理工作。對故障規(guī)則庫的維護(hù)分為手工編輯和自動學(xué)習(xí)兩種方式。手動編輯是依靠規(guī)則維護(hù)人員通過規(guī)則維護(hù)平臺,依據(jù)專家經(jīng)驗(yàn)手動定義、編輯產(chǎn)生故障關(guān)聯(lián)規(guī)則。自動學(xué)習(xí)是依靠對海量告警信息進(jìn)行數(shù)據(jù)挖掘和對樣本長期案例學(xué)習(xí),自動形成故障關(guān)聯(lián)規(guī)則的方式。
②故障處理模塊主要用于故障的關(guān)聯(lián)診斷。規(guī)則處理引擎關(guān)聯(lián)各方資源對告警信息實(shí)現(xiàn)分析處理,準(zhǔn)確定位網(wǎng)絡(luò)中存在的故障問題,找到故障原因,發(fā)布分析預(yù)警信息,降低網(wǎng)絡(luò)故障對整個網(wǎng)絡(luò)運(yùn)行產(chǎn)生的不利影響。其主要部件包括:第一,規(guī)則處理引擎。其是系統(tǒng)的核心。通過獲取告警、拓?fù)湫畔⒉⑴c故障關(guān)聯(lián)規(guī)則實(shí)現(xiàn)邏輯判斷,最終分析出產(chǎn)生告警的根源故障以及該故障在整個網(wǎng)絡(luò)中的具體位置,并將其錄入信息庫中。同時,規(guī)則處理引擎能夠?qū)崿F(xiàn)信息壓縮、合并處理,過濾一些重復(fù)性的告警信息。第二,故障工單處置。對規(guī)則引擎分析出的故障結(jié)果保存到故障信息庫中,由故障專家判斷后,交由故障工單處理模塊按相應(yīng)步驟完成故障處理。典型故障工單處理流程如下所示:首先,需要對分析結(jié)果進(jìn)行故障確認(rèn)。一旦被確認(rèn)為是故障問題,則會自動生成故障工單,并交由相應(yīng)的故障維修人員。其次,故障維修人員在簽收故障工單之后開展專業(yè)性故障處理,完成故障維修后填寫故障回執(zhí)單。最后,由管理員確認(rèn)后即可完成整個故障處理。
圖2 規(guī)則引擎的系統(tǒng)結(jié)構(gòu)示意圖
圖3 故障工單處理流程圖
本系統(tǒng)可以通過手動編輯或者自動學(xué)習(xí)兩種方式形成故障關(guān)聯(lián)診斷規(guī)則。生產(chǎn)的規(guī)則還需要專家經(jīng)驗(yàn)判斷形成最終的診斷規(guī)則[3]。
表1 為一條自動生成的光纜阻斷告警轉(zhuǎn)故障的規(guī)則。如果該告警源為非波分系統(tǒng)群路盤發(fā)生光信號告警,同時,與其相關(guān)的對端非波分群路盤會發(fā)生遠(yuǎn)端接收失效告警,這種情況下可以判斷為連接兩個機(jī)盤的單纜阻斷。生成的故障,屬于緊急故障,無需考慮故障閃斷時間。
表1 單纜阻斷告警轉(zhuǎn)故障規(guī)則
利用規(guī)則推理的方法對通信網(wǎng)絡(luò)設(shè)備進(jìn)行故障相關(guān)性研究,設(shè)計(jì)故障關(guān)聯(lián)推理規(guī)則,獲得一些有價(jià)值的告警規(guī)則和定位根源告警信息,結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖表明所挖掘的關(guān)聯(lián)規(guī)則的合理性,并通過這些告警規(guī)則分析通信網(wǎng)絡(luò)存在的新告警信息,推測告警原因已經(jīng)成為故障根源分析技術(shù)的一種通用性做法。
在本研究中所設(shè)計(jì)的故障診斷系統(tǒng)目前已經(jīng)應(yīng)用于通信網(wǎng)管理系統(tǒng)的故障診斷中。首先通過信息采集設(shè)備采集和檢測通信網(wǎng)故障告警信息;其次利用本系統(tǒng)對海量故障告警信息關(guān)聯(lián)定位分析;再次根據(jù)通信網(wǎng)故障專家的故障確認(rèn),形成故障工單;最后由專業(yè)的故障維修人員進(jìn)行故障處置[4]。
根據(jù)通信網(wǎng)故障專家和工作人員的實(shí)際經(jīng)驗(yàn),針對目前通信網(wǎng)的故障問題可以將其分為線路故障、端口故障、光纜阻斷,路由器故障等。系統(tǒng)在實(shí)際應(yīng)用場景中,對現(xiàn)場運(yùn)行結(jié)果進(jìn)行統(tǒng)計(jì),針對19 類共2609 個網(wǎng)元,一周63224 條原始告警信息和一個月143316 條告警信息進(jìn)行了詳細(xì)地對比分析試驗(yàn),利用該系統(tǒng)對故障的診斷正確率可達(dá)到90%以上。
雖然本研究當(dāng)前階段已經(jīng)初步實(shí)現(xiàn)了故障的采集、分類、診斷和預(yù)測,但是還存在比較大的提升空間。主要問題包括:①大量的關(guān)聯(lián)規(guī)則還需要由人工制定;②對海量數(shù)據(jù)的關(guān)聯(lián)規(guī)則樣本學(xué)習(xí)和數(shù)據(jù)挖掘的結(jié)果還未實(shí)現(xiàn)完全的自動化,還需根據(jù)專家經(jīng)驗(yàn)進(jìn)行人工干預(yù)和判斷準(zhǔn)確性;③對當(dāng)前火熱的數(shù)據(jù)挖掘技術(shù)的研究和探尋還不足;④對故障工單的制定和派發(fā)也需要人工的介入,未能實(shí)現(xiàn)工單的自動生成,派發(fā)過程也未實(shí)現(xiàn)智能化。對于這些問題在未來還需要進(jìn)一步研究和補(bǔ)充,為本故障診斷系統(tǒng)指明未來的研究方向。
通信技術(shù)不斷發(fā)展,由于通信網(wǎng)拓?fù)浣Y(jié)構(gòu)復(fù)雜,尤其是在大型復(fù)雜異構(gòu)型網(wǎng)絡(luò)中,利用網(wǎng)絡(luò)拓?fù)湫畔⑦M(jìn)行故障分析的傳統(tǒng)方法在海量告警信息風(fēng)暴下,應(yīng)用難度越來越大。研制和優(yōu)化故障分析診斷系統(tǒng)是無可辯駁的發(fā)展趨勢。本系統(tǒng)能夠協(xié)助專業(yè)網(wǎng)管系統(tǒng)提高故障關(guān)聯(lián)診斷能力,幫助工作人員及時發(fā)現(xiàn)網(wǎng)絡(luò)故障問題,有效降低診斷時間,以提升網(wǎng)絡(luò)運(yùn)行的可靠性。未來本系統(tǒng)還需要進(jìn)一步提高故障關(guān)聯(lián)診斷率,加強(qiáng)故障診斷的準(zhǔn)確性。