涂婷婷 李德軍
【摘 要】通信網(wǎng)通常是由多個(gè)業(yè)務(wù)網(wǎng)絡(luò)共同構(gòu)成的,當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),會(huì)導(dǎo)致全網(wǎng)告警風(fēng)暴產(chǎn)生。為在大量告警信息中準(zhǔn)確進(jìn)行故障定位和診斷,論文設(shè)計(jì)了故障自動(dòng)診斷系統(tǒng)和相應(yīng)的維護(hù)平臺(tái)。本系統(tǒng)在通信網(wǎng)管理系統(tǒng)中得到了充分利用,實(shí)際應(yīng)用結(jié)果表明,通信網(wǎng)故障診斷系統(tǒng)對(duì)光纜阻斷等故障的診斷準(zhǔn)確率能夠達(dá)到90%以上。
【Abstract】 The communication network is usually composed of multiple service networks. When the network fails, it will lead to the alarm storm of the whole network. In order to locate and diagnose faults accurately in a large amount of alarm information, this paper designs an automatic fault diagnosis system and corresponding maintenance platform. The system has been fully utilized in the communication network management system. The practical application results show that the diagnostic accuracy of the communication network fault diagnosis system for cable blocking and other faults can reach more than 90%.
【關(guān)鍵詞】故障關(guān)聯(lián);多故障;概率;診斷
【Keywords】fault correlation; multiple-fault; probability; diagnosis
【中圖分類號(hào)】TP311.5? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號(hào)】1673-1069(2019)10-0167-03
1 引言
通信網(wǎng)絡(luò)管理的主要任務(wù)是對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)控,確保網(wǎng)絡(luò)在日常運(yùn)行中的穩(wěn)定、高效和可靠。隨著通信技術(shù)的快速發(fā)展和業(yè)務(wù)量的增長(zhǎng),網(wǎng)絡(luò)運(yùn)行告警規(guī)模與頻度也相應(yīng)增長(zhǎng)。特別是在大型復(fù)雜異構(gòu)型網(wǎng)絡(luò)中,判斷引發(fā)設(shè)備告警的原因更加復(fù)雜,需要投入大量的人力物力進(jìn)行監(jiān)控。如何對(duì)海量的告警數(shù)據(jù)進(jìn)行分析和判斷,找出根源故障成為當(dāng)前研究的熱點(diǎn)。
在當(dāng)前的研究中,一是通過研究網(wǎng)絡(luò)告警數(shù)據(jù)的分布特性,提出使用多等級(jí)告警處理模型從而提升故障關(guān)聯(lián)分析效率的方法;
二是提出使用神經(jīng)網(wǎng)絡(luò)對(duì)告警數(shù)據(jù)進(jìn)行分類,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)告警分析的方法。在本研究中提出了采用故障規(guī)則推理引擎,分析現(xiàn)有告警數(shù)據(jù),挖掘出根源故障從而提高故障診斷率的方法。
2 規(guī)則引擎原理
規(guī)則引擎最初來(lái)源于專家系統(tǒng)。該系統(tǒng)屬于人工智能領(lǐng)域,用于人類推理方式的模擬,通過使用探索方法實(shí)現(xiàn)推理并證明這種推理的過程。規(guī)則引擎是基于規(guī)則方式實(shí)現(xiàn)推理的一種重要引擎。該引擎的規(guī)則依托一階邏輯呈現(xiàn)的二元結(jié)構(gòu),其關(guān)注準(zhǔn)確表達(dá)命題和一階邏輯表達(dá),不能含有模糊定義。規(guī)則引擎能夠用于處理大量規(guī)則的推理場(chǎng)景,并將事實(shí)數(shù)據(jù)與產(chǎn)生式規(guī)則匹配,最后通過推理獲得結(jié)論[1]。
2.1 規(guī)則引擎組成
規(guī)則引擎是由規(guī)則庫(kù)、推理機(jī)以及事實(shí)這三大部分共同構(gòu)成,如圖1所示。
規(guī)則庫(kù)能夠用于推理規(guī)則的儲(chǔ)存,規(guī)則是由結(jié)論、條件構(gòu)成的語(yǔ)句,當(dāng)滿足該條件時(shí)能夠激活結(jié)論。推理機(jī)能夠?qū)崿F(xiàn)引擎匹配,決定符合事實(shí)的規(guī)則,并設(shè)置規(guī)則優(yōu)先級(jí),符合條件的規(guī)則會(huì)被加入當(dāng)前議程中。事實(shí)是指對(duì)象之間的多元關(guān)系。
模式匹配器可決定規(guī)則匹配的方式,議程用于管理模式匹配器挑選規(guī)則的執(zhí)行次序,執(zhí)行引擎可用于規(guī)則執(zhí)行。
2.2 推理過程
規(guī)則引擎可以通過規(guī)則維護(hù)人員根歷史據(jù)經(jīng)驗(yàn)對(duì)告警分析歸納并形成規(guī)則或者對(duì)告警數(shù)據(jù)進(jìn)行挖掘和案例學(xué)習(xí)后形成規(guī)則。規(guī)則形成后,推理引擎通過算法匹配決定執(zhí)行順序。從一定程度上來(lái)看,規(guī)則條件、匹配效率直接影響引擎性能。推理引擎需要迅速檢測(cè)工作區(qū)域中的數(shù)據(jù)對(duì)象,從規(guī)則中找到符合相應(yīng)條件的規(guī)則進(jìn)行數(shù)據(jù)分析。大部分規(guī)則引擎產(chǎn)品的算法都來(lái)自于Charles Forgy博士于1979年提出Rete算法及其變體。Rete匹配算法是目前效率最高的一個(gè)前向鏈形推理算法,其核心思想是將分離的匹配項(xiàng)根據(jù)內(nèi)容動(dòng)態(tài)構(gòu)造匹配樹,以達(dá)到顯著降低計(jì)算量的效果[2]。
規(guī)則引擎的具體推理流程如下:
①將初始數(shù)據(jù)(事實(shí))輸入推理機(jī)中;
②利用模式匹配器比較規(guī)則庫(kù)中的數(shù)據(jù)和規(guī)則;
③如果執(zhí)行規(guī)則存在沖突,即同時(shí)激活了多個(gè)規(guī)則,將沖突的規(guī)則放入沖突集合;
④解決沖突,將激活的規(guī)則按順序放入議程中;
⑤使用執(zhí)行引擎執(zhí)行相應(yīng)的規(guī)則,直到所有規(guī)則執(zhí)行完成。
3 基于規(guī)則引擎的故障診斷系統(tǒng)
3.1 系統(tǒng)架構(gòu)
基于規(guī)則引擎故障診斷系統(tǒng)主要由兩部分構(gòu)成:規(guī)則管理模塊和故障處理模塊,如2圖所示。
①規(guī)則管理模塊通過對(duì)故障規(guī)則庫(kù)的維護(hù)實(shí)現(xiàn)對(duì)規(guī)則的管理工作。對(duì)故障規(guī)則庫(kù)的維護(hù)分為手工編輯和自動(dòng)學(xué)習(xí)兩種方式。手動(dòng)編輯是依靠規(guī)則維護(hù)人員通過規(guī)則維護(hù)平臺(tái),依據(jù)專家經(jīng)驗(yàn)手動(dòng)定義、編輯產(chǎn)生故障關(guān)聯(lián)規(guī)則。自動(dòng)學(xué)習(xí)是依靠對(duì)海量告警信息進(jìn)行數(shù)據(jù)挖掘和對(duì)樣本長(zhǎng)期案例學(xué)習(xí),自動(dòng)形成故障關(guān)聯(lián)規(guī)則的方式。
②故障處理模塊主要用于故障的關(guān)聯(lián)診斷。規(guī)則處理引擎關(guān)聯(lián)各方資源對(duì)告警信息實(shí)現(xiàn)分析處理,準(zhǔn)確定位網(wǎng)絡(luò)中存在的故障問題,找到故障原因,發(fā)布分析預(yù)警信息,降低網(wǎng)絡(luò)故障對(duì)整個(gè)網(wǎng)絡(luò)運(yùn)行產(chǎn)生的不利影響。其主要部件包括:第一,規(guī)則處理引擎。其是系統(tǒng)的核心。通過獲取告警、拓?fù)湫畔⒉⑴c故障關(guān)聯(lián)規(guī)則實(shí)現(xiàn)邏輯判斷,最終分析出產(chǎn)生告警的根源故障以及該故障在整個(gè)網(wǎng)絡(luò)中的具體位置,并將其錄入信息庫(kù)中。同時(shí),規(guī)則處理引擎能夠?qū)崿F(xiàn)信息壓縮、合并處理,過濾一些重復(fù)性的告警信息。第二,故障工單處置。對(duì)規(guī)則引擎分析出的故障結(jié)果保存到故障信息庫(kù)中,由故障專家判斷后,交由故障工單處理模塊按相應(yīng)步驟完成故障處理。典型故障工單處理流程如下所示:首先,需要對(duì)分析結(jié)果進(jìn)行故障確認(rèn)。一旦被確認(rèn)為是故障問題,則會(huì)自動(dòng)生成故障工單,并交由相應(yīng)的故障維修人員。其次,故障維修人員在簽收故障工單之后開展專業(yè)性故障處理,完成故障維修后填寫故障回執(zhí)單。最后,由管理員確認(rèn)后即可完成整個(gè)故障處理。
3.2 告警轉(zhuǎn)故障規(guī)則
本系統(tǒng)可以通過手動(dòng)編輯或者自動(dòng)學(xué)習(xí)兩種方式形成故障關(guān)聯(lián)診斷規(guī)則。生產(chǎn)的規(guī)則還需要專家經(jīng)驗(yàn)判斷形成最終的診斷規(guī)則[3]。
表1為一條自動(dòng)生成的光纜阻斷告警轉(zhuǎn)故障的規(guī)則。如果該告警源為非波分系統(tǒng)群路盤發(fā)生光信號(hào)告警,同時(shí),與其相關(guān)的對(duì)端非波分群路盤會(huì)發(fā)生遠(yuǎn)端接收失效告警,這種情況下可以判斷為連接兩個(gè)機(jī)盤的單纜阻斷。生成的故障,屬于緊急故障,無(wú)需考慮故障閃斷時(shí)間。
4 系統(tǒng)應(yīng)用
利用規(guī)則推理的方法對(duì)通信網(wǎng)絡(luò)設(shè)備進(jìn)行故障相關(guān)性研究,設(shè)計(jì)故障關(guān)聯(lián)推理規(guī)則,獲得一些有價(jià)值的告警規(guī)則和定位根源告警信息,結(jié)合網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖表明所挖掘的關(guān)聯(lián)規(guī)則的合理性,并通過這些告警規(guī)則分析通信網(wǎng)絡(luò)存在的新告警信息,推測(cè)告警原因已經(jīng)成為故障根源分析技術(shù)的一種通用性做法。
在本研究中所設(shè)計(jì)的故障診斷系統(tǒng)目前已經(jīng)應(yīng)用于通信網(wǎng)管理系統(tǒng)的故障診斷中。首先通過信息采集設(shè)備采集和檢測(cè)通信網(wǎng)故障告警信息;其次利用本系統(tǒng)對(duì)海量故障告警信息關(guān)聯(lián)定位分析;再次根據(jù)通信網(wǎng)故障專家的故障確認(rèn),形成故障工單;最后由專業(yè)的故障維修人員進(jìn)行故障處置[4]。
根據(jù)通信網(wǎng)故障專家和工作人員的實(shí)際經(jīng)驗(yàn),針對(duì)目前通信網(wǎng)的故障問題可以將其分為線路故障、端口故障、光纜阻斷,路由器故障等。系統(tǒng)在實(shí)際應(yīng)用場(chǎng)景中,對(duì)現(xiàn)場(chǎng)運(yùn)行結(jié)果進(jìn)行統(tǒng)計(jì),針對(duì)19類共2609個(gè)網(wǎng)元,一周63224條原始告警信息和一個(gè)月143316條告警信息進(jìn)行了詳細(xì)地對(duì)比分析試驗(yàn),利用該系統(tǒng)對(duì)故障的診斷正確率可達(dá)到90%以上。
雖然本研究當(dāng)前階段已經(jīng)初步實(shí)現(xiàn)了故障的采集、分類、診斷和預(yù)測(cè),但是還存在比較大的提升空間。主要問題包括:①大量的關(guān)聯(lián)規(guī)則還需要由人工制定;②對(duì)海量數(shù)據(jù)的關(guān)聯(lián)規(guī)則樣本學(xué)習(xí)和數(shù)據(jù)挖掘的結(jié)果還未實(shí)現(xiàn)完全的自動(dòng)化,還需根據(jù)專家經(jīng)驗(yàn)進(jìn)行人工干預(yù)和判斷準(zhǔn)確性;③對(duì)當(dāng)前火熱的數(shù)據(jù)挖掘技術(shù)的研究和探尋還不足;④對(duì)故障工單的制定和派發(fā)也需要人工的介入,未能實(shí)現(xiàn)工單的自動(dòng)生成,派發(fā)過程也未實(shí)現(xiàn)智能化。對(duì)于這些問題在未來(lái)還需要進(jìn)一步研究和補(bǔ)充,為本故障診斷系統(tǒng)指明未來(lái)的研究方向。
5 結(jié)語(yǔ)
通信技術(shù)不斷發(fā)展,由于通信網(wǎng)拓?fù)浣Y(jié)構(gòu)復(fù)雜,尤其是在大型復(fù)雜異構(gòu)型網(wǎng)絡(luò)中,利用網(wǎng)絡(luò)拓?fù)湫畔⑦M(jìn)行故障分析的傳統(tǒng)方法在海量告警信息風(fēng)暴下,應(yīng)用難度越來(lái)越大。研制和優(yōu)化故障分析診斷系統(tǒng)是無(wú)可辯駁的發(fā)展趨勢(shì)。本系統(tǒng)能夠協(xié)助專業(yè)網(wǎng)管系統(tǒng)提高故障關(guān)聯(lián)診斷能力,幫助工作人員及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)故障問題,有效降低診斷時(shí)間,以提升網(wǎng)絡(luò)運(yùn)行的可靠性。未來(lái)本系統(tǒng)還需要進(jìn)一步提高故障關(guān)聯(lián)診斷率,加強(qiáng)故障診斷的準(zhǔn)確性。
【參考文獻(xiàn)】
【1】徐俊潔,陳榮.基于故障關(guān)聯(lián)的多故障概率診斷方法[J].計(jì)算機(jī)科學(xué),2017(4):124-130.
【2】趙旭東.電力通信網(wǎng)絡(luò)故障問題分析及對(duì)策研究[J].信息通信,2017(1):268-269.
【3】譚武坤,楊秋輝,陳偉.基于貝葉斯網(wǎng)絡(luò)的通信網(wǎng)絡(luò)故障定位方法[J].計(jì)算機(jī)應(yīng)用,2018,38(S2):222-225+240.
【4】張書林,劉軍,閆龍川,等.基于深度學(xué)習(xí)的電力骨干通信網(wǎng)故障診斷研究[J].軟件,2018,39(3):202-206.