艾林,張康宏,徐芮,楊旭,趙艷
中國移動(dòng)通信集團(tuán)云南有限公司,云南 昆明 650000
現(xiàn)有網(wǎng)絡(luò)監(jiān)控系統(tǒng)中監(jiān)控故障責(zé)任界定,主要有包捕獲分析、日志分析兩種?;诎东@技術(shù)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)應(yīng)當(dāng)在當(dāng)前網(wǎng)絡(luò)系統(tǒng)下的各交換機(jī)設(shè)備上安設(shè)一個(gè)嗅探系統(tǒng)用于實(shí)現(xiàn)故障監(jiān)控。通過嗅探系統(tǒng)對(duì)傳輸、接收的數(shù)據(jù)包進(jìn)行檢測與分析,將處理結(jié)果向中央管理系統(tǒng)之中發(fā)送,對(duì)于有問題的出舉報(bào)及時(shí)加以處理。但這種網(wǎng)絡(luò)監(jiān)控技術(shù)需要對(duì)每個(gè)數(shù)據(jù)包都進(jìn)行分析,在大數(shù)據(jù)時(shí)代下,面對(duì)海量的數(shù)據(jù)包,勢(shì)必會(huì)大幅影響運(yùn)行速度,這是傳統(tǒng)網(wǎng)絡(luò)監(jiān)控技術(shù)的一個(gè)重要問題,顯然已經(jīng)不能理想地適用在當(dāng)前的網(wǎng)絡(luò)環(huán)境中。
基于日志分析的這種監(jiān)控技術(shù)也同樣有一定的問題,最為突出的就是目前常用的各類網(wǎng)管其日志格式并不能夠有效兼容,所以這種網(wǎng)絡(luò)監(jiān)控技術(shù)只適合制定的兼容廠商所生產(chǎn)的網(wǎng)關(guān),使用存在一定的局限性[1]。過程繁瑣,管理極其不便。隨著市場監(jiān)控點(diǎn)位日益增多,基礎(chǔ)網(wǎng)絡(luò)監(jiān)控設(shè)施設(shè)備規(guī)模也十分龐大、復(fù)雜。與之伴隨的是每天數(shù)以萬計(jì)的監(jiān)控異常事件,這給網(wǎng)絡(luò)監(jiān)控運(yùn)營帶來了巨大的挑戰(zhàn)。
本文從監(jiān)控故障責(zé)任界定過程及存在誤差分析,提出一種基于巡檢分析定位的故障責(zé)任界定方法??赏ㄟ^一個(gè)統(tǒng)一平臺(tái)掌控遠(yuǎn)隔千里的網(wǎng)絡(luò)設(shè)備、服務(wù)器甚至PC,達(dá)到簡化網(wǎng)絡(luò)管理的目的。
從事網(wǎng)絡(luò)監(jiān)控系統(tǒng)開發(fā)的單位很多,但是各個(gè)公司在使用的技術(shù)上卻相差不大,幾乎就是捕獲分析、日志分析這兩種模式的使用。僅僅兩種模式就支撐著整個(gè)網(wǎng)絡(luò)監(jiān)控系統(tǒng)開發(fā)行業(yè),也從側(cè)面代表著對(duì)于網(wǎng)絡(luò)監(jiān)控系統(tǒng)開發(fā)的忽略,沒有引起社會(huì)的注意,更是很少有人注意因其模式落后而帶來的經(jīng)濟(jì)損失。即使有少部分人意識(shí)到了這個(gè)問題,也沒有什么好的辦法去解決,很多技術(shù)人員的思想都已經(jīng)習(xí)慣了僅僅兩種模式的工作狀態(tài),甚至是不太喜歡接受新的方法、排斥新思想、固步自封[2]。
因?yàn)楝F(xiàn)今可見的技術(shù)只有這兩種,且不說這兩種實(shí)現(xiàn)方法過于單一、達(dá)不到創(chuàng)新,可以說當(dāng)今社會(huì),整個(gè)網(wǎng)絡(luò)監(jiān)控系統(tǒng)在開發(fā)領(lǐng)域存在的問題幾乎相同,都是數(shù)據(jù)處理、故障處理、數(shù)據(jù)分析等方面,速度得不到提升,緩慢的速度特別影響故障的搶修效率,同時(shí)也會(huì)增加企業(yè)的維修費(fèi)用。
本文提出的故障責(zé)任界定技術(shù)以告警信息分析模型為核心,通過對(duì)告警信息的采集、分析完成故障的責(zé)任界定。可通過基于告警信息模型的監(jiān)控平臺(tái)對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行遠(yuǎn)程監(jiān)控,提高網(wǎng)絡(luò)管理效率,具體的設(shè)計(jì)思路包括以下幾點(diǎn)。
(1)對(duì)網(wǎng)絡(luò)各點(diǎn)位進(jìn)行實(shí)時(shí)監(jiān)控,采集不同點(diǎn)位的當(dāng)前狀態(tài),分析是否存在故障,如果存在故障則判定屬于設(shè)備故障、電源故障還是網(wǎng)絡(luò)故障。不同故障類型所表現(xiàn)的相關(guān)點(diǎn)位參數(shù)、告警信息是有所不同的,本技術(shù)正是基于這一原理實(shí)現(xiàn)故障責(zé)任的有效鑒別。
(2)在明確故障類型的基礎(chǔ)上,根據(jù)最近鄰分類模型來找到故障的具體定位,找到故障定位后,可以對(duì)癥處理。
(3)本技術(shù)還能夠擴(kuò)展與配置日志報(bào)警策略,滿足不同類型的應(yīng)用需求。還能夠集中管理日志信息,減少人員的運(yùn)維工作量。
通過以上辦法發(fā)現(xiàn)故障責(zé)任界定這個(gè)技術(shù)是實(shí)際解決技術(shù)問題,是如何解決快速定位系統(tǒng)故障并提高準(zhǔn)確性。
故障責(zé)任界定這個(gè)技術(shù)的優(yōu)勢(shì)就是工作流程,在實(shí)際網(wǎng)絡(luò)發(fā)生了故障時(shí),就可以獲取網(wǎng)絡(luò)中相應(yīng)節(jié)點(diǎn)的數(shù)據(jù)并進(jìn)行預(yù)處理得到待測樣本[3]。將待測樣本應(yīng)用于所建立的最近鄰分類模型中,即求取待測樣本與各類別代表點(diǎn)的歐式距離;距離最小的故障類即為故障源,即完成了故障分析。最后,基于告警信息分析模型對(duì)上述故障分析進(jìn)行驗(yàn)證。
故障責(zé)任界定的主要技術(shù)包括日志數(shù)據(jù)的采集,以及將存在問題的數(shù)據(jù)傳輸?shù)街醒牍芾硐到y(tǒng)之中,并入庫保存;通過告警信息分析模型預(yù)判故障類型,區(qū)分網(wǎng)絡(luò)故障、電源故障、設(shè)備故障;監(jiān)控平臺(tái)部署至移動(dòng)內(nèi)網(wǎng),運(yùn)維人員在移動(dòng)內(nèi)網(wǎng)使用該平臺(tái)提供的功能。監(jiān)控平臺(tái)通過內(nèi)網(wǎng)路由配置接入PON網(wǎng)管、PTN網(wǎng)管,實(shí)現(xiàn)告警日志采集、終端ONU狀態(tài)采集、前端點(diǎn)位故障等告警信息的實(shí)時(shí)采集。
告警信息分析模型具體包括,先通過網(wǎng)絡(luò)拓?fù)浍@取各樣本并進(jìn)行聚類形成樣本集,通常能夠獲取3個(gè)集合簇,對(duì)每個(gè)簇分別標(biāo)號(hào),就形成了3個(gè)帶有標(biāo)號(hào)的樣本集。所述3個(gè)類別分別為網(wǎng)絡(luò)類、電源類和設(shè)備類,對(duì)每個(gè)類別求均值作為該類別的代表,并以此利用最近鄰分類法建立分類模型。若實(shí)際網(wǎng)絡(luò)發(fā)生了故障,則獲取網(wǎng)絡(luò)中相應(yīng)節(jié)點(diǎn)的數(shù)據(jù)并進(jìn)行預(yù)處理得到待測樣本。
故障的責(zé)任界定需要由系統(tǒng)在巡檢時(shí)對(duì)攝像頭IP或是MAC地址的在線情況進(jìn)行采集,如果未發(fā)現(xiàn)攝像頭在線,則繼續(xù)對(duì)攝像頭對(duì)應(yīng)的ONU在線情況進(jìn)行采集。如果ONU在線,那么則判定是攝像頭故障;如果ONU不在線,那么需要繼續(xù)對(duì)ONU的告警信息進(jìn)行采集,檢查是否存在掉電告警。如果存在,則可判定是電源故障問題;如果不存在,則判斷為網(wǎng)絡(luò)故障(見圖1)。
圖1 故障責(zé)任界定示意圖
(1)采集點(diǎn)位狀態(tài),并判斷系統(tǒng)是否存在異常。
(2)若存在異常,則采集網(wǎng)絡(luò)狀態(tài)并判斷是否存在異常;若正常,則判定設(shè)備故障,若不正常,則轉(zhuǎn)步驟3;獲取當(dāng)前網(wǎng)絡(luò)的IP地址、網(wǎng)關(guān)等訊息具體包括以下步驟:
開始→運(yùn)行→輸入:CMD點(diǎn)擊確定(或按回車鍵),打開命令提示符窗口;
先在命令提示符窗口輸入:ipconfig /all →回車執(zhí)行命令;
若本地主機(jī)中有兩張網(wǎng)卡,那么通常以太網(wǎng)卡為有線網(wǎng)絡(luò)的網(wǎng)卡設(shè)備,本地連接;
如果是無線網(wǎng)卡網(wǎng)絡(luò),則是無線局域網(wǎng)適配器 無線網(wǎng)絡(luò)連接;
使用tracert命令測試網(wǎng)絡(luò)狀態(tài),命令格式為:tracert+空格+IP地址(通常是IPv4),按回車鍵執(zhí)行命令,直到跟蹤完成。
(3)對(duì)電源的狀態(tài)進(jìn)行采集,評(píng)估是否存在異常問題。如果存在異常,則認(rèn)為是網(wǎng)絡(luò)故障問題;如果不存在,則進(jìn)入到步驟S4。
(4)對(duì)電源故障進(jìn)行判定。
(5)通過告警信息分析模型來驗(yàn)證故障定位,包括以下兩步:
①利用告警數(shù)據(jù)采集的接口,向設(shè)備輸入采集告警信息,并保存;
②設(shè)備通過告警信息分析模型對(duì)采集的信息進(jìn)行分析,判斷具體的故障類型,分析是屬于網(wǎng)絡(luò)、電源還是設(shè)備方面的故障。
基于以上技術(shù)的故障監(jiān)控平臺(tái)設(shè)置在移動(dòng)內(nèi)網(wǎng)中,運(yùn)維人員可以在內(nèi)網(wǎng)中通過這一平臺(tái)完成網(wǎng)絡(luò)的故障監(jiān)控。并且平臺(tái)經(jīng)內(nèi)網(wǎng)路由器可以和網(wǎng)關(guān)相連接,從而有效采集告警日志、前端及終端的狀態(tài)信息[4]。
在上述公式里,v代表類標(biāo)號(hào),yi表示最鄰近類標(biāo)號(hào)。I表示指示函數(shù),如果函數(shù)中的參數(shù)為真,那么返回1,參數(shù)不為真則返回至0。
在最近鄰模型中要選擇對(duì)應(yīng)的K值,使本模型能夠有效運(yùn)作,因?yàn)榫W(wǎng)絡(luò)之中的某種故障例存在的故障個(gè)數(shù)存在較大差異,會(huì)造成K值難以確定,因此本模型采用的是以每種故障所包括的樣本集均值作為這類故障代表的分類法,表示為1-最近鄰分類法。
現(xiàn)在網(wǎng)絡(luò)監(jiān)控系統(tǒng)開發(fā)方面的問題受到了很多關(guān)注,也有專業(yè)人員進(jìn)行技術(shù)上的創(chuàng)新,努力將現(xiàn)今存在的問題進(jìn)行優(yōu)化。也有很多人申請(qǐng)了相關(guān)專利。在網(wǎng)絡(luò)監(jiān)控領(lǐng)域的故障責(zé)任界定的方法這個(gè)技術(shù)的研究中,其創(chuàng)新性與新穎性也是尤為突出的。特別是將其與隨機(jī)找來的三篇文章中涉及的相關(guān)技術(shù)進(jìn)行對(duì)比,尤為明顯。
“基于故障錄波與雷電定位系統(tǒng)的電網(wǎng)故障定位方法”公開了一種基于故障錄波與雷電定位系統(tǒng)的電網(wǎng)故障定位方法,采用故障實(shí)時(shí)通報(bào),克服了人工查詢帶來的不及時(shí)性,使故障查詢、定位、通報(bào)自動(dòng)化,減輕了工作量,為相關(guān)工作人員減輕負(fù)擔(dān)。故障錄波法與雷電定位系統(tǒng)的結(jié)合使故障后判斷故障原因是否為雷擊故障有了依據(jù),使通報(bào)結(jié)果可以展示是否為雷擊故障,提高了單獨(dú)采用故障錄波進(jìn)行故障定位和單獨(dú)采用雷電定位系統(tǒng)進(jìn)行雷電故障定位的精確度。
該方法與故障責(zé)任界定這個(gè)技術(shù)的區(qū)別就是對(duì)故障分析采用順序排除法,獲得故障分析結(jié)果,并進(jìn)行故障分析結(jié)果驗(yàn)證,將采集到的告警信息輸入告警消息分析模型獲得故障類型,所述告警消息模型為最近鄰分類法進(jìn)行分類。
相較于“使用故障定位報(bào)文進(jìn)行故障定位的方法”公開了使用故障定位報(bào)文進(jìn)行故障定位的方法及裝置,其與故障責(zé)任界定這個(gè)技術(shù)的區(qū)別就是通過依次對(duì)網(wǎng)絡(luò)狀態(tài)判定、電源狀態(tài)判定獲得故障分析結(jié)果。
相較于“基于多元故障采集的配電網(wǎng)故障定位系統(tǒng)、方法及服務(wù)器”公開了基于多元故障采集的配電網(wǎng)故障定位系統(tǒng),其與故障責(zé)任界定這個(gè)技術(shù)的區(qū)別就是通過順序排除法,排除正常的網(wǎng)絡(luò),找到出現(xiàn)故障的系統(tǒng)裝置[5]。
在對(duì)比中就可以看出近幾年來,相關(guān)技術(shù)人員都在努力創(chuàng)新,將之前的技術(shù)漏洞進(jìn)行優(yōu)化,想要將我國的網(wǎng)絡(luò)監(jiān)控系統(tǒng)開發(fā)行業(yè)做大做強(qiáng),為祖國未來的發(fā)展添磚加瓦。參與的技術(shù)人員的思想沒有被之前技術(shù)的發(fā)展方向所禁錮,能夠勇于跳出舒適圈,探索一個(gè)新的方向。
故障責(zé)任界定的技術(shù)效果的初心是為通過順序排除法,快速找到系統(tǒng)故障定位,并通過驗(yàn)證提高定位的準(zhǔn)確性。
綜上所述,在故障發(fā)生后,如果能及時(shí)定位和排除故障,會(huì)挽回曾經(jīng)絕大部分的經(jīng)濟(jì)損失。所以故障責(zé)任界定這個(gè)技術(shù)的出現(xiàn),可以避免因?yàn)榫W(wǎng)絡(luò)故障導(dǎo)致的運(yùn)作失靈以及所帶來的經(jīng)濟(jì)損失,從而有效保障網(wǎng)絡(luò)運(yùn)作的安全性。通過本文提出的網(wǎng)絡(luò)監(jiān)控技術(shù),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)故障問題,判斷故障所在位置及類型,得以及時(shí)有效加以處理,避免故障帶來的不利影響。