張路青
(武漢市74223信箱 武漢 430074)
隨著艦載裝備的網(wǎng)絡(luò)化、信息化程度不斷提高,艦載網(wǎng)絡(luò)的應(yīng)用范圍日益擴(kuò)大,規(guī)模、復(fù)雜度和能力也不斷提高,已逐漸成為現(xiàn)代艦艇的基礎(chǔ)信息設(shè)施。一旦發(fā)生網(wǎng)絡(luò)故障,致使網(wǎng)絡(luò)性能下降或者通信中斷,將會(huì)給艦艇帶來(lái)巨大的損失,甚至危及艦艇安全。因此,行之有效的網(wǎng)絡(luò)管理是新型艦載網(wǎng)絡(luò)必備的功能,而故障管理又是網(wǎng)絡(luò)管理的重中之重。
網(wǎng)絡(luò)故障的兩個(gè)主要特性是網(wǎng)絡(luò)無(wú)法正常運(yùn)行或差錯(cuò)出現(xiàn)次數(shù)超出了門(mén)限值[1]。而所謂故障管理是利用網(wǎng)絡(luò)管理工具發(fā)現(xiàn)網(wǎng)絡(luò)中的故障、理解其含義并啟動(dòng)糾正措施的過(guò)程,其任務(wù)是檢測(cè)、定位和盡可能修復(fù)網(wǎng)絡(luò)中硬件和軟件的故障,主要包括三個(gè)步驟[2]:
1)發(fā)現(xiàn)故障(即故障檢測(cè));
2)分離故障原因(即故障診斷、定位);
3)如有可能修復(fù)故障。
其工作流程一般如圖1[3]所示。
按照以上故障管理的步驟和流程,故障管理機(jī)制主要涉及故障監(jiān)視發(fā)現(xiàn)和故障診斷,而故障恢復(fù)工作主要是修復(fù)或替換故障組件,不在此重點(diǎn)介紹。
網(wǎng)絡(luò)故障的發(fā)現(xiàn)主要通過(guò)收集與網(wǎng)絡(luò)狀態(tài)相關(guān)的數(shù)據(jù)進(jìn)行分析,一般采用兩種方法[4]:
方法1:被管設(shè)備向管理系統(tǒng)主動(dòng)報(bào)告關(guān)鍵網(wǎng)絡(luò)事件。關(guān)鍵網(wǎng)絡(luò)事件是諸如連接失敗、設(shè)備重新啟動(dòng)或者從一個(gè)主機(jī)來(lái)的響應(yīng)無(wú)法收到等事件。
圖1 故障管理流程
方法2:管理系統(tǒng)定期的查詢網(wǎng)絡(luò)設(shè)備。即定時(shí)地對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行狀態(tài)查詢以及時(shí)發(fā)現(xiàn)故障。但這種方法需要系統(tǒng)在發(fā)現(xiàn)故障所需的及時(shí)程度與所需的帶寬消耗之間進(jìn)行權(quán)衡。
故障診斷在故障發(fā)現(xiàn)之后進(jìn)行,是故障管理中的重點(diǎn)和難點(diǎn)。其實(shí)質(zhì)是完成從網(wǎng)絡(luò)的故障癥狀(告警信息)到網(wǎng)絡(luò)故障原因的映射[5]。目前,主要有以下幾種診斷機(jī)制。
3.2.1 專家系統(tǒng)
專家系統(tǒng)是首先被引入故障診斷領(lǐng)域的人工智能技術(shù),它將領(lǐng)域知識(shí)編成一系列產(chǎn)生式規(guī)則,在推理過(guò)程中將故障征兆與原因結(jié)果直接相連。主要是在知識(shí)庫(kù)和事實(shí)庫(kù)的基礎(chǔ)上進(jìn)行推理。但專家系統(tǒng)存在知識(shí)獲取困難、知識(shí)難以維護(hù)、知識(shí)應(yīng)用面窄、推理能力弱和不適于解決模糊問(wèn)題等缺點(diǎn),使得基于這種技術(shù)的故障診斷專家系統(tǒng)在遇到未見(jiàn)過(guò)的新故障或新信息時(shí),不能正確處理。對(duì)于模糊的故障征兆,難以得到正確的診斷結(jié)果。
3.2.2 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)由大量類似于神經(jīng)元的簡(jiǎn)單處理單元相互連接而成,是模擬生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一種復(fù)雜的、大規(guī)模的非線性系統(tǒng)。其中常用于故障診斷的是前饋式神經(jīng)網(wǎng)絡(luò),它利用連接強(qiáng)度(神經(jīng)元間的連接權(quán)值)和神經(jīng)元的非線性輸入輸出關(guān)系,實(shí)現(xiàn)從輸入狀態(tài)空間到輸出狀態(tài)空間的非線性映射。這種方法具有很好的容錯(cuò)性,通過(guò)對(duì)樣本的學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以發(fā)現(xiàn)其中隱含的信息,建立規(guī)則,最小程度地受人為因素的影響。其局限性有:首先需要較多訓(xùn)練樣本用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)才能使得網(wǎng)絡(luò)收斂,從而得出穩(wěn)定的診斷結(jié)果。難于處理因不完全領(lǐng)域知識(shí)而產(chǎn)生的非單調(diào)性和不精確性。
3.2.3 貝葉斯網(wǎng)絡(luò)
貝葉斯網(wǎng)絡(luò)也叫做置信度網(wǎng)絡(luò)或因果網(wǎng)絡(luò),是一種有向非循環(huán)圖[6],特別適用于概率和不確定性突出的問(wèn)題。在故障管理中,貝葉斯網(wǎng)絡(luò)可以通過(guò)給定告警數(shù)據(jù)推斷出最可能的故障原因。而且貝葉斯網(wǎng)絡(luò)具有魯棒性,在故障告警信息不完全或不精確時(shí),也可評(píng)估出近似的故障診斷結(jié)果。另外還可以對(duì)網(wǎng)絡(luò)故障進(jìn)行一定的預(yù)測(cè),可以在故障發(fā)生前及時(shí)通知管理者采取必要的措施以避免其發(fā)生。
貝葉斯網(wǎng)絡(luò)的難點(diǎn)在于:首先,貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是最基礎(chǔ)且最重要的問(wèn)題。如何根據(jù)被管網(wǎng)絡(luò)的結(jié)構(gòu)和故障間的關(guān)系,合理的確定貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)?是否所有被管對(duì)象、所有故障都要反應(yīng)在貝葉斯網(wǎng)絡(luò)中?如果這些映射關(guān)系設(shè)定的不好,有效的故障診斷根本無(wú)從談起。其次,面對(duì)大型異構(gòu)網(wǎng)絡(luò),貝葉斯網(wǎng)絡(luò)如何學(xué)習(xí)各點(diǎn)的條件概率也是個(gè)不易解決的問(wèn)題。
3.2.4 混合方法
故障診斷研究和應(yīng)用中發(fā)現(xiàn),技術(shù)本身的局限性可能會(huì)導(dǎo)致診斷結(jié)果的不確定性。因此,每種故障診斷技術(shù)都存在其優(yōu)缺點(diǎn),如果將某些方法進(jìn)行一定融合,就可以取長(zhǎng)補(bǔ)短,提高診斷方法的有效性和診斷結(jié)果的精確性。神經(jīng)網(wǎng)絡(luò)與專家系統(tǒng)相結(jié)合就是較為成功的例子。專家系統(tǒng)根據(jù)人類專家領(lǐng)域知識(shí)的相應(yīng)規(guī)則和算法實(shí)現(xiàn),從宏觀上實(shí)現(xiàn)智能行為。神經(jīng)網(wǎng)絡(luò)方法則從微觀上模擬人腦的智能行為,其智能存在于網(wǎng)絡(luò)結(jié)構(gòu)及其自適應(yīng)規(guī)則中,通過(guò)大量樣本學(xué)習(xí),可推廣問(wèn)題的解決范圍,從而有利于克服基于符號(hào)推理方法的知識(shí)獲取瓶頸。其他混合方法還有很多,此處不一一列舉了。
目前在實(shí)際故障管理系統(tǒng)開(kāi)發(fā)中主要還是采用集中式的三層體系結(jié)構(gòu),一般如圖2所示。
1)故障數(shù)據(jù)采集層
主要功能是自動(dòng)采集故障管理所需的相關(guān)數(shù)據(jù),[7]如利用ICMP和SNMP所提供的T RAP機(jī)制作為基本的數(shù)據(jù)獲取手段來(lái)實(shí)現(xiàn)對(duì)故障事件的采集、過(guò)濾和規(guī)格化,并通過(guò)對(duì)故障事件作過(guò)濾和關(guān)聯(lián)等處理,形成固定格式的記錄信息,生成各種設(shè)備故障和網(wǎng)絡(luò)事件報(bào)告。
圖2 故障管理系統(tǒng)層次結(jié)構(gòu)
2)故障數(shù)據(jù)處理層
故障數(shù)據(jù)處理層重要完成故障通報(bào)、故障日志的創(chuàng)建和維護(hù)以及故障重定義等功能。
?故障通報(bào)
當(dāng)故障產(chǎn)生/清除時(shí),故障數(shù)據(jù)處理系統(tǒng)通知上層應(yīng)用更新拓?fù)鋱D上節(jié)點(diǎn)的故障狀態(tài)。
?故障日志創(chuàng)建及維護(hù)
系統(tǒng)對(duì)產(chǎn)生的故障和事件信息進(jìn)行記錄,以便用戶對(duì)歷史故障進(jìn)行查詢。并定期進(jìn)行維護(hù)、備份及刪除。
?故障重定義功能
用戶能夠根據(jù)故障類型、故障級(jí)別等條件對(duì)故障類型和故障級(jí)別進(jìn)行重定義。
3)故障管理應(yīng)用層
?故障實(shí)時(shí)監(jiān)視
故障實(shí)時(shí)監(jiān)視包括故障上報(bào)條件的設(shè)置、故障信息實(shí)時(shí)顯示的過(guò)濾控制、故障提示過(guò)濾條件的管理等功能。
?故障管理
故障管理包括故障顯示、查詢和統(tǒng)計(jì)、故障分析和定位、故障確認(rèn)過(guò)濾條件、故障確認(rèn)與清除等功能。
?故障管理報(bào)表
故障管理報(bào)表以報(bào)表系統(tǒng)方式表現(xiàn),包括故障樹(shù)圖、故障時(shí)報(bào)、網(wǎng)元故障簡(jiǎn)報(bào)、網(wǎng)元故障詳情、網(wǎng)元故障歷史統(tǒng)計(jì)等。
故障管理是未來(lái)新型艦艇中艦載網(wǎng)絡(luò)管理必不可少的功能之一,其有效與否對(duì)網(wǎng)絡(luò)可靠性有著非常重要意義,直接影響新型艦艇的信息化水平。文章從故障管理的基本概念入手,對(duì)故障管理機(jī)制和實(shí)現(xiàn)技術(shù)等核心內(nèi)容進(jìn)行了歸納研究和分析描述,其成果可作為技術(shù)參考,用于艦載網(wǎng)絡(luò)故障管理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)。
[1]雷震甲.計(jì)算機(jī)網(wǎng)絡(luò)管理[M].西安:西安交通大學(xué)出版社,2004
[2]管海兵,白英彩.計(jì)算機(jī)網(wǎng)絡(luò)管理系統(tǒng)設(shè)計(jì)與應(yīng)用[M].上海:上海交通大學(xué)出版社,2004
[3]Mani Subramanian.Network Management Principles and Practice[M].北京:高等教育出版社,2001
[4]曹文君,閻華,沈富可.計(jì)算機(jī)網(wǎng)絡(luò)管理理論與實(shí)踐教程[M].成都:電子科技大學(xué)出版社,2002
[5]候霞,范植華,李鴻培.網(wǎng)絡(luò)故障管理的現(xiàn)狀與發(fā)展[J].計(jì)算機(jī)工程與應(yīng)用,2004(增刊):13~17
[6]Hoagjan Li.An Introduction to Belief Networks[R].CSHCN Technical Report,1999:3l
[7]李悅.利用SNMP對(duì)網(wǎng)絡(luò)管理系統(tǒng)的分析與設(shè)計(jì)[D].天津:天津大學(xué)博士論文,2006