摘要: 計(jì)算機(jī)網(wǎng)絡(luò)作為分層管理的系統(tǒng),當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),各層中的網(wǎng)絡(luò)實(shí)體會(huì)檢測(cè)到故障在該層中的癥狀表現(xiàn),發(fā)出相應(yīng)的告警。因此研究面向服務(wù)的分層網(wǎng)絡(luò)的故障管理模型就有著重要的現(xiàn)實(shí)意義。
關(guān)鍵詞: 網(wǎng)絡(luò)實(shí)體;面向服務(wù);分層網(wǎng)絡(luò)
1 現(xiàn)有的主要故障傳播模型
1.1依賴圖故障傳播模型
依賴圖是一個(gè)有向圖G(O,D),其中O是一個(gè)有限的非空對(duì)象集,D是對(duì)象間的邊,表示對(duì)象之間的依賴關(guān)系。在故障傳播的依賴圖模型中,可以為每條邊設(shè)置一個(gè)對(duì)應(yīng)的概率值,表示對(duì)象之間依賴關(guān)系的強(qiáng)度。B. Gruschke在文獻(xiàn)中提出一種依賴圖關(guān)系模型,該模型中,服務(wù)層是直接面向用戶并直接提供各種服務(wù)的最高層次,終端系統(tǒng)是指提供各種服務(wù)的物理設(shè)備,底層是各種網(wǎng)元(按照網(wǎng)絡(luò)功能劃分的網(wǎng)絡(luò)管理系統(tǒng)所管理的基本單元)。為了有效地確定網(wǎng)絡(luò)系統(tǒng)故障的原因,需要進(jìn)行各個(gè)網(wǎng)絡(luò)層次上的事件關(guān)聯(lián)。其中,底層網(wǎng)元之間的關(guān)聯(lián)最為重要。依賴圖是表示底層網(wǎng)元關(guān)聯(lián)的有效方法,依賴圖通過(guò)觀察網(wǎng)絡(luò)運(yùn)行中各種服務(wù)、設(shè)備、網(wǎng)元等各層次內(nèi)和各層次間錯(cuò)綜復(fù)雜的相互關(guān)系來(lái)產(chǎn)生。依賴圖具有以下優(yōu)點(diǎn):
依賴圖更容易從被管理的模型中產(chǎn)生,特別是那些面向?qū)ο蟮南到y(tǒng)模型,其中對(duì)象之間有現(xiàn)成的相互關(guān)系;
圖上允許的操作可以通過(guò)可靠、健壯的方式來(lái)實(shí)現(xiàn),例如,添加或刪除對(duì)象和依賴關(guān)系不會(huì)導(dǎo)致事件關(guān)聯(lián)無(wú)法執(zhí)行;
網(wǎng)元之間的依賴關(guān)系是網(wǎng)絡(luò)管理系統(tǒng)的一個(gè)重要特征,除了依賴關(guān)系外,沒(méi)有屬性、方法及其它。依賴圖中的每個(gè)節(jié)點(diǎn)表示了系統(tǒng)中的MO,每條邊反映了它們之間的依賴性;
根據(jù)依賴關(guān)系所建立的依賴圖可以被自然地、分布式地管理起來(lái),MO和它們之間的依賴關(guān)系可以由不同的管理員獨(dú)立地添加與刪除。
1.2 因果圖故障傳播模型
因果圖是一個(gè)有向無(wú)環(huán)圖。其中E是所有節(jié)點(diǎn)的集合,C是所有節(jié)點(diǎn)之間邊的集合,邊C表示事件間的因果關(guān)系,在網(wǎng)絡(luò)故障診斷系統(tǒng)中,系統(tǒng)中網(wǎng)絡(luò)事件用因果圖的節(jié)點(diǎn)E表示,而網(wǎng)絡(luò)事件間的因果關(guān)系用邊C表示。我們可以在因果圖中為每條邊設(shè)置一個(gè)對(duì)應(yīng)的概率值,表示事件之間因果關(guān)系的強(qiáng)度,為每個(gè)無(wú)父母節(jié)點(diǎn)設(shè)置一個(gè)對(duì)應(yīng)的概率值,表示該事件發(fā)生的先驗(yàn)概率。在現(xiàn)有的網(wǎng)絡(luò)故障診斷方法中,由于因果圖模型提供給系統(tǒng)的是一個(gè)面向事件的視圖,因此和依賴圖模型相比,它更適合故障定位,但是其構(gòu)建比依賴圖模型更為復(fù)雜一些。
2 建立分層網(wǎng)絡(luò)故障管理模型的現(xiàn)實(shí)作用
故障定位同時(shí)對(duì)不同層的告警信息進(jìn)行處理一般來(lái)說(shuō)不是一個(gè)好的方案,一方面會(huì)使需建立的故障傳播模型非常復(fù)雜和龐大;另一方面處理太多的告警信息會(huì)使故障定位效率很低,因?yàn)楣收显\斷非常耗時(shí)。在發(fā)生網(wǎng)絡(luò)故障時(shí),如果每次都在系統(tǒng)的所有部分運(yùn)行故障診斷過(guò)程將造成效率非常低下。分層模型可以有效地解決該問(wèn)題。通過(guò)分層,故障管理可以根據(jù)不同角色的需求、角度和粒度進(jìn)行剪裁,每一層只關(guān)注特定癥狀和故障。在故障診斷時(shí),系統(tǒng)首先根據(jù)高層告警信息從高層的宏觀視圖出發(fā)找到潛在的故障發(fā)生點(diǎn),然后再對(duì)該點(diǎn)的微觀視圖進(jìn)行詳細(xì)分析,以自頂向下的方式進(jìn)行網(wǎng)絡(luò)故障診斷。當(dāng)故障診斷在高層進(jìn)行時(shí),低層故障被匯聚和隱藏,從而簡(jiǎn)化故障診斷任務(wù)。
3 系統(tǒng)的業(yè)務(wù)層故障管理模型分析
在面向服務(wù)的分層網(wǎng)絡(luò)故障管理中,網(wǎng)絡(luò)故障可以在不同層次進(jìn)行管理。其中最上層是系統(tǒng)的業(yè)務(wù)層,該層由應(yīng)用服務(wù)、通信網(wǎng)絡(luò)和訪問(wèn)用戶組成。業(yè)務(wù)層主要關(guān)注服務(wù)是否可用,該層的故障診斷結(jié)果是確定導(dǎo)致服務(wù)不可用的故障發(fā)生在應(yīng)用服務(wù)節(jié)點(diǎn),通信網(wǎng)絡(luò)節(jié)點(diǎn)還是在訪問(wèn)用戶節(jié)點(diǎn)中,而不考慮具體發(fā)生的低層故障。業(yè)務(wù)層可借助一些測(cè)試手段來(lái)確定應(yīng)用服務(wù)是否發(fā)生故障,如模擬用戶調(diào)用、使用心跳輪詢機(jī)制和ICMP報(bào)文調(diào)用。該層的依賴關(guān)系可以根據(jù)應(yīng)用拓?fù)涞玫?,?yīng)用服務(wù)節(jié)點(diǎn)之間存在的依賴關(guān)系可以在服務(wù)創(chuàng)建時(shí)進(jìn)行設(shè)置。
業(yè)務(wù)層中不同類型的節(jié)點(diǎn)分別存在對(duì)應(yīng)的微觀視圖。在應(yīng)用服務(wù)節(jié)點(diǎn)中,一類主要故障是執(zhí)行平臺(tái)故障,即提供服務(wù)的計(jì)算機(jī)或服務(wù)器故障,執(zhí)行平臺(tái)故障的根源可劃分為兩個(gè)類別:軟件故障和硬件異常。軟件故障包括操作系統(tǒng)故障,如宕機(jī)、掛起和死鎖,系統(tǒng)過(guò)載也可歸類為軟件故障。硬件異常主要指配件故障,如電源供應(yīng)中斷、CPU燒壞、硬盤(pán)故障等。駐留在主機(jī)上的代理軟件能幫助檢測(cè)執(zhí)行平臺(tái)故障,如監(jiān)測(cè)平臺(tái)的資源使用率(CPU和內(nèi)存消耗量),并在資源使用率超過(guò)特定閩值時(shí)發(fā)出告警。但在操作系統(tǒng)宕機(jī)或硬件異常時(shí),主機(jī)上的代理軟件將無(wú)法工作,對(duì)于這些故障,可使用心跳和輪詢機(jī)制來(lái)檢測(cè)。另外一類主要故障是服務(wù)的子服務(wù)故障或者服務(wù)依賴的其它服務(wù)發(fā)生故障。
通信網(wǎng)絡(luò)管理關(guān)注于網(wǎng)絡(luò)中網(wǎng)元的管理,主要關(guān)注服務(wù)傳輸問(wèn)題的協(xié)議異常和網(wǎng)絡(luò)設(shè)備故障。協(xié)議故障包括IP地址配置錯(cuò)誤導(dǎo)致的間隙性故障、核心網(wǎng)絡(luò)服務(wù)配置錯(cuò)誤造成的連接問(wèn)題等?,F(xiàn)在的網(wǎng)絡(luò)協(xié)議已具備一定的故障容錯(cuò)能力:TCP協(xié)議可通過(guò)重傳丟失的數(shù)據(jù)包來(lái)提供可靠傳輸;當(dāng)發(fā)生鏈路中斷時(shí),網(wǎng)絡(luò)層的路由恢復(fù)機(jī)制可使通信繞過(guò)故障鏈路。但這些機(jī)制并不能檢測(cè)出故障根源。網(wǎng)絡(luò)設(shè)備的故障模式更為復(fù)雜,常見(jiàn)的網(wǎng)絡(luò)故障包括本地網(wǎng)絡(luò)接口、電纜、集線器、交換機(jī)、路由器的物理故障等等。SNMP是常用網(wǎng)絡(luò)管理協(xié)議,可用來(lái)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備故障。但SNMP是面向設(shè)備的,無(wú)法知曉網(wǎng)絡(luò)服務(wù)連接的信息,而且其故障關(guān)聯(lián)視圖是固定和靜態(tài)的。故障也可分為兩大部分:軟件故障和硬件故障。其中軟件故障主要有客戶端軟件出錯(cuò),軟件設(shè)置錯(cuò)誤,用戶權(quán)限不夠,網(wǎng)絡(luò)配置錯(cuò)誤等。如圖1中無(wú)法訪問(wèn)遠(yuǎn)程的WWW服務(wù),其客戶端的故障就有原因可能是DNS服務(wù)器設(shè)置錯(cuò)誤,IE瀏覽器出錯(cuò)等。通常來(lái)說(shuō),用戶節(jié)點(diǎn)故障不是網(wǎng)絡(luò)管理系統(tǒng)的重點(diǎn),網(wǎng)絡(luò)管理系統(tǒng)偏重于應(yīng)用服務(wù)可用性故障和網(wǎng)絡(luò)通信系統(tǒng)故障這兩部分。對(duì)于服務(wù)提供商來(lái)說(shuō),他們關(guān)注的是應(yīng)用服務(wù)的可用性管理,而網(wǎng)絡(luò)提供商則主要關(guān)注通信網(wǎng)絡(luò)故障。
4網(wǎng)絡(luò)業(yè)務(wù)層、應(yīng)用服務(wù)端及網(wǎng)絡(luò)通信網(wǎng)絡(luò)的二分圖故障傳播模型建立
4.1應(yīng)用服務(wù)端的二分圖故障傳播模型建立
在現(xiàn)代網(wǎng)絡(luò)中,服務(wù)由分布在不同部分的多個(gè)子服務(wù)合成而得是常見(jiàn)的。軟件復(fù)用、服務(wù)組合和企業(yè)應(yīng)用集成技術(shù)表明了軟件技術(shù)發(fā)展的主流方向,這些技術(shù)使得遺留系統(tǒng)和簡(jiǎn)單系統(tǒng)可以被封裝為服務(wù),從而快速構(gòu)建復(fù)雜的新應(yīng)用。服務(wù)之間的依賴關(guān)系有助于構(gòu)建應(yīng)用服務(wù)端的FPM,這些信息通??稍诜?wù)創(chuàng)建階段得到。
在服務(wù)運(yùn)行過(guò)程中,當(dāng)接收到告警信息表明服務(wù)不可用或性能降級(jí),而業(yè)務(wù)層診斷結(jié)果表明故障發(fā)生在應(yīng)用服務(wù)器端時(shí),需啟動(dòng)應(yīng)用服務(wù)端的故障診斷。
4.2 網(wǎng)絡(luò)業(yè)務(wù)層的二分圖故障傳播模型建立
網(wǎng)絡(luò)業(yè)務(wù)層的故障傳播模型通??刹捎脛?dòng)態(tài)創(chuàng)建方式,該模型中的事件節(jié)點(diǎn)為\"用戶節(jié)點(diǎn)A不能訪問(wèn)應(yīng)用服務(wù)節(jié)點(diǎn)B\"之類,故障節(jié)點(diǎn)為系統(tǒng)中可能導(dǎo)致故障事件發(fā)生的節(jié)點(diǎn)。如圖2中,用戶節(jié)點(diǎn)CN1不能訪問(wèn)應(yīng)用服務(wù)節(jié)點(diǎn)SN1,用戶節(jié)點(diǎn)CN2不能訪問(wèn)服務(wù)節(jié)點(diǎn)SNl 故障診斷過(guò)程在高層進(jìn)行故障診斷時(shí),所有低層故障將被看作單一起因。從業(yè)務(wù)層視圖看,故障診斷只需在業(yè)務(wù)層進(jìn)行,如果診斷結(jié)果認(rèn)為故障發(fā)生在應(yīng)用服務(wù)端,則需根據(jù)應(yīng)用服務(wù)端對(duì)應(yīng)的微視圖進(jìn)一步查找故障源。
4.3通信網(wǎng)絡(luò)的二分圖故障傳播模型建立
當(dāng)故障診斷結(jié)果表明服務(wù)不可用和性能降級(jí)的故障根源位于通信網(wǎng)絡(luò)中時(shí),需要啟動(dòng)通信網(wǎng)絡(luò)故障診斷過(guò)程。在網(wǎng)絡(luò)層,用戶對(duì)服務(wù)進(jìn)行訪問(wèn)的通信通道可能跨越多個(gè)自治域。而各個(gè)自治域都配置了管理系統(tǒng),各自進(jìn)行故障診斷和處理,彼此之間交互較少。自治域ASl(處于服務(wù)A和B之間通信通道上)構(gòu)建FPM的過(guò)程。首先使用路由算法得到路由器對(duì)之間的路由,然后根據(jù)網(wǎng)絡(luò)拓?fù)浜吐酚尚畔?gòu)建二分圖故障傳播模型。
參考文獻(xiàn)
[1] 張建雷,業(yè)務(wù)保障模型設(shè)計(jì)與實(shí)現(xiàn),北京郵電大學(xué)學(xué)報(bào),2006.
[2] 黃曉慧. Internet服務(wù)故障管理,北京市:北京郵電大學(xué),2006.
[3] 陳琳,網(wǎng)絡(luò)故障診斷關(guān)鍵技術(shù)的研究,湖南省長(zhǎng)沙市:國(guó)防科技大學(xué),2005.