劉凌峰,竇宇宏,關(guān)一,李厚坤,張曉明
(國(guó)家海洋技術(shù)中心 天津 300112)
海洋觀測(cè)網(wǎng)是我國(guó)海洋觀測(cè)預(yù)報(bào)業(yè)務(wù)的基礎(chǔ)。從技術(shù)上看,海洋觀測(cè)網(wǎng)是包含傳感器、觀測(cè)平臺(tái)、通信網(wǎng)絡(luò)和數(shù)據(jù)傳輸與管理等諸多要素的復(fù)雜系統(tǒng),其高效穩(wěn)定地運(yùn)行是海洋環(huán)境預(yù)報(bào)系統(tǒng)連續(xù)獲得高質(zhì)量基礎(chǔ)數(shù)據(jù)的關(guān)鍵。為了實(shí)時(shí)掌握重要系統(tǒng)的工作情況,研發(fā)它的運(yùn)行狀態(tài)監(jiān)控系統(tǒng)是保障其穩(wěn)定運(yùn)行的常規(guī)方法,例如:電力、電信等行業(yè)均已研發(fā)了針對(duì)本領(lǐng)域業(yè)務(wù)特點(diǎn)的運(yùn)行狀態(tài)監(jiān)控系統(tǒng)[1-2],然而目前我國(guó)尚無(wú)專門(mén)針對(duì)海洋觀測(cè)網(wǎng)的統(tǒng)一監(jiān)控系統(tǒng),現(xiàn)有的部分監(jiān)控系統(tǒng)也只是針對(duì)觀測(cè)網(wǎng)的某個(gè)局部或部分要素進(jìn)行分散管控,其精度和管理的范圍均不能滿足需求。為此,在海洋公益性行業(yè)科研專項(xiàng)的支持下,國(guó)家海洋技術(shù)中心開(kāi)始研發(fā)海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)。本研究簡(jiǎn)要介紹該系統(tǒng)研究與開(kāi)發(fā)的內(nèi)容及成果:第1部分分析系統(tǒng)的業(yè)務(wù)需求;第2部分介紹系統(tǒng)的總體架構(gòu);第3部分重點(diǎn)闡述系統(tǒng)的雙向標(biāo)準(zhǔn)接口;第4部分描述原型系統(tǒng)的開(kāi)發(fā)進(jìn)展及性能測(cè)試情況;第5部分對(duì)全文進(jìn)行了總結(jié)并展望后續(xù)的工作方向。
運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)是海洋觀測(cè)網(wǎng)業(yè)務(wù)化運(yùn)行需求驅(qū)動(dòng)的結(jié)果,本部分簡(jiǎn)要概括這些業(yè)務(wù)需求。
要保障海洋觀測(cè)網(wǎng)的長(zhǎng)期穩(wěn)定業(yè)務(wù)化運(yùn)行,首先需要全面掌握海洋觀測(cè)網(wǎng)各組成要素的運(yùn)行狀態(tài)。為此,必須要建立一套可以完整收集海洋觀測(cè)網(wǎng)全部相關(guān)軟、硬件設(shè)備運(yùn)行狀態(tài)的信息采集系統(tǒng),并將這些狀態(tài)信息定期匯總至各級(jí)監(jiān)控中心,這樣方可在基礎(chǔ)信息層面上實(shí)現(xiàn)觀測(cè)網(wǎng)全網(wǎng)運(yùn)行狀態(tài)的精細(xì)管控,進(jìn)而為后續(xù)基于這些信息進(jìn)行故障檢測(cè)和關(guān)聯(lián)分析奠定基礎(chǔ)。
故障的檢測(cè)具有“遲滯特性”。例如:在一個(gè)配置完備的網(wǎng)絡(luò)中,當(dāng)一個(gè)路由器發(fā)生故障時(shí),數(shù)據(jù)包可繞行其他路徑到達(dá)目的節(jié)點(diǎn),因而在故障發(fā)生初期,用戶很可能察覺(jué)不到故障的存在,但是,由于在繞行鏈路有限的帶寬中匯聚了大量異常流量,將很有可能造成網(wǎng)絡(luò)的擁塞,并最終導(dǎo)致整個(gè)網(wǎng)絡(luò)不可用。因此,及早發(fā)現(xiàn)故障是維持海洋觀測(cè)網(wǎng)穩(wěn)定運(yùn)行的必須,這就要求監(jiān)控系統(tǒng)能夠依據(jù)預(yù)設(shè)的判定規(guī)則實(shí)時(shí)處理獲取到的狀態(tài)信息,及時(shí)檢測(cè)到故障發(fā)生,變故障的“事后發(fā)現(xiàn)”為故障的“事中發(fā)現(xiàn)”,從而縮短故障歷時(shí),盡量減少由于故障所帶來(lái)的損失,提高系統(tǒng)可用性。
傳統(tǒng)的監(jiān)控系統(tǒng)在故障發(fā)生時(shí)會(huì)產(chǎn)生告警的“連鎖效應(yīng)”,即一處故障發(fā)生往往會(huì)導(dǎo)致多處告警。例如:當(dāng)一臺(tái)網(wǎng)絡(luò)設(shè)備發(fā)生故障時(shí),設(shè)備本身、相應(yīng)鏈路以及數(shù)據(jù)傳輸應(yīng)用軟件均會(huì)產(chǎn)生告警,這樣不利于迅速定位和及時(shí)處理故障。因此,監(jiān)控系統(tǒng)必須要具備故障智能診斷和關(guān)聯(lián)分析功能,能夠從告警的“泛洪”[3]中有效地甄別故障源,判斷故障原因,從而可以為運(yùn)維人員提供決策依據(jù),盡快排除故障。
實(shí)現(xiàn)運(yùn)行狀態(tài)信息的獲取、故障診斷、告警是監(jiān)控系統(tǒng)的初級(jí)功能,在基礎(chǔ)信息積累到一定規(guī)模的前提下,對(duì)各類監(jiān)控對(duì)象的工作狀態(tài)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)監(jiān)控對(duì)象的運(yùn)行規(guī)律,結(jié)合其實(shí)際運(yùn)行環(huán)境,對(duì)設(shè)備的穩(wěn)定性、適用性進(jìn)行有效評(píng)估,將故障的“事中發(fā)現(xiàn)”進(jìn)一步提升到“事前預(yù)測(cè)”的水平,這將為提高海洋觀測(cè)網(wǎng)日常維護(hù)工作的針對(duì)性以及后續(xù)設(shè)備的選型提供科學(xué)的輔助決策支持。
基于上述業(yè)務(wù)需求,海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)在層次架構(gòu)設(shè)計(jì)上劃分為信息獲取層、監(jiān)控應(yīng)用層以及信息共享層3個(gè)邏輯層級(jí)(圖1)。
圖1 海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)總體架構(gòu)
海洋觀測(cè)網(wǎng)全部組成要素都是監(jiān)控系統(tǒng)的監(jiān)控對(duì)象(網(wǎng)元),通用狀態(tài)信息提取軟件基于簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)提取這些網(wǎng)元的運(yùn)行狀態(tài)信息[4]。對(duì)于網(wǎng)絡(luò)設(shè)備、主機(jī)等標(biāo)準(zhǔn)的可網(wǎng)管設(shè)備,其本身支持SNMP協(xié)議,按照管理信息庫(kù)(Management Information Base,MIB)中各管理對(duì)象標(biāo)志符(Object Identifier,OID)內(nèi)容的說(shuō)明,通用狀態(tài)信息提取軟件通過(guò)SNMP協(xié)議命令直接獲取這些設(shè)備的狀態(tài)信息。對(duì)于原先不支持SNMP協(xié)議的海洋觀測(cè)設(shè)備(海洋站、浮標(biāo)等),通過(guò)自定義這些設(shè)備的MIB,并在與設(shè)備相連的上位機(jī)部署自主研發(fā)的SNMP代理(Agent)軟件實(shí)現(xiàn)狀態(tài)信息的提取,該代理軟件主要完成兩項(xiàng)功能:其一是與觀測(cè)設(shè)備通信,獲得其運(yùn)行狀態(tài)信息;其二是響應(yīng)狀態(tài)信息提取軟件發(fā)出的標(biāo)準(zhǔn)SNMP請(qǐng)求或自動(dòng)發(fā)出故障信息,將狀態(tài)信息輸出。
完成監(jiān)控系統(tǒng)各項(xiàng)主體功能,包括:狀態(tài)監(jiān)控、拓?fù)淇梢暬?、故障告警、關(guān)聯(lián)分析、統(tǒng)計(jì)評(píng)估以及數(shù)據(jù)查詢等。狀態(tài)監(jiān)控模塊作為該層的總控模塊定期調(diào)用通用狀態(tài)信息提取軟件相應(yīng)模塊獲取各種設(shè)備的狀態(tài)信息;基于拓?fù)浣Y(jié)構(gòu)以可視化形式(運(yùn)轉(zhuǎn)圖或數(shù)據(jù)列表)展現(xiàn)這些狀態(tài)信息;對(duì)于發(fā)生故障的設(shè)備給出告警提示,并采用智能化診斷技術(shù);對(duì)告警的關(guān)聯(lián)性進(jìn)行分析,鎖定故障源;信息查詢模塊可查詢各設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)歷史記錄,統(tǒng)計(jì)評(píng)估模塊對(duì)獲取到的狀態(tài)信息進(jìn)行統(tǒng)計(jì)生成報(bào)表,并可基于故障預(yù)測(cè)模型對(duì)設(shè)備的穩(wěn)定性和適用性進(jìn)行評(píng)估。
以標(biāo)準(zhǔn)化接口將監(jiān)控系統(tǒng)所獲取的運(yùn)行狀態(tài)信息向上層系統(tǒng)輸出?;谧钚碌臉I(yè)務(wù)支撐系統(tǒng)設(shè)計(jì)理念,監(jiān)控系統(tǒng)只是綜合運(yùn)維系統(tǒng)的底層系統(tǒng),綜合運(yùn)維系統(tǒng)將海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)信息和其他相關(guān)系統(tǒng)(如,觀測(cè)數(shù)據(jù)處理系統(tǒng)等)運(yùn)行狀態(tài)信息進(jìn)行綜合關(guān)聯(lián)分析,從而可以獲得海洋觀測(cè)系統(tǒng)整體運(yùn)行狀態(tài),這些狀態(tài)信息可基于統(tǒng)一的地理信息系統(tǒng)(Geographic Information System,GIS)界面進(jìn)行可視化展示,并可依據(jù)信息技術(shù)基礎(chǔ)架構(gòu)庫(kù)(Information Technology Infrastructure Library,ITIL)理論在綜合運(yùn)維系統(tǒng)中開(kāi)展運(yùn)維流程跟蹤。狀態(tài)信息通過(guò)消息中間件(Message Oriented Middleware)向上層系統(tǒng)推送[5],從而構(gòu)成一個(gè)應(yīng)用層通用數(shù)據(jù)網(wǎng)關(guān),輸出的數(shù)據(jù)類型包括:觀測(cè)網(wǎng)基本屬性信息、實(shí)時(shí)性能信息以及故障告警信息,數(shù)據(jù)輸出格式為標(biāo)準(zhǔn)可擴(kuò)展標(biāo)記語(yǔ)言(eXtensible Markup Language,XML)格式。
雙向標(biāo)準(zhǔn)化接口是海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的一個(gè)重要技術(shù)特色,它在信息獲取和信息共享兩個(gè)層面均實(shí)現(xiàn)了接口的標(biāo)準(zhǔn)化,使系統(tǒng)的可擴(kuò)展性大大增強(qiáng)。
狀態(tài)信息獲取接口(即監(jiān)控系統(tǒng)的南向接口)基于簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議(SNMP),這使得信息獲取層的狀態(tài)信息提取軟件可以采用通用的數(shù)據(jù)采集方法,無(wú)需針對(duì)海洋觀測(cè)設(shè)備進(jìn)行專門(mén)的設(shè)計(jì),極大地增強(qiáng)了系統(tǒng)的穩(wěn)定性,并且可以減輕后續(xù)再擴(kuò)充其他觀測(cè)設(shè)備的工作量。SNMP是由Internet活動(dòng)委員會(huì)IAB制定的最為通用的管理TCP/IP網(wǎng)絡(luò)的標(biāo)準(zhǔn)協(xié)議。SNMP協(xié)議的體系結(jié)構(gòu)由3部分組成:信息管理結(jié)構(gòu)(Structure of Management Information,SMI)、管理信息庫(kù)(MIB)以及SNMP協(xié)議。其中,信息管理結(jié)構(gòu)(SMI)可以確定管理信息庫(kù)(MIB)中被管對(duì)象的定義和SNMP報(bào)文的描述規(guī)則,它是構(gòu)成整個(gè)SNMP的基礎(chǔ)。管理信息庫(kù)(MIB)描述了SNMP所用到的管理信息庫(kù)結(jié)構(gòu)及其中變量的定義,它以樹(shù)形結(jié)構(gòu)來(lái)表示。SMI和MIB兩者都遵循OSI的抽象語(yǔ)法表示(ASN.1)規(guī)則定義。SNMP協(xié)議則規(guī)定了管理站和監(jiān)控對(duì)象之間交換管理信息的方法。
海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)開(kāi)發(fā)過(guò)程中設(shè)計(jì)了6種主要海洋觀測(cè)設(shè)備的MIB,這是我國(guó)海洋觀測(cè)系統(tǒng)發(fā)展歷史上首次定義觀測(cè)設(shè)備的MIB。依據(jù)通行的MIB編制規(guī)則,新定義的海洋觀測(cè)設(shè)備管理對(duì)象標(biāo)志符位于iso.org.dod.internet.private.enterprise.notc.inspector 子 樹(shù)下,進(jìn)而分為station、bouy、ship、radarstation 4個(gè)子樹(shù),分別描述海洋站、浮標(biāo)、志愿船以及雷達(dá)站4類觀測(cè)設(shè)備對(duì)象,其中,bouy子樹(shù)又進(jìn)一步分為bbouy和sbouy兩個(gè)子樹(shù),分別描述大型監(jiān)測(cè)浮標(biāo)和中/小型監(jiān)測(cè)浮標(biāo);ship子樹(shù)進(jìn)一步分為fship和nship兩個(gè)子樹(shù),分別描述遠(yuǎn)洋志愿船和近海志愿船。對(duì)于每一類觀測(cè)對(duì)象,MIB中定義的信息主要包括設(shè)備基本屬性信息、設(shè)備運(yùn)行狀態(tài)信息和告警信息。基本屬性信息描述設(shè)備的編號(hào)、區(qū)站代碼、所屬關(guān)系、經(jīng)緯度等靜態(tài)信息內(nèi)容。運(yùn)行狀態(tài)信息包括設(shè)備的電壓、電流,復(fù)位次數(shù)等信息以及各種傳感器的測(cè)量數(shù)據(jù),用以綜合判斷設(shè)備及其所搭載的傳感器的工作狀態(tài)是否正常。告警信息主要規(guī)定由監(jiān)控對(duì)象向管理站發(fā)送的記錄故障信息的Trap消息。在狀態(tài)信息獲取過(guò)程中,管理站中的通用狀態(tài)信息提取軟件的管理進(jìn)程定期請(qǐng)求狀態(tài)信息,監(jiān)控對(duì)象固有或自主研發(fā)的SNMP代理軟件進(jìn)程向其提供標(biāo)準(zhǔn)的SNMP應(yīng)答,實(shí)現(xiàn)了標(biāo)準(zhǔn)的基于網(wǎng)元管理的Manager-Agent交互模型,從而使監(jiān)控應(yīng)用層軟件可以實(shí)時(shí)獲取各類監(jiān)控對(duì)象的運(yùn)行狀態(tài)信息?;赟NMP的信息交換層次架構(gòu)見(jiàn)圖2。
圖2 基于SNMP的信息交換層次架構(gòu)
狀態(tài)信息共享接口(即監(jiān)控系統(tǒng)的北向接口)基于消息中間件技術(shù),消息中間件(Message Oriented Middleware)是用來(lái)構(gòu)建松耦合系統(tǒng)的支持分布式應(yīng)用系統(tǒng)之間同步/異步收發(fā)消息的中間件,該技術(shù)可支持實(shí)時(shí)數(shù)據(jù)推送與接收,可以有效地屏蔽異構(gòu)技術(shù)細(xì)節(jié)而向外提供統(tǒng)一服務(wù),適用于大數(shù)據(jù)量并發(fā)訪問(wèn)。本系統(tǒng)未采用一些應(yīng)用系統(tǒng)之間共享數(shù)據(jù)時(shí)經(jīng)常使用的網(wǎng)絡(luò)服務(wù)(Web Service)接口形式,因?yàn)?Web Service的設(shè)計(jì)思想為被動(dòng)響應(yīng)式提取,并不適用于大量并發(fā)請(qǐng)求的場(chǎng)景,而海洋觀測(cè)網(wǎng)中監(jiān)控對(duì)象(網(wǎng)元)眾多,一些設(shè)備的性能指標(biāo)又很多,如果上層綜合運(yùn)維系統(tǒng)軟件發(fā)出頻繁、大量請(qǐng)求,則提供信息的服務(wù)器響應(yīng)時(shí)延就會(huì)增加,對(duì)服務(wù)器的性能壓力巨大。但是如果降低訪問(wèn)頻率,則又會(huì)造成某些狀態(tài)信息不能及時(shí)反饋到上層系統(tǒng),影響信息交換的實(shí)時(shí)性。采用消息中間件技術(shù)可以有效地解決上述問(wèn)題,因?yàn)橄㈥?duì)列中的數(shù)據(jù)是由信息共享層軟件模塊主動(dòng)推出,可以有效地保障實(shí)時(shí)性,特別是故障發(fā)生時(shí),可及時(shí)將故障告警數(shù)據(jù)上報(bào)上層系統(tǒng),而消息中間件管理消息隊(duì)列并向外系統(tǒng)提供數(shù)據(jù)共享服務(wù)的效率和響應(yīng)特性也遠(yuǎn)高于 Web Service,因此特別適用于海洋觀測(cè)網(wǎng)監(jiān)控信息共享的應(yīng)用場(chǎng)景,第4部分的測(cè)試試驗(yàn)也證明了這一論點(diǎn)。
在實(shí)際系統(tǒng)中,信息共享層的通用數(shù)據(jù)網(wǎng)關(guān)相應(yīng)模塊(傳輸網(wǎng)絡(luò)狀態(tài)信息共享模塊和觀測(cè)設(shè)備狀態(tài)信息共享廣模塊)依據(jù)主題把數(shù)據(jù)推送到消息中間件的各個(gè)隊(duì)列,由消息中間件管理這些數(shù)據(jù),并向綜合運(yùn)維系統(tǒng)或其他系統(tǒng)訂閱該主題的軟件提供。依據(jù)業(yè)務(wù)需求,共建立3個(gè)主題的消息隊(duì)列,即:基本屬性信息隊(duì)列、實(shí)時(shí)性能信息隊(duì)列和故障告警信息隊(duì)列。其中,基本屬性信息隊(duì)列傳輸監(jiān)控對(duì)象的靜態(tài)信息,更新周期一般為24h(發(fā)現(xiàn)設(shè)備變更時(shí)除外);實(shí)時(shí)性能信息隊(duì)列傳輸監(jiān)控對(duì)象的動(dòng)態(tài)信息,更新周期最低為1min(海洋站觀測(cè)設(shè)備);故障告警數(shù)據(jù)隊(duì)列傳輸故障信息,僅在發(fā)現(xiàn)故障時(shí)實(shí)時(shí)更新。數(shù)據(jù)信息采用標(biāo)準(zhǔn)的XML格式封裝,具有較強(qiáng)的通用性,考慮到網(wǎng)絡(luò)安全的要求,系統(tǒng)對(duì)數(shù)據(jù)內(nèi)容進(jìn)行了加密處理。此外,為了提高系統(tǒng)的靈活性,還開(kāi)發(fā)了數(shù)據(jù)共享控制模塊,可對(duì)發(fā)送的信息內(nèi)容和發(fā)送周期進(jìn)行可視化配置。信息共享層軟件架構(gòu)如圖3所示。
圖3 信息共享層軟件架構(gòu)
目前,海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)原型已完成開(kāi)發(fā),初步實(shí)現(xiàn)了海洋觀測(cè)設(shè)備和數(shù)據(jù)傳輸網(wǎng)絡(luò)的一體化監(jiān)控功能,系統(tǒng)與監(jiān)控對(duì)象間的基于SNMP的通用狀態(tài)信息提取軟件以及系統(tǒng)與綜合運(yùn)維系統(tǒng)間的基于消息中間件的通用數(shù)據(jù)網(wǎng)關(guān)也均已研發(fā)完成,可以向上層系統(tǒng)提供基本屬性、實(shí)時(shí)性能和故障告警3類共享信息。
監(jiān)控系統(tǒng)性能最主要的表征是故障發(fā)生時(shí)系統(tǒng)反映的及時(shí)程度,因此考慮兩個(gè)測(cè)試指標(biāo):平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。平均故障發(fā)現(xiàn)時(shí)間是指從故障發(fā)生到系統(tǒng)產(chǎn)生故障告警間隔時(shí)間的均值;而平均故障信息輸出時(shí)間是指從故障發(fā)生到向消息中間件中輸出告警信息間隔時(shí)間的均值。海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)要求是上述兩個(gè)指標(biāo)均小于60s,平均故障發(fā)現(xiàn)時(shí)間Ts計(jì)算公式如下:
式中:n為故障總數(shù);Tei為第i個(gè)故障發(fā)生時(shí)間;Tfi為該故障在系統(tǒng)中產(chǎn)生告警的時(shí)間。
平均故障信息輸出時(shí)間To計(jì)算公式如下:
式中:Tqi為消息中間件告警信息隊(duì)列中該故障的告警信息產(chǎn)生的時(shí)間,其他定義同上式。
測(cè)試場(chǎng)景如下:監(jiān)控系統(tǒng)部署在雙至強(qiáng)E7-4807CPU/32G內(nèi)存的服務(wù)器中,在時(shí)鐘同步的前提下,設(shè)置狀態(tài)信息常規(guī)采樣周期為30s,以100為遞增步長(zhǎng),向監(jiān)控系統(tǒng)加入100~1200個(gè)監(jiān)控對(duì)象(含觀測(cè)設(shè)備、網(wǎng)絡(luò)設(shè)備以及計(jì)算機(jī)/服務(wù)器等),測(cè)試其中隨機(jī)10%的監(jiān)控對(duì)象發(fā)生故障時(shí)系統(tǒng)的平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。
需要說(shuō)明的是,系統(tǒng)的告警按其產(chǎn)生的來(lái)源可以分為兩類:一類是由監(jiān)控對(duì)象發(fā)現(xiàn)并以Trap消息向通用狀態(tài)信息提取軟件主動(dòng)上報(bào)的故障告警,簡(jiǎn)稱網(wǎng)元端告警;另一類是由監(jiān)控應(yīng)用層軟件通過(guò)分析獲取的狀態(tài)信息發(fā)現(xiàn)故障(如:超過(guò)某種預(yù)定的閾值等)進(jìn)而產(chǎn)生的告警,簡(jiǎn)稱系統(tǒng)端告警。圖4和圖5分別描繪了網(wǎng)元端告警和系統(tǒng)端告警的平均故障發(fā)現(xiàn)時(shí)間和平均故障信息輸出時(shí)間。
圖4 網(wǎng)元端告警平均故障發(fā)現(xiàn)和平均故障信息輸出時(shí)間
圖5 系統(tǒng)端告警平均故障發(fā)現(xiàn)和平均故障信息輸出時(shí)間
從測(cè)試結(jié)果可以看出,對(duì)于網(wǎng)元端告警,由于告警信息是由監(jiān)控對(duì)象主動(dòng)發(fā)出,無(wú)需通用狀態(tài)信息提取軟件輪詢采集,其對(duì)監(jiān)控系統(tǒng)的壓力較小,雖然隨著監(jiān)控對(duì)象數(shù)和故障數(shù)的增加,平均故障發(fā)現(xiàn)時(shí)間Ts和平均故障信息輸出時(shí)間To有所上升,但上升幅度并不顯著,在1200個(gè)監(jiān)控對(duì)象的場(chǎng)景下,Ts不大于5.02s,To不大于10.23s。
而對(duì)于系統(tǒng)端告警,在測(cè)試監(jiān)控對(duì)象總數(shù)少于500個(gè)的情況下,系統(tǒng)的平均故障發(fā)現(xiàn)時(shí)間Ts在30s左右波動(dòng)(不大于36.21s),當(dāng)測(cè)試監(jiān)控對(duì)象超過(guò)500個(gè)時(shí),系統(tǒng)平均故障發(fā)現(xiàn)時(shí)間持續(xù)上升至61.45s(1200個(gè)測(cè)試節(jié)點(diǎn))。對(duì)于平均故障信息輸出時(shí)間To,其值亦隨監(jiān)控對(duì)象數(shù)量的增加而升高,但與平均故障發(fā)現(xiàn)時(shí)間Ts的差值始終在2.02~9.11s之間波動(dòng),未表現(xiàn)出明顯的上升趨勢(shì)。
因此,綜合分析上述測(cè)試過(guò)程與結(jié)果,監(jiān)控系統(tǒng)的“瓶頸”在于狀態(tài)信息的獲取,隨著測(cè)試監(jiān)控對(duì)象數(shù)量的增加,輪詢提取狀態(tài)信息所消耗的時(shí)間也在增長(zhǎng)。當(dāng)系統(tǒng)中的監(jiān)控對(duì)象總數(shù)小于1000個(gè)時(shí),平均故障發(fā)現(xiàn)時(shí)間Ts與平均故障信息輸出時(shí)間To均小于60s(分別為53.15s和57.97s),符合海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的設(shè)計(jì)要求,而當(dāng)系統(tǒng)中的監(jiān)控對(duì)象總數(shù)超過(guò)1000個(gè)則無(wú)法滿足設(shè)計(jì)要求,此時(shí)只有采取層級(jí)部署的模式,方可實(shí)現(xiàn)狀態(tài)信息的同步快速提取。而對(duì)于狀態(tài)信息特別是告警信息的輸出,由于采用了松耦合的消息中間件機(jī)制而表現(xiàn)出較好的承載力,不會(huì)造成系統(tǒng)的瓶頸。
研發(fā)海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)是一項(xiàng)開(kāi)創(chuàng)性的工作,在海洋公益性行業(yè)科研專項(xiàng)的支持下,這項(xiàng)工作已經(jīng)產(chǎn)生了一些成果。本研究概括性地介紹了海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的業(yè)務(wù)需求、總體架構(gòu)和原型系統(tǒng)開(kāi)發(fā)情況,重點(diǎn)介紹了與該系統(tǒng)的3項(xiàng)技術(shù)創(chuàng)新點(diǎn):首先是第一次研發(fā)了覆蓋海洋觀測(cè)網(wǎng)全部主要組成要素的運(yùn)行狀態(tài)監(jiān)控系統(tǒng),改變了以往缺乏監(jiān)控或只具備分散監(jiān)控的現(xiàn)狀;第二是定義了海洋觀測(cè)設(shè)備的MIB,研發(fā)了基于SNMP標(biāo)準(zhǔn)協(xié)議的海洋觀測(cè)設(shè)備監(jiān)控代理(Agent)軟件,使海洋觀測(cè)設(shè)備具備了標(biāo)準(zhǔn)化監(jiān)控和管理能力;第三是引入雙向標(biāo)準(zhǔn)化接口的概念,它使監(jiān)控系統(tǒng)向下集成更多監(jiān)控對(duì)象和向上與更高層系統(tǒng)進(jìn)行對(duì)接的能力都大為增強(qiáng)。最后文章描述并分析了系統(tǒng)的性能測(cè)試結(jié)果,給出了單系統(tǒng)部署規(guī)模上限的參考值,為系統(tǒng)投入實(shí)際業(yè)務(wù)化運(yùn)行奠定了良好的理論基礎(chǔ)。
在海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)初步研發(fā)完成后,后續(xù)的工作方向主要有兩個(gè):一是基于現(xiàn)有的標(biāo)準(zhǔn)化信息共享接口研發(fā)上層的綜合運(yùn)維系統(tǒng),全面實(shí)現(xiàn)海洋觀測(cè)系統(tǒng)的綜合保障功能;二是逐步推進(jìn)海洋觀測(cè)設(shè)備監(jiān)控代理軟件與現(xiàn)有觀測(cè)設(shè)備的硬集成,實(shí)現(xiàn)觀測(cè)設(shè)備的智能化。但是,應(yīng)該看到,這兩者都不是簡(jiǎn)單的工作。綜合運(yùn)維的核心——ITIL理論,雖然已提出數(shù)年,但其在業(yè)界真正有效運(yùn)行的案例還很少,究其原因在于它需要與各應(yīng)用領(lǐng)域的特點(diǎn)和具體業(yè)務(wù)需求緊密結(jié)合方可顯現(xiàn)強(qiáng)大的生命力,而且其業(yè)務(wù)化運(yùn)行也需要各層級(jí)用戶的良好配合,否則它只能是一個(gè)軟件框架而缺乏實(shí)際的應(yīng)用價(jià)值。觀測(cè)設(shè)備智能化是一個(gè)技術(shù)趨勢(shì),但受限于設(shè)備目前的通信能力,其實(shí)現(xiàn)程度還不高,一些設(shè)備尚未具備雙向?qū)崟r(shí)通信功能,這在一定程度上阻礙了設(shè)備實(shí)時(shí)管控功能前移的進(jìn)程。總之,海洋觀測(cè)網(wǎng)運(yùn)行狀態(tài)監(jiān)控系統(tǒng)的研究與開(kāi)發(fā)還處在初期階段,雖然目前已取得了一些成果,但還有很多方面值得進(jìn)一步探索。
[1]曹軍威,萬(wàn)宇鑫,涂國(guó)煜 .智能電網(wǎng)信息系統(tǒng)體系結(jié)構(gòu)研究[J].計(jì)算機(jī)學(xué)報(bào),2013(1):143-167.
[2]趙彥敏,張道有 .電信級(jí)客服系統(tǒng)監(jiān)控的研究[J].福州大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2004(4):462-465.
[3]SHARADA K A,HEMANT,PRASHANTH.A model proposed for reducing the false positive alarm rate using the feature of event correlation[J].International Journal of Advanced Research in Computer Science and Software Engineering,2012(8):103-108.
[4]PRAS A,DREVERS T,MEENT R V.Comparing the performance of SNMP and web services-based management[J].IEEE eTNSM-eTransactions on Network and Service Management,2004(2):72-82.
[5]戴大蒙,李虎雄,陳賽 .綜合性能監(jiān)控管理模型的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用,2007(1):252.