馮 冼,李 熠
(1.湘潭大學(xué)計(jì)算機(jī)學(xué)院·網(wǎng)絡(luò)空間安全學(xué)院,湖南 湘潭 411100;2.湖南省氣象信息中心/氣象防災(zāi)減災(zāi)湖南省重點(diǎn)實(shí)驗(yàn)室,長沙 410118)
隨著氣象現(xiàn)代化不斷推進(jìn),省級(jí)氣象業(yè)務(wù)服務(wù)不斷拓展,涵蓋觀測、預(yù)報(bào)、服務(wù)、管理在內(nèi)的各類氣象業(yè)務(wù)服務(wù)系統(tǒng)越來越多,氣象數(shù)據(jù)資料種類和數(shù)量海量增長,支撐氣象業(yè)務(wù)的基礎(chǔ)資源越來越龐大,業(yè)務(wù)系統(tǒng)也變得更加復(fù)雜,出故障的概率也變大[1-3],給監(jiān)控和運(yùn)維管理帶來了嚴(yán)峻挑戰(zhàn)。為解決各類氣象業(yè)務(wù)監(jiān)控管理問題,各級(jí)氣象部門不斷研發(fā)各類氣象監(jiān)控系統(tǒng)并投入應(yīng)用,在一定程度上緩解了部分氣象業(yè)務(wù)監(jiān)控管理問題[4-7]。但由于缺乏統(tǒng)一的設(shè)計(jì)思路,沒有實(shí)現(xiàn)業(yè)務(wù)監(jiān)控上下游聯(lián)動(dòng),信息孤島現(xiàn)象凸顯[8,9]。在出現(xiàn)故障時(shí),運(yùn)維人員往往要從采集、傳輸、處理、共享、應(yīng)用等多個(gè)環(huán)節(jié)查找原因,要人工逐一檢查觀測端、傳輸系統(tǒng)、處理系統(tǒng)、存儲(chǔ)系統(tǒng)、服務(wù)系統(tǒng)等多個(gè)系統(tǒng)的運(yùn)行狀況,耗時(shí)長、效率低、故障定位不準(zhǔn)、監(jiān)控運(yùn)維效率不高,成為制約氣象信息保障業(yè)務(wù)發(fā)展的短板,亟待解決。為解決上述問題,湖南省基于氣象大數(shù)據(jù)云平臺(tái)框架,采用云計(jì)算、分布式等技術(shù),設(shè)計(jì)并構(gòu)建了一體化的氣象綜合業(yè)務(wù)監(jiān)控平臺(tái)。該平臺(tái)打通氣象業(yè)務(wù)、數(shù)據(jù)、支撐環(huán)境不同架構(gòu),整合各類分散的監(jiān)控系統(tǒng),實(shí)現(xiàn)了貫穿氣象數(shù)據(jù)全流程各環(huán)節(jié)的智能化運(yùn)維,滿足省級(jí)氣象綜合業(yè)務(wù)集中統(tǒng)一監(jiān)控的需求,極大地提升了運(yùn)維保障效率。
為應(yīng)對(duì)氣象數(shù)據(jù)中心規(guī)模日益增長的需求,監(jiān)控運(yùn)維必須走向流程化管理的道路,優(yōu)化體系架構(gòu)、管理流程和管理信息模型,適應(yīng)不同角色職能配置管理,提升運(yùn)維管理效率。據(jù)此,湖南省采用扁平化、模塊化的設(shè)計(jì)思路,基于省級(jí)氣象信息網(wǎng)絡(luò)、硬件基礎(chǔ)設(shè)施、業(yè)務(wù)服務(wù)系統(tǒng)及配套軟件實(shí)際,設(shè)計(jì)了一套氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái),橫向覆蓋觀測、預(yù)報(bào)、服務(wù)、信息、政務(wù)等氣象全業(yè)務(wù),縱向貫穿氣象數(shù)據(jù)采集、傳輸、處理、存儲(chǔ)、加工、服務(wù)生命周期全流程,范圍囊括場地環(huán)境、網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、中間件、應(yīng)用軟件等全要素,實(shí)現(xiàn)監(jiān)控運(yùn)維業(yè)務(wù)體系架構(gòu)、管理流程的統(tǒng)一化,有效解決省級(jí)氣象監(jiān)控運(yùn)維及信息業(yè)務(wù)管理分散、運(yùn)維效率不高的問題。
信息化是當(dāng)今世界發(fā)展的大趨勢,云計(jì)算、大數(shù)據(jù)、分布式技術(shù)的發(fā)展為氣象信息化提供了智慧引擎,從氣象業(yè)務(wù)、科研、管理到服務(wù)都將在大數(shù)據(jù)支撐下走向智慧化[10],也為解決氣象信息化建設(shè)中大規(guī)模分布式數(shù)據(jù)管理、面向服務(wù)應(yīng)用集成、快速高效運(yùn)維監(jiān)控等問題提供了有力手段。湖南省氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)充分運(yùn)用云計(jì)算、大數(shù)據(jù)、智能監(jiān)控等現(xiàn)代技術(shù),基于分布式架構(gòu)的分層模型進(jìn)行設(shè)計(jì),利用其高并發(fā)、高擴(kuò)展性的特點(diǎn),強(qiáng)化大規(guī)模監(jiān)控?cái)?shù)據(jù)實(shí)時(shí)高效處理和分析能力,實(shí)現(xiàn)對(duì)海量告警信息的過濾、壓縮、關(guān)聯(lián)、轉(zhuǎn)發(fā)以及自動(dòng)化運(yùn)維腳本執(zhí)行,自動(dòng)對(duì)系統(tǒng)運(yùn)行性能數(shù)據(jù)進(jìn)行跟蹤、瓶頸分析和趨勢分析,支撐端到端的智能化運(yùn)維管理模式,變被動(dòng)監(jiān)控為主動(dòng)管理,助力智慧氣象發(fā)展。其分層結(jié)構(gòu)如圖1所示。
圖1 平臺(tái)分層模型
1)應(yīng)用層。應(yīng)用層基于湖南省氣象綜合業(yè)務(wù)多場景監(jiān)控的需求進(jìn)行設(shè)計(jì),涵蓋氣象業(yè)務(wù)和數(shù)據(jù)監(jiān)控以及運(yùn)維保障各模塊。數(shù)據(jù)流程監(jiān)控模塊實(shí)現(xiàn)氣象數(shù)據(jù)從采集端,途經(jīng)CTS、DPC、SOD、MUSIC至服務(wù)端全生命周期的監(jiān)控管理;業(yè)務(wù)系統(tǒng)監(jiān)控模塊對(duì)省級(jí)氣象核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)流轉(zhuǎn)狀況、操作系統(tǒng)及業(yè)務(wù)進(jìn)程運(yùn)行狀況、基礎(chǔ)資源使用情況進(jìn)行動(dòng)態(tài)監(jiān)控管理;基礎(chǔ)環(huán)境監(jiān)控模塊利用拓?fù)浒l(fā)現(xiàn)功能對(duì)各類主機(jī)設(shè)備、網(wǎng)絡(luò)設(shè)備、機(jī)房環(huán)境實(shí)行統(tǒng)一管理,并實(shí)行對(duì)資源的動(dòng)態(tài)增刪改,以達(dá)到資源管理最優(yōu)化。
2)支撐層。設(shè)計(jì)集成支撐環(huán)境層,匯集異構(gòu)的氣象信息數(shù)據(jù)和業(yè)務(wù)服務(wù)應(yīng)用數(shù)據(jù),支撐涵蓋不同數(shù)據(jù)庫、不同平臺(tái)的氣象系統(tǒng)結(jié)構(gòu)化監(jiān)控?cái)?shù)據(jù)、非結(jié)構(gòu)化文本數(shù)據(jù)以及其他氣象應(yīng)用數(shù)據(jù)無縫接入,再通過統(tǒng)一的API接口支撐應(yīng)用層對(duì)開發(fā)、部署和管理的數(shù)據(jù)需求?;赟pring Boot輕量級(jí)開源應(yīng)用框架[11],采用OpenAPI構(gòu)建標(biāo)準(zhǔn)化、開放式氣象監(jiān)控業(yè)務(wù)支撐結(jié)構(gòu),為應(yīng)用層WEB服務(wù)及Java應(yīng)用提供支撐;采用Nginx構(gòu)建輕量級(jí)的WEB服務(wù)器[12],支撐海量氣象業(yè)務(wù)系統(tǒng)監(jiān)控?cái)?shù)據(jù)實(shí)時(shí)、高速處理的需求。WEB平臺(tái)基于HXGIS進(jìn)行二次開發(fā),滿足省、市、縣分級(jí)地圖展示需求;采用JavaScript的開源可視化庫Echarts、三維可視化組件、標(biāo)準(zhǔn)化的HTML5語言實(shí)現(xiàn)多樣化圖表展示,同時(shí)兼容主流各類瀏覽器,便于平臺(tái)在不同環(huán)境部署應(yīng)用。
3)數(shù)據(jù)層。設(shè)計(jì)包含模型、指標(biāo)、狀態(tài)等數(shù)據(jù)的處理平臺(tái)層,對(duì)各類融合型氣象業(yè)務(wù)監(jiān)控?cái)?shù)據(jù)進(jìn)行流式標(biāo)準(zhǔn)化處理和集中存儲(chǔ)。針對(duì)不同類型的監(jiān)控?cái)?shù)據(jù),構(gòu)建不同的API數(shù)據(jù)接口,便于進(jìn)行讀寫及加工處理。處理的數(shù)據(jù)包括氣象業(yè)務(wù)狀態(tài)數(shù)據(jù)(如基礎(chǔ)設(shè)施狀態(tài)、氣象業(yè)務(wù)流程狀況等)、業(yè)務(wù)運(yùn)行指標(biāo)數(shù)據(jù)(如氣象觀測數(shù)據(jù)可用性、服務(wù)器和網(wǎng)絡(luò)設(shè)備性能狀態(tài)等)。為便于支撐層的數(shù)據(jù)接入,在數(shù)據(jù)層基于狀態(tài)數(shù)據(jù)集與指標(biāo)數(shù)據(jù)集建立了相應(yīng)模型數(shù)據(jù)、活動(dòng)數(shù)據(jù)(活動(dòng)進(jìn)程、解析服務(wù)等)、文件數(shù)據(jù)(如視頻、圖片數(shù)據(jù))支撐接口(數(shù)據(jù)庫接口、API接口、FTP接口)。
4)采集層。構(gòu)建統(tǒng)一的采集控制平臺(tái),提供分布式資源采控系統(tǒng)框架,支持第三方系統(tǒng)集成納管。針對(duì)省級(jí)各類氣象業(yè)務(wù)系統(tǒng)、數(shù)據(jù)資源、基礎(chǔ)設(shè)施特性,采集層提供了Agent、API、MQ、日志、SNMP等不同采集方式。部署Agent采集代理對(duì)湖南省氣象各類業(yè)務(wù)服務(wù)系統(tǒng)運(yùn)行狀況及服務(wù)器系統(tǒng)的CPU、網(wǎng)絡(luò)、內(nèi)存、磁盤實(shí)時(shí)運(yùn)行狀況進(jìn)行監(jiān)控?cái)?shù)據(jù)采集,通過API接口、MQ消息、日志等方式采集氣象數(shù)據(jù)全流程各環(huán)節(jié)狀態(tài)信息,采用SNMP及網(wǎng)絡(luò)相鄰協(xié)議采集本省網(wǎng)絡(luò)資源及線路情況,適應(yīng)省級(jí)綜合監(jiān)控業(yè)務(wù)需求。
湖南省氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)基于開放式的框架設(shè)計(jì),實(shí)現(xiàn)對(duì)氣象業(yè)務(wù)系統(tǒng)運(yùn)行、數(shù)據(jù)傳輸流程、基礎(chǔ)設(shè)施資源的總體監(jiān)控運(yùn)維。支持氣象業(yè)務(wù)運(yùn)行監(jiān)控的策略配置與實(shí)時(shí)告警,可以對(duì)監(jiān)視界面進(jìn)行靈活的可視化組合定制。其功能結(jié)構(gòu)如圖2所示。
圖2 平臺(tái)功能結(jié)構(gòu)
1)氣象業(yè)務(wù)系統(tǒng)監(jiān)控。設(shè)計(jì)開放融合、可視化的氣象業(yè)務(wù)實(shí)時(shí)監(jiān)控模塊,覆蓋觀測、預(yù)報(bào)、服務(wù)和管理等氣象業(yè)務(wù)全領(lǐng)域,實(shí)現(xiàn)對(duì)氣象觀測業(yè)務(wù)、氣象預(yù)報(bào)預(yù)測核心業(yè)務(wù)系統(tǒng)、氣象服務(wù)以及氣象業(yè)務(wù)管理的統(tǒng)一監(jiān)控和集中告警的有機(jī)融合,支撐各類氣象業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行。
2)數(shù)據(jù)全流程監(jiān)控。以氣象數(shù)據(jù)流程為主線開展氣象數(shù)據(jù)全生命周期的環(huán)節(jié)監(jiān)控,在業(yè)務(wù)分類上包括氣象數(shù)據(jù)上行、氣象數(shù)據(jù)下行、氣象數(shù)據(jù)共享及氣象數(shù)據(jù)服務(wù)接口等部分;在業(yè)務(wù)環(huán)節(jié)上涵蓋省級(jí)氣象數(shù)據(jù)采集、數(shù)據(jù)收集、數(shù)據(jù)加工處理、數(shù)據(jù)存儲(chǔ)服務(wù)、數(shù)據(jù)分析應(yīng)用等全過程。
3)基礎(chǔ)設(shè)施資源監(jiān)控。設(shè)計(jì)省級(jí)氣象基礎(chǔ)設(shè)施資源監(jiān)控管理的統(tǒng)一門戶系統(tǒng),實(shí)現(xiàn)對(duì)氣象基礎(chǔ)設(shè)施云平臺(tái)、氣象大數(shù)據(jù)云平臺(tái)、信息網(wǎng)絡(luò)及安全系統(tǒng)、機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng)的統(tǒng)一監(jiān)控、調(diào)度與管理。具備對(duì)服務(wù)器、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)等基礎(chǔ)設(shè)施資源的統(tǒng)一申請(qǐng)、分配和調(diào)度,支撐實(shí)現(xiàn)氣象基礎(chǔ)設(shè)施資源彈性配置和高效利用。
4)集中告警管理。設(shè)計(jì)集中告警管理配置模塊,集約業(yè)務(wù)系統(tǒng)、數(shù)據(jù)流程、基礎(chǔ)設(shè)施告警功能,并可根據(jù)業(yè)務(wù)不同進(jìn)行靈活策略配置;設(shè)計(jì)涵蓋監(jiān)控、流程和運(yùn)維等環(huán)節(jié)的可視化視圖,實(shí)現(xiàn)對(duì)各類氣象業(yè)務(wù)、數(shù)據(jù)、資源運(yùn)行狀況的實(shí)時(shí)感知、全局管控;設(shè)計(jì)后臺(tái)權(quán)限配置管理功能,對(duì)氣象用戶、業(yè)務(wù)節(jié)點(diǎn)、資料環(huán)節(jié)、業(yè)務(wù)規(guī)則進(jìn)行統(tǒng)一的管理與權(quán)限配置,保障系統(tǒng)運(yùn)行安全可控。
為實(shí)現(xiàn)了各類監(jiān)控信息統(tǒng)一采控,設(shè)計(jì)了統(tǒng)一采集控制平臺(tái),構(gòu)建各監(jiān)控運(yùn)維模塊和被管設(shè)備資源之間聯(lián)絡(luò)通訊的統(tǒng)一通道,解決各類不同來源監(jiān)控?cái)?shù)據(jù)分散采集的問題。分布式架構(gòu)的采集控制平臺(tái)可實(shí)現(xiàn)級(jí)聯(lián)化的信息采集與管理控制,設(shè)計(jì)緩沖隊(duì)列適應(yīng)高并發(fā)數(shù)據(jù)實(shí)時(shí)處理,利用隊(duì)列來對(duì)數(shù)據(jù)進(jìn)行消峰,滿足氣象業(yè)務(wù)高峰時(shí)期秒級(jí)采集間隔需求,適應(yīng)中大規(guī)?;A(chǔ)設(shè)施資源與業(yè)務(wù)應(yīng)用監(jiān)控和運(yùn)維管理。采集控制平臺(tái)充分融合模塊化方法和插件技術(shù),使其具備靈活的擴(kuò)展能力。業(yè)務(wù)流程數(shù)據(jù)、應(yīng)用監(jiān)控?cái)?shù)據(jù)、監(jiān)控告警數(shù)據(jù)的接入均無需考慮底層支撐調(diào)度技術(shù),只要按照規(guī)范編制相應(yīng)的信息采集腳本,按規(guī)范形成策略下發(fā)給代理,即可完成監(jiān)控?cái)?shù)據(jù)采集、監(jiān)控策略與配置更新、資源統(tǒng)一調(diào)度控制。其結(jié)構(gòu)如圖3所示。
圖3 采集控制平臺(tái)結(jié)構(gòu)
在省級(jí)氣象基礎(chǔ)資源監(jiān)控信息采集上,結(jié)合湖南省基礎(chǔ)資源特性,通過SNMP、Agent、IIS、日志等不同采集方式,對(duì)CPU運(yùn)行、網(wǎng)絡(luò)占用、內(nèi)存使用總數(shù)等進(jìn)行了統(tǒng)一監(jiān)控策略設(shè)計(jì);通過對(duì)網(wǎng)絡(luò)設(shè)備特性進(jìn)行分析,采用SNMP及網(wǎng)絡(luò)相鄰協(xié)議采集本省網(wǎng)絡(luò)資源及線路情況,對(duì)省、市、縣路由器、交換機(jī)等網(wǎng)絡(luò)設(shè)備進(jìn)行在線情況、網(wǎng)絡(luò)連通狀況、線路流量等信息統(tǒng)一采集;針對(duì)核心業(yè)務(wù)系統(tǒng)監(jiān)控信息,采用Agent或API方式采集不同監(jiān)控?cái)?shù)據(jù),設(shè)計(jì)了包括硬件集群、數(shù)值預(yù)報(bào)分析產(chǎn)品、雷達(dá)數(shù)據(jù)、衛(wèi)星數(shù)據(jù)、用戶數(shù)、使用資料頻率、訪問資料流量等在內(nèi)的監(jiān)控指標(biāo)策略集;在氣象業(yè)務(wù)流程監(jiān)控信息采集上,根據(jù)湖南省上下行資料傳輸流程、存儲(chǔ)狀況、資料采集點(diǎn)等情況,針對(duì)資料級(jí)別、資料種類、告警方式和采集方式等制定不同的采集策略。
監(jiān)控平臺(tái)數(shù)據(jù)來源多樣,包括氣象基礎(chǔ)設(shè)施、業(yè)務(wù)應(yīng)用、數(shù)據(jù)流程等不同監(jiān)控?cái)?shù)據(jù),數(shù)據(jù)結(jié)構(gòu)類型也各有特點(diǎn)。為解決原有各類獨(dú)立的業(yè)務(wù)監(jiān)控系統(tǒng)無法同時(shí)處理多種類數(shù)據(jù)的問題,監(jiān)控平臺(tái)采用了數(shù)據(jù)融合的思路[13],設(shè)計(jì)數(shù)據(jù)管理模塊,對(duì)各類監(jiān)控?cái)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理、存儲(chǔ)并提供讀取API,支撐多樣化異構(gòu)監(jiān)控?cái)?shù)據(jù)高效處理與存儲(chǔ)管理。其結(jié)構(gòu)如圖4所示。
圖4 數(shù)據(jù)融合管理模塊結(jié)構(gòu)
數(shù)據(jù)融合管理模塊支持多種異構(gòu)的數(shù)據(jù)來源,包括網(wǎng)絡(luò)流量鏡像數(shù)據(jù)、機(jī)器設(shè)備日志與指標(biāo)數(shù)據(jù)、氣象應(yīng)用系統(tǒng)日志與指標(biāo)數(shù)據(jù)、用戶操作采集數(shù)據(jù)、工單通知數(shù)據(jù)等。
監(jiān)控?cái)?shù)據(jù)存儲(chǔ)管理系統(tǒng)依據(jù)關(guān)系型數(shù)據(jù)、NoSQL非關(guān)系型數(shù)據(jù)庫的特性設(shè)計(jì)。各類配置與管理信息采用MySQL進(jìn)行存儲(chǔ)管理,采用開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)Cassandra存儲(chǔ)指標(biāo)數(shù)據(jù),基于開源的Redis設(shè)計(jì)熱點(diǎn)數(shù)據(jù)緩存庫,利用ElasticSearch支撐監(jiān)控管理過程中的各類事件數(shù)據(jù)實(shí)時(shí)搜索?;赟tream流式處理框架對(duì)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)流進(jìn)行計(jì)算、統(tǒng)計(jì)、分析和告警處理,同時(shí)基于運(yùn)維大數(shù)據(jù)處理框架與機(jī)器學(xué)習(xí)方法進(jìn)行相應(yīng)的計(jì)算模型訓(xùn)練,以更好地支撐氣象運(yùn)維監(jiān)控中的資源提取、指標(biāo)預(yù)測、業(yè)務(wù)健康度、告警管理和人機(jī)交互等應(yīng)用能力。采用Rest等開放接口支撐與第三方系統(tǒng)進(jìn)行高效的信息接入和數(shù)據(jù)處理,增強(qiáng)平臺(tái)擴(kuò)展能力。
為支撐氣象數(shù)據(jù)流傳輸和消息傳輸對(duì)數(shù)據(jù)監(jiān)控的新需求,在監(jiān)控平臺(tái)設(shè)計(jì)了基于省級(jí)氣象大數(shù)據(jù)云平臺(tái)數(shù)據(jù)傳輸系統(tǒng)CTS的DI處理及存儲(chǔ)流程[14],對(duì)氣象數(shù)據(jù)全生命周期的各個(gè)環(huán)節(jié),按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行日志信息的收集,實(shí)時(shí)處理和分析,診斷數(shù)據(jù)運(yùn)行狀態(tài),按策略自動(dòng)調(diào)整運(yùn)行流程。具體流程如下:在CTS集群上部署日志網(wǎng)關(guān),分別對(duì)文件傳輸、消息傳輸和流傳輸監(jiān)控信息進(jìn)行實(shí)時(shí)處理。在Flume-lib中增加了監(jiān)控運(yùn)維系統(tǒng)日志信息處理模塊的分發(fā)策略配置,將CTS收集及發(fā)送DI信息分別存入Mysql數(shù)據(jù)庫Tab_RecvDataInfol和Tab_Send-DataInfo表中。處理模塊采集到信息后,根據(jù)前期研究制定的策略,立刻進(jìn)行數(shù)據(jù)傳輸狀態(tài)的指標(biāo)判斷,并根據(jù)不同資料類型分別接入到ElastiSearch搜索庫中,進(jìn)行數(shù)據(jù)分析及分類處理,處理后的數(shù)據(jù)接入數(shù)據(jù)全流程監(jiān)控頁面。此外,依據(jù)前期研究制定的告警策略將告警數(shù)據(jù)過濾后接入集中告警平臺(tái)進(jìn)行告警。其流程如圖5所示。
圖5 數(shù)據(jù)監(jiān)控流程
集中告警是氣象業(yè)務(wù)監(jiān)控運(yùn)維中一個(gè)重要環(huán)節(jié),結(jié)合可視化界面,向業(yè)務(wù)服務(wù)人員和運(yùn)維管理人員及時(shí)提供準(zhǔn)確的告警信息,提早發(fā)現(xiàn)和解決問題,保障業(yè)務(wù)正常運(yùn)行。為支撐上述需求,監(jiān)控平臺(tái)基于自動(dòng)化、智能化運(yùn)維管理流程,設(shè)計(jì)了集中告警管理模塊,匯聚各類氣象系統(tǒng)產(chǎn)生的告警事件,經(jīng)過過濾、分類、分級(jí)、轉(zhuǎn)換等處理環(huán)節(jié),對(duì)各類實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)和歷史監(jiān)控?cái)?shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,分析各類告警閾值、告警時(shí)間、告警頻次等策略,按照預(yù)定義的事件規(guī)則,形成分級(jí)、有效的預(yù)警或故障告警信息,統(tǒng)一集中展示與告警。部分監(jiān)控告警策略如表1所示。
表1 監(jiān)控告警策略
告警接收:設(shè)計(jì)API、SNMPTrap、Syslog等實(shí)現(xiàn)方式,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)、服務(wù)器、應(yīng)用、基礎(chǔ)服務(wù)等各類系統(tǒng)及資源告警信息、故障事件接收處理,并對(duì)各類異常關(guān)鍵指標(biāo)進(jìn)行分級(jí)。
告警分析:設(shè)計(jì)EI事件規(guī)則、告警推送接口規(guī)范以及可自定義的監(jiān)控告警數(shù)據(jù)分析規(guī)則,適應(yīng)各類異構(gòu)監(jiān)控告警數(shù)據(jù)的接入、處理和多業(yè)務(wù)聯(lián)動(dòng),可以對(duì)同一業(yè)務(wù)不同數(shù)據(jù)流程或同一流程下不同業(yè)務(wù)環(huán)節(jié)的監(jiān)控告警信息進(jìn)行合并、關(guān)聯(lián),支撐統(tǒng)一業(yè)務(wù)管理。
告警交互:設(shè)計(jì)監(jiān)控告警與運(yùn)維流程、配置管理工具的聯(lián)動(dòng)機(jī)制,按照預(yù)設(shè)的規(guī)則觸發(fā)故障工單或查看故障源資源信息,實(shí)現(xiàn)工單自動(dòng)派發(fā)或故障分析。
告警通知:設(shè)計(jì)流水式告警信息通知及告警反饋機(jī)制,按時(shí)間序列查看嚴(yán)重告警生成情況,并通過查看某個(gè)時(shí)間的告警事件,告警信息能夠自動(dòng)關(guān)聯(lián)故障源的配置信息,掌握故障資源的相關(guān)管理信息,提升故障處理效率。
依據(jù)上述設(shè)計(jì)方案,湖南省建設(shè)了氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)并投入業(yè)務(wù)運(yùn)行。監(jiān)控平臺(tái)部署于省級(jí)氣象核心業(yè)務(wù)區(qū),由氣象大數(shù)據(jù)云平臺(tái)提供基礎(chǔ)資源支撐,對(duì)包含氣象大數(shù)據(jù)云平臺(tái)在內(nèi)的各類氣象業(yè)務(wù)系統(tǒng)、數(shù)據(jù)資源、基礎(chǔ)環(huán)境實(shí)現(xiàn)統(tǒng)一監(jiān)控?;A(chǔ)資源節(jié)點(diǎn)部署情況如表2所示。
表2 基礎(chǔ)環(huán)境部署
湖南省氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)按照“縱向到底、橫向到邊”原則設(shè)計(jì),支撐實(shí)現(xiàn)“全業(yè)務(wù)、全要素、全流程”的氣象信息監(jiān)控運(yùn)維模式。平臺(tái)基于可視化技術(shù)大量采用圖表、色塊、模型等表現(xiàn)形式在大屏上綜合展示各類系統(tǒng)宏觀和細(xì)節(jié)運(yùn)行狀況,實(shí)現(xiàn)了智能化、一體化的監(jiān)控管理,便于業(yè)務(wù)故障的快速定位,為業(yè)務(wù)穩(wěn)定運(yùn)行提供保障。如圖6所示。
圖6 湖南省氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)界面
湖南省氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控平臺(tái)按照氣象信息化、集約化、標(biāo)準(zhǔn)化的原則設(shè)計(jì),整合了湖南省省級(jí)直屬單位、市(縣)氣象各類監(jiān)控業(yè)務(wù),通過多場景的方式,從監(jiān)視到告警,再到后續(xù)管理流程實(shí)現(xiàn)了集約化綜合監(jiān)控與運(yùn)維,便于臺(tái)站-市-省的監(jiān)控運(yùn)維管理協(xié)同配合,解決了省級(jí)氣象業(yè)務(wù)現(xiàn)代化發(fā)展的保障與優(yōu)化問題,為“精密監(jiān)測、精準(zhǔn)預(yù)報(bào)、精細(xì)服務(wù)”提供了堅(jiān)實(shí)的支撐保障。后期還將對(duì)平臺(tái)不斷進(jìn)行細(xì)化與完善,在分權(quán)限監(jiān)視及運(yùn)維能力策略、運(yùn)維擴(kuò)展管理、個(gè)性化監(jiān)控建設(shè)等方面開展深化研究。