丁瑞元
摘 要:隨著煤炭企業(yè)信息化、自動化、智能化建設(shè)的不斷發(fā)展,煤炭企業(yè)所使用的各類信息系統(tǒng)及配套設(shè)備大量增加,現(xiàn)有信息系統(tǒng)運維人員的工作任務(wù)隨之增加。該文通過建設(shè)一個具有集中網(wǎng)管、告警監(jiān)視、統(tǒng)一運維、可視化展現(xiàn)的集中調(diào)度網(wǎng)管平臺,將煤炭企業(yè)各類信息系統(tǒng)設(shè)備統(tǒng)一監(jiān)管,實現(xiàn)“集中監(jiān)控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
關(guān)鍵詞:信息化 網(wǎng)管 運維 監(jiān)測
中圖分類號:TP39 文獻標識碼:A 文章編號:1672-3791(2019)02(b)-0049-02
隨著煤炭企業(yè)信息化、自動化、智能化建設(shè)的不斷發(fā)展,煤炭企業(yè)所使用的各類信息系統(tǒng)、硬件設(shè)備也不斷增加,運維工作量逐年加大。各系統(tǒng)都有自己的網(wǎng)管系統(tǒng)或告警平臺,如H3C網(wǎng)管系統(tǒng)、T2000傳輸告警平臺、視頻質(zhì)量診斷平臺等,因設(shè)備廠家不同、告警編碼協(xié)議不同,導致各系統(tǒng)不能互聯(lián)互通、資源共享,存在一個個“信息孤島”,為運維人員的統(tǒng)一集中管理、運維帶來了難題。為了解決以上問題,該公司搭建一個“集中網(wǎng)管、告警監(jiān)視、統(tǒng)一運維、可視化展現(xiàn)”的集中調(diào)度網(wǎng)管平臺,實現(xiàn)信息系統(tǒng)日常的管理和調(diào)度功能,隨時準確地監(jiān)測各信息系統(tǒng)的運行情況,確保各系統(tǒng)穩(wěn)定運行。
1 平臺特點
1.1 高度模塊化
平臺采用了分層、模塊化的設(shè)計技術(shù),模塊與模塊、層與層之間松散耦合。它具有3方面優(yōu)勢:一是模塊之間的松散耦合使其具備反應(yīng)靈活快捷、適應(yīng)能力強的特點;二是模塊內(nèi)部實現(xiàn)了優(yōu)化整合,能夠高效率地完成該模塊各項功能;三是可以按需定制業(yè)務(wù)模塊,實現(xiàn)適合自身情況的特需功能。
1.2 開放性
平臺通過開放的接口可以采集第三方系統(tǒng)、設(shè)備的資源信息、告警信息等,通過分析處理模塊進行統(tǒng)一處理,可視化模塊進行逐一展現(xiàn)。
1.3 支持二次開發(fā)
利用平臺提供的API接口,擴展開發(fā)所需的功能。一般情況下利用系統(tǒng)提供的圖形化工具編寫腳本或規(guī)則即可,如事件關(guān)聯(lián)分析、工單流轉(zhuǎn)規(guī)則等。對于復雜的業(yè)務(wù),可以利用系統(tǒng)提供的SDK包進行二次開發(fā)。
1.4 支持大規(guī)模網(wǎng)絡(luò)
針對大規(guī)模企業(yè)的區(qū)域性特征,系統(tǒng)提供了貼合實際應(yīng)用的多級管理方案,在管理上可以做到分級管理和集中管理的有機統(tǒng)一。
2 平臺結(jié)構(gòu)
集中調(diào)度網(wǎng)管平臺主要功能模塊包括專項工具、調(diào)度門戶、監(jiān)管中心、資源臺賬管理系統(tǒng)、度量中心和流程中心。
專項工具主要實現(xiàn)對網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、存儲設(shè)備和視頻設(shè)備的監(jiān)控。利用這些專項工具,能夠?qū)崿F(xiàn)對IT系統(tǒng)的全面管理,并對各類調(diào)度操作提供基礎(chǔ)支持。
監(jiān)管中心主要實現(xiàn)對IT基礎(chǔ)設(shè)施的集中監(jiān)控管理,提供一個標準的數(shù)據(jù)集成接口,對各類監(jiān)控工具產(chǎn)生的告警消息和外部工具集成的告警消息進行集中統(tǒng)一處理,對采集的數(shù)據(jù)進行統(tǒng)一存儲、處理,對系統(tǒng)內(nèi)部的信息進行可視化展示。
資源臺賬管理系統(tǒng)實現(xiàn)資產(chǎn)管理功能,通過業(yè)務(wù)建模、自動采集、調(diào)和、變更控制等手段,保證IT資源的完整性和精準性,為其他系統(tǒng)提供數(shù)據(jù)支撐。
度量中心提供了面向調(diào)度系統(tǒng)的性能、事件告警、資源臺賬、運維工單等統(tǒng)計分析報表,并提供可以實現(xiàn)報表定制化的設(shè)計工具。
流程中心是通過規(guī)范服務(wù)流程和技術(shù)服務(wù)工作,建立一套標準的運維服務(wù)流程,圍繞服務(wù)建立事件管理、問題管理、變更管理、服務(wù)請求管理、服務(wù)目錄等,進行IT運維服務(wù)的流程化、規(guī)范化管理。通過完善知識庫建設(shè),實現(xiàn)知識庫共享,從而提高信息服務(wù)效率,提高用戶的滿意度。系統(tǒng)還提供了常規(guī)的巡檢管理和值班管理功能。
調(diào)度門戶包括了統(tǒng)一門戶、報表展現(xiàn)和權(quán)限管理等主要模塊,是信息的集中呈現(xiàn)窗口和日常工作的平臺。
3 接口設(shè)計
整個集中調(diào)度網(wǎng)管平臺具有很好的開放性,在監(jiān)控功能、數(shù)據(jù)處理等不同架構(gòu)層面都提供了擴展接口。
在監(jiān)控功能方面,系統(tǒng)提供一體化監(jiān)控平臺的同時通過插件機制,允許定制個性化監(jiān)控能力。監(jiān)控框架提供強大的基于腳本擴展的通用監(jiān)控器和豐富的二次開發(fā)監(jiān)控協(xié)議庫,可通過腳本配置或二次開發(fā),滿足特定環(huán)境的監(jiān)控管理需求。系統(tǒng)提供了基于SNMP協(xié)議和腳本的監(jiān)測擴展能力,對于支持SNMP協(xié)議管理的設(shè)備和系統(tǒng),用戶可以直接通過界面配置實現(xiàn)監(jiān)控;對于一些提供標準遠程訪問協(xié)議或管理命令行的設(shè)備和系統(tǒng),可以通過基于腳本的監(jiān)測器擴展實現(xiàn)監(jiān)控;另外監(jiān)控框架本身以插件體系構(gòu)建,同時提供豐富的協(xié)議API接口,可以基于監(jiān)控插件框架擴展開發(fā)滿足特定的業(yè)務(wù)監(jiān)控需求。
在數(shù)據(jù)處理方面,通過數(shù)據(jù)匯聚接口能夠和其他業(yè)務(wù)應(yīng)用系統(tǒng)等進行對接,接收第三方系統(tǒng)的資源數(shù)據(jù)、性能數(shù)據(jù)和告警事件信息進行綜合處理和統(tǒng)一調(diào)度展現(xiàn)。數(shù)據(jù)匯聚和管理層對外提供了數(shù)據(jù)匯聚和管理接口,第三方系統(tǒng)可以通過配置集成接口提交和查詢資源數(shù)據(jù),通過性能集成接口提交和查詢運行狀態(tài)、性能指標數(shù)據(jù),通過事件集成接口提交故障事件和查詢告警信息、觸發(fā)運維服務(wù)流程。
在系統(tǒng)提供平臺擴展接口的同時,還提供了豐富的Java二次開發(fā)包和二次開發(fā)說明文檔,便于系統(tǒng)擴展開發(fā)。
4 平臺功能
集中調(diào)度網(wǎng)管平臺主要是實現(xiàn)信息系統(tǒng)日常的管理和調(diào)度功能;隨時準確地監(jiān)測各信息系統(tǒng)的運行情況,具體功能如下所述。
(1)通過信息化、數(shù)字化和扁平化的改造,實現(xiàn)一張圖管理模式,能夠為管理層和運維人員提供多角度、多層次的展示界面。
(2)通過對交換機、存儲、服務(wù)器等IT基礎(chǔ)設(shè)施數(shù)據(jù)的采集和性能狀態(tài)的監(jiān)測,幫助運維人員進行故障分析和預診斷。
(3)資產(chǎn)統(tǒng)一管理和維護功能,提供各類資產(chǎn)報表。
(4)事件告警管理,利用現(xiàn)有設(shè)備和管理系統(tǒng)提供的集成接口,采集現(xiàn)有網(wǎng)管系統(tǒng)的告警信息,進行告警、故障查詢和處理。
(5)運維管理,對日常運維工作中的事件、問題和故障處理記錄進行記錄和管理,實現(xiàn)運維工作可記錄、可度量、可追溯。
5 監(jiān)測數(shù)據(jù)采集方式
5.1 基礎(chǔ)硬件設(shè)備監(jiān)測實現(xiàn)方式
集中調(diào)度網(wǎng)管平臺對網(wǎng)絡(luò)、存儲、數(shù)據(jù)庫等基礎(chǔ)設(shè)備數(shù)據(jù)、性能狀態(tài)監(jiān)測和告警進行采集。
(1)網(wǎng)絡(luò)設(shè)備監(jiān)測,采用SNMP協(xié)議,實現(xiàn)設(shè)備的真實面板管理。
(2)服務(wù)器監(jiān)測,通過CLI、WMI、代理Agent方式監(jiān)控服務(wù)器,Linux/Unix系統(tǒng)的CLI監(jiān)控方式同時支持SSH及Telnet兩種方式,監(jiān)測包括CPU利用率,系統(tǒng)、用戶、空閑時間的百分比,磁盤空間使用率,磁盤IO讀寫性能,磁盤的目錄,文件大小和進程運行情況等。
(3)存儲設(shè)備監(jiān)測,通過SMI-S協(xié)議或SNMP方式進行監(jiān)控,通過這兩種方式,可以為存儲設(shè)備和集中調(diào)度網(wǎng)管平臺之間提供標準化的通信協(xié)議,使得存儲管理系統(tǒng)能夠?qū)崿F(xiàn)鑒別、分類、監(jiān)控和控制物理及邏輯資源的能力。
(4)網(wǎng)絡(luò)拓撲的管理,系統(tǒng)通過SNMP、ICMP、NetBIOS、ARP、Traceroute、Telnet等多種手段自動發(fā)現(xiàn)、識別各種設(shè)備,并能夠自動生成準確的物理拓撲、網(wǎng)絡(luò)拓撲和子網(wǎng)拓撲,同時提供可視化管理工具,可以根據(jù)實際環(huán)境和需要自定義拓撲圖。
(5)數(shù)據(jù)庫的管理,采用通用JDBC數(shù)據(jù)庫監(jiān)測器,通過JDBC執(zhí)行用戶SQL詞句,監(jiān)測執(zhí)行結(jié)果,支持各種平臺上的Oracle、MS SQL Server、MySQL、Sybase、DB2等數(shù)據(jù)庫系統(tǒng),連續(xù)地監(jiān)控數(shù)據(jù)庫引擎的關(guān)鍵參數(shù),包括數(shù)據(jù)庫緩沖區(qū)的使用率和命中率、進程的狀態(tài)、表空間的分配空間、已用空間的情況,以及Oracle等數(shù)據(jù)庫死鎖情況。
(6)視頻圖像監(jiān)測,視頻質(zhì)量診斷服務(wù)系統(tǒng)與集中網(wǎng)管調(diào)度平臺之間通過服務(wù)接口(如WebService)交互,視頻質(zhì)量診斷服務(wù)系統(tǒng)分析出視頻質(zhì)量出問題后,將視頻的告警信息,通過接口推送到集中網(wǎng)管調(diào)度平臺。
5.2 現(xiàn)有網(wǎng)管系統(tǒng)告警監(jiān)測功能實現(xiàn)方式
(1)T2000網(wǎng)管系統(tǒng)。
華為T2000網(wǎng)管系統(tǒng)將處理好的告警信息以Corba接口方式向集中網(wǎng)管調(diào)度管理平臺推送,接收到來自T2000網(wǎng)管系統(tǒng)的告警后,對告警信息進行解析和標準化處理。
(2)LTE 4G網(wǎng)管系統(tǒng)。
通過4G網(wǎng)管服務(wù)系統(tǒng)的背向接口,接收SNMP Trap,即管理站及時獲取設(shè)備的告警信息,并在集中調(diào)度網(wǎng)管平臺中進行處理和展現(xiàn)。
(3)動力環(huán)境監(jiān)控系統(tǒng)。
機房環(huán)境監(jiān)控系統(tǒng)將自身采集到的各類UPS電源、水浸、發(fā)電機、機房溫濕度、配電柜電量儀、門禁等告警信息,以SNMP Trap等方式發(fā)送給集中網(wǎng)管調(diào)度管理系統(tǒng),集中網(wǎng)管調(diào)度管理系統(tǒng)對告警信息進行解析和標準化處理,建立配置項間的關(guān)聯(lián)關(guān)系,進行告警通知和工單派發(fā),同時在可視化界面上進行告警提醒。機房動力環(huán)境系統(tǒng)相對網(wǎng)絡(luò)、安全等管理系統(tǒng)有較大區(qū)別,因此在集成接口上提供了基于TCP/IP層面的數(shù)據(jù)接口,這樣集中調(diào)度網(wǎng)管平臺就可以通過應(yīng)用程序?qū)涌焖俚倪M入機房監(jiān)控系統(tǒng)的功能和業(yè)務(wù)界面。
6 結(jié)語
煤炭企業(yè)從信息化系統(tǒng)管理和運維的實際應(yīng)用情況入手,建立集中調(diào)度網(wǎng)管平臺,將系統(tǒng)的告警信息、狀態(tài)信息、資產(chǎn)信息等集成到網(wǎng)管平臺,給運維人員提供一個功能完善、界面統(tǒng)一的系統(tǒng),實現(xiàn)統(tǒng)一管理、統(tǒng)一調(diào)度和統(tǒng)一服務(wù),完成報表數(shù)據(jù)的定制展示,實現(xiàn)監(jiān)、管、控一體化的運維管理調(diào)度格局。實現(xiàn)“集中監(jiān)控、集中管理、集中維護”,減少運維管理人員工作負擔,提高信息化運維管理水平和員工工作效率,達到降本增效的目的。
參考文獻
[1] 吳結(jié)根,楊俊.集中網(wǎng)管系統(tǒng)在現(xiàn)代通信網(wǎng)中的應(yīng)用與展望[J].江西通信科技,2008(2):11-13.
[2] 徐川.基于信息技術(shù)基礎(chǔ)架構(gòu)庫的IT運維服務(wù)體系構(gòu)建[J].醫(yī)學信息學雜志,2018,39(1):37-40.
[3] 栗麗英,張成亮,韓旭東.基于綜合網(wǎng)管平臺的大客戶網(wǎng)絡(luò)四位一體集中管理體系建設(shè)[J].電信技術(shù),2017(5):56-59.