孟蓮蓉
國家新聞出版廣電總局無線電臺(tái)管理局 北京市 100045
廣電監(jiān)管中IT運(yùn)行監(jiān)控系統(tǒng)的設(shè)計(jì)方案
孟蓮蓉
國家新聞出版廣電總局無線電臺(tái)管理局北京市100045
為解決IT運(yùn)行維護(hù)中出現(xiàn)的弊端,需對(duì)IT運(yùn)行監(jiān)控系統(tǒng)進(jìn)行分析、設(shè)計(jì)及設(shè)定系統(tǒng)應(yīng)用。本文從IT運(yùn)行監(jiān)控系統(tǒng)進(jìn)行分析、設(shè)計(jì)及設(shè)定系統(tǒng)應(yīng)用三方面入手,論述在廣電監(jiān)管中如何設(shè)計(jì)IT運(yùn)行監(jiān)控系統(tǒng)。
BCC NCC 探針I(yè)T運(yùn)維監(jiān)測(cè)
隨著業(yè)務(wù)的增加,設(shè)備和應(yīng)用系統(tǒng)數(shù)量也隨之不斷擴(kuò)張,尤其是隨著云計(jì)算的逐步發(fā)展,以及相關(guān)基礎(chǔ)環(huán)境、管理技術(shù)和理念的不斷發(fā)展成熟,IT基礎(chǔ)設(shè)施的高度集中使得傳統(tǒng)的IT運(yùn)維管理變得越來越復(fù)雜,IT人員的工作量與日俱增,疲于查找問題,IT運(yùn)維管理需不斷調(diào)整以適應(yīng)新環(huán)境、新技術(shù)、新理念帶來的管理要求,因此,某廣電單位提出了IT運(yùn)行監(jiān)控系統(tǒng)的項(xiàng)目建設(shè)。
系統(tǒng)需監(jiān)測(cè)管理的對(duì)象包括網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)鏈路、服務(wù)器、操作系統(tǒng)、存儲(chǔ)設(shè)備、數(shù)據(jù)庫、中間件、基礎(chǔ)服務(wù)、虛擬化(云)平臺(tái)等,同時(shí)需與機(jī)房環(huán)境的監(jiān)控集成。其中,200臺(tái)網(wǎng)絡(luò)設(shè)備,40臺(tái)物理服務(wù)器(虛擬服務(wù)器70臺(tái))和存儲(chǔ)設(shè)備。70臺(tái)虛擬服務(wù)器上部署的所有軟件,包括中間件、微軟操作系統(tǒng)、LINIX操作系統(tǒng)、ORACLE數(shù)據(jù)庫、SQL數(shù)據(jù)庫、TOMCAT及業(yè)務(wù)應(yīng)用系統(tǒng)等。
系統(tǒng)由COSS(集中運(yùn)行管理模塊)、NCC(網(wǎng)絡(luò)監(jiān)控)和BCC(業(yè)務(wù)監(jiān)控)組成,COSS用于IT日常運(yùn)維管理,BCC主要用于深度監(jiān)測(cè)業(yè)務(wù)應(yīng)用及其支持平臺(tái)的運(yùn)行狀況;NCC主要用于自動(dòng)發(fā)現(xiàn)各類異構(gòu)復(fù)雜網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和持續(xù)地監(jiān)視、報(bào)告網(wǎng)絡(luò)的運(yùn)行情況。如圖1所示。
NCC采用多層架構(gòu)、信息總線等技術(shù),提供C/S和B/S的兩種展現(xiàn)模式,如網(wǎng)絡(luò)管理人員使用C/S對(duì)網(wǎng)絡(luò)進(jìn)行專業(yè)管理,運(yùn)維人員使用B/S對(duì)網(wǎng)絡(luò)進(jìn)行值班監(jiān)控,如圖2所示。
BCC系統(tǒng)架構(gòu)分為四層,分別是數(shù)據(jù)采集層、數(shù)據(jù)處理層、業(yè)務(wù)模塊層和功能展現(xiàn)層,如圖3所示。數(shù)據(jù)采集層包含監(jiān)測(cè)采集器、采集探針和監(jiān)測(cè)數(shù)據(jù)接收幾部分,監(jiān)測(cè)采集器利用標(biāo)準(zhǔn)協(xié)議和各種業(yè)務(wù)系統(tǒng)專有協(xié)議實(shí)現(xiàn)遠(yuǎn)程監(jiān)控和數(shù)據(jù)采集,同時(shí)也支持代理方式監(jiān)測(cè)采集被管資源的監(jiān)測(cè)數(shù)據(jù);監(jiān)測(cè)采集器運(yùn)行在采集探針內(nèi),采集探針可以分布式部署,滿足多個(gè)隔離子網(wǎng)和多級(jí)大規(guī)模IT環(huán)境監(jiān)測(cè)的要求。監(jiān)測(cè)數(shù)據(jù)接收模塊接收各個(gè)采集探針上報(bào)的數(shù)據(jù),并交由數(shù)據(jù)處理層統(tǒng)一處理。在數(shù)據(jù)處理層,性能數(shù)據(jù)經(jīng)過整理、歸并與挖掘處理,為上層提供可靠參考;同時(shí)故障數(shù)據(jù)經(jīng)過過濾、壓縮、歸并與關(guān)聯(lián)分析,產(chǎn)生告警信息與事件記錄。業(yè)務(wù)模塊層提供全面業(yè)務(wù)功能支撐,展現(xiàn)監(jiān)測(cè)分析結(jié)果。功能展現(xiàn)層實(shí)現(xiàn)用戶接入方式與WEB客戶端功能展現(xiàn)。
3.1整體采用的監(jiān)控技術(shù)
系統(tǒng)支持無代理監(jiān)控和基于代理的監(jiān)控方式,支持通過 HTTP、ICMP、SNMP、SNMP trap、WMI、Telnet、SSH、CLI、JMS、JDBC、CORBA等多種技術(shù)手段,實(shí)現(xiàn)對(duì)不同資源運(yùn)行數(shù)據(jù)的采集。系統(tǒng)可對(duì)單個(gè)采集任務(wù)獨(dú)立配置采集策略和對(duì)單個(gè)監(jiān)控指標(biāo)進(jìn)行故障分析閾值配置。對(duì)于部分監(jiān)測(cè)器來說,監(jiān)測(cè)對(duì)象包含性能屬性,系統(tǒng)默認(rèn)只提供最后一次采集到的性能數(shù)據(jù)的視圖,不對(duì)數(shù)據(jù)進(jìn)行序列化(即不將數(shù)據(jù)持久化到性能數(shù)據(jù)庫中),管理員可選擇哪些信息進(jìn)行歷史保存,便于進(jìn)行分析。
CLI(命令行界面)監(jiān)測(cè)方式適用于目標(biāo)主機(jī)登錄操作系統(tǒng)需要身份驗(yàn)證的Unix或者Linux平臺(tái),通過執(zhí)行遠(yuǎn)程命令,對(duì)目標(biāo)主機(jī)通過選定的訪問方式進(jìn)行監(jiān)測(cè)訪問。BCC為其提供了九種實(shí)例:AIX、 FreeBSD、HP-UX、IRIX64、Linux、SCOUNIX、Solaris、TRU64 OSF1、Windows;三種訪問方式:Telnet、Agent、SSH(Secure Shell,安全外殼協(xié)議)。
JDBC(java數(shù)據(jù)庫連接)監(jiān)測(cè)方式適用于Oracle、DB2、MySQL等數(shù)據(jù)庫應(yīng)用服務(wù),通過配置與目標(biāo)主機(jī)Oracle數(shù)據(jù)庫的連接信息(有權(quán)限控制)進(jìn)行監(jiān)測(cè)訪問。
SNMP監(jiān)測(cè)方式適用于支持SNMP協(xié)議并開啟SNMP服務(wù)的目標(biāo)主機(jī),對(duì)于版本v1、v2、v2c的SNMP協(xié)議,Community(SNMP協(xié)議中的共同體)需要提供只讀共同體密碼。對(duì)于版本v3的SNMP協(xié)議,需要設(shè)置安全等級(jí)、安全名、用戶協(xié)議、用戶密碼、私有協(xié)議、私有密碼等參數(shù)。
JMX(Java管理擴(kuò)展) 是一個(gè)為應(yīng)用程序、設(shè)備、系統(tǒng)等植入管理功能的框架,對(duì)每個(gè)需要管理的對(duì)象,創(chuàng)建一個(gè)名為MBean(托管的Bean)對(duì)象進(jìn)行注冊(cè),通過公開的訪問方法進(jìn)行訪問。Web Logic等應(yīng)用系統(tǒng)基于JMX開發(fā),故可將其變成JMX的MBean,通過Agent在程序內(nèi)部或者通過Web管理頁面對(duì)MBean模塊進(jìn)行管理。JMS是消息中間件,它使應(yīng)用程序可通過統(tǒng)一的接口訪問不同的消息隊(duì)列產(chǎn)品,它提供了像Connection、Topic和Message這樣的抽象。系統(tǒng)提供了JMS以及Open JMS兩種JMS消息隊(duì)列的JMS監(jiān)測(cè)方式支持。
腳本監(jiān)測(cè)方式通用于各種操作系統(tǒng)的主機(jī),它通過執(zhí)行Groovy腳本進(jìn)行監(jiān)測(cè)。當(dāng)監(jiān)測(cè)其它主機(jī)時(shí),目標(biāo)主機(jī)必須安裝Agent,采用客戶端代理并配置好相關(guān)端口。
3.2 BCC采用的技術(shù)手段
BCC支持分布式監(jiān)測(cè)采集與集中配置管理模式,通過在服務(wù)端集中配置采集策略下發(fā)到采集探針(Probe)執(zhí)行周期任務(wù),以滿足在大規(guī)模網(wǎng)絡(luò)環(huán)境下的對(duì)IT基礎(chǔ)設(shè)施的監(jiān)測(cè)要求。如圖4所示。客戶端無需任何安裝,通過瀏覽器查看各類IT資源的即時(shí)性能指標(biāo)。
BCC系統(tǒng)采集探針有以下特性:
(1)探針自帶監(jiān)測(cè)數(shù)據(jù)存儲(chǔ)功能:在網(wǎng)絡(luò)臨時(shí)中斷或服務(wù)端臨時(shí)關(guān)閉的情況下,Probe端會(huì)臨時(shí)存儲(chǔ)監(jiān)測(cè)數(shù)據(jù)(Probe關(guān)閉后也不會(huì)丟),待網(wǎng)絡(luò)和服務(wù)端恢復(fù)后再向服務(wù)端傳輸數(shù)據(jù),保證監(jiān)測(cè)數(shù)據(jù)的完整性。
(2)探針支持自我管理和故障自恢復(fù):當(dāng)采集探針由于某些原因無法正確運(yùn)行時(shí),探針會(huì)自動(dòng)重啟并迅速執(zhí)行監(jiān)測(cè)任務(wù),保證監(jiān)測(cè)數(shù)據(jù)的連續(xù)性。
(3)探針支持自動(dòng)升級(jí)功能:當(dāng)探針有新版本發(fā)布時(shí),只需把探針升級(jí)程序發(fā)布到服務(wù)端固定目錄,探針會(huì)自動(dòng)升級(jí)到新版本,減少手工升級(jí)帶來的成本和出錯(cuò)幾率。
(4)探針提供自動(dòng)注冊(cè)功能:采集探針在啟動(dòng)時(shí)會(huì)自動(dòng)根據(jù)配置信息連接到服務(wù)端進(jìn)行自動(dòng)注冊(cè),增加了管理的便利性。
(5)探針支持多種常見平臺(tái)部署:采集探針可在Windows和常見類Unix操作系統(tǒng)下部署,并能以服務(wù)模式運(yùn)行。
3.3 NCC采用的技術(shù)手段
NCC擁有網(wǎng)絡(luò)采集引擎,通過對(duì)象識(shí)別、采集及針對(duì)不同廠商的可擴(kuò)展腳本,提供網(wǎng)絡(luò)設(shè)備交互服務(wù);利用上述多種協(xié)議或方法進(jìn)行網(wǎng)絡(luò)探測(cè)和信息采集,對(duì)網(wǎng)元對(duì)象自動(dòng)發(fā)現(xiàn)和識(shí)別、分析、保存,形成統(tǒng)一的網(wǎng)管資源庫,并在此基礎(chǔ)上進(jìn)行拓?fù)溆?jì)算,生成不同層次的拓?fù)浣Y(jié)構(gòu)。
通過主動(dòng) (ICMP、SNMP、CLI) 與被動(dòng)(Trap、RMON、Net Flow、S Flow、鏡像) 兩種方式,從設(shè)備上獲得各類性能指標(biāo)和流量數(shù)據(jù),并進(jìn)行長時(shí)間的數(shù)據(jù)跟蹤記錄,最終挖掘分析生成各種報(bào)表,展現(xiàn)網(wǎng)絡(luò)流量與負(fù)荷信息,以便對(duì)網(wǎng)絡(luò)狀態(tài)合理評(píng)估與決策。
4.1 NCC功能設(shè)計(jì)
NCC支持國內(nèi)外主流廠商的網(wǎng)絡(luò)設(shè)備,包括CISCO、Juniper、Huawei華為、ZXR中興、H3C、Enterasys凱創(chuàng)、Extreme、Foundry、Harbour港灣、CDRS神州數(shù)碼、AVAYA、Nortel北電、3COM、ARRAY、D-Link、Maipu邁普、Red-Giant銳捷、Net Screen、Topsec天融信、Riverstone等。
系統(tǒng)對(duì)網(wǎng)絡(luò)類型具有良好的兼容性,可以主動(dòng)發(fā)現(xiàn)VPN、VLAN網(wǎng)絡(luò)拓?fù)?,并提供拓?fù)涞膭?dòng)態(tài)跟蹤和更新功能,支持完整拓?fù)溆?jì)算、僅終端拓?fù)溆?jì)算、停止拓?fù)溆?jì)算和主動(dòng)刷新拓?fù)涔δ?。系統(tǒng)借鑒和發(fā)展了國外網(wǎng)絡(luò)拓?fù)鋭?dòng)態(tài)發(fā)現(xiàn)和跟蹤技術(shù),可以通過單設(shè)備拓?fù)?、多設(shè)備拓?fù)?、網(wǎng)段拓?fù)?、種子節(jié)點(diǎn)拓?fù)涞榷喾N方式準(zhǔn)確地展現(xiàn)當(dāng)前網(wǎng)絡(luò)拓?fù)淝闆r。如圖5所示。
監(jiān)測(cè)網(wǎng)絡(luò)設(shè)備狀態(tài)的CPU、內(nèi)存、鏈路流量等當(dāng)前運(yùn)行參數(shù),直觀展現(xiàn)設(shè)備的名稱、類型、IP地址、MAC地址。用戶還可查詢相應(yīng)子網(wǎng)段內(nèi)IP地址的分配、使用情況以及占用該IP地址設(shè)備的上聯(lián)設(shè)備及端口詳情等。如圖6所示。
NCC可統(tǒng)計(jì)網(wǎng)絡(luò)設(shè)備及終端設(shè)備的詳細(xì)信息,包括設(shè)備名稱、別名、廠商、型號(hào)等基本信息;設(shè)備端口的類型、端口號(hào)、IP地址、MAC地址、端口速率、端口狀態(tài)、端口綁定的VLAN以及對(duì)端端口的詳細(xì)信息;SNMP設(shè)備端口各類出入棧二層楨傳輸統(tǒng)計(jì)情況,如丟包率、錯(cuò)包率等;系統(tǒng)提供動(dòng)態(tài)的網(wǎng)管信息展現(xiàn),如端口列表、ARP表、TCP/UDP表、轉(zhuǎn)發(fā)表、CDP表、STP表、設(shè)備部件表等。
NCC管理平臺(tái)對(duì)網(wǎng)絡(luò)設(shè)備的CPU、內(nèi)存、流量等運(yùn)行性能指標(biāo)輪詢采集,各類采集器啟停、閾值、告警等可修改;系統(tǒng)提供對(duì)典型Web服務(wù)的可用性監(jiān)控,如 HTTP/HTTPS、FTP、DNS、DHCP、LDAP等,支持對(duì)主機(jī)和Web服務(wù)監(jiān)控的閾值告警功能;NCC實(shí)現(xiàn)多角度的監(jiān)測(cè),為網(wǎng)管員提供主動(dòng)面向設(shè)備的負(fù)荷監(jiān)測(cè)、面向鏈路的流量監(jiān)測(cè)、面向終端的活躍度監(jiān)測(cè)等多層面的性能監(jiān)測(cè)。如圖7所示。
管理和監(jiān)測(cè) Windows、Linux、IBM AIX、AS/400、HP-UX、SUN Solaris、SCO Unix 、SGI、 Tru64等不同操作系統(tǒng)的服務(wù)器或集群的運(yùn)行狀態(tài)和性能數(shù)據(jù),包括服務(wù)器的基本信息、CPU負(fù)載、內(nèi)存利用率、應(yīng)用進(jìn)程、文件系統(tǒng)、磁盤空間和吞吐、事件與錯(cuò)誤日志等信息的分析與監(jiān)視。
BCC根據(jù)預(yù)定義項(xiàng)目監(jiān)測(cè)Oracle、SQL Server、Sybase、DB2、Informix 、MySQL等多種數(shù)據(jù)庫,包括數(shù)據(jù)庫工作狀態(tài)、表空間的利用情況、數(shù)據(jù)文件和數(shù)據(jù)設(shè)備的讀寫命中率、數(shù)據(jù)碎片的情況、數(shù)據(jù)庫的進(jìn)程狀態(tài)、數(shù)據(jù)庫內(nèi)存利用狀態(tài)等屬性。
BCC監(jiān)測(cè)Websphere、Web Logic、MQ Series、Tomcat、Tuxedo、Tibco、Resin、Tong Web等各類不同中間件,分析與監(jiān)測(cè)中間件的各項(xiàng)運(yùn)行狀態(tài)參數(shù)。
通過SNMP、數(shù)據(jù)庫接口等其它接口方式可以實(shí)現(xiàn)IT環(huán)境監(jiān)控,包括基礎(chǔ)運(yùn)行環(huán)境的溫度、濕度、漏水、煙感和電源、UPS、智能空調(diào)等。
BCC穩(wěn)定的插件管理體系,提供了標(biāo)準(zhǔn)的插件實(shí)現(xiàn)接口,無需二次開發(fā)即可完成特定的業(yè)務(wù)監(jiān)測(cè)和管理功能。同時(shí),開放的擴(kuò)展接口允許監(jiān)測(cè)功能的添加或者與其它系統(tǒng)的集成。用戶可編寫shell或者groovy腳本自定義監(jiān)測(cè)指標(biāo)。
對(duì)虛擬化平臺(tái)的監(jiān)測(cè)主要以VMware為主。主要監(jiān)測(cè)虛擬機(jī)常見的性能指標(biāo)如CPU、內(nèi)存、磁盤。
BCC通過業(yè)務(wù)和服務(wù)模型來管理IT資源,業(yè)務(wù)應(yīng)用監(jiān)控視圖由整體到局部逐層鉆取,分析當(dāng)前被監(jiān)控資源的運(yùn)行狀態(tài),定位問題發(fā)生的故障根源并評(píng)估影響度。BCC提供業(yè)務(wù)應(yīng)用總控視圖、資源運(yùn)行展現(xiàn)視圖及部件指標(biāo)分析視圖等三級(jí)視圖呈現(xiàn),可便捷的獲取業(yè)務(wù)SLA和服務(wù)響應(yīng)指標(biāo)。
系統(tǒng)提供綜合告警管理平臺(tái),實(shí)現(xiàn)告警的統(tǒng)一展現(xiàn)。告警平臺(tái)提供統(tǒng)一事件管理來解決分割管理的數(shù)據(jù)融合問題,通過以告警事件為導(dǎo)向,提供了清晰的、集中的事件管理。系統(tǒng)的監(jiān)控和故障報(bào)警支持分級(jí)管理,默認(rèn)分為緊急、重要、次要、提醒、通知等5個(gè)級(jí)別(可自定義),可以從功能位置、設(shè)備、應(yīng)用系統(tǒng)關(guān)聯(lián)關(guān)系角度進(jìn)行監(jiān)看。在對(duì)網(wǎng)絡(luò)的不間斷實(shí)時(shí)監(jiān)測(cè)中,收集針對(duì)網(wǎng)絡(luò)、設(shè)備、終端及鏈路的各種事件,結(jié)合過去在網(wǎng)管過程中學(xué)習(xí)得到的處理規(guī)則,對(duì)各類事件進(jìn)行智能分析,并關(guān)聯(lián)所有符合故障特征的相關(guān)事件,從而在故障發(fā)生前或發(fā)現(xiàn)時(shí)發(fā)出正確告警。
可視化展現(xiàn)管理平臺(tái),實(shí)現(xiàn)各類設(shè)備、網(wǎng)絡(luò)、應(yīng)用、機(jī)房等視圖設(shè)計(jì);系統(tǒng)的Web前端采用了FLEX技術(shù),能良好支持3D/2D和矢量圖形,提供強(qiáng)大的信息交互與管理能力,能根據(jù)用戶客戶端
上的設(shè)定生成漂亮的動(dòng)態(tài)圖表。如圖8所示。析,提供基礎(chǔ)架構(gòu)性能與告警和資源比較、指標(biāo)排名、指標(biāo)趨勢(shì)等各類層次化統(tǒng)計(jì)分析報(bào)表;可按業(yè)務(wù)方式對(duì)業(yè)務(wù)應(yīng)用可用性、MTTR(平均修復(fù)時(shí)間)和MTBF(平均無故障運(yùn)行時(shí)間)進(jìn)行統(tǒng)計(jì);可按節(jié)點(diǎn)方式對(duì)監(jiān)測(cè)數(shù)據(jù)匯總分析,提供基礎(chǔ)架構(gòu)性能指標(biāo)趨勢(shì)等報(bào)表為服務(wù)器運(yùn)行負(fù)載排名。如圖9所示。
目前,IT運(yùn)行監(jiān)控系統(tǒng)在該廣電單位已正式上線,并運(yùn)行了半年,為IT管理人員提供了強(qiáng)大的維護(hù)支持,在IT維護(hù)方面起著重要的作用。
審稿人:魏朝暉內(nèi)蒙古新聞出版廣電局監(jiān)管中心正高級(jí)工程師
責(zé)任編輯:王學(xué)敏
系統(tǒng)依據(jù)對(duì)監(jiān)測(cè)數(shù)據(jù)的自動(dòng)匯聚、抽取、分
TP311.1
A
2096-0751(2016)04-0019-06
孟蓮蓉國家新聞出版廣電總局無線電臺(tái)管理局高級(jí)工程師