黎其宇 陳俊士
民航中南空管局通信網(wǎng)絡中心 廣東 廣州 510000
系統(tǒng)集中監(jiān)控平臺底層采用Zabbix技術,WEB端為自定義UI,運維人員可自由集成VMWare虛擬化、硬件服務器、存儲、操作系統(tǒng)、軟件應用、數(shù)據(jù)庫、數(shù)據(jù)流以及網(wǎng)絡設備端口的狀態(tài),并形成統(tǒng)一監(jiān)控標準,可全方位覆蓋系統(tǒng)的實時監(jiān)控,減少監(jiān)控“盲區(qū)”,提升故障定位和處理效率。
集中監(jiān)控平臺UI集成了各項監(jiān)控功能,提供統(tǒng)一的監(jiān)控界面、告警列表、Top指標及拓撲大圖,亦提供不同風格監(jiān)控首頁和自定義模塊。大幅提高了技術保障人員對系統(tǒng)監(jiān)控維護的便利性。
網(wǎng)絡監(jiān)控模塊主要是對終端、服務器、虛擬化平臺、網(wǎng)絡設備、防火墻等所有網(wǎng)絡進行監(jiān)控。對網(wǎng)絡狀態(tài)監(jiān)控具有秒級響應速度,只需為設備配置ip即可監(jiān)控系統(tǒng)內(nèi)服務器、終端的網(wǎng)絡狀況。針對交換機、防火墻類網(wǎng)絡設備,本模塊還提供了端口級別的監(jiān)控,可即時監(jiān)控到每一個端口上業(yè)務的實時性,實時顯示當前設備健康、流量TOP5指標,并根據(jù)閥值進行告警提示。
具體監(jiān)控指標包括端口流量,端口狀態(tài),連通性等:
a、提供網(wǎng)絡設備監(jiān)控功能,針對運行狀態(tài)、CPU使用率、內(nèi)存使用率、端口發(fā)送和接收總流量、端口發(fā)送和接收速率、端口發(fā)送和接收丟包率。
b、提供端口發(fā)送和接收速率、端口發(fā)送和接收丟包率、流量TOP5指標。
c、支持網(wǎng)絡設備包括交換機、防火墻、負載均衡等,支持思科、華為等品牌,
通過腳本方式支持對端口的手動啟用和關閉功能。
e、可以對接Cisco IPSLA或者H3C的NQA等同類型協(xié)議,獲取監(jiān)控線路的延時、抖動等數(shù)據(jù),也可以使用RPING(Remote Ping)的方式,實現(xiàn)關鍵線路和運營商線路的監(jiān)控。
主機監(jiān)控模塊可根據(jù)標準制定的監(jiān)控模板和告警閾值,對物理服務器、存儲、虛擬機、終端或通用硬件設備的健康狀況、內(nèi)存、CPU、硬盤、網(wǎng)卡等主要硬件設備進行實時監(jiān)控,同時提供系統(tǒng)關鍵進程、存儲空間、網(wǎng)絡流量、關鍵日志等指標監(jiān)控及告警功能。避免設備硬件或系統(tǒng)問題影響業(yè)務運行。
具體監(jiān)控指標如下:
a、提供主機監(jiān)控功能,針對運行狀態(tài)、CPU使用率、內(nèi)存使用率、磁盤使用率、磁盤總量和使用量、網(wǎng)卡發(fā)送和接收速率進行監(jiān)控。
b、提供主機所運行的服務自動發(fā)現(xiàn)和狀態(tài)監(jiān)控功能。
c、支 持 windows、Red-hat Linux、Cent OS、FreeBSD 等 主 機 操 作系統(tǒng)。
d、主機監(jiān)控支持 SNMP、WMI、IPMI、AGENT、SMI-S的方式進行監(jiān)控。
e、監(jiān)控對象主要有網(wǎng)絡安全設備、服務器 、存儲設備、虛擬化、云平臺等。
虛擬化監(jiān)控管理實現(xiàn)對虛擬化環(huán)境中各IT資源的運行狀況檢測、性能分析、報表管理、告警管理等功能內(nèi)容,提供詳細的資源對象配置數(shù)據(jù)、狀態(tài)數(shù)據(jù)、性能數(shù)據(jù)集中顯示;支持對VMware、vSphere、Hyper-V、華為FusionCloud、Nutanix、深信服等虛擬化環(huán)境的拓撲呈現(xiàn)以及自動拓撲更新,從而為云資源的管控人員提供日常運行維護的技術支撐。目前集中監(jiān)控平臺對VMware提供的監(jiān)控主要有Vcenter管理平臺、VMware ESXI、Vmware虛擬機、VMware Datastore幾個方面。
虛擬化監(jiān)控管理的主要功能內(nèi)容包括以下幾個方面:
a、虛擬化資源管理:實現(xiàn)虛擬化資源的配置屬性等以各類對象作為基本的IT資源的管理;
b、運行狀態(tài)與故障管理:發(fā)現(xiàn)性能瓶頸,準確定位故障,提供性能優(yōu)化保證業(yè)務服務水平的相關分析結(jié)果。提供告警與性能的關聯(lián)展示,提供告警處理參考建議的新建、查詢等關聯(lián)分析;
c、性能監(jiān)控及數(shù)據(jù)報告:提供準實時的性能監(jiān)控展示、相關排名分析及歷史數(shù)據(jù)報告等;
d、資源關系可視化監(jiān)控展現(xiàn):梳理建立虛擬化資源對象間關系模型,從業(yè)務視角整體監(jiān)控展現(xiàn)虛擬資源的使用情況及狀態(tài)。
數(shù)據(jù)庫監(jiān)控主要用于監(jiān)控服務器數(shù)據(jù)庫運行情況。包括數(shù)據(jù)庫引擎監(jiān)控、數(shù)據(jù)庫文件監(jiān)控,監(jiān)控目前環(huán)境中的Oracle、MySQL、SQL Server等常見數(shù)據(jù)庫,狀態(tài)、使用量、數(shù)據(jù)庫實例、數(shù)據(jù)庫對象、BUFFER狀況、死鎖信息、數(shù)據(jù)庫文件等狀態(tài)信息,根據(jù)設定的閾值來判斷各指標是否處于正常運行狀態(tài),并提供時間段變化趨勢圖表供用戶查看。
數(shù)據(jù)庫主要的監(jiān)控指標有:
a、提供數(shù)據(jù)庫監(jiān)控功能,針對數(shù)據(jù)庫服務狀態(tài)、數(shù)據(jù)庫死鎖數(shù)、數(shù)據(jù)BUFFER命中率、數(shù)據(jù)庫作業(yè)數(shù)、數(shù)據(jù)庫用戶連接數(shù)、數(shù)據(jù)庫文件大小、數(shù)據(jù)庫文件啟動事務數(shù)、查詢狀態(tài)和發(fā)送狀態(tài)等信息監(jiān)控。
b、支持監(jiān)控 PostgreSQL、SQL Server、Oracle、Oracle Rac、Sybase、MySQL、DB2、HANA等數(shù)據(jù)庫。
c、支持數(shù)據(jù)庫自定義監(jiān)控指標,如:高可用狀態(tài)、特定字段指標、日志等。
應用監(jiān)控主要監(jiān)控系統(tǒng)的后臺軟件程序、服務、接口、終端程序等運行情況。系統(tǒng)實時接收程序運行中發(fā)送的狀態(tài)信息,根據(jù)程序狀態(tài)數(shù)據(jù)來判斷程序是否處于正常運行狀態(tài)。本模塊還可針對服務運行狀態(tài)、重要虛擬機分布情況、log、文件版本等進行監(jiān)控。
主要監(jiān)控指標如下:
a、通過定期探尋應用的服務、Log、流量等判斷應用服務的運行狀態(tài)。服務出現(xiàn)運行故障時,維護人員可以及時知道,并快速采取措施;
b、定期檢測丟包率、最大時延、最小時延、平均時延等對應指標,預防應用服務發(fā)生的故障,實現(xiàn)主動式的監(jiān)控管;
c、模擬用戶行為訪問應用服務,根據(jù)用戶設置的閾值產(chǎn)生告警,可以及時排除故障,保障應用服務的穩(wěn)定運行
通過使用集中監(jiān)控平臺作為監(jiān)控工具,可以為機房運維人員提供一個機房的整體監(jiān)控,同時也可以為我們技術支持提供不同信息系統(tǒng)運行狀況的總覽,有利于我們?nèi)粘9ぷ鞯恼归_。隨著集中監(jiān)控平臺的不斷完善,未來可以在更多業(yè)務上使用。