周昊 李瑋 江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司泰州分公司
伴隨個(gè)人用戶數(shù)據(jù)業(yè)務(wù)的快速增長,IP城域網(wǎng)多業(yè)務(wù)的承載能力也進(jìn)一步提升。在提高運(yùn)營能力、確保網(wǎng)絡(luò)安全的同時(shí),如何利用現(xiàn)代化的技術(shù)手段,搭建IP城域網(wǎng)的自動(dòng)化運(yùn)維平臺(tái),在為個(gè)人用戶提供安全、豐富信息化服務(wù)的同時(shí),提高運(yùn)維工作效率,降低運(yùn)維成本,成為我們需要解決的一大難題。
隨著個(gè)人數(shù)據(jù)業(yè)務(wù)的發(fā)展,IP城域網(wǎng)的業(yè)務(wù)規(guī)模不斷擴(kuò)大,對(duì)運(yùn)維人員的技術(shù)能力提出了更高的要求,原有的人工巡檢方式、通過各類小工具的查障手段已顯得捉襟見肘。暴露出的問題包括由于事件處理能力的不足,導(dǎo)致巡檢結(jié)果不夠準(zhǔn)確、高效;存在運(yùn)維報(bào)告不規(guī)范、格式不統(tǒng)一的情況,不利于運(yùn)維的閉環(huán)和數(shù)據(jù)共享。
在此背景下,迫切需要對(duì)各類業(yè)務(wù)的日常運(yùn)維巡檢工作進(jìn)行整合,通過技術(shù)手段減輕人工任務(wù);優(yōu)化運(yùn)維流程。及時(shí)、準(zhǔn)確地了解系統(tǒng)的運(yùn)營狀況,是提高日常運(yùn)維的技術(shù)含量,推動(dòng)城域網(wǎng)的運(yùn)維工作轉(zhuǎn)向精細(xì)化、標(biāo)準(zhǔn)化、自動(dòng)化的重要前提,也是落實(shí)優(yōu)化調(diào)配的重要推手。
Zabbix是一款基于WEB界面提供分布式系統(tǒng)監(jiān)控的企業(yè)級(jí)開源解決方案。本文旨在利用新的技術(shù)體系,建立符合城域網(wǎng)運(yùn)維工作的自動(dòng)化平臺(tái)。IP城域網(wǎng)自動(dòng)化運(yùn)維平臺(tái)框架如圖1所示。
Zabbix是一個(gè)分布式的監(jiān)控系統(tǒng)。IP城域網(wǎng)自動(dòng)化運(yùn)維平臺(tái)采用Server-Proxy-Client架構(gòu),proxy是位于Server和Client之間的通信代理,proxy將采集的設(shè)備信息統(tǒng)一匯總給Server,Zabbix的這種分布式特性特別適合IP城域網(wǎng)這種跨機(jī)房、跨地域的網(wǎng)絡(luò)環(huán)境。
圖1 IP城域網(wǎng)自動(dòng)化運(yùn)維平臺(tái)框架
本項(xiàng)目將proxy部署在IP城域網(wǎng)的各集群節(jié)點(diǎn),采集本地集群節(jié)點(diǎn)內(nèi)的數(shù)據(jù)信息,再統(tǒng)一匯總給中心節(jié)點(diǎn)的Server,以減輕Server的負(fù)載壓力。
(1)設(shè)備資產(chǎn)管理
通過平臺(tái)自動(dòng)化的數(shù)據(jù)采集,獲取設(shè)備型號(hào)、序列號(hào)、管理IP、MAC地址等資產(chǎn)信息,作為運(yùn)維過程中重要的數(shù)據(jù)源信息提供給運(yùn)維人員。
(2)設(shè)備運(yùn)行狀態(tài)實(shí)時(shí)監(jiān)控
通過Zabbix,自動(dòng)化巡檢功能可覆蓋所有納入監(jiān)管的設(shè)備以及監(jiān)控項(xiàng)的狀態(tài),快速定位故障問題,并形成結(jié)果報(bào)告,確保運(yùn)維工作的閉環(huán)管理。
(3)異常告警及報(bào)警媒介
當(dāng)采集的數(shù)據(jù)達(dá)到觸發(fā)條件時(shí),觸發(fā)器就會(huì)被觸發(fā),然后通過報(bào)警媒介向關(guān)聯(lián)的用戶發(fā)送告警信息。
自動(dòng)化運(yùn)維平臺(tái)采用agent、SNMP、IPMI、腳本等方式,對(duì)IP城域網(wǎng)內(nèi)的數(shù)通設(shè)備,硬件服務(wù)器、操作系統(tǒng)、應(yīng)用服務(wù)和數(shù)據(jù)庫進(jìn)行全面監(jiān)控。
其中,IP城域網(wǎng)中的數(shù)通設(shè)備、采用SNMP協(xié)議將設(shè)備端口流量、端口狀態(tài)、CPU、負(fù)載等監(jiān)控?cái)?shù)據(jù)發(fā)送給proxy;
對(duì)于數(shù)據(jù)中心的操作系統(tǒng)、應(yīng)用服務(wù)和數(shù)據(jù)庫,采用zabbix-agent插件,主動(dòng)請(qǐng)求server獲取監(jiān)控項(xiàng)列表,并主動(dòng)將監(jiān)控項(xiàng)內(nèi)需要檢測(cè)的數(shù)據(jù)提交給proxy;
對(duì)物理服務(wù)器的硬件特性,采用IPMI協(xié)議對(duì)服務(wù)器CPU溫度、電壓、內(nèi)存、風(fēng)扇轉(zhuǎn)速等硬件指標(biāo)實(shí)施監(jiān)控。
圖2 Zabbix核心設(shè)備監(jiān)控項(xiàng)
Zabbix對(duì)于底層硬件服務(wù)器、網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)和數(shù)據(jù)庫監(jiān)控已經(jīng)非常完善,美中不足的是圖形化界面展示功能單一。在本項(xiàng)目中,使用第三方插件Grafana來實(shí)現(xiàn)系統(tǒng)圖形化UI的展現(xiàn)。
Grafana是一款可視化工具,擁有靈活的UI、豐富的插件;支持多種部署模式、支持多種時(shí)序數(shù)據(jù)庫的數(shù)據(jù)源特性,對(duì)每種數(shù)據(jù)源提供不同的查詢方法。支持四種面板類型:圖像、狀態(tài)、面板列表和表格,同時(shí)也支持文本類型。
圖3 Grafana圖形化展現(xiàn)效果
IP城域網(wǎng)自動(dòng)化運(yùn)維平臺(tái)是基于Zabbix系統(tǒng)和Grafana插件的結(jié)合應(yīng)用,通過將IP城域網(wǎng)的日常運(yùn)維監(jiān)控進(jìn)行了重新的設(shè)計(jì),使IP城域網(wǎng)性能監(jiān)控的穩(wěn)定性、可擴(kuò)展性大幅提升;將傳統(tǒng)的運(yùn)維模式轉(zhuǎn)向一體化、集中化、智能化,降低維護(hù)的難度和風(fēng)險(xiǎn),達(dá)到了提高工作效率的目的。