葛 威
(91872部隊(duì) 北京 102442)
網(wǎng)絡(luò)監(jiān)控系統(tǒng)研究
葛 威
(91872部隊(duì) 北京 102442)
隨著信息化技術(shù)的快速發(fā)展,網(wǎng)絡(luò)服務(wù)器系統(tǒng)軟硬件架構(gòu)日益復(fù)雜,這對(duì)IT運(yùn)維工作的要求也越來(lái)越高,IT運(yùn)維中網(wǎng)絡(luò)監(jiān)控技術(shù)也越來(lái)越受到重視。健壯的監(jiān)控系統(tǒng)會(huì)在IT運(yùn)維工作中發(fā)揮著重要作用,它不僅能夠大大提升運(yùn)維工作效率,減少工作失誤,使運(yùn)維人員能夠及時(shí)發(fā)現(xiàn)系統(tǒng)所出現(xiàn)的故障和問(wèn)題,而且可以通過(guò)對(duì)監(jiān)控?cái)?shù)據(jù)的分析,為系統(tǒng)架構(gòu)的重構(gòu)提供數(shù)據(jù)支撐。論文對(duì)目前主流開(kāi)放式監(jiān)控系統(tǒng)進(jìn)行了介紹,并以Zabbix監(jiān)控系統(tǒng)為例,對(duì)監(jiān)控系統(tǒng)基本功能進(jìn)行了演示。
IT運(yùn)維;網(wǎng)絡(luò)監(jiān)控
當(dāng)前世界是風(fēng)起“云”(計(jì)算)涌的時(shí)代,SaaS(軟件即服務(wù))改變了傳統(tǒng)軟件實(shí)施的方式,而PaaS(平臺(tái)即服務(wù))則進(jìn)一步改善了各種應(yīng)用系統(tǒng)的生態(tài)環(huán)境;“物聯(lián)網(wǎng)”全面走入我們生活的角角落落只是時(shí)間問(wèn)題;“智能社會(huì)”隨著全社會(huì)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的改善而一點(diǎn)點(diǎn)呈現(xiàn)在人們面前[1]。這些在廣泛降低了用戶端軟硬件投入的基礎(chǔ)上,卻對(duì)集中式的服務(wù)器端/群等提出了更為嚴(yán)峻的考驗(yàn)。怎樣才能保障系統(tǒng)工作的高效性、穩(wěn)定性、可靠性?怎樣才能動(dòng)態(tài)地了解用戶的需求和分配資源給到用戶?怎樣才能應(yīng)對(duì)潛在的網(wǎng)絡(luò)中的各種風(fēng)險(xiǎn)?這些都需要能夠及時(shí)發(fā)現(xiàn)并采取有效措施及時(shí)解決,所以系統(tǒng)監(jiān)控技術(shù)越來(lái)越受到重視,系統(tǒng)監(jiān)控工作無(wú)疑占據(jù)了日常IT運(yùn)維中非常重要的地位[1~2]。
監(jiān)控系統(tǒng)是運(yùn)維工程師和研發(fā)工程師的眼睛,它幫助工程師在第一時(shí)間發(fā)現(xiàn)問(wèn)題。服務(wù)器的整個(gè)生命周期,都要和監(jiān)控系統(tǒng)打交道。服務(wù)器上架,需要加入基礎(chǔ)監(jiān)控,比如CPU負(fù)載、內(nèi)存等;當(dāng)服務(wù)器開(kāi)始使用提供服務(wù)時(shí),需要加入對(duì)應(yīng)的應(yīng)用服務(wù)監(jiān)控;當(dāng)系統(tǒng)發(fā)生問(wèn)題時(shí),監(jiān)控系統(tǒng)要第一時(shí)間發(fā)出報(bào)警,報(bào)警中除了提示出現(xiàn)問(wèn)題的部位,還要有一些數(shù)據(jù)和簡(jiǎn)單的分析,以幫助接到報(bào)警的人員快速定位問(wèn)題。在出現(xiàn)故障以后進(jìn)行問(wèn)題分析時(shí),還要靠監(jiān)控系統(tǒng)提供記錄的故障發(fā)生時(shí)服務(wù)器的狀況數(shù)據(jù),使得運(yùn)維工程師可以通過(guò)不同維度進(jìn)行分析,找出問(wèn)題原因[3]。
根據(jù)監(jiān)控系統(tǒng)在IT運(yùn)維中的角色,理想的監(jiān)控系統(tǒng)應(yīng)該具有如下特點(diǎn)[2,4]:
1)監(jiān)控?cái)?shù)據(jù)收集及可視化。監(jiān)控系統(tǒng)能夠自定義監(jiān)控的內(nèi)容,可以自己編寫(xiě)腳本實(shí)現(xiàn)相關(guān)數(shù)據(jù)的收集;數(shù)據(jù)應(yīng)保存在數(shù)據(jù)庫(kù)中,以便以后需要的時(shí)候可以對(duì)這些數(shù)據(jù)進(jìn)行分析計(jì)算;能夠方便、快速地將監(jiān)控項(xiàng)目加入到服務(wù)器上,而不需要繁瑣的操作;數(shù)據(jù)可視化要能夠直觀清楚表達(dá)數(shù)據(jù)內(nèi)容。
2)異常數(shù)據(jù)報(bào)警??梢远x復(fù)雜的報(bào)警邏輯,可以實(shí)現(xiàn)監(jiān)控項(xiàng)目之間報(bào)警的關(guān)聯(lián)性,而不是只針對(duì)單一故障獨(dú)立報(bào)警;用戶可以根據(jù)實(shí)際情況自定義報(bào)警方式,如發(fā)送郵件或短息等;報(bào)警內(nèi)容能夠根據(jù)實(shí)際情況自行設(shè)置,可以獲取服務(wù)器的基本信息;報(bào)警后可以自動(dòng)執(zhí)行簡(jiǎn)單的命令,最大程度的做到自動(dòng)修復(fù)故障、恢復(fù)服務(wù)器狀態(tài)。
3)和其它系統(tǒng)協(xié)同工作。有強(qiáng)大的API(應(yīng)用程序接口)提供使用,以便實(shí)現(xiàn)其它系統(tǒng)調(diào)用;監(jiān)控?cái)?shù)據(jù)具有開(kāi)放行,數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)簡(jiǎn)單、合理、直觀;監(jiān)控可視化的圖表信息可以提供給用戶方便使用。
MRTG(Multi Router Traffic Grapher)是一套可以用來(lái)繪制網(wǎng)絡(luò)流程圖的軟件,由瑞士奧爾騰的Tobias Oetiker與Dave Rand所開(kāi)發(fā)。MRTG最早的版本是在1995年春推出的,用Perl語(yǔ)言寫(xiě)成,可跨平臺(tái)使用,數(shù)據(jù)采集使用SNMP協(xié)議,MRTG將收集到的數(shù)據(jù)通過(guò)Web頁(yè)面以GIF或PNG格式繪制出圖像,并以日、周、月為單位分別繪制出,可以查詢最大值和最小值。MRTG原本只能繪制出網(wǎng)絡(luò)設(shè)備的流量,后來(lái)發(fā)展出了各種插件。因此,網(wǎng)絡(luò)設(shè)備以外的其他設(shè)備也可以由MRTG監(jiān)控,例如,服務(wù)器的硬盤(pán)使用容量、CPU負(fù)載等。
Cacti(仙人掌)是一套基于PHP、MySQL、SNMP和RRDtool開(kāi)發(fā)的網(wǎng)絡(luò)流量監(jiān)測(cè)圖形分析工具,它通過(guò)snmpget來(lái)獲取數(shù)據(jù),使用RRDtool繪圖,但使用者無(wú)須了解RRDtool的復(fù)雜參數(shù),它提供了非常強(qiáng)大的數(shù)據(jù)和用戶管理功能,可以指定每一個(gè)用戶能查看的樹(shù)狀結(jié)構(gòu)、主機(jī)設(shè)備等,還可以與LDAP結(jié)合進(jìn)行用戶認(rèn)證,同時(shí)也能自定義模板,在歷史數(shù)據(jù)的展示監(jiān)控方面,其功能非常強(qiáng)大。Cacti通過(guò)添加模板,使不同設(shè)備的監(jiān)控添加具有可復(fù)用性,并且具備可自定義繪圖功能,具有強(qiáng)大的運(yùn)算能力(數(shù)據(jù)的疊加功能)[5~6]。
SmokePing主要用于監(jiān)視網(wǎng)絡(luò)性能,包括常規(guī)的ping、www服務(wù)器性能、DNS查詢性能、SSH性能等,底層使用RRDtool作為支持,特點(diǎn)是繪制的圖形非常漂亮,網(wǎng)絡(luò)丟包和延遲用顏色和陰影來(lái)表示,支持將多張圖疊放在一起。
Graphite是一個(gè)用于采集網(wǎng)站實(shí)時(shí)信息并進(jìn)行統(tǒng)計(jì)的開(kāi)源項(xiàng)目,Graphite服務(wù)支持平均每分鐘4800次更新操作,采用簡(jiǎn)單文本協(xié)議,具有繪圖功能,其即插即用的功能可以方便的用于任何需要監(jiān)控的系統(tǒng)中。和其他監(jiān)控工具不同的是,Graphite本身并不收集具體數(shù)據(jù),這些數(shù)據(jù)收集的工作通常由第三方工具或插件完成(如Ganglia、Nagios、Col?lectd等),因此,可以說(shuō)Graphite是一個(gè)繪圖工具[7]。
Nagios是一個(gè)企業(yè)級(jí)的監(jiān)控系統(tǒng),可以監(jiān)控服務(wù)的運(yùn)行狀態(tài)和網(wǎng)絡(luò)信息等,并能監(jiān)控所指定的本地或遠(yuǎn)程主機(jī)參數(shù)以及服務(wù),同時(shí)提供異常告警通知功能等。Nagios可以運(yùn)行在Linux和UNIX平臺(tái)上,同時(shí)提供一個(gè)可選的基于瀏覽器的Web界面,以方便系統(tǒng)管理人員查看網(wǎng)絡(luò)狀態(tài)、各種系統(tǒng)問(wèn)題,以及日志等。Nagios的功能側(cè)重于監(jiān)控服務(wù)的可用性,能及時(shí)根據(jù)觸發(fā)條件報(bào)警。目前,Nagios占領(lǐng)了一定的市場(chǎng)份額,但并沒(méi)有與時(shí)俱進(jìn),已經(jīng)不能滿足多變的監(jiān)控需求,架構(gòu)的擴(kuò)展性和使用的便捷性有待增強(qiáng),其高級(jí)功能集成在商業(yè)版Nag?iosXI中[8~9]。
ZenossCore(簡(jiǎn)稱Zenoss)是開(kāi)源企業(yè)級(jí)IT管理軟件,它允許IT管理員依靠單一的Web控制臺(tái)來(lái)監(jiān)控網(wǎng)絡(luò)架構(gòu)的狀態(tài)和健康度。Zenoss的強(qiáng)大功能在于配置管理數(shù)據(jù)庫(kù),用于發(fā)現(xiàn)和管理公司IT環(huán)境的各類資產(chǎn)(包括服務(wù)器、網(wǎng)絡(luò)和其他設(shè)備)。Zenoss可以創(chuàng)建關(guān)鍵資產(chǎn)清單和對(duì)應(yīng)的組件(接口、服務(wù)、進(jìn)程、已安裝的軟件等)。建立好模型后,Zenoss就可以監(jiān)控和報(bào)告IT架構(gòu)中各種資源的狀態(tài)和性能狀況了,同時(shí)還提供與CMDB(配置管理數(shù)據(jù)庫(kù))關(guān)聯(lián)的時(shí)間和錯(cuò)誤管理系統(tǒng),以協(xié)助提高各類事件和提醒的管理效率,以此提高IT管理人員的工作效率。
Ganglia是一個(gè)跨平臺(tái)的、可擴(kuò)展的、高性能的分布式監(jiān)控系統(tǒng),如集群和網(wǎng)格。它基于分層設(shè)計(jì),用RRDtool存儲(chǔ)數(shù)據(jù),具有可視化界面,適合于對(duì)集群系統(tǒng)的自動(dòng)化監(jiān)控,其精心設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu)和算法使得監(jiān)控端到被監(jiān)控端的連接開(kāi)銷(xiāo)非常低,目前已經(jīng)有成千上萬(wàn)的集群正在使用Ganglia監(jiān)控系統(tǒng),可以輕松的處理2000個(gè)節(jié)點(diǎn)的集群環(huán)境。
開(kāi)源OpenTSDB用Hbase數(shù)據(jù)庫(kù)存儲(chǔ)所有時(shí)序(無(wú)須采樣)的數(shù)據(jù),來(lái)構(gòu)建一個(gè)分布式、可伸縮的時(shí)間序列數(shù)據(jù)庫(kù),它支持秒級(jí)數(shù)據(jù)采集,支持永久存儲(chǔ),可以做容量規(guī)劃,并很容易接入到現(xiàn)有的報(bào)警系統(tǒng)中。OpenTSDB可以從大規(guī)模的集群(包括集群中的網(wǎng)絡(luò)設(shè)備、操作系統(tǒng)、應(yīng)用程序)中獲取相應(yīng)的采集指標(biāo),并進(jìn)行存儲(chǔ)、索引和服務(wù),從而使這些數(shù)據(jù)更容易讓人理解,如Web化、圖形化等。在對(duì)實(shí)時(shí)性要求比較高的場(chǎng)合,OpenTSDB是一個(gè)很好的選擇,它支持秒級(jí)的數(shù)據(jù)采集,這在其他監(jiān)控系統(tǒng)中是無(wú)法想象的。因得益于其存儲(chǔ)系統(tǒng)的選擇,所以它支持大數(shù)據(jù)分析。因此這個(gè)開(kāi)源軟件在未來(lái)的環(huán)境中會(huì)有更多的用戶,也會(huì)獲得更廣泛的支持。
1)Zabbix概述
Zabbix是一個(gè)提供Web管理界面的企業(yè)級(jí)網(wǎng)絡(luò)分布式監(jiān)控解決方案,能監(jiān)視各種網(wǎng)絡(luò)參數(shù),保證服務(wù)器系統(tǒng)的安全運(yùn)營(yíng);并提供靈活的通知機(jī)制以讓系統(tǒng)管理員快速定位/解決存在的各種問(wèn)題。Zabbix由zabbixserver與可選組件zabbixagent兩部分構(gòu)成[10]:
(1)zabbixagent需要安裝在被監(jiān)視的目標(biāo)設(shè)備上,它主要完成對(duì)硬件信息或與操作系統(tǒng)有關(guān)的內(nèi)存、CPU等信息的收集。
(2)zabbixserver可以通過(guò)SNMP,zabbixagent,ping、端口監(jiān)視等方法獲取監(jiān)控?cái)?shù)據(jù),實(shí)現(xiàn)對(duì)遠(yuǎn)程設(shè)備/網(wǎng)絡(luò)狀態(tài)的監(jiān)視和數(shù)據(jù)分析等功能。zabbix?server可以單獨(dú)監(jiān)視遠(yuǎn)程設(shè)備的狀態(tài),同時(shí)也可以與zabbixagent配合,輪詢zabbixagent主動(dòng)讀取監(jiān)視數(shù)據(jù),或被動(dòng)接收zabbixagent發(fā)送的數(shù)據(jù)[11]。
2)Zabbix基本功能
(1)具備常見(jiàn)的商業(yè)監(jiān)控軟件所具備的功能(服務(wù)器、網(wǎng)絡(luò)設(shè)備、應(yīng)用軟件等性能監(jiān)控)。
(2)具備協(xié)議監(jiān)控、多種告警方式、詳細(xì)的報(bào)表圖表繪制。
(3)支持自動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備和服務(wù)器。
(4)支持分布式,能集中展示、管理分布式的監(jiān)控點(diǎn)。
(5)擴(kuò)展性強(qiáng),提供通用接口,可以自己開(kāi)發(fā)完善各類監(jiān)控。
本文以目前較為流行的Zabbix網(wǎng)絡(luò)監(jiān)控平臺(tái)為例,進(jìn)行網(wǎng)絡(luò)監(jiān)控基本功能的演示。
首先需要搭建一個(gè)小型的網(wǎng)絡(luò)環(huán)境,在網(wǎng)絡(luò)環(huán)境中部署相關(guān)的服務(wù)器和客戶端硬件設(shè)備,然后將需要演示驗(yàn)證的軟件系統(tǒng)部署到服務(wù)器或客戶端中,最后對(duì)Zabbix系統(tǒng)各功能進(jìn)行操作演示,網(wǎng)絡(luò)環(huán)境示意圖如圖1所示。演示環(huán)境中包含服務(wù)器、客戶端、網(wǎng)絡(luò)交換機(jī)等設(shè)備,其中:服務(wù)器由一臺(tái)筆記本電腦構(gòu)成,安裝Vmware ESXI虛擬化操作系統(tǒng),并在其操作系統(tǒng)內(nèi)構(gòu)建兩個(gè)Linux系統(tǒng)服務(wù)器,分別安裝Zabbix軟件和其它應(yīng)用服務(wù)軟件(如郵件、FTP服務(wù)器等);客服端A和客戶端B分別由一臺(tái)筆記本電腦構(gòu)建,其中在客戶端B上安裝可選組件zabbixagent,客戶端筆記本電腦通過(guò)交換機(jī)和其他設(shè)備連通;交換機(jī)用來(lái)組建網(wǎng)絡(luò)環(huán)境,實(shí)現(xiàn)服務(wù)器筆記本電腦、兩個(gè)客戶端筆記本電腦互聯(lián)互通,網(wǎng)絡(luò)地址分配如表1所示。
圖1 網(wǎng)絡(luò)環(huán)境示意圖
表1 演示驗(yàn)證IP地址配置
Zabbix通過(guò)收集終端信息,匯總到Zabbix服務(wù)器端統(tǒng)一展現(xiàn)和分析。首先,客戶端A通過(guò)web界面登錄已安裝在服務(wù)器的Zabbix系統(tǒng),創(chuàng)建監(jiān)控主機(jī)(Host)、監(jiān)控項(xiàng)(Item)等需要展示和查看的相關(guān)監(jiān)控?cái)?shù)據(jù)。通過(guò)監(jiān)控內(nèi)容的設(shè)置,可以實(shí)現(xiàn)對(duì)客戶端B的被動(dòng)監(jiān)控,并且客戶端A作為一個(gè)網(wǎng)絡(luò)終端,也同樣可以被Zabbix系統(tǒng)主動(dòng)監(jiān)控。利用Zab?bix自動(dòng)發(fā)現(xiàn)功能,可以檢測(cè)到交換機(jī)設(shè)備,并利用SNMP協(xié)議(交換機(jī)端SNMP協(xié)議功能需開(kāi)放),可以監(jiān)控到交換機(jī)各端口聯(lián)通狀態(tài)、端口流量等大部分信息。此外,Zabbix監(jiān)控系統(tǒng)還可以對(duì)虛擬機(jī)(如本例中郵件服務(wù)器)進(jìn)行同樣的狀態(tài)監(jiān)控。基于所創(chuàng)建的上述監(jiān)控信息,可進(jìn)一步創(chuàng)建事件(Event)和動(dòng)作(Action)等功能,比如通過(guò)設(shè)定某項(xiàng)監(jiān)控?cái)?shù)據(jù)閥值,當(dāng)監(jiān)控?cái)?shù)據(jù)超過(guò)(或低于)該閥值時(shí),觸發(fā)報(bào)警事件,并根據(jù)用戶設(shè)定,實(shí)現(xiàn)相關(guān)動(dòng)作的自動(dòng)執(zhí)行,最常見(jiàn)的是當(dāng)發(fā)生故障時(shí),自動(dòng)向用戶發(fā)出故障報(bào)警的郵件,或者自動(dòng)向故障設(shè)備發(fā)出一些簡(jiǎn)單的執(zhí)行指令,修復(fù)故障以恢復(fù)狀態(tài)[12~13]。
下面以我們搭建的演示環(huán)境,通過(guò)具體監(jiān)控功能設(shè)置,對(duì)Zabbix系統(tǒng)功能設(shè)置等進(jìn)行說(shuō)明。
1)對(duì)客戶端A設(shè)備的監(jiān)控:
(1)創(chuàng)建監(jiān)控主機(jī):進(jìn)入Zabbix系統(tǒng)web管理頁(yè)面,點(diǎn)擊“Create Host”,輸入被監(jiān)控設(shè)備的名稱(TestHost)、主 機(jī) 組 名 稱(testgroup)、和 IP(192.168.12.201)。
(2)添加監(jiān)控項(xiàng)(Item):進(jìn)入上步創(chuàng)建的Host頁(yè)面,單擊“Item”后選擇“Create Item”,在“Name”項(xiàng)中輸入任意名稱(本例為CPU Load);在“Type”選項(xiàng)中選擇“zabbix agent”;在“Key”欄中輸入需要監(jiān)控CPU負(fù)載的參數(shù)“system.cpu.load”;可以在“Type of information”中選擇該監(jiān)控的數(shù)據(jù)類型“Numeric(float)”。
(3)添加觸發(fā)器(Trigger):Trigger是Zabbix報(bào)警的核心之一,本例將監(jiān)控項(xiàng)關(guān)聯(lián)一個(gè)觸發(fā)器,當(dāng)CPU負(fù)載超過(guò)某個(gè)閾值時(shí),會(huì)觸發(fā)這個(gè)Trigger。在Trigger設(shè)置頁(yè)面中的“Name”中輸入任意名稱(本例為 CUP load is too high),在“Experssion”中輸入“{TestHost:system.cpu.load.last()}>40”,這里使用Zabbix的語(yǔ)法定義了一個(gè)表達(dá)式,表示剛剛創(chuàng)建的監(jiān)控項(xiàng)獲取的數(shù)據(jù)大于40。
(4)設(shè)置動(dòng)作(Action):Zabbix系統(tǒng)中可以由Trigger由正常變?yōu)楫惓r(shí)觸發(fā)動(dòng)作發(fā)生。如果當(dāng)出現(xiàn)問(wèn)題時(shí),需要Zabbix發(fā)送郵件通知,則在web頁(yè)面的“Administration”中選擇“Media”,可以看到Zabbix已經(jīng)默認(rèn)定義了三種媒介:Email是郵件、Jabber是XMPP、SMS是短信。在本例中,單擊Email,“Name”為該媒介的名字;Type選擇 Email;SMTP為郵件服務(wù)器(如填寫(xiě)該環(huán)境內(nèi)的郵件服務(wù)器);SMTP email是發(fā)送報(bào)警郵件的郵箱。報(bào)警郵箱設(shè)置好后,選擇“Configuration”中的“Actions”單擊“Create action”新創(chuàng)建一個(gè)Action,Action名字可任意(如CPU Load is too high);在“Condition”標(biāo)簽頁(yè)中配置Action觸發(fā)的場(chǎng)景,這里選擇“Trigger name like CPU Load”,則Condition有三個(gè)條件如圖2所示,觸發(fā)條件為:服務(wù)器不在維護(hù)狀態(tài)中,Trig?ger的狀態(tài)是PROBLEM,并且Trigger的名字是“CPU Load”。通過(guò)這些條件,這個(gè)Action就和前面建立的Trigger關(guān)聯(lián)起來(lái)了;在“Operation”標(biāo)簽頁(yè)中的參數(shù)設(shè)置如圖3所示,其中“User”選項(xiàng)可添加需要郵件通知的人員。通過(guò)上述設(shè)置,即可對(duì)客戶端A的CPU負(fù)載進(jìn)行監(jiān)控和自動(dòng)報(bào)警。
圖2 Action觸發(fā)條件
圖3 Operation標(biāo)簽頁(yè)選項(xiàng)示例
2)對(duì)客戶端B設(shè)備的監(jiān)控:
由于客戶端B設(shè)備已安裝zabbixagent組件,本例利用Zabbix系統(tǒng)被監(jiān)控設(shè)備主動(dòng)工作模式對(duì)客戶端B設(shè)備監(jiān)控。運(yùn)行在被監(jiān)控設(shè)備上的代理組件(zabbixagent)需要首先從Zabbix服務(wù)器端獲取需要采集數(shù)據(jù)的監(jiān)控項(xiàng)目列表及配置信息。而被監(jiān)控設(shè)備代理組件確定它所需要連接的Zabbix服務(wù)器的方法是:從其自身的配置文件(zab?bix_agentd.conf)中讀取ServerActive配置項(xiàng)內(nèi)容。該配置項(xiàng)的值指定了被監(jiān)控設(shè)備代理組件所需要連接的Zabbix服務(wù)器的IP地址或主機(jī)名,本例中將此項(xiàng)設(shè)為192.168.12.101;被監(jiān)控項(xiàng)目列表及其配置信息的讀取頻率則是由上述配置文件中的Re?freshActiveChecks配置項(xiàng)指定,但是如果讀取出錯(cuò),則它將在60ns后重試。設(shè)置完該配置文件后,與對(duì)客戶端A設(shè)備監(jiān)控設(shè)置步驟和參數(shù)類似,僅是在監(jiān)控項(xiàng)設(shè)置中將“Type”選項(xiàng)中選擇“zabbix agent(active)”項(xiàng)。
3)對(duì)交換機(jī)設(shè)備的監(jiān)控:
Zabbix可以實(shí)現(xiàn)通過(guò)掃描IP地址來(lái)發(fā)現(xiàn)監(jiān)控節(jié)點(diǎn),只要節(jié)點(diǎn)滿足發(fā)現(xiàn)條件即可發(fā)現(xiàn)。本例通過(guò)配置Zabbix的自動(dòng)發(fā)現(xiàn)(Discovery)功能來(lái)實(shí)現(xiàn)自動(dòng)掃描交換機(jī)節(jié)點(diǎn)。進(jìn)入“Configuration”中的“Dis?conery”,單擊“Create rule”創(chuàng)建發(fā)現(xiàn)規(guī)則,定義該發(fā)現(xiàn)規(guī)則名字(如discovery switch);在“IP range”中填寫(xiě) 192.168.12.1-200;在“Check Type”中 選 擇“SNMP v2 agent”。完成配置發(fā)現(xiàn)規(guī)則后,還要配置該規(guī)則觸發(fā)后的動(dòng)作(Action),方法步驟與前述類似,本例中在“Action”中的“Operation”標(biāo)簽頁(yè)中設(shè)置自動(dòng)添加主機(jī)監(jiān)控(Add host),實(shí)現(xiàn)發(fā)現(xiàn)交換機(jī)后自動(dòng)添加被監(jiān)控的交換機(jī)設(shè)備;最后可以手動(dòng)為該被監(jiān)控設(shè)備添加監(jiān)控項(xiàng),步驟如前所述,僅所選參數(shù)不同:“type”選擇“SNMP v2 agent”,并根據(jù)所需監(jiān)控的數(shù)據(jù)填寫(xiě)“SNMP OID”對(duì)象標(biāo)識(shí)符[14~16]。對(duì)虛擬機(jī)監(jiān)控與對(duì)客戶端設(shè)備監(jiān)控類似,在此不再贅述。本例功能演示效果圖如圖4所示。
圖4 運(yùn)維監(jiān)控系統(tǒng)演示效果圖
當(dāng)前正處于信息化時(shí)代,IT運(yùn)維是一項(xiàng)非常繁瑣復(fù)雜的工作,尤其是對(duì)于大型現(xiàn)代化企業(yè),運(yùn)維成本耗費(fèi)巨大,而網(wǎng)絡(luò)監(jiān)控技術(shù)是提高信息化系統(tǒng)運(yùn)行可靠度、降低運(yùn)維成本的一項(xiàng)重要手段,企業(yè)應(yīng)該根據(jù)自身實(shí)際情況選擇適合自己的監(jiān)控系統(tǒng)和軟件,應(yīng)該在網(wǎng)絡(luò)監(jiān)控系統(tǒng)方面投入更大的精力和關(guān)注度。
[1]付賢樹(shù),朱艷超.虛擬化數(shù)據(jù)中心的IT運(yùn)維管理淺談與實(shí)踐[J].電子技術(shù)與軟件工程.2014,15(08):195-196.FU Xianshu,ZHU Yanchao.Discussion and Practice on IT operation and maintenance management of virtualized data center[J].Electronic technology and software engi?neering,2014,15(08):195-196.
[2]蔡昭權(quán),索劍,汪華斌.基于Esper和Nagios的網(wǎng)絡(luò)監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2012,26(09):8-12.CAI Zhaoquan,SUO Jian,WANG Huabin.Design and im?plementation of network monitoring system based on Esper and Nagios[J].Computer engineering and Science,2012,26(09):8-12.
[3]湯兵勇.云計(jì)算概論[M].北京:化學(xué)工業(yè)出版社,2013:2-6.TANG Bingyong.An introduction to cloud computing[M].Beijing:Chemical Industry Press,2013:2-6.
[4]張術(shù)平.探討計(jì)算機(jī)網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用與發(fā)展[J].無(wú)線互聯(lián)科技,2014,20(05):10-11.ZHANG Shuping.Discussion of the application and devel?opment of computer network monitoring system[J].Wire?less Interconnect Technology,2014,20(05):10-11.
[5]朱姝.淺談網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計(jì)思路[J].電腦知識(shí)與技術(shù),2012,16(23):24-26.ZHU Shu.An introduction to the design idea of network monitoring system[J].Computer knowledge and technolo?gy,2012,16(23):24-26.
[6]李志剛.淺談?dòng)?jì)算機(jī)網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用[J].吉林廣播電視大學(xué)學(xué)報(bào),2010,21(11):15-17.LI Zhigang.An introduction to the application of computer network monitoring system[J].Journal of Jilin TV&Ra?dio University,2010,21(11):15-17.
[7]張水平,孫云星,張鳳.SOA架構(gòu)的分布式網(wǎng)絡(luò)監(jiān)管系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,18(7):22-25.ZHANG Shuiping,SUN Yunxing,ZHANG Feng.Design and implementation of a distributed network monitoring system based on SOA architecture[J].Computer engineer?ing and design,2011,18(7):22-25.
[8]宋磊,王靜文.OpenBSD下基于Nagios的網(wǎng)絡(luò)服務(wù)監(jiān)控報(bào)警系統(tǒng)的研究[J].電腦編程技巧與維護(hù),2009,33(14):112-113.SONG Lei,WANG Jingwen.Research on monitoring and alarming system of network service based on Nagios of OpenBSD[J].Computer programming skills and mainte?nance,2009,33(14):112-113.
[9]陳子國(guó),劉金剛.基于nagios的網(wǎng)絡(luò)監(jiān)控系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].微計(jì)算機(jī)信息,2010,31(36):32-34.CHEN Ziguo,LIU Jingang.Design and implementation of network monitoring system based on Nagios[J].Microcom?puter information,2010,31(36):32-34.
[10]黃儉.ZABBIX在服務(wù)器監(jiān)控中的應(yīng)用與研究[J].科技信息,2010,34(20):26-29.HUANG Jian.Application and research of ZABBIX in server monitoring[J].Sci-tech Information,2010,34(20):26-29.
[11]李朝陽(yáng).利用ZABBIX進(jìn)行系統(tǒng)和網(wǎng)絡(luò)管理[J].計(jì)算機(jī)時(shí)代,2008,29(10):31-33.LI Chaoyang.Using ZABBIX for system and network management[J].Computer age.2008,29(10):31-33.
[12]李渤,陳瑩.IT的運(yùn)維管理與實(shí)現(xiàn)[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2013,29(18):10-13.LI Bo,CHEN Ying.Management and implementation of IT operation and maintenance[J].Software and applica?tion of computer CD,2013,29(18):10-13.
[13]姚仁婕.Zabbix監(jiān)控系統(tǒng)深度實(shí)踐[M].北京:電子工業(yè)出版社,2016:115-126.YAO Renjie.Deep practice of Zabbix monitoring system[M].Beijing:Electronics Industry,2016:115-126.
[14]黎皓.基于SNMP的網(wǎng)絡(luò)性能管理系統(tǒng)研究[J].通訊世界,2013,42(9):8-10.LI Hao.Research on network performance management system based on SNMP[J].Communication world,2013,42(9):8-10.
[15]趙輝,胥光輝,吳君青.一種新的SNMP操作實(shí)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2007,25(S1):35-37.ZHAO Hui,XU Guanghui,WU Junqing.A new imple?mentation method of SNMP operation[J].Computer ap?plication,2007,25(S1):35-37.
[16]呂斌斌.基于SNMP對(duì)服務(wù)器進(jìn)行監(jiān)管的研究和實(shí)現(xiàn)[J].湖州師范學(xué)院學(xué)報(bào),2006,17(S1):26-29.LV Binbin.Research and implementation of server moni?toring based on SNMP[J].Journal of Huzhou Teachers College,2006,17(S1):26-29.
Research on System of Network Monitoring
GE Wei
(No.91872 Troops of the PLA,Beijing 102442)
With the rapid development of the information technology,the system hardware and software architecture of serv?ers are becoming increasingly complex,so the requirements of IT operation and maintenance are also getting higher and higher,and network monitoring technology has been paid more and more attention in IT operation and maintenance.A robust monitoring system will play an important role in IT operation and maintenance,which not only can greatly enhance the efficiency of operation and main?tenance,reduce errors,make operation and maintenance experts detect the faults and problems of system in time,but also through the analysis of the monitoring data,can provide data support for reconfigurable system architecture.In this paper,the mainstream open monitoring system is introduced,and the Zabbix monitoring system is taken as an example to demonstrate the basic functions of the monitoring system.
IT operation and maintenance,network monitoring
Class Number TP277
TP277
10.3969/j.issn.1672-9722.2017.12.027
2017年7月12日,
2017年8月21日
葛威,男,碩士,研究方向:計(jì)算機(jī)科學(xué)與技術(shù)、故障檢測(cè)及測(cè)試診斷技術(shù)。