肖海琴
[摘 要] 隨著集群引進(jìn)節(jié)點(diǎn)數(shù)量和存儲容量的增加,運(yùn)維難度逐漸增加,需要人數(shù)也會增加,如果運(yùn)維人員想構(gòu)建一套自己的監(jiān)控系統(tǒng)環(huán)境,Zabbix將會是最佳的選擇。如果是開發(fā),想基于開源軟件開發(fā)一套屬于自己的監(jiān)控系統(tǒng),Zabbix也是比較好的選擇。通過Zabbix連續(xù)監(jiān)控軟件在大慶高性能集群應(yīng)用上的介紹,可自動地監(jiān)控集群系統(tǒng)節(jié)點(diǎn)的性能和故障,達(dá)到快速處理和解決問題,減少運(yùn)維成本。
[關(guān)鍵詞] Zabbix;集群;應(yīng)用
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 077
[中圖分類號] TP311 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)03- 0139- 01
1 引 言
地震處理并行集群系統(tǒng),主要是由高性能IO節(jié)點(diǎn)、管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、高速網(wǎng)絡(luò)及光纖存儲、集群存儲等集成起來的并行機(jī)系統(tǒng)。隨著地震生產(chǎn)任務(wù)的逐年增加,服務(wù)器節(jié)點(diǎn)數(shù)量也隨之增多,而整個(gè)處理系統(tǒng)長期以來缺乏一個(gè)實(shí)時(shí)監(jiān)控工具,因沒有故障監(jiān)控和故障定位功能,給故障診斷造成困難。
其實(shí)作為集群系統(tǒng)運(yùn)維工程師所關(guān)心的是日常工作的主要內(nèi)容,通過哪些手段可以保證服務(wù)器的正常運(yùn)行。比如:檢查服務(wù)器性能、連接數(shù)量、DB的相關(guān)情況等等。因此通過研究開發(fā)集群監(jiān)控軟件,對系統(tǒng)管理人員,能做到發(fā)現(xiàn)問題、預(yù)知問題、及時(shí)處理問題,對于提高系統(tǒng)管理和維護(hù)效率,有著非常重要的意義。
2 Zabbix集群監(jiān)控軟件的主要功能及特點(diǎn)
Zabbix是一個(gè)企業(yè)級的開源分布式監(jiān)控解決方案,具備常見的商業(yè)監(jiān)控軟件所具備的功能。可監(jiān)控系統(tǒng)運(yùn)行性能的技術(shù)指標(biāo),包括CPU利用率、內(nèi)存的使用、磁盤的使用、網(wǎng)絡(luò)的狀況、端口的監(jiān)視、日志的監(jiān)視等,支持自動發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備和服務(wù)器,支持分布式,能集中展示、管理分布式的監(jiān)控點(diǎn),擴(kuò)展性強(qiáng),Server提供通用接口,可以自己開發(fā)完善各類監(jiān)控,依照監(jiān)控系統(tǒng)長期收集的各項(xiàng)綜合信息,及用戶實(shí)際應(yīng)用的反饋信息,弄清系統(tǒng)瓶頸真正所在,為系統(tǒng)運(yùn)行環(huán)境的優(yōu)化提供寶貴的資料。其意義在于讓系統(tǒng)步入一個(gè)良性的循環(huán)軌道,實(shí)現(xiàn)集群的負(fù)載平衡,提高整體運(yùn)行效率,所以集群監(jiān)控軟件在生產(chǎn)中具有非常重要的作用。
3 Zabbix集群監(jiān)控軟件的優(yōu)劣勢
3.1 優(yōu)點(diǎn)
(1)開源,無軟件成本投入;(2)Server對設(shè)備性能要求低;(3)支持設(shè)備多;(4)支持分布式集中管理;(5)開放式接口,擴(kuò)展性強(qiáng)。
3.2 缺點(diǎn)
(1)全英文,界面不友好;(2)無廠家支持,出現(xiàn)問題解決比較麻煩。
4 Zabbix配置使用及安裝部署
4.1 配置使用過程
通過本地瀏覽器訪問http://ServerIP/zabbix來開始配置和使用Zabbix。
使用Zabbix進(jìn)行監(jiān)控之前,要理解Zabbix監(jiān)控的流程。
4.2 一次完整的監(jiān)控流程簡單描述
Host Groups(設(shè)備組)->Hosts(設(shè)備)->Applications(監(jiān)控項(xiàng)組)->Items(監(jiān)控項(xiàng))->Triggers(觸發(fā)器)->Actions(告警動作)->Medias(告警方式)->User Groups(用戶組)->Users(用戶)
4.3 安裝部署
Server:mgt2
客戶端:node001-node240
Zabbix監(jiān)控實(shí)例如圖1所示。
5 結(jié) 語
開發(fā)的Zabbix監(jiān)控系統(tǒng)已經(jīng)部署到HP、IBM集群的偏移節(jié)點(diǎn),并實(shí)現(xiàn)對偏移作業(yè)實(shí)時(shí)連續(xù)監(jiān)控,通過直觀的監(jiān)控信息,可及時(shí)發(fā)現(xiàn)問題,并為系統(tǒng)性能優(yōu)化提供有效幫助,提高了系統(tǒng)管理和維護(hù)水平。
主要參考文獻(xiàn)
[1]吳兆松.Zabbix 企業(yè)級分布式監(jiān)控系統(tǒng)[M].北京:機(jī)械工業(yè)出版社,2014.
[2]高俊峰.高性能Linux服務(wù)器構(gòu)建實(shí)戰(zhàn):運(yùn)維監(jiān)控、性能調(diào)優(yōu)與集群應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2012.