摘 要:隨著高校信息化建設(shè)持續(xù)深入,日益嚴峻的IT運維管理難題已成為高校信息化建設(shè)的攔路虎。使用Nagios和Cacti開源軟件構(gòu)建了IT運維管理系統(tǒng)平臺,具有成本低、覆蓋廣、可視化和響應快等優(yōu)勢,提高了高校IT服務的整體效率和服務水平,用戶的體驗也大大提升。
關(guān)鍵詞: IT運維管理;Nagios;Cacti
中圖分類號:G642 文獻標識碼:A 文章編號:1673-9795(2013)06(b)-0000-00
IT技術(shù)迅猛發(fā)展改變了信息的獲取、處理和傳播方式,高校的教學、科研、管理和對外交流等業(yè)務對IT系統(tǒng)的依賴越來越高。隨著高校信息化建設(shè)持續(xù)深入,其網(wǎng)絡規(guī)模不斷擴大、網(wǎng)絡結(jié)構(gòu)日益復雜與網(wǎng)絡應用業(yè)務日新月異,必然要考慮到IT系統(tǒng)的穩(wěn)定性、可靠性與安全性等問題。
高校的IT系統(tǒng)管理面臨著以下問題:監(jiān)控不同的網(wǎng)絡設(shè)備和業(yè)務系統(tǒng)可能需要購買幾種監(jiān)控軟件,導致監(jiān)控軟件整體成本較高。這些監(jiān)控軟件各自為政,相互獨立,導致監(jiān)控覆蓋面斷裂,沒有對整個IT系統(tǒng)的進行統(tǒng)一監(jiān)控。由于沒有IT系統(tǒng)管理范圍整體可視化監(jiān)控界面,IT系統(tǒng)管理員很難直接判定問題是出在基礎(chǔ)網(wǎng)絡、系統(tǒng)服務器、數(shù)據(jù)庫還是應用系統(tǒng)自身,不便于故障的追根溯源。故障難以定位將直接導致業(yè)務恢復時間的推遲,影響業(yè)務系統(tǒng)的正常運行,大大降低服務質(zhì)量,用戶體驗較差。日益嚴峻的IT運維管理難題成為高校信息化建設(shè)的攔路虎,建立統(tǒng)一的IT運維管理系統(tǒng)平臺迫在眉睫。
1 IT運維管理系統(tǒng)的選擇
IT運維管理的概念是從傳統(tǒng)的網(wǎng)絡管理延伸而來的。IT運維管理是指單位 IT 部門采用相關(guān)的方法、手段、技術(shù)、制度、流程和文檔等,對IT 運行環(huán)境(如硬軟件環(huán)境、網(wǎng)絡環(huán)境等)、IT 業(yè)務系統(tǒng)和 IT 運維人員進行的綜合管理。IT運維管理其實對底層IT基礎(chǔ)設(shè)施、應用服務和業(yè)務服務的綜合管理。其中主要包括:主機管理、網(wǎng)絡設(shè)備管理、應用服務管理、機房環(huán)境管理、IT 運維人員權(quán)限管理和各類故障預警告警。
近年來,IT運維管理系統(tǒng)主要是在HP OpenView、IBM Tivoli、CA Unicenter和 BMC Patrol這四家商業(yè)軟件的推動之下成長和演變的。但四大商業(yè)軟件的成本較高且難以定制,開源軟件作為一種替代性選擇開始得到越來越多的關(guān)注。最終用戶不光可以免費使用,還可以根據(jù)IT系統(tǒng)實際配置靈活自由的對軟件進行定制,并且可以通過開源軟件社區(qū)獲得技術(shù)支持。
Nagios是一個監(jiān)控系統(tǒng)運行狀態(tài)和網(wǎng)絡信息的開源監(jiān)控系統(tǒng)。Nagios所有的監(jiān)控是由插件(Nagios Plugins)完成的,插件將監(jiān)控的結(jié)果返回給Nagios,Nagios分析這些結(jié)果,同時提供相應的報警功能(由插件完成的)。在http://www.nagios.org/上可以下載到Nagios XI和 Nagios Plugins 1.4.16。
Cacti 是一款界面非常友好的開源軟件,是基于PHP、MySQL、SNMP及RRDTool開發(fā)的網(wǎng)絡流量監(jiān)測圖形分析工具。通過Snmpget來獲取數(shù)據(jù),使用 RRDtool繪畫圖形,以WEB方式很直觀的查看主機的性能負載,磁盤利用率等情況。
2 開源IT運維管理系統(tǒng)平臺的構(gòu)建
Nagios比較注重于主機、網(wǎng)絡、應用和機房的監(jiān)控,并且報警功能也很強大,其監(jiān)控與報警功能均由插件完成,Nagios Plugins 1.4.16中包含官方提供的50個Naigos插件,在http://exchange.nagios.org/網(wǎng)站上面還有427個類別3810個擴展插件。如果所要監(jiān)控的設(shè)備或應用比較特殊,也可編寫自己的插件,只要自定義的插件符合腳本輸出原則與狀態(tài)代碼原則就可以被Nagios支持。但Nagios對像流量這樣的持續(xù)數(shù)據(jù)的展現(xiàn)能力卻比較弱,而這方面是Cacti的強項,Cacti比較著重于直觀數(shù)據(jù)的監(jiān)控,易于生成圖形,很容易得到一段時間內(nèi)某項數(shù)據(jù)指標的變化趨勢(比如網(wǎng)絡流量的增長趨勢、服務器負載的趨勢等)。利用NPC(Nagios Plugin for Cacti)插件把兩者結(jié)合起來,既可以使報警機制高效及時,又可以得到可視化的運維管理圖并很容易的查看各項數(shù)據(jù)的情況。本文構(gòu)建的IT開源運維管理系統(tǒng)是由Nagios和Cacti兩大部分利用其各自的優(yōu)勢互補組成的。
其中使用Nagios監(jiān)控主機資源(Windows、Unix、Linux等操作系統(tǒng)的CPU的利用率,磁盤讀寫速率,內(nèi)存占用率,文件系統(tǒng)的利用率,重要的進程的啟動、停止和狀態(tài)改變情況,主機的系統(tǒng)日志等);監(jiān)控網(wǎng)絡設(shè)備(路由器、交換機、防火墻、負載均衡、語音設(shè)備、存儲和入侵檢測系統(tǒng)等設(shè)備可用性、設(shè)備性能、流量等指標);監(jiān)控應用服務(Web、DNS、文件服務、郵件系統(tǒng)、數(shù)據(jù)庫、以及各種ERP,CRM系統(tǒng)等可用性、系統(tǒng)資源占用和性能指標的管理等);監(jiān)控機房環(huán)境(機房的溫度、濕度,UPS電壓電量,精密空調(diào)工作狀態(tài)等),并可以對各監(jiān)控項目設(shè)定多個預警報警閾值,利用電子郵件、手機短信、預錄語音和即時通訊等方式對不同權(quán)限的IT系統(tǒng)管理員進行即時報警,精確定位故障點,迅速完成故障診斷,實施有效的故障解決方案,實現(xiàn)降低系統(tǒng)故障率,為用戶提供良好的體驗。利用Cacti的Weathermap插件以圖形化地圖的方式直觀地顯示網(wǎng)絡鏈路的帶寬和負載狀況。Cacti也提供了非常強大的用戶管理功能,與LDAP結(jié)合進行用戶驗證,可以指定每一個用戶能查看的樹狀結(jié)構(gòu)、host以及任何一張圖。
3 結(jié)語
利用開源的 Cacti 和 Nagios 軟件,成功搭建了IT運維管理系統(tǒng)平臺,實現(xiàn)了對主機、網(wǎng)絡設(shè)備、應用業(yè)務、機房環(huán)境的運行狀態(tài)實時監(jiān)控,并實現(xiàn)了系統(tǒng)管理員權(quán)限的管理和多途徑的即時報警功能。此IT運維管理系統(tǒng)平臺使用開源軟件大幅減少了建設(shè)成本,覆蓋全部IT設(shè)備和應用服務,可視化的運維管理圖可精確定位故障點,即時報警使得系統(tǒng)管理員快速響應,可迅速完成故障診斷,并實施有效的故障解決方案。系統(tǒng)管理員由原來的救火隊員變?yōu)楸=♂t(yī)生,同時提高了高校IT服務的整體效率和服務水平,用戶的體驗也將大大提升。
參考文獻:
[1]何海濤.數(shù)字校園亟需建立IT運維管理體系[J].中國教育網(wǎng)絡,2007(8):58-60.
[2]張四海,張萬光. 高校IT運維服務面臨的挑戰(zhàn)與機遇[J].中山大學學報(自然科學版),2009(S1):235-237.