茹軍 徐浩
構建智能化的機房運維管理系統(tǒng),保障機房中的設備高可靠運行,使機房運維和管理在日常工作變被動為主動,將出現(xiàn)的問題做到早發(fā)現(xiàn)、早解決,提前預警。
機房是政府機關企事業(yè)單位的數據核心和網絡安全重地,是數據中心的物理存放單元,一旦網絡等重要設備出現(xiàn)故障,會導致數據傳輸和存儲出現(xiàn)異常,嚴重的情況下,甚至會導致數據的丟失和一些關鍵設備報廢,產生不可估量的損失。這給機房及網絡運維管理帶來巨大挑戰(zhàn),完全依靠傳統(tǒng)人工監(jiān)測、排查已不可行。如何構建智能化的機房運維管理系統(tǒng),保障機房中的設備高可靠運行,使機房運維和管理在日常工作變被動為主動,將出現(xiàn)的問題做到早發(fā)現(xiàn)、早解決,提前預警,提高對網絡設備智能化監(jiān)控能力等方面值得深究。
建立3D機房運維可視化系統(tǒng),實現(xiàn)自主運維
調研發(fā)現(xiàn),目前機房日常運維管理存在著幾個主要問題:一是無法實時掌握關鍵設備的運行狀態(tài),導致出現(xiàn)網絡中斷、網絡服務停止等情況無法及時處理。二是機房管理工作不到位,容易產生人工誤操作造成機房設備損傷和損壞。三是機房管理存在安全隱患,可能出現(xiàn)因環(huán)境或人為破壞因素對機房設備產生破壞。四是管理工作繁瑣,沒有統(tǒng)一管理平臺,管理人員不能有效地管理機房設備。
基于以上原因,建立一個直觀、高效的機房運維管理系統(tǒng)變得非常迫切。因此,為探索機房的3D可視化智慧監(jiān)管,浙江省林業(yè)信息宣傳服務中心針對以上問題“開展3D機房運維可視化系統(tǒng)”試點建設,通過采用3D虛擬現(xiàn)實技術,在三維環(huán)境中構建機房環(huán)境、資源、設備和監(jiān)控管理信息的機房運維可視化平臺,實現(xiàn)對機房和各類設備的智能可視化管理。管理人員可一目了然地掌握設備的運行狀態(tài)及當前各項性能指標、業(yè)務運行狀況、資產使用情況、IP地址使用情況等信息,從而實現(xiàn)主動式、自動化、統(tǒng)一化的運維工作方式,為機房智能化監(jiān)管的探索解決方案。
打造機房智能運維系統(tǒng),提升智慧預警
打造機房智能運維系統(tǒng),需要建立一體化監(jiān)控、統(tǒng)計報表、故障管理、評估優(yōu)化、大屏整合管理等五大系統(tǒng)。
監(jiān)控體系是整個機房運維系統(tǒng)的核心。監(jiān)控系統(tǒng)能對其多個因子實現(xiàn)集中監(jiān)控和管理,實現(xiàn)24小時無人值守,節(jié)省人員財力。有告警時可以根據告警的不同級別,通過不同的顏色標識告警的設備,在告警的設備上懸浮顯示告警圖標,并能查看具體的告警信息。同時可以實現(xiàn)短信、郵件等多種方式結合發(fā)送,保障運維人員能夠實時獲取異常信息,系統(tǒng)將會告警通知到對應運維人員,確保告警得到及時處理。
與以往人工巡檢相比,一體化監(jiān)控系統(tǒng)主要有兩大優(yōu)勢:其一是故障告警實時性提高。以往人工巡檢為每天4次,無法實現(xiàn)24小時不斷巡查,往往要在接到求助電話后才去排查,并花費時間去查找故障位置。而通過監(jiān)控系統(tǒng),設置的輪詢時間為1分鐘,即當設備、網絡出現(xiàn)故障后,最晚1分鐘就可以監(jiān)測到故障位置并短信報警。其二是故障檢測時間減少。以往用人工檢測的話,每個設備需要大約30秒,總共需要15分鐘左右。而通過監(jiān)控系統(tǒng)系統(tǒng)巡檢,只需要登錄設備狀態(tài)頁面,就能一眼看出設備總體狀況
統(tǒng)計報表體系提供了運行狀態(tài)報表、流量報表、故障報表等內容豐富的報表模板,可以從資產/資產組、性能指標、時間段三個維度進行選擇,生成自定義報表。報表以柱狀圖、餅狀圖、表格、趨勢曲線圖等形式展現(xiàn),并且可以pdf、word等文檔形式導出,為運維管理工作總結、改進決策、編寫報告,提供客觀、詳細、全面、可靠的數據支撐。
故障管理功能可以通過SNMP、NetFlow、WMI、SSH、Telnet、JDBC、API等協(xié)議,實現(xiàn)對主流廠商服務器、交換機、路由器等設備的關鍵指標進行365×24小時集中、統(tǒng)一監(jiān)控。監(jiān)控內容包括:設備概覽(IP地址、接口總數、版本信息、響應時間、系統(tǒng)可用性、CPU利用率、內存使用率等),網絡狀況(上傳速率、下載速率、接口狀態(tài)),告警(告警統(tǒng)計、告警列表),日志(日志分析、日志查詢),TRAP等;
設備監(jiān)控功能可以對監(jiān)控對象的關鍵性能指標的閾值進行靈活設置,系統(tǒng)會將監(jiān)控到的性能數據與設定的閾值進行對比分析,在第一時間內將故障位置和故障詳情通知運維管理人員,并記錄其相應的告警事件,做到事件可追溯。運維管理人員及時發(fā)現(xiàn)和分析設備故障,及時排除設備故障,幫助擺脫被動式的運維局面,保障機房運維過程有據可依。
監(jiān)控平臺支持日志分析評估功能支持日志全文檢索和關鍵字檢索,可以根據指定時間范圍內,對日志內容、日志級別進行統(tǒng)計與分析。通過評估優(yōu)化體系使得運維人員可以在定期的時間內發(fā)現(xiàn)不足的地方,更好地優(yōu)化網絡配置。
大屏展示系統(tǒng)提供設備類型統(tǒng)計視圖、告警統(tǒng)計視圖、響應時間視圖、流量排名視圖、TopN等綜合視圖,為運維人員清晰、直觀地展現(xiàn)運維數據,快速了解設備的整體運行狀態(tài),實現(xiàn)隨時瀏覽機房的日常情況。
構建三維可視化管理體系,助力智慧監(jiān)管
以三維虛擬仿真的最佳形式實現(xiàn)對機房的真實展現(xiàn),體現(xiàn)其各類保障能力,實現(xiàn)基于三維環(huán)境對其運行情況進行實時監(jiān)控,構建一個立體式、可視化的機房綜合管理系統(tǒng)。
機房環(huán)境可視化仿真。根據機房實際布局情況建立全三維的完整場景,包括機柜安裝布局擺放情況、配線橋架的走向、靜電地板、玻璃隔斷、機房門及配電設備、空調設備、UPS、監(jiān)控設備環(huán)境等輔助設施布局擺放情況都按照實際位置、品牌、樣式在系統(tǒng)中展示。
設備資產可視化管理。根據機房設備資產情況,進行3D建模,實現(xiàn)在三維可視化環(huán)境中進行設備上下架操作,運維人員能夠像在真實機房對設備上架一樣,在三維可視化系統(tǒng)中預演設備上架過程,設備上架后,設備的型號、房間名、機柜、U高等基本信息能夠自動關聯(lián),自動賦予上架設備基本的屬性信息,實現(xiàn)設備資產上架、下架、遷移的自動化管理。同時,提供歷史跟蹤和查詢記錄,完善信息資產管理檔案。
機柜容量可視化展示。對機房的U位空間進行以3D形式做可視化展示,用色彩分割展現(xiàn)不同容量范圍的機柜空間,并能對查看范圍內的U位空間容量進行統(tǒng)計,顯示總空間、已用空間和使用率等指標。
動環(huán)情況可視化監(jiān)控。動環(huán)監(jiān)控可實時監(jiān)控機房的精密空調、功耗、溫濕度等信息,在3D設備上展示精密監(jiān)控數據和告警數據,自動統(tǒng)計機房總功耗容量,目前功耗狀況及剩余容量。管理員可依據監(jiān)控情況調整精密空調運行方式,有效降低PUE值,推進節(jié)能降耗。
配線走向可視化管控。配線走向可視化管控能夠管理各種網絡設備、服務器間的所有的配線關系。根據設備的跳線數據自動通過算法繪制網絡三維鏈路,以動態(tài)的三維效果呈現(xiàn)整條鏈路的連接情況,實現(xiàn)機房配線管理的可視化。該功能極大方便了運維人員進行網絡拓撲調整、網絡故障排查等工作。
機房虛擬漫游。機房虛擬漫游實現(xiàn)機房3D實景虛擬漫游,在三維場景中第一人稱視角瀏覽數據中心全貌,可以不用進入機房就能夠瀏覽其場景結構布局,掌握設備信息。
在機房運維管理過程中如何及時發(fā)現(xiàn)運行風險,是運維管理工作關心的永恒話題。3D機房可視化系統(tǒng)可以提前發(fā)現(xiàn)問題,給出告警,并且準確在三維場景中定位故障設備位置。通過完善的監(jiān)控系統(tǒng)可以大大避免很多故障,同時在事后故障分析中,3D機房可視化監(jiān)控系統(tǒng)的各種技術參數和記錄依然是可供分析的重要資料,通過對這些監(jiān)控記錄很可能可以找出故障的原因。
隨著信息化技術的不斷迭代更新,機房智能化監(jiān)控能力需不斷增強,進一步提升機房運維管理水平,使運維管理工作越來越完善。浙江省林業(yè)信息宣傳服務中心將基于現(xiàn)有調研及探索建設成果,繼續(xù)深入研究3D虛擬現(xiàn)實技術在智慧機房中的應用,以智慧化機房安全監(jiān)管,切實推動林業(yè)信息化、現(xiàn)代化、智能化進程。
(作者單位:浙江省林業(yè)信息宣傳服務中心)