喬曉攀
(山西省商務信息中心, 山西 太原 030002)
隨著信息化建設的不斷深入,各行各業(yè)對信息化建設與管理的依賴性越來越大。用于支撐各類信息系統(tǒng)的網(wǎng)絡、主機、存儲、數(shù)據(jù)庫、中間件等IT基礎設施的數(shù)量變得越來越龐大,并且越來越集中,信息系統(tǒng)環(huán)境變得龐大而復雜。大數(shù)據(jù)時代下的信息化對網(wǎng)絡系統(tǒng)、主機、存儲、數(shù)據(jù)庫、中間件等基礎設施的安全性、可靠性、穩(wěn)定性和設備性能發(fā)揮都提出了更高的要求,必須提升信息系統(tǒng)安全及應急管理的快速反應能力和集中控制能力與之適應。原有機房運維監(jiān)控管理的方式、規(guī)模、力度、技術都已遠遠落后,無法滿足信息化建設與應用的新需要。
目前,數(shù)據(jù)中心機房的各種運維手段還遠遠滿足不了信息化工作的新要求,運維體系建設明顯滯后,對故障的發(fā)現(xiàn)、跟蹤以及解決缺乏一個完整的系統(tǒng),以靠人工巡檢發(fā)現(xiàn)故障為主,缺乏處置異常信息科學的依據(jù)和高效的監(jiān)控工具;不能便捷、實時了解設備資源的使用狀況等,這些問題不同程度地影響了各信息系統(tǒng)效能的發(fā)揮。當機房設備發(fā)生故障,而技術人員卻不在現(xiàn)場,不能及時發(fā)現(xiàn)故障,更不能及時處置故障時,進而導致整個信息系統(tǒng)的無法正常運行,嚴重時還可能造成系統(tǒng)癱瘓,數(shù)據(jù)丟失等嚴重事故。因此,通過使用基于基礎資源和基于軟件系統(tǒng)兩個層面的監(jiān)控,涵蓋機房動態(tài)環(huán)境監(jiān)控系統(tǒng)、網(wǎng)絡設備、服務器、各信息系統(tǒng)等軟硬件的IT運維監(jiān)管平臺,對所覆蓋的基礎資源和業(yè)務應用軟件進行24 h不間斷地自動監(jiān)控和分析,從而達到及時發(fā)現(xiàn)任何資源的異常狀態(tài)并發(fā)出警報和實時展示。IT運維監(jiān)管平臺自動報警使相關技術人員第一時間獲悉故障情況,及時處理故障,保障機房各系統(tǒng)設備穩(wěn)定高效運行。
IT運維監(jiān)控管理平臺的建設,實現(xiàn)了對機房所有資源的可視化、統(tǒng)一化管理。通過監(jiān)控模塊和故障處理模塊的整合聯(lián)動,高效支撐信息技術服務管理工作,全面展示機房信息化資源的運行狀況和設備性能;最終實現(xiàn)對各類信息系統(tǒng)的動態(tài)實時管理,有針對性地解決運維難題。同時,可強化運維支持管理能力,不斷提高運維工作的質量和效率,不斷完善運維管理體系。
IT運維監(jiān)管平臺涵蓋了機房運行數(shù)據(jù)的生命全周期:數(shù)據(jù)采集、處理、加工、展示和管理等過程,按照模塊化、松耦合、分層的設計原理使平臺系統(tǒng)架構更加清晰,系統(tǒng)的總體架構如下頁圖1所示。整個系統(tǒng)架構分為五個層次,其中整個系統(tǒng)的核心層是數(shù)據(jù)收集層、數(shù)據(jù)處理層、數(shù)據(jù)展示層,下面對每個層次的功能及其所包含的模塊進行說明。
1)資源監(jiān)控層。通過對各類內外部的接口、各種應用軟件、中間件和各類數(shù)據(jù)庫資源狀態(tài)的實時監(jiān)控,實現(xiàn)監(jiān)控包括機房動態(tài)環(huán)境監(jiān)控系統(tǒng)、網(wǎng)絡設備、主機系統(tǒng)、數(shù)據(jù)庫、中間件和應用系統(tǒng)等。由數(shù)據(jù)采集層采集監(jiān)控指標,并傳遞到數(shù)據(jù)處理層進行加工處理。
2)數(shù)據(jù)收集層。數(shù)據(jù)收集支持“主動”和“被動”接收兩種采集方式。其中主動采集又分為Agent和Agentless兩大采集模式。而Agentless主動采集方式具體包括:TCP、POP3、JDBC、Shell、HTTP、HTTPS、ICMP、DNS;SNMP、TELNET/SSH、JDBC、HTTP、JMX WMI、SNMP TRAP和NETFLOW等多種協(xié)議類型。該模塊支持對數(shù)據(jù)匯集接入、數(shù)據(jù)推送和數(shù)據(jù)共享等功能。
圖1 總體架構圖
3)數(shù)據(jù)處理層。通過合理的數(shù)據(jù)過濾、壓縮、合并、采集或對接收到的各種原始數(shù)據(jù)并進行相關性分析等處理,發(fā)現(xiàn)異常數(shù)據(jù),產(chǎn)生告警信息,以實現(xiàn)對各類性能數(shù)據(jù)的統(tǒng)計分析工作。通過平臺的告警閾值自定義功能,使系統(tǒng)管理人員可以結合自身的實際運維情況和各類資源整體情況自主定義預警閥值,從而達到資源利用的最大化。
4)數(shù)據(jù)展示層。主要是提供各種管理功能界面,并將所采集的數(shù)據(jù)以圖表、拓撲視圖等方式直觀地展示給用戶。同時通過聲光、短信、電子郵件等報警方式將突發(fā)的異常告警信息通知用戶。
5)用戶管理層。主要是對系統(tǒng)用戶進行設置和管理,系統(tǒng)的用戶可以為值班人員、運維人員、系統(tǒng)管理員和管理者等,通過預設每個人的權限保證他們登錄后,系統(tǒng)根據(jù)不同的角色和權限提供不同的服務。
IT運維監(jiān)管系統(tǒng)在實現(xiàn)信息的采集、處理、存儲、傳輸、加工、應用、統(tǒng)計分析、系統(tǒng)管理的同時,需要與相關外部系統(tǒng)保持著密切互聯(lián),包括:短信平臺、機房動力環(huán)境監(jiān)控等系統(tǒng)有著緊密的聯(lián)系。
1)接口功能設計。本接口實現(xiàn)分級情況下機房基礎系統(tǒng)之間的設備性能、異常信息告警等數(shù)據(jù)交互。
2)接口設計。通過 Web Service、文件、SOAP、碼流等技術,利用應用支撐層的數(shù)據(jù)交換接口服務來實現(xiàn)接口功能。
1)接口功能設計。機房環(huán)境參數(shù)告警信息監(jiān)測:該接口對機房動力環(huán)境參數(shù)(如:電流、電壓、濕度、溫度、水侵、煙感、空開等)的告警信息進行監(jiān)測。
2)SNMP監(jiān)控、數(shù)據(jù)告警、展現(xiàn)。該接口對機房專用空調、不間斷電源等系統(tǒng)的監(jiān)控是通過SNMP實現(xiàn)。將監(jiān)控到數(shù)據(jù)通過門戶集成方式整合到IT運維監(jiān)管系統(tǒng)中,從而達到對監(jiān)控信息進行異常信息告警、數(shù)據(jù)集中展現(xiàn)的目的。
1)接口功能設計。在異常信息的處理過程中,該接口可以自動將告警信息以短信的方式發(fā)送到相關人員(如:單位主管、系統(tǒng)管理員和應急保障人員等)的手機上,并能及時傳送與機房監(jiān)控管理相關的異常通知、故障處理等情況信息。
2)接口實現(xiàn)設計。通過Web Service、文件、SOAP、碼流等技術,利用應用支撐層的數(shù)據(jù)交換接口服務來實現(xiàn)接口功能。
本系統(tǒng)通過對IT運維監(jiān)管系統(tǒng)和機房動力環(huán)境監(jiān)控系統(tǒng)、ITSM系統(tǒng)、基礎運維管理工具等相關外部系統(tǒng)的門戶集成,從而在IT運維管理平臺上實現(xiàn)相關系統(tǒng)的單點登錄和統(tǒng)一身份認證,有效地集成和利用了各類運維管理資源,進而形成便捷的機房運維管理運行機制。
1)統(tǒng)一身份認證:對IT運維監(jiān)管系統(tǒng)與機房動力環(huán)境監(jiān)控系統(tǒng)、ITSM系統(tǒng)、基礎運維管理工具等相關外部系統(tǒng)的用戶進行管理集成,并進行分層、分級歸納,統(tǒng)一納入到IT運維監(jiān)管系統(tǒng)門戶訪問控制體系中,實現(xiàn)對IT運維監(jiān)管系統(tǒng)所有用戶的統(tǒng)一身份認證和管理。
2)單點登錄:通過IT運維監(jiān)管系統(tǒng)門戶中的單點登錄控制實現(xiàn)對IT運維監(jiān)管系統(tǒng)各模塊,以及該系統(tǒng)與機房動力環(huán)境監(jiān)控系統(tǒng)、ITSM系統(tǒng)、基礎運維管理工具等相關外部系統(tǒng)在IT運維監(jiān)管系統(tǒng)門戶中的單點登錄控制,達到用戶登錄一個系統(tǒng)便可訪問全部授權應用系統(tǒng),獲得和控制所需資源的目的。
1)接口數(shù)據(jù)分析與統(tǒng)計。把各個模塊接口收集到的信息進行匯總,并分類歸納,便于相關人員分析和監(jiān)控機房動力環(huán)境監(jiān)控設備、服務器、網(wǎng)絡設備、信息系統(tǒng)等軟硬件設備的運行狀態(tài)。
2)自定義接口數(shù)據(jù)報表??梢园凑障嚓P人員和具體業(yè)務的實際需要和實時變化,對各類數(shù)據(jù)歸總報表的內容、格式以及生成時間進行自定義。
按照相關人員和具體業(yè)務的實際需要和實時變化,設定備份時間周期,也可以將過往的日志信息按計劃地進行備份和恢復。同時平臺支持異地遠程監(jiān)控和備份。
1)通過故障實時預警,實現(xiàn)及時處置系統(tǒng)故障。對機房基礎設施及相關信息系統(tǒng)和數(shù)據(jù)庫的運行狀態(tài)進行動態(tài)監(jiān)控,以合理的事件管理機制分析各資源實際使用情況,設置告警分析處理和故障預警的閾值;使平臺能夠高效地發(fā)現(xiàn)、分析異常信息,能夠快速定位故障,盡可能地做到第一時間防范。
2)實時掌握機房物理資源,提高設備利用效率。實時了解并掌握機房信息系統(tǒng)運行的整體情況,提高信息系統(tǒng)的運行效率和保障硬件支撐系統(tǒng)資源不被浪費,并根據(jù)實際需要進行資源的配置、調配和使用,發(fā)揮信息系統(tǒng)和硬件資源據(jù)的最大利用率。
3)提高工作效率,故障處理范化。機房運維工作中存在大量巡檢、值班等重復性的工作。這些工作會占用大量的時間,通過平臺自動化的操作將這些重復性工作省掉,可以將運維人員的精力投入到數(shù)據(jù)分析、故障處理等更重要的工作中,從而提高了運維工作效率。通過平臺的故障申請受理、處置時間超時自動提醒功能,進一步規(guī)范了故障處置流程。
傳統(tǒng)的機房運維管理模式,將被不斷進步的信息技術和要求越來越高的信息安全要求所淘汰。可以將機房軟硬件系統(tǒng)、動環(huán)系統(tǒng)、通信等系統(tǒng)集合起來的智能IT運維監(jiān)控平臺是目前機房運維工作的發(fā)展方向。目前這一機房運維平臺已經(jīng)在單位得到應用,系統(tǒng)全時段運行正常穩(wěn)定,極大地減輕了運維人員的日常工作量,并且縮短了機房故障處理時間,取得了很好的效果。