文|北京捷通機(jī)房設(shè)備工程有限公司 路宗雷 李 濤
隨著信息技術(shù)的發(fā)展和普及,各行業(yè)數(shù)據(jù)中心機(jī)房數(shù)量與日俱增,其配套的環(huán)境設(shè)備也日益增多,使數(shù)據(jù)中心機(jī)房的安全越來越受到重視。一旦數(shù)據(jù)中心機(jī)房設(shè)備出現(xiàn)故障,就會影響計算機(jī)系統(tǒng)運行,若事故嚴(yán)重又不能及時處理就可能造成嚴(yán)重后果。因此,目前許多數(shù)據(jù)中心機(jī)房的管理不得不采用24小時專人值班來定時巡查機(jī)房場地設(shè)備的方法,這樣不僅加重了管理人員的負(fù)擔(dān),而且往往不能及時排除故障。再加上目前國內(nèi)普遍缺乏數(shù)據(jù)中心機(jī)房場地設(shè)備的專業(yè)管理人員,更加凸顯出了對數(shù)據(jù)中心機(jī)房進(jìn)行綜合監(jiān)控管理的重要性。除此以外,數(shù)據(jù)中心機(jī)房所面臨的許多問題,也是在沒有監(jiān)控管理的情況下難以解決的。
◆ 機(jī)房設(shè)備盜竊案頻頻發(fā)生,報警、監(jiān)控、記錄功能的缺失導(dǎo)致犯罪分子逍遙法外;
◆ 維修人員的巡檢過程無法實施規(guī)范化的監(jiān)督管理,維護(hù)工作(何時、何人、多長時間完成)沒有客觀的記錄;
◆ 沒有機(jī)房門禁安防系統(tǒng)的情況下,在無人值守時出了問題無法及時發(fā)現(xiàn),運營商的安保部門不得不為此承擔(dān)很多額外的責(zé)任;
◆ 在供電系統(tǒng)沒有監(jiān)控的情況下,停電、市電異常、通信電源的狀態(tài)無法及時掌握,嚴(yán)重時可能導(dǎo)致停電后后備電池放電損壞;
◆ 機(jī)房空調(diào)常年打開,造成運營電費過高;
◆ 在機(jī)房環(huán)境沒有監(jiān)控的情況下,出現(xiàn)水浸、起火等無法及時處理等。
數(shù)據(jù)中心機(jī)房綜合監(jiān)控系統(tǒng)包括兩部分:數(shù)據(jù)中心機(jī)房環(huán)境及動力監(jiān)控系統(tǒng)、數(shù)據(jù)中心機(jī)房IT監(jiān)測系統(tǒng)。
(1)數(shù)據(jù)中心機(jī)房環(huán)境動力監(jiān)控系統(tǒng)監(jiān)控的主要內(nèi)容包括:
◆ UPS設(shè)備監(jiān)控;
◆ 柴油發(fā)電機(jī)組設(shè)備監(jiān)控;
◆ 供配電設(shè)備,包括普通配電柜、智能精密配電柜的監(jiān)控;
◆ 空調(diào)設(shè)備(帶智能模塊)監(jiān)控;
◆ 新風(fēng)機(jī)運行狀態(tài)監(jiān)測;
◆ 溫濕度監(jiān)測;
◆ 電源進(jìn)線主電纜表面溫度監(jiān)測;
◆ 漏水報警;
◆ 防雷信號監(jiān)測;
◆ 消防信號監(jiān)測;
◆ 門禁系統(tǒng)監(jiān)測;
◆ 視頻監(jiān)控(分為模擬系統(tǒng)、數(shù)字系統(tǒng)兩種)。
(2)數(shù)據(jù)中心機(jī)房IT監(jiān)測系統(tǒng)監(jiān)控的主要內(nèi)容包括:
◆ 硬件,包括網(wǎng)絡(luò)設(shè)備和服務(wù)器的監(jiān)測;
◆ 軟件,包括數(shù)據(jù)庫軟件、中間軟件和應(yīng)用軟件的監(jiān)測。
2.2.1 數(shù)據(jù)中心機(jī)房環(huán)境動力監(jiān)控系統(tǒng)監(jiān)控的實施方式
(1)UPS設(shè)備監(jiān)控的實施方法:UPS電源通過智能協(xié)議轉(zhuǎn)換器,以軟件的方式與通信數(shù)據(jù)集中器進(jìn)行通信,從而實現(xiàn)對UPS狀態(tài)的全面診斷和對UPS各項參數(shù)的監(jiān)視。可將重要參數(shù)(電壓、電流、頻率、電池參數(shù))存入數(shù)據(jù)庫以備查詢,并顯示相應(yīng)曲線,使管理人員獲得對UPS工作狀況的全面了解??稍趫缶耐瑫r顯示故障發(fā)生位置,給出故障原因。
(2)發(fā)電機(jī)設(shè)備監(jiān)控的實施方法:大型機(jī)房的24小時不間斷供電系統(tǒng)中,可配備UPS提供恒壓恒頻的不間斷電源,保護(hù)服務(wù)器和計算機(jī)在瞬間斷電時的正常工作和數(shù)據(jù)備份;為了提高供電等級,做到供電系統(tǒng)的萬無一失,可配備自動化程度高的柴油發(fā)電機(jī)組,保證交流同步發(fā)電機(jī)適應(yīng)UPS這一非線性負(fù)載的特性,使其在無市電的情況下保證UPS對負(fù)載可靠供電。
(3)配電設(shè)備監(jiān)控的實施方法:可為配電設(shè)備加裝傳感器,通過智能采集模塊監(jiān)視電源的供電品質(zhì),包括電源進(jìn)線的電壓、電流、頻率、電度等,并把相應(yīng)數(shù)據(jù)存入數(shù)據(jù)庫,顯示重要參數(shù)的曲線。當(dāng)電壓、頻率超越限值時,監(jiān)控系統(tǒng)可自動進(jìn)行報警,并將其作為故障事件存入數(shù)據(jù)庫。
(4)空調(diào)設(shè)備監(jiān)控的實施方法:可通過智能協(xié)議轉(zhuǎn)換器以軟件的方式對空調(diào)實施監(jiān)控,可顯示空調(diào)的重要參數(shù)(溫度、濕度),顯示其歷史曲線,并將其存入數(shù)據(jù)庫??照{(diào)各部分工作狀態(tài)通過動畫顯示。用戶可對空調(diào)進(jìn)行遠(yuǎn)程開關(guān)操作和參數(shù)設(shè)置,一旦空調(diào)出現(xiàn)故障,用戶可得到相關(guān)處理信息,以便及時采取措施解決故障。
(5)溫度、濕度監(jiān)測的實施方法:機(jī)房的主要設(shè)備工作間均需安裝溫度和濕度傳感探頭,對溫度、濕度進(jìn)行實時檢測,在監(jiān)視屏上顯示各測點溫度、濕度值。當(dāng)檢測值超過各工作區(qū)規(guī)定的溫、濕度上、下限值時,在監(jiān)視屏的相應(yīng)數(shù)據(jù)旁用醒目標(biāo)志符的閃動來提示該值的超限報警。為在總體上監(jiān)視整個機(jī)房的溫度、濕度狀況,可在新風(fēng)機(jī)的進(jìn)風(fēng)口和主空調(diào)機(jī)的回風(fēng)口,分別檢測溫度和濕度。
(6)電纜溫度監(jiān)測的實施方法:遙測并實時顯示所設(shè)定主進(jìn)線電纜的溫度。
(7)新風(fēng)系統(tǒng)監(jiān)控的實施方法:可實時顯示新風(fēng)機(jī)的工作狀態(tài)及參數(shù),一旦新風(fēng)機(jī)停止工作或出現(xiàn)故障,由監(jiān)控主機(jī)進(jìn)行告警;同時監(jiān)視過濾網(wǎng)堵塞報警。
(8)漏水報警的實施方法:可通過點式或線式漏水探測器準(zhǔn)確反映出漏水區(qū)域。
(9)消防信號監(jiān)測的實施方法:由機(jī)房消防系統(tǒng)給出煙感等消防報警信號,通過采集設(shè)備上傳至控制主機(jī)。
(10)防雷信號監(jiān)測的實施方法:機(jī)房配電系統(tǒng)配置的避雷器系統(tǒng),當(dāng)受到雷擊后給出報警信號,通過采集設(shè)備上傳至控制主機(jī)。
(11)門禁系統(tǒng)監(jiān)測的實施方法:環(huán)境監(jiān)測主控機(jī)能與門禁裝置進(jìn)行通信,可收集并顯示每個門禁裝置內(nèi)儲存的數(shù)名持卡人出入工作間的磁卡號和時間日期;同時可設(shè)定、消除或修正門禁裝置內(nèi)的識別密碼和允許出入時間等。
(12)安全防破壞監(jiān)視的實施方法:在主要設(shè)備工作間都安裝雙鑒紅外探頭,當(dāng)非常管制時期內(nèi)發(fā)生破壞性入侵,雙鑒探頭即發(fā)出信號,監(jiān)視器即時顯示破壞性入侵發(fā)生位置,并驅(qū)動報警裝置進(jìn)行聲光報警。
(13)視頻監(jiān)控系統(tǒng)的實施方法:通過網(wǎng)絡(luò)視頻監(jiān)控設(shè)備將遠(yuǎn)程機(jī)房視頻音頻傳回中心,使遠(yuǎn)程專家可以通過視頻及語音對本地的技術(shù)人員進(jìn)行指導(dǎo);通過圖像監(jiān)控報警聯(lián)動功能,起到對突發(fā)事件及時預(yù)警和及時處理的作用。
2.2.2 數(shù)據(jù)中心機(jī)房IT監(jiān)測系統(tǒng)監(jiān)控的實施方式
建立IT綜合管理平臺,實現(xiàn)對硬件系統(tǒng)(如網(wǎng)絡(luò)設(shè)備、服務(wù)器)和軟件系統(tǒng)(如數(shù)據(jù)庫軟件、中間軟件、應(yīng)用軟件)運行狀況的監(jiān)控。
(1)硬件系統(tǒng)監(jiān)測的實施方法
①網(wǎng)絡(luò)設(shè)備監(jiān)測的實施方法
網(wǎng)絡(luò)設(shè)備監(jiān)測的主要目的是監(jiān)測網(wǎng)絡(luò)設(shè)備的可用性和性能。網(wǎng)絡(luò)設(shè)備的可用性和性能主要表現(xiàn)為網(wǎng)絡(luò)設(shè)備接口的相關(guān)狀態(tài)信息,包括接口狀態(tài)、接口流量、接口丟包率等,除此之外,網(wǎng)絡(luò)設(shè)備的可用性還包括CPU利用率、內(nèi)存利用率、當(dāng)前連接數(shù)、會話數(shù)、防火墻的性能指標(biāo)等。
監(jiān)測系統(tǒng)不僅要對各種網(wǎng)絡(luò)設(shè)備的可用性和性能進(jìn)行監(jiān)測,還要對網(wǎng)絡(luò)進(jìn)行實時統(tǒng)計,保證能夠以各種數(shù)據(jù)指標(biāo)、性能報表和性能趨勢圖為網(wǎng)絡(luò)的容量規(guī)劃、趨勢分析以及數(shù)據(jù)優(yōu)先級劃分的依據(jù)。
當(dāng)機(jī)房網(wǎng)絡(luò)設(shè)備出現(xiàn)異常狀況時,監(jiān)測系統(tǒng)能夠?qū)崿F(xiàn)以下異常狀況管理功能:
◆ 能夠?qū)τ|發(fā)事件(告警事件)進(jìn)行記錄,由管理人員根據(jù)需求對各類事件進(jìn)行分類,實現(xiàn)對事件的過濾;
◆ 能夠通過定義(根據(jù)事件的來源、類型、報警級別等)實現(xiàn)對事件的過濾和分析,按照事件的關(guān)聯(lián)設(shè)置功能,自動區(qū)分和抑制重復(fù)事件,減少系統(tǒng)負(fù)載;
◆ 可以按照設(shè)置,自動識別與新生成的事件相關(guān)的舊事件,從而直接反應(yīng)當(dāng)前的最新狀態(tài),使管理員不被過時的信息所干擾;
◆ 可在網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,發(fā)出異常日志時幫助管理人員及時接收、發(fā)現(xiàn)異常日志,在配置發(fā)生改變時及時報警。
②服務(wù)器監(jiān)測的實施方法
服務(wù)器監(jiān)測應(yīng)包括以下內(nèi)容:
◆ 監(jiān)測服務(wù)器運行狀況,包括服務(wù)器CPU、內(nèi)存、磁盤的使用情況,監(jiān)測的系統(tǒng)平臺應(yīng)包括Windows、主流的UNIX等;
◆ 監(jiān)測Windows平臺和UNIX平臺上運行的相關(guān)進(jìn)程、服務(wù)的運行狀況;
◆ 監(jiān)測服務(wù)器網(wǎng)卡的運行狀況,如網(wǎng)卡的流量、狀態(tài)和丟包率等;
◆ 對系統(tǒng)的日志變化情況進(jìn)行監(jiān)測,支持通過匹配查詢、設(shè)置過濾條件等方式進(jìn)行更深層次的分析。
(2)軟件系統(tǒng)監(jiān)測的實施方法
①數(shù)據(jù)庫軟件監(jiān)測的實施方法
在應(yīng)用層面,監(jiān)測系統(tǒng)應(yīng)可以直接了解數(shù)據(jù)庫執(zhí)行一段SQL語句花費的時間,例如讓程序定時執(zhí)行一些重要的與關(guān)鍵應(yīng)用相關(guān)的SQL語句,如果查詢時間超過閥值或查詢結(jié)果不正確,即表明數(shù)據(jù)庫出現(xiàn)問題
在系統(tǒng)資源層面,監(jiān)測系統(tǒng)應(yīng)可以監(jiān)測到數(shù)據(jù)庫服務(wù)器和客戶端的通信端口和數(shù)據(jù)庫的關(guān)鍵進(jìn)程,當(dāng)出現(xiàn)問題的時候能夠及時告警,使管理員能夠迅速發(fā)現(xiàn)問題。
②中間軟件監(jiān)測的實施方法
監(jiān)測系統(tǒng)應(yīng)能夠?qū)Ψ?wù)器上運行的支撐服務(wù)的中間軟件進(jìn)行監(jiān)測,應(yīng)支持市場主流的中間軟件吞吐量、執(zhí)行隊列長度、空間使用率等關(guān)鍵參數(shù)的監(jiān)控。
③應(yīng)用軟件監(jiān)測的實施方法
監(jiān)測系統(tǒng)應(yīng)能夠?qū)otus Notes等應(yīng)用軟件進(jìn)行監(jiān)測,能夠通過對各個業(yè)務(wù)服務(wù)進(jìn)行定時和實時的監(jiān)測,提供業(yè)務(wù)的服務(wù)水平數(shù)據(jù),包括OA、Mail系統(tǒng)所經(jīng)路徑的延遲、丟包、流量、網(wǎng)絡(luò)停頓時間和網(wǎng)絡(luò)可用率,以及視頻會議的時延、延遲抖動、丟包情況。
綜上所述,完善的數(shù)據(jù)中心機(jī)房綜合監(jiān)控系統(tǒng)應(yīng)該具備三大特點:能夠?qū)崿F(xiàn)從設(shè)備運行情況到機(jī)柜微環(huán)境,再到機(jī)房整體環(huán)境的多層次監(jiān)控;有豐富的閾值設(shè)置以便監(jiān)測出危機(jī)的存在,且有豐富的預(yù)警方式和預(yù)警流程以保證相關(guān)人員能夠收到警訊,達(dá)到預(yù)警的目的;具備網(wǎng)絡(luò)化、智能化的特點,支持隨時隨地通過網(wǎng)絡(luò)查看機(jī)房內(nèi)的情況。
傳統(tǒng)的機(jī)房環(huán)境監(jiān)控把重點放在了對機(jī)房整體環(huán)境、空調(diào)及配電柜的監(jiān)控上,忽視了對設(shè)備內(nèi)部的監(jiān)控。另外,傳統(tǒng)的機(jī)房環(huán)境監(jiān)控系統(tǒng)也缺少豐富的閾值、預(yù)警方式和預(yù)警流程設(shè)置,不能在真正意義上實現(xiàn)預(yù)警功能。完善的數(shù)據(jù)中心機(jī)房綜合監(jiān)控系統(tǒng)應(yīng)具有以下功能:
(1)設(shè)備內(nèi)部監(jiān)控
機(jī)房監(jiān)控的目的在于保護(hù)機(jī)房內(nèi)IT系統(tǒng)的正常、有效運行,在事故發(fā)生之前偵測出潛在危機(jī),并通過各種方式將警情信息發(fā)送給相關(guān)人員及時處理。因此,機(jī)房監(jiān)控的核心應(yīng)該是對IT系統(tǒng)運行狀態(tài)的監(jiān)控,而最直接有效的監(jiān)控應(yīng)該是對IT設(shè)備運行狀態(tài)進(jìn)行監(jiān)控。
(2)多層次的機(jī)房監(jiān)控
完善的機(jī)房監(jiān)控系統(tǒng)應(yīng)該能夠?qū)崿F(xiàn)從設(shè)備運行情況到機(jī)柜微環(huán)境,再到機(jī)房整體環(huán)境的多層次監(jiān)控,并能重點實現(xiàn)對設(shè)備內(nèi)部的監(jiān)控。
(3)機(jī)房監(jiān)控的預(yù)警功能
預(yù)警是在事前,即故障或危害發(fā)生之前向管理人員報告潛在危機(jī),提示相關(guān)人員進(jìn)行處理,可以防止事故的發(fā)生。有效的預(yù)警可以增加系統(tǒng)平均無故障工作時間,并可以根據(jù)危機(jī)情況自動延伸到報警,即當(dāng)危機(jī)出現(xiàn),可立刻將信息發(fā)送給相關(guān)人員直至危機(jī)得到有效處理,實現(xiàn)真正意義上的預(yù)警功能,最大程度地保護(hù)系統(tǒng)的運行。
1 Telecommunications Infrastructure Standard for Data Centers(ANSI/TIA-942-2005)
2 《電子信息系統(tǒng)機(jī)房設(shè)計規(guī)范》(GB 50174-2008)
3 《安全防范工程技術(shù)規(guī)范》(GB 50348-2004)