田 軍, 陳文婷, 羅志剛(.東軟集團(tuán)股份有限公司,遼寧大連 6085;.江蘇省郵電規(guī)劃設(shè)計(jì)院有限責(zé)任公司,江蘇南京 00006)
智能化平臺(tái)在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理中的應(yīng)用
田 軍1, 陳文婷1, 羅志剛2
(1.東軟集團(tuán)股份有限公司,遼寧大連 116085;2.江蘇省郵電規(guī)劃設(shè)計(jì)院有限責(zé)任公司,江蘇南京 200006)
針對大數(shù)據(jù)時(shí)代下數(shù)據(jù)中心全產(chǎn)業(yè)鏈整合所帶來的問題,探討了智能化平臺(tái)在數(shù)據(jù)中心基礎(chǔ)設(shè)施運(yùn)維管理中的應(yīng)用。指出智能化平臺(tái)將數(shù)據(jù)中心基礎(chǔ)設(shè)施連接到信息網(wǎng)絡(luò)中,實(shí)現(xiàn)基礎(chǔ)設(shè)施和管理平臺(tái)的信息交換,同時(shí)運(yùn)用大數(shù)據(jù)和云計(jì)算技術(shù),實(shí)現(xiàn)對數(shù)據(jù)中心基礎(chǔ)設(shè)施更加精細(xì)和智能的運(yùn)維管理。
數(shù)據(jù)中心;運(yùn)維管理;智能化平臺(tái);大數(shù)據(jù)
田 軍(1982-),男,高級工程師,從事數(shù)據(jù)中心管理、云計(jì)算、大數(shù)據(jù)、BIM應(yīng)用的工作。
數(shù)據(jù)中心基礎(chǔ)設(shè)施廣義上包括IT設(shè)備、機(jī)房以及與機(jī)房相關(guān)的各類設(shè)備。本文僅討論狹義上的數(shù)據(jù)中心基礎(chǔ)設(shè)施,即為保證各類IT設(shè)備正常運(yùn)行提供基礎(chǔ)環(huán)境的供電設(shè)施、制冷設(shè)施、安防設(shè)施和消防設(shè)施等。
20世紀(jì)90年代,數(shù)據(jù)中心崛起時(shí)密度低,能源成本尚未成為發(fā)展的制約因素,運(yùn)營商對數(shù)據(jù)中心的管理是粗放式的:通過過度規(guī)劃電源和制冷來保證安全;分散負(fù)載以保證資源對業(yè)務(wù)的高性能持續(xù)支撐;在設(shè)備投資和儲(chǔ)備上過度花費(fèi),為不使用的設(shè)備持續(xù)支付維護(hù)費(fèi)用;忽視對低負(fù)載率情況下的低運(yùn)行效率和高固定成本。目前,隨著業(yè)務(wù)需求的不斷膨脹,數(shù)據(jù)中心規(guī)??焖贁U(kuò)大,能耗和運(yùn)維模式逐漸成為制約數(shù)據(jù)中心發(fā)展的關(guān)鍵因素。運(yùn)營者希望對數(shù)據(jù)中心進(jìn)行集約式的建設(shè)和管理,實(shí)現(xiàn)數(shù)據(jù)中的綠色節(jié)能和智慧高效。
云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)等新一代信息技術(shù)的蓬勃發(fā)展,為實(shí)現(xiàn)數(shù)據(jù)中心基礎(chǔ)設(shè)施集約化、智能化的建設(shè)和管理帶來了新思路。
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理的價(jià)值在于為應(yīng)用系統(tǒng)提供一個(gè)安全、有效的支撐環(huán)境。在很多企事業(yè)單位信息化建設(shè)的背后,基礎(chǔ)設(shè)施運(yùn)維管理的疏漏,已經(jīng)隨著數(shù)據(jù)中心的發(fā)展繼續(xù)擴(kuò)大。
(1)系統(tǒng)復(fù)雜性攀升,管理效率低下。添加一臺(tái)服務(wù)器,運(yùn)維人員需從冷量、功率、空間等多方面來衡量和考慮服務(wù)器的安放位置;對于機(jī)房中不斷變化的冷量和功率需求,依靠人工測量和感知很難及時(shí)把握,且不能對這些變化做出快速及時(shí)的響應(yīng),導(dǎo)致管理效率低下。
(2)高密度向電源和制冷系統(tǒng)施壓,可用性受到威脅。高密度能耗機(jī)架需要明智且高效地分配昂貴的電源和制冷資源,運(yùn)維人員需了解布局才能有效的利用容量;高密度和動(dòng)態(tài)負(fù)載情況,又為電源和制冷帶來了不可預(yù)期的風(fēng)險(xiǎn),一旦電源或制冷過載,造成基礎(chǔ)設(shè)施服務(wù)中斷,可引發(fā)連續(xù)的IT設(shè)備故障,僅依靠人工手段,難以對過載情況進(jìn)行預(yù)警。因此,數(shù)據(jù)中心可用性無法得到保證。
(3)資產(chǎn)利用率難以提升。造成資產(chǎn)利用率難以提升的原因,一方面是由于運(yùn)營商沒有對數(shù)據(jù)中心安全性和可用冗余度等級進(jìn)行定義并按照約定執(zhí)行,另一方面是沒有對數(shù)據(jù)中心資產(chǎn)進(jìn)行定期盤點(diǎn),造成資產(chǎn)在用情況和儲(chǔ)備情況不明。數(shù)據(jù)中心資產(chǎn)非規(guī)范化的管理存在很多隱患,利用率低只是其中之一。
圖1 業(yè)務(wù)流程標(biāo)準(zhǔn)化
數(shù)據(jù)中心基礎(chǔ)設(shè)施智能化運(yùn)維平臺(tái),是以資產(chǎn)+數(shù)據(jù)為核心,從人、資源、應(yīng)用三種管理視角出發(fā),實(shí)現(xiàn)可知、可見和可控的新一代IT基礎(chǔ)設(shè)施數(shù)字化、精細(xì)化管理的支撐平臺(tái)。結(jié)合物聯(lián)網(wǎng)技術(shù),通過智能傳感設(shè)備,按照約定協(xié)議,將數(shù)據(jù)中心基礎(chǔ)設(shè)施連接到信息網(wǎng)絡(luò)中,實(shí)現(xiàn)基礎(chǔ)設(shè)施和管理平臺(tái)的信息交換;同時(shí),運(yùn)用大數(shù)據(jù)和云計(jì)算技術(shù),實(shí)現(xiàn)對海量監(jiān)控和運(yùn)維數(shù)據(jù)的快速分析計(jì)算和利用,發(fā)掘數(shù)據(jù)背后的挑戰(zhàn)與機(jī)遇,實(shí)現(xiàn)對數(shù)據(jù)中心基礎(chǔ)設(shè)施更加精細(xì)和智能的運(yùn)維管理。
智能化平臺(tái)的出現(xiàn),為數(shù)據(jù)中心運(yùn)維管理轉(zhuǎn)型注入了新的活力,在提升運(yùn)維能力的同時(shí),轉(zhuǎn)變傳統(tǒng)應(yīng)對式的運(yùn)維管理為主動(dòng)管理,強(qiáng)化了管理者對操作人員以及和整個(gè)系統(tǒng)的控制和監(jiān)管能力,在實(shí)現(xiàn)監(jiān)測可知、可見的同時(shí),更體現(xiàn)了基于強(qiáng)大數(shù)據(jù)分析能力實(shí)現(xiàn)的可控。
2.1 標(biāo)準(zhǔn)化運(yùn)維流程
標(biāo)準(zhǔn)化運(yùn)維流程包括業(yè)務(wù)流程標(biāo)準(zhǔn)化和監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化。
2.1.1 業(yè)務(wù)流程標(biāo)準(zhǔn)化
運(yùn)維工作是由多個(gè)管理流程協(xié)同編制起來的運(yùn)行空間。智能化平臺(tái)提供給管理者一個(gè)管理和監(jiān)督的綜合平臺(tái),能夠精準(zhǔn)把控每個(gè)運(yùn)維細(xì)節(jié),并對不足之處做出調(diào)整。
業(yè)務(wù)流程標(biāo)準(zhǔn)化如圖1所示。運(yùn)維人員能夠通過平臺(tái)制定工作計(jì)劃,實(shí)現(xiàn)對設(shè)備的實(shí)時(shí)監(jiān)控。當(dāng)設(shè)備出現(xiàn)故障或需要進(jìn)行周期保養(yǎng)時(shí),平臺(tái)會(huì)根據(jù)預(yù)置的工作計(jì)劃和人員安排,將任務(wù)生成工單,并派發(fā)給相應(yīng)的工作人員,實(shí)現(xiàn)工單自動(dòng)派發(fā)和流轉(zhuǎn),并根據(jù)預(yù)置的任務(wù)評分標(biāo)準(zhǔn)(故障恢復(fù)時(shí)間、已恢復(fù)狀態(tài)設(shè)備運(yùn)行參數(shù)等)完成工作評價(jià),形成一個(gè)可知、可控和可循環(huán)的標(biāo)準(zhǔn)化流程。在借助軟件手段之前,運(yùn)營商必須花費(fèi)一定的成本去梳理和定義業(yè)務(wù)流程。
2.1.2 監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化
監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化是指為復(fù)雜異構(gòu)的設(shè)備數(shù)據(jù)建立標(biāo)準(zhǔn)、統(tǒng)一的數(shù)據(jù)模型。數(shù)據(jù)中心基礎(chǔ)設(shè)施是一個(gè)由多種技術(shù)和多個(gè)供應(yīng)商組成的復(fù)雜環(huán)境,各種技術(shù)和各個(gè)廠家提供的原始監(jiān)控?cái)?shù)據(jù)封閉在各自的數(shù)據(jù)模型中。通過智能化平臺(tái),為異構(gòu)數(shù)據(jù)搭建統(tǒng)一數(shù)據(jù)模型,實(shí)現(xiàn)監(jiān)控?cái)?shù)據(jù)的標(biāo)準(zhǔn)化,為實(shí)現(xiàn)設(shè)備自動(dòng)化管理和綜合性分析做好數(shù)據(jù)準(zhǔn)備[2]。監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化如圖2所示。
圖2 監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化
2.2 自動(dòng)化運(yùn)維手段
從數(shù)據(jù)中心發(fā)展趨勢和現(xiàn)有規(guī)模來說,只有自動(dòng)化的方式才能解決成本加大、運(yùn)作復(fù)雜等問題,并滿足客戶對業(yè)務(wù)和服務(wù)的要求。智能化平臺(tái)的出現(xiàn),對實(shí)現(xiàn)自動(dòng)、高可用、可優(yōu)化、零延遲[1]的數(shù)據(jù)中心運(yùn)維有重要價(jià)值。
2.2.1 自動(dòng)化設(shè)備預(yù)警
傳統(tǒng)的應(yīng)對式管理主要是對設(shè)備故障進(jìn)行處理。應(yīng)對式管理已經(jīng)無法滿足數(shù)據(jù)中心客戶對服務(wù)的要求,主動(dòng)管理模式應(yīng)運(yùn)而生,設(shè)備預(yù)警是主動(dòng)管理的重要手段。
在監(jiān)控?cái)?shù)據(jù)模型標(biāo)準(zhǔn)化的基礎(chǔ)上,能夠在智能平臺(tái)上實(shí)現(xiàn)對各類設(shè)備告警的統(tǒng)一管理,包括設(shè)備故障告警和設(shè)備預(yù)警。智能化平臺(tái)允許運(yùn)維人員對設(shè)備指標(biāo)設(shè)定報(bào)警上、下限,當(dāng)設(shè)備運(yùn)行至設(shè)定的上、下限時(shí),平臺(tái)向運(yùn)維人員發(fā)送設(shè)備預(yù)警信息,一旦運(yùn)維人員確認(rèn)告警需要被處理,系統(tǒng)就會(huì)根據(jù)預(yù)警內(nèi)容自動(dòng)生成工單并派遣給指定的工作人員,如果告警信息形成干擾,則需要調(diào)整預(yù)警策略。自動(dòng)化設(shè)備告警如圖3所示。
圖3 自動(dòng)化設(shè)備告警
除此之外,智能化平臺(tái)應(yīng)該具備對告警進(jìn)行根源性分析的能力:無論是設(shè)備故障告警還是設(shè)備預(yù)警,當(dāng)一連串的告警產(chǎn)生時(shí),平臺(tái)啟用復(fù)雜事件處理系統(tǒng)(Complex Event Processing,CEP),根據(jù)資源配置和實(shí)時(shí)監(jiān)控信息,對多重告警事件進(jìn)行分析和判定,幫助運(yùn)維人員快速鎖定根源告警設(shè)備,解除故障。
2.2.2 自動(dòng)化設(shè)備調(diào)度
數(shù)據(jù)中心需要通過自動(dòng)化的方式解決復(fù)雜系統(tǒng)結(jié)構(gòu)中的設(shè)備問題[2]。在智能化平臺(tái)上運(yùn)用CEP,能夠?qū)υO(shè)備實(shí)現(xiàn)自動(dòng)化精準(zhǔn)控制:在平臺(tái)中預(yù)先完成策略條件和響應(yīng)動(dòng)作的定義,當(dāng)事件(設(shè)備運(yùn)行事件或告警事件)發(fā)生時(shí),將事件與設(shè)備運(yùn)行策略條件進(jìn)行匹配,成功匹配后按照響應(yīng)動(dòng)作定義,對單點(diǎn)或多點(diǎn)設(shè)備進(jìn)行控制,從而在保證基礎(chǔ)設(shè)施服務(wù)可用的前提下,實(shí)現(xiàn)設(shè)備間歇式、波動(dòng)式的運(yùn)轉(zhuǎn),降低了運(yùn)維復(fù)雜度,減少人為操作失誤帶來的故障,強(qiáng)化了運(yùn)維人員對整個(gè)系統(tǒng)的控制和監(jiān)管能力。同時(shí),能夠快速對環(huán)境變化做出準(zhǔn)確響應(yīng),提升了數(shù)據(jù)中心的安全性、可用性和效率。自動(dòng)化設(shè)備調(diào)度如圖4所示。
圖4 自動(dòng)化設(shè)備調(diào)度
2.2.3 自動(dòng)化資產(chǎn)管理
資產(chǎn)管理流程不清晰、資產(chǎn)更新不及時(shí)是導(dǎo)致資產(chǎn)利用率低下的主要原因。智能化平臺(tái)實(shí)現(xiàn)對數(shù)據(jù)中心資產(chǎn)的標(biāo)準(zhǔn)化全生命周期管理,全面了解資產(chǎn)在用情況,動(dòng)態(tài)記錄資產(chǎn)最新狀態(tài),及時(shí)發(fā)出資產(chǎn)運(yùn)維提醒,做到資產(chǎn)更新與現(xiàn)實(shí)同步,提升數(shù)據(jù)中心資產(chǎn)利用率。全生命周期資產(chǎn)管理如圖5所示。
2.2.4 自動(dòng)化設(shè)備探查和人員檢測
借助無線射頻識(shí)別技術(shù)可對數(shù)據(jù)中心機(jī)柜設(shè)備進(jìn)行自動(dòng)探查,并將設(shè)備數(shù)據(jù)傳回智能平臺(tái)進(jìn)行記錄,實(shí)現(xiàn)對機(jī)房在用設(shè)備的自動(dòng)盤點(diǎn)。同時(shí),與電力和冷量的可視化監(jiān)控結(jié)合,能夠?qū)崿F(xiàn)對數(shù)據(jù)中心容量的動(dòng)態(tài)監(jiān)管,減少數(shù)據(jù)中心擱淺容量,提升容量使用率。
圖5 全生命周期資產(chǎn)管理
同樣,借助無線射頻技術(shù)能夠?qū)崿F(xiàn)對人員的跟蹤定位,結(jié)合智能平臺(tái)系統(tǒng)間聯(lián)動(dòng)機(jī)制(與安防設(shè)備聯(lián)動(dòng)),能夠及時(shí)識(shí)別人員入侵行為,也可進(jìn)行訪客路徑管理,提升運(yùn)維環(huán)境安全性。
2.3 移動(dòng)端運(yùn)維方式
移動(dòng)智能終端的迅速崛起改變了人們的行為,通信管道的暢通讓信息掌控變得更加快速便捷。在這種背景下,運(yùn)維方式移動(dòng)化是一種必然的發(fā)展趨勢。
2.3.1 移動(dòng)終端辦公
移動(dòng)終端和互聯(lián)網(wǎng)使得隨時(shí)隨地辦公變得可行,即運(yùn)維人員不必7×24 h堅(jiān)守在機(jī)房或監(jiān)控終端前。
移動(dòng)辦公是智能化平臺(tái)為提升運(yùn)維工作的執(zhí)行效率提供的新方式,運(yùn)維人員可以在手機(jī)上查詢機(jī)房設(shè)備狀況或接收告警信息,甚至對設(shè)備進(jìn)行遠(yuǎn)程調(diào)節(jié),快速處理設(shè)備故障。
2.3.2 移動(dòng)終端工具化
手機(jī)、平板電腦不僅可以成為運(yùn)維辦公的平臺(tái),也可以成為運(yùn)維管理的工具(數(shù)據(jù)中心資產(chǎn)盤點(diǎn)的手持設(shè)備或訪客登記的電子標(biāo)簽)。智能化平臺(tái)支持移動(dòng)終端與平臺(tái)的一致性對接,并實(shí)現(xiàn)對移動(dòng)設(shè)備動(dòng)點(diǎn)管理,讓運(yùn)維工作變得隨時(shí)隨地,便捷高效。
2.4 運(yùn)維決策支持
管理工具的介入,實(shí)現(xiàn)了數(shù)據(jù)中心全點(diǎn)監(jiān)測和集中監(jiān)控,將運(yùn)維人員從繁復(fù)的運(yùn)維工作中解脫出來,能夠?qū)⒏嗟木Ψ旁跇I(yè)務(wù)優(yōu)化上。運(yùn)營商開始嘗試運(yùn)用數(shù)據(jù)實(shí)現(xiàn)對業(yè)務(wù)變更的快速、實(shí)時(shí)、精確的響應(yīng)和調(diào)整,來滿足業(yè)務(wù)發(fā)展。
基于數(shù)據(jù)模型標(biāo)準(zhǔn)化,智能化平臺(tái)能結(jié)合專業(yè)運(yùn)維人員的經(jīng)驗(yàn)知識(shí),從歷史數(shù)據(jù)中提取關(guān)鍵數(shù)據(jù)維度,構(gòu)建數(shù)據(jù)中心運(yùn)維業(yè)務(wù)數(shù)據(jù)模型,對海量監(jiān)控?cái)?shù)據(jù)進(jìn)行數(shù)據(jù)分析和信息挖掘,形成數(shù)據(jù)中心運(yùn)營狀況診斷報(bào)告和可視化預(yù)測報(bào)告,為數(shù)據(jù)中心優(yōu)化資源配置、調(diào)整運(yùn)營模式、評估運(yùn)營風(fēng)險(xiǎn)提供決策支持,如圖6所示。智能化平臺(tái)的核心和價(jià)值是在“監(jiān)”與“控”之間從數(shù)據(jù)分析到?jīng)Q策支持形成的關(guān)鍵性步驟。
圖6 智能化運(yùn)維決策支持
智能化平臺(tái)主要在實(shí)現(xiàn)運(yùn)維流程標(biāo)準(zhǔn)化的基礎(chǔ)上,通過先進(jìn)的告警手段、調(diào)控手段和盤點(diǎn)跟蹤手段,實(shí)現(xiàn)對數(shù)據(jù)中心基礎(chǔ)設(shè)施的自動(dòng)化管理;同時(shí)嘗試運(yùn)用復(fù)雜事件分析技術(shù),在數(shù)據(jù)模型標(biāo)準(zhǔn)化的基礎(chǔ)上,實(shí)現(xiàn)對復(fù)雜告警事件的根源性分析和設(shè)備的智能化響應(yīng);在運(yùn)維決策支持方面,通過對海量監(jiān)控?cái)?shù)據(jù)中隱含信息的提取和應(yīng)用,實(shí)現(xiàn)對數(shù)據(jù)中心資源優(yōu)化、風(fēng)險(xiǎn)規(guī)避的決策支持,達(dá)到智能化平臺(tái)的高價(jià)值目標(biāo)。
[1] 呂天文.2010年中國數(shù)據(jù)中心運(yùn)維服務(wù)分析[J].電源世界,2011(8):7-9.
[2] 席敏暉.淺談企業(yè)級數(shù)據(jù)中心運(yùn)維管理[J].信息技術(shù),2014(12):47.
[3] 韋琛江,谷和啟.淺析企業(yè)級數(shù)據(jù)中心運(yùn)維管理[J].信息系統(tǒng)工程,2013(8):66-67.
[4] 潘哲.數(shù)據(jù)中心運(yùn)維管理現(xiàn)狀及策略探論[J].電子技術(shù)與軟件工程,2014(4):210.
[5] 王維沂.現(xiàn)代企業(yè)數(shù)據(jù)中心運(yùn)維管理[J].商,2015(14):210,192.
Application of Intelligent Platform in Operation and M aintenance of Data Center Infrastructure
TIAN Jun1, CHIENWenting1, LUO Zhigang2
(1.Neusoft Group Co.,Ltd.,Dalian 116085,China;2.Jiangsu Post&Telecommunications Planning and Designing Institute Co.,Ltd.,Nanjing 200006,China)
Abstract:Aiming at the new challenges ofwhole data center integration in the era of big data,this paper discussed the application of intelligent platform for the operation and maintenance of infrastructure in the data center.It is pointed out that the intelligent platform connects the data center infrastructure to the information network,which achieves the information exchanges between the infrastructure and themanagement platform.By the use of the large data and cloud computing techniques,the more careful and intelligent operation and maintenance management for the infrastructure of data center is obtained.
data center;operation and m aintenancemanagement;intelligent p latform big data
TU 244.5
B
1674-8417(2015)09-0012-06
2015 09 07
陳文婷(1990-),女,工程師,從事數(shù)據(jù)中心管理、云計(jì)算方面的工作。
羅志剛(1970-),男,高級工程師,從事暖通空調(diào)、數(shù)據(jù)中心及BIM應(yīng)用方面的工作。