陳 南,林永生
(1. 福州市城鄉(xiāng)建總集團(tuán)有限公司,福州 350007;2. 武夷裝修工程(福州)有限公司,福州 350001)
2015年9月,國務(wù)院發(fā)布了促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)計(jì)劃,這已經(jīng)成為一項(xiàng)國家發(fā)展戰(zhàn)略。此后大數(shù)據(jù)政策層出不窮,直至2018年中央經(jīng)濟(jì)工作會(huì)議重新定義了“新型基礎(chǔ)設(shè)施建設(shè)”。今年3月中共中央政治局常務(wù)委員會(huì)更是第一次把“數(shù)據(jù)中心”單獨(dú)提出來,列入新型基礎(chǔ)設(shè)施建設(shè)范疇。數(shù)據(jù)中心行業(yè)在“新基建”概念下,受到各方關(guān)注迎來了歷史發(fā)展機(jī)遇?!靶禄A(chǔ)設(shè)施”已經(jīng)加速,對(duì)網(wǎng)絡(luò)基礎(chǔ)設(shè)施和網(wǎng)絡(luò)服務(wù)的需求急劇增加,數(shù)據(jù)中心無論是作為底層的基礎(chǔ)設(shè)施還是作為智能城市的“大腦”,無論是在原來的基礎(chǔ)設(shè)施擴(kuò)張還是在新的建設(shè)中都將快速增長(zhǎng)。數(shù)據(jù)中心規(guī)模擴(kuò)張以后,設(shè)備數(shù)量呈倍數(shù)增長(zhǎng),設(shè)備種類也大大增多,如何實(shí)現(xiàn)海量設(shè)備的統(tǒng)一管理,實(shí)現(xiàn)業(yè)務(wù)到網(wǎng)絡(luò)的聯(lián)動(dòng),提高運(yùn)維效率,降低運(yùn)維成本,是大規(guī)模數(shù)據(jù)中心急需解決的問題。
在數(shù)據(jù)中心的全生命周期中,運(yùn)維階段時(shí)間最長(zhǎng)、成本投入最多、信息量最大、工作流程最復(fù)雜,是數(shù)據(jù)中心價(jià)值實(shí)現(xiàn)的最重要階段,但在建設(shè)期也最容易被忽視。只有事先對(duì)數(shù)據(jù)中心進(jìn)行系統(tǒng)的運(yùn)行和維護(hù),從價(jià)值實(shí)現(xiàn)的角度來規(guī)劃和設(shè)計(jì)“新的基礎(chǔ)設(shè)施”,才能保證數(shù)據(jù)中心投入使用后使用壽命更長(zhǎng)、成本更低、信息管理和控制更加有效、工作流程更加規(guī)范。
數(shù)據(jù)中心大型化之后,人工運(yùn)維已經(jīng)弊端盡顯,根據(jù)2017年數(shù)據(jù)中心行業(yè)趨勢(shì)調(diào)研結(jié)果顯示,高達(dá)93.7% 的受訪者表示,運(yùn)維中心管理層認(rèn)為數(shù)據(jù)中心運(yùn)維人員短缺,不同技能水平梯隊(duì)短缺;而受限于薪資、職業(yè)前景等多種因素,人員離職率高,系統(tǒng)運(yùn)維管理經(jīng)驗(yàn)難以傳承。另據(jù)Ponemon研究所的調(diào)查報(bào)告中的數(shù)據(jù)統(tǒng)計(jì),2016年數(shù)據(jù)中心中斷事故中,高達(dá)22%來自于人為失誤;因此,獲得合格、熟練和負(fù)責(zé)任的操作人員來支持?jǐn)?shù)據(jù)中心的運(yùn)行和維護(hù)已成為一個(gè)重大問題。在未來數(shù)據(jù)中心大規(guī)模建設(shè)前提下,運(yùn)維人員缺口明顯,人工運(yùn)維顯然不能適應(yīng)將來的建設(shè)發(fā)展趨勢(shì)。
首先,規(guī)模超大帶來的人員、組織和效率的變化。數(shù)據(jù)中心運(yùn)維工作中,50%的人力消耗在日常巡檢工作中,且多依賴于運(yùn)維人員的眼看耳聽。依據(jù)以往經(jīng)驗(yàn),1萬m2以內(nèi)的數(shù)據(jù)中心所需人工巡檢時(shí)間以每次2~4h計(jì)算;如今的大型及超大型數(shù)據(jù)中心,其基礎(chǔ)設(shè)施的系統(tǒng)復(fù)雜程度遠(yuǎn)超以往,只具有中小機(jī)房運(yùn)維經(jīng)驗(yàn)的業(yè)主就會(huì)“捉襟見肘”,因此需要根據(jù)各系統(tǒng)特性及規(guī)模聘用更多的運(yùn)維人員,管理各類人員的難度和成本相應(yīng)增高。其次,以往規(guī)模較小的數(shù)據(jù)中心,運(yùn)維人員接觸的多為380/220V設(shè)備;現(xiàn)在由于系統(tǒng)規(guī)模大,往往市電引入、供配電設(shè)備、制冷機(jī)組、柴油發(fā)電機(jī)組均以10kV電壓等級(jí)供電居多,對(duì)運(yùn)維人員的維護(hù)安全要求提升。另一方面,由高密度機(jī)柜和大規(guī)模數(shù)據(jù)中心帶來的風(fēng)險(xiǎn)越來越集中,一旦發(fā)生事故,其影響面更大。因此,運(yùn)行維護(hù)管理的重點(diǎn)突出,對(duì)運(yùn)行維護(hù)能力的要求也越來越高。
在運(yùn)維過程中,需要依靠各種儀表、傳感器全面實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心各系統(tǒng)的諸多數(shù)據(jù),如用電量、電壓、電流、溫濕度、水量及風(fēng)量等,以便于及早發(fā)現(xiàn)問題,并通過預(yù)先制定的預(yù)警機(jī)制及相應(yīng)的操作流程處理相關(guān)問題。同時(shí),科學(xué)匯總、分類這些測(cè)量數(shù)據(jù)還可以為運(yùn)維人員指定應(yīng)急、節(jié)能措施提供指導(dǎo)依據(jù)。
數(shù)據(jù)中心運(yùn)維涉及專業(yè)系統(tǒng)多、運(yùn)維工具也是紛繁復(fù)雜,由此而來的是各個(gè)專業(yè)和崗位的維護(hù)人員就會(huì)采用各自的工具來支撐各自的維護(hù)工作。這種從“小機(jī)房時(shí)代”就沿用的管理模式,由于沒有統(tǒng)籌管理,實(shí)際上存在諸多問題。
首先,運(yùn)維團(tuán)隊(duì)需要一個(gè)統(tǒng)一的、高度集成的軟件來獲得所需要的可視化信息,在此基礎(chǔ)上如果需要維護(hù)多個(gè)運(yùn)維工具運(yùn)轉(zhuǎn),也對(duì)運(yùn)維管理提出了更高要求,增加運(yùn)維難度。其次,各系統(tǒng)之間的數(shù)據(jù)由于格式、協(xié)議不同,難以互聯(lián)互通,如果各系統(tǒng)需要協(xié)作進(jìn)行數(shù)據(jù)建模、預(yù)測(cè)分析就非常困難。最后,由于各類運(yùn)維工具開發(fā)時(shí)間不同開發(fā)水平不同、甚至開發(fā)能力不夠?qū)I(yè)的工具,其數(shù)據(jù)的采集與維護(hù)非常困難,數(shù)據(jù)的更新與同步是亟待解決的問題。
因此對(duì)于數(shù)據(jù)中心運(yùn)維管理團(tuán)隊(duì)來說,迫切需要有一個(gè)頂層管理體系及平臺(tái)能夠統(tǒng)一、同時(shí)管理到IT設(shè)備和基礎(chǔ)設(shè)施,并且可以協(xié)助完成多個(gè)作業(yè)程序的管理及執(zhí)行。
DCIM 是對(duì)傳統(tǒng)環(huán)境控制系統(tǒng)的改進(jìn),將信息技術(shù)與設(shè)備管理相結(jié)合,形成一個(gè)高度集成化、集中化的管理數(shù)據(jù)中心關(guān)鍵設(shè)備、集中監(jiān)控、容量規(guī)劃平臺(tái)。涵蓋了軟件、硬件和傳感器等,通過對(duì)監(jiān)控?cái)?shù)據(jù)的分析和整理,能夠大幅度提升數(shù)據(jù)中心的可靠性和運(yùn)維效率。
以市電斷電為例,運(yùn)維人員可能會(huì)同時(shí)接到若干系統(tǒng)的報(bào)警信息,UPS整流器關(guān)閉故障、饋電線路失壓故障、進(jìn)線線路失壓故障等,如何在錯(cuò)綜復(fù)雜的報(bào)警信息中梳理出真實(shí)故障點(diǎn)對(duì)運(yùn)維人員是一個(gè)考驗(yàn),更遑論還要在電力監(jiān)控系統(tǒng)、UPS監(jiān)控系統(tǒng)、PDU監(jiān)控系統(tǒng)之間來回切換查看所浪費(fèi)的時(shí)間。
然而,DCIM工具出現(xiàn)后,以更科學(xué)、更智能的管理系統(tǒng),為數(shù)據(jù)中心運(yùn)維實(shí)現(xiàn)了更好地保障效果。
(1)協(xié)助數(shù)據(jù)中心識(shí)別和處理影響IT系統(tǒng)可用性的關(guān)鍵設(shè)備故障,提高數(shù)據(jù)中心的工作效率和穩(wěn)定性。將場(chǎng)地設(shè)施和IT基礎(chǔ)設(shè)施相互關(guān)聯(lián)起來,告知管理人員數(shù)據(jù)中心設(shè)備使用率,以及哪些設(shè)備冗余可降低能源消耗,提高能源效率。
(2)協(xié)助運(yùn)維人員實(shí)時(shí)掌握數(shù)據(jù)中心關(guān)鍵參數(shù)及能源、空間等使用情況,便于及時(shí)調(diào)整以提高資源使用率,并且降低運(yùn)營成本,有效避免錯(cuò)誤決策。根據(jù)研究報(bào)告顯示,一套優(yōu)秀的DCIM系統(tǒng),在正確、科學(xué)地應(yīng)用后能為數(shù)據(jù)中心節(jié)省20%以上的總運(yùn)營成本。
(3)DCIM在掌握了能源、空間等使用情況后,就能夠根據(jù)資源使用情況優(yōu)化機(jī)架的設(shè)備布局。
(4)通過AI學(xué)習(xí),基于電能和設(shè)備使用率的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù),通過建立準(zhǔn)確的基礎(chǔ)設(shè)施容量視圖,幫助運(yùn)維團(tuán)隊(duì)減少容量過剩的開支以及因降低容量導(dǎo)致不足的風(fēng)險(xiǎn);使團(tuán)隊(duì)深入了解每一個(gè)設(shè)備的能源消耗,從而采取切實(shí)可行的措施,有效地節(jié)約能源,幫助數(shù)據(jù)中心未來規(guī)劃。
(5)在管理資產(chǎn)方面,DCIM可以在其管理的數(shù)據(jù)中心建立資產(chǎn)模型,通過預(yù)設(shè)一些場(chǎng)景條件,幫助運(yùn)維人員了解變更項(xiàng)目時(shí)(如新增、遷移等),對(duì)數(shù)據(jù)中心內(nèi)電力、制冷和場(chǎng)地的影響,從而根據(jù)建模預(yù)判結(jié)果改善服務(wù),加速IT設(shè)備部署速度。
(6)能夠幫助管理團(tuán)隊(duì)快速訪問有關(guān)站點(diǎn)、地板區(qū)域、機(jī)架容量、電源消耗、熱量輸出、承重與網(wǎng)絡(luò)連接等方面的詳細(xì)信息,由此可以快速且靈活地應(yīng)對(duì)業(yè)務(wù)需求變化。
(7)DCIM可將數(shù)據(jù)以詳細(xì)圖表方式進(jìn)行友好的呈現(xiàn),使復(fù)雜的IT基礎(chǔ)設(shè)施,數(shù)據(jù)中心、機(jī)架和機(jī)架內(nèi)所有IT元素以可視化的方式呈現(xiàn)給管理者,從而有序地管理,提高管理效率。
DCIM系統(tǒng)的高度集成,主要價(jià)值就是在于打通場(chǎng)地基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施的組織和信息斷層,整合數(shù)據(jù)中心各個(gè)專業(yè)的子系統(tǒng),統(tǒng)一管理平臺(tái)提供了可視化運(yùn)維的基礎(chǔ),實(shí)時(shí)監(jiān)控、分析基礎(chǔ)設(shè)施的相關(guān)數(shù)據(jù),能夠有效提高數(shù)據(jù)中心運(yùn)維管理的效率,同時(shí)對(duì)故障的預(yù)判和及時(shí)處理也提供了保障。DCIM 作為一種全面管理數(shù)據(jù)中心基礎(chǔ)設(shè)施的方法和手段,位于各專業(yè)子系統(tǒng)的頂層,也是目前數(shù)據(jù)中心運(yùn)維管理系統(tǒng)的頂層設(shè)計(jì)。
在數(shù)據(jù)中心DCIM系統(tǒng)中,為了方便操作和簡(jiǎn)化維護(hù)人員的工作,有必要建立一個(gè)可視化的維護(hù)模式,使現(xiàn)有的系統(tǒng)變得更加簡(jiǎn)單。數(shù)據(jù)中心內(nèi)的各個(gè)系統(tǒng)要做到專業(yè)化,至少需要幾年時(shí)間來磨合完成;但是,使用可視化的操作和維護(hù)管理,使用圖形化的手段進(jìn)行清晰有效的溝通,并使用圖形來顯示數(shù)據(jù)中心的整體情況,可以幫助操作和維護(hù)人員實(shí)時(shí)控制資源的利用,最大限度地提高管理水平。
可視化運(yùn)維管理系統(tǒng),以可視化作為重要管理手段,將數(shù)據(jù)中心機(jī)房?jī)?nèi)分散的多種專業(yè)監(jiān)控系統(tǒng)、資產(chǎn)管理系統(tǒng)、運(yùn)維流程管理系統(tǒng)融合在一起,組成一個(gè)統(tǒng)一界面;建立統(tǒng)一的監(jiān)控、預(yù)警、資產(chǎn)管理以及空間規(guī)劃,規(guī)范數(shù)據(jù)中心管理流程;改變監(jiān)控、數(shù)據(jù)孤島現(xiàn)象,并保障機(jī)房運(yùn)維過程有據(jù)可依;系統(tǒng)支持操作界面?zhèn)€性化自定義,包含控制終端、運(yùn)行終端和后臺(tái)系統(tǒng)一體化,滿足用戶后期場(chǎng)景自主維護(hù)需求;數(shù)據(jù)中心機(jī)房整體結(jié)構(gòu)、設(shè)備分布情況都可以直觀顯現(xiàn)??梢暬\(yùn)維涵蓋以下幾個(gè)方面。
(1)機(jī)房環(huán)境可視化,根據(jù)數(shù)據(jù)中心實(shí)際場(chǎng)景,逐個(gè)統(tǒng)計(jì)數(shù)據(jù)中心內(nèi)部各類設(shè)備的具體信息,通過軟件3D建模,真實(shí)體現(xiàn)機(jī)柜級(jí)和機(jī)架級(jí)IT設(shè)備以及各個(gè)動(dòng)力設(shè)備的精確信息、位置,多視角、多維度分層呈現(xiàn)虛擬現(xiàn)實(shí)環(huán)境。
(2)資產(chǎn)管理可視化、可視化系統(tǒng),使資產(chǎn)和組態(tài)管理直觀易用;快速檢索和定位目標(biāo)設(shè)備,方便檢索設(shè)備信息、設(shè)備安裝使用信息、設(shè)備所有權(quán)信息、設(shè)備操作維護(hù)信息及相關(guān)操作手冊(cè),維修人員不必進(jìn)出機(jī)房,清楚掌握數(shù)據(jù)中心的資產(chǎn)狀況;該系統(tǒng)提供了一個(gè)標(biāo)準(zhǔn)化的界面,通過數(shù)據(jù)中心建立資產(chǎn)自動(dòng)化監(jiān)控和管理設(shè)備,與第三方資產(chǎn)管理系統(tǒng)無縫集成,實(shí)現(xiàn)資產(chǎn)自動(dòng)化管理。
(3)對(duì)容量管理進(jìn)行可視化,形象化容量數(shù)據(jù),按照分類、分級(jí)給出數(shù)據(jù)中心的空間容量、功率容量和承載能力并進(jìn)行計(jì)算,操作維護(hù)人員可以宏觀地控制整個(gè)資源利用率,并根據(jù)設(shè)備類型或相關(guān)指標(biāo)設(shè)置進(jìn)行空間搜索,快速找到合格的設(shè)備空間,實(shí)現(xiàn)空間、電力和承載能力的精細(xì)管理。
(4)監(jiān)控可視化,為機(jī)房?jī)?nèi)的配電柜、空調(diào)、UPS 等從環(huán)境監(jiān)控、安防監(jiān)控到網(wǎng)管和應(yīng)用監(jiān)控,提供統(tǒng)一數(shù)據(jù)查看面板和閃爍告警提醒,并與監(jiān)控對(duì)象的物理屬性實(shí)時(shí)關(guān)聯(lián),靈活查看設(shè)備實(shí)時(shí)參數(shù)、運(yùn)行狀態(tài)、告警信息以及歷史運(yùn)行狀態(tài),快速定位故障設(shè)備, 精確掌控各系統(tǒng)的運(yùn)行狀態(tài),大幅度提升 IT 運(yùn)行的可用性。
(5)運(yùn)維管理可視化,通過前述建立的3D模型與數(shù)據(jù)中心各類監(jiān)控系統(tǒng)聯(lián)動(dòng),當(dāng)發(fā)生故障時(shí)可以自動(dòng)定位到故障點(diǎn),并在模型上直觀顯示;運(yùn)維人員可以通過定位信息快速獲取設(shè)備運(yùn)行狀況、運(yùn)維相關(guān)信息(IP、系統(tǒng)、維護(hù)變更等)、上下級(jí)相關(guān)系統(tǒng)設(shè)備等,對(duì)于預(yù)判故障處理及處理策略都有很大幫助。數(shù)據(jù)中心內(nèi)溫/濕度的監(jiān)控及優(yōu)化工作對(duì)IT設(shè)備穩(wěn)定運(yùn)行很重要,設(shè)計(jì)階段往往采用CFD模擬的方式驗(yàn)證氣流組織的合理性,對(duì)于運(yùn)維階段,由于設(shè)備上架管理是動(dòng)態(tài)變化的,不能僅依靠氣流模擬,需要通過把溫濕度傳感器采集的數(shù)據(jù)有機(jī)組織,繪制實(shí)時(shí)溫度云圖,以不同顏色標(biāo)注溫度分布細(xì)節(jié),實(shí)現(xiàn)機(jī)房?jī)?nèi)的熱點(diǎn)區(qū)域?qū)崟r(shí)顯示,為運(yùn)維保障和設(shè)備上架提供有力參考。
(6)配線管理可視化,線纜管理一直是“老大難”,有序的線纜管理與無序的線纜管理相比,沒有線纜管理的數(shù)據(jù)中心是“災(zāi)難性”的。在線纜數(shù)據(jù)管理上要求系統(tǒng)能夠直觀呈現(xiàn)光纖、網(wǎng)線、配電等線纜的上下游端口的精確連接信息。每一條線纜,無論其連接的是IT設(shè)備還是機(jī)電設(shè)備,線纜管線連接信息都直觀可查,方便運(yùn)維人員查找。
數(shù)據(jù)中心機(jī)房管理可視化管理是運(yùn)維人員的需求直接推動(dòng)的,是一種創(chuàng)新的IT管理手段,通過三維建模,將以往各自獨(dú)立的子系統(tǒng)整合在一起,直觀清晰地展現(xiàn)在一個(gè)統(tǒng)一界面,有利于運(yùn)維人員高效應(yīng)對(duì)突發(fā)事件,同時(shí)利用系統(tǒng)內(nèi)建的專家數(shù)據(jù)庫幫助運(yùn)維人員決策網(wǎng)絡(luò)布局。