班艷麗
摘? ?要:DCIM 是一種能夠?qū)龅鼗A(chǔ)設(shè)施和IT 設(shè)施納入統(tǒng)一平臺進行監(jiān)控管理的工具,為消除數(shù)據(jù)中心監(jiān)控信息孤島、實現(xiàn)監(jiān)控管理一體化提供了全新的思路。文章闡述了DCIM系統(tǒng)在上海財經(jīng)大學(xué)數(shù)據(jù)中心運維管理中的具體應(yīng)用,詳細介紹了數(shù)據(jù)中心資產(chǎn)管理、容量管理、變更管理、電源管理、環(huán)境管理、能源管理六大模塊的精細化管理,并結(jié)合實際工作經(jīng)驗,總結(jié)了DCIM系統(tǒng)在數(shù)據(jù)中心運維管理中的建設(shè)價值。
關(guān)鍵詞:數(shù)據(jù)中心;DCIM;運維管理
中圖分類號:TP393 文獻標志碼:B 文章編號:1673-8454(2020)01-0054-04
一、引言
隨著信息技術(shù)的發(fā)展,高校數(shù)據(jù)中心的規(guī)模越來越大,設(shè)備數(shù)量已經(jīng)從數(shù)十臺發(fā)展到數(shù)百臺、上千臺。由于高校數(shù)據(jù)中心專職運維管理人員普遍較少,運行規(guī)范相對盈利性運營商數(shù)據(jù)中心有所欠缺。實現(xiàn)數(shù)據(jù)中心運營管理的體系化、標準化、規(guī)范化、流程化,保障數(shù)據(jù)中心安全、穩(wěn)定、可靠、節(jié)能、低成本運行成為高校數(shù)據(jù)中心發(fā)展的必然趨勢。
二、DCIM的概念
數(shù)據(jù)中心基礎(chǔ)設(shè)施管理DCIM(Data Center Infrastructure Management)是數(shù)據(jù)中心運維管理領(lǐng)域最近幾年興起的一個熱點。DCIM 是一座溝通場地基礎(chǔ)設(shè)施和IT基礎(chǔ)設(shè)施之間關(guān)系的橋梁,通過一整套包含特定硬件和軟件的管理平臺與工具,對數(shù)據(jù)中心內(nèi)的IT關(guān)鍵設(shè)備(如服務(wù)器、存儲、網(wǎng)絡(luò)等)、場地基礎(chǔ)設(shè)施(配電、制冷、布線、消防等)以及人和制度(運維計劃、SOP、EOP、MOP)等實施監(jiān)控和統(tǒng)一管理。實現(xiàn)信息技術(shù)和設(shè)施管理的綜合集成,能夠幫助數(shù)據(jù)中心運維管理人員更高效地運營數(shù)據(jù)中心。
高校數(shù)據(jù)中心一般存在多套監(jiān)控管理子系統(tǒng),如電力系統(tǒng)、消防安防監(jiān)控、空調(diào)監(jiān)控等,但是普遍情況下這些子系統(tǒng)都是獨立進行數(shù)據(jù)采集、統(tǒng)計分析,僅完成某一項功能。如要獲取數(shù)據(jù)中心整體成本管理、能效管理、容量管理等信息,則需要對這些子系統(tǒng)的數(shù)據(jù)進行整合、挖掘分析,才能對數(shù)據(jù)中心的實際運維管理產(chǎn)生價值。DCIM系統(tǒng)則通過對各子系統(tǒng)的數(shù)據(jù)進行整合處理,進行數(shù)據(jù)挖掘分析,可以實現(xiàn)數(shù)據(jù)中心資產(chǎn)管理、電源管理、環(huán)境管理、容量管理、變更管理及能源管理等多項功能,為數(shù)據(jù)中心運維管理人員提供科學(xué)決策的依據(jù)。
三、數(shù)據(jù)中心DCIM建設(shè)與運維管理實踐
以上海財經(jīng)大學(xué)數(shù)據(jù)中心為例,原數(shù)據(jù)存儲機房2004年建成,主要存放網(wǎng)絡(luò)核心設(shè)備和基礎(chǔ)網(wǎng)絡(luò)服務(wù)器,并接受校內(nèi)各院系、部門服務(wù)器托管的申請。原有機房設(shè)在學(xué)校教育技術(shù)大樓的三樓,無論是機柜容量、樓層設(shè)計承載力與消防安全等指標,均已不能適應(yīng)學(xué)校教育信息化發(fā)展。學(xué)校于2012年新建了一個綠色、環(huán)保、節(jié)能和安全的數(shù)據(jù)中心,新的數(shù)據(jù)中心位于教育技術(shù)中心大樓的一樓,機房共部署8列52個機柜,機房內(nèi)配置了智能PDU、智能KVM等DCIM基礎(chǔ)構(gòu)件。隨著DCIM系統(tǒng)逐漸成熟,2015年我校啟動相關(guān)DCIM系統(tǒng)建設(shè)項目,將信息技術(shù)和設(shè)備管理結(jié)合起來對數(shù)據(jù)中心關(guān)鍵設(shè)備進行集中監(jiān)控、集中管理,并通過最近幾年的運維管理,逐步實現(xiàn)IDC機房的現(xiàn)代化、精細化管理。
在DCIM項目實施過程中,我校逐步部署用于IT設(shè)備管理的軟件(DcTrack系統(tǒng))和用于場地基礎(chǔ)設(shè)施管理的軟件(PowerIQ系統(tǒng));每組機柜安裝AMS-42資產(chǎn)條,每臺設(shè)備通過資產(chǎn)標簽貼AMT與資產(chǎn)條AMS進行鏈接;機柜內(nèi)安裝配置溫濕探頭(每個機柜內(nèi)的進風(fēng)口上、中、下三個點采集溫度,中間點采集濕度);同時每組列頭柜安裝EMX匯聚設(shè)備,與上述每個機柜內(nèi)的溫濕探頭及資產(chǎn)條AMS進行物理連接。DCIM系統(tǒng)拓撲如圖1所示。
通過項目的最終部署完成,上海財經(jīng)大學(xué)DCIM系統(tǒng)可實現(xiàn)資產(chǎn)管理、變更管理、容量管理、電源管理、環(huán)境管理、能源管理六大模塊的精細化管理。下文將對六大模塊進行詳細說明。
1.資產(chǎn)管理
高校數(shù)據(jù)中心的資產(chǎn)是學(xué)校重要的信息來源及教學(xué)支撐設(shè)備。由于建設(shè)時間和周期的關(guān)系,很多高校數(shù)據(jù)中心的管理員可能都難以弄清楚自己有哪些資產(chǎn)、每個資產(chǎn)由誰擁有、這些資產(chǎn)是如何與網(wǎng)絡(luò)連接的及資產(chǎn)的維護情況如何。很多數(shù)據(jù)中心借助軟件系統(tǒng)(如Excel或Viso)進行手工登記和修改,使得實時性和時效性低、使用效率低下,易出現(xiàn)信息過時、不準確和不完整的情況,對數(shù)據(jù)中心運維管理人員來說非常痛苦,往往需要花費大量的時間去維護數(shù)據(jù),保持數(shù)據(jù)同步,甚至新舊數(shù)據(jù)還有可能發(fā)生沖突?;贒CIM的資產(chǎn)管理系統(tǒng),有效消除了數(shù)據(jù)中心資產(chǎn)管理中的手工操作、非實時更新和“先做后變更”等管理盲點,提高了資產(chǎn)管理的精準化和智能化。
基于DCIM的資產(chǎn)管理系統(tǒng)可以詳細記錄設(shè)備的品牌型號等硬件信息,以及設(shè)備是如何安置及連接的、設(shè)備的資產(chǎn)負責(zé)人/單位、設(shè)備的維護狀態(tài)等信息。并且支持多種數(shù)據(jù)導(dǎo)入方式:SNMP發(fā)現(xiàn)、使用圖紙導(dǎo)入樓層對象(如AutoCAD、VISIO)、使用電子數(shù)據(jù)表的導(dǎo)入向?qū)Вㄈ鏓xcel)、Web 服務(wù) API、手工錄入等。另外通過部署資產(chǎn)條及資產(chǎn)標簽,系統(tǒng)可自動偵測到機柜內(nèi)的 IT 設(shè)備連上資產(chǎn)標簽,標簽所擁有的唯一資產(chǎn)ID及所安裝的相關(guān)IT設(shè)備將被登記到統(tǒng)一的數(shù)據(jù)庫中。當由于添加或拆除某一IT設(shè)備而對資產(chǎn)標簽進行變動時,自動報警并在事件日志中產(chǎn)生一條事件記錄。
DCIM提供的精細化、圖形化管理功能,支持對電源、網(wǎng)絡(luò)鏈路可用端口的查詢,確保在部署階段就能夠一目了然地明確正確的連接方法,進而減少安裝錯誤。使數(shù)據(jù)中心運維管理人員擺脫了過去手摸、眼看等粗放的判斷方式,可實時對供電和網(wǎng)絡(luò)等連接關(guān)系進行管理。
資產(chǎn)管理中的可視化設(shè)備網(wǎng)絡(luò)管理及電源管理,極大地提高了運維管理人員的工作效率。網(wǎng)絡(luò)管理支持網(wǎng)絡(luò)鏈路的追蹤功能,即從服務(wù)器網(wǎng)卡開始,沿著布線直至端點服務(wù)器,跟蹤每一跳的端口使用情況,如圖2所示。
同樣,電源路徑支持監(jiān)視從主UPS到設(shè)備電源及二者之間所有節(jié)點的電路路徑,通過端到端的方式查看可用電源,可防止添加到某一電源插口的設(shè)備超出電源鏈路內(nèi)任何一個斷路器的極限值,進而可提高正常工作時間。
2.容量管理
傳統(tǒng)的數(shù)據(jù)中心里,運維管理人員幾乎不可能精確地了解在特定時間點上,到底擁有多少容量、哪些容量正在使用中、哪些容量已經(jīng)計劃被使用、如何更好地利用這些容量以及預(yù)測何時將用盡這些容量。為新IT服務(wù)確定最佳托管位置的日常任務(wù)極具挑戰(zhàn)性。 對于數(shù)據(jù)中心而言,每1U的容量都是寶貴的資源,因此盡可能提高設(shè)備的利用率,才能有效提高數(shù)據(jù)中心資產(chǎn)的利用率。
基于DCIM的容量管理可為運維管理人員提供精確的信息及預(yù)測和分析工具,可以詳細地分析整個數(shù)據(jù)中心還有多少空間、電力、網(wǎng)絡(luò)資源可用,何處有空間可安置新設(shè)備,預(yù)測機房資源何時將被全部用盡,分析如何善加利用現(xiàn)有資源。機柜內(nèi)有多少電、多少空間、溫濕度、承重均可可視化查詢。機房運維管理人員可通過設(shè)備的型號或者需要的條件,智能搜索可上架機柜位置??梢猿浞掷眠@些信息,更高效地做出決策。
3.變更管理
人員操作和流程規(guī)范也是數(shù)據(jù)中心運維管理過程中需要重點考慮的因素之一。UPTIME的調(diào)查顯示,在以往的數(shù)據(jù)中心安全事故中,人為因素占據(jù)高達70%。由于高校數(shù)據(jù)中心專職運維管理人員普遍較少,在數(shù)據(jù)中心運維管理過程中往往缺乏規(guī)范化、流程化的管理手段,無法通過將具體事務(wù)(如日常巡檢、事故處置、更換配件、設(shè)備上下架、資產(chǎn)調(diào)撥報廢等)標準化、流程化的手段來規(guī)范管理人員的日常工作,在事前規(guī)避風(fēng)險、事后進行快速處置方面存在不可控因素,因此急需對規(guī)范、流程、制度、崗位職責(zé)等方面進行優(yōu)化。
基于DCIM的變更管理,主要分析移動、增加、移除設(shè)備會造成哪些影響,以及誰是變更負責(zé)人、變更何時完工、如何知道變更已正確地完成。在數(shù)據(jù)中心運維過程中,采用基于角色的流程管理,將運維管理人員分為:申請人員、審批人員、操作人員三類,其中申請人員僅需將設(shè)備的型號、U數(shù)、所需電源、網(wǎng)絡(luò)等信息提交至系統(tǒng),審批人員可根據(jù)DCIM里提供的信息分配設(shè)備位置、電源連接、網(wǎng)絡(luò)連接等信息,并派發(fā)工單至操作人員。即使操作人員對數(shù)據(jù)中心電源規(guī)劃、網(wǎng)絡(luò)鏈路情況不了解,也可以根據(jù)工單里的信息,輕松完成設(shè)備的上架、變更等操作。通過嚴格的工作流程,確保每一步的流程規(guī)范可查詢,降低了數(shù)據(jù)中心運維管理過程中隨意化操作的風(fēng)險,使整個運維管理更為直觀、可控,管理流程如圖3所示。
4.電源管理
數(shù)據(jù)中心電費的支出在運維費用中占了相當大的比例,因此,實時查看IT設(shè)備和基礎(chǔ)設(shè)施設(shè)備的能耗,降低綜合能源消耗及運維成本,在整個數(shù)據(jù)中心運維過程中是非常重要的。
基于DCIM的電源管理,可分析當前數(shù)據(jù)中心已使用了多少電、還剩多少電可以用、如何確保上線及可靠度、如何安置高密度設(shè)備等信息??赏ㄟ^儀表盤和曲線圖的方式查看用電情況和溫濕度(展示內(nèi)容可定制),并根據(jù)要求生成各種分析報告,并且支持通過耗電數(shù)據(jù)、電源容量預(yù)測趨勢圖等方式來確定當前和未來的限值,分析負荷數(shù)據(jù)的趨勢。從而幫助數(shù)據(jù)中心運維管理人員有效定位空載或者低負載的服務(wù)器,以便對這些資源進行負載整合或者下架。同時結(jié)合IT設(shè)備的生命周期管理及服務(wù)器的能耗數(shù)據(jù),幫助運維管理人員提前做出規(guī)劃和預(yù)算,進而淘汰一些老舊卻又能耗較高的設(shè)備,使數(shù)據(jù)中心更加節(jié)能增效。
5.環(huán)境管理
高校數(shù)據(jù)中心的運行需保證為IT設(shè)備提供合理的工作環(huán)境,以確保正常工作時間及滿足能效要求。運維管理人員需要監(jiān)視并確保流入IT設(shè)備的空氣溫度和濕度是在有關(guān)標準和規(guī)范建議的范圍內(nèi)(如ASHREA、GB-50174、GB-50462、GB-50243等)。在保持關(guān)鍵任務(wù)系統(tǒng)正常工作時間的同時,最大程度地提高能效。
基于DCIM的環(huán)境管理,可有效管理熱點(hot spots)、分析如何節(jié)省能源、如何提供及維護一個安全的環(huán)境給所有的設(shè)備。通過在每機柜內(nèi)部署上、中、下三個點的探頭進行微環(huán)境數(shù)據(jù)采集,可以監(jiān)測到機柜內(nèi)三個不同點的溫度和濕度,并根據(jù)要求可以查看任意時間段各機柜內(nèi)的溫濕度,通過算法行程及時更新、自動變化的溫濕度圖,實現(xiàn)微環(huán)境的管理與分析。后期如有需要,還可以增加氣流、氣壓、機柜門開合等探頭。如圖4所示。
6.能源管理
為了滿足低投入、多產(chǎn)出的愿望及克服資產(chǎn)限制,要求高校數(shù)據(jù)中心運維管理人員擁更好的信息,以有效地管理數(shù)據(jù)中心。基于DCIM的能源管理可幫助運維管理人員分析如何節(jié)省能源、目前能源的總花費、誰正在使用多少能源、如何提供及維護一個安全的環(huán)境給所有的設(shè)備。根據(jù)需求,分析需要的測量數(shù)據(jù),如功率、電流、電費、溫濕度、碳排放數(shù)據(jù)等;并可根據(jù)需要,分析生成各種能源信息報表,支持學(xué)校可持續(xù)性發(fā)展綠色計劃,用于學(xué)校報告、趨勢分析和管理等。
四、DCIM項目實施難點
DCIM理論和框架在我校項目落地實施時也存在一些難點,主要體現(xiàn)在兩個方面:
1.項目實施初期的數(shù)據(jù)梳理工作
項目實施初期,需要對數(shù)據(jù)中心設(shè)備的基礎(chǔ)數(shù)據(jù)進行大量校對與清查。主要包括電源連接信息(從設(shè)備依次至PDU、配電柜、UPS等連接信息)、設(shè)備信息(包括設(shè)備品牌型號、名稱、安裝位置、U數(shù)等信息)和網(wǎng)絡(luò)連接信息(從設(shè)備至配線架、網(wǎng)絡(luò)交換機等連接信息),需將準確數(shù)據(jù)批量導(dǎo)入到系統(tǒng)中。當DCIM系統(tǒng)建設(shè)完成后,維護人員只需按照規(guī)范進行簡單的數(shù)據(jù)維護,就能輕松實現(xiàn)數(shù)據(jù)中心資產(chǎn)信息的準確管理。
2.數(shù)據(jù)中心運維制度管理
DCIM系統(tǒng)建設(shè)完成后,為確保設(shè)備信息準確,需要數(shù)據(jù)中心所有運維管理人員改變已有的流程和工作習(xí)慣,嚴格按照設(shè)備上線/變更流程進行操作。而在DCIM系統(tǒng)上線初期,運維管理人員對新的規(guī)范執(zhí)行也不是一步到位,而是一個持續(xù)改進,不斷適應(yīng),直至完全按照規(guī)范操作的過程。
五、基于DCIM的數(shù)據(jù)中心運維成效
DCIM上線運行4年來,通過與我校歷史數(shù)據(jù)對比發(fā)現(xiàn):數(shù)據(jù)中心資源定位查找的準確性基本提高了20%;運維管理人員進入機房的頻次大約減少30%;資源的實時情況掌握度提升40%;報告及報表80%改為自動化導(dǎo)出。DCIM系統(tǒng)實現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施資產(chǎn)信息的統(tǒng)一管理,實現(xiàn)了數(shù)據(jù)中心多應(yīng)用全方位數(shù)據(jù)的統(tǒng)一自動收集,為數(shù)據(jù)中心運維管理提供了基礎(chǔ)數(shù)據(jù)支撐。
通過DCIM的能源管理,可以更加針對性地進行能耗管理與調(diào)配,實現(xiàn)機房供電優(yōu)化、制冷優(yōu)化、容量管理優(yōu)化及節(jié)能降耗的效果,優(yōu)化了能源使用,提高了成本效率。通過DCIM的資產(chǎn)管理,提高了數(shù)據(jù)中心設(shè)備自動化管理水平,使數(shù)據(jù)準確性、及時性得到提升,日常頻繁的資產(chǎn)清查工作壓力得到釋放。通過設(shè)備連線關(guān)系的展現(xiàn)與管理,方便了維護人員進行故障排除、信息查詢、操作指導(dǎo)等工作。通過規(guī)范數(shù)據(jù)中心的工作流程,大幅提高了工作效率,實現(xiàn)了數(shù)據(jù)中心綜合運維管理能力的提升。
六、結(jié)束語
在信息集中共享和大數(shù)據(jù)的時代,數(shù)據(jù)中心后期的運維管理也越來越引起重視。DCIM系統(tǒng)在整個數(shù)據(jù)中心運維管理中起到了積極作用,可以在一定程度上保障數(shù)據(jù)中心機房運行的安全,為業(yè)務(wù)穩(wěn)定、高效、低能耗發(fā)展奠定了基礎(chǔ)。DCIM系統(tǒng)有效提升了數(shù)據(jù)中心的運行效率,將孤立存在的各個數(shù)據(jù)中心監(jiān)控及管理系統(tǒng)進行有效整合,實現(xiàn)了數(shù)據(jù)中心信息的互聯(lián)互通與融合,為未來大數(shù)據(jù)挖掘奠定扎實基礎(chǔ)。
參考文獻:
[1]黃鍇.數(shù)據(jù)中心基礎(chǔ)設(shè)施管理DCIM 綜述[J].智能建筑與城市信息,2012(11):39-41.
[2]黃鍇,潘秀青.邁向DCIM時代的數(shù)據(jù)中心智能網(wǎng)絡(luò)布線管理[J].智能建筑與城市信息,2012(5):32-35.
[3]何新年,安真,葉雷霖.DCIM與數(shù)據(jù)中心基礎(chǔ)設(shè)施管理[J].電信工程技術(shù)與標準化,2016(4):46-50.
[4]任華華.IDC運營的大數(shù)據(jù)分析與DCIM[J].工程建設(shè)標準化,2016(5):70-74.
[5]丁聰,沈巍.數(shù)據(jù)中心DCIM統(tǒng)一運營支撐系統(tǒng)建設(shè)需求分析[J].電信技術(shù),2017(8):111-115,123.
(編輯:王曉明)