劉運
[摘 ? ?要]數據中心基礎設施管理(DCIM)是一種靈活的綜合性解決方案,將基礎設施管理需求引入到一種全新層次的業(yè)務智能。既確保了數據中心穩(wěn)定、高效、綠色,輕松完成對設施、資產的管理,以及對未來容量、能耗、需求的趨勢分析、預測和規(guī)劃。無論現在還是將來,一個部署完善、成效顯著的數據中心基礎設施管理都能幫助管理人員高效地利用供電、制冷、網絡、空間和承重容量,基礎設施以及所支持的IT 工作負載的可用性將因此獲得提升,實現效率最大化。
[關鍵詞]數據中心;基礎設施;數據中心基礎設施管理;DCIM
[中圖分類號]TP315 [文獻標志碼]A [文章編號]2095–6487(2022)03–0–05
Data Center Infrastructure Management Application Practice
Liu Yun
[Abstract]Data Center Infrastructure Management (DCIM) is a flexible and comprehensive solution that brings infrastructure management requirements to a whole new level of business intelligence. It not only ensures the stability, efficiency and greenness of the data center, but also easily completes the management of facilities and assets, as well as the trend analysis, prediction and planning of future capacity, energy consumption and demand. A well-deployed and effective data center infrastructure management helps managers efficiently utilize power, cooling, networking, space and load-bearing capacity, now and in the future, resulting in improved availability of the infrastructure and the IT workloads it supports. Improve and maximize efficiency.
[Keywords]data center; infrastructure; data center infrastructure management; DCIM
企業(yè)決策管理層正向IT部門提出更大挑戰(zhàn),要求將數據中心從成本支出中心轉變?yōu)闃I(yè)務價值的創(chuàng)造部門。數據中心通過使業(yè)務能夠更快地對市場需求做出反應,來對企業(yè)產生更深層次的影響[1]。
1 建設目標
傳統的數據中心管理平臺面臨高能耗、難以擴容、管理效率低等諸多不足。
1.1 管理效率低
沒有統一的數據中心管理平臺,紛繁復雜的專項管理系統相互獨立,集成力差,形成信息孤島,管理人員無法“一站式”管理;管理系統的智能化仍然依托于巨大的人力成本,無法實現自動化服務。
1.2 告警功能模式單一
傳統的管理系統,告警功能只是簡單地將設備層、采集層采集的報警信息推送給管理人員,無法做到告警抑制、分類、升級、預警等功能,更不能對告警信息進行過濾和檢索分析。而面對資產生命周期中應出現的報警推送功能,也鮮少有管理平臺可以做到。
1.3 故障定位難
準確定位故障、解決故障是數據中心穩(wěn)定運行的關鍵。但實際上因為設備之間存在著關聯,當1臺設備出現故障時,經常引發(fā)其他設備的并發(fā)告警,而且不同專業(yè)設備、不同子系統推送信息的格式不同,操作員和管理員收到不同格式的告警推送,面對眾多的告警信息,管理人員無法直觀快速地抓住報警事件重點,無法準確找到關鍵故障,需做人工性二次判斷。
1.4 資產管理難
數據中心存在大量的基礎設施設備和IT資產,管理人員不能準確掌握資產數量、位置與責任人,對于資產的全生命周期管理、日常盤點等業(yè)務不能實現流程化管理,人力成本高,賬實不符的現象時有發(fā)生,往往會對整個企業(yè)的資產管理造成很大的負面影響。另外,設備上架時,傳統管理系統無法提供可選方案建議,仍舊需要管理人員花費大量的時間自行完成。
1.5 容量利用率低
數據中心建設迭代進行,數據中心的容量決定了該數據中心的計算能力。而傳統數據中心管理平臺無法計量并分析容量使用信息,不能幫助管理者跟蹤容量使用情況或規(guī)劃關鍵容量。據調查顯示,90%以上的數據中心資源利用率不到60%。容量的低利用必然會造成更大的建設成本與運營成本的投入,同時會帶來更大的資源消耗和環(huán)境污染問題。
量身定制一款符合需求的DCIM,管理人員可以監(jiān)控、管理數據中心IT設備和基礎設施的使用情況以及能耗水平,為數據中心安全、穩(wěn)定、高效、節(jié)能運行提供基礎保障。
DCIM建設要求是:保障可用性計劃及降低風險;提高資產和基礎設施的利用率;綜合降低能源消耗和運維成本;流程化管理滿足規(guī)定的服務水平;實時自動提供管理決策信息;提高數據中心效率和效益;構建針對數據中心內基礎設施的分析、比對與挖掘的數據支撐平臺。
2 物理架構
從物理架構角度,系統分為4個層級:展示層、管理服務層、監(jiān)控系統層和現場采集層。DCIM系統服務器設有兩臺,設置為雙機熱備,實現主備服務器之間工作自動切換。當主服務器出現故障,備服務器自動接管主服務器所有功能;當主服務器恢復正常,備服務器自動將所有功能遷回主服務器。主備服務器相互切換過程中,系統能持續(xù)提供服務,保證數據的存儲不會間斷,滿足數據不丟失及一致性,保障系統7*24h不間斷工作。具體各層級包含的業(yè)務處理模塊和網絡設備如圖1所示。
2.1 現場采集層
從7個子系統(動環(huán)、配電、視頻、門禁、樓控、照明、消防)對應的設備和傳感器中采集數據信息。
2.2 監(jiān)控系統層
子系統從下屬設備和傳感器中采集數據并將采集的數據和處理后的結果、告警信息等上傳至管理層。監(jiān)控系統層各子系統支持通過Modbus TCP、Modbus RTU、BacNet、SNMP、OPC、Web Services等通訊方式,將監(jiān)控數據上傳至管理服務層。
2.3 管理服務層
管理層基于監(jiān)控系統層的數據,實現綜合管理平臺的核心功能。平臺管理服務器實現子系統集中監(jiān)控、資產管理、容量管理、報表管理、告警管理、流程管理、聯動管理、日志管理、權限管理等基于平臺日常工作的管理維護功能。管理人員通過人機交互界面,在管理系統中完成日常維護。
2.4 展示層
系統提供PC客戶端、WEB瀏覽器、手持移動端、大屏等多種信息瀏覽方式,根據對接的第三方系統設計相應的友好展示、管理界面。并提供聲光、短信、電話、郵件等多種報警形式。無論在公司內網或者公共網絡,都可方便地訪問系統,實現遠程辦公[2]。
3 系統功能
數據中心基礎設施管理系統通過持續(xù)收集數據中心的資產、資源信息,以及各種設備的運行狀態(tài)信息,分析、整合和提煉有用數據,幫助數據中心運行維護人員管理數據中心,并優(yōu)化數據中心的性能[3]。
最有效的DCIM 解決方案在運行時主要依靠從基礎設施設備和其他管理系統持續(xù)獲取實時數據。用戶可以對UPS、PDU、電表、環(huán)境傳感器、探測器、安防攝像頭、制冷單元、流量計、BMS和其他設備進行設置,令其與DCIM 服務器通信。
DCIM功能劃分為四大核心模塊:場地設施管理、資產管理、能效管理、容量和變更管理。
3.1 場地設施管理
場地設施管理,通過實時監(jiān)控動力設備、供配電設備、環(huán)境參數,完成數據采集、分析處理、存儲、展示,使管理人員實時掌控數據中心的場地設施運行情況,輔助運維團隊提升數據中心利用率與可用性。
3.1.1 溫濕度監(jiān)測
通過在機房、配電室、電池間安裝溫濕度傳感器,實時采集環(huán)境溫度、濕度。通過設定溫濕度越限閾值,當室內環(huán)境不在IT設備運行的合適條件,系統通過聯動空調機組、加濕機、除濕機來調節(jié)環(huán)境,同時客戶端自動切換到故障界面并報警。
3.1.2 空調監(jiān)控
對空調的風機、泵、加濕器、除濕器、過濾網、送回風溫濕度等的運行狀態(tài)與數值進行采集,可通過管理平臺對空調機組進行遠程啟停機和溫濕度值的設定。
3.1.3 漏水監(jiān)控
通過對機房、配電室、電池間空調機組冷凍水供回水管全程監(jiān)測,當管路發(fā)生漏水時可選擇自動切斷供水閥門,平臺界面自動彈出漏水處畫面并顯示精確的漏水位置,同時產生報警事件。
3.1.4 配電監(jiān)測
對機房內配電系統參數進行實時監(jiān)測,檢測內容主要包括輸入輸出的電壓、電流、有功功率、無功功率等參數。實現對各機房及配套設施區(qū)域的配電系統參數及設備運行狀態(tài)進行全面的監(jiān)控管理。當設備故障或參數越限時,能夠在集成系統平臺發(fā)出實時告警。全面展示配電相關基礎設施運行情況,真實反映電力設備分布,直觀呈現配電系統的關聯關系。
3.1.5 UPS監(jiān)測
實時監(jiān)測UPS的輸入、輸出電壓、電流、頻率、功率因數、逆變器狀態(tài)、電池狀態(tài)、旁路狀態(tài)、整流器狀態(tài)以及其他負載保護、在線模式、負載過載等參數、狀態(tài)。
3.1.6 智能PDU監(jiān)測
通過監(jiān)控所有機柜配電單元PDU參數,在平臺直觀掌握網絡設備的功耗等。如通過采集A/B路PDU的輸出電壓、電流,系統就能獲取對應網絡設備的實時功率、統計歷史耗電量,從而了解各單位、部門、用戶能耗。平臺可以通過控制端口電源通斷實現對服務器的遠程電源控制。
3.1.7 新排風機監(jiān)控
通過日常計劃設定,定時啟動新排風系統,保持室內空氣質量。當檢測到室內二氧化碳、氫氣濃度異常時,自動啟動新排風機與閥門,將危害氣體排出。
3.1.8 紅外報警監(jiān)測
通過在重要區(qū)域室內側安裝紅外微波探測器,無人值守時啟動報警模式。當探測到“非法入侵”行為,聯動攝像頭進行重點錄像與抓拍,亦可對出入口管理單元進行聯動。
3.1.9 發(fā)電機組監(jiān)測
實時監(jiān)測發(fā)電機的輸出電壓、電流、功率、油壓、水溫、轉速等參數。
3.1.10 消防監(jiān)測
實時監(jiān)測機房內的各消防防區(qū)的煙感傳感器信號,一旦發(fā)生報警,系統自動切換到相應的監(jiān)控界面,且火警狀態(tài)圖標變紅閃爍顯示,同時進行報警。
3.1.11 蓄電池監(jiān)測
實時采集每節(jié)電池的電壓、內阻、溫度。采用先進的內阻測試技術和專家系統分析技術,實時在線分析蓄電池的內阻變化趨勢,在線預測電池組中的落后蓄電池,把電池故障排除在萌芽狀態(tài)。
3.1.12 門禁集成
門禁系統作為安防中的一個重要部分,向集中監(jiān)控平臺提供門禁的各種運行狀態(tài)數據和獨立授權的門禁卡刷卡數據,提供每個門的位置和開/關狀態(tài)、門的進/出情況報告等。實現集中授權,分區(qū)域機房設定權限,實時查看和控制各門的狀態(tài),并且記錄刷卡、開門與關門等事件的監(jiān)控功能。同時實現與視頻監(jiān)控系統、消防系統聯動。保存門進出信息,可供用戶查詢指定時間段和對象的門禁刷卡信息。
3.1.13 視頻集成
根據攝像頭采集的數據,集成視頻監(jiān)控設備,具備處理圖像數據、視頻接入、瀏覽、存儲、轉發(fā)、回放等功能,通過平臺展現及控制管理。實時監(jiān)視各路視頻圖像,通過在電子地圖上點擊相應圖標即可查看該攝像機的當前畫面??蓪崟r播放每路視頻的實時視頻,可顯示每路視頻的碼流信息,在視頻畫面上可以疊加相應的站名、時間、告警等信息。
3.2 資產管理
在某個安裝項目中,服務器上的驅動器和內存被拆下來,誤用于另一位經理的項目。沒有資產追蹤工具記錄下此類從機柜拆除設備的活動,該項目的規(guī)劃出現了缺陷。當項目進入安裝階段時,項目資源已經被用得所剩無幾,他們花了一整天的時間來尋找被誤用的設備的下落。
而具備資產管理的DCIM,能快速準確對眾多資產進行管理和盤點,確保資產數據精準,并能指導運維人員對上架或變更資產放置位置給出建議,充分提高管理效率和數據中心設備設施利用率。對IT資產全生命周期進行管理,實現IT資產全生命周期和使用狀態(tài)全程定位和跟蹤,對資產的數量、庫存、上下架、定位、維修、借用、報廢、個人占用等關鍵要素提供豐富的統計分析報表及可視化輔助決策。
3.2.1 資產管理主要特點
(1)過程規(guī)范:每個資產的信息全面、流程清晰、責任明確、確保賬目與實際相符。以流程為驅動,完整實現資產從購入、發(fā)放、維修、借用、轉移、收回、報廢所有的結果監(jiān)管,有效保障資產的準確性,提高資產的使用效率。
(2)業(yè)務流程化:完善的權限審批流程,所有資產相關的業(yè)務都提供完整的流程管理,用戶在流程引導下完成日常工作,并可以實時關注事件的進展情況,電子化的辦公手段,不再擔心人為遺漏。
(3)可靠的數據保障:嚴格的數據采集和嚴謹的業(yè)務流程,保證了相關數據的準確性,生成的報表文件為用戶在資產相關業(yè)務操作方面提供完善的數據依據。
3.2.2 資產管理主要功能
資產管理模塊,擁有完備的管理體系結構,可以實現出庫入庫登記、庫存預警、庫存增刪、庫存改查的操作、設備臺賬信息管理、設備上下架管理、設備盤點、調撥、報廢等功能等資產全生命周期管理。
資產管理模塊,具備完善的流程管理能力,可以根據設備入庫、出庫、上架、變更、借用等進行工作審批操作,只有在特定權限賬號進行審批合格后,事件才會有效,當流程及事件整體操作全部完成后,數據自動同步到后臺數據庫中。
資產管理模塊,可實現資產關聯合同編號及維保等相關臺賬信息,根據信息提醒維保到期、設備保養(yǎng)維護業(yè)務等。
資產管理模塊具有以下主要功能:
3.2.2.1 數據臺賬管理
在新增資產并申請入庫時,提交入庫申請流程。經過審批后,資產入庫,并進行入庫登記,配置設備資產屬性,包含設備附帶屬性。為資產關聯合同編號及維保等相關臺賬信息,并為資產制作和發(fā)放身份證明標簽。同時更新資產位置狀態(tài)屬性,完成在庫資產的登記工作,建立資產的基礎信息臺賬和庫存臺賬。資產上架使用后,當選中1臺設備后,展示設備屬性條例,對于IT資產設備,屬性中應當包括設備當前活動端口,與下一跳設備端口信息。
根據用戶應用要求,在用戶提出出庫申請,并經過流程審批后,進行設備的上架、領用、借用等屬性的變更,并在整個生命周期中跟蹤資產的狀態(tài),清晰地管理各個IT設備,為日后的具體功能應用打下數據基礎。
3.2.2.2 人員管理
建立人員信息管理,賦予超級用戶創(chuàng)建、修改、刪除用戶\用戶組。根據用戶\用戶組對應的設備、應用、物理地址等信息,創(chuàng)建用戶策略和權限。根據人員和設備之間的關聯關系,明晰責任。
3.2.2.3 資產查詢
對于資產的查詢,用戶可以在權限范圍內自由設置篩選條件,包括品牌、應用、所屬人員、存放地點、資產狀態(tài)、服務到期等等。系統提供很多模板,用戶可基于模板快速定制化報表。靈活定義各種合適報表格式,使客戶能決定采用最可能的方式,將查詢結果生成報表,用于深入研究和分析。
3.2.2.4 資產上下架
資產管理子系統,通過流程管控完成設備變更事件。在進行設備上架、遷移、下架等變更時,需提交流程審批,當審批通過后,即可進行相關的操作,同時系統會記錄最新操作結果。資產管理子系統可以提供上架推薦和預占功能,為用戶推薦最優(yōu)上架機柜及U位。根據管理平臺數據運算,可以對空間、承重、電力、網絡、冷量等條件進行上架搜索,從而為用戶推薦最佳上架位置,并進行預占審批流程,綜合提高數據中心設備設施的利用率。
3.2.2.5 系統報警及提醒
資產管理子系統,對資產日常業(yè)務設置了相關的報警和提醒功能。通過報警及提醒功能保障用戶對資產日常運維的及時性,報警及預警常用事件包括:系統本身的異常告警;最低庫存量資產預警;借用逾期未還資產;到報廢期資產;維修維護資產;U位空間、電力、網絡等。
綜合對日常資產重要業(yè)務進行有效的告知提醒,并可根據流程設置,追蹤事件的過程和最終狀態(tài),保障在日常業(yè)務處理中不發(fā)生遺漏。對需要標注和設置的內容如:維護完成時間以及下次維護時間、維護周期等,可由管理員進行單獨或批量設置。
3.2.2.6 資產的定位及盤點
資產管理子系統,可精確定位IT設備在數據中心的物理位置,具體到設備所屬最終U位層級。具體定位方式可以更具定位硬件的不同方式來區(qū)分實現,目前常見的有RFID、二維碼標簽、電子標簽方式等。系統可結合相關硬件實現資產快速定位及快速盤點等功能,使數據中心資產追蹤管理更加便捷高效。
3.2.2.7 資產報廢、變更、維修保養(yǎng)
資產管理子系統,對于資產的變更、報廢和維修保養(yǎng)業(yè)務,都是采用流程化管理方式實現的。業(yè)務生成審批處理等一系列操作都要通過管理系統的預設流程來實現,而且與權限管理密切管理,只有權限范圍內才能執(zhí)行相關操作。
3.2.2.8 資產統計分析
資產管理子系統,可根據用戶設定條件,生成各種資產統計報表和分析圖形,主要包括:明細報表、趨勢圖、餅圖、雷達圖、柱狀圖等。通過明細報表和相關圖形分析為資產的日常管理和決策提供全面和準確的依據。
主要報表包括:①設備數量表,子項查詢統計可以按地點、品牌、使用人、狀態(tài)、應用等多種方式進行分析提供;②資產庫存情況表,資產的庫存情況匯總分析表、庫存年度、季度、月份變化表、結存報表等;③資產使用分析表,可以根據資產的使用、部署、變更、借用、維修、服務到期、報廢等子項提供分析報表;④報表方式也可以按用戶需求進行組合定制等。
3.2.2.9 資產變更管理
資產管理子系統,對日常的資產屬性變化如:狀態(tài)、使用人、應用、機架位置等,系統提供完整的變更審批流程。用戶在進行變更時需按系統指示提供相應的變更申請,在申請批準后方可進行相應的資產處置。統計記錄并提供實時跟蹤和查詢功能,并對不同級別的操作申請制定詳細的審批權限。在整個流程進行過程中,系統會根據節(jié)點變化,通過郵件及內部信息方式通知相關人員。
3.2.2.10 資產可視化
資產管理子系統,提供三維可視化展示功能,根據現場實際部署方式進行一比一建模,與實物對比所見即所得。系統采取層層漸進的方式,直觀呈現設備設施的物理位置,為用戶盤點、查找、統計、上下架、遷移等操作,提供現場場景還原,為IT設備管理提供良好的決策依據。
利用可視化展示資產信息,可以做到以下幾點:①顯示園區(qū)、樓層、機房、機柜、U位的層層漸進的展示,圖形化TI設備展示;②變更實時刷新顯示,與最終現場場景完全一致;③良好的空間、承重、電力、網絡展示能力;④對IT設備之間的網絡連接提供連線展示;⑤對設備報警采用物理位置提示,根據不同著色閃爍快速提醒故障設備。
4 能效管理
通過準確、詳細的服務器級和機柜級能耗信息,深入優(yōu)化服務器使用率,提高數據中心性能,降低IT系統能耗,以達到更好的可靠性和可用性。
能耗管理,分析細化至機架級的用電量成本,用于計算特定設備的能耗成本,有助于計算電費和編制有效預算。能夠監(jiān)控供電系統設備、IT資產和制冷系統設備使用率和功耗,幫助降低因過度配置、使用率低下,以及數據中心供電和制冷不均衡引發(fā)的額外成本。同時持續(xù)發(fā)現并監(jiān)控各用電組件,收集數據,跟蹤服務器特定信息。這些信息是確保清晰了解數據中心能耗以及它對企業(yè)影響的基礎。
5 容量和變更管理
數據中心在全生命周期運營中,不斷面臨著挑戰(zhàn):①下一個服務器的安裝位置?②在故障或維護期間,是否仍具備供電或制冷冗余?③是否需要分散部署刀片服務器,以便可靠運營?④如果新增1個服務器,將對現有分支電路有什么影響?⑤新增設備對冗余和安全性有什么影響?⑥現有供電和制冷設備是否能夠支持新技術?
在傳統數據中心,運營人員只能在有限的、零散的數據基礎上,依靠個人經驗進行判斷決策。譬如,當運營人員試圖判斷某個機柜上供電容量過載是偶然的異常情況還是發(fā)展趨勢,他們根據直覺做出判斷。如果判斷錯誤,那么當機柜超過電源容量時,斷路器會脫扣跳閘。該斷路器下游所有執(zhí)行關鍵任務應用的服務器都會突然掉電。
而現在,創(chuàng)新的DCIM容量和變更管理,提供數據中心的當前物理狀態(tài),并模擬未來添加、遷移和變更物理設備的效果,能夠預測新增、遷移、變更設備對空間、供電、制冷、網絡、承重容量分配方面的影響。在測量機柜中每個設備的用電量后,根據科學數據做出負載均衡決策,而不是依靠直覺。在斷路器脫扣跳閘前發(fā)出告警,使得運營者有機會在宕機前作出合理調整。如果某臺機柜接近容量閾值,還能夠生成預測性模擬選項,并進行評估,以確定最佳的方法來緩解該情況的發(fā)生。
容量和變更管理的作用包括模擬結果、規(guī)劃容量、管理庫、工作流程,以及避免局部熱點等,讓運營者對數據中心整體運營有更長遠、更全面的總體認識與規(guī)劃。IT和業(yè)務決策層已經意識到,通過優(yōu)化物理基礎設施規(guī)劃、進行小規(guī)模系統重配置和小幅流程變更,能夠節(jié)約大量的能源和運營成本支出,并利用歷史數據來提高IT機房的未來性能。
6 結論
全文從建設目標、物理架構、系統功能進行分析,對數據中心基礎設施管理建設的實現做出闡述。物理架構根據功能分為4層:現場采集單元負責前端傳感器和被控對象的參數采集,并將數據實時上傳至監(jiān)控層進行解析與處理;然后將有效數據和告警信息等上傳至管理服務層,由管理服務層實現監(jiān)控業(yè)務的日常工作與管理;各子系統對常規(guī)異常事件進行聯動設定,并將重要的報警信息第一時間以語音、短信、Email、音箱、聲光報警、微信的形式通知管理人員,數據與結果通過工作站、智能終端、大屏等多種信息方式進行展示。系統功能分為四大核心模塊:場地設施管理、資產管理、能效管理、容量和變更管理。場地設施管理實現對基礎設施數據的采集與分析;資產管理實現對IT資產管理的過程規(guī)范化、業(yè)務流程化;能效管理提供精確的能效指標統計、分析;容量和變更管理提供模擬結果、規(guī)劃容量、管理庫、工作流程,以及避免局部熱點等,讓運營者對數據中心整體運營有更長遠、更全面的總體認識與規(guī)劃。
到目前為止,該應用項目已經安全、穩(wěn)定運行3年多時間。通過對數據中心基礎設施運行環(huán)境和運行狀況進行實時監(jiān)測,做到在提高運維質量的同時,有效降低運營成本,基本解決了該數據中心管理部門所面臨的運維管理質量、效益指標等任務。
參考文獻
[1] 張成泉.機房工程[M].北京:中國電力出版社,2007.
[2] 林海雄.數據中心的環(huán)境監(jiān)控系統[J].智能建筑與城市信息,2009 (5) :59-62
[3] 數據中心設計規(guī)范:GB 50174-2017[S].