曾宇/ZENG Yu,袁祥楓/YUAN Xiangfeng,王海寧/WANG Haining
(1.中國電信AI研發(fā)中心,中國北京102209;2.英特爾(中國)有限公司,中國北京100013)
(1.China Telecom Beijing Research Institute,Beijing 102209,China;2.Intel China Ltd,Beijing 100013,China)
隨著5G時代的來臨,海量數(shù)據(jù)生成,云計算需求急速增長,與之配套的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)在近幾年得到了迅猛發(fā)展。2010—2017年,全球數(shù)據(jù)中心數(shù)量平穩(wěn)增長。從2017年開始,全球數(shù)據(jù)中心朝著大型化、集約化的方向發(fā)展,單機架功率快速提升。中國數(shù)據(jù)中心發(fā)展進程相對較晚,但規(guī)模增速整體高于全球水平。2019年中國IDC的市場規(guī)模達到1 560.8億元,同比增長率遠超過全球平均水平,但IDC行業(yè)供需仍有較大的缺口。與此同時,迅速增長的IDC帶來了巨大的能源開銷,運營商電費成本進一步加大,節(jié)能降耗已迫在眉睫。
IDC能耗主要集中在3個方面:IT設備能耗、制冷設備能耗與其他能耗。IT設備包括機架上的服務器、交換機等業(yè)務承載設備;制冷設備包括空調(diào)室內(nèi)機、室外機、水冷機組等;其他包括辦公用電、照明用電等。其中,制冷設備的能耗約占IDC總能耗的40%,其他能耗基本可以忽略不計。衡量機房是否節(jié)能一般用能源使用效率(PUE)指標,即數(shù)據(jù)中心總能耗與信息技術(shù)(IT)設備能耗的比值[1]來表示。為了克服現(xiàn)有傳統(tǒng)節(jié)能手段的局限性,本文提出利用數(shù)據(jù)分析和人工智能(AI)模型的智能化運營級IDC節(jié)能方案。通過分析IDC機房的靜態(tài)屬性數(shù)據(jù)及歷史數(shù)據(jù),訓練對應的AI模型,進而提出基于AI的機房節(jié)能策略。
主流運營商IDC機房按照空調(diào)類型一般分為兩類:風冷和水冷。
(1)根據(jù)制冷原理,IDC機房可分為風冷類機房與水冷類機房。風冷類機房多為一些早期建設的機房。其原理為冷媒在室內(nèi)機蒸發(fā)器蒸發(fā)吸熱后,送到位于室外的室外機,通過室外機內(nèi)壓縮機將低溫低壓氣體壓縮為高溫高壓氣體,再經(jīng)過冷凝器進行散熱,成為高溫高壓液體,循環(huán)到室內(nèi)再次吸熱。水冷類機房的制冷設備由水冷機組與室內(nèi)末端空調(diào)組成。水冷類機房通過比熱容較大的水在水冷主機與冷卻塔、水冷主機與末端空調(diào)之間進行熱交換。水冷類機房多見于集中建設的大型數(shù)據(jù)中心。水冷機房的制冷能耗主要由水冷主機的能耗、泵的能耗、冷卻塔的能耗與末端空調(diào)的能耗4部分組成。
(2)根據(jù)送風IDC機房可分為下送風類機房與其他類機房。下送風指空調(diào)輸出的冷風,通過機房架空地板下的靜壓箱,經(jīng)出風地板導出,為機柜制冷。下送風的方式更符合物理規(guī)律,可以有效避免熱氣流回流。大部分IDC機房采用下送風的方式。下送風機房也分為兩種:機柜下送風式、冷熱通道封閉式。其他類機房指除下送風類機房以外其他送風方式的機房,比如上送風機房、背板空調(diào)等。
目前IDC機房節(jié)能切入點主要是制冷設備,節(jié)能手段通常是依據(jù)人工經(jīng)驗與暖通知識,優(yōu)化機房溫度與氣流組織[2-4]。新建機房一般引入新型制冷技術(shù),大大降低PUE;但運營商大部分已有機房存在無法進行制冷方式調(diào)整,改造成本較高,人工難以調(diào)節(jié)的情況。
IDC傳統(tǒng)的節(jié)能手段主要有:氣流組織優(yōu)化(人工經(jīng)驗)、采用水冷空調(diào)機組、提高機房溫度、關(guān)閉空閑設備、基于應用的策略優(yōu)化(例如利用虛擬化管理軟件優(yōu)化空閑業(yè)務)。
由于運營商IDC通常為客戶提供服務,因此傳統(tǒng)的節(jié)能手段無法應對多樣性的客戶應用場景。同時,隨著節(jié)能減排的要求逐漸納入到運營商各級公司考核關(guān)鍵績效指標法(KPI),傳統(tǒng)的節(jié)能手段空間越來越小,而且也無法匹配未來面向5G的多樣化業(yè)務生態(tài)對節(jié)能的需求。
基于AI及大數(shù)據(jù)的智能化節(jié)能體系,研究重點在IDC的核心數(shù)據(jù)層面,通過數(shù)據(jù)的分析,可以得到節(jié)能策略所需的調(diào)整依據(jù)。數(shù)據(jù)采集來源為動環(huán)系統(tǒng)數(shù)據(jù)、人工、機器人采集數(shù)據(jù)、水冷機組系統(tǒng)數(shù)據(jù)等。動環(huán)系統(tǒng)一般是在機房建設階段就開發(fā)好的監(jiān)控系統(tǒng),通過機房內(nèi)設置的傳感器、列頭柜、空調(diào)傳感器,可以采集機房溫濕度、IT設備功耗、空調(diào)運行參數(shù)、制冷功耗等信息。動環(huán)系統(tǒng)的數(shù)據(jù)基本可以描述一個機房內(nèi)的運行情況,但由于早期機房建設未考慮數(shù)字化改造需求;因此數(shù)據(jù)缺失情況較嚴重,甚至未保存歷史數(shù)據(jù)。此外,由于采集邏輯原因,動環(huán)系統(tǒng)數(shù)據(jù)采集粒度較大,且各維度數(shù)據(jù)很難在時間點上進行統(tǒng)一,為數(shù)據(jù)清洗與之后的AI建模帶來很大困難。因為某些機房部分數(shù)據(jù)未記錄,需要人工或使用自動化設備補采。補采數(shù)據(jù)一般在空間維度上比較豐富,包括:機柜級別的出/回風溫濕度、機柜電流與機柜的出風量數(shù)據(jù),但由于采集速度限制,數(shù)據(jù)在時間維度上的豐富性有所欠缺。
水冷機組的數(shù)據(jù)包括:水冷主機的運行參數(shù)(冷凝器進出水溫度、蒸發(fā)器進出水溫度、冷凍供水壓力、主機電流等)、泵的運行參數(shù)(運行頻率、電流等)、冷卻塔的運行參數(shù)(運行頻率、電流等)與其他參數(shù)(如室外溫濕度、IT總負載等)。
風冷機組的數(shù)據(jù)包括:IT設備功耗、室內(nèi)空調(diào)功耗、機房室外溫濕度、機房尺寸、機房地板架空高度、機柜數(shù)、機房列頭柜功耗、機柜送風風速、機柜進風溫濕度、機柜出風風速、機柜出風溫濕度、分區(qū)空調(diào)出風口溫濕度、分區(qū)空調(diào)回風口溫濕度、空調(diào)機組總能耗等。
目前,Google、阿里、華為等主流云服務企業(yè)已有將AI算法在水冷機組端應用的成功案例[5],但基本集中在一些建設較好、歷史數(shù)據(jù)較久、數(shù)據(jù)維度較為齊全的IDC中,運營商主要依靠廠商解決方案。水冷機房的制冷功耗主要由水冷主機功耗、末端精密空調(diào)功耗、冷卻/冷凍泵功耗與冷卻塔功耗4部分組成。末端機房的精密空調(diào)的功耗占總制冷功耗的30%左右,調(diào)控策略與風冷機房基本類似,其他3部分可以稱之為水冷機組。水冷機組系統(tǒng)復雜,運行參數(shù)眾多,每一部分的功耗都受到多個參數(shù)的影響。
對于水冷機組,可以采集水冷機組的各運行參數(shù)歷史數(shù)據(jù)進行建模,擬合水冷機組總功耗,尋找各參數(shù)與總功耗之間的映射關(guān)系。擬合完成后,可通過隨機游走、遺傳算法等算法,在保證輸出制冷量滿足末端機房負載的前提下,尋找水冷系統(tǒng)運行最優(yōu)參數(shù)[6-7]。
機柜上服務器數(shù)量與發(fā)熱情況是不同的,相對應的出風地板的開度與出風溫度也是不同的。機柜發(fā)熱量對應一個最優(yōu)的送風量,即一個最優(yōu)的出風地板開度。同時,冷卻效率也與送風溫度相關(guān)[8-9]。因此,為了保證機柜的安全,并且不造成空調(diào)出風冷量的浪費,需要尋找機柜出風溫度與出風地板開度、出風溫度的映射關(guān)系。
我們將機柜負載、機柜進風溫度、出風地板開度(風量)、機柜服務器數(shù)量、位置等信息輸入模型,擬合該機柜的出風溫度:
其中,Tout為機柜出風溫度,Tfloor為地板出風溫度,Hfloor為地板出風濕度,Qfloor為地板出風量,P為機柜功率,Nserver為機柜服務器數(shù)量,Tin為機柜進風溫度。如圖1所示,根據(jù)機房采集數(shù)據(jù)及歷史數(shù)據(jù),可以對機柜出風溫度進行預測。圖1采用了隨機森林模型,對出風溫度進行預測。由圖1可以看出,通過模型預測的機柜出風溫度,與實際的機房出風溫度擬合程度較好,平均百分比誤差值(MAPE)最好可以達到0.03%。
同時,通過該模型,可以指定理想機柜出風溫度,為每個機柜尋找一個最優(yōu)的出風地板開度,以達到整個機房的送風效率最優(yōu)化。同時,還可以根據(jù)機架上服務器負載的變化,對出風地板進行動態(tài)調(diào)節(jié)。測量機柜風量,如圖2所示。圖2(a)中不同顏色代表不同的風量值,風量越小越顏色藍,風量越大顏色越紅。某試點機房通風地板總共149塊,共測量145塊通風地板出風量,通風地板風量最小值為241.92 m3/h,風量最大值為5 207.33 m3/h,通風地板平均送風量為2 425.04 m3/h。
圖2(b)表示了機房出風地板的風量分布情況,圖2(c)為機柜的底部出風板開度初始值及根據(jù)模型計算后推薦的調(diào)整值??梢钥闯?,經(jīng)過AI模型的分析,調(diào)整后的出風板配置可以為空調(diào)調(diào)整策略提供對應匹配,以保證在機柜熱點不增加的情況下,通過關(guān)閉不必要開啟的出風板,降低相應機柜對制冷功率的需求。
空調(diào)回風溫度體現(xiàn)了機房內(nèi)設備的總體發(fā)熱情況。由于機房內(nèi)設備負載在動態(tài)變化,氣流組織也在不停變化,空調(diào)的風扇轉(zhuǎn)速也不是恒定的,每個空調(diào)的回風溫度難以通過人工經(jīng)驗進行預測。
假設機柜耗電放出的熱量和機柜的電流呈線性相關(guān),空調(diào)輸出的制冷量和空調(diào)的電流呈線性相關(guān)。機柜耗電放出的熱量和空調(diào)輸出制冷量之間的差值,造成了空調(diào)出風溫度與回風溫度之間的溫度差??山⑷缦聼崞胶夥匠蹋?/p>
▲圖1 機柜出風溫度預測模型
▲圖2 試點IDC機柜出風氣流分析及節(jié)能調(diào)整方案
其中,C為空氣的比熱容,M為空氣質(zhì)量,Δt為空調(diào)出風回風平均溫度差,AC、wi為空調(diào)電流與其對應參數(shù),CAB、ui為機柜電流與其對應參數(shù),m為空調(diào)數(shù)量,n為機柜數(shù)量。通過機房的歷史數(shù)據(jù),對wi、ui進行參數(shù)估計,量化各空調(diào)對機房溫度變化的影響,輔助空調(diào)節(jié)能調(diào)整策略的制定。通過對機房基礎(chǔ)數(shù)據(jù)的分析,可以得到機房溫度和制冷功耗之間的相關(guān)性分析,如圖3所示。總體上,提高機房溫度有助于降低制冷功耗,也進一步驗證了提高機房溫度降低機房耗能的理論依據(jù)。
機房的發(fā)熱量主要來自于機柜的負載。根據(jù)數(shù)據(jù)分析,大部分機柜負載比較穩(wěn)定,在一個負載基線上小范圍周期性波動,只有少部分機柜波動較大,如圖4所示。
圖4中,A、B、C、D、E、F、G、H、I代表不同機柜,橫坐標為測量時間,縱坐標為歸一化電流值??梢钥闯?,不同機柜的電流各不相同,但是電流時間累積的趨勢有相似度;因此可以看出不同機柜內(nèi)業(yè)務呈周期變化。
總的來看,機房整體負載也具有日內(nèi)的周期性。使用長短期記憶網(wǎng)絡(LSTM)、自回歸移動平均模型(ARIMA)等序列預測算法,建立機柜負載預測模型,根據(jù)前24 h的歷史數(shù)據(jù),對未來幾個小時的機柜的負載情況進行預測,服務于未來時刻的節(jié)能策略制定。
在空調(diào)的實時控制層面,空調(diào)既有的比例、積分、微分(PID)溫度控制算法為保證通用性,并未對每個機房進行針對性優(yōu)化,有很大的改進空間?;趶娀瘜W習的控制算法,可以在給定機房系統(tǒng)中進行訓練,尋找當前狀態(tài)下空調(diào)的最優(yōu)調(diào)控決策?;贒QN的空調(diào)實時控制算法描述如圖5所示[10-11]。
▲圖3 機房溫度與制冷功耗相關(guān)性
▲圖4 機柜電流波動示例
根據(jù)圖5,可以看出,狀態(tài)和操作可以用強化訓練模型來擬合,其中狀態(tài)包括機房內(nèi)部溫濕度、室外溫濕度、空調(diào)當前參數(shù);操作包括空調(diào)開關(guān)、風扇轉(zhuǎn)速加減、水閥開度加減等。
其中,Ti為測溫點溫度,Ttarget為理想溫度,Noverheat為過熱點數(shù)量,Ppower為空調(diào)功率(風扇轉(zhuǎn)速),Aon/off為執(zhí)行開關(guān)機操作。神經(jīng)網(wǎng)絡輸入為狀態(tài),神經(jīng)網(wǎng)絡輸出為操作。
基于強化學習算法,可以實現(xiàn)對于機房狀態(tài)的最優(yōu)尋找。通過基于規(guī)則的控制算法,可以實現(xiàn)對于空調(diào)設備參數(shù)的精確控制。在基于規(guī)則的控制算法中,模糊控制算法對于人工經(jīng)驗的捕捉,最為有效。模糊控制概念最早由Lotfi ZADEH[15]提出,主要包括4部分:模糊變量、隸屬函數(shù)、規(guī)則、邏輯運算,如圖6所示。
對于IDC機房節(jié)能場景,模糊變量是IDC機房的輸入和輸出參數(shù),隸屬函數(shù)是捕捉數(shù)據(jù)之間相互關(guān)系的數(shù)學表達,規(guī)則則是人工經(jīng)驗的集合,最終通過邏輯運算,實現(xiàn)控制方法。以下是IDC機房的控制規(guī)則:
(1)如果機房溫度過高,則啟動空調(diào);
(2)如果機房溫度過低,則停止空調(diào);
(3)如果機房IT負載發(fā)熱量高于空調(diào)制冷功率,則開啟空調(diào)。
考慮到嚴重程度,上面的規(guī)則表達可以進行數(shù)學映射。例如圖7所示,需要操作的規(guī)則按照重要程度,可以分為輕度(Minor)、中度(Moder?ate)、嚴重(Severe)。
通過更加細化規(guī)則構(gòu)建,可以完整地表達在某種條件下,需要操作的節(jié)能策略,以及策略需要執(zhí)行的頻率和重要程度。同時,利用IDC歷史數(shù)據(jù),可以對機房預設的規(guī)則進行訓練,從而可以預測出現(xiàn)相應條件下所需要的操作,預測的準確性可以和采集的數(shù)據(jù)作比較。預測所用到的訓練數(shù)據(jù),對于結(jié)果有較大影響,如圖8所示。
由圖8可以看出,圖(a)是由大量的訓練數(shù)據(jù)(超過1萬組)數(shù)據(jù)訓練的控制模型,可以很好地捕捉控制趨勢;圖(c)是由少量的訓練數(shù)據(jù)(2 000組)完成的控制模型,和實際指標偏差較大。因此,控制模型的準確程度,取決于是否有大樣本的輸入數(shù)據(jù)作為模型訓練依據(jù)。
▲圖5 深層Q網(wǎng)絡神經(jīng)算法強化訓練模型
▲圖6 模糊控制系統(tǒng)架構(gòu)
▲圖7 規(guī)則需要執(zhí)行的重要程度
▲圖8 不同訓練數(shù)據(jù)對應控制模型[16]
2017成立的歐洲電信標準化協(xié)會(ETSI)網(wǎng)絡智能化(ENI)工作組發(fā)布的白皮書中,闡述了網(wǎng)絡管理控制運維從人工走向自治的自動化、自優(yōu)化、自治化三步愿景[12].
2019年發(fā)布的電信管理論壇(TMF)自治網(wǎng)絡白皮書中,將網(wǎng)絡從人工運維到完全自治網(wǎng)絡進一步細分為五級,形成網(wǎng)絡自動駕駛分級標準[13]。
參照網(wǎng)絡自動駕駛分級分類,可以對IDC機房進行自動化控制的等級劃分。類似地,從L0到L5,分別對應IDC節(jié)能自動化程度從人工、人工協(xié)助、半自動、有條件自動、高度自動化、完全自動化6個等級。中國電信在IDC智能化分級領(lǐng)域的探索,同時寫入了ETSI ENI分級課題建議中,為后續(xù)運營級IDC智能化節(jié)能的部署提供了參考。
本文通過采集IDC機房數(shù)據(jù)、AI建模,對運營商IDC機房進行畫像。同時,通過深度學習和控制算法,把人工調(diào)節(jié)經(jīng)驗和數(shù)據(jù)分析結(jié)果,通過預設規(guī)則,下發(fā)到機房的控制系統(tǒng)中。通過不斷的學習,AI算法對于IDC節(jié)能的應用將不斷完善。將AI算法應用在IDC機房節(jié)能,使得機房節(jié)能手段更加智能化、精細化,節(jié)能效果明顯。同時,AI算法應用在IDC機房節(jié)能最大的障礙在于機房數(shù)據(jù)質(zhì)量問題,需要通過數(shù)據(jù)采集邏輯、存儲方式、加裝傳感器等方式,從源頭進行改善。此外,在新建IDC機房中,需要注重機房歷史數(shù)據(jù)的采集與存儲,為后期算法優(yōu)化提供良好數(shù)據(jù)基礎(chǔ)。