孫靜靜,井湯博
(1.亞馬遜通中國(guó)有限公司,廣東中山 528445;2.北京字節(jié)跳動(dòng)網(wǎng)絡(luò)技術(shù)有限公司,北京 100098)
近年來(lái),隨著大數(shù)據(jù)、云計(jì)算和人工智能的迅猛發(fā)展,數(shù)據(jù)中心尤其是超大集群互聯(lián)網(wǎng)數(shù)據(jù)中心迅猛發(fā)展,成為下一代七大“新基建”之一。同時(shí),能源成本的不斷攀升以及人們對(duì)綠色環(huán)保的重視及國(guó)家對(duì)碳中和的承諾,迫使服務(wù)器及數(shù)據(jù)中心節(jié)能需求越來(lái)越強(qiáng)烈。在保證設(shè)備安全、高性能運(yùn)行的前提下,如何提高數(shù)據(jù)中心的能源利用效率,降低電能利用率(power usage effectiveness,以下簡(jiǎn)稱“PUE”)至關(guān)重要。
現(xiàn)有數(shù)據(jù)中心采用制冷設(shè)備上的節(jié)能,如采用高效變頻離心機(jī)或磁懸浮機(jī)組、增大換熱器傳熱效率及采用近端制冷等;同時(shí)在環(huán)境適宜地區(qū),結(jié)合自然冷卻(或免費(fèi)冷卻)將外部的冷量引入機(jī)房。但是,制冷設(shè)備在部署后并未充分且高效運(yùn)轉(zhuǎn),節(jié)能有限,主要原因是不同設(shè)備的控制及運(yùn)行根據(jù)自身的調(diào)控策略,設(shè)備之間及設(shè)備與機(jī)房IT 負(fù)荷和環(huán)境之間并未建立起一個(gè)全局的聯(lián)動(dòng)控制策略。
現(xiàn)有的數(shù)據(jù)中心控制策略一般各個(gè)設(shè)備或者子系統(tǒng)獨(dú)立控制,張春朋[1]通過(guò)專家經(jīng)驗(yàn)對(duì)制冷系統(tǒng)各個(gè)環(huán)節(jié)進(jìn)行了細(xì)致分析,考慮了機(jī)房負(fù)載狀態(tài)、可靠性并兼顧節(jié)能,并應(yīng)用在某機(jī)房中。沈雪紅[2]、李玉街[3]等應(yīng)用冷量動(dòng)態(tài)調(diào)節(jié)技術(shù)等對(duì)數(shù)據(jù)中心空調(diào)系統(tǒng)進(jìn)行實(shí)際改造和節(jié)能分析。這種模型的精度與實(shí)際運(yùn)行存在偏差,經(jīng)驗(yàn)公式的控制優(yōu)化方案存在較大的不確定性且偏差較大,更無(wú)法快速響應(yīng)負(fù)荷和環(huán)境變化;另一種是采用機(jī)器學(xué)習(xí)將大量的制冷系統(tǒng)參數(shù)訓(xùn)練出功耗模型直接模擬PUE 指標(biāo)(比如Google 公司的機(jī)器學(xué)習(xí)模型)。王曼等[4]進(jìn)行了進(jìn)一步摸索,嘗試通過(guò)Lasso 回歸篩選和人工參數(shù)篩據(jù)中心能耗預(yù)測(cè)模型的輸入?yún)?shù),但是沒(méi)有進(jìn)一步說(shuō)明如何優(yōu)化和應(yīng)用,其實(shí)際效果不明確且其特征參數(shù)受到場(chǎng)景影響局限性很大。王曼等進(jìn)行了進(jìn)一步摸索,嘗試通過(guò)Lasso 回歸篩選和人工參數(shù)篩據(jù)中心能耗預(yù)測(cè)模型的輸入?yún)?shù),但是沒(méi)有進(jìn)一步說(shuō)明如何優(yōu)化和應(yīng)用,其實(shí)際效果不明確且其特征參數(shù)受到場(chǎng)景影響局限性很大。
同時(shí),以上算法在節(jié)能的同時(shí),沒(méi)有考慮到數(shù)據(jù)中心SLA(Service Level Agreement 服務(wù)水平協(xié)議)的溫度濕度范圍的要求,導(dǎo)致在實(shí)際運(yùn)行中超出限度,影響業(yè)務(wù)可靠性。
當(dāng)前研究的數(shù)據(jù)中心節(jié)能控制策略都建立在傳統(tǒng)冷凍水系統(tǒng)的模型,很少涉及分布式制冷系統(tǒng),不太匹配目前日益多樣化的多種數(shù)據(jù)中心制冷方案,尤其是目前越來(lái)越多應(yīng)用的分布式制冷技術(shù)。
近年來(lái),互聯(lián)網(wǎng)公司和云計(jì)算服務(wù)商廣泛采用具有快速部署和分期交付能力的分布式AHU(Air Handling Unit)制冷系統(tǒng)。其相比傳統(tǒng)的大型冷凍水制冷系統(tǒng),提高了交付速度,減少管路調(diào)試和施工,同時(shí)也在某些地區(qū)具有更好的節(jié)能潛力,典型的分布式AHU 數(shù)據(jù)中心圖1所示。
圖1 典型的分布式AHU數(shù)據(jù)中心
AHU 其基本組成為:空氣-空氣換熱機(jī)組,送回風(fēng)風(fēng)閥,室內(nèi)及室外循環(huán)風(fēng)機(jī),室外噴淋水泵,以及室內(nèi)側(cè)的補(bǔ)冷系統(tǒng)(一般為DX 蒸汽壓縮循環(huán))。其主要工作模式包括干模式、噴淋模式(又稱濕模式)和混合制冷模式(噴淋模式+DX 補(bǔ)冷)。
傳統(tǒng)的AHU 控制模式,分為單體控制和群控系統(tǒng)控制兩部分。單體控制根據(jù)室外環(huán)境參數(shù)調(diào)整機(jī)組設(shè)定點(diǎn),從而控制不同模式下器件運(yùn)轉(zhuǎn)。
一般來(lái)說(shuō),濕球溫度控制濕/混合模式的切換;而干球溫度則控制干/濕模式的切換。具體的狀態(tài)切換點(diǎn)是根據(jù)大量的實(shí)驗(yàn)室測(cè)試經(jīng)驗(yàn)給出,并內(nèi)置在機(jī)組出廠軟件中。內(nèi)風(fēng)機(jī)根據(jù)室內(nèi)送風(fēng)回風(fēng)的溫差控制;外風(fēng)機(jī)調(diào)控在自然冷卻模式下根據(jù)室內(nèi)送風(fēng)溫度調(diào)節(jié),而在混合模式下,根據(jù)冷凝壓力調(diào)節(jié);壓縮機(jī)調(diào)控則根據(jù)室外濕球溫度經(jīng)驗(yàn)值開(kāi)啟,同時(shí)也要結(jié)合室外風(fēng)機(jī)的功率和壓縮機(jī)功率之和來(lái)判定。
從群控邏輯看,AHU 只是簡(jiǎn)單地共享一組內(nèi)的所有設(shè)定點(diǎn),當(dāng)1臺(tái)/幾臺(tái)出現(xiàn)故障或維護(hù)退出時(shí),其他機(jī)組可自動(dòng)提高制冷輸出滿足需求,具有冗余保障。在實(shí)際的數(shù)據(jù)中心應(yīng)用中,這種默認(rèn)的模式有如下幾個(gè)問(wèn)題。
(1)冷量分區(qū)影響:每個(gè)負(fù)載上架情況均不同,有的高負(fù)載有的未上服務(wù)器;
(2)單機(jī)運(yùn)行條件:考慮到實(shí)際室內(nèi)不均衡的氣流組織和室外側(cè)的局部熱點(diǎn)和風(fēng)向影響,放置在不同區(qū)域AHU 室內(nèi)外側(cè)的進(jìn)風(fēng)溫度各不相同;
(3)單機(jī)總體效率:隨著運(yùn)行維保周期性變化,會(huì)出現(xiàn)換熱器,濾網(wǎng)等臟堵?lián)Q熱效率下降,風(fēng)機(jī)性能衰減等。
實(shí)際應(yīng)用中,系統(tǒng)受負(fù)載、布局、安裝場(chǎng)景和環(huán)境等眾多因素影響,通過(guò)人工經(jīng)驗(yàn)找到最優(yōu)能效點(diǎn)不可實(shí)施,亟須一種機(jī)器學(xué)習(xí)算法技術(shù)實(shí)現(xiàn)自動(dòng)調(diào)優(yōu),發(fā)揮節(jié)能潛力。
為了解決和優(yōu)化上述問(wèn)題,筆者結(jié)合多年IDC架構(gòu)設(shè)計(jì)、產(chǎn)品研發(fā)、實(shí)際運(yùn)行維護(hù)經(jīng)驗(yàn),提出了基于機(jī)器學(xué)習(xí)的數(shù)據(jù)中心AHU 控制系統(tǒng)模型,包括負(fù)荷和環(huán)境預(yù)測(cè)、機(jī)器學(xué)習(xí)模型建立和控制優(yōu)化推薦3個(gè)部分。
通過(guò)專家經(jīng)驗(yàn)分析IT 負(fù)荷和環(huán)境參數(shù)的特征參數(shù),分解出環(huán)境變量和觀測(cè)變量?jī)刹糠?,其中環(huán)境變量是物理上或者其他直接影響擬合變量的特征,比如IT 負(fù)載的大小和變化趨勢(shì)受到業(yè)務(wù)類型(在線業(yè)務(wù)、離線業(yè)務(wù)等影響),服務(wù)器套餐類型(存儲(chǔ)類、計(jì)算類服務(wù)器或者AI 訓(xùn)練類等),服務(wù)器外部進(jìn)風(fēng)溫度(影響服務(wù)器內(nèi)部風(fēng)扇功耗);而觀測(cè)變量則主要是歷史相關(guān)趨勢(shì),包括長(zhǎng)期的趨勢(shì)和近期的趨勢(shì)變化。室外溫濕度的環(huán)境因素則主要是當(dāng)?shù)氐乩砦恢?,結(jié)合長(zhǎng)期和中短期的溫濕度變化趨勢(shì)進(jìn)行機(jī)器學(xué)習(xí)和預(yù)測(cè)。
基于預(yù)測(cè)的IT 負(fù)載率和環(huán)境數(shù)據(jù),結(jié)合IT 實(shí)際部署和AHU 位置分布情況,建立關(guān)鍵參數(shù)的機(jī)器學(xué)習(xí)模型,AI 自動(dòng)調(diào)節(jié)群組內(nèi)AHU 的控制策略。具體實(shí)施步驟如下:
(1)數(shù)據(jù)中心中的動(dòng)力環(huán)境系統(tǒng)集成了大量的溫濕度傳感器和各種電力儀表和AHU 機(jī)組本身運(yùn)行和控制參數(shù),通過(guò)配置的數(shù)據(jù)采集單元進(jìn)行采集,這些原始數(shù)據(jù)上報(bào)給網(wǎng)管系統(tǒng)。
(2)網(wǎng)管系統(tǒng)將實(shí)時(shí)采集的原始數(shù)據(jù)做數(shù)據(jù)清洗后和處理后,保存到數(shù)據(jù)庫(kù)中。
(3)云平臺(tái)從網(wǎng)管系統(tǒng)獲取清洗處理后的數(shù)據(jù),通過(guò)特征工程轉(zhuǎn)換為訓(xùn)練數(shù)據(jù);并使用訓(xùn)練數(shù)據(jù)訓(xùn)練能耗模型,能耗模型在評(píng)估通過(guò)后下發(fā)到網(wǎng)管系統(tǒng)的推理服務(wù)中。
(4)網(wǎng)管系統(tǒng)的推理服務(wù)使用能耗模型和最新采集的數(shù)據(jù)生成最優(yōu)的控制策略,并將控制策略下發(fā)到AHU 機(jī)組控制器。
(5)通過(guò)控制AHU 機(jī)組的運(yùn)行狀態(tài)和工作設(shè)定參數(shù)等,最終達(dá)成綜合能耗降低目的。
3.2.1 數(shù)據(jù)采集
采集AHU 機(jī)組運(yùn)行參數(shù),如風(fēng)機(jī)轉(zhuǎn)速、壓縮機(jī)轉(zhuǎn)速、送風(fēng)溫度等。IT 負(fù)載、機(jī)房?jī)?nèi)部冷熱通道溫度及室外環(huán)境的相關(guān)運(yùn)行數(shù)據(jù),充分采集干模式,濕模式及混合模式3種模式下的多樣化運(yùn)行數(shù)據(jù)。
3.2.2 數(shù)據(jù)治理
利用自動(dòng)化數(shù)據(jù)治理工具,對(duì)采集的運(yùn)行數(shù)據(jù)進(jìn)行識(shí)別、降維、降噪、清洗等處理,生成高質(zhì)量的訓(xùn)練數(shù)據(jù),為后續(xù)的模型訓(xùn)練提供高質(zhì)量數(shù)據(jù)。
3.2.3 特征工程
數(shù)據(jù)和特征決定了AI 算法的上限。利用特征構(gòu)建,對(duì)同類設(shè)備的特征進(jìn)行處理,AHU 系統(tǒng)特征如圖3所示。通過(guò)相關(guān)性分析特征工程以及業(yè)務(wù)領(lǐng)域知識(shí)找出強(qiáng)相關(guān)的關(guān)鍵特征參數(shù),提升模型的效果及模型的可解釋性。
3.2.4 模型訓(xùn)練
使用深度神經(jīng)網(wǎng)絡(luò),完成特征歸一化及能耗模型的創(chuàng)建并對(duì)該模型進(jìn)行反復(fù)訓(xùn)練,避免非凸神經(jīng)網(wǎng)絡(luò)優(yōu)化容易出現(xiàn)的局部參數(shù)最優(yōu)的問(wèn)題,如圖2所示。
圖2 AHU能耗模型關(guān)鍵參數(shù)特征工程
在實(shí)際的優(yōu)化推薦模型中,采用SLA 的要求作為約束,結(jié)合“在線推理”和“尋優(yōu)模式”的多種算法組合給出最佳策略。
3.3.1 在線推理
使用遺傳算法或者貪婪算法等優(yōu)化算法,從所有控制參數(shù)組合的千萬(wàn)種原始制冷策略中找出最符合當(dāng)前IT 負(fù)載、室外環(huán)境,且滿足業(yè)務(wù)保障和服務(wù)器SLA 的組合,并輸出控制參數(shù)組合,將預(yù)測(cè)以及優(yōu)化決策模型發(fā)布到網(wǎng)管系統(tǒng)中,可實(shí)時(shí)在線計(jì)算出當(dāng)前狀態(tài)下最佳控制參數(shù)。
3.3.2 尋優(yōu)模式
尋優(yōu)模式分為穩(wěn)態(tài)尋優(yōu)和非穩(wěn)態(tài)尋優(yōu)。制冷系統(tǒng)在調(diào)節(jié)參數(shù)后達(dá)到穩(wěn)態(tài)需要較長(zhǎng)的時(shí)間,穩(wěn)態(tài)尋優(yōu)的推理模型受限于系統(tǒng)的特點(diǎn)達(dá)到穩(wěn)態(tài)的時(shí)間長(zhǎng)效率低;通過(guò)非穩(wěn)態(tài)尋優(yōu)則可以在系統(tǒng)尚未達(dá)到穩(wěn)態(tài)時(shí)即可進(jìn)行下一輪迭代,縮短系統(tǒng)收斂時(shí)間。
本模型在河北某大型數(shù)據(jù)中心做了實(shí)際的測(cè)試驗(yàn)證,此數(shù)據(jù)中心采用分布式AHU,4個(gè)機(jī)房模組,每個(gè)模組8 MW IT 負(fù)荷,一共32 MW 的IT 負(fù)荷;AHU機(jī)組放置在建筑屋頂,主機(jī)房采用熱通道封閉,AHU送風(fēng)送到房間內(nèi),熱通道則將IT 設(shè)備的熱風(fēng)回到AHU 的回風(fēng)腔,機(jī)房的制冷系統(tǒng)架構(gòu)圖和平面如圖3所示。
圖3 某數(shù)據(jù)中心AHU制冷系統(tǒng)部署和機(jī)柜平面圖(1個(gè)模組)
通過(guò)2021年3月—2022年2月的測(cè)算和統(tǒng)計(jì),采用模組1和模組2綜合對(duì)比傳統(tǒng)AHU 控制和基于機(jī)器學(xué)習(xí)的AHU 控制。因?yàn)檫@兩個(gè)模組均已上架服務(wù)器,且AHU 系統(tǒng)互為獨(dú)立。具備較好的參照價(jià)值。將PUE 分為CLF、PLF 和Other 3 個(gè)部分。PUE 表示為PUE=1+PLF+CLF+other,其中CLF 為Cooling Load Factor,即制冷系統(tǒng)的能耗因子,CLF=制冷系統(tǒng)能耗/IT 負(fù)荷;PLF 為Power Load Factor,即變配電系統(tǒng)的能耗因子,PLF=變配電系統(tǒng)傳輸損失/IT負(fù)荷;Other 即其他部分的能耗與IT 負(fù)荷之比,如辦公室、照明、其他輔助用電等,本文將其合并為一項(xiàng),其值為0.06。
從實(shí)際運(yùn)行和采集結(jié)果可以看到,全年CLF 降低了12 %,其中夏季啟動(dòng)補(bǔ)冷的混合模式下,CLF降低11.4 %,而其他季節(jié)采用完全自然冷卻的干模式和濕模式,CLF 則有15.1 %的降低。全年逐月的模組1和模組2的逐月PUE 曲線對(duì)比如圖4所示。按照一個(gè)8MW 的模組看,考慮年均IT 負(fù)荷率80 %左右,則全年節(jié)電約170萬(wàn)kW·h;電費(fèi)節(jié)省85萬(wàn)元(按照當(dāng)?shù)仉妰r(jià)0.5元/kW·h)。
圖4 河北某數(shù)據(jù)中心月PUE曲線對(duì)比
文章建立了考慮IT 負(fù)荷和環(huán)境預(yù)測(cè)的針對(duì)分布式數(shù)據(jù)中心AHU 制冷系統(tǒng)能耗的機(jī)器學(xué)習(xí)模型,集合數(shù)據(jù)中心IT 設(shè)備實(shí)際需求和SLA 的推薦算法。并應(yīng)用到了實(shí)際的數(shù)據(jù)中心場(chǎng)景中,經(jīng)過(guò)對(duì)比,PUE總體有2 %以上的優(yōu)化,而制冷系統(tǒng)則降低能耗10 %以上。
展望:①進(jìn)一步研究適用氟泵多聯(lián)空調(diào)和液冷等新型的場(chǎng)景的機(jī)器學(xué)習(xí)模型和控制策略;②后續(xù)會(huì)開(kāi)展制冷系統(tǒng)與IT 服務(wù)器內(nèi)部風(fēng)扇聯(lián)動(dòng)的綜合調(diào)控機(jī)制。