劉偉民 張炳華 肖羽佳 余興林
(百度公司,北京 100089)
近年來,云計(jì)算和5G相關(guān)技術(shù)正在興起,全球?qū)τ?jì)算、存儲資源的需求逐步增加,數(shù)據(jù)中心作為技術(shù)載體,在新基建政策的扶持下,呈現(xiàn)熱點(diǎn)增長趨勢[1]。隨著數(shù)據(jù)中心朝大型化、高密化方向發(fā)展,其面臨的能耗問題愈發(fā)凸顯。PUE作為綜合考察數(shù)據(jù)中心的用能效率指標(biāo),成為事實(shí)上衡量數(shù)據(jù)中心能效的KPI。以IT負(fù)載8 MW、年均PUE 1.4、電價(jià)0.5元/度的數(shù)據(jù)中心為例,其年總用電量約為1億度,其中基礎(chǔ)設(shè)施消耗電量約為0.28億度,折合電費(fèi)約1400萬元。PUE每降低1%,每年可節(jié)省電費(fèi)約70萬元。因此,降低數(shù)據(jù)中心PUE成為降低成本的關(guān)鍵。
由于制冷與設(shè)備散熱、設(shè)備配置、機(jī)房環(huán)境,大氣條件相互關(guān)聯(lián),在運(yùn)維達(dá)到一定的成熟度后,如果單純憑借硬件節(jié)能或者基于人工經(jīng)驗(yàn)的簡單調(diào)優(yōu),無法滿足能耗進(jìn)一步降低的要求。尋求一種新的控制算法,利用大數(shù)據(jù)、人工智能等高性能科技,以達(dá)到數(shù)據(jù)中心整體能效最優(yōu),成為了數(shù)據(jù)中心行業(yè)致力探索的問題。針對以上需求,近些年國內(nèi)外企業(yè)都進(jìn)行了相關(guān)技術(shù)產(chǎn)品的探索,盡管方式方法可能略有不用,但最終目標(biāo)都是在保證制冷量的前提下,實(shí)現(xiàn)最優(yōu)PUE下的制冷運(yùn)行[2-8]。
本文主要對空調(diào)智能化的AI散熱技術(shù)進(jìn)行研究,先后實(shí)現(xiàn)了IT負(fù)載預(yù)測、濕球溫度預(yù)測、PUE預(yù)測等基礎(chǔ)的數(shù)據(jù)預(yù)測功能;構(gòu)建了冷凍水系統(tǒng)中各制冷設(shè)備的 AI 模型,實(shí)現(xiàn)系統(tǒng)冷源部分AI調(diào)優(yōu)。后期聯(lián)動(dòng)空調(diào)系統(tǒng)末端,實(shí)測整體AI 調(diào)優(yōu),并實(shí)際驗(yàn)證策略可用性達(dá)到90%+。經(jīng)過不斷測試,打通了AI策略下發(fā)至底層制冷設(shè)備的控制鏈路,全自動(dòng)實(shí)時(shí)下發(fā)調(diào)優(yōu)策略,AI直接控制冷水機(jī)組、風(fēng)機(jī)、水泵、閥門等底層設(shè)備運(yùn)行。
數(shù)據(jù)中心空調(diào)AI智能化產(chǎn)品基于數(shù)據(jù)中心智能大數(shù)據(jù)監(jiān)控平臺打造,模型策略基于深度學(xué)習(xí)平臺PaddlePaddle進(jìn)行打磨。整體框架上包括3層:N1數(shù)據(jù)層、N2模型層、N3應(yīng)用層(見圖1)。其中,N1數(shù)據(jù)層進(jìn)行數(shù)據(jù)相關(guān)的采集、清洗、標(biāo)準(zhǔn)化、存儲等工作。N2模型層基于深度學(xué)習(xí)平臺進(jìn)行大數(shù)據(jù)學(xué)習(xí)處理,輸出滿足末端制冷下制冷功率最小的各設(shè)備運(yùn)行狀態(tài),下發(fā)相對應(yīng)的AO/DO命令參數(shù);單純的深度學(xué)習(xí)策略無法滿足數(shù)據(jù)中心對運(yùn)行穩(wěn)定性的要求,因此IDC工程師討論輸出相關(guān)的模型邊界條件及調(diào)優(yōu)邏輯,并匯總形成專家策略對輸出的AO/DO參數(shù)進(jìn)行邊界校驗(yàn),只有滿足條件的策略才能夠被執(zhí)行,當(dāng)策略不達(dá)標(biāo)時(shí),會(huì)進(jìn)行關(guān)聯(lián)標(biāo)記,自動(dòng)觸發(fā)專家?guī)爝M(jìn)行計(jì)算,提供次優(yōu)解進(jìn)行輸出。N3應(yīng)用層主要實(shí)現(xiàn)相關(guān)的歷史運(yùn)行數(shù)據(jù)查詢、命令的手自動(dòng)遙控交互、以及相應(yīng)的運(yùn)行狀態(tài)展示等。
圖1 智能散熱產(chǎn)品整體框架圖
整體來看,數(shù)據(jù)中心AI智能化系統(tǒng)是AI物聯(lián)網(wǎng)技術(shù)在數(shù)據(jù)中心場景下的典型應(yīng)用[9-10]。目前物聯(lián)網(wǎng)從數(shù)據(jù)到遠(yuǎn)端多采用MQQT協(xié)議下的扁平化結(jié)構(gòu)[11],而IDC行業(yè)由于其歷史原因,行業(yè)內(nèi)多為IDC本地動(dòng)環(huán)/BA監(jiān)控+遠(yuǎn)端平臺的架構(gòu),因此在數(shù)據(jù)源的選擇上,行業(yè)內(nèi)習(xí)慣根據(jù)機(jī)房的監(jiān)控架構(gòu)來確定從本地平臺的南北向接口或從末端設(shè)備上進(jìn)行上傳;N1數(shù)據(jù)層的架構(gòu)充分考慮行業(yè)現(xiàn)狀,數(shù)據(jù)源選自本地電力/暖通監(jiān)控平臺的北向上傳接口,通過獨(dú)立采集Agent設(shè)計(jì)、智能清洗、全解耦的標(biāo)準(zhǔn)化資產(chǎn)規(guī)范、以及完整的CMDB和TSDB,實(shí)現(xiàn)了對當(dāng)前IDC多代監(jiān)控架構(gòu)的兼容。在模型上,算法部分基于深度學(xué)習(xí)平臺進(jìn)行二次開發(fā),實(shí)現(xiàn)了AI策略的快速構(gòu)建和模型普適。專家策略部分主要通過對IDC運(yùn)維技術(shù)經(jīng)驗(yàn)進(jìn)行總結(jié)形成;近些年,隨著第三方監(jiān)控廠商技術(shù)產(chǎn)品的不斷成熟,多數(shù)產(chǎn)品已經(jīng)支持了基于專家經(jīng)驗(yàn)的全自動(dòng)運(yùn)行模式,需要說明的是,運(yùn)行的安全性和節(jié)能效果較強(qiáng)依賴于廠商技術(shù)人員的能力和甲方IDC運(yùn)維工程師的經(jīng)驗(yàn)。N3應(yīng)用層相對成熟,主要考量產(chǎn)品的設(shè)計(jì)能力,架構(gòu)上采用的是常規(guī)的Web+APP雙端模式。
數(shù)據(jù)處理按照采集、消費(fèi)、存儲順序執(zhí)行。目前,數(shù)據(jù)中心數(shù)據(jù)采集主要面臨中斷和缺失兩大問題,其根本原因是數(shù)據(jù)中心電力、制冷、監(jiān)控設(shè)備在整個(gè)市場上沒有形成統(tǒng)一標(biāo)準(zhǔn),從而出現(xiàn)了多版本類型、多協(xié)議類型的現(xiàn)象[12],目前行業(yè)內(nèi)主要針對上述問題進(jìn)行解決[13]。
如圖2所示,在采集Agent的設(shè)計(jì)中,針對當(dāng)前IDC的實(shí)際情況,構(gòu)建了以統(tǒng)一協(xié)議棧為主體的多協(xié)議轉(zhuǎn)換模型,針對常用的Socket、C、BACnet等十幾種協(xié)議,統(tǒng)一轉(zhuǎn)換成帶有模型特征的自有協(xié)議,這樣可以在進(jìn)行數(shù)據(jù)采集時(shí),最大程度做到協(xié)議兼容性,將整個(gè)采集過程進(jìn)行產(chǎn)品化處理。另一方面,在數(shù)據(jù)的采集過程中,穩(wěn)定性也是重要考量指標(biāo),目前常規(guī)的做法是通過主備冗余設(shè)計(jì)提升系統(tǒng)可靠能力,但在實(shí)際應(yīng)用中發(fā)現(xiàn),高頻、大數(shù)據(jù)量的采集模式對軟硬件的要求極高,因此通過采集分級的形式降低數(shù)據(jù)的采集頻率,通過按需采集的方式降低數(shù)據(jù)總量;包括調(diào)優(yōu)、預(yù)測、告警等在內(nèi)的要求低延時(shí)的L1級數(shù)據(jù),通常將采集周期設(shè)定到最小,目前AI智能散熱所需要的采集周期支持到5 s級;而類似用電量等對采集周期要求不高的L2數(shù)據(jù),可以采用適當(dāng)降頻的方式進(jìn)行處理,甚至部分用不到的數(shù)據(jù)直接放棄采集。除上述方法,對歷史數(shù)據(jù)的采集也做到了Agent中斷重啟失敗后的數(shù)據(jù)保存,在恢復(fù)正常后依然可以補(bǔ)齊數(shù)據(jù)。
圖2 數(shù)據(jù)處理總體架構(gòu)圖
針對數(shù)據(jù)缺失、不規(guī)范等問題,主要在數(shù)據(jù)消費(fèi)層Kafka完成;通過建立標(biāo)準(zhǔn)的量綱、標(biāo)準(zhǔn)化的數(shù)據(jù)規(guī)范模型來解決數(shù)據(jù)不規(guī)范的問題,要求在落倉前做到統(tǒng)一。而針對數(shù)據(jù)缺失的問題,以專家經(jīng)驗(yàn)為主體的虛擬計(jì)算模型可以很好地處理,通過模板化的配置,對同類型設(shè)備進(jìn)行批量數(shù)據(jù)清洗處理、虛擬計(jì)算實(shí)現(xiàn)了落倉前的標(biāo)準(zhǔn)化。
數(shù)據(jù)中心整體的暖通系統(tǒng)(Heating Ventilation and Air Conditioning, HVAC)結(jié)構(gòu)復(fù)雜,按設(shè)備劃分, 有空調(diào)末端、泵組、冷凍設(shè)備、冷塔等;按季節(jié)和供冷方式劃分,有純板式換熱模式、純冷機(jī)換熱模式、混合換熱模式等;按換熱方向劃分,有冷凍側(cè)、冷卻側(cè)、一次側(cè)、二次側(cè)等。當(dāng)考慮如此龐大的系統(tǒng)時(shí), 一般有部件級建模和整體建模兩種方式?;诓考傩缘膯谓M件機(jī)理建模與控制方式可解釋性強(qiáng),但易導(dǎo)致模型過多,且模型間的串并聯(lián)關(guān)系使得策略求解過程復(fù)雜。而整體建模將暖通系統(tǒng)架構(gòu)與尋優(yōu)策略耦合在一起,易于智能算法的應(yīng)用與強(qiáng)非線性關(guān)系的捕捉,但易導(dǎo)致策略算法的適應(yīng)能力和可遷移能力下降。本文中的AI優(yōu)化算法基于PaddlePaddle模型, 對關(guān)鍵組件進(jìn)行部件建模, 對暖通系統(tǒng)進(jìn)行整體策略尋優(yōu), 實(shí)現(xiàn)了制冷模式下冷源控制策略的優(yōu)化[13-14]。
AI建模與尋優(yōu)的過程,主要包括5個(gè)過程:一是根據(jù)IT功耗,計(jì)算所需的冷凍水側(cè)水流量和冷凍側(cè)出水溫度,建立散熱需求模型;二是根據(jù)室外干濕球溫度、濕度等環(huán)境參數(shù),建立冷卻側(cè)模型;三是按照約束進(jìn)行剪枝,根據(jù)冷凍側(cè)和冷卻側(cè)換熱約束,建立板換散熱性能模型和負(fù)載均衡模型,并對所有策略剪枝處理;四是建立功耗模型,根據(jù)策略生成模型對泵組和風(fēng)扇等用電設(shè)備建立功耗模型;五是選擇滿足約束條件的最優(yōu)功耗下的執(zhí)行策略。
以板換運(yùn)行模式為例,在純板式換熱模式中, 板換作為主要的換熱模塊, 通過熱交換方式, 可降低熱端側(cè)(冷凍側(cè))的水溫, 并供給空調(diào)末端設(shè)備(機(jī)房)低溫水, 以降低空調(diào)末端溫度。圖3為板換模式的熱交換原理,Tc_in為冷端入水溫度,Tc_out為冷端出水溫度,Qc為冷端流量,Th_in為熱端入水溫度,Th_out為熱端出水溫度,Qh為熱端流量。熱端與冷端通過換熱盤管進(jìn)行熱交換。根據(jù)熱力學(xué)原理,可得如下關(guān)系。
圖3 板換模式熱交換
熱端出水溫度模型: 從冷端到熱端, 以Th_out為預(yù)測值,有
Th_out= f1(Tc_in,Tc_out,Th_in,Qc,Qh)
(1)
換熱守恒模型: 即冷端提供的冷量大于等于熱段散掉的熱量,將Qc作為預(yù)測值, 有
Qc= f2(Tc_in,Tc_out,Th_in,Th_out,Qh)
(2)
對數(shù)溫差模型:即當(dāng)自然換熱發(fā)生時(shí),會(huì)滿足一定的約束,如相同溫度的冷熱水不能發(fā)生換熱:
LMTD = f3(Tc_in,Tc_out,Th_in,Qc,Qh)
(3)
利用PaddlePaddle構(gòu)建以上板換模型的非線性子模型, 其中模型(1)為策略生成模型,模型(2)、(3)為約束模型,使用最近一年的數(shù)據(jù)進(jìn)行訓(xùn)練測試,模型實(shí)際運(yùn)行中的準(zhǔn)確率達(dá)到95%以上。
維持機(jī)房溫度恒定是數(shù)據(jù)中心機(jī)房運(yùn)維的重要工作之一,它要求暖通系統(tǒng)的最終供水溫度只有極小的變化空間,通常同一季節(jié)內(nèi)不超過5℃,這對智能化系統(tǒng)的精確性提出了非常高的要求。智能化模型雖然已有很高的準(zhǔn)確率,但由于AI無法保證100%的準(zhǔn)確性,系統(tǒng)還需要有AI之外的策略來保障整體安全,在本系統(tǒng)中此策略為專家邏輯。
本系統(tǒng)中生成策略的模塊有兩個(gè):AI模型和專家策略。相較于準(zhǔn)確推送的AI策略,專家策略節(jié)能效果處于次優(yōu)水平,但能夠保障系統(tǒng)的安全穩(wěn)定運(yùn)行。策略切換模塊是中心管理模塊,其目標(biāo)是在保證系統(tǒng)安全的狀態(tài)下,根據(jù)系統(tǒng)當(dāng)前狀態(tài)從專家策略和AI策略當(dāng)中選擇最優(yōu)策略進(jìn)行推送執(zhí)行。
策略切換的邏輯要點(diǎn)一是指定專家優(yōu)先模式切換為AI優(yōu)先模式的邊界條件,要求AI策略生成、能耗處于最優(yōu),同時(shí)AI模塊保持狀態(tài)可用;二是指定AI優(yōu)先模式切換為專家優(yōu)先模式的邊界條件,要求專家策略滿足運(yùn)行條件,當(dāng)AI優(yōu)先運(yùn)行時(shí),觸發(fā)報(bào)警。
空調(diào)AI智能化技術(shù)產(chǎn)品通過3年左右的整體測試運(yùn)行,經(jīng)歷了人工調(diào)控、AI半自動(dòng)調(diào)控、AI全自動(dòng)調(diào)控的歷程,實(shí)現(xiàn)了全年數(shù)據(jù)中心基礎(chǔ)設(shè)施能耗降低25%,年均PUE由1.17降至1.13。從AI智能散熱技術(shù)應(yīng)用前后的效果對比(見圖4)可以看出,當(dāng)執(zhí)行AI模型推薦調(diào)優(yōu)參數(shù)時(shí),制冷功率降低;當(dāng)取消AI模型轉(zhuǎn)推專家策略時(shí),制冷功率有明顯的升高。
圖4 AI智能散熱技術(shù)應(yīng)用前后效果對比
當(dāng)AI調(diào)控方案實(shí)際落地時(shí), 其面臨的首要問題是適應(yīng)能力。在落地AI策略時(shí), 本文融合了快速構(gòu)建部署思路:一是解耦了HVAC架構(gòu)與設(shè)備數(shù)量,二是解耦了優(yōu)化過程與HVAC架構(gòu)(見圖5)。
圖5 AI模型解耦說明
HVAC系統(tǒng)由不同數(shù)量、不同類型的設(shè)備構(gòu)成,包括板換、冷機(jī)、冷塔等。但無論多么復(fù)雜的暖通系統(tǒng),其最終目的都是將數(shù)據(jù)中心的熱量傳遞出去,將自然中的冷量傳輸進(jìn)來,該過程需要換熱設(shè)備、動(dòng)力設(shè)備和連接設(shè)備。換熱設(shè)備完成熱量交換,動(dòng)力設(shè)備推動(dòng)能量在連接設(shè)備中移動(dòng),連接設(shè)備負(fù)責(zé)換熱設(shè)備的連接(連接設(shè)備一般指管路),實(shí)現(xiàn)能量以熱媒介為載體的流轉(zhuǎn)。本文將HVAC的設(shè)備分成3種,分別構(gòu)建模型對它們進(jìn)行描述,同時(shí)構(gòu)建了一個(gè)設(shè)備模型庫,方便后續(xù)復(fù)用。
在傳統(tǒng)的調(diào)優(yōu)策略中, 優(yōu)化過程強(qiáng)依賴HVAC系統(tǒng)結(jié)構(gòu),沒有對優(yōu)化邏輯進(jìn)行抽象提取。本文將HVAC系統(tǒng)抽象成熱量流圖,由若干設(shè)備構(gòu)成,將換熱和多通設(shè)備作為圖的頂點(diǎn),將連接設(shè)備中的管路作為圖的有向邊,將冷源節(jié)點(diǎn)和熱源節(jié)點(diǎn)作為整張圖的輸入,其中冷源負(fù)責(zé)圖的冷量輸入,熱源負(fù)責(zé)圖的熱量輸入。將圖的優(yōu)化描述為:當(dāng)給定冷源和熱源相關(guān)的環(huán)境參數(shù)時(shí),尋找系統(tǒng)的最小能耗平衡態(tài)。
本文關(guān)于空調(diào)AI智能化技術(shù)的研究,針對性地解決了當(dāng)前整個(gè)行業(yè)內(nèi)存在的數(shù)據(jù)質(zhì)量差、模型準(zhǔn)確度低、存在安全隱患等問題。同時(shí),考慮技術(shù)產(chǎn)品的推廣能力,對行業(yè)內(nèi)關(guān)注的普適性問題做了深入研究。后續(xù)將通過不斷落地進(jìn)行模型精確度的進(jìn)一步提升,為行業(yè)提供成熟的高效智能散熱技術(shù)產(chǎn)品。