摘 要:為了平衡建筑能耗和舒適度,對深度強化學(xué)習(xí)在建筑能源管理系統(tǒng)中的應(yīng)用研究進(jìn)行了回顧。闡述了建筑能源管理系統(tǒng)的重要性和目標(biāo),以及該研究領(lǐng)域傳統(tǒng)控制方法存在的不足。介紹了深度強化學(xué)習(xí)和建筑能源管理的理論基礎(chǔ)以及二者之間的關(guān)系和結(jié)合的可能性。本文重點回顧了深度強化學(xué)習(xí)在建筑能源管理系統(tǒng)(BEMS)不同方面的應(yīng)用研究。根據(jù)現(xiàn)有相關(guān)研究中的局限性,提出了深度強化學(xué)習(xí)在建筑能源管理系統(tǒng)中所面臨的挑戰(zhàn)和潛在的研究方向。本文旨在通過對現(xiàn)有研究的回顧,為未來深度強化學(xué)習(xí)在建筑能源管理系統(tǒng)中的進(jìn)一步應(yīng)用提供一些洞見。
關(guān)鍵詞:強化學(xué)習(xí);深度強化學(xué)習(xí);建筑能源管理系統(tǒng);控制策略
中圖分類號:TP311;TU18 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-5922(2024)11-0135-04
Research on the application of BEMS based on improvedRL/DRL algorithm
MA Bin,GAO Haiyang,ZHENG Xinyi,DUAN Lingli,ZHANG Ruowei
(Nanjing Electric Power Design and Research Institute Co.,Ltd.,Nanjing 210003,China)
Abstract:In order to balance the energy consumption and comfort of buildings,the application of deep reinforce?ment learning in building energy management systems was reviewed. This paper expounds the importance and ob?jectives of building energy management,as well as the limitations of traditional control methods in this researchfield. The theoretical basis of deep reinforcement learning and building energy management,as well as the relation?ship and possibility of combining the two,are introduced. This paper focuses on the application of deep reinforce?ment learning in different aspects of building energy management systems(BEMS). According to the limitations ofexisting related researches,the challenges and potential research directions of deep reinforcement learning in build?ing energy management systems are proposed. The purpose of this paper is to provide some insights for the furtherapplication of deep reinforcement learning in building energy management systems in the future through a review ofexisting research.
Key words:reinforcement learning;deep reinforcement learning;building energy management system;controlStrategiesstrategies
由于氣候問題以及人類對建筑功能要求的增加等原因,建筑能耗呈現(xiàn)急劇增加的趨勢 [1] ,其在總能源消耗中的占比也不斷提升。以2019年為例,全球建筑能耗占總能耗的30% [2] 。按目前的情況來看,未來30年內(nèi),建筑能耗還將增加50%。在大數(shù)據(jù)、強大的計算資源和算法進(jìn)步的支持下,機器學(xué)習(xí)(ML)方法逐漸展現(xiàn)其提升BEMS性能的能力 [3-4] 。作為ML的一個分支,強化學(xué)習(xí)(RL)方法憑借其出色的決策能力,正逐漸被認(rèn)為是一種改進(jìn)BEMS的有效控制方法。相比于傳統(tǒng)的強化學(xué)習(xí),深度強化學(xué)習(xí)方法主要有處理高維數(shù)據(jù)、捕捉復(fù)雜模式、促進(jìn)端到端學(xué)習(xí)以及提高泛化能力的優(yōu)勢。因此,將深度強化學(xué)習(xí)(DRL)應(yīng)用于建筑能源管理系統(tǒng)(BEMS)的優(yōu)化控制可以提高能源利用效率和可持續(xù)性。
目前,有關(guān)DRL在BEMS中應(yīng)用的英文文獻(xiàn)較多,且相對成熟。而國內(nèi)對該領(lǐng)域研究的中文文獻(xiàn)相對較少 [5-7] ,與這方面研究相關(guān)的綜述性文獻(xiàn)更是寥寥無幾 [8] 。因此,本文希望填補這一重要的研究空白。
1 相關(guān)理論基礎(chǔ)
RL屬于機器學(xué)習(xí)的一種,其主要的特點是延遲反饋(Delayed Feedback),圖1顯示了RL與另外2種機器學(xué)習(xí)形式的區(qū)別 [9] 。
在數(shù)學(xué)上,強化學(xué)習(xí)與優(yōu)化控制有一個非常相似的問題結(jié)構(gòu)(如圖2和圖3所示),這也為強化學(xué)習(xí)在BEMS中應(yīng)用提供了基礎(chǔ)。
1. 1 強化學(xué)習(xí)
對RL問題建模的最常見方法是將其作為馬爾科夫決策過程(MDP)。
1. 1. 1 馬爾科夫過程
馬爾科夫過程是一個用于建模決策的離散時間框架。
1. 1. 2 經(jīng)典RL算法
RL算法被廣泛用于解決MDP問題,在一個RL過程中,智能體通過與環(huán)境交互學(xué)習(xí)優(yōu)化它的策略,這里的策略是從狀態(tài)空間到選擇每個可行動作概率的一個映射。RL算法的目標(biāo)是選擇一個策略使得智能體的長期期望回報最大,智能體可以根據(jù)該策略在動態(tài)環(huán)境中采取一系列行動。如何評價策略的好壞是RL中最重要的一步,可以通過狀態(tài)價值來實現(xiàn)對策略的評價。狀態(tài)價值函數(shù)的表達(dá)式見式(1),其也稱為貝爾曼方程。
1. 1. 3 DRL算法
為了使RL算法適用于大規(guī)模和連續(xù)狀態(tài)空間,有人提出將深度學(xué)習(xí)和強化學(xué)習(xí) [10] 結(jié)合,即DRL方法。DRL方法的核心思想是使用深度神經(jīng)網(wǎng)絡(luò)去近似智能體的動作價值函數(shù)或策略(如圖4所示)。
這使得智能體能夠有效地處理高維狀態(tài)空間并學(xué)習(xí)復(fù)雜的任務(wù)決策。
1. 2 建筑能源管理系統(tǒng)
一個常見的BEMS由HVAC系統(tǒng)、電器、電池儲能、電動汽車、可再生能源以及電網(wǎng)這6個部分構(gòu)成,具體如圖5所示。
由圖5可知,BEMS是一個復(fù)雜的優(yōu)化控制問題,而DRL在解決優(yōu)化控制問題方面有著突出的優(yōu)勢。
因此,DRL為BEMS帶來了新的機遇和挑戰(zhàn)。
2 強化學(xué)習(xí)在建筑能源管理中的應(yīng)用
2. 1 經(jīng)典RL算法在BEMS中的應(yīng)用
2017年之前,應(yīng)用于BEMS的主流RL方法有Q-learning 算 法 和 State-Action-Reward-State-Action(SARSA)算法。谷歌旗下的人工智能公司DeepMind在該領(lǐng)域進(jìn)行了開創(chuàng)性的工作,該公司開發(fā)的基于RL方法的能源管理系統(tǒng)為谷歌數(shù)據(jù)中心冷卻系統(tǒng)節(jié)省40%的電費。
傳統(tǒng)的RL方法在處理歷史數(shù)據(jù)或?qū)ㄖ芎倪M(jìn)行連續(xù)控制時,由于計算量過大對高緯狀態(tài)空間的處理非常困難。
2. 2 DRL算法在BEMS中的應(yīng)用
2. 2. 1 HVAC系統(tǒng)
HVAC系統(tǒng)是建筑能耗最高的系統(tǒng)之一,這也使之成為BEMS的核心角色。因此,對于BEMS而言,HVAC系統(tǒng)的優(yōu)化控制問題至關(guān)重要。通過Energy?Plus平臺將深度Q-learning算法用于優(yōu)化控制單個獨立建筑的HVAC系統(tǒng)的運營成本。該系統(tǒng)根據(jù)時間、溫度和環(huán)境干擾來確定空氣流速。將蒙特卡羅Actor-Critic算法與LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合應(yīng)用于HVAC系統(tǒng)控制,與其他方法相比,該方法可以提升 15%環(huán)境舒適度和 2.5%能源效率。當(dāng)要解決HVAC系統(tǒng)中多設(shè)備控制優(yōu)化問題時,Nagarathinam等提出了一種多智能體強化學(xué)習(xí)算法(MARL),該算法可以通過調(diào)整建筑物和制冷機的設(shè)定值,在不犧牲用戶舒適度的情況,最大限度地減少HVAC的能耗。
上述涉及的DRL算法都是無模型的,但在訓(xùn)練一個DRL智能體的過程中存在2個問題:第一,在真實的建筑中,由于可能產(chǎn)生的過高成本,讓DRL智能體完全地探索狀態(tài)空間是不切實際的 [11] 。第二,在現(xiàn)實的環(huán)境中訓(xùn)練,DRL智能體可能需要很長時間才能學(xué)習(xí)到最優(yōu)策略。為了減少對真實的建筑環(huán)境的依賴,根據(jù)在EnergyPlus平臺上觀察到的數(shù)據(jù)開發(fā)了一個建筑能源模型,然后將該模型作為環(huán)境模擬器并基于A3C算法離線訓(xùn)練DRL智能體。該方法減少了DRL智能體在真實HVAC系統(tǒng)中潛在的錯誤探索。使用循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM和歷史數(shù)據(jù)建立了一個環(huán)境模型,該模型的輸入是當(dāng)前狀態(tài)和行動,輸出是下一時刻的狀態(tài)和獎勵。然后使用DDPG算法來訓(xùn)練智能體。
2. 2. 2 多設(shè)備系統(tǒng)
由于HVAC和EWH系統(tǒng)在所有建筑能源子系統(tǒng)中所消耗的能源最多,因此,大部分DRL在BEMS中的應(yīng)用都關(guān)注這2個子系統(tǒng)。然而BEMS的任務(wù)是一個復(fù)雜的問題,需要優(yōu)化控制多個因素,以減少整體建筑能耗。
為了實現(xiàn)不同設(shè)備之間的協(xié)調(diào)控制,學(xué)者們提出了一系列基于DRL的方法來節(jié)約能源成本。提出了一個基于DDPG的家庭能源管理算法,用以最小化家庭能源成本。模擬結(jié)果顯示,該算法可以充分利用動態(tài)電價 [12] ,從而減少8.1%~15.21%的能源成本。對于住宅建筑能源管理而言,除了優(yōu)化能耗這個目標(biāo),還包括用電峰值、變壓器容量限制以及剩余可再生能源收入等目標(biāo) [13] 。Mocanu等將深度Q學(xué)習(xí)(DQL)和深度策略梯度(DPG)算法用于優(yōu)化由HVAC系統(tǒng)、EVs、以及家用電器組成的能源系統(tǒng)的成本和峰值荷載。模擬結(jié)果顯示,這2種DRL方法分別可以減少14.1%和27.4%的能源成本。上述方法中沒有考慮變壓器容量等物理約束,荷載超過變壓器容量會對變壓器的使用壽命有不利影響。為了彌補這一不足,開發(fā)了一個系統(tǒng)多智能的DRL方法,該方法在不超過變壓器容量的情況下可以減少59.77%的能源成本。與住宅建筑相比,商業(yè)建筑的能源管理在規(guī)模、功能以及使用者行為方面都存在較大差異?,F(xiàn)有研究表明,對于更加復(fù)雜的商業(yè)建筑,協(xié)調(diào)控制HVAC系統(tǒng)和其他能源子系統(tǒng)更加能夠減少建筑能耗 [14] 。通過合理協(xié)調(diào)控制各設(shè)備的運行,即使在保持舒適度不變的情況下也可以節(jié)約相當(dāng)可觀的建筑能源成本。
2. 2. 3 電網(wǎng)與可再生能源
作為BEMS的一部分,DRL在電網(wǎng)中的應(yīng)用也得到學(xué)者們的廣泛關(guān)注。尤其是在目前光伏發(fā)電等可再生能源不斷普及的情況下,BEMS中的電網(wǎng)運營日益復(fù)雜。本小節(jié)將回顧DRL方法在住宅微型電網(wǎng)優(yōu)化控制中的應(yīng)用。住宅微型電網(wǎng)是指為一組家庭或單個建筑提供服務(wù)的局部能源系統(tǒng),該系統(tǒng)旨在為居民提供更可靠、高效和可持續(xù)的能源解決方案。在考慮可再生能源和能源共享的情況下,將一個多智能體DRL方法應(yīng)用于家庭社區(qū)能源優(yōu)化控制,以實現(xiàn)整個社區(qū)的能源成本最優(yōu)化。Dominguez-Barbero等分別就不確定情況下的電網(wǎng)實時調(diào)度問題和電力不足情況下的發(fā)電成本優(yōu)化問題提出了基于DQN算法的解決方案 [15-16] 。
上述研究都將建筑荷載視為微電網(wǎng)中一種不可控制資源,這顯然與實際不相符。因此,許多研究提出可以通過靈活調(diào)度建筑荷載以降低微電網(wǎng)的能源成本。為一個配有可再生能源的數(shù)據(jù)中心微電網(wǎng)開發(fā)了一個基于DDPG算法的解決方案,該方法通過靈活選擇執(zhí)行時間和服務(wù)荷載以降低建筑能耗??梢园l(fā)現(xiàn),現(xiàn)有研究主要關(guān)注DRL方法能夠為建筑微電網(wǎng)運營帶來的經(jīng)濟(jì)效益。然而大多數(shù)研究都忽視了對建筑荷載的控制 [17-18] ,因此在實際應(yīng)用中可能較難落地。
3 結(jié)語
本文對DRL算法在BEMS中應(yīng)用的研究進(jìn)行了回顧。介紹了BEMS的重要性、目標(biāo)以及該領(lǐng)域使用的一些傳統(tǒng)控制優(yōu)化策略。對介紹了DRL算法和BE?MS的理論基礎(chǔ)以及兩者之間的關(guān)聯(lián)性。重點回顧了已有研究對DRL在BEMS不同方面的應(yīng)用。分析表明,DRL算法具有提升BEMS效率、可持續(xù)性和經(jīng)濟(jì)性的潛力。通過與環(huán)境不斷交互,智能體能夠?qū)W習(xí)最優(yōu)控制策略,這使得建筑能夠根據(jù)不斷變化的條件和目標(biāo)動態(tài)調(diào)整和優(yōu)化能耗。這種方法不僅改善了建筑的運行性能,還有助于減少溫室氣體排放。
【參考文獻(xiàn)】
[1] 郭陽陽,文雯. 氣候變化對建筑能耗影響研究進(jìn)展[J]. 建筑經(jīng)濟(jì),2022,43(S2):343-348.
[2] 王志強,田琦. 新型保溫卷簾節(jié)能窗的建筑能耗分析[J].新型建筑材料,2021,48(5):104-108.
[3] 張潮,冷伏海. 機器學(xué)習(xí)輔助智能決策分析 — —以“綠色創(chuàng)新”問題為例[J]. 科研管理,2022,43(9):32-40.
[4] 蔡玲嘉. 基于SVM機器學(xué)習(xí)技術(shù)的企業(yè)智能化審計建模優(yōu)化[J]. 粘接,2023,50(5):139-142.
[5] 郭茂祖,王鵬躍,曹印庚,等. 基于深度強化學(xué)習(xí)的多場景高層住宅自動布局方法 [J]. 建筑科學(xué),2022,38(12):34-42.
[6] 秦浩森,于震,李太祿,等. 基于深度強化學(xué)習(xí)的熱泵供熱系統(tǒng)節(jié)能控制[J]. 建筑科學(xué),2022,38(12):1-6.
[7] 孫澄宇,宋小冬. 深度強化學(xué)習(xí):高層建筑群自動布局新途徑[J]. 城市規(guī)劃學(xué)刊,2019, (4):102-8.
[8] 龍惟定. 人工智能技術(shù)在建筑能源管理中的應(yīng)用場景[J].建筑科學(xué),2021,37(2):127-36.
[9] WANG Z,HONG T. Reinforcement learning for buildingcontrols:The opportunities and challenges [J]. Applied En?ergy,2020,269(3):115036. 1-115036.18.
[10] 俞虹,程文美,代洲,等. 基于強化學(xué)習(xí)的電力系統(tǒng)應(yīng)急物資倉儲控制算法[J]. 粘接,2021,48(11):173-178.
[11] 徐誠,殷楠,段世紅,等. 基于獎勵濾波信用分配的多智能體深度強化學(xué)習(xí)算法[J]. 計算機學(xué)報,2022,45(11):2306-2320.
[12] PEIRELINCK T,HERMANS C,SPIESSENS F,et al. Do?main randomization for demand response of an electricwater heater [J]. IEEE Transactions on Smart Grid,2020,12(2):1370-1379.
[13] 王項南,麻常雷. “雙碳”目標(biāo)下海洋可再生能源資源開發(fā)利用[J]. 華電技術(shù),2021,43(11):91-96.
[14] 付川琪,劉清惓,楊杰,等.基于CFD仿真和SVM算法的建筑能耗預(yù)測系統(tǒng)[J].現(xiàn)代電子技術(shù),2022,45 (8):75-79.
[15] 唐鶴,陳錦榮. 考慮線路運行狀態(tài)的智能電網(wǎng)調(diào)度自適應(yīng)控制研究[J]. 電網(wǎng)與清潔能源,2022,38(1):82-88.
[16] 高宇,李昀,曹蓉蓉,等. 基于多代理Double DQN算法模擬發(fā)電側(cè)競價行為[J]. 電網(wǎng)技術(shù),2020,44(11):4175-4183.
[17] 楊慶山,單文姍,田村幸雄,等. 高層建筑脈動風(fēng)荷載特性[J]. 土木工程學(xué)報,2023,56(5):1-17.
[18] 李智,丁然,聶鑫,等. 標(biāo)準(zhǔn)化立式工業(yè)建筑樓面活荷載取值[J]. 建筑結(jié)構(gòu)學(xué)報,2023,44(3):268-278.