薛溟楓,毛曉波,肖浩,浦驍威,裴瑋
(1.國網(wǎng)江蘇省電力有限公司無錫供電分公司,江蘇省無錫市 214000;2.中國科學院電工研究所,北京市 100190)
為了推動全球低碳轉型的進程,中國在2020年9月宣布力爭2030年前實現(xiàn)碳達峰,2060年前實現(xiàn)碳中和的目標[1]?!半p碳”目標的提出給碳排放中占比較大的能源電力行業(yè)帶來了新的挑戰(zhàn)[2]。園區(qū)綜合能源系統(tǒng)可以實現(xiàn)電、熱、氣多能源互補,是優(yōu)化能源結構轉型、促進低碳發(fā)展、助力“雙碳”目標實現(xiàn)的重要抓手。面向園區(qū)微電網(wǎng)的建設方向正逐步從“源-源”橫向多能互補系統(tǒng)向“源-網(wǎng)-荷-儲”縱向一體化的綜合能源系統(tǒng)發(fā)展。合理地對園區(qū)綜合能源系統(tǒng)進行能量管理是減小分布式能源(distributed energy resource,DER)波動對電網(wǎng)沖擊、促進可再生能源發(fā)展應用,以及緩解化石能源緊張、減少碳排放的有效途徑。因此,對園區(qū)綜合能源系統(tǒng)配置合理有效的能量管理方法對加速推進低碳綜合能源系統(tǒng)的建設具有重要意義[3]。
目前,針對園區(qū)綜合能源系統(tǒng)群的能量管理和優(yōu)化調(diào)度已有大量研究[4-12],其中主流方法包括以非線性規(guī)劃、二階錐規(guī)劃、混合整數(shù)規(guī)劃等為代表的數(shù)學優(yōu)化類方法以及以遺傳算法、粒子群算法為代表的啟發(fā)式算法。在數(shù)學優(yōu)化方法方面,文獻[12]基于傳熱學原理推導出了熱網(wǎng)潮流的網(wǎng)絡流量-溫度基本方程,并用混合整數(shù)線性規(guī)范的方法解決了冷熱電聯(lián)供系統(tǒng)的優(yōu)化運行問題。文獻[13]提出了一種混合整數(shù)的二階錐優(yōu)化方法,采用二階錐松弛方法將園區(qū)綜合能源系統(tǒng)優(yōu)化模型轉化為具有凸可行域的數(shù)學規(guī)劃形式,使優(yōu)化問題便于求解。上述方法雖然理論清晰,且一定程度能保障解的最優(yōu)性,但此類數(shù)學規(guī)劃模型通常是對供能系統(tǒng)的約束條件做適當簡化,在處理大規(guī)模非線性規(guī)劃問題時具有局限性。在啟發(fā)式算法方面,文獻[14]采用兩階段多目標優(yōu)化方法來設計園區(qū)綜合能源系統(tǒng)的運行方案,第一階段采用多目標粒子群算法優(yōu)化系統(tǒng)的設備類型和容量,第二階段用CPLEX求解器進一步優(yōu)化設備的小時出力,有效提高了園區(qū)綜合能源系統(tǒng)的綜合收益。文獻[15]開展了針對冷熱聯(lián)供分布式供能系統(tǒng)的能量管理研究,借鑒大系統(tǒng)經(jīng)濟調(diào)度優(yōu)化控制方法,將優(yōu)化問題轉化為帶離散變量的非線性規(guī)劃問題,并用遺傳算法進行求解。文獻[16]著眼于園區(qū)綜合能源系統(tǒng)的經(jīng)濟性和環(huán)保性,用粒子群算法(particle swarm optimization,PSO)解決以電為核心的綜合能源系統(tǒng)優(yōu)化調(diào)度模型。上述啟發(fā)式算法雖然求解方便且可以保證在多項式時間內(nèi)給出較優(yōu)的結果,但是求解的結果難以保證解的全局最優(yōu)性。
強化學習技術是近年來新興的一項人工智能技術,其通過馬爾科夫決策過程,使智能體在與環(huán)境的不斷交互中逐漸學習到回報最大的策略,在高難度決策類問題上有較出色的表現(xiàn)[17]。目前不少研究將強化學習應用到了園區(qū)綜合能源系統(tǒng)的決策控制中。文獻[18]將深度策略梯度方法(deep deterministic policy gradient,DDPG)應用于園區(qū)綜合能源系統(tǒng)能源服務商的定價和調(diào)度策略。文獻[19]提出了一種雙層強化學習方法,該方法上層為深度Q網(wǎng)絡(deep Q network,DQN),下層為混合整數(shù)線性規(guī)劃優(yōu)化器,可以解決園區(qū)綜合能源系統(tǒng)中復雜的能源耦合關系。文獻[20]借助貝葉斯神經(jīng)網(wǎng)絡對不確定的學習環(huán)境建模,將綜合能源系統(tǒng)優(yōu)化運行問題轉變?yōu)轳R爾科夫決策問題,并通過深度強化學習算法尋找最優(yōu)運行策略。文獻[21-22]對園區(qū)綜合能源系統(tǒng)中多主體博弈的定價機制、多主體聯(lián)合規(guī)劃方式以及多能源優(yōu)化調(diào)度機制進行了研究,分析了含配電網(wǎng)、配氣網(wǎng)、配熱網(wǎng)和多個能量樞紐組成的園區(qū)綜合能源系統(tǒng)的運行機制,提出了考慮供能網(wǎng)絡安全約束的園區(qū)綜合能源系統(tǒng)多主體運行優(yōu)化方法。但是多主體博弈理論下的能源優(yōu)化調(diào)度會面臨多主體互動機制復雜、智能體動作空間維度龐大的問題,這會導致智能體對動作空間的探索效率低下,算法的穩(wěn)定性不佳,從而易收斂至局部最優(yōu),學習到非最優(yōu)策略。
針對現(xiàn)有工作的不足之處,本文針對多能耦合的多園區(qū)綜合能源系統(tǒng)能量管理問題展開研究,提出一種新型基于改進深度Q網(wǎng)絡(modified deep Q network,MDQN)算法的園區(qū)綜合能源系統(tǒng)能量管理方法。該方法首先通過長短期記憶(long short-term memory,LSTM)網(wǎng)絡對多智能體決策的環(huán)境進行封裝,解決馬爾科夫決策環(huán)境的動態(tài)性問題;其次在訓練智能體階段引入一種優(yōu)先動作采樣的策略來改進DQN算法,解決在大規(guī)模動作空間下的動作探索效率低下的問題,保證智能體在有限的時間內(nèi)學習到最優(yōu)調(diào)度策略。最后通過園區(qū)綜合能源系統(tǒng)群的算例仿真驗證所提方法的有效性與經(jīng)濟性。
本文以包含電力以及熱力的多園區(qū)綜合能源系統(tǒng)為例,其構成如圖1所示。
多園區(qū)綜合能源系統(tǒng)由若干個綜合能源系統(tǒng)以及一個外部綜合能源系統(tǒng)構成。每個園區(qū)綜合能源系統(tǒng)之間可以自由定價、交易,同時也可以與外部綜合能源系統(tǒng)進行交易,但不具備自主定價權。為了保證園區(qū)內(nèi)能源的平衡,將外部綜合能源系統(tǒng)設定為一個無窮大的能源系統(tǒng)。當園區(qū)內(nèi)部總體能源過剩時,外部綜合能源系統(tǒng)可以收購盈余的能源;反之,當園區(qū)內(nèi)部總體能源緊缺時,外部綜合能源系統(tǒng)也可以出售足夠的能源。園區(qū)內(nèi)每個產(chǎn)消者所包含的能源設備包括:微燃機、燃氣鍋爐、分布式儲電設備、分布式儲熱設備、熱負荷以及電負荷,其中電負荷可以分成價格響應型負荷以及恒溫控制型負荷(thermostatically controlled loads,TCL)。
圖1 園區(qū)綜合能源系統(tǒng)總體結構Fig.1 Overall structure of the park-level integrated energy system
分布式儲能元件的儲能動態(tài)過程可以由式(1)來表示:
(1)
式中:Bt∈[0,Bmax]為t時刻存儲在分布式儲能元件中的電能,Bmax為最大儲能能力;ηc、ηd∈[0,1]分別為儲能系統(tǒng)(energy storage system,ESS)的充放電系數(shù);Ct∈[0,Cmax]為t時刻的實時充電功率,Cmax為最大充電功率;Dt∈[0,Dmax]為t時刻的實時放電功率,Dmax為最大放電功率。
同時為了整個綜合能源系統(tǒng)的量綱統(tǒng)一,引入表征分布式儲能元件的能量存儲量荷電狀態(tài)(state-of-charge,SoC)Soc,t的定義:
(2)
SoC反映了每一時刻ESS儲能罐的儲能百分比,同時滿足如式(3)所示的約束:
(3)
式(3)的約束表明任意時間段內(nèi)的儲能都有上下限,同時儲能裝置在每天開始與最終的荷電狀態(tài)相同,確保儲能裝置滿足下一日的園區(qū)綜合能源系統(tǒng)運行需求。
具有熱守恒性質的負荷,如空調(diào)、冰箱、熱水器、熱泵等,都可以視為恒溫控制型負荷。
TCL的溫度動態(tài)過程可以由式(4)來刻畫:
(4)
(5)
(6)
圖2 TCL控制流Fig.2 Diagram of TCL control flow
無法直接被控制,主要由用戶需求影響的負荷稱為價格響應型負荷。這類負荷通常會受到電價的間接影響,其負荷功率平衡方程為:
(7)
(8)
(9)
式中:ωij∈{0,1}為第i個價格響應型負荷在第j個時刻轉移負荷的決策。
價格響應型負荷的ωij與當前的市場價格水平δt及經(jīng)歷過的時間步有關,服從式(10)所示的概率分布:
(10)
(11)
式中:λi∈[0,1]為耐心系數(shù)。
式(11)的概率分布刻畫了負荷轉移的決策機制,即當前市場電價越高,當前時間步距離目標時間步越久,負荷就越不容易轉移。
天然氣燃燒時的高品位熱能做功驅動微燃機發(fā)電,所排出的高溫余熱煙氣經(jīng)溴冷機后用于取暖及供應生活熱水[23]。忽略外界環(huán)境變化對發(fā)電、燃料燃燒效率的影響,微燃機的熱電關系數(shù)學模型為:
(12)
式中:QMT(t)、PMT(t)、ηMT(t)分別為t時段微燃機的排氣余熱量、電功率和發(fā)電效率;ηL為散熱損失率。
(13)
式中:Δt為單位調(diào)度時間;CMT(t)為t時段微燃機的燃料成本;CCH4為天然氣單價;LHVNG為天然氣低熱值。
燃氣鍋爐可以實現(xiàn)電熱轉換并對電熱負荷進行削峰填谷,有利于維護園區(qū)綜合能源系統(tǒng)內(nèi)部的能源供需平衡,其出力模型為:
QEB(t)=PEB(t)ηah
(14)
式中:PEB(t)、QEB(t)分別為t時段蒸汽鍋爐用電和制熱功率;ηah為蒸汽鍋爐的電熱轉換效率。
分布式儲熱罐可對熱負荷進行時段性轉移,緩解園區(qū)內(nèi)電熱負荷與熱電聯(lián)供系統(tǒng)電熱比不匹配的矛盾,進而實現(xiàn)電熱統(tǒng)一協(xié)調(diào)管理,改善園區(qū)綜合能源系統(tǒng)的電熱調(diào)度水平[23],儲熱罐的動態(tài)數(shù)學模型為:
(15)
式中:HHS(t)為t時段儲熱罐儲熱;μ為儲熱罐散熱損失率;QHS_ch(t)、QHS_dis(t)和ηhch、ηhdis分別為t時段的吸放熱功率及吸放熱效率。
多園區(qū)綜合能源系統(tǒng)的能量管理既要考慮熱、電多種能源的隨機性、儲能元件帶來的時序決策耦合性、多能源轉化、存儲的復雜性和多樣性,同時還要考慮其他園區(qū)綜合能源系統(tǒng)可能會采取的策略,因此其決策處在高維空間,給園區(qū)綜合能源系統(tǒng)的實時快速最優(yōu)能量管理帶來巨大挑戰(zhàn)。針對這一難題,本文首先對各園區(qū)綜合能源系統(tǒng)外部互動環(huán)境進行等值封裝建模,有效實現(xiàn)在外部輸入環(huán)境狀態(tài)下估值當前能源交易額的功能,進而將多智能體強化學習環(huán)境問題轉化為單智能體強化學習問題,降低多園區(qū)互動運行的決策復雜度。在此基礎上,針對每個園區(qū)綜合能源系統(tǒng)分別用MDQN方法進行在線學習,提高決策效率,進一步保障多園區(qū)綜合能源系統(tǒng)在多種場景下的實時決策。
對于園區(qū)綜合能源系統(tǒng)群來說,各園區(qū)綜合能源系統(tǒng)能量管理可調(diào)資源除了內(nèi)部的可控機組外,還同時存在與外部各園區(qū)綜合能源系統(tǒng)的互動,而外部各園區(qū)綜合能源系統(tǒng)的互動特性復雜且時變,要實現(xiàn)對各園區(qū)綜合能源系統(tǒng)的有效能量管理,需要首先對外部各園區(qū)綜合能源系統(tǒng)的互動特性精確感知。本文基于LSTM深度網(wǎng)絡對各園區(qū)綜合能源系統(tǒng)外部互動環(huán)境進行等值建模[24]。
為了使封裝模型更具泛化能力,首先查詢各園區(qū)綜合能源系統(tǒng)的歷史能源交易數(shù)據(jù),獲取不同外部激勵下的能源交易信息;接著將外部環(huán)境的時序信息作為輸入特征,將對應的能源交易信息作為輸出標簽送入LSTM神經(jīng)網(wǎng)絡進行訓練。具體的封裝流程如圖3所示。
圖3所示的園區(qū)綜合能源系統(tǒng)封裝模型主要分為2個階段:第一階段是訓練階段,通過海量離線數(shù)據(jù)的輸入,將不同外部激勵下的能源交易額和外部時序特征作為LSTM網(wǎng)絡的輸入,查詢能源交易額作為監(jiān)督學習的標簽;第二階段是預測階段,在訓練完成后可以實時地根據(jù)不同的外部激勵預測出該產(chǎn)消者的能源交易額。
園區(qū)綜合能源系統(tǒng)的能量管理過程可建模為馬爾科夫決策過程(Markov decision process,MDP),本文采用MDQN算法對其進行建模和求解,具體包括狀態(tài)空間S、動作空間A、獎勵函數(shù)R以及衰減系數(shù)γ,記作δMDP={S,A,R,γ}。
圖3 園區(qū)綜合能源系統(tǒng)等值封裝模型Fig.3 Equivalent package model of park-level integrated energy system
3.2.1 狀態(tài)空間
智能體可觀測到的狀態(tài)空間為:
S=SC×SX×ST
(16)
式中:SC表示可控觀測量;SX表示不可控觀測量;ST表示時序信息觀測量。
可控觀測量包括園區(qū)綜合能源系統(tǒng)內(nèi)部分布式儲能狀態(tài)量Soc,t,TCL的狀態(tài)量Sot,t以及市場價格水平δt,可控觀測量為:
SC=[Soc,t,Sot,t,δt]
(17)
(18)
時序信息觀測量包括當前天數(shù)td、當前小時th。
ST=[td,th]
(19)
3.2.2 動作空間
將每個園區(qū)綜合能源系統(tǒng)的控制中心視作一個智能體,其動作空間為一個10維的離散空間。該動作空間主要包括對電能的控制Ae以及對熱能的控制Ah。
A=Ae×Ah
(20)
對電能的控制動作為:
Ae=[atcl,al,ac,aG,ap,as]
(21)
式中:atcl為TCL的控制信號;al為價格響應型電負荷的控制信息;ac為分布式儲能罐的充放電控制信號;aG為燃氣輪機的發(fā)電功率控制信號;ap為電能交易價格控制信號;as為電能交易順序控制信號。
對熱能的控制動作為:
Ah=[ahc,ahG,ahp,ahs]
(22)
式中:ahc為儲熱罐的控制信號;ahG為鍋爐補燃控制信號;ahp為熱能交易價格控制信號;ahs為熱能交易順序控制信號。
3.2.3 獎勵函數(shù)
為了使每個園區(qū)綜合能源系統(tǒng)的能源管理方案負荷自身利益最大化,設計式(23)所示的獎勵函數(shù)Rt:
Rt=St-Ft+Mt
(23)
式中:St為出售能源所獲的收益;Ft為獲得能源的成本;Mt為違反SoC平衡的懲罰項。
St主要來自向園區(qū)內(nèi)部用戶以及其他園區(qū)綜合能源系統(tǒng)出售能源的收益,如式(24)所示:
(24)
獲取能源的成本Ct主要來自分布式能源的發(fā)電、產(chǎn)熱成本以及向其他園區(qū)綜合能源系統(tǒng)的購買成本,如式(25)所示:
(25)
為了滿足每一天開始與結束時的SoC平衡,引入懲罰項Mt,如式(26)所示:
(26)
式中:λ為懲罰系數(shù),在每天的非起始時刻懲罰項始終為0,在每天的最后一個時刻根據(jù)與當天初始時刻的SoC差值確定懲罰項。
3.2.4 MDQN
DQN算法是一種基于值的深度強化學習算法,在狀態(tài)空間連續(xù)的決策類問題中具有較好的表現(xiàn)[25]。傳統(tǒng)DQN方法使用的是ε貪心策略,即每次選擇動作時以1-ε的概率選擇最優(yōu)動作,以ε的概率探索其他動作,ε貪心策略的數(shù)學表達式為:
(27)
式中:π(a|s)表示策略函數(shù),是從狀態(tài)到動作的一種映射;A(s)表示智能體可采取的動作的總數(shù);a*=argmaxaQ(s,a)表示貪心動作。
DQN算法采用的ε貪心策略在小規(guī)模動作空間中有助于遍歷動作空間,平衡策略的探索率與利用率。但是傳統(tǒng)的DQN算法僅適用于低維離散動作空間的強化學習環(huán)境,在面對大規(guī)模離散動作空間時會面臨探索效率低下、收斂速度慢且容易收斂于次優(yōu)解的問題。這是由于在高維離散的動作空間中,傳統(tǒng)的ε貪心策略在采取非貪心策略探索時過于低效,無法有效更新Q值網(wǎng)絡參數(shù)。本文多園區(qū)綜合能源系統(tǒng)能量管理問題中動作空間的維度較高,所有動作的排列組合數(shù)高達125萬個。
為此,本文提出一種針對大規(guī)模離散動作空間下的MDQN算法,其原理如圖4所示。
圖4 MDQN算法原理Fig.4 MDQN method
MDQN的核心思想是在DQN方法的基礎上用k-優(yōu)先采樣策略來代替ε貪心策略。k-優(yōu)先采樣策略的表達式為:
(28)
式中:A*為所有動作價值Q(s,a)中最高的k個動作所構成的集合。
A*={(an1,an2,…,ank)|Q(s,an1)≥Q(s,an2)≥…≥
Q(s,ank)≥?Q(s,ai)∈A}
(29)
MDQN方法在初始階段與DQN相同,首先將當前的狀態(tài)S送入Q網(wǎng)絡,接著計算出所有動作的動作價值函數(shù)Q(s,a)。在動作選擇階段采用如式(28)、(29)所示的k-優(yōu)先采樣策略,先根據(jù)所有動作的Q值挑選出k個最高Q值的候選動作,接著根據(jù)softmax函數(shù)計算出k個候選動作的歸一化得分,最后按照符合歸一化得分的概率分布完成動作的選取。
本文采用圖5所示的園區(qū)綜合能源系統(tǒng)進行算例仿真,該算例由3個互聯(lián)的園區(qū)綜合能源系統(tǒng)構成,并且整體與外部電網(wǎng)和熱管網(wǎng)相連。
不失一般性,本文以園區(qū)綜合能源系統(tǒng)1作為決策主體為例,將其余園區(qū)綜合能源系統(tǒng)用2.1節(jié)所述的方法進行等值封裝。每個園區(qū)綜合能源系統(tǒng)內(nèi)部含有數(shù)量不等的TCL、價格響應型負荷及熱負荷,各園區(qū)內(nèi)部的能源由風電、燃氣輪機以及鍋爐補燃提供,主要參數(shù)見表1。
算法參數(shù)方面,用于園區(qū)綜合能源系統(tǒng)外部互動環(huán)境等值建模的LSTM深度網(wǎng)絡的參數(shù)設置如下:輸入樣本為24 h的熱負荷、電負荷、風電數(shù)據(jù)、光伏數(shù)據(jù)、電能交易價格數(shù)據(jù)以及熱能交易價格數(shù)據(jù),因此輸入數(shù)據(jù)維度為(24,6);經(jīng)過2層含有128個隱藏元的LSTM網(wǎng)絡后,再經(jīng)過256個神經(jīng)元的全連接網(wǎng)絡,最后輸出維度為2的電能交易量以及熱能交易量。MDQN算法超參數(shù)設置方面,其中衰減系數(shù)γ=0.98,懲罰系數(shù)λ=0.25,k優(yōu)先采樣策略的初始k值設定為500且每100個訓練周期(epoch)衰減一次,Q網(wǎng)絡的學習率設置為0.01,Q目標網(wǎng)絡與Q估計網(wǎng)絡之間的更新步長為300個訓練步長。
圖5 園區(qū)綜合能源系統(tǒng)算例仿真結構Fig.5 Simulation structure of the park-level integrated energy system
表1 算例參數(shù)Table 1 Simulation parameters
首先,對園區(qū)綜合能源系統(tǒng)外部互動環(huán)境等值建模的LSTM深度網(wǎng)絡的有效性進行驗證,其中訓練數(shù)據(jù)為10 000天內(nèi)24 h的園區(qū)綜合能源系統(tǒng)歷史決策數(shù)據(jù),訓練集規(guī)模為10 000×24,測試集規(guī)模為200×24。LSTM網(wǎng)絡訓練過程中的訓練集與驗證集損失函數(shù)變化趨勢如圖6所示,從結果來看,LSTM網(wǎng)絡訓練后的準確率保證在98%以上,有效保證了園區(qū)綜合能源系統(tǒng)封裝模型的準確性。
圖6 LSTM網(wǎng)絡損失函數(shù)變化趨勢Fig.6 Trend of loss function of LSTM network
其次,分別采用提出的MDQN與傳統(tǒng)的DQN進行園區(qū)綜合能源系統(tǒng)群能量管理策略的學習求解,得到的MDQN算法與DQN算法訓練過程中的獎勵值對比如圖7所示。
圖7 MDQN與DQN算法的獎勵值對比Fig.7 Comparison of reward values of MDQN and DQN algorithms
從圖7中的獎勵值變化趨勢可以看出,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂特性,其收斂的獎勵值更優(yōu),同時在訓練過程中的獎勵值波動也更小。這是由于傳統(tǒng)DQN算法采用ε貪心策略,在大規(guī)模動作空間中以隨機策略進行探索時效率低下,無法在有限的時間內(nèi)學習到最優(yōu)策略,同時多次隨機的探索導致學習過程中獎勵值的波動較大,算法魯棒性較差;而本文所提MDQN算法采用k優(yōu)先采樣策略,能根據(jù)概率選擇較優(yōu)的候選動作,極大地提高了智能體對動作空間的探索效率,可以保證算法收斂到更優(yōu)的獎勵值,用時采用k優(yōu)先采樣策略避免了對低獎勵值動作的大量訪問,降低了學習過程中獎勵函數(shù)的方差。因此,MDQN算法比傳統(tǒng)DQN算法具有更好的收斂性以及穩(wěn)定性。
在該算例中,MDQN算法獲得的獎勵均值為38.56,DQN算法的獎勵均值為33.67;MDQN算法獲得的獎勵方差為3.22,DQN算法的獎勵方差為8.68。相比DQN算法,MDQN算法獲得的獎勵值提高了14.5%,同時方差降低了62.9%。因此,所提MDQN算法在大規(guī)模動作空間下的表現(xiàn)明顯優(yōu)于傳統(tǒng)DQN算法。
為了進一步驗證本文所提算法在不同場景下的表現(xiàn),對比了DQN與MDQN兩種算法對于園區(qū)綜合能源系統(tǒng)1的能源管理情況,如圖8與圖9所示。
結合圖8(a)以及圖9(a),在算例的前24 h中,風電始終處于匱乏狀態(tài),此時2種智能體都利用燃氣輪機提供大部分電能,并從外界購入少量的電能。但是MDQN智能體比DQN智能體更好地制定了園區(qū)內(nèi)部的電價,有效降低了電能短缺期間的價格響應型負荷的耗電量,保證了園區(qū)的經(jīng)濟效益。在算例的后24 h中,風電為盈余狀態(tài),此時2個智能體給出的決策方案都是減少燃氣輪機的發(fā)電功率,同時適量地向外界出售多余的電能。但是MDQN智能體更傾向于向其他園區(qū)出售電能,DQN智能體選擇降低園區(qū)內(nèi)部市場電價,激勵價格響應型負荷的用電需求。從經(jīng)濟收益上看,外銷型的MDQN智能體比DQN智能體能獲得更高的收益。
圖8(b)以及圖9(b)給出了2種算法對熱能的管理情況,與電能情況不同,園區(qū)綜合能源系統(tǒng)1熱能較為充裕,因此智能體的主要任務是如何出售多余的熱能使利益最大化。從結果中可以看出,DQN智能體只向園區(qū)3和熱管網(wǎng)進行熱能交易,而MDQN智能體減少了對熱管網(wǎng)出售的熱能,增加了向園區(qū)綜合能源系統(tǒng)2出售熱能。在仿真時段內(nèi),園區(qū)3的熱能需求較大,園區(qū)2的熱能需求較小,同時園區(qū)2與園區(qū)3的熱能交易價格高于外部熱管網(wǎng)。因此,MDQN智能體的決策不僅使自身獲得的收益更高,同時促進了不同園區(qū)之間的能源交易。
圖8 DQN智能體的能源管理情況Fig.8 Energy management by DQN agent
圖9 MDQN智能體的能源管理情況Fig.9 Energy management by MDQN agent
MDQN算法與DQN算法在不同天數(shù)中的調(diào)度收益情況對比如圖10所示。從圖10中可以看出,在能源盈余的場景下,MDQN算法可以更好地調(diào)整與其余園區(qū)之間的交易策略從而獲得更高的收益;同時在能源匱缺的場景下,MDQN算法可以通過調(diào)整機組出力以及與其他園區(qū)的能源收購策略,從而以較低的成本滿足園區(qū)內(nèi)部能源的供需平衡。在不同場景中,DQN算法的平均經(jīng)濟收益為18.76美元,MDQN算法的平均經(jīng)濟收益為24.23美元,同比提升了29.16%。因此,MDQN算法無論在何種場景下均可以獲得比DQN算法更高的收益,具有更好的經(jīng)濟性。
綜合以上仿真結果,本文提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以合理實施能源的調(diào)度與分配,在保障用戶需求的基礎上進行削峰填谷,提高園區(qū)綜合能源系統(tǒng)運行的經(jīng)濟性。
圖10 MDQN與DQN算法在不同場景下的收益對比Fig.10 Rewards comparison of MDQN and DQN algorithms in different scenarios
本文針對園區(qū)綜合能源系統(tǒng)群的能量管理問題,為克服傳統(tǒng)數(shù)學類方法在模型近似上的局限性以及進化類算法局限于局部最優(yōu)的缺陷,同時為了應對傳統(tǒng)DQN方法在大規(guī)模離散動作空間上探索效率低下的問題,本文提出了基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法,主要結論如下:
1)提出的基于LSTM網(wǎng)絡的各園區(qū)綜合能源系統(tǒng)外部互動環(huán)境等值封裝模型可以較好地刻畫其余園區(qū)綜合能源系統(tǒng)的能源需求響應特性,保證了馬爾科夫決策環(huán)境的動態(tài)性。
2)提出的MDQN算法相較DQN算法采用了k-優(yōu)先采樣策略,能夠在大規(guī)模動作空間的探索中減少對低獎勵值動作的訪問頻次,減少了學習過程中獎勵值的方差。相比DQN算法,MDQN算法在訓練過程中獲得的平均獎勵值提高了14.5%,同時方差降低了62.9%。因此MDQN算法具有更好的收斂性與穩(wěn)定性。
3)提出的基于MDQN算法的園區(qū)綜合能源系統(tǒng)能量管理方法可以不需要了解園區(qū)設備的詳細參數(shù)信息,在復雜變化的場景中也可以實現(xiàn)熱、電多元能量管理策略的自適應學習進化,提升園區(qū)綜合能源系統(tǒng)運行的經(jīng)濟性。MDQN算法相比傳統(tǒng)DQN算法提升的經(jīng)濟效益可達29.16%。
本文研究中的MDQN算法在面向更大規(guī)模的園區(qū)綜合能源系統(tǒng)能量管理時,由于控制變量的離散化仍會面臨決策維度爆炸增長的問題,如何采用連續(xù)性變量的多智能體強化學習算法對多園區(qū)綜合能源系統(tǒng)的協(xié)同優(yōu)化控制策略進行提升改進將是本文后續(xù)進一步的研究方向。