董 健, 王海鑫, 周夕然, 高 柳, 楊俊友
(沈陽工業(yè)大學(xué) 電氣工程學(xué)院,遼寧 沈陽 110870)
綜合能源系統(tǒng)(integrated energy system,IES)作為能源互聯(lián)網(wǎng)發(fā)展的重要載體,對于多種能源協(xié)同運行、提高能源利用效率和實現(xiàn)低碳運行起到關(guān)鍵作用[1]。但隨著多種能源耦合加深、風(fēng)光出力的波動性以及多能源需求的不確定性,綜合能源系統(tǒng)優(yōu)化運行面臨巨大挑戰(zhàn)[2]。綜合能源的經(jīng)濟調(diào)度問題是發(fā)展綜合能源系統(tǒng)、提高能源效率的基礎(chǔ)[3,4]。
目前國內(nèi)外對于綜合能源系統(tǒng)經(jīng)濟調(diào)度已有一定研究。文獻[5]針對區(qū)域電熱綜合能源系統(tǒng),利用電鍋爐、儲熱罐和蓄電池建立考慮網(wǎng)絡(luò)傳輸特性的協(xié)調(diào)模型,采用雙λ迭代算法求解。文獻[6]考慮多種類型發(fā)電和儲能約束,建立可再生能源和多能源需求優(yōu)化模型,實現(xiàn)多能源需求綜合利用和協(xié)同優(yōu)化。文獻[7]提出一種基于模型預(yù)測控制(model predictive control, MPC)動態(tài)時間間隔的IES調(diào)度方法。利用MPC中的軌跡偏差、能量及成本控制框架處理調(diào)度時間間隔內(nèi)的需求和約束。上述文獻主要通過建立綜合能源系統(tǒng)物理模型,對優(yōu)化目標(biāo)函數(shù)求解,在一定程度上解決了綜合能源系統(tǒng)優(yōu)化調(diào)度問題。但上述方法局限于固定日前調(diào)度計劃,不能根據(jù)新能源出力與負荷需求的實時動態(tài)變化進行調(diào)整。
在綜合能源系統(tǒng)的低碳運行方面,文獻[8]提出基于碳交易機制的優(yōu)化調(diào)度模型,發(fā)電廠在碳交易市場可自由購買或出售碳配額。結(jié)果表明,考慮碳交易可降低綜合能源系統(tǒng)的運行成本。文獻[9]提出一種考慮電、熱、冷負荷不確定性的低碳電力系統(tǒng)經(jīng)濟調(diào)度方法。文獻[10]建立微型燃氣輪機(micro turbine,MT)和電轉(zhuǎn)氣(power to gas,P2G)機組聯(lián)合使用的優(yōu)化調(diào)度模型,通過場景生成和場景縮減技術(shù)獲得典型負載場景,提高風(fēng)電消納,減少二氧化碳排放。上述文獻雖然能夠?qū)崿F(xiàn)系統(tǒng)的低碳運行,但沒有考慮負荷側(cè)的柔性資源。
近年來,強化學(xué)習(xí)(reinforcement learning,RL)在電力系統(tǒng)的優(yōu)化控制中越來越受到重視[11,12]。文獻[13]提出基于深度強化學(xué)習(xí)的微電網(wǎng)實時能量管理系統(tǒng),微電網(wǎng)能源管理被建模為一個馬爾可夫決策過程(MDP),以最小化日常運營成本為目標(biāo)。同時加入深度前饋神經(jīng)網(wǎng)絡(luò)來逼近最優(yōu)動作值函數(shù),并采用深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。文獻[14]提出了一種基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)的綜合能源系統(tǒng)的優(yōu)化調(diào)度方法,該方法能夠解決連續(xù)動作控制問題,但在求解時容易出現(xiàn)估計值過高問題。上述文獻為深度強化學(xué)習(xí)方法在綜合能源系統(tǒng)的應(yīng)用提供研究基礎(chǔ),通過離散能源系統(tǒng)中連續(xù)的動作進行控制,但控制精度不準(zhǔn)確。
綜上所述,本文提出一種基于A3C的電-氣-熱綜合能源系統(tǒng)優(yōu)化調(diào)度方法。首先,考慮綜合能源系統(tǒng)中電-熱-氣網(wǎng)的運行約束以及能源供需側(cè)的多種不確定性因素,充分利用負荷側(cè)柔性資源,研究在不需建立系統(tǒng)復(fù)雜物理模型的情況下綜合能源系統(tǒng)的低碳經(jīng)濟調(diào)度問題。其次,將優(yōu)化問題描述為馬爾科夫決策過程,建立綜合能源系統(tǒng)環(huán)境模型,設(shè)計智能體的動作空間、狀態(tài)空間和獎勵機制。最后,通過仿真算例分析該方法的收斂能力和穩(wěn)定性,驗證該方法在綜合能源系統(tǒng)低碳經(jīng)濟調(diào)度時的有效性。
綜合能源系統(tǒng)運行優(yōu)化的首要目標(biāo)是在滿足系統(tǒng)安全運行的約束下提升系統(tǒng)經(jīng)濟效益,即在滿足用戶負荷需求的前提下,以最優(yōu)經(jīng)濟運行為目標(biāo),有效調(diào)度各設(shè)備在每個時段的出力[15]。本文研究的IES結(jié)構(gòu)如圖1所示。綜合能源系統(tǒng)中主要包括可再生能源(renewable energy,RE)、MT、P2G、電熱鍋爐(electric boiler,EB)、蓄電池(electricity storage,ES)、儲熱罐(heat storage,HS)和儲氣罐(gas storage,GS)。
(1)燃氣輪機
以天然氣為動力的燃氣輪機是熱電聯(lián)產(chǎn)系統(tǒng)的關(guān)鍵設(shè)備。燃氣輪機數(shù)學(xué)模型如下式所示:
PMT,t=GMT,t·ηMT
(1)
HMT,t=GMT,t·(1-ηMT-ηloss)
(2)
式中:PMT,t和HMT,t分別為燃氣輪機在時段t的電功率和熱功率;GMT,t為燃氣輪機在時段t天然氣的消耗功率;ηMT為燃氣輪機的發(fā)電效率;ηloss為燃氣輪機的能量損失系數(shù)。
(2)P2G數(shù)學(xué)模型
電轉(zhuǎn)氣設(shè)備產(chǎn)生的天然氣量與消耗電功率關(guān)系如式(3)所示:
GP2G,t=ηP2G·PP2G,t
(3)
式中:GP2G,t為P2G設(shè)備在t時刻天然氣輸出功率;ηP2G為P2G設(shè)備轉(zhuǎn)化效率;PP2G,t為P2G設(shè)備在t時刻消耗的電功率。
(3)電熱鍋爐
電熱鍋爐將電能轉(zhuǎn)化為熱能,把水加熱至有壓力的熱水或蒸汽(飽和蒸汽),用于補充燃氣輪機供熱不足時剩余熱負荷需求。其消耗電功率與產(chǎn)生的熱量關(guān)系由式(4)表示。
HEB,t=ηEB·(1-μLoss)·PEB,t
(4)
式中:HEB,t表示電熱鍋爐t時刻輸出的熱功率;PEB,t表示電熱鍋爐t時刻的耗電功率;ηEB表示電熱轉(zhuǎn)換效率;μLoss表示電熱鍋爐熱損失率。
(4)儲能設(shè)備模型
在綜合能源系統(tǒng)中加入各類的儲能設(shè)備可緩解風(fēng)光出力不確定性、平穩(wěn)負荷波動,增加系統(tǒng)運行經(jīng)濟性。儲能設(shè)備數(shù)學(xué)模型如式(5)所示,儲能設(shè)備采取放能操作如式(6)~(7)所示。
(5)
ax,ch,t,ax,disch,t={0,1},?t∈T
(6)
ax,ch,t,ax,disch,t=0,?t∈T
(7)
式中:x為能源類別,其中ES表示蓄電池,GS表示儲氣罐,HS表示儲熱罐;Sx,t+1和Sx,t分別為儲能設(shè)備x在t和t+1時刻的存儲能量;Px,ch,t和Px,disch,t為儲能設(shè)備x在t時刻的充能和放能功率(Px,ch,t≥0,Px,disch,t≤0);Qx為儲能設(shè)備x容量;ηx,ch和ηx,disch是指儲能設(shè)備x的充能和放能效率;Δt為時間間隔;T為調(diào)度總時段;ax,ch,t和ax,disch,t分別為充能和放能的狀態(tài)參數(shù),ax,ch,t=1表示在t時刻儲能設(shè)備采取充能操作,ax,disch,t=1表示在t時刻儲能設(shè)備采取放能操作。
在綜合能源系統(tǒng)中加入綜合需求響應(yīng)有利于實現(xiàn)系統(tǒng)經(jīng)濟運行,提高系統(tǒng)運行的可靠性。用戶參與綜合需求側(cè)響應(yīng)(integrated demand response,IDR)后通過消減、轉(zhuǎn)換能源供給方式將負荷高峰時期的能源需求轉(zhuǎn)移到低負荷用電時段,通過較低電價滿足高峰時期的負荷需求,提高系統(tǒng)運行經(jīng)濟性。
可轉(zhuǎn)移負荷的需求響應(yīng)方式主要為用電高峰時段的電負荷轉(zhuǎn)移到其他時段,轉(zhuǎn)移負荷總量在調(diào)度周期內(nèi)保持不變,如式(8)所示。
(8)
式中:P′Load,t和P′Load,t+υ分別為t時刻和t+υ時刻轉(zhuǎn)移后的電負荷;PLoad,t和PLoad,t+υ分別為t時刻和t+υ時刻轉(zhuǎn)移前的電負荷;PTra,t為從t時刻向t+υ時刻轉(zhuǎn)移的電負荷。
可中斷負荷需滿足的運行條件如式(9)所示。
P′Load,t=PLoad,t-PInt,t
(9)
式中:PInt,t為t時刻中斷的電負荷。
可轉(zhuǎn)換負荷在用電高峰時期將用電需求轉(zhuǎn)為其他能源種類。負荷轉(zhuǎn)換模型如式(10)所示。
PCon,t=φPGGCon,t
(10)
式中:PCon,ta為電網(wǎng)在t時刻轉(zhuǎn)換后減少的電負荷;GCon,ta為氣網(wǎng)在t時刻轉(zhuǎn)換后增加的氣負荷;φPG為負荷轉(zhuǎn)系數(shù)。
本文所提綜合能源系統(tǒng)的優(yōu)化調(diào)度是在保證系統(tǒng)安全運行的條件下,通過協(xié)調(diào)能源轉(zhuǎn)換設(shè)備與儲能設(shè)備的出力,充分利用負荷側(cè)資源。在滿足系統(tǒng)負荷需求的同時減少能源購買成本,節(jié)約系統(tǒng)運行成本。優(yōu)化目標(biāo)函數(shù)如式(11)所示。
F=min(CP+CG+CIDR+CC)
(11)
式中:CP是系統(tǒng)的購電成本;CG是系統(tǒng)的購氣成本;CIDR是IDR的調(diào)用成本;CC為系統(tǒng)碳交易成本。其中,系統(tǒng)的購電成本CP如式(12)所示。
(12)
式中:σP,t為t時刻電價;PE,t為t時刻購電功率。
系統(tǒng)購氣成本CG如式(13)所示。
(13)
式中:σG,t為t時刻購買天然氣的單位熱值價格;GG,t為t時刻的購氣功率。
IDR調(diào)用成本CIDR如式(14)所示:
(14)
式中:aTra、aInt、aCon分別可轉(zhuǎn)移負荷、可中斷負荷和可轉(zhuǎn)換負荷的成本系數(shù)。
碳交易成本CC如式(15)所示。
CC=σCO2(MP,t-MS,t)Δt
(15)
式中:σCO2為碳交易成本系數(shù);MP,t為綜合能源系統(tǒng)在t時段的碳排放量;MS,t為綜合能源系統(tǒng)在t時段的碳配額。其中,MP,t由式(16)計算。
MP,t=(γE,CO2PE,t+γMT,CO2PMT,t)Δt
(16)
式中:γE,CO2和γMT,CO2分別為電網(wǎng)購電和燃氣輪機的碳排放系數(shù)。
(1)系統(tǒng)平衡約束
為滿足運行時各時段電-氣-熱負荷需求,系統(tǒng)平衡約束需滿足以下約束,如式(17)~(19)所示。
(17)
GG,t+GPtG,t+PGS,disch,t-GCHP,t-PGS,ch,t=
GLoad,t+GCon,t
(18)
HCHP,t+HEB,t+PHS,disch,t-PHS,ch,t=HLoad,t
(19)
式中:PE,t為t時刻從電網(wǎng)的購電功率;GG,t為t時刻從氣網(wǎng)的購氣功率;PLoad,t、GLoad,t和HLoad,t分別為t時刻的電負荷、氣負荷和熱負荷。
(2)設(shè)備運行約束
燃氣輪機需滿足功率約束和爬坡約束如式(20)~(21)所示。
(20)
(21)
P2G需滿足功率約束和爬坡約束如式(22)~(23)所示。
(22)
(23)
電加熱爐所滿足的運行約束如式(24)所示。
(24)
儲能設(shè)備需要滿足充放電功率約束以及容量約束由式(25)~(28)表示。
(25)
(26)
(27)
Sx,1=Sx,T
(28)
可轉(zhuǎn)移負荷需滿足約束由式(29)表示。
(29)
可中斷負荷需滿足約束由式(30)表示。
(30)
可轉(zhuǎn)換負荷需滿足約束由式(31)表示。
(31)
本節(jié)首先將綜合能源系統(tǒng)的優(yōu)化調(diào)度問題轉(zhuǎn)換為馬爾科夫決策過程,然后闡述基于Actor-Critic架構(gòu)A3C算法的原理以及訓(xùn)練過程。本文采用基于深度強化學(xué)習(xí)的方法,主要通過數(shù)據(jù)驅(qū)動的方式解決了綜合能源能源系統(tǒng)調(diào)度中的不確定性問題,同時可以準(zhǔn)確適應(yīng)系統(tǒng)源荷動態(tài)變化,實現(xiàn)快速求解。
具體的調(diào)度過程為,在每一優(yōu)化調(diào)度時刻,Agent得到當(dāng)前時刻的狀態(tài)變量主要包括電池的荷電狀態(tài)SES,t、儲氣罐的容量SGS,t、儲熱罐的儲熱量SHS,t、風(fēng)機發(fā)電量Pwind,t、光伏發(fā)電量PPV,t、電負荷PLoad,t、氣負荷GLoad,t、熱負荷HLoad,t以及時刻t,然后Agent計算得到采取當(dāng)前動作時下一時刻狀態(tài)的轉(zhuǎn)移概率和獲得的獎勵。因為Agent得到了不同場景下的大量訓(xùn)練,所以可以做出當(dāng)前時刻下更優(yōu)的調(diào)度決策。
RL主要通過智能體與環(huán)境之間的交互學(xué)習(xí)策略達到控制目的,其學(xué)習(xí)過程本質(zhì)為MDP[21]。MDP的5個基本要素為狀態(tài)空間Σ、動作空間Α、轉(zhuǎn)移函數(shù)Τ、獎勵函數(shù)Ρ和折扣系數(shù)γ。其中,轉(zhuǎn)移函數(shù)描述了給定動作下智能體由狀態(tài)st轉(zhuǎn)變?yōu)閟t+1的概率:T:S×A×S→[0,1],其中S為狀態(tài)st的集合,A為動作at的集合。在本文中,智能體通過調(diào)節(jié)綜合能源系統(tǒng)源荷出力進行最優(yōu)調(diào)度決策。在每個優(yōu)化時刻t,智能體根據(jù)當(dāng)前狀態(tài)st以及策略函數(shù)π在可能的動作集合A中選擇對應(yīng)的動作at,智能體接收到下一個狀態(tài)信息st+1以及獎勵值Rt,然后重復(fù)上述步驟直到優(yōu)化結(jié)束。
(1)狀態(tài)空間
狀態(tài)空間st主要由智能體的觀測狀態(tài)組成,如式(32)所示。狀態(tài)空間主要包括儲能電池的荷電狀態(tài)SES,t、儲氣罐的容量SGS,t、儲熱罐的儲熱量SHS,t、風(fēng)機發(fā)電量Pwind,t、光伏發(fā)電量PPV,t、電負荷PLoad,t、氣負荷GLoad,t、熱負荷HLoad,t以及時刻t。
st=(SES,t,SGS,t,SHS,t,PWind,t,PLoad,t,GLoad,t,
HLoad,t,t)
(32)
(2)動作空間
動作空間主要包括綜合能源系統(tǒng)中智能體需要控制的狀態(tài)變量。智能體的動作空間主要包括燃氣輪機出力PMT,t、電轉(zhuǎn)氣設(shè)備消耗電功率PP2G,t、儲能電池輸出功率PES,t、儲氣罐輸出氣功率GGS,t、儲熱罐輸出熱功率HHS,t、電熱鍋爐消耗電功率PEB,t以及需求響應(yīng)功率,如式(33)所示。
at=(PCHP,t,PPtG,t,PES,t,GGS,t,HHS,t,PEB,t,PTra,t,
PInt,t,Pcon,t)
(33)
(3)獎勵函數(shù)
獎勵函數(shù)為指導(dǎo)智能體在選擇當(dāng)前動作時獲得累計的最大回報。因此本文的獎勵函數(shù)包括綜合能源系統(tǒng)購買能源成本、IDR調(diào)度成本。為加快RL算法收斂獲得更優(yōu)的控制效果,在獎勵函數(shù)中加入智能體動作越限懲罰成本[16]。懲罰函數(shù)在智能體動作超過約束時產(chǎn)生懲罰成本,從而通過訓(xùn)練將智能體動作值約束在指定范圍內(nèi)。
智能體動作越限懲罰成本如式(34)所示。
(34)
式中:ζt為智能體在t時刻的動作懲罰成本;εur,i和εdr,i分別為智能體動作爬坡上限和下限懲罰系數(shù);ai,ur,max、ai,dr,min分別為動作變化率的上、下變化限值;εua,i和εda,i分別為智能體動作爬坡上限和下限懲罰系數(shù);ai,ua,max和ai,da,min為動作變化率的上、下變化限值。強化學(xué)習(xí)智能體獎勵目標(biāo)函數(shù)如式(35)所示。
Rt=-(CP+CG++CIDR+ζt)+r0
(35)
式中:r0為人工設(shè)定常數(shù),保證智能體在學(xué)習(xí)過程中累積回報由負轉(zhuǎn)正,提升模型訓(xùn)練的收斂速度和穩(wěn)定性。
相比傳統(tǒng)Actor-critic算法,A3C算法引入異步學(xué)習(xí)機制[19,20]。各agent在運行前通過pull函數(shù)從Global Network獲取網(wǎng)絡(luò)參數(shù),每個線程的agent單獨與環(huán)境交互并更新參數(shù),Global Network不需進行訓(xùn)練,只存儲Actor-Critic結(jié)構(gòu)參數(shù)?;贏ctor-Critic架構(gòu)的A3C算法主要包含策略函數(shù)(Actor)π(at|st;θ)和狀態(tài)價值函數(shù)(Critic)V(st;ω)。利用神經(jīng)網(wǎng)絡(luò)擬合綜合能源系統(tǒng)優(yōu)化調(diào)度中的源荷不確定性,獲得累計獎勵最優(yōu)策略。
通過A3C算法求解優(yōu)化策略,在每個時刻t,actor根據(jù)策略函數(shù)采取動作at使環(huán)境狀態(tài)從st轉(zhuǎn)換為st+1,并獲得獎勵rt(at,st)。優(yōu)化序列τ,表示為s1,a1,r1,s2,a2,r2,…st,at,rt,…,sT,aT,rT,序列τ所獲得獎勵為每個階段所得獎勵總和,由式(36)表示。
(36)
式中:γ為折扣系數(shù),0≤γ≤1。
在策略為π的情況下,Actor所能獲得期望獎勵由式(37)表示。
(37)
由式(37)可知,通過策略梯度優(yōu)化方法更新策略π,指導(dǎo)Actor采取動作,從而最大化獲取期望獎勵。因此通過求解網(wǎng)絡(luò)參數(shù)θ梯度更新策略π。梯度求解過程如式(38)所示。
(38)
Critic網(wǎng)絡(luò)用價值函數(shù)評估策略價值,用V(st;ω)表示,其中ω為Critic網(wǎng)絡(luò)參數(shù),由式(39)表示。
Vπ(st;ω)=E[R(τ)|st;ω]
(39)
動作價值函數(shù)Qπ(at,st;ω)通過估算每個狀態(tài)-動作尋找最佳策略,如式(40)所示。
Qπ(at,st;ω)=E[R(τ)|at,st;ω]
(40)
優(yōu)勢函數(shù)(Advantage function)Aπ(at,st;ω)表示actor采取動作at時,與平均預(yù)期相比當(dāng)前狀態(tài)st的優(yōu)劣程度。優(yōu)勢函數(shù)如式(41)所示。
Aπ(at,st;ω)=Qπ(at,st;ω)-Vπ(st;ω)
(41)
為加快學(xué)習(xí)過程,A3C算法采用了N步方法,其優(yōu)勢函數(shù)由式(42)表示。
(42)
式中:rt為st狀態(tài)下采取行動時的即時獎勵。
因此,critic網(wǎng)絡(luò)參數(shù)ω訓(xùn)練過程如式(43)、(44)所示。
(43)
ωt+1=ωt+nω▽ωL(ω)
(44)
式中:nω為批評家網(wǎng)絡(luò)學(xué)習(xí)率。
為保證智能體在決策過程中的廣泛性,A3C算法加入策略交叉熵(policy cross entropy,PCE)H(π(at|st;θ))。策略函數(shù)的梯度更新如式(45)、(46)所示。
(45)
θt+1=θt+nθ▽θRθ
(46)
式中:β為正項權(quán)重因子;nθ為actor網(wǎng)絡(luò)學(xué)習(xí)率。
圖2為A3C算法的訓(xùn)練過程。訓(xùn)練開始時隨機初始化Global Network參數(shù),基于pull函數(shù)將Global Network的參數(shù)θ、ω同步到各線程中actor和critic network的參數(shù)θ′、ω′。然后初始化全局計步器T和本地線程計步器t,并在每個episode中優(yōu)化系統(tǒng)設(shè)備的各時段出力,直到循環(huán)結(jié)束。
圖2 A3C算法的訓(xùn)練過程Fig. 2 Training process of A3C algorithm
本文利用Open AI的Gym工具包搭建仿真環(huán)境。計算機硬件配置為英特爾core i7-8700@3.20 GHz,6核12線程,內(nèi)存32 GB,所研究綜合能源系統(tǒng)仿真結(jié)構(gòu)如圖1所示,各設(shè)備參數(shù)如表1所示,分時電價參數(shù)見文獻[15]。A3C算法中Actor網(wǎng)絡(luò)輸入為當(dāng)前時刻的狀態(tài)集合 ,輸出為動作集合 ,隱層數(shù)為3,神經(jīng)元個數(shù)分別200、200、100。Critic網(wǎng)絡(luò)輸入為狀態(tài)集合 和動作集合 ,輸出為動作價值 ,隱層數(shù)為3,神經(jīng)元個數(shù)分別200,100,100,均采用ReLU激活函數(shù)。
表1 綜合能源系統(tǒng)仿真參數(shù)Tab.1 Simulation parameters of integrated energy system
為驗證本文所提方法有效性,以國網(wǎng)遼寧省電力有限公司實際運行數(shù)據(jù)(2021年1月1日至2021年3月31日)為例進行訓(xùn)練。將1月1日至2月28日數(shù)據(jù)作為訓(xùn)練集,3月1日至3月31日作為測試集。負荷數(shù)據(jù)訓(xùn)練結(jié)果如圖3所示。
圖3 負荷訓(xùn)練數(shù)據(jù)Fig. 3 Load training data
A3C算法收斂特性如圖4所示。智能體初始階段獎勵較低,綜合能源系統(tǒng)優(yōu)化策略處于學(xué)習(xí)過程,通過智能體的不斷試錯,根據(jù)回報學(xué)習(xí)更優(yōu)的控制方法。由圖4可知,加入懲罰獎勵能夠幫助智能體快速學(xué)習(xí)更優(yōu)的控制策略,加速算法收斂。算法達到3 600 episode時基本收斂,相比于加入懲罰獎勵前收斂速度提高了21%。
圖4 A3C優(yōu)化算法的訓(xùn)練曲線Fig. 4 Training curve of A3C optimization algorithm
為進一步分析算法訓(xùn)練完后的控制效果,本文選取測試集中3月8日的數(shù)據(jù)進行分析。圖5為不同方法下的綜合能源系統(tǒng)各時段運行成本。考慮綜合需求響應(yīng)后,在07:00~09:00和17:00~20:00電價高峰時段的總成本明顯減少,同時將部分用電需求轉(zhuǎn)移到其他時段。
圖5 綜合能源系統(tǒng)各時段運行成本Fig. 5 Operating cost of integrated energy system
考慮綜合需求響應(yīng)前后系統(tǒng)的日運行成本如表2所示??梢钥闯?考慮綜合需求響應(yīng)后總成本減少了約5.6%,同時系統(tǒng)的夠碳成本降低了8.6%。
表2 綜合能源系統(tǒng)日運行成本Tab.2 Daily operating cost of integrated energy system (元)
圖6為采用本文所提基于A3C綜合能源系統(tǒng)優(yōu)化調(diào)度方法的各設(shè)備出力情況。如圖5所示,23:00至05:00為電網(wǎng)谷電價時段,該時段風(fēng)電出力較高,燃氣輪機不運行。電網(wǎng)側(cè)在滿足電負荷的同時對蓄電池進行充電。在氣網(wǎng)側(cè),通過P2G設(shè)備產(chǎn)生單位天然氣比直接購氣成本低,此時主要通過P2G設(shè)備支撐氣負荷,當(dāng)P2G供能不足時通過購氣支撐。熱網(wǎng)側(cè),由于燃氣輪機停止工作,由電加熱爐供給熱負荷,同時儲熱罐儲熱。
圖6 綜合能源系統(tǒng)優(yōu)化調(diào)度結(jié)果Fig. 6 Scheduling results of integrated energy system optimization
在電網(wǎng)平電價時段(05:00~07:00、09:00~13:00、14:00~17:00和20:00~23:00),燃氣輪機開始運行,并與風(fēng)、光發(fā)電系統(tǒng)、以及外部電網(wǎng)購電滿足電負荷需求,蓄電池根據(jù)當(dāng)前環(huán)境采取充放電操作。例如14:00~17:00時段,該時段風(fēng)光出力較高,蓄電池容量較低,采取充電操作。氣網(wǎng)側(cè)主要通過直接購氣與燃氣輪機滿足氣負荷需求。熱網(wǎng)側(cè),燃氣輪機采取以熱定電模式,主要由燃氣輪機和儲熱罐滿足熱負荷需求。
在電網(wǎng)峰電價時段(07:00~09:00、13:00~14:00和17:00~20:00),燃氣輪機采取以電定熱模式,此時電負荷主要由風(fēng)光出力、燃氣輪機和蓄電池提供,供電不足時向電網(wǎng)購電。由于本文考慮綜合需求響應(yīng),由圖6(a)可以看出,在17:00~20:00時段,通過采取轉(zhuǎn)換、轉(zhuǎn)移和中斷的方式降低負荷需求,進一步減少峰時段購電成本。氣網(wǎng)側(cè)主要通過購氣滿足氣負荷需求,儲氣罐主要作用為平穩(wěn)氣負荷波動。熱網(wǎng)側(cè)熱負荷主要由燃氣輪機提供,多余熱量通過儲熱罐存儲。
為驗證本文所提基于A3C調(diào)度策略的有效性,選用DDPG與DQN算法進行對比分析。DDPG算法中Actor與Critic網(wǎng)絡(luò)隱層數(shù)均為2,神經(jīng)元個數(shù)均為100,激活函數(shù)為ReLU。DDPG算法中,由于DQN不能對連續(xù)動作做出決策需進行離散化處理。將每個動作等分為5個固定值。DQN有兩個隱層,每層神經(jīng)元個數(shù)為200,隱層激活函數(shù)均為ReLU。
三種深度強化學(xué)習(xí)方法在學(xué)習(xí)過程中的獎勵曲線如圖7所示。由于DQN不能實現(xiàn)智能體動作的連續(xù)控制,其收斂時的獎勵值低于DDPG和A3C算法。A3C算法中加入了策略交叉熵,能夠較好描述概率分布的不確定性,具有更好的探索多樣性,因此獲得更高的獎勵值。
圖7 不同算法的獎勵曲線Fig. 7 Award curve of different algorithms
為進一步驗證不同深度強化學(xué)習(xí)方法在解決綜合能源系統(tǒng)經(jīng)濟調(diào)度時的穩(wěn)定性以及泛化能力,從測試集中隨機選取20日的數(shù)據(jù)進行測試。表3為不同算法的日運行成本,從表中可以看出,A3C算法在多天測試中始終保持較好的控制效果,相比于DQN和DDPG方法,日平均運行成本分別降低了8.7%和5.2%。
表3 不同算法的日運行成本Tab.3 Daily operating costs of different algorithms (元)
本文提出一種基于A3C綜合能源系統(tǒng)優(yōu)化調(diào)度策略。該策略不需要建立復(fù)雜的綜合能源系統(tǒng)優(yōu)化物理模型,基于馬爾科夫決策過程實現(xiàn)綜合能源系統(tǒng)優(yōu)化調(diào)度。該方法可有效減少系統(tǒng)求解時間,更快速響應(yīng)負荷波動,能滿足系統(tǒng)實際運行不斷調(diào)整的需求。同時考慮綜合需求響應(yīng),有效減少了綜合能源系統(tǒng)的運行成本,降低了綜合能源系統(tǒng)的碳排放量。所提方法使各設(shè)備出力變化更加平穩(wěn),減小了由源、荷側(cè)預(yù)測誤差引起的系統(tǒng)功率波動,提高了系統(tǒng)運行的可靠性。仿真結(jié)果表明,相比于DQN和DDPG方法,日平均運行成本分別降低了8.7%和5.2%。