張宏濤,吳怡之,鄧開連,張 磊
(東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620)
微電網(wǎng)是由可再生能源、儲能系統(tǒng)以及可在孤島或并網(wǎng)模式下運行的負載組成的獨立電網(wǎng)集群,其中,可再生能源發(fā)電和儲能系統(tǒng)作為推動能源行業(yè)可持續(xù)發(fā)展、滿足快速增長能源需求的關(guān)鍵解決方案,是未來電力基礎(chǔ)設(shè)施建設(shè)中的關(guān)鍵技術(shù)。然而,可再生能源發(fā)電具有間歇性和波動性, 對微電網(wǎng)運營的可靠性、經(jīng)濟性帶來了重大挑戰(zhàn)[1-3]。服務(wù)供應(yīng)商(Service Provider, SP)通過調(diào)度儲能系統(tǒng),能夠利用能源價格波動,在需求低迷時期購買相對便宜的能源,并在需求高漲時高價出售來產(chǎn)生利潤[4-6]。隨著更多本地可再生能源發(fā)電機投入使用,供應(yīng)商能夠以由公用事業(yè)公司控制的動態(tài)價格將能源賣回給公用事業(yè)公司,利用分布式可再生能源發(fā)電提高電網(wǎng)運營的穩(wěn)定性和可靠性。
近年來,不少研究者優(yōu)化了微電網(wǎng)能量管理中的運營成本。Zhong等[7]提出一種基于動態(tài)規(guī)劃(Dynamic Programming, DP)的分布式優(yōu)化算法,能夠在無需與外界進行信息交換的條件下,對儲能共享系統(tǒng)實施在線能量管理與運營成本優(yōu)化。Hafiz等[8]提出一種基于預(yù)測文件的DP算法,可以減少微電網(wǎng)運營成本,對各分布式單元進行實時控制。Li等[9]提出一種基于李雅普諾夫優(yōu)化(Lyapunov Optimization, LO)的負載調(diào)度和儲能控制算法,提升電網(wǎng)高頻能量調(diào)度下的儲能利用率。Zhang等[10]提出一種基于在線競爭的能量管理算法,優(yōu)化微電網(wǎng)場景下的運營成本與服務(wù)質(zhì)量(Quality of Service, QoS)。上述工作只考慮了電網(wǎng)層面的運營成本,提出的數(shù)學(xué)模型與相關(guān)算法難以應(yīng)用于實際微電網(wǎng)場景下的長期能量調(diào)度。
本文的主要貢獻如下:
(1)對微電網(wǎng)能源管理進行理論建模,將長期優(yōu)化問題轉(zhuǎn)化為馬爾可夫決策過程,通過調(diào)度儲能裝置優(yōu)化能量管理系統(tǒng)(Energy Management System, EMS)的運營利潤。
(2)引入強化學(xué)習(xí)算法,建立狀態(tài)空間,充放電動作和獎勵函數(shù),通過ε-貪婪策略探索當(dāng)前環(huán)境得出最優(yōu)能量調(diào)度策略。
(3)通過實驗仿真,對比所提算法在運營利潤上的性能增益。
實現(xiàn)微電網(wǎng)的經(jīng)濟調(diào)度和穩(wěn)定運行是微電網(wǎng)能量管理的主要目標(biāo)。本文所述微電網(wǎng)能量管理系統(tǒng)采用并網(wǎng)運行方式為本地負載提供能量,微電網(wǎng)EMS內(nèi)包含可再生能源發(fā)電單元、儲能系統(tǒng)、電動汽車負荷與建筑負荷。微電網(wǎng)EMS可與常規(guī)電網(wǎng)相連進行雙向能量交換,如圖1所示。其中,可再生能源發(fā)電單元作為供給側(cè),建筑負荷與電動汽車負荷構(gòu)成需求側(cè)。在考慮可再生能源發(fā)電、實時電價、實時負荷的不確定性情況下,綜合考量儲能系統(tǒng)充放電與從常規(guī)電網(wǎng)購電的經(jīng)濟性,建立了并網(wǎng)運行模式下微電網(wǎng)EMS優(yōu)化調(diào)度模型。
圖1 微電網(wǎng)EMS優(yōu)化調(diào)度模型
微電網(wǎng)EMS優(yōu)化調(diào)度的目標(biāo)是在滿足各個分布式單元運行約束、負荷需求和供需平衡的限制下,實現(xiàn)系統(tǒng)運營利潤最高。根據(jù)微電網(wǎng)EMS運行狀況可知,約束如下:
(1)可再生能源發(fā)電約束
微電網(wǎng)中可再生能源發(fā)電單元受技術(shù)、氣候條件限制,需滿足自身發(fā)電出力約束;同時,在任意時間段內(nèi)滿足優(yōu)先供給本地負載。發(fā)電出力約束和供給約束分別表示為:
式中,N(t)為t時段可再生能源發(fā)電單元的輸出能量;Nmin和Nmax分別為t時段可再生能源發(fā)電單元的最小、最大輸出能量;min{}運算表示兩者取??;G(t)為t時段本地負載總能量需求;Ns(t)為t時段供給本地負載的可再生能源發(fā)電單元輸出能量。
t時段剩余的可再生能源發(fā)電單元輸出能量Nw(t)為:
式中,剩余能量Nw(t)通過雙邊能量流動回售給常規(guī)電網(wǎng)。
(2)儲能系統(tǒng)運行約束
儲能系統(tǒng)需滿足其自身的容量限制,充放電出力約束和能量平衡約束。充放電出力約束分別表示為:
式中:Fc(t)和Fd(t)分別為t時段儲能系統(tǒng)充電輸入能量、放電輸出能量;Fcmax為t時段儲能系統(tǒng)最大充電輸入能量;為t時段儲能系統(tǒng)最大放電輸出能量。由于電池物理特性,充、放電操作無法同時進行,可表示為:
定義儲能系統(tǒng)能量狀態(tài)[11](State of Energy, SoE),需滿足容量約束:
式中:SoE(t)為t時段儲能系統(tǒng)的能量狀態(tài);Ec為儲能系統(tǒng)的額定容量;ζ(t)為t時段儲能系統(tǒng)的荷電狀態(tài)(State of Charge, SoC);ζmax和ζmin分別為儲能系統(tǒng)荷電狀態(tài)最大值和最小值。
儲能系統(tǒng)滿足能量平衡約束:
式中:SoE(t+1)為t+1時段儲能系統(tǒng)的能量狀態(tài);ηch和ηdis分別為充放電的能量轉(zhuǎn)換效率。
(3)購電售電定價約束
服務(wù)供應(yīng)商通過購電價格從常規(guī)電網(wǎng)側(cè)購電,通過售電價格向本地負載出售能源來獲利,購電價格由公用事業(yè)公司在t時段開始前公布;服務(wù)供應(yīng)商通過回售價格將t時段剩余的可再生能源發(fā)電單元輸出能量Nw(t)回售給常規(guī)電網(wǎng)。
購電價格、售電價格和回售價格需滿足定價約束:
式中:Pb(t)為t時段購電價格;Ps(t)為t時段售電價格;Pw(t)為t時段回售價格;α1為售電折扣參數(shù);α2為回售折扣參數(shù);Pbmax和Pbmin為購電價格的上下限。
(4)供需能量平衡約束
在任意調(diào)度時間內(nèi),模型都必須滿足微電網(wǎng)EMS內(nèi)部的供需能量平衡約束:
式中:C(t)為t時段從常規(guī)電網(wǎng)購入用于滿足本地負載的電能;Gb(t)為t時段的建筑負荷;Gev(t)為t時段的電動汽車負荷。
本節(jié)提出將最大化微電網(wǎng)EMS運營利潤,最小化電池退化成本作為聯(lián)合優(yōu)化目標(biāo),系統(tǒng)運營凈利潤定義為:
結(jié)合式(18)可知,假設(shè)系統(tǒng)運行T個時段,優(yōu)化問題可以表示為:
由于微電網(wǎng)EMS環(huán)境狀態(tài)時刻變化,式(20)定義的聯(lián)合優(yōu)化問題難以直接求得最優(yōu)解。下節(jié)引入強化學(xué)習(xí)中的Q學(xué)習(xí)算法,對最優(yōu)解進行全局探索,使結(jié)果逼近最優(yōu)解。
本節(jié)提出了Q學(xué)習(xí)能量調(diào)度算法,將強化學(xué)習(xí)用于微電網(wǎng)場景下的能量調(diào)度問題。儲能系統(tǒng)與微電網(wǎng)環(huán)境實時交互,得出當(dāng)前環(huán)境下的最優(yōu)決策。該算法能夠在減少電池退化成本的同時,提高運營利潤。
本系統(tǒng)中儲能系統(tǒng)觀察到的狀態(tài)為微電網(wǎng)EMS在t時刻接收到的實時信息,t時刻系統(tǒng)的狀態(tài)st∈S為:
式中:Pb(t)代表t時刻的電價;G(t)代表t時刻的本地負載;ζ(t)代表t時刻的電池荷電狀態(tài);Ns(t)為t時段供給本地負載的可再生能源發(fā)電單元輸出能量。
根據(jù)式(4)~式(6)中充放電動作的大小范圍和約束,本文設(shè)計出了一組離散的動作空間at∈A。
儲能系統(tǒng)在執(zhí)行完充放電動作后,從微電網(wǎng)EMS環(huán)境中得到瞬時獎勵Rt:
式中:U(t)為t時刻系統(tǒng)運營凈利潤;V(t)為t時刻電池退化成本;β為懲罰參數(shù)。ζ(t)∈(0.1,0.9)表示微電網(wǎng)EMS滿足約束式(8),在電池荷電狀態(tài)安全條件下運行;U(t)越大且V(t)越小時,儲能系統(tǒng)得到的獎勵值越高。ζ(t)小于0.1或大于0.9時,電池荷電狀態(tài)處于過載、危險運行狀態(tài),相應(yīng)的回報函數(shù)為負值。
建立運營利潤-退化成本聯(lián)合優(yōu)化的Q學(xué)習(xí)模型。Q值采用貝爾曼方程進行更新,即使用后繼狀態(tài)最大Q值估計當(dāng)前Q值,經(jīng)過不斷迭代,使Q值趨于最優(yōu),從而得出最優(yōu)策略:
式中:α∈(0,1)為學(xué)習(xí)率,γ為折扣參數(shù);過去的工作[12-15]證明,在馬爾可夫決策過程中,若狀態(tài)空間與動作空間是離散的,動作價值函數(shù)Q(st,at)經(jīng)過無數(shù)次迭代會收斂到最優(yōu)值Qπ*(s, a),通過不斷學(xué)習(xí)更大的Q值,儲能系統(tǒng)能得到最優(yōu)動作at*∈A。
為了使儲能系統(tǒng)能夠探索到最優(yōu)動作,智能體需要兼顧已有經(jīng)驗,利用和探索未知動作兩個過程,以保證在每個狀態(tài)下,每個動作都有被選中的可能。Q學(xué)習(xí)法采用ε-貪婪策略來選擇動作,同時用來平衡利用和探索的過程:
式中:X是一個從0到1的隨機數(shù),用來選擇動作;ε為貪婪值;儲能系統(tǒng)以1-ε的概率選擇Q值最高的動作進行利用;以ε的概率隨機選擇動作進行探索。在Q學(xué)習(xí)初始階段,儲能系統(tǒng)未得出有效調(diào)度策略,Q(st, at)大部分?jǐn)?shù)值為零,智能體偏向探索;隨著學(xué)習(xí)的不斷進行,Q(st, at)將不斷變大直至收斂,從而得出最佳調(diào)度策略πt。
由于傳統(tǒng)能量管理沒有考慮儲能系統(tǒng)接入、實時電價、可再生能源輸出能量等因素,在面對現(xiàn)實環(huán)境時,算法性能隨著預(yù)測不確定性的提高而不斷下降,因此本文引入了在人工智能領(lǐng)域得到廣泛應(yīng)用的強化學(xué)習(xí)算法,該算法通過學(xué)習(xí)狀態(tài)量的變化趨勢來對決策值進行實時更新,相比傳統(tǒng)能量管理算法具有更強的魯棒性。Q學(xué)習(xí)調(diào)度算法將儲能系統(tǒng)作為智能體,通過調(diào)度電池中的能量,來獲得微電網(wǎng)EMS中的最大運營利潤。Q學(xué)習(xí)能量調(diào)度算法如下所示:
輸入 :狀態(tài)量 {Pb(t),G(t),Ns(t),ζ(t)}
輸出:優(yōu)化的充放電策略π
(1)初始化Q學(xué)習(xí)算法參數(shù),初始化Q表;
(2)初始化狀態(tài)量 st0={Pb(t),G(t),Ns(t),ζ(t)};
(3)For 回合數(shù)=1,2,…,M;
(4)獲取初始狀態(tài)st0;
(5)For 時刻=1,2,…,T;
(6)觀察并計算動作價值函數(shù)Q(st, at);
(7)使用ε-貪婪策略選擇動作at;
(8)執(zhí)行所選動作at;
(9)計算退化成本,運營利潤;
(10)計算優(yōu)化目標(biāo);
(11)使用貝爾曼方程更新Q(st, at);
(12)將結(jié)果存入Q表;
(13)計算累積獎勵Rt;
(14)判斷累積獎勵Rt是否收斂;
(15)輸出優(yōu)化后的充放電策略π。
微電網(wǎng)EMS收集t時刻的外部狀態(tài)信息Pb(t)、G(t)、Ns(t)和儲能系統(tǒng)內(nèi)部信息ζ(t),將信息傳給儲能系統(tǒng);儲能系統(tǒng)根據(jù)已知信息,使用ε-貪婪策略選擇動作加以執(zhí)行,得到實時反饋;系統(tǒng)計算當(dāng)前時刻的運營利潤和退化成本,使用貝爾曼方程更新Q(st, at),將結(jié)果存入Q表;進入下一個時刻后,再重新執(zhí)行以上步驟,直到獎勵函數(shù)收斂。
本節(jié)在仿真中模擬實時變化的微電網(wǎng)EMS環(huán)境,對比Q學(xué)習(xí)能量調(diào)度算法與現(xiàn)有基線算法的各個性能指標(biāo)。
實驗使用Python編譯器,使用Torch模塊編寫算法,模擬真實微電網(wǎng)環(huán)境下實時變化的電價、負荷與可再生能源能量。其中,電價、本地負荷與可再生能源發(fā)電單元輸出能量數(shù)據(jù)源于澳大利亞新南威爾士州某市兩周的電力系統(tǒng)運行數(shù)據(jù)。表1給出了仿真參數(shù)與配置。
表1 仿真參數(shù)與配置
首先,本文評估了Q學(xué)習(xí)能量調(diào)度算法的收斂性表現(xiàn)。所提出算法在10 000個回合內(nèi)進行了訓(xùn)練,以學(xué)習(xí)優(yōu)化的儲能系統(tǒng)充電/放電調(diào)度,其中懲罰因子β設(shè)置為2。累積獎勵的演變過程如圖2所示。觀察可得智能體獲得的累積獎勵在前1 500個回合不斷增加,在第2 000個回合達到80后趨向穩(wěn)定,之后由于智能體不斷以10%的概率選擇隨機動作,累積獎勵曲線呈現(xiàn)輕微振蕩。因此,所提出Q學(xué)習(xí)能量調(diào)度算法能在短時間內(nèi)達到收斂。
圖2 累積獎勵與回合數(shù)變化關(guān)系圖
圖3展示了系統(tǒng)利潤隨時間的變化情況,3種算法的系統(tǒng)利潤隨著時間的增加而不斷上升。其中,Greedy代表貪心算法,執(zhí)行貪心算法時,智能體只求得每個時刻的最優(yōu)收益,并將其累加;執(zhí)行Uncontrolled策略時,智能體會在電池荷電狀態(tài)低于0.1時以最大充電速率充電,在荷電狀態(tài)高于0.9時以最大放電速率放電。Q學(xué)習(xí)算法從微電網(wǎng)EMS運行開始,其系統(tǒng)利潤一直高于Greedy和Uncontrolled策略;微電網(wǎng)EMS在經(jīng)過336個小時運營之后,Q學(xué)習(xí)與Greedy算法比提高了8.32%,與Uncontrolled策略比提高了10.54%。
圖3 系統(tǒng)利潤與時間變化關(guān)系圖
本文提出了一個微電網(wǎng)儲能管理系統(tǒng),該系統(tǒng)由可再生能源、儲能以及進出常規(guī)電網(wǎng)的雙邊能量流組成。本文的目標(biāo)是在電池容量的約束下,最大化儲能管理系統(tǒng)的運營利潤。為了解決上述問題,本文提出了一種基于Q學(xué)習(xí)的強化學(xué)習(xí)能量調(diào)度算法,以根據(jù)來自復(fù)雜環(huán)境的信息即電池的動態(tài)變化荷電狀態(tài)、價格和需求變化、準(zhǔn)確的電池退化作為狀態(tài),學(xué)習(xí)優(yōu)化的控制動作。最后,與基于真實世界數(shù)據(jù)的性能評估表明,與2個基線算法相比,所提出的方法可以將系統(tǒng)利潤提高8.32%~10.54%。