趙鵬杰,吳俊勇,王 燚,張和生
(北京交通大學 電氣工程學院,北京 100044)
微電網是由分布式發(fā)電、負荷、儲能裝置等組成的小規(guī)模電網,可以有效提高電網中分布式電源滲透率,是實現“雙碳”目標的有效途徑[1]。然而,分布式發(fā)電的間歇性和不穩(wěn)定性使得微電網能量管理變得更加困難[2]。
微電網能量管理問題的求解算法包括經典優(yōu)化算法和啟發(fā)式算法。經典優(yōu)化算法主要包括線性規(guī)劃、混合整數規(guī)劃等,面對復雜的高維非線性、不連續(xù)的目標函數和約束時,該算法存在求解困難的問題[3]。啟發(fā)式算法對數學模型的依賴性較小,更容易處理非線性問題,但該算法的尋優(yōu)結果具有隨機性,通常為次優(yōu)[4]。上述2類算法能夠解決確定性微電網優(yōu)化問題,但實際微電網中的可再生能源出力、負荷等因素均是不確定因素,不確定性問題主要采用隨機規(guī)劃和魯棒優(yōu)化方法[5-7]進行求解。隨機優(yōu)化方法的難點是如何保證概率分布準確刻畫實際不確定性因素的變化規(guī)律[8]。魯棒優(yōu)化方法采用不確定性集描述不確定性因素的變化范圍,但所得優(yōu)化結果較為保守[9]。
近年來,人工智能技術獲得了極大的發(fā)展,其中深度強化學習DRL(Deep Reinforcement Learning)算法因具有解決序貫決策問題的能力而受到電力系統(tǒng)研究人員的關注[10],目前主要包括基于值函數和基于策略梯度2類算法。
在基于值函數的DRL 算法研究中:文獻[11]建立包含蓄電池和儲氫裝置的微電網復合儲能模型,采用基于值函數的深度Q 網絡DQN(Deep Q Network)算法解決儲能裝置的協調控制問題;文獻[12]針對社區(qū)微電網儲能系統(tǒng),提出Q-learning的能源管理策略,提高了儲能的效率和可靠性;文獻[13]提出采用DQN 和深度雙Q 網絡DDQN(Double Deep Q Network)算法解決家庭家電優(yōu)化調度問題,并證明DDQN 算法比DQN 算法更適合求解最小化成本問題;文獻[14]提出一種基于DQN 算法的微能源網能量管理模型,通過與遺傳算法進行對比,驗證了DQN 算法在解決能量管理問題時的有效性?;谥岛瘮档腄RL 算法將微電網連續(xù)變量離散化,導致尋優(yōu)結果不精確。
在基于策略梯度的DRL 算法研究中:文獻[15]建立含有空調系統(tǒng)和儲能系統(tǒng)的智能家居能源成本最小化模型,證明了深度確定性策略梯度DDPG(Deep Deterministic Policy Gradient)算法可有效處理模型的不確定性;文獻[16]考慮居民行為、實時電價和室外溫度的不確定性,建立實時需求響應模型,提出一種基于信賴域策略優(yōu)化的需求響應算法,實現了不同類型設備的優(yōu)化調度;文獻[17]采用雙延遲深度確定性梯度算法解決了光儲電站儲能運行問題。
本文針對含有風機、光伏、燃氣輪機、儲能設備和負荷的典型微電網架構,首先詳細描述將微電網運行優(yōu)化問題轉化為馬爾可夫決策過程MDP(Markov Decision Process)的方法及步驟,然后采用DDPG算法求解微電網連續(xù)變量優(yōu)化問題,為提高DDPG算法的收斂性,設計一種優(yōu)先經驗存儲的深度確定性策略梯度PES-DDPG(Priority Experience Storage Deep Deterministic Policy Gradient)算法,最后基于某微電網2018 年的風機、光伏及負荷數據[18]進行算例分析,驗證了PES-DDPG 算法能夠提高DDPG 算法的收斂穩(wěn)定性以及該算法處理微電網能量優(yōu)化問題時的有效性和優(yōu)越性。
本文微電網模型如圖1 所示,包括風機、光伏、燃氣輪機、儲能設備、負荷以及與外部電網接口。微電網運營商的職責是調節(jié)各節(jié)點的功率流動,實現微電網經濟運行。
圖1 微電網模型Fig.1 Model of microgrid
1)燃氣輪機。
燃氣輪機通過燃燒天然氣為微電網提供可調節(jié)的電力供應,有效降低微電網對外部電網的依賴,其燃料成本以二次函數表示,如式(1)所示。
2)儲能設備。
儲能設備由蓄電池組成,其可與具有隨機性和波動性的可再生能源協調運行,發(fā)揮“削峰填谷”的作用,保證微電網的可靠性和經濟性。考慮蓄電池的充放電功率和儲能荷電狀態(tài)SOC(State Of Charge),儲能設備充放電表達式為:
3)需求響應負荷。
微電網運營商可通過電價或其他需求響應手段調節(jié)居民負荷的消費特性,為微電網調度運行提供輔助服務,但需求響應不能一味改變用戶的用電行為,造成用戶體驗下降。微電網運營商在執(zhí)行調度指令時應考慮用戶滿意度因素。用戶滿意度有如下特性[19]:用戶傾向于消耗更多的能量直至達到目標用電計劃;當用戶消耗的能量接近目標計劃時,用戶滿意度將逐漸飽和。用戶滿意度ULt表達式為:
4)微電網母線。
微電網中含有大量以風機、光伏為代表的分布式電源,為實現可再生能源的完全消納,默認風機、光伏功率全部并網。微電網中母線要保持功率平衡,可建模為:
微電網運營商通過求解以下優(yōu)化問題來確定運行方案:
以式(14)為目標函數,式(1)—(13)為約束條件,形成混合整數二次規(guī)劃MIQP(Mixed Integer Quadratic Programming)問題。
強化學習的本質是使智能體和環(huán)境交互,智能體基于觀察到的環(huán)境狀態(tài)選擇動作,環(huán)境對該動作作出響應,智能體獲得環(huán)境的反饋后調整下一步動作,最終實現智能體對環(huán)境的最優(yōu)響應。
假設未來獎勵在每個時段的折扣因子為γ,在T時段終止,累積獎勵定義如式(15)所示。強化學習的目標是找到最優(yōu)策略μ*,使得所有狀態(tài)的預期回報最大,如式(16)所示。
式中:Rt為t時段的累積獎勵;argmax 表示求解最大化問題時對應的參數;Eμ[·]表示變量的期望值。
定義策略μ的動作值函數為:
式中:Qμ(s,a)為從狀態(tài)s開始采用動作a后遵循策略μ的預期回報。
利用強化學習尋找最優(yōu)策略μ*的問題可等價轉化為尋找最大的動作價值函數問題,最大的動作價值函數Q*(s,a)對應的策略就是最優(yōu)策略μ*,如式(18)所示。
微電網MIQP 問題轉化為MDP 進行求解的關鍵是:環(huán)境狀態(tài)S、動作A、獎勵r的表達式;策略μ的獲取。
1)狀態(tài)空間。
微電網運行優(yōu)化過程中所需的環(huán)境信息共同組成智能體狀態(tài)空間。環(huán)境信息可分為時變信息和時不變信息。為簡化狀態(tài)空間,將時不變信息設定為智能體自身的已知信息,將時變信息作為本文模型的狀態(tài)信息,時變信息包括用戶預測負荷、風機預測出力、光伏預測出力、儲能狀態(tài)、分時電價,因此,狀態(tài)空間可以描述為:
2)動作空間。
在微電網中,控制動作包括實際負荷功率、燃氣輪機輸出功率和儲能充放電功率,智能體動作空間可定義為:
3)獎勵函數。
智能體選擇任一動作后,環(huán)境會給予獎勵,一般為正,而懲罰成本為較大的負數,智能體為了獲得最大獎勵,會逐漸約束動作滿足動作變化率。懲罰成本表達式為:
式中:ζ為較大的正數。
獎勵函數由微電網運行收益、用戶滿意度和懲罰成本組成:
本節(jié)介紹策略μ的求解算法,即PES-DDPG算法。
DDPG 算法的基本思想是,給定狀態(tài)和參數,則只輸出1 個確定的動作。顯然,對于微電網優(yōu)化問題,針對確定的運行狀態(tài),只有唯一的最優(yōu)調度策略,因此,本文選擇DDPG 算法作為求解微電網連續(xù)變量優(yōu)化問題的基礎算法。
DDPG算法的網絡架構如附錄A圖A1所示。定義確定性動作策略為μ,每步動作at可通過at=μ(st)計算得到。采用神經網絡對μ函數以及Q函數進行模擬,分別稱為Actor 策略網絡(θ μ)和Critic 價值網絡(θQ)。定義函數Jπ(μ)衡量策略的好壞,Jπ(μ)的表達式為:
式中:pπ為概率分布函數;Qμ(s,μ(s))為智能體按照策略μ選擇動作產生的Q值。Jπ(μ)等價為狀態(tài)s服從pπ分布時,按照策略μ得到的Qμ(s,μ(s))的期望值。
智能體通過與微電網環(huán)境的交互積累豐富經驗后進入網絡更新階段。在更新階段,首先得到式(24)所 示 目 標 獎 勵yi、Critic 價 值 網 絡 實 際Q值QθQ(st,i,at,i),根據式(25)所示誤差方程得到Critic 價值網絡誤差L,并最小化誤差實現Critic 價值網絡的更新,然后通過求取式(26)所示策略梯度?θμJ(μθμ)確定Actor 策略網絡的更新方向,實現Actor 策略網絡的更新。其中,下標“i”表示樣本經驗編號。
式中:QθQ′(st+1,i,μθμ′(st+1,i))為目標Critic 價值網絡得到的Q值,μθμ′為目標Actor 策略網絡得到的策略;n為樣本經驗數;?aQθQ(st,i,μθμ(st,i))、?θμ μθ(st,i)分別為Critic價值網絡和Actor策略網絡的梯度。
DDPG 算法的特點主要有:采取隨機策略進行動作的探索,采取確定性梯度策略進行策略的更新;采用Actor-Critic 結構,將其分為Actor 策略網絡和Critic 價值網絡,并為其創(chuàng)建備份網絡,稱為目標網絡,解決更新不穩(wěn)定的問題;利用DQN 算法的經驗回放對網絡進行訓練,最小化樣本的相關性。本文分別對DDPG 算法的動作探索機制和經驗回放機制進行改進,使該算法更適用于優(yōu)化問題的求解。
搜索策略是為了搜索到完整的動作狀態(tài)空間,本文在DDPG 算法的訓練過程中引入高斯噪聲,將動作的選擇從確定性過程變?yōu)殡S機性過程,并在隨機過程采樣得到動作。
動態(tài)噪聲策略是指,在每次訓練過程中,智能體通過策略網絡at=μ(st)生成動作并疊加隨機噪聲時,噪聲幅值隨著訓練的進行而逐漸變小,使智能體動作完全符合策略μ。噪聲幅值εk的表達式如式(27)所示。
式中:εmax、εmin分別為隨機選擇動作概率的最大值和最小值;λ為衰減系數;k為訓練時的迭代輪數。
在DDPG 算法中,將智能體探索到的數據組合(st,at,rt,st+1)作為經驗并將其存在經驗復用池中,隨機抽取一批經驗對Actor策略網絡和Critic 價值網絡進行訓練,由于經驗池大小固定,隨著訓練的進行,新獲取的經驗不斷覆蓋舊經驗,只有新獲取的經驗逐漸一致時,才能得到算法收斂結果。
實際應用過程中發(fā)現,在探索初期,智能體得到高獎勵經驗的概率遠低于得到低獎勵經驗的概率,該時期即使獲得了獎勵極高的經驗,隨著智能體趨向探索行為,低獎勵經驗大量進入經驗復用池,也會導致高獎勵經驗的丟失,訓練過程中波動性較大,收斂結果不理想。
考慮微電網能量優(yōu)化問題的特點,一天24 個不同時段之間的調度結果和收益存在較大差異,而同一時段的調度結果和收益具有相似性。在同一時段內,如果智能體搜索到的經驗比之前的經驗獎勵高,則將其視為優(yōu)秀經驗,并存儲到經驗復用池中,否則將其視為普通經驗,并按照一定概率存儲到經驗復用池中。
定義經驗池中t時段的經驗平均獎勵rmeant為:
式中:m為訓練時的最大迭代輪數;rt,k為t時段第k輪訓練時的獎勵值。
經驗優(yōu)先存儲策略流程圖如圖2所示。
圖2 經驗優(yōu)先存儲策略流程圖Fig.2 Flowchart of priority experience storage strategy
結合動態(tài)噪聲搜索策略和經驗優(yōu)先存儲策略,本文提出的PES-DDPG 算法偽代碼如附錄A 表A1所示。
本文建立的微電網各設備主要參數如附錄A 表A2 和表A3 所示。微電網中負荷最大值為400 kW,風機安裝容量為250 kW,光伏安裝容量為150 kW。用戶滿意度系數vt、zt分別為2.2、2.5。
本文分別采用PES-DDPG 算法、傳統(tǒng)DDPG 算法、DDQN 算法和MIQP 算法求解微電網優(yōu)化運行方案并對結果進行對比?;谖㈦娋W馬爾可夫模型,PES-DDPG 算法和傳統(tǒng)DDPG 算法的狀態(tài)空間大小為7,動作空間大小為3。設計的Actor策略網絡結構如附錄A 圖A2 所示。輸入層為7 個神經元,對應輸入7個環(huán)境狀態(tài);隱藏層為3層全連接層,各層分別有128 個神經元,采用線性修正函數ReLU(Rectified Linear Unit)作為激活函數;輸出層為3個神經元,對應模型中的3 類動作,采用tanh 作為激活函數。對DDQN 算法的動作空間進行離散化,將燃氣輪機、儲能設備、負荷動作離散為9×4×2 種動作。強化學習算法的超參數設置如下:Actor 策略網絡和Critic 價值網絡學習率均為0.001,折扣因子γ=0.95,最大、最小噪聲幅值分別為1和0.004,每批抽樣數為128。
本文設置如下2 個算例:算例1,微電網環(huán)境變量均為確定值,即風機、光伏功率及負荷需求均可準確預測,在此基礎上,采用4 種算法進行微電網日前運行優(yōu)化;算例2,選取某地2018 年1 月1 日至3 月30 日的實際數據,將其進行標幺化處理后作為訓練集,采用本文提出的PES-DDPG 算法訓練智能體,假設微電網環(huán)境中不確定性參數分別存在5%、10%、30%的預測誤差,面對不確定的環(huán)境變量,智能體進行在線優(yōu)化。
4.3.1 不同算法優(yōu)化結果分析
微電網某日數據如附錄A 圖A3 所示。針對確定性環(huán)境,采用4 種算法進行微電網日前運行優(yōu)化,各方案所得微電網運行收益如表1所示。
表1 微電網運行收益Table 1 Operation profit of microgrid
由表1 可知:由于算例中調用Yalmip 工具箱求解器進行求解,因此,MIQP 算法獲得了理論上的最高收益,為最優(yōu)的結果,但由于實際中未來24 h內的風機、光伏功率及負荷需求不可能準確預測,因此,MIQP 算法的求解結果難以直接應用;PES-DDPG 算法和傳統(tǒng)DDPG算法的結果較接近最優(yōu)的結果;由于動作離散,DDQN算法的效果不及傳統(tǒng)DDPG算法。
圖3 展示了PES-DDPG 算法、傳統(tǒng)DDPG 算法和MIQP 算法的優(yōu)化結果。PES-DDPG 算法和傳統(tǒng)DDPG 算法的尋優(yōu)結果基本一致,體現在:在低電價時,燃氣輪機運行成本比電價高,因此燃氣輪機僅保持最低出力;儲能設備在夜間時段1—5 進行充電,在中午高峰期進行放電,通過低買高賣進行套利,在下午時段15—18中等電價時繼續(xù)進行充電,并在夜間高電價時進行放電套利;在中午時段12—14,光伏出力較多,燃氣輪機也保持高出力,微電網向電網反送功率獲利。傳統(tǒng)DDPG 算法與MIQP 算法理論最優(yōu)結果的顯著區(qū)別是:在傳統(tǒng)DDPG 算法的結果中,微電網在時段12—14 向電網反送功率,而在MIQP 算法的結果中,微電網僅在時段12 向電網反送功率;在傳統(tǒng)DDPG 算法的結果中,儲能設備在高電價時(夜晚時段19、20)放電,而在MIQP 算法的結果中,儲能設備不僅在時段19、20 放電,還在時段21—24 放電,滿足夜間微電網內的功率缺額需求,減少向電網購電。
圖3 3種算法優(yōu)化結果Fig.3 Optimization results of three algorithms
4.3.2 優(yōu)先經驗存儲策略分析
針對算例1 場景,PES-DDPG 算法和傳統(tǒng)DDPG算法的收斂結果對比如圖4 所示。由圖可知,在傳統(tǒng)DDPG 算法的訓練后期,隨機探索和經驗池中的低獎勵經驗會導致算法收斂的不確定性,如果算法恰好在抽取到低獎勵經驗訓練時停止,則可能無法得到滿意的結果。
圖4 PES-DDPG算法和DDPG算法的收斂結果對比Fig.4 Comparison of convergence results between PES-DDPG algorithm and traditional DDPG algorithm
在不同的初始條件下,采用傳統(tǒng)DDPG 算法進行訓練,其收斂結果如圖5 所示。由圖可知,在3 次訓練中,算法均在訓練1000輪左右取得了基本一致的獎勵,但是隨著訓練次數的增加,經驗池中隨機抽取的普通經驗改變了算法的收斂方向,當訓練到1 500 輪時,訓練結果變得更加糟糕,經驗質量和訓練終止的次數均會對算法的收斂結果產生隨機性的影響。
圖5 不同初始條件下傳統(tǒng)DDPG算法的收斂結果對比Fig.5 Comparison of convergence results of traditional DDPG algorithm among different initial conditions
為進一步評估PES-DDPG 算法的收斂性,定義如下指標:
式中:CMV為收斂均值;ri為完成第i次訓練時的獎勵,在實際中可對獎勵進行縮放;N為訓練總次數,每次訓練的初始條件不同;CV為收斂方差;CMAX為收斂最大值;CMIN為收斂最小值。
基于算例1的場景,分別采用PES-DDPG算法和傳統(tǒng)DDPG算法進行100次訓練,收斂性評價指標如表2所示。
表2 收斂性評價指標對比Table 2 Comparison of evaluation criteria for convergence
由表2 可知:在多次訓練中,采用PES-DDPG 算法和傳統(tǒng)DDPG算法得到的CMAX較接近,CMIN指標相同,這說明2 種算法的尋優(yōu)能力相當,均能夠找到最優(yōu)解,同時也會陷入局部最優(yōu);采用PES-DDPG 算法得到的CMV大于傳統(tǒng)DDPG 算法,這說明在多次尋優(yōu)過程中采用PES-DDPG 算法取得較優(yōu)結果的次數多于傳統(tǒng)DDPG 算法;采用PES-DDPG 算法得到的CV約為傳統(tǒng)DDPG 算法的70.2%,由于CV越大,尋優(yōu)結果波動越大,因此,PES-DDPG算法的穩(wěn)定性更高。
4.3.3 動態(tài)噪聲搜索策略分析
本文應用動態(tài)噪聲搜索策略設計對比策略,以驗證搜索策略對PES-DDPG 算法收斂性的影響:靜態(tài)策略,設置靜態(tài)噪聲,在前1 000 輪訓練中噪聲幅值保持不變,在后500 輪訓練中噪聲幅值為0;動態(tài)策略,設置線性動態(tài)噪聲,參數λ=4×10-5。圖6 為靜態(tài)策略和動態(tài)策略下PES-DDPG 算法的收斂結果對比。由圖可知:當在PES-DDPG 算法中采用靜態(tài)策略時,訓練至1 000 輪時噪聲突然消失,改變了算法的收斂方向,有可能導致最終收斂到的策略比當前的策略差;而當在PES-DDPG 算法中采用動態(tài)策略時,在訓練過程中噪聲的影響逐步減弱,對算法收斂性產生的影響較小。
圖6 靜態(tài)策略和動態(tài)策略下PES-DDPG算法的收斂結果對比Fig.6 Comparison of convergence results of PES-DDPG algorithm between static strategy and dynamic strategy
此外,DDQN算法作為另一類基于值函數的DRL算法,本文探討靜態(tài)策略和動態(tài)策略對DDQN 算法收斂性的影響。該算法的靜態(tài)策略是指在前1000輪訓練中智能體以0.5 的概率隨機選擇動作,1 000 輪后智能體選擇當前最大Q值所對應的動作;該算法的動態(tài)策略是指在訓練開始時智能體按照動態(tài)衰減的概率隨機選擇動作,隨著訓練輪數的增加,隨機選擇動作的概率最終衰減為0.004,智能體不再隨機選擇動作,而是選擇最大Q值所對應的動作。靜態(tài)策略和動態(tài)策略下DDQN 算法的收斂結果對比如圖7所示。由圖可知:當在DDQN 算法中采用靜態(tài)策略時,在前1 000 輪訓練中獎勵趨勢幾乎保持不變,每輪獎勵在[-100,50]范圍內波動;當在DDQN 算法中采用動態(tài)策略時,在前1000輪訓練中獲得的獎勵逐漸提高,這說明算法逐漸尋找到了更好的策略,因此,在DDQN 算法中采用動態(tài)策略的搜索效果優(yōu)于靜態(tài)策略。
圖7 靜態(tài)策略和動態(tài)策略下DDQN算法的收斂結果對比Fig.7 Comparison of convergence results of DDQN algorithm between static strategy and dynamic strategy
分別在PES-DDPG 算法和DDQN 算法中采用靜態(tài)策略和動態(tài)策略進行100 次訓練,收斂性評價指標如表3所示。
表3 靜態(tài)策略和動態(tài)策略下的收斂性評價指標對比Table 3 Comparison of evaluation criteria for conver‐gence between static strategy and dynamic strategy
由表3 可知,在2 種算法中采用靜態(tài)策略時,各項指標均比采用動態(tài)策略時的指標差,這說明動態(tài)策略提高了2 種算法的收斂性和尋優(yōu)能力。值得注意的是,PES-DDPG 算法的收斂性更好,多次訓練得到的獎勵方差很小,而由于離散化動作空間,DDQN算法的尋優(yōu)能力弱于PES-DDPG算法。
魯棒優(yōu)化假設不確定性存在于不確定性集中,本文構造一種針對不確定性參數的最壞情況來實現最優(yōu)求解。本算例中不確定集采用盒式形式,風、光、荷不確定集U的表達式為:
式中:δ為最大預測誤差。
考慮風、光、荷不確定集下的系統(tǒng)能量優(yōu)化,建立最惡劣的交互收益目標為:
當微電網內不確定性參數的預測誤差分別為5%、10%、30%時,PES-DDPG 算法和魯棒優(yōu)化模型求解算法所得微電網收益如表4 所示,其中,魯棒優(yōu)化模型求解算法參考文獻[20]。隨著預測誤差的增大,微電網收益均逐漸降低。采用PES-DDPG 算法比魯棒優(yōu)化模型求解算法得到的收益更高,且隨著預測誤差的增大,PES-DDPG 算法的優(yōu)勢更明顯,其原因在于:預測誤差越大,場景越極端,由于魯棒優(yōu)化最優(yōu)解具有高度保守性,因此,極端場景降低了魯棒優(yōu)化性能,而PES-DDPG 算法是一種無模型和數據驅動的DRL 算法,其通過數據的訓練學習最優(yōu)控制策略,且可學習到封裝在數據中的不確定性。在30%的預測誤差下,采用PES-DDPG 算法可以比魯棒優(yōu)化模型求解算法提高約8.32%的收益。
表4 不同預測誤差下的優(yōu)化算法結果比較Table 4 Result comparison between optimization algorithms under different prediction errors
2 種算法的平均計算時間如表5 所示。對于微電網設備優(yōu)化問題,由于規(guī)模小以及復雜度低,求解器可以快速求解,但面對大規(guī)模變量及約束問題時,求解器的求解效率難以保證,而DRL 智能體具備實時優(yōu)化的潛力。
表5 優(yōu)化算法平均計算時間Table 5 Average calculation time of optimization algorithms
本文采用DRL 算法求解微電網的優(yōu)化運行問題,在算法層面,對傳統(tǒng)DDPG 算法進行改進,提出PES-DDPG 算法,通過經驗優(yōu)先存儲方法和動態(tài)噪聲搜索策略提高了算法在訓練過程中的收斂穩(wěn)定性。訓練完成的DDPG 智能體表現出了DDPG 算法處理連續(xù)變量的能力以及應對不確定問題時的優(yōu)越性。通過算例驗證了本文所提算法能夠實現微電網的優(yōu)化調度。
附錄見本刊網絡版(http://www.epae.cn)。