徐博涵,向 月,潘 力,方夢秋,彭光博,劉友波,劉俊勇
基于深度強(qiáng)化學(xué)習(xí)的含高比例可再生能源配電網(wǎng)就地分散式電壓管控方法
徐博涵,向 月,潘 力,方夢秋,彭光博,劉友波,劉俊勇
(四川大學(xué)電氣工程學(xué)院,四川 成都 610065)
含有可再生能源并網(wǎng)的區(qū)域電網(wǎng)存在通信條件差、量測設(shè)備不足、不同節(jié)點(diǎn)的電壓管控設(shè)備難以協(xié)同等問題,因此提出一種基于深度強(qiáng)化學(xué)習(xí)的分散式就地電壓管控方法。該方法首先將缺少量測數(shù)據(jù)的電壓管控問題轉(zhuǎn)化為部分可觀的馬爾科夫決策問題,構(gòu)建了以網(wǎng)絡(luò)損耗最小為優(yōu)化目標(biāo)的多智能體分散式電壓管控框架。然后采用多智能體深度確定性策略梯度算法對智能體進(jìn)行離線訓(xùn)練,并使用訓(xùn)練完成的智能體進(jìn)行在線電壓管控。最后,基于改進(jìn)的IEEE33節(jié)點(diǎn)系統(tǒng)進(jìn)行了算例仿真和分析。結(jié)果表明,各智能體可以根據(jù)各自節(jié)點(diǎn)的電氣信息求解出近似的全局最優(yōu)解。
多智能體;電壓管控;量測數(shù)據(jù)不足;多智能體深度確定性策略梯度算法
近年來,為了應(yīng)對環(huán)境問題,世界各國都在推動能源系統(tǒng)的低碳化、清潔化轉(zhuǎn)型。在此背景下,我國提出了“雙碳”要求,力爭在2030年前實(shí)現(xiàn)碳達(dá)峰,在2060年前實(shí)現(xiàn)碳中和[1]。在電力行業(yè),由于風(fēng)電和光伏等新型可再生能源在發(fā)電過程中有著零碳排放和零邊際成本等優(yōu)點(diǎn),其發(fā)電占比正在快速上升[2]。但是,隨著可再生能源裝機(jī)容量的增大,電網(wǎng)的電壓波動變得更為劇烈,無功電壓補(bǔ)償技術(shù)成為了一種重要的電壓管控手段[3]。由于大多數(shù)可再生能源發(fā)電都是通過逆變器進(jìn)行并網(wǎng)的,具有利用空閑容量提供無功補(bǔ)償?shù)哪芰?,探索可再生能源發(fā)電的無功管控方法對加強(qiáng)電網(wǎng)電壓管控能力具有現(xiàn)實(shí)意義[4]。
目前電壓管控領(lǐng)域的研究方向主要分為集中式電壓管控、分布式電壓管控以及就地電壓管控3種。集中式管控通過設(shè)置一個中心處理器,來接收整個電網(wǎng)的全部信息,作出全局最優(yōu)決策。文獻(xiàn)[5]基于動態(tài)規(guī)劃法實(shí)現(xiàn)了SVC設(shè)備的無功電壓管控,文獻(xiàn)[6-7]基于混合整數(shù)二階錐規(guī)劃法實(shí)現(xiàn)了SVC和投切電容器的協(xié)同電壓管控。文獻(xiàn)[8]基于粒子群算法實(shí)現(xiàn)了無功電壓管控,具有更強(qiáng)的全局尋優(yōu)能力。文獻(xiàn)[9]基于魯棒算法實(shí)現(xiàn)了考慮不確定性輻射狀配電網(wǎng)的電壓管控。但是集中式電壓管控方法都需要良好的通信條件,而且中心處理器面臨著巨大的計(jì)算壓力。
為了解決上述問題,國內(nèi)外學(xué)者對基于數(shù)據(jù)驅(qū)動的電壓管控技術(shù)進(jìn)行了大量研究,并取得了初步成果。文獻(xiàn)[14]基于深度確定性策略梯度算法進(jìn)行電壓管控,實(shí)現(xiàn)了基于數(shù)據(jù)的離線算法訓(xùn)練,求解速度較基于模型求解的算法有大幅的提升。為了增強(qiáng)算法的魯棒性,文獻(xiàn)[15]采用多智能體算法設(shè)置多個智能體分別對電網(wǎng)各個區(qū)域進(jìn)行電壓管控,實(shí)現(xiàn)了基于數(shù)據(jù)的分布式管控。但是,該方法依然需要完備的系統(tǒng)觀測數(shù)據(jù)。為此,文獻(xiàn)[16]提出了一種基于雙層深度確定性策略梯度算法的電壓管控方法,訓(xùn)練兩種智能體來分別完成目標(biāo)電壓設(shè)置和目標(biāo)電壓逼近的任務(wù),實(shí)現(xiàn)了在少量量測數(shù)據(jù)下的無功電壓管控。文獻(xiàn)[17]提出使用卷積神經(jīng)網(wǎng)絡(luò)擬合潮流無功優(yōu)化函數(shù),實(shí)現(xiàn)了低感知態(tài)勢下含高比例清潔能源的電壓管控,但是上述方法依然無法擺脫對通信條件的依賴。
基于上述研究現(xiàn)狀,本文設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的含高比例可再生能源配電網(wǎng)就地分散式電壓管控。首先建立了可再生能源并網(wǎng)的電壓管控機(jī)理模型,為智能體提供交互環(huán)境。然后,將電壓管控問題轉(zhuǎn)化為部分可觀的馬爾科夫決策過程(partially observable markov decision process, POMDP),構(gòu)建了智能體的觀測空間、動作空間以及回報(bào)函數(shù),引導(dǎo)各智能體協(xié)同進(jìn)行電壓管控,降低網(wǎng)絡(luò)損耗,并防止電壓越界。之后,使用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法對多智能體進(jìn)行訓(xùn)練,實(shí)現(xiàn)了各智能體間決策的協(xié)同進(jìn)化,訓(xùn)練完成的智能體在進(jìn)行決策時可以計(jì)及其他智能體決策的耦合影響,具有更好的決策穩(wěn)定性。最后,使用改進(jìn)的IEEE33節(jié)點(diǎn)系統(tǒng)進(jìn)行算例仿真和分析,驗(yàn)證了本文所提管控方法的有效性。
本節(jié)首先對電壓協(xié)同控制框架中的可再生能源設(shè)備進(jìn)行建模,基于不同設(shè)備的無功補(bǔ)償特性定義其運(yùn)行區(qū)間,然后給出了潮流模型,用于下文的智能體訓(xùn)練過程。
文獻(xiàn)[18]表明風(fēng)速服從韋伯分布,因此可以使用式(1)來表示風(fēng)電機(jī)組的有功功率。同時,風(fēng)電機(jī)組一般配備有連續(xù)的無功補(bǔ)償裝備[19],所以風(fēng)電機(jī)組的實(shí)際無功功率可以用式(2)表示。
文獻(xiàn)[20]表明光照強(qiáng)度服從貝塔分布,因此可以使用式(3)來表示光伏電源的有功功率。
同時,根據(jù)文獻(xiàn)[21]的研究表明,光伏電源可以通過逆變器優(yōu)化(optimal inverter dispatch, OID)策略來控制光伏電源輸出的無功功率,使用OID策略的光伏電源運(yùn)行區(qū)間可表示為
文獻(xiàn)[22]表明可以使用正態(tài)分布來表示負(fù)荷的不確定性,如式(5)—式(8)所示。
本文僅考慮穩(wěn)態(tài)下的電壓管控,潮流模型如式(9)—式(11)所示。
同時,由功率守恒定理可得
本節(jié)首先對智能體模型中涉及的馬爾科夫決策過程進(jìn)行介紹,然后將多智能體就地分散式電壓管控問題轉(zhuǎn)化為POMDP問題,建立了多智能體電壓管控模型。
在機(jī)器學(xué)習(xí)領(lǐng)域中,一般采用馬爾科夫決策過程來描述智能體與環(huán)境的交互過程。在一個馬爾科夫決策過程中,智能體可以從外界環(huán)境中獲取觀測數(shù)據(jù),并使用自身策略來根據(jù)觀測數(shù)據(jù)作出決策。受到?jīng)Q策動作的逆向影響,環(huán)境狀態(tài)發(fā)生更新,智能體根據(jù)新的環(huán)境狀態(tài)獲取回報(bào),并開始新一輪的馬爾科夫決策過程。馬爾科夫決策過程的流程圖如圖1所示。
圖1 馬爾科夫決策過程流程圖
多智能體馬爾科夫決策過程的全部信息可以整合為一個元組,如式(13)所示。
在多次的馬爾科夫決策過程中,智能體使用值來表示自己當(dāng)前動作獲取的總收益期望,并以最大化值為目標(biāo)來更新自身的策略函數(shù)。
本節(jié)將量測數(shù)據(jù)不足下的電壓協(xié)同管控問題轉(zhuǎn)化為POMDP問題,對其環(huán)境狀態(tài)空間、觀測空間、動作空間和回報(bào)函數(shù)進(jìn)行定義,引導(dǎo)多智能體根據(jù)少量觀測數(shù)據(jù)控制分布式電源協(xié)同進(jìn)行電壓管控。
2.2.1環(huán)境狀態(tài)空間
電壓管控問題的物理環(huán)境為網(wǎng)絡(luò)潮流,所以智能體的環(huán)境狀態(tài)空間應(yīng)包含潮流計(jì)算所需要的全部信息,如式(18)所示。
2.2.2觀測空間
由于本文考慮的是分散就地電壓管控,各智能體僅根據(jù)各自管控的可再生能源設(shè)備接入節(jié)點(diǎn)的電氣信息(節(jié)點(diǎn)電壓及有功、無功功率)進(jìn)行決策,因此設(shè)計(jì)智能體的觀測空間如式(19)所示。
2.2.3動作空間
動作空間為電壓管控問題中智能體可以控制的設(shè)備變量,本文為可再生能源設(shè)備發(fā)電的無功功率。同時,為了滿足式(2)和式(4)的無功功率上下限約束,本文使用tanh函數(shù)作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù),將神經(jīng)網(wǎng)絡(luò)的輸出限制在[-1,1],并線性放縮至設(shè)備的無功功率限制內(nèi),如式(20)所示。
2.2.4回報(bào)函數(shù)
由于智能體會以最大化獲得回報(bào)為導(dǎo)向來更新策略函數(shù),因此設(shè)計(jì)如式(21)的回報(bào)函數(shù),引導(dǎo)智能體降低網(wǎng)絡(luò)損耗并防止電壓越限。
圖2 多智能體電壓管控POMDP框架
MADDPG算法是一種新興的基于多智能體Actor-Critic網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法。它引入了雙層多智能體Actor-Critic網(wǎng)絡(luò)的概念,在智能體進(jìn)行集中式訓(xùn)練前復(fù)制一份初始的多智能體Actor-Critic網(wǎng)絡(luò)作為目標(biāo)網(wǎng)絡(luò),并使用軟更新技術(shù)對雙層網(wǎng)絡(luò)的參數(shù)進(jìn)行異步更新,大幅度提升了多智能體訓(xùn)練的速度和穩(wěn)定性[23]。MADDPG算法的流程圖如圖3所示。
3.1.1 Actor神經(jīng)網(wǎng)絡(luò)迭代過程
圖3 MADDPG算法流程圖
Actor神經(jīng)網(wǎng)絡(luò)參數(shù)的更新梯度由Critic神經(jīng)網(wǎng)絡(luò)計(jì)算的值決定,并根據(jù)預(yù)設(shè)的更新系數(shù)進(jìn)行更新,可表示為
3.1.2 Critic網(wǎng)絡(luò)迭代過程
MADDPG算法根據(jù)貝爾曼公式構(gòu)建了Critic網(wǎng)絡(luò)參數(shù)的誤差函數(shù),為Critic網(wǎng)絡(luò)參數(shù)提供了更新梯度,計(jì)算公式為
此外,MADDPG算法設(shè)置了經(jīng)驗(yàn)池來消除訓(xùn)練數(shù)據(jù)的關(guān)聯(lián)性,進(jìn)一步提高算法性能。算法的詳細(xì)流程如表1的偽代碼所示,表中為訓(xùn)練總次數(shù),為智能體總數(shù),為采樣數(shù)量。
表1 MADDPG算法偽代碼
多智能體的集中式訓(xùn)練過程已經(jīng)離線完成了MADDPG算法中Actor網(wǎng)絡(luò)參數(shù)的迭代,在線運(yùn)行時智能體可以直接使用迭代完成的網(wǎng)絡(luò)參數(shù)生成策略函數(shù)進(jìn)行獨(dú)立決策,不再需要同其他智能體進(jìn)行信息交流,消除了對通信條件的依賴,決策過程如式(32)所示。
本節(jié)基于改進(jìn)的IEEE33節(jié)點(diǎn)系統(tǒng)[24]進(jìn)行算例仿真與分析,系統(tǒng)結(jié)構(gòu)如圖4所示。系統(tǒng)加入5個分布式光伏電源以及2個風(fēng)電機(jī)組,并且僅在可再生能源接入節(jié)點(diǎn)設(shè)置了量測設(shè)備,智能體僅根據(jù)各自接入節(jié)點(diǎn)的電氣信息對可再生能源設(shè)備的無功功率進(jìn)行控制,可再生能源設(shè)備參數(shù)如表2所示。
圖4 改進(jìn)IEEE33節(jié)點(diǎn)系統(tǒng)結(jié)構(gòu)
表2 設(shè)備參數(shù)
基于第1節(jié)的電壓管控機(jī)理模型隨機(jī)生成60天的運(yùn)行場景,并采用MADDPG算法為可再生能源接入節(jié)點(diǎn)訓(xùn)練智能體,算法所設(shè)定的超參數(shù)如表3所示。
表3 MADDPG算法超參數(shù)
圖5為訓(xùn)練過程中各智能體的回報(bào)值,由于6、19、23、27號節(jié)點(diǎn)位于線路首端,不存在電壓越限現(xiàn)象,因此具有相同的回報(bào)曲線。從回報(bào)曲線可以看出,在前10個訓(xùn)練周期內(nèi)智能體還在進(jìn)行隨機(jī)探索,獲取的回報(bào)很少。在第10—第30周期,智能體開始根據(jù)探索得到的經(jīng)驗(yàn)更新自己的策略,回報(bào)曲線快速上升,只有12、16、32號節(jié)點(diǎn)偶爾會有輕微的電壓越限,導(dǎo)致回報(bào)函數(shù)略微降低。而第30個周期以后,各智能體已經(jīng)具有一致的回報(bào)函數(shù),且回報(bào)函數(shù)逐漸收斂,說明各節(jié)點(diǎn)已經(jīng)學(xué)習(xí)到降低網(wǎng)損的最優(yōu)策略,并且不再出現(xiàn)電壓越限現(xiàn)象。
圖5 智能體訓(xùn)練平均回報(bào)曲線
隨機(jī)生成2000次電網(wǎng)運(yùn)行場景對訓(xùn)練完成的智能體的有效性進(jìn)行驗(yàn)證。在2000次場景中,各節(jié)點(diǎn)的波動區(qū)間如圖6所示,當(dāng)無電壓管控時,電網(wǎng)電壓的波動劇烈,多個節(jié)點(diǎn)存在電壓越限現(xiàn)象,以可再生能源接入節(jié)點(diǎn)最為嚴(yán)重。而在智能體進(jìn)行電壓管控后,電網(wǎng)整體的電壓質(zhì)量得到明顯改善,已經(jīng)不存在電壓越界現(xiàn)象,各節(jié)點(diǎn)電壓的波動區(qū)間普遍收緊,最大電壓偏差由0.1 p.u.降低至本文預(yù)設(shè)的0.07 p.u.以內(nèi),證明了本文所提管控方法在電壓管控方面的有效性。值得注意的是,部分節(jié)點(diǎn)出現(xiàn)了最大電壓上升的現(xiàn)象,這是因?yàn)橹悄荏w在控制電壓的同時要降低電網(wǎng)損耗,因此在允許的電壓波動范圍內(nèi)進(jìn)行了無功補(bǔ)償。
圖6 管控電壓波動區(qū)間對比
由于本文所提算法考慮的是量測設(shè)備不足、缺乏可靠通信條件的區(qū)域配電網(wǎng)的無功電壓管控問題,在傳統(tǒng)的電壓控制策略中,只有分散式就地控制策略可以有效運(yùn)行[17]。因此,選擇()下垂控制策略進(jìn)行算例對比,驗(yàn)證本文所提方法在控制電壓和降低網(wǎng)損方面的有效性。
給定系統(tǒng)一天內(nèi)的總負(fù)荷和可再生能源的總輸出功率,如圖7所示[25]。選取電壓波動最為明顯的末端可再生能源接入節(jié)點(diǎn)(12、16、32號節(jié)點(diǎn))進(jìn)行電壓分析,不同控制策略下各節(jié)點(diǎn)的電壓如圖8所示。可以看到,兩種控制方式下,各節(jié)點(diǎn)的電壓波動均得到了有效抑制,不再出現(xiàn)電壓越限問題,但是相較于下垂控制,本文所提方法在不同節(jié)點(diǎn)會適應(yīng)性地調(diào)整節(jié)點(diǎn)所維持的電壓等級,這主要是因?yàn)樵诒疚脑O(shè)定的回報(bào)函數(shù)下,智能體只有在控制電壓水平的同時盡量降低網(wǎng)絡(luò)損耗,才可以獲得最大回報(bào)。
圖7 IEEE33節(jié)點(diǎn)系統(tǒng)的日運(yùn)行數(shù)據(jù)
圖8 日運(yùn)行狀態(tài)下的電壓
圖9給出了4種控制方法下一天內(nèi)的網(wǎng)絡(luò)損耗,其中,集中式控制使用完備的全局信息,可以認(rèn)為是最優(yōu)決策,而()下垂控制和本文所提方法均只使用本地觀測信息。從圖9中可以看出,由于在08:00以前和18:00以后,光伏電源出力較少,電網(wǎng)電壓偏移量不大,在此情況下,()下垂控制幾乎不動作,電網(wǎng)損耗持平。而本文方法則會在電壓允許范圍內(nèi)進(jìn)行無功補(bǔ)償以降低電網(wǎng)損耗,同時由于電網(wǎng)的安全壓力較小,智能體專注于降低網(wǎng)損,幾乎可以達(dá)到與集中式管控方法相近的精度。而在10:00—16:00,光伏出力大幅增加,電網(wǎng)電壓偏移量增大,()下垂控制為了控制節(jié)點(diǎn)電壓開始吸收無功功率,但是各節(jié)點(diǎn)之間難以有效配合,因此出現(xiàn)了吸收無功功率過多、電網(wǎng)損耗增大的現(xiàn)象。相比之下,本文所提方法中各智能體的策略在訓(xùn)練過程中是協(xié)同進(jìn)化的,各智能體會在保證不出現(xiàn)電壓越界的前提下,合作降低網(wǎng)絡(luò)損耗。但是此時電網(wǎng)的安全壓力較大,由于各智能體僅可以使用本地信息進(jìn)行決策,因此決策動作會較為保守,相較于集中式控制方法網(wǎng)絡(luò)損耗略微增大。最終,本文管控方式下各可再生能源設(shè)備發(fā)出的無功功率如圖10所示。
圖9 日運(yùn)行狀態(tài)下的網(wǎng)絡(luò)損耗
為了進(jìn)一步對本文所提方法的設(shè)備協(xié)同管控性能進(jìn)行分析,給出了14:00時3種控制方法下各可再生能源接入節(jié)點(diǎn)的無功功率,如表4所示。可以看到,()下垂控制僅可以根據(jù)節(jié)點(diǎn)電壓偏移量線性地進(jìn)行無功補(bǔ)償,而本文所提方法中各節(jié)點(diǎn)的無功功率與集中式控制方法具有一致的方向,證明各個智能體間可以協(xié)同完成降低網(wǎng)絡(luò)損耗和平抑電壓波動的任務(wù),而不是單純地降低本地節(jié)點(diǎn)的電壓偏差量。如32號節(jié)點(diǎn)的智能體會在安全范圍內(nèi)發(fā)出無功功率來降低網(wǎng)絡(luò)損耗,而不是根據(jù)電壓偏移量來吸收無功功率。從數(shù)值上來看,相較于集中式管控,本文方法的無功補(bǔ)償功率偏大,主要是因?yàn)橹悄荏w在無法獲得其他智能體信息的情況下,會更加傾向于適量地進(jìn)行過量補(bǔ)償,以增加少量的網(wǎng)絡(luò)損耗為代價,來保證節(jié)點(diǎn)電壓不發(fā)生越限。
圖10 可再生能源發(fā)電的無功功率
表4 可再生能源發(fā)電無功功率對比
最終,本文所提方法、無管控方法、()下垂控制和集中式控制一天內(nèi)的總網(wǎng)絡(luò)損耗分別為2.76 MWh、3.09 MWh、3.48 MWh和2.54 WMh。本文方法相較于()下垂控制,網(wǎng)絡(luò)損耗下降了20.7%,可以證明本文所提方法具有與()下垂控制相同的電壓管控性能的同時,可以大幅降低網(wǎng)絡(luò)損耗,具備有效性。同時,雖然本文方法較集中式控制方法網(wǎng)絡(luò)損耗略有增加,但是本文方法本質(zhì)上是一種就地控制策略,不需要對通信設(shè)備和計(jì)算中心進(jìn)行額外投資,因此具有一定的現(xiàn)實(shí)意義。
本文提出了一種基于多智能體深度確定性梯度算法的多智能體協(xié)同電壓管控方法,實(shí)現(xiàn)了在量測數(shù)據(jù)不足的情況下不依賴通信的多智能體就地分散式無功電壓管控。通過算例分析,證明了本文所提方法中智能體可以根據(jù)可再生能源接入節(jié)點(diǎn)的電氣信息獨(dú)立進(jìn)行無功補(bǔ)償功率決策,有效地抑制電壓波動,防止節(jié)點(diǎn)電壓越限。并與就地控制和集中式控制方法進(jìn)行了性能對比,本文方法相較于()下垂控制,可以大幅降低電網(wǎng)的網(wǎng)絡(luò)損耗,具有優(yōu)越性。相較于集中式控制方法,雖然本文方法的網(wǎng)損略有上升,但是集中式控制方法需要完備的全局信息,在量測數(shù)據(jù)不足的情況下無法求解,因此文本方法在缺少在線監(jiān)測設(shè)備和可靠通信條件的區(qū)域配電網(wǎng)中具有實(shí)用性。如何進(jìn)一步提升智能體的管控精度,將是本文后續(xù)研究的重點(diǎn)。
[1] 馬國真, 林毓軍, 張澤亞, 等. 計(jì)及源荷多重不確定性的綜合能源系統(tǒng)魯棒經(jīng)濟(jì)調(diào)度方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(20): 43-52.
MA Guozhen, LIN Yujun, ZHANG Zeya, et al. A robust economic dispatch method for an integrated energy system considering multiple uncertainties of source and load[J]. Power System Protection and Control, 2021, 49(20): 43-52.
[2] 李政潔, 撖奧洋, 周生奇, 等. 計(jì)及綜合需求響應(yīng)的綜合能源系統(tǒng)優(yōu)化調(diào)度[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(21): 36-42.
LI Zhengjie, HAN Aoyang, ZHOU Shengqi, et al. Optimization of an integrated energy system considering integrated demand response[J]. Power System Protection and Control, 2021, 49(21): 36-42.
[3] 閆夢陽, 李華強(qiáng), 王俊翔, 等. 計(jì)及綜合需求響應(yīng)不確定性的園區(qū)綜合能源系統(tǒng)優(yōu)化運(yùn)行模型[J]. 電力系統(tǒng)保護(hù)與控制, 2022, 50(2): 163-175.
YAN Mengyang, LI Huaqiang, WANG Junxiang, et al. Optimal operation model of a park integrated energy system considering uncertainty of integrated demand response[J]. Power System Protection and Control, 2022, 50(2): 163-175.
[4] 鄭能, 丁曉群, 管志成, 等. 基于場景法的配電網(wǎng)有功–無功協(xié)調(diào)優(yōu)化[J]. 電網(wǎng)技術(shù), 2019, 43(5): 1640-1651.
ZHENG Neng, DING Xiaoqun, GUAN Zhicheng, et al. Active reactive power coordination optimization of distribution network based on scenario method[J]. Power System Technology, 2019, 43(5): 1640-1651.
[5] 周曉華, 張銀, 劉勝永, 等. 靜止無功補(bǔ)償器新型自適應(yīng)動態(tài)規(guī)劃電壓控制[J]. 電力系統(tǒng)保護(hù)與控制, 2018, 46(12): 77-84.
ZHOU Xiaohua, ZHANG Yin, LIU Shengyong, et al. Voltage control of static var compensator based on novel adaptive dynamic programming[J]. Power System Protection and Control, 2018, 46(12): 77-84.
[6] 郭清元, 吳杰康, 莫超, 等. 基于混合整數(shù)二階錐規(guī)劃的新能源配電網(wǎng)電壓無功協(xié)同優(yōu)化模型[J]. 中國電機(jī)工程學(xué)報(bào), 2018, 38(5): 1385-1396.
GUO Qingyuan, WU Jiekang, MO Chao, et al. A model for multi-objective coordination optimization of voltage and reactive power in distribution networks based on mixed integer second-order cone programming[J]. Proceedings of the CSEE, 2018, 38(5): 1385-1396.
[7] 盧姬, ??? 張?jiān)崎w, 等. 考慮DG不確定性的主動配電網(wǎng)兩階段無功機(jī)會約束優(yōu)化方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(21): 28-35.
LU Ji, CHANG Junxiao, ZHANG Yunge, et al. Two stage reactive power chance constrained optimization method for active distribution network considering DG uncertainty[J]. Power System Protection and Control, 2021, 49(21): 28-35.
[8] YOSHIDA H, KAWATA K. A particle swarm optimization for reactive power and voltage control considering voltage security assessment[J]. IEEE Transactions on Power Systems, 2000, 15(4): 1232-1239.
[9] DARATHA N, DAS B, SHARMA J. Robust voltage regulation in unbalanced radial distribution system under uncertainty of distributed generation and loads[J]. International Journal of Electrical Power & Energy Systems, 2015, 73: 516-527.
[10] VACCARO A, ZOBAA A F. Voltage regulation in active networks by distributed and cooperative meta-heuristic optimizers[J]. Electric Power Systems Research, 2013, 99(1): 9-17.
[11] 王慶斌, 劉涌, 楊昀, 等. 含分布式電源的10 kV配電網(wǎng)無功電壓控制方法[J]. 電力電容器與無功補(bǔ)償, 2018, 39(2): 125-130.
WANG Qingbin, LIU Yong, YANG Yun, et al. Reactive power voltage control method for 10 kV distribution network with distributed generation[J]. Power Capacitor & Reactive Power Compensation, 2018, 39(2): 125-130.
[12] 梁俊文, 林舜江, 劉明波. 主動配電網(wǎng)分布式無功優(yōu)化控制方法[J]. 電網(wǎng)技術(shù), 2018, 42(1): 230-237.
LIANG Junwen, LIN Shunjiang, LIU Mingbo. A method for distributed optimal reactive power control of active distribution network[J]. Power System Technology, 2018, 42(1): 230-237.
[13] 蔡永翔, 唐巍, 徐鷗洋, 等. 含高比例戶用光伏的低壓配電網(wǎng)電壓控制研究綜述[J]. 電網(wǎng)技術(shù), 2018, 42(1): 220-229.
CAI Yongxiang, TANG Wei, XU Ouyang, et al. Review of voltage control research in LV distribution network with high proportion of residential PVs[J]. Power System Technology, 2018, 42(1): 220-229.
[14] DUAN J, SHI D, DIAO R, et al. Deep reinforcement learning based autonomous voltage control for power grid operations[J]. IEEE Transactions on Power Systems, 2019, 35(1): 814-817.
[15] WANG S, DUAN J, SHI D, et al. A data-driven multi- agent autonomous voltage control framework using deep reinforcement learning[J]. IEEE Transactions on Power Systems, 2020, 35(6): 4644-4654.
[16] ZHANG X, LIU Y, DUAN J, et al. DDPG-based multi-agent framework for SVC tuning in urban power grid with renewable energy resources[J]. IEEE Transactions on Power Systems, 2021, 36(6): 5465-5475.
[17] 張宇精, 喬穎, 魯宗相, 等. 含高比例分布式電源接入的低感知度配電網(wǎng)電壓控制方法[J]. 電網(wǎng)技術(shù), 2019, 43(5): 1528-1535.
ZHANG Yujing, QIAO Ying, LU Zongxiang, et al. Voltage control for partially visible distribution networks with high DG penetration[J]. Power System Technology, 2019, 43(5): 1528-1535.
[18] HETZER J, YU D C, BHATTARAI K. An economic dispatch model incorporating wind power[J]. IEEE Transactions on Energy Conversion, 2008, 23(2): 603-611.
[19] 周瑜. 計(jì)及風(fēng)電場無功支撐能力的電網(wǎng)無功優(yōu)化調(diào)度研究[D]. 濟(jì)南: 山東大學(xué), 2021.
ZHOU Yu. Research on optimal reactive power dispatching of power grid considering the reactive power support capacity of wind farm[D]. Jinan: Shandong University, 2021.
[20] ZHANG S, CHENG H, LI K, et al. Multi-objective distributed generation planning in distribution network considering correlations among uncertainties[J]. Applied Energy, 2018, 226: 743-755.
[21] DALL' AN ESE E, DHOPLE S V, JOHNSON B B, et al. Optimal dispatch of residential photovoltaic inverters under forecasting uncertainties[J]. IEEE Journal of Photovoltaics, 2017, 5(1): 350-359.
[22] ZHANG S, CHENG H, ZHANG L, et al. Probabilistic evaluation of available load supply capability for distribution system[J]. IEEE Transactions on Power Systems, 2013, 28(3): 3215-3225.
[23] DESAI J P, MAKWANA V H. A novel out of step relaying algorithm based on wavelet transform and a deep learning machine model[J]. Protection and Control of Modern Power Systems, 2021, 6(4): 500-511.
[24] BARAN M E, WU F F. Network reconfiguration in distribution systems for loss reduction and load balancing[J]. IEEE Transactions on Power Delivery, 1989, 4(2): 1401-1407.
[25] 柴園園, 郭力, 王成山, 等. 含高滲透率光伏的配電網(wǎng)分布式電壓控制[J]. 電網(wǎng)技術(shù), 2018, 42(3): 738-746.
CHAI Yuanyuan, GUO Li, WANG Chengshan, et al. Distributed voltage control in distribution networks with high penetration of PV[J]. Power System Technology, 2018, 42(3): 738-746.
Local decentralized voltage management of a distribution network with a high proportion of renewable energy based on deep reinforcement learning
XU Bohan, XIANG Yue, PAN Li, FANG Mengqiu, PENG Guangbo, LIU Youbo, LIU Junyong
(College of Electrical Engineering, Sichuan University, Chengdu 610065, China)
A multi-agent decentralized local voltage control method based on the deep reinforcement learning is proposed. This is needed because there are some problems in the regional grid with renewable energy, such as poor communication conditions, insufficient measurement equipment, and difficult coordination of voltage control equipment at different nodes. First, this method transforms the voltage control problem lacking measurement data into a partial observable Markov decision problem, and a multi-agent decentralized voltage control framework with the optimization goal of minimizing network loss is constructed. Then, a multi-agent deep deterministic policy gradient algorithm is used to train the agents offline, and the trained agents are used for online voltage control. Finally, an example is simulated and analyzed based on the improved IEEE33 bus system. The results show that each agent can solve the approximate global optimal solution according to the electrical information of its own node.
multi-agent; voltage control; insufficient measurement data; multi-agent deep deterministic policy gradient algorithm
10.19783/j.cnki.pspc.220050
國家電網(wǎng)科技項(xiàng)目資助“基于群體智能的能源互聯(lián)網(wǎng)多源協(xié)同運(yùn)行關(guān)鍵技術(shù)研究”(SGTJDK00DWJS2100039)
This work is supported by the Science and Technology Project of State Grid Corporation of China (No. SGTJDK00DWJS2100039).
2022-02-12;
2022-03-31
徐博涵(1996—),男,碩士研究生,主要研究方向?yàn)殡娏ο到y(tǒng)智能調(diào)度;E-mail: bohanxu_scu@163.com
向 月(1987—),男,通信作者,副教授,博士,主要研究方向?yàn)殡娏ο到y(tǒng)智能調(diào)度等。E-mail: xiang@scu.edu.cn
(編輯 許 威)