劉 碩,郭創(chuàng)新,馮 斌,張 勇,王藝博
(1.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027;2.國家電網(wǎng)有限公司華北分部,北京 100053)
近年來,能源短缺、環(huán)境污染等問題日益嚴(yán)峻,隨著“雙碳”目標(biāo)的提出、“屋頂光伏”政策的出臺(tái),光伏等新能源得到了大力發(fā)展[1]。截至2022 年底,我國累計(jì)光伏容量達(dá)到3.92×108kW,其中分布式光伏占比為40.21 %。大量分布式光伏的接入,使原有的潮流走向發(fā)生改變,導(dǎo)致末端電壓嚴(yán)重越限,網(wǎng)絡(luò)損耗急劇增加[2]。光伏出力的不確定性、隨機(jī)性也造成節(jié)點(diǎn)電壓頻繁波動(dòng),電能質(zhì)量顯著降低,無法保證用戶負(fù)荷的可靠供電。配電網(wǎng)作為分布式光伏的主要接入對(duì)象,面臨經(jīng)濟(jì)、安全、穩(wěn)定運(yùn)行的巨大挑戰(zhàn)[3]。
與此同時(shí),受益于數(shù)字化技術(shù)的發(fā)展,配電網(wǎng)逐漸由被動(dòng)受控模式轉(zhuǎn)變?yōu)榫哂兄鲃?dòng)調(diào)控能力的智能系統(tǒng)。光伏逆變器連續(xù)可調(diào)的無功輸出能力為主動(dòng)配電網(wǎng)提供了更加靈活的調(diào)度手段[4]。光伏逆變器響應(yīng)速度快,控制精度高,具有較好的靈活性和經(jīng)濟(jì)性,能夠滿足在線應(yīng)用要求[5]。利用分布式光伏逆變器進(jìn)行無功功率補(bǔ)償,優(yōu)化潮流分布,抑制電壓波動(dòng),降低線路損耗,實(shí)現(xiàn)主動(dòng)電壓控制,已成為主動(dòng)配電網(wǎng)調(diào)度運(yùn)行的關(guān)鍵技術(shù)[6]。
目前,主動(dòng)電壓控制主要面臨精確性不足、實(shí)時(shí)性較差[7]的問題。傳統(tǒng)的數(shù)學(xué)優(yōu)化方法需依賴精確的物理模型[8],而低壓配電網(wǎng)的感知度往往較低,無法獲取完整的網(wǎng)絡(luò)參數(shù)。此外,優(yōu)化問題的復(fù)雜度會(huì)隨著控制變量的增多而急劇增長(zhǎng),且考慮到源荷不確定性、交流潮流約束[9],這類高維非線性優(yōu)化問題的求解效率較低,計(jì)算耗時(shí)較長(zhǎng),難以實(shí)現(xiàn)在線調(diào)控。
隨著人工智能技術(shù)的發(fā)展,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法在電網(wǎng)優(yōu)化運(yùn)行領(lǐng)域得到了廣泛的關(guān)注[10]。DRL作為一種無模型的數(shù)學(xué)驅(qū)動(dòng)方法[11],擺脫了對(duì)精確參數(shù)的依賴,能夠從歷史經(jīng)驗(yàn)中學(xué)習(xí)到泛化的控制策略,在執(zhí)行過程中只需要進(jìn)行神經(jīng)網(wǎng)絡(luò)的前饋運(yùn)算,可以滿足精確性、實(shí)時(shí)性的要求。文獻(xiàn)[12]采用行動(dòng)者-評(píng)論家算法來擬合離散無功調(diào)節(jié)設(shè)備的投切指令,實(shí)現(xiàn)了低感知度配電網(wǎng)的無功優(yōu)化,但所提方法無法對(duì)連續(xù)設(shè)備進(jìn)行調(diào)節(jié)。文獻(xiàn)[13]基于深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法制定無功出力計(jì)劃,實(shí)現(xiàn)了連續(xù)電壓控制。上述研究將所有無功設(shè)備視為統(tǒng)一的智能體,但實(shí)際上由于通信負(fù)擔(dān)、控制時(shí)延等問題,配電網(wǎng)難以進(jìn)行集中控制[14],因此需要將每臺(tái)設(shè)備視為單獨(dú)的智能體,采用多智能體DRL 方法[15]進(jìn)行分布式控制。文獻(xiàn)[16]采用多智能體深度確定性策略梯度(multi-agent DDPG,MADDPG)算法協(xié)調(diào)控制多臺(tái)無功設(shè)備,在實(shí)現(xiàn)穩(wěn)壓減損的同時(shí)降低了通信成本,保證了決策的實(shí)時(shí)性。文獻(xiàn)[17]在MADDPG 算法的基礎(chǔ)上進(jìn)行雙延遲改進(jìn),進(jìn)一步提升了算法的性能。
然而,上述MADDPG 算法存在信用分配、過度泛化等問題,導(dǎo)致其在面對(duì)復(fù)雜多變的配電網(wǎng)環(huán)境時(shí)存在策略學(xué)習(xí)能力有限、主動(dòng)電壓控制的性能表現(xiàn)欠佳問題。一方面,MADDPG 算法使用全局價(jià)值網(wǎng)絡(luò)對(duì)所有智能體的整體動(dòng)作進(jìn)行打分,無法分辨?zhèn)€體動(dòng)作的貢獻(xiàn)程度,這就容易導(dǎo)致“懶惰智能體”的出現(xiàn),即在其他智能體已經(jīng)學(xué)習(xí)到較好策略的情況下,某些智能體不再進(jìn)行探索更新。另一方面,MADDPG 算法在進(jìn)行策略學(xué)習(xí)時(shí),選取其他智能體的歷史動(dòng)作進(jìn)行評(píng)分指導(dǎo),并對(duì)每個(gè)智能體分別進(jìn)行參數(shù)更新,這會(huì)導(dǎo)致最終的策略易陷入次優(yōu)解,各設(shè)備之間無法做到有效協(xié)調(diào)[18]。
針對(duì)上述問題,本文提出一種基于價(jià)值分解的MADDPG(value decomposition based MADDPG,VDMADDPG)算法。首先,介紹分布式光伏逆變器的無功調(diào)節(jié)原理,建立主動(dòng)電壓控制問題的分布式部分可觀測(cè)馬爾可夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP)模型;然后,在MADDPG 算法的基礎(chǔ)上,引入分解式價(jià)值網(wǎng)絡(luò)和集中式策略梯度2 項(xiàng)改進(jìn)措施,構(gòu)成VD-MADDPG 算法,并介紹其架構(gòu)和流程;最后,以改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)為算例進(jìn)行仿真分析。結(jié)果表明,所提VD-MADDPG 算法能有效改善潮流分布,緩解電壓越限,降低網(wǎng)絡(luò)損耗,且收斂速度更快,對(duì)復(fù)雜場(chǎng)景的魯棒性更強(qiáng)。
本文利用配電網(wǎng)中分布式光伏逆變器輸出的無功功率來平抑電壓波動(dòng),緩解電壓越限問題,并盡可能地降低網(wǎng)絡(luò)損耗,從而實(shí)現(xiàn)主動(dòng)電壓控制。假設(shè)總控制周期為T,配電網(wǎng)中共有M個(gè)節(jié)點(diǎn)和N臺(tái)光伏,用t、m、n分別表示時(shí)刻、節(jié)點(diǎn)、光伏索引號(hào)。主動(dòng)電壓控制的目標(biāo)函數(shù)為:
式中:QPV,n,t為t時(shí)刻第n臺(tái)光伏逆變器的無功出力;Um,t為t時(shí)刻節(jié)點(diǎn)m的電壓幅值;U0為電壓基準(zhǔn)值;Ploss,t為t時(shí)刻系統(tǒng)網(wǎng)絡(luò)損耗;α為協(xié)調(diào)因子,用來平衡電壓偏差和網(wǎng)絡(luò)損耗。
為了積極響應(yīng)國家的“雙碳”目標(biāo)和“整縣光伏”政策,保證新能源充分消納,避免出現(xiàn)棄光現(xiàn)象,本文假設(shè)光伏在白天工作在最大功率點(diǎn)跟蹤模式,在夜晚工作在靜止同步補(bǔ)償器模式,因此不削減光伏的有功出力,僅調(diào)節(jié)逆變器的無功出力。光伏逆變器的無功出力QPV,n,t所能調(diào)節(jié)的范圍與其額定視在容量Sn,max和實(shí)時(shí)有功出力PPV,n,t相關(guān),關(guān)系式為:
光伏的額定視在容量一般約為其最大有功出力的1.1倍[19],即使在夏季正午時(shí)段光伏有功功率滿發(fā)的情況下,逆變器的最大無功出力仍能達(dá)到光伏有功出力的45.8 %[17]。而在其他時(shí)段,光伏逆變器的無功調(diào)節(jié)潛力更加可觀。因此,利用分布式光伏逆變器進(jìn)行無功調(diào)節(jié),可以較好地滿足主動(dòng)電壓控制的調(diào)度需求。
由于難以精確獲取配電網(wǎng)的模型參數(shù),且新能源出力的快速波動(dòng)對(duì)決策的實(shí)時(shí)性提出了較高的要求,傳統(tǒng)的數(shù)學(xué)優(yōu)化方法已無法適應(yīng)當(dāng)前控制場(chǎng)景。而DRL 的應(yīng)用能夠有效地解決上述不足,實(shí)現(xiàn)無模型數(shù)據(jù)驅(qū)動(dòng)和實(shí)時(shí)決策控制。使用DRL 方法需要將問題建模為馬爾可夫決策過程,又由于受到通信時(shí)延、隱私保護(hù)的限制,分布式光伏只能觀測(cè)到局部區(qū)域的信息,因此本文將主動(dòng)電壓控制問題建模為Dec-POMDP。
Dec-POMDP 由元組(s,o,a,r,K,γ)組成,其中:s、o、a、r分別為智能體的狀態(tài)、觀測(cè)、動(dòng)作、獎(jiǎng)勵(lì);K為狀態(tài)轉(zhuǎn)移函數(shù),表示環(huán)境根據(jù)當(dāng)前狀態(tài)、動(dòng)作轉(zhuǎn)移至下一狀態(tài)的概率;γ為折扣率,表示對(duì)未來回報(bào)的關(guān)注度。DRL 的目標(biāo)是尋找最優(yōu)的聯(lián)合控制策略,使累計(jì)折扣回報(bào)最大。本文采用下標(biāo)n表示單個(gè)智能體的個(gè)體變量,用來區(qū)分所有智能體的聯(lián)合變量。
針對(duì)主動(dòng)電壓控制問題,配電網(wǎng)中每臺(tái)分布式光伏均可視為1 個(gè)單獨(dú)的智能體,Dec-POMDP 相關(guān)變量的具體含義如下。
1)狀態(tài)st={fm,t|m=1,2,…,M}。st為t時(shí)刻所有 節(jié) 點(diǎn) 特 征 量 的 集 合,fm,t=[PL,m,t,QL,m,t,PPV,m,t,QPV,m,t-1,Um,t-1,δm,t-1]為t時(shí)刻節(jié)點(diǎn)m處的特征量,其中:PL,m,t、QL,m,t分別為t時(shí)刻節(jié)點(diǎn)m處負(fù)荷的有功、無功功率;PPV,m,t為t時(shí)刻節(jié)點(diǎn)m處光伏逆變器的有功出力;QPV,m,t-1為t-1 時(shí)刻節(jié)點(diǎn)m處光伏逆變器的無功出力;Um,t-1、δm,t-1分別為t-1時(shí)刻節(jié)點(diǎn)m的電壓幅值、相角。若節(jié)點(diǎn)m處沒有負(fù)荷或光伏,則相應(yīng)的功率為0。
2)觀測(cè)ot={on,t|n=1,2,…,N}。聯(lián)合觀測(cè)ot由各智能體的局部觀測(cè)on,t組成。單個(gè)智能體只能觀測(cè)到區(qū)域內(nèi)的節(jié)點(diǎn)特征量,即on,t={fm,t|m∈Mn},Mn為智能體n所在區(qū)域的節(jié)點(diǎn)集合。
3)動(dòng)作at={an,t|n=1,2,…,N}。聯(lián)合動(dòng)作at由各智能體的個(gè)體動(dòng)作an,t組成,其中an,t=QPV,n,t,即智能體n的動(dòng)作為當(dāng)前時(shí)刻光伏逆變器的無功出力。
4)獎(jiǎng)勵(lì)。在本文問題中各智能體為完全合作關(guān)系,通過相互協(xié)調(diào)使得系統(tǒng)電壓偏差和網(wǎng)絡(luò)損耗最小,因此智能體之間共享獎(jiǎng)勵(lì)。將式(1)中單個(gè)時(shí)刻的目標(biāo)函數(shù)取反,構(gòu)成全局獎(jiǎng)勵(lì)rt,如式(3)所示。
5)狀態(tài)轉(zhuǎn)移。在當(dāng)前的運(yùn)行狀態(tài)下,分布式光伏根據(jù)自身的策略控制逆變器輸出無功補(bǔ)償功率,電網(wǎng)潮流重新分布,節(jié)點(diǎn)電壓和網(wǎng)絡(luò)損耗發(fā)生改變,光伏有功出力和負(fù)荷功率隨機(jī)波動(dòng),由此轉(zhuǎn)移到下一時(shí)刻的狀態(tài)。
分布式光伏的輸出連續(xù)可調(diào),針對(duì)此類多智能體連續(xù)控制問題,經(jīng)典的DRL 為MADDPG 算法。MADDPG 算法訓(xùn)練簡(jiǎn)單,實(shí)現(xiàn)方便,但存在信用分配、過度泛化等問題,在面對(duì)復(fù)雜多變的電網(wǎng)環(huán)境時(shí)控制效果欠佳。因此,下面在MADDPG 算法的基礎(chǔ)上,引入分解式價(jià)值網(wǎng)絡(luò)、集中式策略梯度2項(xiàng)改進(jìn)措施,提出VD-MADDPG算法,并介紹算法架構(gòu)及流程。
MADDPG 算法采用行動(dòng)者-評(píng)論家神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如附錄A 圖A1 所示,其中包含N個(gè)策略網(wǎng)絡(luò)μn和1 個(gè)全局價(jià)值網(wǎng)絡(luò)ν,網(wǎng)絡(luò)參數(shù)分別為θn和ω。策略網(wǎng)絡(luò)μn根據(jù)觀測(cè)on,t生成相應(yīng)的動(dòng)作an,t,價(jià)值網(wǎng)絡(luò)ν則根據(jù)狀態(tài)st對(duì)所有智能體的動(dòng)作at進(jìn)行打分,獲得全局價(jià)值qt,如式(4)和式(5)所示。
MADDPG 算法是一種異策略算法,其訓(xùn)練過程分為探索和更新2 個(gè)部分。在探索過程中,智能體通過行為策略收集經(jīng)驗(yàn)。行為策略通常是在當(dāng)前策略網(wǎng)絡(luò)輸出的基礎(chǔ)上加入隨機(jī)噪聲ξ,從而得到行為動(dòng)作abeh,n,t,而噪聲ξ服從均值為0、標(biāo)準(zhǔn)差為σ的高斯分布中隨機(jī)抽取得到,如式(6)和式(7)所示。
經(jīng)過1 次行為策略的探索,便會(huì)產(chǎn)生1 條經(jīng)驗(yàn),用六元組(st,ot,at,rt,st+1,ot+1)表示,并將其存入經(jīng)驗(yàn)回放數(shù)組中。當(dāng)數(shù)組存滿后,使用新的交互數(shù)據(jù)代替最舊的記錄。數(shù)組的大小是可調(diào)的超參數(shù),其會(huì)影響訓(xùn)練的效果。使用經(jīng)驗(yàn)回放可以打破序列的相關(guān)性,且可以重復(fù)利用歷史經(jīng)驗(yàn),提高樣本效率。
經(jīng)過預(yù)熱訓(xùn)練后,采用蒙特卡羅算法從經(jīng)驗(yàn)回放數(shù)組中隨機(jī)抽取小批量的樣本,用樣本均值代替期望,以此更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。假設(shè)批量大小為B,其 中 第b(b=1,2,…,B)條 樣 本 為(sb,ob,ab,rb,s′b,o′b),sb、rb分別為更新過程中第b條樣本的狀態(tài)、獎(jiǎng)勵(lì)值,ob={on,b|n=1,2,…,N}為更新過程中第b條樣本的觀測(cè),ab={an,b|n=1,2,…,N}為更新過程中第b條樣本的動(dòng)作,o′b={o′n,b|n=1,2,…,N},上標(biāo)“ ′ ”表示下一時(shí)刻的變量。
為了緩解自舉和最大化造成的價(jià)值高估問題,還需要引入目標(biāo)策略網(wǎng)絡(luò)μn-和目標(biāo)價(jià)值網(wǎng)絡(luò)ν-,其網(wǎng)絡(luò)架構(gòu)與原網(wǎng)絡(luò)相同,但參數(shù)分別變?yōu)棣萵-和ω-。
首先使用時(shí)間差分(temporal difference,TD)算法更新價(jià)值網(wǎng)絡(luò)ν的參數(shù)ω。針對(duì)第b條樣本,通過目標(biāo)網(wǎng)絡(luò)依次計(jì)算下一時(shí)刻的動(dòng)作a′n,b-和價(jià)值q′b-,由此得到TD目標(biāo)yb-,如式(8)—(10)所示。
通過價(jià)值網(wǎng)絡(luò)計(jì)算當(dāng)前的價(jià)值qb,并得到TD 誤差λb,分別如式(11)和式(12)所示。
根據(jù)樣本的TD誤差λb,利用梯度下降更新價(jià)值網(wǎng)絡(luò)參數(shù)ω,如式(13)所示。
式中:ην為價(jià)值網(wǎng)絡(luò)的學(xué)習(xí)率。
然后使用策略梯度算法更新策略網(wǎng)絡(luò)μn的參數(shù)θn。針對(duì)第b條樣本,根據(jù)智能體n的觀測(cè)on,b計(jì)算其動(dòng)作a^n,b,再結(jié)合該樣本中其他智能體的歷史動(dòng)作a1,b、a2,b、…、an-1,b、an+1,b、…、aN,b,得到動(dòng)作價(jià)值q^n,b,如式(14)和式(15)所示。
根據(jù)鏈?zhǔn)椒▌t計(jì)算策略梯度gn,b,再由B條樣本的均值,利用梯度上升更新θn,見式(16)和式(17)。
式中:ημ為策略網(wǎng)絡(luò)的學(xué)習(xí)率。
最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價(jià)值網(wǎng)絡(luò)的參數(shù)θn-、ω-,分別如式(18)和式(19)所示。
式中:τ為軟更新因子。
MADDPG 算法存在信用分配問題,其采用集中式價(jià)值網(wǎng)絡(luò)對(duì)所有智能體的動(dòng)作進(jìn)行綜合評(píng)價(jià),但無法量化每個(gè)智能體對(duì)全局價(jià)值的貢獻(xiàn)程度,因此可能會(huì)出現(xiàn)“懶惰智能體”。當(dāng)部分智能體提前學(xué)習(xí)到較好的策略,對(duì)獎(jiǎng)勵(lì)有較大的提升時(shí),某些智能體會(huì)失去探索的動(dòng)力。所以集中式價(jià)值網(wǎng)絡(luò)會(huì)造成最終策略陷入次優(yōu)解,導(dǎo)致算法拓展性較差。針對(duì)上述問題,本文提出分解式價(jià)值網(wǎng)絡(luò)的改進(jìn)方法,將全局價(jià)值分解為每個(gè)智能體的個(gè)體價(jià)值,由此分辨每臺(tái)光伏設(shè)備對(duì)系統(tǒng)整體電壓控制的效用。VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 VD-MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Neural network structure of VD-MADDPG algorithm
智能體n將自身的觀測(cè)on,t和動(dòng)作an,t輸入個(gè)體價(jià)值網(wǎng)絡(luò)νn中,其參數(shù)為ωn,由此得到個(gè)體價(jià)值qn,t,如式(20)所示。
然后將狀態(tài)st和所有智能體的個(gè)體價(jià)值q1,t、q2,t、…、qN,t輸入混合網(wǎng)絡(luò)φ(其參數(shù)為χ)中,得到全局價(jià)值qt,如式(21)所示。
與MADDPG 算法類似,在訓(xùn)練過程中還需引入目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個(gè)體價(jià)值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-,假設(shè)其參數(shù)分別為θn-、ωn-、χ-。
采用TD 算法更新個(gè)體價(jià)值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ的參數(shù)ωn、χ。根據(jù)目標(biāo)網(wǎng)絡(luò)計(jì)算第b條樣本對(duì)應(yīng)下一時(shí)刻的動(dòng)作a′n,b-、個(gè)體價(jià)值q′n,b-、全局價(jià)值q′b-,由此得到TD目標(biāo)yb-,見式(22)—(25)。
將第b條樣本中的動(dòng)作an,b輸入個(gè)體價(jià)值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ中,得到當(dāng)前時(shí)刻的個(gè)體價(jià)值qn,b和全局價(jià)值qb,再根據(jù)TD 目標(biāo)yb-計(jì)算TD 誤差λb,如式(26)—(28)所示。
根據(jù)所有樣本的TD誤差λb,利用梯度下降和鏈?zhǔn)椒▌t更新參數(shù)ωn、χ,分別見式(29)和式(30)。
式中:ηφ為混合網(wǎng)絡(luò)的學(xué)習(xí)率。
當(dāng)MADDPG 算法更新策略網(wǎng)絡(luò)參數(shù)時(shí),在式(15)所示動(dòng)作價(jià)值q^n,b的計(jì)算過程中,只有智能體n的動(dòng)作是根據(jù)當(dāng)前策略網(wǎng)絡(luò)μn計(jì)算得到的,而其他智能體均是從經(jīng)驗(yàn)回放數(shù)組中抽取的歷史動(dòng)作,當(dāng)前策略的動(dòng)作選擇存在較大的差異,因此容易導(dǎo)致策略網(wǎng)絡(luò)的過度泛化。而在式(16)所示策略梯度gn,b的計(jì)算過程中,MADDPG算法針對(duì)每個(gè)智能體的策略進(jìn)行單獨(dú)更新,造成智能體之間的協(xié)調(diào)性較差,導(dǎo)致最終聯(lián)合策略的性能表現(xiàn)欠佳。
因此,本文針對(duì)上述不足,提出集中式策略梯度的改進(jìn)方法。根據(jù)當(dāng)前的策略網(wǎng)絡(luò)μn,計(jì)算每一個(gè)智能體的最新動(dòng)作a^n,b,再通過個(gè)體價(jià)值網(wǎng)絡(luò)νn和混合網(wǎng)絡(luò)φ依次得到個(gè)體價(jià)值q^n,b和全局價(jià)值q^b,如式(31)—(33)所示。
假設(shè)所有策略網(wǎng)絡(luò)的參數(shù)θ1、θ2、…、θN構(gòu)成聯(lián)合策略參數(shù)θ。求解全局價(jià)值q^b對(duì)聯(lián)合策略參數(shù)θ的梯度gb,再利用梯度上升對(duì)所有智能體的策略網(wǎng)絡(luò)進(jìn)行集中更新,如式(34)和式(35)所示。
最后采用軟更新算法更新目標(biāo)策略網(wǎng)絡(luò)μn-、目標(biāo)個(gè)體價(jià)值網(wǎng)絡(luò)νn-和目標(biāo)混合網(wǎng)絡(luò)φ-的參數(shù)θn-、ωn-、χ-,分別如式(36)—(38)所示。
引入上述分解式價(jià)值網(wǎng)絡(luò)和集中式策略梯度2 項(xiàng)改進(jìn)措施后,本文提出了VD-MADDPG 算法。VD-MADDPG 算法的實(shí)現(xiàn)方式為中心化訓(xùn)練和去中心化執(zhí)行(centralized training with decentralized execution,CTDE)架構(gòu)[20],即在配電網(wǎng)主站進(jìn)行訓(xùn)練,在配電網(wǎng)邊緣側(cè)進(jìn)行控制,其架構(gòu)圖如附錄A圖A2 所示。在中心化訓(xùn)練過程中,配電網(wǎng)主站收集全局信息,智能體之間可以共享觀測(cè)、動(dòng)作等數(shù)據(jù),由此根據(jù)全局價(jià)值分?jǐn)?shù)指導(dǎo)每個(gè)智能體改進(jìn)自身策略。當(dāng)訓(xùn)練結(jié)束后,配電網(wǎng)主站將策略網(wǎng)絡(luò)的參數(shù)下發(fā)至各分布式光伏的邊緣計(jì)算裝置中,而不需要下發(fā)個(gè)體價(jià)值網(wǎng)絡(luò)和混合網(wǎng)絡(luò)的參數(shù)。去中心化執(zhí)行過程在邊緣側(cè)完成,各分布式光伏只需要采集所在局部區(qū)域的節(jié)點(diǎn)特征信息,無須進(jìn)行各裝置之間的通信和數(shù)據(jù)共享,僅依靠自身策略網(wǎng)絡(luò)的前饋運(yùn)算便可以輸出控制動(dòng)作,執(zhí)行速度達(dá)到毫秒級(jí)。使用CTDE 架構(gòu)既可以學(xué)習(xí)到全局協(xié)調(diào)的控制策略,又能減少通信時(shí)延,節(jié)約通信成本,保證決策的實(shí)時(shí)性。VD-MADDPG算法的具體流程如附錄B所示。
為了進(jìn)行分布式光伏主動(dòng)電壓控制仿真測(cè)試,本文對(duì)IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)進(jìn)行改進(jìn),在節(jié)點(diǎn)12、17、21、24、28、32 處安裝光伏,并將配電網(wǎng)劃分為4個(gè)區(qū)域。系統(tǒng)的基準(zhǔn)電壓為12.66 kV,電壓安全范圍為[0.95,1.05] p.u.。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)拓?fù)淙绺戒汣圖C1所示。
光伏及負(fù)荷數(shù)據(jù)來自華北電網(wǎng)某地區(qū)2020 —2022連續(xù)3 a的歷史記錄,數(shù)據(jù)時(shí)間間隔為5 min,與實(shí)時(shí)調(diào)度時(shí)間尺度一致。本文設(shè)置總控制周期為1 d,即1 個(gè)控制周期內(nèi)包含288 個(gè)時(shí)間步。從總數(shù)據(jù)集中隨機(jī)選取10 d 數(shù)據(jù)構(gòu)成驗(yàn)證集,隨機(jī)選取120 d數(shù)據(jù)構(gòu)成測(cè)試集,其余數(shù)據(jù)則作為訓(xùn)練集。
為了驗(yàn)證本文所提算法的有效性,選取無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種控制方法進(jìn)行對(duì)比分析。其中:無控制方法表示將所有光伏逆變器的無功出力設(shè)置為0;基于MADDPG 算法、基于VD-MADDPG 算法的控制方法的優(yōu)化目標(biāo)一致,均為求解最優(yōu)協(xié)調(diào)控制策略,使系統(tǒng)電壓偏差、網(wǎng)絡(luò)損耗最小,協(xié)調(diào)因子α=0.1;基于集中式優(yōu)化的控制方法表示在全局網(wǎng)絡(luò)參數(shù)已知的情況下得出理論最優(yōu)解。本文根據(jù)經(jīng)驗(yàn)列出超參數(shù)的典型取值范圍,然后進(jìn)行網(wǎng)格搜索確定各超參數(shù)的最佳取值。最終結(jié)果如下:神經(jīng)網(wǎng)絡(luò)隱藏層維度為64,經(jīng)驗(yàn)回放數(shù)組的大小為5 000,樣本批量大小為32,折扣率γ=0.99,行為策略中的噪聲標(biāo)準(zhǔn)差σ=0.1,價(jià)值網(wǎng)絡(luò)、策略網(wǎng)絡(luò)、混合網(wǎng)絡(luò)的學(xué)習(xí)率ην、ημ、ηφ均為0.001,目標(biāo)網(wǎng)絡(luò)的軟更新因子τ=0.01。
采用基于MADDPG 算法和基于VD-MADDPG算法的控制方法訓(xùn)練智能體,設(shè)置總訓(xùn)練回合數(shù)為400,每隔10 個(gè)回合進(jìn)行1 次驗(yàn)證,計(jì)算其平均獎(jiǎng)勵(lì)值。選取5 個(gè)隨機(jī)種子進(jìn)行重復(fù)訓(xùn)練,觀察訓(xùn)練過程的穩(wěn)定性。同時(shí)對(duì)比無控制方法和基于集中式優(yōu)化的控制方法的獎(jiǎng)勵(lì)值。獎(jiǎng)勵(lì)訓(xùn)練曲線見圖2,圖中陰影部分表示誤差范圍。
圖2 獎(jiǎng)勵(lì)訓(xùn)練曲線Fig.2 Training curves of reward
由圖2 可知,本文所提VD-MADDPG 算法在獎(jiǎng)勵(lì)大小、收斂速度、訓(xùn)練穩(wěn)定性等方面均優(yōu)于傳統(tǒng)的MADDPG 算 法。MADDPG 算 法 和VD-MADDPG 算法在訓(xùn)練初期采用行為策略進(jìn)行隨機(jī)探索,控制效果較差,獎(jiǎng)勵(lì)值甚至低于無控制時(shí)的表現(xiàn)。隨著訓(xùn)練回合數(shù)的增加,智能體不斷地積累經(jīng)驗(yàn),并逐漸學(xué)習(xí)到更優(yōu)的控制策略,獎(jiǎng)勵(lì)曲線隨之增大直至收斂。無控制方法和基于集中式優(yōu)化的控制方法的平均獎(jiǎng)勵(lì)分別為-0.682 8、-0.354 6,基于MADDPG 算法和基于VD-MADDPG 算法的控制方法分別在第300 個(gè)回合和第200 個(gè)回合左右收斂,最終獎(jiǎng)勵(lì)值分別為-0.417 7、-0.384 7,相比于無控制方法分別提升了38.83 %、43.66 %。相比基于MADDPG 算法的控制方法,基于VD-MADDPG 算法的控制方法的收斂值更加接近理論最優(yōu)值,且誤差范圍更窄,波動(dòng)性更小,具有更好的訓(xùn)練穩(wěn)定性,由此驗(yàn)證了本文所提VD-MADDPG 算法的優(yōu)越性。VD-MADDPG 算法采用了分解式價(jià)值網(wǎng)絡(luò)和集中式策略梯度2 項(xiàng)改進(jìn)方法,因此能夠評(píng)價(jià)每臺(tái)光伏對(duì)系統(tǒng)電壓控制的貢獻(xiàn)程度,避免出現(xiàn)“懶惰智能體”,并且對(duì)所有智能體的策略進(jìn)行協(xié)同更新,能夠保證學(xué)習(xí)到全局最優(yōu)的聯(lián)合策略,進(jìn)一步提升了算法的訓(xùn)練效果。
將上述訓(xùn)練好的策略模型應(yīng)用于測(cè)試集上進(jìn)行測(cè)試,對(duì)比4 種方法的控制性能。測(cè)試指標(biāo)包括電壓偏差、網(wǎng)絡(luò)損耗、計(jì)算時(shí)間。此外,為了從時(shí)空的不同角度進(jìn)一步刻畫電壓控制效果,本文還引入電壓越限率、完全控制率2 項(xiàng)指標(biāo)。電壓越限率是指電壓超過安全范圍的節(jié)點(diǎn)的數(shù)量比例,完全控制率是指將所有節(jié)點(diǎn)的電壓控制在安全范圍內(nèi)的時(shí)間占比。測(cè)試集結(jié)果見表1,表中電壓偏差為標(biāo)幺值。
表1 測(cè)試集結(jié)果Table 1 Results of test set
由表1可知,相較于MADDPG算法,VD-MADDPG算法在測(cè)試集上取得了更好的穩(wěn)壓減損控制效果。當(dāng)不對(duì)配電網(wǎng)中的分布式光伏進(jìn)行控制時(shí),系統(tǒng)電壓存在較大的偏差,平均有4.75 % 的節(jié)點(diǎn)發(fā)生電壓越限,僅有78.46 % 的時(shí)間能保證所有節(jié)點(diǎn)的電壓均處于安全范圍內(nèi)。無控制時(shí)光伏逆變器的無功出力為0,潮流在節(jié)點(diǎn)間的流動(dòng)較少,因此線路上的功率損耗較小。當(dāng)采用基于MADDPG 算法、基于VD-MADDPG算法的控制方法后,電壓波動(dòng)得到了明顯平抑,電壓偏差分別降低了46.87 %、58.88 %,電壓越限率分別減少了88.84 %、99.16 %,完全控制率分別提升了13.97 %、26.51 %,這驗(yàn)證了使用分布式光伏進(jìn)行主動(dòng)電壓控制的有效性。而相較于MADDPG算法,VD-MADDPG 算法的穩(wěn)壓性能更優(yōu)異,僅有0.04 % 的節(jié)點(diǎn)發(fā)生電壓越限,配電網(wǎng)在99.26 % 的時(shí)間內(nèi)可安全穩(wěn)定運(yùn)行。雖然使用光伏逆變器輸出無功后,會(huì)增加系統(tǒng)的有功損耗,但VD-MADDPG 算法可在實(shí)現(xiàn)優(yōu)異的穩(wěn)壓效果的基礎(chǔ)上,保持較小的網(wǎng)絡(luò)損耗,其網(wǎng)損值為MADDPG 算法結(jié)果的33.87 %。此外,VD-MADDPG 算法的電壓偏差、電壓越限率、完全控制率、網(wǎng)絡(luò)損耗的標(biāo)準(zhǔn)差分別為MADDPG 算法結(jié)果的79.77 %、22.62 %、23.93 %、70.31 %,這表明VD-MADDPG 算法在面對(duì)不同的復(fù)雜場(chǎng)景時(shí),具有更好的魯棒性、泛化能力。上述結(jié)果驗(yàn)證了本文所提算法的優(yōu)越性,通過使用分解式價(jià)值網(wǎng)絡(luò)和集中式策略梯度可大幅提升算法的性能表現(xiàn)。
雖然VD-MADDPG 算法的測(cè)試結(jié)果無法達(dá)到理論最優(yōu)值,但集中式優(yōu)化方法需要依賴于復(fù)雜的量測(cè)裝置和完善的通信設(shè)施,建設(shè)成本過高,而VD-MADDPG 算法能從歷史經(jīng)驗(yàn)中學(xué)習(xí)到有效的協(xié)調(diào)策略,通過分布式控制達(dá)到近似最優(yōu)的穩(wěn)壓減損效果,因此更加適用于低感知度配電網(wǎng)。此外,從表1 中還可看出,MADDPG、VD-MADDPG 算法僅需1 ms 左右的時(shí)間便可完成決策,遠(yuǎn)小于優(yōu)化求解所需時(shí)間。這是因?yàn)镸ADDPG、VD-MADDPG 算法在執(zhí)行過程中只需進(jìn)行策略網(wǎng)絡(luò)的前饋運(yùn)算,因此具有極高的時(shí)效性,可充分滿足在線應(yīng)用的要求。MADDPG 和VD-MADDPG 算法的策略網(wǎng)絡(luò)結(jié)構(gòu)相同,僅網(wǎng)絡(luò)參數(shù)存在差異,因此計(jì)算時(shí)間基本一致。
為了驗(yàn)證本文所提方法在高光伏滲透率情況下的魯棒性和泛化能力,從測(cè)試集中選取光伏滲透率為250%的典型日?qǐng)鼍斑M(jìn)行測(cè)試,其光伏及負(fù)荷曲線如附錄C 圖C2 所示。由圖可知,光伏出力和負(fù)荷需求分別在13:15、20:00左右達(dá)到最大值。
在該典型日?qǐng)鼍跋?,分別使用無控制、基于MADDPG算法、基于VD-MADDPG算法、基于集中式優(yōu)化的4 種方法進(jìn)行控制。節(jié)點(diǎn)17 位于線路末端,且安裝有大容量光伏,因此將節(jié)點(diǎn)17 作為代表性節(jié)點(diǎn),對(duì)比4 種控制方法下的電壓(標(biāo)幺值)曲線,并觀察系統(tǒng)網(wǎng)絡(luò)損耗的變化情況,分別見圖3和圖4。
圖4 典型日的網(wǎng)絡(luò)損耗曲線Fig.4 Network loss curves on typical day
由圖3可看出,相較于傳統(tǒng)MADDPG 算法,本文所提VD-MADDPG 算法取得了更好的穩(wěn)壓效果。當(dāng)不對(duì)電壓進(jìn)行控制時(shí),節(jié)點(diǎn)電壓在11:30 — 14:45 時(shí)段超過安全上限,在19:30 — 22:45 時(shí)段低于安全下限,節(jié)點(diǎn)電壓偏差的平均值為0.037 p.u.,電壓波動(dòng)劇烈,電能質(zhì)量很差。當(dāng)采用MADDPG 算法進(jìn)行控制時(shí),節(jié)點(diǎn)電壓整體抬升,雖然保證了夜晚時(shí)段的電壓安全,但在正午時(shí)段電壓越限的嚴(yán)重程度反而加重了,電壓偏差高達(dá)0.042 p.u.。而采用本文所提VD-MADDPG 算法進(jìn)行改進(jìn)后,節(jié)點(diǎn)電壓在整個(gè)典型日均處于安全范圍之內(nèi),電壓偏差降為0.019 p.u.,相比MADDPG 算法的結(jié)果減少了54.76 %,說明VD-MADDPG 算法能夠?qū)W習(xí)到更好的控制策略,實(shí)現(xiàn)多臺(tái)光伏設(shè)備的有效協(xié)調(diào),解決了電壓越限問題。集中式優(yōu)化雖然能夠給出理論最優(yōu)解,電壓偏差達(dá)到最小值0.017 p.u.,但該方法需要依賴于精確的網(wǎng)絡(luò)參數(shù),且求解速度緩慢,難以進(jìn)行在線部署。而VD-MADDPG 算法能夠從歷史交互數(shù)據(jù)中學(xué)習(xí)到近似最優(yōu)的控制策略,其電壓曲線與集中式優(yōu)化方法得到的電壓曲線十分接近,在正午時(shí)段幾乎重合,并且可以進(jìn)行實(shí)時(shí)決策,能夠充分滿足實(shí)際調(diào)度需要,這驗(yàn)證了本文所提VD-MADDPG算法的優(yōu)越性。
由圖4可看出,4種控制方法下的全天平均網(wǎng)絡(luò)損耗分別為0.110 4、0.251 0、0.141 2、0.130 5 MW。無控制時(shí)的功率流動(dòng)最少,因此網(wǎng)絡(luò)損耗最小。相比于MADDPG 算法,采用VD-MADDPG 算法時(shí)網(wǎng)絡(luò)損耗減少了43.75 %,能夠在保證電壓安全穩(wěn)定的同時(shí),將功率損耗維持在較小的水平,僅略高于集中式優(yōu)化方法的結(jié)果。這進(jìn)一步驗(yàn)證了本文所提VD-MADDPG算法在主動(dòng)電壓控制問題上的優(yōu)越性。
為了進(jìn)一步驗(yàn)證VD-MADDPG 算法對(duì)各智能體的動(dòng)作改進(jìn)效果,將光伏出力最大的13:15時(shí)刻作為代表性時(shí)刻,展示基于MADDPG 算法、VD-MADDPG算法、集中式優(yōu)化這3種控制方法下6臺(tái)光伏逆變器PV1—PV6的無功功率動(dòng)作,結(jié)果如圖5所示。
圖5 光伏逆變器的無功功率動(dòng)作Fig.5 Reactive power action of photovoltaic inverters
集中式優(yōu)化方法能給出理論上的最優(yōu)解,因此可將該方法下的光伏逆變器無功出力作為最優(yōu)動(dòng)作基準(zhǔn)。由圖5 可知,當(dāng)采用VD-MADDPG 算法改進(jìn)后,6 臺(tái)光伏逆變器的無功出力均變得更好,與最優(yōu)動(dòng)作基準(zhǔn)的差距變小。當(dāng)采用MADDPG 算法時(shí),各光伏逆變器的無功出力與最優(yōu)動(dòng)作基準(zhǔn)的相對(duì)最大差距為94.24 %,相對(duì)差距最大的“懶惰智能體”為PV4。由于懶惰現(xiàn)象的存在,各光伏逆變器間無法做到有效協(xié)調(diào),控制策略陷入次優(yōu)解,難以解決電壓越限問題。而采用VD-MADDPG 算法后,PV4的相對(duì)動(dòng)作差距降為17.50 %,其他光伏逆變器的動(dòng)作差距也均得到降低。這說明采用價(jià)值分解進(jìn)行算法改進(jìn)后,每個(gè)智能體都有相應(yīng)的個(gè)體價(jià)值網(wǎng)絡(luò)對(duì)自身動(dòng)作進(jìn)行打分,評(píng)價(jià)其對(duì)全局價(jià)值的貢獻(xiàn),以此督促每個(gè)智能體進(jìn)行經(jīng)驗(yàn)探索和策略學(xué)習(xí),避免出現(xiàn)“懶惰智能體”,更好地實(shí)現(xiàn)了智能體間的協(xié)調(diào)合作。
由于存在信用分配、過度泛化等問題,傳統(tǒng)MADDPG 算法在進(jìn)行分布式光伏主動(dòng)電壓控制時(shí),性能表現(xiàn)欠佳。為此,本文提出了一種基于價(jià)值分解的改進(jìn)VD-MADDPG 算法用于分布式光伏主動(dòng)電壓控制。首先,將該問題建模為Dec-POMDP;然后,在CTDE架構(gòu)的基礎(chǔ)上,提出了分解式價(jià)值網(wǎng)絡(luò)和集中式策略梯度2 項(xiàng)改進(jìn)措施,將全局價(jià)值網(wǎng)絡(luò)分解為個(gè)體價(jià)值網(wǎng)絡(luò)和混合網(wǎng)絡(luò),以此評(píng)價(jià)每個(gè)智能體對(duì)全局價(jià)值的貢獻(xiàn)程度,并采用所有智能體的當(dāng)前策略進(jìn)行集中參數(shù)更新,以此訓(xùn)練得到更加協(xié)調(diào)的聯(lián)合控制策略。改進(jìn)的IEEE 33 節(jié)點(diǎn)配電網(wǎng)系統(tǒng)的算例結(jié)果表明,相比于傳統(tǒng)MADDPG 算法,VD-MADDPG算法能夠有效地平抑電壓波動(dòng),緩解電壓越限,降低網(wǎng)絡(luò)損耗,具有更加優(yōu)越的穩(wěn)壓減損控制效果。同時(shí),VD-MADDPG 算法的收斂速度更快,訓(xùn)練過程更穩(wěn)定,針對(duì)復(fù)雜場(chǎng)景的魯棒性更強(qiáng)。
本文所提方法同樣適用于電動(dòng)汽車、儲(chǔ)能、智能軟開關(guān)等可連續(xù)調(diào)節(jié)的電力電子設(shè)備,具有可拓展性。進(jìn)一步考慮上述設(shè)備在主動(dòng)電壓控制問題中的精細(xì)化建模,實(shí)現(xiàn)多種靈活性資源的有效協(xié)調(diào),是筆者后續(xù)的研究方向。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。