路小俊,吳在軍,李培帥,沈嘉偉,胡敏強(qiáng)
(1.東南大學(xué)電氣工程學(xué)院,江蘇省南京市 210000;
2.南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司),江蘇省南京市 211106;3.南京理工大學(xué)自動(dòng)化學(xué)院,江蘇省南京市 210094)
在中國(guó)“碳達(dá)峰·碳中和”目標(biāo)的背景下,光伏(photovoltaic,PV)裝機(jī)容量迅速增加,配電網(wǎng)是分布式光伏(distributed photovoltaic,DPV)消納的重要載體,DPV 的高比例接入引發(fā)了網(wǎng)損增加、電能質(zhì)量惡化等一系列問(wèn)題[1]。無(wú)功/電壓控制(volt/var control,VVC)可以有效降低系統(tǒng)的網(wǎng)損、改善電壓分布,對(duì)于促進(jìn)DPV 的安全經(jīng)濟(jì)并網(wǎng)具有重要作用[2]。
DPV 規(guī)?;⒍帱c(diǎn)分散接入的發(fā)展趨勢(shì)極大地增加了配電網(wǎng)的復(fù)雜性和管控難度,基于集群劃分的分布式VVC 能夠?qū)崿F(xiàn)群間的協(xié)同與群內(nèi)靈活自治,是應(yīng)對(duì)該問(wèn)題的有效解決方案[3]。文獻(xiàn)[4]設(shè)計(jì)了適應(yīng)于DPV 集群化并網(wǎng)的體系架構(gòu);文獻(xiàn)[5]基于社團(tuán)理論提出了一種虛擬集群動(dòng)態(tài)劃分方法;文獻(xiàn)[6]考慮功率平衡度和節(jié)點(diǎn)耦合度,在集群劃分的基礎(chǔ)上建立了先有功后無(wú)功的電壓調(diào)控策略;文獻(xiàn)[7]提出了基于PV 集群貢獻(xiàn)度的配電網(wǎng)VVC 策略。上述研究側(cè)重于DPV 集群控制的架構(gòu)以及集群劃分方法,分析了集群控制的優(yōu)勢(shì)以及有效性,但是對(duì)于如何實(shí)現(xiàn)群間的協(xié)同并未進(jìn)行深入的探索。
在基于集群劃分的分布式控制框架中,群間協(xié)同下的決策應(yīng)具備良好的全局趨優(yōu)性,分布式算法是保證決策全局趨優(yōu)能力的關(guān)鍵[8],其中,交替方向乘子法(alternating direction method of multipliers,ADMM)是當(dāng)前分布式算法的典型代表。文獻(xiàn)[9]提出了集合分布式優(yōu)化與本地控制的雙層電壓控制策略,利用ADMM 進(jìn)行了多個(gè)集群協(xié)同優(yōu)化模型求解,有效實(shí)現(xiàn)了群間協(xié)同。文獻(xiàn)[10-11]建立了配電網(wǎng)的分布式VVC 模型,并通過(guò)ADMM 實(shí)現(xiàn)模型的可靠求解。文獻(xiàn)[12]分析了ADMM 收斂速度偏慢的問(wèn)題,并提出了加速ADMM 的算法。雖然ADMM 具有較好的收斂特性,可以實(shí)線非光滑函數(shù)的優(yōu)化,但是其存在收斂速度偏慢的問(wèn)題,制約了其在分布式優(yōu)化中的應(yīng)用。隨著DPV 接入比例的提高,模型求解的難度進(jìn)一步提高,對(duì)算法收斂性提出了更高的要求。
DPV 出力不確定性特征顯著,其短時(shí)波動(dòng)會(huì)導(dǎo)致配電網(wǎng)實(shí)時(shí)運(yùn)行工況擾動(dòng),本地控制成為當(dāng)前集群自治的重要手段[13]。文獻(xiàn)[14-15]提出了基于DPV 的本地控制策略,以實(shí)時(shí)應(yīng)對(duì)配電網(wǎng)電壓越限和快速波動(dòng)的問(wèn)題。本地控制雖然可以根據(jù)實(shí)時(shí)運(yùn)行工況擾動(dòng)快速響應(yīng),但是其不具備全局趨優(yōu)的能力。近年來(lái),迅速發(fā)展的數(shù)據(jù)驅(qū)動(dòng)技術(shù)為配電網(wǎng)的實(shí)時(shí)優(yōu)化控制提供了新的思路和可能性[16-17]。文獻(xiàn)[18]基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)提出了配電網(wǎng)在線無(wú)功優(yōu)化策略,根據(jù)配電網(wǎng)運(yùn)行狀態(tài)實(shí)時(shí)調(diào)整無(wú)功設(shè)備動(dòng)作決策。文獻(xiàn)[19]基于多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)框架,提出了數(shù)據(jù)驅(qū)動(dòng)的分布式VVC 策略,保證了決策的全局趨優(yōu)性。文獻(xiàn)[20]提出了包含小時(shí)級(jí)調(diào)度以及分鐘級(jí)調(diào)度的配電網(wǎng)多時(shí)間尺度無(wú)功優(yōu)化策略,第1 階段和第2 階段分別采用了集中式優(yōu)化和DRL 策略,具有重要的借鑒意義,但是其集中式優(yōu)化對(duì)于多個(gè)PV 集群復(fù)雜模型的求解具有一定的局限性。
基于上述背景,本文結(jié)合分布式優(yōu)化與DRL 的優(yōu)勢(shì),提出了面向PV 集群的模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)VVC 策略,構(gòu)建了以有載調(diào)壓變壓器(on-load tap changer,OLTC)、并聯(lián)電容器(capacitor bank,CB)和DPV 逆變器為調(diào)控設(shè)備的日前VVC 模型,并提出 Nesterov 加 速 梯 度 的 ADMM(Nesterov accelerated gradient ADMM,N-ADMM);利用部分可觀馬爾可夫博弈(partially observable Markov game,POMG)對(duì)DPV 集群實(shí)時(shí)VVC 模型進(jìn)行表征,提出基于迭代終止懲罰函數(shù)的改進(jìn)多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法,對(duì)訓(xùn)練流程進(jìn)行了改進(jìn),提高了訓(xùn)練效率。
基于DPV 集群的劃分,考慮群間協(xié)調(diào)與群內(nèi)自治,將全局優(yōu)化控制與本地實(shí)時(shí)控制相結(jié)合,提出一種面向PV 集群的配電網(wǎng)模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)VVC策略。該策略下的日前-日內(nèi)兩階段VVC 框架如圖1 所示。該框架下,各PV 集群具有相對(duì)獨(dú)立的控制中心。將控制中心擬合成進(jìn)行決策制定的智能體,基于配電網(wǎng)的運(yùn)行目標(biāo),考慮網(wǎng)絡(luò)參數(shù)、調(diào)控資源、PV 功率、負(fù)荷數(shù)據(jù)等信息。各智能體群內(nèi)自治,同時(shí)相鄰的智能體進(jìn)行信息交互,實(shí)現(xiàn)群間協(xié)同。各智能體內(nèi)嵌模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)的VVC 策略,并對(duì)日前與日內(nèi)實(shí)時(shí)VVC 決策進(jìn)行協(xié)調(diào)優(yōu)化。
圖1 分布式兩階段VVC 框架Fig.1 Framework of distributed two-stage VVC
在日前VVC 階段,利用模型驅(qū)動(dòng)對(duì)OLTC、CB等離散設(shè)備的擋位和PV 無(wú)功出力決策進(jìn)行動(dòng)態(tài)優(yōu)化,提高系統(tǒng)運(yùn)行的安全性。該階段不需要對(duì)實(shí)時(shí)運(yùn)行工況進(jìn)行快速響應(yīng),充分發(fā)揮了模型驅(qū)動(dòng)的可靠性和全局最優(yōu)性??紤]到離散設(shè)備的使用壽命,該階段設(shè)置了OLTC 和CB 動(dòng)作次數(shù)限制。此外,該階段的動(dòng)作決策將為日內(nèi)實(shí)時(shí)VVC 環(huán)節(jié)提供必要的輸入?yún)?shù)。
在配電網(wǎng)實(shí)時(shí)VVC 階段,各智能體根據(jù)配電網(wǎng)的日內(nèi)實(shí)時(shí)運(yùn)行工況,自適應(yīng)給出PV 的無(wú)功出力優(yōu)化決策。該環(huán)節(jié)的實(shí)現(xiàn)依賴于DRL 的策略框架,各智能體根據(jù)配電網(wǎng)的運(yùn)行目標(biāo),利用MADDPG算法進(jìn)行離線訓(xùn)練。訓(xùn)練完成的智能體根據(jù)實(shí)時(shí)觀測(cè)量結(jié)果(如PV 實(shí)時(shí)有功功率、實(shí)時(shí)負(fù)荷、實(shí)時(shí)電壓波動(dòng)等),在毫秒級(jí)的時(shí)間尺度上給出在線控制策略[21],從而保證了VVC 策略對(duì)于配電網(wǎng)運(yùn)行工況的擾動(dòng)快速響應(yīng)能力。
配電網(wǎng)日前VVC 環(huán)節(jié)考慮多個(gè)PV 集群間的協(xié)同調(diào)度,基于分布式框架實(shí)現(xiàn)系統(tǒng)運(yùn)行的全局優(yōu)化,其運(yùn)行目標(biāo)函數(shù)為:
式中:c為集群編號(hào);G為所有集群的集合;t為調(diào)度時(shí)刻;T為調(diào)度周期內(nèi)所有調(diào)度時(shí)間的集合;Ec為集群c內(nèi)部所有支路的集合;Φc,t,loss為集群c在t時(shí)刻的網(wǎng) 損;ij為 從 節(jié) 點(diǎn)i到 節(jié) 點(diǎn)j的 支 路;lij,t為t時(shí) 刻 支 路ij上電流的平方;rij為支路ij上的電阻。
本文利用Dist-flow 模型并結(jié)合二階錐松弛來(lái)構(gòu)建配電網(wǎng)潮流模型,該模型的凸特性可以保證其求解的高效。式(2)、式(3)分別為有功、無(wú)功功率平衡約束;式(4)為節(jié)點(diǎn)電壓平衡約束;式(5)為二階錐松弛約束,其將原始的非凸二次約束松弛為凸的二階錐約束,保證了模型的可解性;式(6)為節(jié)點(diǎn)電壓約束。
式 中:Pij,t、Qij,t分 別 為t時(shí) 刻 支 路ij上 的 有 功、無(wú) 功 功率;pj,t,PV和pj,t,PD分 別 為t時(shí) 刻 節(jié) 點(diǎn)j上PV 機(jī) 組 的 注入 有 功 功 率、負(fù) 荷 的 有 功 需 求;qj,t,CB為t時(shí) 刻 節(jié) 點(diǎn)j上CB 的 注 入 無(wú) 功 功 率;qj,t,PV、qj,t,QD分 別 為t時(shí) 刻 節(jié)點(diǎn)j上PV 機(jī)組的注入無(wú)功功率、負(fù)荷的無(wú)功需求;vi,t、vj,t分 別 為t時(shí) 刻 節(jié) 點(diǎn)i、節(jié) 點(diǎn)j上 電 壓 的 平 方;εij為 支 路ij的 電 抗;Vi,t,min、Vi,t,max分 別 為 節(jié) 點(diǎn)i在 調(diào) 度t時(shí)刻的電壓下限、上限;Nc為集群c內(nèi)部所有節(jié)點(diǎn)的集合。
在配電網(wǎng)VVC 模型中,PV 逆變器向系統(tǒng)提供有功和無(wú)功支撐,其運(yùn)行約束如下所示:
式 中:Nc,PV為 集 群c內(nèi) 部 具 有PV 的 節(jié) 點(diǎn) 集 合;si,t,PV為t時(shí)刻節(jié)點(diǎn)i上PV 機(jī)組的容量。
離散設(shè)備OLTC 和CB 的運(yùn)行約束如下:
式 中:Nc,CB為 集 群c內(nèi) 裝 設(shè) 有CB 的 節(jié) 點(diǎn) 集 合,vbase,t為 一 次 側(cè)OLTC 電 壓 幅 值 的 平 方;v1,t為OLTC 二次側(cè)電壓幅值的平方;rmin為OLTC 最小變比的平方;ξs為OLTC 的兩個(gè)擋位之間變比平方的差值,即調(diào)節(jié)步長(zhǎng);σs,t,OLTC、σi,s,t,CB分別為OLTC、CB 的擋位s的調(diào)節(jié)變量;qtap為CB 機(jī)組的一個(gè)擋位的無(wú)功出力;Tmax,OLTC、Ti,CB,max分 別 為OLTC、CB 的 最 大 擋 位;σm-1,t,OLTC為t時(shí) 刻O(píng)LTC 在m-1 擋 位 的 調(diào) 節(jié) 變量;σi,m,t,CB為t時(shí) 刻 節(jié) 點(diǎn)i上CB 在m擋 位 的 調(diào) 節(jié) 變量。σs,t,OLTC和σi,s,t,CB均 為 二 進(jìn) 制 變 量,當(dāng) 所 有 擋 位的調(diào)節(jié)變量全為0 時(shí),表示處于最小擋位;全為1 時(shí),表示處于最大擋位。式(8)—式(10)為OTLC 運(yùn)行約束,式(11)—式(13)為CB 運(yùn)行約束。
OLTC 和CB 的使用壽命受動(dòng)作次數(shù)影響較大。在調(diào)度周期內(nèi)對(duì)其動(dòng)作次數(shù)進(jìn)行限制。式(14)、式(15)和式(18)、式(19)分別為前后兩個(gè)時(shí)刻O(píng)LTC 和CB 動(dòng)作擋位限制,式(16)、式(17)和式(20)、式(21)分別為OLTC、CB 調(diào)度周期內(nèi)最大動(dòng)作次數(shù)限制。
式中:δt,OLTC,IN、δt,OLTC,DE分別為當(dāng)前時(shí)段、前一時(shí)段OLTC 的擋位變化狀態(tài),均為二進(jìn)制變量;δi,t,CB,IN、δi,t,CB,DE分別為當(dāng)前時(shí)段、前一時(shí)段CB 的擋位 變 化 狀 態(tài),均 為 二 進(jìn) 制 變 量;NOLTC,max、Ni,CB,max分別為OLTC、CB 在一個(gè)調(diào)度周期內(nèi)擋位的最大調(diào)節(jié)次數(shù)。
上述模型針對(duì)單一PV 集群,多個(gè)PV 集群則通過(guò)群間信息交互實(shí)現(xiàn)協(xié)同。多個(gè)集群間的交互信息以邊界條件為載體,本文采用了文獻(xiàn)[10]中的邊界條件構(gòu)建方法,邊界條件約束如式(22)所示。
式中:Gc為與集群c直接相鄰的集群集合;bc,t(n)為集群c的邊界條件;bn,t(c)表示集群n的邊界條件。當(dāng)兩個(gè)相鄰集群相對(duì)應(yīng)的邊界條件一致時(shí),信息交互完成。
基于OLTC 和CB 的小時(shí)級(jí)設(shè)備動(dòng)作決策,在配電網(wǎng)的實(shí)時(shí)VVC 環(huán)節(jié),利用MADRL 對(duì)PV 集群進(jìn)行控制。本文同時(shí)考慮降低系統(tǒng)網(wǎng)損以及避免電壓越限的問(wèn)題,構(gòu)建了配電網(wǎng)實(shí)時(shí)多目標(biāo)VVC 模型。同時(shí),考慮到系統(tǒng)網(wǎng)損與電壓的量綱不一致的問(wèn)題,采用了文獻(xiàn)[22]的規(guī)范化處理方法,將網(wǎng)損與電壓均轉(zhuǎn)化為無(wú)量綱屬性。PV 集群c的實(shí)時(shí)多目標(biāo)VVC 數(shù)學(xué)模型如下所示:
式 中:Φc,t,viol為t時(shí) 刻 系 統(tǒng) 節(jié) 點(diǎn) 電 壓 越 限 偏 差 的 和;分 別 為 規(guī) 范 化 后 的 系 統(tǒng) 網(wǎng) 損、電 壓 越限偏差;ω為系統(tǒng)節(jié)點(diǎn)電壓越限偏差的權(quán)重系數(shù);φij,t為t時(shí)刻節(jié)點(diǎn)i與節(jié)點(diǎn)j的電壓相角偏差;Vi,t、Vj,t分 別 為 節(jié) 點(diǎn)i、節(jié) 點(diǎn)j在 調(diào) 度t時(shí) 刻 的 電 壓;Vi,t,min、Vi,t,max分 別 為 節(jié) 點(diǎn)i在t時(shí) 刻 電 壓 的 最 小 值、最 大 值;Gij、Bij分別為支路ij的電導(dǎo)、電納。
在MADRL 框架下,利用POMG 對(duì)PV 集群的實(shí)時(shí)VVC 模型進(jìn)行表征。在包含M個(gè)智能體的POMG 模 型 中,觀 測(cè) 空 間O={o1,o2,…,oM}和 動(dòng)作空間A={a1,a2,…,aM}分別對(duì)應(yīng)于集群VVC 中的狀態(tài)變量和決策變量。基于當(dāng)前環(huán)境狀態(tài)S下的觀測(cè)空間om,每一個(gè)智能體通過(guò)其策略πm制定其動(dòng)作am。下一個(gè)狀態(tài)利用傳遞函數(shù),通過(guò)規(guī)則P:S×a1×a2×…×aM→S′獲取,進(jìn)而各智能體獲取其獎(jiǎng)勵(lì)Rm。獎(jiǎng)勵(lì)函數(shù)采用折扣系數(shù)γ來(lái)平衡當(dāng)前和未來(lái)的獎(jiǎng)勵(lì),則在時(shí)間段T內(nèi)的預(yù)期獎(jiǎng)勵(lì)模型如式(27)所示。
式 中:rm,t為t時(shí) 刻 集 群m的 獎(jiǎng) 勵(lì);γt為t時(shí) 刻 折 扣系數(shù)。
配電網(wǎng)實(shí)時(shí)VVC 轉(zhuǎn)化為POMG 形式的過(guò)程中,各集群的控制中心為獨(dú)立的智能體,配電網(wǎng)則為相應(yīng)的環(huán)境,各智能體與環(huán)境進(jìn)行交互以達(dá)到訓(xùn)練的效果,從而將原始的實(shí)時(shí)VVC 模型轉(zhuǎn)化為POMG 形式。
觀測(cè)空間om包含了集群m的實(shí)時(shí)動(dòng)態(tài)信息,包含 有 {Vi,t,pi,t,PV,pi,t,PD,qi,t,QD,qi,t-1,PV,qi,t,CB,Tt,OLTC},其 中,Tt,OLTC為t時(shí) 刻O(píng)LTC 的 擋 位。OLTC 和CB 的動(dòng)作決策將直接影響該階段PV 的無(wú)功出力決策,是觀測(cè)空間中的重要因素,t時(shí)刻智能體m的動(dòng)作決策am,t如式(28)所示。
式中:πm(·)為智能體m的策略;sm,t為智能體m的狀態(tài);θm,π為深度神經(jīng)網(wǎng)絡(luò)參數(shù);N(0,σm,t)為訓(xùn)練過(guò)程中增加的噪聲,該噪聲服從均值為0、標(biāo)準(zhǔn)差為σm,t的正態(tài)分布。
基于式(23)構(gòu)建相應(yīng)的獎(jiǎng)勵(lì)函數(shù),如式(29)所示。
通過(guò)智能體與環(huán)境的交互完成訓(xùn)練過(guò)程,本文中的環(huán)境為配電網(wǎng)潮流模型的運(yùn)行約束條件。相應(yīng)地,狀態(tài)-動(dòng)作值函數(shù)可以表示為式(30)的形式。
式中:a為當(dāng)前動(dòng)作;S′為下一步的狀態(tài);a′為下一步的動(dòng)作;mQπ*(S′,a′)為下一步能夠得到的最大狀態(tài)-動(dòng)作值;r(S,a,S′)為在當(dāng)前狀態(tài)S下進(jìn)行動(dòng)作a后獲得的獎(jiǎng)勵(lì)。
為提高配電網(wǎng)日前VVC 模型的分布式求解速度,本文采用 Nesterov 加速梯度(Nesterov accelerated gradient,NAG)[23]對(duì)ADMM 的 對(duì) 偶 變量更新規(guī)則進(jìn)行了改進(jìn),提出了N-ADMM 求解策略,通過(guò)歷史迭代信息的挖掘和利用,提高收斂速度。
針對(duì)多個(gè)智能體間的信息交互,引入輔助變量ui(c)={ui,t(c)},?i∈G。
通過(guò)引入輔助變量ui(c)與對(duì)偶向量λi(c)={λi,t(c)}(即拉格朗日乘子),且?i∈Gc,可將式(1)改可寫(xiě)為以下形式:
式中:x(c)、X(c)分別為集群c的決策變量、可行域;Lc為增廣拉格朗日函數(shù)。
式中:ρ為罰參數(shù);bi,t(c)為節(jié)點(diǎn)i的邊界條件。通過(guò)上述拉格朗日函數(shù)可將配電網(wǎng)各集群解耦,集群c的VVC 模型可寫(xiě)成式(35)的形式。
設(shè)k為迭代次數(shù),N-ADMM 算法求解過(guò)程如下。
步驟1:更新決策變量x(c,k)。由于配電網(wǎng)的各集群通過(guò)拉格朗日函數(shù)解耦,每個(gè)區(qū)域的決策變量可以通過(guò)求解式(36)得到:
式中:ui(c,k)為迭代k次的輔助變量;λi(c,k)為迭代k次的對(duì)偶向量。
步驟2:更新輔助變量ui(c,k)。根據(jù)步驟1 中所得結(jié)果更新輔助變量,如式(37)所示。
式 中:bi,t(c,k)為 迭 代k次 后 節(jié) 點(diǎn)i的 邊 界 條 件;bc,t(i,k)為迭代k次后集群c的邊界條件。
步驟3:更新對(duì)偶變量λi(c,k)?;贜AG 法改進(jìn)對(duì)偶變量的更新規(guī)則,將傳統(tǒng)ADMM 中k-1 迭代的信息權(quán)重從1 增加到1+k/(k+3),并引入了k-2 次迭代的對(duì)偶變量信息,從而加快了求解速度。
步驟4:判斷收斂。若滿足收斂條件,則輸出結(jié)果,算法結(jié)束;若不滿足收斂條件,則更新迭代次數(shù)k=k+1,并轉(zhuǎn)到步驟1。算法的收斂條件如式(40)所示。
式中:τ為預(yù)定義的較小的正數(shù),代表算法的容忍度;r(k)、s(k)分別為原始?xì)埐睢?duì)偶?xì)埐睢?/p>
上述加速的ADMM 不需要集中式的中央?yún)f(xié)調(diào)中心,通過(guò)不同區(qū)域之間的簡(jiǎn)單邊界信息交換,即可實(shí)現(xiàn)各區(qū)域在本地求解模型,交替迭代求得最優(yōu)解。同時(shí)在迭代求解的過(guò)程中能夠充分利用輔助變量和對(duì)偶變量的歷史信息,加快模型的求解速度。
本文所用MADDPG 算法基于Actor-Critic 的架構(gòu),每個(gè)智能體均包含一個(gè)Actor 網(wǎng)絡(luò)和一個(gè)Critic網(wǎng)絡(luò)。Actor 網(wǎng)絡(luò)基于當(dāng)前狀態(tài)和訓(xùn)練策略生成動(dòng)作,Critic 網(wǎng)絡(luò)通過(guò)時(shí)間差分計(jì)算對(duì)Actor 網(wǎng)絡(luò)進(jìn)行評(píng)估,通過(guò)兩個(gè)網(wǎng)絡(luò)的相互配合,不斷更新迭代,從而獲取最大化獎(jiǎng)勵(lì)下的策略。
在深度神經(jīng)網(wǎng)絡(luò)的實(shí)際訓(xùn)練過(guò)程中,智能體m的確定性策略梯度?θm J(μm)如式(43)所示。
式中:μm為智能體m的連續(xù)策略;J(μm)為智能體m的策略μm的性能度量;Qm(S,a)為輸入動(dòng)作a和觀測(cè)空間O后的狀態(tài)-動(dòng)作值函數(shù);D表示經(jīng)驗(yàn)回放緩存區(qū)。D中包含元組{S,a,S′,r},分別表示狀態(tài)集、動(dòng)作集、下一狀態(tài)集、獎(jiǎng)勵(lì)集,被用于記錄所有智能體的經(jīng)驗(yàn)。在智能體與環(huán)境的交互過(guò)程中,Critic 網(wǎng)絡(luò)的損失函數(shù)如式(44)所示。
式中:μ′m={μθ′1,…,μθ′M}為目標(biāo)網(wǎng)絡(luò)策略集,其中,θ′m為延遲策略參數(shù)。Critic 網(wǎng)絡(luò)通過(guò)減小損失來(lái)更新網(wǎng)絡(luò)參數(shù),Actor 網(wǎng)絡(luò)通過(guò)策略梯度來(lái)更新網(wǎng)絡(luò)參數(shù)。
在訓(xùn)練MADDPG 的過(guò)程中,采樣數(shù)據(jù)集會(huì)出現(xiàn)模擬功率超出線路載荷等現(xiàn)象,進(jìn)而造成算法求解失敗,導(dǎo)致模型訓(xùn)練終止,影響收斂速度。針對(duì)該問(wèn)題,本文提出了一種迭代終止懲罰函數(shù),在求解失敗的訓(xùn)練集中增加與該集訓(xùn)練持續(xù)時(shí)間相關(guān)的獎(jiǎng)勵(lì)因子。
式中:rm,f為智能體m的懲罰獎(jiǎng)勵(lì)值;fm為固定系數(shù),其為值較大的正數(shù);tm,f、Tm,f分別為終止發(fā)生前的訓(xùn)練時(shí)間點(diǎn)、訓(xùn)練時(shí)間段;tm,max為某一數(shù)據(jù)集訓(xùn)練的最大時(shí)間;Θm為懲罰系數(shù),其等于最大懲罰數(shù)值與某一數(shù)據(jù)集訓(xùn)練最大時(shí)間的比值。分析式(46)可知,當(dāng)在某一數(shù)據(jù)集訓(xùn)練中不發(fā)生終止時(shí),該懲罰量為0,不會(huì)對(duì)網(wǎng)損降低、電壓越限減小的目標(biāo)函數(shù)獎(jiǎng)勵(lì)造成影響。與之相反,當(dāng)訓(xùn)練過(guò)程中發(fā)生迭代終止時(shí),該獎(jiǎng)勵(lì)函數(shù)會(huì)形成一個(gè)較大的負(fù)反饋,且訓(xùn)練完成度越低,該負(fù)反饋越大,從而提升收斂速度。
基于這個(gè)終止懲罰函數(shù),智能體m的總獎(jiǎng)勵(lì)R′m如式(48)所示。
基于改進(jìn)MADDPG 算法,本文構(gòu)建數(shù)據(jù)驅(qū)動(dòng)的配電網(wǎng)實(shí)時(shí)VVC 模型,模型訓(xùn)練的基本流程如附錄A 圖A1 所 示。
首先,設(shè)置Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)參數(shù),輸入OLTC 和CB 的動(dòng)作決策,基于PV 出力、負(fù)荷數(shù)據(jù)、系統(tǒng)網(wǎng)絡(luò)參數(shù)等配電網(wǎng)實(shí)際運(yùn)行狀態(tài),形成訓(xùn)練所用數(shù)據(jù)集。針對(duì)每一個(gè)訓(xùn)練數(shù)據(jù)集,某一智能體m根據(jù)觀測(cè)到的觀測(cè)空間om給出動(dòng)作am,實(shí)現(xiàn)對(duì)其管轄范圍內(nèi)PV 出力的控制。進(jìn)而,結(jié)合當(dāng)前狀態(tài)S與環(huán)境進(jìn)行交互,即進(jìn)行潮流計(jì)算獲取下一狀態(tài)S′和全局獎(jiǎng)勵(lì)r。各智能體均可獲取各自區(qū)域的觀察結(jié)果和系統(tǒng)的全局獎(jiǎng)勵(lì),同時(shí)數(shù)據(jù)組{S,a,S′,r}被添加到經(jīng)驗(yàn)回放緩存區(qū),并利用梯度策略更新Actor網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)。重復(fù)上述過(guò)程,直至訓(xùn)練終止。
為測(cè)試所提模型的有效性及算法的收斂性,本文基于MATLAB 2018b 和PyCharm 軟件平臺(tái)進(jìn)行了算例仿真。第1 階段,日前VVC 編程基于Yalmip工具箱;并調(diào)用Gurobi 求解器進(jìn)行了求解;第2階段,日內(nèi)實(shí)時(shí)VVC 的離線訓(xùn)練中調(diào)用PandaPower[24]工具箱進(jìn)行潮流計(jì)算與求解。
本文所用算例系統(tǒng)為標(biāo)準(zhǔn)的IEEE 123 節(jié)點(diǎn)系統(tǒng),其電壓的安全范圍設(shè)置為[0.95,1.05]p.u.。該系統(tǒng)內(nèi)加裝了OLTC、CB 以及PV 來(lái)驗(yàn)證所提模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)VVC 策略的有效性,設(shè)備的參數(shù)如表1 所示。用于仿真的有功負(fù)荷數(shù)據(jù)來(lái)源于葡萄牙某地區(qū)的實(shí)際數(shù)據(jù),PV 的有功功率數(shù)據(jù)來(lái)源于比利時(shí)電網(wǎng)運(yùn)營(yíng)商Elia 集團(tuán)[25],PV 和負(fù)荷的有功功率如附錄A 圖A2 所示。本文采用了文獻(xiàn)[9]中DPV 集群劃分方法,基于集群劃分的IEEE 123 節(jié)點(diǎn)系統(tǒng)拓?fù)鋮⒁?jiàn)該文獻(xiàn),PV 集群劃分不是本文研究重點(diǎn),故此處不再進(jìn)行贅述。
表1 OLTC、CB 和PV 機(jī)組參數(shù)Table 1 Parameters of OLTC, CB and PV
為驗(yàn)證所提N-ADMM 的收斂性和加速效果,本文引入傳統(tǒng)ADMM(traditional ADMM,TADMM)進(jìn)行了對(duì)比分析。兩類算法的初始輔助變量、初始對(duì)偶變量以及罰參數(shù)均采用同樣的設(shè)置方法,分別為[1;1;0;0;0;0]、0 以及0.5,收斂迭代標(biāo)準(zhǔn)均設(shè)置為10-4。
對(duì)配電網(wǎng)日前VVC 模型進(jìn)行求解,N-ADMM與T-ADMM 的殘差迭代曲線如圖2 所示。
圖2 N-ADMM 和T-ADMM 迭代過(guò)程對(duì)比Fig.2 Comparison of iteration processes between N-ADMM and T-ADMM
分析圖2 可知,T-ADMM 需要99 次迭代達(dá)到收斂,即殘差小于10-4。而N-ADMM 經(jīng)56 次迭代即可達(dá)到收斂標(biāo)準(zhǔn),與T-ADMM 相比,N-ADMM具有更快的收斂速度。對(duì)于高比例PV 接入的配電網(wǎng)而言,N-ADMM 在求解VVC 問(wèn)題時(shí)的表現(xiàn)更為高效,其對(duì)配電網(wǎng)日益增長(zhǎng)的規(guī)模具有更強(qiáng)的適應(yīng)性?;贜-ADMM 的對(duì)偶變量與目標(biāo)函數(shù)迭代過(guò)程如附錄A 圖A3 所示,在迭代初期對(duì)偶變量和目標(biāo)函數(shù)的數(shù)值曲線均表現(xiàn)出振蕩的特征,隨著迭代的振蕩逐漸減小,并且在56 次迭代后趨于穩(wěn)定,與求解過(guò)程中算法的收斂表現(xiàn)相一致,進(jìn)一步表明了本文所提N-ADMM 的快速收斂特性。
基于上述N-ADMM 求解,獲取第1 階段離散設(shè)備OLTC 和CB 的動(dòng)作決策,如附錄A 圖A4 所示。同時(shí),結(jié)合潮流計(jì)算求取了采取第1 階段調(diào)控前后系統(tǒng)的電壓分布,如圖3 所示。由附錄A 圖A3 可知,在00:00—07:00 以及19:00—24:00 時(shí)間段內(nèi),OLTC 的擋位決策最高,這是由于該時(shí)間段內(nèi)PV集群出力較低,對(duì)于電壓的抬升作用有限,OLTC 處于高擋位以降低整個(gè)調(diào)度周期內(nèi)的系統(tǒng)網(wǎng)損。隨著PV 出力的增加,OLTC 的擋位逐漸降低,在12:00—15:00 時(shí)間段內(nèi)其擋位最低,與該時(shí)段內(nèi)PV 出力最高相一致。
圖3 IEEE 123 節(jié)點(diǎn)測(cè)試系統(tǒng)節(jié)點(diǎn)電壓分布對(duì)比Fig.3 Comparison of node voltage distribution in IEEE 123-bus test system
分析圖3 可知,在進(jìn)行VVC 調(diào)控之前,系統(tǒng)出現(xiàn)了明顯的電壓越上限問(wèn)題,主要集中在PV 出力較高的時(shí)段;節(jié)點(diǎn)最高電壓幅值為1.073 p.u.,出現(xiàn)在15:00。經(jīng)過(guò)VVC 調(diào)控,系統(tǒng)電壓水平有明顯改善,電壓分布在安全范圍之內(nèi),系統(tǒng)最高電壓幅值同樣出現(xiàn)在15:00,其最高值為1.05 p.u.。調(diào)控前的最小節(jié)點(diǎn)電壓幅值為0.955 p.u.,出現(xiàn)在21:00,這是由于該時(shí)刻PV 出力為0 且負(fù)荷處于較高的水平。在VVC 調(diào)控后,節(jié)點(diǎn)最小電壓幅值為1.00 p.u.,出現(xiàn)在14:00 和15:00,這是由于這兩個(gè)時(shí)刻的OLTC 擋位最低。經(jīng)過(guò)VVC 調(diào)控,系統(tǒng)網(wǎng)損由2 175.084 kW·h 降低為1 728.052 kW·h。由上述分析可知,第1 階段VVC 可以有效降低系統(tǒng)網(wǎng)損,同時(shí)縮小電壓的分布范圍,降低了電壓的波動(dòng)水平。
以全局優(yōu)化VVC 的離散設(shè)備決策和PV 與負(fù)荷的數(shù)據(jù)集、系統(tǒng)網(wǎng)絡(luò)參數(shù)為輸入量,基于改進(jìn)的MADDPG 算法對(duì)各智能體進(jìn)行離線訓(xùn)練。離線訓(xùn)練總共進(jìn)行了3 000 回合,并且經(jīng)過(guò)2 360 回合后收斂,隨著訓(xùn)練的進(jìn)行,獎(jiǎng)勵(lì)函數(shù)的數(shù)值逐漸趨于穩(wěn)定。同時(shí),采用本文所提迭代終止懲罰函數(shù)時(shí),相比于傳統(tǒng)的固定懲罰值具有更高的收斂速度,特別是在訓(xùn)練的初期體現(xiàn)更為明顯,這是由于訓(xùn)練初期懲罰函數(shù)形成的負(fù)反饋絕對(duì)值更大。訓(xùn)練完成后的智能體,可以根據(jù)實(shí)時(shí)觀測(cè)量制定控制決策,本文所提策略的在線響應(yīng)速度為18.61 ms,滿足PV 集群的實(shí)時(shí)控制要求。
為針對(duì)實(shí)時(shí)VVC 的效果進(jìn)行分析,本文選取了2014 年7 月13 日一天的數(shù)據(jù)進(jìn)行在線測(cè)試,測(cè)試中的部分PV 無(wú)功功率如圖4 所示。
圖4 PV 實(shí)時(shí)控制決策Fig.4 Real-time control decision-making of PVs
分析圖4 可知,位于集群1 的PV16 在整個(gè)調(diào)度周期內(nèi)發(fā)出無(wú)功功率,且其高于PV27,這是由系統(tǒng)運(yùn)行網(wǎng)損最低目標(biāo)和OLTC 擋位設(shè)置等因素共同決定的。由于PV 集群在中午時(shí)段會(huì)發(fā)出大量的有功功率,導(dǎo)致電壓的抬升乃至越限,與OLTC 節(jié)點(diǎn)電氣距離較遠(yuǎn)的PV53(位于集群3)和PV96(位于集群4)會(huì)吸收大量的無(wú)功功率,來(lái)降低電壓水平。同時(shí),綜合分析圖4 可知,隨著PV 有功功率的實(shí)時(shí)波動(dòng),各PV 的無(wú)功出力決策自適應(yīng)變化,證明了MADRL 用于實(shí)時(shí)VVC 策略的可行性。
為充分驗(yàn)證本文所提方法的有效性,利用傳統(tǒng)VVC 策略與本文所提方法進(jìn)行了對(duì)比分析。用于對(duì)比的傳統(tǒng)VVC 策略采用了與所提策略一致的多級(jí)框架與全局優(yōu)化方法,區(qū)別在于采用了傳統(tǒng)的QV下垂控制進(jìn)行PV 無(wú)功功率的實(shí)時(shí)調(diào)整。同時(shí),為了充分保證對(duì)比的有效性,PV 無(wú)功出力基準(zhǔn)值的制定時(shí)間設(shè)置為15 min。兩類方法下的部分節(jié)點(diǎn)電壓對(duì)比如圖5 所示。
圖5 測(cè)試系統(tǒng)部分節(jié)點(diǎn)電壓對(duì)比Fig.5 Comparison of partial node voltages in test system
分析圖5 可知,對(duì)于電壓越限風(fēng)險(xiǎn)較低的節(jié)點(diǎn)(如節(jié)點(diǎn)5),兩類方法的效果差異不明顯,而對(duì)于電壓越限風(fēng)險(xiǎn)較高的節(jié)點(diǎn)(如節(jié)點(diǎn)63),本文所提策略具有明顯的優(yōu)勢(shì)。這是由于傳統(tǒng)的兩階段調(diào)控下,下垂控制僅面向單一PV,且需要設(shè)置數(shù)值較小的下垂系數(shù)以保證控制的穩(wěn)定性,導(dǎo)致其調(diào)節(jié)能力有限。而本文所提方法可以從全局的角度出發(fā),實(shí)現(xiàn)多個(gè)PV 間的協(xié)同,從而表現(xiàn)出更好的調(diào)節(jié)能力。除此之外,傳統(tǒng)兩階段策略下,第2 階段的下垂控制以第1 階段決策值為基準(zhǔn),依賴局部信息進(jìn)行本地控制,并未考慮2 個(gè)階段決策的相互影響,2 個(gè)階段運(yùn)行決策的協(xié)調(diào)性不足;而本文所提模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)方法,在第2 階段的實(shí)時(shí)VVC 訓(xùn)練過(guò)程中以第1 階段的離散設(shè)備決策為輸入量,通過(guò)大量的數(shù)據(jù)訓(xùn)練對(duì)實(shí)時(shí)動(dòng)態(tài)運(yùn)行工況進(jìn)行模擬,從而充分保證了第2 階段與第1 階段決策具有更好的協(xié)調(diào)性。與此同時(shí),傳統(tǒng)的兩階段策略下,系統(tǒng)網(wǎng)損為1 702.537 kW·h,采用本文所提策略時(shí),系統(tǒng)網(wǎng)損降為1 615.773 kW·h,證明了后者更為優(yōu)異的降損效果。
隨著DPV 在配電網(wǎng)中接入比例的不斷提高,基于集群劃分進(jìn)行的分布式VVC 能夠有效引導(dǎo)PV的可靠、有序、安全、經(jīng)濟(jì)并網(wǎng)。本文提出一種適用于DPV 集群的配電網(wǎng)模型-數(shù)據(jù)聯(lián)合驅(qū)動(dòng)VVC 策略,利用模型優(yōu)化進(jìn)行日前調(diào)度以保證決策的可靠性、全局最優(yōu)性,利用DRL 進(jìn)行日內(nèi)PV 的實(shí)時(shí)控制,以充分發(fā)揮其毫秒級(jí)響應(yīng)速度的優(yōu)勢(shì),實(shí)現(xiàn)對(duì)PV 無(wú)功出力的實(shí)時(shí)自適應(yīng)調(diào)控。
電力系統(tǒng)的模型中蘊(yùn)含了大量的運(yùn)行規(guī)律與有益的信息,如下垂控制本質(zhì)為電壓-無(wú)功功率的關(guān)系規(guī)律,潮流模型雅可比矩陣包含梯度信息等,充分挖掘該類信息和規(guī)律可以有效降低強(qiáng)化學(xué)習(xí)對(duì)于數(shù)據(jù)的依賴性,這也是本文后續(xù)的研究重點(diǎn)。
附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。