潮 鑄段秦尉錢(qián) 峰黃紅偉薛艷軍
(1.廣東電網(wǎng)電力調(diào)度控制中心,廣東 廣州 510080;2.北京清大科越股份有限公司,北京 100084)
隨著風(fēng)光等可再生能源發(fā)電不斷并入電力系統(tǒng)傳統(tǒng)發(fā)電、輸電、配電和用電等電網(wǎng),尤其是大量并入低電壓等級(jí)電網(wǎng),如配電網(wǎng),使傳統(tǒng)配電網(wǎng)由單純的被動(dòng)受電逐漸具有主動(dòng)供電能力,且主動(dòng)性隨著可再生能源發(fā)電的并入量越來(lái)越明顯,由此使配電網(wǎng)具有受電和供電的雙重性,引起了國(guó)內(nèi)外專(zhuān)家學(xué)者的高度重視[1-3]。
針對(duì)主動(dòng)配電網(wǎng)中風(fēng)電、光電具有隨機(jī)性、波動(dòng)性特點(diǎn),使得主動(dòng)配電網(wǎng)具有“源”或者“荷”狀態(tài)的不確定性,在實(shí)施電力系統(tǒng)調(diào)度過(guò)程中,增加了電力系統(tǒng)調(diào)度和控制的難度[4-5]。
對(duì)此問(wèn)題,國(guó)內(nèi)外專(zhuān)家學(xué)者進(jìn)行了深入的研究,從研究思路上來(lái)說(shuō),主要可以分為兩類(lèi):第一類(lèi)是集中式的電力系統(tǒng)調(diào)度控制方法,第二類(lèi)是分布式的電力系統(tǒng)調(diào)度控制方法。
對(duì)于第一類(lèi)的研究來(lái)說(shuō),主要思路是采用集中的方式建立“源”“網(wǎng)”“荷”聯(lián)合調(diào)度的優(yōu)化模型,如文獻(xiàn)[6-8]考慮到可再生能源的不確定對(duì)電網(wǎng)調(diào)度的影響,將需求響應(yīng)和電動(dòng)汽車(chē)結(jié)合,能夠有效降低電網(wǎng)調(diào)度的風(fēng)險(xiǎn);文獻(xiàn)[9-11]綜合考慮了傳輸限制的風(fēng)電、燃?xì)鈾C(jī)組等不確定性的協(xié)同優(yōu)化調(diào)度模型;文獻(xiàn)[12-14]通過(guò)考慮風(fēng)力發(fā)電、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、光伏發(fā)電、微型燃?xì)廨啓C(jī)、儲(chǔ)能等不確定因素,建立了動(dòng)態(tài)優(yōu)化的綜合調(diào)度模型。對(duì)于集中式的經(jīng)濟(jì)調(diào)度方法來(lái)說(shuō),其通常做法是在調(diào)度中心通過(guò)獲得的各個(gè)部分信息(如發(fā)電、負(fù)荷、網(wǎng)絡(luò)等狀態(tài))建立以經(jīng)濟(jì)成本最小為目標(biāo)的最優(yōu)模型,使用多種方法予以求解。然而,隨著可再生能源發(fā)電越來(lái)越多分散在電力系統(tǒng)各個(gè)部分(如主動(dòng)配電網(wǎng)各個(gè)地域),使傳統(tǒng)集中式調(diào)度方法存在通信網(wǎng)絡(luò)、大數(shù)據(jù)量并發(fā)、計(jì)算效率、局部故障容易引發(fā)全局故障等問(wèn)題,使集中式調(diào)度方法具有一定的困難。
為了解決集中式的困難,分散式調(diào)度方法應(yīng)運(yùn)而生。對(duì)于第二類(lèi)的研究來(lái)說(shuō),主要研究思路是采用分散或分布式方式建立“源”“網(wǎng)”“荷”的調(diào)度優(yōu)化模型,如文獻(xiàn)[15-17]提出了可再生電源以微電網(wǎng)為單元的分散協(xié)調(diào)調(diào)度方式;文獻(xiàn)[18-20]考慮到分布式優(yōu)化框架下參與主體為了獲得更多利益而遵循其私有設(shè)置的優(yōu)化算法,從而破壞全局最優(yōu)配置,在分解協(xié)調(diào)算法和純分布式算法基礎(chǔ)上,提出了基于區(qū)塊鏈共識(shí)機(jī)制的多區(qū)域最優(yōu)潮流分布式算法;文獻(xiàn)[21-23]采用一致性算法,將“源”“網(wǎng)”“荷”的不確定嵌入其中,提出了源網(wǎng)荷完全分布式的優(yōu)化調(diào)控策略。
對(duì)于分散式的經(jīng)濟(jì)調(diào)度方式而言,目前主要的做法是建立分散式的算法、優(yōu)化模型以保證在全局范圍內(nèi)的資源配置最優(yōu),然而該類(lèi)方法忽略了多個(gè)區(qū)域在分散協(xié)調(diào)過(guò)程中,可能因?yàn)榫植繀^(qū)域?yàn)榱双@取自身利益最大而協(xié)調(diào)虛假信息,從而無(wú)法實(shí)現(xiàn)全局最優(yōu)。本文以此為切入點(diǎn),在強(qiáng)化學(xué)習(xí)方法的基礎(chǔ)上,提出了局部分散、全局集中的深度強(qiáng)化學(xué)習(xí)的經(jīng)濟(jì)調(diào)度方法。
根據(jù)前述,要實(shí)現(xiàn)主網(wǎng)、配網(wǎng)之間的分散協(xié)調(diào)以達(dá)到全網(wǎng)最優(yōu),主網(wǎng)、配網(wǎng)內(nèi)部實(shí)現(xiàn)區(qū)域自治,二者之間實(shí)現(xiàn)協(xié)調(diào)。
由于實(shí)際的配電網(wǎng)呈現(xiàn)輻射狀網(wǎng)絡(luò),因此對(duì)于如圖1 所示具有n+1 的節(jié)點(diǎn)的配電網(wǎng)來(lái)說(shuō),其潮流方程為:
圖1 輻射狀配電網(wǎng)結(jié)構(gòu)圖
式中:Pjk、Qjk分別表示配電網(wǎng)中支路為jk的有功潮流、無(wú)功潮流;rij、xij分別表示支路為ij的等值電阻和等值電抗;Pj和Qj分別表示節(jié)點(diǎn)j的注入有功功率和無(wú)功功率;Vi和Vj分別表示節(jié)點(diǎn)i和j的電壓幅值;Iij表示支路ij中流過(guò)的電流幅值。
為了解決配電網(wǎng)輻射狀潮流計(jì)算的收斂性問(wèn)題,設(shè):
將式(2)代入式(1)中,對(duì)式(1)進(jìn)行二階錐變換:
在24 h 的日前經(jīng)濟(jì)調(diào)度過(guò)程中,在時(shí)刻t的潮流計(jì)算過(guò)程中節(jié)點(diǎn)j的注入功率可以表示為:
在日前調(diào)度至在線(xiàn)調(diào)度的滾動(dòng)過(guò)程中,t時(shí)刻的節(jié)點(diǎn)j上的功率變化分別為:
主電網(wǎng)、主動(dòng)配電網(wǎng)以及分散的微電網(wǎng)之間相互協(xié)調(diào)的目的是使全網(wǎng)的成本最小,即:
式中:T表示經(jīng)濟(jì)調(diào)度的時(shí)段總數(shù),Ns表示微電網(wǎng)總數(shù)。對(duì)于24 h 的日前調(diào)度,一般以15 min 為一時(shí)段;C1表示在日前調(diào)度時(shí)段內(nèi)的成本;C2表示在線(xiàn)調(diào)度時(shí)段內(nèi)的成本。
對(duì)于式(6)中的C1成本,可以表示為:
對(duì)于式(6)中的C2成本,可以表示為:
要實(shí)現(xiàn)目標(biāo)函數(shù)的潮流計(jì)算,需要滿(mǎn)足多種計(jì)算約束條件。
首先,系統(tǒng)潮流需要滿(mǎn)足如下的約束:
其次,對(duì)于微小型燃?xì)鈾C(jī)的運(yùn)行需要滿(mǎn)足如下約束:
第三,對(duì)于無(wú)功補(bǔ)償器,需要滿(mǎn)足如下約束:
第四,主電網(wǎng)、配電網(wǎng)之間的協(xié)調(diào)約束:
第五,主動(dòng)配電網(wǎng)與微電網(wǎng)中的可再生能源發(fā)電之間的協(xié)調(diào)約束:
微電網(wǎng)存在于配電網(wǎng)中,是由單獨(dú)或者小范圍的可再生能源發(fā)電及其負(fù)荷組合而成,由此可知微電網(wǎng)中由于可再生能源的波動(dòng)性和間歇性,有時(shí)對(duì)外發(fā)電,有時(shí)需要購(gòu)電,即微電網(wǎng)與配網(wǎng)之間要交互電能,由此構(gòu)建經(jīng)濟(jì)調(diào)度成本最小的目標(biāo)函數(shù)為:
式中:C3表示24 h 前的調(diào)度成本;C4表示在線(xiàn)調(diào)度成本。
對(duì)于式(14)中的24 h 前的調(diào)度成本可以表示為:
對(duì)于式(14)中的在線(xiàn)調(diào)度成本可以表示為:
要實(shí)現(xiàn)式(14)的計(jì)算,需要滿(mǎn)足一系列的約束條件,下面分別介紹。
第一,微小型燃?xì)鈾C(jī)的有功出力約束:
第二,有功潮流的平衡約束:
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)源自人工智能領(lǐng)域中的一種控制方法,它的基本原理是設(shè)置優(yōu)化控制的規(guī)則,在該規(guī)則下引導(dǎo)智能體不斷探索并最終收斂到最優(yōu)值[21]。
設(shè)S表示狀態(tài)空間,A表示動(dòng)作空間,R表示獎(jiǎng)賞函數(shù),P表示狀態(tài)轉(zhuǎn)移概率,γ表示折扣引子,那么可以建模一個(gè)五元素組合為:
在上述五元素中,制定一個(gè)策略:
那么策略π(s)表示在狀態(tài)集合S中的選擇一個(gè)狀態(tài)s進(jìn)行動(dòng)作所產(chǎn)生的策略。這個(gè)策略的質(zhì)量由評(píng)價(jià)函數(shù)Vπ(s)來(lái)計(jì)算:
式(21)實(shí)際是表示在狀態(tài)s下執(zhí)行策略π 得到的一個(gè)累積獎(jiǎng)賞的期望值。式(21)具有遞歸特性,可以展開(kāi)表示為:
由式(22)可見(jiàn),對(duì)于給定的一個(gè)式(19),驅(qū)動(dòng)式(21)尋找一個(gè)獲得最大獎(jiǎng)賞值的策略,即最優(yōu)策略:
在式(23)的基礎(chǔ)上,Watkins 提出了無(wú)模型的Q型強(qiáng)化學(xué)習(xí)方法。該方法通過(guò)優(yōu)化可迭代計(jì)算的動(dòng)作值函數(shù)Q(s,a),來(lái)尋找一種策略,該策略能夠使得期望的折扣報(bào)酬累加值最大,即任意給定一個(gè)策略π,定義Q函數(shù)為:
模型式(24)的基本思路是在任意一種策略情況下,即未知轉(zhuǎn)移概率和所獲得報(bào)酬的情況下,來(lái)不斷試探并最終找到策略的最優(yōu)Q*值:
試探迭代公式為:
由上述的強(qiáng)化學(xué)習(xí)原理和過(guò)程可知,強(qiáng)化學(xué)習(xí)過(guò)程其實(shí)就是將式(19)中的各個(gè)元素劃分為多個(gè)離散的區(qū)間,在這些離散的區(qū)間內(nèi)通過(guò)不斷試探,尋找最優(yōu)的策略。
由此,可以進(jìn)一步提出分布式強(qiáng)化學(xué)習(xí)的思路,即將強(qiáng)化學(xué)習(xí)過(guò)程(如式(24)~式(26))看成多個(gè)智能體獨(dú)立動(dòng)作和協(xié)調(diào)動(dòng)作,每個(gè)智能體獨(dú)立完成一部分工作,然后經(jīng)過(guò)多次協(xié)調(diào)完成整體最優(yōu)動(dòng)作。
從數(shù)學(xué)模型上講,分布式強(qiáng)化學(xué)習(xí)Q(λ)實(shí)際是一個(gè)多步回溯函數(shù),在通過(guò)試探尋優(yōu)過(guò)程中,利用資格跡來(lái)更新其值函數(shù):
式中:k表示迭代過(guò)程標(biāo)記;a表示學(xué)習(xí)因子,通常取0.999;ek(s,a)表示在第k步的迭代過(guò)程中的資格跡;R(sk,sk+1,ak)表示第k次的迭代過(guò)程中,在動(dòng)作ak的驅(qū)動(dòng)下將狀態(tài)sk轉(zhuǎn)換到sk+1的獎(jiǎng)勵(lì)。
式(27)的動(dòng)作選擇面臨多種機(jī)制,如貪婪、探索、回退等,本文提出概率機(jī)制來(lái)確定動(dòng)作:
式中:β表示迭代頻率大小,本文取0.999;表示第k次迭代過(guò)程中狀態(tài)s被動(dòng)作a執(zhí)行的概率大小。
通常來(lái)說(shuō),對(duì)于微電網(wǎng)中的可再生能源和負(fù)荷具有對(duì)外售電、購(gòu)電雙重不同場(chǎng)景行為,這是貫穿在主電網(wǎng)、配電網(wǎng)、微電網(wǎng)協(xié)調(diào)過(guò)程中,即目標(biāo)是:(1)有功功率平衡;(2)主電網(wǎng)、配電網(wǎng)、微電網(wǎng)三者的成本目標(biāo)函數(shù)最小。
為了實(shí)現(xiàn)這兩個(gè)目標(biāo),在強(qiáng)化學(xué)習(xí)模型中需要設(shè)置局部獎(jiǎng)懲函數(shù)、全局獎(jiǎng)懲函數(shù)。
4.1.1 局部獎(jiǎng)懲函數(shù)
對(duì)于主電網(wǎng)、配電網(wǎng)、微電網(wǎng)中各個(gè)局部的強(qiáng)化學(xué)習(xí)智能體的獎(jiǎng)懲函數(shù)設(shè)置為:
式中:R1與電價(jià)有關(guān);R2為發(fā)電成本;R3表示懲罰項(xiàng)。
式(29)中的R1,R2,R3分別為:
式中:u表示實(shí)時(shí)電價(jià);R2表示發(fā)電成本,β1,β2分別由表示可再生能源發(fā)電、常規(guī)電源成本參數(shù);R3表示強(qiáng)化學(xué)習(xí)過(guò)程中的懲罰項(xiàng),λ1,λ2,λ3,λ4分別表示權(quán)值,設(shè)置為5,10,15,20;參數(shù)e1,e2,e3表示有功功率變化ΔP范圍取值。
由式(32)可見(jiàn),當(dāng)有功功率偏差ΔP越小,對(duì)應(yīng)的懲罰項(xiàng)越小,而偏差越大,對(duì)應(yīng)的懲罰項(xiàng)就越大,這時(shí)就能夠驅(qū)動(dòng)強(qiáng)化學(xué)習(xí)的智能體動(dòng)作減小,以至于改變動(dòng)作。
4.1.2 全局獎(jiǎng)懲函數(shù)
所謂的全局獎(jiǎng)懲函數(shù)就是指主電網(wǎng)、配電網(wǎng)、微電網(wǎng)之間進(jìn)行交互協(xié)調(diào)時(shí)的獎(jiǎng)懲函數(shù)。
根據(jù)分布式強(qiáng)化學(xué)習(xí)原理,設(shè)分布式強(qiáng)化學(xué)習(xí)式(28)中的動(dòng)作空間A劃分為h個(gè)離散區(qū)間,狀態(tài)空間S劃分為g個(gè)離散空間,由此形成h×g階動(dòng)作-狀態(tài)矩陣。
本文提出的分布式最優(yōu)強(qiáng)化學(xué)習(xí)就是對(duì)主電網(wǎng)、配電網(wǎng)、微電網(wǎng)各個(gè)獨(dú)立的個(gè)體進(jìn)行獎(jiǎng)勵(lì)累加為全局獎(jiǎng)勵(lì),那么可以定義如下的強(qiáng)化學(xué)習(xí)模型:
為了在有功功率協(xié)調(diào)過(guò)程中保證電壓穩(wěn)定,即無(wú)功補(bǔ)償設(shè)備的投入量(式(10)和式(11)),在有功功率動(dòng)作集合中選擇動(dòng)作atP進(jìn)行強(qiáng)化學(xué)習(xí):
式(37)的最優(yōu)策略可以通過(guò)迭代獲得:
采用如圖2 所示的某實(shí)際主電網(wǎng)、配電網(wǎng)、微電網(wǎng)對(duì)本文算法予以驗(yàn)證。圖2 所示系統(tǒng)中共包含33 個(gè)輻射狀配電網(wǎng)節(jié)點(diǎn),其中包含4 個(gè)微小型燃?xì)鈾C(jī)MT、3 個(gè)微電網(wǎng)(MG1、MG2、MG3)、1 臺(tái)微型風(fēng)力發(fā)電機(jī)、4 個(gè)靜止無(wú)功發(fā)生器(Static Var Generator,SVG),其他為負(fù)荷節(jié)點(diǎn)。
圖2 某實(shí)際電網(wǎng)
在3 個(gè)微電網(wǎng)MG1、MG2、MG3 中,MG1 包含了1 臺(tái)微小型燃?xì)鈾C(jī)和1 臺(tái)微型光伏發(fā)電機(jī),MG2 包含了1 臺(tái)微小型燃?xì)鈾C(jī),MG3 包含了1 臺(tái)微小型燃?xì)鈾C(jī)和1 臺(tái)微型風(fēng)力發(fā)電機(jī)。
配電網(wǎng)的有功負(fù)荷具有相似的波動(dòng)曲線(xiàn),某一周內(nèi)7 d 每天24 h 的負(fù)荷曲線(xiàn)如圖3 所示。
圖3 某周7 天的日負(fù)荷曲線(xiàn)
假設(shè)用于調(diào)度的微電網(wǎng)內(nèi)的風(fēng)力發(fā)電和光伏發(fā)電曲線(xiàn)每天24 h 具有相似曲線(xiàn)特性,如圖4 所示。
圖4 微電網(wǎng)中的光伏發(fā)電、風(fēng)力發(fā)電曲線(xiàn)
主電網(wǎng)、微電網(wǎng)不同時(shí)段的電價(jià)如表1 所示。
表1 主電網(wǎng)和微電網(wǎng)電價(jià) 單位:/元
為了驗(yàn)證本文算法的有效性,在MATLAB 仿真平臺(tái)編寫(xiě)算法,使用MATPOWER 軟件包實(shí)現(xiàn)潮流計(jì)算過(guò)程。
為了與本文所提出的分散協(xié)調(diào)的調(diào)度結(jié)果比較,采用如下的多種調(diào)度策略:
策略1 傳統(tǒng)集中式優(yōu)化調(diào)度策略,即將主電網(wǎng)、配電網(wǎng)、微電網(wǎng)一起優(yōu)化調(diào)度。
策略2 分散協(xié)調(diào)的優(yōu)化調(diào)度策略,即將主電網(wǎng)、配電網(wǎng)、微電網(wǎng)中的傳統(tǒng)發(fā)電方式作為電源進(jìn)行分散協(xié)調(diào)。
策略3 本文策略,即分散協(xié)調(diào)的優(yōu)化調(diào)度策略,充分考慮傳統(tǒng)發(fā)電和可再生能源發(fā)電。
經(jīng)過(guò)分別測(cè)試,三種策略的結(jié)果如表2 所示。由表2 可見(jiàn),策略1 與策略2 無(wú)論在主網(wǎng)、配網(wǎng)、微網(wǎng)的成本差別不大,主要原因是這兩種策略都沒(méi)有考慮可再生能源發(fā)電的參與,只是采用傳統(tǒng)的發(fā)電滿(mǎn)足負(fù)荷的運(yùn)行模式。策略3 是在可再生能源發(fā)電參與的情況下的結(jié)果,由于可再生能源發(fā)電的成本相對(duì)較低,消耗主網(wǎng)、配網(wǎng)和微網(wǎng)中的傳統(tǒng)電源較少,因而總成本較低。
表2 不同調(diào)度策略結(jié)果比較
表2 是從不同調(diào)度策略的情況下分析結(jié)果。通過(guò)進(jìn)一步分析三種不同策略運(yùn)行過(guò)程中發(fā)現(xiàn):對(duì)于第一種策略來(lái)說(shuō),配網(wǎng)中的負(fù)荷主要靠主電網(wǎng)電源來(lái)滿(mǎn)足。同理,對(duì)于第二類(lèi)策略中雖然采用分布式的解決方式,但在調(diào)度過(guò)程中沒(méi)有考慮可再生能源,但使用了微小型燃?xì)鈾C(jī),因而配電網(wǎng)中的負(fù)荷主要由主電網(wǎng)中的電源和微小型燃?xì)鈾C(jī)提供。對(duì)于第三種策略來(lái)說(shuō),由于設(shè)置強(qiáng)化學(xué)習(xí)方法中懲罰因子,即在舍棄風(fēng)電、光伏時(shí)懲罰因子較大,因而迫使調(diào)度過(guò)程中始終使用可再生能源發(fā)電,因而使總體成本較低。
針對(duì)電力系統(tǒng)主電網(wǎng)、配電網(wǎng)和微電網(wǎng)中可再生能源發(fā)電日益增多問(wèn)題,提出了分布式強(qiáng)化學(xué)習(xí)方法以實(shí)現(xiàn)主電網(wǎng)、配電網(wǎng)和微電網(wǎng)的分散協(xié)調(diào),通過(guò)實(shí)際算例的仿真驗(yàn)證可得如下結(jié)論:
(1)充分調(diào)度主電網(wǎng)、配電網(wǎng)和微電網(wǎng)中的可再生能源發(fā)電,能夠降低系統(tǒng)成本,節(jié)能減排。
(2)與集中式調(diào)度方式相比,分布式調(diào)度策略更能夠最大化消納可再生能源,使各個(gè)部分成本都達(dá)到最低。
總之,通過(guò)分散式交易方式能夠加大交易市場(chǎng)的靈活性,符合資本運(yùn)作的實(shí)際。但是經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn),分布式計(jì)算時(shí)間較長(zhǎng),這與交易次數(shù)有關(guān),因此對(duì)于大型電力系統(tǒng)而言,計(jì)算耗時(shí)較大,這也是后續(xù)需要解決的關(guān)鍵問(wèn)題。