徐 巖,陳嘉岳,馬天祥
(1.華北電力大學電氣與電子工程學院,保定 071003;2.國網河北省電力有限公司電力科學研究院,石家莊 050021)
配電網連接電網和終端用戶,直接影響用戶的供電可靠性,如果發(fā)生故障,會對用戶產生較大的影響。而在配電網自動化故障管理系統(tǒng)中,故障恢復占據重要地位[1-2]。隨著經濟發(fā)展和技術水平提升,對配電網可靠性的要求越來越高,而分布式電源接入比例的提升,也給配電網故障恢復帶來了巨大挑戰(zhàn)。
配電網故障恢復作為電力系統(tǒng)的重要研究方法,受到了研究人員的廣泛關注。目前主要是使用經典算法或智能算法進行恢復。文獻[3]采用魯棒優(yōu)化理論建立故障恢復方法,將風光出力和故障恢復方案分別作為自然決策者和系統(tǒng)決策者,令兩者進行博弈,具有較好的魯棒性;文獻[4]利用網絡拓撲分層劃分特定網絡的自愈單元組,再根據自愈單元的基本環(huán)路矩陣確定非故障失電區(qū)范圍和復電方式,顯著減少了拓撲遍歷的復雜度,加快了運算速度;文獻[5]提出了一種基于生物體免疫機制的故障恢復方法,通過模擬生物體對外部微生物的免疫行為,能快速獲得恢復方案,對配電網故障進行有效恢復,這種方法在分布式電源接入的情況下有顯著優(yōu)勢;文獻[6]使用二進制粒子群算法對交直流混合配電網故障進行恢復,對所建立的模型設計兩階段優(yōu)化求解流程,能有效降低求解難度、提高求解效率。
強化學習作為一種新興的機器學習方法,近年來受到了廣泛關注。不同于監(jiān)督學習和非監(jiān)督學習,強化學習不需要事先給定數據,而是通過智能體接受環(huán)境反饋,并利用反饋學習信息更新模型參數。目前,已有學者使用強化學習方法來解決電力系統(tǒng)相關問題。針對故障檢測和恢復問題,也有學者提出了相關解決方法。文獻[7]通過提取孤島微電網的故障特征,基于深度強化學習方法,深度跟蹤電網故障信息,通過三端行波測距法,判定孤島微電網故障區(qū)域;文獻[8]把恢復問題轉化為一個順序決策問題,在電源側和負載側實現了雙重最優(yōu)控制策略,提高了系統(tǒng)的恢復能力;文獻[9]提出了一種基于改進深度確定性策略梯度DDPG(deep deterministic policy gradient)算法的服務恢復方法,來輔助孤島微電網的服務恢復,該方法能可靠收斂,學習性能較高。但目前已有研究較少涉及主動配電網的故障恢復,同時針對高比例新能源配電網,故障恢復時較少考慮分布式電源的調控問題。
基于此,本文提出一種基于混合強化學習的主動配電網故障恢復方法。將配電網故障恢復問題轉化為規(guī)劃問題,以故障損失最小為目標、電網安全運行條件為約束,建立馬爾可夫模型,構建智能體和配電網交互環(huán)境?;謴湍P椭袆幼骺臻g既有離散動作又有連續(xù)動作,現有方法是將連續(xù)動作轉化為離散動作,再進行處理,該方法會增加恢復過程的計算量,減慢恢復速度。因此,本文將競爭架構雙深度Q 網絡D3QN(dueling double deep Q network)和DDPG算法進行混合,使用D3QN算法處理離散部分、DDPG算法處理連續(xù)部分,很好地解決了計算量大、恢復速度慢的問題。通過仿真實驗驗證了本文方法比傳統(tǒng)算法或單一強化學習算法能顯著減少恢復時間,提升恢復效果。
在配電網故障發(fā)生時,應盡可能使損失最小,并將停電對用戶的影響降到最低。故障恢復過程中,應保證各項參數在允許范圍內,確保配電網安全有序恢復。本文由此構造目標函數和約束條件,建立恢復模型。
以故障綜合損失最小為目標,構建主動配電網恢復模型,定義恢復目標函數為
式中:g1為總失電負荷;g2為開關動作次數;g3為恢復成本;g4為網絡損耗;g5為電壓波動;g6為用戶總停電時長;k1、k2、k3、k4、k5、k6分別為子函數對應的權重;g1、g2、g3為恢復效果目標;g4、g5、g6為電能質量目標。g1、g2、g3、g4、g5、g6可分別表示為
式中:ωi為節(jié)點i的負荷重要度系數;Di,t為節(jié)點i在t時刻的負荷時變需求系數;Li,t為節(jié)點i在t時刻負荷需求量;N為節(jié)點總數;xi,t和si,t分別為節(jié)點和支路的接入狀態(tài),其為0-1變量,當取值為1時表示節(jié)點或支路接入;Δsi,t=si,t-si,t-1;cG、cDESS、cPV、cWT分別為火電機組、儲能設備、分布式光伏和風電機組的運行成本;NG、NDESS、NPV、NWT分別為配電網中火電機組、儲能設備、分布式光伏和風電機組的數量;T為故障恢復總時間;M為支路集合;Rs為支路s的阻抗;Ps、Qs、Us分別為支路s末端節(jié)點的有功功率、無功功率和電壓幅值;為節(jié)點i在t時刻的電壓幅值;為節(jié)點i的電壓額定幅值;α為停電時間損失系數,取a>1。
本文模型考慮潮流約束、儲能約束、分布式電源約束和恢復時間約束。運行的電力系統(tǒng)應滿足基本的有功功率和無功功率平衡約束,即
式中:Pi,t、Qi,t分別為t時刻節(jié)點i流入的有功、無功功率;、分別為t時刻節(jié)點i發(fā)電機有功、無功功率;、分別為t時刻節(jié)點i儲能裝置的充、放電功率;、分別為t時刻節(jié)點i光伏設備的有功、無功輸出;、分別為t時刻節(jié)點i風力發(fā)電機的有功、無功輸出;、分別為t時刻節(jié)點i負荷消耗的有功、無功功率。
故障恢復過程中,為保證電能質量,配電網各節(jié)點電壓和功率不應超出允許的最大范圍,即
式中:Ui,t為t時刻節(jié)點i處的電壓;Ui_min和Ui_max為節(jié)點i處的電壓下限和上限;Pi_min、Pi_max、Qi_min、Qi_max分別為節(jié)點i處的有功功率和無功功率的下限和上限。
儲能設備工作時,應滿足如下功率約束條件:
式中:為t時刻節(jié)點i儲能設備的總功率;ηDESS為儲能設備的充放電效率;和分別為儲能設備總功率的下限和上限;和分別為充電功率的下限和上限;和分別為放電功率的下限和上限。
同時,儲能設備應滿足如下容量約束條件:
式中:為t時刻節(jié)點i儲能設備的容量,kW·h;和分別為儲能設備容量的下限和上限。
新能源配電網通常有高比例分布式電源接入,接入的分布式光伏電站和風力發(fā)電機組應滿足如下約束條件:
式中:η為光電轉化效率;APV為光伏組件受光面積;I為輻照強度;vt為t時刻的風速;vci、vfi、vrate分別為風電機組的切入、切出、額定風速;b1、b2為常系數;Pr為風電機組額定功率;為光伏設備的最大有功功率;為風電機組的最大有功功率。
為確保終端用戶的供電質量,需要對恢復時長進行約束。設用戶可接受的最大停電時長為Tmax,則恢復時間T應滿足
配電網恢復過程應充分考慮以上約束條件。以式(11)為目標函數、式(8)~(22)為約束條件,將主動配電網故障恢復問題構建為一個混合整數二次規(guī)劃MIQP(mixed integer quadratic programming)問題。
強化學習的本質是構建一個智能體,令智能體和環(huán)境進行交互。在這一過程中,智能體會得到環(huán)境的反饋,并通過反饋調整下一步的動作,進而完成對環(huán)境的最優(yōu)響應。強化學習解決的實際問題規(guī)模較大,在解決問題過程中,通常假設狀態(tài)轉化過程具有馬爾可夫性,故這種決策過程被稱為馬爾科夫決策過程。該決策過程可把配電網故障恢復問題拆分成一系列單階段問題進行求解。馬爾可夫決策過程可以描述為五元組形式,即
式中:S為狀態(tài)空間,st為狀態(tài)空間集中的某一個狀態(tài);A為動作空間,at為動作空間集中某一個動作;R為環(huán)境獎勵,rt為其中某一個獎勵;γ為獎勵衰減因子,表示當前延時獎勵和后續(xù)狀態(tài)獎勵之間的權重關系,γ∈[0,1];π為個體策略,表示個體采取動作的依據,即個體會依據策略概率π來選擇動作。通常采用條件概率分布π(a|s)=p(A=at|S=st)來表示個體策略,即在狀態(tài)st時采取動作at的概率。
在智能體和環(huán)境的交互過程中,智能體會根據t時刻環(huán)境狀態(tài)st、接收獎勵rt及個體策略π來選擇合適的動作at;然后將環(huán)境狀態(tài)從st轉換到st+1,智能體獲得動作at的延時獎勵rt+1=r(st,at,st+1)。馬爾可夫決策過程如圖1所示。
圖1 馬爾可夫決策過程Fig.1 Markov decision process
在馬爾可夫決策過程中,智能體會通過迭代學習過程獲得決策能力,決策目標為給定狀態(tài)和動作(s,a)時,動作價值函數Qπ(s,a)的期望值最大,即
式中:Eπ為智能體依據π選擇動作at所獲得的期望價值函數;RT為截至到T時刻累計的獎勵總和。
根據第1 節(jié)所述的目標函數和約束條件,構建配電網恢復問題的馬爾可夫模型。
2.1.1 動作空間
配電網故障恢復過程中,需要同時操作斷路器和調節(jié)電源出力。斷路器的狀態(tài)只有打開和閉合兩種狀態(tài)且動作空間離散,而電源出力是一個連續(xù)調節(jié)的過程且動作空間連續(xù)。因此,分別將這兩個動作空間記為Ad和Ac,即
設斷路器t時刻的動作為0-1 狀態(tài)變量os,其中os=0 表示未對斷路器進行操作,保持t-1 時刻狀態(tài);os=1 表示對斷路器進行操作,與t-1 時刻開關狀態(tài)相反。將離散狀態(tài)空間Ad用os表示,即
式中:Np為配電網中可操作斷路器的數量;os,i為第i個斷路器的動作狀態(tài);τ為斷路器集合。
將恢復過程的電源出力以連續(xù)狀態(tài)表示,即
式中:Nq為配電網中可控電源的數量;Ps,i和Qs,i分別為節(jié)點i處可控電源的有功和無功功率;σ為可控電源集合。
2.1.2 狀態(tài)空間
在配電網模型中,任意時刻系統(tǒng)的狀態(tài)S可由系統(tǒng)觀測狀態(tài)和系統(tǒng)運行約束兩部分組成。分別構建觀測狀態(tài)空間SO和約束狀態(tài)空間SC,即
在配電網運行時,若配電網的約束條件不變,則狀態(tài)空間可以簡化為SO,而SC作為已知常量輸入智能體。
2.1.3 獎勵空間
獎勵函數的設計直接影響智能體的決策,設計過程中需充分考慮目標函數和約束條件。智能體在動作集A中選擇任一動作后,環(huán)境會根據智能體的完成情況給予不同的獎勵值。在本文中,若配電網故障得到恢復,則智能體獲得正向獎勵;反之,若故障恢復失敗,則對智能體進行懲罰。
由于配電網不同約束條件對應不同的重要程度,設置懲罰函數包括軟約束懲罰和硬約束懲罰,則獎勵函數和懲罰函數分別為
式中:rk1為獎勵函數;rk2和rk3分別為軟約束懲罰和硬約束懲罰;N1為收到獎勵的動作數;N2和N3分別為收到軟約束懲罰和硬約束懲罰的動作數;ξ0、ξ1、ξ2為獎懲常數,可根據電網恢復需求設定;ξ′為很大的懲罰系數,代表違反硬約束的懲罰;ai為智能體動作;k1、k2、k3為智能體所屬的動作空間;ci為常系數。這里軟約束條件可以被突破,智能體會被施加懲罰;而若硬約束條件被違反,則恢復過程終止。
由式(26)~(31)可知,本文擬解決的問題為狀態(tài)空間連續(xù)且動作空間兼具離散與連續(xù)的混合問題。目前,常用的解決方法是將動作空間中連續(xù)部分轉換成離散部分,使用深度Q網絡DQN(deep Q-learning network)等算法加以求解,但會增加計算量,減慢計算速度。為解決此問題,本文提出了一種混合強化學習算法,將D3QN和DDPG算法相結合,使用D3QN 算法處理動作空間離散部分,DDPG 算法處理動作空間連續(xù)部分,達到精簡動作空間的目的。
2.2.1 雙深度Q 網絡
Q-learning方法是一種常用的強化學習方法,適用于解決配電網中離散變量的決策問題,是一種廣泛應用的強化學習方法。此方法根據當前狀態(tài)st由智能體決策得到動作at。Q值函數可以表示為
式中:μ為折扣因子;st和ad,t分別為t時刻狀態(tài)值和離散動作值;Q(st,ad,t)為當前狀態(tài)和動作對應的Q 值;Q′(st,ad,t)為上次迭代獲得的Q 值;r(st,ad,t)為智能體在當前狀態(tài)和動作獲得的獎勵。為解決高維度運算存在的內存溢出問題,采用神經網絡逼近Q值的DQN算法。
在DQN算法中,定義Q值函數為
式中,θ為神經網絡的訓練權值。DQN有兩個結構相同的神經網絡,其中一個用于計算目標Q 值,另一個用于估計當前狀態(tài)的Q 值。DQN 算法的目標是訓練合適的權重,使得目標Q值相對于當前狀態(tài)Q值的損失最小化。yd,t為DQN算法中離散動作目標網絡的Q值,可表示為
式中,θ′為目標網絡的權值。
DQN算法普遍存在高估問題,會導致訓練結果偏離期望值。為解決這一問題,文獻[10]提出了Double DQN算法,對目標網絡的動作選擇和評估進行解耦,從估計網絡中選擇Q值最大的動作。Double DQN 與DQN 算法的區(qū)別僅在于目標Q 值的計算。Double DQN 算法中離散動作目標網絡的Q 值可表示為
為了保證動作選擇在特定狀態(tài)下的支配性,文獻[11]提出了Dueling DQN 算法。Dueling 網絡的結構如圖2 所示。Dueling 神經網絡的狀態(tài)輸出為狀態(tài)值函數V(st)和動作優(yōu)勢度函數A(st,ad,t)的組合,然后將兩者耦合到每個動作的Q 值函數。此時Q值函數可以表示為
圖2 Dueling 神經網絡結構Fig.2 Structure of dueling neural network
式中:|A|為可執(zhí)行動作的數量;為動作優(yōu)勢度函數中的離散動作值。
D3QN 算法在Double DQN 的基礎上改進了網絡結構,其余部分并無差異。在將D3QN 算法應用于故障恢復模型時,V(st)僅與配電網狀態(tài)有關,A(st,ad,t)與配電網狀態(tài)和斷路器動作狀態(tài)有關。這種處理減少了訓練中錯誤動作對Q值計算的影響,能有效提升收斂速度。
2.2.2 深度確定性策略梯度
DDPG 是一種基于行動者-批評家架構的強化學習算法,適用于解決配電網中連續(xù)變量的決策問題,本文使用DDPG 算法來調節(jié)各節(jié)點上的電源功率。在DDPG 算法中,使用兩個網絡對智能體進行訓練,行動者估計網絡β用來近似策略函數,神經網絡參數為θβ;批評家估計網絡ψ用于評價當前狀態(tài)下動作效果,神經網絡參數為θψ。為了提高訓練的穩(wěn)定性和收斂性,DDPG 算法還引入了行動者目標網絡β′和批評家目標網絡ψ′,對應的參數分別為θβ′和θψ′。
行動者估計網絡參數θβ的更新是沿著使Q 值更大的方向進行的,即
式中:?θJ為在優(yōu)化目標函數J中對θ的梯度;?acQ和?θββ分別為對θψ和θβ的梯度;ac為連續(xù)動作值。
批評家估計網絡參數θψ使用最小化損失函數來更新,即
式中:yc,t為連續(xù)動作目標網絡的Q值;ac,t為第t次循環(huán)對應的連續(xù)動作值;rc,t為第t次循環(huán)連續(xù)動作獲得的獎勵值。
2.2.3 基于混合強化學習的恢復方法
本文提出的混合強化學習算法采用D3QN 控制離散動作、DDPG控制連續(xù)動作,來實現故障的快速恢復。兩種算法在訓練過程中獨立與環(huán)境交互,并從環(huán)境中更新同一狀態(tài),當其中一個算法在訓練時,將另一個算法參數固定,作為訓練環(huán)境的一部分。本文提出的算法流程如圖3 所示。其中,ad,i和ac,i分別為數組中第i個離散動作和連續(xù)動作,rd,i和rc,i分別為數組中第i個離散動作獎勵值和連續(xù)動作獎勵值。
圖3 混合強化學習算法流程Fig.3 Flow chart of hybrid reinforcement learning algorithm
以圖3所示的流程在給定的配電網拓撲結構中進行訓練,訓練完成的智能體可用于配電網故障恢復。
通過IEEE33節(jié)點配電網系統(tǒng),驗證本文算法的有效性。本文計算機配置為Intel Core i5-1130 CPU,16 GB RAM,軟件采用python 3.10.6。分別使用D3QN算法、DQN+DDPG混合算法、D3QN+DDPG混合算法(本文算法)及傳統(tǒng)粒子群算法對系統(tǒng)進行故障恢復。
仿真所用IEEE33節(jié)點配電網如圖4所示,首段基準電壓取12.66 kV,在節(jié)點12和節(jié)點23節(jié)點接入分布式光伏,節(jié)點7接入風電機,節(jié)點29接入儲能裝置。
圖4 算例用IEEE33 節(jié)點配電網示意Fig.4 Schematic of IEEE33-node distribution network in example
模型訓練過程中的相關參數設置如表1 所示。訓練獎勵-步長曲線如圖5所示。由圖5可知,3 種算法均能有效收斂,其中本文算法比D3QN 算法收斂速度更快,比DQN+DDPG 算法在收斂穩(wěn)定性上更具優(yōu)勢。這表明Double DQN 和Dueling network的引入能提升收斂穩(wěn)定性,本文算法在訓練效果上優(yōu)于其他強化學習方法。
表1 算例參數設置Tab.1 Parameter setting for example
圖5 訓練獎勵-步長曲線Fig.5 Curve of training reward vs step length
將訓練好的模型進行保存,并對IEEE33節(jié)點配電網進行恢復,分別設定4種情況的仿真參數如下。情況1:恢復步長為20、離散變量數為420、連續(xù)變量數為400;情況2:恢復步長為40、離散變量數為840、連續(xù)變量數為800;情況3:恢復步長為60、離散變量數為1 260、連續(xù)變量數為1 200;情況4:恢復步長為80、離散變量數為1 680、連續(xù)變量數為1 600。將本文算法與D3QN 算法、DQN+DDPG 混合算法、粒子群算法進行對比,恢復效果如圖6和表2所示。
表2 恢復效果對比Tab.2 Comparison of recovery result
圖6 恢復過程相關參數Fig.6 Related parameters of recovery process
圖6 給出了恢復過程失負荷量、網絡損耗、儲能裝置功率、光伏功率和風機功率的變化情況??梢钥闯觯瑢τ谑ж摵闪?,本文算法的曲線前段下降迅速,在恢復速度上優(yōu)于其他算法,同時3 種強化學習算法恢復后的失負荷量均優(yōu)于粒子群算法,其中本文算法略優(yōu)于D3QN算法和DQN+DDPG算法;對于網絡損耗,本文算法優(yōu)于DQN+DDPG 算法和粒子群算法,這是因為D3QN 算法在網絡損耗控制方面表現更好,降低了恢復過程的網絡損耗;對于儲能裝置功率,本文算法中儲能裝置的平均功率最小,功率波動平緩,有些時段還可利用盈余功率進行充電,這樣可有效減少儲能設備的裝機容量,延長裝置壽命,降低裝設成本;對于光伏和風機功率,本文算法中光伏和風機的平均功率高于其他算法,功率曲線更為平緩,這表明本文算法在分布式電源調控方面具有優(yōu)勢。
表2給出了恢復過程中4種算法的最優(yōu)目標函數值和恢復時間的對比??梢钥闯?,對于最優(yōu)目標函數值,4 種仿真情況下本文算法的最優(yōu)目標函數值均最小,恢復效果最優(yōu),而且隨著離散變量和連續(xù)變量數量及步長的增加,本文算法的恢復效果的優(yōu)勢更為明顯。此外,3 種強化學習算法的恢復效果均優(yōu)于粒子群算法且優(yōu)勢明顯。對于恢復時間,3種強化學習算法的恢復速度均明顯優(yōu)于粒子群算法,這是因為強化學習算法在訓練完成后,保存的智能體可以直接用于恢復,在同一拓撲結構下無需重新訓練。本文算法的恢復時間最短,同時隨著離散變量和連續(xù)變量數量及步長的增加,幾乎沒有造成恢復時間的延長。而粒子群算法隨著離散變量和連續(xù)變量數量及步長的增加,恢復時間會明顯延長,在步長為80 時粒子群算法恢復時間是本文算法的2 300倍。上述結果驗證了本文算法在恢復速度方面也優(yōu)于傳統(tǒng)算法。
本文提出了一種基于混合強化學習的主動配電網故障恢復方法,主要結論如下。
(1)本文針對主動配電網故障恢復問題,構建了配電網故障恢復模型,同時模型中還考慮了高比例新能源接入的情況。
(2)選取D3QN+DDPG 混合算法作為訓練算法,解決了傳統(tǒng)強化學習方法只能處理單一動作空間的問題。結果表明,本文算法在訓練時收斂穩(wěn)定性高,恢復過程網絡損耗控制良好,分布式電源出力平穩(wěn),對儲能裝置依賴也較小,同時在恢復速度和恢復效果上優(yōu)勢明顯,驗證了本文算法的有效性和優(yōu)越性。