汪 超,趙嬋娟,程志友,,宋俊材
基于協(xié)同強化學(xué)習(xí)的微電網(wǎng)分布式兩級電壓優(yōu)化控制
汪 超1,趙嬋娟2,程志友1,2,宋俊材2
(1.安徽大學(xué)電子信息工程學(xué)院,安徽 合肥 230601;2.安徽大學(xué)互聯(lián)網(wǎng)學(xué)院,安徽 合肥 230039)
由于微電網(wǎng)中分布式電源組成復(fù)雜,運行模式多樣,孤島微電網(wǎng)的電壓恢復(fù)控制面臨著不確定性干擾的影響。為此,針對不確定性干擾下微電網(wǎng)的二級電壓恢復(fù)控制問題,提出了一種基于協(xié)同強化學(xué)習(xí)的微電網(wǎng)分布式兩級電壓優(yōu)化控制方法,實現(xiàn)孤島模式下微電網(wǎng)的電壓調(diào)節(jié)控制。首先構(gòu)建孤島微電網(wǎng)分布式一致性協(xié)同電壓控制算法,并建立李雅普諾夫函數(shù)穩(wěn)定性判定方法。其次根據(jù)控制器性能與控制器增益參數(shù)的關(guān)系,求解孤島微電網(wǎng)電壓控制器增益上界,并根據(jù)控制器增益參數(shù)上界限制強化學(xué)習(xí)智能體動作集。隨后,采用強化學(xué)習(xí)算法優(yōu)化二級控制器增益參數(shù),給出相應(yīng)的強化學(xué)習(xí)智能體狀態(tài)集、協(xié)同全局獎勵函數(shù)。最后在Matlab/Simulink上通過仿真實驗驗證了所提出的控制方法的有效性和適應(yīng)性。
微電網(wǎng);協(xié)同強化學(xué)習(xí);分布式兩級優(yōu)化控制;穩(wěn)定性判定;全局獎勵函數(shù)
微電網(wǎng)是由分布式電源(distributed generator, DG)、儲能裝置、本地負載以及監(jiān)控通信裝置等組成的小型分布式發(fā)電系統(tǒng)[1],具有提高能源利用率,有效管理各分布式電源的優(yōu)點[2-4]。通常微電網(wǎng)可以和主電網(wǎng)連接并網(wǎng)運行,當(dāng)主電網(wǎng)發(fā)生故障或檢修時,微電網(wǎng)與主電網(wǎng)分離運行于孤島模式,此時,微電網(wǎng)需要協(xié)調(diào)各分布式電源維持自身頻率、電壓穩(wěn)定[5-6]。傳統(tǒng)的下垂控制受線路阻抗的影響,難以保證微電網(wǎng)輸出電壓、頻率穩(wěn)定在參考值[7]。針對這一問題,文獻[8]提出了一種基于線路阻抗辨識的改進下垂控制策略,依據(jù)DG的等效線路阻抗辨識結(jié)果,在傳統(tǒng)無功下垂控制中增加無功偏差補償,實現(xiàn)分布式電源無功功率的合理分配。文獻[9]提出了一種基于自適應(yīng)虛擬阻抗的改進下垂控制方法,根據(jù)DG輸出的無功信息構(gòu)造虛擬阻抗,提高了分布式電源的無功功率分配精度。上述方法雖然在一定程度上提高了分布式電源功率分配精度,但在引入虛擬阻抗的同時會引起微電網(wǎng)系統(tǒng)的電壓跌落,研究微電網(wǎng)的輸出電能質(zhì)量調(diào)節(jié)控制具有重要意義。
為實現(xiàn)孤島微電網(wǎng)的輸出電壓、頻率調(diào)節(jié),進一步提高微電網(wǎng)的穩(wěn)定性,近年來,很多學(xué)者對微電網(wǎng)的分層控制展開了相關(guān)研究。文獻[10]提出了基于事件觸發(fā)通信機制的孤島微電網(wǎng)分布式兩級控制方案,在保證微電網(wǎng)輸出電壓、頻率調(diào)節(jié)性能的同時,能有效減少鄰節(jié)點間的通信次數(shù)。文獻[11]提出了一種基于對等稀疏網(wǎng)絡(luò)的微電網(wǎng)分布式兩級控制,解決了負荷不平衡及線路阻抗未知情況下的微電網(wǎng)電壓補償問題。文獻[12]提出了一種通信延時情況下孤島微電網(wǎng)的分布式兩級電壓控制方法。這些方法均采用分布式通信方式,不僅能確保微電網(wǎng)輸出電壓/頻率的調(diào)節(jié)性能,而且可以有效避免微電網(wǎng)兩級控制過程中的單點故障問題,文獻[13]提出了一種基于分布式一致性積分控制的孤島微電網(wǎng)兩級電壓控制方法,采用傳統(tǒng)的積分控制方式實現(xiàn)孤島微電網(wǎng)的電壓恢復(fù),并通過事件觸發(fā)的方式減少孤島微電網(wǎng)的通信負擔(dān)。但是,上述方法在孤島微電網(wǎng)控制過程中都很少涉及到微電網(wǎng)的輸出控制性能優(yōu)化問題,研究微電網(wǎng)的輸出電壓優(yōu)化控制,進一步提高微電網(wǎng)的輸出控制性能,具有重要意義。
隨著人工智能技術(shù)的興起與發(fā)展,強化學(xué)習(xí)(reinforcement learning, RL)逐漸在各種領(lǐng)域中發(fā)揮重要作用。目前強化學(xué)習(xí)方法在電力系統(tǒng)中已經(jīng)應(yīng)用于負荷預(yù)測[14]、能源管理[15]和經(jīng)濟調(diào)度[16]等方面。文獻[17]采用強化學(xué)習(xí)解決多場景下綜合能源系統(tǒng)優(yōu)化調(diào)度問題。文獻[18]提出了基于強化學(xué)習(xí)的微電網(wǎng)能源管理。文獻[19]采用強化學(xué)習(xí)解決電力系統(tǒng)中的經(jīng)濟調(diào)度問題。在系統(tǒng)控制性能優(yōu)化方面,文獻[20]考慮旋翼無人機模型的不確定性,通過引入強化學(xué)習(xí)算法有效消除了不確定性干擾和未建模動態(tài)特性對四旋翼無人機控制系統(tǒng)的影響,提高了旋翼無人機對外界干擾的魯棒性。文獻[21]針對復(fù)雜環(huán)境下無人船的精確軌跡航行問題,提出了基于強化學(xué)習(xí)方法的無人船高性能軌跡跟蹤控制,實現(xiàn)無人船在復(fù)雜環(huán)境下穩(wěn)定軌跡跟蹤的同時確保動態(tài)性能最優(yōu)。以上控制方法都是基于復(fù)雜應(yīng)用場景環(huán)境,并且易受到多種不確定性外界干擾影響。強化學(xué)習(xí)優(yōu)化控制方法通常不需要系統(tǒng)具有精確的數(shù)學(xué)模型,通過與環(huán)境不斷交互,根據(jù)環(huán)境反饋的獎勵改進決策能力,因而能夠很好地解決復(fù)雜環(huán)境下的系統(tǒng)控制優(yōu)化問題[22]。
考慮微電網(wǎng)面對的環(huán)境復(fù)雜多變,易受到多種不確定性干擾的影響,因此本文提出了一種基于協(xié)同強化學(xué)習(xí)的分布式兩級電壓優(yōu)化控制策略,實現(xiàn)孤島模式下微電網(wǎng)的電壓恢復(fù)控制。該策略在原有的分布式一致性二級控制中引入強化學(xué)習(xí)方法,采用強化學(xué)習(xí)優(yōu)化控制器增益參數(shù),克服了傳統(tǒng)二級控制中控制器增益參數(shù)單一,系統(tǒng)性能受參數(shù)限制的影響,可以有效地提高微電網(wǎng)在面對不確定性干擾時輸出電壓的動態(tài)控制性能。首先,建立孤島微電網(wǎng)分布式一致性協(xié)同電壓控制算法,并建立李雅普諾夫函數(shù)證明系統(tǒng)的穩(wěn)定性。然后,根據(jù)控制器增益參數(shù)與控制器性能之間的關(guān)系求解出孤島微電網(wǎng)電壓控制器增益上界,在此基礎(chǔ)上通過求解出的控制器增益上界限制強化學(xué)習(xí)動作集邊界,并給出智能體的動作集和狀態(tài)集。隨后提出了一種協(xié)同全局獎勵函數(shù)促進智能體收斂獲得最優(yōu)動作序列。最后,對孤島微電網(wǎng)在負荷投切以及即插即用情況下的輸出性能進行仿真分析,驗證本文所提出方法的有效性。
為了解決孤島微電網(wǎng)分布式電源輸出電壓和頻率偏差補償問題,本文將分布式兩級協(xié)同控制方法應(yīng)用于微電網(wǎng)內(nèi)的變流器控制,提出一種基于分布式兩級協(xié)同控制策略的孤島微電網(wǎng)網(wǎng)絡(luò)化控制結(jié)構(gòu),如圖1所示。
由圖1可知,孤島微電網(wǎng)網(wǎng)絡(luò)化控制結(jié)構(gòu)由初級控制和二級控制兩部分組成。其中初級控制是由傳統(tǒng)的功率計算、下垂控制、電壓外環(huán)控制器和電流內(nèi)環(huán)控制器組成,實現(xiàn)微電網(wǎng)的輸出電壓、頻率的穩(wěn)定控制。為了彌補初級下垂控制引起的電壓、頻率偏差,在二級控制部分利用通信網(wǎng)絡(luò)將各個分布式電源輸出的電壓幅值和頻率在相鄰節(jié)點間傳輸,通過分布式協(xié)同控制將各分布式電源的輸出電壓和頻率穩(wěn)定在參考值。
孤島微電網(wǎng)輸出電壓為非全局變量,容易受到外界干擾的影響??紤]強化學(xué)習(xí)方法對多種不確定性因素具有自適應(yīng)能力,特別適用于復(fù)雜系統(tǒng)的優(yōu)化控制。因此,本文考慮將強化學(xué)習(xí)方法與傳統(tǒng)控制結(jié)構(gòu)相結(jié)合,采用協(xié)同強化學(xué)習(xí)算法優(yōu)化孤島微電網(wǎng)分布式二級電壓控制器增益參數(shù),提出一種基于協(xié)同強化學(xué)習(xí)的孤島微電網(wǎng)分布式兩級優(yōu)化控制算法,以實現(xiàn)對不確定性干擾下孤島微電網(wǎng)輸出電壓的自適應(yīng)快速穩(wěn)定調(diào)節(jié)。
圖1 基于分布式強化學(xué)習(xí)的兩級控制的孤島微電網(wǎng)控制結(jié)構(gòu)圖
2.2.1分布式一致性協(xié)同電壓控制器
考慮微電網(wǎng)初級控制具有較快的動態(tài)特性,在微電網(wǎng)的二級控制建模時[13],可忽略初級控制的影響。因此,建立孤島微電網(wǎng)電壓控制的狀態(tài)空間模型如式(2)所示。
微電網(wǎng)二級控制目標是將各分布式電源的輸出電壓調(diào)節(jié)到參考值,其本質(zhì)可以看成是一個同步跟蹤控制問題。分布式一致性控制算法僅需要鄰節(jié)點之間進行信息交互,并且當(dāng)鄰節(jié)點間通信網(wǎng)絡(luò)拓撲圖滿足生成樹條件時,所有節(jié)點的狀態(tài)信息可在有限時間內(nèi)收斂到同一值。因此,本文采用分布式一致性協(xié)同控制策略來實現(xiàn)對孤島微電網(wǎng)的電壓調(diào)節(jié)控制。孤島微電網(wǎng)分布式一致性協(xié)同跟蹤控制器定義如式(3)。
2.2.2穩(wěn)定性分析與性能研究
在上述系統(tǒng)模型建立的基礎(chǔ)上,以下給出系統(tǒng)模型的穩(wěn)定性分析。設(shè)為正定對稱矩陣,選取Lyapunov方程如下:
≥ 0成立,對式(6)進行微分得到
因此,可以得出微電網(wǎng)分布式一致性協(xié)同控制器跟蹤誤差能漸近收斂到0,系統(tǒng)是穩(wěn)定的。為了進一步分析該分布式一致性控制系統(tǒng)的性能,定義如下。
則式(8)滿足如下不等式:
可以推導(dǎo)出
結(jié)合式(11)、式(13)可得
由式(6)和式(15)可得
由于孤島微電網(wǎng)輸出電壓容易受到多種不確定因素的干擾,導(dǎo)致輸出電壓的動態(tài)性能不理想。本文提出采用協(xié)同強化學(xué)習(xí)算法實現(xiàn)孤島模式下微電網(wǎng)的電壓恢復(fù)控制。
本文采用圖2所示的協(xié)同控制架構(gòu),其中1、23和4分別表示相應(yīng)智能體獲得的狀態(tài),虛線表示通信鏈路。各分布式電源智能體通過分布式通信鏈路相互連接并獲取鄰節(jié)點信息。節(jié)點的電壓跟蹤偏差為
式中:N為智能體的鄰節(jié)點總數(shù);包含了第i個分布式電源的輸出電壓與其相鄰分布式電源或者參考值之間的電壓偏差。
強化學(xué)習(xí)智能體的參數(shù)主要包括輸入狀態(tài)、輸出動作以及獎勵。狀態(tài)是指有利于智能體進行決策的信息,本文選擇狀態(tài)集為各分布式電源的輸出電壓偏差。動作是指智能體所做的決策,本文中人為預(yù)定義一系列控制器的增益參數(shù)。獎勵則是評判智能體所執(zhí)行動作的價值標準。本文采用基于強化學(xué)習(xí)的微電網(wǎng)兩級電壓優(yōu)化控制,通過優(yōu)化微電網(wǎng)分布式二級控制器增益參數(shù),有效提高了微電網(wǎng)分布式電源輸出電壓調(diào)節(jié)性能。
表1 微電網(wǎng)系統(tǒng)參數(shù)
智能體的獎勵是用來評估該智能體動作的價值,考慮到系統(tǒng)控制的目標是恢復(fù)微電網(wǎng)輸出電壓至參考值并使其動態(tài)性能最好。為了避免智能體訓(xùn)練的過程獎勵發(fā)散,加快收斂速度,經(jīng)過多次實驗最終選擇基于勢能的獎勵函數(shù)(potential-based reward shaping, PBRS)促進智能體的獎勵收斂,本文使用的具有勢能的局部獎勵定義為
本實驗中,設(shè)定系統(tǒng)從0 s開始運行到經(jīng)歷負荷投切等事件之后系統(tǒng)恢復(fù)為穩(wěn)定值的過程,稱為一幕(Episode),那么強化學(xué)習(xí)模型的訓(xùn)練目標是尋找最優(yōu)策略使得每一個Episode結(jié)束后,強化學(xué)習(xí)智能體獲得的獎勵(reward)最大化。
Q學(xué)習(xí)是一種基于價值的強化學(xué)習(xí)算法,智能體在訓(xùn)練初期會創(chuàng)建一個狀態(tài)動作映射表Q-table,該表格中的數(shù)值表示在離散狀態(tài)下對應(yīng)的某個動作的價值,智能體通過該數(shù)值來評估一個策略的優(yōu)劣。智能體在學(xué)習(xí)過程中,通過式(21)更新Q表的內(nèi)容。
表2 Q學(xué)習(xí)智能體參數(shù)
本文提出的微電網(wǎng)協(xié)同強化學(xué)習(xí)優(yōu)化算法流程圖如圖3所示。
圖3 協(xié)同強化學(xué)習(xí)優(yōu)化算法流程圖
為了驗證本文提出的方法的有效性,在Matlab 2020a/Simulink上搭建了包含4個并聯(lián)分布式電源的孤島微電網(wǎng)仿真模型,仿真系統(tǒng)拓撲圖如圖4所示,系統(tǒng)參數(shù)見表1所示。
圖4 仿真系統(tǒng)拓撲圖
根據(jù)式(10)和式(15)可知,孤島微電網(wǎng)輸出電壓控制性能受控制器增益限制。一般微電網(wǎng)分布式控制器增益參數(shù)越大,微電網(wǎng)輸出電壓調(diào)節(jié)速度越快,但相應(yīng)的輸出電壓動態(tài)性能可能越差。因此,結(jié)合孤島微電網(wǎng)對輸出電壓控制性能的要求,根據(jù)式(17)可做如下推算。
綜上所述,本文設(shè)定孤島微電網(wǎng)分布式二級控制器增益上界為240。由于本文選用基于Q學(xué)習(xí)的強化學(xué)習(xí)方法,通過離散化動作空間,設(shè)定孤島微電網(wǎng)協(xié)同強化學(xué)習(xí)動作集為= [30 60 90 120 150 180 210 240]。
圖6為訓(xùn)練過程中各Q學(xué)習(xí)智能體的平均獎勵情況,可以看出在訓(xùn)練的初始階段智能體的平均獎勵隨訓(xùn)練次數(shù)增加而迅速增大,經(jīng)過數(shù)百次訓(xùn)練后增幅變緩并開始逐漸收斂。以智能體4的累計獎勵為例,經(jīng)過大約100次訓(xùn)練之后,從最初-220逐漸收斂到-130左右,仿真結(jié)果表明本文所提出的強化學(xué)習(xí)方法是收斂有效的。
圖5 負荷投切情景孤島微電網(wǎng)電壓恢復(fù)性能
圖6 Q學(xué)習(xí)智能體訓(xùn)練獎勵
圖7(a)—圖7(d)分別給出了各個Q學(xué)習(xí)智能體在訓(xùn)練獎勵收斂情況下不同時刻動作圖。從圖7中可以看出智能體在不同運行環(huán)境下選擇了不同的動作,結(jié)合圖5微電網(wǎng)各分布式電源良好的輸出電壓跟蹤性能,得出強化學(xué)習(xí)方法對不確定性干擾具有良好的自適應(yīng)能力。
為了驗證本文所提出的協(xié)同強化學(xué)習(xí)優(yōu)化方法在負荷投切擾動情況下對電壓控制性能的優(yōu)越性,考慮到文獻[13]中同樣采用分布式一致性積分控制方法對孤島微電網(wǎng)進行電壓恢復(fù)控制,本節(jié)將本文的控制方法和文獻[13]的控制方法進行對比。為了不失一般性,列出了文獻[13]的控制方法在不同控制器增益情況下各分布式電源的電壓恢復(fù)情況,如圖8所示。
由2.2.2節(jié)可知,控制器增益影響微電網(wǎng)的收斂速度,控制器增益越大,受到干擾時孤島微電網(wǎng)電壓恢復(fù)時間越短。從圖8可以看出當(dāng)控制器增益k = 30時,微電網(wǎng)電壓恢復(fù)時間接近1 s,且最大超調(diào)量超過5 V;隨著控制器增益k逐漸增大,電壓調(diào)節(jié)時間明顯縮短,且超調(diào)量逐漸減??;當(dāng)控制器增益增加到k = 240時,采用分布式一致性積分控制仍然能將微電網(wǎng)輸出電壓調(diào)節(jié)到參考值,但此時微電網(wǎng)的輸出電壓振蕩特性明顯,動態(tài)性能變差。
圖7 Q學(xué)習(xí)智能體動作
圖8 不同控制器增益下微電網(wǎng)電壓恢復(fù)性能
為了不失一般性,圖9給出了本文控制方法和文獻[13]中k = 120、k = 240兩種控制器增益情形下的孤島微電網(wǎng)輸出電壓性能對比圖,圖10給出了這三種控制情形下的控制器增益動作圖。從圖9可以看出,當(dāng)k= 120時,文獻[13]中的控制方法相較于本文的控制方法,在負荷投切擾動下輸出電壓最大超調(diào)量明顯更大,且調(diào)節(jié)時間更長;當(dāng)k = 240時,文獻[13]中的控制方法輸出電壓超調(diào)量與本文的控制方法大體相同,但是其輸出電壓振蕩特性明顯,動態(tài)性能差。由圖10可知,文獻[13]中的傳統(tǒng)控制方法由于控制器增益k固定不變,在負荷投切擾動情況下,雖然控制器增益增大可以減小電壓恢復(fù)時間,但與此同時微電網(wǎng)輸出電壓的動態(tài)性能變差。相較于文獻[13]中傳統(tǒng)的控制方法,本文所提出的基于強化學(xué)習(xí)的優(yōu)化方法可以根據(jù)負荷投切擾動情況靈活、自適應(yīng)地選擇控制器增益參數(shù),具有更快的調(diào)節(jié)速度以及更優(yōu)的動態(tài)控制性能。本文所提出的控制方法,相比文獻[13]中的方法,可以有效地提高孤島微電網(wǎng)在面對負荷投切干擾時輸出電壓的動態(tài)控制性能。
圖9 文獻[15]中的方法和本文提出的協(xié)同強化學(xué)習(xí)優(yōu)化控制方法在負荷投切情況下的性能對比
圖10 負荷投切情景控制器增益動作對比
為了驗證本文所提出的協(xié)同強化學(xué)習(xí)優(yōu)化方法在即插即用擾動情況下其電壓控制性能的優(yōu)越性,在2 s時將DG4與微電網(wǎng)斷開連接,在3 s時將DG4重新接入微電網(wǎng)。圖11給出了即插即用情況下孤島微電網(wǎng)電壓恢復(fù)性能。從圖11中可以看出,采用本文所提出的控制策略可以快速實現(xiàn)孤島微電網(wǎng)電壓恢復(fù)并具有良好的電壓跟蹤效果。由此可見本文所提出的方法針對孤島微電網(wǎng)分布式電源的即插即用具有良好的控制性能。
為了進一步驗證本文所提出的協(xié)同強化學(xué)習(xí)方法在即插即用擾動情況下對電壓控制的優(yōu)越性,將本文的控制方法和文獻[13]中的控制方法進行對比。為了簡化分析過程,圖12列舉了本文控制方法和文獻[13]中控制器增益k= 120情形下的孤島微電網(wǎng)輸出電壓性能對比圖,圖13給出了這兩種控制情形下的控制器增益動作圖。從圖12中可以看出,本文所提出的控制方法在即插即用擾動下可以實現(xiàn)較好的電壓跟蹤效果,當(dāng)分布式電源接入微電網(wǎng),或分布式電源與微電網(wǎng)斷開時,文獻[13]中的控制方法相較于本文的控制方法,其輸出電壓具有相對更大的超調(diào)量和更長的調(diào)節(jié)時間。因此,本文提出的基于協(xié)同強化學(xué)習(xí)的孤島微電網(wǎng)分布式兩級電壓優(yōu)化方法具有更優(yōu)的電壓調(diào)節(jié)性能。
由圖13可知,文獻[13]中的傳統(tǒng)控制方法在即插即用擾動情況下,由于控制器增益k固定不變,無法實現(xiàn)控制器增益參數(shù)的自適應(yīng)變化。相較于文獻[13]中傳統(tǒng)的控制方法,本文所提出的基于協(xié)同強化學(xué)習(xí)的優(yōu)化方法可以根據(jù)即插即用擾動情況自適應(yīng)地選擇控制器增益參數(shù),因而具有更快的調(diào)節(jié)速度以及更優(yōu)的動態(tài)控制性能。
圖11 即插即用情景孤島微電網(wǎng)電壓恢復(fù)性能
圖12 文獻[13]中的方法和本文提出的協(xié)同強化學(xué)習(xí)優(yōu)化控制方法在即插即用情況下的性能對比
圖13 即插即用情景下控制器增益動作對比
本文提出了一種基于協(xié)同強化學(xué)習(xí)的分布式兩級電壓優(yōu)化控制策略,實現(xiàn)孤島模式下微電網(wǎng)的電壓恢復(fù)控制。首先構(gòu)建孤島微電網(wǎng)分布式一致性協(xié)同電壓控制算法,并建立李雅普諾夫函數(shù)穩(wěn)定性判定方法,通過進一步研究控制器性能與控制器增益之間的關(guān)系,求解孤島微電網(wǎng)電壓控制器增益上界。然后在分布式一致性電壓控制中引入?yún)f(xié)同強化學(xué)習(xí)算法優(yōu)化二級控制器增益參數(shù),并用求解出的控制器增益上界限制強化學(xué)習(xí)動作集邊界,有效提高微電網(wǎng)輸出電壓的動態(tài)控制性能。最后通過仿真對本文所提出的方法進行了驗證,與傳統(tǒng)的二級控制方法相比,本文所提出的方法在負荷投切以及分布式電源即插即用情況下可以自適應(yīng)調(diào)節(jié)控制器增益參數(shù),本文控制方法具有更好的電壓恢復(fù)性能。
[1] 許鵬, 黃鑫, 汪可友, 等. 適用于含多并聯(lián)逆變器微電網(wǎng)聯(lián)絡(luò)線功率控制策略[J]. 電力系統(tǒng)保護與控制, 2021, 49(16): 50-59.
XU Peng, HUANG Xin, WANG Keyou, et al. Tie-line power control strategy for a microgrid with multi-parallel connected inverters[J]. Power System Protection and Control, 2021, 49(16): 50-59.
[2] 張良, 閆凱宏, 冷祥彪, 等. 基于SOC下垂控制的獨立直流微電網(wǎng)協(xié)調(diào)控制策略研究[J]. 電力系統(tǒng)保護與控制, 2021, 49(12): 87-97.
ZHANG Liang, YAN Kaihong, LENG Xiangbiao, et al. Research on coordinated control strategy of an autonomous DC microgrid based on SOC droop control[J]. Power System Protection and Control, 2021, 49(12): 87-97.
[3] 米陽, 王鵬, 鄧錦, 等. 孤島交直流混合微電網(wǎng)群分層協(xié)調(diào)控制[J]. 電力系統(tǒng)保護與控制, 2021, 49(20): 1-8.
MI Yang, WANG Peng, DENG Jin, et al. Hierarchical coordinated control of island AC/DC hybrid microgrids[J]. Power System Protection and Control, 2021, 49(20): 1-8.
[4] 何黎君, 程杉, 陳梓銘, 等. 考慮交互功率控制和雙邊競價交易的多微電網(wǎng)雙層優(yōu)化調(diào)度[J]. 電力系統(tǒng)保護與控制, 2020, 48(11): 10-17.
HE Lijun, CHENG Shan, CHEN Ziming, et al. A scheduling model of a multi-microgrid system based on bi-layer optimization with consideration of PCC power control and bilateral bidding[J]. Power System Protection and Control, 2020, 48(11): 10-17.
[5] CHEN Feixiong, CHEN Minyou, LI Qiang, et al. Cost- based droop schemes for economic dispatch in islanded microgrids[J]. IEEE Transactions on Smart Grid, 2017, 8(1): 63-74.
[6] HAQUE Y Y U, ISLAM R, AHMED T, et al. Improved voltage tracking of autonomous microgrid technology using a combined resonant controller with lead-lag compensator adopting negative imaginary theorem[J]. Protection and Control of Modern Power Systems, 2022, 7(1): 149-164.
[7] ZHAO Changjuan, SUN Wei, WANG Jianping, et al. Distributed cooperative secondary control for islanded microgrid with Markov time-varying delays[J]. IEEE Transactions on Energy Conversion, 2019, 34(4): 2235-2247.
[8] 陳曉祺, 賈宏杰, 陳碩翼, 等. 基于線路阻抗辨識的微電網(wǎng)無功均分改進下垂控制策略[J]. 高電壓技術(shù), 2017, 43(4): 1271-1279.
CHEN Xiaoqi, JIA Hongjie, CHEN Shuoyi, et al. Improved droop control strategy based on line impedance identification for reactive power sharing in microgrid[J]. High Voltage Engineering, 2017, 43(4): 1271-1279.
[9] 顏麗, 米陽, 孫威, 等. 基于改進下垂控制的孤島交流微電網(wǎng)無功分配研究[J]. 太陽能學(xué)報, 2021, 42(8): 7-15.
YAN Li, MI Yang, SUN Wei, et al. Reactive power distribution control strategy in islanded AC microgrid based on improved droop control[J]. Acta Energiae Solaris Sinica, 2021, 42(8): 7-15.
[10] DING Lei, HAN Qinglong, ZHANG Xianming. Distributed secondary control for active power sharing and frequency regulation in islanded microgrids using an event-triggered communication mechanism[J]. IEEE Transactions on Industrial Informatics, 2019, 15(7): 3910-3922.
[11] 呂振宇, 蘇晨, 吳在軍, 等. 孤島型微電網(wǎng)分布式二次調(diào)節(jié)策略及通信拓撲優(yōu)化[J]. 電工技術(shù)學(xué)報, 2017, 32(6): 209-219.
Lü Zhenyu, SU Chen, WU Zaijun, et al. Distributed secondary control strategy and its communication topology optimization for islanded microgrid[J]. Transactions of China Electrotechnical Society, 2017, 32(6): 209-219.
[12] LIAN Zhijie, DENG Chao, WEN Changyun, et al. Distributed event-triggered control for frequency restoration and active power allocation in microgrids with varying communication time delays[J]. IEEE Transactions on Industrial Electronics, 2021, 68(9): 8367-8378.
[13] CHEN Meng, XIAO Xiangning, GUERRERO J M. Secondary restoration control of islanded microgrids with a decentralized event-triggered strategy[J]. IEEE Transactions on Industrial Informatics, 2018, 14(9):3870-3880.
[14] 范士雄, 李立新, 王松巖, 等. 人工智能技術(shù)在電網(wǎng)調(diào)控中的應(yīng)用研究[J]. 電網(wǎng)技術(shù), 2020, 44(2): 401-411.
FAN Shixiong, LI Lixin, WANG Songyan, et al. Application analysis and exploration of artificial intelligence technology in power grid dispatch and control[J]. Power System Technology, 2020, 44(2): 401-411.
[15] FORUZAN E, SOH L, ASGARPOOR S. Reinforcement learning approach for optimal distributed energy management in a microgrid[J]. IEEE Transactions on Power Systems, 2018, 33(5): 5749-5758.
[16] LIU Weiyong, ZHUANG Peng, LIANG Hao, et al. Distributed economic dispatch in microgrids based on cooperative reinforcement learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(6): 2192-2203.
[17] 劉洪, 李吉峰, 葛少云, 等. 基于多主體博弈與強化學(xué)習(xí)的并網(wǎng)型綜合能源微網(wǎng)協(xié)調(diào)調(diào)度[J]. 電力系統(tǒng)自動化, 2019, 43(1): 40-48.
LIU Hong, LI Jifeng, GE Shaoyun, et al. Coordinated scheduling of grid-connected integrated energy microgrid based on multi-agent game and reinforcement learning[J]. Automation of Electric Power Systems, 2019, 43(1): 40-48.
[18] DU Yan, LI Fangxing. Intelligent multi-microgrid energy management based on deep neural network and model-free reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(2): 1066-1076.
[19] 楊挺, 趙黎媛, 劉亞闖, 等. 基于深度強化學(xué)習(xí)的綜合能源系統(tǒng)動態(tài)經(jīng)濟調(diào)度[J]. 電力系統(tǒng)自動化, 2021, 45(5): 39-47.
YANG Ting, ZHAO Liyuan, LIU Yachuang, et al. Dynamic economic dispatch for integrated energy system based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2021, 45(5): 39-47.
[20] 華和安, 方勇純, 錢辰, 等. 基于線性濾波器的四旋翼無人機強化學(xué)習(xí)控制策略[J]. 電子與信息學(xué)報, 2021, 43(12): 3407-3417.
HUA He’an, FANG Yongchun, QIAN Chen, et al. Reinforcement learning control strategy of quadrotor unmanned aerial vehicles based on linear filter[J]. Journal of Electronics & Information Technology, 2021, 43(12): 3407-3417.
[21] 楊忱, 趙紅, 王寧, 等. 基于強化學(xué)習(xí)的指定性能軌跡跟蹤最優(yōu)控制[J]. 大連海事大學(xué)學(xué)報, 2021, 47(2): 1-10, 25.
YANG Chen, ZHAO Hong, WANG Ning, et al. Optimal control of specified performance trajectory tracking based on reinforcement learning[J]. Journal of Dalian Maritime University, 2021, 47(2): 1-10, 25.
[22] 喬驥, 王新迎, 張擎, 等. 基于柔性行動器–評判器深度強化學(xué)習(xí)的電–氣綜合能源系統(tǒng)優(yōu)化調(diào)度[J]. 中國電機工程學(xué)報, 2021, 41(3): 819-833.
QIAO Ji, WANG Xinying, ZHANG Qing, et al. Optimal dispatch of integrated electricity-gas system with soft actor-critic deep reinforcement learning[J]. Proceedings of the CSEE, 2021, 41(3): 819-833.
[23] LAI Jingang, ZHOU Hong, LU Xiaoqing, et al. Droop-based distributed cooperative control for microgrids with time-varying delays[J]. IEEE Transactions on Smart Grid, 2016, 7(4): 1775-1789.
Distributed secondary voltage optimization control for a microgrid based on cooperative reinforcement learning
WANG Chao1, ZHAO Chanjuan2, CHENG Zhiyou1, 2, SONG Juncai2
(1. School of Electronic and Information Engineering, Anhui University, Hefei 230601, China; 2. School of Internet, Anhui University, Hefei 230039, China)
Because of the complex composition of distributed generators and various operational modes in the microgrid, the voltage restoration control of an islanded microgrid will be affected by uncertain disturbances. In this paper, a distributed secondary microgrid voltage optimization control method based on cooperative reinforcement learning algorithm applied to the secondary voltage restore control problem of the microgrid under uncertain disturbances is proposed. This can realize the voltage regulation control of an islanded microgrid. First, a distributed consensus cooperative voltage control algorithm of the islanded microgrid is constructed, and a stability judgement method based on the Lyapunov function is established. Second, from the relationship between controller performance and gain parameters, the upper bound of the voltage controller gain of the islanded microgrid is derived. This can be used to constrain the action space of the reinforcement learning agent. Third, the reinforcement learning algorithm is applied to optimize the secondary voltage controller gain parameters, and the corresponding reinforcement learning state space and cooperative global reward function are presented. Finally, the effectiveness and adaptability of the proposed control are verified by simulation experiments on Matlab/Simulink.
microgrid; cooperative reinforcement learning; distributed secondary optimization control; stability judgement; global reward function
10.19783/j.cnki.pspc.220104
安徽省自然科學(xué)基金項目資助(2108085QE237);國家自然科學(xué)基金項目資助(51877060);安徽省高等學(xué)校自然科學(xué)研究項目資助(KJ2021A0018)
This work is supported by the Natural Science Foundation of Anhui Province (No. 2108085QE237).
2022-01-22;
2022-06-09
汪 超(1999—),男,碩士研究生,研究方向為微電網(wǎng)網(wǎng)絡(luò)化控制、無線傳感器網(wǎng)絡(luò)、優(yōu)化控制、機器學(xué)習(xí);E-mail: wchao_super@163.com
趙嬋娟(1989—),女,通信作者,博士,講師,研究方向為微電網(wǎng)網(wǎng)絡(luò)化控制、無線傳感器網(wǎng)絡(luò)、優(yōu)化控制、機器學(xué)習(xí);E-mail: jojo20061864@126.com
程志友(1972—),男,博士,教授,博士生導(dǎo)師,研究方向為電能質(zhì)量分析、檢測和評估。E-mail: czy@ahu.edu.cn
(編輯 許 威)