李 昊, 榮 娜, 鄧棋宸
(貴州大學(xué) 電氣工程學(xué)院, 貴陽 550025)
隨著全球能源轉(zhuǎn)型,新能源大規(guī)模分散式接入電網(wǎng),致使電力系統(tǒng)隨機(jī)性、間歇性不斷增強(qiáng),傳統(tǒng)自動發(fā)電控制(AGC) 策略已經(jīng)不滿足電網(wǎng)需求[1-2]。 因此,從AGC 策略的角度,尋找一種在綜合能源系統(tǒng)背景下有效提高系統(tǒng)安全穩(wěn)定運(yùn)行的控制策略具有重要意義[3-4]。
AGC 控制策略實(shí)際上是根據(jù)電網(wǎng)實(shí)時運(yùn)行工況在線計(jì)算出最優(yōu)決策[5]。 目前,AGC 控制策略可以分為傳統(tǒng)AGC 控制策略和智能AGC 動態(tài)優(yōu)化策略。 傳統(tǒng)AGC 控制策略有模糊控制、自適應(yīng)控制、魯棒控制、 比例積分微分(Proportional Integral Derivative, PID)控制等方法。 文獻(xiàn)[6]使用自適應(yīng)烏鴉搜索算法提出了一個最優(yōu)模糊PID 控制器,將其應(yīng)用于非線性兩區(qū)域和三區(qū)域再熱系統(tǒng)的AGC,減少頻率偏差。 隨著大規(guī)模新能源接入電網(wǎng),數(shù)據(jù)維度變大,傳統(tǒng)PID 控制方法控制難度急劇增大。伴隨人工智能的進(jìn)步與發(fā)展,有關(guān)AGC 的智能算法也相繼應(yīng)用,試圖解決傳統(tǒng)控制方法暴露的問題。
由于強(qiáng)化學(xué)習(xí)具有實(shí)時性和自適應(yīng)性,智能體可以與環(huán)境交互收集信息,不斷試錯和探索,從而可以在綜合能源系統(tǒng)獲得最優(yōu)控制策略。 文獻(xiàn)[7]將Q 學(xué)習(xí)算法應(yīng)用于AGC,依靠Q值函數(shù)和控制性能標(biāo)準(zhǔn)(Control Performance Standards,CPS)控制動作形成閉環(huán)反饋來形成最優(yōu)控制策略,增強(qiáng)了算法的適應(yīng)性和控制性能;文獻(xiàn)[8]提出多經(jīng)驗(yàn)池概率回放的雙延遲深度確定性策略梯度(Multiple Experience pool experience replay Twin Delayed deep deterministic policy gradient, ME-TD3)算法,采用不同概率從不同經(jīng)驗(yàn)池采樣,提高最優(yōu)策略的質(zhì)量;文獻(xiàn)[9]引入卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN),解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法中維數(shù)災(zāi)難的問題,但缺乏考慮歷史狀態(tài)變化,造成局部最優(yōu)的問題;文獻(xiàn)[10]提出一種基于動態(tài)策略的贏或快速學(xué)習(xí)爬坡策略(Policy Dynamics based Win or Learn Fast Policy Hill-Climbing, PDWoLF-PHC)算法,通過改變學(xué)習(xí)率在各種復(fù)雜的電力系統(tǒng)環(huán)境中得到最優(yōu)策略,解決了新能源和分布式能源接入電網(wǎng)時產(chǎn)生的強(qiáng)隨機(jī)擾動問題,但由于采樣復(fù)雜度較高,算法收斂速度較慢。
為解決復(fù)雜綜合能源系統(tǒng)背景下AGC 算法收斂速度慢、控制性能差的問題,本文提出了一種基于多智能體遷移柔性行動器-批判器與長短時記憶網(wǎng)絡(luò)(Multi-Agent Transfer Soft Actor-Critic with Long-Short Term Memory, MATSAC-LSTM)的算法,該算法具有更強(qiáng)魯棒性,最大熵政策可以使智能體具有更強(qiáng)的探索能力,能夠得到全局最優(yōu)解,融合遷移學(xué)習(xí)使得算法的收斂速度變快。 在一個修改的IEEE標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個五區(qū)域綜合能源系統(tǒng)進(jìn)行了算例分析。 結(jié)果表明,該方法能有效提高系統(tǒng)的控制性能指標(biāo)和收斂速度,降低了系統(tǒng)的區(qū)域控制誤差和頻率偏差。
傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在AGC 應(yīng)用上收斂速度慢,控制性能差,因此本文在柔性行動器-批判器(Soft Actor-Critic, SAC)算法的基礎(chǔ)上,用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時序特征提取,作為MATSAC 算法的輸入,多智能體框架使得智能體之間信息共享,并通過遷移學(xué)習(xí)來解決收斂速度慢的問題,進(jìn)而提出MATSAC-LSTM 算法來提高收斂速度和控制性能。
本文提出MATSAC-LSTM 算法架構(gòu)如圖1 所示。 本文所研究的AGC 系統(tǒng)是動態(tài)隨機(jī)環(huán)境,MATSAC-LSTM 算法根據(jù)系統(tǒng)所處的狀態(tài)計(jì)算出相應(yīng)的獎勵值,將當(dāng)前系統(tǒng)環(huán)境的狀態(tài)量作為MATSAC-LSTM 算法的輸入,智能體在每個控制周期中,給出最優(yōu)功率發(fā)電指令。
深度強(qiáng)化學(xué)習(xí)具有處理高維連續(xù)狀態(tài)-動作空間的特點(diǎn),而柔性行動器-批判器(SAC)算法是最好異策略深度強(qiáng)化學(xué)習(xí)算法之一,相較于雙延遲深度確定性策略梯度( Twin Delayed deep deterministic policy gradient, TD3)算法和近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法,該算法可以使政策的熵值和預(yù)期收益最大化,從而使樣本學(xué)習(xí)的效率得到提高,SAC 算法框架如圖2所示。
圖2 SAC 算法框架Fig.2 Framework of SAC algorithm
在SAC 算法中,概率策略的熵可以描述為式(1):
其中,st代表當(dāng)前智能體的狀態(tài),a代表當(dāng)前智能體的動作。
在強(qiáng)化學(xué)習(xí)算法框架中的最大熵值函數(shù),可以描述為式(2):
其中,E代表數(shù)學(xué)期望;T為智能體和環(huán)境交互的時間步數(shù);at代表智能體在時間t執(zhí)行的動作。
在SAC 算法中,有3 個神經(jīng)網(wǎng)絡(luò),分別是:V網(wǎng)絡(luò),Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
V網(wǎng)絡(luò)Vψ(st) 由損失函數(shù)的均方誤差更新,式(3):
其中,D是訓(xùn)練樣本的經(jīng)驗(yàn)回放池,λV是V網(wǎng)絡(luò)的學(xué)習(xí)速率。
策略網(wǎng)絡(luò)π?(at |st) 可以由KL散度損失公式更新,式(4):
其中,λπ代表V 網(wǎng)絡(luò)的學(xué)習(xí)速率。
Q網(wǎng)絡(luò)Qπθ(st,at) 通過貝爾曼誤差公式進(jìn)行更新,式(5) 和式(6):
其中,r(st,at) 代表智能體執(zhí)行動作時獲得的獎勵,Vˉψ(st) 代表目標(biāo)網(wǎng)絡(luò)。
與SAC 算法相比,多智能體遷移柔性行動器-批判器算法是將單智能體采用集中訓(xùn)練分散執(zhí)行(Centralized Training with Decentralized Execution,CTDE)框架拓展到多智能體。 在訓(xùn)練階段,本文在每個區(qū)域設(shè)置一個智能體,智能體的Actor 網(wǎng)絡(luò)和目標(biāo)Actor 網(wǎng)絡(luò)采集當(dāng)前狀態(tài)的環(huán)境信息和下一狀態(tài)的環(huán)境信息,然后生成智能體的當(dāng)前動作和目標(biāo)動作。 將一個智能體觀察的環(huán)境狀態(tài)量,以及其他智能體的動作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,Critic 網(wǎng)絡(luò)輸出當(dāng)前動作的Q值。 此外,每個智能體都有一個自己的經(jīng)驗(yàn)回放池,以提高M(jìn)ASAC算法的穩(wěn)定性。 在智能體收集足夠經(jīng)驗(yàn)回放池中的數(shù)據(jù)后,每個智能體從經(jīng)驗(yàn)回放池中隨機(jī)取樣來訓(xùn)練自己。 當(dāng)經(jīng)驗(yàn)回放池中有足夠的數(shù)據(jù)時,智能體隨機(jī)抽樣得到的數(shù)據(jù)接近于獨(dú)立的相同分布,設(shè)置經(jīng)驗(yàn)回放池可以打破序列之間關(guān)聯(lián)性,避免模型陷入局部最優(yōu)。
長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)是在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)基礎(chǔ)上改進(jìn)的,每個LSTM 都是一組捕獲數(shù)據(jù)的單元,這些單元從一個模塊連接到另一個模塊,傳輸過去的數(shù)據(jù),并收集當(dāng)前的數(shù)據(jù)。LSTM 模型示意圖如圖3 所示。
LSTM 網(wǎng)絡(luò)包括3 個門:輸入門、輸出門和遺忘門,幫助LSTM 處理順序數(shù)據(jù)。遺忘門ft、輸入門it、輸出門ot由式(7)~式(9) 計(jì)算得出。
其中,xt,ht分別代表輸入層和輸出層;Wf,Wi,Wo,Wc是隱藏層輸入映射到3個門的權(quán)重矩陣;Uf,Ui,Uo,Uc是關(guān)于3 個門與輸入單元狀態(tài)之間連接相關(guān)的權(quán)重矩陣;bf,bi,bo,bc是偏差向量;σg是門激活函數(shù)。
計(jì)算得到的3 個門的輸出后,由式(10)和式(11)更新輸出:
其中,Ct代表長期記憶信息,ht代表短期記憶信息。
在模型訓(xùn)練時,LSTM 網(wǎng)絡(luò)將已經(jīng)輸出的記憶信息與電力系統(tǒng)的當(dāng)前狀態(tài)連接,傳遞給Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)作為輸入,使得智能體輸入的信息更加完整。
遷移學(xué)習(xí)涉及源領(lǐng)域和目標(biāo)領(lǐng)域,從源領(lǐng)域?qū)W習(xí)到的知識可以轉(zhuǎn)移到目標(biāo)領(lǐng)域,源領(lǐng)域和目標(biāo)領(lǐng)域相似,則知識轉(zhuǎn)移的過程相對容易,從而不考慮在兩者之間分布和適應(yīng)性方面的差異。 不同綜合能源系統(tǒng)由于其機(jī)組不同、結(jié)構(gòu)不同,所以其控制策略也有差異。 因此,遷移學(xué)習(xí)可以與SAC 算法相結(jié)合,從而使SAC 算法在AGC 中學(xué)習(xí)效率得到提高。 在遷移學(xué)習(xí)中,通常采用兩種策略,一種是傳遞學(xué)習(xí)模型的參數(shù);另一種是共享由以前訓(xùn)練過的智能體。本文采用第一種方法,即在源領(lǐng)域訓(xùn)練后的智能體向目標(biāo)領(lǐng)域智能體進(jìn)行參數(shù)傳遞。
基于MATSAC-LSTM 算法的自動發(fā)電控制是通過各個區(qū)域的智能體實(shí)時感知綜合能源系統(tǒng)中的環(huán)境信息,智能體通過收集當(dāng)前系統(tǒng)的環(huán)境信息狀態(tài)量作為MATSAC-LSTM 算法的輸入,以獎勵函數(shù)作為目標(biāo)函數(shù),計(jì)算出相應(yīng)獎勵值,算法在每個控制周期中,智能體輸出最優(yōu)動作作為實(shí)際電網(wǎng)調(diào)度端所有機(jī)組最優(yōu)的總發(fā)電調(diào)節(jié)指令。
1、工資費(fèi)管理。工資費(fèi)用是人員費(fèi)用中最為敏感的話題,也是歷來審計(jì)查處的重點(diǎn)。直接費(fèi)用是課題組活動中可以直接計(jì)入成本的費(fèi)用。包括人員費(fèi)、設(shè)備費(fèi)等其他研究過程中的經(jīng)費(fèi)。人員費(fèi)即課題組成員的工資性費(fèi)用。課題組成員所在單位有事業(yè)費(fèi)撥款的,由所在單位按照國家規(guī)定的標(biāo)準(zhǔn)從事業(yè)費(fèi)中及時足額支付給課題組成員,并按規(guī)定在課題預(yù)算的相關(guān)科目中列示,不得在國家資助的課題專項(xiàng)經(jīng)費(fèi)中重復(fù)列支。國家另有規(guī)定的,按照有關(guān)規(guī)定執(zhí)行。
綜合能源的控制性能可以通過區(qū)域控制偏差(Area Control Error, ACE)ACE 和CPS1 來衡量。
ACE 計(jì)算,式(12):
其中,Δf代表電網(wǎng)實(shí)際頻率與計(jì)劃頻率之差;ΔPT代表聯(lián)絡(luò)線上實(shí)際交換功率與計(jì)劃交換功率之差;B代表區(qū)域定義的頻率偏差系數(shù)。
CPS1 指標(biāo),式(13):
其中,ε1是互聯(lián)電網(wǎng)對全年1 min 頻率平均偏差均方根的控制目標(biāo)值,Δfmin代表相應(yīng)變量在1 min內(nèi)的平均值。
(1)狀態(tài)空間:對于任何時刻t,Si代表智能體在t時刻當(dāng)前的狀態(tài),可以用式(14)表示:
其中,ACEi是第i區(qū)域的區(qū)域控制誤差的瞬時值,Δfi是第i區(qū)域頻率偏差的瞬時值。
其中,ΔPGi是第i區(qū)域?qū)嶋H電網(wǎng)調(diào)度端所有機(jī)組的總發(fā)電調(diào)節(jié)指令。
(3)獎勵函數(shù):將ACE作為目標(biāo)函數(shù),能夠使CPS 指標(biāo)保持高水平穩(wěn)定且功率限制在小范圍內(nèi)波動。 而系統(tǒng)控制性能也能由頻率偏差的絕對值|Δf |的大小直接反應(yīng)。 本文將ACE和|Δf |作為算法的獎勵函數(shù),并且對ACE和|Δf |的量綱進(jìn)行歸一化處理,獎勵函數(shù)式(16):
其中,| ACE(t)|是t時刻ACE的絕對值;|Δf(t)|是t時刻頻率偏差的絕對值;α1和α2是|ACE(t)|和|Δf |的權(quán)重,且α1=α2=0.5。
本文智能體模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸入是LSTM 網(wǎng)絡(luò)的輸出,相較于其他神經(jīng)網(wǎng)絡(luò),LSTM 神經(jīng)網(wǎng)絡(luò)能夠更好的將歷史信息和目前的狀態(tài)信息結(jié)合起來,生成最優(yōu)策略。 Actor 網(wǎng)絡(luò)設(shè)置3個全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,其結(jié)構(gòu)示意圖如圖4 所示。 Actor 神經(jīng)網(wǎng)絡(luò)的隱藏神經(jīng)元分別是:128、64、1;Critic 網(wǎng)絡(luò)的輸入為環(huán)境狀態(tài)和動作的合集,也含3 個全連接層,ReLU 激活函數(shù)層,Tanh 激活函數(shù)層,最后輸出最優(yōu)策略,3 個全連接層的神經(jīng)元的個數(shù)分別是:64、32、1。
圖4 Actor 網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 Schematic diagram of Actor network structure
為驗(yàn)證本文所提的MATSAC-LSTM 算法的有效性和適用性,在一個修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上采用多智能體柔性行動器-批判器與長短時記憶網(wǎng)絡(luò)算法驗(yàn)證LSTM 網(wǎng)絡(luò)和多智能體結(jié)合SAC 算法在AGC 中的控制效果,并通過遷移學(xué)習(xí)在一個五區(qū)域綜合能源系統(tǒng)模型上采用MATSAC-LSTM 算法進(jìn)行仿真實(shí)驗(yàn)。
模型中的一些參數(shù)的選擇將影響算法在自動發(fā)電控制中的應(yīng)用效果。 這些參數(shù)按照以下原則選?。?/p>
(1)折扣因子:代表知識矩陣在更新過程中對過去獎勵值的折扣。 如果累計(jì)的獎勵值對實(shí)際問題的求解影響大,則折扣因子選擇較大的值。 對于自動發(fā)電控制而言,目前環(huán)境所得到的獎勵的瞬時值更為重要,所以折扣因子選擇較小的值。
(2)學(xué)習(xí)率:如果設(shè)置太小,則算法收斂緩慢,但容易找到全局最優(yōu)解。 設(shè)置越大,算法的收斂速度越快,但可能導(dǎo)致算法無法收斂。 本文在引入遷移學(xué)習(xí)的方法后,算法已經(jīng)具有較好的先驗(yàn)知識,所以學(xué)習(xí)率選擇較小的值。
(3)經(jīng)驗(yàn)池長度:如果經(jīng)驗(yàn)池過大,則會導(dǎo)致無用的經(jīng)驗(yàn)加入到抽樣過程中;如果經(jīng)驗(yàn)池過小,則會導(dǎo)致算法不能通過經(jīng)驗(yàn)池的抽樣獲得最優(yōu)解。 本文通過大量實(shí)驗(yàn),選取1 000 000。
(4)dropout: dropout 如果過大則會影響算法的擬合能力;如果過小,則會導(dǎo)致數(shù)據(jù)樣本不足而過擬合。 本文在自動發(fā)電過程中,會獲得大量樣本,所以dropout 選擇較小的值。
(5)批次大?。涸谝欢ǚ秶鷥?nèi),批次越大,引起訓(xùn)練震蕩越小,收斂精度越高。 但如果過大,則會增加訓(xùn)練時間,且收斂精度也不會提高。 本文進(jìn)行了大量的實(shí)驗(yàn),選取批次大小為512 最為有效。
通常,在不同環(huán)境下綜合能源系統(tǒng)的運(yùn)行工況會實(shí)時變化,需要設(shè)置不同的最優(yōu)參數(shù)才能尋求到不同環(huán)境下自動發(fā)電控制的最優(yōu)解,但是這將耗費(fèi)大量時間,本文根據(jù)參數(shù)選取的原則和大量的實(shí)驗(yàn)仿真得到一組最優(yōu)的參數(shù)見表1。
表1 模型參數(shù)Tab.1 Parameters of model
本文在IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型基礎(chǔ)上融入電池儲能、風(fēng)電、光伏。
3.1.1 智能體訓(xùn)練
MASAC-LSTM 算法分為離線訓(xùn)練和在線測試兩個階段。 離線訓(xùn)練階段,智能體的學(xué)習(xí)步長為AGC 系統(tǒng)的控制周期,該標(biāo)準(zhǔn)算例中取4 s,不斷更新智能體的策略,使控制器的控制效果達(dá)到最優(yōu)。最終對修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的第一個區(qū)域施加一個周期800 s,幅值1 000 MW,時間8000 s 的正弦負(fù)荷擾動。
各種算法智能體學(xué)習(xí)過程如圖5 所示。 與PID、Q、TD3、PDWoLF-PHC、SAC 算法相比,MASAC-LSTM 算法在1 200 s 后,已經(jīng)能夠穩(wěn)定地跟蹤負(fù)載擾動變化,能夠更準(zhǔn)確的跟蹤負(fù)荷擾動,收斂速度最快。 由 于 MATSAC - LSTM 算 法 可 以 通 過LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時序特征提取,并作為MATSAC 算法的輸入,使得智能體能夠結(jié)合歷史信息做出更優(yōu)的決策,因此使得獎勵值震蕩次數(shù)減少,具有更好的動態(tài)性能。
圖5 智能體學(xué)習(xí)過程Fig.5 The learning process of agents
3.1.2 階躍擾動
為了評估MASAC-LSTM 算法的可靠性和魯棒性,引入振幅為1 000 MW 階躍擾動。 基于Q、PID、TD3、PDWoLF-PHC、SAC、MASAC-LSTM 算法的在線測試結(jié)果如圖6 所示。 可以看出,MASAC-LSTM算法在兩個區(qū)域的ACE和Δf的峰值明顯小于其他3 種算法,說明MASAC-LSTM 算法有效地減小了ACE的偏差,在220 s 內(nèi)MASAC-LSTM 算法可以使各區(qū)域達(dá)到穩(wěn)定。 區(qū)域聯(lián)絡(luò)線功率偏差A(yù)CE可以直接看出區(qū)域之間數(shù)據(jù)的共享程度以及多個區(qū)域之間協(xié)同控制的配合程度,MASAC-LSTM 算法采用了多智能體集中訓(xùn)練分散執(zhí)行框架,使智能體之間信息共享,有效實(shí)現(xiàn)多個區(qū)0 域之間的最優(yōu)協(xié)同控制。
圖6 階躍擾動曲線Fig.6 Curve of step perturbation
3.1.3 方波擾動
引入考核周期為1 500 s,幅值在800 MW 以內(nèi)的方波負(fù)荷擾動,5 種算法的控制性能見表2。 可以看出,MASAC-LSTM 的|Δf |的平均值降低0.002 2~0.004 Hz,|ACE |的平均值降低2.391~11.869 MW,CPS1 的平均值增加0.841%~2.311%。
表2 不同算法的控制性能Tab.2 Control performance of different algorithms
隨著電網(wǎng)新能源占比提高,為了考慮大量分布能源并入電網(wǎng)造成的影響,本文構(gòu)建五區(qū)域綜合能源模型。 此模型在一個IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型上加入了電池儲能、風(fēng)電、光伏、熱電聯(lián)產(chǎn)、柴油發(fā)電、核能水電等機(jī)組,每個區(qū)域設(shè)置獨(dú)立的智能體,實(shí)現(xiàn)多智能體協(xié)同控制。
因?yàn)镸ASAC-LSTM 算法需要智能體與環(huán)境長時間進(jìn)行交互,收集數(shù)據(jù)從而獲得最佳策略,本文對修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的智能體向五區(qū)域綜合能源系統(tǒng)模型的智能體傳遞參數(shù),從而縮短智能體的訓(xùn)練時間。
第一組實(shí)驗(yàn)采用MASAC-LSTM 算法在構(gòu)建的五區(qū)域綜合能源系統(tǒng)模型上訓(xùn)練320 輪;第二組實(shí)驗(yàn)采用遷移學(xué)習(xí)的方法,將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層全連接層參數(shù)轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第三組實(shí)驗(yàn)將修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型的訓(xùn)練模型Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的第一層和第二層全連接層轉(zhuǎn)移到五區(qū)域綜合能源系統(tǒng)模型參數(shù)中;第二組實(shí)驗(yàn)和第三組實(shí)驗(yàn)的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)的輸出層都被重置,且將回放緩沖區(qū)清空,訓(xùn)練320 輪。
遷移學(xué)習(xí)訓(xùn)練曲線如圖7 所示。 由圖7 可見,第一組實(shí)驗(yàn)的起始獎勵為-26.7,第二組實(shí)驗(yàn)為-23.2,第三組實(shí)驗(yàn)為-21.2,說明MATSAC-LSTM 算法使智能體能更好地收集經(jīng)驗(yàn);在100 輪時,第三組實(shí)驗(yàn)獎勵已經(jīng)達(dá)到-13,而第一組實(shí)驗(yàn)的獎勵還在緩慢上升,MATSAC-LSTM 算法通過遷移學(xué)習(xí)可以使獎勵增長率變大;第一組實(shí)驗(yàn)最后獎勵穩(wěn)定在-12.4,第二組實(shí)驗(yàn)為-9.1,第三組實(shí)驗(yàn)為-7.9,說明通過遷移學(xué)習(xí)MATSAC-LSTM 算法在求解質(zhì)量方面得到提高。 實(shí)驗(yàn)結(jié)果說明通過遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以減少整個算法的訓(xùn)練時間,而對于轉(zhuǎn)移模型參數(shù)的選擇,在重置輸入層和輸出層的基礎(chǔ)上,轉(zhuǎn)移的神經(jīng)網(wǎng)絡(luò)參數(shù)越多,訓(xùn)練的收斂速度越快,且尋優(yōu)結(jié)果也更好。
考慮到綜合能源系統(tǒng)的隨機(jī)性和間歇性,在五區(qū)域綜合能源系統(tǒng)中引入幅值為1 000 MW,持續(xù)時間為10 000 s 的隨機(jī)擾動,擾動曲線如圖8 所示。
圖8 隨機(jī)擾動曲線Fig.8 The curves of random disturbance
PID、Q、TD3、PDWoLF-PHC、SAC、MASAC-LSTM、MATSAC-LSTM 7 種算法在隨機(jī)擾動下的控制性能如圖9 所示。 相較于其他算法,本文所提算法的|Δf |、|ACE |、穩(wěn)態(tài)誤差、超調(diào)量有所降低,CPS1 有所提高。
圖9 隨機(jī)擾動下算法的控制性能Fig.9 Control performance of algorithms under random perturbance
本文提出了一種基于MATSAC-LSTM 的綜合能源系統(tǒng)自動發(fā)電控制算法。 一個修改的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制系統(tǒng)模型和一個五區(qū)域綜合能源系統(tǒng)模型的仿真結(jié)果表明,與傳統(tǒng)PID、Q、TD3、SAC 算法相比, 本文算法在CPS1,| ACE |,|Δf |,穩(wěn)態(tài)誤差,超調(diào)量等控制性能指標(biāo)均表現(xiàn)較優(yōu)。 此外,有以下幾點(diǎn)發(fā)現(xiàn):
(1)本文用LSTM 網(wǎng)絡(luò)將采集的區(qū)域控制誤差等環(huán)境狀態(tài)量進(jìn)行時序特征提取,并作為MATSAC算法的輸入,使智能體能結(jié)合歷史信息進(jìn)行快速的有功功率分配決策;
(2)本文采用集中訓(xùn)練分散執(zhí)行框架,將一個智能體和環(huán)境的交互信息,以及其他智能體的動作信息作為相應(yīng)智能體Critic 網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)了多智能體之間的信息共享;
(3)通過遷移學(xué)習(xí)將舊任務(wù)訓(xùn)練的Critic 和Actor 網(wǎng)絡(luò)模型參數(shù)轉(zhuǎn)移到新任務(wù)相應(yīng)模型參數(shù)中,可以提高智能體的訓(xùn)練效率。