宋鵬飛,楊寧,崔承剛,閆南,奚培鋒
(1.上海電力大學(xué),上海200090;2.上海市智能電網(wǎng)需求響應(yīng)重點(diǎn)實(shí)驗(yàn)室,上海200333)
電力系統(tǒng)是一個(gè)包含發(fā)電、輸變電、用電等環(huán)節(jié)的綜合系統(tǒng),是現(xiàn)代社會(huì)的重要基礎(chǔ)設(shè)施。電力系統(tǒng)故障(部分或完全停電)會(huì)導(dǎo)致巨大的經(jīng)濟(jì)損失[1]。2003年8月14號,美國和加拿大電力系統(tǒng)部分地區(qū)停電造成的經(jīng)濟(jì)損失高達(dá)100億美元。此外,未來將會(huì)有更多的服務(wù)設(shè)備依賴于電力(例如新能源汽車、交通運(yùn)輸?shù)认到y(tǒng))。因此保障電力系統(tǒng)的穩(wěn)定運(yùn)行至關(guān)重要。
隨著不可再生能源的不斷消耗和國家推進(jìn)高效清潔能源體系結(jié)構(gòu)的建設(shè),以風(fēng)能和太陽能為主的分布式能源通過電力電子變換器接入到電力系統(tǒng),降低了系統(tǒng)的慣性,對系統(tǒng)的穩(wěn)定運(yùn)行產(chǎn)生了沖擊[2]。因此需要尋求先進(jìn)的控制技術(shù),來確保從發(fā)電源頭到最終用戶端電力傳輸?shù)目煽啃?,并防止或減少系統(tǒng)的停電現(xiàn)象,避免巨大的經(jīng)濟(jì)損失和社會(huì)后果。
逐漸完善的通信基礎(chǔ)設(shè)施和強(qiáng)大計(jì)算能力的控制設(shè)備為實(shí)施高級的控制方案提供了可能性。控制工程、計(jì)算機(jī)科學(xué)、大數(shù)據(jù)、應(yīng)用數(shù)學(xué)等理論的發(fā)展為控制系統(tǒng)設(shè)計(jì)提供了更多的高級控制算法。近年來,深度強(qiáng)化學(xué)習(xí)在電力系統(tǒng)控制與決策方面的應(yīng)用研究已得到各界人士的認(rèn)可,2018年國家電網(wǎng)正式發(fā)文成立人工智能應(yīng)用研究所。
機(jī)器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。不同于監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)是一種自監(jiān)督的學(xué)習(xí)方式:智能體一方面基于動(dòng)作和獎(jiǎng)勵(lì)數(shù)據(jù)進(jìn)行訓(xùn)練,并優(yōu)化行動(dòng)策略;另一方面自主地與環(huán)境互動(dòng),觀測所需狀態(tài)并獲取反饋[3]。傳統(tǒng)的強(qiáng)化學(xué)習(xí)只能解決序列決策問題,無法適用電力系統(tǒng)的復(fù)雜性和不確定性。深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合突破了這一限制,為電力系統(tǒng)控制與決策問題提供了新的方案。
強(qiáng)化學(xué)習(xí)是一種無模型并且和環(huán)境反復(fù)交互的學(xué)習(xí)方法,主要是通過智能體在對應(yīng)的環(huán)境中不斷地試錯(cuò)來尋找最優(yōu)策略,其過程可以用馬爾科夫決策過程表示[4]。其中最經(jīng)典的強(qiáng)化學(xué)習(xí)算法是基于值函數(shù)的Q算法,智能體評估執(zhí)行動(dòng)作之后所得獎(jiǎng)勵(lì)的大小指導(dǎo)自己的更新方向,經(jīng)過自我不斷優(yōu)化逐漸逼近最優(yōu)值。強(qiáng)化學(xué)習(xí)過程如圖1。
圖1 強(qiáng)化學(xué)習(xí)原理圖
首先智能體從環(huán)境中識別自己所處的當(dāng)前狀態(tài)St,之后選擇動(dòng)作at,環(huán)境反饋獎(jiǎng)勵(lì)rt+1,并進(jìn)入下一個(gè)狀態(tài)S’。智能體根據(jù)獲得獎(jiǎng)懲回報(bào)的大小來更新策略。強(qiáng)化學(xué)習(xí)最終目標(biāo)是找到最優(yōu)策略p*,使智能體在任意過程都可以獲得最大的長期累積回報(bào)。
其中γ是折扣因子,決定了時(shí)間回報(bào)尺度,π是策略,S是狀態(tài)空間。
在大多數(shù)電力系統(tǒng)控制問題中,狀態(tài)空間是無限的。通常采用狀態(tài)空間離散化技術(shù)將狀態(tài)空間劃分為有限數(shù)量區(qū)域[5]。因此可以將電力系統(tǒng)控制序列問題定義成馬爾科夫決策過程。從而在離散的空間中搜索最優(yōu)策略,得到最大值函數(shù)Q。Q函數(shù)的公式為:
深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的興起和發(fā)展與深度學(xué)習(xí)研究的深入和突破緊密相關(guān),尤其是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)。DNNs的引入使得RL能夠擴(kuò)展到具有高維狀態(tài)和行為空間的決策問題。圖2展示了DRL的一般框架。
圖2 DRL一般框架
DRL算法根據(jù)不同的特征方式有基于價(jià)值函數(shù)、基于控制策略和基于模型等多種分類方法[6]。最具有代表性的基于價(jià)值函數(shù)的DRL算法是DeepMind公司提出深度Q網(wǎng)絡(luò)算法(Deep Q-Network,DQN)[7]。以此為基礎(chǔ),研究人員對DQN做了不同的改進(jìn):解決過估計(jì)問題的Double DQN、高效學(xué)習(xí)的Prioritized Replay DQN和將環(huán)境價(jià)值和動(dòng)作價(jià)值解耦的Dueling DQN。最流行的基于控制策略的DRL是深度確定性策略算法(Deep Deterministic Policy Gradient,DDPG),該算法借鑒了DQN和AC的優(yōu)點(diǎn),能夠高效地解決具有連續(xù)動(dòng)作空間的任務(wù)。
電力系統(tǒng)控制問題可以描述成一個(gè)馬爾科夫決策過程,針對不同的任務(wù)觀測所需狀態(tài)并設(shè)置特定的動(dòng)作空間,用獲得的數(shù)據(jù)集進(jìn)行訓(xùn)練優(yōu)化,從而達(dá)到所期望的運(yùn)行效果。
文獻(xiàn)[8]提出一種未來可能應(yīng)用于實(shí)際場景的電力系統(tǒng)智能體決策結(jié)構(gòu)框圖。它定義了學(xué)習(xí)和決策兩個(gè)模塊。學(xué)習(xí)模塊是典型的RL,而決策模塊是貪婪智能體用學(xué)習(xí)模塊中所獲得知識進(jìn)行控制。這樣,智能體同時(shí)利用了仿真數(shù)據(jù)和實(shí)際數(shù)據(jù),又避免了與系統(tǒng)直接交互,并且貪婪智能體還可以實(shí)時(shí)更新學(xué)習(xí)模塊獲得的策略,以確保系統(tǒng)的穩(wěn)定運(yùn)行。其控制框架如圖3。
圖3 電力系統(tǒng)智能體決策框圖
電力系統(tǒng)在不同運(yùn)行狀態(tài)下面臨著許多控制問題。DyLiacco等人提出了一種被廣泛接受的電力系統(tǒng)運(yùn)行狀態(tài)分類方法[9]。他們定義的五種運(yùn)行狀態(tài)如圖4所示。
圖4 電力系統(tǒng)運(yùn)行狀態(tài)圖
圖中E是等式約束,代表系統(tǒng)發(fā)電負(fù)荷需求平衡;I是不等式約束,代表系統(tǒng)物理設(shè)備的限制(通常根據(jù)系統(tǒng)組件可以承受而不會(huì)造成任何損壞的電流和電壓幅度、有功、無功和視在功率來定義),符號“~”是違反。本文將根據(jù)此框架來綜述DRL應(yīng)用于電力系統(tǒng)控制與決策方面的概況。
在正常運(yùn)行狀態(tài)下,電力系統(tǒng)各功率需求達(dá)到平衡,系統(tǒng)設(shè)備均在額定范圍內(nèi)工作。此時(shí),除了維持系統(tǒng)正常運(yùn)行,還要調(diào)節(jié)系統(tǒng)各設(shè)備出力,在保證發(fā)電質(zhì)量的同時(shí),讓電力系統(tǒng)有一定的擾動(dòng)承受能力,從而實(shí)現(xiàn)電力系統(tǒng)的安全、經(jīng)濟(jì)運(yùn)行。本節(jié)下面將從設(shè)備裝置、子系統(tǒng)、微電網(wǎng)三方面介紹基于DRL的控制決策。
(1)設(shè)備裝置控制
在繼電器保護(hù)控制方面,文獻(xiàn)[10]將繼電器保護(hù)控制公式化為多智能體RL問題,提出了一種新穎的多智能體嵌套RL方案,通過設(shè)置繼電器控制邏輯來區(qū)分發(fā)電量大、運(yùn)行條件差的配電系統(tǒng)和故障運(yùn)行狀況。該策略在故障率、對運(yùn)行條件變化的魯棒性和響應(yīng)速度方面遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的基于閾值的繼電保護(hù)策略。
為了使可再生能源的高效率發(fā)電,文獻(xiàn)[11]提出一種基于在線RL的變速風(fēng)能轉(zhuǎn)換系統(tǒng)(Wind Energy Conversion Systems,WECS)智能最大功率點(diǎn)跟蹤(Maxi?mum Power Point Tracking,MPPT)的方法。該策略不需了解風(fēng)力渦輪機(jī)參數(shù)和風(fēng)速信息,通過學(xué)習(xí)MPP獲得最佳轉(zhuǎn)子轉(zhuǎn)速-輸出功率曲線,然后應(yīng)用于WECS。文獻(xiàn)[12]針對永磁同步發(fā)電機(jī)的變速風(fēng)能轉(zhuǎn)換系統(tǒng)(WECS),提出將人工神經(jīng)網(wǎng)絡(luò)ANN與RL結(jié)合起來學(xué)習(xí)轉(zhuǎn)子速度和永磁同步電機(jī)輸出的最佳功率關(guān)系。此方法不僅易于實(shí)現(xiàn),而且可以再次激活以適應(yīng)系統(tǒng)的變化。文獻(xiàn)[13]提出用可變泄漏最小均方算法來生成光伏逆變器基準(zhǔn),將RL算法用于MPPT和滑動(dòng)模式方法來生成開關(guān)信號。MPPT采用Q學(xué)習(xí)算法設(shè)計(jì),用于在不同太陽光照條件下的太陽能電池板最大功率跟蹤。文獻(xiàn)[14]在OpenAI Gym平臺上對DDPG、IGDDPG和TD3三種RL控制策略在不同溫度和太陽輻照度條件下進(jìn)行性能測試,仿真結(jié)果表明DRL方案能夠?qū)崟r(shí)監(jiān)測光照和溫度條件變化,快速調(diào)整自身策略以保證發(fā)電功率最大。文獻(xiàn)[15]是在局部陰影條件下基于DRL檢測MPP。同等條件下,相比于傳統(tǒng)跟蹤方法,DQN方法和DDPG方法有更快速的追蹤效果。但是,該方案的局限性在于所提出的方法不能始終檢測到全局MPP,將來還需進(jìn)一步提高基于DRL的方法的跟蹤能力。
(2)子系統(tǒng)控制
針對非馬爾科夫環(huán)境下自動(dòng)發(fā)電控制(Automatic Generation Control,AGC)火電廠的長時(shí)間延遲控制回路問題,文獻(xiàn)[16]提出一種多步Q(l)的隨機(jī)最優(yōu)松弛AGC方案。該AGC策略可通過在線調(diào)整松弛因子來優(yōu)化CPS合規(guī)性和降低控制成本。文獻(xiàn)[17]提出一種終身學(xué)習(xí)AGC方案,該方案將風(fēng)電場、光伏電站、電動(dòng)汽車集成為用于AGC的廣域虛擬發(fā)電廠,從而加快系統(tǒng)響應(yīng)速度,并減少了需求功率不匹配時(shí)的成本。而且還引入了模仿學(xué)習(xí)提高智能體學(xué)習(xí)效率,實(shí)現(xiàn)在線優(yōu)化。文獻(xiàn)[18]提出了一種基于DRL的AGC參數(shù)擬合的數(shù)據(jù)驅(qū)動(dòng)方法,通過建立ACG驅(qū)動(dòng)電網(wǎng)模型,用DQN參數(shù)擬合來評估不同風(fēng)力穿透率和斜率下的AGC性能。文獻(xiàn)[19]為應(yīng)對可再生能源的不確定性,提出了一種基于DRL的負(fù)荷頻率控制(Load-Frequency Control,LFC)。該方案通過DRL和連續(xù)動(dòng)作搜索來離線優(yōu)化LFC策略,并采用在線控制,其中特征提取采用層疊式去噪編碼器。
確保電網(wǎng)電壓始終保持在額定范圍內(nèi)是電網(wǎng)安全運(yùn)行的必要條件。文獻(xiàn)[20]提出一種基于DRL自主電壓控制策略,智能體根據(jù)監(jiān)控與數(shù)據(jù)采集或相量測量單元實(shí)時(shí)測量檢測到的當(dāng)前系統(tǒng)狀況,對電網(wǎng)進(jìn)行及時(shí)有效控制。在隨機(jī)條件下進(jìn)行測試,DQN和DDPG智能體僅使用一個(gè)控制決策就可以分別達(dá)到預(yù)期目標(biāo)的91.25%和99.92%。文獻(xiàn)[21]提出雙時(shí)間尺度DRL控制電網(wǎng)電壓方法,其中慢時(shí)間尺度從使用DRL的數(shù)據(jù)中學(xué)習(xí)最優(yōu)電容器設(shè)置,快時(shí)間尺度利用精確或近似的網(wǎng)格模型,再根據(jù)慢時(shí)間尺度的學(xué)習(xí)部署找到逆變器的最佳設(shè)置點(diǎn),從而實(shí)現(xiàn)快速調(diào)壓控制。
(3)微電網(wǎng)控制
分布式能源的飛速發(fā)展對控制方案有了更高的要求。文獻(xiàn)[22]提出采用RL對包含光伏系統(tǒng)和柴油發(fā)電機(jī)的混合儲(chǔ)能系統(tǒng)(HESS)進(jìn)行在線最優(yōu)控制,以改善HESS的瞬態(tài)性能。該方案使用了兩種神經(jīng)網(wǎng)絡(luò):其一進(jìn)行非線性動(dòng)力學(xué)的學(xué)習(xí),另一種通過在線學(xué)習(xí)來控制系統(tǒng)的最佳輸入。并且通過評估確定了此方法的有效性。文獻(xiàn)[23]提出一種微電網(wǎng)系統(tǒng)并網(wǎng)模式下的自適應(yīng)智能功率控制方法,該控制系統(tǒng)包含神經(jīng)模糊控制器和模糊智能體控制器。模糊評論智能體采用基于神經(jīng)動(dòng)力學(xué)編程的RL算法。通過模糊智能體產(chǎn)生的評估或增強(qiáng)信號和誤差的反向傳播,在線調(diào)整神經(jīng)模糊控制器的輸出層權(quán)重。與傳統(tǒng)的PI控制相比,該控制器瞬態(tài)響應(yīng)時(shí)間顯著減少,功率振蕩得以消除,并且實(shí)現(xiàn)了快速收斂。
電力系統(tǒng)在運(yùn)行過程中,遇到嚴(yán)重的擾動(dòng),可能會(huì)使某些設(shè)備超出正常運(yùn)行范圍。這時(shí)需經(jīng)過有效的調(diào)節(jié)措施,使系統(tǒng)恢復(fù)到正常狀態(tài)。文獻(xiàn)[24]基于描述級聯(lián)故障的現(xiàn)實(shí)潮流模型,用Q算法對大規(guī)模電力系統(tǒng)級聯(lián)故障尋找總線最優(yōu)恢復(fù)序列,實(shí)驗(yàn)證明在恢復(fù)性能方面優(yōu)于基準(zhǔn)啟發(fā)式恢復(fù)策略。文獻(xiàn)[25]使用由下而上的多智能體分層控制,當(dāng)系統(tǒng)發(fā)生故障時(shí),下層智能體首先定位故障并使之隔離,上層智能體在下層智能體的協(xié)助下對系統(tǒng)重組和恢復(fù)。
文獻(xiàn)[26]提出在電力系統(tǒng)網(wǎng)絡(luò)受到攻擊時(shí),用DDPG算法來確定最佳重合閘時(shí)間。在模擬環(huán)境中,受到網(wǎng)絡(luò)攻擊的電力系統(tǒng),通過數(shù)值積分方法獲得電力系統(tǒng)的狀態(tài),通過暫態(tài)能量函數(shù)來評估恢復(fù)性能。在訓(xùn)練完成之后,通過更多的場景測試驗(yàn)證方案的適應(yīng)性,并且與DQN的效果相比較,DDPG算法能更迅速且更具連續(xù)性的生成最優(yōu)恢復(fù)操作,從而減輕級聯(lián)中斷的潛在風(fēng)險(xiǎn)。
當(dāng)系統(tǒng)遇到嚴(yán)重故障時(shí),會(huì)造成系統(tǒng)電壓或者頻率低于極限值,設(shè)備也可能進(jìn)入超負(fù)荷運(yùn)行狀態(tài)。這時(shí)系統(tǒng)會(huì)觸發(fā)報(bào)警信號進(jìn)入緊急狀態(tài),緊急控制一般被認(rèn)為是電力系統(tǒng)最后的安全保護(hù),調(diào)度人員應(yīng)采取靈活的方案,使系統(tǒng)恢復(fù)到警戒狀態(tài)然后再到正常狀態(tài)。文獻(xiàn)[27]開發(fā)了RL電力系統(tǒng)測試平臺并對自己所提出的DRL緊急控制方案進(jìn)行評估。在DQN模型訓(xùn)練好之后,在不同的場景對發(fā)動(dòng)機(jī)動(dòng)態(tài)制動(dòng)和低壓減載進(jìn)行測試,仿真實(shí)驗(yàn)證明DRL方案在緊急狀態(tài)下對系統(tǒng)的調(diào)節(jié)比MPC和Q算法有更好的自適應(yīng)性和耐用性。文獻(xiàn)[28]使用電機(jī)無功、電機(jī)角度等多維屬性數(shù)據(jù)對DRL進(jìn)行訓(xùn)練,此方案讓負(fù)責(zé)選擇動(dòng)作和計(jì)算值函數(shù)的雙重Q網(wǎng)絡(luò)與獲得運(yùn)行環(huán)境獎(jiǎng)勵(lì)值和動(dòng)作獎(jiǎng)勵(lì)值的競爭Q網(wǎng)絡(luò)相結(jié)合,通過比較兩種網(wǎng)絡(luò)的Q值大小來選擇切機(jī)策略。
預(yù)防控制是將實(shí)時(shí)測量系統(tǒng)的運(yùn)行值與額定值進(jìn)行比較,利用所得信息對系統(tǒng)進(jìn)行安全監(jiān)視。當(dāng)信息表明系統(tǒng)不夠安全,則提前采取切換負(fù)荷、調(diào)整安全裝置等措施,保證系統(tǒng)的穩(wěn)定運(yùn)行。文獻(xiàn)[29]提出通過RL來防止智能電網(wǎng)出現(xiàn)連鎖故障。智能體經(jīng)過系統(tǒng)訓(xùn)練之后,可以通過實(shí)時(shí)調(diào)節(jié)發(fā)動(dòng)機(jī)的輸出功率來緩解線路阻塞,防止在N-1和N-1-1緊急情況下連續(xù)發(fā)生線路中斷和停電。在IEEE 118總線系統(tǒng)上測試表明,此方法能在不切斷負(fù)載的情況下,持續(xù)保證獨(dú)立電網(wǎng)或者復(fù)雜系統(tǒng)的平穩(wěn)運(yùn)行。此外,該方法還可以使系統(tǒng)平穩(wěn)地進(jìn)入無過載的新狀態(tài),且不會(huì)因突然變化(例如,負(fù)載減少的情況)對系統(tǒng)施加壓力。
文獻(xiàn)[30]為了預(yù)防電力系統(tǒng)大規(guī)模連續(xù)擾動(dòng),提出了深林深度強(qiáng)化學(xué)習(xí)算法(Deep Forest Reinforcement Learning,DFRL),DFRL Q值和動(dòng)作集被分割用來降低數(shù)據(jù)維度,深層森林被用來預(yù)測下一個(gè)系統(tǒng)狀態(tài),多個(gè)輔助RL通過學(xué)習(xí)系統(tǒng)的特性從而對大型互聯(lián)電力系統(tǒng)AGC單元發(fā)送指令,與傳統(tǒng)的方法相比,DFRL性能最優(yōu)。
綜上可知,DRL大多數(shù)控制方案都是針對系統(tǒng)的正常運(yùn)行狀態(tài)下決策問題,其他方面的涉及相對較少。隨著DRL多智能分步控制、嵌入特定專家知識等領(lǐng)域的發(fā)展,DRL將逐步給出電力系統(tǒng)各種控制問題的最優(yōu)解。
到目前為止,DRL控制決策已經(jīng)應(yīng)用于電力系統(tǒng)的各個(gè)場景,幾乎覆蓋電力系統(tǒng)的每一個(gè)技術(shù)方向。據(jù)不完全統(tǒng)計(jì),相關(guān)領(lǐng)域已經(jīng)有數(shù)百篇文章發(fā)表,但由于相關(guān)數(shù)據(jù)獲取難度高、缺乏系統(tǒng)方法等原因,落地應(yīng)用成果較少,還有待于各行業(yè)人員研究開發(fā),最終實(shí)現(xiàn)DRL在電力系統(tǒng)的實(shí)際應(yīng)用。
數(shù)字化的興起,促進(jìn)了可用數(shù)據(jù)的增加,推動(dòng)整個(gè)電力系統(tǒng)進(jìn)入“智能電網(wǎng)時(shí)代”;電動(dòng)汽車、分布式發(fā)電、新型負(fù)載、電力電子設(shè)備的大量接入增加了網(wǎng)絡(luò)物理系統(tǒng)的復(fù)雜性。DRL對決策問題普遍的適用性有望對電力系統(tǒng)來實(shí)現(xiàn)最優(yōu)控制。未來對電力系統(tǒng)安全DRL、微電網(wǎng)分層多任務(wù)DRL控制、大規(guī)模區(qū)域輸配電DRL控制、智能樓宇、嵌入領(lǐng)域特定知識等方面的研究,對推進(jìn)電力系統(tǒng)智能自主自動(dòng)化控制具有重要意義。