doi:10.3969/j.issn.1001-5922.2024.02.051
摘 要:為提高配電網日網損減少收益、日峰谷價差套利收益,需合理分配電池充放電功率,為此,提出基于深度強化學習的分布式儲能電池能量調度方法。構建了分布式儲能電池剩余可用能量估計模型,使用基于深度強化學習的電池能量調度模型,將目標函數設為日網損減少收益、日峰谷價差套利收益最大化,由深度強化學習模型驅動智能體,尋優(yōu)調度目標函數,獲取最佳電池能量調度時的充放電功率。結果表明,用所提方法調度后,分布式儲能電池均在低谷狀態(tài)中充電、高峰狀態(tài)中放電,且電池充放電功率在限值之內,配網日網損減少收益、日峰谷價差套利收益增多。
關鍵詞:深度;強化學習;分布式;儲能;電池;能量調度
中圖分類號:TQ150;TM73" " " "文獻標志碼:A" " " "文章編號:1001-5922(2024)02-0193-04
Automatic optimization and scheduling method for distributed battery energy storage based on deep reinforcement learning
HE Shan,ZHAO Yuming
(Shenzhen Power Supply Bureau Co.,Ltd.,Shenzhen 518001, Cuangdong China)
Abstract:In order to improve the daily network loss reduction benefits and daily peak-to-valley "price difference arbitrage incomes of the distribution network,it is necessary to reasonably allocate the charging and discharging power of the battery.Therefore,a distributed energy storage battery energy scheduling method based on deep reinforcement learning was proposed.The remaining available energy estimation model of distributed energy storage battery was constructed,and the battery energy scheduling model based on deep reinforcement learning was used to set the objective function as the daily network loss reduction income and the daily peak-to-valley price difference arbitrage income maximization.The deep reinforcement learning model drove the agent to find the optimal scheduling objective function to obtain the charging and discharging power during the optimal battery energy scheduling.The results showed that after the scheduling by the proposed method,the distributed energy storage batteries were charged in the low state and discharge in the peak state,and the battery charging and discharging power was within the limit,and the daily network loss reduction income of the distribution network and the arbitrage income of the daily peak-to-valley price difference increased.
Key words:depth;strengthen learning;distributed;energy storage;battery;energy dispatch
分布式儲能電池能量調度是電池管理工作的核心內容,電池能量狀態(tài)能夠體現電池的充放電能力[1-2]。針對分布式儲能電池能量調度問題的研究雖多,但能量狀態(tài)的定義存在分歧。針對分布式儲能電池來講,分布式儲能電池能量合理調度,是延長電池循環(huán)壽命、抑制電網功率異常變化、減少電網運營成本的必要措施。如以混合供電系統總費用最小化為目標,使用功率調度的方式,調整多類型電池儲能單元的運行狀態(tài)[3]。在電網二次調頻過程中,使用分布式控制方法,解決電池能量管理問題[4]。深度強化學習屬于數據驅動技術之一,是機器學習方法的核心方法,其不僅具備深度學習的自適應感知技能,還具備強化學習的決策技能。為此,提出基于深度強化學習的分布式儲能電池能量調度方法,用于優(yōu)化分布式儲能電池能量調度效果。
1"分布式儲能電池能量調度方法
1.1"分布式儲能電池剩余可用能量估計模型
分布式儲能電池能量的定義是:電場里電荷的能量,又叫做電勢能[5]。此能量水平與電荷電量存在正相關性,主要受電勢高低影響。電荷與電池能量存在密切關系,除此之外,電池能量也受電池溫度、充放電電流、健康模式所影響[6-8],構建分布式儲能電池剩余可用能量估計模型,計算電池剩余可用能量。分布式儲能電池剩余可用能量估計模型如圖1所示。
由圖1可知,根據分布式儲能電池的溫度、充放電電流、電荷狀態(tài)、健康模式,便能夠估計分布式儲能電池的理論剩余能量,此能量是電池能夠放出的能量最大值[9]。理論剩余能量并不全都是可用電能,一部分能量會變成內阻焦耳熱與反應熱[10]。
電池剩余能量運算如圖2所示。
由圖2可知,A區(qū)域代表分布式儲能電池內阻焦耳熱與反應熱。反應熱能夠描述電化學反應的熵變,當分布式儲能電池運行工況是交變充放電時,反應熱和電池總產熱相比,差距明顯,為此可以排除不計[11-13]。在低溫工況中,因為分布式儲能電池會出現極化問題,端電壓會快速與放電截止電壓一致,分布式儲能電池中的某些電量便不能充分使用[14-16];此類能量就是圖2中的B區(qū)域能量,將其設成Fc。則電池組的剩余可用能量:
式中:I是分布式儲能電池電流;Si、t依次是電阻內阻、時間尺度。
1.2"基于深度強化學習的電池能量調度模型
1.2.1"分布式儲能電池能量調度目標函數的設計
電池能量調度就是電池充放電動作調度,電池充放電動作調度時,不僅需要以電網需求為核心,還需要結合電池自身能量狀態(tài),設置合理的充放電動作狀態(tài)。
為此,結合實際儲能電池剩余可用能量信息,將分布式儲能電池能量調度目標,設計為日網損減少收益o1、日峰谷價差套利收益o2最大化,在保證電池不出現壽命損失的前提下,完成電池能量調度,保證電網的運行效益。分布式儲能電池能量調度目標函數:
maxO=o1+o2(2)
式中:O代表儲能電池能量調度的日目標收益。
(2)分布式儲能電池運行約束:
深度強化學習模型結構如圖3所示。
由圖3可知,輸入層的輸入樣本是目前分布式儲能電池剩余可用能量,分布式儲能電池剩余可用能量從輸入層傳輸至隱藏層后,隱藏層將可用能量數據映射至統一維度,由激活函數層使用ReLU函數計算σ′,輸出可實現日網損減少收益、日峰谷價差套利收益最大化的電池能量調度方案;然后在Tanh層結合調度方案,使用式(12)映射為電池能量調度的控制量,此控制量即為最佳電池能量調度時的充放電功率。
2"實驗分析
為分析提出方法的應用效果,將圖4所示的IEEE33節(jié)點配電網算例系統中分布式儲能電池,作為提出方法的調度目標。此系統中的電壓級別是12.67 kV,接入的分布式儲能電池類型主要是蓄電池、超級電容,蓄電池接入節(jié)點依次是節(jié)點13、節(jié)點16、節(jié)點31、節(jié)點32,超級電容接入節(jié)點依次是節(jié)點9、節(jié)點17、節(jié)點29、節(jié)點30。將儲能電池分為2個儲能集群,蓄電池與超級電容的信息如表1所示。
以節(jié)點13與節(jié)點9接入的蓄電池與超級電容為例,設置時間是6:00~20:00屬于配網用電高峰狀態(tài),其余時間為低谷狀態(tài),分析經提出方法調度后,2種分布式儲能電池的能量變化,結果如圖5所示。
由圖5可知,蓄電池、超級電容均在低谷狀態(tài)中充電、高峰狀態(tài)中放電,以此完成峰谷價差套利。
分布式儲能電池能量調度的功率變化如圖6所示。
由圖6可知,提出方法對分布式儲能電池能量調度之前,節(jié)點9~節(jié)點17線路潮流存在越限問題,導致節(jié)點9~節(jié)點17線路上,2種分布式儲能電池充放電功率大于限值,提出方法對分布式儲能電池能量調度之后,結合表1所示的功率限制信息可知,節(jié)點9~節(jié)點17線路上蓄電池、超級電容2種分布式儲能電池充放電功率在限值之內,說明提出方法對分布式儲能電池能量的調度合理有效。
提出方法使用后,配網分布式儲能電池能量調度的日收益變化如圖7、圖8所示。
由圖7和圖8可知,使用提出方法調度分布式儲能電池能量后,配網分布式儲能電池能量調度能力得到優(yōu)化,配網網損減少收益、峰谷價差套利收益在各個時刻均得以提升,實現了日目標收益最大值。
3"結語
(1)在分布式儲能電池能量調度之前,先構建了分布式儲能電池剩余可用能量估計模型,估計電池剩余可用能量,以免在調度過程中出現過度動作而導致電池使用壽命受損;
(2)利用深度強化學習的智能感知、決策能力,以分布式儲能電池能量調度目標為核心,自適應尋優(yōu)獲取合理的電池能量調度方案;
(3)以IEEE33節(jié)點配網系統為例,應用提出方法調度后,分布式儲能電池充放電功率變化、日收益變化驗證了提出方法的調度能力。
因篇幅有限,未能深入測試提出方法中深度強化學習模型對調度方案的尋優(yōu)效率,后續(xù)將以深度強化學習所用智能體為優(yōu)化目標,優(yōu)化其對電池能量調度動作的可行域探索速度。
【參考文獻】
[1]趙顯秋,秦立軍,段惠.基于聚合效應的配電網分布式儲能優(yōu)化調度[J].電力電容器與無功補償,2020,41(4):228-234.
[2]甘偉,郭劍波,李相俊,等 .面向多應用需求的分布式儲能優(yōu)化調度[J].電網技術,2019,43(5):1504-1511.
[3]蔣迎花,康麗霞,劉永忠.考慮日歷和循環(huán)衰退的多種類電池儲能系統的功率調度優(yōu)化[J].高?;瘜W工程學報,2019,33(4):895-902.
[4]張圣祺,袁蓓,季振東,等.基于分布式控制原理的電池儲能系統二次調頻控制[J].電工技術學報,2019,34(S2):637-645.
[5]馬騫,蘇寅生,黃河.針對風電波動抑制的電池儲能SOC魯棒優(yōu)化模型[J].可再生能源,2019,37(2):237-242.
[6]常喜茂,田資.考慮儲能電池的微電網群雙層優(yōu)化調度策略[J].熱力發(fā)電,2021,50(8):112-120.
[7]蘇向敬,陳思利,米陽,等.分布式電池儲能在含高比例可再生能源不平衡配電網中的序次優(yōu)化配置[J].電網技術,2019,43(10):3698-3707.
[8]李相俊,馬銳.考慮電池組健康狀態(tài)的儲能系統能量管理方法[J].電網技術,2020,44(11):4210-4217.
[9]胡詩堯,安佳坤,韓璟琳,等.基于一致性算法的智能電網儲能單元分布式調度策略[J].沈陽工業(yè)大學學報,2019,41(4):372-377.
[10]林振鋒,鄭常寶,芮濤,等.用戶側分布式儲能魯棒博弈優(yōu)化調度方法[J].中國電力,2022,55(2):35-43.
[11]韓永強,王學超,孫碣,等.分布式多源儲能模糊聚類集群協調優(yōu)化模型[J].可再生能源,2020,38(6):831-836.
[12]王劍波,李建林,周喜超,等.基于全景理論的分散式儲能系統集群優(yōu)化調度策略[J].高電壓技術,2021,47(8):2742-2752.
[13]李洋,陳潔,王小軍,等.微電網中混合儲能雙層模糊控制優(yōu)化策略[J].計算機仿真,2022,39(6):103-107.
[14]劉若河,賈燕冰,謝棟,等.考慮配電網消納能力的分布式電源與儲能優(yōu)化配置[J].電力電容器與無功補償,2021,42(1):166-172.
[15]李增華.電氣化軌道交通牽引網電儲能系統優(yōu)化研究[J].粘接,2023,50(4):169-172.
[16]何彬彬,楊波,潘軍等.碳中和視角下的氫儲能電熱氣耦合系統優(yōu)化配置[J].粘接,2022,49(11):118-121.
收稿日期:2023-09-16;修回日期:2023-12-15
作者簡介:何"山(1989-),男,碩士,工程師,研究方向:智能配用電技術和電力系統自動化;E-mail:781987799@qq.com。
通訊作者:趙宇明(1978-),[JP3]男,博士,教授級高級工程師,研究方向:智能配用電技術和直流配電技術;;E-mail:z_jingliang@163.com?;痦椖浚耗戏诫娋W科技項目資金資助項目(項目編號:0002200000085094)。
引文格式:何"山, 趙宇明.基于深度強化學習的分布式電池儲能自動尋優(yōu)調度方法[J].粘接,2024,51(2):193-196.