戴武昌,劉艾冬,申 鑫,馬鴻君,張 虹
(1.現(xiàn)代電力系統(tǒng)仿真控制與綠色電能新技術(shù)教育部重點實驗室(東北電力大學),吉林 吉林 132012;2.國網(wǎng)遼寧省電力有限公司撫順供電公司,遼寧 撫順 113000)
近年來,電動汽車因為具有清潔環(huán)保、噪音低等優(yōu)勢,在全球范圍內(nèi)得到大力發(fā)展[1-3].在需求響應環(huán)節(jié)中,電動汽車具有可中斷負荷的用電特性,為其充電行為優(yōu)化提供了可能[4].若有效利用,電動汽車也可以為電網(wǎng)提供諸如削峰填谷等作用[5-6].如何兼顧用戶側(cè)經(jīng)濟性和網(wǎng)側(cè)轉(zhuǎn)移限制峰值負荷的要求優(yōu)化充放電行為成為重要的研究課題.
目前,有許多的優(yōu)化模型和算法應用于電動汽車充放電行為調(diào)度中,以滿足電網(wǎng)側(cè)或用戶側(cè)的利益.文獻[7]提出了基于蒙特卡洛和粒子群算法的電動汽車有序充放電控制策略,運營商考慮多種因素制定策略,目的是限制電網(wǎng)功率和降低用戶成本.文獻[8]提出了一種基于超圖模型的最小能量損耗路由算法,通過電動汽車異地充放電進行電能的運輸,并規(guī)劃輸送路徑以減少了輸送過程的能量損失.文獻[9]建立了需求響應下代理商定價與購電策略,通過主從博弈的方式實現(xiàn)代理商與車主雙方利益最大化.文獻[10]建立了一種分時電價下電網(wǎng)與用戶雙方互動的主從博弈模型,以極小化負荷均方差和車主成本為優(yōu)化目標,實現(xiàn)了良好的經(jīng)濟效益與調(diào)峰效果.文獻[11]引入電動汽車集群管理機構(gòu),建立以最小化網(wǎng)側(cè)生產(chǎn)成本和用戶側(cè)充放電成本為目標的主動配電網(wǎng)供需協(xié)同優(yōu)化調(diào)度模型,得到的優(yōu)化調(diào)度策略不僅降低了生產(chǎn)成本和車主用電費用,而且改善了系統(tǒng)的電壓質(zhì)量.
上述文獻提供了電動汽車充電行為優(yōu)化調(diào)度的解決方案,但沒有充分挖掘歷史用電數(shù)據(jù)特性以指導電動汽車充放電行為.
近年來,由于具備對大數(shù)據(jù)的分析處理能力以及精準快速的決策能力,深度強化學習成為研究熱點,并廣泛應用在電動汽車充放電調(diào)度中.文獻[12]應用了DDQN算法進行汽車充電策略的制定,并通過調(diào)整電網(wǎng)節(jié)點的電動汽車負荷,保證了配電網(wǎng)滿足電壓約束.文獻[13]將家用電動汽車歸類為家用負荷中的可中斷負荷,將A3C算法與基于設(shè)備運行狀態(tài)概率分布的住宅用電模型相結(jié)合,生成的能耗調(diào)度策略可用于向電力用戶提供實時反饋,以實現(xiàn)用戶用電經(jīng)濟性目標.文獻[14]提出了一種基于Q-learning的V2G電力交易決策算法用于降低用電成本.
上述文獻提供了電動汽車充放電行為策略的優(yōu)化方案,但控制策略都是離散化的,缺少靈活性,且少有考慮通過集群內(nèi)部合作的方式轉(zhuǎn)移和限制峰值負荷的充放電行為優(yōu)化.
多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法是一種融合博弈與數(shù)據(jù)處理的算法,由于其在多智能體環(huán)境中具備良好的決策能力,成為了多智能體深度強化學習的重要算法之一[15].
本文首先基于用戶的歷史用電數(shù)據(jù),根據(jù)電動汽車用戶群體與網(wǎng)側(cè)雙方的需求建立了家用電動汽車集群充放電行為優(yōu)化調(diào)度模型,鼓勵用戶參與需求響應;其次,通過深度神經(jīng)網(wǎng)絡(luò)對大規(guī)模復雜數(shù)據(jù)的特征提取與存儲,并利用強化學習算法在控制與決策方面的優(yōu)勢,實現(xiàn)對家用電動汽車充放電調(diào)度的在線優(yōu)化.最后,算例分析表明該算法可以兼顧用戶的經(jīng)濟性和舒適性,同時可以轉(zhuǎn)移網(wǎng)側(cè)峰值負荷,并限制峰值負荷的大小.
本文的用電場景是一處智能小區(qū),在該小區(qū)內(nèi),存在多戶擁有電動汽車的家庭,住宅中均裝有充電裝置供各自的電動汽車使用.用戶側(cè)通過高級量測體系與電網(wǎng)側(cè)進行雙向?qū)崟r通信,在線交換電價信息和用戶的電動汽車充放電情況,并通過用戶調(diào)度中心參與電力調(diào)度.示意圖如圖1所示.
圖1 家用電動汽車充放電管理系統(tǒng)
電動汽車用戶可以自行決定出行時間與行駛里程,僅在電動汽車處于在家狀態(tài)下才被允許參與調(diào)度.用戶除了可以通過供電公司購電為電動汽車供電外,還可以將電動汽車作為家用儲能裝置向電網(wǎng)出售電能獲取收益.
電動汽車參與充放電行為優(yōu)化調(diào)度的主要目標是實現(xiàn)電動汽車充放電成本的最小化,同時兼顧用戶的舒適性和電網(wǎng)對電動汽車負荷的限制,因此需要盡可能提高用戶的綜合收益,即綜合成本的最小化.用戶的綜合成本可以表示為
(1)
(2)
公式中:λt為時段t的電價信息;li,t為電動汽車i在時段t的充放電量,表示為
(3)
公式中:pi,t為電動汽車i在時段t的充放電功率;pi,t∈[-pmax,pmax],當電動汽車充電時pi,t為正值,放電時pi,t為負值.
(4)
SoCmin≤SoCi,t≤SoCmax,
(5)
公式中:SoCmin為荷電狀態(tài)的最小值約束.
(6)
公式中:ρ為懲罰系數(shù),ρ>0;lt為電動汽車集群在時段t的總用電負荷,可以表示為
lt=∑i∈Bli,t;
(7)
lth為產(chǎn)生懲罰成本的充電功率閾值,可以表示為
lth=kthNpmax;
(8)
公式中:kth為充電閾值百分比,表示電動汽車集群充電功率閾值占集群最大充電功率的百分比;pmax為電動汽車最大充放電功率.
由于電動汽車集群的充放電過程具備馬爾可夫性,也包含用戶之間的合作,該過程可以描述為馬爾可夫博弈,這是多智能體強化學習算法的基礎(chǔ).在多智能體環(huán)境中,由于智能體之間存在著聯(lián)系,每個智能體的下一狀態(tài)不僅與當前自身的狀態(tài)與動作相關(guān),還與其它智能體的狀態(tài)與動作相關(guān).每個智能體不能完全觀測其他智能體的狀態(tài)和動作,需要根據(jù)自身的觀測結(jié)果從復雜的狀態(tài)空間中選取對自己更加有利的動作,保證每次決策的優(yōu)勢不斷累積,形成優(yōu)勢策略[16].
在電動汽車的充放電模型中,每個智能體代表一輛電動汽車,代替用戶進行充放電操作與參與環(huán)境的交互.電動汽車i在時段t充放電功率pi,t可以作為智能體i的動作ai,即
ai=pi,t.
(9)
將每一時刻的電價信息、電動汽車的充放電操作權(quán)限和荷電狀態(tài)設(shè)置為狀態(tài)量.智能體i能夠觀測到的狀態(tài)量oi設(shè)置為
oi={λt,σi,t,SoCi,t},
(10)
公式中:σi,t為電動汽車i在時段t的充放電操作權(quán)限,表示電動汽車是否允許接入電網(wǎng)進行充放電操作,可以表示為
(11)
全局狀態(tài)量x包含當前時刻所有智能體的觀測量,即當前電價和電動汽車集群的狀態(tài)信息,定義為
x={o1,…,oN}={λt,σ1,t,SoC1,t,…,σN,t,SoCN,t}.
(12)
在執(zhí)行動作a={a1,…,aN}后,所有智能體由狀態(tài)x轉(zhuǎn)移至下一狀態(tài)x′,并從環(huán)境中獲取各自的獎勵值ri和下一時段各自的觀測量o′i.獎勵值ri反映每個智能體采取動作的優(yōu)劣.根據(jù)公式(1)的優(yōu)化目標,智能體i獲得的獎勵值ri定義為
(13)
(14)
MADDPG算法源起于確定性行為策略算法(Deep Deterministic Policy Gradient,DDPG),能夠在動作空間是連續(xù)的情況下,無需對動作空間進行離散化,直接輸出一個確定的動作值,從而避免由動作空間離散化而帶來的復雜運算[17-18].
在環(huán)境中含有N個智能體,每個智能體僅能觀測到環(huán)境的局部狀態(tài)信息,無法得知全局狀態(tài),且含有神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)分別為θ={θ1,…,θN}.MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.MADDPG中每個智能體的主網(wǎng)絡(luò)包含兩種的網(wǎng)絡(luò):一是策略網(wǎng)絡(luò)μ,用來做出符合當前環(huán)境和狀態(tài)的決策;二是價值網(wǎng)絡(luò)Q,用來評判策略網(wǎng)絡(luò)輸出動作的優(yōu)劣.
圖2 MADDPG算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
策略網(wǎng)絡(luò)引入確定性策略替代隨機性策略,網(wǎng)絡(luò)輸出從動作的概率分布變?yōu)榫唧w的動作,有助于算法在連續(xù)動作空間中進行學習.引入白噪聲機制,用于提高策略網(wǎng)絡(luò)在特定環(huán)境狀態(tài)下輸出不同的動作值的可能性,提高訓練的探索度.智能體i的動作值ai為
ai=μi(oi)+Nt,
(15)
公式中:μi為智能體i策略網(wǎng)絡(luò)輸出的策略;Nt為白噪聲.
每次策略網(wǎng)絡(luò)根據(jù)oi生成動作ai后,環(huán)境會返回獎勵值ri與下一時刻的觀測量o′i.將所有智能體的信息{x,a1,…,aN,r1,…,rN,x′}存入經(jīng)驗池D中,等待訓練階段作為訓練樣本供神經(jīng)網(wǎng)絡(luò)使用.
MADDPG算法引入DDPG的目標網(wǎng)絡(luò)結(jié)構(gòu),與主網(wǎng)絡(luò)的結(jié)構(gòu)相似,目的是保證訓練的穩(wěn)定性.目標網(wǎng)絡(luò)同樣分為目標策略網(wǎng)絡(luò)μ′和目標價值網(wǎng)絡(luò)Q′,分別使用主網(wǎng)絡(luò)中的策略網(wǎng)絡(luò)參數(shù)和價值網(wǎng)絡(luò)參數(shù)進行初始化,作用是替代主網(wǎng)絡(luò)完成在下一時刻的決策與評判,并將做策略網(wǎng)絡(luò)與價值網(wǎng)絡(luò)的更新.
關(guān)于預期回報J(μi)的策略網(wǎng)絡(luò)更新公式為
(16)
價值網(wǎng)絡(luò)通過最小化TD誤差來更新網(wǎng)絡(luò)參數(shù)[19],更新公式為
(17)
公式中:L(θi)為價值網(wǎng)絡(luò)的損失函數(shù),用于評估價值網(wǎng)絡(luò)估計的價值函數(shù)與實際價值函數(shù)的誤差;y為實際的動作值函數(shù),可以表示為
(18)
主網(wǎng)絡(luò)的訓練目標是最大化策略網(wǎng)絡(luò)的期望收益J(μi),同時最小化價值網(wǎng)絡(luò)損失函數(shù)L(θi).對主網(wǎng)絡(luò)中的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)以學習率α為更新步長進行更新,更新公式分別為
θi←θi+α?θiJ(μi),
(19)
θi←θi-α?θiL(θi).
(20)
目標網(wǎng)絡(luò)采用Soft update的更新方式,主網(wǎng)絡(luò)參數(shù)用于目標網(wǎng)絡(luò)的更新,目標網(wǎng)絡(luò)的更新幅度由目標網(wǎng)絡(luò)更新率τ決定,0≤τ<1,更新公式為
θ′i←τθi+(1-τ)θ′i.
(21)
基于MADDPG算法的電動汽車充放電實時優(yōu)化流程如圖3所示.MADDPG算法的學習過程包括訓練階段與執(zhí)行階段,采用集中式訓練、分布式執(zhí)行的學習框架.
圖3 充放電行為優(yōu)化流程圖
在訓練階段,系統(tǒng)首先依據(jù)電價信息、電動汽車集群的操作權(quán)限和荷電狀態(tài)的歷史數(shù)據(jù)進行行為探索,學習現(xiàn)實環(huán)境中多種可能發(fā)生的用電情況.然后,依據(jù)獎勵函數(shù)評估每個充放電行為的優(yōu)劣.如果該行為為集群帶來更多收益,則給予該充放電行為較高的獎勵值.反之,給予該行為較低的獎勵值.將這些信息作為訓練素材存儲在經(jīng)驗池中,并通過抽樣的方式參與神經(jīng)網(wǎng)絡(luò)的集中訓練,積累大量的先驗知識.
在執(zhí)行階段,每個智能體不需要調(diào)動各自的價值網(wǎng)絡(luò)對當前的狀態(tài)與策略進行評價,依靠訓練環(huán)節(jié)中完成優(yōu)化的策略網(wǎng)絡(luò)可以進行充放電行為的輸出.向各個智能體的策略網(wǎng)絡(luò)中輸入局部觀測量oi={λt,σi,t,SoCi,t},經(jīng)過策略網(wǎng)絡(luò)運算輸出優(yōu)化后的充放電動作,實時指導用戶的充放電行為,以滿足用戶側(cè)與電網(wǎng)側(cè)的多種需求.
由于算法采用集中式訓練、分布式執(zhí)行的學習框架,每個智能體在訓練階段考慮到了其他智能體對環(huán)境和自身的影響,有利于降低電動汽車用戶群體的成本.在執(zhí)行階段,每個智能體的神經(jīng)網(wǎng)絡(luò)已經(jīng)經(jīng)過訓練并得到優(yōu)化.可以將各個智能體分散在用戶家中,根據(jù)自身的觀測量做出優(yōu)化的行為決策,同時利于保護用戶隱私.
本文采用美國某電力公司2017年~2018年制定的電價數(shù)據(jù).其中,2017年電價數(shù)據(jù)作為訓練集使用,2018年數(shù)據(jù)作為測試集使用.仿真車型相關(guān)參數(shù)如表1所示.充放電模型參數(shù)如表2所示.
表1 電動汽車參數(shù)
表2 電動汽車充放電模型參數(shù)
由于用戶出行行為具有習慣性與規(guī)律性,以出行鏈的方式對用戶出行狀態(tài)進行描述[20].圖4表示用戶較為常見的出行鏈,包括以下2個場景:
圖4 出行鏈示意圖
場景1:居民區(qū)→辦公區(qū)/學?!用駞^(qū)
生態(tài)城市是在人與自然建立關(guān)系的基礎(chǔ)上產(chǎn)生的一種文化觀,這種文化觀是在生態(tài)學原則上建立起的社會、經(jīng)濟、自然協(xié)調(diào)發(fā)展的新型社會關(guān)系,是城市生產(chǎn)力和生產(chǎn)關(guān)系發(fā)展形成的一種全新的價值體系。生態(tài)城市本質(zhì)上就是一個生態(tài)健康的城市,能夠有效地將環(huán)境資源利用起來,建立健康、適宜人居住的環(huán)境,并實現(xiàn)可持續(xù)發(fā)展的生活方式。
場景2:居民區(qū)→辦公區(qū)/學?!虡I(yè)區(qū)→居民區(qū)
根據(jù)文獻[21],綜合場景下集群的電動汽車按照場景1出行的頻率占比為65%,按照場景2出行的頻率占比為35%.電動汽車的出行時間和到家時刻荷電狀態(tài)服從正態(tài)分布,如表3所示.
表3 出行行為參數(shù)設(shè)置
算法參數(shù)中,折扣因子γ取為0.99,學習率α取為0.001,目標網(wǎng)絡(luò)更新率τ取為0.01.仿真環(huán)境為英特爾core i7-8700@3.2GHz,6核12線程,內(nèi)存16GB DDR4,軟件配置為Python3.7.0,Tensorflow1.13.0.
3.2.1 需求響應能力評估
為了評估智能體參與需求響應的能力,隨機抽取某用戶在連續(xù)120 h內(nèi)電動汽車用電優(yōu)化情況如圖5所示.在不同的場景下,電動汽車處于在線狀態(tài)的時段下系統(tǒng)可以做出不同的決策以適應不同的電價水平,最終的荷電狀態(tài)穩(wěn)定在較高水平,滿足用戶用電要求.因為高負荷懲罰項,充電功率被限制,有利于網(wǎng)側(cè)充電負荷的控制.場景1放電行為更多集中在高電價時段,具有更大的調(diào)度空間.綜合場景的優(yōu)化效果介于兩種場景之間.
圖5 不同用電場景下電動汽車用電行為優(yōu)化情況
3.2.2 經(jīng)濟性評估
本文對不同場景下用戶個體的經(jīng)濟性進行評估.其不同場景下優(yōu)化前后的用電成本和綜合成本如圖6(a)、圖6(b)所示.考慮到在現(xiàn)實情況中用戶無法在每個時段針對變動的電價調(diào)整電動汽車的充電行為,對比了優(yōu)化前的充電模式.在這種情況下,電動汽車到家后以高功率充電,直到電池充滿為止,之后不再進行充電,本次充電過程結(jié)束.在場景1下,優(yōu)化后的日平均用電成本為0.262 4$,較優(yōu)化前降低了0.456 7$.在場景2下,優(yōu)化后的日平均用電成本為0.480 6$,降低了0.100 4$.在綜合場景下,優(yōu)化后的日平均用電成本為0.350 9$,降低了0.295 8$.由于電動汽車經(jīng)歷了先放電后充電的過程,優(yōu)化后成本呈先下降后上升的趨勢,成本得到控制.
其不同場景下優(yōu)化前后的費用占比情況如圖6(c)所示.在同種場景下,優(yōu)化后的用電成本普遍低于優(yōu)化前的用電成本,綜合場景的優(yōu)化效果介于場景1與場景2之間.場景1的用電成本相比場景2優(yōu)化效果更好,這是由于場景1下用戶到家的時間比場景2更早,為系統(tǒng)調(diào)度提供了更多的時間,同時場景1下用電過程經(jīng)歷了更多的高電價時段,有利于汽車向電網(wǎng)放電以減小用電成本.同種場景下,綜合成本在用電成本的基礎(chǔ)上有小幅提高,但優(yōu)化后的綜合成本普遍低于優(yōu)化前的水平.優(yōu)化后的潛在成本降低,但潛在成本占比高于優(yōu)化前,說明該算法在滿足用戶和電網(wǎng)的潛在需求下,大幅降低了用電成本.
圖6 不同場景下的經(jīng)濟性評估
為了驗證電動汽車集群的經(jīng)濟性,對含有30輛電動汽車的集群進行分組調(diào)度,隨機抽取10輛電動汽車,其用戶的年費用支出對比如圖7所示.用戶的優(yōu)化結(jié)果略有差異,這與用戶的出行習慣有關(guān).用戶的潛在成本占比較低,說明系統(tǒng)能夠兼顧用戶的出行需要和電網(wǎng)的負荷要求.
圖7 不同用戶的年費用支出對比
用戶的年平均用電成本如表4所示,在不同場景下優(yōu)化后的用電成本較優(yōu)化前有不同程度的下降,說明變動的電價下的充放電決策可以滿足用戶群體的經(jīng)濟性.
表4 年平均用電成本優(yōu)化結(jié)果對比
3.2.3 負荷情況評估
電動汽車集群每日平均負荷情況如圖8所示,其中虛線表示電動汽車集群的充電功率懲罰閾值.原有的充電方式在用電高峰時段進行充電,在17時至次日1時產(chǎn)生兩個負荷高峰.經(jīng)過初步優(yōu)化后,電動汽車集群整體在17時至23時處于向電網(wǎng)放電的狀態(tài),并在次日0時至6時從電網(wǎng)吸收電能,轉(zhuǎn)移峰時負荷,緩解電網(wǎng)壓力.引入高負荷懲罰后,峰值充電負荷得到下降,負荷曲線更加平滑,峰值負荷向后續(xù)時段轉(zhuǎn)移.這是由于集群的成員在充電行為上產(chǎn)生合作關(guān)系,為了防止集群總充電負荷超出閾值對每個用戶施加懲罰,智能體對各自的充電功率進行限制,從而降低了峰值負荷.
圖8 優(yōu)化前后電動汽車集群充放電負荷對比
3.2.4 舒適性評估
在不同場景下用戶的舒適性情況如圖9所示.隨著不舒適系數(shù)的升高,兩種場景下的荷電狀態(tài)在不斷升高,直至電池完全充電,但用電成本也隨之增加.當相同成本的情況下,場景1的系數(shù)比場景2的小,這是因為場景1包含更多高電價時期,系統(tǒng)指導電動汽車放電換取利潤,具備更多的調(diào)度空間,充電成本較低,此時相對較低的系數(shù)可以滿足需求;同樣場景下,較高的系數(shù)使得荷電狀態(tài)更高,可以帶來更好的使用體驗.
圖9 不同場景下的舒適性情況對比
針對電動汽車集群參與需求響應的充放電行為,本文提出了一種基于MADDPG算法的電動汽車集群充放電行為在線優(yōu)化方法.主要結(jié)論如下:
(1)建立了電動汽車集群充放電優(yōu)化調(diào)度模型,綜合考慮用戶在不同場景下的出行習慣、用能需求及網(wǎng)側(cè)負荷約束,為電動汽車集群參與需求響應提供優(yōu)化方案.
(2)引入多智能體深度確定性策略梯度算法,采用集中式訓練、分布式執(zhí)行的學習架構(gòu),在保護用戶隱私的前提下,實現(xiàn)電動汽車集群充放電行為的在線優(yōu)化.
(3)所提模型可以提高用戶用能經(jīng)濟性,在綜合場景下的用電成本相比用戶原有的充電方式降低約41%,同時可以轉(zhuǎn)移電網(wǎng)峰值負荷,將新負荷高峰限制在最高充電負荷的81%,實現(xiàn)用戶群體與電網(wǎng)的雙贏.