戴武昌,劉艾冬,申 鑫,馬鴻君,張 虹
(1.現(xiàn)代電力系統(tǒng)仿真控制與綠色電能新技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(東北電力大學(xué)),吉林 吉林 132012;2.國網(wǎng)遼寧省電力有限公司撫順供電公司,遼寧 撫順 113000)
近年來,電動(dòng)汽車因?yàn)榫哂星鍧嵀h(huán)保、噪音低等優(yōu)勢(shì),在全球范圍內(nèi)得到大力發(fā)展[1-3].在需求響應(yīng)環(huán)節(jié)中,電動(dòng)汽車具有可中斷負(fù)荷的用電特性,為其充電行為優(yōu)化提供了可能[4].若有效利用,電動(dòng)汽車也可以為電網(wǎng)提供諸如削峰填谷等作用[5-6].如何兼顧用戶側(cè)經(jīng)濟(jì)性和網(wǎng)側(cè)轉(zhuǎn)移限制峰值負(fù)荷的要求優(yōu)化充放電行為成為重要的研究課題.
目前,有許多的優(yōu)化模型和算法應(yīng)用于電動(dòng)汽車充放電行為調(diào)度中,以滿足電網(wǎng)側(cè)或用戶側(cè)的利益.文獻(xiàn)[7]提出了基于蒙特卡洛和粒子群算法的電動(dòng)汽車有序充放電控制策略,運(yùn)營商考慮多種因素制定策略,目的是限制電網(wǎng)功率和降低用戶成本.文獻(xiàn)[8]提出了一種基于超圖模型的最小能量損耗路由算法,通過電動(dòng)汽車異地充放電進(jìn)行電能的運(yùn)輸,并規(guī)劃輸送路徑以減少了輸送過程的能量損失.文獻(xiàn)[9]建立了需求響應(yīng)下代理商定價(jià)與購電策略,通過主從博弈的方式實(shí)現(xiàn)代理商與車主雙方利益最大化.文獻(xiàn)[10]建立了一種分時(shí)電價(jià)下電網(wǎng)與用戶雙方互動(dòng)的主從博弈模型,以極小化負(fù)荷均方差和車主成本為優(yōu)化目標(biāo),實(shí)現(xiàn)了良好的經(jīng)濟(jì)效益與調(diào)峰效果.文獻(xiàn)[11]引入電動(dòng)汽車集群管理機(jī)構(gòu),建立以最小化網(wǎng)側(cè)生產(chǎn)成本和用戶側(cè)充放電成本為目標(biāo)的主動(dòng)配電網(wǎng)供需協(xié)同優(yōu)化調(diào)度模型,得到的優(yōu)化調(diào)度策略不僅降低了生產(chǎn)成本和車主用電費(fèi)用,而且改善了系統(tǒng)的電壓質(zhì)量.
上述文獻(xiàn)提供了電動(dòng)汽車充電行為優(yōu)化調(diào)度的解決方案,但沒有充分挖掘歷史用電數(shù)據(jù)特性以指導(dǎo)電動(dòng)汽車充放電行為.
近年來,由于具備對(duì)大數(shù)據(jù)的分析處理能力以及精準(zhǔn)快速的決策能力,深度強(qiáng)化學(xué)習(xí)成為研究熱點(diǎn),并廣泛應(yīng)用在電動(dòng)汽車充放電調(diào)度中.文獻(xiàn)[12]應(yīng)用了DDQN算法進(jìn)行汽車充電策略的制定,并通過調(diào)整電網(wǎng)節(jié)點(diǎn)的電動(dòng)汽車負(fù)荷,保證了配電網(wǎng)滿足電壓約束.文獻(xiàn)[13]將家用電動(dòng)汽車歸類為家用負(fù)荷中的可中斷負(fù)荷,將A3C算法與基于設(shè)備運(yùn)行狀態(tài)概率分布的住宅用電模型相結(jié)合,生成的能耗調(diào)度策略可用于向電力用戶提供實(shí)時(shí)反饋,以實(shí)現(xiàn)用戶用電經(jīng)濟(jì)性目標(biāo).文獻(xiàn)[14]提出了一種基于Q-learning的V2G電力交易決策算法用于降低用電成本.
上述文獻(xiàn)提供了電動(dòng)汽車充放電行為策略的優(yōu)化方案,但控制策略都是離散化的,缺少靈活性,且少有考慮通過集群內(nèi)部合作的方式轉(zhuǎn)移和限制峰值負(fù)荷的充放電行為優(yōu)化.
多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)算法是一種融合博弈與數(shù)據(jù)處理的算法,由于其在多智能體環(huán)境中具備良好的決策能力,成為了多智能體深度強(qiáng)化學(xué)習(xí)的重要算法之一[15].
本文首先基于用戶的歷史用電數(shù)據(jù),根據(jù)電動(dòng)汽車用戶群體與網(wǎng)側(cè)雙方的需求建立了家用電動(dòng)汽車集群充放電行為優(yōu)化調(diào)度模型,鼓勵(lì)用戶參與需求響應(yīng);其次,通過深度神經(jīng)網(wǎng)絡(luò)對(duì)大規(guī)模復(fù)雜數(shù)據(jù)的特征提取與存儲(chǔ),并利用強(qiáng)化學(xué)習(xí)算法在控制與決策方面的優(yōu)勢(shì),實(shí)現(xiàn)對(duì)家用電動(dòng)汽車充放電調(diào)度的在線優(yōu)化.最后,算例分析表明該算法可以兼顧用戶的經(jīng)濟(jì)性和舒適性,同時(shí)可以轉(zhuǎn)移網(wǎng)側(cè)峰值負(fù)荷,并限制峰值負(fù)荷的大小.
本文的用電場(chǎng)景是一處智能小區(qū),在該小區(qū)內(nèi),存在多戶擁有電動(dòng)汽車的家庭,住宅中均裝有充電裝置供各自的電動(dòng)汽車使用.用戶側(cè)通過高級(jí)量測(cè)體系與電網(wǎng)側(cè)進(jìn)行雙向?qū)崟r(shí)通信,在線交換電價(jià)信息和用戶的電動(dòng)汽車充放電情況,并通過用戶調(diào)度中心參與電力調(diào)度.示意圖如圖1所示.
圖1 家用電動(dòng)汽車充放電管理系統(tǒng)
電動(dòng)汽車用戶可以自行決定出行時(shí)間與行駛里程,僅在電動(dòng)汽車處于在家狀態(tài)下才被允許參與調(diào)度.用戶除了可以通過供電公司購電為電動(dòng)汽車供電外,還可以將電動(dòng)汽車作為家用儲(chǔ)能裝置向電網(wǎng)出售電能獲取收益.
電動(dòng)汽車參與充放電行為優(yōu)化調(diào)度的主要目標(biāo)是實(shí)現(xiàn)電動(dòng)汽車充放電成本的最小化,同時(shí)兼顧用戶的舒適性和電網(wǎng)對(duì)電動(dòng)汽車負(fù)荷的限制,因此需要盡可能提高用戶的綜合收益,即綜合成本的最小化.用戶的綜合成本可以表示為
(1)
(2)
公式中:λt為時(shí)段t的電價(jià)信息;li,t為電動(dòng)汽車i在時(shí)段t的充放電量,表示為
(3)
公式中:pi,t為電動(dòng)汽車i在時(shí)段t的充放電功率;pi,t∈[-pmax,pmax],當(dāng)電動(dòng)汽車充電時(shí)pi,t為正值,放電時(shí)pi,t為負(fù)值.
(4)
SoCmin≤SoCi,t≤SoCmax,
(5)
公式中:SoCmin為荷電狀態(tài)的最小值約束.
(6)
公式中:ρ為懲罰系數(shù),ρ>0;lt為電動(dòng)汽車集群在時(shí)段t的總用電負(fù)荷,可以表示為
lt=∑i∈Bli,t;
(7)
lth為產(chǎn)生懲罰成本的充電功率閾值,可以表示為
lth=kthNpmax;
(8)
公式中:kth為充電閾值百分比,表示電動(dòng)汽車集群充電功率閾值占集群最大充電功率的百分比;pmax為電動(dòng)汽車最大充放電功率.
由于電動(dòng)汽車集群的充放電過程具備馬爾可夫性,也包含用戶之間的合作,該過程可以描述為馬爾可夫博弈,這是多智能體強(qiáng)化學(xué)習(xí)算法的基礎(chǔ).在多智能體環(huán)境中,由于智能體之間存在著聯(lián)系,每個(gè)智能體的下一狀態(tài)不僅與當(dāng)前自身的狀態(tài)與動(dòng)作相關(guān),還與其它智能體的狀態(tài)與動(dòng)作相關(guān).每個(gè)智能體不能完全觀測(cè)其他智能體的狀態(tài)和動(dòng)作,需要根據(jù)自身的觀測(cè)結(jié)果從復(fù)雜的狀態(tài)空間中選取對(duì)自己更加有利的動(dòng)作,保證每次決策的優(yōu)勢(shì)不斷累積,形成優(yōu)勢(shì)策略[16].
在電動(dòng)汽車的充放電模型中,每個(gè)智能體代表一輛電動(dòng)汽車,代替用戶進(jìn)行充放電操作與參與環(huán)境的交互.電動(dòng)汽車i在時(shí)段t充放電功率pi,t可以作為智能體i的動(dòng)作ai,即
ai=pi,t.
(9)
將每一時(shí)刻的電價(jià)信息、電動(dòng)汽車的充放電操作權(quán)限和荷電狀態(tài)設(shè)置為狀態(tài)量.智能體i能夠觀測(cè)到的狀態(tài)量oi設(shè)置為
oi={λt,σi,t,SoCi,t},
(10)
公式中:σi,t為電動(dòng)汽車i在時(shí)段t的充放電操作權(quán)限,表示電動(dòng)汽車是否允許接入電網(wǎng)進(jìn)行充放電操作,可以表示為
(11)
全局狀態(tài)量x包含當(dāng)前時(shí)刻所有智能體的觀測(cè)量,即當(dāng)前電價(jià)和電動(dòng)汽車集群的狀態(tài)信息,定義為
x={o1,…,oN}={λt,σ1,t,SoC1,t,…,σN,t,SoCN,t}.
(12)
在執(zhí)行動(dòng)作a={a1,…,aN}后,所有智能體由狀態(tài)x轉(zhuǎn)移至下一狀態(tài)x′,并從環(huán)境中獲取各自的獎(jiǎng)勵(lì)值ri和下一時(shí)段各自的觀測(cè)量o′i.獎(jiǎng)勵(lì)值ri反映每個(gè)智能體采取動(dòng)作的優(yōu)劣.根據(jù)公式(1)的優(yōu)化目標(biāo),智能體i獲得的獎(jiǎng)勵(lì)值ri定義為
(13)
(14)
MADDPG算法源起于確定性行為策略算法(Deep Deterministic Policy Gradient,DDPG),能夠在動(dòng)作空間是連續(xù)的情況下,無需對(duì)動(dòng)作空間進(jìn)行離散化,直接輸出一個(gè)確定的動(dòng)作值,從而避免由動(dòng)作空間離散化而帶來的復(fù)雜運(yùn)算[17-18].
在環(huán)境中含有N個(gè)智能體,每個(gè)智能體僅能觀測(cè)到環(huán)境的局部狀態(tài)信息,無法得知全局狀態(tài),且含有神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)分別為θ={θ1,…,θN}.MADDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.MADDPG中每個(gè)智能體的主網(wǎng)絡(luò)包含兩種的網(wǎng)絡(luò):一是策略網(wǎng)絡(luò)μ,用來做出符合當(dāng)前環(huán)境和狀態(tài)的決策;二是價(jià)值網(wǎng)絡(luò)Q,用來評(píng)判策略網(wǎng)絡(luò)輸出動(dòng)作的優(yōu)劣.
圖2 MADDPG算法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
策略網(wǎng)絡(luò)引入確定性策略替代隨機(jī)性策略,網(wǎng)絡(luò)輸出從動(dòng)作的概率分布變?yōu)榫唧w的動(dòng)作,有助于算法在連續(xù)動(dòng)作空間中進(jìn)行學(xué)習(xí).引入白噪聲機(jī)制,用于提高策略網(wǎng)絡(luò)在特定環(huán)境狀態(tài)下輸出不同的動(dòng)作值的可能性,提高訓(xùn)練的探索度.智能體i的動(dòng)作值ai為
ai=μi(oi)+Nt,
(15)
公式中:μi為智能體i策略網(wǎng)絡(luò)輸出的策略;Nt為白噪聲.
每次策略網(wǎng)絡(luò)根據(jù)oi生成動(dòng)作ai后,環(huán)境會(huì)返回獎(jiǎng)勵(lì)值ri與下一時(shí)刻的觀測(cè)量o′i.將所有智能體的信息{x,a1,…,aN,r1,…,rN,x′}存入經(jīng)驗(yàn)池D中,等待訓(xùn)練階段作為訓(xùn)練樣本供神經(jīng)網(wǎng)絡(luò)使用.
MADDPG算法引入DDPG的目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu),與主網(wǎng)絡(luò)的結(jié)構(gòu)相似,目的是保證訓(xùn)練的穩(wěn)定性.目標(biāo)網(wǎng)絡(luò)同樣分為目標(biāo)策略網(wǎng)絡(luò)μ′和目標(biāo)價(jià)值網(wǎng)絡(luò)Q′,分別使用主網(wǎng)絡(luò)中的策略網(wǎng)絡(luò)參數(shù)和價(jià)值網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,作用是替代主網(wǎng)絡(luò)完成在下一時(shí)刻的決策與評(píng)判,并將做策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)的更新.
關(guān)于預(yù)期回報(bào)J(μi)的策略網(wǎng)絡(luò)更新公式為
(16)
價(jià)值網(wǎng)絡(luò)通過最小化TD誤差來更新網(wǎng)絡(luò)參數(shù)[19],更新公式為
(17)
公式中:L(θi)為價(jià)值網(wǎng)絡(luò)的損失函數(shù),用于評(píng)估價(jià)值網(wǎng)絡(luò)估計(jì)的價(jià)值函數(shù)與實(shí)際價(jià)值函數(shù)的誤差;y為實(shí)際的動(dòng)作值函數(shù),可以表示為
(18)
主網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是最大化策略網(wǎng)絡(luò)的期望收益J(μi),同時(shí)最小化價(jià)值網(wǎng)絡(luò)損失函數(shù)L(θi).對(duì)主網(wǎng)絡(luò)中的策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)以學(xué)習(xí)率α為更新步長進(jìn)行更新,更新公式分別為
θi←θi+α?θiJ(μi),
(19)
θi←θi-α?θiL(θi).
(20)
目標(biāo)網(wǎng)絡(luò)采用Soft update的更新方式,主網(wǎng)絡(luò)參數(shù)用于目標(biāo)網(wǎng)絡(luò)的更新,目標(biāo)網(wǎng)絡(luò)的更新幅度由目標(biāo)網(wǎng)絡(luò)更新率τ決定,0≤τ<1,更新公式為
θ′i←τθi+(1-τ)θ′i.
(21)
基于MADDPG算法的電動(dòng)汽車充放電實(shí)時(shí)優(yōu)化流程如圖3所示.MADDPG算法的學(xué)習(xí)過程包括訓(xùn)練階段與執(zhí)行階段,采用集中式訓(xùn)練、分布式執(zhí)行的學(xué)習(xí)框架.
圖3 充放電行為優(yōu)化流程圖
在訓(xùn)練階段,系統(tǒng)首先依據(jù)電價(jià)信息、電動(dòng)汽車集群的操作權(quán)限和荷電狀態(tài)的歷史數(shù)據(jù)進(jìn)行行為探索,學(xué)習(xí)現(xiàn)實(shí)環(huán)境中多種可能發(fā)生的用電情況.然后,依據(jù)獎(jiǎng)勵(lì)函數(shù)評(píng)估每個(gè)充放電行為的優(yōu)劣.如果該行為為集群帶來更多收益,則給予該充放電行為較高的獎(jiǎng)勵(lì)值.反之,給予該行為較低的獎(jiǎng)勵(lì)值.將這些信息作為訓(xùn)練素材存儲(chǔ)在經(jīng)驗(yàn)池中,并通過抽樣的方式參與神經(jīng)網(wǎng)絡(luò)的集中訓(xùn)練,積累大量的先驗(yàn)知識(shí).
在執(zhí)行階段,每個(gè)智能體不需要調(diào)動(dòng)各自的價(jià)值網(wǎng)絡(luò)對(duì)當(dāng)前的狀態(tài)與策略進(jìn)行評(píng)價(jià),依靠訓(xùn)練環(huán)節(jié)中完成優(yōu)化的策略網(wǎng)絡(luò)可以進(jìn)行充放電行為的輸出.向各個(gè)智能體的策略網(wǎng)絡(luò)中輸入局部觀測(cè)量oi={λt,σi,t,SoCi,t},經(jīng)過策略網(wǎng)絡(luò)運(yùn)算輸出優(yōu)化后的充放電動(dòng)作,實(shí)時(shí)指導(dǎo)用戶的充放電行為,以滿足用戶側(cè)與電網(wǎng)側(cè)的多種需求.
由于算法采用集中式訓(xùn)練、分布式執(zhí)行的學(xué)習(xí)框架,每個(gè)智能體在訓(xùn)練階段考慮到了其他智能體對(duì)環(huán)境和自身的影響,有利于降低電動(dòng)汽車用戶群體的成本.在執(zhí)行階段,每個(gè)智能體的神經(jīng)網(wǎng)絡(luò)已經(jīng)經(jīng)過訓(xùn)練并得到優(yōu)化.可以將各個(gè)智能體分散在用戶家中,根據(jù)自身的觀測(cè)量做出優(yōu)化的行為決策,同時(shí)利于保護(hù)用戶隱私.
本文采用美國某電力公司2017年~2018年制定的電價(jià)數(shù)據(jù).其中,2017年電價(jià)數(shù)據(jù)作為訓(xùn)練集使用,2018年數(shù)據(jù)作為測(cè)試集使用.仿真車型相關(guān)參數(shù)如表1所示.充放電模型參數(shù)如表2所示.
表1 電動(dòng)汽車參數(shù)
表2 電動(dòng)汽車充放電模型參數(shù)
由于用戶出行行為具有習(xí)慣性與規(guī)律性,以出行鏈的方式對(duì)用戶出行狀態(tài)進(jìn)行描述[20].圖4表示用戶較為常見的出行鏈,包括以下2個(gè)場(chǎng)景:
圖4 出行鏈?zhǔn)疽鈭D
場(chǎng)景1:居民區(qū)→辦公區(qū)/學(xué)?!用駞^(qū)
生態(tài)城市是在人與自然建立關(guān)系的基礎(chǔ)上產(chǎn)生的一種文化觀,這種文化觀是在生態(tài)學(xué)原則上建立起的社會(huì)、經(jīng)濟(jì)、自然協(xié)調(diào)發(fā)展的新型社會(huì)關(guān)系,是城市生產(chǎn)力和生產(chǎn)關(guān)系發(fā)展形成的一種全新的價(jià)值體系。生態(tài)城市本質(zhì)上就是一個(gè)生態(tài)健康的城市,能夠有效地將環(huán)境資源利用起來,建立健康、適宜人居住的環(huán)境,并實(shí)現(xiàn)可持續(xù)發(fā)展的生活方式。
場(chǎng)景2:居民區(qū)→辦公區(qū)/學(xué)校→商業(yè)區(qū)→居民區(qū)
根據(jù)文獻(xiàn)[21],綜合場(chǎng)景下集群的電動(dòng)汽車按照?qǐng)鼍?出行的頻率占比為65%,按照?qǐng)鼍?出行的頻率占比為35%.電動(dòng)汽車的出行時(shí)間和到家時(shí)刻荷電狀態(tài)服從正態(tài)分布,如表3所示.
表3 出行行為參數(shù)設(shè)置
算法參數(shù)中,折扣因子γ取為0.99,學(xué)習(xí)率α取為0.001,目標(biāo)網(wǎng)絡(luò)更新率τ取為0.01.仿真環(huán)境為英特爾core i7-8700@3.2GHz,6核12線程,內(nèi)存16GB DDR4,軟件配置為Python3.7.0,Tensorflow1.13.0.
3.2.1 需求響應(yīng)能力評(píng)估
為了評(píng)估智能體參與需求響應(yīng)的能力,隨機(jī)抽取某用戶在連續(xù)120 h內(nèi)電動(dòng)汽車用電優(yōu)化情況如圖5所示.在不同的場(chǎng)景下,電動(dòng)汽車處于在線狀態(tài)的時(shí)段下系統(tǒng)可以做出不同的決策以適應(yīng)不同的電價(jià)水平,最終的荷電狀態(tài)穩(wěn)定在較高水平,滿足用戶用電要求.因?yàn)楦哓?fù)荷懲罰項(xiàng),充電功率被限制,有利于網(wǎng)側(cè)充電負(fù)荷的控制.場(chǎng)景1放電行為更多集中在高電價(jià)時(shí)段,具有更大的調(diào)度空間.綜合場(chǎng)景的優(yōu)化效果介于兩種場(chǎng)景之間.
圖5 不同用電場(chǎng)景下電動(dòng)汽車用電行為優(yōu)化情況
3.2.2 經(jīng)濟(jì)性評(píng)估
本文對(duì)不同場(chǎng)景下用戶個(gè)體的經(jīng)濟(jì)性進(jìn)行評(píng)估.其不同場(chǎng)景下優(yōu)化前后的用電成本和綜合成本如圖6(a)、圖6(b)所示.考慮到在現(xiàn)實(shí)情況中用戶無法在每個(gè)時(shí)段針對(duì)變動(dòng)的電價(jià)調(diào)整電動(dòng)汽車的充電行為,對(duì)比了優(yōu)化前的充電模式.在這種情況下,電動(dòng)汽車到家后以高功率充電,直到電池充滿為止,之后不再進(jìn)行充電,本次充電過程結(jié)束.在場(chǎng)景1下,優(yōu)化后的日平均用電成本為0.262 4$,較優(yōu)化前降低了0.456 7$.在場(chǎng)景2下,優(yōu)化后的日平均用電成本為0.480 6$,降低了0.100 4$.在綜合場(chǎng)景下,優(yōu)化后的日平均用電成本為0.350 9$,降低了0.295 8$.由于電動(dòng)汽車經(jīng)歷了先放電后充電的過程,優(yōu)化后成本呈先下降后上升的趨勢(shì),成本得到控制.
其不同場(chǎng)景下優(yōu)化前后的費(fèi)用占比情況如圖6(c)所示.在同種場(chǎng)景下,優(yōu)化后的用電成本普遍低于優(yōu)化前的用電成本,綜合場(chǎng)景的優(yōu)化效果介于場(chǎng)景1與場(chǎng)景2之間.場(chǎng)景1的用電成本相比場(chǎng)景2優(yōu)化效果更好,這是由于場(chǎng)景1下用戶到家的時(shí)間比場(chǎng)景2更早,為系統(tǒng)調(diào)度提供了更多的時(shí)間,同時(shí)場(chǎng)景1下用電過程經(jīng)歷了更多的高電價(jià)時(shí)段,有利于汽車向電網(wǎng)放電以減小用電成本.同種場(chǎng)景下,綜合成本在用電成本的基礎(chǔ)上有小幅提高,但優(yōu)化后的綜合成本普遍低于優(yōu)化前的水平.優(yōu)化后的潛在成本降低,但潛在成本占比高于優(yōu)化前,說明該算法在滿足用戶和電網(wǎng)的潛在需求下,大幅降低了用電成本.
圖6 不同場(chǎng)景下的經(jīng)濟(jì)性評(píng)估
為了驗(yàn)證電動(dòng)汽車集群的經(jīng)濟(jì)性,對(duì)含有30輛電動(dòng)汽車的集群進(jìn)行分組調(diào)度,隨機(jī)抽取10輛電動(dòng)汽車,其用戶的年費(fèi)用支出對(duì)比如圖7所示.用戶的優(yōu)化結(jié)果略有差異,這與用戶的出行習(xí)慣有關(guān).用戶的潛在成本占比較低,說明系統(tǒng)能夠兼顧用戶的出行需要和電網(wǎng)的負(fù)荷要求.
圖7 不同用戶的年費(fèi)用支出對(duì)比
用戶的年平均用電成本如表4所示,在不同場(chǎng)景下優(yōu)化后的用電成本較優(yōu)化前有不同程度的下降,說明變動(dòng)的電價(jià)下的充放電決策可以滿足用戶群體的經(jīng)濟(jì)性.
表4 年平均用電成本優(yōu)化結(jié)果對(duì)比
3.2.3 負(fù)荷情況評(píng)估
電動(dòng)汽車集群每日平均負(fù)荷情況如圖8所示,其中虛線表示電動(dòng)汽車集群的充電功率懲罰閾值.原有的充電方式在用電高峰時(shí)段進(jìn)行充電,在17時(shí)至次日1時(shí)產(chǎn)生兩個(gè)負(fù)荷高峰.經(jīng)過初步優(yōu)化后,電動(dòng)汽車集群整體在17時(shí)至23時(shí)處于向電網(wǎng)放電的狀態(tài),并在次日0時(shí)至6時(shí)從電網(wǎng)吸收電能,轉(zhuǎn)移峰時(shí)負(fù)荷,緩解電網(wǎng)壓力.引入高負(fù)荷懲罰后,峰值充電負(fù)荷得到下降,負(fù)荷曲線更加平滑,峰值負(fù)荷向后續(xù)時(shí)段轉(zhuǎn)移.這是由于集群的成員在充電行為上產(chǎn)生合作關(guān)系,為了防止集群總充電負(fù)荷超出閾值對(duì)每個(gè)用戶施加懲罰,智能體對(duì)各自的充電功率進(jìn)行限制,從而降低了峰值負(fù)荷.
圖8 優(yōu)化前后電動(dòng)汽車集群充放電負(fù)荷對(duì)比
3.2.4 舒適性評(píng)估
在不同場(chǎng)景下用戶的舒適性情況如圖9所示.隨著不舒適系數(shù)的升高,兩種場(chǎng)景下的荷電狀態(tài)在不斷升高,直至電池完全充電,但用電成本也隨之增加.當(dāng)相同成本的情況下,場(chǎng)景1的系數(shù)比場(chǎng)景2的小,這是因?yàn)閳?chǎng)景1包含更多高電價(jià)時(shí)期,系統(tǒng)指導(dǎo)電動(dòng)汽車放電換取利潤,具備更多的調(diào)度空間,充電成本較低,此時(shí)相對(duì)較低的系數(shù)可以滿足需求;同樣場(chǎng)景下,較高的系數(shù)使得荷電狀態(tài)更高,可以帶來更好的使用體驗(yàn).
圖9 不同場(chǎng)景下的舒適性情況對(duì)比
針對(duì)電動(dòng)汽車集群參與需求響應(yīng)的充放電行為,本文提出了一種基于MADDPG算法的電動(dòng)汽車集群充放電行為在線優(yōu)化方法.主要結(jié)論如下:
(1)建立了電動(dòng)汽車集群充放電優(yōu)化調(diào)度模型,綜合考慮用戶在不同場(chǎng)景下的出行習(xí)慣、用能需求及網(wǎng)側(cè)負(fù)荷約束,為電動(dòng)汽車集群參與需求響應(yīng)提供優(yōu)化方案.
(2)引入多智能體深度確定性策略梯度算法,采用集中式訓(xùn)練、分布式執(zhí)行的學(xué)習(xí)架構(gòu),在保護(hù)用戶隱私的前提下,實(shí)現(xiàn)電動(dòng)汽車集群充放電行為的在線優(yōu)化.
(3)所提模型可以提高用戶用能經(jīng)濟(jì)性,在綜合場(chǎng)景下的用電成本相比用戶原有的充電方式降低約41%,同時(shí)可以轉(zhuǎn)移電網(wǎng)峰值負(fù)荷,將新負(fù)荷高峰限制在最高充電負(fù)荷的81%,實(shí)現(xiàn)用戶群體與電網(wǎng)的雙贏.