楊 悅 潘 剛 朱敬華
(1.黑龍江大學計算機科學與技術學院 哈爾濱 150000)(2.黑龍江大學數(shù)據(jù)科學與技術學院 哈爾濱 150000)
全球經(jīng)濟的快速發(fā)展,消耗了大量的能源,并且排放了大量的污染氣體,使得環(huán)境問題越來越嚴重。汽車尾氣排放已成為全球變暖和空氣污染的主要原因。國家大力倡導使用清潔能源降低環(huán)境污染,因此EV 越來越多[1~4]。但交通擁堵,電量不足,和用戶充電體驗感較差等問題也隨之而來,亟需解決[5]。鑒于此,EV 的充電調(diào)度優(yōu)化問題引起人們的重視,如何幫助EV選擇最佳的充電站,降低交通擁堵,減少排隊的時間,“去哪里充電”“什么時候充電”需要解決,但是目前這方面的研究并不充分。
充電調(diào)度策略的本質(zhì)是在多種不確定因素條件下,對EV進行充電調(diào)度,獲得最優(yōu)的充電策略[6~7]。文獻[8]使用蟻群算法來解決EV充電調(diào)度問題,但是使用這種方法具有局限性,并且收斂速度較慢。文獻[9]使用兩層遺傳算法解決EV智能充電問題,但其不能解決大規(guī)模計算量問題。文獻[10]從EV充電需求的角度進行分析,并從EV、交通網(wǎng)絡、充電站等方面提出了一種優(yōu)化充電路徑的方法,但其沒有考慮交通條件的隨機性。文獻[11]提出一種基于云邊緣協(xié)作的EV 充放電調(diào)度方法,以保護用戶的隱私。但沒有考慮EV充放電期間對電池的損耗,沒有獲得更公平的充放電管理策略。
隨著AlphaZero 的成功,在決策問題上DRL 表現(xiàn)出巨大的潛力,更多的研究人員使用基于DRL的方法來解決EV的充電調(diào)度問題。文獻[12]提出了考慮交通條件的隨機性、用戶的通勤行為和有效的定價過程的DRL 的實時調(diào)度方法,但沒有考慮天氣變化的隨機性,不能保證電量需求得到滿足。文獻[13]提出一種用于網(wǎng)約車調(diào)度的供需感知DRL 模型,采用具有演員家-評論家(Actor-Critic)網(wǎng)絡結(jié)構來學習最優(yōu)的網(wǎng)約車調(diào)度策略。文獻[14]提出一種基于DRL 的EV 充電導航方法,并利用其近似求出模型的最佳解,獲得充電策略,但沒有考慮到多輛EV之間的相互影響,如排隊情況、交通擁堵等。
本文針對交通狀況、天氣變化、EV 到達時間的隨機性以及電價不確定性因素,采用基于無模型的DRL方法,在明確EV充電過程的狀態(tài)空間、動作空間后,設計了一種混合整數(shù)優(yōu)化目標函數(shù)。由于隨機變化的場景導致系統(tǒng)維度很高,并且所設計的混合整數(shù)優(yōu)化目標屬于NP 難問題,本文通過設計一種基于DRL 的SAC 算法,保證了用戶的充電需求。同時,由于電價的不確定性,通過基于注意力機制的GRU(Gated Recurrent Unit)深度網(wǎng)絡來實時預測電價,從而引導EV進行有效的充電任務,進一步為用戶節(jié)省充電成本。本文的主要貢獻包括三個方面:
1)由于隨機變化的道路交通狀況和電價信息,設計一種充電調(diào)度模型,該模型實現(xiàn)了用戶的充電成本、電池退化成本、時間代價以及期望充電誤差最小化;
2)利用基于注意力機制的GRU網(wǎng)絡進行實時電價預測,以引導EV選擇電價低時進行充電任務,實現(xiàn)較低的用戶充電成本,電價預測結(jié)果表明使用基于注意力機制的GRU 網(wǎng)絡要優(yōu)于單獨使用GRU或LSTM(long short-term memory)預測方法;
3)由于隨機變化的交通狀態(tài)導致系統(tǒng)維度很高,并且所設計的混合整數(shù)優(yōu)化目標屬于NP 難問題,提出了一種基于DRL 的SAC 算法來求解最優(yōu)充電策略。實驗表明,在相同場景下所提出方法的實驗效果要優(yōu)于其他DRL算法,并且該方法顯著地降低了用戶的充電費用,改善了用戶的充電體驗。
表1 常用符號
本節(jié)詳細介紹提出的EV充電調(diào)度模型。由于能源價格具有波動性,根據(jù)EV自身需求,用戶選擇在合適的時間段進行充電任務,從而使得EV 的成本最小化,這里的成本包括EV充電成本、電池退化成本以及用戶期望誤差成本。另外,由于道路交通流量的變化性和充電站排隊充電的不確定性,在滿足EV 充電需求的同時,盡量使用戶在充電任務過程中花費較少的時間。系統(tǒng)架構圖如圖1 所示,首先,根據(jù)電價的歷史信息,使用基于注意力機制的GRU 網(wǎng)絡來提取歷史電價數(shù)據(jù)特征,從而實現(xiàn)高準確度的未來24h 電價預測。然后,使用基于DRL的SAC 方法,通過交通狀況、天氣情況、電價、充電站狀況來確定EV的最優(yōu)充電策略。整個過程的目標函數(shù)表示為
圖1 系統(tǒng)架構圖
當EV 選擇充電站進行充電任務后,即會產(chǎn)生一定的充電成本,表示為
其中,Δt1表示EV 充電時間,表示電池容量,xij是二進制變量,值為0表示第i輛EV 不選擇充電站j,反之則選擇。
EV在行駛過程和充電期間的電池退化成本[15~16]的表達式為
EV在發(fā)出充電請求時,系統(tǒng)會給EV規(guī)劃最佳的行駛至充電站路徑,EV 的行駛時間受到道路交通網(wǎng)絡變化的影響,其行駛時間表示為
由于道路的通行速度受很多外部因素影響,本文考慮天氣環(huán)境因素,不同的天氣狀況對道路的影響程度是不同的,具體將在第3 節(jié)的方法設計部分詳細闡述。
EV行駛至充電站時,如果前面有其他EV正在進行充電,那么就需要在該充電站進行排隊等候充電,它的排隊等待時間表示為
其中,φj,t表示充電站j 的充電效率,Δtsamp表示采樣時間。
用戶在充電任務之前有一個預期的充電電量,在實際到達充電站時,與實際充電電量的差通過誤差系數(shù)轉(zhuǎn)化成用戶期望誤差成本,表示為
其中,ω表示期望誤差成本系數(shù),其測量單位為元/kWh2。
2.6.1 充電/放電功率約束
第i輛EV 在t時刻的充放電功率Pi,t不應該超出充放電功率的最大值,它表示為
2.6.2 充放電狀態(tài)約束
第i 輛EV 在t 時刻的充放電狀態(tài)只能有一種,當EV 狀態(tài)為充電狀態(tài)時,放電功率值為0,反之,充電功率值為0,它表示為
其中,Ai,t表示第i輛EV在t時刻的一個動作,大于0,代表充電行為;小于0,代表放電行為。
2.6.3 充電站選擇約束
第i輛EV在選擇充電站充電過程中,只能選擇區(qū)域內(nèi)一個充電站作為選擇對象,它表示為
其中,xij{0,1}。
2.6.4 充電電量約束
第i輛EV在t時刻充電電量不應該超出充電站的剩余電量,表示為
2.6.5 EV剩余電量約束
綜上,將EV充電調(diào)度描述為優(yōu)化問題如下:
其中,K1,K2,K3,K4,K5是設定的權重值,分別表示每個組成部分對整體的重要程度。
本節(jié)針對第2 節(jié)的優(yōu)化問題提出求解方法,由于優(yōu)化問題(12)具有高維度、多約束的性質(zhì),因此屬于NP 難問題[17]。在使用傳統(tǒng)方法求解時,很難在短時間內(nèi)獲得精確解,所以提出一種基于DRL的人工智能算法來逼近模型的最優(yōu)解,它可以自適應地學習最優(yōu)策略,不需要任何不確定性的先驗知識。由于DRL 基于MDP,本文首先將式(12)的優(yōu)化問題轉(zhuǎn)化為MDP形式。
考慮到時變的交通條件和天氣狀況因素對系統(tǒng)狀態(tài)產(chǎn)生影響,本文將一天24h 作為一個循環(huán)周期,系統(tǒng)狀態(tài)st描述為以下形式:
其中,Wt表示天氣質(zhì)量情況,它是一個四維數(shù)據(jù),通常寫成如下:
這里,第一個分量表示溫度,第二個分量表示濕度,第三個分量表示有無霧霾,第四個分量表示空氣質(zhì)量指數(shù)。
智能體根據(jù)當前系統(tǒng)狀態(tài)st做出合適的動作at,表示為
本文優(yōu)化問題(12)的目標是最小化EV充電成本和電池退化成本以及最大化用戶的滿意度。智能體在做出一個動作后,系統(tǒng)會根據(jù)當前環(huán)境狀態(tài)信息給予智能體一定的即時獎勵Rimm(st,at),然后更新系統(tǒng)狀態(tài)。表示如下:
在經(jīng)過時間T 后,系統(tǒng)將會收到一個總的獎勵值:
其中,γ[0 ,1] 是折扣系數(shù),它平衡了即時獎勵和未來獎勵之間的重要性。
由于電價以周期性的方式波動,并具有時序特征,因此從歷史的電價信息推斷未來的價格趨是合理的。GRU 比LSTM 網(wǎng)絡的結(jié)構更加簡單,參數(shù)也更少,因此降低了模型的訓練時間成本。但GRU在提取電價特征時不能靈活區(qū)分電價的高低,而注意力機制提供了一種關注重要信息的方法,可以從眾多電價信息中,更注重選擇電價低時去充電來降低充電成本。
GRU 結(jié)構如圖2(a)所示,圖中Rt和Zt分別表示重置門和更新門,以實現(xiàn)對歷史電價信息的加強與遺忘。具體公式表述如下:
其中,WR,UR,WZ,UZ,Wh,Uh為權重矩陣;σ()· ,tanh()· 為激活函數(shù);*表示矩陣中對應元素依次相乘。
圖2 GRU結(jié)構圖
其中,VT,We,w1為權重系數(shù);b,b1為偏置量;f表示softmax函數(shù)。
由于隨機變化的情況導致系統(tǒng)維度很高,并且電動汽車的充電任務是一種連續(xù)性動作,所以設計了一種基于DRL 的SAC 算法,來尋找最佳充電策略。SAC 算法本身是一種基于off-policy 的智能學習算法[18],它解決了主流的on-policy 算法(如PPO算法[19])所存在的采樣效率低的問題。同時,SAC算法也解決了基于off-policy算法(如DDPG算法[20])的收斂效果差,對超參數(shù)敏感的問題。此外,雖然PPO 算法和DDPG 算法可以解決連續(xù)動作空間,但它們面臨著高估的問題。具有最大熵目標的SAC算法可以提供樣本高效的學習和穩(wěn)定性,可用于解決本文所考慮的EV連續(xù)充電調(diào)度的復雜場景。
圖3 為SAC 網(wǎng)絡結(jié)構圖,首先,EV 充電環(huán)境等信息通過輸入Actor 網(wǎng)絡映射生成充電動作,利用參數(shù)化的DNN 來近似策略πξ( )at|st,根據(jù)當前的EV 充電環(huán)境狀態(tài)st選擇并執(zhí)行充電動作at,得到獎勵rt、下一個狀態(tài)st+1和系統(tǒng)結(jié)束標志done,接著將元組(st,at,rt,st+1,done)存儲在經(jīng)驗重放池中。Critic 網(wǎng)絡負責估計狀態(tài)價值和狀態(tài)-動作的價值,為了區(qū)分不同樣本之間的相關性,Critic從經(jīng)驗重放池中隨機抽取少量樣本,分別訓練狀態(tài)價值V函數(shù)和狀態(tài)動作價值Q函數(shù),產(chǎn)生的損失函數(shù)L(?)和L(δ)進行反向傳播,使用隨機梯度下降方法更新DNN 參數(shù),并用V?(st)和Qδ(st,at)更新Ac?tor 的參數(shù)。在本文中,電動汽車作為智能體,它通過環(huán)境的狀態(tài)(電價,電量,道路交通流量等)輸入,Actor 網(wǎng)絡會給出相應的動作輸出,電動汽車執(zhí)行這個動作后,系統(tǒng)會反饋給電動汽車一個回報值,通過這個反饋來判斷當前的策略是好還是壞,經(jīng)過不斷地訓練學習更新網(wǎng)絡參數(shù),最終Actor 網(wǎng)絡的參數(shù)即為最優(yōu)的策略網(wǎng)絡參數(shù),電動汽車輸入狀態(tài)變量,智能體就會反饋給電動汽車一個最優(yōu)的充電策略,即去哪個充電站進行充電任務。細節(jié)見算法1。
圖3 SAC網(wǎng)絡結(jié)構圖
對于標準的強化學習,目標是最大獎勵的期望。而對于SAC,采用了最大熵框架來提高魯棒性。最大熵目標為
其中,?(π(?|st))=-logπ(?|st)是熵項,用于控制最優(yōu)策略的隨機性;ρπ是由策略π生成的狀態(tài)-動作的分布;β為溫度參數(shù),用來評價熵項的重要程度。
最大熵的學習通過策略迭代進行改進,包括策略評估和策略提升,通過不斷重復這兩階段,智能體最終會在策略迭代中找到最優(yōu)策略。SAC 使用神經(jīng)網(wǎng)絡對Q函數(shù)和策略函數(shù)進行近似,使用軟策略迭代,將策略評估與策略提升的模式變?yōu)榻惶鎸ι鲜鰞蓚€近似網(wǎng)絡進行梯度更新。在策略評估階段,soft state value函數(shù)由最小化殘差訓練:
其中,?為soft state value函數(shù)的參數(shù),δ為soft Q函數(shù)參數(shù),ξ為策略函數(shù)的參數(shù)。
Soft Q函數(shù)通過最小化Bellman殘差訓練:
其中,q(st,at)=r(st,at)+γEst+1~p[V?ˉ(st+1)]。
在策略提升階段,策略網(wǎng)絡的參數(shù)通過最小化KL散度期望來訓練:
算法1 基于SAC的充電調(diào)度算法
輸入:交通狀況,天氣情況,電價,充電站狀況;
輸出:選擇的充電站編號,充電電量。
1. 初始化:訓練迭代次數(shù)episode,訓練時間步數(shù)t,目標平滑系數(shù)t,空經(jīng)驗重放池D,Q 函數(shù)參數(shù)δ1,δ2,策略參數(shù)ξ,V函數(shù)參數(shù)?;
2.設置目標參數(shù)?tar??;
3.for episode=1,2,……do
4. for t=0,1,2,……do
5. 從環(huán)境中獲取狀態(tài)st;
6. 將st輸入策略網(wǎng)絡,選擇動作at~πξ(·|st) ;
7. 執(zhí)行動作at,得到獎勵rt,進入下一個狀態(tài)st+1,并判斷st+1是否為最終狀態(tài);
8. 將元組(st,at,rt,st+1,done)存入D;
9. end for
10. for t=0,1,2,…do
11. 從D中隨機抽取一小批樣本;
12. 對Q函數(shù)和V函數(shù)計算目標:
13. 通過式(27)由梯度下降更新參數(shù)?;
14. 通過式(28)由梯度下降更新參數(shù)δ;
15. 通過式(30)由梯度上升更新參數(shù)ξ;16. 更新目標價值網(wǎng)絡:
17. end for
18.end for
在這一部分,評估所提出的SAC 算法性能,并驗證了實驗的有效性。
本文所考慮的是兩條相交的并且為十字型的道路結(jié)構,充電站分別安裝在每條道路的一側(cè),電動汽車處于十字型道路的路口。數(shù)據(jù)集來源于百度API 和文獻[14],具體參數(shù)設置如表2 所示。在訓練過程中,使用了三種類型網(wǎng)絡,分別為soft state value、soft Q 以及策略網(wǎng)絡,其中,soft state val?ue 網(wǎng)絡輸入層特征維度為25,輸出層特征維度為1,兩個隱藏層特征維度為256,激活函數(shù)使用Re?lu。Soft Q 網(wǎng)絡輸入層特征維度為29,輸出層特征維度為1,兩個隱藏層特征維度為256,激活函數(shù)使用Relu。策略網(wǎng)絡輸入層特征維度為25,輸出層特征維度為4,兩個隱藏層特征維度為256,激活函數(shù)使用Tanh(x)。SAC 算法采用的是off-policy 進行學習,所以設置一個大小為105的經(jīng)驗重放池用于存儲訓練數(shù)據(jù),隨機從中抽取小批量樣本進行學習,經(jīng)過1200 輪的訓練得到最終模型。所有的實驗是在一臺具有4核英特爾處理器,8GB 顯卡的終端上運行的。
表2 數(shù)據(jù)實驗信息
4.2.1 電價預測
首先收集歷史的電價數(shù)據(jù),然后使用基于注意力機制的GRU 網(wǎng)絡對其進行預測,結(jié)果如圖4 所示。在相同的網(wǎng)絡參數(shù)下,也進行了單獨使用LSTM 和GRU 網(wǎng)絡進行預測的結(jié)果,從圖4 可以明顯看出,使用基于注意力機制的GRU 網(wǎng)絡進行電價預測曲線與真實值曲線的擬合程度更高,所以其效果要優(yōu)于其它兩種算法。
圖4 不同算法的電價預測結(jié)果圖
圖5 表示的是使用基于注意力機制的GRU 網(wǎng)絡進行電價預測時的訓練過程損失圖,分別進行了在不同學習率下的試驗,從圖5 可以看出,當學習率為{10-3,10-4,10-5}時,訓練過程的損失值隨著訓練輪數(shù)的增加而不斷減小。
圖5 基于注意力機制的GRU網(wǎng)絡的訓練過程損失圖
4.2.2 學習率影響
本小節(jié)評估了不同學習率對所提出的SAC 算法性能的影響。如圖6,學習率的設置有{10-3,10-5,10-6}。學習率為{10-3}的獎勵前期逐漸增大,在100 至200 輪間有減小趨勢,在400 輪后上升至最大值并趨于穩(wěn)定。學習率為{10-5}的獎勵一直呈上升趨勢,在300 輪后達到最大值并趨于穩(wěn)定。學習率為{10-6}的獎勵一直上升,在900 輪后趨于穩(wěn)定。綜合來看,學習率為{10-5}的獎勵要優(yōu)于其他學習率的獎勵。
圖6 SAC算法在不同學習率下的標準化累積獎勵圖
4.2.3 對比算法結(jié)果
在相同環(huán)境設置下,評估了SAC算法與PPO算法的對比結(jié)果。如圖7,SAC 算法的獎勵隨著訓練輪數(shù)的增加而不斷增加,最終在300 輪后趨于穩(wěn)定;PPO 算法獎勵總體來看呈上升趨勢,但是最終穩(wěn)定后的獎勵要小于SAC 算法的獎勵,因此,本文提出的基于SAC 算法的充電調(diào)度策略具有有效性和優(yōu)越性。
圖7 SAC算法與PPO算法的對比圖
4.2.4 優(yōu)化目標的結(jié)果
本文的目標函數(shù)是最小化EV 充電成本、電池退化成本、行駛時間、排隊等待時間以及用戶期望誤差成本。充電成本、電池退化成本以及用戶期望誤差成本結(jié)果如圖8 所示,圓形曲線表示的是網(wǎng)絡模型中隱藏層維度為64 維時的目標函數(shù)優(yōu)化圖像,方形曲線則表示的是隱藏層維度為256 維時的目標函數(shù)優(yōu)化圖像,二者隨著訓練輪數(shù)的增加都呈現(xiàn)了逐漸減小的趨勢。隨著訓練輪數(shù)的增加,EV充電成本從一開始的1050逐漸下降到100左右,且從300 輪后趨于穩(wěn)定;電池退化成本從一開始的200 逐漸下降到20 左右,且從400 輪后趨于穩(wěn)定;用戶期望誤差成本從一開始的19000 逐漸下降到800左右,且從350輪后趨于穩(wěn)定。
圖8 充電成本、電池退化成本和用戶期望誤差成本的訓練結(jié)果圖
用戶在計劃EV 充電時,都是期望能夠快速到達最近的充電站且避免排隊等候,本實驗中,EV的行駛時間和排隊等待時間如圖9 所示,隨著訓練輪數(shù)的增大,二者的值都是從一開始的較大值不斷減小至最小值,且趨于穩(wěn)定。
圖9 行駛時間和排隊等待時間的訓練結(jié)果圖
本文考慮了道路交通狀況和天氣變化的隨機性所帶來的影響,將EV 充電調(diào)度問題描述為MDP,提出了一種基于DRL 的SAC 算法,既保證了用戶的實時充電需求,又確定了該實時調(diào)度問題的最優(yōu)策略。由于電價的不確定性,通過基于注意力機制的GRU 深度網(wǎng)絡來提取電價特征,從而引導EV 進行有效的充電任務,實現(xiàn)較少的充電成本。實驗表明,提出的基于注意力機制的GRU 網(wǎng)絡的方法比單獨使用GRU 或LSTM 的方法進行電價預測的效果好;在滿足用戶對電量的需求和降低充電成本方面,基于SAC的充電調(diào)度策略優(yōu)于PPO。
未來研究更復雜的道路狀況和節(jié)假日人流密集的情況,嘗試采用多智能體DRL 方法進一步學習更優(yōu)的調(diào)度策略。