詹 華,江昌旭,蘇慶列
(1. 福建船政交通職業(yè)學(xué)院 汽車學(xué)院,福建 福州 350007;2. 福州大學(xué) 電氣工程與自動化學(xué)院,福建 福州 350108)
近年來,在全球能源緊缺和環(huán)境惡化的背景下,電動汽車由于其節(jié)能、環(huán)保等優(yōu)勢在國內(nèi)外得到了廣泛推廣[1]。隨著越來越多的電動汽車涌入,原有的充電站規(guī)模很有可能無法滿足其充電需求,由此可能會出現(xiàn)嚴(yán)重的充電排隊的現(xiàn)象,這不僅浪費駕駛?cè)藛T單位時間產(chǎn)出率,而且嚴(yán)重時可能影響配電網(wǎng)電能質(zhì)量。如何制定有效的電動汽車充電引導(dǎo)策略(包括電動汽車充電目的地策略和充電路徑策略)以降低電動汽車總充電費用,是未來電動汽車大規(guī)模普及的基礎(chǔ)和保障[2-3]。
目前,國內(nèi)外學(xué)者對電動汽車充電引導(dǎo)問題進行了廣泛研究。文獻[4-5]通過排隊論模型建立充電服務(wù)定價模型和采用電力系統(tǒng)節(jié)點邊際電價最優(yōu)模型對電動汽車充電電價進行優(yōu)化,以引導(dǎo)電動汽車前往電價較低的充電站進行充電,實現(xiàn)電動汽車總成本最小化。文獻[6]結(jié)合最短路徑算法和排隊論M/G/k 模型,提出了一種考慮下一目的地導(dǎo)向下的電動汽車充電引導(dǎo)模型,并采用粒子群優(yōu)化算法進行求解。文獻[7]提出了一種考慮交通和電網(wǎng)狀態(tài)的電動汽車快速充電引導(dǎo)系統(tǒng),采用三相最優(yōu)潮流計算充電站最大可用充電功率,然后電動汽車終端以充電總時間最小為目標(biāo)對充電引導(dǎo)策略進行優(yōu)化。然而,以上大部分文獻在構(gòu)建電動汽車充電引導(dǎo)優(yōu)化模型時進行了大量假設(shè),同時沒有考慮到各種不確定性因素對充電引導(dǎo)策略的影響。
實際上,電動汽車充電行為涉及交通、充電站等多個主體,包含了大量的不確定性因素,如交通路況的不確定性、充電站排隊時間的不確定性等,造成了電動汽車充電行為具有較強的不確定性。為了更好地處理這些隨機變量,有學(xué)者采用強化學(xué)習(xí)RL(Reinforcement Learning)方法解決電動汽車充電引導(dǎo)問題。該方法屬于一種免模型算法,其通過與環(huán)境不斷交互形成一種從狀態(tài)到動作的映射,以最大化長期累積回報。由于表格型強化學(xué)習(xí)缺乏有效的機制對高維狀態(tài)進行描述,基于神經(jīng)網(wǎng)絡(luò)的深度強化學(xué)習(xí)DRL(Deep Reinforcement Learning)算法具有較好的泛化性能,能夠以端到端的方式接近全局最優(yōu)解,被廣泛應(yīng)用于各個領(lǐng)域[8-10],如圍棋、自動控制[11-12]、自動駕駛[13]等。文獻[14-15]在考慮充電時間、充電需求、可再生能源間歇性和批發(fā)市場電價不確定環(huán)境下,采用概率模型和免模型的線性強化學(xué)習(xí)方法對電動汽車充電電價進行優(yōu)化,以此引導(dǎo)電動汽車充電。文獻[16-17]提出了一種基于深度Q網(wǎng)絡(luò)強化學(xué)習(xí)DQN(Deep Q Network)的電動汽車充電引導(dǎo)方法,旨在尋找最優(yōu)充電路徑或充電目的地以最大限度地減少電動汽車的充電總成本。文獻[18]提出一種雙層充電服務(wù)定價模型以實現(xiàn)電動汽車充電引導(dǎo),提出的模型考慮了起訖點交通需求的不確定性,采用基于梯度和無梯度的深度強化學(xué)習(xí)解決雙層隨機優(yōu)化問題。然而,以上大部分文獻在制定電動汽車充電引導(dǎo)策略時要么僅對電動汽車充電目的地進行優(yōu)化,并采用最短路徑算法(如Dijkstra[19]、Floyd算法)生成充電路徑;要么在充電目的已知前提下對充電路徑進行優(yōu)化;沒有同時考慮到電動汽車充電目的地優(yōu)化以及充電路徑規(guī)劃,導(dǎo)致優(yōu)化得到的結(jié)果可能并不是最優(yōu)的策略,從而影響最終的尋優(yōu)效果。
針對以上問題,本文提出了一種基于分層增強深度Q 網(wǎng)絡(luò)強化學(xué)習(xí)HEDQN(Hierarchical Enhanced Deep Q Network)的電動汽車充電引導(dǎo)方法,以制定最優(yōu)的電動汽車充電引導(dǎo)策略,實現(xiàn)最小化電動汽車充電總費用。所提出的HEDQN 方法采用基于Huber損失函數(shù)的雙競爭型深度Q網(wǎng)絡(luò)算法,并包含2 層增強深度Q 網(wǎng)絡(luò)eDQN(enhanced DQN)算法,分別對電動汽車充電引導(dǎo)目的地和充電路徑進行優(yōu)化決策,以此通過目標(biāo)的分解來實現(xiàn)更高的求解效率和得到更優(yōu)的充電引導(dǎo)策略方案。最后,采用某城市實際的交通網(wǎng)絡(luò)數(shù)據(jù)進行算例分析,并與現(xiàn)有的其他方法結(jié)果進行對比,以驗證所提方法的有效性和適應(yīng)性。
電動汽車充電引導(dǎo)行為涉及交通、電力、充電站、電動汽車等多個主體,包含了大量的不確定性因素,如電動汽車初始荷電狀態(tài)SOC(State Of Charge)的不確定性、交通路況的不確定性、充電排隊時間的不確定性等,這些不確定因素造成電動汽車充電行為具有較強的不確定性。當(dāng)電動汽車需要進行充電時,電動汽車用戶首先根據(jù)當(dāng)前車輛狀況、交通系統(tǒng)和充電站狀態(tài)選定某個目標(biāo)充電站進行充電,然后在此基礎(chǔ)上確定一條最優(yōu)的行駛路線,使得電動汽車盡快到達充電目的地,同時期望充電的花費盡可能小。因此,可以將以上電動汽車充電引導(dǎo)問題構(gòu)建為雙層隨機優(yōu)化模型,其數(shù)學(xué)模型為:
以上數(shù)學(xué)模型包含了電動汽車充電決策時的剩余電量、行駛速度、充電等待時間等多重隨機變量。因此,式(1)—(9)構(gòu)建的模型為雙層隨機優(yōu)化模型。上層模型(式(1))為充電引導(dǎo)目的地優(yōu)化模型,即最小化電動汽車充電費用和前往充電站的旅途費用,其目的是在考慮電動汽車初始SOC、電動汽車行駛速度和電動汽車充電等待時間多重不確定因素下決策出最優(yōu)的充電目的地,以降低電動汽車總充電費用;下層模型(式(2))為電動汽車充電路徑優(yōu)化模型,其目的是在充電目的地確定的情況下,電動汽車用戶根據(jù)當(dāng)前車輛的狀態(tài)和交通系統(tǒng)狀況選擇最優(yōu)的充電路徑前往充電目的地,以降低電動汽車旅途費用;式(3)表示電動汽車充電費用,由在充電站k充電的電量費用(見式(4))和充電等待時間的費用組成;式(5)表示電動汽車剩余電量變化情況;式(6)表示電動汽車旅途費用,由在道路l上消耗電量的費用(見式(7))和通過道路l所需要的時間費用(見式(8))組成。
本文涉及的電動汽車充電引導(dǎo)策略不僅包括電動汽車充電目的地策略,還包括前往充電目的地的充電路徑策略,并且這些動作決策變量都是離散型的。為了更加準(zhǔn)確、高效地求解以上雙層隨機優(yōu)化問題,本文提出了一種基于分層強化學(xué)習(xí)的電動汽車充電引導(dǎo)策略方法。
本文構(gòu)建的電動汽車充電引導(dǎo)模型實際上是一個雙層隨機優(yōu)化模型,為了更好地利用分層強化學(xué)習(xí)方法進行求解,首先需要將該問題轉(zhuǎn)換為一個未知轉(zhuǎn)移概率的馬爾可夫決策過程MDP(Markov De-
2.2.1 HEDQN算法基本架構(gòu)
2.2.2 基于HEDQN的電動汽車充電引導(dǎo)方法
本文涉及的電動汽車充電引導(dǎo)問題可以分為充電目的地和充電路徑雙層隨機優(yōu)化問題。不同的任務(wù)涉及的主體和目標(biāo)都不一樣,若采用傳統(tǒng)單層強化學(xué)習(xí),則其狀態(tài)、行為空間將急劇增加,不僅會影響到強化學(xué)習(xí)的效率,還會對最優(yōu)策略的獲取造成影響。此外,考慮多種不確定性因素的雙層隨機優(yōu)化決策問題本身比較適合使用分層強化學(xué)習(xí)進行解決。因此,本文提出了HEDQN 算法對電動汽車的充電目的地和充電路徑進行決策,以此獲得電動汽車充電引導(dǎo)策略,從而達到降低充電費用和旅途費用目的。下層eDQN 的目標(biāo)為最大化其內(nèi)部收益,即:
式中:s′和a′分別為下一狀態(tài)及其動作行為;yt表示使用目標(biāo)網(wǎng)絡(luò)得到目標(biāo)Q值;θ~為目標(biāo)網(wǎng)絡(luò)的參數(shù),每經(jīng)過一定的迭代次數(shù),該值根據(jù)當(dāng)前網(wǎng)絡(luò)的參數(shù)θt進行更新。
本文eDQN 算法主要對式(18)—(21)進行了以下三方面的改進。
1)eDQN改進策略1:深度雙Q網(wǎng)絡(luò)。
傳統(tǒng)DQN 算法在計算目標(biāo)網(wǎng)絡(luò)Q值時使用式(21),每次都選取下一個狀態(tài)中最大的Q值所對應(yīng)的動作,即選擇和評估動作都是基于目標(biāo)網(wǎng)絡(luò)的參數(shù)θ~,這會引起強化學(xué)習(xí)算法在學(xué)習(xí)過程中出現(xiàn)過高估計Q值的問題。對此,本文采用深度雙Q 網(wǎng)絡(luò)[8]中的策略,即采用當(dāng)前網(wǎng)絡(luò)θt來選擇下一狀態(tài)的最優(yōu)動作,然后用目標(biāo)網(wǎng)絡(luò)θ~來評估動作的Q值,即充分利用DQN的2個神經(jīng)網(wǎng)絡(luò)將動作選擇和策略評估分離開,以降低過高估計Q值的風(fēng)險。因此,在計算損失函數(shù)時,目標(biāo)網(wǎng)絡(luò)Q值式(21)可以修改為:
2)eDQN改進策略2:競爭DQN。
原DQN 中,深度神經(jīng)網(wǎng)絡(luò)提取的特性直接通過輸出層輸出相應(yīng)動作的Q值。為了更準(zhǔn)確地評估在某一狀態(tài)和行為下的Q值,同時加快收斂速度,本文采用競爭DQN[9]對狀態(tài)和動作進行分層學(xué)習(xí)。該策略將經(jīng)過深度神經(jīng)網(wǎng)絡(luò)提取的特征分流到全連接層中的2 條支路中:一條支路表示標(biāo)量狀態(tài)值函數(shù)V(s),另外一條支路表示在狀態(tài)s下的動作優(yōu)勢值函數(shù)A(s,a)。
式中:ψt為V(s)所在支路的神經(jīng)網(wǎng)絡(luò)參數(shù);?t為A(s,a)所在支路的神經(jīng)網(wǎng)絡(luò)參數(shù)。
3)eDQN改進策略3:Huber損失函數(shù)。
盡管MSE 構(gòu)造的損失函數(shù)隨著誤差的減少,其梯度呈線性遞減,該性質(zhì)有利于算法收斂,但是當(dāng)誤差大于1 時,誤差平方將會急劇增大,從而使得模型偏向于懲罰誤差較大的點,即將賦予離群點更高的權(quán)重,導(dǎo)致犧牲其他正常點的預(yù)測效果,從而使模型的整體性能下降。在平均絕對誤差MAE(Mean Absolute Error)大于1 時,其懲罰力度保持不變,但是在誤差等于0 點處不可導(dǎo),從而導(dǎo)致求解比較困難。同時,MAE 的梯度恒為1,即使對較小的損失值其梯度也不變,因此不利于算法的學(xué)習(xí)和收斂。為了改善這種狀況,本文采用結(jié)合MSE和MAE 兩者優(yōu)勢的Huber 損失函數(shù),它能夠減少離群點敏感度,同時實現(xiàn)處處可導(dǎo),該損失函數(shù)為:
式中:δ為Huber損失函數(shù)參數(shù),該值決定了Huber損失函數(shù)對MSE和MAE的偏重程度。
本文選取某市交通地圖,其包含39 個節(jié)點、67條線路和3 座電動汽車快充電站,如附錄B 圖B1 所示。根據(jù)市政部門城市道路規(guī)劃以及交通部門車輛監(jiān)測可以得到各線路的平均行駛速度。電動汽車行駛時,假設(shè)其速度服從截斷正態(tài)分布,其最大值為對應(yīng)路段的最大行駛速度[16]。
電動汽車電池容量為64 kW·h,每千米耗電量α為0.21 kW·h/km。由于5 號和32 號充電站離中心區(qū)位置稍遠,該充電站的電價參考某市公布的峰谷平電價分時電價,如表1所示。同時,由于22號充電站靠近中心區(qū),其車流量較大,為了降低大量電動汽車同時涌入22 號充電站進行充電進一步增加充電等待時間概率,將22 號充電站的電價在傳統(tǒng)峰谷平分時電價基礎(chǔ)上增加0.3元/(kW·h)。由于本文主要的關(guān)注點在于電動汽車用戶如何根據(jù)當(dāng)前觀測狀態(tài)作出最優(yōu)充電目的地和充電路徑?jīng)Q策,因此本文借鑒文獻[3,16]將5號和32號充電站的充電等待時間設(shè)置為正態(tài)分布。同時,由于22 號充電站靠近中心區(qū),其車流量較大,充電等待時間也長于5號和32號充電站,因此在原有的充電等待時間分布基礎(chǔ)上其均值增加20 min。另外,根據(jù)全國平均工資,可以得到單位時間價值為8.790 3 元/h[20]。本文設(shè)置充電次數(shù)M=3,仿真開始時電動汽車隨機分布在地圖節(jié)點上,假設(shè)初始SOC 服從均勻分布U(0.4,0.6)。此外,HEDQN 的參數(shù)設(shè)置如附錄B 表B1 所示[10,12]。值得注意的是,這些參數(shù)僅在初始化時進行設(shè)置,之后不會隨著環(huán)境的變化而改變。
表1 電動汽車充電站電價和充電等待時間分布Table 1 EV charging price and distribution of charging waiting time
深度強化學(xué)習(xí)算法涉及較多超參數(shù),如學(xué)習(xí)速率α、折扣因子γ、批大小等。其中,本研究中的α對HEDQN 效果有較大的影響。α越大,權(quán)重更新的幅度越大。若α過大,則有可能在梯度下降過程中直接跳過最低點,導(dǎo)致網(wǎng)絡(luò)收斂到局部最優(yōu)點,甚至有可能使訓(xùn)練變得發(fā)散。為了能夠有效確定HEDQN算法的最優(yōu)學(xué)習(xí)速率,本文在不同的α下分別對電動汽車充電引導(dǎo)獎勵函數(shù)、HEDQN 損失函數(shù)值和電動汽車充電引導(dǎo)各項指標(biāo)進行比較分析。
不同α下基于HEDQN 算法的電動汽車充電引導(dǎo)性能比較如圖1 所示。從圖1(a)可以得出,在訓(xùn)練前1500輪迭代,即在訓(xùn)練開始階段電動汽車充電引導(dǎo)獎勵函數(shù)值經(jīng)歷了較大的波動,且其獎勵函數(shù)遠低于收斂時的平均值。這主要有2 個原因:一是由于在開始階段充電路徑和充電目的地決策采用隨機搜索,以快速地進行不同充電路徑和充電目的地的嘗試,以便找到較優(yōu)的充電引導(dǎo)策略;二是由于在訓(xùn)練前期處于探索階段,神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)并未達到最優(yōu),導(dǎo)致其得到的策略有較大的波動。當(dāng)α=10-2時,由于學(xué)習(xí)速率設(shè)置過大,其在經(jīng)過30 000 輪迭代后算法逐漸開始發(fā)散;當(dāng)α=10-3或10-4時,同樣由于學(xué)習(xí)速率設(shè)置過大,導(dǎo)致算法在經(jīng)過1500輪迭代后,電動汽車充電引導(dǎo)獎勵函數(shù)從-94 逐漸下降到-104,最終收斂到一個局部最優(yōu)點,如圖1(a)所示;當(dāng)α=10-5時,經(jīng)過6 000 輪迭代后強化學(xué)習(xí)算法的獎勵函數(shù)快速收斂,其獎勵函數(shù)值基本趨于平穩(wěn),此時其損失函數(shù)值波動范圍也較小,見圖1(b)、(c)。
圖1 不同學(xué)習(xí)速率下基于HEDQN算法的電動汽車充電引導(dǎo)性能比較Fig.1 Performance comparison of EV charging navigation based on HEDQN algorithm under different learning rates
為了更加直觀地比較不同α對電動汽車充電引導(dǎo)策略的影響,表2 給出了電動汽車充電引導(dǎo)各項指標(biāo)。從表中可知,當(dāng)α=10-5時,最終的單次充電平均費用最低,為31.77 元。因此,本文的學(xué)習(xí)速率最終確定為α=10-5。
表2 不同學(xué)習(xí)速率下電動汽車充電引導(dǎo)各指標(biāo)對比Table 2 Comparison of various indicators of EV charging navigation under different learning rates
1)同一充電站中電動汽車決策地點統(tǒng)計結(jié)果對比分析。
為了驗證所提基于HEDQN 的電動汽車充電引導(dǎo)方法的有效性,本文對最后1000輪迭代的結(jié)果與基于Dijkstra 最短路徑的就近推薦DIS(DIStance)算法的結(jié)果進行比較和分析。圖2 展示了基于就近推薦DIS 算法和基于HEDQN 的電動汽車充電引導(dǎo)方法對5 號充電站中電動汽車在不同地點決策比例的統(tǒng)計結(jié)果(為了節(jié)省篇幅,選擇5 號充電站進行詳細分析)。從圖2中可知,當(dāng)采用就近推薦DIS算法時,電動汽車選擇5 號充電站的地點絕大部分位于地圖的左上方(如附錄B 圖B1 所示),即位于5 號充電站附近。另外,由于11、12號節(jié)點距離5號充電站的路程相比22 號充電站更遠,因此基于就近推薦DIS 算法會直接選擇22 號充電站進行充電。相比于就近推薦DIS 算法,基于HEDQN 的電動汽車充電引導(dǎo)方法選擇5 號充電站進行充電的地點更多,其新增了11、12、16、19、20 等多個地點。盡管這些位置相比其他充電站位置更遠,所需的旅途費用(充電路上消耗的電量費用和時間費用之和)也會略微增加,但是決策時刻其總的充電費用(充電時電費和充電等待時間費用之和)會更低。例如,當(dāng)電動汽車在11 號節(jié)點采用就近推薦DIS算法前往22號充電站充電時其平均旅途費用僅為7.433元,單次平均充電費用為48.932元,而采用基于HEDQN 的電動汽車充電引導(dǎo)方法其前往5 號充電站平均旅途費用9.756 元,但是單次平均充電費用僅需37.142元,減少了24.09%。
圖2 不同算法下5號充電站中電動汽車在不同地點決策比例分析Fig.2 Ratio of EV charging decision in different locations at charging station No.5 under different algorithms
2)電動汽車在不同位置選擇各充電目的地比例。
電動汽車在不同地點時選擇各充電站的比例如附錄B 圖B2 所示。從圖中可知,電動汽車在絕大多數(shù)節(jié)點上其充電策略保持不變,這些節(jié)點大部分都距離某個充電站位置較近或處于外環(huán)上面。如:4、6、7號節(jié)點和23號節(jié)點分別距離5號充電站和22號充電站距離最近,其選擇5 號和22 號充電站的概率接近于1。電動汽車在其他節(jié)點上需要根據(jù)當(dāng)前的狀態(tài),比如充電時刻、充電決策時的剩余電量、充電電價、等待時間等情況進行進一步?jīng)Q策,以最小化充電的總費用(包括旅途費用和充電費用)。如:當(dāng)電動汽車的充電決策時間接近高峰電價時(如18:30),電動汽車位于29 號和30 號節(jié)點時,其距離22 號充電站較近,為了避免去更遠的32 號充電站充電而導(dǎo)致電動汽車在高峰電價時充電,此時HEDQN 算法將給出在22 號充電站進行充電的策略,以減少旅途費用(包括旅途的電量費用和時間費用)。在其他時間點,電動汽車將盡量避開22 號充電站進行充電,因為該充電站的電價較高,并且等待時間較長。
3)不同算法下電動汽車充電引導(dǎo)各項指標(biāo)比較。
本文將所提出的基于HEDQN 的電動汽車充電引導(dǎo)方法與就近推薦DIS算法[19]、單層DQN算法[16-17]和傳統(tǒng)的分層深度Q 網(wǎng)絡(luò)hDQN(hierarchical Deep Q Network)算法[10]在電動汽車充電引導(dǎo)各項指標(biāo)進行比較,以進一步驗證電動汽車充電引導(dǎo)在充電路徑和充電目的地上決策的有效性和正確性。
圖3 為不同算法下電動汽車充電引導(dǎo)獎勵函數(shù)曲線。從圖中可知,3 種強化學(xué)習(xí)算法都能快速地通過調(diào)整神經(jīng)網(wǎng)絡(luò)權(quán)重對電動汽車充電引導(dǎo)策略進行學(xué)習(xí),在經(jīng)歷過短暫的學(xué)習(xí)后達到收斂狀態(tài)。相比于單層DQN 算法和傳統(tǒng)hDQN 算法,所提HEDQN算法通過對Q值估計、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)改進能夠有效地提升算法的搜索效率,能夠獲得更高的獎勵函數(shù),從而得到更優(yōu)的充電引導(dǎo)策略。
圖3 不同算法下電動汽車充電引導(dǎo)獎勵函數(shù)Fig.3 Reward of EV charging navigation under different algorithms
為了定量描述不同算法下電動汽車充電引導(dǎo)效果,本文采用最后1000輪迭代的單次充電平均決策次數(shù)、平均行駛距離、平均等待時間和平均費用等指標(biāo)對不同算法進行比較分析,對比結(jié)果如表3 所示。從表中可知,就近推薦DIS 算法的單次充電平均決策步數(shù)和平均行駛距離均最小,但是由于其只依據(jù)最短距離來選擇充電目的地和充電路徑,而忽略了充電道路行駛速度、充電站電價等因素,從而導(dǎo)致其平均等待時間過長,造成其單次充電平均費用相比于其他算法都高。傳統(tǒng)hDQN 算法將電動汽車充電引導(dǎo)問題劃分為2 個子問題求解,降低了問題的求解規(guī)模,有助于加快計算的求解速度和提升算法的策略搜索能力,因此其單次充電平均費用優(yōu)于單層DQN 算法和就近推薦DIS 算法。與此同時,所提基于HEDQN 的電動汽車充電引導(dǎo)方法的單次充電平均行駛距離為14.80 km、平均費用為31.77 元,與就近推薦DIS 算法相比,盡管其充電平均行駛距離增加了約20%,但是其平均的充電費用減少了約10%。因此,從以上的分析結(jié)果表明了本文所提基于HEDQN 的電動汽車充電引導(dǎo)方法能夠在多重不確性因素獲得更優(yōu)的充電引導(dǎo)策略,從而驗證了所提方法的有效性。
表3 不同算法下電動汽車充電引導(dǎo)各指標(biāo)對比Table 3 Comparison of various indicators of EV charging navigation under different algorithms
為了驗證本文所提算法的適應(yīng)性能,現(xiàn)假設(shè)22號充電站和32號充電站的電價調(diào)換,即設(shè)定32號充電站的價格最高。圖4 為基于HEDQN 算法在環(huán)境發(fā)生變換后的電動汽車充電目的地決策損失函數(shù)和充電路徑?jīng)Q策損失函數(shù)值。
圖4 環(huán)境發(fā)生變化后基于HEDQN算法的電動汽車充電引導(dǎo)損失函數(shù)Fig.4 Loss of EV charging navigation based on HEDQN algorithm after simulation environment changes
當(dāng)環(huán)境發(fā)生變化后,HEDQN 算法在已有經(jīng)驗的基礎(chǔ)上繼續(xù)學(xué)習(xí),從而保證電動汽車充電引導(dǎo)策略的最優(yōu)性。從圖4 中可知,HEDQN 算法在環(huán)境發(fā)生變化后其損失函數(shù)值突增,然后隨著算法迭代的進行,只需要經(jīng)過5 000 步仿真基本收斂,其相比于3.2節(jié)隨機權(quán)重初始的收斂速度提升了10 倍以上,由此驗證了本文所提算法的自適應(yīng)能力。
當(dāng)環(huán)境發(fā)生變化后電動汽車在不同地點時選擇各充電站的比例如附錄B 圖B3 所示。通過對比圖B2、B3 可知,較多的電動汽車從32 號充電站改換到22 號充電站進行充電。具體地,電動汽車在不同位置選擇32 號充電站進行充電的比例從49.20%下降到10.50%;而電動汽車在不同位置選擇22 號充電站進行充電的比例從9.20%上升到46.95%。
本文提出了一種基于HEDQN 的電動汽車充電引導(dǎo)方法,有效地解決了多種隨機因素下的電動汽車充電目的地和充電路徑?jīng)Q策問題。與已有就近推薦DIS 算法、單層DQN 算法和傳統(tǒng)hDQN 算法相比,所提HEDQN算法具有以下優(yōu)勢:
1)所提HEDQN 算法相比單層DQN 算法和傳統(tǒng)hDQN算法具有更快的收斂性能;
2)所提HEDQN 算法通過對Q值估計、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)改進能夠有效地提升算法的搜索效率,獲得更高的獎勵函數(shù),從而得到更優(yōu)的充電引導(dǎo)策略,有效降低電動汽車總充電費用;
3)當(dāng)環(huán)境發(fā)生變化后所提HEDQN 算法僅經(jīng)歷5 000 步仿真即可收斂,并且相比隨機權(quán)重初始的收斂速度提升了10 倍以上,由此表明HEDQN 算法具有較強的適應(yīng)性。
因此,本文所提基于HEDQN 的電動汽車充電引導(dǎo)方法能夠充分考慮電動汽車行駛速度和充電等待時間的隨機性,在不同的時間、交通和電力系統(tǒng)環(huán)境狀態(tài)下能夠決策出較優(yōu)的電動汽車充電目的地和行駛路徑。在未來的研究中,將會考慮加入電網(wǎng)的詳細模型,以此考慮電力-交通耦合系統(tǒng)更加復(fù)雜的交互影響機理。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。