陳 果,王秀麗,原晟淇,帥軒越,周 前
(1. 西安交通大學(xué)電氣工程學(xué)院,陜西省 西安市 710049;2. 國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院,江蘇省 南京市 210036)
電動(dòng)汽車(electric vehicle,EV)具有減少溫室氣體排放、降低化石能源依賴性的天然優(yōu)勢,有利于國家實(shí)現(xiàn)“雙碳”目標(biāo)。同時(shí),作為重要的需求響應(yīng)資源,電動(dòng)汽車還能為電力系統(tǒng)提供靈活性支撐[1]。如何對大規(guī)模電動(dòng)汽車進(jìn)行有序充電控制,是發(fā)揮其靈活性潛力的關(guān)鍵。
近年來,國內(nèi)外學(xué)者對大規(guī)模電動(dòng)汽車有序充電問題進(jìn)行了大量的研究[2-6]。在現(xiàn)有研究中,廣泛使用的方法有交替方向乘子法[1]、拉格朗日松弛法[4]等分布式算法,以及整數(shù)規(guī)劃[2]、啟發(fā)式算法[3]、基于模型預(yù)測控制的方法[5-6]等。這些方法嘗試解決了各種場景下的電動(dòng)汽車有序充電問題。例如,文獻(xiàn)[2]在考慮有序充電時(shí)還考慮了配電網(wǎng)的線路容量約束,通過求解兩個(gè)相繼的整數(shù)規(guī)劃問題實(shí)現(xiàn)特定負(fù)荷曲線。但是,這些方法在對電動(dòng)汽車不確定性建模時(shí),需要關(guān)于車輛隨機(jī)性的準(zhǔn)確模型[2-4]或預(yù)測結(jié)果[5-6]。實(shí)際中,電動(dòng)汽車不確定性與用戶行為特征息息相關(guān),而后者是一個(gè)復(fù)雜問題[7],這就導(dǎo)致車輛隨機(jī)性的準(zhǔn)確模型難以建立并且準(zhǔn)確的預(yù)測結(jié)果難以獲得,使得上述研究的實(shí)用性受到影響。
深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合使得后者的能力得到極大擴(kuò)展[8]。深度強(qiáng)化學(xué)習(xí)可以直接從環(huán)境中適應(yīng)性地學(xué)習(xí)最佳策略,而無須顯式地對不確定性建模[9]。基于這一優(yōu)勢,已有部分學(xué)者利用強(qiáng)化學(xué)習(xí)來研究電動(dòng)汽車有序充電問題[10-12]。文獻(xiàn)[10]綜合考慮電價(jià)和用戶通勤行為的不確定性,通過深度強(qiáng)化學(xué)習(xí)得到電動(dòng)汽車的最優(yōu)充放電策略。文獻(xiàn)[12]將電動(dòng)汽車的有序充電問題和充電定價(jià)問題相結(jié)合,利用強(qiáng)化學(xué)習(xí)方法提高充電站收益。
這些方法以單一車輛或電動(dòng)汽車集群為研究對象,但都具有以下特點(diǎn):1)狀態(tài)向量中包含所有電動(dòng)汽車的特征信息[12-13];2)對每一輛電動(dòng)汽車進(jìn)行單獨(dú)訓(xùn)練[14-15]。隨著電動(dòng)汽車數(shù)量的增加,強(qiáng)化學(xué)習(xí)系統(tǒng)的狀態(tài)、動(dòng)作空間以及訓(xùn)練計(jì)算量會(huì)顯著增大,出現(xiàn)維數(shù)災(zāi)(curse of dimensionality)問題。這將導(dǎo)致強(qiáng)化學(xué)習(xí)系統(tǒng)的收斂速度減慢,甚至無法收斂[16],無法支撐大型充電場站中規(guī)?;妱?dòng)汽車的有序充電控制。
為此,文獻(xiàn)[17]采用固定維數(shù)的矩陣組成狀態(tài)向量,矩陣維數(shù)只與觀察的時(shí)間間隔有關(guān),從而使得狀態(tài)向量維數(shù)不隨電動(dòng)汽車數(shù)量增多而變大。文獻(xiàn)[18]將最優(yōu)策略特征化方法與深度強(qiáng)化學(xué)習(xí)相結(jié)合,在不損失解最優(yōu)性的同時(shí),減少輸出層神經(jīng)元數(shù)量,提高收斂速率。但上述文獻(xiàn)仍存在一些不足,如文獻(xiàn)[17]對動(dòng)作的設(shè)計(jì)會(huì)使其動(dòng)作空間大小受到電動(dòng)汽車數(shù)量的影響,動(dòng)作空間過于龐大而難以學(xué)習(xí)。
針對此問題,本文在深度強(qiáng)化學(xué)習(xí)的框架下,提出一種適用于大規(guī)模電動(dòng)汽車有序充電控制的馬爾可夫決策過程(Markov decision process,MDP)模型。利用“分箱”方法和優(yōu)化充電次序策略,減少狀態(tài)空間和動(dòng)作空間的維數(shù),降低學(xué)習(xí)的難度。最后,采 用 雙 深 度Q 網(wǎng) 絡(luò)(double deep Q network,DDQN)[19-20]的強(qiáng)化學(xué)習(xí)算法對充電場站內(nèi)大規(guī)模電動(dòng)汽車的有序充電策略進(jìn)行求解,并通過算例對其有效性進(jìn)行驗(yàn)證。
本文以大型停車場等大規(guī)模電動(dòng)汽車充電站為研究對象,假設(shè)場站內(nèi)充電容量充足。場站為電動(dòng)汽車提供充電服務(wù)時(shí)采用開-關(guān)策略(on-off strategy),即充電樁只會(huì)處于電動(dòng)汽車的額定充電功率或零功率兩種狀態(tài)。開-關(guān)策略只需要控制充電設(shè)備的開與關(guān),相較于對功率的連續(xù)控制,其控制系統(tǒng)相對簡單。同時(shí),電動(dòng)汽車在充電狀態(tài)時(shí)處于恒功率狀態(tài),這與目前主流的充電模式更為接近[21]。
電動(dòng)汽車到達(dá)充電場站后,當(dāng)有空閑的充電樁時(shí),可以立即與其連接。這時(shí),充電決策智能體(下文簡稱智能體)會(huì)訪問電動(dòng)汽車的部分特征信息,包括:第n輛電動(dòng)汽車的電池容量、額定充電功率、到達(dá)充電場站時(shí)的荷電狀態(tài)(state of charge,SOC)、用戶離開充電場站時(shí)的預(yù)期電量,以及用戶預(yù)計(jì)離開場站的時(shí)間。同時(shí),智能體會(huì)記錄電動(dòng)汽車與充電樁連接的時(shí)刻。由此,智能體可以計(jì)算出每輛電動(dòng)汽車所需的充電時(shí)間:
智能體會(huì)在離散的時(shí)間節(jié)點(diǎn)上決策。對于在非決策時(shí)刻與充電樁連接的電動(dòng)汽車,由于已經(jīng)錯(cuò)過上一時(shí)刻的決策信號(hào),可認(rèn)為其在下一個(gè)決策時(shí)刻才與充電樁連接,并接受智能體調(diào)度,如圖1 所示。假設(shè)在決策時(shí)刻t,電動(dòng)汽車所需的充電時(shí)間和在場站內(nèi)的剩余泊車時(shí)間分別為和,兩次決策之間的時(shí)間長度為Δt0,則以下兩式成立:
圖1 電動(dòng)汽車的特征說明Fig.1 Illustration of characteristics of EVs
最大零功率充電時(shí)間的含義是:電動(dòng)汽車在與充電樁連接后的泊車時(shí)段內(nèi),最多有個(gè)時(shí)段處于不充電狀態(tài)。
智能體可以通過合理決策各電動(dòng)汽車處于零功率狀態(tài)的時(shí)間來適應(yīng)分時(shí)電價(jià),達(dá)到最小化場站充電成本、提升運(yùn)行效率的目標(biāo)。
由于在上述場景下,充電場站未來的狀態(tài)演變與其狀態(tài)的歷史路徑無關(guān),環(huán)境具有馬爾可夫性質(zhì),因此,上述智能體的決策過程可以表示為一個(gè)MDP。 MDP 模 型 可 用 一 個(gè) 五 元 元 組{S,A,P,R,γ}表示,其中元素依次為狀態(tài)集、動(dòng)作集、環(huán)境的狀態(tài)轉(zhuǎn)移概率、獎(jiǎng)勵(lì)集和獎(jiǎng)勵(lì)折扣因子。智能體與環(huán)境交互產(chǎn)生學(xué)習(xí)數(shù)據(jù),并采用特定算法逐漸學(xué)習(xí)出最優(yōu)策略。
由于電動(dòng)汽車出行規(guī)律和充電需求不確定,本文將場站內(nèi)的電動(dòng)汽車有序充電問題表示為一個(gè)帶有未知狀態(tài)轉(zhuǎn)移概率的馬爾可夫決策問題。
為了避免狀態(tài)維數(shù)隨著電動(dòng)汽車規(guī)模增大而變大,本文采用“分箱”方法來控制狀態(tài)的維數(shù)。
前文提到,電動(dòng)汽車特征可用一個(gè)三維數(shù)組表示。考慮當(dāng)前時(shí)刻t下充電場站內(nèi)的所有電動(dòng)汽車,忽略它們的到達(dá)時(shí)間。對場站內(nèi)所有連接的電動(dòng)汽車進(jìn)行“分箱”處理,將具有相同特征()的電動(dòng)汽車歸為一組,統(tǒng)計(jì)各個(gè)特征下的電動(dòng)汽車數(shù)量。因此,每個(gè)時(shí)刻下,充電場站內(nèi)電動(dòng)汽車的信息可以表示為一個(gè)記錄了各特征下電動(dòng)汽車數(shù)量的兩維矩陣,如圖2 所示。圖2 中:表示時(shí)刻t下,充電場站內(nèi)需要充電時(shí)段數(shù)和剩余泊車時(shí)段數(shù)分別為i和j的電動(dòng)汽車數(shù)量;cmax和dmax分別為電動(dòng)汽車需要充電時(shí)段數(shù)和剩余泊車時(shí)段數(shù)的最大值。
圖2 “分箱”處理后充電場站內(nèi)的電動(dòng)汽車信息表示Fig.2 Information representation of EVs within charging stations after binning
這個(gè)矩陣不僅能夠表示充電場站內(nèi)電動(dòng)汽車的充電需求,而且由于“分箱”,電動(dòng)汽車的規(guī)模只會(huì)改變矩陣內(nèi)元素值的大小,而不會(huì)影響矩陣的維數(shù)。因此,可以將矩陣內(nèi)的元素作為狀態(tài)的一部分,來表征場站當(dāng)前的充電需求信息。值得注意的是,由于≤,矩陣的左上角元素全部為0。
將該兩維特征矩陣中的元素和當(dāng)前時(shí)刻t組合在一起,形成t時(shí)刻的狀態(tài)向量st:
其中狀態(tài)向量的維數(shù)Sdim為:
可以看到,所提MDP 的狀態(tài)空間大小只與cmax和dmax有關(guān),而與電動(dòng)汽車規(guī)模無關(guān),這是“分箱”方法帶來的優(yōu)勢。由于電動(dòng)汽車在充電場站的泊車時(shí)間和在開-關(guān)策略下需要充電的時(shí)間有限,兩者可以估計(jì)或者規(guī)定,所以狀態(tài)向量的維數(shù)只與決策的間隔時(shí)間Δt0有關(guān)。
動(dòng)作at表示在時(shí)刻t,智能體決定充電的電動(dòng)汽車數(shù)量占當(dāng)前時(shí)刻充電場站內(nèi)的電動(dòng)汽車總量的比例。動(dòng)作at滿足以下約束:
動(dòng)作at只給出了電動(dòng)汽車的充電數(shù)量,無法指明具體為哪些電動(dòng)汽車執(zhí)行充電動(dòng)作。因此,需要確定一種充電次序策略來決定場站內(nèi)各個(gè)電動(dòng)汽車的充電優(yōu)先級。下文提出一種基于最大零功率充電時(shí)間的優(yōu)化充電次序策略,并解釋其合理性。
即在屬于該末尾優(yōu)先級下的電動(dòng)汽車中隨機(jī)選擇Nlastt輛電動(dòng)汽車進(jìn)行充電。
以圖3 中的電動(dòng)汽車特征矩陣為例,充電次序如圖中的藍(lán)線所示。對為0 的電動(dòng)汽車來說,其必須在離站前保持滿充狀態(tài),否則,其充電需求無法得到滿足;而對為1 的電動(dòng)汽車來說,在離站前可以選擇一個(gè)時(shí)段不充電。同時(shí),不充電行為會(huì)導(dǎo)致降為0,從而在之后的時(shí)間里該電動(dòng)汽車必須保持滿充。由此可見,越小的電動(dòng)汽車,其對充電的需求越迫切,越可能出現(xiàn)充電需求無法滿足的情況,因此,需要要求小的電動(dòng)汽車優(yōu)先充電。而對于相同的電動(dòng)汽車來說,它們承受的充電需求無法滿足的風(fēng)險(xiǎn)相當(dāng)。但剩余泊車時(shí)段數(shù)小的電動(dòng)汽車優(yōu)先充電可以提早解除其與充電樁的連接狀態(tài),緩解智能體與大規(guī)模電動(dòng)汽車通信的壓力。
圖3 充電次序優(yōu)化策略Fig.3 Optimization strategy for charging sequence
結(jié)合動(dòng)作at和充電次序優(yōu)化策略,智能體能夠確定具體為哪些電動(dòng)汽車進(jìn)行充電。
智能體執(zhí)行動(dòng)作at后,環(huán)境狀態(tài)會(huì)從st轉(zhuǎn)移到st+1,此轉(zhuǎn)移服從未知的條件分布=Pr(st+1|st,at)。根據(jù)給定的st和at,原先存在于充電場站內(nèi)的電動(dòng)汽車有4 種狀態(tài)轉(zhuǎn)移方式,如附錄A圖A1 所示。包括:1)延遲充電;2)充電;3)充電完成,取消與充電樁的連接;4)延遲充電,導(dǎo)致電動(dòng)汽車的充電需求無法滿足。而在這個(gè)決策時(shí)段內(nèi),其他電動(dòng)汽車會(huì)到達(dá)充電場站并等待充電,這些到達(dá)的電動(dòng)汽車數(shù)量和每輛車的充電需求是不確定的。在該不確定性下,環(huán)境的狀態(tài)轉(zhuǎn)移概率無法顯式地進(jìn)行描述,但可以依據(jù)后文描述的深度強(qiáng)化學(xué)習(xí)方法對這一轉(zhuǎn)移概率進(jìn)行學(xué)習(xí)。
本文的決策目標(biāo)是最小化充電場站內(nèi)電動(dòng)汽車的充電成本,同時(shí)盡量滿足電動(dòng)汽車的充電需求。因此,即時(shí)獎(jiǎng)勵(lì)rt可以表示如下:
式中:αt為t時(shí)段的電價(jià);為此次決策中由于延遲充電導(dǎo)致用戶充電需求無法得到滿足的電動(dòng)汽車數(shù)量;η為懲罰系數(shù)。
由式(11)可知,即時(shí)獎(jiǎng)勵(lì)包括兩部分:該時(shí)段的充電成本和無法滿足用戶充電需求的懲罰。由于在強(qiáng)化學(xué)習(xí)中一般為最大化獎(jiǎng)勵(lì),故這兩部分需加上負(fù)號(hào)。只有在at所決定的電動(dòng)汽車充電數(shù)量小于=0 的電動(dòng)汽車數(shù)量時(shí)才會(huì)出現(xiàn),因?yàn)閮?yōu)化充電次序策略會(huì)優(yōu)先避免充電需求無法滿足的情況??捎上率奖硎?
為了避免出現(xiàn)充電需求無法滿足的情況,懲罰系數(shù)設(shè)定為:
式中:αmax為分時(shí)電價(jià)的最大值。該懲罰系數(shù)表示一輛車在最大的電價(jià)下,以最大功率Pmax持續(xù)充電cmax個(gè)時(shí)段的充電成本。在該懲罰系數(shù)下,一輛充電需求無法得到滿足的電動(dòng)汽車所帶來的懲罰,比任何情況下一輛電動(dòng)汽車的充電成本都要高。因此,智能體會(huì)優(yōu)先滿足電動(dòng)汽車的充電需求。
強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化整個(gè)決策周期內(nèi)的總獎(jiǎng)勵(lì),包含了當(dāng)前時(shí)刻的即時(shí)獎(jiǎng)勵(lì)與未來時(shí)刻的獎(jiǎng)勵(lì),折扣因子γ是將未來獎(jiǎng)勵(lì)折算到當(dāng)前時(shí)刻的折算系數(shù),表征了對即時(shí)獎(jiǎng)勵(lì)和未來獎(jiǎng)勵(lì)之間的權(quán)衡。γ過小,會(huì)導(dǎo)致智能體過于關(guān)注即時(shí)獎(jiǎng)勵(lì)而顯得短見,一般將其設(shè)置為接近于1 的數(shù)。
狀態(tài)-動(dòng)作函數(shù)Qπ(s,a)表示在狀態(tài)s下執(zhí)行動(dòng)作a,并在之后遵循策略π的累積折扣獎(jiǎng)勵(lì)期望,該值表征了在策略π下和當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a的好壞,具體如式(12)所示。
式中:Eπ[ ?]為期望函數(shù);rt為當(dāng)前的即時(shí)獎(jiǎng)勵(lì);γkrt+k表示將未來k個(gè)決策時(shí)段后的獎(jiǎng)勵(lì)折算到當(dāng)前的獎(jiǎng)勵(lì)值?;趦r(jià)值的強(qiáng)化學(xué)習(xí)算法的目的就是要在所有策略中找到最優(yōu)策略,使累積折扣獎(jiǎng)勵(lì)期望最大。
深度Q 網(wǎng)絡(luò)(deep Q network,DQN)是一種基于價(jià)值的強(qiáng)化學(xué)習(xí)方法,其在Q 學(xué)習(xí)的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)代替Q 學(xué)習(xí)中的查找表,提高了對狀態(tài)-動(dòng)作函數(shù)Q(s,a)的擬合能力。同時(shí),使用了經(jīng)驗(yàn)回放(experience replay)技術(shù)和固定目標(biāo)值(fixed Qtarget)的方法來提高算法的穩(wěn)定性,在深度強(qiáng)化領(lǐng)域取得了很大的成功。但DQN 與Q 學(xué)習(xí)一樣,在最優(yōu)化max 操作時(shí)會(huì)保留高估誤差,并將其傳播到后續(xù)過程中,這就導(dǎo)致DQN 總傾向于高估Q(s,a)。DDQN 通過將目標(biāo)值計(jì)算中的max 操作分解為基于訓(xùn)練網(wǎng)絡(luò)的動(dòng)作選擇和基于目標(biāo)網(wǎng)絡(luò)的估值計(jì)算兩部分,大大減小了DQN 的高估誤差,使算法更加穩(wěn)定。DDQN 的訓(xùn)練算法如圖4 所示。
圖4 DDQN 的具體訓(xùn)練算法Fig.4 Detailed training algorithm of DDQN
首先,隨機(jī)初始化訓(xùn)練網(wǎng)絡(luò)Q(θ)和目標(biāo)網(wǎng)絡(luò)Qˉ(θˉ),兩者的初始化參數(shù)相同,即θ=θˉ,并設(shè)定訓(xùn)練的回合數(shù)M和目標(biāo)網(wǎng)絡(luò)參數(shù)更新頻率B。一個(gè)訓(xùn)練回合開始時(shí),首先生成初始狀態(tài)s0,然后訓(xùn)練網(wǎng)絡(luò)依據(jù)ε-greedy 策略選擇動(dòng)作。ε-greedy 策略可由下式表示:
式中:ε為探索率;λ為0 與1 之間隨機(jī)生成的數(shù);A為動(dòng)作集。
選擇動(dòng)作at后,可以結(jié)合優(yōu)化充電次序策略對場站內(nèi)的電動(dòng)汽車進(jìn)行充電,并觀察之后的即時(shí)獎(jiǎng)勵(lì)rt、新狀態(tài)st+1和回合結(jié)束信號(hào)D,并將樣本(st,at,rt,st+1,D)存入回放緩存中。接著,從回放緩存中隨機(jī)抽取一個(gè)批次的樣本,按照下式對訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
式中:μ為學(xué)習(xí)率。
式(16)計(jì)算了各個(gè)樣本對應(yīng)的目標(biāo)值qtargett??梢钥吹?,Qˉ(s,a)中的動(dòng)作選擇是基于訓(xùn)練網(wǎng)絡(luò)的,而非DQN 中是基于目標(biāo)網(wǎng)絡(luò)的,這是DDQN 與DQN 的主要區(qū)別;式(17)對訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行更新,當(dāng)觀察到回合結(jié)束信號(hào)時(shí),結(jié)束當(dāng)前回合并進(jìn)入下一回合,重復(fù)上述過程直到設(shè)定的訓(xùn)練回合數(shù)。其中,需要每隔一段訓(xùn)練步數(shù)B,將訓(xùn)練網(wǎng)絡(luò)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò)。
在本文算例中,分時(shí)電價(jià)和電動(dòng)汽車的用戶行為均基于現(xiàn)實(shí)中的數(shù)據(jù)。其中,分時(shí)電價(jià)數(shù)據(jù)來自California ISO[22]。電動(dòng)汽車的用戶行為數(shù)據(jù)包括電動(dòng)汽車到達(dá)充電場站的時(shí)間、離開時(shí)間和充電需求數(shù)據(jù),由文獻(xiàn)[23]所提出的數(shù)據(jù)生成器生成。真實(shí)的用戶數(shù)據(jù)由于保密緣故難以獲得,該數(shù)據(jù)生成器使用了荷蘭ElaadNL 公司所收集的真實(shí)電動(dòng)汽車數(shù)據(jù)進(jìn)行訓(xùn)練,可以保證生成數(shù)據(jù)足夠真實(shí)地反映現(xiàn)實(shí)情況。電價(jià)取自California ISO 的2021 年10 月12 日數(shù)據(jù)。電動(dòng)汽車在場站內(nèi)的最長泊車時(shí)間dmax設(shè)置為12 h??紤]交流充電方式,按目前主流電動(dòng)汽車的電池容量和額定充電功率進(jìn)行估算,最大充電時(shí)間設(shè)置為cmax=7 h。決策的時(shí)間間隔相對電動(dòng)汽車充電時(shí)間和泊車時(shí)間要有足夠的區(qū)分度,將其設(shè)置為1 h,即Δt0=1 h。電動(dòng)汽車的規(guī)模設(shè)置為720 輛,即每天到達(dá)充電場站的電動(dòng)汽車數(shù)量的期望值為720。充電場站的充電樁規(guī)模設(shè)置為200 個(gè)。
由式(6)可以計(jì)算出狀態(tài)向量的維數(shù)為64。本文將動(dòng)作劃分為 11 個(gè)離散值,即at=(0,0.1,0.2,…,1.0)。對充電場站來說,以連續(xù)3 日為一個(gè)訓(xùn)練回合。訓(xùn)練網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)都設(shè)置為兩個(gè)隱藏層,每層有256 個(gè)神經(jīng)元,激活函數(shù)為ReLU。折扣因子γ、學(xué)習(xí)率、批次大小、更新頻率B和訓(xùn)練回合數(shù)M分別設(shè)定為0.95、0.001、64、2 和8 000。訓(xùn)練 過 程 在PC 機(jī) 上 進(jìn) 行,CPU 為i7-8700,主 頻 為3.2 GHz,程 序 使 用Python 編 寫 并 使 用Pytorch 進(jìn) 行訓(xùn)練。
4.2.1 訓(xùn)練過程
按照上述參數(shù)設(shè)置神經(jīng)網(wǎng)絡(luò),利用DDQN 的算法訓(xùn)練8 000 個(gè)回合,每個(gè)回合的總獎(jiǎng)勵(lì)隨回合數(shù)的變化曲線如圖5 所示。
圖5 DDQN 訓(xùn)練收斂圖Fig.5 Training convergence diagram of DDQN
圖5 中:藍(lán)線為各個(gè)回合的總獎(jiǎng)勵(lì)值;綠線為對獎(jiǎng)勵(lì)進(jìn)行平滑處理后的結(jié)果,從平滑獎(jiǎng)勵(lì)曲線中可以看出訓(xùn)練的收斂效果;紅線為ε-greedy 策略中的探索率ε,探索率表示了選取隨機(jī)動(dòng)作的概率。從圖5 中可以看出,在前3 000 個(gè)回合中智能體被鼓勵(lì)進(jìn)行探索,回合的獎(jiǎng)勵(lì)值逐漸增大,之后探索率逐漸下降并穩(wěn)定在0.01 附近,回合的獎(jiǎng)勵(lì)值也隨之逐漸穩(wěn)定。獎(jiǎng)勵(lì)值的提高和最終穩(wěn)定說明,所提MDP在應(yīng)用DDQN 算法時(shí)的訓(xùn)練表現(xiàn)較好。
4.2.2 模型測試效果
1)在測試集上的表現(xiàn)
為了評估所提方法的效果,從文獻(xiàn)[23]所提的數(shù)據(jù)生成器中另外生成100 個(gè)回合的數(shù)據(jù)作為測試集,將圖5 中訓(xùn)練完成的模型參數(shù)保存并固定下來,構(gòu)成所提強(qiáng)化學(xué)習(xí)方法的決策模型,采用測試集測試其決策能力。將所提DDQN 方法的決策模型與其他動(dòng)作策略在測試集上的表現(xiàn)進(jìn)行比較。進(jìn)行比較的動(dòng)作策略包括:
(1)理論最優(yōu)解,即在知道整個(gè)回合電動(dòng)汽車的不確定性信息的基礎(chǔ)上,通過整數(shù)規(guī)劃進(jìn)行優(yōu)化計(jì)算得到最優(yōu)解。具體模型見附錄B。由于電動(dòng)汽車具有不確定性,該理論最優(yōu)解在現(xiàn)實(shí)中無法達(dá)到。
(2)滿充動(dòng)作,即始終令at=1。
(3)啟發(fā)式動(dòng)作,即決策動(dòng)作與電價(jià)成反比,當(dāng)為最高電價(jià)時(shí)at=0,當(dāng)為最低電價(jià)時(shí)at=1。
(4)隨機(jī)動(dòng)作,即每個(gè)時(shí)刻的決策動(dòng)作服從0 到1 的均勻分布。
以上動(dòng)作策略在動(dòng)作決策后都遵循優(yōu)化充電次序策略來執(zhí)行具體充電動(dòng)作。所提DDQN 方法與上述方法在測試集上的回合累積獎(jiǎng)勵(lì)和回合累積“違約”頻數(shù)分別如附錄C 圖C1、圖C2 所示。
附錄C 圖C1 中的回合累積獎(jiǎng)勵(lì)是將多個(gè)回合的獎(jiǎng)勵(lì)值逐漸累加起來得到的,其中橫軸第m個(gè)回合對應(yīng)的回合累積獎(jiǎng)勵(lì)表示前m個(gè)回合的獎(jiǎng)勵(lì)值之和。從圖中可以看出,理論最優(yōu)解對應(yīng)的回合累積獎(jiǎng)勵(lì)最大。回合累積獎(jiǎng)勵(lì)的相反數(shù)即為回合累積總成本,所提DDQN 方法的100 回合累積總成本約為最優(yōu)解的1.197 倍,相對滿充動(dòng)作策略,回合累積總成本降低了約7.42%,相對啟發(fā)式動(dòng)作和隨機(jī)動(dòng)作,則分別降低了17.68%和36.10%。附錄C 圖C2統(tǒng)計(jì)了在不同策略下回合累積的數(shù)量(或回合累積“違約”頻數(shù))。理論最優(yōu)解和滿充動(dòng)作都沒有出現(xiàn)電動(dòng)汽車充電需求無法滿足的情況,啟發(fā)式動(dòng)作的回合累積最大。而所提DDQN 方法的回合累積相對較小,相對于隨機(jī)動(dòng)作和啟發(fā)式動(dòng)作的100 回合累積數(shù)量分別降低了約47.82%和54.12%。
從附錄C 表C1 可以看出,回合累積獎(jiǎng)勵(lì)由累積充電成本和累積懲罰兩部分組成。所提DDQN 方法的累積懲罰占回合累積獎(jiǎng)勵(lì)的比例僅為10.95%,小于啟發(fā)式動(dòng)作和隨機(jī)動(dòng)作,同時(shí),其累積充電成本僅次于理論最優(yōu)解,而優(yōu)于其他策略。這說明所提DDQN 方法能在優(yōu)先避免“違約”情況的同時(shí),有效減少充電成本,在減小充電成本和避免充電需求“違約”懲罰之間達(dá)到較好的平衡。
2)動(dòng)作分析
為了進(jìn)一步驗(yàn)證所提DDQN 方法的有效性,選取測試集中的一個(gè)回合,分析所提方法在該回合內(nèi)的具體動(dòng)作,同時(shí),選取幾輛典型電動(dòng)汽車觀察其具體充電過程。DDQN 動(dòng)作與電價(jià)曲線的趨勢對比圖,以及與理論最優(yōu)解的動(dòng)作對比圖分別見附錄C圖C3、圖C4。典型電動(dòng)汽車的充電過程見附錄C圖C5。
從附錄C 圖C3 中可以看出,在電價(jià)處于低水平時(shí),DDQN 選擇的動(dòng)作值較大,場站的充電負(fù)荷也相對較大;當(dāng)電價(jià)升高后,DDQN 的動(dòng)作值變小,傾向于延遲為電動(dòng)汽車充電,場站的充電負(fù)荷減小。這樣,充電場站在充分利用電動(dòng)汽車可延遲充電這一靈活特性的基礎(chǔ)上,實(shí)現(xiàn)了對電價(jià)信號(hào)的響應(yīng),發(fā)揮了電動(dòng)汽車在需求響應(yīng)中的作用。在附錄C 圖C4 中,理論最優(yōu)解的充電行為按照式(7)被對應(yīng)到[0,1]的范圍內(nèi)。從圖中可以看出,DDQN 所決策的充電動(dòng)作與理論最優(yōu)解曲線的波動(dòng)趨勢相同,兩者的具體動(dòng)作相似。這說明了所提DDQN 方法的有效性。從附錄C 圖C5 中可以看出,在智能體的決策調(diào)度下,電動(dòng)汽車的充電需求能夠得到滿足,并且電動(dòng)汽車在電價(jià)較低時(shí)充電,在電價(jià)較高時(shí)延遲充電,因而降低了充電成本。
4.2.3 電動(dòng)汽車規(guī)模的影響
本文為解決維數(shù)災(zāi)問題,使訓(xùn)練難度與電動(dòng)汽車規(guī)模無關(guān),主要通過“分箱”方法限制狀態(tài)空間的大小。為了對比所提方法在不同電動(dòng)汽車規(guī)模下的訓(xùn)練難度,改變電動(dòng)汽車規(guī)模,使每天到達(dá)充電場站的電動(dòng)汽車數(shù)量期望分別為720、5 000 和10 000輛,并觀察不同規(guī)模下模型訓(xùn)練的收斂情況,結(jié)果如表1 所示。
表1 不同電動(dòng)汽車規(guī)模下的訓(xùn)練和測試時(shí)間Table 1 Training and testing time under different EV scales
從表1 可以看出,不同電動(dòng)汽車規(guī)模下,模型訓(xùn)練的收斂時(shí)間均約為60 min,模型訓(xùn)練難度和成本不會(huì)隨著電動(dòng)汽車規(guī)模的增大而迅速增大。這說明本文所提的深度強(qiáng)化學(xué)習(xí)方法可以應(yīng)對大規(guī)模電動(dòng)汽車有序充電中的維數(shù)災(zāi)問題,也驗(yàn)證了“分箱”法在限制狀態(tài)空間大小上的有效性。訓(xùn)練收斂時(shí)間隨著電動(dòng)汽車規(guī)模的增大會(huì)略微增加,這是由深度強(qiáng)化學(xué)習(xí)算法以外的一些運(yùn)算所帶來的,如對數(shù)據(jù)生成器生成的電動(dòng)汽車原始數(shù)據(jù)的預(yù)處理。
從結(jié)果可以看出,不同電動(dòng)汽車規(guī)模下的模型測試時(shí)間均很短。這說明在訓(xùn)練完成后,該模型具有對充電場站內(nèi)的電動(dòng)汽車進(jìn)行實(shí)時(shí)調(diào)度的能力。
4.2.4 優(yōu)化充電次序策略的優(yōu)勢
為驗(yàn)證本文所提出的基于最大零功率充電時(shí)間的優(yōu)化充電次序策略的有效性,在同樣的MDP 結(jié)構(gòu)下,將優(yōu)化充電次序策略替換成隨機(jī)充電次序策略,即智能體決策出動(dòng)作at或充電數(shù)量后,隨機(jī)對當(dāng)前場站內(nèi)的對應(yīng)數(shù)量電動(dòng)汽車進(jìn)行充電。該包含隨機(jī)次序充電策略的MDP 同樣采用DDQN 的算法進(jìn)行訓(xùn)練,且超參數(shù)與本文所提方法全部相同。令兩者在同樣的測試集上進(jìn)行決策,測試結(jié)果見附錄D圖D1、圖D2。
從圖中可以看出,使用優(yōu)化充電次序策略的場站的充電成本相對于隨機(jī)充電次序策略的成本更低,而未滿足充電需求的電動(dòng)汽車數(shù)量也更少。具體來說,所提優(yōu)化充電次序策略使得充電成本和Nviot數(shù)量分別減少了約23.34%和82.63%,這也說明了優(yōu)化充電次序策略的有效性和必要性。優(yōu)化充電次序策略的重要意義在于其使得充電需求更為迫切的電動(dòng)汽車優(yōu)先充電,從而避免出現(xiàn)不必要的充電需求“違約”情況,即電動(dòng)汽車的充電要求在離站時(shí)無法得到滿足的情況。
基于深度強(qiáng)化學(xué)習(xí)的有序充電控制能有效處理電動(dòng)汽車出行和充電需求的不確定性問題。針對其中的維數(shù)災(zāi)問題,本文提出了限制狀態(tài)空間和動(dòng)作空間大小的方法,進(jìn)而建立了一種適合大規(guī)模電動(dòng)汽車的MDP 模型。結(jié)合算例結(jié)果可以得到以下結(jié)論:
1)利用“分箱”方法將充電場站內(nèi)所有電動(dòng)汽車的充電需求信息壓縮為一個(gè)固定維數(shù)的矩陣,可有效控制狀態(tài)空間的大?。凰岢龅幕谧畲罅愎β食潆姇r(shí)間的充電次序優(yōu)化策略能有效控制動(dòng)作空間的大小。
2)結(jié)合“分箱”方法和充電次序優(yōu)化策略,可建立一種適用于大規(guī)模電動(dòng)汽車有序充電問題的MDP 模型。算例結(jié)果表明,該MDP 對應(yīng)的訓(xùn)練成本和難度與電動(dòng)汽車規(guī)模無關(guān),并且訓(xùn)練的收斂速度快、計(jì)算量小。
3)DDQN 訓(xùn)練得到的有序充電策略可以有效應(yīng)對大規(guī)模電動(dòng)汽車的不確定性,減少充電場站的充電成本。模型訓(xùn)練完成后,可對充電場站內(nèi)的電動(dòng)汽車進(jìn)行實(shí)時(shí)調(diào)度,應(yīng)用前景廣闊。
本文考慮的分時(shí)電價(jià)為固定值,后續(xù)研究可將電價(jià)的歷史信息作為狀態(tài)輸入,從而進(jìn)一步考慮電價(jià)的不確定性。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。