孫廣明,陳良亮,王瑞升,陳中,邢強(qiáng)
(1.南瑞集團(tuán)(國網(wǎng)電力科學(xué)研究院)有限公司,江蘇 南京 211106;2.東南大學(xué)電氣工程學(xué)院,江蘇 南京 210096)
面對日益嚴(yán)峻的能源危機(jī)與環(huán)境污染問題,電動汽車(electric vehicle,EV)作為環(huán)境友好型交通工具迎來了發(fā)展機(jī)遇[1—2]。然而規(guī)?;疎V的隨機(jī)充電行為會導(dǎo)致負(fù)荷峰值增加、電能質(zhì)量降低等問題,給配電網(wǎng)的安全與經(jīng)濟(jì)運(yùn)行帶來了挑戰(zhàn)[3—4]。同時,面對規(guī)?;妱悠囌{(diào)度算力要求高、計算復(fù)雜的問題,傳統(tǒng)優(yōu)化模型無法滿足實(shí)時調(diào)度需求。因此,研究充光儲一體化能源站的區(qū)域電動汽車優(yōu)化調(diào)度策略,已成為亟待解決的重要問題。
目前,國內(nèi)外學(xué)者在針對光儲能源站的電動汽車調(diào)度方面已取得一定成果??紤]光伏發(fā)電等可再生能源對優(yōu)化調(diào)度策略的影響,文獻(xiàn)[5]以能源站運(yùn)行成本為優(yōu)化目標(biāo),基于多模態(tài)近似動態(tài)規(guī)劃進(jìn)行求解,在不同定價模型與光伏出力情況下均表現(xiàn)出較強(qiáng)魯棒性。文獻(xiàn)[6]以減少微電網(wǎng)與配電網(wǎng)交換功率以及微電網(wǎng)網(wǎng)絡(luò)損耗為優(yōu)化目標(biāo),采用序列二次規(guī)劃算法進(jìn)行求解。通過對EV進(jìn)行充放電調(diào)度使日負(fù)荷曲線跟蹤發(fā)電曲線,并網(wǎng)模式下的網(wǎng)絡(luò)損耗及離網(wǎng)模式下的所需儲能系統(tǒng)容量均得到降低。文獻(xiàn)[7]考慮能源站源荷互補(bǔ)特性,提出了一種考慮不確定性風(fēng)險的能源站多時間尺度調(diào)度模型。文獻(xiàn)[8—9]考慮光伏出力預(yù)測誤差等不確定性,建立了以充光儲能源站日運(yùn)行成本最小為目標(biāo)的充電站日前優(yōu)化模型,并在此基礎(chǔ)上建立實(shí)時滾動優(yōu)化模型。文獻(xiàn)[10]以大規(guī)模EV接入的配電網(wǎng)運(yùn)行成本最小和負(fù)荷曲線方差最小為目標(biāo)建立EV優(yōu)化調(diào)度模型,在保證系統(tǒng)運(yùn)行成本的同時有效降低了負(fù)荷峰谷差。
上述研究均建立單/多目標(biāo)-多約束優(yōu)化模型解決EV調(diào)度問題,但應(yīng)用在實(shí)時調(diào)度方面均面臨著海量計算的壓力,無法滿足實(shí)時調(diào)度的需求。同時,上述研究過度依賴模型,當(dāng)實(shí)際應(yīng)用中包含模型未考慮的不確定性因素時,模型的優(yōu)化結(jié)果得不到保證,算法的魯棒性與泛化能力有待改進(jìn)。隨著機(jī)器學(xué)習(xí)算法的逐漸成熟,已有少量學(xué)者開展了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)應(yīng)用于EV充電調(diào)度的研究。文獻(xiàn)[11]提出一種基于競爭深度Q網(wǎng)絡(luò)的充電控制方法,在含高滲透率分布式電源的系統(tǒng)中能夠兼顧配電網(wǎng)的安全運(yùn)行與用戶出行需求。文獻(xiàn)[12]考慮EV行駛距離限制,以最小化EV總充電時間為目標(biāo),建立DRL模型進(jìn)行訓(xùn)練求解。文獻(xiàn)[13]考慮用戶用電需求,將EV充放電能量邊界作為部分狀態(tài)空間,建立了以最小化功率波動與充放電費(fèi)用為目標(biāo)的實(shí)時調(diào)度模型。文獻(xiàn)[14]考慮電價與用戶通勤行為的不確定性,從充電電價中提取特征訓(xùn)練Q網(wǎng)絡(luò),并采用Q值最大化原則執(zhí)行動作。文獻(xiàn)[15]以最小化EV用戶行駛時間與充電成本為目標(biāo),利用最短路徑法提取當(dāng)前環(huán)境狀態(tài)訓(xùn)練智能體。
雖然上述研究理解了DRL方法的本質(zhì),以用戶充放電時間或費(fèi)用作為目標(biāo),將車輛與充電站參數(shù)作為環(huán)境狀態(tài)進(jìn)行求解。然而,作為車輛行駛與充電行為的最終執(zhí)行者,EV車主對充電方案的感知效應(yīng)尤為重要,影響調(diào)度策略的可執(zhí)行性與適用性。為此,文中提出了一種考慮人類行為心理的能源站EV調(diào)度方法?;诤蠡诶碚摽坍婨V用戶心理狀態(tài),建立智能體“人-車-站”全狀態(tài)環(huán)境感知模型。同時,引入時變ε-greedy策略作為智能體動作選擇方法以提高算法收斂速度。最后結(jié)合南京市實(shí)際道路與能源站分布設(shè)計了多場景算例仿真,驗(yàn)證文中所提策略的有效性與實(shí)用性。
充光儲一體化能源站[16]結(jié)構(gòu)如圖1所示,按功能可分為:配電網(wǎng)系統(tǒng)、光伏發(fā)電系統(tǒng)、儲能系統(tǒng)、AC/DC模塊、DC/DC模塊、充電樁、通信管理機(jī)以及能量管理系統(tǒng)。
圖1 充光儲能源站架構(gòu)Fig.1 PV-storage-charging integrated energy station
光伏系統(tǒng)由多組太陽能電池板串并聯(lián)組成,電池板接收太陽能發(fā)電經(jīng)DC/DC變換器接入直流母線,電能主要用于EV充電。儲能系統(tǒng)由電池組構(gòu)成,通過雙向DC/DC變換器接入直流母線。當(dāng)光伏系統(tǒng)發(fā)電有剩余時,其儲存電能;當(dāng)光伏發(fā)電不足時,其釋放電能。AC/DC模塊為配電網(wǎng)系統(tǒng)與能源站的連接單元,當(dāng)能源站內(nèi)部電能不能滿足充電需求時由配電網(wǎng)經(jīng)AC/DC接入充電負(fù)荷。
針對充光儲一體化能源站,考慮能源站光伏消納能力與EV用戶利益,可以建立EV充電調(diào)度模型如下:
(1)
(2)
約束條件為:
Smin≤S(t)≤Smax
(3)
(4)
(5)
(6)
(7)
(8)
針對充光儲能源站的EV調(diào)度模型屬于多目標(biāo)多約束優(yōu)化問題,基于規(guī)劃的方法以及啟發(fā)式算法雖然可以進(jìn)行求解,但這些算法均為離線運(yùn)算且面對實(shí)際交通拓?fù)渚W(wǎng)絡(luò)運(yùn)算耗時較長。同時,不同日期下天氣條件、用戶充電需求等均存在較大差異,模型均需要重新求解,耗時較長且難以實(shí)現(xiàn)在線實(shí)時調(diào)度。
DRL是一種結(jié)合深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力的人工智能算法。通過智能體不斷與環(huán)境進(jìn)行交互,并采取一定的動作使得累計獎勵最大化[17—18]。智能體本質(zhì)上是一個狀態(tài)空間到動作空間的映射關(guān)系。強(qiáng)化學(xué)習(xí)算法以馬爾科夫過程(Markov decision process,MDP)為數(shù)學(xué)基礎(chǔ),即環(huán)境下一時刻狀態(tài)僅與當(dāng)前狀態(tài)有關(guān),與前序狀態(tài)無關(guān)。
強(qiáng)化學(xué)習(xí)算法采用狀態(tài)-動作值函數(shù)Qπ(s,a)來評價狀態(tài)s時采取動作a的好壞,Q函數(shù)的貝爾曼方程可表示為:
(9)
式中:r(s,a,s′)為智能體采取動作a,狀態(tài)s轉(zhuǎn)變?yōu)閟′對應(yīng)的即時獎勵;π為智能體在當(dāng)前狀態(tài)s下決定下一動作a的策略函數(shù);E為數(shù)學(xué)期望;γ∈[0,1],為折扣率,γ接近于0時,智能體更在意短期回報,γ接近于1時,智能體更在意長期回報。
在傳統(tǒng)Q學(xué)習(xí)過程中,狀態(tài)-動作-Q值以表格的實(shí)行進(jìn)行記錄,智能體在狀態(tài)s下查找Q表并采取最大Q值對應(yīng)的動作a*。然而,實(shí)際問題中狀態(tài)空間及動作空間往往很大,Q學(xué)習(xí)方法難以實(shí)踐。在Q學(xué)習(xí)框架基礎(chǔ)上,深度Q網(wǎng)絡(luò)(deepQnetwork,DQN)以深度神經(jīng)網(wǎng)絡(luò)代替Q表進(jìn)行函數(shù)逼近[19],擬合狀態(tài)-動作與Q值的映射關(guān)系,其貝爾曼迭代方程可表示為:
(10)
式中:α∈[0,1],為學(xué)習(xí)率;θ+為評價網(wǎng)絡(luò)參數(shù);θ-為目標(biāo)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)過程中,評價網(wǎng)絡(luò)每隔一定回合數(shù)將參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò),通過2個網(wǎng)絡(luò)的配合以提高算法穩(wěn)定性。
EV用戶在充電過程中不僅僅追求預(yù)期效用的最大化,也會受限于認(rèn)知水平及主觀心理情緒等因素的影響,因此很難選擇出全局最優(yōu)或個人利益最大的充電選擇方案。事實(shí)上,個體往往尋求決策后的正面情緒,從而規(guī)避決策可能帶來的負(fù)面情緒。為此,文中引入后悔理論建立人類行為決策心理模型,刻畫用戶在EV充電調(diào)度過程中的心理狀態(tài),作為DRL智能體“人-車-站”環(huán)境狀態(tài)感知的一部分。
后悔理論最早由Bell提出,其將后悔描述為一件給定事件的結(jié)果或狀態(tài)與他將要選擇的狀態(tài)進(jìn)行比較所產(chǎn)生的情緒[19]。依據(jù)人類在離散事件選擇中的后悔規(guī)避心理,當(dāng)所選方案優(yōu)于備選方案時,決策者會感到欣喜,反之則會感到后悔。因此,決策者個體更傾向于選擇預(yù)期后悔最小的方案。后悔理論通過式(11)量化決策者在選擇過程中對所選方案與備選方案的感知效應(yīng)[20]:
(11)
式中:Ui為選擇方案i的隨機(jī)效用值;Fi為選擇方案i的可確定效用值;xj,k為隨機(jī)效應(yīng)誤差;Ns為總方案個數(shù),即能源站個數(shù);Na為總屬性因素個數(shù);xj,k為j方案在屬性k上的取值;ξk為屬性k的估計參數(shù),反應(yīng)決策者對該屬性的偏重;σi為隨機(jī)效用值。當(dāng)σi服從獨(dú)立同分布式時,決策者選擇方案i的概率可表述為:
(12)
可見,后悔理論的實(shí)質(zhì)是通過比較不同方案效用差xj,k-xi,k,模擬人類在多方案選擇中的思維過程,最終按照一定概率做出方案選擇。文中基于后悔理論將EV用戶參與調(diào)度總時間與總費(fèi)用作為2個屬性,將所有能源站作為方案集,通過計算用戶對各方案的效用值Ui作為智能體對環(huán)境狀態(tài)感知的一部分,其具體模型如式(13)所示。
(13)
式中:ξ1,ξ2分別為用戶對時間與費(fèi)用偏重;Tsche,i為用戶選擇能源站i的總時間,包括路程時間、等待時間與充電時間;Csche,i為用戶選擇能源站i的費(fèi)用,包括充電費(fèi)用與服務(wù)費(fèi)用,其計算公式詳見文獻(xiàn)[21]。
針對能源站的EV充電調(diào)度問題每一個時刻的狀態(tài)僅與前一時刻狀態(tài)及智能體動作有關(guān),符合馬爾科夫決策過程,因此,文中采用DQN方法建立EV充電調(diào)度模型,利用智能體進(jìn)行“人-車-站”多主體狀態(tài)感知,通過不斷地探索與利用,建立狀態(tài)-動作與Q值的映射關(guān)系,實(shí)現(xiàn)EV實(shí)時調(diào)度。模型中對狀態(tài)、動作及獎勵的定義如下。
(1)狀態(tài)。為實(shí)現(xiàn)智能體對環(huán)境狀態(tài)的有效感知,文中定義環(huán)境狀態(tài)由EV“時-空-能量”狀態(tài)、能源站“充-光-儲”運(yùn)行狀態(tài)及用戶心理狀態(tài)構(gòu)成,因此可建立狀態(tài)st,如式(14)所示。
st=(t,LEV,t,EEV,t,PEV,t,PPV,t+1,EB,t,UU,t)
(14)
式中:t為當(dāng)前時刻;LEV,t為當(dāng)前時刻EV位置;EEV,t為當(dāng)前時刻EV動力電池SOC;PEV,t為當(dāng)前時刻各能源站EV的充電負(fù)荷;PPV,t+1為各能源站t+1時刻光伏出力預(yù)測值;EB,t為當(dāng)前時刻各能源站儲能系統(tǒng)SOC;UU,t為用戶對各備選能源站的感知效用值。
(2)動作。為實(shí)現(xiàn)EV的充電調(diào)度,將目標(biāo)能源站與導(dǎo)航路徑的選擇作為智能體的動作,則t時刻智能體動作at可表示為:
at=(xES,t,xlink,t)xES,t∈D,xlink,t∈L
(15)
式中:xES,t為智能體選擇的能源站;xlink,t為智能體選擇的當(dāng)前道路;D為能源站位置集合;L為與當(dāng)前道路節(jié)點(diǎn)相連的節(jié)點(diǎn)集合。
(3)獎勵。由于調(diào)度過程涉及到途中導(dǎo)航與到站充電,因此可將智能體與環(huán)境交互所得的獎勵分為途中獎勵與到站獎勵。其中,途中獎勵主要考慮用戶方面路程花費(fèi)時間與動力電池能量代價,到站后獎勵由光伏消納功率及用戶在站時間決定。
(16)
由于智能體在學(xué)習(xí)前期缺少歷史樣本,如果采用確定性的貪心策略進(jìn)行動作選擇,容易造成局部收斂甚至不收斂。因此,文中引入時變ε-greedy策略,在前期的學(xué)習(xí)中增大智能體探索能力,在后期的學(xué)習(xí)中有效利用前期歷史樣本進(jìn)行決策,如式(17)所示。
(17)
式中:N為總訓(xùn)練回合數(shù);n為當(dāng)前訓(xùn)練回合數(shù);β為(0,1)隨機(jī)數(shù);ε為比例參數(shù);random為隨機(jī)函數(shù),即從A中隨機(jī)抽取動作;arg max為求解函數(shù)值最大化,即返回使得Q值最大的動作。因此,在訓(xùn)練前期智能體有更大概率是從動作集合A中隨機(jī)選取動作,而在訓(xùn)練中后期,則更有可能選取最優(yōu)動作。同時,時變ε-greedy策略逐步減小ε,可以提高算法的收斂速度。
基于DRL的EV充電調(diào)度實(shí)現(xiàn)框架如圖2所示。該過程可分為以下3個步驟:
圖2 優(yōu)化調(diào)度策略實(shí)現(xiàn)流程Fig.2 Flow chart of optimized scheduling strategy
(1)智能體通過更新時間、EV位置及動力電池SOC獲取車輛狀態(tài),更新各能源站運(yùn)行狀態(tài)并預(yù)測下一時刻光伏出力,通過后悔理論感知EV用戶的心理狀態(tài),得到當(dāng)前時刻環(huán)境狀態(tài)st。
(2)智能體將感知到的環(huán)境狀態(tài)輸入深度神經(jīng)網(wǎng)絡(luò),得到各備選動作的Q值,通過時變ε-greedy策略選擇動作at。
(3)智能體執(zhí)行所選動作,重復(fù)上述步驟直至車輛抵達(dá)所選能源站。
為驗(yàn)證文中所提策略的有效性與實(shí)用性,選取南京市部分區(qū)域,范圍為經(jīng)度(東經(jīng))118.735 152~118.784 076,緯度(北緯)32.059 057~32.092 003作為算例路網(wǎng)。同時,選取該區(qū)域已經(jīng)投入運(yùn)營的15 座能源站,假設(shè)該區(qū)域能源站均配置了光伏發(fā)電及儲能系統(tǒng),且站內(nèi)充電樁均為快充,具體配置詳見表1。
表1 能源站基本參數(shù)表Table 1 Basic parameters of energy station
根據(jù)文獻(xiàn)[22]EV出行規(guī)律,文中在該區(qū)域一天中引入1 000 輛EV,設(shè)EV動力電池容量為40 kW·h,并設(shè)初始SOC服從對數(shù)均值為3.2,對數(shù)標(biāo)準(zhǔn)差為0.48的對數(shù)正態(tài)分布??紤]電池充放電深度對其壽命的影響,取EV結(jié)束充電時的終止SOC均為90%。
設(shè)置DQN算法中智能體學(xué)習(xí)率α=0.85,獎勵折扣率γ=0.85,ε-greedy策略中ε初值為0.5,每回合遞減7.5×10-4直至為0,Q網(wǎng)絡(luò)采用150×120全連接神經(jīng)網(wǎng)絡(luò)??傆?xùn)練回合數(shù)設(shè)置為4 000 次,可得訓(xùn)練過程中智能體訓(xùn)練過程中平均獎勵值如圖3所示。
圖3 訓(xùn)練過程獎勵值Fig.3 Reward value of training process
由圖3可知,在訓(xùn)練前期智能體每回合獎勵呈現(xiàn)一個明顯的上升階段,并在500 回合左右實(shí)現(xiàn)收斂,獎勵值穩(wěn)定于10.44。這是因?yàn)棣?greedy策略的存在,使得智能體在前期能夠不斷探索環(huán)境,而當(dāng)n=500時,(N-n)ε/N=0.11,表明500 回合之后智能體更大概率是根據(jù)當(dāng)前學(xué)習(xí)到的歷史經(jīng)驗(yàn)進(jìn)行動作選擇。由于每一回合中EV初始時空分布存在差異,且光伏出力存在一定波動,所以智能體所得獎勵存在一定波動,但訓(xùn)練后期平均獎勵明顯高于訓(xùn)練前期,表明智能體已擬合狀態(tài)-動作與Q值的映射關(guān)系,并能夠進(jìn)行最優(yōu)動作的選取。
為分析所提DRL算法泛化能力,考慮能源站日常運(yùn)行狀態(tài),設(shè)置晴天、突變天氣及陰雨天光伏出力如圖4所示,其中紅色寬帶為光伏出力概率區(qū)間。設(shè)置訓(xùn)練1~1 000 回合對應(yīng)晴天,1 001~2 000 回合對應(yīng)突變天氣,2 001~3 000 回合對應(yīng)陰雨天氣,可得訓(xùn)練獎勵如圖4所示。
圖4 考慮泛化能力的訓(xùn)練獎勵Fig.4 Training reward considering generalization ability
由圖4可知,不同天氣類型對智能體所獲得獎勵值有較大影響,3種天氣下智能體平均獎勵分別為9.95,9.38,7.23,特別地,陰雨天氣獎勵值較晴天降低27.34%。這是由于智能體的到站獎勵與區(qū)域內(nèi)能源站平均光伏消納功率有較大關(guān)系,雖然陰雨天氣智能體所得獎勵較晴天更低,但此時智能體已經(jīng)實(shí)現(xiàn)了最優(yōu)策略的學(xué)習(xí)。同時,觀察算法收斂速度可見,所提DQN方法在前2種場景下分別在400與200回合達(dá)到穩(wěn)定,而在第3種場景下訓(xùn)練約80回合即實(shí)現(xiàn)收斂,表明智能體能夠有效利用前期累積的經(jīng)驗(yàn),當(dāng)環(huán)境狀態(tài)發(fā)生較大改變時,其能夠調(diào)整神經(jīng)網(wǎng)絡(luò)參數(shù)以快速適應(yīng)當(dāng)前環(huán)境狀態(tài)。
進(jìn)一步,在上述3種場景下,EV分別采取無序充電及文中所提DQN方法所得光伏消納率如表2所示。
表2 不同場景光伏消納率Table 2 Objective value of different scheduling scale %
從表2可見,在場景1中,無序充電情況下各能源站平均光伏消納率僅為75.31%,而文中DQN方法只涉及EV用戶對能源站的選擇及導(dǎo)航問題,在時間維度不存在調(diào)度關(guān)系,因此基于DQN方法的光伏消納率也僅提高了6.02%。3種不同場景下文中所提方法平均提高光伏消納率7.94%,其中場景3效果最為明顯,提高11.73%??梢姡岱椒軌蜻m應(yīng)不同場景下的能源站運(yùn)行狀態(tài),有效提高光伏消納水平。
進(jìn)一步地,為了分析所提DQN方法的計算效率以及實(shí)時性,文中將常規(guī)的規(guī)劃方法和啟發(fā)式算法與DQN算法進(jìn)行比較。文中所提EV調(diào)度問題可以采用商業(yè)Cplex求解器以及粒子群優(yōu)化算法(particle swarm optimization,PSO)進(jìn)行求解。為體現(xiàn)算法在實(shí)際應(yīng)用中是實(shí)時性,不同求解方法的單輛EV平均計算耗時如表3所示。
表3 不同算法計算耗時對比Table 3 Comparison of computation time of different algorithms s
由表3可知,訓(xùn)練好的DQN模型在計算速度上具有較大優(yōu)勢。PSO通過粒子群逐步迭代尋優(yōu),計算結(jié)果可能收斂于局部最優(yōu)。同時,每次求解重復(fù)迭代直至收斂的過程,使得PSO的決策時間較長。當(dāng)環(huán)境狀態(tài)發(fā)生改變時,傳統(tǒng)的優(yōu)化算法均需要重新進(jìn)行優(yōu)化求解,而DQN模型只需將當(dāng)前時刻的環(huán)境狀態(tài)作為輸入,通過訓(xùn)練好的網(wǎng)絡(luò)即可得到EV的動作輸出,能夠在毫秒級完成調(diào)度策略的制定,滿足實(shí)時調(diào)度的需求。
上述智能體訓(xùn)練過程中,后悔理論中EV用戶對時間成本與費(fèi)用成本的感知系數(shù)均為0.5。為探究人類非理性狀態(tài)感知對智能體決策的影響,分別定義2種非理性人:非理性人1更在意費(fèi)用成本(ξ1=0.2,ξ2=0.8);非理性人2更在意時間成本(ξ1=0.8,ξ2=0.2),分別與最短路徑法導(dǎo)航結(jié)果相比較,圖5給出了不同非理性人在同一起訖點(diǎn)時模型所推薦的導(dǎo)航路徑。
由圖5可知,針對2種非理性人,智能體共選取出7 條路線,其中均包含了最短路徑。對于非理性人1,智能體共推薦出行駛路線5 條,平均路程4.37 km,平均行駛時間8.54 min。對于非理性人2,智能體共推薦路線7 條,平均路程4.62 km,較前者增長5.72%,平均行駛時間8.61 min,較前者增加0.82%。通過對比可知,若用戶表現(xiàn)出更在意時間成本,智能體則會更傾向于具有探索精神,以極小的時間代價,進(jìn)而探索可能的最佳路線。可見,由于不同行為人在后悔理論中對各因素感知權(quán)重不同,智能體能夠通過狀態(tài)感知獲取st,并在訓(xùn)練過程中不斷學(xué)習(xí)與調(diào)整Q網(wǎng)絡(luò)參數(shù)與映射關(guān)系,實(shí)現(xiàn)考慮用戶異質(zhì)性的EV充電導(dǎo)航與調(diào)度。
圖5 不同情況下導(dǎo)航路徑Fig.5 Navigation path in different situations
最后,為探究不同非理性人心理狀態(tài)對智能體調(diào)度策略的影響,分別設(shè)用戶的費(fèi)用感知偏重ξ2=0.1,0.2,…,0.9(時間感知偏重ξ1=0.9,0.8,…,0.1),可得基于DRL方法的用戶平均時間與費(fèi)用變化曲線如圖6所示。
圖6 不同感知偏重對用戶影響Fig.6 The impact of different perception bias on users
由圖6可知,隨著用戶費(fèi)用感知系數(shù)的增大,用戶平均費(fèi)用逐漸減小,平均用時逐漸增大。特別地,當(dāng)ξ2=0.1,即用戶特別在意時間成本時,此時平均耗時35.44 min,平均費(fèi)用50.06 元;當(dāng)ξ2=0.9,即用戶特別在意費(fèi)用時,平均耗時45.01 min,較前者增加了27%,而平均費(fèi)用44.16 元,較前者降低了11.79%。由時間與費(fèi)用變化趨勢可以看出,不同特質(zhì)車主對于充電所用時間與費(fèi)用的預(yù)期存在一定差異,當(dāng)費(fèi)用感知系數(shù)每增加0.1時,用戶費(fèi)用平均降低1.55%,而時間感知系數(shù)每增加0.1時,用戶時間平均降低2.93%??梢?,EV用戶對于充電過程所用時間感知更為敏感。
針對能源站EV充電導(dǎo)航與調(diào)度問題,提出基于DRL方法的調(diào)度策略。算例從多角度分析了優(yōu)化調(diào)度策略,得到如下結(jié)論:(1)DQN方法中智能體對EV狀態(tài)、能源站運(yùn)行狀態(tài)以及用戶心理狀態(tài)進(jìn)行全狀態(tài)感知,通過學(xué)習(xí)狀態(tài)-動作與Q值的映射關(guān)系能夠有效進(jìn)行充電調(diào)度。(2)在晴天與陰雨天等能源站常見運(yùn)行場景下,所提方法均能夠兼顧用戶心理感知進(jìn)行調(diào)度,同時有效提高了能源站光伏利用率,具有較強(qiáng)的實(shí)用性與泛化能力。(3)不同行為人對時間與費(fèi)用的感知效用會影響智能體狀態(tài)感知與策略參數(shù),進(jìn)而影響所提方法對其的導(dǎo)航與調(diào)度策略。
盡管如此,限于篇幅文中并未分析DQN算法參數(shù)對調(diào)度策略的影響,在下一步的工作中DQN算法參數(shù)的選擇可以繼續(xù)完善。此外,基于用戶感知異質(zhì)性的研究,可以進(jìn)一步改進(jìn)所提策略。