張延宇,饒新朋,周書奎,周 毅
基于深度強化學習的電動汽車充電調度算法研究進展
張延宇1,饒新朋1,周書奎1,周 毅2
(1.河南大學人工智能學院,河南 鄭州 450046;2.河南省車聯網協同技術國際聯合實驗室(河南大學),河南 鄭州 450046)
對電動汽車的充電過程進行優(yōu)化調度有利于電網安全穩(wěn)定運行,提升道路通行效率,提高可再生能源利用率,減少用戶充電時間和充電費用。深度強化學習可以有效解決電動汽車充電優(yōu)化調度面臨的隨機性和不確定性因素的影響。首先,概述了深度強化學習的工作原理,對比分析了不同種類強化學習的特點和應用場合。然后,從靜態(tài)充電調度和動態(tài)充電調度兩方面綜述了基于深度強化學習的電動汽車充電調度算法研究成果,分析了現有研究的不足。最后,展望了該領域未來的研究方向。
智能電網;電動汽車;深度強化學習;充電調度
近年來,為應對氣候變化、推動綠色能源發(fā)展,且隨著技術的成熟,電動汽車(Electric Vehicle, EV)市場占有率迅速增長。2020年11月,國務院辦公廳正式發(fā)布《新能源汽車產業(yè)發(fā)展規(guī)劃(2021—2035年)》,提出以電動汽車為代表的新能源汽車應融合互聯網、人工智能等變革性技術,從單純交通工具向移動智能終端、儲能單元轉變;加強新能源汽車與電網能量互動以及與可再生能源高效協同發(fā)展;推動新能源汽車與能源、信息產業(yè)的深度融合[1]。
盡管電動汽車優(yōu)點顯著,但大量電動汽車無序充電不僅影響電網的安全穩(wěn)定運行,還會影響道路通行效率,并最終損害電動汽車用戶的使用體驗[2]。因此,設計合理的充電調度策略,對電動汽車的充電過程進行協同控制十分必要。根據應用場景的不同,充電調度可分為靜態(tài)充電調度和動態(tài)充電調度。靜態(tài)充電調度策略通過協調處于泊車狀態(tài)的電動汽車的充/放電行為,從而在滿足用戶出行需求的前提下,實現形式多樣的優(yōu)化目標,比如最小化充電費用、最大化可再生能源利用率及最小化充電時間等。動態(tài)充電調度策略(充電導航)對行駛中有充電需求的電動汽車進行充電路徑規(guī)劃,將其誘導至合適的充電站進行充電,從而減少電動汽車總充電時間,緩解充電站電網負荷壓力[3]。通常情況下,充電過程中不同利益相關方的優(yōu)化調度目標并不完全一致,需要綜合考慮。同時,優(yōu)化調度算法需要考慮眾多不確定性因素的影響,如動態(tài)電價、可再生能源出力的波動、用戶出行需求的不確定性及道路通行狀況等。因此,在高度不確定性的環(huán)境下實現電動汽車充電的優(yōu)化調度是一個十分有意義同時又充滿挑戰(zhàn)性的研究方向。
傳統的靜態(tài)調度策略主要有基于動態(tài)規(guī)劃的方法[4-5]、基于日前調度的方法[6-8]和基于模型的實時調度方法[9-11]。在具有不確定性的環(huán)境下,利用動態(tài)規(guī)劃方法難以獲得最優(yōu)充電策略。為此,研究人員提出了基于日前調度的方法,利用魯棒優(yōu)化或隨機優(yōu)化來最小化日前調度場景中不確定性因素對電動汽車優(yōu)化調度結果的影響,但迭代計算消耗資源嚴重,且難以滿足實時性要求。實時充電控制是保證電動汽車高效運行的關鍵,基于模型的實時調度策略為動態(tài)充電需求和分時電價下的電動汽車充電控制提供了實時框架,保證了用戶在實時場景下的充電需求。傳統的電動汽車動態(tài)充電優(yōu)化算法主要是基于Dijkstra等最短路徑算法[12-14]和仿生學算法[15-16],并融合實時電網狀態(tài)和交通信息的電動汽車路徑規(guī)劃策略。然而,基于模型的調度方法需要具備建立模型的先驗知識,并且系統性能嚴重依賴于系統模型參數。上述分析表明,不確定性因素的處理是電動汽車充電調度中的難點之一。
深度強化學習(Deep Reinforcement Learning, DRL)在處理不確定性因素上具有獨特優(yōu)勢。近年來,基于DRL的電動汽車充電優(yōu)化調度算法得到了越來越多的關注。電動汽車充電優(yōu)化調度的本質是在多種不確定因素影響下對電動汽車充/放電狀態(tài)的時序進行優(yōu)化,DRL是解決這類序列決策問題的有效方法。智能體通過周期性地觀察環(huán)境,做出動作,并獲得獎勵值,然后根據獎勵值自動調整策略以尋找最優(yōu)充電調度策略。
一些文獻對強化學習在電力系統中的應用進行了初步的總結和歸納。文獻[17]將強化學習在電動汽車充電中的應用研究分為住宅充電、集中式日前調度、分布式電動汽車充電協調和實時充電調度。文獻[18]則專注于電力系統能源管理、需求響應、電力市場和運行控制4個方面。與這些研究不同,本文專注于基于DRL的電動汽車充電優(yōu)化調度算法,分別從DRL算法和電動汽車充電優(yōu)化調度場景兩個維度對現有研究成果進行分類研究,總結已經取得的成果,分析存在的問題,探討該領域未來的研究方向。
圖1 強化學習原理圖
深度強化學習采用神經網絡來感知目標觀測信息并提供當前環(huán)境中的狀態(tài)信息,將當前狀態(tài)映射為相應的動作,然后基于預期回報評估值做出決策。按照算法學習結果的不同,深度強化學習可以分為基于價值的DRL算法和基于策略的DRL算法兩大類。前者通過狀態(tài)或動作的價值函數表示達到某種狀態(tài)或執(zhí)行某個動作后可以得到的回報,智能體傾向于選擇價值最大的狀態(tài)或動作,通過學習獲得最優(yōu)價值函數,再根據最優(yōu)價值函數來做決策,選出最好的動作;而后者不需要定義價值函數,它為動作定義了概率分布,智能體按照概率分布來選取要執(zhí)行的動作[19],學習后得到最優(yōu)策略函數,然后直接用得到的策略函數計算所有動作的概率值,并隨機抽樣選出一個動作并執(zhí)行。這兩類算法對比如表1所示。
表1 基于價值的強化學習與基于策略的強化學習對比
深度Q網絡(Deep Q Network, DQN)[22]是第一個深度強化學習算法,是一種典型的基于價值的DRL算法,得到了廣泛應用。以此為基礎,人們深入研究了DQN,形成了一系列改進的DQN算法,如解決過估計問題的Double DQN[29],帶有優(yōu)先經驗回放、可高效學習的Prioritized Replay DQN[30],將環(huán)境價值和動作價值解耦的Dueling DQN[31]等。
基于策略的DRL算法在處理具有連續(xù)動作空間的任務時,比基于價值的DRL算法更加高效。目前最流行的基于策略的DRL算法是深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG),該算法結合了DQN算法和演員-評論家(Actor-Critic, AC)算法的優(yōu)點,能夠高效地解決連續(xù)動作空間的任務,并成功應用于電動汽車充電調度等領域。
如前所述,根據電動汽車的行駛狀態(tài),電動汽車充電調度可分為靜態(tài)充電調度和動態(tài)充電調度(充電導航)。兩種場景都可以使用基于價值和基于策略的深度強化學習調度方法。表2從算法、狀態(tài)、獎勵和約束條件4個方面對比分析了基于DRL的電動汽車充電調度算法。
2.1.1基于值函數的EV靜態(tài)充電調度算法
在靜態(tài)充電調度場景中,實現電動汽車用戶充電成本最小化是主要優(yōu)化目標。由表2可知,在靜態(tài)充電調度中目前主要采用基于值函數的強化學習算法,如Q-learning算法、DQN算法及其各種改進DQN算法等。文獻[32]對充電功率和電價進行了離散化,采用Q-learning算法構建一個Q表來近似最優(yōu)動作價值函數,以找到最優(yōu)充電計劃。文獻[33]利用基于集合狀態(tài)空間的Q學習獲得了調度策略;通過在真實電價數據上進行驗證,展示了該調度模式在節(jié)約成本方面的優(yōu)勢。文獻[34]采用實時在線強化學習算法Sarsa優(yōu)化充電調度過程和定價策略,使公共電動汽車充電站的系統目標最大化。為了降低電動汽車電池充電的長期成本,文獻[35]提出了一種批量強化學習算法,從一批過渡樣本中學習降低充電成本的最優(yōu)充電策略,結果表明EV用戶可以節(jié)省10%~50%的充電成本。然而,上述強化學習方法只適應于離散的動作空間,存在“維度爆炸”問題,不適合具有大量動作和狀態(tài)的應用場景。
深度強化學習算法采用深度神經網絡來近似Q表格,有效地解決了上述維度爆炸問題,在電動汽車充電調度中得到了廣泛應用。文獻[36]將充電調度問題描述為一個轉移概率未知的馬爾可夫決策過程,提出了一種基于深度強化學習的無模型方法來確定該問題的最優(yōu)策略;采用一個長短時記憶(Long Short-Term Memory, LSTM)網絡提取電價特征,利用一個Q網絡逼近最優(yōu)動作價值函數,自適應地學習轉移概率,不需要任何系統模型信息。
為確保電動汽車離開充電站時滿足所需電量,上述基于傳統DQN的方法嚴重依賴懲罰項的設計和懲罰系數的選擇,該過程相當繁瑣,并且主觀性強。為了避免手動選擇獎懲系數引起的誤差,文獻[37]對DQN進行了改進,提出了安全深度強化學習(Safe Deep Reinforcement Learning, SDRL),通過深度神經網絡直接學習電動汽車的原始狀態(tài)信息和電價信息,生成受約束的最優(yōu)充電/放電時間表,從而保證電動汽車離開充電站時滿足用戶電量需求,并最小化充電成本。與現有的DRL方法不同,文獻[37]所提出的方法可以直接處理約束,并且不需要為約束設計懲罰項和選擇懲罰系數。
上述所提強化學習方法基本能夠滿足實時在線應用的要求,但控制動作僅考慮了電動汽車是否充電,有待綜合考慮配電網其他控制動作以及深度強化學習的回報激勵模型,從而進一步提高強化學習的實用價值。針對在用電高峰時段給電動汽車集群充電可能會使配電網中變壓器過載的問題,文獻[38]提出了一種多智能體自私協作架構(Multi-Agent Selfish COllaborative architecture, MASCO),它是一種多智能體多目標強化學習體系結構,能夠最小化充電成本和避免變壓器過負載。文獻[39]將無模型的深度Q學習與基于物理機理的電動汽車充放電特性模型深度融合,建立了以最小化功率波動和充電費用為目標的實時調度模型;但設計的模型比較簡單,僅探討了微電網內功率發(fā)生小范圍波動場景下的實時調度策略,且沒有慮及電網約束??紤]配電網中電動汽車的空間分布與網絡約束以及應對大場景變化的實時調度策略將是靜態(tài)充電調度問題下一步研究的重點和方向。
表2 基于DRL的EV充電調度文獻
2.1.2基于策略梯度的EV靜態(tài)充電調度算法
對于具有連續(xù)動作空間的任務,例如電動汽車充電功率連續(xù)控制,DQN的性能受限,因其僅估計離散動作空間中的Q值。而基于AC架構的策略梯度強化學習算法在解決連續(xù)動作問題方面表現出了更大的潛力,在電動汽車實時連續(xù)充/放電控制任務方面上表現出了更好的性能。
AC算法在電動汽車靜態(tài)充電調度中得到了廣泛應用。為了減少車隊充電費用和削減充電峰值負荷,文獻[40]提出了一種基于AC學習的智能充電算法,并在此基礎上通過降低狀態(tài)維數提出了一個計算效率更高的CALC (Customized Actor-critic Learning Charging)算法。與文獻[40]不同,文獻[41]考慮了可再生能源的影響,提出了一種無模型的SAC+NMT (Soft-Actor-Critic+ Nodal Multi-Target)方法,通過充分利用波動的光伏輸出和電價來最小化充電成本。在充電調度過程中,用戶的動態(tài)行為也是一個值得關注的因素。為此,文獻[42]引入了集合焦慮的概念,用以描述駕駛員對電動汽車行駛里程和不確定事件的焦慮程度,并提出了一種基于連續(xù)SAC框架的強化學習充電控制方法,以平衡充電成本和司機的焦慮度。與這些基于單智能體AC算法的調度算法不同,文獻[43]提出了一種新的基于多智能體AC算法的調度算法,對配置有光伏系統和儲能系統的分布式充電站進行能量管理,實現多個充電站之間的協作運行;該方法能夠以分布式計算的方式獲得多個充電站的調度方案,同時能夠處理與儲能系統和電動汽車相關的動態(tài)數據,從而有效減少充電站的運行費用。
AC算法存在收斂速度較慢的缺點,為此,研究人員提出了融合AC與DQN優(yōu)勢的DDPG算法,該算法在電動汽車靜態(tài)充電調度中得到廣泛應用。文獻[44]在AC的基礎上引入深度神經網絡,提出了一種新的深度強化學習(DDPG)方法,解決了電動汽車充電問題,將深度確定性策略梯度與優(yōu)先經驗重放(Prioritized Experience Replay)策略相結合,并將問題建立在多維連續(xù)狀態(tài)和動作空間中,實驗結果表明所提算法優(yōu)于深度Q學習方法。文獻[45]提出了一種配電網中的最優(yōu)電動汽車充電策略,在滿足物理約束的同時,使配電系統運營商的利潤最大化,并通過馬爾可夫決策過程模型來描述不確定性的時間序列,然后利用基于DDPG的強化學習技術來分析不確定性對充電策略的影響,并通過仿真的方法驗證了算法的有效性。文獻[46]將DDPG與改進的LSTM網絡相結合,采用改進的LSTM神經網絡作為表示層,從電價信號中提取時間特征,利用具有連續(xù)動作空間的DDPG算法求解電動汽車最優(yōu)充電序列;該方法可以根據電價自動調整充電策略,降低電動汽車用戶的充電成本。文獻[47]提出了一種改進的CDDPG (Control Deep Deterministic Policy Gradient)算法來學習電動汽車的最優(yōu)充電控制策略,從而在滿足用戶對電池能量需求的前提下,最小化電動汽車用戶的充電費用。文獻[44-47]仿真結果均表明基于DDPG的方法在滿足用戶對電池能量需求和降低充電成本方面優(yōu)于傳統的基于DQN的方法。
針對強化學習方法動作空間離散、訓練收斂困難、穩(wěn)定性差,并且充電調度算法未考慮充電樁效率隨充電功率變化的問題,文獻[48]利用雙延遲深度確定性策略梯度算法(Twin Delay Deep Deterministic policy gradient, TD3)對單輛電動汽車功率連續(xù)可調充電過程進行建模,控制充電功率,優(yōu)化電動汽車充電行為。相較于傳統的優(yōu)化控制方法,TD3在速度和靈活性上具有明顯優(yōu)勢。通過對訓練得到的智能體進行分布式部署,該方法實現了對集群電動汽車充電行為的高速實時分布式優(yōu)化。
考慮到分時電價與電網實際峰值出現時段可能存在偏差,集群電動汽車的充放電仍然有可能造成電網“峰上加峰”情況。若供應商能根據電網狀態(tài),制定實時的功率調節(jié)信號進一步對智能體充電行為進行引導,將會有效解決這一問題。如何依據各電動汽車與電網的實時狀態(tài)信息為智能體制定有效的調節(jié)信號,有待進一步研究。
電動汽車動態(tài)充電調度算法的優(yōu)化目標多種多樣,比如最小化行駛路線距離、行駛時間、行駛能耗及充電費用,或者同時考慮這些因素的綜合目標,深度強化學習在該領域的應用也越來越廣泛。
2.2.1基于值函數的EV動態(tài)充電調度算法
Q-learning、DQN等基于值函數的深度強化學習算法在電動汽車動態(tài)充電調度中依舊得到了廣泛應用。文獻[49]利用深度Q學習算法解決充電路徑規(guī)劃問題,以最小化電動汽車的總充電時間和最大限度地減少出發(fā)地到目的地的距離為目標,在真實數據集上的實驗結果表明,該算法能顯著縮短電動汽車的充電時間和行駛總里程;文獻[50]提出了一種基于深度Q學習的電動汽車充電導航方法,旨在使電動汽車到達充電站的總行駛時間和充電成本最小化。文獻[51]考慮了充電許可和電價波動,利用基于深度Q學習的調度算法最大限度地減少電動汽車包含時間成本和充電費用的總開銷,但并未考慮實時交通的復雜性和充電站實時狀態(tài)的多變性。
智能電網和智能交通系統的協同運行為電動汽車用戶提供了豐富的電網和交通網數據,可用于電動汽車充電導航。針對不規(guī)律的電動汽車快速充電請求、高維且不規(guī)則的環(huán)境特征,文獻[52]提出了一種基于圖強化學習的快速充電站推薦方法,通過構建逐輛推薦式的強化學習框架,結合圖卷積網絡和強化學習,實現了實時充電站推薦的深度強化學習范式,并通過大量仿真驗證了所提方法在城市路網中應用的可行性。然而,現實世界的充電場景有著更加復雜的不確定性信息。為此,文獻[53]考慮了電動汽車動態(tài)駕駛行為和隨機充電行為的多數據融合特性以及多系統建模的復雜性,提出了一種基于數據驅動和深度Q學習的電動汽車充電導航策略,為車主推薦最優(yōu)充電站,并規(guī)劃最優(yōu)行駛路徑。上述研究表明,綜合考慮車-路-網的融合特性,充分利用電網和路網的運行數據,對大規(guī)模電動汽車的充電行為進行協同優(yōu)化,實現電網和路網的協同高效運行值得進一步研究。
2.2.2基于策略梯度的EV動態(tài)充電調度算法
多智能體強化學習算法在電動汽車動態(tài)充電調度領域逐漸受到重視。為了最小化充電等待時間、充電費用和充電失敗率,文獻[54]提出了一種多智能體時空強化學習(Multi-Agent Spatio-Temporal Reinforcement Learning)框架,開發(fā)了一個帶有集中注意力機制的Critic的多智能體AC框架,以協調推薦不同地理位置的充電站;與9種基線方法相比,所提算法獲得了最佳的綜合性能。與文獻[54]僅考慮充電站優(yōu)化不同,文獻[55]側重于車輛與充電站之間的合作與競爭,提出一種基于多智能體AC算法的分布式充電站車輛調度控制框架e-Divert,通過車輛與充電站之間的合作與競爭實現最大化能效、數據收集率、地理公平性,同時最小化能耗。
然而,與基于值函數的電動汽車動態(tài)充電調度算法相比,利用基于策略梯度的深度強化學習對電動汽車的動態(tài)充電過程進行優(yōu)化的研究還處于起步階段,相關研究成果還很少,有待進一步深入研究。
目前深度強化學習在電動汽車充電調度中的應用可以分為考慮新能源接入電網的充電樁級和充電站級充電調度、融合路網和配電網的綜合充電路徑規(guī)劃以及融合圖神經網絡和強化學習二者優(yōu)勢的電動汽車充電引導算法。通過對現有成果的研究,未來可從以下3個方向深入研究。
1) 考慮新能源接入電網情況下針對充電樁級和充電站級的靜態(tài)充電調度問題。目前的研究大都圍繞分時電價進行調度,以實現電網負荷的“削峰填谷”,并降低運營商或用戶的用電成本。但是在新能源接入電網情況下考慮新能源利用率的研究還較少。如何解決出力的不確定性是新能源接入電網的關鍵問題,傳統基于模型的方法難以建立精確的系統模型,而強化學習在解決隨機不確定因素時具有一定的優(yōu)勢。然而,強化學習方法也具有一定的局限性,例如在考慮新能源利用率時很大程度上依賴于人為設計獎勵函數,如何優(yōu)化獎勵函數,能夠使算法收斂的同時并獲得預期效果尤為關鍵。目前深度學習方法(如循環(huán)神經網絡)已在新能源出力預測領域取得一定成果,如何提高實時預測精度并與強化學習相結合,從而更好地參與配電網的負荷調度,并滿足用戶需求是潛在的研究熱點。
2) 深度融合“車-路-網”信息的電動汽車綜合充電路徑規(guī)劃。隨著電動汽車的不斷普及,未來對深度融合“車-路-網”的多源、異構信息,在高度隨機的環(huán)境下實現集群電動汽車充電路徑的優(yōu)化調度以降低用戶的充電費用,提高路網和電網的運行效率及安全性的研究具有重要意義。多智能體的優(yōu)勢就是合作、博弈,相較于單車調度具有很強的魯棒性和可靠性,并具有較高的問題求解效率。但目前多智能體強化學習算法在電動汽車充電調度中的研究還很少,隨著MADDPG、Q-MIX等多智能體深度強化學習算法應用的不斷成熟,如何將其應用于解決大規(guī)模電動汽車充電調度是未來的重要研究方向之一。
3) 基于圖強化學習的電動汽車充電引導算法。電網與交通網數據均呈現出典型的圖結構,其拓撲中蘊含大量信息,圖神經網絡在處理海量圖結構數據和復雜關聯性問題時具有很大優(yōu)勢,能對不規(guī)則環(huán)境信息進行特征提取,學習圖內包含的知識,對圖中各節(jié)點間的相關性具有強大的建模能力。電動汽車和充電站之間關系密切,電動汽車快速充電站的引導問題本質就是一個推薦問題,正是圖神經網絡的強項之一。未來可將圖神經網絡與強化學習深度結合,圖神經網絡用于提取交通網特征,強化學習進行充電調度決策,從而設計出一套高效的快速充電引導和控制策略,是提高用戶滿意度、確保耦合系統穩(wěn)定運行的重要前提?;诖?,未來圖深度強化學習算法在電動汽車充電調度領域中的應用值得研究人員進一步深入研究。
本文概述了深度強化學習的基本工作原理,對比了不同深度強化學習的特點。從電動汽車靜態(tài)充電調度和動態(tài)充電調度兩個方面綜述了基于深度強化學習的充電調度算法,分析了研究現狀,探討了該領域未來值得進一步研究的方向。總體來說,當前基于深度強化學習的電動汽車充電調度研究處于一個快速發(fā)展階段,值得研究人員進一步深入研究。
[1] 中華人民共和國工業(yè)和信息化部. 新能源汽車產業(yè)發(fā)展規(guī)劃(2021-2035)年[EB/OL]. [2020-12-20]. https:// www.miit.gov.cn/xwdt/szyw/art/2020/art_4390362916324 365a260ed97d7558f18.html.
Ministry of Industry and Information Technology of the People's Republic of China. New energy vehicle industry development plan (2021-2035) [EB/OL]. [2020-12-20]. https://www.miit.gov.cn/xwdt/szyw/art/2020/art_4390362916324365a260ed97d7558f18.html.
[2] 張聰, 許曉慧, 孫海順, 等. 基于自適應遺傳算法的規(guī)?;妱悠囍悄艹潆姴呗匝芯縖J]. 電力系統保護與控制, 2014, 42(14): 19-24.
ZHANG Cong, XU Xiaohui, SUN Haishun, et al. Smart charging strategy of large-scale electric vehicles based on adaptive genetic algorithm[J]. Power System Protection and Control, 2014, 42(14): 19-24.
[3] 邢強, 陳中, 黃學良, 等. 基于數據驅動方式的電動汽車充電需求預測模型[J]. 中國電機工程學報, 2020, 40(12): 3796-3813.
XING Qiang, CHEN Zhong, HUANG Xueliang, et al. Electric vehicle charging demand forecasting model based on data-driven approach[J]. Proceedings of the CSEE, 2020, 40(12): 3796-3813.
[4] ZHANG L, LI Y. Optimal management for parking-lot electric vehicle charging by two-stage approximate dynamic programming[J]. IEEE Transactions on Smart Grid, 2017, 8(4): 1722-1730.
[5] WU J, GAO B, ZHENG Q, et al. Optimal equivalence factor calculation based on dynamic programming for hybrid electric vehicle[C] // 2017 IEEE Chinese Automation Congress (CAC), July 16-20, 2017, Chicago, IL, USA: 6640-6645.
[6] 閻懷東, 馬汝祥, 柳志航, 等. 計及需求響應的電動汽車充電站多時間尺度隨機優(yōu)化調度[J]. 電力系統保護與控制, 2020, 48(11): 71-80.
YAN Huaidong, MA Ruxiang, LIU Zhihang, et al. Multi- time scale stochastic optimal dispatch of electric vehicle charging station considering demand response[J]. Power System Protection and Control, 2020, 48(11): 71-80.
[7] 王錫凡, 邵成成, 王秀麗, 等. 電動汽車充電負荷與調度控制策略綜述[J]. 中國電機工程學報, 2013, 33(1): 1-10.
WANG Xifan, SHAO Chengcheng, WANG Xiuli, et al. Survey of electric vehicle charging load and dispatch control strategies[J]. Proceedings of the CSEE, 2013, 33(1): 1-10.
[8] 陳奎, 馬子龍, 周思宇, 等. 電動汽車兩階段多目標有序充電策略研究[J]. 電力系統保護與控制, 2020, 48(1): 65-72.
CHEN Kui, MA Zilong, ZHOU Siyu, et al. Charging control strategy for electric vehicles based on two-stage multi-target optimization[J]. Power System Protection and Control, 2020, 48(1): 65-72.
[9] 程杉, 楊堃, 魏昭彬, 等. 計及電價優(yōu)化和放電節(jié)制的電動汽車充電站有序充放電調度[J]. 電力系統保護與控制, 2021, 49(11): 1-8.
CHENG Shan, YANG Kun, WEI Zhaobin, et al. Orderly charging and discharging scheduling of an electric vehicle charging station considering price optimization and discharge behavior control[J]. Power System Protection and Control, 2021, 49(11): 1-8.
[10] ZHAO J, WAN C, XU Z, et al. Risk-based day-ahead scheduling of electric vehicle aggregator using information gap decision theory[J]. IEEE Transactions on Smart Grid, 2017, 8(4): 1609-1618.
[11] BINETTI G, DAVOUDI A, NASO D, et al. Scalable real-time electric vehicles charging with discrete charging rates[J]. IEEE Transactions on Smart Grid, 2015, 6(5): 2211-2220.
[12] 邢強, 陳中, 冷釗瑩, 等. 基于實時交通信息的電動汽車路徑規(guī)劃和充電導航策略[J]. 中國電機工程學報, 2020, 40(2): 534-550.
XING Qiang, CHEN Zhong, LENG Zhaoying, et al. Route planning and charging navigation strategy for electric vehicle based on real-time traffic information[J]. Proceedings of the CSEE, 2020, 40(2): 534-550.
[13] 李曉輝, 李磊, 劉偉東, 等. 基于動態(tài)交通信息的電動汽車充電負荷時空分布預測[J]. 電力系統保護與控制, 2020, 48(1): 117-125.
LI Xiaohui, LI Lei, LIU Weidong, et al. Spatial-temporal distribution prediction of charging load for electric vehicles based on dynamic traffic information[J]. Power System Protection and Control, 2020, 48(1): 117-125.
[14] 嚴弈遙, 羅禹貢, 朱陶, 等. 融合電網和交通網信息的電動車輛最優(yōu)充電路徑推薦策略[J]. 中國電機工程學報, 2015, 35(2): 310-318.
YAN Yiyao, LUO Yugong, ZHU Tao, et al. Optimal charging route recommendation method based on transportation and distribution information[J]. Proceedings of the CSEE, 2015, 35(2): 310-318.
[15] 王鑫, 周步祥, 唐浩. 考慮用戶因素的電動汽車有序充放電控制策略[J]. 電力系統保護與控制, 2018, 46(4): 129-137.
WANG Xin, ZHOU Buxiang, TANG Hao. A coordinated charging/discharging strategy for electric vehicles considering customers' factors[J]. Power System Protection and Control, 2018, 46(4): 129-137.
[16] 牛利勇, 張帝, 王曉峰, 等. 基于自適應變異粒子群算法的電動出租車充電引導[J]. 電網技術, 2015, 39(1): 63-68.
NIU Liyong, ZHANG Di, WANG Xiaofeng, et al. An adaptive particle mutation swarm optimization based electric taxi charging guidance[J]. Power System Technology, 2015, 39(1): 63-68.
[17] ABDULLAH H M, GASTLI A, BEN-BRAHIM L. Reinforcement learning based EV charging management systems-a review[J]. IEEE Access, 2021, 9: 41506-41531.
[18] ZHANG Z, ZHANG D, QIU R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2020, 6(1): 213-225.
[19] 肖智清. 強化學習原理與Python實現[M]. 北京: 機械工業(yè)出版社, 2019.
[20] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3-4): 279-292.
[21] SUTTON R S. Generalization in reinforcement learning: successful examples using sparse coarse coding[J]. Advances in Neural Information Processing Systems, 1996, 8: 1038-1044.
[22] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning[J]. arXiv preprint arXiv:1312.5602, 2013.
[23] KONDA V R, TSITSIKLIS J N. Actor-critic algorithms[J]. Advances in Neural Information Processing Systems, 2000, 12: 1008-1014.
[24] BABAEIZADEH M, FROSIO I, TYREE S, et al. GA3C: GPU-based A3C for deep reinforcement learning[J]. CoRR abs/1611.06256, 2016.
[25] SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C] // International Conference on Machine Learning, June 21-26, 2014, Beijing, China: 387-395.
[26] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[J]. arXiv preprint arXiv: 1509.02971, 2015.
[27] FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C] // International Conference on Machine Learning, June 19-24, 2016, New York City, USA: 1587-1596.
[28] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[J]. arXiv preprint arXiv: 1812.05905, 2018.
[29] VAN H H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C] // Proceedings of the AAAI Conference on Artificial Intelligence, February 12-17, 2016, Phoenix, USA: 2094-2100.
[30] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[J]. arXiv preprint arXiv:1511.05952, 2015.
[31] WANG Z, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C] // International conference on machine learning, June 19-24, 2016, New York City, USA: 1995-2003.
[32] WEN Z, O’NEILL D, MAEI H. Optimal demand response using device-based reinforcement learning[J]. IEEE Transactions on Smart Grid, 2015, 6(5): 2312-2324.
[33] WANG S, BI S, ZHANG Y A. Reinforcement learning for real-time pricing and scheduling control in EV charging stations[J]. IEEE Transactions on Industrial Informatics, 2021, 17(2): 849-859.
[34] VANDAEL S, CLAESSENS B, ERNST D, et al. Reinforcement learning of heuristic EV fleet charging in a day-ahead electricity market[J]. IEEE Transactions on Smart Grid, 2015, 6(4): 1795-1805.
[35] CHI? A, LUNDéN J, KOIVUNEN V. Reinforcement learning-based plug-in electric vehicle charging with forecasted price[J]. IEEE Transactions on Vehicular Technology, 2016, 66(5): 3674-3684.
[36] WAN Z, LI H, HE H, et al. Model-free real-time EV charging scheduling based on deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2019, 10(5): 5246-5257.
[37] LI H, WAN Z, HE H. Constrained EV charging scheduling based on safe deep reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2427-2439.
[38] DA SILVA F L, NISHIDA C E H, ROIJERS D M, et al. Coordination of electric vehicle charging through multiagent reinforcement learning[J]. IEEE Transactions on Smart Grid, 2020, 11(3): 2347-2356.
[39] 李航, 李國杰, 汪可友. 基于深度強化學習的電動汽車實時調度策略[J]. 電力系統自動化, 2020, 44(22): 161-167.
LI Hang, LI Guojie, WANG Keyou. Electric vehicle real-time scheduling strategy based on deep reinforcement learning[J]. Automation of Electric Power Systems, 2020, 44(22): 161-167.
[40] CAO Y, WANG H, LI D, et al. Smart online charging algorithm for electric vehicles via customized actor-critic learning[J]. IEEE Internet of Things Journal, 2022, 9(1): 684-694.
[41] JIN J, XU Y. Optimal policy characterization enhanced actor-critic approach for electric vehicle charging scheduling in a power distribution network[J]. IEEE Transactions on Smart Grid, 2021, 12(2): 1416-1428.
[42] YAN L, CHEN X, ZHOU J, et al. Deep reinforcement learning for continuous electric vehicles charging control with dynamic user behaviors[J]. IEEE Transactions on Smart Grid, 2021, 12(6): 5124-5134.
[43] SHIN M J, CHOI D H, KIM J. Cooperative management for PV/ESS-enabled electric vehicle charging stations: a multiagent deep reinforcement learning approach[J]. IEEE Transactions on Industrial Informatics, 2020, 16(5): 3493-3503.
[44] QIU D, YE Y, PAPADASKALOPOULOS D, et al. A deep reinforcement learning method for pricing electric vehicles with discrete charging levels[J]. IEEE Transactions on Industry Applications, 2020, 56(5): 5901-5912.
[45] DING T, ZENG Z, BAI J, et al. Optimal electric vehicle charging strategy with Markov decision process and reinforcement learning technique[J]. IEEE Transactions on Industry Applications, 2020, 56(5): 5811-5823.
[46] LI S, HU W, CAO D, et al. Electric vehicle charging management based on deep reinforcement learning[J]. Journal of Modern Power Systems and Clean Energy, 2022, 10(3): 719-730.
[47] ZHANG F, YANG Q, AN D. CDDPG: a deep reinforcement learning-based approach for electric vehicle charging control[J]. IEEE Internet of Things Journal, 2020, 8(5): 3075-3087.
[48] 趙星宇, 胡俊杰. 集群電動汽車充電行為的深度強化學習優(yōu)化方法[J]. 電網技術, 2021, 45(6): 2319-2327.
ZHAO Xingyu, HU Junjie. Deep reinforcement learning based optimization method for charging of aggregated electric vehicles[J]. Power System Technology, 2021, 45(6): 2319-2327.
[49] ZHANG C, LIU Y, WU F, et al. Effective charging planning based on deep reinforcement learning for electric vehicles[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(1): 542-554.
[50] QIAN T, SHAO C, WANG X, et al. Deep reinforcement learning for EV charging navigation by coordinating smart grid and intelligent transportation system[J]. IEEE Transactions on Smart Grid, 2020, 11(2): 1714-1723.
[51] LIU J, GUO H, XIONG J, et al. Smart and resilient EV charging in SDN-enhanced vehicular edge computing networks[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(1): 217-228.
[52] 袁紅霞, 張俊, 許沛東, 等. 基于圖強化學習的電力交通耦合網絡快速充電需求引導研究[J]. 電網技術, 2021, 45(3): 979-986.
YUAN Hongxia, ZHANG Jun, XU Peidong, et al. Fast charging demand guidance in coupled power- transportation networks based on graph reinforcement learning[J]. Power System Technology, 2021, 45(3): 979-986.
[53] CHEN L, YANG F, WU S, et al. Electric vehicle charging navigation strategy based on data driven and deep reinforcement learning[C] // Proceedings of the 5th International Conference on Control Engineering and Artificial Intelligence, January 14-16, 2021, Sanya, China: 16-23.
[54] ZHANG W, LIU H, WANG F, et al. Intelligent electric vehicle charging recommendation based on multi-agent reinforcement learning[J]. arXiv preprint arXiv: 2102.07359, 2021.
[55] LIU C H, DAI Z, ZHAO Y, et al. Distributed and energy- efficient mobile crowdsensing with charging stations by deep reinforcement learning[J]. IEEE Transactions on Mobile Computing, 2021, 20(1): 130-146.
Research progress of electric vehicle charging scheduling algorithms based on deep reinforcement learning
ZHANG Yanyu1, RAO Xinpeng1, ZHOU Shukui1, ZHOU Yi2
(1. College of Artificial Intelligence, Henan University, Zhengzhou 450046, China; 2. International Joint Laboratory of Collaborative Technology for Internet of Vehicles of Henan Province (Henan University), Zhengzhou 450046, China)
Optimal scheduling of the electric vehicle charging process is beneficial to the safe and stable operation of power grids. It improves road traffic efficiency, facilitates renewable energy utilization, and reduces the charging time and costs for users. Deep reinforcement learning can effectively solve the problems caused by different randomness and uncertainty in the optimal charging scheduling. This paper summarizes the working principle of deep reinforcement learning first, and makes the comparison of the characteristics and applications among different types of reinforcement learning. Then, the research results of deep reinforcement learning for EV charging scheduling are summarized in terms of both static and dynamic charging scheduling, and the shortcomings of existing research are analyzed. Finally, future research directions are discussed.
smart grid; electric vehicles; deep reinforcement learning; charging scheduling
10.19783/j.cnki.pspc.211454
This work is supported by the National Natural Science Foundation of China (No. 62176088).
國家自然科學基金項目資助(62176088);河南省科技攻關項目資助(212102210412)
2021-10-28;
2022-03-12
張延宇(1980—),男,通信作者,博士,副教授,碩士生導師,研究方向為車聯網、能源互聯網;E-mail: zyy@ henu.edu.cn
饒新朋(1997—),男,碩士研究生,研究方向為電動汽車充電調度、深度強化學習;E-mail: xinpengrao@henu.edu.cn
周書奎(1996—),男,碩士研究生,研究方向為機器學習、電動汽車充電調度。E-mail: 104754190912@henu.edu.cn
(編輯 姜新麗)