張 松,王坤羽,楊 蓉,黃 偉
(1.廣西玉柴機器股份有限公司,玉林 537005;2.廣西大學(xué) 機械工程學(xué)院,南寧 530004)
混合動力系統(tǒng)能量管理策略可以大致分為基于規(guī)則的控制策略、基于優(yōu)化的控制策略及基于學(xué)習(xí)的控制策略3類[1]?;谝?guī)則的控制策略因其具有可靠、高效的特點,已廣泛應(yīng)用于實車控制系統(tǒng)中,但其規(guī)則的制定主要依賴于專家經(jīng)驗,面對復(fù)雜多變的行駛工況很難保證規(guī)則的最優(yōu)性[2]?;趦?yōu)化的控制策略可分為全局優(yōu)化策略和實時優(yōu)化策略,常見的全局優(yōu)化策略如動態(tài)規(guī)劃策略(dynamic programming, DP)[3]具有前后統(tǒng)籌性,可以獲得全局最優(yōu)解,但需要預(yù)知行駛工況且計算量龐大,并不適用于實車實時控制,常作為離線對比標準[4]。鑒于此,研究人員提出了實時優(yōu)化策略,如依托于極小值原理的等效燃油消耗最小策略(equivalent consumption minimization strategy, ECMS)[5],通過求解成本函數(shù)的瞬時最優(yōu)解來進行動力分配。相比于DP,ECMS計算量大幅度降低,但相比于規(guī)則控制仍對控制器的算力有較高要求。此外,基于優(yōu)化的控制策略通常需要對連續(xù)型控制變量作離散化處理,使控制變量失去了本身連續(xù)性的優(yōu)勢。綜上,基于規(guī)則的能量管理策略和基于優(yōu)化的能量管理策略存在著高效性、最優(yōu)性、適應(yīng)性不可兼具的問題。
面對上述難題,學(xué)習(xí)型能量管理策略成為最具潛力的解決方案,尤其是基于深度強化學(xué)習(xí)(deep reinforcement learning, DRL)的能量管理策略。深度Q網(wǎng)絡(luò)(deepQ-network, DQN)是首個應(yīng)用于混合動力能量管理的DRL算法,仿真結(jié)果也證明了其控制效果與全局優(yōu)化相當[6]。文獻[7]中將DQN應(yīng)用于串聯(lián)式混合動力構(gòu)型,證明了DRL策略面對不同工況具有很強的適應(yīng)性。但DQN策略只能面向離散控制,為實現(xiàn)DRL策略的連續(xù)控制,文獻[8]中將深度確定性策略梯度(deep deterministic policy gradients, DDPG)引入混合動力能量管理,有效避免了控制變量離散化帶來的離散誤差。文獻[9]中進一步引入遷移學(xué)習(xí),以普銳斯車型的DDPG策略為基礎(chǔ),通過遷移學(xué)習(xí)加速了另外3類車型DDPG算法的收斂速度。然而,廣受研究人員青睞的DQN和DDPG算法均存在價值過高估計、穩(wěn)定性差、調(diào)參困難等缺陷,有必要研究更多先進DRL算法在混合動力能量管理中的應(yīng)用。此外,目前在混合動力公交車上應(yīng)用DRL策略的研究還相對較少,而這類車型具有路線單一、駕駛風(fēng)格固定、每日行駛里程較長等特點,且這些特點都十分利于DRL策略的實施。
本文中將探究先進的DRL算法在混合動力公交車(hybrid electirc bus, HEB)能量管理中的應(yīng)用。針對控制變量的離散控制,采用解決DQN價值高估問題的雙深度Q網(wǎng)絡(luò)(double deepQ-learning, DDQN)算法[10];而針對控制變量的連續(xù)控制,使用相比于DDPG價值估計更準確、穩(wěn)定性更強的雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradients, TD3)算法[11]。同時,為提高DDQN和TD3策略的學(xué)習(xí)效率,用優(yōu)先級經(jīng)驗回放的記憶庫形式對策略進行優(yōu)化。最后,以DP策略作為基準,評估了DDQN和TD3策略的有效性。
某款雙行星排混合動力公交車的主要參數(shù)如表1所示,其構(gòu)型簡圖如圖1所示。該車的動力驅(qū)動系統(tǒng)主要包括柴油機、電池組、電機MG1、電機MG2及雙行星排(P1和P2)。
表1 某型混合動力公交車樣車參數(shù)
圖1 雙行星混合動力系統(tǒng)構(gòu)型
前行星排P1作為功率分流機構(gòu),其太陽輪、行星架分別與MG1、柴油機相連。后行星排P2作為MG2的減速機構(gòu),其齒圈固定在機架上。前行星排P1的齒圈與后行星排P2的行星架相連,最終將動力經(jīng)主減速器傳遞到驅(qū)動輪上。
不計系統(tǒng)內(nèi)部的轉(zhuǎn)動慣量和摩擦損失,根據(jù)柴油機、電機與前后行星排的連接關(guān)系,可推算出雙行星排耦合機構(gòu)輸出轉(zhuǎn)速轉(zhuǎn)矩的關(guān)系,如式(1)、式(2)所示。
(1)
(2)
式中,ωout為輸出軸的轉(zhuǎn)速;Tout為輸出軸的轉(zhuǎn)矩;ωe、ωMG1、ωMG2分別為柴油機、電機MG1、電機MG2的轉(zhuǎn)速;i1、i2分別為前后行星排特征系數(shù);Te、TMG2分別為柴油機、電機MG2的轉(zhuǎn)矩。
采用后向建模,忽略道路坡度,可得整車需求功率Preq,如式(3)所示。
(3)
式中,m為車輛質(zhì)量;δ為質(zhì)量系數(shù);CD為空氣阻力系數(shù);A為迎風(fēng)面積;v(t)為車速;g為重力系數(shù);ζ為滾動阻力系數(shù)。
本文中對柴油機、電機的建模忽略了其復(fù)雜的瞬態(tài)響應(yīng)和物理化學(xué)變化,僅根據(jù)相應(yīng)的臺架試驗數(shù)據(jù)建立準靜態(tài)仿真模型。此外,基于柴油機萬有特性對柴油機的工作點進行了優(yōu)選,即將每個轉(zhuǎn)速下油耗最低的轉(zhuǎn)矩點逐一連線,提取出柴油機最優(yōu)工作曲線,如圖2所示。
圖2 柴油機最優(yōu)工作曲線
在能量管理問題中,電池荷電狀態(tài)(state of charge, SOC)是最重要的狀態(tài)變量之一。基于試驗數(shù)據(jù)建立電池等效Rint模型,其SOC與開路電壓關(guān)系如圖3所示。
圖3 電池電壓隨SOC變化曲線
強化學(xué)習(xí)問題通常以馬爾可夫決策過程(Markov decision process, MDP)為理論框架進行建模[12],MDP包括智能體、環(huán)境兩個要素和S、A、T、r、λ這5個元組。其中,S為狀態(tài)變量集合;A為動作變量集合;T為狀態(tài)轉(zhuǎn)移函數(shù);r為獎勵函數(shù),r(st,at) 表示在狀態(tài)st執(zhí)行at可獲得的立即獎勵;λ∈[0,1),為獎勵折扣因子。在MDP中,智能體與環(huán)境始終處于循環(huán)交互。首先,智能體感知當前狀態(tài)st∈S并從A中選擇at;環(huán)境接收at后,根據(jù)r反饋給智能體立即獎勵rt;最后,環(huán)境根據(jù)T轉(zhuǎn)移到下一狀態(tài)st+1,完成一次交互。同時,智能體會在交互中根據(jù)rt不斷調(diào)整策略函數(shù)π,π(a|s)是從狀態(tài)s∈S映射到動作a∈A的概率分布,是智能體選擇動作的根據(jù)。而智能體的最終目標是尋找最優(yōu)策略π*,使智能體在任意時間步長、任意狀態(tài)都能獲得最大長期累積獎勵Rt,即:
(4)
為尋找π*,許多強化學(xué)習(xí)算法采用行為值函數(shù)Qπ(st,at)也稱Q值來評估策略π的優(yōu)劣,其貝爾曼方程如式(5)所示。
Qπ(st,at)=r(st,at)+λEπ[Qπ(st+1,at+1)]
(5)
式中,Eπ為期望;at+1為下一時刻動作。
混合動力系統(tǒng)DRL能量管理問題轉(zhuǎn)為MDP進行求解,可將整車控制器視為智能體,將整車動力系統(tǒng)和行駛工況視為環(huán)境,而控制器的目標是尋找最優(yōu)控制策略。此外,還需對狀態(tài)、動作及獎勵進行定義。
狀態(tài)定義:綜合考慮整車動力系統(tǒng)、行駛工況及混合動力公交車的特性,本文將歸一化后的加速度、車速、電池荷電狀態(tài)、剩余行駛里程作為狀態(tài)變量。
動作定義:就雙行星排動力耦合系統(tǒng)而言,柴油機與車輪解耦,需同時對柴油機轉(zhuǎn)速、轉(zhuǎn)矩進行控制。為提高模型學(xué)習(xí)效率,減小動作探索空間,僅將柴油機轉(zhuǎn)速作為動作變量,使柴油機運行在上述最優(yōu)工作曲線上[1]。同時,在下文的DDQN策略中,需要對柴油機轉(zhuǎn)速離散化處理,本研究中采用等間隔離散。
獎勵定義:就非插電式混合動力系統(tǒng)而言,其控制目標為在保持SOC的同時使燃油消耗最小化。因此,本文中的獎勵函數(shù)由燃油消耗項和電量波動懲罰項組成。t時刻的立即獎勵RHEB(t)如式(6)所示。
RHEB(t)=αmfuel(t)+β[QSOCref-QSOC(t)]2
(6)
式中,mfuel(t)為t時刻柴油機燃油消耗率;QSOCref為期望SOC;QSOC(t)為t時刻SOC;α為燃油消耗項系數(shù);β為電量波動懲罰項系數(shù)。
MDP中還需加入必要的約束條件,避免柴油機、電機、電池出現(xiàn)不合理的工作點,約束不等式如式(7)所示。
(7)
式中,QSOCmax、QSOCmin分別為電池SOC上下限;Ibatmax、Ibatmin分別為電流上下限;Tmmax、Tmmin分別為電機轉(zhuǎn)矩上下限;Temax為柴油機最大轉(zhuǎn)矩;ωemax、ωemin分別為柴油機轉(zhuǎn)速上下限;ωmmax、ωmmin分別為電機轉(zhuǎn)速上下限。
DDQN是一種以DQN[13]為基礎(chǔ),面向離散動作控制的無模型DRL算法。DDQN在一定程度上緩解了DQN價值高估的問題,提高了算法的穩(wěn)定性。DDQN中使用兩個結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)來近似行為值函數(shù)Qπ(st,at),即通過估計Q網(wǎng)絡(luò)來計算Q值,通過目標Q網(wǎng)絡(luò)來計算目標Q值。其中,估計Q網(wǎng)絡(luò)根據(jù)時序差分誤差(temporal difference error, TD-error)來構(gòu)造損失函數(shù)L(θ),并以最小化L(θ)來更新網(wǎng)絡(luò)權(quán)值θ,如式(8)所示。
(8)
式中,n為訓(xùn)練集樣本量;TDDQNk為k樣本的TD-error;θ′為目標Q網(wǎng)絡(luò)權(quán)值。
而目標Q網(wǎng)絡(luò)采用延遲更新的方法,即每經(jīng)過Tr次迭代,將估計Q網(wǎng)絡(luò)的參數(shù)θ復(fù)制給目標Q網(wǎng)絡(luò)的θ′。
為降低訓(xùn)練樣本間的相關(guān)性,DDQN采用經(jīng)驗回放機制(experience replay, ER),即將MDP中的交互樣本(st,at,rt,st+1)存入經(jīng)驗緩沖區(qū),并通過隨機采樣來獲取訓(xùn)練樣本,但ER并不利于算法的高效學(xué)習(xí)。本文中采用優(yōu)先級經(jīng)驗回放機制(prioritized experience replay, PER),根據(jù)每條樣本的TD-error決定其被采樣的概率,定義j樣本的采集概率P(j)如式(9)所示。
(9)
式中,p為樣本TD-error的絕對值;η∈[0,1],用于調(diào)節(jié)隨機性程度。
為消除因PER中樣本分布不同而造成的模型更新偏差,需要使用重要性采樣方法,在訓(xùn)練樣本前增加更新權(quán)重,定義j樣本的更新權(quán)重?j,如式(10)所示。
?j=(C·P(j))-Ψ/maxi?i
(10)
式中,C為PER中樣本容量;Ψ∈[0,1],為超參數(shù)。
由此建立DDQN能量管理策略,訓(xùn)練代碼流程如下:(1) 初始化估計Q網(wǎng)絡(luò)權(quán)值θ、目標Q網(wǎng)絡(luò)權(quán)值θ′=θ、θ′更新頻率Tr、最大訓(xùn)練步長Emax、最大單次探索步長Smax、訓(xùn)練集樣本量N、PER經(jīng)驗緩沖區(qū)M、貪婪率ε0、折扣因子λ。(2) for循環(huán)(episode =1∶Emax)。(3) 初始化狀態(tài)st。(4) for循環(huán)(step=1∶Smax)。(5) 當隨機概率ε大于ε0時,從A中隨機選擇動作at,否則根據(jù)式(11)選擇at。
(11)
(6) 執(zhí)行at,獲得立即獎勵rt及新狀態(tài)st+1。(7) 將樣本(st,at,rt,st+1)存入M,若為初始樣本,采集概率為1,否則根據(jù)式(9)計算采集概率。(8) 從M中采樣N個訓(xùn)練樣本,并根據(jù)式(10)計算每個樣本的更新權(quán)重?j,j=1,2,…,N。(9) 根據(jù)式(8)計算每個訓(xùn)練樣本的時序差分誤差TDDQNj,j=1,2,…,N,并根據(jù)式(9)更新其在M中的樣本采集概率。(10) 最小化式(12)中的L(θ)來更新Q網(wǎng)絡(luò)權(quán)值。
(12)
(11) 每間隔Tr步更新目標Q網(wǎng)絡(luò)權(quán)值θ′=θ。(12) 將新狀態(tài)轉(zhuǎn)為當前狀態(tài)st=st+1。(13) 判斷終止條件結(jié)束step循環(huán)。(14) 判斷終止條件結(jié)束episode循環(huán)。
TD3是一種以DDPG為基礎(chǔ)并采用演員-評論家(Actor-Critic)框架的連續(xù)控制無模型DRL算法。TD3由Actor部分和Critic部分組成,其中Actor部分用于近似策略函數(shù)π,由Actor網(wǎng)絡(luò)及其目標網(wǎng)絡(luò)組成;而Critic部分用于近似行為值函數(shù)Qπ(st,at),由兩個Critic網(wǎng)絡(luò)及其相對應(yīng)的目標網(wǎng)絡(luò)組成。為減小Actor-Critic的高估偏差,TD3使用截斷雙Q學(xué)習(xí)來構(gòu)造TD-error,并通過最小化損失函數(shù)L(τi)來更新Critic網(wǎng)絡(luò)參數(shù),如式(13)所示。
(13)
(14)
為進一步減小Critic網(wǎng)絡(luò)的更新方差,Actor網(wǎng)絡(luò)的更新頻率要低于Critic網(wǎng)絡(luò),而目標網(wǎng)絡(luò)則采用式(15)延遲軟更新的方式。
(15)
式中,γ為目標網(wǎng)絡(luò)軟更新權(quán)重,通常γ遠小于1以保證目標網(wǎng)絡(luò)權(quán)值變化平緩。
(16)
(11) 每間隔Tr步,根據(jù)式(14)利用策略上升更新Actor網(wǎng)絡(luò)權(quán)值,根據(jù)式(15)更新目標網(wǎng)絡(luò)權(quán)值。(12) 將新狀態(tài)轉(zhuǎn)為當前狀態(tài)st=st+1。(13) 判斷終止條件結(jié)束step循環(huán)。(14) 判斷終止條件結(jié)束episode循環(huán)。
通過仿真分析對研究進行驗證。首先,基于Python搭建HEB能量管理深度強化學(xué)習(xí)訓(xùn)練環(huán)境;然后基于PyTorch分別搭建DDQN和TD3能量管理策略控制模型;最后以C-WTVC循環(huán)為目標工況進行整車經(jīng)濟性仿真試驗。模型的初始SOC設(shè)為0.6,SOC上下限設(shè)為0.5和0.7。為驗證DDQN和TD3策略的有效性,將DP策略作為基準與所研究策略進行對比分析。
DDQN中估計Q網(wǎng)絡(luò)和目標Q網(wǎng)絡(luò)的結(jié)構(gòu)完全一致,其隱藏層均采用3層全連接層,每層神經(jīng)元個數(shù)分別為300、200、100。其參數(shù)經(jīng)調(diào)試后確定學(xué)習(xí)率為0.000 5,獎勵折扣因子為0.95,記憶庫容量為1×105,樣本集數(shù)量為64,貪婪率從0.55逐步增加到0.95。而TD3中,Actor部分和Critic部分共6個神經(jīng)網(wǎng)絡(luò)均采用3層全連接層的隱藏層結(jié)構(gòu),每層神經(jīng)元個數(shù)分別為200、100、50。其參數(shù)經(jīng)調(diào)試后確定Actor網(wǎng)絡(luò)學(xué)習(xí)率為0.001,Critic網(wǎng)絡(luò)學(xué)習(xí)率為 0.000 5,獎勵折扣因子為0.95,動作噪聲為0.1,目標動作噪聲為0.2,記憶庫容量為2×105,樣本集數(shù)量為64。根據(jù)以上設(shè)置,分別使用DDQN和TD3策略進行1 000次能量管理策略學(xué)習(xí)。圖4為DDQN和TD3策略的獎勵曲線收斂情況。由圖4可以看出,在學(xué)習(xí)150次之后DDQN和TD3策略都開始收斂,總獎勵值趨于穩(wěn)定,表明DDQN和TD3算法對混合動力系統(tǒng)能量管理具有較好的適用性。
圖4 DDQN和TD3策略的獎勵曲線
圖5顯示了DP、DDQN及TD3這3種策略下的SOC軌跡。從圖5中可以看出3種策略均未出現(xiàn)電池過充、過放現(xiàn)象,終止時刻也均實現(xiàn)了SOC平衡。同時也可以看出,與DP策略全局統(tǒng)籌的SOC軌跡相比,DDQN和TD3策略更傾向于利用制動回收模式補充電量的特點來尋找一個SOC平衡點,尤其是TD3策略幾乎全程都處于電量維持狀態(tài)。
圖5 DP、TD3、DDQN策略的SOC軌跡
C-WTVC工況包括城市循環(huán)、公路循環(huán)及高速循環(huán)3個階段。圖6~圖8為C-WTVC工況不同階段3種策略下驅(qū)動模式分布圖。圖9為不同循環(huán)階段下,3種策略的混合驅(qū)動模式占比情況。由圖6~圖9分析可知,在城市循環(huán)階段,3種策略均傾向于純電驅(qū)動,尤其是DDQN策略,其混合驅(qū)動模式占比僅為32%。在公路循環(huán)階段,3種策略均傾向于混合驅(qū)動,DP策略混合驅(qū)動占比最高,傾向于行車充電來保證下一階段高速低轉(zhuǎn)矩工況可以純電驅(qū)動,而DDQN和TD3策略則沒有DP策略的預(yù)見性,傾向于通過混合驅(qū)動維持電量在平衡點附近。在高速循環(huán)階段,TD3和DP策略較為相似,均選擇高轉(zhuǎn)矩時混合驅(qū)動,低轉(zhuǎn)矩時純電驅(qū)動;而DDQN策略由于前期SOC平衡在較低值,不得不通過混合驅(qū)動來提高電量,混合驅(qū)動模式占比高達88%??傮w來看,DDQN和TD3策略在驅(qū)動模式的控制邏輯上與DP策略表現(xiàn)出較強的相似性,3種策略下純電驅(qū)動模式均主要分布于低速和較低轉(zhuǎn)矩區(qū)間,而混合驅(qū)動模式則主要分布于高速和較高轉(zhuǎn)矩區(qū)間。
圖6 DP策略不同階段驅(qū)動模式分布
圖7 DDQN策略不同階段驅(qū)動模式分布
圖8 TD3策略不同階段驅(qū)動模式分布
圖9 DP、DDQN及TD3策略不同階段混合驅(qū)動模式占比
3種策略百公里油耗如表2所示,DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L。
表2 3種策略下整車能耗對比
3種策略下柴油機工作點分布如圖10所示,不同區(qū)間下柴油機轉(zhuǎn)速占比如圖11所示。由 圖10(a) 可以看出,TD3策略可以對本文中的控制變量(柴油機轉(zhuǎn)速)進行連續(xù)控制,相比需要對變量離散化處理的優(yōu)化算法而言具有一定優(yōu)勢。由 圖11 可知,為獲得低油耗,DDQN和TD3策略下輸出的柴油機轉(zhuǎn)速分布區(qū)間和DP策略大致相同,這也使得DDQN和TD3策略的經(jīng)濟性均達到了DP策略的93%。
圖10 DP、DDQN及TD3策略下柴油機工作點
圖11 DP、DDQN、TD3策略下柴油機轉(zhuǎn)速分布
(1) DDQN和TD3策略均以較快的速度實現(xiàn)了自適應(yīng)收斂,表明DDQN和TD3算法在混合動力系統(tǒng)能量管理問題中具有較強的適用性。
(2) DDQN和TD3策略的驅(qū)動模式控制邏輯與DP策略較為相似,總體上表現(xiàn)為低速和較低轉(zhuǎn)矩時純電驅(qū)動,高速和較高轉(zhuǎn)矩時混合驅(qū)動。
(3) DDQN和TD3策略下的柴油機工作點分布情況與DP策略大致相同,3種策略下柴油機均主要工作于中低轉(zhuǎn)速高效區(qū)間,且TD3策略可以對本文中的控制變量即柴油機轉(zhuǎn)速進行連續(xù)控制。
(4) DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L,經(jīng)濟性均達到了DP策略的93%,表明了DDQN和TD3策略的有效性。