中圖分類號(hào):U469.72 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.7535/hbkd.2025yx03001
Energy management strategy for hybrid electric vehicle based on improved PPO algorithm
MA Chao, SUN Tong,CAO Lei,YANG Kun, HU Wenjing (Collgeof TransportationandVehicle Engineering,Shandong Universityof Technology,Zibo,Shandong 2550oo,China
Abstract:Inorder toimprovetheeconomyof power-split hybrid electric vehicle(HEV),alongitudinal dynamics modelof the entire HEVvehicle was established,and an energy management strategy(EMS)basedonstrategy entropy optimization withanimproved proximalpolicyoptimization(PPO)algorithmwasproposed.Thealgorithmicframework wassimplified by employing an experiencepoling mechanism based on traditional PPO algorithm,andonlyone deep neural network was used forinteractivetrainingandupdating toreducethecomplexityofparametersynchronizationinthepolicynetwork.Inorderto efectively explore theenvironmentand learnmoreeficientstrategies,thestrategyentropywasadded tothelossfunctionto promotetheintellgencetostrikeabalancebetweenexplorationandutilizationandtoavoid prematureconvergenceofstrategies tolocaloptimal solutions.TheresultsshowthattheEMS basedontheimprovedPPOalgorithmwith single-policynetwork maintains thestateof charge(SOC)of the battry more efectivelythantheEMS basedonthedual-strategy network PPO under both UDDS and NEDC driving cycle. Additionally,the equivalent fuel consumption is reduced by 8.5% and 1.4% , respectively,achieving energy-saving efectscomparable to the EMS basedon the dynamic programming (DP)algorithm. The proposed improvedPPOalgorithmcaneffectivelyenhance the fueleconomyof hybridvehiclesand provideareference for the design and development of EMS for hybrid vehicles.
Keywords:vehicleenginering;hybrid electric vehicle;energy managementstrategy;deepreinforcementlearning;proximal policy optimization
汽車保有量的迅速增長,不僅給國家能源安全帶來巨大的挑戰(zhàn),環(huán)境污染問題也日益凸顯[1],而混合動(dòng)力汽車(hybrid electric vehicle,HEV)被認(rèn)為是減排的重要角色。HEV能夠通過適當(dāng)?shù)哪芰抗芾聿呗裕╡nergy management strategy,EMS),使得多個(gè)動(dòng)力源的合作高效運(yùn)行,從而降低燃料消耗和溫室氣體排放[2]。HEV的EMS可以分為基于規(guī)則的策略、基于優(yōu)化的策略和基于學(xué)習(xí)的策略[3]?;谝?guī)則的策略是工程領(lǐng)域?qū)崿F(xiàn)實(shí)時(shí)控制的最常用方法,但是高效策略的設(shè)計(jì)依賴于工程師的專業(yè)水平[4]?;趦?yōu)化的策略是將能量管理構(gòu)建成一個(gè)最優(yōu)化問題,求解可行域中的最優(yōu)解或次優(yōu)解,在一定程度上提高EMS的燃油經(jīng)濟(jì)性,但是在復(fù)雜的情況下難以實(shí)時(shí)求解并在線應(yīng)用[5-6]。
近年來,隨著人工智能的快速發(fā)展,基于學(xué)習(xí)的方法開始應(yīng)用在 HEV 的能量管理問題中[7]。LIN 等[8]首次將強(qiáng)化學(xué)習(xí)Q-learning算法應(yīng)用到HEV的能量管理問題中,EMS問題被建模為馬爾可夫決策過程,智能體與環(huán)境進(jìn)行交互學(xué)習(xí)并更新策略,不僅減少了計(jì)算時(shí)間,還提高了車輛的燃油經(jīng)濟(jì)性。但是由于離散狀態(tài)的限制,Q-learning 算法很難處理高維度的問題。WU等[9]提出了一種用于EMS 的深度Q學(xué)習(xí)(deep Q-network,DQN)算法,使用深度神經(jīng)網(wǎng)絡(luò)近似動(dòng)作值函數(shù),替代Q-learning算法中的表格存儲(chǔ),解決了維數(shù)詛咒問題。WANG等[10]采用改進(jìn)的參數(shù)化DQN算法,降低了 3.1% 的驅(qū)動(dòng)成本,并且有效延長了電池壽命。WU等[利用深度確定性策略梯度(deep deterministic policy gradient,DDPG)開發(fā)了插電式混合動(dòng)力公交車的 EMS,能夠連續(xù)輸出控制動(dòng)作而不需要將動(dòng)作空間離散化。LIAN等[12]將電池特性和最佳制動(dòng)比油耗與DDPG策略結(jié)合,縮減了動(dòng)作空間,加快了學(xué)習(xí)速度。ZHANG等[13]提出了一種近端策略優(yōu)化(proximal policy optimization,PPO)算法與等效燃油最?。╡quivalent consumption minimization strategy,ECMS)算法相結(jié)合的自適應(yīng)分層能量策略框架,解決了ECMS動(dòng)態(tài)因子調(diào)節(jié)規(guī)劃問題。ZHANG等[14]將LSTM應(yīng)用到PPO算法中并設(shè)計(jì)了一個(gè)局部樣本香農(nóng)熵來實(shí)現(xiàn)對并聯(lián)電液混合動(dòng)力性能參數(shù)的動(dòng)態(tài)評(píng)價(jià),提高了EMS的有效性。WANG等[15將13種基于深度強(qiáng)化學(xué)習(xí)的HEV能量管理算法進(jìn)行比較,結(jié)果表明,基于PPO的EMS擁有最快的收斂速度,時(shí)間成本最低。目前,有很多研究將基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于HEV的能量管理問題中,這些算法包括Q-learning、DQN以及DDQN等,然而,由于輸出動(dòng)作的離散化會(huì)導(dǎo)致發(fā)動(dòng)機(jī)輸出的轉(zhuǎn)矩出現(xiàn)劇烈震蕩,這些算法并不能完全適用于連續(xù)控制動(dòng)作的任務(wù)。盡管基于策略的深度強(qiáng)化學(xué)習(xí)算法如DDPG和PPO,解決了HEV能量管理中的這一問題,但在提高算法的探索和學(xué)習(xí)新策略的能力方面,仍可以進(jìn)一步優(yōu)化和提升。
基于此,本文基于改進(jìn)PPO提出了一種新型的HEV的EMS。與使用2個(gè)策略網(wǎng)絡(luò)分別代表新舊策略的一般PPO算法不同,本文利用經(jīng)驗(yàn)池機(jī)制,使得整體的策略框架只需使用1個(gè)策略網(wǎng)絡(luò),減少了2個(gè)策略網(wǎng)絡(luò)參數(shù)同步的復(fù)雜性,并簡化了整體框架結(jié)構(gòu)。
二 HEV動(dòng)力學(xué)建模
1.1 HEV動(dòng)力系統(tǒng)
本文以功率分流式HEV為被控對象,動(dòng)力總成配置簡圖如圖1所示,包括發(fā)動(dòng)機(jī)、驅(qū)動(dòng)電機(jī)(電機(jī)1)、發(fā)電機(jī)(電機(jī)2)、行星架和動(dòng)力電池,整車參數(shù)如表1所示。
1.2 HEV縱向動(dòng)力學(xué)
本文忽略車輛橫向動(dòng)力學(xué)影響,采用后向仿真方法,無駕駛員模型,只考慮縱向動(dòng)力學(xué),能量管理系統(tǒng)主要處理多個(gè)動(dòng)力源之間的功率分配,給定工況下車輛的功率需求由式(1)的縱向力平衡方程計(jì)算,車輛行駛阻力主要由滾動(dòng)阻力、空氣阻力、坡道阻力和加速阻力組成。
式中: Preq 為車輛在行駛過程中的需求功率; Ff 為滾動(dòng)阻力; Fw 為空氣阻力; Fi 為坡道阻力; Fj 為加速阻力;M 為整車質(zhì)量; g 為重力加速度; f 為滾動(dòng)阻力系數(shù); θ 為道路坡度(本文不考慮道路坡度); Cd 為空氣阻力系數(shù); ρ 為空氣密度; A 為車輛迎風(fēng)面積; v 為車速; δ 為旋轉(zhuǎn)質(zhì)量換算系數(shù)。
行星齒輪機(jī)構(gòu)作為動(dòng)力耦合裝置,其中,電機(jī)1耦合在齒圈上,太陽輪和行星架分別連接在電機(jī)2和發(fā)動(dòng)機(jī)上,其中電機(jī)1和車輪驅(qū)動(dòng)軸耦合,因此電機(jī)1轉(zhuǎn)速和車速存在直接耦合關(guān)系,根據(jù)行星排原理,行星齒輪組各部件的轉(zhuǎn)速和轉(zhuǎn)矩的關(guān)系見式(2)。
式中: ωs,ωr 和 ωc 分別代表太陽輪、齒圈和行星架的轉(zhuǎn)速; α 為太陽輪與齒圈的齒比; Ts,Tr 和 Tc 分別為太陽輪、齒圈和行星架的轉(zhuǎn)矩。
1.3動(dòng)力系統(tǒng)部件模型
發(fā)動(dòng)機(jī)與車輪之間無機(jī)械耦合關(guān)系,因此發(fā)動(dòng)機(jī)對于任意的功率需求可以控制在對應(yīng)的最優(yōu)效率工作點(diǎn)上。本文對整車燃油經(jīng)濟(jì)性進(jìn)行研究,燃油消耗率與發(fā)動(dòng)機(jī)轉(zhuǎn)速和轉(zhuǎn)矩的關(guān)系被簡化為二維關(guān)系[16],見式(3)。
式中 為在發(fā)動(dòng)機(jī)轉(zhuǎn)矩為 Te 和轉(zhuǎn)速為 ωe 時(shí)的燃油消耗率。
在電機(jī)模型中,考慮電機(jī)功率和電機(jī)效率,可以簡化為與電機(jī)轉(zhuǎn)矩和轉(zhuǎn)速相關(guān)的函數(shù),見式(4)。
ηmot=f(Tmot,ωmot),
式中: ηmot 為電機(jī)在轉(zhuǎn)矩為 Tmot 和轉(zhuǎn)速為 ωmot 下的效率。
本文沒有考慮電池溫度變化和電池老化,使用1個(gè)簡化電池模型,其中電池電壓、電流、電池荷電狀態(tài)等相關(guān)關(guān)系見式(5)。
式中: Pbat?Voc 和 Ibat 分別為電池的輸出功率、開路電壓和電池電流; Rint 為電池內(nèi)阻;SOC為電池SOC的變化率; Qbat 為電池的額定容量。
2基于策略優(yōu)化深度強(qiáng)化學(xué)習(xí)算法的EMS
2.1 強(qiáng)化學(xué)習(xí)算法原理
強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)提供了一種框架,用于解決控制任務(wù)和決策問題,通過建立智能體來實(shí)現(xiàn)。在這個(gè)框架中,智能體通過與環(huán)境的交互來進(jìn)行試錯(cuò)學(xué)習(xí),從而根據(jù)其所采取的行動(dòng)獲得獎(jiǎng)勵(lì)(正或者負(fù))。這個(gè)過程利用了馬爾可夫決策過程來建模,依據(jù)馬爾可夫性質(zhì),一個(gè)動(dòng)作的執(zhí)行僅依賴于當(dāng)前的狀態(tài),而與過去的狀態(tài)和動(dòng)作無關(guān)。在RL的循環(huán)中,輸出的是一系列的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及后繼狀態(tài)。智能體的主要目標(biāo)是最大化其獲得的累計(jì)獎(jiǎng)勵(lì),即最大化期望回報(bào)。通過這種方式,RL旨在使智能體學(xué)會(huì)在給定環(huán)境狀態(tài)下做出最優(yōu)的決策。
2.2基于深度強(qiáng)化學(xué)習(xí)的能量管理問題描述
本文將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于HEV的能量管理問題中,具體的訓(xùn)練框架如圖2所示。
智能體在與環(huán)境的交互中學(xué)習(xí)到高效的EMS,在進(jìn)行具體控制之前,首先需要定義算法的基本組成:狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)。
HEV的能耗與諸多因素有關(guān),本文主要考慮的是車輛本身的狀態(tài),所以選取車速、加速度和SOC。車速和加速度隱含了車輛在行駛過程中的功率需求,SOC為整個(gè)策略中的關(guān)鍵信息。算法解決的是車輛在工況下行駛過程中的功率分配問題,車輛狀態(tài)見式(6)。
S={SOC,v,a},
式中:SOC為電池荷電狀態(tài); v 和 a 分別為車速和加速度。
為了減少動(dòng)作探索的空間,降低整體算法問題的復(fù)雜性,本文選擇使用發(fā)動(dòng)機(jī)最優(yōu)工作曲線。基于實(shí)驗(yàn)得出了發(fā)動(dòng)機(jī)萬有特性數(shù)據(jù),其萬有特性曲線如圖
3所示。在某一給定功率值,通過插值查表尋找發(fā)動(dòng)機(jī)燃油消耗率最小的轉(zhuǎn)速,具體邏輯如表2偽代碼所示,從而得到發(fā)動(dòng)機(jī)的最優(yōu)工作曲線,如圖4所示。動(dòng)作為深度強(qiáng)化學(xué)習(xí)中智能體的輸出,定義為發(fā)動(dòng)機(jī)輸出功率[17],如式(7)所示。
A={Pe}
策略根據(jù)當(dāng)前狀態(tài)可以輸出動(dòng)作(發(fā)動(dòng)機(jī)功 率)和插值得到發(fā)動(dòng)機(jī)轉(zhuǎn)速,進(jìn)而確定發(fā)動(dòng)機(jī)轉(zhuǎn)矩, 見式(8)。
式中: ωe 為發(fā)動(dòng)機(jī)轉(zhuǎn)速; Te 為發(fā)動(dòng)機(jī)轉(zhuǎn)矩。
獎(jiǎng)勵(lì)是強(qiáng)化學(xué)習(xí)算法的核心,它為智能體提供了與環(huán)境交互時(shí)的唯一反饋。智能體依據(jù)獎(jiǎng)勵(lì)值來評(píng)估其行為的效果,進(jìn)而決定最佳的行動(dòng)策略。為了學(xué)習(xí)到一個(gè)有效的EMS,設(shè)計(jì)一個(gè)適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)尤為關(guān)鍵。本文EMS的目標(biāo)是在滿足駕駛需求的前提下,盡可能實(shí)現(xiàn)能耗的優(yōu)化提升,并保持電池SOC在合理的區(qū)間范圍內(nèi)。本文同時(shí)考慮了汽車的油耗、電耗以及電池SOC的穩(wěn)定,相應(yīng)的獎(jiǎng)勵(lì)函數(shù)見式(9)。
式中: 為每步的等效總?cè)加拖模?β 為權(quán)重系數(shù); SOCref 為參考維持SOC,本文中設(shè)置為0.6。當(dāng)每步的 等效燃油消耗越大,或者當(dāng)前的SOC距離期望保持的SOC越大時(shí),負(fù)獎(jiǎng)勵(lì)也就越大;相反,負(fù)獎(jiǎng)勵(lì)就越小, 策略的目標(biāo)是輸出能最大化提高長期累計(jì)獎(jiǎng)勵(lì)的動(dòng)作,通過獎(jiǎng)勵(lì)引導(dǎo)智能體學(xué)習(xí)到一個(gè)最優(yōu)的EMS。
每步的等效總?cè)加拖? 是實(shí)際油耗與電能轉(zhuǎn)化的等效燃油消耗之和[18],計(jì)算公式見式(10)。
式中: Pbat 代表電池每步的輸出功率; 為每步的燃油消耗; Qlhv 為汽油低熱值。
2.3基于PPO算法的EMS
2.3.1 PPO算法
PPO算法是一種基于策略的深度強(qiáng)化學(xué)習(xí)算法,核心思想是通過與環(huán)境的交互學(xué)習(xí)持續(xù)優(yōu)化策略,該算法能從環(huán)境中獲取豐富的數(shù)據(jù)和經(jīng)驗(yàn),以提升性能。PPO算法能適應(yīng)連續(xù)的動(dòng)作空間,使用多個(gè)隨機(jī)梯度上升時(shí)期來執(zhí)行每次的策略更新,通過不斷迭代訓(xùn)練得到最優(yōu)的策略。PPO算法通過一個(gè)策略比率項(xiàng),來實(shí)現(xiàn)對策略改進(jìn)的控制,確保新舊策略之間的變化不會(huì)過大,可以提高PPO算法在訓(xùn)練中的穩(wěn)定性,同時(shí)能夠保持較高的樣本效率。
PPO 算法用clip方法限制在訓(xùn)練學(xué)習(xí)過程中策略更新的范圍[19],具體的損失函數(shù)見式(11)。
式中: πθ(at,st) 和 πθold(at,st) 分別為新舊策略; ε 為超參數(shù),用于控制更新前后策略分布的差異范圍; 表示優(yōu)勢值,使用廣義優(yōu)勢估計(jì)(GAE)算法計(jì)算。GAE算法是一種改進(jìn)的優(yōu)勢函數(shù)估計(jì)方法,可以有效降低梯度估計(jì)的方差[20],見式(12)。
式中: V 為當(dāng)前價(jià)值函數(shù);γ為折現(xiàn)因子; r 為時(shí)間步 Ψt 時(shí)的獎(jiǎng)勵(lì);入為控制更新過程中歷史經(jīng)驗(yàn)的權(quán)重; δ 為時(shí)間步 Ψt 的優(yōu)勢函數(shù)。
PPO算法基于Actor-Critic架構(gòu),通常包括2個(gè)策略網(wǎng)絡(luò)和1個(gè)價(jià)值網(wǎng)絡(luò),均為深度神經(jīng)網(wǎng)絡(luò),其中主策略網(wǎng)絡(luò)負(fù)責(zé)輸出在給定狀態(tài)下動(dòng)作的概率分布,智能體通過輸出的概率分布進(jìn)行動(dòng)作采樣以確定具體動(dòng)作,實(shí)現(xiàn)與環(huán)境進(jìn)行交互決策。而舊策略網(wǎng)絡(luò)存儲(chǔ)之前策略參數(shù),作為在更新策略時(shí)與主策略網(wǎng)絡(luò)比較的基準(zhǔn)。價(jià)值網(wǎng)絡(luò)用于估計(jì)給定狀態(tài)下的執(zhí)行動(dòng)作的長期回報(bào),擬合GAE算法中的價(jià)值函數(shù)。
2.3.2 基于雙策略網(wǎng)絡(luò)PPO算法的EMS
將雙策略網(wǎng)絡(luò)PPO算法應(yīng)用到HEV的EMS問題中,具體框架圖如圖5所示。交互環(huán)境是HEV在指定的工況中的駕駛過程,參數(shù)化的主策略網(wǎng)絡(luò)根據(jù)當(dāng)前環(huán)境狀態(tài)——速度、加速度和SOC的輸入,輸出動(dòng)作空間上的概率分布,并采樣出具體的控制動(dòng)作(發(fā)動(dòng)機(jī)功率)。用采樣的動(dòng)作與環(huán)境進(jìn)行交互以獲取下一個(gè)狀態(tài)和獎(jiǎng)勵(lì),也就是縱向動(dòng)力學(xué)模型根據(jù)發(fā)動(dòng)機(jī)功率以及當(dāng)前的狀態(tài),可以進(jìn)一步推導(dǎo)出動(dòng)力電池的輸出功率,并計(jì)算瞬時(shí)的等效燃油消耗,根據(jù)獎(jiǎng)勵(lì)函數(shù)計(jì)算當(dāng)前狀態(tài)下輸出該控制動(dòng)作的獎(jiǎng)勵(lì),然后將當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)以及更新的下一步狀態(tài)存入經(jīng)驗(yàn)池。
通過GAE算法以及策略網(wǎng)絡(luò)新舊策略的比值構(gòu)建損失函數(shù)更新網(wǎng)絡(luò)。在訓(xùn)練剛開始時(shí),基于雙策略網(wǎng)絡(luò)PPO算法的EMS可能出現(xiàn)無法平衡SOC并降低等效油耗等問題,隨著算法與環(huán)境的不斷交互,策略將累積更多的經(jīng)驗(yàn),并通過學(xué)習(xí)從中提取更優(yōu)的策略。具體控制交互訓(xùn)練偽代碼如表3所示。
2.4基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS
2.4.1 策略熵優(yōu)化
在PPO算法的基礎(chǔ)上,為了提高算法的性能,在損失函數(shù)中增加策略熵的構(gòu)建。在信息論中,熵是一種用來衡量隨機(jī)變量不確定性的概念。熵越高,隨機(jī)變量的不確定性也就越大,在強(qiáng)化學(xué)習(xí)中,熵被用作一種正則化項(xiàng),有助于保持策略的多樣性,防止策略過早收斂到局部最優(yōu)解。通過最大化策略的熵,可以促使智能體在探索和利用之間取得平衡,從而更好地探索環(huán)境并學(xué)習(xí)到更好的策略。
式中: H 為計(jì)算策略熵; 為策略下對所有可能動(dòng)作的期望。
如式(13)所示,熵代表了在給定策略下所有可能動(dòng)作的期望值。當(dāng)一個(gè)特定動(dòng)作被選中的概率較高時(shí),它所貢獻(xiàn)的信息量(即熵)較低;相反,若所有動(dòng)作被選中的概率均等(即策略完全隨機(jī)),則熵達(dá)到最大值。
熵可以作為損失函數(shù)的一部分,與價(jià)值函數(shù)和策略梯度共同構(gòu)成了PPO算法的優(yōu)化目標(biāo)。在優(yōu)化損失函數(shù)的同時(shí),讓策略熵盡可能大,可在一定程度上提高訓(xùn)練效果。經(jīng)過經(jīng)驗(yàn)調(diào)整,最終將策略熵超參數(shù) c 設(shè)置為0.01,調(diào)整后的損失函數(shù)如式(14)所示。
2.4.2基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS框架
為了進(jìn)一步簡化策略框架結(jié)構(gòu),并減少2個(gè)策略網(wǎng)絡(luò)參數(shù)同步的復(fù)雜性,提出了一種基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS,整個(gè)策略框圖如圖6所示。
與上述策略相同,策略網(wǎng)絡(luò)接受縱向動(dòng)力學(xué)模型每步的速度、加速度以及SOC組成的三維狀態(tài)張量的輸入,輸出動(dòng)作概率分布,并采樣發(fā)動(dòng)機(jī)功率,在運(yùn)行過程中,不斷進(jìn)行交互并學(xué)習(xí)最優(yōu)策略。
但是在基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS中,策略網(wǎng)絡(luò)在與環(huán)境交互的同時(shí),將當(dāng)前狀態(tài)下輸出的動(dòng)作概率分布存儲(chǔ)到經(jīng)驗(yàn)池中,作為后續(xù)更新的舊策略。這意味著不再需要2個(gè)獨(dú)立的策略網(wǎng)絡(luò),而是將其合并為1個(gè)單一的策略網(wǎng)絡(luò)。在更新過程中,單策略網(wǎng)絡(luò)改進(jìn)PPO算法不需要在固定輪次后同步2個(gè)策略網(wǎng)絡(luò)的參數(shù),而是策略網(wǎng)絡(luò)直接與經(jīng)驗(yàn)池收集的軌跡數(shù)據(jù)進(jìn)行交互,并根據(jù)損失函數(shù)實(shí)時(shí)更新。經(jīng)驗(yàn)池機(jī)制的使用,可有效減少參數(shù)同步的復(fù)雜性,簡化PPO算法框架,進(jìn)一步簡化整個(gè)EMS的框架。
此外,單策略網(wǎng)絡(luò)改進(jìn)PPO算法在進(jìn)行策略更新時(shí),引人了策略熵作為損失函數(shù)的一部分。這可以幫助智能體在探索和利用之間取得平衡,從而更有效地優(yōu)化策略網(wǎng)絡(luò)。
3 仿真分析
3.1 仿真參數(shù)設(shè)置
本文使用Python3.7與Pytorch環(huán)境。PPO算法中學(xué)習(xí)率決定每次更新參數(shù)的步長大小;衰減因子決定了對未來獎(jiǎng)勵(lì)的衰減程度,其值越小智能體越注重短期獎(jiǎng)勵(lì);值越大越注重長期獎(jiǎng)勵(lì),裁剪率用來限制策略更新的幅度[20]。本文的算法超參數(shù)經(jīng)過經(jīng)驗(yàn)調(diào)整,確保了策略的穩(wěn)定性和訓(xùn)練過程的有效性。在保證策略穩(wěn)定和有效的基礎(chǔ)上,參數(shù)設(shè)置也盡可能降低訓(xùn)練階段的時(shí)間復(fù)雜度。
為保證仿真實(shí)驗(yàn)的一致性,單策略網(wǎng)絡(luò)改進(jìn)PPO算法(PPO1)和雙策略網(wǎng)絡(luò)PPO算法(PPO2)參數(shù)設(shè)置相同,策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)置相同,由3個(gè)隱藏層構(gòu)成。由于PPO算法使用雙曲正切函數(shù)作為激活函數(shù)效果更好[21],所以在仿真實(shí)驗(yàn)中,PPO1和PPO2均使用雙曲正切函數(shù)作為激活函數(shù),具體參數(shù)如表4所示。
為了更全面地得出結(jié)果,分別在UDDS工況和NEDC工況下進(jìn)行仿真比較。2種策略在2個(gè)工況下均進(jìn)行了100輪訓(xùn)練,并使用基于動(dòng)態(tài)規(guī)劃(dynamicprogramming,DP)的 EMS 作為基準(zhǔn)對比策略,其中UDDS 工況和 NEDC 工況分別如圖7和圖8所示。
3.2 仿真結(jié)果分析
基于DP的EMS與基于PPO1和PPO2算法的EMS在UDDS工況下的電池SOC的軌跡如圖9所示。由圖可知,基于DP的EMSSOC維持效果最好,整個(gè)工況的SOC軌跡變化較為緩慢,發(fā)動(dòng)機(jī)和驅(qū)動(dòng)電機(jī)能很好地協(xié)調(diào)控制,始終保持在期望的SOC附近,并保持SOC的動(dòng)態(tài)平衡。而對于基于PPO1和PPO2的EMS,二者的SOC軌跡變化大致相同,但是PPO1算法的維持效果比PPO2算法好,末端SOC也能達(dá)到期望SOC附近。基于PPO1和PPO2算法的EMS下的發(fā)動(dòng)機(jī)工作點(diǎn)的分布如圖10所示。
由圖10可知,無論是PPO1算法還是PPO2算法,發(fā)動(dòng)機(jī)工作點(diǎn)都沿著發(fā)動(dòng)機(jī)最低燃油消耗率曲線,這是由于在動(dòng)作的選取時(shí),為了縮減探索的動(dòng)作空間已經(jīng)將控制動(dòng)作限定沿著發(fā)動(dòng)機(jī)最低燃油消耗率曲線進(jìn)行。PPO1算法由于增加了熵機(jī)制,探索更高效策略的幾率增大,發(fā)動(dòng)機(jī)工作點(diǎn)在高效率的工作區(qū)域的數(shù)量增加,整車的燃油經(jīng)濟(jì)性也相應(yīng)得到提升,不同策略的具體結(jié)果如表5所示。PPO1算法在能更好地維持SOC動(dòng)態(tài)平衡的條件下,以DP為基準(zhǔn),整車經(jīng)濟(jì)性達(dá)到了基于DP的 83.6% ,相較于基于PPO2的能量管理策略等效燃油消耗降低了 8.5% 。
基于DP的EMS與基于PPO1和PPO2算法的EMS在NEDC工況下的電池SOC的軌跡與發(fā)動(dòng)機(jī)工作點(diǎn)結(jié)果如圖11和圖12所示。初始SOC均為0.6,同樣相比于PPO2算法,PPO1算法的SOC軌跡的變化幅度更小,有助于延長電池的使用壽命。
由表6可知,在NEDC工況下3種策略的終端SOC分別為 0.576,0.556,0.536 。相比于PPO2算法,PPO1算法也更接近期望保持的SOC值,并且EMS經(jīng)濟(jì)性能達(dá)到DP的 86.2% ,EMS等效燃油消耗降低了約 1.4% 。
4結(jié)語
本文以功率分流式HEV的經(jīng)濟(jì)性為研究目標(biāo),提出了一種基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS。該算法通過將舊策略分布存儲(chǔ)于經(jīng)驗(yàn)池中,簡化了算法框架,并在損失函數(shù)中引人策略熵,以增強(qiáng)智能體的學(xué)習(xí)能力。結(jié)果顯示,基于單策略網(wǎng)絡(luò)改進(jìn)PPO算法的EMS在終端 SOC與期望SOC的接近程度、SOC 的動(dòng)態(tài)維持能力、發(fā)動(dòng)機(jī)工作點(diǎn)在高效區(qū)域的數(shù)量以及整體等效燃油消耗方面,均優(yōu)于基于雙策略網(wǎng)絡(luò)PPO的EMS,并取得與基于DP算法的EMS相近的節(jié)能效果?;趩尾呗跃W(wǎng)絡(luò)改進(jìn)PPO算法的EMS,增強(qiáng)了智能體的學(xué)習(xí)能力,提升了整車經(jīng)濟(jì)性能,為HEV的EMS領(lǐng)域的研究和應(yīng)用提供了參考。
本文策略僅對工況進(jìn)行了仿真,未來還需將策略實(shí)際部署,進(jìn)行硬件在環(huán)驗(yàn)證或者實(shí)車驗(yàn)證,以確保在實(shí)車中控制的有效性。
參考文獻(xiàn)/References:
[1]林歆悠,翟柳清,林海波.基于行駛工況的混合動(dòng)力電動(dòng)汽車能量管理策略研究現(xiàn)狀分析[J].河北科技大學(xué)學(xué)報(bào),2016,37(5):457-463. LINXinyou,ZHAILiuqing,LINHaib.Researchstatusofhybridelectricvehicleenergy managementstrategybasedonthedrivingcycle [J].Journal of Hebei University of Science and Technology,2016,37(5):457-463.
[2]TRANDD,VFAEIPOUR M,ELBAGHDADIM,etal.Thoroughstate-of-the-artanalysisof electricandhybridvehiclepowertrains: Topologiesandintegratedenergymanagementstrategies[J].RenewableandSustainableEnergyReviews,2o.DOI:1oo6er 2019.109596.
[3]LIUTeng,TAN Wenhao,TANG Xiaolin,etal.Driving Conditions-DrivenEnergy Managementfor HybridElectric Vehicles:AReview [EB/OL].(2020-07-16)[2024-07-20].https://doi.org/10.48550/arXiv.2007.10880.
[4]GUOHongqiangAGXiangu,Liang.Stateof-hargeconsraintbasedeergmanagementstrategyofplug-inbridelectriceh cle with bus route[J].Energy Conversion and Management,2019.DOI:10.1016/j.enconman.2019.111972.
[5]PARKJ,URPHEYY,ABULMASRURM.Inteligentenergymanagementandoptiizationinaybridzedallterrinehicleith simpleon-offontroloftheinternalombustionengineJ]EEETansactiosonVehicularTechnology,016,56):58-4596.
[6]LIN Xinyou,ZHOUKuncheng,MOLiping,etal.Itellgentenergymanagementstrategybasedonanimprovedreinforcementeaing algorithmwithexplorationfactorforaplug-inPHEVJ]EEETransactionsonInteligentTransportationSystems,223(7): 8725-8735.
[7]XUDezouZEunuaCUYudanetalRecentprogressinlearngalgoritpliedinegymanagementofbidi cles:AcomprehesivevieJ.teatioalJoualofPrecisionEngineeringndaufacturingGeeechology(: 245-267.
[8]LINXue,WANG Yanzhi,BOGDANP,etal.Reinforcementlearning based power managementfor hybrid eletric vehicles[C/014 IEEE/ACM International Conference on Computer-Aided Design (ICCAD).San Jose:IEEE,2014:33-38.
[9]WUJingda,HEHongwen,ENGJiankun,etal.ContiuousreinforcementlearningofenergymanagementwithdeepQnetworkfora power split hybrid electric bus[J].Applied Energy,2018,222:799-811.
[10]WANGHaoHEHongwen,BAYunfei,etal.ParameterizeddeepQnetworkbasedenergymanagementwithbalancedenergycoomy and battery life forhybrid electric vehicles[J].Applied Energy,2022.DOI:10.1016/j.apenergy.2022.119270.
[1]WUYuankaiTANHuachun,ENGJiankun,etalDepeiforcementlearningofenergymanagementwithontiuouscontroltrategy andtraffic information foraseries-paralel plug-in hybrid electricbus[J].Applied Energy,2o19,247:454-466.
[12]LINRenzong,ENGJinkun,WUYuankai,etalRulenterposingdpeiforcementlearingasedenergymanagementstrategfor power-split hybrid electric vehicle[J].Energy,2020.DOI:10.1016/j.energy.2020.117297.
[13]ZHANGCunmei,LITaoCUIWei,etal.Proximalpolicyoptimizationasedintellgentenerymanagementforpluginhbidlectric bus consideringbatery thermal characteristic[J].World Electric VehicleJournal,2023.DOI:10.3390/wevj14020047.
[14]ZHANGZhen,ZHTiez,HONGJichaoetalEnergymanagementstrategyofovelparalelelectricydraulicridelectric vehiclebasedondeepreinforcementlearningandentropyevaluatio].JournalofCleanerProduction023.DOI:16/leo 2023.136800.
[15]WANG Hanhen,YEYiing,ZHANGJiangfengetal.Acomparativestudyof13dpreinforceentlearingbasedenergymangeet methods fora hybrid electric vehicle[J].Energy,2023.DOI:10.1016/j.energy.2022.126497.
[16]馬超,陳美奇,楊坤,等.新型適時(shí)四驅(qū)PHEV系統(tǒng)匹配與控制仿真[J].廣西大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,41(3):684-697. MA Chao,CHENMeiqi,YANGKun,etal.Powertrainparameters designandsystemcontrolsimulationforanewtypereal time4WD PHEV[J].Journal of Guangxi University(Natural Science Edition),2o16,41(3):684-697.
[17]HUDong,XIEHui,SONG Kang,etalAnappenticeship-reinforcementlearningshemebasedonexpertdemonstrationsforergy management strategyof hybrid electricvehicles[J].Applied Energy,2023.DOI:10.1016/j.apenergy.2023.121227.
[18]高潔,馬超,楊坤,等.考慮油耗和電池壽命的EREV雙模式切換 ACC策略[J].中國科技論文,2022,17(3):326-331. GAO Jie,MA Chao,YANGKun,etal.ACC strategyof dual-mode switching EREVconsidering fuelconsumptionand baterylife[J]. China Sciencepaper,2022,17(3):326-331.
[19]SCHULMANJ,WOLSKIF,DHARIWALP,etalProximalPolicyOptimization Algorithms[EB/OL].(2017-07-20)2024-07-20]. https://arxiv.org/abs/1707.06347.
[20]SCHULMANJ,MORITZP,LEVINES,etal.High-DimensionalContinuousControlUsingGeneralized dvantageEstimationEB/O]. (2015-06-08)[2024-07-20].https://arxiv.org/abs/1506.02438.
[21]LILLICRAPTP,HUNTJJ,PRITZELA,etal.ContiuousControlwithDeepReinforcementLearningEB/OL].(2015-09-09)2024- 07-20].https://arxiv.org/abs/1509.02971.