趙春領(lǐng),吳化騰
(重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院,重慶 400074)
插電式混合動(dòng)力汽車(Plug-in Hybrid Electric Vehicle,PHEV)被認(rèn)為是平衡長(zhǎng)久里程和低能耗的可行性技術(shù)途徑[1],而插電式柴電混合動(dòng)力汽車因?yàn)轭l繁的啟動(dòng)和停止發(fā)動(dòng)機(jī)運(yùn)行,會(huì)引起發(fā)動(dòng)機(jī)排氣的溫度變化大,而在插電式柴電混合動(dòng)力汽車的后處理系統(tǒng)中選擇性催化還原(Selective Catalytic Reduction,SCR)技術(shù)對(duì)排氣溫度比較敏感,因此會(huì)使得NOX排放惡劣[2].所以在插電式柴電混合動(dòng)力汽車上制定既保證盡量低的油耗又保證盡量低的NOX排放的控制策略,具有很重要的意義.
目前PHEV的整車控制策略研究得到了成熟的發(fā)展[3].基于規(guī)則的策略在工程中被大量應(yīng)用,其簡(jiǎn)單,有很高的實(shí)時(shí)性[4][5],但策略需要根據(jù)大量實(shí)驗(yàn)和專家經(jīng)驗(yàn)來(lái)制定.基于優(yōu)化的控制策略的分為瞬時(shí)優(yōu)化和全局優(yōu)化,其利用優(yōu)化算法最小化目標(biāo)函數(shù)實(shí)現(xiàn)整車能量的最佳分配[6],但其效率和實(shí)時(shí)性不高.基于學(xué)習(xí)的策略利用歷史數(shù)據(jù)或?qū)崟r(shí)數(shù)據(jù)進(jìn)行學(xué)習(xí)和應(yīng)用[7],可以適應(yīng)不同的工況,但依賴精確的車輛系統(tǒng)模型和專家經(jīng)驗(yàn).近年來(lái)大量學(xué)者將強(qiáng)化學(xué)習(xí)應(yīng)用到混合動(dòng)力控制策略的開(kāi)發(fā)中,如LIU T[8-9]等人提出基于Q-learning和DYNA算法的混合動(dòng)力車輛能量管理策略,并且證明了其可行性.但在傳統(tǒng)強(qiáng)化學(xué)習(xí)中面對(duì)高維或者連續(xù)狀態(tài)會(huì)導(dǎo)致維度災(zāi)難,難以收斂,深度強(qiáng)化學(xué)習(xí)可以靈活的解決復(fù)雜控制情況,很好的解決了這些問(wèn)題.如王勇[10]等人提出基于深度強(qiáng)化學(xué)習(xí)DDPG算法的PHEV能量管理策略,并證明了其優(yōu)越性,有效的降低了油耗.
本文提出了基于TD3算法的PHEV經(jīng)濟(jì)性和排放性的綜合優(yōu)化控制策略,采用行動(dòng)-評(píng)價(jià)算法(Actor-Critic,AC)的架構(gòu)和經(jīng)驗(yàn)回放機(jī)制,解決車輛復(fù)雜的動(dòng)作空間和連續(xù)動(dòng)作空間的問(wèn)題,最后將結(jié)果與DP策略進(jìn)行比對(duì)分析,證明其策略有很好的效果.
如圖1所示的單軸并聯(lián)式插電式柴電混合動(dòng)力汽車為本文的研究對(duì)象,其動(dòng)力系統(tǒng)的各部件以及相關(guān)參數(shù)如表1所示:
圖1 PHEV動(dòng)力系統(tǒng)結(jié)構(gòu)
表1 整車各部件相關(guān)參數(shù)
在建立發(fā)動(dòng)機(jī)模型時(shí)只考慮發(fā)動(dòng)機(jī)的輸入與輸出的映射關(guān)系,發(fā)動(dòng)機(jī)轉(zhuǎn)矩、轉(zhuǎn)速和燃油消耗量之間的關(guān)系,以及發(fā)動(dòng)機(jī)轉(zhuǎn)矩、轉(zhuǎn)速和NOX的排放量之間的關(guān)系,由發(fā)動(dòng)機(jī)臺(tái)架實(shí)驗(yàn)得到,然后通過(guò)插值實(shí)驗(yàn)穩(wěn)態(tài)數(shù)據(jù)建立發(fā)動(dòng)機(jī)油耗和NOX排放數(shù)值模型如圖2、圖3所示.
圖2 發(fā)動(dòng)機(jī)燃油消耗
圖3 發(fā)動(dòng)機(jī)NOX排放
數(shù)值模型表達(dá)式為:
(1)
(2)
式中:ge、gNOx、mfuel、mNOx分別為發(fā)動(dòng)機(jī)瞬時(shí)燃油消耗率、發(fā)動(dòng)機(jī)出口瞬時(shí)NOX排放率、發(fā)動(dòng)機(jī)燃油消耗質(zhì)量和發(fā)動(dòng)機(jī)出口NOX排放質(zhì)量;ωe為發(fā)動(dòng)機(jī)轉(zhuǎn)速;Te為發(fā)動(dòng)機(jī)轉(zhuǎn)矩;
本文不考慮溫度對(duì)電池內(nèi)部特性的影響,建立如圖4所示的電池模型:
圖4 電池內(nèi)阻模型
電池輸出電壓:
Ub=V(SOC)-R(SOC)Ib
(3)
電池電流:
(4)
電池SOC:
(5)
式中:V為開(kāi)路電壓,R為電池內(nèi)阻
SCR后處理技術(shù)的作用原理是利用催化劑在富氧的環(huán)境下作用在還原劑上將氮氧化物選擇性還原成N2和H2O,是降低柴油機(jī)NOX排放的有效手段之一[11].將復(fù)雜的SCR反應(yīng)簡(jiǎn)化,假設(shè)廢氣不能壓縮并且流動(dòng)為等熵流動(dòng),建立SCR溫度的模型為:
(6)
式中:TSCR為SCR催化器溫度,k;
Mexh為發(fā)動(dòng)機(jī)出口廢氣流速,kg/s;
CSCR為催化層比熱容;h為熱傳遞系數(shù);
Tamb為發(fā)動(dòng)機(jī)環(huán)境溫度,k;
Teng為發(fā)動(dòng)機(jī)出口溫度,k;
Cexh為廢氣比熱容.
在建立整車縱向動(dòng)力學(xué)模型時(shí),首先側(cè)向動(dòng)力學(xué)因素的影響忽略不計(jì),然后假設(shè)整車質(zhì)量集中在重心上,建立驅(qū)動(dòng)力平衡方程為:
(7)
式中:Fj為加速阻力;Ff為滾動(dòng)阻力;Fj為加速阻力;Fw為空氣阻力;M為汽車質(zhì)量;g為重力加速度;f為滾動(dòng)阻力系數(shù);α為道路坡度;CD為空阻系數(shù);A為汽車迎風(fēng)面積;v為車速;σ為汽車旋轉(zhuǎn)質(zhì)量換算系數(shù).
不考慮坡度因素的情況下,即α=0,給定車速v,根據(jù)上述方程計(jì)算出車輛需求功率和車輪需求轉(zhuǎn)速分別為:
(8)
(9)
強(qiáng)化學(xué)習(xí)的目標(biāo)就是通過(guò)智能體與環(huán)境之間的試錯(cuò)學(xué)習(xí),找到最優(yōu)策略π*,使得累積回報(bào)的期望最大[12],其原理如圖5所示:
圖5 強(qiáng)化學(xué)習(xí)示意圖
其中智能體是學(xué)習(xí)者和決策者,在每個(gè)時(shí)間步長(zhǎng)采用策略π的智能體根據(jù)觀測(cè)環(huán)境的狀態(tài)st(st∈S),選擇對(duì)應(yīng)動(dòng)作at(at∈A),然后動(dòng)作作用到環(huán)境中,得到對(duì)應(yīng)的回報(bào)rt+1和下一步的狀態(tài)st+1,智能體根據(jù)rt+1的大小不斷學(xué)習(xí)改進(jìn)其行為策略,以便獲得最大累積回報(bào).
定義t時(shí)刻開(kāi)始的累積回報(bào)為:
R(st,at)+γR(st+1,at+1)+γ2R(st+2,at+2)+…
(10)
簡(jiǎn)化為:
Rt+γRt+1+γ2Rt+2+…
(11)
式中:Rt為獎(jiǎng)勵(lì)回報(bào)函數(shù),γ為獎(jiǎng)勵(lì)衰減因子.
最大期望累積回報(bào)為:
Ε[Rt+γRt+1+γ2Rt+2+…]
(12)
定義基于策略π的狀態(tài)-動(dòng)作值函數(shù):
(13)
簡(jiǎn)化為:
(14)
基于Q(s,a)定義強(qiáng)化學(xué)習(xí)的目標(biāo)為找到最優(yōu)的策略π*,使每一個(gè)狀態(tài)的價(jià)值最大化,即:
π*=argmaxπQ(s,a),?s,a
(15)
深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,具備解決復(fù)雜控制問(wèn)題的能力[13].深度強(qiáng)化學(xué)習(xí)TD3算法網(wǎng)絡(luò)框架如圖6所示.TD3算法是一種針對(duì)連續(xù)行為動(dòng)作的策略學(xué)習(xí)方法,采用了行動(dòng)-評(píng)價(jià)算法(Actor-Critic,AC)的架構(gòu),用深度神經(jīng)網(wǎng)絡(luò)去擬合最優(yōu)狀態(tài)-動(dòng)作值函數(shù)Q(s,a),其是以DDPG算法為基礎(chǔ)的算法[14],具有6個(gè)網(wǎng)絡(luò).
圖6 TD3算法架構(gòu)
與DDPG相比TD3算法具有的優(yōu)點(diǎn):
(1)采用雙Critic網(wǎng)絡(luò)去估算Q值,相對(duì)較小的作為更新的目標(biāo),防止Q值的過(guò)估計(jì);
(2)延遲Actor網(wǎng)絡(luò)更新,本文中增加了算法的穩(wěn)定性;
(3)并且在用于計(jì)算目標(biāo)動(dòng)作值函數(shù)的目標(biāo)動(dòng)作上添加基于正太分布的噪聲,增加了算法的魯棒性.
基于上述理論基礎(chǔ),選取的控制動(dòng)作變量為電機(jī)的輸出功率Pm,狀態(tài)變量為需求功率Preq、SCR的溫度和SOC,目標(biāo)函數(shù)定義為帶獎(jiǎng)勵(lì)衰減的累積回報(bào):
(16)
式中:γ為獎(jiǎng)勵(lì)衰減因子用來(lái)保證函數(shù)收斂,γ∈[0,1];R(t)為獎(jiǎng)勵(lì)回報(bào)函數(shù).
強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)回報(bào)函數(shù)在指導(dǎo)智能體的學(xué)習(xí)方向上發(fā)揮著重要作用,本文中策略的目標(biāo)是整車油耗和排放的綜合指標(biāo)最小化,因此獎(jiǎng)勵(lì)回報(bào)函數(shù)定義如下:
R(t)=ω1R1(t)+ω2R2(t)+ω3(SOC-0.4)
(17)
(18)
(19)
系統(tǒng)控制變量為:
U(t)=Pm(t)
(20)
系統(tǒng)狀態(tài)變量為:
S(t)=[Preq(t),SOC(t),TSCR(t)]
(21)
系統(tǒng)物理約束條件為:
(22)
系統(tǒng)的邊界條件為:
(23)
基于上述理論將整車的綜合優(yōu)化問(wèn)題轉(zhuǎn)化為尋找最優(yōu)的控制策略π*對(duì)應(yīng)的控制動(dòng)作序列,將最優(yōu)狀態(tài)-動(dòng)作值函數(shù)定義為:
Q*(s,a)=maxπΕ[Jt|st=s,at=a]
(24)
可簡(jiǎn)化為:
(25)
本文提出的基于TD3算法的PHEV綜合優(yōu)化控制策略原理如圖7所示:
基于TD3算法的控制策略的核心是采用深度神經(jīng)網(wǎng)絡(luò)來(lái)擬合策略函數(shù)和動(dòng)作值函數(shù),分別對(duì)應(yīng)圖中的6個(gè)網(wǎng)絡(luò),即Actor估計(jì)網(wǎng)絡(luò)πω、Actor目標(biāo)網(wǎng)絡(luò)πω*、Critic估計(jì)網(wǎng)絡(luò)Qθ1、Critic估計(jì)網(wǎng)絡(luò)Qθ2、Critic目標(biāo)網(wǎng)絡(luò)Qθ1*、Critic目標(biāo)網(wǎng)絡(luò)Qθ2*,每個(gè)網(wǎng)絡(luò)的作用和更新規(guī)則如下:
Actor估計(jì)網(wǎng)絡(luò)πω:負(fù)責(zé)迭代更新參數(shù)ω,根據(jù)當(dāng)前狀態(tài)St選擇當(dāng)前最優(yōu)動(dòng)作At,用于和環(huán)境進(jìn)行交互產(chǎn)生下一時(shí)刻狀態(tài)St+1和立即獎(jiǎng)勵(lì)R;
Actor目標(biāo)網(wǎng)絡(luò)πω*:根據(jù)下一時(shí)刻狀態(tài)St+1選擇最優(yōu)下一動(dòng)作At+1;
Critic估計(jì)網(wǎng)絡(luò)Qθ1、Qθ2:根據(jù)狀態(tài)St和Actor估計(jì)網(wǎng)絡(luò)選取的動(dòng)作At計(jì)算動(dòng)作值函數(shù)Q(st,at|θi),并計(jì)算出當(dāng)前Q值梯度傳遞給Actor估計(jì)網(wǎng)絡(luò)指導(dǎo)最優(yōu)動(dòng)作的選?。瑫r(shí),還負(fù)責(zé)估計(jì)網(wǎng)絡(luò)參數(shù)θi的迭代更新,i=1,2.
Critic目標(biāo)網(wǎng)絡(luò)Qθ1*、Qθ2*:根據(jù)下一時(shí)刻車輛環(huán)境動(dòng)態(tài)St+1和最優(yōu)動(dòng)作At+1計(jì)算目標(biāo)Q值中的Q(st+1,at+1|θi*)部分,θi*為Critic目標(biāo)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù).
Actor目標(biāo)網(wǎng)絡(luò)πω*和兩個(gè)Critic目標(biāo)網(wǎng)絡(luò)的參數(shù)更新采用軟更新,即每次參數(shù)更新都以微小量變化逼近估計(jì)網(wǎng)絡(luò)參數(shù),其表達(dá)式為:
(26)
式中:τ為更新系數(shù),且τ<<1,這里取0.001.
Critic估計(jì)網(wǎng)絡(luò)Qθ1、Qθ2通過(guò)最小化損失函數(shù)來(lái)進(jìn)行參數(shù)的迭代更新,損失函數(shù)定義為目標(biāo)Q值與估計(jì)Q值的誤差平方,表達(dá)式如下:
(27)
L(θi)=Ε[(yt-Q(st,at|θi))2]
(28)
其中y(t)為目標(biāo)Q值,Q(st+1,at+1|θi*)為兩個(gè)Critic目標(biāo)網(wǎng)絡(luò)的輸出,選取其中更小的來(lái)計(jì)算目標(biāo)Q值,Q(st,at|θi)為兩個(gè)Critic估計(jì)網(wǎng)絡(luò)的輸出,采用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation,Adam)優(yōu)化算法來(lái)最小化損失函數(shù)實(shí)現(xiàn)值網(wǎng)絡(luò)參數(shù)的更新.
Actor估計(jì)網(wǎng)絡(luò)πω參數(shù)的更新需要依據(jù)Critic估計(jì)網(wǎng)絡(luò)提供的Q值梯度,其損失梯度定義為:
(29)
式中:?aQ(s,a|θi)為Critic估計(jì)網(wǎng)絡(luò)的Q值梯度,表示Actor估計(jì)網(wǎng)絡(luò)的動(dòng)作選取要朝著獲得更大的Q值方向移動(dòng);?ωμ′(s|ω)為Actor估計(jì)網(wǎng)絡(luò)的梯度,表示Actor估計(jì)網(wǎng)絡(luò)參數(shù)更新要向著加大這個(gè)動(dòng)作執(zhí)行概率的方向調(diào)整.
將Actor估計(jì)網(wǎng)絡(luò)的損失簡(jiǎn)化為得到的反饋Q值越大損失越小,因此Actor估計(jì)網(wǎng)絡(luò)的損失函數(shù)定義為:
(30)
為了提高算法的魯棒性,在Actor目標(biāo)網(wǎng)絡(luò)選擇出的下一動(dòng)作At+1上添加基于正太分布的噪聲,同時(shí)在Actor估計(jì)網(wǎng)絡(luò)輸出的控制動(dòng)作A上加上隨機(jī)噪聲ε,來(lái)保證在訓(xùn)練過(guò)程中能學(xué)習(xí)到更加優(yōu)化的算法,即:
(31)
μ′(st)=μ(st|ωt)+ε
(32)
其中,ε是添加的隨機(jī)噪聲,服從截?cái)嗾植糲lip(N(0,σ),-c,c),c>0.
搭建的Actor策略網(wǎng)絡(luò)和Critic價(jià)值網(wǎng)絡(luò)均采用5層全連接層神經(jīng)網(wǎng)絡(luò),其具體參數(shù)如表2所示:
表2 Actor策略網(wǎng)絡(luò)和Critic價(jià)值網(wǎng)絡(luò)參數(shù)
其中Actor策略網(wǎng)絡(luò)和Critic價(jià)值網(wǎng)絡(luò)的輸入層神經(jīng)元個(gè)數(shù)分別為3和4,對(duì)應(yīng)系統(tǒng)狀態(tài)和控制動(dòng)作.
兩個(gè)網(wǎng)絡(luò)的隱含層神經(jīng)元個(gè)數(shù)都為30,100,30,使用ReLU激活函數(shù),其輸出層的神經(jīng)元個(gè)數(shù)都為1,分別對(duì)應(yīng)策略函數(shù)μ(st|ωt)的動(dòng)作輸出和動(dòng)作值函數(shù)Q(st,at|θi).
基于TD3算法的綜合優(yōu)化控制策略算法流程如表3所示:
表3 基于TD3算法的綜合優(yōu)化控制策略算法
本文將TD3算法應(yīng)用到PHEV的能量管理控制策略問(wèn)題中,進(jìn)行PHEV性能的綜合優(yōu)化控制策略.在NEDC工況下對(duì)TD3算法進(jìn)行訓(xùn)練評(píng)估分析,相關(guān)參數(shù)如表4所示:
表4 TD3算法參數(shù)
圖8所示為回合累積回報(bào)變化曲線,其回報(bào)值越大,學(xué)習(xí)效果越好,可以看出回報(bào)值曲線震蕩變化,總體呈上升趨勢(shì),說(shuō)明智能體不斷調(diào)整策略以獲得最大的回合累積回報(bào).
圖8 回合累積回報(bào)值
圖9、圖10所示為TD3和DP策略下的SOC變化曲線和電機(jī)功率分配曲線,可以看出兩種策略在相同工況下SOC的軌跡曲線變化和電機(jī)功率分配曲線變化都基本保持一致,說(shuō)明TD3能得到DP全局最優(yōu)解的近似解.
圖9 TD3和DP控制策略的SOC曲線
圖10 TD3和DP控制策略的電機(jī)功率分配
圖11、圖12所示為在油耗和NOX排放MAP圖上發(fā)動(dòng)機(jī)工作點(diǎn)的分布狀況,可以看出在本文策略下發(fā)動(dòng)機(jī)主要工作在中等負(fù)荷區(qū)域,比較穩(wěn)定,所以發(fā)動(dòng)機(jī)燃油消耗量和NOX排放量相對(duì)較低,對(duì)應(yīng)發(fā)動(dòng)機(jī)燃油消耗量和NOX排放量為2.477 L/100 km、0.202 8 g/km,分別達(dá)到DP控制的94.1%和89.4%.
圖11 發(fā)動(dòng)機(jī)工作點(diǎn)在油耗MAP圖分布
圖12 發(fā)動(dòng)機(jī)工作點(diǎn)在NOX排放MAP圖分布
表5為DP和TD3策略的效果對(duì)比,可以看出,提出的基于TD3算法的PHEV控制策略取得了很好的效果.
表5 TD3和DP控制策略仿真結(jié)果對(duì)比
本文為實(shí)現(xiàn)PHEV的油耗與排放綜合優(yōu)化的目標(biāo),提出并構(gòu)建了基于深度強(qiáng)化學(xué)習(xí)TD3算法的控制策略,在NEDC工況下進(jìn)行離線訓(xùn)練得到最優(yōu)的電機(jī)功率分配情況.仿真結(jié)果表明,策略取得了較好的節(jié)油和減排效果,其燃油消耗為 2.477 L/100 km,達(dá)到DP策略94.1%的效果,SCR催化器出口NOX的排放量為0.202 8 g/km,達(dá)到DP策略89.4%的效果,相對(duì)DP控制策略具有實(shí)時(shí)在線應(yīng)用的潛力.