尹燕莉,張劉鋒,周亞偉,王瑞鑫,馬什鵬
(1.重慶交通大學 機電與車輛工程學院, 重慶 400074;2.包頭北奔重型汽車有限公司, 內(nèi)蒙古 包頭 014000)
目前,隨著汽車工業(yè)的快速發(fā)展,汽車為人們交通出行帶來了便利,同時也加劇了能源消耗與空氣污染。為了降低能源消耗與環(huán)境污染,中國開始大力發(fā)展節(jié)能與新能源汽車[1]。相比傳統(tǒng)重型商用車,混合動力重型商用車由于其可以有效降低化石燃料消耗和排放污染,得到了各大重卡車企的廣泛關注。而對于短行程物流運輸,可以通過采用純電動重型商用車進一步降低整車的運行成本和排放污染。對于純電動重型商用車的研發(fā),動力性是基礎,在保證其動力性的基礎上提高經(jīng)濟性。純電動重型商用車動力性與經(jīng)濟性主要受限于動力電池技術(shù)與傳動系統(tǒng)技術(shù)[2]。機械式自動變速器(automated mechanical transmission,AMT)中不同擋位的傳動比與換擋策略,決定了純電動重型商用車的動力性與經(jīng)濟性。因此,在擋位傳動比確定的條件下,純電動重型商用車的動力性、經(jīng)濟性主要與換擋策略有關。
根據(jù)是否應用智能算法確定換擋點,換擋策略可分為:傳統(tǒng)換擋策略和智能換擋策略。傳統(tǒng)換擋策略是指在選定換擋控制參數(shù)后,按照某些性能最優(yōu)的原則,通過動力學模型,計算得到最佳相鄰兩擋換擋點的換擋策略。智能換擋策略是指應用智能算法,優(yōu)化獲得某些性能最優(yōu)下的換擋點的換擋策略。換擋策略從優(yōu)化目標的角度,又可分為經(jīng)濟性換擋策略、動力性換擋策略和綜合換擋策略。
傳統(tǒng)換擋策略制定簡單,換擋控制平穩(wěn),但未考慮到工況的影響。因此,為了進一步提高整車的動力性與經(jīng)濟性,智能換擋策略被研究人員廣泛應用。相比傳統(tǒng)換擋策略,智能換擋策略采用不同優(yōu)化算法,獲得了最佳換擋策略,可以有效地解決傳統(tǒng)換擋策略未考慮工況及其他因素的問題,從而改善了整車性能。
基于智能算法優(yōu)化的經(jīng)濟性換擋策略包含了動態(tài)規(guī)劃算法[3-6]、粒子群算法[7-8]和模糊控制[9]等。在對整車經(jīng)濟性換擋策略優(yōu)化時,考慮整車效率和各工況特性,建立經(jīng)濟性換擋模型,應用智能算法最終獲得優(yōu)化后的經(jīng)濟性換擋策略。相比優(yōu)化前的換擋策略,優(yōu)化后的換擋策略有效提升了整車的經(jīng)濟性。以整車動力性為目標,確定最佳換擋點的換擋策略稱為動力性換擋策略。褚園民等[10]提出了模糊換擋控制策略,該策略以車速和油門踏板開度為換擋參數(shù),提升了整車的動力性。通過設置兼顧動力性與經(jīng)濟性的換擋目標,確定最佳換擋點的換擋策略稱為綜合換擋策略。目前針對綜合換擋策略優(yōu)化的智能算法有:遺傳算法[11-12]、分層引力搜索算法[13]、粒子群算法[14-15]和動態(tài)規(guī)劃算法[16]。以上智能算法換擋策略的應用為實車換擋策略的制定提供了理論基礎,利用智能算法的計算效率和優(yōu)化精度,建立了考慮工況信息的換擋優(yōu)化模型,獲得相比傳統(tǒng)換擋策略更優(yōu)的控制性能。本文應用Q學習算法對一款純電動重型商用車的綜合換擋策略進行了優(yōu)化。
Q學習算法是強化學習方法中的一種由數(shù)據(jù)驅(qū)動的智能算法[17]。該算法以控制系統(tǒng)為智能體,除控制系統(tǒng)外為環(huán)境,控制變量為動作。智能體選擇不同的動作,與環(huán)境進行交互,通過不斷迭代學習,最終獲得最優(yōu)決策序列,能夠有效地解決模型已知與模型未知的非線性優(yōu)化問題,具有魯棒性強的特點。該方法不受固定模式結(jié)構(gòu)的限制,以數(shù)據(jù)為驅(qū)動,從數(shù)據(jù)中自動提取特征并進行分析,利用數(shù)據(jù)不斷改善自身性能,表現(xiàn)出良好地準確性和適用性。因此,該算法被廣泛應用于解決新能源汽車的能量管理問題。結(jié)合Q學習算法將狀態(tài)時域轉(zhuǎn)化為狀態(tài)空間域的特點,本文針對一款純電動重型商用車,提出了基于Q學習的純電動重型商用車智能綜合換擋控制策略。該方法基于馬爾科夫理論,構(gòu)建需求功率轉(zhuǎn)移概率模型。以電能消耗與加速度量綱歸一化最大為加權(quán)目標,建立綜合性能換擋策略優(yōu)化模型,運用Q學習算法,得到不同車速下的需求功率、SOC、速比三者關系的MAP圖,制定出整車智能綜合換擋策略。
本文研究的純電動重型商用車,其主要部件包括:動力電池、電動機、離合器和4擋AMT變速器等。在驅(qū)動工況時,電動機提供動力驅(qū)動車輪;在制動工況時,電動機作為發(fā)電機回收制動能量。整車的主要參數(shù)如表1所示。
表1 純電動重型商用車參數(shù)
整車驅(qū)動時需求功率由滾動阻力、空氣阻力和加速阻力的功率組成,這里忽略坡度阻力。
Preq=(Ff+Fw+Fj)v
(1)
Ff=fmg
(2)
(3)
(4)
式中:Preq為整車需求功率;Ff為滾動阻力;Fw為空氣阻力;Fj為加速阻力;v為車速;f為滾動阻力系數(shù);m為整車質(zhì)量;CD為空氣阻力系數(shù);A為汽車迎風面積;δ為旋轉(zhuǎn)質(zhì)量換算系數(shù)。
電動機是純電動重型商用車的主要動力源,驅(qū)動時由電動機單獨驅(qū)動車輛,制動時也可以作為發(fā)電機給電池充電。電動機功率可以表示為:
(5)
式中:Pm為電動機功率;Tm為電動機轉(zhuǎn)矩;nm為電動機轉(zhuǎn)速;ηm為電動機效率,它是電動機轉(zhuǎn)矩和轉(zhuǎn)速的函數(shù)。電動機效率可以通過實驗得到,如圖1所示。
圖1 電動機的效率圖
電池是純電動汽車的重要部件之一。純電動重型商用車中電池的主要作用:為電機提供能量驅(qū)動車輪和再生制動時進行能量回收。不考慮電池壽命和溫度變化的影響,通過試驗得到了電池的電動勢和內(nèi)阻模型。
(6)
式中:ESOC為當前狀態(tài)下的電動勢;E0為電池電動常數(shù)擬合系數(shù);SOC為電池的荷電狀態(tài)。
(7)
式中:RSOC為當前狀態(tài)下的內(nèi)阻;δ0為內(nèi)阻隨電流變化的補償系數(shù);R0為電池的內(nèi)阻常數(shù);λi為擬合系數(shù)。
電池的SOC計算過程如公式所示:
(8)
(9)
由此可得,
(10)
式中:I為電池的電流;Qbat為電池容量;Pbat為電池功率。
傳統(tǒng)換擋策略的制定,主要在已知整車參數(shù)的條件下,根據(jù)車輛動力學理論,建立換擋模型,依據(jù)優(yōu)化目標不同,可以分為:傳統(tǒng)動力性換擋和傳統(tǒng)經(jīng)濟性換擋策略。
動力性換擋策略可以獲得車輛最大動力時的換擋點集合。從車速與加速度踏板開度的角度考慮,傳統(tǒng)動力性換擋策略的制定方法如下:在某一加速度踏板開度下,以相鄰擋位純電動商用車加速度曲線的交點作為換擋點,即an=an+1;若相鄰兩擋加速度曲線未出現(xiàn)交點,則選擇較低擋的邊界車速作為該踏板開度下的升擋點。為了防止頻繁換擋,降擋點應與升擋點設置一定的換擋速差,根據(jù)經(jīng)驗一般取2~8 km/h,這里取換擋速差為4 km/h。圖2為根據(jù)整車參數(shù)獲得的傳統(tǒng)動力性換擋曲線。
圖2 傳統(tǒng)動力性換擋曲線
為了提升純電動汽車換擋經(jīng)濟性,要求換擋策略應使車輛盡量運行在電機高效率區(qū)域。與傳統(tǒng)動力性換擋策略制定方法相似,不同的是換擋點的目標不同。純電動汽車傳統(tǒng)經(jīng)濟性換擋策略制定方法,是將計算得到的各加速度踏板開度下相鄰擋位電機效率曲線交點作為經(jīng)濟性換擋點。
與傳統(tǒng)動力性換擋規(guī)律相同,在制定傳統(tǒng)經(jīng)濟性降擋策略時,也應設置降擋速差,圖3為最終獲得的傳統(tǒng)經(jīng)濟性換擋曲線。
圖3 傳統(tǒng)經(jīng)濟性換擋曲線
以單一目標(動力性或者經(jīng)濟性)制定的換擋策略不能同時兼顧整車的動力性與經(jīng)濟性,對于純電動重型商用車需在保證動力性的基礎上,盡可能地降低能量消耗,為了解決該問題需制定出兼顧動力性與經(jīng)濟性的綜合換擋策略。一般中小加速度踏板開度以保證經(jīng)濟性為主,兼顧動力性;較高的加速度踏板開度以動力性為主。
以加速度踏板開度為40%時為界限,低于該值時采用傳統(tǒng)經(jīng)濟性換擋策略,反之,則采用傳統(tǒng)動力性換擋策略。由以上制定的傳統(tǒng)動力性與經(jīng)濟性換擋策略制定出兼顧動力性與經(jīng)濟性的綜合換擋策略,圖4表示最終獲得的傳統(tǒng)綜合換擋曲線。
圖4 傳統(tǒng)綜合換擋曲線
Q學習算法是強化學習方法中的一種由數(shù)據(jù)驅(qū)動的智能算法,該算法基于馬爾科夫決策過程,以控制系統(tǒng)為智能體,除控制系統(tǒng)外為環(huán)境,控制變量為動作。根據(jù)當前狀態(tài)s,智能體通過選擇動作a與環(huán)境進行交互,產(chǎn)生新的狀態(tài)st+1,同時獲得當前狀態(tài)動作對的回報r,并評估回報以此來更新Q表。每個動作都有相應的回報,回報不僅考慮當前的利益,還考慮對未來利益的期望,因此,Q學習是兼顧全局的優(yōu)化算法。通過評估動作獲得的獎勵,智能體選擇每一個狀態(tài)下最大獎勵對應的動作,更新最優(yōu)動作選擇策略;智能體交互的過程也稱為學習的過程,經(jīng)過不斷的迭代學習,直至Q表收斂,最終獲得當前狀態(tài)的最優(yōu)策略。與基于時間域角度優(yōu)化的算法相比,Q學習算法將狀態(tài)從時間域轉(zhuǎn)化狀態(tài)空間域,使得優(yōu)化結(jié)果不受時間維度的影響,一定程度上對工況進行了解耦,提高了優(yōu)化結(jié)果的適應性。因而本文制定了基于Q學習算法的純電動重型商用車智能綜合換擋策略。
在工況數(shù)據(jù)確定后,由整車動力學式(1)~(4)可知,工況時間速度序列可等效為時間需求功率序列。由馬爾科夫決策過程可知,下一時刻需求功率只與當前時刻需求功率有關,與以往需求功率無關。由此,建立需求功率轉(zhuǎn)移概率矩陣模型,采用最鄰近法和最大似然估計法,計算需求功率的轉(zhuǎn)移概率如式(11)(12):
(11)
(12)
選取重型商用車常用工況C-WTVC作為仿真工況,在工況數(shù)據(jù)已知的前提下,由式(11)計算不同平均車速下的需求功率轉(zhuǎn)移概率矩陣。圖5為C-WTVC工況數(shù)據(jù)圖,圖6表示平均車速分別為10、20、30、40 km/h的需求功率轉(zhuǎn)移概率矩陣圖。
圖5 C-WTVC工況數(shù)據(jù)
圖6 需求功率概率轉(zhuǎn)移矩陣圖
該策略以速比ig作為控制變量,車速v、電池SOC和需求功率Preq作為狀態(tài)變量。
(13)
應用Q學習算法優(yōu)化速比,目的是找到最優(yōu)策略π使得整車的總回報期望最大,如式(14)所示。
(14)
式中:γ取值[0,1],表示折扣因子。在Q學習算法中,狀態(tài)變量從時間域轉(zhuǎn)化為空間域,控制變量以空間域的角度優(yōu)化。在一定車速下,加速度不受時間維度影響,不同速比對應不同的加速度,能夠反映控制變量的動力性差異,因此,在Q學習算法中,選擇加速度作為動力性評價函數(shù),選擇電能變化量作為經(jīng)濟性評價函數(shù)。利用線性加權(quán)方法構(gòu)建上式中的回報函數(shù)rt:
(15)
式中:kd和kj為動力性和經(jīng)濟性加權(quán)系數(shù),為了與動作a區(qū)分,選擇u表示加速度,ΔSOC表示電能變化量。
由于兩者符號不同,不能直接相加減。因此,需要分別對2個評價函數(shù)進行量綱歸一化處理,從有量綱到無量綱[18],如式(16)(17)所示。
u′=(u-umin)/(umax-umin)
(16)
ΔSOC′=(ΔSOC-ΔSOCmin)/(ΔSOCmax-ΔSOCmin)
(17)
式中:u′與ΔSOC′分別表示量綱歸一化處理后2個分評價函數(shù),umax為當前狀態(tài)不同控制變量下動力性評價函數(shù)的極大值,umin為當前狀態(tài)不同控制變量下動力性評價函數(shù)的極小值,ΔSOCmax為當前狀態(tài)不同控制變量下經(jīng)濟性評價函數(shù)的極大值,ΔSOCmin為當前狀態(tài)不同控制變量下經(jīng)濟性評價函數(shù)的極小值。式(15)可以寫為:
(18)
不同組合的加權(quán)系數(shù),可以體現(xiàn)出駕駛員對整車不同的性能需求。文獻[18]針對純電動公交車,對不同組合的加權(quán)系數(shù)優(yōu)化結(jié)果進行了分析,該分析結(jié)論依然適用于本文的研究對象??紤]到本文研究對象為純電動重型商用車,在確保動力性的基礎上提高經(jīng)濟性。因此,動力性權(quán)重系數(shù)應大于經(jīng)濟性權(quán)重系數(shù),但兩者不應相差較大,若較大,則經(jīng)濟性提高不明顯?;谝陨戏治?,本文設置kd為0.6,kj為0.4。
為了使優(yōu)化結(jié)果能確保各部件運行在允許范圍內(nèi),需滿足以下約束條件:
(19)
式中:SOCmin與SOCmax為電池SOC的上下限;Pb,min與Pb,max為電池功率的上下限;Tm,min與Tm,max為電機轉(zhuǎn)矩的上下限;nm,min與nm,max為電機的最小轉(zhuǎn)速與最大轉(zhuǎn)速。
基于Q學習算法的純電動重型商用車智能綜合換擋策略的算法步驟如下?;赒學習的智能綜合換擋控制策略流程如圖7所示。
圖7 基于Q學習的智能綜合換擋控制策略流程框圖
步驟1初始化Q學習算法參數(shù):探索率ε、學習率α和折扣因子γ,設置迭代次數(shù)N;
步驟2選擇車速v,電池SOC和Preq作為狀態(tài)變量,AMT速比ig作為控制變量;
步驟3構(gòu)建兼顧動力性與經(jīng)濟性的綜合回報函數(shù)(式(18));
步驟4根據(jù)構(gòu)建的綜合回報函數(shù),應用ε-greedy策略(式(20))尋找最大Q(s,a)值對應的動作,計算當前狀態(tài)s和動作a的回報r和下一時刻狀態(tài)s′;
(20)
步驟5基于greedy策略選擇下一時刻動作a′,應用式(18)更新當前狀態(tài)動作的Q(s,a)值;
Q(s,a)←Q(s,a)+α[r+γmaxQ(s′,a′)-Q(s,a)]
(21)
步驟6判斷當前狀態(tài)是否為最終狀態(tài),若為最終狀態(tài),繼續(xù)下一步;反之重復步驟2、3、4和5;
步驟7計算相鄰迭代次數(shù)的Q(s,a)值的絕對值之差是否小于閾值,如小于閾值表明策略收斂,結(jié)束迭代;反之重復步驟2、3、4、5和6;
步驟8將收斂后的Q(s,a)值對應的策略作為最優(yōu)策略。
基于C-WTVC工況,運用Q學習算法,優(yōu)化純電動重型商用車綜合換擋策略。圖8顯示了車速分別為10、20、30 km/h時,整車速比優(yōu)化MAP圖。
圖8 基于Q學習算法的不同車速下的速比MAP圖
由圖8中的(a)和(c)可知,在車速為10 km/h和30 km/h時,速比穩(wěn)定分布無波動。車速為10 km/h時速比穩(wěn)定分布在4.5,也即是在該車速下,基本穩(wěn)定選擇1擋,這與運行在較低車速時選擇較低擋策略吻合。隨著車速增加,當車速在30 km/h時,速比穩(wěn)定分布在2.5,表示隨著車速逐漸增加,擋位也隨之升高。由圖8中的(b)可知,當車速為20 km/h時,速比分布出現(xiàn)了波動,在同一車速下隨著需求功率的增加,速比降低,擋位從1擋升至2擋,這是因為隨著需求功率的增加,電機轉(zhuǎn)矩與轉(zhuǎn)速也發(fā)生變化,升擋后電機運行在效率較高區(qū)域;同時速比分布的波動,也表明20 km/h處于1擋與2擋的換擋重疊區(qū)域。從 20 km/h的優(yōu)化結(jié)果,可以看出1擋與2擋的換擋點在20 km/h附近。
由Q學習優(yōu)化得到的速比MAP圖,運用Matlab插值方法,獲得C-WTVC工況下的每一時刻速比變化,并轉(zhuǎn)化為擋位分布,如圖9所示。
圖9 基于Q學習優(yōu)化的C-WTVC擋位分布
由Q學習優(yōu)化結(jié)果,獲得基于Q學習的智能綜合換擋曲線,如圖10所示。
圖10 基于Q學習的智能綜合換擋曲線
基于Cruise軟件,構(gòu)建純電動重型商用車整車仿真模型,選取C-WTVC循環(huán)工況,進行整車仿真,整車仿真模型如圖11所示。
圖11 純電動重型商用車仿真模型
采用變速器控制程序和控制模塊(gear box program 與gear box control),根據(jù)前文中制定的換擋策略定義整車的換擋過程,以C-WTVC工況下的電能消耗評價換擋策略的經(jīng)濟性。對于Q學習算法,先是將狀態(tài)從時間域轉(zhuǎn)化為空間域,優(yōu)化獲得最優(yōu)速比MAP圖,最后,將狀態(tài)空間域回歸時間域,基于速比MAP圖,獲得工況的速比時間序列。因此,在Cruise仿真中,為了便于分析與比較2種策略的動力性,選擇0~50 km/h的加速時間評價換擋策略的動力性。在模型中設置計算任務,包含循環(huán)工況計算和全負荷加速計算,初始SOC設置為0.95。圖12為基于Q學習的智能綜合換擋策略與傳統(tǒng)綜合換擋策略的仿真對比,2種策略的動力性與經(jīng)濟性仿真結(jié)果如表2所示。
表2 2種綜合換擋策略仿真對比
圖12中,藍色實線表示基于Q學習的智能綜合換擋策略優(yōu)化結(jié)果,紅色虛線表示傳統(tǒng)綜合換擋策略優(yōu)化結(jié)果。從圖12(b)可以看出,2種策略的擋位分布相差較大,這是因為運用Q學習算法優(yōu)化綜合換擋策略時,考慮每個狀態(tài)的全局最優(yōu)性,傳統(tǒng)綜合換擋策略只考慮了瞬時最優(yōu)。圖12(c)為2種策略驅(qū)動時的電機轉(zhuǎn)矩曲線,由于2種策略擋位分布不同,相應的電機轉(zhuǎn)矩分布也不相同,不同換擋策略對應的電池SOC也相應發(fā)生變化,如圖12(d)所示,基于Q學習的智能綜合換擋策略最終SOC為0.84,ΔSOC=0.11;基于傳統(tǒng)綜合換擋策略的最終SOC為0.834,ΔSOC=0.116。相比傳統(tǒng)綜合換擋策略,基于Q學習的智能綜合換擋策略的SOC變化量減少了5.2%。
圖12 2種綜合換擋策略仿真對比
由表2可見,從動力性角度看,基于Q學習的智能換擋策略的0~50 km/h加速時間為25.15 s,相比傳統(tǒng)綜合換擋策略的26.37 s,基于Q學習的智能綜合換擋策略的0~50 km/h加速時間減少了1.22 s,加速時間縮短了4.6%。從經(jīng)濟性角度看,在C-WTVC工況下,基于Q學習的智能換擋策略電能消耗為26.45 kW·h,相比傳統(tǒng)綜合換擋策略的27.92 kW·h減少了1.47 kW·h,能量消耗率降低了5.3%。以上分析可以得到,本文采用Q學習算法獲得的智能綜合換擋策略是有效的。
圖13為中國典型城市公交循環(huán)(CCBC)數(shù)據(jù),表3表示,在CCBC工況下的2種綜合換擋策略仿真對比,仿真結(jié)果表明,基于Q學習的智能綜合換擋策略0~50 km/h的加速時間為26.17 s,相比傳統(tǒng)換擋策略的26.56 s,加速時間減少了0.39 s?;赒學習的智能綜合換擋策略的電能消耗為6.11 kW·h,相比傳統(tǒng)綜合換擋策略的6.18 kW·h減少了0.07 kW·h,能量消耗率降低了1.1%。CCBC工況的仿真結(jié)果進一步驗證了基于Q學習的智能綜合換擋策略的可行性。
圖13 CCBC工況數(shù)據(jù)
表3 CCBC工況2種綜合換擋策略仿真對比
1) 根據(jù)整車換擋策略對動力性與經(jīng)濟性的影響,利用動力學公式,分別獲得了傳統(tǒng)最優(yōu)動力性換擋策略與經(jīng)濟性換擋策略,通過設置加速度踏板開度閾值,提取了傳統(tǒng)綜合換擋策略,為后續(xù)制定基于Q學習算法的智能綜合換擋控制策略提供了理論基礎。
2) 選擇車速、SOC、需求功率Preq為狀態(tài)變量,選擇速比為控制變量,分別以加速度與電能消耗作為動力性與經(jīng)濟性的評價函數(shù),對二者評價函數(shù)進行無量綱歸一化,構(gòu)建兼顧動力性與經(jīng)濟性的綜合回報函數(shù),最后,運用Q學習算法優(yōu)化得到智能綜合換擋策略?;贑ruise軟件,建立了純電動重型商用車仿真模型,分別對基于Q學習算法的智能綜合換擋策略與傳統(tǒng)綜合換擋策略進行了綜合性能仿真。仿真結(jié)果表明:相比傳統(tǒng)綜合換擋策略,基于Q學習算法的智能綜合換擋策略能夠有效地改善整車的經(jīng)濟性與動力性。