【摘" 要】文章針對(duì)強(qiáng)化學(xué)習(xí)算法在半主動(dòng)懸架控制策略學(xué)習(xí)與控制中存在樣本效率低、泛化性能差等問題,設(shè)計(jì)一種基于強(qiáng)化學(xué)習(xí)算法的半主動(dòng)懸架PID控制。通過DDPG算法實(shí)現(xiàn)PID參數(shù)的自適應(yīng)整定,以應(yīng)對(duì)半主動(dòng)懸架控制中的復(fù)雜非線性動(dòng)態(tài)行為和多變路況問題。通過合理設(shè)計(jì)動(dòng)作量與獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)對(duì)不同駕駛條件的自適應(yīng)性調(diào)節(jié)。仿真結(jié)果驗(yàn)證該方法的有效性,顯著提高車輛乘坐舒適性,展示在復(fù)雜路況下廣泛的應(yīng)用前景。
【關(guān)鍵詞】強(qiáng)化學(xué)習(xí);半主動(dòng)懸架;DDPG;自適應(yīng);仿真
中圖分類號(hào):U463.33" " 文獻(xiàn)標(biāo)識(shí)碼:A" " 文章編號(hào):1003-8639( 2024 )12-0029-04
PID Control of Semi-active Suspension Based on Reinforcement Learning
【Abstract】This paper addresses the issues of low sample efficiency and poor generalization performance in reinforcement learning algorithms for semi-active suspension control strategy learning and control. It proposes a PID control method for semi-active suspension based on reinforcement learning algorithms. By employing the DDPG algorithm to achieve adaptive tuning of PID parameters,the method effectively tackles the complex nonlinear dynamic behavior and varying road conditions in semi-active suspension control. Through the rational design of action and reward functions,the method achieves adaptive adjustment to different driving conditions. Simulation results validate the effectiveness of this approach,significantly improving vehicle ride comfort and demonstrating broad application prospects under complex road conditions.
【Key words】reinforcement learning;semi-active suspension;DDPG;self-adaption;simulation
0" 引言
半主動(dòng)懸架是一種通過動(dòng)態(tài)調(diào)整阻尼器的阻尼力來改善車輛乘坐舒適性和操控性能的懸架系統(tǒng)。它通過電子控制單元ECU根據(jù)傳感器數(shù)據(jù)實(shí)時(shí)調(diào)節(jié)阻尼器的阻尼特性,常采用天棚、地棚或組合控制策略,顯著減少路面不平對(duì)車身的沖擊,增強(qiáng)車輛的穩(wěn)定性和操控性。半主動(dòng)懸架成本較低,技術(shù)成熟,具有廣闊的實(shí)際應(yīng)用前景。
在半主動(dòng)懸架傳統(tǒng)控制策略研究中,往往依賴預(yù)先設(shè)定的參數(shù),如天棚控制器阻尼系數(shù)、PID控制器參數(shù),難以適應(yīng)復(fù)雜多變的路況和車輛動(dòng)態(tài)行為。特別是在面對(duì)不同駕駛條件和環(huán)境變化時(shí),固定的控制參數(shù)難以保證最佳的懸架性能。這就需要一種更為靈活和智能的控制方法,能夠根據(jù)實(shí)時(shí)的路況和車輛狀態(tài)動(dòng)態(tài)調(diào)整懸架系統(tǒng)的參數(shù)。
國內(nèi)外學(xué)者對(duì)半主動(dòng)懸架新型控制策略進(jìn)行了大量研究??馨l(fā)榮等[1]提出一種基于RF-XGBoost路面等級(jí)識(shí)別算法的半主動(dòng)懸架內(nèi)外環(huán)控制策略,通過外環(huán)天地棚控制與內(nèi)環(huán)自適應(yīng)滑??刂葡嘟Y(jié)合,實(shí)現(xiàn)了非線性懸架的自適應(yīng)控制。薛文平[2]等提出一種基于遺傳算法的變論域模糊PID控制方法,依據(jù)變論域思想設(shè)計(jì)模糊PID控制器。采用GA來優(yōu)化變論域中伸縮因子描述函數(shù)的參數(shù)。劉邱祖[3]等利用天棚阻尼系統(tǒng)建立滑??刂破鳎x擇徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)與模糊控制優(yōu)化控制系統(tǒng),并開展仿真測試。張勇廣[4]等通過BP神經(jīng)網(wǎng)絡(luò)建立CDC減振器非參數(shù)模型,通過隨機(jī)路面四輪激勵(lì)輸入得到車輛簧下質(zhì)量加速度響應(yīng),訓(xùn)練了LSTM神經(jīng)網(wǎng)絡(luò),成功有效識(shí)別路面等級(jí)。彭屹[5]等設(shè)計(jì)模糊PID控制器對(duì)半主動(dòng)懸架進(jìn)行控制,有效減小了車身加速度、懸架動(dòng)變形及前后車輪動(dòng)載荷,改善車輛行駛過程中的振動(dòng)。Daekynn等[6]提出基于TRPO的半主動(dòng)懸架控制策略,設(shè)計(jì)狀態(tài)歸一化濾波器來提高泛化能力,在乘坐舒適性方面表現(xiàn)出了極佳的性能。本文提出一種基于強(qiáng)化學(xué)習(xí)算法的半主動(dòng)懸架PID控制方法。
1" 模型搭建
二自由度1/4半主動(dòng)懸架模型如圖1所示。其中m1為非簧載質(zhì)量,m2為簧載質(zhì)量,ks為懸架彈簧剛度,kt為輪胎剛度,F(xiàn)為阻尼器的可調(diào)阻尼力,z1為簧載質(zhì)量位移,z2為非簧載質(zhì)量位移,zq為路面輸入。
懸架動(dòng)力學(xué)方程為:
式中:t——時(shí)間變量;G0——路面不平度系數(shù),m3;v——車輛速度,m/s;ω(t)——數(shù)學(xué)期望為0的高斯白噪聲;f0——下截止頻率,Hz。
系統(tǒng)的狀態(tài)方程為:
式中:A——系數(shù)矩陣;B——控制矩陣;C——輸出矩陣;D——傳遞矩陣。
2" 基于強(qiáng)化學(xué)習(xí)的PID控制器
2.1" 半主動(dòng)懸架PID控制器
PID是一種簡單而有效的反饋控制器,通過調(diào)整比例、積分和微分3個(gè)環(huán)節(jié)參數(shù),可以實(shí)現(xiàn)對(duì)系統(tǒng)的精確控制和優(yōu)化,PID控制原理如圖2所示。設(shè)定車身垂向加速度、懸架動(dòng)行程、輪胎動(dòng)載荷為懸架控制器的控制目標(biāo),PID輸出的控制力F為:
式中:et——系統(tǒng)誤差;kp——比例系數(shù);ki——積分系數(shù);kd——微分系數(shù);T——控制周期。
2.2" 強(qiáng)化學(xué)習(xí)算法優(yōu)化的PID控制器
強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是一種機(jī)器學(xué)習(xí)方法,其框架由智能體(Agent)與馬爾科夫決策過程(Markov Decision Process,MDP)組成,通過智能體(Agent)與環(huán)境的不斷交互來學(xué)習(xí)最佳策略,從而最大化累積獎(jiǎng)勵(lì)。智能體在不同狀態(tài)下選擇動(dòng)作,依據(jù)環(huán)境反饋的獎(jiǎng)勵(lì)或懲罰進(jìn)行調(diào)整,最終長期實(shí)現(xiàn)最優(yōu)行為,其原理如圖3所示。
使用強(qiáng)化學(xué)習(xí)算法對(duì)PID參數(shù)進(jìn)行優(yōu)化,可以有效應(yīng)對(duì)非線性系統(tǒng)的復(fù)雜動(dòng)態(tài)行為,實(shí)現(xiàn)自適應(yīng)的參數(shù)調(diào)整,找到全局最優(yōu)解,并能夠在多目標(biāo)優(yōu)化中表現(xiàn)出色?;贒DPG優(yōu)化的PID控制器設(shè)計(jì)原理圖如圖4所示。
為使DDPG算法能夠訓(xùn)練學(xué)習(xí)到期望的控制策略,需對(duì)強(qiáng)化學(xué)習(xí)MDP過程進(jìn)行設(shè)計(jì)。
定義t時(shí)刻狀態(tài)變量st包括:車身垂向加速度、懸架動(dòng)撓度、輪胎動(dòng)行程。同時(shí)對(duì)各狀態(tài)變量進(jìn)行狀態(tài)歸一化處理,當(dāng)前時(shí)刻的狀態(tài)變量可表示為:
智能體動(dòng)作量at為PID控制參數(shù)kp、ki、kd,可表示為:
獎(jiǎng)勵(lì)是訓(xùn)練環(huán)境在st處執(zhí)行at后反饋給智能體的標(biāo)量信號(hào),本文設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)R為:
式中:λ1、λ2、λ3——車身垂向加速度、懸架動(dòng)撓度、輪胎動(dòng)行程的權(quán)重系數(shù),權(quán)重系數(shù)根據(jù)目標(biāo)參數(shù)優(yōu)化的側(cè)重點(diǎn)進(jìn)行設(shè)計(jì)。本文考慮車輛乘坐舒適性和操縱穩(wěn)定性,經(jīng)多次訓(xùn)練與調(diào)整,λ1=-10,λ2=-1,λ3=-1時(shí),算法能夠較快訓(xùn)練學(xué)習(xí)達(dá)到收斂。
強(qiáng)化學(xué)習(xí)算法訓(xùn)練需適當(dāng)?shù)纳窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu),以滿足近似目標(biāo)函數(shù)的需求,各神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5、圖6所示。
Actor網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)為5層,輸入為系統(tǒng)狀態(tài)變量st,輸出為動(dòng)作量at。Critic網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)為5層,輸入包括系統(tǒng)的狀態(tài)st和動(dòng)作at,輸出為當(dāng)前狀態(tài)、動(dòng)作對(duì)應(yīng)的Q值。
3" 算法訓(xùn)練與仿真分析
3.1" 強(qiáng)化學(xué)習(xí)算法訓(xùn)練
本文基于MATLAB/Simulink建立DDPG-PID強(qiáng)化學(xué)習(xí)算法訓(xùn)練環(huán)境(圖7),其中包括算法智能體、1/4半主動(dòng)懸架模型、PID控制算法等。
模型中1/4半主動(dòng)懸架模型參數(shù)為:m2=300kg,m1=50kg,ks=22000N/m,kt=200000N/m。訓(xùn)練工況采用C級(jí)隨機(jī)路面,車速為20m/s,強(qiáng)化學(xué)習(xí)算法訓(xùn)練超參數(shù)見表1。
3.2" 仿真驗(yàn)證
3.2.1" 減速帶路面
導(dǎo)出訓(xùn)練后的智能體進(jìn)行仿真驗(yàn)證,減速帶路面高度、寬度和車速分別設(shè)定為0.05m、0.3m、10m/s,仿真時(shí)長為2s,采樣時(shí)間為0.01s。
基于DDPG算法優(yōu)化的PID控制器控制效果與被動(dòng)懸架在減速帶路面下的對(duì)比如圖8~圖10所示,車身垂向加速度、懸架動(dòng)撓度與輪胎動(dòng)行程峰值明顯降低,系統(tǒng)調(diào)節(jié)時(shí)間更短,均方根值分別降低了48.31%、37.5%、31.25%,提升了車輛行駛平順性。減速帶路面懸架系統(tǒng)性能評(píng)價(jià)指標(biāo)見表2。
3.2.2" 隨機(jī)路面
在C級(jí)隨機(jī)路面情況下,設(shè)定仿真車速為20m/s,仿真時(shí)長為20s,采樣時(shí)間為0.01s。
圖11~圖13分別為C級(jí)隨機(jī)路面下車身垂向加速度、懸架動(dòng)撓度和輪胎動(dòng)行程響應(yīng)曲線,均方根值對(duì)比見表3。車身垂向加速度和懸架動(dòng)撓度響應(yīng)對(duì)比被動(dòng)懸架明顯降低,輪胎動(dòng)行程優(yōu)化效果不明顯,均方根值分別降低了24.66%、12.35%、2.59%,表明算法在提升車輛乘坐舒適性方面有著良好的效果。
4" 結(jié)束語
本文為半主動(dòng)懸架系統(tǒng)的智能控制提供了一種新的解決方案,研究了強(qiáng)化學(xué)習(xí)算法在優(yōu)化PID控制器參數(shù)方面的應(yīng)用,提高半主動(dòng)懸架系統(tǒng)的性能。通過設(shè)計(jì)合理的動(dòng)作量和獎(jiǎng)勵(lì)函數(shù),強(qiáng)化學(xué)習(xí)智能體能夠動(dòng)態(tài)調(diào)整PID參數(shù),以應(yīng)對(duì)不同的路況和駕駛條件。
相關(guān)仿真結(jié)果表明,采用強(qiáng)化學(xué)習(xí)算法優(yōu)化的PID控制器在多種測試場景下均表現(xiàn)出色,有效減小了車身振動(dòng)和懸架位移,提高了車輛乘坐舒適性。
因此,基于強(qiáng)化學(xué)習(xí)算法優(yōu)化的PID控制器在汽車半主動(dòng)懸架的控制中有著廣泛的應(yīng)用前景。
參考文獻(xiàn):
[1] 寇發(fā)榮,郭楊娟,劉朋濤,等. 基于路面等級(jí)識(shí)別的車輛半主動(dòng)懸架內(nèi)外環(huán)控制[J]. 噪聲與振動(dòng)控制,2024,44(2):171-177.
[2] 薛文平,張春玲. 基于遺傳算法的汽車主動(dòng)懸架變論域模糊PID控制[J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,45(1):8-15.
[3] 劉邱祖,張建林. 汽車半主動(dòng)懸架RBF模糊滑??刂破髟O(shè)計(jì)及仿真[J]. 中國工程機(jī)械學(xué)報(bào),2023,21(6):585-589.
[4] 張勇廣,鄭敏毅,張農(nóng),等. 基于LSTM神經(jīng)網(wǎng)絡(luò)的阻尼可調(diào)半主動(dòng)懸架系統(tǒng)控制研究[J]. 農(nóng)業(yè)裝備與車輛工程,2024,62(2):69-73,90.
[5] 彭屹,陳貴鋼. 基于模糊PID的半主動(dòng)懸架控制策略研究[J]. 工程機(jī)械,2023,54(11):50-55,58.
[6] DAEKYUN L,SUNWOO J,CHIBU M. Deep Reinforcement Learning of Semi-Active Suspension Controller for Vehicle Ride Comfort[J]. IEEE Transactions on Vehicular Technology,2023,72(1):327-339.
[7] 喻凡,林逸. 汽車系統(tǒng)動(dòng)力學(xué)[M]. 北京:機(jī)械工業(yè)出版社,2008.