摘" 要:隨著汽車智能化和網(wǎng)聯(lián)化技術(shù)的進(jìn)步,汽車編隊(duì)行駛逐漸成為緩解城市交通擁堵的有效手段之一。為了提高隊(duì)列行駛的安全性和穩(wěn)定性,文章提出了一種基于雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)算法的網(wǎng)聯(lián)汽車隊(duì)列控制器。該控制器將隊(duì)列間距誤差和速度誤差作為智能體的輸入特征,設(shè)計(jì)了綜合考慮隊(duì)列安全性與穩(wěn)定性的獎(jiǎng)勵(lì)函數(shù),接著在SUMO仿真平臺(tái)中搭建訓(xùn)練場(chǎng)景,并進(jìn)行參數(shù)訓(xùn)練。結(jié)果表明,與模型預(yù)測(cè)控制方法相比,提出的TD3算法在安全行駛性能上有顯著優(yōu)勢(shì)。
關(guān)鍵詞:網(wǎng)聯(lián)汽車隊(duì)列;軌跡優(yōu)化;深度強(qiáng)化學(xué)習(xí);模型預(yù)測(cè)控制
" 中圖分類號(hào):U491" " 文獻(xiàn)標(biāo)志碼:A
DOI:10.13714/j.cnki.1002-3100.2025.07.014
Abstract: With the advancement of automotive intelligence and connectivity technologies, vehicle platooning has gradually become one of the effective solutions to alleviate urban traffic congestion. To enhance the safety and stability of platoon driving, this study proposes a connected vehicle platoon controller based on the Twin Delayed Deep Deterministic Policy Gradient(TD3)algorithm. The proposed controller incorporates the inter-vehicle distance error and velocity error as input features for the agent, and a reward function is designed to explicitly account for both safety and stability requirements. Then, a training scenario is built in the SUMO simulation platform for parameter training. Experimental results demonstrate that, compared to the model predictive control approach, the TD3-based controller significantly improves driving safety and overall performance.
Key words: connected vehicle platoon; trajectory optimization; deep reinforcement learning; model predictive control
0" 引" 言
" 網(wǎng)聯(lián)汽車隊(duì)列作為智能交通領(lǐng)域的的重要研究方向,因其能夠減少車輛行駛中的空氣阻力、降低能耗并改善環(huán)境污染,逐漸成為高效管理交通的關(guān)鍵手段[1]。在網(wǎng)聯(lián)汽車隊(duì)列中,車輛以期望間距穩(wěn)定行駛,不僅有助于降低交通事故的發(fā)生概率,還能有效提高道路利用率[2]。這種隊(duì)列控制策略對(duì)車輛行駛的安全性、舒適性等指標(biāo)具有重要影響,是實(shí)現(xiàn)智慧交通的核心技術(shù)之一[3]。
近年來人工智能技術(shù)的迅猛發(fā)展,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)通過與環(huán)境的交互式學(xué)習(xí),能夠自適應(yīng)的優(yōu)化控制策略,在解決復(fù)雜決策問題方面表現(xiàn)出色[4]。在自動(dòng)駕駛領(lǐng)域,DRL已被廣泛應(yīng)用于路徑規(guī)劃、行為決策和控制優(yōu)化等場(chǎng)景中。對(duì)于網(wǎng)聯(lián)汽車隊(duì)列控制問題,基于優(yōu)化的模型預(yù)測(cè)控制(Model Predictive Control,MPC)在復(fù)雜環(huán)境下可能面臨計(jì)算效率不足的問題,難以實(shí)現(xiàn)高效的車輛編隊(duì)管理[5]。而深度強(qiáng)化學(xué)習(xí)方法憑借其強(qiáng)大的泛化能力和適應(yīng)性,為解決這些難題提供了一條高效的路徑。本文在SUMO仿真平臺(tái)上構(gòu)建了強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境,并基于TensorFlow深度學(xué)習(xí)框架設(shè)計(jì)TD3的隊(duì)列控制器。通過選取縱向間距誤差和速度誤差作為輸入變量,并設(shè)計(jì)針對(duì)安全性和穩(wěn)定性的獎(jiǎng)勵(lì)函數(shù),最終將隊(duì)列行駛所需的加速度作為輸出控制量,從而建立了適用于城市工況下的隊(duì)列控制策略。
1" 隊(duì)列控制研究現(xiàn)狀
網(wǎng)聯(lián)汽車隊(duì)列控制通常包括縱向控制、側(cè)向控制和綜合控制三個(gè)方面。縱向控制的主要任務(wù)是使隊(duì)列中的車輛保持安全間距,并在直線道路上實(shí)現(xiàn)跟馳,從而保證隊(duì)列行駛的安全性和舒適性;側(cè)向控制則關(guān)注于實(shí)現(xiàn)隊(duì)列換道、彎道行駛和避障等行為;綜合控制研究是縱向和側(cè)向控制相耦合的方式,需要考慮隊(duì)列在行駛過程中出現(xiàn)的各種因素。針對(duì)上述隊(duì)列控制問題,相關(guān)學(xué)者已經(jīng)提出了多種隊(duì)列控制器,并將其應(yīng)用于不同的交通場(chǎng)景。目前,較為成熟的方法包括基于比例-積分-微分(Proportion Integration Differentiation,PID)控制的隊(duì)列控制方法、基于MPC的隊(duì)列控制方法和基于DRL的隊(duì)列控制方法等。PID控制方法雖然結(jié)構(gòu)簡(jiǎn)單,但在面對(duì)復(fù)雜和多變的行駛環(huán)境時(shí),不能提供足夠的適應(yīng)性和控制精度。Zhen et al.[6]在研究純電動(dòng)車的生態(tài)駕駛軌跡規(guī)劃問題中,首先采用動(dòng)態(tài)規(guī)劃來獲取領(lǐng)航車的期望軌跡,對(duì)于隊(duì)列中的其他車輛使用基于PID的自適應(yīng)巡航控制跟隨前車。Ma et al.[7]提出一種基于模擬退火粒子群優(yōu)化算法的MPC方法,建立了包括隊(duì)列車輛經(jīng)濟(jì)性、舒適性和安全性的多目標(biāo)優(yōu)化函數(shù),通過與自適應(yīng)巡航控制進(jìn)行對(duì)比,結(jié)果表明,所提出的MPC方法不僅滿足隊(duì)列安全要求,還在提升燃油經(jīng)濟(jì)性方面表現(xiàn)出色。馬曉帆[8]在進(jìn)行商用車隊(duì)列綜合控制研究時(shí),將所有的跟隨車看作是一個(gè)單獨(dú)智能體,且該智能體的空間狀態(tài)由每輛跟隨車與前車的速度誤差、橫縱向間距誤差等構(gòu)成。接著設(shè)計(jì)了適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù),采用DRL算法對(duì)智能體進(jìn)行訓(xùn)練,以獲得最優(yōu)的控制策略。
2" 基于TD3的網(wǎng)聯(lián)汽車隊(duì)列控制策略
2.1" TD3算法
目標(biāo)網(wǎng)絡(luò)的參數(shù)并不是直接復(fù)制當(dāng)前網(wǎng)絡(luò)的參數(shù),而是通過一個(gè)軟更新的方式,逐步調(diào)整目標(biāo)網(wǎng)絡(luò)的參數(shù)向當(dāng)前網(wǎng)絡(luò)的參數(shù)靠近。具體來說,目標(biāo)網(wǎng)絡(luò)的參數(shù)在每次更新時(shí)會(huì)按照一個(gè)較小的步長(zhǎng)進(jìn)行更新,從而避免訓(xùn)練過程中的劇烈波動(dòng)。這種軟更新機(jī)制有助于保持訓(xùn)練過程的穩(wěn)定性,進(jìn)而提高算法的收斂性。更新方式如公式(5)所示:
3" 仿真結(jié)果與分析
3.1" 參數(shù)與訓(xùn)練結(jié)果
為驗(yàn)證提出的TD3算法的有效性,選擇SUMO作為強(qiáng)化學(xué)習(xí)的訓(xùn)練和驗(yàn)證環(huán)境,并采用Tensorflow深度學(xué)習(xí)框架設(shè)計(jì)TD3算法。通過Traci(Traffic Control Interface)接口實(shí)現(xiàn)SUMO環(huán)境與PyCharm編譯器之間的數(shù)據(jù)。TD3算法的主要參數(shù)如表1所示。
根據(jù)上述參數(shù),訓(xùn)練得到的累計(jì)獎(jiǎng)勵(lì)值如圖4所示。在前50輪的訓(xùn)練中,由于Actor網(wǎng)絡(luò)尚未進(jìn)行充分優(yōu)化,輸出的動(dòng)作較為隨機(jī),且受到噪聲的影響,導(dǎo)致獎(jiǎng)勵(lì)值較低。隨著訓(xùn)練回合次數(shù)增加,獎(jiǎng)勵(lì)值逐漸上升,在200輪左右趨于穩(wěn)定。訓(xùn)練結(jié)果表明,所設(shè)計(jì)的深度強(qiáng)化學(xué)習(xí)算法在隊(duì)列控制已展現(xiàn)出較優(yōu)的效果。
3.2" 模型預(yù)測(cè)控制
為了與提出的TD3方法進(jìn)行對(duì)比,本文建立了一種分布式模型預(yù)測(cè)控制的隊(duì)列控制器。模型預(yù)測(cè)的核心思想是根據(jù)當(dāng)前車輛及前車的狀態(tài)和動(dòng)力學(xué)特性,預(yù)測(cè)未來一段時(shí)間內(nèi)跟隨車的行駛軌跡,并通過優(yōu)化在預(yù)測(cè)時(shí)域內(nèi)的控制輸入,從而實(shí)現(xiàn)車輛的最優(yōu)控制。MPC隊(duì)列控制的目標(biāo)函數(shù)如公式(11)所示,通過優(yōu)化在預(yù)測(cè)時(shí)域T內(nèi)跟隨車與前車的間距誤差、速度誤差和加速度變化量得到最優(yōu)控制序列,并將序列中第一個(gè)控制值作為下一時(shí)刻車輛的加速度。
3.3" 結(jié)果分析
由于在隊(duì)列控制策略中未考慮領(lǐng)航車的速度規(guī)劃,本文選擇城市工況FTP75(Federal Test Procedure)中的部分工況作為領(lǐng)航車的行駛工況,以驗(yàn)證隊(duì)列控制方法的性能。FTP75工況的步長(zhǎng)為1秒,與仿真步長(zhǎng)不一致,因此需要對(duì)工況數(shù)據(jù)進(jìn)行插值處理,結(jié)果如圖5所示。
在FTP75部分工況下,隊(duì)列行駛的速度曲線如圖6和圖7所示。在MPC和TD3控制策略下,當(dāng)領(lǐng)航車的速度發(fā)生變化時(shí),跟隨車能夠及時(shí)做出響應(yīng)。在100秒左右,領(lǐng)航車狀態(tài)由減速變?yōu)榧铀伲cMPC控制策略相比,TD3策略下隊(duì)列的速度變化更為迅速。原因在于,MPC的目標(biāo)中考慮了加速度變化量,而TD3策略則沒有。因此,在MPC控制下,隊(duì)列加速度變化較為緩慢,導(dǎo)致隊(duì)尾車輛的速度未能及時(shí)根據(jù)前車狀態(tài)進(jìn)行調(diào)整。
根據(jù)圖8和圖9所示的隊(duì)列行駛間距誤差曲線,TD3策略下的間距誤差范圍小于MPC控制下的間距誤差,因此TD3策略具有更好的安全性能。由于本文選擇的隊(duì)列拓?fù)浣Y(jié)構(gòu)是PF(Predecessor Following),即跟隨車1的速度是直接受到領(lǐng)航車0速度變化的影響,而后續(xù)跟隨車間接受到領(lǐng)航車的影響,因此在兩種隊(duì)列控制方法中,跟隨車1的間距誤差通常大于其他跟隨車的間距誤差。在MPC控制下,跟隨車1的間距誤差在±1米以內(nèi),其他跟隨車的間距誤差保持在±0.6米以內(nèi);在TD3控制下,跟隨車1的間距誤差在±0.6米以內(nèi),其余跟隨車的間距誤差在±0.2米以內(nèi),且相較于MPC間距誤差變化更加穩(wěn)定。
隊(duì)列速度誤差如圖10和圖11所示。在MPC和TD3控制策略下,跟隨車1的速度誤差范圍均在±0.5km/h內(nèi),而在TD3策略中,其他跟隨車的速度誤差更小,范圍為±0.3km/h。在40秒時(shí),領(lǐng)航車減速,圖9中的跟隨車的速度誤差較大;而在圖10中,除跟隨車1外,其他跟隨車速度誤差保持在一個(gè)穩(wěn)定范圍。這表明TD3隊(duì)列策略在領(lǐng)航車速度發(fā)生變化時(shí),能夠確保隊(duì)列中跟隨車對(duì)前車有良好的速度跟隨表現(xiàn)。
4" 結(jié)" 論
" 本文探討了一種基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)聯(lián)汽車隊(duì)列軌跡優(yōu)化策略。結(jié)合Tensorflow框架和SUMO仿真環(huán)境,提出了一種基于雙延遲深度確定性梯度策略的網(wǎng)聯(lián)汽車隊(duì)列控制方法。經(jīng)過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試,所提出方法能夠有效滿足車隊(duì)縱向的安全行駛需求。與模型預(yù)測(cè)控制方法在城市工況下進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,所提出的隊(duì)列控制方法在間距安全性和速度穩(wěn)定性方面有較強(qiáng)的適應(yīng)性。
參考文獻(xiàn):
[1] 司勝營(yíng),劉子薇,孫恩澤. 智慧城市基礎(chǔ)設(shè)施與智能網(wǎng)聯(lián)汽車協(xié)同發(fā)展研究與實(shí)施[J]. 現(xiàn)代交通與冶金材料,2023,3(3):10
-23,42.
[2] 趙倩. 基于安全間距策略的商用車隊(duì)列控制研究[D]. 長(zhǎng)春:吉林大學(xué),2023.
[3] 繆立新,王發(fā)平. V2X車聯(lián)網(wǎng)關(guān)鍵技術(shù)研究及應(yīng)用綜述[J]. 汽車工程學(xué)報(bào),2020,10(1):1-12.
[4]" LI D, ZHAO D, ZHANG Q, et al. Reinforcement learning and deep learning based lateral control for autonomous driving[J]. IEEE Computational Intelligence Magazine, 2019,14(2):83-98.
[5] 羅捷,魯良葉,何德峰,等. 通信拓?fù)淝袚Q下車輛隊(duì)列分布式模型預(yù)測(cè)控制[J]. 控制理論與應(yīng)用,2021,38(7):887-896.
[6]" ZHEN H, MOSHARAFIAN S, YANG J J, et al. Eco-driving trajectory planning of a heterogeneous platoon in urban environments[J]. IFAC-PapersOnLine, 2022,55(24):161-166.
[7]" MA H, CHU L, GUO J, et al. Cooperative adaptive cruise control strategy optimization for electric vehicles based on SA
-PSO with model predictive control[J]. IEEE Access, 2020,8:225745-225756.
[8] 馬曉帆. 基于深度強(qiáng)化學(xué)習(xí)的商用車編隊(duì)控制方法[D]. 長(zhǎng)春:吉林大學(xué),2022.
收稿日期:2025-02-01
基金項(xiàng)目:西安市科技計(jì)劃項(xiàng)目(2022JH-GXQY-0074)
作者簡(jiǎn)介:張" 鵬(1998—),男,陜西延安人,長(zhǎng)安大學(xué)汽車學(xué)院碩士研究生,研究方向:網(wǎng)聯(lián)汽車隊(duì)列控制。
引文格式:張鵬. 基于TD3算法的網(wǎng)聯(lián)汽車隊(duì)列控制研究[J]. 物流科技,2025,48(7):55-59.