中圖分類號:TP181 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)06-012-1691-07
doi:10.19734/j. issn.1001-3695.2024.11.0473
Physics-informed reinforcement learning-based car-following control model for autonomous vehicles
Zhou Ruixiangla,Yang Dalb,Zhu Liling2+ (1.a.ScholeicoptiouUit China;2.School ofBusiness,SichuanNormal University,Chengdu 61o1oo,China)
Abstract:Car-folowing controlisafundamental technique forautonomous driving.Inrecentyears,einforcementlearning hasbeenwidelyadopted incar-folowing tasks,enabling models toexhibit strong learning andimitationcapabilities.However, reinforcement learning-based modelsface chalenges such aspoor interpretabilityandunstableoutputs,which pose potential safetyrisks.Toaddresstheseissues,thispaper proposedaphysics-informedreinforcementlearningcar-following model.The model incorporatedvehicledynamics,defined continuous stateandaction spaces,andintegrated threeclasicalcar-following models withreinforcementlearning to enhancestabilityand interpretability.Itconstructedasimulationenvironmentbyusing PythonadtheSUMOtraficsimulatortotrainthePIRL-CFmodel.Comparativeexperiments wereconductedagainsttraditional car-folowing modelsandmainstreamdeepreinforcementlearning models(DDPGandTD3).Experimentalresultsshowthat the PIRL-CF model improves the proportion of comfort zones by 8% compared to deep reinforcement learning models. Additionaly,itincreasestheminimumtime-to-colisionbyO.3sandtheaverageheadwaydistancebyO.21scomparedtotraditional models.Theseresultsdemonstratethat thePIRL-CFmodelachieves abalanceofsafety,comfort,anddri-ving effciency in car-following tasks,providing an efective solution for autonomous driving decision-making.
Key Words:vehicle folowing;reinforcement learning;depth deterministic strategy gradient;physical information
0 引言
近年來無人駕駛技術(shù)受到了世界范圍內(nèi)的廣泛關(guān)注,其中車輛跟馳控制是無人駕駛的基礎(chǔ)控制技術(shù)之一。車輛跟馳控制能夠確保車輛在不同交通條件下的安全行駛,有效提高了道路交通安全性和行駛效率。同時,它也是實現(xiàn)高級別自動駕駛的關(guān)鍵技術(shù)支撐,為未來的智能交通系統(tǒng)奠定了重要基礎(chǔ)。
隨著人工智能技術(shù)的發(fā)展,通過人工智能的方法進行無人車的跟馳控制成為了無人車控制的一個前沿發(fā)展方向。Panwai等人[利用BP神經(jīng)網(wǎng)絡(luò)建立的跟馳模型展現(xiàn)出優(yōu)于Gipps模型的預(yù)測精度。Zhang等人[2基于LSTM神經(jīng)網(wǎng)絡(luò)對NGSIM數(shù)據(jù)集進行訓(xùn)練,建立了跟馳和換道模型。Ma等人[3]提出的seq2seq跟馳模型,不僅能重現(xiàn)真實跟馳軌跡,還能模擬異質(zhì)性駕駛行為,其性能優(yōu)于傳統(tǒng)IDM模型。相較于傳統(tǒng)的基于固定規(guī)則的車輛控制算法,基于深度強化學(xué)習(xí)的模型可以更好地應(yīng)對復(fù)雜多變的實際交通場景。文獻[4]提出了一種基于雙前車跟馳結(jié)構(gòu)的縱向控制算法,該算法通過人類駕駛員試驗收集數(shù)據(jù),建立前車加速度變化的隨機模型,并將其引入深度強化學(xué)習(xí)訓(xùn)練中,從而有效考慮前車運動的隨機性。Shi等人[5]基于深度強化學(xué)習(xí)提出了一種協(xié)同縱向控制策略,適用于混合交通流環(huán)境。實驗結(jié)果顯示,該模型能夠在不同滲透率的混合交通流環(huán)境下有效完成安全、節(jié)能的跟馳任務(wù)。He等人[探討了不同風(fēng)險水平下的自適應(yīng)車輛軌跡控制問題,設(shè)計了一種深度自適應(yīng)控制算法,根據(jù)實時交通風(fēng)險調(diào)整車輛行駛軌跡。Peng等人[7]提出了一種雙層決策模型,重點考慮車道變換和跟車決策的優(yōu)先級和邏輯,上層模型使用D3QN算法,下層模型使用DDPG算法,并進行了兩者的耦合訓(xùn)練以提高協(xié)調(diào)性,實驗結(jié)果表明雙層模型在SUMO中將駕駛速度提高了 23.99% ,表現(xiàn)出比其他模型更高的有效性。近年來,TD3算法因其改進的穩(wěn)定性和性能,逐漸成為車輛跟馳領(lǐng)域的領(lǐng)先方法。例如,文獻[8]提出基于TD3的寬窄路段高精度、高效率跟車策略,與傳統(tǒng)方法相比,TD3顯著提高了交通效率和舒適性,同時減少了跟車誤差,驗證了TD3在動態(tài)環(huán)境中的適用性和優(yōu)勢。Zheng等人[9]提出了一種結(jié)合軟碰撞避免策略的TD3模型,通過引入多步預(yù)測和衰減系數(shù)調(diào)整減速度值,顯著提升了駕駛舒適性和能耗表現(xiàn),同時保持較高的安全性。這些研究進一步驗證了TD3在車輛跟馳控制領(lǐng)域的先進性和應(yīng)用潛力。然而,在復(fù)雜的交通場景中,傳統(tǒng)車輛跟馳模型和現(xiàn)有的強化學(xué)習(xí)模型均存在明顯不足:前者雖有較好的物理理論穩(wěn)固性和行為穩(wěn)定性,但難以適應(yīng)動態(tài)多變的實際交通環(huán)境,后者雖具備較強的學(xué)習(xí)能力,但其輸出不穩(wěn)定性和可解釋性差增加了實際應(yīng)用的風(fēng)險。此外,跟馳控制模型對道路利用率、乘車舒適性和安全性的綜合平衡要求較高,這進一步提升了控制任務(wù)的復(fù)雜性。因此,開發(fā)一種能兼顧安全性、舒適性和效率的車輛跟馳控制模型成為亟待解決的問題。針對上述問題,近年來一些研究嘗試將強化學(xué)習(xí)與其他方法相結(jié)合,以彌補傳統(tǒng)強化學(xué)習(xí)模型的不足。例如,文獻[10]提出的DDPGoF模型結(jié)合深光流估計技術(shù)感知周圍動態(tài)環(huán)境,在復(fù)雜場景下顯著提升了安全性和穩(wěn)定性。文獻[11]提出的RL-SL混合模型結(jié)合了DDPG 算法和監(jiān)督學(xué)習(xí),并通過引入人類駕駛參考模型(PCRM)和前車運動不確定性模型(MUMPV),在提高跟馳控制性能的同時增強了模型的擬人化特性。文獻[12]提出了基于TD3和CACC的自適應(yīng)卡爾曼混合策略,通過動態(tài)調(diào)整混合系數(shù),顯著提升了混合交通流中的跟車安全性。文獻[13]提出了結(jié)合LSTM和TD3的個性化車輛跟馳模型(LSTM-TD3),通過捕捉駕駛員的歷史行為特征,并設(shè)計個性化獎勵函數(shù),有效提高了模型的收斂速度和累積獎勵值。這些研究在個性化控制、多模態(tài)感知和動態(tài)環(huán)境適應(yīng)性方面取得了重要進展,但仍存在輸出不穩(wěn)定、策略可解釋性不足等問題。
近年來,物理信息強化學(xué)習(xí)(physics-informedreinforcementlearning,PIRL)在自動駕駛車輛運動規(guī)劃[14]、飛機沖突解決[15]、機器人控制[16]、氣候預(yù)測[17]等諸多領(lǐng)域取得了矚目進展,展現(xiàn)出廣闊的應(yīng)用前景。EISamadisy等人[18]提出的SE-CRM模型,成功地利用物理信息強化學(xué)習(xí)解決了傳統(tǒng)強化學(xué)習(xí)跟馳模型面臨的安全性問題。然而,該模型僅將物理信息用于安全約束,尚未充分發(fā)揮物理知識對探索過程的指導(dǎo)作用。
本文提出了一種基于物理信息強化學(xué)習(xí)的車輛跟馳控制方法(physics-informed reinforcement learning car-following mod-el,PIRL-CF)。PIRL-CF通過借鑒物理信息神經(jīng)網(wǎng)絡(luò)(PINN)[19\~21]的思想,引人車輛動力學(xué)特性等物理信息,為強化學(xué)習(xí)的策略優(yōu)化提供明確的理論約束,減少不合理的策略探索,提升了模型決策過程的可解釋性。通過縮小策略搜索范圍,顯著提升了模型的學(xué)習(xí)效率和穩(wěn)定性,并為動作輸出提供了指導(dǎo),緩解了輸出不穩(wěn)定帶來的安全隱患。相比于DDPGoF模型主要依賴感知層的多模態(tài)優(yōu)化,PIRL-CF模型無須復(fù)雜的多模態(tài)感知系統(tǒng),而是通過直接引人物理信息對強化學(xué)習(xí)策略進行約束,從而顯著提升了模型的魯棒性和穩(wěn)定性。相較于RL-SL混合模型,PIRL-CF采用更簡潔的結(jié)構(gòu),實現(xiàn)了策略輸出的物理可解釋性,同時避免了復(fù)雜模型在訓(xùn)練和部署過程中高成本的負(fù)擔(dān)。本研究通過Python與交通仿真軟件SUMO搭建仿真測試平臺,與傳統(tǒng)車輛跟馳模型及深度強化學(xué)習(xí)模型(包括DDPG和TD3)進行對比實驗,旨在驗證PIRL-CF模型在提升車輛跟馳安全性、舒適性及跟車效率方面的有效性。
1模型建立
1.1模型框架
本文建立了一個基于物理信息強化學(xué)習(xí)通用的無人車跟馳控制框架,適用于已完成物理跟馳模型標(biāo)定的跟馳場景。該模型在傳統(tǒng)的深度確定性策略梯度(DDPG)算法的基礎(chǔ)上,引人了物理跟馳模型,包括了IDM模型[22]、Gipps 模型[23]和OV模型[24],并對強化學(xué)習(xí)過程進行了改進和優(yōu)化。PIRL-CF模型通過結(jié)合物理信息和獎勵函數(shù),改進了策略迭代的過程,并形成一個綜合性的動作模塊。該模塊同時利用物理信息和Actor網(wǎng)絡(luò)輸出相應(yīng)的期望動作,確保決策過程在符合物理定律的基礎(chǔ)上得以優(yōu)化。不同于基于傳統(tǒng)DDPG算法的模型,PIRL-CF模型中的Actor網(wǎng)絡(luò)更新不再僅僅取決于由Critic網(wǎng)絡(luò)產(chǎn)生的策略梯度,還與動作模塊中的物理信息相關(guān)。這種結(jié)構(gòu)確保模型在符合物理定律的前提下優(yōu)化決策過程。這種融合方式給出明確的約束邊界,使學(xué)習(xí)過程更高效且符合物理定律,從而提升模型的可解釋性和魯棒性,并且獎勵函數(shù)定義了期望的最優(yōu)目標(biāo),為物理信息引導(dǎo)下的策略優(yōu)化注人價值偏好,促使模型在滿足客觀物理規(guī)律約束的前提下,進一步朝著最優(yōu)化方向收斂。該模型框架如圖1所示。
1.2基于DDPG算法的車輛跟馳模型
1.2.1狀態(tài)空間和動作空間設(shè)計
在本文建立的物理信息強化學(xué)習(xí)車輛跟馳(PIRL-CF)模型中,狀態(tài)空間的選取基于車輛跟馳控制的核心需求,以及現(xiàn)有基于運動學(xué)的物理跟馳模型的理論基礎(chǔ)。車輛在跟馳過程中,需要通過傳感器獲取與領(lǐng)航車輛的間距、速度差以及自身的動態(tài)狀態(tài),以實現(xiàn)安全性、舒適性和效率的綜合優(yōu)化。因此,狀態(tài)空間的設(shè)計應(yīng)能全面反映這些關(guān)鍵信息。首先,無人車與領(lǐng)航車輛的間距 di 是描述車輛間相對位置關(guān)系的重要變量,也是判斷安全性的重要依據(jù)。安全車距的維持直接關(guān)系到跟馳車輛是否能夠在緊急情況下避免碰撞。其次,無人車與領(lǐng)航車輛的速度差 Δvi 用于衡量兩車速度的相對變化趨勢,是調(diào)整加速度以實現(xiàn)穩(wěn)定跟馳的重要依據(jù)。無人車當(dāng)前車速 vi 反映了車輛的動態(tài)性能,并直接影響行車效率。此外無人車當(dāng)前加速度 ai 是影響舒適度的重要因素,將當(dāng)前加速度作為狀態(tài)變量能夠幫助模型優(yōu)化舒適性目標(biāo)。綜合上述考慮,本文的狀態(tài)空間被設(shè)定為四維,具體包括無人車與領(lǐng)航車輛的間距 di 無人車與領(lǐng)航車輛的速度差 Δvi 、無人車當(dāng)前車速 vi 以及無人車當(dāng)前加速度 ai 。與狀態(tài)空間相比,動作空間則較為簡單,即無人車的期望加速度 a′ 。模型的狀態(tài)集和動作集設(shè)置如表1所示。表1中 dmax 為傳感器進行有效探測的最遠(yuǎn)距離,當(dāng)車間距超過該值時視為跟車失?。?vmax 為道路最高限速, vmin=-vmax :amin 為無人車的最大減速度, amax 為無人車的最大加速度。
1.2.2 獎勵函數(shù)設(shè)計
在無人車跟馳場景中,模型需要綜合權(quán)衡多個關(guān)鍵因素以實現(xiàn)最佳性能。本文提出的車輛跟馳模型采用模塊化設(shè)計方法,分別構(gòu)建了安全獎勵函數(shù)、效率獎勵函數(shù)和舒適獎勵函數(shù),這三者共同組成了復(fù)合獎勵函數(shù)。
通常安全距離的計算是由領(lǐng)航車輛最短制動距離、跟馳車輛最短制動距離和預(yù)留的安全距離相加得到。然而,考慮到領(lǐng)航車輛可能發(fā)生事故而導(dǎo)致其制動距離過短,本文的安全距離不考慮領(lǐng)航車輛的制動距離。安全距離 Dsafe 是無人車最短制動距離和預(yù)留的安全距離之和。設(shè)置距離安全獎勵目的是避免無人車進入危險區(qū)間,由此可得到距離安全獎勵函數(shù) Rd 。
跟車安全除了要考慮安全距離,還應(yīng)滿足道路的限速條件,避免無人車超速行駛。速度獎勵函數(shù) Rv 為
另外,當(dāng)兩車發(fā)生碰撞,需要給一個負(fù)反饋來避免這種情況發(fā)生。碰撞獎勵函數(shù) Rc 為
距離安全獎勵函數(shù) Rd 、速度獎勵函數(shù) Rv 和碰撞獎勵函數(shù)Rc 按照不同權(quán)重組成安全性獎勵函數(shù) R1 。
R1=kdistanceRd+kspeedRv+kcollideRc
其中: kdistance 為安全獎勵系數(shù); kspeed 為速度獎勵系數(shù); kcollide 為碰撞獎勵系數(shù)。在保障安全的前提下,兩車距離同樣可以用于衡量行車效率。當(dāng)兩車距離過長,道路的利用率就會下降,本文通過實踐發(fā)現(xiàn),采用0.2倍左右的 Dsafe 作為高效行車區(qū)間時模型訓(xùn)練效果較好,故高效行車獎勵函數(shù) Re 為
另外,當(dāng)無人車采取的跟馳策略過于保守時,兩車間距會不斷拉大,直到超出傳感器的有效探測距離 dmax ,導(dǎo)致跟車失敗。由此,當(dāng)距離大于 dmax 時應(yīng)給出一個較大的負(fù)反饋,有效探測距離獎勵 Rf 為
跟馳效率獎勵函數(shù) R2 由高效行車獎勵 Re 、有效探測距離獎勵 Rf 按照不同權(quán)重組成。
R2=kefficiencyRe+kdetectionRf
其中: kefficiency 為高效行車獎勵系數(shù); kdetection 為有效探測距離獎勵系數(shù)。另外,舒適性與車輛加速度絕對值大小和加速度的變化率相關(guān),兩者數(shù)值越接近0則舒適性越好。由此可得到舒適性獎勵函數(shù) R3 為
其中: a 為無人車當(dāng)前加速度; a′ 為無人車期望加速度; as 為動作空間最大絕對值; amax 和 amin 分別對應(yīng)最大加速度和最小減速度; kcomfort 為行車舒適獎勵系數(shù)。
最終,綜合以上三個因素的獎勵函數(shù)為
1.3基于物理規(guī)則的車輛跟馳模型
本文選取了三個物理跟馳模型作為PIRL-CF模型的物理信息,分別為IDM模型[22]、Gipps模型[23]和OV模型[24]
IDM模型是當(dāng)前被公認(rèn)的較為完整且簡潔的跟馳模型,屬于期望度量類模型。IDM模型立足于這樣一個基本假設(shè):駕駛員在跟馳過程中會竭力維持諸如行駛速度、車頭間距等期望量度值于某一穩(wěn)定水平。IDM模型的一大優(yōu)勢在于,模型中各參數(shù)皆有明晰的物理含義,使其能直觀地刻畫駕駛行為的動態(tài)演變特征。IDM模型的基本表達式為
其中: σv 代表跟馳車輛在 χt 時刻的車速; Δv 代表跟馳車輛在 χt 時刻與領(lǐng)航車輛的速度差; Δs 代表在 χt 時刻的車輛間距; 代表跟馳車輛期望車速; σ 為加速度指數(shù); Φa 代表跟馳車輛期望最大加速度; b 代表跟馳車輛最大減速度,
代表最小安全間距; τ 代表期望的安全時距。Gipps模型是由英國學(xué)者Gipps在1981年提出的一種車輛跟馳模型,該模型綜合考慮了駕駛員的期望行為和防撞原則,屬于基于安全距離的模型類型。與追求最小跟馳距離的純安全距離模型不同,Gipps模型的目標(biāo)是在滿足一定安全距離約束的前提下,確定后車期望達到的理想速度。
Gipps模型的基本表達式為
其中: τ 為駕駛員的反應(yīng)時間; vn(t) 為 χt 時刻跟馳車輛的速度;an 為跟馳車輛能夠采取的最大加速度; 為跟馳車輛在當(dāng)前交通環(huán)境中的期望車速; bn 為跟馳車能夠采取的最大減速度;bn-1 為領(lǐng)航車輛能夠采取的最大減速度; xn-1(t) 為 χt 時刻領(lǐng)航車所在位置; xn(t) 為 Ψt 時刻跟馳車所在位置; ln-1 為領(lǐng)航車輛的車身長度。OV模型主要利用車間距優(yōu)化速度函數(shù)描述駕駛員確定車輛最優(yōu)行駛速度的動態(tài)過程,其數(shù)學(xué)表達式為
其中: α 表示駕駛員敏感系數(shù); vmax 為跟馳車輛期望達到的最高車速; hc 為期望車輛間距。
1.4強化學(xué)習(xí)與物理信息融合車輛跟馳模型
在傳統(tǒng)的深度確定性策略梯度(DDPG)算法框架中,獎勵函數(shù)僅通過評估Critic網(wǎng)絡(luò)間接引導(dǎo)Actor網(wǎng)絡(luò)的參數(shù)迭代,這一過程存在一定的不確定性和潛在風(fēng)險。尤其是在面臨復(fù)雜多目標(biāo)優(yōu)化問題時,如車輛自動跟馳場景,單一獎勵函數(shù)設(shè)計往往難以準(zhǔn)確刻畫綜合期望,導(dǎo)致模型的整體表現(xiàn)效果不佳,并且缺乏可解釋性和魯棒性。
針對上述問題,本文提出的物理信息強化學(xué)習(xí)車輛跟馳(PIRL-CF)模型創(chuàng)新性地融合了物理規(guī)律信息,將其與獎勵函數(shù)協(xié)同作用于Actor網(wǎng)絡(luò)的策略迭代過程。具體而言,物理信息與Actor網(wǎng)絡(luò)共同構(gòu)成了PIRL-CF模型的動作模塊。該模塊中的物理信息包含了環(huán)境運動變化的客觀規(guī)律,能夠為Actor網(wǎng)絡(luò)提供明確的約束邊界,引導(dǎo)其高效學(xué)習(xí)符合物理定律的跟馳策略,提升模型的可解釋性和魯棒性。同時,獎勵函數(shù)則定義了期望的最優(yōu)目標(biāo),為物理信息引導(dǎo)下的策略優(yōu)化注入價值偏好。這種設(shè)計促使模型在滿足客觀物理規(guī)律約束的前提下,進一步朝著最優(yōu)解收斂。如圖2所示,PIRL-CF模型的動作模塊上半部分是基于運動學(xué)原理的物理信息,與下方的Actor網(wǎng)絡(luò)共享相同的輸入 Si ,輸出為物理信息所對應(yīng)的期望動作 aiphy 。在物理信息部分,每個圓形節(jié)點代表一個物理變量,節(jié)點之間的連接邊與相關(guān)的超參數(shù)關(guān)聯(lián),這些超參數(shù)需要在訓(xùn)練前確定。下半部分為Actor網(wǎng)絡(luò),網(wǎng)絡(luò)中的每個節(jié)點表示一個帶有激活函數(shù)的神經(jīng)元,節(jié)點之間的連接邊關(guān)聯(lián)著待訓(xùn)練的權(quán)重參數(shù)。Actor網(wǎng)絡(luò)的輸出為下一時間步的期望動作a。
在PIRL-CF模型的初始階段,向經(jīng)驗池存入經(jīng)驗的過程與傳統(tǒng)DDPG算法相似。如圖1所示,無人車不斷地將其獲取的經(jīng)驗數(shù)據(jù)傳輸至經(jīng)驗池中進行累積。待經(jīng)驗池中的數(shù)據(jù)量達到一定數(shù)量后,采用隨機抽樣的方法從池中選取 N 個經(jīng)驗樣本對PIRL-CF模型展開進一步的優(yōu)化訓(xùn)練。優(yōu)化過程首先由目標(biāo)Critic網(wǎng)絡(luò)(記為 Q′ )接收目標(biāo)Actor網(wǎng)絡(luò)(記為 μ′ )輸出的動作 ,并計算該樣本的目標(biāo) Q 值 yi°yi 的計算為
其中: γ 為強化學(xué)習(xí)中的衰減系數(shù),該值是一個用于衡量未來獎勵的折扣因素,取值在 0~1;Q 代表目標(biāo)Critic網(wǎng)絡(luò); θQ′ 代表目標(biāo)Critic網(wǎng)絡(luò)的訓(xùn)練參數(shù) 代表目標(biāo)Actor網(wǎng)絡(luò), θμ′ 代表目標(biāo)Actor網(wǎng)絡(luò)的訓(xùn)練參數(shù)。
隨后,將 yi 傳遞至損失函數(shù)(記為 L )。Critic網(wǎng)絡(luò)(記為Q )利用梯度下降算法對其參數(shù) θQ 進行迭代優(yōu)化,不斷縮小估計值與真實值之間的差距。為了提升算法的穩(wěn)定性,模型采用了軟更新策略,每隔一定的訓(xùn)練步數(shù)后,將當(dāng)前網(wǎng)絡(luò)的參數(shù)以一個較小的比例替換目標(biāo)Critic網(wǎng)絡(luò)的參數(shù) θQ′ 。損失函數(shù) L 計算為
Critic網(wǎng)絡(luò)更新完成后,接下來更新動作模塊。與傳統(tǒng)DDPG算法不同,PIRL-CF模型中的物理信息通過目標(biāo)函數(shù)的梯度也參與到策略網(wǎng)絡(luò)的更新過程中。圖3展示了PIRL-CF模型中動作模塊的更新流程。
圖3中, Si 表示 N 個抽樣樣本中的第 i 個經(jīng)驗樣本的跟車狀態(tài),由兩車間距 hi 、兩車速度差 Δvi 、跟馳車輛當(dāng)前車速 vi 和跟馳車輛當(dāng)前加速度 ai 構(gòu)成。該樣本進人PIRL-CF的動作模塊后,分別經(jīng)由物理信息和Actor網(wǎng)絡(luò)處理,生成期望加速度aiphy 和 ainn ,并通過Critic 網(wǎng)絡(luò)計算該樣本的 Q 值。
接下來,動作模塊依次處理其余樣本,分別計算輸出期望加速度的均方誤差(記作MSE)和樣本平均 Q 值(記作 ),得出目標(biāo)函數(shù)(記作 J) 。其中,加速度的均方誤差MSE的計算為
樣本平均 Q 值 的計算為
目標(biāo)函數(shù) J 的計算為
其中: α 為物理信息參與指導(dǎo)Actor網(wǎng)絡(luò)的重要性系數(shù),取值大于等于0,當(dāng) α=0 時,PIRL-CF模型即為采用傳統(tǒng)DDPG算法訓(xùn)練的模型。
最后,通過采用梯度上升法,計算目標(biāo)函數(shù)梯度 ablaθμJ, 更新Actor網(wǎng)絡(luò)參數(shù) θμ 。至此,完成PIRL-CF模型的一輪迭代。目標(biāo)函數(shù)梯度 ablaθμJ 計算為
算法1PIRL-CF模型的訓(xùn)練算法
根據(jù)仿真場景設(shè)置并結(jié)合實驗標(biāo)定物理信息中的超參數(shù) θλ
隨機初始化Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)c
θQ′θQ θμ′θμ 初始化目標(biāo)網(wǎng)絡(luò) Q 和 μ′
初始化經(jīng)驗池 P (202
for episode =1 M do重置仿真環(huán)境,獲取初始狀態(tài) s1 for t=1 T and未出現(xiàn)跟車失敗do根據(jù)當(dāng)前狀態(tài) st 給出下一步跟馳車的加速度 at=μ(st|θu) (2號跟馳車輛執(zhí)行動作 at ,記錄新狀態(tài) st+1 并計算出獎勵值 rt 將經(jīng)驗樣本 (st,at,rt,st+1) 存入經(jīng)驗池 P (2號從經(jīng)驗池 P 中隨機抽取 N 條經(jīng)驗樣本 (si,ai,ri,si+1) 計算Critic網(wǎng)絡(luò)目標(biāo)值 yi ,見式(13)通過最小化損失函數(shù)更新Critic網(wǎng)絡(luò),見式(14)由動作模塊得到 aiphy=λ(si|θλ) , ainn=μ(si|θμ) 計算目標(biāo)函數(shù),見式(15) ~ (17)通過目標(biāo)函數(shù)梯度上升更新 Actor網(wǎng)絡(luò),梯度計算見式(18)軟更新目標(biāo)網(wǎng)絡(luò): θμ′τθμ+(1- (204號 τ)θμ′ end for
end for
2 實驗與結(jié)果分析
本文通過交通仿真軟件SUMO和編程語言Python對傳統(tǒng)的DDPG-CF模型及本文提出的PIRL-CF模型進行訓(xùn)練和測試,并將相關(guān)的物理跟馳模型加人測試對照組,對測試結(jié)果進行全面分析。本文使用的編程語言Python版本為3.11.4,Py-Torch版本為2.0.1,仿真軟件SUMO版本為1.16.0。用于實驗的硬件平臺配置如下:CPU為IntelCorei9,GPU為GeForceRTX2080,內(nèi)存為 3\" 2 .
2.1 實驗場景設(shè)計
在訓(xùn)練階段,為了使模型具備更好的適應(yīng)性,對領(lǐng)航車輛的加速度設(shè)置了較大的隨機性來模擬多變的道路車況。具體表現(xiàn)為,領(lǐng)航車輛會在每 50~100 個仿真步(每個仿真步設(shè)置為0.1s)間的某個時刻,在一定范圍內(nèi)隨機調(diào)整自身加速度。在訓(xùn)練的每個回合開始前,都會重置訓(xùn)練環(huán)境,重置后的領(lǐng)航車在道路縱向坐標(biāo) 100m 處,訓(xùn)練車在 80m 處,初始速度同為10m/s 。在測試過程中,領(lǐng)航車輛的加速度受嚴(yán)格控制。
物理跟馳模型的標(biāo)定使用了由美國NGSIM(nextgenera-tion simulation)研究計劃提供的高精度車輛軌跡數(shù)據(jù)集[25]該數(shù)據(jù)集提取出包括車輛類型、位置、速度、加速度、車頭間距等多樣化信息,形成完整的車輛軌跡數(shù)據(jù),完全滿足車輛跟馳建模研究中開發(fā)、校正和檢驗的基本需求。需要標(biāo)定的物理模型參數(shù)均為各物理模型中難以由環(huán)境信息給出,需要通過大量跟馳經(jīng)驗進行標(biāo)定的部分參數(shù)?;诖_定性物理信息的PIRL-CF模型超參數(shù)說明如表2、3所示。
2.2 實驗結(jié)果分析
2.2.1模型訓(xùn)練結(jié)果分析
為更精確評估模型訓(xùn)練效果,本文設(shè)計了周期性仿真測試機制。每當(dāng)模型完成5個訓(xùn)練回合后,便會自動進行仿真測試。每次測試會執(zhí)行10次連續(xù)跟車任務(wù),并取其平均值作為評估指標(biāo),以提高結(jié)果的可靠性。
圖4展示了各模型在仿真測試中的平均 Q 值變化趨勢。圖(a)\~(e)分別為DDPG-CF、TD3-CF、PIRL-CF(IDM)、PIRL-CF(Gipps)和PIRL-CF(OV)模型在訓(xùn)練過程中每回合Critic網(wǎng)絡(luò)對動作的平均 Q 值。從圖4可以看出,前200回合各模型的Q 值均穩(wěn)步快速提升,在300回合之后, Q 值基本保持在高位并出現(xiàn)小幅振蕩,表明價值網(wǎng)絡(luò)已趨于穩(wěn)定。值得注意的是,圖(c)\~(e)的振蕩幅度略大于其他模型,這是由于在訓(xùn)練過程中,PIRL模型的物理信息引導(dǎo)Actor網(wǎng)絡(luò)在追求獎勵最優(yōu)和兼顧物理信息約束之間不斷平衡。
圖5展示了各模型在訓(xùn)練過程中,每回合智能體的動作回報總獎勵,反映了Actor網(wǎng)絡(luò)的學(xué)習(xí)情況。
從圖中可以看出,前200個回合內(nèi)各模型快速積累總獎勵,并在500回合后達到一個高位振蕩的狀態(tài),且振蕩幅度相比之前明顯收窄。結(jié)合圖5中各模型Critic網(wǎng)絡(luò)給出的數(shù)據(jù),可以判斷Actor網(wǎng)絡(luò)均已完成訓(xùn)練。圖6展示了各模型訓(xùn)練過程中無人車的跟車失敗次數(shù)。
可以明顯看出,圖(a)中的碰撞次數(shù)遠(yuǎn)高于其他模型。這表明DDPG-CF模型的碰撞次數(shù)遠(yuǎn)高于其他模型。在迭代過程中,DDPG-CF模型總是難以避免地在某些場景下采取危險行為。即使在某些回合內(nèi)獲取了安全策略,也會因為過于追求高額獎勵而快速轉(zhuǎn)為高危策略。相比之下,TD3-CF模型在400回合后,跟車失敗次數(shù)明顯減少。這得益于TD3算法采用了雙評價網(wǎng)絡(luò)和延遲更新方法,使得動作網(wǎng)絡(luò)的更新更加安全和穩(wěn)定。PIRL-CF模型通過將強調(diào)安全的物理信息有效引入訓(xùn)練過程,使得跟馳小車更多地在安全范圍內(nèi)進行探索,碰撞次數(shù)大幅減少,安全策略的持續(xù)時間更長。這表明PIRL-CF模型很好地實現(xiàn)了安全策略與追求高額獎勵的有機結(jié)合。
2.2.2模型測試結(jié)果分析
根據(jù)上述測試場景設(shè)計,本文分別對IDM、Gipps、OV、DDPG-CF、TD3-CF、PIRL-CF(IDM)、PIRL-CF(Gipps)和 PIRL-CF(OV)模型進行了測試。各模型在測試過程中的車輛間距與跟馳車速如圖7所示。
(a)測試組1車間距趨勢 (b)測試組2車間距趨勢 (c)測試組3車間距趨勢(d)1號車跟車速度趨勢 (e)2號車跟車速度趨勢 (f)3號車跟車速度趨勢
圖7(a)\~(c)展示了在跟馳過程中,1號車與領(lǐng)航車、2號車與1號車、3號車與2號車之間的車間距離變化情況;圖(d) ~ (f)則分別展示了在同一過程中1號車、2號車、3號車的速度變化情況。觀察圖(a)\~(c)可知,OV模型在該場景下的表現(xiàn)明顯異常,控制下的車輛未能保持安全距離,導(dǎo)致該模型控制的2號跟馳車在60s處與1號跟馳車發(fā)生了碰撞。而其他種模型的跟馳距離變化則較為平緩,均未發(fā)生碰撞。觀察圖(d)\~(f可以發(fā)現(xiàn),同樣除OV模型外,其余模型的跟馳車輛速度變化趨勢較為接近,車輛速度變化更為平穩(wěn),沒有出現(xiàn)突變的情況。相較之下,0V模型分別在1號跟馳車15s和27s左右出現(xiàn)了速度突變,OV模型控制的其他跟馳車也存在類似情況。這意味著在這些區(qū)域,OV模型輸出的加速度出現(xiàn)了很大的轉(zhuǎn)變,這將非常影響乘車舒適性。為進一步分析各模型的輸出情況,并驗證PIRL-CF模型的安全性和魯棒性,記錄了跟車過程中,各跟馳車輛的加速度變化情況,在跟車過程中,跟馳車輛的加速度及加速度變化率jerk對跟車舒適度有著決定性影響,加速度和jerk越小,則舒適度越高 ,jerk 的定義為
其中: Δt 為本文的仿真步長,取值為 0.1s
本文參考ISO2631-1標(biāo)準(zhǔn)[26]提出的舒適加速度閾值0.80m/s2 ,以及Hoberock[27]給出的舒適jerk閾值 2.94m/s3 ,低于加速度閾值的區(qū)間為加速度舒適區(qū),低于jerk閾值的區(qū)間為jerk舒適區(qū),同時低于這兩個閾值的區(qū)間定義為乘車舒適區(qū)。表4展示了不同模型控制下,跟馳車輛在整個跟車過程中,各舒適區(qū)的時間占比。如表4所示,相較于傳統(tǒng)強化學(xué)習(xí)算法訓(xùn)練的DDPG-CF和TD3-CF模型,引入物理信息的PIRL-CF系列模型由于模型魯棒性的改善,在乘車舒適度方面有了較大提升。值得注意的是,PIRL-CF(OV)模型的舒適度要大于OV模型,這是因為OV模型在設(shè)計上并未考量車輛的性能上限。這導(dǎo)致在此次跟車場景下,OV模型給出了大量超過跟馳車性能上限的加速度,最終發(fā)生了碰撞,在舒適性上與IDM和Gipps差距較大。PIRL-CF(OV)則在與環(huán)境交互的探索過程中,克服了這一缺陷。
在交通領(lǐng)域中,碰撞時間(time-to-collision,TTC)衡量了跟馳車輛與前車發(fā)生碰撞的時間間隔,最低碰撞時間越大,表明整個跟馳過程的安全裕度越高。車頭時距(time headway,THW)則表示跟馳車輛達到前車位置的時間間隔,在跟馳過程中,車流的平均車頭時距越小,說明車流的行車效率越高。
圖8展示了跟車過程中,不同時刻的車流最低碰撞時間和平均車頭時距。
圖8(a)(b)分別展示了不同跟馳模型在測試過程中,車流的最小碰撞時間和平均車頭時距變化情況。為方便觀察,圖中選取了重點考察區(qū)間。觀察圖(a)可以發(fā)現(xiàn),DDPG-CF模型在前車急剎車的場景下,車流中出現(xiàn)了較低的碰撞時間,而加入物理信息引導(dǎo)的PIRL-CF系列模型則顯著改善了這一問題。與發(fā)生了碰撞的OV模型相比,PIRL-CF(OV)模型在安全性上提升明顯,總體而言,PIRL-CF系列模型在安全性表現(xiàn)上優(yōu)于其他模型。觀察圖(b)可以發(fā)現(xiàn),DDPG-CF模型控制的車流在跟馳過程中,平均車頭時距幾乎始終保持最低,展現(xiàn)出最高的行車效率。相比之下,PIRL-CF系列模型的表現(xiàn)則介于DDPG-CF模型和物理模型之間。表5記錄了各模型控制的車流在跟馳過程中的最低碰撞時間和車流的平均車頭時距。
(a)各模型最小碰撞時間變化趨勢 (b)各模型平均車頭時距變化趨勢
如表5所示,相對于傳統(tǒng)強化學(xué)習(xí)算法訓(xùn)練的DDPG-CF和 TD3-CF 模型,本文提出的PIRL-CF(IDM)、PIRL-CF(Gipps)和PIRL-CF(OV)模型在相同獎勵函數(shù)的引導(dǎo)下,通過引入物理模型作為策略更新的安全性約束,雖然在行車效率上略有犧牲,但顯著提升了無人車跟馳過程中的安全性,充分體現(xiàn)了物理信息引導(dǎo)下的策略優(yōu)化優(yōu)勢
3結(jié)束語
本文提出了一種創(chuàng)新的PIRL-CF無人駕駛車輛跟馳模型框架,結(jié)合物理信息與強化學(xué)習(xí),解決了傳統(tǒng)車輛跟馳模型和深度強化學(xué)習(xí)算法在車輛跟馳任務(wù)中適應(yīng)性差、安全性低、舒適性不足的問題。該模型在傳統(tǒng)的深度確定性策略梯度(DDPG)算法的基礎(chǔ)上,引入了先驗物理知識,對強化學(xué)習(xí)過程進行了改進和優(yōu)化,通過引入物理知識賦予模型更好的可解釋性和魯棒性,減少了決策邏輯不透明帶來的安全隱患和輸出不穩(wěn)定的問題。通過構(gòu)建仿真測試環(huán)境,本文對建立的PIRL-CF模型進行了對比實驗,與傳統(tǒng)車輛跟馳模型相比,PIRL-CF模型在保證安全性的前提下,提升了無人車跟馳控制的行車效率,將平均車頭時距最多提升了 0.21s 。與深度強化學(xué)習(xí)模型(DDPG和TD3)進行對比,PIRL-CF模型的乘車舒適區(qū)占比提升了 8% ,并且PIRL-CF模型在不影響行車效率的情況下,將無人車跟馳控制中的最低碰撞時間提升了 0.3s? 。在相同環(huán)境下,基于PIRL-CF模型框架訓(xùn)練的模型在乘車舒適性和安全性上要優(yōu)于基于傳統(tǒng)深度強化學(xué)習(xí)算法的跟馳模型。實驗表明,本文的PIRL-CF模型是兼顧了舒適性、安全性和行車效率的無人車跟馳模型。但本文提出的PIRL-CF模型還存在不足,例如,過度依賴傳感器數(shù)據(jù)可能導(dǎo)致在傳感器故障情況下模型魯棒性的下降,以及缺少在具有動態(tài)干擾和高密度交通流場景中對模型性能的驗證。未來可嘗試將物理信息與更先進的強化學(xué)習(xí)算法結(jié)合,并探索視覺與激光雷達等多模態(tài)數(shù)據(jù)的融合,以進一步提升模型性能和適用范圍。
參考文獻:
[1]Panwai S,Dia H.A reactive agent-based neural network car following model[C]//Proc of IEEE Intelligent Transportation Systems.Piscataway,NJ:IEEEPress,2005:375-380.
[2]ZhangXiaohui,Sun Jie,QiXiao,et al.Simultaneousmodeling of car-following and lane-changing behaviors using deep learning[J]. Transportation Research Part C:Emerging Technologies, 2019,104:287-304.
[3]Ma Lijing,Qu Shiru.A sequence to sequence learning based car-following model for multi-step predictions considering reaction delay [J].Transportation Research Part C:Emerging Technologies, 2020,120:102785.
[4]朱冰,蔣淵德,趙健,等.基于深度強化學(xué)習(xí)的車輛跟馳控制 [J].中國公路學(xué)報,2019,32(6):53-60.(ZhuBing,Jiang Yuande,ZhaoJian,etal.Acar-followingcontrol algorithmbasedon deepreinforcement learning[J].China Journal of Highwayand Transport,2019,32(6):53-60.)
[5]Shi Haotian,Zhou Yang,Wu Keshu,et al.Connected automated vehiclecooperativecontrol withadeepreinforcement learningapproach inamixed traffic environment[J].TransportationResearchPart C:EmergingTechnologies,2021,133:103421.
[6]He Yixu,Liu Yang,YangLan,et al.Deep adaptive control:deep reinforcementlearning-basedadaptivevehicletrajectorycontrol algorithmsfordifferentrisk levels[J]. IEEETranson IntelligentVehicles,2024,9(1):1654-1666.
[7]Peng Jiankun, Zhang Siyu, Zhou Yang,et al. An integrated model for autonomous speed and lane change decision-making based on deep reinforcement learning[J].IEEE Trans on Intelligent Transportation Systems,2022,23(11): 21848-21860.
[8]Qin Pinpin,Wu Fumao,Bin Shenglin,et al. High-accuracy,highefficiency,and comfortable car-following strategy basedon TD3 for wide-to-narrow road sections[J].World Electric Vehicle Journal, 2023,14(9):244.
[9]ZhengYuqi,YanRuidong,Jia Bin,etal.Soft collisionavoidance based car following algorithm forautonomous driving with reinforcementlearning[J].Physica A:Statistical Mechanicsand Its Applications,2024,654:130137.
[10]Zhou Jianhao,Chang Jiaqing,Guo Aijun,et al.A cooperative carfollowing control model combining deep optical flow estimation and deep reinforcement learning for hybrid electricvehicles_[J].Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering,2024,238(10-11):3121-3139.
[11]Song Dongjian,Zhu Bing,Zhao Jian,et al.Personalized car-following control based on a_hybrid ofreinforcement learningand supervised leaming[J]. IEEE Trans_on Intelligent Transportation Systems,2023,24(6):6014-6029.
[12] Zheng Yuqi,Yan Ruidong,JiaBinjiang,etal.Adaptive Kamanbased hybrid car-following strategy using TD3 and CACC [EB/OL]. (2023-12-26). https://arxiv.org/abs/2312.15993.
[13]Liao Yaping,Yu Guizhen,Chen Peng,et al.Modelling personalised car-folowingbhaviour:amemobseddeeeiforcementleaing approach[J].Transportmetrica A:Transport Science,2024, 20(1) : 36.
[14]Wang Xiao.Ensuring safety of leaing-based motion planers using control barrier functions_[J].IEEE Robotics and Automation Letters,2022,7(2): 4773-4780.
[15]Zhao Peng,LiuYongming.Physics_informed dee reinforcement learning for aircraft conflict resolution[J]. IEEE Trans on Inteligent Transportation Systems,2022,23(7) : 8288-8301.
[16]Johannink T,Bahl S,Nair A,et al.Residual reinforcement learning for robot control[C]//Proc of International Conference on Robotics and Automation.Piscataway,NJ: IEEE Press,2019: 6023-6029.
[17]Kashinath K, Mustafa M,Albert A, et al. Physics-informed machine learning:case studies for weather and climate modelling [J]. Philosophical Transactions Series A,Mathematical,Physical,and Engineering Sciences,2021,379(2194):20200093.
[18]ElSamadisy O,Shi Tianyu,Smirnov I,et al.Safe,efficient,and comfortable reinforcement-learning-based car-following forAVswith ananalytic safety guarantee and dynamic target speed[J].Journal of the Transportation Research Board, 2024,2678(1) : 643-661.
[19]Raisi M,Perdikaris P,Karniadakis GE.Physics informed deep learning (partI):data-drivensolutionsof nonlinear partial diffrential quations[EB/OL]. (2017-11-28). https://arxiv.org/abs/1711.10561.
[20]Raisi M,PerdikarisP,Karniadakis G E. Physics informed deep learning(part II):data-driven discoveryofnonlinear partial differential equations [EB/OL]. (2017-11-28). https://arxiv.org/abs/ 1711. 10566.
[21]RaissiM,PerdikarisP,KarniadakisGE.Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial diffrential equations[J].Journal of Computational Physics, 2019, 378: 686-707.
[22]Treiber M, Hennecke A,Helbing D. Congested traffc_states in empirical_observations and microscopic simulations_[J]. Physical Review E, Statistical Physics, Plasmas, Fluids,and Related Interdisciplinary Topics,2000,62(2A): 1805-1824.
[23]Gipps PG.Abehavioural car-following model for computer simulation [J].Transportation Research Part B:Methodological,1981, 15(2): 105-111.
[24]Tang T Q,Huang HJ, Zhao S G,et al. An extended OV model with consideration of driver’s memory[J]. International Journal of Modern Physics B,2009,23(5): 743-752.
[25]CoifmanB,Li Lizhe.A critical evaluationof the next generation simulation(NGSIM)vehicle trajectory dataset[J].TransportationResearchPartB:Methodological,2017,105:362-377.
[26]Mechanical vibration and shock-evaluation of human exposureto whole-body vibration-part1:general requirements:ISO 2631-1:1997 [S].[S.l.]:International Organization for Standardization,1997.
[27]Hoberock LL.A survey of longitudinal acceleration comfort studies in ground transportationvehicles[J].Journal of Dynamic Systems, Measurement and Control,1977,99(2):76-84.