摘 要:針對在自動駕駛復(fù)雜環(huán)境下多智能體強化學(xué)習(xí)算法決策缺乏人類表現(xiàn)出的智能性和獎勵函數(shù)設(shè)計難度大的問題,提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。將行為克隆思想與多智能體注意力動作—評價算法相融合,提出BC-MAAC算法,并且從Highway-env平臺收集的多智能體專家數(shù)據(jù)中推導(dǎo)出專家策略,利用推導(dǎo)的專家策略與智能體當(dāng)前策略的KL散度來塑造獎勵函數(shù),指導(dǎo)智能體訓(xùn)練過程。同時,應(yīng)用動作屏蔽機制,在每一步過濾掉不安全或無效的動作,提高學(xué)習(xí)效率。兩種不同交通密度場景的仿真結(jié)果表明所提算法整體性能優(yōu)于基線算法,提升了車輛的通行效率和安全性。簡單模式中,所提算法的成功率達(dá)到100%,平均速度和平均獎勵分別至少提升0.73%和11.14%;困難模式中,所提算法的成功率達(dá)到93.40%,平均速度和平均獎勵分別至少提升3.96%和12.23%。可見BC-MAAC算法通過專家獎勵函數(shù)指導(dǎo)網(wǎng)聯(lián)自動駕駛車輛,能夠通過合作更類人的完成高速入口匝道合并任務(wù)。
關(guān)鍵詞:網(wǎng)聯(lián)自動駕駛車輛;智能決策;高速入口匝道合并;行為克隆;多智能體強化學(xué)習(xí)
中圖分類號:TP181"" 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2025)01-017-0117-08
doi: 10.19734/j.issn.1001-3695.2024.06.0204
Highway on-ramp merging human-like decision based on BC-MAAC algorithm
Abstract:To address the lack of human-like intelligence and the difficulty in designing reward functions in multi-agent reinforcement learning algorithms for autonomous driving in complex environments, this paper advanced a human-like decision-making scheme for highway on-ramp merging based on the BC-MAAC algorithm. Combined behavior cloning IDEA with the multi-actor-attention-critic algorithm, it proposed the BC-MAAC algorithm. Derives expert policies from multi-agent expert data collected on the Highway-env platform, and used the KL divergence between the derived expert policies and the current policies of agents to shape the reward function, so as to guide the training process of the agents. At the same time, the algorithm applied an action masking mechanism to filter out unsafe or ineffective actions at each step to improve learning efficiency. Simulation results under two different traffic density scenarios show that the proposed algorithm outperforms the baseline algorithm overall, improving vehicle efficiency and safety. In the easy mode, the proposed algorithm achieves 100% success rate, improves the average speed and the average reward by at least 0.73% and 11.14%, respectively. In the hard mode, the proposed algorithm achieves 93.40% success rate, improves the average speed and the average reward by at least 3.96% and 12.23%, respectively. It is obvious that the BC-MAAC algorithm guides connected autonomous vehicles to complete the highway on-ramp merging task more human-like through cooperation by using the expert reward function.
Key words:connected autonomous vehicle; intelligent decision-making; highway on-ramp merging; behavior cloning; multi-agent reinforcement learning
0 引言
隨著自動駕駛技術(shù)如火如荼的發(fā)展,智能網(wǎng)聯(lián)技術(shù)得到了廣泛的應(yīng)用[1]。在網(wǎng)聯(lián)自動駕駛車輛(connected autonomous vehicles, CAV)和人類駕駛車輛(human driving vehicles, HDV)并存的混合交通流中,高速入口匝道合并是最具挑戰(zhàn)性的場景之一。面對周圍環(huán)境的不可預(yù)見性,CAV需理解其周圍環(huán)境并作出合適的駕駛決策,從而確保安全順暢地合并到主路中而不妨礙整體交通效率。因此,高速公路匝道入口安全高效的決策至關(guān)重要。
目前,CAV在高速匝道合并任務(wù)中主要借助兩種方法來解決,即數(shù)學(xué)模型[2~5]和深度強化學(xué)習(xí)(deep reinforcement learning,DRL)[6~8]。其中,數(shù)學(xué)模型方法有基于規(guī)則的方法和基于優(yōu)化的方法。基于規(guī)則的匝道合并方法核心在于根據(jù)交通法規(guī)和駕駛經(jīng)驗制定一系列規(guī)則,并將其轉(zhuǎn)換為具體的控制策略,以確保CAV能夠有效完成匝道合并操作。文獻(xiàn)[2]對基于規(guī)則方法在高速入口匝道合并中的應(yīng)用進行了總結(jié),盡管這些方法在計算效率上表現(xiàn)優(yōu)異,但在優(yōu)化合并序列方面仍有改進空間。文獻(xiàn)[3]針對高速公路匝道上兩車道車輛的縱向協(xié)調(diào)問題,開發(fā)了一種基于規(guī)則的調(diào)整算法,旨在實現(xiàn)主路與匝道車輛之間接近最優(yōu)的合并順序,確保交通流的高效和安全。文獻(xiàn)[4]提出了一種創(chuàng)新的分層模型,旨在優(yōu)化CAV在匝道合并過程中的協(xié)同控制。然而,目前的最優(yōu)協(xié)同歸并控制方法通常限定入匝道車輛采用固定的合并點,從而限制了合并操作的靈活性。文獻(xiàn)[5]提出了一種CAV分層協(xié)同合并控制模型,支持靈活選擇合并位置,從而在提高合并效率的同時降低風(fēng)險。文獻(xiàn)[6]針對智能網(wǎng)聯(lián)環(huán)境下CAV的匝道匯入問題,通過深度Q網(wǎng)絡(luò)算法構(gòu)建了一種基于DRL的匝道匯入模型,使得自車可以根據(jù)周圍環(huán)境車輛行駛速度的不同自動調(diào)節(jié)自身的駕駛策略。文獻(xiàn)[7]成功地將深度確定性策略梯度算法應(yīng)用于高速入口匝道合并的橫向決策與縱向決策中,取得了顯著成效。強化學(xué)習(xí)(reinforcement learning, RL)訓(xùn)練的控制器安全性難以得到保證,因此文獻(xiàn)[8]提出了RL與模型預(yù)測控制相結(jié)合的方法,用于實現(xiàn)更為安全且高效的車輛控制。該方法融合了決策能力與預(yù)測控制能力,以在復(fù)雜環(huán)境中實現(xiàn)安全、高效的車輛控制。然而,在現(xiàn)實交通場景中,需要更多的CAV協(xié)同學(xué)習(xí)控制策略,因此多智能體強化學(xué)習(xí)(multi-agent reinforcement learning, MARL)算法備受研究人員青睞。
MARL算法因其可擴展性和魯棒性已被廣泛用于CAV協(xié)同決策的相關(guān)任務(wù)中[9~19]。具體來說,文獻(xiàn)[9]提出基于多智能體近端策略優(yōu)化(proximal policy optimization, PPO)和端到端原則的交叉道路通行優(yōu)化方法,以最小化總體擁堵、排放和延誤為目標(biāo),研究混合交通下的交叉路口車流量優(yōu)化問題,即如何協(xié)調(diào)不同類型車輛CAV和HDV在復(fù)雜路況中的行為選擇。文獻(xiàn)[10]提出雙層變道行為規(guī)劃策略,其中上層是基于MARL的變道決策模型,下層是基于協(xié)商的路權(quán)分配模型。實驗驗證該組合方法能實現(xiàn)安全、高效、和諧的變道,提升車輛協(xié)作性和整體交通效率。文獻(xiàn)[11]將MARL方法應(yīng)用到高速公路變道任務(wù),結(jié)果表明,采用MARL算法訓(xùn)練CAV作出聯(lián)合決策,從而可以緩解高速公路的瓶頸擁堵。文獻(xiàn)[12]針對高速公路合流場景的問題,提出了一種MARL框架。該框架通過接收其他車輛的狀態(tài)信息作為輸入數(shù)據(jù),進而生成各CAV的加速指令,以實現(xiàn)無碰撞地完成匝道合并任務(wù)。文獻(xiàn)[13]提出利用參數(shù)共享和局部獎勵來促進智能體間合作的MARL算法來解決匝道合并問題,同時實現(xiàn)極大的可擴展性。文獻(xiàn)[14]為了更安全且高效地執(zhí)行匝道合并任務(wù),引入新型的基于優(yōu)先級的安全監(jiān)督器,使算法在安全性方面得到了顯著提升。文獻(xiàn)[15]為提升匝道合并通行效率,確保CAV有序通過,提出集成DRL算法中智能體間通信協(xié)議與軟動作-評價算法的方法,并通過實驗驗證了其有效性。文獻(xiàn)[16]針對高速入口匝道合并區(qū)交通特性,基于分布式MARL框架提出集中式訓(xùn)練分布式執(zhí)行的改進框架,建立基于兩種框架的優(yōu)勢動作評論家和PPO兩種控制算法。通過實驗證明,所建立算法整體性能優(yōu)于原算法。為了提升CAV在高速匝道合并中的決策成功率,文獻(xiàn)[17]提出基于PPO算法的獨立學(xué)習(xí)與參數(shù)共享策略的方法。實驗結(jié)果證明該方法在高速入口匝道合流任務(wù)中顯著提高了CAV的決策成功率。文獻(xiàn)[18]采用分布式智能體深度確定性策略梯度,設(shè)計了CAV協(xié)同匯入控制,考慮安全及加速度約束,構(gòu)建匝道并線與車輛模型,顯著降低了能耗與行駛時間。文獻(xiàn)[19]利用圖神經(jīng)網(wǎng)絡(luò)與RL,在雙匝道高速上構(gòu)建交互駕駛環(huán)境,實驗驗證圖神經(jīng)網(wǎng)絡(luò)能精確模擬車輛內(nèi)部交互,增強MARL決策效能。
許多研究人員采用模仿學(xué)習(xí)的思想在DRL任務(wù)中融入人類專家數(shù)據(jù)[20~26],從而驅(qū)使智能體更加類人化。文獻(xiàn)[20]將行為克?。╞ehavior cloning, BC)思想應(yīng)用到自動駕駛領(lǐng)域。文獻(xiàn)[21]提出結(jié)合模仿學(xué)習(xí)和DRL的智能車輛變道決策方法。宏觀決策模塊和細(xì)化子模塊分別采用模仿學(xué)習(xí)和深度確定策略梯度算法,以實現(xiàn)更加準(zhǔn)確、高效的車輛變道行為。文獻(xiàn)[22]在分析多位駕駛員的駕駛表現(xiàn)后,提取各自獨特的駕駛風(fēng)格特征,進而利用逆強化學(xué)習(xí)算法根據(jù)這些不同的駕駛風(fēng)格,為CAV定制多種變道策略。文獻(xiàn)[23]使用通道—空間注意力機制改進BC,并使用模仿專家策略指導(dǎo)DRL算法的學(xué)習(xí)過程,并在無信號燈路口左轉(zhuǎn)決策中進行驗證。結(jié)果表明,基于專家先驗的DRL算法比傳統(tǒng)的DRL算法更具優(yōu)勢。文獻(xiàn)[24]在CAV的縱向控制上,結(jié)合了專家演示和DRL方法,以實現(xiàn)更高效的駕駛控制策略。文獻(xiàn)[25]開發(fā)專家實時指導(dǎo)的DRL方法,通過干預(yù)和糾正智能體的不合理行為,使得算法快速收斂并提升性能。文獻(xiàn)[26]提出在DRL策略更新過程中加入模仿學(xué)習(xí),從人類專家數(shù)據(jù)和智能體探索中學(xué)習(xí),最小化智能體行為與專家行為之間的差距,以提升算法性能。
在上述成果啟發(fā)下,本文融合多智能體注意力動作—評價(multi actor-attention-critic, MAAC)算法[27]和BC思想,提出BC-MAAC算法,使得CAV通過合作更安全高效地完成匝道合并任務(wù)。其主要貢獻(xiàn)如下:
a)為了建模專家在高速入口匝道合并協(xié)同決策任務(wù)中起到協(xié)調(diào)作用,采用新穎的專家示范范式,在同一時刻為多個CAV部署專家示范動作,收集專家數(shù)據(jù)。
b)提出基于BC-MAAC算法的高速入口匝道合并類人決策方案。融合專家指導(dǎo)思想、注意力、參數(shù)共享以及動作掩碼等機制,收集高效且合作的專家數(shù)據(jù),并將KL散度描述的專家指導(dǎo)獎勵引入到訓(xùn)練過程中,啟發(fā)智能體策略最大化自身獎勵值并向?qū)<也呗钥拷?,從而避免過度優(yōu)化自身獎勵而作出過激行為。
c)基于Highway-env平臺構(gòu)建混合交通流高速入口匝道合并場景,并設(shè)置兩種不同交通密度,證明所提算法能夠保證CAV作出更類人的合作行為,從而更安全高效地完成高速入口匝道合并任務(wù)。
1 多智能體強化學(xué)習(xí)基礎(chǔ)知識
MARL算法按照訓(xùn)練過程和執(zhí)行過程可分為三種框架,分別為分布式訓(xùn)練分布式執(zhí)行、集中式訓(xùn)練集中式執(zhí)行和集中式訓(xùn)練分布式執(zhí)行(centralized training decentralized execution, CTDE)。本文采用CTDE框架,如圖1所示。在訓(xùn)練階段集中訓(xùn)練一個評價網(wǎng)絡(luò),這些網(wǎng)絡(luò)能夠接收所有智能體的觀測—動作信息,而動作網(wǎng)絡(luò)則保持獨立性,僅依賴每個智能體的局部觀測來輸出其動作。
2 基于BC-MAAC算法高速入口匝道合并類人決策方案
本文提出基于BC-MAAC算法高速入口匝道合并類人決策方案,如圖2所示。在多智能體專家演示階段,由人類專家基于Highway-env平臺對每個CAV進行單獨控制,并將專家執(zhí)行的動作和每個CAV的觀測以觀測-動作對的形式進行存儲,收集專家數(shù)據(jù)。采用BC方法從上述收集到的人類專家數(shù)據(jù)中推導(dǎo)出專家策略。然后將專家策略與CAV當(dāng)前策略之間的KL散度用于構(gòu)建BC-MAAC算法獎勵函數(shù)的專家指導(dǎo)部分,從而指導(dǎo)CAV的學(xué)習(xí)過程。同時,采用動作屏蔽機制篩選出不安全或無效的動作,從而提高學(xué)習(xí)效率。
3 具體實現(xiàn)
3.1 BC-MAAC算法
人類駕駛員在駕駛過程中往往會通過合作安全高效地完成駕駛?cè)蝿?wù),同時在駕駛車輛時往往更關(guān)心可能會影響自車運動的周車信息而并非全部車輛信息。因此融合BC思想和具備注意力機制的MAAC算法,本文提出BC-MAAC算法完成高速入口匝道合并類人決策。在CTDE框架的基礎(chǔ)上沿用MAAC算法的基礎(chǔ)架構(gòu),通過注意力機制,模型可以自動學(xué)習(xí)并關(guān)注輸入數(shù)據(jù)中的關(guān)鍵特征,并且通過這些特征的加權(quán)處理,模型可以更好地理解周圍的場景并作出準(zhǔn)確的決策,以提高整體的安全性能。同時為了避免CAV過度優(yōu)化自身獎勵,作出過激行為而影響駕駛安全,將多智能體專家演示收集到的專家數(shù)據(jù),采用BC推導(dǎo)專家策略,指導(dǎo)BC-MAAC算法訓(xùn)練過程。具體實現(xiàn)方法是用智能體當(dāng)前策略與專家策略的KL散度作為額外的獎勵值來引導(dǎo)智能體策略向?qū)<也呗钥拷C-MAAC算法框圖如圖3所示。
其中:fi為兩層感知機,gi為單層感知機。在訓(xùn)練開始時,將車輛i的當(dāng)前觀測oi與動作ai輸入gi便得到車輛i的編碼信息。同時,基于其他車輛的編碼信息采用多頭自注意力機制獲取其他車輛對車輛i影響的總貢獻(xiàn)xi,如式(2)所示。
其中:αij是車輛j對車輛i的注意力權(quán)重,通過比較車輛i與車輛j的嵌入向量gi與gj之間的相似性αij∝exp(eTjWTkWqei)得到。Wq將ei映射成查詢值,而Wk則將ej映射成健值,另外需要將αij放縮到合適的值以防止梯度消失。vj是車輛j觀測動作對的嵌入,即首先用gj對觀測動作對進行嵌入編碼,然后利用線性矩陣V進行線性變換,最后進行非線性映射h。
由于不同車輛的評價網(wǎng)絡(luò)之間參數(shù)共享,所以BC-MAAC算法提出用聯(lián)合的損失函數(shù)來訓(xùn)練各個車輛的評價網(wǎng)絡(luò),即
其中:α是平衡最大熵和獎勵的參數(shù)。由于通過多智能體專家演示的數(shù)據(jù)BC得出的專家策略,在面對樣本數(shù)據(jù)之外的情況
其中:αKL為KL散度參數(shù);DKL表示專家策略與智能體策略之間的差異值。各個車輛的動作網(wǎng)絡(luò)通過式(7)進行更新:
其中:b(o,a\i)[27]是BC-MAAC算法用于解決信用分配的反事實基線;a\i表示去除第i個車輛的聯(lián)合動作。
分別通過梯度上升法和梯度下降法更新第i個車輛的動作網(wǎng)絡(luò)與評價網(wǎng)絡(luò)的參數(shù)θi與ψi,更新公式如式(8)(9)所示。
3.2 多智能體專家數(shù)據(jù)收集
本文基于Highway-env仿真平臺,針對高速入口匝道合并的駕駛?cè)蝿?wù),把收集到的人類專家的示范動作與車輛的觀測存儲為專家數(shù)據(jù)。具體來說,人類專家以第一人稱視角觀察駕駛環(huán)境,在每個時間步,通過鍵盤數(shù)字鍵0、1、2、3和4操縱五種離散的行動,分別為每輛CAV提供決策行為,從而指揮高速入口匝道路段CAV通過合作完成合并任務(wù),避免CAV出現(xiàn)自私行為而影響駕駛安全。數(shù)字鍵0、1、2、3和4分別對應(yīng)橫向上的左變道和右變道兩個離散動作、巡航操作以及縱向上的加速和減速兩個離散動作。
3.3 行為克隆
BC算法的目的是尋找使智能體獲得的累計獎勵值最大的策略。本文采用帶標(biāo)簽的專家演示數(shù)據(jù)進行行為克隆來近似專家策略。給定N條軌跡DE:τiN組成的專家演示數(shù)據(jù)集,數(shù)據(jù)集中的若干觀測—動作對分別對應(yīng)于監(jiān)督學(xué)習(xí)中的輸入值與標(biāo)簽。其中觀測動作對表示如下:
τ={oi,1,ai,1,oi,2,ai,2,…,oi,N,ai,N}(12)
其中:θBC為策略網(wǎng)絡(luò)參數(shù)。策略網(wǎng)絡(luò)通常采取最小化專家策略網(wǎng)絡(luò)的輸出與專家動作之間的均方誤差方式來進行訓(xùn)練,專家策略網(wǎng)絡(luò)損失函數(shù)如式(14)所示。
3.4 安全機制
當(dāng)CAV通過MARL訓(xùn)練時,動作網(wǎng)絡(luò)輸出的動作得分會進入softmax層,生成各個動作的概率,這個概率用于采樣動作,即ai=πθi(oi)。πθi(oi)表示在給定觀測oi和參數(shù)θi下,選擇動作ai的概率分布,而softmax函數(shù)則產(chǎn)生所有動作的概率值,并使得所有可能動作的概率值之和為1。
然而,這種采樣方式可能導(dǎo)致一些無效動作通過動作網(wǎng)絡(luò)被采樣,使車輛作出不安全動作,同時無效的動作信息也會阻礙動作網(wǎng)絡(luò)更新。為了解決這一問題,本文考慮使用動作掩碼機制來屏蔽無效的動作。具體來說,本文利用動作掩碼判定動作有效性,其中“0”代表無效動作,而“1”則代表有效動作,被判定為無效動作其對應(yīng)對數(shù)值將被-1E8替換,通過softmax層后,其對應(yīng)的概率接近0,從而避免其在訓(xùn)練過程中被選中,確保智能體僅從有效動作中采樣。在本文研究中,當(dāng)CAV在到達(dá)匝道的合并部分之前嘗試改變車道進行合并時,以及當(dāng)CAV其速度已經(jīng)達(dá)到預(yù)定的最大或最小速度時嘗試加速或減速時,規(guī)定這兩種動作無效。安全機制示意圖如圖4所示。
3.5 算法流程
算法1 BC-MAAC算法
4 智能網(wǎng)聯(lián)車輛的部分可觀測馬爾可夫決策過程
本文將混合交通下的高速入口匝道合并任務(wù)建模為部分可觀測馬爾可夫決策過程,其中每個CAV只觀察周圍環(huán)境重點需要關(guān)注的部分車輛,用五元組{S,A,P,R,O}來描述該過程。
4.1 狀態(tài)空間
在典型的匝道合流場景中,需要考慮主車的行駛狀態(tài)以及與周圍車輛的相互運動關(guān)系。狀態(tài)空間設(shè)置應(yīng)有利于主車及時獲取周圍車輛的運動狀態(tài),從而確定最優(yōu)駕駛行為,避免與周圍車輛發(fā)生碰撞,以提高決策成功率。因此,本文將CAV的狀態(tài)定義為維數(shù)NNi×W的矩陣。其中NNi為觀測到的車輛數(shù)量,W為用于表示車輛狀態(tài)的特征數(shù)量。本文將采用自主車輛附近五輛車觀測組成系統(tǒng)狀態(tài)空間O=(O1,O2,O3,O4,O5),每輛交通車輛均包含五個狀態(tài)特性,即Oi=[pei,xi,yi,vxi,vyi]。其中:pei為一個二元變量,表示第i個車輛是否在自主車輛附近可觀察到;xi為被觀察的第i個車輛相對于自主車輛的縱向位置;yi為被觀察的第i個車輛相對于自主車輛的橫向位置;vxi為被觀察的第i個車輛相對于自主車輛的縱向速度;vyi為被觀察的第i個車輛相對于自主車輛的橫向速度。
4.2 動作空間
CAV的離散動作空間設(shè)計為Ai=(a0,a1,a2,a3,a4),其中a0,a1,a2,a3,a4分別代表左轉(zhuǎn)彎、右轉(zhuǎn)彎、巡航、加速和減速。系統(tǒng)的整體動作空間A=A1×A2×…×AN為各CAV的聯(lián)合動作。車輛收到動作決策指令,底層控制器就會產(chǎn)生相應(yīng)的轉(zhuǎn)向和油門控制信號來操縱CAV。
4.3 獎勵函數(shù)
當(dāng)CAV采取行動時,其對環(huán)境的影響會以獎勵的形式反饋回來,用于衡量當(dāng)前狀態(tài)下的行動效果。根據(jù)式(5)(6)所示,本文綜合考慮了安全、高效、車頭時距和合并成本來設(shè)計了傳統(tǒng)MARL獎勵函數(shù)r-i和專家先驗知識的獎勵函數(shù)ri,KL。傳統(tǒng)MARL獎勵函數(shù)中的wc、ws、wh和wm分別是獎勵各部分系數(shù),其中ri,c是碰撞獎勵,ri,s是高速獎勵,ri,h是車道時間評估獎勵,ri,m是合并成本獎勵。由于安全是最重要的標(biāo)準(zhǔn),所以本文考慮使wc權(quán)重大于其他權(quán)重,以優(yōu)先考慮安全。第i個CAV在時間步長t的獎勵定義為ri,t:
ri,t=wcri,c+wsri,s+whri,h+wmri,m+ri,KL(15)
a)碰撞評估獎勵函數(shù)為[14]
b)高速評估獎勵函數(shù)為[14]
其中:vt為車輛當(dāng)前速度,vmin=20 m/s,vmax=30 m/s。
c)車頭時距評估獎勵為[14]
其中:dh是車頭時距;th是一個預(yù)定義的車頭時距閾值,取1.2 s/Veh。當(dāng)車頭時距大于th時,CAV才會得到獎勵。
d)合并成本獎勵為[28]
其中:x為CAV在坡道上行駛的距離,L為坡道長度。隨著CAV靠近合并末端,懲罰增加。
5 仿真驗證
5.1 實驗設(shè)置
本文使用Highway-env仿真平臺對本文算法進行驗證,該平臺是用于自動駕駛研究的仿真平臺。本文實驗場景為高速入口匝道合并,在設(shè)置的場景中,自主車輛的目標(biāo)是通過完成變道合并、跟車和超車,即找到一種既安全(無碰撞)又高效(高速)的駕駛策略。
實驗環(huán)境設(shè)置如圖5所示,本文將公路長度設(shè)置為520 m,忽略道路以外的車輛,其中合并車道入口L1為320 m,合并車道長度為L2為100 m,合并后主路車道長度L3為100 m。從0 m到220 m,在直通車道和匝道車道上每隔40 m均勻設(shè)置一個車輛刷出點。
為了盡可能模擬真實環(huán)境,根據(jù)車輛密度的不同分為了兩種實驗?zāi)J剑汉唵文J椒謩e有2輛CAV和1~3輛HDV;困難模式分別有 3~5 輛 CAV和3~5輛HDV。在每個訓(xùn)練回合中,不同數(shù)量的HDV和CAV會隨機出現(xiàn)在刷出點,并在每個初始刷出點添加隨機位置噪聲(均勻分布在[-1.5 m, 1.5 m])。車輛控制采樣頻率為1 Hz,即CAV每1秒采取一次動作。同時,采用IDM和MOBIL分別對高速公路環(huán)境車輛的縱向加速和橫向變道決策進行了研究。CAV的高層決策由BC-MAAC算法作出,并由底層PID控制器跟蹤。 BC-MAAC其余參數(shù)設(shè)置如表1所示。
5.2 實驗結(jié)果分析
本文將BC-MAAC與MAAC[27]、MAA2C[29]、MAPPO[30]和MAACKTR算法(ACKTR[31]算法擴展到多智能體環(huán)境)進行比較。MAAC算法是一種多智能體強化學(xué)習(xí)算法,它借鑒了動作—評價網(wǎng)絡(luò)架構(gòu)的思想,并采用了CTDE框架來提高訓(xùn)練穩(wěn)定性和效率,同時引入了注意力機制,選擇性地關(guān)注來自其他智能體的信息來學(xué)習(xí)每個智能體的評價網(wǎng)絡(luò)。MAA2C算法采用了A2C算法的框架將其擴展到多智能體環(huán)境,從而適應(yīng)多智能體系統(tǒng)的復(fù)雜性與交互性。MAACKTR利用獨立學(xué)習(xí)和參數(shù)共享技術(shù),將單智能體算法ACKTR擴展到多智能體環(huán)境。MAPPO是PPO算法的多智能體擴展版本,它通過引入廣義優(yōu)勢估計以及值裁剪等策略,對MARL的框架進行了改進。根據(jù)式(15),CAV在每個回合內(nèi)所累積的獎勵是由安全性、效率、車頭時距、合并成本和MARL智能體策略與專家策略之間的KL散度共同決定的。為了最大化累積獎勵,需要對這些因素進行考慮。在訓(xùn)練過程中,累積獎勵的增加可以被視為策略的優(yōu)化和改進,而累積獎勵的收斂則表明策略已達(dá)到了局部最優(yōu)狀態(tài)。
5.2.1 懲罰系數(shù)對于決策的影響
在正式訓(xùn)練前,本文首先分析碰撞系數(shù)對策略安全性和通行效率的影響。具體來說,在簡單模式下,首先利用BC-MAAC算法,在不同的碰撞懲罰系數(shù)下進行模型訓(xùn)練。接著保存這些經(jīng)過訓(xùn)練的模型,并對它們進行60回合的測試。在訓(xùn)練和測試過程中,保持獎勵函數(shù)中其他參數(shù)不變,分析不同碰撞懲罰系數(shù)對策略的影響。本文選擇訓(xùn)練過程中每回合平均獎勵與平均速度作為評價指標(biāo),測試過程中選擇成功率與平均速度作為評價指標(biāo),實驗結(jié)果如圖6、7和表2所示。
仿真結(jié)果表示,不同碰撞懲罰系數(shù)下,BC-MAAC算法均能有效控制CAV實現(xiàn)較優(yōu)的駕駛策略。然后,隨著碰撞懲罰系數(shù)的增加,盡管CAV的安全性會有所提升,但CAV平均速度會有所降低。這是因為當(dāng)過分強調(diào)安全性時,CAV會傾向于采取更保守的駕駛策略,從而犧牲了部分駕駛效率。因此,在后續(xù)的實驗中,本文將把碰撞系數(shù)wc設(shè)定為20,這一數(shù)值在確保安全性的同時,也充分考慮到了交通效率,實現(xiàn)了兩者的良好平衡。
5.2.2 訓(xùn)練結(jié)果分析
在訓(xùn)練階段,本文將BC-MAAC算法與基線算法控制的CAV分別在兩種不同交通密度下對平均獎勵和平均速度進行了探討。圖8和9分別為簡單模式與困難模式下BC-MAAC算法與基線算法控制的CAV獎勵隨訓(xùn)練回合變化曲線,圖10和11分別為簡單模式與困難模式下BC-MAAC算法與基線算法控制的CAV平均速度隨訓(xùn)練回合變化的曲線。
如圖8和9所示,隨著車輛密度增大,車輛訓(xùn)練環(huán)境變得更復(fù)雜,因此,在困難模式下,各個算法控制的CAV的平均獎勵均有所降低。由圖可知,BC-MAAC算法控制的CAV在兩種不同交通密度下的平均獎勵始終優(yōu)于基線算法,說明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV獲得了更優(yōu)的駕駛策略,能夠通過合作,更熟練更類人地完成高速入口匝道合并任務(wù)。在兩種不同交通密度條件下,MAAC與MAA2C算法控制下的CAV均隨著訓(xùn)練回合的增多,實現(xiàn)了平均獎勵的穩(wěn)步提升,最終達(dá)到了較優(yōu)的駕駛策略。由于MAAC算法引入了注意力機制,使其能夠更深入地理解匝道合并場景中的復(fù)雜交互,從而提高了決策的準(zhǔn)確性。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均獎勵。MAPPO算法控制下的CAV在兩種交通密度下的平均獎勵波動較大,這反映出該算法在尋找最優(yōu)駕駛策略時容易陷入局部最優(yōu)解,從而未能獲得穩(wěn)定的優(yōu)秀表現(xiàn)。MAACKTR算法控制下的CAV在簡單模式下,隨著訓(xùn)練回合的增加,平均獎勵逐漸提高,展現(xiàn)出了較優(yōu)的駕駛策略。然而,在困難模式下,該算法的表現(xiàn)并不理想,未能有效地應(yīng)對復(fù)雜場景中的挑戰(zhàn),因此未能獲得優(yōu)秀的駕駛策略。
如圖10和11所示,隨著車輛密度的增加,車輛訓(xùn)練環(huán)境變得更為復(fù)雜,因此,在困難模式下,為確保匝道合并任務(wù)的安全完成,各算法控制下的CAV的平均速度均有所下降。由圖可知,BC-MAAC算法控制下的CAV在兩種交通密度條件下,其平均速度始終優(yōu)于基線算法,這證明了通過專家策略指導(dǎo)訓(xùn)練的MAAC算法控制的CAV在匝道合并區(qū)域具有更高的通行效率。MAAC與MAA2C算法控制的CAV在兩種交通密度下均展現(xiàn)出較優(yōu)的駕駛策略,并維持了相對較高的平均速度。特別是MAAC算法,由于引入了注意力機制,使得每個CAV能夠更精準(zhǔn)地關(guān)注其他車輛的行為,從而作出更為高效和合理的決策。因此,相較于MAA2C算法,MAAC算法控制下的CAV在兩種交通密度下均展現(xiàn)出了更高的平均速度。MAPPO算法控制的CAV在兩種交通密度下的平均速度表現(xiàn)出較大的波動,始終未能趨于平穩(wěn),這反映了該算法在應(yīng)對復(fù)雜交通環(huán)境時可能存在的穩(wěn)定性問題。MAACKTR算法控制的CAV雖然在簡單模式下的平均速度變化穩(wěn)定且逐步提升,最終趨于平穩(wěn)收斂,但在困難模式下表現(xiàn)不佳,平均速度未呈現(xiàn)上升趨勢,這證明了該算法在應(yīng)對更復(fù)雜交通環(huán)境時可能存在的局限性。
5.2.3 測試結(jié)果分析
訓(xùn)練結(jié)束后,保存通過BC-MAAC算法與基線算法訓(xùn)練的模型,并在兩個交通密度下使用三個隨機種子進行60回合測試,測試指標(biāo)成功率、平均速度、平均速度標(biāo)準(zhǔn)差、平均獎勵和平均獎勵標(biāo)準(zhǔn)差如表3所示。由表可見,在兩種交通密度測試下,BC-MAAC算法控制下的CAV展現(xiàn)出了優(yōu)越的性能,具有最高的成功率、平均速度和平均獎勵。其中在簡單模式下表現(xiàn)優(yōu)異實現(xiàn)了零碰撞,在困難模式也有較高成功率,達(dá)到了0.934。這一結(jié)果表明,通過專家策略指導(dǎo)訓(xùn)練的CAV能夠高效合作地完成合高速入口匝道合并任務(wù),有效減少了因自私行為可能導(dǎo)致的駕駛安全隱患。此外,模型在測試的回合中具有最低的平均獎勵標(biāo)準(zhǔn)差和較低的平均速度標(biāo)準(zhǔn)差,同時本文選取95%置信區(qū)間進行區(qū)間估計,簡單模式下BC-MAAC算法的平均獎勵置信區(qū)間為[12.2897,13.6503]、平均速度置信區(qū)間為[27.0329,27.8471],困難模式下BC-MAAC算法的平均獎勵置信區(qū)間為[4.1841,6.0959]、平均速度置信區(qū)間為[24.7676,25.6324],相較于其他基線算法,BC-MAAC算法有著較小的置信區(qū)間。這一結(jié)果表明,通過BC-MAAC算法訓(xùn)練的模型在不同測試場景下仍能保持優(yōu)異且穩(wěn)定的性能。MAAC與MAA2C算法控制下的CAV在兩種交通密度的測試環(huán)境中均展現(xiàn)出良好的性能,具備較高的成功率、平均速度和平均獎勵。由于MAAC算法引入了注意力機制,使其在處理多車交互和決策時更加合理,所以在成功率、平均速度和平均獎勵方面相較于MAA2C算法表現(xiàn)出更為優(yōu)越的性能。MAPPO算法控制下的CAV在兩種交通密度下的表現(xiàn)則不盡人意。由于其頻繁的速度變化,導(dǎo)致該算法在應(yīng)對復(fù)雜交通環(huán)境時存在較大的不確定性,進而影響了其成功率的穩(wěn)定性。MAACKTR算法控制下的CAV在兩種交通密度下的表現(xiàn)均較為不佳,未能很好地完成匝道合并任務(wù),這可能是由于該算法在應(yīng)對復(fù)雜交通環(huán)境時存在某些局限。
6 結(jié)束語
本文研究了CAV和HDV混合交通流中的高速公路匝道合并決策問題,構(gòu)建了基于BC-MAAC算法的新型決策方案,包括注意力機制、參數(shù)共享、動作掩蔽和專家指導(dǎo)思想,使CAV能夠通過合作表現(xiàn)出更類人的駕駛行為,從而確保安全、高效地完成高速匝道合并任務(wù)。BC思想用于從通過多智能體專家演示收集的數(shù)據(jù)中推導(dǎo)出專家策略,從而指導(dǎo)智能體的訓(xùn)練過程。實驗結(jié)果表明,通過BC-MAAC算法訓(xùn)練的CAV性能優(yōu)異且穩(wěn)定,同時在成功率和流量效率方面優(yōu)于其他基線算法。在未來的研究中,將繼續(xù)研究混合交通流下的高速入口匝道合并場景,預(yù)計會將預(yù)測與決策結(jié)合,進一步提升通過算法訓(xùn)練的模型的魯棒性和安全性。
參考文獻(xiàn):
[1]李克強, 戴一凡, 李升波, 等. 智能網(wǎng)聯(lián)汽車技術(shù)的發(fā)展現(xiàn)狀及趨勢 [J]. 汽車安全與節(jié)能學(xué)報, 2017, 8 (1): 1-14. (Li Keqiang, Dai Yifan, Li Shengbo, et al.Development status and trends of intelligent connected vehicles technology [J]. Journal of Automotive Safety and Energy Conservation, 2017, 8 (1): 1-14.)
[2]Rios-Torres J,Malikopoulos A A. A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps [J]. IEEE Trans on Intelligent Transportation Systems, 2017, 18 (5): 1066-1077.
[3]Ding Jishiyu, Li Li, Peng Hui, et al.A rule-based cooperative merging strategy for connected and automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2019, 21 (8): 3436-3446.
[4]Chen Na, Arem B V,Alkim T, et al.A hierarchical model-based optimization control approach for cooperative merging by connected automated vehicles [J]. IEEE Trans on Intelligent Transportation Systems, 2021, 22 (12): 7712-7725.
[5]Tang Zhixian, Zhu Hong, Zhang Xin, et al.A novel hierarchical cooperative merging control model of connected and automated vehicles featuring flexible merging positions in system optimization [J]. Transportation Research Part C: Emerging Technologies, 2022, 138: 103650.
[6]喬良, 鮑泓, 玄祖興, 等. 基于強化學(xué)習(xí)的無人駕駛匝道匯入模型 [J]. 計算機工程, 2018, 44 (7): 20-24. (Qiao Liang, Bao Hong, Xuan Zuxing, et al.Reinforcement learning-based model for autonomous vehicle on-ramp merging [J]. Computer Engineering, 2018, 44 (7): 20-24.)
[7]Lin Yuan, McPhee J, Azad N L. Anti-jerk on-ramp merging using deep reinforcement learning [C]// Proc of IEEE Intelligent Vehicles Symposium.Piscataway,NJ: IEEE Press, 2020: 7-14.
[8]Kimura H, Takahashi M, Nishiwaki K,et al.Decision-making based on reinforcement learning and model predictive control considering space generation for highway on-ramp merging [J]. IFAC-Papers On Line, 2022, 55 (27): 241-246.
[9]申元霞, 謝悅, 張學(xué)鋒, 等. 基于多智能體強化學(xué)習(xí)的交叉道路車輛協(xié)同控制 [J/OL]. 西華大學(xué)學(xué)報:自然科學(xué)版.(2023-10-24)." https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.(Shen Yuanxia, Xie Yue, Zhang Xuefeng, et al.Cooperative vehicle control at intersection based on multi-agent reinforcement learning [J/OL]. Journal of Xihua University :Natural Science Edition. (2023-10-24).https://link. cnki. net/urlid/51. 1686. N. 20231024. 1056. 002.)
[10]Zhang Jiawei, Chang Cheng, Zeng Xiaolin,et al.Multi-agent DRL-based lane change with right-of-way collaboration awareness [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (1): 854-869.
[11]Ha P Y J, Chen Sikai, Dong Jiqian, et al.Leveraging the capabilities of connected and autonomous vehicles and multi-agent reinforcement learning to mitigate highway bottleneck congestion [EB/OL]. (2020-10-12). https://arxiv.org/abs/2010. 05436.
[12]Schester L, Ortiz L E. Automated driving highway traffic merging using deep multi-agent reinforcement learning in continuous state-action spaces [C]// Proc of IEEE Intelligent Vehicles Symposium. Piscataway,NJ: IEEE Press, 2021: 280-287.
[13]Zhou Wei, Chen Dong, Yan Jun,et al.Multi-agent reinforcement learning for cooperative lane changing of connected and autonomous vehicles in mixed traffic [J]. Autonomous Intelligent Systems, 2022, 2 (1): 5-16.
[14]Chen Dong,Hajidavalloo R M, Li Zhaojian, et al.Deep multi-agent reinforcement learning for highway on-ramp merging in mixed traffic [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (11): 11623-11638.
[15]Li Meng, Li Zhibin, Wang Shunchao, et al.Enhancing cooperation of vehicle merging control in heavy traffic using communication based soft actor-critic algorithm [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (6): 6491-6506.
[16]李春, 吳志周, 許宏鑫, 等. 基于多智能體強化學(xué)習(xí)自動合流控制方法研究 [J]. 計算機工程與應(yīng)用,2024,60(23):349-356. (Li Chun, Wu Zhizhou, Xu Hongxin, et al.Research on automatic merging control method based on multi-agent reinforcement learning [J]. Computer Engineering and Applications,2024,60(23):349-356.
[17]Zhang Xinfeng, Wu Lin, Liu Huan, et al.High-speed ramp merging behavior decision for autonomous vehicles based on multi-agent reinforcement learning [J]. IEEE Internet of Things Journal, 2023, 10 (24): 22664-22672.
[18]Zhou Shanxing, Zhuang Weichao, Yin Guodong, et al.Cooperative on ramp merging control of connected and automated vehicles: distri-buted multi-agent deep reinforcement learning approach [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 402-408.
[19]Liu Qi, Li Zirui, Li Xueyuan, et al.Graph convolution-based deep reinforcement learning for multi-agent decision-making in interactive traffic scenarios [C]// Proc of the 25th International Conference on Intelligent Transportation Systems. Piscataway,NJ: IEEE Press, 2022: 4074-4081.
[20]Bojarski M, Testa D D, Dworakowski D, et al.End to end learning for self-driving cars [EB/OL]. (2016-04-26).https://arxiv.org/abs/1604. 07316.
[21]宋曉琳, 盛鑫, 曹昊天, 等. 基于模仿學(xué)習(xí)和強化學(xué)習(xí)的智能車輛換道行為決 [J]. 汽車工程, 2021, 43 (1): 59-67. (Song Xiaolin, Sheng Xin, Cao Haotian, et al.Intelligent vehicle lane changing behavior decision based on imitation learning and reinforcement lear-ning [J]. Automotive Engineering, 2021, 43 (1): 59-67.)
[22]Liu Jundi, Boyle L N, Banerjee A G. An inverse reinforcement lear-ning approach for customizing automated lane change systems [J]. IEEE Trans on Vehicular Technology, 2022, 71(9): 9261-9271.
[23]傅明建, 郭福強. 基于深度強化學(xué)習(xí)的無信號燈路口決策研究 [J]. 計算機工程, 2024, 50 (5): 91-99. (Fu Mingjian, Guo Fuqiang. Decision research on signal-free intersection based on deep reinforcement learning [J]. Computer Engineering, 2024, 50 (5): 91-99.)
[24]Liu Haochen, Huang Zhiyu, Wu Jingda, et al.Improved deep reinforce-ment learning with expert demonstrations for urban autonomous driving [C]// Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ: IEEE Press, 2022: 921-928.
[25]Wu Jingda, Hang Zhiyu, Hu Zhongxu, et al.Toward human-in-the-loop AI: enhancing deep reinforcement learning via real-time human guidance for autonomous driving [J]. Engineering, 2023, 21: 75-91.
[26]Huang Zhiyu, Wu Jingda, Lyu Chen. Efficient deep reinforcement learning with imitative expert priors for autonomous driving [J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34 (10): 7391-7403.
[27]Iqbal S, Sha F. Actor-attention-critic for multi-agent reinforcement learning [C]// Proc of International Conference on Machine Lear-ning. 2019: 2961-2970.
[28]Bouton M,Nakhaei A, Fujimura K, et al.Cooperation-aware reinforcement learning for merging in dense traffic [C]// Proc of IEEE Intelligent Transportation Systems Conference. Piscataway,NJ: IEEE Press, 2019: 3441-3447.
[29]Lin Kaixiang, Zhao Renyu, Xu Zhe, et al. Efficient large-scale fleet management via multi-agent deep reinforcement learning [C]// Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining. New York:ACM Press, 2018: 1774-1783.
[30]Yu Chao, Velu A, Vinitsky E,et al.The surprising effectiveness of PPO in cooperative multi-agent games [C]//Advances in Neural Information Processing Systems. 2022: 24611-24624.
[31]Wu Yuhuai, Mansimov M, Liao Shun, et al.Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation [EB/OL]. (2017-08-17). https://arxiv.org/abs/1708. 05144.