金立生,韓廣德,謝憲毅,郭柏蒼,劉國峰,朱文濤
(燕山大學車輛與能源學院,秦皇島 066004)
自動駕駛技術作為汽車產(chǎn)業(yè)未來轉(zhuǎn)型升級的重要方向[1],在緩解交通擁堵、提高交通安全性、降低能耗等方面具有巨大潛能。隨著自動駕駛車輛在局部道路測試中的快速部署,自動駕駛車輛和人類駕駛車輛之間相互影響的混合交通場景正成為一種新常態(tài)[2]。決策技術作為自動駕駛車輛智能、高效完成各項行駛?cè)蝿盏暮诵捏w現(xiàn),需要有效應對復雜環(huán)境信息不確定性帶來的挑戰(zhàn),以滿足車輛安全性、經(jīng)濟性和乘車舒適性等需求。因此,復雜交通場景下的智能決策技術已成為自動駕駛智能化的重要標簽。
現(xiàn)階段,自動駕駛的決策技術多采用基于規(guī)則(rule-based)的分解式方案,主要應用于稀疏交通工況[3],面對復雜的交通環(huán)境,依據(jù)現(xiàn)有預測模型難以編寫出涵蓋所有交通場景與行為的全部決策方案。強化學習(reinforcement learning,RL)領域的進步極大推動了自動駕駛決策技術的發(fā)展。RL 基于馬爾科夫過程(Markov decision process,MDP)采用閉環(huán)學習的形式,利用回報函數(shù)作為激勵,采用探索試錯的方法自主迭代學習[4],逐步改善決策能力。基于RL 的自動駕駛決策技術具有較好的自主決策能力,能夠依據(jù)有效的回報函數(shù)(安全性、舒適性等)指導相應的駕駛行為。RL 憑借對高維信息較好的提取能力,通過不斷探索學習從復雜的交通場景中抽象出最優(yōu)策略的隱藏映射,可較好應對場景特征難以顯性表達的難題和減緩不確定性的影響,在自動駕駛決策領域具有巨大的應用潛力。
學者們基于RL 算法在自動駕駛決策領域開展了諸多研究,在駕駛模擬器Carla、Torcs、Prescan 等仿真環(huán)境中展現(xiàn)出RL算法強大的優(yōu)越性和靈活性,涵蓋L3-L5 級自動駕駛的車道保持、跟馳、換道、交叉口通行等駕駛?cè)蝿?。RL 可以通過處理非結構化數(shù)據(jù),利用高維度感知信息學習實現(xiàn)數(shù)據(jù)驅(qū)動的決策映射,即端到端方案[5]。端到端方案與分解式方案相比,具有框架簡潔、環(huán)感信息無損輸入等優(yōu)點[6],在自動駕駛決策領域得到廣泛應用。但是端到端方案存在可解釋性低、遷移性不強等缺點[7-8],尤其面臨交互式駕駛場景的復雜性和不確定性,實現(xiàn)完全自主決策仍然是一個非常具有挑戰(zhàn)性的問題。
現(xiàn)階段的學者們和車企普遍專注于單車智能決策的解決方案,本文中以RL 算法發(fā)展為主線,梳理RL 算法演變、分類、主要思想及在單車智能決策領域的應用;歸納了RL前沿發(fā)展,以逆強化學習、分層強化學習、混合策略等算法為例著重分析其在決策領域的應用;總結分析了RL在自動駕駛決策應用的不足,并提出了研究展望。
RL 主要由智能體(Agent)、環(huán)境(Env)、狀態(tài)(State)、動作(Action)、獎勵(Reward)組成[9]。RL 概念由Minsky(1954)首次提出[10],歷經(jīng)動態(tài)規(guī)劃方法[11](1957)、策略迭代[12](1960)、獎懲機制應用控制理論[13](1965)、時間差分算法[14](1988)、Q-learning算法[15](1989)、SARSA 算法[16](1994)、神經(jīng)動態(tài)規(guī)劃方法[17](1996)、置信上限樹算法[18](2006)、確定性策 略 梯 度(deterministic policy gradient,DPG)[19](2014)等傳統(tǒng)算法發(fā)展,形成試錯法、最優(yōu)控制及時序差分法等學習思想,RL 算法不依賴標簽數(shù)據(jù),關注Agent與Env之間的交互。
其中應用較為廣泛的傳統(tǒng)算法Q-learning 和SARSA 都是基于時序差分法的RL 算法,依據(jù)QTable 實現(xiàn)決策,二者的Q(s,a)值更新方式看似相似,實現(xiàn)原理卻截然不同。
式 中:s為 當 前State;a為 當 前Action;r為 獲 得 的Reward;s′為下一個State;a′為下一個Action;α為學習率;γ為折扣系數(shù);Q(s,a)、Q(s′,a′)為動作價值Q函數(shù)。
Q-learning 為離線策略算法,依據(jù)ε-greedy 策略選擇當前s對應的動作a,與Env 交互得到r、s′[20],maxa′Q(s′,a′)中的動作a′不依賴于當前ε-greedy 策略,動作a和a′并非來自同一個策略。SARSA 屬于在線策略算法,動作a和a′是來自同一個策略,即Q(s′,a′)中的a′為依據(jù)ε-greedy策略獲得。
現(xiàn)階段RL 算法在自動駕駛決策領域的應用較少,學者們基于值函數(shù)的RL算法執(zhí)行一些離散的駕駛動作策略,這類傳統(tǒng)算法通常只能處理一些相對簡單且低維State空間的駕駛場景。
Pyeatt 等[21](1998)將Q-learning 算法應用于賽車模擬器中賽車的轉(zhuǎn)向、加速等基本任務。Qlearning 和SARSA 等RL 傳統(tǒng)算法,面對連續(xù)或高維State 的 動 態(tài) 駕 駛 場 景 時,Agent 受Q-Table 容 量 限制,很難快速迭代出最大行為價值函數(shù)值并選擇相應的Action 或找到全局最優(yōu)解,可能會導致自動駕駛車輛在超車環(huán)節(jié)因輸入空間不能更好地擴展而無法完美地避免碰撞發(fā)生。
直至DQN 算法[22](2015)在《Nature》發(fā)表,新的子領域—深度強化學習(deep reinforcement learning,DRL)真正推動自動駕駛決策技術的發(fā)展。學者們借鑒DQN 算法利用深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)近似行為價值函數(shù)的思想,結合深度學習(deep learning,DL)算法的感知能力與RL 算法的決策能力,將相機、模擬器界面等采集的圖像作為State輸入,較好地完成車輛車道保持和避障等任務[23]。
此后,RL 研究進展與成果備受關注,DRL 典型算法相繼被提出,算法多樣化,應用靈活性較高。以單智能體為例,根據(jù)算法是否依賴模型,RL 可分為基于無模型的強化學習(model-free RL,MFRL)和基于模型的強化學習(model-based RL,MBRL)兩類[24]。Guan 等[25]按照最優(yōu)策略的獲得方式進一步細分為直接式RL 和間接式RL,見表1。直接式RL基于梯度下降法,直接優(yōu)化累積獎勵的期望值求解最優(yōu)策略;而間接式RL 則根據(jù)貝爾曼方程,間接求解最優(yōu)性條件獲得最優(yōu)策略。
1.2.1 基于MFRL的決策研究
(1)MFRL經(jīng)典算法
MFRL 不依賴轉(zhuǎn)移概率,算法框架相對簡單,可分為基于值、策略以及結合值與策略(actor-critic,AC)3類[26]。
基于值的MFRL算法,以DNN逼近價值函數(shù),應用于離散的動作空間問題,如DQN 系列算法,見表2。
表2 DQN系列算法
基于策略的MFRL 算法,無須估計State 或State-Action 的價值,通常直接將策略以參數(shù)化表示[34],可以應用于連續(xù)的動作空間問題,但樣本利用率偏低。如策略梯度法,由于梯度每次更新后會根據(jù)新分布進行采樣,造成新梯度的估計只與現(xiàn)策略有關而獨立于過去的估計。
Lillicrap 等[35](2015)結合DQN、DPG、AC[36-38]等算法思想,提出了深度確定性策略梯度算法(deep deterministic policy gradient,DDPG),基 于AC 的MFRL 算法,可以提升RL 算法對連續(xù)動作空間的適應性。隨后,TRPO、PPO、SAC 等各類典型算法相繼提出,見表3。
表3 MFRL典型算法更新
(2)基于MFRL的決策研究
車聯(lián)網(wǎng)(vehicle to everything,V2X)技術為自動駕駛車輛獲取全面、有效的感知數(shù)據(jù)提供了強有力的支撐和新的發(fā)展思路。面對合作駕駛、對抗駕駛等多種駕駛策略,RL以環(huán)境狀態(tài)完全可知作為MDP成立的必要條件,目前學術研究主要側(cè)重于完全可觀察的確定性環(huán)境。MFRL 算法因框架簡潔、種類多樣,被廣泛應用于自動駕駛的決策子任務,不同算法適用駕駛場景的復雜程度、Reward 時效性、樣本數(shù)量等各不相同。
基于值的MFRL 算法,面臨自動駕駛決策技術中連續(xù)或大的離散動作空間問題時,依據(jù)貪婪策略很難找到最優(yōu)值。雖然可以將車速和轉(zhuǎn)向角的控制范圍劃分為均勻的離散動作空間,達到降低復雜性的目的,但若步長值過大,易產(chǎn)生不穩(wěn)定的動作輸出。
車速和轉(zhuǎn)向角采用連續(xù)動作輸出有利于車輛的穩(wěn)定運行?;诓呗缘腗FRL 算法旨在通過無梯度或梯度法直接評估最佳策略,適用于自動駕駛連續(xù)動作空間決策問題,但若每步策略改變過多,易破壞決策算法訓練的穩(wěn)定性。
趨于AC 框架的MFRL 算法兼顧基于值、策略算法的優(yōu)點,針對決策領域的適應性更強,同時一些優(yōu)異算法融入MFRL 算法框架,如內(nèi)在獎勵指導智能體探索環(huán)境的好奇心機制、改善輸入特征的注意力機制、考慮歷史行為影響的長短期記憶(long shortterm memory,LSTM)等優(yōu)化方法,以此提升算法的效率和決策效果。
① 車道保持
自動駕駛車輛根據(jù)當前車道、導航、地圖等信息,考慮安全、效率、舒適性等需求輸出相應的決策動作,車道保持作為自動駕駛決策技術中必不可缺的基礎子任務,側(cè)重于車輛的橫向控制,故在此僅做簡要分析。DDPG、PPO、SAC 等經(jīng)典算法基于端到端方案,能夠依據(jù)視覺等信息直接輸出連續(xù)動作,從而提供更平滑的軌跡,在駕駛模擬器中較好完成了直線道路和彎道等車道保持任務[47-50]。其State、Action等參數(shù)的常見設置見表4。
表4 車道保持任務State、Action等設置
② 跟馳
跟馳以車道保持技術為基礎,主要集中于主車的縱向速度策略優(yōu)化研究。作為自動決策技術關鍵性的基礎子任務,可采用基于RL算法端到端的方案集成舒適性、駕駛風格等決策需求進行統(tǒng)一設計。跟馳效果受道路條件的不確定性、車輛參數(shù)以及前車運動的隨機性等因素影響?;贛FRL 的跟馳算法能夠根據(jù)車輛狀態(tài)及周圍環(huán)境信息進行自主決策,在滿足駕駛習慣、乘坐舒適性等決策需求的同時,實現(xiàn)車輛加速、減速或勻速等縱向速度的策略映射,體現(xiàn)決策系統(tǒng)的人性化。跟馳算法的獎勵函數(shù)可結合安全性、乘車舒適性等多部分組成。其State、Action等參數(shù)的常見設置見表5。
表5 跟馳任務State、Action等設置
朱冰等[51](2019)利用真實駕駛數(shù)據(jù)對前車運動的隨機性建模并引入PPO 算法框架中,實現(xiàn)跟馳決策策略,并在真實駕駛數(shù)據(jù)庫中驗證了跟馳效果。Gao 等[52](2019)考慮駕駛風險,通過人性化地設計Reward 函數(shù),采用Q-learning 算法,基于端到端方案實現(xiàn)了跟馳的自主決策,在跟車效率、安全性等方面都取得較好效果。
跟馳決策結合人類專家數(shù)據(jù)集,可提高訓練過程的穩(wěn)定性或經(jīng)驗回放機制的效率。Vecerik 等[53](2017)使用示教數(shù)據(jù)(模擬器采集的專家數(shù)據(jù))、Agent 與仿真環(huán)境交互所得的采集數(shù)據(jù)混合于經(jīng)驗池中,采用優(yōu)先經(jīng)驗回放機制提升Rward 收斂速度。Liu 等[54](2021)提出了SAC 算法結合人類專家數(shù)據(jù)集(模擬器采集)的新框架,Agent自適應調(diào)整探索和人類專家數(shù)據(jù)集之間的采樣率,提升學習進程。Li等[55](2021)運用真實世界的人類駕駛數(shù)據(jù)集與Agent采集數(shù)據(jù)交互存儲到經(jīng)驗池,采用 DDPG 算法結合優(yōu)先經(jīng)驗的方式在Carla 模擬器中訓練自動駕駛車輛的跟馳任務。不同專家的數(shù)據(jù)來源屬性不同,跟馳效果存在一定區(qū)別。
③ 換道
面對交通場景的不確定性,換道決策仍然是自動駕駛汽車復雜且具有挑戰(zhàn)性的任務之一。目前,主動換道以直線多車道場景為主,強制換道多為高速公路、城市高架道路合流區(qū)場景的匯入、匯出任務。換道決策的研究有助于提升自動駕駛車輛應對復雜駕駛工況的決策水平。
高速公路場景因其路況良好、不確性因素少,是自動駕駛技術落地應用的最佳場景,學者們運用MFRL 經(jīng)典算法能訓練出較好的換道策略[56]。而城市道路交通復雜,通常受限于MFRL 經(jīng)典算法傳統(tǒng)框架稀疏獎勵、獎勵設定不合理等問題,影響RL 算法的收斂程度和訓練效果。
除LSTM、注意力機制、動作約束等改善RL學習效率的方法外,Liu等[57](2020)通過收集多名駕駛員的換道等駕駛操作和習慣、機器視覺和車輛狀態(tài)信息等數(shù)據(jù),提取駕駛風格等特征融入DDPG 框架,實現(xiàn)自動駕駛個性化駕駛的策略。
考慮周圍車輛的影響,結合風險評估進行Reward 設計,對Agent 規(guī)避危險動作具有一定的指導性。Li等[58](2022)基于概率模型的駕駛風險評估方法,提出了基于DQN 算法的風險感知決策策略,面對相鄰車道附近車輛的影響,在Carla 駕駛器中較好地完成換道決策。
強制換道,以高速公路合流區(qū)匯入任務為例,車輛匯入受合流區(qū)的幾何設計、車道通行規(guī)則(限速等)及主線交通流狀況等因素影響。車輛在有限的加速匝道選擇合適的車速及匯入時機,對決策技術是個考驗。RL 多采用交通環(huán)境、周圍車輛等信息(主線車速度、匝道自主車速度、兩車縱向/橫向車距等參數(shù))作為State輸入。
LSTM 算法可以將歷史和交互駕駛數(shù)據(jù)對Action 選擇的影響融入DNN,提升車輛匯入效率。Wang等[59](2018)通過LSTM算法學習自主車輛與其他車輛的交互駕駛行為作為內(nèi)部State 輸入DQN 網(wǎng)絡中,在SUMO仿真環(huán)境完成車輛匯入任務。
根據(jù)映射思想對Reward 做進一步設計引導目標函數(shù)的收斂性。Lin 等[60](2019)采用DDPG 框架,將處于匝道的匯入車輛向主干道做投影,以映射的等效碰撞距離作為Reward 設計依據(jù)之一,有效提升了車輛匯入效率。
④ 交叉口通行
城市道路交叉口的自動駕駛安全通行屬于多目標優(yōu)化及策略問題,其不確定性和交通事故率高而備受關注。自動駕駛車輛在交叉路口的通行決策通常為連續(xù)的動作控制問題,是自動駕駛汽車最具有挑戰(zhàn)性的任務之一。
以十字形交叉路口場景為例,其中筆直交叉路徑、左轉(zhuǎn)越過橫向方向路徑和左轉(zhuǎn)越過相反方向路徑是碰撞風險較高的3種典型場景[61]。
MFRL 經(jīng)典算法基于信號燈規(guī)律可實現(xiàn)十字形交叉路口無車流干擾的規(guī)則通行,結合LSTM、鳥瞰圖、注意力機制、風險評估等方法,可以提升十字形交叉路口場景的通行效率。
Li等[61](2022)根據(jù)車輛前端相機以兩個不同時間步長采集的交通圖像,結合CNN-LSTM 網(wǎng)絡框架提取空間、時間特征作為DQN 算法框架的State 輸入,在Carla 模擬器中實現(xiàn)無信號燈十字形交叉口的安全通行。Kargar等[62](2022)在無紅綠燈的城市道路仿真環(huán)境中,將高精度地圖的可行駛區(qū)域、道路邊界等信息以及車輛參考路徑、自主車、其他車輛的相關信息轉(zhuǎn)換成鳥瞰圖作為State 輸入,結合視覺注意力機制提取地圖中的重要車輛和關鍵部分的特征,提升學習收斂速度,采用DQN 算法較好地完成十字路口通行任務。基于風險評估的Reward 相對于基于碰撞的Reward,可以加快策略的收斂速度,針對十字形交叉口可以適應一定程度的遮擋等突發(fā)場景。Kamran 等[63](2020)考慮風險度量和效用的Reward,設計了最低安全Reward指導DQN算法框架的十字形交叉口通行策略,通行任務效果良好。
1.2.2 基于MBRL的決策研究
MBRL 源自最優(yōu)控制領域[64],Agent 根據(jù)Env 建立的模型進行學習并獲取下一State 的Action,對策略進行優(yōu)化并找到最優(yōu)策略,以獲得最大的累積Reward。由于每一個樣本都可以用來逼近模型,在數(shù)據(jù)效率上明顯優(yōu)于MFRL。如人工智能AlphaGo采用樹搜索與DNN 結合的MBRL 方法在圍棋博弈中擊敗人類頂尖選手[65]。
MBRL與MFRL兩種方法各有優(yōu)劣,適用不同的任務場景。雖然MBRL 的研究相對于MFRL 更為前沿,但Agent 的學習效果與模型的準確性息息相關。由于交通環(huán)境的不確定性以及駕駛策略的多樣性,MBRL 模型的設計難度相對較高。相對于MFRL 在自動駕駛決策領域的廣泛應用,目前,MBRL 算法主要集中在控制、能量管理、生態(tài)駕駛等領域,在智能決策領域通常采用前沿算法的混合策略,單純MBRL算法應用較少。
Puccetti 等[66](2021)基 于 自 回 歸 模 型ARX 的MBRL 算法,設計了一種車輛最優(yōu)速度的控制器,用于實現(xiàn)車輛最優(yōu)的速度跟蹤策略,表現(xiàn)出較好的魯棒性和學習效率。
學者們借助V2X 技術,采用DRL 方法結合道路坡度、交通規(guī)則、信號燈、曲率等因素進行經(jīng)濟駕駛,開展智能網(wǎng)聯(lián)汽車巡航研究。Lee 等[67](2022)基于Q-learning算法結合車輛縱向動力學、電池能耗等方面分析,考慮道路坡度與跟車距離等駕駛條件,建立Dyna 風格的MBRL 算法調(diào)整車輛巡航速度,達到最小化能耗的目的,見圖1。
圖1 考慮道路坡度與跟車距離的巡航速度策略
環(huán)境狀態(tài)完全可觀測是RL 算法MDP 建模成立的前提,基于V2X 的自動駕駛技術正迅速成為解決眾多交通問題的解決方案之一。但受其信號傳輸效率、建設成本等問題的制約,大規(guī)模應用尚未實現(xiàn)。
自動駕駛車輛進入無通信路口易受到靜態(tài)遮擋和動態(tài)遮擋,由于傳感器噪聲干擾、采集范圍受限和感知結果的不確定性,存在駕駛盲區(qū)、中遠距離感知不穩(wěn)定等問題。非完全可觀測情況下的自動駕駛?cè)蝿湛梢暈镸DP 的一般表現(xiàn)形式,即部分可觀察的馬爾可夫決策過程(partially observable Markov decision processes,POMDP)。
POMDP 作為環(huán)境狀態(tài)部分可知或動態(tài)不確定環(huán)境下序貫決策的理想模型,POMDP可由類似MDP的描述方式六元組< S,A,O,T,R,Z>來描述,S表示有限狀態(tài)集合,A 表示有限動作集合,O 表示有限觀察集合,T是一個狀態(tài)轉(zhuǎn)移矩陣,R是獎勵函數(shù),Z是觀察函數(shù)[68]。由于Agent 在受遮擋的環(huán)境中無法直接觀察某些狀態(tài)信息,例如周圍車輛的駕駛意圖,可將其概率分布轉(zhuǎn)換至狀態(tài)。用于表示觀察確定的情況下環(huán)境所處狀態(tài)的概率分布,稱為信念狀態(tài),通常以b表示。當前置信b的情況下,在執(zhí)行動作a和 得 到 觀 察O 后,需 要 更 新 置 信 為b'[69]。POMDP 利用信念狀態(tài)映射Action,令累積Reward 的期望最大化,找到最優(yōu)策略。當前Action 影響下一步的State及Reward。
面對動態(tài)不確定性的駕駛環(huán)境,基于POMDP構建包含自動駕駛汽車所有可執(zhí)行Action 的信念搜索樹,通過樹搜索得出順序決策,應用框架如圖2所示。
圖2 POMDP決策應用框架[68]
Bai 等[70](2015)基 于 在 線POMDP 算 法 之 一DESPOT 算法,結合貝爾曼方程對置信度樹內(nèi)部節(jié)點選擇最佳動作,在動態(tài)的多行人環(huán)境中完成實車自動駕駛。提出的POMDP 規(guī)劃器僅控制車輛沿參考路徑行駛的加速度大小,實現(xiàn)加速、保持和減速等行為動作。未對行人模型進行意圖變化分析,但在POMDP 算法中進行了置信度更新和重規(guī)劃處理。Hoel等[71](2019)針對主干道連續(xù)行駛和靠近出口匝道行駛的兩種交通場景轉(zhuǎn)化為POMDP 問題進行研究,通過蒙特卡洛樹搜索改進神經(jīng)網(wǎng)絡訓練過程,根據(jù)AlphaGo Zero 算法建立的決策框架,在仿真環(huán)境中實現(xiàn)自動駕駛車輛換道和跟馳任務。
結合駕駛員過交叉口慢行、待轉(zhuǎn)、習慣性觀察的思想,在十字形交叉口設置左轉(zhuǎn)關鍵位置點,可以輔助十字形交叉口左轉(zhuǎn)任務的實施。Shu 等[72](2020)針對十字形交叉口有遮擋的左轉(zhuǎn)通行進行研究,依據(jù)大量十字路口左轉(zhuǎn)自然駕駛數(shù)據(jù)得出待轉(zhuǎn)位置關鍵左轉(zhuǎn)點,如圖3 所示,建立基于POMDP 理論的分層規(guī)劃框架,仿真驗證結果令左轉(zhuǎn)通行效率提升20%以上。
圖3 基于關鍵點轉(zhuǎn)向示意圖
面對復雜場景下不完全狀態(tài)信息的建模,如添加動態(tài)貝葉斯網(wǎng)絡推理交通參與者的意圖或非正態(tài)分布的多模態(tài)不確定性POMDP 問題,求解POMDP的最優(yōu)策略需消耗巨大算力。
RL 算法通常以DNN 近似駕駛決策策略,但其DNN 往往只是一個平滑的映射,DRL 經(jīng)典算法很難學習一個能夠表現(xiàn)出不同行為的策略。例如城市環(huán)境中自動駕駛由多項任務組成,由于周圍車輛的交互影響,復雜任務的決策算法可能會被多個子任務所影響,自動駕駛決策技術迫切需要適應性更強的RL決策模型和發(fā)展前沿。
RL 作為人工智能的主流方向之一,已經(jīng)進入百家爭鳴的時代。學者們針對RL算法樣本復雜性、超參數(shù)的敏感性、可解釋性和安全性等問題,面向單智能體決策,圍繞以下幾個方面開展前沿性研究:逆強化學習[73](IRL)、分層強化學習[74](HRL)、元強化學習[75](Meta RL)、離線強化學習[76](Offline RL)、多任務強化學習[77](MTDRL)、混合型強化學習[78]等,見表6。同時遷移強化學習[79]、量子強化學習[80]、分布式強化學習[81]、Transformer 強化學習[82]、安全強化學習[83]、貝葉斯強化學習[84]、可解釋的強化學習[85]等方面也是近年的研究熱點。
表6 RL主要前沿方向
面向單車智能駕駛的RL前沿決策技術,目前應用廣泛、相對成熟的前沿主流為IRL、HRL 及混合策略等算法,且均取得了突破性進展。
3.2.1 基于IRL的行為決策研究
IRL 起源于模仿學習,將專家做出的決策視為最優(yōu)或接近最優(yōu)的策略,即專家策略所產(chǎn)生的累積Reward 設為最高。IRL 基于最大邊際化或概率模型的角度出發(fā),從已有策略或觀察到的專家行為推斷Reward,從而改善Reward 誤差過大、獎賞稀疏、收斂困難等問題。
在自動駕駛決策研究中,IRL 通常借助專家駕駛員的行為數(shù)據(jù)進行學習并推理出Reward,再根據(jù)Reward 正向執(zhí)行RL 算法,結合駕駛場景的特征優(yōu)化駕駛行為策略。其中結合GAN 思想的反向RL 方法—對抗性逆強化學習(GAIL)近年來被廣泛應用[127-128],如圖4所示。
圖4 GAIL結構圖
You等[129](2019)考慮駕駛員的駕駛風格建立基于State-Action 的獎勵函數(shù),采用Q-learning 結合最大熵原理的IRL 框架確定車輛在多車道環(huán)境的最優(yōu)駕駛策略。Wang等[130](2021)將元學習算法與GAIL算法相結合,把保守和中性駕駛風格作為元訓練任務,并用挑戰(zhàn)性駕駛風格(攻擊性駕駛)作為元測試任務,仿真環(huán)境中實現(xiàn)自動駕駛車輛換道決策。Liu等[131](2022)采用主成分分析法將專家先驗知識提取駕駛風格,采用基于最大熵的IRL 框架根據(jù)駕駛風格定制自動駕駛車輛變道任務。
IRL 算法多適用于車道保持、跟馳、巡航或簡易換道等任務。由于復雜交通場景中周圍參與者的不確定性,所需的專家駕駛數(shù)據(jù)通常較大,且相同情況下不同的專家駕駛員做出的決策可能完全不同,推理出的Reward 指導性過弱而導致策略不適應?,F(xiàn)實世界的部分專家數(shù)據(jù)集(NGSIM等)僅涵蓋具體任務的交通場景。模擬環(huán)境中采集的專家數(shù)據(jù),會存在泛化性弱和數(shù)據(jù)集偏差等問題。
3.2.2 基于HRL的行為決策研究
依據(jù)駕駛員實際駕駛過程為離散與連續(xù)的分層次駕駛思想,HRL 算法以MDP、POMDP 作為數(shù)學基礎,建立離散的上層決策與連續(xù)的下層執(zhí)行框架。分層系統(tǒng)中不同的局部策略作為一個獨立的子功能,如高速公路主干道行駛總策略可細分為左/右換道、車道保持、跟馳等多個獨立子任務,簡化了State空間容量,可以較好地應對RL經(jīng)典算法中可能出現(xiàn)的維度災難等問題,提升整體決策性能。
Option、HAM、MAXQ、Skill系列算法抽象出不同級別的控制層,實現(xiàn)HRL 多級控制。而基于目標(Goal)的HRL 算法,其Goal 則屬于目標層面上的定義,上層控制器根據(jù)上層策略選擇一個關鍵Goal,下層控制器根據(jù)Goal及下層策略選擇Action。
Chen 等[132](2018)針對具有人行道與紅綠燈設施的駕駛場景,采用基于策略梯度算法的HRL 框架,設定了紅燈、黃燈、綠燈分別執(zhí)行的子通行策略,在仿真環(huán)境中實現(xiàn)自動駕駛車輛的信號燈通行任務。Chen 等[133](2019)基于DDPG 的HRL 框架融入時間/空間注意力機制,提升了神經(jīng)網(wǎng)絡的結構性和換道效率,在TORCS 模擬器中實現(xiàn)換道任務。Duan等[134](2020)針對高速公路主干路駕駛場景,采用HRL 思想將駕駛?cè)蝿辗纸鉃檐嚨纼?nèi)行駛、左/右車道變更3個Option,采用異步并行的訓練方法學習每個動作的子策略和主策略。周圍車輛社會偏好性的融入可以較好地體現(xiàn)超車決策算法的舒適性和穩(wěn)定性。呂超等[135](2022)基于周圍車輛的社會偏好性(利他型、利己型和互惠型)概率模型,結合Qlearning 算法搭建HRL 框架,通過實車采集數(shù)據(jù)與Carla模擬器完成自車超車任務的聯(lián)合驗證。
HRL 算法可很好地解決自動駕駛多任務決策,但是與MTDRL的原理截然不同,HRL上下層次同時訓練的不穩(wěn)定問題,高價狀態(tài)遷移函數(shù)的平穩(wěn)性、自動學習分層結構及避免人工定義Goal 空間是進一步有待解決的問題。
3.2.3 基于混合策略的RL算法
直接采用端到端方案在解決自動駕駛復雜決策任務時,由于須考慮的影響因素多,框架設計存在困難,結合多種決策方案組成混合策略,可以兼容多種方案的特點,提升決策能力。
(1)分解式框架與端到端方案的混合策略
將基于先驗知識(車輛模型、駕駛行為數(shù)據(jù)、交通規(guī)則等)的Rule-base 算法與RL算法聯(lián)合實施,提升自動駕駛車輛決策能力的適應性。Qiao 等[136](2019)針對具有停止線的十字形交叉路口場景將基于啟發(fā)式的決策結構與基于Option 類型的DQN 分層算法構建混合模型框架,完成跟隨前車和停止線停止的任務。Lubars 等[137](2020)針對高速合流區(qū)匯入任務,利用DDPG 算法提升匯入效率和乘客舒適度、MPC算法提升車輛匯入安全性的特點,將兩種算法相聯(lián)合作為匯入決策,在SUMO 模擬器單加速車道和單主干道的仿真環(huán)境中較好地完成了匯入決策。Bai 等[138](2022)提出了一種混合型決策框架,該框架基于Rule-base 的IDM 算法和Dueling DQN算法的共同協(xié)作,如圖5 所示??紤]安全規(guī)則的影響,實現(xiàn)自動駕駛車輛在有信號交叉口的安全通行。
圖5 基于規(guī)則和RL協(xié)作策略框架
利用MBRL 算法的決策能力,結合下層Rulebase 算法執(zhí)行軌跡跟蹤任務,可在一定程度上提升車輛軌跡的穩(wěn)定性,遇到突發(fā)狀況,可結合Rulebase 方法執(zhí)行安全冗余設計。Shi 等[139](2019)提出基于h-DQN 的變道決策與純跟蹤控制體系搭建的混合式結構,仿真環(huán)境中完成自動駕駛車輛完整換道任務。HRL 算法開展換道時間和換道軌跡的決策,純跟蹤算法執(zhí)行軌跡跟蹤任務。Naveed 等[140](2021)將一種HRL結構結合PID控制器構建自動駕駛決策和軌跡跟蹤的混合框架,利用LSTM 來處理不完全觀測的問題,在Carla 模擬器中完成車輛換道/跟馳任務。
針對自動駕駛生態(tài)駕駛,基于MBRL 算法構建混合策略可以較好地應對交通規(guī)則,并兼顧車輛的能量管理。Yavas 等[141](2022)針對自適應巡航任務,將傳統(tǒng)跟馳模型IDM 與基于Dyna 思想的MBRL算法組成混合策略,提升巡航效果的優(yōu)越性。
(2)集成式?jīng)Q控混合策略
將決策和控制問題整合為集成式?jīng)Q控框架,使用統(tǒng)一的約束模型。Guan 等[78](2021)針對十字交叉路口交通場景,提出了集成式?jīng)Q策和控制框架(IDC),采用基于MBRL 的GEP 算法,實現(xiàn)不同交通條件下的無碰撞駕駛,并進行了實車驗證。Jiang等[142](2021)針對基于靜態(tài)路徑規(guī)劃和最佳動態(tài)跟蹤模塊組成的IDC 框架,通過融入有限狀態(tài)機選擇路徑進行改進,實現(xiàn)十字交叉路口識別信號燈的通行。
任何RL算法都非常依賴算力?;赗L的自動駕駛決策技術,無論采用先離線訓練策略、后在線應用策略的方式,還是同時訓練和應用策略的方式[143],都需要面對車載單元有限資源的限制和安全性的約束。智能網(wǎng)聯(lián)云系統(tǒng)的發(fā)展為此提供了較好支撐。李升波[143](2022)依托李克強院士[144](2020)提出的云支持智能網(wǎng)聯(lián)汽車架構,通過云端平臺獲取車輛狀態(tài)及環(huán)境信息、迭代訓練基于RL的自動駕駛策略,車端接收成熟的RL策略、測試驗證和應用,循環(huán)往復,實現(xiàn)車云路一體化的自動駕駛策略進化與應用。
智能決策能力是衡量和評價自動駕駛能力的核心指標。RL 技術在仿真環(huán)境中可以有效地用于不同級別的自動駕駛決策任務,經(jīng)過RL相關技術及前沿算法的開發(fā)與應用,訓練效率、收斂性與穩(wěn)定性、場景泛化能力均得到一定的提升與改善,但除特定場景的自動駕駛車輛應用外,現(xiàn)有的相關研究并未在實際環(huán)境中開展,基于RL的自動駕駛決策技術在工程化落地存在諸多困難。RL 在智能決策方面的應用需要實質(zhì)性的突破,對其決策技術展望如下。
(1)安全冗余決策系統(tǒng)的設立
決策系統(tǒng)對自動駕駛汽車的安全性具有決定性作用。DRL 算法固有的DNN 黑盒特性,除網(wǎng)絡結構改進外,可結合自動駕駛多層鳥瞰語義地圖、其他模型(如樹模型、混合決策策略等)來提高RL智能決策的可解釋性;“長尾效應”作為自動駕駛的難題,海量數(shù)據(jù)是解決問題的核心資源,先驗知識和基于RL的學習融合、V2X 的信息共享等技術是解決“長尾”的算法基礎;Reward 無法兼顧策略安全性與穩(wěn)定性,安全深度強化學習算法的前沿發(fā)展是提高RL 算法安全性的趨勢之一。自動駕駛作為系統(tǒng)化工程,無法從單點解決問題,尤其面對決策系統(tǒng)自身算法性能的局限性、決策輸入/輸出信息準確率的影響,車輛安全、平穩(wěn)、高效的行駛需要安全冗余的決策系統(tǒng)。從整車框架層面、功能定義層面進行決策技術的安全冗余設計,也是自動駕駛真正落地的基礎和前提。
(2)虛擬環(huán)境向真實的轉(zhuǎn)換
目前,基于RL的自動駕駛決策應用大部分研究工作是在仿真環(huán)境下完成的,只有少數(shù)研究成果實現(xiàn)工程化應用。真實環(huán)境和虛擬環(huán)境之間的較大差異,令仿真環(huán)境中RL的應用效果與實際部署之間存在較大差距。借助云端化網(wǎng)聯(lián)自動駕駛技術的虛實結合模式,如平行駕駛技術等,也是引導決策算法由虛擬邁入現(xiàn)實的有效手段之一;虛擬到現(xiàn)實的策略遷移,可以通過域自適應、域隨機化和圖像翻譯等學習方法縮小兩者之間的差距;遷移強化學習等研究的投入有助于加快虛擬環(huán)境向真實環(huán)境的轉(zhuǎn)換。仿真中的環(huán)境狀態(tài)信息全部可知,但面對真實環(huán)境下無V2X 應用、存在遮擋情況的實際駕駛場景,自動駕駛RL 技術的工程化落地面臨很多挑戰(zhàn),現(xiàn)階段RL 技術的應用還處于摸索階段,自動駕駛決策的潛力還沒有被完全發(fā)掘出來,但這一領域仍然具有廣闊前景。