徐 杰,裴曉飛,2,楊 波,方志剛
(1.現(xiàn)代汽車零部件技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢理工大學(xué),湖北 武漢, 430070;2.汽車零部件技術(shù)湖北省協(xié)同創(chuàng)新中心,武漢理工大學(xué),湖北 武漢, 430070)
對(duì)交通環(huán)境中其他交通參與者的運(yùn)動(dòng)進(jìn)行合理的軌跡預(yù)測(cè)將極大提高決策結(jié)果的安全可行[1]。傳統(tǒng)的基于物理機(jī)理的模型假設(shè)車輛未來的運(yùn)動(dòng)只依賴于當(dāng)前的運(yùn)動(dòng)狀態(tài),而不考慮任何的場(chǎng)景信息[2],隨著預(yù)測(cè)時(shí)間的增長(zhǎng),由駕駛員行為的改變所帶來的運(yùn)動(dòng)不確定性將導(dǎo)致運(yùn)動(dòng)預(yù)測(cè)產(chǎn)生巨大的誤差。為了較好的解決這個(gè)問題,人們逐漸通過駕駛行為認(rèn)知結(jié)果來估計(jì)和預(yù)測(cè)未來一段時(shí)間行車軌跡的變化。
Z. Kun 等人[3]借助高斯混合模型將基于道路網(wǎng)絡(luò)特征的原始車輛軌跡分類為有限個(gè)軌跡簇,根據(jù)實(shí)時(shí)的樣本歷史軌跡與原始軌跡簇的匹配結(jié)果結(jié)合原始軌跡進(jìn)行運(yùn)動(dòng)預(yù)測(cè)。M. Schreier 等人[4]借助Bayes 推斷為交通場(chǎng)景中的每輛車推斷出高級(jí)駕駛動(dòng)作的分布,再采用基于機(jī)動(dòng)的概率軌跡預(yù)測(cè)模型來及時(shí)預(yù)測(cè)每個(gè)車輛的未來行駛軌跡。在實(shí)際的交通環(huán)境之中,需要考慮各車之間行為存在依賴的關(guān)系[5]。HOU Lian 等人[6]提出了一種基于分層多序列學(xué)習(xí)網(wǎng)絡(luò)的周邊車輛長(zhǎng)期交互式軌跡預(yù)測(cè)方法,為每個(gè)交互的車輛分配多個(gè)長(zhǎng)短期記憶(long short term memory, LSTM)網(wǎng)絡(luò),通過和相鄰的LSTM 網(wǎng)絡(luò)共享特征來預(yù)測(cè)目標(biāo)車輛的軌跡。但是同一車輛在時(shí)間維度上的變化關(guān)系對(duì)于預(yù)測(cè)的準(zhǔn)確度有著較大的影響,而且同一時(shí)刻周圍各車輛對(duì)中心車輛的重要性并不相同。
目前決策的方法主要可以分為2 大類:基于規(guī)則的方法和基于學(xué)習(xí)的方法[7]。基于規(guī)則的方法[8-10]需要大量的駕駛數(shù)據(jù)和所有可能的駕駛場(chǎng)景,但隨著場(chǎng)景的日益復(fù)雜,該方法缺乏適用性[11]。為了消除對(duì)標(biāo)記駕駛數(shù)據(jù)的需求,越來越多的研究人員開始采用基于學(xué)習(xí)的方法,而其中主要是利用強(qiáng)化學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)直接利用模擬器或?qū)嶒?yàn)中的樣本,通過優(yōu)化一個(gè)累積的未來獎(jiǎng)勵(lì)信號(hào),針對(duì)序列決策問題進(jìn)行策略的學(xué)習(xí),允許自動(dòng)駕駛汽車反復(fù)試錯(cuò)來優(yōu)化其駕駛性能[12],而不依賴于手動(dòng)設(shè)計(jì)的規(guī)則和人工駕駛的數(shù)據(jù)[13-14]。當(dāng)下常見的算法包括DDQN[15],DDPG[16],A3C[17],TRPO[18]等。其中DDQN 算法應(yīng)用較為廣泛[19],其優(yōu)點(diǎn)是利用2 個(gè)網(wǎng)絡(luò)分別進(jìn)行動(dòng)作的選擇與動(dòng)作的評(píng)估。而Rainbow DQN 算法則是對(duì)DDQN 算法的拓展,融合了6 種DQN 算法的改進(jìn)方法。但是僅利用強(qiáng)化學(xué)習(xí)進(jìn)行決策會(huì)在前期耗費(fèi)大量時(shí)間進(jìn)行試錯(cuò)學(xué)習(xí),且未考慮周圍環(huán)境的未來動(dòng)態(tài),導(dǎo)致整個(gè)決策策略學(xué)習(xí)效率過低。
本文在考慮車輛交互關(guān)系的基礎(chǔ)上搭建基于圖結(jié)構(gòu)和LSTM 框架的軌跡預(yù)測(cè)模型;處理數(shù)據(jù)集并進(jìn)行預(yù)測(cè)模型的訓(xùn)練;然后搭建基于Rainbow DQN 算法的強(qiáng)化學(xué)習(xí)框架;利用訓(xùn)練好的預(yù)測(cè)模型對(duì)復(fù)雜場(chǎng)景中的車輛進(jìn)行未來軌跡的實(shí)時(shí)預(yù)測(cè),并將其放入狀態(tài)空間中進(jìn)行自動(dòng)駕駛汽車的決策仿真驗(yàn)證。
針對(duì)常見交通場(chǎng)景,選擇一組共7 個(gè)位于相鄰3車道的車輛。在時(shí)刻t,車輛Vi的特征為
式中:x和y表示車輛縱向位置和橫向位置;vx和vy表示車輛縱向速度和橫向速度;i= 1,2,…,7,分別代表7 種位置的車輛(見圖1)。若某個(gè)位置的周圍車輛不存在,則將xit和yit設(shè)為999 m,vxit和vyit設(shè)為0 m/s。
圖1 場(chǎng)景特征描述
通過訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型,將7 輛車對(duì)應(yīng)的歷史特征序列處理后輸入,考慮場(chǎng)景下7 輛車與其各自對(duì)應(yīng)的周圍車輛之間的交互關(guān)系,從而能夠較為準(zhǔn)確的預(yù)測(cè)出每輛車的未來軌跡。本文基于編碼器-解碼器結(jié)構(gòu)搭建軌跡預(yù)測(cè)模型,模型中編碼器部分利用圖結(jié)構(gòu)來考慮各車輛之間的空間維度和時(shí)間維度的交互特征,針對(duì)每一輛車及其周圍車輛構(gòu)建一個(gè)圖結(jié)構(gòu)進(jìn)行特征提取,并借助注意力機(jī)制篩選每輛車重點(diǎn)關(guān)注的環(huán)境信息,對(duì)解碼器部分利用Structural-LSTM 網(wǎng)絡(luò),將編碼器部分輸出的每輛車對(duì)應(yīng)的信息進(jìn)行處理,分層學(xué)習(xí)各車輛之間的交互關(guān)系,從而更為準(zhǔn)確的預(yù)測(cè)出每輛車未來的行駛軌跡,模型結(jié)構(gòu)如圖2 所示。
圖2 軌跡預(yù)測(cè)模型框架
為了較好地考慮每輛車之間在時(shí)間與空間上的交互關(guān)系,在編碼器部分采用一種基于圖結(jié)構(gòu)的框架,每一輛車代表圖結(jié)構(gòu)中的節(jié)點(diǎn),空間維度上兩車輛之間的相對(duì)信息以及時(shí)間維度上同一輛車的相對(duì)信息代表圖結(jié)構(gòu)中的邊線,將LSTM 網(wǎng)絡(luò)應(yīng)用于圖中的節(jié)點(diǎn)和邊線。用節(jié)點(diǎn)和邊線來表示圖結(jié)構(gòu)G如下:
式中:節(jié)點(diǎn)Nveh表示車輛的特征f,邊線Espa表示各車輛在空間維度上的交互特征,邊線Etem表示車輛在時(shí)間維度上的交互特征。在時(shí)刻t,車輛Vi和車輛Vj之間的空間維度上的交互特征可以表示為
式中:xij、 yij、vxij和vyij分別表示車輛Vi與車輛Vj之間的相對(duì)橫向位置、相對(duì)縱向位置、相對(duì)橫向速度和相對(duì)縱向速度。類似的,在時(shí)刻t,車輛Vi在時(shí)間維度上的交互特征由前一時(shí)刻與當(dāng)前時(shí)刻的特征表示為
不同節(jié)點(diǎn)之間的特征通過LSTM 網(wǎng)絡(luò)進(jìn)行特征聚合。對(duì)于每個(gè)節(jié)點(diǎn)Nveh,邊線Espa和邊線Etem,都各自分配一個(gè)LSTM 層進(jìn)行預(yù)測(cè),且針對(duì)不同的車輛,每一部分對(duì)應(yīng)的LSTM 網(wǎng)絡(luò)都共享相同的參數(shù)。在每個(gè)LSTM 層前都會(huì)借助標(biāo)準(zhǔn)化層(layer normalization,LN)進(jìn)行處理。在時(shí)刻t,對(duì)于車輛Vi而言,其空間特征Espaijt經(jīng)線性函數(shù)處理后將低維輸入嵌入到高維輸出,再經(jīng)LSTM 層從而產(chǎn)生隱藏狀態(tài)為
式中,emb(·)表示線性函數(shù)。同理,對(duì)于時(shí)間特征Espaijt進(jìn)行相同的處理,由LSTM 層輸出得到對(duì)應(yīng)的隱藏狀態(tài)hiit。
在實(shí)際的交通環(huán)境之中,車輛會(huì)與其周圍車輛產(chǎn)生交互作用,但其重要性可能不盡相同,為了量化周圍車輛各自的重要性,在圖結(jié)構(gòu)之中借助注意力模塊Att,采用軟注意力機(jī)制[20]對(duì)不同的空間特征分配不同的權(quán)重,即
式中: dot(·)表示點(diǎn)乘,k表示該車輛的周圍車輛數(shù)量,de表示輸出特征量的維度。將hijt的權(quán)重和進(jìn)行計(jì)算從而表示周圍車輛在空間維度上的影響,用Hit表示。將Hit與hiit結(jié)合并嵌入為一個(gè)固定特征量,即
式中:concat(·)表示特征量之間的連接。將節(jié)點(diǎn)特征Nvehi嵌入為一個(gè)固定特征量bit,最后將zit與bit結(jié)合起來經(jīng)LSTM 層輸出得到車輛Vi在編碼器中的隱藏狀態(tài)為
節(jié)點(diǎn)、邊線和LSTM 網(wǎng)絡(luò)之間的關(guān)系如圖3 所示。其中:fit表示目標(biāo)車輛Vi的特征序列,fij1t、fij2t表示周圍車輛Vj1、Vj2與目標(biāo)車輛Vi構(gòu)成的空間維度的特征序列,fiit表示目標(biāo)車輛Vi自身構(gòu)成的時(shí)間維度的特征序列,這些節(jié)點(diǎn)與邊經(jīng)過LSTM 網(wǎng)絡(luò),注意力機(jī)制等得到最終編碼器部分隱藏狀態(tài)的輸出。
圖3 基于圖結(jié)構(gòu)的編碼器
不只是將所有車的特征結(jié)合到一個(gè)特征量中并用一個(gè)單獨(dú)的LSTM 層進(jìn)行處理,在此處將單一的LSTM 層擴(kuò)展為Structural-LSTM 層,其包含多個(gè)LSTM 層,并且每一層都單獨(dú)對(duì)輸入進(jìn)行處理,從而分層學(xué)習(xí)車輛之間的交互,對(duì)場(chǎng)景中每輛車與其周圍車輛的特征關(guān)系進(jìn)行考慮以達(dá)到同時(shí)輸出多輛車的未來軌跡信息的目的[21]。在解碼器中,對(duì)編碼器的輸出hit利用Structural-LSTM 層進(jìn)行處理,得到對(duì)應(yīng)的隱藏狀態(tài),即:
將每輛車及其周圍車輛的隱藏狀態(tài)結(jié)合為一個(gè)特征量,并利用LSTM 層進(jìn)行相應(yīng)的特征提取,從而可以單獨(dú)的識(shí)別出每輛車及其周圍車輛之間的交互關(guān)系。通過Structural-LSTM 層的使用,解碼器中可以同時(shí)預(yù)測(cè)出多輛車的軌跡,更加真實(shí)的考慮到車輛之間的雙向交互。
強(qiáng)化學(xué)習(xí)算法的總體框架如圖4 所示。首先環(huán)境將相關(guān)狀態(tài)量信息傳遞給智能體;然后智能體根據(jù)這些信息利用Rainbow DQN 算法,結(jié)合6 種基于DQN的 改 進(jìn) 算 法(Double Q learning、Prioritized replay、
圖4 強(qiáng)化學(xué)習(xí)框架
Dueling network、Multi-step learning、Distributional RL 和Noisy Nets) ,選擇動(dòng)作,當(dāng)動(dòng)作被選定之后將會(huì)受到安全規(guī)則的約束,當(dāng)其不滿足安全規(guī)則時(shí),會(huì)使得智能體選擇一個(gè)相對(duì)安全的動(dòng)作(動(dòng)作選取具體見2.4 章節(jié)) ;最后將會(huì)根據(jù)安全性,舒適性等方面得到一個(gè)獎(jiǎng)勵(lì)函數(shù)值返回給智能體;最終的目標(biāo)就是:使獲得的累積獎(jiǎng)勵(lì)值最大,從而保證無人駕駛汽車可以在較為復(fù)雜的場(chǎng)景之下高效安全的通過。
2.2.1 狀態(tài)空間S
狀態(tài)空間中包含自動(dòng)駕駛汽車所需的自車信息以及周圍車輛信息,如下式所示:
由于旁車信息是根據(jù)傳感器進(jìn)行收集,因此將感知距離限定在100 m 之內(nèi)。若某個(gè)位置的周圍車輛不存在,則將其對(duì)應(yīng)的xit和yit的值設(shè)為999 m,vxit和vyit的值設(shè)為0 m/s。
2.2.2 動(dòng)作空間A
動(dòng)作空間中包含自動(dòng)駕駛汽車進(jìn)行速度變化(ai)以及換道動(dòng)作(DLC),如下式所示:
式中:ai表示加速度,共有-2、-1、0、1、2 m/s25 種;DLC 表示換道指令,共有(向左換道、保持不變、向右換道)3 種。
2.2.3 獎(jiǎng)勵(lì)函數(shù)R
獎(jiǎng)勵(lì)函數(shù)在智能體能否高效完成目標(biāo)的過程中扮演著至關(guān)重要的作用,因此需要設(shè)定一些合理的獎(jiǎng)勵(lì)函數(shù)。為了保證自動(dòng)駕駛汽車能夠以期望的速度安全行駛,本文的獎(jiǎng)勵(lì)函數(shù)主要考慮以下幾個(gè)方面:
1)碰撞風(fēng)險(xiǎn)評(píng)估。本文考慮3 個(gè)安全因素來對(duì)碰撞風(fēng)險(xiǎn)進(jìn)行評(píng)估,即:即碰時(shí)間(time to collision,TTC)、最小安全距離(minimal safe distance,MSD)、車際時(shí)間(inter vehicular time,IVT)。3 個(gè)安全因素的風(fēng)險(xiǎn)值定義為:
針對(duì)上述3 個(gè)安全因素,碰撞風(fēng)險(xiǎn)可以分為前向碰撞風(fēng)險(xiǎn)和后向碰撞風(fēng)險(xiǎn),對(duì)于后向碰撞風(fēng)險(xiǎn)而言,安全因素IVT 不起作用,因此設(shè)定前向獎(jiǎng)勵(lì)函數(shù)RF和后向獎(jiǎng)勵(lì)函數(shù)RB如下:
2)期望速度。自動(dòng)駕駛汽車被希望盡可能以期望的速度行駛,設(shè)定獎(jiǎng)勵(lì)函數(shù)為
式中:vego表示自車當(dāng)前速度,vd表示對(duì)自車的期望速度,本文設(shè)vd= 21 m/s。
1)動(dòng)作選取。自動(dòng)駕駛汽車被希望盡可能加速到期望車速并保持該車速行駛,且避免沒有必要的換道,保證乘車的舒適性,因此設(shè)定獎(jiǎng)勵(lì)函數(shù)為
其中,a表示自動(dòng)駕駛汽車選取的加速度。
2)終止?fàn)顟B(tài)。當(dāng)自動(dòng)駕駛汽車因碰撞而停止時(shí),給予其較大的負(fù)獎(jiǎng)勵(lì),設(shè)定獎(jiǎng)勵(lì)函數(shù)為
綜合以上4 個(gè)方面,最終的獎(jiǎng)勵(lì)函數(shù)為
式中,ω為待定系數(shù),取值為:ω1= 0.4,ω2= 0.4,ω3=
0.25,ω4= 0.1,ω5= 1。
1) 當(dāng)自動(dòng)駕駛汽車的速度大于前方車輛且違反了最小安全距離時(shí),很容易會(huì)出現(xiàn)碰撞,為此需要滿足下式:
式中:vfro表示前方車輛速度。因此,最小安全時(shí)間間隔tmin需要滿足下式:
對(duì)應(yīng)的最小安全距離dmin應(yīng)該滿足下式:
當(dāng)自動(dòng)駕駛汽車與前車的相對(duì)距離小于最小安全距離時(shí),自動(dòng)駕駛汽車將以最大減速度行駛,否則就按照智能體選擇的動(dòng)作行駛。
2) 當(dāng)自動(dòng)駕駛汽車選擇換道時(shí),需要根據(jù)最小安全距離判斷是否會(huì)與新的車道上前方或者后方的車發(fā)生碰撞。如果小于最小安全距離,自動(dòng)駕駛汽車則會(huì)選擇取消換道,在當(dāng)前車道繼續(xù)以原速度行駛,否則就進(jìn)行換道動(dòng)作。
3) 當(dāng)自動(dòng)駕駛汽車處于最左側(cè)車道時(shí),若智能體選擇繼續(xù)向左換道則會(huì)駛出車道,因此將取消換道繼續(xù)以原速度在當(dāng)前車道行駛。該規(guī)則同樣適用于當(dāng)自動(dòng)駕駛汽車處于最右側(cè)車道的情況。
將所搭建的軌跡預(yù)測(cè)模型與決策算法相結(jié)合,狀態(tài)空間中不僅只輸入當(dāng)前時(shí)刻下的自車及周圍車輛信息,還輸入經(jīng)由軌跡預(yù)測(cè)模型得到的自車及周圍車輛未來軌跡信息。一般情況下,車輛的行為變化大概在10 s內(nèi)即可完成,為了更好的識(shí)別出歷史軌跡中所包含的特征,本文選擇通過歷史10 s 的軌跡信息去預(yù)測(cè)未來5 s的軌跡信息。當(dāng)狀態(tài)空間中的量過多時(shí)會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)算法無法識(shí)別其中特征從而導(dǎo)致算法無法收斂,因此選取未來2.5 s 和5 s 的狀態(tài)信息輸入進(jìn)狀態(tài)空間中,如下式所示:
式中,T表示預(yù)測(cè)的時(shí)間步。首先對(duì)所搭建的軌跡預(yù)測(cè)模型利用現(xiàn)實(shí)場(chǎng)景中收集得到的數(shù)據(jù)集進(jìn)行訓(xùn)練并保存訓(xùn)練好后的模型,然后對(duì)環(huán)境中傳遞的狀態(tài)信息進(jìn)行保存,當(dāng)仿真時(shí)長(zhǎng)達(dá)到10 s 后,將保存的歷史10 s軌跡信息輸入進(jìn)軌跡預(yù)測(cè)模型內(nèi),從而得到所有車輛的未來軌跡信息,將其與當(dāng)前狀態(tài)信息一并輸入到狀態(tài)空間之中,從而進(jìn)行行為決策模型的訓(xùn)練。
由于本文考慮的是車輛之間的交互運(yùn)動(dòng),因此選擇使用NGSIM 數(shù)據(jù)集對(duì)軌跡預(yù)測(cè)模型進(jìn)行訓(xùn)練與測(cè)試。該數(shù)據(jù)集中車輛的行駛軌跡信息以10 Hz 的頻率被記錄下來,每個(gè)樣本中含有車輛橫向坐標(biāo)、縱向坐標(biāo)、速度、加速度、車的長(zhǎng)寬等信息。
首先對(duì)每一個(gè)中心車輛以15 s 的時(shí)間長(zhǎng)度進(jìn)行樣本劃分(10 s 當(dāng)做歷史軌跡輸入,5 s 當(dāng)做未來軌跡預(yù)測(cè))。其次匹配其周圍車輛信息。然后利用S-G 濾波器(Savitzky-Golay filter)對(duì)樣本進(jìn)行濾波處理。最后以1 Hz 的頻率得到處理后的樣本數(shù)據(jù),以7:3 的比例隨機(jī)選取分為訓(xùn)練集和測(cè)試集。
在軌跡預(yù)測(cè)模型中,嵌入層神經(jīng)元數(shù)為64,LSTM層神經(jīng)元數(shù)為128,所有的LSTM 層都使用Softsign激活函數(shù),批量大小為64,學(xué)習(xí)率設(shè)為5×10-4,整個(gè)模型用Adam 優(yōu)化器訓(xùn)練200 回合,將梯度的全局范數(shù)裁剪為1 從而確保穩(wěn)定訓(xùn)練。
對(duì)軌跡預(yù)測(cè)模型按照1 Hz 所輸出中心車輛的橫向速度和縱向速度,利用二次插值法得到頻率為10 Hz 的速度信息,再?gòu)乃俣扰c起始局部位置的積分中,得到車輛橫向和縱向位置。
本文根據(jù)最終位置誤差,對(duì)4 種軌跡預(yù)測(cè)模型進(jìn)行了比較:恒定轉(zhuǎn)率和加速度模型(CTRA)、Structural-LSTM 預(yù)測(cè)模型(編碼器和解碼器部分都用Structural-LSTM 結(jié)構(gòu))、基于圖結(jié)構(gòu)的預(yù)測(cè)模型(不加注意力機(jī)制)、本文所提出的軌跡預(yù)測(cè)模型。其結(jié)果如表1 所示。
表1 不同模型的位置誤差
從表1可以看出:本文所搭建的軌跡預(yù)測(cè)模型,無論是橫向位置還是縱向位置,其預(yù)測(cè)精度相比于其他3種軌跡預(yù)測(cè)模型,都有了較大的提升。其中,CTRA 模型精度最低,原因是由于其只根據(jù)當(dāng)前車輛狀態(tài)信息推斷未來的軌跡,并沒有考慮駕駛員的動(dòng)機(jī)以及周圍車輛的影響,當(dāng)預(yù)測(cè)時(shí)長(zhǎng)越長(zhǎng),其精度也會(huì)越低。與Structural-LSTM 和圖結(jié)構(gòu)模型相比,本文所提模型既考慮了車輛空間維度上的特征交互,又考慮了同一輛車時(shí)間維度上的特征交互,且利用注意力機(jī)制更好的獲取周圍重要信息,避免無用信息的干擾,在5 s 末縱向位置誤差精度分別提升了19%和46%,橫向位置誤差精度也有略微的提高。這說明:本文所提模型能夠更加合理地預(yù)測(cè)車輛軌跡,提高預(yù)測(cè)精度。
考慮當(dāng)前交通場(chǎng)景中車輛數(shù)目較多且路況較為復(fù)雜,因此在SUMO 仿真平臺(tái)中搭建場(chǎng)景如圖5 所示。
圖5 仿真場(chǎng)景
綠色車表示自動(dòng)駕駛汽車,其每一步的動(dòng)作根據(jù)Rainbow DQN 算法選取,紅色車表示手動(dòng)駕駛車輛,其初始位置和初始速度都在限定的范圍內(nèi)隨機(jī)選取,縱向控制采用Krauss 模型,橫向控制采用LC2013 模型。仿真回合最大時(shí)長(zhǎng)設(shè)為30 s,步長(zhǎng)設(shè)為0.1 s,當(dāng)自動(dòng)駕駛汽車與其他車輛或者道路發(fā)生碰撞時(shí),即停止該回合,重新開始新的回合訓(xùn)練。Rainbow DQN 算法中的主要超參數(shù)如表2 所示。
表2 主要超參數(shù)說明
圖6展示了融合軌跡預(yù)測(cè)模型的DDQN (Double Deep Q-learning)算法與Rainbow DQN 算法的平均累積獎(jiǎng)勵(lì)曲線圖。
圖6 平均累計(jì)獎(jiǎng)勵(lì)曲線圖
由圖6 可知:大約訓(xùn)練3 000 回合以后,2 種模型的平均獎(jiǎng)勵(lì)函數(shù)都逐漸趨于收斂。相較于DDQN 算法而言,Rainbow DQN 算法收斂后的曲線具有更大的獎(jiǎng)勵(lì)值,因此具有更好的訓(xùn)練效果。
對(duì)以下5 個(gè)模型進(jìn)行了比較:DDQN 決策模型、融合軌跡預(yù)測(cè)模型的DDQN 決策模型、無安全規(guī)則的Rainbow DQN 決策模型、Rainbow DQN 決策模型、融合軌跡預(yù)測(cè)模型的Rainbow DQN 決策模型。但是通過訓(xùn)練發(fā)現(xiàn):無安全規(guī)則的Rainbow DQN 決策模型經(jīng)過20 萬次的訓(xùn)練而依然無法趨于收斂,而其余4 個(gè)模型都可以經(jīng)過一定回合的訓(xùn)練而趨于收斂。這說明:安全規(guī)則可以在一定程度上加速?gòu)?qiáng)化學(xué)習(xí)算法的收斂,確保動(dòng)作的更優(yōu)性。對(duì)訓(xùn)練好的其余4 個(gè)模型分別進(jìn)行500 個(gè)回合的測(cè)試。
從成功率η、平均速度vav、vav的方差3 個(gè)角度對(duì)模型進(jìn)行評(píng)價(jià),其結(jié)果如表3 所示。
表3 4 個(gè)模型測(cè)試結(jié)果
從表3 中可知:與DDQN 算法相比,無論是否考慮軌跡預(yù)測(cè)模型,Rainbow DQN 算法在成功率,平均速度以及平均速度方差上都有著較大的提升,從而說明Rainbow DQN 算法相較于DDQN 算法有著更好的決策效果,對(duì)于同一場(chǎng)景能夠選擇更加合適的動(dòng)作。DDQN 算法和Rainbow DQN 算法在融合預(yù)測(cè)模型后,其通過成功率分別上升了5.4%和0.4%,平均速度分別提高了1.13 m·s-1和0.2 m·s-1。
通過2 種算法的比較可以看出:軌跡預(yù)測(cè)模型有助于決策模型成功率以及平均速度的提升,提高了車輛行駛的安全性與通行效率;提前知曉周圍車輛的未來軌跡,可以使決策算法尋找更優(yōu)的動(dòng)作。
為提高自動(dòng)駕駛汽車的決策效果,本文作者在融合車輛軌跡預(yù)測(cè)的基礎(chǔ)上利用Rainbow DQN 算法進(jìn)行駕駛決策的研究。通過搭建基于圖結(jié)構(gòu)和Structural-LSTM 結(jié)構(gòu)的軌跡預(yù)測(cè)模型,實(shí)時(shí)輸出車輛的未來軌跡信息,Rainbow DQN 算法根據(jù)當(dāng)前狀態(tài)信息及未來狀態(tài)信息進(jìn)行動(dòng)作的選取,并加以安全規(guī)則的約束,使得累積的考慮安全、舒適等獎(jiǎng)勵(lì)函數(shù)和最大。
仿真結(jié)果表明:提前知曉車輛的未來軌跡對(duì)于決策效果而言不僅提高了通過安全性,還提高了通行效率。本文所研究的方法在自動(dòng)駕駛領(lǐng)域,可以減少交通事故及交通堵塞等情況的發(fā)生,并且有利于自動(dòng)駕駛?cè)谌胗腥笋{駛的環(huán)境中。
今后本文作者會(huì)考慮更多的交通參與者,提高方法的適用性,同時(shí)借助更多時(shí)刻的未來軌跡信息,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征的提取再放入狀態(tài)空間中,提高信息的準(zhǔn)確性。