劉建銘,陳偉俠,盧仲康
(1. 華南理工大學(xué) 機(jī)械與汽車(chē)工程學(xué)院,廣州 510641;2. 廣州華工機(jī)動(dòng)車(chē)檢測(cè)技術(shù)有限公司,廣州 510640)
對(duì)周?chē)h(huán)境中車(chē)輛及行人的軌跡預(yù)測(cè)是自動(dòng)駕駛關(guān)鍵技術(shù)之一,對(duì)未來(lái)軌跡的準(zhǔn)確預(yù)測(cè)能夠避免自動(dòng)駕駛車(chē)輛規(guī)劃出錯(cuò)誤的路徑,增強(qiáng)決策規(guī)劃模塊輸出的有效性,輸出更加平滑的規(guī)劃軌跡。
目前車(chē)輛軌跡預(yù)測(cè)方法主要可以分為兩大類(lèi)型:基于物理模型以及深度學(xué)習(xí)方法?;谖锢砟P偷念A(yù)測(cè)方法將車(chē)輛表示為受限于某種物理模型控制的運(yùn)動(dòng)物體,該模型一般為運(yùn)動(dòng)學(xué)模型或者動(dòng)力學(xué)模型。動(dòng)力學(xué)模型需要有準(zhǔn)確的車(chē)輛物理參數(shù),因此在預(yù)測(cè)任務(wù)中運(yùn)動(dòng)學(xué)模型更為常見(jiàn)。常用的運(yùn)動(dòng)學(xué)模型包括了恒定速度模型、恒定加速度模型、恒定角速度和速度模型[1]以及恒定角速度和加速度模型[2]。物理模型方法通常只適用于短期預(yù)測(cè),例如預(yù)測(cè)一秒內(nèi)的未來(lái)軌跡,因?yàn)檫@些算法無(wú)法對(duì)駕駛員的駕駛行為進(jìn)行預(yù)測(cè)[3]。
深度學(xué)習(xí)則通過(guò)大數(shù)據(jù)驅(qū)動(dòng),使模型能夠自主的學(xué)習(xí)到其他環(huán)境因素對(duì)目標(biāo)車(chē)輛駕駛行為的影響。軌跡預(yù)測(cè)作為一個(gè)序列預(yù)測(cè)的問(wèn)題,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)自然的被引入到軌跡預(yù)測(cè)中。文獻(xiàn)[4]中將車(chē)輛的歷史坐標(biāo)及加速度輸入到LSTM網(wǎng)絡(luò)中,輸出車(chē)輛在未來(lái)時(shí)刻位于占據(jù)柵格地圖每個(gè)網(wǎng)格的概率。文獻(xiàn)[5]基于生成對(duì)抗模型進(jìn)行軌跡預(yù)測(cè),使用LSTM作為生成模型的編碼器及解碼器。
車(chē)輛的未來(lái)狀態(tài)除了與自身的歷史軌跡相關(guān),同時(shí)也取決于與其他車(chē)輛的交互。文獻(xiàn)[6-7]將被預(yù)測(cè)車(chē)輛周?chē)?chē)輛的信息加入到輸入中,考慮與周?chē)?chē)輛的交互明顯加強(qiáng)了預(yù)測(cè)的準(zhǔn)確性。在Social-LSTM[8]中提出了社會(huì)池化層(social pooling)處理行人之間的空間關(guān)系,不同行人的軌跡經(jīng)過(guò)LSTM的編碼被放入到一個(gè)網(wǎng)格圖中,此網(wǎng)格圖即表示了當(dāng)前時(shí)刻行人的空間關(guān)系。Deo等人[9]在社交池化層后使用卷積層代替原本的全連接層,利用卷積層的等價(jià)性能提取網(wǎng)格圖中的局部有用信息。Lin[10]等人在社交池化層增加了額外的注意力層,在每個(gè)時(shí)間步T計(jì)算目標(biāo)車(chē)輛對(duì)其他網(wǎng)格內(nèi)車(chē)輛的注意力權(quán)重,該權(quán)重與LSTM輸出的隱變量相乘。
在結(jié)構(gòu)化道路下行駛的車(chē)輛一般會(huì)沿著車(chē)道線行駛,如果能有效地提取道路信息將提升網(wǎng)絡(luò)預(yù)測(cè)性能。Khandelwal等人提出WIMP[11],在軌跡預(yù)測(cè)中加入了路網(wǎng)信息,將路網(wǎng)分段離散并表示成有向圖。LanGCN[12]同樣將路網(wǎng)表示為有向圖,并定義了LaneConv算子以充分利用路網(wǎng)的連接關(guān)系。VectorNet[13]則將道路和軌跡向量化,通過(guò)聚合函數(shù)將向量聚合在一個(gè)高維特征中,并使用注意力機(jī)制提取各個(gè)高維特征之間的信息。文獻(xiàn)[14]延續(xù)了VectorNet對(duì)道路的編碼形式,但是增加了路段和路點(diǎn)作為道路信息的額外特征并拼接在原來(lái)的高維特征中。文獻(xiàn)[15-16]中道路信息被表示為圖像的形式,各種道路信息按照一定的分辨率繪制在圖像的不同通道中,使用卷積神經(jīng)網(wǎng)絡(luò)處理該圖像以提取道路信息。
對(duì)駕駛員的目標(biāo)點(diǎn)意圖預(yù)測(cè)也是提升模型預(yù)測(cè)精度的方式,在TPNet[16]中提出了預(yù)測(cè)目標(biāo)點(diǎn)的方式以增加預(yù)測(cè)準(zhǔn)確性。TNT[17]模型使用分層圖神經(jīng)網(wǎng)絡(luò)VectorNet來(lái)編碼場(chǎng)景的特征向量,該特征向量被用于預(yù)測(cè)目標(biāo)點(diǎn)及生成最終軌跡。
綜上,車(chē)輛軌跡預(yù)測(cè)算法中依然存在以下問(wèn)題:
1)如何更高效編碼道路信息以及歷史軌跡信息,并建立對(duì)應(yīng)的交互模型以充分利用環(huán)境信息是預(yù)測(cè)模塊提供準(zhǔn)確預(yù)測(cè)軌跡的關(guān)鍵問(wèn)題。
圖1 軌跡預(yù)測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖
2)目標(biāo)點(diǎn)信息對(duì)未來(lái)軌跡預(yù)測(cè)精度是重要影響因素之一,如何準(zhǔn)確的預(yù)測(cè)目標(biāo)點(diǎn)并利用目標(biāo)點(diǎn)信息增強(qiáng)預(yù)測(cè)精度同樣也是一項(xiàng)問(wèn)題。
針對(duì)以上問(wèn)題,本文以道路信息、車(chē)輛歷史軌跡信息作為輸入,提出了基于注意力機(jī)制的實(shí)時(shí)軌跡預(yù)測(cè)網(wǎng)絡(luò)。本文的主要貢獻(xiàn)包括:
1)對(duì)預(yù)測(cè)網(wǎng)絡(luò)的多模態(tài)輸入問(wèn)題,提出了基于注意力機(jī)制的交互模塊處理車(chē)道線信息和歷史軌跡信息,該模塊將提取影響車(chē)輛未來(lái)狀態(tài)的3個(gè)重要交互信息:車(chē)道線對(duì)于車(chē)輛的指引、車(chē)流信息以及車(chē)輛間的交互。
2)增加目標(biāo)點(diǎn)預(yù)測(cè)模塊,從道路中心線中采樣目標(biāo)點(diǎn),在軌跡預(yù)測(cè)模塊中加入目標(biāo)點(diǎn)信心進(jìn)一步增強(qiáng)軌跡預(yù)測(cè)模塊的準(zhǔn)確性。
軌跡預(yù)測(cè)模塊的任務(wù)是給定自動(dòng)駕駛車(chē)輛周?chē)h(huán)境若干時(shí)間步的歷史狀態(tài),預(yù)測(cè)周?chē)?chē)輛未來(lái)幾個(gè)時(shí)間步的狀態(tài)或某個(gè)狀態(tài)的轉(zhuǎn)移概率。使用數(shù)學(xué)語(yǔ)言描述即為,給定歷史狀態(tài)Xhs:
(1)
所提軌跡預(yù)測(cè)網(wǎng)絡(luò)整體架構(gòu)如圖1所示,軌跡預(yù)測(cè)網(wǎng)絡(luò)主要包括了3個(gè)模塊:歷史軌跡與道路的編碼模塊將低維輸入轉(zhuǎn)換為高維的特征向量;交互模塊負(fù)責(zé)提取道路與車(chē)輛、車(chē)輛與車(chē)輛之間的交互,輸出目標(biāo)車(chē)輛與環(huán)境的交互特征;預(yù)測(cè)模塊包括了兩個(gè)預(yù)測(cè)任務(wù)——目標(biāo)點(diǎn)及軌跡預(yù)測(cè),交互特征向量、預(yù)測(cè)目標(biāo)點(diǎn)坐標(biāo)及對(duì)應(yīng)的概率作為該模塊的輸入。網(wǎng)絡(luò)使用了簡(jiǎn)潔統(tǒng)一的架構(gòu)對(duì)多模態(tài)的輸入進(jìn)行編碼并提取不同輸入特征之間的交互信息,下面對(duì)每個(gè)模塊進(jìn)行詳細(xì)介紹。
2.1.1 軌跡編碼模塊
對(duì)于車(chē)輛軌跡信息,預(yù)測(cè)網(wǎng)絡(luò)的輸入首先應(yīng)當(dāng)包括各個(gè)車(chē)輛的二維坐標(biāo),由于傳感器的采樣頻率并不能保證在全部場(chǎng)景都是穩(wěn)定的,即在部分場(chǎng)景中軌跡的幀時(shí)間間隔大于設(shè)定的采樣間隔,所以將時(shí)間戳信息也加入到網(wǎng)絡(luò)輸入中。在部分時(shí)刻由于障礙物遮擋會(huì)導(dǎo)致觀測(cè)信息為空值,因此附加一列指示位表示該時(shí)刻是否有觀測(cè)值。根據(jù)上述處理方法,最后將得到一個(gè)m×tobs×4的歷史軌跡輸入Phis={p1,p2,…,pm},其中m為該場(chǎng)景中的相關(guān)車(chē)輛數(shù)目,tobs為可觀測(cè)的時(shí)間長(zhǎng)度。
從輸入的特征可以看出車(chē)輛的歷史信息是按照一定的時(shí)間間隔記錄的車(chē)輛狀態(tài),對(duì)時(shí)間序列進(jìn)行編碼的常用方式是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。軌跡編碼模塊選用了RNN中的一個(gè)變體UGRU[18],所有的軌跡將使用同一個(gè)U-GRU模塊進(jìn)行編碼,編碼后的特征為τ,其定義如下:
τ={t1,t2,…,tm}
(2)
ti=UGRU(Phis)
(3)
式(3)中U-GRU的計(jì)算公式如下:
(4)
(5)
2.1.2 道路信息編碼模塊
結(jié)構(gòu)化道路具有明確的交通標(biāo)志如車(chē)道線、人行道等,位于結(jié)構(gòu)化道路的車(chē)輛在大部分情況下將沿著道路中心線行駛或移動(dòng)至另一條道路中心線,道路中心線是車(chē)輛駕駛行為的重要影響因素之一,因此選用了道路中心線作為輸入。
自動(dòng)駕駛系統(tǒng)中的道路信息一般來(lái)自于高精地圖(HD map,high definition map),高精地圖在表示道路信息采用點(diǎn)、線段、區(qū)域3個(gè)層級(jí)的方式。點(diǎn)是最基本的構(gòu)成單元,可以用來(lái)表示路點(diǎn)或者交通指示燈。線段由離散的路點(diǎn)組成,一般用于表示道路中心線。區(qū)域同樣由點(diǎn)所組成,線段與區(qū)域的區(qū)別是后者是封閉的,一般用于表示道路的交互區(qū)域,如人行橫道等。
假設(shè)道路信息輸入為L(zhǎng)={L0,L1,…,Ln},其中Lj表示第j條道路中心線。輸入采用文獻(xiàn)[13]對(duì)道路信息的表示方法,如圖2所示,將高精地圖中的元素如道路中心線、人行道向量化。
圖2 道路元素向量化與道路編碼
向量化過(guò)程如下:對(duì)于一段由m個(gè)路點(diǎn)組成的道路中心線Lj,第i個(gè)向量vi由第i個(gè)路點(diǎn)作為起點(diǎn)與第i+1個(gè)路點(diǎn)作為終點(diǎn)連接形成,則這段道路中心線Lj將由m-1個(gè)向量v組成,向量的特征被定義為:
(6)
對(duì)向量化后道路中心線的編碼方式,同樣使用文獻(xiàn)[13]使用的方法。對(duì)于若干向量v組成的一段路段Lj,其編碼特征pj計(jì)算公式如下:
(7)
(8)
礦體主要分布在內(nèi)外接觸帶,礦床成因厘定為矽卡巖型。含礦巖性以透輝石矽卡巖和石榴石透輝石矽卡巖為主。礦體主要分布在3~16線間,東西長(zhǎng)約500 m,南北寬約300 m,面積約0.15 km2。
φrel(x,y)=concat[x,y]
(9)
將以上的編碼方式應(yīng)用在道路中心線的每個(gè)路段中得到最終的道路中心線編碼特征。
如前所述,在結(jié)構(gòu)化道路中行駛的車(chē)輛,其駕駛行為除了自身駕駛意圖外主要受到兩個(gè)因素的制約,首先是與同一場(chǎng)景中其他車(chē)輛的交互,其次駕駛員會(huì)受到道路信息的指引,自身駕駛意圖主要由軌跡信息編碼模塊從歷史軌跡中提取,車(chē)輛之間、車(chē)輛與道路之間的交互信息將由交互模塊獲取。
交互模塊的整體流程如圖3所示,場(chǎng)景中每個(gè)車(chē)輛歷史軌跡與道路中心線的路段將被視為一個(gè)節(jié)點(diǎn),交互模塊將使用注意力機(jī)制[19]提取路段與車(chē)輛,車(chē)輛與車(chē)輛之間的交互信息。該目標(biāo)由圖3中的4個(gè)子模塊完成:路段對(duì)于車(chē)輛的注意力模塊(L2A,lane to actors)、路段之間的注意力模塊(L2L,lane to lane)、車(chē)輛對(duì)于道路的注意力模塊(A2L,actors to lane)以及車(chē)輛之間交互的注意力模塊(A2A,actors to actors),其中前3個(gè)模塊用于提取車(chē)輛與車(chē)道中心線之間的交互,最后一個(gè)模塊用于提取車(chē)輛之間的交互。
圖3 交互信息提取模塊
L2L模塊以路段的注意力信息AL2A作為query、key與value的輸入向量,輸出為路段與路段之間的注意力信息AL2L。經(jīng)過(guò)自注意力后每個(gè)路段將自身周?chē)范蔚慕煌顩r以不同權(quán)重聚合到該路段。
A2L模塊以軌跡編碼特征τ作為query的輸入向量,路段與路段之間的注意力信息AL2L作為key與value的輸入向量,A2L模塊輸出為AA2L。該模塊將最終將車(chē)道相關(guān)的信息以不同權(quán)重聚合到每個(gè)車(chē)輛節(jié)點(diǎn)上,車(chē)輛節(jié)點(diǎn)對(duì)路段的不同權(quán)重也表示了各個(gè)路段節(jié)點(diǎn)對(duì)于車(chē)輛的指引作用。
A2A模塊負(fù)責(zé)提取車(chē)輛之間的交互信息,以該場(chǎng)景中的每輛車(chē)的軌跡編碼特征τ作為query、key與value的輸入向量,因此該模塊的注意力同樣是自注意力,該模塊輸出為AA2A。A2A模塊表示了車(chē)輛間的交互作用,雖然經(jīng)過(guò)L2A、L2L與A2L的交互信息流在一定程度上通過(guò)車(chē)流信息表示車(chē)輛間的交互,但A2A模塊以更直接的方式提取這種交互。
隨后將A2L模塊與A2A模塊的輸出相加得到交互特征I=AA2L+AA2A,交互特征I包含了場(chǎng)景中所有車(chē)輛對(duì)于車(chē)道線及其他車(chē)輛的交互信息,本文研究的預(yù)測(cè)任務(wù)僅限于單個(gè)目標(biāo)車(chē)輛,交互模塊最終僅輸出目標(biāo)車(chē)輛與其他車(chē)輛的交互信息Iagent。
2.3.1 目標(biāo)點(diǎn)預(yù)測(cè)
人類(lèi)駕駛員另一個(gè)常見(jiàn)的駕駛習(xí)慣是確定一個(gè)目標(biāo)點(diǎn),然后規(guī)劃到這個(gè)目標(biāo)的路徑,如果能準(zhǔn)確預(yù)測(cè)目標(biāo)車(chē)輛在未來(lái)幾秒后的目標(biāo)點(diǎn)就能增強(qiáng)對(duì)未來(lái)軌跡預(yù)測(cè)的準(zhǔn)確性。
在道路信息編碼模塊中使用了道路中心線的路點(diǎn),在目標(biāo)點(diǎn)預(yù)測(cè)任務(wù)中對(duì)離散路點(diǎn)進(jìn)行重新采樣以產(chǎn)生待選的目標(biāo)點(diǎn)集合。對(duì)于目標(biāo)點(diǎn)預(yù)測(cè)分為兩個(gè)部分的預(yù)測(cè),對(duì)離散點(diǎn)的分類(lèi)預(yù)測(cè)和偏離離散點(diǎn)距離的回歸預(yù)測(cè),分類(lèi)任務(wù)的目標(biāo)是預(yù)測(cè)最靠近預(yù)測(cè)軌跡真實(shí)目標(biāo)點(diǎn)的路點(diǎn),而回歸任務(wù)是預(yù)測(cè)每個(gè)路點(diǎn)距離真實(shí)目標(biāo)點(diǎn)的偏移量。即最終預(yù)測(cè)的目標(biāo)點(diǎn)集合τp為
(10)
式中,(xn,yn)為離散路點(diǎn)的坐標(biāo),(△xn,△yn)為真實(shí)目標(biāo)點(diǎn)與離散路點(diǎn)的偏移量,N為候選目標(biāo)點(diǎn)的個(gè)數(shù)。
圖4 目標(biāo)點(diǎn)預(yù)測(cè)多層感知器結(jié)構(gòu)
在訓(xùn)練中該階段的損失函數(shù)被定義為兩部分:
Ltarget=Lcls(P,Pt)+Lreg(△x,△y,△xt,△yt)
(11)
式中,Lcls為分類(lèi)損失,此處選擇使用交叉熵?fù)p失函數(shù);P為預(yù)測(cè)值,Pt為路點(diǎn)真實(shí)標(biāo)簽,最靠近真實(shí)目標(biāo)點(diǎn)的候選路點(diǎn)標(biāo)簽為1,其余路點(diǎn)為0;Lreg為回歸損失,此處使用Huber損失函數(shù);△x,△y為偏移量的預(yù)測(cè)值,△xt,△yt為偏移量的真值。
2.3.2 軌跡生成
軌跡生成階段的輸入為目標(biāo)車(chē)輛的交互特征Iagent與目標(biāo)點(diǎn)預(yù)測(cè)階段概率最大的前m個(gè)點(diǎn),這m個(gè)點(diǎn)的坐標(biāo)將與其預(yù)測(cè)概率排列后拼接至Iagent后形成新的特征Itar。在該階段不直接輸出一整條軌跡而是輸出每個(gè)時(shí)間步的位移。
該階段的具體實(shí)現(xiàn)是一個(gè)兩層的MLP以及一個(gè)Linear層,將特征Itar轉(zhuǎn)換為1×2Tpredict大小的向量Ppre,定義如下:
Ppre={△x0,△y0,△x1,△y1,…,△xTpre,△yTpre}
(12)
式中,Tpre表示預(yù)測(cè)時(shí)間的步長(zhǎng),△xTi,△yTi表示Ti時(shí)刻到Ti+1時(shí)刻的位移。該階段的損失函數(shù)Ltra同樣使用Huber損失函數(shù)。
所提預(yù)測(cè)網(wǎng)絡(luò)的任務(wù)有兩項(xiàng),對(duì)車(chē)輛行駛目標(biāo)點(diǎn)的預(yù)測(cè)以及未來(lái)軌跡的預(yù)測(cè),總的損失函數(shù)被定義為:
L=λ1*Ltarget+λ2*Ltra
(13)
Ltarget、Ltra分別為目標(biāo)點(diǎn)預(yù)測(cè)和軌跡生成階段的損失函數(shù),λ1、λ2為兩項(xiàng)任務(wù)的權(quán)重系數(shù),用來(lái)平衡網(wǎng)絡(luò)對(duì)兩項(xiàng)任務(wù)的側(cè)重部分,權(quán)重越大表示該項(xiàng)任務(wù)的準(zhǔn)確性對(duì)總損失函數(shù)的影響越大。
Argoverse運(yùn)動(dòng)預(yù)測(cè)數(shù)據(jù)集[20]是由Argo AI自動(dòng)駕駛公司、卡內(nèi)基梅隆大學(xué)以及佐治亞理工學(xué)院開(kāi)源的大規(guī)模數(shù)據(jù)集。使用安裝在車(chē)輛上的攝像頭、激光雷達(dá)以及GPS采集數(shù)據(jù),經(jīng)過(guò)處理后該數(shù)據(jù)集不僅包含了車(chē)輛軌跡的鳥(niǎo)瞰圖,同時(shí)提供了與每個(gè)場(chǎng)景下的車(chē)道線信息。圖5展示了數(shù)據(jù)集中的一個(gè)場(chǎng)景,圖中實(shí)線表示了車(chē)輛的歷史軌跡,圓點(diǎn)為歷史軌跡最后一個(gè)時(shí)刻的位置,虛線表示道路中心線。
圖5 數(shù)據(jù)集場(chǎng)景示例
在數(shù)據(jù)集中提供車(chē)輛軌跡部分的數(shù)據(jù)類(lèi)型見(jiàn)表1。在Argoverse提供的每個(gè)場(chǎng)景中,有一輛車(chē)類(lèi)型被標(biāo)記為AGENT,該車(chē)輛即為需要預(yù)測(cè)未來(lái)軌跡的目標(biāo)車(chē)輛。車(chē)輛軌跡以10 Hz的頻率采樣,總長(zhǎng)度為5 s,其中(0,2]s被用做可觀測(cè)到的軌跡信息,而(2,5]s被當(dāng)做預(yù)測(cè)軌跡地面真值。
表1 Argoverse數(shù)據(jù)類(lèi)型
根據(jù)預(yù)測(cè)網(wǎng)絡(luò)的輸入,需要處理的數(shù)據(jù)有三項(xiàng):軌跡信息、車(chē)道線信息以及候選目標(biāo)點(diǎn)。
3.2.1 軌跡信息歸一化
3.2.2 車(chē)道線信息重采樣
車(chē)道線信息首先通過(guò)目標(biāo)車(chē)輛歷史軌跡最后一點(diǎn)XTobs獲取目標(biāo)車(chē)輛周?chē)o定曼哈頓距離內(nèi)的所有路段及其路點(diǎn),隨后使用樣條曲線插值的方式擬合原本的路點(diǎn),并以一定間隔d重新采樣曲線上的點(diǎn)作為該路段中新的路點(diǎn)。
重新采樣后路點(diǎn)內(nèi)的路點(diǎn)數(shù)量可能會(huì)與原本的數(shù)量有較大的差距,若某一路段內(nèi)的路點(diǎn)數(shù)量超過(guò)設(shè)定閾值,該路段將被分割為幾個(gè)路點(diǎn)數(shù)目更少的幾個(gè)路段。該分割方法保證了每個(gè)路段內(nèi)包含的向量數(shù)目在設(shè)定閾值之下,防止存在過(guò)長(zhǎng)的特征被壓縮,導(dǎo)致信息丟失。
3.2.3 目標(biāo)點(diǎn)采樣
目標(biāo)點(diǎn)采樣過(guò)于稀疏會(huì)導(dǎo)致最終預(yù)測(cè)的目標(biāo)點(diǎn)與真值相差過(guò)遠(yuǎn),反之如果采樣點(diǎn)過(guò)多則可能因目標(biāo)點(diǎn)數(shù)過(guò)多使訓(xùn)練難以進(jìn)行,且最終預(yù)測(cè)的目標(biāo)點(diǎn)會(huì)集中在某個(gè)區(qū)域,不利于多模態(tài)的預(yù)測(cè)。最終選擇的采樣方式是首先確定與歷史軌跡的最后一點(diǎn)最接近的路段Li,使用深度搜索的方式前向搜索Li的后續(xù)路段,使用這種搜索方式將去除掉目標(biāo)車(chē)輛不可能行駛到的路段。同時(shí)合理選擇前述的樣條曲線插值的間隔,使得候選目標(biāo)點(diǎn)數(shù)量在一定的范圍內(nèi)。
軌跡預(yù)測(cè)網(wǎng)絡(luò)訓(xùn)練使用的計(jì)算機(jī)軟、硬件配置如表2所示。預(yù)測(cè)網(wǎng)絡(luò)具體參數(shù)如下:在歷史軌跡編碼模塊中,UGRU前向傳播與后向傳播輸出維數(shù)均為64。道路信息編碼中的MLP模塊中間層及輸出的維數(shù)為64,聚合層數(shù)l為3層。交互模塊中注意力模塊的輸出特征長(zhǎng)度為64。目標(biāo)點(diǎn)預(yù)測(cè)及軌跡預(yù)測(cè)使用的MLP中間層維數(shù)為64。場(chǎng)景的采樣點(diǎn)個(gè)數(shù)N最大數(shù)量為1 000,選擇目標(biāo)點(diǎn)個(gè)數(shù)m為6。
表2 軟硬件配置清
網(wǎng)絡(luò)訓(xùn)練的各項(xiàng)參數(shù)如下:訓(xùn)練批次大小(batch size)設(shè)置為128;訓(xùn)練次數(shù)(epoch)設(shè)置為50;學(xué)習(xí)率(learning rate)在開(kāi)始訓(xùn)練時(shí)設(shè)置為1e-3,在經(jīng)過(guò)15輪訓(xùn)練后,每5輪訓(xùn)練學(xué)習(xí)率將隨指數(shù)下降,下降率設(shè)置為0.9;訓(xùn)練的優(yōu)化器為Adma,其中Adam優(yōu)化器的β1=0.9,β2=0.999,權(quán)重衰減率為1e-2;損失函數(shù)的兩項(xiàng)權(quán)重分別選擇為λ1=0.5,λ2=1。
目前對(duì)于預(yù)測(cè)軌跡質(zhì)量常用的評(píng)價(jià)指標(biāo)主要有以下兩個(gè):最小平均位移誤差(minADE,minimum average distance error)、最小最終距離誤差(minFDE,minimum final distance error)。
3.4.1 最小平均位移誤差
minADE為最佳預(yù)測(cè)軌跡按照每一個(gè)時(shí)間步與真值差值的二范數(shù):
(14)
3.4.2 最小最終距離誤差
minFDE為最佳預(yù)測(cè)軌跡最終點(diǎn)與真值的最終點(diǎn)之間的二范數(shù)距離:
(15)
將所提網(wǎng)絡(luò)在argoverse數(shù)據(jù)集中的驗(yàn)證集于其他方法進(jìn)行對(duì)比以驗(yàn)證所提算法在單模態(tài)預(yù)測(cè)精度上的提升,試驗(yàn)結(jié)果如表3所示,選擇對(duì)比的方法有以下幾種。
1)恒速模型[20]:使用歷史軌跡1秒至2秒間速度觀測(cè)值的平均值作為預(yù)測(cè)時(shí)間段的速度,利用運(yùn)動(dòng)學(xué)模型計(jì)算未來(lái)軌跡。
2)LSTM-social[20]:使用LSTM作為編碼器和解碼器,在輸入特征中加入了車(chē)輛間的交互特征。
3)LSTM-map[20]:同樣使用LSTM作為編碼器和解碼器,與方法(2)的區(qū)別在于輸入特征加入道路信息。
4)VectorNet[13]:將道路信息和歷史軌跡信息都視為向量,使用自注意力機(jī)制同時(shí)獲取道路與車(chē)輛、車(chē)輛與車(chē)輛之間的交互信息。
5)SGANAM[21]:以社會(huì)對(duì)抗生成網(wǎng)絡(luò)為基礎(chǔ),加入使用注意力機(jī)制的社會(huì)注意力模塊以及歷史注意力模塊學(xué)習(xí)車(chē)輛間的交互作用,使用車(chē)道卷積操作[12]提取道路特征。
6)GA-MTP[22]:將道路信息建模為圖模型,使用車(chē)道卷積操作提取道路特征,對(duì)歷史軌跡信息使用LSTM進(jìn)行編碼,隨后使用注意力機(jī)制獲取車(chē)輛以及道路交互。
表3 驗(yàn)證集模型性能對(duì)比
通過(guò)表3的對(duì)比可以看出所提軌跡預(yù)測(cè)算法預(yù)測(cè)精度相較于恒速模型有明顯的提升,兩項(xiàng)指標(biāo)分別提升53.3%與54.2%,其余深度學(xué)習(xí)模型的預(yù)測(cè)精度由于恒速模型,因此使用深度學(xué)習(xí)的方法顯著提升了預(yù)測(cè)的準(zhǔn)確性。對(duì)比LSTM-social與LSTM-map,可以看相較于交互信息,加入車(chē)道信息對(duì)于預(yù)測(cè)準(zhǔn)確性有更大的提升。所提方法對(duì)比LSTM-map,兩項(xiàng)指標(biāo)分別提升了35.5%與31.26%,證明了所提方法中交互模塊對(duì)周?chē)h(huán)境信息有更強(qiáng)的提取能力。VectorNet使用了較為簡(jiǎn)單的注意力模塊提取交互信息,而SGANAM與GA-MTP均使用了車(chē)道卷積操作提取環(huán)境信息,因此有相近的預(yù)測(cè)精度且精度優(yōu)于VectorNet。所提軌跡預(yù)測(cè)算法在指標(biāo)上均優(yōu)于其他使用注意力機(jī)制的方法,本文方法與GA-MTP相比在指標(biāo)上分別提升了6.5%、9.57%,在minFDE指標(biāo)上有更大的提升,證明本文方法所提的交互模塊充分考慮了目標(biāo)車(chē)輛與周?chē)?chē)輛以及車(chē)道線間存在的交互,并且目標(biāo)點(diǎn)預(yù)測(cè)模塊進(jìn)一步提升了模型的預(yù)測(cè)精度,且對(duì)最終點(diǎn)預(yù)測(cè)有更大的提升。
除了歷史信息,預(yù)測(cè)時(shí)長(zhǎng)也是影響預(yù)測(cè)精度的因素之一,此處選擇恒速模型、SGANAM以及本文方法在不同預(yù)測(cè)時(shí)長(zhǎng)下進(jìn)行對(duì)比,結(jié)果如圖6所示,圖中展示了3種方法的平均距離誤差以及最終距離誤差。
圖6 不同預(yù)測(cè)時(shí)長(zhǎng)下的預(yù)測(cè)誤差
在0.5 s預(yù)測(cè)時(shí)長(zhǎng)下,3種方法的預(yù)測(cè)誤差相近。隨著預(yù)測(cè)時(shí)間的增加,3種方法的預(yù)測(cè)誤差都隨之增加,預(yù)測(cè)準(zhǔn)確性下降。恒速模型由于不能識(shí)別駕駛員的意圖與周?chē)h(huán)境,因此預(yù)測(cè)誤差隨預(yù)測(cè)時(shí)長(zhǎng)將大幅增加,兩種深度學(xué)習(xí)模型的誤差增長(zhǎng)明顯小于恒速模型。SGANAM與本文方法使用了不同深度學(xué)習(xí)模型學(xué)習(xí)駕駛員與周?chē)慕换ゼ榜{駛員的駕駛意圖,因此在誤差增長(zhǎng)趨勢(shì)上呈現(xiàn)一致,且所提方法在所有預(yù)測(cè)時(shí)長(zhǎng)的誤差均小于SGANAM,進(jìn)一步證明所提方法的有效性。
為了驗(yàn)證各個(gè)模塊在預(yù)測(cè)中的作用,消融實(shí)驗(yàn)將逐步添加不同的模塊,從而定量分析每個(gè)模塊在網(wǎng)絡(luò)結(jié)構(gòu)中對(duì)性能提升的占比。
表4為消融實(shí)驗(yàn)的結(jié)果,其中A2A是交互模塊中用于提取車(chē)輛間交互信息的模塊;MAP表示交互模塊中的L2L、L2L、A2L三個(gè)模塊,這3個(gè)模塊幫助網(wǎng)絡(luò)提取道路信息和交通流信息;Target表示加入目標(biāo)點(diǎn)預(yù)測(cè)。
表4 消融實(shí)驗(yàn)
從實(shí)驗(yàn)結(jié)果可以看出相較于只使用車(chē)輛間交互信息的A2A模塊,MAP模塊加入了道路信息,將幫助預(yù)測(cè)網(wǎng)絡(luò)更好地學(xué)習(xí)駕駛的未來(lái)意圖,兩項(xiàng)指標(biāo)下降了3.8%與4.0%,預(yù)測(cè)網(wǎng)絡(luò)性能在minFDE上有明顯的下降。在單獨(dú)使用L2L、A2L、L2L這3個(gè)模塊時(shí)由于該模塊通過(guò)各個(gè)道路點(diǎn)傳播了交通流信息,該信息隱含了車(chē)輛間可能的交互信息,所以在預(yù)測(cè)精度上與同時(shí)使用地圖信息和車(chē)輛交互信息相近,但是直接提取輛交互信息的A2A提升了網(wǎng)絡(luò)預(yù)測(cè)最終目標(biāo)點(diǎn)的能力,使得兩項(xiàng)指標(biāo)分別下降了1.3%與1.2%。進(jìn)一步加入目標(biāo)點(diǎn)預(yù)測(cè)模塊提升了預(yù)測(cè)網(wǎng)絡(luò)的整體預(yù)測(cè)能力,預(yù)測(cè)軌跡的平均誤差和最終誤差都有所下降,分別下降了1.3%與2.4%,證明加入目標(biāo)點(diǎn)預(yù)測(cè)對(duì)于最終點(diǎn)的預(yù)測(cè)有更大的提升。
本文提出了基于交互性的軌跡預(yù)測(cè)網(wǎng)絡(luò),使用軌跡信息以及車(chē)道線信息作為輸入,預(yù)測(cè)網(wǎng)絡(luò)主要包括了3個(gè)模塊:編碼模塊、交互模塊、預(yù)測(cè)模塊。歷史軌跡信息以及車(chē)道線信息經(jīng)過(guò)編碼后將送入到基于注意力機(jī)制的交互模塊,該模塊用于提取車(chē)輛和道路之間的交互信息。最后經(jīng)預(yù)測(cè)模塊輸出預(yù)測(cè)軌跡,在預(yù)測(cè)模塊中使用目標(biāo)點(diǎn)預(yù)測(cè)的方式增加了預(yù)測(cè)的準(zhǔn)確性。通過(guò)在Argoverse公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)證明了算法在預(yù)測(cè)準(zhǔn)確性上的提高,minADE為1.45 m,minFDE為3.21 m。目前所提算法聚焦于單條未來(lái)軌跡的預(yù)測(cè),無(wú)法預(yù)測(cè)駕駛員的多種駕駛意圖,后續(xù)的工作將以多模態(tài)預(yù)測(cè)為主。