景榮榮, 吳蘭, 張坤鵬
(1.河南工業(yè)大學(xué)電氣工程學(xué)院, 鄭州 450001; 2.河南工業(yè)大學(xué)機(jī)電工程學(xué)院, 鄭州 450001; 3.清華大學(xué)自動(dòng)化系, 北京 100084)
在可預(yù)見的未來,自動(dòng)駕駛車輛將成為智能交通的重要組成部分,能夠極大地改善人們的出行環(huán)境,具有十分重要的研究?jī)r(jià)值[1-2]。自動(dòng)駕駛車輛在行駛過程中,需要及時(shí)、準(zhǔn)確地預(yù)測(cè)周圍交通參與者(如汽車、公共汽車、卡車、自行車、行人等)的軌跡,從而提前合理地規(guī)劃自身的行駛路徑,避免發(fā)生碰撞。因此,能否準(zhǔn)確地預(yù)測(cè)周邊其他交通參與者的運(yùn)動(dòng)軌跡是衡量自動(dòng)駕駛技術(shù)安全性和可靠性的重要指標(biāo)。在現(xiàn)實(shí)交通環(huán)境中,準(zhǔn)確預(yù)測(cè)車輛的軌跡是十分困難的。因?yàn)檐囕v的軌跡不僅受到道路結(jié)構(gòu)、交通信號(hào)、交通規(guī)則等先驗(yàn)知識(shí)的約束,還會(huì)不可避免地受到交通場(chǎng)景中其他交通參與者的影響。目前,中外研究者針對(duì)自動(dòng)駕駛汽車的軌跡預(yù)測(cè)方法大致可以分為兩類:傳統(tǒng)預(yù)測(cè)方法和基于深度學(xué)習(xí)的預(yù)測(cè)方法。
傳統(tǒng)的方法可以分為3類:物理方法、駕駛意圖方法和交互感知方法[3]。物理方法將車輛視為受物理定律支配的動(dòng)態(tài)實(shí)體,通常假設(shè)其速度或加速度恒定,然后通過動(dòng)態(tài)模型[4]或運(yùn)動(dòng)學(xué)模型[5]預(yù)測(cè)車輛軌跡。駕駛意圖方法假定車輛的運(yùn)動(dòng)對(duì)應(yīng)于一系列的駕駛動(dòng)作(如變道、保道、轉(zhuǎn)彎、超車等),并獨(dú)立于其他車輛執(zhí)行。它們通常依靠?jī)煞N策略來預(yù)測(cè)軌跡,即原始軌跡聚類和意圖估計(jì)。前者通過基于集群的方法將未來的軌跡與先前觀察到的軌跡相匹配[6]。后者則是先估計(jì)駕駛員的駕駛意圖,然后相應(yīng)地預(yù)測(cè)軌跡[7]。交互感知方法考慮了周圍交通參與者對(duì)車輛運(yùn)動(dòng)的影響。因此,與基于物理和基于駕駛意圖方法的模型相比,交互感知模型更加有效[8]。盡管傳統(tǒng)方法在一些交通場(chǎng)景中展現(xiàn)出令人滿意的性能,但由于建模能力有限,難以適用于復(fù)雜場(chǎng)景。
近年來,由于可以對(duì)大規(guī)模、復(fù)雜數(shù)據(jù)進(jìn)行有效的建模,深度學(xué)習(xí)技術(shù)被廣泛應(yīng)用于各個(gè)領(lǐng)域[9-12],其優(yōu)異的性能也在軌跡預(yù)測(cè)中得到了驗(yàn)證[13-16]。深度學(xué)習(xí)模型的性能取決于輸入數(shù)據(jù)的類型和它的表征方法?;谏疃葘W(xué)習(xí),遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)被用來預(yù)測(cè)城市交叉口的司機(jī)駕駛意圖和未來軌跡[17]。一些研究也提出基于長(zhǎng)短時(shí)間記憶(long short-term memory,LSTM)的軌跡預(yù)測(cè)方法[18],根據(jù)交通參與者的坐標(biāo)、速度、大小和方向來預(yù)測(cè)其軌跡。這些方法將軌跡預(yù)測(cè)建模為序列生成任務(wù),在預(yù)測(cè)軌跡的過程中僅考慮了目標(biāo)交通參與者自身的運(yùn)動(dòng),沒有考慮與相鄰交通參與者的交互。盡管目標(biāo)交通參與者的歷史軌跡能夠?yàn)轭A(yù)測(cè)其未來軌跡提供不可或缺的運(yùn)動(dòng)信息,但由于忽略了周圍其他交通參與者的影響,上述方法預(yù)測(cè)出的軌跡往往難以滿足實(shí)際需要。為了軌跡預(yù)測(cè)過程中有效地考慮交通參與者之間的交互,學(xué)者們?cè)噲D將目標(biāo)交通參與者和周圍交通參與者的歷史軌跡同時(shí)作為預(yù)測(cè)模型的輸入。例如,Alahi等[19]提出利用全連接的池化層對(duì)目標(biāo)交通參與者及其周圍一定數(shù)量的參與者的信息進(jìn)行提取,進(jìn)而提高預(yù)測(cè)準(zhǔn)確度。Zhang等[20]提出使用卷積社會(huì)池化層來學(xué)習(xí)一定范圍內(nèi)交通參與者之間的交互信息。這些模型在進(jìn)行軌跡預(yù)測(cè)的過程中只考慮了固定數(shù)量的交通參與者之間的交互。由于現(xiàn)實(shí)場(chǎng)景中交通參與者的數(shù)量是動(dòng)態(tài)變化的,因此上述模型無法對(duì)交通環(huán)境的動(dòng)態(tài)性進(jìn)行有效地建模。
近來,一些研究嘗試將交通場(chǎng)景構(gòu)建為交通圖來解決上述問題。交通圖的節(jié)點(diǎn)和邊分別表示交通參與者及其交互關(guān)系。例如,Diehl等[21]利用圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)對(duì)交通圖進(jìn)行運(yùn)算,進(jìn)而預(yù)測(cè)交通圖中交通參與者的軌跡。Li等[22]提出了一個(gè)基于圖卷積網(wǎng)絡(luò)(graph convolutional networks,GCN)和門控遞歸單元(gated recurrent units,GRU)的交互感知模型。該模型通過GCN對(duì)交通圖進(jìn)行學(xué)習(xí)來捕捉交通參與者之間的交互,最終使用GRU來同時(shí)對(duì)多個(gè)交通參與者進(jìn)行軌跡預(yù)測(cè)。然而,由于不能區(qū)分周圍交通參與者的影響程度,這些基于圖的方法并不能有效地捕捉交通圖中最關(guān)鍵的交互。此外,這些方法也未能考慮周圍道路基礎(chǔ)設(shè)施(如道路幾何和交通信號(hào))對(duì)交通參與者運(yùn)動(dòng)軌跡的影響。
考慮到道路基礎(chǔ)設(shè)施的對(duì)軌跡預(yù)測(cè)的影響,學(xué)者們探索在具有詳細(xì)道路信息的柵格化鳥瞰圖上勾畫交通參與者的歷史軌跡[23-24]。Djuric等[23]將交通參與者和周圍環(huán)境信息編碼到鳥瞰圖中作為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的輸入,并利用池化層提取有用特征。然而,使用池化層往往會(huì)遺漏交通場(chǎng)景中有價(jià)值的信息。Liu等[24]通過堆疊多個(gè)Transformer網(wǎng)絡(luò),提出mmTransformer模型用于預(yù)測(cè)交通參與者的軌跡。在該模型中,歷史軌跡和道路信息被輸入到不同的Transformer單元。通過定制的特征提取器,它可以分層次地整合不同的環(huán)境信息。雖然這種結(jié)構(gòu)可以有效地提取目標(biāo)的歷史軌跡和周圍環(huán)境的特征,但這種分層結(jié)構(gòu)增加了模型的計(jì)算復(fù)雜性,需要更多的推理時(shí)間。
為了解決上述問題,現(xiàn)提出一種基于改進(jìn)Transformer的交互感知軌跡預(yù)測(cè)方法,用于對(duì)自動(dòng)駕駛車輛周圍交通參與者的運(yùn)動(dòng)趨勢(shì)進(jìn)行估計(jì)并輸出相應(yīng)預(yù)測(cè)軌跡。將軌跡預(yù)測(cè)對(duì)象建模為交通智能體,構(gòu)建了軌跡預(yù)測(cè)Transformer(trajectory prediction transformer,TPT)模型。首先將包含交通智能體的歷史運(yùn)動(dòng)軌跡和周圍交通環(huán)境信息的道路信息圖作為TPT模型的輸入。然后,利用改進(jìn)的Transformer對(duì)交通環(huán)境進(jìn)行建模,并捕捉交通智能體與交通環(huán)境之間的交互信息,預(yù)測(cè)其未來運(yùn)動(dòng)軌跡。在注意力機(jī)制的幫助下,TPT模型可以捕捉最值得注意的交互信息,以提高模型的預(yù)測(cè)性能和可解釋性。最后使用Lyft數(shù)據(jù)集[25]進(jìn)行數(shù)值實(shí)驗(yàn),驗(yàn)證TPT模型的有效性。
軌跡預(yù)測(cè)可以被表述為這樣一個(gè)問題,即基于交通智能體的歷史軌跡和來自周圍交通參與者和道路基礎(chǔ)設(shè)施的時(shí)空交互來估計(jì)交通智能體的未來位置。具體來說,讓V表示交通場(chǎng)景中觀察到的交通智能體的過去特征。公式為
V=[v1,v2,…,vt,…,vT]
(1)
式(1)中:t=1,2,…,T,為時(shí)間節(jié)點(diǎn);vt=(xt,yt,ot);xt和yt為交通智能體在t時(shí)刻的位置坐標(biāo);ot為其他屬性(如車輛的長(zhǎng)、寬、高、車頭朝向等)。
圖1 Lyft數(shù)據(jù)集可視化
(2)
圖2 TPT模型結(jié)構(gòu)
(3)
(4)
圖3所示為3層架構(gòu)的Nested Transformer??梢钥闯?Nested Transformer的第i層的嵌套將整張圖像分成(2i)2個(gè)小塊,i=1,2,…,Tl,Tl為總層數(shù)。Nested Transformer利用不同的層次結(jié)構(gòu)對(duì)道路信息圖和可達(dá)網(wǎng)絡(luò)進(jìn)行特征提取。在圖3中,道路信息圖I和可達(dá)網(wǎng)格G作為模型的輸入,隨后被分割成(H×W)/(S×S)個(gè)圖像補(bǔ)丁。每個(gè)大小為S×S的圖像補(bǔ)丁被線性投影到向量空間中的一個(gè)嵌入。然后,所有的嵌入都被劃分為塊,作為Transformer的輸入x。該過程可以表示為
Padding、Conv、Norm和 Stride-2 MaxPool即填充、卷積、歸一化和步長(zhǎng)為2的最大池化操作
x=Block[PatchEmbed(I,G)]
(5)
(6)
x′=LN(x)
(7)
y=x+MSA(x′,x′,x′)
(8)
x″=y+FFN[LN(y)]
(9)
式中:y為單個(gè)圖像塊x經(jīng)過Transformer處理所提取的特征。
由于所有塊在同一個(gè)層次結(jié)構(gòu)中共享參數(shù),Nested Transformer可以對(duì)所有塊并行運(yùn)算MSA,增加了運(yùn)算效率。在TPT中,Nested Transformer利用MSA捕捉交通智能體周圍值得注意的不同類型的交通參與者,并提取它們的交互信息。
與其他Vit不同的是,Nested Transformer采用層間塊聚合實(shí)現(xiàn)相鄰圖像塊之間的信息耦合和通信。在塊聚合步驟中,通過卷積和池化等簡(jiǎn)單的空間操作實(shí)現(xiàn)全局信息的通信和融合。
Aggregate(y,i)=Block×
{Conv×Norm×MaxPooli[Unblock(y)]}
(10)
式(10)中:Aggregate為塊聚合操作;Unblock為圖像塊合并操作。
圖3的下半部分是Nested Transformer塊聚合操作的具體過程,結(jié)合式(10)可以看到,首先層次結(jié)構(gòu)l的輸出Xl經(jīng)過Unblock操作以填滿圖像平面Al,隨后對(duì)降采樣特征映射應(yīng)用空間操作,最后使用Block操作將特征映射回Xl+1,用于層次l+1。可以看到,經(jīng)過塊聚合后,每一層的圖像塊總數(shù)減少為最初的1/4,直到在頂層減少到1。在圖像平面上執(zhí)行的Conv、Norm和MaxPool操作允許上層的不同圖像塊之間進(jìn)行通信。采用分層嵌套結(jié)構(gòu),僅利用局部注意力,Nested Transformer就能具備較高的計(jì)算效率和較好的收斂性,從而縮短了軌跡預(yù)測(cè)模型的推理時(shí)間。
為了對(duì)所提方法進(jìn)行評(píng)價(jià),使用Lyft自動(dòng)駕駛數(shù)據(jù)集。該數(shù)據(jù)集是迄今為止最大的自動(dòng)駕駛運(yùn)動(dòng)預(yù)測(cè)數(shù)據(jù)集,擁有1 118 h的數(shù)據(jù)。這是由20輛自動(dòng)駕駛汽車組成的車隊(duì)在4個(gè)月的時(shí)間里收集的,這些汽車在加州帕洛阿爾托的郊區(qū)路線上行駛了超過2.6萬km。它由17萬個(gè)場(chǎng)景組成,每個(gè)場(chǎng)景持續(xù)25 s,包含自動(dòng)駕駛汽車附近車輛、自行車、行人的精確位置、大小和移動(dòng)時(shí)間。該數(shù)據(jù)集包含該地區(qū)詳細(xì)的高清語義地圖,包含15 242個(gè)標(biāo)記元素,包括道路規(guī)則、車道幾何形狀和其他交通元素。為了進(jìn)一步幫助預(yù)測(cè),該數(shù)據(jù)集還提供了該地區(qū)的高分辨率航空地圖,覆蓋了74 km2。此外,交通場(chǎng)景中紅綠燈的變化也包含在Lyft的數(shù)據(jù)集中。
Lyft數(shù)據(jù)集的每條軌跡被分割成8 s的序列,其中前3 s作為歷史觀測(cè)軌跡,其余5 s作為真實(shí)軌跡,預(yù)測(cè)交通智能體未來5 s的軌跡。Lyft的訓(xùn)練數(shù)據(jù)集包含超過13.4萬個(gè)場(chǎng)景,用于訓(xùn)練提出的TPT模型。為了確定最佳超參數(shù),隨機(jī)選擇訓(xùn)練數(shù)據(jù)集的10%作為驗(yàn)證數(shù)據(jù)集。TPT模型的性能通過驗(yàn)證數(shù)據(jù)集進(jìn)行驗(yàn)證,該數(shù)據(jù)集包含1 100個(gè)場(chǎng)景。
評(píng)價(jià)指標(biāo)采用平均位移誤差(average displacement error,ADE)和最終位移誤差(final displacement error,FDE)。其中DEt為t時(shí)刻真實(shí)軌跡坐標(biāo)與預(yù)測(cè)軌跡坐標(biāo)之間的歐氏距離,計(jì)算公式為
(11)
所有預(yù)測(cè)步長(zhǎng)的真實(shí)坐標(biāo)與預(yù)測(cè)坐標(biāo)之間的平均歐氏距離ADE為
(12)
預(yù)測(cè)時(shí)間步T+L的真實(shí)坐標(biāo)與預(yù)測(cè)坐標(biāo)之間的平均歐氏距離FDE為
(13)
引入幾種現(xiàn)有的軌跡預(yù)測(cè)方法,并與所提出的TPT模型進(jìn)行比較,驗(yàn)證模型的有效性。
(1)Constant Velocity(CV):CV模型認(rèn)為交通智能體的狀態(tài)不隨時(shí)間的變化而變化,沒有考慮來自其他交通智能體的影響。
(2)LSTM:利用基于LSTM的編碼器-解碼器結(jié)構(gòu),該模型利用交通智能體的歷史軌跡,預(yù)測(cè)未來軌跡。該模型在預(yù)測(cè)過程中考慮了交通智能體的狀態(tài)在時(shí)間維度中的演進(jìn),未能考慮來自其他交通參與者的影響因素。
(3)Conv-LSTM:Conv-LSTM模型利用卷積神經(jīng)網(wǎng)絡(luò)從交通圖像中提取歷史軌跡特征,然后利用LSTM進(jìn)行軌跡預(yù)測(cè)。
(4)Conv-attn-LSTM:在Conv-LSTM的基礎(chǔ)上,Conv-attn-LSTM引入注意力機(jī)制來捕獲交通場(chǎng)景中值得注意的交互。
(5)Conv-attn-GRU:將Conv-attn-GRU模型中的LSTM塊替換為GRU塊。
(6)TPT-ORIG:TPT-ORIG模型使用原始的Transformer從交通圖像中提取特征,其輸入和輸出和TPT模型相同。
如表1所示,以ADE和FDE為評(píng)價(jià)指標(biāo),與現(xiàn)有方法相比,TPT取得了最準(zhǔn)確的預(yù)測(cè)結(jié)果。由于缺乏考慮交通狀態(tài)的時(shí)間相關(guān)性和交通場(chǎng)景中不同交互作用,CV模型的預(yù)測(cè)結(jié)果最差。與CV模型相比,LSTM模型考慮了交通智能體的交通狀態(tài)隨時(shí)間變化的特性,獲得了更準(zhǔn)確的軌跡預(yù)測(cè)結(jié)果。與LSTM模型相比,Conv-LSTM模型考慮了周圍環(huán)境和其他交通參與者的影響,取得了更好的預(yù)測(cè)表現(xiàn)。Conv-attn-LSTM模型利用注意力機(jī)制捕獲交通場(chǎng)景中值得注意的交互作用,提高了軌跡預(yù)測(cè)準(zhǔn)確度。Conv-attn-GRU模型的性能略優(yōu)于Conv-attn-LSTM模型。相較于Conv-attn-LSTM模型,兩種基于Transformer的模型(即TPT-ORIG和TPT)取得了更好的預(yù)測(cè)結(jié)果。與TPT-ORIG相比,TPT模型的預(yù)測(cè)準(zhǔn)確度得到了較大的提升。這表明相較于原始的Transformer,Nested Transformer的分層嵌套結(jié)構(gòu)具有更好的性能,使得TPT不僅可以有效地捕獲車輛與車輛之間的交互,還可以有效捕獲車輛與基礎(chǔ)設(shè)施之間的交互,從而提高其預(yù)測(cè)準(zhǔn)確度。
表1 模型預(yù)測(cè)結(jié)果對(duì)比
此外,推理時(shí)間是衡量軌跡預(yù)測(cè)模型能否成功應(yīng)用于實(shí)際工業(yè)場(chǎng)景的重要指標(biāo)。表1中還展示了7個(gè)模型的推理時(shí)間。以預(yù)測(cè)1 000個(gè)交通智能體的未來軌跡為例,CV模型所花費(fèi)的時(shí)間為0.85 s,是所有模型中最短的。這是因?yàn)镃V作為傳統(tǒng)的預(yù)測(cè)模型在預(yù)測(cè)過程中認(rèn)為交通智能體的運(yùn)動(dòng)狀態(tài)不隨時(shí)間變化,并且不考慮其他因素的影響,所需的計(jì)算量遠(yuǎn)低于深度學(xué)習(xí)模型。TPT模型只花費(fèi)1.78 s,遠(yuǎn)少于其他深度學(xué)習(xí)模型。這表明在Nested Transformer的幫助下,TPT模型具有更好的計(jì)算效率,可以顯著減少推理時(shí)間。
2.4.1 實(shí)驗(yàn)1:預(yù)測(cè)結(jié)果可視化
圖4顯示了TPT和TPT-ORIG在3種不同駕駛場(chǎng)景下對(duì)單個(gè)交通智能體的預(yù)測(cè)結(jié)果。在預(yù)測(cè)場(chǎng)景中,交通場(chǎng)景中的一個(gè)交通智能體被視為目標(biāo)交通智能體,將道路信息圖I、可達(dá)網(wǎng)格G和歷史軌跡R作為模型輸入對(duì)其未來軌跡進(jìn)行預(yù)測(cè)。然后,利用l5kit軟件包提供的坐標(biāo)變換功能,將預(yù)測(cè)的軌跡繪制成圖??梢钥闯?TPT可以準(zhǔn)確地預(yù)測(cè)交通智能體在各種駕駛情況下的未來軌跡。相比于TPT-ORIG模型,基于改進(jìn)的Nested Transformer的TPT模型能夠更準(zhǔn)確地預(yù)測(cè)交通智能體的軌跡,表明了Nested Transformer相較于原始Transformer的優(yōu)勢(shì)。圖5為TPT多車交通場(chǎng)景的預(yù)測(cè)結(jié)果可視化,該交通場(chǎng)景中的每個(gè)交通智能體被視為目標(biāo)交通智能體。可以發(fā)現(xiàn),TPT模型能夠準(zhǔn)確地預(yù)測(cè)該交通場(chǎng)景中每個(gè)交通智能體的未來軌跡。
紅色曲線代表真實(shí)軌跡;黃色曲線代表TPT-ORIG預(yù)測(cè)的軌跡;綠色曲線代表TPT預(yù)測(cè)的軌跡
圖5 多車交通場(chǎng)景的預(yù)測(cè)結(jié)果可視化
圖6為TPT在原始Transformer和Nested Transformer下的訓(xùn)練過程??梢钥闯?相比于使用原始的Transformer,使用Nested Transformer的TPT模型具有更好的收斂性能和更高的預(yù)測(cè)精度。這表明相較于原始的Transformer,Nested Transformer的分層嵌套結(jié)構(gòu)使其具有較高的計(jì)算效率和較好的收斂性,可以幫助TPT模型在更短的時(shí)間內(nèi)更準(zhǔn)確地預(yù)測(cè)交通智能體的未來軌跡。
圖6 基于原始Transformer和Nested Transformer的TPT訓(xùn)練過程
2.4.2 實(shí)驗(yàn)2:TPT的注意力圖
利用注意力機(jī)制捕捉交通智能體周圍值得關(guān)注的交互是TPT模型主要的優(yōu)點(diǎn)。圖7是TPT在預(yù)測(cè)交通智能體直行和右轉(zhuǎn)時(shí)未來軌跡的注意力圖,不同的顏色深度表示不同的關(guān)注度。從圖7可以看到,無論是直行還是右轉(zhuǎn),TPT模型在預(yù)測(cè)未來軌跡的時(shí)候,都會(huì)給與交通智能體的歷史軌跡極大的關(guān)注,同時(shí)也會(huì)關(guān)注周圍移動(dòng)的交通參與者。不同的是,在右轉(zhuǎn)的情況下,TPT會(huì)給與周圍移動(dòng)的交通參與者更多的關(guān)注。這也符合現(xiàn)實(shí)情況,在現(xiàn)實(shí)交通場(chǎng)景中,人類駕駛員在判斷周圍車輛走向時(shí),會(huì)關(guān)注該車輛的歷史軌跡。在直行時(shí)無需過多的關(guān)注周圍的車輛,而在進(jìn)行轉(zhuǎn)向時(shí),則要對(duì)周圍移動(dòng)的車輛給予足夠的關(guān)注,然后對(duì)車輛進(jìn)行及時(shí)的調(diào)整以避免碰撞。實(shí)驗(yàn)表明,在注意力機(jī)制的幫助下,TPT可以在不同駕駛情況下有效地捕捉交通智能體周圍最值得注意的交互,并準(zhǔn)確地預(yù)測(cè)其未來軌跡。
圖7 TPT的注意力圖
2.4.3 實(shí)驗(yàn)3:交通圖像類型
Lyft的數(shù)據(jù)集以不同的形式提供地圖,包括衛(wèi)星圖和道路信息圖。還可以將衛(wèi)星圖和道路信息圖整合起來,從而得到交通環(huán)境圖。表2顯示了使用道路信息圖的TPT模型獲得了預(yù)測(cè)性能。當(dāng)TPT模型使用衛(wèi)星圖作為輸入時(shí),它的性能比使用交通環(huán)境圖和道路信息圖時(shí)差。這可以解釋為,衛(wèi)星圖只包含道路信息,沒有交通信號(hào)。道路信息圖包含道路幾何形狀和交通信號(hào)等信息,并排除了不必要的信息,使其成為最佳選擇。
表2 使用不同類型交通圖像的TPT性能比較
2.4.4 實(shí)驗(yàn)4:交通信號(hào)
在Lyft數(shù)據(jù)集中,車道邊緣顏色代表交通信號(hào),當(dāng)交通信號(hào)發(fā)生變化時(shí),車道邊緣顏色也會(huì)發(fā)生變化。紅色的車道邊表示此時(shí)該車道為紅燈,綠色的車道邊表示此時(shí)該車道為綠燈,黃色的車道邊代表黃燈。圖8展示了交通信號(hào)對(duì)TPT性能的影響。在圖8(a)中,當(dāng)前車道顯示綠燈表示可以行駛時(shí),TPT模型可以提供合理的預(yù)測(cè)結(jié)果。在沒有交通信號(hào)信息的情況下,圖8(b)中TPT對(duì)軌跡的預(yù)測(cè)具有較大的隨機(jī)性,導(dǎo)致預(yù)測(cè)結(jié)果不夠準(zhǔn)確。這是因?yàn)樵谧⒁饬C(jī)制的幫助下,TPT可以有效地關(guān)注到交通智能體周圍包括交通信號(hào)在內(nèi)的值得注意的交互(實(shí)驗(yàn)2中已經(jīng)進(jìn)行了論證)。因此,TPT也可以有效地將交通信號(hào)對(duì)軌跡預(yù)測(cè)的影響納入考慮中。
圖8 有無交通信號(hào)的預(yù)測(cè)結(jié)果
2.4.5 實(shí)驗(yàn)5:突然出現(xiàn)的交通參與者
本次實(shí)驗(yàn)旨在檢驗(yàn)?zāi)P蛯?duì)交通場(chǎng)景中突然出現(xiàn)的交通智能體的預(yù)測(cè)能力。事實(shí)上,這對(duì)于軌跡預(yù)測(cè)模型在實(shí)際中的應(yīng)用是非常重要的。在一個(gè)十字路口內(nèi),分別使用1 s和2 s的歷史軌跡來預(yù)測(cè)交通智能體的5 s未來軌跡。預(yù)測(cè)結(jié)果如圖9所示??梢园l(fā)現(xiàn),即使只有1 s的歷史軌跡,交通智能體的未來軌跡也是可以被預(yù)測(cè)的。如圖9(b)所示,在有2 s歷史軌跡的情況下,TPT模型的預(yù)測(cè)結(jié)果更加準(zhǔn)確。
圖9 對(duì)突然出現(xiàn)的交通參與者的預(yù)測(cè)結(jié)果
2.4.6 實(shí)驗(yàn)6:可達(dá)網(wǎng)格
為了提高模型的預(yù)測(cè)性能,將可達(dá)網(wǎng)格作為模型的先驗(yàn)知識(shí),然后計(jì)算網(wǎng)格損失。網(wǎng)格損失迫使模型關(guān)注車道覆蓋的交通區(qū)域。3種不同情景下的預(yù)測(cè)結(jié)果如圖10所示。可以發(fā)現(xiàn),可達(dá)網(wǎng)格的引入顯著提高了預(yù)測(cè)準(zhǔn)確度。
圖10 在有無可達(dá)網(wǎng)格的情況下TPT預(yù)測(cè)結(jié)果的可視化
2.4.7 實(shí)驗(yàn)7:歷史觀測(cè)軌跡
為了驗(yàn)證歷史觀測(cè)軌跡長(zhǎng)度對(duì)預(yù)測(cè)精度的影響,通過使用不同長(zhǎng)度的歷史觀測(cè)軌跡來進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果由圖11可知,當(dāng)輸入為3 s的歷史觀測(cè)軌跡時(shí),模型的預(yù)測(cè)精度最高。隨著歷史觀測(cè)軌跡長(zhǎng)度的增加,模型的預(yù)測(cè)精度隨之下降。因此可以知道,在一定范圍內(nèi)增加歷史觀測(cè)軌跡長(zhǎng)度可以相應(yīng)提高模型的預(yù)測(cè)精度,而超過這個(gè)范圍則對(duì)提高模型的預(yù)測(cè)精度沒有幫助。同時(shí)也可以知道,預(yù)測(cè)交通智能體的未來軌跡只與一定時(shí)間長(zhǎng)度的歷史觀測(cè)軌跡有關(guān)。
圖11 TPT在不同長(zhǎng)度歷史軌跡下的預(yù)測(cè)結(jié)果
在考慮道路幾何信息和交通參與者之間的交互信息的情況下,提出了TPT模型來實(shí)現(xiàn)自動(dòng)駕駛車輛的軌跡預(yù)測(cè)。將包含歷史軌跡和周圍環(huán)境信息的多通道圖作為輸入,利用改進(jìn)的Nested Transformer對(duì)交通環(huán)境進(jìn)行建模,有效地考慮了車輛之間的交互以及車輛與基礎(chǔ)設(shè)施之間的交互。在公開的自動(dòng)駕駛數(shù)據(jù)集Lyft上的實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,TPT在所需推理時(shí)間更短的情況下獲得了更好的預(yù)測(cè)結(jié)果。得出以下結(jié)論。
(1)將交通智能體的歷史運(yùn)動(dòng)軌跡和周圍交通環(huán)境信息整合到多通道圖中作為輸入,利用改進(jìn)的Nested Transformer有效地建模來自環(huán)境的時(shí)空交互,從而準(zhǔn)確地預(yù)測(cè)交通智能體的未來軌跡。
(2)利用注意力機(jī)制,TPT模型可以捕獲周圍環(huán)境中最值得注意的交互作用,從而提高了性能,改善了模型的解釋性。
(3)將道路信息圖處理后得到的可達(dá)網(wǎng)格圖作為先驗(yàn)知識(shí)輸入到模型中,引導(dǎo)TPT模型學(xué)習(xí)道路信息圖中的可行駛道路區(qū)域,提升了TPT的預(yù)測(cè)精度。
(4)在未來的工作中,探索將TPT模型擴(kuò)展到同時(shí)對(duì)多個(gè)交通智能體進(jìn)行軌跡預(yù)測(cè),進(jìn)一步提升預(yù)測(cè)的效率。此外,TPT模型僅對(duì)交通智能體進(jìn)行了單模態(tài)軌跡預(yù)測(cè)??紤]到軌跡預(yù)測(cè)的多模態(tài)性,將對(duì)TPT模型進(jìn)行改進(jìn),使其能夠?yàn)榻煌ㄖ悄荏w提供多條可能的預(yù)測(cè)軌跡。