摘 要:為解決因缺乏部分行人建模思想、缺少時(shí)間維度的全局視野和忽略行人交互模式多樣性,而導(dǎo)致交互建模不充分、低預(yù)測(cè)精度等問(wèn)題,提出基于Social-STGCNN(social spatio-temporal graph convolutional neural network)的改進(jìn)模型STG-DTBTA(spatio-temporal graph distance threshold Bi-TCN attention)。首先,構(gòu)建PPM(partial pedestrian module)模塊,對(duì)不滿(mǎn)足距離閾值等約束條件的行人交互連接剪枝以去噪。其次,引入時(shí)空注意力機(jī)制,空間注意力動(dòng)態(tài)分配交互權(quán)重,并設(shè)置多個(gè)注意力頭以處理交互多樣性問(wèn)題;時(shí)間注意力捕捉時(shí)序數(shù)據(jù)的時(shí)間依賴(lài)關(guān)系。最后,采用雙向TCN增加全局視野以捕捉軌跡數(shù)據(jù)中的動(dòng)態(tài)模式和趨勢(shì),并采用門(mén)控機(jī)制融合雙向特征。在ETH和UCY數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與Social-STGCNN相比,STG-DTBTA在維持參數(shù)量與推理時(shí)間接近的情況下,ADE平均降低8%,F(xiàn)DE平均降低16%。STG-DTBTA具有良好的交互建模能力、模型性能和預(yù)測(cè)效果。
關(guān)鍵詞:行人軌跡預(yù)測(cè);部分行人建模;距離閾值;時(shí)空注意力機(jī)制;雙向TCN;門(mén)控機(jī)制
中圖分類(lèi)號(hào):TP391.4;TP183 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-014-3303-08
doi:10.19734/j.issn.1001-3695.2024.04.0103
Fusion of distance threshold and Bi-TCN for spatio-temporal attention pedestrian trajectory prediction model
Wang Hongxia, Nie Zhenkai?, Zhong Qiang
(College of Information Science amp; Engineering, Shenyang Ligong University, Shenyang 110159, China)
Abstract:In order to solve the problems such as insufficient interaction modeling and low prediction accuracy due to the lack of partial pedestrian modeling ideas, the lack of global vision in time dimension, and the neglect of the diversity of pedestrian interaction modes, this paper proposed an improved model STG-DTBTA based on Social-STGCNN. Firstly, the model constructed PPM module, and pruned the pedestrians inter links that were not meet constraints such as distance threshold for de-noising. Secondly, the model introduced the spatio-temporal attention mechanism. Spatial attention dynamically assigned interactive weights, and set up multiple attention heads to deal with the interaction diversity problem. Temporal attention captured temporal dependencies of temporal data. Finally, the model used Bi-TCN to increase global perspective to capture dynamic patterns and trends in trajectory data, and used gating mechanism to incorporate the bidirectional features. The experimental results on the datasets ETH and UCY show that compared with Social-STGCNN, ADE and FDE are decreased by an ave-rage of 8% and 16% respectively when the number of parameters and the inference time kept close to it. The STG-DTBTA has good interactive modeling ability, model performance and prediction effect.
Key words:pedestrian trajectory prediction; partial pedestrian model; distance threshold; spatio-temporal attention mechanism; bidirectional temporal convolutional network (Bi-TCN); gating mechanism
0 引言
伴隨人工智能的出現(xiàn),人們生活中涌現(xiàn)出越來(lái)越多的智能自主系統(tǒng),這些系統(tǒng)感知、理解和預(yù)測(cè)人類(lèi)行為的能力越來(lái)越重要。其中,行人軌跡預(yù)測(cè)已成為當(dāng)前的熱點(diǎn)問(wèn)題[1]。影響行人軌跡的因素眾多,最重要的是行人之間存在社會(huì)交互[2],通過(guò)某種方法模擬這一因素是目前面臨的一項(xiàng)挑戰(zhàn)。因此,行人軌跡預(yù)測(cè)的研究正日益關(guān)注如何更好地、更貼合實(shí)際地建模行人之間的交互。目前,常見(jiàn)的行人軌跡預(yù)測(cè)方法大致分為以下幾類(lèi):a)基于傳統(tǒng)方法如社會(huì)力模型[3]。這種方法簡(jiǎn)化了交互建模過(guò)程,無(wú)法應(yīng)對(duì)復(fù)雜的交互場(chǎng)景。b)基于LSTM的方法。Social LSTM(social-long short-term memory) [4]利用池化機(jī)制聚合大量的特征來(lái)模擬行人的社會(huì)交互,并期待獨(dú)特的隱藏狀態(tài)能夠捕捉到行人的運(yùn)動(dòng)特性,但該方法過(guò)度突出場(chǎng)景中最具影響力的交互,從而忽略了其他重要交互。SR-LSTM(state refinement for LSTM)[5]在其基礎(chǔ)上擴(kuò)展了視覺(jué)特征和新的池化機(jī)制,并通過(guò)加權(quán)機(jī)制來(lái)衡量每個(gè)行人對(duì)其他行人的貢獻(xiàn),但在時(shí)間維度難以捕捉序列之間的長(zhǎng)期依賴(lài)關(guān)系。LG-LSTM(local-global LSTM)[6]實(shí)現(xiàn)了對(duì)軌跡以及本地和全局交互的建模,但其固定的網(wǎng)格結(jié)構(gòu)無(wú)法適應(yīng)多場(chǎng)景。c)基于GAN(gene-rative adversarial network)的方法。如Social GAN[7]、SoPhie[8]均是一個(gè)空間上下文關(guān)注網(wǎng)絡(luò),關(guān)注全局特征并可預(yù)測(cè)行人多個(gè)社會(huì)可接受軌跡,但存在模式崩潰的風(fēng)險(xiǎn)。Kothari等人[9]提出一種改進(jìn)的SGAN架構(gòu)(SGANv2),通過(guò)協(xié)同采樣策略,在測(cè)試時(shí)也利用了學(xué)習(xí)到的鑒別器,不僅細(xì)化了碰撞軌跡,而且防止發(fā)生模式崩潰問(wèn)題。李文禮等人[10]提出了一種基于視野域機(jī)制的行人軌跡預(yù)測(cè)模型,通過(guò)不同時(shí)刻頭部偏轉(zhuǎn)角度來(lái)構(gòu)建當(dāng)前的視野域,并同時(shí)記錄歷史視野范圍的變化,從而篩選有效信息并動(dòng)態(tài)衡量行人之間的交互影響。d)基于Transformer如STAR[11],利用一種新型的基于Transformer的圖卷積機(jī)制對(duì)圖內(nèi)人群交互建模,圖間的時(shí)間依賴(lài)關(guān)系用單獨(dú)的時(shí)間Transformer建模,完全拋棄了遞歸,同時(shí)考慮時(shí)空維度之間的相互關(guān)系和作用。趙懂宇等人[12]提出基于Informer算法的運(yùn)動(dòng)軌跡預(yù)測(cè)模型,采用聯(lián)合歸一化進(jìn)行數(shù)據(jù)預(yù)處理,沿用Transformer網(wǎng)絡(luò)的編解碼器結(jié)構(gòu),并提出一種稀疏自注意力機(jī)制優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)篩除冗余值從而降低計(jì)算復(fù)雜度。e)基于圖神經(jīng)網(wǎng)絡(luò)的方法。由于圖的拓?fù)浣Y(jié)構(gòu)可以自然表示場(chǎng)景中行人之間的社會(huì)交互,所以越來(lái)越多的相關(guān)研究都采用基于圖神經(jīng)網(wǎng)絡(luò)的方法。如Social-STGCNN[13]采用圖卷積和TCN提取時(shí)空特征,避免了循環(huán)結(jié)構(gòu)誤差積累和梯度消失的問(wèn)題,但使用核函數(shù)表示交互難以自適應(yīng)不同密度的行人。RSBG(recursive social behavior graph)[14]結(jié)合GCN(graph neural network)的遞歸社會(huì)行為圖來(lái)建模社會(huì)互動(dòng),但大量的遞歸會(huì)增加計(jì)算成本,易過(guò)擬合。Social-BiGAT[15]結(jié)合了GAN的博弈結(jié)構(gòu),引入GAT(graph attention)來(lái)計(jì)算行人間的碰撞,通過(guò)雙向結(jié)構(gòu)關(guān)注上下文信息,但同樣存在模式崩潰的風(fēng)險(xiǎn)。Scene-STGCNN[16]通過(guò)設(shè)計(jì)基于場(chǎng)景的微調(diào)模塊提取場(chǎng)景調(diào)節(jié)特征,顯示建模場(chǎng)景對(duì)行人特征的調(diào)節(jié)作用。但該模型的運(yùn)動(dòng)模塊提取行人的局部時(shí)空特征,可能會(huì)忽視掉一些重要交互。
雖然基于圖神經(jīng)網(wǎng)絡(luò)的方法為行人軌跡預(yù)測(cè)開(kāi)辟了新角度,也得到了一些成果,但當(dāng)前很多方法仍在行人建模問(wèn)題上存在局限性。
a)多數(shù)方法常將所有行人建模[17],如圖1(a)(b)所示。圖1(a)中的行人1和2行走方向相反,且行人1的位置在行人2之前,因此,行人1的軌跡不會(huì)受到行人2的影響;同時(shí)行人1的附近有行人3和4,行人5距離較遠(yuǎn),對(duì)于下一時(shí)刻來(lái)說(shuō),行人1的軌跡受到行人5的影響非常小,不應(yīng)保留兩人之間的社會(huì)交互連接,如圖1(c),虛線(xiàn)表示距離閾值條件下可能剪枝的交互連接。
b)如何模擬行人之間的社會(huì)交互。Mohamed等人[13]采用手工核函數(shù)的方式表示行人間的社會(huì)交互,該方式無(wú)法靈活適應(yīng)不同密度的行人。同時(shí)文獻(xiàn)[13]采用TCN(temporal convolutional network)無(wú)法提取全局信息,提取特征不充分。
綜上所述,為了解決這些問(wèn)題,提出改進(jìn)后的新模型STG-DTBTA(spatio-temporal graph distance threshold Bi-TCN attention)。其主要貢獻(xiàn)概括如下:a)設(shè)計(jì)PPM(partial pedestrian model)模塊,通過(guò)行人位置、運(yùn)動(dòng)方向和距離閾值三個(gè)條件實(shí)現(xiàn)部分行人建模;b)采用雙向TCN全局建模,經(jīng)多種特征融合方式比較,采用門(mén)控機(jī)制融合正、逆向特征;c)引入時(shí)空注意力機(jī)制,采用多頭自注意力機(jī)制對(duì)空間維度建模解決交互模式多樣性問(wèn)題,自適應(yīng)學(xué)習(xí)目標(biāo)行人與其他行人間的交互關(guān)系;采用自注意力機(jī)制對(duì)時(shí)間維度建模,計(jì)算余弦相似性來(lái)捕捉軌跡數(shù)據(jù)的時(shí)間相關(guān)性,通過(guò)時(shí)空維度的同步處理以實(shí)現(xiàn)時(shí)空耦合建模。
另外,行人的軌跡更多發(fā)自主觀(guān)意識(shí),具有不確定性。如圖1(d)所示,目標(biāo)行人的前方有人靠近,下一時(shí)刻該行人可能繼續(xù)直行,也可能左拐或右拐避讓?zhuān)尸F(xiàn)多模態(tài)特性。基于雙變量高斯分布函數(shù)的穩(wěn)定性,本文結(jié)合該函數(shù)預(yù)測(cè)軌跡的概率分布,選擇誤差最小的軌跡作為最終預(yù)測(cè)結(jié)果。
1 模型方法
1.1 行人軌跡預(yù)測(cè)問(wèn)題定義
STG-DTBTA模型對(duì)行人軌跡預(yù)測(cè)問(wèn)題的定義如下:給定一組場(chǎng)景中共有N個(gè)行人,記n∈{1,2,…,N},每個(gè)行人在場(chǎng)景中的空間位置都映射到世界坐標(biāo)系下對(duì)應(yīng)一組坐標(biāo)(xnt,ynt),其中t∈{1,2,…,Tobs}是觀(guān)測(cè)的時(shí)間幀長(zhǎng),這一組連續(xù)的坐標(biāo)表示該行人的運(yùn)動(dòng)軌跡,根據(jù)N個(gè)行人1~Tobs時(shí)間幀的軌跡,預(yù)測(cè)Tobs+1~Tpred時(shí)間幀N個(gè)行人的位置,從而預(yù)測(cè)N個(gè)行人的軌跡信息,記為trajnp={pnt=(xnt,ynt)}。本文假設(shè)行人軌跡中對(duì)應(yīng)的坐標(biāo)位置信息服從雙變量高斯分布函數(shù),即pnt~F(μnxt,μnyt,σnxt,σnyt,ρnt),雙變量高斯分布函數(shù)的概率密度函數(shù)如式(1)所示。
F(x,y)=12πσxσye(-(x-μx)22σ2x+-(y-μy)22σ2y)(1)
1.2 模型整體概述
如圖2所示,STG-DTBTA主要由PPM模塊、時(shí)空維度建模和多模態(tài)軌跡預(yù)測(cè)三部分組成。首先將行人及交互關(guān)系處理為圖結(jié)構(gòu)數(shù)據(jù),分別得到行人自身特征矩陣x和矩陣元素為行人間歐氏距離的鄰接矩陣A,將其作為輸入,PPM模塊用于實(shí)現(xiàn)部分行人建模功能,通過(guò)設(shè)定合適的距離閾值以及方向、位置條件將A中不滿(mǎn)足條件的行人之間的連接剪枝。時(shí)空維度建模采用時(shí)空耦合建模方式,分別引入時(shí)、空注意力機(jī)制建模行人軌跡預(yù)測(cè)的時(shí)空關(guān)系,充分考慮行人之間的空間關(guān)聯(lián)性和軌跡的時(shí)間依賴(lài)性。通過(guò)GCN提取空間維度特征,將空間維度提取的特征傳入時(shí)間維度,通過(guò)雙向TCN提取時(shí)間維度特征,以此同步考慮時(shí)空維度的有效信息,并在時(shí)空維度加入全局視野;采用門(mén)控機(jī)制融合雙向特征得到最終用于多模態(tài)軌跡預(yù)測(cè)的特征信息。最后通過(guò)TXP-CNN(time-extrapolator CNN)進(jìn)行預(yù)測(cè),并結(jié)合雙變量高斯分布函數(shù)根據(jù)樣本數(shù)隨機(jī)抽樣得到軌跡的概率分布,選擇最優(yōu)軌跡作為最終的預(yù)測(cè)結(jié)果。接下來(lái)將對(duì)這三部分進(jìn)行詳細(xì)描述。
1.3 PPM模塊
行人建模過(guò)程中需要考慮行人之間的社會(huì)交互,這是行人軌跡預(yù)測(cè)精準(zhǔn)與否的一個(gè)重要因素。針對(duì)這個(gè)抽象的概念,本文計(jì)算場(chǎng)景中行人之間的歐氏距離來(lái)反映行人之間社會(huì)交互影響程度。Social-STGCNN將場(chǎng)景中所有行人建模,但在現(xiàn)實(shí)場(chǎng)景中,行人之間的交互行為往往更多取決于距離較近、運(yùn)動(dòng)模式相似性較高的行人,此時(shí)全部建模會(huì)引入部分噪聲而降低預(yù)測(cè)精度。基于該問(wèn)題,需要引入部分行人建模方法,剪枝當(dāng)前場(chǎng)景當(dāng)前時(shí)刻對(duì)目標(biāo)行人軌跡影響極小的行人連接。通過(guò)該方法可以對(duì)此建模過(guò)程進(jìn)行優(yōu)化,剔除交互影響極小甚至沒(méi)有的行人以避免噪聲的影響;而行人的關(guān)注程度有局限性,進(jìn)行局部、部分行人建模更符合實(shí)際行走模式。文獻(xiàn)[10,17]通過(guò)設(shè)置視野域,只對(duì)目標(biāo)行人視野域內(nèi)的行人進(jìn)行建模,并在實(shí)驗(yàn)中發(fā)現(xiàn)預(yù)測(cè)精度得到提升。因此本文在STG-DTBTA模型中設(shè)計(jì)了PPM模塊,通過(guò)行人之間的位置關(guān)系、運(yùn)動(dòng)方向以及距離閾值三個(gè)條件判斷是否剪枝交互連接,從而實(shí)現(xiàn)部分行人建模,根據(jù)2.4.1節(jié)中的實(shí)驗(yàn)結(jié)果證明此改進(jìn)方法對(duì)模型的預(yù)測(cè)具有積極作用,說(shuō)明該方法的可行性。
1.3.1 PPM模塊原理與實(shí)現(xiàn)過(guò)程
在特征輸入PPM模塊之前,本文先將場(chǎng)景中行人及其軌跡信息處理為圖結(jié)構(gòu)數(shù)據(jù),得到歐氏距離矩陣A,矩陣A中的每個(gè)元素{aij|i=1,2,…,N;j=1,2,…,N}表示行人之間的距離。得到距離矩陣A后,通過(guò)提出的三個(gè)條件進(jìn)行剪枝。首先通過(guò)行人位置與行人運(yùn)動(dòng)方向來(lái)判斷,如圖3所示,以行人1作為目標(biāo)行人,運(yùn)動(dòng)方向?yàn)閤軸正方向,經(jīng)計(jì)算可知行人1和2的運(yùn)動(dòng)方向相反,并且行人1的位置在行人2之前,具體計(jì)算公式見(jiàn)1.3.3和1.3.4節(jié)。不滿(mǎn)足位置和運(yùn)動(dòng)方向的約束條件意味著之后的時(shí)間步長(zhǎng)中行人1和2之間不可能存在社會(huì)交互,因此,先將二人之間的連接剪枝;同理,若目標(biāo)行人運(yùn)動(dòng)方向?yàn)閤軸負(fù)方向,則兩人運(yùn)動(dòng)方向相反且1.3.3節(jié)中的計(jì)算結(jié)果為負(fù)時(shí)剪枝兩人之間的交互連接。滿(mǎn)足位置、方向條件后,為當(dāng)前場(chǎng)景設(shè)定一個(gè)合適的距離閾值,圖中行人1和3之間的距離小于閾值,而行人1和4之間的距離大于閾值。說(shuō)明當(dāng)前時(shí)刻,行人1的軌跡極大程度上只受行人3的影響,此時(shí)若考慮行人4的交互影響會(huì)引入噪聲,因此,將行人1和4之間的連接剪枝,即矩陣中對(duì)應(yīng)元素aij置為0。處理后得到稀疏矩陣As并對(duì)其歸一化,然后經(jīng)過(guò)1.4節(jié)介紹的空間注意力機(jī)制得到該場(chǎng)景分配權(quán)重后行人間的社會(huì)交互影響力。
1.3.2 PPM模塊分析
如圖4所示為某場(chǎng)景下行人之間存在交互的情況,圖中黑色軌跡為目標(biāo)行人的移動(dòng)軌跡,藍(lán)色軌跡(詳見(jiàn)電子版)為周?chē)腥说囊苿?dòng)軌跡。t=0時(shí),目標(biāo)行人開(kāi)始移動(dòng),下方行人處于靜止。當(dāng)t=1時(shí),目標(biāo)行人若按當(dāng)前行走方向繼續(xù)前進(jìn)則會(huì)與該行人發(fā)生碰撞,兩者此時(shí)距離最近,反映了社會(huì)交互影響程度極大,為了避免碰撞,目標(biāo)行人轉(zhuǎn)而向上方行進(jìn)。同時(shí)隨著時(shí)間的增加,兩人距離越來(lái)越遠(yuǎn),從圖上可見(jiàn)兩人之間的社會(huì)交互影響程度逐漸變?nèi)?,t=3之后,兩人之間的距離足夠遠(yuǎn),不再具有社會(huì)交互。因此,在PPM模塊中,會(huì)在t=3之后將兩者之間的交互連接剪枝。又如目標(biāo)行人上方的行人,兩人均從t=0時(shí)出發(fā),在t=3之前,兩人距離足夠遠(yuǎn),不會(huì)產(chǎn)生社會(huì)交互,當(dāng)t=3時(shí),兩人存在較小的社會(huì)交互影響。t=4時(shí),兩人即將發(fā)生碰撞,此時(shí)交互程度最強(qiáng),分別改變行走方向避免發(fā)生碰撞。t=4之后兩人行走方向相反,且兩人朝著彼此的身后行走,即使兩人距離較近,但并不滿(mǎn)足位置關(guān)系和運(yùn)動(dòng)方向的約束條件,就不會(huì)存在社會(huì)交互影響。綜上,通過(guò)可視化的方式模擬并分析該方法的實(shí)現(xiàn)效果,與預(yù)期效果具有一致性。
1.3.3 行人位置關(guān)系計(jì)算
在二維坐標(biāo)系中,本文通過(guò)行人的坐標(biāo)計(jì)算位置關(guān)系,見(jiàn)式(2),若Δxgt;0,表示待預(yù)測(cè)行人位置在另一個(gè)行人前面。
Δx=xi-xj
i, j∈{1,2,…,N}(2)
1.3.4 行人運(yùn)動(dòng)方向計(jì)算
行人運(yùn)動(dòng)方向借助行人位置計(jì)算,如第一幀的坐標(biāo)為Pt,第二幀的坐標(biāo)為Pt+1,則通過(guò)Pt+1-Pt判斷其x的正負(fù)即可判斷是正向還是負(fù)向,見(jiàn)式(3)。
ΔPx=xt+1-xt
t∈{1,2,…,Tobs}(3)
1.4 時(shí)空維度建模
行人軌跡預(yù)測(cè)問(wèn)題可以表示為一種序列生成問(wèn)題,既要考慮行人之間的社會(huì)交互,又要考慮歷史運(yùn)動(dòng)信息的動(dòng)態(tài)變化趨勢(shì)。因此在模型建立過(guò)程中需要同步考慮空間維度和時(shí)間維度兩方面,通過(guò)實(shí)現(xiàn)時(shí)空耦合建模來(lái)更全面地提取行人軌跡信息中的時(shí)空特征。
1.4.1 時(shí)空注意力機(jī)制
注意力機(jī)制的主要思想是為模型輸入的各個(gè)部分分配相應(yīng)的權(quán)重,并根據(jù)權(quán)重對(duì)每個(gè)部分進(jìn)行不同的關(guān)注[18]。這種機(jī)制主要通過(guò)計(jì)算輸入之間的相似度,并對(duì)相似度進(jìn)行歸一化得到各自的權(quán)重,該權(quán)重反映了不同的關(guān)注程度。
1)空間注意力機(jī)制
在不同場(chǎng)景中,行人之間往往均存在不同且復(fù)雜的交互行為,并且行人之間也存在著個(gè)體差異,這導(dǎo)致了行人交互具有多樣性。Social-STGCNN采用核函數(shù)來(lái)模擬這種復(fù)雜的交互具有局限性,無(wú)法很好地適應(yīng)不同場(chǎng)景以及不同密度的行人;常用的單頭自注意力機(jī)制只能學(xué)習(xí)到一種關(guān)注模式,無(wú)法捕捉到行人之間交互模式的多樣性,這限制了模型對(duì)行人之間復(fù)雜的社會(huì)交互關(guān)系的建模能力。因此,本文在空間維度引入多頭自注意力機(jī)制,該方法可以感知行人之間不同的社會(huì)交互影響力,并分配相應(yīng)的權(quán)重,通過(guò)多個(gè)注意力頭同時(shí)關(guān)注多個(gè)方面的信息,每個(gè)注意力頭可以專(zhuān)注于不同方面的相互影響,從而更準(zhǔn)確地捕捉到行人之間的復(fù)雜關(guān)系,實(shí)現(xiàn)多尺度全局建模以處理交互的多樣性。輸入維度根據(jù)不同場(chǎng)景中行人的數(shù)量作出動(dòng)態(tài)調(diào)整,從而更加靈活地適應(yīng)不同密度的行人,提升模型的魯棒性。經(jīng)2.4.1節(jié)中的實(shí)驗(yàn)結(jié)果驗(yàn)證,空間維度引入多頭自注意力機(jī)制具有有效性。如圖5所示,本文以自注意力頭數(shù)K=2為例,展示多頭自注意力機(jī)制原理。首先,計(jì)算節(jié)點(diǎn)之間的相似度,見(jiàn)式(4)。
eij=dot(Whi,Whj)(4)
其中:W是該層節(jié)點(diǎn)特征線(xiàn)性變換的權(quán)重參數(shù),本文采用線(xiàn)性變換方式;dot(·)是計(jì)算兩個(gè)節(jié)點(diǎn)相似度的函數(shù),本文采用計(jì)算內(nèi)積的方式。為了更好地分配權(quán)重,本文將與所有鄰居節(jié)點(diǎn)計(jì)算出的相似度進(jìn)行統(tǒng)一的歸一化處理,從而得到相應(yīng)的權(quán)重,見(jiàn)式(5)。
αij=softmax (ei)=exp(eij)∑vj∈N(vi)exp(eij)(5)
得到權(quán)重后,通過(guò)加權(quán)求和即可得到新的特征,見(jiàn)式(6)。
h′i=∑vr∈N(vi)αijWhr(6)
式(6)針對(duì)單頭自注意力機(jī)制,本文采用多頭自注意力機(jī)制,需要對(duì)頭數(shù)進(jìn)行平均,不改變維度的情況下得到新特征,見(jiàn)式(7)。
h′i=1K∑vr∈N(vi)αijWhr(7)
2)時(shí)間注意力機(jī)制
經(jīng)空間注意力機(jī)制處理后得到行人交互的不同影響程度,同樣軌跡數(shù)據(jù)的時(shí)間維度也對(duì)預(yù)測(cè)結(jié)果存在不同的影響程度。在一組時(shí)間序列中,各個(gè)幀對(duì)應(yīng)行人的一組位置信息。行人的運(yùn)動(dòng)使得位置信息發(fā)生改變,有時(shí)也會(huì)發(fā)生運(yùn)動(dòng)模式的改變,如急轉(zhuǎn)彎、驟停、突然加速行進(jìn)等,這些情況對(duì)軌跡影響的程度應(yīng)相對(duì)較高。因此未來(lái)軌跡預(yù)測(cè)的過(guò)程中,需要學(xué)習(xí)到觀(guān)測(cè)狀態(tài)下一組時(shí)間序列中軌跡信息的時(shí)間相關(guān)性,從而根據(jù)相關(guān)關(guān)系與不同的權(quán)重系數(shù)得到更精確的預(yù)測(cè)軌跡,而Social-STGCNN并未對(duì)該方面問(wèn)題進(jìn)行處理。因此,本文在時(shí)間維度引入自注意力機(jī)制,該方法可以更好地捕捉各幀軌跡數(shù)據(jù)之間的時(shí)間依賴(lài)關(guān)系。常用來(lái)計(jì)算輸入之間相似度的方法是計(jì)算query和key的內(nèi)積,但這種方式過(guò)于關(guān)注向量的長(zhǎng)度,忽略了方向和角度的差異,而且在時(shí)間維度上會(huì)受到時(shí)間偏移的影響,不適用于處理時(shí)間序列數(shù)據(jù)。因此,受Liu等人[18]的啟發(fā),本文采用計(jì)算余弦相似性的方法來(lái)得到query和key之間的相似度。由于余弦相似性對(duì)向量的絕對(duì)大小不敏感,而是關(guān)注向量的方向與它們之間的夾角,專(zhuān)注于它們之間的形狀相似性,可以更好地區(qū)分輸入數(shù)據(jù)時(shí)間維度上的關(guān)聯(lián)程度并識(shí)別相似的模式和趨勢(shì)。同時(shí)余弦相似性計(jì)算方式較為簡(jiǎn)單,降低了模型的計(jì)算復(fù)雜度。經(jīng)2.4.1節(jié)中實(shí)驗(yàn)結(jié)果驗(yàn)證時(shí)間維度引入自注意力機(jī)制的有效性,且經(jīng)2.5.3節(jié)的對(duì)比實(shí)驗(yàn)驗(yàn)證了計(jì)算余弦相似性的優(yōu)越性。如圖6所示是時(shí)間維度引入的自注意力機(jī)制的原理圖,a1、a2、a3經(jīng)過(guò)不同的全連接層得到各自的Q、K、V,見(jiàn)式(8)。
Qi=WqaiKi=WkaiVi=Wvai (8)
之后計(jì)算Q和K的相似度,采用余弦相似性的計(jì)算方法,見(jiàn)式(9)。
E=Q·K‖Q‖*‖K‖(9)
得到的E即為相似度,經(jīng)過(guò)歸一化后得到權(quán)重系數(shù),見(jiàn)式(10)。
α=softmax (E)(10)
最終,將權(quán)重系數(shù)與V進(jìn)行加權(quán)求和即為新的特征,見(jiàn)式(11)。
H=∑αV(11)
1.4.2 雙向TCN
行人多幀下的軌跡數(shù)據(jù)可看作一組時(shí)序數(shù)據(jù),存在一定的時(shí)序特征。目前,多數(shù)方法普遍通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體GRU(gate recurrent unit)、LSTM提取時(shí)間維度特征,然而基于循環(huán)結(jié)構(gòu)的方法存在誤差積累和梯度消失等問(wèn)題,并且循環(huán)結(jié)構(gòu)的串行計(jì)算方式會(huì)導(dǎo)致模型低效。Social-STGCNN對(duì)此進(jìn)行改進(jìn),采用單向TCN提取時(shí)序特征。但這種單向建模方式只能利用過(guò)去的信息,無(wú)法捕捉未來(lái)的上下文信息,在處理長(zhǎng)期依賴(lài)關(guān)系時(shí)會(huì)導(dǎo)致部分特征信息丟失,而影響模型的預(yù)測(cè)精準(zhǔn)度。因此,本文選擇雙向建模方式,采用雙向TCN同時(shí)利用過(guò)去和未來(lái)的數(shù)據(jù),可以全局捕捉行人軌跡數(shù)據(jù)中的時(shí)序模式和動(dòng)態(tài)變化,在面對(duì)未知數(shù)據(jù)時(shí)提高模型的泛化能力,并且該方法的并行計(jì)算方式大大提升了運(yùn)行速度。經(jīng)2.5.1節(jié)中實(shí)驗(yàn)結(jié)果驗(yàn)證,采用雙向TCN能夠提升預(yù)測(cè)精度。圖7所示是雙向TCN及門(mén)控機(jī)制的結(jié)構(gòu)。首先對(duì)輸入進(jìn)行批次歸一化處理,然后經(jīng)過(guò)PReLU激活函數(shù)層,該激活函數(shù)的公式為
PReLU(x)=x xgt;0βx x≤0(12)
其中:β是一個(gè)可學(xué)習(xí)的參數(shù),允許神經(jīng)元在負(fù)數(shù)輸入下具有一定的響應(yīng),有助于減輕神經(jīng)元死亡問(wèn)題。之后經(jīng)過(guò)卷積層并行提取特征,再進(jìn)行批次歸一化處理,最后經(jīng)過(guò)dropout層,防止模型過(guò)擬合。另有一個(gè)殘差塊由卷積層和批次歸一化層組成,解決了長(zhǎng)期依賴(lài)問(wèn)題,在反向傳播過(guò)程中防止梯度消失。時(shí)間維度建模時(shí),需先將輸入數(shù)據(jù)翻轉(zhuǎn)得到逆向數(shù)據(jù),經(jīng)過(guò)雙向TCN后捕捉到正、逆向輸出特征,本文通過(guò)門(mén)控機(jī)制融合雙向特征。常見(jiàn)的特征融合方式僅對(duì)輸出的多個(gè)特征直接進(jìn)行處理,而部分關(guān)鍵特征與其他特征的權(quán)重相同,從而影響預(yù)測(cè)效果。門(mén)控機(jī)制中采用sigmoid 非線(xiàn)性激活函數(shù),該激活函數(shù)的公式為
sigmoid(x)=11+e-x(13)
門(mén)控機(jī)制允許網(wǎng)絡(luò)根據(jù)輸入特征的不同部分動(dòng)態(tài)地控制信息的流動(dòng)和處理。通過(guò)學(xué)習(xí)得到的門(mén)控權(quán)重,網(wǎng)絡(luò)可以自適應(yīng)地選擇保留或丟棄不同特征的信息。具體來(lái)說(shuō),在門(mén)控機(jī)制中,先將雙向特征進(jìn)行線(xiàn)性變換,使用sigmoid將其縮放到[0,1],越接近0表示對(duì)應(yīng)的信息越不相關(guān),以此來(lái)選擇性地處理和傳遞重要信息,實(shí)現(xiàn)對(duì)輸入的動(dòng)態(tài)控制和調(diào)節(jié)。通過(guò)門(mén)控機(jī)制,雙向特征中更重要的信息被保留,丟棄部分噪聲,從而實(shí)現(xiàn)更合理的特征融合。同時(shí)門(mén)控機(jī)制可以共享參數(shù),不會(huì)為網(wǎng)絡(luò)的實(shí)時(shí)性推理增加負(fù)擔(dān)。經(jīng)過(guò)融合后,得到時(shí)空雙維度處理后的時(shí)空耦合特征,該特征即為行人軌跡數(shù)據(jù)中時(shí)空雙維度所有的有效信息,用于最后的軌跡預(yù)測(cè)任務(wù),經(jīng)2.5.2節(jié)中實(shí)驗(yàn)結(jié)果可視化圖可知,采用門(mén)控機(jī)制達(dá)到了預(yù)期效果。
1.5 多模態(tài)軌跡預(yù)測(cè)
考慮到行人軌跡的不確定性,對(duì)行人軌跡的預(yù)測(cè)不能僅預(yù)測(cè)一條“平均好”的軌跡。首先,本文采用TXP-CNN進(jìn)行預(yù)測(cè),相比于循環(huán)結(jié)構(gòu),TXP-CNN可以一次性預(yù)測(cè)出目標(biāo)行人未來(lái)時(shí)刻的所有軌跡,其輸出結(jié)果是維度為T(mén)pred×5×N的特征,其中Tpred=12,N是該場(chǎng)景中行人的數(shù)量,5則對(duì)應(yīng)雙變量高斯分布函數(shù)的5個(gè)重要參數(shù):μ1、μ2、σ1、σ2和ρ。將學(xué)習(xí)到的參數(shù)特征代入雙變量高斯分布函數(shù)中進(jìn)行隨機(jī)抽樣,便可得到行人預(yù)測(cè)軌跡的概率分布,從而實(shí)現(xiàn)多模態(tài)軌跡預(yù)測(cè)。
1.6 損失函數(shù)
本文實(shí)現(xiàn)多模態(tài)軌跡預(yù)測(cè)時(shí)結(jié)合雙變量高斯分布函數(shù)得到軌跡的概率分布。針對(duì)該方法,更精確地匹配觀(guān)測(cè)數(shù)據(jù)的真實(shí)分布,意味著損失函數(shù)值為最小,即雙變量高斯分布函數(shù)要趨近于最大似然估計(jì)值。因此,本文引入負(fù)對(duì)數(shù)似然損失函數(shù)作為損失函數(shù),公式為
L(W)=-∑Tpredt=Tobs+1ln(F(pnt|μnxt,μnyt,σnxt,σnyt,ρnt))(14)
其中:W表示當(dāng)前學(xué)習(xí)到的模型參數(shù);Tobs表示觀(guān)測(cè)時(shí)間步長(zhǎng);Tpred表示預(yù)測(cè)的時(shí)間步長(zhǎng);μ、σ、ρ均為每個(gè)時(shí)間步長(zhǎng)下每個(gè)行人的x、y坐標(biāo)對(duì)應(yīng)于雙變量高斯分布函數(shù)中的必要參數(shù),通過(guò)最小化損失函數(shù)得到最優(yōu)的參數(shù)取值。
2 實(shí)驗(yàn)分析
2.1 數(shù)據(jù)集和評(píng)估指標(biāo)
2.1.1 數(shù)據(jù)集
本節(jié)在ETH[19]和UCY[20]兩個(gè)公共數(shù)據(jù)集上評(píng)估模型。ETH包括了eth和hotel兩個(gè)場(chǎng)景;UCY包括了univ、zara1和zara2三個(gè)場(chǎng)景。ETH中平均行人數(shù)量為5,UCY中平均行人數(shù)量為18。兩個(gè)數(shù)據(jù)集中的軌跡數(shù)據(jù)均映射到世界坐標(biāo)系下,轉(zhuǎn)換為世界坐標(biāo),且每0.4 s采樣一次(1幀),這些數(shù)據(jù)集涵蓋了行人多種行走模式與社會(huì)交互。
2.1.2 評(píng)估指標(biāo)
根據(jù)先前學(xué)者的研究,本文采用平均位移誤差(ADE)和最終位移誤差(FDE)作為評(píng)估指標(biāo)。ADE(average displacement error)表示在行人的所有預(yù)測(cè)時(shí)間步長(zhǎng)上,行人的實(shí)際觀(guān)測(cè)位置和預(yù)測(cè)結(jié)果之間的平均歐氏距離誤差,見(jiàn)式(15)。ADE越小,表示模型的預(yù)測(cè)越精確。
ADE=∑n∈N ∑t∈Tpred‖p′nt-pnt‖2N×Tpred(15)
FDE(final displacement error)表示在最后一幀預(yù)測(cè)的行人最終位置與實(shí)際觀(guān)測(cè)位置之間的歐氏距離誤差,見(jiàn)式(16)。FDE越小,表示模型的最終位置預(yù)測(cè)越準(zhǔn)確。
FDE=∑n∈N‖p′nt-pnt‖2N,t=Tpred(16)
2.2 實(shí)現(xiàn)細(xì)節(jié)
本實(shí)驗(yàn)根據(jù)文獻(xiàn)[13]消融研究的實(shí)驗(yàn)結(jié)果,設(shè)置1層ST-GCNN層和5層TXP-CNN層,在PPM模塊中,根據(jù)2.4.2節(jié)的實(shí)驗(yàn)結(jié)果,本文設(shè)置距離閾值為0.8 m。整體來(lái)說(shuō),本實(shí)驗(yàn)設(shè)置批次大小為128,訓(xùn)練輪數(shù)為250個(gè)epoch,采用隨機(jī)梯度下降算法SGD(stochastic gradient descent)優(yōu)化梯度,前150個(gè)epoch的學(xué)習(xí)率為0.01,在此之后衰減為0.001,使用PReLU函數(shù)作為本文模型的激活函數(shù),使用的CPU是i7-11370H,GPU是NVIDIA GeForce RTX 2050。
本實(shí)驗(yàn)使用LOO (leave-one-out cross validation) 交叉驗(yàn)證方法,即對(duì)數(shù)據(jù)集進(jìn)行分組,每次評(píng)估過(guò)程中,選擇其中一組作為測(cè)試集,而將其他組作為訓(xùn)練集和驗(yàn)證集。此外,本實(shí)驗(yàn)沿用大多數(shù)行人軌跡預(yù)測(cè)研究的方案,以8幀(3.2 s)作為觀(guān)察軌跡,預(yù)測(cè)接下來(lái)12幀(4.8 s)時(shí)間步長(zhǎng)的行人軌跡。根據(jù)預(yù)測(cè)出的最優(yōu)參數(shù)值,從基于預(yù)測(cè)的分布中生成20個(gè)樣本,分別計(jì)算每個(gè)樣本對(duì)應(yīng)的評(píng)估指標(biāo)。然后選擇評(píng)估指標(biāo)最優(yōu)的樣本作為最終該行人的社會(huì)可接受軌跡,記錄其評(píng)估指標(biāo)值,并計(jì)算所有數(shù)據(jù)集下評(píng)估指標(biāo)的平均值。
2.3 與現(xiàn)有方法的比較
如表1所示,本文STG-DTBTA與現(xiàn)有的經(jīng)典模型:Social LSTM[4]、SR-LSTM[5]、Social GAN[7]、SoPhie[8]、Social-STGCNN[13]、RSBG[14]、Social-BiGAT[15]、ST-GAT[21]相比,在5個(gè)數(shù)據(jù)集上的表現(xiàn)以及平均值都優(yōu)于經(jīng)典模型,且具有較大幅度的提升,說(shuō)明本文模型設(shè)計(jì)的PPM模塊引入時(shí)空注意力機(jī)制,采用雙向TCN,在提升軌跡預(yù)測(cè)精準(zhǔn)度方面能夠起到積極作用。
本文模型與新模型如Scene-STGCNN[16]、Social-TAG[17]、SRA-SIGAN[22]、WR-SRPG[23]相比,同樣具有一定的競(jìng)爭(zhēng)力。具體而言,STG-DTBTA在UCY上相比新模型具有良好的表現(xiàn),但在ETH上還有一些提升空間,如SRA-SIGAN的ADE指標(biāo)和Scene-STGCNN的ADE、FDE指標(biāo)在eth場(chǎng)景下要略好于STG-DTBTA;WR-SRPG在hotel場(chǎng)景下的ADE、FDE指標(biāo)要優(yōu)于STG-DTBTA。原因可能是UCY中的行人數(shù)目較多且較為密集,當(dāng)前設(shè)置的距離閾值適用該數(shù)據(jù)集中的場(chǎng)景;而ETH中的行人比較分散,且行人數(shù)目較少,在當(dāng)前距離閾值作用下對(duì)于目標(biāo)行人建??赡芪磳⒃肼曔B接剪枝。因此,距離閾值的設(shè)定可能影響著ADE、FDE指標(biāo),具體討論見(jiàn)2.4.2節(jié)。但STG-DTBTA得到的指標(biāo)平均值要優(yōu)于新模型,且在univ、zara1、zara2上相比于新模型均具有良好表現(xiàn)。對(duì)于eth數(shù)據(jù)集,之后可引入自適應(yīng)性距離閾值對(duì)其進(jìn)行改進(jìn)。
綜上所述,與基線(xiàn)模型Social-STGCNN相比,ADE均值比Social-STGCNN降低了8%;FDE均值比Social-STGCNN降低了16%,且5個(gè)數(shù)據(jù)集的預(yù)測(cè)效果均具有較大幅度的提升,驗(yàn)證了在此基礎(chǔ)上,本文模型具有良好的改進(jìn)效果,說(shuō)明了其有效性與可行性。與表1中所有模型相比,STG-DTBTA獲得了最好的ADE均值和最好的FDE均值,并且分別在univ、zara1、zara2數(shù)據(jù)集上得到的ADE和FDE值均為所有模型中的最小值;在eth和hotel數(shù)據(jù)集上雖然評(píng)估指標(biāo)不為最優(yōu),可能由于距離閾值的選取問(wèn)題,但都接近最優(yōu)值,同樣具有較小的預(yù)測(cè)誤差。因此,STG-DTBTA具有一定的競(jìng)爭(zhēng)力,在行人軌跡預(yù)測(cè)問(wèn)題中具備良好的預(yù)測(cè)效果。
2.4 消融實(shí)驗(yàn)
2.4.1 模塊分析
本節(jié)通過(guò)消融實(shí)驗(yàn)驗(yàn)證、評(píng)估不同方案對(duì)實(shí)驗(yàn)結(jié)果的影響。將時(shí)空注意力、雙向TCN和PPM模塊三個(gè)方案進(jìn)行排列組合,得到8種配置,其中配置1(基線(xiàn))不采用任何方案,配置8(本文模型)采用三個(gè)方案。
由表2可知,采用了時(shí)空注意力的方案如配置2~4在所有場(chǎng)景下均具有一定效果,特別是配置2在eth場(chǎng)景下,ADE和FDE值取得了所有配置版本中的最小值;在univ場(chǎng)景下,行人數(shù)目最多,分散情況最復(fù)雜,采用PPM模塊的方案如配置4、6、7均得到了較好的預(yù)測(cè)效果;采用雙向TCN的方案如配置3、5、6在所有數(shù)據(jù)集中,相比于基線(xiàn)模型在預(yù)測(cè)精準(zhǔn)度方面均有一定的提升。
采用雙向TCN和PPM模塊結(jié)合的方案如配置6在univ場(chǎng)景中的FDE值取得了較好效果。說(shuō)明在部分行人建?;A(chǔ)上,采用雙向TCN實(shí)現(xiàn)雙向建模對(duì)行人最后位置的預(yù)測(cè)具有良好效果,通過(guò)提取逆向特征能更靈活地應(yīng)對(duì)行人在行進(jìn)過(guò)程中的軌跡變化,從而更準(zhǔn)確地預(yù)測(cè)出行人最終位置,證明了部分行人建模思想結(jié)合全局視野的建模,對(duì)FDE值具有一定的優(yōu)化作用。
采用時(shí)空注意力機(jī)制和PPM模塊結(jié)合的方案如配置4在univ場(chǎng)景中的ADE值取得了較好效果。說(shuō)明在部分行人建?;A(chǔ)上,引入時(shí)空注意力機(jī)制細(xì)化了時(shí)空建模過(guò)程,通過(guò)更好的建模行人之間交互影響的多樣性以及軌跡數(shù)據(jù)的時(shí)間相關(guān)性、自適應(yīng)計(jì)算的方式處理不同場(chǎng)景中的建模過(guò)程,能夠?qū)ξ磥?lái)每一幀下的行人位置的預(yù)測(cè)起到積極的作用。證明了部分行人建模思想結(jié)合改進(jìn)后的時(shí)空維度建模對(duì)ADE值具有一定的優(yōu)化作用。
以上結(jié)果說(shuō)明模型中引入時(shí)空注意力機(jī)制、將單向TCN改為雙向TCN、采用部分行人建模思想這三個(gè)方案對(duì)模型預(yù)測(cè)軌跡的精確度均有積極影響,并且PPM模塊與雙向TCN的結(jié)合能夠得到更小的FDE值,PPM模塊與時(shí)空注意力機(jī)制結(jié)合能夠得到更小的ADE值。最終本文模型在hotel、univ、zara1和zara2數(shù)據(jù)集上均得到了最優(yōu)的預(yù)測(cè)效果,評(píng)估指標(biāo)的平均值也為所有配置中的最優(yōu)值。基于各模塊之間的關(guān)聯(lián),將三個(gè)方案結(jié)合使用在預(yù)測(cè)精準(zhǔn)度方面作出了積極貢獻(xiàn)。另外,本文將在2.5.4節(jié)中討論STG-DTBTA的參數(shù)量與推理時(shí)間。
2.4.2 距離閾值對(duì)預(yù)測(cè)誤差的影響
為了本文模型能更好地實(shí)現(xiàn)部分行人建模所帶來(lái)的積極作用,距離閾值的選擇十分關(guān)鍵,若閾值設(shè)置過(guò)大,可能會(huì)有一些噪聲沒(méi)有去除掉;若閾值設(shè)置過(guò)小,可能會(huì)剪枝過(guò)多連接,從而導(dǎo)致圖結(jié)構(gòu)過(guò)于稀疏。因此,為了研究距離閾值對(duì)預(yù)測(cè)誤差的具體影響,本節(jié)基于提出的模型,等差設(shè)置一系列距離閾值來(lái)進(jìn)行實(shí)驗(yàn),設(shè)置的距離閾值間隔為0.15 m,如表3所示。從表中可以看出,距離閾值確實(shí)會(huì)對(duì)預(yù)測(cè)精準(zhǔn)度產(chǎn)生影響。在表中給出的一系列距離閾值中,將閾值設(shè)為0.8 m得到的效果最好,平均ADE、FDE均為最優(yōu),同時(shí)距離閾值越小,誤差通常會(huì)變得越大,隨著距離閾值逐漸變大,誤差通常也在逐漸變大。該實(shí)驗(yàn)驗(yàn)證了結(jié)論的正確性與方案的可行性。因此,在 STG-DTBTA預(yù)測(cè)行人軌跡時(shí),將所有數(shù)據(jù)集PPM模塊中的距離閾值設(shè)置為0.8 m。
2.4.3 注意力頭數(shù)對(duì)預(yù)測(cè)誤差的影響
本文模型在空間維度引入多頭自注意力機(jī)制來(lái)分配行人之間社會(huì)交互影響權(quán)重,注意力頭數(shù)的選擇通常也會(huì)影響空間維度的建模效果,從而反映到預(yù)測(cè)精準(zhǔn)度問(wèn)題上。如表4所示,分別將注意力頭數(shù)設(shè)為1、2、3、4進(jìn)行四次實(shí)驗(yàn),從表4可知,注意力頭數(shù)設(shè)為2得到了最好的效果。當(dāng)頭數(shù)設(shè)置為4時(shí),頭數(shù)設(shè)置過(guò)多,增加了模型的復(fù)雜程度,更容易發(fā)生過(guò)擬合的情況,并且每個(gè)頭都會(huì)有各自的數(shù)據(jù)信息,過(guò)多的頭數(shù)會(huì)引入大量冗余信息,因此效果不佳。當(dāng)頭數(shù)設(shè)為1時(shí),由于單頭可能無(wú)法很好地考慮不同密度行人之間社會(huì)交互的多樣性,所以效果不佳。當(dāng)頭數(shù)設(shè)為3時(shí),也得到了不錯(cuò)的效果,但相比于2,多一個(gè)頭就會(huì)增加許多參數(shù),綜合考慮,STG-DTBTA將空間維度引入的多頭自注意力機(jī)制的頭數(shù)設(shè)置為2。
2.5 對(duì)比實(shí)驗(yàn)
2.5.1 TCN與雙向TCN的比較
本文在時(shí)間維度的建模過(guò)程中將基線(xiàn)模型中的單向TCN替換為雙向TCN,并通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證方案的可行性。如表5所示,雙向TCN具有更高的預(yù)測(cè)精度,因?yàn)殡p向結(jié)構(gòu)相比于單向結(jié)構(gòu)能夠更好地建模時(shí)間序列的長(zhǎng)期依賴(lài)性,同時(shí)利用過(guò)去和未來(lái)的上下文信息以捕捉全局特征。從表5可見(jiàn),相比于單向TCN,雙向TCN的FDE值平均降低了6%,證明雙向建模能夠提高預(yù)測(cè)精度。因此STG-DTBTA采用雙向TCN。
2.5.2 特征融合方法比較
在雙向TCN中,最初將輸入信息倒轉(zhuǎn)得到逆向信息輸入到網(wǎng)絡(luò)中以輸出正向特征和逆向特征。為了研究不同特征融合方式對(duì)預(yù)測(cè)精度的影響,本節(jié)使用四種不同的特征融合方法進(jìn)行一組實(shí)驗(yàn),具體來(lái)說(shuō),分別采用逐元素相加、逐元素相乘、元素平均和門(mén)控機(jī)制實(shí)現(xiàn)特征融合。如圖8所示,采用逐元素相乘方法融合特征的效果最差,而門(mén)控機(jī)制得到的效果最好。這證明借助sigmoid函數(shù)將特征中每個(gè)元素縮放到[0,1],并采用門(mén)控機(jī)制動(dòng)態(tài)有選擇地融合正、逆向特征的特征融合方式具有良好效果,因此本文采用門(mén)控機(jī)制進(jìn)行特征融合。
2.5.3 計(jì)算向量?jī)?nèi)積與余弦相似性方法的比較
STG-DTBTA在時(shí)間維度建模過(guò)程中引入自注意力機(jī)制,其中關(guān)鍵的一步是計(jì)算向量間的相似性,本節(jié)對(duì)兩種計(jì)算相似性的方法進(jìn)行比較。當(dāng)前大多數(shù)方法采用計(jì)算向量?jī)?nèi)積,但對(duì)于時(shí)間維度的時(shí)間序列數(shù)據(jù),1.4.1節(jié)中的2)闡述了該方式的局限性。另一種方法是計(jì)算兩者之間的余弦相似性,該方法主要關(guān)注向量間的方向與角度,對(duì)維度具有較小的敏感度,更適用于處理時(shí)間序列數(shù)據(jù)。如表6所示,計(jì)算余弦相似性的方法得到的ADE和FDE的平均值均小于計(jì)算向量?jī)?nèi)積的方法,證明計(jì)算余弦相似性能夠更好地表示向量之間的相似性,從而優(yōu)化軌跡預(yù)測(cè)的精度。因此,本文模型在時(shí)間注意力機(jī)制中采用計(jì)算余弦相似性的方法表示向量間的相似度。
2.5.4 不同模型參數(shù)量與推理時(shí)間的比較
本節(jié)對(duì)不同模型的參數(shù)量和推理時(shí)間展開(kāi)討論。如表7所示,本文模型的參數(shù)量與Social-STGCNN大致相同,小于其他模型且遠(yuǎn)小于Social LSTM;推理時(shí)間小于其他模型,但高于Social-STGCNN。綜上所述,本文模型提升了預(yù)測(cè)精確度的同時(shí)并未大幅增加模型參數(shù)量和推理時(shí)間。因此,可證明本文模型具有較輕量的模型結(jié)構(gòu)和較好的實(shí)時(shí)性。
2.6 定性分析
2.6.1 社會(huì)可接受軌跡生成
如圖9所示,在不同場(chǎng)景下對(duì)不同行人生成社會(huì)可接受的預(yù)測(cè)軌跡。圖(a)中目標(biāo)行人在行進(jìn)過(guò)程中改變行進(jìn)方向來(lái)躲避下方行人;圖(d)中目標(biāo)行人即將與上方行人碰撞,隨即從該行人后方繞行來(lái)避免碰撞;圖(e)中目標(biāo)行人先躲避了前方接近的行人,改變方向后防止與上方行人碰撞而再次避讓?zhuān)粓D(g)中目標(biāo)行人在多人場(chǎng)景中,向左轉(zhuǎn)避讓下方行人,并與該行人保持并排行進(jìn);圖(h)中目標(biāo)行人與下方行人的目的地相同,但在行進(jìn)過(guò)程中發(fā)生交互,防止碰撞而避讓。上述均為行人交互場(chǎng)景,從圖9可知STG-DTBTA預(yù)測(cè)出的軌跡基本符合實(shí)際情況,角度、方向與運(yùn)動(dòng)趨勢(shì)均有較好的預(yù)測(cè)效果。
圖(f)中目標(biāo)行人突然改變運(yùn)動(dòng)模式,做出急轉(zhuǎn)的行為,STG-DTBTA基本預(yù)測(cè)出了該急轉(zhuǎn)趨勢(shì)。同時(shí),其身后的行人發(fā)現(xiàn)目標(biāo)行人改變了運(yùn)動(dòng)模式,防止之后可能發(fā)生碰撞,也改變了自己的行進(jìn)方向,STG-DTBTA同樣預(yù)測(cè)出了該行人的軌跡變化。圖(b)為行人并排行走的情況,STG-DTBTA預(yù)測(cè)出的軌跡與實(shí)際情況基本重合,表示本文模型對(duì)于較為簡(jiǎn)單的行走模式具有更好的預(yù)測(cè)效果。圖(c)為多人復(fù)雜場(chǎng)景,該圖中存在多個(gè)行人且運(yùn)動(dòng)模式雜亂無(wú)章,存在多個(gè)交互情況,STG-DTBTA也基本預(yù)測(cè)出了場(chǎng)景中行人的軌跡走向。
2.6.2 多模態(tài)軌跡預(yù)測(cè)
如圖10所示,圖(a)(b)均反映的是行人交互場(chǎng)景,虛線(xiàn)圈起的目標(biāo)行人若按照原來(lái)的方向繼續(xù)行走,將會(huì)和行人發(fā)生碰撞,因此目標(biāo)行人調(diào)整方向避讓。圖中可見(jiàn)概率分布基本覆蓋行人未來(lái)的真實(shí)軌跡,深色區(qū)域的角度與方向也基本符合行人未來(lái)真實(shí)軌跡。圖(c)反映行人的運(yùn)動(dòng)模式發(fā)生改變,目標(biāo)行人行走一段時(shí)間后突然向左急轉(zhuǎn)彎,本文模型可以預(yù)測(cè)出其運(yùn)動(dòng)趨勢(shì),其概率分布的角度、方向也基本一致。圖(d)展示多人場(chǎng)景,STG-DTBTA預(yù)測(cè)出的行人軌跡概率分布基本符合實(shí)際情況。因此,本文模型在多模態(tài)軌跡預(yù)測(cè)問(wèn)題中同樣具有良好的表現(xiàn)。
3 結(jié)束語(yǔ)
本文提出STG-DTBTA模型預(yù)測(cè)行人軌跡。為了提高模型預(yù)測(cè)精準(zhǔn)度,本文設(shè)計(jì)了PPM模塊實(shí)現(xiàn)部分行人建模;引入時(shí)空注意力機(jī)制、采用雙向TCN進(jìn)行時(shí)空耦合建模。在ETH和UCY數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn),結(jié)果表明相對(duì)于其他模型,STG-DTBTA在A(yíng)DE和FDE的評(píng)估指標(biāo)上誤差更小,該方法在行人軌跡預(yù)測(cè)方面具有競(jìng)爭(zhēng)力,通過(guò)定性分析可知預(yù)測(cè)軌跡的概率分布以及社會(huì)可接受軌跡基本符合實(shí)際情況。在行人軌跡預(yù)測(cè)問(wèn)題中,本文模型通過(guò)改進(jìn)行人交互建模過(guò)程和時(shí)空維度建模過(guò)程,可以在預(yù)測(cè)未來(lái)時(shí)刻的軌跡時(shí)表現(xiàn)出較好的預(yù)測(cè)精確度,并具有較好的實(shí)時(shí)性。
本文模型在eth場(chǎng)景下不具有優(yōu)勢(shì),原因可能在于選取的距離閾值不適用于該場(chǎng)景。因此,后續(xù)工作中將探索能夠自適應(yīng)設(shè)置閾值的方法,對(duì)不同數(shù)據(jù)集自適應(yīng)設(shè)置各自的最佳距離閾值,在不影響模型參數(shù)量和實(shí)時(shí)性的情況下進(jìn)一步降低ADE和FDE的誤差。
參考文獻(xiàn):
[1]孔瑋, 劉云, 李輝, 等. 基于深度學(xué)習(xí)的行人軌跡預(yù)測(cè)方法綜述[J]. 控制與決策, 2021, 36(12): 2841-2850. (Kong Wei, Liu Yun, Li Hui, et al. Survey of pedestrian trajectory prediction methods based on deep learning[J]. Control and Decision, 2021, 36(12): 2841-2850.)
[2]張睿, 吳伯雄, 張麗園, 等. 復(fù)雜場(chǎng)景下行人軌跡預(yù)測(cè)方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(6): 138-143. (Zhang Rui, Wu Boxiong, Zhang Liyuan, et al. Human trajectory prediction method for complex scenes[J]. Computer Engineering and Applications, 2021, 57(6): 138-143.)
[3]Helbing D, Molnar P. Social force model for pedestrian dynamics[J]. Physical Review E, 1995, 51(5): 4282.
[4]Alahi A, Goel K, Ramanathan V, et al. Social LSTM: human trajectory prediction in crowded spaces[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 961-971.
[5]Zhang Pu, Ouyang Wanli, Zhang Pengfei, et al. SR-LSTM: state refinement for LSTM towards pedestrian trajectory prediction[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition. Piscataway, NJ: IEEE Press, 2019: 12085-12094.
[6]Sun Hanbing, Chen Runfa, Liu Tianyu, et al. LG-LSTM: modeling LSTM-based interactions for multi-agent trajectory prediction[C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2022: 1-6.
[7]Gupta A, Johnson J, Li Feifei, et al. Social GAN: socially acceptable trajectories with generative adversarial networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2255-2264.
[8]Sadeghian A, Kosaraju V, Sadeghian A, et al. SoPhie: an attentive GAN for predicting paths compliant to social and physical constraints[C]// Proc of IEEE/CVF Conference on Computer Visionand Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1349-1358.
[9]Kothari P, Alahi A. Safety-compliant generate adversarial networks for human trajectory forecasting[J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24(4): 4251-4261.
[10]李文禮, 張祎楠, 王夢(mèng)昕. 基于視野域機(jī)制的行人軌跡預(yù)測(cè)[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(1): 80-85. (Li Wenli, Zhang Yinan, Wang Mengxin. Pedestrian trajectory prediction based on field of view mechanism[J]. Application Research of Computers, 2023, 40(1): 80-85.)
[11]Yu Cunjun, Ma Xiao, Ren Jiawei, et al. Spatio-temporal graph transformer networks for pedestrian trajectory prediction[C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer, 2020: 507-523.
[12]趙懂宇, 王志建, 宋程龍. 基于Informer算法的網(wǎng)聯(lián)車(chē)輛運(yùn)動(dòng)軌跡預(yù)測(cè)模型[J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(4): 1029-1033. (Zhao Dongyu, Wang Zhijian, Song Chenglong. Model of predicting motion trajectory of connected vehicles based on Informer algorithm[J]. Application Research of Computers, 2024, 41(4): 1029-1033.)
[13]Mohamed A, Qian Kun, Elhoseiny M, et al. Social-STGCNN: a social spatio-temporal graph convolutional neural network for human trajectory prediction[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 14412-14420.
[14]Sun Jianhua, Jiang Qinhong, Lu Cewu. Recursive social behavior graph for trajectory prediction [C]// Proc of" IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 657-666.
[15]Kosaraju V, Sadeghian A, Martín-Martín R, et al. Social-BiGAT: multimodal trajectory forecasting using bicycle-GAN and graph attention networks[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 137-146.
[16]陳浩東, 紀(jì)慶革. 用于行人軌跡預(yù)測(cè)的場(chǎng)景限制時(shí)空?qǐng)D卷積網(wǎng)絡(luò)[J]. 中國(guó)圖象圖形學(xué)報(bào), 2023, 28(10): 3163-3175. (Chen Haodong, Ji Qingge. Scene-constrained spatial-temporal graph convolutional network for pedestrian trajectory prediction[J]. Journal of Image and Graphics, 2023, 28(10): 3163-3175.)
[17]Zhang Xingchen, Abgeloudis P, Demiris Y. Dual-branch spatio-temporal graph neural networks for pedestrian trajectory prediction[J]. Pattern Recognition, 2023, 142: 109633.
[18]Liu Yanran, Guo Hongyan, Meng Qingyu, et al. Spatial-temporal graph attention network for pedestrian trajectory prediction[C]// Proc of the 6th CAA International Conference on Vehicular Control and Intelligence. Piscataway, NJ: IEEE Press, 2022: 1-6.
[19]Pellegrini S, Ess A, Van Gool L. Improving data association by joint modeling of pedestrian trajectories and groupings[C]// Proc of the 11th European Conference on Computer Vision. Berlin: Springer, 2010: 452-465.
[20]Yan Dapeng, Ding Gangyi, Huang Kexiang, et al. Enhanced crowd dynamics simulation with deep learning and improved social force model [J]. Electronics, 2024, 13(5): 934.
[21]Huang Yingfan, Bi Huikun, Li Zhaoxin, et al. STGAT: modeling spatial-temporal interactions for human trajectory prediction[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 6271-6280.
[22]吳家皋, 章仕穩(wěn), 蔣宇棟, 等. 基于狀態(tài)精細(xì)化長(zhǎng)短期記憶和注意力機(jī)制的社交生成對(duì)抗網(wǎng)絡(luò)用于行人軌跡預(yù)測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2023, 43(5): 1565-1570. (Wu Jiagao, Zhang Shiwen, Jiang Yudong, et al. Social-interaction GAN for pedestrian trajectory prediction based on state-refinement long short term memory and attention mechanism[J]. Journal of Computer Applications, 2023, 43(5): 1565-1570.)
[23]Mo Haojie, Yuan Quan, Luo Guiyang, et al. WR-SRPG: joint wal-king rhythm and social relation-potential for pedestrian trajectory prediction[C]// Proc of IEEE International Intelligent Transportation Systems Conference. Piscataway, NJ: IEEE Press, 2021: 1890-1897.