陳浩東,紀慶革
1.中山大學計算機學院,廣州 510006;2.廣東省大數(shù)據(jù)分析與處理重點實驗室,廣州 510006
行人軌跡預測是汽車自動駕駛、社交機器人及安全監(jiān)控領(lǐng)域內(nèi)一項至關(guān)重要的任務(wù)。例如,當無人駕駛汽車在車道上行駛時,需根據(jù)車載攝像頭拍攝周圍人群和場景,經(jīng)系統(tǒng)數(shù)據(jù)提煉后對周圍行人的未來路徑進行預測,從而調(diào)整速度和方向,避免發(fā)生交通事故。行人軌跡預測的本質(zhì)為根據(jù)行人過去一段時間內(nèi)產(chǎn)生的軌跡坐標,預測未來一段時間內(nèi)的行人路徑。
由于人類并不是按照特定程序執(zhí)行命令的機器人,人類運動和行為并不能由一段復雜的數(shù)據(jù)公式來解釋。行人軌跡規(guī)劃具有確定性和隨機性。確定性可解釋為無論中間路徑會發(fā)生什么樣的偏移,行人仍會抵達最終目的地。隨機性可解釋為行人之間相互依賴,目標行人規(guī)劃未來路徑時會考慮周圍行人的位置、行為和外貌狀態(tài)等因素,根據(jù)社交禮儀和本地習俗等調(diào)整中間過程速度大小和方向。
隨著行人軌跡預測領(lǐng)域的不斷發(fā)展,行人空間交互對行人軌跡的調(diào)整作用得到了學者們的大量研究,例如社會力模型(social force model)(Helbing 和Molnár,1995)建模行人之間因為相同目的地產(chǎn)生的引力以及為了避免碰撞而產(chǎn)生的斥力,社會長短期記憶網(wǎng)絡(luò)(social long short-term memory,Social LSTM)(Alahi 等,2016)提出社會池模塊建模目標行人空間特征受周圍行人空間交互行為的影響,然而行人在前行過程中除了會考慮動態(tài)代理(行人、車輛等)的物理特征外,還會基于周圍靜態(tài)事物(如建筑物、草坪等)調(diào)整自身運動規(guī)劃,避免發(fā)生碰撞。場景元素對行人軌跡的調(diào)整作用是不可忽視的。有學者對結(jié)合場景的行人軌跡預測方法進行了初步研究,如深度隨機循環(huán)神經(jīng)網(wǎng)絡(luò)編碼器—解碼器(deep stochastic recurrent neural network,DESIRE)(Lee 等,2017)、符合社會注意力和物理注意力的生成對抗網(wǎng)絡(luò)Sophie(Sadeghian 等,2019)和多生成器模型(multi-generator model,MG-GAN)(Dendorfer等,2021a)。Sophie 提出物理注意力機制來建模場景限制作用,社會注意力機制來建模行人限制作用。MG-GAN 在Sophie 的基礎(chǔ)上使用路徑模式網(wǎng)絡(luò)來建模軌跡多模態(tài)性。這些方法通常將場景圖像展平后通過多層感知機來生成場景特征。然而,展平操作會破壞場景空間性質(zhì),無法充分利用場景空間信號所包含的隱藏有利信息,同時也無法直觀地解釋場景對行人運動的調(diào)節(jié)作用。
為了更直觀地捕獲行人運動所具備的空間屬性以及行人交互相關(guān)依賴性,有學者提出基于圖注意力網(wǎng)絡(luò)(Kosaraju 等,2019)的方法,將行人作為圖節(jié)點,行人軌跡特征作為節(jié)點屬性,行人之間的空間交互作為圖中的邊,以此來建立行人時空圖表示。這類方法依賴于圖表示來建模場景下行人之間的社會交互,能直觀、自然且有效地建模行人之間的空間交互行為。GAT(graph attention network)編碼不同行人對目標行人的影響權(quán)重因子,然后將權(quán)重因子與行人運動特征對應相乘,旨在學習全局模式下行人間的社會交互。然而,在擁擠場景下,由于人群密度過大和社會交互更為復雜,基于注意力機制的時空圖神經(jīng)網(wǎng)絡(luò)可能會發(fā)生權(quán)重分配紊亂現(xiàn)象,導致精度不佳。
為了解決以上兩個局限性,本文提出受場景限制的時空圖卷積神經(jīng)網(wǎng)絡(luò)(scene-constrained spatial temporal graph convolutional neural network,Scene-STGCNN)。該模型是一種可訓練的端到端的深度學習模型。為了解決基于圖注意力機制的時空圖神經(jīng)網(wǎng)絡(luò)具有的局限性,Scene-STGCNN 以圖卷積神經(jīng)網(wǎng)絡(luò)代替圖注意力機制作為主體框架,對場景下行人速度時空圖表示進行時間和空間雙通道卷積編碼操作,更關(guān)注局部模式下行人空間交互的相互關(guān)聯(lián)性以及行人動態(tài)信息的上下文依賴關(guān)系。為了解決結(jié)合場景信息的方法無法直觀解釋場景對行人運動的調(diào)節(jié)作用的問題,本文設(shè)計了一個基于場景的微調(diào)模塊,該模塊以手工制作的場景特征(場景塊內(nèi)語義變化面積占場景塊總面積比例)為輸入,通過對其在空間通道做卷積操作,自適應地提取出能有效調(diào)整行人運動特征的場景特征表示。該模塊對人—場景交互進行顯式建模,旨在學習場景語義對行人運動行為的實時性調(diào)節(jié)作用。
本文在公開數(shù)據(jù)集ETH(Pellegrini 等,2010)和UCY(Lerner 等,2007)上進行實驗,并通過移除基于場景的微調(diào)模塊驗證其在學習場景對行人軌跡的調(diào)節(jié)能力上廣泛的有效性。實驗結(jié)果表明,Scene-STGCNN 在行人軌跡預測任務(wù)中相較于幾種基準方法取得了明顯的優(yōu)勢,獲得了顯著的精度提升。
本文主要貢獻如下:1)提出一種用于行人軌跡預測的場景限制時空圖卷積網(wǎng)絡(luò)Scene-STGCNN,基于時空圖卷積交換,融合行人時空特征。與基于圖注意力機制的時空圖神經(jīng)網(wǎng)絡(luò)相比,其更關(guān)注局部模式下的行人運動,實現(xiàn)更加精確的預測;2)設(shè)計了一種基于場景的微調(diào)模塊,顯式建模場景對行人運動的調(diào)節(jié)作用,解決了結(jié)合場景信息的軌跡預測方法無法直觀解釋場景對行人運動的調(diào)節(jié)作用的問題;3)公開數(shù)據(jù)集ETH 和UCY 上的實驗結(jié)果表明,Scene-STGCNN相比于其他方法達到了最優(yōu)結(jié)果。
行人軌跡預測領(lǐng)域引入了許多以行人運動數(shù)據(jù)為基礎(chǔ)、建模行人社會交互的方法。前期的工作大多為基于手工定制特征的方法。社會力模型以封閉形式的數(shù)學模型建模了兩種力:目的地對行人的吸引力和行人之間的排斥力。經(jīng)濟學領(lǐng)域內(nèi)的離散選擇模型(discrete choice model)(Antonini 等,2006)也在行人軌跡預測領(lǐng)域中得到應用。除此之外,還有高斯過程(Gaussian process)(Tay 和Laugier,2007)、基于代理的行為模型(agent-based behavioral model)(Yamaguchi 等,2011)等方法?;谑止ざㄖ铺卣鞯哪P褪歉鶕?jù)特定規(guī)則或減少能量消耗建模行人間的社會交互行為,然而,在擁擠場景下,由于社會交互的大規(guī)模和復雜性,其可能無法實現(xiàn)有效、精確地預測。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在機器翻譯、語音識別和自然語言處理等領(lǐng)域表現(xiàn)出優(yōu)秀性能,它也被引入到行人軌跡預測領(lǐng)域。人群交互深度神經(jīng)網(wǎng)絡(luò)(crowd interaction deep neural network,CIDNN)(Xu 等,2018)設(shè)計了基于RNN 的運動編碼模塊編碼行人權(quán)重。社會生成對抗網(wǎng)絡(luò)(social generative adversarial network,Social GAN)(Gupta 等,2018)在Social LSTM 基礎(chǔ)上使用生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)建模軌跡的多模態(tài)性,并通過多樣性損失(variety loss)進一步加強模型的多模態(tài)學習能力。時空圖注意力網(wǎng)絡(luò)(spatial-temporal graph attention network,STGAT)(Huang 等,2019)基于行人時空圖表示使用圖注意力機制來建模社會交互。Trajectron(Ivanovic 和Pavone,2019)基于圖結(jié)構(gòu)通過RNN 編碼行人運動特征。除此之外,還有一些經(jīng)典的社會交互建模方法,如社會路模型(Amirian 等,2019)、預測終點條件網(wǎng)絡(luò)(predicted endpoint conditioned network,PECNet)(Mangalam 等,2020)以及時空圖變換框架(spatio-temporal graph Transformer framework,STAR)(Yu 等,2020)等,它們使用圖注意力網(wǎng)絡(luò)或多頭注意力機制建模社會交互。
圖注意力機制由于其給圖節(jié)點分配重要性權(quán)重的特性在許多領(lǐng)域均有應用,如幫助醫(yī)生快速識別輕重癥患者的結(jié)構(gòu)圖注意力網(wǎng)絡(luò)(劉彥北 等,2022)、基于圖注意力網(wǎng)絡(luò)的場景圖到圖像生成模型(蘭紅和劉秦邑,2020)。行人運動的時空屬性讓學者們想到構(gòu)建行人時空圖結(jié)構(gòu)來建模行人的社會交互。圖注意力機制通過編碼行人時空圖給不同行人分配權(quán)重因子,旨在學習全局模式下行人間的社會交互。然而在擁擠場景下,其可能會發(fā)生權(quán)重分配紊亂現(xiàn)象,導致精度不理想。隨著時空圖卷積神經(jīng)網(wǎng)絡(luò)(spatiotemporal graph convolutional neural network,ST-GCNN)(Yan 等,2018)的出現(xiàn),上述問題得到了很好的解決。社會時空圖卷積神經(jīng)網(wǎng)絡(luò)(Social STGCNN)(Mohamed 等,2020)首先在數(shù)據(jù)預處理階段將行人速度制作為時空圖和基于速度的鄰接矩陣,之后使用時間圖卷積神經(jīng)網(wǎng)絡(luò)和時間外推卷積神經(jīng)網(wǎng)絡(luò)(Lea 等,2017)來建模局部模式下的行人交互。
本文提出的Scene-STGCNN 與Social STGCNN類似,但不同的是,在空間編碼階段,Social STGCNN只有面向行人速度的ST-GCNN,Scene-STGCNN 除了面向行人速度的運動模塊,還包括基于場景的微調(diào)模塊,實時地調(diào)節(jié)運動模塊生成的中間運動特征。除此之外,在中間階段,本文設(shè)計了一種時空卷積作為過渡編碼網(wǎng)絡(luò),而Social STGCNN并未采取任何措施實現(xiàn)空間編碼階段到時間編碼階段的過渡。最后,在時間編碼階段,Scene-STGCNN 使用了Social STGCNN 的時間外推卷積,不同的是,Social STGCNN 將時間外推卷積的層數(shù)設(shè)置為5,而Scene-STGCNN 簡單地設(shè)置為1,本文認為過多層數(shù)的時間外推卷積可能會模糊行人軌跡差異,增加算法預測損失。
在實際場景下,同一空間中除了相互運動依賴的行人還有靜態(tài)事物,如:草坪、周圍建筑物等。同時考慮行人以及靜態(tài)事物對目標行人的運動影響可以使得算法更具實際場景下的適用性,然而,很少有工作考慮到場景對于行人運動的調(diào)節(jié)作用(如行人空間位置無法出現(xiàn)在建筑物墻壁之中,行人軌跡在建筑物拐角處發(fā)生大幅度的方向偏轉(zhuǎn)等)。而考慮到場景因素的方法,如Sophie、Goal-GAN(Dendorfer等,2021b)、Trajectron++(Salzmann等,2020)和Y-Net(Mangalam 等,2021),僅僅將場景特征與運動特征做合并處理,無法直觀、直接地解釋場景對行人運動的調(diào)節(jié)作用。本文對場景與人交互行為的研究旨在設(shè)計一種基于場景的微調(diào)模塊,能顯式建模場景對行人運動的調(diào)節(jié)作用,進而減少模型在實際場景下的預測損失,生成更多實際可行的軌跡。
行人有一種來源于長久積累經(jīng)驗的直覺能力?;谶@一能力,行人在行進過程中能根據(jù)行人間的社會交互(如碰撞避免、群體移動)規(guī)劃未來路徑。除此之外,行人會根據(jù)場景因素(如周邊建筑、草坪)對未來路徑做實時性調(diào)節(jié)?,F(xiàn)有的方法大多數(shù)關(guān)注于社會交互的構(gòu)建,只有少數(shù)方法考慮到場景與行人之間的交互,而這種考慮往往是將深度神經(jīng)網(wǎng)絡(luò)編碼后的場景圖像展平之后與運動特征合并,破壞了場景空間信號,無法直觀、直接地解釋場景對行人未來路徑的調(diào)整作用。為了解決這一問題,本文提出了一種結(jié)合場景限制的時空圖卷積架構(gòu)。這一節(jié)首先介紹行人軌跡預測定義,然后詳細描述模型架構(gòu)。
Scene-STGCNN 模型主要由4 部分組成,分別為運動模塊、基于場景的微調(diào)模塊、時空卷積和時間外推卷積。對于行人運動時空圖,運動模塊對其做運動編碼。對于語義變化時空圖,基于場景的微調(diào)模塊將其嵌入為場景掩模矩陣,從而調(diào)節(jié)中間運動特征。時空卷積作為過渡編碼網(wǎng)絡(luò)進一步加強運動特征的時間相關(guān)性。最后時間外推卷積輸出不同未來幀的速度分布。模型架構(gòu)如圖1所示。
圖1 Scene-STGCNN模型架構(gòu)Fig.1 Scene-STGCNN model framework
2.2.1 行人時空圖
首先介紹行人時空圖結(jié)構(gòu),行人作為圖節(jié)點,行人之間的社會交互作為圖中的邊,行人運動信息(如位置、速度)或場景信息(如語義面積變化占比)作為節(jié)點屬性。當節(jié)點屬性為速度時,行人時空圖結(jié)構(gòu)如圖2所示。
圖2 行人時空圖結(jié)構(gòu)Fig.2 Pedestrian spatial-temporal graph structure
基于行人時空圖結(jié)構(gòu)的聚合或卷積操作實質(zhì)上是在局部模式下的屬性特征提取,通過提取關(guān)鍵特征,可以有效減少算法預測損失。
2.2.2 運動模塊
獲得鄰接矩陣VAM 后,還需對其正規(guī)化處理,具體為
基于行人速度時空圖,運動模塊通過圖卷積操作提取局部行人運動特征,這一操作不改變時空圖結(jié)構(gòu),只會改變節(jié)點屬性。對于定義在行人運動特征上的圖卷積操作為
式中,l表示卷積層序號,B(vi)={vj|d(vi,vj) 值得注意的是,式(5)中vi并非只表示行人i在2 維空間中的速度,它還表示圖卷積編碼后的多維運動特征。殘差卷積在圖卷積的基礎(chǔ)上增加了BN(BatchNorm)層來將運動特征做歸一化處理。時間卷積沿用了Social STGCNN(Mohamed 等,2020)的設(shè)置,由BN 層、PReLU(parametric rectified linear unit)激活函數(shù)、圖卷積、BN 層和Dropout 層組成。注意,本文中所提的圖卷積本質(zhì)上為非固定形狀的卷積層,可以有不同的輸入通道數(shù)、輸出通道數(shù)、卷積核大小和填充長度,其針對行人速度時空圖做空間通道上的節(jié)點屬性聚合和交換。 2.2.3 基于場景的微調(diào)模塊 式中,∑表示對布爾矩陣的求和,⊕表示不同布爾矩陣之間的異或運算,M表示布爾矩陣的面積(與場景塊面積相同,固定不變)。 式中,si并非只表示行人i所對應的語義變化面積占比,它還表示場景卷積編碼后的場景特征,B(si)={sj|d(si,sj) 2.2.4 時空卷積 在運動模塊中,中間行人運動特征與基于場景的微調(diào)模塊編碼后的場景掩模矩陣做逐元素相乘,之后通過時間卷積與殘差卷積編碼后的運動特征做求和操作,最后輸入到時空卷積中。運動模塊與基于場景的微調(diào)模塊僅在對應特征的空間通道執(zhí)行卷積操作,而時間外推卷積僅在對應特征的時間通道執(zhí)行卷積操作,本文認為,中間需要有個網(wǎng)絡(luò)來實現(xiàn)過渡。受交通預測領(lǐng)域中的STGCN(spatial temporal graph convolutional network)方法(Yu 等,2018)啟發(fā),將STGCN 微調(diào)之后作為時空卷積應用到行人軌跡預測中,作為過渡編碼網(wǎng)絡(luò)對行人特征做卷積操作。時空卷積結(jié)構(gòu)如圖3 所示。時間門控單元對不同時刻的行人特征執(zhí)行卷積操作從而輸出掩模矩陣,掩模矩陣與行人特征做元素對應相乘從而加強算法在時間維度上的敏感度??臻g卷積對不同行人的空間特征執(zhí)行卷積操作從而加強行人之間的空間依賴。 圖3 時空卷積結(jié)構(gòu)Fig.3 Spatial-temporal convolutional structure 2.2.5 時間外推卷積 時空卷積的功能是加強行人特征的時空關(guān)聯(lián),然而,算法的目的是為了預測未來一段時間內(nèi)行人軌跡所服從的2 維高斯分布,時間外推卷積在此發(fā)揮作用。時間外推卷積直接作用于時空圖結(jié)構(gòu)的行人特征,將其時間維度擴展到所要預測的時間段長度。時間外推卷積由空間卷積、PReLU 激活函數(shù)和空間卷積組成,其中,第1 層空間卷積為輸入通道數(shù)Tobs,輸出通道數(shù)Tpred的3 × 3 卷積層,第2 層空間卷積為輸入通道數(shù)Tpred,輸出通道數(shù)Tpred的3 × 3 卷積層。時間外推卷積依賴于特征空間上的卷積操作,直接操作于輸入特征的時間維度,與常見的遞歸神經(jīng)網(wǎng)絡(luò)相比,包含的訓練參數(shù)量更少、推理更快。 此外,受水湖泊生物的種群密度也是常用的評估指標,包括浮游動植物以及底棲生物的數(shù)量與生物量。富營養(yǎng)化湖泊藍藻密度的減少是反映引水調(diào)控工程對湖泊水生態(tài)改善的直接指標,而部分藻類攝食性浮游動物數(shù)量的增加也能夠體現(xiàn)引水工程對湖泊水生態(tài)的間接改善作用。底棲動物群落通常用來表征湖泊水生態(tài)健康,其數(shù)量與生物量的改變也被視為引水對湖泊生態(tài)影響的重要指標。 Scene-STGCNN 由運動模塊、基于場景的微調(diào)模塊、時空卷積和時間外推卷積構(gòu)成。對于模型配置,時間外推卷積層數(shù)設(shè)置為1,場景語義類別數(shù)設(shè)置為2(障礙物和通道),本文將場景塊形狀設(shè)置為正方形,在定量分析部分,基于不同長度場景塊條件下的對比實驗,采取最優(yōu)設(shè)置,將場景塊長度設(shè)置為64。在訓練階段,設(shè)置批大小為64,訓練輪數(shù)為200,使用Adam 作為優(yōu)化器,同時設(shè)置學習率為0.001。本文方法代碼的實現(xiàn)基于PyTorch 框架,顯卡型號為NVIDIA GeForce RTX 2080。 為了驗證Scene-STGCNN 性能,本文在行人軌跡預測領(lǐng)域內(nèi)兩大公開數(shù)據(jù)集ETH(Pellegrini 等,2010)和UCY(Lerner 等,2007)上進行實驗。在俯視視角下拍攝的社會場景視頻經(jīng)過先進的視覺跟蹤技術(shù)被提煉出表示行人位置坐標的時間序列,形成ETH 和UCY 數(shù)據(jù)集。ETH 數(shù)據(jù)集包含ETH 和HOTEL 兩個子數(shù)據(jù)集,UCY 數(shù)據(jù)集包含ZARA1、ZARA2 和UNIV 這3 個子數(shù)據(jù)集。ETH 和UCY 數(shù)據(jù)集覆蓋了多種運動模式,如群體移動、碰撞避免和行人跟隨等,符合實際場景下大部分行人行為情況。 令Yi=表示第i位行人從h+1到T時刻的真實軌跡,為對應的預測軌跡。本文使用兩個基于距離的誤差指標來評估模型性能。 平均位移誤差(average displacement error,ADE)表示預測時間段內(nèi)預測坐標與真實坐標的平均歐氏距離,計算為 最終位移誤差(final displacement error,F(xiàn)DE)表示最終預測時刻預測坐標與真實坐標之間的歐氏距離,計算為 模型測試后所得到的ADE 和FDE 越小則表示方法性能越好。鑒于其他主流方法在測試階段都采用了20 個樣本中取最優(yōu)的設(shè)置,本文所有實驗也將使用此設(shè)置,后續(xù)不再說明。 3.3.1 對比實驗 首先,為了獲取在數(shù)據(jù)預處理階段場景塊大小的最優(yōu)值,在主流公開數(shù)據(jù)集ETH 和UCY 上對不同場景塊半長的Scene-STGCNN 進行對比實驗,取平均值作為最終結(jié)果,實驗結(jié)果如表1 所示??傮w上,不同場景塊半長的模型之間性能差別很小,本文認為導致這一結(jié)果的原因為行人在行進過程中可觀測視野有限,不同大小的視野能注入的有用場景信息差別很小,因此不同半長條件下的模型測試得到的ADE 和FDE 相差很小,ADE 在0.38~0.40 區(qū)間內(nèi),F(xiàn)DE 在0.60~0.62 區(qū)間內(nèi)。最優(yōu)結(jié)果對應的場景塊半長為64,模型取最優(yōu)設(shè)置。 表1 不同場景塊半長的對比實驗結(jié)果Table 1 Comparative experiment of different half-lengths 為了驗證Scene-STGCNN 模型性能,本文在主流公開數(shù)據(jù)集ETH 和UCY 上與當前主流方法進行對比實驗,實驗結(jié)果如表2所示。 表2 ETH和UCY數(shù)據(jù)集上的對比實驗結(jié)果Table 2 Comparative experiment on ETH and UCY datasets 總體上,相較于其他主流方法,Scene-STGCNN的性能達到了最優(yōu)。對于ADE指標,Scene-STGCNN達到了0.38,相比于次優(yōu)的0.43 減少了12%。對于FDE 指 標,Scene-STGCNN 達到了0.60,相比于Causal-STGCNN 取得的次優(yōu)結(jié)果0.66,改進幅度為9%。對于不同數(shù)據(jù)集上的ADE 和FDE 指標,本文所提出的Scene-STGCNN 除了在HOTEL 數(shù)據(jù)集上沒有達到最優(yōu)結(jié)果之外,在其余數(shù)據(jù)集上均達到了最優(yōu),這是由于HOTEL 數(shù)據(jù)集包含了大量的線性軌跡,而Scene-STGCNN 的網(wǎng)絡(luò)結(jié)構(gòu)決定了其預測軌跡很難呈現(xiàn)線性狀態(tài)。值得注意的是,在ETH 數(shù)據(jù)集上,本文方法在FDE 指標上達到了0.77,相比于Social STGCNN,實現(xiàn)了31%的改進幅度,這是因為本文使用了基于場景的微調(diào)模塊來建模場景對行人軌跡的調(diào)節(jié)作用,同時還設(shè)計了時空卷積來增強運動特征的時間相關(guān)性和空間依賴。除此之外,從表2 中可看出,本文方法在ETH 數(shù)據(jù)集上所取得的FDE 指標也顯著優(yōu)于其他主流方法,同時本文方法在UNIV 數(shù)據(jù)集上取得的最優(yōu)ADE 和最優(yōu)FDE 表明,即便是擁擠場景下的行人運動,Scene-STGCNN也能做出比較精確的預測。 一個能應用在實際領(lǐng)域的模型需要在保持輕量級的同時還具備較高的性能。在實際生活中,模型參數(shù)總量不能超過具體應用設(shè)備的存儲上限,否則無法開展大規(guī)模應用。一個優(yōu)秀的行人軌跡預測方法除了達到較低的預測誤差之外,其網(wǎng)絡(luò)參數(shù)總量也要保持較低水平。為了驗證Scene-STGCNN 在這一方面的表現(xiàn),將Scene-STGCNN 與一些主流方法進行比較,結(jié)果如表3 所示,其中,預測誤差為不同方法在ETH 和UCY 上的平均值。Scene-STGCNN 模型的參數(shù)總量為3 KB,相較于次優(yōu)的Social STGCNN 模型的參數(shù)總量7.6 KB,減少了61%,而其余方法網(wǎng)絡(luò)參數(shù)總量遠遠超過10 KB。除此之外,Scene-STGCNN 在ETH 和UCY 數(shù)據(jù)集上所取得的預測誤差也是最優(yōu)的。值得注意的是,Sophie 的參數(shù)總量為26 230.9 KB,約為25.6 MB,遠遠超過了其余方法的參數(shù)總量。這些結(jié)果說明了本文所設(shè)計的Scene-STGCNN 方法在將參數(shù)總量保持在一個低水平的條件下還能實現(xiàn)較低的預測誤差,證實了本文方法的優(yōu)越性。 表3 不同方法模型參數(shù)總量和預測誤差對比Table 3 Comparison of parameters count and predictions errors of different methods 3.3.2 消融實驗 為了驗證本文設(shè)計的基于場景的微調(diào)模塊能幫助模型理解場景與人之間的交互行為,從而實現(xiàn)更精確的預測,本文在公開數(shù)據(jù)集ETH 和UCY 上進行了Scene-STGCNN與Scene-STGCNN*(移除基于場景的微調(diào)模塊之后的Scene-STGCNN)的對比實驗,實驗結(jié)果如表4 所示??傮w上,Scene-STGCNN 表現(xiàn)優(yōu)于Scene-STGCNN*。就具體數(shù)據(jù)集來分析,在ETH數(shù)據(jù)集上,Scene-STGCNN 表現(xiàn)顯著優(yōu)于Scene-STGCNN*,ADE 和FDE 分別減少了19%和46%,在HOTEL、UNIV 和ZARA1數(shù)據(jù)集上,兩個方法表現(xiàn)幾乎相同,在ZARA2 數(shù)據(jù)集上,本文方法Scene-STGCNN 相較于Scene-STGCNN*在ADE 指標上取得了7%的改進幅度,在FDE 指標上取得了6%的改進幅度。本文認為導致這一現(xiàn)象的原因是ETH 數(shù)據(jù)集對應場景中建筑物占了很大的空間比例,所以行人在考慮路徑時會很大程度地考慮場景元素的影響,因此在ETH 數(shù)據(jù)集上優(yōu)化效果較為顯著,而其余數(shù)據(jù)集對應場景比較空曠,場景對于行人軌跡的空間限制作用很小甚至沒有,所以行人在規(guī)劃未來路徑時不會過多考慮場景元素,導致在其余4 個數(shù)據(jù)集上兩個方法表現(xiàn)接近甚至相同。 表4 基于場景的微調(diào)模塊的消融實驗Table 4 Ablation experiment of scene-based fine-tuning module 定量分析中的對比實驗結(jié)果表明,就ADE 和FDE指標而言,本文提出的Scene-STGCNN相對于其他主流方法達到最優(yōu)表現(xiàn)。同時消融實驗顯示,基于場景的微調(diào)模塊能很好地建模場景對行人運動行為的調(diào)節(jié)作用。本節(jié)對Scene STGCNN 如何捕獲行人運動的內(nèi)在模式以及如何考慮預測分布展開定性分析。首先展示Social-STGCNN(Mohamed等,2020)與本文方法Scene-STGCNN 在不同運動模式下的可視化結(jié)果,如圖4所示。 圖4 不同運動模式下的可視化結(jié)果對比Fig.4 Comparison of visualization in different motion mode((a)collision avoidance;(b)group movement;(c)pedestrian merging) 圖4(a)展示了兩種方法在碰撞避免模式下的表現(xiàn),兩種不同的顏色代表兩位行人,通過歷史軌跡和真實未來軌跡可觀察到兩位行人在前進過程中都處在彼此的視野范圍內(nèi),為了避免碰撞,他們的未來運動更偏向于繞過對方。Social STGCN 并沒有很好地學習到這一“繞過”行為,具體表現(xiàn)在,對于藍色代表的行人,Social STGCNN 預測的軌跡分布很大程度地覆蓋了紅色代表行人的預測軌跡分布,對比而言,Scene-STGCNN 預測兩位行人的軌跡分布的交集面積較小,因此生成的行人軌跡能在很高程度上詮釋“繞過”行為。圖4(b)展示了兩種方法在群體移動模式下的表現(xiàn),兩種方法預測的軌跡分布都很好地再現(xiàn)出并列行走的模式,但對于藍色行人,Scene-STGCNN 預測的軌跡分布與真實未來軌跡更加貼合,預測更加精確。圖4(c)展示的是對應于行人合并模式下兩種方法的不同表現(xiàn),與Social STGCNN對比,Scene-STGCNN 預測的對應兩位行人的軌跡分布區(qū)域較細,因此與真實未來軌跡更接近,然而分別對應于兩位行人的預測分布區(qū)域存在小面積的重疊部分,這與兩條真實軌跡所表現(xiàn)的無相交現(xiàn)象不符。 綜上所述,對于在碰撞避免、群體移動、行人合并這3 種運動模式下的行人運動,相比于Social STGCNN,本文方法Scene-STGCNN 預測的軌跡分布都與真實未來軌跡更加貼合,同時在碰撞避免和群體移動模式下能更有效地學習到行人的行為表現(xiàn),驗證了本文方法精確的預測表現(xiàn)和高學習能力。 為了進一步理解Scene-STGCNN 如何生成軌跡樣本,本文基于Scene-STGCNN 在群體移動、碰撞避免和行人跟隨運動模式下的預測軌跡分布生成多條軌跡樣例,通過在對應場景下行人軌跡的可視化進行具體分析,可視化結(jié)果如圖5 所示。第1—4行分別代表真實軌跡、接近真實的預測軌跡樣例、方向有較大誤差的預測軌跡樣例和速度有較大誤差的預測軌跡樣例。對于群體移動模式下的接近并行的行人軌跡曲線,從第2—4 行展示的預測未來軌跡曲線都高程度地表現(xiàn)出并行狀態(tài),然而,與第1 行中展示的真實未來軌跡相比,第3 行中藍色行人的預測未來軌跡方向有微小偏轉(zhuǎn),呈現(xiàn)出靠墻行走的現(xiàn)象。對于碰撞避免下展現(xiàn)“繞過”行為的行人,從第2—4 行展示的預測未來軌跡高度還原了這一行為狀態(tài),但在第3 行中,淺藍色行人“繞過”角度過大,幾乎與建筑物發(fā)生碰撞。行人跟隨運動模式下第3 行中紅色行人預測未來軌跡與第1 行紅色真實未來軌跡相比,呈現(xiàn)出幅度較大的方向變化。除此之外,在群體移動、碰撞避免或行人跟隨運動模式下,第4 行中至少有1 位行人的預測未來軌跡,相對于真實未來軌跡發(fā)生了速度大小的改變。 圖5 Scene-STGCNN生成的軌跡樣例Fig.5 Samples trajectories generated by Scene-STGCNN((a)group movement;(b)collision avoidance;(c)pedestrian follow) 本文提出了一種用于行人軌跡預測的場景限制時空圖卷積神經(jīng)網(wǎng)絡(luò)Scene-STGCNN,基于時空圖卷積編碼行人時空圖表示,旨在學習局部模式下的行人交互。Scene-STGCNN 通過設(shè)計的基于場景的微調(diào)模塊提取場景調(diào)節(jié)特征,聚合不同歷史幀的場景變化信息,顯式建模場景對行人軌跡的調(diào)節(jié)作用。在實驗中,相比于行人軌跡預測領(lǐng)域內(nèi)的其他主流算 法,Scene-STGCNN 的ADE 和FDE 指標分別為0.38 和0.60,達到了最優(yōu)性能,同時Scene-STGCNN在可視化結(jié)果中也實現(xiàn)了相當優(yōu)秀的表現(xiàn)。本文工作為建模人—場景交互方向的行人軌跡預測算法提供了一個全新的研究視角,若結(jié)合其他行人運動特征(如目標點、運動模式等),可進一步減少模型的預測誤差,從而增強框架性能。本文還存在提升空間,未來將從更好的場景微調(diào)模塊設(shè)計、更強的運動特征提取框架、目標地點信息注入方式和更優(yōu)的模型更新策略出發(fā),設(shè)計或改進整體模型。3 實驗及分析
3.1 模型配置和訓練設(shè)置
3.2 數(shù)據(jù)集和評估指標
3.3 定量分析
3.4 定性分析
4 結(jié)論