裴 炤,邱文濤,王 淼,馬 苗,張艷寧
(1.陜西師范大學(xué)現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西西安 710119;2.陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,陜西西安 710119;3.上海交通大學(xué)航空航天學(xué)院,上海 200240;4.空天地海一體化大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室,陜西西安 710129;5.西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西西安 710129)
基于深度學(xué)習(xí)的行人軌跡預(yù)測[1]是近年來人工智能和計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究問題,應(yīng)用在視頻安防監(jiān)控、目標(biāo)跟蹤等方面.行人軌跡預(yù)測是根據(jù)目標(biāo)行人的歷史軌跡以及行為特征綜合分析后,推測出目標(biāo)行人在未來的位置坐標(biāo)[2].在行人密集的公共場所,監(jiān)測場所內(nèi)行人的活動(dòng)軌跡,并分析人群的運(yùn)動(dòng)、檢測異常的行人軌跡,對犯罪預(yù)防、防恐防暴等公共安全領(lǐng)域有著積極的作用[3,4].在目標(biāo)跟蹤[5,6]領(lǐng)域,在跟蹤過程中因目標(biāo)行人被短暫遮擋而導(dǎo)致跟蹤失敗時(shí),可以使用行人軌跡預(yù)測技術(shù)預(yù)測目標(biāo)行人的未來軌跡,實(shí)現(xiàn)對目標(biāo)行人的繼續(xù)跟蹤.
行人間的社交關(guān)系與所處的場景都會(huì)影響行人對未來路徑的規(guī)劃.例如當(dāng)目標(biāo)行人前方有結(jié)伴而行的路人時(shí),根據(jù)社交慣例,其不會(huì)從路人之間徑直穿越,而是選擇繞行.在道路上遇到不同障礙物時(shí)會(huì)選擇不同的策略改變其行進(jìn)方向,其可以分為靜態(tài)障礙物和動(dòng)態(tài)障礙物兩類:當(dāng)目標(biāo)行人遇見靜態(tài)障礙物,如道路旁停放的汽車、樹木以及建筑物,這時(shí)行人會(huì)選擇繞行,而當(dāng)其遇見動(dòng)態(tài)障礙物,如行駛的汽車,行人首先會(huì)預(yù)估汽車的行進(jìn)速度及其對自身前進(jìn)路徑的影響,進(jìn)而會(huì)選擇減速慢行或者駐足等候汽車通過.
行人軌跡預(yù)測本質(zhì)上是基于時(shí)間序列的預(yù)測問題,該問題更關(guān)注近距離范圍內(nèi)的鄰居行人及環(huán)境對目標(biāo)行人的影響,較遠(yuǎn)距離的鄰居行人及環(huán)境對目標(biāo)行人的影響相對較弱,LSTM 在處理長距離依賴的時(shí)序問題上有較好的效果,但在短距離預(yù)測方面稍顯不足,此外,靜態(tài)場景信息對行人路徑規(guī)劃的影響體現(xiàn)在當(dāng)前短時(shí)間內(nèi),而動(dòng)態(tài)場景信息會(huì)影響行人對未來長遠(yuǎn)的路徑規(guī)劃.
因此,有效利用物理環(huán)境以及行人間的社交關(guān)系對解決行人軌跡問題至關(guān)重要,為解決上述問題,本文提出一種基于Transformer 動(dòng)態(tài)場景信息生成對抗網(wǎng)絡(luò)的行人軌跡預(yù)測方法,該方法首先構(gòu)造動(dòng)態(tài)場景信息提取模塊,提取動(dòng)態(tài)場景信息特征,同時(shí)利用Transformer在解決短距離依賴的時(shí)序問題上的優(yōu)勢,以此構(gòu)造基于Transformer 的生成對抗網(wǎng)絡(luò)對行人軌跡進(jìn)行特征提取,同時(shí)利用池化模塊將動(dòng)態(tài)場景信息和行人社會(huì)交互信息進(jìn)行特征融合,增強(qiáng)模型對物理場景信息以及社交信息的學(xué)習(xí),進(jìn)而提高模型預(yù)測的精準(zhǔn)率.
主要貢獻(xiàn)如下:
1.首先為了解決LSTM 在短距離依賴的時(shí)序預(yù)測問題上的不足,本文使用在短距離依賴的時(shí)序預(yù)測問題表現(xiàn)更好的Transformer 網(wǎng)絡(luò)取代LSTM,Transformer網(wǎng)絡(luò)的自注意力機(jī)制使網(wǎng)絡(luò)在提取目標(biāo)行人的社會(huì)交互信息特征與歷史軌跡特征時(shí)更加關(guān)注近距離的鄰居行人.
2.其次通過構(gòu)造動(dòng)態(tài)場景信息提取模塊,使用卷積神經(jīng)網(wǎng)絡(luò)[7]提取動(dòng)態(tài)場景信息特征,并利用池化模塊將動(dòng)態(tài)場景信息特征、歷史軌跡特征、行人社會(huì)交互信息進(jìn)行特征融合.池化模塊利用社交邊界模型對其交互信息進(jìn)行池化操作,選取對行人軌跡產(chǎn)生最大影響的特征信息,將其與動(dòng)態(tài)場景信息特征進(jìn)行特征融合后反饋至解碼器進(jìn)行預(yù)測,從而實(shí)現(xiàn)將動(dòng)態(tài)場景信息和行人社會(huì)交互信息結(jié)合,提升模型合理預(yù)測的精度.
3.最后構(gòu)建基于Transformer 的生成對抗網(wǎng)絡(luò),生成器以池化層和隨機(jī)高斯噪聲為輸入,將生成的符合日常生活規(guī)范的行人軌跡信息持續(xù)輸入到鑒別器網(wǎng)絡(luò),生成器和鑒別器進(jìn)行博弈,不斷優(yōu)化雙方網(wǎng)絡(luò)參數(shù),最終使生成器可以生成高質(zhì)量的行人軌跡信息擴(kuò)充訓(xùn)練集,從而提高模型預(yù)測的準(zhǔn)確率.
在ETH[8]和UCY[9]數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和相關(guān)實(shí)驗(yàn)分析表明,本文提出的行人軌跡預(yù)測方法相較于以往基于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型的行人軌跡預(yù)測算法具有更高的準(zhǔn)確率,驗(yàn)證了本文提出的行人軌跡預(yù)測方法的有效性.
傳統(tǒng)的行人軌跡預(yù)測研究[10~14]通常使用相對復(fù)雜的數(shù)學(xué)統(tǒng)計(jì)模型如:本領(lǐng)域的開創(chuàng)工作是Helbing[10]提出的基于社會(huì)力的線性模型Social Force,它將行人和障礙物對目標(biāo)的影響簡單抽象為引力與斥力,行人與目標(biāo)相互靠近稱之為引力,反之行人與目標(biāo)相互排斥從而避免碰撞稱之為斥力,以此進(jìn)行建模.Kitani[11]等人使用基于隱含馬爾科夫模型和逆最優(yōu)控制的方式通過對行人的動(dòng)作理解進(jìn)行強(qiáng)化學(xué)習(xí)建模,從而更好地學(xué)習(xí)靜態(tài)環(huán)境對行人軌跡的影響.但此類模型需要對場景進(jìn)行語義標(biāo)注,模型對復(fù)雜場景的泛化能力較低,在面對動(dòng)態(tài)場景無法取得很好的預(yù)測效果.
此后基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)模型[15~22]成為行人軌跡預(yù)測的主要方法,如基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)以及長短期記憶網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)的方法[23~26]逐漸用在解決此類時(shí)間序列問題上,此類模型相較于社會(huì)力等數(shù)學(xué)統(tǒng)計(jì)類的模型可以處理復(fù)雜的場景,且預(yù)測準(zhǔn)確率有較大提升,逐步成為行人軌跡預(yù)測的主流模型.現(xiàn)階段基于LSTM 的社交網(wǎng)絡(luò)模型有SRLSTM[25]、Social-LSTM[18]等模型,此類模型引入了行人社交機(jī)制,利用行人之間的歐式距離和LSTM 的隱藏特征信息進(jìn)行社會(huì)化建模,通過社會(huì)池化層對其進(jìn)行池化后根據(jù)隱藏狀態(tài)信息進(jìn)行預(yù)測.Pei[1]提出了一種在行人密集場景下的基于Social-affinity LSTM 的行人軌跡預(yù)測方法,其根據(jù)鄰居行人的相對位置構(gòu)造了一種社會(huì)親和力圖用于記錄鄰居行人的社交影響權(quán)重,Social-affinity LSTM 根據(jù)目標(biāo)行人的個(gè)人軌跡特征和鄰居行人的影響進(jìn)行軌跡預(yù)測.上述方法的缺點(diǎn)在于并未考慮行人的軌跡是多模態(tài)的,在許多情況下對于行人而言可供選擇的路徑是多樣的,并非單一路徑.
生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的出現(xiàn)為多模態(tài)的行人軌跡預(yù)測提供了技術(shù)途徑.Gupta[27]等人提出了一種基于生成對抗網(wǎng)絡(luò)(Social-GAN,SGAN)的行人軌跡預(yù)測方法,其通過LSTM 構(gòu)造生成對抗網(wǎng)絡(luò),利用生成對抗網(wǎng)絡(luò)的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)不斷博弈,從而強(qiáng)迫網(wǎng)絡(luò)不斷優(yōu)化模型參數(shù)、生成符合社會(huì)規(guī)范的軌跡,以此擴(kuò)充數(shù)據(jù)集,提高預(yù)測精度,但它未利用任何場景信息,僅利用行人之間的社會(huì)交互信息,未考慮場景對行人的影響,因此可能會(huì)出現(xiàn)違背生活常識(shí)的預(yù)測軌跡.
此后Sadeghian[28]等人將場景信息與注意力機(jī)制[29,30]結(jié)合,同時(shí)利用生成對抗網(wǎng)絡(luò)生成多模態(tài)的軌跡.Vineet[31]等將圖注意力(Graph ATtention network,GAT)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)相結(jié)合,其利用圖注意力網(wǎng)絡(luò)對靜態(tài)場景中所有行人之間的社會(huì)交互進(jìn)行建模,通過生成對抗網(wǎng)絡(luò)構(gòu)造預(yù)測軌跡與目標(biāo)行人的行為特征之間的可逆映射來生成符合社會(huì)規(guī)范的軌跡.上述方法僅考慮當(dāng)前時(shí)刻靜態(tài)場景對行人的影響,未考慮動(dòng)態(tài)場景的影響.
行人軌跡預(yù)測問題可以看作是在固定場景中根據(jù)給定n個(gè)目標(biāo)行人的歷史軌跡以及狀態(tài)特征,預(yù)測目標(biāo)行人的未來軌跡坐標(biāo)的問題,其本質(zhì)上是基于時(shí)間序列的預(yù)測問題.在本文中,給定目標(biāo)行人的軌跡X=(X1,X2,…,Xn),其 中Xi=為 場景中所有目標(biāo)行人的個(gè)數(shù)為目標(biāo)行人i在t時(shí)刻的坐標(biāo),tobs為觀測的時(shí)序時(shí)長.將行人的真實(shí)軌跡表示如下:
其中tpred為預(yù)測的時(shí)序長度,相似的,本文方法預(yù)測的行人軌跡表示如下:
本文提出的基于Transformer 動(dòng)態(tài)場景信息生成對抗網(wǎng)絡(luò)的行人軌跡預(yù)測方法總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,模型整體由動(dòng)態(tài)場景信息提取模塊、生成器網(wǎng)絡(luò)、池化模塊、鑒別器網(wǎng)絡(luò)和損失函數(shù)組成,其中動(dòng)態(tài)場景信息提取模塊由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,生成器網(wǎng)絡(luò)包含編碼器和解碼器,池化模塊包含行人社會(huì)交互計(jì)算模塊,鑒別器網(wǎng)絡(luò)包含解碼器、全連接層和多層感知機(jī).由于本文中的生成對抗網(wǎng)絡(luò)與Transformer 都由編碼器與解碼器組成,作為區(qū)分,本文將生成對抗網(wǎng)絡(luò)中的生成器網(wǎng)絡(luò)與鑒別器網(wǎng)絡(luò)中的編碼器分別表示為G-Encoder、DEncoder,將生成器的解碼器表示為G-Decoder,將Transformer的編碼器與解碼器表示為T-Encoder、T-Decoder.
本模型的預(yù)測過程如圖1所示,首先由場景提取模塊進(jìn)行動(dòng)態(tài)場景信息特征提取,G-Encoder 將場景內(nèi)所有行人的軌跡作為Transformer 的輸入,學(xué)習(xí)行人的歷史軌跡特征.池化模塊根據(jù)G-Encoder傳入的行人軌跡特征信息計(jì)算出目標(biāo)行人的社會(huì)交互信息,之后將社會(huì)交互信息與動(dòng)態(tài)場景信息進(jìn)行特征融合獲得行人狀態(tài)信息.G-Decoder 將行人狀態(tài)信息加入隨機(jī)高斯噪聲進(jìn)行解碼后生成相應(yīng)的預(yù)測路徑.生成器網(wǎng)絡(luò)產(chǎn)生的預(yù)測路徑與真實(shí)的行人數(shù)據(jù)作為鑒別器的輸入,DEncoder 將路徑信息進(jìn)行編碼之后由多層感知機(jī)對其進(jìn)行分類鑒別.損失函數(shù)模塊負(fù)責(zé)計(jì)算行人軌跡預(yù)測模型的誤差,并將誤差進(jìn)行反向傳播,從而增強(qiáng)生成器網(wǎng)絡(luò)生成軌跡的能力.生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)會(huì)持續(xù)進(jìn)行對抗訓(xùn)練,鑒別器網(wǎng)絡(luò)對真假軌跡信息的鑒別能力也在對抗過程中不斷提高,整個(gè)網(wǎng)絡(luò)的參數(shù)也不斷優(yōu)化,最終生成器網(wǎng)絡(luò)將產(chǎn)生可以媲美真實(shí)軌跡的高質(zhì)量軌跡序列信息,模型的預(yù)測能也隨之提升.
圖1 基于Transformer動(dòng)態(tài)場景信息生成對抗網(wǎng)絡(luò)的行人軌跡預(yù)測方法總體網(wǎng)絡(luò)結(jié)構(gòu)
行人當(dāng)前時(shí)刻所處的靜態(tài)場景會(huì)影響行人短時(shí)間內(nèi)的行進(jìn)方向,而動(dòng)態(tài)場景會(huì)對其未來長遠(yuǎn)的路徑規(guī)劃產(chǎn)生重要影響,因此將動(dòng)態(tài)場景信息引入行人軌跡預(yù)測方法顯得尤為必要.為了獲取行人所處的場景并加以利用,本文設(shè)計(jì)了動(dòng)態(tài)場景提取模塊,如圖2所示.
圖2 動(dòng)態(tài)場景提取模塊的工作流程
本模塊由兩個(gè)關(guān)鍵部分組成,一個(gè)是場景關(guān)鍵幀提取模塊,用于在視頻中獲取行人所處的場景.場景提取模塊首先將目標(biāo)行人的編號(hào)視為鍵,將其出現(xiàn)的時(shí)刻視為值,由此構(gòu)造哈希表.在哈希表中檢索出目標(biāo)行人出現(xiàn)的起止時(shí)間,根據(jù)起止時(shí)間獲得視頻對應(yīng)的場景關(guān)鍵幀Pt,將當(dāng)前時(shí)刻到tobs時(shí)刻的幀集合設(shè)為場景集合另是卷積神經(jīng)網(wǎng)絡(luò)模塊,其首先對中的場景關(guān)鍵幀進(jìn)行特征提取,對其進(jìn)行最大池化計(jì)算得到動(dòng)態(tài)場景信息張量動(dòng)態(tài)場景信息提取模塊工作的相關(guān)過程如下所示:
在本文中使用的卷積神經(jīng)網(wǎng)絡(luò)CNN(·)為ResNet,其網(wǎng)絡(luò)初始化參數(shù)為使用ImageNet 預(yù)訓(xùn)練之后得到的參數(shù),MAX(·)代表最大池化運(yùn)算.
在處理時(shí)序問題上通常采用以長短期記憶網(wǎng)絡(luò)(LSTM)為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),最近研究[32]表明LSTM 在解決長距離依賴的問題上表現(xiàn)較好,但在解決短距離依賴的問題上Transformer 網(wǎng)絡(luò)表現(xiàn)較好,因此本文選擇使用Transformer 網(wǎng)絡(luò)與LSTM 共同構(gòu)造生成對抗網(wǎng)絡(luò).與一般的生成對抗網(wǎng)絡(luò)相似,本文方法也由生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)組成,在本文中生成器網(wǎng)絡(luò)用于學(xué)習(xí)行人真實(shí)軌跡的數(shù)據(jù)分布、生成預(yù)測軌跡序列,其中G-Encoder 編碼器由Transformer 網(wǎng)絡(luò)構(gòu)成,G-Decoder解碼器由LSTM構(gòu)成.
4.2.1 G-Encoder編碼器
本文將所有行人的軌跡看作是二維坐標(biāo)序列,GEncoder 編碼器首先使用多層感知機(jī)將每個(gè)行人的軌跡序列由二維坐標(biāo)序列轉(zhuǎn)換為時(shí)空位置張量將其作為Transformer 網(wǎng)絡(luò)的輸入,Transformer 網(wǎng)絡(luò)將學(xué)習(xí)并得到每位行人時(shí)空位置特征信息具體過程如下:
其中,φ(·)為含有非線性激活函數(shù)ReLU 嵌入層(Embedding Layer)網(wǎng)絡(luò),wee為嵌入層網(wǎng)絡(luò)的權(quán)重參數(shù).式(8)中Τrans(·)為G-Encoder編碼器中的Transformer網(wǎng)絡(luò).
4.2.2 G-Decoder解碼器
其中,wde為G-Decoder 解碼器中LSTM 網(wǎng)絡(luò)的權(quán)重參數(shù),wdfc為全連接網(wǎng)絡(luò)權(quán)重參數(shù),wdp1與wdp2為多層感知機(jī)MLP(·)的不同權(quán)重參數(shù).
本文方法分別使用動(dòng)態(tài)場景信息池化模塊和行人社會(huì)交互信息池化模塊來處理動(dòng)態(tài)場景信息和行人社會(huì)交互信息.
4.3.1 動(dòng)態(tài)場景信息池化模塊
其中?是含有ReLU 非線性激活函數(shù)的多層感知器,weh是?的權(quán)重參數(shù).X it,ngb行人i的所有鄰居行人在t=tobs時(shí)的軌跡坐標(biāo)張量.γ為多層感知機(jī),Wep為其權(quán)重參數(shù).
4.3.2 行人社會(huì)交互信息池化模塊
社交信息池化社交信息池化模塊首先確定影響行人的社交邊界.例如,當(dāng)目標(biāo)行人行走時(shí),離其最近的人對其規(guī)劃路徑時(shí)的決策影響最大,為此本文設(shè)計(jì)了社交邊界模型來衡量行人間的社會(huì)交互影響,利用鄰里之間的相對距離和行人的當(dāng)前坐標(biāo)去構(gòu)造邊界模型,得到社交邊界特征張量,將其與動(dòng)態(tài)場景信息張量、軌跡特征張量進(jìn)行特征融合后得到行人狀態(tài)信息特征具體過程如下:
其中,式(16)中Rmn(·)為指示函數(shù),用于檢查坐標(biāo)(x,y)是否在m?n表示的方格內(nèi)部(在則返回1,否則返回0),Ni表示第i個(gè)行人社會(huì)邊界區(qū)域內(nèi)的所有鄰居集合表示第i個(gè)人在t-1 時(shí)刻的狀態(tài)特征信息,?(·)是含有ReLU非線性激活函數(shù)的映射函數(shù),we和wa是映射函數(shù)?(·)的權(quán)重系數(shù).
其中,wp為全連接層FC 的權(quán)重參數(shù),wy為多層感知機(jī)MLP的權(quán)重參數(shù).
本文采用的損失函數(shù)由LGAN(G,D)和LL2(G)兩部分組成,其中LGAN(G,D)是生成對抗網(wǎng)絡(luò)的損失函數(shù),LL2(G)是L2 坐標(biāo)偏移的損失函數(shù),其本質(zhì)是基于最大似然定理的概率分布函數(shù),用于計(jì)算真實(shí)坐標(biāo)位移與預(yù)測得到的K個(gè)位移G(z)之間的最小差值以便提升預(yù)測軌跡的質(zhì)量.通過對各個(gè)損失函數(shù)進(jìn)行反向傳播,不斷地優(yōu)化生成對抗網(wǎng)絡(luò)各層的權(quán)重參數(shù).其表達(dá)式如下:
其中,γ為超參數(shù),用于平衡LGAN(G,D)與LL2(G),E 為期望.
本文實(shí)驗(yàn)環(huán)境為Ubuntu 16.04,GPU為NVIDIATITAN XP,CPU為Inte(lR)Core(TM)i7-7700K CPU@4.20 GHz×8,使用的深度學(xué)習(xí)框架為PyTorch 1.7.0.
本文實(shí)驗(yàn)首先在ETH和UCY兩個(gè)公共數(shù)據(jù)集上評估我們提出的方法的可行性,這兩個(gè)數(shù)據(jù)集包含真實(shí)的行人軌跡和社會(huì)活動(dòng),包括對物理障礙物的躲避、行人之間行走.其中ETH 數(shù)據(jù)集包含ETH 和Hotel 兩個(gè)場景,UCY數(shù)據(jù)集包含Zara1、Zara2和Univ三個(gè)場景.
在本文實(shí)驗(yàn)中Transformer 網(wǎng)絡(luò)的參數(shù)如下:TEncoder 的層數(shù)為6,head 個(gè)數(shù)為6,T-Decoder 的層數(shù)為8,head 個(gè)數(shù)為8.G-Encoder 中嵌入層單元數(shù)為64,隱藏層單元數(shù)為64,多層感知機(jī)單元數(shù)為1 024,G-Decoder的嵌入層單元數(shù)為64,隱藏層單元數(shù)為128,多層感知機(jī)單元數(shù)為1 024,瓶頸層單元數(shù)為1 024,使用ReLU作為激活函數(shù),生成器網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.001.鑒別器中編碼器的嵌入層單元數(shù)設(shè)置為64,隱藏層單元個(gè)數(shù)設(shè)置為64,多層感知機(jī)單元數(shù)為1 024,學(xué)習(xí)率設(shè)置為0.001.池化模塊中的嵌入層單元數(shù)為64,隱藏層單元數(shù)為64,多層感知機(jī)單元數(shù)為1 024,使用ReLU 作為激活函數(shù).場景提取模塊使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet 模型,整個(gè)網(wǎng)絡(luò)中噪聲為8 個(gè)維度的高斯噪聲,訓(xùn)練時(shí)的數(shù)據(jù)的批次大小為32,epochs 大小設(shè)置為500,訓(xùn)練迭代次數(shù)設(shè)置為15 000 次,觀察軌跡的長度設(shè)置為8步,預(yù)測軌跡長度為12步.
與之前的研究方法[3,4]類似,在此本文選用ADE(平均偏移誤差)和FDE(最終偏移誤差)作為評價(jià)指標(biāo)來刻畫預(yù)測軌跡的準(zhǔn)確性.ADE 是通過計(jì)算每個(gè)時(shí)刻的預(yù)測軌跡與真實(shí)軌跡的平均歐氏距離來評估預(yù)測序列的準(zhǔn)確性.FDE 是通過計(jì)算最終時(shí)刻的預(yù)測軌跡位置與真實(shí)軌跡位置的平均歐氏距離來評估預(yù)測序列的準(zhǔn)確性.
本文將文中方法和LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 在ETH 和UCY 數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).
5.2.1 定量分析
本文將文中方法和LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 在ETH 和UCY 數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).各種軌跡預(yù)測方法的ADE 和FDE 的對比結(jié)果如表1 所示.其中ADE 和FDE 的數(shù)值表示預(yù)測軌跡與真實(shí)軌跡誤差,數(shù)值越小表示預(yù)測誤差越小、準(zhǔn)確率越高,各種場景下的最優(yōu)結(jié)果已在表中標(biāo)記.從表1中可以看出,本文方法的ADE 和FDE 表現(xiàn)在ETH 和UCY 兩大數(shù)據(jù)集中的多個(gè)場景取得了較好的效果.本文方法的行人社會(huì)交互信息池化模塊將來自于Transformer 的自注意力機(jī)制提取的社交特征與社交邊界特征進(jìn)行融合,從而更準(zhǔn)確的刻畫行人之間的社交影響.不同于上述模型僅考慮了社交因素而忽略了動(dòng)態(tài)場景信息對目標(biāo)行人的影響,本文方法中同時(shí)引入了動(dòng)態(tài)場景信息池化模塊,將其與行人社會(huì)交互信息池化模塊相結(jié)合后產(chǎn)生社會(huì)交互約束,在對軌跡進(jìn)行預(yù)測時(shí)會(huì)迫使模型生成符合日常生活規(guī)范的軌跡,使得模型對真實(shí)場景的擬合效果更好,模型的預(yù)測能力也隨之提升.因此本文方法在大多數(shù)場景下的ADE 和FDE 優(yōu)于LSTM、Social-LSTM、Social-GAN、Sophie、Social-BiGAT 等模型.
表1 不同模型的ADE和FDE結(jié)果對比
5.2.2 消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文提出方法的有效性,本小節(jié)中使用定量分析方法進(jìn)行驗(yàn)證.首先,本文選擇Social GAN 作為基線方法,測試其在各個(gè)數(shù)據(jù)集場景中的實(shí)驗(yàn)結(jié)果.在此基礎(chǔ)上,保持相同的試驗(yàn)參數(shù)設(shè)置,本文分別設(shè)計(jì)為其加入動(dòng)態(tài)場景信息提取模塊、Transformer網(wǎng)絡(luò)以及兩者結(jié)合方法的試驗(yàn),具體對比結(jié)果如表2所示.
表2 表明:在單獨(dú)使用動(dòng)態(tài)場景信息提取模塊或Transformer 網(wǎng)絡(luò)的情況下,本文方法在大多數(shù)場景中的ADE 和FDE 優(yōu)于基線方法,在使用兩者結(jié)合的方法時(shí),本文方法在全部場景中的ADE 和FDE 均優(yōu)于基線方法.
表2 消融實(shí)驗(yàn)結(jié)果對比
在ETH 數(shù)據(jù)集中,受數(shù)據(jù)集中場景的制約,行人行進(jìn)路線基本固定,故動(dòng)態(tài)場景信息對行人的路徑規(guī)劃有一定影響,本文方法相較于基線方法ADE 提高了19.75%,F(xiàn)DE 提高了22.37%,但略低于單獨(dú)使用動(dòng)態(tài)場景信息的方法,推測是因?yàn)門ransformer 網(wǎng)絡(luò)自注意力機(jī)制中的位置編碼器,使得本文方法更關(guān)注行人自身的軌跡,從而弱化了動(dòng)態(tài)場景信息的影響權(quán)重.
Hotel數(shù)據(jù)集中場景較為復(fù)雜,對行人的路徑規(guī)劃影響較大,因此本文方法相較于基線方法ADE 提高了52.78%,F(xiàn)DE提高了60.25%,和ETH 數(shù)據(jù)集中的情況相反,單獨(dú)使用Transformer方法的準(zhǔn)確率略高于本文方法,推測和ETH數(shù)據(jù)集中情況相似,動(dòng)態(tài)場景信息對模型的影響權(quán)重略大,使得模型側(cè)重于學(xué)習(xí)動(dòng)態(tài)場景信息.
Univ 數(shù)據(jù)集中行人較為密集,障礙物處于道路邊緣,因此對目標(biāo)行人影響最大的是周圍行人,得益于Transformer 網(wǎng)絡(luò)的自注意力機(jī)制,本文方法相較于基線方法ADE提高了11.67%,F(xiàn)DE提高了37.5%.
Zara1 與Zara2 數(shù)據(jù)集場景相同,場景中的車輛、建筑物會(huì)影響行人對未來路徑的規(guī)劃,本文方法相較于基線方法ADE 分別提高了5.88%、26.19%,F(xiàn)DE 分別提高了47.62%、8.7%.
5.2.3 定性分析
圖3 展示了各模型在ETH 和UCY 數(shù)據(jù)集中各個(gè)場景中的軌跡預(yù)測可視化對比圖.其中圖3(a)為ETH 數(shù)據(jù)集場景下的軌跡預(yù)測對比圖,該場景兩側(cè)是積雪與圍墻,場景前方有路障球.從圖3(a)中可以看出,僅有本文方法預(yù)測的軌跡接近真實(shí)軌跡,LSTM、Social-GAN模型預(yù)測得到的軌跡與真實(shí)軌跡偏差較大.
圖3(b)為Hotel 數(shù)據(jù)集場景下的預(yù)測對比圖,該場景是位于車站的一個(gè)旅館前,行人的軌跡主要是進(jìn)出車站或者直行經(jīng)過旅館,場景中行人軌跡比較復(fù)雜.從圖3(b)第一張圖像中可以看出行人真實(shí)軌跡是直行,但Social-GAN、LSTM 預(yù)測行人將會(huì)轉(zhuǎn)向.圖3(b)第二張圖像中可以看出目標(biāo)行人的真實(shí)意圖是直行路過,本文方法預(yù)測得到行人的軌跡與真實(shí)軌跡十分貼合,但Social-GAN 預(yù)測行人將會(huì)轉(zhuǎn)向進(jìn)入車站,LSTM 預(yù)測的行人行進(jìn)方向基本正確,但與真實(shí)軌跡相差太大.圖3(b)第三張圖像場景內(nèi)行人行進(jìn)方向與圖3(b)第一張圖像剛好相反,目標(biāo)行人的真實(shí)軌跡是轉(zhuǎn)向,Social-GAN、LSTM 均對行人未來的行進(jìn)方向判斷失誤,只有本文方法預(yù)測得到的軌跡與真實(shí)軌跡最相符.
圖3(c)為Univ 數(shù)據(jù)集場景下的預(yù)測對比圖,該場景是大學(xué)校園的一個(gè)交叉路口,該場景中人群密度大,可以看作是典型的擁擠社交場景.人群密度大帶來的問題就是行人軌跡無序,社交信息對目標(biāo)行人的路徑規(guī)劃產(chǎn)生決定性的影響,這體現(xiàn)在目標(biāo)行人隨時(shí)會(huì)調(diào)整前進(jìn)方向,同時(shí)還會(huì)因?yàn)榕c其他行人交談而產(chǎn)生中途長時(shí)間逗留的現(xiàn)象.從圖3(c)中可以看出,本文方法在該擁擠社交場景中的預(yù)測表現(xiàn)顯著優(yōu)于其他的模型,這得益于本文使用的Transformer 網(wǎng)絡(luò)的自注意力機(jī)制與其位置編碼器在處理時(shí)序問題上的優(yōu)異表現(xiàn).
圖3 各模型在不同場景的預(yù)測軌跡可視化對
圖4(a)為Zara1 數(shù)據(jù)集場景下的預(yù)測對比圖,圖4(b)為Zara2 數(shù)據(jù)集場景下的預(yù)測對比圖.兩個(gè)場景均為商場前的道路,行人的運(yùn)動(dòng)軌跡主要為進(jìn)出商場或者路過.從圖4(a)中可以看出在行人稀疏時(shí),各個(gè)模型的預(yù)測結(jié)果大致相似,本文方法預(yù)測的軌跡與真實(shí)軌跡幾乎重合,在各個(gè)模型中表現(xiàn)最優(yōu).圖4(a)中第一張圖像展示了行人轉(zhuǎn)向時(shí)各種模型的軌跡預(yù)測對比圖,從圖中可以看出LSTM、Social-GAN 模型均未預(yù)測到目標(biāo)的轉(zhuǎn)向,另外從圖4(b)中第二張圖片可以看出其他模型的預(yù)測軌跡會(huì)與汽車障礙物發(fā)生接觸,這顯然違背了生活常識(shí),而本文方法預(yù)測得到的軌跡明顯優(yōu)于其他模型,這是因?yàn)楸疚姆椒ㄒ氲膭?dòng)態(tài)場景信息可以綜合考慮到目標(biāo)旁邊的汽車障礙物,從而選擇繞過汽車調(diào)整行進(jìn)方向.
圖4 各模型在zara1和zara2場景的預(yù)測軌跡可視化對比
5.2.4 預(yù)測時(shí)效分析
表3 中LSTM 模型最為簡單,預(yù)測的精準(zhǔn)度也最低,其預(yù)測所耗費(fèi)的時(shí)間為2.7 ms.Social-LSTM 在LSTM 的基礎(chǔ)上加入了社會(huì)池化模塊,計(jì)算量大幅增加導(dǎo)致時(shí)間開銷增加,其預(yù)測所耗費(fèi)的時(shí)間為4.2 ms.Social-GAN與本文方法都基于生成對抗網(wǎng)絡(luò),需要進(jìn)行大量前向傳播以及通過優(yōu)化鑒別器進(jìn)行反向傳播更新生成器參數(shù),其中Social-GAN 預(yù)測所耗費(fèi)的時(shí)間為29.4 ms,本文方法引入的動(dòng)態(tài)場景信息提取模塊會(huì)進(jìn)行多次卷積、池化,所以耗時(shí)比Social-GAN 稍長,其預(yù)測所耗費(fèi)時(shí)間為34.3 ms.對比結(jié)果如表3 所示,雖相對于其它對比方法預(yù)測耗時(shí)略長,但本文方法在34.3 ms仍然能夠預(yù)測未來120幀的軌跡,完全滿足視頻處理實(shí)時(shí)性的要求(該數(shù)據(jù)集視頻幀率為25 FPS).考慮到本文方法預(yù)測精度在對比方法中最高,因此該方法綜合表現(xiàn)優(yōu)異.
表3 各模型預(yù)測時(shí)效分析
5.2.5 合理性分析
為了進(jìn)一步驗(yàn)證本文方法的預(yù)測結(jié)果是否符合日常規(guī)范,如圖5 所示,本小節(jié)分別展示了本文方法在面對靜態(tài)遮擋物和場景中移動(dòng)目標(biāo)時(shí)的預(yù)測結(jié)果(包含場景ETH、Hotel、Univ 和Zara1).為了將可視化的結(jié)果更好的展示,在此對每組目標(biāo)生成10 次軌跡預(yù)測結(jié)果(多模態(tài)軌跡預(yù)測).其中(a)、(b)、(c)展示了本文方法面對靜態(tài)障礙物時(shí)的預(yù)測結(jié)果,(d)展示了本文方法在面對動(dòng)態(tài)障礙物時(shí)的預(yù)測結(jié)果.
圖5 不同場景的多模態(tài)軌跡可視化預(yù)測結(jié)果
從圖5(a)中可以看出本文方法在面對路障球進(jìn)行預(yù)測時(shí),其預(yù)測的軌跡分布在路障球的左右兩側(cè),從而避開路障球.圖5(b)中展示了本文方法預(yù)測的軌跡會(huì)繞過路燈.圖5(c)中展示了本文方法預(yù)測的軌跡分布在花壇旁邊的空地上.在日常生活中,行人在避讓車輛時(shí)會(huì)讓車輛先行通過,本文方法在圖5(d)Zara1 場景中生成的軌跡均未與行進(jìn)中的汽車車頭部分接觸(圖中軌跡與車的其他部分也并未接觸,在第4幀之后汽車已經(jīng)駛離場景).以上場景的預(yù)測軌跡符合日常規(guī)范,也證明本文方法提出的動(dòng)態(tài)場景信息提取模塊是合理有效的,所預(yù)測的結(jié)果是符合日常規(guī)范的.
針對目前行人軌跡預(yù)測方法對物理環(huán)境以及行人間的社交關(guān)系利用不充分問題,本文提出了一種基于Transformer 動(dòng)態(tài)場景信息生成對抗網(wǎng)絡(luò)的行人軌跡預(yù)測方法.與其他行人軌跡預(yù)測方法相比,本文方法在ETH 和UCY 數(shù)據(jù)集的多數(shù)場景中ADE 和FDE 的表現(xiàn)優(yōu)于其他方法,在復(fù)雜場景中可以較為準(zhǔn)確的預(yù)測目標(biāo)行人的軌跡,證明本文方法提出的動(dòng)態(tài)場景信息提取模塊與引入的Transformer 網(wǎng)絡(luò)對模型的預(yù)測效果有顯著提升作用.但是在擁擠場景中,本文方法的預(yù)測效果距離預(yù)期還有提升空間.在接下來的工作中,將引入圖注意力神經(jīng)網(wǎng)絡(luò)對行人之間的社會(huì)交互建模,以此提高本文方法在各場景中的預(yù)測精度與預(yù)測效率.