孔 瑋,劉 云,李 輝,崔雪紅,楊浩冉
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061)
行人軌跡預(yù)測(cè)旨在利用觀察到的行人軌跡,預(yù)測(cè)行人未來(lái)的運(yùn)動(dòng)軌跡[1].行人軌跡預(yù)測(cè)在自動(dòng)駕駛[2,3]、視覺(jué)識(shí)別[4]、目標(biāo)跟蹤[5]和視頻監(jiān)控[6]等領(lǐng)域得到了廣泛的應(yīng)用.但受客觀環(huán)境的影響,人與人之間、人與環(huán)境的交互變得復(fù)雜抽象,準(zhǔn)確預(yù)測(cè)行人的軌跡仍然具有復(fù)雜性和挑戰(zhàn)性.
隨著深度學(xué)習(xí)[7]的發(fā)展,神經(jīng)網(wǎng)絡(luò)為行人軌跡預(yù)測(cè)提供了必要條件.尤其是,用于序列學(xué)習(xí)的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)及圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)成為行人軌跡預(yù)測(cè)建模的主要網(wǎng)絡(luò).Social LSTM[8]是循環(huán)神經(jīng)網(wǎng)絡(luò)在行人軌跡預(yù)測(cè)領(lǐng)域的典型應(yīng)用,它通過(guò)池化層建模行人之間的相互作用.基于GANs 的方法[9~12]預(yù)測(cè)未來(lái)軌跡的分布時(shí),模型的生成器也是使用遞歸神經(jīng)網(wǎng)絡(luò)設(shè)計(jì).這些方法的局限性在于遞歸架構(gòu)的使用,使得網(wǎng)絡(luò)模型的參數(shù)多,訓(xùn)練成本高.基于RNN 的軌跡預(yù)測(cè)方法在建模行人之間的交互時(shí),不能單獨(dú)處理空間上下文,而是需要借助額外的結(jié)構(gòu)對(duì)相鄰行人的信息進(jìn)行編碼,既不直觀也不直接.
圖卷積網(wǎng)絡(luò)是另一種被廣泛應(yīng)用于行人軌跡預(yù)測(cè)的模型.很多研究者將時(shí)空?qǐng)D[13~16]應(yīng)用于行人軌跡預(yù)測(cè),并實(shí)現(xiàn)了不錯(cuò)的預(yù)測(cè)性能.時(shí)空?qǐng)D包含豐富的特征信息,比聚集的方法(例如池化)[17]直觀有效.由于行人在軌跡預(yù)測(cè)中的重要性不同,注意力機(jī)制更有助于編碼行人之間的相對(duì)影響和潛在互動(dòng).基于圖注意力網(wǎng)絡(luò)的軌跡預(yù)測(cè)方法[14~16,18~21]打破了RNN 網(wǎng)絡(luò)的順序依賴性,利用注意力機(jī)制實(shí)現(xiàn)了行人特征信息的加權(quán)融合.然而,在建立時(shí)空?qǐng)D模擬行人交互的過(guò)程中仍存在許多問(wèn)題,如圖1所示.
圖1 行人交互的時(shí)空?qǐng)鼍胺治?/p>
首先,網(wǎng)絡(luò)的時(shí)空感受野小,無(wú)法獲得行人的全局信息.圖1(a)表示行人的空間交互,當(dāng)融合行人j的交互特征時(shí),往往根據(jù)距離只關(guān)注行人k和行人l的信息,而忽略遠(yuǎn)距離行人i的特征,這使得網(wǎng)絡(luò)的輸入范圍變小.在時(shí)域中,基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的行人軌跡預(yù)測(cè)只依賴前一時(shí)刻的隱藏狀態(tài),不能像卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)那樣實(shí)現(xiàn)并行處理,如圖1(b)表示的時(shí)域模型LSTM 中缺失的連接所示.這導(dǎo)致模型運(yùn)行時(shí)間長(zhǎng),感知范圍狹窄.其次,以往的研究在空間域構(gòu)造圖模型時(shí),不同的行人在同一時(shí)間通常定義為全連通圖,默認(rèn)行人之間的相互影響是對(duì)等的,忽視了行人間的不對(duì)稱交互關(guān)系,方向性不強(qiáng),導(dǎo)致網(wǎng)絡(luò)模型不能準(zhǔn)確模擬行人之間的真實(shí)互動(dòng).例如在圖1(a)中,行走在后面的行人n的運(yùn)動(dòng)軌跡不會(huì)影響前面的行人j和k(綠色虛線所示),而這兩個(gè)行人的運(yùn)動(dòng)軌跡卻對(duì)行人n的未來(lái)軌跡產(chǎn)生了重要的作用(紅色實(shí)線所示).最后,全連通圖不能隨著行人運(yùn)動(dòng)狀態(tài)的變化及時(shí)調(diào)整圖結(jié)構(gòu),行人間的交互冗余,自適應(yīng)能力差.為此,本文提出了基于全局自適應(yīng)有向圖的行人軌跡預(yù)測(cè)方法(pedestrian trajectory prediction method based on Global Adaptive Directed Graph,GADG).針對(duì)以上問(wèn)題,本文的研究貢獻(xiàn)總結(jié)如下:
(1)設(shè)計(jì)全局特征更新GFU(Global Feature Updating)和全局特征選擇GFS(Global Feature Selection),關(guān)聯(lián)相互交互的行人的全局特征,擴(kuò)展網(wǎng)絡(luò)感受野,強(qiáng)化網(wǎng)絡(luò)學(xué)習(xí)時(shí)空特征的能力.
(2)構(gòu)建有向特征圖模型,有效提取成對(duì)行人之間的非對(duì)稱社交互動(dòng),增強(qiáng)網(wǎng)絡(luò)的方向性,提高網(wǎng)絡(luò)模擬真實(shí)場(chǎng)景的能力.
(3)建模自適應(yīng)交互圖,定義行人之間的自適應(yīng)交互關(guān)系,減少不必要的交互連接,增強(qiáng)圖模型適應(yīng)場(chǎng)景變化的能力.
人與人之間的交互建模經(jīng)歷了社會(huì)力模型、多模型方法、混合估計(jì)方法和基于模式的方法.人與人的交互不僅包括成對(duì)行人間的交互,還涉及復(fù)雜的群組行為[22].而基于模式的方法從數(shù)據(jù)中擬合不同的函數(shù)(如神經(jīng)網(wǎng)絡(luò))來(lái)學(xué)習(xí)行人之間的交互關(guān)系,提高了模型的靈活性.例如,RNN和CNN聯(lián)合建??臻g關(guān)系[23]以捕獲行人之間的交互.Social LSTM[8]利用LSTM 計(jì)算隱藏狀態(tài),聚集一定范圍內(nèi)的行人交互影響.Social GAN[9]建立新的池化機(jī)制確定行人間的交互關(guān)系.然而,這些基于RNN的模型在長(zhǎng)序列訓(xùn)練中容易出現(xiàn)梯度消失和爆炸.基于圖結(jié)構(gòu)的模型表現(xiàn)出基于圖數(shù)據(jù)的依賴關(guān)系進(jìn)行建模的強(qiáng)大功能,可以更好地模擬場(chǎng)景中人與人之間的交互.STGAT[14]通過(guò)圖注意力網(wǎng)絡(luò)(Graph Attention network,GAT)學(xué)習(xí)行人間的影響權(quán)重.Social-STGCNN[15]將軌跡直接建模為圖形,根據(jù)相對(duì)距離確定行人之間的相互關(guān)系.GraphTCN[16]以輸入感知的方式捕獲時(shí)空交互.然而,這些方法忽略了行人交互建模的方向性,認(rèn)為兩個(gè)行人之間的相互交互是對(duì)等的.在行人運(yùn)動(dòng)的過(guò)程中,后面的行人總是會(huì)注意前面的行人,而前面的行人通常對(duì)后面的行人不關(guān)注.所以,行人之間的相互交互具有不對(duì)稱性.為了體現(xiàn)這種不對(duì)稱關(guān)系,本文把行人之間的互動(dòng)建模為有向圖,不僅能捕捉對(duì)目標(biāo)行人產(chǎn)生重要影響的交互對(duì)象,還能提取他們之間的方向信息.
遞歸神經(jīng)網(wǎng)絡(luò)雖然具備顯著的序列建模能力,但缺乏直觀的高層時(shí)空結(jié)構(gòu).在行人運(yùn)動(dòng)過(guò)程中,行人的運(yùn)動(dòng)軌跡不確定[24],行人之間的交互沒(méi)有規(guī)律,圖結(jié)構(gòu)是表示行人交互行為的自然方法.時(shí)空?qǐng)D[14~16,19,20]是比較流行的工具,可以同時(shí)捕獲空間和時(shí)間關(guān)系.這些方法通常將行人表示為節(jié)點(diǎn),將他們的交互表示為連接.但這些方法在每一個(gè)時(shí)間步都會(huì)引入一個(gè)固定結(jié)構(gòu)的圖,圖結(jié)構(gòu)不能隨著場(chǎng)景的變化而改變.與上述方法不同的是,本文提出的自適應(yīng)圖模型在不同的時(shí)間點(diǎn)是動(dòng)態(tài)變化的,可以自適應(yīng)調(diào)整行人之間的連接.有些方法把圖模型與LSTM 等深層序列模型結(jié)合建模,并在此基礎(chǔ)上進(jìn)行拓展.例如,Zhang 等人[25]在位置和運(yùn)動(dòng)方向上構(gòu)建圖模型,并使用層次LSTM 逐步解碼.遞歸社交行為圖[26]遞歸更新交互范圍內(nèi)的個(gè)體特征來(lái)強(qiáng)化社交互動(dòng).這些方法只建模了局部交互,不能體現(xiàn)深層交互關(guān)系,網(wǎng)絡(luò)的空間感受野小.為此,本文設(shè)計(jì)全局特征更新GFU,打破行人地理位置的限制,捕獲網(wǎng)絡(luò)全局空間特征.
由于相鄰行人對(duì)軌跡預(yù)測(cè)的重要性不同,注意力機(jī)制更有助于編碼行人之間的相對(duì)影響和潛在交互.Su 等人[27]根據(jù)速度計(jì)算鄰居的相關(guān)性.SoPhie[12]與CNN 結(jié)合,為行人添加雙向注意力.Vemula 等人[28]利用隱藏狀態(tài)計(jì)算注意力分?jǐn)?shù).圖注意力網(wǎng)絡(luò)利用軟注意力或轉(zhuǎn)移機(jī)制來(lái)區(qū)分鄰居的重要性,實(shí)現(xiàn)了節(jié)點(diǎn)之間的加權(quán)消息傳遞和更好的群體理解.STGAT[14]和Social-STGCNN[15]通過(guò)引入靈活的圖注意力機(jī)制來(lái)改善行人之間的交互關(guān)系.GraphTCN[16]使用邊緣圖注意力網(wǎng)絡(luò)捕獲行人間的空間交互.Social-BiGAT[18]通過(guò)圖注意力網(wǎng)絡(luò)學(xué)習(xí)網(wǎng)絡(luò)中可靠的特征表示.然而,這些方法只根據(jù)距離來(lái)確定行人之間的相互影響,忽略了時(shí)域注意力,導(dǎo)致注意力分配不符合行人行走的客觀規(guī)律.本文構(gòu)建空間注意力(Spatial Attention,SA),融合行人軌跡中隱含的距離、速度和方向信息,克服僅使用位置特征的不足.設(shè)計(jì)時(shí)域注意力模塊(Temporal Attention Module,TAM),激勵(lì)網(wǎng)絡(luò)調(diào)整在時(shí)間維度上的權(quán)值比重.這使模型具備了更好的時(shí)空建模能力.
遞歸神經(jīng)網(wǎng)絡(luò)及其變體在行人軌跡預(yù)測(cè)領(lǐng)域廣泛應(yīng)用,表現(xiàn)出了良好的預(yù)測(cè)性能.ST-RNN[29]使用時(shí)空轉(zhuǎn)換矩陣建模每個(gè)層的時(shí)空上下文.Social GAN[9]在Social LSTM 的基礎(chǔ)上增加對(duì)抗性訓(xùn)練,提高了預(yù)測(cè)性能.SR-LSTM[30]激活鄰居的當(dāng)前意圖,迭代細(xì)化了行人的當(dāng)前狀態(tài).但基于RNN 的軌跡預(yù)測(cè)模型只依賴前一時(shí)刻的輸出,忽略了其他時(shí)刻對(duì)軌跡預(yù)測(cè)的影響,時(shí)域感知范圍小.而CNN 可以實(shí)現(xiàn)并行處理并能提取豐富的上下文信息,一些方法證實(shí)了基于CNN 的模型在軌跡預(yù)測(cè)方面具有競(jìng)爭(zhēng)性.例如,Yi 等人[31]使用一個(gè)大的感受野來(lái)模擬行人的行為;Yagi 等人[32]開發(fā)了一種深度神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)行人位置.但是,僅利用CNN 來(lái)集中附近行人的特征會(huì)丟失一些運(yùn)動(dòng)信息,這限制了預(yù)測(cè)精度.為了提升時(shí)域的感知范圍,本文將CNN 與LSTM 進(jìn)行組合,在利用LSTM 進(jìn)行軌跡預(yù)測(cè)之前,設(shè)計(jì)了全局特征選擇GFS,并在LSTM 上增加殘差連接.消融實(shí)驗(yàn)表明,此設(shè)計(jì)進(jìn)一步提高了網(wǎng)絡(luò)的預(yù)測(cè)性能.
本文提出的模型GADG 是一種編解碼結(jié)構(gòu),總體框架如圖2 所示.編碼器包括圖注意力網(wǎng)絡(luò)和自適應(yīng)有向圖學(xué)習(xí)(Adaptive Learning,APL),解碼器包括全局特征選擇GFS和軌跡預(yù)測(cè).其中,編碼器中的全局特征更新GFU、自適應(yīng)有向圖學(xué)習(xí)APL和解碼器中的全局特征選擇GFS是本文的主要?jiǎng)?chuàng)新點(diǎn).
圖2 模型的技術(shù)路線圖
3.1.1 單人運(yùn)動(dòng)特征編碼
每個(gè)行人在運(yùn)動(dòng)過(guò)程中有不同的運(yùn)動(dòng)狀態(tài),而LSTM 已被證明能從行人軌跡中提取可以描述或預(yù)測(cè)行人運(yùn)動(dòng)模式的隱藏特征.行人下一時(shí)刻的運(yùn)動(dòng)趨勢(shì)受到當(dāng)前時(shí)刻運(yùn)動(dòng)狀態(tài)的較大影響,為了強(qiáng)化行人當(dāng)前的運(yùn)動(dòng)意圖,增強(qiáng)當(dāng)前特征信息的傳輸,本文在LSTM 中添加殘差連接,形成TS-LSTM,使得行人獲取更豐富的特征信息,增強(qiáng)運(yùn)動(dòng)決策的合理性和準(zhǔn)確性.增加殘差連接前后的對(duì)比情況見4.2 節(jié)中的消融實(shí)驗(yàn),具體實(shí)現(xiàn)如式(1)和式(2)所示.
3.1.2 全局特征更新(GFU)
H==1,2,…,Tm,?i={1,2,…,N}}作為圖3 的輸入.GFU 通過(guò)卷積運(yùn)算θ和β計(jì)算圖中所有行人之間的特征關(guān)聯(lián)程度(親密度),來(lái)獲得目標(biāo)行人的全局更新特征.
圖3 全局特征更新GFU的流程圖
在實(shí)驗(yàn)過(guò)程中,式(3)中的親密度函數(shù)d(hi,hj)有4種定義,4.2 節(jié)中的消融實(shí)驗(yàn)驗(yàn)證了它們的有效性.和分別是和的維度轉(zhuǎn)換結(jié)果,T 表示轉(zhuǎn)置.式(4)中的s(·)是一個(gè)顯示函數(shù),用于計(jì)算相鄰行人的特征.GFU不再局限于近距離的行人特征,所以提升了網(wǎng)絡(luò)在空間域的感受野.經(jīng)過(guò)GFU 后,H被擴(kuò)展為Z=表示全局更新特征.
3.1.3 時(shí)空注意力
(1)空間注意力(SA)
空間注意力綜合了行人間的距離、速度和方向信息.因?yàn)閿?shù)據(jù)集的采樣時(shí)間是0.4 s,輸入為相對(duì)距離,所以相對(duì)速度等于相對(duì)距離除以采樣時(shí)間.相對(duì)方向是計(jì)算行人間的余弦相似性.當(dāng)融合距離Adit、速度Aspd和方向Adic信息后,空間注意力Ae的計(jì)算如式(5)所示.距離Adit構(gòu)造了圖的鄰接矩陣,建立了行人間的連接關(guān)系.為了分別突出速度和方向?qū)D上行人交互的不同影響,Adit分別與速度Aspd和方向Adic相乘后,再通過(guò)加法進(jìn)行特征融合,即AditAspd+AditAdic=Adit(Aspd+Adic),距離、速度和方向?qū)︻A(yù)測(cè)性能影響的消融實(shí)驗(yàn)見4.2節(jié).
其中,a∈R2D′是單層感知機(jī)的權(quán)值向量,Wt∈RD′×D是實(shí)現(xiàn)線性變換的共享權(quán)重,D和D'是輸入輸出維度,||是拼接操作,j表示行人i的鄰居,?表示矩陣的乘法.
(2)圖卷積
結(jié)合注意力Ae和全局特征Z,圖卷積的輸出如式(6)所示.
圖4 多頭圖注意力網(wǎng)絡(luò)
(3)時(shí)域注意力模塊(TAM)
由于行人在不同時(shí)刻的運(yùn)動(dòng)狀態(tài)不同,且不同歷史時(shí)刻的運(yùn)動(dòng)特征對(duì)行人未來(lái)軌跡的影響力度也不同,因此,時(shí)域注意力TAM 可以定義行人在不同時(shí)刻的運(yùn)動(dòng)狀態(tài)的重要程度,激勵(lì)網(wǎng)絡(luò)調(diào)整在時(shí)間維度上的權(quán)值比重,以進(jìn)一步模擬真實(shí)場(chǎng)景,提高網(wǎng)絡(luò)的預(yù)測(cè)性能.給定來(lái)自式(6)的輸入Z,通過(guò)TAM 進(jìn)行時(shí)間關(guān)聯(lián)后,輸出變成R.首先,Z被共享的線性變換函數(shù)f=xw(x是輸入,w是可學(xué)習(xí)的權(quán)值參數(shù))轉(zhuǎn)換維度,經(jīng)過(guò)3 次不同的權(quán)值參數(shù)w的轉(zhuǎn)換,變成式(7)中的3 個(gè)不同的張量Qi、Ki和Vi;其次,用Qi計(jì)算不同時(shí)間步之間的關(guān)聯(lián)程度,也就是時(shí)間注意力;再次,通過(guò)Vi轉(zhuǎn)換維度;最后,把時(shí)間注意力加權(quán)到Vi中得到式(8)的單頭注意力headj.TAM的計(jì)算過(guò)程如圖5所示.
圖5 TAM的計(jì)算過(guò)程
sf是將輸出調(diào)整到合理范圍的比例因子,0<sf<1.根據(jù)實(shí)驗(yàn)結(jié)果,當(dāng)sf=0.5時(shí),預(yù)測(cè)性能最優(yōu).為使網(wǎng)絡(luò)獲取更豐富的特征信息,用式(9)計(jì)算多頭注意力.其中,時(shí)域注意力頭的數(shù)量h_num=8,消融實(shí)驗(yàn)見4.2節(jié).
圖6 自適應(yīng)有向圖APL的學(xué)習(xí)過(guò)程
3.2.1 建立有向特征圖
為了體現(xiàn)行人交互的方向性和不對(duì)稱性,本文設(shè)計(jì)了行與列的級(jí)聯(lián)卷積,交叉融合行人i對(duì)行人j的影響和行人j對(duì)行人i的影響.在實(shí)現(xiàn)過(guò)程中,首先把R表示的圖結(jié)構(gòu)利用1×1的卷積進(jìn)行時(shí)空融合,產(chǎn)生時(shí)空密集交互,然后,對(duì)R'分別實(shí)現(xiàn)行卷積和列卷積,最后把兩種卷積結(jié)果融合,如式(10)所示.E(0)=R',K是卷積核.本文設(shè)置7 層卷積,最終獲得的高級(jí)交互特征表示為E.
3.2.2 構(gòu)建自適應(yīng)圖模型
(1)自適應(yīng)學(xué)習(xí)
級(jí)聯(lián)卷積使行人間的交互具有了方向,但圖結(jié)構(gòu)不能隨著場(chǎng)景的變化而改變,存在很多冗余連接.比如在圖結(jié)構(gòu)中,后面的行人仍會(huì)對(duì)前面的行人軌跡產(chǎn)生影響.為此,本文學(xué)習(xí)閾值ξ∈[0,1]來(lái)消除不必要的交互.通過(guò)實(shí)驗(yàn),當(dāng)ξ=0.5時(shí),網(wǎng)絡(luò)的預(yù)測(cè)性能最好.在式(11)中,I(·)是指示函數(shù),如果不等式成立輸出1,否則輸出0.
(2)非零規(guī)范化
為了增加自連接,在F中需增加大小相等的單位矩陣I.然后通過(guò)元素相乘形成特征矩陣Gsp,如式(12)所示,⊙代表元素相乘.本文對(duì)編碼結(jié)果歸一化時(shí)發(fā)現(xiàn),零輸入值經(jīng)過(guò)Softmax 后變成非零值,使得沒(méi)有交互連接的行人被重新影響,冗余連接再次產(chǎn)生.為了避免這個(gè)問(wèn)題,本文設(shè)計(jì)了調(diào)整因子?,來(lái)保持特征矩陣的稀疏性.
(3)編碼輸出
首先,把自適應(yīng)有向圖輸入圖注意力網(wǎng)絡(luò),輸出為G,表達(dá)式如式(14),Z來(lái)自式(6).其次,在行人運(yùn)動(dòng)過(guò)程中,目標(biāo)行人的軌跡變化不僅來(lái)自周圍行人的相互作用,還取決于目標(biāo)行人自身的影響.
3.3.1 全局特征選擇(GFS)
在使用LSTM 預(yù)測(cè)軌跡之前,為了提高時(shí)域的感知范圍,選擇重要的行人特征并控制特征信息的流動(dòng),本文設(shè)計(jì)GFS.
GFS 由卷積層和特征選擇組成,具體結(jié)構(gòu)如圖7 所示.輸入來(lái)自式(15),由C0表示,具體的表達(dá)式為C0=
(1)卷積層
在圖7 左側(cè)中,GFS 有3 個(gè)卷積層,卷積核是3×3.為了確保輸入和輸出的長(zhǎng)度相同,需要使用填充操作來(lái)保持卷積前后的特征映射不變.觀察圖中紅線的變化可以發(fā)現(xiàn),隨著卷積層的加深,感受野變得越來(lái)越大.例如,假設(shè)把圖中的省略號(hào)表示的多個(gè)時(shí)間步看成一個(gè)時(shí)間步,那么經(jīng)過(guò)3 層卷積,輸出的一個(gè)時(shí)間步特征能感知輸入的7 個(gè)時(shí)間步的特征,這便提高了網(wǎng)絡(luò)在時(shí)域的接收范圍.經(jīng)過(guò)每個(gè)時(shí)間步特征的相互疊加,網(wǎng)絡(luò)便獲取了全局時(shí)域特征.
圖7 全局特征選擇GFS的架構(gòu)圖
(2)特征選擇
為了從卷積層中選擇重要的行人特征并控制特征信息的流動(dòng),圖7右側(cè)設(shè)計(jì)了由兩個(gè)激活函數(shù)組成的選通機(jī)制.當(dāng)兩個(gè)激活函數(shù)分別為Tanh和Sigmoid 時(shí),模型表現(xiàn)最好.圖中的一個(gè)圓可以代表許多行人,方框表示不同的時(shí)間步.GFS之后,最終輸出如式(16)所示.
其中,Wa和Wσ是兩個(gè)激活函數(shù)的權(quán)重,b是偏差,C3是最后卷積層的輸出.
3.3.2 軌跡預(yù)測(cè)
圖2 中的解碼部分是在LSTM 上增加殘差連接形成P-LSTM 來(lái)預(yù)測(cè)軌跡.P-LSTM 的結(jié)構(gòu)類似于TSLSTM.為了模擬真實(shí)場(chǎng)景,在訓(xùn)練過(guò)程中,對(duì)服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)的隨機(jī)噪聲U進(jìn)行采樣,并與O連接作為P-LSTM的輸入,如式(17)所示.是初始隱藏狀態(tài),來(lái)自式(1)的表示初始輸入,We是P-LSTM 的可更新權(quán)重.式(18)的是最終預(yù)測(cè)的行人相對(duì)位置.通過(guò)后續(xù)輸入,相對(duì)位置可以轉(zhuǎn)換為絕對(duì)位置.
為了模擬行人運(yùn)動(dòng)的不確定性,本文使用多樣性損失策略.受隨機(jī)噪聲U的影響,k個(gè)結(jié)果可在一次訓(xùn)練中生成.這些結(jié)果分別計(jì)算L2 距離,并將最小值作為損失,如式(19)所示.
其中,Yi是真實(shí)軌跡,是預(yù)測(cè)軌跡,k是超參數(shù),在本文中,k=20.
(1)數(shù)據(jù) 驗(yàn)在2 個(gè)開放數(shù)據(jù)集ETH和UCY 上進(jìn)行了驗(yàn)證.這2 個(gè)數(shù)據(jù)集包括5 個(gè)室外拍攝的鳥瞰場(chǎng)景,共2 206 條行人軌跡,詳細(xì)介紹見表1.本文參考了Social GAN[9]的數(shù)據(jù)預(yù)處理策略,所有數(shù)據(jù)都轉(zhuǎn)換為世界坐標(biāo).
表1 ETH/UCY數(shù)據(jù)集
(2)評(píng)估指標(biāo)
式(20)為平均位移誤差(Average Displacement Error,ADE)和最終位移誤差(Final Displacement Error,F(xiàn)DE)的計(jì)算方式,主要用于計(jì)算預(yù)測(cè)軌跡和真實(shí)軌跡之間的差異.指標(biāo)值越小,網(wǎng)絡(luò)性能越好.
(3)實(shí)驗(yàn)細(xì)節(jié)
實(shí)驗(yàn)在Pytorch=1.2 的環(huán)境中運(yùn)行.訓(xùn)練過(guò)程使用兩個(gè)NVIDIA GeForce GTX-1080 GPU.行人的相對(duì)坐標(biāo)是模型的輸入.TS-LSTM 的隱藏狀態(tài)和圖卷積的輸出為32維向量,隨機(jī)噪聲U為16維.模型使用Adam進(jìn)行優(yōu)化,批量大小為64.觀測(cè)的歷史軌跡為3.2 秒(8 個(gè)時(shí)間步),預(yù)測(cè)軌跡為4.8秒(12個(gè)時(shí)間步).
消融實(shí)驗(yàn)在ZARA2 數(shù)據(jù)集上進(jìn)行.由于基線模型的預(yù)測(cè)長(zhǎng)度為12 個(gè)時(shí)間步,所以在驗(yàn)證各個(gè)模塊對(duì)網(wǎng)絡(luò)性能的影響時(shí),預(yù)測(cè)長(zhǎng)度設(shè)置為12 個(gè)時(shí)間步.其余消融實(shí)驗(yàn)的預(yù)測(cè)長(zhǎng)度設(shè)為8.
4.2.1 模塊內(nèi)的消融實(shí)驗(yàn)
表2是超參數(shù)的設(shè)置實(shí)驗(yàn),由于這些超參數(shù)是基線模型自帶的參數(shù),所以表2 的消融實(shí)驗(yàn)以基線為基礎(chǔ),用黑色粗體突出最好的結(jié)果.當(dāng)圖卷積層數(shù)l=2、多頭圖注意力h=4和預(yù)測(cè)次數(shù)k=20的時(shí)候,模型取得了較好的性能.這說(shuō)明,圖卷積網(wǎng)絡(luò)具有淺層特征,多頭圖注意力可以強(qiáng)化模型的學(xué)習(xí)能力以及k表示的多樣性軌跡能體現(xiàn)行人運(yùn)動(dòng)的不確定性.
表2 圖卷積層數(shù)l、圖注意力頭數(shù)h和預(yù)測(cè)次數(shù)k的消融實(shí)驗(yàn)
表3 用黑色粗體突出的是最好結(jié)果,可以看出,與基線相比,當(dāng)親密度函數(shù)是嵌入高斯函數(shù)時(shí),模型的表現(xiàn)最好.在LSTM 上增加殘差連接后,ADE和FDE 分別比基線降低10%和7.5%,這證明了殘差連接對(duì)于預(yù)測(cè)性能的提升是有效的.
表3 親密度函數(shù)與LSTM上殘差連接的消融實(shí)驗(yàn)
表4和表5 中用黑色粗體突出最好的結(jié)果.表4 顯示,融合了行人的距離、速度和方向的空間注意力,能使網(wǎng)絡(luò)獲得詳細(xì)的行人交互,多特征融合能提升網(wǎng)絡(luò)的預(yù)測(cè)性能.表5中的數(shù)據(jù)不僅體現(xiàn)了多頭注意力的有效性,還確定了最佳時(shí)域注意力頭數(shù)是8.時(shí)域注意力體現(xiàn)的是目標(biāo)行人在不同時(shí)刻的歷史運(yùn)動(dòng)狀態(tài)對(duì)其未來(lái)軌跡的影響,而多頭注意力能從多個(gè)角度關(guān)聯(lián)歷史運(yùn)動(dòng)信息.
表4 行人間的距離、速度和方向?qū)︻A(yù)測(cè)性能的影響
表5 時(shí)域注意力頭數(shù)的設(shè)置實(shí)驗(yàn)
4.2.2 模塊間的消融實(shí)驗(yàn)
基線STGAT[14]的圖注意力網(wǎng)絡(luò)根據(jù)距離獲得行人間的空間交互,使用兩個(gè)LSTM 分別對(duì)時(shí)域的個(gè)人運(yùn)動(dòng)狀態(tài)和行人交互進(jìn)行編碼.在預(yù)測(cè)行人軌跡時(shí),也使用了LSTM,預(yù)測(cè)長(zhǎng)度為12 個(gè)時(shí)間步.本節(jié)主要是驗(yàn)證全局特征更新GFU、自適應(yīng)學(xué)習(xí)APL和全局特征選擇GFS 對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如表6 所示,用黑色粗體突出最好的結(jié)果.Res 是在LSTM 上添加的殘差連接.表6 中的數(shù)據(jù)證明了在GADG 中設(shè)計(jì)的各個(gè)模塊可以進(jìn)一步提高預(yù)測(cè)性能.尤其是同時(shí)增加GFU,APL和GFS 后,模型的性能達(dá)到最優(yōu),這也證明了本文提出的模型GADG 的有效性.在基線上增加全局特征更新GFU,并在LSTM 上增加殘差連接的網(wǎng)絡(luò),本文稱之為擴(kuò)展圖注意力網(wǎng)絡(luò)(Extended Graph Attention Network,EGAT),以便于后面的軌跡比較.
表6 各個(gè)模塊的消融實(shí)驗(yàn)
4.3.1 與先進(jìn)技術(shù)的比較
在表7中,排在前三位的預(yù)測(cè)指標(biāo)值分別用紅、綠、藍(lán)三種顏色表示.表中標(biāo)有*的模型生成確定的軌跡,未標(biāo)記的模型生成多種軌跡,并選擇最佳軌跡進(jìn)行對(duì)比.實(shí)驗(yàn)結(jié)果表明,與其他模型相比,本文提出的模型GADG 在所有場(chǎng)景數(shù)據(jù)集中都優(yōu)于基線STGAT,ADE和FDE 的平均值分別比STGAT 降低14%和12%.與最優(yōu)值相比,ADE和FDE 的平均值分別降低14%和3%.ETH 的ADE/FDE,HOTEL 的ADE/FDE,ZARA2 的ADE以及ADE和FDE 的均值都達(dá)到最優(yōu).在UNIV 中,高密度人群涉及更多的行人交互,迫使目標(biāo)行人在轉(zhuǎn)彎、穿越人群等不同選項(xiàng)中做出決策,這使得預(yù)測(cè)更具有挑戰(zhàn)性.在ZARA1 中,行人的軌跡經(jīng)常受到周圍行人和障礙物的影響,這可能會(huì)改變或限制人類活動(dòng),導(dǎo)致模型無(wú)法捕捉更多的社交互動(dòng).
表7 在ETH/UCY數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比較
4.3.2 推斷時(shí)間
表8 比較了不同方法的推理時(shí)間,通過(guò)比較可以發(fā)現(xiàn),GADG 在推理過(guò)程中具有較高的計(jì)算效率.這歸因于其計(jì)算過(guò)程只使用視覺(jué)信息,不需要在場(chǎng)景中檢測(cè)和跟蹤行人.但由于GADG 使用了遞歸網(wǎng)絡(luò)LSTM進(jìn)行部分時(shí)態(tài)推理,因此,本模型的推理速度略慢于Social-STGCNN.但與STGAT 相比,GADG 的推理速度依然很快.這是因?yàn)镚ADG 不僅增加了感受野,提高了數(shù)據(jù)并行處理的效率,還能利用圖的自適應(yīng)學(xué)習(xí)精簡(jiǎn)模型結(jié)構(gòu).
表8 推斷時(shí)間比較
4.4.1 訓(xùn)練過(guò)程對(duì)比
在相同的實(shí)驗(yàn)環(huán)境下,GADG和STGAT 的訓(xùn)練過(guò)程在圖8 中進(jìn)行了比較.圖中ADE和FDE 的變化趨勢(shì)存在幾個(gè)特點(diǎn).首先,GADG 隨著訓(xùn)練進(jìn)度的推進(jìn)更加穩(wěn)定,比STGAT 更快地?cái)M合.其次,擬合后,GADG 的ADE和FDE 均優(yōu)于STGAT,且都超過(guò)了最優(yōu)值.最后,STGAT 在ADE 上的變化先降后升,說(shuō)明更多的迭代使得STGAT 的性能沒(méi)有提高反而下降.也就是,盡管STGAT能夠適應(yīng)樣本,但對(duì)樣本的擬合能力不強(qiáng).
圖8 訓(xùn)練過(guò)程分析
4.4.2 自適應(yīng)有向圖的可視化
圖9 不僅展示了模型在不同場(chǎng)景中行人之間的交互影響,而且還能捕捉到行人具體的交互對(duì)象.圖中由實(shí)線帶箭頭表示的交互連接具有不同的方向和顏色,說(shuō)明了行人間的交互具有方向性和不對(duì)稱性.連接顏色越深,行人間的影響越大,且影響程度從藍(lán)色、紫色到紅色依次遞增.例如,在圖9(a)中,由于綠色節(jié)點(diǎn)到藍(lán)色節(jié)點(diǎn)的連接顏色(深紅色)比藍(lán)色節(jié)點(diǎn)到綠色節(jié)點(diǎn)的連接顏色(淡紅色)深,所以綠色節(jié)點(diǎn)對(duì)藍(lán)色節(jié)點(diǎn)的影響大于藍(lán)色節(jié)點(diǎn)對(duì)綠色節(jié)點(diǎn)的影響,這與現(xiàn)實(shí)場(chǎng)景是一致的.在圖9(b)和圖9(c)中,通過(guò)交互連接的方向可以發(fā)現(xiàn),紅色節(jié)點(diǎn)的軌跡僅受自身歷史軌跡的影響.此外,根據(jù)交互連接的指示方向,模型還可以動(dòng)態(tài)捕獲目標(biāo)行人的交互對(duì)象.例如,圖9(a)中的藍(lán)色節(jié)點(diǎn)與綠色和黃色節(jié)點(diǎn)交互,與棕色節(jié)點(diǎn)無(wú)交互關(guān)系;在圖9(c)中,除紅色節(jié)點(diǎn)外,綠色節(jié)點(diǎn)與所有節(jié)點(diǎn)交互,但藍(lán)色節(jié)點(diǎn)的交互節(jié)點(diǎn)只有黃色節(jié)點(diǎn).
圖9 自適應(yīng)有向圖的可視化
4.4.3 軌跡可視化
圖10比較了行人在同向或異向行走、多人并行、相遇、群組行走的軌跡變化,黃色虛線(預(yù)測(cè)軌跡)和藍(lán)色實(shí)線(真實(shí)軌跡)的重合度越高,預(yù)測(cè)精度越高.對(duì)于群體運(yùn)動(dòng),行人交互是復(fù)雜的,觀察重合度可以看出GADG 預(yù)測(cè)的軌跡比EGAT和STGAT 更準(zhǔn)確.STGAT擅長(zhǎng)預(yù)測(cè)線性軌跡,而GADG 可以推斷行人軌跡的變化,如圖10(c)(e)(f)所示.當(dāng)行人直行時(shí),STGAT 可以預(yù)測(cè)符合現(xiàn)實(shí)的軌跡,但精度比EGAT 差.這是因?yàn)镋GAT 在融合運(yùn)動(dòng)特征時(shí)利用全局特征更新GFU 捕獲了行人的全局交互.但是與GADG 相比,EGAT 的預(yù)測(cè)精度較差.其原因是GADG能在自適應(yīng)學(xué)習(xí)過(guò)程中建立合理的自適應(yīng)有向圖,并能利用全局特征選擇GFS提升時(shí)域的感知范圍并獲取行人在運(yùn)動(dòng)過(guò)程中的顯著特征.當(dāng)行人非線性移動(dòng)(如轉(zhuǎn)彎、曲折行走)時(shí),如圖10(a)(b)(d)(e),STGAT 不能準(zhǔn)確預(yù)測(cè)行人的未來(lái)軌跡,但GADG 卻可以合理地預(yù)測(cè)貼近真實(shí)的軌跡.在圖10(e)中,當(dāng)一名身穿黑色T 恤衫的女士穿過(guò)人群時(shí),STGAT 預(yù)測(cè)的黃色虛線較短,與藍(lán)色實(shí)線表示的真實(shí)軌跡相差很大.也就是,STGAT預(yù)測(cè)該女士將在原地等待.但EGAT和GADG 卻推斷出她即將穿過(guò)人群,這主要得益于GFU 實(shí)現(xiàn)的全局特征關(guān)聯(lián).但是,GADG 的預(yù)測(cè)精度更好,這就證明APL和GFS 對(duì)預(yù)測(cè)性能的提升是有效的.在圖10(b)中,EGAT和GADG能判斷靜止行人(軌跡由點(diǎn)表示)并預(yù)測(cè)其未來(lái)的靜止?fàn)顟B(tài),而STGAT 將靜止行人視為移動(dòng)行人.這些可視化結(jié)果直觀地表明,與STGAT 生成的軌跡相比,本文提出的模型GADG能夠更好地捕捉全局交互和顯著的運(yùn)動(dòng)特征,并能生成更可靠的行人軌跡.
圖10 預(yù)測(cè)軌跡的可視化
在UNIV 數(shù)據(jù)集中,行人的數(shù)量不多但密集度很高,建立的圖模型比較復(fù)雜,行人之間存在著更加復(fù)雜的交互.圖11 展示了在密集行人的場(chǎng)景中預(yù)測(cè)的未來(lái)軌跡.根據(jù)真實(shí)軌跡和預(yù)測(cè)軌跡的重合度可以發(fā)現(xiàn),本文提出的模型能取得較好的預(yù)測(cè)效果.由于觀測(cè)軌跡是8 個(gè)時(shí)間步,預(yù)測(cè)軌跡是12 個(gè)時(shí)間步,在建立圖模型的過(guò)程中,模型會(huì)忽略當(dāng)前場(chǎng)景中達(dá)不到要求的行人.所以,圖11 顯示的是達(dá)到上述要求的部分行人的預(yù)測(cè)軌跡,而不滿足要求的行人多為剛進(jìn)入或即將走出場(chǎng)景以及正在行走但未達(dá)到時(shí)間步數(shù)量的人.
圖11 密集行人的預(yù)測(cè)軌跡
4.4.4 存在的問(wèn)題及研究方向
當(dāng)場(chǎng)景中同時(shí)有大量行人出現(xiàn)時(shí),由于行人比較密集,因此行人之間的特征差異減小,導(dǎo)致空間注意力均勻分布,如圖12所示.在圖12中,周圍行人上的圓圈越大,說(shuō)明此行人對(duì)目標(biāo)行人的影響越大.而圖中卻顯示了大小差不多的圓圈,即模型產(chǎn)生了均勻分布的注意力.因此,未來(lái)的研究重點(diǎn)將是為模型添加額外的輔助信息,例如場(chǎng)景信息、行人的社會(huì)屬性信息等.只有對(duì)這些信息進(jìn)行整合,才能把握行人的運(yùn)動(dòng)意圖,模擬行人的最終行為決策.另外,面對(duì)異常復(fù)雜的人群數(shù)據(jù)集,還需要提升模型的泛化性能.
圖12 空間注意力均勻分布
本文提出了一種基于全局自適應(yīng)有向圖的行人軌跡預(yù)測(cè)方法GADG,旨在解決行人軌跡預(yù)測(cè)過(guò)程中存在的時(shí)空感知范圍小、行人之間的交互對(duì)稱和圖結(jié)構(gòu)固定不隨場(chǎng)景變化的問(wèn)題.模型在5個(gè)開放的場(chǎng)景數(shù)據(jù)集上取得了優(yōu)異的實(shí)驗(yàn)性能.實(shí)驗(yàn)結(jié)果表明,GADG 能提高模型的時(shí)空感知范圍,根據(jù)行人之間的不對(duì)稱交互強(qiáng)化方向感知,自適應(yīng)調(diào)整圖結(jié)構(gòu),并能預(yù)測(cè)更可靠的行人運(yùn)動(dòng)軌跡.然而,當(dāng)場(chǎng)景中突然出現(xiàn)許多行人時(shí),行人之間的特征差異隨著行人數(shù)量的增加而減小,導(dǎo)致注意力均勻分布.所以,結(jié)合場(chǎng)景、行人社會(huì)屬性等信息,及時(shí)判斷行人的運(yùn)動(dòng)意圖,為將來(lái)的研究指明了方向.