張子涵,周斌,李文豪
(中南民族大學計算機科學學院,武漢 430074)
近年來,隨著計算機視覺和人工智能的進步,軌跡處理技術(shù)廣泛應(yīng)用于機器人導(dǎo)航、自動駕駛、視頻的智能監(jiān)控等領(lǐng)域。人類軌跡的預(yù)測最近已經(jīng)成為計算機視覺界一個充滿活力的研究課題。軌跡預(yù)測是根據(jù)過去的運動軌跡進行建模,從而預(yù)測未來一段時間的軌跡,其中行人的軌跡預(yù)測是軌跡預(yù)測領(lǐng)域研究的基礎(chǔ)與重點?,F(xiàn)有的行人軌跡預(yù)測研究工作可以分為基于傳統(tǒng)模型和基于深度學習的方法。
Kalman提出卡爾曼濾波,將統(tǒng)計學應(yīng)用于軌跡預(yù)測,利用前一時刻的狀態(tài)(和可能的測量值)來得到當前時刻下狀態(tài)的最優(yōu)估計。Chen等提出了光流卡爾曼濾波,此模型較傳統(tǒng)的卡爾曼濾波更精準,但只能局限于速度不變,運動較慢的行人。Williams提出用高斯過程分布來對行人的速度和方向等運動參數(shù)進行建模。Helbing和Molnar的Social Forces模型是經(jīng)典論文之一,他們提出了兩種力,第一種力是引導(dǎo)人們相互走近的吸引力,第二種力是使行人避免碰撞的排斥力。Trautman和Krause提出進一步的改進,在Social Forces模型基礎(chǔ)上利用高斯IGP得出行人軌跡的概率性預(yù)測。這些傳統(tǒng)模型局限于手動設(shè)置的行人屬性和函數(shù),僅適用于行人基本沒有互動的情況,逐漸被數(shù)據(jù)所驅(qū)動的深度學習模型所超越。
行人的軌跡可以看做一個典型的序列到序列(sequence-to-sequence,seq2seq)問題,因此善于處理時間序列的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)逐漸走進研究者們的視野。然而,由于梯度消失或梯度爆炸的問題,簡單的RNN很難記住長期的輸入信息,所以研究者設(shè)計出擅長處理長期依賴關(guān)系數(shù)據(jù)的長短期記憶網(wǎng)絡(luò)(LSTM),尤其是LSTM在時間序列數(shù)據(jù)處理的成功應(yīng)用如語音識別、語言翻譯、圖像字幕等,為行人的軌跡預(yù)測提供了嶄新的思路。最經(jīng)典的是Alahi等提出的Social-LSTM模型,此模型中提出了一個新的概念“Social Pooling”,即根據(jù)行人的空間距離判斷處于鄰域內(nèi)行人的隱藏狀態(tài)進行共享,得到行人周圍的信息,以代表其他行人對目標行人軌跡的影響。其結(jié)果表明,Social-LSTM模型平均比Social Forces模型和其他基線方法更接近真實結(jié)果。然而,Social-LSTM模型對于重要場景的上下文信息具有一定的局限性。Lee等提出了深度隨機逆最優(yōu)控制RNN編碼器-解碼器(desire)框架,將場景上下文進行排序和細化而不是直接對場景信 息 納 入 軌 跡 預(yù) 測。Bartoli等用contentpooling層進一步拓展了Social-LSTM模型,這也使神經(jīng)網(wǎng)絡(luò)能夠研究障礙如何影響行人運動。Xue等創(chuàng)新性地提出了三種分工不同的LSTM來分別捕獲行人過去的信息、行人彼此的互動信息和場景布局的信息,并用圓形鄰域代替矩形鄰域,使得預(yù)測精準度進一步提高。
如今,各種軌跡預(yù)測模型算法也被應(yīng)用于運動員的軌跡預(yù)測。預(yù)測運動員的運動軌跡相比于預(yù)測行人軌跡更加困難,因為每一個運動員對于下一時刻運動行為的選擇,不僅取決于自身的意圖,還取決于其他運動員的位置、運動方向以及運動速度。這些因素并不能直接觀察得到,只能從過去的信息推測出來。特別是在足球、籃球或者短道速滑等具有激烈對抗性的運動比賽中,預(yù)測運動軌跡具有極其關(guān)鍵的地位,能否提高預(yù)測精度,對于充分了解己方和對方運動員的位置信息與運動方式對在比賽中獲得戰(zhàn)術(shù)優(yōu)勢,或者賽后的比賽數(shù)據(jù)精準分析來說都至關(guān)重要。Cohan使用LSTM來預(yù)測籃球運動員最佳的運動位置。Zheng等也研究了NBA球員的軌跡預(yù)測,提出了一個基于VAE和LSTM的深度生成模型,并經(jīng)過弱監(jiān)督訓練的深度生成模型來預(yù)測整個球隊的軌跡。
在本文工作中,將軌跡預(yù)測應(yīng)用于短道速滑中,旨在預(yù)測分析運動員的運動軌跡。短道速滑的軌跡分析屬于運動員軌跡預(yù)測領(lǐng)域,可以借鑒現(xiàn)代的行人軌跡預(yù)測理論方法進行研究。短道速滑運動員運動特點與行人的特點相比主要有以下不同:
(1)短道速滑運動員的運動方向都是同向的,而行人的運動方向并不固定,受到場景和其他行人的影響。
(2)短道速滑運動員的運動速度與行人行走速度相比更快且變化更頻繁。因此,本文將運動員的速度信息作為重要條件。
(3)短道速滑運動員的運動軌跡相比行人而言,更具有規(guī)律性。
雖然,短道速滑運動軌跡具有規(guī)律性,大致分為直道軌跡和彎道軌跡。但是,在短道速滑訓練或者比賽中,運動員之間出現(xiàn)頻繁的遮擋及位置交錯的情況下難以避免地會出現(xiàn)運動員的軌跡紊亂現(xiàn)象,是否能準確地預(yù)測短道速滑運動員軌跡成為了一種挑戰(zhàn)。
綜上所述,本文提出了一個基于LSTM編碼器-解碼器(encoder-decoder)框架的位置速度信息LSTM(position-velocity-LSTM,PV-LSTM)的軌跡預(yù)測模型,將軌跡預(yù)測應(yīng)用于短道速滑中,專注于運動員在真實訓練或者比賽中的運動軌跡,從而準確預(yù)測運動員未來的軌跡。
PV-LSTM在Encoder模塊采用速度和位置LSTM分別處理位置和速度信息,并在Encoder和Decoder中間引入注意力機制,添加速度注意力機制模塊,計算速度權(quán)重對軌跡影響較大的運動員軌跡信息,旨在提升軌跡預(yù)測的精度,最后在Decoder模塊對軌跡進行預(yù)測。
在運動比賽或訓練中,假設(shè)場上的運動員數(shù)量為,所以在時刻,場景中的每個運動員都由2D坐標(x,y)表示。我們從=1到=T觀察每個運動員的位置,目的是預(yù)測運動員從=T到=T的位置,其中T與T分別表示結(jié)束觀察的時刻和結(jié)束預(yù)測的時刻。給定觀察軌跡P=[(,),…,(x,y)],其中和分別代表橫向位置和縱向位置。對于速度信息來說,短道速滑運動員在做行為決策的時候,相對速度比絕對速度更為重要,因此對于周圍的速滑運動員,本文選擇與目標運動員的相對速度作為輸入U=[(,),…,(u,v)],其中和分別代表橫向速度和縱向速度。輸入到編碼器中的歷史位置和速度信息是:
其中,表示運動員中的一員,在時刻的歷史位置信息和速度信息。
整個網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,模型框架包括如下幾個模塊:LSTM編碼器模塊、注意力模塊和LSTM解碼器模塊。LSTM編碼器模塊首先將觀察到的位置信息和速度信息分別輸入到位置LSTM模塊和速度LSTM模塊,以獲得相應(yīng)模塊的隱藏狀態(tài)。接著將速度隱藏狀態(tài)輸入到對應(yīng)的注意力模塊中進行加權(quán)求和,再與位置隱藏狀態(tài)連接形成最終上下文向量,最后LSTM解碼器模塊生成預(yù)測的軌跡。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖
編碼器模塊是由多層感知機(multi-layer perception,MLP)、位 置LSTM和 速 度LSTM組成。對于輸入進編碼器的每個運動員的位置和速度信息,本模型通過MLP把信息分別嵌入到向量中,即:
其中,A和B是運動員在各個時刻的位置和速度隱藏狀態(tài)總和。
傳統(tǒng)編碼器輸出的B不能完全代表T之內(nèi)所有的速度狀態(tài)信息,因為編碼器-解碼器模型具有一定的局限性,第一個輸入序列信息會被隨后輸入序列數(shù)據(jù)稀釋或覆蓋,而且隨著輸入序列長度的增加,這種現(xiàn)象會更加嚴重。
為了解決這一問題,本模型采用注意力機制,其核心思想是在解碼過程的每一個時刻,都會選擇更合適的上下文向量。在本實驗中,不同時間的速度信息對未來軌跡有不同的影響,注意力機制可以使影響預(yù)測結(jié)果的信息分配更大的權(quán)重,聚焦有用的信息,使預(yù)測更加精準。上下文向量本質(zhì)上就是將所有隱藏狀態(tài)進行加權(quán)求和得到的,B可以改寫為:
最終,得到速度的上下文向量并與所有位置信息的隱藏狀態(tài)進行連接,即:
其中是具非線性的全連接層,使得輸出的是最終的上下文向量,并輸入到LSTM解碼模塊。
通過注意力模塊輸入到本模塊的是最終上下文向量C,本模塊的結(jié)構(gòu)是標準的LSTM模型,輸出的預(yù)測軌跡計算公式如下:
上一個時間步LSTM解碼器的輸出作為輸入傳遞給下一個時間步LSTM解碼器,也就是說解碼器在時間步時攜帶著時間步-1的位置與信息,在輸入到下一個時間步之前對位置與速度信息進行加權(quán)并更新。
本文將嵌入層的維度設(shè)置為16,每個LSTM層的維度設(shè)置為32。該模型使用Adam優(yōu)化器進行訓練,初始學習率為0.001。在訓練過程中,本預(yù)測模型將Droput率設(shè)置為0.2,以避免過度擬合。本文使用的數(shù)據(jù)集有速滑運動員日常訓練的數(shù)據(jù)集(DET),由多名速滑運動員日常訓練數(shù)據(jù)組成,ETH由750名行人數(shù)據(jù)組成,UCY由786名行人數(shù)據(jù)組成。ETH包含ETH和Hotel場景,UCY包含UNIV,ZARA1和ZARA2場景,數(shù)據(jù)集包含了豐富的現(xiàn)實世界場景。本文使用平均位移誤差(ADE)和最終位移誤差(FDE)兩個指標,其值越小表示誤差越小,精確度越高。
(1)ADE是預(yù)測軌跡與地面真值軌跡中所有點之間的平均歐氏距離。
(2)FDE定義為預(yù)測軌跡的最終點(目標點)與地面真值目標點之間的歐氏距離。
為了檢測PV-LSTM模型相較于其他模型的精度提升,將所有模型進行實驗并與基準模型進行對比:
(1)Vanilla-LSTM:僅將位置信息作為輸入,并且沒有任何交互模塊的LSTM,本文將此設(shè)為基準模型,作為參考標準。
(2)Social-LSTM:采用一個社會池化層對人與人之間的相互作用進行建模的LSTM。
(3)PV-LSTM-NA(沒有注意力模塊):取消注意力模塊之后的PV-LSTM。
實驗運行在Ubuntu20.04 LTS的操作系統(tǒng)上,GPU為NVIDIA GTX 2060,采用的是Pytorch 1.7.1的深度學習框架,CUDA 11.0的運行環(huán)境。
第一組實驗是各個實驗?zāi)P驮诙痰浪倩\動員日常訓練的數(shù)據(jù)集(DET)上訓練并測試,旨在判斷本文模型對速滑運動員軌跡的有效提升性。具體的實驗結(jié)果如表1所示。
綜合表1可以得出,各種網(wǎng)絡(luò)模型在DET數(shù)據(jù)集下實驗結(jié)果均較為理想,但是,PVLSTM在兩個指標下的性能結(jié)果均優(yōu)于Vanilla-LSTM、Social-LSTM和PV-LSTM-NA。結(jié)合具體場景情況而言,短道速滑運動的場地分為兩段直道和兩段彎道。對于直道,軌跡多成線性狀態(tài),各個網(wǎng)絡(luò)模型均能預(yù)測較為精準,差距并不大。因此,圖2分別表示的是各個網(wǎng)絡(luò)模型下場地左側(cè)和場地右側(cè)對于同一名運動員運動預(yù)測軌跡對比可視化。可以清晰地看出本文模型在彎道比Vanilla-LSTM和Social-LSTM的精準性更高,對于短道速滑軌跡分析具有關(guān)鍵性的作用。綜上表明,PV-LSTM相對于基準模型,其ADE和FDE精度分別提升22.86%和21.95%,均優(yōu)于其他模型,在短道速滑軌跡預(yù)測,尤其是彎道的軌跡預(yù)測更精準,更具有實際的應(yīng)用價值。
圖2 賽道左右兩側(cè)彎道預(yù)測軌跡可視化
表1 各種模型在DET數(shù)據(jù)集下ADE和FDE結(jié)果對比
第二組實驗是各個實驗?zāi)P驮贓TH和UCY上訓練,即分別在4個場景上訓練,在剩下的一個場景上測試,依次循環(huán)5次,旨在判斷本文模型對軌跡預(yù)測的不同場景的泛化性。具體實驗結(jié)果如表2所示。
綜合表2可以看出,Vanilla-LSTM、Social-LSTM和PV-LSTM-NA在ETH和UCY的各 個數(shù)據(jù)集的表現(xiàn)各有千秋。本文提出的PV-LSTM在各個數(shù)據(jù)集上雖具有良好的效果,但是性能結(jié)果 相 比Vanilla-LSTM、Social-LSTM和PVLSTM-NA并不具備明顯的優(yōu)勢,這是因為行人的速度比運動員的速度慢太多,速度變化也不是很明顯。結(jié)合實際場景分析,ETH場景下的行人進出建筑物的運動軌跡大多都是非線性的,因此各個模型的預(yù)測效果均不理想。在HOTEL,ZARA1和ZARA2場景中的行人密度穩(wěn)定,行人軌跡大多呈直線性狀態(tài),各模型的預(yù)測結(jié)果較為理想。本文提出的PV-LSTM在各個數(shù)據(jù)集訓練和測試的結(jié)果與基準模型相比,ADE和FDE平均精度分別提升了6.67%和6.52%,均優(yōu)于其他模型。進一步表明PV-LSTM精度更高的同時具有一定的泛化性。
表2 各種模型在各數(shù)據(jù)集下的ADE和FDE結(jié)果對比
針對短道速滑運動員在場地上運動時,因速度快、較擁擠等情況容易導(dǎo)致軌跡紊亂的痛點,本文設(shè)計了一種基于注意力機制的編碼器-解碼器軌跡預(yù)測模型,構(gòu)造一個包含LSTM編碼器模塊,一個注意力模塊,一個LSTM解碼器模塊的網(wǎng)絡(luò)模型。實驗結(jié)果表明,在與文獻中現(xiàn)有的模型相比,在真實的運動員訓練數(shù)據(jù)集上,尤其是在關(guān)鍵的彎道軌跡預(yù)測中具有更高的精準性,PV-LSTM模型在ETH/UCY上具有一定的泛化性,證明了本文PV-LSTM模型的可行性。