孫運(yùn)淼,林鋒,周激流
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
隨著移動(dòng)場(chǎng)景時(shí)代的到來(lái),移動(dòng)設(shè)備與社交網(wǎng)絡(luò)在全球范圍內(nèi)迅速普及、衛(wèi)星定位與無(wú)線(xiàn)通信技術(shù)快速發(fā)展,不同場(chǎng)景中類(lèi)型各異的大量移動(dòng)對(duì)象得到了持續(xù)和廣泛的有效追蹤,海量的移動(dòng)軌跡數(shù)據(jù)由此得到采集與存儲(chǔ)。在這些移動(dòng)軌跡數(shù)據(jù)中,蘊(yùn)藏了指向環(huán)境特性、個(gè)體行為、社會(huì)規(guī)律等多方面的豐富信息,有著巨大的學(xué)術(shù)價(jià)值與應(yīng)用前景。如何根據(jù)任務(wù)需要從中挖掘出有價(jià)值的潛在信息,已經(jīng)成為了數(shù)據(jù)挖掘領(lǐng)域中的重要課題。
移動(dòng)軌跡作為一種時(shí)間序列信息,具有數(shù)據(jù)規(guī)模大、規(guī)律周期長(zhǎng)等特點(diǎn);作為定位數(shù)據(jù),又含有不可避免的誤差;再加上對(duì)象的自主移動(dòng)往往受到地理特性、交通規(guī)則、社會(huì)規(guī)律等環(huán)境因素的復(fù)雜限制,眾多的挑戰(zhàn)使得傳統(tǒng)的移動(dòng)軌跡研究方法難以高效、靈活地適用于當(dāng)今海量、多樣化的數(shù)據(jù)挖掘任務(wù)。
近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)技術(shù)研究的發(fā)展和計(jì)算能力、訓(xùn)練數(shù)據(jù)等資源的豐富,基于深度神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法已經(jīng)在關(guān)系分類(lèi)、圖像識(shí)別、自然語(yǔ)言處理等應(yīng)用領(lǐng)域中獲得了廣泛應(yīng)用,在諸多問(wèn)題的標(biāo)準(zhǔn)測(cè)試集上都取得了出色的效果。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是一種應(yīng)用廣泛的新型循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neu?ral Network,RNN),與傳統(tǒng)RNN同樣是針對(duì)序列數(shù)據(jù)的處理任務(wù)而設(shè)計(jì)的。為了解決傳統(tǒng)RNN中存在的梯度爆炸或耗散(gradient explosion/vanishing)、訓(xùn)練速度慢、遠(yuǎn)距離學(xué)習(xí)能力有限等問(wèn)題,LSTM針對(duì)傳統(tǒng)RNN中的隱含層單元做出了改進(jìn),引入了記憶單元和控制門(mén)的結(jié)構(gòu)設(shè)計(jì),從而優(yōu)化了隱含層對(duì)輸入信息的提取、存儲(chǔ)和表達(dá)過(guò)程,以及錯(cuò)誤信號(hào)的時(shí)域反傳過(guò)程。與傳統(tǒng)RNN相比,LSTM網(wǎng)絡(luò)對(duì)長(zhǎng)距離序列特征的學(xué)習(xí)能力更強(qiáng)、訓(xùn)練效率更高。
在語(yǔ)音、文本、時(shí)間序列等許多序列信息學(xué)習(xí)的領(lǐng)域中,LSTM網(wǎng)絡(luò)都有著廣泛的應(yīng)用。2006年,文獻(xiàn)[1]提出了基于雙向LSTM網(wǎng)絡(luò)的序列標(biāo)注模型,用于處理未經(jīng)預(yù)分段的連續(xù)語(yǔ)音信號(hào)序列。2013年,文獻(xiàn)[2]提出了用于語(yǔ)音識(shí)別的深度LSTM網(wǎng)絡(luò),實(shí)現(xiàn)從語(yǔ)音信號(hào)序列到音素序列的映射,并在標(biāo)準(zhǔn)測(cè)試集上取得了state-of-the-art的成績(jī)。文獻(xiàn)[3]提出了基于多層LSTM的序列到序列(sequence to sequence)的機(jī)器翻譯模型。文獻(xiàn)[4]在該模型的基礎(chǔ)上提出了改進(jìn),轉(zhuǎn)而應(yīng)用于句法分析任務(wù)中,并取得了state-of-the-art的成績(jī)。文獻(xiàn)[5]將LSTM網(wǎng)絡(luò)用于檢索式的問(wèn)答系統(tǒng)(question answering system)中,學(xué)習(xí)問(wèn)答語(yǔ)句間的匹配模型。文獻(xiàn)[6]則提出了用于分析簡(jiǎn)短的程序代碼并給出程序輸出的深度LSTM模型,文中將程序代碼視作字符序列輸入,程序運(yùn)行的正確結(jié)果作為訓(xùn)練目標(biāo),對(duì)于簡(jiǎn)單的數(shù)值運(yùn)算程序,預(yù)測(cè)準(zhǔn)確率可達(dá)99%文獻(xiàn)[7]將LSTM網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)相結(jié)合,用于降水量的時(shí)空序列的預(yù)測(cè)。文獻(xiàn)[8]將LSTM網(wǎng)絡(luò)與CNN相結(jié)合用于圖文轉(zhuǎn)換,該模型首先利用CNN對(duì)圖像輸入進(jìn)行特征提取,再利用LSTM實(shí)現(xiàn)從特征到文本輸出的學(xué)習(xí)。文獻(xiàn)[9]則提出了能夠直接用于圖像處理的4向LSTM網(wǎng)絡(luò),且在多個(gè)標(biāo)準(zhǔn)測(cè)試集上能夠取得與傳統(tǒng)的CNN方法相近的表現(xiàn),證明了LSTM在圖像處理領(lǐng)域同樣有著巨大的潛力。
現(xiàn)有的研究和應(yīng)用證明,LSTM網(wǎng)絡(luò)在許多種針對(duì)大規(guī)模序列信息中的復(fù)雜關(guān)聯(lián)和依賴(lài)的處理任務(wù)中,都能夠取得優(yōu)異的表現(xiàn)。因此,國(guó)內(nèi)外許多研究人員將LSTM網(wǎng)絡(luò)引入了軌跡數(shù)據(jù)處理的領(lǐng)域中,用于實(shí)現(xiàn)對(duì)車(chē)輛、行人等移動(dòng)軌跡的識(shí)別或預(yù)測(cè),并取得了出色的成果,本文對(duì)這些工作進(jìn)行了簡(jiǎn)要回顧。
為了解決傳統(tǒng)RNN中的梯度爆炸或耗散問(wèn)題,文獻(xiàn)[10]于1997年針對(duì)其隱含層單元結(jié)構(gòu)做出了改進(jìn),提出了LSTM單元。使用LSTM單元的RNN網(wǎng)絡(luò),通常被稱(chēng)作LSTM-RNN網(wǎng)絡(luò)或LSTM網(wǎng)絡(luò)。隨著相關(guān)研究的深入和應(yīng)用領(lǐng)域的擴(kuò)展,研究人員針對(duì)最初提出的LSTM單元結(jié)構(gòu)提出了許多改進(jìn)和變體,其中,使用最為廣泛的一種結(jié)構(gòu)如圖1所示。
一個(gè)LSTM單元由一個(gè)專(zhuān)門(mén)的記憶單元(Memory Cell)和多個(gè)調(diào)節(jié)門(mén)(gate)組成其中,記憶單元使用其狀態(tài)量(state)進(jìn)行歷史信息的存儲(chǔ),與之相連的常數(shù)錯(cuò)誤傳送結(jié)構(gòu)(Constant Error Carousel,CEC)可以使得錯(cuò)誤信號(hào)在時(shí)域反傳(Back Propagation Through Time,BPTT)時(shí)實(shí)現(xiàn)無(wú)衰減傳播,從而解決傳統(tǒng)RNN中梯度爆炸或耗散的問(wèn)題。輸入門(mén)(Input Gate)和輸出門(mén)(Output Gate)用于控制信息的流入與流出,遺忘門(mén)(Forget Gate)則用于決定是否重置記憶單元,這3個(gè)門(mén)的行為將通過(guò)上層單元的輸出、上一時(shí)刻的自身輸出以及記憶單元的狀態(tài)量共同決定。將記憶單元狀態(tài)量輸入到這3個(gè)門(mén)的連接(圖中虛線(xiàn)表示)被稱(chēng)為窺孔連接(Peephole Connections)。
圖1 LSTM單元結(jié)構(gòu)
(1)用h來(lái)表示整個(gè)LSTM隱含層單元的最終輸出,c表示記憶單元的狀態(tài)量,x表示輸入數(shù)據(jù)那么一個(gè)LSTM單元對(duì)輸入數(shù)據(jù)的處理過(guò)程可以表示如下:
(2)計(jì)算三個(gè)LSTM調(diào)節(jié)門(mén)的值
其中,i,f,o分別代表著輸入門(mén)、遺忘門(mén)和輸出門(mén),Wmn,bn分別代表著從m到n的連接權(quán)值和n的偏置,σ代表著調(diào)節(jié)門(mén)的激活函數(shù)。如上所述,所有調(diào)節(jié)門(mén)的值除了受當(dāng)前輸入數(shù)據(jù)xt和上一時(shí)刻LSTM單元輸出ht-1的影響外,還受上一時(shí)刻記憶單元值ct-1的影響,即窺孔連接。
(2)計(jì)算LSTM記憶單元的狀態(tài)量更新
其中,⊙表示逐點(diǎn)乘積,t可以稱(chēng)作候選隱含層狀態(tài),實(shí)際等同于使用一個(gè)傳統(tǒng)RNN隱含層單元處理將得到的輸出。由上式可見(jiàn),記憶單元的狀態(tài)值更新取決于t和上一時(shí)刻的自身狀態(tài)ct-1,并通過(guò)輸入門(mén)和遺忘門(mén)分別對(duì)這兩部分信息的流入進(jìn)行調(diào)節(jié)。
(3)整個(gè)LSTM單元的最終輸出為:
其中,σ通常選擇Logistic Sigmoid函數(shù),φ,?通常選擇tanh函數(shù)。這種獨(dú)立的記憶單元結(jié)合多個(gè)調(diào)節(jié)門(mén)的設(shè)計(jì),使LSTM單元獲得了保存、讀取、重置和更新長(zhǎng)距離歷史信息的能力。例如,如果輸入門(mén)保持關(guān)閉(it=0),那么記憶單元不會(huì)受到新的輸入數(shù)據(jù)的影響;如果與此同時(shí)遺忘門(mén)不作用(ft=1),那么記憶單元中的信息就能長(zhǎng)時(shí)間的一直保存下去,并且通過(guò)開(kāi)放輸出門(mén)(ot=1)供給下層單元使用。
與傳統(tǒng)RNN類(lèi)似,LSTM網(wǎng)絡(luò)也使用時(shí)域反傳算法實(shí)現(xiàn)網(wǎng)絡(luò)參數(shù)的訓(xùn)練。在傳統(tǒng)RNN中,錯(cuò)誤信號(hào)的影響隨著時(shí)間間隔的增長(zhǎng)而呈現(xiàn)指數(shù)級(jí)膨脹或壓縮,即梯度爆炸或耗散問(wèn)題。而在LSTM中,由于記憶單元的自連接邊的設(shè)計(jì),錯(cuò)誤信號(hào)能夠始終以1的權(quán)重在時(shí)域上實(shí)現(xiàn)穩(wěn)定傳送,因此稱(chēng)作恒定誤差傳送。
在文獻(xiàn)[10]于1997年最初提出的LSTM單元結(jié)構(gòu)中,只包含兩個(gè)調(diào)節(jié)門(mén):輸入門(mén)和輸出門(mén)。直到1999年,文獻(xiàn)[11]才在此基礎(chǔ)上引入了遺忘門(mén)的設(shè)計(jì),允許了狀態(tài)量的重置,避免其無(wú)限制地增長(zhǎng),為模型帶來(lái)了清除無(wú)用的歷史信息的能力。
2000年,文獻(xiàn)[12]中提出,在調(diào)節(jié)門(mén)的控制中引入記憶模塊的參與,可以更好地利用從歷史序列中學(xué)習(xí)到的特征,因此提出了窺孔連接,將記憶單元的狀態(tài)量也輸送到各個(gè)調(diào)節(jié)門(mén)。
為了充分利用到整個(gè)序列的上下文信息,文獻(xiàn)[13]在 2005年將 LSTM與雙向 RNN(Bidirectional RNN,BRNN)結(jié)合,提出了雙向LSTM(BLSTM)。
2014 年,文獻(xiàn)[14]提出了 GRU(Gated Recurrent Unit),只包含用于捕捉短期依賴(lài)的重置門(mén)(Reset Gate)和用于捕捉長(zhǎng)期依賴(lài)的更新門(mén)(Update Gate),并合并了LSTM中的記憶單元和候選隱含層狀態(tài)。GRU普遍被視作是LSTM的一種簡(jiǎn)化版本,經(jīng)實(shí)驗(yàn)證明與傳統(tǒng)LSTM表現(xiàn)相近但效率更高,因此也成為了最流行的變體之一。
2014年,文獻(xiàn)[3]首次將深度神經(jīng)網(wǎng)絡(luò)(Deep Neu?ral Network,DNN)的框架與LSTM相結(jié)合,提出了深度LSTM(deep LSTM)。2015 年,文獻(xiàn)[15]和文獻(xiàn)[16]分別提出了樹(shù)狀的和層次的LSTM模型,用于自然語(yǔ)言處理任務(wù)中。文獻(xiàn)[7]在解決降水量的預(yù)測(cè)問(wèn)題時(shí),為了同時(shí)實(shí)現(xiàn)時(shí)間維度和空間維度的特征學(xué)習(xí),將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)中的卷積算子引入了LSTM的狀態(tài)量更新過(guò)程中,提出了卷積LSTM(Convolutional LSTM,ConvLSTM)。
移動(dòng)設(shè)備的普及和GPS定位技術(shù)的發(fā)展使得持續(xù)廣泛的移動(dòng)對(duì)象追蹤成為可能,也產(chǎn)生了海量的移動(dòng)軌跡數(shù)據(jù)資源。移動(dòng)軌跡數(shù)據(jù)的處理有著巨大的研究?jī)r(jià)值與應(yīng)用需求,卻也面臨著數(shù)據(jù)規(guī)模大、時(shí)間跨度長(zhǎng)等等許多挑戰(zhàn)。許多研究人員將LSTM網(wǎng)絡(luò)作為高效的序列數(shù)據(jù)處理技術(shù)引入了這一領(lǐng)域,提出了任務(wù)需求和網(wǎng)絡(luò)結(jié)構(gòu)各異的大量應(yīng)用。本文將選取LSTM網(wǎng)絡(luò)在移動(dòng)場(chǎng)景中的典型應(yīng)用,按照移動(dòng)對(duì)象和任務(wù)類(lèi)型進(jìn)行分類(lèi)介紹。
文獻(xiàn)[17]中采用LSTM網(wǎng)絡(luò)處理車(chē)輛的移動(dòng)軌跡信息,來(lái)實(shí)現(xiàn)對(duì)車(chē)輛行為的識(shí)別,用于解決智能交通領(lǐng)域中的駕駛環(huán)境檢測(cè)問(wèn)題。該算法專(zhuān)注于十字路口附近的交通場(chǎng)景,按照車(chē)輛對(duì)象的駛來(lái)方向和駛?cè)シ较颍ㄗ蟆⒂肄D(zhuǎn)或直行)規(guī)定了12種不同的車(chē)輛行為標(biāo)簽,試圖利用LSTM網(wǎng)絡(luò)實(shí)現(xiàn)基于這些標(biāo)簽的分類(lèi)。
算法使用KITTI數(shù)據(jù)集中的交通圖像,映射到路面平面上得到車(chē)輛對(duì)象的移動(dòng)軌跡數(shù)據(jù),并從中選取出固定長(zhǎng)度的輸入序列,預(yù)提取出四種特征作為L(zhǎng)STM網(wǎng)絡(luò)的真正輸入:線(xiàn)性變化特征、角度變化特征、角度變化特征直方圖、鳥(niǎo)瞰圖坐標(biāo)特征。為了更好地學(xué)習(xí)序列中的時(shí)域表征,文獻(xiàn)中采用了3層LSTM的結(jié)構(gòu),如圖2所示。
圖2 車(chē)輛行為識(shí)別網(wǎng)絡(luò)
首層輸入的維度由特征數(shù)目和特征向量維度決定;在前兩層的傳播過(guò)程中,上述四種特征被分別處理,僅在最后一個(gè)LSTM層中,四種特征才得到融合;最后一個(gè)LSTM層則接入一個(gè)全連接層,最終輸出一個(gè)代表著這個(gè)序列樣本的分類(lèi)概率的向量。
文獻(xiàn)[18]同樣借助LSTM網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)車(chē)輛移動(dòng)軌跡的時(shí)域特征學(xué)習(xí),用于構(gòu)建一個(gè)由圖像感知到行動(dòng)決策的端到端的自動(dòng)駕駛模型,網(wǎng)絡(luò)設(shè)計(jì)如圖3所示。
圖3 車(chē)輛軌跡預(yù)測(cè)網(wǎng)絡(luò)
文中采用全卷積網(wǎng)絡(luò)(FCN)作為單個(gè)時(shí)間步中從圖像幀到對(duì)象位置信息的編碼器,編碼結(jié)果即附近對(duì)象在單個(gè)時(shí)間步中的空間特征表示。經(jīng)過(guò)編碼的逐幀空間特征與傳感器收集得到的速度和角度信息,以及前一時(shí)間步的自身行動(dòng)決策共同作為網(wǎng)絡(luò)輸入,在時(shí)域傳播中依序經(jīng)過(guò)一個(gè)單層的LSTM網(wǎng)絡(luò),從而提取周?chē)鷮?duì)象與自身的移動(dòng)的時(shí)域特征,并做出對(duì)移動(dòng)軌跡的預(yù)測(cè),儲(chǔ)存在LSTM網(wǎng)絡(luò)的輸出中,算法將其稱(chēng)作狀態(tài)量(state)。這一代表著對(duì)附近車(chē)輛和自身做出的軌跡預(yù)測(cè)的狀態(tài)量再經(jīng)過(guò)一個(gè)全連接層,即可得到在當(dāng)前移動(dòng)環(huán)境下,各個(gè)駕駛決策的可行度。文中使用了真實(shí)數(shù)據(jù)集中的車(chē)輛駕駛決策分布作為訓(xùn)練的目標(biāo),從而實(shí)現(xiàn)基于移動(dòng)軌跡預(yù)測(cè)的自動(dòng)駕駛策略學(xué)習(xí)。
文獻(xiàn)[19]設(shè)計(jì)了一種雙向LSTM網(wǎng)絡(luò)用于解決行人航位推算中的步態(tài)檢測(cè)問(wèn)題。該模型是針對(duì)室內(nèi)的行人移動(dòng)而設(shè)計(jì)的,使用由慣性測(cè)量單元(Inertial Mea?surement Unit,IMU)收集得到的角速度和加速度信息,用于表示一個(gè)行人在某一時(shí)刻的移動(dòng)狀態(tài)。移動(dòng)狀態(tài)的序列輸入網(wǎng)絡(luò)后,經(jīng)由LSTM層完成時(shí)域特征的提取,最終給出步態(tài)標(biāo)簽的概率分布,例如前進(jìn)、后退、奔跑、步行等。
文中采用了雙向的RNN架構(gòu),一個(gè)完整的移動(dòng)狀態(tài)序列將從正反兩個(gè)方向分別輸入到兩個(gè)獨(dú)立的隱含層。這樣一來(lái),當(dāng)網(wǎng)絡(luò)對(duì)一組移動(dòng)樣本進(jìn)行學(xué)習(xí)時(shí),其反向移動(dòng)也可以同時(shí)被學(xué)習(xí)到。實(shí)驗(yàn)證明,在一個(gè)由10個(gè)個(gè)體的10000個(gè)移動(dòng)序列樣本組成的數(shù)據(jù)集上,該模型的步態(tài)檢測(cè)正確率可達(dá)98.5%。
文獻(xiàn)[20]設(shè)計(jì)了一種復(fù)雜的LSTM網(wǎng)絡(luò)用于解決行人的軌跡預(yù)測(cè)問(wèn)題??紤]到行人移動(dòng)的社會(huì)性,個(gè)體的移動(dòng)軌跡可能受到同一場(chǎng)景中其他個(gè)體的影響。為了賦予LSTM網(wǎng)絡(luò)捕捉不同個(gè)體的軌跡序列之間的依賴(lài)關(guān)系的能力,文章向傳統(tǒng)的LSTM網(wǎng)絡(luò)中引入了一種稱(chēng)作社會(huì)池化層(social pooling layer)的新型結(jié)構(gòu),將地理位置上鄰近的多條軌跡序列各自的LSTM網(wǎng)絡(luò)連接起來(lái),彼此共享隱含層信息,從而更好的學(xué)習(xí)到行人軌跡的社會(huì)化特征,并用來(lái)對(duì)下一時(shí)刻做出更準(zhǔn)確的預(yù)測(cè)。
首先,Social LSTM(S-LSTM)為場(chǎng)景中的每個(gè)行人分配一個(gè)傳統(tǒng)的LSTM網(wǎng)絡(luò),通過(guò)學(xué)習(xí)自身的歷史軌跡信息來(lái)預(yù)測(cè)未來(lái)的運(yùn)動(dòng)。LSTM網(wǎng)絡(luò)具備儲(chǔ)存和學(xué)習(xí)長(zhǎng)距離信息的能力,可以比傳統(tǒng)的RNN更好地捕捉到較長(zhǎng)時(shí)間范圍內(nèi)的個(gè)體運(yùn)動(dòng)規(guī)律;然而對(duì)于行人軌跡之間的相互作用以及地理環(huán)境對(duì)軌跡的影響等社會(huì)性規(guī)律,這樣相互獨(dú)立的多個(gè)LSTM網(wǎng)絡(luò)結(jié)構(gòu)仍然無(wú)法有效的進(jìn)行學(xué)習(xí),因此文中進(jìn)一步引入了社會(huì)池化層。
文中提出的社會(huì)池化層接受不同移動(dòng)對(duì)象對(duì)應(yīng)的多個(gè)LSTM網(wǎng)絡(luò)的隱含層輸出作為自身的輸入,并按照空間范圍內(nèi)劃分出的網(wǎng)格和每個(gè)移動(dòng)對(duì)象所處的不同位置,對(duì)他們的隱含層信息進(jìn)行池化,池化的結(jié)果將輸出到下一時(shí)刻的LSTM網(wǎng)絡(luò),這樣就將多個(gè)獨(dú)立的LSTM網(wǎng)絡(luò)在地理維度上連接在了一起,組成了一個(gè)大的S-LSTM網(wǎng)絡(luò)。其中,算法基于劃分的地理網(wǎng)格為移動(dòng)對(duì)象規(guī)定了鄰域范圍,只有位于自身鄰域范圍內(nèi)的鄰居對(duì)象的隱含層信息才會(huì)接受該對(duì)象的池化;如果有多個(gè)鄰居對(duì)象位于同一網(wǎng)格中,他們的隱含層信息則會(huì)被融合。這相當(dāng)于對(duì)社會(huì)池化層加入了剪枝操作,限制了其復(fù)雜度,在允許鄰近節(jié)點(diǎn)信息共享的同時(shí),避免了遠(yuǎn)距節(jié)點(diǎn)間冗余的信息傳遞。
也就是說(shuō),不同于傳統(tǒng)的獨(dú)立LSTM網(wǎng)絡(luò),在SLSTM網(wǎng)絡(luò)中,一個(gè)運(yùn)動(dòng)對(duì)象的LSTM層單元除了接收當(dāng)前時(shí)刻的坐標(biāo)輸入和上一時(shí)刻的隱含層輸入之外,還將通過(guò)池化層接收鄰近對(duì)象的上一時(shí)刻隱含層信息作為輸入,如圖4所示。
圖4 Social-LSTM網(wǎng)絡(luò)
S-LSTM網(wǎng)絡(luò)的輸出,再與一個(gè)全連接層相連,得到代表坐標(biāo)預(yù)測(cè)的高斯分布參數(shù)的矩陣,即可用于下一時(shí)刻移動(dòng)坐標(biāo)的解碼。
在現(xiàn)有的研究中,移動(dòng)軌跡數(shù)據(jù)處理主要采用的是GPS定位數(shù)據(jù)、從圖像中識(shí)別進(jìn)而映射得來(lái)的坐標(biāo)或者與移動(dòng)主體綁定的傳感器數(shù)據(jù)作為網(wǎng)絡(luò)輸入,經(jīng)過(guò)設(shè)計(jì)各異的LSTM網(wǎng)絡(luò)實(shí)現(xiàn)時(shí)域特征的提取,再經(jīng)過(guò)解碼得到未來(lái)移動(dòng)軌跡的預(yù)測(cè)值或移動(dòng)模式的識(shí)別結(jié)果。然而,由于移動(dòng)軌跡自身的數(shù)據(jù)特性,LSTM網(wǎng)絡(luò)在這一領(lǐng)域的應(yīng)用仍然面臨著許多挑戰(zhàn):
(1)連續(xù)型數(shù)值變量
移動(dòng)軌跡數(shù)據(jù)的處理通常以連續(xù)型數(shù)值變量作為對(duì)象,而以往的LSTM網(wǎng)絡(luò)大都是針對(duì)離散型變量的處理而設(shè)計(jì)的。這也就要求在傳統(tǒng)LSTM網(wǎng)絡(luò)設(shè)計(jì)的基礎(chǔ)上,針對(duì)連續(xù)變量的處理做出適應(yīng)與改進(jìn)。
(2)數(shù)據(jù)預(yù)處理
GPS定位數(shù)據(jù)中包含著不可避免的誤差,因此,原始的軌跡數(shù)據(jù)通常要求首先經(jīng)過(guò)預(yù)處理再用于LSTM網(wǎng)絡(luò)的輸入:對(duì)定位數(shù)據(jù)進(jìn)行平滑去噪,提取出軌跡中的駐留點(diǎn)進(jìn)而將軌跡轉(zhuǎn)化為駐留點(diǎn)的序列,或直接對(duì)軌跡進(jìn)行顯式的特征提取。合適的預(yù)處理對(duì)于訓(xùn)練效率和效果而言至關(guān)重要,也是軌跡數(shù)據(jù)處理中的關(guān)鍵問(wèn)題之一。
(3)空間維度特征
軌跡信息不僅具有時(shí)序特征,還包含著空間維度的特征,目前已有一些研究者提出了將CNN與RNN結(jié)合的網(wǎng)絡(luò)設(shè)計(jì)。如何將時(shí)間與空間維度的特征學(xué)習(xí)結(jié)合起來(lái),更好地實(shí)現(xiàn)對(duì)作為時(shí)空序列的軌跡信息的學(xué)習(xí),也將是未來(lái)的研究熱點(diǎn)之一。
(4)社會(huì)性特征
個(gè)體的移動(dòng)受到環(huán)境因素的限制和其他個(gè)體的影響,具有社會(huì)性的特征和規(guī)律。豐富的大數(shù)據(jù)資源和計(jì)算能力使得基于多移動(dòng)對(duì)象的軌跡社會(huì)性挖掘成為可能,同時(shí)也有著巨大的應(yīng)用需求和價(jià)值。對(duì)于一個(gè)場(chǎng)景中大量移動(dòng)對(duì)象的軌跡數(shù)據(jù),如何實(shí)現(xiàn)高效的協(xié)同學(xué)習(xí),也是極具潛力與挑戰(zhàn)的研究課題。
[1]Graves Alex,Fernandez Santiago,Gomez Faustino,et al.Connectionist Temporal Classification:Labelling Unsegmented Sequence Data with Recurrent Neural Networks:International conference on Machine learning,2006[C].2006:369.
[2]Graves Alex,Mohamed Abdelrahman,Hinton Geoffrey E.Speech Recognition with Deep Recurrent Neural Networks:International Conference on Acoustics,Speech,and Signal Processing,2013[C].2013:6645.
[3]Sutskever Ilya,Vinyals Oriol,Le Quoc V.Sequence to Sequence Learning with Neural Networks:Proceedings of the 27th International Conference on Neural Information Processing Systems,2014[C].Montreal,Canada:MIT Press,2014:3104.
[4]Vinyals Oriol,Kaiser Lukasz,Koo Terry,et al.Grammar as a Foreign Language:Neural Information Processing Systems,2015[C].2015:2773.
[5]Wang Di,Nyberg Eric.A Long Short-Term Memory Model for Answer Sentence Selection in Question Answering:ACL,2015[C].2015.
[6]Zaremba Wojciech.Learning to Execute[J].Computing Research Repository,2015,1410.4615.
[7]Shi Xingjian,Chen Zhourong,Wang Hao,et al.Convolutional LSTM Network:a Machine Learning Approach for Precipitation Nowcasting:Neural Information Processing Systems,2015[C].2015:802.
[8]Karpathy Andrej,Feifei Li.Deep Visual-Semantic Alignments for Generating Image Descriptions:Computer Vision and Pattern Recognition,2015[C].2015:3128.
[9]Visin Francesco,Kastner Kyle,Cho Kyunghyun,et al.ReNet:A Recurrent Neural Network Based Alternative to Convolutional Networks[M].Translate.ed[S.l.]:[s.n.],2015.
[10]Hochreiter Sepp,Schmidhuber Jurgen.Long Short-Term Memory[J].Neural Computation,1997,9(8).
[11]Schmidhuber Juergen,Cummins F.Learning to Forget:Continual Prediction with LSTM:International Conference on Artificial Neural Networks,1999[C].1999:850.
[12]Gers F.A.,Schmidhuber J.Recurrent Nets That Time and Count:Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks.IJCNN 2000.Neural Computing:New Challenges and Perspectives for the New Millennium,2000[C].2000:189.
[13]Graves Alex,Schmidhuber Jurgen.Framewise Phoneme Classification with Bidirectional LSTM and Other Neural Network Architectures[J].Neural Networks,2005,18(5).
[14]Cho Kyunghyun,Van Merrienboer Bart,Gulcehre Caglar,et al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation:Empirical Methods in Natural Language Processing,2014[C].2014:1724.
[15]Tai Kai Sheng,Socher Richard,Manning Christopher D.Improved Semantic Representations from Tree-Structured Long Short-Term Memory Networks:Meeting of the Association for Computational Linguistics,2015[C].Beijing,2015:1556.
[16]Li Jiwei,Luong Thang,Jurafsky Dan.A Hierarchical Neural Autoencoder for Paragraphs and Documents:In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015[C].URL,2015:1106.
[17]Khosroshahi A.,Ohn-Bar E.,Trivedi M.M.,et al.Surround Vehicles Trajectory Analysis with Recurrent Neural Networks[J].2016 IEEE 19th International Conference on Intelligent Transportation Systems(Itsc),2016.
[18]Huazhe Xu,Yang Gao,Fisher Yu,et al.End-to-End Learning of Driving Models from Large-Scale Video Datasets[J].arXiv,2016,arXiv:1612.01079.
[19]Edel M.,Koppe E.,Ieee.An Advanced Method for Pedestrian Dead Reckoning using BLSTM-RNNs[M].Translate.ed New York:IEEE,2015.
[20]Alahi A.,Goel K.,Ramanathan V.,et al.Social LSTM:Human Trajectory Prediction in Crowded Spaces[M].Translate.ed New York:IEEE,2016:961