劉 婕,張 磊,朱少杰,劉佰龍,張雪飛
(1.中國(guó)礦業(yè)大學(xué)礦山數(shù)字化教育部工程研究中心,江蘇 徐州 221116; 2.中國(guó)礦業(yè)大學(xué)計(jì)算機(jī)學(xué)院,江蘇 徐州 221116;3.內(nèi)蒙古廣納信息科技有限公司,內(nèi)蒙古 烏海 016000)
隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展和智能終端的普及,眾多社交媒體網(wǎng)站(如Twitter、Sina和Instagram等)每天產(chǎn)生數(shù)以億計(jì)的多模態(tài)語(yǔ)義軌跡數(shù)據(jù)。而多模態(tài)語(yǔ)義軌跡中存在時(shí)間依賴、空間依賴和活動(dòng)依賴等多種依賴關(guān)系??臻g依賴是指用戶在訪問(wèn)下一位置時(shí)通常會(huì)考慮自身與目標(biāo)場(chǎng)所的距離。時(shí)間依賴體現(xiàn)在用戶對(duì)所處時(shí)段的敏感性,即用戶在不同時(shí)段對(duì)訪問(wèn)興趣點(diǎn)類型的偏好不同?;顒?dòng)依賴則是指用戶即將進(jìn)行的活動(dòng)類型可由用戶之前的活動(dòng)序列推測(cè)得到,并且用戶已完成的活動(dòng)類型在同一軌跡序列中再次出現(xiàn)的概率較低。這些依賴關(guān)系相互聯(lián)系緊密又具有復(fù)雜性,并且在軌跡預(yù)測(cè)中起到很重要的作用,準(zhǔn)確分析和量化這些依賴關(guān)系能夠有效提升預(yù)測(cè)的準(zhǔn)確率。
傳統(tǒng)的軌跡預(yù)測(cè)方法,如基于馬爾可夫[1,2]、矩陣分解[3]等方法,并不能很好地解決軌跡中的長(zhǎng)期依賴問(wèn)題。深度學(xué)習(xí)方法是處理長(zhǎng)期依賴的有效方法。ST-RNN(SpatioTemporal Recurrent Neural Network)[4]聯(lián)合時(shí)空規(guī)律和循環(huán)神經(jīng)網(wǎng)絡(luò)建模來(lái)處理時(shí)序關(guān)系。采用長(zhǎng)短時(shí)記憶LSTM(Long Short-Term Memory)網(wǎng)絡(luò)[5,6],通過(guò)時(shí)間步參數(shù)共享和門機(jī)制解決軌跡中的長(zhǎng)期依賴。卷積神經(jīng)網(wǎng)絡(luò)可以有效抽取軌跡的空間特征[7,8]。但是,這些方法沒有考慮或單純考慮時(shí)間和空間模態(tài)特征,忽略了軌跡的豐富語(yǔ)義特征。而針對(duì)多模態(tài)語(yǔ)義軌跡的研究較少,Karatzoglou等[9]在多維馬爾可夫思想的基礎(chǔ)上提出了PoVDSSA(Purpose-of-Visit-Driven Semantic Similarity Analysis)模型,實(shí)現(xiàn)了對(duì)語(yǔ)義軌跡的建模,并證明了加入了語(yǔ)義特征的預(yù)測(cè)模型可以縮短訓(xùn)練時(shí)間,提高準(zhǔn)確性和魯棒性[10]。Yao等[11]聯(lián)合時(shí)間、空間、活動(dòng)文本和用戶偏好等多種模態(tài)特征,提出了SERM(Semantics-Enriched Recurrent Model)。上述方法雖然取得了不錯(cuò)的成果,但它們均未對(duì)軌跡中的復(fù)雜依賴關(guān)系進(jìn)行量化,并且在模型訓(xùn)練過(guò)程中也并未處理特征分布偏移的問(wèn)題。本文針對(duì)這2個(gè)方面進(jìn)行設(shè)計(jì)改進(jìn),以提高預(yù)測(cè)有效性。
為了解決上述問(wèn)題,本文提出了基于自注意力機(jī)制的多模態(tài)語(yǔ)義軌跡預(yù)測(cè)SAMSTP(Self- Attention mechanism based Multi-modal Semantic Trajectory Prediction)模型。該模型先對(duì)多種模態(tài)特征進(jìn)行聯(lián)合嵌入表示,以聯(lián)合學(xué)習(xí)各模態(tài)特征及其相互之間的關(guān)系。隨后結(jié)合Position Encoding[12]對(duì)軌跡點(diǎn)的相對(duì)位置關(guān)系進(jìn)行記憶,以彌補(bǔ)自注意力層會(huì)帶來(lái)的部分時(shí)序信息丟失的缺陷。然后設(shè)計(jì)自注意力機(jī)制準(zhǔn)確量化和自動(dòng)學(xué)習(xí)軌跡點(diǎn)間的復(fù)雜依賴關(guān)系,并且自注意力層在計(jì)算每個(gè)軌跡點(diǎn)的依賴權(quán)重時(shí),軌跡點(diǎn)間計(jì)算步長(zhǎng)始終為1,從而很好地解決了各依賴關(guān)系的長(zhǎng)期性。而LSTM[12]則負(fù)責(zé)處理長(zhǎng)軌跡序列時(shí)序上的長(zhǎng)期依賴問(wèn)題。最后本文設(shè)計(jì)模式規(guī)范化MN(Mode Normalization)對(duì)軌跡樣本進(jìn)行實(shí)時(shí)監(jiān)測(cè)和規(guī)范,以達(dá)到預(yù)防依賴關(guān)系失真并加快模型收斂速度的目的。
定義1(網(wǎng)格索引序列) 對(duì)興趣點(diǎn)序列P={p1,…,pj,…,pDG}進(jìn)行網(wǎng)格劃分生成位置索引序列L={l1,l2,…,lDM}。pj∈P是一個(gè)二元組(lonpj,lapj),DG為數(shù)據(jù)集中興趣點(diǎn)總數(shù)。DM=Grid×Grid,表示劃分網(wǎng)格數(shù)。二元組元素lonpj和lapj分別定義為興趣點(diǎn)pj的經(jīng)度和緯度。
給定劃分后網(wǎng)格索引序列L={l1,l2,…,lDM},現(xiàn)在給定用戶序列U={u1,u2,…,uDu},Du為用戶總數(shù)。下面為每個(gè)用戶ui∈U定義多模態(tài)語(yǔ)義記錄點(diǎn)序列:
定義2(多模態(tài)語(yǔ)義記錄點(diǎn)序列) 用戶ui的多模態(tài)語(yǔ)義記錄點(diǎn)序列是一個(gè)時(shí)間序列Raw(ui)={r1(ui),…,rk′(ui),…,rDs(ui)}。Ds表示用戶ui的記錄點(diǎn)總數(shù)。每個(gè)記錄點(diǎn)rk′(ui)∈Raw(ui)是一個(gè)四元組(lk′,tk′,ck′,fk′)。元組各元素定義如下:(1)tk′是時(shí)間戳;(2)lk′是用戶ui在時(shí)間tk′的網(wǎng)格位置索引,且lk′∈L;(3)ck′是描述用戶ui在時(shí)間tk′時(shí)活動(dòng)的文本描述;(4)fk′是用戶ui在時(shí)間tk′時(shí)的活動(dòng)類型。
用戶ui的記錄點(diǎn)序列Raw(ui)中,2個(gè)相鄰的位置記錄點(diǎn)時(shí)間相關(guān)性可能很低。因此,本文引入時(shí)間間隔約束機(jī)制將原始多模態(tài)語(yǔ)義軌跡序列劃分成多個(gè)多模態(tài)語(yǔ)義軌跡。
定義3(多模態(tài)語(yǔ)義軌跡序列) 定義用戶ui的一個(gè)多模態(tài)語(yǔ)義軌跡序列為T(ui)={r1(ui),…,rk(ui),…,rK(ui)},1≤k≤K,0 定義4(多模態(tài)語(yǔ)義軌跡預(yù)測(cè)) 給定多模態(tài)語(yǔ)義軌跡序列Tn(ui)={r1(ui),r2(ui),…,rK(ui)},多模態(tài)語(yǔ)義軌跡預(yù)測(cè)任務(wù)是將Tn(ui)中前K-1個(gè)點(diǎn){r1(ui),r2(ui),…,rK-1(ui)}輸入到模型中,從網(wǎng)格位置索引序列L中預(yù)測(cè)地表真實(shí)位置lK。 Figure 1 Overall framework of SAMSTP 圖1 SAMSTP總體框架圖 (1)復(fù)雜依賴關(guān)系計(jì)算,如圖1左上角的②。該模塊采用自注意力機(jī)制結(jié)合Position Encoding量化多模態(tài)語(yǔ)義軌跡中的復(fù)雜依賴關(guān)系。具體內(nèi)容將在第3節(jié)進(jìn)行詳細(xì)說(shuō)明。 (2)LSTM網(wǎng)絡(luò)捕獲時(shí)序關(guān)系,如圖1右上角的③。對(duì)于K個(gè)記錄點(diǎn)的軌跡序列,LSTM層的時(shí)間步為K。將每個(gè)記錄點(diǎn)rk(ui)的依賴關(guān)系向量sk作為第k時(shí)間步LSTM單元的輸入,然后計(jì)算隱藏狀態(tài)值hk,如式(1)所示: hk←f(W·hk-1+G·sk+b) (1) 其中,隱藏狀態(tài)值hk∈RDh,Dh表示 LSTM單元中隱藏神經(jīng)元的數(shù)量,代表第k時(shí)間步單元的隱藏狀態(tài)值。前一時(shí)間步隱藏狀態(tài)值hk-1、第k個(gè)記錄點(diǎn)復(fù)雜依賴向量sk、常數(shù)偏置項(xiàng)b經(jīng)由非線性變換函數(shù)f(·)計(jì)算得到hk。公式涉及的參數(shù)有:參數(shù)矩陣W∈RDh×Dh,G∈RDh×De,常數(shù)偏置項(xiàng)b∈RDh。 (3)依賴關(guān)系失真預(yù)防及軌跡預(yù)測(cè),如圖1右下角的④。該模塊主要包括MN機(jī)制規(guī)范化預(yù)防依賴關(guān)系失真和軌跡預(yù)測(cè)2部分。MN機(jī)制實(shí)時(shí)規(guī)范化軌跡樣本以預(yù)防依賴關(guān)系失真,并且加快模型收斂速度,該機(jī)制實(shí)現(xiàn)過(guò)程將在第4節(jié)進(jìn)行具體介紹。 (2) 訓(xùn)練過(guò)程中使用交叉熵作為損失函數(shù)。對(duì)于一個(gè)包含Z個(gè)樣本的訓(xùn)練集,定義損失函數(shù)如式(3)所示: (3) 其中,Θ={Et,El,Ec,Ef,Eu,W,G,H,b,a}為需估計(jì)的參數(shù),δ為預(yù)定義常數(shù)以防止過(guò)擬合。其中,ynk表示第n條軌跡中第k個(gè)位置的預(yù)測(cè)概率。本文使用SGD(Stochastic Gradient Descent)和BPTT(Back Propagation Through Time)算法學(xué)習(xí)參數(shù)集Θ。 PE2i(k)=sin(k/100002i/De) (4) PE2i+1(k)=cos(k/100002i/De) (5) 本文采用自注意力機(jī)制對(duì)多種依賴關(guān)系進(jìn)行聯(lián)合學(xué)習(xí),而不同于其他注意力預(yù)測(cè)方法對(duì)各特征分別設(shè)立獨(dú)立的注意力模塊,如DeepMove[14]。原因在于本文考慮到各依賴關(guān)系之間同樣具有相關(guān)性,將各特征聯(lián)合后采用自注意力機(jī)制更易于捕獲數(shù)據(jù)或特征的內(nèi)部相關(guān)性,實(shí)現(xiàn)更精準(zhǔn)的預(yù)測(cè)。 (6) (7) 最后,將并行頭部產(chǎn)生的所有向量連接起來(lái),形成依賴關(guān)系向量S,如式(8)所示: S←Concat(M1,M2,…,Mi,…,MH)·WS (8) 其中,復(fù)雜依賴關(guān)系向量S={s1,s2,…,sk,…,sK}∈RK×De,WS∈RDe×De為映射參數(shù)矩陣。 訓(xùn)練過(guò)程中,軌跡樣本的模態(tài)特征會(huì)發(fā)生偏移而導(dǎo)致依賴關(guān)系失真,并且每種模態(tài)特征的偏移方向并不一致,若使用單一分布的規(guī)范化如BN(Batch Normalization)[15],由于其并不適應(yīng)多分布的軌跡樣本,反而會(huì)導(dǎo)致模態(tài)特征泛化失真,降低預(yù)測(cè)效果。所以,為了更準(zhǔn)確地學(xué)習(xí)依賴關(guān)系權(quán)重,避免模態(tài)特征的偏移導(dǎo)致計(jì)算得到的依賴關(guān)系失真,本文設(shè)計(jì)MN機(jī)制對(duì)軌跡樣本進(jìn)行多分布規(guī)范化,以適應(yīng)每個(gè)模態(tài)特征不同的遷移方向,在訓(xùn)練過(guò)程中實(shí)時(shí)監(jiān)控并規(guī)范化特征分布,從而達(dá)到預(yù)防依賴關(guān)系失真的效果。并且MN機(jī)制能保持較大的梯度更新參數(shù),明顯提升收斂速度,克服了大部分軌跡預(yù)測(cè)方法中建模復(fù)雜導(dǎo)致的參數(shù)量大,難以收斂的問(wèn)題。 訓(xùn)練中MN為每種模式分布確定新的分量估計(jì),估計(jì)分量如式(9)~式(11)所示: Nq←∑ngnq (9) (10) (11) (12) 本文實(shí)驗(yàn)基于美國(guó)紐約市的Foursquare數(shù)據(jù)集。數(shù)據(jù)集包含了從2011年1月到2012年1月的30萬(wàn)條Foursquare簽到記錄。首先提取不同用戶的簽到記錄,刪除記錄數(shù)小于50的用戶,并且根據(jù)時(shí)間約束tcon<10 h將序列劃分為不同長(zhǎng)度的時(shí)空語(yǔ)義軌跡記錄。此外,刪除長(zhǎng)度小于3的時(shí)間相關(guān)性序列。本文將興趣點(diǎn)GPS坐標(biāo)通過(guò)網(wǎng)格劃分轉(zhuǎn)換為網(wǎng)格位置索引。經(jīng)過(guò)以上處理,一共得到235個(gè)用戶的3 863條時(shí)空語(yǔ)義軌跡序列。本文隨機(jī)選取軌跡序列的80%作為訓(xùn)練集,剩下的20%作為測(cè)試集。訓(xùn)練集和測(cè)試集數(shù)據(jù)特征統(tǒng)計(jì)如表1所示。 Table 1 Statistics of data characteristics表1 數(shù)據(jù)特征統(tǒng)計(jì) 由表1可知,訓(xùn)練集包含235個(gè)用戶的3 090條軌跡,所有軌跡點(diǎn)覆蓋9 337個(gè)網(wǎng)格位置,其中最長(zhǎng)一條軌跡所包含的軌跡點(diǎn)數(shù)為83個(gè)。測(cè)試集同理。 本文實(shí)驗(yàn)在Python 2.7下完成,采用版本號(hào)為2.2.4的Keras框架,TensorFlow版本號(hào)為1.5.0。所用設(shè)備主要硬件參數(shù)為:CPU 12核,內(nèi)存32 GB,NVIDIA Tesla P100顯卡,顯卡內(nèi)存為12 GB。 本文使用如下4種評(píng)價(jià)標(biāo)準(zhǔn)來(lái)衡量模型的性能: (1)交叉熵?fù)p失CCEL(Categorical Cross- Entropy Loss),即預(yù)測(cè)軌跡概率的損失值。計(jì)算公式如式(3)所示。CCEL用來(lái)評(píng)估模型對(duì)參數(shù)的敏感性。 (2)HR@k(Hitting Ratio @k),即軌跡真實(shí)下一位置索引出現(xiàn)在Top-k預(yù)測(cè)索引列表中的概率。 (3)平均距離誤差A(yù)DE(Average Distance Error),即計(jì)算軌跡真實(shí)下一位置索引和Top-5預(yù)測(cè)索引列表的地表真實(shí)距離平均誤差。 (4)模型收斂時(shí)間CT(Convergence Time),CT根據(jù)迭代次數(shù)和單步平均迭代時(shí)間OAET(One-step Average Epoch Time)計(jì)算得出。 本文對(duì)參數(shù)進(jìn)行了優(yōu)化實(shí)驗(yàn),限于篇幅,此處不再具體展示實(shí)驗(yàn)細(xì)節(jié)。通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比,本文最終設(shè)置各個(gè)嵌入維度Dt=Dl=De=Df= 50,LSTM隱藏單元數(shù)Dh=50,樣本分布模式數(shù)Q= 2,多頭自注意力機(jī)制頭數(shù)Heads=8,學(xué)習(xí)率(Learning Rate)LR=0.0005,批次大小BatchSize=100。 本文通過(guò)對(duì)不同模塊進(jìn)行組合,來(lái)驗(yàn)證模型中各模塊的有效性。實(shí)驗(yàn)設(shè)置遵循控制變量原則。5種模塊組合方式設(shè)置如下:(1)LSTM,表示長(zhǎng)短時(shí)記憶網(wǎng)絡(luò);(2)LSTM-MN,表示在LSTM的基礎(chǔ)上增加MN模塊;(3)LSTM-BN,表示在LSTM的基礎(chǔ)上增加BN模塊;(4)SA-LSTM-MN,表示在LSTM-MN的基礎(chǔ)上增加自注意力模塊;(5)SA-LSTM-MN-P,表示在 SA-LSTM-MN 基礎(chǔ)上增加Position Encoding模塊(SA-LSTM-MN-P即代表SAMSTP模型)。 根據(jù)以上模塊組合方式,本文設(shè)計(jì)2個(gè)對(duì)照實(shí)驗(yàn):(1)比較SA-LSTM-MN、LSTM-MN和SA-LSTM-MN-P,驗(yàn)證自注意力機(jī)制以及位置嵌入對(duì)復(fù)雜依賴關(guān)系計(jì)算的有效性;(2)比較LSTM-MN、LSTM-BN和LSTM,驗(yàn)證MN機(jī)制的有效性。 本文選取以下模型與SAMSTP模型進(jìn)行比較:(1) MF[3]:為用戶和位置學(xué)習(xí)低維向量,并為用戶的下一次訪問(wèn)推薦最相似的位置;(2) HMM(Hidden Markov Model)[1]:學(xué)習(xí)隱馬爾可夫模型來(lái)選擇下一個(gè)位置預(yù)測(cè)概率最大的位置;(3) PoVDSSA[9]:建立了一個(gè)類似多維上下文感知的馬爾可夫鏈結(jié)構(gòu)來(lái)建模豐富的語(yǔ)義軌跡;(4) ST-RNN[4]:基于遞歸神經(jīng)網(wǎng)絡(luò),著重對(duì)時(shí)空轉(zhuǎn)換矩陣的建模;(5) SERM[11]:將一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)的多因素(用戶、位置、時(shí)間、關(guān)鍵字)和過(guò)渡參數(shù)嵌入在同一的框架中進(jìn)行聯(lián)合學(xué)習(xí)。以上方法參數(shù)均調(diào)至最優(yōu)。 (1)先比較LSTM-MN、SA-LSTM-MN和SA-LSTM-MN-P。由表2知,相比LSTM-MN,SA-LSTM-MN各項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)均有所提高,表明使用自注意力機(jī)制計(jì)算復(fù)雜依賴關(guān)系的確能夠提高預(yù)測(cè)的準(zhǔn)確率,然而增幅不大。這是因?yàn)閱为?dú)使用自注意力機(jī)制計(jì)算軌跡點(diǎn)依賴關(guān)系時(shí),會(huì)丟失軌跡點(diǎn)之間的部分時(shí)序關(guān)系,所以預(yù)測(cè)效果提升不明顯。但是,SA-LSTM-MN-P的各評(píng)價(jià)標(biāo)準(zhǔn)均比LSTM-MN的高出許多,這是由于Position Encoding保留了軌跡點(diǎn)之間的相對(duì)位置關(guān)系,有效彌補(bǔ)了自注意力機(jī)制的不足,二者結(jié)合實(shí)現(xiàn)了復(fù)雜依賴關(guān)系的準(zhǔn)確量化。由表2可知,SA-LSTM-MN-P的各HR@k分別比LSTM-MN高0.74%,1.72%,2.18%和2.45%,ADE下降了35 m。 Table 2 Performance of different combination of modules表2 模塊有效性表現(xiàn) (2)表3中對(duì)比了LSTM、LSTM-BN和LSTM-MN在各個(gè)評(píng)價(jià)標(biāo)準(zhǔn)下達(dá)到最優(yōu)表現(xiàn)所需的收斂時(shí)間CT以及單步平均時(shí)間OAET??梢钥闯?,LSTM-BN和LSTM-MN收斂時(shí)間相比LSTM大大縮短,其中LSTM-MN的收斂速度在各標(biāo)準(zhǔn)下比LSTM分別提升了8.274,4.061,3.624,7.939和15.967倍,說(shuō)明MN能大幅加快模型的收斂。但是因?yàn)長(zhǎng)STM-BN和LSTM-MN增加了計(jì)算量,所以O(shè)AET分別增加了7 s和12 s。在表2中,LSTM-BN在HR@1和HR@10時(shí)的準(zhǔn)確率低于LSTM的,結(jié)合表3發(fā)現(xiàn)LSTM-BN雖然能加快模型的收斂,但是部分評(píng)價(jià)標(biāo)準(zhǔn)的表現(xiàn)會(huì)有所降低。這是由于在訓(xùn)練過(guò)程中軌跡樣本的特征偏移方向并不一致,使用BN這樣的單一分布模式規(guī)范化并不能很好地預(yù)防依賴失真的問(wèn)題。而LSTM-MN的各個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的表現(xiàn)都優(yōu)于LSTM和LSTM-BN的,表明引入MN采用多分布對(duì)軌跡樣本進(jìn)行規(guī)范化是必要的,它能夠解決依賴關(guān)系失真問(wèn)題,明顯提升預(yù)測(cè)的有效性。 Table 3 CT of optimal performance and the OAET for LSTM,LSTM-BN and LSTM-MN under LR=0.0005表3 LSTM、LSTM-BN和LSTM-MN在LR=0.0005時(shí)的CT最優(yōu)表現(xiàn)及OAET 如表4所示,在相同數(shù)據(jù)集上,SAMSTP在各項(xiàng)評(píng)價(jià)標(biāo)準(zhǔn)下的表現(xiàn)均是最好的。SAMSTP與這些模型的預(yù)測(cè)有效性比較如下:(1)MF的預(yù)測(cè)效果是這些模型中最差的,因?yàn)樗鼪]有捕捉到連續(xù)的轉(zhuǎn)移規(guī)律。(2)HMM性能較差的主要原因在于它依賴于用戶行為的分布假設(shè),只對(duì)軌跡建模一階依賴關(guān)系,難以捕捉軌跡中的長(zhǎng)期依賴。(3)ST-RNN將空間和時(shí)間劃分為若干個(gè),并學(xué)習(xí)每個(gè)時(shí)空單元的轉(zhuǎn)換矩陣,導(dǎo)致參數(shù)量較大,影響預(yù)測(cè)的可靠性。(4)PoVDSSA模型利用類似多維上下文感知的馬爾可夫鏈結(jié)構(gòu)對(duì)豐富的語(yǔ)義軌跡進(jìn)行建模,但是仍舊不能很好地解決長(zhǎng)期依賴問(wèn)題。(5)SERM模型的效果僅次于SAMSTP的。因?yàn)镾ERM模型忽視了軌跡點(diǎn)之間的復(fù)雜依賴關(guān)系,并且沒有考慮多模態(tài)特征模式分布規(guī)范化的問(wèn)題。由表4可知,SAMSTP的各HR@k分別比SERM的高1.97%,4.15%,3.62%和5.19%,ADE下降了155 m。 Table 4 Comparison of optimal performance for different models表4 不同模型最優(yōu)表現(xiàn)對(duì)比 另外,為了驗(yàn)證SAMSTP在提高模型收斂速度上的有效性,本文計(jì)算了各模型的CT最優(yōu)表現(xiàn)。如表4所示,MF和HMM的模型結(jié)構(gòu)簡(jiǎn)單,參數(shù)量較小,所以收斂速度很快,但其預(yù)測(cè)效果較差。ST-RNN的模型結(jié)構(gòu)復(fù)雜,參數(shù)量巨大,導(dǎo)致收斂時(shí)間明顯較長(zhǎng)。PoVDSSA、SERM和SAMSTP都引入了豐富的語(yǔ)義信息,增大了訓(xùn)練計(jì)算量,所需收斂時(shí)間比未考慮語(yǔ)義特征的模型更長(zhǎng)。但是,SAMSTP收斂所需時(shí)間遠(yuǎn)低于前二者,原因在于SAMSTP對(duì)訓(xùn)練樣本進(jìn)行規(guī)范化,使得模型始終保持較大的梯度更新參數(shù),抑制梯度達(dá)到飽和,因此顯著提高了收斂速度。 現(xiàn)有的多模態(tài)語(yǔ)義軌跡預(yù)測(cè)方法中存在難以充分學(xué)習(xí)復(fù)雜依賴關(guān)系的缺點(diǎn)。針對(duì)這一問(wèn)題,本文提出了基于自注意力機(jī)制的多模態(tài)語(yǔ)義軌跡預(yù)測(cè)模型。該模型通過(guò)對(duì)多模態(tài)特征的聯(lián)合嵌入,降低了數(shù)據(jù)的稀疏性;并采用Position Encoding對(duì)軌跡點(diǎn)進(jìn)行編碼處理,彌補(bǔ)依賴關(guān)系計(jì)算中造成的時(shí)序信息丟失缺陷,增強(qiáng)軌跡點(diǎn)間時(shí)序關(guān)系。然后結(jié)合自注意力機(jī)制精準(zhǔn)量化軌跡點(diǎn)之間的復(fù)雜依賴權(quán)重,從而顯著提高軌跡預(yù)測(cè)的有效性。本文還設(shè)計(jì)了MN機(jī)制實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù)模式,將軌跡樣本分配給不同的分布并對(duì)其進(jìn)行規(guī)范化,有效解決了單一分布規(guī)范化會(huì)丟失模式信息的問(wèn)題,從而減少特征偏移量,以達(dá)到預(yù)防依賴關(guān)系失真的目的。并且MN機(jī)制能夠加速模型的收斂。由此,預(yù)測(cè)的有效性和魯棒性得到了極大提升。本文在紐約真實(shí)軌跡數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,與SERM相比,SAMSTP提高了預(yù)測(cè)準(zhǔn)確率,預(yù)測(cè)總體速度提升了9.633倍,并且在各評(píng)價(jià)標(biāo)準(zhǔn)下表現(xiàn)最優(yōu)。 未來(lái)工作的目標(biāo)是引入更豐富的非結(jié)構(gòu)化信息,如用戶之間的關(guān)系,以進(jìn)一步提高本文模型的性能。2.2 總體框架
3 Self-attention計(jì)算復(fù)雜依賴關(guān)系
4 MN機(jī)制預(yù)防依賴關(guān)系失真
5 實(shí)驗(yàn)與結(jié)果分析
5.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置
5.2 評(píng)價(jià)標(biāo)準(zhǔn)及參數(shù)設(shè)置
5.3 實(shí)驗(yàn)內(nèi)容
5.4 實(shí)驗(yàn)結(jié)果分析
6 結(jié)束語(yǔ)