周烽, 王世璞, 張坤鵬,2*
(1.河南工業(yè)大學(xué)電氣工程學(xué)院, 鄭州 450001; 2.清華大學(xué)自動化系, 北京 100084)
隨著中國城市化迅速發(fā)展,交通工具增多,城市交通面臨巨大壓力。作為是智能交通系統(tǒng)(intelligent transportation system,ITS)的重要組成部分,準(zhǔn)確實時的交通流預(yù)測對于減輕交通壓力至關(guān)重要。它在路徑規(guī)劃和城市交通管理等應(yīng)用方面發(fā)揮關(guān)鍵作用[1]。交通流預(yù)測的目標(biāo)是基于歷史交通流數(shù)據(jù)預(yù)測未來交通網(wǎng)絡(luò)的狀態(tài)。
早期研究者使用統(tǒng)計學(xué)的方法預(yù)測交通流,例如利用差分自回歸移動平均模型(autoregressive integrated moving average model, ARIMA)[2]去預(yù)測交通流。因為交通流數(shù)據(jù)具有非線性的特性,但統(tǒng)計學(xué)模型并不能解決該問題,因此預(yù)測精度較不高且有局限性。機器學(xué)習(xí)方法能更好地處理交通流非線性問題,何祖杰等[3]使用支持向量機(support vector machine,SVM)模型并應(yīng)用于交通流預(yù)測,取得了良好的效果。研究者使用改進貝葉斯模型[4-5]的方法,實現(xiàn)了預(yù)測精度的提高。
近年來,隨著圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)[9]和Transformer[10]模型的不斷發(fā)展,越來越多的學(xué)者開始將這兩種方法應(yīng)用于交通流預(yù)測領(lǐng)域,以綜合考慮交通數(shù)據(jù)的時間和空間相關(guān)性。
在國外,Ali等[11]利用GCN和LSTM分別對交通流預(yù)測問題中的時間和空間相關(guān)性進行建模。為了模擬路網(wǎng)中復(fù)雜的空間關(guān)系,Djenouri等[12]在物聯(lián)網(wǎng)環(huán)境下,使用GCN對城市路網(wǎng)的交通流進行了預(yù)測。Reza等[13]提出了一種基于多頭注意力機制的Transformer模型,用于捕捉交通流的時空相關(guān)性。Shuvro等[14]為了捕捉交通流的時空相關(guān)性,引入基于二維多頭注意力機制的2D-Transformer模型。Xu等[15]提出了時空Transformer網(wǎng)絡(luò)(spatial-temporal transformer network,STTN)模型預(yù)測交通流,STTN利用空間變換網(wǎng)絡(luò)的自注意力機制對空間相關(guān)性進行建模,利用時間轉(zhuǎn)換器來模擬時間相關(guān)性。
在國內(nèi),為了預(yù)測城市路網(wǎng)交通流,張建旭等[16]提出一種多因子融合時空圖神經(jīng)網(wǎng)絡(luò),分別使用GCN和GRU對空間相關(guān)性和時間相關(guān)性進行建模。劉志等[17]設(shè)計了一個時空動態(tài)循環(huán)圖卷積框架,通過圖卷積層和全連接層來建模交通流預(yù)測中的時空關(guān)系。周楚昊等[18]提出了一種多通道Transformer交通流預(yù)測方法。將Transformer模型提取交通數(shù)據(jù)的內(nèi)在規(guī)律,使用注意力融合時空特征。汪鳴等[19]提出了一個時空圖網(wǎng)絡(luò)模型。使用GCN和變體Transformer分別捕獲數(shù)據(jù)中的時間和空間相關(guān)性,并通過門控融合機制將時空特征進行融合。夏英等[20]提出了一種基于時空注意力卷積神經(jīng)網(wǎng)絡(luò)的交通流量預(yù)測模型,由門控時間卷積網(wǎng)絡(luò)模塊用于獲取交通流的動態(tài)相關(guān)性,采用空間注意力機制與GCN結(jié)合提取路網(wǎng)的空間動態(tài)相關(guān)性。盡管上述方法在解決交通流預(yù)測問題方面取得了一定進展,但GCN在處理復(fù)雜的空間路網(wǎng)圖時存在不足,難以有效區(qū)分具有不同鄰域結(jié)構(gòu)但相同空間路網(wǎng)結(jié)構(gòu)的節(jié)點,因此未能充分提取交通流數(shù)據(jù)的空間特征。
為解決上述問題,現(xiàn)提出一種基于圖Transformer(Graformer)的交通流預(yù)測方法,將多條路段的交通狀態(tài)預(yù)測問題轉(zhuǎn)化為圖節(jié)點狀態(tài)預(yù)測問題。首先,Graformer模型利用LSTM挖掘交通流的時間特征。接著,采用帶邊的圖同構(gòu)網(wǎng)絡(luò)(graph isomorphism network with edges,GINE)[21]對空間路網(wǎng)結(jié)構(gòu)進行分析,并對具有相同空間路網(wǎng)結(jié)構(gòu)的節(jié)點進行分類。此外,通過Transformer中的全局注意力機制對全部交通節(jié)點進行加權(quán)平均,生成全局特征。最終,將GINE與Transformer的輸出進行聚合,獲得交通流數(shù)據(jù)的全局空間特征。為驗證模型的有效性,利用PeMS數(shù)據(jù)集對Graformer進行了驗證,并與其他預(yù)測模型進行了性能比較。
圖1 空間路網(wǎng)結(jié)構(gòu)圖Fig.1 Spatial road network structure diagram
(1)
如圖2所示,模型包含一個時間相關(guān)性模塊、一個空間相關(guān)性模塊以及一個全連接層。為充分捕獲交通數(shù)據(jù)的時空相關(guān)性,時間相關(guān)性模塊采用2層LSTM,以有效解決一維卷積在處理長時間序列時出現(xiàn)的梯度消失問題。空間相關(guān)性模塊由一個消息傳遞圖神經(jīng)網(wǎng)絡(luò)(message-passing graph neural networks,MPNN)模塊、一個全局注意力模塊Transformer組成以及一個多層感知器(multi-layer perceptron,MLP)模塊。其中,MPNN模塊采用GINE。Transformer模塊作為全局注意力模塊,將GINE與Transformer輸出的數(shù)據(jù)整合輸入進MLP模塊。在各功能模塊中采用殘差連接,并進行批量歸一化(batch norm)。最后,通過一個全連接層(即圖2的Linear層)輸出路網(wǎng)上所有路段的交通流。
L為空間相關(guān)性的層數(shù);Xl為交通流數(shù)據(jù)的節(jié)點特征;El為交通流數(shù)據(jù)的邊緣特征;為全局注意力模塊輸出的節(jié)點;為MPNN模塊輸出的節(jié)點;Xl+1為空間相關(guān)性模塊輸出的節(jié)點特征;El+1為空間相關(guān)性模塊輸出的邊緣特征 圖2 Graformer模型框架圖Fig.2 Structure of Graformer model
1.2.1 時間相關(guān)性建模
本文研究中使用2層的LSTM網(wǎng)絡(luò)去捕獲交通流的時間相關(guān)性。LSTM的單元結(jié)構(gòu)包括輸入門、遺忘門和輸出門,如圖3所示。輸入門激活新的輸入信息并控制需要更新的信息;遺忘門確定丟棄上一時刻的狀態(tài)信息量;輸出門控制可以導(dǎo)出當(dāng)前單元狀態(tài)的信息,LSTM單元的描述公式為
xt為當(dāng)前時刻輸入數(shù)據(jù);Ct-1為上一時刻的單元狀態(tài);Ct為當(dāng)前時刻的單元狀態(tài);ot為輸出門的輸出;it為輸入門的輸出;ft為遺忘門的輸出;σ為sigmoid激活函數(shù);tanh為激活函數(shù);ht-1為上一時刻的隱藏狀態(tài);ht為當(dāng)前時刻的輸出結(jié)果圖3 LSTM神經(jīng)網(wǎng)絡(luò)圖Fig.3 LSTM neural network diagram
ft=σ(Wf[ht-1,xt]+bf)
(2)
it=σ(Wi[ht-1,xt]+bi)
(3)
οt=σ(Wο[ht-1,xt]+bο)
(4)
(5)
(6)
ht=οttanh(Ct)
(7)
本文研究中采用的是2層LSTM網(wǎng)絡(luò),輸入的數(shù)據(jù)為Xt-T+1,…,Xt-1,Xt,第一層網(wǎng)絡(luò)的輸出作為第二層LSTM網(wǎng)絡(luò)的輸入,再經(jīng)過第二層LSTM網(wǎng)絡(luò)得到輸出結(jié)果。
1.2.2 空間相關(guān)性建模
對于實際的交通圖數(shù)據(jù)集,交通路網(wǎng)在空間上表現(xiàn)出復(fù)雜的連接結(jié)構(gòu),空間路網(wǎng)結(jié)構(gòu)為交通流時空相關(guān)性信息提供了豐富的來源。但是具有不同鄰域結(jié)構(gòu)但有相同空間路網(wǎng)圖的節(jié)點會使得提取空間特征不充分,為了充分捕獲交通流的空間相關(guān)性,提出了Graformer模型,該模型基于圖同構(gòu)網(wǎng)絡(luò)(graph isomorphism network with edges,GINE)和注意力機制(即Transformer),處理節(jié)點及其相鄰節(jié)點的時間和空間信息。GINE節(jié)點更新過程如圖4所示。
圖4 GINE中節(jié)點更新過程Fig.4 Node update process in GINE
在GINE中,空間網(wǎng)絡(luò)結(jié)構(gòu)圖G=(V,E,A)表示對于v∈V具有節(jié)點特征Xv,對于(u,v)∈E具有邊屬性euv??臻g路網(wǎng)結(jié)構(gòu)圖的原始節(jié)點特征和邊緣特征都是二維分類向量,分別表示為節(jié)點v和邊緣e的(iv,1,iv,2)和(je,1,je,2)。本文研究中引入了唯一的類別來指示掩碼節(jié)點和邊以及自循環(huán)邊,作為GINE的輸入特征,首先通過以下方式嵌入分類向量。
(8)
(9)
由圖4所示,在第l層,GINE將節(jié)點特征更新為此節(jié)點的邊緣特征以及節(jié)點在上一GINE層激活值的聚合,再將聚合得到的節(jié)點特征輸入MLP中更新節(jié)點,GINE更新節(jié)點方式為
(10)
要區(qū)分同構(gòu)的空間路網(wǎng)圖,通過每一層GINE獲得節(jié)點的特征后,還需要獲取整個圖的特征。常利用READOUT函數(shù)(求和、求平均值和求最大值)將節(jié)點特征轉(zhuǎn)化成圖特征,使用READOUT的平均函數(shù),通過對最后一層處的節(jié)點嵌入進行平均,然后將中心節(jié)點vcenter的嵌入和單個GINE層更新后得到的節(jié)點特征連接起來獲得圖特征hG。其中,MEAN函數(shù)為平均函數(shù),CONCAT是連接函數(shù)。
(11)
在第l層的GINE中,一個節(jié)點包含和本節(jié)點在l層以內(nèi)所有節(jié)點的信息,更深的GINE層中節(jié)點的特征可以提取以該節(jié)點為中心的更大的子圖結(jié)構(gòu)信息,利用GINE的圖特征表示,可以獲得更多圖上信息,在最后一層,通過MEAN函數(shù)和CONCAT函數(shù)獲得圖特征表達。
在提取空間特征時使用Transformer模型中的多頭注意力機制,具體來說,多頭在注意力機制用不同的、學(xué)習(xí)過的線性投影將查詢值Q、鍵值K和值V線性投影h次,分別投影到dk和dv維度。然后,在這些Q、K和V的投影版本中的每一個上執(zhí)行注意力函數(shù),生成dv維輸出值。把它們連接起來并再次投影,從而產(chǎn)生最終值。多頭注意力機制計算如圖5所示,多頭注意力機制計算公式為
圖5 多頭注意力機制計算示意圖Fig.5 Schematic diagram for calculation of multi-head attention mechanism
MultiHead(Q,K,V)=Concat(head1,head2,…,headh)WO
(12)
(13)
Graformer結(jié)合了MPNN和全局注意層組合的處理模塊。處理模塊定義了一個計算圖,允許在MPNN和Transformer的全局注意力之間實現(xiàn)平衡,包括線性節(jié)點數(shù)量的注意機制。MPNN模塊采用GINE,其作用于具有邊緣特征的給定節(jié)點的鄰域。全局注意力模塊使用的是Transformer模型,它處理不帶邊緣特征的可變數(shù)量輸入節(jié)點。在每一層中,通過將MPNN模塊的輸出與全局注意力模塊Transformer的輸出聚合來更新特征,邊緣特征僅傳遞給MPNN模塊。具有全局注意機制的Transformer與MPNN層相互交織,實現(xiàn)了一輪局部鄰域聚合,實現(xiàn)了迭代的局部和全局交互。Transformer允許信息通過全連接在圖中傳播,從而解決了過度平滑導(dǎo)致的表達性問題。在全局注意力機制中,Q-K-V機制僅顯式依賴于節(jié)點特征,而MPNN進行了有效的表示編碼,節(jié)點特征可以隱式編碼邊緣信息,因此邊在Q、K或V中發(fā)揮作用。
在MPNN模塊、全局注意力模塊以及MLP模塊之后,使用殘差連接,并對輸出進行batch norm。在兩層MLP塊中,使用ReLU激活函數(shù),其內(nèi)部隱藏維數(shù)為層輸入特征維數(shù)dl的兩倍。與Transfor-mer模型類似,Graformer模塊的輸入和輸出維數(shù)作為一個整體是相同的。Graformer模塊的計算公式為
Xl+1,El+1=Graformerl(Xl,El,A)
(13)
(14)
(15)
(16)
(17)
(18)
采用PeMS交通數(shù)據(jù)驗證所提出的Graformer模型的預(yù)測能力。PeMS交通流量數(shù)據(jù)集來源于加利福尼亞州高速公路系統(tǒng)中部署的15 000多個獨立探測器,數(shù)據(jù)采集頻率為30 s。研究區(qū)域如圖6所示,紅色節(jié)點表示數(shù)據(jù)采集傳感器。本文研究使用的交通流量數(shù)據(jù)來自第7區(qū),數(shù)據(jù)以5 min為間隔被重新采樣。以5 min的采集間隔得到的交通數(shù)據(jù)比較精細,可以得到較為平滑的數(shù)據(jù),同時又獲得了交通流量變化的趨勢,及時反映了交通狀況的變化,可以對交通數(shù)據(jù)分析與預(yù)測提供合適的時間尺度。短于5 min會導(dǎo)致數(shù)據(jù)噪聲增加,變得復(fù)雜不易處理。長于5 min會導(dǎo)致信息丟失,模型無法捕捉到交通流短期變化。數(shù)據(jù)集包含365 d內(nèi)從1 740個數(shù)據(jù)采集傳感器收集的交通流量數(shù)據(jù),其中,80%數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,10%數(shù)據(jù)用于測試數(shù)據(jù)集,其余10%數(shù)據(jù)作為驗證數(shù)據(jù)集。
圖6 加利福尼亞州第7區(qū)的研究區(qū)域Fig.6 Study area in California district 7
為驗證模型有效性并對預(yù)測結(jié)果進行對比分析,應(yīng)用3種廣泛的指標(biāo)來評估模型的預(yù)測性能,即平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)。這些評價指標(biāo)的計算公式為
(1)平均絕對誤差為
(19)
(2)平均絕對百分比誤差為
(20)
(3)均方根誤差為
(21)
采用PyTorch開發(fā)所述模型,PyTorch使用的是動態(tài)圖數(shù)據(jù),允許修改計算圖,更易于調(diào)試和實驗,而TensorFlow和Keras使用的是靜態(tài)圖數(shù)據(jù),需要在圖構(gòu)建之前定義整個計算圖,同時PyTorch可以靈活的定義層,損失函數(shù)和優(yōu)化器,有利于實驗的進行。所有數(shù)值實驗均在一臺配備有3.2 GHz英特爾Core i7 CPU,64 GB內(nèi)存以及1個NVIDIA TITAN Xp顯卡的臺式計算機上進行。實驗參數(shù)包括:Graformer模塊中的注意力個數(shù)K=2,Dropout層的丟棄率為0.25,Graformer層數(shù)L=3;訓(xùn)練200個輪次;批次大小(batch size)為32;本文研究中采用Adam優(yōu)化器訓(xùn)練模型,Adam優(yōu)化器相較于其他優(yōu)化器,可以自適應(yīng)調(diào)整學(xué)習(xí)率,不同參數(shù)可以有不同的學(xué)習(xí)率,從而適應(yīng)數(shù)據(jù)的不同特征。初始學(xué)習(xí)率為0.001,但是模型的學(xué)習(xí)率并不是固定的,在訓(xùn)練模型的過程中,Adam優(yōu)化器中學(xué)習(xí)率是動態(tài)變化的,以適應(yīng)訓(xùn)練模型過程中的變化。
為了評估Graformer模型的預(yù)測性能,引入如下幾種方法進行對比。
(1)歷史平均模型(history average,HA):HA利用前12 h交通流數(shù)據(jù)的平均值來預(yù)測節(jié)點的交通流。
(2)支持向量機(support vector machines, SVM):SVM是一種監(jiān)督機器學(xué)習(xí)方法,廣泛應(yīng)用于分類、回歸、信號處理等領(lǐng)域。依據(jù)結(jié)構(gòu)風(fēng)險最小化原則,SVM能處理非線性、高維及凸二次規(guī)劃問題。SVM模型以一條路段的交通流數(shù)據(jù)為輸入,在考慮交通狀態(tài)時間相關(guān)性的前提下預(yù)測該路段交通流量。
(3)k近鄰(k-nearest neighbors,KNN):KNN是一種用于分類和回歸的非參數(shù)方法。算法包含4個步驟:建立歷史交通數(shù)據(jù)庫、定義兩種交通模式間的相似性、搜索k個最近鄰并執(zhí)行預(yù)測任務(wù)。KNN模型在預(yù)測路段交通流時僅考慮交通狀態(tài)的時間相關(guān)性。
(4)LSTM:LSTM模型每次僅預(yù)測一條路段的交通流。該模型僅考慮交通狀態(tài)的時間相關(guān)性。
(5)T-GCN:T-GCN是一種多層神經(jīng)網(wǎng)絡(luò),利用兩層圖卷積網(wǎng)絡(luò)聚合一階和二階鄰居的空間信息提取特征。T-GCN通過捕捉交通數(shù)據(jù)的時空相關(guān)性來預(yù)測路網(wǎng)交通流。
(6)GAT-GRU:GAT-GRU模型在利用格蘭杰因果關(guān)系算法和圖注意力機制動態(tài)提取交通流數(shù)據(jù)的空間特征;采用GRU編碼-解碼器提取交通流數(shù)據(jù)的時間特征;最后,對路網(wǎng)各個路段的交通流進行同步預(yù)測。
表1表示了不同模型預(yù)測15 min交通流性能結(jié)果,圖7表示了Graformer模型在3條路段上預(yù)測15 min交通流的預(yù)測值與真實值的對比。
表1 不同模型預(yù)測15 min交通流性能對比Table 1 Comparison of 15-minute traffic flow performance predicted by different models
圖7 Graformer模型在3條路段上的預(yù)測結(jié)果Fig.7 Prediction results of the Graformer model on three road sections
由表1可知,基于評估指標(biāo),Graformer模型在PeMS數(shù)據(jù)集上針對非線性和復(fù)雜交通流量數(shù)據(jù)實現(xiàn)了較好的預(yù)測效果。傳統(tǒng)方法HA、KNN和SVM模型對交通流數(shù)據(jù)建模能力有限,因此預(yù)測效果較差。盡管LSTM是傳統(tǒng)的深度學(xué)習(xí)模型,但因僅考慮交通流量數(shù)據(jù)的時間相關(guān)性,而未充分挖掘空間相關(guān)性,其預(yù)測效果并不理想。
由于交通流數(shù)據(jù)具有時間相關(guān)性和空間相關(guān)性,因此在路網(wǎng)層面對交通數(shù)據(jù)進行建模時,應(yīng)同時考慮這兩方面。T-GCN在時空建模方面相較于傳統(tǒng)深度學(xué)習(xí)模型已有顯著提升,但其并未深度挖掘高階相鄰節(jié)點的空間信息。因此,T-GCN的預(yù)測效果尚有提升空間。盡管GAT-GRU模型充分考慮了交通流的時空特性,并在預(yù)測性能上表現(xiàn)良好,但仍不如Graformer模型。主要原因有兩點:一是在處理大量交通數(shù)據(jù)時,LSTM往往優(yōu)于參數(shù)較簡單的GRU;二是Graformer模型中的全局注意力機制在確定不同節(jié)點權(quán)重方面要優(yōu)于簡單的GAT模型。因此,本文模型在交通流預(yù)測方面具有良好效果。由圖7可知,Graformer模型在3個路段上上對未來交通流的預(yù)測值均接近真實值,顯示出較好的預(yù)測效果。表2展示了不同模型在預(yù)測30、45、60 min交通流的性能對比。
表2 不同模型預(yù)測30、45、60 min交通流的性能對比Table 2 Performance comparison of different models predicting 30, 45, 60 minutes traffic flow
由表2可知,在同時考慮時空相關(guān)性的模型中,本文提出的模型在30、45、60 min的預(yù)測結(jié)果上均優(yōu)于對比模型。隨著預(yù)測時間的延長,交通流預(yù)測誤差逐漸增大。在60 min的長期預(yù)測中,相較于在PeMS數(shù)據(jù)集上表現(xiàn)良好的GAT-GRU模型,Graformer在MAE、MAPE和RMSE上分別降低了1.65、3.07和3.84。
由圖8可知,傳統(tǒng)的深度學(xué)習(xí)模型LSTM在建模時較為單一,預(yù)測效果較差,且在不同步長中預(yù)測評價指標(biāo)趨于平滑。T-GCN、GAT-GRU和Graformer模型隨著預(yù)測時間的增加,預(yù)測精度逐漸下降。GAT-GRU模型在不同步長的預(yù)測評價指標(biāo)優(yōu)于T-GCN模型,而Graformer模型在各時間步長上的評價指標(biāo)均優(yōu)于其他對比模型。
圖8 不同模型預(yù)測15、30、45、60 min交通流的性能對比Fig.8 Performance comparison of different models for predicting traffic flow in 15, 30, 45, and 60 minutes
為了驗證Graformer模型的性能,本節(jié)選擇長沙市中心的道路網(wǎng)作為研究區(qū)域。道路分布如圖9示,包括9個信號交叉口和24條路段,路段ID來自長沙市交警支隊的交通信息管理系統(tǒng)。每2 min對這些路段上出租車的GPS數(shù)據(jù)進行采樣,以估計交通信息。數(shù)據(jù)屬性包括路段ID、數(shù)據(jù)采集時間、交通速度等。這些交通數(shù)據(jù)收集于2017年11月,將其中27 d的完整交通數(shù)據(jù)作為實驗數(shù)據(jù)。這些數(shù)據(jù)進一步分為三部分:前25 d的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,第26天和第27天的數(shù)據(jù)分別作為驗證數(shù)據(jù)集以及測試數(shù)據(jù)集,以測試Graformer的預(yù)測性能。
圖9 研究區(qū)域的道路分布圖Fig.9 Road distribution map of the study area
表3示了7個模型在長沙數(shù)據(jù)集上預(yù)測結(jié)果的平均MAE、MAPE、RMSE??梢钥闯鯣raformer模型的MAE、MAPE和RMSE最小,分別為3.64、13.47%和5.16。具體而言,相較于深度學(xué)習(xí)模型, KNN和SVM模型預(yù)測準(zhǔn)確度較低。和其他深度學(xué)習(xí)模型LSTM、T-GCN和GAT-GRU相比,Graformer模型在預(yù)測交通流方面顯示了其優(yōu)異的模型性能。
表3 不同模型在長沙數(shù)據(jù)集預(yù)測15 min交通流性能對比Table 3 Comparison of performance of different models in predicting 15-minute traffic flow in the Changsha dataset
綜上所述,Graformer模型在不同國家地區(qū)交通網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)集上表現(xiàn)出了良好的預(yù)測性能,具有良好的擴展能力。
為了評估模型中注意力的個數(shù)對交通預(yù)測的有效性,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置了注意力個數(shù)K。注意力個數(shù)K對交通流預(yù)測效果的影響如表4所示。
表4 模型在不同的注意力個數(shù)的性能對比Table 4 Performance comparison of models in different attention headcounts
由表4可知,給模型設(shè)置不同注意力的個數(shù)在PeMS數(shù)據(jù)集上進行實驗,可得模型適當(dāng)?shù)脑黾幼⒁饬Φ膫€數(shù),在一定程度上有利于提高交通流預(yù)測精度,但是注意力的個數(shù)太多也會導(dǎo)致模型精度的降低,綜合來看注意力的個數(shù)取K=2最適合模型預(yù)測精度的提升。
表5展示了空間相關(guān)性模塊中Graformer層數(shù)L對模型性能的影響。在PeMS數(shù)據(jù)集上的實驗結(jié)果表明,隨著層數(shù)L的增加,模型預(yù)測性能先增加后降低。這說明適當(dāng)增加Graformer層數(shù)有利于提高模型精度,但過多的層數(shù)可能導(dǎo)致預(yù)測精度降低。綜合來看,Graformer層數(shù)L=3最適合模型預(yù)測精度的升。由圖10可知,在批次大小為32時,模型預(yù)測精度最高。
表5 Graformer層數(shù)對模型性能的影響Table 5 Impact of the number of Graformer layer on model performance
圖10 批次大小對模型性能的影響Fig.10 Impact of batch size on model performance
圖11展示了Dropout層丟棄率對模型性能的影響,在PeMS數(shù)據(jù)集上實驗結(jié)果表明,Dropout層丟棄率對于有利于增強模型的魯棒性,防止模型過擬合,使模型更具有泛化能力。本文研究的Dropout層丟棄率設(shè)置范圍在0.10~0.50,以預(yù)測未來15 min交通流量性能作為對比。由圖11可知,當(dāng)Dropout層丟棄率為0.25時,模型的MAPE最小,因此,Dropout層丟棄率確定為0.25。
圖11 Dropout層丟棄率對模型性能的影響Fig.11 Impact of dropout rates of the dropout layer on model performance
為了利用交通網(wǎng)絡(luò)中傳感器節(jié)點間的空間相關(guān)性和交通流量數(shù)據(jù)的時間周期特性,提出了一種基于注意力機制的Graformer模型,旨在提高交通流量預(yù)測精度。該模型采用了GINE學(xué)習(xí)空間路網(wǎng)結(jié)構(gòu)圖的節(jié)點特征,有效地捕捉交通數(shù)據(jù)的空間信息,并將相同結(jié)構(gòu)的空間路網(wǎng)結(jié)構(gòu)圖進行分類,并結(jié)合Transformer的全局注意力機制,以更準(zhǔn)確地捕捉節(jié)點之間的影響力。同時,模型實現(xiàn)了自適應(yīng)權(quán)重匹配不同鄰居節(jié)點,并通過迭代的局部和全局交互,充分挖掘交通流量的動態(tài)空間相關(guān)性特征。同時,通過引入LSTM有效捕捉交通數(shù)據(jù)中的時間相關(guān)性,進一步增強模型的表征能力。在PeMS數(shù)據(jù)集和長沙數(shù)據(jù)集上的對比實驗中,Graformer模型在預(yù)測精度上均優(yōu)于其他模型。
在未來的研究中,將考慮天氣狀況和交通事故等因素對預(yù)測結(jié)果的影響,并且將這些因素轉(zhuǎn)換成模型可以訓(xùn)練的特征,使模型預(yù)測結(jié)果更符合真實世界的交通場景。