薛延明,李光輝,齊 濤
江南大學 人工智能與計算機學院,江蘇 無錫214122
機動車是人們外出的重要交通工具,據(jù)公安部統(tǒng)計,截至2020 年6 月,中國機動車保有量達3.6 億輛,即平均每4 人擁有一輛機動車;全國機動車駕駛人數(shù)量達4.4億,其中汽車駕駛人占總人數(shù)的90.9%,因此需要預測交通流量趨勢以進行合理管控。然而,由于交通流數(shù)據(jù)的復雜性和龐大性,對其進行預測是極具挑戰(zhàn)性的。首先在時間維度上,交通流數(shù)據(jù)具有波動性和突變性,其整體呈現(xiàn)周期性,但是在某段時間內(nèi)可能產(chǎn)生異常。其次在空間維度上,交通網(wǎng)絡存在復雜的道路位置依賴關系,比如在城市的十字路口處的道路就具有極強的相關性,預測交通流將呈現(xiàn)何種流通形式將十分困難。
以往研究者通過傳統(tǒng)機器學習方法進行交通流預測,比如向量自回歸(vector autoregressive,VAR)[1]、支持向量回歸機(support vector regression,SVR)[2]以及滑動平均自回歸(autoregressive integrated moving average model,ARIMA)[3]。但是這些方法都是基于變化趨勢平穩(wěn)理想假設,復雜多變的交通流數(shù)據(jù)往往不符合這一理論基礎。隨著人工智能的興起和發(fā)展,越來越多的人希望通過深度學習方法對交通流進行預測。研究者們通過循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)[4-5]、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)[6]以及自動編碼器[7]進行建模。然而這些方法僅僅考慮了時間維度上的相關性,忽略了交通數(shù)據(jù)復雜的空間依賴關系。
交通流數(shù)據(jù)是非歐式結構的,其節(jié)點沒有固定的鄰域結構,很難直接對其進行卷積操作。為了解決以上所提到的問題,圖卷積網(wǎng)絡(graph convolutional network,GCN)應運而生。GCN 用拉普拉斯變換定義非歐式結構數(shù)據(jù)的卷積操作,Kipf等人首次提出并將其應用于分類任務中[8]。Zhao 等人[9]將GCN 和RNN結合挖掘交通數(shù)據(jù)的時空依賴關系。Yu等人[10]則通過CNN和門控機制來提取交通流數(shù)據(jù)的時空相關性。Li 等人[11]提出了擴散卷積網(wǎng)絡提取交通流數(shù)據(jù)空間特征信息。Cui等人[12]提出了一種基于物理網(wǎng)絡拓撲的流量圖卷積網(wǎng)絡,同時通過L1和L2范數(shù)提高了模型的可解釋性。Wang等人[13]提出了一種可學習的位置卷積網(wǎng)絡,提高了模型的預測性能。馮寧等人[14]用圖卷積分別對日、周和近期數(shù)據(jù)進行特征提取來預測交通流數(shù)據(jù)。但是這些方法都缺乏靈活的局部特征提取能力。Cui 等人[15]將小波變換和RNN進行結合提取交通流的時空相關性。小波變換可以更好地提取局部空間信息,且不需要在圖中指定領域范圍進行特征提取。然而一條道路的交通狀況不僅受其相鄰道路的影響,還需要特別關注易發(fā)重大事故或者位于網(wǎng)絡樞紐的道路。交通流數(shù)據(jù)還存在動態(tài)變化性,圖中道路的相關性會隨著時間而發(fā)生改變,一些重要的時間點可能是影響整體數(shù)據(jù)的關鍵點。然而,目前的方法通常將交通圖看作靜態(tài)圖,通過固定的鄰接矩陣來獲得圖中的領域空間相關性。同時利用RNN在提取時間特征信息時通常只考慮交通流數(shù)據(jù)的順序相關性,然而交通流數(shù)據(jù)作為一種時序數(shù)據(jù)不只是順序相關的,一些重大交通事故可能會影響交通網(wǎng)絡相當長的時間,而現(xiàn)有方法忽略了時空動態(tài)變化性和影響大小關系。因此本文提出了融合圖小波和注意力機制的交通流預測方法,實驗證明該方法的預測誤差低于現(xiàn)有的方法。
本文的主要貢獻包括:
(1)提出了一種基于圖小波變換和自適應矩陣的空間特征融合提取方法,該方法能分別提取交通流數(shù)據(jù)局部和全局空間特征信息,并通過注意力機制捕獲空間特征的動態(tài)變化性。
(2)提出了一種時間特征融合機制,融合分別從改進的循環(huán)神經(jīng)網(wǎng)絡和自注意力網(wǎng)絡中提取的局部和全局時間特征信息。
交通網(wǎng)絡的拓撲結構通常被認為是圖結構,交通圖可以表示為G=(V,E,A),其中V為圖的頂點集合,代表測量車速的傳感器節(jié)點集合,這些傳感器被部署在交通道路上方或路邊,每隔一段時間記錄車輛速度。E表示傳感器節(jié)點之間邊的集合,反映了節(jié)點之間的連通關系。A為G的加權鄰接矩陣,表示節(jié)點之間的距離。交通流數(shù)據(jù)可以表示為X=,t表示時間序列,n表示交通數(shù)據(jù)中傳感器節(jié)點序號,表示節(jié)點n在時間t的交通速度。在真實的交通網(wǎng)絡中許多道路都是雙向道路,可將交通網(wǎng)絡看成無向圖。
為了獲得圖中的空間依賴關系,在頻域中定義卷積操作而實現(xiàn)。對于交通流數(shù)據(jù)X,圖卷積操作*g通過核濾波器F對其進行卷積操作,其卷積核為gθ,U為Laplace 矩陣的特征向量,卷積操作可以表示為:
其中,D是一個度對角矩陣,Dii=∑j Aij。L表示圖的Laplace矩陣,In表示單位矩陣。
由于在大型圖中進行矩陣分解復雜性高,通過Chebyshev 多項式進行近似計算[16],可將計算復雜度降為O(K|ε|)[17],圖卷積可以改寫為:
其中,θ0、θ1分別是一跳和二跳節(jié)點的超參數(shù),可以由θ統(tǒng)一表示。最后可以得到圖卷積層的一階線性表達式:
其中,H(l)代表第l層的輸出,σ(·)是sigmoid 激活函數(shù),W為可學習的權重矩陣。但是需要超參數(shù)來決定圖卷積核的大小,因此在圖中進行卷積操作不夠靈活。
本文方法通過圖小波卷積層和自適應矩陣來提取空間特征信息,利用注意力機制來捕捉動態(tài)空間變化性。本文還提出了時間特征融合機制來提取時間特征信息,方法的整體框架如圖1 所示,本文將其命名為STIGCN(graph convolutional network integrating spatio-temporal attention and graph wavelet)。
圖1 STIGCN框架圖Fig. 1 Structure of STIGCN
現(xiàn)有大多數(shù)交通預測方法是通過圖傅里葉定義圖卷積操作,需要指定跳數(shù)來對一定范圍內(nèi)的鄰居節(jié)點進行特征聚合,這使得中心節(jié)點的領域被一個指定半徑的圓嚴格限制,因此提取特征過程不靈活,局部特征提取能力受到限制[15]。本文基于圖小波變換進行卷積操作,小波變換具有局部化特性,可以捕獲信號的突變并檢測出信號中的峰值,將圖小波運用在交通預測中可以捕獲到交通網(wǎng)絡中一些重要道路信息和路段中一些突變的交通變化信息,且不需要定義跳數(shù),從而變得更為靈活,具有更好的局部空間特征提取能力。與圖傅里葉變換類似,圖小波變換也是將圖信號映射到頻域中進行卷積操作,不同的是傅里葉變換只能將時域信號分解為頻域信號的組合,而小波變換可以展示信號隨時間變化過程中相位最大的頻率的位置和時間。圖小波采用一個母小波函數(shù)將信號分解為不同的頻率分量,在圖網(wǎng)絡中可以表示為一組小波基ψs=[ψs1,ψs2,…,ψsn],ψsi表示節(jié)點i相關的小波基。s為尺度參數(shù),控制小波的大小,λ表示L的特征值。圖小波基ψs可以表示為:
相比傅里葉變換,圖小波基ψs和更加稀疏,因此計算更加快速有效。此外,圖小波變換聚合局部節(jié)點信息來表征節(jié)點特征,從而提高了方法的可解釋性。
然而交通網(wǎng)絡中的空間關系是不確定的,道路節(jié)點除了與鄰居節(jié)點密切相關以外,還和位于網(wǎng)絡中心的重要道路節(jié)點相關,而這些節(jié)點可能相距較遠,而通過基于距離計算的鄰接矩陣無法體現(xiàn)出這些道路的相關性[18],因此本文采用了一個自適應矩陣在全局范圍內(nèi)進行空間特征學習,其表達式為:
其中,p和m分別是A前c個特征值組成的特征向量和對角矩陣,E1,E2∈RN×c,自適應矩陣以及圖小波卷積可以分別提取局部和全局空間特征信息。由于空間依賴通常是非線性的,需要一個非線性激活函數(shù),在本文中采用ReLU函數(shù)。通過一個對角權重矩陣Λ可以得到STIGCN的圖卷積層迭代式為:
在小波變換過程中也可以用Chebyshev多項式進行近似計算,圖小波的Chebyshev多項式可以表示為:
本文通過一種新穎的RNN方法——記憶增強循環(huán)神經(jīng)網(wǎng)絡(memory-augmented RNN,MRNN)進行局部時間特征提取[19]。該方法是基于ARIMA 建模的,MRNN的結構如圖2所示。
圖2 MRNN結構圖Fig. 2 Architecture of MRNN
MRNN是在RNN的不同位置添加了長期記憶濾波器,該結構也可以看作通過記憶參數(shù)c對歷史數(shù)據(jù)進行軟注意,從而提高了RNN的長期記憶能力。第i個長期記憶濾波器可以表示為:
其中,B表示時序分析方法中的后移運算符,BXt表示前一時刻的序列數(shù)據(jù)Xt-1。di是第i個記憶濾波器的差分記憶參數(shù),可以保證預測的穩(wěn)定性,di∈[0,0.5] 。
本文將經(jīng)過圖卷積提取空間特征的交通數(shù)據(jù)輸入到MRNN中提取時間特征信息,其數(shù)學表達式為:
其中,K表示濾波長度,m(t)負責捕捉長期記憶信息,RNN的隱層狀態(tài)h(t)負責捕捉短期記憶信息,兩個單元并行運算得到時序數(shù)據(jù)的時間依賴關系。d(t)表示時間步t的差分記憶參數(shù)向量。GC(·)表示圖卷積層操作,[]表示多個矩陣的拼接操作。在STIGCN中通過MRNN 可以得到時間的順序相關性,計算得到未來T個時間步的局部時間特征HL。
2.4.1 空間動態(tài)變化性提取方法
交通流數(shù)據(jù)的空間相關性會隨著時間的變化而變化,例如某道路發(fā)生了交通事故,其將會成為未來一段時間里影響交通最大因素。只通過圖小波和自適應矩陣對圖中空間特征進行特征提取會忽略交通流的動態(tài)變化性,因此為了獲取不同時間步的空間相關性,本文通過注意力機制[20]對不同時間步的交通空間圖進行重要性系數(shù)分配,如圖3所示??臻g注意力機制可以使得各交通道路在不同時間點上聚焦于更重要更相關的其他交通道路的交通流特征信息。
圖3 空間權重隨時間的變化情況Fig. 3 Changes of spatial weight over time
對于圖卷積層的輸出Hs,通過權重矩陣Wq、Wk、Wv可以計算空間注意力層的輸出Hatten,其表達式為:
其中,d表示Hs的輸入維度。
在STIGCN中采用多頭注意力機制,可以綜合多個注意力層的結果進行特征表示。當有K個注意力頭時,多頭注意力可以表示為:
2.4.2 局部和全局時間融合機制
通過RNN 可以提取時間的相關性,但是其存在一些不足。首先RNN 具有遺忘性,隨著時間序列的增加,RNN 會逐漸遺忘過去的特征信息,因此RNN只能獲得局部的時間信息。其次RNN的時間特征表示是順序的,但是在實際交通網(wǎng)絡中時間依賴關系往往是復雜的,而不只是順序相關的。例如某時刻發(fā)生了交通事故,則該時間點對未來的時間點影響將是最大的且會持續(xù)很長一段時間,而非主要受前一個時刻的影響。
由于交通網(wǎng)絡時間依賴關系是交錯復雜的,本文通過自注意力層對交通數(shù)據(jù)做了全局時間信息提取,其方法框架如圖4所示。
圖4 時間特征融合機制Fig. 4 Temporal feature fusion mechanism
然而自注意力層忽略了時序數(shù)據(jù)之間的相對位置關系,因此在計算之前需要使得方法平等地對待不同位置的數(shù)據(jù)。本文對輸入數(shù)據(jù)Ht的每個位置進行位置編碼,獲得每個節(jié)點i的嵌入,其表達式如下所示:
將時間嵌入與原本的數(shù)據(jù)進行加和得到自注意力層的輸入Hin[i]:
然后通過多頭注意力機制可以得到全局時間特征表示HG:
最后通過卷積層Conv(·),權重矩陣Wl和Wg將局部和全局時間特征進行融合輸出,其表達式為:
算法1STIGCN
本文基于兩個真實數(shù)據(jù)集進行實驗。第一個數(shù)據(jù)集為美國華盛頓州西雅圖地區(qū)高速公路上的車流數(shù)據(jù),名為Freeway Traffic 數(shù)據(jù)集[21]。該數(shù)據(jù)覆蓋了4 條相連的高速公路,包括I-5、I-90、I-405 和SR-520。原始數(shù)據(jù)包括車速、交通量以及密度,在對該數(shù)據(jù)集進行了全面的數(shù)據(jù)清洗后選取了2015年一整年的高質(zhì)量交通數(shù)據(jù)信息[22],包括323 個傳感器節(jié)點。第二個數(shù)據(jù)集為美國加利福尼亞州運輸部門的PEMS系統(tǒng)部分數(shù)據(jù),簡稱為PeMSD7[23],實驗采用時間跨度為2012年5月和6月工作日的數(shù)據(jù),包含了228個節(jié)點。兩個數(shù)據(jù)集中的數(shù)據(jù)均采取了每隔5 min進行采樣。
在Freeway Traffic 數(shù)據(jù)集中,鄰接矩陣由0 和1組成,節(jié)點相鄰為1,不相鄰為0。交通速度數(shù)據(jù)采用了最大最小值歸一化,將速度規(guī)定在[0,1]范圍內(nèi),具體表達式如下:
在PeMSD7數(shù)據(jù)集中,鄰接矩陣是根據(jù)交通網(wǎng)絡中節(jié)點之間的距離計算的,通過以下計算得到鄰接矩陣A:
其中,dij表示節(jié)點之間的距離,σ2和ε分別控制鄰接矩陣A的分布和稀疏性,本文參照文獻[10]分別設定為10和0.5。
交通速度數(shù)據(jù)采用的歸一化方法如下所示:
本文基于Pytorch框架構建相關深度學習實驗方法。所有的實驗均在GPU 服務器上完成,該服務器CPU型號為Intel?Core?i9-9900X@3.5 GHz,GPU的型號為兩塊11 GB NVIDIA GTX 2080Ti,內(nèi)存為32 GB。
數(shù)據(jù)前70%作為訓練集,剩下的數(shù)據(jù)中20%作為驗證集,10%作為測試集。STIGCN的批處理大小為32,每層神經(jīng)元的丟棄率為0.1,注意力多頭個數(shù)設置為4,圖小波核尺度s在兩個數(shù)據(jù)集中都設置為0.08,滯后系數(shù)k設置為8。所有深度學習方法的批處理大小均采用Adam函數(shù)作為所有方法的訓練優(yōu)化器,學習率初始值均設定為0.001。本文的評價指標包括平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)。對于輸入數(shù)據(jù)x,三種評價標準可以定義為:
本文利用兩個真實的交通流數(shù)據(jù)集進行實驗分析及評估,在實驗過程中將STIGCN與其他方法進行性能對比,對比方法包括8 種算法,分別是歷史平均方法(history average model,HA)、支持向量回歸機(linear support vector regression,LSVR)、記憶增強循環(huán)神經(jīng)網(wǎng)絡(memory-augmented recurrent neural network,MRNN)[19]、時間圖卷積網(wǎng)絡(temporal graph convolutional network,TGCN)[9]、時空圖卷積網(wǎng)絡(spatiotemporal graph convolutional network,STGCN)[10]、擴散卷積循環(huán)神經(jīng)網(wǎng)絡(diffusion convolutional recurrent neural network,DCRNN)[11]、圖小波循環(huán)神經(jīng)網(wǎng)絡(graph wavelet gated recurrent neural network,GWGR)[15]、多注意力圖神經(jīng)網(wǎng)絡(graph multi-attention network,GMAN)[24]。
MRNN的滯后系數(shù)k設置為8,TGCN的GRU隱藏層維度為64,GWGR的小波尺度s在兩個數(shù)據(jù)集上都設置為0.08,隱層維度為64,輸出層維度為128。STGCN[10]、DCRNN[11]、GMAN[24]的參數(shù)設置均參考文獻,設置為默認值。另外,為了比較Chebyshev 多項式的效果,本文還通過Chebyshev表示圖上的卷積操作,具體是對圖小波進行了三階近似計算,并設置方法STIGCN-Che。
表1展示了各方法在PeMSD7和Freeway Traffic兩個數(shù)據(jù)集中的預測表現(xiàn),實驗中的方法均是通過前60 min的歷史數(shù)據(jù)來預測未來45 min的交通情況。
表1 各方法在兩個數(shù)據(jù)集上的預測表現(xiàn)Table 1 Prediction performance of each method on two datasets
圖5 展示了所有深度學習方法的平均絕對誤差MAE與迭代次數(shù)的關系,其中TGCN迭代了1 000次,圖中僅顯示100 次迭代結果。從圖5 可知,STIGCN在Freeway Traffic 數(shù)據(jù)集中的MAE 是最低的,且收斂速度相較于其他算法也更快,由此可以說明STIGCN的泛化能力相較對比算法更加優(yōu)異。
圖5 Freeway Traffic數(shù)據(jù)集中各方法驗證集迭代情況Fig. 5 Validation set iteration of each method in Freeway Traffic dataset
通過實驗可知統(tǒng)計方法HA 和機器學習方法LSVR均無法捕捉復雜的交通流特征信息,預測效果不佳。對于MRNN這類RNN方法來說,其效果要明顯優(yōu)于機器學習方法,在15 min預測任務中對比LSVR和HA,F(xiàn)reeway Traffic 數(shù)據(jù)集上其MAE 分別降低了23.1%和29.4%,在PeMSD7 數(shù)據(jù)集上分別降低了18.4%和49.1%。這類方法缺陷在于只考慮了時間相關性,在短期預測中效果較優(yōu),但在長期預測中效果不佳,比如在Freeway Traffic數(shù)據(jù)集中,MAE在15 min預測中較STGCN 低了3.97%,但是在45 min 預測中高了2.84%。TGCN 和STGCN 是基于GCN 的方法,考慮了交通流數(shù)據(jù)中復雜的空間依賴關系,同時分別通過GRU和CNN考慮了時間依賴關系,因此在性能上要優(yōu)于RNN模型。PeMSD7數(shù)據(jù)集上STGCN在30 min 預測任務中MAE 和RMSE 分別比MRNN 模型降低了10.1%和4.5%。而在45 min 預測任務中MAE 和RMSE 分別比MRNN 模型降低了17.7%和9.6%。TGCN 在前30 min 預測任務中性能不及MRNN,但在45 min 預測任務中的RMSE 降低了8.7%,由此可知隨著預測時間步長的增加,深度學習模型的性能將逐漸優(yōu)于RNN 方法。DCRNN 模型是基于擴散卷積來提取圖中的空間相關性,在預測精度上要高于TGCN和STGCN。
實驗還表明基于小波變換的圖卷積網(wǎng)絡方法在短期預測任務中的性能優(yōu)于基于傅里葉變換的方法。GWGR在兩個數(shù)據(jù)集中進行15 min預測任務的三個誤差指標(MAE、RMSE、MAPE)均低于傳統(tǒng)的GCN 方法,但是長期預測中效果不佳。本文提出的STIGCN 方法在長期預測中誤差比GWGR 小,在Freeway Traffic數(shù)據(jù)集上,相比GWGR模型在15 min、30 min和45 min預測任務中誤差(MAE)分別降低了6.1%、10.2%和14.2%。GWGR 隨著時間步長的增加,性能下降迅速,主要原因是GRU 具有遺忘性,而STIGCN 通過MRNN 和注意力機制增強了模型的記憶性,從而提高了長期預測性能。本文方法還和采用了圖嵌入表示和注意力機制的方法GMAN進行了比較,在預測性能上也優(yōu)于該方法,尤其是在15 min預測任務中,STIGCN 要明顯優(yōu)于GMAN,其原因主要是圖小波更能捕獲交通網(wǎng)絡中一些重要的路段和變化,同時自適應矩陣也能從全局角度發(fā)掘一些隱藏的重要道路信息,從而挖掘更多隱藏信息。
此外,實驗還比較了STIGCN-Che和STIGCN之間的性能差異,如圖6 所示。通過Chebyshev 多項式近似圖上的矩陣分解可加快計算速度,在大型的圖中可降低算法的復雜性。
圖6 STIGCN和STIGCN-Che計算時間比較Fig. 6 Comparison of calculation time between STIGCN and STIGCN-Che
3.5.1 圖小波和自適應矩陣分析
STIGCN 通過圖小波變換對圖中的節(jié)點進行特征表示,圖小波矩陣零值在兩個數(shù)據(jù)集中的分布情況如表2所示。
表2 圖小波矩陣稀疏情況統(tǒng)計Table 2 Statistics of graph wavelet matrix sparsity
圖小波變換矩陣包括了一個對角權重矩陣Λ和小波基ψs,圖小波變換矩陣可以表示為。本文將圖小波基和圖小波變換矩陣在Freeway Traffic數(shù)據(jù)集上進行了可視化展示,如圖7所示。
圖7 圖小波和自適應矩陣Fig. 7 Graph wavelet and adaptive matrix
對比Laplace傅里葉基可以發(fā)現(xiàn),ψs相比U更為稀疏,數(shù)量級遠小于N2。因此在大型網(wǎng)絡中進行圖上的卷積操作復雜度更低,同時可以提高方法的可解釋性。除此以外,本文還分析了自適應矩陣的權重分布情況,相比圖7(c)的圖小波矩陣,自適應矩陣可以從全局角度提取額外的道路節(jié)點空間特征信息。
3.5.2 注意力模塊分析
STIGCN 采用注意力機制對圖小波卷積和自適應矩陣提取的空間特征信息進行再提取,根據(jù)節(jié)點之間的重要性進行權重分配,從而可以捕捉空間特征隨時間的動態(tài)變化性。圖8 展示了在不同時間的空間相關性熱力圖,圖中顏色越紅表明節(jié)點被關注度越高,越藍則相反。從圖中可以看到,節(jié)點6 在不同的時間點上對鄰近節(jié)點的關注程度不同。
圖8 空間動態(tài)變化圖Fig. 8 Spatial dynamic change diagram
3.5.3 時間融合機制分析
STIGCN 除了在空間上通過注意力機制獲取空間隨時間的動態(tài)變化性,在時間上也通過自注意力模塊來獲取時間的動態(tài)變化性,得到全局時間相關性。MRNN 可以獲取時間的順序相關性,順序相關性是局部相關的特征提取方法,STIGCN 通過將MRNN和子注意力模塊提取的時間特征進行融合而更好地提取交通流的時間特征信息。為了驗證時間融合機制的有效性,設置了以下消融實驗:
(1)RNN 方法。只通過MRNN 獲得局部時間信息。
(2)自注意力方法。只通過子注意力層獲取全局時間信息。
(3)順序疊加方法。將MRNN 提取的局部時間特征直接傳入自注意力模塊中提取特征信息。
(4)信息融合機制。將局部和全局時間特征信息進行融合處理。
實驗結果如表3 所示。從實驗結果來看本文提出的時間融合機制提高了預測性能,由此可驗證時間融合機制的有效性。本文還設置了注意力機制相關消融實驗,STIGCN-NA 表示沒有空間注意力機制,具體如表3所示。因此可以證明注意力機制能有效地獲取空間動態(tài)變化性。
表3 兩個數(shù)據(jù)集消融實驗結果Table 3 Ablation experiment results for two datasets
在本實驗中,本文考察了一些重要的參數(shù)。其中小波核尺度參數(shù)s、隱藏層維度以及輸出層維度是對算法影響最大的參數(shù)。本文將輸入批處理大小設置為32,訓練迭代次數(shù)設置為20,并在兩個數(shù)據(jù)集上進行實驗。
在PeMSD7 數(shù)據(jù)集中隱藏層維度設置為[16,32,64,128,200],輸出層維度為[16,32,64,128,256]。水平軸表示維度大小,豎直軸表示不同評價標準的值,如圖9 所示。在隱藏層維度和輸出維度各為128 時,MAE 和RMSE 達到最小然后又上升,其主要原因是產(chǎn)生了過擬合。
圖9 參數(shù)選擇中誤差變化情況Fig. 9 Error change in parameter selection
在Freeway Traffic數(shù)據(jù)集中,隱藏層維度設置為[16,32,64,100]。從圖中可知當隱層和輸出層各為64時誤差達到最小。另外,本文將圖小波尺度參數(shù)設置為[0.02,0.08,0.16,0.24,0.32],當尺度參數(shù)s在0.08時,在兩個數(shù)據(jù)集中誤差都達到最小。
本文在兩個數(shù)據(jù)集上比較了一天的預測值和真實值的擬合程度,如圖10 所示。其中車速的變化可以反映車流量的變化,平均車速降低表示車流量減少。從圖中可知,STIGCN能較好地擬合真實值。此外從圖中可以發(fā)現(xiàn),F(xiàn)reeway Traffic 數(shù)據(jù)集的速度數(shù)據(jù)變化不平穩(wěn)且波動較大,從圖中無法看出明顯的早高峰和晚高峰,但是在中午和晚上這段時間車流量明顯減少。而從PeMSD7 中可以看到較明顯的早高峰和晚高峰,從早晨4:00 到6:30 車流量顯著減少,7:30 之后出現(xiàn)早高峰,同時在晚上17:30 后出現(xiàn)晚高峰。
圖10 兩個數(shù)據(jù)集中車速變化情況Fig. 10 Changes of vehicle speed on two datasets
本文提出了一種融合圖小波和注意力機制的交通流預測方法。該方法通過圖小波和自適應矩陣來分別提取局部和全局的空間相關性,并采用新穎的RNN模型MRNN來提取時間順序相關性。為了獲取交通流數(shù)據(jù)的時空相關性,本文將注意力機制加入到方法中,提出了一種時間融合機制來提取時間特征信息,實驗結果說明了該方法能提高預測精度,降低預測誤差。今后將考慮交通網(wǎng)絡中結構相關性,并對方法的魯棒性進行研究。