雷 毅, 張善關(guān), 謝云馳, 胡 勇, 喻 蒙, 張躍進(jìn)*
(1.江西省高速公路聯(lián)網(wǎng)管理中心,南昌 330036;2.華東交通大學(xué)信息工程學(xué)院,南昌 330013)
高速公路作為城市間互相聯(lián)通的重要紐帶,在長途出行及貨物的運(yùn)輸中扮演了極其重要的角色,提供了長距離、快速出行的重要保障。高速公路的交通管理越來越受到重點關(guān)注[1]。利用實時車流量數(shù)據(jù)進(jìn)行管理屬于“被動式反應(yīng)”,而通過分析歷史交通流變化規(guī)律,預(yù)測下一時間間隔內(nèi)的交通流量進(jìn)行管理屬于“主動式動作”。被動式的管理只能在交通擁堵發(fā)生時進(jìn)行車輛誘導(dǎo)、避免二次擁堵,而主動式管理能從根本上提高高速公路通行能力和服務(wù)水平,同時駕駛員也能根據(jù)預(yù)測的交通流情況進(jìn)行路線規(guī)劃,避免交通擁堵[2]。因此,對高速公路交通流進(jìn)行準(zhǔn)確、實時的預(yù)測是智能交通系統(tǒng)從“被動式反應(yīng)”轉(zhuǎn)變到“主動式動作”的關(guān)鍵,在高速公路聯(lián)網(wǎng)管理過程中至關(guān)重要[3]。
短時交通流預(yù)測是指預(yù)測通過道路指定斷面5~15 min跨度內(nèi)的車輛數(shù)量[4]。通常,交通流預(yù)測可以視為學(xué)習(xí)問題。首先,通過從給定的歷史流量數(shù)據(jù)中學(xué)習(xí)基本流量模式,然后基于實時流量數(shù)據(jù)預(yù)測未來狀況,來構(gòu)建預(yù)測模型。在過去的幾十年里,已有多種交通流預(yù)測方法被提出。然而,準(zhǔn)確和實時的交通流預(yù)測仍然是一個具有挑戰(zhàn)性的問題,因為道路交通系統(tǒng)是一個時變且復(fù)雜的非線性系統(tǒng),其發(fā)展很大程度上取決于交通流之間的相互作用。時空交通流數(shù)據(jù)的有效提取和數(shù)據(jù)挖掘技術(shù)的進(jìn)步,為短期交通流預(yù)測提供了合理的預(yù)測準(zhǔn)確性和更短的預(yù)處理時間[5]。
針對交通流時空特性,提出一種基于流形距離的K鄰近(K-nearest neighbor,KNN)-長短期記憶(long short-term memory,LSTM)預(yù)測模型。該模型采用流形距離度量任意兩點之間的空間相關(guān)性,篩選出k個最近鄰站點,將這k個站點和目標(biāo)站點數(shù)據(jù)輸入LSTM模型進(jìn)行訓(xùn)練和測試。同時,通過降低學(xué)習(xí)速率來提高模型的收斂速度和收斂穩(wěn)定性;在測試過程中,利用滾動預(yù)測的方法提高預(yù)測精度。
交通流量是指單位時間內(nèi)通過道路某一地點或某一斷面的實際車輛數(shù),又稱交通量。高速公路某一站點的交通流量主要來源于相鄰站點。預(yù)測某一路段交通流時,不僅需要考慮到歷史數(shù)據(jù)的變化特征,還要考慮來自相鄰站點的交通流影響,即交通流的時間相關(guān)性和空間相關(guān)性[6]。以美國華盛頓州 I-5 高速公路上實時交通流為原始數(shù)據(jù),驗證交通流的相關(guān)特性。
高速公路交通流的時間序列具有非線性和波動性。圖1為2019年11月21日站點1581交通流時間序列,交通流有過兩次高峰,一次在6:00左右,另一次在17:00左右,而在其他時刻流量有所下降。盡管整體趨勢明顯,但數(shù)據(jù)點之間交替出現(xiàn)局部極大值和極小值,呈現(xiàn)出隨機(jī)波動特性[7]。此外,高速公路交通流的時間序列整體呈現(xiàn)出相似趨勢。圖2為2019年11月11—17日站點1581交通流時間序列。從圖2(a)中可以看出相同斷面的交通流量在工作日(周一 —周五)中呈現(xiàn)出日相似性。而周末(周六至周日)的交通流趨勢又和工作日不同,具體變化如圖2(b)所示。高速公路的交通流時間序列受各種因素影響呈現(xiàn)非線性變化,但當(dāng)前時刻的交通流量必然與前幾個時刻的交通流量有關(guān)。因此,根據(jù)交通流的時間特性,所提出預(yù)測算法不僅需要有處理周期性分布變化的能力,而且還可以根據(jù)外部因素變化重新學(xué)習(xí)[8]。
圖1 站點1581交通流時間序列Fig.1 Traffic flow time series for station 1581
圖2 站點1581一周內(nèi)交通流時間序列Fig.2 Traffic flow time series for station 1581 in a week
在高速路網(wǎng)中,道路交通是一個復(fù)雜的網(wǎng)絡(luò),網(wǎng)絡(luò)中的交叉口相互聯(lián)系,相互影響。選擇空間相關(guān)性強(qiáng)的站點可以提高預(yù)測精度[9]。圖3為2019年11月21日探測器在 WA I-5公路不同站點采集的交通流速度數(shù)據(jù)。從圖3中可以看出,交通流的擁堵和分散過程,紅色表示路段擁擠,車速較小;綠色表示道路平坦,車速快。上游路段的交通流狀態(tài)可以擴(kuò)散到下游路段,距離越近,擴(kuò)散程度越大[10]。由此可見,高速公路交通流在空間上呈現(xiàn)出流形相似性。
圖3 WA I-5 部分站點速度分布Fig.3 WA I-5 some sections traffic speed distribution
KNN算法是通過測量不同特征值之間的距離進(jìn)行分類或回歸。利用KNN算法思想,找出距離目標(biāo)站點最近鄰的k個站點構(gòu)造交通流數(shù)據(jù)集。常用的測量距離包括歐式距離、曼哈頓距離等[11]。然而,這些距離指標(biāo)無法準(zhǔn)確地描述兩站點之間的流形特性,因此,對于鄰近站點的選取,引入流形距離概念。利用流形距離來衡量目標(biāo)站點與附近站點之間的相關(guān)程度,定義如式(1)所示[12]:
(1)
將交通流站點當(dāng)作無向圖中的結(jié)點,D(xi,xj)則是兩結(jié)點(xi,xj)之間的流形距離,Pk和Pk+1分別代表第k和第k+1個結(jié)點路徑,Pij代表連接兩結(jié)點(xi,xj)的所有路徑,L(xi,xj)則是兩結(jié)點(xi,xj)之間的邊長,定義如式(2)所示:
L(xi,xy)=eδd(xi,xy)-1
(2)
式(2)中:δ為調(diào)節(jié)參數(shù),經(jīng)過多次測試,δ取0.2效果更好;d(xi,xj)為兩結(jié)點之間(xi,xj)的歐式距離:
(3)
式(3)中:(X,Y)為兩個交通流站點;n為交通流序列樣本個數(shù)。
Pij為兩結(jié)點(xi,xj)之間的所有路徑,k為Pij的路徑數(shù)之和,對于每一個結(jié)點k,如果L(xi,xk)+L(xk,xj) 通過式(1)~式(3)可以得出,目標(biāo)站點與各站點之間的流形距離,選擇合適的鄰近站點構(gòu)造交通流數(shù)據(jù)集。 長短時記憶(LSTM)網(wǎng)絡(luò)是一種改進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),適用于處理和預(yù)測具有較長時間間隔和高相關(guān)性的時間序列問題[13]。LSTM與RNN的區(qū)別在于LSTM的每個單元都增加了一個細(xì)胞來判斷歷史信息的有效性。每個細(xì)胞放置了三個門,分別是遺忘門、輸入門和輸出門,LSTM單元的結(jié)構(gòu)如圖4所示。xt、yt和ht分別為t時刻的輸入數(shù)據(jù)、輸出數(shù)據(jù)和隱藏層的輸出數(shù)據(jù)。對于輸入的時間序列,LSTM網(wǎng)絡(luò)可以使用細(xì)胞來確定之前的序列是否對預(yù)測有影響。影響越大,權(quán)重越高。為了防止梯度爆炸,低影響力的數(shù)據(jù)會被遺忘。最后,整個網(wǎng)絡(luò)得到遺忘門的輸出數(shù)據(jù)ft、輸入門的輸出數(shù)據(jù)it、存儲單元的狀態(tài)值ct和最終輸出門的預(yù)測結(jié)果ot[14]。 圖4 LSTM單元結(jié)構(gòu)Fig.4 The cell structure of LSTM block LSTM模型各門的輸出公式如式(4)~式(9)所示[15]: ft=σ(Wf[xt,ht-1]+bf) (4) it=σ(Wi[xt,ht+1]+bi) (5) ct=ft?ct-1+it?g(Wc[xt,ht-1]+bc) (6) ot=σ(Wo[xt,ht-1]+bo) (7) ht=ot?g(ct) (8) yt=Wyht+by(9) 式中:σ()為sigmoid激活函數(shù);g()為雙曲正切激活函數(shù);ht-1為上一層細(xì)胞的輸出;xt為當(dāng)前輸入;W為權(quán)重矩陣;b為偏置向量。 實驗數(shù)據(jù)來源于PORTAL(Portland Oregon regional transportation archive listing)提供的官方交通電子數(shù)據(jù)庫。使用WA I-5、SR-14和SR500三條州際公路上共21個站點的交通數(shù)據(jù)作為實驗對象。數(shù)據(jù)收集周期為43 d,從2019年10月16日—11月27日。圖5為路網(wǎng)的環(huán)路探測器分布圖。探測器的數(shù)據(jù)采集間隔為15 min,每個站點的交通流量為該道路上探測器流量之和。站點1581為目標(biāo)站點,前36 d的數(shù)據(jù)作為預(yù)測模型的訓(xùn)練集,最后7 d的數(shù)據(jù)作為測試集進(jìn)行測試。 圖5 探測器分布Fig.5 Detectors distribution 對環(huán)路檢測器采集到的數(shù)據(jù)進(jìn)行檢測。當(dāng)數(shù)據(jù)異?;蛉笔r,使用周相似性或相鄰點均值來處理數(shù)據(jù),如式(10)所示[16]: (10) 式(10)中:k為觀測數(shù)據(jù)的周期;xt-1、xt+1分別為t-1和t+1時刻目標(biāo)站點的交通流量。 為提高算法精度及模型學(xué)習(xí)速度,使用Z-score標(biāo)準(zhǔn)化方法對數(shù)據(jù)x進(jìn)行歸一化。歸一化值x*為 (11) 式(11)中:σ為數(shù)據(jù)的均值;μ為數(shù)據(jù)的標(biāo)準(zhǔn)差。 在實驗中,為了評價和比較預(yù)測模型的性能,使用了平均絕對百分誤差(mean absolute percentage error,MAPE)和均方根誤差(root mean square error,RMSE)作為預(yù)測性能的評價指標(biāo)。 (12) (13) 利用改進(jìn)的KNN算法計算各站點與目標(biāo)站點的流形距離,各站點的流形距離和歐式距離如圖6所示。經(jīng)過多次實驗,選流形距離數(shù)值最小的8個站點的交通流量(即k=8)構(gòu)造交通流數(shù)據(jù)集訓(xùn)練LSTM模型。在訓(xùn)練LSTM模型前,先對數(shù)據(jù)集進(jìn)行預(yù)處理。LSTM模型層數(shù)設(shè)置為4層,包含一個輸入層、兩個隱藏層和一個輸出層。節(jié)點數(shù)分別為9、20、40和1。其他最優(yōu)結(jié)構(gòu)參數(shù):優(yōu)化器使用Adam,學(xué)習(xí)率設(shè)置為0.01,最大迭代數(shù)為500次,在250次時乘以迭代因子0.5降低學(xué)習(xí)率。預(yù)測時,利用滾動預(yù)測方法,即把實測數(shù)據(jù)作為已知數(shù)據(jù)繼續(xù)進(jìn)行預(yù)測,預(yù)測結(jié)果如圖7所示。 圖6 目標(biāo)站點與各站點間的相關(guān)性度量Fig.6 The corrdlation measurement between target site and other sites 圖7 MDKNN-LSTM預(yù)測值Fig.7 The prediction results of MDKNN-LSTM 為了評價MDKNN-LSTM模型的預(yù)測性能,將ARIMA(autoregressive integrated moving average model)、SVR(support vector regression)、LSTM和KNN-LSTM模型的預(yù)測結(jié)果作為對比。每個模型的實測數(shù)據(jù)與預(yù)測數(shù)據(jù)之間的EMAPE和ERMSE結(jié)果如表1所示。預(yù)測結(jié)果表明,MDKNN-LSTM的預(yù)測精度最高,EMAPE降至9.28%。與常規(guī)的KNN-LSTM相比,EMAPE和ERMSE分別下降了1.48%和6.48。更重要的是,多站點輸入的LSTM模型的預(yù)測效果要比單一輸入的LSTM模型的效果更好。這說明空間特性因素對短時交通流的預(yù)測至關(guān)重要,可以有效地提高預(yù)測精度。此外,基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果要優(yōu)于ARIMA和SVR等傳統(tǒng)模型。其中,SVR的ERMSE較ARIMA低5.96,但其EMAPE則較ARIMA高0.34%。這是因為當(dāng)交通流量較低時,SVM的預(yù)測性能較差。 表1 短時交通流預(yù)測模型誤差評價指標(biāo)比較Table 1 Comparison of error evaluation indexes of short-term traffic flow prediction models 準(zhǔn)確的高速公路短時交通流預(yù)測可以為交通管理和道路規(guī)劃提供有效的幫助。提出了一種利用流形距離來預(yù)測交通流量的KNN-LSTM算法。經(jīng)試驗驗證,得出以下結(jié)論。 (1)交通流的時空特性和流形特性可用于提高短時交通流預(yù)測的準(zhǔn)確性。 (2)流形距離比傳統(tǒng)的歐式距離更能反映上下游站點對交通流的影響。 (3)KNN和LSTM的混合模型比單一模型的預(yù)測效果更好。 但該預(yù)測模型也存在著局限性,比如預(yù)測模型較為復(fù)雜、預(yù)測所需時間長及預(yù)測沒有考慮到交通事故、大型車輛比例等外部因素對交通流的影響。因此,下一步的工作將集中在尋找優(yōu)化算法優(yōu)化模型參數(shù)并將影響交通流的外部因素納入預(yù)測模型,從而進(jìn)一步提高預(yù)測精度。2.2 LSTM網(wǎng)絡(luò)
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)來源
3.2 數(shù)據(jù)預(yù)處理及誤差定義指標(biāo)
3.3 預(yù)測結(jié)果及分析
4 結(jié)論