孫寶華 謝生曼 楊剛*
(1.中國瑞林工程技術(shù)股份有限公司 江西省南昌市 330036)
(2.華東交通大學(xué)電氣與自動(dòng)化工程學(xué)院 江西省南昌市 330013)
交通擁堵是當(dāng)前世界各地均面臨的一個(gè)問題,不僅影響人們的出行,同時(shí)對(duì)環(huán)境和經(jīng)濟(jì)也有一定的負(fù)面影響,而智能交通系統(tǒng)(Intelligent Transportation System,ITS)的設(shè)計(jì)和使用則可在一定程度上實(shí)現(xiàn)交通誘導(dǎo)和控制,減輕或避免交通擁堵。自20世紀(jì)80年代以來,交通流預(yù)測[1]就一直是ITS 的重要組成部分,可根據(jù)歷史和當(dāng)前的交通流數(shù)據(jù)對(duì)未來時(shí)刻的交通流進(jìn)行預(yù)測,其實(shí)現(xiàn)的技術(shù)也由原來的經(jīng)典統(tǒng)計(jì)方法演化至數(shù)據(jù)驅(qū)動(dòng)方法[2]。
交通流具有高度的非線性、不確定性、時(shí)間相關(guān)性等特點(diǎn),當(dāng)前時(shí)刻及歷史時(shí)刻的交通狀態(tài)特征信息直接影響著未來時(shí)刻的交通狀態(tài),而天氣因素、節(jié)假日、重大事件等因素對(duì)未來時(shí)刻的交通預(yù)測也有重要影響。根據(jù)時(shí)間尺度的不同,其預(yù)測分為長時(shí)(long-term)和短時(shí)(short-term)預(yù)測[3]兩類。其中,對(duì)未來15 分鐘以內(nèi)的交通狀況所做的預(yù)測是微觀意義上的,是交通預(yù)測研究的重要領(lǐng)域。Lippi 等[4]通過對(duì)短時(shí)交通流預(yù)測方法的分析總結(jié),將其劃分為時(shí)間序列預(yù)測和監(jiān)督學(xué)習(xí)兩大類?;诮y(tǒng)計(jì)的交通流預(yù)測方法主要有差分自回歸移動(dòng)平均模型 (Autoregressive Integrated Moving Average Model,ARIMA)[5]、卡爾曼濾波 (Kalman Filtering)[6]、參數(shù)回歸模型(Parametic Regressive Model)[7]和馬爾科夫鏈(Markov Chain)[8]等。這類方法對(duì)于對(duì)非線性的數(shù)據(jù)集表征效果差,在識(shí)別復(fù)雜的模式上也不是很理想。基于數(shù)據(jù)驅(qū)動(dòng)的交通流量預(yù)測主要有貝葉斯網(wǎng)絡(luò)(Bayesian Networks)[9]、K 近鄰(K-Nearest Neighbor,KNN)[10]、支持向量機(jī)(Support Vector Machine,SVM)[11-12]和神經(jīng)網(wǎng)絡(luò)模型(Neural Network Model)[13]以及神經(jīng)網(wǎng)絡(luò)的組合預(yù)測模型等。神經(jīng)網(wǎng)絡(luò)是一種受生物學(xué)啟發(fā)的數(shù)學(xué)建模技術(shù),由于其強(qiáng)大的學(xué)習(xí)能力,早在二十世紀(jì)八十年代,國內(nèi)外學(xué)者就將其應(yīng)用于交通流預(yù)測[14]。隨著人工智能技術(shù)的發(fā)展,特別是深度學(xué)習(xí)、寬度學(xué)習(xí)系統(tǒng)的研究,神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的交通流預(yù)測研究成為熱點(diǎn)。文獻(xiàn)[15]將RBF 神經(jīng)網(wǎng)絡(luò)應(yīng)用于交通流預(yù)測;Zou 等人[16]等提出了運(yùn)用長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory Networks,LSTM)進(jìn)行交通流預(yù)測,具有長時(shí)記憶功能,解決長序列依賴問題;文獻(xiàn)[17]通過構(gòu)建門控循環(huán)單元(Gated Recurrent Unit,GRU)對(duì)交通流進(jìn)行預(yù)測,其結(jié)構(gòu)比LSTM 少了一個(gè)門單元,因此提升了學(xué)習(xí)效率。Byeonghyeop 等人[18]將圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Network,GCN)應(yīng)用于數(shù)據(jù)預(yù)測領(lǐng)域,通過捕捉時(shí)序數(shù)據(jù)的時(shí)空特征提升預(yù)測性能。文獻(xiàn)[19]結(jié)合了卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)設(shè)計(jì)了Conv-LSTM 網(wǎng)絡(luò),有助于數(shù)據(jù)時(shí)空特征的提取,保證預(yù)測效果。
一般情況下,單一預(yù)測方法對(duì)數(shù)據(jù)特征的挖掘不充分,因此,組合預(yù)測方法研究收到了廣泛關(guān)注。文獻(xiàn)[20]結(jié)合LSTM 和ARIMA 進(jìn)行組合預(yù)測,Wang 等[21]將ARIMA 模型與RBF 網(wǎng)絡(luò)相結(jié)合預(yù)測交通流,該方法對(duì)實(shí)際流量有較好的擬合度,優(yōu)于傳統(tǒng)回歸預(yù)測方法和單一的神經(jīng)網(wǎng)絡(luò)預(yù)測模型;Wu 等[22]利用CNN 挖掘交通數(shù)據(jù)的空間依賴關(guān)系,使用LSTM 神經(jīng)網(wǎng)絡(luò)提取數(shù)據(jù)的時(shí)間特征,并使用多尺度建模對(duì)交通流進(jìn)行預(yù)測。
實(shí)際上,交通流不僅受人們出行規(guī)律影響顯示出一定的周期性,而各個(gè)觀測點(diǎn)交通流之間還存在空間相關(guān)性。例如,某一節(jié)點(diǎn)交通流的突變,經(jīng)過一定時(shí)間的傳導(dǎo),會(huì)延遲性地影響著上下游的交通狀態(tài),即交通流不僅存在時(shí)間依賴性,還有著空間關(guān)聯(lián)性。兼顧交通流量時(shí)空特征的預(yù)測方法可以將時(shí)間相關(guān)性和空間相關(guān)性單獨(dú)提取之后再進(jìn)行特征融合,也可以將空間相關(guān)性的結(jié)果作為時(shí)間相關(guān)性分析的組成。其中,以LSTM 為基礎(chǔ)的預(yù)測方法成為一個(gè)主要方向。
為解決實(shí)現(xiàn)短時(shí)交通流量的精準(zhǔn)預(yù)測,本文借助LSTM的時(shí)序預(yù)測方面的優(yōu)勢,設(shè)計(jì)了基于交通流量時(shí)空特征融合的交互預(yù)測方法,通過空間特征分析和時(shí)間特征分析,實(shí)現(xiàn)交通流量的交互預(yù)測。其中,為了提高預(yù)測精度,設(shè)計(jì)了基于參數(shù)優(yōu)化的LSTM 時(shí)序預(yù)測方法。
圖1b)所示為英國某A 類(A Routes)道路和高速公路(Motorways)交匯區(qū)域上下游的測量站點(diǎn)分布。根據(jù)站點(diǎn)空間分布,選擇其中的13 個(gè)站點(diǎn)交通流量數(shù)據(jù)進(jìn)行分析。某站點(diǎn)2019年7月1日-31日的交通流量數(shù)據(jù)如圖1a)所示,為每間隔15 分鐘統(tǒng)計(jì)的交通流量。其中,部分缺失的數(shù)據(jù)根據(jù)該站點(diǎn)上下游同時(shí)段數(shù)據(jù)的平均值進(jìn)行填補(bǔ)。由圖1a)可以發(fā)現(xiàn)交通流數(shù)據(jù)具有明顯的非線性和周期性特點(diǎn),工作日和周末的流量有明顯區(qū)別,但相同時(shí)段的交通流量變化情況趨同。同一時(shí)間段內(nèi)某站點(diǎn)上下游站點(diǎn)的交通流量變化情況如圖1c)所示,表明上下游交通流量之間存在這一定的空間延遲傳導(dǎo)特點(diǎn),該站點(diǎn)的交通流量數(shù)據(jù)受到上游交通流量的變化而變化,同時(shí)經(jīng)過一段時(shí)間后影響下游的交通流量數(shù)據(jù),因此交通流數(shù)據(jù)具有一定的空間依賴性。
圖1:英國某路段某區(qū)域監(jiān)測點(diǎn)分布及交通流量
為了準(zhǔn)確分析選定區(qū)域內(nèi)各測量站點(diǎn)交通流量數(shù)據(jù)之間的空間相關(guān)性,采用空間距離(Distance)kD、最大互信息系數(shù)(MIC)kM對(duì)上述測量站點(diǎn)之間的關(guān)聯(lián)性進(jìn)行分析。
由于較短路段內(nèi)的交通流量波動(dòng)較小,因此選擇的監(jiān)測站點(diǎn)之間要達(dá)到一定的距離,即kD達(dá)到一定的閾值之后再考慮之間的關(guān)聯(lián)性。最大互信息系數(shù)MIC 可反映兩個(gè)線性或非線性變量之間的相關(guān)程度,因此可作為檢測點(diǎn)之間空間相關(guān)性的判斷依據(jù)。對(duì)于圖1b)所示的監(jiān)測站點(diǎn)之間的MIC 分析,將變量Xi和Yi視為圖D 上的橫縱坐標(biāo)值,將橫坐標(biāo)的取值劃分為x段,將橫坐標(biāo)的取值劃分為y段。則MIC 值kM為:
其中,B表示x×y的網(wǎng)格G劃分的最大值,B的大小設(shè)置是數(shù)據(jù)量的0.6 次方左右;MIC 的取值范圍為[0,1],數(shù)值越大表明該隨機(jī)變量間的關(guān)聯(lián)性較強(qiáng);反之,關(guān)聯(lián)性較弱。
為了充分分析監(jiān)測站點(diǎn)之間的關(guān)聯(lián)性,綜合考慮空間距離和最大互信息系數(shù),定義空間距離-最大互信息系數(shù)(Distance-MIC)聯(lián)合指標(biāo)kC判斷站點(diǎn)之間的關(guān)聯(lián)性。其中,圖1b)區(qū)域內(nèi)各站點(diǎn)之間的關(guān)聯(lián)性如表1所示。
一方面,基于空間特征的交通流預(yù)測部分根據(jù)2.2 節(jié)測量站點(diǎn)關(guān)聯(lián)性分析,將表1所示的關(guān)聯(lián)度較高的相關(guān)站點(diǎn)交通流量數(shù)據(jù)作為系統(tǒng)的輸入,維數(shù)為12;將被研究站點(diǎn)的交通流量數(shù)據(jù)作為系統(tǒng)輸出,維數(shù)為1??傻脭?shù)學(xué)模型如下:
表1:選定區(qū)域內(nèi)各站點(diǎn)之間的空間聯(lián)系
其中,yd(n+k)=x(n+k)為系統(tǒng)輸出,x(n)為相關(guān)監(jiān)測站點(diǎn)采集的交通流量時(shí)間序列,k為預(yù)測步長。
另一方面,基于時(shí)間特征的交通流量預(yù)測部分則根據(jù)嵌入定理確定交通流量時(shí)間序列的延遲時(shí)間τ 和嵌入維數(shù)d,可得數(shù)學(xué)模型如下:
根據(jù)差分熵確定該站點(diǎn)交通流時(shí)間序列的延遲時(shí)間τ=7和嵌入維數(shù)d=4。令k=1,即實(shí)現(xiàn)系統(tǒng)的一步預(yù)測,對(duì)下一時(shí)間段內(nèi)的車流量進(jìn)行預(yù)測。
為了實(shí)現(xiàn)交通流的精準(zhǔn)預(yù)測,設(shè)計(jì)了如圖2所示的基于時(shí)空特征融合的交通流量交互預(yù)測系統(tǒng)通過分別對(duì)空間特征和時(shí)間特征的分析,實(shí)現(xiàn)了交通流量的交互預(yù)測。其中,為了提高預(yù)測精度,設(shè)計(jì)了基于TSO 參數(shù)優(yōu)化的LSTM 時(shí)序預(yù)測方法,以及預(yù)計(jì)CNN-LSTM 的空間特征預(yù)測方法。
圖2:基于時(shí)空特征融合的交互預(yù)測系統(tǒng)
LSTM(Long Short-Term Memory)[23]是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neutral Network,RNN)的一種改進(jìn),通過攜帶信息跨域的多個(gè)時(shí)間步的方法(單元狀態(tài)C),實(shí)現(xiàn)較早時(shí)間步長的序列信息可以通過C傳遞到較后時(shí)間步長的細(xì)胞中來,這克服了短時(shí)記憶的影響,因此稱為長短時(shí)記憶網(wǎng)絡(luò)。LSTM 結(jié)構(gòu)如圖3所示,其中,黃色方框表示激活函數(shù)(σ為sigmoid 函數(shù)(0-1 之間),tanh 是tanh 函數(shù)(-1-1 之間);粉色的圓內(nèi)的“+、×、tanh”等表示向量之間的運(yùn)算。LSTM 主要包括以下幾個(gè)部分:
圖3:LSTM 結(jié)構(gòu)示意圖
①單元狀態(tài)(Cell State):貫通LSTM 鏈?zhǔn)较到y(tǒng):
其中ft為遺忘門輸出,通過選擇遺忘確定計(jì)算Ct的Ct-1特征,it為輸入門的輸出,為單元狀態(tài)更新值。
②遺忘門(Forget Gate)ft:對(duì)輸入的信息進(jìn)行選擇性遺忘。T-1 時(shí)刻的狀態(tài)h(t-1)和當(dāng)前輸入Xt與權(quán)值的計(jì)算并根據(jù)激活函數(shù)輸出結(jié)果判斷該輸入信息是否應(yīng)該保留,輸出結(jié)果越接近1 越該保留,反之則該遺忘。
③輸入門(Input Gate)it:類似于遺忘門,用于控制的哪些特征用來更新細(xì)胞狀態(tài)Ct,可以看作是一個(gè)選擇遺忘的過程:
④輸出門(Output Gate)ot:根據(jù)前一個(gè)隱層狀態(tài)ht-1和當(dāng)前輸入經(jīng)激活函數(shù)得到ot;由此確定隱層狀態(tài)ht。
為了驗(yàn)證本文提出的融合時(shí)空特征的短時(shí)交通流交互預(yù)測方法性能,選擇圖1a)所示的某站點(diǎn)及其周圍站點(diǎn)2019年7月的交通流量數(shù)據(jù)進(jìn)行仿真研究。數(shù)據(jù)采樣周期為15分鐘,每天24 小時(shí)共計(jì)采集96 組樣本,7月31 天共計(jì)2976 組樣本。選擇其中的80%用于訓(xùn)練,剩余的20%用于測試。數(shù)據(jù)經(jīng)過圖2所示的分析及處理,確定基于空間特征的預(yù)測和基于時(shí)間特征預(yù)測的模型輸入分別為12 和4,輸出維數(shù)為1。
對(duì)于空間特征建模部分,采用CNN-LSTM 混合建模方法,相關(guān)參數(shù)根據(jù)經(jīng)驗(yàn)進(jìn)行選取。對(duì)于LSTM來說,隱含層數(shù)、學(xué)習(xí)率和迭代次數(shù)直接影響LSTM 的學(xué)習(xí)能力,因此為了提高基于時(shí)間序列的交通流量預(yù)測精度,采用模擬金槍魚群合作覓食行為的金槍魚群優(yōu)化(Tuna swarm optimization,TSO)[24]算法對(duì)上述參數(shù)進(jìn)行優(yōu)化,優(yōu)化流程入圖2 中時(shí)間特征預(yù)測部分,受篇幅限制,此處不再贅述。
在基于時(shí)間特征的TSO-LSTM 交通流量預(yù)測部分,隱含層神經(jīng)元為3,學(xué)習(xí)率0.08,迭代次數(shù)300。
為了全面衡量本文所提方法的性能,針對(duì)同樣的樣本,分別多次獨(dú)立驗(yàn)證LSTM、SVM等方法的短時(shí)交通流量預(yù)測,并從均方根誤差(RMSE)、平均絕對(duì)百分比誤差(MAPE)、平均絕對(duì)誤差(MAE)等幾個(gè)方面進(jìn)行性能對(duì)比。
圖5:基于時(shí)間特征的交通流量預(yù)測(eRMSE=24.1298,eMAPE=1.2197,eMAE=19.7438)
圖6:基于時(shí)空特征融合的交通流量交互預(yù)測(eRMSE=12.0670,eMAPE=0.4469,eMAE=15.3367)
MSE 是預(yù)測值和真實(shí)值對(duì)應(yīng)誤差平方和的均值,RMSE是MSE 的平方根,MAPE 是誤差與真值比值的絕對(duì)值的均值,MAE 是預(yù)測值與真實(shí)值之間絕對(duì)誤差的平均值。
其中,yi表示真實(shí)值,表示預(yù)測值,N為樣本總數(shù)。上述三個(gè)性能指標(biāo)的值越小,表明預(yù)測值與真實(shí)值越接近,系統(tǒng)性能也越好。
本文所做實(shí)驗(yàn)仿真研究均是基于Matlab 2021b 在Intel(R) Core(TM) i7-10510U CPU @ 1.80GHz 2.30 GHz,內(nèi)存8 GB 的普通PC 機(jī)上進(jìn)行的。為最大限度地消除隨機(jī)因素對(duì)結(jié)果的影響,對(duì)于每一個(gè)仿真對(duì)象均獨(dú)立運(yùn)行50 次后取平均值。為便于計(jì)算,將樣本歸一化到[0,1]之間進(jìn)行訓(xùn)練。設(shè)定最大迭代次數(shù)Tmax=2000,容許誤差ε=1e-3。
基于空間特征的交通流量預(yù)測結(jié)果、訓(xùn)練過程,基于時(shí)間特征的交通流量預(yù)測結(jié)果、訓(xùn)練過程及數(shù)據(jù)融合交互預(yù)測結(jié)果分別如圖4-6所示。
圖4:基于空間特征的CNN-LSTM 交通流量預(yù)測(eRMSE=29.0684,eMAPE=2.3355,eMAE=31.1447)
本文設(shè)計(jì)的融合時(shí)空特征的交互預(yù)測方法與其他方法的性能對(duì)比如表2所示。由圖4-6 及表2 可知,與其他方法對(duì)比,本文設(shè)計(jì)的交互預(yù)測方法的預(yù)測精度有了明顯提升,性能由于單獨(dú)的空間特征交通流預(yù)測和時(shí)間特征交通流預(yù)測。
表2:幾種典型方法性能對(duì)比
交通流具有典型的非線性、周期性和空間依賴性,具有時(shí)空特征。為了提高短時(shí)交通流量預(yù)測的精度,設(shè)計(jì)了一種融合交通流量時(shí)空特征的交互預(yù)測方法。首先,針對(duì)該區(qū)域內(nèi)指定站點(diǎn)相鄰站點(diǎn)之間的關(guān)聯(lián)性,篩選關(guān)聯(lián)性強(qiáng)的鄰近站點(diǎn)交通流量作為該指定站點(diǎn)流量預(yù)測的空間特征構(gòu)建LSTM預(yù)測模型;其次,結(jié)合交通流量的時(shí)序特征,根據(jù)指定站點(diǎn)的交通流量數(shù)據(jù)構(gòu)建基于參數(shù)優(yōu)化的LSTM 的時(shí)間序列預(yù)測模型;最后,綜合考慮空間特征和時(shí)間特征的預(yù)測結(jié)構(gòu),作為交通流量預(yù)測輸出。研究結(jié)果表明,時(shí)空特征融合交互的交通流預(yù)測方法有效提高了預(yù)測精度。