呂心鈺,施 佺
(南通大學(xué) 交通與土木工程學(xué)院,江蘇 南通 226019)
道路交叉口是城市道路中最為常見的交通組織形式。相較于高速公路交通流量預(yù)測,道路交叉口交通流量預(yù)測的準(zhǔn)確度受到交叉口相位設(shè)計(jì)、車流沖突等多種不確定因素影響,其結(jié)果對交通管理與控制有著極為重要的意義。道路交叉口交通狀況雖復(fù)雜多變,但也呈現(xiàn)出明顯的時(shí)間、空間特性。時(shí)間特性主要體現(xiàn)在交通數(shù)據(jù)隨著時(shí)間的推移呈季節(jié)性變化;空間特性則體現(xiàn)在相鄰交叉口存在著交通流的相互影響。在現(xiàn)有車輛檢測器基礎(chǔ)上,結(jié)合交叉口交通流的時(shí)空特性和歷史交通流量數(shù)據(jù)預(yù)測未來時(shí)段的交通流量,是保障交叉口的交通安全、充分發(fā)揮其通行能力的有效途徑之一。
近年來,許多學(xué)者在提高短時(shí)交通流量預(yù)測精度上進(jìn)行了大量研究,主要工作包括兩方面:一方面是通過優(yōu)化調(diào)整模型提高預(yù)測準(zhǔn)確度,主要有梯度提升回歸樹模型[1]、深度信念網(wǎng)絡(luò)模型與支持向量回歸分類器相結(jié)合的模型[2]、門限神經(jīng)網(wǎng)絡(luò)模型[3]、季節(jié)性支持向量回歸器結(jié)合卡爾曼濾波的SARIMA(seasonal autoregressive integrated moving average)模型[4]、基于小波分析和季節(jié)性時(shí)間序列變量模型[5],以及利用堆疊式自動(dòng)編碼器來提取隱藏在交通流數(shù)據(jù)中的隱式關(guān)系的模型[6]等;另一方面則是通過對原始數(shù)據(jù)進(jìn)行降噪、歸一化的預(yù)處理等[7-8]。
以上對于交叉口短時(shí)交通流預(yù)測均采用較為復(fù)雜的算法模型以提高預(yù)測的準(zhǔn)確性,很少通過對特征值的處理來改善預(yù)測效果。因此,為提高交通控制系統(tǒng)對交叉口交通流變化的自適應(yīng)能力,本文改變了以往學(xué)者研究交叉口數(shù)據(jù)的思維,采用數(shù)據(jù)自相關(guān)性分析的方法將數(shù)據(jù)序列進(jìn)行預(yù)處理,提出了基于平穩(wěn)化長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的交通量預(yù)測模型,并利用南通市鐘秀中路—北濠橋路正向雷達(dá)采集的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)與分析。通過將大量的實(shí)驗(yàn)結(jié)果與傳統(tǒng)的算法[9-19]進(jìn)行對比與分析,發(fā)現(xiàn)該模型在短時(shí)交通流量的預(yù)測領(lǐng)域具有計(jì)算量小、實(shí)時(shí)性好的優(yōu)點(diǎn),同時(shí)該模型對基礎(chǔ)數(shù)據(jù)準(zhǔn)確性的容忍度更高,不僅能有效地提高預(yù)測準(zhǔn)確性,對比其他算法也更加的簡單、高效。
LSTM 網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)算法[20]的改進(jìn),在原算法基礎(chǔ)上加入了一個(gè)cell,增加了長期記憶功能,讓信息不再衰減,從而達(dá)到克服RNN 網(wǎng)絡(luò)梯度消失問題。
LSTM 網(wǎng)絡(luò)中,增加的cell 通常由遺忘門、輸入門和輸出門3 個(gè)門限結(jié)構(gòu)和1 個(gè)狀態(tài)向量傳輸線組成。其中,狀態(tài)向量傳輸線負(fù)責(zé)長程記憶;3 個(gè)門限負(fù)責(zé)短期記憶的選擇,遺忘門決定如何保留當(dāng)前時(shí)刻該記憶模塊的歷史信息,輸入門決定輸入層信息向隱藏層記憶模塊的傳遞,輸出門決定記憶模塊信息的輸出。當(dāng)信息進(jìn)入LSTM 網(wǎng)絡(luò)時(shí),根據(jù)設(shè)定的規(guī)則來判斷是否有用,被判斷為有用的信息被留下;其余的信息則通過遺忘門被遺忘。LSTM 網(wǎng)絡(luò)模型原理圖如圖1 所示,其中,矩形框表示神經(jīng)網(wǎng)絡(luò)層,圓形框表示逐點(diǎn)操作。
圖1 LSTM 模型原理圖Fig.1 Schematic diagram of the LSTM model
信息在網(wǎng)絡(luò)中的前向傳播過程具體如下:
步驟1更新遺忘門。通過Sigmoid 神經(jīng)層選擇允許通過cell 的信息。將輸入值ht-1和xt輸入到Sigmoid 函數(shù),輸出一個(gè)數(shù)值為0~1 的向量ft,表示各部分信息通過的比重,其中:1 表示所有信息全部通過;0 表示所有信息全部舍棄。
輸出向量ft與輸入值ht-1、xt的函數(shù)關(guān)系為
式中:Wf和bf分別表示遺忘門的權(quán)重和偏向;σ 表示Sigmoid 函數(shù)。
步驟2更新cell 狀態(tài)值。該過程決定有哪些信息需要更新,并用tanh 層生成一個(gè)備選值來替換初始狀態(tài)值。
中間向量it和與輸入向量ht-1、xt分別為
式中:Wi和bi分別為輸入門的權(quán)重和偏向;WC和bC分別是tanh 層創(chuàng)建的新候選值的權(quán)重和偏向。
接著,將狀態(tài)Ct-1更新為狀態(tài)Ct,即將Ct-1與信息通過的比重ft相乘,然后按比重舍棄信息。其中,狀態(tài)Ct的更新方程為
步驟3確定輸出值。先通過Sigmoid 層確定輸出哪一部分的信息,再將通過tanh 層的狀態(tài)向量進(jìn)行處理,并將其和Sigmoid 層的輸出權(quán)重相乘,得到最后結(jié)果。中間向量Ot和輸入向量ht-1、xt,輸出值ht與Ot函數(shù)表達(dá)式分為
式中,WO和bO分別為輸出門的權(quán)重和偏向。
LSTM 網(wǎng)絡(luò)還包括后向傳播過程,從當(dāng)前時(shí)刻t開始,計(jì)算每個(gè)時(shí)刻的誤差項(xiàng)并向上一層傳播。根據(jù)相應(yīng)的誤差項(xiàng)來計(jì)算每個(gè)權(quán)重的梯度,并通過梯度下降法迭代更新參數(shù)。
由于交通流具有隨時(shí)間動(dòng)態(tài)變化的特性,因此LSTM 適用于對交通流數(shù)據(jù)的分析與預(yù)測。交通流數(shù)據(jù)時(shí)間序列是隨機(jī)時(shí)間序列,通常會(huì)表現(xiàn)出非平穩(wěn)特征,因此,需要對原始交通流觀測序列{Xt,t=1,2,3,…}的平穩(wěn)性進(jìn)行評估。這里采用樣本自相關(guān)函數(shù)(auto correlation function,ACF)獲得估計(jì)值通過估計(jì)值繪制ACF 圖判斷時(shí)間序列狀態(tài)并確認(rèn)周期,當(dāng)自相關(guān)函數(shù)值超過95%置信區(qū)間,且存在明顯的拖尾效應(yīng)時(shí),該序列可判定為非平穩(wěn)化序列;反之,該序列為平穩(wěn)化序列。
當(dāng)交通流序列為非平穩(wěn)化序列時(shí),可以基于原始交通流序列計(jì)算其周期性差分ΔTXt,從而獲得平穩(wěn)化差分序列{ΔTXt,t=1,2,3,…}。這里將平穩(wěn)化差分序列作為樣本集的輸出字段重新構(gòu)建樣本集,利用LSTM 預(yù)測結(jié)果,并將結(jié)果還原為原始交通流量。
圖2 為LSTM 算法實(shí)現(xiàn)的一般流程,可見,該算法分為前向傳播與后向傳播兩個(gè)過程。前向傳播主要是對輸入訓(xùn)練樣本訓(xùn)練結(jié)果的計(jì)算,后向傳播則是對網(wǎng)絡(luò)權(quán)重、偏向的反向更新。本文實(shí)現(xiàn)的平穩(wěn)化LSTM 算法在上述流程基礎(chǔ)上在前向傳播過程之前添加數(shù)據(jù)平穩(wěn)化過程,同時(shí)在輸出預(yù)測結(jié)果后添加數(shù)據(jù)序列還原過程。
圖2 LSTM 算法實(shí)現(xiàn)流程圖Fig.2 Flow chart of LSTM algorithm
本文采用的實(shí)驗(yàn)數(shù)據(jù)為南通市2018 年8 月21日—9 月20 日鐘秀中路—北濠橋路交叉口正向雷達(dá)車輛檢測器采集到的實(shí)際數(shù)據(jù),總記錄數(shù)為795萬條。當(dāng)車輛經(jīng)過檢測斷面,隨即觸發(fā)檢測器對車輛信息進(jìn)行記錄,即利用檢測器對每一輛通過車輛進(jìn)行信息采集,采集字段為通過時(shí)間、路口編號(hào)、斷面編號(hào)、車道號(hào)、車輛類型,以及平均車速、發(fā)生時(shí)間、進(jìn)口道出口道等,具體如表1 所示。
表1 過車數(shù)據(jù)主要字段Tab.1 Main fields of passing data
通過表1 車道號(hào)LANENO 字段對記錄進(jìn)行基本的統(tǒng)計(jì)分析,根據(jù)車道劃分規(guī)則按車道號(hào)將不同方向不同相位的數(shù)據(jù)分開。同時(shí)根據(jù)正向雷達(dá)的掃描范圍,車道檢測器設(shè)定3 個(gè)不同檢測斷面對通過路口的車輛信息進(jìn)行采集,并將采集到的車輛信息數(shù)據(jù)以不同的SECNO 字段形式保存在數(shù)據(jù)庫中。本文選擇最靠近斷面的斷面號(hào)1 數(shù)據(jù)確保車輛行駛方向的準(zhǔn)確性。
由于數(shù)據(jù)量大,并且有少量無效、異常數(shù)據(jù)存在,因此本文根據(jù)城市道路通行車輛的限定速度,將平均行駛速度超過80 km/h 的數(shù)據(jù)記錄作為異常數(shù)據(jù)進(jìn)行剔除。經(jīng)過統(tǒng)計(jì)篩選可以發(fā)現(xiàn),異常數(shù)據(jù)占數(shù)據(jù)總量的0.2%,在數(shù)據(jù)量上進(jìn)行刪除后對整體數(shù)據(jù)集的影響不大。
一般情況下,對交叉口車流量的統(tǒng)計(jì)按照5、10、15、30 min 及1 h 進(jìn)行。將5、10 min 作為時(shí)間間隔,其時(shí)間過短,車流量也相對較少,不能明顯反映出車流量隨時(shí)間的變化;將30 min、1 h 作為時(shí)間間隔,雖然車流量隨時(shí)間變化季節(jié)性更為明顯,但缺少車流量的變化細(xì)節(jié),不能準(zhǔn)確地反映高峰時(shí)段。因此,本文選擇采用15 min 的時(shí)間間隔對數(shù)據(jù)進(jìn)行統(tǒng)計(jì),并將統(tǒng)計(jì)結(jié)果以時(shí)間段開始時(shí)刻、平均車速、車輛平均占有時(shí)間、車輛數(shù)的字段形式呈現(xiàn),統(tǒng)計(jì)字段見表2。
表2 交通流量統(tǒng)計(jì)字段(時(shí)間間隔為15 min)Tab.2 Statistical fields of traffic flow (time interval is 15 min)
經(jīng)統(tǒng)計(jì)后的數(shù)據(jù)集還存在少量缺失數(shù)據(jù),為此,本文采取對相鄰數(shù)據(jù)取平均值的方法進(jìn)行填補(bǔ),從而使樣本數(shù)據(jù)具有連貫性。
由于道路交叉口具有明顯的潮汐特性,通常情況下其交通量的小時(shí)變化圖形為馬鞍形狀,在上、下午各存在一個(gè)出行高峰。根據(jù)統(tǒng)計(jì)數(shù)據(jù)(15 min時(shí)間間隔),將第t -2 天、第t -1 天、第t 天某時(shí)刻的交通流量作為輸入字段,同時(shí)將天氣、時(shí)間段、平均速度、平均占有時(shí)間作為輸入的影響因素,第t +1 天同一時(shí)刻的交通流量作為輸出字段構(gòu)造樣本集,具體如表3 所示。
表3 預(yù)測算法使用字段Tab.3 Fields used in prediction algorithms
本文將根據(jù)2018 年8 月24 日至9 月19 日交叉口數(shù)據(jù)處理后得到的2 592 條數(shù)據(jù)作為訓(xùn)練樣本;再加入在此基礎(chǔ)上9 月20 日96 條數(shù)據(jù),共計(jì)2 688 條數(shù)據(jù)作為測試樣本。采用基于平穩(wěn)化長短期記憶網(wǎng)絡(luò)的交通流量預(yù)測模型對鐘秀中路—北濠橋路交叉口的東出口道直行方向的交通流量進(jìn)行訓(xùn)練和預(yù)測。
首先,對原始交通流觀測序列{Xt,t=1,2,3,…,2 688}采用樣本自相關(guān)函數(shù)法獲得ACF 估計(jì)值,根據(jù)ACF 估計(jì)值確認(rèn)周期為96,具體如圖3 所示。
由圖3 可知,該序列有明顯的拖尾效應(yīng),即在較長的樣本滯后時(shí)間范圍內(nèi)樣本的自相關(guān)系數(shù)超過95%置信度區(qū)間,證明其為非平穩(wěn)序列。
圖3 原始交通時(shí)間序列的自相關(guān)性Fig.3 Autocorrelation of the original traffic time series
基于原始交通流序列,采用季節(jié)性差分計(jì)算其周期性差分ΔTXt,從而獲得平穩(wěn)化差分序列{ΔTXt,t=1,2,3,…},并驗(yàn)證其自相關(guān)系數(shù)估計(jì)值。一次差分后的ACF 估計(jì)值如圖4 所示。
圖4 一次差分后交通時(shí)間序列的自相關(guān)性Fig.4 Autocorrelation of traffic time series after one difference
由圖4 可知,經(jīng)過一次差分后,樣本的拖尾效應(yīng)得到明顯改善,在較長的樣本滯后時(shí)間范圍內(nèi)樣本的自相關(guān)系數(shù)位于95%置信度區(qū)間內(nèi),交通序列近似為平穩(wěn)化序列。將平穩(wěn)化差分序列作為樣本的輸出字段更新樣本數(shù)據(jù)集,利用LSTM 預(yù)測結(jié)果,并將結(jié)果還原為原始交通流量數(shù)據(jù)。
LSTM 模型的訓(xùn)練步驟如下:
1)模型參數(shù)選取。初始學(xué)習(xí)率為0.006,隱藏層單元數(shù)為10,訓(xùn)練數(shù)據(jù)集的Batch_size 為80,迭代次數(shù)為1 000 次,time_step 為10;測試集的time_step為12。
2)模型訓(xùn)練。選取前29 天的數(shù)據(jù)作為訓(xùn)練集,第30 天的數(shù)據(jù)為驗(yàn)證集檢驗(yàn)?zāi)P陀?xùn)練結(jié)果。圖5給出了損失值的下降曲線,當(dāng)?shù)^400 次時(shí),損失率變化趨向穩(wěn)定,模型訓(xùn)練效果良好。
圖5 損失值下降曲線Fig.5 Decline graph of loss value
采用LSTM 模型進(jìn)行預(yù)測的結(jié)果如圖6 所示,其中坐標(biāo)點(diǎn)為方格的折線代表預(yù)測值,坐標(biāo)點(diǎn)為三角的折線代表實(shí)際值。圖7 為采用平穩(wěn)化的LSTM模型預(yù)測交通流量變化量,并將預(yù)測結(jié)果還原為交通流數(shù)據(jù)后預(yù)測值與實(shí)際值的對比曲線圖。
圖6 LSTM 模型預(yù)測結(jié)果Fig.6 Diagram of LSTM prediction results
圖7 平穩(wěn)化LSTM 模型預(yù)測結(jié)果Fig.7 Prediction results of smooth LSTM
為了比較算法擬合度,采用
來衡量預(yù)測值與實(shí)際值的擬合度。為了綜合評價(jià)算法的預(yù)測性能,引入均方根誤差(root mean square error,RMSE)和平均絕對百分誤差(mean absolute percentage error,MAPE)來判斷預(yù)測的準(zhǔn)確度。
均方根誤差是指觀測值與真實(shí)值偏差的平方和觀測次數(shù)n 比值的平方根,計(jì)算公式為
平均絕對百分比誤差,是指預(yù)測值與真實(shí)值的差值占實(shí)測百分比的算術(shù)平均數(shù),計(jì)算公式為
通過上述指標(biāo)對預(yù)測結(jié)果進(jìn)行分析,并與采用相同數(shù)據(jù)集進(jìn)行預(yù)測的線性回歸模型、支持向量回歸模型、BP 神經(jīng)網(wǎng)絡(luò)模型等簡單模型及BP-ARIMA、GRU 模型等復(fù)合模型的預(yù)測結(jié)果對比,預(yù)測誤差如表4 所示。
表4 預(yù)測結(jié)果對比Tab.4 Comparative analysis of prediction results
通過比較可知,在均方根誤差及擬合度R2上,LSTM 模型比其他模型均有較大優(yōu)勢,誤差值降到17.08,擬合度提升至92.69%,但平均絕對百分比誤差相較于其他方法仍無明顯的降低;采用平穩(wěn)化LSTM 模型進(jìn)行預(yù)測的結(jié)果優(yōu)勢則更為明顯,均方根誤差降低為11.94,平均絕對百分比誤差降至12.18%,擬合度R2達(dá)到95.78%。此外,針對交通流數(shù)據(jù)的時(shí)間間隔進(jìn)行相應(yīng)的調(diào)整,其預(yù)測準(zhǔn)確性也會(huì)產(chǎn)生相應(yīng)的變化。時(shí)間間隔越長,預(yù)測的準(zhǔn)確性相對越高,誤差也越小。
本文建立了基于平穩(wěn)化LSTM 的交叉口交通流量預(yù)測模型,結(jié)合天氣、平均速度、平均占有時(shí)間以及時(shí)段等因素對道路交叉口車流量進(jìn)行預(yù)測。通過對真實(shí)數(shù)據(jù)的分析驗(yàn)證表明,該模型能對車流量進(jìn)行有效預(yù)測。將本文提出的模型與線性回歸、GRU模型、LSTM 模型等主流模型相比,結(jié)果表明,本文模型的擬合度更高、誤差更小,預(yù)測更準(zhǔn)確,存在著一定的優(yōu)勢。但該模型還有待完善的空間,如未考慮道路事故、交通管制、交通流空間因素等的影響,在后續(xù)的研究中,需多維度考慮相關(guān)交通流影響因素,從而更好地適應(yīng)道路的實(shí)際情況。