鄒宗民, 郝 龍, 李全杰, 陳宏俊, 康 樂
(1.山東高速建設(shè)管理集團有限公司, 濟南 250014; 2.中交第一公路勘察設(shè)計研究院有限公司, 西安 710075; 3.西安科技大學材料學院, 西安 710054)
隨著中國經(jīng)濟的不斷發(fā)展,交通運營網(wǎng)絡(luò)也隨之繁榮,進而產(chǎn)生了大量的交通問題。其中,高速公路作為城市間的重要樞紐成為交通管制的重要關(guān)注對象之一。從當前交通流的分析中對高速公路交通進行滯后管制,這種被動式管理很難滿足時下交通流的快速發(fā)展,這使得從主動式管理角度出發(fā)的,基于歷史數(shù)據(jù)開展的交通流預測作為一種新的道路管理方式備受青睞[1]。短時交通流預測是用以預測分析在15 min內(nèi)通過道路某斷面的車輛數(shù)[2]。從主動式管理的角度針對高速公路短期交通流的預測,有助于解決高速公路交通擁堵、合理安排最優(yōu)出行路徑以及減少事故發(fā)生等,能夠為交通管理部門進行高速公路交通管控提供重要的決策依據(jù)。為此,中外學者就高速公路短時交通流預測問題相繼開展了大量研究。
主流的預測方法包括構(gòu)建多元線性回歸、時間序列模型以及神經(jīng)網(wǎng)絡(luò)模型等方式。交通流數(shù)據(jù)的非平穩(wěn)性,導致其采用多元線性回歸方式的預測結(jié)果較為不理想。為此,以混沌理論、時間序列模型以及機器學習為主的預測方式在高速公路短時交通流預測方面得以廣泛應(yīng)用[3]。張培林等[4]在判定交通流屬于混沌系統(tǒng)的基礎(chǔ)上,基于混沌理論實現(xiàn)了高速公路短時交通流預測,但其應(yīng)用便捷度較低,需要在預測之前考察交通流是否屬于混沌系統(tǒng)。張平等[5]在基于信息熵刻畫高速公路車輛出發(fā)地和目的地(origin-destination, OD)規(guī)律的基礎(chǔ)上,實現(xiàn)了基于OD穩(wěn)定模型的高速公路出口流量的精準預測。Kumar等[6]從交通流數(shù)據(jù)的周期性特征出發(fā),基于差分整合移動平均自回歸模型(autoregressive integrated moving average model,ARIMA)模型實現(xiàn)了交通流的短期預測。梁軻等[7]針對海量交通流的預測問題,通過借助Map Reduce并行計算框架,實現(xiàn)了基于遺傳算法的K最近鄰算法的快速建模與預測。趙曉靜等[8]考慮到短時交通流的時變和非線性特性,在對數(shù)據(jù)進行經(jīng)驗模態(tài)分解的基礎(chǔ)上,構(gòu)建了基于維納濾波的高速公路短時預測模型。申貴成等[9]在考慮最優(yōu)時滯因子的基礎(chǔ)上,創(chuàng)建了基于線性回歸和隨機森林為基學習的Adaboost集成預測器,實現(xiàn)了更高精度的短時交通流預測。王小凡等[10]通過遺傳算法優(yōu)化所構(gòu)建的小波神經(jīng)網(wǎng)絡(luò)預測模型,實現(xiàn)了對高速公路日交通流量的預測。
伴隨著交通流數(shù)據(jù)的不斷積累,交通流預測正在逐步向數(shù)據(jù)驅(qū)動的視角轉(zhuǎn)型,隨之而來的各種神經(jīng)網(wǎng)絡(luò)、機器學習方法相較之前的傳統(tǒng)建模分析方式,實現(xiàn)了更快高效、更精準的預測。在既有研究的基礎(chǔ)上,從數(shù)據(jù)驅(qū)動的角度出發(fā),為解決小樣本交通流的短期預測,構(gòu)建了基于粒子群算法優(yōu)化的支持向量回歸預測模型,以期能夠較為準確地實現(xiàn)對于高速公路短時交通流的預測。
支持向量回歸算法(support vector regression, SVR)是支持向量機為解決回歸問題而演化的一種算法。其算法原理是尋找最優(yōu)超平面以使得所有樣本點與最優(yōu)超平面之間的偏差和最小。設(shè)一組樣本數(shù)據(jù)集為{ (xi,yi),i=1, 2, …,n},xi∈Rn為輸入量,yi∈R為輸出量。通過非線性映射關(guān)系φ(x)將樣本投射到高維線性空間中,即
f(x)=wφ(x)+b
(1)
式(1)中:w和b為待求解參數(shù);f(x)為回歸函數(shù)返回的預測值。
為平衡算法的精度和效率,設(shè)置一定的偏差容忍度ε使算法具有一定的容錯能力,如圖1所示。為求解參數(shù)w和b,將該問題轉(zhuǎn)化為最優(yōu)化問題進行求解。
(2)
(3)
式中:Lε[f(xi)-yi]為損失函數(shù);C為懲罰因子,C>0,通過調(diào)整對邊界外數(shù)據(jù)誤差的懲罰程度來控制模型的精度。
通過引入拉格朗日函數(shù)得到對偶模型進行求解,可得最終的模型解形式為
(4)
ζi為超出ε的量;Loss為損失值圖1 支持向量回歸算法原理圖Fig.1 Schematic diagram of support vector regression
為實現(xiàn)對于高速公路短時交通流的精確預測,考慮到其的非線性特征,在小樣本數(shù)據(jù)量下構(gòu)建基于粒子群優(yōu)化的支持向量回歸模型。主要從樣本數(shù)據(jù)采集與預處理、數(shù)據(jù)集劃分、預測步長確定(即滑動窗口寬度)、粒子群優(yōu)化初始參數(shù)設(shè)置以及模型訓練與測試等方面實現(xiàn)建模,具體的建??蚣苋鐖D2所示。具體的實現(xiàn)步驟如下。
ω1、ω2、ωN分別表示各個輸入變量x1、x2、xN對應(yīng)的權(quán)重參數(shù)圖2 基于PSO-SVR算法的短時交通流預測框架Fig.2 Short-term traffic flow prediction framework based on PSO-SVR algorithm
步驟1確定數(shù)據(jù)采集方式。設(shè)定數(shù)據(jù)采集頻率t以獲取高速公路實時交通流數(shù)據(jù),并將其轉(zhuǎn)換為標準車當量數(shù)。
步驟2確定原始數(shù)據(jù)的預處理方式。對采集到的原始數(shù)據(jù)進行相應(yīng)的數(shù)據(jù)預處理,主要包括基于箱線圖法的數(shù)據(jù)異常值識別,基于線性內(nèi)插的數(shù)據(jù)異常值、缺失值填充以及為提高模型的收斂能力而進行的歸一化處理,從而得到樣本數(shù)據(jù)。
步驟3基于滑動窗口法進行數(shù)據(jù)劃分。為進行模型訓練與測試,首先取獲取數(shù)據(jù)集的80%為訓練集,剩余20%為測試集。為實現(xiàn)建模過程中最大化利用樣本數(shù)據(jù),將其分別采用時間窗口的方式進行劃分(圖3),其中,窗口寬度(width)表示當前時刻的交通流與過去多久的數(shù)據(jù)信息相關(guān),即預測步長。
t為采樣時刻;n為樣本數(shù)量圖3 滑動窗口法獲取樣本數(shù)據(jù)Fig.3 Sliding window method to obtain sample data
步驟4確定擬優(yōu)化參數(shù)。數(shù)據(jù)準備好之后,建立核函數(shù)為RBF(radial basis function)的SVR預測模型,其中,懲罰因子C和核函數(shù)參數(shù)g需要進行參數(shù)尋優(yōu)。
步驟5確定粒子群優(yōu)化的相關(guān)初始參數(shù)取值?;诹W尤核惴ㄟM行參數(shù)(C、g)尋優(yōu)時,首先需要設(shè)置粒子群相關(guān)參數(shù)初始值,主要包括種群規(guī)模m,學習因子c1和c2,并通過試驗法確定C和g的取值范圍。
步驟6確定粒子群尋優(yōu)的適用度函數(shù),即目標函數(shù)。將均方誤差(mean squared error,MSE)作為其優(yōu)化的適用度函數(shù)。
步驟7粒子更替尋優(yōu)。粒子在運動過程中不斷與歷史最優(yōu)位置對比(即兩組參數(shù)取值所得適應(yīng)度計算),同時將所有粒子與全局歷史最優(yōu)位置對比,以得到新的局部和全局最優(yōu)位置。當所更替得到的最優(yōu)位置能夠滿足所設(shè)定的標準,則將此時的參數(shù)組合作為最優(yōu)參數(shù)組合用于SVR模型訓練,反之,當達到最大迭代次數(shù)但仍未滿足標準要求時,則重新進行參數(shù)尋優(yōu)。
步驟8將尋優(yōu)得到的最優(yōu)參數(shù)組合代入SVR預測模型中,基于20%的測試數(shù)據(jù)進行模型測試,并對測試結(jié)果和實測數(shù)據(jù)進行反歸一化。
步驟9將均方誤差(MSE)和相關(guān)系數(shù)(R2)作為模型性能的評價指標?;诩扔醒芯浚瑢⒛P偷脑u價標準設(shè)定為MSE<6,R2>0.9。
R2=
(5)
式中:f(xi)為預測值;yi為實測值;MSE越小、指標R2越大,說明模型預測性能越好。
為驗證所構(gòu)建的粒子群優(yōu)化-支持向量回歸(particle swarm optimization-support vector regression, PSO-SVR)預測模型的實踐適用性,依托京臺高速濟南西收費站斷面(圖4)的實際交通流數(shù)據(jù)加以預測分析。
圖4 濟南西高速路口Fig.4 Jinan west highway intersection
在濟南收費站斷面取連續(xù)11 d的交通流數(shù)據(jù)用于建模預測,數(shù)據(jù)均來自山東省交通廳信息處。研究截取的樣本數(shù)據(jù)在時間上跨度為2019年10月20日—2019年10月30日。按照t=10 min的頻率進行數(shù)據(jù)采集,并對經(jīng)過車輛按照《城市道路工程設(shè)計規(guī)范》(CJJ37—2012)換算為標準車當量數(shù)(passenger car unit,pcu),換算標準如表1所示。同時,采用1.2節(jié)中步驟2所涉及的數(shù)據(jù)預處理方法對該樣本數(shù)據(jù)集進行處理,上述預處理之后的樣本數(shù)據(jù)容量為1 500,其實際的交通流波動情況如圖5所示。
為提高模型收斂速度,對預處理之后的樣本數(shù)據(jù)進行歸一化處理[11],將樣本數(shù)據(jù)歸一化至[0,1]區(qū)間內(nèi),相應(yīng)的數(shù)學表達式為
表1 車輛換算標準
圖5 11 d的交通流波動圖Fig.5 Traffic flow fluctuation chart for 11 days
(6)
式(6)中:X為歸一化后的數(shù)據(jù);x為原始數(shù)據(jù);xmin、xmax分別為原始數(shù)據(jù)的最小值、最大值。
模型訓練與測試所使用的計算機配置和軟件環(huán)境為處理器為 Intel i5-7200,內(nèi)存為8.0 GB;系統(tǒng)是Windows 10(64位);程序語言版本為Python 3.7.8;集成開發(fā)環(huán)境為Anaconda包中的Spyder 4.0.1版本。
在進行模型訓練時,首先對獲取到的歸一化之后的數(shù)據(jù)進行數(shù)據(jù)集劃分。根據(jù)1節(jié)預測框架中的步驟3,按8∶2的比例劃分數(shù)據(jù)集,即可得到訓練集容量為1 200,測試集為300。取窗口寬度為10,即采用過去10個時刻的交通流數(shù)據(jù)預測下一時刻,如式(7)所示,最終得到的訓練集容量為1 190,測試集容量為290。
yt=f(yt-1,yt-2,…,yt-10)
(7)
式(7)中:yt為當前時刻的交通流。
圖6 粒子群優(yōu)化迭代過程Fig.6 Particle swarm optimization iterative process
數(shù)據(jù)劃分完成后,采用1 190訓練數(shù)據(jù)基于1.2節(jié)預測框架步驟3~步驟7進行高速公路短期交通流的PSO-SVR預測模型的構(gòu)建與訓練。在進行粒子群參數(shù)優(yōu)化時,將種群規(guī)模設(shè)定為m=40,學習因子c1=1.5和c2=1.8,并通過試驗法確定C的取值范圍為[100,300],g的取值范圍為[10,20]。粒子群優(yōu)化SVR模型參數(shù)組合(C,g)的過程如圖6所示,可以看出當?shù)螖?shù)大于98時,模型均方誤差(MSE)趨于穩(wěn)定,即模型訓練至最優(yōu)狀態(tài),此時可得到最優(yōu)的參數(shù)組合(179.21,12.98)。
模型訓練完成后,采用最優(yōu)的參數(shù)組合(179.21,12.98)構(gòu)建PSO-SVR預測模型,并基于Step8利用290組測試數(shù)據(jù)進行模型預測效果評估,將預測結(jié)果采用式(8)進行反歸一化,得到最終的預測值。
x=X(xmax-xmin)+xmin
(8)
為評價所建立預測模型(PSO-SVR)的可靠性,從測試集預測結(jié)果是否滿足預測標準和PSO-SVR預測模型與反向傳播(back propagation, BP)、ARIMA模型的預測結(jié)果對比兩個角度加以評價。PSO-SVR預測模型的預測結(jié)果如圖7所示,相應(yīng)的MSE=4.187,MSE<6,說明PSO-SVR預測模型在測試集上的預測結(jié)果偏差較小,能夠滿足實際需求。相應(yīng)的R2=0.978,大于0.9說明預測值和實測值的擬合度較高,如圖8所示。
在構(gòu)建PSO-SVR預測模型的基礎(chǔ)上,基于該案例建立相應(yīng)的BP、ARIMA模型,將其預測結(jié)果與PSO-SVR預測模型進行對比(表1),結(jié)果表明PSO-SVR預測精度最高,BP次之,ARIMA預測結(jié)果較差,這也反映出高速公路短期交通流預測問題屬于典型的非線性回歸問題,支持向量回歸算法在小樣本下解決這類問題具有很強的適用性。
圖7 測試集預測結(jié)果Fig.7 The test set predicts results
圖8 預測集預測結(jié)果與真實值擬合Fig.8 The predicted results of the prediction set fit with the real value
表2 模型預測結(jié)果對比
就高速公路短期交通流預測問題提出基于PSO-SVR的預測模型,并依托實際交通流數(shù)據(jù)加以佐證。其預測結(jié)果表明PSO-SVR模型能夠較為準確的進行短期交通流預測,與BP、ARIMA模型的預測結(jié)果對比進一步說明,該模型在解決高速公路短期交通流預測問題方面的優(yōu)越性,能夠豐富交通流預測的理論體系。