徐翠翠
(陜西交通職業(yè)技術(shù)學(xué)院基礎(chǔ)學(xué)科部,陜西西安 710018)
伴隨著城市規(guī)模的迅速發(fā)展、道路網(wǎng)絡(luò)的不斷完善及汽車保有量的迅速增加,交通問題已經(jīng)成為城市發(fā)展和管理的重要問題之一[1]。公路容量與交通總需求的差距越來越大,交通供需矛盾日益突出[2]。雖然很多城市都建立了城市軌道交通系統(tǒng),但乘客在早晚高峰期間的擁擠狀況仍令人十分擔(dān)憂。傳統(tǒng)的交通預(yù)測統(tǒng)計方法主要有歷史平均模型和數(shù)理統(tǒng)計理論[3]。盡管歷史平均模型能在一定程度上解決不同時期交通流量變化的問題,但是靜態(tài)預(yù)測方法存在著固有的缺陷。利用數(shù)理統(tǒng)計理論進(jìn)行預(yù)測的方法比較簡單,但其缺點是基于線性基礎(chǔ)[4]。隨著預(yù)測區(qū)間變小,交通流變化的隨機性、非線性增強,模型性能變差。因此,提出了基于ARIMA 的城市交通流量預(yù)測方法。ARIMA 模型是時間序列建模的一種方法,ARIMA 模型的基本思想是將非平穩(wěn)時間序列經(jīng)過多個差值轉(zhuǎn)換成平穩(wěn)時間序列,再根據(jù)差值確定城市交叉口的交通流量。
針對城市交叉口時間隨機性,提出了基于ARIMA的交叉口交通流預(yù)測模型。交通流量預(yù)測建模原理如圖1 所示[5]。
圖1 交通流預(yù)測建模原理
模型分為如下3 個步驟:
第一步:數(shù)據(jù)預(yù)處理。由于原始數(shù)據(jù)信息復(fù)雜龐大,需要對其進(jìn)行篩選提取,并對每天或每月的客流分布特征進(jìn)行可視化分析;
第二步:特征提取。游客流量具有明顯的潮流特征。游客流量的差異不僅表現(xiàn)在高峰時段,還表現(xiàn)在工作日和周末。為發(fā)現(xiàn)周期差異,首先對提取的數(shù)據(jù)進(jìn)行聚類,識別周期差異,與此同時,可以降低數(shù)據(jù)維度,最終確定時間間隔,并選擇客流特征明顯的站點作為研究對象;
第三步:模型訓(xùn)練。在處理后,滑動窗口的大小會決定數(shù)據(jù)集中的數(shù)據(jù)[6]。滑動窗是指由前n個周期的數(shù)據(jù)預(yù)測當(dāng)前的數(shù)據(jù),視窗尺寸是每個輸入資料的尺寸,不同的視窗尺寸會直接影響最終的預(yù)測結(jié)果,因此需要選擇合適的視窗尺寸[7]。在此基礎(chǔ)上,確定算法的參數(shù),建立適合的客流預(yù)測模型,并利用不同的評價指標(biāo)對模型進(jìn)行評價[8-10]。
從城市路網(wǎng)來看,交通擁擠的原因多發(fā)生在交叉口。作為城市道路交通的瓶頸,交叉口交通流的特點具有一定的代表性[11]。文中對不同時間尺度交叉口的交通流特征進(jìn)行了分析,為了方便描述,以主干道段(西行單向段)為主要研究對象[12]。
設(shè)時間序列的平均相關(guān)系數(shù)為θ,該系數(shù)以d為單位,確定每k個交通量時間序列數(shù)據(jù),作為一個列向量fi,并選擇所有數(shù)據(jù)向量構(gòu)成矩陣,如式(1)所示:
計算該矩陣的平均相關(guān)系數(shù),如式(2)所示:
式(2)中,R為向量矩陣的相關(guān)系數(shù)矩陣;R(i,j)表示兩個數(shù)據(jù)向量間的協(xié)方差[13]。
提取現(xiàn)場每天24 h 交通流數(shù)據(jù),從2019 年7 月8號到8 月4 號共28 天的數(shù)據(jù)作為研究對象[14-15]。分別以5 min、10 min、15 min 和45 min 為時間序列,選擇4 個周期組成相關(guān)矩陣,并計算矩陣平均相似系數(shù),對比結(jié)果如表1 所示。
表1 平均相關(guān)系數(shù)
由表1 可知,隨著時間縮短,時間序列相關(guān)性減弱[16]。短序列交通流流量數(shù)據(jù)相關(guān)性較弱,數(shù)據(jù)分布離散性強。
該模型是一種隨機時間序列模型,能識別出時間序列的結(jié)構(gòu),并通過協(xié)方差矩陣極小化來求得最佳預(yù)測值。設(shè)時間序列為Xt,函數(shù)由相鄰數(shù)據(jù)和隨機項決定,如式(3)所示:
式(3)中,p、q均表示ARMA 模型階數(shù);at-j表示隨機誤差項;φi、θj分別表示模型自回歸參數(shù)和平均系數(shù),如式(4)、式(5)所示:
式(4)、式(5)中的B表示滯后算子。
如果時間序列殘差表現(xiàn)出一定差異性,那么為了處理時間序列的異方差性,需要對殘差進(jìn)行分析。對殘差下的非平穩(wěn)時間序列進(jìn)行預(yù)測,如式(6)所示:
式(6)中,d表示平穩(wěn)化過程差分階段。
ARRIMA 階數(shù)是通過自相關(guān)系數(shù)和單位根來估計和檢驗的,階數(shù)q和P是通過自相關(guān)系數(shù)和偏自相關(guān)系數(shù)來確定的。偏自相關(guān)系數(shù)描述了當(dāng)前時間序列和不含中間變量的歷史經(jīng)驗時間之間的關(guān)聯(lián),也就是在一個時間序列中不存在中間變量。
為了更好地描述時間序列的分布特征,假設(shè)誤差項εt,一般誤差分布的概率密度函數(shù)為隨機變量值,數(shù)值為常數(shù),因此可以設(shè)定期望為0,方差為1,其形式如式(7)、式(8)所示:
式(7)、(8)中,Γ(·)表示伽馬函數(shù);n表示時間序列分布重復(fù)特征參數(shù);εt表示標(biāo)準(zhǔn)正態(tài)分布;當(dāng)n≥2 時,標(biāo)準(zhǔn)正態(tài)分布比正態(tài)重復(fù)特征參數(shù)多。當(dāng)n<2 時,標(biāo)準(zhǔn)正態(tài)分布比正態(tài)重復(fù)特征參數(shù)少,說明誤差小。
根據(jù)上述誤差控制,設(shè)存在n個hi(t)時間序列正??土髁?,該交通量實時預(yù)測模型為:
如圖2 所示,在簡明信息的支持下,不斷深入分析交通大數(shù)據(jù)。對有關(guān)的重要數(shù)據(jù)進(jìn)行分析,對生產(chǎn)操作進(jìn)行優(yōu)化指導(dǎo),為用戶提供新的信息需求,持續(xù)改進(jìn)和更新系統(tǒng)結(jié)構(gòu)、業(yè)務(wù)模塊和功能域,為城市交通管理提供更加實時準(zhǔn)確的信息。
圖2 交通流預(yù)測實現(xiàn)流程
以約簡信息的屬性為基礎(chǔ),采用狀態(tài)轉(zhuǎn)移方程和觀測方程來估計離散控制系統(tǒng)的實際狀態(tài),并用連續(xù)測量信息來修正預(yù)測值。用ARIMA 建立交通流預(yù)測模型,如圖3 所示。
圖3 交通流預(yù)測模型
由圖3可知,對于歷史交通流、當(dāng)前交通流的時序特征、環(huán)境變化數(shù)據(jù)、常規(guī)交通流、干擾交通流、正常交通流和異常交通流,所構(gòu)建的預(yù)測模型充分考慮了上述因素,對各條件值進(jìn)行過濾和量化,生成二維決策表。然后,對屬性約簡結(jié)果進(jìn)行再組合,作為訓(xùn)練樣本輸入模型進(jìn)行學(xué)習(xí)訓(xùn)練,由此完成交通流預(yù)測。
到2018 年底,A 市圍繞景區(qū)開通了16 條地鐵線路,其中地鐵站點413 個,運營里程676 km。盡管每天的客流在一千萬人次以上,但是節(jié)假日的客流卻比平時多3~4 倍。服務(wù)時間大多在早上5 點到晚上11 點之間。當(dāng)客流超過最大流量時,交叉口將采取相應(yīng)的交通控制措施。
分別使用歷史平均模型、基于數(shù)理統(tǒng)計理論方法和基于ARIMA 預(yù)測建模方法對交通早高峰和晚高峰時段交通流預(yù)測精準(zhǔn)度進(jìn)行對比分析,結(jié)果如圖4 所示。
圖4 不同方法早高峰和晚高峰時段交通流預(yù)測精準(zhǔn)度對比
由圖4(a)可知,使用歷史平均模型預(yù)測交通流最高值為760 pcu/h,最低值為398 pcu/h;使用基于數(shù)理統(tǒng)計理論方法最高值為910 pcu/h,最低值為250 pcu/h;使用基于ARIMA 預(yù)測建模方法最高值為950 pcu/h,最低值為310 pcu/h,與實際值一致。
由圖4(b)可知,使用歷史平均模型預(yù)測交通流最高值為680 pcu/h,最低值為198 pcu/h;使用基于數(shù)理統(tǒng)計理論方法最高值為880 pcu/h,最低值為100 pcu/h;使用基于ARIMA 預(yù)測建模方法最高值為520 pcu/h,最低值為270 pcu/h,與實際值一致。
針對城市交通列車調(diào)度問題,提出了基于ARIMA 的城市交叉路口交通流預(yù)測建模方法,使用時間序列方法構(gòu)建模型,該方法計算簡單、預(yù)測精度可靠,適合城市交叉口信號控制,是一種值得推廣的短時交通流量預(yù)測方法。