摘 要:為構(gòu)建有效的小樣本數(shù)據(jù)下的城市軌道交通客流預(yù)測模型,研究以西安地鐵2號線歷史客流量數(shù)據(jù)為基礎(chǔ),采用時間序列分析方法構(gòu)建ARIMA與SARIMAX模型。通過數(shù)據(jù)變換、參數(shù)優(yōu)化及節(jié)假日效應(yīng)建模,實現(xiàn)客流量的高精度預(yù)測。結(jié)果表明,對數(shù)變換結(jié)合ARIMA(1,0,0)模型顯著提升預(yù)測穩(wěn)定性,數(shù)變換結(jié)合SARIMAX模型研究進一步驗證了周季節(jié)性及節(jié)假日因素對客流波動的影響。對未來7天進行客流預(yù)測結(jié)果表明,預(yù)測結(jié)果滿足精度要求。
關(guān)鍵詞:時間序列分析 ARIMA與SARIMAX模型 客流預(yù)測
1 緒論
地鐵系統(tǒng)作為城市交通系統(tǒng)的一個重要組成部分,憑借每小時超10萬人次的運能顯著提升城市通行效率,極大緩解了地面交通壓力。隨著地鐵線路的日益完善和客流的日漸增多,選擇高精度的短期客流預(yù)測模型,對于城市軌道交通運營管理具有十分重要的意義。目前城市軌道交通短時客流預(yù)測模型主要分為傳統(tǒng)統(tǒng)計模型、機器學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)模型和組合模型[1]。在地鐵短時客流預(yù)測方面,基于數(shù)理統(tǒng)計的預(yù)測模型主要包括時間序列模型、卡爾曼濾波模型、灰色模型等方法[2]。潘羅敏[3]ARIMA時間序列法對北京非換乘站進行了短時客流預(yù)測。針對城市軌道交通短時客流預(yù)測,孟品超[4]構(gòu)建了一種滑動平均方法(MA)。王江峰等[5]提出一種基于雙模時空超圖卷積網(wǎng)絡(luò)(BSTHCN)的跨交通方式客流聯(lián)合預(yù)測模型。錢漢強等[6]為了準確預(yù)測地鐵進出站客流,提出了一種基于深度學(xué)習(xí)算法的圖神經(jīng)時空網(wǎng)絡(luò)(GNSTNet)地鐵客流預(yù)測模型。孫陳[7]結(jié)合ARIMA時間序列預(yù)測特征和RBF神經(jīng)網(wǎng)絡(luò)非線性處理能力,構(gòu)建了ARIMA-RBF模型對廣州地鐵二宮站進行了客流預(yù)測。白皓[8]提出了SSA-BP時間序列模型對上海南站進行了客流預(yù)測,提高了預(yù)測精度。
當(dāng)前短時客流預(yù)測方法在預(yù)測時對客流數(shù)據(jù)量有較高的需求,針對客流數(shù)據(jù)量較少而精度較高的預(yù)測模型還需進一步研究。西安地鐵2號線作為城市骨干線路,其客流量受節(jié)假日、天氣等多因素影響,呈現(xiàn)顯著的非線性與季節(jié)性特征。傳統(tǒng)統(tǒng)計模型難以捕捉復(fù)雜時序規(guī)律,而機器學(xué)習(xí)方法對數(shù)據(jù)量要求較高。為此,研究提出融合對數(shù)變換與季節(jié)性擴展的時間序列預(yù)測模型,旨在解決小樣本數(shù)據(jù)下的高精度預(yù)測問題。
2 基于時間序列的預(yù)測模型構(gòu)建
2.1 數(shù)據(jù)來源與預(yù)處理
研究選取西安地鐵2號線2024年11月1日至2025年2月28日逐日客流量數(shù)據(jù)進行建模研究(樣本量N=120)數(shù)據(jù)包含長日客流量和節(jié)假日客流量。
為消除異方差性,對原始數(shù)據(jù)用公式(1)實施對數(shù)變換,其中:為原始客流,為對換后的客流量。利用PYTHON3分別繪制原始數(shù)據(jù)客流量波動圖和數(shù)據(jù)對換后客流量波動圖(圖1)。
根據(jù)圖1除春節(jié)期間(2025-01-28~2025-02-04)客流發(fā)生明顯變化,常日客流波動較平穩(wěn)??紤]節(jié)假日因素對客流量的影響,在研究過程中標(biāo)注春節(jié)(2025年1月28日-2月3日)等特殊日期,構(gòu)建啞變量。
2.2 模型構(gòu)建
2.2.1 ARIMA模型構(gòu)建
(1)客流量數(shù)據(jù)序列的平穩(wěn)性檢驗
采用ADF對數(shù)據(jù)進行平穩(wěn)性檢驗,若檢驗結(jié)果p-valuelt;0.5,ADF統(tǒng)計量小于對應(yīng)的臨界值(文章取5%),則數(shù)據(jù)序列不存在單位根為平穩(wěn)序列,否則對序列需要進行差分處理,直到序列滿足平穩(wěn)性要求。由于春節(jié)期間客流波動性較大,文章在ADF檢驗時分別對換后的原始序列和一級差分后的序列進行平穩(wěn)性檢驗。檢驗結(jié)果如下表1所示。
分析表1,原始序列的ADF統(tǒng)計量lt;5%臨界值,p-value=0.0006lt; 0.05,序列已平穩(wěn),不需要進行差分處理,因此模型d=0。
(2)確定模型參數(shù)
通過繪制ACF和PACF相關(guān)圖(圖2)對模型進行手動定界。ACF圖中在滯后1階數(shù)后迅速衰減到置信區(qū)間內(nèi),因此MA的階數(shù)為1,記MA(1);PACF圖中在滯后1階數(shù)后迅速衰減 ,因此MA的階數(shù)為1,AR(1)。
為消除手動定階過程中人為因素帶來的誤差,通過逐步搜索法(Stepwise Search)最小化AIC值,篩選得到最優(yōu)ARIMA模型。如表2所示,ARIMA(1,0,0)含截距項模型的AIC值最低(-181.474),表明其在擬合優(yōu)度與復(fù)雜度間達到最佳平衡。對比發(fā)現(xiàn),截距項的引入顯著降低AIC值,如(1,0,2)模型AIC從-158.734降至-178.038,驗證了截距項對客流量基準水平的表征作用。最終選擇ARIMA(1,0,0)模型進行后續(xù)預(yù)測分析。
根據(jù)運行結(jié)果可得到模型的表達式為(2),其中,=0.6501(plt;0.001),截距項c=4.4978。
2.2.2 SARIMAX模型構(gòu)建
在時間序列分析中,SARIMAX 模型是一種廣泛應(yīng)用的方法,用于處理包含季節(jié)性、趨勢以及其他外生影響因素的數(shù)據(jù)。引入節(jié)假日啞變量作為外生協(xié)變量。文章根據(jù)客流序列特征構(gòu)建一個SARIMAX(1,0,0)(1,0,1,7)模型,并引入節(jié)假日啞變量作為外生協(xié)變量,具體表達式如下(公式3)。其中對非季節(jié)性序列部分參數(shù)設(shè)置為(1,0,0),季節(jié)性部分參數(shù)設(shè)置為(1,0,1,7)。s=7表示季節(jié)性周期為7,數(shù)據(jù)存在以7個時間單位為周期(春節(jié))的季節(jié)性模式,并且模型會考慮季節(jié)性自回歸和季節(jié)性移動平均的影響。
其中是非季節(jié)AR項的系數(shù),是季節(jié)AR項的系數(shù),是季節(jié)MA項的系數(shù),c為截距項,β為外生變量的系數(shù),是外生變量(節(jié)假日),為白噪聲誤差項,方差為,L為滯后算子。
2.3 模型評估與殘差診斷
為全面衡量預(yù)測值與真實值的偏離程度,采用三類誤差指標(biāo)構(gòu)建多維評估體系:均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)(表3)。
以Ljung-Box檢驗驗證殘差序列是否存在顯著自相關(guān),當(dāng)檢驗p值大于顯著性水平0.05時,表明殘差序列滿足獨立性要求。文章選擇滯后階數(shù)m=20以平衡檢驗功效與計算效率,確保模型殘差符合隨機性假設(shè)。Ljung-Box檢驗驗證結(jié)果為Ljung-Box p=0.1191gt;0.5,滿足要求。
3 結(jié)果與討論
3.1 模型性能對比
ARIMA模型殘差通過白噪聲檢驗(Ljung
-Box p=0.1191),ACF/PACF無顯著自相關(guān)(圖3),表明模型充分捕捉數(shù)據(jù)規(guī)律。SARIMAX模型因未收斂導(dǎo)致AIC值偏高,需進一步優(yōu)化季節(jié)性參數(shù)。
3.2 節(jié)假日效應(yīng)分析
若考慮節(jié)假日因素則節(jié)假日期間客流量平均增加85.74萬人次,節(jié)假日對客流量提升效果顯著;周季節(jié)性自回歸效應(yīng)顯著(ar.S.L7=0.321,plt;0.001);模型殘差方差較大(sigma2=1200.5),需進一步優(yōu)化季節(jié)性參數(shù)或引入額外解釋變量。
3.3 未來預(yù)測結(jié)果
根據(jù)對上述量模型分析對比,在非節(jié)假日ARIMA模型更優(yōu)于SARIMAX模型,因此選用基于ARIMA模型的反變換對2025年3月1日至7日客流量進行預(yù)測。
預(yù)測結(jié)果表明預(yù)測值95%置信區(qū)間為±5%(圖4),由于非節(jié)假日數(shù)據(jù)波動較小,預(yù)測值滿足運營調(diào)度精度需求。2025年3月1日至7日客流量進行預(yù)測見表5所示。
4 結(jié)論與建議
為解決小樣本下客流預(yù)測精度低問題,文章融合對數(shù)變換與季節(jié)性擴展的時間序列預(yù)測模型構(gòu)建適合西安地鐵2號線的客流預(yù)測模型。通過對模型評估,各指標(biāo)表明ARIMA模型能夠充分捕捉數(shù)據(jù)規(guī)律,而SARIMAX模型雖然AIC值偏高,但能提高節(jié)假日期間客流預(yù)測的精度。最后,文章選用構(gòu)建的ARIMA模型對未來7天非節(jié)假日進行了客流預(yù)測,預(yù)測結(jié)果滿足預(yù)測精度要求。下一步研究需進一步優(yōu)化季節(jié)性參數(shù)以及考慮其他影響客流預(yù)測精度的因素。
基金項目:陜西省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項目“基于大數(shù)據(jù)的城市軌道交通客流預(yù)測模型研究”(項目編號:2024DC04)。
參考文獻:
[1]張雨利,車暢暢,羅詩辭.城市軌道交通多站點短時客流智能預(yù)測研究[J].交通科學(xué)與工程,2024(12):1-10.
[2]周慶梅,何希平.地鐵乘客流量短時預(yù)測方法綜述[J].重慶工商大學(xué)學(xué)報(自然科學(xué)版),2020,37(01):25-32.
[3]潘羅敏.地鐵短時客流量預(yù)測預(yù)警研究[D].北京:首都經(jīng)濟貿(mào)易大學(xué),2011.
[4]孟品超,李學(xué)源,賈洪飛,等.基于滑動平均法的軌道交通短時客流實時預(yù)測[J].吉林大學(xué)學(xué)報(工學(xué)版),2018,48(02):448-453.
[5]王江鋒,丁衛(wèi)東,羅冬宇,等.基于超圖卷積的跨交通方式客流聯(lián)合預(yù)測模型[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2024,52(11):83-94.
[6]錢漢強,時玥,陳艷艷,王嘉晨.考慮時間周期的圖神經(jīng)網(wǎng)絡(luò)地鐵客流預(yù)測[J].長安大學(xué)學(xué)報(自然科學(xué)版),2025(2):1-11.
[7]孫陳.基于ARIMA-RBF的地鐵車站客流預(yù)測[J].技術(shù)與市場,2024,31(12):53-56.
[8]白皓.基于SSA-BP時間序列的火車站短期日客流預(yù)測[J].中國科技信息,2024(24):93-95.