馮樹民, 劉 浩, 李來成
(哈爾濱工業(yè)大學 交通科學與工程學院, 哈爾濱 150090)
軌道交通客流預測作為軌道交通運營管理的重要組成部分,對提高軌道交通客運分擔率,增加軌道交通運營的經濟效益具有重要意義。國內外許多學者對常態(tài)下的城市軌道交通客流預測進行了大量的研究,但是實際運營過程中軌道交通客流會受到工休假日、大型活動、雨雪不良天氣等因素的影響,而不良天氣作為最常見的非常態(tài)客流影響因素,極大地影響著客流預測模型的預測效果。因此有必要結合不良天氣對軌道交通客流的影響來完善客流預測方法,提高軌道交通客流預測精度。
軌道交通客流預測的方法主要分為3種,分別為參數(shù)預測模型、非參數(shù)預測模型和混合預測模型。在參數(shù)預測模型研究方面,文獻[1]利用社交媒體信息,并使用凸優(yōu)化算法結合 SARIMA模型來預測紐約地鐵的短期客流量。文獻[2]應用 SARIMA模型預測北京地鐵客流量,并討論客流的變化趨勢。文獻[3]應用ARIMA模型預測了常態(tài)城市軌道客流,并介紹了非常態(tài)下(如大型活動、特殊天氣等)城市軌道客流的預測方法。
非參數(shù)模型由于其能夠從歷史數(shù)據(jù)中獲取比參數(shù)模型更多的特征和規(guī)律,在短期客流預測中也得到了更廣泛的應用,非參數(shù)模型主要包括支持向量回歸(SVR[4])、神經網絡、貝葉斯網絡等方法。文獻[5]將貪婪搜索算法與K近鄰模型相結合,并基于互信息來預測加利福尼亞州高速公路的短時交通流量。文獻[6]基于混沌時間序列理論,構建了以RBF神經網絡為基礎的交通量預測模型。除此之外,深度學習和集成學習方法,包括深度神經網絡[7]、深度卷積神經網絡、深度遞歸神經網絡[8]、深度信念網絡[9]和一些集成結構[10]等也隨著人工智能技術的發(fā)展,被用于客流預測問題當中。
近年來LSTM長短期記憶神經網絡由于其優(yōu)秀的性能,越來越多的學者選擇應用此模型進行交通預測。文獻[11]為解決城市軌道客流的異常波動問題,建立了基于支持向量回歸(SVR)和LSTM的組合預測模型,模型可以準確預測客流波動且預測準確度比單個預測模型更高。文獻[12]提出了深度客流量(DeepPF)的概念,結合環(huán)境因素以及時空因素建立了 LSTM 神經網絡預測模型。文獻[13]利用K-聚類算法提取客流特征,并應用LSTM神經網絡預測北京地鐵客流。文獻[14]應用LSTM神經網絡對公交上下車客流量進行了預測,結果表明多個公交站點的客流量數(shù)據(jù)間存在相關性。文獻[15]通過結合Conv-LSTM記憶網絡和自適應K-聚類算法實現(xiàn)軌道交通客流短期預測。文獻[16]考慮軌道交通客流季節(jié)特性,提出基于季節(jié)時間序列分類模型的軌道交通客流預測方法,實現(xiàn)客流短期預測。
現(xiàn)有軌道交通客流量預測的研究基礎主要依賴于GPS定位、AFC系統(tǒng)和手機智能卡信息等數(shù)據(jù)。很少有研究涉及到天氣條件對客流量的具體影響,然而,天氣條件往往是影響客流變化的關鍵因素,因此還需結合天氣條件對城市軌道客流的具體影響來進行客流預測,以提高預測準確度。本文以哈爾濱市地鐵1號線進出站客流數(shù)據(jù)為基礎,分析雨雪天氣下軌道交通客流的波動規(guī)律,建立考慮雨雪天氣下軌道交通客流預測模型并對軌道交通客流進行預測,通過MAE、MRE、RMSE等指標檢驗預測結果,并與SARIMA 、SVM、未考慮雨雪天氣的LSTM預測模型進行對比分析,驗證預測模型的可靠性。該研究對寒冷地區(qū)軌道交通客運分擔和運營管理具有重大的意義。
近年來為了提高預測精度,人們提出了許多分析模型,在這些模型中,LSTM神經網絡被公認為最合適處理交通預測的模型。LSTM神經網絡由基礎記憶單元組成,單個記憶單元包含輸入門、遺忘門和輸出門。這些門可以判斷先前記憶單元的信息是否會影響到當前記憶單元,使得先前記憶單元中的重要信息可以得到保留,門也可以動態(tài)調整記憶單元的狀態(tài),使LSTM神經網絡能夠在較長時間跨度內捕捉特征,提供更高精度的預測結果。
LSTM神經網絡[12]的單個記憶單元如圖1所示,其中xt為t時刻的輸入,ht-1和ht分別為t-1時刻和t時刻的隱藏層輸出,ct-1和ct分別為t-1時刻和t時刻的記憶單元候選信息。以t時刻為例,單個記憶單元中輸入門、遺忘門和輸出門的計算公式如式(1)~(6)所示。
圖1 LSTM記憶單元結構圖
輸入門:
it=σ(Wi[ht-1,xt]+bi)
(1)
遺忘門:
ft=σ(Wf[ht-1,xt]+bf)
(2)
輸出門:
Ot=σ(Wo[ht-1,xt]+bo)
(3)
記憶單元初始狀態(tài):
(4)
記憶單元輸出狀態(tài):
(5)
隱藏層輸出:
ht=Ot?tanhCt
(6)
式中:Wf,Wi,Wo,Wc為權重矩陣;bf,bi,bo,bc為偏置項;σ表示Sigmoid函數(shù);tanh表示雙曲正切函數(shù);?為Hadamard積。
選用哈爾濱市地鐵1號線的全線進出站客流數(shù)據(jù)(時間為2017年12月1日至2019年1月31日,共360 000條客流數(shù)據(jù)),客流數(shù)據(jù)包括運營日、線路名稱、車站、進出站客流量、票務類型等。由于法定公休節(jié)假日一般以小長假形式進行,在節(jié)假日前后均會對軌道交通客流造成較大的干擾,節(jié)假日客流數(shù)據(jù)占比較少,其中降雨降雪情況更少,因此剔除法定假日前后1 d的客流數(shù)據(jù)和春節(jié)長假前后3 d的客流數(shù)據(jù),除節(jié)假日外,還剔除城市大型活動及突發(fā)事件當天的客流數(shù)據(jù)。剔除后為了不影響客流的周期性,使用九期移動平均值法[17]補充剔除的客流數(shù)據(jù)。
1)客流基準值。為了準確描述軌道交通客流波動情況,使用九期移動平均法計算正常天氣條件下的客流基準值。九期移動平均法指當前客流的前后四周同一天的客流的均值,計算過程中如遇到非常態(tài)(降雨、雪等)客流數(shù)據(jù),則舍棄當周客流數(shù)據(jù)并提取前(后)一周的常態(tài)客流數(shù)據(jù),直到滿足九期數(shù)據(jù)為止。客流基準值計算公式為
(7)
2)客流偏差率。為了準確地量化軌道交通客流波動情況,減小土地利用、城市擴展等條件對不同車站客流偏差產生的影響,引入“客流偏差率”[17]來量化客流波動情況,客流偏差率指當日客流量與客流基準值差值與客流基準值的百分比??土髌盥实挠嬎愎綖?/p>
(8)
天氣數(shù)據(jù)源于國家氣象科學數(shù)據(jù)中心和哈爾濱氣象站(時間段:2017年12月1日至2019年1月31日,共28 000條天氣數(shù)據(jù)),為研究雨雪天氣的客流波動規(guī)律需要對數(shù)據(jù)進行清洗,剔除無效數(shù)據(jù),剔除規(guī)則:1)被剔除軌道交通客流數(shù)據(jù)所對應的天氣數(shù)據(jù)應被剔除;2)原始數(shù)據(jù)中降水量標記為無數(shù)據(jù)、缺數(shù)據(jù)、降水量小于0.1 mm的天氣數(shù)據(jù)應被剔除;3)惡劣天氣(如6級以上大風、冰雹天氣等)的天氣數(shù)據(jù)應被剔除。除剔除天氣數(shù)據(jù)外,剩余數(shù)據(jù)均為有效天氣數(shù)據(jù)。
以哈爾濱地鐵1號線博物館站客流數(shù)據(jù)為例,依據(jù)客流偏差率式(8),計算工作日雨天、休息日雨天和雪天等不同天氣條件下的客流偏差率,得到博物館車站的降水量與客流偏差率散點圖,如圖2所示(降水包括降雨、降雪、冰雹等多種情況,本文提及降水只包含降雨和降雪兩種情況)。
(a)工作日雨天
(b)休息日雨天
(c)雪天
在圖2(a)中,當降雨量小于10 mm時(小雨),降雨量與客流偏差率無明顯關系,當降雨量大于10 mm后,隨著降雨量的增加,客流偏差率呈下降趨勢;如圖2(b)休息日雨天,隨著降雨量的增加客流偏差率也呈現(xiàn)下降趨勢,并且降雨對客流的影響相比工作日雨天更強;在圖2(c)中,隨著降雪量的增加,客流偏差率呈現(xiàn)上升趨勢。
分析降水量與客流偏差率的相關性,結果見表1。
表1 降水量與客流偏差率相關性
工作日雨天,降雨量小于10 mm時,降雨量與客流偏差率的相關系數(shù)為0.006,表明二者無相關性,降雨量大于10 mm后,相關系數(shù)為-0.856,呈現(xiàn)顯著的負相關關系;休息日雨天的降雨量與客流偏差率的相關系數(shù)為-0.907,即存在顯著的負相關關系;雪天的降雪量與客流偏差率的相關系數(shù)為0.774,呈現(xiàn)顯著的正相關關系。
根據(jù)降水量與客流偏差率的相關關系,對不同天氣條件下降水量與客流偏差率進行回歸模型擬合,同時對不同降水量與客流波動持續(xù)時長關系進行擬合,修正后推導出不同天氣條件下的總客流波動區(qū)間和客流波動持續(xù)時長見表2。
表2 不同天氣條件下客流波動區(qū)間及客流波動持續(xù)時長
雨雪天氣下軌道交通客流預測模型的流程如圖3所示。首先確定影響客流變化的雨雪天氣特征維度(降水量、客流波動區(qū)間、客流波動影響時長等),對雨雪天氣數(shù)據(jù)和客流數(shù)據(jù)進行處理,建立預測模型后對LSTM網絡進行訓練,訓練成功后對特征日期進行客流預測,并對預測結果進行評價,滿意后輸出預測結果。
圖3 雨雪天氣下軌道交通客流預測模型流程
1)訓練集與測試集劃分。原始數(shù)據(jù)處理后共分為兩個子集,前80%的數(shù)據(jù)作為預測訓練數(shù)據(jù)集,后20%的數(shù)據(jù)作為預測測試數(shù)據(jù)集。
2)數(shù)據(jù)歸一化。為避免不同量級數(shù)據(jù)整合問題,神經網絡的數(shù)據(jù)歸一化處理后統(tǒng)一量綱,其計算公式為
(9)
3)WI-LSTM參數(shù)構建。采用Python編程語言中的Tensorflow編寫WI-LSTM的訓練模型和預測模型,整個實驗在Python Keras庫中完成,記憶單元中的默認激活函數(shù)為Tanh和Sigmoid函數(shù)。采用Phcharm IDE進行編程。經過反復實驗,確定WI-LSTM輸入層、隱藏層和輸出層各為1層,隱藏層記憶單元為10?;咎卣骶S度包括:日期、降水量、降水持續(xù)時長以及量化后的雨雪條件下總客流波動區(qū)間和客流波動持續(xù)時長,通過實驗獲得預測模型各項參數(shù)見表3。
表3 WI-LSTM預測模型參數(shù)
4)WI-LSTM模型訓練。完成預測模型參數(shù)構建后需要對預測模型進行訓練,為防止欠擬合和過擬合的情況,需調整相應參數(shù)。一般情況下,均方根誤差值小于5%則停止訓練。隨著迭代次數(shù)的增加,訓練集和測試集的均方根誤差值會逐漸減小,在WI-LSTM實際訓練中存在部分過擬合狀態(tài),當?shù)螖?shù)達到30次時Train loss為0.005 1,Test loss為0.008 1,兩者差值為0.003,說明訓練模型表現(xiàn)較好,不存在過擬合和欠擬合狀態(tài),通過多次試驗使均方根誤差穩(wěn)定小于0.05,迭代次數(shù)為35。
選擇MAE,RMSE和MRE等評價指標來檢驗預測結果。MAE為平均絕對誤差,用來反映預測值誤差的實際情況,用來衡量模型的精度。RMSE為均方根誤差,表示偏差的平均值,用來衡量模型的穩(wěn)定性。MRE為平均相對誤差,用來評價模型相對精度。3種評價指標分別表示為
(10)
(11)
(12)
為驗證WI-LSTM預測模型的準確性,需與其他模型進行對比分析。選取軌道交通客流預測中最常用的SARIMA預測模型、SVR回歸預測模型以及不考慮雨雪天氣的LSTM預測模型進行對比分析。同樣以哈爾濱地鐵1號線的數(shù)據(jù)為基礎,建立了SARIMA預測模型和SVR回歸預測模型,預測的目標是1 h間隔的進站客流,這3個模型使用相同的訓練數(shù)據(jù),每一個模型的具體參數(shù)如下:
1)SARIMA預測模型。差分整合移動平均自回歸模型的季節(jié)系數(shù)“S”設置為17,預測時間為上午6:00至下午22:00。最終確定的SARIMA參數(shù)為(2,1,0)。
2)SVR回歸預測模型。模型選取RBF核函數(shù)(RBF-SVR),參數(shù)組合見文獻[5]。
3)LSTM預測模型。模型隱藏層神經元設置為10,時間步為17,其他參數(shù)如表3中WI-LSTM參數(shù)構建所設置。
應用以上3種模型與考慮天氣因素的WI-LSTM預測模型作對比,預測哈爾濱市地鐵1號線博物館站2018年7月25日(小雨)及其后4 d和2018年12月21日(中雪)及其后4 d的地鐵進站客流,預測結果見表4、5。
表4 降雨日各預測模型性能指標對比
表5 降雪日各預測模型性能指標對比
從預測結果來看,考慮雨雪天氣的WI-LSTM預測模型在多數(shù)情況下都有較好的預測結果。首先,在MAE、RMSE以及MRE方面,SARIMA模型、SVR模型以及普通LSTM模型在多數(shù)情況下數(shù)值均高于WI-LSTM模型,僅在降雨日前兩天出現(xiàn)數(shù)值小于WI-LSTM模型的情況,說明WI-LSTM模型能夠有效學習客流在雨雪天氣下的長期特征,相比其他3種模型具有更高的準確性與穩(wěn)定性。
從預測模型角度來看,WI-LSTM模型在雨雪天氣的下的預測效果遠好于其他3種模型,且雨雪對客流的影響越大,則預測效果越好。而普通LSTM客流預測模型在不考慮雨雪影響的情況下,預測結果也優(yōu)于核函數(shù)為RBF的SVR 模型以及SARIMA模型,SVR作為一種古老的機器學習算法,與LSTM這種深度學習方法相比,具有一定的局限性,而經典的數(shù)據(jù)分析模型SARIMA也有明顯的預測誤差,這說明了經典參數(shù)化方法在處理大量軌道客流數(shù)據(jù)時的不足。
從預測時間角度來分析,發(fā)現(xiàn)除WI-LSTM模型外的其他3種模型在降雨降雪后的短期時間內均有較大的預測偏差,隨著預測時間的增加,在第3天后3種模型的預測效果均有較大的改善,這也進一步說明了WI-LSTM模型考慮降雨降雪后客流波動規(guī)律對模型預測效能的提升。
1)以LSTM神經網絡為基礎,結合雨雪天氣下軌道交通客流波動規(guī)律,構建了雨雪天氣下軌道交通客流預測模型WI-LSTM。選取SARIMA預測模型、SVR支持向量機回歸預測模型以及不考慮雨雪天氣的LSTM預測模型對比分析,結果表明,考慮雨雪天氣影響預測模型WI-LSTM的預測精度和穩(wěn)定性優(yōu)于其他經典客流預測模型。該研究對寒冷地區(qū)軌道交通客流預測和運營管理具有重要的參考價值。
2)在雨雪天氣下軌道交通客流預測的問題上,站點客流規(guī)模、站點屬性、平高峰等因素均會影響到軌道交通客流的預測效果,未來可以在這些方向進行深入研究,進一步提高WI-LSTM模型的預測效能。