董藝
(無錫地鐵運營有限公司,江蘇 無錫 214000)
隨著我國社會經(jīng)濟的不斷發(fā)展,機動車擁有量和使用量不斷增加。中國在近十幾年里私家車的擁有量增長近30 倍[1]。為緩解越發(fā)嚴重的各類交通問題,許多城市采取車牌搖號和限號出行的政策,然而人口聚集帶來的“大城市病”在越來越多的城市上演。
由于我國城鎮(zhèn)人口不斷增加,導致人們的出行需求不斷遞增。受制于當前交通網(wǎng)絡(luò)的發(fā)展,交通擁堵問題隨之而來。如何緩解交通擁堵是很多城市在發(fā)展過程中需要解決的關(guān)鍵問題之一。其中,發(fā)展城市公共交通是解決此類問題的主要措施之一。作為大運量、低費用、節(jié)能綠色的出行方式,公共交通出行已在城市中承擔越來越重要的角色[2]。近年來,受到“公共交通優(yōu)先”的戰(zhàn)略支持,乘坐公共交通在越來越多的城市得到推廣。
作為城市公共交通的重要方式之一,地鐵的客流運載量更大、時效性更強,且乘坐的舒適感比公交車等更高,這些優(yōu)勢使地鐵在各大城市發(fā)展中不斷完善,承擔了大城市中大部分的公共交通出行客流,并且從出行者自身出行條件考慮,仍會優(yōu)先考慮地鐵出行。中國的城市地鐵建設(shè)處于高速發(fā)展階段,2018年新疆烏魯木齊開通地鐵線路,全國增加20 條地鐵線路,增加長度728.7km,許多城市地鐵與地上軌道相結(jié)合,不斷完善城市軌道交通系統(tǒng)[3]。
在軌道交通運行系統(tǒng)中,如何對車輛進行合理排班和準確調(diào)度是提高運營效率和服務(wù)水平的關(guān)鍵,然而地鐵客流會受許多因素影響,天氣、站點位置等都會對乘客出行產(chǎn)生很大影響。因此,準確預(yù)測地鐵客流信息能夠幫助相關(guān)的運營系統(tǒng)和管理人員更好地決策和安排客流。
基于地鐵客流的海量數(shù)據(jù)信息,利用智能算法對地鐵刷卡大數(shù)據(jù)中的客流特征提取分析,并對客流進行準確預(yù)測研究,對于管理者可以為其提供更準確的客流信息,為地鐵的運營管理提供更加科學準確的指導;對于普通出行者而言,可以根據(jù)客流預(yù)測信息更加合理地安排出行計劃,可以更快捷、更舒適地到達目的地,提升地鐵乘坐的體驗感。進而,還有利于構(gòu)建綠色環(huán)保友好型城市。
時間序列是一組排列數(shù)據(jù),這組數(shù)據(jù)既會隨著時間的變化而變化,也會根據(jù)空間的轉(zhuǎn)移而不斷改變。但是,數(shù)據(jù)的改變是具有一定規(guī)律性的,根據(jù)這種規(guī)律性排列成的序列就是時間序列。通過對歷史時間序列的規(guī)律和變化趨勢進行分析和研究,解釋時間序列的變化特點,并以此作為依據(jù)對未來的時間序列進行預(yù)測。地鐵客流量就是一組隨著時間推移而有規(guī)律變化的時間序列,針對不同地鐵站,由于地理位置、周邊建筑環(huán)境、地理特性等因素不同,其客流量也存在一定的差異性。在進行地鐵客流量預(yù)測的過程中,本文針對不同的地鐵站客流量所形成的時間序列進行規(guī)律挖掘和分析,從而實現(xiàn)對未來地鐵客流量的預(yù)測。利用機器學習算法進行客流量預(yù)測的流程如圖1所示。本文采用機器學習的方法,進行地鐵客流量預(yù)測,主要包括隨機森林算法、支持向量機算法,以及長短時時間序列預(yù)測算法。
圖1 地鐵客流量預(yù)測流程
選取五個地鐵站的客流量進行預(yù)測。在進行預(yù)測的過程中,將2019年12月1日 至2019年12月4日的地鐵客流量作為訓練數(shù)據(jù)進行特征挖掘和學習,進而預(yù)測后三天的客流量。以15 分鐘作為時間單位,進行模型的訓練和測試。由于部分地鐵站在早晨7:00之前和晚上22:00 之后的客流量在15 分鐘的單位時間內(nèi)存在缺失或者為0 的情況,所以提取每個地鐵站7:00~22:00 時間段內(nèi)的,每15 分鐘共計420 個數(shù)據(jù)樣本作為數(shù)據(jù)集,其中240 個樣本作為測試集,180 個樣本作為訓練集。對于機器學習算法而言,每組訓練數(shù)據(jù)的輸入長度為60,即包含每天7:00~22:00 時間段內(nèi)的客流特征的數(shù)據(jù)集;將240 個數(shù)據(jù)生成180 組訓練數(shù)組,每一組訓練數(shù)據(jù)都輸入模型中,經(jīng)過180 次的訓練之后,得到最終的模型。
為了比較不同機器學習算法的預(yù)測結(jié)果精度,使用比較經(jīng)典的均方根誤差(Root Mean Square Error,RMSE)、平均絕對誤 差(Mean Absolute Error,MAE)、平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)以及決定系數(shù)(R2)等四個能夠評價預(yù)測結(jié)果的指標,對所使用的機器學習算法的預(yù)測結(jié)果進行多角度綜合評價。
為對比三個算法對于地鐵客流量預(yù)測的結(jié)果,對比分析了四個評價指標,如表1所示。通過對比可以看出,隨機森林算法能夠更加準確地預(yù)測地鐵站短時客流量;其次是支持向量機算法。對于支持向量機算法而言,除了無錫火車站之外,對于其他地鐵站核函數(shù)為POLY 的算法預(yù)測準確度更高。受到數(shù)據(jù)數(shù)量的限制,長短時時間神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果并不理想。長短時神經(jīng)網(wǎng)絡(luò)中隱藏層較多,在針對較大數(shù)據(jù)量時,預(yù)測結(jié)果更加準確。
表1 不同算法的地鐵客流量預(yù)測結(jié)果比較
另外,通過對比可以發(fā)現(xiàn),對于無錫火車站、無錫東站等地鐵站的預(yù)測決定系數(shù)較小,說明預(yù)測結(jié)果較差。這可能與地鐵客流量本身的特征有關(guān)。
比如,在無錫東站由于地鐵客流量波動較大,高峰時刻和非高峰時期的差距并不十分明顯,所以預(yù)測結(jié)果較差。
通過上文的算法比較可以發(fā)現(xiàn),隨機森林算法的客流量預(yù)測誤差較小。為了進一步驗證該算法的可靠性,利用該算法預(yù)測兩周的地鐵客流量數(shù)據(jù)。以堰橋站為例,采用前四天的地鐵客流數(shù)據(jù)作為訓練樣本進行模型訓練,通過比較實際客流量與預(yù)測客流量可以發(fā)現(xiàn),預(yù)測模型的RMSE 和MAE 分別為41.8097 和27.29。其MAPE 為30.87%,R2 為0.74。通過決定系數(shù)也可以發(fā)現(xiàn),預(yù)測客流量與實際客流量的擬合度較高。這說明,基于隨機森林的預(yù)測功能較強。
作為對比,采用前七天的地鐵客流數(shù)據(jù)作為訓練樣本,對后七天的地鐵客流數(shù)據(jù)進行預(yù)測,得到預(yù)測結(jié)果。通過比較實際客流量與預(yù)測客流量可以發(fā)現(xiàn),預(yù)測模型的RMSE 和MAE 分別為42.70 和24.10,MAPE 為26.08%,R2 為0.74。通過與上文對比可以發(fā)現(xiàn),采用較長客流量進行訓練后,模型預(yù)測的MAE和MAPE 都減小,說明預(yù)測的誤差有一定程度的降低。
進一步以1 小時作為單位時間進行地鐵站客流預(yù)測。通過上文的比較發(fā)現(xiàn),隨機森林算法具有一定的優(yōu)越性,所以本章節(jié)采用隨機森林對地鐵小時客流量進行預(yù)測。堰橋站進站客流量預(yù)測,通過比較實際客流量和預(yù)測客流量可以發(fā)現(xiàn),在工作日的時間段內(nèi),客流量預(yù)測較為準確,實際客流量和預(yù)測客流量相對誤差較?。辉谥苣r間內(nèi)低峰期的預(yù)測誤差較大。通過比較實際客流量與預(yù)測客流量,預(yù)測結(jié)果的RMSE和MAE 分別 為122.17 和92.52,MAPE 為28.89%,R2為0.80。
無錫火車站出站客流量預(yù)測結(jié)果,通過對比可以發(fā)現(xiàn),單位小時的地鐵站客流量預(yù)測誤差很大。通過比較實際客流量與預(yù)測客流量,預(yù)測結(jié)果的RMSE 為400.64,MAE 為284.96,MAPE 為30.64%,R2 為0.05。
無錫東站進站客流量預(yù)測結(jié)果,通過對比可以發(fā)現(xiàn),單位小時的地鐵站客流量預(yù)測誤差很大。通過比較實際客流量與預(yù)測客流量,其預(yù)測結(jié)果的RMSE 和MAE 分別為107.93 和79.89,MAPE 誤差為24.27%,R2 為0.03。
太湖廣場站進站客流量預(yù)測結(jié)果,通過比較實際客流量和預(yù)測客流量可以發(fā)現(xiàn),由于太湖廣場站的小時客流量在每天變化的規(guī)律性較強,所以模型的預(yù)測結(jié)果較好。
通過比較實際客流量與預(yù)測客流量,其預(yù)測結(jié)果的RMSE 和MAE 誤差分別為52.26 和38.46,MAPE 誤差為23.68%,R2 為0.51。
梅園開原寺站出站客流量預(yù)測結(jié)果,通過比較實際客流量和預(yù)測客流量可以發(fā)現(xiàn),由于梅園開原寺站的小時客流量在周五晚高峰與其他時間的晚高峰相差較大,所以預(yù)測精度較低。通過比較可知,其預(yù)測結(jié)果的RMSE 和MAE 分別為181.89 和122.28,MAPE誤差為38.73%,R2 為0.34。
本文基于無錫地鐵的實際客流大數(shù)據(jù),基于客流的時間序列特征構(gòu)建了多種機器學習算法的短時客流預(yù)測模型,并對比了不同機器學習算法預(yù)測結(jié)果的準確性和有效性,選取最優(yōu)的地鐵短時客流預(yù)測方法。
地鐵的短時客流預(yù)測要求計算速度快,預(yù)測精度高。本文應(yīng)用不同種類機器學習算法對地鐵短時客流進行預(yù)測,選取了堰橋站、無錫火車站等五個典型地鐵站的客流運營數(shù)據(jù)進行實例分析,通過對比多種機器學習算法的預(yù)測效果發(fā)現(xiàn)隨機森林算法能夠更加準確地預(yù)測地鐵站短時客流量,其次是長短時時間序列算法。從5 個車站的預(yù)測結(jié)果對比中可以發(fā)現(xiàn),不同機器學習算法均對無錫火車站的預(yù)測效果最差,主要原因是無錫火車站的客流波動性較強。
但由于城市軌道交通系統(tǒng)自身的復雜性,以及外界因素的影響,如地鐵站周邊的土地規(guī)劃、天氣因素、交通政策等,導致軌道交通客流具有一定的波動性;再加上在地鐵短時客流預(yù)測方面的研究水平和研究時間有限,導致本文中存在著有待進一步研究的問題,具體包括:
一是本文以無錫地鐵1 號線和2 號線的5 個地鐵站為例,應(yīng)用機器學習算法建立了地鐵短時客流預(yù)測模型,但未考慮地鐵3 號線這類新開通不久的線路,導致該模型對新建地鐵站的客流預(yù)測不具有適用性。因此,如何考慮新開通/新建線路的客流時空變化特征,建立面向地鐵新開通/新建線路的客流預(yù)測模型有待進一步的研究。
二是本文僅以典型工作日的客流量進行了地鐵短時客流預(yù)測模型的構(gòu)建,未考慮周末、節(jié)假日、天氣(如下雨、臺風等)等因素對地鐵客流的影響,導致構(gòu)建的地鐵短時客流預(yù)測模型不適用于周末、節(jié)假日及異常天氣。因此,如何將這些影響因素納入考慮,建立地鐵短時客流預(yù)測模型是值得研究的問題。