陳東洋 陳德旺 陳開河
摘 要:隨著地鐵線網(wǎng)規(guī)模的擴(kuò)大,地鐵客流大數(shù)據(jù)不斷產(chǎn)生并積累,其中包含大量信息。地鐵乘客出行時(shí)間是反映地鐵系統(tǒng)運(yùn)行狀況和乘客滿意度的重要指標(biāo)。傳統(tǒng)的地鐵乘客出行時(shí)間預(yù)測沒有充分利用客流大數(shù)據(jù),因此有進(jìn)一步提升空間。文章基于地鐵客流大數(shù)據(jù),整理了大量乘客出行屬性和實(shí)際出行時(shí)間的數(shù)據(jù)集,并采用多種回歸模型建立地鐵乘客出行時(shí)間預(yù)測模型。結(jié)果表明:使用徑向基核函數(shù)的支持向量回歸模型預(yù)測效果最好,可較好應(yīng)用于乘客出行時(shí)間預(yù)測,為乘客出行規(guī)劃及運(yùn)營公司調(diào)度提供參考。
關(guān)鍵詞:地鐵;客流;大數(shù)據(jù);支持向量回歸;乘客出行時(shí)間
中圖分類號(hào):U231+.92
1 研究背景
地鐵在城市公共交通中發(fā)揮著越來越不可替代的作用,不僅方便了人們的生活,也緩解了城市日益嚴(yán)重的交通擁堵現(xiàn)象,是一種高效環(huán)保的可持續(xù)城市公共交通方式[1]。地鐵乘客出行時(shí)間的預(yù)測具有重要意義[2],不僅能幫助乘客更好地規(guī)劃行程,而且能夠反映地鐵的運(yùn)營狀況,為地鐵運(yùn)行調(diào)度提供數(shù)據(jù)支撐,提高地鐵的運(yùn)營效率。目前對于乘客出行時(shí)間的預(yù)測研究大都集中在公交、汽車或多種交通工具相結(jié)合的方向。
王群[3]結(jié)合卡爾曼濾波方法以及粒子群算法優(yōu)化的支持向量機(jī)模型,建立了道路的旅行時(shí)間預(yù)測模型。You等[4]結(jié)合地理信息系統(tǒng)(GIS)技術(shù)建立一種混合行程時(shí)間預(yù)測模型,用于預(yù)測擁擠道路網(wǎng)絡(luò)中的路段行程時(shí)間。林永杰等[5]提出一種基于稀疏出租車全球定位系統(tǒng)(GPS)數(shù)據(jù)的大范圍城市路網(wǎng)出行時(shí)間估計(jì)方法,利用車輛的時(shí)空位置數(shù)據(jù)估算路段速度,進(jìn)而得到路段旅行時(shí)間。沙云飛等[6]提出利用GPS數(shù)據(jù)對路段旅行時(shí)間和路段平均速度進(jìn)行估計(jì)的算法,以描述路網(wǎng)的運(yùn)行狀態(tài)。Zhou等[7]建立地鐵步行時(shí)間預(yù)測模型,推導(dǎo)乘客的等待時(shí)間和出行時(shí)間,為地鐵時(shí)刻表管理提供量化依據(jù)。Duan等[8]認(rèn)為出行時(shí)間是旅客最為關(guān)心的問題之一,并使用長短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)模型對出行時(shí)間進(jìn)行預(yù)測。張威威等[9]選擇不同類型的LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu)對道路旅行時(shí)間進(jìn)行預(yù)測。Hinsbergen等[10]將貝葉斯推理理論與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,對出行時(shí)間進(jìn)行預(yù)測。王芳杰等[11]通過分析車輛、道路以及天氣等特征,建立基于LightGBM算法的公交車站點(diǎn)間行程時(shí)間預(yù)測模型。陳旭梅等[12]基于GPS數(shù)據(jù),結(jié)合卡爾曼濾波與支持向量機(jī)模型,對快速公交系統(tǒng)(BRT)行程時(shí)間進(jìn)行預(yù)測。
本文借助大數(shù)據(jù)分析技術(shù),基于歷史客流大數(shù)據(jù),并采用多種機(jī)器學(xué)習(xí)模型,挖掘地鐵乘客出行特征與出行時(shí)間之間的關(guān)系,實(shí)現(xiàn)對乘客出行時(shí)間的預(yù)測,為乘客出行規(guī)劃提供參考,為地鐵運(yùn)營調(diào)度優(yōu)化提供支撐。
2 數(shù)據(jù)簡介
2.1 數(shù)據(jù)來源
本文采用福州地鐵1號(hào)線的實(shí)際運(yùn)營數(shù)據(jù)。福州地鐵1號(hào)線于2017年1月6日開通運(yùn)營,線路總長24.89km,共設(shè)21個(gè)站點(diǎn),全天運(yùn)營時(shí)間為6 : 30—23 : 00,全程用時(shí)約45 min。選取2017年的刷卡數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集,為避免節(jié)假日的影響,從工作日以及周末數(shù)據(jù)集中隨機(jī)抽取了54萬條刷卡數(shù)據(jù)。
2.2 數(shù)據(jù)處理
原始數(shù)據(jù)中每條記錄包含乘客ID、卡類別、線路ID、進(jìn)出站口ID、進(jìn)出站設(shè)備ID、進(jìn)出站時(shí)間、日期、票價(jià)等屬性。根據(jù)研究需求,先將數(shù)據(jù)進(jìn)行預(yù)處理,刪除多余屬性,保留所需屬性。此外,乘客的部分出行屬性需要對原始屬性進(jìn)行處理后才能得到。通過分析,最終選取日期、進(jìn)站點(diǎn)、出站點(diǎn)、進(jìn)站時(shí)間、理論運(yùn)行時(shí)間、乘坐距離、發(fā)車間隔、實(shí)際出行時(shí)間用于乘客出行時(shí)間預(yù)測。
在預(yù)處理過程中,對日期以及車站等屬性采取編號(hào)的量化方式,將日期替換為1,2,…,7以表示該條記錄屬于星期幾(如“1”表示該條記錄屬于“星期一”);將1 號(hào)線的21個(gè)站點(diǎn)分別按1,2,3,…,19,20,21編號(hào)表示,如表1所示。
同時(shí)為便于計(jì)算,將乘客的實(shí)際出行時(shí)間以及發(fā)車間隔等時(shí)間單位統(tǒng)一為秒,處理之后的部分?jǐn)?shù)據(jù)如表2所示。
2.3 大數(shù)據(jù)平臺(tái)
地鐵客流大數(shù)據(jù)具有大量、高維、低價(jià)值密度等特點(diǎn),采用常規(guī)的方法手段難以高效準(zhǔn)確地進(jìn)行客流數(shù)據(jù)的處理挖掘和提取數(shù)據(jù)中潛在的應(yīng)用價(jià)值。因此本文借助于大數(shù)據(jù)平臺(tái)進(jìn)行客流大數(shù)據(jù)的分析挖掘。
Spark是一個(gè)基于內(nèi)存計(jì)算的大數(shù)據(jù)處理框架,可以將計(jì)算的中間結(jié)果保存在內(nèi)存之中,這種方式避免了頻繁的文件讀取,加快了系統(tǒng)運(yùn)行,因此適用于需要遞歸、迭代計(jì)算的數(shù)據(jù)挖掘算法中。
本文以spark大數(shù)據(jù)平臺(tái)為基礎(chǔ),進(jìn)行客流大數(shù)據(jù)的清洗、處理等,并以此為基礎(chǔ)進(jìn)行地鐵乘客出行時(shí)間預(yù)測模型研究,提高模型的性能、效率。
3 回歸模型
回歸分析是數(shù)據(jù)挖掘的一種重要技術(shù),其研究的是數(shù)據(jù)中自變量(輸入)與因變量(輸出)之間的關(guān)系,是一種預(yù)測性的建模技術(shù)?;貧w分析技術(shù)通常用于數(shù)據(jù)的預(yù)測分析等方面。本文以客流大數(shù)據(jù)為基礎(chǔ),選取多元線性回歸、支持向量回歸等幾種經(jīng)典的回歸分析算法,建立地鐵乘客出行時(shí)間預(yù)測模型。
3.1 多元線性回歸模型
3.2 BP神經(jīng)網(wǎng)絡(luò)模型
反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是目前使用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,由Rumelhart等[14-15]于1986年正式提出。模型網(wǎng)絡(luò)分為輸入層、隱藏層、輸出層3部分,通過輸入的正向傳播以及誤差的反向傳播來綜合調(diào)整模型各個(gè)層的連接權(quán)重與閾值,并最終建立合適的模型。
圖1為BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖,該網(wǎng)絡(luò)的輸入層神經(jīng)元、隱藏層神經(jīng)元、輸出層神經(jīng)元個(gè)數(shù)分別為d、q、l。其中輸入神經(jīng)元 i 與隱藏神經(jīng)元h 之間的連接權(quán)表示為 vih,隱藏神經(jīng)元 h 與輸出神經(jīng)元 j 之間的連接權(quán)表示為whj。隱藏神經(jīng)元 h 的輸入為 ,輸出神經(jīng)元j
的輸入為 (其中 bh為隱藏神經(jīng)元 h 的輸出)。
BP神經(jīng)網(wǎng)絡(luò)模型在學(xué)習(xí)中需要學(xué)習(xí)的參數(shù)主要是各層之間的連接權(quán)值,以及隱藏層與輸出層的神經(jīng)元閾值,算法的參數(shù)是在不斷的迭代學(xué)習(xí)中進(jìn)行迭代更新的。
3.3 支持向量機(jī)回歸模型
支持向量機(jī)(Support Vector Machine,SVM)是一種經(jīng)典的監(jiān)督學(xué)習(xí)模型[16]。通過建立訓(xùn)練集與類別標(biāo)簽兩者之間存在的關(guān)系模型,從而預(yù)測新數(shù)據(jù)對應(yīng)的類別。而處理回歸模型問題時(shí)可以采用支持向量回歸(Support Vector Regression,SVR)模型[17]。
SVR算法能夠較好的解決局部最優(yōu)解問題,而且在樣本容量小時(shí)不會(huì)產(chǎn)生過擬合現(xiàn)象,相比其他方法有優(yōu)勢。在實(shí)際應(yīng)用中,核函數(shù)的選取也是影響SVR算法性能的重要因素,線性核、多項(xiàng)式核以及徑向基核是SVR算法常用的3種核函數(shù),其中徑向基核函數(shù)在各種類型的數(shù)據(jù)中均可以適用,因此應(yīng)用最為廣泛。
3.4 決策樹回歸模型
決策樹是常用的一種分類以及回歸模型,可根據(jù)需要構(gòu)建相應(yīng)的分類樹或回歸樹來解決問題?;貧w樹就是將特征空間劃分成為多個(gè)單元,每個(gè)單元對應(yīng)一個(gè)特定的輸出。算法根據(jù)某一標(biāo)準(zhǔn)來確定每一步的劃分點(diǎn)以及選取劃分點(diǎn)最優(yōu)的閾值,并以此決定樣本在每個(gè)步驟所選取的路徑。首先在訓(xùn)練集的輸入中,采用遞歸的方法將所有區(qū)域分為2個(gè)相互獨(dú)立的子區(qū)域,再確定每個(gè)子區(qū)域相應(yīng)的輸出?;貧w樹的構(gòu)建步驟[18]如下。
3.5 算法性能指標(biāo)
為描述算法結(jié)果的準(zhǔn)確性,本文使用4個(gè)評(píng)價(jià)指標(biāo)來綜合評(píng)價(jià)實(shí)驗(yàn)結(jié)果,分別為:均方根誤差(Root Mean Square Error,RMSE)、平均相對誤差(Mean Absolute Percentage Error,MAPE)、平均絕對誤差(Mean Absolute Error,MAE)以及決定系數(shù)R2。對于包含n個(gè)樣本的數(shù)據(jù)集D ={(,y1),(,y2),…,(,yn)},其中為輸入值 對應(yīng)的預(yù)測值,yi為輸入值 對應(yīng)的真實(shí)值,則RMSE、MAPE、MAE以及R2的計(jì)算公式如下:
RMSE能夠很好地衡量預(yù)測值和真實(shí)值之間的偏差,而MAPE則能夠很好地反映實(shí)驗(yàn)中預(yù)測結(jié)果的準(zhǔn)確度,MAE反映了預(yù)測結(jié)果的絕對誤差大小,對于這3個(gè)指標(biāo),值越小代表預(yù)測效果越好。R2則反映了輸入屬性對輸出屬性的可解釋程度以及該模型的擬合程度的優(yōu)良,R2的取值區(qū)間為[0,1],R2的值越大說明模型對輸入輸出屬性之間關(guān)系的擬合越好。
4 實(shí)驗(yàn)結(jié)果
為使實(shí)驗(yàn)結(jié)果更具有普遍性,本文將數(shù)據(jù)集劃分為4個(gè)部分,分別為數(shù)據(jù)集A、B、C、D,各數(shù)據(jù)集的數(shù)據(jù)量分別為4萬、10萬、15萬、25萬條。此外,對每個(gè)數(shù)據(jù)集隨機(jī)選取75%數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)集,剩余的25%數(shù)據(jù)作為模型的測試數(shù)據(jù)集。
4.1 模型參數(shù)確定
由于部分模型需要根據(jù)實(shí)際情況確定模型關(guān)鍵參數(shù),本文選取數(shù)據(jù)量適中的數(shù)據(jù)集C(15萬條)來進(jìn)行前期的模型參數(shù)選取工作。
BP神經(jīng)網(wǎng)絡(luò)輸入層的神經(jīng)元個(gè)數(shù)為數(shù)據(jù)集的輸入屬性的維數(shù),輸出層的神經(jīng)元個(gè)數(shù)為數(shù)據(jù)集的輸出屬性的維數(shù)。因此在本文中,最終確定網(wǎng)絡(luò)的輸入神經(jīng)元個(gè)數(shù)為7個(gè),輸出神經(jīng)元個(gè)數(shù)為1個(gè)。同時(shí)本文根據(jù)經(jīng)驗(yàn)公式(15)來進(jìn)行隱藏神經(jīng)元個(gè)數(shù)的確定。
式(15)中,n,l分別為輸入神經(jīng)元個(gè)數(shù)、輸出神經(jīng)元個(gè)數(shù);α為隨機(jī)選取的1到10之間的某個(gè)常數(shù);m為隱藏神經(jīng)元個(gè)數(shù)。本文最終確定隱藏神經(jīng)元個(gè)數(shù)為10個(gè)。
模型中損失值隨訓(xùn)練次數(shù)變化情況如圖2所示,訓(xùn)練6次及之后的損失值變化如圖3所示。
損失值在模型訓(xùn)練40次之后趨于穩(wěn)定,因此BP模型的訓(xùn)練次數(shù)確定為40次。
決策樹模型中的關(guān)鍵參數(shù)為樹深,本文使用MAPE與R2作為評(píng)價(jià)標(biāo)準(zhǔn)確定樹深。模型訓(xùn)練30次,每個(gè)樹深的MAPE與R2取值取30次訓(xùn)練的平均值。圖4為MAPE平均值與R2平均值隨樹深增加的變化圖。
模型的MAPE以及R2都在樹深等于8時(shí)取最優(yōu)值,此時(shí)MAPE = 13.01%,R2 = 0.8943,因此決策樹模型的樹深選取8。
4.2 實(shí)驗(yàn)結(jié)果對比
為使實(shí)驗(yàn)結(jié)果更具有一般性,本文將 4 種模型分別在A、B、C、D 4個(gè)數(shù)據(jù)集上進(jìn)行30次實(shí)驗(yàn),每個(gè)模型的指標(biāo)取相應(yīng)數(shù)據(jù)集上30次結(jié)果的平均值。其中SVR模型選取線性核、多項(xiàng)式核、徑向基核3種核函數(shù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果對比如表3~表6所示。表中RMSE_AVG、MAPE_AVG、MAE_AVG、R2_AVG分別表示各模型在相應(yīng)數(shù)據(jù)集上訓(xùn)練30次的指標(biāo)平均值,RMSE_MIN、MAPE_MIN、MAE_MIN、R2_MAX分別表示各模型在相應(yīng)數(shù)據(jù)集上訓(xùn)練30次中的最優(yōu)值。
從表3~表6可見,在4個(gè)數(shù)據(jù)集的預(yù)測中,4個(gè)指標(biāo)的平均值以及最優(yōu)值表現(xiàn)效果最好的都為基于徑向基核函數(shù)的SVR模型,該模型的穩(wěn)定性以及預(yù)測精度波動(dòng)均優(yōu)于其他模型。其在4個(gè)數(shù)據(jù)集上的MAPE平均值分別為12.92%、12.90%、12.82%、12.88%,相比其他模型的MAPE平均值降低了0.05%~0.36%,而MAPE的最優(yōu)值分別為12.64%、12.74%、12.70%、12.70%,相比其他模型的MAPE最優(yōu)值降低了0.09%~0.36%。
5 結(jié)論
本文主要基于客流大數(shù)據(jù)進(jìn)行地鐵乘客出行時(shí)間預(yù)測模型研究,首先在大數(shù)據(jù)平臺(tái)上進(jìn)行原始客流數(shù)據(jù)的處理,提取所需屬性,構(gòu)建實(shí)驗(yàn)所需數(shù)據(jù)集。并在此基礎(chǔ)上選取多元線性回歸、支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)以及決策樹共4種模型進(jìn)行實(shí)驗(yàn)。
對比實(shí)驗(yàn)結(jié)果中各個(gè)指標(biāo),發(fā)現(xiàn)基于徑向基核函數(shù)的SVR模型預(yù)測精度最高,模型的穩(wěn)定性最好,波動(dòng)最小。其MAPE平均值相比其他模型降低了0.05%~0.36%,MAE平均值為133~135s,這對于乘客來說是完全可以承受的。說明使用徑向基核函數(shù)的SVR模型能夠較好的預(yù)測地鐵乘客的出行時(shí)間。
當(dāng)然,本文考慮的一些因素有很多不足,在數(shù)據(jù)處理時(shí)對異常情況可能考慮不全面,對最終結(jié)果產(chǎn)生影響。在屬性選取時(shí)也沒有考慮天氣、客流等影響因素。在回歸模型的選取上也只選取了幾種模型進(jìn)行比較,而且模型的參數(shù)也沒有進(jìn)一步優(yōu)化,還有很多有待改進(jìn)的地方,誤差還有進(jìn)一步縮小的空間。
參考文獻(xiàn)
[1]Yu Xue, Xue Mei, Youran Zhi, et al. Sub-health state identification method of subway door based on time series data mining[J]. Journal of Computer Applications, 2018(3):905-910.
[2]Meilan Jiang, Takayuki Morikawa. Theoretical analysis on the variation of value of travel times avings[J]. Transportation Research, Part A (Policy and Practice),2004,38(8):566-571.
[3]王群. 基于藍(lán)牙技術(shù)的城市道路短時(shí)旅行時(shí)間預(yù)測方法研究[D]. 上海:上海交通大學(xué),2015.
[4]Jinsoo You, Tschangho John Kim. Development and evaluation of a hybrid travel time forecasting model[J]. Transportation Research Part C (Emerging Technologies), 2000(8):231-256.
[5]林永杰,鄒難,朱琳,等. 基于稀疏出租車GPS數(shù)據(jù)的大范圍城市路網(wǎng)旅行時(shí)間估計(jì)方法,中國,201510203390.7[P]. 2020-07-15. http://d.wanfangdata.com.cn/patent/CN201510203390.7.
[6]沙云飛,曹瑾鑫,史其信. 基于GPS的路段旅行時(shí)間和速度估計(jì)算法研究[C]//中國智能交通年會(huì),2005.
[7]Yuyang Zhou, Lin Yao, Yi Gong, et al. Time prediction model of subway transfer[J]. Springerplus,2016,5(1):44.
[8]Yanjie Duan, Yisheng Lv, Fei-Yue Wang. Travel time prediction with LSTM neural network[C]//2016 IEEE 19th International Conference on Intelligent Transportation Systems(ITSC),2016.
[9]張威威,李瑞敏,謝中教. 基于深度學(xué)習(xí)的城市道路旅行時(shí)間預(yù)測[J]. 系統(tǒng)仿真學(xué)報(bào),2017(10):2309-2315,2322.
[10] Hinsbergen C P I V, Lint J W C V, Zuylen H J V. Bayesian committee of neural networks to predict travel times with confidence intervals[J]. Transportation Research Part C Emerging Technologies,2009,17(5):498-509.
[11] 王芳杰,王福建,王雨晨,等. 基于LightGBM算法的公交行程時(shí)間預(yù)測[J]. 交通運(yùn)輸系統(tǒng)工程與信息,2019,19(2):120-125.
[12] 陳旭梅,龔輝波,王景楠,等. 基于SVM和Kalman濾波的BRT行程時(shí)間預(yù)測模型研究[J]. 交通運(yùn)輸系統(tǒng)工程與信息,2012,12(4):29-34.
[13] 王劭逸. 基于GCV方法的線性回歸模型嶺參數(shù)估計(jì)[D]. 安徽合肥:中國科學(xué)技術(shù)大學(xué),2012.
[14] Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[M]. Netherlands,Amsterdam: Elsevier Inc,1988.
[15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986,6088(323):33-536.
[16] Chow D K T, Lee T L T. Image approximation and smoothing by support vector regression[C]// International Joint Conference, 2001.
[17] 田英杰. 支持向量回歸機(jī)及其應(yīng)用研究[D]. 北京:中國農(nóng)業(yè)大學(xué),2005.
[18] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社, 2012.
收稿日期 2020-04-27
責(zé)任編輯 胡姬