楊迎卯
(溫州市鐵路與軌道交通投資集團(tuán)有限公司運營分公司,浙江 溫州 325000)
客流預(yù)測對城市軌道交通系統(tǒng)短期、中長期的經(jīng)營管理有著極大的幫助,是指導(dǎo)日常運輸組織、優(yōu)化列車開行方案、優(yōu)化車站設(shè)施布局、制定客流引導(dǎo)策略及提高經(jīng)濟(jì)效益的重要前提。按照預(yù)測時間跨度,客流預(yù)測可分為長期、短期、短時客流預(yù)測。長期預(yù)測依據(jù)地域發(fā)展規(guī)劃及經(jīng)濟(jì)趨勢進(jìn)行,短期預(yù)測主要依據(jù)季節(jié)性特征,短時預(yù)測則根據(jù)早晚高峰、節(jié)假日、大客流活動、氣候驟變等客流時間進(jìn)行,本文主要研究短時客流預(yù)測。
基于線性理論,客流預(yù)測問題分為基于線性的統(tǒng)計預(yù)測、基于非線性的模型預(yù)測及統(tǒng)計學(xué)-非線性模型組合預(yù)測三類。基于線性近似的非線性預(yù)測模型,主要有時間序列法和卡爾曼濾波模型[1,2]。有研究表明,基于統(tǒng)計學(xué)數(shù)學(xué)方法已經(jīng)能夠解決大部分客流預(yù)測問題,而隨著預(yù)測周期變短、預(yù)測干擾增強等非線性特征的增強,預(yù)測模型預(yù)測的穩(wěn)定性也會變差。常見的非線性模型有馬爾科夫鏈、神經(jīng)網(wǎng)絡(luò)模型等,這類方法具備多源數(shù)據(jù)特性,令預(yù)測模型更合理[3,4]。但人工客流疏導(dǎo)、班次修改、臨時關(guān)站等事件,會使模型的精度失控?;诮M合非線性模型并結(jié)合統(tǒng)計學(xué)數(shù)學(xué)方法分類的預(yù)測成為當(dāng)前研究的主流方向。
基于機器學(xué)習(xí)方法,客流預(yù)測可分為基于統(tǒng)計學(xué)理論的模型驅(qū)動、基于神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)驅(qū)動和基于多模型的組合方法。模型驅(qū)動的客流預(yù)測方法使用統(tǒng)計學(xué)模型,通過分析客流數(shù)據(jù),構(gòu)建數(shù)據(jù)特征,形成有經(jīng)驗的數(shù)據(jù)模型,其代表方法有時間序列、非參數(shù)回歸、聚類分析、貝葉斯估計等。其中,季節(jié)時間序列模型(SARIMA)的貝葉斯估計方法表現(xiàn)極佳。數(shù)據(jù)驅(qū)動的客流預(yù)測主要基于神經(jīng)網(wǎng)絡(luò)理論,神經(jīng)網(wǎng)絡(luò)由大量神經(jīng)元(神經(jīng)細(xì)胞)互相進(jìn)行權(quán)重連接,形成了多層網(wǎng)絡(luò)結(jié)構(gòu),使用有效歷史數(shù)據(jù)對模型中的神經(jīng)元連接權(quán)重進(jìn)行梯度下降訓(xùn)練方法獲得最終模型參數(shù)。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),結(jié)合模糊控制、多時間單元及長短時記憶網(wǎng)絡(luò)(LSTM)均適配,此類方法具備機器學(xué)習(xí)能力,同時避免了模型的過擬合。
近年來,機器學(xué)習(xí)方法在社會各領(lǐng)域都得到了充分的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型算法也成為客流預(yù)測的主流方向。針對時序性較強的預(yù)測問題,循環(huán)神經(jīng)網(wǎng)絡(luò)模型具有優(yōu)良的匹配性,在進(jìn)一步開發(fā)的長短時記憶神經(jīng)網(wǎng)絡(luò)模型方面表現(xiàn)更優(yōu)秀。本文主要內(nèi)容有:對多源數(shù)據(jù)的融合問題進(jìn)行特征構(gòu)造介紹,介紹采用聚類算法分析、處理歷史數(shù)據(jù)的方法,介紹長短時記憶網(wǎng)絡(luò)的預(yù)測模型及結(jié)合多源輸入的組合模型系統(tǒng)框架。
本文基于神經(jīng)網(wǎng)絡(luò)模型的客流預(yù)測算法架構(gòu)如圖1所示,其結(jié)合了多源數(shù)據(jù)特征予以歸納,聚類分析預(yù)處理,按分類結(jié)果建立多組長短時記憶網(wǎng)絡(luò)模型,并根據(jù)進(jìn)站、出站、區(qū)域及站內(nèi)客流的不同預(yù)測目標(biāo)分別進(jìn)行了特征構(gòu)造。
車站客流數(shù)據(jù)受到氣候、節(jié)假日、大型活動、列車編組班次、地域商區(qū)等各種因素的影響,利用豐富的信息源可以提高預(yù)測精度。通過AFC票卡(ACC清分)或智能視頻分析、獲取客流量,根據(jù)時間顆粒度大小對客流數(shù)據(jù)進(jìn)行轉(zhuǎn)儲,例如:
其一,客流量,時間戳,站名,出入口/區(qū)域編號。
其二,天氣晴/雨指標(biāo),節(jié)假日指標(biāo),大客流指標(biāo)。
其三,班次編號,編組車節(jié)數(shù),到站時間,上/下行標(biāo)志。
短時客流預(yù)測按預(yù)測對象可分為進(jìn)站、出站、站內(nèi)、斷面以及OD客流預(yù)測。對于不同預(yù)測對象使用同一套算法訓(xùn)練,同時并行訓(xùn)練多組模型的權(quán)重、偏置等模型參數(shù)。
地鐵客流具有明顯的時空特性,不同站點在不同的時間,會表現(xiàn)出極大的差別,同時也具有一定的分布規(guī)律。在一周時間內(nèi),客流在工作日和雙休日具有非常顯著的差別;在同一天,內(nèi)客流則具有明顯的“潮汐現(xiàn)象”,即早/晚高峰和進(jìn)/出站客流的關(guān)聯(lián)性。針對客流預(yù)測顯著的時序特征,使用K-Means聚類對歷史數(shù)據(jù)進(jìn)行分析,對客流預(yù)測的數(shù)據(jù)進(jìn)行預(yù)處理,可以極大地提高模型的精度。
對一周內(nèi)各天的數(shù)據(jù)進(jìn)行相關(guān)性分析,計算一周內(nèi)各天的歐氏距離,結(jié)果表明,雙休日和工作日之間的相關(guān)性較差,所以可以將日期劃分為周一、周二、周三、周四、周五和周六、周日這兩類。對每天細(xì)分時段的數(shù)據(jù)進(jìn)行相關(guān)分析,計算一天內(nèi)各時段的歐氏距離,可將一天內(nèi)的數(shù)據(jù)分為早/晚高峰和平常時段。
按照聚類分析,可將LSTM模型分為多組,分別用于聚類分類結(jié)果所劃分的各個時間段,降低模型非線性階次并避免過擬合,提升模型的訓(xùn)練效率和穩(wěn)定性。
人工神經(jīng)網(wǎng)絡(luò)模型,是一種模仿人腦神經(jīng)系統(tǒng)對各類信息進(jìn)行處理的行為特征,并形成可以分布式計算的信息處理模型。
依據(jù)神經(jīng)元觸發(fā)放電的原理,人工神經(jīng)網(wǎng)絡(luò)設(shè)置了激活函數(shù),使得具備處理強非線性問題的能力,神經(jīng)元結(jié)構(gòu)如圖2所示,其網(wǎng)絡(luò)結(jié)構(gòu)便是由多個神經(jīng)元交叉連接構(gòu)成的。選用合適的激活函數(shù)及網(wǎng)絡(luò)層數(shù)理論,可使其適用于所有模型。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是具有時序特性的神經(jīng)網(wǎng)絡(luò)模型。RNN在隱藏層建立了一個互相連接的權(quán)重矩陣,隱藏層中的信息將在時序過程中持續(xù)傳遞,可以將多個時序下輸入迭代更新的層間權(quán)重記錄下來。因此,RNN在客流預(yù)測中具有天然優(yōu)勢。RNN細(xì)胞結(jié)構(gòu)如圖3所示,x(t-1),x(t),x(t+1)分別表示前一時刻、當(dāng)前時刻、下一時刻的模型輸入,表示模型結(jié)構(gòu)的循環(huán)特性。其中W為層間,U為輸入,V為輸出權(quán)重矩陣。
圖中對于隱藏層的計算方式如式(1):
式(1)中:s(t)表示當(dāng)前輸出;s(t-1)表示前一時刻的輸出。
輸出層的計算方式如式(2):
RNN在實際應(yīng)用中,存在不同的計算形式,圖4為較常見的兩種情況。其中,“多對一”指利用多個時刻的數(shù)據(jù)預(yù)測模型預(yù)測下一時刻的數(shù)據(jù),而“多對多”則是指預(yù)測未來一段時間內(nèi)的整體數(shù)據(jù)。
當(dāng)輸入數(shù)量過大時,RNN模型訓(xùn)練易導(dǎo)致算法的梯度爆炸。添加門控制并減少輸入數(shù)量,可以優(yōu)化處理此類問題。長短時記憶網(wǎng)絡(luò)(LSTM)即具有門控RNN網(wǎng)絡(luò),通過門控保留往期輸入的特征,從而降低模型的輸入長度,LSTM細(xì)胞結(jié)構(gòu)如圖5所示。
LSTM的算法流程與RNN相同,只在隱藏層增加三個門控單元:遺忘門f(t)、輸入門i(t)、輸出門o(t)。門控的計算公式為下式(3)、(4)、(5):
式(3)~(5)中:Uf、Ui、Uo為輸入信息權(quán)重;Wf、Wi、Wo為歷史信息權(quán)重;bf、bi、bo為偏置;δ為激活函數(shù)sigmoid()函數(shù)。
候選記憶如式(6):
細(xì)胞產(chǎn)生的新記憶s(t)、細(xì)胞的輸出h(t)以及網(wǎng)絡(luò)的輸出Z(t),計算方法分別為下式(7)、(8)、(9):
本文介紹了城市軌道交通客流預(yù)測的理論方法,通過對多輸入源的數(shù)據(jù)進(jìn)行融合處理,搭建LSTM模型的系統(tǒng)框架,實現(xiàn)多目標(biāo)的短時客流預(yù)測。使用神經(jīng)網(wǎng)絡(luò)將多源和時序的歷史數(shù)據(jù)結(jié)合建模,調(diào)整神經(jīng)網(wǎng)絡(luò)超參數(shù),對模型進(jìn)行訓(xùn)練并實現(xiàn)預(yù)測功能。首先,對多源輸入數(shù)據(jù)進(jìn)行了特征構(gòu)造,建立進(jìn)站、出站及在站客流的關(guān)聯(lián)度;其次,根據(jù)聚類搭建多組神經(jīng)網(wǎng)絡(luò)模型;最后,建立具有時序特征的神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建、處理多客流的預(yù)測系統(tǒng)。