魯文博 馬超群 李國棟 曹 蕊 徐金華
(長安大學交通運輸工程學院,710064,西安∥第一作者,碩士研究生)
城市軌道交通客流兼具長期的線性增長趨勢、周期性季節(jié)變化及隨機波動,呈現(xiàn)復雜的非線性特點。傳統(tǒng)的預測方法,如線性回歸模型、ARIMA模型等,通過調(diào)整預測數(shù)據(jù)以達到對非線性客流量的預測[1-2]。在季節(jié)指數(shù)應用方面,目前主要是對其值的估計[3-5]和預測模型的改進[6-8],缺少對月份分組和季度分組的比較以及更準確的季節(jié)分組的研究。
本文基于月客流殘差,以弗雷歇距離作為曲線相似性度量,達到對季節(jié)分組的精確性把握。該季節(jié)分組即體現(xiàn)了同一分組內(nèi)月份的相同特征,又突出了不同分組之間的特殊區(qū)別,為確定最優(yōu)的季節(jié)分組提供了新的思路。考慮到季節(jié)指數(shù)法能夠有效地消除季節(jié)性因素影響,而人工神經(jīng)網(wǎng)絡(luò)對非線性時間序列具有良好的適應性,結(jié)合兩種模型的優(yōu)勢,對地鐵月客流量進行預測,以驗證分類結(jié)果的準確性。
基于月客流殘差的季節(jié)分組流程如圖1所示。
圖1 季節(jié)分組流程
假設(shè)歷史數(shù)據(jù)的時間序列為{Yt},t=1,2,3,…,n。
步驟1:建立時間序列線性回歸趨勢方程:
Yt′=α1-α2t
(1)
式中:
Yt′——因變量;
a1,a2——回歸系數(shù);
t——時間。
步驟2:根據(jù)趨勢方程計算每月客流量的趨勢值,從而計算客流量殘差δt,計算公式為:
δt=Yt-Yt′
(2)
式中:
Yt——實際客流量,萬人次。
步驟3:基于弗雷歇距離算法計算任意兩個月客流殘差曲線的弗雷歇距離及曲線相似度。
步驟4:根據(jù)相似度對月份進行區(qū)間分類。
距離空間的概念是法國數(shù)學家弗雷歇于1906年提出的,又稱為弗雷歇距離。它將現(xiàn)實空間的距離概念推廣到一般的集合上,為抽象空間之間的距離度量提供了理論基礎(chǔ)。其著重將路徑空間距離考慮進去,相比之下,其對有一定空間時序的曲線相似度評價效率更高。
設(shè)A和B是空間S上的兩條連續(xù)曲線,即A:[0,1]→S,B:[0,1]→S;又設(shè)α和β是單位區(qū)間的兩個重新參數(shù)化函數(shù),即α:[0,1]→[0,1],β:[0,1]→[0,1];則曲線A與B的弗雷歇距離F(A,B)定義為:
式中:
d——S上的度量函數(shù)。
弗雷歇距離越小,說明兩條曲線之間的相似程度越高;弗雷歇距離越大,說明兩條曲線之間的相似程度越低。因此對曲線A和B來說,相似度IA,B的定義如下:
(3)
季節(jié)指數(shù)是基于統(tǒng)計學的一種簡化時間序列數(shù)據(jù)的方法,該方法對季節(jié)時間序列的季節(jié)性進行處理,同時使原始數(shù)據(jù)中的一些重要信息不會被丟失,一般采用直接平均季節(jié)指數(shù)法對原始客流數(shù)據(jù)進行預測前的調(diào)整。直接平均季節(jié)指數(shù)法用算數(shù)平均值直接計算各月或各季度的季節(jié)指數(shù),將其擴展到季節(jié)區(qū)間的季節(jié)指數(shù),其計算公式為:
(4)
式中:
Sj——第j分組的季節(jié)指數(shù);
xijp——第i年第j分組中第p月的全線客流量,萬人次。
利用季節(jié)指數(shù)對客流原始數(shù)據(jù)進行修正,修正值為x′ijp,以降低季節(jié)對預測客流的影響,即:
x′ijp=xijp/Sj
(5)
對原始客流數(shù)據(jù)處理之后,通過預測得到未來時期某月份的客流量y′ijp,經(jīng)逆向調(diào)整后的該月預測客流為:
yijp=y′ijpSj
(6)
式中:
yijp——第i年第j分組中第p月的客流量,萬人次。
BP(誤差反向傳播)算法的多層感知器是至今為止應用最廣泛的神經(jīng)網(wǎng)絡(luò)。在多層感知器的應用中,以單隱層網(wǎng)絡(luò)的應用最為普遍。一般習慣將單隱層感知器稱為三層感知器,所謂三層包括了輸入層、隱含層和輸出層。
訓練的過程就是不斷調(diào)整權(quán)值的過程,當誤差小于設(shè)置值時停止訓練。整個網(wǎng)絡(luò)的信息都儲存在權(quán)值矩陣中。當輸入一個預測值時,網(wǎng)絡(luò)根據(jù)權(quán)值矩陣進行計算,以達到記憶的目的。
Elman神經(jīng)網(wǎng)絡(luò)是在BP神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的基礎(chǔ)上,在隱含層增加一個承接層,作為一步延時算子,達到記憶的目的,從而使系統(tǒng)具有適應時變特性的能力,增強了網(wǎng)絡(luò)的全局穩(wěn)定性。
根據(jù)季節(jié)指數(shù)對原始客流數(shù)據(jù)進行調(diào)整,分別應用三種不同的季節(jié)指數(shù)調(diào)整后的數(shù)據(jù)進行預測,最后分別對預測后的數(shù)據(jù)進行逆向調(diào)整,以得到更精確的結(jié)果。
主要分為以下步驟:①對異常值進行修正;②根據(jù)時間序列數(shù)據(jù)建立趨勢方程,并計算月客流趨勢值、殘差;③計算任意兩月客流殘差曲線的弗雷歇距離和相似度;④根據(jù)月客流殘差曲線間的相似度進行季節(jié)區(qū)間分類;⑤根據(jù)式(4)計算不同分類方法中每個季節(jié)區(qū)間的季節(jié)指數(shù),并對原始客流數(shù)據(jù)按式(5)進行調(diào)整,獲得調(diào)整后的客流量;⑥由于Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特殊性,需要以原始客流數(shù)據(jù)對隱含層神經(jīng)元數(shù)目進行尋優(yōu),采用優(yōu)化后的網(wǎng)絡(luò)預測得到的客流量按式(6)進行逆向調(diào)整,從而獲得最終的預測客流量。
選取西安地鐵2號線全線2014年1月—2018年8月共56個月的客流量為基礎(chǔ)數(shù)據(jù),以此數(shù)據(jù)為原始客流數(shù)據(jù),預測2018年9月—2019年2月的客流量。
由于西安地鐵3號線在選取時間區(qū)間中開通,因此直接對2016年11月的客流造成影響。采用平均值法計算修正值,并在后續(xù)過程中采用修正值進行計算。
應用2014年1月—2017年12月共48個月的全線客流量建立趨勢方程并計算月客流殘差,結(jié)果如表1所示。
表1 不同年份的月客流殘差計算結(jié)果
根據(jù)表1中的數(shù)據(jù)繪制的不同年份的月客流殘差曲線如圖2所示。利用弗雷歇距離算法計算任意兩條月客流殘差曲線之間的相似度,結(jié)果如表2所示。
圖2 西安地鐵2號線2014年1月—2017年12月的月客流殘差曲線
對圖2的月客流殘差曲線進行定性分析,大致可以看到3~5月的客流殘差曲線比較相似,6~11月的客流殘差曲線比較相似,12月、1月、2月的客流殘差曲線各不相同。根據(jù)表2結(jié)果,繪制3~5月和6~11月的客流殘差相似度曲線,分別如圖3和圖4所示。
表2 利用弗雷歇距離算法計算的任意兩個月客流殘差曲線之間的相似度
由圖3可見,3~5月的月客流殘差曲線相似度比較高,故認為3~5月為同一季節(jié)區(qū)間。
圖3 西安地鐵2號線2014年1月—2017年12月中3~5月的客流殘差曲線相似度
由圖4中可見,6~11月客流殘差相似度曲線的特征比較相似,故認為6~11月為同一季節(jié)區(qū)間。
圖4 西安地鐵2號線2014年1月—2017年12月中6~11月的客流殘差曲線相似度
圖5為12月、1月和2月的客流殘差相似度曲線。由圖5可見,12月、1月和2月的客流殘差曲線相似度較小,且與其它月份的并不相同,因此認為12月、1月和2月各為一個季節(jié)區(qū)間。根據(jù)上述分析,將地鐵客流季節(jié)分為5個區(qū)間,即:3~5月為第一季度,6~11月為第二季度,12月、1月和2月各自為一個季度。
圖5 西安地鐵2號線2014年1月—2017年12月中12月、1月和2月的客流殘差曲線相似度
以2014年3月—2018年2月的客流量為基礎(chǔ)數(shù)據(jù),分別采用SIR(季節(jié)分組區(qū)間)分類方法、TMC(傳統(tǒng)月份分組區(qū)間)分類方法、TQC(傳統(tǒng)季度分組區(qū)間)分類方法,按照直接平均法(式(4))進行計算,結(jié)果如表3~5所示。
表3 基于SIR分類法計算的季節(jié)指數(shù)
1) 以原始客流數(shù)據(jù)為基礎(chǔ),優(yōu)化Elman神經(jīng)網(wǎng)絡(luò)的隱含層節(jié)點數(shù)。
(1) 選取2014年3月—2018年2月基于SIR、TQC、TMC分類方法并計算調(diào)整后的數(shù)據(jù)作為訓練集。
(2) 選取2018年3月—8月基于SIR、TQC、TMC分類方法調(diào)整后的調(diào)整數(shù)據(jù)作為測試集。
表4 基于TMC分類法計算的季節(jié)指數(shù)
表5 基于TQC分類法計算的季節(jié)指數(shù)
(3) 先設(shè)置較少的隱含節(jié)點訓練網(wǎng)絡(luò),然后逐漸增加隱含節(jié)點數(shù),用同一樣本集進行訓練,從中確定網(wǎng)絡(luò)誤差最小時對應的隱含層節(jié)點數(shù)。
經(jīng)過檢驗,最佳隱含層節(jié)點數(shù)取值公式為:
(7)
式中:
n——輸入層節(jié)點數(shù)(本文為6);
l——輸出層節(jié)點數(shù)(本文為1);
ω——1~10之間的常數(shù);
m——隱含層節(jié)點數(shù),取尋優(yōu)范圍為[1,16]。
(4) 確定適應度函數(shù),以2018年3月—8月預測客流量絕對誤差作為適應度函數(shù),即:
(8)
式中:
xj,yj′,yj″,yj?——為2018年第j月的實際客流量應用SIR、TQC、TMC分類法預測后的調(diào)整客流量。
由于尋優(yōu)范圍較小,采用遍歷法對節(jié)點數(shù)進行尋優(yōu),尋優(yōu)結(jié)果如圖6所示。由圖6可見,最優(yōu)隱含層節(jié)點數(shù)為3,即建立6-3-1的三層神經(jīng)網(wǎng)絡(luò)。
圖6 適應度函數(shù)曲線
2) 以2014年3月—2018年8月客流量為訓練集,應用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)預測2018年9月—2019年2月的客流量,經(jīng)過逆向調(diào)整(式(6)),最終得到預測值,如表6所示。
表6 西安地鐵2號線2018年9月—2019年2月的客流量預測結(jié)果 單位:萬人次
為了消除隨機性,分別訓練100次并對預測客流取平均值,預測結(jié)果如表6所示。根據(jù)實際值計算相對誤差(RE)、平均絕對百分比誤差(MAPE)、和均方根誤差(RMSE)來對預測結(jié)果進行分析,結(jié)果如表7所示。
表7 西安地鐵2號線2018年9月—2019年2月的客流量預測誤差對比分析
進一步地,可由表7得到如圖7所示的各分類方法預測誤差對比圖。
圖7 西安地鐵2號線2018年9月—2019年2月不同分類方法的客流量預測誤差對比圖
通過比較各分類方法的預測指標,SIR分類預測所得到的相對誤差、平均絕對百分比誤差、均方根誤差小于傳統(tǒng)的季節(jié)分類方法的,相對誤差控制在10%以內(nèi)(由于對2016年11月客流量的修正誤差,其對應月份預測誤差較大),個別月份達到1%以內(nèi),預測精度相對較高。
自然季節(jié)性和制度節(jié)性是影響季節(jié)性波動最主要的因素。TMC和TQC分類方法的季節(jié)分組只體現(xiàn)了自然季節(jié)性,而本文所采用的方法根據(jù)兩者疊加的結(jié)果進行分組,更為準確。
綜上所述,基于月客流殘差的季節(jié)指數(shù)預測方法具有較高的預測精度和較好的穩(wěn)定性。
本文通過對月客流殘差分析,提出了基于月客流殘差的季節(jié)分類方法,以季節(jié)指數(shù)調(diào)整客流達到提高預測精度的目的。通過對三種分類方法進行對比分析,本文提出的分類方法在月度客流預測中精度較高,基本滿足對客流量的預測需求。
通過該分類方法計算出的季節(jié)指數(shù)用于預測時,能更好地適應城市軌道交通客流的季節(jié)性變化趨勢,從而使運營公司及時調(diào)整相關(guān)運能運力,制定更加經(jīng)濟合理的月度或年度運營計劃。
考慮到影響城市軌道交通客流季節(jié)性因素的多樣性,后續(xù)需要對網(wǎng)絡(luò)、不同線路和站點的季節(jié)區(qū)間進行對比分析。