鄭俊鋒 方旭峰 王晨陽
(1.合肥市軌道交通集團有限公司,230001,合肥; 2.西南交通大學(xué)交通運輸與物流學(xué)院,611756,成都∥第一作者,高級工程師)
體育賽事、演唱會、音樂節(jié)及博覽會等大型活動日益增多,活動散場后觀眾離場時間集中,對于活動場館周邊的城市軌道交通車站,易產(chǎn)生大量瞬時進站大客流,使車站作業(yè)、列車運營面臨極大挑戰(zhàn)。當(dāng)大客流出現(xiàn),原列車運行計劃與變化的客流需求不匹配時,將造成乘客在車站聚集、列車超載、妨礙列車前方車站乘客乘車等影響。提前預(yù)測大型活動引發(fā)大客流的發(fā)生時間與強度,以便城市軌道交通運營企業(yè)及時調(diào)整運輸組織方案,有效處置可預(yù)見性大客流,是亟待解決的問題。
根據(jù)研究表明,當(dāng)車站站臺等候的乘客密度達到甚至超過2人/m2時,乘客的移動速度會受到極大的阻礙[1],并會對乘客的感受造成明顯負面影響[2]。基于上述標(biāo)準(zhǔn),本文對城市軌道交通大客流定義為:在一個發(fā)車間隔內(nèi),在城市軌道交通車站站臺某一方向區(qū)域等待的乘客不小于2人/m2,且進入該站乘客人數(shù)無明顯減少趨勢的情況。
大客流的產(chǎn)生具有多樣性和復(fù)雜性,是外部環(huán)境因素和乘客個體出行選擇綜合影響的結(jié)果。根據(jù)大客流是否可預(yù)測,將大客流分為可預(yù)測大客流和不可預(yù)測的大客流[3]。
可預(yù)測大客流是由可預(yù)測的乘客出行行為引發(fā)的大客流。如計劃舉辦的體育賽事、演唱會等大型活動,活動散場后,乘客在短時內(nèi)大量進入活動場館周邊車站,產(chǎn)生大客流。另因節(jié)假日等乘客出行需求激增,在特定時段,以及在商業(yè)中心、景區(qū)附近車站也可能產(chǎn)生大客流。該類大客流可以通過活動前的乘客出行OD(起訖點)、活動時間、活動規(guī)模、活動地點進行預(yù)測,具有較好的可預(yù)測性,故將該類客流作為本文的研究對象。
不可預(yù)測大客流是由城市軌道交通設(shè)施突發(fā)故障、惡劣天氣等不可預(yù)測原因引發(fā)的大客流。當(dāng)城市軌道交通設(shè)施突發(fā)故障時,城市軌道交通運輸能力下降,造成乘客滯留車站、列車擁擠度上升、車站乘客承載量達到閾值,產(chǎn)生大客流。當(dāng)天氣惡劣時,道路交通的乘客會向城市軌道交通轉(zhuǎn)移,極大地提高了城市軌道交通的客流量。該類客流由于引發(fā)原因的突然性和不可預(yù)知性,客流的OD和時間也很難預(yù)知,因此對于該類大客流,本文不予考慮。
城市軌道交通可預(yù)測大客流具有強度大、持續(xù)時間可預(yù)測、影響范圍大的特點,城市軌道交通運營企業(yè)若能準(zhǔn)確識別該特征,就能提前調(diào)整列車運行計劃,以應(yīng)對該類大客流。
本文從客流結(jié)構(gòu),以及空間和時間三個角度分析大客流發(fā)生前后車站進出站客流量變化規(guī)律。以合肥市某周六(為當(dāng)月21日)舉辦的一次大型演唱會為例,以演唱會舉辦地為中心的1 km范圍內(nèi),有1座城市軌道交通非換乘車站P站。該活動舉行時間為20:00—22:00,活動規(guī)模為12 000人。
在大型活動舉辦前后,根據(jù)乘客出行目的的可將城市軌道客流劃分為大型活動客流、通勤客流、其他出行客流。其中,通勤客流具有較為顯著的周期性,其他客流的隨機性較強,而大型活動客流根據(jù)活動安排,是可預(yù)見的。
大型活動開始前,大量乘客在特定時段從特定車站出站,短時內(nèi)出站客流量的大幅提高是大型活動客流的顯著表征之一。由于乘客是隨著列車到站而分批次出站的,因此一般情況下,乘客出站過程不會產(chǎn)生乘客滯留。大型活動結(jié)束后,通過公共交通聚集的乘客一般會選擇原交通工具返回,因此舉辦地周邊車站進站客流量短時內(nèi)會大幅提高,該車站活動前出站客流量的提高部分與活動后進站客流量的提高部分是正相關(guān)的,該部分客流與活動舉辦地點、舉辦時間、活動規(guī)模具有高度的相關(guān)性。
P站及其所在線路客流量較大的25座車站大型活動前后1 h客流變化情況如圖1所示。
由圖1可知,P站在活動前1 h內(nèi)的出站客流量和活動后1 h內(nèi)的進站客流量均遠大于其余各站,該特征可用于大型活動周邊車站大客流的識別與預(yù)測。
為進一步驗證大型活動引發(fā)大客流的特征,選取大型活動的當(dāng)天(21日),以及該日的前一周(14日)和前兩周(7日)的客流進行對比,時間粒度為15 min。
2.3.1 出站客流
圖2為P站及與其相鄰的O站和Q站的出站客流量變化情況。
a) P站
由圖2可知,僅P站活動當(dāng)天(21日)19:00—20:00出站客流量激增,其余時段各站的出站客流量特征基本一致。由此可知:O站與Q站的客流量具有相似的變化規(guī)律;如果忽略P站19:00后的大客流,3座車站客流量的整體變化規(guī)律較為一致,由于這3座車站所在的區(qū)域均為金融中心,發(fā)揮的功能相同。
2.3.2 進站客流
圖3為P站及與其相鄰的O站和Q站的進站客流量變化情況。
a) P站
由圖3可知,僅P站活動當(dāng)天(21日)22:00—23:00進站客流量激增,其余時段各站的進站客流量特征基本一致。
根據(jù)上述分析,歸納大型活動引發(fā)的大客流規(guī)律為:
1) 大型活動開始前,大客流發(fā)生車站的出站客流有別于通勤客流,具有極大的強度,且車站靠近活動舉辦地點。
2) 大型活動結(jié)束后,大客流產(chǎn)生在靠近活動舉辦地點的車站,進站客流強度與該站活動開始一段時間的出站客流強度關(guān)聯(lián)性強。
3) 大型活動引發(fā)的大客流通常集中于舉辦地附近個別車站,對其余車站的影響較小。
4) 大客流產(chǎn)生后將持續(xù)一段時間,該時間長度與車站運能、大客流強度、線路運能有關(guān),一般可持續(xù)1~2 h。
目前的客流預(yù)測方法主要有:通過構(gòu)建基于時間序列[4-10]的ARIMA、ARIMAX等數(shù)理統(tǒng)計模型,使用支持向量機(SVM)[11-12]、長短期神經(jīng)記憶網(wǎng)絡(luò)(LSTM)[13-15]及其他機器學(xué)習(xí)方法[16-18]的機器學(xué)習(xí)模型。
數(shù)理統(tǒng)計模型對于趨勢性強的客流數(shù)據(jù)預(yù)測精度較高,但存在需要連續(xù)穩(wěn)定客流時序數(shù)據(jù)、僅能捕捉客流數(shù)據(jù)線性規(guī)律、對客流非線性特征及隨機性把握不足等局限性。傳統(tǒng)的機器學(xué)習(xí)模型對于單一環(huán)境下的客流預(yù)測精度較高,例如LSTM模型,其對未來客流的預(yù)測完全基于客流的歷史信息,對規(guī)律變化客流的預(yù)測性較好,但在實際應(yīng)用過程中,因大型活動的規(guī)模、時間、地點,以及當(dāng)天的天氣情況不盡相同,這些因素對客流的系統(tǒng)性影響也不盡相同,其更高精度的客流特點難以被傳統(tǒng)機器學(xué)習(xí)模型捕捉。
為進一步提高多種因素系統(tǒng)影響下客流預(yù)測精度,本文在上述兩類預(yù)測模型的基礎(chǔ)上,擬使用基于STL(Seasonal and Trend decomposition using Loess)的時間序列分解方法的LightGBM方法(即STL-LightGBM)進行大客流預(yù)測。
時間序列是按時間順序索引的一系列數(shù)據(jù)點,一個時間序列通常可以被拆分為趨勢量(T)、季節(jié)量(S)、周期量(C)和隨機量(I)。
在進行時間序列分析時,采用時間序列分解方法能夠降低噪聲干擾,可提高預(yù)測的精確度。時間序列分解方法一般可分為加法模型(見式(1))和乘法模型(見式(2))。
Yt=Tt+St+Ct+It
(1)
Yt=TtStCtIt
(2)
式中:
Yt——原時間序列在t時刻的值;
Tt、St、Ct、It——分別為時間序列在t時刻的趨勢量、季節(jié)量、周期量和隨機量。
本文使用基于STL的時間序列分解方法,通過魯棒局部加權(quán)回歸平滑化時間序列后將其分解得到趨勢量、季節(jié)量和隨機量。STL分為外循環(huán)與內(nèi)循環(huán),外循環(huán)計算魯棒性權(quán)重,內(nèi)循環(huán)計算時間序列的分解量,其流程如圖4所示。
注:k—循環(huán)的次數(shù);N—時間序列樣本數(shù);np—時間序列的周期(一個周期有幾個樣本);ns、nl、nt—在不同步驟中截取的進行加權(quán)滑動平均的數(shù)據(jù)長度;Lt—t時刻,去除周期性差異后的時間序列;Rt—t時刻,刪除趨勢量與季節(jié)量后的時間序列;LOESS—局部加權(quán)回歸。
如果樣本的趨勢較強,則當(dāng)刪除數(shù)據(jù)中的季節(jié)分量后,變動幅度應(yīng)比殘差項大,可以用Rt的方差與Tt+Rt的方差表示。若時間序列的趨勢較弱,則兩個方差大致相等。據(jù)此,趨勢強度定義如式(3)所示,其給定了趨勢強度的衡量標(biāo)準(zhǔn),其值在0~1之間。
FT=max[0,1-Var(Rt)/Var(Tt+Rt)]
(3)
式中:
FT——時間序列的趨勢強度。
與此相似,季節(jié)性的強度定義如式(4):
FS=max[0,1-Var(Rt)/Var(St+Rt)]
(4)
式中:
FS——時間序列的季節(jié)性強度。
在時間序列中季節(jié)性一般呈現(xiàn)周期性變化的規(guī)律,因此季節(jié)性周期中的波峰大體上也是固定的,故只需要找到季節(jié)性周期中的最大值就可以確定波峰期。
以活動當(dāng)日P站進站客流為例,將研究時間段平滑參數(shù)設(shè)定為4,將原客流基于SLT的時間序列分解方法分解后的結(jié)果如圖5所示。
a) 原時間序列趨勢量
圖5分別為原始時間序列趨勢量,以及分解后的趨勢量、季節(jié)量和隨機量,由此可得趨勢量有兩個峰值,與上文的P站大客流特征分析一致。當(dāng)研究時段設(shè)定為1 h時,季節(jié)量具有明顯的周期性;觀察隨機量發(fā)現(xiàn),在前60個時間段,4個隨機量為一組呈現(xiàn)周期性變化規(guī)律,在大型活動結(jié)束后隨機量的波動較大。
在模型訓(xùn)練前需要對一些特殊特征進行編碼。以大型活動產(chǎn)生的大客流為例,其特征值包括但不限于預(yù)測時間編碼、活動時段特征編碼、活動前t內(nèi)出站客流編碼、天氣編碼和氣溫編碼。
3.2.1 預(yù)測時間編碼
以15 min為時間粒度對一日內(nèi)的城市軌道交通運營時間進行編碼時,按照時間順序進行整數(shù)編碼,結(jié)果如表1所示。
表1 預(yù)測時間編碼
3.2.2 活動時段特征編碼
對于大型活動時間的編碼,以其持續(xù)時間段的時間編碼差值表示,活動持續(xù)中對應(yīng)編碼為0。如活動持續(xù)時間為19:00—21:45,其對應(yīng)的時間編碼為53—63,則對應(yīng)活動編碼如表2所示。
表2 大型活動時間編碼
3.2.3 活動前t內(nèi)出站客流編碼
由上文分析可知,大型活動前q時間內(nèi)出站人數(shù)與大型活動結(jié)束后進站客流量有直接關(guān)系,因此也需作為一個特征參與進站客流量的預(yù)測。將編號為i-d-q時間段的該站出站客流量作為特征,計算公式為:
pi=pout,i-d-q
(5)
式中:
Pi——編號為i的時間段對應(yīng)的客流特征數(shù)值;
Pout,i-d-q——編號為i-d-q時間段對應(yīng)的出站客流量;
d——活動持續(xù)的時間段數(shù)量。
3.2.4 天氣編碼
天氣對乘客出行行為具有一定的影響。惡劣天氣下,乘客出行減少,公共交通客流壓力較小。根據(jù)天氣對乘客出行影響程度的編碼方案如表3所示。按照天氣對乘客出行的正面影響和負面影響,分別賦值正數(shù)和負數(shù),影響程度越大則絕對值越大。
表3 天氣編碼
3.2.5 氣溫編碼
人體舒適溫度為25 ℃,以此標(biāo)準(zhǔn),對氣溫進行編碼,氣溫偏離25 ℃越多,值越低,如式(6)所示。
Uc,i=-|VT,i-25 ℃|
(6)
式中:
Uc,i——編號為i的時間段對應(yīng)的氣溫特征值;
VT,i——編號為i的時間段對應(yīng)的實際氣溫。
LightGBM模型的表達式見文獻[19]。
第z次迭代時模型目標(biāo)為最小化損失函數(shù):
(7)
式中:
yu——第u個樣本值,u=1,2,…,N;
Ω(fj)、Ω(f2)——正則項;
fz(xu)——第z個弱學(xué)習(xí)器;
xu——第u個樣本的特征值。
(8)
Ω(fj)用以表示模型的復(fù)雜度,將其加入目標(biāo)函數(shù)可以避免某一特征對應(yīng)的參數(shù)(權(quán)重)過大的問題,LightGBM使用L2正則化,即參數(shù)的平方和,如式(9)所示:
(9)
式中:
γ,λ——超參數(shù);
W——葉子節(jié)點數(shù);
wj——節(jié)點j的參數(shù)。
式(7)用二階泰勒公式展開可簡化為式(10):
(10)
式中:
gu——損失函數(shù)的一階導(dǎo)數(shù);
hu——損失函數(shù)的二階導(dǎo)數(shù);
c——常數(shù)。
將式(8)和式(9)代入式(10)可進一步簡化為下式:
(11)
wj,o=-Gj/(Hj+λ)
(12)
預(yù)測誤差是檢驗預(yù)測模型效果的最重要評價指標(biāo),本文選取平均絕對誤差(EMAE)、均方誤差(EMSE)作為預(yù)測模型的評價標(biāo)準(zhǔn),這兩個指標(biāo)能夠反映真實客流量和預(yù)測客流量之間的偏差情況,兩者值越大則說明誤差越大,值越小則誤差越小。計算公式為:
(13)
(14)
以合肥市某周六(為當(dāng)月21日)舉辦的一次大型演唱會為實例。將大型活動的時間、規(guī)模、開始時間、結(jié)束時間,開始前1.0 h和0.5 h內(nèi)出站客流量、鄰站15 min內(nèi)客流量,天氣、平均氣溫,以及本站客流趨勢量、季節(jié)量、隨機量作為特征進行模型訓(xùn)練。為了防止過擬合,超參數(shù)設(shè)置如下:最大深度為11,葉子節(jié)點數(shù)量為1 024(≤211)個,最小樣本量為12個。使用時間段為大型活動當(dāng)月1日至20日的城市軌道交通客流數(shù)據(jù)作為訓(xùn)練集,預(yù)測時間間隔為15 min。在運營時段內(nèi)一天有72條數(shù)據(jù),共2 160個樣本數(shù)據(jù)。
在相同超參數(shù)設(shè)定下,STL-LightGBM與LightGBM對同一數(shù)據(jù)集(大客流出現(xiàn)時間編碼為64—67)的預(yù)測結(jié)果如圖6所示。由圖6可見,雖然模擬結(jié)果均較為符合實際值,但使用STL-LightGBM方法的預(yù)測數(shù)據(jù)更為貼近實際值。
a) STL-LightGBM預(yù)測
進一步進行性能評價,將目前短期客流預(yù)測常用的LSTM與LightGBM方法和本文提出的STL-LightGBM方法對同一測試集客流數(shù)據(jù)的預(yù)測結(jié)果進行對比,結(jié)果如表4所示。由表4可見,在相同情況下,本文提出的大客流預(yù)測方法的EMAE和EMSE在三者中均為最低,表明STL-LightGBM預(yù)測精度更高,有助于充分掌握大客流的特征與規(guī)律。
表4 不同預(yù)測方法的客流預(yù)測結(jié)果對比
本文在總結(jié)分析大客流特征的基礎(chǔ)上,提出了STL-LightGBM城市軌道交通站點大客流預(yù)測方法。通過對客流時間序列的分解,獲得其趨勢量、季節(jié)量和隨機量,并作為大客流的特征輸入機器學(xué)習(xí)模型。該大客流預(yù)測方法的預(yù)測誤差較小,預(yù)測效果較好。