盧天偉, 姚恩建,2, 劉莎莎, 周文華
(1.北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044;2.北京交通大學(xué) 綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京 100044)
城市軌道交通具有準(zhǔn)時(shí)、速達(dá)、大運(yùn)量等特性,目前已成為緩解城市交通擁堵的重要方式之一。隨著城市軌道交通網(wǎng)絡(luò)規(guī)模的持續(xù)擴(kuò)大,新線不斷建設(shè)并投入運(yùn)營(yíng),客流變化特征愈加復(fù)雜。在此過程中,準(zhǔn)確把握新線開通后的進(jìn)出站客流態(tài)勢(shì)和演變規(guī)律,是確保相關(guān)部門制定有效運(yùn)營(yíng)管理措施、保障新線正常運(yùn)營(yíng)的關(guān)鍵。然而,在軌道交通成網(wǎng)運(yùn)營(yíng)背景下,新線開通后存在一定時(shí)間的客流成長(zhǎng)期,在此期間由于乘客對(duì)新線的使用習(xí)慣尚未固定,新線站點(diǎn)的客流吸引范圍和吸引對(duì)象尚未穩(wěn)定,客流處于成長(zhǎng)階段,其變化趨勢(shì)具有較為明顯的增長(zhǎng)性和波動(dòng)性,導(dǎo)致原有針對(duì)既有線網(wǎng)的預(yù)測(cè)模式并不適用,預(yù)測(cè)結(jié)果與實(shí)際情況相差甚遠(yuǎn)。因此,新線客流預(yù)測(cè)是當(dāng)前城軌運(yùn)營(yíng)管理中亟待研究的問題之一。
目前已有許多城軌新線客流預(yù)測(cè)相關(guān)研究。在全天日客流預(yù)測(cè)方面,趙路敏等[1]結(jié)合線網(wǎng)客流變化的關(guān)鍵因素,提出了利用新線可研和現(xiàn)有站間客流數(shù)據(jù)來預(yù)測(cè)新線客流的方法。光志瑞[2]基于站點(diǎn)的土地利用和可達(dá)性分析,建立了新線開通初期新站和既有站進(jìn)出站量預(yù)測(cè)模型。程濤等[3]基于既有客流的變化規(guī)律,根據(jù)標(biāo)定車站客流與土地利用、到離站交通距離與地鐵車站選擇、合理軌道乘距等數(shù)學(xué)模型,提出了新線開通初期客運(yùn)量、斷面客流量的預(yù)測(cè)方法。蔡昌俊等[4]基于刷卡數(shù)據(jù)統(tǒng)計(jì)獲得的集計(jì)客流數(shù)據(jù),依據(jù)行為分析理論,建立了新線開通初期城軌站間客流量分布預(yù)測(cè)模型。姚恩建等[5]使用站點(diǎn)可達(dá)性指標(biāo)定量分析了新線進(jìn)出站客流的誘增效果,對(duì)新線的潛在客流進(jìn)行了評(píng)估。以上研究對(duì)象均為日客流,不能夠?qū)θ諆?nèi)的短時(shí)客流變化進(jìn)行預(yù)測(cè)。在短時(shí)客流預(yù)測(cè)方面,國(guó)內(nèi)外已有大量針對(duì)既有線網(wǎng)客流的預(yù)測(cè)方法,包括時(shí)間序列[6-8]、卡爾曼濾波[9-10]、支持向量機(jī)[11-12]、神經(jīng)網(wǎng)絡(luò)[13]等方法,但其預(yù)測(cè)原理均基于歷史數(shù)據(jù),無法應(yīng)用于新線短時(shí)客流預(yù)測(cè)。在新線短時(shí)客流預(yù)測(cè)方面,姚恩建等[14]針對(duì)新站缺乏歷史數(shù)據(jù)的問題,提出了基于同類既有站匹配的新站歷史數(shù)據(jù)庫(kù)構(gòu)建方法,并實(shí)現(xiàn)了對(duì)新站實(shí)時(shí)進(jìn)出站量的預(yù)測(cè),但其中并未充分考慮客流變化趨勢(shì)和預(yù)測(cè)效率,難以保證預(yù)測(cè)的有效性和實(shí)時(shí)性。
綜上,現(xiàn)有新線客流預(yù)測(cè)相關(guān)研究主要為全天日客流預(yù)測(cè),或新線開通影響下既有站點(diǎn)的客流預(yù)測(cè),較少有研究針對(duì)新線開通后自身的短時(shí)客流進(jìn)行深入分析,缺少新線客流成長(zhǎng)期小粒度、高精度、高效率的進(jìn)出站量預(yù)測(cè)方法。然而,新線站點(diǎn)在客流成長(zhǎng)期內(nèi)的進(jìn)出站量變化不穩(wěn)定,且缺少歷史客流數(shù)據(jù),既有的短時(shí)客流預(yù)測(cè)方法無法滿足其預(yù)測(cè)精度和實(shí)時(shí)計(jì)算效率要求,直接影響新線開通后的實(shí)時(shí)監(jiān)測(cè)與客流評(píng)估,導(dǎo)致城軌運(yùn)營(yíng)組織不合理的后果?;诖?,本文針對(duì)新線客流預(yù)測(cè)缺乏歷史數(shù)據(jù)方面的問題,通過對(duì)新線站點(diǎn)進(jìn)出站客流變化規(guī)律的分析,提出基于改進(jìn)模糊C均值聚類(Fuzzy C-Means,F(xiàn)CM)算法的站點(diǎn)類型劃分方法,通過匹配同類既有站點(diǎn)歷史數(shù)據(jù)來對(duì)新線站點(diǎn)的歷史數(shù)據(jù)庫(kù)進(jìn)行構(gòu)建;針對(duì)預(yù)測(cè)算法實(shí)時(shí)性和預(yù)測(cè)精度方面的問題,基于趨勢(shì)距離和多元統(tǒng)計(jì)回歸對(duì)K近鄰(K-Nearest Neighbor,KNN)算法進(jìn)行改進(jìn),提出新線客流成長(zhǎng)期進(jìn)出站量短時(shí)預(yù)測(cè)方法,以期提高新線進(jìn)出站量短時(shí)預(yù)測(cè)的計(jì)算效率和預(yù)測(cè)精度,為新線精細(xì)化運(yùn)營(yíng)管理的強(qiáng)化和改善提供決策支持。
新線站點(diǎn)客流成長(zhǎng)期與穩(wěn)定期的客流變化規(guī)律存在較大差異,為探究新線站點(diǎn)的客流成長(zhǎng)特征,挑選廣州地鐵2015年12月28日開通的燕崗、鶴洞、沙涌站以及2015年1月28日初開通的一德路站為例,對(duì)新線開通年和次年的進(jìn)出站客流變化趨勢(shì)進(jìn)行對(duì)比,各站進(jìn)出站開通年、次年的客流日變化系數(shù)(其值為日客流量與年平均日客流量的比值)及擬合得到的趨勢(shì)線見圖1。由圖1可以看出,與次年相比,開通年的客流增長(zhǎng)率相對(duì)較高、波動(dòng)性相對(duì)較強(qiáng),該特性也同樣存在于其他客流成長(zhǎng)期的新線站點(diǎn),因此新站客流成長(zhǎng)期與穩(wěn)定期客流特征差異性較為明顯。
對(duì)于土地利用性質(zhì)相似的站點(diǎn),其客流變化趨勢(shì)也具有相似性[15]。以廣州地鐵進(jìn)出站客流為例,挑選2017年3月15日(周三)新線站點(diǎn)員崗、東平、世紀(jì)蓮、高塘石的進(jìn)出站量數(shù)據(jù),與土地利用性質(zhì)分別匹配的2017年3月8日(周三)既有站點(diǎn)大學(xué)城南、漢溪長(zhǎng)隆、季華園、長(zhǎng)湴的進(jìn)出站量數(shù)據(jù)進(jìn)行比較,二者的進(jìn)出站量分時(shí)系數(shù)(各時(shí)段實(shí)際客流量與是日平均客流量比值)變化趨勢(shì)對(duì)比見圖2,可以看出各新站與其匹配的既有站客流變化趨勢(shì)之間具有較強(qiáng)的相似性。該相似性在圖中以外的其他各新站站點(diǎn)與既有站之間也同樣存在,因此,針對(duì)新線站點(diǎn)客流預(yù)測(cè)中缺少歷史數(shù)據(jù)的問題,可通過基于趨勢(shì)相似性的站點(diǎn)類型劃分、匹配同類既有站點(diǎn)數(shù)據(jù)解決。
城軌新線站點(diǎn)客流成長(zhǎng)期缺乏歷史客流數(shù)據(jù)作為未來短時(shí)進(jìn)出站量預(yù)測(cè)的參考依據(jù),使得相關(guān)預(yù)測(cè)方法難以直接應(yīng)用?;谇拔膶?duì)新線站點(diǎn)與既有站點(diǎn)間客流變化趨勢(shì)的相似性分析,通過站點(diǎn)類別的劃分來分析新線站點(diǎn)與既有站點(diǎn)客流之間的關(guān)系,并基于同類既有站點(diǎn)進(jìn)出站量歷史數(shù)據(jù)來構(gòu)建新線站點(diǎn)客流預(yù)測(cè)過程中所需的歷史數(shù)據(jù)庫(kù)。
基于改進(jìn)FCM算法對(duì)站點(diǎn)類型進(jìn)行劃分,站點(diǎn)短時(shí)進(jìn)出站客流趨勢(shì)變化特征主要由早高峰、晚高峰、平峰3個(gè)時(shí)段的進(jìn)出站量大小決定,因此在聚類指標(biāo)方面,使用3個(gè)時(shí)段的進(jìn)出站量小時(shí)系數(shù)(其值為小時(shí)內(nèi)客流量與日平均小時(shí)客流量的比值)作為趨勢(shì)變化指標(biāo)。在聚類算法方面,已有相關(guān)研究使用傳統(tǒng)FCM算法作為站點(diǎn)分類方法[14]。傳統(tǒng)FCM算法能夠基于聚類指標(biāo)的相似度對(duì)站點(diǎn)類型進(jìn)行合理的劃分,但其對(duì)初始聚類中心敏感,迭代計(jì)算目標(biāo)函數(shù)值時(shí)容易陷入局部最優(yōu)解[16],而由于城軌站點(diǎn)分類數(shù)、各類別客流特征的不確定性,難以在算法初始確定出較為合理的聚類中心,使用傳統(tǒng)FCM算法無法保證最終結(jié)果的最優(yōu)性。因此本文使用一種將啟發(fā)式思想融入傳統(tǒng)FCM的改進(jìn)算法,該改進(jìn)算法在傳統(tǒng)FCM算法的尋優(yōu)過程中,每次迭代時(shí)使用遺傳算法和模擬退火算法中的啟發(fā)式思想隨機(jī)更新解集[17],該算法的相關(guān)應(yīng)用研究表明該算法能夠使迭代過程跳出局部最優(yōu)并且加快速度向全局最優(yōu)解靠近[18-19]。站點(diǎn)類型劃分操作流程如下:首先,準(zhǔn)備聚類指標(biāo)數(shù)據(jù),并對(duì)目標(biāo)分類數(shù)的范圍進(jìn)行確定;其次,使用改進(jìn)FCM算法對(duì)取值范圍內(nèi)的所有分類數(shù)進(jìn)行循環(huán)計(jì)算,得出所有分類數(shù)的站點(diǎn)分類方案;最后,對(duì)各分類方案的有效性指標(biāo)進(jìn)行計(jì)算并比較,確定最優(yōu)的站點(diǎn)分類方案。
為對(duì)站點(diǎn)類型劃分方法的改進(jìn)效果進(jìn)行分析,以廣州地鐵為例分別使用傳統(tǒng)FCM算法和改進(jìn)FCM算法進(jìn)行站點(diǎn)分類,對(duì)二者目標(biāo)函數(shù)值的變化進(jìn)行對(duì)比。以2016年10月17日至2016年12月25日期間10個(gè)周的工作日歷史數(shù)據(jù)作為數(shù)據(jù)源、對(duì)所有郊區(qū)站點(diǎn)進(jìn)行分類數(shù)為4的類型劃分為例,其算法尋優(yōu)過程見圖3。其中傳統(tǒng)FCM算法在第101次迭代得到了最優(yōu)目標(biāo)函數(shù)值5 652,之后便一直維持在該數(shù)值上;而改進(jìn)FCM算法通過啟發(fā)式思想,不斷探尋可能存在最優(yōu)解,在第92、167次迭代時(shí)擺脫了局部最優(yōu)解,最終得到的目標(biāo)函數(shù)值為5 034,提高了最終站點(diǎn)分類方案的最優(yōu)性。
站點(diǎn)分類方案作為新站歷史數(shù)據(jù)庫(kù)構(gòu)建的重要依據(jù),對(duì)預(yù)測(cè)精度有著直接的影響,因此需針對(duì)不同分類方案的有效性進(jìn)行檢驗(yàn)和比較,選取最優(yōu)方案。目前已有的聚類有效性指標(biāo)(Cluster Validity Index,CVI)中,按其各自特征可分為以下3類:基于數(shù)據(jù)幾何結(jié)構(gòu)的有效性指標(biāo)、基于隸屬度的有效性指標(biāo)、綜合有效性指標(biāo)[17]。在本文中,由于客流的趨勢(shì)性因素符合聚類算法中的幾何判別特征,而隸屬度則能夠?qū)Σ煌军c(diǎn)與聚類中心的差異定量化描述,因此為對(duì)各分類有效性特征進(jìn)行較為全面地評(píng)判,所選取的有效性指標(biāo)將涵蓋以上3類指標(biāo)。本文選取的聚類有效性判別指標(biāo)情況見表1,通過不同站點(diǎn)分類方案之間各指標(biāo)的比較可對(duì)其優(yōu)劣性進(jìn)行評(píng)判,表中相關(guān)性表示有效性指標(biāo)與聚類有效性的相關(guān)性。
表1 站點(diǎn)分類方案有效性判別指標(biāo)
上述指標(biāo)中包含正相關(guān)和負(fù)相關(guān)指標(biāo),為直觀對(duì)比各分類方案的有效性,通過式(1)對(duì)各有效性指標(biāo)進(jìn)行調(diào)整統(tǒng)一和標(biāo)準(zhǔn)化,將所有指標(biāo)均調(diào)整為范圍為[0,1]內(nèi)的負(fù)相關(guān)指標(biāo)。
(1)
若各指標(biāo)結(jié)果對(duì)最優(yōu)分類方案的判別結(jié)果總體一致,則判定該方案為最優(yōu)方案;否則,對(duì)判別結(jié)果出現(xiàn)差異的原因進(jìn)行分析,若分類不合理,則重新選取數(shù)據(jù)集進(jìn)行聚類,若差異產(chǎn)生原因合理,則通過計(jì)算其加權(quán)有效性指標(biāo)(Weighted Summation type Cluster Validity Index,WSCVI)進(jìn)一步比較,加權(quán)有效性指標(biāo)為
(2)
對(duì)于新線站點(diǎn)而言,由于其客流成長(zhǎng)期間歷史數(shù)據(jù)較少,對(duì)其站點(diǎn)類型進(jìn)行確定時(shí)需要首先對(duì)其站點(diǎn)周邊土地利用情況、可行性研究報(bào)告進(jìn)行評(píng)估,從而將該新線站點(diǎn)歸到土地利用性質(zhì)相近的站點(diǎn)類別中,實(shí)現(xiàn)對(duì)新線站點(diǎn)類型的確定。
由于新線站點(diǎn)的歷史數(shù)據(jù)較少,無法構(gòu)建其進(jìn)出站客流短時(shí)預(yù)測(cè)過程中所需完整的歷史數(shù)據(jù)庫(kù),難以保證預(yù)測(cè)結(jié)果的精度。針對(duì)這一問題,提出新線站點(diǎn)的歷史數(shù)據(jù)庫(kù)構(gòu)建方法,一方面,將既有的少量新線站點(diǎn)歷史數(shù)據(jù)加入歷史數(shù)據(jù)庫(kù);另一方面,基于前文所得的站點(diǎn)分類方案,根據(jù)新線站點(diǎn)和同類既有站點(diǎn)的站點(diǎn)類型進(jìn)行匹配,將同類站點(diǎn)的歷史數(shù)據(jù)作為新站的歷史數(shù)據(jù),構(gòu)建新線站點(diǎn)進(jìn)出站量預(yù)測(cè)所需的歷史數(shù)據(jù)庫(kù)。具體構(gòu)建方法如下。
其次,建立新線站點(diǎn)與既有站點(diǎn)之間的匹配關(guān)系,以描述新線站點(diǎn)的預(yù)測(cè)日期類型、位置類型、站點(diǎn)類型與既有站點(diǎn)的映射關(guān)系。對(duì)于新線站點(diǎn)x,有
Sx=f(U,Lx,Cx)
(3)
式中:Sx為新線站點(diǎn)x匹配得到的相似既有站點(diǎn)集;U為預(yù)測(cè)日期類型(周次);Lx為新線站點(diǎn)x的位置類型(市區(qū)、郊區(qū));Cx為新線站點(diǎn)x的站點(diǎn)類型。
(4)
城軌新線站點(diǎn)客流成長(zhǎng)期內(nèi)短時(shí)進(jìn)出站量存在不同幅度的波動(dòng),且缺乏歷史數(shù)據(jù)的支撐,即使可參考同類既有站點(diǎn)的歷史數(shù)據(jù),但若沒有合理的匹配機(jī)制和預(yù)測(cè)算法,則無法保證預(yù)測(cè)效率和精度。
KNN算法作為一種非參數(shù)回歸方法,能夠針對(duì)給定測(cè)試實(shí)例,基于距離度量找出訓(xùn)練集中與其最靠近的K個(gè)實(shí)例點(diǎn),并基于K個(gè)最近鄰的信息來進(jìn)行預(yù)測(cè)。目前,已有研究提出基于KNN算法的短時(shí)交通流預(yù)測(cè)方法[14],該算法能夠基于當(dāng)日實(shí)際發(fā)生的時(shí)段客流數(shù)據(jù)特征來確定狀態(tài)向量,尋找與預(yù)測(cè)目標(biāo)相匹配的K個(gè)歷史日客流數(shù)據(jù)作為K近鄰數(shù)據(jù),并將其作為預(yù)測(cè)算法的輸入,實(shí)現(xiàn)對(duì)目標(biāo)時(shí)段客流的預(yù)測(cè)。但由于其歷史數(shù)據(jù)庫(kù)中數(shù)據(jù)量龐大,既有算法中近鄰匹配步驟耗時(shí)較長(zhǎng),計(jì)算效率有待提高;在預(yù)測(cè)原理方面完全基于歷史數(shù)據(jù),沒有充分考慮歷史數(shù)據(jù)與預(yù)測(cè)目標(biāo)之間的差異性,且沒有考慮未知因素對(duì)短時(shí)客流的影響,其預(yù)測(cè)精度有待增加。
本部分預(yù)測(cè)方法主要分為狀態(tài)向量確定、近鄰匹配、目標(biāo)客流預(yù)測(cè)3個(gè)步驟,見圖5。其中,在近鄰匹配機(jī)制中,提出趨勢(shì)距離的概念和計(jì)算方法,用以提高既有機(jī)制的匹配效率;在目標(biāo)客流預(yù)測(cè)過程中,結(jié)合多元統(tǒng)計(jì)回歸原理,消除預(yù)測(cè)目標(biāo)與近鄰數(shù)據(jù)之間的差異性,改進(jìn)傳統(tǒng)KNN算法,以期進(jìn)一步提高預(yù)測(cè)精度。
各時(shí)段的短時(shí)客流均可看作獨(dú)立的時(shí)間序列,在各序列中連續(xù)若干時(shí)段的客流數(shù)據(jù)間具有較強(qiáng)的相關(guān)性,因此選取與目標(biāo)預(yù)測(cè)時(shí)段客流相關(guān)性最強(qiáng)的若干相鄰時(shí)段客流作為狀態(tài)向量。時(shí)段個(gè)數(shù)m可通過計(jì)算q階自相關(guān)系數(shù)rq來確定,計(jì)算式為
(5)
(6)
對(duì)于給定的自相關(guān)系數(shù)閾值M,當(dāng)rq≥M時(shí),可認(rèn)為時(shí)間序列中間隔q個(gè)時(shí)段的2個(gè)值相關(guān)性較強(qiáng)。為使?fàn)顟B(tài)向量中盡多地包含與預(yù)測(cè)時(shí)段相關(guān)的客流時(shí)段,取m=max{q|rq≥M},并由預(yù)測(cè)時(shí)段前m個(gè)時(shí)段客流構(gòu)成狀態(tài)向量。
目前大多數(shù)研究通常使用歐式距離來衡量預(yù)測(cè)目標(biāo)與歷史數(shù)據(jù)之間的匹配度,但由于歷史數(shù)據(jù)庫(kù)中數(shù)據(jù)量較為龐大,在實(shí)際短時(shí)客流預(yù)測(cè)中的近鄰匹配計(jì)算過程會(huì)耗費(fèi)大部分時(shí)間,難以保證預(yù)測(cè)結(jié)果的時(shí)效性。而本文中對(duì)于近鄰的確定僅需對(duì)各近鄰與預(yù)測(cè)目標(biāo)的距離進(jìn)行比較,不需其具體距離值具有很高的精確度。因此,為了節(jié)約近鄰匹配的搜索時(shí)間,本文提出趨勢(shì)距離的概念和計(jì)算方法,用以替代歐式距離作為近鄰匹配機(jī)制的判定指標(biāo)。趨勢(shì)距離的計(jì)算方法為
(7)
Suv=|P0v-Puv|
(8)
式中:Su為預(yù)測(cè)目標(biāo)與第u個(gè)近鄰數(shù)據(jù)之間的趨勢(shì)距離;Suv為預(yù)測(cè)目標(biāo)與第u個(gè)近鄰歷史數(shù)據(jù)之間第v時(shí)段進(jìn)出站量的趨勢(shì)差;P0v、Puv分別為預(yù)測(cè)目標(biāo)、歷史數(shù)據(jù)的進(jìn)出站量分時(shí)系數(shù)。
在計(jì)算效率方面,趨勢(shì)距離的乘除法計(jì)算量?jī)H為1,而歐式距離的乘除法計(jì)算量為m+1,對(duì)于每次預(yù)測(cè)流程中的近鄰匹配步驟而言,需計(jì)算的近鄰數(shù)量為m(T1+T2)。因此,與歐式距離相比,趨勢(shì)距離的使用夠在保證匹配精度的前提下,減少m2(T1+T2)的乘除法計(jì)算量,大幅度提高計(jì)算效率。
對(duì)于近鄰數(shù)K的確定,目前大多數(shù)研究通過對(duì)不同K值下的樣本測(cè)試結(jié)果進(jìn)行誤差比較,取最優(yōu)作為K的固定值。為消除不同變化特征的進(jìn)出站客流匹配偏差,本文在預(yù)測(cè)過程中將實(shí)時(shí)動(dòng)態(tài)計(jì)算不同時(shí)段對(duì)應(yīng)K值,并采用交叉驗(yàn)證法來確定最優(yōu)K值。
針對(duì)基于K近鄰的預(yù)測(cè)算法,目前通常的方式為對(duì)近鄰數(shù)據(jù)依據(jù)時(shí)間序列加權(quán)平均來計(jì)算預(yù)測(cè)值[20]。然而,本文站點(diǎn)類型劃分時(shí)采用的指標(biāo)為客流分時(shí)系數(shù)而非客流量,對(duì)于新線站點(diǎn)而言,雖與同類站點(diǎn)在客流變化趨勢(shì)上具有相似性,但無法保證具體客流大小一致。以2017年3月15日(周三)的新線站點(diǎn)長(zhǎng)湴站以及其2017年3月8日(周三)同類既有站點(diǎn)高塘石的進(jìn)站客流為例,新線站點(diǎn)與既有站點(diǎn)進(jìn)站量分時(shí)系數(shù)的變化趨勢(shì)對(duì)比見圖6,由圖6可見,二者的進(jìn)站量分時(shí)系數(shù)雖一致性較強(qiáng),但進(jìn)站量之間的差異卻很大。因此若直接使用同類既有站點(diǎn)的數(shù)據(jù)進(jìn)行簡(jiǎn)單平均計(jì)算進(jìn)行預(yù)測(cè),會(huì)造成較大的預(yù)測(cè)偏差。
針對(duì)上述問題,本部分將多元統(tǒng)計(jì)回歸應(yīng)用于KNN算法中,定量刻畫預(yù)測(cè)目標(biāo)與近鄰數(shù)據(jù)之間關(guān)系。在預(yù)測(cè)效率方面,多元統(tǒng)計(jì)回歸對(duì)比其他預(yù)測(cè)方法具有較高的計(jì)算效率,對(duì)短時(shí)客流預(yù)測(cè)的時(shí)效性影響較小;在預(yù)測(cè)原理方面,多元統(tǒng)計(jì)回歸能夠通過回歸參數(shù)的估計(jì)來確定不同近鄰的權(quán)重系數(shù),建立預(yù)測(cè)目標(biāo)與近鄰數(shù)據(jù)之間的關(guān)系,消除二者之間的差異性。因此,本部分在傳統(tǒng)KNN算法的基礎(chǔ)上結(jié)合多元統(tǒng)計(jì)回歸的特點(diǎn)提出改進(jìn)預(yù)測(cè)算法。具體改進(jìn)方法為:針對(duì)狀態(tài)向量中的元素,以K個(gè)近鄰對(duì)應(yīng)的數(shù)據(jù)作為自變量,目標(biāo)預(yù)測(cè)日對(duì)應(yīng)的數(shù)據(jù)作為因變量,建立多元統(tǒng)計(jì)回歸關(guān)系,并進(jìn)行參數(shù)估計(jì)。多元統(tǒng)計(jì)回歸關(guān)系為
Q(i)=Q·a+b+ε
(9)
Q=[Q1(i),Q2(i),…,QK(i)]
(10)
a=(a1,a2,…,aK)T
(11)
式中:Q(i)為預(yù)測(cè)日第i時(shí)段的進(jìn)、出站量;Q為各近鄰第i時(shí)段進(jìn)出站量組成的向量;a為各近鄰回歸參數(shù)組成的向量;b為常數(shù)項(xiàng);ε為隨機(jī)誤差項(xiàng)。
以廣州地鐵2017年開通新線站點(diǎn)的5 min粒度進(jìn)出站客流為例,對(duì)預(yù)測(cè)方法的有效性進(jìn)行檢驗(yàn)。廣州地鐵于2016年12月28日開通了6號(hào)線二期、7號(hào)線一期和廣佛線二期共17個(gè)新站,截至2017年6月27日,全網(wǎng)共157個(gè)站點(diǎn),具體線路和站點(diǎn)分布見圖7。根據(jù)預(yù)測(cè)日期類型和站點(diǎn)位置類型,可將站點(diǎn)客流為工作日市區(qū)、周六日市區(qū)、工作日郊區(qū)、周六日郊區(qū)4類。由于此次新開通站點(diǎn)均為郊區(qū)站點(diǎn),本部分將以工作日郊區(qū)為例進(jìn)行分析,其中包括既有站點(diǎn)59個(gè),新線站點(diǎn)17個(gè)。根據(jù)相關(guān)方法對(duì)本例中各新線站點(diǎn)客流成長(zhǎng)期的界定,其客流成長(zhǎng)期跨度均在3個(gè)月以內(nèi),因此,將2016年12月28日至2017年3月31日之間的日期作為目標(biāo)預(yù)測(cè)日期,并將預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)進(jìn)行對(duì)比,來對(duì)預(yù)測(cè)方法的精度進(jìn)行檢驗(yàn)。
為進(jìn)一步對(duì)最佳分類方案進(jìn)行判定,接下來對(duì)各分類方案的加權(quán)有效性指標(biāo)Ic進(jìn)行計(jì)算,取所有權(quán)重系數(shù)均相等、判別閾值IT=0.2,各分類方案的Ir計(jì)算結(jié)果見表2。可以看出,I4=0.09為最小值,因此c=4為最佳分類數(shù)。
表2 各站點(diǎn)分類方案的加權(quán)有效性指標(biāo)Ic
該分類方案的聚類中心見表3,依據(jù)聚類中心中的各指標(biāo)特點(diǎn)可將各類型依次定義為居住類、辦公類、樞紐類、綜合類。其中,居住類早高峰進(jìn)站、晚高峰出站系數(shù)較大,辦公類早高峰出站、晚高峰進(jìn)站系數(shù)較大,樞紐類各系數(shù)均處于較高水平,綜合類系數(shù)無明顯特征。
表3 工作日郊區(qū)站點(diǎn)聚類中心(小時(shí)系數(shù))
對(duì)于本例中的新線站點(diǎn),根據(jù)周邊土地利用情況、可行性研究報(bào)告確定其工作日的站點(diǎn)類型,見表4。
表4 工作日郊區(qū)新線站點(diǎn)分類情況
選取2016年12月28日至2017年3月31日期間所有工作日作為目標(biāo)預(yù)測(cè)日,對(duì)預(yù)測(cè)方法的各個(gè)步驟進(jìn)行實(shí)現(xiàn)。首先對(duì)17個(gè)新線站點(diǎn)的工作日歷史數(shù)據(jù)庫(kù)進(jìn)行構(gòu)建,由于本案例中既有站點(diǎn)數(shù)據(jù)量充足,且站點(diǎn)的同周次進(jìn)出站客流變化規(guī)律相似,本部分將對(duì)每個(gè)新站周一至周五5個(gè)周次分別構(gòu)建歷史數(shù)據(jù)庫(kù)。
通過對(duì)所有目標(biāo)預(yù)測(cè)過程的執(zhí)行,統(tǒng)計(jì)結(jié)果顯示,進(jìn)、出站客流短時(shí)預(yù)測(cè)的平均執(zhí)行時(shí)間分別為29.12、26.84 s,同等計(jì)算機(jī)配置下的傳統(tǒng)KNN方法平均執(zhí)行時(shí)間為45.28、39.61 s,計(jì)算效率較傳統(tǒng)KNN方法分別增加了35.68%、32.23%。
對(duì)于預(yù)測(cè)方法精度,本文采用平均絕對(duì)誤差EMAE和平均絕對(duì)百分比誤差EMAPE對(duì)其進(jìn)行檢驗(yàn),定義為
(12)
EMAPE=1/T×
(13)
式中:t為5 min粒度預(yù)測(cè)時(shí)段;T為總預(yù)測(cè)時(shí)段個(gè)數(shù);y(t)為時(shí)段t進(jìn)(出)站量真實(shí)值;a(t)為時(shí)段t進(jìn)(出)站量預(yù)測(cè)值。
預(yù)測(cè)結(jié)果見表5。
表5 廣州地鐵2016年12月28日至2017年3月31日期間新線站點(diǎn)工作日5 min粒度進(jìn)出站客流平均預(yù)測(cè)誤差
注:括號(hào)外數(shù)值為使用本文方法進(jìn)行預(yù)測(cè)的誤差結(jié)果;括號(hào)內(nèi)數(shù)值為使用傳統(tǒng)KNN方法進(jìn)行預(yù)測(cè)的誤差結(jié)果。
根據(jù)誤差統(tǒng)計(jì)結(jié)果可知,絕大部分EMAPE均在20%以下,少數(shù)在20%以上,這是由于郊區(qū)新線站點(diǎn)的5 min進(jìn)出站客流較小,較小的EMAE變動(dòng)就會(huì)帶來較大的EMAPE變化。EMAE均值僅為2人次說明預(yù)測(cè)誤差較小,屬于可接受范圍。通過與傳統(tǒng)KNN方法預(yù)測(cè)誤差的對(duì)比可以發(fā)現(xiàn),絕大部分的MAE和MAPE均有所降低。改進(jìn)方法的進(jìn)、出站量EMAPE均值分別為9.08%、10.73%,傳統(tǒng)方法的進(jìn)、出站量EMAPE均值分別為14.72%、14.46%,改進(jìn)算法對(duì)于進(jìn)、出站量的預(yù)測(cè)精度較傳統(tǒng)算法分別增加了38.32%、25.80%。
不同類型站點(diǎn)客流平均預(yù)測(cè)誤差的統(tǒng)計(jì)結(jié)果見表6,對(duì)比傳統(tǒng)算法EMAE和EMAPE的平均值,改進(jìn)算法中不同站點(diǎn)類型的預(yù)測(cè)誤差均有所降低且處于較低水平,表明改進(jìn)算法針對(duì)不同類型的站點(diǎn)均有較好的預(yù)測(cè)精度。
表6 廣州地鐵2016年12月28日至2017年3月31日期間不同類型新線站點(diǎn)5 min粒度進(jìn)出站客流平均預(yù)測(cè)誤差
注:括號(hào)外數(shù)值為使用本文方法進(jìn)行預(yù)測(cè)的誤差結(jié)果,括號(hào)內(nèi)數(shù)值為使用傳統(tǒng)KNN方法進(jìn)行預(yù)測(cè)的誤差結(jié)果。
本文基于改進(jìn)FCM算法和改進(jìn)KNN算法提出了城軌新線客流成長(zhǎng)期進(jìn)出站量短時(shí)預(yù)測(cè)方法,并以廣州地鐵為例對(duì)方法的有效性進(jìn)行了評(píng)價(jià),得出以下結(jié)論:
(1) 結(jié)合城軌站點(diǎn)短時(shí)進(jìn)出站客流變化的趨勢(shì)相似性,基于改進(jìn)FCM算法對(duì)站點(diǎn)類型進(jìn)行了劃分,并提出了新線站點(diǎn)的歷史數(shù)據(jù)庫(kù)構(gòu)建方法。對(duì)比傳統(tǒng)FCM算法,該方法能夠有效解決算法陷入局部最優(yōu)的問題,得出更優(yōu)的站點(diǎn)分類方案和新線站點(diǎn)歷史數(shù)據(jù)庫(kù)。
(2) 基于趨勢(shì)距離對(duì)新線站點(diǎn)與既有站點(diǎn)之間的數(shù)據(jù)匹配機(jī)制進(jìn)行了優(yōu)化。對(duì)比傳統(tǒng)匹配機(jī)制,該匹配機(jī)制能夠顯著減少近鄰匹配過程的計(jì)算量,增加算法的總體計(jì)算效率,提高實(shí)際運(yùn)營(yíng)過程管理中新線進(jìn)出量短時(shí)預(yù)測(cè)的時(shí)效性。
(3) 基于多元統(tǒng)計(jì)回歸對(duì)KNN算法進(jìn)行了改進(jìn),提出了城軌新線客流成長(zhǎng)期進(jìn)出站量短時(shí)預(yù)測(cè)方法。改進(jìn)KNN算法能夠量化預(yù)測(cè)過程中的預(yù)測(cè)目標(biāo)與近鄰數(shù)據(jù)二者之間的局部線性關(guān)系,消除二者之間的差異性,提高新線進(jìn)出站量的短時(shí)預(yù)測(cè)精度。