景志勇,李祖賀,趙進(jìn)超
(鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450002)
軌道交通是城市發(fā)展中的重要環(huán)節(jié),能夠有效疏解人口增長(zhǎng)給地面交通帶來的壓力。軌道交通網(wǎng)伴隨城市發(fā)展而同步擴(kuò)展,在此過程中,交通站點(diǎn)積累了大量流量數(shù)據(jù),這些數(shù)據(jù)可以反映客流的變化規(guī)律、交通站點(diǎn)的負(fù)載情況,以及未來發(fā)展趨勢(shì)等[1-2]。對(duì)交通站點(diǎn)流量數(shù)據(jù)進(jìn)行分析預(yù)測(cè),有利于指導(dǎo)軌道交通調(diào)度策略,提高交通資源利用率和站點(diǎn)運(yùn)營(yíng)效率。因此,軌道交通站點(diǎn)流量預(yù)測(cè)對(duì)于城市規(guī)劃發(fā)展具有重要意義[3]。
針對(duì)交通流量的預(yù)測(cè),當(dāng)前已經(jīng)取得了一些研究成果。在現(xiàn)有研究中,交通站點(diǎn)流量預(yù)測(cè)一部分采用非線性理論,如文獻(xiàn)[4],在狀態(tài)向量的基礎(chǔ)上引入卡爾曼預(yù)測(cè)模型。還有一部分采用線性理論,如文獻(xiàn)[5],引入混沌思想對(duì)站點(diǎn)流量進(jìn)行局域預(yù)測(cè)。此外,還有一部分通過融合人工智能算法,來進(jìn)一步解決單模型存在的缺陷。文獻(xiàn)[6]充分考慮了卡爾曼模型存在的問題,設(shè)計(jì)了融合SVM的優(yōu)化模型??柭鳛榫€性模型,在處理非線性交通站點(diǎn)流量數(shù)據(jù)時(shí),通常存在估計(jì)值偏差增大的問題,而SVM具有預(yù)見性,可以對(duì)卡爾曼誤差進(jìn)行調(diào)整。文獻(xiàn)[7]將站點(diǎn)流量數(shù)據(jù)采取成分分析,確定對(duì)應(yīng)的加權(quán)信息,并采取RF回歸處理。該方法在非線性理論基礎(chǔ)上引入了RF算法,獲得了較好的流量預(yù)測(cè)精度。文獻(xiàn)[8]引入CNN增強(qiáng)流量數(shù)據(jù)特征提取的精細(xì)程度,同時(shí)融合LSTM改善時(shí)間跨度問題,該方法的缺點(diǎn)是沒有充分考慮差異性特征間的相互影響。文獻(xiàn)[9]針對(duì)站點(diǎn)流量表現(xiàn)出的時(shí)空屬性,利用深度學(xué)習(xí)實(shí)現(xiàn)流量預(yù)測(cè)?;诂F(xiàn)有研究,本文首先從時(shí)間序列出發(fā),對(duì)站點(diǎn)流量數(shù)據(jù)采取模態(tài)分解,得到相應(yīng)尺度特征。然后考慮到軌道交通站點(diǎn)流量數(shù)據(jù)具有的小樣本特性,為得到精確的預(yù)測(cè)結(jié)果,本文引入SVM預(yù)測(cè)模型。SVM預(yù)測(cè)模型對(duì)流量預(yù)測(cè)的整體性能進(jìn)行綜合考量,在平衡精度和效率時(shí)采用遺傳算法對(duì)其模型參數(shù)進(jìn)行尋優(yōu)計(jì)算,從而保證SVM預(yù)測(cè)模型的合理性。
由于軌道交通站點(diǎn)流量受時(shí)間影響,因此可以將其看做具有時(shí)間信息的數(shù)據(jù)集。通過時(shí)間變化能夠分析站點(diǎn)流量的規(guī)律,從而對(duì)流量預(yù)測(cè)提供數(shù)據(jù)特征依據(jù)。根據(jù)時(shí)間屬性將站點(diǎn)流量的采集數(shù)據(jù)點(diǎn)定義為(t,d),參數(shù)t用來描述時(shí)間,參數(shù)d用來描述數(shù)據(jù)。于是,站點(diǎn)流量的數(shù)據(jù)集可表示為{(t1,d1),(t2,d2),…,(tn,dn)},ti (1) 其中,m是站點(diǎn)數(shù)量;di,j是站點(diǎn)i在時(shí)間段j內(nèi)的流量。 (2) (3) 其中,l代表分解得到的IMF數(shù)量。 h(di)=WK(d)+e (4) 式中,W代表核加權(quán),W=(w1,w2,…,wk)T;K(·)是徑向基核函數(shù),用于實(shí)現(xiàn)低維數(shù)據(jù)的升維操作,該過程中,K(·)會(huì)對(duì)特征映射的計(jì)算量產(chǎn)生影響;e代表誤差;h(di)代表預(yù)測(cè)結(jié)果。 為了使超平面滿足最小距離的要求,需要令核加權(quán)向量的范數(shù)盡可能小,同時(shí)需要對(duì)預(yù)測(cè)誤差進(jìn)行控制。于是,SVR模型可以描述如下 (5) 模型中,ρ表示損失因子,它能夠?qū)M合誤差進(jìn)行控制??紤]到站點(diǎn)流量數(shù)據(jù)的非平穩(wěn)性,一些數(shù)據(jù)在擬合時(shí)可能產(chǎn)生較大的偏差。為了避免由此導(dǎo)致的預(yù)測(cè)誤差,這里采用懲罰因子和松弛因子把擬合過程轉(zhuǎn)變成尋優(yōu)計(jì)算,此時(shí)SVR模型描述如下 (6) 式中,ηi、η′i代表松弛因子;p代表懲罰因子,它能夠調(diào)劑模型的偏差和計(jì)算量。當(dāng)p變小,模型的學(xué)習(xí)性能下降,計(jì)算量也隨之降低;當(dāng)p變大,模型的學(xué)習(xí)性能增強(qiáng),同時(shí)計(jì)算量也隨之升高。懲罰因子的確定,會(huì)對(duì)SVR模型性的能造成一定影響。為了求解約束優(yōu)化模型,引入對(duì)偶思想構(gòu)造Lagrange函數(shù) (7) (8) 南通要想大力發(fā)展集裝箱多式聯(lián)運(yùn),必須提供“及時(shí)、經(jīng)濟(jì)、安全、個(gè)性”的聯(lián)運(yùn)服務(wù),具體可以從以下幾個(gè)方面進(jìn)行建設(shè)。 (9) 為了提高超平面的性能,SVR模型引入了損失因子ρ、懲罰因子p,以及核函數(shù)K(·)。如果它們的取值不合適,會(huì)導(dǎo)致預(yù)測(cè)結(jié)果的不可靠,或者預(yù)測(cè)效率的下降。因此,本文引入遺傳算法,將引入?yún)?shù)采取優(yōu)化處理,從而使預(yù)測(cè)模型達(dá)到整體最優(yōu)性能?;谶z傳算法的參數(shù)優(yōu)化過程如下: 1)樣本初始化。利用隨機(jī)方式從原始站點(diǎn)流量數(shù)據(jù)中生成訓(xùn)練集。 2)參數(shù)與種群初始化。將損失因子ρ、懲罰因子p,以及核函數(shù)K(·)采取編碼操作。編碼選擇16位二進(jìn)制方式,這樣既能防止二進(jìn)制編碼長(zhǎng)度不夠的情況發(fā)生,又能防止其它編碼導(dǎo)致的計(jì)算復(fù)雜度升高。 3)迭代處理與適應(yīng)度評(píng)價(jià)。迭代過程中,對(duì)樣本采取選擇、交叉及變異處理,同時(shí)依據(jù)均方根誤差來判斷樣本適應(yīng)度。適應(yīng)度強(qiáng)的樣本將會(huì)繼續(xù)迭代,參與后輪交叉。在進(jìn)行交叉處理時(shí),采用如下規(guī)則 (10) 其中,a1與a2代表需要交叉的染色體;P代表交叉概率。 4)迭代結(jié)束,獲得最優(yōu)SVR模型參數(shù)。 基于上述流程描述,SVR模型參數(shù)優(yōu)化的流程如圖1所示。 圖1 遺傳算法優(yōu)化SVR模型參數(shù)流程圖 1)均方根誤差(RMSE)。該指標(biāo)可以反映預(yù)測(cè)結(jié)果與實(shí)際值的偏差。假定原始數(shù)據(jù)集為D={(x1,y1),(x2,y2),…,(xn,yn)},xi代表模型輸入?yún)?shù),yi代表與xi相應(yīng)的實(shí)際值,那么RMSE公式描述為 (11) 2)平均絕對(duì)誤差(MAE)。該指標(biāo)用于描述結(jié)果絕對(duì)誤差。MAE公式描述為 (12) 3)平均相對(duì)誤差(MAPE)。該指標(biāo)用于描述結(jié)果準(zhǔn)確度。MAPE公式描述為 (13) RMSE、MAE和MAPE指標(biāo),都是值越小對(duì)應(yīng)的性能越好。 通過仿真得到SVR模型參數(shù)尋優(yōu)效果。由于遺傳算法根據(jù)RMSE來判斷樣本適應(yīng)度,所以在迭代計(jì)算過程中,得到RMSE的變化情況,結(jié)果如圖2所示。從SVR模型參數(shù)尋優(yōu)曲線可以看出,在初始階段,隨機(jī)設(shè)置參數(shù)對(duì)應(yīng)的RMSE值較大。經(jīng)過遺傳算法對(duì)參數(shù)進(jìn)行尋優(yōu)之后,RMSE值開始迅速下降,參數(shù)的適應(yīng)度越來越好。初始化時(shí)給定的迭代次數(shù)是100,實(shí)際計(jì)算到40代時(shí)最優(yōu)值即趨于平穩(wěn)。于是,在實(shí)驗(yàn)過程中,設(shè)定最大迭代次數(shù)為40,避免過多無效迭代影響預(yù)測(cè)模型構(gòu)建效率。 圖2 模型參數(shù)尋優(yōu)曲線 仿真得到站點(diǎn)流量預(yù)測(cè)結(jié)果如圖3和圖4所示。對(duì)比周一與周日的預(yù)測(cè)曲線可以得出,周日的預(yù)測(cè)效果稍微優(yōu)于周一,這是由于周一站點(diǎn)流量變化較為復(fù)雜,非平穩(wěn)特性更顯著,從而影響預(yù)測(cè)精度。根據(jù)站點(diǎn)流量預(yù)測(cè)結(jié)果,基于SVR與成分分解的預(yù)測(cè)結(jié)果基本上與真實(shí)數(shù)據(jù)重疊,表明能夠很好的擬合真實(shí)數(shù)據(jù)。 圖3 周一站點(diǎn)流量預(yù)測(cè)曲線 圖4 周日站點(diǎn)流量預(yù)測(cè)曲線 對(duì)軌道交通站點(diǎn)流量預(yù)測(cè)精度進(jìn)行定量分析,仿真得到預(yù)測(cè)結(jié)果的RMSE、MAE和MAPE指標(biāo),并與文獻(xiàn)[7]和文獻(xiàn)[8]方法進(jìn)行比較,結(jié)果如圖5和圖6所示。從RMSE、MAE和MAPE指標(biāo)來看,基于SVR與成分分解的預(yù)測(cè)結(jié)果顯著優(yōu)于對(duì)比方法。模態(tài)分解能夠?qū)Ψ瞧椒€(wěn)站點(diǎn)流量數(shù)據(jù)采取特征分解,從而將流量特征按照時(shí)間采取細(xì)化提取,并在此基礎(chǔ)上利用優(yōu)化的SVR模型對(duì)站點(diǎn)數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測(cè)。通過三項(xiàng)性能指標(biāo),驗(yàn)證了本文方法在軌道交通站點(diǎn)流量預(yù)測(cè)方面的準(zhǔn)確性。 圖5 周一站點(diǎn)流量預(yù)測(cè)結(jié)果 圖6 周日站點(diǎn)流量預(yù)測(cè)結(jié)果 除了預(yù)測(cè)的精準(zhǔn)性,預(yù)測(cè)效率也是軌道交通站點(diǎn)流量預(yù)測(cè)性能的重要指標(biāo)。表1為各方法的站點(diǎn)流量預(yù)測(cè)耗時(shí)。根據(jù)數(shù)據(jù)對(duì)比,在對(duì)周一流量預(yù)測(cè)時(shí),本文方法的耗時(shí)分別比其它方法減少了4.749s和1.072s;在對(duì)周日流量預(yù)測(cè)時(shí),耗時(shí)分別比其它方法減少了4.665s和0.971s。本文方法的耗時(shí)優(yōu)于其它方法,是因?yàn)闃?gòu)建SVR優(yōu)化模型時(shí),充分考慮了模型引入?yún)?shù)的影響,并采用遺傳算法對(duì)參數(shù)進(jìn)行優(yōu)化,從而保證預(yù)測(cè)精度和效率的均衡。 表1 站點(diǎn)流量預(yù)測(cè)耗時(shí) 為了準(zhǔn)確得到軌道交通站點(diǎn)流量數(shù)據(jù)的時(shí)間序列特征,本文提出了流量數(shù)據(jù)模態(tài)分解法,增強(qiáng)局部特征提取的抗干擾性?;诔煞址纸庠O(shè)計(jì)了SVR預(yù)測(cè)模型,并針對(duì)模型的求解、預(yù)測(cè)精度和預(yù)測(cè)效率分別進(jìn)行了優(yōu)化。仿真確定SVR模型參數(shù)尋優(yōu)的最大迭代次數(shù)為40,從而有效避免過學(xué)習(xí)的發(fā)生。此外,仿真得到周一站點(diǎn)流量預(yù)測(cè)的RMSE、MAE和MAPE指標(biāo)分別為78.36、45.17、6.95%;周日站點(diǎn)流量預(yù)測(cè)的RMSE、MAE和MAPE指標(biāo)分別為74.57、43.14、6.64%。通過實(shí)驗(yàn)結(jié)果,證明了基于SVR與成分分解方法對(duì)交通站點(diǎn)流量具有更加準(zhǔn)確的預(yù)測(cè)精準(zhǔn)性,且有效權(quán)衡了精度與效率之間的關(guān)系。3 SVR預(yù)測(cè)模型
4 SVR模型參數(shù)優(yōu)化
5 仿真與結(jié)果分析
5.1 仿真數(shù)據(jù)與性能指標(biāo)
5.2 實(shí)驗(yàn)結(jié)果分析
6 結(jié)束語