譚一帆,巫雪梅,劉海旭,蒲 云
(1.西南交通大學(xué)綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,四川 成都 610031;2.西南交通大學(xué)交通運(yùn)輸與物流學(xué)院,四川 成都 610031)
短期城軌客流預(yù)測(cè)作為城軌交通系統(tǒng)管理控制的一個(gè)重要環(huán)節(jié),為城市軌道交通實(shí)時(shí)運(yùn)營(yíng)和客流組織提供決策依據(jù),同時(shí)對(duì)提高交通管理服務(wù)水平以及控制能力具有非常重要的現(xiàn)實(shí)意義。短期客流預(yù)測(cè)根據(jù)數(shù)據(jù)特性可以分線性、非線性和組合預(yù)測(cè)這三種預(yù)測(cè)模式[1]。但是短期客流相較于中長(zhǎng)期客流,其趨勢(shì)特征不太明顯,研究學(xué)者往往需要借助其它相關(guān)實(shí)時(shí)數(shù)據(jù)對(duì)短期客流進(jìn)行聯(lián)合輔助預(yù)測(cè),例如天氣變換、節(jié)假日、重大活動(dòng)、周邊交通情況等因素,這類多模態(tài)數(shù)據(jù)下的城軌客流預(yù)測(cè)模型往往需要多個(gè)平臺(tái)的數(shù)據(jù)支持,盡管提高了預(yù)測(cè)精準(zhǔn)度,但是預(yù)測(cè)效率低,研究人員容易忽略短期預(yù)測(cè)的時(shí)效性。多模態(tài)的預(yù)測(cè)模型較適用于中長(zhǎng)期預(yù)測(cè),為城軌交通規(guī)劃建設(shè)提供輔助建議,且多模態(tài)數(shù)據(jù)預(yù)測(cè)需要多個(gè)平臺(tái)支持,會(huì)造成運(yùn)營(yíng)成本上升、預(yù)測(cè)時(shí)間長(zhǎng)等問(wèn)題。
近年來(lái)國(guó)內(nèi)外研究人員在進(jìn)行城軌短期客流預(yù)測(cè)時(shí)將時(shí)效性問(wèn)題納入考慮范疇。有一部分學(xué)者通過(guò)討論時(shí)間序列的相似性、相關(guān)性來(lái)進(jìn)行預(yù)測(cè)[2],例如回歸分析、ARMA、極大似然估計(jì)等,這些方法在進(jìn)行短期預(yù)測(cè)時(shí)非常依賴歷史數(shù)據(jù),且無(wú)法將數(shù)據(jù)某些非線性特征表達(dá)出來(lái),不能適用時(shí)效性需求比較高的城軌短期客流預(yù)測(cè),難以做到在線預(yù)測(cè)。
于是有專家學(xué)者提出非線性的預(yù)測(cè)模型,例如支持向量機(jī)(SVM)[3]、卷積神經(jīng)網(wǎng)絡(luò)模型[4]等,這些模型關(guān)注時(shí)空關(guān)系,利用模型反應(yīng)出客流之間非線性部分的特征,這類方法較依賴模型結(jié)構(gòu)設(shè)計(jì),同時(shí)預(yù)測(cè)時(shí)間隨著模型的復(fù)雜度呈現(xiàn)指數(shù)增長(zhǎng)。因此,為了提高非線性模型的效率,衍生出許多組合算法,例如將深度學(xué)習(xí)方法和尋優(yōu)算法的結(jié)合,而這類預(yù)測(cè)算法[5-8]結(jié)合尋優(yōu)算法的性能優(yōu)化神經(jīng)網(wǎng)絡(luò)的權(quán)值或閾值以達(dá)到快速收斂效果,提高交通流預(yù)測(cè)精度。但是,由于深度學(xué)習(xí)對(duì)于數(shù)據(jù)的要求非常高,隨網(wǎng)絡(luò)層數(shù)和數(shù)據(jù)的增加容易造成預(yù)測(cè)速度慢以及過(guò)擬合的情況。因此,在小樣本預(yù)測(cè)中具有良好的泛化能力的支持向量機(jī)(SVM)會(huì)更加適用于交通流預(yù)測(cè)領(lǐng)域。
其中,LSSVM是基于SVM進(jìn)行改進(jìn)的,能夠高效的提升模型的計(jì)算速度,而采用粒子群、蟻群、遺傳等算法優(yōu)化SVM參數(shù)[9,10]均可以提高模型的預(yù)測(cè)精度。由于LSSVM受參數(shù)選取影響較大,因此參數(shù)組合是提高性能的重要因素。這類方法特點(diǎn)在于所需樣本量比較少,但是需要多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合預(yù)測(cè)才能有較好的預(yù)測(cè)精準(zhǔn)度和魯棒性。而現(xiàn)實(shí)情況中,城軌客流組織實(shí)施分級(jí)預(yù)警策略,要求在保證一定的預(yù)測(cè)精準(zhǔn)度下更強(qiáng)調(diào)對(duì)客流進(jìn)行快速的預(yù)測(cè)響應(yīng)。
基于上述分析,本文為了降低數(shù)據(jù)復(fù)雜度和樣本量,同時(shí)提高對(duì)于少量單一數(shù)據(jù)的地鐵短時(shí)客流的快速預(yù)測(cè)適用性,特采用時(shí)間序列客流數(shù)據(jù)進(jìn)行預(yù)測(cè),同時(shí)提出一種基于K-Means聚類的IGA-LSSVM的短期客流預(yù)測(cè)模型。首先,利用K-Means聚類方式挖掘其時(shí)間序列特征,獲取客流模式并進(jìn)行樣本匹配,以此增強(qiáng)模型泛化能力,并針對(duì)不同的客流模式建立LSSVM模型對(duì)客流進(jìn)行預(yù)測(cè),同時(shí)利用IGA算法對(duì)LSSVM客流預(yù)測(cè)模型進(jìn)行參數(shù)優(yōu)化提高預(yù)測(cè)精準(zhǔn)度,并通過(guò)仿真進(jìn)行驗(yàn)證。
此方法綜合了免疫算法全局尋優(yōu)和遺傳算法快速瘦收斂的特性,通過(guò)加速迭代過(guò)程達(dá)到提高預(yù)測(cè)精度的目標(biāo)。同時(shí),通過(guò)聚類挖掘時(shí)間序列的信息,提取出不同類型的時(shí)間序列作為輸入進(jìn)行預(yù)測(cè),使得預(yù)測(cè)樣本量降低,在一定程度上加快了計(jì)算過(guò)程。
免疫遺傳算法模仿生物免疫系統(tǒng)機(jī)制,并與傳統(tǒng)遺傳算法進(jìn)行結(jié)合改進(jìn)而來(lái),具體方法與免疫系統(tǒng)具有如下關(guān)系:目標(biāo)函數(shù)對(duì)應(yīng)于抗原,解集對(duì)應(yīng)于抗體,其中解集利用GA算法進(jìn)行更新獲取最優(yōu)解,算法步驟見(jiàn)圖1。
圖1 免疫遺傳算法
LSSVM作為支持向量機(jī)改進(jìn)優(yōu)化模型之一,最大特點(diǎn)就是將約束從不等式轉(zhuǎn)變?yōu)榈仁?,將二次?guī)劃問(wèn)題轉(zhuǎn)化為了線性規(guī)劃問(wèn)題,降低了計(jì)算復(fù)雜度。同時(shí)提高了模型的求解速度和精度,其通過(guò)單一數(shù)據(jù)預(yù)測(cè)在某種程度比ARMA等方法逼近的更快、更準(zhǔn)確。將該預(yù)測(cè)模型與城軌客流數(shù)據(jù)情況進(jìn)行結(jié)合應(yīng)用如下:
給定訓(xùn)練集
{(xi,yi)|i=1,2,…,l,xi∈Rn,yi∈R}
(1)
式中:xi為輸入數(shù)據(jù),Rn為預(yù)測(cè)n維數(shù)據(jù)集,yi為短時(shí)客流的預(yù)測(cè)值,l為采樣的樣本個(gè)數(shù)。同時(shí)對(duì)歷史客流數(shù)據(jù)進(jìn)行GRANGE因果關(guān)系,發(fā)現(xiàn)前4小時(shí)客流與第5個(gè)小時(shí)客流具有GRANGE因果關(guān)系,因此,將前4個(gè)小時(shí)的客流作為輸入,第5小時(shí)的客流作為輸出,同時(shí)選擇一個(gè)非線性變化f(x)將輸入轉(zhuǎn)化成輸出,即得到回歸預(yù)測(cè)函數(shù)f(x)。
采用最小二乘支持向量機(jī)的優(yōu)化函數(shù)對(duì)所求目標(biāo)值進(jìn)行優(yōu)化處理
(2)
式中:w為權(quán)重向量;b為偏差;e為真實(shí)值與預(yù)估值之間的誤差;γ為懲罰因子,可以通過(guò)γ的值調(diào)節(jié)懲罰力度和模型精準(zhǔn)程度,γ過(guò)小導(dǎo)致預(yù)測(cè)精準(zhǔn)度降低,過(guò)大會(huì)造成過(guò)擬合的現(xiàn)象,從而導(dǎo)致泛化能力不足;l為樣本容量;ei為誤差項(xiàng)的第i個(gè)分量;yi為輸出值的第i個(gè)樣本值;φ(xi)為樣本數(shù)據(jù)從低維空間映射到高維空間所對(duì)應(yīng)的核函數(shù);xi為輸入的第i個(gè)樣本值。
引入拉格朗日乘子法將式(1)的優(yōu)化問(wèn)題轉(zhuǎn)化到對(duì)偶空間
(3)
式中,α為拉格朗日乘子;αi為拉格朗日乘子的第i個(gè)分量。對(duì)參數(shù)w,b,ei,αi分別進(jìn)行求導(dǎo)并令其為0,得到下式
(4)
消去w和ei,改寫(xiě)成矩陣形式為
(5)
根據(jù)矩陣方程可求得α和b,最終得到LSSVM回歸預(yù)測(cè)的函數(shù)為
(6)
式中:K(x,xi)為核函數(shù)。本文采用高斯(Gauss)徑向基核函數(shù),其函數(shù)形式如下
(7)
式中:σ為高斯核的帶寬,對(duì)于LSSVM回歸預(yù)測(cè)的性能有較大影響,σ越小,誤差容限越敏感,樣本數(shù)據(jù)點(diǎn)之間的相關(guān)性減弱,機(jī)器學(xué)習(xí)過(guò)程相對(duì)復(fù)雜,模型推廣能力降低;σ越大,樣本數(shù)據(jù)點(diǎn)之間相關(guān)性越強(qiáng),機(jī)器容易產(chǎn)生過(guò)度學(xué)習(xí)現(xiàn)象,預(yù)測(cè)精度無(wú)法得到保障。
由此可知,LSSVM的測(cè)試結(jié)果主要依賴于具體的模型參數(shù)γ和σ,需要進(jìn)行參數(shù)調(diào)節(jié)優(yōu)化。
該算法結(jié)合免疫遺傳算法良好的尋優(yōu)以及快速收斂的性能,通過(guò)調(diào)節(jié)LSSVM 預(yù)測(cè)模型參數(shù)γ和σ,并經(jīng)由K-Means進(jìn)行時(shí)間特征挖掘,分別建立相應(yīng)的預(yù)測(cè)模式,通過(guò)匹配模式后進(jìn)行預(yù)測(cè),以達(dá)到提高精準(zhǔn)度的要求。
應(yīng)用免疫遺傳算法優(yōu)化LSSVM參數(shù)進(jìn)行短時(shí)交通流預(yù)測(cè)的具體步驟如下:
1)構(gòu)建訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,通過(guò)K-Means聚類的BWP指標(biāo)[11]對(duì)交通量進(jìn)行聚類分析,并對(duì)客流數(shù)據(jù)進(jìn)行預(yù)處理,得出客流量時(shí)間序列分類。
2)于預(yù)處理的交通數(shù)據(jù),分別利用免疫遺傳算法優(yōu)化LSSVM進(jìn)行參數(shù)優(yōu)化得到最優(yōu)短時(shí)交通流預(yù)測(cè)模型。具體過(guò)程如下:
Step1:讀取匹配數(shù)據(jù),設(shè)置LSSVM抗原以及抗體群(目標(biāo)問(wèn)題和初始解),依據(jù)二進(jìn)制的編碼規(guī)則,隨機(jī)生成N個(gè)抗體和M個(gè)記憶庫(kù)組成初始抗體群,其抗體群為隨機(jī)組合;
Step2:將抗體和抗原進(jìn)行免疫算法迭代,通過(guò)計(jì)算抗體抗原的親和度(均方誤差MSE作為指標(biāo))控制抗體濃度,通過(guò)計(jì)算目標(biāo)值和預(yù)測(cè)值的差值,以及抗原之間的親和度,親和度其計(jì)算公式為
(8)
式中,Q(xi)為抗體抗原間親和度;Q(xi,xj)為抗體間親和度;E為抗體之間的信息熵。
Step3:對(duì)親和度排序,選出親和度最高的m個(gè)抗體,并進(jìn)行克隆操作;
Step4:通過(guò)計(jì)算抗體v的期望值ev消除低期望值的抗體,即促進(jìn)高親和度、低密度個(gè)體。計(jì)算公式為
cv=-qk/N,ev=Q(xi)/cv
(9)
其中:cv為抗體密度,N為種群數(shù)量,qk表示和抗體k有較大親和力的抗體。
Step5:根據(jù)不同抗體和抗原親和力的高低,根據(jù)遺傳算法計(jì)算方式,按照一定的交叉變異概率進(jìn)行交換和更改基因序列,產(chǎn)生新的N個(gè)抗體;
Step6:判斷模型收斂情況和迭代次數(shù),若達(dá)到收斂條件或最大次數(shù)則返回結(jié)束,否則進(jìn)入Step2。
對(duì)客流進(jìn)行數(shù)據(jù)處理,將異常數(shù)據(jù)剔除,并利用K聚類算法通過(guò)BWP指標(biāo)進(jìn)行最優(yōu)聚類分組,最后根據(jù)分組數(shù)據(jù)分別進(jìn)行GA-LSSVM模型訓(xùn)練,最后利用數(shù)據(jù)相似性進(jìn)行模型篩選,找到最佳預(yù)測(cè)模型,具體步驟如下:
第一步:數(shù)據(jù)預(yù)處理,本文獲取A站每天17個(gè)小時(shí)的客流數(shù)據(jù)(6-8月共計(jì)92天),提出異常數(shù)據(jù)(空白數(shù)據(jù),由于活動(dòng)或者檢修導(dǎo)致的站點(diǎn)運(yùn)營(yíng)時(shí)間變化)。最后得到84天有效數(shù)據(jù)。
第二步:BWP指標(biāo)確認(rèn),利用BWP指標(biāo)對(duì)數(shù)據(jù)進(jìn)行聚類,取K值最大時(shí)候的聚類分組為最佳分組,其中K值選取范圍為2-10。
第三步:預(yù)測(cè)模型建立,根據(jù)獲取的K組分類,建立K客流模型,將待預(yù)測(cè)天采集的起始數(shù)據(jù)與K組客流模式的聚類中心進(jìn)行相似度計(jì)算,將相似度最高的客流數(shù)據(jù),進(jìn)行IGA-LSSVM模型訓(xùn)練,并進(jìn)行預(yù)測(cè)。
本文在不同K值下的BWP指標(biāo),如下表1。
表1 BWP指標(biāo)
圖2 客流模式分類
由表1可知,當(dāng)K為4時(shí)得最佳聚類分組,可知該站具有4種客流模式,從圖2客流模式分類可以發(fā)現(xiàn),對(duì)于地鐵站來(lái)說(shuō),在這段時(shí)期里總共存在四種比較明顯的客流類型,從早上6點(diǎn)到中午12點(diǎn)四種類型都有一個(gè)明顯的波峰,說(shuō)明符合平時(shí)上午的通勤客流的活動(dòng)規(guī)律。四種客流模式的最大區(qū)別在于后面的12點(diǎn)到18點(diǎn)的二次高峰的趨勢(shì)不一樣,同時(shí)衰減速度也不一樣,這符合平時(shí)工作日和休息日客流的出行規(guī)律,即數(shù)據(jù)符合實(shí)際情況。
本文將待預(yù)測(cè)天的起始采樣點(diǎn)與4個(gè)客流模式的采樣點(diǎn)進(jìn)行相似度對(duì)比,選取其中相似度最高的一組進(jìn)行IGA-LSSVM訓(xùn)練,并同時(shí)對(duì)分類后的客流模式數(shù)據(jù)分別用傳統(tǒng)LSSVM和GA-LSSVM模型進(jìn)行對(duì)比,并驗(yàn)證準(zhǔn)確性,得到如圖3、圖4的隨機(jī)抽樣對(duì)比和預(yù)測(cè)對(duì)比結(jié)果,其中圖3和圖4顯示IGA優(yōu)化后的LSSVM對(duì)比于其它兩種LSSVM算法可以更準(zhǔn)確地預(yù)測(cè)出當(dāng)天的趨勢(shì)。
圖3 測(cè)試結(jié)果隨機(jī)抽樣對(duì)比
同時(shí),通過(guò)對(duì)三種算法的相關(guān)誤差指標(biāo)的計(jì)算(表2),可以進(jìn)一步顯示IGA的相關(guān)性比其它兩種方法更加顯著,擬合效果更好,相較于其它兩個(gè)模型分別提高了6%和9%。
圖4 預(yù)測(cè)對(duì)比圖
由于IGA-LSSVM能夠較為準(zhǔn)確的表達(dá)出實(shí)際客流的趨勢(shì),減少了誤差值,使得預(yù)測(cè)精準(zhǔn)度有所提高,因此,由表2可知,IGA-LSSVM進(jìn)行客流預(yù)測(cè)的結(jié)果與實(shí)際情況更加吻合,且其它4個(gè)指標(biāo)均有一定程度的降低。
表2 誤差結(jié)果對(duì)比
其中IGA優(yōu)化下的均方差(MSE)對(duì)比另外兩個(gè)模型均方差的基礎(chǔ)上分別下降了12.5%和28.8%,標(biāo)準(zhǔn)差(RMSE)分別下降了5.8%和14.47%,而IGA-LSSVM方法在百分比誤差有少許下降,對(duì)比效果不明顯,因此增加了圖5所示的誤差對(duì)比圖。
圖5 誤差對(duì)比圖
由圖5可知LSSVM的誤差出現(xiàn)了過(guò)擬合的情況,造成單個(gè)數(shù)據(jù)點(diǎn)誤差波動(dòng)大,而IGA優(yōu)化和GA優(yōu)化下的LSSVM誤差波動(dòng)相對(duì)平穩(wěn),更加貼近模擬出真實(shí)情況的趨勢(shì);且IGA-LSSVM的相對(duì)誤差曲線始終都在其它兩個(gè)優(yōu)化方法誤差曲線之下,表明其誤差更低,精準(zhǔn)度更高。
圖6 迭代對(duì)比圖
同時(shí),本文通過(guò)圖6遺傳算法(GA)和免疫遺傳算法(IGA)的迭代對(duì)比圖發(fā)現(xiàn),IGA的迭代速度相比GA慢一點(diǎn),但是由于IGA是在GA的基礎(chǔ)上帶有了記憶功能,更好的跳脫了局部極值的情況,可以在反復(fù)迭代中找到最佳方向并迅速下降的同時(shí)對(duì)比記憶模塊并更新最優(yōu)解,從而避免了GA在局部震蕩找不到方向最后直接收斂的情況,且提高了算法精度。
與此同時(shí),盡管IGA算法在迭代過(guò)程中尋找的迭代方向提升了算法精度,但是這種方法使得預(yù)測(cè)值基于真實(shí)值偏小,造成分母過(guò)小而百分比誤差變大,最后導(dǎo)致MAPE的效果不是很顯著,盡管如此,也從側(cè)面證明了IGA的精度會(huì)相比GA算法更高一些。
本文應(yīng)用K-MEANS聚類對(duì)單一時(shí)間序列客流數(shù)據(jù)進(jìn)行模式分類,并匹配客流模式分別建立LSSVM客流預(yù)測(cè)模型,同時(shí)利用免疫遺傳(IGA)算法優(yōu)化LSSVM的參數(shù)選取,提高了整體預(yù)測(cè)模型的泛化能力以及全局搜索能力??朔藗鹘y(tǒng)模型中過(guò)擬合的問(wèn)題,提升了模型的魯棒性和穩(wěn)定性。減少了對(duì)多模態(tài)數(shù)據(jù)輔助客流預(yù)測(cè)的依賴性,提高了效率。
同時(shí),利用成都A站客流數(shù)據(jù)實(shí)驗(yàn)可以發(fā)現(xiàn):與對(duì)照方法的結(jié)果進(jìn)行對(duì)比,IGA算法具有更強(qiáng)的全局尋優(yōu)能力,且預(yù)測(cè)值更加接近真實(shí)值,實(shí)驗(yàn)誤差小,但是其百分比誤差值效果并不理想,原因之一可能是由于聚類沒(méi)有過(guò)多的考慮數(shù)據(jù)內(nèi)在的聯(lián)系,在接下來(lái)的研究中,可以將時(shí)間序列的時(shí)空特性融入模型中,進(jìn)行輔助預(yù)測(cè)。