余姣姣
(蘭州交通大學(xué) 交通運(yùn)輸學(xué)院,甘肅 蘭州 730070)
鐵路貨物運(yùn)輸是一個(gè)受自然條件、經(jīng)濟(jì)發(fā)展、社會(huì)狀況和自身供給等多方面因素影響的復(fù)雜綜合系統(tǒng),是資源配置和宏觀調(diào)控的重要工具。鐵路貨運(yùn)量作為交通運(yùn)輸?shù)囊粋€(gè)客觀反映,對(duì)其的準(zhǔn)確預(yù)測(cè)是制定鐵路發(fā)展規(guī)劃、開(kāi)展鐵路市場(chǎng)營(yíng)銷(xiāo)的重要環(huán)節(jié)。而鐵路貨運(yùn)站裝車(chē)數(shù)作為鐵路貨運(yùn)量的重要組成部分,對(duì)其進(jìn)行預(yù)測(cè)對(duì)鐵路貨運(yùn)部門(mén)制定裝車(chē)計(jì)劃等非常重要。
目前,已有多種方法用于鐵路貨運(yùn)量的預(yù)測(cè),并取得較好的成果,主要有分形理論[1]、馬爾可夫鏈[2]、回歸分析[3]、復(fù)雜網(wǎng)絡(luò)理論[4]、神經(jīng)網(wǎng)絡(luò)理論[5]、支持向量機(jī)[6-7]、灰色預(yù)測(cè)[8]等。然而現(xiàn)有的文獻(xiàn)還沒(méi)有對(duì)鐵路貨運(yùn)站裝車(chē)數(shù)的預(yù)測(cè),所以本文將以廣鐵集團(tuán)的岳陽(yáng)北和湘潭東等貨運(yùn)站為例對(duì)鐵路貨運(yùn)站裝車(chē)數(shù)做出預(yù)測(cè)。
支持向量機(jī)(Support Vector Machine,SVM)是一種新型的神經(jīng)網(wǎng)絡(luò),是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的學(xué)習(xí)方法,該方法以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),在小樣本、高維、非線性預(yù)測(cè)領(lǐng)域有著很好的應(yīng)用效果[7、9]。在數(shù)據(jù)較少的情況下,可以較好地描述鐵路貨運(yùn)站裝車(chē)數(shù)的非線性及隨機(jī)性特征,提高預(yù)測(cè)精度。粒子群優(yōu)化算法(Particle Wwarm Optimization,PSO)是一種基于群體智能的全局隨機(jī)搜索算法,可用于非線性及復(fù)雜優(yōu)化問(wèn)題的求解[10]。
本文以廣鐵(集團(tuán))公司2017年3月至2017年7月的裝車(chē)數(shù)為研究對(duì)象,從中選取岳陽(yáng)北和湘潭東等貨運(yùn)站為例,采用相空間重構(gòu)將時(shí)間序列數(shù)據(jù)重構(gòu)成多維,運(yùn)用粒子群算法優(yōu)化支持向量機(jī)參數(shù),從而建立預(yù)測(cè)模型。實(shí)例分析的結(jié)果驗(yàn)證了該方法的有效性,為鐵路貨運(yùn)調(diào)度及貨運(yùn)站對(duì)裝車(chē)計(jì)劃的安排布局提供了依據(jù),并優(yōu)化資源配置,提高鐵路貨運(yùn)的效益。
式中:m為嵌入維;N為時(shí)間序列的數(shù)據(jù)個(gè)數(shù);r為計(jì)算中所取的搜索半徑;τ為時(shí)間延遲;M=N-(m-1)τ,為m維相空間中嵌入點(diǎn)數(shù)目;dij=||xi-xj||∞,為∞范數(shù);θ為Heaviside函數(shù),其表達(dá)式為:
相空間重構(gòu)中有兩個(gè)關(guān)鍵的參數(shù):嵌入維數(shù)m和時(shí)間延遲τ。Takens定理中,對(duì)于理想的無(wú)限長(zhǎng)和無(wú)噪聲的一維時(shí)間序列,嵌入維數(shù)m和時(shí)間延遲τ可以取任意值,但實(shí)際應(yīng)用中的時(shí)間序列都是有限長(zhǎng)度且存在噪聲,嵌入維數(shù)m和時(shí)間延遲τ不能任意取值,須精心確定,否則會(huì)極大地影響重構(gòu)的相空間的質(zhì)量[11]。確定嵌入維數(shù)m和時(shí)間延遲τ的方法有多種,本文選用C-C算法進(jìn)行聯(lián)合計(jì)算。
考慮混沌時(shí)間序列x={xi,i=1,2,...,N},重構(gòu)相空間X={Xi},Xi為m維相空間中的相點(diǎn):則嵌入時(shí)間序列的關(guān)聯(lián)積分為
關(guān)聯(lián)積分為累積分布函數(shù),表示相空間中任意兩點(diǎn)之間距離小于r的概率。另外定義x={xi}的檢驗(yàn)統(tǒng)計(jì)量:
S(m,N,r,τ)反映了時(shí)間序列的自相關(guān)特性,最優(yōu)時(shí)間延遲τd可取S(m,N,r,τ)第1個(gè)零點(diǎn)。
選擇最大和最小的半徑r,定義差量:
ΔS(m,N,r,τ)度量了 S(m,N,r,τ)對(duì)所用半徑 r的最大偏差。
綜上所述,最優(yōu)時(shí)間延遲τd可取S(m,N,r,τ)的第1個(gè)零點(diǎn)或ΔS(m,N,r,τ)的第1個(gè)局部極小點(diǎn)。
根據(jù)m和 k(r=kσ/2)的取值設(shè)定nm和nk的值,定義指標(biāo):
尋找Scor(τ)的全局最小點(diǎn)即可獲得最優(yōu)延遲時(shí)間窗口τw。
本文采用陸振波的工具箱對(duì)各車(chē)站的數(shù)據(jù)進(jìn)行相空間重構(gòu),其中采用C-C Method求出各組數(shù)據(jù)的時(shí)間延遲τd和時(shí)間窗口τw,然后根據(jù)延遲時(shí)間、嵌入維數(shù)和時(shí)間窗口三者之間的關(guān)系τw=(m -1) τd求得相應(yīng)的嵌入維數(shù)。
支持向量機(jī)[12-14]是Corinna Cortes和Vapnik等于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。它是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力。
給定一數(shù)據(jù)點(diǎn)集G={(xi,di)},其中 xi是輸入向量,di是期望值,n是數(shù)據(jù)點(diǎn)的總數(shù)。SVM使用非線性映射φ:Rn→Rm(m≥n),將輸入空間映射到高維特征空間,再在特征空間中使用式(6)來(lái)擬合數(shù)據(jù){(φ(xi),di)。
其中w、φ(x)為m維向量;?,? 表示特征空間中的點(diǎn)積;b為閾值。
系數(shù)w、b通過(guò)最小化式(7)來(lái)估計(jì)。
不敏感損失函數(shù)由式(8)確定。
此時(shí)為有限性約束的二次規(guī)劃問(wèn)題。引入拉格朗日乘子,由式(6)給出的決策回歸方程可改寫(xiě)為:
其中,d>0,σ>0,b>0,δ>0,稱(chēng)為核參數(shù)。本文選取高斯徑向基核函數(shù)為本文預(yù)測(cè)的核函數(shù)。
粒子群優(yōu)化算法(PSO)[15]是一種進(jìn)化計(jì)算技術(shù),是由Eberhart博士和kennedy博士在1995年提出的一種新的全局優(yōu)化進(jìn)化算法,源于對(duì)鳥(niǎo)群捕食的行為研究,與遺傳算法類(lèi)似,是一種基于迭代的優(yōu)化工具。
支持向量機(jī)中懲罰參數(shù)c、核參數(shù)、不敏感損失參數(shù)ε是決定預(yù)測(cè)性能的三個(gè)重要參數(shù),利用PSO對(duì)SVM的參數(shù)進(jìn)行優(yōu)化選擇,對(duì)提高預(yù)測(cè)性能具有重要的意義。相關(guān)步驟如下:
Step1 設(shè)置PSO初始參數(shù),如種群數(shù)、迭代數(shù)、變異率、交叉率等,隨機(jī)產(chǎn)生一組粒子的初始位置和速度。
Step2 選擇適應(yīng)度函數(shù),本文選擇均方誤差作為適應(yīng)度函數(shù)來(lái)判斷參數(shù)選擇的優(yōu)劣,均方誤差函數(shù)的表達(dá)式如下:
其中,xi為實(shí)際值,yi為預(yù)測(cè)值,n為預(yù)測(cè)個(gè)數(shù)。
Step3 根據(jù)兩個(gè)對(duì)比更新粒子的位置。當(dāng)前適應(yīng)度值和所經(jīng)歷過(guò)最好位置pbest對(duì)比,若當(dāng)前適應(yīng)度好,則更換當(dāng)前適應(yīng)度值為最好位置;當(dāng)前適應(yīng)度值與全局最優(yōu)位置gbest對(duì)比,若當(dāng)前適應(yīng)度好,則更換當(dāng)前適應(yīng)度值為全局最優(yōu)位置。
Step4 按照式(11)和(12)對(duì)粒子的速度和位置進(jìn)行更新。
其中,ω表示慣性權(quán)重;d=1,2,...,D;i=1,2,...,n;k為迭代次數(shù);Vid為粒子的速度;c1,c2為加速因子;r1,r2是介于0到1之間的隨機(jī)數(shù)。
Step5 判斷是否到達(dá)最優(yōu),若滿(mǎn)足,輸出最優(yōu)參數(shù)值;若不滿(mǎn)足,轉(zhuǎn)Step2。
本文通過(guò)粒子群算法優(yōu)化選取SVM的最佳參數(shù),建立預(yù)測(cè)模型,具體步驟如下:
Step1 采用小波降噪的方法對(duì)原始數(shù)據(jù)進(jìn)行降噪處理,以提高預(yù)測(cè)的精度。
Step2 通過(guò)陸振波的相空間重構(gòu)工具箱中C-C方法將一維時(shí)間序列數(shù)據(jù)重構(gòu)成多維。
Step3 將多維數(shù)據(jù)分為訓(xùn)練樣本和測(cè)試樣本,并分別進(jìn)行歸一化處理,將數(shù)據(jù)歸一化到[0,1]區(qū)間,本文采用最大最小法對(duì)數(shù)據(jù)進(jìn)行歸一化處理,具體公式為:
其中,xmin為序列中最小的數(shù)值,xmax為序列中最大的數(shù),xk為實(shí)際數(shù)值,x為歸一化后的數(shù)值。
Step4 參數(shù)優(yōu)化。初始化粒子群,運(yùn)用PSO對(duì)SVM進(jìn)行參數(shù)優(yōu)化,對(duì)比更新粒子的速度和位置,從而得到優(yōu)化的參數(shù),本文采用林智仁教授的libsvm工具箱中psoSVMcgForRegress函數(shù)進(jìn)行參數(shù)優(yōu)化。
Step5 利用得到的最優(yōu)參數(shù),并采用libsvm工具箱中SVMcgForRegress函數(shù)進(jìn)行模型的訓(xùn)練,建立預(yù)測(cè)模型并對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),再將結(jié)果反歸一化,得到原始數(shù)據(jù)的預(yù)測(cè)值。
利用所建立的模型對(duì)廣鐵(集團(tuán))公司的岳陽(yáng)北、湘潭東等貨運(yùn)站2017年3月至2017年7月的裝車(chē)數(shù)在Matlab R2014a進(jìn)行實(shí)例分析,兩個(gè)車(chē)站的預(yù)測(cè)結(jié)果與真實(shí)值的對(duì)比如圖1、圖2所示。兩個(gè)車(chē)站預(yù)測(cè)值與真實(shí)值的誤差量如圖3、圖4所示。
圖1 岳陽(yáng)北裝車(chē)數(shù)真實(shí)值與預(yù)測(cè)值
從圖1和圖2可以明顯看出,岳陽(yáng)北站裝車(chē)數(shù)擬合效果非常好,預(yù)測(cè)值和真實(shí)值基本重合,結(jié)合圖3和圖4可以看出,湘潭東車(chē)站的誤差明顯較大。采用本文SVM預(yù)測(cè)模型和灰色預(yù)測(cè)的預(yù)測(cè)性能具體見(jiàn)表1,選用平均誤差ME、平均絕對(duì)誤差MAE、平均絕對(duì)百分比誤差MAPE、均方誤差MSE和均方根誤差RMSE為評(píng)價(jià)指標(biāo)。
從以上圖表可以看出,岳陽(yáng)北的預(yù)測(cè)性能明顯比湘潭東好,岳陽(yáng)北的擬合效果較好,而湘潭東的誤差相對(duì)較大。為了比較分析SVM模型的預(yù)測(cè)性能,另外采用灰色GM(1,1)預(yù)測(cè)方法對(duì)兩個(gè)車(chē)站進(jìn)行預(yù)測(cè),預(yù)測(cè)性能見(jiàn)表1,從中明顯可以看出,各項(xiàng)誤差指標(biāo)SVM模型均比灰色GM(1,1)預(yù)測(cè)小的多。因此,采用支持向量機(jī)的預(yù)測(cè)效果整體上明顯比灰色預(yù)測(cè)好。
經(jīng)分析可知,不同車(chē)站采用SVM模型的預(yù)測(cè)性能不同,主要是因?yàn)橄嗫臻g重構(gòu)采用C-C方法所確定的時(shí)間窗口和時(shí)間延遲不同,導(dǎo)致所重構(gòu)的數(shù)據(jù)維數(shù)相差較大,從而導(dǎo)致了較大的預(yù)測(cè)誤差。
圖2 湘潭東裝車(chē)數(shù)真實(shí)值與預(yù)測(cè)值
圖3 岳陽(yáng)北裝車(chē)數(shù)誤差量
圖4 湘潭東裝車(chē)數(shù)誤差量
本文采用相空間重構(gòu)將一維時(shí)間序列重構(gòu)成多維用于SVM的輸入,并用PSO對(duì)SVM參數(shù)進(jìn)行優(yōu)化,建立模型對(duì)廣鐵(集團(tuán))公司的岳陽(yáng)北和湘潭東兩個(gè)車(chē)站裝車(chē)數(shù)進(jìn)行預(yù)測(cè),有一定的參考價(jià)值,但由于不同數(shù)據(jù)進(jìn)行相空間重構(gòu)的嵌入維數(shù)和時(shí)間延遲不同,導(dǎo)致誤差變化較大,所以在后續(xù)研究中,將對(duì)此作進(jìn)一步改進(jìn),以提高貨運(yùn)站裝車(chē)數(shù)的預(yù)測(cè)精度。
表1 預(yù)測(cè)性能