陳鵬芳 ,孟建軍 ,李德倉,胥如迅
(1.蘭州交通大學(xué) 機(jī)電技術(shù)研究所,甘肅 蘭州 730070;2.甘肅省物流及運(yùn)輸裝備信息化工程技術(shù)研究中心,甘肅 蘭州 730070;3.甘肅省物流與運(yùn)輸裝備行業(yè)技術(shù)中心,甘肅 蘭州 730070)
區(qū)域鐵路貨運(yùn)量受到區(qū)域物流需求和供給能力、政策環(huán)境、工業(yè)發(fā)展?fàn)顩r等多方面因素的影響,科學(xué)預(yù)測其發(fā)展趨勢能夠提升區(qū)域物流能力[1]。Feng[2]采用灰色Verhulst 模型預(yù)測民航貨運(yùn)量,驗(yàn)證該方法在長期預(yù)測中的有效性,但灰色預(yù)測模型處理的數(shù)據(jù)序列完整性不高,且原始序列存在無序性,預(yù)測精度的提升空間有限;程肇蘭等[3]建立長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)預(yù)測模型對月度和日貨運(yùn)量數(shù)據(jù)進(jìn)行了預(yù)測,經(jīng)驗(yàn)證,相較于自回歸積分滑動平均模型(ARIMA)和BP 神經(jīng)網(wǎng)絡(luò)模型,LSTM 模型在短、中期預(yù)測中優(yōu)勢突出,但神經(jīng)網(wǎng)絡(luò)預(yù)測在原始數(shù)據(jù)量較少且存在噪聲的情況下預(yù)測效果不太理想;梁寧等[4]提出融合灰色關(guān)聯(lián)度分析(GRA)與支持向量機(jī)(SVM)的組合預(yù)測模型進(jìn)行鐵路貨運(yùn)量預(yù)測,通過核函數(shù)和核參數(shù)的選取優(yōu)化傳統(tǒng)SVM 模型,取得了明顯的改進(jìn)效果,SVM回歸區(qū)別于其他機(jī)器學(xué)習(xí)算法的一個(gè)優(yōu)勢就是對高維數(shù)據(jù)的處理,但是高維數(shù)據(jù)的輸入會導(dǎo)致SVM模型結(jié)構(gòu)復(fù)雜、計(jì)算緩慢,關(guān)于SVM 回歸預(yù)測的改進(jìn)是學(xué)者們持續(xù)研究的熱點(diǎn)。
隨著研究對象動態(tài)變化特性的突出,能夠彌補(bǔ)單一預(yù)測方法缺陷性的組合預(yù)測方法,在鐵路貨運(yùn)量預(yù)測中的有效性逐步凸顯[5]。Sadeghi 等[6]利用ARIMA 模型和非線性人工神經(jīng)網(wǎng)絡(luò)模型,開發(fā)集2 種方法所長的混合模型,所建立的組合預(yù)測方法由具有混合訓(xùn)練算法的優(yōu)化前饋和反向傳播模型組成,用于預(yù)測集裝箱船的通行量;Wan 等[7]采用改進(jìn)小波灰色預(yù)測模型對區(qū)域鐵路貨運(yùn)量進(jìn)行預(yù)測,模型輸入變量的篩選通過灰色關(guān)聯(lián)分析方法實(shí)現(xiàn),并使用小波分解處理輸入變量,經(jīng)驗(yàn)證,所構(gòu)建的改進(jìn)小波神經(jīng)網(wǎng)絡(luò)模型預(yù)測精度高,但尋優(yōu)效率有待提高。
綜上,鐵路運(yùn)輸系統(tǒng)中的動態(tài)性、不確定性因素的影響更加突出,且貨運(yùn)量趨勢受到運(yùn)輸結(jié)構(gòu)調(diào)整及雙碳目標(biāo)的影響,既有的趨勢性時(shí)序預(yù)測方法已經(jīng)不能適用于未來鐵路貨運(yùn)的結(jié)構(gòu)性變化[8-9],構(gòu)建具有更好的泛化性能和更強(qiáng)的魯棒性的預(yù)測方法,成為提高鐵路貨運(yùn)量預(yù)測效率的探索方向[10]。鑒于此,提出融合主成分分析(PCA)、鯨魚優(yōu)化算法(WOA)和最小二乘支持向量機(jī)(LSSVM)的預(yù)測新方法,采用WOA 算法優(yōu)化LSSVM 參數(shù),利用PCA 方法提取原始數(shù)據(jù)中的主成分作為模型的輸入,建立基于改進(jìn)LSSVM 的區(qū)域鐵路貨運(yùn)量預(yù)測模型,以實(shí)際算例驗(yàn)證模型的預(yù)測效果。
SVM 模型的原理是給定訓(xùn)練樣本,建立一個(gè)超平面作為決策曲面,在高維空間內(nèi)將非線性問題轉(zhuǎn)化為線性問題進(jìn)行求解,但其求解難度大且求解過程復(fù)雜。LSSVM 模型可對SVM 模型改進(jìn),其是以保證分類精度和降低模型的結(jié)構(gòu)風(fēng)險(xiǎn)為基礎(chǔ),引入誤差變量ek,用等式約束替換SVM 中的不等式約束,將求解最優(yōu)超平面的二次優(yōu)化問題轉(zhuǎn)化為方程組求解,在求解速度和求解難度上都得到優(yōu)化。
設(shè)區(qū)域鐵路貨運(yùn)量訓(xùn)練樣本集為S={(θk,Zk) |k=1,2,…,N},其中θk為d維輸入變量,即區(qū)域鐵路貨運(yùn)量影響因素;Zk為一維輸出變量,即區(qū)域鐵路貨運(yùn)量預(yù)測值。利用LSSVM 模型在小樣本、高維非線性擬合中的優(yōu)勢求解區(qū)域鐵路貨運(yùn)量預(yù)測問題,即通過映射函數(shù)φ(θk)將輸入的非線性擬合問題映射到高維特征空間,確定輸入變量θk與輸出變量Zk之間的非線性映射關(guān)系,從而依據(jù)鐵路貨運(yùn)量與其影響因素之間的非線性映射關(guān)系對未來一段時(shí)間內(nèi)的鐵路貨運(yùn)量發(fā)展趨勢進(jìn)行預(yù)測。LSSVM 模型的本質(zhì)是一個(gè)分類機(jī),優(yōu)化目標(biāo)是得到最優(yōu)分類間隔使得模型的擬合誤差最小,在區(qū)域鐵路貨運(yùn)量預(yù)測中,其優(yōu)化目標(biāo)、約束條件表示為
式中:J表示區(qū)域鐵路貨運(yùn)量預(yù)測的優(yōu)化目標(biāo),即支持向量機(jī)的分類間隔達(dá)到最優(yōu);w表示可調(diào)權(quán)值向量,是區(qū)域鐵路貨運(yùn)量影響因素所映射的超平面的權(quán)值;λ表示正則化參數(shù),是用于調(diào)節(jié)區(qū)域鐵路貨運(yùn)量預(yù)測模型優(yōu)化偏好和模型復(fù)雜度的權(quán)重;N表示鐵路貨運(yùn)量預(yù)測的樣本數(shù)目;ek為誤差變量,是區(qū)域鐵路貨運(yùn)量真實(shí)值與預(yù)測值之間的擬合誤差,ek∈R;b為偏置常數(shù),即超平面相對于原點(diǎn)的偏移。
可以發(fā)現(xiàn),LSSVM 優(yōu)化目標(biāo)是帶約束的等式,其求解仍存在難度,引入拉格朗日函數(shù)簡化求解過程。通過拉格朗日函數(shù)將原始的約束問題轉(zhuǎn)化為無約束問題,在高維空間內(nèi)有效地運(yùn)用核函數(shù)簡化求解過程。引入拉格朗日乘子αk∈R,將優(yōu)化問題轉(zhuǎn)化為
令w,b,e,α的偏導(dǎo)分別為0,得到公式為
式中:α=[α1,α2,…,αN]T,為拉格朗日乘子;Z=[Z1,Z2,…,Zn]T;Ω=[Ωkj],Ωkj=[φ(θk)]Tφ(Zj)=K(θk,Zj),k,j=1,2,…,N;1N為單位矩陣,得到LSSVM 模型的目標(biāo)函數(shù)為
式中;K(θk,Zj)為核函數(shù)。
核函數(shù)的運(yùn)用將高維空間中計(jì)算量龐大的問題轉(zhuǎn)化為低維空間中可計(jì)算的問題,起到降低LSSVM 模型計(jì)算復(fù)雜度的作用。常用的核函數(shù)有Sigmoid 函數(shù)、線性函數(shù)、多項(xiàng)式函數(shù)、徑向基(RBF)函數(shù)等,選取泛化能力較強(qiáng)的RBF 函數(shù)作為LSSVM 模型的核函數(shù),其表達(dá)式為
式中:δ2為核函數(shù)參數(shù),與LSSVM 模型的預(yù)測性能存在強(qiáng)相關(guān)性,δ2太小會使得樣本數(shù)據(jù)點(diǎn)之間的相關(guān)性減弱,產(chǎn)生機(jī)器學(xué)習(xí)的欠擬合;δ2過大會造成過擬合學(xué)習(xí),模型預(yù)測精度無法得到保障。
區(qū)域鐵路貨運(yùn)量預(yù)測受到多方面復(fù)雜因素的影響,多輸入使得LSSVM 模型面臨結(jié)構(gòu)復(fù)雜、計(jì)算緩慢的問題,且核參數(shù)的確定對LSSVM 模型預(yù)測效果影響顯著。針對上述問題,采用PCA 方法提取原始數(shù)據(jù)中的主成分作為模型的輸入,利用WOA 算法尋優(yōu)速度快、參數(shù)簡單、搜索能力強(qiáng)的優(yōu)勢對LSSVM 模型中的正則化參數(shù)λ和核參數(shù)δ2進(jìn)行尋優(yōu),構(gòu)建基于改進(jìn)LSSVM 的區(qū)域鐵路貨運(yùn)量預(yù)測模型。
PCA 方法是一種數(shù)據(jù)降維算法,將其作為LSSVM 模型的前置處理手段,通過少數(shù)幾個(gè)關(guān)鍵公共因子解釋原始樣本的大部分信息,以降低模型的計(jì)算復(fù)雜度。在區(qū)域鐵路貨運(yùn)量預(yù)測中,假設(shè)原始數(shù)據(jù)包含n個(gè)影響因素,即具有n維特征,PCA 方法將原始數(shù)據(jù)描述的n維特征映射到d維主成分上,d維主成分以較少的數(shù)據(jù)指標(biāo),描述原始數(shù)據(jù)包含的大部分信息,實(shí)現(xiàn)數(shù)據(jù)降維的目的。假設(shè)樣本數(shù)為N,具有n維特征,將原始數(shù)據(jù)矩陣X描述為
式中:xij表示第i個(gè)樣本的第j維特征,i≤N,j≤n;Xn表示原始數(shù)據(jù)的第n維特征。
利用PCA 方法可將n維特征映射到d維上,獲得d個(gè)新變量,d≤n;將得到的新變量稱為原始數(shù)據(jù)的第d個(gè)主成分Fd,將提取出的d個(gè)主成分作為LSSVM 模型的輸入,其表達(dá)式為
式中:aij為主成分系數(shù),且滿足1,i=1,2,…,d;各主成分互不相關(guān),主成分方差滿足Var(F1) >Var(F2) > … >Var(Fd)。
WOA 算法是一種模擬座頭鯨狩獵行為的元啟發(fā)式優(yōu)化算法,以其搜索能力強(qiáng)、參數(shù)少、尋優(yōu)速度快等優(yōu)勢得到了廣泛應(yīng)用[11],針對其核參數(shù)選取敏感的問題,采用WOA 算法尋優(yōu)LSSVM 參數(shù)組合以提升模型的預(yù)測性能。WOA 算法建模如下。
(1)全局尋優(yōu)。WOA 算法假定當(dāng)前搜索位置為最佳搜索位置,通過搜索迭代更新當(dāng)前最佳搜索位置,將過程描述為
(2)局部尋優(yōu)。在每一次迭代中,WOA 算法通過全局尋優(yōu)和局部尋優(yōu)2 種方式更新搜索位置,假設(shè)采用2 種方式的概率都為0.5,其搜索過程計(jì)算公式為
式中:為距離向量參數(shù);b為螺旋狀常數(shù),一般定義為1;l為[-1,-2]中的隨機(jī)數(shù);p為[0,1]中的隨機(jī)數(shù)。
(3)跳出當(dāng)前迭代,全局搜索。WOA 算法根據(jù)搜索代理之間的位置進(jìn)行隨機(jī)搜索,利用收斂因子的絕對值選擇搜索方式。時(shí),采用公式⒀ 更新位置;時(shí),跳出當(dāng)前迭代開始全局搜索,避免局部最優(yōu)。計(jì)算過程為
參數(shù)組合(λ,δ2)的選取是構(gòu)建LSSVM 預(yù)測模型的關(guān)鍵,參數(shù)選取不當(dāng)會存在欠擬合或過擬合的問題,造成預(yù)測模型性能不佳,正則化參數(shù)λ的取值與模型的復(fù)雜性和穩(wěn)定性相關(guān),優(yōu)化核參數(shù)δ2可以降低樣本數(shù)據(jù)在高維特征空間分布的復(fù)雜性。目前LSSVM 模型的參數(shù)通常使用交叉驗(yàn)證法試算選取,存在主觀因素的影響而效果不佳[12],采用WOA 算法對正則化參數(shù)λ和核參數(shù)δ2進(jìn)行尋優(yōu)可以避免試算法的局限性,優(yōu)化步驟具體如下。
步驟1:讀取樣本數(shù)據(jù)。
步驟2:參數(shù)初始化。對WOA 算法的參數(shù)進(jìn)行初始化處理,主要有:種群數(shù)目N;當(dāng)前迭代次數(shù)t;最大迭代次數(shù)T';螺旋狀常數(shù)b;種群位置的上下界;初始化鯨魚種群位置(x,y)。
步驟3:設(shè)置適應(yīng)度函數(shù)為f(x,y)=(x-q)2+(y-j)2,計(jì)算個(gè)體的適應(yīng)度值,以最優(yōu)值對應(yīng)的個(gè)體位置作為當(dāng)前最佳候選解為[0,2]之間的隨機(jī)數(shù),j取值為1。
步驟4:當(dāng)滿足條件t<T'時(shí),迭代更新參數(shù)a,
以陜西省2001—2019 年區(qū)域鐵路貨運(yùn)量相關(guān)數(shù)據(jù)為例,從區(qū)域貨運(yùn)結(jié)構(gòu)要素、區(qū)域經(jīng)貿(mào)環(huán)境要素、區(qū)域基礎(chǔ)設(shè)施設(shè)備要素、區(qū)域物流運(yùn)輸能力要素、區(qū)域產(chǎn)業(yè)發(fā)展要素、區(qū)域物流及環(huán)保政策要素6 個(gè)方面選取18 個(gè)指標(biāo),搜集并整理指標(biāo)數(shù)據(jù),作為區(qū)域鐵路貨運(yùn)量預(yù)測的樣本數(shù)據(jù)??紤]到我國雙碳目標(biāo)以及運(yùn)輸結(jié)構(gòu)調(diào)整對鐵路貨運(yùn)量趨勢的影響,將區(qū)域環(huán)保政策變量和鐵路運(yùn)輸結(jié)構(gòu)變量作為區(qū)域鐵路貨運(yùn)量的影響因素。區(qū)域鐵路貨運(yùn)量原始數(shù)據(jù)指標(biāo)如表1 所示,來源于國家統(tǒng)計(jì)局及陜西省人民政府官網(wǎng)公開發(fā)表數(shù)據(jù)。
依據(jù)數(shù)據(jù)的可用性和完全性對原始數(shù)據(jù)進(jìn)行篩選,然后進(jìn)行標(biāo)準(zhǔn)化處理,以減少樣本噪聲對預(yù)測性能的影響,提升LSSVM 模型的訓(xùn)練速度,具體如下。
式中:x為樣本原始數(shù)據(jù);xmax和xmin分別為x的最大值和最小值;xg為標(biāo)準(zhǔn)化后的數(shù)據(jù)。
提取主成分作為改進(jìn)LSSVM 模型的輸入,以降低模型的復(fù)雜度。如直接對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,數(shù)據(jù)呈現(xiàn)出動態(tài)的、復(fù)雜的變化趨勢且輸入變量較多,直接輸入LSSVM 模型容易造成預(yù)測效果不佳,采用PCA 方法提取原始數(shù)據(jù)中的主成分作為模型的輸入,得到協(xié)方差矩陣特征值如表2所示,前3 個(gè)主成分的特征值都大于1,且累積方差貢獻(xiàn)率達(dá)到90.38%,對原始樣本的解釋程度很高,故取前3 個(gè)主成分F1,F(xiàn)2和F3作為預(yù)測模型的輸入。
表2 協(xié)方差矩陣特征值Tab.2 Eigen values of the covariance matrix
參數(shù)初始化設(shè)置如表3 所示,利用WOA 算法優(yōu)化LSSVM 參數(shù),得到優(yōu)化后的核參數(shù):正則化參數(shù)λ=40.873 9,核參數(shù)δ2=737.145 8。將WOA尋優(yōu)結(jié)果作為改進(jìn)LSSVM 模型的參數(shù),將主成分F1,F(xiàn)2和F3作為模型的輸入,以2001—2009 年的數(shù)據(jù)作為訓(xùn)練樣本,以2010—2019 年的數(shù)據(jù)作為測試樣本,驗(yàn)證改進(jìn)LSSVM 模型的預(yù)測性能。為了對所建立模型的預(yù)測效果進(jìn)行對比和檢驗(yàn),建立LSSVM 模型以及WOA 優(yōu)化LSSVM 參數(shù)的WOA-LSSVM 模型進(jìn)行對比分析。
表3 參數(shù)初始化設(shè)置Tab.3 Initial setting of parameters
分析LSSVM 模型、WOA-LSSVM 模型 和改進(jìn)LSSVM 模型在區(qū)域鐵路貨運(yùn)量預(yù)測中的效果,得到3 種模型預(yù)測值的相對誤差如表4 所示,3 種預(yù)測模型的相對誤差散點(diǎn)圖如圖1 所示。由表4 可知,LSSVM 模型的相對誤差在-6.540%~10.472%之間波動,WOA-LSSVM 模型的相對誤差在-3.211%~ 6.313%之間波動;改進(jìn)LSSVM 模型的相對誤差在-1.449%~ 2.724%之間波動,大部分預(yù)測值誤差不超過±1.5%;3 種模型的最大誤差絕對值分別為10.472%,6.313%和2.724%。由圖1 可知,改進(jìn)LSSVM 模型的相對誤差整體更小且波動范圍不大,精確性和穩(wěn)定性優(yōu)于其他2 種預(yù)測模型。
表4 3 種模型預(yù)測值的相對誤差 %Tab.4 Relative errors of the predicted values of the 3 models
圖1 3 種模型的相對誤差散點(diǎn)圖Fig.1 Scatter plots of relative errors of the 3 models
選取平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)為模型預(yù)測精度檢驗(yàn)指標(biāo),對比3 種模型的預(yù)測誤差值如表5 所示??梢园l(fā)現(xiàn),改進(jìn)LSSVM 模型預(yù)測的誤差值更小,預(yù)測值相較于實(shí)際值的偏離程度更小,樣本離散程度更低,在動態(tài)性和不確定性因素存在的條件下預(yù)測精度更高。3 種模型的實(shí)際值與預(yù)測值的擬合圖如圖2 所示,改進(jìn)LSSVM 模型的擬合程度最高。
圖2 預(yù)測值與實(shí)際值的擬合圖Fig.2 Fitting diagram of predicted values and actual values
表5 3 種模型的預(yù)測誤差值Tab.5 Prediction error values of the 3 models
針對鐵路貨運(yùn)量預(yù)測存在的需求數(shù)據(jù)冗雜、預(yù)測對象動態(tài)變化的特點(diǎn),提出了基于改進(jìn)LSSVM 的區(qū)域鐵路貨運(yùn)量預(yù)測模型,以期為鐵路貨運(yùn)組織提供決策依據(jù),得到主要結(jié)論如下。
(1)WOA 優(yōu)化算法具有良好的全局尋優(yōu)能力且參數(shù)較少、計(jì)算過程簡單,采用WOA 算法尋優(yōu)LSSVM 模型的參數(shù)組合(λ,δ2),得到的WOALSSVM 模型預(yù)測的最大相對誤差為6.313%,MAPE 值為2.576%,相較于傳統(tǒng)LSSVM 模型分別降低4.159%和1.623%,參數(shù)尋優(yōu)效果顯著,尋優(yōu)效率高且穩(wěn)定性強(qiáng)。
(2)在樣本數(shù)據(jù)的選取過程中,重視運(yùn)輸結(jié)構(gòu)調(diào)整及雙碳目標(biāo)對區(qū)域鐵路貨運(yùn)量趨勢的影響,采用PCA 方法提取原始數(shù)據(jù)中的主成分,將包含90.379%原始信息的3 個(gè)主成分作為改進(jìn)LSSVM 模型的輸入,改進(jìn)LSSVM模型的相對誤差在-1.449%~ 2.724%之間波動,相較于傳統(tǒng)LSSVM 模型和WOA-LSSVM 模型,其預(yù)測結(jié)果的MAE,MAPE 和RMSE 值都有明顯降低,預(yù)測精度得到提高。
(3)構(gòu)建基于改進(jìn)LSSVM 模型的區(qū)域鐵路貨運(yùn)量預(yù)測模型,從數(shù)據(jù)預(yù)處理和參數(shù)優(yōu)化2 個(gè)方面改進(jìn)LSSVM 模型,模型的預(yù)測性能得到明顯改善;但模型中采用的RBF 核函數(shù)難以兼顧SVM 模型和LSSVM 模型的優(yōu)點(diǎn),構(gòu)造預(yù)測效果更佳的混合核函數(shù),是未來值得研究的重難點(diǎn)。