葉曉龍,羅 瑞,劉金培,胡倩凝,陳華友
(1.安徽大學 商學院,安徽 合肥 230601;2.安徽大學 數(shù)學科學學院,安徽 合肥 230601)
對物流貨運量進行有效預測是規(guī)劃物流產業(yè)布局、安排物流體系建設、制定交通運輸政策的基礎和前提,因此如何提高物流貨運量的預測精度引起人們的廣泛關注。近年來,我國物流行業(yè)規(guī)模不斷擴大,國家統(tǒng)計局數(shù)據(jù)顯示,2021年全國貨運量達到5 297 000萬t。由于物流貨運量受到經濟、人口、資源等諸多因素影響,呈現(xiàn)非線性變動趨勢。盡管國內外學者對物流貨運量預測進行了大量研究,但在實際應用中仍存在諸多問題,如精度較低、使用范圍有限等。因此,筆者提出多尺度組合預測模型以提高貨運量預測精度。
傳統(tǒng)的物流貨運量預測主要從貨運量數(shù)據(jù)整體層面進行建模,主要模型包括ARIMA模型[1]、最優(yōu)組合模型[2]、支持向量機[3]、Holt-Winters模型[4]、BP神經網絡模型[5]、多元線性回歸模型[6]等。相較于從數(shù)據(jù)的整體層面建模而言,分解集成方法具有更高的預測精度。周程等[7]將原始貨運量數(shù)據(jù)分解為線性和非線性子序列,分別采用線性回歸模型和PSO-BP模型進行預測,最后通過相加集成的方式得到貨運量的預測值;RUIZ-AGUILAR等[8]采用自組織映射(SOM)聚類方法將集裝箱貨運量序列分解為相似的小簇,采用SARIMA模型對每個簇進行預測,并通過SVR模型對各項預測結果進行集成。這些方法均取得了良好的預測效果,但已有分解集成模型大多對各個子序列使用相同的預測方法,尚未考慮到不同頻度的序列具有不同的特征、適用不同的模型。傳統(tǒng)的時間序列模型多用于對線性、平穩(wěn)數(shù)據(jù)的預測,而機器學習在對非平穩(wěn)、非線性的高頻數(shù)據(jù)處理方面更具優(yōu)勢[9]。MOSCOSO等[10]分別使用ANN和SVR對港口貨運量進行短期預測,DARENDELI等[11]使用決策樹和決策森林對港口集裝箱貨運量進行預測,均取得了良好的預測效果。然而,淺層次的機器學習在預測復雜高維的數(shù)據(jù)時,往往存在過擬合、維數(shù)災難等問題。相較之下,深度學習在預測高頻數(shù)據(jù)方面具有更強的泛化能力[12],其中,LSTM可以有效學習具有非線性特征的高頻時間序列,且在鐵路貨運量數(shù)據(jù)的預測中非常有效[13]。在數(shù)據(jù)選擇方面,國內研究大多對年度貨運量進行預測,而月度貨運量預測相對較少。月度貨運量具有明顯的季節(jié)特性。針對有季節(jié)特性的時間序列,先進行季節(jié)調整,再建立分解集成組合模型具有更好的預測精度[14]。
因此,筆者提出一種基于X11季節(jié)調整和小波分解的多尺度組合預測方法。首先,對原始數(shù)據(jù)進行季節(jié)調整。其次,基于小波分解,將數(shù)據(jù)分解重構為更具規(guī)律性的(非線性和非平穩(wěn)性的、由高到低的)高頻序列、低頻序列和趨勢項。根據(jù)3種序列的特點和模型的適用性,分別選取長短期記憶神經網絡(LSTM)、BP神經網絡和Holt指數(shù)平滑法對其進行單項預測。再次,采用最小二乘線性回歸對各單項預測值進行集成,同時乘以季節(jié)因子,得到最終預測結果。最后,選取2005年1月至2019年12月全國月度貨運量作為樣本集進行實證對比分析,利用RMSE、MRE、MAE3項預測誤差評價指標對預測結果進行評價。結果表明,筆者提出的模型具有較高的預測精度,為貨運量預測提供了一種新的思路。研究的創(chuàng)新點在于:①將季節(jié)調整、深度學習和分解集成方法相結合,提出一種新的物流貨運量預測模型,以提升預測的精度;②不同于已有模型對不同頻度序列使用相同的研究方法,筆者對高頻、低頻和趨勢序列采用不同的模型進行組合預測;③不同于現(xiàn)有的年度貨運量研究,筆者提出月度貨運量預測模型,可以防止依據(jù)年度數(shù)據(jù)判斷的月度貨運量與實際數(shù)據(jù)產生較大差異,從而更有利于進行短期生產決策和產業(yè)布局規(guī)劃。
筆者提出基于X11-WT-LSTM的物流貨運量多尺度組合預測模型,思路框架如圖1所示,具體步驟如下:
圖1 思路框架圖
(1)對原始數(shù)據(jù)y進行X11季節(jié)調整,將剔除季節(jié)因素的時間序列進行小波分解,得到趨勢項a5,以及按頻率從高到低排列的波動序列d1,d2,…,d5?;贔ine-to-coarse方法,將分解后的各序列進行重構,從而得到高頻序列s1、低頻序列s2和趨勢項s3。
(4)為評價預測效果,利用RMSE、MRE、MAE3種預測誤差指標對筆者所提模型和常見預測方法的結果進行比較,分析本模型的效果。
X11季節(jié)調整的基本原理為:基于多次迭代的移動平均方法將時間序列Yt分解為趨勢-循環(huán)因素(TCt)、季節(jié)因素(St)和不規(guī)則因素(It) 3種成分。最常見的組成模型有加法模型和乘法模型,加法模型適用于每年同季節(jié)周期數(shù)據(jù)比較穩(wěn)定的序列,乘法模型適用于每年同季節(jié)周期數(shù)據(jù)有明顯變化的序列[15]。由于物流產業(yè)調整、經濟發(fā)展進入新常態(tài)等原因,月度物流貨運量往往表現(xiàn)出不同的季節(jié)周期分量,因此筆者選取乘法模型,其一般形式為Yt=TCt·St·It。X11季節(jié)調整的核心算法主要分為3個階段:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
其中,H為Henderson移動平均的參數(shù)。
(13)
式中:t為時間;ω為頻率;a為尺度因子,可以控制小波函數(shù)的伸縮;τ為平移因子,可以控制小波函數(shù)的平移。這兩個因子隨著小波基函數(shù)的選擇而確定[16]。
小波分解的主要步驟為:①選擇適當?shù)男〔ê瘮?shù)與分解層數(shù),對時間序列進行分解;②序列分解后,為每層的高頻系數(shù)選取恰當?shù)拈撝?;③根?jù)第n層的低頻系數(shù)和1至n層的高頻系數(shù)對不同頻率的小波進行重構。
長短期記憶神經網絡是一種特殊的循環(huán)神經網絡(RNN)。傳統(tǒng)的神經網絡只在層與層之間建立權連接,而RNN在隱含層建立了一個反饋機制,從而在神經元之間也建立了權連接。RNN考慮了數(shù)據(jù)的時序關聯(lián)性,即一個神經元的狀態(tài)除了取決于當前的輸入,還與歷史輸出有關。然而,由于RNN存在梯度消失和爆發(fā)的問題,從而無法建立長期依賴關系。因此,LSTM引入一種“門”結構來控制信息的進出,以克服梯度消失和爆炸的問題,從而學習長期依賴性[17],具體包括遺忘門ft、輸入門gt和輸出門ot。LSTM的具體步驟如下:
(1)利用遺忘門ft[18]進行信息的剔除。遺忘門可以接受上一單元模塊傳來的輸出值Ct-1,并對Ct-1中信息進行選擇性的保留或遺忘。
ft=σ(bf+Wfxt+Ufht-1)
(14)
(2)通過輸入門gt對細胞中的信息狀態(tài)Ct-1進行更新,更新之后的細胞狀態(tài)Ct如式(16)所示。
gt=σ(bg+Wgxt+Ught-1)
(15)
Ct=ft·Ct-1+gt·tanh(bc+Wcxt+Ucht-1)
(16)
(3)通過輸出門ot進行信息輸出,輸出的信息如式(18)所示。
ot=σ(bo+Woxt+Uoht-1)
(17)
ht=ot·tanh(Ct)
(18)
其中,σ和tanh分別為sigmoid激活函數(shù)和tanh激活函數(shù),σ可以控制信息通過的程度,取值在0到1之間,0表示完全舍棄,1表示完全保留;bf、bg、bc、bo為偏置;Wf、Wg、Wc、Wo為輸入權重;Uf、Ug、Uc、Uo為循環(huán)權重;xt為當前的輸入;ht-1與ht分別為t-1時刻與t時刻的隱含層輸出值。LSTM結構如圖2所示。
圖2 LSTM結構圖
Holt指數(shù)平滑法適用于對有長期趨勢的時間序列進行預測,其基本思想為:歷史數(shù)據(jù)對預測值有影響,且近期數(shù)據(jù)影響大,遠期數(shù)據(jù)影響小。其基本原理可表示為[19]:
(19)
式中:St為t時刻的穩(wěn)定成分;Xt為t時刻的真實值;bt為t時刻的趨勢成分;α,β為平滑參數(shù),取值為[0,1];Ft+n為n期的預測值;n為預測期數(shù)。
最小二乘法以殘差平方和最小為原理[20],廣泛應用于曲線擬合、誤差估計、系統(tǒng)辨識等數(shù)據(jù)處理領域。在多元線性回歸模型的求解中,通過最小二乘法使殘差平方和最小,從而求得各個變量的參數(shù),以此達到最優(yōu)擬合效果。
為評價基于小波分解的時間序列組合模型的預測效果,筆者采用均方根誤差(RMSE)、平均相對誤差(MRE)和平均絕對誤差(MAE)3種誤差評價指標[21],如式(20)所示。這些指標的值越小,表明所采用的模型的預測效果越好。
(20)
從國家統(tǒng)計局網站選取2005年1月至2019年12月全國的月度貨運量時間序列作為樣本集進行分析。其中,將2005年3月至2016年10月的數(shù)據(jù)作為訓練集,將2016年11月至2019年12月的數(shù)據(jù)作為測試集。
物流貨運量的原始時間序列如圖3所示,可以看出全國月度貨運量總體呈上升趨勢且具有明顯的季節(jié)性,但從2014年2月開始增速放緩,且季節(jié)變化幅度增大。這是由于2014年我國經濟發(fā)展已進入新常態(tài),發(fā)展增速變慢。交通運輸行業(yè)作為一項基礎性、先導性行業(yè),其結構也隨之發(fā)生變化。因此筆者對2014年前后的數(shù)據(jù)分開進行季節(jié)調整。
為排除經濟環(huán)境的干擾,增加預測的準確性,在進行季節(jié)調整時將樣本集劃分為兩個部分,即2005年1月到2013年12月和2014年1月到2019年12月,分別對這兩部分原始數(shù)據(jù)進行X11季節(jié)調整。季節(jié)調整后序列見圖3,季節(jié)成分序列如圖4所示。從圖4可以看出,2014年2月之后,貨運量季節(jié)變動幅度明顯增大。
圖3 原始序列和季節(jié)調整后序列
圖4 季節(jié)成分序列
對季節(jié)調整后的時間序列進行小波分解。Daubechies(db)小波函數(shù)在時序數(shù)據(jù)的分析中具有良好的性能[22],經過反復實驗,選取常見的db2為基函數(shù),將時間序列分為5層,如圖5所示。其中s是剔除季節(jié)變動的時間序列,s=a5+d5+d4+d3+d2+d1;a5是趨勢項序列;d1,d2,…,d5是季節(jié)調整序列分解出的按頻率從高到低排列的波動序列。采用Fine-to-coarse方法,將小波分解得到的各子序列重構為高頻序列s1、低頻序列s2和趨勢項s33部分,如圖6所示,s1=d1+d2+d3+d4,s2=d5,s3=d5。其中,高頻序列綜合反映了諸多影響因素對貨運量造成的擾動;低頻序列反映出貨運量變動的周期性特征;趨勢項遞增,表明我國貨運量總體呈現(xiàn)增長狀態(tài),且增速經歷了由快到慢的過程,這也是由我國經濟發(fā)展進入新常態(tài)所導致。在小波分解和序列組合的基礎上,可以分別對高頻序列、低頻序列和趨勢項進行單項預測。
圖5 小波分解圖
圖6 序列組合圖
高頻序列的隨機波動性較大,復雜度較高,LSTM具有較強的泛化能力,可以有效學習深層高頻數(shù)據(jù)特征。低頻序列的波動幅度較小,波動規(guī)律較為明顯,BP神經網絡具有較強的非線性映射能力,通過誤差反向傳播算法能夠充分提取規(guī)律性的尺度特征。趨勢項表示貨運量時間序列的整體變化趨勢,平穩(wěn)性強,Holt指數(shù)平滑法適用于對含有趨勢變動和周期變動的時間序列進行預測。
圖7 預測結果
為驗證筆者所提組合預測模型的有效性,基于均方根誤差、平均相對誤差和平均絕對誤差3種誤差評價指標,將筆者所提方法(X11-WT-LSTM)與ARIMA模型、Holt指數(shù)平滑法、BP神經網絡、LSTM 4種單項預測模型以及未經季節(jié)調整的組合預測模型(CF-LSLR)進行對比分析,結果如表1所示。
表1 貨運量誤差評價指標分析表
(1)各單項預測方法的對比。將ARIMA、Holt指數(shù)平滑法、BP神經網絡和LSTM 4種單項預測方法進行比較,可以發(fā)現(xiàn)LSTM對月度貨運量的預測精度遠遠高于Holt、ARIMA 和BP神經網絡的預測精度,由此可見LSTM對于非線性時間序列的處理能力不僅優(yōu)于傳統(tǒng)統(tǒng)計模型,還優(yōu)于BP神經網絡。
(2)未經季節(jié)調整的組合預測模型與單項預測方法的對比。由表1可知,經過分解集成的組合預測模型效果優(yōu)于單項的預測模型,這說明不同頻度的時間序列適用于不同的預測方法,分解集成組合預測模型可以綜合各單項模型的優(yōu)勢,從而提高預測精度。
(3)筆者所提模型與未經季節(jié)調整的組合預測方法的對比。經過季節(jié)調整的組合模型具有更高的預測精度,可見季節(jié)調整能夠去除季節(jié)因素對時間序列預測的干擾,以降低數(shù)據(jù)的復雜度。
綜上所述,通過對不同預測模型的對比分析可知:①相比于傳統(tǒng)預測方法,LSTM對于非平穩(wěn)時間序列具有更好的預測效果。②相比于單項預測方法,分解集成組合預測模型具有更高的預測精度。③月度貨運量時間序列具有明顯的季節(jié)特性,經過季節(jié)調整后的組合預測模型比未經調整的組合模型具有更好的預測效果。
(1)筆者提出了物流貨運量月度數(shù)據(jù)的分解集成組合預測方法。首先,通過X11季節(jié)調整剔除季節(jié)因素對預測效果的影響;其次,對數(shù)據(jù)進行小波分解,將分解后的序列重構為高頻序列、低頻序列和趨勢項,進而分別采用LSTM、BP神經網絡和Holt指數(shù)平滑法進行單項預測;最后,基于最小二乘線性回歸對預測值進行集成,同時考慮季節(jié)因子,得到最終預測結果。
(2)對比分析結果表明,筆者所提組合預測模型具有較高的預測精度,且預測效果優(yōu)于ARIMA、Holt指數(shù)平滑法、LSTM等單項預測方法,以及未經季節(jié)調整的組合預測模型。
(3)盡管筆者提出的模型取得了較高的預測精度,但仍然存在一些不足,如未考慮各種指標對物流貨運量的影響。因此,未來研究將考慮貨運量的影響因素,并改進季節(jié)調整方法,以進一步提升預測效果。