陳東清,黃章樹,葉翀
(1.福州大學 至誠學院,福建 福州 350002;2.福州大學 經濟與管理學院,福建 福州 350108)
我國經濟處在由數(shù)量擴張向高質量提升的發(fā)展階段,調整產業(yè)結構、助力經濟發(fā)展成為各級政府、企業(yè)和公眾的關注重點。而物流業(yè)景氣指數(shù)是反映物流行業(yè)運行情況的優(yōu)良指標,也是監(jiān)測宏觀經濟發(fā)展狀況的先導指標之一。科學預測物流業(yè)景氣指數(shù)有助于提前預警物流業(yè)運行態(tài)勢,同步甚至超前了解物流市場發(fā)展走向,為企業(yè)經營決策提供參考,為政府制定相關經濟政策提供部分數(shù)據支持。因此,研究物流業(yè)景氣指數(shù)預測方法及物流波動趨勢顯得尤為重要。
許多學者選擇不同方法預測物流業(yè)景氣指數(shù)。舒服華等[1]采用VAR模型對中國物流業(yè)景氣指數(shù)進行預測,模型結果較為理想;孫穎[2]運用 ARMA模型預測我國物流業(yè)景氣指數(shù),從預測結果可以看出,當期物流業(yè)景氣指數(shù)會受到前期指數(shù)的滯后影響;羅濤[3]選擇VEC模型分析物流業(yè)景氣指數(shù)與生產者價格指數(shù)的關系,從脈沖分析和方差分解發(fā)現(xiàn),物流業(yè)景氣指數(shù)的變動主要來源于自身變化的影響,因此預測該指數(shù)需要考慮自身的滯后影響。經典的經濟預測方法還有回歸分析及改進理論[4]、馬爾科夫理論[5]、灰色預測模型[6]、系統(tǒng)動力學模型[7]、GARCH模型[8]、ARCH模型[9]、神經網絡理論[10]、極限學習機理論[11]、語言策略方法[12]、非線性動態(tài)因子模型[13]等。
總體上看,物流業(yè)景氣指數(shù)預測研究有所成就,但是還有不少需改進完善的空間:(1)物流業(yè)景氣指數(shù)預測屬于較復雜的建模問題,應優(yōu)先考慮非線性建模技術,這就面臨參數(shù)選擇問題;現(xiàn)有一些研究通過湊試法選擇參數(shù),增加大量的建模工作量且存在一定的隨意性,因此需要借助相關優(yōu)化理論對參數(shù)進行智能選擇;(2)當前關于物流業(yè)景氣指數(shù)的單一預測方法或者組合預測方法,每個單一模型的訓練集和測試集都是固定的,如果預測的步長太大,因建模信息遠離預測點,則較難獲得良好的測試(預測)精度。
鑒于此,本文采用粒子群算法(Particle Swarm Optimization, PSO)優(yōu)化支持向量機(Support Vector Machine, SVM)參數(shù),提出PSO-SVM模型的物流業(yè)景氣指數(shù)組合預測方法,動態(tài)調整單一預測模型的訓練集和測試集,構建多個單一PS0-SVM模型。每個模型外推預測兩期,相鄰兩個單一模型平均值作為模型測試(預測)值,以福建省數(shù)據為樣本進行實證研究,驗證模型的有效性。
標準支持向量回歸機考慮了線性和非線性情況。對于非線性情況,通過非線性函數(shù)的變換,把樣本數(shù)據映射到高維空間,根據核展開定理求解問題時,無需知道非線性映射的顯性表達式,從而簡化模型計算,避免了所謂的“維數(shù)災難”問題。標準支持向量機模型可以通過調整ε值控制回歸的精度,但是由于ε值沒有明確的含義,導致模型估計時難以確定ε值。因此,有的學者對此問題進行研究改進:Scholkopf等[14]提出v-SVM,采用參數(shù)v代替ε,在一定程度上方便了支持向量回歸機參數(shù)調整[14],拓展支持向量回歸機的應用。關于v-SVM模型的參數(shù)v,鄧乃揚等[15]證明了參數(shù)v的取值范圍以及含義,具體如下。
由以上結論可得,v-SVM模型參數(shù)v的取值范圍為[0,1],并且可以通過選擇v值控制錯誤樣本點,或者支持向量的個數(shù),因此v有比較明確的含義。這對參數(shù)的選擇有重要意義,意味著v-SVM相對于標準支持向量回歸機有一定的優(yōu)越性。
支持向量機是基于有限樣本發(fā)展的機器學習理論,綜合考慮了建模的復雜程度以及學習能力,具有較強的泛化能力[16],對于有限樣本的預測問題具有很強的優(yōu)勢。中國物流與采購聯(lián)合會和中國物流信息中心于2013年3月聯(lián)合發(fā)布了中國物流業(yè)景氣指數(shù)[17],是一個較新的宏觀統(tǒng)計指數(shù),數(shù)據量有限;另一方面,物流業(yè)景氣指數(shù)受到的影響因素較多,并且存在非線性影響關系。v-SVM模型良好解決了有限樣本、非線性的問題[18],且v參數(shù)含義明確,方便模型參數(shù)調整。因此,本文選擇v-SVM回歸方法作為物流業(yè)景氣指數(shù)預測的基礎模型。
粒子群算法是由Kennedy和Eberhart等學者受鳥群覓食行為啟發(fā)提出的優(yōu)化理論,是一種效率比較高的優(yōu)化技術。假設在D維搜索空間中,某個微粒群有m個微粒組成,在搜索空間內的粒子i在t時刻的狀態(tài)信息如下[19]
(1)
(2)
(3)
(4)
(5)
式(5)是最原始的粒子群算法,c1、c2為學習因子或者加速系數(shù),取值通常為c1=c2=2;r1、r2取值為均勻分布在[0,1]范圍內變化的隨機數(shù)。
為了提高原始粒子群算法的收斂速度以及取得更好的解,Shi等[20]提出了帶有慣性權重的PSO模型。對于上述的速度公式改進如下
(6)
式(6)中,稱w為慣性權值,w的大小衡量該粒子對當前速度的繼承量,使PSO算法具有強局部搜索能力。線性遞減公式如下
(7)
Shi等[20]建議w的范圍從0.9線性遞減到0.4。因此,式(7)中wstrat取值為0.9,wend取值為0.4;tmax為最大的迭代次數(shù),tnow為當前的迭代次數(shù)。
在支持向量機回歸模型中,懲罰系數(shù)以及核函數(shù)參數(shù)是影響模型精度的主要參數(shù);如果采用湊試法或者網格搜索法,參數(shù)尋優(yōu)效率較低。本文采用帶有慣性權重的粒子群優(yōu)化算法,以交叉驗證意義下模型的均方根誤差最小作為函數(shù)優(yōu)化目標,尋找滿意的懲罰系數(shù)以及核函數(shù)參數(shù);并對模型進行訓練和測試,以期得到滿意的模型結果。如果模型結果較差,則需要重新考慮被預測變量的影響因素,重新建模,直至得到滿意的模型結果。
根據時間序列分析理論,本期物流業(yè)景氣指數(shù)受到前幾期指數(shù)的影響,可利用前幾期物流業(yè)景氣指數(shù)構建模型預測本期物流業(yè)景氣指數(shù);為了提高預測精度,同時考慮春節(jié)因素以及疫情因素對物流業(yè)景氣指數(shù)的影響。借鑒組合預測的思想,構建PSO-SVM組合預測模型,主要思路是:首先,從時間序列分析視角確定物流業(yè)景氣指數(shù)的主要影響因素,采集研究數(shù)據集;其次,將總數(shù)據集劃分為訓練集和測試集,構建PSO-SVM預測模型,并用粒子群算法對參數(shù)進行尋優(yōu),構建預測精度較高的單一預測模型;再次,動態(tài)調整訓練集和測試集,重新構建多個單一預測模型,每個模型進行兩步預測,以單一模型擬合值的平均值作為總體建模樣本的擬合值,以臨近兩個模型預測結果的平均值作為測試值;最后,檢驗模型的精度,如果模型精度滿意,則可用于預測未來物流業(yè)景氣指數(shù),否則分析研究問題,重新構建模型。模型構建流程如圖1所示。
物流業(yè)景氣指數(shù)為
y(t),(t=1,2,…,m)
(8)
設物流業(yè)景氣指數(shù)的n個主要影響變量為
Xi(t)={x1(t),x2(t),…,xn(t)}
(9)
其中,xi(t)代表第i個影響因子(影響因子可包含滯后的影響因素),t代表序列的編號,如x1(1)的含義為第一個影響因子第1序列的值。
1.劃分數(shù)據集
將所要研究的數(shù)據集根據特定的規(guī)則劃分為測試集和訓練集,并構造外推預測需要的預測集。本文將整理好的研究數(shù)據集稱為總數(shù)據集,包含訓練集、測試集、預測集三部分,分別記為S、T、P。其中,訓練集S為總數(shù)據集的前p個樣本數(shù)據,測試集T為總數(shù)據集的第p+1個樣本數(shù)據起到第m個結束為止,測試集T的數(shù)據樣本個數(shù)為k(k=m-p),預測集P只含有影響因子,用于對未來物流業(yè)景氣指數(shù)的預測。需要說明的是,訓練集和測試集的樣本個數(shù)是相對于整個總體模型而言,確定了用于測試的數(shù)據集樣本個數(shù),則訓練集的樣本個數(shù)也隨之確定。
2.構建第一個預測模型(記為Model-1)
在模型Model-1中,訓練集S為總數(shù)據集的前p個樣本數(shù)據,測試集T為總數(shù)據集第p+1個到第m個樣本。對于Model-1預測模型,訓練集和測試集的劃分如表1所示。
表1 Model-1訓練集和測試集的劃分
3.計算單一模型結果
4.重新劃分單一PSO-SVM的訓練集和測試集
表2 Model-2訓練集和測試集的劃分
續(xù) 表
5.重復步驟
重復第三、第四步驟,直到把前m-1個數(shù)據集都作為訓練集,第m個數(shù)據作為測試集結束,此時一共構建了k(k=m-p)個預測模型,并進行了兩步預測(最后一個模型只需進行一步預測),具體如表3所示。
6.計算總數(shù)據集的擬合值和測試值
利用上述所構建的模型Model-1,Model-2,…,Model-(m-p)計算得到各個模型的擬合值,對模型擬合值求平均值作為總體樣本的擬合值。整理每個單一模型的兩步預測,結果如表3所示。整體樣本的第一個測試值為 MODEL-1進行一步預測得到的預測值,從第二個測試值起,其測試值為前一模型進行二步預測的預測值和當前模型進行一步預測的預測值的平均數(shù),具體計算方法見表4。
7.檢驗模型精度
采用均方根相對誤差評價模型的總體建模精度,如果模型精度較高,則可用于未來物流業(yè)景氣指數(shù)的預測;如果模型精度不理想,則重新尋找影響因素,再次構建模型,直到獲得滿意的模型效果。
8.模型應用
將構建的模型應用于未來物流業(yè)景氣指數(shù)預測,預測值仍然采用測試階段測試值的計算方法。
福建省物流業(yè)景氣指數(shù)由福建省工業(yè)和信息化廳與福建省物流協(xié)會聯(lián)合發(fā)布,從2014年4月起每月在福建省經濟信息中心網站公開發(fā)布,數(shù)據權威性高。本文所采用的樣本區(qū)間為2014年4月至2020年7月的月度數(shù)據,如表5所示。
表5 2014年4月—2020年7月福建省物流業(yè)景氣指數(shù)
考慮到春節(jié)因素對物流業(yè)發(fā)展的影響,引入虛擬變量,如果該月份含有春節(jié)假期則虛擬變量取值為0,否則取值為1。2020年,新冠肺炎疫情對我國經濟產生了影響,也對物流業(yè)發(fā)展產生沖擊,因此本文引入新冠肺炎疫情對物流業(yè)發(fā)展的影響變量,該變量值越大,代表疫情對物流業(yè)景氣指數(shù)的負向影響作用越大。2019年(含)之前的月份,變量的取值為0,2020年1月至2020年10月的影響變量取值如表6所示,影響程度取值說明如下。
面對突發(fā)疫情,2020年1月24日,福建省啟動重大突發(fā)公共衛(wèi)生事件一級響應,1月份物流業(yè)發(fā)展不確定性增強,同時考慮春節(jié)因素的共同交叉影響,故影響變量取值為4;自2020年2月26日起,福建省根據地區(qū)風險差異,調整新冠肺炎疫情防控等級為省級二級響應或者三級響應,2月份一級響應的天數(shù)多,故2月份的影響變量取值為4;自2020年3月19日起,福建省新冠肺炎疫情防控應急響應等級統(tǒng)一調整為省級三級響應,3月份福建省防控措施仍較為嚴格,故3月份的影響變量取值為3;2020年4月份,福建省新冠肺炎疫情防控應急響應等級均為三級,故4月份的影響等級取值為2;從2020年5月(含)起,物流經濟活動逐漸恢復,但仍受到疫情影響,并且預計未來幾個月疫情相對穩(wěn)定,故2020年5-10月的影響變量取值為1。
表6 新冠肺炎疫情對物流業(yè)的影響程度取值
本文采用常用的三倍標準差(3σ)原則[21]識別異常值。2014年4月至2020年7月,物流業(yè)景氣指數(shù)均值正負3倍標準差的區(qū)間為[45.224 9, 63.617 2],故偏離此區(qū)間的值判定為異常值。受到新冠肺炎疫情的影響,福建省2020年2月份物流業(yè)景氣指數(shù)為31.8,偏離區(qū)間范圍,屬于異常值,其余數(shù)據均落在上述區(qū)間范圍。為了消除異常值對模型精度的影響,2020年2月物流業(yè)景氣指數(shù)由2020年1月份和3月份的平均值處理得到,為50.75,后續(xù)的模型運算均按此數(shù)值進行。
為消除建模數(shù)據的量綱差異,采用以下公式對數(shù)據進行標準化處理,經過處理后數(shù)據規(guī)范化到[1,2]之間,可得
(10)
式(10)中,xmin為變量x的最小值,xmax為變量x的最大值。
本文對數(shù)據集進行隨機劃分,選擇5個樣本作為測試數(shù)據,并確保測試樣本中有且僅有1個樣本是受疫情影響的樣本數(shù)據(即2020年1-7月的樣本數(shù)據),其余樣本作為建模數(shù)據。設置粒子群優(yōu)化算法的最大迭代次數(shù)為200,種群數(shù)量為20,采用4折交叉驗證,其他參數(shù)的初始值采用本文介紹的粒子群方法推薦的初始值。支持向量回歸機的懲罰系數(shù)C綜合權衡模型擬合能力和泛化能力,C值越大則模型結構風險越大,經驗風險越小,容易出現(xiàn)過擬合現(xiàn)象;C值越小,則模型結構風險越小,經驗風險越大,容易出現(xiàn)欠擬合現(xiàn)象。兼顧模型優(yōu)化時間和預測精度,支持向量回歸機懲罰系數(shù)C的區(qū)間設置為[0.1,100],v參數(shù)的區(qū)間設置為[0.4,0.8]。
核函數(shù)是影響支持向量機性能的關鍵因素,可劃分為全局核函數(shù)和局部核函數(shù)兩大類型。全局核函數(shù)的泛化能力具有優(yōu)勢,但學習能力較弱,如線性核函數(shù)、多項式核函數(shù)、Sigmoid核函數(shù);局部核函數(shù)影響相距較近數(shù)據點[22],學習能力強,但泛化能力較弱,如RBF徑向基核函數(shù)。本文構建的單一PS0-SVM只進行兩步預測,預測步長較短,因此優(yōu)先選擇RBF徑向基核函數(shù),設定RBF核函數(shù)參數(shù)σ的區(qū)間設置為[0.01,100];另一方面從實證分析結果發(fā)現(xiàn),采用RBF核函數(shù)構建的支持向量機模型建模階段及測試階段的精度均較高,說明選擇RBF徑向基核函數(shù)作為所構建模型的核函數(shù)可行。
滯后階數(shù)的選擇會很大程度影響預測模型的精度,如果選擇太短可能會導致精度較低,反之會增加模型運算的復雜程度。當期物流業(yè)發(fā)展態(tài)勢容易受到前期發(fā)展狀態(tài)的滯后影響,且當期的物流業(yè)運行狀態(tài)對未來物流業(yè)走勢的影響程度呈現(xiàn)衰減趨勢,故本文設定最大滯后影響期數(shù)為4。
借助Matlab 7.9.0工具編程實現(xiàn)所構建PSO-SVM組合預測模型的計算,模型參數(shù)按照上一步介紹參數(shù)設置,采用粒子群算法以交叉驗證意義下模型的均方根誤差最小作為函數(shù)優(yōu)化目標。圖2顯示滯后階數(shù)為1時,第5個單一預測模型參數(shù)的尋優(yōu)過程。可以直觀看出,隨著迭代次數(shù)的增加,最佳適應度曲線趨于穩(wěn)定;平均適應度曲線波動小,模型性能趨于穩(wěn)定;最終探索得到模型最佳懲罰系數(shù)C為0.7181,RBF核函數(shù)參數(shù)σ為19.587 2。限于篇幅原因,其他不同滯后階數(shù)模型的參數(shù)尋優(yōu)過程不再贅述。
整理得到不同滯后階數(shù)對應模型的擬合誤差和測試誤差,如表7所示。建模階段模型的均方根相對誤差從小到大排序對應的滯后階數(shù)為1,2,3,4階,測試階段模型的均方根相對誤差從小到大排序對應的滯后階數(shù)為1,4,2,3階。綜合四個模型結果,滯后階數(shù)為1模型的擬合誤差和測試誤差均最小,并且測試誤差明顯優(yōu)于其他3個模型,說明該模型的泛化能力明顯較強,因此模型的滯后階數(shù)選擇為1。
表7 不同滯后階數(shù)預測模型結果分析
圖3是模型的擬合以及測試結果,○標記的為原始值,*標記的為建模階段的擬合值,+標記的為測試階段的測試值,圖4為每個樣本的擬合值及測試值的相對誤差圖??芍庇^看出,大部分樣本的擬合相對誤差保持在3%以內(兩條直線代表相對誤差為-3%和3%),建模階段的均方根相對誤差為1.26%,說明該模型能夠較好擬合原始數(shù)據。但有兩個月份的擬合誤差偏大:2014年5月的擬合相對誤差為-4.47%,該月份受到五一勞動節(jié)和端午節(jié)兩個法定節(jié)假日影響,物流活動活躍度下降,導致實際值比擬合值小且偏離較多;2015年8月的擬合相對誤差為-4.34%,該月份福建省受高溫、臺風多雨天氣影響,物流業(yè)景氣度回落,導致實際值比擬合值小且偏離較多。
為了進一步驗證模型的效果,對模型進行測試,測試結果如表8所示。模型測試值最大相對誤差在1%左右,測試階段的均方根相對誤差為0.82%,說明模型測試效果良好。
表8 模型測試結果
為了檢驗模型的通用性,將本文提出的PSO-SVM物流業(yè)景氣指數(shù)組合預測模型應用到浙江省物流業(yè)景氣指數(shù)預測。從公開數(shù)據發(fā)現(xiàn),浙江省2014—2015年物流業(yè)景氣指數(shù)采用季度數(shù)據的方式公布。2016年1月起采用月度數(shù)據方式公布,為保持建模數(shù)據的一致性,選擇浙江省2016年1月至2020年7月的物流業(yè)景氣指數(shù)數(shù)據驗證模型,數(shù)據預處理方式及初始參數(shù)設置均按照上述過程進行。整理得到不同滯后階數(shù),浙江省物流業(yè)景氣指數(shù)預測模型的精度如表9所示。從表中可看出,滯后階數(shù)為4所對應的預測模型擬合誤差和測試誤差均最小,并且均方根相對誤差都小于3%,模型總體精度滿意,可用該模型預測浙江省物流業(yè)景氣指數(shù),說明本文構建的PSO-SVM物流業(yè)景氣指數(shù)組合預測模型具有較好通用性。
表9 不同滯后階數(shù)浙江省物流業(yè)景氣指數(shù)預測模型結果
從以上分析可知,本文構建的PSO-SVM物流業(yè)景氣指數(shù)組合預測模型的建模精度和測試精度均較為理想,具有良好的可信度,可用于福建省物流業(yè)景氣指數(shù)的預測。利用該模型預測福建省2020年8月至10月的物流業(yè)景氣指數(shù),結果如表10所示。
表10 未來3個月福建省物流業(yè)景氣指數(shù)預測結果
本文借鑒組合預測思想,提出PS0-SVM組合預測模型,以福建省物流業(yè)景氣指數(shù)預測為實證研究。建模階段的均方根相對誤差為1.26%,測試階段的均方根相對誤差為0.82%,是一個較為滿意的結果,并利用該模型預測未來三個月福建省物流業(yè)景氣指數(shù),得到以下結論:
第一,基于PSO-SVM模型的物流業(yè)景氣指數(shù)組合預測方法動態(tài)調整訓練集和預測集,每個單一模型進行兩步預測,再通過雙模型組合實現(xiàn)多步預測,同時充分發(fā)揮支持向量機極強的泛化能力優(yōu)勢,得到滿意的預測精度,該方法對于預測物流業(yè)景氣指數(shù)有效。
第二,引入新冠肺炎疫情對物流業(yè)的影響變量,根據疫情防控等級及持續(xù)天數(shù)設定變量值,并將該變量作為模型的輸入因子,得到了滿意的模型結果,說明本文所采取的新冠肺炎疫情對物流業(yè)影響的處理方式提供思路可行,為預測其他受疫情影響的經濟問題提供思路。
上述實證研究所采用的是月度數(shù)據,后續(xù)研究可考慮對月度數(shù)據進行預處理,得到季度數(shù)據或者年度數(shù)據,預測不同周期的物流業(yè)景氣指數(shù);可將本文提出PSO-SVM模型應用到其他類似預測問題研究,進一步驗證模型的有效性。