韋凌翔 董建軍 陳志龍 王 姝
(鹽城工學(xué)院材料科學(xué)與工程學(xué)院1) 鹽城 224051) (南京工業(yè)大學(xué)土木工程學(xué)院2) 南京 211800)(中國陸軍工程大學(xué)國防工程學(xué)院3) 南京 210007)
貨運量對于物流需求的確定及其相關(guān)基礎(chǔ)設(shè)施建設(shè)、各項相關(guān)政策的制定都具有重要意義,因此對貨運量的研究就成為了發(fā)展物流及其相關(guān)產(chǎn)業(yè)的重要依據(jù)[1-3].城市貨運量預(yù)測對該城市的物流園區(qū)規(guī)劃與建設(shè)、港口碼頭設(shè)計與建設(shè)、道路交通規(guī)劃與布局、城市投資引導(dǎo)等都具有重要作用[4-5].
城市貨運量時間序列預(yù)測模型是在統(tǒng)計、分析和挖掘貨運量資料的基礎(chǔ)上,研究貨運量變化規(guī)律,預(yù)測貨運量時間序列數(shù)據(jù)趨勢的一種模型[6-7].因此,開展這方面研究是城市貨運需求預(yù)測和城市物流規(guī)劃的基礎(chǔ)性工作,同時也為分析城市貨運量變化規(guī)律、提高預(yù)測精度提供理論依據(jù).
國內(nèi)外學(xué)者已針對城市貨運量時間序列預(yù)測開展了多方面研究,城市貨運量預(yù)測模型主要分為定性預(yù)測和定量預(yù)測兩大類.其中定性預(yù)測方法常采用物流貨運市場調(diào)查法、德爾非法等,定量預(yù)測包括線性模型和非線性模型等.線性模型主要運用時間序列法、回歸分析法以及灰色預(yù)測模型等,非線性模型主要運用人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、最小二乘支持向量機(jī)、馬爾科夫模型等.具體典型研究分析如下:文獻(xiàn)[8-10]分別驗證了逐步多元線性回歸模型、灰色馬爾可夫預(yù)測模型、時間序列模型等方法對城市貨運量時間序列預(yù)測的有效性;文獻(xiàn)[11-12]等認(rèn)為傳統(tǒng)的回歸模型無法較好地顯示城市貨運量時間序列數(shù)據(jù)的內(nèi)在相關(guān)性,證實參數(shù)之間存在非線性關(guān)系;文獻(xiàn)[13-15]等分別構(gòu)建了支持向量機(jī)(SVM)、自組織神經(jīng)網(wǎng)絡(luò)模型、改進(jìn)BP神經(jīng)網(wǎng)絡(luò)模型的貨流預(yù)測方法,進(jìn)一步證明了城市貨運量時間序列的變化呈現(xiàn)出某種隨機(jī)波動的特征.
綜上所述,城市貨運量時間序列具有一定的可預(yù)測性,其產(chǎn)生和變化機(jī)理受到各種客觀因素影響,造成其趨勢特征不全屬于隨機(jī)性質(zhì),數(shù)據(jù)噪聲中既包含線性關(guān)系,又包含非線性關(guān)系.因此,文中擬運用非線性關(guān)系的學(xué)習(xí)理論——相關(guān)向量機(jī)(relevance vector machine,RVM)[16-18]模型,構(gòu)建城市貨運量時間序列預(yù)測方法,有效地提高城市貨運量時間序列預(yù)測精度.
城市貨運量時序預(yù)測模型監(jiān)督學(xué)習(xí)的目的是應(yīng)用訓(xùn)練數(shù)據(jù)和先驗知識建立一個預(yù)測系統(tǒng),輸入新的時刻序列xn,輸出城市貨運量時間序列預(yù)測值qn.實際采集到的城市貨運量序列設(shè)為tn,tn可看作未知函數(shù)q(xn,w)被方差為σ2的高斯噪聲污染所至.具體函數(shù)關(guān)系為
(1)
式中:w為權(quán)參數(shù)向量,w=(w0,w1,…,wN);εn是一個相對獨立且具備相同分布的高斯白噪聲,并且均值為0,其方差為σ2;另外,設(shè)φi(x)≡K(x,xi),其中,φi(x)為非線性基函數(shù),K(x,xi)為核函數(shù).因此,實際采集到的城市貨運量序列數(shù)據(jù)tn的分布函數(shù)可設(shè)為p(tn|x)=N(tn|q(xn),δ2),其中,q(xn)為城市貨運量序列數(shù)據(jù)的平均值,σ2為城市貨運量序列數(shù)據(jù)的方差,也相當(dāng)于實際數(shù)據(jù)tn與其城市貨運量序列數(shù)據(jù)q(xn)的算術(shù)平均值離差平方和的平均數(shù).方差是用于檢測運算數(shù)據(jù)是否比變異及變異程度高低的最首要、最普遍的指標(biāo).鑒于假設(shè)實際數(shù)據(jù)tn是彼此獨立存在的,不具有依賴性,從而關(guān)于城市貨運量預(yù)測的時間序列集的最大似然估計可寫為
(2)
式中:t=(t1,t2,…,tN)T;Φ為N×(N+1)矩陣,Φ=(Φ1,Φ2,…,ΦN)T,Φ(xn)=(1,K(xn,x1),K2(xn,x2),…,k(xn,xN)T.
由于構(gòu)建預(yù)測模型中存在較多參數(shù),采用最大似然估計由式(2)得到的w和σ2易于導(dǎo)致過擬合,因此,依據(jù)RVM模型參數(shù)確定思路,采用稀疏貝葉斯原理對w賦予0均值高斯先驗分布得:
(3)
式中:α為N+1維的超參數(shù)向量.這樣,每一個權(quán)重就單獨地對應(yīng)一個超參數(shù),從而控制先驗分布對各參數(shù)的影響,以確保RVM模型的稀疏性.
在定義先驗概率分布與似然分布后,根據(jù)貝葉斯原理,可求得所有未知參數(shù)的后驗概率分布為
(4)
后驗協(xié)方差矩陣與均值分別為
∑=[δ-2ΦTΦ+A]-1
(5)
μ=δ-2∑ΦTt
(6)
式中:A=diag(α0,α1,…,αN).
關(guān)于α對數(shù)邊緣似然:
L(α)=lnp(t|α,δ2)=
(7)
基于最大期望超參數(shù)估計,α和σ2的值可以通過迭代算法求得,在迭代學(xué)習(xí)過程中,通過式(4)~(6)可得所對應(yīng)的權(quán)值w趨于0,其與預(yù)測值無關(guān),這樣就只有很少的樣本點在起到作用,那些非0權(quán)值w對應(yīng)的數(shù)據(jù)點被稱作相關(guān)向量,體現(xiàn)了數(shù)據(jù)中最核心的特.
從理論上說,關(guān)于城市貨運量的預(yù)測本文中可以使用任意核函數(shù)進(jìn)行預(yù)測,相關(guān)向量機(jī)的內(nèi)核函數(shù)選擇具有隨意性,可以不受任何Mercer條件約束的限制[19].但現(xiàn)實運用的條件下,不得不選擇常用的核函數(shù)來進(jìn)行計算,由于其具有普遍性,從而得到的結(jié)果也會更具有代表性.例如:線性核函數(shù)(linear kernel,LK)、多項式核函數(shù)(polynomial kernel,PK)、高斯徑向基核函數(shù)(gaussian kernel,GK)等即是幾種常見的內(nèi)核函數(shù).文中將構(gòu)建由LK,PK,GK 此3種內(nèi)核函數(shù)組成的RVM內(nèi)核函數(shù)集合.
如果將x*設(shè)為已知的新的輸入時間序列,t*為與之相對應(yīng)的城市貨運量時間序列預(yù)測目標(biāo),那么相應(yīng)的城市貨運量預(yù)測輸出的概率分布的預(yù)測函數(shù)為
(8)
另外,連續(xù)的輸入時間序列x,并且按照式q=μTΦ(x)進(jìn)行計算,則可得到輸出的城市貨運量時間序列的預(yù)測值.
將城市貨運量融入基于RVM的時間序列預(yù)測模型中,設(shè)計城市貨運量預(yù)測的流程圖,見圖1.
圖1 城市貨運量預(yù)測的流程圖
鑒于均方根誤差(root mean square error,RMSE)是相對于原始數(shù)據(jù)的平均值而展開的,因此其能夠有效的反映出預(yù)測模型誤差的水平.因此,文中將選取RMSE作為評價城市貨運量的時間序列預(yù)測模型精確度指標(biāo).此外,為驗證模型靈敏情況選擇預(yù)測模型訓(xùn)練時間作為指標(biāo).具體計算公式為
(9)
式中:R為RMSE.
以南京市貨運總量、公路貨運總量、鐵路貨物量為研究對象,構(gòu)建城市貨運量時間序列集,見圖2.
圖2 南京市城市貨運量數(shù)數(shù)據(jù)
數(shù)據(jù)歸一化處理能有效減少函數(shù)預(yù)測中由于某數(shù)據(jù)或某數(shù)據(jù)值過大或存在量綱而導(dǎo)致的誤差影響.因此,采用式(10)將城市貨運量數(shù)據(jù)分別歸一化到[0,1]區(qū)間,從而削弱RVM預(yù)測訓(xùn)練中帶來的誤差影響.
(10)
利用Matlab,設(shè)置迭代次數(shù)的最大值為R=1 500;由于GK學(xué)習(xí)能力較強(qiáng),并被廣泛用于高、低維、小樣本等多種情況[19],因此可將其作為對貨運量時間序列模型的預(yù)測訓(xùn)練,采用核函數(shù)參數(shù)?=3.0的GK對該模型進(jìn)行預(yù)測訓(xùn)練.然而,由于常用預(yù)測模型的種類具有多樣性,為了體現(xiàn)基于RVM的城市貨運量時序序列預(yù)測模型的獨特性,另外選擇了灰色預(yù)測模型、自回歸移動平均模型(時間系列模型)、支持向量機(jī)模型(support vector machine,SVM)等3種不同類型的預(yù)測模型,對同一組城市貨運量數(shù)據(jù)分別進(jìn)行預(yù)測分析,得到了4組不同的RMSE數(shù)據(jù)值,對比情況見圖3.
圖3 4種不同模型的RMSE值對比示意圖
由圖3可知,對比不同城市貨運量預(yù)測模型的RMSE值,基于RVM的城市貨運量時序序列預(yù)測模型的RMSE值均低于其他3種模型,說明了本文提出的預(yù)測模型具有較高的預(yù)測精度及成效,能夠有效的預(yù)測城市貨運量的發(fā)展情況.因此,利用上述的初始參數(shù),結(jié)合本文所研究的RVM預(yù)測模型,利用南京市貨運總量、公路貨運總量、鐵路貨物量3個指標(biāo)進(jìn)行訓(xùn)練,以預(yù)測年之前數(shù)據(jù)為訓(xùn)練數(shù)據(jù)、預(yù)測年的實際數(shù)據(jù)為驗證數(shù)據(jù),得到歸一化后的城市貨運量預(yù)測曲線圖,具體見圖4.輸出的均方根誤差值、向量機(jī)個數(shù)等預(yù)測參數(shù)值,見表1.
圖4 城市貨運量預(yù)測曲線
表1 本文構(gòu)建模型的城市貨運量預(yù)測輸出相關(guān)參數(shù)
由圖4和表1可知:①整體上看,該預(yù)測模型對預(yù)測城市貨運量的適用性較好,對比其他3種模型,本文所研究模型對3個預(yù)測指標(biāo)的RMSE值都相對較小,且試驗表明該模型的訓(xùn)練時間較短,由此得出,城市貨運量時間序列預(yù)測模型具有耗時短、精確度高、學(xué)習(xí)能力強(qiáng)等優(yōu)勢;②在不同城市貨運量預(yù)測指標(biāo)參數(shù)下,對比其向量機(jī)個數(shù)與樣本數(shù)目有顯著的差異性:樣本數(shù)目明顯大于向量機(jī)個數(shù),而向量機(jī)的數(shù)量則表示預(yù)測曲線中有效的采樣點.從而,該結(jié)論反映出通過少量向量機(jī)個數(shù)的變化可以分析體現(xiàn)出整體數(shù)據(jù)的變化趨勢,進(jìn)一步驗證了城市貨運量時間序列預(yù)測模型具有較好的稀疏性,能夠有效預(yù)測城市貨運量.
1) 本文構(gòu)建的模型具有良好的預(yù)測效果,可避免由于調(diào)查數(shù)據(jù)缺失造成的預(yù)測精度降低等問題,可作為交通事故預(yù)測參考模型,為實現(xiàn)更為精準(zhǔn)的城市貨運量預(yù)測提供了新的理論方法.
2) 城市貨運量時間序列變化趨勢不僅與自身變化趨勢相關(guān),還受到城市國內(nèi)經(jīng)濟(jì)生產(chǎn)總值、城市就業(yè)人數(shù)與崗位數(shù)等指標(biāo)影響,因此,綜合考慮影響城市貨運量時間序列因素的預(yù)測模型還有待進(jìn)一步研究.