劉晴晴
(安徽大學(xué),安徽 合肥230601)
組合預(yù)測(cè)是各單項(xiàng)預(yù)測(cè)方法的加權(quán)平均,通過(guò)提取各種單項(xiàng)方法賦予的有用信息來(lái)提高整體預(yù)測(cè)精度[1]。近年來(lái),組合預(yù)測(cè)模型的獨(dú)特優(yōu)勢(shì)獲得了眾多國(guó)內(nèi)外學(xué)者的青睞,是未來(lái)組合預(yù)測(cè)發(fā)展的方向,已廣泛應(yīng)用于經(jīng)濟(jì)、交通、環(huán)境等各個(gè)領(lǐng)域[2-5]。目前組合預(yù)測(cè)的發(fā)展大多基于定權(quán)系數(shù)來(lái)構(gòu)建模型,這樣就忽略了各單項(xiàng)預(yù)測(cè)方法預(yù)測(cè)數(shù)據(jù)之間的相互關(guān)系。為了進(jìn)一步提高預(yù)測(cè)的性能和適應(yīng)性,有必要探索變權(quán)重的組合預(yù)測(cè)模型。本文將K 近鄰算法運(yùn)用于變權(quán)組合預(yù)測(cè)模型預(yù)測(cè)時(shí)點(diǎn)權(quán)系數(shù)的計(jì)算上。以傳統(tǒng)的變權(quán)組合預(yù)測(cè)權(quán)系數(shù)的計(jì)算方法為基礎(chǔ),利用K 近鄰算法來(lái)篩選與預(yù)測(cè)時(shí)點(diǎn)最相關(guān)的已發(fā)生時(shí)點(diǎn)來(lái)計(jì)算預(yù)測(cè)時(shí)點(diǎn)的權(quán)重,而不是將已發(fā)生時(shí)點(diǎn)進(jìn)行簡(jiǎn)單平均,這樣確定的預(yù)測(cè)時(shí)點(diǎn)的權(quán)重就會(huì)避免更多不相關(guān)信息。
簡(jiǎn)單平均法確定的預(yù)測(cè)權(quán)重是對(duì)過(guò)去連續(xù)時(shí)間點(diǎn)的最優(yōu)權(quán)重進(jìn)行平均,很明顯這樣確定的預(yù)測(cè)時(shí)點(diǎn)的權(quán)重會(huì)涵蓋多個(gè)不相關(guān)時(shí)點(diǎn)的信息。
K 近鄰算法是基于某種距離度量找出某樣本與其最近的K個(gè)樣本的一類算法[6],本文引入此方法來(lái)篩選與預(yù)測(cè)時(shí)點(diǎn)最相關(guān)的時(shí)點(diǎn)以解決傳統(tǒng)簡(jiǎn)單平均法在計(jì)算預(yù)測(cè)時(shí)點(diǎn)權(quán)重時(shí)的信息冗余問(wèn)題。
本文將選擇武漢市2018 年8 月20 日至2019 年8 月20 日的PM2.5 濃度數(shù)據(jù)進(jìn)行實(shí)驗(yàn),使用的單項(xiàng)預(yù)測(cè)方法包括自回歸滑動(dòng)平均(ARIMA)模型、支持向量回歸(SVR)模型、人工神經(jīng)網(wǎng)絡(luò)(ANN)模型和長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)模型。為了降低計(jì)算的復(fù)雜度并保證維度相同,本文對(duì)每個(gè)時(shí)間節(jié)點(diǎn)取相同個(gè)數(shù)的近鄰。通過(guò)實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)本文PM2.5 濃度預(yù)測(cè)中設(shè)定k 為6時(shí)取得了最好的實(shí)驗(yàn)效果。為了驗(yàn)證基于K 近鄰的變權(quán)組合預(yù)測(cè)模型效果,本文將定權(quán)組合預(yù)測(cè)模型與簡(jiǎn)單平均法的變權(quán)組合預(yù)測(cè)模型也納入實(shí)驗(yàn)對(duì)比中。圖1 顯示了30%測(cè)試集范圍內(nèi)PM2.5 濃度的預(yù)測(cè)值與觀測(cè)值的擬合序列對(duì)比。
圖1 三種組合預(yù)測(cè)模型的擬合序列圖
圖1 中,模型1 為基于簡(jiǎn)單平均法的變權(quán)組合預(yù)測(cè),模型2為本文基于K 近鄰法的變權(quán)組合預(yù)測(cè),模型3 為定權(quán)組合預(yù)測(cè)。圖1 表明,三種組合預(yù)測(cè)的結(jié)果與PM2.5 濃度的真實(shí)時(shí)間序列趨勢(shì)大體上是一致的,但是兩種變權(quán)組合預(yù)測(cè)更能有效地模擬PM2.5 濃度的時(shí)間序列變化特征,尤其是本文提出的基于K 近鄰的變權(quán)組合預(yù)測(cè)模型對(duì)一些明顯高于或低于鄰近值的特殊點(diǎn),也能實(shí)現(xiàn)很好的預(yù)測(cè)。
本文采用誤差平方和(SSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均絕對(duì)百分比誤差(MAPE)四個(gè)預(yù)測(cè)誤差指標(biāo)對(duì)模型進(jìn)行評(píng)估。表1 列出了三種不同組合預(yù)測(cè)模型的預(yù)測(cè)精度。
表1 三種不同組合預(yù)測(cè)模型的預(yù)測(cè)精度
以上結(jié)果顯示SSE、RMSE、MAE 和MAPE 四種預(yù)測(cè)誤差在模型2 中都是最小的,很明顯可以看出兩種變權(quán)組合預(yù)測(cè)模型的精度要高于定權(quán)組合預(yù)測(cè)模型的精度,變權(quán)組合預(yù)測(cè)模型2的效果又比變權(quán)組合預(yù)測(cè)模型1 的效果好。
為了更好的展示預(yù)測(cè)值與觀測(cè)值的效果,分別繪制模型1(變權(quán))、模型2(變權(quán))以及模型3(定權(quán))之間的擬合效果如圖2所示。
與圖1 的結(jié)果一致,三種組合預(yù)測(cè)模型都能有效地模擬觀測(cè)值的時(shí)間序列特征,但是與觀測(cè)值之間的解釋方差分別為94.7%、95.2%和96.7%,因此擬合效果由低到高為模型3(定權(quán))、模型1(變權(quán))和模型2(變權(quán)),說(shuō)明本文提出的基于K 近鄰的變權(quán)組合預(yù)測(cè)模型對(duì)PM2.5 濃度時(shí)間序列特征具有更好地捕捉性能。
本文從變權(quán)組合預(yù)測(cè)模型的預(yù)測(cè)時(shí)點(diǎn)權(quán)重的計(jì)算方法作為出發(fā)點(diǎn),為改進(jìn)傳統(tǒng)的簡(jiǎn)單平均法,提出了基于K 近鄰算法的變權(quán)組合預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明本文基于K 近鄰的變權(quán)組合預(yù)測(cè)模型的預(yù)測(cè)效果有著明顯優(yōu)勢(shì)。無(wú)論是在擬合效果還是誤差評(píng)估中都表現(xiàn)出了優(yōu)于其他對(duì)比模型的預(yù)測(cè)性能和穩(wěn)定性。
圖2 三種不同組合預(yù)測(cè)模型的擬合效果
科學(xué)技術(shù)創(chuàng)新2021年14期