盧整智,高小燕,施曉燕
(1.蘭州城市學院 數(shù)學學院,甘肅 蘭州 730070;2.甘肅農(nóng)業(yè)大學 理學院,甘肅 蘭州 730070;3.西南財經(jīng)大學 統(tǒng)計學院,四川 成都 611130)
近年來,我國許多城市空氣質(zhì)量惡化,不斷遭到灰霾天氣的侵襲,尤其是2013年春冬兩季我國出現(xiàn)大范圍、持續(xù)性霾污染,致使PM2.5成為熱議.PM2.5指環(huán)境空氣中空氣動力學當量直徑小于等于 2.5 微米的顆粒物,它能較長時間懸浮于空氣中,其在空氣中含量濃度越高,就代表空氣污染越嚴重,與較粗的大氣顆粒物相比,PM2.5粒徑小,面積大,活性強,易附帶有毒、有害物質(zhì),且在大氣中的停留時間長、輸送距離遠,對人體健康和大氣環(huán)境質(zhì)量產(chǎn)生了非常嚴重的影響.因此,對PM2.5濃度做出科學的預測已成為城市環(huán)境質(zhì)量監(jiān)控的重要指標.縱觀國內(nèi)外對PM2.5濃度的預測研究,大多采用的是單項預測模型,比如張玉麗等[1]和劉文軍等[2]運用了多元回歸模型;許晟昊[3]和謝心慶等[4]采用了時間序列模型;韓婧等[5]采用了灰色預測模型;劉宇軒等[6]和李燚航等[7]采用了機器學習等預測方法,這些方法各有偏重,各有優(yōu)勢,但預測精度普遍不高.陳華友等[8]和程春英等[9]的研究表明,預測精度低是因為PM2.5不是一種單一成分的空氣污染物,而是由許多不同的化學成分一起組成的復雜可變的大氣污染物,單一模型很難全面、準確地反映PM2.5濃度的變化規(guī)律,所以預測精度較差.針對這一問題,本文嘗試采用靈活穩(wěn)健的非參方法GAM模型從非線性的角度將單個預測模型組合之后預測蘭州市空氣中PM2.5的濃度,以期提高模型預測精度.首先分別使用自回歸移動平均模型(ARMA)、條件異方差模型(ARCH)、非參數(shù)自回歸模型(NAR)對蘭州市PM2.5濃度進行預測,再利用基于等權(quán)組合法、誤差平方和倒數(shù)法、最優(yōu)權(quán)數(shù)法的組合預測模型預測蘭州市PM2.5濃度,最后利用基于GAM模型的組合預測模型對蘭州市PM2.5濃度做出預測,并比較了所有預測模型的有效性.
建立組合預測模型包括以下步驟:①單項預測模型的選擇.能否正確選擇單項預測模型直接影響預測結(jié)果的準確性,因此,在實際應(yīng)用中應(yīng)將研究對象的特點與單項預測模型的原理及條件結(jié)合起來,選擇合適的單項預測模型.②單項預測模型的組合方式.按照何種方式將不同的單項預測結(jié)果有效組合起來是提高組合預測模型的關(guān)鍵.③組合預測模型評價.構(gòu)建好組合預測模型之后,還需選取評價模型優(yōu)劣的指標反映組合預測模型的有效性.
1.1.1 線性時間序列模型
最普通的線性時間序列模型為自回歸移動平均模型(ARMA(p,q)),該模型常被用來描述響應(yīng)變量與其延遲變量間的線性關(guān)系,結(jié)構(gòu)為
(1)
其中:φ(B)=1-φ1B-…-φpBp為平穩(wěn)可逆ARMA(p,q)模型的自回歸系數(shù)多項式;θ(B)=1-?1B-…-?qBq為平穩(wěn)可逆ARMA(p,q)模型的移動平均系數(shù)多項式.
假定某個觀察值序列若通過預處理可以判定為平穩(wěn)非白噪聲序列,就可以利用ARMA模型擬合它.然而,在實際數(shù)據(jù)分析中,序列可能會呈現(xiàn)出時間趨勢或循環(huán)特征,并非平穩(wěn)序列,這就需要先對數(shù)據(jù)作差分消除趨勢性或季節(jié)性使之變平穩(wěn)后再用ARMA模型進行擬合.
從Yule(1972)關(guān)于太陽黑子數(shù)ARMA建模的開拓性工作至今,線性時間序列模型研究取得了極大的進展,許立平等[10]認為由于線性時間序列模型簡單、靈活,所以在應(yīng)用時間序列分析中發(fā)揮著積極的作用.
1.1.2 非線性時間序列模型
19世紀50年代,P A P Moran在對加拿大山貓數(shù)據(jù)建模的文章中提到了數(shù)據(jù)的“怪異”特征,即后來被解釋為在種群波動的不同階段有“控制效應(yīng)”,這種特征超出了線性時間序列模型研究的范圍,如若再用線性時間序列分析的方法擬合這種序列,會丟失大量的信息,擬合效果不佳,因此,張延利等[11]開始了對非線性時間序列模型的研究.
非線性時間序列模型早期的發(fā)展主要是參數(shù)非線性模型,有自回歸條件異方差模型(ARCH)、門限自回歸模型(TAR)、平滑轉(zhuǎn)移模型(STR)、指數(shù)自回歸模型(EXPAR)及雙線性模型(BL)等.近年來,隨著計算機的發(fā)展,非線性、非參數(shù)模型作為一種新方法,以更高的估計精度在時間序列分析中越來越廣泛地被應(yīng)用,主要有非參數(shù)自回歸模型(NAR)、非參數(shù)VAR模型族、非參數(shù)面板模型等,非線性、非參數(shù)時間序列模型的優(yōu)點在于讓數(shù)據(jù)說話,克服了特定參數(shù)模型的主觀性.
根據(jù)蘭州市PM2.5濃度的數(shù)據(jù)特征,本文選取條件異方差模型(ARCH)和非參數(shù)自回歸模型(NAR)對序列進行預測,以下是對這兩個模型的介紹.
(1)ARCH模型
假設(shè)時間序列{Yt}服從如下回歸模型:
Yt=Xt′ξ+εt,
(2)
其中:Xt′是解釋變量向量,它可以包含解釋變量的滯后項;ξ是回歸參數(shù)向量;{εt}是擾動序列,如果擾動序列{εt}滿足:
εt|Ωt-1~N(0,σ2),ht=h(εt-1,…,εt-q) ,
(2)NAR模型
假設(shè){Yt}為一時間序列,Xt∈Rp是由Yt∈R的滯后項組成,即Xt=(Yt-1,Yt-2,…,Yt-p)′,則NAR模型可以描述為
Yt=m(Xt)+εt,
(3)
擾動序列{εt}獨立同分布且滿足:
E(εtεs)=0,s≠t,E(Xsεt)=0,?s 在NAR模型中,采用Chen和Tang提出的Cross-Validation方法來確定滯后階數(shù)p,其原理是:令Xt(p)=(Yt-1,Yt-2,…,Yt-p)′,定義 目前,國內(nèi)外很多領(lǐng)域的預測大多采用單項模型,但是單項模型都有各自的特點和應(yīng)用的局限性,且使用數(shù)據(jù)的信息有限,因此,近年來,一些學者創(chuàng)新性地建立了組合預測模型.比如莫東序[12]和王學梅等[13]分別運用組合預測模型對中國GDP和PM2.5進行了預測,結(jié)果表明組合預測模型的預測精度高于單一預測模型.理論和實踐研究都表明,在諸種單個預測模型各異且數(shù)據(jù)來源不同的情況下,組合預測模型比任何一個獨立預測模型的預測結(jié)果都好,且組合預測模型能夠減少預測的系統(tǒng)誤差,顯著改進預測效果. 組合預測模型的普遍形式是采用不同的單項預測模型對同一問題進行預測,再將單項預測模型進行加權(quán)平均得到組合模型,如果加權(quán)系數(shù)賦值合理,組合預測模型的預測精度會相應(yīng)提高.目前,學者們常用的賦權(quán)方法有等權(quán)平均法、誤差平方和倒數(shù)法和最優(yōu)權(quán)數(shù)法,下面分別介紹這三種方法. 1.2.1 等權(quán)平均法 (4) 1.2.2 誤差平方和倒數(shù)法 (5) 1.2.3 最優(yōu)權(quán)數(shù)法 最優(yōu)權(quán)數(shù)法的基本原理是:首先依據(jù)某種最優(yōu)準則構(gòu)造目標函數(shù)Q,再在約束條件下極小化Q,求得組合模型的權(quán)系數(shù).其中目標函數(shù)依據(jù)誤差而定,如絕對誤差、誤差平方和等.目標函數(shù)的極小化準則有最小二乘準則、極小極大化準則等.最優(yōu)權(quán)數(shù)組合預測模型的定義為: 的解,其中: 于是,該組合預測模型為 (6) 論文1.2節(jié)介紹的三種組合預測模型中,基于等權(quán)平均法和誤差平方和倒數(shù)法的組合預測模型雖然在給單項預測模型賦權(quán)時原理簡單、便于計算,但是事先已經(jīng)設(shè)定了組合模型的形式,預測效果不是很理想.最優(yōu)權(quán)數(shù)法組合預測模型的建立嚴格依賴于最優(yōu)準則,另外對于最優(yōu)權(quán)重問題到現(xiàn)在也沒有定論,鑒于此,本文嘗試采用基于廣義可加模型(GAM)將單個預測模型進行組合,以期克服以上組合預測模型的缺點. GAM模型一般用來探測非線性回歸,形式為 (7) 其中:α為截距項;fi(·)是平滑函數(shù),是針對于每個解釋變量的任意單變量函數(shù),是非指定類別的非參數(shù)函數(shù),其估計方法可以是局部多項式回歸函數(shù)、光滑樣條函數(shù),平滑參數(shù)的選擇可以是交叉驗證法和廣義交叉驗證法,Y的分布可以是正態(tài)分布、卡方分布和二項分布等.廣義可加模型是由多元線性回歸模型變換而來,無需再去設(shè)定變量之間是線性關(guān)系,模型應(yīng)用更為廣泛,可以探尋到變量間的真實的關(guān)系.其關(guān)鍵就在于對于線性回歸模型的因變量做了函數(shù)處理,這就需要用非參數(shù)回歸方法估計函數(shù)的形式. 非參數(shù)回歸方法是近年統(tǒng)計學發(fā)展的重要方向,在實際應(yīng)用中因其具有不需要先驗知識、不需要預先設(shè)定回歸函數(shù)的具體形式、適應(yīng)能力強、穩(wěn)健性高及回歸模型完全由數(shù)據(jù)驅(qū)動等優(yōu)點被廣泛關(guān)注.非參數(shù)回歸模型的基本形式: Y=m(X1,X2,…,Xp)+ε. (8) 對式中的m(X)只作連續(xù)性或光滑性的要求,ε~NID(0,σ2).目前已有多種估計m(X)的方法,最基本的有核估計、局部多項式回歸和光滑樣條回歸等.但是當模型中的自變量個數(shù)較多時,以上方法的估計方差會加大,此外,基于核與光滑樣條估計的非參數(shù)回歸中自變量與因變量之間關(guān)系解釋起來非常困難.于是1985年Stone 提出加性模型AM (Additive Models),模型中每一個加性項使用單個光滑函數(shù)來估計,每一加性項中可以解釋因變量如何隨自變量變化而變化,很好地解決了上述問題. 不同模型對同一現(xiàn)象的預測效果不盡相同,如何從這些模型中選出一個預測精度較高的模型是預測建模過程中的一個重要問題. 目前各類預測方法所使用的誤差評價指標大多直接采用統(tǒng)計學指標評價模型預測結(jié)果,主要有誤差均值(ME)、絕對值平均誤差(MAE)、均方根誤差(RMSE)、平均相對誤差(MRE)、誤差平方和(SSE)和平均絕對百分比誤差(MAPE)等,在PM2.5預測中,常用的指標有SSE和MAPE,以下是這些指標的定義. (9) MAPE指標定義為 (10) 其中,ME指標沒有考慮到預測時出現(xiàn)正負誤差相抵導致ME是一個較小的值,可能對結(jié)果造成誤判; SSE和MAPE不存在正負抵消,都是基于先逐點求和再平均的思想,易于計算,可以對預測模型的優(yōu)劣做評價. 以中國空氣質(zhì)量在線監(jiān)測平臺(https://www.aqistudy.cn/) 的數(shù)據(jù)為來源,選取蘭州市PM2.5濃度自2019年5月1日至2020年12月21日每天收集的數(shù)據(jù)600條,缺失數(shù)據(jù)8個,采用K近鄰方法進行插補.本文所有的統(tǒng)計分析均使用R 3.3.1軟件. 2.2.1ARMA模型預測結(jié)果 在建立ARMA模型之前,需要檢驗序列的平穩(wěn)性和純隨機性.采用ADF檢驗蘭州市PM2.5序列的平穩(wěn)性,得到的P值為0.0278,故拒絕存在單位根的原假設(shè).用LM-Q統(tǒng)計量檢驗序列的純隨機性,得到的P值為0.0435,故拒絕序列為純隨機序列的原假設(shè).由以上檢驗結(jié)果可知:蘭州市PM2.5序列為平穩(wěn)非純隨機序列,故可用ARMA模型進行擬合.下面做出序列的自相關(guān)系數(shù)(ACF)圖(如圖1所示)和偏自相關(guān)系數(shù)(PACF)圖(如圖2所示),來確定模型的滯后階數(shù). 圖1 蘭州市PM2.5的自相關(guān)系數(shù)圖 圖2 蘭州市PM2.5的偏自相關(guān)系數(shù)圖 由圖1的自相關(guān)系數(shù)圖可以看出,序列的ACF 6階截尾;由圖2的偏自相關(guān)系數(shù)圖可以看出,序列的PACF 2階截尾,因此很難用傳統(tǒng)的B-J方法確定模型的階數(shù),只能通過反復對模型進行估計比較不同模型的參數(shù)及總體顯著性確定模型的階數(shù).首先用MA(6)、AR(2)和ARMA(1,6)擬合原序列,剔除不顯著變量后依據(jù)AIC準則選出最優(yōu)模型為疏系數(shù)模型ARMA(1,(1,6)),擬合結(jié)果如表1所列. 表1 蘭州市PM2.5濃度的ARMA(1,(1,6))模型預測結(jié)果 2.2.2 ARCH模型預測結(jié)果 先做出蘭州市PM2.5的時序圖(如圖3所示),直觀上判斷序列是否存在波動性和及集聚性.從圖3可以看出,蘭州市PM2.5呈現(xiàn)出一段時間內(nèi)波動性較高,另一段時間內(nèi)又出現(xiàn)較小波動的現(xiàn)象,表明蘭州市PM2.5濃度具有集群效應(yīng),該序列存在異方差性.因此,需要先用ARMA模型提取序列的線性相關(guān)性,再對殘差序列用ARCH-LM方法進行異方差檢驗,看是否適合建立ARCH模型擬合存在異方差性的殘差序列. 圖3 蘭州市PM2.5的時序圖 由2.2.1的分析可知,可先對蘭州市PM2.5濃度用ARMA(1,(1,6))進行預測提取線性成分,再對殘差序列進行ARCH效應(yīng)檢驗,結(jié)果如表2所列. 表2 殘差序列的異方差ARCH-LM檢驗 由表2結(jié)果可知,F(xiàn)統(tǒng)計量顯著,表明殘差序列存在ARCH效應(yīng),因此,可以對殘差序列采用ARCH(1)模型進行擬合,消除異方差,模型估計結(jié)果如下: 2.2.3NAR模型預測結(jié)果 對蘭州市PM2.5建立非參數(shù)自回歸模型: PMt=m(PMt-1,PMt-2,…,PMt-p)+εt, (11) 其中:{εt}獨立同分布,且滿足: E(εtεs)=0,s≠t,E(Xsεt)=0,?s 2.2.4 基于GAM模型的組合預測 (12) 其中,fi(·)(i=1,2,3)為自然立方樣條,通過最小化懲罰殘差平方和得到. 其中,λj為調(diào)節(jié)參數(shù),其可以平衡數(shù)據(jù)的擬合優(yōu)度和待估參數(shù)的光滑度.本文通過R 3.3.1中的MGCV程序包擬合GAM模型得到,通過最小化GCV(Generalized Cross Validation)來適當選擇調(diào)節(jié)參數(shù),GCV的定義為: 為了驗證本文提出的基于GAM的組合預測模型的有效性,參考已有研究,選用1.4節(jié)式(9)表示的誤差平方和(SSE)和式(10)表示的平均絕對百分比誤差(MAPE)兩個指標評價模型的預測效果.預測模型的SSE和MAPE的值越小,表明預測值偏離真實值的程度越小,模型的預測效果越好.分別計算ARMA模型、ARCH模型、NAR模型、基于等權(quán)平均的組合預測模型、基于誤差平方和倒數(shù)法的組合預測模型、基于最優(yōu)權(quán)數(shù)法的組合預測模型、基于GAM的組合預測模型預測的蘭州市PM2.5濃度的SSE和MAPE,結(jié)果如表3所列. 表3 各預測模型的SSE和MAPE 從表3的結(jié)果可以看出,3個單項預測模型的SSE和MAPE均大于4種組合預測,驗證了組合預測模型的預測效果優(yōu)于單項預測模型.本文提出的基于GAM方法的組合模型的SSE和MAPE均小于其他三種組合預測模型,其預測效果最好. 由于單項模型各自的缺陷及利用的信息有限,用單項模型進行預測時一般誤差較大,而通過一定的方式將單項預測模型進行組合可以提高預測精度.但是現(xiàn)有的組合預測模型大都是利用不同的準則確定了單項模型的權(quán)重,而在現(xiàn)實中,單項模型預測值與原序列值的關(guān)系通常是很復雜的,而GAM模型恰好可以刻畫被解釋變量與解釋變量之間的復雜關(guān)系,因此,本文提出基于GAM方法的組合預測模型,且通過實證分析了該模型的有效性. 實證結(jié)果表明:基于GAM方法將ARMA、ARCH和NAR組合起來的預測模型不光優(yōu)于這三個單項預測模型,還優(yōu)于利用等權(quán)平均法、誤差平方和倒數(shù)法和最優(yōu)權(quán)數(shù)法等組合的預測模型,具有很好的應(yīng)用前景.1.2 單項預測模型的組合方式
1.3 基于GAM方法的組合預測模型
1.4 模型評價
2 基于GAM方法的組合預測模型的應(yīng)用
2.1 數(shù)據(jù)來源及說明
2.2 PM2.5濃度預測
2.3 不同模型的預測效果評價
3 結(jié)束語