魏艷華,王丙參,包麗莉
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,甘肅 天水 741001)
國(guó)民生產(chǎn)總值(GDP)反映了某地區(qū)總體經(jīng)濟(jì)狀態(tài),是政府制定宏觀經(jīng)濟(jì)政策的主要依據(jù).另外,GDP也常常作為預(yù)測(cè)模型的重要變量,非常重要.[1]正是因?yàn)橐陨显?,許多學(xué)者利用各種模型與算法對(duì)GDP進(jìn)行預(yù)測(cè),以便對(duì)國(guó)民經(jīng)濟(jì)發(fā)展提供決策依據(jù).[2-4]對(duì)GDP數(shù)據(jù)構(gòu)成的時(shí)間序列進(jìn)行預(yù)測(cè),主要方法有兩類(lèi):[4]一是確定性分析,如曲線回歸、移動(dòng)平均法、灰色預(yù)測(cè)法等,其結(jié)果易于解釋?zhuān)捎谠擃?lèi)方法只利用了確定性信息,沒(méi)有利用隨機(jī)信息,故精度有限;二是隨機(jī)性分析,比如ARIMA模型、條件異方差模型,這類(lèi)方法不僅利用了確定性信息,也利用了隨機(jī)信息,提高了精度,但缺點(diǎn)是不便于直觀解釋.本文根據(jù)甘肅省1978~2016年的GDP,分別建立了ARIMA模型與兩個(gè)殘差自回歸模型并進(jìn)行比較分析,建議優(yōu)先采用利用延遲因變量建立的殘差自回歸模型進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行分析,對(duì)政府制定經(jīng)濟(jì)策略提供參考.
對(duì)差分平穩(wěn)時(shí)間序列(即經(jīng)差分后會(huì)變?yōu)槠椒€(wěn)時(shí)間序列的非平穩(wěn)時(shí)間序列)可以用ARIMA模型進(jìn)行擬合.[1-3]ARIMA(p,d,q)模型結(jié)構(gòu)如下:
對(duì)于一個(gè)時(shí)間序列,首先要進(jìn)行預(yù)處理,即平穩(wěn)性檢驗(yàn)與白噪聲檢驗(yàn).平穩(wěn)性檢驗(yàn)方法主要有:
(1)時(shí)序圖法.根據(jù)平穩(wěn)序列的均值和方差均為常數(shù)可知,平穩(wěn)序列的時(shí)序圖應(yīng)該始終在一個(gè)常數(shù)附近隨機(jī)波動(dòng),且波動(dòng)范圍有界,反之則否.
(2)自相關(guān)圖法.通常,平穩(wěn)序列有短期相關(guān)性,故其延遲k期自相關(guān)系數(shù) ρ?(k)會(huì)快速衰減向0,反之,ρ?(k)衰減向0的速度較慢.
(3)單位根檢驗(yàn).
Barlett證明[4]:對(duì)于n期純隨機(jī)觀測(cè)序列
(1)假定原假設(shè)
其中m為延遲期數(shù);
(2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量
Box和 Pierce[4]推導(dǎo)出當(dāng)統(tǒng)計(jì)量或 p值小于顯著性水平 α?xí)r,則以1-α的水平拒絕H0,即該序列不是純隨機(jī)序列.在大樣本場(chǎng)合,Q統(tǒng)計(jì)量的檢驗(yàn)效果很好,但是在小樣本場(chǎng)合就效果較差,為此Box和Ljung又推導(dǎo)出統(tǒng)計(jì)量[4],它適合各種場(chǎng)合,人們普遍使用的是LB統(tǒng)計(jì)量.注意,延遲期數(shù)m的選擇會(huì)影響LB的統(tǒng)計(jì)表現(xiàn),通過(guò)蒙特卡羅方法可知取m≈ln(n)會(huì)有較好的功效.
下面利用ARIMA模型對(duì)甘肅省GDP進(jìn)行預(yù)測(cè).
(1)獲取甘肅省GDP觀測(cè)值序列.
從《國(guó)家統(tǒng)計(jì)年鑒》(2017)獲取甘肅省1978年至2016年的GDP數(shù)據(jù),見(jiàn)圖1與SAS程序(單位:億元).1978年之前,中國(guó)政策多變,且與改革開(kāi)放后有很大差異,故1978年之前GDP數(shù)據(jù)不選用.
圖1 甘肅省GDP時(shí)序圖
根據(jù)甘肅GDP時(shí)序圖(見(jiàn)圖1)容易判定:1978年至2016年,甘肅省GDP整體呈上升趨勢(shì),剛改革開(kāi)放時(shí),基數(shù)小,增長(zhǎng)幅度也不大,從2000年以后,GDP增長(zhǎng)很快,但最近幾年增速放緩,初步判定甘肅省GDP序列為非平穩(wěn)時(shí)間序列.特別注意,甘肅省2015年的GDP略微下降,這主要由中國(guó)當(dāng)前社會(huì)經(jīng)濟(jì)大環(huán)境嚴(yán)峻以及甘肅特殊的自然與社會(huì)環(huán)境導(dǎo)致.另外,從GDP的自相關(guān)圖(略)也可發(fā)現(xiàn),自相關(guān)函數(shù)緩慢衰減到2倍標(biāo)準(zhǔn)差內(nèi),這是明顯的非平穩(wěn)特征.因此,可斷定GDP序列是非平穩(wěn)時(shí)間序列.
(2)嘗試對(duì)原序列進(jìn)行ARIMA建模.
經(jīng)初步嘗試,直接對(duì)原GDP序列建立ARIMA模型,效果很差(殘差序列是非白噪聲序列).這是因?yàn)椋涸趯?shí)踐中,很多金融時(shí)間序列(GDP以貨幣衡量,也可認(rèn)為是金融時(shí)間序列)呈現(xiàn)一定異方差性質(zhì),且通常序列標(biāo)準(zhǔn)差與序列均值有某種正比關(guān)系.原序列2階差分后的時(shí)序圖(見(jiàn)圖2)也顯示波動(dòng)隨時(shí)間而變化,且有增大趨勢(shì),這也佐證了其異方差性.
圖2 原序列2階差分后的時(shí)序圖
將轉(zhuǎn)換函數(shù)g(xt)在序列均值 μt處進(jìn)行一階泰勒展開(kāi):則
(3)利用對(duì)數(shù)序列進(jìn)行ARIMA建模.
現(xiàn)對(duì)原序列進(jìn)行對(duì)數(shù)變換,由對(duì)數(shù)序列時(shí)序圖(見(jiàn)圖3)可知,對(duì)數(shù)序列l(wèi)n xt保持了原序列的變化趨勢(shì),且大致呈一條直線,故利用一階差分運(yùn)算提取線性趨勢(shì).由ln xt的一階差分時(shí)序圖(見(jiàn)圖4)可知,一階差分運(yùn)算已經(jīng)成功從原序列提取了線性趨勢(shì),差分后序列可初步認(rèn)定為平穩(wěn)序列.由自相關(guān)圖可知,自相關(guān)系數(shù)快速落到2倍標(biāo)準(zhǔn)差內(nèi),故可認(rèn)為對(duì)數(shù)序列l(wèi)n xt的一階差分后序列(記為dif(ln xt))是平穩(wěn)的.對(duì)dif(ln xt)進(jìn)行白噪聲檢驗(yàn)可得:延遲6階QLB統(tǒng)計(jì)量值為13.72,p值為0.0330,小于0.05,故dif(ln xt)是非白噪聲序列,有進(jìn)一步分析的價(jià)值.
圖3 甘肅GDP取對(duì)數(shù)后的時(shí)序圖
圖4 對(duì)數(shù)序列的一階差分時(shí)序圖
圖5 一階差分序列的自相關(guān)圖
圖6 一階差分序列的偏自相關(guān)圖
顯然,自相關(guān)圖(見(jiàn)圖5)拖尾,偏自相關(guān)圖(見(jiàn)圖6)一階截尾,所以對(duì)序列l(wèi)n xt可建立ARIMA(1,1,0)模型.
SAS程序主體如下:
data gsgdp;
inputx@@;t=_n_;
logx=log(x);
logx1=dif(logx);
cards;
64.73 67.51 73.9 70.69 76.88
91.5 103.17 123.39 140.74 159.52
191.84 216.84 242.8 271.39 317.79
372.24 453.61 557.76 722.52 793.57
887.67 956.32 1052.88 1125.37 1232.03
1399.83 1688.49 1933.98 2277.35 2703.98
3166.82 3387.56 4120.75 5020.37 5650.2
6330.69 6836.82 6790.32 7200.37;
proc gplotdata=gsgdp;
plotx*t logx*t logx1*t;
symbol c=black i=spline v=star;
run;
proc arima data=gsgdp;
identify var=logx(1);estimate p=1;
forecast lead=3 id=tout=gsgdpjg;
run;
data gsgdpjg;
setgsgdpjg;
x=exp(logx);l95=exp(l95);u95=exp(u95);
forecast=exp(forecast);
run;
proc printdata=gsgdpjg;
var t forecast;where t>39;
run;
部分輸出結(jié)果如下:
顯然,序列l(wèi)n xt的擬合模型為ARIMA(1,1,0),模型為
且系數(shù)顯著性檢驗(yàn)的 p值分別為<.0001,0.0100,通過(guò)了顯著性檢驗(yàn).根據(jù)最小信息準(zhǔn)則,本模型的AIC=-109.349,SBC=-106.074.
對(duì)于殘差序列的白噪聲檢驗(yàn),延遲6階的 p值為0.7314,顯著大于0.1,這表明:模型的殘差項(xiàng)中不再顯著蘊(yùn)含與樣本有關(guān)的信息,即構(gòu)建ARIMA(1,1,0)模型有效.
顯然,序列l(wèi)n xt未來(lái)3期的預(yù)測(cè)值分別為8.9763,9.0856,9.2013.
將其進(jìn)行對(duì)數(shù)轉(zhuǎn)化后可得甘肅2017-2019年的GDP預(yù)測(cè)值為7912.90,8827.46,9910.02億元.從整體看,甘肅省GDP預(yù)測(cè)值的相對(duì)誤差控制在5%的范圍內(nèi),預(yù)測(cè)結(jié)果較理想,擬合效果如圖7所示.
圖7 擬合效果圖
實(shí)際上,甘肅省2017年的GDP為7677.0億元,僅比上年增長(zhǎng)3.6%,而利用ARIMA模型的預(yù)測(cè)值為7912.90億元,高估較多.這是因?yàn)椋?017年復(fù)雜多變的國(guó)內(nèi)外環(huán)境和多年少有的嚴(yán)峻形勢(shì)導(dǎo)致了如此低的增長(zhǎng)率,低于2016年4個(gè)百分點(diǎn).這說(shuō)明當(dāng)前環(huán)境相對(duì)往年有較大變化,而ARIMA模型有效的前提是當(dāng)前環(huán)境基本平穩(wěn).最后,希望政府能改變觀點(diǎn),吸引人才,創(chuàng)造良好的商業(yè)環(huán)境,盤(pán)活經(jīng)濟(jì).
殘差自回歸模型既利用了確定性信息,也利用了隨機(jī)性信息,故精度高,又便于解釋?zhuān)琜5-8]其模型結(jié)構(gòu)為:
其中Tt是趨勢(shì)效應(yīng)擬合,St是季節(jié)效應(yīng)擬合,εt為殘差序列.
殘差自回歸模型1:由于甘肅省GDP時(shí)序圖呈拋物線趨勢(shì)增長(zhǎng)且沒(méi)有周期,故考慮采用時(shí)間t的冪函數(shù)作為自變量,即采用擬合趨勢(shì)效應(yīng).
SAS程序主體如下:
datagsgdp;
inputx@@;
t=_n_;t2=t**2;
cards;
數(shù)據(jù)
;
proc autoreg data=gsgdp;
modelx=t t2/dwprob;
modelx=t t2/nlag=5 backstepmethod=m lnoint;
outputout=wang p=xp pm=xtrend;
run;
部分輸出結(jié)果如下:
顯然,DW統(tǒng)計(jì)量的值為0.1760,正相關(guān)檢驗(yàn)的p值<.0001,故殘差序列顯著正相關(guān),應(yīng)對(duì)殘差建立自回歸模型.
顯然,最終擬合殘差自回歸模型為
在顯著性水平α=0.05下,模型系數(shù)都通過(guò)了顯著性檢驗(yàn).
圖8 擬合效果圖
顯然,本模型的 AIC為500.330585,SBC為506.984831.注意,此處的AIC、SBC與ARIMA模型中的AIC、SBC不能直接比較,因?yàn)樗鼈儗?duì)應(yīng)的時(shí)間序列是不同的.進(jìn)一步,趨勢(shì)擬合部分的R2為0.9315,整體擬合模型的R2高達(dá)0.9980,另外,擬合值的相對(duì)誤差控制在理想范圍內(nèi),故擬合效果(見(jiàn)圖8)好.相對(duì)于二次曲線回歸模型,R2由0.9696提升到0.9980,最小信息量SBC由585.461638下降為506.984831,這表明殘差自回歸模型提高了預(yù)測(cè)精度.
在SAS程序數(shù)據(jù)步,將甘肅GDP數(shù)據(jù)最后三個(gè)定義為缺失數(shù)據(jù)即可進(jìn)行3期預(yù)測(cè),見(jiàn)表1.
表1 三期預(yù)測(cè)值
可見(jiàn),甘肅省2017~2019年GDP整體預(yù)測(cè)值分別為7374.946909,7492.630553,7717.752566億元.
殘差自回歸模型2:下面建立延遲因變量回歸模型,建模思路同上,SAS程序主體為:
data gsgdp;
inputx@@;
lagx=lag(x);
cards;
數(shù)據(jù)
;
proc autoreg data=gsgdp;
modelx=lagx/dwprob;
model x=lagx/nlag=5 backstep method=ml noint;out?
putout=wang p=xp;
run;
部分輸出結(jié)果為:
最終擬合模型為:
本模型的R2為0.9972,稍微低于殘差自回歸模型1,AIC為493.612456,SBC為496.887628,這兩項(xiàng)指標(biāo)都優(yōu)于殘差自回歸模型1,MSE為24150,大于殘差自回歸模型1.此模型可解釋為:在外界沒(méi)有突變的情況下,甘肅省GDP每年遞增8.29%,且以上期殘差的0.5305倍進(jìn)行修正,即本模型具有一定的自我修正功能.自我修正就是統(tǒng)計(jì)學(xué)習(xí),其目的是使學(xué)到的模型對(duì)已知數(shù)據(jù)與未知數(shù)據(jù)都具有較好的預(yù)測(cè)功能,從而使模型更能適應(yīng)外界的變化.進(jìn)一步可得,一期預(yù)測(cè)值為7716.0051895億元.
采用共同標(biāo)準(zhǔn)可對(duì)三個(gè)模型進(jìn)行直接比較,如果以MSE為標(biāo)準(zhǔn),由于取對(duì)數(shù)后建立ARIMA模型(簡(jiǎn)稱(chēng)取對(duì)數(shù)ARIMA模型)的MSE為27992,最大,所以對(duì)于本文建立的三個(gè)模型,對(duì)數(shù)ARIMA模型的效果最差,殘差自回歸模型1最優(yōu).但是,對(duì)于2017年GDP的真實(shí)值而言,殘差自回歸模型2預(yù)測(cè)值的誤差最小,僅僅高估39億元,且模型便于直觀解釋?zhuān)鴼埐钭曰貧w模型1預(yù)測(cè)值的誤差最大,低估303億元.從模型的復(fù)雜度而言,對(duì)數(shù)ARIMA模型經(jīng)多對(duì)數(shù)運(yùn)算與差分運(yùn)算后,采用了3個(gè)變量,殘差自回歸模型1直接采用了5個(gè)變量,而殘差自回歸模型2僅僅采用了3個(gè)變量,故殘差自回歸模型2最簡(jiǎn)單.在所有可選擇的模型中,能夠解釋已知數(shù)據(jù)且非常簡(jiǎn)單的模型才是好模型,故優(yōu)先選擇殘差自回歸模型2.另外,最近幾年,國(guó)內(nèi)外環(huán)境變化很大,中國(guó)GDP增速放緩,個(gè)別省份在某些年份甚至出現(xiàn)負(fù)增長(zhǎng),這也導(dǎo)致利用延遲變量建立的殘差自回歸模型更有效,即殘差自回歸模型2的適應(yīng)性強(qiáng),因此,在外界環(huán)境變化較大情況下,其預(yù)測(cè)精度可能更高.綜上所述,對(duì)甘肅省GDP進(jìn)行預(yù)測(cè),可優(yōu)先選用殘差自回歸模型2,因?yàn)樗苓m合外界環(huán)境的變化.
ARIMA模型利用差分提取確定性信息,并對(duì)隨機(jī)信息建立ARMA模型,提高了估計(jì)精度,但不便于經(jīng)濟(jì)解釋.殘差自回歸模型結(jié)合了確定性分析與隨機(jī)性分析的優(yōu)點(diǎn),精度較高,且經(jīng)濟(jì)意義直觀.另外,延遲1階因變量的自回歸模型與AR(1)模型是不同的,AR(1)模型只能對(duì)平穩(wěn)序列建模,而前者既可以對(duì)平穩(wěn)序列建模,也可以對(duì)非平穩(wěn)序列建模,適用面更廣.
天水師范學(xué)院學(xué)報(bào)2019年2期