查 華,石 舢
(1.南京審計(jì)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,江蘇 南京 210031;2.喀什大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,新疆 喀什 844000)
GDP數(shù)據(jù)的大小從一個角度反映了這個國家或地區(qū)的經(jīng)濟(jì)狀況,因此預(yù)測和分析GDP數(shù)據(jù)未來的走勢,具有非常重要的理論意義和現(xiàn)實(shí)意義.GDP數(shù)據(jù)受多方面的因素影響.江蘇省地區(qū)生產(chǎn)總值自改革開放以來持續(xù)增長,江蘇省GDP總量一直位居全國前幾位.本文以通過江蘇省統(tǒng)計(jì)年鑒獲取了1975-2020年GDP數(shù)據(jù)為樣本,以1975-2017年江蘇省GDP數(shù)據(jù)為訓(xùn)練集,以2018-2020年江蘇省GDP數(shù)據(jù)為測試集,通過相對性誤差分析,構(gòu)建了可信度較高的ARIMA模型.對江蘇省未來2年的GDP做出了預(yù)測,預(yù)測的結(jié)果為江蘇省制定經(jīng)濟(jì)決策提供了參考.
隨著近些年來對經(jīng)濟(jì)的研究熱度持續(xù)上升,GDP是在經(jīng)濟(jì)研究中的一個重要指標(biāo).目前對GDP數(shù)據(jù)的預(yù)測方法眾多,國內(nèi)目前也有不少學(xué)者通過不同的預(yù)測方法對GDP數(shù)據(jù)進(jìn)行了預(yù)測,也獲得了不同預(yù)測效果.朱佳俊[1]通過選用1978-2018年我國的GDP數(shù)據(jù),運(yùn)用統(tǒng)計(jì)分析R軟件先后構(gòu)建了ARIAM模型、BP神經(jīng)網(wǎng)絡(luò)模型、組合預(yù)測模型,最終通過構(gòu)建預(yù)測效果較好的改進(jìn)組合模型對我國未來3年的GDP進(jìn)行了預(yù)測.嚴(yán)彥文[2]通過對1975-2015年GDP數(shù)據(jù)進(jìn)行分析,構(gòu)建了ARIMA(1,1,1)模型,對山東省未來五年的GDP進(jìn)行了預(yù)測.沈秋彤[3]以1978-2013年遼寧省的GDP數(shù)據(jù)為樣本,構(gòu)建了ARIMA(1,1,1)模型并對遼寧省2012-2014年GDP數(shù)據(jù)進(jìn)行了預(yù)測,經(jīng)過對比發(fā)現(xiàn)2012和2013年實(shí)際GDP和預(yù)測GDP相對誤差都控制在5%以內(nèi).同時對遼寧省統(tǒng)計(jì)局當(dāng)年發(fā)布的2014年GDP數(shù)據(jù)和模型預(yù)測數(shù)據(jù)進(jìn)行對比,發(fā)現(xiàn)預(yù)測誤差控制在5%以內(nèi),模型短期預(yù)測效果較好.宋平和邱燕玲[4]選取1993-2016年青海省GDP數(shù)據(jù),通過構(gòu)建ARIMA、最小二乘模型和逐步回歸3個模型分別對青海省2015年和2016年兩年GDP數(shù)據(jù)進(jìn)行預(yù)測,得出了3個模型都有較好的預(yù)測效果,同時ARIMA模型短期預(yù)測效果較好,在預(yù)測10年以及時間更長的長期預(yù)測效果較差.本文選取江蘇省1975-2020年GDP數(shù)據(jù),通過spss軟件和python軟件數(shù)據(jù)分析的功能構(gòu)建ARIMA模型,對江蘇省未來2年的GDP數(shù)據(jù)做出了預(yù)測.
ARIMA是差分自回歸移動平均模型的英文縮寫,其中AR表示的是自回歸模型,MA表示的是移動平均模型,I表示的是差分[5].它針對的是平穩(wěn)的時間序列模型.然而在現(xiàn)實(shí)生活中絕大多數(shù)時間序列都是非平穩(wěn)的.因此可以對數(shù)據(jù)進(jìn)行差分,使其轉(zhuǎn)化為平穩(wěn)的時間序列,再用ARIMA模型對其數(shù)據(jù)進(jìn)行建模和預(yù)測.ARIMA模型是根據(jù)過去不同時期數(shù)據(jù)的相關(guān)性,可以進(jìn)行有效和精準(zhǔn)的短期預(yù)測,它彌補(bǔ)了AR和MA進(jìn)行預(yù)測出現(xiàn)的參數(shù)過多問題,在短期預(yù)測領(lǐng)域具有廣泛的應(yīng)用.它的基本形式如下:
Φ(B)(1-B)dyt=Θ(B)εt,
E(εk,εt)=0,k≠t,E(εt)=0,Var(εt)=σ2,
E(εt,yk)=0,?k ARIMA模型是由AR(自回歸)模型和MA(移動平均)模型經(jīng)過差分構(gòu)成的組合模型,一般寫成ARIMA(p,d,q).p和q分別為自回歸階數(shù)和移動平均階數(shù),d表示差分的次數(shù),一般可以通過幾階差分將不平穩(wěn)的序列轉(zhuǎn)化為平穩(wěn)的序列,一般差分的階數(shù)不超過3階.上述公式中{yt}表示需要預(yù)測的時間序列;Φ(B)=1-φ1B-φ2B2-…-φpBp,表示模型的自回歸多項(xiàng)式;以及Θ(B)=1-θ1B-θ2B2-…-θqBq,表示為模型的移動平均多項(xiàng)式;{εt}則為白噪聲序列,d表示差分的次數(shù)[5]. 在對ARIMA模型理論相關(guān)知識了解的基礎(chǔ)上,用ARIMA模型進(jìn)行建模預(yù)測就變得非常容易了.具體建模流程如下所示: (1)首先需要對需要擬合的樣本數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗(yàn). (2)若擬合的樣本數(shù)據(jù)不是平穩(wěn)數(shù)據(jù),則需要進(jìn)行差分使其平穩(wěn)化.否則進(jìn)行下一步. (3)對平穩(wěn)的樣本數(shù)據(jù)進(jìn)行白噪聲檢驗(yàn),若是白噪聲數(shù)據(jù),則建模結(jié)束;否則進(jìn)行下一步. (4)對平穩(wěn)非白噪聲的樣本數(shù)據(jù)建立ARIMA模型. (5)模型的優(yōu)化和應(yīng)用. 具體的ARIMA建模流程圖如圖1所示. 圖1 ARIMA建模流程圖 本文以江蘇省1975-2017年的GDP數(shù)據(jù)作為訓(xùn)練集,以2018-2020年的GDP數(shù)據(jù)作為測試集構(gòu)建了ARIMA模型,并預(yù)測了江蘇省未來2年的GDP數(shù)據(jù).1975-2020年的GDP數(shù)據(jù)均來自于江蘇省統(tǒng)計(jì)局網(wǎng)站所發(fā)布的江蘇省統(tǒng)計(jì)年鑒,所有GDP數(shù)據(jù)如表1所列. 表1 1975-2020年江蘇省GDP數(shù)據(jù) 單位:億元 一般在生活中得到的原始時間序列數(shù)據(jù)是非平穩(wěn)的,所以要對數(shù)據(jù)進(jìn)行差分或者取對數(shù)運(yùn)算,使原始時間序列數(shù)據(jù)變成平穩(wěn)時間序列數(shù)據(jù).江蘇省1975-2020年GDP數(shù)據(jù),選取了1975-2017年數(shù)據(jù)為訓(xùn)練集,2018-2020年數(shù)據(jù)為測試集,通過時序圖以及平穩(wěn)性檢驗(yàn)發(fā)現(xiàn)是非平穩(wěn)的,時間序列圖如圖2所示. 圖2 江蘇省1975-2017年GDP時序圖 經(jīng)過對GDP數(shù)據(jù)取對數(shù)和一次差分后,通過觀察時序圖可以看出數(shù)據(jù)變成了平穩(wěn)時間序列數(shù)據(jù),通過取對數(shù)和一階差分后的GDP數(shù)據(jù)趨勢基本消除,但是這并不能夠精準(zhǔn)地判斷該數(shù)據(jù)為平穩(wěn)時間序列.對GDP數(shù)據(jù)取對數(shù)和一次差分的時間序列圖如圖3所示. 圖3 江蘇省GDP數(shù)據(jù)取對數(shù)一階差分后時序圖 接下來將通過更為嚴(yán)格的單位根檢驗(yàn)來進(jìn)行判斷. 通過單位根檢驗(yàn)發(fā)現(xiàn)p值為0.000 752,分別大于顯著性水平為1%和5%以及10%所對應(yīng)的臨界值,可以判斷不存在單位根,可以判斷出該數(shù)據(jù)為平穩(wěn)時間序列.ADF檢驗(yàn)結(jié)果如表1所列. 表1 取對數(shù)后且一階差分后的GDP序列ADF檢驗(yàn) 同時使用python軟件對該組數(shù)據(jù)使用Q檢驗(yàn)進(jìn)行了白噪聲檢驗(yàn),結(jié)果返回統(tǒng)計(jì)量和p值,發(fā)現(xiàn)p值全部都小于0.05,表明該平穩(wěn)序列不是白噪聲. 在通過平穩(wěn)性處理的過程中,模型中的d可以確定為1,模型中的另外兩個參數(shù)p和q通過觀察ACF和PACF圖來確定.使用python軟件繪制的ACF和PACF圖如圖4和圖5所示. 圖4 江蘇省GDP取對數(shù)一階差分后序列自相關(guān)圖 圖5 江蘇省GDP取對數(shù)一階差分后序列偏自相關(guān)圖 從圖中可以看出,自相關(guān)圖經(jīng)過1階延遲之后,ACF均落在于兩倍的標(biāo)準(zhǔn)差范圍之內(nèi).同時取值圍繞0上下波動,呈現(xiàn)出截尾性質(zhì).而PACF衰減到0的速度比較慢,呈現(xiàn)出拖尾的性質(zhì).初步可以判定擬合MA模型. 但是通過ACF和PACF圖對模型進(jìn)行定階主觀性較強(qiáng),最后通過AIC和BIC準(zhǔn)則來確定.最終通過使用python軟件進(jìn)行數(shù)據(jù)分析,得出當(dāng)p=0,q=1時,AIC值和BIC值均取得最小值.最終模型確定為ARIMA(0,1,1),模型統(tǒng)計(jì)和參數(shù)估計(jì)結(jié)果如表2、表3所列. 表2 模型統(tǒng)計(jì) 表3 ARIMA 模型參數(shù) 表2中可以看出相關(guān)系數(shù)為0.998 714,說明模型的擬合效果較好.同時p值為0.995 302,大于顯著性水平0.05,說明殘差序列為白噪聲.同時還沒有離群值的出現(xiàn),反映出模型整體擬合的效果不錯.從表3的參數(shù)估計(jì)結(jié)果來看,p值遠(yuǎn)遠(yuǎn)小于顯著性水平0.05,說明模型的參數(shù)都是顯著的,通過了參數(shù)的顯著性檢驗(yàn).最終的預(yù)測模型確定為ARIMA(0.1,1)模型. 通過選取江蘇省1975-2020年GDP數(shù)據(jù)為訓(xùn)練集,建立了ARIMA(0,1,1)模型,同時預(yù)測了2018-2022年江蘇省GDP數(shù)據(jù),預(yù)測值見表4所列. 從表4可以看出模型預(yù)測的相對誤差均在10%以下,平均相對誤差為3.75%,整體預(yù)測效果較好.同時也給出了江蘇省未來2年的GDP數(shù)據(jù)分別為109 505.67億元,123 192.63億元.但是隨著預(yù)測年份的增加,預(yù)測的GDP數(shù)據(jù)誤差也漸漸變大.也反映出ARIMA模型適合做短期預(yù)測,不適合進(jìn)行長期預(yù)測. 表4 2018-2022年江蘇省GDP預(yù)測值與實(shí)際值對比 單位:億元 本文通過選取江蘇省1975-2017年GDP數(shù)據(jù)為測試集,2018-2020年GDP數(shù)據(jù)為驗(yàn)證集.構(gòu)建了ARIMA(0,1,1)模型,預(yù)測了江蘇省2018-2022年的GDP.可以看出模型在驗(yàn)證集上表現(xiàn)出較好的預(yù)測效果,平均相對誤差在5%以下.最后從結(jié)果可以看出,未來2年江蘇省GDP呈現(xiàn)出穩(wěn)步增長的趨勢,為當(dāng)?shù)亟?jīng)濟(jì)決策者作出經(jīng)濟(jì)決策提供了一定的參考.同時隨著預(yù)測年份逐漸增加,預(yù)測精度也發(fā)生了下降,也反映出ARIMA模型適合短期預(yù)測.尤其是2020年江蘇省GDP預(yù)測值出現(xiàn)了超過5%的誤差,也有可能和2020年出現(xiàn)的新冠疫情有關(guān).1.2 ARIMA模型建模流程
2 實(shí)證分析
2.1 數(shù)據(jù)來源
2.2 平穩(wěn)性檢驗(yàn)及處理
2.3 ARIMA模型的建立及估計(jì)
2.4 ARIMA模型預(yù)測
3 結(jié)語