喻勝華,鄧 娟
(1.湖南大學(xué) 經(jīng)濟與貿(mào)易學(xué)院,湖南 長沙 410079; 2.中南大學(xué) 數(shù)學(xué)科學(xué)與計算技術(shù)學(xué)院,湖南 長沙 410075)
基于主成分分析和貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)的GDP預(yù)測*
喻勝華1,鄧 娟2
(1.湖南大學(xué) 經(jīng)濟與貿(mào)易學(xué)院,湖南 長沙 410079; 2.中南大學(xué) 數(shù)學(xué)科學(xué)與計算技術(shù)學(xué)院,湖南 長沙 410075)
選用財政收入、財政支出、消費品零售總額、實際利用外資、進出口總額以及全社會固定資產(chǎn)投資等對GDP有顯著影響的6個因子,用1985~2008年中國的宏觀經(jīng)濟數(shù)據(jù)建立了一個基于主成分分析和貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)的預(yù)測模型,并把它應(yīng)用于我國GDP的預(yù)測。實證結(jié)果表明:通過主成分分析法和貝葉斯正則化方法對BP神經(jīng)網(wǎng)絡(luò)進行改進,可簡化網(wǎng)絡(luò)結(jié)構(gòu),增強泛化能力。與其它常用的預(yù)測方法相比,該方法數(shù)據(jù)輸入簡便,收斂速度快,擬合曲線光滑,且在預(yù)測精度上有明顯的優(yōu)勢。
主成分分析;貝葉斯正則化;BP神經(jīng)網(wǎng)絡(luò);預(yù)測
GDP(國內(nèi)生產(chǎn)總值)是衡量國民經(jīng)濟發(fā)展情況最重要的一個指標,也是經(jīng)濟運行狀況的綜合反映。自1985年以來,GDP的核算已經(jīng)成為我國經(jīng)濟管理部門了解經(jīng)濟運行狀況的主要手段和制定經(jīng)濟發(fā)展戰(zhàn)略、規(guī)劃、年度計劃以及各種宏觀經(jīng)濟政策的主要依據(jù)。因此,如何采用科學(xué)的方法來預(yù)測GDP,已成為經(jīng)濟學(xué)界研究的主要課題。目前,預(yù)測GDP的方法很多,主要有回歸預(yù)測法[1]、時間序列預(yù)測法[2-4]、灰色預(yù)測 法[5][6]、馬 爾 可 夫 預(yù) 測 法[7]以 及 人 工 神 經(jīng) 網(wǎng) 絡(luò) 預(yù) 測法[8-12]等。前面四種方法屬于傳統(tǒng)的預(yù)測方法,它們大都是對變量之間的因果關(guān)系進行分析,實際應(yīng)用中存在多重共線性和序列相關(guān)等問題,而且不可避免的丟失了信息,模擬效果不佳,預(yù)測精度難以令人滿意。而人工神經(jīng)網(wǎng)絡(luò)是用來模擬人腦結(jié)構(gòu)及智能特點的一個前沿研究領(lǐng)域,它可以通過網(wǎng)絡(luò)學(xué)習(xí)達到其輸出與期望輸出相符的結(jié)果,具有很強的自適應(yīng)、自學(xué)習(xí)和糾錯能力。人工神經(jīng)網(wǎng)絡(luò)有多種模型,其中BP神經(jīng)網(wǎng)絡(luò)模型最成熟,其應(yīng)用也最為廣泛。但BP算法在本質(zhì)上是屬于一種非線性的優(yōu)化方法,存在學(xué)習(xí)時收斂時間較長,易陷入局部極小點等缺點[10]。近年來,有學(xué)者把幾種預(yù)測方法綜合起來使用,得到了比單一預(yù)測更好的預(yù)測結(jié)果[13-15]。本文用主成分分析方法簡化BP神經(jīng)網(wǎng)絡(luò)的輸入單元數(shù),用貝葉斯正則化算法提高網(wǎng)絡(luò)的泛化能力,建立了主成分 貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并在此基礎(chǔ)上對我國的GDP進行了為期三年的預(yù)測和分析。與此同時,還與幾種常用的預(yù)測方法進行了比較研究,實證結(jié)果表明:本文建立的模型有較強的仿真與預(yù)測能力。
(一)主成分分析法
主成分分析法是從所研究的多個指標中,求出幾個新指標,這些指標可以綜合原有指標的信息,且彼此間不相關(guān)的統(tǒng)計分析方法。其原理為:設(shè)有p個指標X1,X2,…,Xp,作指標的線性組合
Z2,…,Zm的累計貢獻率。累計貢獻率越大,損失的數(shù)據(jù)信息就越少,通常取m使累計貢獻率達到70%~80%以上。
(二)貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)
BP網(wǎng)絡(luò)是一種采用誤差反向傳播算法的前饋網(wǎng)絡(luò),通常由輸入層、隱含層和輸出層構(gòu)成,層與層之間的神經(jīng)元采用全互連的連接方法,通過相應(yīng)的網(wǎng)絡(luò)權(quán)系數(shù)相連,每層內(nèi)的神經(jīng)元沒有連接。權(quán)值不斷調(diào)整的過程,就是網(wǎng)絡(luò)的學(xué)習(xí)過程,此過程一直進行到網(wǎng)絡(luò)的輸出誤差減少到可以接受的程度,或進行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。
盡管BP網(wǎng)絡(luò)具有很強的非線性映射能力,網(wǎng)絡(luò)中間層各層的處理單元數(shù)及網(wǎng)絡(luò)學(xué)習(xí)系數(shù)可根據(jù)具體情況任意設(shè)定并獲得不同的性能,但BP算法是一種梯度下降法,算法性能依賴于初始條件,學(xué)習(xí)過程易陷于局部極小,且它的學(xué)習(xí)速度、精度和網(wǎng)絡(luò)推廣能力等都較差,不能滿足應(yīng)用的需要。所以,我們采用貝葉斯正則化的BP網(wǎng)絡(luò)算法,一般算法以均方誤差函數(shù)為目標函數(shù),權(quán)值問題不能得到優(yōu)化,而貝葉斯正則化在目標函數(shù)中增加權(quán)值這一項,并用貝葉斯方法自動調(diào)節(jié)參數(shù),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),從而提高網(wǎng)絡(luò)的泛化能力。
貝葉斯正則化的BP網(wǎng)絡(luò)算法的基本思想是[16][17]:
給定 一 組 訓(xùn) 練 樣 本S= {(p1,t1),(p2,t2),…,(pm,tm)},神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目的是尋找能有效逼近該組樣本的函數(shù)f,使誤差函數(shù)最小化,一般情況下,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練誤差函數(shù)采用均方誤差函數(shù):
為了提高泛化能力,可以在目標函數(shù)里加上網(wǎng)絡(luò)權(quán)值平方的算術(shù)平均值,即目標函數(shù)變?yōu)椋?/p>
在參考已有文獻的基礎(chǔ)上選取對GDP有顯著影響的6個因子:財政收入(FR),財政支出(FE),消費品零售總額(TRG),實際利用外資(AUC),進出口總額(TIE),全社會固定資產(chǎn)投資(FA)(數(shù)據(jù)來源于1985—2008年《中國統(tǒng)計年鑒》)。不難看出:上述指標之間的相關(guān)性較大,信息重疊較多,不宜直接用BP網(wǎng)絡(luò)建模,先采用主成分分析法消除指標間的重疊信息,獲得主要的綜合指標。
(一)主成分的提取
由原始數(shù)據(jù)可得到主成分的特征值及方差貢獻率(如表1),主成分的貢獻率表示該主成分反映原指標的信息量,累積貢獻率表示相應(yīng)幾個主成分累積反映原指標的信息量。由表1可知,前兩個主成分的貢獻率分別為94.483%、5.199%,累積貢獻率達到了99.683%,表明前兩個主成分涵蓋著所有指標99.683%的信息量,于是選取前兩個主成分來進行分析。
表1 各主成分的特征值及方差貢獻率
(二)BP神經(jīng)網(wǎng)絡(luò)模型的確定
BP神經(jīng)網(wǎng)絡(luò)模型主要由輸入層、隱含層、輸出層以及各層之間的傳輸函數(shù)等組成。在設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)時,一般先考慮一個隱層,當(dāng)一個隱層的節(jié)點數(shù)很多仍不能改善網(wǎng)絡(luò)性能時,才考慮再增加一個隱層。由于本文的樣本容量少,所以只選取一個隱含層;輸入層為2,即為主成分的個數(shù);輸出層為1,即為歷年的GDP;隱含層和輸出層的轉(zhuǎn)移函數(shù)分別采用S型正切函數(shù)tansig和線性函數(shù)purelin。
隱含層的神經(jīng)元數(shù)目選擇是個十分復(fù)雜的問題,往往需要根據(jù)設(shè)計者的經(jīng)驗和多次實驗來確定,因而不存在一個理想的解析式來表示。隱含層單元的數(shù)目與問題的要求、輸入輸出單元的數(shù)目都有著直接關(guān)系。若數(shù)目太少,則網(wǎng)絡(luò)所能獲取的用以解決問題的信息太少;若數(shù)目太多,不僅增加訓(xùn)練時間,而且誤差不一定最小,也會導(dǎo)致容錯性差、不能識別以前沒有訓(xùn)練過的樣本以及出現(xiàn)過度擬合等問題,因此,合理選擇隱含層單元數(shù)非常重要。利用邊界層確定隱含層單元數(shù)的方法可以得到本文數(shù)據(jù)網(wǎng)絡(luò)隱含層單元數(shù)的范圍是(6,11),采用1985年到2005年共21組數(shù)據(jù)進行BP網(wǎng)絡(luò)訓(xùn)練,2006年到2008年共3組數(shù)據(jù)進行測試。發(fā)現(xiàn)當(dāng)隱含層節(jié)點數(shù)為8時,各項預(yù)測誤差最小,說明對這組數(shù)據(jù)而言,當(dāng)輸入節(jié)點為2,輸出節(jié)點為1,隱含層節(jié)點為8時,網(wǎng)絡(luò)具有較好的預(yù)測能力。
(三)貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練、仿真與預(yù)測
選定BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)后,利用神經(jīng)網(wǎng)絡(luò)工具箱可得到如下的訓(xùn)練過程圖:
圖1 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程圖
從訓(xùn)練結(jié)果可以看出,網(wǎng)絡(luò)經(jīng)過69次就達到擬合精度9.78429e-005,有效參數(shù)個數(shù)為15.5,達到理想狀態(tài),從網(wǎng)絡(luò)的誤差圖也可以看出,網(wǎng)絡(luò)的收斂速度快,學(xué)習(xí)效率高。
下表是經(jīng)過訓(xùn)練后的網(wǎng)絡(luò)對于樣本的仿真值,由表2可以看出:21組訓(xùn)練樣本的最大相對誤差為-1.88%,說明訓(xùn)練后的網(wǎng)絡(luò)對于訓(xùn)練樣本而言性能是優(yōu)良的,這是BP網(wǎng)絡(luò)共有的優(yōu)點。通過適當(dāng)調(diào)整參數(shù),訓(xùn)練后的網(wǎng)絡(luò)能對訓(xùn)練樣本無限地接近。
用訓(xùn)練后的網(wǎng)絡(luò)對測試數(shù)據(jù)進行預(yù)測(見表3):
表2 模型訓(xùn)練后的仿真值與相對誤差
表3 模型預(yù)測值
由表2和表3可以看出:對前21組樣本擬合的最大相對誤差為-1.88%,對后3組樣本預(yù)測的最大相對誤差為4.02%,而最小相對誤差僅為0.52%。一般來說,若誤差在5%左右,則表明擬合效果與預(yù)測效果良好。
為了進一步說明本文所用方法的預(yù)測效果,現(xiàn)將它與如下幾種預(yù)測方法作對比分析。為簡便起見,我們把本文所用的預(yù)測方法稱為方法一。
方法二:不先提取主成分,而是直接使用原始數(shù)據(jù)作為網(wǎng)絡(luò)輸入。網(wǎng)絡(luò)參數(shù)的設(shè)置同方法一,即精度為1e-4,最大迭代次數(shù)為10000,隱含層節(jié)點數(shù)選為8;
方法三:不用貝葉斯正則化算法,而改用一般的梯度下降法;
方法四:不用貝葉斯正則化算法,而改用LM算法;
方法五:ARIMA法;
方法六:多元回歸法;
方法七:指數(shù)平滑法。
上述七種預(yù)測方法的預(yù)測結(jié)果及相對誤差如下表:
表4 與其它預(yù)測方法的比較分析
從表4可以看出,方法二的最大相對誤差為4.99%,而最小相對誤差也有1.54%,大于方法一的相對誤差,可見預(yù)測效果要差一些,表明精簡輸入后的網(wǎng)絡(luò)對樣本信息有更好的概括,對測試數(shù)據(jù)有更好的預(yù)測能力。
通過訓(xùn)練樣本發(fā)現(xiàn):一般的梯度下降法,收斂緩慢,經(jīng)過10000次訓(xùn)練,樣本誤差仍然不能達到期望的1e-4,在同等訓(xùn)練條件下,一般的梯度下降法訓(xùn)練精度不夠,擬合曲線不光滑,對2007年我國GDP的預(yù)測,相對誤差為16.38%,三年平均相對誤差為11.2%,預(yù)測效果較差。
改進后的LM算法,收斂速度快,經(jīng)過8次訓(xùn)練,就使網(wǎng)絡(luò)誤差達到了4.86824e-005,但LM算法的擬合曲線極不光滑,雖然對2006年的預(yù)測,相對誤差僅為0.06%,但對于2007年,相對誤差便上升到16.32%,三年平均相對誤差也達到了10.25%,出現(xiàn)了過度擬合。存在過度擬合的網(wǎng)絡(luò)雖然訓(xùn)練殘差較小,但結(jié)構(gòu)臃腫,并未得到足夠的信息,這會導(dǎo)致對于許多未知數(shù)據(jù)的預(yù)測不起作用,泛化能力差,實際應(yīng)用性差。
而使用貝葉斯正則化的BP網(wǎng)絡(luò),收斂速度快,僅經(jīng)過69次訓(xùn)練就使網(wǎng)絡(luò)誤差達到了期望值,預(yù)測值中最大相對誤差僅為4.02%,且擬合曲線光滑,貝葉斯正則化算法的預(yù)測效果明顯優(yōu)于一般的梯度下降法和LM算法。
標準BP算法收斂速度慢是限制其廣泛應(yīng)用的主要原因,LM算法收斂速度快,但容易導(dǎo)致過度擬合,預(yù)測效果不佳。
從表4也可以看出,ARIMA法、多元回歸法以及指數(shù)平滑法的預(yù)測效果不及方法一。實際上,ARIMA預(yù)測方法應(yīng)用的前提是假定事物的過去會同樣延續(xù)到未來,但影響經(jīng)濟增長的因素非常復(fù)雜,它不僅受國家宏觀經(jīng)濟政策的影響,而且也會受眾多偶然的外部沖擊和自然因素的影響。因此,依靠其歷史數(shù)據(jù)建立起來的時間序列預(yù)測模型的預(yù)測精度必然受到影響。多元回歸模型則對以往的數(shù)據(jù)要求比較高,模型的建立需要大樣本且要求樣本有較好的分布規(guī)律,預(yù)測的結(jié)果是由每一個影響因素決定的。因此,一旦影響經(jīng)濟增長的某一個因素發(fā)生了結(jié)構(gòu)性的變化,依靠歷史數(shù)據(jù)建立起來的回歸預(yù)測模型的精度也必然受到影響。指數(shù)平滑模型是一種特殊的 ARIMA的模型,即IMA(1,1),因為ARIMA模型的擬合綜合考慮了序列的趨勢變化、周期變化及隨機干擾,并借助模型參數(shù)的調(diào)整最終使擬合殘差不再包含可供提取的非隨機信息成分,成為白噪聲或近似白噪聲,所以,多數(shù)情況下,ARIMA方法的預(yù)測效果要優(yōu)于傳統(tǒng)的指數(shù)平滑法。
本文利用主成分分析和貝葉斯正則化BP神經(jīng)網(wǎng)絡(luò)方法對我國宏觀經(jīng)濟數(shù)據(jù)進行了研究,BP網(wǎng)絡(luò)的“黑箱”特性使得人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過程,不能明確獲得內(nèi)部權(quán)值所反映的學(xué)習(xí)信息,這對我們準確地把握經(jīng)濟現(xiàn)象的本質(zhì)是個阻礙,本文使用了6個對經(jīng)濟增長影響較大的變量,通過主成分分析后簡化為兩個主成分,這兩個主成分解釋了所有變量99.683%的信息,再通過BP網(wǎng)絡(luò)建立映射關(guān)系,得到相應(yīng)年份的仿真與預(yù)測值,但無法知道是哪個或哪些變量對經(jīng)濟增長起怎樣的作用,我們主要是利用這一模型對歷史數(shù)據(jù)進行模擬,將目前并不清晰的信息體現(xiàn)在模型中,積累這些未知的知識,從而做出更為準確的預(yù)測。通過與幾種常用的預(yù)測方法的對比分析發(fā)現(xiàn):本文所用的方法數(shù)據(jù)輸入簡便,收斂速度快,擬合曲線光滑,泛化能力強,且在預(yù)測精度上有明顯的優(yōu)勢。
[1] 胡艷國,武友新,江恭和.支持向量機在GDP回歸預(yù)測中的應(yīng)用研究[J].微計算機信息,2007,23(11):17-19.
[2] 華鵬,趙學(xué)民.ARIMA模型在廣東省GDP預(yù)測中的應(yīng)用[J].統(tǒng)計與決策,2010,(12):166-167.
[3] 許陽干.廣西GDP的時間序列分析與預(yù)測模型[J].沿海企業(yè)與科技,2010,(7):54-57.
[4] 王春峰,宋袆.混沌時間序列分析法在生產(chǎn)總值預(yù)測中的應(yīng)用分析[J].天津大學(xué)學(xué)報(社會科學(xué)版),2007,9(2):137-139.
[5] 穆昭光.灰色預(yù)測模型在江蘇省GDP預(yù)測中的應(yīng)用分析[J].現(xiàn)代商貿(mào)工業(yè),2009,22:32-33.
[6] 戶孝俊,馬德山,賈田田.灰色GM(1,1)預(yù)測模型及其在甘肅省GDP預(yù)測中的應(yīng)用[J].甘肅農(nóng)業(yè),2010,(5):25-26.
[7] 吳雋,陳長彬.東南亞各國人均GDP的馬爾可夫法預(yù)測[J].番禺職業(yè)技術(shù)學(xué)院學(xué)報,2007,6(4):26-31.
[8] 張興會,杜升之,陳增強,袁著祉,莫榮.主成分分析法在神經(jīng)網(wǎng)絡(luò)經(jīng)濟預(yù)測中的應(yīng)用[J].?dāng)?shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2002,(4):122-125.
[9] 歐邦才.基于BP神經(jīng)網(wǎng)絡(luò)的經(jīng)濟預(yù)測方法[J].南京工程學(xué)院學(xué)報(自然科學(xué)版),2004,2(2):11-14.
[10]陳志高.遺傳算法和BP神經(jīng)網(wǎng)絡(luò)在GDP預(yù)測中的應(yīng)用[J].計算機與數(shù)字工程,2009,37(9):172-175.
[11]趙秀恒,李明,李昆山.BP神經(jīng)網(wǎng)絡(luò)在GDP預(yù)測中的應(yīng)用研究[J].河北經(jīng)貿(mào)大學(xué)學(xué)報(綜合版),2006,6(3):90-93.
[12]柯年前,張吉剛.基于主成分分析和BP網(wǎng)絡(luò)的我國GDP預(yù)測??萍紕?chuàng)業(yè)月刊,2008,(8):107-108.
[13]雍紅月,包桂蘭.組合時間序列ARMA模型在經(jīng)濟預(yù)測中的應(yīng)用——內(nèi)蒙古十一五期間GDP預(yù)測[J].?dāng)?shù)學(xué)的實踐與認識,2008,38(21):19-23.
[14]王莎莎,陳安,蘇靜,李碩.組合預(yù)測模型在中國GDP預(yù)測中的應(yīng)用[J].山東大學(xué)學(xué)報(理學(xué)版),2009,44(2):56-59.
[15]梁文光.廣東省GDP時間序列預(yù)測——基于神經(jīng)網(wǎng)絡(luò)與ARIMA模型[J].技術(shù)和市場,2010,17(6):7-9.
[16]武妍,張立明.神經(jīng)網(wǎng)絡(luò)泛化能力與結(jié)構(gòu)優(yōu)化算法研究[J].計算機應(yīng)用研究,2002,(6):21-25.
[17]王飛.基于貝葉斯向量自回歸的區(qū)域經(jīng)濟預(yù)測模型:以青海為例[J].經(jīng)濟數(shù)學(xué),2011,28(2):95-100.
GDP Prediction Based on Principal Component Analysis and Bayesian Regularization BP Neural Network
YU Sheng-hua1,DENG Juan2
(1.School of Economics and Trade,Hunan University,Changsha 410079,China;2.School of Mathematical Sciences and Computing Technology,Central South University,Changsha 410075,China)
We choose financial income,financial expenditure,total retail sales of consumer goods,actually used foreign investment,total import and export volume and social fixed assets investment,such as six factors,which have a significant effect on GDP.A forecasting model based on principal component analysis and Bayesian regularization BP neural network was established by using the Chinese macro-economic data in 1985~2008,and was applied to predict the GDP of China.The empirical results show that the principal component analysis and Bayesian regularization are utilized modify BP neural network,which can simplify network structure and strengthen generalization.Compared with other commonly used methods of forecasting,this method has simple data input,fast convergence rate,smooth fitting curve,and there is significant advantage in the prediction accuracy.
principal component analysis;Bayesian regularization;BP neural network;prediction.
P338.9
A
1008—1763(2011)06—0042—04
2010-11-16
喻勝華(1966—),男,湖南寧鄉(xiāng)人,湖南大學(xué)經(jīng)濟與貿(mào)易學(xué)院教授,博士.研究方向:數(shù)量經(jīng)濟學(xué).