何 躍,尹 靜
(四川大學(xué) 工商管理學(xué)院,成都 610064)
基于GMDH的小樣本數(shù)據(jù)預(yù)測(cè)模型
何 躍,尹 靜
(四川大學(xué) 工商管理學(xué)院,成都 610064)
對(duì)于樣本數(shù)據(jù)少的情況,文章中利用SPSS曲線估計(jì)的方法選取三次曲線和二次曲線兩種模型進(jìn)行預(yù)測(cè),同時(shí)用GMDH自回歸模型進(jìn)行分步預(yù)測(cè),最后利用GMDH組合模型將三種模型進(jìn)行組合預(yù)測(cè)。預(yù)測(cè)結(jié)果表明:GMDH自回歸模型對(duì)于小樣本數(shù)據(jù)的預(yù)測(cè)結(jié)果優(yōu)于其他模型,效果更好、更穩(wěn)定。
小樣本數(shù)據(jù);SPSS曲線估計(jì);GMDH自回歸模型;組合預(yù)測(cè)
現(xiàn)代宏觀經(jīng)濟(jì)預(yù)測(cè)的各種模型,如回歸預(yù)測(cè)模型、馬爾可夫預(yù)測(cè)模型、灰色系統(tǒng)預(yù)測(cè)模型、投入產(chǎn)出預(yù)測(cè)模型等,多是基于對(duì)已知數(shù)據(jù)的分析,找到數(shù)據(jù)內(nèi)部的規(guī)律和相互依賴關(guān)系,從而得到對(duì)未知數(shù)據(jù)的預(yù)測(cè)能力。但是這是基于樣本數(shù)據(jù)足夠多的前提下,對(duì)于樣本比較少的數(shù)據(jù),預(yù)測(cè)效果往往不好。利用一般的宏觀經(jīng)濟(jì)預(yù)測(cè)模型預(yù)測(cè)小樣本數(shù)據(jù)一般都存在一定的缺陷。例如回歸預(yù)測(cè)模型需要大量的歷史數(shù)據(jù),而多元非線性回歸模型不僅建模難度大,且計(jì)算過程復(fù)雜;馬爾可夫模型雖然需要的數(shù)據(jù)量小,但是計(jì)算的準(zhǔn)確率偏低而存儲(chǔ)復(fù)雜度偏高;灰色系統(tǒng)預(yù)測(cè)模型的特點(diǎn)是小樣本建模,但模型本身還存在一定的問題[1]。
基于以上模型的缺點(diǎn),學(xué)者們開始對(duì)小樣本預(yù)測(cè)的進(jìn)一步研究。例如安紅剛等提出小樣本進(jìn)化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)盾構(gòu)施工實(shí)測(cè)位移資料樣本進(jìn)行建模預(yù)測(cè)下一步施工的地表變形,效果更好[2];針對(duì)武器系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)小樣本建模問題,徐軍輝等提出了通過二次修正插值方法解決測(cè)試數(shù)據(jù)的非等間隔性和樣本容量小的問題,提高了預(yù)測(cè)精度[3];曾波等(2009)從序列灰色關(guān)聯(lián)度的角度去挖掘數(shù)據(jù)之間變化的規(guī)律,對(duì)中國(guó)2008年的GDP進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果顯示了GIFM(m)模型具有比傳統(tǒng)的GM(1,1)模型以及GM(1,n)模型更高的預(yù)測(cè)精度。
由上面的研究可以看出,利用進(jìn)化神經(jīng)網(wǎng)絡(luò)和二次修正插值方法都是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理的改進(jìn),在此基礎(chǔ)上再利用一般預(yù)測(cè)方法預(yù)測(cè);雖然灰色關(guān)聯(lián)度的預(yù)測(cè)優(yōu)于傳統(tǒng)的灰色系統(tǒng)預(yù)測(cè)模型的預(yù)測(cè)結(jié)果,但是誤差卻高達(dá)6.80%,誤差相對(duì)較大。根據(jù)以上研究和工業(yè)增加值小樣本數(shù)據(jù)的特點(diǎn),本文將對(duì)四川省七大優(yōu)勢(shì)產(chǎn)業(yè)的工業(yè)增加值建立SPSS曲線模型,選取兩個(gè)最優(yōu)的模型,利用GMDH自回歸模型預(yù)測(cè),最后將三種模型進(jìn)行GMDH組合預(yù)測(cè)。
變量之間的關(guān)系并不總表現(xiàn)出線性關(guān)系,非線性關(guān)系也是極為常見的。對(duì)于非線性關(guān)系,我們通常無法通過線性回歸來分析,無法直接建立線性模型[4]。SPSS曲線估計(jì)模型中,在不能明確究竟哪種模型更接近樣本數(shù)據(jù)的變化規(guī)律時(shí),可以在軟件界面上列出來的眾多選項(xiàng)中選擇出多種模型,如:二次曲線(Y=b0+b1t+b2t2)、復(fù)合曲線、增長(zhǎng)曲、對(duì)數(shù)曲線(Y=b0+b11n(x))、三次曲線(Y=b0+b1xb2x2+b3x3)、s 曲線、指數(shù)曲線、逆函數(shù)曲線(Y=b0+b1/x)、冪函數(shù)曲線、邏輯函數(shù)曲線等多種模型分別來擬合樣本數(shù)據(jù),然后計(jì)算各個(gè)模型的參數(shù),并計(jì)算回歸方程顯著性檢驗(yàn)的f值和概率p值、判定系數(shù)R平方等統(tǒng)計(jì)量;最后,以判定系數(shù)為主要依據(jù)選擇其中的最優(yōu)模型,并進(jìn)行預(yù)測(cè)分析等[5]。
自組織理論又稱數(shù)據(jù)組合處理方法GMDH(Group-Method of Data Handling),是基于神經(jīng)網(wǎng)絡(luò)和計(jì)算機(jī)科學(xué)的迅速發(fā)展而產(chǎn)生和發(fā)展起來的[6]。它將黑箱思想、生物神經(jīng)元方法、歸納法、概率論、數(shù)理邏輯等方法有機(jī)地結(jié)合起來,實(shí)現(xiàn)了自動(dòng)控制與模式識(shí)別理論的統(tǒng)一,極大減少了人在認(rèn)識(shí)過程中的參與,從而更具有客觀性與公正性。自組織建模思想首先由烏克蘭控制論學(xué)家A·G·Ivakhnenko提出,并在Adolf Mueller等德國(guó)科學(xué)家的協(xié)作下得以不斷發(fā)展,如今已成為一有效而實(shí)用的數(shù)據(jù)挖掘工具[7]。其主要思想是通過各種簡(jiǎn)單的初始輸入(局部模型)的交叉組合產(chǎn)生第一代中間候選模型,再從第一代中間候選模型中選出最優(yōu)的若干項(xiàng)結(jié)合而產(chǎn)生第二代中間候選模型,重復(fù)這樣一個(gè)產(chǎn)生、選擇和遺傳進(jìn)化的過程,使模型復(fù)雜度不斷增加,直到選出最優(yōu)復(fù)雜度模型為止[8]。
它將觀測(cè)樣本數(shù)據(jù)分為訓(xùn)練集和測(cè)試集:在訓(xùn)練集上利用內(nèi)準(zhǔn)則建立中間待選模型,在測(cè)試集上利用外準(zhǔn)則進(jìn)行中間候選模型的選留。當(dāng)外準(zhǔn)則達(dá)到最小時(shí),相應(yīng)的模型即為最優(yōu)復(fù)雜度模型。這個(gè)模型表達(dá)了輸入輸出變量之間的相互關(guān)系[9]。
(1)將數(shù)據(jù)樣本集(N個(gè)數(shù)據(jù)樣本)分為訓(xùn)練集A和檢測(cè)集B(Nω=NA+Nb,ω=A∪B)若建立預(yù)測(cè)模型,則將數(shù)據(jù)樣本集分為學(xué)習(xí)集 A,檢測(cè)集 B 和預(yù)測(cè)集 C,Nω=NA+NB,ω=A∪B∪C。
(2)建立因變量(輸出)和自變量(輸入)之間的一般關(guān)系,作為“參考函數(shù)”,一般常用K—G多項(xiàng)式。例如對(duì)于三輸入單輸出系統(tǒng),可取二次K—G多項(xiàng)式
為參考函數(shù),并以它的子項(xiàng)作為建模網(wǎng)絡(luò)結(jié)構(gòu)中的10個(gè)初始模型:
(3)從具有外補(bǔ)充性質(zhì)的選擇準(zhǔn)則中選出一個(gè)(或若干個(gè))作為目標(biāo)函數(shù)(體系),或稱為外準(zhǔn)則(體系)。
(4)產(chǎn)生第一層中間模型。第一層中間模型們由自組織過程自適應(yīng)產(chǎn)生,且因所含變量個(gè)數(shù)、函數(shù)結(jié)構(gòu)而彼此不同,同時(shí)在訓(xùn)練集A上估計(jì)參數(shù)。
(5)對(duì)第一層中間模型進(jìn)行篩選。根據(jù)外準(zhǔn)則,在檢測(cè)集B上對(duì)第一層中間模型進(jìn)行篩選,選出的中間模型作為網(wǎng)絡(luò)第二層的輸入變量。
(6)形成最優(yōu)復(fù)雜度模型網(wǎng)絡(luò)結(jié)構(gòu)。 重復(fù)(4)、(5)兩步,可依次產(chǎn)生第二、第三…層中間模型,最終形成可用于分析的顯式最優(yōu)復(fù)雜度模型[10][11]。
所謂組合預(yù)測(cè),就是將不同的預(yù)測(cè)方法進(jìn)行適當(dāng)?shù)慕M合,綜合利用各種方法所提供的有用信息,從而盡可能的提高預(yù)測(cè)精度。2003年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主、美國(guó)加利福尼亞大學(xué)的C.Granger教授關(guān)于組合預(yù)測(cè)的評(píng)價(jià)是:組合預(yù)測(cè)提供了一種簡(jiǎn)便而實(shí)用的可能產(chǎn)生更好預(yù)測(cè)的途徑。
權(quán)系數(shù)組合預(yù)測(cè)法的特點(diǎn)是單模型的線性組合,而往往單個(gè)預(yù)測(cè)模型都是非線性的;非線性組合預(yù)測(cè)法所需設(shè)計(jì)的參數(shù)比大多數(shù)統(tǒng)計(jì)預(yù)測(cè)模型都多,有時(shí)會(huì)造成網(wǎng)絡(luò)模型的過擬合現(xiàn)象,即這種模型雖然對(duì)樣本數(shù)據(jù)有較高的擬合精度,但預(yù)測(cè)能力差。GMDH組合預(yù)測(cè)模型恰好能解決這些問題,它是基于樣本數(shù)據(jù)自身特點(diǎn)進(jìn)行預(yù)測(cè),解決了這些問題。因此本文選取該方法進(jìn)行組合預(yù)測(cè)。
表1 SPSS曲線估計(jì)的參數(shù)結(jié)果
表2 GMDH自回歸不用預(yù)測(cè)方法結(jié)果比較
利用四川省七大優(yōu)勢(shì)產(chǎn)業(yè)工業(yè)增加值數(shù)據(jù)做實(shí)證分析,該產(chǎn)業(yè)僅僅只有1998~2009年的12個(gè)年度數(shù)據(jù),數(shù)據(jù)來源于《四川省統(tǒng)計(jì)年鑒》。把1998~2007年的數(shù)據(jù)用于構(gòu)造預(yù)測(cè)模型,2008、2009年兩年的數(shù)據(jù)用來檢驗(yàn)預(yù)測(cè)效果。
應(yīng)用SPSS軟件,選取回歸分析——曲線估計(jì),在此界面下選取合適的模型,就可以得到預(yù)測(cè)值。此時(shí)得到如表1結(jié)果。
根據(jù)檢驗(yàn)的f值和概率p值、判定系數(shù)R平方的檢驗(yàn)原則,其中以判定系數(shù)為主要依據(jù),當(dāng)R平方越趨于1,p值與f值越大越好的原則,我們確定二次曲線和三次曲線為最優(yōu)模型。
根據(jù)GMDH自回歸預(yù)測(cè)模型原理,利用軟件Knowledge Miner預(yù)測(cè)。
我們需要選取合適的maxtime lag、Model Type等參數(shù)值,來確定預(yù)測(cè)模型。同時(shí)根據(jù)在模型擬合與預(yù)測(cè)中,R2、平均絕對(duì)百分比誤差和預(yù)測(cè)誤差平方和(PESS)這些數(shù)據(jù)才選取合適的參數(shù)。我們根據(jù)的原則是R2越接近1,效果越好;平均絕對(duì)百分比誤差越小越好,控制在5%以內(nèi)均是可接受水平;預(yù)測(cè)誤差平方和(PESS)越小越好。
表3 模型預(yù)測(cè)結(jié)果
此模型中,R2=0.9995, 十分接近 1;MAPE=0.7%;PESS=0.0008,為最優(yōu)模型。在此基礎(chǔ)上進(jìn)行預(yù)測(cè)。
但需要注意GMDH有一特點(diǎn):選取不同的檢測(cè)集進(jìn)行預(yù)測(cè)時(shí),結(jié)果有明顯差異。因此對(duì)2008、2009年直接預(yù)測(cè),與兩年分步分別得到的結(jié)果有較大差距。其中兩步預(yù)測(cè)是基于先預(yù)測(cè)出一個(gè),在再多一個(gè)數(shù)據(jù)的基礎(chǔ)上進(jìn)一步預(yù)測(cè),得到結(jié)果。兩種方法預(yù)測(cè)結(jié)果如表2所示。
由表2明顯可以看出,兩步預(yù)測(cè)優(yōu)于一步預(yù)測(cè),因此我們可以根據(jù)實(shí)際情況選取合適的方法,對(duì)于本文所選數(shù)據(jù)我們采取兩步預(yù)測(cè)方法。
類似于GMDH自回歸建模過程,參數(shù)選取選擇相同,得到的模型為:
此時(shí) R2=0.9995,十分接近 1;MAPE=0.71%;PESS=0.0006。模型擬合效果較好。
根據(jù)預(yù)測(cè)得,雖然每個(gè)預(yù)測(cè)模型都趨于最優(yōu)擬合,但是還是由于樣本數(shù)據(jù)較少,總體誤差會(huì)比較偏高。也因?yàn)閿?shù)據(jù)少,適用模型也較少標(biāo)準(zhǔn)誤差最低也只能達(dá)到1.23(見表3)。
由表3可知:GMDH自回歸模型的預(yù)測(cè)結(jié)果明顯優(yōu)于其他單模型,標(biāo)準(zhǔn)誤差為1.23,甚至優(yōu)于組合預(yù)測(cè)模型預(yù)測(cè)結(jié)果。分析可知,前面兩種單模型的預(yù)測(cè)結(jié)果明顯差于GMDH自回歸模型,因此我們選擇組合預(yù)測(cè)時(shí),也需要保證單模型預(yù)測(cè)效果較好。
文章中利用SPSS曲線中二次曲線、三次曲線模型和GMDH自回歸模型分別對(duì)小樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并將得到的三種單模型利用GMDH進(jìn)行組合預(yù)測(cè)。
經(jīng)預(yù)測(cè)結(jié)果比較得到:GMDH自回歸結(jié)果最優(yōu);其次為組合預(yù)測(cè)模型預(yù)測(cè)結(jié)果。因此對(duì)于小樣本數(shù)據(jù)的預(yù)測(cè),GMDH自回歸方法效果更好。
GMDH預(yù)測(cè)方法有其特殊點(diǎn),即不同的學(xué)習(xí)集,預(yù)測(cè)結(jié)果明顯不同,我們需要根據(jù)具體數(shù)據(jù)情況,選取合適的學(xué)習(xí)集,以使預(yù)測(cè)結(jié)果最優(yōu);組合預(yù)測(cè)結(jié)果不一定最優(yōu),其優(yōu)劣除了取決于組合預(yù)測(cè)模型外,還取決于單模型預(yù)測(cè)效果。為了使組合預(yù)測(cè)效果好,在尋找更優(yōu)的組合預(yù)測(cè)模型的同時(shí),必須保證找到合適的、預(yù)測(cè)效果好的單指標(biāo)預(yù)測(cè)模型。
[1]朱家元,楊云,張恒喜,王卓健.基于優(yōu)化最小二乘支持向量機(jī)的小樣本預(yù)測(cè)研究[J].航空學(xué)報(bào),2004,(25).
[2]安紅剛,胡向東,趙永輝.軟土盾構(gòu)施工地表變形的小樣本進(jìn)化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[J].巖土力學(xué),2003,(24).
[3]徐軍輝,汪立新,前培賢.基于最小二乘指出向量機(jī)的小樣本建模方法研究[J].航空控制,2008,(1).
[4]薛薇.SPSS統(tǒng)計(jì)分析方法及應(yīng)用[M].北京:電子工業(yè)出版社,2004.
[5]劉靜思,何躍.基于組合預(yù)測(cè)模型的工業(yè)增加值中長(zhǎng)期預(yù)測(cè)方法研究[J].工業(yè)技術(shù)經(jīng)濟(jì),2008,(2).
[6]Mueller J-A,Lemke F.Self-Organising Data Mining[M].Hamburg:Libri,2000.
[7]Madala H R,Ivakhnenko A G.Inductive Learning Algorithms for Complex Systems Modeling[M].Tokyo:CRC Press Inc,1994.
[8]Harrision,P.J.,C.F.Stevens.A Bayesian Approach to Short Term Forecasting[J].Operational Research Quarterly,1971,22.
[9]騰格爾,何躍.基于GMDH組合的中國(guó)GDP預(yù)測(cè)模型研究[J].統(tǒng)計(jì)與決策,2010,(7).
[10]賀昌政.自組織數(shù)據(jù)挖掘與經(jīng)濟(jì)預(yù)測(cè)[M].北京:科學(xué)出版社,2005.
[11]朱兵,賀昌政,肖進(jìn).基于GMDH方法的四川民用汽車保有量預(yù)測(cè)研究[J].現(xiàn)代管理科學(xué),2006,(6).
F224.7
A
1002-6487(2011)10-0011-03
國(guó)家自然科學(xué)基金資助項(xiàng)目(70771067)
何 躍(1961-),男,重慶人,博士,副教授,研究方向:管理信息系統(tǒng)、數(shù)據(jù)挖掘、決策支持系統(tǒng)。
尹 靜(1986-),女,河北保定人,碩士研究生,研究方向:信息管理與信息系統(tǒng)。
(責(zé)任編輯/亦 民)