葉學(xué)芳,何 躍
(四川大學(xué) 工商管理學(xué)院,成都 610064)
基于DFA方法的自組織組合預(yù)測模型的應(yīng)用
葉學(xué)芳,何 躍
(四川大學(xué) 工商管理學(xué)院,成都 610064)
文章運(yùn)用消除趨勢波動分析(DFA)方法,計算了四川省工業(yè)增加值季度數(shù)據(jù)的標(biāo)度指數(shù),該指數(shù)表明四川省工業(yè)增加值的時間序列值具有長程相關(guān)特性,其預(yù)測模型有較好的擬合效果。在此基礎(chǔ)上根據(jù)自組織數(shù)據(jù)挖掘的理論與方法,提出了自組織組合預(yù)測模型。模型預(yù)測結(jié)果及與ARIMA、GMDH自回歸、SPSS曲線估計等三個單項(xiàng)預(yù)測模型及最優(yōu)線性組合、人工神經(jīng)網(wǎng)絡(luò)組合等常用的組合預(yù)測模型的對比表明,自組織組合預(yù)測模型不僅改善了對數(shù)據(jù)樣本的擬合精度,而且顯著提高了模型的預(yù)測能力。
工業(yè)增加值;DFA;GMDH;ARIMA;自組織組合預(yù)測
工業(yè)增加值是指工業(yè)企業(yè)在報告期內(nèi)以貨幣形式表現(xiàn)的工業(yè)生產(chǎn)活動最終成果,是企業(yè)全部活動的總成果扣除了在生產(chǎn)過程中消耗或轉(zhuǎn)換的物質(zhì)產(chǎn)品和勞務(wù)價值后的余額,即企業(yè)生產(chǎn)產(chǎn)品或提供勞務(wù)過程中新增加的價值。四川省作為一個工業(yè)大省,工業(yè)增加值占據(jù)著GDP最大份額,在四川省的經(jīng)濟(jì)活動中起著舉足輕重的作用。如何才能更有效準(zhǔn)確地預(yù)測工業(yè)增加值,很多學(xué)者都提出了自己的看法。賈明輝等[1]應(yīng)用灰色預(yù)測理論,建立灰色系統(tǒng)的預(yù)測GM(1,1);張玲等[2]提出采用時間序列分析法對我國工業(yè)增加值的趨勢進(jìn)行預(yù)測;徐智勇等[3]利用支持向量機(jī)和微分進(jìn)化算法相結(jié)合的方法對中國工業(yè)增加值數(shù)據(jù)進(jìn)行預(yù)測;劉靜思等[4]提出預(yù)測中長期工業(yè)增加值的一個有效方法是將AC模型、GMDH模型、SPSS曲線模型等三個單項(xiàng)模型進(jìn)行最優(yōu)線性組合預(yù)測;張秋菊等[5]選取AC模型、GMDH自回歸模型、Curve Estimation過程預(yù)測等三個單項(xiàng)模型,再根據(jù)最小二乘法原理進(jìn)行組合預(yù)測。前兩位學(xué)者只采用了一種模型進(jìn)行預(yù)測,后三位學(xué)者均采用了組合預(yù)測方法,結(jié)論中也證實(shí)了常見的組合預(yù)測模型的預(yù)測能力優(yōu)于單項(xiàng)模型,但是是否存在更好的組合預(yù)測模型,使它的精度相比于常見的組合預(yù)測模型更高呢?針對這個問題,本文擬使用四川省2002~2008年工業(yè)增加值(現(xiàn)行價)實(shí)際數(shù)據(jù),首先采用DFA方法用于探測工業(yè)增加值指標(biāo)的時間序列分形標(biāo)度特性與長期相關(guān)性;接著采用SPSS曲線估計、GMDH自回歸、ARIMA等三個單項(xiàng)模型對工業(yè)增加值進(jìn)行預(yù)測;然后分別采用最優(yōu)線性組合預(yù)測模型、人工神經(jīng)網(wǎng)絡(luò)組合預(yù)測模型及自組織組合預(yù)測模型三種組合模型進(jìn)行組合預(yù)測;最后比較分析各種組合預(yù)測模型的優(yōu)劣。
消除趨勢波動分析(DFA)方法自1994年由Peng等人提出之后,已成功地應(yīng)用于許多領(lǐng)域,特別是在噪聲序列、非平穩(wěn)時間序列上DFA方法已成為廣泛使用的技術(shù)。
對給定長度為 N 的序列{xk}(k=1,2,…,N),DFA 方法的一般過程如下[6~10]。
第一步:通過求和把原序列歸并成一個新的輪廓序列
式中<x>是序列{xk}的平均值。
第二步:把輪廓序列y(i)分割成長度為s的Ns=int(N/s)個不相交的等長子區(qū)間。但因序列長度N通常不是分割跨度s的整數(shù)倍,一般對輪廓序列末端剩余的一小部分保留待用,若為了這一小段末端序列不至于被忽略,可以從原輪廓序列末端開始往回重復(fù)分割一次,這樣就可一共獲得2Ns個(當(dāng)N為s的整數(shù)倍時,只要Ns個)等長子區(qū)間。
第三步:通過最小二乘法擬合每一子區(qū)間v(v=1,2,…,2Ns)上的局部趨勢Pv(k)(j)函數(shù),其中Pv(k)(j)是k階多項(xiàng)式(k=1,2,…,N)(一般記為 DFA1,DFA2,…)。 消除子區(qū)間 v 中的局部趨勢,得其消除趨勢序列
第四步:計算2Ns個消除趨勢子區(qū)間序列的平方均值
這里 v=1,2,…,2Ns,進(jìn)而求這 2Ns個 F2(s,v)的均值的平方根
第五步:在雙對數(shù)圖中分析波動函數(shù)F(s)與s的關(guān)系
式中a為標(biāo)度指數(shù),它體現(xiàn)序列的相關(guān)特性。通常,波動函數(shù)值F(s)是分割長度s的增函數(shù),做出logF(s)對logs的函數(shù)關(guān)系圖,求出logF(s)相對于logs的變化斜率,其斜率即為所得的標(biāo)度指數(shù)a。
當(dāng)序列的標(biāo)度指數(shù)a=0.5時,意味著該序列是一個獨(dú)立過程,但并不能說明時間序列是一個高斯隨機(jī)過程,僅表明序列不存在長期記憶。若時間序列僅是短期相關(guān),a值會十分接近于0.5;當(dāng)0.5<a<1時,暗示時間序列具有狀態(tài)持續(xù)性;當(dāng)0<a<0.5時,時間序列具有狀態(tài)反持續(xù)性。特別地,當(dāng)a=1時,時間序列的相關(guān)性與1/f噪聲相似;若a>=1,序列的相關(guān)性不再是冪律的形式;當(dāng)a=1.5時,時間序列的相關(guān)性與布朗噪聲相似。因此,標(biāo)度指數(shù)a可以作為描述原始時間序列的“粗糙度”的指標(biāo),標(biāo)度指數(shù)a越大,時間序列越光滑。
所謂組合預(yù)測方法,就是將不同的單個預(yù)測方法按照一定的原理進(jìn)行適當(dāng)?shù)慕M合,綜合利用各種單個方法所提供的有用信息,從而盡可能地提高預(yù)測精度。目前常用的預(yù)測方法分為權(quán)系數(shù)組合預(yù)測法和人工神經(jīng)網(wǎng)絡(luò)法。前者主要包括最優(yōu)組合預(yù)測法和變權(quán)重組合預(yù)測法。它的缺點(diǎn)是當(dāng)單個預(yù)測方法來源于非線性模型或者所基于的條件期望是信息集合的非線性函數(shù)時,各個單個預(yù)測方法的線性組合并不是最優(yōu)的。而后者的缺點(diǎn)在于有時會造成過擬合現(xiàn)象。即模型對樣本數(shù)據(jù)有較高的擬合精度,但預(yù)測能力差。為此,我們這里提出了自組織組合預(yù)測法。
最早的自組織數(shù)據(jù)挖掘思想——數(shù)據(jù)分組處理方法(GMDH)由A.G.Ivakhnenko于1967年首次提出,并成為自組織數(shù)據(jù)挖掘理論與方法發(fā)展的第一個里程碑。經(jīng)過40多年的發(fā)展,如今在復(fù)雜系統(tǒng)的模擬、預(yù)測、模式識別、樣本聚類等諸方面,自組織數(shù)據(jù)挖掘方法已經(jīng)成為輔助人們進(jìn)行系統(tǒng)分析和決策的強(qiáng)有力工具[11]。
自組織數(shù)據(jù)挖掘理論的基礎(chǔ)是建立在人類生存歷史中最古老的、最富有成效的試探法則——選擇學(xué)說之上的。生物的遺傳在不斷地受到外界的制約并與周圍的環(huán)境協(xié)調(diào)的過程中,物種將逐步發(fā)生變化。在大批量進(jìn)行育種的過程中,為了得到新的一代,每一次大批量淘汰的過程都應(yīng)該篩選出具有某些最好特性的,但還需要繼續(xù)改進(jìn)的那些生物,并利用這些生物繼續(xù)育種。經(jīng)過一些階段的選擇之后,就可以培育出理想的物種[12]。
表1 對四川省工業(yè)增加值求DFA標(biāo)度指數(shù)過程
以參加組合的各預(yù)測方法作為自組織算法的輸入,其輸出即為組合預(yù)測結(jié)果,這就是我們提出的自組織組合預(yù)測方法。
在進(jìn)行DFA分析時,選取四川省工業(yè)增加值(現(xiàn)行價)2002年第一季度至2008年第四季度共28個數(shù)據(jù)作為研究對象。在后面的預(yù)測工作中,選取四川省工業(yè)增加值(現(xiàn)行價)2002年第一季度至2008年第四季度共28個數(shù)據(jù)作為訓(xùn)練集,選取四川省工業(yè)增加值(現(xiàn)行價)2009年第一季度至2010年第一季度共5個數(shù)據(jù)作為測試集 (數(shù)據(jù)均來源于四川省統(tǒng)計月報)。
從圖1可以看出,logF(s)與logs之間存在著比較明顯的線性關(guān)系。由于在第二步中從原輪廓序列末端開始往回重復(fù)分割了一次。因此,取s值為3~11的logF(s)與logs的數(shù)據(jù),用線性回歸求得標(biāo)度指數(shù)a的值為1.103,a>1,意味著四川省工業(yè)增加值時間序列具有持久性的長期相關(guān),即工業(yè)增加值具有“長期記憶性”,過去的信息會影響到工業(yè)增加值未來的發(fā)展趨勢。也就是說,工業(yè)增加值的數(shù)據(jù)是存在內(nèi)部相關(guān)性的,數(shù)據(jù)是有效的。因此,可以通過自組織數(shù)據(jù)挖掘方法對工業(yè)增加值建立模型,用已知的工業(yè)增加值的數(shù)據(jù)預(yù)測未來一段時間內(nèi)的工業(yè)增加值變化趨勢是可行的[12]。即具有長程相關(guān)的時間序列,其模型有較好的擬合預(yù)測效果。
圖1 四川省工業(yè)增加值標(biāo)度指數(shù)散點(diǎn)圖
圖2 二階差分前序列圖
圖3 二階差分后序列圖
圖4 二階差分后的序列自相關(guān)系數(shù)和偏相關(guān)系數(shù)
差分自回歸移動平均模型(ARIMA)是研究時間序列的重要方法,由自回歸模型(AR模型)與滑動平均模型(MA模型)為基礎(chǔ)“綜合”構(gòu)成。傳統(tǒng)的趨勢模型外推預(yù)測方法只適合于具有某種典型趨勢性變化現(xiàn)象的預(yù)測,然而在現(xiàn)實(shí)中,許多現(xiàn)象的序列資料并不總是具有這種典型趨勢特征,依此方法建立的模型所產(chǎn)生的誤差項(xiàng)不一定完全是具有隨機(jī)性質(zhì)的,從而影響了預(yù)測效果。ARIMA模型先根據(jù)序列識別一個試用模型,再加以診斷,做出必要調(diào)整,反復(fù)進(jìn)行識別、估計、診斷,直到適合的模型,因此它適用于各類的序列,是迄今最通用的時間序列預(yù)測法[13]。
這里我們采用Eviews6.0軟件做ARIMA模型預(yù)測。以四川省工業(yè)增加值的季度數(shù)據(jù)為已知序列,繪制序列圖,如圖2所示。從圖2可以看出,2002~2008年四川省工業(yè)增加值呈上升趨勢,并且增長幅度不同,需進(jìn)行平穩(wěn)后處理。對原序列數(shù)據(jù)求對數(shù)后進(jìn)行二階差分轉(zhuǎn)換后重新繪制序列圖,如下圖3所示。新序列無明顯上升或下降趨勢,說明通過二階差分轉(zhuǎn)換后的新序列具有穩(wěn)定性。
對二階差分轉(zhuǎn)換后的數(shù)據(jù)做自相關(guān)和偏相關(guān)系數(shù)圖,如圖4所示。從圖4中可以看出自相關(guān)系數(shù)在k=2與3時顯著不為0,所以確定p值為1,2,3。偏相關(guān)系數(shù)在k=2時顯著不為 0,所以確定 q 值為 1,2。因此(p,q)的可能組合有 6 個。表2為各個組合的參數(shù)值。其中AIC(Akaike info criterion)越小越好,SC(Schwarz criterion)越小越好,R-squared越大越好,通過比較這三個參數(shù)值,最后確定p值為2,q值為2。因?yàn)樵跀?shù)據(jù)處理時進(jìn)行了二階差分,所以d的取值為2。所以最終模型為 ARIMA(2,2,2)[14]。 最后得到的最終模型為:
其中,Z=ΔY。
GMDH自回歸區(qū)別于一般回歸模型的最大的優(yōu)點(diǎn)是它將數(shù)據(jù)分為訓(xùn)練集和測試集,在訓(xùn)練集上使用內(nèi)準(zhǔn)則進(jìn)行參數(shù)估計得到中間待選模型,而在測試集上使用外準(zhǔn)則進(jìn)行中間候選模型,而在測試集上使用外準(zhǔn)則進(jìn)行中間候選模型的選擇,這個過程不斷重復(fù)直到外準(zhǔn)則值不能再改善才停止,這樣的停止法則可以保證在一定噪聲水平下得到數(shù)據(jù)擬合精度和預(yù)測能力之間實(shí)現(xiàn)最優(yōu)平衡的最優(yōu)復(fù)雜度模型,不會出現(xiàn)一般的回歸方法中常出現(xiàn)的過擬合而犧牲了預(yù)測能力的現(xiàn)象[4]。
表2 ARIMA模型參數(shù)值
表3 SPSS各模型預(yù)測結(jié)果
表4 2009年1季度至2010年1季度工業(yè)增加值單項(xiàng)預(yù)測模型與組合預(yù)測模型預(yù)測結(jié)果
不同于SPSS,在做GMDH自回歸預(yù)測時首先把工業(yè)增加值的季度數(shù)據(jù)轉(zhuǎn)換為環(huán)比數(shù)據(jù)以消除量綱。然后通過在Knowledgeminer軟件中不斷調(diào)整參數(shù)并比較各參數(shù)值,最終篩選出最優(yōu)復(fù)雜度模型如下:
其中:z11=6.359(e-2)Yt-2-6.895(e+0)
在模型擬合與預(yù)測中,R-squared的值越接近1,效果越好。此模型中為0.9769,十分接近1,擬合效果好;平均絕對百分比誤差(Mean Absolute Percentage Error)越小越好,控制在5%以內(nèi)均是可接受水平,此模型中為1.73%,誤差小,可接受;預(yù)測誤差平方和(PESS)越小越好,此模型中PESS=0.0286,預(yù)測誤差較小。
用SPSS做預(yù)測可有很多種方法,可利用工業(yè)增加值與影響工業(yè)增加值的一些因素進(jìn)行多元線性回歸,剔除相關(guān)度低的影響因素,最后得到工業(yè)增加值與相關(guān)度高的各因素的回歸模型。但利用此模型進(jìn)行預(yù)測時,需要首先找出影響工業(yè)增加值的典型因素,并對各因素進(jìn)行預(yù)測,才能對工業(yè)增加值進(jìn)行預(yù)測,整個過程顯得復(fù)雜,而且預(yù)測精度不一定高。也可以采用的自回歸模型,但預(yù)測效果卻不是很好。這里我們采用文獻(xiàn)[4]提到的曲線估計模型。
首先選擇分析→回歸→曲線估計,將四川省各季度工業(yè)增加值的環(huán)比累加值作為因變量,將時間序列作為自變量,在模型一欄里選擇常見的變量如線性、二次項(xiàng)、三次項(xiàng)、復(fù)合、冪等。表3即為SPSS各模型預(yù)測結(jié)果。
通過觀察R Square的值以及經(jīng)驗(yàn)分析,最后選定二次型模型為最優(yōu),即:
(注:在實(shí)際工作中,不一定只采用一種模型,可以對R Square值較好的幾個模型求組合)
由于我們采用的是工業(yè)增加值的環(huán)比累加值進(jìn)行預(yù)測,因此,式中的Yt為t季度工業(yè)增加值的環(huán)比累計值,Xt為t季度的時間序列值。
在SPSS17.0軟件中將以上三個單項(xiàng)預(yù)測模型線性組合生成最優(yōu)線性組合預(yù)測模型為:
在matlab軟件中編程將三種單項(xiàng)預(yù)測模型的輸出YSPSS,YGMDH,YARIMA作為模型的輸入,得到的人工神經(jīng)網(wǎng)絡(luò)組合預(yù)測模型為:
在knowledgeminer軟件中,將三種單項(xiàng)預(yù)測模型的輸出YSPSS,YGMDH,YARIMA作為模型的輸入,用自組織數(shù)據(jù)挖掘技術(shù)篩選出的最優(yōu)自組織組合預(yù)測模型為:
四川省2009年1季度至2010年1季度工業(yè)增加值單項(xiàng)預(yù)測模型與組合預(yù)測模型的預(yù)測結(jié)果如表4所示。
從表4可以看出平均誤差的大小順序?yàn)椋篩ARIMA>YSPSS>YGMDH>Y最優(yōu)線性>Y人工神經(jīng)>Y自組織。 由此,可以得出組合預(yù)測模型的預(yù)測效果優(yōu)于單項(xiàng)預(yù)測模型,而在三種組合預(yù)測模型中,自組織組合預(yù)測模型具有更好的預(yù)測效果。這是由于自組織組合預(yù)測模型充分發(fā)揮了自組織數(shù)據(jù)挖掘算法自身的特點(diǎn)和優(yōu)點(diǎn),在盡可能多的模型結(jié)構(gòu)形式中進(jìn)行擇優(yōu)選擇,而不僅僅在線性形式中進(jìn)行計算選擇,這體現(xiàn)了復(fù)雜性科學(xué)研究的思想。自組織建模選擇最適于系統(tǒng)的表現(xiàn)形式,從而盡可能地利用了每一單項(xiàng)預(yù)測方法的有用信息[12]。
本文首先通過DFA分析得出四川省工業(yè)增加值是具有長程相關(guān)的時間序列,也就是說在預(yù)測時,其模型將有較好的擬合效果。然后采用三個單項(xiàng)預(yù)測模型和三個組合預(yù)測模型預(yù)測四川省2009年一季度至2010年一季度的工業(yè)增加值。實(shí)證分析表明,自組織組合預(yù)測模型無論是擬合效果還是預(yù)測精度都比單項(xiàng)預(yù)測模型及常見的組合預(yù)測模型高。
雖然自組織組合預(yù)測模型在數(shù)據(jù)擬合和預(yù)測方面整體精度都較高,但它是基于單項(xiàng)預(yù)測模型基礎(chǔ)之上的。因此,提高各單項(xiàng)預(yù)測模型的擬合效果和預(yù)測精度,是提高自組織組合預(yù)測模型的預(yù)測能力的關(guān)鍵。
[1]賈明輝.我國工業(yè)增加值的灰色預(yù)測與分析[J].內(nèi)蒙古民族大學(xué)學(xué)報(自然科學(xué)版),2009,24(2).
[2]張玲.時間序列分析法對我國工業(yè)增加值趨勢的預(yù)測分析與研究[J].統(tǒng)計與咨詢,2010,(2).
[3]徐智勇,孫林巖,郭雪松.基于支持向量機(jī)的中國工業(yè)增加值預(yù)測研究[J].運(yùn)籌與管理,2008,17(3).
[4]劉靜思,何躍.基于組合預(yù)測模型的工業(yè)增加值中長期預(yù)測方法研究[J].工業(yè)技術(shù)經(jīng)濟(jì),2008,(2).
[5]張秋菊,何躍,馬海霞,劉成昭.組合預(yù)測模型在工業(yè)增加值預(yù)測中的應(yīng)用[J].統(tǒng)計與決策,2006,(9).
[6]Peng C K,Buldyrew S V, Havlin S,et al.Mosaic Organization of DNA Nucleotides[J].Physical Review E,1994,49(2).
[7]Ausloos M.Statistical Physics in Foreign Exchange Currency and Stock Markets[J].Physica A,2000,(285).
[8]Kantelhardt J W,Koscielny-Bunde E,Rego H H A,et al.Detecting Long-range Correlations with Detrended Fluctuation Analysis[J].Physica A,2001,(295).
[9]Peng C K,Havlin S,Stanley H E,et al.Quantification of Scaling Exponents and Crossover Phenomena in Nonstationary Heartbeat time series[J].Chaos,1995,5(1).
[10]Vjushin D,Govindan R B,Monetti R A,et al.Scaling Analysis of Trends Using DFA[J].Physica A,2001,(302).
[11]賀昌政.自組織數(shù)據(jù)挖掘與經(jīng)濟(jì)預(yù)測[M].北京:科學(xué)出版社,2005.
[12]賀昌政,俞海,盧躍奇.自組織組合預(yù)測方法及其應(yīng)用[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2002,(2).
[13]劉明珠,趙曉萍,傅志華.靈活運(yùn)用SPSS進(jìn)行稅收預(yù)測[J].中國發(fā)展,2005,(4).
[14]騰格爾,何躍.基于GMDH組合的中國GDP預(yù)測模型研究[J].統(tǒng)計與決策,2010,(7).
(責(zé)任編輯/亦 民)
F201
A
1002-6487(2010)23-0042-04
國家自然科學(xué)基金資助項(xiàng)目(70771067)
葉學(xué)芳(1987-),女,四川內(nèi)江人,碩士研究生,研究方向:數(shù)據(jù)挖掘、管理信息系統(tǒng)。
何 躍(1961-),男,重慶人,副教授,研究方向:管理信息系統(tǒng)、數(shù)據(jù)挖掘、決策支持系統(tǒng)。