賈永鋒 閆宏圖 閻紅燦
摘 要: 時間序列分析是根據(jù)客觀事物的連續(xù)性和規(guī)律性推測未來發(fā)展趨勢的預(yù)測方法,分析時設(shè)法過濾除去不規(guī)則變動,突出反映趨勢性和周期性變動。為了提高預(yù)測精度,構(gòu)建了EMD-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,利用Hilbert-Huang變換中的經(jīng)驗?zāi)B(tài)分解將時間序列分解為有限個本征模函數(shù),重構(gòu)后進行BP神經(jīng)網(wǎng)絡(luò)預(yù)測。通過對中國石化的股票資料進行實驗仿真,表明該模型降低了被預(yù)測數(shù)據(jù)的非平穩(wěn)性,其精度比直接用神經(jīng)網(wǎng)絡(luò)預(yù)測有較明顯的提高。
關(guān)鍵詞: 時間序列; BP神經(jīng)網(wǎng)絡(luò); EMD; 本征模函數(shù); 預(yù)測模型
中圖分類號:TP311.1 文獻標(biāo)志碼:A 文章編號:1006-8228(2014)02-01-04
0 引言
時間序列是將某種現(xiàn)象某一個統(tǒng)計指標(biāo)在不同時間上的各個數(shù)值,按時間先后順序排列而形成的序列。時間序列分析是一種動態(tài)的數(shù)列分析[1],出發(fā)點是承認(rèn)數(shù)據(jù)的有序性和相關(guān)性,通過數(shù)據(jù)內(nèi)部的相互關(guān)系來辨識系統(tǒng)的變化規(guī)律。常用的時間序列分析法主要是建立在回歸——移動平均模型(ARMA)[2-3]之上,被用來對股價(最高價、最低價、開盤價、收盤價)及綜合指數(shù)進行預(yù)測[4-5]。然而,這些經(jīng)典回歸分析暗含著一個重要假設(shè):數(shù)據(jù)是平穩(wěn)的。如果數(shù)據(jù)非平穩(wěn),往往導(dǎo)致出現(xiàn)“虛假回歸”,嚴(yán)重影響預(yù)測效果。股票等金融數(shù)據(jù)是典型的非平穩(wěn)時間序列,一般地說,股票價格的變化主要包括經(jīng)濟性因素、政治性因素、人為操縱因素、有關(guān)行業(yè)及投資者心理等多種因素的影響,各因素的影響程度、時間范圍和方式也不盡相同;且股市各因素間相互關(guān)系錯綜復(fù)雜,主次關(guān)系變化不定,數(shù)量關(guān)系難以提取及定量分析[6]。因此,需要尋找一種好的方法來避免或減弱這些因素的影響,于是學(xué)者研究小波分析[6]和神經(jīng)網(wǎng)絡(luò)[7-8]用于時間序列分析預(yù)測。小波變換可以使非平穩(wěn)數(shù)據(jù)中的有效成分和噪聲呈現(xiàn)出各自不同的特征,但小波變換中小波基的選取會對數(shù)據(jù)去噪的效果產(chǎn)生很大的影響,因此利用小波變換對非平穩(wěn)數(shù)據(jù)分析的方法缺乏自適應(yīng)性。Zhaohua Wu[11]等人通過大量的實驗,證實經(jīng)驗?zāi)B(tài)分解(EMD,Empirical mode decomposition)具有類似小波變換中的二進濾波器特性,通過分解、數(shù)據(jù)重組后實現(xiàn)了數(shù)據(jù)的去噪,汲取了小波變換優(yōu)勢,同時又克服了小波變換中的小波基選擇難的問題。
本文將經(jīng)驗?zāi)B(tài)分解和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建了一種基于EMD-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測模型,通過對中國石化股票進行預(yù)測模擬仿真,實驗結(jié)果得出結(jié)論,將EMD用于時間序列的預(yù)測分析,大大降低了擾動因素的影響,提高了預(yù)測精度。
1 時間序列的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練
神經(jīng)網(wǎng)絡(luò)具有較強的學(xué)習(xí)能力和適應(yīng)能力,在非線性系統(tǒng)中的預(yù)測方面得到了廣泛的應(yīng)用??紤]到金融數(shù)據(jù)是一類非線性較強的時間序列,本文選用BP神經(jīng)網(wǎng)絡(luò)作為預(yù)測工具。BP網(wǎng)絡(luò)[9-10]是一種多層前饋型神經(jīng)網(wǎng)絡(luò),其神經(jīng)采用的傳遞函數(shù)一般都是Sigmoid(S形彎曲)型可微函數(shù),是嚴(yán)格的遞增函數(shù),在線性和非線性之間顯現(xiàn)出較好的平衡,所以可實現(xiàn)輸入和輸出間的任意非線性映射,適用于中長期的預(yù)測;逼近效果好,計算速度快,不需要建立數(shù)學(xué)模型,精度高;理論依據(jù)堅實,推導(dǎo)過程嚴(yán)謹(jǐn),所得公式對稱優(yōu)美,具有強非線性擬合能力。目前,已經(jīng)有一些比較成熟的神經(jīng)網(wǎng)絡(luò)軟件包,其中MATLAB的神經(jīng)網(wǎng)絡(luò)工具箱應(yīng)用最為廣泛。
在網(wǎng)絡(luò)訓(xùn)練中,最重要的三個參數(shù)是權(quán)值、學(xué)習(xí)率和單元數(shù)。權(quán)值可能變得很大,這會使神經(jīng)元的輸入變得很大,從而使得其激活函數(shù)的導(dǎo)函數(shù)在輸入點的取值很小,這樣訓(xùn)練的步長就會變得非常小,進而導(dǎo)致訓(xùn)練的速度下降到很小的程度,最終可能使得網(wǎng)絡(luò)停止收斂,即網(wǎng)絡(luò)癱瘓。因此在對網(wǎng)絡(luò)的連接權(quán)矩陣進行初始化時,隨機給定各層之間的權(quán)值與閾值的初始值比單純地隨機給定某一部分層的收斂速度更快。學(xué)習(xí)率的選擇,其合理與否是網(wǎng)絡(luò)是否穩(wěn)定的關(guān)鍵:太高的學(xué)習(xí)率,可以減少網(wǎng)絡(luò)訓(xùn)練的時間,但是容易導(dǎo)致網(wǎng)絡(luò)的不穩(wěn)定與訓(xùn)練誤差的增加;太低的學(xué)習(xí)率,需要較長的訓(xùn)練時間。在一定的條件下,較少的單元數(shù)目往往能夠提高網(wǎng)絡(luò)的收斂速度,而較多的單元數(shù)目有可能在規(guī)定的訓(xùn)練長度里不能滿足要求。因此,對于參數(shù)數(shù)目的選擇,并沒有一個固定的模型,往往根據(jù)更多的經(jīng)驗成分。
2.1 經(jīng)驗?zāi)B(tài)分解(EMD)
經(jīng)驗?zāi)B(tài)分解法EMD[11]是由美國NASA的黃鍔博士提出的一種信號分析方法。它適合于分析非線性、非平穩(wěn)信號序列,具有很高的信噪比。該方法的關(guān)鍵是經(jīng)驗?zāi)J椒纸?,它能使?fù)雜信號分解為有限個本征模函數(shù)(Intrinsic Mode Function,簡稱IMF),所分解出來的各IMF分量包含了原信號的不同時間尺度的局部特征信號。
EMD是基于以下假設(shè)條件:①數(shù)據(jù)至少有一個最大值和一個最小值兩個極值點;②數(shù)據(jù)極值點間的時間尺度惟一確定局部時域特性;③如果數(shù)據(jù)沒有極值點但必須有拐點,通過對數(shù)據(jù)微分一次或多次求得極值,再通過積分來獲得分解結(jié)果。
2.2 數(shù)據(jù)重構(gòu)
對原始數(shù)據(jù)進行EMD分解后,得到有限個IMF分量。為了降低原始數(shù)據(jù)中的非平穩(wěn)性,需要對得到的各分量進行相關(guān)系數(shù)分析,篩選出有用的IMF分量,對其進行重構(gòu),以得到一個與原始數(shù)據(jù)近似的新數(shù)據(jù)進行預(yù)測實驗。
數(shù)據(jù)重組的方法有多種,本文采用相關(guān)系數(shù)分析法進行數(shù)據(jù)的篩選。由于篇幅有限,關(guān)于EMD分解與重構(gòu)的代碼不在本文提供。
2.3 應(yīng)用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對合成數(shù)據(jù)預(yù)測
對于非線性系統(tǒng),BP神經(jīng)網(wǎng)絡(luò)預(yù)測有著明顯的優(yōu)勢。但是在復(fù)雜的非線性系統(tǒng)中,非平穩(wěn)因素給預(yù)測帶來了一定的困難。正是因為EMD分解降低了各個分量的平穩(wěn)性[12],才得到了廣泛應(yīng)用[13-15]。金融數(shù)據(jù)等時間序列隨著時間,以及在多種因素的影響下會隨之改變,所以數(shù)據(jù)本質(zhì)上是非平穩(wěn)的,因此利用神經(jīng)網(wǎng)絡(luò)對該數(shù)據(jù)進行預(yù)測,數(shù)據(jù)的平穩(wěn)性使得其預(yù)測結(jié)果不是很理想,為了提高預(yù)測精度,我們用EMD方法對數(shù)據(jù)進行分解,以降低其非平穩(wěn)性對預(yù)測精度的影響。然后對分解后的各分量進行相關(guān)系數(shù)分析比較,選取有用的IMF分量,進行數(shù)據(jù)的合成,從而得到一個與原始數(shù)據(jù)近似的新數(shù)據(jù)。將重組后的擬合數(shù)據(jù)輸入到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)進行預(yù)測。預(yù)測過程如圖1所示。
3 應(yīng)用實例和分析
3.1 股票數(shù)據(jù)的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練
將中國石化股票從2011年6月至2011年12月共130天的股票價格數(shù)據(jù)進行樣本劃分。用前60天的數(shù)據(jù)來預(yù)測后5天的數(shù)據(jù),作為網(wǎng)絡(luò)訓(xùn)練集。選取剩下的60天數(shù)據(jù)預(yù)測最后的5天,作為測試集。
3.3 數(shù)據(jù)合成及預(yù)測
本文對中國石化股票數(shù)據(jù)(圖3)進行EMD分解后得到4個IMF分量和1個剩余分量。對4個分量分別進行與剩余分量的相關(guān)系數(shù)分析。分析結(jié)果表明,IMF3和IMF4相關(guān)性較大,并與剩余分量的相關(guān)性也較大(相關(guān)門限值選取0.3)。所以選取IMF3和IMF4兩個分量與剩余分量進行重構(gòu),得到與原始數(shù)據(jù)近似的較平滑的新數(shù)據(jù)如圖9所示。
經(jīng)過比較可知,對于具有非平穩(wěn)性行為強烈的股票時間序列的預(yù)測,基于EMD的BP神經(jīng)網(wǎng)絡(luò)預(yù)測要比直接BP神經(jīng)網(wǎng)絡(luò)預(yù)測更為準(zhǔn)確。
對于非平穩(wěn)的時間序列,BP神經(jīng)網(wǎng)絡(luò)預(yù)測有著明顯的優(yōu)勢,但是對于影響因素復(fù)雜的非平穩(wěn)數(shù)據(jù),多種因素的干擾給預(yù)測帶來了一定的困難。EMD分解分離了各個不同因素的相互干擾,通過對各分量單獨預(yù)測再合成的處理,從而提高了預(yù)測精度。從表1可以看出最終的預(yù)測誤差經(jīng)過EMD分解的信號要精確于直接神經(jīng)網(wǎng)絡(luò)預(yù)測。從圖4中可以看出影響信號平穩(wěn)性程度最大的是IMF1,如果再對其進行分解處理,整個系統(tǒng)的預(yù)測精度會得到更大的改善。
4 結(jié)束語
對于非平穩(wěn)的時間序列,BP神經(jīng)網(wǎng)絡(luò)預(yù)測有著明顯的優(yōu)勢,但是對于影響因素復(fù)雜的非平穩(wěn)數(shù)據(jù),多種因素的干擾給預(yù)測帶來了一定的困難。EMD分解分離了各個不同因素的相互干擾,通過對各分量分析再合成的處理,提高了預(yù)測精度。目前EMD方法主要用于模擬信號和大氣數(shù)據(jù)分析[13-15],用于金融數(shù)據(jù)預(yù)測還較為少見。本文將其與BP神經(jīng)網(wǎng)絡(luò)結(jié)合,構(gòu)建了EMD-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。從本文的預(yù)測過程和仿真結(jié)果可以看到,利用EMD分解的BP神經(jīng)網(wǎng)絡(luò)預(yù)測優(yōu)于直接BP神經(jīng)網(wǎng)絡(luò)預(yù)測,相比其精確度有了明顯的提高。
參考文獻:
[1] 劉瑛慧,曹家璉.時間序列分析理論與發(fā)展趨勢[J].電腦知識與技術(shù),2010.2:257-258
[2] 劉佳,趙文慧,劉光榮.基于SAS的非平穩(wěn)時間序列分析及實證研究[J].汕頭大學(xué)學(xué)報.2010.2(1):48-53.
[3] 李海林,郭崇慧,時間序列數(shù)據(jù)挖掘中特征表示與相似性度量研究綜述[J].計算機應(yīng)用研究,2013.5(30):1285-1290
[4] 魏宇.中國股票市場的最優(yōu)波動率預(yù)測模型研究[J].管理學(xué)報,2010.6(6):936-942
[5] 方啟東,溫鑫,蔣佳靜等.基于時間序列的股價預(yù)測[J].宿州學(xué)院學(xué)報,2010.8(8):71-74
[6] 杜建衛(wèi),王超峰.小波分析方法在金融股票數(shù)據(jù)中的應(yīng)用[J].數(shù)學(xué)的實踐與認(rèn)識,2008.7(38-7):68-75
[7] 劉海玥,白艷萍.時間序列模型和神經(jīng)網(wǎng)絡(luò)模型在股票預(yù)測中的分析[J].數(shù)學(xué)的實踐與認(rèn)識,2011.2(4):14-19
[8] 張媛,劉紅忠.基于行為金融的神經(jīng)網(wǎng)絡(luò)模型在股票價格預(yù)測中的有效性研究[J].世界經(jīng)濟情況,2011.2(2):62-67
[9] 焦淑華,夏冰,徐海靜,劉瑩.BP神經(jīng)網(wǎng)絡(luò)預(yù)測的MATLAB實現(xiàn)[J].哈爾濱金融高等??茖W(xué)校學(xué)報,2009.3(97):55-56
[10] 李萍,曾令可,稅安澤,金雪莉,劉艷春,王慧.基于MATLAB的BP神經(jīng)網(wǎng)絡(luò)預(yù)測系統(tǒng)的設(shè)計[J].計算機應(yīng)用與軟件,2008.4(25-4):149-151
[11] Zhaohua Wu, Norden E. Huang. A study of the characteristics of white noise using the empirical mode decomposition method[J].The Royal Society,2004.3(10):1597-1611
[12] 劉慧婷,倪志偉,李建洋.經(jīng)驗?zāi)B(tài)分解方法及其應(yīng)用[J].計算機工程及應(yīng)用,2006.1(32):44-47
[13] 徐世艷.經(jīng)驗?zāi)B(tài)分解的時頻分析方法及其應(yīng)用[J].吉林大學(xué)學(xué)報,2009.9(27-5):487-492
[14] 玄兆燕,楊公訓(xùn).EMD在地面氣溫預(yù)測中的應(yīng)用[J].微計算機信息,2008.2(24-3):230-232
[15] 玄兆艷,楊公訓(xùn).經(jīng)驗?zāi)B(tài)分解法在大氣時間序列預(yù)測中的應(yīng)用[J].自動化學(xué)報,2008.1(34-1):97-101