陳園園,劉俊,傅強
(中央財經大學金融學院,北京 100081)
近年來,我國股票市場取得了迅猛發(fā)展,在股本、交易量、上市公司數(shù)量以及交易資金量等方面均獲得了長足進步。但由于發(fā)展時間短、發(fā)展基礎薄弱、受政策干擾性大等原因,目前仍是強噪音市場,表現(xiàn)為股價波動呈現(xiàn)明顯的非線性、非平穩(wěn)、長期記憶的特點。這也決定了股價預測的復雜性和難度。隨著證券市場的發(fā)展以及投資策略研究的深入,建立適宜的股價波動模型、分解股價波動的規(guī)律,就具有了重要的理論價值和現(xiàn)實意義。
針對中國股市非線性、非平穩(wěn)、長期記憶的特點,廣大學者提出了不同的預測方法,這些研究方法主要有以下幾種:
該種方法屬于經典計量手段,其優(yōu)點是簡便與清晰易懂,其缺點則在于受主觀因素影響較大。如多元回歸模型簡單的假設變量之間存在線性關系,VAR模型需要進行先驗主觀判斷等都使得模型過于理想化和脫離實際。近期采用多元回歸模型和VAR模型的主要研究文獻有:劉海飛用VAR模型建立的股票價格模型等[1]。
神經網絡試圖通過模仿人腦的機能和運作流程來處理復雜數(shù)據,它能夠根據訓練過程中反饋的相對誤差的大小來調整內部權重矩陣數(shù)據的大小,從而達到減小相對誤差和使模型盡可能精確化的目的。其中,BP神經網絡是最成熟也是最普及的神經網絡模型之一,它由Rumelhant和McClelland(1986)提出,目前使用神經網絡建立股價預測模型的學者有Han M,Xi J H[2]以及鄭不諤[3]等。BP神經網絡雖然克服了傳統(tǒng)模型主觀性過強的缺點,但是也有局部極小化問題及收斂速度慢、樣本依賴性大、結構選擇不一等缺點,在實踐中往往將其與其它模型結合使用。
小波分析法是通過伸展平移函數(shù)使得數(shù)據在高頻和低頻各處都能夠細化和分解。單獨使用小波分析法建立股價波動模型的國外學者有Victor Lux Tonn[4]以及國內學者梁強、范英、魏一鳴[5]等。結合了神經網絡系統(tǒng)和小波分析方法的學者有Yoshinori K[6]以及國內學者嚴敏、巴曙松、吳博[7]等。盡管小波分析法的分析思路非常明了,但也有很多不足,如它僅僅適用于分析平穩(wěn)時間序列等。
其中,目前認可度最高的研究方法是將小波分析法嵌入神經網絡建立的小波神經網絡模型,由于集合了小波分析法和神經網絡方法的優(yōu)點,該方法的預測精度和認可度都很高。
本文在前人研究的基礎上,將機械工程領域中用于處理復雜信號波的經驗模態(tài)分解方法(EMD)與BP神經網絡模型相結合,建立了基于EMD的神經網絡股價預測方法,并通過將該方法的預測效果與小波神經網絡預測方法的預測結果進行比較,得出了該方法優(yōu)于小波神經網絡預測方法的最好預測方法的結論。
EMD方法是1998年由美籍華人N.E.Huang提出的,它能將復雜信號分解成若干個相互獨立且正交的若干個近似服從正態(tài)分布的平穩(wěn)的本征模函數(shù),簡稱為IMF分量,且分解出來的各IMF分量包含了原信號中不同波動頻率的信號的特征值。IMF分量須滿足以下兩個條件:
1.極大值和極小值的個數(shù)之和與零點的個數(shù)相同或相差最大為1。
2.IMF分量關于時間軸對稱。
鑒于以上內容一個實信號的EMD的分解步驟如下:
1.找出原始數(shù)據中能夠代表數(shù)據特征的極大值和極小值。
2.通過對極大值和極小值進行三階樣條函數(shù)插值或多項式擬合得到模型的上下包絡線。在任意一個時刻t,都能得到一個數(shù)據的極大值x1(t)和極小值x2(t)。取極大值和極小值的均值,得到m(t)=(x1(t)+x2(t))/2。則m(t)能夠反映任意時刻信號的一般水平,即m(t)代表信號x(t)的低頻數(shù)據。
3.將m(t)從中扣除,得到一個新的信號,用h1(t)表示,h1(t)是一個比x(t)高頻的信號,即h1(t)=x(t)?m(t)。判斷h1(t)是否滿足本征模函數(shù)(IMF)的條件,若滿足,則定義為h1(t)=c1(t)=IMF1(t);若不滿足,則將h1(t)看成是一個新的信號,并對其進行類似于對x(t)的處理,即找極大值與極小值、求包絡線、求均值、扣除均值,判斷是否為本征模函數(shù),如此重復迭代k次直到hk(t)滿足本征模函數(shù)的定義,提取出第一個頻率最高的本征模函數(shù)(IMF),即hk(t)=c1(t)=IMF1(t)。
4.將頻率最高的本征模函數(shù)從原始信號x(t)中扣除,得到剔除了高頻本征模函數(shù)的低頻信號r(t),即r(t)=x(t)?IMF1(t),重復上述操作(1)~(3),得到頻率次高的IMF2(t)。
5.反復進行上述操作最后得到的IMFn(t)或其殘余量相對于原始數(shù)據非常??;或當殘余分量rn(t)是單調函數(shù)或常量時,EMD分解結束,此時x(t)可以表示成:
其中rn(t)為趨勢項,x(t)代表信號的真實值或均衡值。經EMD分解后得到n個頻率由高到低的本征模函數(shù)和一個殘差項。實際上局部極大值和極小值很少關于時間軸對稱,通常以如下式子作為判斷分量是否滿足IMF定義的條件中δ為臨界值,取值一般為0.2到0.3之間。
以EMD方法分解得到的各分量為輸入變量,以股價預測值為惟一輸出變量,通過反復模擬得出實現(xiàn)相對誤差最小化的最佳隱含層個數(shù),即可得到最終的基于EMD的神經網絡預測模型。
本文選取2011年1月4日至2013年3月31日我國上證綜合指數(shù)(000001)各交易日的日收盤價共542個有效樣本數(shù)據為研究對象,以2011年1月4日至2013年3月19日共534個數(shù)據為樣本數(shù)據,建立了基于EMD和神經網絡的預測模型,并以2013年3月20日至2013年3月31日共8個數(shù)據作為檢驗數(shù)據用于模型的檢驗。
由檢驗結果可知,2011年1月4日至2013年3月31日我國上證綜合指數(shù)時間序列的偏度為0.5148>0,峰度為2.2059<3,因此,其分布顯著偏離正態(tài)分布,且上證綜合指數(shù)的ADF統(tǒng)計量值-1.53245小于臨界值-2.86665,統(tǒng)計值落在置信區(qū)間以內,表明上證綜合指數(shù)的時間序列數(shù)據并非平穩(wěn)序列。由此也就排除了利用多元線性回歸、VAR模型等傳統(tǒng)方法的可能性,因為這些模型對數(shù)據的平穩(wěn)性有著硬性的要求。與些方法相比,EMD方法和BP神經網絡能突破這一限制,適用于處理該復雜的股價信號波。
1.IMF分量和殘差項的統(tǒng)計性質
(1)數(shù)據統(tǒng)計特征
對樣本數(shù)據運用EMD方法進行處理,得到相關分量走勢和性質如圖1和表1所示。
由分解結果可知上證綜指樣本周期內兩個方面的波動含義:
1)周期性
IMF分量的平均持續(xù)周期可以定義為樣本點的個數(shù)除以極大值(極小值)點的個數(shù)來表示。經計算,各IMF分量的平均持續(xù)周期分別為1.32、14.56、24.03、36.87、89.46和367.81天。如果把1個月以內看作短期,1個月到1年看作中期,1年以上看作長期的話,顯然,分量IMF1~IMF3為分解出的高頻部分,代表一個月以內的短期市場波動因素;分量IMF4~IMF6為分解出的中頻部分,代表一個月以上的中期市場波動因素;殘差項RESID為原始數(shù)據剔除短中期干擾因素之后的趨勢項。
圖1 EMD分解圖
表1 各IMF分量的頻率狀況圖
2)正態(tài)性和平穩(wěn)性
從各IMF分量的統(tǒng)計特征來看,分量IMF1~IMF6的均值并非為0,但相對于總2 000多點的指數(shù)總點數(shù)而言,已經小到可以忽略不計,且其偏度和峰度都接近于0和3,且滿足而各IMF分量近似服從標準正態(tài)分布,且經平穩(wěn)性檢驗知,各IMF分量的ADF檢驗的t值均小于置信度為5%的臨界值-2.866683,表明數(shù)據均落在置信區(qū)間外,即各IMF分量均為平穩(wěn)數(shù)據。這些都印證了EMD方法可以將非平穩(wěn)序列分解成若干相互獨立且正交的平穩(wěn)序列的結論。
(2)各IMF分量以及殘差項對模型的解釋能力
各IMF分量以及殘差項對上證綜合指數(shù)的解釋能力可以用與指數(shù)的關聯(lián)性和對指數(shù)方差的貢獻度兩個方面分析,分析結果如下:
1)IMF1~IMF3分量與上證綜合指數(shù)的相關性分別是0.005、0.004和0.006,其方差的貢獻度分別為 0.003、0.004和0.008,且均未通過顯著性水平為5%的t檢驗和p檢驗,表明代表短期影響因素的IMF1~IMF3分量對上證指數(shù)的解釋能力不大,說明短期因素對綜合指數(shù)的影響可以忽略。
2)IMF4~IMF6分量與上證綜合指數(shù)的相關性分別為0.021、0.008和0.282,其方差的貢獻度分別為0.022、0.039和0.093,表明代表中期影響因素的IMF4~IMF6分量對股價指數(shù)的解釋能力較強,因而中期因素的影響不容忽視。
3)殘差項RESID與上證綜合指數(shù)的相關性達到了0.841451,對指數(shù)樣本方差的解釋能力達到了0.8328,表明它完全可以代表股價的長期變化趨勢,可以體現(xiàn)指數(shù)的真實價值和均衡價值。
2.各IMF分量以及殘差項RESID代表的經濟意義
(1)趨勢項
如上所證,殘差項RESID是上證綜合指數(shù)波動的最主要決定因素;由圖2也可知,剔除了短中期波動因素的殘差項與上證綜合指數(shù)的擬合度很高,完全可以代表上證綜合指數(shù)的長期波動趨勢以及指數(shù)的均衡價值和真實價值。
圖2 殘差項與上證綜合指數(shù)趨勢擬合圖
殘差項的波動方向受經濟周期的影響,反映著經濟的景氣狀況, 真正體現(xiàn)著股市的“晴雨表”的內涵。 如在我國上證指數(shù)波動趨勢圖中,2011年1月4日至2013年1月1日,我國股市一直處于持續(xù)下跌的熊市狀態(tài),說明當時經濟正處于經濟周期中衰退和蕭條階段,而從2013年1月開始股市呈現(xiàn)出持續(xù)上揚的回調狀態(tài),至2013年4月1日,應該說已經出現(xiàn)牛市的前兆即平底,表明經濟已經逐步的走出低谷,開始回升。在現(xiàn)實中,如果能把短中期干擾因素從原始上證綜合指數(shù)中剔除,得到殘差項代表的長期趨勢的大體位置,就能夠判斷當前的股市處于高估還是低估狀態(tài),并據此調整投資組合和投資決策,以獲取最大收益。
(2)重大事件影響
分量IMF4~IMF6表示重大事件的對上證指數(shù)的影響,其持續(xù)周期長度短至1月長達1年,表明由重大事件引起的利好或利空消息難以由市場自動消化,對經濟的沖擊可能很大。從圖3可以看出,在第200~240個交易日期間可能出現(xiàn)了重大的利空消息,如某個公司高管被曝出丑聞等;而在30~50個點附近出現(xiàn)重大利好消息,如央行調低存款準備金率等。重大事件可以解釋上證綜合指數(shù)91.8%的短中期波動,且盡管其影響可能持續(xù)較長,但由其引起的指數(shù)波動一般會回歸到長期趨勢線上。如果將每個重大事件都從原始信號中分解出來,并計算出對經濟的影響,就可以為預測類似事件對經濟造成的沖擊提供參考。
(3)短期市場波動因素
分量IMF1~IMF3代表其它短期市場波動因素。例如某短期市場供求變化導致的該公司股價和綜合指數(shù)的變化。由于長期內市場供求會再次達到均衡,公眾也會調整他們對公司價值的評估值,因而此類因素導致的股價指數(shù)的波動既是不可持續(xù)的,又不會過于劇烈。短期投機者可以通過分析這些代表短期影響因素的分量IMF1~IMF3,對短期內股指波動趨勢進行判斷,并據此獲得超市場的利潤。
3.各IMF分量與MAR的關系比較
為進一步探索IMF分量在現(xiàn)實中的真正含義,以與上證綜合指數(shù)相關性和對其方差的解釋程度最強的分量IMF5和IMF6為例進行以下操作:
(1)將上證綜合指數(shù)進行了90步和365步的移動平均,得到代表上證綜合指數(shù)期限為3個月和1年的趨勢值,記為MA(90)和MA(365)。
(2)將上證綜合指數(shù)的534個樣本數(shù)據與其對應日期的MA(90)和MA(365)相減得到去除了短中期趨勢的上證綜合指數(shù)的波動值,記為MAR(90)和MAR(365)。
(3)將波動值MAR(90)和MAR(365)與IMF5和IMF6進行Granger檢驗,并畫出擬合圖。Granger檢驗結果如表2所示,擬合結果如圖3和4所示。
表2 變量關系檢驗
由表2可以看出,對MAR(90)與IMF5進行因果檢驗的P值分別為0.6323和0.0058,表明原假設1為假命題,而原假設2為真命題,即IMF5為MAR(90)的原因,而MAR(90)不是IMF5的原因,同樣可得出IM F6為MAR(365)的原因,而MAR(365)不是IMF6的原因的結論。
圖3 IMF5與MAR(90)的擬合圖
圖4 IMF6與MAR(365)擬合圖
由圖3和圖4也可知,分量IMF5、IMF6與波動值MAR(90)和MAR(365)的變動趨勢大致相同,但波動值MAR(90)和MAR(365)的變動更為劇烈,即IMF分量是導致波動值MAR發(fā)生的原因,但由于其僅僅代表特定期限的影響因素,其變動趨勢圖更為平滑。較之于IMF分量,MAR除了包含由特定IMF分量代表的特定期限的影響因素外,還受市場短期波動因素的干擾,因而其波動更為劇烈。
因而,關于IMF在現(xiàn)實中的含義,總結得出以下兩個結論:
(1) 由圖3、4來看,IMF分量本質就是波動值,是特定影響持續(xù)期的事件對指數(shù)產生的影響。但上證綜合指數(shù)與其均線之差的波動較對應期限的IMF分量的波動更為劇烈,因為它不僅包含了IMF分量代表的特定持續(xù)期的事件對綜合指數(shù)的影響,還包括了短期因素對綜合指數(shù)的干擾。
(2)由格蘭杰因果檢驗看,各特定影響持續(xù)期IMF分量是特定期間內上證綜合指數(shù)變動的原因。
1.輸入層變量的選取
如上所證,股價波動的主要影響因素為分量IMF4、IMF5、IMF6以及殘差項RESID,即影響周期在30天到1年的重大利空利好消息以及受經濟周期影響的股價指數(shù)的長期波動趨勢。為進一步驗證上述結論,本文采用逐步回歸法,證實了主要影響因素確實為分量IMF4、IMF5、IMF6以及殘差項RESID。 因此選取EMD分解得到的分量IMF4、IMF5、IMF6以及殘差項RESID為基于神經網絡系統(tǒng)的股價波動模型輸入層的四個輸入變量,并分別設為x1、x2、x3、x4。
2.基于EMD的神經網絡預測模型的構建
在使用神經網絡模型時首先構造矩陣X=[y(t),x1(t),x2(t),x3(t),x4(t)],其中y(t)是我國上證綜合指數(shù)(000001)從2011年1月4日至2013年3月31日之間每個交易日的日結算價,共542個樣本數(shù)據。x1、x2、x3、x4如上所述代表分量IMF4、IMF5、IMF6以及殘差項RESID四個變量。X為一個542行5列的矩陣。在數(shù)據的使用上,我們選取前534行數(shù)據作為神經網絡的訓練樣本,后8行作為檢驗樣本用于檢驗模型的有效性。在變量的選擇上,我們以x1、x2、x3、x4為四個輸入變量,而以各變量的前534個數(shù)據作為輸入數(shù)據,以y作為惟一輸出層變量,以其前534個數(shù)據作為輸出數(shù)據進行反復訓練,構造神經網絡。在函數(shù)的選取上,輸入層與隱含層以及隱含層與輸出層的傳遞函數(shù)均設為tansig訓練函數(shù)設為trainglm,學習速率初始值設為0.1,動量系數(shù)的初設值為0.9,訓練目標預設為小于0.01,訓練次數(shù)為10 000次,隱含層個數(shù)設置為10。由Matlab軟件實際模擬結果知,當訓練次數(shù)為43時,訓練誤差實現(xiàn)了小于0.01的預設目標。
3.模型的檢驗
為檢驗模型的準確性,首先,需要對模型進行校核檢驗。我們從隱含層為1簡單神經網絡模型出發(fā),分別進行了1到10的隱含層設置的反復試驗,結果如表3所示,通過比較網絡誤差得出當隱含層個數(shù)為2時模型的網絡誤差最小,也即模型最準確。
其次,對模型進行有效性檢驗。將最佳隱含層(2)代入模型對2011年1月4日至2013年3月19日上證綜合指數(shù)的534個數(shù)據進行模擬,平均網絡誤差僅為0.0027,證明了模型是有效的。
表3 隱含層個數(shù)與網絡誤差統(tǒng)計表
1.小波神經網絡預測方法的實證檢驗
采用Matlab編程語言,以我國上證綜合指數(shù)(000001)從2011年1月4日至2013年3月31日各交易日的日結算價共542個數(shù)據進行小波分析,其中前534個數(shù)據為樣本數(shù)據,后8個數(shù)據為檢驗數(shù)據。
圖5 兩種方法預測結果比較
由圖5可知,基于EMD和BP神經網絡的預測方法所獲得的預測值與真實值的擬合效果更好,其相對誤差的絕對值之和為0.0027,遠小于采用小波神經網絡預測方法獲得的預測值與真實值的相對誤差的絕對值之和0.0158, 由此可得, 基于EMD和BP神經網絡的預測方法是目前優(yōu)于小波神經網絡預測方法的處理非線性、非平穩(wěn)時間序列的方法。
2.原因闡述
盡管小波分析法和EMD方法有很多相似之處,其分析思路均為通過對原始復雜信號波進行分解以挖掘其中的有用信號。但與EMD方法相比,小波分析法有很多不足之處:首先,小波分析法僅僅適用于平穩(wěn)的時間序列,對于復雜且波動劇烈的時間序列數(shù)據,小波分析法顯然無能為力;其次,小波分析法不能根據自身特性實現(xiàn)自適應的多辨分析,而且為了模擬原信號產生了許多本身不存在的虛假諧波;再次,由于分解尺度事先設定且固定不變,而真實的分解尺度在分解之前并不知道,因而不能將信號進行充分分解。
基于以上解釋, 就不難理解小波神經網絡預測法對我國股市解釋和預測效果不如基于EMD和BP神經網絡的預測方法的原因了。
本文創(chuàng)造性地將機械工程領域用于處理復雜信號波的EMD方法與神經網絡模型相結合,建立了基于EMD的神經網絡股價預測模型。利用EMD分解法,將我國上證綜合指數(shù)2011年1月4日至2013年3月19日共534個數(shù)據進行訓練分解,得到6個相互獨立并正交的IMF分量,并利用逐步回歸、顯著性檢驗等方法篩選出包括IMF4、IMF5、IMF6和RESID4個變量, 并以這4個變量為輸入變量,以我國上證綜合指數(shù)的歷史數(shù)據為惟一輸出變量建立神經網絡模型。繼而利用2013年3月20日至2013年3月31日8個交易日的數(shù)據進行模型的檢驗,并通過該法與小波神經網絡預測方法的比較,得出檢驗樣本真實值與預測值的擬合程度更好,而且檢驗樣本數(shù)據真實值與預測值的相對誤差更小,說明運用EMD與神經網絡方法是現(xiàn)階段優(yōu)于小波神經網絡預測方法的處理非線性、非平穩(wěn)數(shù)據的更好預測方法。