夏道明
(合肥幼兒師范高等??茖W(xué)校 基礎(chǔ)部,合肥 230013)
金融危機的頻發(fā)會使投資者的財產(chǎn)遭受損失,因此人們迫切希望可以利用各種統(tǒng)計方法來對未來股票市場的行情走勢進(jìn)行模擬、預(yù)測,從而達(dá)到保本升值的目的。隨著經(jīng)濟的快速發(fā)展,股票市場的地位日益凸顯,也被人們越來越重視,但股票市場極高的復(fù)雜性和不確定性導(dǎo)致人們對股市的預(yù)測有著極大的困難。國內(nèi)外諸多專家學(xué)者也積極致力于股市預(yù)測的研究中,努力建立一個好的預(yù)測模型,以期更好地描述股市的變化。
股市的走勢雖然受到多種因素影響[1],但股市態(tài)勢變化仍然具有內(nèi)在規(guī)律和特點,是各因素綜合結(jié)果在態(tài)勢上的表現(xiàn)?,F(xiàn)有關(guān)于股市預(yù)測的方法主要是傳統(tǒng)的時間序列模型[2],如常用的AR、ARMA、ARIMA模型等,然而應(yīng)用這些模型的前提是股票時間序列數(shù)據(jù)服從于正態(tài)分布并趨向于平穩(wěn)[3],因而達(dá)不到有效地對多數(shù)股票數(shù)據(jù)進(jìn)行預(yù)測的目的[4]。Yi Zuo[4]、Engle R F[5]對其進(jìn)行改進(jìn),分別提出了ARCH模型和GARCH模型,都可以應(yīng)用于股票時序數(shù)據(jù)處于非正態(tài)分布情況下的預(yù)測。另外,研究人員通過對股票數(shù)據(jù)分析尋找出當(dāng)前觀測值和歷史數(shù)據(jù)值之間的結(jié)構(gòu)關(guān)系,建立反映股市變化的數(shù)學(xué)模型。王冬琳[6]用基于遺傳算法和半?yún)?shù)回歸的神經(jīng)網(wǎng)絡(luò)集成的方法,對上證指數(shù)開盤價進(jìn)行預(yù)測研究;汪靈枝[7]在遺傳算法的基礎(chǔ)上改進(jìn)了神經(jīng)網(wǎng)絡(luò)集成個體的連接結(jié)構(gòu)和初始連接權(quán)值,并結(jié)合主成分分析方法,建立了新型的股市預(yù)測模型;姚宏亮[8]基于股票波動典型的M形態(tài),提出了基于因果關(guān)系的嶺回歸股市態(tài)勢預(yù)測算法,并建立了預(yù)測模型;吳成東等[9]基于人工神經(jīng)元網(wǎng)絡(luò),利用BP網(wǎng)絡(luò)對股票市場股價的走勢進(jìn)行了預(yù)測分析;20世紀(jì)70年代,加拿大統(tǒng)計學(xué)家Ramsay將泛函分析、拓?fù)鋵W(xué)與統(tǒng)計學(xué)的數(shù)據(jù)統(tǒng)計相結(jié)合進(jìn)行數(shù)據(jù)處理,提出函數(shù)型數(shù)據(jù)分析的方法。這種方法能對無限維或高維空間的曲線數(shù)據(jù)進(jìn)行統(tǒng)計分析,更好展現(xiàn)出數(shù)據(jù)變化的規(guī)律,從而挖掘出更多的數(shù)據(jù)信息,更加全面深刻的認(rèn)識問題[10,11]。本文基于函數(shù)型數(shù)據(jù)理論,將函數(shù)型數(shù)據(jù)分析的思想應(yīng)用于股市,采用2013年3月至2016年11月的上證綜指,建立函數(shù)型非參數(shù)模型,運用核估計的方法,估計有關(guān)參數(shù)值達(dá)到預(yù)測股市的目的,同時與傳統(tǒng)領(lǐng)域中經(jīng)典自回歸方法進(jìn)行比較,展示出函數(shù)型非參數(shù)模型的優(yōu)越性。
設(shè)n個樣本{(Xi,Yi)}來自如下函數(shù)型非參數(shù)模型:
其中,Xi為解釋變量,它是函數(shù)型變量,Yi是響應(yīng)變量,它是實值變量,εi為實值隨機變量,其滿足E(εi|Xi)=0 ,m(?)是未知算子。Ferraty 和 Vieu(2006)[12]利用Nadaraya-Watson(N-W)核估計方法研究了在給定X=x時Y的條件分布函數(shù)的估計,定義如下:
其中K、H為核函數(shù),光滑參數(shù)h:=hn、g:=gn滿足為半度量表示兩個函數(shù)型樣本xi、xj之間的相近程度。由式(2)可以得到m(x)的一個函數(shù)型條件分位數(shù)的估計量:
對于上述核函數(shù)、半度量及光滑參數(shù)的所選方法參見文獻(xiàn)[12]。
上證綜指數(shù)據(jù)的變化過程是一個連續(xù)過程,視為一條連續(xù)曲線,具有函數(shù)型數(shù)據(jù)特征。設(shè)上證綜指為一個隨機變量S在某時間段t∈[a,a+nτ]的觀測數(shù)據(jù)構(gòu)成的一個連續(xù)的時間序列{S(t),t∈[a,a+nτ]}。根據(jù)對股指中長期的預(yù)測,為了使預(yù)測效果更明顯及計算方便,本文選取τ=30作為觀測周期,其中a∈{1,2,...,30}。則觀測到的股指數(shù)據(jù)可以看作是按觀測周期τ重復(fù)進(jìn)行觀測得到的。從函數(shù)型數(shù)據(jù)的角度看,將觀測周期τ內(nèi)觀測到的數(shù)據(jù)視為一個觀測段si:
由式(4)知,可以將觀測區(qū)間[a,a+nτ]上的觀測值S(t)轉(zhuǎn)化為函數(shù)型時間序列{s1,s2,...,sn} 。在實際生活中,股指是按每日收盤時刻 r1,r2,...,rl收集的數(shù)據(jù),因此本文在觀測段si所得到的函數(shù)型數(shù)據(jù)為:
將時間序列轉(zhuǎn)化為函數(shù)型數(shù)據(jù)條件,利用已知的函數(shù)型數(shù)據(jù){s1,s2,...,sn}對下一個觀測段sn+1進(jìn)行預(yù)測。利用函數(shù)型數(shù)據(jù) {s1,s2,...,sn}構(gòu)建函數(shù)型數(shù)據(jù) (Xi,Yi)并對條件分位數(shù)函數(shù) m進(jìn)行估計,其中τ),i=1,2,...,n-1。由式(2)得到函數(shù)型數(shù)據(jù)預(yù)測模型:
當(dāng) x=sn時得到 sn的預(yù)測值基于函數(shù)型非參數(shù)模型的股指的中長期預(yù)測步驟主要為以下幾個部分:
(1)確定觀測時間區(qū)間[a,b]、觀測周期τ。
(3)確定式(2)中核函數(shù)K、H,半度量 d(?,?)以及光滑參數(shù)h、g的選取方法,確定α值。
本文采用上證綜指2013年4月至2016年12月每日的股指數(shù)據(jù)對上述模型進(jìn)行分析。首先,對每日的股指數(shù)據(jù)進(jìn)行描述,作出其時間序列圖。其次,對上述函數(shù)型非參數(shù)模型進(jìn)行參數(shù)選取。最終,得到預(yù)測值,并與實際值進(jìn)行比較,將通過圖像展示其預(yù)測效果。
上證綜指數(shù)據(jù)可以看作一列實際的時間序列數(shù)據(jù),由N=900,{S(t),t=1,2,...,900}個數(shù)據(jù)組成。圖1表示每日上證綜指數(shù)據(jù)的時間序列圖。
在式(5)中,本文選取的核函數(shù)為:
圖1 每日上證綜指序列圖(2013.4.24—2016.12.30)
半度量選取的一般形式為:
其中次數(shù)q的選擇影響著曲線的擬合程度。另一個影響著曲線的擬合為核函數(shù)中光滑參數(shù)h、g的選取,光滑參數(shù)h由交叉驗證自動選取窗寬,對于g的選取主要通過交叉驗證的k近鄰的方法進(jìn)行選取gk,對于k選取的具體過程可以參考文獻(xiàn)[12]。
本文將900個股指數(shù)據(jù)分為三十組,即τ=30,則每個觀測周期內(nèi)所觀測到的數(shù)據(jù)為三十個。這樣就把900個數(shù)據(jù)轉(zhuǎn)化生成為30條函數(shù)型數(shù)據(jù)曲線,從而減少了數(shù)據(jù)處理的維度,避免維數(shù)災(zāi)難的發(fā)生。為了體現(xiàn)本模型的優(yōu)點,本文通過前29條曲線預(yù)測第30條曲線,并與第30條曲線進(jìn)行對比。主要預(yù)測過程為以下步驟:
步驟1:由式(4)構(gòu)造函數(shù)型數(shù)據(jù) (si,Yi)i=1,...,28,代入式(5)得到第29組數(shù)據(jù)。
步驟2:確定選取q值標(biāo)準(zhǔn):本文通過不同的q值比較均方誤差(MSE):
步驟3:通過合適的q值,光滑參數(shù)h、gK,核函數(shù)確定最終的合適非參數(shù)模型。當(dāng)x=s29時,由式(5)得到第30組數(shù)據(jù),將其轉(zhuǎn)化成曲線。
基于函數(shù)型數(shù)據(jù)分析方法,本文將870個數(shù)據(jù)轉(zhuǎn)化為29條曲線,減少了數(shù)據(jù)處理的維度,避免由維數(shù)災(zāi)難而造成的預(yù)測不準(zhǔn)。從圖2可以看出在函數(shù)型非參數(shù)模型下,通過29條曲線建立的模型對第30條曲線進(jìn)行預(yù)測時表現(xiàn)出很好的預(yù)測效果,預(yù)測的偏差較少。
股市數(shù)據(jù)為時間序列數(shù)據(jù),現(xiàn)有關(guān)于股市預(yù)測的方法主要是一些傳統(tǒng)的時間序列模型,本文將函數(shù)型非參數(shù)模型與傳統(tǒng)的時間序列模型相比較,并對結(jié)果進(jìn)行分析。
本文主要通過李志林[13]提出的自回歸方法對上述數(shù)據(jù)建立模型進(jìn)行預(yù)測。首先對樣本取對數(shù)再取一階差分,將非平穩(wěn)時間序列平穩(wěn)化。計算差分后的序列的樣本相關(guān)函數(shù),如圖3所示。
圖2 函數(shù)型非參數(shù)模型預(yù)測的結(jié)果
圖3 一階差分自相關(guān)函數(shù)
從圖3中可看到,對數(shù)據(jù)進(jìn)行一階差分后,自相關(guān)函數(shù)在零附近徘徊,說明序列是平穩(wěn)的。由AIC準(zhǔn)則判斷模型為AR(2)。本文利用前870個數(shù)據(jù)確定模型為:Xk=0.1018Xk-1-0.0316Xk-2+εk,然后預(yù)測后30個數(shù)據(jù),得到的預(yù)測曲線(虛線)與實際曲線(實線)的對比如圖4所示。
圖4 自回歸模型
由圖4可以看出,除了最高點周圍的一些數(shù)據(jù),大體上來說前600個數(shù)據(jù)預(yù)測較好,600~870個數(shù)據(jù)有些誤差,但誤差不大,因此本文認(rèn)為此回歸模型是有效的,然后比較預(yù)測數(shù)據(jù)。從圖中可以看出,預(yù)測的30個數(shù)據(jù)與實際數(shù)據(jù)差距較大,實際中股市是下降的,而預(yù)測出的卻是上揚的。在時間序列模型中可以看出,當(dāng)給出的數(shù)據(jù)太多時,有可能造成預(yù)測不準(zhǔn);但只是運用部分?jǐn)?shù)據(jù)時,雖然能提高預(yù)測的準(zhǔn)確率,但不能充分發(fā)掘數(shù)據(jù)中的信息。
本文的預(yù)測分析方法并不是將離散的觀測數(shù)據(jù)作為一個孤立的點來看待,而是將其看成某區(qū)間段的一條連續(xù)曲線,通過多條曲線建立函數(shù)型數(shù)據(jù)模型,達(dá)到在充分運用已有的數(shù)據(jù)信息下減少處理數(shù)據(jù)的維度避免維數(shù)災(zāi)難,又可以提高預(yù)測結(jié)果準(zhǔn)確性的目的。
本文基于函數(shù)型非參數(shù)模型對上證股指進(jìn)行中長期預(yù)測。該模型是將每日股指變化視為函數(shù)型變量,從函數(shù)型數(shù)據(jù)分析的角度進(jìn)行分析,建立預(yù)測模型,在充分利用挖掘已有的信息下,減少處理數(shù)據(jù)維度,提高預(yù)測準(zhǔn)確性。與已有文獻(xiàn)中的自回歸方法模型相比,本文的函數(shù)型非參數(shù)預(yù)測模型在預(yù)測中長期股指時精度較高,適用于中長期的數(shù)據(jù)預(yù)測。
將函數(shù)型數(shù)據(jù)分析方法應(yīng)用于金融數(shù)據(jù)不僅能夠分析數(shù)據(jù)的函數(shù)特征,也能分析預(yù)測金融發(fā)展趨勢,可以為政府政策制定提供依據(jù)。當(dāng)已有的數(shù)據(jù)不完整出現(xiàn)缺失情況時,如何處理數(shù)據(jù)使其預(yù)測的準(zhǔn)確性不變,可以作為一個研究方向。
參考文獻(xiàn):
[1]Hadavandi E,Shavandi H,Ghanbari A.Integration of Genetic Fuzzy Systems and Artificial Neural Networks for Stock Price Forecasting[J].Knowledge-Based Systems,2013,23(8).
[2]姚宏亮,杜明超,李俊照等.一種基于流特征模式的股市跟蹤預(yù)測算法[J].計算機科學(xué),2013,40(12).
[3]Kazem A,Sharifi E,Hussain F K,et al.Support Vector Regression With Chaos-Based Firefly Algorithm for Stock Market Price Forecasting[J].Applied Soft Computing,2013,13(2).
[4]Zuo Y,Kita E.Stock Price Forecast Using Bayesian Network[J].Expert Systems with Applications,2012,39(8).
[5]Engle R F.Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation[J].Econometrica,1981,50(4).
[6]王冬琳.基于遺傳算法和半?yún)?shù)回歸的神經(jīng)網(wǎng)絡(luò)集成股市預(yù)測研究[J].數(shù)學(xué)的實踐與認(rèn)識,2012,42(11).
[7]汪靈枝.基于非參數(shù)回歸的遺傳神經(jīng)網(wǎng)絡(luò)集成股市預(yù)測研究[J].玉林師范學(xué)院學(xué)報,2010,31(5).
[8]姚宏亮,馬曉琴,王浩等.基于形態(tài)特征與因果嶺回歸的股市態(tài)勢預(yù)測算法[J].計算機工程,2016,42(2).
[9]吳成東,王長濤.人工神經(jīng)元BP網(wǎng)絡(luò)在股市預(yù)測方面的應(yīng)用[J].控制工程,2002,9(3).
[10]Ramsay J O,Dalzell C J.Some Tools for Functional Data Analysis[J].Journal of the Royal Statistical Society,1991,53(3).
[11]Ferraty F,Vieu P.Nonparametric Functional Data Analysis:Theory and Practice[J].2007,49(2).
[12]Ferraty F,Vieu P.Nonparametric Functional Data Analysis:Theory and Practice[M].New York:Springer Science&Business Media,2006.
[13]李志林,王志剛.股市預(yù)測的自回歸方法[J].統(tǒng)計與決策,2007,(5).