■ 王曉紅 王夢(mèng)瑤 郝婷
內(nèi)蒙古科技大學(xué) 經(jīng)濟(jì)與管理學(xué)院 包頭 014010
金融時(shí)間序列的分析預(yù)測(cè)一直是科學(xué)家們研究的重點(diǎn)課題,其具有波動(dòng)性、非平穩(wěn)性等特點(diǎn),因而相應(yīng)預(yù)測(cè)模型的構(gòu)建也非常復(fù)雜。在市場(chǎng)經(jīng)濟(jì)中,政策環(huán)境、利率等因素都可能影響到股票價(jià)格,通常表現(xiàn)出復(fù)雜性和非線性等特點(diǎn)。不同的影響因素,其對(duì)股票價(jià)格的影響程度不同,影響方式也有較大區(qū)別,這就加劇了預(yù)測(cè)模型構(gòu)建的難度,但單一的預(yù)測(cè)模型
因?yàn)殡y以提取數(shù)量關(guān)系及進(jìn)行定量分析而無(wú)法滿足預(yù)測(cè)需要,針對(duì)這一問(wèn)題,人們提出了與單一預(yù)測(cè)模型相比更具實(shí)用性的組合線性和非線性的混合預(yù)測(cè)模型。Kao L J 等[1]在研究股票價(jià)格波動(dòng)規(guī)律時(shí)提出了多元自適應(yīng)樣條回歸(Multivariate Adaptive Regression Splines,MARS)模型,此類(lèi)模型的特點(diǎn)是集成小波變換和支持向量回歸,與以往的股票價(jià)格預(yù)測(cè)模型相比,該模型提高了預(yù)測(cè)精度。Jianzhou 等[2]在展開(kāi)相關(guān)研究時(shí)結(jié)合遺傳算法(Genetic Algorithm,GA)與支持向量機(jī)(support vector machine,SVR)模型提出了股票智能投股模型,即引入GA 算法對(duì)輸入變量進(jìn)行篩選,并利用搜索到的最優(yōu)解確定最優(yōu)參數(shù),之后再將變量子集輸入模型中以判斷可能具有高收益的股票并將其推薦給用戶。Lu[3]從不同的角度對(duì)股票市場(chǎng)展開(kāi)研究,提出了一種新的股票價(jià)格預(yù)測(cè)模型,即引入非線性獨(dú)立成分分析法并利用粒子群算法訓(xùn)練參數(shù),根據(jù)其研究結(jié)果顯示,新的模型較其他模型有更好的預(yù)測(cè)效果。Jigar Patel 等[4]將人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和SVM應(yīng)用于S&P CNX Nifty 指數(shù)預(yù)測(cè),對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)SVM預(yù)測(cè)效果優(yōu)于ANN。Akbilgic等[5]引入徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function,RBF-NN)來(lái)預(yù)測(cè)股票價(jià)格,此模型采用了多種分析方法如嶺回歸與徑向基神經(jīng)網(wǎng)絡(luò)等,200日實(shí)驗(yàn)結(jié)果表明該方法累計(jì)收益跑贏ISE 100 指數(shù)。Wiwik.Anggraeni 和Nezhad S[6-7]對(duì)股票價(jià)格變化進(jìn)行了長(zhǎng)期深入的研究,并分析了向量自回歸(Vector Autoregressive model,VAR)和差分整合移動(dòng)平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)的股價(jià)預(yù)測(cè)性能,根據(jù)其研究結(jié)果表明,預(yù)測(cè)模型SVM 比以上兩者具有更好的預(yù)測(cè)效果。Wang S.X.和Jinming You 等[8-9]在展開(kāi)相關(guān)研究時(shí)做了大量對(duì)比實(shí)驗(yàn),比如將SVM 與支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)作對(duì)比研究,結(jié)果表明,前者比后兩者具有更好的預(yù)測(cè)性能。此外還指出模型的預(yù)測(cè)精度與參數(shù)的選擇有關(guān),參數(shù)選取越科學(xué)模型預(yù)測(cè)效果越好。張鵬[10]在研究股價(jià)市場(chǎng)時(shí)提出了一種優(yōu)化的ARIMA-GM-SVR 集成模型,此模型具有非線性特征可較好的解決時(shí)間序列數(shù)據(jù)的噪音性,并在分析GDP方法的基礎(chǔ)上對(duì)模型做了大量測(cè)試,結(jié)果顯示模型對(duì)于非線性的股價(jià)變化具有良好的預(yù)測(cè)效果。曹曉等[11]基于自回歸條件異方差模型(Autoregressive conditional heteroskedasticity model,GARCH)模型和BP 神經(jīng)網(wǎng)絡(luò)兩者基礎(chǔ)上構(gòu)建預(yù)測(cè)組合模型,實(shí)驗(yàn)表明該模型可有效提高股票價(jià)格的預(yù)測(cè)精度。彭乃馳[12]等建立了以單項(xiàng)模型ARIMA 和預(yù)測(cè)值GM 作為BP網(wǎng)絡(luò)的輸入,實(shí)際值為輸出的非線性組合的集成預(yù)測(cè)模型。郭秋艷等[13]結(jié)合DFA 方法和神經(jīng)網(wǎng)絡(luò)分析GDP 的變化規(guī)律,指出GDP 時(shí)序具有長(zhǎng)程相關(guān)性,在進(jìn)行預(yù)測(cè)分析過(guò)程中可通過(guò)已知的GDP 相關(guān)信息來(lái)預(yù)測(cè)其未來(lái)的發(fā)展變化趨勢(shì)。方燕等[14]運(yùn)用ARIMA 模型和GARCH 模型對(duì)傳媒板塊指數(shù)價(jià)格進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明GARCH 模型的預(yù)測(cè)效果更顯著。曹霜等[15]構(gòu)建了一種預(yù)測(cè)混合模型即ARIMA-SVM,并指出該種模型較單一模型在股價(jià)預(yù)測(cè)方面的準(zhǔn)性更高。盡管大部分混合股票價(jià)格預(yù)測(cè)模型己被理論界證明具有一定的合理性,但針對(duì)時(shí)間序列特性的研究還比較匱乏,預(yù)測(cè)模型的精度也有待進(jìn)一步提升。為解決這一問(wèn)題,本文提出了ARIMA—TGD—SVM 股票價(jià)格混合預(yù)測(cè)模型,旨補(bǔ)充股價(jià)預(yù)測(cè)時(shí)間相關(guān)性方面的分析研究,并提高預(yù)測(cè)模型的準(zhǔn)確性和有效性。
假定X={xi,i=1,2,...,N}是一個(gè)時(shí)間序列,則ARIMA(p,d,q)模型可以描述為:
其中,p>0 表示自回歸的階數(shù)、d>0 表示差分階數(shù)、q>0 表示移動(dòng)平均的階數(shù),xt為真實(shí)值,lt是xt的預(yù)測(cè)值;εt為預(yù)測(cè)誤差。
SVM 模型較傳統(tǒng)的機(jī)器學(xué)習(xí)方法更具優(yōu)勢(shì),其最大特點(diǎn)是其算法可以將結(jié)構(gòu)風(fēng)險(xiǎn)最小化,從而有效解決擬合問(wèn)題,具有泛化能力強(qiáng)、訓(xùn)練樣本少的優(yōu)點(diǎn)。對(duì)于回歸問(wèn)題,此處采用以下公式來(lái)表示相應(yīng)的訓(xùn)練集即為輸入,yi∈y=R為輸出,由此可構(gòu)建出支持向量機(jī)回歸模型:
其對(duì)偶問(wèn)題可描述為:
則解為:
金融時(shí)間序列由于其數(shù)據(jù)具有時(shí)間相關(guān)性因此相對(duì)特殊和復(fù)雜,其中包含很多數(shù)據(jù)點(diǎn),而且不同數(shù)據(jù)點(diǎn)之間的關(guān)系也各異,數(shù)據(jù)點(diǎn)間隔越小其關(guān)系越強(qiáng)越容易互相影響。本文運(yùn)用Anaconda Prompt 軟件得到了流形上兩點(diǎn)之間的測(cè)地線距離,如圖1 中直線部分表示測(cè)地線距離,點(diǎn)線部分表示歐式距離,與圖1的測(cè)地線距離相比,圖2 鄰域內(nèi)點(diǎn)之間的歐式距離能夠更好的反應(yīng)兩點(diǎn)間的相關(guān)性。
在多維時(shí)序數(shù)據(jù)中若時(shí)間維度存在流形,那么對(duì)于有N 個(gè)點(diǎn)的測(cè)地線距離:在集合中,令p為p1、pn間的路徑。路徑的長(zhǎng)度d(p)表示為:
圖1 兩點(diǎn)間真實(shí)距離
dTG(p,q):=inf{d(P)|P}是由p到q在時(shí)間維度上的路徑。
若K:X×X→RN同時(shí)x1,...,xl∈X,那么Gram 矩陣滿足:(Ωij)N×N:[K(xi,xj)]N×N>0。
其中K(x1,x2)=dGT[φ(x1),φ(x2)],x1,x2∈X,那么K為時(shí)間測(cè)地線核函數(shù)。
第一步,通過(guò)ARIMA 對(duì)時(shí)序數(shù)據(jù)進(jìn)行處理加工,得到兩個(gè)線性等式:xi=li+nli(線性預(yù)測(cè)結(jié)果)、δi=xi+(殘差序列)。
第二步,構(gòu)建基于高維面板數(shù)據(jù)的單輸出和多輸出TGDSVM 模型,然后在此基礎(chǔ)上對(duì)進(jìn)行處理,同時(shí)獲得一組相應(yīng)的時(shí)間序列。
第三步,將線性與非線性預(yù)測(cè)結(jié)果相結(jié)合,最終獲得研究需要的預(yù)測(cè)結(jié)果即。具體算法為輸入和,其中xi∈R,Thi∈RN;輸出。
其中,Thj∈χ在時(shí)間維度上是Thi的近鄰。
對(duì)于每個(gè)樣本點(diǎn)Thk,使用公式min{dTG(i,j),dTG(i,k)+dTG(k,j)}計(jì)算最短路徑dTG(i,j),形成最短路徑矩陣DTG={dTG(i,j)};在SVM模型中采用歐式距離,并在上訓(xùn)練模型;使用訓(xùn)練好的SVM模型以Tht+1為輸入得到δt+1的預(yù)測(cè)結(jié)果;應(yīng)用公式計(jì)算得到最終預(yù)測(cè)結(jié)果。
本文選取了波動(dòng)性較大且近一年為股市龍頭的5只股票(銀河磁體、金力永磁、廣晟有色、中國(guó)軟件、涪陵電力)的日收盤(pán)價(jià)來(lái)驗(yàn)證測(cè)試模型的有效性,訓(xùn)練樣本為2018年5月31日至2019年5月31日,測(cè)試樣本為2019年6月1日至2019年6月31日。實(shí)驗(yàn)數(shù)據(jù)集合(訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集)的具體情況如表1所示,個(gè)股時(shí)間序列描述性統(tǒng)計(jì)如表2所示。分析表2 可知,受多種因素的影響個(gè)股時(shí)間序列數(shù)據(jù)存在尖峰后尾和正偏態(tài)的現(xiàn)象。由此可見(jiàn),對(duì)于復(fù)雜的時(shí)序數(shù)據(jù),混合預(yù)測(cè)模型比單一模型的預(yù)測(cè)效果更理想。
在TGDSVM 中構(gòu)建基于測(cè)地線距離的TGDRBF 核函數(shù),具體參數(shù)設(shè)定如表3所示。為衡量算法的有效性,在此次研究中采用均方根誤差、回歸指數(shù)等來(lái)檢驗(yàn)?zāi)P偷姆夯Ч?,具體表達(dá)式分別為:
本文運(yùn)用Anaconda Prompt 3軟件測(cè)試ARIMASVM和ARIMATGDSVM 模型的預(yù)測(cè)效果,結(jié)果如圖3~圖7所示。其非線性混合模型評(píng)價(jià)指標(biāo)對(duì)比如表4所示。
由上述股票價(jià)格預(yù)測(cè)結(jié)果時(shí)序圖可以看出,模型ARIMATGDSV M 較于真實(shí)值具有更好的擬合效果,而且相對(duì)穩(wěn)定。更為重要的是,與其他模型相比,在一些關(guān)鍵的時(shí)序數(shù)據(jù)拐點(diǎn)預(yù)測(cè)中,該模型的預(yù)測(cè)效果展現(xiàn)出較強(qiáng)的趨勢(shì)判別能力更為理想。此外,通過(guò)分析個(gè)股時(shí)序數(shù)據(jù)箱型圖可知,ARIMATGDSV M 預(yù)測(cè)結(jié)果回歸線更接近真實(shí)值,這就說(shuō)明該模型較傳統(tǒng)模型更能有效反應(yīng)真實(shí)時(shí)序數(shù)據(jù)的方差變動(dòng)??梢缘贸鲠槍?duì)廣晟有色(代碼:600259.SH)測(cè)試數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果提高最為明顯,R2的值由0.7963 提高為0.9313,其余數(shù)據(jù)的實(shí)驗(yàn)結(jié)果亦有顯著的改善。
表3 非線性混合模型參數(shù)設(shè)定
圖3 銀河磁體股票價(jià)格預(yù)測(cè)結(jié)果
圖4 金力永磁股票價(jià)格預(yù)測(cè)結(jié)果
圖5 廣晟有色股票價(jià)格預(yù)測(cè)結(jié)果
圖6 中國(guó)軟件股票價(jià)格預(yù)測(cè)結(jié)果
圖7 涪陵電力股票價(jià)格預(yù)測(cè)結(jié)果
表4 非線性混合模型評(píng)價(jià)指標(biāo)對(duì)比
表4為兩種非線性股票價(jià)格混合預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)結(jié)果。通過(guò)對(duì)比分析可知,對(duì)于不同的數(shù)據(jù)集測(cè)試,ARIMATGDSVM 混合模型比原ARIMASVM模型在MAE、RMSE、MAPE、SEP 評(píng)價(jià)指標(biāo)上均有了顯著的改善。在預(yù)測(cè)一致性度量指標(biāo)方面,WIN 有了一定提高,通過(guò)檢測(cè)其總體提高比例超過(guò)0.9%,此外Nash 系數(shù)也顯著提高。
綜上所述,單一ARIMA 模型只能分析時(shí)序數(shù)據(jù)的線性部分,而在實(shí)際應(yīng)用中,時(shí)序數(shù)據(jù)是非常復(fù)雜的,既包含線性部分也包含非線性部分,因而本文提出的ARI-MA-TGD-SVM 股票價(jià)格混合預(yù)測(cè)模型在分析時(shí)序數(shù)據(jù)方面更具有優(yōu)勢(shì),其主要表現(xiàn)為基于時(shí)間測(cè)地線距離來(lái)描述金融時(shí)序數(shù)據(jù)間的相關(guān)性,與傳統(tǒng)的歐式距離相比更加真實(shí)有效。根據(jù)實(shí)驗(yàn)研究結(jié)果表明,新的TGDSVM針對(duì)金融時(shí)序數(shù)據(jù)內(nèi)部的非線性部分的分析和解釋能力更強(qiáng),因而ARIMA-TGD-SVM 股票價(jià)格混合預(yù)測(cè)模型對(duì)時(shí)序數(shù)據(jù)的預(yù)測(cè)效果更為理想。
在股票市場(chǎng)中,有眾多因素會(huì)對(duì)股票價(jià)格產(chǎn)生影響,因而股價(jià)的研究是一個(gè)充滿挑戰(zhàn)性的問(wèn)題。股票市場(chǎng)具有波動(dòng)性、非平穩(wěn)性等特點(diǎn),因此股價(jià)的預(yù)測(cè)難度很大,而且很多方法在預(yù)測(cè)的精度上也不甚理想。但時(shí)間序列預(yù)測(cè)理論為此方面研究提供了解決思路,也是目前股價(jià)預(yù)測(cè)方面較為理想的方法。本文通過(guò)構(gòu)建ARI-MA-TGD-SVM 混合預(yù)測(cè)模型,經(jīng)過(guò)計(jì)算機(jī)仿真模擬和分析驗(yàn)證,最終證明該模型在股價(jià)預(yù)測(cè)方面效果顯著;并利用歷史日收盤(pán)價(jià)作為訓(xùn)練集,對(duì)未來(lái)短期內(nèi)的股價(jià)做出預(yù)測(cè),能夠幫助投資者做出正確的投資選擇,從而降低投資風(fēng)險(xiǎn)。