徐曉芳, 管 瑞
(南開大學(xué) 金融學(xué)院, 天津 300350)
金融時間序列預(yù)測是金融領(lǐng)域中一個重要研究方向, 可以為二級股票市場投資提供市場走勢、風(fēng)險和入場出場時機的預(yù)測. 傳統(tǒng)金融時間序列預(yù)測方法包括技術(shù)分析和計量經(jīng)濟(jì)學(xué)模型. 技術(shù)分析是利用技術(shù)指標(biāo)或者結(jié)合多種技術(shù)指標(biāo)對未來一段時間股票走勢進(jìn)行方向性預(yù)測, 計量經(jīng)濟(jì)學(xué)方法是利用多元線性回歸、ARIMA 模型等模型對歷史股票數(shù)據(jù)進(jìn)行最優(yōu)化擬合, 然后對未來進(jìn)行預(yù)測.
人工智能可以學(xué)習(xí)到時間序列中的非線性關(guān)系,能夠有效處理金融數(shù)據(jù)中低信噪比問題, 在金融時間序列預(yù)測上具有顯著的優(yōu)勢, 尤其是以大數(shù)據(jù)為背景的神經(jīng)網(wǎng)絡(luò)類模型. 國外相關(guān)文獻(xiàn)主要以宏觀經(jīng)濟(jì)數(shù)據(jù)和股票價格預(yù)測為主, Ahmed 等利用傳統(tǒng)機器學(xué)習(xí)模型對宏觀經(jīng)濟(jì)中M3 時間序列進(jìn)行預(yù)測[1]; Cao 等利用EMD 分解和LSTM 模型對美國股票價格時間序列進(jìn)行預(yù)測, 獲得了較高的預(yù)測精度[2]; Siami-Namini 等比較了LSTM 模型和ARIMA 模型在美國重要股票指數(shù)上的預(yù)測水平差異[3]; Dingli 等研究了CNN 模型在美國股票價格序列上的預(yù)測能力[4]; Kumar 等測試了LSTM 對納斯達(dá)克股票價格的預(yù)測能力[5]; Shen 等比較了GRU 和SVM 在美國和歐洲不同股票指數(shù)上的預(yù)測能力[6]. 國內(nèi)相關(guān)文獻(xiàn)主要以單只股票指數(shù)預(yù)測為主, 谷麗瓊等利用結(jié)合注意機制的GRU 模型對科大訊飛股票價格進(jìn)行預(yù)測, 預(yù)測效果優(yōu)于其他模型[7]; 喬若羽比較研究神經(jīng)網(wǎng)絡(luò)在上證指數(shù)上的預(yù)測能力, 研究了模型優(yōu)化方向[8]; 李坤等利用支持向量機對A 股大盤指數(shù)和個股進(jìn)行預(yù)測[9]; 王文波等結(jié)合EMD 分解和神經(jīng)網(wǎng)絡(luò)對上證指數(shù)和深證成指進(jìn)行預(yù)測[10].
本文在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(NN)、RNN、LSTM 和GRU 等模型基礎(chǔ)上, 構(gòu)建集成學(xué)習(xí)模型, 研究神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)模型在金融時間序列預(yù)測上的表現(xiàn).本文選擇ARIMA 模型和線性回歸模型為基準(zhǔn)模型, 選擇16 只A 股市場和全球重要發(fā)達(dá)國家和地區(qū)股票市場指數(shù)為樣本, 研究模型在長期、中期和短期3 種不同預(yù)測期間上的預(yù)測能力, 比較模型在不同國家和地區(qū)的適用情況.
神經(jīng)網(wǎng)絡(luò)模型由全連接層組成, 按照全連接層作用分類, 可以分為輸入層, 隱藏層和輸出層, 如圖1(a).神經(jīng)網(wǎng)絡(luò)中的節(jié)點是非線性轉(zhuǎn)換單元, 負(fù)責(zé)對輸入進(jìn)行線性組合并且利用激活函數(shù)進(jìn)行非線性輸出, 如圖1(b).
圖1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型
激活函數(shù)是神經(jīng)網(wǎng)絡(luò)可以進(jìn)行非線性擬合的核心,常見激活函數(shù)有S 型函數(shù)(Sigmoid)、雙曲正切函數(shù)(tanh)和修正線性單元(ReLU), 如式(1).
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的輸入是同質(zhì)的, 無法區(qū)分輸入序列的先后關(guān)系, RNN 將輸入看成一個新的維度, 允許模型按照時間順序輸入特征, 如圖2 所示.
圖2 RNN 模型
RNN 雖然可以利用狀態(tài)向量擁有記憶能力, 但是記憶能力有限, 只能記憶當(dāng)前時刻最近的狀態(tài), 無法處理長期依賴問題. LSTM 模型解決了長期依賴問題, 擁有長期記憶能力, 同時也解決了RNN 梯度爆炸和梯度離散的問題.
圖3 LSTM 模型
GRU 是LSTM 的簡化版本, 性能與LSTM 類似,但是大大減少了計算復(fù)雜度, 提高了計算效率[15]. GRU減少了門控的數(shù)量并且去掉了狀態(tài)向量ct, 只保留重置門rt和更新門zt, 如圖4 所示.
圖4 GRU 模型
GRU 輸入為ht?1和xt, 輸出為ht和yt,ht作為下一個時刻的輸入,yt作為最終輸出結(jié)果, GRU 的數(shù)據(jù)運算過程如式(5).
股票指數(shù)在不同的資本市場和不同的時期會呈現(xiàn)出不同的趨勢和特點. 機器學(xué)習(xí)模型有其各自的優(yōu)缺點和最優(yōu)的適用場景, 單一機器學(xué)習(xí)模型很難適用于股票市場中的所有情況. 集成學(xué)習(xí)(ensemble learning)可以結(jié)合多個基學(xué)習(xí)器, 獲得一個表現(xiàn)穩(wěn)定且優(yōu)異的強學(xué)習(xí)器, 能夠同時減少預(yù)測偏差和方差[16].
本文選擇傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(NN)、RNN、LSTM 和GRU 4 個模型作為基學(xué)習(xí)器, 利用bagging 集成學(xué)習(xí)構(gòu)建強學(xué)習(xí)器, 如圖5 所示.
圖5 EL 模型
傳統(tǒng)金融時間序列模型主要包括n階自回歸模型(AR(n)模型)和差分自回歸移動平均模型(ARIMA(p,d,q)模型).
ARMA(p,q)模型表達(dá)式如式(9)所示:
對于非平穩(wěn)金融時間序列, 傳統(tǒng)金融計量經(jīng)濟(jì)學(xué)引用d階差分來平穩(wěn)化金融時間序列, 并且使用經(jīng)過差分后的金融時間序列進(jìn)行ARMA(p,q) 建模, 即ARIMA(p,d,q)模型[17,18].
本文數(shù)據(jù)來源是wind 數(shù)據(jù)庫, 樣本時間范圍為2005 年1 月1 日到2020 年12 月31 日. 本文選擇7 只我國A 股市場指數(shù)和9 只國際市場指數(shù)共計16 只重要股票指數(shù)作為樣本, 比較機器學(xué)習(xí)模型和傳統(tǒng)時間序列預(yù)測模型在不同市場和擁有不同成分股的股票指數(shù)上的預(yù)測能力, 增加了結(jié)論的可靠性和穩(wěn)健性.
我國A 股市場指數(shù)分別為上證綜指(000001), 上證50 (000016), 上證180 (000010), 滬深300 (000300),深證成指 (399001), 創(chuàng)業(yè)板指(399006) 和中小板指(399005)[19]; 全球市場指數(shù)分別為道瓊斯工業(yè)指數(shù)(DJI),標(biāo)普500 (SPX), 納斯達(dá)克指數(shù)(IXIC), 恒生指數(shù)(HSI),法國CAC40 (FCHI), 英國富士100 (FTSE), 德國DAX(GDAXI), 日經(jīng)225 (N225)和韓國綜合指數(shù)(KS11).
本文使用平均絕對誤差(MAE) 度量模型預(yù)測能力, 并且比較神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)(EL)與傳統(tǒng)金融時間序列預(yù)測模型直接預(yù)測誤差MAE衡量EL性能提升水平. 本文進(jìn)一步使用Diebold-Mariano 檢驗來對模型預(yù)測能力進(jìn)行統(tǒng)計顯著性檢驗, 比較神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)是否顯著優(yōu)于傳統(tǒng)ARIMA 和AR 模型[20,21].
MAE用于衡量預(yù)測值與真實值誤差絕對值的均值, 可以比較模型預(yù)測能力的優(yōu)劣, 本文為了便于展示,將MAE結(jié)果擴(kuò)大了100 倍, 如式(10).
神經(jīng)網(wǎng)絡(luò)模型超參數(shù)包括隱藏層層數(shù)、神經(jīng)元個數(shù)、激活函數(shù)和模型優(yōu)化器等. 為了提高模型的收斂速度, 本文對數(shù)據(jù)進(jìn)行最大最小值標(biāo)準(zhǔn)化, 對神經(jīng)網(wǎng)絡(luò)類模型采用隨機梯度下降(SGD)優(yōu)化器, 并且配合學(xué)習(xí)率遞減策略[23]. 4 種基學(xué)習(xí)器的具體超參數(shù)取值如表1 所示. 本文基準(zhǔn)模型選擇ARIMA(p,d,q)模型和AR(n)模型, 兩個基準(zhǔn)模型的參數(shù)優(yōu)化及選擇如表2 和表3 所示.
表1 4 種基學(xué)習(xí)器超參數(shù)取值
表2 ARIMA(p, d, q)模型超參數(shù)選擇
表3 AR(n)模型超參數(shù)選擇
本文選擇全球16 只重要的股票價格指數(shù)時間序列為樣本, 時間跨度為2005 年1 月1 日到2020 年12 月31 日, 共計3889 個交易日, 由于我國A 股市場某些指數(shù)編制起始時間不同, 交易日個數(shù)略少, 具體如表4.
表4 樣本數(shù)據(jù)時間跨度
本文將樣本劃分為不同長度的訓(xùn)練集和測試集,用以檢驗神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)模型在不同預(yù)測期間長度上的表現(xiàn), 具體可分為長期預(yù)測(100 個交易日預(yù)測),中期預(yù)測(50 個交易日預(yù)測)和短期預(yù)測(30 個交易日預(yù)測), 即選擇樣本中最后100、50 和30 個交易日數(shù)據(jù)作為測試集, 其他交易日數(shù)據(jù)作為訓(xùn)練集.
實證結(jié)果如表5–表7 所示. 表5–表7 以MAE為評價指標(biāo), 分別展示了神經(jīng)網(wǎng)絡(luò)類模型和神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)模型在全球不同市場不同股票指數(shù)下, 在不同預(yù)測期間的預(yù)測能力, 比較了神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)(EL)相比于傳統(tǒng)金融時間序列預(yù)測模型ARIMA 和AR 模型的性能提升水平.
表5 長期模型預(yù)測誤差(MAE)和性能提升
表6 中期模型預(yù)測誤差(MAE)和性能提升
由表5–表7 可知, NN、RNN、LSTM、GRU 和集成學(xué)習(xí)模型的樣本外預(yù)測能力顯著優(yōu)于傳統(tǒng)ARIMA和線性回歸模型, 在不同股票指數(shù)和不同預(yù)測時間長度上的表現(xiàn)都優(yōu)于傳統(tǒng)模型, 其平均預(yù)測性能提升大約35%.
表7 短期模型預(yù)測誤差(MAE)和性能提升
LSTM 和GRU 模型在英國富士100 和日經(jīng)225等極少數(shù)股票指數(shù)上表現(xiàn)不如線性回歸模型, 其他情況下都優(yōu)于ARIMA 和AR 模型. 其中原因是股票指數(shù)與近期股市表現(xiàn)相關(guān)性最強, 與長期表現(xiàn)相關(guān)性變?nèi)?導(dǎo)致具有長期記憶能力的LSTM 和GRU 模型預(yù)測能力下降. 集成學(xué)習(xí)作為強學(xué)習(xí)器, 在預(yù)測穩(wěn)定性和預(yù)測精度上優(yōu)于其他神經(jīng)網(wǎng)絡(luò)類模型, 集成學(xué)習(xí)在不同期限上的樣本外預(yù)測值和真實值的時間序列, 如圖6–圖8所示.
圖6 集成學(xué)習(xí)在長期預(yù)測(100 天)上的表現(xiàn) (橫坐標(biāo)表示天數(shù), 縱坐標(biāo)表示股票指數(shù))
圖7 集成學(xué)習(xí)在中期預(yù)測(50 天)上的表現(xiàn) (橫坐標(biāo)表示天數(shù), 縱坐標(biāo)表示股票指數(shù))
圖8 集成學(xué)習(xí)在短期預(yù)測(30 天)上的表現(xiàn) (橫坐標(biāo)表示天數(shù), 縱坐標(biāo)表示股票指數(shù))
神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)在不同國家和地區(qū)的股票市場中的表現(xiàn)具有一定的差異. 在中國股票市場和美國股票市場上, 神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)比ARIMA 模型性能提升大約45%, 比AR 模型性能提升大約35%; 在其他發(fā)達(dá)國家股票市場上, 神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)比ARIMA 模型依然有顯著的優(yōu)勢, 性能提升大約70%, 但是比AR 模型性能提升只有15%左右.
本文利用DM 檢驗, 進(jìn)一步檢驗神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)在不同預(yù)測期間和不同國家股票市場上的表現(xiàn)的是否顯著優(yōu)于傳統(tǒng)時間序列預(yù)測模型, 結(jié)果如表8 所示. 表8 檢驗了在不同預(yù)測期限上, 神經(jīng)網(wǎng)絡(luò)類模型和集成學(xué)習(xí)分別在中國股票市場、美國股票市場和其他發(fā)達(dá)國家股票市場上相比于傳統(tǒng)時間序列模型是否存在顯著的優(yōu)勢. NN、RNN、LSTM、GRU 和集成學(xué)習(xí)模型在中國市場和美國市場上的預(yù)測能力顯著優(yōu)于傳統(tǒng)時間序列模型, 但是在其他發(fā)達(dá)國家市場的表現(xiàn)不具有統(tǒng)計顯著性.
表8 不同股票市場預(yù)測能力DM 檢驗
ARIMA 和AR 等傳統(tǒng)金融時間序列預(yù)測模型只能捕獲時間序列中的線性關(guān)系, 無法捕獲時間序列中的非線性關(guān)系. 股票指數(shù)是包含了眾多噪音在內(nèi)的非線性時間序列, 線性模型只能預(yù)測股票指數(shù)的線性趨勢部分, 無法預(yù)測股票指數(shù)非線性趨勢部分.
神經(jīng)網(wǎng)絡(luò)類模型可以捕獲時間序列中的非線性關(guān)系, 集成學(xué)習(xí)可以有效地降低單一神經(jīng)網(wǎng)絡(luò)模型的過擬合風(fēng)險. 基于神經(jīng)網(wǎng)絡(luò)類模型的集成學(xué)習(xí)不僅僅可以有效地識別出股票指數(shù)中的非線性關(guān)系, 還可以避免模型擬合過多的噪音, 增強模型的泛化能力. 所以神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)在金融時間序列預(yù)測上的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)金融時間序列預(yù)測模型.
本文以7 只A 股市場指數(shù)和9 只國際市場指數(shù)為樣本, 研究了神經(jīng)網(wǎng)絡(luò)類模型和基于神經(jīng)網(wǎng)絡(luò)的集成學(xué)習(xí)在金融時間序列上的預(yù)測能力與傳統(tǒng)時間序列模型的預(yù)測能力的差異, 提出基于神經(jīng)網(wǎng)絡(luò)類模型的集成學(xué)習(xí)時間序列預(yù)測模型, 提高了金融時間序列的樣本外預(yù)測能力.
本文主要結(jié)論如下: (1) 神經(jīng)網(wǎng)絡(luò)類模型顯著優(yōu)于ARIMA 模型和線性回歸模型. LSTM 和GRU 模型在英國富士100 和日經(jīng)225 等極少數(shù)股票指數(shù)上表現(xiàn)不如線性回歸模型, 在其他股票指數(shù)上的表現(xiàn)顯著優(yōu)于ARIMA 和AR 等傳統(tǒng)時間序列模型. NN、RNN 和集成學(xué)習(xí)模型顯著優(yōu)于傳統(tǒng)時間序列模型. (2) 基于神經(jīng)網(wǎng)絡(luò)類的集成學(xué)習(xí)模型在所有機器學(xué)習(xí)模型中表現(xiàn)最穩(wěn)定, 在短期預(yù)測、中期預(yù)測和長期預(yù)測和全部股票市場指數(shù)上的表現(xiàn)顯著優(yōu)于傳統(tǒng)時間序列模型. (3) 神經(jīng)網(wǎng)絡(luò)類模型和基于神經(jīng)網(wǎng)絡(luò)的集成學(xué)習(xí)模型在中國股票市場和美國股票市場中的表現(xiàn)顯著優(yōu)于其他發(fā)達(dá)國家股票市場.
本文的研究拓展了金融時間序列預(yù)測的理論研究,為股票投資提供風(fēng)險參考和入場出場時機參考. 在宏觀上, 本文研究可以為投資者提供股票走勢的預(yù)測和風(fēng)險預(yù)測; 在微觀上, 本文研究可以減少股票市場不必要的波動, 促進(jìn)中國股票市場合理定價, 促進(jìn)中國股票市場繁榮穩(wěn)定發(fā)展.