石志偉,武志峰,張 哲
(天津職業(yè)技術(shù)師范大學(xué)信息技術(shù)工程學(xué)院(軟件工程學(xué)院),天津 300222)
隨著大數(shù)據(jù)時代的到來,社會各行各業(yè)都建立起了自己專業(yè)領(lǐng)域的大數(shù)據(jù)[1]。金融領(lǐng)域中指標(biāo)的時間相關(guān)性尤為明顯,非常具有研究的實(shí)際意義[2]。在眾多金融指標(biāo)中波動率是最具決策與指導(dǎo)意義的指標(biāo)之一,它反映了價格的波動幅度,相對于未來的價格,人們更關(guān)注未來的市場趨勢。精準(zhǔn)預(yù)測波動率可以提高投資者的收益率,降低投資的不確定性,幫助從業(yè)人員進(jìn)行風(fēng)險管理、期權(quán)定價、資產(chǎn)配置,體現(xiàn)金融企業(yè)的行業(yè)軟實(shí)力。雖然波動率的預(yù)測很有學(xué)術(shù)和實(shí)踐意義,但是金融領(lǐng)域的數(shù)據(jù)具有高度非線性、高度復(fù)雜性、高度時間變化性等特點(diǎn),使研究充滿了挑戰(zhàn)性,成為時間序列預(yù)測領(lǐng)域的難點(diǎn)[3]。
1959年Osborne[4]提出隨機(jī)漫步理論,之后,1970年Fama[5]提出了有效市場假說,2位著名學(xué)者推斷股票的相關(guān)指標(biāo)無法被有效預(yù)測。但1999 年Lo 和Mackinlay 提出非隨機(jī)漫步理論[6],證明了股票的相關(guān)指標(biāo)通過有效的經(jīng)濟(jì)學(xué)模型可以被預(yù)測。隨著預(yù)測模型的不斷優(yōu)化,在金融界產(chǎn)生了量化投資的全新投資方式,它以統(tǒng)計、分析、預(yù)測的客觀結(jié)果進(jìn)行投資。傳統(tǒng)投資方式是憑借人們的主觀判斷進(jìn)行決策的投資。1971 年美國巴克萊投資管理公司發(fā)行了首只量化投資策略的基金[7]。美國的量化交易占比超過70%,中國起步晚10 年以上,目前占比超過20%,正處于高速成長階段。
在過去的研究中,對于時間序列以及波動率預(yù)測,不同的學(xué)者和專家給出了自己的解決方案。最初,在經(jīng)濟(jì)學(xué)領(lǐng)域,1982年Engle[8]提出的自回歸條件異方差(ARCH)模型和1986年Bollerslev[9]提出的廣義自回歸條件異方差(GARCH)模型都被成功應(yīng)用于波動率的時間序列預(yù)測。
隨著人工智能的興起,機(jī)器學(xué)習(xí)開始被應(yīng)用到各個行業(yè)來解決工程難題。2017 年,Liu 等人[10]使用回歸樹模型成功預(yù)測了銅的長短期價格。人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)框架是近年來人工智能研究領(lǐng)域的熱點(diǎn)。1988 年,White[11]使用人工神經(jīng)網(wǎng)絡(luò)成功預(yù)測了IBM 股票的日常波動率。然而,金融大數(shù)據(jù)強(qiáng)隨機(jī)性和動態(tài)非線性的特點(diǎn),使得普通神經(jīng)網(wǎng)絡(luò)的擬合度較差,1997 年,Hochreiter 等人[12]提出能夠存儲時間信息的長短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)。2015 年,Chen 等人[13]通過LSTM 模型成功預(yù)測了中國股市的收益率。2017 年,Nelson 等人[14]使用LSTM 模型成功預(yù)測了股市的波動率。隨著學(xué)者們的深入研究,周志華老師提出了集成學(xué)習(xí)策略。2016年,Khaidem等人[15]使用隨機(jī)森林模型有效預(yù)測了股票收益率。2019 年,Basak等人[16]使用GBDT 模型成功預(yù)測了股票波動率,GBDT 也成為了當(dāng)前在金融領(lǐng)域進(jìn)行時間序列預(yù)測的首選建模方式。
雖然眾多學(xué)者的研究已經(jīng)取得了很多的成果,但是本文發(fā)現(xiàn)其還存在很多問題有待解決:
1)即使是目前效果最顯著的集成學(xué)習(xí)的方式,在誤差方面也存在一定的缺陷:Boosting 的集成策略可以降低偏差但對方差沒有效果;Bagging 的集成方式可以降低方差但對偏差沒有效果,表現(xiàn)在工程應(yīng)用中就是模型預(yù)測的精確度和泛化能力(結(jié)果可信任度)無法得到兼顧。
2)對于目前比較熱門的神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)來說,如果用它直接訓(xùn)練模型,模型的可解釋性差,所消耗的時間與計算資源也是巨大的,隨著輸入特征值的數(shù)量增加,模型的維度、復(fù)雜性、不確定性都是不可控的。
3)人工智能到來之前,智能算法的矛盾為算法匱乏與用戶對算法需求日益增長之間的矛盾。在當(dāng)前人工智能-大數(shù)據(jù)環(huán)境下,智能算法的矛盾轉(zhuǎn)變?yōu)樗惴ㄍㄓ眯杂邢夼c工程問題多樣性之間的矛盾。雖然現(xiàn)在是一個算法富集的時代,但是沒有完美的算法,沒有普適的模型,面對各類數(shù)據(jù)問題怎樣才能提高現(xiàn)有智能算法的適應(yīng)能力呢?
針對上述問題,本文提出糾正學(xué)習(xí)的策略:根據(jù)不同的工程數(shù)據(jù),選用傳統(tǒng)的機(jī)器學(xué)習(xí)器進(jìn)行學(xué)習(xí),將學(xué)習(xí)結(jié)果通過糾正學(xué)習(xí)器進(jìn)行學(xué)習(xí)糾正,不僅能夠同時提高傳統(tǒng)學(xué)習(xí)器的預(yù)測精度和泛化能力,也能夠提高傳統(tǒng)學(xué)習(xí)器的適應(yīng)能力。為了驗(yàn)證糾正學(xué)習(xí)的效果,本文以股票波動率預(yù)測問題為例進(jìn)行仿真。學(xué)術(shù)界普遍認(rèn)為通過集成學(xué)習(xí)訓(xùn)練的模型是一種比經(jīng)典的效果更好的算法,為了更有力地說明糾正學(xué)習(xí)的效果,本文選擇LightGBM 作為基礎(chǔ)學(xué)習(xí)器,GRU神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit)作為學(xué)習(xí)糾正器,形成LightGBM-GRU 混合模型。
本文的主要工作如下:
1)提出當(dāng)前智能算法存在的矛盾:智能算法通用性有限與工程問題多樣性之間的矛盾。
2)指出當(dāng)前時間序列預(yù)測研究存在的問題,提出糾正學(xué)習(xí)策略,使用訓(xùn)練LightGBM-GRU 模型來預(yù)測126 只不同行業(yè)的股票波動率,得到的預(yù)測結(jié)果比LightGBM有更低的誤差率和更高的泛化能力。
3)以GRU作為糾正器,既保留了該模型對時間序列預(yù)測的優(yōu)勢,又避免了深度學(xué)習(xí)框架直接進(jìn)行訓(xùn)練的高消耗與不穩(wěn)定性,為深度學(xué)習(xí)提供了降維思路。
4)給出了糾正學(xué)習(xí)策略能夠成功的理論分析,證實(shí)糾正學(xué)習(xí)策略的可用性與可研究性,提出糾正學(xué)習(xí)策略能夠提高現(xiàn)有智能算法對各類工程問題適應(yīng)性的觀點(diǎn)。
在1990 年,Schapire[17]提出并論證了Boosting 集成學(xué)習(xí)算法的提升效果。LightGBM(Light Gradient Boosting Machine)是目前用于時間序列預(yù)測中精度最高的算法。
步驟1 初始化CART學(xué)習(xí)器。
步驟2 對于迭代次數(shù)t=1,2,…,T:
1)對每個樣本i=1,2,…,m,計算t次迭代的負(fù)梯度(殘差)。
2)將上一步得到的殘差作為樣本數(shù)據(jù)的目標(biāo)值,將(xi,rti)(i=i,2,…,m)作為第t棵樹的訓(xùn)練數(shù)據(jù),擬合新的回歸樹ht(x),該樹對應(yīng)的葉子節(jié)點(diǎn)區(qū)域?yàn)镽tj(j=1,2,…,J)。其中J為回歸樹葉子節(jié)點(diǎn)的個數(shù)。
3)損失函數(shù)最小的情況下,估計出相應(yīng)葉子節(jié)點(diǎn)區(qū)域Rtj(j=1,2,…,J)的值。
4)更新學(xué)習(xí)器。
步驟3 得到最終學(xué)習(xí)器模型。
1990 年Elman[18]提出循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)。
圖1為RNN結(jié)構(gòu)圖:X表示輸入層的值;S表示隱藏層的值,其節(jié)點(diǎn)個數(shù)與向量S的維度相同;O表示輸出層的值,U是輸入層到隱藏層的權(quán)重矩陣,V是隱藏層到輸出層的權(quán)重矩陣。
圖1 RNN算法描述及其時間展開圖
RNN的計算公式如下:
其中g(shù)(·)、f(·)為激活函數(shù)。
為了克服RNN 在訓(xùn)練中很容易發(fā)生梯度爆炸和梯度消失的缺點(diǎn),Junyoung Chung 等人在2014 年提出了GRU(Gated Recurrent Unit)[19]。圖2 為GRU 計算示意圖。
圖2 GRU計算示意圖
GRU的前向計算公式為:
其中“?”表示哈達(dá)馬積(Hadamard Product),即對應(yīng)位置相乘。
1.3.1 算法描述
前文引用的大量文獻(xiàn)表明,不同的回歸模型算法對不同的數(shù)據(jù)有著各自的適應(yīng)性。本文提出一種糾正學(xué)習(xí)算法,以神經(jīng)網(wǎng)絡(luò)作為模型糾正器,傳統(tǒng)的機(jī)器學(xué)習(xí)模型作為基模型,通過糾正學(xué)習(xí)來降低模型的偏差與方差。具體實(shí)現(xiàn)方法是將基模型的輸出作為糾正器的輸入進(jìn)行訓(xùn)練與預(yù)測。糾正學(xué)習(xí)的策略可以針對不同的數(shù)據(jù)或業(yè)務(wù)需求選用不同的基模型與糾正器,糾正學(xué)習(xí)策略具有一種算法上的相對普適性。糾正學(xué)習(xí)的目的是讓基模型的學(xué)習(xí)結(jié)果更加接近真實(shí)值,并且提高模型對不同工程數(shù)據(jù)的適應(yīng)性。公式描述如下:
其中,f為基模型,O為基模型的輸出值,h為糾正學(xué)習(xí)器,Y為進(jìn)行糾正學(xué)習(xí)后的輸出。
1.3.2 理論分析
糾正學(xué)習(xí)是選用基礎(chǔ)學(xué)習(xí)器進(jìn)行學(xué)習(xí),將學(xué)習(xí)結(jié)果通過糾正器進(jìn)行糾正的策略?;A(chǔ)學(xué)習(xí)器和糾正器可以根據(jù)數(shù)據(jù)特點(diǎn)靈活選擇機(jī)器學(xué)習(xí)模型,但是基礎(chǔ)學(xué)習(xí)器和糾正器應(yīng)該為不同的模型?;A(chǔ)學(xué)習(xí)器通過數(shù)據(jù)集完成訓(xùn)練和建模,糾正器在同一個數(shù)據(jù)集的基礎(chǔ)上,根據(jù)基礎(chǔ)學(xué)習(xí)器的輸出結(jié)果和真實(shí)的目標(biāo)值完成訓(xùn)練和建模。不同機(jī)器學(xué)習(xí)模型訓(xùn)練出來的學(xué)習(xí)器具有不同的偏好,糾正學(xué)習(xí)策略是在基礎(chǔ)學(xué)習(xí)器的基礎(chǔ)上根據(jù)真實(shí)值進(jìn)一步學(xué)習(xí)和擬合,這可以從直覺上解釋為何糾正學(xué)習(xí)策略能夠成功。
具有不同偏好的學(xué)習(xí)器可以給樣本不同的標(biāo)記,如糾正器中應(yīng)該能夠?qū)W習(xí)到一些基礎(chǔ)學(xué)習(xí)器不具有的信息,即基礎(chǔ)學(xué)習(xí)器不能正確標(biāo)記的樣本可能會被糾正器正確標(biāo)記。如果基礎(chǔ)學(xué)習(xí)器和糾正器具有較大差異性,那么使用糾正學(xué)習(xí)策略可能會取得更好的效果,因此2 個學(xué)習(xí)器具有較大的差異性有可能是使糾正學(xué)習(xí)策略成功的條件。
論證:
A、B分別表示基礎(chǔ)學(xué)習(xí)器和糾正器。d(A、B)表示學(xué)習(xí)器A、B之間的差異性。eA表示A的誤差率,eB表示B的誤差率。存在以下不等式:
糾正器的選擇是多種多樣的,本文實(shí)驗(yàn)中的糾正器選用的是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是通過足夠多的簡單轉(zhuǎn)換函數(shù)及其各種組合方式來學(xué)習(xí)的一個復(fù)雜的目標(biāo)函數(shù),可以用以下簡單方式表達(dá):
對于同一個樣本X,B學(xué)習(xí)器會根據(jù)目標(biāo)值對A學(xué)習(xí)器得到的結(jié)果YA(X)進(jìn)一步擬合,最終由糾正器產(chǎn)出的YB(X)結(jié)果會更加接近于真實(shí)值。
當(dāng)d(A、B)越大時,學(xué)習(xí)器A與學(xué)習(xí)器B對樣本X標(biāo)記的不一致性越大,學(xué)習(xí)器A學(xué)到的信息與學(xué)習(xí)器B學(xué)到的信息差別越大,B對A貢獻(xiàn)的信息越不相同,B能糾正A的可能性也就越強(qiáng),B以尋優(yōu)的學(xué)習(xí)原則進(jìn)行學(xué)習(xí)時,可以得到:
通過以上推導(dǎo)基礎(chǔ)學(xué)習(xí)器和糾正器的差異性是糾正學(xué)習(xí)策略成功的充分條件,即基礎(chǔ)學(xué)習(xí)器和糾正器只要具有差異性就可以通過糾正學(xué)習(xí)策略提高整體的精確度。在訓(xùn)練過程中基礎(chǔ)學(xué)習(xí)器和糾正器之間呈現(xiàn)一種相互扶持的態(tài)勢。
1.3.3 LightGBM-GRU
為了證明糾正學(xué)習(xí)策略的正確性,本文選用金融數(shù)據(jù)這一時間序列預(yù)測中的難點(diǎn)進(jìn)行實(shí)驗(yàn),并且基礎(chǔ)學(xué)習(xí)器選用學(xué)者們認(rèn)為經(jīng)典的效果比較好的集成學(xué)習(xí)模型。針對股票波動率預(yù)測這一具體問題,設(shè)計如圖3 所示的混合學(xué)習(xí)模型,該模型命名為LightGBMGRU。LightGBM-GRU 是以GRU 為糾正器,Light-GBM為基礎(chǔ)學(xué)習(xí)器。
算法1 給出了波動率預(yù)測中糾正學(xué)習(xí)算法的詳細(xì)步驟,圖3 詳細(xì)展示了所提出的LightGBM-GRU 模型架構(gòu)圖。
算法1 糾正學(xué)習(xí)算法LightGBM-GRU輸入: 歷史的股票交易數(shù)據(jù)(劃分訓(xùn)練集與測試集)。輸出: 未來的股票波動率。# 建模步驟1: 將訓(xùn)練數(shù)據(jù)集LightBoost 進(jìn)行建模,通過調(diào)參訓(xùn)練,讓模型達(dá)到最優(yōu)的學(xué)習(xí)狀態(tài)。步驟2: 將訓(xùn)練集輸入到訓(xùn)練好的LightBoost模型,模型的輸出結(jié)果以及目標(biāo)值(真實(shí)的波動率)作為GRU的輸入進(jìn)行建模,對GRU進(jìn)行調(diào)參訓(xùn)練。# 預(yù)測步驟3: 將測試數(shù)據(jù)集輸入LightBoost進(jìn)行預(yù)測。步驟4: 將LightBoost 的預(yù)測結(jié)果作為GRU 的輸入得到最終的預(yù)測。
選擇GRU 作為糾正學(xué)習(xí)器的優(yōu)勢如下:神經(jīng)網(wǎng)絡(luò)是一種低偏差、高方差的模型,屬于一種不穩(wěn)定的學(xué)習(xí)器。面對高維度、動態(tài)隨機(jī)的金融大數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)如果直接做預(yù)測模型,則存在耗時、耗資源、超參難調(diào)、穩(wěn)定性差、解釋性差(黑盒算法)等缺點(diǎn)。用基于學(xué)習(xí)器的預(yù)測結(jié)果作為輸入,用GRU 深度學(xué)習(xí)框架作為糾正器進(jìn)一步擬合回歸,得到最終的混合模型,為深度學(xué)習(xí)提供了一種降維的操作。這樣能避免直接用神經(jīng)網(wǎng)絡(luò)預(yù)測的缺點(diǎn)。用神經(jīng)網(wǎng)絡(luò)自主適應(yīng)、自主學(xué)習(xí)、快速擬合、快速尋優(yōu)的優(yōu)點(diǎn)去尋找混合模型方差與偏差的最優(yōu)平衡點(diǎn),使得模型的可解釋性、穩(wěn)定性、精確度、泛化能力都能達(dá)到相對最優(yōu)。
圖4和實(shí)驗(yàn)步驟1為進(jìn)行股票波動率預(yù)測仿真的整體思路與步驟描述。
圖4 實(shí)驗(yàn)步驟圖
實(shí)驗(yàn)步驟1實(shí)驗(yàn)步驟 股票波動率預(yù)測輸入: 歷史的股票交易數(shù)據(jù)。輸出: 未來的股票波動率。#數(shù)據(jù)預(yù)處理步驟1 數(shù)據(jù)描述:了解數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),進(jìn)行數(shù)據(jù)清理、缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化,劃分訓(xùn)練集與測試集。步驟2 數(shù)據(jù)探索性分析:探索數(shù)據(jù)集的整體分布,為特征工程與建模參數(shù)設(shè)置進(jìn)行準(zhǔn)備。步驟3 特征工程:根據(jù)步驟2,從數(shù)據(jù)的角度對數(shù)據(jù)集進(jìn)行特征工程與向量編碼。#建模與訓(xùn)練步驟4 分別對LightGBM-GRU 進(jìn)行建模訓(xùn)練以及參數(shù)調(diào)優(yōu)。#模型評估步驟5 選用多種實(shí)驗(yàn)中需要的評估模型。如果模型訓(xùn)練無法回歸,則重新調(diào)整特征工程;如果模型回歸后誤差太高,則重新調(diào)整模型參數(shù)后訓(xùn)練。#實(shí)驗(yàn)結(jié)果與分析步驟6 對所有模型的預(yù)測結(jié)果進(jìn)行分析,說明糾正學(xué)習(xí)策略的價值。
2.1.1 數(shù)據(jù)描述
仿真數(shù)據(jù)集來源于Optiver 對外提供的數(shù)億條細(xì)化的歷史金融數(shù)據(jù),數(shù)據(jù)擁有以秒為單位的時間精度,這些數(shù)據(jù)來自不同行業(yè)的126 只股票近3 年的交易歷史。數(shù)據(jù)集的多樣性與差異性更能全面、真實(shí)地評價所提模型的有效性和實(shí)用性。實(shí)驗(yàn)所用數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)如表1所示。
表1 數(shù)據(jù)集結(jié)構(gòu)
本文的研究目標(biāo)是以歷史10 min 內(nèi)的股票交易數(shù)據(jù)來預(yù)測未來10 min的股票波動率。將st稱為股票S在時間t的價格,t1和t2之間的對數(shù)收益公式定義為:
10 min固定時間窗口的對數(shù)收益率可表示如下:
計算所有連續(xù)賬簿更新的對數(shù)收益率,對數(shù)收益率平方和的平方根則為波動率的定義[20]。公式如下:
由于各因子的量綱不同,需將數(shù)據(jù)進(jìn)行歸一化處理,然后將數(shù)據(jù)按照8:2的比例劃分訓(xùn)練集和測試集,為了保證所得模型的可靠性,相對訓(xùn)練集來說,測試集數(shù)據(jù)皆為未來時間段的數(shù)據(jù)。
2.1.2 數(shù)據(jù)探索性分析
圖5 為訓(xùn)練集數(shù)據(jù)中時間窗口的數(shù)據(jù)長度分布(以股票ID 為0 的數(shù)據(jù)為例):一個10 min 的時間窗口包含600 s 的時間點(diǎn),每只股票的不同時間窗口的數(shù)據(jù)量不相同,且成正態(tài)分布,大部分時間窗口的數(shù)據(jù)量小于600,所以數(shù)據(jù)是不連續(xù)的,數(shù)據(jù)段seconds_in_bucket 隱含了股票的活躍度信息,可以為特征工程提供啟發(fā)。
圖5 時間窗口的數(shù)據(jù)量分布圖
圖6 波動率分布
圖7 特征工程流程圖
2.2.1 實(shí)驗(yàn)環(huán)境
仿真環(huán)境以及模型的訓(xùn)練預(yù)測環(huán)境都是Python3.X。實(shí)驗(yàn)運(yùn)行平臺為:AMD Ryzen 9 5900HX,NVIDIA GeForce RTX 3080,32.00 GB installed RAM。
2.2.2 模型參數(shù)設(shè)置
仿真采用的糾正器為圖8 所示的多層神經(jīng)網(wǎng)絡(luò):第1 層為由100 個神經(jīng)元組成的GRU 層;第2 層為由10 個神經(jīng)元組成的GRU 層;第3 層為Dense 全連接層。為了減少過擬合現(xiàn)象,提高糾正器的泛化能力,前2 層在每層之后都會使用Dropout(0.2)方法,即訓(xùn)練過程中,神經(jīng)元按照20%的概率暫時丟棄。具體參數(shù)設(shè)置見表2。仿真采用的基礎(chǔ)模型LightGBM 的參數(shù)設(shè)置見表3。
表3 LightGBM 參數(shù)設(shè)置表
圖8 GRU神經(jīng)網(wǎng)絡(luò)圖
表2 GRU參數(shù)描述表
在評估和分析一個模型的性能與預(yù)測能力時,采用多種不同的評價指標(biāo)是很重要的[21]。本文采用MSE(預(yù)測模型最通用的度量)、MAE(注重測試離群點(diǎn)誤差)、RMSPE(解決魯棒性問題)、RMSE(避免出現(xiàn)量綱問題)作為評價指標(biāo)。其中MAE 為平均絕對誤差、MSE 為均方誤差、RMSE 為均方根誤差、RMSPE為根均方百分比誤差。具體公式如下:
其中,σt為時間窗口t時的波動率真實(shí)值,σ^t為時間窗口t時的波動率預(yù)測值。因此上述評估標(biāo)準(zhǔn)的值越小,則表明模型預(yù)測的精度越高。
圖9 給出了不同模型在測試集上的預(yù)測結(jié)果與真實(shí)值,為了便于展示與觀察,圖中數(shù)據(jù)為隨機(jī)抽取的20個預(yù)測點(diǎn)。觀察圖9不難發(fā)現(xiàn),不論是準(zhǔn)確度還是穩(wěn)定性,LightGBM-GRU 模型的預(yù)測效果都是最好的。雖然不同行業(yè)不同股票不同時間段的波動率變化是不同的,但糾正模型的預(yù)測結(jié)果更接近真實(shí)值。由于圖9 所示真實(shí)波動率具有非線性、非平穩(wěn)性、突變性等特點(diǎn),因此集成學(xué)習(xí)成為了目前主流的預(yù)測算法,學(xué)者們也普遍認(rèn)為集成學(xué)習(xí)是一種經(jīng)典的效果比較好的算法[22],但仿真結(jié)果表明了糾正學(xué)習(xí)策略能夠進(jìn)一步提升集成學(xué)習(xí)的性能。
圖9 股票波動率預(yù)測結(jié)果對比圖
為了定量分析預(yù)測結(jié)果,圖10和表4列出了不同評價指標(biāo)對上述不同模型的評價結(jié)果,LightGBMGRU 的數(shù)值都小于LightGBM,即糾正學(xué)習(xí)模型在所有情況下都優(yōu)于傳統(tǒng)模型。這是由于股票價格的原始信號波動頻率高,突變幅度大,直接使用傳統(tǒng)模型很難提取和分析其變化規(guī)律,通常很難得到滿意的預(yù)測結(jié)果[23]。對原始信號進(jìn)行糾正學(xué)習(xí)后,輸出的回歸結(jié)果更穩(wěn)定,減少了原始數(shù)據(jù)中不同尺度特征信息之間的干擾和耦合,更容易獲得原始序列復(fù)雜的內(nèi)部特征,包括線性和非線性特征,從而減輕了模型的負(fù)擔(dān)和預(yù)測的難度。因此,與單模型方法相比,糾正學(xué)習(xí)模型的預(yù)測性能有很大的提高,對糾正學(xué)習(xí)模型來說,基礎(chǔ)模型和糾正器對最終的預(yù)測結(jié)果具有相互促進(jìn)的作用。
圖10 模型誤差對比圖
表4 模型評估對比表(基于測試集)
偏差描述的是預(yù)測值的期望與真實(shí)值之間的差距,偏差越大,越偏離真實(shí)數(shù)據(jù),反映了模型的預(yù)測精度[24]。方差描述的是預(yù)測值的變化范圍、離散程度,也就是模型在訓(xùn)練集與測試集的效果差異度,反映了模型的泛化能力[25]。結(jié)合表5 和圖11 可以觀察到所有的模型在訓(xùn)練集和測試集上,模型預(yù)測誤差都存在偏量。這些偏量影響了人們對模型效果的可信度。LightGBM 是一種低偏差高方差的集成學(xué)習(xí)策略,LightGBM-GRU 在偏差和方差上面都表現(xiàn)出了比LightGBM 更好的性能。R2表示預(yù)測變量與響應(yīng)變量之間的線性關(guān)系,在測試集上LightGBM-GRU 的R2=0.84,證明股票波動率預(yù)測實(shí)驗(yàn)具有很高的實(shí)用價值。
圖11 模型在訓(xùn)練集和測試集上預(yù)測的偏量
表5 模型預(yù)測誤差偏置表
仿真實(shí)驗(yàn)中所有的輸入、輸出是獨(dú)立不相關(guān)的,這為高度相關(guān)的時間序列建模增加了困難,因?yàn)闀r間序列預(yù)測問題中,時間關(guān)聯(lián)是很重要的因素[26]。GRU 是一個強(qiáng)大的時間數(shù)據(jù)處理模型,它用記憶細(xì)胞代替了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的隱層神經(jīng)元,形成了信息循環(huán)結(jié)構(gòu)[27]。因此,GRU 可以有效地將歷史信息與當(dāng)前輸入數(shù)據(jù)關(guān)聯(lián)起來,從而能夠高精度地捕捉數(shù)據(jù)的動態(tài)特征。正如預(yù)期的那樣,在126 只不同行業(yè)的股票波動率預(yù)測中,本文所提出的LightGBM-GRU 模型在所有模型中具有最好的預(yù)測效果,它在處理非正態(tài)分布的樣本時能夠更好地擬合離散點(diǎn),反映了混合模型的穩(wěn)健性。
實(shí)驗(yàn)分析與理論證明都表明了糾正學(xué)習(xí)策略的提升效果,為了進(jìn)一步體現(xiàn)糾正學(xué)習(xí)策略的相對普適性,實(shí)驗(yàn)中將統(tǒng)計學(xué)中常用于時間序列預(yù)測的經(jīng)典模型MLR(Multiple Linear Regression)作為基礎(chǔ)模型,通過糾正學(xué)習(xí)策略設(shè)計出MLR-GRU 混合模型,同樣將其應(yīng)用到來自不同行業(yè)的126只股票3年的交易數(shù)據(jù)集中進(jìn)行預(yù)測實(shí)驗(yàn)。
表6 和圖12 為不同模型仿真結(jié)果的對比。結(jié)合MLR和MLR-GRU 的實(shí)驗(yàn)數(shù)據(jù)可以明顯發(fā)現(xiàn),糾正學(xué)習(xí)策略不論對經(jīng)典的統(tǒng)計學(xué)算法還是經(jīng)典的機(jī)器學(xué)習(xí)算法都有很好的提升效果,該策略對傳統(tǒng)算法的提升具有相對的普適性。另外,對比發(fā)現(xiàn)LightGBMGRU 的性能要好于MLR-GRU,這表明基礎(chǔ)學(xué)習(xí)器的性能會對糾正學(xué)習(xí)的混合模型性能產(chǎn)生較大影響。因此糾正學(xué)習(xí)算法作為一種元模型,在實(shí)際的工程實(shí)踐中,可以根據(jù)面臨的數(shù)據(jù)問題,自由選擇恰當(dāng)?shù)哪P妥鳛榧m正器和基礎(chǔ)學(xué)習(xí)器。
表6 2種糾正學(xué)習(xí)模型誤差對比表
圖12 2種糾正學(xué)習(xí)模型誤差對比圖
本文對3年內(nèi)126只不同行業(yè)的股票波動率預(yù)測問題進(jìn)行仿真實(shí)驗(yàn),得出以下結(jié)論:
1)根據(jù)糾正策略設(shè)計出來的LightGBM-GRU 模型預(yù)測結(jié)果比LightGBM 有更低的誤差率和更高的泛化能力,該模型可以幫助解決股票市場非線性仿真的難題。
2)神經(jīng)網(wǎng)絡(luò)作為糾正器參與工程應(yīng)用,可以使深度學(xué)習(xí)框架達(dá)到降維的效果。
3)通過仿真證實(shí)了糾正學(xué)習(xí)策略是一種很有前景的算法,并且通過分析給出了該策略的理論證明。未來它可廣泛應(yīng)用于其他預(yù)測領(lǐng)域,可以為解決智能算法通用性有限與工程問題多樣性之間的矛盾提供新的思路。