曹超凡,羅澤南,謝佳鑫,李 路
上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201600
股票市場(chǎng)作為中國(guó)資本市場(chǎng)的重要組成部分,有市場(chǎng)主體競(jìng)爭(zhēng)中性[1]、普惠[2]和分散投資風(fēng)險(xiǎn)[3]等基本特征,目前市場(chǎng)已經(jīng)初步形成[4]基本制度與層次體系且規(guī)模位居世界前列,開(kāi)放程度日益提高,積聚起一定的發(fā)展勢(shì)能,正處于由大到強(qiáng)的關(guān)鍵轉(zhuǎn)型階段。因此,作為全球資本市場(chǎng)的重要組成[5-7],中國(guó)股票市場(chǎng)的價(jià)格預(yù)測(cè)分析對(duì)于完善市場(chǎng)定價(jià)機(jī)制、提高市場(chǎng)可持續(xù)融資功能、完善功能性監(jiān)管框架、擴(kuò)大資本市場(chǎng)高水平雙向開(kāi)放具有重要意義。
股票市場(chǎng)本質(zhì)上是一個(gè)動(dòng)態(tài)的、非平穩(wěn)的、嘈雜和混亂的系統(tǒng)[8]。面對(duì)數(shù)據(jù)量大、非線性等復(fù)雜特征的股票數(shù)據(jù),傳統(tǒng)的統(tǒng)計(jì)學(xué)預(yù)測(cè)方法如回歸分析、時(shí)間序列分析等無(wú)法取得較好的預(yù)測(cè)效果。隨著人工智能與大數(shù)據(jù)時(shí)代的發(fā)展,邏輯回歸、決策樹(shù)和深度學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用于金融數(shù)據(jù)的研究,其中深度學(xué)習(xí)因其具有更為強(qiáng)大特征學(xué)習(xí)能力脫穎而出,在股價(jià)預(yù)測(cè)效果中往往具有更強(qiáng)大的泛化性和預(yù)測(cè)精度。
深度學(xué)習(xí)最為基礎(chǔ)的兩個(gè)模型是CNN和RNN,而LSTM解決了由時(shí)間長(zhǎng)度帶來(lái)的梯度爆炸和梯度消失的問(wèn)題,是RNN最為經(jīng)典的變體之一,章靜怡利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)金融數(shù)據(jù)特征,構(gòu)建股價(jià)預(yù)測(cè)模型[9]。王悅霖用LSTM模型預(yù)測(cè)股價(jià)漲跌幅[10]。胡聿文用LASSO和PCA分別先對(duì)股票價(jià)格因子進(jìn)行降維篩選,再輸入LSTM模型進(jìn)行預(yù)測(cè)[11]。Vidal等[12]提出CNN-LSTM組合模型,進(jìn)行金價(jià)的波動(dòng)率預(yù)測(cè),預(yù)測(cè)結(jié)果優(yōu)于單個(gè)CNN、LSTM模型。該模型充分提取時(shí)序特征,并利用了時(shí)間序列的自相關(guān)性進(jìn)行高精度預(yù)測(cè)。但在股票市場(chǎng)中,股票因子之間相關(guān)性也是相當(dāng)重要的考慮因素。本文在CNN-LSTM的模型基礎(chǔ)上,引入了多向延遲嵌入的張量處理技術(shù)MDT(mutiway-delay-embedding),對(duì)股票因子進(jìn)行重構(gòu),將每個(gè)時(shí)間點(diǎn)上的股票因子向量生成漢克爾因子矩陣,再將所有時(shí)間上的漢克爾因子矩陣并排成為漢克爾因子張量,作為CNN模型的輸入,利用CNN卷積與池化操作提取因子的深層特征,再將其輸入到LSTM模型,更好地處理股票因子之間的相關(guān)性。
本實(shí)驗(yàn)使用Keras作為深度學(xué)習(xí)平臺(tái),構(gòu)建MDTCNN-LSTM模型,對(duì)48家主流上市公司2011—2021年的股票數(shù)據(jù)進(jìn)行分析預(yù)測(cè)實(shí)驗(yàn),對(duì)比預(yù)測(cè)結(jié)果與真實(shí)值,作出模型預(yù)測(cè)擬合圖和模型訓(xùn)練誤差圖,并與CNNLSTM深度學(xué)習(xí)網(wǎng)絡(luò)模型作對(duì)比,驗(yàn)證了加入MDT張量處理后模型預(yù)測(cè)的有效性和泛化性。
股票數(shù)據(jù)在輸入到深度學(xué)習(xí)模型前,最常用的數(shù)據(jù)處理方式是滑動(dòng)窗口法?;瑒?dòng)窗口法是將長(zhǎng)度為n的時(shí)間序列沿著時(shí)間步長(zhǎng)切分成多個(gè)長(zhǎng)度為m(m<n)的連續(xù)子序列的方法[13]。在處理多維時(shí)間序列時(shí),先設(shè)定時(shí)間步長(zhǎng),沿著時(shí)間方向滑動(dòng)窗口處理二維時(shí)序矩陣切分出多個(gè)固定大小的子矩陣,切分出的子矩陣并排形成張量作為深度學(xué)習(xí)模型的輸入,過(guò)程如圖1所示?;瑒?dòng)窗口法考慮時(shí)間序列的自相關(guān)性,在處理單條時(shí)間序列時(shí)能起到較好效果,但在處理多維時(shí)間序列時(shí)未考慮到因子相關(guān)性,在股票市場(chǎng)中,股票因子之間存在強(qiáng)相關(guān)性??紤]到因子相關(guān)性,本文引入MDT張量處理技術(shù)[14]。
圖1 滑動(dòng)窗口處理過(guò)程Fig.1 Sliding window processing process
將股票數(shù)據(jù)集看成是擁有時(shí)間(以天為單位)和股票因子兩個(gè)維度的矩陣。固定時(shí)間,矩陣的每一行便可看成當(dāng)日的股票因子向量x,向量的各分量表示當(dāng)日各股票因子的值。設(shè)當(dāng)日股票因子向量x=(x1,x2,…,xn)T∈?n,利用MDT變換將其生成漢克爾矩陣Mτ(x),即:
生成的漢克爾矩陣與原向量滿足公式(2):
其中,vec為拉直算子,將漢克爾矩陣按列拉直成向量,C是復(fù)制矩陣,由多個(gè)τ×τ單位陣在對(duì)角線上錯(cuò)位排開(kāi)組成,如圖2所示。
圖2 復(fù)制矩陣示意圖Fig.2 Schematic diagram of copy matrix
MDT運(yùn)算可由公式(3)表示:
函數(shù)fold(n,τ):?τ(n-τ+1)→?τ×(n-τ+1)是一個(gè)折疊算子,可將向量轉(zhuǎn)化為矩陣,設(shè)漢克爾矩陣Mτ()
x=(v1,v2,…,vn-τ+1),其中vi表示漢克矩陣的第i列向量:
將每日股票因子向量通過(guò)MDT變換生成漢克爾矩陣,再將每個(gè)時(shí)間點(diǎn)生成的漢克爾矩陣并排組成漢克爾張量,作為后續(xù)深度學(xué)習(xí)模型的輸入數(shù)據(jù)。
華為諾亞方舟實(shí)驗(yàn)室[15]利用MDT等張量技術(shù)與傳統(tǒng)ARIMA預(yù)測(cè)模型相結(jié)合,在指定數(shù)據(jù)集中取得不錯(cuò)效果。然而該文使用的數(shù)據(jù)集特征相關(guān)性弱于時(shí)序自相關(guān)性,所以只沿著時(shí)間方向應(yīng)用MDT處理三階原始張量。而股價(jià)波動(dòng)隱藏著市場(chǎng)力量推動(dòng)下因子間相關(guān)性,針對(duì)股票數(shù)據(jù)中有著更為復(fù)雜的因子相關(guān)性,本文選擇沿著因子模式上應(yīng)用MDT方法進(jìn)行張量構(gòu)建,并首次將其與深度學(xué)習(xí)模型相融合,使預(yù)測(cè)結(jié)果相較之下更具泛化性與時(shí)效性。
卷積神經(jīng)網(wǎng)絡(luò)(CNN模型)是用于特征提取表達(dá)的深度學(xué)習(xí)模型,可實(shí)現(xiàn)從輸入到輸出的功能映射。如圖3所示,CNN由輸入層(Input)、卷積層(Convolution Layers)、池化層(Pooling)、扁平化全連接層(Flattening)和輸出層(Output)組成。卷積層通過(guò)權(quán)值共享的卷積核與輸入數(shù)據(jù)對(duì)應(yīng)的感受野區(qū)域進(jìn)行卷積計(jì)算,從而提取輸入特征。卷積的計(jì)算公式為:
圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic diagram of convolutional neural network structure
公式(1)中,規(guī)定輸入層為第l-1層,用于表示輸入層第s個(gè)特征,輸出層為第l層,用于表示輸出層第j個(gè)特征,用于表示卷積核的元素,為偏置項(xiàng),σ為激活函數(shù)。
輸入數(shù)據(jù)經(jīng)過(guò)卷積層提取特征后,采取池化操作抽象卷積層輸出特征的信息,從而能增大感受野,進(jìn)一步提升模型的泛化能力。池化層通常出現(xiàn)在卷積層后。常見(jiàn)的池化方法是最大值池化與平均值池化。經(jīng)過(guò)多次卷積層的特征提取與池化層信息抽象后,輸入特征經(jīng)Flattening扁平化處理張成一維向量,由全連接層的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行分類或預(yù)測(cè)。全連接層得到的輸出與標(biāo)簽作對(duì)比,不斷迭代更新權(quán)值,從而實(shí)現(xiàn)反向傳播。本文選取CNN模型的卷積層和池化層,保留了模型特征提取和信息抽象的功能,將經(jīng)由MDT變換生成的漢克爾張量作為該模型的輸入數(shù)據(jù),提取數(shù)據(jù)中含有因子間強(qiáng)相關(guān)性的特征,為后續(xù)的預(yù)測(cè)作準(zhǔn)備。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的變體[16]。為解決模型梯度消失的問(wèn)題,增強(qiáng)模型泛化性,LSTM在RNN的基礎(chǔ)上進(jìn)行優(yōu)化,有著類似的鏈?zhǔn)浇Y(jié)構(gòu),同時(shí)引入了細(xì)胞狀態(tài)ci用來(lái)存儲(chǔ)序列的長(zhǎng)期信息,并增加了三個(gè)門(mén)控單元:遺忘門(mén)、輸入門(mén)與輸出門(mén)來(lái)對(duì)長(zhǎng)期信息和新輸入的信息進(jìn)行篩選與更新,如圖4所示。
圖4 LSTM結(jié)構(gòu)示意圖Fig.4 Schematic diagram of LSTM structure
遺忘門(mén)定義要遺忘的信息,即確定應(yīng)從上一個(gè)細(xì)胞狀態(tài)中刪除哪些信息。遺忘計(jì)算過(guò)程如下:
其中,fi是遺忘門(mén)的輸出;σ是激活函數(shù),通常是sigmoid函數(shù),可以將所有激活值縮放至0到1之間,0表示“完全遺忘”,1表示“完全保留”;wfh、wfy是權(quán)重矩陣,hi-1是上一個(gè)存儲(chǔ)單元的輸出;vi是當(dāng)前輸入;bf是遺忘門(mén)的偏置項(xiàng)。
輸入門(mén)定義應(yīng)將哪些新生信息添加到細(xì)胞狀態(tài)。數(shù)據(jù)經(jīng)遺忘門(mén)篩選歷史信息后,下一步是確定應(yīng)更新哪些新生信息。更新過(guò)程分為兩個(gè)部分[18],第一部分計(jì)算ji確定需要更新哪些新生信息至細(xì)胞狀態(tài),計(jì)算過(guò)程如公式(7):
其中,tanh是正切函數(shù);wjh、wjy、wc~h、wc~y是權(quán)重矩陣;bj和bc~是輸入門(mén)偏置項(xiàng)。通過(guò)計(jì)算輸入門(mén)輸出ji與備選細(xì)胞狀態(tài)~ci的乘積,確定了哪些新生信息將添加到細(xì)胞狀態(tài),同時(shí)計(jì)算遺忘門(mén)輸出fi與原細(xì)胞狀態(tài)ci-1的乘積,確定了原細(xì)胞狀態(tài)中哪些歷史信息得以保留。最后將二者相加,完成一輪新細(xì)胞狀態(tài)的更新,計(jì)算過(guò)程如公式(9):
輸出門(mén)定義應(yīng)將哪些信息用作輸出。經(jīng)過(guò)遺忘門(mén)和輸入門(mén)實(shí)現(xiàn)對(duì)細(xì)胞狀態(tài)的更新后,下一步確定當(dāng)前狀態(tài)需要輸出的信息,計(jì)算過(guò)程如下:
其中,oi是輸出門(mén)的輸出;woh、woy是權(quán)重矩陣;bo是偏差矢量;hi是當(dāng)前記憶單元的輸出。
LSTM通過(guò)隱藏層間的輸入輸出在處理關(guān)聯(lián)數(shù)據(jù)時(shí),能有效存儲(chǔ)數(shù)據(jù)特性并解決梯度消失的問(wèn)題。通常用于研究輸入信息在時(shí)間維度上的相關(guān)性問(wèn)題,在處理時(shí)間序列數(shù)據(jù)有著很大優(yōu)勢(shì),如Sagheer和Kotb[17]使用長(zhǎng)期短期記憶(LSTM)遞歸網(wǎng)絡(luò)的深度架構(gòu)對(duì)石油時(shí)間序列進(jìn)行預(yù)測(cè),結(jié)果好于RNN和ARIMA模型。而事實(shí)上,LSTM不光在時(shí)間序列數(shù)據(jù)上可以較好地預(yù)測(cè)效果,在有強(qiáng)關(guān)聯(lián)性的特征數(shù)據(jù)上也有很強(qiáng)的預(yù)測(cè)能力。
本文將CNN與LSTM進(jìn)行融合構(gòu)建CNN-LSTM深度學(xué)習(xí)預(yù)測(cè)模型,如圖5所示。先利用CNN模型的卷積層(Convolution Layer)、池化層(Pooling Layer)對(duì)輸入數(shù)據(jù)提取特征、抽象信息得到特征數(shù)據(jù),再經(jīng)由Flattening層后輸入到LSTM模型進(jìn)行關(guān)聯(lián)預(yù)測(cè),最后接入全連接層(Full Connection Layer)得到模型的預(yù)測(cè)值。卷積和池化操作降低了輸入數(shù)據(jù)的復(fù)雜性,可有效處理異常值數(shù)據(jù),防止過(guò)擬合。接入LSTM層,利用LSTM的遺忘門(mén)與輸入門(mén)可對(duì)關(guān)聯(lián)數(shù)據(jù)信息進(jìn)行有效的篩選與更新,更好地預(yù)測(cè)關(guān)聯(lián)數(shù)據(jù)。
圖5 CNN-LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 CNN-LSTM network structure
本文將MDT張量技術(shù)與CNN-LSTM模型相融合,構(gòu)建的MDT-CNN-LSTM預(yù)測(cè)框架如圖6所示。將歸一化處理后的股票數(shù)據(jù)沿著因子方向作MDT變換,即將時(shí)序矩陣按時(shí)間進(jìn)行切片,得到每日股票因子向量,股票因子向量重構(gòu)生成充分含有因子強(qiáng)相關(guān)性信息的漢克爾矩陣,將多個(gè)漢克爾矩陣并排形成漢克爾張量,作為深度學(xué)習(xí)的輸入樣本。MDT變換通過(guò)公式(2)的復(fù)制矩陣將每日股票因子向量映射成漢克爾矩陣,漢克爾矩陣的每列相鄰向量含有相似的因子信息,但相同的股票因子在每列向量所處的位置均不一樣,且每列向量都會(huì)出現(xiàn)新的股票因子,完成了因子重構(gòu),這樣極大程度地保留了不同股票因子間的因子相關(guān)性信息。將經(jīng)MDT變換后的數(shù)據(jù)集分成訓(xùn)練集與測(cè)試集,將訓(xùn)練集數(shù)據(jù)輸入CNN模型,利用卷積與池化操作充分對(duì)含有股票因子強(qiáng)相關(guān)性信息的輸入數(shù)據(jù)進(jìn)行特征提取與信息抽象,提取后的特征數(shù)據(jù)輸入LSTM模型,進(jìn)行擬合并訓(xùn)練模型參數(shù),最后將測(cè)試集數(shù)據(jù)輸入到訓(xùn)練好的模型進(jìn)行股價(jià)關(guān)聯(lián)預(yù)測(cè)。
圖6 MDT-CNN-LSTM預(yù)測(cè)流程圖Fig.6 MDT-CNN-LSTM prediction flow chart
本文創(chuàng)新性地將經(jīng)MDT變換并由CNN輸出后包含股票因子間強(qiáng)關(guān)聯(lián)性的特征數(shù)據(jù)輸入至LSTM。利用MDT變換充分保留了股票因子相關(guān)性信息,CNN對(duì)含有因子相關(guān)性信息的輸入數(shù)據(jù)充分提取特征,LSTM進(jìn)行預(yù)測(cè)。完成了股票因子重構(gòu)、因子相關(guān)性特征提取與因子關(guān)聯(lián)預(yù)測(cè)的三個(gè)重要步驟,從而實(shí)現(xiàn)MDT張量技術(shù)與CNN-LSTM模型的有機(jī)結(jié)合。
本文選取A股市場(chǎng)中,2 000億以上市值,涵蓋22個(gè)行業(yè)的48支大盤(pán)股進(jìn)行實(shí)證分析,如表1所示。從優(yōu)礦獲取該47支股票從2011年1月4日到2021年3月5日的歷史數(shù)據(jù),實(shí)驗(yàn)環(huán)境為python3.7。
表1 股票名稱、所在行業(yè)、數(shù)量Table 1 Stock name,industry,quantity
參考Yu等[18]利用因子分析的方法將9項(xiàng)指標(biāo)簡(jiǎn)化為3項(xiàng)指標(biāo)(資本配置、投融資水平和運(yùn)營(yíng)情況),并表明資本配置指標(biāo)對(duì)股市發(fā)展起到關(guān)鍵作用。本文基于此成果,選取反映資本配置的市盈率、市凈率,反映投融資水平的成交量、成交金額、成交筆數(shù)、流通市值、總市值,反映運(yùn)營(yíng)情況的日換手率、漲跌幅,再加上反映價(jià)格變動(dòng)的當(dāng)日開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)總共12個(gè)股票因子,將第二天的收盤(pán)價(jià)作為預(yù)測(cè)標(biāo)簽,對(duì)48支股票股價(jià)進(jìn)行預(yù)測(cè)。
優(yōu)化器設(shè)定為Adam優(yōu)化器,學(xué)習(xí)率設(shè)定為0.001.激活函數(shù)為RELU函數(shù),設(shè)定均方誤差(MSE)作為預(yù)測(cè)損失函數(shù)。訓(xùn)練集與測(cè)試集比例為4∶1。本文采用網(wǎng)格搜索,最終得出MDT的參數(shù)τ設(shè)定范圍在[6,8]最為合適。其余參數(shù)如表2所示。
表2 MDT-CNN-LSTM參數(shù)設(shè)置Table 2 MDT-CNN-LSTM parameter settings
本文將MDT-CNN-LSTM模型與CNN-LSTM、CNNLSTM模型作對(duì)照,分別根據(jù)48支股票的歷史數(shù)據(jù)進(jìn)行股價(jià)預(yù)測(cè)分析,并計(jì)算每支股票的平均絕對(duì)誤差(MAE)、均方誤差(MSE)、平均絕對(duì)百分比誤差(MAPE)、均方根誤差(RMSE)作為模型評(píng)價(jià)指標(biāo),最后取平均值,表現(xiàn)最好的指標(biāo)結(jié)果以加粗字體顯示,表3是計(jì)算股票預(yù)測(cè)誤差的平均值,在四類評(píng)價(jià)指標(biāo)中,CNN-LSTM擬合效果略好于LSTM,但差距不大。CNN的效果最差。MDT-CNN-LSTM的誤差均達(dá)到最小值,充分說(shuō)明模型預(yù)測(cè)的有效性。
表3 模型預(yù)測(cè)評(píng)價(jià)指標(biāo)的平均值Table 3 Average value of model prediction evaluation index
同時(shí),為比較模型的時(shí)效性,本文同時(shí)將四種模型的運(yùn)算時(shí)間作比較,表4為各模型預(yù)測(cè)所耗費(fèi)的時(shí)間。
表4 模型預(yù)測(cè)時(shí)效性Table 4 Model prediction timeliness
由表4可知CNN耗時(shí)最短,其次為MDT-CNNLSTM,預(yù)測(cè)時(shí)長(zhǎng)與CNN-LSTM時(shí)間相接近,而LSTM耗時(shí)最長(zhǎng)。因MDT-CNN-LSTM與CNN-LSTM模型均有卷積和池化操作,對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,大大降低了輸入數(shù)據(jù)的復(fù)雜性,故耗時(shí)相較直接輸入LSTM模型要短。而CNN模型無(wú)后續(xù)操作,故耗時(shí)最短。但結(jié)合表3模型預(yù)測(cè)效果可以看出,CNN雖然耗時(shí)短但預(yù)測(cè)效果最差;CNN-LSTM與LSTM雖然在預(yù)測(cè)精度上差距不大,但CNN-LSTM相較LSTM模型時(shí)效性有較大提升,故綜合對(duì)比優(yōu)于LSTM。而MDT-CNN-LSTM在預(yù)測(cè)效果和時(shí)效性上都具有較大優(yōu)勢(shì),證明本文提出的模型較好的實(shí)用性。
針對(duì)MDT-CNN-LSTM模型的擬合效果,本文截取了愛(ài)爾眼科、海天味業(yè)、中信銀行、萬(wàn)科A4支股票的損失函數(shù)曲線圖及股價(jià)預(yù)測(cè)圖,分別如圖7、圖8所示。
圖7 損失函數(shù)曲線圖Fig.7 Loss function graph
圖8 股價(jià)預(yù)測(cè)曲線圖Fig.8 Stock price forecast curve
從實(shí)際預(yù)測(cè)擬合的效果出發(fā),發(fā)現(xiàn)MDT-CNNLSTM模型對(duì)四類股價(jià)走勢(shì)具有較好的預(yù)測(cè)能力。
(1)股價(jià)低位盤(pán)整、緩步提升:股價(jià)在較長(zhǎng)時(shí)間(如一年)低位盤(pán)整,在某個(gè)時(shí)間節(jié)點(diǎn)股價(jià)開(kāi)始緩步爬升,如愛(ài)爾眼科在2019年4月至2020年10月股價(jià)有所波動(dòng),但是沒(méi)有明顯起色,在2020年10月后股價(jià)開(kāi)始逐步爬升。
(2)股價(jià)底部震蕩、迅速抬升:股價(jià)在較長(zhǎng)時(shí)間(如一年)底部震蕩,但在某個(gè)時(shí)間突然劇烈波動(dòng),股價(jià)抬升迅速,如海天味業(yè)在2019年11月至2020年7月股價(jià)均是在100~140元之間震蕩,但是之后開(kāi)始急速拉升至200元,呈現(xiàn)類似垂直的股價(jià)拉升。
(3)股價(jià)溫和下跌后,急速拉升與下跌:在下跌通道的股票,先溫和下跌,經(jīng)歷急速拉升與下跌后再次緩步下跌,如中信銀行在2019年4月至2020年7月溫和下跌,在2020年7月經(jīng)歷了一波急速拉升與下跌,又重新進(jìn)入了溫和下跌狀態(tài)。
(4)股價(jià)區(qū)間震蕩波動(dòng),且振幅明顯:股價(jià)在很長(zhǎng)時(shí)間(如兩年)震蕩波動(dòng),且振幅明顯,股價(jià)變化迅速,如萬(wàn)科A在26~33元之間的股價(jià)區(qū)間震蕩,還有京東方A在3.5~4.5元、3.5~5.5元這兩個(gè)震蕩區(qū)間的股價(jià)波動(dòng),建設(shè)銀行在6~7.5元之間股價(jià)區(qū)間震蕩等等。
本文驗(yàn)證了MDT-CNN-LSTM在行業(yè)個(gè)股的有效性,而為探究該模型在股指預(yù)測(cè)中是否依然具有較好的預(yù)測(cè)效果,分別選取上證指數(shù)、滬深300指數(shù)、A股指數(shù)、深證綜指四支股指,數(shù)據(jù)的時(shí)間維度為2011年1月4日至2021年3月5日,并選取昨日收盤(pán)價(jià)、開(kāi)盤(pán)價(jià)、最高價(jià)、最低價(jià)、收盤(pán)價(jià)、成交量、成交金額、漲跌、漲跌幅九個(gè)股指因子,預(yù)測(cè)次日收盤(pán)價(jià)。
表5是計(jì)算股票預(yù)測(cè)誤差的平均值,在四類評(píng)價(jià)指標(biāo)中,MDT-CNN-LSTM誤差依舊最低,擬合效果優(yōu)于CNN-LSTM、CNN、LSTM,驗(yàn)證了該模型在股指預(yù)測(cè)中依舊取得較好效果。
表5 股指預(yù)測(cè)模型評(píng)價(jià)指標(biāo)的平均值Table 5 Average value of evaluation index of stock index forecasting model
本文通過(guò)在構(gòu)建的CNN-LSTM模型中引用MDT張量技術(shù)對(duì)股票因子進(jìn)行重構(gòu),生成漢克爾張量,重構(gòu)后的數(shù)據(jù)含有因子相關(guān)性信息,使用CNN提取部分信息,得到包含因子相關(guān)性信息的特征矩陣,再輸入到LSTM進(jìn)行關(guān)聯(lián)預(yù)測(cè)。本文將構(gòu)建的MDT-CNN-LSTM預(yù)測(cè)方法用于48家主流上市公司進(jìn)行股價(jià)預(yù)測(cè),并與CNN-LSTM、CNN、LSTM三個(gè)模型進(jìn)行對(duì)比,結(jié)果表面,預(yù)測(cè)準(zhǔn)確率有了很大提升,且同時(shí)具有良好的時(shí)效性。根據(jù)預(yù)測(cè)結(jié)果,總結(jié)了MDT-CNN-LSTM對(duì)四種股價(jià)走勢(shì)有著良好的預(yù)測(cè)能力。最后,本文將模型應(yīng)用到滬深四類股指預(yù)測(cè)中,依然取得較優(yōu)效果。本文首次將MDT張量技術(shù)與深度學(xué)習(xí)模型融合,考慮到驗(yàn)證MDT張量處理技術(shù)是否具有更強(qiáng)的應(yīng)用,將會(huì)在未來(lái)嘗試跟其他深度學(xué)習(xí)模型進(jìn)行融合,希望探究其與深度學(xué)習(xí)有機(jī)結(jié)合的能力。