傅魁,殷曉巖,王乾
(武漢理工大學(xué) 經(jīng)濟學(xué)院,湖北 武漢 430070)
資本市場具有促進經(jīng)濟發(fā)展、優(yōu)化資源配置等社會功能,其中股票市場相比其他行業(yè)具有更高的投資回報率。若能準(zhǔn)確預(yù)測股票價格趨勢,不僅可以獲得可觀利潤,還能在一定程度上規(guī)避投資的潛在風(fēng)險。隨著我國金融市場的進一步完善和金融服務(wù)業(yè)需求的增大,股票市場預(yù)測引起業(yè)界、學(xué)術(shù)界的廣泛關(guān)注。然而,股票數(shù)據(jù)具有高噪聲、動態(tài)、非線性和非參數(shù)等特點[1],準(zhǔn)確預(yù)測股票價格趨勢仍具有挑戰(zhàn)性。
得益于數(shù)據(jù)源范圍和股票市場預(yù)測研究方法的不斷改進和擴展,股票趨勢預(yù)測的準(zhǔn)確度不斷提升。1970年,諾貝爾經(jīng)濟學(xué)獎得主Fama提出有效市場理論,然而,股票市場實證表明,投資者并非理性決策,股價與市場信息并未嚴(yán)格保持一致。受行為金融學(xué)啟發(fā),研究者開始將能夠反映投資者行為的信息加入股票預(yù)測模型中。2011年,Bollen等[2]使用情緒跟蹤工具分析推特(Twitter)推文內(nèi)容,將產(chǎn)生的情緒時間序列用以預(yù)測道瓊斯工業(yè)指數(shù)的變化率。之后,中外研究者開始利用能夠反映或影響市場參與主體情緒與心理的信息來研究股票市場。文丹艷等[3]利用新聞文本數(shù)據(jù)與股票指標(biāo)數(shù)據(jù)共同構(gòu)建多源驅(qū)動的股票自動交易決策模型,與傳統(tǒng)機器學(xué)習(xí)算法相比,預(yù)測準(zhǔn)確率提升約4%。董理等[4]基于情感分析方法構(gòu)建支持向量回歸的股票預(yù)測模型,預(yù)測結(jié)果符合預(yù)期。唐曉波等[5]將新聞熱度相關(guān)的情感分析方法應(yīng)用于股市預(yù)測,實驗結(jié)果說明結(jié)合新聞熱度的情感分析對股票預(yù)測效果更好。目前,已應(yīng)用的股票預(yù)測模型主要包括信號處理模型、機器學(xué)習(xí)模型和時序預(yù)測模型。經(jīng)驗?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)是一種自適應(yīng)信號處理方法,可以按照不同的時間尺度將金融市場的價格變動分解并分離不同的經(jīng)濟因素。例如,Bhusana等[6]使用基于EMD的多尺度組合模型針對匯率序列進行預(yù)測,使用EMD將匯率序列分解為多個分量,采用支持向量回歸算法(Support Vector Regression,SVR)對各分量進行預(yù)測,并將各分量預(yù)測結(jié)果集成來預(yù)測匯率。機器學(xué)習(xí)模型以遺傳算法、小波變化與支持向量機算法等方法為代表應(yīng)用于股票市場的預(yù)測。部分研究者通過融合不同機器學(xué)習(xí)算法來預(yù)測股票市場。例如,Cheng等[7]融合小波分解(Wavelet Decomposition,WD)、差分自回歸移動平均模型(Autoregressive Integrated Moving Average,ARIMA)與支持向量機(Support Vector Machine,SVM)模型預(yù)測股票價格,結(jié)果表明,組合模型的準(zhǔn)確度較單一模型更高。時序預(yù)測模型包括差分自回歸移動平均模型[8]、向量自回歸模型(Vector AutoRegressive,VAR)[9]、自回歸條件異方差模型(Autoregressive Conditional Heteroscedasticity,ARCH)等,都被應(yīng)用于股票市場預(yù)測研究中并取得一定效果。然而其缺點也比較明顯,該類模型依賴合理的假設(shè)條件,實際操作中這些條件很難滿足[10]。由于支持向量機等機器學(xué)習(xí)模型對股票系統(tǒng)的預(yù)測效果有限,近年來,深度神經(jīng)網(wǎng)絡(luò)(例如遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN))憑借其能夠擬合復(fù)雜時序數(shù)據(jù)的特點,已經(jīng)成為股票預(yù)測研究領(lǐng)域的主流模型之一[11]。但研究表明,隨著時間的推移,RNN會忘記之前的狀態(tài)信息,故引入長短記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[12],用于刻畫當(dāng)前數(shù)據(jù)與之前輸入數(shù)據(jù)間的關(guān)系,利用其記憶能力保存輸入網(wǎng)絡(luò)前的狀態(tài)信息,從而影響后續(xù)數(shù)據(jù)的確切值與發(fā)展趨勢。
股票交易變動并非只受簡單因素影響,而是股票市場內(nèi)外部信息共同作用的結(jié)果,當(dāng)前關(guān)于股票異源數(shù)據(jù)的協(xié)同研究并不充分。因此,針對該問題,筆者在分析股票歷史交易數(shù)據(jù)的同時,引入包括社交輿情、財經(jīng)新聞等在內(nèi)的不同層級金融文本信息并加以分析,基于三類數(shù)據(jù)探索構(gòu)建多類股票特征,提出一種融合多源信息的LSTM股票趨勢預(yù)測模型,并將其預(yù)測結(jié)果與傳統(tǒng)支持向量機(SVM)預(yù)測結(jié)果進行對比,驗證模型的有效性。
LSTM神經(jīng)網(wǎng)絡(luò)是由RNN神經(jīng)網(wǎng)絡(luò)演化而來,適用于處理時間序列中長間隔、高延遲的事件。根據(jù)數(shù)據(jù)特點,使用LSTM神經(jīng)網(wǎng)絡(luò)作為各模型的基礎(chǔ),根據(jù)問題需要對網(wǎng)絡(luò)進行改進。
LSTM網(wǎng)絡(luò)的核心思想是在網(wǎng)絡(luò)中每個神經(jīng)元中維護一個細(xì)胞(cell)存儲狀態(tài)信息,同時設(shè)置三個邏輯門——輸入門(it)、遺忘門(ft)、輸出門(ot)——來控制cell增加或者去除保存的信息。這些門使LSTM具備長期依賴的功能,同時避免梯度爆炸或者梯度消失的問題。LSTM神經(jīng)元結(jié)構(gòu)如圖1所示,計算公式中各符號含義分別為:
(1)xt:t時刻神經(jīng)元的輸入;
(2)ht:t時刻神經(jīng)元的輸出;
(3)sigmoid,tanh:神經(jīng)元激活函數(shù)(activation function);
(4)wi,wf,wc,wo:權(quán)重矩陣;
(5)bi,bf,bc,bo:閾值向量;
(6)Ct:t時刻神經(jīng)元細(xì)胞狀態(tài)。
神經(jīng)元中三個門按順序計算過程如下。
輸入門:
it=sigmoid(wi*[xt,ht-1]+bi)
(1)
Ct=tanh (wc*[xt,ht-1]+bi)
(2)
式(1)計算所得為輸入門的值;式(2)為擬加入神經(jīng)元cell狀態(tài)中的值,該值是否加入t時刻狀態(tài)取決于式(1)的結(jié)果。
遺忘門:
ft=sigmoid(wf*[xt,ht-1]+bf)
(3)
Ct=it*Ct+ft*Ct-1
(4)
式(3)計算所得為遺忘門的值,神經(jīng)元cell中歷史狀態(tài)是否保存取決于該值。
輸出門:
ot=sigmoid(wo*[xt,ht-1]+bo)
(5)
ht=ot*tanh (Ct)
(6)
式(5)計算所得為輸出門的值,該值決定了神經(jīng)元在t時刻的輸出值。
上述結(jié)構(gòu)為LSTM神經(jīng)元的基本結(jié)構(gòu)。隨著研究的深入,很多研究人員提出了LSTM的變體,Gers等[13]提出并使用的增加“peephole connection”結(jié)構(gòu)的LSTM網(wǎng)絡(luò)受到廣泛認(rèn)可,即在LSTM網(wǎng)絡(luò)的基礎(chǔ)上,令三個門也接受cell狀態(tài)的輸入。因此,三個門層輸出值的計算公式變?yōu)椋?/p>
it=sigmoid(wi*[Ct-1,xt,ht-1]+bi)
(7)
ft=sigmoid (wf*[Ct-1,xt,ht-1]+bf)
(8)
ot=sigmoid (wo*[Ct,xt,ht-1]+bo)
(9)
本文股票預(yù)測與文本處理兩個問題模型結(jié)果依賴的時間周期較長,因此,選用LSTM網(wǎng)絡(luò)作為基礎(chǔ)模型,并根據(jù)問題需要加以改進。
本研究的目標(biāo)為基于股票市場內(nèi)外部多來源信息構(gòu)建股票特征,實現(xiàn)對股票趨勢的預(yù)測,因此,可根據(jù)數(shù)據(jù)源類型對股票不同特征進行提取。筆者將股票數(shù)據(jù)特征分為股票基礎(chǔ)交易數(shù)據(jù)特征和股票相關(guān)金融文本數(shù)據(jù)特征兩個類型。
股票技術(shù)指標(biāo)是根據(jù)基礎(chǔ)數(shù)據(jù)的價格、時間、成交量,通過不同統(tǒng)計方法得到的。根據(jù)不同指標(biāo)的特點,筆者在構(gòu)建股票預(yù)測模型時選擇將4個具有代表性的技術(shù)指標(biāo)和EMD分解得到的高頻項、低頻項和趨勢項三個子序列作為股票基礎(chǔ)數(shù)據(jù)技術(shù)指標(biāo)類特征。股票技術(shù)指標(biāo)包括以下四類:
(1)平滑異同平均線(Moving Average Convergence/Divergence,MACD),主要用于判斷股票價格變化的強度、方向、能量與周期,從而確定何時買入或賣出,是股票投資中非常重要的一個技術(shù)指標(biāo)。
(2)相對強弱指數(shù)(Relative Strength Index,RSI),為某一時段內(nèi)上漲點數(shù)與上漲下跌點數(shù)和之比。該指標(biāo)能夠反映市場在該時段內(nèi)的景氣程度,適合做短線差價操作。
(3)隨機指標(biāo)(Stochastic Oscillator),通常又被稱為KDJ指標(biāo)。該指標(biāo)綜合了動量觀念、強弱指標(biāo)以及移動平均線的優(yōu)點,度量股價脫離正常范圍的編譯程度,用以研判股票中短期走勢。
(4)能量潮指標(biāo)(On Balance Volume,OBV),相對于上述三種基于價格的指標(biāo),該指標(biāo)主要從交易量入手,以股票交易量的變化來衡量股票的推動力,從而判斷股票的走勢。
股票漲跌趨勢由股票的收盤價反映,本文將股票收盤價序列作為股價信號。通過EMD將信號分解為n個IMF分量與一個余項,采用模糊熵算法計算IMF分量的熵值。不同個股復(fù)雜度不同,導(dǎo)致EMD分解所得IMF分量個數(shù)不同,而后續(xù)模型中要求每時間步輸入特征維數(shù)是相同的,因此,按照熵值數(shù)量級將IMF分為三類,同類合并為新的子序列,最終將IMF分量重構(gòu)為高頻項、低頻項與趨勢項三個子序列,以保證后續(xù)預(yù)測模型所用特征維數(shù)的一致性,從而有效降低股票時間序列的噪聲并獲得股票不同尺度上的變化趨勢。
金融文本主要包括社交輿情、財經(jīng)新聞、政府政策和企業(yè)公告等。其中,社交輿情是投資者對當(dāng)前股票市場行情、新聞、政策等的直接反應(yīng);財經(jīng)新聞包含部分政府政策與上市企業(yè)的公告,是影響消費者心理的重要因素。
本文對輿情數(shù)據(jù)作如下處理:(1)對社交輿情進行情感分類,使用基于注意力機制的多對一LSTM模型將社交輿情分為積極、中立、消極三個類別。在選擇合適用戶樣本的前提下,由社交輿情的情感分類結(jié)果可獲知股民整體對某只個股的看法。(2)確定目標(biāo)時段,采用目標(biāo)時段內(nèi)積極類文本與消極類文本的數(shù)量進行熱度統(tǒng)計。個股的熱度統(tǒng)計直接反映股票在該時間段內(nèi)受股民歡迎的程度,因此,在模型中統(tǒng)計目標(biāo)論壇積極類發(fā)帖與消極類發(fā)帖的數(shù)量,將其作為輿論熱度,分別記作social_pos_count和 social_neg_count。(3)根據(jù)熱度統(tǒng)計結(jié)果建立該目標(biāo)時段內(nèi)的股票情緒指數(shù)。不同個股的投資者數(shù)據(jù)不盡相同,甚至具有數(shù)量級的差別,而不同數(shù)量級數(shù)據(jù)可能導(dǎo)致預(yù)測結(jié)果失真,因此,本文基于熱度統(tǒng)計結(jié)果建立股民情緒指數(shù),并將社交輿情分類結(jié)果納入統(tǒng)一的量綱進行衡量。
(10)
與股票相關(guān)的財經(jīng)新聞可分為兩類:一類是與該只個股直接相關(guān)的新聞,另一類是其所在行業(yè)相關(guān)新聞。當(dāng)日與個股直接相關(guān)的財經(jīng)新聞發(fā)布數(shù)量可反映資本市場對其關(guān)注程度,本文模型對每日財經(jīng)新聞數(shù)量進行了熱度統(tǒng)計,記作news_count。
本文所用的金融文本包括社交輿情與財經(jīng)新聞兩類,二者的影響范圍與文本特點不同,因此,需采用不同方式進行處理。首先,獲取語料后將文本向量化并輸入文本處理模型中。然后,構(gòu)建引入注意力機制的LSTM網(wǎng)絡(luò)模型對社交輿情文本進行情感分析,并根據(jù)模型注意力層結(jié)果生成金融輿情情感詞典;構(gòu)建LSTM自動編碼器(LSTM-AutoEncoder)模型[15],利用模型隱含層結(jié)果表征財經(jīng)新聞文本。
在時序模型中,注意力機制常用于計算編碼器狀態(tài)。LSTM的注意力機制指根據(jù)模型輸入(即環(huán)境變量,context vector)動態(tài)分配權(quán)重(即注意力資源)到相應(yīng)的記憶單元。使用注意力機制,系統(tǒng)能基于隱藏狀態(tài)s1,…,sm獲得環(huán)境向量Ci,所獲環(huán)境向量與當(dāng)前的隱藏狀態(tài)hi一起實現(xiàn)預(yù)測。環(huán)境向量Ci由之前隱藏的加權(quán)平均數(shù)求出,狀態(tài)所加的權(quán)即注意力權(quán)重ai。注意力機制相關(guān)計算公式如下(每個時間步都對應(yīng)一個注意力權(quán)重):
Ci=∑aijsj
(11)
ai=softmax(fatt(hi,si))
(12)
(13)
自動編碼器(AutoEncoder)是無監(jiān)督的單隱層神經(jīng)網(wǎng)絡(luò)模型,通常用于數(shù)據(jù)降維與特征提取。其作為一種結(jié)構(gòu)簡單、功能強大的特征提取計算框架,可以較為方便地與CNN、RNN等多種深度神經(jīng)網(wǎng)絡(luò)融合。由于實驗需提取的財經(jīng)新聞隱含特征為矩陣,需要單獨處理。為保留新聞文本主要信息并提高模型效率,本文使用LSTM-AutoEncoder新型網(wǎng)絡(luò)構(gòu)建新聞文本表征模型。LSTM-AutoEncoder網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。其中,Wi為權(quán)重矩陣,Vi為輸入。
LSTM-AutoEncoder模型中,編碼網(wǎng)絡(luò)輸入數(shù)據(jù)為矩陣。m代表輸入網(wǎng)絡(luò)的時間步,即在長度為m的時序數(shù)據(jù)中提取隱含特征,n為輸入數(shù)據(jù)的特征維度。LSTM編碼網(wǎng)絡(luò)的神經(jīng)元按照時間順序讀取向量。編碼網(wǎng)絡(luò)最后一個神經(jīng)元的輸出記為h,cell的值記為C。解碼網(wǎng)絡(luò)將C復(fù)制為其第一個神經(jīng)元的cell值。解碼網(wǎng)絡(luò)的長度與編碼網(wǎng)絡(luò)長度相等,按照時間順序輸出m步向量。根據(jù)自動編碼器計算誤差的方法,可使用梯度下降等方式對網(wǎng)絡(luò)參數(shù)進行訓(xùn)練優(yōu)化,從而減少誤差。網(wǎng)絡(luò)誤差loss用公式(14)進行計算:
(14)
由于個股當(dāng)日收盤價漲跌幅會受之前數(shù)日內(nèi)相關(guān)新聞與所屬行業(yè)新聞內(nèi)容影響,模型獲得財經(jīng)新聞的隱含特征后,選擇與待預(yù)測交易日時間最近的m條個股相關(guān)新聞隱含特征與n條個股所屬行業(yè)新聞隱含特征,拼接為一個特征集合作為預(yù)測模型中新聞特征LSTM每個時間步的輸入,拼接方式如圖3所示。
本文預(yù)測模型包括數(shù)據(jù)源爬取與預(yù)處理、股票多源數(shù)據(jù)特征提取以及LSTM股票趨勢預(yù)測幾個模塊。模型框架如圖4所示。
股票趨勢預(yù)測模型的模型算法流程如下(以某只個股為例)。
步驟1:基礎(chǔ)數(shù)據(jù)類特征計算。讀取存儲的個股基礎(chǔ)信息,根據(jù)所選技術(shù)指標(biāo)的定義計算每個交易日中MACD、RSI、KDJ、OBV四個技術(shù)指標(biāo)的值;使用EMD方法分解并重構(gòu)股票收盤價序列,獲得高頻項、低頻項與趨勢項的值。
步驟2:金融文本處理。讀取所存儲每個交易日區(qū)間內(nèi)的輿情文本及財經(jīng)新聞文本,訓(xùn)練所得兩個文本處理模型分別得到每條輿情對應(yīng)的情感分類與每條財經(jīng)新聞的隱含文本特征。
步驟3:時序型金融文本類特征計算?;诓襟E2中結(jié)果,根據(jù)金融文本指標(biāo)的定義計算每個交易日中新聞熱度、積極類輿情熱度、消極類輿情熱度、情緒指數(shù)4個指標(biāo)。
步驟4:構(gòu)建所有特征,確定模型輸入。預(yù)測模型中,時序特征LSTM需要輸入t個交易日內(nèi)的時序數(shù)據(jù),其中每個交易日的數(shù)據(jù)為步驟1與步驟3中的結(jié)果集合,則LSTM網(wǎng)絡(luò)的輸入時間步總數(shù)為t,輸入維度為13。每日13維的數(shù)據(jù)含義如表1所示。
表1 趨勢預(yù)測模型輸入特征及其含義
不同評價指標(biāo)的值處于不同量綱,需進行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以便比較或加權(quán)。本文使用最大最小化方法進行歸一化,公式如下:
(15)
式中,xi為原始變量,z為歸一化處理的標(biāo)準(zhǔn)變量。
對于新聞特征LSTM神經(jīng)網(wǎng)絡(luò),需輸入與待預(yù)測時間點過去最近j日的每日m條個股相關(guān)和n條個股行業(yè)相關(guān)新聞隱含文本特征集合,并將每日m+n條新聞的d維數(shù)據(jù)組成矩陣作為預(yù)測模型LSTM網(wǎng)絡(luò)每個時間步的輸入。
步驟5:初始化網(wǎng)絡(luò)參數(shù),確定模型的優(yōu)化方法與優(yōu)化目標(biāo),利用訓(xùn)練集數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)并存儲網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)。
不同類型股票對外部信息的反應(yīng)是不同的,為比較驗證本文模型對不同類型股票的預(yù)測表現(xiàn),使用2018年5月上證50指數(shù)中50只股票作為研究樣本。這50只股票規(guī)模存在差異,流動性好,受投資者關(guān)注較多,能較好地代表各自行業(yè),可使模型性能在相同行業(yè)不同股票間、不同行業(yè)股票間都得到充分檢驗。
國內(nèi)資本市場所采用的“N+1”交易模式使股票日收盤價的重要性高于開盤價等價格,因此,本文將待預(yù)測日期前200個交易日的收盤價作為EMD分解的股票隱含信號。
本文實證研究所用股票交易數(shù)據(jù)來源于國泰安CSMAR數(shù)據(jù)庫,選取并導(dǎo)出在2018年1月1日至2018年12月31日之間的樣本股票交易數(shù)據(jù),包括證券代碼(code)、交易日期(date)、日開盤價(open)、日最高價(high)、日最低價(low)、日收盤價(close)、交易量(volume),存入本地數(shù)據(jù)庫。
東方財富網(wǎng)是國內(nèi)具有專業(yè)性背書的股票門戶網(wǎng)站,其旗下的股吧平臺對股民具有較強吸引力,用戶量大,因此,選取東方財富股吧作為網(wǎng)絡(luò)輿情的文本來源。新浪財經(jīng)針對個股匯總了相關(guān)新聞及行業(yè)新聞,降低了語料收集難度,因此,將其作為財經(jīng)新聞的來源。金融文本模型的股票樣本選定為除上證50指數(shù)所含股票外的其他上證指數(shù)所含股票。在確定文本數(shù)據(jù)來源及股票樣本后,選擇2018年新浪財經(jīng)新聞與東方財富股吧發(fā)帖作為金融文本數(shù)據(jù)。爬取上述網(wǎng)頁,解析后將結(jié)果存儲到數(shù)據(jù)庫中供后續(xù)使用。首先,人工對原始語料做清洗工作,使用結(jié)巴分詞工具的精準(zhǔn)模式對語料分詞,之后根據(jù)停用詞詞庫去除停用詞。然后使用金融文本輔以中文維基百科語料庫訓(xùn)練word2vec模型,訓(xùn)練完畢使用該模型將每條金融文本語料中的詞轉(zhuǎn)換為向量。本文將詞向量維度設(shè)定為200,經(jīng)過word2vec模型表征后的結(jié)果與原始文本一一對應(yīng)存儲。財經(jīng)新聞文本表征模型是非監(jiān)督模型,不需要標(biāo)簽指導(dǎo)模型訓(xùn)練,隨機選取8 000條經(jīng)過預(yù)處理的財經(jīng)新聞?wù)Z料訓(xùn)練模型。輿情文本情感分析模型為監(jiān)督模型,需要標(biāo)簽指導(dǎo)模型訓(xùn)練,為保證訓(xùn)練數(shù)據(jù)均衡,人為選取10 000條輿情數(shù)據(jù)(其中,積極性輿情4 000條,消極性輿情4 000條,中立性輿情2 000條)供模型訓(xùn)練使用。
圖5所示為白云機場個股(股票代碼600004)2018年前200個交易日收盤價序列分解結(jié)果及IMF分量重構(gòu)結(jié)果。從圖中可以看出,原始收盤價序列(origin)被分解為6個IMF分量,能較為明顯地看出第六個IMF分量反映了原始序列趨勢。使用模糊熵算法計算每個IMF分量的模糊熵值及變化周期,其結(jié)果如表2所示,變化周期單位為日。
由表2可以看出,無論按照模糊熵值的數(shù)量級還是變化周期的數(shù)量級,第一和第二個IMF分量屬于一類,第三、第四和第五個IMF分量屬于一類,第六個IMF分量為單獨一類。
表2 IMF分量模糊熵值及變化周期
將不同類別內(nèi)的IMF分量相加獲得重構(gòu)子序列,由圖6右側(cè)曲線圖可見不同子序列反映了原始股價信號在不同時間尺度上的變化規(guī)律。股票序列存在一定的相似性,預(yù)實驗發(fā)現(xiàn)該種重構(gòu)方法對所有個股均適用,較為合理。因此,使用上述方法對股票收盤價序列進行分解重構(gòu)以構(gòu)建股票隱含信號特征。
經(jīng)過上述分解重構(gòu)過程,200個交易日的股票收盤價序列被分解為長度均為200的高頻項、低頻項與趨勢項序列。
在平衡模型成本與精確度的前提下,確定兩個文本處理模型的超參數(shù)(如表3所示)。其中,財經(jīng)新聞文本表征模型的輸出維度設(shè)為150維,兩個模型的批處理數(shù)據(jù)大小(batch_size)設(shè)定為32。
表3 文本處理模型超參數(shù)設(shè)置
財經(jīng)新聞特征與其他時序數(shù)據(jù)對未來股票走勢影響的時間跨度不同,本文預(yù)測模型中兩個LSTM網(wǎng)絡(luò)超參數(shù)設(shè)置如表4所示。
表4 股票趨勢預(yù)測模型超參數(shù)設(shè)置
為驗證模型的有效性,本文使用支持向量機、LSTM網(wǎng)絡(luò)作為趨勢預(yù)測模型的對比實驗。支持向量機與LSTM網(wǎng)絡(luò)中無法同時輸入時序特征與文本特征,因此,設(shè)定只有趨勢預(yù)測模型具有財經(jīng)新聞隱含特征,其他對照實驗只需輸入時序特征。由前文分析中可知,增加股票預(yù)測模型所用的信息源能夠提升預(yù)測的準(zhǔn)確性。為驗證該分析,在模型的對照實驗中增加使用不同范圍數(shù)據(jù)源的相同模型作為對照,將SVM與LSTM數(shù)據(jù)源分為只使用技術(shù)指標(biāo)與隱含信號的basic分組和使用包括時序型金融文本特征的all分組。共設(shè)置了4組對照實驗,其中時序型金融文本特征為積極與消極兩類股票輿情熱度統(tǒng)計、財經(jīng)新聞熱度統(tǒng)計及股民情緒指數(shù)。
實驗結(jié)果如表5所示。本文采用精確率、召回率和F1值作為結(jié)果的評價指標(biāo),前兩者是相互制約關(guān)系,因此,用F1值進行綜合評價。
表5 對比實驗結(jié)果
由實驗結(jié)果可知,LSTM網(wǎng)絡(luò)在預(yù)測趨勢時的表現(xiàn)普遍比SVM模型要好,而在大部分個股數(shù)據(jù)上F1值都低于本文所提出的模型,本文模型在預(yù)測個股漲跌趨勢中的效果最好,說明了模型的有效性。股票預(yù)測模型的綜合預(yù)測效果是符合預(yù)期的,但少量個股數(shù)據(jù)的測試結(jié)果中,本文模型的表現(xiàn)次于或接近LSTM模型。對實際的股票交易者來說,模型在個股的預(yù)測表現(xiàn)同樣重要,本文進一步對個股結(jié)果進行差異性分析,判斷模型應(yīng)用的補足條件。
由使用相同模型處理不同數(shù)據(jù)源的對比實驗可以看出,時序型金融文本特征的加入能有效提升模型的預(yù)測表現(xiàn)。時序型金融文本特征表現(xiàn)為積極類輿情熱度、消極類輿情熱度、新聞熱度與股民情緒指數(shù)。對2018年全年50只個股進行分析后發(fā)現(xiàn),前三個特征與股票收盤價間皮爾遜相關(guān)系數(shù)大部分處在0.1至0.2間,相關(guān)性較弱。雖然呈現(xiàn)弱相關(guān)關(guān)系,但深度學(xué)習(xí)網(wǎng)絡(luò)能夠根據(jù)輸入數(shù)據(jù)自動發(fā)現(xiàn)隱含特征,不同特征的加入可以提升模型性能,這也是本文選擇LSTM網(wǎng)絡(luò)作為基礎(chǔ)模型的重要原因。值得注意的是,情緒指數(shù)這一特征與收盤價具有相對更強的相關(guān)關(guān)系,并且相關(guān)性在不同時間周期內(nèi)有較大變化。2018年全年,浦發(fā)銀行個股(股票代碼600000)與中國聯(lián)通個股(股票代碼600050)的股民情緒指數(shù)變化分別如圖7與圖8所示。
從圖7和圖8中可以看出,浦發(fā)銀行與中國聯(lián)通兩只個股在2018年全年的股民情緒幾乎全部為負(fù)面,這與2018年中國股市的市場狀況相符合。浦發(fā)銀行四月到六月間股民情緒最為負(fù)面,而這期間該只個股的收盤價也跌至全年最低點,之后才緩慢爬升;中國聯(lián)通前半年市場行情持續(xù)下行,在七月初跌至全年最低點,隨后小幅度回升逐步橫盤。對于股票收盤價走勢與社交網(wǎng)絡(luò)中的股民情緒相關(guān)關(guān)系,本文使用皮爾遜相關(guān)系數(shù)描述。2018年全年浦發(fā)銀行個股的收盤價與股民情緒指數(shù)的皮爾遜相關(guān)系數(shù)值為-0.216 5,中國聯(lián)通的相關(guān)系數(shù)為-0.088 7,均呈現(xiàn)弱相關(guān)關(guān)系。在不同月份中,二者間相關(guān)性變動較大,圖9和圖10分別為浦發(fā)銀行和中國聯(lián)通個股的收盤價與股民情緒指數(shù)在全年12個月中每月皮爾遜相關(guān)系數(shù)絕對值變化。從圖9中可以發(fā)現(xiàn),浦發(fā)銀行個股在1、9、11、12四個月中,收盤價與情緒指數(shù)間具有中等強度的相關(guān)關(guān)系,在6、7、8三個月中二者具有弱相關(guān)關(guān)系,在其他月份中相關(guān)關(guān)系較低;從圖10可以看出,中國聯(lián)通個股在2、9、10、11四個月中,收盤價與情緒指數(shù)間具有中等強度相關(guān)關(guān)系,在4月二者具有弱相關(guān)關(guān)系,在其他月份相關(guān)關(guān)系較低。
從全部的50只個股來看,股民情緒指數(shù)與收盤價之間皮爾遜相關(guān)系數(shù)絕對值平均數(shù)為0.290 7,呈現(xiàn)弱相關(guān)關(guān)系,且大部分個股與浦發(fā)銀行、中國聯(lián)通兩只個股情況類似,在股票持續(xù)下跌時,二者相關(guān)性降低。從以上結(jié)果發(fā)現(xiàn),股民輿情這一信息源在股價正常時與股票收盤價具有一定相關(guān)性,加入該信息源能提升預(yù)測模型準(zhǔn)確率,但在股價持續(xù)下跌時影響并不大。
為更好地預(yù)測股票趨勢,使用股票基礎(chǔ)數(shù)據(jù)、社交輿情數(shù)據(jù)與財經(jīng)新聞數(shù)據(jù)三個不同層級的信息作為數(shù)據(jù)來源,基于LSTM深度神經(jīng)網(wǎng)絡(luò)構(gòu)建股票趨勢預(yù)測模型。對股票歷史數(shù)據(jù),采用4種具有代表性的股票技術(shù)指標(biāo)與EMD分解重構(gòu)生成高頻項、低頻項和趨勢項三個子序列構(gòu)成股票基礎(chǔ)數(shù)據(jù)特征;對股票相關(guān)財經(jīng)新聞與社交輿情兩類金融文本數(shù)據(jù),基于不同結(jié)構(gòu)類型的LSTM網(wǎng)絡(luò)構(gòu)建財經(jīng)新聞文本表征模型與輿情文本情感分析模型,并將文本處理結(jié)果整理為金融文本類特征。使用上證50指數(shù)股票數(shù)據(jù)訓(xùn)練與測試預(yù)測模型,實證分析發(fā)現(xiàn)時序型金融文本特征的加入能有效提升模型的預(yù)測表現(xiàn)。同時,在實驗結(jié)果相關(guān)性分析中發(fā)現(xiàn),股民輿情指數(shù)與收盤價相關(guān)性較高,對股票預(yù)測模型精度有一定影響,但在股票持續(xù)下跌時影響不大。在后續(xù)模型優(yōu)化中可以根據(jù)實際需求擴充數(shù)據(jù)源,并考慮對不同的數(shù)據(jù)源設(shè)置影響權(quán)重,以觀察不同數(shù)據(jù)源對漲跌趨勢的影響。
北京郵電大學(xué)學(xué)報(社會科學(xué)版)2020年5期