馬源源, 劉晏澤, 劉呈隆, 張?zhí)饾?/p>
(1. 東北大學(xué) 工商管理學(xué)院, 遼寧 沈陽(yáng) 110819; 2. 東北大學(xué)秦皇島分校 經(jīng)濟(jì)學(xué)院, 河北 秦皇島 066004;3. 東北大學(xué)秦皇島分校 管理學(xué)院, 河北 秦皇島 066004)
在以往的股市預(yù)測(cè)研究中,學(xué)者們大多僅考慮股市的理性因素[1].但在實(shí)際的股市中,存在很多歷史數(shù)據(jù)難以解釋的現(xiàn)象[2].例如,行為金融學(xué)中所涉及的投資者對(duì)股市產(chǎn)生直接影響的重要因素,即投資者情緒[3].股市輿情首先通過(guò)媒體進(jìn)行傳播,經(jīng)由經(jīng)理人和個(gè)人投資者進(jìn)行傳染和擴(kuò)散,最終對(duì)股市整體造成影響[4].因此,有部分研究者開(kāi)始在股市預(yù)測(cè)的研究中考慮投資者輿情的影響.Creamer[5]通過(guò)收集相關(guān)企業(yè)的新聞和管理者的社會(huì)關(guān)系以進(jìn)行輿論分析,并用分析結(jié)果來(lái)優(yōu)化投資組合.Lemmon等[6]發(fā)現(xiàn),投資者輿情對(duì)股市的短期預(yù)測(cè)有輔助作用.Hu等[7]以美國(guó)股市為研究對(duì)象,借助谷歌指數(shù)表示投資者關(guān)注度,提高了預(yù)測(cè)精度.Liang等[8]對(duì)報(bào)紙新聞、互聯(lián)網(wǎng)新聞和投資者輿情都進(jìn)行了分析,從不同角度證明了輿情對(duì)于股市的影響效果.Bollen等[9]從7個(gè)維度量化了投資者輿情,并證明了量化結(jié)果與股市的走勢(shì)顯著相關(guān).
對(duì)于量化投資者輿情所必要的自然語(yǔ)言處理來(lái)說(shuō),重要的一環(huán)就是文本數(shù)據(jù)的編碼預(yù)處理.Word2Vec作為全新的基于上下文的編碼方法,依賴Skip-grams模型或連續(xù)詞袋(continuous bag-of-words,CBOW)模型來(lái)進(jìn)行詞嵌入,能夠?qū)W習(xí)詞語(yǔ)間的語(yǔ)義相關(guān)關(guān)系[10],并且通過(guò)使用特定領(lǐng)域語(yǔ)料庫(kù)提取語(yǔ)義關(guān)系方面更準(zhǔn)確的特定領(lǐng)域詞向量[11].同時(shí),近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在文本分析領(lǐng)域的應(yīng)用也使模型能夠捕捉句子中的語(yǔ)序信息和詞組搭配,使文本分類(lèi)、結(jié)果更加準(zhǔn)確[12].Guo等[13]使用TF-IDF表示詞語(yǔ)的重要性,建立多通道TextCNN來(lái)使模型能夠同時(shí)捕獲詞語(yǔ)的上下文關(guān)系和重要性.此外,潛在狄利克雷分布(latent Dirichlet allocation,LDA)也被用于提取文檔特征[14].這種無(wú)監(jiān)督學(xué)習(xí)方法能將文檔分為指定個(gè)數(shù)的主題,并獲取文檔中的重點(diǎn)[15].Wan等[16]提出了一種關(guān)聯(lián)約束 LDA模型(AC-LDA)來(lái)有效地捕獲共現(xiàn)關(guān)系,并進(jìn)一步提高意見(jiàn)詞的提取率.Xie等[17]使用基于轉(zhuǎn)換器的雙向編碼表征和LDA 主題模型來(lái)分析主題演變,揭示不同語(yǔ)言撰寫(xiě)的科學(xué)出版物之間的主題相似性.通過(guò)這些方法,不僅可以捕獲文本數(shù)據(jù)中的多種特征,還能夠?qū)⑽谋緮?shù)據(jù)數(shù)值化,以進(jìn)一步分析其與股市之間的關(guān)系并應(yīng)用于股市預(yù)測(cè).
使用數(shù)學(xué)模型對(duì)股市進(jìn)行短期預(yù)測(cè)一直是金融研究領(lǐng)域的核心問(wèn)題之一,以往研究者們常用的經(jīng)典模型包括自回歸(autoregressive,AR)模型[18]和移動(dòng)平均(moving average,MA)模型[19],以及以上兩個(gè)模型的混合模型——移動(dòng)平均自回歸(autoregressive integrated moving average,ARIMA)模型[20].然而,由于影響股市的因素眾多并且股指常為非線性,這些時(shí)序模型的預(yù)測(cè)性能都表現(xiàn)一般.隨著機(jī)器學(xué)習(xí)模型在金融領(lǐng)域的使用,研究者們嘗試應(yīng)用更多模型來(lái)預(yù)測(cè)股票市場(chǎng),比如長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò)[21,22],支持向量機(jī)(support vector machine,SVM)[23],循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[24],反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)[25-26].
相比于傳統(tǒng)時(shí)序模型,機(jī)器學(xué)習(xí)模型不但能有效提升模型處理復(fù)雜問(wèn)題的性能,而且易于與其他方法和模型混合使用,其在股市預(yù)測(cè)領(lǐng)域也得到了廣泛的運(yùn)用[27].相對(duì)于BPNN等全連接神經(jīng)網(wǎng)絡(luò)模型,LSTM由于能夠?qū)?shù)據(jù)的時(shí)序信息進(jìn)行學(xué)習(xí)和遺忘,成為了股市預(yù)測(cè)的常用模型之一[28].Yadav等[29]為印度股市創(chuàng)建了一個(gè)數(shù)據(jù)集,并為其開(kāi)發(fā)了優(yōu)化超參數(shù)的LSTM.Ghosh等[30]同時(shí)使用隨機(jī)森林模型和LSTM模型對(duì)股市進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)進(jìn)行投資模擬并跑贏了大盤(pán).Moghar等[31]對(duì)LSTM在股市中可預(yù)測(cè)的精度和性能進(jìn)行了驗(yàn)證.Baek等[32]將2個(gè)LSTM組合并添加過(guò)擬合模塊,提高了模型的預(yù)測(cè)精度.
綜上所述,投資者輿情對(duì)股市的影響不可忽視,對(duì)輿情的量化分析是科學(xué)認(rèn)識(shí)、分析股市的必要過(guò)程.目前針對(duì)投資者輿情的量化分析主要以投資者情感的積極程度為參考,探究投資者情感積極度與股市之間的關(guān)系,而忽視了語(yǔ)義層面的投資者關(guān)注主題的變動(dòng)對(duì)股市的影響.本文基于東方財(cái)富網(wǎng)股吧中的投資者發(fā)言,從投資者發(fā)言積極程度和每日投資者關(guān)注主題兩方面進(jìn)行文本挖掘,從多角度對(duì)投資者輿情進(jìn)行量化和分析,研究投資者輿情與股市之間的關(guān)系和其在股市預(yù)測(cè)中的作用.
為了實(shí)現(xiàn)對(duì)投資者輿情的多角度量化,本文在使用Word2Vec模型將文本數(shù)據(jù)向量化后,基于文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)文本分類(lèi)模型和LDA主題模型進(jìn)行研究.同時(shí)針對(duì)LDA模型可能會(huì)有主題同質(zhì)性的問(wèn)題,引入TF-IDF方法形成TLDA模型,進(jìn)一步建立CNN-TLDA模型,對(duì)文本數(shù)據(jù)從投資者積極度和關(guān)注主題兩方面進(jìn)行多角度量化.進(jìn)而將量化的多維輿情指標(biāo)和股市歷史數(shù)據(jù)一起引入LSTM預(yù)測(cè)模型,形成多角度輿情分析LSTM(MSA-LSTM)預(yù)測(cè)模型以進(jìn)一步分析投資者輿情在股市預(yù)測(cè)中的作用.
對(duì)于收集到的文本數(shù)據(jù),需要將其數(shù)值化才能夠用于文本分析模型中.與英文數(shù)據(jù)不同的是,中文句子是由連續(xù)的漢字構(gòu)成,在表達(dá)語(yǔ)義的詞組與詞組之間沒(méi)有自然劃分,因此在中文文本數(shù)值化之前,首先需要對(duì)數(shù)據(jù)進(jìn)行分詞,將一個(gè)連續(xù)的句子拆分成數(shù)個(gè)詞.對(duì)于拆分后的詞串,需要進(jìn)行停用詞處理,刪除對(duì)語(yǔ)義判別沒(méi)有幫助的詞和標(biāo)點(diǎn),減小處理后的數(shù)據(jù)規(guī)模從而提高模型學(xué)習(xí)的效率和精度.
經(jīng)過(guò)分詞和消除停用詞后,即可將處理后的詞串進(jìn)行數(shù)值化,將每個(gè)詞轉(zhuǎn)化為獨(dú)特的詞向量.Word2Vec是谷歌2013年發(fā)布的詞嵌入模型.它能用上下文預(yù)測(cè)目標(biāo)詞的連續(xù)詞袋模型和用目標(biāo)詞預(yù)測(cè)上下文Skip-gram模型將詞訓(xùn)練成詞向量.與傳統(tǒng)的one-hot encoder方法相比,這種方法不僅能使用獨(dú)特的詞向量表示每一個(gè)詞,還能夠通過(guò)詞向量表示出詞的語(yǔ)義關(guān)系,通過(guò)余弦相似度還可表示詞與詞之間的語(yǔ)義相似程度.同時(shí)由于該方法生成詞向量的維度可以自己定義,根據(jù)文獻(xiàn)[10],詞向量維度一般設(shè)定在100到800之間,而在傳統(tǒng)方法中,詞向量的維度數(shù)與獨(dú)特的詞數(shù)相同.采用Word2Vec能夠大幅降低文本分析模型的計(jì)算成本,同時(shí)也使詞向量搭載的信息更多.
本文選取國(guó)內(nèi)的股票投資論壇——東方財(cái)富網(wǎng)股吧,使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取其中的文本數(shù)據(jù)并進(jìn)行文本分析.構(gòu)筑Word2Vec模型訓(xùn)練詞向量后,能夠得到尺寸為n×k的二維矩陣,其中n為語(yǔ)料中獨(dú)特的詞的個(gè)數(shù),k為模型設(shè)定的詞向量維度.
TextCNN是融合詞向量嵌入的針對(duì)文本進(jìn)行分類(lèi)的CNN,是由Kim[33]提出的短文本分類(lèi)模型,是目前性能最好的自然語(yǔ)言處理模型之一.TextCNN能夠高效地從語(yǔ)料中捕獲到對(duì)應(yīng)特征,由嵌入層、卷積層、池化層和一個(gè)全連接層構(gòu)成,如圖1所示.
圖1 TextCNN網(wǎng)絡(luò)結(jié)構(gòu)圖
在嵌入層,每個(gè)詞與經(jīng)由Word2Vec模型訓(xùn)練得到的k維詞向量一一對(duì)應(yīng),于是一個(gè)由n個(gè)詞構(gòu)成的句子將會(huì)作為一個(gè)n×k的詞向量矩陣輸入.卷積層會(huì)通過(guò)多個(gè)卷積核對(duì)詞向量矩陣進(jìn)行卷積,每一個(gè)卷積核都是k×l的矩陣,其中l(wèi)是卷積核的大小.每個(gè)卷積核從第1個(gè)詞開(kāi)始卷積n-l+1次,每一次卷積時(shí)起點(diǎn)向后推移一個(gè)詞,第i次卷積的過(guò)程如式(1)所示:
θi=f(C*Wordi:i+l-1+b) .
(1)
其中:θi是一個(gè)l維的向量;C是卷積核;Wordi:i+l-1是第i個(gè)至第i+l-1個(gè)連續(xù)的詞向量構(gòu)成的小矩陣;b是卷積核的偏置;f是一個(gè)非線性的激活函數(shù).因此,卷積核的大小l實(shí)際上也表示了卷積核提取的特征范圍,l=1時(shí)卷積核提取單個(gè)詞的特征,l>1時(shí)卷積核則能夠提取長(zhǎng)度為l的詞組的特征.
因此,一個(gè)長(zhǎng)度為n的句子經(jīng)一個(gè)大小為l的卷積核卷積后,可以得到一個(gè)(n-l+1)×l維的向量,并輸入到池化層中進(jìn)行池化.池化是一個(gè)特征提取和數(shù)據(jù)降維的過(guò)程,本文使用Max-pooling方式,即對(duì)于每個(gè)卷積后得到的向量,都取其最大值作為特征并輸出至全連接層.由此,每一個(gè)卷積核卷積得到的向量經(jīng)過(guò)池化后都會(huì)輸出一個(gè)特征值,即無(wú)論文本長(zhǎng)度是否相同,經(jīng)過(guò)卷積和池化后,都會(huì)變成一個(gè)特征值輸出,即池化層最終能夠得到一個(gè)m維的向量V,其中m為卷積核的個(gè)數(shù),與句子長(zhǎng)度n無(wú)關(guān).這個(gè)向量V即是全連接層的輸入.在本文的TextCNN中,全連接層具有2個(gè)輸出神經(jīng)元,并且使用softmax作為輸出層的激活函數(shù)來(lái)進(jìn)行分類(lèi),softmax函數(shù)如式(2)所示:
(2)
其中outj是第j個(gè)輸出節(jié)點(diǎn)的值.則每個(gè)節(jié)點(diǎn)的softmax值代表句子最后被分為該類(lèi)的概率分布,模型選取概率更高的類(lèi)作為最后的分類(lèi)結(jié)果.
此外,經(jīng)模型分類(lèi)后,通過(guò)計(jì)算每日正向帖子的占比,就可量化每日的投資者積極度,如式(3)所示:
(3)
其中:SI分布在區(qū)間[0,1]內(nèi),它反映了股民對(duì)股票市場(chǎng)的看漲或看跌的積極度;xp為當(dāng)日正向評(píng)論的數(shù)量;xn為當(dāng)日負(fù)向評(píng)論的數(shù)量.
1.3.1 LDA主題建模
LDA主題模型是能夠描述語(yǔ)料庫(kù)中主題特征的一個(gè)生成模型.通過(guò)詞袋方法,將每個(gè)待分析的文檔以向量的形式表示,向量的維數(shù)即為獨(dú)立的詞數(shù),每個(gè)維度代表對(duì)應(yīng)詞在該文本中的詞頻.
基于貝葉斯模型,LDA使用一個(gè)聯(lián)合分布計(jì)算潛在變量——主題的概率分布,從而將每個(gè)文檔轉(zhuǎn)化為一個(gè)多維向量,向量的維數(shù)即為預(yù)先設(shè)定的主題個(gè)數(shù),每個(gè)維度代表文檔屬于該主題的概率分布,同時(shí)每個(gè)主題的關(guān)鍵詞和詞的概率分布也可通過(guò)模型得到.并且由于主題關(guān)鍵詞的產(chǎn)生不依賴具體的文檔,因此文檔的主題分布和主題的關(guān)鍵詞分布是相互獨(dú)立的.
1.3.2 基于TF-IDF對(duì)LDA的改進(jìn)
傳統(tǒng)LDA模型使用詞袋模型對(duì)文檔中的每個(gè)詞編碼并輸入模型,這種編碼方式僅以詞頻表示文檔中詞的占比,難以表達(dá)詞的獨(dú)特性,可能會(huì)導(dǎo)致主題的過(guò)度相似.針對(duì)這個(gè)問(wèn)題,本文引入TF-IDF與LDA組合成TLDA來(lái)優(yōu)化編碼方式.TF-IDF是一種加權(quán)方式,用以評(píng)估詞對(duì)于一個(gè)語(yǔ)料庫(kù)中的其中一個(gè)文檔的重要程度.詞的重要性隨著它在文檔中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比減少.一個(gè)詞的TF-IDF值越大,說(shuō)明此詞具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi).
TF-IDF實(shí)際上是term frequency(TF)與inverse document frequency(IDF)的乘積,如式(4)所示:
(4)
(5)
tfidfi,j=tfi,j×idfi,j.
(6)
其中:|D|表示語(yǔ)料中的文檔總數(shù);|j:ti∈dj|表示包含該詞語(yǔ)的文檔數(shù)目.
由此,可得到每個(gè)詞在各個(gè)文檔中的TF-IDF值,用代替詞頻作為L(zhǎng)DA的輸入,模型能夠更好地捕獲文檔的主題特征.
長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種.RNN具有記憶環(huán)節(jié),將時(shí)間序列中前面的數(shù)據(jù)特征記錄下來(lái)作為后面數(shù)據(jù)的特征之一,相比于其他神經(jīng)網(wǎng)絡(luò)模型能夠更好地處理序列數(shù)據(jù).但RNN的循環(huán)結(jié)構(gòu)會(huì)導(dǎo)致處理長(zhǎng)序列數(shù)據(jù)時(shí)前面的數(shù)據(jù)中的無(wú)用特征被長(zhǎng)期記錄,從而發(fā)生梯度消失或梯度爆炸問(wèn)題.針對(duì)這一問(wèn)題,LSTM在RNN中加入了遺忘環(huán)節(jié),對(duì)長(zhǎng)序列中的不重要信息進(jìn)行遺忘.
每個(gè)LSTM節(jié)點(diǎn)包含一個(gè)輸入門(mén)ig,一個(gè)輸出門(mén)og,一個(gè)遺忘門(mén)fg和一個(gè)記憶單元mu.在時(shí)刻t時(shí),LSTM基于輸入數(shù)據(jù)int和上一時(shí)刻的隱藏狀態(tài)ht-1對(duì)目前時(shí)刻的隱藏狀態(tài)ht進(jìn)行更新,并向下一時(shí)刻傳遞.更新過(guò)程如下式所示:
igt=γ(Uigint+Wight-1+big) ;
(7)
fgt=γ(Ufgint+Wfght-1+bfg) ;
(8)
ogt=γ(Uogint+Woght-1+bog) ;
(9)
mut=fgt⊙mut-1+igt⊙
δ(Umuint+Wmuht-1+bmu);
(10)
ht=ogt⊙δ(mut) .
(11)
其中:{Uig,Ufg,Uog,Umu,Wig,Wfg,Wog,Wmu}是各節(jié)點(diǎn)的權(quán)重矩陣,U為輸入門(mén)的權(quán)重矩陣,W為隱藏狀態(tài)的權(quán)重矩陣;{big,bfg,bog,bmu}為對(duì)應(yīng)的偏置;γ和δ分別是sigmoid和tanh激活函數(shù);⊙表示矩陣的點(diǎn)乘.
LSTM的單元結(jié)構(gòu)和每個(gè)時(shí)刻LSTM更新過(guò)程如圖2所示.
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖
上證指數(shù)是以上海證券交易所掛牌上市的全部股票為計(jì)算范圍,以發(fā)行量為權(quán)數(shù)的加權(quán)綜合股價(jià)指數(shù),能夠很好地反映中國(guó)的股市行情.本文基于東方財(cái)富網(wǎng)股吧,以上證指數(shù)為例,探究輿情因素在中國(guó)股市中的影響,并對(duì)輿情因素對(duì)于股市預(yù)測(cè)的輔助效果進(jìn)行研究.
東方財(cái)富網(wǎng)股吧(https://guba.eastmoney.com/)是中國(guó)最大的投資者交流論壇,每天都有大量活躍用戶在論壇中發(fā)表自己對(duì)股市的看法.這些數(shù)據(jù)表現(xiàn)了最真實(shí)的一般投資者的輿論,對(duì)論壇中的投資者發(fā)言進(jìn)行分析整理,就能夠捕獲到股票市場(chǎng)中的個(gè)體投資者情緒.
本文使用Python爬蟲(chóng)技術(shù)從東方財(cái)富股吧的上證指數(shù)板塊中獲取到2020年1月16日至2021年10月15日共421個(gè)交易日的全部帖子,經(jīng)數(shù)據(jù)清理去除重復(fù)發(fā)言和空白帖子后,得到共計(jì)1 316 971條文本數(shù)據(jù)用于文本分析.為了了解個(gè)體投資者的關(guān)注重點(diǎn),將語(yǔ)料進(jìn)行分詞、去除停用詞后,進(jìn)行詞頻統(tǒng)計(jì)以獲取關(guān)鍵詞.高頻詞詞頻如表1所示,詞云如圖3所示.
表1 股吧發(fā)言詞頻Table 1 Word frequency of Guba
圖3 股吧發(fā)言詞云圖
由表1和圖3可以看出,首先,股市的整體行情和個(gè)股表現(xiàn)都是投資者們關(guān)注的重點(diǎn),股市整體的表現(xiàn)和市場(chǎng)中資金的流向都是投資者們議論的核心主題.其次,在投資者樂(lè)觀程度方面,下跌等悲觀詞匯的出現(xiàn)次數(shù)遠(yuǎn)高于上漲等樂(lè)觀詞匯的出現(xiàn)次數(shù),說(shuō)明投資者整體情緒較為悲觀.
2.1.1 基于TextCNN情感分類(lèi)模型的二元語(yǔ)義分析
在本文所獲取到的語(yǔ)料中,經(jīng)分詞、去除停用詞后可以得到237 458個(gè)獨(dú)特的詞,但絕大多數(shù)詞語(yǔ)只在語(yǔ)料庫(kù)中出現(xiàn)了一兩次,對(duì)于詞向量訓(xùn)練用處不大,且嚴(yán)重拖慢訓(xùn)練速度.故在基于Word2Vec的語(yǔ)料數(shù)值化過(guò)程中,為了提高模型學(xué)習(xí)效率,過(guò)濾掉了詞頻在10以下的詞,將余下的36 348個(gè)獨(dú)特的詞訓(xùn)練成了36 348個(gè)150維的詞向量.
在嵌入層中,每個(gè)詞與其訓(xùn)練得到的詞向量一一對(duì)應(yīng),未訓(xùn)練詞向量的詞均以一個(gè)150維的0表示,由此得到一個(gè)尺寸為(237 458,150)的嵌入層,將文本轉(zhuǎn)化為(n,150)維的矩陣輸入至卷積層,其中n是句子的長(zhǎng)度.此外,為了防止句子太短而無(wú)法卷積,設(shè)定n最小為7,無(wú)內(nèi)容部分用0填充.在卷積層,分別使用尺寸為2, 3, 4, 5的卷積核各64個(gè)對(duì)輸入矩陣進(jìn)行卷積,卷積后可得到256個(gè)特征向量.在池化層中,通過(guò)Max-pooling方式,從每個(gè)特征向量中得到一個(gè)特征值,由此,每個(gè)句子都會(huì)被轉(zhuǎn)化為一個(gè)256維的特征向量.由于模型將進(jìn)行二元語(yǔ)義分類(lèi),全連接層的輸出節(jié)點(diǎn)數(shù)應(yīng)為2,分別代表積極、消極,為了防止訓(xùn)練數(shù)據(jù)中出現(xiàn)數(shù)據(jù)錯(cuò)誤,另加一個(gè)輸出節(jié)點(diǎn)以剔除異常數(shù)據(jù),由此構(gòu)建一個(gè)尺寸為256×3的全連接層,并使用softmax函數(shù)作為激活函數(shù),最終完成文本分類(lèi).
為了訓(xùn)練TextCNN模型,本文從獲取到的文本數(shù)據(jù)中隨機(jī)選取5 000條并對(duì)其進(jìn)行人工標(biāo)記,將積極的帖子內(nèi)容標(biāo)記為1,消極的內(nèi)容標(biāo)記為0.標(biāo)記后的文本中的80%作為訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,并用剩余的20%作為測(cè)試集,驗(yàn)證模型的分類(lèi)性能,同時(shí)使用one-hot encoding和梯度提升決策樹(shù)(GBDT)模型進(jìn)行對(duì)比.模型訓(xùn)練結(jié)果如表2所示.
結(jié)果表明Word2Vec和TextCNN的組合展現(xiàn)了更高的分類(lèi)準(zhǔn)確度,85.4%的準(zhǔn)確度足以支持下一步的情緒量化.
圖4展示了每日量化投資者積極度的分布,投資者積極度整體接近正態(tài)分布,集中于0.1至0.16之間,即每日看漲的投資者發(fā)言經(jīng)常僅占當(dāng)日發(fā)言的20%以下.這表明了在社交平臺(tái)上,股民們對(duì)股市表現(xiàn)普遍不滿,悲觀情緒占據(jù)輿論的主導(dǎo),這也符合投資者普遍期望獲得更高收益的心理.
表2 分類(lèi)器性能Table 2 Classifier performance
圖4 投資者積極度分布
進(jìn)一步觀察投資者積極度與股市的關(guān)系,如圖5所示,以2021年為例,可以看出投資者積極度的量化曲線與股市的漲跌具有良好的擬合效果,這說(shuō)明投資者積極度受到股市表現(xiàn)影響,且?guī)缀鯖](méi)有滯后,表示投資者在當(dāng)日內(nèi)即會(huì)對(duì)股市變動(dòng)做出迅速反應(yīng),并在社交媒體中產(chǎn)生反饋.同時(shí)在部分區(qū)間,情緒的變動(dòng)快于股市變動(dòng),說(shuō)明投資者情緒能夠預(yù)示或影響股市的變動(dòng).
圖5 投資者積極度和股市漲跌曲線圖
2.1.2 基于TLDA的主題分析
在TLDA模型中,通過(guò)多次實(shí)驗(yàn)的方式選擇合適的主題數(shù),最終本文選取了4個(gè)主題,表3展示了主題劃分的結(jié)果以及對(duì)應(yīng)的關(guān)鍵詞,關(guān)鍵詞由主題內(nèi)獨(dú)特的高頻詞組成.
表4展示了4個(gè)主題的描述性統(tǒng)計(jì),主題的最小值和最大值說(shuō)明,每日的投資者發(fā)言中不一定都存在所有主題,有一些可能只存在一個(gè)主題.
圖6為每月的主題分布以及股市指數(shù)的平均值曲線.受新冠疫情影響,2020年中國(guó)股市整體處于動(dòng)蕩之中,第一季度疫情爆發(fā)使經(jīng)濟(jì)受挫,股市持續(xù)下跌,第二季度開(kāi)始疫情有所控制,經(jīng)濟(jì)回暖,股市大幅反彈,而2021年中國(guó)股市并無(wú)大幅度波動(dòng),以平穩(wěn)震蕩為主.對(duì)比主題分布與股指可以看出,首先,主題1在早期股市動(dòng)蕩時(shí)期出現(xiàn)較少,2020年7月后和2021年第一季度分布較多,說(shuō)明投資者對(duì)大盤(pán)的關(guān)注更多在股市平穩(wěn)震蕩時(shí)期.其次,主題2在除了新冠肺炎疫情爆發(fā)期之外均占據(jù)投資者輿論的主體地位,說(shuō)明個(gè)股的表現(xiàn)始終是股民們關(guān)注和討論的重點(diǎn).最后,在2020年的股市動(dòng)蕩階段,主題3和主題4的分布較高,其中在2020年初的疫情爆發(fā)期和7月的股市暴漲期出現(xiàn)最多,但在2021年第一季度股市平穩(wěn)時(shí)逐漸消失,說(shuō)明在動(dòng)蕩時(shí)期,投資者會(huì)更關(guān)注股市變動(dòng),也會(huì)進(jìn)行更多有關(guān)投資行為的討論.
表3 TLDA主題建模結(jié)果Table 3 Results of TLDA topic modeling
表4 主題分布的描述性統(tǒng)計(jì)Table 4 Descriptive statistics of topic distribution
2.1.3 量化情緒與股市的相關(guān)性分析
為了進(jìn)一步探尋量化情緒與股市之間的關(guān)系,本文分析了投資者積極度、主題向量這些量化情緒與股市的次日收盤(pán)價(jià)的相關(guān)性.同時(shí)還分析了量化情緒與能夠表示投資者行為的當(dāng)、次日成交量、成交額、換手率之間的相關(guān)性以探尋情緒與投資者行為之間的關(guān)系.相關(guān)分析結(jié)果如圖7所示,其中**表示兩變量在置信度(雙測(cè))為0.01時(shí)顯著相關(guān).
圖6 主題分布和股指曲線圖
從圖7可以看出,在投資者行為方面,投資者積極度、主題1和主題3與當(dāng)、次日的3個(gè)表示投資者行為的指標(biāo)均顯著相關(guān),這表示投資者情緒與投資者行為之間有緊密的聯(lián)系,投資者積極度和投資者對(duì)部分主題的關(guān)注度能夠反映出當(dāng)日投資者所進(jìn)行的投資操作,同樣這些量化情緒也能夠預(yù)示次日投資者將要進(jìn)行的投資操作.此外,量化情緒與次日行為指標(biāo)的相關(guān)系數(shù)均大于與當(dāng)日行為指標(biāo)的相關(guān)系數(shù),說(shuō)明投資者的情緒因素具有更高的投資行為預(yù)示性.其中投資者積極度和主題1與表示投資者行為的指標(biāo)顯著正相關(guān),說(shuō)明投資者在進(jìn)行投資行為時(shí)會(huì)表現(xiàn)出較高的積極度,也會(huì)進(jìn)行更多關(guān)于股市的討論,同時(shí)投資者對(duì)股市的關(guān)注和較高的積極情緒也能夠促進(jìn)次日的投資行為.同時(shí)主題3與股市的行為指數(shù)顯著負(fù)相關(guān),說(shuō)明股市動(dòng)蕩和對(duì)牛市的鼓吹會(huì)使得投資者對(duì)投資行為更為慎重.
在股指方面,投資者積極度、主題1、主題2與次日收盤(pán)價(jià)正相關(guān),主題3、主題4與次日收盤(pán)價(jià)負(fù)相關(guān),LDA結(jié)果和投資者積極度都與次日收盤(pán)價(jià)顯著相關(guān),且其中LDA結(jié)果的相關(guān)系數(shù)更高.這些結(jié)果說(shuō)明了投資者情緒能夠通過(guò)某種形式去影響股市,將投資者情緒分析量化并加入回歸模型中能夠提高模型對(duì)股市的解釋能力.并且,LDA結(jié)果的相關(guān)系數(shù)遠(yuǎn)高于投資者積極度的相關(guān)系數(shù),說(shuō)明采用多角度輿情分析的量化結(jié)果遠(yuǎn)優(yōu)于單獨(dú)的情感二元極性分析.在所有主題中,主題1和主題3與各指標(biāo)的相關(guān)系數(shù)更大,說(shuō)明與股市整體表現(xiàn)相關(guān)的主題更能夠反映投資者行為.
圖7 相關(guān)分析結(jié)果
基于前文的投資者輿情分析,各量化情緒都與股市次日收盤(pán)價(jià)之間表現(xiàn)出了顯著的相關(guān)性,說(shuō)明這些量化情緒的引入能夠提升預(yù)測(cè)模型的預(yù)測(cè)能力.為進(jìn)一步分析情緒在股市預(yù)測(cè)中的作用,本節(jié)將LSTM作為初始模型,使用2020年至2021年兩年的數(shù)據(jù)進(jìn)行驗(yàn)證.
作為對(duì)照,本文構(gòu)建3個(gè)LSTM模型并對(duì)次日的上證指數(shù)收盤(pán)價(jià)進(jìn)行預(yù)測(cè)(見(jiàn)表5).模型1,不添加任何量化情緒,只使用股市歷史數(shù)據(jù)的LSTM模型.模型2,在模型1的基礎(chǔ)上添加基于TextCNN文本分類(lèi)模型量化得出的投資者積極度作為預(yù)測(cè)特征值的單角度輿情分析LSTM(SA-LSTM)模型.模型3,對(duì)文本進(jìn)行多角度輿情分析,使用投資者積極度、基于TLDA模型量化得到的主題分布和股市歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)的MSA-LSTM.
表5 預(yù)測(cè)模型誤差值Table 5 Error value of the prediction model
本文使用2020/01/16至2021/08/09的379個(gè)交易日的數(shù)據(jù)對(duì)這3個(gè)模型分別進(jìn)行訓(xùn)練,并使用2021/08/10至2021/10/15的42個(gè)交易日的數(shù)據(jù)作為測(cè)試集,驗(yàn)證3個(gè)模型的性能.圖8是3個(gè)模型的擬合曲線圖.從圖8可以看出,考慮輿情因素的預(yù)測(cè)模型的擬合效果更加優(yōu)秀,其中使用多角度輿情分析能夠進(jìn)一步提升模型的預(yù)測(cè)性能.表5是3個(gè)模型在測(cè)試集上的誤差,輿情因素的加入使模型的均方誤差降低了38%,從多角度考慮投資者情緒能進(jìn)一步將均方誤差降低至LSTM的41%.這表示考慮輿情因素能夠完善預(yù)測(cè)模型,投資者輿情因素的加入能夠增加模型的可解釋性,使模型結(jié)構(gòu)更加貼近現(xiàn)實(shí),并且本文提出的多角度輿情量化能夠更全面地對(duì)投資者行為進(jìn)行分析.
圖8 預(yù)測(cè)擬合曲線
研究結(jié)果表明投資者輿情因素與我國(guó)股市具有顯著的相關(guān)性,加入多維輿情因素能大幅減少預(yù)測(cè)模型的誤差,對(duì)我國(guó)股市有較好的預(yù)測(cè)效果.
在中國(guó)投資者網(wǎng)絡(luò)論壇中,大盤(pán)的整體情況、個(gè)股的表現(xiàn)以及市場(chǎng)中的資金流向等宏觀信息是投資者關(guān)注的重點(diǎn).同時(shí)股民們對(duì)股市的表現(xiàn)普遍不滿,悲觀詞匯占據(jù)輿論的主導(dǎo).
對(duì)投資者積極度量化結(jié)果表明,股市情緒普遍消極,僅有不到20%的積極評(píng)論,將投資者積極度與股市漲跌對(duì)比,投資者情緒的變動(dòng)與股市變動(dòng)趨勢(shì)基本一致,表明投資者情緒與股市變動(dòng)互相影響.對(duì)投資者發(fā)言的主題建模結(jié)果表明,相較于股市整體表現(xiàn),投資者更經(jīng)常關(guān)注個(gè)股的實(shí)際情況,并且在股市劇烈動(dòng)蕩時(shí)期,投資者會(huì)進(jìn)行更多的投資相關(guān)討論,在股市平穩(wěn)時(shí)期,股市整體表現(xiàn)則是投資者熱議的話題.
相關(guān)分析結(jié)果表明,多個(gè)量化情緒均與次日的股市收盤(pán)價(jià)顯著相關(guān),說(shuō)明了投資者情緒能夠通過(guò)某種形式去影響股市,量化情緒的引入能夠提升預(yù)測(cè)模型的預(yù)測(cè)能力.此外,在投資者行為方面,投資者的情緒積極度和對(duì)股市整體以及投資行為的關(guān)注度與代表股市行為的指標(biāo)顯著相關(guān),說(shuō)明情緒因素能夠?qū)墒械姆抢硇袁F(xiàn)象作出解釋,投資者的樂(lè)觀程度和關(guān)注重點(diǎn)會(huì)對(duì)投資者行為產(chǎn)生影響.
基于LSTM預(yù)測(cè)模型進(jìn)一步分析投資者量化情緒在股市預(yù)測(cè)中的作用發(fā)現(xiàn):首先,考慮輿情因素可使模型預(yù)測(cè)的MSE降低38%;其次,與傳統(tǒng)的情緒二元分析量化相比,本文提出的多角度輿情量化方法對(duì)預(yù)測(cè)模型的優(yōu)化效果更好,MSE降低至LSTM模型的41%.說(shuō)明多角度的輿情分析能夠使模型更全面地解釋股市中的投資者非理性行為,投資者的情緒積極度和關(guān)注重點(diǎn)都能夠?qū)墒蓄A(yù)測(cè)起到輔助作用.