梁宇佳,宋東峰
(首都經(jīng)濟(jì)貿(mào)易大學(xué),北京 100070)
股票市場(chǎng)是股票可以交易和流通的地方,它已經(jīng)存在了400 年,已經(jīng)成為大公司向投資者籌集資金的重要渠道。然而,股票價(jià)格的形成機(jī)制卻相當(dāng)復(fù)雜。各種因素的綜合運(yùn)用和個(gè)體因素的特殊行為,包括政治、經(jīng)濟(jì)、市場(chǎng)因素以及技術(shù)和投資者行為,都會(huì)導(dǎo)致股價(jià)變化。因此,股票價(jià)格是不斷變化的,這種變化為投機(jī)活動(dòng)提供了生存空間,增加了股市的風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)不僅會(huì)給投資者帶來(lái)經(jīng)濟(jì)損失,還會(huì)給企業(yè)和國(guó)家的經(jīng)濟(jì)建設(shè)帶來(lái)一定的副作用。近年來(lái),計(jì)算機(jī)硬件與先進(jìn)機(jī)器學(xué)習(xí)理論的發(fā)展極為迅速,人工智能領(lǐng)域獲得了前所未有的關(guān)注度,隨著技術(shù)的逐步成熟,越來(lái)越多的研究借助于機(jī)器學(xué)習(xí)的幫助來(lái)解決愈發(fā)復(fù)雜的問(wèn)題。得益于先進(jìn)的數(shù)據(jù)處理能力,各類新舊機(jī)器學(xué)習(xí)算法在現(xiàn)代高性能計(jì)算機(jī)硬件的加持下,得到了越來(lái)越多的量化分析流派的青睞。從金融市場(chǎng)的預(yù)測(cè)到審批貸款、風(fēng)險(xiǎn)評(píng)估,這些機(jī)器學(xué)習(xí)算法促進(jìn)了金融領(lǐng)域的發(fā)展。然而在這些涉及機(jī)器學(xué)習(xí)的方法中,很少結(jié)合情感分析方法來(lái)考慮。因此,本研究基于歷史股價(jià)數(shù)據(jù),結(jié)合投資者情感指數(shù),采用LSTM 機(jī)器學(xué)習(xí)的方法預(yù)測(cè)未來(lái)股價(jià)走勢(shì),相較于傳統(tǒng)預(yù)測(cè)方法進(jìn)一步提高了效果。
投資者情緒與股票市場(chǎng)的研究,目前主要關(guān)注于不同情緒度量方法是否能對(duì)金融市場(chǎng)的股票價(jià)格、收益等進(jìn)行有效預(yù)測(cè)。
傳統(tǒng)的投資者情緒度量指標(biāo)分為直接指標(biāo)和間接指標(biāo)[1]。不過(guò)由于傳統(tǒng)投資者情緒多以代理變量形式出現(xiàn),并不是投資者情緒的直接表達(dá),傳統(tǒng)投資者情緒對(duì)市場(chǎng)的預(yù)測(cè)能力是有限的,傳統(tǒng)度量指標(biāo)對(duì)投資者情緒的刻畫(huà)尚存在一定的不足。針對(duì)這一問(wèn)題,一些學(xué)者嘗試從投資者的網(wǎng)絡(luò)行為中獲取更直接的情緒指標(biāo)[2],并檢驗(yàn)其在股票市場(chǎng)中的有效性,將基于文本挖掘的投資者情緒作為主要的研究對(duì)象。
目前,基于文本挖掘的投資者情緒的相關(guān)研究主要關(guān)注于網(wǎng)絡(luò)情緒來(lái)源、情感分類方法、情緒指標(biāo)構(gòu)造和股票實(shí)證檢驗(yàn)等關(guān)鍵環(huán)節(jié)。在網(wǎng)絡(luò)情緒來(lái)源方面,多數(shù)研究數(shù)據(jù)來(lái)自財(cái)經(jīng)網(wǎng)站或社交媒體的股吧論壇板塊,包括新浪財(cái)經(jīng)、東方財(cái)富網(wǎng)、新浪微博、Twitter 等[3]。在情感分類方法方面,研究者主要采用機(jī)器學(xué)習(xí)方法和語(yǔ)義分析方法對(duì)股票評(píng)論的情感傾向進(jìn)行分類。KEARNEY 等[4]指出兩種方法各有利弊,機(jī)器學(xué)習(xí)方法的一般分類準(zhǔn)確率較高,但依賴于熟悉金融股票市場(chǎng)的人員進(jìn)行手工分類,構(gòu)造訓(xùn)練集;語(yǔ)義分析方法(特別是基于詞典的方法),在經(jīng)濟(jì)金融分析中更加簡(jiǎn)單易用,但普通詞典難以適用于金融語(yǔ)境,關(guān)鍵在于金融專用詞集的構(gòu)建。
近年來(lái),人們發(fā)現(xiàn)影響股票市場(chǎng)波動(dòng)的因素眾多。GILBERT 等[5]從LiveJournal 中提取大眾焦慮指標(biāo),根據(jù)指標(biāo)變化情況進(jìn)行預(yù)測(cè),發(fā)現(xiàn)大眾情緒在一定程度上對(duì)股票市場(chǎng)有一定波動(dòng)影響;董理等[6]發(fā)現(xiàn)大眾評(píng)論信息對(duì)股票指數(shù)波動(dòng)有一定影響;RAHMAN 等[7]使用3 種不同文本表示方法,抽取其中有價(jià)值的詞條,利用支持向量機(jī)(SVM)訓(xùn)練器進(jìn)行分析,發(fā)現(xiàn)將文字字段和股票價(jià)格一起訓(xùn)練可以獲得較好表現(xiàn);NIKFARJAM 等[8]采用SVM 分類器對(duì)比新聞文本和股票價(jià)格兩種方法預(yù)測(cè)股票的準(zhǔn)確性,最終發(fā)現(xiàn)將新聞文本與股票價(jià)格兩種方法相結(jié)合更能提高股票預(yù)測(cè)效果;宋敏晶[9]采用文本分類技術(shù)提取股票評(píng)論數(shù)據(jù)的情感值,驗(yàn)證了股票評(píng)論與股票市場(chǎng)存在一定聯(lián)系。
本文針對(duì)股吧數(shù)據(jù)建立投資者情感指數(shù)并融合LSTM深度學(xué)習(xí)模型,基于股價(jià)歷史,結(jié)合技術(shù)分析指標(biāo),預(yù)測(cè)未來(lái)股價(jià)走勢(shì)。
本文需要構(gòu)建投資者情感指數(shù),用于股價(jià)預(yù)測(cè)。在東方財(cái)富網(wǎng)站中存在“熱帖”板塊,即關(guān)注度較高,閱讀、回復(fù)均較多的帖子,因此本文選取這部分獲取數(shù)據(jù)。
雖然使用“熱帖”大大減少了無(wú)關(guān)信息的干擾,但為了研究結(jié)果的正確性,仍需進(jìn)一步剔除無(wú)關(guān)信息。需要處理的噪聲主要包含以下方面:重復(fù)帖子、廣告帖、無(wú)關(guān)意義的水帖;媒體或投資者轉(zhuǎn)載的新聞、公告等。
通過(guò)爬蟲(chóng)取得所需的帖子文本信息后,需要對(duì)帖子進(jìn)行情緒賦值以便進(jìn)行進(jìn)一步分析。本研究使用的ROST EA 軟件包包含了基礎(chǔ)詞庫(kù)和金融領(lǐng)域?qū)S迷~庫(kù),但是股吧帖子大多數(shù)集中于股票評(píng)論,而且網(wǎng)絡(luò)流行用語(yǔ)較多,還需要構(gòu)建自定義的股吧專用詞庫(kù)來(lái)提升分詞的準(zhǔn)確率,并且為之后的文本情緒賦值做準(zhǔn)備。構(gòu)建的詞匯庫(kù)既包含股票專用術(shù)語(yǔ),也包括了網(wǎng)絡(luò)用語(yǔ)的習(xí)慣表達(dá)。ROST EA 情緒分析軟件相較而言操作簡(jiǎn)便直觀,且詞庫(kù)較新,對(duì)于網(wǎng)絡(luò)用語(yǔ)的識(shí)別和賦值更有優(yōu)勢(shì)。ROST EA 的文本情緒賦值過(guò)程為將每一句文本信息視為一個(gè)樣本,分別計(jì)算每一句話的情感值。將所有句子的情感值之和作為整篇文本的情緒值。根據(jù)整篇文檔的情緒值與臨界值的關(guān)系,可將情感傾向分為積極、中性與消極。
先根據(jù)帖子的情感值,將其劃分為積極情感帖、中性情感帖、消極情感帖。情感值設(shè)定上下臨界值,小于下臨界值的為消極情感貼,在上下臨界值之間的為中性情感貼,大于上臨界值的為積極情感貼。使積極情感帖的情緒值為1,中性情感帖的情緒值為0,消極情感帖的情緒值為-1。計(jì)算出的情緒極性,可以從一定程度上反映當(dāng)天股吧中的大部分用戶的看漲看跌傾向。
LSTM(Long short-Term Memory)全稱為長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò),是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),也即在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,在隱層的各神經(jīng)單元上加入記憶單元,使時(shí)間序列上的記憶信息可以控制,使其更適用于處理和預(yù)測(cè)時(shí)間序列問(wèn)題。LSTM 神經(jīng)網(wǎng)絡(luò)通過(guò)控制門(mén)(輸入門(mén)it、遺忘門(mén)ft、輸出門(mén)ot)調(diào)節(jié)之前信息與當(dāng)前信息的記憶和遺忘程度,將短期記憶與長(zhǎng)期記憶結(jié)合起來(lái),使循環(huán)神經(jīng)網(wǎng)絡(luò)具備了長(zhǎng)期記憶能力,并且一定程度上解決了梯度消失的問(wèn)題。因此,本文采用LSTM 方法進(jìn)行特征提取和預(yù)測(cè),其工作過(guò)程可以表述如下。
第一,LSTM 中的遺忘門(mén)對(duì)信息進(jìn)行過(guò)濾,忘記無(wú)用信息。
第二,輸入門(mén)根據(jù)輸入信息和記憶信息進(jìn)行狀態(tài)更新。
輸入信息:it=σ(Wixt+Viht-1+bi)。
第三,輸出門(mén)輸出當(dāng)前信息。
以上公式中:σ為sigmoid 激活函數(shù);W和V為權(quán)重矩陣;b為偏置向量;xt為t時(shí)刻的輸入矢量;ht-1為t時(shí)刻前LSTM輸出的矢量,也即短記憶信息;ct為t時(shí)刻下的長(zhǎng)時(shí)記憶信息。
在股票預(yù)測(cè)研究中融入情感分析影響因素以及股票歷史數(shù)據(jù),采用深度學(xué)習(xí)與機(jī)器學(xué)習(xí)相結(jié)合的方法,構(gòu)建LSTM 特征提取訓(xùn)練模型并進(jìn)行股票預(yù)測(cè),提高了股票預(yù)測(cè)準(zhǔn)確率。通過(guò)實(shí)驗(yàn)對(duì)比分析發(fā)現(xiàn),融入情感分析和歷史數(shù)據(jù)特征的股票預(yù)測(cè)模型能夠獲得更好的預(yù)測(cè)效果。下一步工作是繼續(xù)收集影響股票行情波動(dòng)的新聞信息數(shù)據(jù),結(jié)合深度學(xué)習(xí)等方法進(jìn)行特征提取并建立預(yù)測(cè)模型,進(jìn)一步提升模型預(yù)測(cè)效果。