廖倚雪 胡雨新 葉慕戎
摘 要:在當(dāng)今的大數(shù)據(jù)時(shí)代下,股市的相關(guān)信息急速增長(zhǎng),對(duì)股票市場(chǎng)的運(yùn)行產(chǎn)生了深刻影響。為從海量的股市要聞與股民的選擇傾向中,本文使用爬蟲(chóng)技術(shù)收集股民的評(píng)論與反饋,并通過(guò)Bert模型進(jìn)行預(yù)處理,再建立LDA—LSTM模型,提取出市場(chǎng)情緒并對(duì)觀點(diǎn)進(jìn)行簡(jiǎn)明扼要地總結(jié),提高金融工作者的工作效率,幫助股民更精準(zhǔn)地了解市場(chǎng),輔助對(duì)市場(chǎng)輿論的引導(dǎo),成為如今研究熱點(diǎn)之一。
關(guān)鍵詞:輿情分析;股市預(yù)測(cè);神經(jīng)網(wǎng)絡(luò);LDA
1引言
在社交網(wǎng)絡(luò)的崛起與發(fā)展中,社會(huì)的輿情網(wǎng)絡(luò)起到了非常重要的作用,對(duì)于輿情的把控和分析,一直都是國(guó)家長(zhǎng)期以來(lái)密切關(guān)注的問(wèn)題,準(zhǔn)確應(yīng)對(duì)和積極引導(dǎo)輿情發(fā)展十分重要,關(guān)于輿論處理的方案也不斷得到發(fā)展和完善。因此,理解社交媒體、網(wǎng)絡(luò)輿情動(dòng)態(tài)等信息對(duì)投資者行為的影響機(jī)制頗為重要。
股票市場(chǎng)的大數(shù)據(jù)分析,需要使用計(jì)算機(jī)技術(shù)抽取海量輿情觀點(diǎn),對(duì)文本進(jìn)行挖掘爬取處理,將特征進(jìn)行整合,可以分析出股票市場(chǎng)發(fā)展動(dòng)態(tài)的優(yōu)劣,為投資者提供一些建議和方法。面向股票市場(chǎng)。隨著文本情感分析的高速發(fā)展,簡(jiǎn)單文本極性判斷,已經(jīng)不能滿足人類(lèi)對(duì)于互聯(lián)網(wǎng)飛速發(fā)展的需求,跨學(xué)科、跨平臺(tái)的研究,將文本分析技術(shù)廣泛運(yùn)用在不同的領(lǐng)域。將引導(dǎo)機(jī)制、營(yíng)銷(xiāo)理論以及多元盈利模式融合,提高了模型的性能。提出了學(xué)習(xí)算法架構(gòu),將合適的模型嵌入算法架構(gòu)中,以提高模型的語(yǔ)義分析能力。隨著數(shù)據(jù)挖掘的深入,面向股票市場(chǎng)領(lǐng)域的細(xì)粒度情感分析技術(shù)被得以運(yùn)用,突破了隱式情感難提取、文本不規(guī)范等問(wèn)題。學(xué)者們運(yùn)用實(shí)踐企圖證實(shí)輿論與股票市場(chǎng)的相關(guān)性以及試圖運(yùn)用輿論預(yù)測(cè)市場(chǎng)的走向。較早時(shí)期,有學(xué)者利用微博進(jìn)行輿論分析,隨后,學(xué)者以華爾街為例,證明股市收益與輿情熱度存在正相關(guān)性[1]。有學(xué)者以上證50成分股為例,證明傳統(tǒng)金融理論已無(wú)法滿足投資者的需求,如今研究股票市場(chǎng)應(yīng)當(dāng)基于投資者情緒以及輿論[2]。
2文獻(xiàn)綜述
2.1 LDA
2003年,狄利克雷分布主題模型(Latent Dirichlet Allocation,LDA)由David Blei, Andrew Ng和 Michael I. Jordan提出,由于模型的簡(jiǎn)單和快捷,如今被廣泛的使用。最早,有學(xué)者提出在新聞文檔中進(jìn)行了LDA建模之后,加入貝葉斯方法,即建模后確定符合該新聞文檔的最優(yōu)主題個(gè)數(shù),提升了LDA模型擬合文檔的性能[3]。張志飛針對(duì)短文本的特征稀疏性和上下文依賴性兩個(gè)問(wèn)題,提出了K近鄰方法和LDA相結(jié)合的新方法,優(yōu)于傳統(tǒng)性能2.5%到5%[4]。隨后王春龍,張敬旭.將K-means算法與LDA模型相結(jié)合,使得迭代次數(shù)明顯減少,聚類(lèi)結(jié)果更準(zhǔn)確[5]。隨著LDA性能的提高,有學(xué)者將他運(yùn)用于輿論分析。阮光冊(cè)針對(duì)用戶評(píng)論內(nèi)容短、信息量少的特征,利用LDA模型從冗雜的用戶評(píng)論高效分析出有價(jià)值的信息[6]。對(duì)于LDA模型,采用無(wú)監(jiān)督學(xué)習(xí)算法,無(wú)需手工標(biāo)注的訓(xùn)練集,僅僅利用文檔集合以及一定的數(shù)可以將每篇文檔的主題按照某種概率分布的形式顯示出來(lái)。對(duì)于文本的處理以及數(shù)據(jù)的挖掘,LDA模型起到了顯著的作用,是一個(gè)十分常用的辦法,可以有效的從文本中提取所需的重要信息。對(duì)于文本中隱含情緒的提取以及建模,LDA模型克服了傳統(tǒng)文本相似度的比較方法中的缺點(diǎn),大大提升了提取分析的效率。
2.2 LSTM
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),它是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種。LSTM由于其設(shè)計(jì)的特點(diǎn),非常適合用于文本數(shù)據(jù)的處理。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中普遍存在著一個(gè)缺陷,即無(wú)法將先前的信息連接到當(dāng)前的任務(wù),因此一直以來(lái)學(xué)者們都致力于解決該問(wèn)題提出了種種方案,其中RNN試圖通過(guò)循環(huán)來(lái)讓信息連續(xù)傳遞,然而遺憾的是,隨著句子距離的增加,RNN將難以連接相關(guān)信息,也就是俗稱的遠(yuǎn)程依賴問(wèn)題;因此,Hochreiter & Schmidhuber教授在1997年發(fā)明了長(zhǎng)短時(shí)記憶網(wǎng)(簡(jiǎn)寫(xiě)為L(zhǎng)STM),該網(wǎng)的設(shè)計(jì)本意正是希望克服遠(yuǎn)距離依賴問(wèn)題,也在各種任務(wù)中取得了優(yōu)異表現(xiàn),此后學(xué)者們更是開(kāi)發(fā)出了LSTM的各種變體,如Bi-LSTM,GRU等等,不斷推陳出新的模型與水漲船高的任務(wù)要求,為研究者的模型選擇也提出了挑戰(zhàn)。在2017年,國(guó)內(nèi)學(xué)者就開(kāi)始將長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)運(yùn)用到中文文本的情感分類(lèi)中[7],由于中文具有一詞多義,語(yǔ)法晦澀特殊,表達(dá)方式也有直接性和隱喻性等多種神經(jīng)網(wǎng)絡(luò)難以分析的特點(diǎn),突破了傳統(tǒng)深度學(xué)習(xí)情感分類(lèi)中只采用詞特征的局限性。隨著LSTM的發(fā)展,在電子商務(wù)、信息管理、財(cái)務(wù)新聞、股票輿情分析等領(lǐng)域,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)被不斷的運(yùn)用在其中。在股票市場(chǎng)中,市場(chǎng)的波動(dòng)性大,導(dǎo)致投資者難以把控相關(guān)信息,所以股票的預(yù)測(cè)一直是人們爭(zhēng)先研究的對(duì)象,最開(kāi)始通過(guò)尋找線性規(guī)律得出結(jié)論。為了提高股票預(yù)測(cè)的精度,有學(xué)者提出一種基于PCA和LASSO的LSTM神經(jīng)網(wǎng)絡(luò)股票價(jià)格預(yù)測(cè)模型,使用LSTM模型進(jìn)行平安銀行股票收盤(pán)價(jià)的預(yù)測(cè),提高了預(yù)測(cè)的精度。[8]在達(dá)到更好效果以后,有學(xué)者通過(guò)引入卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶模型來(lái)挖掘股評(píng)情感傾向,提出一種深度融合股市財(cái)務(wù)數(shù)據(jù)特征和新聞情感特征的股票預(yù)測(cè)模型。[9]近年來(lái), LSTM受到了很多科學(xué)家的青睞,其在輿情分析任務(wù)中的應(yīng)用均取得了較好的效果,并在多個(gè)領(lǐng)域成為不可替代的一部分。
2.3 BERT
自2018年底google的AI團(tuán)隊(duì)發(fā)表論文《Pre-training of Deep Bidirectional Transformers for Language Understanding》、開(kāi)源全部代碼及Tensorflow實(shí)現(xiàn)、Google團(tuán)隊(duì)發(fā)表的論文中提出了BERT預(yù)訓(xùn)練網(wǎng)絡(luò)的概念,在11種自然語(yǔ)言處理任務(wù)上獲得了最新成果,被認(rèn)為是NLP業(yè)內(nèi)的里程碑(Jacob Devlin,2018)[10]
對(duì)比以往模型,BERT模型因其獨(dú)特的Masked語(yǔ)言模型和Next Sentence Prediction機(jī)制,解決了傳統(tǒng)word2vec模型無(wú)法解決的多義詞表達(dá)問(wèn)題,真正意義上的捕捉到了雙向的詞語(yǔ)、句子級(jí)別語(yǔ)義信息,理解了詞句中的潛在含義及關(guān)系;同時(shí),已在大規(guī)模數(shù)據(jù)集上經(jīng)過(guò)預(yù)訓(xùn)練的模型完全開(kāi)源,這也使得Bert模型的調(diào)用相當(dāng)便捷,節(jié)省了研究者大量的時(shí)間、精力與資源。
通過(guò)調(diào)用Google發(fā)布的預(yù)訓(xùn)練模型chinese_L-12_H-768_A-12,根據(jù)下游任務(wù)對(duì)模型進(jìn)行微調(diào),額外添加輸出層,得到句子中每個(gè)字的向量表示,獲取字向量編碼作為底層特征。經(jīng)過(guò)BERT模型訓(xùn)練出的字向量可以更加準(zhǔn)確地表示出詞語(yǔ)間的語(yǔ)義關(guān)系,方便后續(xù)神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,提高神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性。關(guān)于正式訓(xùn)練模型,團(tuán)隊(duì)采用了BiGRU-CRF結(jié)構(gòu),GRU是一種特殊循環(huán)神經(jīng)網(wǎng)絡(luò),它將遺忘門(mén)和輸入門(mén)合成為一個(gè)單一的更新門(mén),同時(shí)混合單元狀態(tài)和隱藏狀態(tài),有效解決了長(zhǎng)程依賴問(wèn)題,緩解了梯度彌散。
3模型
3.1基于LDA的文本特征構(gòu)建
對(duì)于分類(lèi)和數(shù)據(jù)降維,應(yīng)用線性判別分析是最經(jīng)典常見(jiàn)的線性學(xué)習(xí)方法。與PCA這種無(wú)監(jiān)督的數(shù)據(jù)降維方法不同,LDA是一種有監(jiān)督的數(shù)據(jù)降維方法,通過(guò)充分利用訓(xùn)練樣本上的類(lèi)別標(biāo)簽信息對(duì)樣本數(shù)據(jù)進(jìn)行降維,不僅像PCA一樣達(dá)到了保留盡可能多的數(shù)據(jù)樣本信息的效果,還解決了PCA中有時(shí)無(wú)法尋找到最佳投影方向的問(wèn)題,使得投影后同類(lèi)樣本盡量近,不同類(lèi)樣本盡量遠(yuǎn)。
利用LDA主題模型挖掘股票文本的隱形含義,分析主題的特征關(guān)聯(lián)關(guān)系。特征關(guān)聯(lián)關(guān)系包含有情緒指數(shù)(EX)和情緒分歧度(DX)。投資者的情緒指數(shù)(EX),被定義在[0,1]之間的浮點(diǎn)數(shù),這個(gè)數(shù)越接近1,代表該文本表達(dá)的積極情緒越強(qiáng),反之,則代表該文本表達(dá)的消極情緒越強(qiáng)。得到分?jǐn)?shù)之后,可以將之量化。求某一日情緒得分大于0.5的評(píng)論所占的比例可得。而投資者的情緒分歧度(DX)也可能對(duì)股票價(jià)格和收益率產(chǎn)生影響,分歧度越大說(shuō)明投資者的意見(jiàn)差異較大,兩級(jí)分化嚴(yán)重,因此情緒分歧度可作為判斷金融風(fēng)險(xiǎn)特征關(guān)聯(lián)水平的參考條件。情緒分歧度可以通過(guò)將模型輸出的數(shù)據(jù)可視化來(lái)體現(xiàn)。得到主題的關(guān)聯(lián)關(guān)系可以進(jìn)行下一步的模型預(yù)測(cè)。
3.2基于LSTM的輿情走勢(shì)預(yù)測(cè)
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,在自然語(yǔ)言處理中廣泛應(yīng)用于實(shí)體抽取,情感分析等方向。LSTM模型由遺忘門(mén)、輸入門(mén)、輸出門(mén)這三部分組成,引入了細(xì)胞狀態(tài)的概念。LSTM增加了對(duì)過(guò)去狀態(tài)的過(guò)濾,減少了影響的狀態(tài),從而可以選擇哪些狀態(tài)對(duì)當(dāng)前更有影響,而不是簡(jiǎn)單的選擇最近的狀態(tài)。相比RNN只有一個(gè)傳遞狀態(tài)ht,LSTM有兩個(gè)傳輸狀態(tài),一個(gè)ct(cell state),和一個(gè) ht(hidden state)
關(guān)于LSTM的計(jì)算公式如下:
其中,W為權(quán)重矩陣,σ為激活函數(shù),b為偏置項(xiàng)。it,ft,ot和ct分別表示輸入門(mén)、遺忘門(mén)、輸出門(mén)和單元激活向量,ht表示單元輸出激活函數(shù)。
通過(guò)LSTM模型可以更好的捕捉股票市場(chǎng)文本之間的依賴關(guān)系,LSTM可以通過(guò)訓(xùn)練過(guò)程中學(xué)到記憶哪些信息和遺忘哪些信息?;谠贚DA主題模型中得到的關(guān)聯(lián)關(guān)系,再結(jié)合股票的發(fā)布時(shí)間、漲跌情況、股民評(píng)價(jià)、公司經(jīng)營(yíng)狀況等軌跡,預(yù)測(cè)它們未來(lái)的發(fā)展熱度,使用神經(jīng)循環(huán)網(wǎng)絡(luò),能夠更好的擬合波動(dòng)趨勢(shì),誤差較小,預(yù)測(cè)精度較高,能在一定程度上為投資者提供有效的建議。
4結(jié)論
隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展,社交平臺(tái)的迅速崛起,呈現(xiàn)出井噴式的增長(zhǎng),信息發(fā)布與傳播速度較快,導(dǎo)致輿情質(zhì)量參差不齊,社會(huì)投資者難以辨別有效信息。社會(huì)平臺(tái)以其低成本、開(kāi)放、便捷、交互等優(yōu)勢(shì)為公眾的訴求提供了重要的渠道,但由于不同投資者獲取信息的渠道、面對(duì)社會(huì)話題時(shí)的偏好、立場(chǎng)、影響力存在諸多差異,以及在解讀信息過(guò)程中的認(rèn)知偏差,傳播言論的方向、廣度等均會(huì)影響其在股票市場(chǎng)中的決策行為,進(jìn)而對(duì)股票收益率和流動(dòng)性產(chǎn)生影響。因此本文基于前人基礎(chǔ),對(duì)股票的相關(guān)輿論信息進(jìn)行數(shù)據(jù)挖掘、基于LDA構(gòu)建文本特征、基于LSTM預(yù)測(cè)輿情走勢(shì),相信在股票投資領(lǐng)域?qū)l(fā)揮重要作用。
參考文獻(xiàn):
[1] 王超. 輿情熱度對(duì)股市收益的影響[D].浙江大學(xué),2020.
[2] 劉逍然. 基于網(wǎng)絡(luò)輿情的投資者情緒與股票市場(chǎng)的實(shí)證研究[D].南京郵電大學(xué),2020.
[3] 趙愛(ài)華,劉培玉,鄭燕.基于LDA的新聞話題子話題劃分方法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(04):732-737.
[4] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2013,33(06):1587-1590.
[5] 王春龍,張敬旭.基于LDA的改進(jìn)K-means算法在文本聚類(lèi)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2014,34(01):249-254.
[6] 阮光冊(cè).基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J].情報(bào)雜志,2014,33(03):161-164.
[7] 吳俊江,基于深度學(xué)習(xí)的中文文本情感分類(lèi)及其在輿情分析中的應(yīng)用研究,湘潭大學(xué),2017
[8] 胡聿文.基于優(yōu)化LSTM模型的股票預(yù)測(cè)[J].計(jì)算機(jī)科學(xué),2021,48(S1):151-157.
[9] 徐月梅,王子厚,吳子歆.一種基于CNN-BiLSTM多特征融合的股票走勢(shì)預(yù)測(cè)模型[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(07):126-137.
[10] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, arXiv:1810.04805 [cs.CL]
本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(S202111047110X)基金支持
作者簡(jiǎn)介:
廖倚雪,女,漢,2001年11月生,四川省成都人,本科在讀,上海立信會(huì)計(jì)金融學(xué)院統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,應(yīng)用統(tǒng)計(jì)專(zhuān)業(yè),研究方向:自然語(yǔ)言處理。