王子敏 周杰 梁佳雯 何加豪
摘要:采用自然語言處理技術(shù)對(duì)爬取的文本數(shù)據(jù)進(jìn)行分詞、去停用詞處理,利用TextRank、TF-IDF算法提取關(guān)鍵字,構(gòu)建適用于單篇文章的詞重要性指數(shù)模型,從中提取重要變量建立適用于滬深300指數(shù)的投資者情緒預(yù)測模型,借助深度森林算法預(yù)測交易信號(hào)構(gòu)建交易策略。結(jié)果表明,在樣本期基于自然語言處理與深度森林算法對(duì)股票交易信號(hào)的預(yù)測準(zhǔn)確率達(dá)72.23%,且收益也超過傳統(tǒng)策略收益,具備重要的投資指導(dǎo)意義。
關(guān)鍵詞:自然語言處理;深度森林;投資者情緒指標(biāo);量化交易策略
★基金項(xiàng)目:江蘇省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃國家級(jí)立項(xiàng)——“基于NPL的A股市場輿情監(jiān)控及其量化投資策略研究”(項(xiàng)目編號(hào):SZDG2019039)成果之一。
引言
自然語言處理技術(shù)作為人工智能領(lǐng)域的重要分支,始終被放在科研領(lǐng)域的最前沿。如今,隨著新型算法的誕生以及新思想、新技術(shù)的提出,人類在自然語言處理領(lǐng)域已經(jīng)實(shí)現(xiàn)了重大突破。尤其在英文方面,科研人員已經(jīng)建立了一套相當(dāng)完備的研究方法。英語文本由于其書寫格式的獨(dú)特性,對(duì)自然語言處理解決了分詞處理上的困難。正因此,自然語言處理也被國外投資公司、交易人員大量的運(yùn)用到量化交易中,并取得了不錯(cuò)的效果。本文緊跟金融前沿領(lǐng)域的研究熱點(diǎn),通過對(duì)中文文本的深度挖掘,并結(jié)合機(jī)器學(xué)習(xí)技術(shù),探索自然語言處理技術(shù)在國內(nèi)股票市場的實(shí)用性與可行性。
1、文獻(xiàn)綜述
對(duì)于投資者情緒的度量主要受限于數(shù)據(jù)的獲取以及情緒指標(biāo)的載體上,眾多研究人員多用經(jīng)濟(jì)指標(biāo)作為投資者情緒的代理指標(biāo)。例如,彭益(2012)[1]采用概率統(tǒng)計(jì)的方法對(duì)指數(shù)漲跌的概率進(jìn)行預(yù)測,Backer & Wurgler(2001)[2]選取了封閉式基金的折價(jià)率作為度量投資者情緒的指標(biāo),而鹿坪和冷軍(2017)[3]則選取了消費(fèi)者信心指數(shù)作為度量投資者情緒的指標(biāo)。
在直接挖取投資者情緒指數(shù)方面,Danbolt(2015)[4]利用從Twitter上獲取的海量投資者評(píng)論信息,從中直接提取情緒指標(biāo)。石善沖等(2018)[5]提出了針對(duì)用戶素質(zhì)較高的微信平臺(tái)的投資者情緒構(gòu)建方法,但由于微信平臺(tái)屬于社交平臺(tái),在金融領(lǐng)域的專業(yè)度不夠高,因此所獲取的數(shù)據(jù)針對(duì)性有所減弱。孟雪井等(2016)[6]則通過篩選詞匯出現(xiàn)的頻率高低作為研究投資者情緒的特征,這也在一定程度上忽略了詞匯的頻繁出現(xiàn)會(huì)導(dǎo)致其代表性的泛化,最終會(huì)影響到模型精確度。
基于前人的研究基礎(chǔ)和存在的問題,在數(shù)據(jù)來源方面,精選了“同花順”平臺(tái)的分析師評(píng)論,并結(jié)合詞語的逆文檔頻率對(duì)重要詞匯進(jìn)行二次篩選,以期獲得更具代表性的特征,最后使用機(jī)器學(xué)習(xí)算法,構(gòu)建情緒指標(biāo)。
2、數(shù)據(jù)獲取
本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究評(píng)論,并在此數(shù)據(jù)的基礎(chǔ)上通過TextRank、TF-IDF算法選取重要詞匯共計(jì)124個(gè)建立金融語料庫,并以這些詞匯作為后續(xù)特征工程的輸入變量。此外,本研究還爬取了百度指數(shù),共計(jì)10萬條左右。針對(duì)滬深300指數(shù)數(shù)據(jù),本研究從wind中獲取了2016年6月14日至2019年6月14日共計(jì)731個(gè)交易日的日內(nèi)交易數(shù)據(jù)。
3、情緒指標(biāo)建立
3.1 算法原理介紹
(1)TextRank算法
(2)TF-IDF算法過濾關(guān)鍵詞
利用TF-IDF算法,將TextRank算法得到的793個(gè)詞匯在進(jìn)行一次重要性排序,提取出重要性更高的詞匯,其中關(guān)鍵詞過濾算法如下:
(3)投資者情緒指標(biāo)建立
① 特征選擇:
在進(jìn)行數(shù)據(jù)預(yù)處理是,通常需要對(duì)已有特征做進(jìn)一步的篩選以獲得更加適合機(jī)器學(xué)習(xí)算法的特征。經(jīng)過篩選后發(fā)現(xiàn),隨著詞匯的推移,詞匯的方差越來越小,最終趨向于0,因而這些詞匯的發(fā)散性不強(qiáng),對(duì)于目標(biāo)的預(yù)測不具有很好的解釋性,為了避免因特征選擇過多而造成的過度擬合,我們選取“半導(dǎo)體”前22個(gè)詞匯作為特征。
② 文本特征量化處理:
本文通過特征是否發(fā)散的標(biāo)準(zhǔn)已經(jīng)篩選出了更為合適的22個(gè)詞匯,并以此作為特征。之后,我們利用百度指數(shù)作為詞匯量化的標(biāo)準(zhǔn)。此處我們選用百度指數(shù)的環(huán)比增長率作為百度指數(shù)的衡量指標(biāo)
③ 建立指標(biāo)模型:
將2016年6月14日至2018年6月14日的數(shù)據(jù)作為訓(xùn)練集,將2018年6月14日至2019年6月14日的數(shù)據(jù)作為測試集。訓(xùn)練集數(shù)據(jù)主要用于對(duì)機(jī)器學(xué)習(xí)模型參數(shù)的尋優(yōu)工作,而本文使用的深度森林算法則是通過建立深度隨機(jī)樹模型,采取多次迭代尋優(yōu)的方式尋找出特征最適合的權(quán)重。測試集數(shù)據(jù)主要用于對(duì)模型的檢驗(yàn),通過對(duì)預(yù)測精確度、召回率等指標(biāo)的比較,判定模型是否具有使用價(jià)值。
4、模型對(duì)比
4.1 模型多角度對(duì)比
(1)模型策略與自然增長率的比較
觀察圖2,當(dāng)執(zhí)行買入并持有策略時(shí),最終的收益率11.35%;而當(dāng)執(zhí)行模型發(fā)出的信號(hào)進(jìn)行交易時(shí),最終受益是29.84%。
(2)模型策略與移動(dòng)雙均線比較
觀察圖2,移動(dòng)雙均線獲得了17.01%的收益率且最大回撤為-12.39%。移動(dòng)雙均線的回報(bào)率和最大回撤的表現(xiàn)比自然收益率的表現(xiàn)更加優(yōu)越,這可能取決于移動(dòng)雙均線模型對(duì)于上漲和下跌的趨勢把握的較好。但相較于本文建立的模型來說,移動(dòng)雙均線的表現(xiàn)在多指標(biāo)上都要劣與本文建立的投資者情感指標(biāo)模型,因而,本文建立的模型相較于傳統(tǒng)技術(shù)指標(biāo)具有較好表現(xiàn)。
結(jié)論
本文通過將建立的基于投資者情緒交易策略與買入并持有一年策略、傳統(tǒng)技術(shù)指標(biāo)策略進(jìn)行對(duì)比后發(fā)現(xiàn),基于投資者情緒的交易策略最終獲得了29.84%的收益,明顯高于買入并持有策略的11.35%和雙均線策略的17.01%。與此同時(shí),在深度森林算法的基礎(chǔ)上對(duì)股市未來走勢加以預(yù)測,精確度為72.23%。相比前人,精確度更高,更具有使用價(jià)值。
參考文獻(xiàn)
[1] 彭益. 基于數(shù)據(jù)挖掘的股票指數(shù)漲跌概率推斷[J]. 統(tǒng)計(jì)與決策, 2012(16): 159-161.
[2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267
[3] 鹿坪,冷軍. 投資者情緒與盈利管理——基于應(yīng)計(jì)盈余管理與真實(shí)盈余管理的實(shí)證研究[J]. 管理科學(xué)學(xué)報(bào),2017(2): 88-96
[4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.
[5] 石善沖, 朱穎楠, 趙志剛. 基于微信文本挖掘的投資者情緒與股票市場表現(xiàn)[J]. 系統(tǒng)工程理論與實(shí)踐, 2018, 38(6): 1404-1412.
[6] 孟雪井,楊亞飛,趙新泉.財(cái)經(jīng)新聞與股市投資策略研究——基于財(cái)經(jīng)網(wǎng)站的文本挖掘[J].投資研究,2016, 35(8): 29-37.
[7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.
[8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.
[9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.
[10] 命士汶,朱學(xué)鋒,耿立波.自然語言處理技術(shù)與語言深度計(jì)算[J].中國社會(huì)科學(xué),2015(3): 127-135.
[11] 黃潤鵬, 左文明, 畢凌燕. 基于微博情緒信息的股票市場預(yù)測[J].管理工程學(xué)報(bào), 2015, 29(1): 47-52.
作者簡介:
王子敏,博士,南京郵電大學(xué)副教授,碩士生導(dǎo)師,研究方向?yàn)樾畔a(chǎn)業(yè)經(jīng)濟(jì)與管理;
周杰,梁佳雯,何加豪,南京郵電大學(xué)。