• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于NLP和深度森林的金融輿情抓取與分析

      2020-08-17 19:19:33王子敏周杰梁佳雯何加豪
      電子商務(wù) 2020年8期
      關(guān)鍵詞:自然語言處理

      王子敏 周杰 梁佳雯 何加豪

      摘要:采用自然語言處理技術(shù)對(duì)爬取的文本數(shù)據(jù)進(jìn)行分詞、去停用詞處理,利用TextRank、TF-IDF算法提取關(guān)鍵字,構(gòu)建適用于單篇文章的詞重要性指數(shù)模型,從中提取重要變量建立適用于滬深300指數(shù)的投資者情緒預(yù)測模型,借助深度森林算法預(yù)測交易信號(hào)構(gòu)建交易策略。結(jié)果表明,在樣本期基于自然語言處理與深度森林算法對(duì)股票交易信號(hào)的預(yù)測準(zhǔn)確率達(dá)72.23%,且收益也超過傳統(tǒng)策略收益,具備重要的投資指導(dǎo)意義。

      關(guān)鍵詞:自然語言處理;深度森林;投資者情緒指標(biāo);量化交易策略

      ★基金項(xiàng)目:江蘇省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃國家級(jí)立項(xiàng)——“基于NPL的A股市場輿情監(jiān)控及其量化投資策略研究”(項(xiàng)目編號(hào):SZDG2019039)成果之一。

      引言

      自然語言處理技術(shù)作為人工智能領(lǐng)域的重要分支,始終被放在科研領(lǐng)域的最前沿。如今,隨著新型算法的誕生以及新思想、新技術(shù)的提出,人類在自然語言處理領(lǐng)域已經(jīng)實(shí)現(xiàn)了重大突破。尤其在英文方面,科研人員已經(jīng)建立了一套相當(dāng)完備的研究方法。英語文本由于其書寫格式的獨(dú)特性,對(duì)自然語言處理解決了分詞處理上的困難。正因此,自然語言處理也被國外投資公司、交易人員大量的運(yùn)用到量化交易中,并取得了不錯(cuò)的效果。本文緊跟金融前沿領(lǐng)域的研究熱點(diǎn),通過對(duì)中文文本的深度挖掘,并結(jié)合機(jī)器學(xué)習(xí)技術(shù),探索自然語言處理技術(shù)在國內(nèi)股票市場的實(shí)用性與可行性。

      1、文獻(xiàn)綜述

      對(duì)于投資者情緒的度量主要受限于數(shù)據(jù)的獲取以及情緒指標(biāo)的載體上,眾多研究人員多用經(jīng)濟(jì)指標(biāo)作為投資者情緒的代理指標(biāo)。例如,彭益(2012)[1]采用概率統(tǒng)計(jì)的方法對(duì)指數(shù)漲跌的概率進(jìn)行預(yù)測,Backer & Wurgler(2001)[2]選取了封閉式基金的折價(jià)率作為度量投資者情緒的指標(biāo),而鹿坪和冷軍(2017)[3]則選取了消費(fèi)者信心指數(shù)作為度量投資者情緒的指標(biāo)。

      在直接挖取投資者情緒指數(shù)方面,Danbolt(2015)[4]利用從Twitter上獲取的海量投資者評(píng)論信息,從中直接提取情緒指標(biāo)。石善沖等(2018)[5]提出了針對(duì)用戶素質(zhì)較高的微信平臺(tái)的投資者情緒構(gòu)建方法,但由于微信平臺(tái)屬于社交平臺(tái),在金融領(lǐng)域的專業(yè)度不夠高,因此所獲取的數(shù)據(jù)針對(duì)性有所減弱。孟雪井等(2016)[6]則通過篩選詞匯出現(xiàn)的頻率高低作為研究投資者情緒的特征,這也在一定程度上忽略了詞匯的頻繁出現(xiàn)會(huì)導(dǎo)致其代表性的泛化,最終會(huì)影響到模型精確度。

      基于前人的研究基礎(chǔ)和存在的問題,在數(shù)據(jù)來源方面,精選了“同花順”平臺(tái)的分析師評(píng)論,并結(jié)合詞語的逆文檔頻率對(duì)重要詞匯進(jìn)行二次篩選,以期獲得更具代表性的特征,最后使用機(jī)器學(xué)習(xí)算法,構(gòu)建情緒指標(biāo)。

      2、數(shù)據(jù)獲取

      本研究爬取了2016年6月14日至2019年6月14日的11105篇金融研究評(píng)論,并在此數(shù)據(jù)的基礎(chǔ)上通過TextRank、TF-IDF算法選取重要詞匯共計(jì)124個(gè)建立金融語料庫,并以這些詞匯作為后續(xù)特征工程的輸入變量。此外,本研究還爬取了百度指數(shù),共計(jì)10萬條左右。針對(duì)滬深300指數(shù)數(shù)據(jù),本研究從wind中獲取了2016年6月14日至2019年6月14日共計(jì)731個(gè)交易日的日內(nèi)交易數(shù)據(jù)。

      3、情緒指標(biāo)建立

      3.1 算法原理介紹

      (1)TextRank算法

      (2)TF-IDF算法過濾關(guān)鍵詞

      利用TF-IDF算法,將TextRank算法得到的793個(gè)詞匯在進(jìn)行一次重要性排序,提取出重要性更高的詞匯,其中關(guān)鍵詞過濾算法如下:

      (3)投資者情緒指標(biāo)建立

      ① 特征選擇:

      在進(jìn)行數(shù)據(jù)預(yù)處理是,通常需要對(duì)已有特征做進(jìn)一步的篩選以獲得更加適合機(jī)器學(xué)習(xí)算法的特征。經(jīng)過篩選后發(fā)現(xiàn),隨著詞匯的推移,詞匯的方差越來越小,最終趨向于0,因而這些詞匯的發(fā)散性不強(qiáng),對(duì)于目標(biāo)的預(yù)測不具有很好的解釋性,為了避免因特征選擇過多而造成的過度擬合,我們選取“半導(dǎo)體”前22個(gè)詞匯作為特征。

      ② 文本特征量化處理:

      本文通過特征是否發(fā)散的標(biāo)準(zhǔn)已經(jīng)篩選出了更為合適的22個(gè)詞匯,并以此作為特征。之后,我們利用百度指數(shù)作為詞匯量化的標(biāo)準(zhǔn)。此處我們選用百度指數(shù)的環(huán)比增長率作為百度指數(shù)的衡量指標(biāo)

      ③ 建立指標(biāo)模型:

      將2016年6月14日至2018年6月14日的數(shù)據(jù)作為訓(xùn)練集,將2018年6月14日至2019年6月14日的數(shù)據(jù)作為測試集。訓(xùn)練集數(shù)據(jù)主要用于對(duì)機(jī)器學(xué)習(xí)模型參數(shù)的尋優(yōu)工作,而本文使用的深度森林算法則是通過建立深度隨機(jī)樹模型,采取多次迭代尋優(yōu)的方式尋找出特征最適合的權(quán)重。測試集數(shù)據(jù)主要用于對(duì)模型的檢驗(yàn),通過對(duì)預(yù)測精確度、召回率等指標(biāo)的比較,判定模型是否具有使用價(jià)值。

      4、模型對(duì)比

      4.1 模型多角度對(duì)比

      (1)模型策略與自然增長率的比較

      觀察圖2,當(dāng)執(zhí)行買入并持有策略時(shí),最終的收益率11.35%;而當(dāng)執(zhí)行模型發(fā)出的信號(hào)進(jìn)行交易時(shí),最終受益是29.84%。

      (2)模型策略與移動(dòng)雙均線比較

      觀察圖2,移動(dòng)雙均線獲得了17.01%的收益率且最大回撤為-12.39%。移動(dòng)雙均線的回報(bào)率和最大回撤的表現(xiàn)比自然收益率的表現(xiàn)更加優(yōu)越,這可能取決于移動(dòng)雙均線模型對(duì)于上漲和下跌的趨勢把握的較好。但相較于本文建立的模型來說,移動(dòng)雙均線的表現(xiàn)在多指標(biāo)上都要劣與本文建立的投資者情感指標(biāo)模型,因而,本文建立的模型相較于傳統(tǒng)技術(shù)指標(biāo)具有較好表現(xiàn)。

      結(jié)論

      本文通過將建立的基于投資者情緒交易策略與買入并持有一年策略、傳統(tǒng)技術(shù)指標(biāo)策略進(jìn)行對(duì)比后發(fā)現(xiàn),基于投資者情緒的交易策略最終獲得了29.84%的收益,明顯高于買入并持有策略的11.35%和雙均線策略的17.01%。與此同時(shí),在深度森林算法的基礎(chǔ)上對(duì)股市未來走勢加以預(yù)測,精確度為72.23%。相比前人,精確度更高,更具有使用價(jià)值。

      參考文獻(xiàn)

      [1] 彭益. 基于數(shù)據(jù)挖掘的股票指數(shù)漲跌概率推斷[J]. 統(tǒng)計(jì)與決策, 2012(16): 159-161.

      [2] Loewenstein G F, Weber E U, Hsee C K,et al. Risk as feelings[J]. Psychological Bulletin, 2001,127(2): 267

      [3] 鹿坪,冷軍. 投資者情緒與盈利管理——基于應(yīng)計(jì)盈余管理與真實(shí)盈余管理的實(shí)證研究[J]. 管理科學(xué)學(xué)報(bào),2017(2): 88-96

      [4] Danbolt J, Siganos A, Vagenas-Nanos E. Investor sentiment and bidder announcement abnormal returns[J]. Journal of Corporate Finance,2015,33(3): 164-179.

      [5] 石善沖, 朱穎楠, 趙志剛. 基于微信文本挖掘的投資者情緒與股票市場表現(xiàn)[J]. 系統(tǒng)工程理論與實(shí)踐, 2018, 38(6): 1404-1412.

      [6] 孟雪井,楊亞飛,趙新泉.財(cái)經(jīng)新聞與股市投資策略研究——基于財(cái)經(jīng)網(wǎng)站的文本挖掘[J].投資研究,2016, 35(8): 29-37.

      [7] Barrios F , López, Federico, et al. Variations of the Similarity Function of TextRank for Automated Summarization[J]. 2016.

      [8] Cong Y , Chan Y B , Ragan M A . A novel alignment-free method for detection of lateral genetic transfer based on TF-IDF[J]. Scientific Reports, 2016, 6: 30308.

      [9] Zhou Z H , Feng J. Deep Forest: Towards An Alternative to Deep Neural Networks[J]. 2017.

      [10] 命士汶,朱學(xué)鋒,耿立波.自然語言處理技術(shù)與語言深度計(jì)算[J].中國社會(huì)科學(xué),2015(3): 127-135.

      [11] 黃潤鵬, 左文明, 畢凌燕. 基于微博情緒信息的股票市場預(yù)測[J].管理工程學(xué)報(bào), 2015, 29(1): 47-52.

      作者簡介:

      王子敏,博士,南京郵電大學(xué)副教授,碩士生導(dǎo)師,研究方向?yàn)樾畔a(chǎn)業(yè)經(jīng)濟(jì)與管理;

      周杰,梁佳雯,何加豪,南京郵電大學(xué)。

      猜你喜歡
      自然語言處理
      基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
      自然語言處理與司法案例
      魅力中國(2017年24期)2017-09-15 04:35:10
      國外基于知識(shí)庫的問答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
      中國市場(2016年39期)2017-05-26 17:55:58
      基于依存句法的實(shí)體關(guān)系抽取
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      詞向量的語義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      阳高县| 万荣县| 万宁市| 修武县| 玛纳斯县| 虞城县| 松潘县| 闽侯县| 洪泽县| 高要市| 鹿泉市| 枞阳县| 清丰县| 喀什市| 靖宇县| 东乌珠穆沁旗| 岐山县| 常山县| 德令哈市| 宁河县| 广平县| 凤山市| 隆昌县| 巴彦淖尔市| 紫阳县| 布拖县| 砚山县| 德惠市| 监利县| 宝兴县| 长阳| 句容市| 弥渡县| 卫辉市| 成安县| 玉环县| 扬州市| 哈巴河县| 扎兰屯市| 嵩明县| 营口市|