廣東外語外貿大學 劉昕玥
?
國外金融文本情感的分析研究述評與展望
廣東外語外貿大學劉昕玥
摘 要:國外金融文本情感分析歷經數十年的發(fā)展,在金融文本情感分析的信息來源和模型建立等方面有了較多的學術積累,為行為金融學研究提供了有價值的研究思路和方法。但隨著全球經濟的快速發(fā)展,相關研究也要適應各種變化,本文在句法和語義的考慮等方面展開了更為深入的研究。
關鍵詞:金融文本情感分析特征項機器學習
金融市場上傳統(tǒng)的信息來源主要有歷史股價、財務報表等。Web2.0時代的到來使網絡用戶同時充當著信息的發(fā)布者。行為金融學認為,金融市場參與者的心理狀態(tài)會影響其自身和其他參與者的行為。因而對每個參與者來說,各種用戶生成的內容構成了大數據時代的信息來源,這些海量信息需要通過情感分析技術進行處理。該技術將信息進行歸類,進而用于研究市場或投資者的反映。
金融文本情感分析在國外研究時間較長,方法較為成熟,成果頗為豐富。本文對這些研究進行梳理,并提出未來研究的展望。
金融文本依據其來源主要分為三大類:公司的公開披露、媒體的相關報道和社交網絡的公眾輿論。
公開披露文件的語言風格蘊含管理者對公司目前業(yè)績和未來發(fā)展的態(tài)度,因而成為財務報表的重要補充。Hagenau等(2013)從DGAP網站上選取了超過50個詞的公司披露,內容包括財務報告、對外合作等。Loughran和McDonald(2013)、McKay Price等(2012)分別對美國S-1表、季度收益電話會議進行情感分析。
媒體報道文章包括新聞報道和專業(yè)分析報告,可用于市場、行業(yè)或公司分析。Smales(2014)利用對道瓊斯有線新聞和華爾街日報上新聞文章的情感分析,研究波動性指數。Khadjeh等(2015)僅采用文章標題作為待分析文本。Twedt和Rees(2012)對美國1404家公司的財務分析報告進行文本情感分析。
Web2.0時代,社會化媒體成為人們的溝通平臺。它也為行為經濟學者的研究提供了素材。Bollen等(2011)對推特進行文本分析,得到公眾情感測度。Yu等(2013)分別針對谷歌博客以及推特文本信息進行情感分析,并分析了媒體間的相互影響。
文本表示最常用的方法是空間向量模型(VSM),該模型的核心是特征項的選取、降維和表示。
從文本中抽取能夠代表其情感傾向的部分,即特征選取。最常用的是詞袋模型。依據詞性的提取包括名詞(Schumaker等,2012)、形容詞(Fortuny等,2014)和動詞(Li和Huang等,2014)。還有在此基礎上形成的n-grams方法(Groth等,2014)。
特征項的降維用于保持算法的有效性。比較常用的方法有限定最低詞頻以及詞典或本體的運用。由于前者理解的片面性,詞典的運用較為普遍。一般的詞典有WordNet和GI等,金融領域的詞典包括L&M(2011)和Henry(2008)。
將特征項轉化為數值的過程稱為特征表示。最基本的方法是二進制(Schumaker,2012)。普遍使用的方法有IG、CHI和TF-IDF。目前使用最廣泛的是TF-IDF(Hagenau等,2013),它考慮到了文本長度對于詞頻的影響。
3.1機器學習算法
機器學習是專門研究計算機如何模擬和實現人類的學習行為。它分為算法設計和分類效果評價兩個方面。
目前使用最多的算法——支持向量機(SVM)是典型的兩類分類器。Khadjeh等(2015)將其應用于STLP預測模型中。在其基礎上擴展出的支持向量回歸(SVR)模型還能夠給出具體輸出值。Li和Huang等(2014)分別以新聞情感和股價作為兩個子核,進而構成混合核函數加入SVR模型。其他一些常用的算法包括決策樹和樸素貝葉斯。Khadjeh等(2015)分別用支持向量機、K近鄰和樸素貝葉斯算法進行相同實驗并進行了比較。
機器學習算法的評價機制,也就是度量模型好壞的標準。常用的標準包括F1和準確率。Fortuny等(2014)還引入AUC值,其越大,表示分類器性能越好。
3.2回歸模型
3.2.1線性回歸
研究文本信息與金融指標時間序列之間關系的最常用方法是線性回歸模型?;诓煌难芯磕康?,被解釋變量的選取也不盡相同,包括股指變動(Bollen等,2011),IPO首日收益率(L&M,2013)等。
Fama和French 于1993年提出了三因子模型(FF3)來解釋股票回報率,成為金融學資產定價的經典模型。它認為影響股票定價的三個因素分別為市場風險因子、公司規(guī)模因子和公司價值(賬面市值比)因子。Carhart(1995)在其基礎上加入動量因素MOM,擴展成四因素模型,成為Smales(2014)研究中的回歸模型。
3.2.2向量自回歸
VAR模型多用于變量間存在自相關或交叉相關的情形。其回歸方程為:
其中,Zt是所有內生變量組成的行向量,包括(1)式中的金融指標Y和情感維度S,X同樣為控制變量。Hautsch(2011)構造6維VAR模型研究新聞情感與股市的關聯。
3.2.3邏輯回歸
Logistic或probit回歸要求被解釋變量是二值變量(取值為0或1),用最大似然函數來估計,常用于檢驗文本情感是否能夠預測或識別特定事件的發(fā)生?;貧w形式為:
Loughran和McDonald(2013)分別加入行業(yè)和年份虛擬變量進行邏輯回歸,檢驗S-1表不同維度的情感詞詞頻與IPO被撤回幾率的關系。Hautsch(2011)建立了probit模型對市場指標是否為0進行估計。
總體來看,國外現有文獻將文本信息作為量化信息的補充,在市場預測等方面進行了探究。這些文獻在理論上拓寬了金融學的研究視野,對投資者和監(jiān)管機構也有實踐意義。筆者認為未來的相關領域研究,將會從以下幾方面進一步加以完善。
第一,句法和語義的考慮。現有文獻在進行特征提取時過于注重詞語頻次,忽略了詞語間的關聯和句子結構。未來的研究亟須融入句法分析,從而更準確地把握文本情感。
第二,特定領域詞表或本體的構建。目前,金融領域的兩個詞典L&M和Henry已經得到廣泛應用,并被證明比一般的心理學詞典分類效果好。因此,計算語言學需要進一步探究如何構建含有多維度情感度量的金融領域詞表。
第三,研究市場的不斷擴展。目前,大部分研究集中于股市,相同的研究方法還可以擴展到債券市場和貨幣市場。另外,除了發(fā)達國家之外,新興市場也很值得探究。
第四,與行為科學的結合。大部分研究表明金融市場是弱式有效的。然而,涉及行為經濟的研究止步于基于社交網絡的文本情感對股市是有影響的,因此需要更深層次地研究探討兩者的關系。
參考文獻
[1] Arman Khadjeh Nassirtoussi,et al. Text minng for market prediction:A systematic review[J].Expert Systems with Applications,2014(41).
[2] Lee A. Smales.News sentiment and the investor fear gauge[J].Finance Research Letters,2014(11).
中圖分類號:F830.91
文獻標識碼:A
文章編號:2096-0298(2016)05(a)-072-02
作者簡介:劉昕玥(1992-),女,湖北襄陽人,在讀研究生,主要從事行為金融方面的研究。