吳 峰,周 軍,謝 聰,姬少培
(1.南寧師范大學(xué)師園學(xué)院,南寧 530226;2.廣西農(nóng)業(yè)職業(yè)技術(shù)大學(xué),南寧 530005;3.中國(guó)電子科技集團(tuán)公司第三十研究所,成都 610041)
金融文本情緒分析是近年來(lái)自然語(yǔ)言處理(Natural language processing,NLP)技術(shù)在金融領(lǐng)域的一個(gè)重要應(yīng)用方向。隨著社交網(wǎng)絡(luò)和電子商務(wù)的快速發(fā)展,在互聯(lián)網(wǎng)上產(chǎn)生了大量具有用戶情感的金融文本數(shù)據(jù),對(duì)這些數(shù)據(jù)的情緒分析具有顯著的應(yīng)用價(jià)值。
傳統(tǒng)的基于詞匯的方法利用情感詞匯和一些語(yǔ)言規(guī)則等現(xiàn)有資源來(lái)識(shí)別文本的情感極性,然而這些方法在很大程度上依賴于情感詞匯的構(gòu)建。由于強(qiáng)大的表達(dá)能力,深度學(xué)習(xí)模型在眾多領(lǐng)域取得了顯著的效果。對(duì)于NLP,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)由于能夠很好地處理變長(zhǎng)序列而被廣泛應(yīng)用,CNN 則在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了優(yōu)異的成績(jī)。在當(dāng)前的研究中,Wang等提出了一種結(jié)合CNN 和RNN 進(jìn)行情感分類的模型,這個(gè)模型利用CNN 捕獲的局部特征,通過(guò)LSTM 或門(mén)控循環(huán)單元(GRU)學(xué)習(xí)長(zhǎng)距離依賴關(guān)系的特征;Tang 等提出了一種對(duì)句子在語(yǔ)義上的內(nèi)在關(guān)系進(jìn)行編碼的模型,該模型利用LSTM 或CNN 得到句子表示,再利用門(mén)控遞歸神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行聚合得到文檔表示。近年來(lái),注意力機(jī)制在情感分類任務(wù)中得到了成功的應(yīng)用。Yan 和Guo提出了一種利用上下文語(yǔ)句和注意機(jī)制進(jìn)行文本分類的方法。Yang 等提出了一種用于文檔情感分類的層次關(guān)注網(wǎng)絡(luò)(HAN)模型,該模型在構(gòu)建文檔表示時(shí)可以選擇性地關(guān)注重要的單個(gè)單詞或句子。
為了增強(qiáng)情感傾向的表達(dá),一些研究將語(yǔ)言資源或一些外部知識(shí)整合到模型中,使網(wǎng)絡(luò)能夠?qū)W習(xí)情感特定的表達(dá)。Tang 等將情感信息編碼到單詞的連續(xù)表示中,以學(xué)習(xí)情感特定詞嵌入(SSWE),這更適合于情感分類任務(wù)。Qian 等為句子級(jí)情感分類提出了語(yǔ)言正則化的LSTM,提出的模型解決了情緒、否定和強(qiáng)度詞的情緒轉(zhuǎn)移問(wèn)題。此外,一些研究還將外部知識(shí)(如情感詞匯)納入深度學(xué)習(xí)模型,用于情感分類。Lei 等提出了一個(gè)基于BERT 的層次序列分類模型,并將其應(yīng)用于微博情感分類。然而這些研究并沒(méi)有充分考慮語(yǔ)境語(yǔ)義與情感傾向之間可能存在的交互作用。
基于此,本文提出了一種基于交互式學(xué)習(xí)與多頭注意力機(jī)制的金融文本情感分類模型(In?teractive learning and multi-head attention mecha?nism, ILMA),旨在利用上下文語(yǔ)義和情感傾向信息之間的交互作用進(jìn)行情感分類。該模型將上下文感知詞及嵌入作為嵌入層,并將其與BiGRU 和多頭注意機(jī)制結(jié)合起來(lái),對(duì)特定上下文進(jìn)行語(yǔ)義建模,利用交互式學(xué)習(xí)機(jī)制學(xué)習(xí)上下文語(yǔ)義與情感傾向信息之間的交互表示。
雙向門(mén)控循環(huán)單元網(wǎng)絡(luò)(BiGRU)是一種雙向的基于門(mén)控的循環(huán)神經(jīng)網(wǎng)絡(luò),由前向GRU 與后向GRU 組合而成。GRU 模型是長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的變體。相較于LSTM,GRU 模型網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單,但效果與LSTM 基本相同,大大減少了網(wǎng)絡(luò)訓(xùn)練所需的時(shí)間。
GRU 網(wǎng)絡(luò)將LSTM 中輸入門(mén)和遺忘門(mén)合并,稱為更新門(mén),這使訓(xùn)練網(wǎng)絡(luò)所需的時(shí)間大大減少。GRU神經(jīng)元結(jié)構(gòu)如圖1所示。
圖1 GRU神經(jīng)元結(jié)構(gòu)圖
在GRU 網(wǎng)絡(luò)中,更新門(mén)控制當(dāng)前時(shí)刻的隱狀態(tài)h中保留多少歷史時(shí)刻的隱狀態(tài)和當(dāng)前時(shí)刻的候選狀態(tài)。重置門(mén)的作用是決定當(dāng)前時(shí)刻的候選狀態(tài)h'與上一時(shí)刻的隱狀態(tài)之間的依賴程度。
x為當(dāng)前時(shí)刻的輸入,h為上一時(shí)刻的隱狀態(tài),h'為當(dāng)前時(shí)刻的候選狀態(tài),h為當(dāng)前時(shí)刻的隱狀態(tài),y為當(dāng)前時(shí)刻輸出。公式(1)和(2)分別為更新門(mén)和重置門(mén)的計(jì)算公式。
在GRU 網(wǎng)絡(luò)中信息只能單向傳遞,但在實(shí)際中每個(gè)輸入數(shù)據(jù)可能與其前后的輸入數(shù)據(jù)都有依賴關(guān)系,使用BiGRU 網(wǎng)絡(luò)通過(guò)兩個(gè)方向的網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),使得模型的效果更好。BiGRU網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 BiGRU 網(wǎng)絡(luò)結(jié)構(gòu)圖
多頭注意力由多個(gè)縮放點(diǎn)積注意力拼接而成,它有三個(gè)輸入矩陣:Query()、Key()和值Value()。在NLP 中,Key 和Value 通常相等,即=。縮放點(diǎn)積注意力的結(jié)構(gòu)如圖3 所示,計(jì)算如下:
圖3 縮放點(diǎn)積注意力結(jié)構(gòu)圖
其中1/ d是比例因子。
圖4顯示了多頭注意力的結(jié)構(gòu),它由個(gè)平行的點(diǎn)積注意層組成。多頭注意力()可以通過(guò)以下公式得到:
圖4 多頭注意力結(jié)構(gòu)圖
本節(jié)將對(duì)提出的基于交互式學(xué)習(xí)與多頭注意力機(jī)制的金融文本情感分類模型(Interactive learning and multi-head attention mechanism,ILMA)從總體框架、模型細(xì)節(jié)兩個(gè)方面進(jìn)行介紹。
ILMA 模型的總體框架如圖5 所示,模型包括4個(gè)層次,依次是嵌入層、BiGRU層、交互式表達(dá)層、輸出層。其中輸入包括文本的上下文語(yǔ)義信息和情感傾向信息;嵌入層將輸入的文本序列轉(zhuǎn)換為單詞嵌入矩陣;BiGRU 層用于對(duì)文本長(zhǎng)序列進(jìn)行語(yǔ)義表示;交互式表達(dá)層用于學(xué)習(xí)上下文語(yǔ)義和情感傾向信息的交互表示;輸出層用于將交互式表達(dá)層獲得的上下文語(yǔ)義表達(dá)特征和情感傾向表達(dá)特征進(jìn)行連接,生成的交互式注意力特征表達(dá)被用于作為Softmax 分類器的輸入進(jìn)行分類。
圖5 ILMA模型總體框架
文本情感傾向信息指的是具有情感傾向的詞或短語(yǔ),本文利用文獻(xiàn)[15]中提出的方法進(jìn)行情感傾向信息提取。該方法分別用、和來(lái)表示情感詞、強(qiáng)調(diào)詞和否定詞的集合,對(duì)于一個(gè)包含個(gè)文本的數(shù)據(jù)集,C表示第個(gè)文本。該方法按順序掃描文本,并根據(jù)第個(gè)單詞ω定義一個(gè)連續(xù)的單詞序列(ω)= ωωω。對(duì)應(yīng)的情感傾向元素e基于下述規(guī)則提取得到:
其中,?表示兩個(gè)集合的笛卡爾積,-和-分別表示集合和的補(bǔ)。算法1 給出了文獻(xiàn)[15]中情感傾向信息提取方法的偽代碼。
算法1:情感傾向信息提取方法偽代碼
因?yàn)榫渥又械膯卧~與上下文有很強(qiáng)的依賴性,所以本文在這一層使用BiGRU。BiGRU 包括一個(gè)從句首讀到句尾的正向GRU 和一個(gè)從相反方向讀的反向GRU。與GRU 相比,BiGRU 可以獲得更豐富的信息。因此,本文利用兩個(gè)Bi?GRU 網(wǎng)絡(luò)分別學(xué)習(xí)上下文的語(yǔ)義信息和情感傾向信息。
模型在時(shí)間步長(zhǎng)處的隱藏狀態(tài)表示為:
圖6 交互式學(xué)習(xí)機(jī)制
在獲得關(guān)于上下文語(yǔ)義和情感傾向信息的交互式注意力表達(dá)后,將這兩個(gè)向量連接為一個(gè)向量,并將其作為softmax 分類器的輸入進(jìn)行分類。
3.1.1 金融文本數(shù)據(jù)
本文在兩個(gè)中文數(shù)據(jù)集和兩個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),具體介紹如下:
(1)Tushare:涵蓋主流新聞網(wǎng)站的中文短新聞數(shù)據(jù),涉及宏觀、市場(chǎng)、國(guó)際、觀點(diǎn)、商品(比如股指期貨)、基金、債券、外匯、黃金等多種新聞?lì)悇e。在實(shí)驗(yàn)中,本文構(gòu)建了一個(gè)包含2600 篇短新聞的數(shù)據(jù)集,并將其隨機(jī)分為80%的訓(xùn)練集和20%的測(cè)試集。
(2)NLPCC-CN:2021年自然語(yǔ)言處理和中文計(jì)算會(huì)議(NLPCC)任務(wù)2的中文語(yǔ)料庫(kù)。
(3)StockTwits:由微博消息構(gòu)成,主要關(guān)注股票市場(chǎng)事件以及投資者和交易者的評(píng)論,其中積極傾向的評(píng)論及消極傾向的評(píng)論各6250條。從中隨機(jī)抽取5000 條數(shù)據(jù)作為訓(xùn)練集,1250條數(shù)據(jù)作為測(cè)試集。
(4)SemEval-2017:包含金融新聞標(biāo)題數(shù)據(jù)及金融微博數(shù)據(jù),本文選取其中的2842 條數(shù)據(jù)作為訓(xùn)練集,1291作為測(cè)試集。
上述四個(gè)數(shù)據(jù)集的詳細(xì)信息見(jiàn)表1。
表1 數(shù)據(jù)集信息
3.1.2 金融文本情感詞典
情感分析方法需要進(jìn)行分詞,需要使用自己的詞典。金融短新聞中有很多詞是通用情感分析領(lǐng)域的情感詞,因此引入通用領(lǐng)域情感詞典。對(duì)于英文數(shù)據(jù),本文利用知網(wǎng)發(fā)布的信息資源提取情感傾向信息;對(duì)于中文數(shù)據(jù),利用來(lái)自蘇建林的資源進(jìn)行情感傾向信息提取。中英文金融文本情感詞典資源詳細(xì)信息見(jiàn)表2。
表2 情感詞典信息
本文使用精度和-1 分?jǐn)?shù)作為評(píng)估指標(biāo)來(lái)評(píng)估分類模型的性能。精度是分類任務(wù)中最常用的評(píng)估指標(biāo)之一,定義如下:
其中,和分別表示分類器預(yù)測(cè)正確和預(yù)測(cè)錯(cuò)誤的樣本數(shù)。
與精度相比,計(jì)算-1分?jǐn)?shù)時(shí)序先分別計(jì)算每個(gè)類別的和。所有和的平均值分別為和。利用和可以計(jì)算得到樣本的-1 得分,具體計(jì)算公式如下:
其中為類別數(shù)。、和依次為第類樣本的真陽(yáng)性、真陰性和假陰性的數(shù)據(jù)。
在實(shí)驗(yàn)中,本文將ILMA 模型與下述基線方法進(jìn)行比較分析。
(1)傳統(tǒng)機(jī)器學(xué)習(xí)算法:包括SVR與RF。SVR 最終找到一個(gè)回歸平面,使一個(gè)集合的所有數(shù)據(jù)到該平面的距離更近,設(shè)置SVR 的懲罰參數(shù)為0.1,epsilon 為0.01。RF 算法使用多個(gè)決策樹(shù)訓(xùn)練和預(yù)測(cè)樣本,設(shè)置決策樹(shù)個(gè)數(shù)esti?mators為20。
(2)GRU:使用一層GRU 網(wǎng)絡(luò)對(duì)輸入序列進(jìn)行建模,使用GRU 網(wǎng)絡(luò)的輸出表示作為soft?max分類器的輸入。
(3)BiGRU:使用一層BiGRU 網(wǎng)絡(luò)對(duì)輸入序列進(jìn)行建模,使用BiGRU 的最終輸出作為softmax分類器的輸入。
(4)ATT-BiGRU:使用Attention 機(jī)制學(xué)習(xí)BiGRU輸出層的特征信息。
(5)H-RNN-CNN:一種用于處理中文文本情緒分類任務(wù)的多層網(wǎng)絡(luò)結(jié)構(gòu),將輸入文本劃分為句子作為中間層的輸入,以解決長(zhǎng)文本可能導(dǎo)致的信息丟失問(wèn)題。該模型利用LSTM 對(duì)上下文序列進(jìn)行處理,利用CNN 捕捉句子之間的關(guān)系。
(6)CRNN:一 個(gè) 結(jié) 合 了CNN 和RNN(LSTM 和GRU)的架構(gòu),它利用CNN 生成的粗粒度局部特征和通過(guò)RNN 為短文本學(xué)習(xí)長(zhǎng)距離依賴關(guān)系。
(7)fastText:利用文本字符級(jí)n-gram 特征和層級(jí)softmax分類器進(jìn)行分類。
(8)BiLSTM-EMB-ATT:BiLSTM 學(xué)習(xí)輸入句子的語(yǔ)義信息,其與詞向量自注意力為并行結(jié)構(gòu)。
(9)ILMA-W2V:使用預(yù)訓(xùn)練的Word2Vec作為詞嵌入而不是利用BERT進(jìn)行提取。本實(shí)驗(yàn)的目的是證明BERT在IDAN中的優(yōu)勢(shì)。
(10)ILMA-GloVe:使用預(yù)訓(xùn)練的GloVe 作為詞嵌入,而不是利用BERT進(jìn)行提取。
(11)ILMA-NSTI:僅使用原始文本進(jìn)行情感分類,不考慮情感傾向信息(即在IDAN 中僅使用上下文部分)。
(12)ILMA-NIL:在IDAN 中沒(méi)有交互學(xué)習(xí),無(wú)需多頭注意力,這意味著上下文語(yǔ)義和情感傾向信息在連接前彼此不相關(guān)。
在實(shí)驗(yàn)中,ILMA 模型利用BERT 預(yù)訓(xùn)練模型獲得上下文和情感傾向信息的詞嵌入表示。Bi?GRU層的神經(jīng)元數(shù)設(shè)置為256個(gè),所有的權(quán)值和偏差矩陣都用Xavier方法進(jìn)行初始化,學(xué)習(xí)速率為10,批量大小設(shè)置為128。每個(gè)數(shù)據(jù)集重復(fù)實(shí)驗(yàn)10 次,將10 次實(shí)驗(yàn)的平均結(jié)果作為最終實(shí)驗(yàn)結(jié)果。下文將從多頭注意力超參數(shù)選擇、消融實(shí)驗(yàn)、與其他深度學(xué)習(xí)算法的對(duì)比分析、與經(jīng)典機(jī)器學(xué)習(xí)算法的對(duì)比等方面進(jìn)行實(shí)驗(yàn)對(duì)比分析。
3.4.1 多頭注意力超參數(shù)選擇
為了充分驗(yàn)證多頭注意力參數(shù)對(duì)結(jié)果的影響,分別在ILMA-NIL 模型及ILMA 模型上進(jìn)行測(cè)試。在NLPCC-CN 數(shù)據(jù)集上,分析多頭注意力的超參數(shù)與d對(duì)實(shí)驗(yàn)結(jié)果的影響。在本文的金融文本情感分析任務(wù)中,輸入詞向量的維度為300,由于d的取值一般為2 的整數(shù)次冪,設(shè)置=512,為8、16、32 三個(gè)值時(shí)的實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 h取值對(duì)分類結(jié)果的影響
從表3可以看出,多頭注意力超參數(shù)值的選擇對(duì)ILMA 模型的分類性能是有一定影響的,當(dāng)=16、d=32 時(shí),兩種模型的性能均為最優(yōu),驗(yàn)證了多頭注意力的優(yōu)點(diǎn)。證明通過(guò)提高多頭自注意力h的取值,序列內(nèi)部計(jì)算多次注意力可以使模型關(guān)注來(lái)自不同方面的序列信息,從而提升了模型的性能。在=16的前提下,分析d分別取值8、16、32時(shí)對(duì)模型性能的影響,結(jié)果見(jiàn)表4。
表4 dk取值對(duì)分類結(jié)果的影響
從表4 可以看出,具有多頭注意力的ILMA模型明顯優(yōu)于無(wú)多頭注意力的ILMA-NIL 模型,當(dāng)h 值固定為16,d=8 時(shí)的模型性能明顯劣于d=16、32 時(shí)的模型,這是由于當(dāng)d取值較小時(shí),容易造成文本特征信息丟失,使得模型的擬合能力下降。經(jīng)過(guò)實(shí)驗(yàn)測(cè)試可以得出超參數(shù)值和d的最優(yōu)設(shè)置分別為16、32。
3.4.2 ILMA與ILMA-W2V、ILMA-Glove、ILMA-NSTI、ILMA-NIL的對(duì)比分析
通過(guò)進(jìn)行消融實(shí)驗(yàn),將ILMA 模型與ILMAW2V、ILMA-Glove、ILMA-NSTI、ILMA-NIL 模型進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 五種模型實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
從表5 可以看出,在ILMA-W2V、ILMAGloVe 中,BERT 詞 嵌 入 被Word2Vec、ILMAGloVe 所取代,這使得模型的性能相對(duì)于ILMA有所降低;在ILMA-NSTI、ILMA-NIL 中,由于僅使用原始文本進(jìn)行情感分類,或未利用多頭注意力機(jī)制進(jìn)行交互學(xué)習(xí),均使模型在四個(gè)金融數(shù)據(jù)集上進(jìn)行文本情感分類時(shí)的性能降低;本文提出的ILMA 模型由于將交互式學(xué)習(xí)與多頭注意力機(jī)制結(jié)合起來(lái),使得模型可以更加充分地提取金融文本序列中的情感表達(dá)信息,使得模型相對(duì)于其他四種模型具有更好的分類效果;ILMAW2V、 ILMA-GloVe、 ILMA-NSTI、 ILMA-NIL
四種模型的性能相當(dāng),然而與完整模型的性能相比,仍有相大的差距。結(jié)果表明,將BERT技術(shù)與基于多頭注意力機(jī)制的交互式學(xué)習(xí)結(jié)合起來(lái)確實(shí)有助于提高金融文本情感分類的效果。
3.4.3 與傳統(tǒng)機(jī)器學(xué)習(xí)算法的對(duì)比分析
將ILMA 模型與SVR、RF 兩個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)模型進(jìn)行了對(duì)比分析,實(shí)驗(yàn)結(jié)果見(jiàn)表6。ILMA 模型在四個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均優(yōu)于SVR 與RF,驗(yàn)證了ILMA 模型的有效性和泛化能力。ILMA 模型展現(xiàn)了其良好的分類性能,在文本情感分類中具有較大優(yōu)勢(shì)。
表6 ILMA與傳統(tǒng)機(jī)器學(xué)習(xí)算法的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
3.4.4 與其他深度學(xué)習(xí)模型的對(duì)比分析
將ILMA 模型與GRU、BiGRU、ATT-BiGRU、BiLSTM-EMB-ATT、H-RNN-CNN、CRNN、fast?Text 等深度學(xué)習(xí)模型進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果見(jiàn)表7。
表7 ILMA與其他深度學(xué)習(xí)模型的實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)
從表7 可以看出,與GRU 相比,BiGRU 在四個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別提高了1.5%、0.31%、1.07%和0.97%,這是因?yàn)锽iGRU 可以從兩個(gè)方面捕獲上下文信息;由于注意力機(jī)制可以為每個(gè)詞分配不同的注意力權(quán)重,可以看出ATT-BiGRU 在所有數(shù)據(jù)集上的性能都比Bi?GRU 高。此外,雖然H-RNN-CNN 使用兩層GRU 進(jìn)行語(yǔ)義建模,并使用CNN 捕獲跨句的語(yǔ)義信息,但在SemEval-2017 數(shù)據(jù)集上的準(zhǔn)確率高于ATT-BiLSTM,而在Tushare 和NLPCC-CN數(shù)據(jù)集上的準(zhǔn)確率卻低于ATT-BiLSTM;與HRNN-CNN 相比,CRNN 的性能提高了1%左右,這是因?yàn)镃RNN 不僅利用多個(gè)不同大小的CNN來(lái)提取序列的局部特征,還可以利用GRU 來(lái)捕捉序列的長(zhǎng)期依賴性;fastText 作為一種簡(jiǎn)單的方法,取得了與CRNN 相當(dāng)?shù)慕Y(jié)果,在Tushare和StockTwits 數(shù)據(jù)集上的精度分別比CRNN 高出0.95%和0.91%;BiLSTM-EMB-ATT 模型融入了文本情感詞典資源,在SemEval-2017 數(shù)據(jù)集上獲得了良好的性能,其準(zhǔn)確率比f(wàn)astText 高約2%,比CRNN 低約0.4%,這是因?yàn)锽iLSTMEMB-ATT 沒(méi)有充分利用文本情感詞典資源;本文的ILMA 模型在所有數(shù)據(jù)集上的表現(xiàn)均最好,與最佳基線模型相比,該方法在Tushare、NLPCC-CN、StockTwits 和SemEval-2017 數(shù)據(jù)集上的擬合率分別提高了1.26%、2.09%、3.64%和2.78%,證明了該方法的有效性。
本文提出了一種基于交互式學(xué)習(xí)與多頭注意力機(jī)制的金融文本情感分類模型(ILMA),利用上下文語(yǔ)義和情感傾向信息之間的交互作用進(jìn)行金融文本情感分類。該模型首先通過(guò)提取文本情感傾向信息,利用BERT生成上下文語(yǔ)義及文本傾向信息的詞嵌入表示;然后使用Bi?GRU 網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)上下文語(yǔ)義和情感傾向信息的依賴性;最后利用多頭注意力實(shí)現(xiàn)上下文語(yǔ)義和情感傾向信息的交互式表達(dá)。在四個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明ILMA 模型相對(duì)于基線方法是有效的,采用BERT嵌入和通過(guò)提取交互式表征的情感傾向信息可以使得文本情感上的分類性能得以顯著提高。
在未來(lái)的研究中,通過(guò)進(jìn)一步改進(jìn)情感傾向信息提取方法,加入全局注意力機(jī)制進(jìn)行上下文語(yǔ)義和情感傾向信息表達(dá)的重要信息提取,可以進(jìn)一步提高情感分類性能,使模型更具鑒別性和魯棒性。