柴變芳,楊蕾,王建嶺,李仁玲
(1. 河北地質(zhì)大學(xué) 信息工程學(xué)院,河北 石家莊 050031;2. 河北中醫(yī)學(xué)院 圖書館,河北 石家莊 050200)
隨著社交媒體的快速發(fā)展,微博、微信等網(wǎng)絡(luò)平臺(tái)逐漸進(jìn)入公眾的生活且?guī)砹藰O大的便利.人們足不出戶就能知道社會(huì)熱點(diǎn)問題及現(xiàn)象,因此越來越多的人不只是瀏覽信息,而是經(jīng)常發(fā)表自己的情感態(tài)度及觀點(diǎn)看法.通過對(duì)這些信息進(jìn)行情感分析,可以幫助國(guó)家政府部門正確引導(dǎo)社會(huì)輿論方向.目前,情感分析技術(shù)已經(jīng)廣泛應(yīng)用在輿情監(jiān)控、商業(yè)決策、信息預(yù)測(cè)等領(lǐng)域[1].
自從Nasukawa等[2]在2003年提出情感分析概念以來,便受到了越來越多研究者的關(guān)注.當(dāng)前主要的研究方法有3類:1)基于詞典和規(guī)則的方法[3-4].該類方法根據(jù)經(jīng)驗(yàn)提取文本中的情感詞,然后按照特定的規(guī)則對(duì)文本進(jìn)行打分,最后根據(jù)分值判斷文本的情感極性.2)基于經(jīng)典機(jī)器學(xué)習(xí)的方法[5-6].此類方法通過特征工程獲得每個(gè)訓(xùn)練文檔的特征,然后基于訓(xùn)練集學(xué)習(xí)情感分類模型,新文檔利用該模型實(shí)現(xiàn)情感預(yù)測(cè).3)基于深度學(xué)習(xí)的方法[7-11].該類方法不需要特征工程,以情感分類任務(wù)為目標(biāo)利用深度學(xué)習(xí)模型自動(dòng)提取特征,進(jìn)而訓(xùn)練情感分類神經(jīng)網(wǎng)絡(luò)模型.
近年來,一些研究者大量使用基于詞典和規(guī)則的方法進(jìn)行情感分類.文獻(xiàn)[3]提出了一種利用單詞的統(tǒng)計(jì)特征創(chuàng)建文本分類中特征空間的表達(dá)方法.文獻(xiàn)[4]在已有的情感詞典基礎(chǔ)上,通過LDA模型從語料中提取主題詞來擴(kuò)展特定領(lǐng)域詞典,并在多個(gè)領(lǐng)域數(shù)據(jù)集上進(jìn)行應(yīng)用且取得不錯(cuò)效果.該類方法適用的語料范圍較廣,但靈活度不高,分類結(jié)果過于依賴情感詞典.隨著機(jī)器學(xué)習(xí)的發(fā)展,基于經(jīng)典機(jī)器學(xué)習(xí)方法在文本情感分析任務(wù)中得到了廣泛的應(yīng)用.文獻(xiàn)[5]提出了一種基于表情符號(hào)的文本自動(dòng)標(biāo)注方法.首先從文本中篩選出情感傾向明顯的表情符號(hào)作為訓(xùn)練集,然后用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,最后在人工標(biāo)注的測(cè)試集中驗(yàn)證并取得了較高的準(zhǔn)確率.文獻(xiàn)[6]使用集成機(jī)器學(xué)習(xí)技術(shù)來提高所提出方法的效率和可靠性,同時(shí)將支持向量機(jī)與決策樹合并,在準(zhǔn)確性方面提供了更好的分類結(jié)果.此類方法雖然提高了分類準(zhǔn)確率,但泛化能力較差,需要大量數(shù)據(jù)且難以充分挖掘文本中詞語更深層次的語義信息.
近來,深度學(xué)習(xí)在情感分析任務(wù)中也取得了一些成果.Le等[7]提出了一種具有不同尺寸卷積核和多類型池化的CNN用于文本分類.陳珂等[8]提出了一種多通道卷積神經(jīng)網(wǎng)絡(luò),通過將詞向量特征、情感詞特征和位置特征進(jìn)行組合形成不同通道,再使用CNN進(jìn)行分類,最終獲得了比普通卷積神經(jīng)網(wǎng)絡(luò)更好的性能.文獻(xiàn)[7]和[8]使用卷積神經(jīng)網(wǎng)絡(luò)模型,利用詞向量、詞語位置信息等來獲取詞語間深層次的情感信息,但對(duì)于較長(zhǎng)的文本,該方法不能記憶長(zhǎng)距離的全局情感信息,只能提取文本的局部特征,導(dǎo)致分類準(zhǔn)確率不高.Irsoy等[9]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)為情感分類構(gòu)建了深度學(xué)習(xí)模型.李洋等[10]提出了一種CNN和BiLSTM特征融合模型,有效提高了文本分類準(zhǔn)確率.文獻(xiàn)[9]和[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型及其各種變體,充分考慮了文本序列的前后依賴關(guān)系,但該模型認(rèn)為文本中各部分信息對(duì)分類結(jié)果的影響相同,忽略了情感詞語相比于普通詞語對(duì)情感傾向影響更大.Araque等[11]提出了一種結(jié)合詞語淺層特征和深層特征的模型,充分利用詞語的多方面情感信息進(jìn)行分類并取得了很好的效果.該文獻(xiàn)將深度學(xué)習(xí)自動(dòng)提取的特征和傳統(tǒng)方法手動(dòng)提取的特征相結(jié)合,既充分考慮詞語間深層次信息,又通過傳統(tǒng)方法提取更準(zhǔn)確的情感信息.
由于集成分類器在提高效率和準(zhǔn)確率方面具有明顯的優(yōu)勢(shì),一些研究者也將其應(yīng)用在情感分析任務(wù)中.蘇兵杰等[12]采用XGBoost算法對(duì)網(wǎng)絡(luò)上的商品評(píng)論進(jìn)行情感分析,通過對(duì)數(shù)據(jù)集中的訓(xùn)練集提取特征,利用XGBoost算法訓(xùn)練分類器獲得情感分類模型.龔維印等[13]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類模型CNNs-XGB.首先利用word2vec對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行詞向量表示,其次利用多尺寸卷積核的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)特征提取,最后利用XGBoost對(duì)深度提取的特征進(jìn)行分類處理.
為了全面考慮文本中詞語表達(dá)的情感信息及各部分情感信息的重要程度,提出一種集成多卷積核的卷積神經(jīng)網(wǎng)絡(luò)和注意力雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型(MCNN_Att-BiLSTM)的情感分類方法,提高分類準(zhǔn)確率.利用注意力機(jī)制為BiLSTM獲取的全局特征分配1個(gè)權(quán)重向量,充分考慮各部分特征對(duì)分類結(jié)果的影響大??;利用多種不同大小的卷積核,獲取詞語間更全面的局部信息;然后融合這2部分特征,利用集成分類器XGBoost進(jìn)行情感分類,提高分類的準(zhǔn)確率和效率.
提出一個(gè)利用深度特征實(shí)現(xiàn)文本情感分類的模型MCNN_Att-BiLSTM.針對(duì)融合CNN和BiLSTM特征的情感分類方法沒有充分考慮詞語間情感信息的問題,利用多卷積核的卷積神經(jīng)網(wǎng)絡(luò)(MCNN)模型實(shí)現(xiàn)局部特征的提取,在CNN中使用多種大小的卷積核,以詞為單位,將提取的不同詞語間特征進(jìn)行拼接,從而獲得更準(zhǔn)確的情感信息.針對(duì)CNN_BiLSTM模型未考慮提取的上下文特征對(duì)情感分類結(jié)果的影響程度問題,利用Att-BiLSTM實(shí)現(xiàn)全局關(guān)鍵特征提取,在BiLSTM基礎(chǔ)之上增加注意力層,為隱層輸出特征賦予1個(gè)權(quán)重,可獲得不同特征對(duì)情感分類影響程度的量化值.為了進(jìn)一步提高情感分類的準(zhǔn)確率,融合基于MCNN和Att-BiLSTM特征,輸入集成分類器XGBoost實(shí)現(xiàn)文本情感分類.基于MCNN_Att-BiLSTM模型的情感分類模型訓(xùn)練流程如圖1所示.首先對(duì)文本進(jìn)行數(shù)據(jù)處理,將文本中的每個(gè)詞語利用嵌入技術(shù)進(jìn)行向量表示,然后利用MCNN和Att-BiLSTM模型學(xué)習(xí)文本特征,最后送入集成分類器XGBoost訓(xùn)練分類模型.新來一個(gè)待預(yù)測(cè)文本,利用此流程可得其情感分類結(jié)果.
圖1 MCNN_Att-BiLSTM模型流程Fig.1 MCNN_Att-BiLSTM model flow chart
情感分類模型的輸入為大量的積極和消極評(píng)論的文本數(shù)據(jù).首先對(duì)讀取的每個(gè)文本進(jìn)行分詞處理(英文數(shù)據(jù)通過空格進(jìn)行分詞,中文數(shù)據(jù)使用jieba庫進(jìn)行分詞),將每個(gè)文本數(shù)據(jù)轉(zhuǎn)換為詞語的集合.為了提高效率,需要去除其中的停用詞,即一些沒有特定含義的詞語,如英文中的“the”,“is”,“a”等,中文中的“一些”、“一個(gè)”等.
文本分詞完成后,根據(jù)詞語在文本數(shù)據(jù)中出現(xiàn)的頻率的大小生成文本詞典.然后將每個(gè)文本中的詞語和詞典中的詞序號(hào)一一對(duì)應(yīng)形成一種映射關(guān)系,使每個(gè)文本由詞語的集合轉(zhuǎn)換為每個(gè)詞語在詞典中位置序號(hào)的集合.最后將所有文本打亂順序,按照8∶2的比例劃分訓(xùn)練集和測(cè)試集.
在文本情感分析任務(wù)中,計(jì)算機(jī)不能識(shí)別英文單詞或中文詞語,因此需要將數(shù)據(jù)通過編碼向量化.最簡(jiǎn)單的一種編碼方式為one-hot編碼[14],為每個(gè)文本定義一個(gè)由0和1組成的一維向量,長(zhǎng)度為文本詞典中詞語的數(shù)量,每維表示對(duì)應(yīng)詞語是否在文本中出現(xiàn),出現(xiàn)為1,否則為0.雖然one-hot編碼可以將詞語轉(zhuǎn)化為向量,但是形成的向量非常稀疏且維度巨大,不能保留文本的語義關(guān)系,使得分類效果并不準(zhǔn)確.
為了將詞語轉(zhuǎn)化為向量且保留文本語義關(guān)系,本文選擇Tensorflow框架中的嵌入方式.首先初始化一個(gè)符合均勻分布的-1到1的向量矩陣,行數(shù)為文本詞典中詞語的數(shù)量,列的數(shù)量為詞語編碼的維度數(shù)量;然后根據(jù)數(shù)據(jù)處理后的位置序號(hào)集合在初始化的向量矩陣中查找每個(gè)詞語序號(hào)對(duì)應(yīng)的向量,使每個(gè)文本由詞序號(hào)集合轉(zhuǎn)化為由詞向量構(gòu)成的向量矩陣.最后將所有的向量矩陣根據(jù)batch_size劃分批次,分批輸入2類神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練.
多卷積核的卷積神經(jīng)網(wǎng)絡(luò)在處理文本時(shí)的模型如圖2所示.該模型包括輸入層、多核卷積層、池化層及全連接層4部分.
1) 輸入層.文本矩陣Sj={V(W(1)),…,V(W(m))}.其中V(W(i))∈RK代表矩陣Sj中第i個(gè)K維詞向量,Sj∈Rm×K,m代表文本矩陣Sj中的詞語數(shù)量.
2) 卷積層.利用多種大小為r×K的卷積核提取文本矩陣Sj的局部特征,具體公式如下:
ci=f(F·V(W(i∶i+r-1))+b),
(1)
其中,ci為文本矩陣卷積后的第i個(gè)局部特征;F為r×K的卷積核,b為偏置向量;f為激活函數(shù);V(W(i∶i+r-1))代表Sj中從i到i+r-1共r行向量.在文本矩陣Sj中,卷積核以步長(zhǎng)1從上到下滑動(dòng),最終得到局部特征向量集合C如下:
C={c1,c2,...,ch-r+1},
(2)
其中,h表示文本中詞的個(gè)數(shù),即文本矩陣中的寬.
圖2 MCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 MCNN network structure
3) 池化層.采用最大池化的方法提取局部特征中值最大的特征.
di=maxC.
(3)
4) 全連接層.將所有池化后的特征進(jìn)行組合得到向量
U={d1,d2,...,dn},
(4)
其中,n表示池化層得到的特征向量數(shù).
最后將U輸入softmax分類器中得到分類結(jié)果.模型利用訓(xùn)練數(shù)據(jù)中的標(biāo)簽,通過反向傳播算法進(jìn)行參數(shù)優(yōu)化.
由于RNN適用于處理序列數(shù)據(jù),所以被廣泛應(yīng)用于自然語言處理任務(wù)中,但RNN存在梯度消失和梯度爆炸問題.LSTM模型[15]利用門機(jī)制控制每一個(gè)LSTM單元記憶歷史信息和當(dāng)前輸入的信息,保留重要的特征,丟棄不重要特征.LSTM單元的門機(jī)制表達(dá)式如圖3所示.
圖3 LSTM單元模型Fig.3 LSTM unit model
1) 遺忘門
fi=σ(Wf·[ht-1,xt]+bf),
(5)
其中,Wf為權(quán)重矩陣,[ht-1,xt]表示把前一單元的隱層輸出和當(dāng)前的輸入拼接成一個(gè)向量,bf為偏置向量,σ是sigmoid函數(shù).
2) 輸入門
it=σ(Wi·[ht-1,xt]+bi),
(6)
(7)
3) 更新單元狀態(tài)
(8)
其中,Ct為當(dāng)前單元狀態(tài),Ct-1為前一時(shí)刻單元狀態(tài).
4) 輸出門
ot=σ(W0·[ht-1,xt]+b0),
(9)
其中,ot表示輸出值,W0為權(quán)重矩陣,b0為偏置項(xiàng).
5) LSTM單元最終輸出
ht=ot·tanh(Ct).
(10)
在文本情感分析任務(wù)中,標(biāo)準(zhǔn)的LSTM模型可根據(jù)前面詞語推測(cè)后面詞語的情感信息,后面詞語可根據(jù)前面詞語的語義得到更準(zhǔn)確的語義表示.雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)模型[16]在正向的LSTM基礎(chǔ)上增加反向LSTM,從2個(gè)方向收集詞語情感語義表示.為了進(jìn)一步得到更準(zhǔn)確的詞語語義,增加注意力機(jī)制,使每個(gè)詞語語義表示由其與各個(gè)詞語表示的相關(guān)性來確定.該相關(guān)性對(duì)應(yīng)一個(gè)權(quán)重向量,最終詞語表示由權(quán)重向量與LSTM層輸出的隱含特征相乘再加上偏置向量得到,其通過不斷學(xué)習(xí)進(jìn)行優(yōu)化.Att-BiLSTM模型結(jié)構(gòu)如圖4所示.
圖4 Att-BiLSTM模型Fig.4 Att-BiLSTM model
陳天奇在2014年首次提出XGBoost算法[17],它是一種傳統(tǒng)的Boosting方法,也是一種提升樹模型.該算法將許多樹模型集成在一起,形成一個(gè)強(qiáng)分類器,其中樹模型多為CART回歸樹模型.在CART回歸樹模型中使用二叉樹,通過信息增益函數(shù)確定最優(yōu)的劃分屬性.
XGBoost算法的核心思想是通過不斷添加新的回歸樹,不斷進(jìn)行特征分裂進(jìn)而生長(zhǎng)一棵樹[18].每次添加1棵樹即學(xué)習(xí)1個(gè)新函數(shù)用來擬合上次預(yù)測(cè)的殘差.在預(yù)測(cè)一個(gè)新樣本的分?jǐn)?shù)時(shí),根據(jù)該樣本的特征,在每棵樹中對(duì)應(yīng)1個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)1個(gè)分?jǐn)?shù),最后將每棵樹對(duì)應(yīng)的分?jǐn)?shù)相加即為該樣本的預(yù)測(cè)值.
(11)
其中F={f(x)=wq(x)}(q∶Rm→T,w∈RT),表示q(x)CART結(jié)構(gòu),即x在某一個(gè)CART樹中葉子節(jié)點(diǎn)的位置信息;Wq(x)表示輸入x在某棵CART樹中的分?jǐn)?shù);T為樹中葉子節(jié)點(diǎn)數(shù);fk表示1個(gè)CART樹,由樹的結(jié)構(gòu)q和葉子節(jié)點(diǎn)的權(quán)重w確定.
(12)
其中,Wv為權(quán)重矩陣,bv為偏置向量.同時(shí)利用反向傳播算法訓(xùn)練模型,優(yōu)化參數(shù),使用dropout機(jī)制避免過擬合,通過最小化交叉熵調(diào)整模型參數(shù),具體公式如下:
(13)
經(jīng)過網(wǎng)絡(luò)模型訓(xùn)練后得到最終的文本特征,將該特征輸入XGBoost分類器中進(jìn)行分類獲得最終分類結(jié)果.同時(shí)使用一階導(dǎo)數(shù)和二階導(dǎo)數(shù)最小化下列目標(biāo)函數(shù),優(yōu)化模型參數(shù)
(14)
本文模型的整體流程如圖5所示.
圖5 模型整體流程Fig.5 Overall flow chart of the model
2.1.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)使用3個(gè)數(shù)據(jù)集:第一,Keras內(nèi)部集成的IMDB影評(píng)英文數(shù)據(jù)集,實(shí)驗(yàn)使用其中的12 500條正面評(píng)論和12 500條負(fù)面評(píng)論進(jìn)行訓(xùn)練和測(cè)試;第二,由Pang和Lee在2004年ACL會(huì)議上使用的txt-sentoken英文數(shù)據(jù)集[19],包含1 000條正面評(píng)論和1 000條負(fù)面評(píng)論;第三,譚松波-酒店評(píng)論中文數(shù)據(jù)集,包含7 000條正面評(píng)論和3 000條負(fù)面評(píng)論.
2.1.2 數(shù)據(jù)集劃分
數(shù)據(jù)經(jīng)過分詞、去停用詞及向量化處理后按照80%和20%的比例劃分訓(xùn)練集和測(cè)試集.具體劃分如表1所示.
表1 數(shù)據(jù)集劃分
2.1.3 實(shí)驗(yàn)參數(shù)
實(shí)驗(yàn)參數(shù)的選取直接影響實(shí)驗(yàn)結(jié)果,根據(jù)固定參數(shù)法,本文分別比較了最大句子長(zhǎng)度為100、120、150個(gè)詞;將卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小由{3,4,5}擴(kuò)充到{2,3,4,5,6,7},卷積核數(shù)分別取64和128進(jìn)行比較;dropout對(duì)比了0.5、0.7和0.8,BiLSTM層數(shù)比較了1層和2層,網(wǎng)絡(luò)批次大小(batch_size)對(duì)比了100和128對(duì)實(shí)驗(yàn)結(jié)果的影響.通過以上等參數(shù)的對(duì)比,發(fā)現(xiàn)在各參數(shù)取表2的參數(shù)值時(shí),模型準(zhǔn)確率較好.
表2 模型實(shí)驗(yàn)參數(shù)
為了驗(yàn)證各個(gè)模型的分類性能,將融合CNN和BiLSTM特征的模型(CNN_BiLSTM)與本文改進(jìn)的融合CNN和Att-BiLSTM特征的模型(CNN_Att-BiLSTM)、融合MCNN和Att-BiLSTM特征后輸入XGBoost分類器的模型(MCNN_Att-BiLSTM)在3個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試.
各個(gè)模型在3個(gè)數(shù)據(jù)集1次實(shí)驗(yàn)的損失函數(shù)如圖6所示,其中橫軸表示迭代數(shù),縱軸表示訓(xùn)練集上的損失函數(shù)值.由實(shí)驗(yàn)數(shù)據(jù)可知,在多次迭代后,損失函數(shù)值波動(dòng)較小且趨于穩(wěn)定.在IMDB數(shù)據(jù)集上,CNN_BiLSTM模型損失函數(shù)值趨向于0.387,CNN_Att-BiLSTM模型損失函數(shù)值趨向于0.318,MCNN_Att-BiLSTM模型損失函數(shù)值趨向于0.267.在txt-sentoken數(shù)據(jù)集上,3個(gè)模型的損失函數(shù)值比較接近,都趨向于0.000 1.在酒店評(píng)論數(shù)據(jù)集上,CNN_BiLSTM模型損失函數(shù)值趨向于0.127,CNN_Att-BiLSTM模型損失函數(shù)值趨向于0.032,MCNN_Att-BiLSTM模型損失函數(shù)值趨向于0.071.
從上述數(shù)據(jù)和圖6中可以看出,CNN_Att-BiLSTM模型和MCNN_Att-BiLSTM模型的損失函數(shù)比CNN_BiLSTM模型收斂速度快,且損失函數(shù)值低于CNN_BiLSTM模型.每個(gè)模型在3個(gè)數(shù)據(jù)集上都取得了很好的收斂效果.
a.IMDB;b.txt-sentoken;c.譚松波-酒店評(píng)論.圖6 各數(shù)據(jù)集的損失函數(shù)Fig.6 Loss of each data set
各個(gè)模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率結(jié)果如圖7所示,其中橫軸表示迭代數(shù),縱軸表示測(cè)試集準(zhǔn)確率.從圖7中可以看出CNN_Att-BiLSTM模型和MCNN_Att-BiLSTM模型的準(zhǔn)確率比CNN_BiLSTM模型波動(dòng)較小.經(jīng)過計(jì)算CNN_Att-BiLSTM模型和MCNN_Att-BiLSTM模型準(zhǔn)確率均高于CNN_BiLSTM模型.
本文各模型在3個(gè)數(shù)據(jù)集的上的準(zhǔn)確率、召回率、F值分別如表3、表4、表5所示.從表中可以發(fā)現(xiàn),本文改進(jìn)的MCNN_Att-BiLSTM模型在準(zhǔn)確率、召回率及F值方面均優(yōu)于其他模型.在準(zhǔn)確率方面,增加注意力機(jī)制的CNN_Att-BiLSTM模型比CNN_BiLSTM模型在IMDB數(shù)據(jù)集上準(zhǔn)確率提升了0.70%,在txt-sentoken數(shù)據(jù)集上提升了0.66%,在酒店評(píng)論數(shù)據(jù)集上提升了2.89%.增加卷積核和注意力機(jī)制的MCNN_Att-BiLSTM模型比CNN_BiLSTM模型在IMDB數(shù)據(jù)集上準(zhǔn)確率提升了1.75%,在txt-sentoken數(shù)據(jù)集上提升了1.67%,在酒店評(píng)論數(shù)據(jù)集上提升了3.81%.
a.IMDB;b.txt-sentoken;c.譚松波-酒店評(píng)論.圖7 各模型的準(zhǔn)確率Fig.7 Accuracy of each model
表3 各個(gè)模型在測(cè)試集上的準(zhǔn)確率
表4 各個(gè)模型在測(cè)試集上的召回率
表5 各個(gè)模型在測(cè)試集上的F值
在召回率和F值方面,融合CNN和BiLSTM特征模型在IMDB數(shù)據(jù)集上召回率達(dá)到77.0%,F(xiàn)值達(dá)到76.8%,在txt-sentoken數(shù)據(jù)集上召回率達(dá)到76.5%,F(xiàn)值達(dá)到76.4%,在酒店評(píng)論數(shù)據(jù)集上召回率達(dá)到83.5%,F(xiàn)值達(dá)到84.0%.而增加注意力機(jī)制的CNN_Att-BiLSTM模型考慮了特征對(duì)分類結(jié)果的不同影響,使得召回率和F值都得到了提升,在IMDB數(shù)據(jù)集上召回率達(dá)到80.1%,F(xiàn)值達(dá)到78.6%,在txt-sentoken數(shù)據(jù)集上召回率達(dá)到78.1%,F(xiàn)值達(dá)到78.0%,在酒店評(píng)論數(shù)據(jù)集上召回率達(dá)到86.7%,F(xiàn)值達(dá)到86.9%.本文模型MCNN_Att-BiLSTM通過增加卷積核和注意力機(jī)制,不僅提取了詞語間全面的情感信息,而且還考慮了特征對(duì)分類結(jié)果的不同影響,召回率得到了進(jìn)一步的提高.在IMDB數(shù)據(jù)集上召回率達(dá)到80.9%,F(xiàn)值達(dá)到79.8%,在txt-sentoken數(shù)據(jù)集上召回率達(dá)到79.6%,F(xiàn)值達(dá)到78.7%,在酒店評(píng)論數(shù)據(jù)集上召回率達(dá)到87.5%,F(xiàn)值達(dá)到87.0%.
本文在CNN_BiLSTM模型基礎(chǔ)上,改進(jìn)了2種模型分別為CNN_Att-BiLSTM模型和MCNN_Att-BiLSTM模型.2種模型能夠充分考慮詞語間局部特征和上下文特征中的重要程度,同時(shí)提高了訓(xùn)練速度.在接下來的工作中,將研究詞語語義特征對(duì)分類結(jié)果的影響,即將語義特征和詞向量進(jìn)行融合,通過上述模型實(shí)現(xiàn)情感分類.