王 儒,王嘉梅,王偉全,符 飛
(云南民族大學(xué) 電氣信息工程學(xué)院,昆明 650504)
(云南民族大學(xué) 云南省高校少數(shù)民族語言文字信息化處理工程研究中心,昆明 650504)
據(jù)第43 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[1],中國網(wǎng)民規(guī)模達8.29 億,2018年網(wǎng)頁長度19 061 579 332 918 字節(jié)數(shù),相比2017年增長11.4%,對規(guī)模越發(fā)龐大的網(wǎng)絡(luò)文本內(nèi)容進行有效的挖掘處理,對促進網(wǎng)絡(luò)的發(fā)展和網(wǎng)絡(luò)環(huán)境的凈化有著重要意義.隨著網(wǎng)絡(luò)的發(fā)展,形如微博、郵件、短信、彈幕、新聞評論、微信、聊天記錄的短文本內(nèi)容逐漸增多,網(wǎng)絡(luò)成為人們表達觀點與抒發(fā)情感的重要平臺,與傳統(tǒng)通過書信報刊形式表達觀點有所不同,上述形式的短文本有以下幾個特點:
1)文本內(nèi)容長度一般都較短.
2)內(nèi)容形式不局限于純文本,也會結(jié)合表情圖像.
3)持有觀點的群體和觀點的內(nèi)容具有多樣性.
4)表達的觀點或內(nèi)容具有一定的傾向性和重復(fù)性.
5)一般都缺少上下文信息.
本文以NLPCC2013 任務(wù)二微博數(shù)據(jù)集為研究對象,探究微博短文本在不同神經(jīng)網(wǎng)絡(luò)模型中的情感細粒度分類結(jié)果,論文其余部分是這樣組織的,第1 節(jié)介紹了情感細粒度分析,第2 節(jié)介紹詞向量及論文實驗所用到的幾個不同模型及結(jié)構(gòu),第3 節(jié)介紹實驗所用數(shù)據(jù)、環(huán)境、參數(shù)及評價標準,第4 節(jié)對實驗結(jié)果進行了分析與評價,最后對未來的工作進行了總結(jié)和展望.
情感細粒度分析是情感分析的分支,從文本顆粒度層次上來說,情感分析可以分為篇章級、句子級、屬性級3 個層次[2],按能否獲取觀點評價對象的不同可分為粗粒度情感分析(篇章級、句子級)與細粒度情感分析(屬性級),篇章級和句子級的情感分析只能得到整篇文檔或整條句子的情感傾向,無法確切得知觀點評價對象的喜好,屬性級的情感分析基于評價對象及其屬性上的觀點信息,可以得到觀點評價對象對某一事物的具體情感.傳統(tǒng)的情感分析方法往往是將文本劃分為積極和消極的二分類,或加入中性的三分類,隨著社交網(wǎng)絡(luò)規(guī)模的擴大,簡單的二分類或三分類無法囊括豐富的文本情感,如“我早上很難過,一個人郁郁寡歡的,小王可能察覺到了我的異樣,跑來帶我出去逛街玩了好久,有人關(guān)心的感覺真好啊!”.這句話前半部分表達了今天心情的頹喪,后半部分表達了有人關(guān)心心情因此得到緩解而愉悅的轉(zhuǎn)變,這句話無法用簡單的二分類或三分類進行囊括,也因此細粒度情感分析在實際應(yīng)用中有很強的需求[3,4].與其他文本相比,微博文本具有篇幅較短(一般在140 字以內(nèi)),噪聲大,上下文的語義信息稀疏,符號化(表情、圖像)和口語化(縮寫)嚴重等特點[5,6],個性化的表達非常適合進行細粒度情感分析的研究.
張云秋等[7]利用情感詞典的方法在大連理工大學(xué)情感詞匯本體DUTIR[8]的7 大類情感詞匯基礎(chǔ)上增加了表示“疑”這一類情感的詞匯,共52 個詞,根據(jù)情感強弱不同分為4 個等級,并在自行構(gòu)造的藥物微博評論數(shù)據(jù)集上使用PMI 方法進行了“樂、好、怒、哀、懼、惡、驚、疑”8 種情感的細粒度分析,這些評價結(jié)果基于當(dāng)前情感類別,沒有給出整體的宏平均分析結(jié)果.
劉麗[9]利用條件隨機場(CRF)結(jié)合語法樹剪枝的方法對產(chǎn)品評論進行了細粒度情感分析,借助Map-Reduce 中并行化協(xié)同訓(xùn)練的方法對語料進行了半自動標注,并進行了可視化表示,在識別情感要素和情感評價單元兩個領(lǐng)域均取得了89%左右的綜合準確率.
李陽輝等[10]利用深度學(xué)習(xí)中降噪自編碼器的方法在多個數(shù)據(jù)集上進行了實驗,對文本進行了句子級的情緒二分類(消極、積極),沒有更進一步對文本的情感細粒度進行分析.
張謙等[11]利用深度學(xué)習(xí)中詞向量模型結(jié)合傳統(tǒng)機器學(xué)習(xí)中TF-IDF 模型進行詞匯加權(quán)對15 種微博主題文本進行了主題分類,證明了合并后的模型結(jié)果比單一的詞向量加權(quán)模型和TF-IDF 模型分類結(jié)果更好.
還有許多工作[12–15]結(jié)合深度學(xué)習(xí)的知識對文本進行情感分析以后取得了很好的效果,這里不一一列舉.
自然文本輸入計算機以后需要進行文本-數(shù)值的轉(zhuǎn)化,傳統(tǒng)方法是通過向量空間模型(Vector Space Model,VSM)[16]進行文本-數(shù)值之間的轉(zhuǎn)換將文本轉(zhuǎn)換成向量以空間上的相似度表示文本間的相似度,通過計算空間相似度來表示文本相似度計算簡單方便,但存在文本稀疏、一詞多義、易忽略文本上下文信息等問題難以解決.機器學(xué)習(xí)中傳統(tǒng)的向量空間模型如TFIDF 模型、One-Hot 向量,都是通過將文本中的詞頻信息轉(zhuǎn)化為向量衡量該詞語所占的權(quán)重.
Word2Vec[17,18]自2013年提出以來迅速取代向量空間模型成為自然語言處理領(lǐng)域新的基礎(chǔ),與VSM 相比,Word2Vec 是一種分布式的神經(jīng)概率語言模型[19](圖1),Word2Vec 層數(shù)并不深,是一種淺而雙層的神經(jīng)網(wǎng)絡(luò),詞向量的每一維都具有一定的語義和語法特征,能夠捕捉更多有關(guān)上下文的信息,同VSM 一樣,詞向量也很難解決一詞多義的問題,這是由于訓(xùn)練出的詞向量矩陣是靜態(tài)固定不變的.詞向量模型有兩種,CBOW 模型與Skip-gram 模型.其中CBOW 模型利用當(dāng)前詞上下文的若干個詞語預(yù)測當(dāng)前詞的概率,如圖1通過當(dāng)前詞前后2 個詞預(yù)測當(dāng)前詞語,而Skip-gram 模型則相反,通過當(dāng)前詞的概率預(yù)測上下文的若干個詞語.
圖1 神經(jīng)網(wǎng)絡(luò)語言模型
圖1中(wt?n?2,···,wt?n+2)可看做按時間序列排序的詞語集,通過神經(jīng)網(wǎng)絡(luò)結(jié)合上下文信息(context)計算語言模型中的參數(shù)來預(yù)測當(dāng)前詞,依據(jù)窗口大小為2 的上下文預(yù)測當(dāng)前詞,最后由Softmax 層輸出預(yù)測的當(dāng)前詞.原理和2-gram 語言模型相似.
CNN (Convolutional Neural Network)也稱卷積神經(jīng)網(wǎng)絡(luò),1962年生物學(xué)家Hubel 和Wiesel[20]發(fā)現(xiàn)貓的視覺神經(jīng)細胞中存在著一種被稱為感受野的細胞結(jié)構(gòu),這種細胞結(jié)構(gòu)能作用于視覺輸入空間,對視覺形成的圖像局部特征的提取能力很強,1980年,Fukushima[21]根據(jù)上述結(jié)構(gòu)提出了神經(jīng)感知機,被認為是卷積神經(jīng)網(wǎng)絡(luò)的雛形,到1998年LeCun[22]提出LeNet-5,宣告了現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)正式出現(xiàn).卷積神經(jīng)網(wǎng)絡(luò)由輸入層、卷積層、池化層、全連接層、輸出層等5 部分構(gòu)成,典型的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5 結(jié)構(gòu)如圖2.
CNN 的卷積原理可用圖3表示.
圖2 LeNet-5[22]
圖3 卷積核滑動原理
假定輸入是一個5×5 的矩陣圖3(a),通過3×3窗口大小的卷積核滑動分別提取特征圖如圖3(b),圖3(c)為卷積后得到的特征圖.此時得到的矩陣很好計算,但如果是一幅長寬為256 位的圖片或一條長度為200 的句子此時得到的特征圖仍然十分臃腫,需要通過池化層進一步降維,常用的池化方法有最大值池化和平均池化兩種.Nal Kalchbrenner 等[23]提出了k-Pooling 方法,將所有特征值得分在Top-K的值及這些特征值原始詞語的先后順序保留,這種方法對一條前半句與后半句表達情感相反或有所區(qū)別的句子效果很好.以上簡單的介紹了CNN 工作原理,更多內(nèi)容也可閱讀文獻[24,25].
TextCNN[26]是CNN 的一個變種,由Kim Y 在2014年提出,是卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域的首次應(yīng)用,在當(dāng)時取得了state-of-the-art 的效果,結(jié)構(gòu)如圖4.TextCNN 工作原理與CNN 相差不大,通過卷積核滑動提取文本中的特征,但圖像是二維數(shù)據(jù)(長、寬),文本是一維數(shù)據(jù),需要通過構(gòu)造不同的Filter(卷積核)的窗口大小形成維度上的差異完成文本上的二維表示,常用的卷積核窗口大小為3、4、5,這與Ngram 語言模型在某些方面不謀而合,N-gram 語言模型通過計算當(dāng)前詞前后N個詞語的概率得到當(dāng)前詞語與上下文之間的關(guān)系.Zhang Y[27]測試了不同參數(shù)設(shè)置如詞向量、激活函數(shù)、Feature Map 大小、Pooling 的方法等對Text-CNN 模型分類效果的影響及最佳參數(shù).
圖4 TextCNN[26]
Text-CNN 在中文文本分類(詞級別)中工作原理如圖5.
圖5 Text-CNN 中文詞級別分類原理
從圖5可以看出TextCNN 模型要先經(jīng)過中文分詞,再按卷積神經(jīng)網(wǎng)絡(luò)的原理對文本轉(zhuǎn)化的數(shù)值進行處理,卷積神經(jīng)網(wǎng)絡(luò)相比循環(huán)神經(jīng)網(wǎng)絡(luò)更多關(guān)注局部的信息,因而中文處理領(lǐng)域影響較大的停用詞處理對卷積神經(jīng)網(wǎng)絡(luò)而言就非必須,分詞時可根據(jù)需要決定是否去除停用詞.
RNN 也稱循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)或遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network),本文中RNN 指循環(huán)神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)既有前饋通路,又有反饋通路,可以將上一時刻的信息傳入下一時刻,使模型捕捉到序列數(shù)據(jù)中有關(guān)上下文的信息,故而常用于處理如語音、文字、視頻圖像等形式的時間序列數(shù)據(jù).典型的RNN 如圖6.
圖6 RNN 結(jié)構(gòu)圖
RNN 公式,如式(1)及式(2):
式中,xt為輸入當(dāng)前時間步的輸入信息,yt為當(dāng)前時間步信息經(jīng)隱藏層ht后得到的輸出信息,同時也是下一時間步的輸入信息,st是隱藏層的值,U是輸入層到隱藏層的權(quán)重矩陣,V是隱藏層到輸出層的權(quán)重矩陣,W則是隱藏層上一次的值作為這一次的輸入的權(quán)重.RNN 訓(xùn)練時的梯度變化由于模型的時序性存在不能簡單的通過BP(反向傳播)算法進行,需加入基于時間的計算過程,也就是BPTT 算法.
RNN 可以捕捉文本的上下文信息,但當(dāng)模型時間步過長時,過去時間步的歷史信息不停累積容易使模型出現(xiàn)梯度爆炸或消失的情況,LSTM[28]和GRU[29]均是在此基礎(chǔ)上進行的改進.RNN 有很多變種結(jié)構(gòu),Jozefowizc R 等[30]測試過一萬多種RNN 及其變種結(jié)構(gòu)的效果.
LSTM (Long and Short Term Memory)的主要結(jié)構(gòu)由輸入門it(input gate)、遺忘門ft(forget gate)、輸出門ot(output gate)、以及細胞態(tài)(memory cell)組成,為了避免出現(xiàn)梯度爆炸或消失的情況,LSTM 通過遺忘門先選擇性的遺忘掉上一時間步的部分歷史信息,再通過細胞態(tài)對當(dāng)前時間步的模型狀態(tài)進行更新.典型的LSTM 如圖7.
圖7 LSTM 結(jié)構(gòu)圖[27]
LSTM 公式如式(3)~式(8):
式中,W和b分別表示相應(yīng)狀態(tài)下的權(quán)重系數(shù)矩陣和偏置項,σ 和t anh表示Sigmoid 和雙曲正切激活函數(shù),LSTM 在訓(xùn)練時先按式(3)~式(8)計算當(dāng)前時間步各個狀態(tài)值,再通過BPTT 算法反向計算網(wǎng)絡(luò)的整體誤差,通過誤差對模型梯度進行優(yōu)化并更新網(wǎng)絡(luò)的權(quán)重.
GRU (Gated Recurrent Unit)在LSTM 的基礎(chǔ)上進一步簡化了模型結(jié)構(gòu),將LSTM 的輸入門it、遺忘門ft、輸出門ot更改為更新門zt(update gate)與重置門rt(reset gate),并將細胞態(tài)與隱層狀態(tài)ht進行了合并為.GRU 結(jié)構(gòu)如圖8.
GRU 公式如式(9)~式(12):
式中,W表示相應(yīng)狀態(tài)下的權(quán)重矩陣,ht表示隱藏層狀態(tài)信息,σ 和t anh表示Sigmoid 和雙曲正切激活函數(shù),比較GRU 與LSTM 的結(jié)構(gòu)會發(fā)現(xiàn),GRU 的輸入輸出結(jié)構(gòu)與LSTM 相似,區(qū)別在于GRU 根據(jù)式(12)使用zt即可完成對輸入信息的遺忘與選擇,使用參數(shù)更少,結(jié)構(gòu)更加簡單.
圖8 GRU 結(jié)構(gòu)圖[28]
在類時間序列數(shù)據(jù)的處理中,只有前饋輸入還不夠,還需要有反饋通路以利用上一時間步的信息,雙向(Bi-directional)結(jié)構(gòu)很好的解決了這個問題.缺點是相比單層結(jié)構(gòu),雙向結(jié)構(gòu)需要更多的計算資源,程序運行時間也更長.
雙向結(jié)構(gòu)如圖9所示.
圖9 雙向結(jié)構(gòu)
LSTM 神經(jīng)網(wǎng)絡(luò)可以捕捉序列中有關(guān)上下文的信息,CNN 神經(jīng)網(wǎng)絡(luò)可以獲取全文的局部特征,Ghosh S[31]結(jié)合兩個模型提出了結(jié)合上下文信息的混合神經(jīng)網(wǎng)絡(luò)模型CLSTM(也稱時空網(wǎng)絡(luò))在接續(xù)語句預(yù)測上相比當(dāng)時其他模型提高了20%,Zhou CT[32]等將這一模型應(yīng)用到文本分類、情感分析問題上也取得了不錯的效果.孫曉等[33]將LSTM 與CNN 的輸出結(jié)果進行直接拼接,在諷刺語識別數(shù)據(jù)集上進行了測試,效果比詞袋模型或單一RNN、CNN 模型要好.本文在CNN 和RNN 的組合模型與拼接模型的基礎(chǔ)上進行了改進,加入了雙向結(jié)構(gòu)以利用上下文信息.
C_BiLSTM 用雙向LSTM 連接CNN 中的卷積層與池化層,通過CNN 卷積層提取序列數(shù)據(jù)中心的重要特征,BiLSTM 層對提取后的特征進行處理得到序列數(shù)據(jù)中有關(guān)上下文的信息,模型如圖10.
圖10 C_BiLSTM 模型示意圖
CNN-BiLSTM 模型將CNN、BiLSTM 兩個神經(jīng)網(wǎng)絡(luò)模型的輸出結(jié)果經(jīng)Keras 的Concatenate 層進行簡單拼接,最后經(jīng)Softmax 進行分類,模型如圖11.
圖11 CNN-BiLSTM 模型示意圖
本文所用數(shù)據(jù)為NLPCC2013 任務(wù)二微博數(shù)據(jù)集,數(shù)據(jù)已經(jīng)標注.如圖12,共8 類情感標簽none,sadness,like,anger,happiness,disgust,fear,surprise 其中各類情感標簽數(shù)目分別為6753,1144,2120,640,1476,1394,139,334 共14 000 條,包含4000 條訓(xùn)練集與10 000 條測試集,在實驗過程中我們將兩個數(shù)據(jù)集合并成一個數(shù)據(jù)集,借助Python 的機器學(xué)習(xí)包SKlearn 中的數(shù)據(jù)處理函數(shù)Train_Test_Split 按訓(xùn)練集與測試集8:2 的比例進行重新劃分.
圖12 微博情感標簽分布圖
本文實驗環(huán)境配置見表1.
表1 實驗環(huán)境配置
詞向量是深度學(xué)習(xí)用于自然語言處理的關(guān)鍵一環(huán),論文采用了兩種詞向量的訓(xùn)練方式,一種是通過Keras 中Embedding 層的動態(tài)訓(xùn)練生成的詞向量,一種是預(yù)訓(xùn)練詞向量模型.
關(guān)于預(yù)訓(xùn)練詞向量,原始數(shù)據(jù)中包含5 萬條原始微博語料,但這部分語料規(guī)模較小,訓(xùn)練出的詞向量規(guī)模也較小,本文選用了北京師范大學(xué)中文信息處理研究所與中國人民大學(xué) DBIIR 實驗室合作的工作[34],這份工作的內(nèi)容包括一百多種中文領(lǐng)域的詞向量,選擇其中的微博詞向量531 MB (557 675 674 字節(jié),300維)作為本文所用預(yù)訓(xùn)練詞向量.從這份詞向量中隨機抽取了部分詞語,如圖13,可以看到不同詞語間的語義相關(guān)性.
神經(jīng)網(wǎng)絡(luò)模型中參數(shù)對模型最終的結(jié)果意義極大,表2為論文所用模型參數(shù),分別為輸入長度、層數(shù)、詞向量維度、神經(jīng)元個數(shù)、卷積核、dropout、optimizer、epoch,為了便于比較論文部分模型設(shè)置了相同的參數(shù).表2中dropout 一行括號內(nèi)參數(shù)為循環(huán)時上一時間步到當(dāng)前時間步循環(huán)dropout 的比率,在統(tǒng)計層數(shù)時,去掉了模型的輸入層與輸出層.
圖13 微博詞向量可視化
表2 神經(jīng)網(wǎng)絡(luò)參數(shù)
在進行實驗結(jié)果分析之前,需要明確判別模型性能的標準,本文采用兩種評價指標進行評價.一種是機器學(xué)習(xí)中常用的準確率,F1 值,一種是混淆矩陣,準確率和F1 值可以得到整個模型的整體分類效果,但不能得到某一情感類別文本的細粒度分類效果,混淆矩陣可以比較文本預(yù)測類別與文本真實類別的差異看出某一模型具體的細粒度分類效果.
準確率的定義是以關(guān)注的類為正類,其他類為負類,分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確,4 種情況出現(xiàn)的總數(shù)分別記作:
TP:將正類預(yù)測為正類數(shù).
FN:將正類預(yù)測為負類數(shù).
FP:將負類預(yù)測為正類數(shù).
TN:將負類預(yù)測為負類數(shù)
準確率的定義為:
F1 值的定義為:
混淆矩陣的定義是矩陣的每一列代表文本的預(yù)測情感標簽,每一列的總數(shù)表示預(yù)測為該類別情感標簽的文本的數(shù)目.每一行代表數(shù)據(jù)的真實歸屬情感標簽,每一行的數(shù)據(jù)總數(shù)表示該類別情感標簽的文本實際的數(shù)目.每一列中的數(shù)值表示此實際情感標簽文本被預(yù)測為該類情感標簽的數(shù)目.
由于dropout 機制的存在,每次訓(xùn)練結(jié)果會出現(xiàn)一定的偏差,本文比較了8 種模型在10 次訓(xùn)練中整體準確率效果最好的一次結(jié)果,還比較了加入詞向量優(yōu)化后的模型訓(xùn)練10 次訓(xùn)練中整體準確率最好的一次結(jié)果,如表3,取小數(shù)點后4 位.
通過表3可以看出,在最好結(jié)果的對比上,CNN模型比RNN 模型整體準確率更好,加入雙向結(jié)構(gòu)以后LSTM、GRU 整體準確率變低,CNN-BiLSTM 模型的拼接模型整體準確率比使用雙向結(jié)構(gòu)的RNN 模型更好,C_BiLSTM 模型整體準確率最低,整體準確率最佳的LSTM 模型53.71%與最低的BiGRU 模型整體準確率50.36%相差3.35%.同加入詞向量以后的準確率作比較發(fā)現(xiàn)CNN 和LSTM 模型整體準確率分別下降4.89%、0.85%,其余6 個模型的最佳整體準確率保持不變或有所提高,加入詞向量以后最佳整體準確率也由LSTM 模型的53.71%提高到CNN-BiLSTM 模型的55.07%,說明加入詞向量對提升整體準確率有一定效果,值得注意的是加入詞向量以后除TextCNN 模型與C_BiLSTM 模型,其余模型的F1 值均有所下降,說明模型準確率有提高但分類性能有所下降,詞向量覆蓋掉了原始文本的部分語義,本文通過將混淆矩陣進一步分析模型的細粒度分類效果.
表3 不同模型準確率及F 值(%)
圖14中,圖14(a)表示模型未加入預(yù)訓(xùn)練詞向量模型的混淆矩陣,圖14(b)表示加入預(yù)訓(xùn)練詞向量模型的混淆矩陣.由混淆矩陣的表現(xiàn)可以看出,在不加入詞向量的情況下,對happiness,like,none,sadness 等情感類別文本預(yù)測效果較好.Anger,disgust 等情感類別文本預(yù)測效果一般.Fear 和surprise 情感標簽文本預(yù)測效果極差,甚至出現(xiàn)類別缺失的情況,為此查閱了原始的微博文本,發(fā)現(xiàn)部分句子標簽為fear 的微博文本很難表征強烈的fear 情感,如“和總部來的領(lǐng)導(dǎo)們在珠江新城吃飯,完后她們想去沙面逛逛,我正好開了車所以當(dāng)然由我送去.然后,我就開始不停問同事沙面怎么走,然后同事說先往2 沙島方向走,然后我開始問2 沙島怎么走,再然后很巧的我的GPS 就死機了一直搜不到衛(wèi)星信號[衰]你們說,領(lǐng)導(dǎo)會不會覺得我是故意的?![淚]”.“去微博廣場看了十幾頁,全這句話:我喜歡周韻湯唯全智賢.嘛意思啊? 2 億微博用戶不會全體中毒吧?真可怕!!這樣宣傳比買CCTV 的8 點廣告好值啊!!!”.相比強烈的fear 情感,這兩句話更像是在吐槽個人的想法并抒發(fā)個人的情緒,第二句中“好值啊”和前半部分表達的情感有區(qū)別,句子的整體情感也因此產(chǎn)生變化,也一定程度影響模型預(yù)測的結(jié)果.
圖14 混淆矩陣
結(jié)合混淆矩陣的結(jié)果,加入詞向量以后模型的整體準確率有所提高,但具體到某一情感類別,特別是情感標簽數(shù)較少的類別,模型的預(yù)測結(jié)果不甚理想,出現(xiàn)了在預(yù)測時情感類別缺失的狀況,這種情況以數(shù)據(jù)量較小的情感標簽為主.與未加入詞向量時的結(jié)果相比,情感類別缺失更多,說明詞向量覆蓋了部分情感詞匯的文本信息,不能很好的表征微博文本的細粒度情感,可以嘗試構(gòu)建更大規(guī)模的基于微博文本的詞向量,同時,中文自然語言處理流程中停用詞的去除,也對口語化、符號化、圖形化嚴重的微博文本產(chǎn)生了一些影響,可以嘗試構(gòu)建基于微博文本的情感詞匯庫或微博分詞系統(tǒng).
與歐陽純萍等[35]基于多策略融合的細粒度情感分析方法相比,基于神經(jīng)網(wǎng)絡(luò)模型的方法最佳整體準確率高了大約25%,需要注意的是歐陽純萍等的工作所用數(shù)據(jù)集剔除了情感標簽為None 的文本.與傳統(tǒng)的基于機器學(xué)習(xí)方法的文本細粒度情感分類的效果相比,基于神經(jīng)網(wǎng)絡(luò)模型的微博文本細粒度分類仍大有可為.
論文結(jié)合深度學(xué)習(xí)方法對微博文本進行了細粒度情感分析,但對文本情感的探究較少,試驗了深度學(xué)習(xí)中幾種模型在情感細分類中的效果,下一步除了構(gòu)造新的模型,還應(yīng)當(dāng)結(jié)合一定的情感知識;分詞時簡單地用結(jié)巴分詞進行了分詞,而微博文本新詞、縮略詞、表情符號較多,這種分詞不甚準確,影響文本情感的表征,也在一定程度上影響了情感細分類結(jié)果,下一步可以考慮構(gòu)建微博的情感詞典;同時,不同情感標簽的數(shù)目差距較大,情感標簽數(shù)目最多的None 與最少的fear 比例近乎50:1,對分類結(jié)果也有極大的影響;模型對文本的上下文信息利用較少,可考慮使用Elmo、Bert 等基于上下文信息的預(yù)訓(xùn)練語言模型,或加入Attention 機制進行優(yōu)化.與微博文本領(lǐng)域主題分類的相關(guān)工作相比,微博文本的情感細粒度分類任務(wù)仍任重而道遠.