◆蘇開益 江 偉 余詩慧
(武漢理工大學計算機科學與技術學院 湖北 430070)
一種結合情感詞頻和主題拓展的情感分析方法
◆蘇開益 江 偉 余詩慧
(武漢理工大學計算機科學與技術學院 湖北 430070)
本文針對傳統(tǒng)基于統(tǒng)計學的情感分析方法的不足,提出情感詞頻和主題拓展相結合的方法(FETE方法)。該方法關注用戶評論的完整性,提高了情感詞極性分類的準確率,相對于傳統(tǒng)的方法,效果有一定提升。
情感分析;FETE;極性分類
傳統(tǒng)的基于統(tǒng)計學的情感特征提取方法受到漢語“一詞多義”的干擾較大,無法結合用戶評論的上下文,并且在某些數據較為稀疏的樣本中,很難用統(tǒng)計學的方法提取其特征。本文提出一種融合情感詞頻和主題拓展的情感分析方法(FETE)。FETE方法首先對數據集進行分詞預處理,然后統(tǒng)計得到褒義、貶義詞頻,再將主題特征進行拓展,并與情感詞頻結合,最后得到樣本的特征向量。該方法有效地改善了通過統(tǒng)計學方法提取特征而將評論整體性忽略模式。
先進行分詞,然后去停用詞是對自然語言文字序列的一般預處理方法,我們使用漢語分詞系統(tǒng) NLPIR對原數據進行分詞,具體處理步驟見圖1。
圖1 處理步驟流程圖
在該算法中,首先對原數據進行分詞、去停詞,然后通過事先定義好的褒義詞典和貶義詞典來統(tǒng)計數據集中的情感詞詞頻,再將情感詞頻和主題維數拓展融合。
具體的算法步驟如下:
(1)對原數據集進行分詞,去停詞。
(2)分詞結果事先準備好的褒義詞典、貶義詞典進行匹配,統(tǒng)計出數據集中褒義詞和貶義詞的詞頻,記錄為Cn和Pn。
(3)主題數K從5開始,以5為步長,增加到50,對每一個K值,使用主題模型對樣本的主題特征進行提取。
(4)將每個K值下的主題特征作為文檔集的特征向量,再通過LIBSVM進行二分類。
(5)把K值按照準確率進行排序,取最高的兩維向量a和b,將b的最后一維連接在a的第一維,得到向量c。
(6)再將Cn和Pn作為兩個一維向量與c向量結合,得到融合了主題維數拓展和情感詞頻的特征向量。
(7)對融合后的特征向量進行歸一化,再使用LIBSVM進行二分類。
圖2 融合情感詞頻和主題拓展的情感分析方法(FETE)
本文使用LDA主題模型進行實驗和分析。LDA的參數估計分為兩種,Gibbs采樣和EM最大熵,本文使用Gibbs采樣方法。
3.1 數據集
本文使用某 VR公司的用戶對某款內容的評論作為數據集(http://www.datatang.com/data/11857)進行實驗,一共有 2317條評論,包括1158條正面評論和1159條負面評論。
3.2 評價指標
本文采用精確度(Precision)、召回率(Recall)、F值(F-mean)和準確率(Accuracy)四個評價指標作為評價算法效果的指標。具體計算公式見表1。
表1 評價指標的計算公式和描述
3.3 實驗驗證
使用該算法在3.1中數據集上進行實驗,如圖3所示,當K等于15和30時,Accuracy取得極大值,實驗結果最好,當K持續(xù)增大時,Accuracy呈下降趨勢。
圖3 實驗結果對比圖
從表2中可以看出,實驗中FETE-LDA方法比傳統(tǒng)的特征提取方法具有更高的MacroP、MacroR和F1值,取得了更好的實驗效果;在融合情感詞頻和主題維數拓展的情感分析方法上LDA作為主題提取方法取得了很好的分類效果。
表2 各分析方法對比實驗
本文提出了一種結合了情感詞頻和主題拓展的情感分析方法,在傳統(tǒng)的分析方法的基礎上,更加注重評論的完整性,對上下文的把握更精準。
[1]周哲,商琳.一種基于動態(tài)詞典和和三支決策的情感分析方法[J].山東大學學報:工學版,2015.
[2]陳婷.基于上下文感知的個性化信息服務系統(tǒng)的研究與設計[D].北京郵電大學,2013.
[3]李致.知識庫系統(tǒng)中的用戶興趣挖掘與推薦[D].北京交通大學,2013.
[4]萬源.基于語義統(tǒng)計分析的網絡輿情挖掘技術研究[D].武漢理工大學, 2012.