劉晨晨 馮旭鵬 胡 楊 劉利軍 黃青松,3* 段成香
1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
基于主題角色的文本情感分類方法
劉晨晨1馮旭鵬2胡 楊1劉利軍1黃青松1,3*段成香4
1(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
2(昆明理工大學教育技術與網絡中心 云南 昆明 650500)3(云南省計算機應用重點實驗室 云南 昆明 650500)4(昆明迪時科技有限公司 云南 昆明 650000)
傳統文本情感分類方法通常以詞或短語等詞匯信息作為文本向量模型特征,造成情感指向不明和隱藏觀點遺漏的問題。針對此問題提出一種基于主題角色的文本情感分類方法。該方法首先提取出文本中的潛在評價對象形成評價對象集,評價對象作為情感句描述的主體能夠很好地保存文本情感信息;然后使用LDA模型對評價對象集進行主題抽取,將抽取出的主題分裂成“正”“負”兩種特征項,將這兩種特征項記為正負主題角色用于保存文本情感信息;最后,計算主題角色在文本中的情感影響值并建立主題角色模型。實驗結果表明,所提方法與傳統方法相比可有效提高主觀性文本情感分類的準確率。
文本情感分類 潛在評價對象 LDA 主題抽取 主題角色
文本情感分析又稱意見挖掘,簡單而言,是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[1]。情感信息的分類任務可大致分為兩種:一種是主、客觀信息的二元分類;另一種是主觀信息的情感分類,包括最常見的褒貶二元分類以及更細致的多元分類[2]。隨著互聯網上各種帶有情感色彩的主觀性文本的出現,如微博、新聞評論、博客等,主觀文本的情感分類日益受到研究者的關注。
主觀文本傾向性分類是基于文本的情感特征的處理過程,主要有兩種研究思路:基于語義和基于機器學習的方法?;谡Z義的方法通過將文本中的詞匯傾向值進行統計求和[3],得到文本的情感傾向,主要借助已有的詞典或自然語言知識庫擴展情感傾向詞典。Turney等[4]提出了一種無監(jiān)督的學習方法,通過測試副詞、名詞等單詞的語義傾向性,將文本分為積極和消極兩類;隨后Turney等[5]利用點互信息(PMI)和潛在語義分析(LSA)來推斷一個詞的語義傾向;朱嫣嵐等[6]提出了兩種基于HowNet詞典的語義傾向性計算方法,用來計算詞語與褒貶義基準詞之間的相關性?;谡Z義的方法通過計算出詞語與褒貶義基準詞的距離得到了詞語的情感值[6],但是這種方法并沒有考慮詞語本身的情感值對文本傾向性的影響。
基于機器學習的方法通過對訓練集進行訓練得到分類器,使用得到的分類器來對新文本進行情感分類。Pang等[7]首先采用樸素貝葉斯、最大熵分類和支持向量機三種機器學習的方法對電影評論數據進行文本傾向性分類;唐慧豐等[8]以不同詞性的詞作為文本表示特征,對KNN、SVM、中心向量法等文本分類方法,在不同特征數量和規(guī)模的訓練集的情況下進行了比較研究;徐軍等[9]將機器學習的方法用于新聞文本情感分類取得了不錯的分類性能?;跈C器學習的方法在文本情感分類的應用上已取得不錯的效果,但是這種方法由于缺乏語義信息大大影響了其分類效果。有學者針對上述問題在機器學習的基礎上加入語義的方法,提高了分類性能。徐琳宏等[3]通過計算詞語與知網中標注的情感詞的相似度獲取特征詞,用SVM分類器分析文本的褒貶性,并將副詞對情感詞傾向性的影響考慮了進來,得到了很好的分類效果。胡楊等[10]以向量空間模型為基礎,通過建立情感角色模型,將情感角色對應的傾向值融入模型特征空間,進一步提高了分類的精度。但是無論是基于語義的還是基于機器學習的方法,通常都以詞或短語等詞匯信息作為文本向量模型特征,由于自然語言本身的靈活性和復雜性,單純使用詞匯信息無法準確表達文本的情感傾向[11]。此外,評價對象作為情感句描述的主體,若忽略其對文本情感分類的影響,也容易造成情感指向不明和隱藏觀點遺漏的問題[12]。
針對上述問題,本文以向量空間模型為基礎,提取文本中的潛在評價對象得到評價對象集,使用LDA主題模型對評價對象集進行建模,以評價對象作為特征詞抽取出主題。將抽取出的主題分裂成“正”“負”兩種并生成主題角色作為文本特征項,計算主題角色在文本中的情感影響值作為特征值的一部分,建立主題角色模型。實驗表明,本文模型在篇章級文本情感分類中可有效提升分類效果。
評價對象是指某段評論中所討論的主題,具體表現為評論文本中評價詞語所修飾的對象[1],分析其在文本句中的情感傾向能夠很好地保存文本情感特征??紤]到文本所表達的情感傾向必然針對特定的對象,一篇文本中可能存在多個評價對象,對評價對象集進行建??梢暂^為準確地抽取出與主題最相關的評價對象,方便在后文中對文本情感極性進行準確分析。
1.1 潛在評價對象抽取和主題挖掘
文本情感分類中通常將名詞或名詞短語作為候選評價對象。使用分詞工具對文本進行預處理,包括分詞、去除停用詞和詞性標注,抽取文本中的名詞作為潛在評價對象,將從所有文本中抽取出的潛在評價對象合并得到評價對象集 ,使用LDA模型對評價對象集 進行主題挖掘。
LDA模型是由Blei等[13]在2003年提出的一種對自然語言進行建模的生成模型,可以用來挖掘大規(guī)模文檔集或語料庫中內蘊的主題信息。LDA模型如圖1所示。
圖1 LDA圖模型
其中α為文本—主題概率分布θ的超參數,β為主題—特征詞概率分布φ的超參數,M、T、N分別為文本數、主題數和一篇文本中的特征詞數,w為觀察到的文本中的特征詞,z為特征詞w的主題分配。通過對變量z進行Gibbs采樣間接估計θ和φ:
(1)
(2)
主題抽取完成后,為每個主題都生成了一個主題—特征詞分布,選取每個主題中概率分布排名前m的特征詞作為主題最相關特征,并表示為所屬各個主題的概率分布形式如式(3):
Tn=(w1∶φnl,w2∶φn2,…,wm∶φnm)
(3)
其中,wm為與主題Tn最相關的前m個特征詞,φnm為主題Tn下詞wm的概率分布,用式(2)計算。
1.2 主題角色生成和情感值計算
圖2 主題角色生成示意圖
本節(jié)采用基于語義方法的思想[3]計算主題角色在文本中的情感影響值,通過主題特征詞的傾向值來計算主題角色在一篇文本中的情感值??紤]特征詞在不同語境中會有不同的情感傾向,此外,副詞也會影響特征詞的傾向性和情感強度。例如“藥效并不好”和“藥效非常好”,因為否定副詞和程度副詞的存在,“藥效”這個詞在句中表現為不同的情感極性和強度。為使主題特征詞的情感傾向更接近在文本中的真實情況,計算其所在句的情感傾向值,并將整句的情感值作為主題特征詞的情感值。
依據文獻[14]的思想,對文本按照標點符號進行分句,將文本d看作是由一系列句子組成的集合:d={s1,s2,…,sm},其中m為文本d中句子的數量,每個句子si看作是由一系列的詞語組成的集合:si={wi,wi+1,…,wi+n-1},其中i代表句子中第一個詞的位置,n代表句子中詞語的數量。根據情感詞匯本體(本文使用大連理工大學信息檢索研究室的情感詞匯本體[15],并將詞匯本體中的詞語稱作情感詞,詞語情感值記作Sentibility(wi))中的情感詞標簽對文本句子中情感詞的情感極性和情感強度進行初始設置。考慮詞語所在句子的位置權重,在自然語言處理中文本開頭和結尾兩端的句子具有更高的權重,句子評分表達式定義如下:
Position(sj)=a×pos(sj)2+b×pos(si)+c
(4)
式(4)服從:
其中m表示文本d中句子的數目,pos(si)表示句子si在文本d中的位置,a、b、c為多項式系數。同時考慮否定副詞和程度副詞對情感詞極性和情感強度的影響,收集否定副詞和程度副詞并為副詞設定不同等級的權值如表1。計算整句的情感傾向值作為句中特征詞的傾向值,計算公式如下:
Position(Si))
(5)
其中Sentibility(wi)表示情感詞wi的情感值,m表示句子中情感詞的數量,n表示句子中否定副詞的個數,valueadv為程度副詞的權值。
表1 副詞轉折詞權值映射表
通過上述操作,每個主題角色的特征詞在文本中的情感傾向值便可計算出,同一主題分裂生成的正、負兩種主題角色在文本d中的情感值便可由式(6)和式(7)計算得出:
(6)
(7)
其中,SO(wi)為特征詞wi在文本句中的情感值,由式(5)計算得出;φn,i為特征詞在所屬主題的概率分布;m為主題角色中的特征詞數量;?d,n為文本d中主題Tn的概率分布。根據約束域原理[16],對表達式進行了歸一化處理,使主題角色在文檔中的情感值處于區(qū)間,便于量化分析。表達式如下:
(8)
1.3 主題角色模型建立和分類框架
主題角色作為保存文本情感的特征項,其特征值Fn,d由式(8)得出,最后情感角色模型建立如下:
(9)
其中,n表示正負主題角色數量,即主題數,N為語料庫中的文章數。通過上述一系列處理,在正向情感的文本中,正極主題角色在文本中的特征值會明顯高于負極主題角色在正向文本中的特征值;相反,在負向情感的文本中,正極主題角色在文本中的特征值會明顯小于負極主題角色在正向文本中的特征值。將待測文本與訓練文本作相同處理進行特征提取,從而實現主觀性文本傾向性分類。
分類的整體框架如圖3所示。結構A通過LDA模型提取主題及主題—詞分布并建立主題角色模型,訓練過程在正、負語料集中分別進行;結構B針對新文本在已生成的主題上運行LDA模型得到新文本的文本—主題分布,并進行特征表示;將結構A和結構B獲得的結果送入分類器,實現基于主題角色模型的分類。
圖3 分類框架圖
2.1 實驗數據與實驗設置
實驗選用平衡的中文情感挖掘語料集ChnSentiCorp(http://www.searchforum.org.cn/tansongbo/corpus-senti.htm)。另外,從互聯網上收集贊美祖國、贊美和諧社會等主題的字數規(guī)模在500~1000字的文檔2000篇,收集同等字數規(guī)模的反動暴力以及污蔑共產黨等主題的文檔2000篇作為實驗語料。語料均經過抽取轉換成統一的文本格式,從中選取正、負極性的語料各500篇作為測試集,其余語料作為訓練集,本文實驗均在正、負語料集中分別進行。對語料庫中的文本進行預處理,包括分詞和去除停用詞,分詞工具使用中科院的中文分詞工具ICTCLAS。
2.2 實驗結果分析
本文選用情感分類中常用的準確率和召回率和F-measure作為實驗結果的衡量標準。統計被判定為正極性實際為正極性的文本tt,被判定為正極性實際為負極性的文本tn,被判定為負極性實際為正極性的文本nt,被判定為負極性實際為負極性的文本nn,計算式如下:
(10)
(11)
準確率和召回率是反映分類質量的兩個重要指標,兩者必須綜合考慮。根據COAE2014的評價指標,實驗采用F1測度來均衡兩方面,定義如下:
(12)
圖4 不同主題數下的困惑度
從圖4可以看出,隨著主題數的增加,困惑度呈下降趨勢,當主題數達到35時,困惑度趨于穩(wěn)定,可以得出此時模型性能較佳,最優(yōu)主題數目為35。因此取主題數目為K=35。
實驗2 為驗證式(3)中選取不同數量的主題特征詞時的分類性能。本文方法是通過主題特征詞的情感傾向來計算主題角色的特征值,如果主題特征詞的數量選取不合適則容易造成情感特征遺漏和情感指向不明的問題。設置選取的前m個主題特征詞的數量為5~50(間隔為5),暫時使用SVM分類算法進行測試。由圖4可以看出,當特征詞的數量選取在20附近時,分類效果較佳。設置特征詞數量為16~24(間隔為1)繼續(xù)進行測試,實驗結果如圖5所示,由圖可知,當特征詞數量為22時分類準確率最高,于是設置選取的前m個主題特征詞數為22。
圖5 不同特征詞數下的準確率
圖6 不同特征詞數下的準確率(細化)
實驗3 為選用不同分類器的分類性能對比。NaiveBayes(NB)方法非常簡單,但在文本分類中常常取得令人滿意的效果;k-近鄰(kNN)分類方法是一種非常有效的歸納推理方法;支持向量機(SVM)方法在文本分類中展現出的良好性能已得到多位學者的驗證,如Pang等[7]在進行對電影評論的分類任務時使用SVM算法的分類效果最佳。kNN中近鄰數設置為11~25(間隔2),實驗結果顯示近鄰數為17時實驗效果最優(yōu)。SVM多采用多項式核函數和徑向基核函數,分別選用兩種核函數進行測試,使用徑向基核函數時表現出了更好地分類性能,徑向基核函數的形式如式(13)。分別使用參數設置為最優(yōu)的NB、kNN、SVM三種分類方法對語料集進行訓練,比較三種分類方法在同一語料集下的分類性能,結果顯示SVM方法的分類準確率、召回率和F1測度明顯高于其他兩種方法,所以本文選用SVM分類器,對于SVM算法的實現選用工具LibSVM。實驗結果如表2所示。
(13)
實驗4 為本文方法與傳統情感分類方法的性能對比。使用本文提出的方法結合SVM(Local-SVM),使用信息增益提取情感特征結合SVM(IG-SVM),文獻[10]提出的人工抽取情感角色的方法(ER-SVM)和文獻[17]提出的基于主題的情感向量空間模型(BR)的方法,分別對語料集進行訓練,比較4種方法在同樣語料下的分類性能。實驗結果如表3所示。
表3 不同分類方法的分類性能對比
由表3可得:1) 在處理同等規(guī)模的語料時,相較于使用SVM算法分類,本文所提方法在準確率上有較大提高;2) 較傳統的僅使用機器學習的方法,本文所提方法在準確率和召回率上也有所提高;3) 準確率和召回率和文獻[10]所提出方法相比雖然略有下降,但是考慮到本文方法不需要人工收集潛在評價對象,且應用范圍更廣,損失的準確率在可接受范圍之內。
本文提出的基于主題角色的方法將文本潛在評價對象考慮到文本情感分類中來,采用的主題角色模型很好地保存了文本特征,可以有效發(fā)現文本隱藏情感信息,解決了因情感項指向不明引起的文本情感分類誤判的問題,在一定程度上提高了分類的性能。今后的研究工作將繼續(xù)優(yōu)化所提方法的效率,并將該方法推廣應用到短文本及跨領域的情況下。
[1] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學報, 2010, 21(8): 1834-1848.
[2] 徐琳宏, 林鴻飛,趙晶. 情感語料庫的構建和分析[J]. 中文信息學報, 2008, 22(1): 116-122.
[3] 徐琳宏, 林鴻飛, 楊志豪. 基于語義理解的文本傾向性識別機制[J].中文信息學報, 2007, 21(1): 96-100.
[4]TurneyPD,LittmanML.UnsupervisedLearningofSemanticOrientationfromaHundred-Billion-WordCorpus[R].NationalResearchCouncilofCanada, 2002.
[5]TurneyPD,LittmanML.Measuringpraiseandcriticism:inferenceofsemanticorientationfromassociation[J].ACMTransactionsonInformationSystems, 2003, 21(4): 315-346.
[6] 朱嫣嵐, 閔錦, 周雅倩, 等.基于HowNet的詞匯語義傾向計算[J].中文信息學報, 2006, 20(1): 14-20.
[7]PangB,LeeL,VaithyanathanS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[C]//ProceedingsoftheACL-02ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Stroudsburg,PA:AssociationforComputationalLinguistics, 2002: 79-86.
[8] 唐慧豐, 譚松波, 程學旗. 基于監(jiān)督學習的中文情感分類技術比較研究[J]. 中文信息學報, 2007, 21(6): 88-94,108.
[9] 徐軍, 丁宇新, 王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007, 21(6): 95-100.
[10] 胡楊, 戴丹, 劉驪, 等. 基于情感角色模型的文本情感分類方法[J]. 計算機應用, 2015, 35(5): 1310-1313,1319.
[11] 烏達巴拉, 汪增福. 一種擴展式CRFs的短語情感傾向性分析方法研究[J]. 中文信息學報, 2015, 29(1): 155-162.
[12] 朱杰. 基于評價對象及其情感特征的中文文本傾向性分類研究[D]. 上海:上海交通大學, 2010.
[13]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].TheJournalofMachineLearningResearch, 2003, 3: 993-1022.
[14] 林政, 譚松波, 程學旗. 基于情感關鍵句抽取的情感分類研究[J]. 計算機研究與發(fā)展, 2012, 49(11): 2376-2382.
[15] 徐琳宏, 林鴻飛, 潘宇, 等. 情感詞匯本體的構造[J]. 情報學報, 2008, 27(2): 180-185.
[16]EsuliA,SebastianiF.SentiWordNet:Apubliclyavailablelexicalresourceforopinionmining[C]//ProceedingsoftheLREC-06,the5thConferenceonLanguageResourcesandEvaluation,Genova,Italy, 2006: 417-422.
[17] 王磊, 苗奪謙, 張志飛, 等. 基于主題的文本句情感分析[J]. 計算機科學, 2014, 41(3): 32-35.
TEXT SENTIMENT CLASSIFICATION METHOD BASED ON TOPIC ROLE
Liu Chenchen1Feng Xupeng2Hu Yang1Liu Lijun1Huang Qingsong1,3*Duan Chengxiang4
1(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)2(EducationalTechnologyandNetworkCenter,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)3(YunnanKeyLaboratoryofComputerTechnologyApplications,Kunming650500,Yunnan,China)4(KunmingDiShiTechnologyCo.Ltd,Kunming650000,Yunnan,China)
Traditional text sentiment classification methods usually use vocabulary or phrase as feature of a text vector model which may cause emotion point to unknown or hidden view missing. In order to solve these problems, a text sentiment classification method based on topic role modeling is proposed. The method firstly extracted potential evaluation objects in the text and got the evaluation collection. Then it adopted the LDA model to mining topics for the collection of evaluation objects and divides the topics into two kinds of topic roles with positive polarity and negative polarity. After that, the topic roles would be regarded as feature used to store text emotional information. Finally, it let the tendency value of topic role integrate into feature space to improve the feature weight computation method and establish the topic role model. The experimental results show that the proposed method can efficiently improve the effectiveness and accuracy for text classification compared with other traditional text sentiment classification methods.
Text sentiment classification Potential evaluation objects Latent Dirichlet Allocation (LDA) Topic mining Topic role
2015-11-06。國家自然科學基金項目(81360230)。劉晨晨,碩士生,主研領域:機器學習,文本情感分析。馮旭鵬,碩士生。胡楊,碩士生。劉利軍,講師。黃青松,教授。段成香,工程師。
TP391
A
10.3969/j.issn.1000-386x.2017.01.028