劉鋼,張維石
(大連海事大學(xué),大連 116026)
基于決策樹的網(wǎng)民評價情感分析
劉鋼,張維石
(大連海事大學(xué),大連 116026)
通過擴(kuò)充情感詞典詞基數(shù),新建中立詞詞典,引入網(wǎng)絡(luò)流行詞等方式豐富情感詞典,提高分詞后情感詞匹配的準(zhǔn)確性;以某評價類網(wǎng)站網(wǎng)民評論作為原始數(shù)據(jù)進(jìn)行分詞,提取相應(yīng)的正向情感分?jǐn)?shù),負(fù)向情感分?jǐn)?shù),中立情感詞個數(shù),評論情感總分值等特征,通過對連續(xù)數(shù)據(jù)的規(guī)約提煉離散屬性,按照信息增益最大原則生成決策樹進(jìn)行評論的情感分類,去除小概率節(jié)點(diǎn)后進(jìn)行兩次實(shí)驗(yàn),對好評的識別率達(dá)到90%,對差評的識別率達(dá)到92%。對中評的識別率達(dá)到75%。
情感詞典;特征;信息增益;決策樹
近年來,類似淘寶網(wǎng)、大眾點(diǎn)評、美團(tuán)網(wǎng)等帶有評價類功能的網(wǎng)站迅速崛起,用戶在購買商品后分享自己對商品的體驗(yàn)成為了其他用戶購買同類商品的重要參考指標(biāo)。網(wǎng)絡(luò)不再僅僅是人們獲取信息的方式,同時也成為了人們表達(dá)情感的重要平臺[1]。網(wǎng)民可以通過發(fā)布評價來抒發(fā)自己對產(chǎn)品的滿意程度,表達(dá)自己的情感,這些帶有情感傾向的語料形成了海量的情感文本信息。通過對這些文本信息的分析可得出一款產(chǎn)品的總體用戶滿意度,使用戶對產(chǎn)品有更加直觀的了解,具有一定的現(xiàn)實(shí)意義,同時也利于商家對自身產(chǎn)品的改進(jìn),具有一定的商業(yè)價值[2]。
文本情感分析是指將帶有感情色彩的文本信息進(jìn)行處理后,對處理結(jié)果進(jìn)行歸納總結(jié)。國外很多學(xué)者在文本情感分析上做了深入的研究,文獻(xiàn)[3]采用了情感詞典,通過情感評價詞的極性判斷情感。文獻(xiàn)[4]采用了支持向量機(jī)作為分類模型,為機(jī)器學(xué)習(xí)在情感分析中的應(yīng)用提供了經(jīng)驗(yàn)。文獻(xiàn)[5]提出了對有監(jiān)督學(xué)習(xí)的訓(xùn)練集自動標(biāo)注的自舉方法。
我國學(xué)者在情感分析方面也進(jìn)行了一些相關(guān)研究。文獻(xiàn)[6]采用了詞向量模型進(jìn)行情感分析。文獻(xiàn)[7]采用了支持向量機(jī)的方式對酒店客戶評論進(jìn)行了分析,并且對評論中表情進(jìn)行了處理。文獻(xiàn)[8]提出了兩種基于HowNet詞典的語義傾向性計算方法,用來計算詞語與褒貶義基準(zhǔn)詞之間的相關(guān)性。
然而因?yàn)檎Z言習(xí)慣的不同,國外的一些研究方法對處理中文文本存在一定的不適用性,無法滿足中文情感分析的需要,而國內(nèi)一些研究大多基于書面語,缺少對“評價”這類偏向口語化的語料的分析,只對評價做出“好評”和“差評”的區(qū)分,忽略了評價體系中“中評”的區(qū)分,影響最終實(shí)驗(yàn)效果。本文采用臺灣大學(xué)情感詞典作為基礎(chǔ)情感詞典,在此基礎(chǔ)上擴(kuò)充評價類語料中常出現(xiàn)的情感詞語,并且找出部分帶有中立傾向的詞語生成中立詞詞典,同時還對應(yīng)建立了程度副詞詞表,通過匹配結(jié)果得到不同屬性構(gòu)建決策樹,最終完成情感分析。
圖1 用戶原始評論
本文采用的分詞工具是通過對百度自然語言處理的開放API進(jìn)行二次開發(fā)形成的分詞工具,通過該分詞工具進(jìn)行文本處理分詞,分詞前后的文本如圖1和圖2所示。
圖2 分詞后的用戶評論
通過對臺灣大學(xué)NTUSD-簡體中文情感詞典的研究發(fā)現(xiàn),該詞典中書面語較多,而網(wǎng)民在對商品或酒店等評價時往往會帶有較多的口語詞匯,如“還可以”,“就那樣”,“挺不錯”等,與臺灣大學(xué)的情感詞典匹配率較低。同時,隨著互聯(lián)網(wǎng)的發(fā)展,人們的日常生活中融入了很多網(wǎng)絡(luò)流行詞,這些詞匯也越來越多的出現(xiàn)在網(wǎng)民評價中,如形容產(chǎn)品品質(zhì)優(yōu)秀的詞匯“點(diǎn)贊”,“666”。代表對購買產(chǎn)品失望的網(wǎng)絡(luò)詞匯“心塞”等。還有一些流行詞和舊詞發(fā)音相同,常常用來做舊詞的替代品,比如很多網(wǎng)民會使用“辣雞”來代替舊詞“垃圾”,表明對某次消費(fèi)的體驗(yàn)很失望。這樣的詞匯只靠傳統(tǒng)的情感詞典將無法覆蓋到,降低情感詞的匹配率,影響決策分類效果。本文在對1457條樣本評論切詞后,通過人工標(biāo)注的方法,將一些評論中較常出現(xiàn)的口語詞匯和新出現(xiàn)的流行詞匯,網(wǎng)絡(luò)熱詞等加入了情感詞典,實(shí)現(xiàn)了對情感詞典的擴(kuò)充,提高了情感詞匹配度。
為了實(shí)現(xiàn)對中評的判定,本文還構(gòu)建了中立詞詞典,中立詞詞典的構(gòu)建基于人工標(biāo)注為中評的一批評論,該批評論分詞后可找出一些形容產(chǎn)品品質(zhì)一般的詞語,如一般,差強(qiáng)人意等詞匯。表1為部分中立詞。
除了將標(biāo)注的正向情感詞和負(fù)向情感詞加入情感詞典以及構(gòu)建中立詞詞典外,本文還建了程度副詞詞表,對于分詞后評論,如果評論中含有程度副詞,則會對該句子的分值造成一定影響,這是由于程度副詞會加深或降低情感詞的感情程度,如非常,相當(dāng),十分等程度副詞,表明了網(wǎng)民對于其評價產(chǎn)品的高情感,需要做相應(yīng)的加權(quán)處理,通過對程度副詞的判別對情感分?jǐn)?shù)進(jìn)行加權(quán),提高下一個情感詞對句子分值的影響,使最終的情感分值更加合理。程度副詞的權(quán)值分別為0.5,1,1.5和2。程度詞表如表2所示。
表1 部分中立詞詞表
表2 程度副詞詞表
本文將網(wǎng)民的一條評價作為一個基準(zhǔn)點(diǎn),切詞后進(jìn)行情感詞識別,在流程處理前每條評論的正向情感分?jǐn)?shù),負(fù)向情感分?jǐn)?shù),以及總分?jǐn)?shù)都為0。在遍歷過程中,如果程度副詞之后出現(xiàn)了情感詞,則該次匹配到的情感詞分?jǐn)?shù)為原始情感分?jǐn)?shù)乘以程度副詞權(quán)值,比如“他家牛排不但用料好,而且廚師調(diào)味恰到好處,來他家吃牛排真是一個十分享受的過程”,其中程度副詞“十分”之后出現(xiàn)了正向情感詞“享受”,則該次匹配的正向情感分?jǐn)?shù)將從原來的+1變?yōu)?2。
圖3是根據(jù)擴(kuò)詞后的情感詞典,中立詞詞典以及程度副詞詞表進(jìn)行情感屬性提取的流程圖。其中mark代表加權(quán)標(biāo)志位,posScore代表正向情感分?jǐn)?shù),negScore代表負(fù)向情感分?jǐn)?shù),weight代表加權(quán)后的分?jǐn)?shù)。
圖3 屬性提取流程圖
評論經(jīng)過分詞處理后進(jìn)行情感詞典匹配,每條評論中的正向情感分值由該條評論中所有正向情感詞加權(quán)后相加得出,設(shè)Pos為正向情感分值,n為匹配到的數(shù)量,score為原始分值則:
同理,每條評論中的負(fù)向情感分值由該條評論中所有負(fù)向情感詞加權(quán)后相加得出設(shè)Neg為負(fù)向情感分值,則:
其中weight為每個情感詞所對應(yīng)的權(quán)重,如果該情感詞前一個詞并非程度副詞,則weight等于1。設(shè)中立詞個數(shù)為Midd,中立詞的weight均為一,則:
除了匹配到的數(shù)據(jù)外,本文引入了情感總分值的概念作為一個分類屬性,情感總分值為正向情感分值減負(fù)向情感分值,設(shè)情感總分值為Tscore,則:
Tscore=Pos-Neg
情感總分值越大則該條評價為正面評價的概率就越大,分值越小則該條評論為負(fù)面評價的概率就越大。將樣本評論按照圖3的流程圖處理后,原始評論將生成表3的文件
表3 情感詞典匹配后生成文件
決策樹算法源自機(jī)器學(xué)習(xí),用以挖掘數(shù)據(jù)內(nèi)在的規(guī)律,其基本思想為貪心算法[9]。本文用的決策樹算法是ID3算法。ID3算法中首先要找到最有判別力的屬性,把樣本分為多個子集,對于每個子集再次選擇最有判別力的屬性進(jìn)行劃分,直到所有子集僅包含同一類型的數(shù)據(jù)為止,最后得到一棵決策樹。
在對決策樹的任意一個非葉子節(jié)點(diǎn)劃分之前需要計算每一個屬性所帶來的信息增益,信息增益越大,樣本區(qū)分能力越強(qiáng),該屬性越重要。按照信息論的定義,事件S的全概率劃分為(S1,S2…Sn),每部分發(fā)生的概率為(p1,p2…pn),則信息熵的計算公式為:
在經(jīng)過情感詞典匹配后,原始的評論預(yù)料將生成多維度的屬性信息,選取四個維度的信息進(jìn)行決策樹構(gòu)建,分別是評論分值,評論正向分?jǐn)?shù),評論負(fù)向分?jǐn)?shù),評論中立詞個數(shù)。通過對每個屬性的歸一化處理,將屬性處理成離散的分類條件,可以獲取比原始數(shù)據(jù)范圍更小的屬性且新屬性不會影響數(shù)據(jù)挖掘效果。轉(zhuǎn)換規(guī)則為評論總分?jǐn)?shù)大于0用A表示,分?jǐn)?shù)等于0用B表示,分?jǐn)?shù)小于0用C表示;正向情感分?jǐn)?shù)和負(fù)向情感分?jǐn)?shù)大于4用A表示,大于等于2小于4用B表示,大于等于0小于2用A表示。中立詞個數(shù)大于2用A表示,大于0用B表示,等于0用C表示。部分?jǐn)?shù)據(jù)轉(zhuǎn)換前后如表4,5所示。其中人工標(biāo)注結(jié)果P代表好評,N代表差評,M代表中評。
表4 歸一化前數(shù)據(jù)
表5 歸一化后數(shù)據(jù)
以表5中的數(shù)據(jù)為樣本,采用ID3算法構(gòu)建決策樹:
(1)計算信息熵。在1457個人工標(biāo)注樣本中共有好評523個,中評185個,差評749個。則:
Entropy(S)=1.401bit
(2)計算信息增益
以“評論總分值”為例,信息增益的計算如下:
樣本中分?jǐn)?shù)為A數(shù)據(jù)589個,其中標(biāo)注為好評的個數(shù)為423個,Entropy(v1)=0.8579
樣本中分?jǐn)?shù)為B數(shù)據(jù)296個,其中標(biāo)注為中評的個數(shù)為47個,Entropy(v2)=0.6313
樣本中分?jǐn)?shù)為C數(shù)據(jù)572個,其中標(biāo)注為差評的個數(shù)為497個,Entropy(v3)=0.5604
從上述決策樹中提取分類規(guī)則進(jìn)行實(shí)驗(yàn)。
實(shí)驗(yàn)一:另選900條該網(wǎng)站人工標(biāo)注評論,其中好評300條,差評300條,中評300條進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)一結(jié)果
實(shí)驗(yàn)二:隨機(jī)另選1700條該網(wǎng)站評論進(jìn)行人工標(biāo)注,標(biāo)注結(jié)果為好評1183條,中評134條,差評383條,實(shí)驗(yàn)結(jié)果如表7所示。
表7 實(shí)驗(yàn)二結(jié)果
圖4 評論情感判別決策樹
本文以某評價類網(wǎng)站的原始評論數(shù)據(jù)作為研究對象,先對部分訓(xùn)練數(shù)據(jù)進(jìn)行切詞,尋找評論中高頻出現(xiàn)的且不在原始情感詞典中的情感詞,并且加入網(wǎng)絡(luò)流行詞,進(jìn)行情感詞典的擴(kuò)充,提高情感詞匹配率,然后對匹配數(shù)據(jù)進(jìn)行歸一化處理,用四個維度的屬性構(gòu)建決策樹,使用決策樹來判定評論的最終情感,取得了不錯的效果。該研究可使網(wǎng)民對某一品牌產(chǎn)生更直觀的認(rèn)識,對網(wǎng)民在生活中的產(chǎn)品選擇提供指導(dǎo)。在實(shí)驗(yàn)中發(fā)現(xiàn),好評和差評的準(zhǔn)確率相對較高,這與情感詞典中的正向詞,負(fù)向詞較多有一定關(guān)系,即正向情感詞和負(fù)向情感詞的匹配率較高,可做出識別性較強(qiáng)的判別屬性,同時發(fā)現(xiàn)中評的準(zhǔn)確率較低,下一步將對中評展開研究,以搜索一種較好的判別方法識別中評。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848
[2]張珊.基于表情圖片與情感詞的中文微博情感分析
[3]Redman T C.The Impact of Poor Data Quality on the Typical Enterprise[J].Communications of the Acm,1998,41(2):49-71.
[4]Herzog T N,Scheuren F J,Winkler W E.Data Quality and Record Linkage Techniques[J].Journal of the American Statistical Association,2008,103(482):881-881.
[5]Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[C].Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2003:105-112.
[6]魏廣順,吳開超.基于詞向量模型的情感分析[J].計算機(jī)系統(tǒng)應(yīng)用,2017,26(3):182-186.
[7]石強(qiáng)強(qiáng),趙應(yīng)丁,楊紅云.基于SVM的酒店客戶評論情感分析[J].計算機(jī)與現(xiàn)代化,2017(3):117-121.
[8]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[C].全國計算語言學(xué)聯(lián)合學(xué)術(shù)會議.2005:14-20.
[9]韓麗娜,韓改寧.決策樹算法在學(xué)生成績分析中的應(yīng)用研究[J].電子設(shè)計工程,2017,25(2):18-21.
Emotion Analysis of Internet User's Reviews Based on Decision Tree
LIU Gang,ZHANG Wei-shi
(Dalian Maritime University,Dalian 116026)
Enriches the emotional dictionary and improves the accuracy of matching emotional words after word segmentation by expanding the emotional dictionary word base,building neutral dictionary and leading into network buzzwords.On the other hand,Internet user's reviews of evaluation website are used as the original data.After extracting the amount of text features,such as positive emotion scores,negative emotion scores,neutral emotional words,and the total score of emotion Comment,gets the classification of Comments on the emotion through refining the discrete attributes for continuous data specification and generates a decision tree according to the maximum gain of information.Two experiments are performed after removing the small probability nodes,the recognition rate of praise and bad review reach 90%and 92%.The recognition rate of the medium evaluation reaches 75%.
Emotional Dictionary;Feature;Information Gain;Decision Tree
中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資助This work is supported by the Science and Technology Funds of Dalian(Grant No.2015A11GX010)and the Fundamental Research Funds for the Central Universities(Grant No.3132016308)
1007-1423(2017)32-0015-05
10.3969/j.issn.1007-1423.2017.32.004
劉鋼(1993-),男,山西長治人,研究方向?yàn)檐浖夹g(shù)與方法
2017-09-21
2017-10-20