宋芷萱
(沈陽師范大學(xué)教育技術(shù)學(xué)院計算機應(yīng)用技術(shù)系,沈陽 110034)
博客評論的情感傾向性分析
宋芷萱
(沈陽師范大學(xué)教育技術(shù)學(xué)院計算機應(yīng)用技術(shù)系,沈陽 110034)
現(xiàn)如今,隨著網(wǎng)絡(luò)的快速發(fā)展,博客逐漸成為一種流行趨勢,人們通過博客來進行交流,那如何來對博客評論進行情感傾向性分析就成為首要解決的問題。博客評論的內(nèi)容簡短而且有一定的格式,顯然不能用傳統(tǒng)的分類方法進行分類,因此,以對候選人A的個人博客為例,選擇用支持向量機和樸素貝葉斯分類器來進行文本分類,再遵循信息檢索的查準率、查全率和精確度這些指標來評估文本分類和情感分析。
博客評論;文本情感分析;支持向量機;樸素貝葉斯
博客,也被稱為網(wǎng)絡(luò)日志,是一種在網(wǎng)絡(luò)上發(fā)布個人信息的一種形式。從個人角度來說,博客是一種表達個人思想,以及與他人分享有價值的資源和知識的一種方式。隨著博客用戶量的俱增,越來越多的用戶不再面對面的交流,而是通過博客來進行廣泛的交流以及知識的共享。
文本分類已經(jīng)成為許多數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用領(lǐng)域,尤其是,從社會網(wǎng)絡(luò)、微博、博客或?qū)I(yè)網(wǎng)絡(luò)等社交媒體服務(wù)中提取數(shù)據(jù)[1]。參與者利用這些服務(wù)來分享自己的觀點、與親友聯(lián)系、保持自己的專業(yè)素養(yǎng)或者追蹤相關(guān)新聞以及熱門話題。文本情感分析[2]又稱為意見挖掘,是以包含主觀情感和作者觀點的文本作為研究對象,通過識別這些文本的主觀性句子或詞語,來對這些文本進行傾向性分析的問題。
本文對博客評論的情感傾向性作了系統(tǒng)的研究,重點討論博客評論的分析算法。
從網(wǎng)頁上收集到的內(nèi)容較比傳統(tǒng)的文本欠缺的是:形式不規(guī)范,雜亂無章,文本長度較短;內(nèi)容密集,其中包含許多網(wǎng)絡(luò)用語、錯別字、超鏈接等,這些都會影響博客評論分析的準確性。因此,進行情感傾向性分析之前,需要經(jīng)過一系列的文本預(yù)處理。
要對博客評論進行情感傾向性分析,首先,需要通過一系列訓(xùn)練得到一個分類器[3],這個分類器通過訓(xùn)練預(yù)料的學(xué)習(xí),能夠找出該類文本的特征,并通過這些特征來進行傾向性的判斷,最終,將該待分類的博客評論分成褒義和貶義兩類。在進行預(yù)處理的時候,要注意停止詞、數(shù)字、符號、空格以及英文字母大小寫的處理。Baeza-Yates和Ribeiro-Neto[4]提出,信息和字詞可共同通過字詞-信息矩陣體現(xiàn)出來,C={x1,…,xn}和m維字詞T={t1,…,tn}為例,在這個矩陣中,每一列代表一個信息,與每列信息相對應(yīng)的每一行代表一個字詞,項(i,j)是在信息xj上字詞ti頻繁項集,下面是一個n維信息和m維字詞的字詞-信息矩陣。如表1:
表1
由于字詞T序列符合字詞詞典,因此,我們能夠把每一列看作Rm與相對于的m維信息,可以使用不同的學(xué)習(xí)方法一句信息的向量表示法來執(zhí)行。
我們?nèi)祟惤?jīng)過系統(tǒng)的學(xué)習(xí),可以通過自己的理解來辨別出一句話、一段話,是褒義還是貶義的,那如何能讓計算機自主的進行文本情感分析呢?本文采用的是把文本信息轉(zhuǎn)變成計算機能夠識別的向量,和使用兩種對文本內(nèi)容進行情感分析較為準確的方法:支持向量機和樸素貝葉斯。
過去的二十年中,支持向量機技術(shù)較于其他算法能夠更好的應(yīng)用于數(shù)據(jù)分析問題。本文主要介紹支持向量機的兩類分類版本,其中,兩類分類版本中類通常被定義為{+1,-1}及其主要特征。支持向量機算法是幾何方法[5],這些方法允許通過解決形式的優(yōu)化問題來構(gòu)建分類函數(shù)[6]。
對于SVM分類的情況,損失函數(shù)通常被定義為:
L(yi,f(xi))=max(1-yi*,f(xi),0)
如此定義損失函數(shù),就是為了找到一個平滑函數(shù)f*(x)屬于HK來解決上述的優(yōu)化問題。因此,屬于HK的平滑函數(shù),有如下形式:
其中,K(x,y)=(x)T(y)是產(chǎn)生HK的核函數(shù)。這樣,f*(x)在幾何上是把數(shù)據(jù)從“輸入空間”映射到“特征空間”。
樸素貝葉斯算法是建立在貝葉斯定理和假設(shè)特征條件獨立之上的一種應(yīng)用非常廣泛的文本自動分類方法[7],算法簡單、穩(wěn)定、且在假定特征條件獨立的情況下,準確率很高。
使用樸素貝葉斯進行分類過程可以分為三個階段:
①訓(xùn)練集準備階段
這個階段主要是根據(jù)實際情況來進行特征屬性的選擇,并進行適當(dāng)?shù)膭澐?,然后人工對一部分?shù)據(jù)進行分類標注,形成訓(xùn)練數(shù)據(jù)集。
假設(shè) x={a1,a2,...,an}是一個待分類項,其中,a1,a2,...,an是 x 的特征屬性。
②分類器訓(xùn)練階段
這個階段是通過計算每個類別在每個特征屬性條件下的條件概率估計以及在訓(xùn)練樣本中的出現(xiàn)頻率來訓(xùn)練生成分類器,并將這些結(jié)果記錄下來。
類別的集合定義為 T={t1,t2,…,tm},并計算 P(t1|x),P(t2|x),…,P(tm|x)。
③分類階段
這個階段是使用通過訓(xùn)練的得到的分類器來對未知的分類項進行分類。
通 過 貝 葉 斯定 理,求 出 P(ti|x)=max{P(t1|x),P(t2|x),…,P(tm|x)},那么就可以判斷出 x 屬于哪一個類別y。
以一個參與大學(xué)選舉的大學(xué)教授為候選人A和可以評論參加選舉過程的人為候選人B,通過兩種學(xué)習(xí)算法來比較不同的內(nèi)容分類技術(shù)和博客評論的情感傾向性分析。首先,先用樸素貝葉斯分類器把這些信息手動分類,分為{+1,-1}兩個類別,形成訓(xùn)練樣本,再根據(jù)對候選人A和候選人B進行分類的分類消息,計算并估計出該分配給哪個類別,如此重復(fù)操作。
本文遵循信息檢索[8]的查準率、查全率和精確度這些指標來評估文本分類和情感分析的不同方法。
類別Ci的查準率:類別Ci中實際屬于該類所有信息的分數(shù)
類別Ci的查全率:類別Ci中應(yīng)該正確屬于該類所有信息的分數(shù)
類別Ci的精確度:整體的正確分類結(jié)果的比例
本文通過多次使用樸素貝葉斯和支持向量機兩種方法,求其平均值來進行文本分類,再根據(jù)信息檢索的三個指標來評估評論的情感傾向性。通過多次實驗看出,傳統(tǒng)的分類方法中推薦消除停止詞這個方法可能會刪除一些情緒分析中的有價值的信息,因此,停止詞不能盲目地去消除,而是應(yīng)該仔細過濾,來保留提高情感分析的準確性的術(shù)語。
博客評論是非常短的消息,當(dāng)停止詞和其他多余的文本信息被刪除時會變得更短。普通文本的文檔通常較長,并且定義每個主題或類別的特征術(shù)語往往更頻繁出現(xiàn),因此,用來分析文本的情感傾向性的重要詞語的出現(xiàn)頻率遠遠低于文本分類的典型問題。那么我們是否可以通過改進績效指標,以保留通常在傳統(tǒng)文本分類方法中過濾的停止詞。因此,我們決定重復(fù)上述實驗,但這次保留停止詞,試圖保留任何可以作為有價值并且可能在我們以前的測試中已經(jīng)被消除的組成部分來區(qū)分不同的意見趨勢。
近年來,隨著網(wǎng)絡(luò)的飛速發(fā)展,如何更快速、更準確地分析博客文本的情感傾向性就變得尤為重要??梢酝ㄟ^使用潛在語義分析等情感分析的替代方法,或者通過創(chuàng)建用于情緒分析的特定詞典,此外,還使用從正在研究的語料庫導(dǎo)出的術(shù)語等來定制特定的博客文件。我們可以通過對SVM和Naive Bayes得到的結(jié)果求平均值,可以提高整體的準確性[9]。這個方法可以在新的法律和公共策略的設(shè)計過程中、營銷和促銷的活動、商業(yè)產(chǎn)品和服務(wù)相關(guān)的自動分類和檢測反饋消息等中進行應(yīng)用,得到有價值的文本信息。
[1]Li,N.,&Wu,D.D.(2010).Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast.Decision Support Systems,48(2):354-368.
[2]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計算機應(yīng)用,2008:2725-2728
[3]李浩.基于評論的博客搜索引擎的設(shè)計與實現(xiàn)[D].重慶大學(xué),2016
[4]Baeza-Yates,R.,&Ribeiro-Neto,B.(2011).Modern Information Retrieval:the Concepts and Technology Behind Search.Reading:Addison-Wesley.http://www.mir2ed.com.
[5]Moguerza,J.,&Munoz,A.(2006).Support Vector Machines with Applications.Statistical Science,21(3):322-336.
[6]Tikhonov,A.,&Arsenin,V.(1977).Solutions of Ill-Posed Problems.Scripta Series in Mathematics.New York:Winston
[7]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:229.
[8]Olson,D.L.,&Delen,D.(2008).Advanced Data Mining Techniques(1st ed.).Berlin:Springer.
[9]Dietterich,T.(2000).Ensemble Methods in Machine Learning.In Lecture Notes in Computer Science:Vol.1857.Multiple Classifier Systems(pp.1-15).Berlin:Springer.doi:10.1007/3-540-45014-9_1.
Analysis of Emotional Orientation on Weblog Comments
SONG Zhi-xuan
(Department of computer application technology,College of Educational Technical,Shenyang Normal University,Shenyang 110034)
Nowadays,with the rapid development of the network,the blog has gradually become a popular trend,people through the blog to communicate,then how to comment on the emotional commentary of blog comments has become the primary solution to the problem.The content of blog comment is short and has a certain format,obviously cannot be classified by traditional classification method.Therefore,chooses to use support vector machine and naive Bayesian classifier for text classification,and then follows the information retrieval precision,recall and accuracy of these indicators to assess the text classification and emotional analysis.
Weblog Comments;Naive Bayes;Support Vector Machines;Emotional Orientation
1007-1423(2017)32-0052-03
10.3969/j.issn.1007-1423.2017.32.012
宋芷萱(1991-),女,遼寧省遼陽市人,沈陽師范大學(xué)教育技術(shù)學(xué)院計算機應(yīng)用技術(shù)專業(yè),在讀研究生,研究方向為數(shù)據(jù)挖掘
2017-08-29
2017-10-23