摘 要:對評論進行情感傾向分析,就是對評論文本表達的態(tài)度和情感進行分析,判斷評論文本對產(chǎn)品的情感傾向性,是肯定該產(chǎn)品還是否定該產(chǎn)品。本文對情感分析的概念以及研究內(nèi)容作了明確的分析,并且對情感分析的研究現(xiàn)狀進行了探討。為情感分析的進一步研究提供了理論基礎。
關鍵詞:網(wǎng)絡評論;情感分析;傾向性判斷
如今社會越來越多的人開始通過網(wǎng)絡展示自己的心聲。他們通過論壇,博客,微博等發(fā)表自己對商品,服務,事件的關注和看法,表現(xiàn)形式多為半結構化或者非結構化的評論文本。人們在發(fā)表自己對某產(chǎn)品服務的看法或者評論的時候,常常都會帶有比較明顯的情感傾向性。從這些評論文本中準確的提取出這些有用的傾向性觀點,成為了人們的迫切需求。
1 情感分析的概念
情感分析,又名情感分類,它的主要任務是讓計算機自動識別評論內(nèi)容的主觀情感傾向性。自動判定出作者對評論內(nèi)容的態(tài)度是積極的還是消極的,即作者是支持該評論內(nèi)容,還是反對該評論內(nèi)容。評論內(nèi)容可以是某個觀點,也可能是某個事物。情感分析是一種特殊的文本分類問題。它不同于傳統(tǒng)的基于主題的自動文本分類?;谥黝}的自動文本分類依據(jù)的是文本的主題性質(zhì),而情感分析主要目的是判別自然語言中所表達的觀點、喜好和態(tài)度等相關信息。
2 情感分析的應用
從大量的評論文本中提取其中包含的情感信息在許多方面都有廣闊的應用前景,例如:
在商務智能領域中,情感分析技術通過分析消費者在電子商務網(wǎng)站中針對客戶滿意度評價、服務質(zhì)量評價,向其他用戶推薦受到好評的產(chǎn)品、服務。同時,還可以幫助商家高效的利用用戶的評論反饋信息,綜合得出這些客戶對該種產(chǎn)品或服務的普遍看法,進行消費市場分析,合理尋找廣告對象和分析消費走勢,達到增強企業(yè)的綜合競爭力這個商務智能最終目標;在政府智能領域中,可以使用情感傾向分析技術建立網(wǎng)絡評價檢測系統(tǒng),定期對敵對觀點和負面評價的增長與否進行監(jiān)測和分析。對政府掌握社會發(fā)展的動向、建立官民之間互動和溝通的渠道、探索解決問題的新思路等都有很大幫助;在社交網(wǎng)絡領域中,情感分析工具可以用來對微博等評論進行情感傾向分析。如根據(jù)個人一段時間內(nèi)的微博,統(tǒng)計和分析其最近的情感狀態(tài)、情緒波動曲線等;針對某一事件的評論微博,分析統(tǒng)計網(wǎng)絡輿論的情感狀態(tài)等。
3 情感分析的研究內(nèi)容
在目前這個網(wǎng)絡盛行的時代中,從網(wǎng)絡中存在的評論去挖掘客戶的感知信息是新興的研究方向。Popescu將網(wǎng)絡評論挖掘研究工作劃分為以下四個子任務:⑴挖掘用戶對于產(chǎn)品特征的主觀意見;⑵判斷評論內(nèi)容的情感傾向;⑶挖掘重要的產(chǎn)品特征;⑷依據(jù)評論意見的重要性進行排名。研究包括主客觀內(nèi)容識別,情感傾向分析以及產(chǎn)品特征挖掘等。
3.1 主客觀內(nèi)容識別
主客觀分析,就是判斷某個語言單位表達的是評論者的主觀觀點還是評論者陳述的客觀事實。其中的語言單位可以有不同的粒度,如:篇章、段落、句子、短語或詞。
主觀性文本,是指對非事實進行描述的文本,是基于斷言或評論的帶有個人情感傾向的文本。如:這個手機外觀漂亮,手感好,挺好用,很喜歡!主觀性文本在用詞、語法和句型上沒有嚴格的限制。這樣的主觀性文本中常常出現(xiàn)非規(guī)范性的詞語和語法不規(guī)范的句子結構,甚至會出現(xiàn)非規(guī)范的網(wǎng)絡語言。因此,相對于規(guī)范的傳統(tǒng)文本,主觀性文本的處理更加困難和復雜。
客觀性文本,是對事實進行描述的文本,具有客觀性、穩(wěn)定性、確定性和唯一性等特點。如:該手機是直板機。
3.2 情感傾向分析
情感傾向分析的目的,是判斷給定的文本片段中所體現(xiàn)的說話者的情感傾向,通??煞譃檎妫撁鎯煞N情感。例如:手機外觀造型獨特,做工精湛。對手機做出了正面的評價。這手機操作時很慢,沒有一點速度感!對手機做出了負面評價。
3.3 產(chǎn)品特征提取
網(wǎng)絡評論中的產(chǎn)品特征提取是指通過計算機從大量的網(wǎng)絡客戶產(chǎn)品評論中自動地獲取備受關注的重要產(chǎn)品特征,產(chǎn)品的特征通常是產(chǎn)品或其部件的屬性、功能等。通過這項技術可以分析用戶對于產(chǎn)品具體特征的具體喜好情況,其準確性和全面性是非常重要的。
4 情感分析的研究方法以及目前的研究現(xiàn)狀
情感傾向分析的主要方法分為有監(jiān)督機器學習方法[1-2],無監(jiān)督算法以及半監(jiān)督算法。有監(jiān)督機器學習算法就是產(chǎn)生一個聯(lián)系數(shù)據(jù)實例集合A和情感傾向類標集合C的分類/預測函數(shù),這個函數(shù)可以用于預測新的屬性集合的情感傾向類標。由于不同領域的特征差異較大及沒有公開的有標注的數(shù)據(jù)信息等,該方法目前難以滿足現(xiàn)實的要求。無監(jiān)督算法是指人們事先對分類過程不施加任何的先驗知識,依賴大規(guī)模語料庫來進行學習,在英文領域,無監(jiān)督情感傾向分析已經(jīng)初步取得了一些成果,然而,對于中文領域的研究還處于起步階段,而且由于中文與英語之間有很多不同之處,使得很多英文領域取得的分析方法和成果,不能直接應用于中文處理中。半監(jiān)督學習是一種介于監(jiān)督學習和無監(jiān)督學習之間的學習方式,使用大量的未知類別標記的樣本數(shù)據(jù),同時使用少量已知類別標記數(shù)據(jù),進行模式識別工作。當使用半監(jiān)督學習時,將會要求盡量少的人工參與,同時,準確性較高。近幾年來,基于半監(jiān)督學習的情感分類方法也受到很大程度的重視。
[參考文獻]
[1]唐慧豐,譚松波,程學旗.基于監(jiān)督學習的中文情感分類技術比較研究[J].中文信息學報.2007,21(6):88-94.
[2]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報.2007,21(6):95-100.