• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Web文本情感分析研究綜述

      2014-08-08 03:53:37李光敏許新山熊旭輝
      現(xiàn)代情報 2014年5期
      關(guān)鍵詞:情感分析

      李光敏+許新山+熊旭輝

      基金項目:湖北省教育廳青年科學(xué)技術(shù)研究項目(項目編號:Q20132503);湖北師范學(xué)院文理學(xué)院2012教學(xué)研究項目(項目編號:XJ201219)。

      作者簡介:李光敏(1979-),男,講師,碩士,研究方向:文本挖掘、情感分析?綜述?

      〔摘要〕隨著Web20的迅速發(fā)展,互聯(lián)網(wǎng)成為人們表達觀點、抒發(fā)情感的重要工具,如何有效地從Web文本中提取、歸納出用戶的情感觀點是研究者所面臨的重要問題。本文首先提出對日益增多的Web文本進行情感分析的必要性。然后從文本主客觀性分類、情感極性分類和主題及觀點持有者抽取等方面介紹文本情感分析在國內(nèi)外的研究進展;最后總結(jié)出今后需深入研究的問題。

      〔關(guān)鍵詞〕情感分析;主客觀分類;情感極性;情感信息抽取

      DOI:10.3969/j.issn.1008-0821.2014.05.037

      〔中圖分類號〕TP18〔文獻標(biāo)識碼〕A〔文章編號〕1008-0821(2014)05-0173-04

      An Overview of Research on Web Text Sentiment AnalysisLi GuangminXu XinshanXiong Xuhui

      (College of Computer Science and Technology,Hubei Normal University,Huangshi 435000,China)

      〔Abstract〕With the rapid development of Web20 technology,Internet has become an important tool for people to express their opinion and emotion.It is a challenge for researchers how to extract and summarize user opinions expressed in web text.Firstly,this paper presented the necessity of sentiment analysis on the growing Web text.Then it introduced the research progress both at home and abroad of text sentiment analysis from the prospect of emotional information classification and information extraction.Finally,it summarized the sentiment analysis application status,existing problems and deficiencies of it.

      〔Keywords〕sentiment analysis;subjective classification;sentiment polarity;information extraction

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,Web文本成為交流情感、發(fā)表觀點的主要載體和熱點話題的信息源。用戶通過社會化媒體(論壇、博客、微博)分享對所購商品的使用感受、新上映電影的評論、當(dāng)前熱點新聞的個人看法等,這些言論往往包含有喜、怒、哀、樂、肯定、否定、中立等個人豐富的情感和觀點。

      正是這些包含豐富情感的Web評論文本的涌現(xiàn),一方面幫助生產(chǎn)廠商通過網(wǎng)絡(luò)口碑(Electronic Word-of-mouth)了解產(chǎn)品優(yōu)勢和不足,以改進產(chǎn)品設(shè)計和服務(wù),調(diào)整廣告投放策略,獲得市場競爭優(yōu)勢;另一方面幫助消費者了解產(chǎn)品性能,縮短購買決策時間。如果僅靠手工對這些日益增長的海量信息進行歸納、分類,顯然是不現(xiàn)實的。因此結(jié)合信息檢索、自然語言處理、機器學(xué)習(xí)等領(lǐng)域知識對非結(jié)構(gòu)化的文本進行提取和分類的情感分析技術(shù)(Sentiment Analysis)便應(yīng)運而生。

      1文本情感分類

      廣義上講,文本信息主要用來描述客觀性事實和表達主觀性觀點[1],當(dāng)前的文本信息處理大多通過關(guān)鍵詞抽取文本描述中特定事件發(fā)生的時間、地點、人物、屬性等客觀信息。文本情感分類則先對文本進行主客觀分類,然后對主觀性文本中的情感信息劃分極性。極性劃分是指對主觀性文本進行情感極性的識別,并分別標(biāo)注為正面(Positive)的肯定、負面(Negative)的否定和中性(Neutral),即完成情感信息分類的第二大任務(wù)。

      11主客觀分類國內(nèi)外研究現(xiàn)狀

      Wiebe[2]等人較早將形容詞、副詞等和標(biāo)點及句子位置作為特征,設(shè)計了樸素貝葉斯(Nave Bayes)分類器,采用10折交叉驗證的測試方法,并通過實驗證明平均分類準(zhǔn)確率達到815%。Wiebe[3]又在此基礎(chǔ)上加入詞性和基于詞典的語義詞兩類特征項,使得分類效果提升明顯。Ortega[4]通過無監(jiān)督粗粒度的詞義消岐方式來區(qū)分每個詞的客觀、主觀、強主觀性用法,從而完成句子級的主客觀分類。

      由于中文表達的復(fù)雜性和特殊性,國內(nèi)在該方面的研究成果不多。Yao[5]較早通過預(yù)選特征項(情感形容詞、第一或第二人稱代詞、標(biāo)點符號、感嘆詞、動詞、數(shù)字和日期),使用Weka中多種分類算法進行性能測試,最后采用6種穩(wěn)定特征項和用于支持向量分類的連續(xù)最小優(yōu)化算法(SMO)能達到最高F度量為938%的分類效果。Wang[6]通過對比實驗分析了上下文信息對主客觀分類的影響。

      從國內(nèi)外研究現(xiàn)狀來看,通過分類器和特征項選取是完成文本主客觀分類的主要方法,那么今后采用更深層、更具針對性的特征項更能提高分類效果。

      12主觀性文本中的情感極性分類研究

      主觀性文本中的情感極性分類目前主要有兩種研究思路:基于情感知識的情感詞典建立[7]和基于機器學(xué)習(xí)的特征選取。

      121基于情感知識

      Tong[8]通過人工抽取與影評相關(guān)的詞匯(great acting、uneven editing)進行情感極性(positive或negative)標(biāo)記后建立專門的情感詞典。Hu[7]通過使用已標(biāo)注極性的形容詞,結(jié)合WordNet中詞間的同義、近義關(guān)系來判斷新詞的情感極性的方法來判斷主觀性文本的情感極性,該方法解決了Tong建立的情感詞典只針對特定領(lǐng)域(影評)的問題。2008年Bitext[9]團隊不使用統(tǒng)計學(xué)知識而通過計算語言學(xué)(Computational Linguistics)實現(xiàn)了6種語言的短語級文本的情感極性分類,并公布了他們的API。

      中文文本情感極性研究方面,李鈍[10]等人從語言學(xué)角度出發(fā),分析詞典中對詞語義定義的特點,采用“情感傾向定義”權(quán)重優(yōu)先的計算方法獲得短語中各詞的語義傾向度,然后分析短語中各詞組合方式的特點,提出中心詞概念對各詞的傾向性進行計算來識別短語的極性和強度。Meng[11]通過定義關(guān)鍵詞類別、建立關(guān)鍵詞詞庫和關(guān)鍵詞模板庫,設(shè)計模板匹配算法和文本褒貶傾向值算法來實現(xiàn)中文文本的情感極性分類。

      通過情感知識進行文本極性分類主要存在如下問題:(1)該類方法從詞匯角度出發(fā),如果文本中含有否定詞、雙重否定詞、轉(zhuǎn)折詞、比較詞會對句子級和篇章級的情感極性分類造成影響;(2)字典中所選情感詞大多是情感特征比較明顯的詞語(形容詞或副詞),但其他詞語也含有褒貶情感,如“做人不能太CNN”,“‘延遲退休讓‘以房養(yǎng)老,草泥馬你何時給老百姓分過房了?”中的“CNN”和“草泥馬”暗示負面情感。這類網(wǎng)絡(luò)新詞也增加了情感詞典建立的難度。

      endprint

      122基于機器學(xué)習(xí)算法

      基于機器學(xué)習(xí)算法方式主要使用訓(xùn)練集對統(tǒng)計模型進行訓(xùn)練,最后用訓(xùn)練好的分類器預(yù)測新輸入文本中的情感極性。

      Pang[12]使用支持向量機(SVM)、最大熵(ME)和樸素貝葉斯(NB)3種分類器對篇章級的電影評論文本進行分類對比,發(fā)現(xiàn)機器學(xué)習(xí)方法比基于人工標(biāo)注特征的方法更有效,并且SVM在3種分類器中平均表現(xiàn)最好。Thelwall[13]結(jié)合研究用戶書寫習(xí)慣(含感嘆號、重復(fù)標(biāo)點符號、單詞中字母重復(fù)等)實現(xiàn)SentiStrength算法對MySpace評論進行極性分類,實驗結(jié)果表明正向預(yù)測準(zhǔn)確率達到606%,負向準(zhǔn)確率達到728%。

      國內(nèi)方面,Liu[14]提出了基于層疊式CRFs模型的句子褒貶度分析方法能在有效識別句子褒貶度的同時,提高了句子褒貶強度判別的準(zhǔn)確度。徐軍[15]等人利用樸素貝葉斯和最大熵方法進行新聞及評論語料的情感分類,其準(zhǔn)確率最高能達到90%,同時選擇具有語義傾向的詞匯作為特征項、對否定詞正確處理和采用二值作為特征項權(quán)重能提高分類的準(zhǔn)確率。

      從前人的研究不難看出,使用機器學(xué)習(xí)算法對于主觀性文件進行情感極性分類的關(guān)鍵在于領(lǐng)域語料庫的完善程度、特征選取及權(quán)重計算方法和分類算法的選擇。

      2情感信息抽取

      Kim[16]認為情感信息抽取主要從主觀性文本中確定主題、觀點持有者、陳述和情感以及它們之間的關(guān)系,抽取出有價值的情感信息。這一階段的主要任務(wù)有:(1)識別評價對象或主題,如手機產(chǎn)品評論中的產(chǎn)品屬性(“外觀”,“通話質(zhì)量”)或新聞事件中某個話題(“延遲退休”);(2)識別觀點持有者(包括個人、機構(gòu)),如“中方對中國駐敘使館落入炮彈感到震驚,予以強烈譴責(zé)”中觀點持有者為“中方”。(3)陳述選擇,主要針對文本的主客觀分類;(4)情感分析,決定主觀陳述中的情感極性。其中(3)(4)已在11和12節(jié)中進行綜述。

      21主題抽取

      目前主題抽取任務(wù)的研究主要歸結(jié)為如下方法:

      (1)通過詞性標(biāo)注器查找常見的名詞和名詞短語,Hu[17]根據(jù)主題與指標(biāo)詞的共現(xiàn)特征來識別?,F(xiàn)和非?,F(xiàn)的主題,隨后Popescu[18]基于如下假設(shè):共現(xiàn)的次數(shù)越多的兩個詞,則它們之間的聯(lián)系也越大,提出點互信息(Point-wise Mutual Information,PMI)方法提高了Hu算法的精度。

      (2)分析觀點和評價對象之間的關(guān)系,Blair-Goldensohn[19]認為因為同樣的情感詞可以用來描述或修改不同的評價對象,如果句子中只含情感詞而沒有常見的評價對象,那就把抽取出距離情感詞最近的名詞或名詞短語做評價對象。如“這家客廳布置得美輪美奐。”“美輪美奐”表示褒義的情感詞,距離最近的名詞“客廳”就是抽取的評價對象。Stoyanov[20]通過主題消解(Topic Coreference Resolution)完成抽取。

      (3)使用監(jiān)督學(xué)習(xí)算法,其中最突出的方法是基于序列學(xué)習(xí)(Sequential Learning),這類方法需要手工將語料庫中的數(shù)據(jù)標(biāo)注為主題詞和非主題詞后進行訓(xùn)練,Li[21]合并兩種條件隨機場變體(Skip-CRF和Tree-CRF)進行主題和觀點抽取。其他的方法如Yu[22]通過只標(biāo)記主題詞而不考慮非主題詞的單值分類支持向量機(One-class SVM)完成主題抽取。Kovelamudi[23]提出監(jiān)督式獨立的域模型,利用Wikipedia和Web語料來從用戶評論中識別產(chǎn)品屬性,實驗表明F1值達到073。

      22觀點持有者抽取

      Kim[16]認為新聞中的觀點持有者占有重要的位置,因為它們經(jīng)常明確表示持有該觀點的人或組織,可以借助于命名實體識別技術(shù)來獲取觀點持有者。Choi[24]通過條件隨機場模型結(jié)合選取的各類特征完成這一任務(wù)。近年來其他學(xué)者對此任務(wù)也有所研究,如Elarnaoty[25]基于條件隨機場和半監(jiān)督模式識別技術(shù)實現(xiàn)阿拉伯語新聞中的觀點持有者識別,Johansson[26]使用含有一系列特征項的支持向量機(Support Vector Machine)完成觀點持有者抽取任務(wù)。

      考慮到觀點的表達總是離不開觀點持有者這一關(guān)系,可以同步完成觀點持有者和觀點抽取的任務(wù)。Bethard[27]完成主觀句中情感短語抽取后,分析觀點和動詞的句法關(guān)系,最后同步識別出觀點持有者。

      3結(jié)束語

      本文在研究相關(guān)文本情感分析領(lǐng)域文獻的基礎(chǔ)上,從技術(shù)實現(xiàn)角度綜述了國內(nèi)外文本情感分析的發(fā)展歷程。情感分析這一新興的研究方向除了取得較為成熟的研究成果外,尚有如下的問題需要深入研究:

      (1)微博類社交方式導(dǎo)致文本書寫的隨意性、口語化,如:簡寫、拼寫錯誤、標(biāo)點符號錯用等情況,這仍是大多情感分析系統(tǒng)面臨的挑戰(zhàn)。

      (2)反諷的表達方式,如果不熟悉觀點持有者的語言風(fēng)格,就無法識別出正確的情感極性。如:“你真是太有才了!”需要結(jié)合觀點持有者所表達的上下文語境來識別該句是褒義還是貶義。

      (3)產(chǎn)品評論中針對短語級的情感分析,如何對評價對象進行歸類問題。如:“電池使用時間”和“電量使用情況”均表示手機產(chǎn)品的同一特性。

      參考文獻

      [1]Ding X,Liu B,Yu P S.A holistic lexicon-based approach to opinion mining[C].Proceedings of the international conference on Web search and web data mining,ACM,2008:231-240.

      [2]Wiebe J M,Bruce R F,OHara T P.Development and use of a gold-standard data set for subjectivity classifications[C].Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics,Association for Computational Linguistics,1999:246-253.

      [3]Wiebe J.Learning subjective adjectives from corpora[C].AAAI/IAAI,2000:735-740.

      [4]Ortega R,Fonseca A,Gutiérrez Y,Montoyo A.Improving Subjectivity Detection using Unsupervised Subjectivity Word Sense Disambiguation[J].Procesamiento del Lenguaje Natural,2013,51:179-186.

      [5]Yao T,Peng S.A study of the classification approach for Chinese subjective and objective texts[J].Proc of the NCIRCS,2007:117-123.

      [6]Wang G,Zhao J.Sentence Sentiment Analysis Based on Multi-redundant-labeled CRFs[J].Journal of Chinese information processing,2007,(5):51-56.

      endprint

      [7]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.

      [8]Tong R M.An operational system for detecting and tracking opinions in on-line discussion[C].Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification,2001:6.

      [9]Schindler U,Diepenbroek M.Generic XML-based framework for metadata portals[J].Computers & Geosciences,2008,34:1947-1955.

      [10]李鈍,曹付元,曹元大,等.基于短語模式的文本情感分類研究[J].計算機科學(xué),2008,35(4):132-134.

      [11]Meng F-b,Cai L-h,Chen B,Wu P.Research on the recognition of text valence[J].Journal of Chinese Computer Systems,2008,28(2007):1-4.

      [12]Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10,Association for Computational Linguistics,2002:79-86.

      [13]Thelwall M,Buckley K,Paltoglou G,Cai D,Kappas A.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

      [14]Liu K,Zhao J.Sentence Sentiment Analysis Based on Cascaded CRFs Model[J].Journal of Chinese information processing,2008,(1):123-128.

      [15]徐軍,丁宇新,王曉龍.使用機器學(xué)習(xí)方法進行新聞的情感自動分類[J].中文信息學(xué)報,2007,21(6):95-100.

      [16]Kim S-M,Hovy E.Determining the sentiment of opinions[C].Proceedings of the 20th international conference on Computational Linguistics,Association for Computational Linguistics,2004:1367.

      [17]Hu M,Liu B.Mining opinion features in customer reviews[C].AAAI,2004:755-760.

      [18]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer,2007:9-28.

      [19]Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G A,Reynar J.Building a sentiment summarizer for local service reviews[C].WWW Workshop on NLP in the Information Explosion Era,2008.

      [20]Stoyanov V,Cardie C.Topic identification for fine-grained opinion analysis[C].Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1,Association for Computational Linguistics,2008:817-824.

      [21]Li F,Huang M,Zhu X.Sentiment Analysis with Global Topics and Local Dependency[C].AAAI,2010.

      [22]Yu J,Zha Z-J,Wang M,Chua T-S.Aspect Ranking:Identifying Important Product Aspects from Online Consumer Reviews[C].ACL,Citeseer,2011:1496-1505.

      [23]Kovelamudi S,Ramalingam S,Sood A,Varma V.Domain Independent Model for Product Attribute Extraction from User Reviews using Wikipedia[C].IJCNLP,2011:1408-1412.

      [24]Choi Y,Cardie C,Riloff E,Patwardhan S.Identifying sources of opinions with conditional random fields and extraction patterns[C].Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2005:355-362.

      [25]Elarnaoty M,AbdelRahman S,Fahmy A.A Machine Learning Approach For Opinion Holder Extraction In Arabic Language[J].arXiv preprint arXiv:12061011,2012.

      [26]Johansson R,Moschitti A.Reranking models in fine-grained opinion analysis[C].Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:519-527.

      [27]Bethard S,Yu H,Thornton A,Hatzivassiloglou V,Jurafsky D.Automatic extraction of opinion propositions and their holders[C].2004 AAAI Spring Symposium on Exploring Attitude and Affect in Text,2004:2224.

      (本文責(zé)任編輯:孫國雷)

      endprint

      猜你喜歡
      情感分析
      基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
      面向應(yīng)用比較的用戶評論挖掘工具的設(shè)計與實現(xiàn)
      基于微博文本的情感傾向分析
      軟件工程(2016年12期)2017-04-14 02:05:53
      基于word2vec擴充情感詞典的商品評論傾向分析
      基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
      基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
      基于詞典與機器學(xué)習(xí)的中文微博情感分析
      在線評論情感屬性的動態(tài)變化
      預(yù)測(2016年5期)2016-12-26 17:16:57
      歌曲《我的深情為你守候》的情感分析與演唱詮釋
      任丘市| 集安市| 永寿县| 乡宁县| 临潭县| 伊川县| 聊城市| 博湖县| 宝山区| 广宗县| 辉县市| 铁岭市| 娄烦县| 东莞市| 武城县| 额济纳旗| 武隆县| 惠东县| 霍邱县| 磐安县| 定日县| 农安县| 邓州市| 比如县| 聂荣县| 九龙县| 澄迈县| 临泽县| 井陉县| 白玉县| 海盐县| 泸定县| 东乌珠穆沁旗| 富宁县| 黄骅市| 宜宾市| 敦化市| 获嘉县| 昌图县| 景泰县| 平山县|