李 鳴, 吳 波, 宋 陽, 朱夢堯, 徐志廣, 張宏俊
(1.上海大學 通信與信息工程學院,上海 200444;2.中國科學院 上海高等研究院,上海 201210; 3.西安航天恒星科技實業(yè)(集團)公司,陜西 西安 710061)
?
細粒度情感分析的酒店評論研究
李 鳴1,2, 吳 波2, 宋 陽3, 朱夢堯1, 徐志廣2, 張宏俊2
(1.上海大學 通信與信息工程學院,上海 200444;2.中國科學院 上海高等研究院,上海 201210; 3.西安航天恒星科技實業(yè)(集團)公司,陜西 西安 710061)
酒店在線評論細粒度挖掘具有重要研究意義。以酒店在線評論具體特征屬性和情感分類為研究目標,應用Apriori算法和情感詞典匹配算法,對重慶霧都賓館在線評論數(shù)據(jù)深入挖掘,挖掘出用戶最關(guān)注的酒店十大特征和滿意度結(jié)果,進一步挖掘出商務出差等五種不同出游類型人最關(guān)注的酒店五大特征和滿意度結(jié)果。這種方法不僅能對酒店領(lǐng)域評論進行分析,同樣能夠應用于其他領(lǐng)域。
酒店在線評論; 特征挖掘; 情感分析; 細粒度; 情感詞典匹配
隨著電子商務的快速發(fā)展,越來越多的人在網(wǎng)絡上預訂酒店并對入住體驗進行在線評論。這些評論不僅有利于潛在的酒店消費者參考,也有利于商家有針對性地改善服務質(zhì)量。然而,酒店評論信息量龐大冗雜,給于消費者和商家查找有用的信息帶來了極大的麻煩,如何方便快捷地挖掘出評論中有價值的信息逐漸成為研究熱點。情感分析能從評論中獲取用戶的喜怒哀樂,了解用戶對酒店的喜好程度。
傳統(tǒng)的情感分析主要采用兩類方法,基于情感詞典的方法和基于機器學習的方法。2002年,Turney P D[1]提出了基于種子詞匯發(fā)現(xiàn)情感詞的方法。Pang B等人[2]采用了貝葉斯、最大熵、支持向量機(SVM)等機器學習的方法來構(gòu)造分類器,并對這幾種方法進行了對比。Kobayashi N等人[3]構(gòu)建了一個模式庫,收錄了8種命中率比較高且較準的模式用來提取評價主體、評價方面和評價之間的關(guān)系。 Marrese-Taylor E等人[4]考慮到用戶對不同的產(chǎn)品發(fā)表的評論不同,找出旅游領(lǐng)域的特征,構(gòu)造出更準確的自然語言處理模型用于旅游領(lǐng)域的挖掘。
然而,前面基于篇章、句子級別的粗粒度情感分析由于沒有考慮情感所針對的具體對象,無法滿足用戶了解酒店各個特征屬性的需求。李杰等人[5]對特征提取的研究進行了全面的概括,文獻[6,7]著重對酒店細粒度的情感分析進行研究:通過關(guān)聯(lián)規(guī)則方法識別出評價對象特征詞、情感詞以及情感修飾詞,并找出他們之間的關(guān)系,計算出相應的情感值,構(gòu)建相關(guān)領(lǐng)域的屬性詞表和情感詞表。這些方法在英文領(lǐng)域取得了不錯的成果,但是在中文語言下的適應性不是很理想。
本文在前人研究的基礎上,將Apriori關(guān)聯(lián)規(guī)則算法應用于中文酒店評論領(lǐng)域,并結(jié)合酒店領(lǐng)域情感詞典做分類,最終實現(xiàn)了更為準確的評論挖掘。通過對重慶霧都賓館的評論數(shù)據(jù)進行屬性特征挖掘,實現(xiàn)細粒度屬性分類,挖掘出用戶最關(guān)注的酒店十大特征及滿意度結(jié)果,進一步挖掘出商務出差等五種不同出游類型人最關(guān)注的酒店五大特征及滿意度結(jié)果。這些結(jié)果對潛在的酒店用戶具有重要的參考價值,同時對于商家有針對性地改善服務質(zhì)量有積極作用。
圖1為本文的算法框架圖。特征挖掘模塊挖掘出用戶關(guān)注的酒店特征,并通過查找合并同義詞進行特征過濾。觀點句識別與情感分類模塊根據(jù)挖掘的特征集識別出觀點句,并根據(jù)用戶出游類型特征將識別的觀點句用情感詞典匹配方法進行情感極性分類。
圖1 算法框架圖Fig 1 Algorithm frame
2.1 Apriori算法
本文特征挖掘模塊采用了Apriori算法,Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。在這個算法中,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。利用頻繁項集性質(zhì)的先驗知識,通過逐層搜索的迭代方法,即將k項集用于探察k+1項集,來窮盡數(shù)據(jù)集中的所有頻繁項集。先找到頻繁1項集集合L1,然后用L1找到頻繁2項集集合L2,接著用L2找L3,直到找不到頻繁k項集,找每個Lk需要一次數(shù)據(jù)庫掃描。在本文中,特征挖掘模塊定義最小支持度為0.6 %,只要是在評論句子集中出現(xiàn)的次數(shù)大于等于3次,都提取出來作為候選特征集,最終經(jīng)實驗調(diào)優(yōu)為6 %,選出了23個頻繁特征集。
2.2 情感詞典匹配技術(shù)
2.2.1 構(gòu)建酒店領(lǐng)域情感詞典
本文構(gòu)建的酒店領(lǐng)域情感詞典包括:基礎情感詞典、酒店領(lǐng)域情感詞典、網(wǎng)絡情感術(shù)語詞典、否定詞典和程度副詞詞典。
基礎情感詞典由正面基礎情感詞典和負面基礎情感詞典組成。將HowNet中的正面情感詞、評價詞和中文情感詞匯本體庫中極性為“1”的詞合并去重,并去掉情感傾向不顯著的詞條組成正面基礎情感詞典;將HowNet中的負面情感詞、評價詞和中文情感詞匯本體庫中極性為“2”的詞合并去重,并去掉情感傾向不顯著的詞條組成負面基礎情感詞典。最終形成的基礎情感詞典含5 821個正面情感詞,10 186個負面情感詞。
構(gòu)建酒店領(lǐng)域?qū)S们楦性~典采用了Turney等的點互信息法,思想是依據(jù)目標詞和基準詞間的點互信息,確立兩詞關(guān)聯(lián),預測目標詞的情感分。采用SO—PMI算法,計算目標詞與基準詞的正負面點互信息之差,差值大于0 為正面情感詞, 反之為負面情感詞。其中,Pset和Nset分別是正面和負面基準詞的集合,公式如下
(1)
該實驗的基準詞選取方法如下:從攜程網(wǎng)上采集了30萬條評論數(shù)據(jù),初始評論文本經(jīng)預處理,提取形容詞、副詞為候選詞,遍歷基礎情感詞典庫做對比,去掉和基礎情感詞典庫重復的詞,按詞頻由大到小排序。依據(jù)前30個形容詞和副詞的極性,選擇5個正面基準詞,5個負面基準詞。共得到87個正面情感詞, 134 個負面情感詞的酒店領(lǐng)域?qū)S们楦性~典。
網(wǎng)絡術(shù)語情感詞典:網(wǎng)絡專用情感術(shù)語是網(wǎng)絡中出現(xiàn)的風靡一時的詞語,不能被傳統(tǒng)的基礎情感詞典正確的識別,但是卻被廣泛使用。本實驗以搜狗互聯(lián)網(wǎng)詞庫(SogouW)的數(shù)據(jù)為基礎并人工添加一些近期廣泛使用的網(wǎng)絡情感詞匯來構(gòu)造網(wǎng)絡術(shù)語情感詞典。否定詞典由人工收集整理的42個否定詞構(gòu)成。程度副詞表達了情感的強烈程度,利用HowNet收集的程度級別詞語,并借鑒藺璜的方法構(gòu)建程度副詞詞典。
2.2.2 情感詞典匹配算法設計
對構(gòu)建好的酒店領(lǐng)域情感詞典詞語分別賦予強度值。表1為酒店領(lǐng)域情感詞典詞語及其相應強度值示例。
服務于應用型人才培養(yǎng)目標,大學物理課程需要在各個環(huán)節(jié)進行改革,這項工作一直在進行中,同時也取得了一些成效。應該認識到改革是一個動態(tài)的、與時俱進的過程,有利于教學質(zhì)量提高、有利于學生創(chuàng)新能力提升的方法和措施都是物理課程改革應該嘗試的。
3.1 實驗內(nèi)容
本實驗主要有兩部分內(nèi)容:構(gòu)建情感詞典和特征挖掘。
1)構(gòu)建情感詞典:在攜程網(wǎng)上爬取了重慶和西安的酒店評論共30萬條,主要提取了評論內(nèi)容、用戶信息、用戶評分、用戶出游類型和用戶出游時間等信息,將這些數(shù)據(jù)用由中國科學院計算機所編寫的中文分詞工具ICTCLAS進行分詞和詞性標注,構(gòu)建酒店領(lǐng)域情感詞典。
表1 酒店領(lǐng)域情感詞典及其強度值示例
2)特征挖掘:選擇了重慶霧都賓館由商務出差、情侶出游、家庭親子、朋友出游、獨自出行5種出游類型用戶評價且評價內(nèi)容豐富的數(shù)據(jù)各100條。對500條評價數(shù)據(jù)進行特征挖掘,挖掘出該賓館的23項頻繁特征項集,并根據(jù)頻繁特征項識別出觀點句子并分類。最后分別對這5種不同出游類型的用戶評論進行分析,得到每種出游類型的人關(guān)注的酒店特征和相應的評價,并統(tǒng)計出結(jié)果。
3.2 實驗結(jié)果與分析
對重慶霧都賓館500條評論數(shù)據(jù)進行挖掘得到的酒店頻繁特征項集如圖2所示。圖中不僅可以看出用戶對酒店地理位置、服務、房間、交通等一般特征比較關(guān)注,還可以看出用戶對該酒店提供的浴缸、衣帽間等特有服務也很有興趣。該酒店管理者可以通過這些評論繼續(xù)改進自己的特色服務,用戶也可能因這些特色服務而被吸引消費。
圖2 酒店頻繁特征項集Fig 2 Frequent features item sets of hotel
圖3為挖掘重慶霧都賓館500條評論數(shù)據(jù)得到的用戶最關(guān)注的酒店10個特征和滿意度。由圖可知,用戶最關(guān)注該酒店的房間、位置、服務、早餐等,對位置、安靜和交通非常滿意,對服務滿意度比較低,酒店應該針對這些滿意度低的方面做出相應的改善來提高酒店的核心競爭力。
圖3 用戶最關(guān)注的酒店十大特征和滿意度Fig 3 Ten features of hotel that most users concerned andsatisfaction results
圖4為商務出差、情侶出游等五種不同出游類型的人最關(guān)注的酒店五大特征和滿意度。由圖可知,商務出差最關(guān)注服務質(zhì)量但是對服務不滿意;情侶出游對安靜比較關(guān)注且非常滿意等。酒店管理者可以根據(jù)不同出游類型的客戶評論做出相應的改善,對客戶比較滿意的特色服務大力推廣,客戶也可以根據(jù)相應的出游類型評論來選擇適合自己的酒店。
圖4 五種不同出游類型人最關(guān)注的酒店五大特征及其滿意度Fig 4 Five features of hotel that five different kinds of travellers most concerned together with degree of satisfaction
本文在對重慶和西安30萬條酒店評論挖掘的基礎上,構(gòu)建了酒店領(lǐng)域情感詞典。以重慶霧都賓館的評論數(shù)據(jù)為例,挖掘出用戶最關(guān)注的酒店十大特征及滿意度結(jié)果,進一步挖掘出商務出差等五種不同出游類型人最關(guān)注的酒店五大特征及滿意度結(jié)果。這些結(jié)果表明細粒度情感分析具有巨大價值:一方面,酒店管理者不僅可以了解用戶對酒店具體特征的滿意度,還可以了解不同類型用戶對酒店的需求,更能有針對性地改善服務;另一方面,幫助用戶了解酒店各個特征優(yōu)劣,從而幫助用戶更加明智的做出決策。
[1] Turney P D,Littman M L.Measuring praise and criticism:Infe-rence of semantic orientation from association[J].ACM Transactions on Information Systems(TOIS),2003,21(4):315-346.
[2] Pang B,Lee L,Vaithyanathan S.Thumbs up:Sentiment classification using machine learning techniques[C]∥Proceedings of Association for Computational Linguistics Conference on Empirical Methods in Natural Language Processing,ACL’02,2002:79-86.
[3] Kobayashi N,Inui K,Matsumoto Y,et al.Collecting evaluative expressions for opinion extraction[M]∥Berlin Heidelberg:Springer 2005:596-605.
[4] Marrese-Taylor E,Velásquez J D,Bravo-Marquez F.A novel deterministic approach for aspect-based opinion mining in tourism products reviews[J].Expert Systems with Applications,2014,41(17):7764-7775.
[5] 李 杰,周 萍.語音情感識別中特征參數(shù)的研究進展[J].傳感器與微系統(tǒng),2012,31(2):4-7.
[6] Kanayama H,Nasukawa T.Fully automatic lexicon expansion for domain-oriented sentiment analysis[C]∥Proceedings of the 2006 Conference on Empirical Methods in Natural Language Proces-sing,Association for Computational Linguistics,2006:355-363.
[7] Hu M,Liu B.Mining and summarizing customer reviews[C]∥Proceedings of the Tenth International Conference on Knowledge Discovery and Data Mining,ACM,2004:168-177.
Research on hotel reviews based on fine-grained sentiment analysis
LI Ming1,2, WU Bo2, SONG Yang3, ZHU Meng-yao1, XU Zhi-guang2, ZHANG Hong-jun2
(1.School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China; 2.Shanghai Advanced Research Institute,Chinese Academy of Sciences,Shanghai 201210,China; 3.Xi’an Space Star Technology Group Co Ltd,Xi’an 710061,China)
Fine-grained mining of hotel online reviews are of great importance.Specific feature and emotional attributes of hotel online reviews can be taken as research targets,using Apriori algorithm and semantic lexicon matching algorithm,online reviews data of Chongqing Wu Du Hotel are mined,ten features that most users concerned and satisfaction results of the hotel can be inferred and five features of the hotel that five different kinds of travellers such as bussiness man most concerned together with corresponding degree of satisfaction results can also be mined in further exploration.This method can be applied in other fields.
hotel online reviews; feature mining; sentiment analysis; fine-grained; semantic lexicon matching
10.13873/J.1000—9787(2016)12—0041—03
2016—03—02
TP 391
A
1000—9787(2016)12—0041—03
李 鳴(1990-),女,湖北隨州人,碩士,研究方向為酒店在線評論數(shù)據(jù)的情感傾向分析。