覃國蓉,葉志成,莊檳豪,蔡哲聰
(深圳信息職業(yè)技術學院軟件學院,廣東 深圳 518172))
旅游網絡評論情感分析方法研究及系統(tǒng)實現(xiàn)
覃國蓉,葉志成,莊檳豪,蔡哲聰
(深圳信息職業(yè)技術學院軟件學院,廣東 深圳 518172))
本文針對旅游領域,展開網絡評論情感分析方法研究并為航空公司、酒店用戶實現(xiàn)了一個實用的旅游網絡評論監(jiān)控系統(tǒng)。設計了簡捷方便的情感分析方法,基于情感詞典對旅游網絡評論進行情感分析,針對旅游領域優(yōu)化分詞詞典和情感詞典,以獲得較高的準確率。通過旅游網絡評論監(jiān)控系統(tǒng),企業(yè)可實時掌握用戶對服務的評價,及時處理負面評論,避免造成不可挽回的影響。
旅游網絡評論;情感分析;情感詞典;分詞詞典;網絡評論監(jiān)控
以微博為代表的自媒體時代,信息傳播異常迅猛。如果對于網絡上的意見類訴求不及時響應,往往會對企業(yè)形象造成不可挽回的負面影響。所以,在靠口碑取勝的領域(如旅游行業(yè)的航空公司、酒店等)越來越重視網絡輿論的作用。依靠人工監(jiān)控網絡輿情,顯然費時費力而且成效又不高。因此采用計算機來自動地分析網絡評論表達的情感,即對網絡評論進行情感分析成為目前學術界研究的一個熱點。
文本情感分析任務包括對網絡文本進行主客觀分類、對主觀性文本情感極性和情感極性強度分析。針對文本情感分析,人們提出了很多算法,但目前還沒有哪一種能夠完美地解決文本情感傾向識別這一問題,也還沒有哪個系統(tǒng)能夠在情感分析判斷中具有較高的準確率[1]。為了尋求突破,應該進一步細分具體問題及其應用領域,展開有針對性、更簡捷方便的識別方法的研究。因為本研究針對旅游領域,所以具有重要的理論研究意義和應用價值。
按照文本的顆粒度,文本情感分析可以劃分為針對文本中的詞、句子、篇章三個級別的識別與分析。文獻[1]以文本顆粒度為視角,從情感詞抽取、語料庫和情感詞典構建、評價對象與意見持有者分析、篇章級情感分析、實際應用五個方面對文本情感分析文獻進行了梳理,并做出必要評述??梢姮F(xiàn)有的文本情感分析方法沒有充分利用自然語言處理的研究成果以及現(xiàn)有語言工具和相關資源,也大多沒有細分具體問題及其應用領域。
文獻[2]針對中文文本情感分析的研究現(xiàn)狀與進展進行總結?,F(xiàn)有中文文本情感分析研究,存在以下問題(1)詞語的情感傾向判別只是局限在形容詞,實際上一些名詞和動詞也具有情感傾向,而且應該結合具體的語境和領域來判別詞語的情感傾向;(2)針對語句和篇章的情感分析還比較粗粒度,應該更精確地更細粒度地對某一個具體的評價對象進行分析。
文獻[3]首先利用基礎情感詞典以及基準詞對所需研究領域的評論文本進行分析,以此獲得特定領域具有感情傾向的特征詞語。而后利用基準詞以及獲得的特征詞語對評論進行分析,對于有感情詞的句子,采用計算感情值來判別其感情傾向以及感情程度,對于無感情詞的句子,采用連詞的方法來進行感情的判別。該方法考慮到了領域特性,但是還是沒有針對特定領域(如旅游),所以文本情感分類的準確率還有較大的提升空間。
文獻[4]則針對中文微博情感分析的研究進行綜述,從微博網站數(shù)據(jù)構成的角度出發(fā),對情感分析做了延伸分析。但是現(xiàn)有中文微博情感分析研究沒有針對網絡語言的過濾和情感挖掘重點開發(fā)相關的詞典或語料庫,也沒有針對不同主題對微博做特定的情感分析研究。
目前關于旅游領域網絡評論情感分析的研究還比較缺乏,主要是針對旅游目的地的評論研究(文獻[5]和在知網上唯一找到文獻[6]),它們都沒有涉及航空公司、酒店這些旅游服務行業(yè)。
本文受文獻[1-4]的啟發(fā),針對旅游領域,特別是航空公司、酒店等網絡評論情感分析需求迫切的旅游服務領域,展開有針對性的研究,設計了基于知識工程(旅游網絡評論領域知識)的旅游網絡評論情感分析方法,并且實現(xiàn)了一個實用的系統(tǒng),可以實時監(jiān)控熱門微博(如新浪)、人氣論壇(如天涯的旅游板塊)的有關旅游的評論,自動進行分析,及時把負面評論反饋給航空公司、酒店等用戶。
2.1 基于旅游網絡評論領域知識的情感分析方法
基于旅游網絡評論領域知識的情感分析方法,就是針對旅游網絡評論建立情感詞典,基于情感詞典進行情感分析,并且在情感分析過程中,充分利用語言本身的特點(否定詞、程度副詞和連接詞),以提高情感分析的準確率。
基于情感詞典的情感分析方法對于通用的文本情感分析,具有實現(xiàn)簡單、執(zhí)行效率高但是由于含有較多的歧義詞導致準確率低的特點??紤]到如果針對特定領域對情感詞典進行優(yōu)化和完善,基于情感詞典的情感分析方法在保證性能的基礎上可以獲得比較理想的準確率,所以我們選擇基于情感詞典的情感分析方法。
2.1.1 旅游網絡評論情感詞典的建立
由于本算法準確率依賴于情感詞典,所以情感詞典的完備性和準確性是本算法成功的關鍵。
為了獲得理想的情感字典,我們在權威的5大中文情感詞典——知網的情感詞典、臺灣大學整理的中文情感詞典NTUSD、《學生褒貶義詞典》、《褒義詞典》、《貶義詞典》)基礎上整合了一個新的情感詞典,去除重復的情感詞;在這個新的情感詞典的基礎上,基于北京大學綜合型語言知識庫CLKB(旅游領域部分)和現(xiàn)代漢語口語標注語料庫CASIA-CLASSIL,加上了旅游領域情感詞,并針對旅游領域盡量進行消歧處理;最后,我們還在情感詞典中加上網絡流行詞語,構建了超過37000條情感詞的字典。
其中, CLKB是目前國際上規(guī)模最大而且獲得廣泛認可的漢語語言知識資源,涵蓋了詞、詞組、句子、篇章各單位和詞法、句法、語義各層面,從漢語向多語言輻射,從通用領域深入到專業(yè)領域,有利地支持了中文信息處理的理論研究和應用技術開發(fā)。CLKB已產生了巨大的學術影響,并獲得了很好的社會效益和一定的經濟效益,簽約用戶遍布美、日、德、法、新加坡、中國內地、臺灣、香港等10多個國家和地區(qū),免費用戶數(shù)以萬計[7]。
CASIA-CLASSIL語料是從15000多個現(xiàn)場錄音中選取的約1000段對話,限定為旅游信息咨詢領域,包括以下5個子領域:(1)旅館預定;(2)電話訂餐;(3)機場信息資訊;(4)旅行社服務;(5)搭乘出租車。每一段對話都被轉錄成了文本,并進行了詳細標注。該標注規(guī)范涵蓋了語音、語義、語用、主題及情感等多方面的標注信息[8]。
圖1 建立旅游網絡評論情感詞典Fig.1 The establishment of the emotional dictionary of the tourism network Review
2.1.2 旅游網絡評論情感分析
基于旅游網絡評論情感詞典,我們按照如下步驟對旅游網絡評論進行情感分析(見圖2):
(1)讀取一條經過預處理的旅游網絡評論;
(2)以中英文標點符號(.。,,??!!)作為分句標識對評論進行分句;
(3)對評論的每個分句計算情感值,具體見2.1.3 ;
(4)累加每個分句的情感值作為這條評論的情感值。如果情感值大于0,則表示該評論具有積極情感傾向(正面評論),小于0則具有消極情感傾向(負面評論),否則為中性評論。
圖2 旅游網絡評論情感分析過程Fig.2 The process of emotion analysis of travel network review
2.1.3 分句情感值計算
圖3 分句情感值計算Fig.3 The calculation of the sub-clause emotional value
如圖3,分句的情感值計算首先是對分句做分詞處理,然后根據(jù)分句中是否含有情感詞典中的情感詞做不同處理:
(1)如果含有情感詞,檢查分句中情感詞前面是否含有否定詞,由于否定詞會使情感詞的極性發(fā)生改變,所以需要針對否定詞進行處理;檢查分句中情感詞前面是否有程度副詞,由于程度副詞會使情感詞的情感強度發(fā)生變化,所以需要針對副詞進行處理。同樣反問句和驚嘆號也會對情感極性和情感強度產生影響,也需要做相應處理。具體見2.1.4。
圖4 含有情感詞的分句情感值計算Fig.4 The calculation of emotional value of the sub-clause with emotion words
(2)如果不含有情感詞,則檢查分句首詞是否是連接詞。如果是連接詞,則根據(jù)連接詞在前后2句中的的作用分為:平行連接詞、轉折連接詞和遞進連接詞的三種不同的連接詞(見表1實例),分別作做不同處理:平行連接詞,則情感值與上一分句相同;轉折連接詞,則情感值與上一句相反,即乘以-1;遞進連接詞,則情感值是上一句的1.5倍。
表1 連接詞實例Tab.1 The instance of conjunction
2.1.4 含有情感詞的分句情感值計算
否定詞處理。如果情感詞有否定詞修飾將引起情感極性發(fā)生逆轉,則分句的情感值將乘以-1。如果有多個否定詞修飾,則需要根據(jù)否定詞個數(shù)進行判斷,如果是奇數(shù)個,則極性改變,偶數(shù)個則情感極性不發(fā)生變化。表2為常見否定詞。
Tab.2 The instance of Common negative words表2 常見否定詞
程度副詞處理。如果情感詞有程度副詞修飾,將引起情感強度發(fā)生變化。我們采用知網提供的程度副詞,按藺璜提出的四個等級[9]劃分為極高、高、中、低,分別賦予2.0、1.75、1.0、0.5的權值。如表3所示。
表3 程度副詞權值劃分Tab.3 The weight of degree adverb
感嘆句處理。感嘆句加強了句子的情感強度,對感嘆句的處理就是整個句子情感強度加倍,即情感值乘以2。識別感嘆句就是找出句尾的驚嘆號,包括中文符號?和英文符號?。
反問句處理。出現(xiàn)反問詞的句子為反問句。反問句是用疑問句的形式表達相反的觀點,所以對于反問句的處理就是將整個句子的情感值乘以-1。需要注意,反問句的處理與否定詞處理是不同的:否定詞是將其修飾的情感詞的極性逆轉,而反問句是將整個句子的情感極性逆轉。識別反問句的關鍵是找到句子中是否有反問詞,表4列出了常用的反問詞。
表4 常見反問詞Tab.4 The instance of common interrogative words
2.2 旅游網絡評論情感分析系統(tǒng)實現(xiàn)
2.2.1 系統(tǒng)架構
基于以上研究,我們實現(xiàn)了一個旅游網絡評論情感分析系統(tǒng),該系統(tǒng)提供以下功能:
(1)網絡評論自動抓取功能:抓取熱門微博(如新浪)和知名網站(如天涯論壇的旅游板塊)關于民航、酒店等旅游行業(yè)網絡評論;
(2)網絡評論情感分析功能:對評論進行情感分析,判斷情感傾向(正面或負面)及極性(強弱程度);
(3)負面評論的預警功能:結合網絡評論的轉發(fā)數(shù)、閱讀數(shù)等指標確定評論的重要等級,向用戶推送適當?shù)念A警消息。
該系統(tǒng)架構如圖5所示。
圖5 旅游網絡評論情感分析系統(tǒng)架構Fig.5 The architecture of the emotion analysis system of tourism network review
用戶管理模塊對用戶信息進行管理,其實現(xiàn)沒有太多難度。情感分析是系統(tǒng)的核心模塊,除了分詞部分,已經在3.1節(jié)詳細說明,下面主要介紹分詞、網絡爬蟲和差評預警部分。
2.2.2 分詞
我們基于開源的ansj分詞系統(tǒng)實現(xiàn)分詞功能。同情感詞典一樣,對該分詞系統(tǒng)的基礎詞庫,我們基于北京大學綜合型語言知識庫CLKB(旅游領域部分)和現(xiàn)代漢語口語標注語料庫CASIACLASSIL,加上了旅游領域詞匯,構建了超過20000條詞匯的分詞詞典,以提高分詞系統(tǒng)的準確率。
2.2.3 微博爬蟲和網站爬蟲
微博爬蟲實現(xiàn)對熱門微博的旅游網絡評論的自動抓取,網站爬蟲實現(xiàn)對知名論壇的旅游板塊的自動抓取。微博爬蟲和網站爬蟲均采用模擬登錄的方式實現(xiàn)。
2.2.4 差評預警
差評預警模塊提供自動預警、在線預警和預警條件設置功能。自動預警功能使得用戶無須登錄系統(tǒng),在滿足預警條件的差評發(fā)生時會在注冊的郵箱、微信和QQ收到預警信息。在線預警當用戶登錄本系統(tǒng)時,將預警信息推送到用戶界面,而且用戶還可通過本系統(tǒng)主動搜索相關評論,并按嚴重程度顯示查詢結果。預警條件設置讓用戶可以設置預警條件,如網絡評論的轉發(fā)數(shù)、閱讀數(shù)等。
自動預警和在線預警調用網絡爬蟲和情感分析模塊來實現(xiàn)。
2.2.4 系統(tǒng)運行效果
我們以數(shù)據(jù)堂(網址http://www.datatang.com/ datares/go.aspx?dataid=616732)提供的用于文本情感分析的酒店評論語料(包括正面的1000條和負面的1000條)進行測試,目前該系統(tǒng)對正面評論的情感分析正確率達到81%,負面評論的正確率達到75%。對于比較嚴重的負面評論(402條語料)正確率達到100%,能夠滿足預警需求。
本文針對旅游領域進行網絡評論情感分析研究并且實現(xiàn)了一個可自動監(jiān)控旅游網絡評論的實用系統(tǒng)。有以下創(chuàng)新點:第一,針對旅游網絡評論,建立了較為權威和完備的分詞詞典和情感詞典,提高了情感分析準確率;第二,為航空公司、酒店等網絡評論情感分析需求迫切的旅游企業(yè)行業(yè)用戶提供了一個自動的網絡輿情監(jiān)測和分析系統(tǒng),填補了這方面系統(tǒng)的空白。
本文的情感詞典、分詞詞典以及副詞詞典、否定詞詞典、連接詞詞典還需要進一步完善;情感分析只是采用了基于知識工程的方法,沒有用到基于統(tǒng)計機器學習的方法。所以,下一步的工作將針對旅游網絡評論,結合統(tǒng)計方法進一步提高情感分析的準確率。
[1]楊立公,朱儉,湯世平.文本情感分析綜述[J].計算機應用2013,33( 6) :1574 - 1578,1607 YANG Ligong,ZHU Jian,TANG Shiping.Survey of text sentiment analysis[J].Journal of Computer Applications,2013,33( 6) :1574 - 1578,1607.(in Chinese)
[2]魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用2011,31( 12) :3321 -3323 WEI Wei,XIANG Yang,CHEN Qian.Survey on Chinese text sentiment analysis[J].Journal of Computer Applications,2011,31( 12) :3321 -3323.(in Chinese)
[3]劉玉嬌,琚生根,伍少梅.基于情感字典與連詞結合的中文文本情感分類[J],四川大學學報(自然科學版),2015,52(1):57-62.LIU Yu-jiao,Ju Sheng-gen,Su Chong.Classification of chinese texts sentiment based on semantic and conjunction[J].Journal of Sichuan University(Natural Science Edition),2015,52(1):57-62.(in Chinese)
[4]周勝臣,瞿文婷,石英子,施詢之,孫韻辰.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30(3):161-164,181..Zhou Shengchen Qu Wenting Shi Yingzi Shi Xunzhi Sun Yunchen.Overview on sentment anylysis of Chinese microbologging [J].Computer Applications and Software,2013,30(3):161-164,181.(in Chinese)
[5]Ye Q,Zhang Z,Law R.Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Systems with Applications,2009,36( 3) :6527 - 6535.
[6]鄭文英.旅行目的地中文評論的情感分析研究[D].哈爾濱:哈爾濱工業(yè)大學,2010.Zheng Wenying.Sentiment analysis of travel destination reviews in Chinese[D].Harbin:Harbin Institute of Technology,2010.(in Chinese)
[7]宗慶成.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2014.Zong Qin-cheng.Statistical natural language processing[M].Beijing:Tsinghua University press,2014(in Chinese)
[8]周可艷,宗成慶.對話行為信息在口語翻譯中的應用[J].中文信息學報,2010,24(6):57-62.ZHOU Keyan,ZONG Chengqing.Apply Dialog Act Information in Spoken Language Translation[J].Journal of chinese information processing,2010,24(6):57-62.(in Chinese)
[9]藺璜,郭姝慧.程度副詞的特點范圍與分類[J].山西大學學報(哲學社會科學版),2003,26(2):71-74.LIN Huang,GUO Shu- hui.On the Characteristics,Range and Classification of Adverbs of Degree[J].Journal of Shanxi University(Philosophy&Social Science),2003,26(2):71-74.(in Chinese)
Research of tourism network review sentiment analysis method and system implementation
QIN Guorong,YE Zhicheng,ZHUANG Binhao,CAI Zhecong
(School of Software,Shenzhen Institute of Information Technology,Shenzhen 518172,P.R.China)
In this paper,we study the method of sentiment analysis in the field of tourism,and realize a practical application of the tourism network review monitoring system for the aviation company and hotel users.A simple and convenient method of sentiment analysis is designed,based on the sentiment dictionary to analyze the tourism network,and to obtain a higher accuracy rate for the optimization of the tourist areas.Through the system,enterprises can real-time master user of service evaluation,timely deal with negative comment,avoid causing irreparable.
tourism network review;sentiment analysis;sentiment dictionary;word segmentation dictionary;tourism network review monitoring
TP391.1
A
1672-6332(2015)03-0057-06
【責任編輯:高潮】
2015-09-26
本課題得到深圳信息學院校級科研培育項目(編號:LG201433)和廣東省教育科研“十一五規(guī)劃項目(編號:2010TJK410)資助.
覃國蓉(1969-),女(漢),碩士,教授,主要研究領域為軟件工程、信息安全.、自然語言處理。 E-mail:qingr@sziit.edu.cn