• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蘇州園林網(wǎng)絡(luò)評論意見挖掘研究*

      2016-08-04 02:08:12亮,莉,許
      關(guān)鍵詞:支持向量機(jī)特征提取

      包 亮, 張 莉,許 鑫

      (1. 南京思杰系統(tǒng)信息技術(shù)有限公司,江蘇 南京 211106; 2.南京大學(xué) 計算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210093;3.華東師范大學(xué) 信息管理系,上海 200241)

      ?

      蘇州園林網(wǎng)絡(luò)評論意見挖掘研究*

      包亮1, 張莉2,許鑫3

      (1. 南京思杰系統(tǒng)信息技術(shù)有限公司,江蘇 南京 211106; 2.南京大學(xué) 計算機(jī)科學(xué)與技術(shù)系,江蘇 南京 210093;3.華東師范大學(xué) 信息管理系,上海 200241)

      摘要:對抓取的蘇州園林網(wǎng)絡(luò)評論進(jìn)行意見挖掘,基于詞、詞性和句法模式利用CRF模型抽取評論句中的評價對象,利用SVM分類算法對評論句中蘊(yùn)含的情感進(jìn)行分類,獲得了較為理想的實驗結(jié)果,表明所采用的算法較為有效,有一定的實用價值。進(jìn)一步,基于評論意見挖掘結(jié)果,對蘇州園林中的5個典型園林主要從整體用戶情感傾向判斷和尋找園林特質(zhì)這兩方面進(jìn)行分析探討,揭示意見挖掘的重要應(yīng)用價值。

      關(guān)鍵詞:意見挖掘;特征提?。磺楦蟹诸?;條件隨機(jī)場;支持向量機(jī)

      引用格式:包亮, 張莉,許鑫. 蘇州園林網(wǎng)絡(luò)評論意見挖掘研究[J].微型機(jī)與應(yīng)用,2016,35(13):86-89.

      0引言

      旅行地的口碑是旅行者非常關(guān)注的問題,而在互聯(lián)網(wǎng)上搜索總結(jié)景點評價費時費力且完整性差,情感分析正是一種利用計算機(jī)來自動識別主觀文本中的情感傾向的一種技術(shù)。隨著需求的增加,人們除了想獲知對于某個對象的情感外,還希望獲知所評價對象的若干方面的屬性。Hu和Liu等[1]在2004年首次提出了基于產(chǎn)品屬性總結(jié)對象的情感,這種技術(shù)是情感分析的進(jìn)一步發(fā)展,被稱為意見挖掘。

      本文將利用意見挖掘技術(shù)抽取攜程網(wǎng)、同程網(wǎng)和驢媽媽旅游網(wǎng)上游客對于5A級景區(qū)蘇州園林的游記評論中的評價對象以及相應(yīng)的情感傾向,并基于意見挖掘結(jié)果進(jìn)一步揭示其隱含的應(yīng)用價值。

      1相關(guān)工作

      意見挖掘通常包括三方面工作:主題抽取(也稱為評價對象抽取或特征抽取)、觀點表達(dá)抽取和情感判斷,當(dāng)然也可以直接根據(jù)情感詞典進(jìn)行情感分類而不單獨抽取觀點表達(dá)。意見挖掘自問世以來就引起了廣泛的關(guān)注,成為國內(nèi)外自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點。

      評價對象抽取主要采用三種技術(shù),一是利用領(lǐng)域知識相關(guān)的規(guī)則和模板,二是基于領(lǐng)域本體知識庫,三是基于語言模型或機(jī)器學(xué)習(xí)算法。其中機(jī)器學(xué)習(xí)算法是目前評價對象抽取的主流技術(shù),它可以減少人工參與且能獲得不錯的效果。蒙新泛等人[2]和張盛等人[3]均利用條件隨機(jī)場模型(Conditional Random Fields,CRF)進(jìn)行評價對象抽取,劉非凡等[4]利用層級隱馬模型(Hidden Markov Models,HMM)識別產(chǎn)品評價對象。

      情感分類方面,可以根據(jù)情感分類的粒度將其分為兩大類,一是單個詞匯的情感分類,二是短語、句子和文檔的情感分類。與評價對象抽取一樣,機(jī)器學(xué)習(xí)算法也是主流的情感分類技術(shù),例如PANG B等人[5]在2002年首次使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法樸素貝葉斯(NB)、最大熵(ME)和支持向量機(jī)(SVM)進(jìn)行文本的情感分類比較,唐慧豐等人[6]將此研究在中文文本上進(jìn)行了實踐;劉康等人[7]基于層疊CRFs對句子的情感進(jìn)行了分類。

      本文將使用目前的主流技術(shù)即機(jī)器學(xué)習(xí)算法抽取評價對象和進(jìn)行情感分類,評價對象抽取使用CRF模型,情感分類將使用SVM分類算法。

      2網(wǎng)絡(luò)評論意見挖掘方案

      本文意見挖掘研究方案分為抽取評價對象和情感分類兩部分。例如對于評論句“蘇州園林中的建筑物都很氣派?!?,需要抽取的評價對象為“蘇州園林中的建筑物”,情感為“褒義”。

      2.1基于CRF的評價對象抽取

      條件隨機(jī)場模型(CRF)[8]是一種十分流行且有效的有監(jiān)督學(xué)習(xí)算法?;谥暗膶嶒灲Y(jié)果[9],本文選擇詞、詞性和若干個長度不超過5個詞的典型的評價對象句法模式(結(jié)構(gòu))作為CRF的語言特征。句法模式如[狀中結(jié)構(gòu)+主謂關(guān)系](如“今日游客”),其以主謂關(guān)系為中心,在實際標(biāo)注過程中,由程序自動按照模式順序?qū)⒃O(shè)定的句

      圖1 利用CRF抽取評價對象實驗結(jié)果

      圖2 用SVM進(jìn)行情感分類的實驗結(jié)果

      法模式標(biāo)出。

      2.2基于SVM的情感分類

      PANG B等人[5]和唐慧豐等人[6]分別使用NB、ME和SVM這三種經(jīng)典的機(jī)器學(xué)習(xí)算法對英文文本和中文文本進(jìn)行情感分類并進(jìn)行比較,本文作者也在混合領(lǐng)域的語料上做了相似的工作[10],幾個實驗結(jié)果都可看出SVM在情感分類上具有明顯優(yōu)勢,本文將選擇SVM作為情感分類算法。

      本文采用詞作為向量空間模型的文本特征,考慮到數(shù)據(jù)稀疏問題,選擇部分特有詞性的詞作為文本特征,唐慧豐等人[6]選取了名詞、動詞、形容詞和副詞這四種詞性進(jìn)行了實驗,結(jié)果表明這四種詞性的合集已經(jīng)能夠近似地反映整個文檔的情感特征,本文又補(bǔ)充了名詞修飾詞、習(xí)語和縮略語,實驗結(jié)果表明性能有所提高。因此,本文選用的詞共有7種。

      本文選擇最常用的權(quán)重計算函數(shù)TFI-DF表示特征,使用經(jīng)典的特征選擇方法信息增益(IG)選擇特征。

      3實驗結(jié)果與分析

      3.1實驗數(shù)據(jù)準(zhǔn)備

      本文所用的實驗數(shù)據(jù)為2015年2月從攜程網(wǎng)、同程網(wǎng)和驢媽媽旅游網(wǎng)上采集的游客對于蘇州園林的游記評論,最終選取了有評價對象的4 697條評論,包含4 906個評價對象。由兩名標(biāo)注者對評論句中的評價對象、觀點和極性進(jìn)行標(biāo)注,最后由第三名標(biāo)注者進(jìn)行統(tǒng)一,例如對于評論句“蘇州園林中的建筑物都很氣派?!保斯?biāo)注出評價對象、觀點和極性,即:

      {蘇州園林中的建筑物; 很氣派;1}

      基于標(biāo)注數(shù)據(jù)利用CRF和SVM分別抽取評價對象并進(jìn)行情感分類。

      3.2實驗過程和結(jié)果

      (1)基于CRF的評價對象抽取

      在使用CRF進(jìn)行評價對象抽取前,首先通過自行編寫的Python程序?qū)⒃u論語句按照所選擇的特征轉(zhuǎn)化為組塊(token)的格式。評價對象的抽取特征包含了詞、詞性和設(shè)定模式的句法結(jié)構(gòu),使用CRF(本文使用了CRF++0.58)進(jìn)行訓(xùn)練需要使用的特征模板,詞、詞性和句法模式所選擇的特征窗口均為5,范圍是{-2, -1, 0, 1, 2}。

      將標(biāo)注后的數(shù)據(jù)文件交由CRF++0.58進(jìn)行訓(xùn)練,利用上述模板生成模型,然后基于模型對待標(biāo)注的評論句進(jìn)行學(xué)習(xí),本文使用5折交叉驗證。將學(xué)習(xí)后的文件交由conlleval工具統(tǒng)計精確率(Precision,簡稱P值)、召回率(Recall,簡稱R值)和調(diào)和均值(F-measure,簡稱F值),實驗結(jié)果如圖1所示。

      從圖1可以看到,對于4 697條評論句中的4 906個評價對象,本算法共找到3 812個,其中正確的為3 559個,P值、R值和F值分別為93.36%、72.54%和81.65%。

      (2)基于SVM的情感分類

      對于4 697條評論句中標(biāo)出的觀點表達(dá),利用自行編寫的Python程序選擇其中的名詞、動詞、形容詞、副詞、名詞修飾詞、習(xí)語和縮略語這7種詞性的詞或短語,并利用TFI-DF權(quán)重函數(shù)計算它們的權(quán)重。利用著名的數(shù)據(jù)處理工具Weka[11]將處理后的VSM表示文件導(dǎo)入Weka中。

      首先利用Weka中的信息增益函數(shù)進(jìn)行特征選擇,使用默認(rèn)參數(shù)值,然后使用分類算法SVM進(jìn)行情感分類,本文使用臺灣大學(xué)林智仁教授等開發(fā)的LIBSVM[12]并將其加入Weka 中,使用線性核函數(shù)(Linear),參數(shù)使用默認(rèn)值,同樣采用5折交叉驗證,實驗結(jié)果如圖2所示。

      3.3Baseline

      將基于詞和詞性利用CRF進(jìn)行評價對象抽取以及使用唐慧豐等人[6]提出的選擇四種詞性利用SVM進(jìn)行情感分類作為Baseline與本文提出的方法做比較,實驗對比結(jié)果如圖3和圖4所示。

      圖3 基于不同語言特征的CRF評價對象抽取實驗結(jié)果對比

      圖4 基于不同語言特征表示的SVM情感分類實驗結(jié)果對比

      3.4實驗結(jié)果分析

      從3.2節(jié)“基于CRF的評價對象抽取”的實驗結(jié)果來看,評價對象抽取的F值為81.65%,該結(jié)果在目前的同類研究中相對較好,但是也可以看到,算法執(zhí)行后P值較高,R值還有一定的提升空間,究其原因是有部分評價對象因為網(wǎng)絡(luò)評論句本身表現(xiàn)形式自由,因此在詞性和句法模式上難以用統(tǒng)一的固定模式去限制和選擇,所以導(dǎo)致有些評論句未抽取出評價對象,由此R值并不理想。而從另一個方面來看,只要是模式規(guī)范或相對規(guī)范的句式則抽取的準(zhǔn)確率都很高,由此可以獲得較理想的P值。從圖3與僅僅使用詞和詞性這兩個基本的語言特征利用CRF進(jìn)行評價對象抽取的實驗結(jié)果比較來看,增加句法模式這一語言特征對于CRF的特征抽取是有幫助的(F值提高了5.34%)。

      從3.2節(jié)“基于SVM的情感分類”的實驗結(jié)果來看,基于7種詞性,利用TFI-DF作為權(quán)重計算函數(shù),IG作為特征選擇方法,SVM作為分類算法可以獲得較為理想的實驗結(jié)果,表明了所選擇的策略和算法是正確的。另外從實驗結(jié)果也可以看到,貶義情感分類的R值很低(0.533),表明有較多的貶義情感沒有正確確定,究其原因是因為本文所用的實驗數(shù)據(jù)中包含貶義情感的評論句比例很低(10.7%),因此難以獲得較高的召回率。而與唐慧豐等選擇四種詞性的特征表示方法相比(圖4),本文提出的方法在貶義情感識別上有比較好的表現(xiàn),R值提高了9%,F(xiàn)值提高了7.7%,在褒義情感識別上性能也有所提高,整體來看F值有1.2%的提高。

      4基于評論意見挖掘的旅游領(lǐng)域應(yīng)用

      可以基于CRF和SVM抽取的評價對象和情感傾向判斷結(jié)果對數(shù)據(jù)中蘊(yùn)含的其他信息進(jìn)行揭示,其結(jié)果可以進(jìn)一步應(yīng)用在園林和其他旅游領(lǐng)域。本文以蘇州園林中5個典型的園林為例進(jìn)行若干數(shù)據(jù)分析,主要從整體用戶情感傾向判斷和尋找園林特質(zhì)這兩方面進(jìn)行應(yīng)用分析。

      4.1整體用戶情感傾向判斷

      以拙政園、留園、獅子林、網(wǎng)師園和耦園這5個最具代表性的蘇州園林為例,通過自動統(tǒng)計用戶對其的評論得到整體用戶的感情傾向,結(jié)果如圖5所示。

      圖5 用戶評價褒貶比例

      從圖5可以看出,用戶對5個園林的褒貶評價不一,拙政園的貶義評價最多,達(dá)25.67%,網(wǎng)師園的貶義評價最少,只有2.45%,這可能是因為拙政園在5個園林中最為有名,游客對其期望值較高容易產(chǎn)生失望。通過對貶義用戶評論進(jìn)行簡單的詞頻統(tǒng)計發(fā)現(xiàn),事實與猜測相符,用戶的貶義評論主要集中在門票貴和人多這兩個焦點上,而對于網(wǎng)師園和耦園由于游客的期望值不如拙政園,實際游玩時反而能夠有驚喜因此負(fù)面評價少。

      4.2尋找園林特質(zhì)

      根據(jù)用戶評論中的情感詞可以大致判斷出某個園林的特質(zhì),本文通過對觀點表達(dá)自動分詞以及利用同義詞詞林聚類統(tǒng)計得到5個園林的褒義評價詞,據(jù)此尋找園林特質(zhì)。表1所示為每個園林的前10個褒義評價詞。

      表1 園林代表褒義評價詞

      通過集合操作可以去掉5組評價中共同包含的詞如“美”和相當(dāng)于共同包含的詞如“精美”和“精致”(因為已包含“美”,可以認(rèn)為“精美”=“精致”+“美”),大致可以得出每個園林的代表特質(zhì),例如拙政園與其他4個園林相比有“大”和“大氣”的特點,如果喜歡有趣味的園林則可以選擇獅子林,而網(wǎng)師園和耦園相對安靜。

      以上通過結(jié)合集合操作得到的結(jié)論也可以通過UCINET和NetDraw所生成的社會網(wǎng)絡(luò)圖推導(dǎo)得來。圖6所示為利用5個園林的褒義評價詞(包括了所有的褒義評價詞,并且沒有進(jìn)行進(jìn)一步嚴(yán)格的詞合并)生成的社會網(wǎng)絡(luò)圖,在圖中仍然可以看出拙政園與其他園林之間有較大的差別,拙政園和獅子林更具有自己的特色,網(wǎng)師園和耦園相對安靜。

      基于網(wǎng)絡(luò)意見挖掘結(jié)果對整體用戶情感傾向進(jìn)行判斷以及對園林特質(zhì)尋找等進(jìn)行分析,園林管理方可以根據(jù)其結(jié)果發(fā)揚(yáng)或改善園林的優(yōu)缺點,用戶則可以基于這些結(jié)果進(jìn)行游覽的選擇。依此構(gòu)建用戶推薦系統(tǒng),有利于后續(xù)形成旅游產(chǎn)品開發(fā)方案或游覽路線設(shè)計方案。

      圖6 基于用戶褒義評價的園林特質(zhì)關(guān)系網(wǎng)絡(luò)圖

      5結(jié)論

      本文提出利用CRF對蘇州園林的評論抽取其評價對象,并且利用SVM對情感進(jìn)行分類,獲得了較理想的實驗結(jié)果,表明所用算法較好,有一定的實用效果,后續(xù)將繼續(xù)采集更多的網(wǎng)絡(luò)評論,并擴(kuò)展CRF所使用的語言特征以期獲得更好的效果。同時基于意見挖掘結(jié)果從整體用戶評論情感傾向和園林特質(zhì)這兩方面進(jìn)行分析探討,揭示其蘊(yùn)含的應(yīng)用價值。

      本文提出的算法并不局限于某一個或一類景區(qū),對其他景區(qū)同樣適用,同時,這些算法也不僅僅適合旅游領(lǐng)域,除了傳統(tǒng)的產(chǎn)品和電影等領(lǐng)域外,也同樣適合用于微博和書評的意見挖掘中。

      目前在人工標(biāo)注方面較為費時費力,如何半自動地進(jìn)行標(biāo)注是今后研究的一個方向。另外,對于一個范圍內(nèi)各個園林或其他景區(qū)的自動聚類并為不同需求的用戶推薦游覽路線也將是今后研究的重點。

      參考文獻(xiàn)

      [1] Hu Mingqing, Liu Bing. Mining and summarizing customer reviews[C]. In Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168-177.

      [2] 蒙新泛,王厚峰. 基于CRF 的對象抽取及對象抽取的領(lǐng)域特定性研究[C]. 第一屆中文傾向性分析評測論文集.北京:第一屆中文傾向性分析評測委員會,2008:32-37.

      [3] 張盛,李芳.基于迭代兩步CRF模型的評價對象與極性抽取研究[J].中文信息學(xué)報,2015,29(1):163-169.

      [4] 劉非凡,趙軍,呂碧波,等.面向商務(wù)信息抽取的產(chǎn)品評價對象識別研究[J].中文信息學(xué)報, 2006,20(1):17-20.

      [5] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning teehniques[C]. EMNLP’02,2002:79-86.

      [6] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].

      中文信息學(xué)報,2007,21(6):55-94.

      [7] 劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報,2008,22(l):123-128.

      [8] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling or sequence data[C]. ICML 2001,2001:282-289.

      [9] 張莉,錢玲飛,許鑫.基于核心句及句法關(guān)系的評價對象抽取[J].中文信息學(xué)報,2011,25(3):23-29.

      [10] 張莉. 跨領(lǐng)域中文評論的情感分類研究[J].計算機(jī)應(yīng)用研究,2013,30(3):736-741.

      [11] Lin Zhiren. Machine learning group at the university of Waikato. Weka[EB/OL]. (2013-12-20) [2015-10-22].http://www.cs.waikato.ac.nz/ml/weka/.

      [12] CHANG C C, LIN C J. LIBSVM算法[EB/OL].(2015-12-14) [2015-12-18]. http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

      *基金項目:國家社會科學(xué)基金項目(11CYY031)

      中圖分類號:TP309

      文獻(xiàn)標(biāo)識碼:A

      DOI:10.19358/j.issn.1674- 7720.2016.13.028

      (收稿日期:2016-03-11)

      作者簡介:

      包亮(1976-),男,碩士,工程師,主要研究方向:藍(lán)牙技術(shù),Android系統(tǒng)開發(fā)。

      張莉(1976-),女,博士,副教授,主要研究方向:自然語言處理。

      許鑫(1976-),男,博士,教授,主要研究方向:網(wǎng)絡(luò)信息處理與分析,管理信息系統(tǒng)。

      Research on opinion mining about Suzhou garden network comments

      Bao Liang1, Zhang Li2, Xu Xin3

      (1. Citrix Systems Inc., Nanjing 211106, China; 2.Department of Computer Science and Technology, Nanjing University,Nanjing 210093, China; 3.Department of Information Management, East China Normal University, Shanghai 200241, China)

      Abstract:This paper mines the opinions of Suzhou garden crawled from the network. CRF model is used to extract the features based on the word, part of speech and syntactic pattern. The SVM algorithm is used to execute the sentiment classification. Experiment result is good, showing the algorithm’s effectiveness and its practical value. Furthermore, from aspects of users sentiment analysis and gardens’ character finding, 5 typical ones from all Suzhou gardens are discussed based on the result of Suzhou garden opinion mining, which reveals the important application value of opinion mining.

      Key words:opinion mining; features extraction; sentiment classification; conditional random fields; support vector machines

      猜你喜歡
      支持向量機(jī)特征提取
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于SVM的煙草銷售量預(yù)測
      動態(tài)場景中的視覺目標(biāo)識別方法分析
      論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      基于DSP的直線特征提取算法
      胶州市| 桐庐县| 华亭县| 洮南市| 平果县| 大洼县| 宜兴市| 福安市| 鄢陵县| 巴南区| 进贤县| 上犹县| 池州市| 安庆市| 上杭县| 佛教| 屏东市| 平安县| 健康| 夏河县| 澄城县| 紫金县| 滁州市| 北宁市| 新乐市| 西和县| 松潘县| 金溪县| 宁河县| 禄丰县| 陕西省| 乌兰察布市| 房产| 苗栗市| 太谷县| 江源县| 洱源县| 罗源县| 收藏| 军事| 新平|