• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究*

      2016-08-11 07:04:08王新宇
      關(guān)鍵詞:情感分析機(jī)器學(xué)習(xí)

      王新宇

      (南京旅游職業(yè)學(xué)院 南京 211100)

      ?

      基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評(píng)價(jià)情感分析研究*

      王新宇

      (南京旅游職業(yè)學(xué)院南京211100)

      摘要針對(duì)旅游網(wǎng)絡(luò)評(píng)價(jià)使用的旅游情感詞匯量不多的特點(diǎn),提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,用于旅游網(wǎng)絡(luò)點(diǎn)評(píng)的情感傾向性分析研究。采用向量空間模型表示旅游評(píng)價(jià)文本,使用旅游情感詞典對(duì)特征空間進(jìn)行降維,采用TF-IDF特征權(quán)重法計(jì)算權(quán)重,利用SVM機(jī)器學(xué)習(xí)模型對(duì)評(píng)價(jià)進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地進(jìn)行旅游網(wǎng)絡(luò)評(píng)價(jià)分類。

      關(guān)鍵詞機(jī)器學(xué)習(xí); 情感詞典; 情感分析

      Class NumberTP391.1

      1 引言

      隨著互聯(lián)網(wǎng)的普及和不斷發(fā)展,互聯(lián)網(wǎng)日益成為企業(yè)和個(gè)人檢索信息和發(fā)布信息的主要渠道,一條網(wǎng)絡(luò)評(píng)論產(chǎn)生的影響不容忽視,特別是對(duì)某種產(chǎn)品的輿情評(píng)價(jià)信息,對(duì)購(gòu)物者的導(dǎo)向作用愈來愈重要,當(dāng)購(gòu)物者通過電商網(wǎng)站選購(gòu)商品,一般先瀏覽該商品的評(píng)價(jià),特別注重負(fù)面評(píng)價(jià),如果有少量負(fù)面評(píng)價(jià),購(gòu)物者往往會(huì)猶豫,如果負(fù)面評(píng)價(jià)過多,購(gòu)物者一定會(huì)放棄在該網(wǎng)站購(gòu)物。旅游產(chǎn)品作為一種特殊的商品,它完全要通過游客的身臨其境的體驗(yàn),才能完成產(chǎn)品的消費(fèi),潛在的顧客對(duì)旅游產(chǎn)品的網(wǎng)絡(luò)評(píng)價(jià)特別注重,由于網(wǎng)絡(luò)評(píng)論的時(shí)效性強(qiáng),對(duì)于意見類訴求若不及時(shí)響應(yīng),往往對(duì)企業(yè)形象造成負(fù)面影響。所以在旅游領(lǐng)域,旅游電商企業(yè)、旅行社、酒店等十分重視旅游網(wǎng)絡(luò)評(píng)價(jià)的主動(dòng)引導(dǎo),例如:同程旅游網(wǎng)已經(jīng)具有處理游客評(píng)價(jià)的能力,游客在酒店住宿或在景區(qū)游玩后,除了進(jìn)行一段點(diǎn)評(píng),還可以選擇對(duì)旅游企業(yè)的服務(wù)進(jìn)行“好評(píng)”、“中評(píng)”和“差評(píng)”的歸類評(píng)價(jià),從表面上看,通過這種簡(jiǎn)單分類的辦法,顧客對(duì)旅游企業(yè)的服務(wù)評(píng)價(jià)一目了然,簡(jiǎn)單直觀,非常實(shí)用,但實(shí)際上,這種方法往往達(dá)不到期望的效果,這是因?yàn)橐恍┯慰统鲇谀撤N原因不得不選擇了好評(píng),但點(diǎn)評(píng)文字表達(dá)中卻又出現(xiàn)牢騷滿腹的文字,表現(xiàn)出了不滿情緒,可見,實(shí)際上這些顧客還是對(duì)旅游企業(yè)的服務(wù)是不滿意的。如果僅僅使用簡(jiǎn)單套用表面上“好評(píng)”分類,不去分析顧客的點(diǎn)評(píng)文字,勢(shì)必會(huì)影響結(jié)果,對(duì)客人的不滿和投訴的解決也起不到作用。因此,需要一種更為有效的方法,直接對(duì)每一條顧客對(duì)服務(wù)的點(diǎn)評(píng)進(jìn)行分析,從點(diǎn)評(píng)中挖掘顧客實(shí)際的評(píng)價(jià)情感傾向,幫助旅游企業(yè)發(fā)現(xiàn)旅游線路設(shè)計(jì)、景區(qū)服務(wù)管理、酒店客房管理中存在的不足,及時(shí)采取相應(yīng)的補(bǔ)救措施,從而可以提高顧客忠誠(chéng)度,產(chǎn)生更大的經(jīng)濟(jì)效益。

      2 相關(guān)研究

      情感分析(亦稱評(píng)論挖掘),通常是指對(duì)一段帶有主觀性情感的文本進(jìn)行分析的過程。情感分析有很強(qiáng)的實(shí)用價(jià)值,例如,通過對(duì)某酒店服務(wù)評(píng)論的情感分析,可以發(fā)現(xiàn)顧客對(duì)該酒店軟硬件設(shè)施和服務(wù)的褒貶態(tài)度和意見,從而改進(jìn)設(shè)施并改善服務(wù),贏得競(jìng)爭(zhēng)優(yōu)勢(shì);通過對(duì)游客對(duì)某條旅游線路的評(píng)論情感分析,旅行社可以了解游客對(duì)該線路的態(tài)度傾向分布,從而優(yōu)化路線,提高服務(wù)品質(zhì),從競(jìng)爭(zhēng)中脫穎而出。通過情感分析技術(shù),可以幫助企業(yè)從互聯(lián)網(wǎng)上海量的產(chǎn)品評(píng)論中獲取對(duì)產(chǎn)品綜合、全面的評(píng)價(jià)信息。因此,許多企業(yè)都對(duì)應(yīng)用情感分析技術(shù)分析客人的網(wǎng)絡(luò)評(píng)價(jià),有著迫切的需要,許多專家學(xué)者也對(duì)此開展了研究工作[1~5]。目前網(wǎng)絡(luò)評(píng)價(jià)情感分析的研究工作主要著重于理論研究或微博的評(píng)論的情感分析,但重點(diǎn)對(duì)旅游網(wǎng)絡(luò)評(píng)價(jià),進(jìn)行情感分析的文獻(xiàn)和研究工作很少。因此,如何從旅游網(wǎng)絡(luò)評(píng)價(jià)中獲取游客的情感傾向,并更好地服務(wù)于游客,是一個(gè)非常有實(shí)用價(jià)值的研究方向。

      目前研究文本情感傾向,主要使用兩種方法,分別是:基于機(jī)器學(xué)習(xí)的方法和基于語義的方法。基于機(jī)器學(xué)習(xí)的方法是利用分類技術(shù)來處理文本,分類技術(shù)一般是使用某種學(xué)習(xí)算法來確定分類模型,該模型不但很好地?cái)M合輸入數(shù)據(jù)中的類標(biāo)號(hào)與屬性集之間的關(guān)系,還能夠正確地預(yù)測(cè)未知樣本的類標(biāo)號(hào)中類標(biāo)號(hào),我們需要為它提供一個(gè)人工標(biāo)注的訓(xùn)練集,通過上述的學(xué)習(xí)算法,訓(xùn)練并建立分類模型,然后可以將這個(gè)模型運(yùn)用于檢驗(yàn)集,從而檢驗(yàn)類標(biāo)號(hào)未知情感文本記錄。唐慧豐等以中心向量法、KNN和支持向量機(jī)作為分類算法,分別進(jìn)行了分類實(shí)驗(yàn),實(shí)驗(yàn)表明,采用支持向量機(jī)進(jìn)行情感分類,可以取得較好的效果[6]。徐軍等將樸素貝葉斯和最大熵方法應(yīng)用于新聞文本的情感分類,取得不錯(cuò)的分類性能,最高準(zhǔn)確率能達(dá)到90%[7]?;谡Z義的方法,一般是先獲得情感傾向詞,把表示情感的詞語劃分成正面詞語和負(fù)面詞語,同時(shí)構(gòu)造一個(gè)專用的情感詞典,然后利用這個(gè)詞典,使用線性代數(shù)和統(tǒng)計(jì)分析的方法,來統(tǒng)計(jì)文本中的正面和負(fù)面情感詞語的相對(duì)數(shù)量,從而確定文本的情感傾向。羅景等將概率潛在語義模型用于中文信息檢索,并通過實(shí)驗(yàn)證明,該模型能夠明顯地提高中文信息檢索的精度[8];宋曉雷等利用概率潛在語義分析,給出了兩種用于判別詞匯情感傾向的方法,這兩種方法可以在沒有外部資源的條件下,實(shí)現(xiàn)詞匯情感傾向的判別[9]。

      從上述研究可以看出,這兩種方法各有長(zhǎng)處和不足,本文提出了一種基于詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,并將這個(gè)方法應(yīng)用于旅游網(wǎng)絡(luò)評(píng)價(jià)的情感分析研究。

      3 基于機(jī)器學(xué)習(xí)分類的方法

      機(jī)器學(xué)習(xí)作為人類智力的延伸,作為人工智能的重要研究方向之一,它試圖從模擬人類的學(xué)習(xí)能力出發(fā),運(yùn)用一些最基本的統(tǒng)計(jì)方法,去探索客觀世界,獲得各種知識(shí)和技能,在計(jì)算機(jī)技術(shù)的幫助下建立相關(guān)的學(xué)習(xí)模型,最終可以讓計(jì)算機(jī)系統(tǒng)獲得某些學(xué)習(xí)能力。

      常用的機(jī)器學(xué)習(xí)分類法有:最大熵、樸素貝葉斯文本算法、支持向量機(jī)模型。

      支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik于1995年根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論,提出的一種新的機(jī)器學(xué)習(xí)方法,它以結(jié)構(gòu)風(fēng)險(xiǎn)化最小原則為基礎(chǔ),其主要思想是建立一個(gè)分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣最大化。它在許多諸如車牌識(shí)別、文本分類等實(shí)際應(yīng)用中體現(xiàn)了其大有可為之處。另外,支持向量機(jī)還有一個(gè)特點(diǎn),就是可以很好地應(yīng)用于高維數(shù)據(jù),避免了“維數(shù)災(zāi)難”問題。Pang等利用支持向量機(jī)、樸素貝葉斯、最大熵這三種機(jī)器學(xué)習(xí)方法,對(duì)觀眾的電影評(píng)論進(jìn)行了情感分類,根據(jù)他們的研究,這三種機(jī)器學(xué)習(xí)方法均優(yōu)于純?nèi)斯し诸?并且發(fā)現(xiàn)支持向量機(jī)比其它兩種機(jī)器學(xué)習(xí)方法更好。

      4 數(shù)據(jù)的采集和預(yù)處理

      4.1旅游點(diǎn)評(píng)數(shù)據(jù)采集

      通過使用一個(gè)自行編寫的評(píng)價(jià)提取工具(C#開發(fā))從同程旅游網(wǎng)上抓取了部分景區(qū)的旅游點(diǎn)評(píng),為了使數(shù)據(jù)更有廣泛性,抓取的景區(qū)數(shù)據(jù)共有15個(gè)景區(qū),其中:北方景區(qū)5個(gè),南方景區(qū)7個(gè),華東景區(qū)3個(gè),共計(jì)提取4500條點(diǎn)評(píng)信息存入數(shù)據(jù)庫(kù)(采用SQL Server express版)。

      每個(gè)景區(qū)介紹頁(yè)面中包含的標(biāo)簽和內(nèi)容非常多,大部分信息是與游客點(diǎn)評(píng)無關(guān)的,程序需要仔細(xì)分析頁(yè)面,從大量的“噪聲”信息中找到游客的評(píng)價(jià)內(nèi)容,我使用正則表達(dá)式可以輕松、高效、準(zhǔn)確地獲取到游客對(duì)景區(qū)的點(diǎn)評(píng)信息,并將其存儲(chǔ)于數(shù)據(jù)庫(kù)中。

      以下代碼簡(jiǎn)單描述了如何提取某景區(qū)的點(diǎn)評(píng),并保存至數(shù)據(jù)庫(kù)中。

      void test(string str,string jqn){

      string pstr = "〈DIV class=dpwords〉(?〈title〉.*?)〈/DIV〉";

      string temp = "",sql = "";

      MatchCollection mc = Regex.Matches(str,pstr);

      int count = mc.Count;

      int i=0;

      string dpstr = "";

      SqlConnection conn = dbbaseop.SqlCon();

      SqlCommand cmd;

      conn.Open();

      while(i

      temp = mc[i].Groups["title"].Value;

      dpstr = temp.Replace("'", "");

      sql = "insert into tb_dpinfo values('"+jdn+"','" + dpstr+ "')";

      cmd = new SqlCommand(sql, conn);

      cmd.ExecuteNonQuery();

      i++;

      cmd.Dispose();

      }

      conn.Dispose();

      }

      4.2分詞系統(tǒng)

      將游客對(duì)景區(qū)的評(píng)價(jià)信息從網(wǎng)頁(yè)中提取出來以后,需要對(duì)評(píng)論內(nèi)容進(jìn)行預(yù)處理,第一步需要進(jìn)行中文分詞,將由漢字序列組成的評(píng)價(jià)語句,通過一定的方法分割成若干個(gè)有著單獨(dú)意義的漢語詞條,這一步比較關(guān)鍵,同時(shí)這也是中文文本挖掘的重點(diǎn)和難點(diǎn)。分詞方法一般有3種方法:機(jī)械匹配的方法、最大概率的方法、語義理解的方法。機(jī)械匹配的方法是最常用的方法,在借助一個(gè)詞典的幫助下,它主要利用正向或者反向最大匹配的原則來分詞,清華大學(xué)CSEG系統(tǒng)就是這種方法實(shí)現(xiàn)的。最大概率是根據(jù)一個(gè)事先建立的常用詞語的概率表,依據(jù)這張概率表,對(duì)漢字字符串可能存在的多種分詞結(jié)果進(jìn)行統(tǒng)計(jì)分析,將其中概率最大的那個(gè)結(jié)果,作為該漢字字符串的分詞結(jié)果,代表系統(tǒng)有中科院計(jì)算所ICTCLAS系統(tǒng);基于語義理解的方法,這種方法可以實(shí)現(xiàn)新詞識(shí)別功能,亦稱為人工智能分詞方法,山西大學(xué)ABWS系統(tǒng)是其代表。

      為了減少工作量,提高實(shí)驗(yàn)精度和效率,本文采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的漢語詞法分析系統(tǒng)(ICTCLAS),該系統(tǒng)對(duì)非商業(yè)用途完全免費(fèi),除了提供一個(gè)簡(jiǎn)易的使用界面外,還提供了相關(guān)編程接口,可以使用C/C++、C#、Java等語言調(diào)用系統(tǒng)提供的函數(shù),進(jìn)行二次開發(fā),將分詞功能直接嵌入到自行開發(fā)的軟件中,接口調(diào)用方法非常方便。我們利用ICTCLAS提供的接口,使用C#編程,實(shí)現(xiàn)了對(duì)旅游評(píng)價(jià)信息的分詞,以下代碼簡(jiǎn)單演示如何調(diào)用接口函數(shù),獲取分詞字符串。

      private string fc(string str){//str為待分詞中文字符串

      CFc.NLPIR_Init("", 0, "");//初始化接口

      //調(diào)用接口函數(shù),切分參數(shù)str傳遞的字符串,并將結(jié)果保存為IntPtr類型

      IntPtrintPtr = CFc.NLPIR_ParagraphProcess(str, 1);

      //將切分結(jié)果轉(zhuǎn)換為字符串

      stringrstr = Marshal.PtrToStringAnsi(intPtr);

      CFc.NLPIR_Exit();//退出接口

      returnrstr;

      }

      輸入字符串:“揚(yáng)州瘦西湖,一直是聞其名,果然是美景怡人,門票稍貴了點(diǎn),不過也算值得,在湖上蕩舟,別有風(fēng)味。就是四月的揚(yáng)州人太多了些。”

      得到分詞后的結(jié)果:“揚(yáng)州/ns 瘦西湖/ns ,/wd 一直/d 是/vshi 聞/v 其/rz 名/ng ,/wd 果然/d 是/vshi 美景/n 怡/vg 人/n ,/wd 門票/n 稍/d 貴/a 了/ule 點(diǎn)/qt ,/wd 不過/c 也/d 算/v 值得/v ,/wd 在/p 湖/n 上/f 蕩/v 舟/n ,/wd 別有風(fēng)味/vl 。/wj 就/d 是/vshi 四月/t 的/ude1 揚(yáng)州/ns 人/n 太/d 多/a 了/ule 些/q 。/wj”。

      4.3旅游情感詞典的建立

      基于詞典的旅游情感分析,需要建立一個(gè)旅游情感詞典。目前中文文本的情感分析處于研究階段,已經(jīng)有少量通用情感詞典庫(kù)可以利用,但由于很少有旅游情感分析的研究,所以目前尚沒有專門的旅游情感詞典庫(kù)。我們通過以下方法來完成旅游情感詞典的構(gòu)建: 1) 以大連理工大學(xué)信息檢索研究室整理和標(biāo)注的一個(gè)中文感情詞典資源庫(kù)為本體庫(kù),該詞典將情感共分為7大類21小類,每個(gè)詞在每一類情感下都對(duì)應(yīng)了“中性”、“褒義”、“貶義”、“褒貶兩性”4種極性中的1種,并列出了每個(gè)詞匯的詞性種類、情感分類和情感強(qiáng)度[10],設(shè)該詞典為集合D。 2) 利用分詞系統(tǒng)提供的編程接口,編寫了相關(guān)程序,對(duì)4.1節(jié)中的點(diǎn)評(píng)信息進(jìn)行分詞處理,將得到的詞匯集合PW。將D與PW進(jìn)行交集操作,可以得到旅游情感詞典ED,可表示為ED=D∩PW。根據(jù)以上步驟編制程序,可以得到一個(gè)包含1989個(gè)情感詞匯的旅游情感詞匯詞典。表1為最終得到的旅游情感詞匯示例。

      表1 網(wǎng)絡(luò)點(diǎn)評(píng)常用旅游情感詞匯示例

      4.4文本表示

      因?yàn)楝F(xiàn)代計(jì)算機(jī)無法智能地識(shí)別人類的自然語言,也無法直接處理文本這類非結(jié)構(gòu)化數(shù)據(jù),所以經(jīng)過預(yù)處理的文本數(shù)據(jù)需要轉(zhuǎn)化成某種結(jié)構(gòu)化的形式,才能讓計(jì)算機(jī)“讀懂”,進(jìn)而可以進(jìn)行識(shí)別和處理,這個(gè)轉(zhuǎn)化過程就是文本形式化表示。單字、詞組、短語等都是常用的文本形式,常見的文本的形式表示模型有布爾模型、概率模型和向量空間模型(Vector Space Model,VSM)。其中,向量空間模型的文本表示效果較好,也是經(jīng)常使用的一種文本表示方法,向量空間模型可以描述為,給定集合T{t1,t2,…,tn}是文本中出現(xiàn)的m個(gè)特征,設(shè)wi表示第i個(gè)特征在文本D中的權(quán)重,可以把D表示為D={t1,w1;t2,w2;…,tn,wn}。其中,權(quán)重可以通過使用布爾權(quán)重法、詞頻權(quán)重法或TFIDF權(quán)重法來計(jì)算。

      4.5特征選取

      游客的旅游點(diǎn)評(píng)文本轉(zhuǎn)化為向量空間模型后,可以得到一個(gè)稀疏矩陣,通常是一個(gè)高維的空間,在機(jī)器學(xué)習(xí)的過程中,過高的特征空間維度,有造成“維數(shù)災(zāi)難”的可能。雖然理論和實(shí)踐證明了采用支持向量機(jī)可以很好地應(yīng)用于高維數(shù)據(jù),避免了“維數(shù)災(zāi)難”問題,但如果考慮算法的時(shí)間復(fù)雜度,最好還是把特征的個(gè)數(shù)控制在一個(gè)合理的范圍內(nèi)。這就要求采用某種特征選擇算法對(duì)特征空間進(jìn)行篩選,從而達(dá)到降低維數(shù)的目的。已經(jīng)研究出多種方法可以進(jìn)行特征選擇,最常用的兩種方法是:文檔頻率(DF)和卡方(CHI)統(tǒng)計(jì)。文檔頻率是一種簡(jiǎn)單的,但有較好性能的特征選擇方法,該方法通過將文檔頻率設(shè)置在某個(gè)范圍來進(jìn)行特征的選取??ǚ浇y(tǒng)計(jì)是通過分析特征和類別之間的依賴程度來進(jìn)行特征的選取。

      此外,還可以結(jié)合情感詞典進(jìn)行特征選擇,建立一個(gè)情感詞匯數(shù)量不多的情感詞典,然后直接通過使用該情感詞典作為特征選擇的依據(jù),在這種情況下,可以認(rèn)為使用情感詞典也是一種有效的降維方法,一些文獻(xiàn)對(duì)這種方法進(jìn)行了實(shí)驗(yàn),證明這種方法是有效和可行的[11,12]。根據(jù)劉志明[12]的研究,當(dāng)權(quán)重采用TF-IDF法時(shí),在特征數(shù)為2000時(shí),SVM的性能可以達(dá)到最優(yōu)。4.3節(jié)中建立的旅游情感詞典的詞匯數(shù)量接近2000,所以本文把該旅游情感詞典中所有的詞匯均作為特征。

      4.6特征加權(quán)

      對(duì)于4.4節(jié)中的文本空間,其中的每個(gè)特征的重要性是不同的,需要對(duì)文本特征進(jìn)行加權(quán)操作,這一步對(duì)于分類結(jié)果有著相當(dāng)重要的作用。特征加權(quán)的過程,就是根據(jù)每個(gè)特征對(duì)分類結(jié)果的貢獻(xiàn)大小,賦予不同權(quán)值的過程。經(jīng)常使用的特征加權(quán)方法有:布爾權(quán)重法,詞頻權(quán)重法和TF-IDF權(quán)重法。

      TF-IDF被是被廣泛使用的特征權(quán)重計(jì)算方法,其主要思想是,對(duì)文檔分類最有作用的特征詞,應(yīng)該是那些在一篇文檔中出現(xiàn)頻率高,而在其他文檔中很少出現(xiàn)的詞。其計(jì)算公式可表示如下:

      其中,tf(i,j)為特征項(xiàng)ti在文本dj中出現(xiàn)的次數(shù),ni為包含ti特征的文本數(shù)量,N為總文檔數(shù)。

      周杰通過實(shí)驗(yàn)證明,對(duì)于評(píng)論語句很短的語料,在進(jìn)行情感傾向分析時(shí),使用TF-IDF權(quán)重計(jì)算方法,可以獲得較優(yōu)準(zhǔn)確率[13],所以本文使用TF-IDF權(quán)重法,利用C#語言編制相應(yīng)的計(jì)算程序。

      5 實(shí)驗(yàn)及結(jié)果分析

      5.1實(shí)驗(yàn)數(shù)據(jù)及環(huán)境

      實(shí)驗(yàn)數(shù)據(jù)使用的語料庫(kù)為4.1節(jié)中建立的數(shù)據(jù)庫(kù),從中挑選了5個(gè)景區(qū)的1800點(diǎn)評(píng)信息為語料,人工對(duì)這些點(diǎn)評(píng)的情感傾向進(jìn)行了標(biāo)注。語料選擇情況如表2所示。

      表2 語料選擇情況統(tǒng)計(jì)

      實(shí)驗(yàn)環(huán)境為Visual Studio 2008、SQL Server 2005,實(shí)現(xiàn)SVM機(jī)器學(xué)習(xí)模型使用的是林智仁開發(fā)的LIBSVM工具箱。特征詞選用了4.3節(jié)中建立的旅游情感詞典中的全部1989個(gè)情感詞匯,使用TF-IDF進(jìn)行權(quán)重計(jì)算。

      5.2評(píng)價(jià)指標(biāo)

      本次實(shí)驗(yàn)使用了正確率(precision)、召回率(recall)、F均值作用評(píng)價(jià)指標(biāo),來檢驗(yàn)實(shí)驗(yàn)效果。

      令Drighti為被正確的劃分到Ci類別中的評(píng)價(jià)文本數(shù)量,Dwrongi為被誤劃分到Ci類別中的評(píng)價(jià)文本數(shù)量,為Ci類別中實(shí)際的評(píng)價(jià)文本數(shù)量。則:

      5.3實(shí)驗(yàn)結(jié)果及分析

      實(shí)驗(yàn)結(jié)果如表3所示。

      表3 實(shí)驗(yàn)結(jié)果

      研究表明,基于SVM模型的情感分類實(shí)驗(yàn),其正確率可以高80%左右[12],從實(shí)驗(yàn)結(jié)果看,本文所設(shè)計(jì)的以旅游感情詞典作為特征,采用TF-IDF進(jìn)行特征權(quán)重計(jì)算,利用SVM機(jī)器學(xué)習(xí)模型進(jìn)行情感傾向分類的方法,雖然正確率沒有達(dá)到很高的值,但本方法算法簡(jiǎn)單,效率較高,容易實(shí)現(xiàn),三大指標(biāo)的數(shù)值還是較為滿意的。

      6 結(jié)語

      針對(duì)旅游點(diǎn)評(píng)內(nèi)容很短、使用的旅游情感詞匯數(shù)量不多、用語口語化等特點(diǎn),本文提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,用于旅游網(wǎng)絡(luò)點(diǎn)評(píng)的情感傾向性分析研究。采用向量空間模型表示旅游評(píng)價(jià)文本,使用旅游情感詞典對(duì)特征空間進(jìn)行降維,采用TF-IDF特征權(quán)重法計(jì)算權(quán)重,利用SVM機(jī)器學(xué)習(xí)模型將旅游網(wǎng)絡(luò)評(píng)價(jià)的情感分為正向和負(fù)向兩類,因?yàn)槔昧寺糜吻楦性~典進(jìn)行降維,減少了計(jì)算工作量并降低了計(jì)算復(fù)雜度,較為實(shí)用,從正確率、召回率、F均值三大指標(biāo)來看,該方法的實(shí)驗(yàn)也取得了較為滿意結(jié)果,從中我們可以看出這種方法在旅游網(wǎng)絡(luò)評(píng)價(jià)情感傾向分析中,具有一定的優(yōu)勢(shì)。今后的研究工作主要著重兩點(diǎn):第一,將實(shí)驗(yàn)中所編制網(wǎng)絡(luò)評(píng)價(jià)提取和相關(guān)算法的程序,進(jìn)一步完善,實(shí)現(xiàn)實(shí)用化的軟件產(chǎn)品;第二,加強(qiáng)對(duì)旅游網(wǎng)絡(luò)評(píng)價(jià)詞的聚類分析研究,找出游客評(píng)價(jià)中的共同點(diǎn),為旅游企業(yè)改進(jìn)產(chǎn)品和服務(wù)提供數(shù)據(jù)支持,實(shí)現(xiàn)“科技為旅游助力”。

      參 考 文 獻(xiàn)

      [1] 張紫瓊,葉強(qiáng),李一軍.互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J].管理科學(xué)學(xué)報(bào),2010(6):84-96.

      ZHANG Ziqiong, YE Qiang, LI Yijun. Literaturereview on sentiment analysis of online product reviews[J]. Journal of Management Sciences in China,2010(6):84-96.

      [2] 葉強(qiáng),張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評(píng)論情感分析的中文主觀性自動(dòng)判別研究[J].信息系統(tǒng)學(xué)報(bào),2007(1):79-91.

      YE Qiang, ZHANG Ziqiong & Law Rob. Automatically Measuring Subjectivity of Chinese Sentences for Sentiment Analysis to Reviews on the Internet[J]. China Journal of Information Systems,2007(1):79-91.

      [3] 陸文星,王燕飛.中文文本情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012(6):2014-2017.

      LU Wenxing, WANG Yanfei. Review of Chinese text sentiment analysis[J]. Application Research of Computers,2012(6):2014-2017.

      [4] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

      ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment Analysis[J]. Journal of Software,2010,21(8):1834-1848.

      [5] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008(11):2725-2728.

      ZHOU Lizhu, HE Yukai, WANG Jianyong. Survey on research of sentiment analysis[J]. Computer Applications,2008(11):2725-2728.

      [6] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報(bào),2007(11):88-108.

      TANG Huifeng, TAN Songbo, CHENG Xueqi. Research on Sentiment Classification of Chinese Reviews Based on Supervised Machine Learning Techniques[J]. Journal of Chinese Information Processing,2007(11):88-108.

      [7] 徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007(11):95-100.

      XU Jun, DING Yuxin, WANG Xiaolong. Sentiment Classification for Chinese News Using Machine Learning Methods[J]. Journal of Chinese Information Processing,2007(11):95-100.

      [8] 羅景,涂新輝.基于概率潛在語義分析的中文信息檢索[J].計(jì)算機(jī)工程,2008(1):199-201.

      LUO Jing, TU Xinhui. Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis[J]. Computer Engineering,2008(1):199-201.

      [9] 宋曉雷,王素格,李紅霞,等.基于概率潛在語義分析的詞匯情感傾向判別[J].中文信息學(xué)報(bào),2011(6):89-93.SONG Xiaolei, WANG Suge, LI Hongxia, et al. Word Sentiment Orientation Discrimination Based on PLSA[J]. Journal of Chinese Information Processing,2011(6):89-93.

      [10] 徐琳宏,林鴻飛,趙晶.情感語料庫(kù)的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008(1):116-122.

      XU Linhong, LIN Hongfei, ZHAO Jing. Construction and Analysis of Emotional Corpus[J]. Journal of Chinese Information Processing,2008(1):116-122.

      [11] 楊鼎,陽(yáng)愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J].計(jì)算機(jī)應(yīng)用研究,2010(10):3737-3739.

      YANG Ding, YANG Aimin. Classification approach of Chinese texts sentiment based on semantic lexicon and naive Bayesian[J]. Application Research of Computers,2010(10):3737-3739.

      [12] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(1):1-4.

      LIU Zhiming, LIU Lu. Empirical study of sentiment classification for Chinese microblog based on machine learning[J]. Computer Engineering and Applications,2012,48(1):1-4.

      [13] 周杰,林琛,李弼程.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評(píng)論情感分類研究[J].計(jì)算機(jī)應(yīng)用,2010(4):1011-1014.

      ZHOU Jie, LIN Chen, LI Bicheng. Research of sentiment classification for net news comments by machine learning[J]. Journal of Computer Applications,2010(4):1011-1014.

      收稿日期:2015年10月4日,修回日期:2015年11月26日

      基金項(xiàng)目:南京旅游職業(yè)學(xué)院基金項(xiàng)目(2015YKT10),大數(shù)據(jù)時(shí)代旅游數(shù)據(jù)挖掘與應(yīng)用研究資助。

      作者簡(jiǎn)介:王新宇,男,碩士研究生,講師,研究方向:旅游電子商務(wù)、軟件工程。

      中圖分類號(hào)TP391.1

      DOI:10.3969/j.issn.1672-9722.2016.04.004

      Sentiment Analysis of Tourism Reviews Based on Semantic Lexicon and Machine Learning

      WANG Xinyu

      (Nanjing Institute of Tourism & Hospitality, Nanjing211100)

      AbstractThis paper provides an approach for sentiment analysis of tourism reviews through Internet service by combining semantic lexicon with machine learning. The approach expresses tourism reviews by adopting Vector Space Model(VSM). It reduces dimension of feature space by semantic lexicon. The weights are calculated by term frequency-inverse document frequency(TF-IDF). The tourism reviews are classified by Support Vector Machine(SVM). Experimental results show that the proposed approach can make sentiment classification for plenty of tourism reviews efficiently.

      Key Wordsmachine learning, semantic lexicon, sentiment analysis

      猜你喜歡
      情感分析機(jī)器學(xué)習(xí)
      基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
      基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      西宁市| 厦门市| 石城县| 青神县| 咸阳市| 乾安县| 元朗区| 蒙自县| 山东省| 华池县| 招远市| 鄂托克前旗| 英吉沙县| 秦安县| 佛冈县| 洪雅县| 丰镇市| 观塘区| 庆安县| 锡林浩特市| 岳池县| 新乐市| 宾川县| 肇庆市| 周宁县| 甘洛县| 永春县| 云安县| 湘潭市| 鄱阳县| 阜宁县| 淮滨县| 温州市| 宁津县| 满洲里市| 太和县| 阿拉善左旗| 丹巴县| 瓦房店市| 北辰区| 江川县|