摘 要:隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)絡(luò)已經(jīng)成為人們生活不可或缺的一部分。目前,隨著網(wǎng)絡(luò)上的評(píng)論信息劇増,評(píng)論數(shù)據(jù)的有效利用問(wèn)題己經(jīng)越來(lái)越收到人們的關(guān)注。面對(duì)大量的評(píng)論數(shù)據(jù),如何從中挖掘到有用的信息對(duì)網(wǎng)站用戶(hù)、服務(wù)商、生產(chǎn)商都有著重要的意義。本文的主要任務(wù)包括對(duì)評(píng)論數(shù)據(jù)進(jìn)行的情感分類(lèi)和進(jìn)行基于價(jià)值分類(lèi)。
關(guān)鍵詞:情感分類(lèi);機(jī)器學(xué)習(xí);數(shù)據(jù)挖掘
在電子商務(wù)的發(fā)展下,更多的消費(fèi)者開(kāi)始在電子商務(wù)網(wǎng)站上進(jìn)行消費(fèi)。目前,對(duì)用戶(hù)關(guān)于產(chǎn)品、人事的意見(jiàn)跟蹤的技術(shù)需求越來(lái)越迫切,從中產(chǎn)生出一系列關(guān)于文本挖掘的具有挑戰(zhàn)性的問(wèn)題。意見(jiàn)挖掘就是一種能夠解決這些問(wèn)題,使得人們對(duì)文本挖掘的興趣逐漸提高。使用數(shù)據(jù)挖掘技術(shù)字在大量的意向評(píng)論文本中進(jìn)行價(jià)值分類(lèi)和意向分類(lèi)處理,可幫助消費(fèi)者更好做出選擇。
一、評(píng)論分類(lèi)的研究方向介紹
(1)情感分類(lèi)
從網(wǎng)絡(luò)評(píng)論中對(duì)產(chǎn)品進(jìn)行意向挖掘是一個(gè)復(fù)雜的過(guò)程,其需要的不僅僅是挖掘技術(shù)。在經(jīng)過(guò)文本預(yù)處理之后,就需要對(duì)過(guò)濾后的文本進(jìn)行情感分析。對(duì)于情感類(lèi)別的分類(lèi),通常是采用分類(lèi)模型對(duì)整個(gè)文檔進(jìn)行基于情感的分類(lèi)工作。但是也有使用詞的極性來(lái)進(jìn)行分類(lèi)。查找例如“質(zhì)量不錯(cuò)”、“視覺(jué)美妙”、“排版不協(xié)調(diào)”等暗示作者語(yǔ)義傾向的詞語(yǔ),并且把送些詞語(yǔ)人工進(jìn)行標(biāo)注為正面清晰或者負(fù)面傾向,然后添加到特定的詞匯集中。
(2)基于機(jī)器學(xué)習(xí)的分類(lèi)
機(jī)器學(xué)習(xí)被定義為“不需要對(duì)計(jì)算機(jī)顯式編程就能賦予計(jì)算機(jī)學(xué)習(xí)能力研究領(lǐng)域”。機(jī)器學(xué)習(xí)是一系列算法構(gòu)成,能夠從數(shù)據(jù)中學(xué)習(xí)并且做出預(yù)測(cè)。其算法的運(yùn)作是通過(guò)從樣本輸入數(shù)據(jù)中建立一個(gè)模型,目的是做出數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)和決策,而不是單純嚴(yán)格的依照靜態(tài)變成指令進(jìn)行的。這是由機(jī)器學(xué)習(xí)的一般流程是通過(guò)從預(yù)先分類(lèi)好的文檔中自動(dòng)構(gòu)建一個(gè)自動(dòng)文本分類(lèi)器。機(jī)器學(xué)習(xí)方法優(yōu)于知識(shí)工程方法的原因是工程師的工作從構(gòu)建分類(lèi)轉(zhuǎn)變成一個(gè)分類(lèi)器的自動(dòng)建立器,也稱(chēng)作“學(xué)習(xí)者”。這就意味著學(xué)習(xí)者不需要定制就能得到,需要做的工作只是從一系列人工分類(lèi)好的文檔中歸納、自動(dòng)構(gòu)建分類(lèi)器。如果分類(lèi)器本來(lái)就己經(jīng)存在或者類(lèi)別更新了,甚至是分類(lèi)器需要應(yīng)用到一個(gè)完全不同的領(lǐng)域中,需要進(jìn)行的王作也是一樣簡(jiǎn)單。
二、評(píng)論的情感分類(lèi)流程介紹
(1)選擇進(jìn)行分類(lèi)測(cè)試的主題。對(duì)于評(píng)論主題的選擇應(yīng)該符合包含不同類(lèi)型的評(píng)論網(wǎng)站和覆蓋多個(gè)領(lǐng)域。本文選擇的主題分成4類(lèi),分別是,產(chǎn)品評(píng)論、論壇評(píng)論、視頻評(píng)論和電影評(píng)論。主題的不同使得評(píng)論文本特征也有相應(yīng)變化,實(shí)驗(yàn)可得到該分類(lèi)方法在不同類(lèi)型文本中的性能表現(xiàn)。(2)根據(jù)主題運(yùn)行爬蟲(chóng)從各個(gè)網(wǎng)站中根據(jù)相應(yīng)規(guī)則進(jìn)行評(píng)論文本抓取。(3)對(duì)語(yǔ)料進(jìn)行預(yù)處理,分詞、詞性識(shí)別,確定范例詞集。(4)計(jì)算測(cè)試數(shù)據(jù)集在各個(gè)評(píng)論文檔的語(yǔ)義傾向值進(jìn)行情感分類(lèi)。(5)對(duì)測(cè)試結(jié)果進(jìn)行分析。在一種極端情況下,評(píng)論文本中不存在任何情感詞,導(dǎo)致并不能對(duì)其進(jìn)行情感分類(lèi)。因此本流程的缺點(diǎn)在于情感詞的依賴(lài)導(dǎo)致情感分類(lèi)結(jié)果的偏差,對(duì)此的一種改進(jìn)是在評(píng)論的構(gòu)建過(guò)程中對(duì)不存在任何情感詞的評(píng)論進(jìn)行過(guò)濾。雖然這種方法能提高分類(lèi)的精確率,但同時(shí)也會(huì)導(dǎo)致召回率的下降。
三、基于機(jī)器學(xué)習(xí)的評(píng)論分類(lèi)方法
由于人工標(biāo)注的工作量巨大,這里采用對(duì)部分進(jìn)行根據(jù)評(píng)論的元數(shù)據(jù)自動(dòng)分類(lèi),即評(píng)論頁(yè)面中的是否有用的數(shù)據(jù),而對(duì)于部分沒(méi)有被標(biāo)記過(guò)得評(píng)論采用人工判斷的方法進(jìn)行標(biāo)記,并把標(biāo)注后的評(píng)論語(yǔ)料被分成兩部分,分別是訓(xùn)練集和測(cè)試集。這里分別對(duì)經(jīng)過(guò)顯式垃圾過(guò)濾的語(yǔ)料及沒(méi)有過(guò)濾的語(yǔ)料進(jìn)行了測(cè)試,從中看出,后者訓(xùn)練出的分類(lèi)器表現(xiàn)出更巧地性能,表明語(yǔ)料中的噪聲會(huì)導(dǎo)致模型穩(wěn)定性降低。同時(shí),還對(duì)不同特征模版構(gòu)建的分類(lèi)器進(jìn)行實(shí)驗(yàn)對(duì)比,其結(jié)果顯示描述指代的引入使分類(lèi)結(jié)果得到明顯的提高,說(shuō)明在評(píng)論的價(jià)值分類(lèi)問(wèn)題中起到重要作用。從得到最高值的分類(lèi)實(shí)驗(yàn)結(jié)果看出,對(duì)于描述指代特征明顯的評(píng)論文檔分類(lèi)結(jié)果較好,例如評(píng)論中沒(méi)有描述信息、僅有其他主題的描述信息、和僅有評(píng)論對(duì)象等。但對(duì)某些虛假評(píng)論僅能在一定程度上進(jìn)行區(qū)分,如一條評(píng)論中的值過(guò)大,表示該文檔存在過(guò)多其他主題的評(píng)論信息,這種情況下為任意值,分類(lèi)器都正確把其歸類(lèi)。但對(duì)于很多與指向性描述數(shù)量無(wú)關(guān)的虛假評(píng)論則無(wú)法通過(guò)該方法簡(jiǎn)單的對(duì)其進(jìn)行特征描述。
四、總結(jié)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,越來(lái)越多評(píng)論信息出現(xiàn)在網(wǎng)絡(luò)上。從人們的日常上網(wǎng)活動(dòng)中,無(wú)時(shí)無(wú)刻都會(huì)碰到評(píng)論信息或者發(fā)表評(píng)論信息。評(píng)論數(shù)據(jù)量增長(zhǎng)迅速,己經(jīng)充滿(mǎn)了網(wǎng)絡(luò)上的各個(gè)角落。用戶(hù)、服務(wù)商和出廠商對(duì)評(píng)論信息分析、歸納的輔助工具也有著迫切的需求。要對(duì)評(píng)論數(shù)據(jù)進(jìn)行分析需要對(duì)評(píng)論數(shù)據(jù)的特征進(jìn)行分析。評(píng)論數(shù)據(jù)一般都存在著明確地情感傾向,也就是評(píng)論是表達(dá)正面的稱(chēng)贊的意思還是表達(dá)負(fù)面的否定的意思。人們可通過(guò)閱讀評(píng)論得出這種傾向,也就是通過(guò)人工標(biāo)注的方法對(duì)評(píng)論進(jìn)行情感分類(lèi)。但對(duì)于海量評(píng)論數(shù)據(jù)使用這種方法將會(huì)浪費(fèi)大量人力物力,因此如何利用如此大量的評(píng)論數(shù)據(jù)己經(jīng)成為研究者們的熱門(mén)關(guān)注話題。對(duì)此,本文對(duì)評(píng)論數(shù)據(jù)挖掘的應(yīng)用進(jìn)行深入研究,提出評(píng)論數(shù)據(jù)情感分類(lèi)和基于機(jī)器學(xué)習(xí)分類(lèi)的方法。
參考文獻(xiàn)
[1]Dave k,Lawerence S,Pennock DM.Mining the peanut gallery:opinion exlxactionand seamatic classsication of product reviews[C]//Proceedings of the emotional Word Wide Web Conference.2003.2003:519-528
[2]Tumey P D.Thumbs up or thumbs down:semantic orientation applied to unsupervised classication of reviews[J]Proceedings of nual Meeting of the Association for Computational Linguistics,2010:417-424.
[3]Morinaga S,Yamanishi K,Tateishi K,etal.Mining product reputatiosone Web[C]//ACM,2002:341-349.