趙軍,王紅
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014; 2.山東省分布式計(jì)算軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250014)
?
融合情感極性和邏輯回歸的虛假評(píng)論檢測(cè)方法
趙軍1,2,王紅1,2
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250014; 2.山東省分布式計(jì)算軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250014)
摘要:在線購(gòu)物評(píng)論為消費(fèi)者比較商品的質(zhì)量和其他一些購(gòu)買特性提供了有用信息,然而卻有大量的虛假評(píng)論者受利益驅(qū)使撰寫虛假或者不公正的評(píng)論來(lái)迷惑消費(fèi)者。先前的研究一般都是使用文本相似度和評(píng)分模式來(lái)探測(cè)虛假評(píng)論,這些算法可以檢測(cè)特定類型的攻擊者,在現(xiàn)實(shí)場(chǎng)景中許多虛假評(píng)論者刻意模仿正常用戶對(duì)商品進(jìn)行評(píng)論,因此先前的算法對(duì)檢測(cè)這類攻擊效果不佳。本文通過(guò)分析評(píng)論文本的感情極性,抽取不同的特征并使用邏輯回歸模型來(lái)檢測(cè)虛假評(píng)論;首先,借用自然語(yǔ)言處理的相關(guān)技術(shù)來(lái)分析評(píng)論文本的情感極性,判斷每個(gè)用戶的情感偏離大眾情感的程度,如果偏離越大則說(shuō)明其是虛假評(píng)論者的概率就越大;然后再選取其他幾個(gè)重要特征結(jié)合邏輯回歸模型進(jìn)行虛假檢測(cè);通過(guò)實(shí)驗(yàn)對(duì)比,表明了該方法取得了較好的效果。
關(guān)鍵詞:電子商務(wù);虛假評(píng)論;購(gòu)物行為;情感極性;邏輯回歸
互聯(lián)網(wǎng)的迅速崛起帶來(lái)了傳統(tǒng)商業(yè)模式的解放,傳統(tǒng)的實(shí)體購(gòu)物模式在遭遇網(wǎng)上購(gòu)物模式時(shí)受到了巨大的沖擊。電子購(gòu)物網(wǎng)站上的商品種類齊全,同時(shí)網(wǎng)上購(gòu)物方便快捷,可以節(jié)省消費(fèi)者一定的購(gòu)物時(shí)間,迎合了當(dāng)代人們快速的生活節(jié)奏;但網(wǎng)上購(gòu)物給我們帶來(lái)方便的同時(shí)也存在著自身固有的一些挑戰(zhàn)。最具挑戰(zhàn)性的是消費(fèi)者無(wú)法像在實(shí)體店一樣真實(shí)地感受到商量的質(zhì)地、性能等特點(diǎn),只能通過(guò)購(gòu)物網(wǎng)站展示的圖片和文本描述對(duì)商品有一個(gè)大致的了解。由于消費(fèi)者無(wú)從得知商品地真實(shí)質(zhì)量,所以他們開始過(guò)多的關(guān)注商品的評(píng)論,好的評(píng)論可以提升該產(chǎn)品的信譽(yù),這會(huì)誘導(dǎo)更多的顧客購(gòu)買該商品;相反,較差的評(píng)論無(wú)疑會(huì)降低商品的信譽(yù)值,這會(huì)大大降低該商品的成交量。正是由于這一原因,商家為了獲得更高的利益,開始雇傭網(wǎng)絡(luò)水軍冒充普通顧客對(duì)自己的商品進(jìn)行好評(píng),對(duì)競(jìng)爭(zhēng)對(duì)手的產(chǎn)品進(jìn)行差評(píng)以達(dá)到提升自己品牌的信譽(yù)、詆毀競(jìng)爭(zhēng)對(duì)手信譽(yù)的目的。這些廣泛存在的不真實(shí)評(píng)論不僅會(huì)誤導(dǎo)消費(fèi)者的購(gòu)物決策,同時(shí)也危害了電子商務(wù)經(jīng)濟(jì)的健康發(fā)展,為了提高消費(fèi)者的購(gòu)物體驗(yàn),并保證市場(chǎng)經(jīng)濟(jì)的合理健康發(fā)展,因此迫切需要研究一種方法來(lái)發(fā)現(xiàn)并抑制虛假攻擊。
1相關(guān)工作
近年來(lái),國(guó)內(nèi)外學(xué)者在垃圾郵件[1]和垃圾網(wǎng)頁(yè)[2]的識(shí)別研究上做了大量工作,并取得了較好的效果。美國(guó)伊利諾斯大學(xué)的Bing Liu[3]教授團(tuán)隊(duì)于2007年首次提出垃圾檢測(cè),之后垃圾檢測(cè)就成為了一個(gè)研究熱點(diǎn)。
Jindal等[4]發(fā)現(xiàn)商品中存在著大量的虛假評(píng)論,并且這些評(píng)論在本質(zhì)上與垃圾郵件和垃圾網(wǎng)頁(yè)截然不同,他們利用產(chǎn)品的評(píng)論數(shù)據(jù),考慮評(píng)論文本、評(píng)論者和產(chǎn)品特征這3個(gè)因素進(jìn)行建模來(lái)區(qū)分復(fù)制觀點(diǎn)和非復(fù)制觀點(diǎn),若判斷為復(fù)制觀點(diǎn),則將該評(píng)論歸為虛假評(píng)論。
WU F等[5]根據(jù)流行度是否被打亂來(lái)識(shí)別虛假評(píng)論。這兩種方法都是基于啟發(fā)式的策略,過(guò)程較為復(fù)雜。Tan等[6]利用電阻距離來(lái)判斷評(píng)論之間的上下文語(yǔ)義相似性,提出了一種基于電阻距離的無(wú)關(guān)虛假評(píng)論自動(dòng)檢測(cè)方法,該方法取得了不錯(cuò)的實(shí)驗(yàn)效果。
OTT等[7]利用眾包平臺(tái)創(chuàng)造出了一個(gè)用于識(shí)別眾包攻擊的“黃金”數(shù)據(jù)集,該數(shù)據(jù)集包含真實(shí)評(píng)論和人為的虛假評(píng)論兩部分,在該數(shù)據(jù)集上,他們把虛假探測(cè)問(wèn)題轉(zhuǎn)化為經(jīng)典的文本極性分類問(wèn)題解決。
任亞峰等[8]提出了一種基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別方法,從自然語(yǔ)言處理層面分析評(píng)論文本的正面情感和負(fù)面情感影響,最后使用遺傳算法,通過(guò)復(fù)制、交叉和變異實(shí)現(xiàn)種群的進(jìn)化,從而提高探測(cè)準(zhǔn)確率。
Guan等[9]為了識(shí)別在線商店的虛假評(píng)論者提出了一種社交評(píng)論圖的方法,他們提出了一種全新的概念——評(píng)論圖,他們捕獲了所有與某個(gè)商店相關(guān)聯(lián)的評(píng)論者和評(píng)論,并把這三者構(gòu)造成了一個(gè)異質(zhì)網(wǎng)絡(luò),通過(guò)交互計(jì)算三者之間的影響來(lái)檢測(cè)虛假評(píng)論,實(shí)驗(yàn)表明他們方法的正確探測(cè)率高達(dá)91.24%。
Gao等[10]為了解決網(wǎng)上評(píng)分系統(tǒng)中的虛假攻擊行為,提出一種基于群組排序的虛假探測(cè)方法,他們把對(duì)相同商品評(píng)分相同的用戶分為一組,根據(jù)群組的規(guī)模來(lái)檢測(cè)虛假評(píng)論者,實(shí)驗(yàn)表明,他們所提出的方法取得了很好的探測(cè)效果。
通過(guò)總結(jié)前人已有的工作可以發(fā)現(xiàn),大部分研究者要么從評(píng)論文本著手,利用自然語(yǔ)言處理技術(shù),分析評(píng)論文本的正負(fù)情感極性,從而達(dá)到探測(cè)虛假評(píng)論的目的;另一種常見(jiàn)的方法是分析商品的評(píng)分,通過(guò)分類或者聚類算法對(duì)不同的評(píng)分進(jìn)行分組,挑選出虛假的商品評(píng)分;本文提出融合情感極性和邏輯回歸模型來(lái)檢測(cè)虛假攻擊。
2評(píng)論文本情感極性分析
評(píng)論文本的情感傾向分析是通過(guò)挖掘和分析評(píng)論文本中的立場(chǎng)、觀點(diǎn)、情緒等主觀信息,分析出評(píng)論者的正面或者負(fù)面情感趨向。
本文主要采用基于情感知識(shí)的情感極性判別方法,通過(guò)比較文本中的正負(fù)情感詞個(gè)數(shù)來(lái)判斷評(píng)論文本的情感極性,情感極性判別方式為
唐波等[11]考慮了否定詞對(duì)情感詞極性的影響,通過(guò)他們的實(shí)驗(yàn)可以看出,考慮否定詞這一特征對(duì)情感傾向性分析具有重大意義。在本文中,也考慮了否定詞這一重要因素,并且構(gòu)建專用于評(píng)論文本分析的否定詞詞典.判斷規(guī)則為:統(tǒng)計(jì)一句話中的否定詞個(gè)數(shù),若個(gè)數(shù)為偶數(shù)則該句的傾向性不變;若否定詞的個(gè)數(shù)為奇數(shù),那么語(yǔ)句的傾向性發(fā)生逆轉(zhuǎn)。
何鳳英等[12]考慮了程度副詞文本的傾向性影響,提出了程度副詞的4個(gè)量級(jí):極量、高量、中量和低量,其對(duì)應(yīng)的權(quán)重依次遞減,考慮程度副詞這一因素也提高了情感極性的分類精度。
邸鵬等[13]曾提出了基于轉(zhuǎn)折句式的文本分析方法,他們的任務(wù)主要是基于長(zhǎng)文本的情感分析,所以考慮上下文的轉(zhuǎn)折關(guān)系是很有效的。但是他們的方法直接應(yīng)用于評(píng)論文本是不合理的,因?yàn)樵u(píng)論文本往往是一兩句話的超短文本,無(wú)從考慮上下文信息,所以本文提出了基于關(guān)聯(lián)詞的分析方法,把分析的單位縮小到詞語(yǔ)級(jí)別,著重分析關(guān)聯(lián)詞前后的情感極性,其過(guò)程如算法1所示。
算法1Review Text Orientation Analysis
輸入Review Text
輸出Review Orientation
While(str.read())
For alli∈str.LengthDO
IF (str.wordsi?Review Dictionary) THEN
SO←0;EXIT;
ELSE {
IF (str.wordsi∈NegDictionary) THEN
IF(count % 2 == 0) THEN
WOi←WOi;
ELSE WOi←-WOi;
IF (str.wordsi∈AdjDictionary)THEN
WOi←WOi*Wadj
IF(str.wordsi∈Adversative)THEN
WOi←-WOi;
END ELSE
END FOR ;
END WHILE;
3邏輯回歸模型
在現(xiàn)實(shí)生活中經(jīng)常需要分析離散變量問(wèn)題,本文關(guān)心的是,哪些因素對(duì)虛假檢測(cè)的影響因素更明顯,這類問(wèn)題實(shí)質(zhì)上是一個(gè)回歸問(wèn)題,因變量就是上述提到的這些離散變量,自變量X是與之有關(guān)的一些因素。因?yàn)橐蜃兞渴请x散的,不能直接使用線性回歸分析方法解決,這時(shí)最好的解決方案是Logistic回歸模型,它對(duì)因變量的分布沒(méi)有要求。與線性回歸分析相似,Logistic回歸分析的基本原理就是利用一組數(shù)據(jù)擬合一個(gè)Logistic回歸模型,然后借助這個(gè)模型揭示總體中若干個(gè)自變量與一個(gè)因變量取某個(gè)值的概率之間的關(guān)系。因變量Y是一個(gè)二值變量,取值為
自變量為X1,X2,…,Xm,P表示在m個(gè)自變量作用下事件發(fā)生的概率。想找到P與自變量的關(guān)系,如果用多元線性回歸方程。
(1)
(2)
(3)
我們將所研究的問(wèn)題轉(zhuǎn)換一個(gè)角度,不是直接分析Y與X的關(guān)系,而是分析Y取某個(gè)值的概率P與X的關(guān)系。令Y為1、0變量,Y=0表示正常評(píng)論,Y=1表示虛假評(píng)論,X是與虛假評(píng)論有關(guān)的因素。如果P表示虛假攻擊的概率,那么研究虛假攻擊的概率P與X有關(guān)因素的關(guān)系就相對(duì)簡(jiǎn)單一些。
3.1變量選取的衡量標(biāo)準(zhǔn)
優(yōu)勢(shì)比OR(odds ratio)是流行病衡量危險(xiǎn)因素作用大小的比數(shù)比例指標(biāo),其計(jì)算公式為
(4)
式中:P1和P0分別表示在Xj取值為c1及c0存在虛假攻擊的概率,ORj稱作多變量調(diào)整后的優(yōu)勢(shì)比,表示扣除了其他自變量影響后的危險(xiǎn)因素的作用。對(duì)比某一個(gè)危險(xiǎn)因素兩個(gè)不同暴露水平Xj=c1與Xj=c0的虛假攻擊情況(假設(shè)其他因素的水平相同),其優(yōu)勢(shì)比的自然對(duì)數(shù)為式(5):
(5)
若
c1-c0=1
則
ORj=expβj
(6)
3.2變量選擇
使用邏輯回歸模型時(shí),主要有3種選擇變量的方式:前向選擇、后向選擇和逐步回歸。本文采用逐步回歸的方式進(jìn)行變量選擇,其基本思想是逐個(gè)引入影響模型的自變量,每次都是引入對(duì)Y影響最為顯著的自變量,并對(duì)方程中存在的變量逐個(gè)進(jìn)行檢驗(yàn),把變?yōu)椴伙@著的變量逐個(gè)從模型中刪除,最終,使得模型中存在的變量是對(duì)Y影響最為顯著的變量,篩選的步驟如下:首先給出引入變量的顯著性水平αin和剔除變量的顯著性水平αout,然后按下圖1進(jìn)行篩選,篩選過(guò)程如下。
圖1 變量篩選流程圖Fig.1 Flow chart of variable selection
3)此時(shí)的模型中已經(jīng)包含Xe1和Xe2兩個(gè)變量,但是我們應(yīng)該注意到,在引入變量Xe2之后,變量Xe1可能不再是顯著性變量,我們應(yīng)該使用Wald檢驗(yàn)分別計(jì)算它們的顯著值和響應(yīng)的P值。如果P值大于αout,則此變量從模型中刪除,否則停止迭代計(jì)算;
4)依次進(jìn)行迭代計(jì)算,每當(dāng)向前選擇一個(gè)變量進(jìn)入后,都進(jìn)行向后刪除的檢查,循環(huán)終止的條件是:模型中的所有自變量的P值都小于αout,被刪除自變量的P值都大于αin。
4評(píng)論文本特征工程
這里首先提出可能影響虛假評(píng)論的10個(gè)特征,然后使用逐步回歸方法計(jì)算哪個(gè)特征對(duì)其影響嚴(yán)重,10個(gè)特征如下。
文本長(zhǎng)度(F1)統(tǒng)計(jì)評(píng)論文本中的文字個(gè)數(shù),正常用戶一般懶于評(píng)論只給出評(píng)分或給出簡(jiǎn)短的評(píng)論文本,而虛假評(píng)論者為了提高或貶低某件商品,需要寫下比較冗長(zhǎng)的評(píng)論文本。
復(fù)雜度(F2)評(píng)論文本的復(fù)雜度是指文本中所使用詞匯的復(fù)雜度,一般認(rèn)為正常用戶所使用的評(píng)論詞匯比較簡(jiǎn)單,而虛假評(píng)論的詞匯相對(duì)比較復(fù)雜和專業(yè)。
關(guān)聯(lián)度(F3)評(píng)論關(guān)聯(lián)度是指評(píng)論文本與被評(píng)論商品的相關(guān)程度,有些虛假評(píng)論者為了完成評(píng)論字?jǐn)?shù)要求,常常會(huì)復(fù)制一些與商品無(wú)關(guān)的文本來(lái)完成虛假評(píng)論任務(wù)。
一致性(F4)一致性評(píng)論文本的情感強(qiáng)度與所給評(píng)分的相似度,是探測(cè)隨機(jī)評(píng)論的重要特征。
情感強(qiáng)度(F5)情感強(qiáng)度是指評(píng)論文本中的情感極性強(qiáng)度,普通用戶的評(píng)論情感比較公正,而虛假評(píng)論的情感強(qiáng)度比較激烈。
是否包含轉(zhuǎn)折詞(F6)正常用戶可能對(duì)產(chǎn)品的部分性能指標(biāo)是滿意的,而對(duì)另外的某些特征是不太滿意的,所以他們的評(píng)論中常常包含轉(zhuǎn)折詞,而虛假評(píng)論者的情感極性高度一致,很少會(huì)有情感的逆轉(zhuǎn)。
復(fù)制文本(F7)虛假評(píng)論者為了快速完成自己的虛假攻擊任務(wù),往往會(huì)把某個(gè)商品的虛假評(píng)論復(fù)制對(duì)商品以不同的消費(fèi)者身份進(jìn)行評(píng)論。
用戶信譽(yù)(F8)某個(gè)用戶的信譽(yù)是由他所發(fā)表的評(píng)論被其他消費(fèi)者采納的數(shù)量決定的,如果采納該用戶的人數(shù)越多,說(shuō)明其信譽(yù)越高。
初評(píng)和追評(píng)的一致性(F9)正常評(píng)論者在初評(píng)時(shí)一般只是從商品的外觀給商品進(jìn)行評(píng)分,對(duì)該商品使用一定時(shí)間后,可能會(huì)給出更加具有意義的追評(píng);而虛假評(píng)論者的初評(píng)和追評(píng)幾乎是同時(shí)完成的。
附廣告圖片(F10)現(xiàn)在商家為了提高商品信譽(yù),還會(huì)進(jìn)行“好評(píng)曬圖返現(xiàn)”活動(dòng),普通正常用戶很少拍圖上傳,而虛假評(píng)論中往往會(huì)伴隨著圖片的出現(xiàn),我們認(rèn)為評(píng)論附圖的評(píng)論很可疑。
5特征選擇
本文主要使用優(yōu)勢(shì)比(OR)和逐步回歸變量篩選方法來(lái)選擇對(duì)邏輯回歸模型影響最為顯著的特征。
5.1數(shù)據(jù)集
在Liu[4]從Amazon收集并整理的415 179條評(píng)論數(shù)據(jù)的基礎(chǔ)上,篩選出含有評(píng)論文本的13 246條評(píng)論作為本文的實(shí)驗(yàn)數(shù)據(jù),其中包含虛假評(píng)論3 412條,真實(shí)評(píng)論9 834條,實(shí)驗(yàn)數(shù)據(jù)集如表1。
表1 實(shí)驗(yàn)數(shù)據(jù)表
5.2計(jì)算候選自變量的優(yōu)勢(shì)比
為了檢測(cè)哪些候選自變量對(duì)邏輯回歸模型的影響更為顯著,本文使用式(4)計(jì)算每個(gè)自變量的優(yōu)比,以評(píng)論文本長(zhǎng)度為例來(lái)說(shuō)明優(yōu)勢(shì)比的計(jì)算步驟。
表2 文本長(zhǎng)度分布表
表310個(gè)候選特征及OR值
Table 3Ten candidate features and OR
變量賦值說(shuō)明ORF1文本長(zhǎng)度≥50=117.4文本長(zhǎng)度<50=0F2復(fù)雜=1,不復(fù)雜=05.31F3不關(guān)聯(lián)=1,關(guān)聯(lián)=00.34F4不一致=1,一致=03.87F5強(qiáng)烈=1,不強(qiáng)烈=07.68F6不含=1,包含=015.6F7是=1,不是=02.87F8高=1,低=00.78F9不一致=1,一致=07.46F10附圖=1,不附圖=04.23
5.3模型檢驗(yàn)
為了判斷選取的模型是否有效,需要對(duì)該模型進(jìn)行檢驗(yàn)。邏輯回歸模型主要包含3種假設(shè)檢驗(yàn)方法,分別是似然比檢驗(yàn)、Wald檢驗(yàn)和計(jì)分檢驗(yàn),其中,似然比檢驗(yàn)既適用于單個(gè)影響因素的假設(shè)檢驗(yàn),又適用于多個(gè)影響因素的同時(shí)檢驗(yàn);Wald檢驗(yàn)適合單個(gè)影響因素的檢驗(yàn);計(jì)分檢驗(yàn)與傳統(tǒng)的Mantelhaenszel檢驗(yàn)結(jié)果相同,在小樣本空間中比似然比檢驗(yàn)更接近χ2分布;本文采用似然比檢驗(yàn)方法對(duì)模型進(jìn)行檢驗(yàn)。
似然比檢驗(yàn)的原理是通過(guò)分析模型中變量變化對(duì)似然比的影響,依此來(lái)判斷增加或者去除某個(gè)自變量是否對(duì)因變量有顯著影響,檢驗(yàn)統(tǒng)計(jì)量的公式如式(7)所示。
(7)
式中:ln(Lm-1)為不包含檢驗(yàn)變量時(shí)模型的對(duì)數(shù)似然值, ln(Lm)為包含檢驗(yàn)變量時(shí)模型的對(duì)數(shù)似然值.當(dāng)檢驗(yàn)一個(gè)變量時(shí)G服從自由度為1的χ2分布,當(dāng)對(duì)整個(gè)模型進(jìn)行檢驗(yàn)時(shí),就是相當(dāng)于模型中所有的m個(gè)變量的回歸系數(shù)為0,G服從自由度為m的χ2分布。如果檢驗(yàn)結(jié)果為拒絕H0,則表示該影響因素對(duì)回歸模型有統(tǒng)計(jì)學(xué)意義,即對(duì)事件發(fā)生有影響。我們分別計(jì)算了所選的6個(gè)特征的似然比,在顯著水平α=0.05的條件下,計(jì)算的結(jié)果如表4所示。
表4 似然比測(cè)試表
6實(shí)驗(yàn)分析
本文借用Spss統(tǒng)計(jì)工具對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,采用對(duì)比實(shí)驗(yàn)的方式驗(yàn)證本文方法的有效性,由于數(shù)據(jù)樣本有限,我們采用五折交叉驗(yàn)證,分別與任亞峰等[8]提出的基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別方法和Feng等[14]提出的基于句法結(jié)構(gòu)的方法進(jìn)行對(duì)比,從而分析本文方法的優(yōu)勢(shì)和不足。本文采用最為通用的3個(gè)評(píng)判指標(biāo)來(lái)判斷虛假檢測(cè)的優(yōu)劣,即準(zhǔn)確率、召回率和F1值。從圖中可以發(fā)現(xiàn)融合情感傾向和邏輯回歸模型的虛假攻擊檢測(cè)方法表現(xiàn)出了不錯(cuò)的性能。
圖2 準(zhǔn)確率對(duì)比Fig.2 Accuracy comparison
任亞峰等認(rèn)為傳統(tǒng)的啟發(fā)式策略或者全監(jiān)督學(xué)習(xí)方法很難有效地解決虛假攻擊的檢測(cè)問(wèn)題,他們分析了虛假評(píng)論和真實(shí)評(píng)論之間在語(yǔ)言結(jié)構(gòu)和情感極性的差異,借用經(jīng)典的遺傳算法對(duì)文本的書寫結(jié)構(gòu)和情感極性兩大主要特征進(jìn)行優(yōu)化選擇,最終選擇出了5個(gè)最為重要的特征,最后又根據(jù)這些特征結(jié)合無(wú)監(jiān)督的硬聚類和軟聚類算法實(shí)現(xiàn)了虛假評(píng)論的檢測(cè)。該方法的檢測(cè)準(zhǔn)確率有所提高,主要原因是在考慮情感極性和強(qiáng)度的同時(shí),融合了評(píng)論文本的較為重要的5個(gè)特征,使其分析的更加全面。該方法也有不足之處,即沒(méi)有突出哪些特征最為重要,如果能再把不同特征的權(quán)重考慮進(jìn)去,檢測(cè)的效果可能會(huì)更好。召回率對(duì)比和F1指數(shù)對(duì)比見(jiàn)圖3和圖4。
圖3 召回率對(duì)比Fig.3 Recall comparison
圖4 F1指數(shù)對(duì)比Fig.4 F1_Measure comparison
Feng等提出的基于句法結(jié)構(gòu)的虛假評(píng)論檢測(cè)算法相比于任亞峰等提出的算法又有明顯的提高,他們認(rèn)為淺層次的句法模式是不可靠的,他們的工作主要研究了深層次的句法模式,并在前人的研究基礎(chǔ)之上加入了一些非常規(guī)的句法模式來(lái)構(gòu)建語(yǔ)義樹。他們又從4個(gè)不同數(shù)據(jù)集中利用文本句法樹提取了幾種不常見(jiàn)的語(yǔ)義特征,該方法使其檢測(cè)精度達(dá)到了91.2%,召回率也有明顯提高。我們分析工作性能提高的主要原因是,購(gòu)物評(píng)論往往是不規(guī)則的,文本長(zhǎng)度極短并且沒(méi)有固定的書寫模式,所以任亞峰等提出的基于簡(jiǎn)單語(yǔ)法模式的檢測(cè)算法受到了一定的限制,而Feng等正是針對(duì)評(píng)論文本和常規(guī)文本在句法上存在明顯差異的前提下,利用語(yǔ)義樹,挖掘深層的句法關(guān)系,構(gòu)建出了專門用于分析評(píng)論短文本的語(yǔ)義樹,使得檢測(cè)性能得到大幅度提高。
本文方法相對(duì)于二者的研究方法準(zhǔn)確率有所增加,而召回率比Feng等提出的方法的要差一些。本文方法首先提出了基于關(guān)聯(lián)詞(特別是轉(zhuǎn)折詞)的情感極性判別方法,以此來(lái)判斷評(píng)論的情感是否出現(xiàn)轉(zhuǎn)變、情感強(qiáng)度是否異常極端,然后又提取了10個(gè)候選的評(píng)論文本特征,經(jīng)過(guò)極大似然檢驗(yàn)后,選取了6個(gè)最為重要的特征,最后使用邏輯回歸模型對(duì)評(píng)論進(jìn)行檢測(cè),促使檢測(cè)的準(zhǔn)確率有所增大。但是在加入更多特征使檢測(cè)精度提高的同時(shí),我們也發(fā)現(xiàn),召回率比Feng等的要低一些,原因可能是更多的特征被加入了模型中,對(duì)數(shù)據(jù)的質(zhì)量提出了更高的要求,如一些文本中可能不存在關(guān)聯(lián)詞這一特征。
7結(jié)束語(yǔ)
隨著電子商務(wù)的蓬勃發(fā)展,研究者們對(duì)虛假評(píng)論檢測(cè)作出了不懈的努力。針對(duì)評(píng)論文本過(guò)短,評(píng)論隨意等特點(diǎn)本文提出了融合關(guān)聯(lián)詞的情感傾向分析,然后再此基礎(chǔ)上又分析了影響分類的6個(gè)特征,把這些特征應(yīng)用于邏輯回歸模型中實(shí)現(xiàn)了虛假評(píng)論的檢測(cè),該方法取得了不錯(cuò)的效果。但該模型還有待改進(jìn),首先,文本的極性判別方式過(guò)于粗糙,只是考慮了文本中的否定詞和關(guān)聯(lián)詞,沒(méi)有特別注重分析程度副詞,只分析了文本的極性,卻沒(méi)有定量分析其情感強(qiáng)度;其次,模型中沒(méi)有動(dòng)態(tài)地考慮評(píng)論情況,研究表明,不誠(chéng)實(shí)的商家往往在開辦網(wǎng)店的初期雇傭虛假評(píng)論人員通過(guò)刷單的方式提高自己的信譽(yù),所以虛假評(píng)論往往發(fā)生在電商經(jīng)營(yíng)的初期。最后,可能評(píng)論文本中還隱藏著許多其他的因素可以提高檢測(cè)的精度,下一步的工作將主要集中在這3個(gè)方面。
參考文獻(xiàn):
[1]KOLCZ A, ALSPECTOR J. SVM-based filtering of E-mail spam with content specific misclassification costs[C]//Proceedings of ICDM-2001 Workshop on Text Mining. Dallas, USA, 2001: 324-332.
[2]BECCHETTI L, CASTILLO C, DONATO D, et al. Link-based characterization and detection of web spam[C]//Adversarial Information Retrieval on the Web. Washington, USA, 2006: 1012-1021.
[3]JINDAL N, LIU Bing. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web. Alberta, Canada, 2007: 1189-1190.
[4]JINDAL N, LIU Bing, et al. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining. California, USA, 2008: 219-230.
[5]WU Fang, HUBERMAN B A. Opinion information under costly express[J]. ACM transactions on intelligence systems and technology, 2010, 1(1): 5.
[6]譚文堂, 朱洪, 葛斌, 等. 垃圾評(píng)論自動(dòng)過(guò)濾方法[J]. 國(guó)防科技大學(xué)學(xué)報(bào), 2012, 34(5): 153-157, 168.
TAN Wentang, ZHU Hong, GE Bin, et al. Method of review spam detection[J]. Journal of national university of defense technology, 2012, 34(5): 153-157, 168.
[7]OTT M, CHOI Y, CARIDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: human language technologies. Portland, USA, 2011, 1: 309-319.
[8]任亞峰, 尹蘭, 姬東鴻. 基于語(yǔ)言結(jié)構(gòu)和情感極性的虛假評(píng)論識(shí)別[J]. 計(jì)算機(jī)科學(xué)與探索, 2014, 8(3): 313-320.
REN Yafeng, YIN Lan, JI Donghong. Deceptive reviews detection based on language structure and sentiment polarity[J]. Journal of frontiers of computer science and technology, 2014, 8(3): 313-320.
[9]WANG Guan, XIE Sihong, LIU Bing, et al. Identify online store review spammers via social review graph[J]. ACM Transactions on intelligent systems and technology, 2012, 3(4): 61.
[10]GAO Jian, DONG Yuwei, SHANG Mingsheng, et al. Group-based ranking method for online rating systems with spamming attacks[J]. EPL (europhysics letters), 2015, 110(2): 28003.
[11]唐波, 陳光, 王星雅, 等. 微博新詞發(fā)現(xiàn)及情感傾向性判斷分析[J]. 山東大學(xué)學(xué)報(bào):理學(xué)版, 2015, 50(1): 20-25.
TANG Bo, CHEN Guang, WANG Xingya, et al. Analysis on new word detection and sentiment orientation in Micro-blog[J]. Journal of Shandong university: nature science, 2015, 50(1): 20-25.
[12]何鳳英. 基于語(yǔ)義理解的中文博文傾向性分析[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(8): 2130-2133, 2137.
HE Fengying. Orientation analysis for Chinese blog text based on semantic comprehension[J]. Journal of computer application, 2011, 31(8): 2130-2133, 2137.
[13]邸鵬, 李愛(ài)萍, 段利國(guó). 基于轉(zhuǎn)折句式的文本情感傾向性分析[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(12): 4289-4295.
DI Peng, LI Aiping, DUAN Liguo. Text sentiment polarity analysis based on transition sentence[J]. Computer engineering and design, 2014, 35(12): 4289-4295.
[14]FENG Song, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Jeju, Korea, 2012: 171-175.
[15]LI Jiwei, CARDIE C, LI Sujian. TopicSpam: a topic-model-based approach for spam detection[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofi, Bulgaria, 2013: 217-221.
[16]JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Ontario, Canada, 2010: 1549-1552.
[17]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, USA, 2011: 815-824.
趙軍,男,1989年生, 碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。
王紅,女,1966年生,教授,博士生導(dǎo)師,主要研究方向?yàn)榇髷?shù)據(jù)、復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘。主持國(guó)家自然基金項(xiàng)目1項(xiàng),參與國(guó)家自然基金項(xiàng)目3項(xiàng),主持省級(jí)基金項(xiàng)目6項(xiàng),發(fā)表學(xué)術(shù)論文43篇。
中文引用格式:趙軍,王紅.融合情感極性和邏輯回歸的虛假評(píng)論檢測(cè)方法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(3): 336-342.
英文引用格式:ZHAO Jun,WANG Hong.Detection of fake reviews based on emotional orientation and logistic regression[J]. CAAI transactions on intelligent systems, 2016,11(3): 336-342.
Detection of fake reviews based on emotional orientation and logistic regression
ZHAO Jun1,2, WANG Hong1,2
(1. School of Information Science and Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Ji′nan 250014, China)
Abstract:Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases. However, spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews. To detect the presence of spammers, reviewer styles have been scrutinized for text similarity and rating patterns. These studies have succeeded in identifying certain types of spammers. However, there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers, and thus, they cannot be detected by available techniques. In this paper, we analyze the orientation of comments, extract different features, and use a logic regression model to detect false comments. First, we utilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public. The greater is the deviation, the greater is the probability of the comment being generated by a spammer. Then, we select several other important features and combine them with the logic regression model to identify fake comments. The experimental results verify the greater accuracy of the proposed method.
Keywords:Electronic commerce; fake review; shopping behavior; emotional polarity; logic regression
作者簡(jiǎn)介:
中圖分類號(hào):TP39
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-4785(2016)03-0336-07
通信作者:王紅.E-mail:wanghong106@163.com.
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(61373149,61472233);山東省科技計(jì)劃項(xiàng)目(2012GGX10118,2014GGX101026);山東省教育科學(xué)規(guī)劃項(xiàng)目(ZK1437B010).
收稿日期:2016-03-17.網(wǎng)絡(luò)出版日期:2016-05-13.
DOI:10.11992/tis.201603027
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0911.004.html