• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于異常評(píng)分行為分析的虛假評(píng)論商品識(shí)別方法

      2015-03-03 01:01:38焦易于
      關(guān)鍵詞:水軍正態(tài)分布數(shù)量

      焦易于, 劉 剛

      (河南大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 河南 開封 475004)

      基于異常評(píng)分行為分析的虛假評(píng)論商品識(shí)別方法

      焦易于, 劉 剛

      (河南大學(xué) 計(jì)算機(jī)與信息工程學(xué)院, 河南 開封 475004)

      在電商平臺(tái)的所有評(píng)論信息中檢測(cè)虛假評(píng)論時(shí),評(píng)論領(lǐng)域的多樣性以及虛假評(píng)論的總體稀疏性會(huì)導(dǎo)致識(shí)別準(zhǔn)確率的下降。如果首先識(shí)別出包含虛假評(píng)論的商品,再對(duì)其中的評(píng)論進(jìn)行針對(duì)性檢測(cè),會(huì)大大提高識(shí)別的效率和準(zhǔn)確性。本文提出了一種基于異常評(píng)分行為分析的虛假評(píng)論商品識(shí)別方法,在對(duì)虛假評(píng)論行為分析的基礎(chǔ)上,采用正態(tài)分布擬合和時(shí)序數(shù)據(jù)突變點(diǎn)檢測(cè)方法,實(shí)現(xiàn)對(duì)虛假評(píng)論的發(fā)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地識(shí)別虛假評(píng)論目標(biāo)商品。

      虛假評(píng)論;異常評(píng)分行為;正態(tài)分布擬合;時(shí)序數(shù)據(jù)突變點(diǎn)檢測(cè)

      當(dāng)前電商平臺(tái)發(fā)展迅猛,網(wǎng)購(gòu)已經(jīng)成為人們生活的重要組成部分。當(dāng)選購(gòu)電商平臺(tái)的商品時(shí),經(jīng)常需要參考商品的評(píng)論,盡量多獲取商品的信息,以便做出正確的購(gòu)買決定。然而,虛假評(píng)論在商品評(píng)論中占據(jù)了相當(dāng)比例,這些虛假評(píng)論使消費(fèi)者獲得的商品信息不真實(shí),對(duì)消費(fèi)者形成誤導(dǎo)。因此,檢測(cè)虛假評(píng)論,對(duì)于確保商品評(píng)價(jià)的真實(shí)性、維護(hù)消費(fèi)者權(quán)益,具有重要的意義。

      當(dāng)前針對(duì)商品虛假評(píng)論檢測(cè)的研究,主要從評(píng)論內(nèi)容本身、評(píng)論相關(guān)要素信息(時(shí)間、地點(diǎn)、評(píng)論者等)以及關(guān)系網(wǎng)絡(luò)中挖掘真實(shí)評(píng)論和虛假評(píng)論的區(qū)別。Wang G等[1]提出了一種基于異質(zhì)圖模型的虛假評(píng)論檢測(cè)方法,該方法利用評(píng)論、評(píng)論者、商店三者間的關(guān)系網(wǎng)絡(luò)構(gòu)建虛假評(píng)論檢測(cè)模型。Xie S等[2]深入剖析了虛假評(píng)論發(fā)布者的活動(dòng)規(guī)律,把虛假評(píng)論檢測(cè)問題映射成為異常不相關(guān)模式檢測(cè)問題。Jindal N等[3]最先提出基于監(jiān)督學(xué)習(xí)的方法,他們認(rèn)為重復(fù)是虛假評(píng)論的一大特征,可利用文本相似度的方法來(lái)識(shí)別出評(píng)論集中的重復(fù)評(píng)論作為虛假評(píng)論,然后將這些重復(fù)評(píng)論作為訓(xùn)練集,采用logistic回歸模型將評(píng)論分成虛假評(píng)論和真實(shí)評(píng)論兩大類。Ott M等[4-5]分析了虛假評(píng)論和真實(shí)評(píng)論文本的特點(diǎn),并從中提取出了能夠區(qū)分兩者的特征,然后利用監(jiān)督學(xué)習(xí)的文本分類技術(shù)實(shí)現(xiàn)虛假評(píng)論的檢測(cè)。Xu Q等[6]深入地分析了評(píng)論文本的深度語(yǔ)言特征,提出了一種集成了依存句法樹等高級(jí)語(yǔ)言特征的新模型,用于檢測(cè)虛假觀點(diǎn)。當(dāng)訓(xùn)練數(shù)據(jù)集較大時(shí),以上這些方法展示出了良好的精度和魯棒性。此外,針對(duì)訓(xùn)練數(shù)據(jù)的缺乏問題,Hernández D等[7]提出了一種使用PU-Learning學(xué)習(xí)策略的虛假評(píng)論分類器學(xué)習(xí)方法。

      以上的研究重點(diǎn)集中在小數(shù)據(jù)集上的虛假評(píng)論檢測(cè)模型和有效性驗(yàn)證分析上,距離實(shí)用還有很大差距。電商平臺(tái)的商品種類繁多,不同商品的評(píng)論具有不同的特點(diǎn),而且從評(píng)論數(shù)據(jù)總體上看,虛假評(píng)論的密度還是相對(duì)較低的。若采用同樣的方法不加區(qū)分地對(duì)所有評(píng)論進(jìn)行檢測(cè),評(píng)論領(lǐng)域多樣性以及虛假評(píng)論的總體稀疏性將會(huì)導(dǎo)致識(shí)別準(zhǔn)確率的下降?;诖?,針對(duì)海量評(píng)論數(shù)據(jù),若要使檢測(cè)方法實(shí)用化,可以先篩選出有虛假評(píng)論的商品,再識(shí)別商品對(duì)應(yīng)的虛假評(píng)論。這樣,不僅可以大量減少需要判斷的評(píng)論數(shù)量,而且更具針對(duì)性,有利于提高虛假評(píng)論檢測(cè)性能。

      專門針對(duì)虛假評(píng)論目標(biāo)商品識(shí)別的研究還未見報(bào)道。本文利用評(píng)論網(wǎng)站的評(píng)分系統(tǒng)實(shí)現(xiàn)虛假評(píng)論目標(biāo)商品的識(shí)別。評(píng)論網(wǎng)站的評(píng)分系統(tǒng)是指現(xiàn)在的電商平臺(tái)都提供一個(gè)打分機(jī)制,在進(jìn)行內(nèi)容評(píng)價(jià)的同時(shí),可以對(duì)商品進(jìn)行1~5分的打分。這個(gè)分?jǐn)?shù)代表消費(fèi)者對(duì)商品的情感態(tài)度,4~5分表明消費(fèi)者對(duì)商品比較滿意;1~2分表明消費(fèi)者對(duì)商品很不滿意;3分則代表了消費(fèi)者基本認(rèn)可。虛假評(píng)論可以分為兩類:一類是積極的虛假評(píng)論,這類虛假評(píng)論含有吹捧性質(zhì),目的是促進(jìn)銷售,這類評(píng)論通常都會(huì)打5分;另一類是消極的虛假評(píng)論,這類評(píng)論是競(jìng)爭(zhēng)對(duì)手有意打壓制造的貶低的虛假評(píng)論,這類評(píng)論通常都會(huì)打1分。因此,商品中存在大量5分或1分的評(píng)分行為,是該商品存在虛假評(píng)論的一個(gè)重要參考。

      基于上述分析,本文提出了基于異常評(píng)分行為的虛假評(píng)論商品篩選技術(shù),通過分析商品評(píng)論的評(píng)分行為異常,篩選出含有虛假評(píng)論的商品,為虛假評(píng)論分析提供更加準(zhǔn)確的研究目標(biāo)。

      1 基于異常評(píng)分行為的目標(biāo)商品識(shí)別方法

      1.1 虛假評(píng)論的評(píng)分行為分析

      虛假評(píng)論要起到誘導(dǎo)消費(fèi)者的作用,需要一定的量,少量的虛假評(píng)論很難影響到消費(fèi)者的決策。要使商品獲得較多的虛假評(píng)論,可以雇傭?qū)I(yè)水平的寫作團(tuán)隊(duì)或者對(duì)消費(fèi)者實(shí)行好評(píng)返現(xiàn)活動(dòng)等。這樣會(huì)形成幾種虛假評(píng)分狀態(tài):第一種虛假評(píng)分狀態(tài)是好評(píng)返現(xiàn)等活動(dòng)引誘消費(fèi)者打高分,這樣的過程通常伴隨商品銷售的整個(gè)過程,也就是說(shuō)虛假評(píng)論和真實(shí)評(píng)論一直混合;另一種虛假評(píng)分狀態(tài)是雇水軍刷分,有的新商品從商品銷售開始到當(dāng)前為止,一直是水軍刷分和真實(shí)評(píng)分相混合。和第一種狀態(tài)相同,第二種虛假評(píng)分狀態(tài)持續(xù)不長(zhǎng)久,因?yàn)楣蛡蛩娝⒎质且环N短期行為。有的商品有正常評(píng)論階段,也有雇傭水軍參與刷分階段,但刷分對(duì)商品正常評(píng)分?jǐn)_動(dòng)明顯,形成第三種虛假評(píng)分狀態(tài)。最后,有的商品階段性出現(xiàn)雇傭水軍刷分,但是由于商品整體評(píng)論數(shù)量大,對(duì)水軍刷分有修復(fù)作用,因此,水軍刷分對(duì)商品整體評(píng)分?jǐn)_動(dòng)影響小,形成第四種虛假評(píng)分狀態(tài)。

      通過以上分析可知,在前3種虛假評(píng)分狀態(tài)中虛假評(píng)分對(duì)整體評(píng)分?jǐn)_動(dòng)明顯;最后一種虛假評(píng)分狀態(tài),虛假評(píng)分對(duì)整體評(píng)分?jǐn)_動(dòng)小?;谏鲜龇治鲋械脑u(píng)分行為異常特點(diǎn),提出兩種虛假評(píng)論目標(biāo)商品的識(shí)別算法:一種是利用正態(tài)分布擬合方法進(jìn)行虛假目標(biāo)商品識(shí)別,這種方法對(duì)商品的整體評(píng)分分布進(jìn)行擬合,稱為靜態(tài)識(shí)別方法;另一種是利用時(shí)序方法進(jìn)行虛假目標(biāo)商品識(shí)別,稱為動(dòng)態(tài)識(shí)別方法。

      1.2 虛假評(píng)論目標(biāo)商品的靜態(tài)識(shí)別方法

      社會(huì)現(xiàn)象中,許多隨機(jī)變量的分布屬于正態(tài)分布。通過對(duì)大量正常商品的評(píng)分分布的觀察發(fā)現(xiàn),正常的商品評(píng)分分布規(guī)律符合正態(tài)分布。但當(dāng)商品評(píng)論中含有大量虛假評(píng)論時(shí),商品評(píng)分分布受到虛假評(píng)分的擾動(dòng),會(huì)出現(xiàn)偏離正態(tài)分布的現(xiàn)象。正如前面所述,虛假評(píng)論的目標(biāo)明確,要么給高的評(píng)分吹捧商品,要么給低的評(píng)分貶低商品。正是由于這種現(xiàn)象,導(dǎo)致高的或者低的評(píng)分?jǐn)?shù)量大量增加,破壞正常的評(píng)分分布規(guī)律。本文利用這一特點(diǎn),提出基于正態(tài)分布擬合的算法。利用該算法對(duì)商品的評(píng)分分布進(jìn)行擬合,若擬合結(jié)果不符合正態(tài)分布,說(shuō)明評(píng)分受到虛假評(píng)分的擾動(dòng),依此判斷其為潛在目標(biāo)商品。

      虛假評(píng)論目標(biāo)商品靜態(tài)識(shí)別方法是依據(jù)對(duì)商品評(píng)分的擬合結(jié)果來(lái)判斷商品是否為含有大量虛假評(píng)論的目標(biāo)商品。因此,評(píng)分分布的擬合是本方法的關(guān)鍵。由于評(píng)論評(píng)分是從1分至5分的離散值,對(duì)評(píng)分分布的擬合將通過以下方式進(jìn)行:首先根據(jù)已有的評(píng)論評(píng)分?jǐn)?shù)據(jù)得到每個(gè)評(píng)分等級(jí)所占的比例,再得到評(píng)分平均值;接著,計(jì)算得到標(biāo)準(zhǔn)差;然后,根據(jù)計(jì)算得到的均值和標(biāo)準(zhǔn)差得到理想的正態(tài)分布;接下來(lái),依據(jù)理想正態(tài)分布計(jì)算分布函數(shù)對(duì)應(yīng)的分位數(shù);最后,根據(jù)分位數(shù)和評(píng)分等級(jí)的關(guān)系判斷評(píng)分是否符合正態(tài)分布。具體可以分為以下幾步:

      (1)計(jì)算每個(gè)等級(jí)所占比例pi,(i=1,2,3,4,5),如式(1)所示。其中,si表示第i等級(jí)評(píng)分?jǐn)?shù)量。

      (1)

      (2)計(jì)算整體評(píng)分均值u,如式(2)所示。其中,ri∈(1~5)表示評(píng)分等級(jí)。

      (2)

      (3)計(jì)算整體評(píng)分標(biāo)準(zhǔn)差σ,如式(3)所示。

      (3)

      (4)計(jì)算分布函數(shù)F(rn),如式(4)所示。

      (4)

      根據(jù)上面計(jì)算得到的參數(shù)值u和σ,可以獲得一個(gè)理想正態(tài)分布。根據(jù)這個(gè)理想正態(tài)分布,計(jì)算F(ri)對(duì)應(yīng)的分位數(shù)。(x1,x2,x3,x4,x5)5個(gè)分位數(shù)表示在理想正態(tài)分布下,評(píng)分在(-∞,x1)區(qū)間的概率為p1,評(píng)分在(x1,x2)區(qū)間的概率為p2,以此類推,評(píng)分在(x4,x5)區(qū)間的概率為p5,(x5,+∞)區(qū)間的概率為0。因?yàn)閷?shí)際的評(píng)論評(píng)分為5級(jí)離散值,所以如果實(shí)際評(píng)分滿足正態(tài)分布,則評(píng)分在(xi-1,xi)的用戶選擇pi對(duì)應(yīng)的評(píng)分分值,即ri。若實(shí)際評(píng)分值ri都在(xi-1,xi)之間,則說(shuō)明商品評(píng)分的正態(tài)分布擬合成功;若有不符,則說(shuō)明可能存在較多的虛假評(píng)分,使得商品的評(píng)分受到擾動(dòng)影響。

      通過靜態(tài)目標(biāo)商品識(shí)別方法,可以識(shí)別虛假評(píng)分使評(píng)分分布發(fā)生擾動(dòng)的商品。正如前面所說(shuō)的3種虛假評(píng)分狀態(tài),商品評(píng)分分布都可能受到擾動(dòng),因此,可以通過此方法識(shí)別處于3種虛假評(píng)分狀態(tài)的商品。但是對(duì)于第四種虛假評(píng)分狀態(tài),由于含有大量評(píng)論,虛假評(píng)論相對(duì)真實(shí)評(píng)論較少,可能不會(huì)引起整體評(píng)分分布的擾動(dòng),因此,此方法對(duì)第四種虛假評(píng)分狀態(tài)的商品不適用。

      第四種虛假評(píng)分狀態(tài)是階段性雇傭水軍發(fā)布虛假評(píng)論,由于水軍通常是整體行動(dòng),因此在水軍發(fā)布虛假評(píng)論的時(shí)間窗口內(nèi),評(píng)論數(shù)量會(huì)突發(fā)性增多,且由于虛假評(píng)論極度吹捧或極度貶低的特性,造成時(shí)間窗口內(nèi)的評(píng)分均值會(huì)與評(píng)論數(shù)量存在正相關(guān)或負(fù)相關(guān)的關(guān)系?;诖颂攸c(diǎn),本文提出利用時(shí)序數(shù)據(jù)挖掘虛假評(píng)論目標(biāo)商品的動(dòng)態(tài)識(shí)別方法。

      1.3 虛假評(píng)論目標(biāo)商品的動(dòng)態(tài)識(shí)別方法

      對(duì)于階段性雇傭水軍發(fā)虛假評(píng)論的商品,可以通過時(shí)序分析方法,發(fā)現(xiàn)其突發(fā)異常行為模式,從而確定目標(biāo)商品。其思想是:對(duì)于正常評(píng)論的商品,時(shí)間窗口內(nèi)評(píng)論的數(shù)量和評(píng)論的平均評(píng)分值之間是無(wú)關(guān)系的。而對(duì)于階段性水軍發(fā)虛假評(píng)論的商品,在水軍運(yùn)作的時(shí)間窗口內(nèi),評(píng)論數(shù)量和評(píng)分均值之間呈現(xiàn)正相關(guān)或者負(fù)相關(guān),即評(píng)論數(shù)量的突發(fā)增長(zhǎng),伴隨著評(píng)分均值的突發(fā)增大或減小。因此,按時(shí)間窗口對(duì)評(píng)論數(shù)量和評(píng)分均值構(gòu)建時(shí)序數(shù)據(jù),再通過兩時(shí)序數(shù)據(jù)的關(guān)聯(lián)突發(fā)性找到虛假評(píng)論目標(biāo)商品。這種方法即為動(dòng)態(tài)識(shí)別方法。

      根據(jù)以上描述,該方法首先對(duì)分析時(shí)間長(zhǎng)度T按時(shí)間窗口大小劃分,然后獲得每個(gè)窗口內(nèi)的評(píng)論數(shù)量和評(píng)分均值,最后得到評(píng)論數(shù)量和評(píng)分均值的時(shí)間序列。對(duì)所得到的時(shí)間序列進(jìn)行分析,如果能確認(rèn)有關(guān)聯(lián)的評(píng)論數(shù)量和評(píng)分均值突發(fā)點(diǎn),則說(shuō)明商品包含了虛假評(píng)論,即確認(rèn)了目標(biāo)商品。

      目標(biāo)商品動(dòng)態(tài)識(shí)別方法的步驟如下:

      f1(Tn)=|{ri∶tpi∈Tn}|

      (6)

      (7)

      其中:f1(Tn)表示時(shí)間窗口Tn內(nèi)的評(píng)論數(shù)量;f2(Tn)表示時(shí)間窗口Tn內(nèi)的評(píng)分均值。

      (2)時(shí)間序列異常點(diǎn)檢測(cè)。在上一步,通過數(shù)據(jù)統(tǒng)計(jì)得到了二維時(shí)間序列(f1(Tn),f2(Tn)),虛假評(píng)論目標(biāo)商品的識(shí)別問題轉(zhuǎn)化為二維時(shí)間序列的異常點(diǎn)檢測(cè)問題。將時(shí)序上的點(diǎn)分別擬合成折線,然后查找折線上的異常點(diǎn)。若能查找到相關(guān)異常點(diǎn),則說(shuō)明商品中含有虛假評(píng)論,即為查找的目標(biāo)商品。

      1.4 虛假評(píng)論目標(biāo)商品識(shí)別方法

      將上述動(dòng)態(tài)、靜態(tài)2種方法結(jié)合起來(lái),可得到一個(gè)完整的虛假評(píng)論目標(biāo)商品的識(shí)別方法。

      針對(duì)虛假評(píng)論目標(biāo)商品的篩選,主要分為3步。首先,分析用戶對(duì)商品的打分,對(duì)商品評(píng)分進(jìn)行統(tǒng)計(jì);然后,根據(jù)靜態(tài)識(shí)別方法篩選目標(biāo)商品;最后,根據(jù)動(dòng)態(tài)識(shí)別方法識(shí)別剩余的商品,得到潛在的虛假評(píng)論目標(biāo)商品。主要流程如圖1所示。

      圖1 基于異常評(píng)分行為的虛假評(píng)論目標(biāo)識(shí)別框架

      2 實(shí) 驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)的選取

      實(shí)驗(yàn)采用從Resellerating.com上采集到的數(shù)據(jù),包括343 629個(gè)評(píng)論者對(duì)25 034件商品的408 469條評(píng)論。

      2.2 評(píng)價(jià)指標(biāo)

      準(zhǔn)確率廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的度量。本文中的數(shù)據(jù)分析結(jié)果擬采用該指標(biāo)進(jìn)行評(píng)價(jià)。

      準(zhǔn)確率P是指提取出含有虛假評(píng)論的商品數(shù)量M占提取出的全部商品的數(shù)量N的比值,即

      P=M/N×100%

      (8)

      通過該指標(biāo),可以衡量本方法篩選分析目標(biāo)的效果。

      2.3 實(shí)驗(yàn)結(jié)果分析

      評(píng)測(cè)中選擇評(píng)論數(shù)量1 000以上的商品作為待測(cè)對(duì)象,最終從得到的目標(biāo)商品中,選擇最可疑的50件商品進(jìn)行手工驗(yàn)證。

      選擇3個(gè)具有豐富網(wǎng)購(gòu)經(jīng)驗(yàn)的人作為評(píng)測(cè)員,將3人分開,分別獨(dú)立對(duì)商品進(jìn)行標(biāo)記,并制定目標(biāo)商品標(biāo)記規(guī)則。如果有兩個(gè)人認(rèn)為商品為虛假評(píng)論的目標(biāo)商品,則可認(rèn)為該商品為虛假評(píng)論的目標(biāo)商品。標(biāo)記的結(jié)果如表1所示。

      表1 虛假評(píng)論目標(biāo)商品人工標(biāo)注結(jié)果

      評(píng)測(cè)員1和評(píng)測(cè)員2共同標(biāo)注其為目標(biāo)商品的數(shù)量為40個(gè),評(píng)測(cè)員1和評(píng)測(cè)員3共同標(biāo)注其為目標(biāo)商品的數(shù)量為41個(gè),評(píng)測(cè)員2和評(píng)測(cè)員3共同標(biāo)注其為目標(biāo)商品的數(shù)量為39個(gè)。最后的標(biāo)注結(jié)果為所有兩兩交集的并集,其值為42,即評(píng)測(cè)員在50件商品中找到42件目標(biāo)商品,其準(zhǔn)確率為:

      P=M/N×100%=42/50×100%=84%

      從實(shí)驗(yàn)結(jié)果來(lái)看,證明本方法在虛假目標(biāo)商品識(shí)別上有效,僅通過商品的評(píng)分而不需要其他信息便可識(shí)別虛假評(píng)論目標(biāo)商品。

      3 結(jié) 語(yǔ)

      已有的虛假評(píng)論檢測(cè)研究重點(diǎn)集中在小數(shù)據(jù)集上的虛假評(píng)論檢測(cè)模型和有效性驗(yàn)證分析上,距離實(shí)用還有很大差距。在面對(duì)海量數(shù)據(jù)級(jí)別的虛假評(píng)論時(shí),由于數(shù)據(jù)量較大,需要有針對(duì)性地對(duì)數(shù)據(jù)進(jìn)行分析。本文從虛假評(píng)論目標(biāo)商品的識(shí)別入手,以提高虛假評(píng)論檢測(cè)效率和準(zhǔn)確率。

      針對(duì)虛假評(píng)論目標(biāo)商品的識(shí)別問題,本文將其轉(zhuǎn)換為商品異常評(píng)分行為識(shí)別問題。首先,將商品虛假評(píng)分狀態(tài)分為4種類型,鑒于前3種類型虛假評(píng)分對(duì)商品整體評(píng)分分布規(guī)律造成擾動(dòng),提出基于正態(tài)分布擬合的目標(biāo)商品識(shí)別方法。對(duì)第四種虛假評(píng)分狀態(tài),由于其虛假評(píng)論發(fā)布呈階段性特點(diǎn),提出基于時(shí)序數(shù)據(jù)異常點(diǎn)檢測(cè)的識(shí)別方法。通過仿真實(shí)驗(yàn),證明了該方法的有效性。

      [1]WangG,XieS,LiuB,etal.ReviewGraphBasedOnlineStoreReviewSpammerDetection[C]//2011IEEE11thInternationalConferenceonDataMining.Piscataway:IEEEPress, 2011: 1242-1247.

      [2]XieS,WangG,LinS,etal.ReviewSpamDetectionviaTemporalPatternDiscovery[C]//Proceedingsofthe18thACMSigkddInternationalConferenceonKnowledgeDiscoveryandDatamining.Texas:ACM, 2012: 823-831.

      [3]JindalN,LiuB.ReviewSpamDetection[C]//Proceedingsofthe16thInternationalConferenceonWorldWideWeb.Texas:ACM, 2007: 1189-1190.

      [4]OttM,CardieC,HancockJT.NegativeDeceptiveOpinionSpam[C]//The2013ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.Atlanta:NAACL, 2013: 497-501.

      [5]OttM,ChoiY,CardieC,etal.FindingDeceptiveOpinionSpambyanyStretchoftheImagination[EB/OL]. (2012-04-04)[2015-05-04].http://www.docin.com/p-376055993.html.

      [6]XuQ,ZhaoH.UsingDeepLinguisticFeaturesforFindingDeceptiveOpinionSpam[C]//The24thInternationalConferenceonComputationalLinguistics.Mumbai:COLING, 2012: 1341-1350.

      [7]HernándezD,GuzmánR,MóntesyGM,etal.UsingPU-learningtoDetectDeceptiveOpinionSpam[C]//Proc.ofthe4thWorkshoponComputationalApproachestoSubjectivity,SentimentandSocialMediaAnalysis,Atlanta:Medicine, 2013: 38-45.

      [8]HamoudaA,RohaimM.ReviewsClassificationUsingSentiwordnetLexicon[C]//WorldCongressonComputerScienceandInformationTechnology.Cairo:INFOMESR, 2011:120-123.

      [9]OhanaB,TierneyB.SentimentClassificationofReviewsusingSentiwordnet[C]//Proceedingsof9thInformationTechnology&TelecommunicationsConference.Dublin:DublinInstituteofTechnology, 2009: 13.

      (責(zé)任編輯:席艷君)

      A Method for Identifying Target Products with Fake Comments Based on Abnormal Rating Behavior Analysis

      JIAO Yi-yu, LIU Gang

      (Henan University, Kaifeng 475004, China)

      The diversity of the product field and the overall sparsity of the fake comments will lead to the recognition accuracy decline when detecting the fake comments by directly processing all the comments on the business platform. So the identification of the target product with fake comments will greatly improve the efficiency and accuracy of recognition. To this end, an abnormal rating behavior identification method is presented to identify the target products.Based on the analysis of the fake comments, using the normal distribution fitting and the abrupt point detection of the time sequence data, the discovery of the target products is realized. Experimental results show that the proposed method can effectively identify the target products with fake comments.

      fake comments; abnormal rating behavior; normal distribution fitting; abrupt point detection of the time sequence data

      2015-05-04

      焦易于(1990-),女,河南安陽(yáng)人,碩士生。

      1671-6906(2015)06-0080-05

      TP391

      A

      10.3969/j.issn.1671-6906.2015.06.018

      猜你喜歡
      水軍正態(tài)分布數(shù)量
      “網(wǎng)絡(luò)水軍”作惡,該打!
      統(tǒng)一數(shù)量再比較
      網(wǎng)絡(luò)水軍
      方圓(2017年12期)2017-07-17 17:50:26
      基于對(duì)數(shù)正態(tài)分布的出行時(shí)長(zhǎng)可靠性計(jì)算
      正態(tài)分布及其應(yīng)用
      頭發(fā)的數(shù)量
      水軍
      黃河之聲(2016年24期)2016-04-22 02:39:44
      正態(tài)分布題型剖析
      χ2分布、t 分布、F 分布與正態(tài)分布間的關(guān)系
      我國(guó)博物館數(shù)量達(dá)4510家
      阳信县| 葫芦岛市| 犍为县| 章丘市| 中卫市| 济阳县| 繁峙县| 嫩江县| 新竹县| 湘潭市| 云和县| 会理县| 丰镇市| 奎屯市| 东阿县| 吉首市| 隆尧县| 平舆县| 仪陇县| 云霄县| 兴国县| 青浦区| 松阳县| 莫力| 页游| 慈利县| 赞皇县| 宣化县| 衡阳县| 库车县| 佳木斯市| 青铜峡市| 沧源| 樟树市| 灵武市| 新龙县| 秀山| 赤峰市| 武山县| 浦东新区| 奉贤区|