趙 敏,張月琴,竇英通,張澤華+
1.太原理工大學(xué) 信息與計算機學(xué)院,太原030024
2.Department of Computer Science,University of Illinois at Chicago,Chicago 60607,USA
隨著智能推薦系統(tǒng)、機器在線問答等數(shù)據(jù)挖掘技術(shù)與應(yīng)用的深入發(fā)展,用戶網(wǎng)絡(luò)評論已成為互聯(lián)網(wǎng)大數(shù)據(jù)不可忽視的組成部分。但在巨大經(jīng)濟(jì)利益的推動下,虛假評論和網(wǎng)絡(luò)水軍(paid posters)已成為當(dāng)前的一大頑疾。針對產(chǎn)品或服務(wù)的欺詐評論會誤導(dǎo)用戶的消費決策,從而降低用戶消費體驗,影響商家信譽,給商家造成經(jīng)濟(jì)損失[1]。因此,檢測并及時過濾虛假評論已成數(shù)據(jù)挖掘應(yīng)用的痛點問題。
雖然當(dāng)前互聯(lián)網(wǎng)中的虛假評論數(shù)量逐年遞增,但總體仍呈現(xiàn)出類別不均衡[1]?;趥鹘y(tǒng)機器學(xué)習(xí)的欺詐評論識別方法從類別分布不均衡的數(shù)據(jù)中學(xué)習(xí)的模型會偏向多數(shù)類,因此在識別少數(shù)不實評論時難免產(chǎn)生有偏差的分類結(jié)果。針對這一現(xiàn)實存在的問題,Yuan 等人提出兩階段檢測方法TM-DRD(deceptive review detection algorithm based on target product identification and calculation of metapath feature weight)[2],首先利用核密度估計分析欺詐者的評分模式得到頻繁受攻擊的商品集合,將識別范圍縮小到目標(biāo)商品的評論后數(shù)據(jù)類別傾斜程度降低,再采用元路徑特征權(quán)重計算得到最終的識別結(jié)果。周黎宇從算法改進(jìn)入手,提出了基于支持向量取樣的非均衡數(shù)據(jù)分類方法,并依此構(gòu)建了虛假評論檢測模型[3]。ISRD(spam review detection with imbalanced data distributions)方法結(jié)合降采樣與集成學(xué)習(xí),在多個平衡數(shù)據(jù)集上訓(xùn)練不同的決策樹分類器,最后通過多數(shù)投票算法(majority vote)檢測欺詐評論[4]。這些方法在一定程度上提升了不均衡虛假評論檢測的性能,但大多基于傳統(tǒng)的統(tǒng)計方法改進(jìn),高代價的特征工程會限制其靈活性。
圖神經(jīng)網(wǎng)絡(luò)[5]是一類專門處理網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)模型,可以聚合鄰居信息為中心節(jié)點學(xué)習(xí)高維非線性的向量表示,應(yīng)用于下游的分類、聚類等任務(wù)。近年來,有些欺詐檢測方法基于GNN(graph neural networks)相關(guān)模型構(gòu)建,Zhang 等人從地下論壇抽取有效的關(guān)系構(gòu)建異構(gòu)用戶網(wǎng)絡(luò),結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural networks,GCN)[6]和注意力機制(attention mechanism)[7]提出player2vec方法檢測非法利益鏈上的關(guān)鍵用戶[8]。Wang 等人提出基于雙層結(jié)構(gòu)GCN 的FdGars 方法對手機應(yīng)用商店的評論進(jìn)行欺詐檢測[9]。不同于傳統(tǒng)機器學(xué)習(xí)方法的多步處理過程,GNN-based 方法以端到端的方式檢測欺詐,但這類方法同樣受到類別不均衡的影響,在淺層神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,多數(shù)類主導(dǎo)著用于更新模型權(quán)重的梯度,這使得類別失衡的數(shù)據(jù)訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)偏向多數(shù)類,與更關(guān)注少數(shù)異常的欺詐檢測任務(wù)相違背[10]。
為了避免大量的特征工程,降低類別傾斜的影響,本文結(jié)合集成學(xué)習(xí)框架提出了一種面向非均衡類數(shù)據(jù)的集成層級圖注意力網(wǎng)絡(luò)虛假評論檢測方法(ensemble hierarchical graph attention network,En-HGAN),其總體識別過程如圖1。本文主要工作內(nèi)容如下:
圖1 En-HGAN 識別欺詐評論的總體過程Fig.1 Overall process of detecting fake reviews using En-HGAN
(1)為了充分學(xué)習(xí)評論網(wǎng)絡(luò)中各種形式異構(gòu)的信息,En-HGAN 采用雙層注意力計算為混合領(lǐng)域的評論生成更加細(xì)致的向量表征。
(2)利用隨機欠采樣(random under sampling,RUS)對原始傾斜數(shù)據(jù)做預(yù)處理,再融合Bagging 框架集成多個“好而不同”的HGAN 子模型來緩解類別不均衡問題。
(3)通過選擇數(shù)據(jù)傾斜分布時適用的評價指標(biāo),進(jìn)而可反映En-HGAN 方法真實的欺詐檢測效果。
傳統(tǒng)機器學(xué)習(xí)檢測虛假評論的方法可分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類,大多依賴于反映不實評論與可信評價間差異的欺詐特征,如針對文本的有詞袋(bag of word,BoW)、心理語言學(xué)(linguistic inquiry and word count,LIWC)、評論長度、發(fā)布日期、評分等文本屬性及元數(shù)據(jù);關(guān)注評論行為的包括最大評論內(nèi)容相似度(maximum content similarity)、最大評論數(shù)量(maximum number of reviews)、極端評分(extreme rating behavior)等統(tǒng)計信息[11]。
監(jiān)督方法通常把檢測不實評論當(dāng)作二分類任務(wù),從評論文本及元數(shù)據(jù)中抽取欺詐特征,利用有標(biāo)記數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)分類算法。Shojaee 等人采用反映寫作風(fēng)格的詞匯和句法特征(lexical and syntactic features),通過支持向量機和樸素貝葉斯算法在酒店評論語料庫上實施了欺詐檢測任務(wù)[12]。由于標(biāo)記數(shù)據(jù)難以準(zhǔn)確構(gòu)建,不依賴類別標(biāo)簽的無監(jiān)督方法為檢測不實評論提供了新思路。任亞峰等人充分研究了欺詐者的心理狀態(tài),認(rèn)為虛假評論在語言結(jié)構(gòu)和情感極性上必然與真實評論存在較大差異,從評論文本中抽取相關(guān)特征后,通過聚類算法檢測虛假評論[13]。半監(jiān)督方法大都通過協(xié)同訓(xùn)練(co-training)、正例-無標(biāo)記學(xué)習(xí)(PU-learning)等半監(jiān)督學(xué)習(xí)框架,利用少量有標(biāo)記數(shù)據(jù)以及大量無標(biāo)記數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)分類器,達(dá)到檢測目的。例如先用全監(jiān)督的分類算法在少量標(biāo)記數(shù)據(jù)上選擇最優(yōu)的混合欺詐特征,再利用半監(jiān)督的協(xié)同訓(xùn)練、三元訓(xùn)練(tri-training)和協(xié)同隨機森林(co-forest)算法以及大量無標(biāo)記數(shù)據(jù)提升識別虛假評論的性能[14]。但是隨著評論數(shù)據(jù)規(guī)模的不斷增加,大量費時費力的特征抽取、特征選擇工作無法避免,同時這些“精心設(shè)計”的統(tǒng)計模型容易受到攻擊且面臨領(lǐng)域遷移的問題。
隨著欺詐與反欺詐檢測的博弈過程,欺詐者會有規(guī)避檢測的進(jìn)階行為,導(dǎo)致根據(jù)專家經(jīng)驗設(shè)計的欺詐特征失效。鑒于評論系統(tǒng)中實體間關(guān)系難以改變和隱藏,基于網(wǎng)絡(luò)的虛假評論檢測方法出現(xiàn)?;诟怕蕡D模型的URSM(unified review spamming model)方法將評論建模為隱變量,并以無監(jiān)督的方式對其欺詐程度進(jìn)行排序[15]。NetSpam 方法將評論網(wǎng)絡(luò)建模為異構(gòu)信息網(wǎng)絡(luò),并利用元路徑特征權(quán)重計算對評論進(jìn)行分類[16]。
HGAN(hierarchical graph attention network)是實施在異構(gòu)信息網(wǎng)絡(luò)上,利用節(jié)點嵌入來檢測欺詐評論的GNN-based 方法,下面介紹相關(guān)定義。
定義1異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network,HIN)[17]可以表示為無向圖G=(V,E,X),其中代表a類型節(jié)點,Xa是a類型節(jié)點的初始特征矩陣,網(wǎng)絡(luò)中共有A種不同類型的節(jié)點,Eb代表b類型的邊,網(wǎng)絡(luò)中共有B種不同類型的邊,且A+B>2;當(dāng)A=B=1 時,異構(gòu)網(wǎng)絡(luò)G演變成同構(gòu)網(wǎng)絡(luò)g。
定義2(異構(gòu)信息網(wǎng)絡(luò)節(jié)點表征學(xué)習(xí)[17])給定一個異構(gòu)信息網(wǎng)絡(luò)G=(V,E,X),節(jié)點表征學(xué)習(xí)的目標(biāo)是訓(xùn)練一個函數(shù)f:Va→Rd,將目標(biāo)節(jié)點映射到d維向量空間,其中d?|Va|。
定義3圖神經(jīng)網(wǎng)絡(luò)(GNN)[5]遵循層間信息傳遞機制,能夠同時學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點屬性信息為節(jié)點生成向量表示,總層數(shù)可用L表示,l層接收并聚合l-1 層的信息,1 ≤l≤L,通過堆疊多層GNN,目標(biāo)節(jié)點最終可以接收來自較遠(yuǎn)鄰居的信息。圖神經(jīng)網(wǎng)絡(luò)模型的一般框架可以表示成為,其中是中心節(jié)點v在l層的向量表示,Nv是節(jié)點v的one-hop 鄰接節(jié)點集合,l層的聚合函數(shù)AGG(l)(?)可將鄰居信息映射為向量,⊕代表鄰居信息與節(jié)點v屬性的結(jié)合操作。
根據(jù)評論系統(tǒng)中天然存在的關(guān)系構(gòu)建異構(gòu)評論網(wǎng)絡(luò)G=(V,E,X),其中V={VU,VR,VP},E={Epost,Ebelongs-to},X={XU,XR,XP},VU、XU分別代表用戶(User,U)節(jié)點及其特征矩陣,VR、XR分別代表評論(Review,R)節(jié)點及其特征矩陣,VP、XP分別代表商品(Product,P)節(jié)點及其特征矩陣,Epost代表用戶與評論間的發(fā)表關(guān)系,Ebelongs-to代表評論與商品間的屬于關(guān)系。圖2(a)給出構(gòu)建一個異構(gòu)評論網(wǎng)絡(luò)的例子,虛假評論檢測可以視為其中的節(jié)點二分類問題,利用網(wǎng)絡(luò)表征學(xué)習(xí)把評論節(jié)點VR映射到輸出向量空間Rd,接著訓(xùn)練分類器C:Rd→{0,1}檢測評論節(jié)點的可信性,1 代表不實,0 代表可信。
異構(gòu)評論網(wǎng)絡(luò)包含豐富各異的關(guān)系信息,要從中選出對欺詐檢測有意義的,能反映虛假評論間相似性的關(guān)系。
Xu 等人的研究表明群組欺詐評論,即有組織的水軍團(tuán)體有目的地攻擊某些特定商品,以群組的方式發(fā)布虛假評論的行為,是現(xiàn)在非法操縱評論的主要形式,其危害性遠(yuǎn)大于單個欺詐用戶[18]。群組虛假評論在發(fā)表者、商品、評分和發(fā)表時間上緊密關(guān)聯(lián)[19]。
基于上述研究,形成圖上的跡(trail),即圖上兩個互異節(jié)點間不經(jīng)過重復(fù)邊的一條路徑,選擇評論節(jié)點間的三種復(fù)合關(guān)系,如圖2(b)所示。
圖2 通過評論間的關(guān)系映射異構(gòu)評論網(wǎng)絡(luò)到同構(gòu)網(wǎng)絡(luò)Fig.2 Mapping HIN to homogeneous networks via several trails
如圖3,層級圖注意力網(wǎng)絡(luò)HGAN 檢測方法整體由三部分組成:首先是基于圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[20]的GAT-layer,其中包含節(jié)點級別的注意力計算;接著是語義融合層(semanticfusion-layer),其中包含關(guān)系級別的注意力計算;最后是輸出分類結(jié)果的線性層(linear-layer)。
圖3 HGAN 的整體框架Fig.3 Overview framework of HGAN
(1)處理同構(gòu)評論網(wǎng)絡(luò)的GAT-layer 評論數(shù)據(jù)通常涉及多個領(lǐng)域,由不同用戶撰寫,特征呈現(xiàn)多樣性[21]。GAT-layer在信息聚合階段采用自注意力(self-attention)機制,依賴網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點特征為中心評論的鄰居學(xué)習(xí)不同的相對重要性,一定程度上提高整體分類性能。
三個平行的單層GAT-layer分別學(xué)習(xí)評論在三個同構(gòu)網(wǎng)絡(luò)下的向量表征,下面以g1為例介紹關(guān)系RUR 下評論表示的學(xué)習(xí)過程,其他兩種關(guān)系下的節(jié)點表征學(xué)習(xí)可由此類推。
式(2)用Softmax 函數(shù)計算評論i、j間歸一化的注意力系數(shù),保證i所有鄰居的注意力系數(shù)之和為1,Ni是i的一階鄰居集合。相比GCN[6]不考慮相鄰評論之間互相影響程度的差異,通過計算節(jié)點連接度deg(?)為鄰居分配的對稱性權(quán)重αij這樣非對稱的相鄰評論間重要性更具現(xiàn)實意義。
式(3)結(jié)合評論i與其鄰居信息生成向量表示。結(jié)合操作⊕選擇加和,鄰居信息聚合操作選擇鄰居特征與其對應(yīng)注意力系數(shù)的線性組合,σ是激活函數(shù)。
為增強自注意力學(xué)習(xí)過程的穩(wěn)定性,采用式(4)的多頭注意力(multi-head attention)機制,即實施自注意力機制P次,把得到的評論向量連接。其中是第p個注意力機制計算得到的鄰居權(quán)重,這樣評論的輸出表征的維數(shù)是Pd2。
(2)融合異構(gòu)關(guān)系語義的semantic-fusion-layer這一部分融合不同關(guān)系下的評論向量表示,學(xué)習(xí)更全面統(tǒng)一的評論表征。semantic-fusion-layer 的輸入是評論表征集合,輸出評論表征,l是向量維數(shù),⊕是融合操作。不同關(guān)系下的表征對評論分類任務(wù)的貢獻(xiàn)各異,在融合時采用注意力機制自動計算各個關(guān)系的權(quán)重,具體如下。
式(5)計算關(guān)系ρk的注意力權(quán)重。首先對ρk下的評論表征實施非線性變換,M是可訓(xùn)練的權(quán)重矩陣,b是偏置;接著用語義級別的注意力權(quán)重向量q與非線性變換后的評論表征做點積,最后取均值作為,是對特定關(guān)系下所有評論表征重要性的平均。
式(6)利用Softmax 函數(shù)計算關(guān)系ρk歸一化后的注意力權(quán)重,表示關(guān)系ρk下評論表示的重要性。
式(7)輸出融合評論表征ZR,融合操作⊕選定為特定關(guān)系的注意力權(quán)重與相應(yīng)評論表征的線性組合。
(3)輸出分類結(jié)果的linear-layer
式(8)將融合全部語義的評論表征ZR輸入到單層的神經(jīng)網(wǎng)絡(luò)分類器中,輸出評論的類別,W1和b1分別代表權(quán)重矩陣與偏置。
因此,可最小化式(9)的二分類交叉熵?fù)p失來指導(dǎo)模型的訓(xùn)練,其中yR代表評論的真實標(biāo)簽,代表HGAN 方法計算的分類結(jié)果。
傳統(tǒng)機器學(xué)習(xí)方法和深度學(xué)習(xí)模型多廣泛使用數(shù)據(jù)預(yù)處理來解決非均衡監(jiān)督學(xué)習(xí)問題,這類方法不需對模型做修改,主要通過在訓(xùn)練數(shù)據(jù)集上實施隨機過采樣、隨機欠采樣或其他動態(tài)采樣方法減輕訓(xùn)練集的傾斜程度[22]。
利用隨機降采樣對訓(xùn)練集做預(yù)平衡,可以簡單地解決HGAN 方法面臨的評論數(shù)據(jù)類別傾斜問題,但單一的欠采樣處理會丟失一些對評論分類任務(wù)有意義的負(fù)例樣本信息,因此融合Bagging[23]集成框架提出En-HGAN 方法,盡量減少欠采樣帶來的信息損失,En-HGAN 集成模型的整體學(xué)習(xí)過程如圖4。
圖4 En-HGAN 的學(xué)習(xí)過程Fig.4 Learning procedure of En-HGAN
利用集成模型En-HGAN 判斷評論是否欺詐節(jié)點時,輸入用于測試的評論樣本集Dtest;首先利用集合ε={HGAN1,HGAN2,…,HGANk} 中所有訓(xùn)練好的基礎(chǔ)檢測模型為Dtest中的測試評論樣本生成二分類結(jié)果;之后將基礎(chǔ)檢測模型HGANi對測試評論實例j∈Dtest給出的分類結(jié)果記作cij,對集合ε中所有基礎(chǔ)學(xué)習(xí)器的分類結(jié)果取算數(shù)平均值作為評論j最終的集成檢測結(jié)果,即En-HGAN(j)=。
由于不同的訓(xùn)練子集存在差異,且基學(xué)習(xí)器HGAN 作為一種神經(jīng)網(wǎng)絡(luò)模型,其學(xué)習(xí)結(jié)果容易受到樣本擾動的影響,在一定程度上可以保證集成學(xué)習(xí)結(jié)果的多樣性。
在En-HGAN 檢測方法中,基學(xué)習(xí)器的個數(shù)k等于均衡訓(xùn)練子集的數(shù)量,依照Lee[24]提出的式(10)選取k值,該式通過提供足夠多的訓(xùn)練子集,盡可能利用所有實例的信息。
在內(nèi)存為640 GB DDR2 的浪潮異構(gòu)機群GPU:12X 32 GB Tesla V100s 實驗環(huán)境下,分別測試基學(xué)習(xí)器HGAN 與集成方法En-HGAN 的虛假評論識別效果并且對參數(shù)設(shè)置進(jìn)行討論,又與其他基線方法進(jìn)行對比。
在數(shù)據(jù)類別分布非均衡的情況下,本文利用En-HGAN 欺詐檢測方法在YelpChi[25]評論數(shù)據(jù)集上實施虛假評論識別任務(wù),在Amazon[26]評論數(shù)據(jù)集上實施欺詐用戶檢測任務(wù),二者都可歸結(jié)為異構(gòu)網(wǎng)絡(luò)上的節(jié)點二分類問題。
YelpChi 數(shù)據(jù)來自Rayana 等人[25]從商業(yè)點評網(wǎng)站Yelp.com 上采集的經(jīng)網(wǎng)站自身過濾算法標(biāo)記的用戶評論數(shù)據(jù),涵蓋了酒店與飯店兩個領(lǐng)域,預(yù)處理后YelpChi數(shù)據(jù)集的統(tǒng)計信息如表1。
表1 YelpChi數(shù)據(jù)集的統(tǒng)計信息Table 1 Statistics of YelpChi dataset
Amazon 數(shù)據(jù)包含樂器類產(chǎn)品的用戶評論,來自Mcauley 等人[26]從電子商務(wù)網(wǎng)站Amazon.com 上爬取并公開的無標(biāo)記用戶評論數(shù)據(jù),預(yù)處理后Amazon 欺詐用戶數(shù)據(jù)集的統(tǒng)計信息如表2。
表2 Amazon 數(shù)據(jù)集的統(tǒng)計信息Table 2 Statistics of Amazon dataset
為了利用En-HGAN 方法在Amazon 數(shù)據(jù)上對欺詐用戶進(jìn)行識別,與Zhang 等人[27]的做法相似,將獲得有用投票(helpful votes)超過80%的用戶標(biāo)記為良性實體,將有用投票低于20%的用戶標(biāo)記為不可信實體;Amazon 評論數(shù)據(jù)集上同構(gòu)用戶網(wǎng)絡(luò)的構(gòu)造與Dou 等人[28]的做法類似,基于關(guān)系UPU 為針對至少一個相同產(chǎn)品發(fā)表過評論的用戶建立直接關(guān)聯(lián),基于關(guān)系UsU 為一周時間內(nèi)至少給出過一次相同評分的用戶建立直接關(guān)聯(lián),基于關(guān)系URU 利用TF-IDF(term frequency-inverse document frequency)衡量所有用戶的評論文本相似度,并為前5%的用戶建立直接關(guān)聯(lián);最后得到三種不同關(guān)系下的Amazon 同構(gòu)用戶網(wǎng)絡(luò)gUPU、gUsU和gURU。
圖5 給出YelpChi 數(shù)據(jù)下根據(jù)評論間關(guān)系構(gòu)造的網(wǎng)絡(luò)gRUR、gRsPsR、gRtPtR的度分布情況,橫軸代表節(jié)點連接度,縱軸代表頻次,可以看出通過時間戳、評分連接的評論網(wǎng)絡(luò)比用戶連接的評論網(wǎng)絡(luò)更加稠密。
圖5 YelpChi評論網(wǎng)絡(luò)的度分布Fig.5 Degree distribution of YelpChi review networks
圖6 給出Amazon 數(shù)據(jù)下根據(jù)用戶間關(guān)系構(gòu)造的網(wǎng)絡(luò)gUPU、gUsU、gURU的度分布情況,不難看出通過評分與評論文本相似度連接的用戶網(wǎng)絡(luò)比通過產(chǎn)品連接的用戶網(wǎng)絡(luò)更稠密。
圖6 Amazon 用戶網(wǎng)絡(luò)的度分布Fig.6 Degree distribution of Amazon user networks
本文選擇F1 值評價模型的整體分類性能,選擇ROC-AUC(receiver operating characteristic-area under the curve)值評價模型對欺詐節(jié)點的檢測能力。
(1)LR,傳統(tǒng)的機器學(xué)習(xí)分類算法,實驗中采用Rayana 等人論文中的離散欺詐屬性[25]作為YelpChi評論數(shù)據(jù)初始特征。
(2)Player2Vec[8],該方法使用GCN 對每個關(guān)系中的信息進(jìn)行編碼,并使用注意力機制匯總來自不同關(guān)系的信息。
(3)FdGars[9],基于GCN 的欺詐檢測方法,實驗中用該方法分別為多個同構(gòu)評論(用戶)網(wǎng)絡(luò)生成節(jié)點表征,并報告多種關(guān)系下最優(yōu)的檢測性能。
(4)HGANnd,HGAN方法的一個變體,去除GAT-layer 中的self-attention 計算模塊,在信息聚合時為中心評論的鄰居分配相同的權(quán)重。
(5)HGANsem,HGAN 方法的另一變體,僅去除語義融合層的注意力權(quán)重計算,并為每種關(guān)系分配相同的權(quán)重。
(6)graphconsis[29],基于空間域的GNN模型graphsage[30]改進(jìn),通過解決鄰居信息聚合時的不一致問題緩解類別傾斜的影響。
實驗中所有GNN-based 模型的可訓(xùn)練參數(shù)采用隨機方法初始化,并基于交叉熵?fù)p失采用Adam 算法進(jìn)行優(yōu)化訓(xùn)練。YelpChi評論網(wǎng)絡(luò)中節(jié)點的初始特征XR采用100維的Word2Vec 嵌入表征,Amazon 用戶網(wǎng)絡(luò)中節(jié)點的初始輸入特征采用Zhang 等人[27]論文里25 維的離散屬性。
在HGAN 模型結(jié)構(gòu)的設(shè)置上,對每個YelpChi 評論網(wǎng)絡(luò)(Amazon 用戶網(wǎng)絡(luò)),GAT-layer 均設(shè)置為1層,即只考慮距中心評論(用戶)1-hop 的鄰居,其中多頭注意力機制實施次數(shù)P設(shè)置為8,輸出空間維度d2設(shè)置為8,即輸出特征維數(shù)為64,激活函數(shù)采用LeakyReLU;semantic-fusion-layer 中學(xué)習(xí)語義注意力系數(shù)的向量q的維數(shù)設(shè)置為128,最終每個YelpChi 評論(Amazon用戶)節(jié)點學(xué)習(xí)到的嵌入表征的維度l是64。
在En-HGAN方法的實驗中,根據(jù)式(10)與參數(shù)實驗為YelpChi 數(shù)據(jù)集將基學(xué)習(xí)器個數(shù)k設(shè)置為9,為Amazon 數(shù)據(jù)集將基學(xué)習(xí)器數(shù)量k設(shè)置為12,每個裝袋中正負(fù)樣本的比例為1∶1,為保證學(xué)習(xí)結(jié)果的可信性,獨立實驗5 次,對評價指標(biāo)取平均值。
(1)保持測試集中的正樣本比例等于原始數(shù)據(jù)集中的類別不均衡比率(YelpChi 數(shù)據(jù)中為14.5%,Amazon 數(shù)據(jù)中為9.5%),En-HGAN 方法以及基線方法在兩個數(shù)據(jù)集上進(jìn)行欺詐節(jié)點檢測的F1 值與AUC 值分別如圖7、圖8 所示。
圖7 YelpChi與Amazon 數(shù)據(jù)集上的F1 值結(jié)果Fig.7 F1 result on YelpChi and Amazon datasets
圖8 YelpChi與Amazon 數(shù)據(jù)集上的AUC 值結(jié)果Fig.8 AUC result on YelpChi and Amazon datasets
圖7(a)中,基于欺詐特征的LR 方法對YelpChi評論的整體分類效果最優(yōu),說明根據(jù)專家經(jīng)驗設(shè)計的特征的有效性。圖7 中,集成方法En-HGAN 在YelpChi 數(shù)據(jù)集上的F1 值基本與先進(jìn)的graphconsis方法相近,在Amazon 數(shù)據(jù)集上的F1 值稍低于graphconsis 方法,總體優(yōu)于其他兩個GNN-based 檢測方法,這表明在HGAN 模型中引入集成思想解決圖結(jié)構(gòu)數(shù)據(jù)的不均衡分類在一定程度上是有效的;兩個數(shù)據(jù)集上,Player2Vec 在整體分類性能上始終優(yōu)于FdGars,這表明融合異構(gòu)語義信息的評論(用戶)表征比單一關(guān)系下學(xué)習(xí)到的節(jié)點向量表示更具分辨力。
圖8(a)中,En-HGAN 方法在YelpChi 數(shù)據(jù)集上的AUC 值與先進(jìn)的欺詐檢測方法graphconsis 很相近,稍優(yōu)于傳統(tǒng)的LR 方法,且總是優(yōu)于其他GNNbased 方法;圖8(b)中,En-HGAN 方法在Amazon 數(shù)據(jù)集上的AUC 值相比graphconsis 方法稍低,且總是優(yōu)于另兩個GNN-based 方法。這表明基本的GNNbased 欺詐檢測方法確實會受到非均衡數(shù)據(jù)分布的不良影響,同時也說明集成多個存在差異的HGAN 模型來檢測網(wǎng)絡(luò)中少量的不實評論(欺詐用戶)是可行的。
(2)在兩個數(shù)據(jù)集上,基學(xué)習(xí)器HGAN 與變體方法實驗結(jié)果的F1 值與AUC值分別如圖9、圖10所示。
從圖9、圖10 中不難看出,兩個不同數(shù)據(jù)集上,HGAN 在檢測性能上始終優(yōu)于兩個變體方法,這表明雙層注意力機制能夠從異構(gòu)的語義關(guān)系中學(xué)習(xí)到表達(dá)力更強、對欺詐檢測任務(wù)更加有效的節(jié)點嵌入;HGANsem 的表現(xiàn)總是好于HGANnd 則說明,相比關(guān)系級別的注意力計算,在節(jié)點級別對鄰居信息進(jìn)行有區(qū)別的融合更有益于欺詐節(jié)點檢測任務(wù)。
圖10 HGAN 與其變體方法在YelpChi與Amazon 數(shù)據(jù)集上的AUC 值結(jié)果Fig.10 AUC result of HGAN and its variant methods on YelpChi and Amazon datasets
本節(jié)基于兩個數(shù)據(jù)集上的實驗,分別討論了一些重要的超參數(shù)對基檢測方法HGAN 以及集成檢測方法En-HGAN 的影響。
(1)圖11、圖12 和圖13 分別給出兩個不同數(shù)據(jù)集的實驗結(jié)果下網(wǎng)絡(luò)中節(jié)點最終輸出向量的維度l,語義融合層的注意力向量q的維數(shù),以及GAT-layer中多頭自注意力機制實施次數(shù)P這3 個參數(shù)對HGAN 識別虛假評論效果的影響。
圖11 l 對HGAN 方法的影響Fig.11 Effect of l on HGAN
圖12 q 對HGAN 方法的影響Fig.12 Effect of q on HGAN
圖13 P 對HGAN 方法的影響Fig.13 Effect of P on HGAN
圖11(a)中,隨著YelpChi 評論最終向量表示維度的增加,HGAN 的檢測性能首先隨之提升,然后開始緩慢下降;圖11(b)中隨著Amazon 用戶輸出表征維度的增加,HGAN 的檢測性能也呈現(xiàn)先緩慢提升再下降的趨勢,但總體變化并不明顯。這表明一個合適的表征維數(shù)更有益于HGAN 編碼多樣的語義,維度過大的節(jié)點向量表示可能引入冗余信息。
圖12 顯示HGAN 對欺詐評論(用戶)的檢測效果隨著語義層次注意力向量維度的增加而提升,并且在q的維數(shù)等于128 時達(dá)到最優(yōu),之后可能因為維度過大導(dǎo)致了過擬合使得模型性能逐漸降低。
圖13 的結(jié)果顯示多頭注意力機制中P的值越大,HGAN 的性能會隨之輕微波動著增長。
(2)將少數(shù)類樣本設(shè)定為正例(positive),多數(shù)類樣本設(shè)定為負(fù)例(negative)。圖14 和圖15 給出兩個數(shù)據(jù)集的實驗下基學(xué)習(xí)器個數(shù)k以及訓(xùn)練子集中正負(fù)樣本比例(pos∶neg)對En-HGAN 檢測性能的影響。
圖14 k 對En-HGAN 方法的影響Fig.14 Effect of k on En-HGAN
圖15 pos∶neg 對En-HGAN 方法的影響Fig.15 Effect of pos∶neg on En-HGAN
圖14(a)中,隨著子模型個數(shù)k不斷增大,直到等于9,En-HGAN 對YelpChi 數(shù)據(jù)集中不實評論的檢測效果逐漸優(yōu)化,但繼續(xù)增加基學(xué)習(xí)器數(shù)量,模型性能沒有進(jìn)一步提升;圖14(b)中,隨著基學(xué)習(xí)器個數(shù)的增加,En-HGAN 對Amazon 數(shù)據(jù)集中欺詐用戶的識別效果逐漸提升,并在k等于12 時達(dá)到最優(yōu),但k的值繼續(xù)增大后檢測性能沒有明顯變化。
圖15 的結(jié)果顯示訓(xùn)練子集中正例占比變大,En-HGAN 的檢測效果卻沒有更優(yōu)。pos∶neg 為1∶0.2、1∶0.5時可能由于子訓(xùn)練集中樣本量較少和過擬合問題造成方法性能降低。
本文的集成層級圖注意力網(wǎng)絡(luò)En-HGAN 識別方法一方面利用層次化的注意力機制從異構(gòu)網(wǎng)絡(luò)中為評論(用戶)節(jié)點學(xué)習(xí)語義更加豐富的向量表征,另一方面利用輸入樣本擾動集成多個差異化的HGAN 模型,實驗結(jié)果表明傳統(tǒng)的數(shù)據(jù)采樣結(jié)合集成學(xué)習(xí)用于圖神經(jīng)網(wǎng)絡(luò)模型做類別不均衡的節(jié)點分類任務(wù)是可行的。由于En-HGAN 方法沒有進(jìn)一步考慮數(shù)據(jù)子集中各類樣本的質(zhì)量,單純地使用隨機欠采樣解決不同類實例在數(shù)量上的不均衡,未來可以采取更加靈活的動態(tài)采樣方法構(gòu)建更優(yōu)質(zhì)的均衡子訓(xùn)練集。另外,也可根據(jù)問題背景和數(shù)據(jù)分布等選擇其他集成框架,比如Boosting 來挖掘異常特征和均衡檢測結(jié)果。