張 文, 王 強(qiáng), 唐子旭, 秦廣杰, 李 健
(1.北京工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,中國(guó) 北京 100124; 2.山東浪潮新基建科技有限公司,山東 濟(jì)南 250011)
隨著電子商務(wù)的飛速發(fā)展和在線評(píng)論數(shù)量的增長(zhǎng),大量的虛假評(píng)論充斥在網(wǎng)絡(luò)環(huán)境中[1]。在線虛假評(píng)論是由商家招募評(píng)論者發(fā)布的欺騙性信息,其目的是借助在線虛假評(píng)論提高自身產(chǎn)品銷(xiāo)量或打壓競(jìng)爭(zhēng)對(duì)手[2]。對(duì)于品質(zhì)低的商品,正面的虛假評(píng)論可以提升商家自身口碑和商品銷(xiāo)量,對(duì)于其他競(jìng)爭(zhēng)對(duì)手的高品質(zhì)商品,負(fù)面的虛假評(píng)論可以詆毀競(jìng)爭(zhēng)對(duì)手,損害其聲譽(yù)[3]。由于消費(fèi)者無(wú)法從內(nèi)容上辨別虛假評(píng)論,虛假評(píng)論的誤導(dǎo)信息在很大程度上影響著消費(fèi)者的購(gòu)買(mǎi)決策[4]。因此,虛假評(píng)論的準(zhǔn)確識(shí)別對(duì)于維護(hù)消費(fèi)者的權(quán)益、維持電子商務(wù)交易市場(chǎng)的正常秩序意義重大,越來(lái)越多的學(xué)者開(kāi)展對(duì)虛假評(píng)論識(shí)別的研究[5~8]。
Kumar等人提出一種無(wú)監(jiān)督方法來(lái)檢測(cè)在線評(píng)論中的異常行為。他們通過(guò)定義評(píng)論者行為的主要特征分布,并將這些特征分布組合成一個(gè)混合學(xué)習(xí)模型來(lái)自動(dòng)識(shí)別虛假評(píng)論者[5]。Zhang等人利用深度神經(jīng)網(wǎng)絡(luò),借助真實(shí)評(píng)論和虛假評(píng)論中的特征詞向量識(shí)別虛假評(píng)論[6]。Ott等人采用人工標(biāo)注的方法辨別虛假評(píng)論,結(jié)果表明人工標(biāo)注對(duì)于虛假評(píng)論的識(shí)別率很低。為此,他們收集了首個(gè)在線好評(píng)數(shù)據(jù)集,其中包括芝加哥20個(gè)酒店的400條虛假好評(píng)和400條真實(shí)好評(píng)數(shù)據(jù),這為后續(xù)虛假評(píng)論識(shí)別的相關(guān)研究提供了良好的數(shù)據(jù)集基礎(chǔ)[7]。此后,Ott等人分別利用亞馬遜提供的眾包服務(wù)平臺(tái)和網(wǎng)絡(luò)爬蟲(chóng)方法收集了400條虛假差評(píng)和400條真實(shí)差評(píng),基于在線好評(píng)數(shù)據(jù)集的基礎(chǔ)上,構(gòu)建了在虛假評(píng)論識(shí)別領(lǐng)域的1600條標(biāo)準(zhǔn)數(shù)據(jù)集[8]。隨后他們用相同的模型和方法對(duì)虛假評(píng)論進(jìn)行識(shí)別,結(jié)果表明使用包含虛假差評(píng)的數(shù)據(jù)集訓(xùn)練出的分類(lèi)器能夠更好地識(shí)別虛假評(píng)論。并且在擴(kuò)充數(shù)據(jù)集后,機(jī)器學(xué)習(xí)模型對(duì)虛假評(píng)論識(shí)別效果顯著提高。
機(jī)器學(xué)習(xí)相關(guān)技術(shù)的發(fā)展提升了在線虛假評(píng)論識(shí)別的準(zhǔn)確率,然而現(xiàn)階段機(jī)器學(xué)習(xí)模型缺少足夠多的已標(biāo)注數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練。就虛假評(píng)論而言,人工標(biāo)注評(píng)論數(shù)據(jù)需要耗費(fèi)大量的人力和時(shí)間成本,同時(shí)人工標(biāo)注的評(píng)論數(shù)據(jù)也不具備可靠性?,F(xiàn)階段的研究還未真正解決虛假評(píng)論識(shí)別中模型訓(xùn)練數(shù)據(jù)貧乏的問(wèn)題。為此,本文基于生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)[9]提出評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE(GAN-Review Dataset Expansion),對(duì)有限已標(biāo)注的評(píng)論數(shù)據(jù)集在機(jī)器學(xué)習(xí)過(guò)程中加以利用,通過(guò)生成器(Generative)學(xué)習(xí)已標(biāo)注評(píng)論數(shù)據(jù)的分布特征生成符合評(píng)論數(shù)據(jù)特征分布的向量,以此來(lái)擴(kuò)充模型訓(xùn)練數(shù)據(jù),提升虛假評(píng)論識(shí)別的效率。GAN最大的特點(diǎn)在于引入了對(duì)抗機(jī)制,判別器(Discriminative)辨別來(lái)自訓(xùn)練集的真實(shí)數(shù)據(jù)與生成器的生成數(shù)據(jù),生成器學(xué)習(xí)如何模擬產(chǎn)生更加接近數(shù)據(jù)集樣本分布特征的數(shù)據(jù),這種對(duì)抗機(jī)制使生成器生成的樣本與初始評(píng)論數(shù)據(jù)極為相似,而判別器的辨別能力同時(shí)也得到了提高。此外,相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法,GAN能夠?qū)⒎潜O(jiān)督學(xué)習(xí)轉(zhuǎn)化為監(jiān)督學(xué)習(xí),使得其在非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)領(lǐng)域可以發(fā)揮更大的作用[10]。當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí),生成器可以通過(guò)輸入的噪點(diǎn)來(lái)生成多樣化的“真實(shí)”數(shù)據(jù),生成器生成的數(shù)據(jù)與訓(xùn)練集數(shù)據(jù)會(huì)在GAN訓(xùn)練過(guò)程中最終達(dá)到高度相似。因此GAN能夠通過(guò)生成器生成的數(shù)據(jù)擴(kuò)充初始評(píng)論數(shù)據(jù)集,解決虛假評(píng)論識(shí)別中模型訓(xùn)練數(shù)據(jù)貧乏的問(wèn)題,在虛假評(píng)論識(shí)別研究中引入GAN具有現(xiàn)實(shí)意義。
支持向量機(jī)(SVM, Support Vector Machine)是機(jī)器學(xué)習(xí)算法中最為流行的監(jiān)督學(xué)習(xí)模型之一,在給定樣本信息情況下可以做線性和非線性的分類(lèi)和回歸分析。對(duì)于分類(lèi)問(wèn)題,SVM是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的分類(lèi)方法,它將向量映射到一個(gè)高維空間并在這個(gè)空間建立分割兩類(lèi)數(shù)據(jù)的超平面,在尋求最大間隔超平面的同時(shí)獲取更佳的泛化能力[11]。在虛假評(píng)論識(shí)別的研究中SVM作為基礎(chǔ)分類(lèi)器得到了廣泛應(yīng)用。例如,Zhang等人利用SVM作為基礎(chǔ)分類(lèi)器,借助評(píng)論的文本詞匯和評(píng)論的深度語(yǔ)法規(guī)則識(shí)別虛假評(píng)論[12]。Kumar等人在虛假評(píng)論者檢測(cè)的研究中也使用SVM作為基礎(chǔ)分類(lèi)器對(duì)比不同算法的識(shí)別性能[5]。由于SVM特別適合于數(shù)據(jù)維度大但數(shù)據(jù)集較小的分類(lèi)問(wèn)題,因此本文在虛假評(píng)論識(shí)別問(wèn)題上也采用了這種算法。
多層感知機(jī)(MLP, Multi-Layer Perceptron)是一類(lèi)至少具有三層的前饋人工神經(jīng)網(wǎng)絡(luò)(ANN, Artificial Neural Network)[13]。每一層由一個(gè)或多個(gè)平行的人工神經(jīng)元組成,每個(gè)神經(jīng)元具有N個(gè)加權(quán)輸入,并參考閾值和激活函數(shù)來(lái)確定其輸出。相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),MLP在輸入層和輸出層中間添加了多個(gè)隱藏層。在輸入層、隱藏層和輸出層之間,MLP實(shí)現(xiàn)上一層的任何一個(gè)神經(jīng)元與下一層的所有神經(jīng)元全連接。因此,MLP增加了模型的表達(dá)能力,提升了分類(lèi)的準(zhǔn)確率。MLP被廣泛應(yīng)用在虛假評(píng)論識(shí)別的研究中,Bhargava等人綜合分析和比較了不同層數(shù)和不同輸出維數(shù)的深度網(wǎng)絡(luò)模型在虛假評(píng)論識(shí)別中的效果,并總結(jié)MLP在虛假評(píng)論識(shí)別中的優(yōu)勢(shì)[14]。鑒于MLP在分類(lèi)問(wèn)題中具有非常強(qiáng)的自適應(yīng)和自學(xué)習(xí)能力,本文在虛假評(píng)論識(shí)別問(wèn)題上選擇多層感知機(jī)作為基礎(chǔ)分類(lèi)器。
生成式對(duì)抗網(wǎng)絡(luò)是一種新興的訓(xùn)練生成模型框架,是判別器網(wǎng)絡(luò)和生成器網(wǎng)絡(luò)相互競(jìng)爭(zhēng)和抗衡的特殊過(guò)程,其基本思想來(lái)源于對(duì)策論中的非合作博弈均衡[9]。其中,生成器網(wǎng)絡(luò)負(fù)責(zé)學(xué)習(xí)數(shù)據(jù)集中樣本的數(shù)字分布特征并嘗試生成真實(shí)樣本,判別器網(wǎng)絡(luò)接收來(lái)自實(shí)際數(shù)據(jù)集的真實(shí)數(shù)據(jù)和來(lái)自生成器網(wǎng)絡(luò)創(chuàng)造出來(lái)的生成數(shù)據(jù)。在未明確數(shù)據(jù)來(lái)源的情況下,需要自動(dòng)區(qū)分真實(shí)數(shù)據(jù)與生成器生成的數(shù)據(jù),并判斷這些數(shù)據(jù)為真實(shí)數(shù)據(jù)的概率。因此一個(gè)GAN網(wǎng)絡(luò)由生成器G和判別器D兩部分組成,生成器G從先驗(yàn)分布中采集隨機(jī)噪聲作為輸入,通過(guò)網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)集數(shù)據(jù)特征并試圖生成真實(shí)樣本數(shù)據(jù)。判別器D的數(shù)據(jù)來(lái)源是生成器G生成的數(shù)據(jù)和數(shù)據(jù)集樣本中的真實(shí)數(shù)據(jù)兩種數(shù)據(jù)源融合后的數(shù)據(jù),它需要判斷當(dāng)前輸入是來(lái)自訓(xùn)練集還是由生成器生成,最終輸出判斷結(jié)果并反饋給生成器。生成器G與判別器D的相互作用如圖1所示:
圖1 生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)圖
在生成式對(duì)抗網(wǎng)絡(luò)中,生成器G不斷學(xué)習(xí)訓(xùn)練集中真實(shí)數(shù)據(jù)的概率分布,從隨機(jī)分布pz(x)中接收噪聲z作為輸入,并嘗試將其轉(zhuǎn)化為可以以假亂真的樣本數(shù)據(jù)。判別器D以真實(shí)樣本數(shù)據(jù)以及來(lái)自生成器G的生成數(shù)據(jù)作為輸入,其作用是對(duì)兩種數(shù)據(jù)進(jìn)行辨別區(qū)分,并將判別結(jié)果反饋給生成器G進(jìn)行學(xué)習(xí)。其中判別器的輸入包括真實(shí)數(shù)據(jù)的分布和生成數(shù)據(jù)的分布,并反饋判斷結(jié)果讓生成器G學(xué)習(xí),從而讓兩個(gè)網(wǎng)絡(luò)同時(shí)訓(xùn)練。
本文基于生成式對(duì)抗網(wǎng)絡(luò)提出評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE解決虛假評(píng)論識(shí)別中模型訓(xùn)練數(shù)據(jù)貧乏問(wèn)題。評(píng)論數(shù)據(jù)集擴(kuò)充的整體框架如圖2所示。首先,對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理。去除評(píng)論數(shù)據(jù)集中的停用詞,并刪除評(píng)論文本中的表情字符、多余的空格字符、沒(méi)有實(shí)際意義的數(shù)字和字母,以提升評(píng)論文本質(zhì)量。將初始評(píng)論數(shù)據(jù)劃分為真實(shí)評(píng)論數(shù)據(jù)集和虛假評(píng)論數(shù)據(jù)集,并使用特征提取模型對(duì)初始評(píng)論數(shù)據(jù)集進(jìn)行文本特征提取。其次,本文設(shè)計(jì)了用于擴(kuò)充評(píng)論數(shù)據(jù)集的GAN,包括對(duì)生成器和判別器的訓(xùn)練。在訓(xùn)練GAN時(shí),生成器輸入與訓(xùn)練樣本相同數(shù)量的隨機(jī)噪聲,并將輸出結(jié)果和來(lái)自訓(xùn)練集的真實(shí)數(shù)據(jù)作為判別器的輸入,讓判別器通過(guò)相應(yīng)標(biāo)簽和損失函數(shù)計(jì)算誤差以進(jìn)行模型訓(xùn)練。通過(guò)交替凍結(jié)生成器與判別器的網(wǎng)絡(luò)參數(shù),用生成器生成的數(shù)據(jù)與訓(xùn)練集中的真實(shí)數(shù)據(jù)一起輸入到判別器當(dāng)中,讓判別器進(jìn)行網(wǎng)絡(luò)參數(shù)的更新,再?gòu)呐袆e器網(wǎng)絡(luò)輸出的誤差反饋給生成器以更新其參數(shù)權(quán)重,反復(fù)循環(huán)讓兩個(gè)網(wǎng)絡(luò)相互學(xué)習(xí)以此來(lái)達(dá)到平衡。
圖2 評(píng)論數(shù)據(jù)集擴(kuò)充的整體框架
具體而言,本文首先將初始評(píng)論數(shù)據(jù)集的特征詞詞向量矩陣作為訓(xùn)練好的GAN模型的輸入,分別生成真實(shí)評(píng)論和虛假評(píng)論的特征詞詞向量矩陣。然后,本文將GAN生成的真實(shí)評(píng)論與虛假評(píng)論特征詞詞向量矩陣與初始評(píng)論數(shù)據(jù)集的特征詞詞向量矩陣合并,得到擴(kuò)充數(shù)據(jù)集的特征詞詞向量矩陣,以實(shí)現(xiàn)對(duì)真實(shí)評(píng)論和虛假評(píng)論數(shù)據(jù)集的擴(kuò)充。最后,本文使用擴(kuò)充評(píng)論數(shù)據(jù)集進(jìn)行虛假評(píng)論的識(shí)別。本文以樸素貝葉斯、多層感知機(jī)和支持向量機(jī)作為基礎(chǔ)分類(lèi)器,使用擴(kuò)充數(shù)據(jù)集后的特征詞詞向量矩陣訓(xùn)練基礎(chǔ)分類(lèi)器,驗(yàn)證數(shù)據(jù)擴(kuò)后虛假評(píng)論識(shí)別的效果。同時(shí),本文也對(duì)比多種虛假評(píng)論分類(lèi)識(shí)別方法在評(píng)論數(shù)據(jù)集擴(kuò)充前后的虛假評(píng)論識(shí)別效果,驗(yàn)證評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE對(duì)在線虛假評(píng)論識(shí)別中數(shù)據(jù)貧乏問(wèn)題的解決能力。
為解決虛假評(píng)論識(shí)別模型中訓(xùn)練集數(shù)據(jù)貧乏的問(wèn)題,本文考慮通過(guò)GAN生成符合真實(shí)評(píng)論與虛假評(píng)論特征分布的向量來(lái)擴(kuò)充數(shù)據(jù)集,并提出基于GAN的評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE,以此提升虛假評(píng)論識(shí)別的準(zhǔn)確率?;贕AN的評(píng)論數(shù)據(jù)集擴(kuò)充過(guò)程如圖3所示。
使用兩種特征提取模型N-gram[15]和TF-IDF[16]對(duì)800條真實(shí)評(píng)論數(shù)據(jù)集Rt(包括400條真實(shí)好評(píng)和400條真實(shí)差評(píng))和800條虛假評(píng)論數(shù)據(jù)集Rd(包括400條虛假好評(píng)和400條虛假差評(píng))進(jìn)行文本特征提取,選擇其中表現(xiàn)相對(duì)較好的特征提取模型得到的結(jié)果作為生成式對(duì)抗網(wǎng)絡(luò)訓(xùn)練的輸入數(shù)據(jù),即真實(shí)評(píng)論數(shù)據(jù)集Rt的特征詞詞向量矩陣ET=[ew1,ew2,…,ewi]和虛假評(píng)論數(shù)據(jù)集Rd的特征詞詞向量矩陣ED=[ew1,ew2,…,ewj]。將真實(shí)評(píng)論數(shù)據(jù)集Rt的特征詞詞向量矩陣ET和虛假評(píng)論數(shù)據(jù)集Rd的特征詞詞向量矩陣ED作為生成式對(duì)抗網(wǎng)絡(luò)的輸入分別訓(xùn)練GAN。
圖3 GAN-RDE過(guò)程
GAN訓(xùn)練完成后,輸出真實(shí)評(píng)論的特征詞詞向量矩陣EGT=[et1,et2,…,etm]和虛假評(píng)論的特征詞詞向量矩陣EGD=[ed1,ed2,…,edm]。對(duì)1600條評(píng)論數(shù)據(jù)集R(包括400條真實(shí)好評(píng)、400條真實(shí)差評(píng)、400條虛假好評(píng)和400條虛假差評(píng))進(jìn)行文本特征提取,得到評(píng)論數(shù)據(jù)集R的特征詞詞向量矩陣ER=[ew1,ew2,…,ewj]。然后將GAN生成的特征詞詞向量矩陣EG(包括EGT和EGD)與評(píng)論數(shù)據(jù)集R的特征詞詞向量矩陣ER合并,得到擴(kuò)充數(shù)據(jù)集R′的特征詞詞向量矩陣E=[ew1,…,ewi,…,ewj,et1,…,etm,ed1,…,edn]。最后使用擴(kuò)充數(shù)據(jù)集R′訓(xùn)練分類(lèi)器,借助機(jī)器學(xué)習(xí)中的4個(gè)評(píng)價(jià)指標(biāo):準(zhǔn)確率(A, Accuracy),精準(zhǔn)率(P, Precision)、召回率(R, Recall)、F-度量值(F-Measure),對(duì)比GAN-RDE方法擴(kuò)充評(píng)論數(shù)據(jù)集前后虛假評(píng)論的識(shí)別效果,判斷GAN是否能夠用于評(píng)論數(shù)據(jù)集的擴(kuò)充,并提升虛假評(píng)論識(shí)別的準(zhǔn)確率。
MyleOtt等人[7]在2011年收集了首個(gè)好評(píng)的標(biāo)準(zhǔn)數(shù)據(jù)集,其中包括美國(guó)芝加哥20個(gè)酒店的400條真實(shí)好評(píng)數(shù)據(jù)Rt1和400條虛假好評(píng)Rd1。在此基礎(chǔ)上,他們又在2013年收集了差評(píng)的標(biāo)準(zhǔn)數(shù)據(jù)集,其中包括了400條真實(shí)差評(píng)Rt2和400條虛假差評(píng)數(shù)據(jù)Rd2[8]。400條真實(shí)好評(píng)數(shù)據(jù)Rt1和400條真實(shí)差評(píng)Rt2構(gòu)成了真實(shí)評(píng)論數(shù)據(jù)集Rt,400條虛假好評(píng)Rd1和400條虛假差評(píng)數(shù)據(jù)Rd2構(gòu)成了虛假評(píng)論數(shù)據(jù)集Rd。這1600條評(píng)論數(shù)據(jù)構(gòu)成本文機(jī)器學(xué)習(xí)的訓(xùn)練與測(cè)試實(shí)驗(yàn)數(shù)據(jù)集R,其中評(píng)論數(shù)據(jù)集擴(kuò)充實(shí)驗(yàn)是基于數(shù)據(jù)集Rt和Rd。
3.1.1 評(píng)論數(shù)據(jù)的預(yù)處理
本文使用NLTK庫(kù)去除評(píng)論數(shù)據(jù)集中的停用詞,由于停用詞如“the”、“am”、“a”、“is”、“at”等沒(méi)有什么實(shí)際含義,不會(huì)給出任何有助于數(shù)據(jù)模型的信息,因此需要從評(píng)論當(dāng)中去除這些詞。在使用模型進(jìn)行特征提取時(shí),使用N-gram和TF-IDF兩種特征提取模型得到的數(shù)字特征維度都比較大,而對(duì)于深度神經(jīng)網(wǎng)絡(luò)意味著訓(xùn)練難度的提升。因此實(shí)驗(yàn)中使用特征選擇方法進(jìn)行降維,以便于GAN訓(xùn)練的實(shí)驗(yàn)。數(shù)字特征進(jìn)行降維后會(huì)有信息損失,但不影響本文提升模型準(zhǔn)確率的研究?jī)?nèi)容。降維后TF-IDF模型維度為500,N-gram模型提取的特征維度為2000。
3.1.2 特征提取模型
TF-IDF和N-gram模型中得到的向量維度和特征的差異會(huì)導(dǎo)致分類(lèi)效果的不同,本文使用SVM權(quán)衡兩種特征提取模型之間的選擇。將實(shí)驗(yàn)數(shù)據(jù)集數(shù)據(jù)劃分為5個(gè)fold,其中4個(gè)fold數(shù)據(jù)集子集作為訓(xùn)練集訓(xùn)練SVM模型,1個(gè)fold數(shù)據(jù)集子集作為驗(yàn)證集用于模型驗(yàn)證,利用驗(yàn)證集計(jì)算模型的性能指標(biāo),如準(zhǔn)確率。使用網(wǎng)格搜索尋求模型的最優(yōu)調(diào)參,模型在數(shù)據(jù)集上擬合時(shí),將模型的各個(gè)參數(shù)設(shè)置在一定的區(qū)間,參數(shù)值所有可能的組合都會(huì)被評(píng)估,從而計(jì)算出最佳的組合。
對(duì)于測(cè)試集400條數(shù)據(jù),使用N-gram模型提取訓(xùn)練數(shù)據(jù)集特征訓(xùn)練SVM時(shí),SVM將400條測(cè)試集數(shù)據(jù)中的179條評(píng)論識(shí)別為虛假評(píng)論,221條評(píng)論識(shí)別為真實(shí)評(píng)論。使用TF-IDF模型提取訓(xùn)練數(shù)據(jù)集特征時(shí),SVM將400條測(cè)試集數(shù)據(jù)中的210條評(píng)論識(shí)別為虛假評(píng)論,190條評(píng)論識(shí)別為真實(shí)評(píng)論。SVM虛假評(píng)論識(shí)別結(jié)果表明,使用兩種不同的特征提取模型的SVM對(duì)虛假評(píng)論識(shí)別的結(jié)果相差不大,SVM虛假評(píng)論識(shí)別的準(zhǔn)確率都為0.86,但由于N-gram得到的向量維度很高,會(huì)使得深度學(xué)習(xí)中網(wǎng)絡(luò)變大從而增加訓(xùn)練難度,因此選用維度相對(duì)較低的TF-IDF作為實(shí)驗(yàn)中的特征提取模型,將TF-IDF提取到的特征向量作為生成式對(duì)抗網(wǎng)絡(luò)的輸入。
理論上由于初始評(píng)論數(shù)據(jù)數(shù)量較少會(huì)導(dǎo)致基準(zhǔn)分類(lèi)器對(duì)虛假評(píng)論識(shí)別的準(zhǔn)確率不高,在使用真實(shí)評(píng)論數(shù)據(jù)集Rt和虛假評(píng)論數(shù)據(jù)集Rd完成GAN訓(xùn)練的基礎(chǔ)上,生成器G可以很好的捕捉評(píng)論的分布特征來(lái)生成符合真實(shí)與虛假評(píng)論特征分布的向量,以此來(lái)擴(kuò)充訓(xùn)練集數(shù)據(jù)量,提高基準(zhǔn)分類(lèi)器對(duì)虛假評(píng)論識(shí)別的準(zhǔn)確率。這是一種數(shù)據(jù)增強(qiáng)的方法,將原始數(shù)據(jù)用于訓(xùn)練GAN,然后根據(jù)訓(xùn)練得到的GAN模型生成擴(kuò)充數(shù)據(jù)用于基準(zhǔn)分類(lèi)器的訓(xùn)練。在實(shí)驗(yàn)中訓(xùn)練好的GAN生成器G生成一些符合真實(shí)與虛假評(píng)論特征分布的向量,使用這些向量來(lái)擴(kuò)充初始評(píng)論數(shù)據(jù)集R。使用GAN-RDE方法擴(kuò)充數(shù)據(jù)前后基準(zhǔn)分類(lèi)器的虛假評(píng)論識(shí)別結(jié)果對(duì)比如表1所示。
表1 GAN-RDE方法擴(kuò)充數(shù)據(jù)前后基準(zhǔn)分類(lèi)器的虛假評(píng)論識(shí)別結(jié)果對(duì)比
GAN-RDE方法擴(kuò)充數(shù)據(jù)后,Na?ve Bayes對(duì)虛假評(píng)論識(shí)別準(zhǔn)確率均由75%提升到87%,其余各評(píng)價(jià)指標(biāo)也均有提高。MLP和SVM對(duì)虛假評(píng)論識(shí)別準(zhǔn)確率均由86%提高到了91%。相比于未擴(kuò)充數(shù)據(jù)前的虛假評(píng)論識(shí)別結(jié)果,GAN-RDE方法擴(kuò)充數(shù)據(jù)后,MLP的召回率和F1值均提高了14%;SVM召回率和F1值分別提高了11%和6%。相比于未擴(kuò)充數(shù)據(jù)前的真實(shí)評(píng)論識(shí)別結(jié)果,GAN-RDE方法擴(kuò)充數(shù)據(jù)后的MLP識(shí)別精確率、召回率和F1值分別提高了17%、8%和8%;SVM識(shí)別精確率和F1值分別提高了12%和2%。
圖4 GAN-RDE前后虛假評(píng)論識(shí)別方法在不同訓(xùn)練比例上的準(zhǔn)確率
為驗(yàn)證本文提出的評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE對(duì)在線虛假評(píng)論識(shí)別中數(shù)據(jù)貧乏問(wèn)題的解決性能,本文將在機(jī)器學(xué)習(xí)領(lǐng)域被廣泛使用的分類(lèi)器樸素貝葉斯(Na?ve Bayes)[7],基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法多層感知機(jī)MLP,以及機(jī)器學(xué)習(xí)算法中最為流行的監(jiān)督學(xué)習(xí)模型支持向量機(jī)SVM納入對(duì)比實(shí)驗(yàn),觀察使用GAN-RDE方法前后虛假評(píng)論識(shí)別結(jié)果的差異。圖4顯示了使用評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE前后的樸素貝葉斯、多層感知機(jī)和支持向量機(jī)在不同訓(xùn)練比例上對(duì)虛假評(píng)論的識(shí)別結(jié)果對(duì)比。
從圖4可以看出通過(guò)評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE擴(kuò)充數(shù)據(jù)后,在不同訓(xùn)練比例上,樸素貝葉斯、多層感知機(jī)和支持向量機(jī)在虛假評(píng)論識(shí)別的準(zhǔn)確率方面都有顯著提升。結(jié)果表明訓(xùn)練完成的生成式對(duì)抗網(wǎng)絡(luò)很好的學(xué)習(xí)到了初始評(píng)論集的特征分布,用GAN生成的向量可以擴(kuò)充評(píng)論數(shù)據(jù)集并讓數(shù)據(jù)得到增強(qiáng),使得基準(zhǔn)方法對(duì)虛假評(píng)論識(shí)別的效果得到提升。因此,本文提出的評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE能夠很好的解決虛假評(píng)論識(shí)別中的數(shù)據(jù)貧乏問(wèn)題,提升虛假評(píng)論識(shí)別的準(zhǔn)確率。
GAN的主要參數(shù)設(shè)置會(huì)改變GAN-RDE方法擴(kuò)充評(píng)論數(shù)據(jù)集的結(jié)果,進(jìn)而影響虛假評(píng)論識(shí)別準(zhǔn)確率。本文使用窮舉搜索的方式,探究GAN的主要參數(shù)設(shè)置對(duì)最終虛假評(píng)論識(shí)別準(zhǔn)確率的影響。在GAN參數(shù)尋優(yōu)的過(guò)程中,影響GAN訓(xùn)練效果以及GAN-RDE方法擴(kuò)充評(píng)論數(shù)據(jù)集結(jié)果的參數(shù)主要為在線評(píng)論文本的特征維度(l)、生成器G的輸入特征數(shù)量(dG)和判別器D的輸入特征數(shù)量(dD)。本文在這三個(gè)參數(shù)尋優(yōu)時(shí)借助窮舉搜索的思想,在保持其他參數(shù)不變的情況下只改變某一參數(shù)的大小,進(jìn)而對(duì)比不同參數(shù)設(shè)置對(duì)基準(zhǔn)分類(lèi)器準(zhǔn)確率的影響。表2顯示了GAN主要參數(shù)設(shè)置對(duì)使用GAN-RDE方法擴(kuò)充評(píng)論數(shù)據(jù)集后基準(zhǔn)分類(lèi)器準(zhǔn)確率的影響。
GAN主要參數(shù)敏感度分析結(jié)果表明,在線評(píng)論文本的特征維度l最優(yōu)為500,此時(shí)GAN訓(xùn)練效果最好,各基準(zhǔn)分類(lèi)器的準(zhǔn)確率達(dá)到最高。在線評(píng)論文本的特征維度小于500時(shí),基準(zhǔn)分類(lèi)器的準(zhǔn)確率會(huì)隨著特征維度的增加而提升。而當(dāng)在線評(píng)論文本的特征維度大于500時(shí),GAN訓(xùn)練無(wú)法達(dá)到最優(yōu)的效果,基準(zhǔn)分類(lèi)器的準(zhǔn)確率會(huì)隨之降低。在線評(píng)論文本的特征維度小于500時(shí),特征維度的不足導(dǎo)致基準(zhǔn)分類(lèi)器的分類(lèi)準(zhǔn)確率無(wú)法達(dá)到最優(yōu)。特征維度大于500時(shí),特征維度的冗余導(dǎo)致了基準(zhǔn)分類(lèi)器分類(lèi)精度的下降。生成器G輸入特征數(shù)量dG最優(yōu)為500,當(dāng)生成器輸入特征數(shù)量小于500時(shí),輸入特征數(shù)量的不足影響GAN的訓(xùn)練效果,導(dǎo)致GAN生成的特征詞詞向量矩陣不能很好地學(xué)習(xí)評(píng)論數(shù)據(jù)集數(shù)字特征,進(jìn)而降低了基準(zhǔn)分類(lèi)器的準(zhǔn)確率。生成器的輸入特征數(shù)量超過(guò)500時(shí),生成器G的輸入特征數(shù)量的大小對(duì)基準(zhǔn)分類(lèi)器的準(zhǔn)確率沒(méi)有提升。這表明在給定生成器輸出維度的情況下,如果輸入特征數(shù)量超過(guò)其最優(yōu)值,生成器并不會(huì)學(xué)習(xí)到在線評(píng)論更多的特征。判別器的輸入特征數(shù)量dD和在線評(píng)論文本的特征維度l設(shè)置為500時(shí),基準(zhǔn)分類(lèi)器的準(zhǔn)確率達(dá)到最高。判別器的輸入特征數(shù)量小于500時(shí),特征維度的不足會(huì)降低GAN的訓(xùn)練效果進(jìn)而導(dǎo)致基準(zhǔn)分類(lèi)器的分類(lèi)準(zhǔn)確率無(wú)法達(dá)到最優(yōu)。因此,加入更多的特征信息能夠提升基準(zhǔn)分類(lèi)器的分類(lèi)準(zhǔn)確率。判別器的輸入特征數(shù)量大于500時(shí),基準(zhǔn)分類(lèi)器的準(zhǔn)確率會(huì)下降,這是由于特征維度的冗余降低了GAN訓(xùn)練效果,并導(dǎo)致基準(zhǔn)分類(lèi)器準(zhǔn)確率下降。
表2 GAN主要參數(shù)敏感度分析
為解決現(xiàn)階段虛假評(píng)論識(shí)別方法中訓(xùn)練集數(shù)據(jù)貧乏的問(wèn)題,本文在Ott等人采集的數(shù)據(jù)集基礎(chǔ)上嘗試使用生成式對(duì)抗網(wǎng)絡(luò)對(duì)在線評(píng)論數(shù)據(jù)集擴(kuò)充方法進(jìn)行研究。通過(guò)訓(xùn)練生成式對(duì)抗網(wǎng)絡(luò),為虛假評(píng)論識(shí)別模型提供足夠量已標(biāo)注的評(píng)論數(shù)據(jù)來(lái)進(jìn)行模型訓(xùn)練,以此提升虛假評(píng)論識(shí)別的準(zhǔn)確率。本文的貢獻(xiàn)可總結(jié)為兩點(diǎn):
·本文提出了評(píng)論數(shù)據(jù)集擴(kuò)充方法GAN-RDE。通過(guò)合并GAN訓(xùn)練得到的符合評(píng)論特征的向量和初始評(píng)論數(shù)據(jù)集的特征詞詞向量矩陣,生成更多數(shù)據(jù)樣本以擴(kuò)大訓(xùn)練數(shù)據(jù)量。GAN-RDE方法可以很好地解決現(xiàn)階段虛假評(píng)論識(shí)別方法中訓(xùn)練集數(shù)據(jù)貧乏的問(wèn)題。
·本文基于標(biāo)準(zhǔn)評(píng)論數(shù)據(jù)集,借助生成式對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)數(shù)據(jù)集的擴(kuò)充,使得基準(zhǔn)虛假評(píng)論識(shí)別方法準(zhǔn)確率得到提升,因此本文認(rèn)為生成式對(duì)抗網(wǎng)絡(luò)相關(guān)方法和思路對(duì)于虛假評(píng)論研究領(lǐng)域具有一定意義,可以在相關(guān)領(lǐng)域當(dāng)中引入生成式對(duì)抗網(wǎng)絡(luò)相關(guān)方法來(lái)進(jìn)行虛假評(píng)論的識(shí)別和研究。
本文不足之處是沒(méi)有在GAN生成器和判別器中采用更為復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),近年來(lái)生成式對(duì)抗網(wǎng)絡(luò)獲得了深度學(xué)習(xí)領(lǐng)域的廣泛關(guān)注,許多學(xué)者對(duì)其展開(kāi)研究并衍生出了基于生成式對(duì)抗網(wǎng)絡(luò)的復(fù)雜模型,如DCGAN、WGAN等模型[17]。這些復(fù)雜模型在原有生成式對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)了其應(yīng)用范圍,廣泛應(yīng)用在圖像和文本領(lǐng)域,對(duì)本文中訓(xùn)練的模型具有一定改進(jìn)作用,未來(lái)可以采用其它訓(xùn)練模型改進(jìn)評(píng)論數(shù)據(jù)集擴(kuò)充方法,提升實(shí)驗(yàn)效果。