黃欣欣 年梅 胡創(chuàng)業(yè) 范祖奎
摘 ?要: 為了有效地提取評(píng)論文本特征,進(jìn)行虛假信息的檢測(cè),采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行虛假評(píng)論的識(shí)別。文章基于擴(kuò)展Ott黃金數(shù)據(jù)集,通過word2vec將評(píng)論語料轉(zhuǎn)換為詞向量作為CNN的輸入;按照虛假評(píng)論檢測(cè)的實(shí)驗(yàn)效果,確定了卷積神經(jīng)網(wǎng)絡(luò)的向量維度和網(wǎng)絡(luò)深度結(jié)構(gòu),形成卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化模型。在同一數(shù)據(jù)集上與LSTM和GRU算法模型進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)在虛假評(píng)論檢測(cè)中有效。
關(guān)鍵詞: 虛假評(píng)論檢測(cè); CNN; 擴(kuò)展Ott黃金數(shù)據(jù)集; word2vec; 網(wǎng)絡(luò)結(jié)構(gòu)
中圖分類號(hào):TP393 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1006-8228(2019)11-41-05
Abstract: In order to extract the features of comment text effectively and detect false information, this paper uses the method of convolutional neural network to recognize false comment. With the extended Ott gold data set, the comment corpus is converted into the word vector by word2vec as the input of CNN. According to the experimental results of false comment detection, the vector dimension and network depth structure of convolution neural network are determined to form a optimized model of convolution neural network. A comparative experiment on the same data set is carried on with LSTM and GRU algorithm models, the results show that the convolutional neural network is effective in false comment detection.
Key words: false comment detection; CNN; extended Ott gold data set; word2vec; network structure
0 引言
隨著電子商務(wù)的快速發(fā)展,線上購物已經(jīng)成為人們生活中不可或缺的一種購物方式。由于產(chǎn)品評(píng)論和商家銷售額存在很大的利益關(guān)系,因此誘發(fā)部分商家通過不公平的競爭手段構(gòu)造虛假評(píng)論,嚴(yán)重影響了消費(fèi)者的購物體驗(yàn)。虛假評(píng)論是人為的根據(jù)商家需求撰寫的產(chǎn)品評(píng)論,具有迷惑性大、難以識(shí)別的特點(diǎn)。為了提高消費(fèi)者的線上購物體驗(yàn),構(gòu)造公平的電子商務(wù)發(fā)展環(huán)境,迫切需要找到一種有效的虛假評(píng)論檢測(cè)方法來抵制購物平臺(tái)中的虛假評(píng)論,維護(hù)公平穩(wěn)定的購物環(huán)境。
Jindal和Liu[1-2]首次提出了虛假評(píng)論的概念,并將其分為三類:不可靠評(píng)論、無用評(píng)論和品牌評(píng)論。Mukherjee[3]等人采用詞袋特征和詞性特征,使用SVM分類器,在從Yelp網(wǎng)站獲取的酒店和飯店數(shù)據(jù)集上取得了65.6%和67.8%的準(zhǔn)確率。張恒[4]在Myle公布的虛假評(píng)論黃金數(shù)據(jù)集中采用多種提取特征的方法來提取評(píng)論文本特征,然后通過傳統(tǒng)的支持向量機(jī)模型、邏輯回歸模型、隨機(jī)森林模型進(jìn)行建模訓(xùn)練,對(duì)比試驗(yàn)結(jié)果取得了87.4%-90.4%的準(zhǔn)確率。Li[5]等人采用稀疏相加生成模型對(duì)評(píng)論是否為虛假評(píng)論進(jìn)行預(yù)測(cè)。Mukherjee[6]等人利用虛假評(píng)論者發(fā)布評(píng)論的頻率構(gòu)建模型挖掘發(fā)現(xiàn)可能性最大的虛假評(píng)論者。李靜[7]在虛假評(píng)論檢測(cè)中采用了增加主題傾向的詞向量表示方法,提出主題-動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法,取得了83.7%的準(zhǔn)確率。Wang[8]等人提出了一種評(píng)論網(wǎng)的概念,通過研究評(píng)論者,評(píng)論和店鋪三者之間的關(guān)系來構(gòu)建評(píng)論網(wǎng)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)在很多領(lǐng)域中都表現(xiàn)十分優(yōu)異[9]。與普通的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,卷積神經(jīng)網(wǎng)絡(luò)多了一個(gè)特征抽取器由卷積層和子采樣層構(gòu)成,可以有效的提取評(píng)論特征并進(jìn)行識(shí)別,為虛假信息檢測(cè)提供了技術(shù)基礎(chǔ)。
1 卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的改進(jìn),主要由輸入層(又稱嵌入層)、卷積層、池化層和全連接層四個(gè)網(wǎng)絡(luò)層結(jié)構(gòu)組成。經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.1 輸入層
輸入層又稱嵌入層。該層將評(píng)論數(shù)據(jù)數(shù)字歸一化至[0-1]區(qū)間[10],以方便后續(xù)處理。本文首先將擴(kuò)充的ott數(shù)據(jù)集使用Word2Vec詞向量工具進(jìn)行訓(xùn)練,將詞語轉(zhuǎn)換為詞向量的格式。為了保證所有評(píng)論的長度一致,以評(píng)論中最長評(píng)論的詞語數(shù)量為參照,將每個(gè)詞語的詞向量縱向堆疊(不足的補(bǔ)0)和詞向量的維度作為二維矩陣平面實(shí)現(xiàn)定長輸入。
1.2 卷積層和池化層
卷積層的功能是對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,主要包含局部感知野、權(quán)值共享和多卷積核三方面的特性,前兩者可以有效的降低數(shù)據(jù)維度,后者可以再次提取特征。池化層對(duì)卷積層提取的特征再次壓縮提取,保留最顯著的特征進(jìn)行分類,降低特征維度,減少過擬合。常用的池化層策略有兩種,平均值和最大值策略。
雖然本文設(shè)計(jì)的模型相對(duì)與其他模型準(zhǔn)確率有一定的提高,但是本文考慮識(shí)別因素較為單一。下一步作者將會(huì)繼續(xù)研究在虛假評(píng)論檢測(cè)中增加注意力機(jī)制,將評(píng)論文本內(nèi)容、評(píng)論情感極性及程度融合在一起,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行虛假評(píng)論檢測(cè),相信會(huì)取得更佳的效果。
參考文獻(xiàn)(References):
[1] Nitin Jindal and Bing L.iu. Opinion spam and analysis [C].In: Proceedings of the 1st ACM International Conference on Web Search and Data Mining.2008:137-142
[2] Nitin Jindal and Bing Liu. Review spam detection[C]. In: Proceedings of the 2007 International conference on the World Wide Web.2007:1089-1090
[3] Arjun Mukherjee and Vivek Venkataraman and Bing Liu and Natalie Glance.What yelp fake review filter might be doing//Proceedings ofthe International AAAI Conference on Web and Social Media.Washington, USA,2013:409-418
[4] 張恒. 基于深度學(xué)習(xí)的虛假評(píng)論識(shí)別方法研究[D].哈爾濱工業(yè)大學(xué),2017.
[5] Li J,Ott M,Cardie C,et al.Towards a General Rule for Identifying Deceptive Opinion Spam[C]//Meeting of the Association for Computational Linguistics. Bal-timore, MD,USA:Association for Computational Linguistics,2014:1566–1576
[6] Mukherjee A,Liu B,Wang J,et al. Detecting Group Review Spam[A].Proceedings of the20th International Conference Companion on World wide Web[C].ACM,2011: 93-94.
[7] 李靜.基于卷積神經(jīng)網(wǎng)絡(luò)的虛假評(píng)論識(shí)別技術(shù)的研究[D].北京郵電大學(xué),2017.
[8] Wang G,Xie S,Liu B. Review Graph Based Online Store Review Spammer Detection[A]. Data Mining( ICDM) ,2011 IEEE 11th International Conference on[C]. IEEE,2011:1242-1247
[9] Kalchbrenner N,Grefenstette ?E,Blunsom P.A convolutional ?neural ?network ?for ?modelling sentences[J].ar Xiv preprint ar Xiv:1404.2188,2014.
[10] Ng,A.,Kian,K.and Younes,B.Convolutional Neural Networks,Deep learning.Coursera and deeplearning.ai.2018
[11] Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing.2014:1532-1543