沈?qū)W利,趙科林,李世銀
(1.中國礦業(yè)大學 信息與控制工程學院,江蘇 徐州 221116;2.遼寧工程技術(shù)大學 電子與信息工程學院,遼寧 葫蘆島 125105)
隨著近年來電子商務(wù)的快速發(fā)展,在線購物成為人們生活中必不可少的部分,由于電商這一在線消費模式的特點,電商平臺上的商品評價成為買家在購物時挑選商品的重要參考。與此同時,大量垃圾評價混雜于真實的評價當中,對買家購物造成干擾,因此電商垃圾評價檢測近年來一直是工業(yè)界和學術(shù)界的研究熱點。
電商評價通常包含文字評價和圖片評價2部分內(nèi)容。評價文本表達了買家對商品的主觀評價,買家對商品的需求存在個體差異,因此文字評價往往帶有一定的主觀色彩,參考價值有限。相比單一的文本評價,真實買家拍攝的商品圖片能夠直接展示出相應(yīng)商品的外觀、結(jié)構(gòu)等客觀要素,與文本評價形成互補的參考信息。因此,包含圖文內(nèi)容的評價相比純文本評價更具有參考價值?,F(xiàn)存垃圾評價檢測方法多根據(jù)評價文本相關(guān)內(nèi)容進行檢測,忽略了評價圖片的重要性,難以區(qū)分出多模態(tài)評價中的虛假評價和廣告評價等垃圾評價。為使買家在線購物決策時得到有效參考,多模態(tài)電商垃圾評價的檢測成為一項重要挑戰(zhàn)。
近年來垃圾評價呈現(xiàn)多元化發(fā)展趨勢,為便于對垃圾評價進行檢測分析,本文將其分為虛假評價、廣告評價、無意義評價3類。
1)虛假評價。多為賣家為提高商品競爭力而進行的“刷單”評價以及“返現(xiàn)”好評,賣家通過刷單提高相關(guān)商品的銷量以及搜索權(quán)重,并對相關(guān)交易填寫夸大性好評欺騙消費者,往往帶有數(shù)張商品圖片,具有較強的迷惑性,嚴重影響買家的購物決策和電商市場的正常競爭。
2)廣告評價。分為真實賣家自己發(fā)送的廣告,和廣告團體大量收購的待評價交易進行的推廣。此類評價出于廣告目的,沒有和賣家有直接或間接的關(guān)系,為了不引起賣家注意往往設(shè)為好評,因不包含有效評價信息對買家的決策造成干擾。具體形式為:評價文本含有誘導推廣信息;與真實評價較為相似或無意義,評價圖片中帶有聯(lián)系方式或推廣鏈接等廣告內(nèi)容。
3)無意義評價。多為買家為了完成評價任務(wù)簡單填寫與商品不相關(guān)的文字和圖片,也包括賣家對單一商品單純“刷量”的交易評價。
針對上述問題,本文分別對評價文字和圖片進行語義特征提取、分類,將圖片和文本的分類結(jié)果輸入圖文融合分類器。圖1為多模態(tài)電商評價。
圖1 多模態(tài)電商評價Fig.1 Multi-modal e-commerce reviews
垃圾評價檢測目前主要作為一項自然語言處理任務(wù)來研究。文獻[1]最早提出了垃圾評價檢測問題,采用邏輯回歸模型分析了amazon.com中用戶、商品以及評價內(nèi)容的關(guān)系,對其中580萬條評價進行檢測分類。文獻[2]提出避免對評價文本內(nèi)容的自然語言處理,采用以用戶為中心、用戶行為驅(qū)動的垃圾評價檢測方法,在亞馬遜評價數(shù)據(jù)集上進行了實驗。
文獻[3]首次分析了美國評價托管網(wǎng)站yelp.com過濾虛假評價的方法,利用yelp.com過濾虛假評價訓練有監(jiān)督機器學習模型,評估了n-gram語言特征、行為特征的檢測性能。文獻[4]使用RNN(recurrent neural network)生成虛假評價,通過了美國評價托管網(wǎng)站yelp.com人工檢查,并提出了基于語言特征的機器學習識別方案,在包含12萬條機器生成的虛假評價和yelp.com上12萬條真實評價的數(shù)據(jù)集上進行訓練,取得了優(yōu)于邏輯回歸方法的結(jié)果。文獻[5]將垃圾評價檢測問題定義為用戶評價-產(chǎn)品的網(wǎng)絡(luò)分類任務(wù),使用評價的評分、時間戳和文本數(shù)據(jù)來提取分類特征,并收集了yelp.com餐廳評價數(shù)據(jù)集,命名為Yelpchi、Yelpnyc和Yelpzip總計458 565條評價,分類網(wǎng)絡(luò)通過半監(jiān)督學習在此數(shù)據(jù)集上取得了較好效果。
文獻[6]使用基于PU-Learning(learning from positive and unlabled example)的算法,從少量的正向酒店評價樣本和一組無標簽數(shù)據(jù)中學習,在大量的真實評價數(shù)據(jù)集上取得了84%的F分數(shù)。文獻[7]大規(guī)模分析了大眾點評的虛假點評過濾系統(tǒng)的餐廳點評,在大眾點評垃圾評價檢測系統(tǒng)帶有虛假評價標簽的大規(guī)模真實餐廳評價數(shù)據(jù)集中取得了較好的效果。支持向量機(support vector machine, SVM)和樸素貝葉斯(na?ve Bayes, NB)等標準機器學習算法也可用于處理評價文本數(shù)據(jù),文獻[8]在此基礎(chǔ)上研究了多種標準NLP預處理步驟組合以及多種分類算法對垃圾評價檢測準確性的影響。文獻[9]通過構(gòu)建多種評價特征,使用NB和SVM算法對所提出的模型進行訓練,取得了優(yōu)于人工識別的性能。
文獻[10]提出了一種復雜的概率圖分類方法,利用文本特征學習概率圖節(jié)點的多模態(tài)嵌入表示訓練一個具有注意機制的神經(jīng)網(wǎng)絡(luò),并構(gòu)建了分別由97 839篇餐廳評價和31 317篇酒店評價組成的真實數(shù)據(jù)集,通過基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的先驗計算檢測垃圾評價。近年來,層次注意力神經(jīng)網(wǎng)絡(luò)用于挖掘評價文本的多方面信息,取得了優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的效果[11-12]。
以上研究主要采用自然語言處理技術(shù)對文本評價進行檢測,取得了一定的成果,但主要研究對象為酒店、餐廳英文文本評價,僅面向評價文本進行檢測的方法難以正確判斷多模態(tài)的商品評價,不足以應(yīng)對當前國內(nèi)電商評價復雜情形。為解決這一問題,本文采用圖文信息融合的方法來處理多模態(tài)電商評價。
近年來情感分類任務(wù)初步涉及圖文信息的處理。文獻[13]提出了一種基于圖像-文本一致性的多模態(tài)情緒分析方法,提取網(wǎng)絡(luò)帖子中的文本特征、視覺特征和圖文相似度特征訓練機器學習模型,實現(xiàn)了圖文帖子更準確的情感分析。文獻[14]使用通用的特征層融合分類模型和算法,特征層采用不同的分類算法處理文本和圖像信息,再由融合層對特征層的結(jié)果進行處理,有效提高了文本分類精度。文獻[15]提出了基于特征空間映射和支持向量機的語義關(guān)聯(lián)識別方法,用于深入理解圖文微博的語義,首先提取了圖文微博的文本語言特征、視覺特征和社會特征,將特征從不同的特征空間投影到統(tǒng)一的特征空間。最后在統(tǒng)一的特征空間中構(gòu)造了基于支持向量機的語義相關(guān)識別模型,有效識別了微博的圖像-文本語義關(guān)聯(lián)。文獻[16]利用視覺注意機制和語義注意機制的混合融合框架來進行圖文情感分析,提出了一種深度多模態(tài)注意力融合方法,采用2個獨立的單模態(tài)注意模型,分別對視覺信息和文本信息學習有效的情感分類器,再和中間融合的多模態(tài)注意模型進行聯(lián)合決策,取得了較好的情感分類性能。以上研究結(jié)果說明了多模態(tài)數(shù)據(jù)融合的研究價值。
考慮到以往的垃圾評價檢測對象沒有涉及帶有圖片的多模態(tài)評價內(nèi)容,本文設(shè)計了端到端的圖文決策融合評價分類模型,對多模態(tài)電商評價進行全面表征分類。
具有一定參考價值的商品評價通常包括文字和圖片評價,為共同檢測某商品單條評價的文本和圖片內(nèi)容,本文提出的圖文決策融合分類模型如圖2。模型由3部分組成:評價文本分類器、評價圖片分類器和決策融合分類器。首先,模型對評價的評價文本和圖像內(nèi)容分別進行編碼、特征提取、分類。然后,評價文本和評價圖片的分類結(jié)果(分別定義為CT、CI)輸入到?jīng)Q策融合分類器,經(jīng)過分類特征的組合最終輸出評價的最優(yōu)分類結(jié)果C。
圖2 決策融合分類模型Fig.2 Decision fusion classification model
本文所研究的電商評價分析不僅用于買家決策參考,也可作為電商平臺的管理意見。為此,本文將評價文本分為虛假評價、廣告評價、無意義評價和有效評價,對評價文本進行語義特征提取、分類。
近年來自然語言處理領(lǐng)域研究熱點轉(zhuǎn)向通用的預訓練深度語言表示模型[17-20],超大規(guī)模神經(jīng)網(wǎng)絡(luò)模型在海量無標簽數(shù)據(jù)的基礎(chǔ)上進行預訓練,從而獲得具有強大語義表征能力的模型,最終在實際任務(wù)中微調(diào)以實現(xiàn)遷移學習,降低了下游任務(wù)的訓練代價并取得良好效果。文獻[21]在此基礎(chǔ)上提出了雙向語言表示模型(bidirectional encoder representations from transformer,BERT),具有良好的語義表征性能。文獻[22]基于BERT在多元文本分類任務(wù)中取得了較好效果。文獻[23]針對多元分類任務(wù)微調(diào)先進的預訓練語言模型,結(jié)果表明,BERT的遷移學習魯棒性優(yōu)于高性能模型XLNet[24]。綜上,本文使用BERT預訓練模型提取評價文本中的語義特征,表示為文本嵌入向量V,然后輸入到分類器中進行微調(diào),輸出文本評價分類結(jié)果。
BERT是基于Transformer[25]的雙向語言編碼表示模型,不同于具有循環(huán)網(wǎng)絡(luò)的RNN,其中的Transformer完全基于注意力的序列轉(zhuǎn)換模型,取代循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)中循環(huán)層帶有多頭自注意力的編碼解碼結(jié)構(gòu)來對文件進行表示,比循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)具有更快的訓練速度。近年來注意力機制[26]成為多種任務(wù)序列建模的重要組成部分,但它沒有形成輸入和輸出序列中的遠距離依賴關(guān)系[27],文獻[25]提出的Transformer模型架構(gòu)如圖3,輸入和輸出之間的全局依賴關(guān)系完全基于注意力機制來構(gòu)建。
圖3 Transformer編碼器Fig.3 Transformer encoder
編碼器中輸入序列經(jīng)過向量嵌入、位置編碼后進入自注意力層,編碼器采用多頭自注意力使模型具有注意多個位置的能力,從而在自注意力層實現(xiàn)多個表征子空間以表征序列多方面的語義信息,表示為
MultiHead(Q,K,V)=Concat(head1,…,headn)WO
(1)
解碼器比編碼器增加了掩蔽多頭注意力,確保某位置預測只依賴于之前的已知輸出,最后通過線性層連接softmax函數(shù)輸出概率。
BERT模型可以高效表征文本句子,本文將評價的文本作為BERT模型的輸入,提取文本評價中的語義特征,再微調(diào)模型對評價進行分類,分類結(jié)果作為融合分類器的輸入。BERT模型實現(xiàn)了一種稱為掩蔽語言模型的技術(shù),對于本文輸入的一對文本,它在第1段文本的開頭插入一個特殊的分類符[CLS],在兩端文本之間和第2段末尾插入一個特殊的分離符[SEP],并隨機在序列中選擇15%的詞被[MASK]替換,然后輸入深度雙向Transformer編碼器。預訓練過程的主要任務(wù)之一是根據(jù)上下文單詞來預測這些被掩蔽掉的單詞。
BERT模型通過融合上下文預訓練過程學習高級語義信息特征。垃圾評價的評價文本各有其不同的語義和風格特征,本文將評價文本輸入到編碼器中,提取虛假評價和廣告評價等評價內(nèi)容中含有的語義特征。
本文采用BERT-wwm-ext[28]作為預訓練模型,與原版隨機選取單詞字段掩蔽不同,使用了全詞掩蔽技術(shù)對中文文本進行了全詞掩蔽訓練。其結(jié)構(gòu)與原版相同,它由一個帶有12層Transformer編碼器組成。對于編碼器中的每個塊,包含12層自注意層和768層隱藏層,共產(chǎn)生1.1億參數(shù)。在BERT模型的基礎(chǔ)上加入一個標準的softmax層來預測標簽c的概率為
P(c|s)=softmax(W·h+b)
(2)
(2)式中:W為權(quán)重矩陣,b為待估計的偏置向量。分類層的參數(shù)矩陣W∈K×H,K為分類標簽數(shù)。
Softmax函數(shù)定義為
(3)
然后,根據(jù)域內(nèi)數(shù)據(jù)通過最大化交叉熵對參數(shù)進行微調(diào)。微調(diào)完成后使用保存的模型對評價進行語義分類,將輸出的4維向量中值最大的類別作為分類結(jié)果,CT={P1,P2,P3,P4}分別表示評價語義的類別為虛假評價,廣告評價,無意義評價,有效評價。
隨著神經(jīng)網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)能夠提取更復雜的特征,但也伴隨著網(wǎng)絡(luò)性能退化的問題。殘差網(wǎng)絡(luò)的出現(xiàn)改善了深層神經(jīng)網(wǎng)絡(luò)訓練中性能退化的問題,在圖像處理領(lǐng)域得到廣泛應(yīng)用[29]。寬卷積殘差網(wǎng)絡(luò)(wide residual network,WRN)通過增加殘差網(wǎng)絡(luò)卷積層的寬度提高了網(wǎng)絡(luò)的表征能力[30]。本文使用寬卷積殘差網(wǎng)絡(luò)模型WRN-28-10對評價圖片進行端到端的學習,WRN-28-10利用加寬的卷積層來學習復雜的特征,以較淺的網(wǎng)絡(luò)實現(xiàn)了比深層卷積網(wǎng)絡(luò)更強的表示學習能力,訓練難度小且不易發(fā)生梯度消失現(xiàn)象。本文采用寬卷積殘差網(wǎng)絡(luò)對評價圖像進行分類,由于虛假評價附帶的商品圖片與真實買家所發(fā)布的商品圖片極為相似,本文將評價圖片標簽設(shè)置為商品圖片,廣告圖片和無關(guān)圖片3類。WRN-28-10網(wǎng)絡(luò)結(jié)構(gòu)如表1。
表1 WRN-28-10網(wǎng)絡(luò)結(jié)構(gòu)
WRN-28-10包含28個卷積層,卷積核大小為3×3,寬度系數(shù)為10,卷積層輸出到8×8的全局平均池化層,最后由640×3的全連接層輸出到softmax進行分類預測。
其中殘差塊表示為
y=F(x,{Wi})+x
(4)
(4)式中:x和y為層間輸入和輸出向量;函數(shù)F(x,{Wi})表示所學習的殘差映射。與普通卷積層不同的是,通過構(gòu)建恒等映射來保持網(wǎng)絡(luò)梯度傳播,殘差網(wǎng)絡(luò)單元之間直接連接,前向和反向信號直接傳播,保持了卷積網(wǎng)絡(luò)中信息傳播的有效性。殘差塊結(jié)構(gòu)如圖4。
圖4 殘差塊結(jié)構(gòu)Fig.4 Residual block structure
殘差單元結(jié)構(gòu)為BN-ReLU-Dropout-Conv-BN-ReLU-Dropout-Conv。BN(batch normalization)為批量歸一化操作,用于保持各層網(wǎng)絡(luò)的輸入分布相同,ReLU(rectified linear unit)為激活函數(shù),Conv表示卷積層,為防止過擬合在各個殘差支路中的卷積層之間加入dropout層,dropout比例為0.3。
在WRN-28-10的模型上進行修改,設(shè)計最后的全連接層的輸出維度為3,連接softmax函數(shù)進行3分類預測。將任意K維實數(shù)向量x映射為0~1之間的K維實數(shù)向量σ(x),將K設(shè)置為3進行分類,輸出得到分類結(jié)果CI={Q1,Q2,Q3}來分別表示類別為商品圖片、廣告圖片和無關(guān)圖片3種類型的圖片,Q1+Q2+Q3=1,取值最大的類別作為該圖片分類結(jié)果。當評價包含多個圖片時,最終結(jié)果按照廣告圖片、商品圖片和無關(guān)圖片的順序判定,若存在該類圖片則評價的圖片內(nèi)容判定為此類。
考慮到電商垃圾評價的圖片和文本內(nèi)容的語義難以直接聯(lián)系,本文將單條評價的評價文本和圖像分別輸入文本分類器和圖像分類器,經(jīng)過向量化,特征提取分類后,得到其文本類別CT和圖片類別CI輸出。決策融合分類器對兩方面輸入向量的最大概率類別進行決策融合分類,決定該商品評價最終類別C={1,2,3,4},分別表示評價類別為虛假評價,廣告評價,無意義評價,有效評價。
決策融合分類器由基于啟發(fā)式規(guī)則決策樹實現(xiàn),針對目前電商評價的多樣性,通過分析現(xiàn)有實際評價數(shù)據(jù),本文對評價圖片和文本的分類結(jié)果決策融合規(guī)則約定如表2。
通過以上規(guī)則給出融合分類決策樹如圖5。
表2 圖文決策融合規(guī)則
圖5 融合分類決策樹Fig.5 Classification fusion decision tree
為驗證本文垃圾評價檢測方法的有效性,本文在電商真實評價數(shù)據(jù)上進行實驗。分別評估了單獨評價文本分類器和圖文融合決策分類的垃圾評價檢測性能。實驗GPU為NVDIA GeForce GTX 1060 3GB,實驗首先將評價數(shù)據(jù)分為文本數(shù)據(jù)集和圖片數(shù)據(jù)集,其中每條評價的文本和圖片保持原始對應(yīng)關(guān)系,分別帶有自身類別標簽和評價總體標簽,然后將2個數(shù)據(jù)集分別輸入評價文本分類器和圖像分類器進行訓練、測試,訓練完成后重新隨機選取測試集進行分類,分類結(jié)果輸入決策融合分類器,計算評價最終類別。分類器使用準確率(Accuracy)、精準率(Precision)、召回率(Recall)和F1值作為分類性能評價指標,分別表示為
(5)
(6)
(7)
(8)
(5)—(7)式中:TP表示分類器將評價正確分為該類的個數(shù);TN表示分類器將評價正確分為別類的個數(shù);FP表示分類器將評價錯誤分為該類的個數(shù);FN表示分類器將評價錯誤分為別類的個數(shù)。為驗證評價分類有效性,按各類別比例將評價分別隨機選取30%作為測試集,剩余70%作為訓練集。
目前虛假評價檢測對象主要為文本評價數(shù)據(jù),尚無公開的多模態(tài)電商評價數(shù)據(jù)。本文使用爬蟲程序?qū)μ詫毦W(wǎng)當季銷量排名靠前的女裝單品的有圖評價進行爬取,獲得5 602條包含文字和圖片的評價。由于評價產(chǎn)生的特殊性,各類評價數(shù)據(jù)分布不平衡,具體分布情況如表3、表4。其中單條評價的文本最多500個字符,單條評價包含1—5張圖片。然后對評價進行人工標注,每條評價文本標注語義標簽和評價標簽,對應(yīng)圖片只標注語義標簽,具體標注策略遵循表2。
表3 電商文本評價數(shù)據(jù)集
表4 電商圖片評價數(shù)據(jù)集
本文評價分類器基于tensorflow框架,使用中文預訓練的語義表示模型BERT-wwm-ext[21]在淘寶數(shù)據(jù)集上進行微調(diào),修改分類模型的數(shù)據(jù)處理模塊和分類器輸出類別為P1,P2,P3,P4共4類,文本序列最大長度為128,超出范圍的進行截斷處理。訓練的batchsize設(shè)置為3,dropout率設(shè)置為0.3,使用Adam優(yōu)化算法反向傳播,初始學習率為2e-5,訓練周期(epochs)為3。最終將分類結(jié)果輸出為語義類別向量CT,作為決策融合分類器的輸入。
評價圖像分類器為基于pytorch框架的WRN-28-10殘差網(wǎng)絡(luò)。在輸入評價圖片前將其大小統(tǒng)一調(diào)整為224×224,設(shè)置訓練參數(shù)如下:batchsize為1,固定動量為0.9,學習率為0.01,衰減因子為0.1,訓練100個周期。WRN中殘差塊的卷積層之間加入30%隨機失活量。使用SGD優(yōu)化算法訓練網(wǎng)絡(luò),應(yīng)對單條評論的圖片數(shù)量不同的問題,采用基于優(yōu)先級的分類策略,分類優(yōu)先級從高到低依次為廣告圖片、商品圖片、無關(guān)圖片,評價圖片分類結(jié)果輸出為向量CI。文本和圖像分類器訓練完成后,決策樹融合分類器根據(jù)CT和CI預測評價最終類別C。
由于評價數(shù)據(jù)分布不平衡,為綜合評價各類別的分類性能,最終分類使用Micro-F1作為評價指標[31]。
表5分別給出了不同分類模型在多模態(tài)電商評價數(shù)據(jù)集上各類別的分類Micro-F1,可以看出,面向評價文本的垃圾評價檢測分類方法的分類準確率要明顯低于評價圖文決策融合分類,特別是在樣本數(shù)據(jù)不平衡的分類任務(wù)上,本文提出的決策融合分類模型在多模態(tài)評價數(shù)據(jù)集上分類的Micro-F1比評價文本分類方法提高了3.04%,驗證了本文評價圖文決策融合分類策略的有效性。
表5 不同方法對比
表6為使用評價文本分類方法對多模態(tài)評價評價數(shù)據(jù)的分類結(jié)果,表7為決策融合分類結(jié)果。與面向評價文本的分類模型相比,圖文決策融合分類模型的評價分類精度明顯提高,其中虛假評價檢測的精準率提高4.44%,召回率提高2.12%,Micro-F1提高3.67%。樣本數(shù)量較少的廣告評價檢測的精準率提高9.52%,召回率提高21.57%,Micro-F1提高14.96%,無意義評價檢測的精準率提高9.81%,召回率提高12.91%,Micro-F1提高11.42%??梢钥闯觯瑘D文決策融合分類方法能夠有效檢測出不平衡數(shù)據(jù)集中的廣告評價和無意義評價,證明了評價圖片在多模態(tài)垃圾評價檢測分類中起著至關(guān)重要的作用。
表6 評價文本分類結(jié)果
表7 決策融合分類結(jié)果
本文首先對多模態(tài)真實電商評價進行抓取,然后對圖片與文本的語義類別和總體評價進行人工標注,構(gòu)建標注的多模態(tài)電商評價數(shù)據(jù)集。利用雙向編碼表示模型對評價文本語義進行分類,并使用寬殘差網(wǎng)絡(luò)對評價圖片語義進行分類,二者分類結(jié)果輸入基于啟發(fā)式規(guī)則決策樹的決策融合分類器。最后,融合文本和圖片分類結(jié)果對評價整體最終分類。實驗結(jié)果表明,該方法能夠?qū)Χ嗄B(tài)電商垃圾評價進行有效檢測。
本文涉及文本和圖像處理研究,需要大量數(shù)據(jù)支持,由于電商平臺限制,本文數(shù)據(jù)較為有限。未來將擴展評價檢測領(lǐng)域,利用大規(guī)模數(shù)據(jù)集深入分析評價文本和圖像之間的語義關(guān)系,進一步提高多模態(tài)垃圾評價檢測性能。