劉 杰 付曉東 劉 驪 劉利軍
(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
熱門B2C購物門戶用戶評論質(zhì)量影響因素分析研究
劉 杰 付曉東*劉 驪 劉利軍
(昆明理工大學信息工程與自動化學院 云南 昆明 650500)
用戶的在線評論可以有效地幫助用戶選擇在線商品或服務。然而,熱銷商品的用戶評論數(shù)量極其龐大,同時,這些評論的質(zhì)量參差不齊。因此,評估評論質(zhì)量并挑選出高質(zhì)量的評論變得尤為迫切。目前網(wǎng)站采取邀請用戶人工標注的方式評估評論的質(zhì)量,需耗費用戶大量的時間和精力。為解決這個問題,提出了一個自動化評估評論質(zhì)量的方法。該方法通過應用基于評論與評論者兩類特征的支持向量機(SVM)分類器實現(xiàn)。在國內(nèi)著名在線購物網(wǎng)站京東的評論數(shù)據(jù)上測試了提出的方法。實驗結(jié)果表明評估識別高質(zhì)量評論的準確率達到了87.5%。通過實驗發(fā)現(xiàn),能夠表征評論信息量的詞語數(shù)量和語句數(shù)量特征很好地評估了評論質(zhì)量。而由于來自用戶對商品的反饋信息的貧乏,能夠表征用戶反饋的有用性投票數(shù)量和回復數(shù)量特征并不能很好地評估評論質(zhì)量。在同時結(jié)合評論和評論者特征的基礎上,評估評論質(zhì)量的表現(xiàn)最佳。
在線評論 評論質(zhì)量 支持向量機(SVM)
越來越多的網(wǎng)站支持用戶發(fā)表評論來分享他們的觀點和經(jīng)驗。評論的價值在于其中所包含的描述商品質(zhì)量與屬性信息。文獻[1-2]研究表明評論能夠有效地幫助用戶選擇在線商品或服務。用戶通常在購買商品后就會發(fā)表評論。因此,熱銷商品的評論會達到成千上萬條。然而,由于缺乏對評論內(nèi)容和格式的明確限制,評論的質(zhì)量也是參差不齊。例如,一些用戶在評論中虛夸或詆毀一些商品,一些用戶發(fā)表一些與商品無關的評論。用戶很難快速地從大量的質(zhì)量不一的評論中獲取有用信息。因此,網(wǎng)站迫切需要對評論質(zhì)量進行評估并挑選優(yōu)質(zhì)的評論以提升用戶的在線體驗。大多數(shù)網(wǎng)站通過要求用戶人工標記評論質(zhì)量來解決這個問題。然而,由于用戶不愿意花費大量的時間和精力去人工標記評論質(zhì)量,很多評論并沒有用戶的手動標記結(jié)果。在文獻[3]中還提到了人工手動標記評論質(zhì)量的其他缺點,如標注的不平衡偏向,優(yōu)勝循環(huán)和早循環(huán)偏向。
評論質(zhì)量的評估越來越受到重視。文獻[4]為了實現(xiàn)對亞馬遜的評論質(zhì)量自動評估,主要考量了元數(shù)據(jù)特征和詞典句法特征等。通過實驗發(fā)現(xiàn),評論的長度和評分級別是影響評估評論質(zhì)量的主要特征。文獻[5]用類似的方法研究了在線論壇的評論質(zhì)量評估,并發(fā)現(xiàn)了詞匯特征對評論質(zhì)量評估影響最大。文獻[6]針對亞馬遜網(wǎng)站的圖書商品,通過比較普通評論與最佳評論之間的差距來評估評論的質(zhì)量。文獻中的最佳評論是由一些評論中的高頻詞匯和表征典型特征的詞匯組成的評論。文獻[7]通過結(jié)合經(jīng)濟理論分析和主觀觀點分析去評估亞馬遜網(wǎng)站的評論質(zhì)量,并發(fā)現(xiàn)主觀觀點分析能夠有效地幫助評估評論的質(zhì)量。文獻[8]將用戶在社交網(wǎng)絡中的屬性列入了評估評論質(zhì)量的特征依據(jù),發(fā)現(xiàn)用戶社交特征能夠提升評論質(zhì)量評估的效果。文獻[9]通過人工的有用性標注來評估評論質(zhì)量。文獻[10]將商品類型作為評估評論質(zhì)量的特征依據(jù),發(fā)現(xiàn)對于搜索類商品,評論的深度對于評論質(zhì)量評估的影響效果要勝于其對體驗性商品評論質(zhì)量的評估。文獻[11]運用復雜網(wǎng)絡理論分析了評論有用性與用戶需求的關系,其基礎仍然是評論文本的語義。文獻[12]研究了智能移動設備上的評論內(nèi)容(被定義為輕型評論)與傳統(tǒng)評論的異同點,得出文本中的情感信息對評論的質(zhì)量影響最大。
現(xiàn)階段另一方面的研究則集中在低質(zhì)量的評論檢測。文獻[13]通過語言學和心理學特征檢測發(fā)表虛假觀點的欺詐評論。文獻[14]從欺詐者的角度分析了虛假評論的特征屬性。文獻[15,16]通過定義的非正常模式檢測由欺詐團體發(fā)布的虛假評論。文獻[17]通過特定時間模式來識別單獨的虛假評論。
在現(xiàn)有的評論研究領域,對于評論質(zhì)量評估方面,研究大都局限于考慮評論內(nèi)容本身的詞典或語義等屬性特征,并且存在評論內(nèi)容特征考慮不全或太過冗雜的情況。而對于低質(zhì)量評論檢測方面,研究則局限于考慮評論者的行為屬性特征。
本文提出了同時考慮評論內(nèi)容本身和評論者兩方面屬性特征的,基于支持向量機(SVM)分類器的自動化評論質(zhì)量評估方法。而且全面考慮了評論內(nèi)容本身的各種屬性特征,對于冗雜的屬性特征通過主成分分析進行了精簡。本文還在京東網(wǎng)站的數(shù)據(jù)上測試了提出的方法評估評論質(zhì)量的效果。并分析了不同屬性特征在評論質(zhì)量評估過程中的效果。
為了實現(xiàn)基于不同屬性特征的評論質(zhì)量的自動化評估,并分析不同屬性特征在評估評論質(zhì)量過程中的效果,本文從評論和評論者兩方面考量屬性特征。
1.1 評論特征
評論特征是指與評論相關的屬性特征,包括與評論文本內(nèi)容獨立的元數(shù)據(jù)以及通過文本分析后得到的評論文本數(shù)據(jù)。
時間間隔TP(Time Period):用戶選購商品的時間以及發(fā)表評論的時間均被記錄在網(wǎng)站內(nèi)。這里定義用戶發(fā)表評論與購買商品之間的時間差作為時間間隔TP。時間間隔TP的數(shù)值為天數(shù)的差值。這表明,時間間隔TP數(shù)值越大,用戶發(fā)表評論與購買商品之間間隔的時間越久。通常,用戶在購買并體驗商品一段時間后,才會發(fā)表出高質(zhì)量的評論內(nèi)容。
有用回復數(shù)值HRN(Helpful votes and Reply Numbers):有用性投票(helpful votes)是用戶在閱讀評論后,認為評論是有用高質(zhì)量的,并對評論質(zhì)量手動標注為有用的行為。其數(shù)值是標注評論為有用的用戶的數(shù)量。因此,有用性投票可以作為表征評論質(zhì)量的一個屬性特征?;貜驮u論(reply numbers)是用戶在閱讀評論后,對評論內(nèi)容感興趣,予以回復互動的行為。其數(shù)值為評論獲得回復的數(shù)量。因此,評論回復數(shù)量也可以作為表征評論質(zhì)量的一個屬性特征。
然而,由于手動標注需要耗費用戶大量的時間和精力,大量的評論并沒有獲得任何有用性投票或回復數(shù)量。在京東數(shù)據(jù)集中,只有38%的評論獲得了用戶的有用性投票。而且,只有32%的評論獲得了用戶的評論回復。評論的有用性投票和回復數(shù)量的分布圖分別如圖1和圖2所示。
圖1 有用性投票分布圖
圖2 回復數(shù)量分布圖
據(jù)此,猜測有用性投票數(shù)量和回復數(shù)量具有關聯(lián)性,并通過在實驗數(shù)據(jù)集上進行一個關聯(lián)測試來驗證此猜測。測試結(jié)果如表1所示,該測試結(jié)果表明了有用性投票和回復數(shù)量具有關聯(lián)性。對于已經(jīng)獲得有用性投票或評論回復的評論,其有用性投票或回復數(shù)量數(shù)值大多數(shù)都未超過6。由于有用性投票和回復數(shù)量具有關聯(lián)性,而且數(shù)值都較小,定義有用性投票與回復數(shù)量的和值作為有用回復數(shù)值HRN。
表1 有用性投票與回復數(shù)量的關聯(lián)性測試
詞語與語句數(shù)量WSN(Words numbers and Sentences Numbers):詞語數(shù)量是指評論中包含的各種詞語的數(shù)量總和。詞語種類包括名詞、形容詞、動詞和副詞等,詞語和語句數(shù)量屬性特征的具體定義及含義如表2所示。語句數(shù)量是指評論中包含的語句數(shù)量。評論中包含的詞語和語句數(shù)量越多,用戶從中能獲取的信息也越多。
表2 詞語數(shù)量和語句數(shù)量屬性特征
續(xù)表2
由于統(tǒng)計類型數(shù)據(jù)是由句法類型數(shù)據(jù)計算得到的,統(tǒng)計型數(shù)據(jù)與句法型數(shù)據(jù)具有一定的關聯(lián)性。為了消除這些屬性特征之間的關聯(lián)性,使其變得獨立,對這些屬性特征進行主成分分析,經(jīng)過分析后的主成分之間具有獨立性。統(tǒng)計型和句法型數(shù)據(jù)屬性特征的主成分分析結(jié)果如表3所示。由表可知,統(tǒng)計型和句法型屬性特征經(jīng)過主成分分析得到兩個主成分。其中,第一成分為不同詞性詞語數(shù)量與語句數(shù)量成分,第二成分為嘆詞數(shù)量成分。然而,在數(shù)據(jù)集中,超過95%的評論中并不包含任何嘆詞。因此,我們省掉第二成分(嘆詞數(shù)量成分)對評估評論質(zhì)量的影響。對于第一成分(不同詞性詞語數(shù)量和語句數(shù)量成分),詞語數(shù)量WN包含了不同詞性詞語(如名詞數(shù)量MN,形容詞數(shù)量AN和動詞數(shù)量VN等)。據(jù)此,定義詞語數(shù)量WN與語句數(shù)量SN的和作為詞語與語句數(shù)量WSN的值。
表3 成分矩陣
1.2 評論者特征
評論是由評論者(用戶)發(fā)表的,因此,評論的質(zhì)量也與評論者有著關聯(lián)性。為了更好地評估評論質(zhì)量,需要同時考量評論和評論者兩方面屬性特征。評論者特征是指與評論者(用戶)本身有關的屬性特征。
為了測試基于評論和評論者屬性特征的評論質(zhì)量評估效果,并分析不同特征在評估過程中的重要性,本文爬取了京東購物網(wǎng)站的用戶商品評論數(shù)據(jù)。數(shù)據(jù)的采集是在開源爬蟲軟件Heritrix的輔助下實現(xiàn)的。首先將包含評論的頁面以HTML的格式保存下來,然后通過HTMLParser解析頁面中包含的評論相關的內(nèi)容,并將其保存到SQL Server數(shù)據(jù)庫中。共采集了來自499 253 件商品的用戶評論,其中,由14 250名用戶對6 022件商品發(fā)表的21 501條評論被京東網(wǎng)站標記為優(yōu)質(zhì)評論。
對于每一條評論,獲取以下相關數(shù)據(jù):
(1) 用戶對商品的評分,用于計算評分SR
(2) 用戶購買商品以及發(fā)表評論的時間,用于計算時間間隔TP
(3) 評論獲得的有用性投票以及回復數(shù)量,用于計算有用回復數(shù)值HRN
(4) 評論本身的文本內(nèi)容,用于計算詞語與語句數(shù)量WSN、情感詞語數(shù)量SWN和描述性詞語數(shù)量DWN
(5) 用戶評價的商品的優(yōu)點以及缺點
(6) 用戶對商品標注的標簽
(7) 商品的類別以及名稱(包括商品編號)
(8) 用戶名(包括用戶編號)以及用戶級別,用于計算用戶級別UL
為了獲得評論文本內(nèi)容的統(tǒng)計型和句法型數(shù)據(jù),通過ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)對評論文本進行分詞處理。評論內(nèi)容的情感詞語分析是基于一個包含情感詞語集的HowNet語料庫實現(xiàn)的。在該語料庫中,包含積極與消極的感情,以及積極與消極的評論共四類情感詞語。這里從以下兩個維度分析評論的情感:積極的情感詞語(包含積極的感情和評論)與消極的情感詞語(包含消極的感情與評論)。
為了分析評論文本中的描述性詞語,由以下三部分詞語集組成描述詞語庫:用戶評定的商品優(yōu)缺點文本中包含的名詞、用戶標注的商品標簽文本中包含的名詞以及評論文本內(nèi)容中的高頻名詞。這些名詞描述了商品的品質(zhì)特征以及其他用戶關注的商品屬性。
評論質(zhì)量的評估是通過基于評論和評論者屬性特征的支持向量機(SVM)分類器實現(xiàn)的。支持向量機(SVM)的基本思想是:對于線性不可分的情況,通過定義適當?shù)暮撕瘮?shù),將低維空間線性不可分的樣本轉(zhuǎn)化為高維特征空間,使其線性可分。它是基于結(jié)構(gòu)風險最小化理論之上,在特征空間中構(gòu)建最優(yōu)分割超平面,使得學習器得到全局最優(yōu)化。核函數(shù)的引入,避免了“維數(shù)災難”,減小了計算量,可以有效處理高維輸入。支持向量機避免了局部極小點,并能夠解決過學習問題,具有良好的推廣性和較好的分類精確性。
在數(shù)據(jù)集中,有部分評論被京東網(wǎng)站標記為優(yōu)質(zhì)的。本文假定被京東標記為優(yōu)質(zhì)的評論確實為高質(zhì)量的評論,而未被京東標記為優(yōu)質(zhì)的評論不是高質(zhì)量的評論。在此前提下,評估京東網(wǎng)站的評論質(zhì)量轉(zhuǎn)變?yōu)榕袛嘣u論是否高質(zhì)量的分類任務。
根據(jù)之前章節(jié)對評論和評論者屬性特征的定義,將每一個評論都轉(zhuǎn)化為一個基于評論及評論者屬性特征的向量。并將未在定義時標準化取值范圍為0至1的屬性特征數(shù)值標準化為0至1的取值范圍。
通過網(wǎng)格搜索獲取參數(shù)C(懲罰系數(shù),控制最大分類間隔和最小分類錯誤率之間的平衡。C越大,表示主要把重點放在減少分類錯誤上;C越小,表示主要把重點放在分離超平面上,避免過學習問題)和γ(徑向基核函數(shù)的一個參數(shù),影響SVM性能優(yōu)劣)的最優(yōu)值并執(zhí)行了十折交叉驗證。利用訓練獲取的模型進行測試與預測。
在不同屬性特征組合情況下,評論質(zhì)量評估交叉驗證的平均準確率如表4所示。從表中結(jié)果可以得到,詞語和語句數(shù)量WSN屬性特征在單個屬性特征評估評論質(zhì)量的過程中表現(xiàn)最佳。說明了評論文本中包含的信息量最能直接影響評論質(zhì)量的評估。在單個屬性特征評估評論質(zhì)量的過程中,評分SR、情感詞語數(shù)量SWN和用戶級別UL也表現(xiàn)良好。
表4 不同屬性特征組合情況的評估正確率
然而,有用性投票和回復數(shù)量HRN屬性特征相比較其他屬性特征則表現(xiàn)不佳。有用性投票和回復數(shù)量HRN屬性特征表征著用戶對評論的回饋情況。由于用戶手動標注評論有用性以及回復評論行為耗時,評論獲得的有用性投票以及回復數(shù)量數(shù)據(jù)稀疏。從而導致有用性投票和回復數(shù)量HRN屬性特征表現(xiàn)欠佳。將評論的各元數(shù)據(jù)SR、TP和HRN綜合以及將各文本數(shù)據(jù)WSN、SWN和DWN綜合的情況下,評論質(zhì)量評估的效果相比較考慮單獨屬性特征的效果有所提升。然而,將以上元數(shù)據(jù)與文本數(shù)據(jù)再綜合考慮時,效果卻比單獨元數(shù)據(jù)或文本數(shù)據(jù)組合的情況要差。其原因是因為部分評論的元數(shù)據(jù)屬性特征與文本屬性特征表征的用戶對商品的態(tài)度有偏差。在綜合評論和評論者屬性特征情況下,評估評論質(zhì)量的表現(xiàn)有了顯著的提高。說明評論者屬性特征對于提升評論質(zhì)量的評估有顯著效果。
網(wǎng)站中充斥著大量質(zhì)量不一的評論內(nèi)容。因此,迫切需要評估評論的質(zhì)量并挑選出優(yōu)質(zhì)的評論以改善用戶體驗。然而,大多數(shù)網(wǎng)站目前采取了耗時的邀請用戶人工手動標注評論質(zhì)量的方式來解決上述問題。
本文提出了一種自動化的評論質(zhì)量評估方法。該方法通過基于若干評論和評論者屬性特征的支持向量機(SVM)分類器來實現(xiàn)。文中通過京東購物網(wǎng)站的部分數(shù)據(jù)訓練了SVM參數(shù),并在剩余數(shù)據(jù)上做了測試。測試結(jié)果表明,該方法在評估評論質(zhì)量方面達到了87.5%的準確率。本文還分析了不同屬性特征在評估評論質(zhì)量過程中的重要性。經(jīng)過分析得出,單獨的屬性特征在評估評論質(zhì)量過程中,詞語和語句數(shù)量屬性特征表現(xiàn)最佳。其他的評分、情感詞語數(shù)量和用戶級別屬性特征也表現(xiàn)良好。然而,有用性投票和回復數(shù)量屬性特征由于缺乏用戶的回饋而表現(xiàn)一般??傊?,在同時考慮了評論和評論者大量屬性特征的情況下,評估評論質(zhì)量的表現(xiàn)最優(yōu)。
本文能夠幫助讀者更好地了解不同屬性特征在評估評論質(zhì)量過程中的效果?;诓煌瑢傩蕴卣髟谠u估評論質(zhì)量過程中的重要性,可以有效地對待評估的評論質(zhì)量進行評估。本文主要研究對象為搜索性商品,未來考慮將研究對象轉(zhuǎn)變?yōu)轶w驗性商品,并比較評估體驗性商品與搜索性商品的評論過程中,不同屬性特征的效果。
[1]ChevalierJA,MayzlinD.Theeffectofwordofmouthonsales:Onlinebookreviews[J].Journalofmarketingresearch,2006,43(3):345-354.
[2]DabholkarPA.Factorsinfluencingconsumerchoiceofa“ratingWebsite”:Anexperimentalinvestigationofanonlineinteractivedecisionaid[J].JournalofMarketingTheoryandPractice,2006,14(4):259-273.
[3]LiuJ,CaoY,LinCY,etal.Low-QualityProductReviewDetectioninOpinionSummarization[C]//EMNLP-CoNLL,2007:334-342.
[4]KimSM,PantelP,ChklovskiT,etal.Automaticallyassessingreviewhelpfulness[C]//Proceedingsofthe2006Conferenceonempiricalmethodsinnaturallanguageprocessing.AssociationforComputationalLinguistics,2006:423-430.
[5]WeimerM,GurevychI.Predictingtheperceivedqualityofwebforumposts[C]//ProceedingsoftheConferenceonRecentAdvancesinNaturalLanguageProcessing(RANLP),2007:643-648.
[6]TsurO,RappoportA.RevRank:AFullyUnsupervisedAlgorithmforSelectingtheMostHelpfulBookReviews[C]//ICWSM,2009.
[7] Ghose A,Ipeirotis P G.Designing novel review ranking systems:predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce.ACM,2007:303-310.
[8] Lu Y,Tsaparas P,Ntoulas A,et al.Exploiting social context for review quality prediction[C]//Proceedings of the 19th international conference on World wide web.ACM,2010:691-700.
[9] Danescu Niculescu Mizil C,Kossinets G,Kleinberg J,et al.How opinions are received by online communities:a case study on amazon.com helpfulness votes[C]//Proceedings of the 18th international conference on World Wide Web.ACM,2009:141-150.
[10] Mudambi S M,Schuff D.What makes a helpful review? A study of customer reviews on Amazon.com[J].MIS quarterly,2010,34(1):185-200.
[11] 姜巍,張莉,戴翼,等.面向用戶需求獲取的在線評論有用性分析[J].計算機學報,2013,36(1):119-131.
[12] 張林,錢冠群,樊衛(wèi)國,等.輕型評論的情感分析研究[J].軟件學報,2014,25(12):2790-2807.
[13] Ott M,Choi Y,Cardie C,et al.Finding deceptive opinion spam by any stretch of the imagination[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011.
[14] Lappas T.Fake reviews:The malicious perspective[M]//Natural Language Processing and Information Systems.Springer Berlin Heidelberg,2012:23-34.
[15] Mukherjee A,Liu B,Wang J,et al.Detecting group review spam[C]//Proceedings of the 20th international conference companion on World Wide Web.ACM,2011:93-94.
[16] Mukherjee A,Liu B,Glance N.Spotting fake reviewer groups in consumer reviews[C]//Proceedings of the 21st international conference on World Wide Web.ACM,2012:191-200.
[17] Xie S,Wang G,Lin S,et al.Review spam detection via temporal pattern discovery[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2012:823-831.
[18] Hsu C W,Chang C C,Lin C J.A practical guide to support vector classification[J].Mehdi Namdari,2003.
ANALYSIS ON QUALITY INFLUENCING FACTORS OF USER REVIEWSON POPULAR B2C SHOPPING SITE
Liu Jie Fu Xiaodong*Liu Li Liu Lijun
(FacultyofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500,Yunnan,China)
Users’ online reviews are helpful for users to choose products or service online. However, hot sale products hold a large number of reviews which vary considerably in quality. Thus, it’s urgent to assess the quality of reviews and pick out the high-quality ones. It’s a great waste of time and effort for users who are invited by sites to assess the quality manually at present. In order to solve this problem, a method for automatically assessing the quality of reviews is proposed. The method would be implemented with SVM classifier which is based on reviews and reviewers respectively. The review data on popular domestic online retailer JD.com is chosen to be tested. Experimental results show that the accuracy of high-quality reviews assessing has achieved 87.5%. The experiment proves that the quantity feature of words and sentences which can characterize the amount of information could help assess the reviews’ quality well. However, the performance of usable votes and reply quantity feature didn’t help a lot for its lack of feedback from users. It performs the best when combining both review feature and reviewer feature.
Online review Quality of review Support vector machine (SVM)
2016-02-22。國家自然科學
71161015,61462056,61462051,81560296)。劉杰,碩士生,主研領域:服務計算。付曉東,教授。劉驪,副教授。劉利軍,講師。
TP3
A
10.3969/j.issn.1000-386x.2017.03.012