□王 樂 張紫瓊 崔雪瑩
[1. 西安交通大學(xué) 西安 710061;2. 哈爾濱工業(yè)大學(xué) 哈爾濱 150001]
隨著互聯(lián)網(wǎng)的普及和物流行業(yè)的高速發(fā)展,電子商務(wù)得到了蓬勃發(fā)展。國家統(tǒng)計局數(shù)據(jù)顯示,2020年全國社會消費品零售總額下降3.9%;而線上零售額增長10.9%,達到11.8萬億元①。網(wǎng)上交易突破了時間和空間的限制,但買賣雙方的信息不對稱會阻礙交易的進行。為了應(yīng)對網(wǎng)上交易的信息不對稱問題,各大電商平臺建立了評價反饋機制,評價累積形成賣方的“聲譽”[1]。然而,虛假評論的出現(xiàn)嚴重影響了在線評論對產(chǎn)品質(zhì)量的診斷力。據(jù)中國互聯(lián)網(wǎng)協(xié)會發(fā)布的《中國網(wǎng)民權(quán)益保護調(diào)查報告》[2]顯示,72.7%的消費者遭遇過虛假評論的侵害,虛假評論嚴重影響了消費者的購買決策。Luca和Zervas[3]指出,美國著名餐飲點評網(wǎng)站Yelp上16%的評論為虛假評論,Amazon上該比例更是高達42%。
虛假評論增加了消費者的信息搜索成本、商家的銷售成本和平臺的運營成本。鑒于虛假評論的危害,學(xué)術(shù)界和業(yè)界紛紛研究如何識別和過濾虛假評論。Jindal等[4]首次提出運用有監(jiān)督學(xué)習(xí)的方法對評論進行分類,以此區(qū)分虛假評論和真實評論。此后大量研究聚焦于虛假評論的特征并開發(fā)了相應(yīng)的算法。例如,Ott等[5]創(chuàng)建了第一個大規(guī)模、可公開獲取的虛假評論研究數(shù)據(jù)集,并專門聚焦于偽裝成真實評論的、迷惑性較高的虛假評論文本的識別。除評論文本特征外,Lim等[6]提出通過行為特征識別虛假評論者,從而間接識別虛假評論。Mukherjee等[7]進一步提出虛假評論群組的檢測方法。上述研究從不同的方面對虛假評論的識別和過濾進行了系統(tǒng)的研究,但是仍然有一些關(guān)鍵的問題懸而未決。
首先,以往文獻主要關(guān)注虛假評論的“事后”識別和過濾,對虛假評論的“事先”預(yù)防關(guān)注不足。學(xué)者們競相開發(fā)新的識別算法,各大平臺也都開發(fā)了相應(yīng)的虛假評論過濾系統(tǒng)。例如,Amazon開發(fā)FakeSpot去識別過濾虛假評論。然而該平臺虛假評論的占比由2019年的36%升至2020年的42%[8]??梢?,虛假評論的事后過濾并不能完全杜絕虛假評論。
其次,雖然現(xiàn)有研究從不同角度研究了虛假評論的識別算法,但這些算法對虛假評論的識別精度有待提高。Emerson等[9]使用不同類型的算法和數(shù)據(jù)集,對各種虛假評論識別算法的速度和識別率進行了評估。結(jié)果發(fā)現(xiàn),各種虛假評論識別算法的正確識別率均介于32%~43%。Yelp的Ghost Algorithm程序每年會過濾掉近11%的虛假評論,然而Luca和Zervas[3]指出,Yelp上虛假評論的比例超過16%,這意味著約5%的虛假評論未被識別。
本文的文獻主要來源于中國知網(wǎng)和Web of ScienceTM數(shù)據(jù)庫。虛假評論的相關(guān)研究,起源于Jindal等[4]。因此,本文將文獻檢索時間范圍設(shè)定為2007年(1月1日)~2021年(8月31日)。文獻的搜索和篩選采用關(guān)鍵詞檢索和回溯法相結(jié)合的檢索方法。
中文文獻的收集首先以“虛假評論”為關(guān)鍵詞在中國知網(wǎng)上進行初步檢索,然后在梳理和閱讀文獻過程中不斷擴充關(guān)鍵詞庫,最終確定的關(guān)鍵詞包括:虛假評論、垃圾評論、欺詐虛假評論、異常評論、虛假評論檢測、虛假評論識別、虛假評論者檢測、虛假評論群組檢測。接下來按照選定的關(guān)鍵詞逐一搜索,并人工檢查文章標題、關(guān)鍵詞、摘要等,將檢索結(jié)果中重復(fù)或不符合研究主題的文章剔除。
英文文獻的搜集思路類似:首先以關(guān)鍵詞review spam為起點在Web of ScienceTM數(shù)據(jù)庫中進行初步檢索,然后逐漸擴充關(guān)鍵詞庫,最終確定的關(guān)鍵詞包括:review spam、fake review、opinion spam、deceptive review、review manipulation、spam detection、spam filtering、review spammer、spammer group。接下來,按照關(guān)鍵詞庫進一步檢索。
同時,以Jindal等[4]的文章為起點,運用回溯法對其被引文獻以及被引的被引進行搜索,與根據(jù)關(guān)鍵詞搜索到的文獻進行比對。最終得到中文文獻186篇,英文文獻284篇(表1)。
國外對于虛假評論識別的研究起步較早。Jindal等[4]對虛假評論加以界定,并提出運用機器學(xué)習(xí)模型對虛假評論進行分類,為該領(lǐng)域的學(xué)術(shù)研究提供了新的視角。此后相關(guān)研究進入快速增長階段,且至今仍保持著持續(xù)增長的態(tài)勢。近年來,虛假評論相關(guān)研究的領(lǐng)域越來越廣泛,研究的視角也更加多樣。國內(nèi)對于虛假評論識別的研究起步相對較晚,但發(fā)展更為迅速,在2019年達到近幾年峰值40篇(圖1)。國內(nèi)在研究虛假評論識別技術(shù)的同時,更能緊密結(jié)合中文語言表達、中國人行為方式以及電商平臺的運作等特點,由此得到更好的研究成果。
表 1 文獻主要分類
中文文獻主要集中在學(xué)位論文(52%)和計算機領(lǐng)域的學(xué)術(shù)期刊(21%),經(jīng)濟管理和情報學(xué)領(lǐng)域的學(xué)術(shù)期刊雖然有所涉及,但沒有形成群聚效應(yīng),總體發(fā)文量不高。而英文文獻分布相對比較均衡,在計算機(42%)、經(jīng)濟管理(24%)、數(shù)學(xué)(19%)、電信(11%)領(lǐng)域都有所關(guān)注。
近年來虛假評論的文獻數(shù)量不斷增加,研究議題也不斷豐富。為系統(tǒng)性總結(jié)現(xiàn)有研究的進展,解決開篇提到的爭議,發(fā)掘未來的研究方向,本文構(gòu)建了一個虛假評論的理論分析框架。在管理與行為科學(xué)研究領(lǐng)域中常用的ABC(Antecedents-Behavior-Consequences,前因-行為-結(jié)果)分析范式的基礎(chǔ)上,本文整合了虛假評論的特征和識別算法,以幫助我們更為系統(tǒng)地了解虛假評論的前因后果。這一模型主要包含5個知識模塊,各個知識模塊之間的邏輯聯(lián)系見圖2。
圖 1 國內(nèi)外發(fā)文趨勢
圖 2 虛假評論相關(guān)研究框架
廣義上來講,虛假評論通常是指與商品本身特征不相符的評論[10],包含“虛”—沒有任何價值的無關(guān)評論和“假”—與事實不符的捏造評論[11]。Jindal等[4]依據(jù)評論者表達觀點的真實性、評論內(nèi)容與產(chǎn)品的相關(guān)性對虛假評論進行界定。一是不真實評論,即內(nèi)容相關(guān)但觀點不真實的評論,包括為自身利益而發(fā)布的正面不實評論和為損害對手聲譽而發(fā)表的負面不實評論。二是無關(guān)評論,包括僅針對品牌的評論以及不包含任何觀點的評論,如產(chǎn)品的廣告宣傳和功能介紹或來自對手的相似產(chǎn)品宣傳等。由于這類評論很容易被閱讀者識別,所以文本對于消費者決策影響較小,但是會對系統(tǒng)的評論評級產(chǎn)生影響。狹義的虛假評論通常指評論者出于某種目的發(fā)表的,與產(chǎn)品事實不符的評論[12~13]。此類評論通常是商家或者消費者(發(fā)泄不滿或索要補償)為影響消費者決策而發(fā)表的虛假好評或差評。狹義的虛假評論對消費者的決策影響較大且不易被識別。因此,本文重點關(guān)注狹義虛假評論的識別和過濾。
根據(jù)評論是否通過欺騙消費者,進而對消費者決策造成影響,Ott等[5]將虛假評論歸為兩類。一是破壞性評論,其評論本身難以誤導(dǎo)消費者,但降低了評論信息質(zhì)量,甚至影響整體評分和排名;二是欺騙性評論,指為欺騙消費者故意編造的過度夸贊或過分貶低的評論內(nèi)容,其目的是引導(dǎo)消費者決策。還有研究將其進一步細分,從信息有用性角度將虛假評論劃分為四類[14]。一是推銷、詆毀性評論,即為推銷自身產(chǎn)品或詆毀其他品牌而發(fā)布的不真實評論,其目的是影響消費者觀點和行為決策以實現(xiàn)自身利益;二是干擾性評論,包括品牌宣傳、產(chǎn)品介紹、廣告鏈接等參考價值很低甚至沒有任何參考價值的評論信息,主要用于干擾消費者獲取有效信息或者干擾系統(tǒng)的識別;三是無意義評論,其內(nèi)容未傳遞任何有用信息,如敷衍性的評論或單純的情緒宣泄等;四是系統(tǒng)評論,即具有默認好評機制的平臺,在消費者一段時間沒有給出評論后自動生成好評,該評論對用戶來說沒有任何參考價值。此外,還有學(xué)者根據(jù)發(fā)布虛假評論的類別將虛假評論者劃分為兩類[15]。第一類是隨機虛假評論者,其發(fā)表的內(nèi)容沒有任何參考價值,雖然可能不是出于惡意的目的,但降低了評論信息質(zhì)量;第二類是惡意虛假評論者,出于自身目的故意制造與產(chǎn)品事實不符的評論,來詆毀商家聲譽、誤導(dǎo)消費者決策。
要識別和過濾虛假評論,首先要了解虛假評論如何產(chǎn)生。以往文獻從以下幾個方面討論了虛假評論的起源。
1. 為什么會產(chǎn)生虛假評論(Why)
從宏觀上來講,注入虛假的評分能夠提高整體評分水平,從而提升商品的排名,使得商家獲得更多的網(wǎng)絡(luò)流量和點擊率[16~17]。一般來說,消費者在搜索目標產(chǎn)品時,平臺會根據(jù)產(chǎn)品的評分排名或者銷量排名依次展示商品信息,而排在商品首頁的商家占據(jù)了80%~90%的網(wǎng)絡(luò)流量[18]。大量的實證研究證明網(wǎng)絡(luò)流量和產(chǎn)品銷量之間存在正相關(guān)關(guān)系[19~21],因而評分和排名對于商家來說至關(guān)重要。因此,商家選擇采取不正當?shù)母偁幏绞?,通過增加自身的高分好評或競爭對手的低分差評,來提高產(chǎn)品整體得分和排名,增加產(chǎn)品曝光度,進而提升銷量。
從微觀上來講,虛假評論的內(nèi)容可以通過影響產(chǎn)品口碑、商家聲譽,進而對消費者決策產(chǎn)生影響。評論評分是以往消費者對產(chǎn)品總體質(zhì)量的一個數(shù)字化的評價,而評論的文本內(nèi)容則包含了消費者的主觀感受、情感傾向、使用心得、產(chǎn)品優(yōu)缺點、商家服務(wù)等信息。相比于評論評分,評論內(nèi)容表達的信息量更加豐富,所以大部分消費者在挑選產(chǎn)品時,會參考以往消費者對產(chǎn)品的評價[22~23]。因此,商家試圖利用大量正面評論夸大產(chǎn)品質(zhì)量,建立正面口碑,或發(fā)布負面評論詆毀競爭對手產(chǎn)品,形成負面口碑,從而引導(dǎo)甚至轉(zhuǎn)變消費者的購買意愿。
總的來看,無論是出于提高整體評分和排名以吸引更多流量,還是建立虛假口碑、塑造良好的聲譽,發(fā)布虛假評論的根本原因都是自身利益。因此,利益驅(qū)動是產(chǎn)生虛假評論最主要的動機。
2. 誰在制造虛假評論(Who)
商家是產(chǎn)生虛假評論最主要的來源,商家為牟取更多的經(jīng)濟利益,試圖通過發(fā)布虛假評分以提升自身競爭力,并企圖通過虛假的評論內(nèi)容誤導(dǎo)消費者做出利于商家的決策。大量的研究表明,虛假評論會影響產(chǎn)品績效[24~25]。如Petrescu等[26]對亞馬遜網(wǎng)站上某剃須產(chǎn)品的評論進行定量分析,發(fā)現(xiàn)在商家進行虛假評論的激勵干預(yù)之后,產(chǎn)品評論數(shù)量和產(chǎn)品銷量顯著提升。競爭對手發(fā)布虛假差評來打擊他人的手段更為卑劣,但負面評論能更有效地打擊對手,產(chǎn)生的影響也更加惡劣[27],所以仍是不少商家的慣用手段。Mayzlin等[28]發(fā)現(xiàn),一定地理范圍內(nèi)具有競爭對手的酒店相對來說更有可能收到虛假差評,且隨著一定地理距離之內(nèi)競爭對手的增加,酒店發(fā)布虛假評論的頻率也隨之增加。虛假評論除了來源于惡性競爭的商家外,消費者也可能出于發(fā)泄不滿[29]、索要獎勵[30]、獲取小額返現(xiàn)[31]等目的發(fā)布虛假評論。最后,常常被忽略的一方面是來源于平臺的默認好評。具有默認好評機制的平臺在消費者一段時間沒有給出評價后,會自動生成好評,而此類好評可能并未表達消費者真實意愿,但當前學(xué)術(shù)界對于默認好評是否屬于虛假評論尚未有統(tǒng)一的定論。
3. 什么時候產(chǎn)生虛假評論(When)
持續(xù)性地增加好評,會導(dǎo)致評論操控成本過高且被識破的風(fēng)險大大增加。因此,商家會側(cè)重在某些時刻發(fā)布虛假評論。一是在商家自身評分下降或競爭對手評分上升時。Luca和 Zervas[3]發(fā)現(xiàn),當產(chǎn)品評分有下降趨勢時,商家發(fā)布虛假評論的頻率增加。二是商家收到差評時,此時商家為降低差評的影響,會選擇注入大量好評使負面評價迅速被“淹沒”。三是產(chǎn)品處于推廣期時[32],商家往往在產(chǎn)品推出初期持續(xù)地增加好評。一方面好評數(shù)量增加可以提高產(chǎn)品評分和排名,引來更多的流量;另一方面,面對新產(chǎn)品時,消費者試圖通過參考評論內(nèi)容獲取更多產(chǎn)品信息,以降低不確定性。Cui等[33]研究了在線評論對新興的電子產(chǎn)品和視頻游戲銷售的影響,結(jié)果表明在線評論對新產(chǎn)品發(fā)布初期的銷售有顯著影響,并且這種影響隨著時間的推移而減弱。Zhang等[34]指出,在產(chǎn)品的成長期增加大量的正面評論可以使產(chǎn)品后續(xù)獲得更多的正面評論。四是當周圍競爭環(huán)境變化時,如面臨同類競爭對手增加的橫向擠壓和替代商家不斷出現(xiàn)的縱向擠壓時。Liu等[35]指出,由于營業(yè)范圍的部分重合,周圍蛋糕店數(shù)量越多,星巴克操控虛假評論的頻率越高。Lee等[36]研究發(fā)現(xiàn)競爭環(huán)境對虛假評論發(fā)布強度具有調(diào)節(jié)效應(yīng),當行業(yè)競爭水平提高時,虛假評論發(fā)布的頻率隨之增加。
4. 如何產(chǎn)生虛假評論(How)
商家可以選擇不同的方法發(fā)布虛假評論,主要包括增加自身好評、刪除自身差評、給競爭對手注入差評三種方式。首先,向自身增加虛假好評的方式最為普遍且形式多樣,如商家刷好評、激勵好評[32]、發(fā)放免費樣本[37]、進行好評返現(xiàn)[38]、差評威脅[31],甚至要求消費者修改不利評價來制造虛假評論等[39]。此外,一些商家還通過刪除差評達到自身目的。Zhuang等[32]研究發(fā)現(xiàn)適量的增加好評確實會影響消費者購買意愿,而達到一定程度后則面臨著被消費者懷疑或者識破的風(fēng)險,從而產(chǎn)生負效應(yīng)。刪除差評相對較為隱蔽,不易引起懷疑,但加劇了商家與消費者之間的信息不對稱。最后,向競爭對手注入差評也是較為常見的方法之一。Mayzlin等[28]發(fā)現(xiàn),一定地理范圍內(nèi)競爭對手的數(shù)量與收到虛假差評的數(shù)量相關(guān),且虛假的負面評論可能會對商家產(chǎn)生更嚴重的消極影響[40]。Lappas等[17]發(fā)現(xiàn),向競爭對手注入差評對產(chǎn)品排名的提升比增加自身相同數(shù)量的好評對產(chǎn)品排名提升的效率高40%。
此外,商家常用的發(fā)布虛假評論的渠道主要有兩種。一是自己制造虛假評論,如注冊新的賬號偽裝成真實用戶發(fā)布虛假評論,或者使用各種激勵手段促使消費者發(fā)布虛假好評;二是雇傭?qū)I(yè)的造假團隊或者職業(yè)差評師,這種方式相對來說成本更高,其手段更加卑劣,造成的負面影響也更為惡劣。
對電商平臺來說,虛假評論的存在降低了評論的信息質(zhì)量。消費者在瀏覽到虛假評論后,會降低對平臺和在線評論系統(tǒng)的信任,進而損害了平臺的聲譽。而電商平臺為了降低虛假評論帶來的惡劣影響,盡可能維持商家間的公平競爭關(guān)系、維護消費者權(quán)益、保護平臺聲譽,勢必要采取各種辦法識別并過濾虛假評論。如亞馬遜和Yelp都已經(jīng)部署了各自的虛假評論識別系統(tǒng),京東日前也公開申請了“虛假評論檢測方法”專利,從而虛假評論大大增加了平臺的運營成本。
對商家來說,無論是自行發(fā)布虛假評論還是雇傭?qū)iT的造假團隊,都會增加自身的銷售成本。同時,發(fā)布虛假評論的商家還會面臨被識破的風(fēng)險,從而損害商譽,甚至面臨平臺和法律的懲罰。而對于被詆毀的商家,虛假的低分差評會損害產(chǎn)品的平均評分和排名以及商家的聲譽,最終導(dǎo)致銷量的下降。
對消費者來說,虛假評論的存在降低了評論有用性。為規(guī)避虛假評論的誤導(dǎo),消費者需要花費更多的時間和精力辨別評論真實性。
盡管虛假評論具有較高迷惑性,不易被識別,但其評論內(nèi)容和發(fā)布者行為的特征仍然會露出破綻,抓住這些特征對于辨別虛假評論至關(guān)重要?,F(xiàn)有研究不斷挖掘有效的識別特征并將各種特征組合運用到模型中,實現(xiàn)對虛假評論的識別。根據(jù)特征選取角度的不同,主要包括評論文本特征和評論者行為特征。具體特征及描述見表2。由此,可將虛假評論的識別路徑大致分為三種。第一種主要依據(jù)評論的文本特征,從內(nèi)容本身出發(fā)識別虛假評論。第二種依據(jù)評論者行為特征,對虛假評論人或者群組進行識別。第三種將文本與行為相結(jié)合對虛假評論進行識別。
表 2 基于評論文本和評論者行為特征識別體系
1. 評論文本特征
盡管虛假評論的發(fā)布者試圖盡可能地模仿真實的體驗,但是在一些文字細節(jié)上仍然會有一些破綻,如文本相似性和冗余程度高,單一化的寫作風(fēng)格等[40~41]。因此,越來越多的文獻利用評論文本特征來識別虛假評論。
早期的研究主要運用文本相似性、重復(fù)性等特征識別虛假評論[4]。但隨著虛假評論的隱蔽性越來越高,學(xué)者們開始尋找更多的文本特征以提高虛假評論識別的精度。如在文字層面使用文本長度、詞匯的復(fù)雜度[42]、不同詞性的數(shù)量[42]、客觀性單詞比例和主觀性單詞比例、感嘆句數(shù)量[43]等特征。Jindal等[4]的虛假評論識別模型中,在文本特征方面重點考慮了評論和產(chǎn)品特征描述的符合程度、評論中的品牌提及率、評論文本的主客觀性以及評論獲得的反饋情況等。Zhao等[42]總結(jié)了虛假評論的六個文本特征,包括評論文本長度和文本復(fù)雜程度等。
此外,評論文本的情感是識別虛假評論的語義特征中的重要組成部分[44~45]。Deng和Chen[46]認為絕對正面或絕對負面的評論極有可能是虛假評論。任亞峰等[47]指出,可以利用情感極性和第一人稱代詞詞頻來區(qū)分虛假評論和真實評論:情感極性越強,第一人稱詞頻越少,該評論為虛假評論的概率越大。文本中不同詞性數(shù)量一定程度上也可反應(yīng)心理認知過程,從而幫助識別虛假評論[5]。Gregorio等[48]構(gòu)建了負向情感詞庫,以此對虛假評論文本進行分析,取得了比人工識別更好的效果。情感詞間的關(guān)系也能夠用于識別虛假評論,Evans等[49]對評論中情感詞的依存關(guān)系進行了研究,運用量化情感算法進行分析能夠有效地識別出虛假評論。因此,引入情感分析在一定程度上能夠提升識別的準確率和原有模型的效果[50]。
2. 評論者行為特征
虛假評論往往模仿真實評論的寫作方式,給依靠文本的虛假評論識別算法造成了極大困難。張文等[51]認為,評論文本所能提供的信息是有限的,而虛假評論者的行為可以提供較多的信息并且檢測更為容易。因此,越來越多的研究者通過分析評論者的行為特征來識別惡意賬戶,以此鎖定虛假評論。已有研究表明,虛假評論者的行為不同于真實用戶的行為。例如,鄧勝利和汪奮奮[52]指出,虛假評論者會贊揚或貶低某一特定品牌的產(chǎn)品。Mukherjee等[53]發(fā)現(xiàn),虛假賬戶往往會在短時間內(nèi)寫出大量的評論。所以評論發(fā)布時間越集中,突發(fā)性評論占比越大,賬戶為虛假評論者的可能性越高。此外,虛假評論者與真實評論者比較而言,多給出極端評價[54~55],即歷史評分在極端評論處的分布較為集中[4],且常常對特定產(chǎn)品重復(fù)評分[25],或?qū)Σ煌a(chǎn)品的評論內(nèi)容重復(fù)[56]。
隨著電子商務(wù)的發(fā)展,虛假評論發(fā)布者的規(guī)模也在不斷擴大,甚至出現(xiàn)多人協(xié)同形式的虛假評論群組。群組憑借大規(guī)模地發(fā)布虛假評論,從而引導(dǎo)評論導(dǎo)向,因此更具破壞性[7]。由此對于虛假評論群組識別的研究應(yīng)運而生。對于虛假評論群組的識別同樣可依據(jù)其行為特征。Mukherjee等[7]首次以群組為目標進行識別,指出虛假評論群組通常具有各成員共同評論同一產(chǎn)品的特征。Xu等[57]選取了八個群組特征識別虛假評論,涉及內(nèi)容相似性與偏差、群組規(guī)模和數(shù)量、時間上的評論差異等方面的指標。
3. 評論文本與評論者行為相結(jié)合
單獨使用評論文本特征或評論者行為特征可能難以應(yīng)對復(fù)雜的情況,為提高識別的準確度,越來越多的學(xué)者將二者相結(jié)合,建立更為全面的識別方法。Mukherjee等[53]使用Yelp數(shù)據(jù)集,驗證了只選取評論文本特征情況下與加入行為特征情況下識別準確度的差異,結(jié)果顯示,加入評論者行為特征后準確率得到顯著提升。Li等[43]對選取的文本及行為特征采用樸素貝葉斯方法和聯(lián)合訓(xùn)練機制對虛假評論進行識別,使用Epinions網(wǎng)站的評論數(shù)據(jù)進行檢測得到了61.3%的F1值。楊超等[58]將評論文本特征與評論者行為特征融合,采取卷積神經(jīng)網(wǎng)絡(luò)對所選特征數(shù)據(jù)進行處理,通過實驗驗證了該方法的有效性和對虛假評論較高的識別率。
對于虛假評論識別早期的研究,由于評論形式較為簡單,因此研究識別的對象主要針對重復(fù)性評論和廣告性評論。而隨著互聯(lián)網(wǎng)的蓬勃發(fā)展和電子商務(wù)的興起,虛假評論數(shù)量激增,形式也更為多樣,識別的復(fù)雜性隨之增加。因此,更為高效、智能的機器學(xué)習(xí)技術(shù)開始廣泛應(yīng)用到虛假評論的識別,下面從無監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三方面對虛假評論識別算法進行歸類。
1. 無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)只使用未標注真假的數(shù)據(jù)樣本進行學(xué)習(xí),通過學(xué)習(xí)評論數(shù)據(jù)之間的相似性,將數(shù)據(jù)分成兩個組:虛假評論和非虛假評論,然后根據(jù)數(shù)據(jù)間的相似性和差異性對數(shù)據(jù)的分類進行預(yù)測?;趫D結(jié)構(gòu)的方法是無監(jiān)督學(xué)習(xí)中的典型方法,Mukherjee等[7]率先使用無監(jiān)督學(xué)習(xí)算法,采用頻繁項挖掘方法來篩選可疑的候選組,然后通過建立模型進一步鎖定虛假評論群組。宋海霞等[59]利用 F 統(tǒng)計量對 K均值算法進行改進,實現(xiàn)評論數(shù)據(jù)的自適應(yīng)聚類這一無監(jiān)督學(xué)習(xí),然后通過尋找異常簇的方法來識別虛假評論,并驗證了該方法的有效性。
2. 有監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)利用已標注真假的評論數(shù)據(jù)訓(xùn)練分類器,進而對評論進行分類。Ott等[5]通過在數(shù)據(jù)集上統(tǒng)計真實評論和虛假評論的慣用詞詞頻情況,構(gòu)建SVM分類器和樸素貝葉斯分類器進行識別。鄧莎莎等[41]在由評論者分別撰寫的真實評論和虛假評論語料上,建立支持向量機、樸素貝葉斯、決策樹等有監(jiān)督學(xué)習(xí)算法,檢驗詞性特征在虛假評論識別中的有效性。陳燕方[60]分別從評論文本特征、評論者行為特征、商家特征三個維度選取了十個指標,在此基礎(chǔ)上通過實驗證明,采用DDAG-SVM多分類支持向量機能夠較好地兼顧評論識別的效率和準確率。
3. 半監(jiān)督學(xué)習(xí)
由于人類無法通過先驗知識有效識別虛假評論,手工標注的數(shù)據(jù)集必定存在一定數(shù)量的誤例。因此,簡單使用傳統(tǒng)的有監(jiān)督學(xué)習(xí)算法識別虛假評論并不合理,但可以通過啟發(fā)式的規(guī)則獲取少量真實評論和大量的未標注評論?;谡鎸嵲u論集和未標注評論集,可建立一個半監(jiān)督學(xué)習(xí)的分類器用于識別虛假評論。半監(jiān)督學(xué)習(xí)是利用大量未標注真假的評論和少量有標注真假的評論訓(xùn)練分類器。協(xié)同訓(xùn)練算法作為一種典型的半監(jiān)督學(xué)習(xí)方式,可以結(jié)合評論文本特征和評論者行為特征訓(xùn)練分類器,大大提高了虛假評論的識別效率[51,61]。任亞峰等[62]先使用樸素貝葉斯有監(jiān)督學(xué)習(xí)和人工標注的標簽來評價不同特征建模性能,選出最好的特征組合,然后設(shè)計Co-training 和 Tri-training兩種半監(jiān)督學(xué)習(xí)算法充分利用大量未標注文本,以提高識別性能。隨后任亞峰等[63]還提出一種創(chuàng)新的PU學(xué)習(xí)框架來識別虛假評論,使用兩種主流多核學(xué)習(xí)算法SILP 和LPSOLVE來訓(xùn)練分類器,實驗證明所提方法可以有效用于虛假評論的識別。
目前虛假評論的識別算法以全監(jiān)督框架下的分類方法為主,但全監(jiān)督學(xué)習(xí)需要大量標注真假的評論作為訓(xùn)練集,標注數(shù)據(jù)集的缺少及人工標注耗時費力等問題為全監(jiān)督框架下的算法帶來極大局限性。一些學(xué)者嘗試使用無監(jiān)督學(xué)習(xí)方法,該方法解決了標注評論集缺失的問題,但卻存在識別精度普遍偏低的情況。而半監(jiān)督學(xué)習(xí)很好地克服了全監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的缺點。
以往文獻主要關(guān)注虛假評論的“事后”識別和過濾,未能從根本上抑制虛假評論產(chǎn)生的內(nèi)在動機。本文系統(tǒng)性梳理了虛假評論的相關(guān)研究發(fā)現(xiàn):93%的中文論文和89%的英文論文主要關(guān)注虛假評論的特征、分類和識別(圖3)。少量研究從法律法規(guī)和平臺制度的角度研究了虛假評論的治理(中文2篇、英文4篇),但僅限于定性理論分析。然而僅靠法律約束和平臺監(jiān)管并不能從根本上有效抑制虛假評論的產(chǎn)生。朱星圳等[64]研究發(fā)現(xiàn),加大平臺管控力度短期內(nèi)能夠約束商家行為,但長期來看,該約束效果不明顯。因此,深入研究虛假評論產(chǎn)生的內(nèi)在動機,減少虛假評論的產(chǎn)生是未來研究的重點。
圖 3 虛假評論相關(guān)研究數(shù)量
采用監(jiān)督學(xué)習(xí)訓(xùn)練分類器的基礎(chǔ)是具備已標注真假的數(shù)據(jù)集,而虛假評論識別的研究中所使用的數(shù)據(jù)集主要分為兩種:一種是真實數(shù)據(jù)集,另一種是人工構(gòu)造的數(shù)據(jù)集。真實數(shù)據(jù)集的獲取方式有如下兩種:一是直接使用亞馬遜、Yelp等平臺的公開數(shù)據(jù)集,二是研究人員通過網(wǎng)絡(luò)爬蟲技術(shù)搜集的數(shù)據(jù)。兩種方式收集到的數(shù)據(jù)集都需要對數(shù)據(jù)進行人工標注,而人工標注工作量巨大,且標注真假與真實情況相比存在一定的誤差,由此影響識別的精度。也有一部分研究采用人工數(shù)據(jù)集[5],即人工制造真實評論和虛假評論以此訓(xùn)練分類器。人工構(gòu)造的數(shù)據(jù)集雖然避免了標注數(shù)據(jù)導(dǎo)致的偏差,但由于人工模擬的評論與現(xiàn)實中的虛假評論情況仍有差異,由此訓(xùn)練出來的分類器實踐效果不甚理想[53]。另外,虛假評論的相關(guān)算法面臨好評和差評數(shù)量不平衡問題。通常情況下,產(chǎn)品的好評數(shù)量遠大于差評,造成了算法訓(xùn)練樣本的嚴重不平衡。從而訓(xùn)練所得的分類器往往更擅長識別好評的真假,而對差評是真是假的診斷力不強,大大削弱了虛假評論識別的精度。
以往虛假評論識別算法重點關(guān)注評論文本特征、評論者行為特征或二者的交互對虛假評論識別的影響。這些研究忽略了評論和評論環(huán)境的匹配性對虛假評論識別的影響。評論和評論環(huán)境的匹配性有三個方面:一是評論評分與產(chǎn)品平均評分的匹配性;二是評論情感與其他評論情感的匹配性;三是評論評分與產(chǎn)品生命周期的匹配性。Ansari等[65]指出,虛假評論往往與產(chǎn)品的平均評分差異較大,因此可以采用評論評分和產(chǎn)品平均評分的差異來識別虛假評論。Zhao等[42]指出,虛假評論的情感往往較為極端并且與真實評論差異較大。因此,可以采用評論情感和其他評論情感的差異來檢測虛假評論。此外,研究表明產(chǎn)品推出的早期發(fā)布虛假評論對產(chǎn)品銷量的影響更大,商家常常選擇在產(chǎn)品推出初期發(fā)布虛假評論[33]。產(chǎn)品推出初期的好評更有可能是商家自身產(chǎn)生的虛假好評,而差評更有可能是競爭對手產(chǎn)生的惡意差評。因此,評論和產(chǎn)品生命周期的匹配性也是虛假評論鑒別的重要變量之一。
已有研究表明,評論者的行為特征是識別虛假評論者的重要依據(jù),加入評論者行為特征能夠有效提升虛假評論識別的準確率[6]。即使惡意評價者的行為特征對虛假評論的識別具有良好效果,但觀察惡意評價者的行為特征需要一段時間的積累。如評論頻繁度、突發(fā)性評論比例、歷史評分差異等等,都需要根據(jù)評論者行為的歷史數(shù)據(jù)獲得。然而,虛假評論發(fā)布者為了降低被識破的風(fēng)險,會定期更換新賬號偽裝成真實用戶發(fā)布虛假評論。這些新用戶無歷史數(shù)據(jù)可觀測,導(dǎo)致現(xiàn)有研究所選取的行為特征不適用于檢測新注冊的用戶。
以往文獻主要聚焦于虛假評論識別算法的精度和速度。雖然虛假評價識別系統(tǒng)可以幫助電商平臺快速識別過濾虛假評論,但卻無法抑制虛假評論產(chǎn)生的內(nèi)在動機。每天仍有大量的虛假評論產(chǎn)生。此外,虛假評論的發(fā)布者也會根據(jù)虛假評論識別算法發(fā)布更為隱蔽的虛假評論,從而形成惡性循環(huán)。因此,虛假評論的治理需要以“防”為主,以“治”為輔。深入了解虛假評論產(chǎn)生的內(nèi)在動機,降低虛假評論發(fā)布者的意愿是未來研究的重要方向。另外,虛假評論發(fā)布者通過大量的虛假評論來提高產(chǎn)品的排名,帶來更多的網(wǎng)絡(luò)流量。因此,電商平臺可以升級現(xiàn)有的產(chǎn)品排名算法,以提升產(chǎn)品排名系統(tǒng)對虛假評論攻擊的穩(wěn)健性。最后,預(yù)防虛假評論的產(chǎn)生,還需要法律法規(guī)、平臺政策、商家自律的共同努力。對虛假評論的治理需懲前毖后并重,威懾理論認為,懲罰的威懾力取決于感知懲罰確定性和感知懲罰嚴重性[66],所以防治虛假評論還需不斷完善相關(guān)法律、加大懲罰力度。平臺除制定相關(guān)制度外,還可以開發(fā)有效的反虛假評論機制,提高虛假評論制造的難度和成本。
訓(xùn)練集樣本標注不足問題是阻礙虛假評論識別領(lǐng)域快速發(fā)展的重要原因之一?,F(xiàn)有研究大多使用全監(jiān)督學(xué)習(xí)[5,41,60],不僅需要大規(guī)模已標注的數(shù)據(jù)集,而且通常存在標記誤差問題。為徹底避開樣本標注問題,還有研究采用無監(jiān)督學(xué)習(xí)[7,60],自動處理樣本尋找隱含的規(guī)律,從而實現(xiàn)樣本的分類,但卻難以取得較好的識別精度。而半監(jiān)督學(xué)習(xí)介于二者之間,可以在少量標注真假的樣本基礎(chǔ)上,充分利用大量未標注樣本提高識別性能,很好地兼顧了標注樣本不足和提高識別精度的問題。根據(jù)不同的情況和數(shù)據(jù)特征,還可以選擇最合適的半監(jiān)督學(xué)習(xí)方法。自訓(xùn)練(Self-training)可視為標準的半監(jiān)督學(xué)習(xí)模型,它可以從未標記的數(shù)據(jù)中根據(jù)一定的置信水平標注數(shù)據(jù),從而自動擴大標記集,且具有易于和其他分類算法相結(jié)合的優(yōu)點[67]。協(xié)同訓(xùn)練(Co-training)是自訓(xùn)練的延伸,它具有兩視圖識別的優(yōu)勢,研究證明某些情況下,這種兩視圖的方式有助于提升分類器的性能[43]。有學(xué)者進一步提出多視圖的方法(Multi-view Learning),可用于多種資源、線索的結(jié)合。生成式方法(Generative Methods)通過統(tǒng)計學(xué)方法(最大似然估計)處理缺失信息,該方法在標注數(shù)據(jù)極少的情況下,具有相對較好的識別性能。此外,半監(jiān)督學(xué)習(xí)還可以與全監(jiān)督學(xué)習(xí)結(jié)合使用。任亞峰[62]的識別算法首先采用全監(jiān)督學(xué)習(xí)篩選最合適的特征組合,然后配合半監(jiān)督學(xué)習(xí)擴充標注樣本,從而二者優(yōu)勢互補,以提高算法的有效性。因此,采用半監(jiān)督學(xué)習(xí)是解決訓(xùn)練樣本標注不足問題的重要途徑,值得未來研究深入探索。
即使現(xiàn)有算法已經(jīng)能夠在一定程度上實現(xiàn)對虛假評論的有效識別,但與此同時商家也在根據(jù)算法做出相應(yīng)的策略改變來試圖躲避識別,并不斷尋找更隱蔽的方式。因此,對于虛假評論識別的方法不應(yīng)局限于計算機領(lǐng)域。一方面虛假評論的識別需要不斷了解虛假評論的新特征,提高算法精度,升級現(xiàn)有識別技術(shù),以應(yīng)對虛假評論形式和策略的變化。另一方面,虛假評論的識別需要多領(lǐng)域的交叉融合。
首先,考慮與心理學(xué)相融合。一般來說,虛假評論者和正常評論者相比,評論的心理過程和外在表現(xiàn)勢必存在差異。有學(xué)者從心理學(xué)角度出發(fā),發(fā)現(xiàn)虛假評論的情感傾向更加極端[46]。此外,不同的用詞、表情符號的使用、評論的自信度等特征都能反應(yīng)評論者的心理、情感和動機[5,47,68]。還有研究應(yīng)用LIWC文本分析工具[62]和IBM Watson語氣分析工具[68],利用心理語言學(xué)對評論文本深入挖掘,從而探索評論中隱含的評論者的情感過程、認知過程、社會過程等。因此,虛假評論的識別與心理學(xué)的結(jié)合有助于升級識別算法,提升識別的準確率。
其次,與行為學(xué)的融合同樣重要。研究發(fā)現(xiàn),正常評論者發(fā)表評論的時間、對象一般是隨機的,而虛假評論者為達到特定目的,往往發(fā)布評論的時間、數(shù)量、評價對象存在一定規(guī)律[69]。如虛假評論者通常會在特定時間段內(nèi)高頻率地發(fā)布虛假評論,且大多聚集于某個品牌或某類產(chǎn)品[70],從而快速對產(chǎn)品評分或網(wǎng)絡(luò)口碑產(chǎn)生影響。另外,虛假評論者常在產(chǎn)品發(fā)布早期較為活躍,由于早期的評論信息影響范圍更大、影響持續(xù)時間更長,所以成為虛假評論的高發(fā)期。因此,將虛假評論識別與行為學(xué)相融合,有助于初步縮小識別與過濾范圍,提高識別效率,還能夠通過尋找有標識的行為特征,幫助提高識別的準確率。
現(xiàn)有研究所選取的行為特征需要根據(jù)歷史行為觀察、計算得到可用指標,但是對于新注冊賬號的虛假評論者的有效識別是現(xiàn)有研究的缺失。未來研究需充分考慮新用戶的識別問題,尋找適用于新用戶的行為特征彌補上述空白。如賬號注冊至首次評論的時間間隔、注冊后短期內(nèi)的評論次數(shù)等。一般來說,新用戶由于操作不熟悉或尚未建立平臺信任感等,短時間內(nèi)處于觀望狀態(tài),且消費者通常從產(chǎn)品下單購買到對產(chǎn)品產(chǎn)生使用感受具有一定的時間間隔。因此,新注冊的用戶較少會立即且頻繁地發(fā)表評論。而虛假評論者注冊新用戶,為達到使用效用最大化,會頻繁使用此賬戶發(fā)布虛假評論。因此,首先可以參考新用戶從注冊至首次評論發(fā)布的時間間隔,若此間隔時間很短,則是虛假評論者的可能性較大。其次,還可以考慮新賬戶短時間內(nèi)發(fā)布的評論數(shù),若新注冊賬號短時間內(nèi)頻繁操作則更有虛假評論者的嫌疑。最后,還可以著重關(guān)注新用戶評論的極端程度及其與大眾觀點的偏差,尋找可疑用戶并根據(jù)后續(xù)行為排查,盡可能降低新用戶識別不足帶來的負面影響。
虛假評論是電商平臺聲譽機制的必然產(chǎn)物,也是電子商務(wù)健康發(fā)展的頑疾。隨著虛假評論數(shù)量的快速增長,虛假評論的識別和過濾成了學(xué)術(shù)界和業(yè)界關(guān)注的熱點。虛假評論的識別算法廣泛應(yīng)用到各大電商平臺,電商平臺的制度和相關(guān)法律法規(guī)也在不斷完善。然而,評論操控不降反升,成為商家惡性競爭的慣用手段。本文首先對虛假評論的相關(guān)概念進行界定,然后對虛假評論的研究現(xiàn)狀進行歸納分析,總結(jié)了現(xiàn)有研究的進展和爭議,指出了未來研究方向,并對現(xiàn)有研究的爭議提出了具體解決方案。本文的研究結(jié)論對推動虛假評論識別的相關(guān)研究有重要理論意義,對電商平臺的健康發(fā)展有一定實踐啟示。
注釋
① https://data.stats.gov.cn/easyquery.htm?cn=A01