,
(1.南京航空航天大學(xué) 經(jīng)濟與管理學(xué)院,江蘇 南京 211106;2.安徽商貿(mào)職業(yè)技術(shù)學(xué)院 經(jīng)濟貿(mào)易系,安徽 蕪湖 241002)
電商在線評論是指電子商務(wù)銷售平臺中顧客購買商品收貨后,在評論系統(tǒng)中使用文字或者分值給予商家或者產(chǎn)品的評價。其中,文字評論既體現(xiàn)了顧客購后情感的表達,也成為計劃購物顧客的購前決策參考,因此越來越多的電商商家和顧客關(guān)注電商在線評論。通過對電商在線評論進行自然語言處理,基于文本情感分析判斷情感傾向,建立情感指數(shù),并以店鋪、時間等維度進行分析,以此來評估顧客的情感傾向和商家的經(jīng)營管理狀況,可以更好地幫助商家改進自身不足和提升服務(wù)質(zhì)量,借此吸引更多的顧客購買。
在線評論作為一種評價和反饋方式,近年來受到了越來越多的學(xué)者關(guān)注。在國外,探討在線平臺顧客評論對企業(yè)經(jīng)營管理業(yè)務(wù)的影響已有多年的研究歷程,例如Murphy等人(2007)研究了在線平臺評論對潛在旅行者和酒店經(jīng)營管理人員的影響。Vermeulen等人(2009)的研究認(rèn)為,消極評論比正面評價更具影響力。Victor Ho 2017年研究在線評論時認(rèn)為,管理人員對在線評論的響應(yīng)總共有三個必須采取的行動:承認(rèn)問題、表達感情和感謝評論者[1]。在國內(nèi),早在2011年翟麗孔在研究在線評論對消費者購買意愿的影響時,發(fā)現(xiàn)在線評論數(shù)量越多,在線評論強度越大,對消費者購買意愿的影響也越大,同時負(fù)面評論的影響力大于正面評論的影響力等[2]。2012—2014年期間不同學(xué)者分別以理論或者實證的方式開展研究,得出很多有價值的結(jié)論。例如肖玲針對消費者網(wǎng)購過程中感知風(fēng)險,通過對在線評論問卷調(diào)查所獲得的數(shù)據(jù),利用SPSS17.0軟件進行實證分析,得出感知風(fēng)險的中介作用[3]。馬艷麗等通過定性研究在線評論的矛盾性影響因素和形成機理,認(rèn)為在矛盾性情景下,消費者購買決策往往受到購買欲望、產(chǎn)品價格、商家是否支持退貨等因素的影響[4]。當(dāng)然,王君珺等人也通過比較研究不同熱度搜索型產(chǎn)品的在線評論對銷量的影響,得出了對于搜索型產(chǎn)品,熱門品牌的評論長度、評論及時度對非熱門品牌的產(chǎn)品銷量均有顯著影響等結(jié)論[5]。2015年之后,每年相關(guān)研究數(shù)量均在100篇以上,呈現(xiàn)井噴式發(fā)展,此時利用大數(shù)據(jù)手段和方法進行研究,已漸成為一種趨勢,例如李雨潔等在研究商家的操縱評論行為對在線評論真實性的影響時,基于大量數(shù)據(jù)通過模型計算得出反映商品真實質(zhì)量的得分,并經(jīng)數(shù)據(jù)擬合獲得了反映賣家操縱評論行為概率的曲線方程[6]。趙麗娜(2015)通過BP神經(jīng)網(wǎng)絡(luò)研究了在線評論效用的影響因素。
文本情感分析是利用自然語言處理(簡稱NLP)、數(shù)據(jù)挖掘算法等對文本語言進行情感判斷,從而把握文本意見觀點、態(tài)度的計算研究。近年來網(wǎng)絡(luò)在線評論數(shù)量與日劇增,依托人工進行的評論整理無法滿足現(xiàn)實需求,因此文本情感分析吸引了眾多國內(nèi)外學(xué)者對其進行研究。
傳統(tǒng)的文本情感分析方法利用情感字典,模擬人的判斷思維,進行情感判斷。例如在國外,V Hatzivassiloglou等人1997年嘗試建立詞匯級情感字典,并在此基礎(chǔ)上進行文本情感分析,使判斷結(jié)果準(zhǔn)確率達到82%[7]。Wiebe 等人(2001)區(qū)分主觀性和客觀性文本,針對主觀性文本開展情感分析。Pang 等人(2002)引入數(shù)據(jù)挖掘算法中樸素貝葉斯(Naive Bayes)、最大熵模型(The Maximum Entropy Principle)和支持向量機( Support Vector Machine,SVM) 模型對電影評論進行文本情感分析。
在國內(nèi),樊娜等人(2009)開始評估文本中語義概念的概括和歸納能力,采用條件隨機場模型,選取情感傾向特征和轉(zhuǎn)移詞特征訓(xùn)練模型,從文本主題句集合中提取情感主題句。趙妍妍等人(2010)對文本情感分析進行綜述研究,詳述了文本情感分析的國內(nèi)外發(fā)展情況。張成功等(2012)將極性詞與修飾詞組合成極性短語作為極性計算的基本單元,提出了一種基于極性詞典的文本情感分析方法。唐曉波等2013年基于支持向量機改進了文本情感分析中效率較低、文本表達維度高等問題[8]。黃磊等在2017年引入神經(jīng)網(wǎng)絡(luò)開展文本情感分析的研究,其中以詞向量作為基本輸入單元,保留原文中語義組合,從而克服了傳統(tǒng)文本分類方法的缺點[9]。
近年來,部分學(xué)者將文本情感分析引入電商在線評論研究,取得了一定成績。例如Subhasis Dasgupta等2016年在研究三星手機時利用文本挖掘分析顧客評論,以此了解顧客利用不同的詞語表達手機的特性[10]。龐海杰等人(2012)利用中文分詞處理文本后,進行詞性標(biāo)注,最后基于規(guī)則研究商品評價信息。劉甲學(xué)等人2017年通過對用戶滿意度影響因素的分析,幫助商家挖據(jù)用戶需求,提升用戶滿意度,達到提高商品銷量的目的[11]。李涵昱等2017年利用提取與過濾算法和情感詞判別算法等,自動提取用戶關(guān)注的商品屬性和評價觀點,以此進行文本情感傾向性分析[12]。
綜上所述,電商在線評論的研究如火如荼,文本情感分析也有很大程度的發(fā)展,電商在線評論引入文本情感分析后也有了新的研究進展。但是,基于文本情感分析的電商在線評論研究依然存在一些問題:首先,文本情感分析中缺少電商領(lǐng)域的情感詞典研究,使電商情感判斷時過度依賴通用情感詞典,降低了情感判斷的準(zhǔn)確率;其次,文本情感分析結(jié)果僅停留在解讀上,沒有相關(guān)研究對結(jié)果進一步開發(fā),比如引入情感指數(shù)分析;最后,文本情感分析對電商在線評論的研究還停留在理論層面,尚沒有企業(yè)的應(yīng)用報告,對其實際效果的評測還有待實證分析。
因此,本文選取天貓網(wǎng)站碧根果產(chǎn)品在線評論,對文本情感分析傳統(tǒng)模型進行改進,建立電商食品領(lǐng)域級情感詞典,在算法上引入NLP中2元語法加強情感結(jié)果判斷,并利用結(jié)果開發(fā)情感指數(shù),用于直觀反映電商商家的經(jīng)營管理效果,最后提出改進建議。
如圖1所示,對選取的電商在線評論進行Python爬蟲設(shè)計和抓取。因涉及到多個店鋪不同月份數(shù)據(jù),故數(shù)據(jù)合并后進行數(shù)據(jù)清洗,而數(shù)據(jù)清洗含去重、提取目標(biāo)文本、創(chuàng)建特征數(shù)據(jù)等。將準(zhǔn)備好的在線評論文本數(shù)據(jù)引入文本情感分析模型中進行分析,該模型為文本情感分析傳統(tǒng)模型改進型,在其中引用電商領(lǐng)域情感字典和2元語法,對于以短評論為主的電商在線評論明顯提升準(zhǔn)確率。對文本情感分析結(jié)果建立指數(shù)分析表達式,計算出相關(guān)指數(shù),并按照店鋪、月等維度分別計算。通過指數(shù)變化和比較,深入挖掘電商在線評論中的情感表達,剖析電商商家的經(jīng)營管理問題,并給出對策與建議。需要說明的是,整個文本情感分析模型和指數(shù)分析均通過Python編程實現(xiàn)。
圖1 電商在線評論文本情感分析流程圖
選取天貓網(wǎng)站碧根果銷量排名前十的店鋪,以每個店鋪銷量最好的碧根果首款產(chǎn)品為研究對象,通過Python設(shè)計爬蟲程序收集顧客購買后的在線評價,篩選2016年9—12月份中有追加評價的在線評論進入分析環(huán)節(jié)。表1為經(jīng)過去重處理后的數(shù)據(jù)情況。
表1 天貓碧根果前十店鋪首款產(chǎn)品在線評論數(shù)據(jù)源表
表1顯示共獲取17 144條有效在線評論數(shù)據(jù),數(shù)據(jù)分布與店鋪首款產(chǎn)品的銷量基本對應(yīng),即明星店鋪高銷量產(chǎn)品有著高在線評論量。同時,在爬取數(shù)據(jù)時共獲取到電商在線評論的店鋪名稱、初次評論文本、追加評論文本、兩次評論間隔時間(后文簡稱“間隔時間”)、評論月份。當(dāng)然,通過特征指標(biāo)構(gòu)造,又加入初次評論字?jǐn)?shù)、追加評論字?jǐn)?shù)等指標(biāo),并且通過對間隔時間、月份等數(shù)據(jù)預(yù)處理,部分?jǐn)?shù)據(jù)如表2所示。
表2 天貓碧根果產(chǎn)品在線評論數(shù)據(jù)表
基于Python中pandas功能進行數(shù)據(jù)描述性分析,結(jié)果見表3(結(jié)果不保留小數(shù),采用四舍五入方式)。表3顯示初次評論字?jǐn)?shù)平均值為23個,標(biāo)準(zhǔn)差為46,其中75%的數(shù)據(jù)落入0~25字之間,0為初次沒有評論內(nèi)容,表明在線評論中初次評論基本為短評論文本。同時,追加評論字?jǐn)?shù)75%數(shù)據(jù)也落入1~34字之間,同樣基本為短評論文本,但追加評論字?jǐn)?shù)平均值、各分位點數(shù)值均比初次評論字?jǐn)?shù)高,也表明追加評論有了更多的評論信息量,即顧客在追加評論中往往進行了更多情感表達。
表3 在線評論數(shù)據(jù)描述性分析表
從間隔時間看,數(shù)據(jù)中0天表示當(dāng)天在初次評論基礎(chǔ)上進行了追加評論,間隔時間平均值為11天,50%數(shù)據(jù)落入0~2天,25%數(shù)據(jù)在14~179天,說明追加評論呈現(xiàn)兩頭趨勢,一方面半數(shù)顧客短時間內(nèi)追加了評論,積極參與產(chǎn)品情況的反饋;另一方面部分顧客在產(chǎn)品用后較長時間才有所反饋。
NLP是指Natural Language Processing,即自然語言處理。在線評論是一種自然語言文本,屬于主觀句表達,往往帶有強烈的個人情感,通過文本情感分析(傳統(tǒng)模型)、貝葉斯、神經(jīng)網(wǎng)絡(luò)等算法,可以實現(xiàn)文本情感判斷。上述在線評論描述性分析表明,初次評論和追加評論均為短文本,適合采用文本情感分析(傳統(tǒng)模型)進行判斷,本文對文本情感分析(傳統(tǒng)模型)進行了改進,使其更適合進行電商在線評論的文本情感判斷。
1.電商在線評論文本情感判斷(傳統(tǒng)模型)。文本情感判斷(傳統(tǒng)模型)是相對于貝葉斯、神經(jīng)網(wǎng)絡(luò)、SVM等人工智能算法而言,采用NLP中自然語言切分、依靠情感字典進行文本情感判斷的方法。上述描述性分析表明,電商在線評論為短文本,而短文本采用文本情感判斷(傳統(tǒng)模型)具有更高的準(zhǔn)確率。如圖2所示,本文研究中采用jieba分詞對電商在線評論進行自然語言切分,建立電商食品領(lǐng)域情感字典,引入NLP研究領(lǐng)域n元語法中2元語法進行詞組搭配后,依托后中心詞情感基本判斷、依托前影響詞情感方向和程度影響進行判斷。
圖2 文本情感判斷(傳統(tǒng)模型)改進模型圖
2.情感傾向分析。本文對電商在線評論情感文本情感分析結(jié)果采用三級分類,即積極、消極和中性[13]。根據(jù)上述文本情感判斷(傳統(tǒng)模型)中情感值p值與0比較情況,做出判別,即p>0為積極、p=0為中性、p<0為消極,其中“此用戶沒有填寫評論!”人為判定為中性,表示無法獲取在線評論的情感傾向。采用Python實現(xiàn)圖2模型,得到2016年9—12月份電商在線評論情感判斷的結(jié)果(如表4,僅列舉部分)。
表4 2016年9—12月份電商在線評論情感判斷(部分)
針對電商在線評論情感判斷的準(zhǔn)確率,進行十折交叉驗證:首先從17 144條有效在線評論數(shù)據(jù)中隨機抽取1 000條樣本,然后對1 000條樣本進行文本情感傾向人工標(biāo)注;其次編寫Python十折交叉驗證程序,利用該程序?qū)? 000條樣本進行十折交叉驗證,得到文本情感判斷(傳統(tǒng)模型)改進模型準(zhǔn)確率為91.3%,F(xiàn)值為90.4%。
1.情感分類統(tǒng)計分析。表5顯示初次評論情感中性數(shù)值最大,為8 509,進一步審視原始數(shù)據(jù),發(fā)現(xiàn)“此用戶沒有填寫評論!”的類型占到8 482,去除后中性僅有27條。此外初次情感中較多的為積極類型,基本為消極類型評論條數(shù)的2.4倍。在追加評論情感中,積極類型占比62.62%,是絕對多數(shù),消極類型占比為36.97%也是不小的比率,說明近37%的顧客表達了不滿意的評論。
表5 情感傾向分類統(tǒng)計表
2.情感指數(shù)分析。在情感指數(shù)分析時,首先需要構(gòu)建情感指數(shù)計算模型。本次情感指數(shù)計算模型以美國密歇根大學(xué)SRC指數(shù)編制法和上海財經(jīng)大學(xué)上海市消費者信心指數(shù)編制法為基礎(chǔ),計算模型如下:
其中,X積極表示對某類對象持積極看法的數(shù)量;X消極表示對某類對象持消極看法的數(shù)量;X表示最終得分;基數(shù)設(shè)定為100,乘以1/2使取值范圍在0~100之間。
(1)情感指數(shù)總體分析。在表5統(tǒng)計分析的基礎(chǔ)上,初次評論和追加評論指數(shù)總體分析的結(jié)果表明,初次評價的情感指數(shù)為70.4,到追加評論時降低至62.9,總體上初次評論和追加評論的情感指數(shù)并不高,而且從初次評論到追加評論呈現(xiàn)出不滿意度增高的情況。
(2)情感指數(shù)店鋪維度分析。在Python中調(diào)用pandas包以店鋪維度進行指數(shù)分析,并制作出數(shù)據(jù)結(jié)論雷達圖,具體如圖3所示。圖3顯示出店鋪維度的幾個特點:第一,對于初次評價或追加評價,沒有店鋪出現(xiàn)高滿意指數(shù)(大于85分為高滿意指數(shù)),但追加評論中出現(xiàn)的最低指數(shù)為45.7,低于情感指數(shù)60的店鋪達到4家,整體追加評論的顧客滿意情況不容樂觀;第二,整體上,初次評論情感指數(shù)大于追加評論情感指數(shù),說明追加評論中反映了更多的顧客問題,值得電商商家關(guān)注和思考。在初次評論情感指數(shù)與追加評論情感指數(shù)差值方面,最小差值為2.3,最大差值為17.6,差值均值9.3,說明從初次評論情感指數(shù)到追加評論情感指數(shù)跌幅較大,顧客不滿意程度顯著上升。
圖3 情感指數(shù)店鋪維度分析圖
(3)情感指數(shù)月維度分析。在Python中調(diào)用pandas包以月維度進行指數(shù)分析,并制作出數(shù)據(jù)結(jié)論折線圖,如圖4所示。圖4顯示,從9月到12月,初次評論呈現(xiàn)穩(wěn)定趨勢,追加評論波動較大,11月份處于最低谷。需要指出的是,11月正值每年電商雙11狂歡節(jié),在此重大活動節(jié)點上,追加評論情感指數(shù)呈現(xiàn)最低值,反應(yīng)出顧客對活動評價的不滿意度較大。
圖4 情感指數(shù)月維度分析圖
(4)情感指數(shù)店鋪月列聯(lián)分析。在Python中調(diào)用pandas包對追加評論以店鋪和月兩個維度進行交叉列聯(lián)分析,并制作折線圖,如圖5所示。圖5顯示,就追加評論情感指數(shù)值而言,9—10月份每個店鋪均有不同程度波動,但其中良品鋪子在追加評論中的情感指數(shù)較其他店鋪要好,處于折線圖上方位置;口口福、三只松鼠、百草味三個店鋪9—10月份情感指數(shù)總體表現(xiàn)穩(wěn)定,處于較上方位置;其他店鋪情感指數(shù)數(shù)據(jù)有高有低,呈現(xiàn)出明顯的波動,例如老街口店鋪9—12月份情感指數(shù)較高點為65,低點接近35,二者相差近30。因此,可以按照追加評論的情感指數(shù)將店鋪分為三檔:第一檔為良品鋪子,為顧客情感好感區(qū);第二檔包含口口福、三只松鼠、百草味,為顧客情感認(rèn)同區(qū);第三檔為其他店鋪,為顧客情感波動區(qū)。
通過上述分析,發(fā)現(xiàn)在以電商在線評論文本情感分析基礎(chǔ)上,情感指數(shù)可以作為衡量顧客情感情況的一種重要指標(biāo)。
圖5 情感指數(shù)店鋪-月列聯(lián)分析圖
本文通過在電商在線評論中引入文本情感分析,獲得了在線評論的情感傾向,并通過建立情感指數(shù)達到了解電商在線評論總體情感的目的,同時以店鋪、月等維度對情感指數(shù)做了比較分析,從中發(fā)現(xiàn)情感傾向的程度。以天貓碧根果17 144條在線評論為例的實證分析表明,基于文本情感分析的情感傾向判斷和情感指數(shù)建立在電商在線評論中有著非常好的應(yīng)用,能夠建立新的電商商家評價方式,動態(tài)監(jiān)測顧客情感變化,及時把握整個電商行業(yè)的情感趨勢。
目前,對電商商家的評價方式很多,包括從商品、物流和顧客等角度。例如趙會芬等(2015)通過建立電商營銷過程中的商品評價體系,構(gòu)建商品評價的消費者網(wǎng)絡(luò)社交生態(tài)圈。梅虎等(2015)通過因子分析和回歸分析等探究物流服務(wù)質(zhì)量的關(guān)鍵指標(biāo)對消費者的影響。王軍等建立在線評價的指標(biāo),包括結(jié)構(gòu)分布指標(biāo)、跨類變動指標(biāo)和內(nèi)部變動指標(biāo)等,討論了動態(tài)評價指標(biāo)體系[14]。但是,通過引入文本情感分析的情感傾向判斷及其指數(shù)構(gòu)建,來判斷在線評論中富含的顧客情感傾向和程度,并作為評價電商商家經(jīng)營管理的效果和顧客對商家管理服務(wù)的認(rèn)可,本文尚屬首例。
在基于文本情感分析的電商在線評論評價方法中,不但能夠通過情感指數(shù)判別總體情感傾向程度,同時還可以月為維度分析情感指數(shù)指標(biāo),在數(shù)據(jù)分辨率以“天、時”為單位的采集下,還可以天、時為維度分析。因此,電商商家的經(jīng)營管理完全可以做到對在線評論中蘊含的顧客情感進行動態(tài)監(jiān)測。動態(tài)監(jiān)測由在線評論數(shù)據(jù)采集時時間跨度的因素決定,以時為單位的數(shù)據(jù)采集,將時進行分辨率提升后,可以做到時維度分析、天維度分析、旬維度分析、月維度分析和年維度分析等。上述對在線評論中的動態(tài)監(jiān)測可以使電商商家時刻了解顧客的情感傾向變化,做好經(jīng)營管理服務(wù)和改善。
在基于文本情感分析的電商在線評論評價方法中,以店鋪為維度的分析,能夠準(zhǔn)確把握每個電商商家的顧客情感傾向和程度,反映出商家的服務(wù)滿意情況。店鋪與月維度的交叉列聯(lián)分析[15],可以進一步幫助商家了解自身的顧客情感變化,把握服務(wù)的發(fā)展趨勢。對情感指數(shù)總體進行分析,又能看出整個行業(yè)的顧客情感傾向和程度,以月等時間維度可以使電商平臺和商家把握整個行業(yè)的顧客情感程度和趨勢。
綜上所述,基于文本情感分析的電商在線評論情感傾向判斷和情感指數(shù)的建立,是一種新的電商商家經(jīng)營評價方式,能夠動態(tài)地檢測顧客情感變化,讓電商平臺和商家準(zhǔn)確把握整個行業(yè)的情感趨勢。