尤天慧, 陶玲玲, 袁 媛
(東北大學 工商管理學院,遼寧 沈陽 110169)
無論是生產(chǎn)型企業(yè)還是服務型企業(yè),提升顧客滿意度都是企業(yè)經(jīng)營工作的重中之重,因此,有關顧客滿意度評估方法的研究一直備受關注[1]。在傳統(tǒng)評估方法中,主要是通過問卷調(diào)查、調(diào)研或訪談等方式獲取評估顧客滿意度的信息[2]。但是這些方式耗費時間、人力和物力投入大,且數(shù)據(jù)易過時[3]。近年來,隨著互聯(lián)網(wǎng)和電子商務的快速發(fā)展,越來越多的電商網(wǎng)站允許消費者針對產(chǎn)品或服務的使用體驗發(fā)表在線評論,這些在線評論信息具有樣本數(shù)據(jù)量大、易獲取、真實性高、成本低和動態(tài)更新等特點[4,5]。因此,在線評論已成為評估顧客滿意度的重要信息來源。
目前,針對基于在線評論進行顧客滿意度評估和影響因素識別的研究已經(jīng)引起了有關學者的關注。如,ZHAO等基于在線評論的技術屬性利用多元回歸分析法預測整體顧客滿意度[6]。劉巖等基于在線評論利用TF-IDF算法和多元回歸分析法對酒店總體顧客滿意度進行評估[7]。馮坤等基于在線評論利用隨機占優(yōu)準則和PROMETHEE-II方法對生鮮電商的顧客滿意度進行評估[8]。LIU等基于在線評論利用多元回歸法分析影響國內(nèi)外酒店顧客滿意度的關鍵因素[9]。GUO等利用LDA從在線評論中提取19個顧客滿意度維度,并利用逐步回歸法分析各維度對整體顧客滿意度影響的差異[10]。WANG等利用SnowNLP對在線評論進行積極或消極情感傾向識別,并基于回歸分析法識別影響顧客滿意度的屬性[11]。SEZGEN等分別將積極和消極在線評論看作消費者滿意和不滿意的評論,利用潛在語義法分析影響消費者滿意和不滿意的滿意度驅(qū)動因素[12]。XU等基于在線評論利用潛在語義法分析影響顧客滿意和不滿意的因素[13]。雖然已有基于在線評論進行顧客滿意度評估和影響因素識別的研究已經(jīng)取得了較豐富的成果,但仍有局限性。一是目前基于在線評論的顧客滿意度評估大多假設評估屬性相互獨立,較少考慮評估屬性之間可能存在相關性的情形。例如,酒店的顧客滿意度的評估屬性價格和服務質(zhì)量可能存在相關性,通常服務質(zhì)量高的酒店,其價格也會高。二是已有研究較少針對顧客滿意度和評估屬性之間動態(tài)關系進行分析,而通過動態(tài)關系分析可以更直觀地了解各評估屬性對顧客滿意度影響的動態(tài)變化,并以此輔助企業(yè)進行有針對性的產(chǎn)品或服務改進以提升顧客滿意度。基于此,本文提出一種基于在線評論的顧客滿意度評估方法,并通過構(gòu)建向量自回歸模型分析顧客滿意度與評估屬性之間的動態(tài)關系。
本文研究基于在線評論的顧客滿意度評估方法,并分析顧客滿意度與評估屬性之間的動態(tài)關系,為便于研究和分析,對本文涉及到的相關數(shù)學符號描述如下:
D={D1,D2,…,D|D|}:關于產(chǎn)品或服務的在線評論的集合,其中Dk表示第k條在線評論,|D|表示在線評論的條數(shù),k=1,2,…,|D|。
C={c1,c2,…,cm}:從在線評論中提取的顧客滿意度評估屬性的集合,其中cj表示第j個評估屬性,m表示評估屬性的數(shù)量,j=1,2,…,m。
本文要解決的問題是:依據(jù)產(chǎn)品或服務各時期的在線評論信息,如何評估各時期的顧客滿意度,并對顧客滿意度和評估屬性之間的動態(tài)關系進行分析。
在線評論通常是以非結(jié)構(gòu)化文本的形式出現(xiàn)的,不能直接用于分析?;谠诰€評論進行顧客滿意度的評估,首先要從在線評論中挖掘有用的信息,包括顧客滿意度的評估屬性提取及其情感分析。
2.1.1 基于LDA提取顧客滿意度評估屬性
LDA作為一種無監(jiān)督機器學習技術已被廣泛應用于從在線評論中識別隱藏的主題信息[14]。LDA的主要思想是在每條評論中以一定概率選定某個主題,然后依據(jù)該主題以一定概率確定可能屬于這個主題的詞語,最后根據(jù)得到的主題分布和詞語分布推斷出在線評論的主要主題。利用LDA從在線評論中提取顧客滿意度評估屬性的具體過程如下。
利用爬蟲軟件從相關網(wǎng)站上獲取在線評論D,然后進行預處理,包括詞性標注,刪除停用詞、否定詞和程度副詞。統(tǒng)計每個詞出現(xiàn)的頻次,由預處理后的|D|條評論得到“評論-詞”矩陣。依據(jù)“評論-詞”矩陣訓練LDA模型,可得到“評論-主題”矩陣、“主題-詞”矩陣和主題列表。在此基礎上,通過人工合并相似的主題,并為每個主題分配一個標簽。基于GUO等[10]和BI等[14]研究的思想,可將確定的主題標簽集合視為顧客滿意度評估屬性集合。令cj={fj1,fj2,…,fjHj}表示從在線評論中提取的評估屬性cj所包含的屬性詞集合,其中fjh表示評估屬性cj的第h個屬性詞,Hj表示評估屬性cj的屬性詞數(shù)量,j=1,2,…,m,h=1,2,…,Hj。
2.1.2 基于IOVO-SVM的情感傾向識別
通常,一條在線評論中可能包含關于不同評估屬性的多個句子,也可能不包含所有的評估屬性。因此,為了識別關于各評估屬性的情感傾向,需要先確定在線評論中關于各評估屬性的所有句子的集合。令Dj={Dj1,Dj2,…,DjIj}表示D中關于第j個評估屬性的句子的集合,其中Dji表示關于第j個評估屬性的第i條句子,Ij表示D中關于第j個評估屬性的句子條數(shù),i=1,2,…,Ij,Ij≤|D|。具體地,首先依據(jù)標點符號將D中各條在線評論分句。然后,依據(jù)cj提取分句后D中包含fjh的所有句子得到Dj。特別地,若某條評論中有多個關于同一個評估屬性的句子,則需要把它們合并成一個句子。
2.1.3 確定各時期評估屬性的情感得分
(1)
(2)
(3)
其中,t=1,2,…,l,j=1,2,…,m。
令Rtj為第t時期得到的評估屬性cj的情感得分,本文分別賦予積極、中立和消極的情感傾向的情感分為1分、0分和-1分。考慮到在同一時期內(nèi)關于不同評估屬性的評論條數(shù)可能不同,關于某評估屬性的評論條數(shù)越多,說明其越被重視。因此,本文采用相對值法計算第t時期評估屬性的情感得分Rtj,計算公式為
(4)
2.2.1 確定評估屬性的權重
本文基于離差最大化方法確定各評估屬性的權重。該方法依據(jù)各評估屬性的情感得分在各時期的離散程度對屬性客觀賦權。若某一評估屬性在各時期的情感得分差異較大,則說明該屬性在顧客滿意度評估中將起重要作用,故應該賦予較大權重;反之,賦予較小權重[16]?;陔x差最大化方法確定評估屬性權重的最優(yōu)化模型為
(5)
通過求解最優(yōu)化模型(5),可得:
(6)
(7)
2.2.2 各時期顧客滿意度的評估
考慮到提取的評估屬性之間可能存在線性關系,馬氏距離是一種可消除屬性之間線性關系的距離測度方法。因此,本文利用基于馬氏距離的TOPSIS方法[17]計算不同時期的顧客滿意度。首先,對各時期關于各評估屬性的情感得分矩陣[Rtj]l×m進行規(guī)范化,得到規(guī)范化矩陣[rtj]l×m,其中rtj的計算公式為
(8)
(9)
(10)
進而,計算在第t時期在線評論中各屬性的情感得分向量rt=(rt1,rt2,…,rtm)分別到f+和f-的馬氏距離,即
(11)
(12)
最后,令Ft為第t時期產(chǎn)品或服務的顧客滿意度評估值,則Ft可由下式得到:
(13)
向量自回歸模型(簡稱VAR)主要應用在具有一定關系的時間序列系統(tǒng),可以用于分析變量之間的動態(tài)關系[18]。本文將l個時期的各評估屬性的情感得分和顧客滿意度評估值作為變量,構(gòu)建VAR模型分析顧客滿意度與各評估屬性的動態(tài)關系。具體構(gòu)建過程如下:
(1)在各組變量的數(shù)據(jù)平穩(wěn)的前提下,對數(shù)據(jù)進行VAR模型估計,并利用格蘭杰因果關系檢驗(Granger Test of Causality)變量之間是否存在因果關系。
(2)利用脈沖響應分析和方差分解分析各評估屬性在受到?jīng)_擊時對顧客滿意度影響的變化情況以及各評估屬性對顧客滿意度的影響程度。
本文構(gòu)建的VAR模型可表示為:
(14)
其中,Yt表示顧客滿意度評估值的時期列向量;Cjt為各評估屬性情感得分時期列向量;θ0為截距項,θe和φe是滯后e期參數(shù)矩陣;μt是服從正態(tài)分布的隨機誤差項。
為了說明本文給出方法的使用過程和可行性,下面基于去哪兒網(wǎng)(Qunar.com)上一家三星級酒店維也納國際酒店北京廣安門店(Vienna International Hotel,簡稱VIH)的在線評論為例,運用本文提出的方法對其進行顧客滿意度評估,并分析顧客滿意度與各評估屬性的動態(tài)關系。下面給出主要計算過程和結(jié)果。
首先,從去哪兒網(wǎng)上利用八爪魚采集器(http://www.bazhuayu.com/)收集酒店VIH在2015年1月到2019年7月的在線評論共1850條。以一個月為一個時間周期,共分55個時期。獲取的VIH酒店在55個時期內(nèi)的在線評論數(shù)量如表1所示。
表1 VIH酒店在各時期內(nèi)的在線評論的數(shù)量
其次,使用Python語言實現(xiàn)基于LDA的評估屬性的提取,依據(jù)BI等[14]的研究,LDA的各參數(shù)設置為:α=0.1,η=0.01,主題數(shù)量設置為15,迭代次數(shù)設置為2000。通過人工合并相似的主題得到11個評估屬性,分別為價格(c1)、位置(c2)、停車場(c3)、服務(c4)、網(wǎng)絡(c5)、設施(c6)、食物(c7)、房間(c8)、清潔度(c9)、性價比(c10)和入住和退房(c11)。
再次,利用IOVO-SVM識別各時期針對各評估屬性的每條在線評論的情感傾向,進而依據(jù)情感傾向識別結(jié)果和式(1)-式(3),統(tǒng)計各時期內(nèi)各評估屬性的在線評論為積極、中立和消極情感傾向的頻次。依據(jù)式(4)可計算得到各時期內(nèi)各評估屬性的情感得分,進一步地,依據(jù)各時期評估屬性的情感得分和式(7)可確定c1-c11評估屬性的權重分別為0.045,0.144,0.024,0.137,0.020,0.192,0.039,0.140,0.092,0.149,0.018。
最后,依據(jù)各時期內(nèi)各評估屬性的情感得分、各評估屬性的權重和式(8)-式(13)可確定各時期內(nèi)VIH酒店的顧客滿意度評估值,1到55期的評估值分別為:0.133,0.166,0.290,0.158,0.411,0.168,0.149,0.181,0.217,0.244,0.084,0.120,0.055,0.128,0.024,0.055,0.050,0.026,0.031,0.025,0.020,0.038,0.020,0.022,0.030,0.140,0.043,0.152,0.072,0.019,0.099,0.036,0.037,0.061,0.025,0.027,0.055,0.054,0.639,0.080,0.039,0.046,0.023,0.020,0.021,0.042,0.054,0.129,0.063,0.071,0.035,0.110,0.151,0.034,0.024。
通過構(gòu)建VAR模型,利用EViews 7.0軟件對VIH酒店在2015年1月到2019年7月期間的顧客滿意度和各評估屬性之間的動態(tài)關系進行分析。為保證回歸結(jié)果可靠性,避免出現(xiàn)“偽回歸”,有必要先對顧客滿意度變量和各評估屬性變量的時間序列數(shù)據(jù)分別進行平穩(wěn)性檢驗[19]。本文基于EViews 7.0軟件對各變量利用ADF檢驗(ADF-Fisher Chi-square)平穩(wěn)性,結(jié)果顯示在55個時期內(nèi)顧客滿意度變量和各評估屬性變量的時間序列數(shù)據(jù)均是平穩(wěn)的。因此,55個時期的顧客滿意度評估值和各評估屬性的情感得分的時間序列數(shù)據(jù)可建立VAR模型。具體步驟如下:
首先,基于赤池信息準則(AIC)和施瓦茲準則(SC)確定估計的VAR模型最佳滯后期,可得當滯后期為3時,AIC準則和SC準則均具有最小值。故最佳滯后期為3。
然后,檢驗兩個變量之間是否存在格蘭杰因果關系,即各變量是否均為內(nèi)生變量。利用EViews 7.0軟件得到各評估屬性變量和顧客滿意度變量的P值(F統(tǒng)計的概率)均小于0.05,即在5%的顯著性水平下均為內(nèi)生變量。
接著,通過AR根圖表結(jié)果顯示構(gòu)建的VAR模型是穩(wěn)定的。進而,利用脈沖響應分析顧客滿意度與各評估屬性之間相互作用的短期的動態(tài)關系。脈沖響應函數(shù)的主要作用是測量一個變量受到?jīng)_擊對另一個變量產(chǎn)生的影響。分析結(jié)果如圖1所示。圖中Ft表示顧客滿意度評估值,C1-C11分別表示評估屬性c1-c11。
需要說明的是,圖1中變化的單位是一個標準差。從圖1可發(fā)現(xiàn),分別給11個評估屬性一個單位沖擊,在短期內(nèi)顧客滿意度均會產(chǎn)生不同程度的正向影響,但長期影響會趨于穩(wěn)定,即針對酒店的11個評估屬性進行改進在短期均可提高顧客滿意度。具體地,當給價格(c1)一個單位沖擊時,其對于顧客滿意度提升在短期內(nèi)具有正向影響且在第3期影響最大,長期保持穩(wěn)定;當分別給設施(c6)、食物(c7)、房間(c8)、清潔度(c9)一個單位沖擊后,對顧客滿意度產(chǎn)生的影響持續(xù)時間相對其他評估屬性稍短,但均可產(chǎn)生正向影響。
(a)C1對Ft的脈沖響應 (b)C2對Fp的脈沖響應 (c)C3對Fp的脈沖響應
(d)C4對Fp的脈沖響應 (e)C5對Fp的脈沖響應 (f)C6對Fp的脈沖響應
(g)C7對Fp的脈沖響應 (h)C8對Fp的脈沖響應 (i)C9對Fp的脈沖響應
(j)C10對Fp的脈沖響應 (k)C11對Fp的脈沖響應
進一步地,利用方差分解分析各評估屬性對顧客滿意度的影響程度。方差分解可量化每一個評估屬性變量的沖擊對顧客滿意度變化的貢獻,分析結(jié)果表明:價格(c1)對顧客滿意度變化的貢獻率最初為最大值80%,之后逐漸降低,到第10期左右降為20%,并維持該貢獻率不變;停車場(c3)、食物(c7)、房間(c8)、清潔度(c9)和性價比(c10)的貢獻率隨著時間的推移在逐漸增加,長期均趨于平穩(wěn),貢獻率分別為10%,10%,20%,18%和10%;而其他評估屬性的貢獻率均低于10%。
綜合脈沖響應分析和方差分解分析結(jié)果可知,相對于其他評估屬性,VIH酒店的價格在受到?jīng)_擊后,對顧客滿意度產(chǎn)生影響的時間最快,且對提高顧客滿意度的貢獻率也最大。房間在受到?jīng)_擊后對提高顧客滿意度的貢獻率和產(chǎn)生影響時間稍慢于價格。其次為清潔度、性價比、位置、停車場和食物。其他4個評估屬性對顧客滿意度貢獻率較小。因此,該酒店若想提高顧客滿意度,可以重點關注價格。其次可著重從房間、清潔度和性價比進行改進。
下面通過將本文提出方法與馮坤等[8]提出的方法進行對比分析?;隈T坤等[8]提出的方法對VIH酒店的顧客滿意度測評得到各評估屬性的顧客滿意度的重要度由大到小排序為:c1,c11,c8,c7,c5,c9,c10,c4,c2,c3,c6。
與本文提出方法的結(jié)果對比可知,本文與馮坤等[8]的研究計算得到的結(jié)果均顯示價格對顧客滿意度的影響最大,房間的影響大于清潔度,清潔度的影響大于性價比,設施的影響最小。而馮坤等[8]的研究得到的結(jié)果與本文得到的結(jié)果也有差異,原因可能在于,在顧客滿意度分析階段,馮坤等[8]基于情感分析結(jié)果構(gòu)建各屬性的隨機占優(yōu)矩陣,進而利用PROMETHEE-II方法計算評估屬性的重要度排序值來確定排序結(jié)果。本文利用基于馬氏距離的TOPSIS方法計算不同時期的顧客滿意度,該方法可消除評估屬性之間的線性相關性。此外,本文基于脈沖響應分析圖和方差分解圖綜合確定評估屬性對顧客滿意度影響的變化情況及影響程度,可以直觀的展示評估屬性與顧客滿意度的動態(tài)關系,即可以了解隨著時間的變化,各評估屬性對顧客滿意度產(chǎn)生影響的變化。
本文提出了一種基于在線評論的顧客滿意度評估方法,并分析了顧客滿意度與各評估屬性的動態(tài)關系。首先,利用LDA從在線評論中提取顧客滿意度評估屬性,并基于IOVO-SVM對針對每個評估屬性的各條評論進行情感分析,依據(jù)情感分析結(jié)果確定各時期各評估屬性的情感得分。然后,利用離差最大化方法確定各評估屬性的權重,進而利用基于馬氏距離的TOPSIS方法計算不同時期的顧客滿意度評估值。進一步地,基于不同時期的顧客滿意度評估值及各評估屬性的情感得分,通過構(gòu)建VAR模型對顧客滿意度與各評估屬性的動態(tài)關系進行分析。本文提出的方法與已有相關方法的不同之處是,一方面本文基于在線評論考慮了評估屬性之間的相關性給出了一種顧客滿意度評估方法,使評估結(jié)果更能反映實際情形;另一方面,本文對顧客滿意度與各評估屬性的動態(tài)關系進行了分析,可以使企業(yè)更直觀的了解各評估屬性對顧客滿意度的影響情況,以輔助企業(yè)進行有針對性的產(chǎn)品或服務改進以提高顧客滿意度。