白曉萌
摘要:互聯(lián)網(wǎng)時(shí)代,參與網(wǎng)購的消費(fèi)者和銷售商越來越多。商品的網(wǎng)購評(píng)論情況不僅可以幫助顧客做出產(chǎn)品購買決策,還可以幫助企業(yè)制定銷售策略。基于亞馬遜平臺(tái)上的商品銷量和評(píng)論信息,本文通過情感分析將評(píng)語量化為分?jǐn)?shù),并用相關(guān)性分析找到商品評(píng)星、評(píng)語和銷量的關(guān)系,通過多元線性回歸確定了通過評(píng)論衡量產(chǎn)品成功程度的度量方式。
Abstract: In the Internet era, more and more consumers and sellers participate in online shopping. Online comments of goods can not only help customers to make product purchase decisions, but also help enterprises to make sales strategies. Based on the sales and comments of products on the Amazon online market, sentiment analysis is used to transform the textual review into review score. The correlation analysis is used to find out the relationship between commodity ratings, comments and sales volume, and the method to measure the success of commodities through comments is developed based on Multiple Linear Regression.
關(guān)鍵詞:網(wǎng)購評(píng)論;情感分析;相關(guān)性分析;多元線性回歸
Key words: online reviews;sentiment analysis;correlation analysis;Multiple Linear Regression
中圖分類號(hào):F724.6? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2020)29-0013-03
0? 引言
在線購物網(wǎng)站亞馬遜的用戶無論是否購買,都可以發(fā)表對(duì)產(chǎn)品的評(píng)論。對(duì)不同產(chǎn)品的評(píng)論各不相同,為市場分析提供了可獲得的和豐富的數(shù)據(jù)。評(píng)論包括星級(jí)和評(píng)語,此外網(wǎng)站上還可以獲取商品的銷量和評(píng)論用戶的部分個(gè)人信息。
在過去的幾十年里,解釋和處理用戶意見信息的方法已經(jīng)完成了許多工作。本文所做的不僅僅是對(duì)文字評(píng)論進(jìn)行處理,而是根據(jù)所提供的所有與評(píng)論相關(guān)的數(shù)據(jù)進(jìn)行全面的分析,建立衡量產(chǎn)品成功度的評(píng)價(jià)模型,幫助公司制定合適的銷售策略。
1? 評(píng)語量化
1.1 數(shù)據(jù)過濾
網(wǎng)購平臺(tái)上可能存在無效評(píng)論,以下幾種數(shù)據(jù)不做分析考慮。①評(píng)論總數(shù)少于15條的商品不進(jìn)行分析。②同一個(gè)用戶重復(fù)發(fā)表多條內(nèi)容相同的評(píng)論,僅保留一條。③評(píng)論星級(jí)和評(píng)語情感色彩明顯相反的評(píng)論(可能是誤評(píng)),剔除出數(shù)據(jù)集。
1.2 量化分值的計(jì)算
文本形式的評(píng)語是一種不能直接參與計(jì)算的非數(shù)值數(shù)據(jù),這給分析其中隱藏的信息帶來了很大的困難。對(duì)出現(xiàn)在文本評(píng)論中的單詞進(jìn)行普查,可以發(fā)現(xiàn)除了虛詞這類無意義的詞之外,還有兩種經(jīng)常出現(xiàn)在復(fù)習(xí)中的詞。一種是表達(dá)態(tài)度,另一種是描述產(chǎn)品特征。評(píng)論中出現(xiàn)的特征詞比態(tài)度詞更加多樣化,這可能暗示了人們對(duì)具有特定特征的產(chǎn)品的偏好。在對(duì)不同類型產(chǎn)品的評(píng)論中態(tài)度詞幾乎相同,所以在處理文本時(shí)態(tài)度詞比特征詞更容易識(shí)別?;跀?shù)據(jù)的這一特點(diǎn),可以采用情感分析對(duì)文本數(shù)據(jù)進(jìn)行處理。
Vader算法[1]是一種基于詞庫和語法規(guī)則來進(jìn)行文本情感識(shí)別的方法,其基本思想是通過人工標(biāo)注為常用情感詞(包括形容詞、名詞、副詞等)進(jìn)行了情感極性及強(qiáng)度判定。從-4到+4表示從極度負(fù)面和極度正面情感,從而構(gòu)建vader詞庫。該算法還考慮了語法規(guī)則對(duì)情感判別的影響,如標(biāo)點(diǎn)會(huì)加強(qiáng)句子的情感強(qiáng)度、否定詞導(dǎo)致隨后的情感次極性反轉(zhuǎn)等,使用該算法處理文本后的量化值比較符合人的情感認(rèn)知。
對(duì)于給定的輸入文本數(shù)據(jù),Vader情感分析算法返回一個(gè)極性分?jǐn)?shù)百分比的三元組。它還提供了一個(gè)單個(gè)的評(píng)分標(biāo)準(zhǔn),這是一個(gè)在[-1,1]范圍內(nèi)的實(shí)值,即評(píng)語量化后的分?jǐn)?shù),可以作為一種顧客對(duì)商品的評(píng)分。
1.3 評(píng)語和星級(jí)的相關(guān)性
通常情況下,當(dāng)人們給予產(chǎn)品高星級(jí)時(shí),他們傾向于給予正面評(píng)語,使用皮爾遜相關(guān)因數(shù)來找出評(píng)語和星級(jí)之間是否存在關(guān)系,此過程由SPSS軟件完成。經(jīng)檢驗(yàn),評(píng)語與星級(jí)之間的相關(guān)關(guān)系在0.01水平上顯著,說明評(píng)語與星級(jí)之間存在正相關(guān)關(guān)系,且相關(guān)關(guān)系非常顯著。
2? 產(chǎn)品的聲譽(yù)
2.1 評(píng)論的可信度
不同類型的客戶做出的評(píng)論可信度是不同的。一些客戶是亞馬遜會(huì)員,這意味著他們更可靠,他們可以從亞馬遜免費(fèi)獲得產(chǎn)品。有些顧客在發(fā)表評(píng)論之前并沒有在亞馬遜購買過該產(chǎn)品,這可能表明他們的評(píng)論不如那些購買過該產(chǎn)品的人可信。此外,亞馬遜還為顧客提供了為他人評(píng)論“點(diǎn)贊”的機(jī)會(huì)。有些評(píng)論得到了很多點(diǎn)贊,但有些沒有得到任何點(diǎn)贊。因此,在綜合考慮所有評(píng)論之前,有必要使用一個(gè)參數(shù)來描述每個(gè)評(píng)論的可信度。根據(jù)上面的分析,每個(gè)評(píng)論的可信度與客戶是否是亞馬遜會(huì)員,是否購買過該產(chǎn)品,以及有多少點(diǎn)贊數(shù)有關(guān)。
式中wij表示第i件商品的第j條評(píng)論的可信度;v1表示每條評(píng)論獲得的點(diǎn)贊數(shù);v2表示評(píng)論者是否為會(huì)員;v3表示評(píng)論者是否購買過此商品;β是分配給三個(gè)因素的權(quán)重。
2.2 聲譽(yù)計(jì)算
在評(píng)論可信度的基礎(chǔ)上,引入產(chǎn)品市場聲譽(yù)的計(jì)算方法。聲譽(yù)一般指顧客對(duì)產(chǎn)品的滿意程度,可以從評(píng)論中體現(xiàn),聲譽(yù)是評(píng)論所蘊(yùn)含全部信息的高度概括。
實(shí)際上,顧客在做出評(píng)論時(shí),可能會(huì)受到產(chǎn)品已有的評(píng)論影響。根據(jù)Park和Lee的實(shí)驗(yàn)結(jié)論[2],產(chǎn)品已有的好評(píng)數(shù)量越多,越有可能對(duì)后買的顧客產(chǎn)生積極影響。然而,差評(píng)的影響與差評(píng)數(shù)關(guān)系較小。一旦出現(xiàn)了差評(píng),無論差評(píng)多或少,都會(huì)對(duì)客戶產(chǎn)生較大的負(fù)面影響。據(jù)此,把商品的差評(píng)率作為單列的一項(xiàng)指標(biāo)來評(píng)價(jià)產(chǎn)品聲譽(yù)。
衡量產(chǎn)品的市場聲譽(yù)時(shí)考慮3個(gè)因素和1個(gè)修正值,3個(gè)因素為:評(píng)論星級(jí)、文本評(píng)語量化得分、差評(píng)率,1個(gè)修正值為評(píng)論的可信度,前兩個(gè)因素都要乘修正值才能使用。在對(duì)三個(gè)因素進(jìn)行賦權(quán)時(shí),可以采用簡單的層次分析法。
3? 產(chǎn)品成功度
銷量高的產(chǎn)品就是成功的產(chǎn)品,每個(gè)月的銷量數(shù)據(jù)比較容易直接從購物網(wǎng)站上獲取。
下面將成功程度定義為銷售數(shù)量的對(duì)數(shù),認(rèn)為銷量的對(duì)數(shù)可以由產(chǎn)品評(píng)論星級(jí)和評(píng)語量化值以及差評(píng)率的線性組合表示,采用多元線性回歸的方法,確定各項(xiàng)系數(shù),建立由評(píng)論信息確定產(chǎn)品成功度的模型。以亞馬遜網(wǎng)站上的電吹風(fēng)、微波爐和嬰兒奶嘴三類商品為例,用matlab軟件的線性擬合工具進(jìn)行擬合,可以得到擬合效果較好的一組參數(shù),參數(shù)值如表1所示,擬合效果如圖1所示。
經(jīng)過回歸方程的顯著性檢驗(yàn),置信區(qū)間為95%,P=0.000028<0.0001,說明模型有效。由此,可以得到基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品成功度評(píng)價(jià)模型,如圖2所示。
4? 靈敏度分析
在計(jì)算評(píng)語可信度時(shí),我們采用了主觀賦權(quán)的方法,對(duì)可信度的三個(gè)指標(biāo)β1、β2和β3進(jìn)行賦權(quán),缺乏客觀性。為了使結(jié)論更加穩(wěn)定,對(duì)權(quán)重進(jìn)行了靈敏度分析。
根據(jù)俞立平等的研究[3],對(duì)指標(biāo)權(quán)重的靈敏度分析時(shí),權(quán)重之和必須為1,即一個(gè)指標(biāo)權(quán)重的增加必然導(dǎo)致其他指標(biāo)權(quán)重的減少。在一個(gè)評(píng)價(jià)體系的n個(gè)指標(biāo)中,當(dāng)某個(gè)指標(biāo)vj的權(quán)重由βj增加到βj+σj時(shí),為了保證所有指標(biāo)的權(quán)重之和為1,其它(n-1)個(gè)指標(biāo)平均每個(gè)指標(biāo)的權(quán)重要減少σj/(n-1)。在可信度評(píng)價(jià)時(shí)共選取了3個(gè)指標(biāo),因此權(quán)值調(diào)整后的評(píng)價(jià)體系為:
在計(jì)算時(shí),首先設(shè)置一個(gè)初始權(quán)重值,按照一定的步長逐漸增加σj,每改變一次權(quán)重都重新進(jìn)行評(píng)價(jià),直到評(píng)價(jià)后的排序不一致為止。由此可以得到使得評(píng)價(jià)排序穩(wěn)定的權(quán)重波動(dòng)范圍。用matlab軟件編寫程序,分析各指標(biāo)權(quán)重的靈敏度,表2是分析結(jié)果。
5? 討論與建議
5.1 發(fā)現(xiàn)與討論
利用情感分析算法對(duì)文本進(jìn)行處理,并將文本的情感傾向量化為一個(gè)值。研究發(fā)現(xiàn),該值與星級(jí)評(píng)分有密切的關(guān)系。這很容易解釋,因?yàn)槿藗儍A向于同時(shí)給出好的評(píng)論和高星級(jí)評(píng)價(jià),同時(shí)給出壞的評(píng)論和低星級(jí)評(píng)價(jià)。會(huì)員用戶的評(píng)論更容易獲得點(diǎn)贊。這可能是因?yàn)榇祟愑脩舻脑u(píng)論通常比其他人長,他們寫過的評(píng)論條數(shù)也比其他人多。
特定的星級(jí)評(píng)分會(huì)引發(fā)更多的評(píng)論。例如,顧客在看到一系列的低星級(jí)評(píng)價(jià)后,更有可能寫一些不好的評(píng)論。同樣地,顧客在看到一系列的高星級(jí)評(píng)價(jià)后,更有可能寫出一些好的評(píng)論。
5.2 對(duì)商家的建議
通過高頻詞的提取和識(shí)別,可以發(fā)現(xiàn)電吹風(fēng)、微波爐、嬰兒奶嘴這三種產(chǎn)品在眾多評(píng)論中其潛在的重要設(shè)計(jì)特征,以提高產(chǎn)品的可取性。結(jié)果顯示,商家應(yīng)該集中精力改進(jìn)產(chǎn)品的以下方面:
①電吹風(fēng):功率、熱度、外觀、價(jià)格、使用壽命。
②微波爐:外觀、空間、可維護(hù)性、發(fā)熱性、使用壽命。
③奶嘴:好看、干凈、容量、容納、可愛、洗滌。
另外,這三類產(chǎn)品的年銷售高峰是在12月到次年2月,所以建議商家應(yīng)該在冬季(圣誕節(jié)前后)推出新產(chǎn)品。此外,每款商品從上市起,其評(píng)論數(shù)量和銷量都隨時(shí)間呈現(xiàn)指數(shù)式增長,這可以反映市場需求量。所以當(dāng)商家進(jìn)入網(wǎng)絡(luò)市場時(shí),其生產(chǎn)廠家應(yīng)該有充足的供應(yīng)保證滿足市場指數(shù)增長的需求。
參考文獻(xiàn):
[1]C. J. Hutto, Eric Gilbert. VADER: A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text[J]. 2014.
[2]Park N , Lee K M . Effects of online news forum on corporate reputation[J]. Public Relations Review, 2007, 33(3):346-348.
[3]俞立平,潘云濤,武夷山.科技評(píng)價(jià)靈敏度分析研究——單個(gè)指標(biāo)與組合指標(biāo)[J].軟科學(xué),2009,23(008):1-4.