王 越,支鑫榮,趙 萌,童新安
(洛陽理工學院,河南 洛陽 471023)
近年來,線上購物已成為人們生活中不可或缺的部分,但是線上購物平臺產(chǎn)品的質(zhì)量參差不齊,而客戶的反饋評價是最能直接反映產(chǎn)品優(yōu)劣程度的指標。通過產(chǎn)品銷售數(shù)據(jù),分析其在評價結(jié)果中的最優(yōu)產(chǎn)品系列,并重點通過PMI算法[1]將評論文本量化過程及運用TOPSIS算法進行數(shù)據(jù)分析。以亞馬遜平臺某微波爐產(chǎn)品2004---2015年的銷售數(shù)據(jù)為研究對象,其部分數(shù)據(jù)樣本如表1所示。其中,Product title表示產(chǎn)品名稱,Star rating表示星級評價,Helpful vote與Total votes分別表示幫助投票數(shù)與總投票數(shù),VINE與Verified purchase分別表示不同類型客戶,Review date表示評論時間,Review body表示評論文本內(nèi)容。
表1 預處理前的銷售數(shù)據(jù)(部分)
PMI算法原理是統(tǒng)計兩個詞匯在文本中同時出現(xiàn)的概率,其概率越大,則相關性越緊密,關聯(lián)度越高[2]。該算法常用于解決文本感情分析問題。采用PMI算法對評論進行量化處理,其主要步驟如圖1所示[3]。
圖1 PMI算法流程圖
步驟1:搜索句子中的情感關鍵詞并計數(shù)。
WordNet詞典被廣泛使用在英語感情分析中,對一個句子中的單詞進行情感分析時,首先應確定該單詞是否包括在情感詞典中,如果情感詞典中存在該單詞,則將情感詞典中該單詞的情感信息作為情感分析結(jié)果,如果情感詞典中不存在該單詞,則選擇與該單詞意思較為接近的基準單詞,根據(jù)基準單詞在情感詞典中的信息判斷該單詞的情感意思。
步驟2:搜索情感單詞的相關性。
為了計算兩個單詞相互關聯(lián)程度,采用PMI算法,即點互信息,其計算公式如下:
PMI=(word1,word2)
(1)
其中:p(word1&word2)表示兩個單詞同時出現(xiàn)的概率;p(word1)表示word1出現(xiàn)的概率;p(word2)表示word2出現(xiàn)的概率。
如果PMI大于0,則意味著兩個單詞同時出現(xiàn)的概率將大于兩者單獨出現(xiàn)概率的乘積,也可以表示為兩者有一定的相關性,且PMI的絕對值與詞語共現(xiàn)頻率呈正相關關系。
如果PMI為0,表示兩個單詞相互獨立。如果PMI小于0,表示兩個單詞的共現(xiàn)頻率較低,兩者是互斥的。如果需要判斷的單詞與作為參考的單詞相關性較大,意思比較接近,那么兩者的共現(xiàn)概率較高,在研究中則認為兩者的情感傾向是一致的,但情感傾向程度是不同的。
單詞情感傾向值公式如下:
(2)
其中:Pword是褒義基準單詞,Nword是貶義基準單詞。
步驟3:根據(jù)相互關聯(lián)的程度賦予不同權值。
判斷一個單詞的情感傾向方向,簡化為計算該單詞和情感基準單詞excellent(褒義)與poor(貶義)的SO-PMI值,如下:
SO-PMI(word)=PMI(word,“excellent”)
-PMI(word,“poor”)
(3)
其中:如果SO-PMI大于0,則表示該單詞與excellent相關程度更高,其情感傾向為褒義。如果SO-PMI小于0,則表示該單詞與poor的相關程度更高,其情感傾向為貶義[4]。
步驟4:計算句子的情感得分。
根據(jù)所得的情感傾向程度將不同評論分為五個等級,從而將評論文本內(nèi)容量化,如表2所示。
表2 評論等級
指標一:評論文本。
根據(jù)PMI算法得到各個評論文本量化后的數(shù)值結(jié)果,如表3所示。
表3 評論文本等級結(jié)果
指標二:評級。
將該產(chǎn)品統(tǒng)計數(shù)據(jù)中的評級分為五類(1~5),5級為最高級,表示客戶對其滿意度最高,相反,1級為客戶滿意度最低。將評級進行量化分析,如公式(4)所示:
(4)
其中:w1′表示其原始評級等級,若評級度量值w1越接近1,則表示顧客非常樂意購買該產(chǎn)品,其產(chǎn)品價值也越高。
指標三:幫助評級。
幫助評級是指顧客購買產(chǎn)品后的評價對后來客戶購買該產(chǎn)品的幫助程度。為表示幫助評級的不同影響程度,將幫助評級用w2表示。
(5)
其中:w2′表示幫助投票數(shù)量,若w2越接近于1,則表示該評論對顧客的購買影響越大。w2″表示總投票數(shù)量。
根據(jù)該產(chǎn)品的銷售數(shù)據(jù)處理后結(jié)果,其產(chǎn)品評級、幫助評級與評論文本這三項作為評價模型的三個指標,以熵值法[5]求解三個指標的權重,具體步驟如下:
步驟1:算法實現(xiàn)過程。
構(gòu)建數(shù)據(jù)矩陣:
(6)
其中:Xij為第i種產(chǎn)品、第j個指標的數(shù)值。當j=1時,表示為評級指標,當j=2時,表示為幫助評級指標,當j=3時,表示為評論等級指標。
步驟2:計算第j項指標在第i個評價對象的特征比重。
(7)
步驟3:計算第j項指標的熵值。
(8)
其中:k=1/lnm。
若0 步驟4:求權重。 (9) 其中:Wj為指標的客觀權重[3]。 步驟5:根據(jù)“加法”集成法分析得出三項指標所占的實際權重。 為了更合理地建立產(chǎn)品價值評估模型,將客戶群體按照是否成功付款、是否為vine,分為三類:普通客戶、vine客戶以及未付款客戶,區(qū)別如表4所示。 表4 客戶類型分類 根據(jù)“加法”集成法,記: Wi=αWj+(1-α)bi (10) 其中,Wj表示第i個指標的組合權重;Wj,bj分別為第j個指標的客觀權重和主觀權重。又由于客觀權重Wj已經(jīng)求出,再考慮實際情況,得出主觀權重bj=[0.4 0.2 0.4],再通過實際情況分析,令α=0.4,并通過線性加權代入上式得出第一類客戶權重為W1=[0.67,0.13,0.2]。 根據(jù)(10)分別求出其余兩類不同顧客所對應的不同權重: 其中:W1代表普通客戶的權重分配,W2表示未付款顧客的權重分配,W3代表vine顧客的權重分配。 以Topsis綜合評價法[6]為基礎,建立優(yōu)秀產(chǎn)品模型,根據(jù)以上計算所得的各個權重與數(shù)據(jù)集得出所評價對象中最優(yōu)的綜合評價結(jié)果,其具體步驟如下: 步驟1:求出加權距離。 (11) 步驟2:列出綜合評價函數(shù)。 (12) 即反映出第i個指標與理想點的差異程度。經(jīng)過計算,按照yi(i=1,2,…,n)值的大小對各被評價對象進行排序選優(yōu)。顯然,其值越小,則相應的對象就越好。當某個yi=0時,即達到了理想點,則對應的被評價對象是最好的。由于本模型在同一個產(chǎn)品中區(qū)分了三個不同客戶群體,所以同一產(chǎn)品進行三組數(shù)據(jù)計算。 步驟3:求得最優(yōu)解。 根據(jù)產(chǎn)品ID與產(chǎn)品名對應關系,選取微波爐產(chǎn)品中評價結(jié)果為前25個的產(chǎn)品名稱,其中danby 0.7 cu.ft.countertop microwave這款產(chǎn)品名稱的占比最高,達到20%,故選擇其為微波爐產(chǎn)品中的優(yōu)秀產(chǎn)品名稱,具體結(jié)果如表5所示。 表5 前25個優(yōu)秀產(chǎn)品名稱比例分配情況 選用亞馬遜平臺微波爐產(chǎn)品的在線評論數(shù)據(jù),通過PMI算法對文本情感傾向進行自然語言處理,將評論情感劃分等級,從而將其量化。采用TOPSIS綜合評價得到該微波爐的最優(yōu)產(chǎn)品系列,其結(jié)果作為度量值能較為精確地反映產(chǎn)品口碑。主要得到了以下結(jié)論: 通過PMI算法對文本感情進行分析可以實現(xiàn)對評論文本的量化過程。根據(jù)客戶購買時的不同情況,將客戶分為三類群體計算評價模型的權重,有利于評價模型的真實性。建立優(yōu)秀產(chǎn)品名稱模型,利用topsis的綜合評價方法選出danby 0.7 cu.ft.countertop microwave,該產(chǎn)品為Amazon平臺中微波爐評價最好的微波爐產(chǎn)品系列名稱之一。 該模型針對于線上產(chǎn)品銷售數(shù)據(jù)分析,對選擇優(yōu)秀產(chǎn)品系列有較好的應用與推廣意義。3 建立優(yōu)秀產(chǎn)品評價模型
4 結(jié)語