王 越,支鑫榮,趙 萌,童新安
(洛陽(yáng)理工學(xué)院,河南 洛陽(yáng) 471023)
近年來(lái),線上購(gòu)物已成為人們生活中不可或缺的部分,但是線上購(gòu)物平臺(tái)產(chǎn)品的質(zhì)量參差不齊,而客戶的反饋評(píng)價(jià)是最能直接反映產(chǎn)品優(yōu)劣程度的指標(biāo)。通過(guò)產(chǎn)品銷(xiāo)售數(shù)據(jù),分析其在評(píng)價(jià)結(jié)果中的最優(yōu)產(chǎn)品系列,并重點(diǎn)通過(guò)PMI算法[1]將評(píng)論文本量化過(guò)程及運(yùn)用TOPSIS算法進(jìn)行數(shù)據(jù)分析。以亞馬遜平臺(tái)某微波爐產(chǎn)品2004---2015年的銷(xiāo)售數(shù)據(jù)為研究對(duì)象,其部分?jǐn)?shù)據(jù)樣本如表1所示。其中,Product title表示產(chǎn)品名稱(chēng),Star rating表示星級(jí)評(píng)價(jià),Helpful vote與Total votes分別表示幫助投票數(shù)與總投票數(shù),VINE與Verified purchase分別表示不同類(lèi)型客戶,Review date表示評(píng)論時(shí)間,Review body表示評(píng)論文本內(nèi)容。
表1 預(yù)處理前的銷(xiāo)售數(shù)據(jù)(部分)
PMI算法原理是統(tǒng)計(jì)兩個(gè)詞匯在文本中同時(shí)出現(xiàn)的概率,其概率越大,則相關(guān)性越緊密,關(guān)聯(lián)度越高[2]。該算法常用于解決文本感情分析問(wèn)題。采用PMI算法對(duì)評(píng)論進(jìn)行量化處理,其主要步驟如圖1所示[3]。
圖1 PMI算法流程圖
步驟1:搜索句子中的情感關(guān)鍵詞并計(jì)數(shù)。
WordNet詞典被廣泛使用在英語(yǔ)感情分析中,對(duì)一個(gè)句子中的單詞進(jìn)行情感分析時(shí),首先應(yīng)確定該單詞是否包括在情感詞典中,如果情感詞典中存在該單詞,則將情感詞典中該單詞的情感信息作為情感分析結(jié)果,如果情感詞典中不存在該單詞,則選擇與該單詞意思較為接近的基準(zhǔn)單詞,根據(jù)基準(zhǔn)單詞在情感詞典中的信息判斷該單詞的情感意思。
步驟2:搜索情感單詞的相關(guān)性。
為了計(jì)算兩個(gè)單詞相互關(guān)聯(lián)程度,采用PMI算法,即點(diǎn)互信息,其計(jì)算公式如下:
PMI=(word1,word2)
(1)
其中:p(word1&word2)表示兩個(gè)單詞同時(shí)出現(xiàn)的概率;p(word1)表示word1出現(xiàn)的概率;p(word2)表示word2出現(xiàn)的概率。
如果PMI大于0,則意味著兩個(gè)單詞同時(shí)出現(xiàn)的概率將大于兩者單獨(dú)出現(xiàn)概率的乘積,也可以表示為兩者有一定的相關(guān)性,且PMI的絕對(duì)值與詞語(yǔ)共現(xiàn)頻率呈正相關(guān)關(guān)系。
如果PMI為0,表示兩個(gè)單詞相互獨(dú)立。如果PMI小于0,表示兩個(gè)單詞的共現(xiàn)頻率較低,兩者是互斥的。如果需要判斷的單詞與作為參考的單詞相關(guān)性較大,意思比較接近,那么兩者的共現(xiàn)概率較高,在研究中則認(rèn)為兩者的情感傾向是一致的,但情感傾向程度是不同的。
單詞情感傾向值公式如下:
(2)
其中:Pword是褒義基準(zhǔn)單詞,Nword是貶義基準(zhǔn)單詞。
步驟3:根據(jù)相互關(guān)聯(lián)的程度賦予不同權(quán)值。
判斷一個(gè)單詞的情感傾向方向,簡(jiǎn)化為計(jì)算該單詞和情感基準(zhǔn)單詞excellent(褒義)與poor(貶義)的SO-PMI值,如下:
SO-PMI(word)=PMI(word,“excellent”)
-PMI(word,“poor”)
(3)
其中:如果SO-PMI大于0,則表示該單詞與excellent相關(guān)程度更高,其情感傾向?yàn)榘x。如果SO-PMI小于0,則表示該單詞與poor的相關(guān)程度更高,其情感傾向?yàn)橘H義[4]。
步驟4:計(jì)算句子的情感得分。
根據(jù)所得的情感傾向程度將不同評(píng)論分為五個(gè)等級(jí),從而將評(píng)論文本內(nèi)容量化,如表2所示。
表2 評(píng)論等級(jí)
指標(biāo)一:評(píng)論文本。
根據(jù)PMI算法得到各個(gè)評(píng)論文本量化后的數(shù)值結(jié)果,如表3所示。
表3 評(píng)論文本等級(jí)結(jié)果
指標(biāo)二:評(píng)級(jí)。
將該產(chǎn)品統(tǒng)計(jì)數(shù)據(jù)中的評(píng)級(jí)分為五類(lèi)(1~5),5級(jí)為最高級(jí),表示客戶對(duì)其滿意度最高,相反,1級(jí)為客戶滿意度最低。將評(píng)級(jí)進(jìn)行量化分析,如公式(4)所示:
(4)
其中:w1′表示其原始評(píng)級(jí)等級(jí),若評(píng)級(jí)度量值w1越接近1,則表示顧客非常樂(lè)意購(gòu)買(mǎi)該產(chǎn)品,其產(chǎn)品價(jià)值也越高。
指標(biāo)三:幫助評(píng)級(jí)。
幫助評(píng)級(jí)是指顧客購(gòu)買(mǎi)產(chǎn)品后的評(píng)價(jià)對(duì)后來(lái)客戶購(gòu)買(mǎi)該產(chǎn)品的幫助程度。為表示幫助評(píng)級(jí)的不同影響程度,將幫助評(píng)級(jí)用w2表示。
(5)
其中:w2′表示幫助投票數(shù)量,若w2越接近于1,則表示該評(píng)論對(duì)顧客的購(gòu)買(mǎi)影響越大。w2″表示總投票數(shù)量。
根據(jù)該產(chǎn)品的銷(xiāo)售數(shù)據(jù)處理后結(jié)果,其產(chǎn)品評(píng)級(jí)、幫助評(píng)級(jí)與評(píng)論文本這三項(xiàng)作為評(píng)價(jià)模型的三個(gè)指標(biāo),以熵值法[5]求解三個(gè)指標(biāo)的權(quán)重,具體步驟如下:
步驟1:算法實(shí)現(xiàn)過(guò)程。
構(gòu)建數(shù)據(jù)矩陣:
(6)
其中:Xij為第i種產(chǎn)品、第j個(gè)指標(biāo)的數(shù)值。當(dāng)j=1時(shí),表示為評(píng)級(jí)指標(biāo),當(dāng)j=2時(shí),表示為幫助評(píng)級(jí)指標(biāo),當(dāng)j=3時(shí),表示為評(píng)論等級(jí)指標(biāo)。
步驟2:計(jì)算第j項(xiàng)指標(biāo)在第i個(gè)評(píng)價(jià)對(duì)象的特征比重。
(7)
步驟3:計(jì)算第j項(xiàng)指標(biāo)的熵值。
(8)
其中:k=1/lnm。
若0 步驟4:求權(quán)重。 (9) 其中:Wj為指標(biāo)的客觀權(quán)重[3]。 步驟5:根據(jù)“加法”集成法分析得出三項(xiàng)指標(biāo)所占的實(shí)際權(quán)重。 為了更合理地建立產(chǎn)品價(jià)值評(píng)估模型,將客戶群體按照是否成功付款、是否為vine,分為三類(lèi):普通客戶、vine客戶以及未付款客戶,區(qū)別如表4所示。 表4 客戶類(lèi)型分類(lèi) 根據(jù)“加法”集成法,記: Wi=αWj+(1-α)bi (10) 其中,Wj表示第i個(gè)指標(biāo)的組合權(quán)重;Wj,bj分別為第j個(gè)指標(biāo)的客觀權(quán)重和主觀權(quán)重。又由于客觀權(quán)重Wj已經(jīng)求出,再考慮實(shí)際情況,得出主觀權(quán)重bj=[0.4 0.2 0.4],再通過(guò)實(shí)際情況分析,令α=0.4,并通過(guò)線性加權(quán)代入上式得出第一類(lèi)客戶權(quán)重為W1=[0.67,0.13,0.2]。 根據(jù)(10)分別求出其余兩類(lèi)不同顧客所對(duì)應(yīng)的不同權(quán)重: 其中:W1代表普通客戶的權(quán)重分配,W2表示未付款顧客的權(quán)重分配,W3代表vine顧客的權(quán)重分配。 以Topsis綜合評(píng)價(jià)法[6]為基礎(chǔ),建立優(yōu)秀產(chǎn)品模型,根據(jù)以上計(jì)算所得的各個(gè)權(quán)重與數(shù)據(jù)集得出所評(píng)價(jià)對(duì)象中最優(yōu)的綜合評(píng)價(jià)結(jié)果,其具體步驟如下: 步驟1:求出加權(quán)距離。 (11) 步驟2:列出綜合評(píng)價(jià)函數(shù)。 (12) 即反映出第i個(gè)指標(biāo)與理想點(diǎn)的差異程度。經(jīng)過(guò)計(jì)算,按照yi(i=1,2,…,n)值的大小對(duì)各被評(píng)價(jià)對(duì)象進(jìn)行排序選優(yōu)。顯然,其值越小,則相應(yīng)的對(duì)象就越好。當(dāng)某個(gè)yi=0時(shí),即達(dá)到了理想點(diǎn),則對(duì)應(yīng)的被評(píng)價(jià)對(duì)象是最好的。由于本模型在同一個(gè)產(chǎn)品中區(qū)分了三個(gè)不同客戶群體,所以同一產(chǎn)品進(jìn)行三組數(shù)據(jù)計(jì)算。 步驟3:求得最優(yōu)解。 根據(jù)產(chǎn)品ID與產(chǎn)品名對(duì)應(yīng)關(guān)系,選取微波爐產(chǎn)品中評(píng)價(jià)結(jié)果為前25個(gè)的產(chǎn)品名稱(chēng),其中danby 0.7 cu.ft.countertop microwave這款產(chǎn)品名稱(chēng)的占比最高,達(dá)到20%,故選擇其為微波爐產(chǎn)品中的優(yōu)秀產(chǎn)品名稱(chēng),具體結(jié)果如表5所示。 表5 前25個(gè)優(yōu)秀產(chǎn)品名稱(chēng)比例分配情況 選用亞馬遜平臺(tái)微波爐產(chǎn)品的在線評(píng)論數(shù)據(jù),通過(guò)PMI算法對(duì)文本情感傾向進(jìn)行自然語(yǔ)言處理,將評(píng)論情感劃分等級(jí),從而將其量化。采用TOPSIS綜合評(píng)價(jià)得到該微波爐的最優(yōu)產(chǎn)品系列,其結(jié)果作為度量值能較為精確地反映產(chǎn)品口碑。主要得到了以下結(jié)論: 通過(guò)PMI算法對(duì)文本感情進(jìn)行分析可以實(shí)現(xiàn)對(duì)評(píng)論文本的量化過(guò)程。根據(jù)客戶購(gòu)買(mǎi)時(shí)的不同情況,將客戶分為三類(lèi)群體計(jì)算評(píng)價(jià)模型的權(quán)重,有利于評(píng)價(jià)模型的真實(shí)性。建立優(yōu)秀產(chǎn)品名稱(chēng)模型,利用topsis的綜合評(píng)價(jià)方法選出danby 0.7 cu.ft.countertop microwave,該產(chǎn)品為Amazon平臺(tái)中微波爐評(píng)價(jià)最好的微波爐產(chǎn)品系列名稱(chēng)之一。 該模型針對(duì)于線上產(chǎn)品銷(xiāo)售數(shù)據(jù)分析,對(duì)選擇優(yōu)秀產(chǎn)品系列有較好的應(yīng)用與推廣意義。3 建立優(yōu)秀產(chǎn)品評(píng)價(jià)模型
4 結(jié)語(yǔ)