◆劉昕玥 劉建 姜鶴棟 張煒 刁文柱
行業(yè)與應(yīng)用安全
基于主成分分析的在線購物評論研究
◆劉昕玥1劉建1姜鶴棟2張煒3刁文柱4
(1.西安工程大學(xué)理學(xué)院 陜西 710600;2.西安工程大學(xué)材料工程學(xué)院 陜西 710600 3.西安科技大學(xué)通信與信息工程學(xué)院 陜西 710600;4.西安工程大學(xué)電子通信學(xué)院 陜西 710600)
近年來,隨著科學(xué)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)也得到了很好地普及,電商很快崛起,在網(wǎng)上購物變得越來越普遍,但是在網(wǎng)上購物只能看見物品的外觀,不能實際感受其真實的狀態(tài),所以顧客經(jīng)常會陷入困境之中。世界上知名的網(wǎng)上購物平臺——亞馬遜,在其網(wǎng)上商城上給客戶提供了產(chǎn)品的評論功能,幫助顧客更好的選擇商品。但是這其中有許多的評論是沒有用處的,因此本論文對其中的數(shù)據(jù)進(jìn)行了刪選與研究,得出評價分析的結(jié)果,并給出一定的建議。
網(wǎng)上商城;主成分分析;灰色關(guān)聯(lián)分析
在亞馬遜的網(wǎng)上商城中,亞馬遜為客戶提供了對購買產(chǎn)品進(jìn)行評級和評價的機會[1]。其中評級分為1-5級,客戶還可以進(jìn)行文本評論以表達(dá)有關(guān)產(chǎn)品的更多意見和信息。其他客戶可以對這些評價進(jìn)行點評,認(rèn)定其是有幫助或無幫助(稱為“幫助評分”),以協(xié)助產(chǎn)品購買決策[2]。生產(chǎn)廠商使用這些數(shù)據(jù)來深入了解其參與的市場,參與的時間以及潛在成功的產(chǎn)品設(shè)計選擇[3]。
2.1.1數(shù)據(jù)處理
(1)對于數(shù)據(jù)文件中review_headline,review_body兩列樣本進(jìn)行文本情感分析賦值,賦值區(qū)間為(-1,1),其中1代表好評,0代表中評,-1代表差評。
(2)剔除冗余數(shù)據(jù),其中包括無實際意義數(shù)據(jù),star_rating與review_body情感沖突數(shù)據(jù)以及大面積缺失數(shù)據(jù)。
(3)將三個產(chǎn)品的數(shù)據(jù)綜合為一個總體數(shù)據(jù)集,對于product_title列樣本,用每類產(chǎn)品與所有產(chǎn)品總數(shù)的比值表示對應(yīng)的product_title文本。
2.1.2模型建立
運用Excel在經(jīng)過數(shù)據(jù)處理后的總體數(shù)據(jù)集中,隨機抽取5000條數(shù)據(jù)樣本,生成數(shù)據(jù)矩陣。利用MATLAB進(jìn)行主成分分析得到主要指標(biāo)后再進(jìn)行灰色關(guān)聯(lián)分析,計算相關(guān)系數(shù)。具體步驟如下:
步驟1:首先得到原始數(shù)據(jù)的相關(guān)系數(shù)矩陣T,得:
步驟2:隨后計算T的正交變換矩陣pc,得:
步驟3:然后再計算各個因子的貢獻(xiàn)率,得:
1=26.4429%,2=20.4230%,3=15.5151%,4=12.1565%,
5=11.1943%,6=8.3516%,7=5.8293%,8=0.0873%
步驟4:取累計貢獻(xiàn)率大于85%的各因子為主成分,如下:
1+2+3+4+5=85.7318%
則取前5個因子為主成分,分別如下:第1主成分:total_votes;第2主成分:star_rating;第3主成分:vine;第4主成分:product_title;第5主成分:review_headline
步驟5:利用灰色關(guān)聯(lián)分析各個主成分之間的相互關(guān)系,計算相對關(guān)聯(lián)度r。
根據(jù)問題1處理后的數(shù)據(jù),將統(tǒng)計指標(biāo)按數(shù)值從小到大編秩,根據(jù)編秩結(jié)果建立各指標(biāo)的秩次數(shù)據(jù)矩陣X,如下:
依據(jù)下式計算RSR:
hair_dryer:g=0.030669492934955304Probit-0.01758097698943845
Microwave:g=0.0364371126222807Probit-0.01420617000246870
Pacifier:g=0.04128547544798335Probit-0.06347322699308389
用t檢驗法對回歸系數(shù)B進(jìn)行有效性檢驗,并得到結(jié)果。
由圖可得t檢驗結(jié)果統(tǒng)計量較大,表明模型的回歸系數(shù)具有統(tǒng)計學(xué)意義,擬合效果較好,通過回歸性檢驗。其中擬合效果:
則最好產(chǎn)品為嬰兒奶嘴,最壞產(chǎn)品為吹風(fēng)機。
在問題1處理后三個數(shù)據(jù)集中,分別選取三個產(chǎn)品一年時間序列下的評級數(shù)據(jù),然后按月份將評級取平均值,求該產(chǎn)品這一年12個月的環(huán)比增長率,如圖1、2、3。
再利用MATLAB對三種產(chǎn)品的環(huán)比增長率求方差,三個產(chǎn)品環(huán)比增長率的方差分別為:0.006,0.0162,0.0003?!胺讲睢痹叫≌f明某個特定時間節(jié)點前的評級對后面的評級影響越大,則表明客戶在選擇嬰兒奶嘴時受之前其他客戶評級影響最大。
圖1 吹風(fēng)機
圖2 微波爐
圖3 奶嘴
通過對數(shù)據(jù)進(jìn)行主成分分析,發(fā)現(xiàn)最能影響客戶購買產(chǎn)品的因素是其他客戶對產(chǎn)品的評價中的“五個指標(biāo)”,所以建議在新產(chǎn)品上市之前多注意觀察一下這幾個指標(biāo)。另外,通過RSR秩和綜合評價模型預(yù)測出新產(chǎn)品上市之后銷量最好和最壞的產(chǎn)品分別是嬰兒奶嘴和吹風(fēng)機,所以建議可以適當(dāng)?shù)叵蚴袌龆嗤斗乓恍雰耗套?,少投放一些吹風(fēng)機,這樣將可能獲得更大的收益。
[1]杜姝. 淘寶評論挖掘及其應(yīng)用研究[D]. 電子科技大學(xué),2017.
[2]徐勇,張慧,陳亮. 一種基于情感分析的UGC模糊綜合評價方法——以淘寶商品文本評論UGC為例[J]. 情報理論與實踐,2016,39(06):64-69.
[3]王倩倩. 基于內(nèi)容分析法的評論挖掘及其在網(wǎng)絡(luò)營銷中的應(yīng)用研究[D]. 合肥工業(yè)大學(xué),2012.