朱曙旸 殷麗 史逸興
摘 要:為探究消費(fèi)者對商品的評論與商品銷售之間的關(guān)系,本文首先采用系統(tǒng)聚類分析對消費(fèi)者進(jìn)行分類,通過TF-IDF法將消費(fèi)者對商品的評論量化并構(gòu)建出消費(fèi)者評論得分模型,再采用熵權(quán)法對模型進(jìn)行優(yōu)化,確定出不同商品受消費(fèi)者歡迎的程度,從而可以幫助企業(yè)更有效地調(diào)整商品銷售策略。
關(guān)鍵詞:TF-IDF法;系統(tǒng)聚類分析;熵權(quán)法
一、引言
近年來,隨著互聯(lián)網(wǎng)的發(fā)展與普及,網(wǎng)絡(luò)購物儼然成為一股時(shí)代潮流,相較于商品基本信息,消費(fèi)者在線上選購商品時(shí)往往會更加注重其他消費(fèi)者對于商品的評價(jià)。此外,現(xiàn)今海量數(shù)據(jù)的存儲與處理技術(shù)已較為成熟,這不僅奠定了科學(xué)的基礎(chǔ),而且為企業(yè)做出重要決策提供了信息。
對于商品銷售與數(shù)據(jù)挖掘的研究,許姍姍用深度神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)模型進(jìn)行建模,實(shí)現(xiàn)了對單品的細(xì)粒度預(yù)測分析;滕樹軍等人通過對商品關(guān)注度的劃分建立了多元回歸模型從而確定影響商品銷售的因素;李曉穎等人結(jié)合Hadoop與Spark的優(yōu)點(diǎn)設(shè)計(jì)出包括HDFS、Tableau等集群的大數(shù)據(jù)分析與挖掘平臺;陳紅平結(jié)合大數(shù)據(jù)相關(guān)理論與方法,探究了孤立點(diǎn)算法和ARIMA模型在商品流通企業(yè)經(jīng)營審計(jì)中的應(yīng)用;曹天擇對評論文本數(shù)據(jù)通過情感分析技術(shù)進(jìn)行相應(yīng)分析,探究了消費(fèi)者再次購買意愿和要素之間的關(guān)系。
二、數(shù)據(jù)及其處理
本文選用2020年MCM/ICM競賽C題中的數(shù)據(jù),其中包括消費(fèi)者對亞馬遜市場上出售的微波爐、嬰兒奶嘴以及吹風(fēng)機(jī)發(fā)表的評分和評論。
在數(shù)據(jù)的預(yù)處理方面,對于缺失率超過50%的變量,由于數(shù)據(jù)完全失真且無法修復(fù),將其剔除以減少偏差,對于丟失小于50%的數(shù)據(jù),可以根據(jù)相鄰的數(shù)據(jù)進(jìn)行補(bǔ)充,如果相鄰數(shù)據(jù)之間沒有連接,則可以直接刪除,因?yàn)閬G失的數(shù)據(jù)只是總數(shù)的一小部分。對于異常值,用K近鄰法對它們進(jìn)行均值校正,以提高結(jié)果的準(zhǔn)確性。例如,如果某一組件上有缺失或異常點(diǎn)或觀察,則該組件將被移除。利用由其他觀測分量組成的向量作為距離,找到最接近缺失點(diǎn)的K觀測值。對于評論文本,由于評論數(shù)據(jù)主要由字母組成,彼此之間的關(guān)聯(lián)程度大大降低,為方便處理,將其中全部都由大寫字母轉(zhuǎn)化為小寫,并刪除標(biāo)點(diǎn)和空格。
三、消費(fèi)者評論得分模型
1.模型設(shè)定
為了探究消費(fèi)者評價(jià)數(shù)據(jù)與商品銷售之間的關(guān)系,本文將消費(fèi)者對商品不同類型的評論進(jìn)行量化,并用熵權(quán)法賦予各類型評論量化后的值以相應(yīng)的權(quán)重,在此基礎(chǔ)上結(jié)合這些特定的數(shù)據(jù)類型得出一個(gè)能夠反映商品在市場上銷售情況的綜合指標(biāo),即消費(fèi)者評論得分模型。
2.主要變量說明
(1)星級評定(S):是一種個(gè)人評定制度,購買者使用1星(低額定,低滿意)至5星(高額定,高滿意)來表達(dá)對商品的滿意程度,它反映了消費(fèi)者對商品的整體感受和直接評價(jià),直觀地顯示了商品的可取性程度,本文中用“S”表示。
(2)評論(評論得分P):為了表達(dá)對商品的進(jìn)一步意見和信息,客戶提交了基于文本的消息即所謂的“評論”。這些評論不僅表達(dá)了客戶決策的具體感受和原因,而且可能引發(fā)更多類似的評論。本文用P表示評論得分。
(3)幫助等級(F):考慮到評論的多樣性和具體要求,我們引入了評論有效性的概念,以減少干擾,這也被稱為幫助性評級,本文中用“F”表示。
(4)商品聲譽(yù)(H):良好的聲譽(yù)是商品的最佳廣告,有助于將潛在消費(fèi)者轉(zhuǎn)化為忠誠客戶。因此,商品的聲譽(yù)就像商品的生命,反映了商品未來的發(fā)展趨勢。本文中用“H”表示。
3.TF-IDF算法描述
IDF的主要思想是:如果包含詞條t的文檔越少,也就是n越小,IDF越大,則說明詞條t具有很好的類別區(qū)分能力。如果某一文檔C中包含詞條t的文檔數(shù)為m,而其他類包含t的文檔總數(shù)為k,顯然所有包含t的文檔數(shù)n=m+k,然而當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區(qū)分能力不強(qiáng)。但實(shí)際上,如果一個(gè)詞條在一個(gè)類的文檔中頻繁出現(xiàn),則說明該詞條能夠很好地代表這個(gè)類的文本特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來作為該類文本的特征詞,以區(qū)別于其他類的文檔。
實(shí)際應(yīng)用中我們可以改變文檔結(jié)構(gòu),將短文本合并成一個(gè)文檔,增加TF值和IDF值,從而提高算法識別的準(zhǔn)確度。
4.模型建立與求解分析
(1)評論得分模型
該模型意在構(gòu)建一個(gè)反映評論的積極和消極意義的評價(jià)指標(biāo)。在對給定的數(shù)據(jù)預(yù)處理后,對各因素進(jìn)行量化處理。設(shè)評論k表示數(shù)據(jù)表中第k條評論,則有:
從上圖可以看出,雖然吹風(fēng)機(jī)的得分在一些年里被另兩種商品超過了,但一直處于相對穩(wěn)定的較高的水平。基于文本度量和評級的度量相結(jié)合,我們可以確定銷售最成功的商品是吹風(fēng)機(jī),最不成功的商品是微波爐。因此,為了實(shí)現(xiàn)利潤最大化,應(yīng)適當(dāng)增加吹風(fēng)機(jī)的供應(yīng),同時(shí)增加微波爐的宣傳或改進(jìn)其生產(chǎn)技術(shù)。最近結(jié)果表明,2015年吹風(fēng)機(jī)、微波爐和嬰兒奶嘴的聲譽(yù)評分分別為0.7112、0.6461和0.6944。由此可見,電吹風(fēng)的聲譽(yù)評分最高。
四、結(jié)語
本文基于消費(fèi)者評論數(shù)據(jù),探究了星級評定,評論及評論幫助等級對于商品銷售的影響,建立了評論得分模型及商品聲譽(yù)評分模型,模型將情感權(quán)重和TF-IDF算法結(jié)合起來,對評論進(jìn)行量化,可直觀地反映消費(fèi)者的情感,采用熵權(quán)法確定星級評定和評論得分的權(quán)重,可以更加準(zhǔn)確地衡量商品的聲譽(yù)。由于算法本身的特性,很少需要人工干預(yù),因此可使時(shí)間成本大大降低,而通過比較不同商品的得分高低可反映出各商品受市場歡迎的程度,從而幫助企業(yè)及時(shí)進(jìn)行銷售策略的調(diào)整。本文的研究為衡量商品的銷售情況及商品的市場反響提供了科學(xué)有效的方法,可幫助企業(yè)高效地進(jìn)行決策。
參考文獻(xiàn):
[1]許姍姍.基于機(jī)器學(xué)習(xí)的商品銷售預(yù)測的研究[J].統(tǒng)計(jì)與管理,2019(04):49-52.
[2]滕樹軍,鄭惠文,劉柏森.基于多元回歸分析的超市商品銷售影響因素的研究[J].全國流通經(jīng)濟(jì),2018(14):6-9.
[3]李曉穎,趙安娜,周曉靜,楊成偉.基于大數(shù)據(jù)分析與挖掘平臺的個(gè)性化商品推薦研究及應(yīng)用[J].電子測試,2019(12):65-66+81.
[4]陳紅平.大數(shù)據(jù)環(huán)境下商品流通企業(yè)經(jīng)營審計(jì)研究[D].重慶理工大學(xué),2019.
[5]曹天擇.基于情感分析技術(shù)的電商商品在線評論數(shù)據(jù)挖掘研究[D].浙江工商大學(xué),2018.
[6]劉瑩.基于數(shù)據(jù)挖掘的商品銷售預(yù)測分析[J].科技通報(bào),2014,30(07):140-143.
[7]張卉.數(shù)據(jù)挖掘技術(shù)在B2B電子商務(wù)商品銷售中的應(yīng)用研究[D].北方工業(yè)大學(xué),2013.
[8]王萍.基于電子商務(wù)背景的智能挖掘技術(shù)及應(yīng)用研究[D].湖南大學(xué),2014.
[9]張玉芳,彭時(shí)名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用.計(jì)算機(jī)工程,2006,32(19):76-78.