摘要:為了更好地理解評論和星級評價對在線產(chǎn)品銷售的影響,本文綜合運用數(shù)據(jù)科學(xué)方法建立了相應(yīng)的模型,進一步完善了在線產(chǎn)品銷售策略。
首先,我們處理數(shù)據(jù),然后簡化條件。缺失的值,重復(fù)的和無用的評論將在數(shù)據(jù)處理開始時刪除。第二,我們將諸如vine和verify_purchase之類的數(shù)據(jù)轉(zhuǎn)換為定量數(shù)字,并計算幫助等級。最后,使用自然語言處理(NLP)技術(shù)和情感分析將評論內(nèi)容轉(zhuǎn)換為介于[0,1]之間的定量數(shù)字??偤褪俏谋镜淖罱K分數(shù)。對于問題1,將其分解為子問題,并逐步回答問題2,其解決方案如下:
制定規(guī)則:當(dāng)評估得分排在前25%,而詞云的重疊率排在最后25%(詞云:三種詞及其在評論中的出現(xiàn)頻率;由NLP處理)時,可以判斷該產(chǎn)品具有成功的可能性很高。相反,可以判斷該產(chǎn)品有較大的故障概率。
關(guān)鍵詞:審查數(shù)據(jù)挖掘;層次分析法;情緒分析;方差分析
一、假設(shè)
我們做一些假設(shè)來簡化我們的模型。詳情如下:
(一)沒有零售商通過不誠實的手段來提高其產(chǎn)品數(shù)據(jù)的可信度。
(二)采用隨機抽樣以確??梢詼p少主觀影響。
(三)所選樣本可以代表總體特征,以確保更準確地描述種群。
二、內(nèi)容
(一)定義
詞云:一組單詞及其出現(xiàn)的頻率。成功詞云:一組肯定詞及其出現(xiàn)頻率。失敗詞云:一組否定詞及其出現(xiàn)頻率。 SC的重疊率:ORSC =當(dāng)前詞云和SCC的重疊部分,當(dāng)前詞云FC:ORFC的重疊率:當(dāng)前詞云與FCC的重疊部分,當(dāng)前詞云
(二)評估模型
當(dāng)產(chǎn)品符合以下任一條件時,我們將其視為成功或失敗的可能性很高。 (1)成功條件:如果產(chǎn)品平均綜合得分排名前25%,而評論內(nèi)容與SC的重疊率則超過75%。 (2)故障情況:如果產(chǎn)品平均綜合得分排名不低于25%,而同時評論內(nèi)容與FC的重疊率超過75%。
嬰兒奶嘴的SC和FC部分如下:
(三)結(jié)果分析
我們發(fā)現(xiàn),評估標(biāo)準與復(fù)審文本的詞匯特性相結(jié)合比單個評估標(biāo)準更加穩(wěn)定和準確。
三、結(jié)論
在線評論,星級,有用度和產(chǎn)品銷售之間的關(guān)系被綜合分析如下:
(一)為了定義最大信息的度量,使用層次分析法(AHP)來研究綜合產(chǎn)品評分,評論,星級評分和幫助評分之間的關(guān)??系。
(二)時間序列模型用于建立綜合的時間得分模型,該模型可用于預(yù)測聲譽的變化趨勢。
我們已經(jīng)獲得了基于文本的度量和基于費率的度量的組合,以指示潛在的成功或失敗產(chǎn)品。
(三)我們計算了特定星級評價的情感傾向與評價內(nèi)容之間的關(guān)系。
(四)我們進行了特征詞與星級評價之間的相關(guān)性分析。
參考文獻:
[1] Saaty T L.層次分析法決策[J]。國際服務(wù)科學(xué)雜志,2008,1(1):83-98。
[2] Vincent T,Risser L,Ciuciu P.空間自適應(yīng)混合建模用于fMRI時間序列分析[J]。 IEEE醫(yī)學(xué)影像交易,2010,29(4):1059-1074。
[3] Pang B,Lee L.觀點挖掘與情感分析[J]。信息檢索的基礎(chǔ)與趨勢,2008,2(12):1-135。
[4] Feldstein M S.流動性偏好和投資組合選擇理論中的均值方差分析[J]。經(jīng)濟研究評論,1969,36(1):5-12。
作者簡介:
王彤(1999-04-),男,天津人,本科學(xué)歷,研究方向:自動化專業(yè)。