王鵬嶺 應(yīng)欣慧 梁家瑞 王寶麗
摘要:隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,網(wǎng)絡(luò)購物已成為消費(fèi)者的主要購物方式之一。大量的在線評論成為消費(fèi)者了解產(chǎn)品質(zhì)量及商家服務(wù)情況的重要途徑。文章以某化妝品為研究對象,采用Python爬取數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理、提取有效的評論信息,繪制詞云進(jìn)行數(shù)據(jù)可視化、運(yùn)用Snownlp進(jìn)行情感分析并針對好評和差評分別進(jìn)行主題分析,最后為商家產(chǎn)品的改良和銷售提供了意見和建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;Python;可視化;情感分析;LDA主題分析
中圖分類號:TP391.1 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號:1009-3044(2022)13-0021-03
電子商務(wù)的發(fā)展方便了消費(fèi)者購物,消費(fèi)者可以通過網(wǎng)絡(luò)準(zhǔn)確地判斷出商品的質(zhì)量,評論數(shù)據(jù)無論對消費(fèi)者是否購買產(chǎn)品還是商家改善決策都是至關(guān)重要的[1]。海量評論數(shù)據(jù)通過人工很難收集,通過Python程序語言可以取得有效的數(shù)據(jù)信息,并對其進(jìn)行情感分析。情感分類有兩種分法,一種是有監(jiān)督的情感分類,主要應(yīng)用有監(jiān)督的機(jī)器學(xué)習(xí)算法,算法實(shí)施需要足夠多的標(biāo)有情緒的語料,提取特征訓(xùn)練情緒分類器;另一種是無/半監(jiān)督情感分析,最典型的就是基于情感詞典的方法[2] ?;谠~典的方法主要注重于分詞的準(zhǔn)確度和詞庫的數(shù)量,人工工作量較大。本文通過Python寫的類庫Snownlp庫,可便于處理中文文本內(nèi)容,進(jìn)行打分,再利用主題分析分別對好評和差評挖掘出潛在主題。
1 數(shù)據(jù)獲取與預(yù)處理
1.1 數(shù)據(jù)的獲取
在Pycharm模塊下,從京東網(wǎng)站上的科顏氏金盞花植萃爽膚水的主頁獲取評論數(shù)據(jù)。以.csv的格式存儲(chǔ)爬取的數(shù)據(jù),將時(shí)間化為時(shí)間戳,以用戶ID、用戶評論時(shí)間、用戶評論內(nèi)容的三個(gè)字段為準(zhǔn),對爬取的評論進(jìn)行分類處理,分別存儲(chǔ)到好評com_all1.xls和差評com_all2.xls[3]。爬取的部分評論如表1所示:
1.2數(shù)據(jù)的預(yù)處理
為了避免數(shù)據(jù)不夠規(guī)范導(dǎo)致結(jié)果出錯(cuò),有必要對文本數(shù)據(jù)進(jìn)行去除非文本內(nèi)容、文本去重、去除停用詞及文本分詞等操作[4]。初次爬取的評論充斥著許多無效的內(nèi)容,如img標(biāo)簽、超鏈接標(biāo)簽、空格等,用正則表達(dá)式去除,并不會(huì)對分析結(jié)果造成影響;文本去重是針對系統(tǒng)評論中自動(dòng)默認(rèn)好評,使用drop_duplicates()方法過濾掉;本文使用jieba分詞算法中的精準(zhǔn)模式將語句精確地分開,不會(huì)產(chǎn)生詞語歧義,調(diào)用cut的方法分別對好評和差評進(jìn)行切句、分詞;選用哈工大停用詞表將“已經(jīng)”“也”“不但”等沒有具體意義的詞刪去,為數(shù)據(jù)的可視化作鋪墊。
2 數(shù)據(jù)可視化
目前,開源工具已經(jīng)日益豐富,如Jieba庫、Snownlp庫,還有PkuSeg針對不同領(lǐng)域的數(shù)據(jù)提供個(gè)性化的預(yù)訓(xùn)練模型。雖然Snownlp庫是依據(jù)19484行句子作為語料庫訓(xùn)練句子,這些句子隸屬于不同領(lǐng)域,在某些句子上分詞會(huì)有缺陷,因此本文更傾向于使用Jieba庫,Jieba的分詞功能和執(zhí)行的準(zhǔn)確率更高一些[4]。導(dǎo)入Jieba庫,運(yùn)用WordCloud根據(jù)分詞后各個(gè)詞頻所占比例生成詞云。能夠發(fā)現(xiàn),評論區(qū)對該產(chǎn)品的好評主要圍繞“效果”“適合”“補(bǔ)水”“不錯(cuò)”等詞語展開,而差評主要圍繞“包裝”“假貨”“客服”“東西”等詞匯,結(jié)果如圖1所示。
3 化妝品平臺(tái)網(wǎng)購情感分析
3.1 SnowNLP庫技術(shù)簡介與流程
SnowNLP是屬于Python自帶的自然語言處理庫,可讀性好、簡單易懂容易實(shí)現(xiàn),是中文文本處理庫[5]。不同于其他類庫,SnowNLP庫不需要NLTK,本身就可以實(shí)現(xiàn)所有的算法。并且它自帶語料庫和情感字典,不需要下載大量的情感詞庫和構(gòu)建各種情感詞庫,有一定的準(zhǔn)確率。通過SnowNLP庫對文本進(jìn)行情感分析,能夠獲取該條評論的情感傾向和對應(yīng)得分,但要根據(jù)具體的情況,確定是否重新訓(xùn)練新的模型[6]。SnowNLP也可以對其他領(lǐng)域的文本進(jìn)行情感分析,但可能在準(zhǔn)確率方面沒有達(dá)到要求,需要自己構(gòu)建語料庫,重新對模型進(jìn)行訓(xùn)練[7]。
3.2 SnowNLP庫實(shí)際應(yīng)用
SnowNLP默認(rèn)訓(xùn)練的模型是基于電商領(lǐng)域的,在實(shí)現(xiàn)情感分析時(shí),需要調(diào)用sentiment方法,本文主要參考sentiment文件夾下的_init_的核心代碼。在情感分析時(shí),將情感程度劃分成三個(gè)區(qū)間,分別是[0,0.4)為消極傾向,[0.4,0.6)為中性傾向,[0.6,1]為積極傾向,都保留6位小數(shù),以便能夠直觀地觀察每個(gè)評論語句的情感態(tài)度,表2選取了幾個(gè)極具代表性的語句,如表2所示。
3.3基于情感的主題分析
主題分析是對情感分析的進(jìn)一步解讀,在各自的主題下,根據(jù)概率值列舉出對應(yīng)的特征詞。本文利用Python第三方工具包Gensim庫,將非結(jié)構(gòu)化的文本信息轉(zhuǎn)化成Gensim模型所能理解的稀疏向量[8]。分別對好評和差評進(jìn)行主題分析,從而分析出消費(fèi)者對該產(chǎn)品的看法。本文將好評和差評整理出各9條主題數(shù)量,每個(gè)主題顯示五個(gè)特征詞,如表3所示。
從表3中概括可以得出三類特征詞。第一類是能夠體現(xiàn)主題的主語,如“包裝”“產(chǎn)品”“皮膚”;第二類是能夠描述其主語的特征詞,如“不錯(cuò)”“適合”“好用”;最后一類是沒有具體意義的詞匯,如“真的”“感覺”等。而體現(xiàn)主題的主語還可分成兩種:一種是圍繞產(chǎn)品本身的,如“味道”“效果”“膚質(zhì)”“包裝”等;另一種是圍繞購物體驗(yàn)的,如“客服”“物流”“降價(jià)”等。為了更好地展現(xiàn)消費(fèi)者對該品牌爽膚水的觀點(diǎn),將表3整理成表4如下所示。
從表4可以看出,消費(fèi)者重視產(chǎn)品的效果、皮膚、活動(dòng)、包裝、客服、價(jià)格等要素,該爽膚水的優(yōu)點(diǎn)是:味道好、效果好、對皮膚好、物流較快等,缺點(diǎn)是:包裝不夠好、客服回復(fù)慢、價(jià)格過高、產(chǎn)品真?zhèn)尾幻鞔_等。
4 情感分析可視化
4.1餅圖可視化
在情感分析誤差不大的基礎(chǔ)上,文章對爬取的評論語句及情感評分進(jìn)行分類獲取了三種kind類別分別為正面、負(fù)面、中性。通過spider定義爬取的動(dòng)作,導(dǎo)入畫圖工具import matplotlib,將爬取結(jié)果遍歷,繪制餅圖,并標(biāo)注圖例和百分比數(shù)值等信息[3],如圖2所示。
圖2使用了三種圖案填充顯示:正面評論占近乎50%的比例,負(fù)面評論占近乎45%的比例,中性評論占近乎5%的比例。
4.2詞頻可視化
在3.3分析的基礎(chǔ)上,使用jieba分詞讀取字符串,并將分詞結(jié)果保存至list,結(jié)合停用詞統(tǒng)計(jì)詞頻,得到3238條好評詞條和1947條差評詞條,實(shí)質(zhì)上與詞云同理,并將它們分別繪制成條形圖如圖3、圖4所示。
由圖3、圖4可知,好評中“效果”一詞的計(jì)數(shù)最多,其次是“產(chǎn)品”“適合”“金盞花”等。差評中“包裝”一詞的計(jì)數(shù)最多,其次是“京東”“假貨”“東西”等。
5 結(jié)論
通過分析計(jì)算結(jié)果,發(fā)現(xiàn)詞頻中消費(fèi)者對產(chǎn)品本身的效果、補(bǔ)水、保濕、味道進(jìn)行贊賞,而差評中對產(chǎn)品的包裝、貨源、客服、蓋子等存在質(zhì)疑與不滿。結(jié)合主題分析的正負(fù)面結(jié)果和餅圖來看,近乎50%的消費(fèi)者認(rèn)為科顏氏爽膚水的突出優(yōu)勢是效果佳、對皮膚好、味道自然清香,而也存在近乎45%反面的聲音表示:包裝很普通、不夠好看也不夠結(jié)實(shí)、產(chǎn)品真?zhèn)尾幻鞔_、客服回復(fù)消息不及時(shí),存在拖沓行為。
因此,商家可以在包裝方面進(jìn)行調(diào)整,突出新的設(shè)計(jì)方案,設(shè)計(jì)更好的外殼吸引消費(fèi)者,提供一個(gè)產(chǎn)品真?zhèn)未a驗(yàn)證產(chǎn)品的真實(shí)可靠性,內(nèi)部訓(xùn)練員工,提高客服的工作效率做出實(shí)際改善,從而提高自身的優(yōu)勢,為消費(fèi)者提供可靠的產(chǎn)品。
參考文獻(xiàn):
[1] 周颯.網(wǎng)購追加評論對體驗(yàn)型商品銷售影響研究[D].武漢:武漢理工大學(xué),2017.
[2] 許鈞儒.基于情感分析的商品評價(jià)研究[D].蚌埠:安徽財(cái)經(jīng)大學(xué),2017.
[3] 鄒泓維,呼格吉勒,陳舒琦,等.基于Python工具的汽車電商平臺(tái)評論分析與可視化方法研究[J].物流科技,2020,43(2):59-63.
[4] 左韶澤.對網(wǎng)購評論數(shù)據(jù)的文本挖掘——以某款式冰箱的評論為例[D].秦皇島:燕山大學(xué),2019.
[5] 周紅偉.商品評價(jià)信息的中文情感分析——以華為手機(jī)評價(jià)數(shù)據(jù)為例[D].杭州:浙江工商大學(xué),2015.
[6] 章蓬偉,賈鈺峰,邵小青,等.基于文本情感分析的電商產(chǎn)品評論數(shù)據(jù)研究[J].微處理機(jī),2020,41(6):58-62.
[7] 曾小芹,余宏.基于Python的商品評論文本情感分析[J].電腦知識(shí)與技術(shù),2020,16(8):181-183.
[8] 高祥.基于擴(kuò)展情感詞典的短文本情感分析技術(shù)研究[D].青島:青島理工大學(xué),2020.
【通聯(lián)編輯:唐一東】