摘" 要:隨著信息技術(shù)和物流技術(shù)的迅猛發(fā)展,電子商務(wù)產(chǎn)品的種類和規(guī)模不斷擴(kuò)大。網(wǎng)上購(gòu)物的在線評(píng)論數(shù)據(jù)呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),在線評(píng)論成為關(guān)注的熱點(diǎn)。文章以京東平臺(tái)的口罩、消毒液、洗手液等防護(hù)用品為例,通過詞頻分析、情感傾向分類和主題建模技術(shù),分析影響顧客的滿意度因素,并提出建議。實(shí)驗(yàn)結(jié)果表明,消費(fèi)者最為關(guān)心的是防護(hù)用品的價(jià)格、品質(zhì)、使用效果和物流速度。文章結(jié)論可以為防護(hù)用品維護(hù)品牌形象有針對(duì)性提升經(jīng)營(yíng)策略、提高服務(wù)質(zhì)量、提升物流服務(wù)提供參考。
關(guān)鍵詞:文本挖掘;防護(hù)用品;消費(fèi)者滿意度;情感分類;LDA主題分類
" 中圖分類號(hào):F713.365" " 文獻(xiàn)標(biāo)志碼:A
DOI:10.13714/j.cnki.1002-3100.2025.01.009
Abstract: With the rapid development of information technology and logistics technology, the types and scale of e-commerce products are constantly expanding. The online review data of online shopping has shown an explosive growth trend, and online review has become a hot spot of attention. This paper takes masks, disinfectant, hand sanitizer and other protective products from Jingdong platform as examples, analyzes the factors affecting customer satisfaction through word frequency analysis, emotional tendency classification and theme modeling technology, and puts forward suggestions. The experimental results show that consumers are most concerned about the price, quality, use effect and logistics speed of protective equipment. The conclusions of this study can provide reference for protective equipment to maintain brand image, improve business strategy, improve service quality, and improve logistics services.
Key words: text mining; protective equipment; consumer satisfaction; emotion classification; LDA subject classification
0" 引" 言
" 疫情的爆發(fā)讓人們對(duì)防護(hù)用品的使用養(yǎng)成了習(xí)慣,雖然已經(jīng)戰(zhàn)勝疫情,但口罩、消毒液、洗手液等防護(hù)用品在全球范圍內(nèi)得到了廣泛的應(yīng)用,隨著消費(fèi)者對(duì)健康安全意識(shí)的提高和對(duì)產(chǎn)品質(zhì)量要求的增加,顧客滿意度[1]成為了市場(chǎng)競(jìng)爭(zhēng)的關(guān)鍵因素之一。因此,研究防護(hù)用品顧客滿意度的影響因素,對(duì)于企業(yè)全面提升產(chǎn)品質(zhì)量、增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力具有重要意義。而文本挖掘[2]作為一種新興的數(shù)據(jù)分析工具,其能夠從大量的文本數(shù)據(jù)中提取有價(jià)值的信息,因此在防護(hù)用品顧客滿意度影響因素研究中的應(yīng)用也具有很大的潛力[3]。因此,本文基于文本挖掘技術(shù)了解消費(fèi)者對(duì)防護(hù)產(chǎn)品的滿意度,這有助于商家更好地理解市場(chǎng)需求、改進(jìn)產(chǎn)品質(zhì)量,并提供更好的購(gòu)物體驗(yàn)。為企業(yè)提高產(chǎn)品質(zhì)量、增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力提供參考依據(jù)。
1" 研究方法
1.1" 情感傾向分類
" 情感傾向分類是文本挖掘領(lǐng)域中的一種技術(shù),通常用于分析文本數(shù)據(jù)中的情感極性[4]。針對(duì)文本情感傾向分類方法主要可以分為基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[5]?;跈C(jī)器學(xué)習(xí)的方法主要使用了經(jīng)典的機(jī)器學(xué)習(xí)算法,例如:支持向量機(jī)、隨機(jī)森林、樸素貝葉斯等來進(jìn)行對(duì)文本的情感傾向分析[6]。學(xué)者們通常利用大量標(biāo)注好的情感樣本來訓(xùn)練機(jī)器學(xué)習(xí)模型,讓模型掌握各特征間的關(guān)聯(lián),并最后把該模式運(yùn)用在實(shí)際的情感偏好分析場(chǎng)景中[7]。文獻(xiàn)[8]通過對(duì)特征詞進(jìn)行加權(quán),并利用SVM算法進(jìn)行分類?;跈C(jī)器學(xué)習(xí)的方法通過進(jìn)行特征工程和應(yīng)用分類模型,可以更好地理解文本情感語義,從而提升情感傾向分類的性能[9]。通常情況下,相較于情感詞典方法,基于機(jī)器學(xué)習(xí)的分類方法往往具有更高的準(zhǔn)確度。因此,本文結(jié)合機(jī)器學(xué)習(xí)分類模型的優(yōu)點(diǎn),實(shí)現(xiàn)對(duì)防護(hù)用品評(píng)論文本進(jìn)行情感傾向分類[10]。
1.2" LDA主題挖掘
" 主題模型是一種用于發(fā)現(xiàn)文檔中抽象主題的統(tǒng)計(jì)模型。其中,Blei等學(xué)者在2003年提出的LDA(潛在狄利克雷分配)主題模型概念和思想是最具代表性的,并已得到廣泛的應(yīng)用。LDA主題模型是一種三層貝葉斯概率模型,包含了詞、主題和文檔這三個(gè)層次。由于它引入了狄利克雷先驗(yàn)知識(shí),因此不容易出現(xiàn)過擬合現(xiàn)象。在識(shí)別大規(guī)模文檔集或語料庫(kù)中隱藏的主題信息方面,LDA主題模型具有一定的優(yōu)勢(shì)[11]。因此本文選擇利用LDA主題模型對(duì)分類后的文本進(jìn)行聚類,得到各防護(hù)用品的特征主題詞。
" 本文挖掘消費(fèi)者滿意度因素的具體做法由四部分組成,第一部分是明確目的、選取實(shí)驗(yàn)對(duì)象;第二部分是文本預(yù)處理,根據(jù)在線評(píng)論的特點(diǎn),進(jìn)行數(shù)據(jù)預(yù)處理有利于提高分析的準(zhǔn)確性;第三部分是情感分類模型選取,對(duì)預(yù)處理的文本進(jìn)行正負(fù)情感分類;第四部分是利用LDA主題模型對(duì)評(píng)論的文本進(jìn)行主題提取,挖掘消費(fèi)者對(duì)防護(hù)用品的關(guān)注因素。
2" 實(shí)" 驗(yàn)
2.1" 實(shí)驗(yàn)數(shù)據(jù)
" 為了更準(zhǔn)確地識(shí)別出顧客對(duì)于防護(hù)用品的關(guān)注點(diǎn)和維度,本文使用網(wǎng)絡(luò)爬蟲技術(shù)獲取京東平臺(tái)上的口罩、消毒液、洗手液、消毒棉巾、醫(yī)用酒精共30 761條評(píng)論文本數(shù)據(jù)作為實(shí)驗(yàn)樣本進(jìn)行分析與研究。
2.2" 詞頻分析
" 權(quán)重反映了消費(fèi)者在防護(hù)用品電商平臺(tái)上對(duì)各項(xiàng)指標(biāo)的重要程度,運(yùn)用TF-IDF算法對(duì)防護(hù)用品的詞頻進(jìn)行統(tǒng)計(jì),即獲取防護(hù)用品評(píng)論的主要高頻詞,表1展示了防護(hù)用品評(píng)論中前30位的高頻詞語。
通過分析高頻詞可以了解顧客的主要關(guān)注點(diǎn)。從給定的表1中可以觀察到,產(chǎn)品的包裝、使用效果、產(chǎn)品的味道、產(chǎn)品價(jià)格、物流服務(wù)以及品牌是消費(fèi)者評(píng)價(jià)的一些重要的特征,這些因素對(duì)于消費(fèi)者在購(gòu)買決策中起到了關(guān)鍵的作用。
2.3" 情感分類模型對(duì)比
" 盡管通過高頻詞統(tǒng)計(jì)可以了解顧客比較關(guān)注的特征,但無法確定哪些因素讓顧客感到滿意或?qū)е虏钤u(píng)。因此,為了獲取有關(guān)顧客對(duì)防護(hù)用品優(yōu)缺點(diǎn)的評(píng)價(jià)信息,需要運(yùn)用情感分析技術(shù)對(duì)評(píng)論語料進(jìn)行正負(fù)面情感分類。通過這種方式,進(jìn)一步分析了解影響顧客好評(píng)差評(píng)的因素,以便更好地理解顧客意見和需求。
" 為了驗(yàn)證BERT模型有效性,選擇情感分類中常用的模型,包括隨機(jī)森林(Random Forest)、決策樹(Decision Tree)、極致梯度提升(XGBoost)、支持向量機(jī)(SVM)和BERT模型進(jìn)行情感正負(fù)向分類對(duì)比實(shí)驗(yàn)。評(píng)價(jià)指標(biāo)采用了準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 Score值作為衡量模型在情感分類任務(wù)中性能的指標(biāo)。為確保實(shí)驗(yàn)結(jié)果的客觀準(zhǔn)確性,數(shù)據(jù)集包括正向文本數(shù)量為22 252,負(fù)向文本數(shù)量8 507,使用同一訓(xùn)練集、驗(yàn)證集、測(cè)試集預(yù)料文本,按照訓(xùn)練集∶驗(yàn)證集∶測(cè)試集為8∶1∶1的比例使5種模型在相同設(shè)備下運(yùn)行5次,結(jié)果的均值作為評(píng)價(jià)指標(biāo)的最終結(jié)果,實(shí)驗(yàn)結(jié)果如表2所示。
可以看出以上5個(gè)模型中BERT模型在準(zhǔn)確率、精確率、召回率和F1都明顯取得了更優(yōu)的效果,這說明BERT模型的分類效果更優(yōu)于其他模型,BERT模型在防護(hù)用品在線評(píng)論文本的情感分類上是比較準(zhǔn)確的、可行的。
2.4" 正負(fù)詞云圖可視化
" 使用詞云圖可以將文本的詞頻信息可視化,幫助更直觀地感知評(píng)論特征。使用Python中stylecloud和matplotlib庫(kù)中的相關(guān)函數(shù),將情感分類所得正負(fù)面評(píng)論經(jīng)過分詞處理后的數(shù)據(jù)通過詞云圖的方式分別展示出來,以此分析影響顧客滿意度的正負(fù)面產(chǎn)品特征。
根據(jù)圖1和圖2的結(jié)果,可以得出以下結(jié)論:防護(hù)用品顧客的好評(píng)中最常出現(xiàn)的特征詞包括“喜歡”、“不錯(cuò)”、“購(gòu)買”、“包裝”和“質(zhì)量”;而差評(píng)中最常出現(xiàn)的特征詞包括“退貨”、“送貨”、“質(zhì)量”和“不好用”。這些結(jié)果表明,顧客對(duì)于防護(hù)用品評(píng)價(jià)積極的特征主要涉及產(chǎn)品的品質(zhì)、購(gòu)買體驗(yàn)和包裝。相反,差評(píng)中的特征詞則突顯了退貨、送貨和產(chǎn)品質(zhì)量不好用等問題。
2.5" 防護(hù)用品主題模型實(shí)現(xiàn)
" 通過詞頻分析、情感分類和正負(fù)評(píng)論詞云圖,對(duì)影響顧客滿意度的因素進(jìn)行了初步的判斷。為了進(jìn)一步挖掘評(píng)論背后的主題信息,利用完成情感分類后的文本進(jìn)行主題聚類分析,將具有相似主題的評(píng)論歸類在一起,從而更深入地了解顧客的關(guān)注點(diǎn)和產(chǎn)品的優(yōu)缺點(diǎn)。
2.5.1" 尋找最優(yōu)主題數(shù)
在進(jìn)行LDA主題聚類之前,首先需要確定主題數(shù)量的選擇。計(jì)算不同主題數(shù)下各主題之間的平均余弦相似度,并繪制主題平均余弦相似度曲線圖,選擇主題間的平均余弦相似度達(dá)到最低時(shí)的主題數(shù)量,找到最恰當(dāng)?shù)闹黝}數(shù)量,以支持后續(xù)的主題聚類分析,根據(jù)圖3,最終選定防護(hù)用品評(píng)論主題數(shù)為8。
2.5.2" 文本主題挖掘
在完成對(duì)所有評(píng)論進(jìn)行情感傾向分類后,將針對(duì)正向和負(fù)向評(píng)論文本分別使用LDA模型進(jìn)行主題挖掘。以正向情感評(píng)論集的主題挖掘?yàn)槔?,可以觀察圖4中主題表示的圓圈之間的間隔情況,如果主題的圓圈相隔較遠(yuǎn),那說明主題的凝聚效果良好。這意味著在正向評(píng)論中,各個(gè)主題之間具有明顯的區(qū)分度,每個(gè)主題所表示的關(guān)注點(diǎn)是獨(dú)立、清晰的。在主題挖掘分析中,可以將各主題的關(guān)鍵詞以柱狀列表的形式顯示在右側(cè)。每個(gè)關(guān)鍵詞在列表中用紅色柱條表示,柱條的長(zhǎng)短表示該關(guān)鍵詞在某一主題中的詞頻大小。而整個(gè)柱條的總長(zhǎng)度則表示該關(guān)鍵詞在整個(gè)文檔中的頻率。通過這種可視化方式,更直觀地了解每個(gè)主題的關(guān)鍵詞重要性,并對(duì)主題的關(guān)注重點(diǎn)有更清晰的了解。這有助于商家更好地把握顧客的需求以及產(chǎn)品所關(guān)注的特定領(lǐng)域。
使用的是Python中的gensim模塊對(duì)防護(hù)用品的評(píng)論數(shù)據(jù)構(gòu)建LDA主題模型,根據(jù)主題模型的主題分布情況,最終將LDA模型的主題數(shù)量K設(shè)置為9。在提取每個(gè)主題中的詞語時(shí),將選取前20~30個(gè)作為候選,并最終將主題歸納為6個(gè),選出每個(gè)主題中具有代表性的前3個(gè)關(guān)鍵詞。具體各主題對(duì)應(yīng)的核心關(guān)鍵詞如表3所示。
" 根據(jù)表3中的結(jié)果,可以看出消費(fèi)者對(duì)于京東電商平臺(tái)防護(hù)用品的關(guān)注點(diǎn)主要集中在商品價(jià)格、商品品質(zhì)、商品包裝、客服服務(wù)、物流服務(wù)和商品品牌等方面。這意味著消費(fèi)者在購(gòu)買防護(hù)用品時(shí),更注重價(jià)格的競(jìng)爭(zhēng)力、產(chǎn)品質(zhì)量和性能、產(chǎn)品包裝、客服響應(yīng)和解決問題的能力,以及物流的快速和可靠性。這些方面是消費(fèi)者對(duì)于防護(hù)用品購(gòu)買體驗(yàn)的評(píng)判標(biāo)準(zhǔn),也可以成為電商平臺(tái)在防護(hù)用品領(lǐng)域提供差異化服務(wù)的重點(diǎn)。
3" 建" 議
" 本文以京東平臺(tái)的防護(hù)用品為例分析影響顧客的滿意度因素,研究結(jié)果表明,顧客對(duì)于京東電商平臺(tái)防護(hù)用品的關(guān)注點(diǎn)主要集中于防護(hù)用品的價(jià)格、品質(zhì)、包裝以及物流服務(wù)上。防護(hù)產(chǎn)品的價(jià)格高低,質(zhì)量好壞,包裝是否完美,物流服務(wù)水平是影響消費(fèi)者滿意度的主要因素。根據(jù)研究結(jié)果,針對(duì)防護(hù)用品商家,提出以下幾點(diǎn)提高顧客滿意度的建議:
" (1)質(zhì)量方面。建立嚴(yán)格的質(zhì)量控制標(biāo)準(zhǔn)和流程,確保生產(chǎn)的防護(hù)用品符合相關(guān)行業(yè)標(biāo)準(zhǔn)和質(zhì)量要求。加強(qiáng)原材料采購(gòu)管理,選擇高質(zhì)量的原材料,避免使用次品或劣質(zhì)材料生產(chǎn)防護(hù)用品。對(duì)生產(chǎn)出的防護(hù)用品進(jìn)行全面檢測(cè)和抽檢,確保產(chǎn)品的質(zhì)量符合標(biāo)準(zhǔn);
(2)價(jià)格方面??梢灾贫ú煌黉N策略,例如限時(shí)特價(jià)、滿減優(yōu)惠等,增加消費(fèi)者的購(gòu)買欲望,提高銷售額。建立供需平衡,通過有效的采購(gòu)和銷售計(jì)劃,保證供需平衡,避免過高或過低的庫(kù)存和價(jià)格;
" (3)物流方面。京東物流在全國(guó)范圍內(nèi)建立了廣泛的物流網(wǎng)點(diǎn),有多樣化的物流配送服務(wù),先進(jìn)的物流技術(shù)和系統(tǒng)。因此,消費(fèi)者對(duì)京東平臺(tái)的物流滿意度相對(duì)較高;
" (4)包裝方面。從功能和環(huán)境保護(hù)角度出發(fā),為確保防護(hù)用品在物流運(yùn)輸過程中不受損或受污染,在包裝時(shí)需要選擇合適的包裝材料,注意填充縫隙,標(biāo)明包裝內(nèi)容,針對(duì)性包裝,以及測(cè)試包裝效果等;
" (5)提高客服服務(wù)水平。可以通過對(duì)客服工作人員進(jìn)行統(tǒng)一專業(yè)化的培訓(xùn)來提升其專業(yè)水平。為了應(yīng)對(duì)消費(fèi)者可能出現(xiàn)的退換貨問題,應(yīng)該提前制定好預(yù)見性的處理方案,并及時(shí)解決這些問題,以避免給消費(fèi)者帶來不良的購(gòu)買體驗(yàn)。同時(shí),平臺(tái)還應(yīng)該進(jìn)行跟蹤和分析,以了解問題的根源和原因,并采取相應(yīng)的措施,避免類似問題再次發(fā)生。
4" 總" 結(jié)
" 本文以京東平臺(tái)的防護(hù)用品為例,通過對(duì)評(píng)論文本正負(fù)情感傾向分類,構(gòu)建LDA主題模型,挖掘影響消費(fèi)者對(duì)防護(hù)用品的滿意度因素,進(jìn)行分析并提出建議。實(shí)驗(yàn)結(jié)果表明,消費(fèi)者最為關(guān)心的是防護(hù)用品的價(jià)格、品質(zhì)、使用效果、物流速度、客服服務(wù)水平以及商品品牌。根據(jù)本文的結(jié)論,可以為防護(hù)用品維護(hù)品牌形象提供有針對(duì)性的參考,包括提升經(jīng)營(yíng)策略、提高服務(wù)質(zhì)量和物流服務(wù)水平等方面的改進(jìn)。通過這些改進(jìn),企業(yè)可以增強(qiáng)其品牌形象,并贏得消費(fèi)者的認(rèn)可和忠誠(chéng)度,從而取得競(jìng)爭(zhēng)優(yōu)勢(shì)和長(zhǎng)期發(fā)展。由于技術(shù)水平的不斷發(fā)展,網(wǎng)絡(luò)語言的不斷更新,文本的情感識(shí)別和主題挖掘具有一定挑戰(zhàn)性,后期研究將更加關(guān)注文本詞與詞的語義關(guān)聯(lián)度以及評(píng)論文本主題識(shí)別時(shí)語義描述不充分等問題。
參考文獻(xiàn):
[1] 尹麗春,王悅. 基于在線評(píng)論的圖書消費(fèi)者滿意度影響因素與作用機(jī)理[J]. 圖書情報(bào)工作,2019,63(22):106-117.
[2]" HEMMATIAN F, SOH ABI M K. A survey on classification techniques for opinion mining and sentiment analysis[J]. Artificial Intelligence Eview, 2019,52(3):1495-1545.
[3] 李倩,王帥. LDA模型下我國(guó)公共圖書館微信平臺(tái)閱讀推廣內(nèi)容主題研究[J]. 圖書情報(bào)工作,2022,66(8):72-83.
[4] 楊夢(mèng)琳,盧益清. 基于在線評(píng)論的生鮮電商顧客滿意度分析研究[J]. 中國(guó)物流與采購(gòu),2022(6):44-46.
[5] 徐紅,張斯婷,李凌方. 基于LDA模型與共詞分析法的農(nóng)村閱讀推廣主題發(fā)現(xiàn)與熱點(diǎn)分析[J]. 情報(bào)科學(xué),2022,40(10):67-73.
[6]" PANDA ACHALIL, SENDHILKUMA S, MAHALAKSHMI G S. Twitter sentiment analysis for large-scale data: An unsupervised approach[J]. Cognitive Computation, 2015,7(2):254-262.
[7]" KHAN K, LEE L H, BAHA UDIN B. A review of machine learning algorithms for text-documents classification[J]. Journal of Advances in Information Technology, 2010,1(1):4-20.
[8] 楊莉,王敏,程宇. 基于LDA和XGBoost模型的環(huán)境公共服務(wù)微博情感分析[J]. 南京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,21(6):23-39.
[9] 曾莉,楊添寶,周慧. 基于LDA與注意力機(jī)制BiLSTM的微博輿情分析模型[J]. 南京理工大學(xué)學(xué)報(bào),2022,46(6):742-748.
[10] 王宏生,金相宇. 基于深度學(xué)習(xí)的中文電商評(píng)論情感分析[J]. 信息通信,2018(3):51-53.
[11] 包乾輝,李佳利,石淑珍,等. 基于DSLML的雞蛋消費(fèi)在線評(píng)論情感分析[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(S1):496-503.