文章編號:1002-3100(2024)03-0055-04
摘? 要:利用Python采集京東國際個護產(chǎn)品消費者的在線評論,通過文本特征分析得出“物流”、“效果”、“包裝”等是影響進口跨境電商消費者滿意度的關(guān)鍵要素。隨后利用LDA主題聚類模型,結(jié)合困惑度和主題可視化,得到反映進口跨境電商服務質(zhì)量的4類關(guān)鍵因素,包括物流效率、產(chǎn)品功效、感知價值和產(chǎn)品體驗?;诖?,提出改善進口跨境電商服務質(zhì)量的策略。
關(guān)鍵詞:在線評論;進口跨境電商;服務質(zhì)量;文本挖掘
中圖分類號:F713.365? ? 文獻標志碼:A? ? DOI:10.13714/j.cnki.1002-3100.2024.03.013
Abstract: This article uses Python to collect online comments from JD International's personal care products. Through text feature analysis, it is concluded that "logistics", "effectiveness", and "packaging" are key factors that affect consumer satisfaction in imported cross-border e-commerce. Then, by using the LDA theme clustering model, combined with Perplexity and theme visualization, the dimensions of import cross-border e-commerce consumers' main concerns are obtained. The results indicate that the key factors affecting the quality of imported cross-border e-commerce services mainly include four dimensions: Logistics efficiency, product efficacy, price discounts, and product experience. Based on this, propose strategies to improve the quality of imported cross-border e-commerce services.
Key words: online comments; import cross-border e-commerce; service quality; text mining
0? 引? 言
隨著電子商務和經(jīng)濟全球化的發(fā)展,跨境電商憑借豐富產(chǎn)品種類、低廉價格占據(jù)跨境零售市場的可觀份額,成為時代的主題?!?022年度中國跨境電商市場數(shù)據(jù)報告》指出,2022年中國跨境電商市場規(guī)模達15.7萬億元,較2021年同比增長10.56%。但由于不同國家政策法規(guī)、文化風俗和監(jiān)管標準等方面存在差異性,導致跨境商品存在成本高、包裹破損丟失現(xiàn)象嚴重和海外倉運營成本高等問題。在此背景下,如何提升進口跨境電商的服務質(zhì)量成為當前學界研究的重要議題。
早在1982年,Gronroos在消費者感知的基礎上提出了服務質(zhì)量內(nèi)涵,即顧客受到形象、口碑等多種因素的影響而對服務質(zhì)量產(chǎn)生的期望和親身體驗的實際服務水平之間的差距[1]?;谠摾砟?,Lewis等將服務質(zhì)量視為是一種衡量公司服務水平能否達到顧客期望的工具[2]。而針對服務質(zhì)量維度的劃分,不同學者所持觀點存在差異性。Rust等認為服務質(zhì)量不僅要對商品功效、技術(shù)進行考慮,用戶接受服務的環(huán)境也同等重要,因此指出服務質(zhì)量由商品、傳遞和環(huán)境三個維度組成[3]。Gronroos等認為服務質(zhì)量應包括過程質(zhì)量(即在購買過程中消費者接收到的服務)和結(jié)果質(zhì)量(例如實體產(chǎn)品、等待時間等),二者通過公司形象最終決定消費者的感知質(zhì)量[4]。杜學美等將互聯(lián)網(wǎng)團購購買服務質(zhì)量分為5個維度,即網(wǎng)站與店鋪的環(huán)境、傳遞、補救、消費者權(quán)益及功能品質(zhì)[5]。綜合國內(nèi)外對用戶服務質(zhì)量的相關(guān)研究可以發(fā)現(xiàn),學者對跨境電商服務質(zhì)量的相關(guān)研究成果不多見,且多數(shù)沿用已有成果,少有從消費者具體實踐活動、具體感受來分析其主題特征開展服務質(zhì)量研究。
基于此,本文利用Python爬取京東國際個護商品消費者評論,使用TF-IDF、詞云圖分析用戶較為關(guān)注的方面,利用LDA主題聚類,分析得出影響京東國際進口跨境電商消費者服務質(zhì)量的關(guān)鍵因素。
1? 數(shù)據(jù)收集及研究流程
1.1? 數(shù)據(jù)收集
京東國際(https://www.jd.hk/)作為國內(nèi)首個全面專注于進口業(yè)務的電商平臺,主營跨境進口商品業(yè)務,是京東集團旗下進口商品一站式消費平臺,其前身是“海囤全球”和“京東全球購”。研究使用Python編寫程序采集京東國際平臺上個護領(lǐng)域具有代表性的潔面、面膜、面霜3類產(chǎn)品的評論內(nèi)容作為研究數(shù)據(jù)。由于研究內(nèi)容為進口跨境電商的服務質(zhì)量,故在采集數(shù)據(jù)時只選擇海外旗艦店和詳情頁內(nèi)標有“跨境進口”產(chǎn)品。截止2022年12月31日,共獲取28 352條數(shù)據(jù),其中包括用戶名稱、評論時間、評分和評論內(nèi)容。同時為保證研究結(jié)果的準確性,對數(shù)據(jù)進行重復值、去除無用評論等清洗,最終采集到用戶有效評論信息24 245條。
1.2? 研究流程
本文選擇京東國際部分個護產(chǎn)品消費者的在線評論構(gòu)建語料庫,基于LDA主題聚類模型追蹤用戶生成的評論內(nèi)容進一步挖掘文本中潛在信息。其研究框架如圖1所示。首先是數(shù)據(jù)的采集,使用Python爬取京東國際相關(guān)產(chǎn)品的評論數(shù)據(jù);其次對數(shù)據(jù)進行預處理,包括構(gòu)建自定義詞典,通過jieba的精確分詞、過濾停用詞典等方式進行分詞處理,將分詞結(jié)果轉(zhuǎn)入詞袋模型形成初始文本分析庫;接著對文本進行特征提取,詞云圖繪制,初步了解消費者關(guān)注因素;最后利用LDA主題對所有評論內(nèi)容進行聚類,分析影響消費者滿意的進口跨境電商服務質(zhì)量的因素,從而更好地提升消費者滿意度和提高跨境電商企業(yè)市場競爭力。
2? 實證分析
2.1? 基于TF-IDF的文本特征提取
文本特征分析,是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的基礎,其目的在于量化文檔的特征詞。本文應用TF-IDF方法提取文本特征。TF-IDF指某個詞或短語對一個文檔的重要性,值越高,則表明該詞或短語對這個文檔的重要性越大[7]。
表1列出了詞頻統(tǒng)計和TF-IDF權(quán)重值排名前20的特征詞。在詞頻統(tǒng)計中,“京東”不出意外的位于第二,但在前20的TF-IDF排序中難覓蹤跡,這也不難理解,整個評論數(shù)據(jù)都是圍繞著京東來展開的,幾乎每條評論中都可能會提到京東,這便降低了特征詞“京東”的重要性。從表1可以看出,“物流”、“發(fā)貨”、“很快”、“快遞”、“時間”等特征詞具有較高的權(quán)重,在文本中具有很高的重要性,表明消費者非常關(guān)注進口商品配送的物流時效?!把a水”、“緊繃”、“清爽”、“敏感”等特征詞的詞頻較低,但其TF-IDF權(quán)重較高,這類詞屬于“權(quán)重低,分類能力強”的特征詞,可選擇性地予以保留來進行主題聚類。這也表明消費者比較注重進口商品的功效與效果。
2.2? 基于詞云圖的特征可視化分析
為了更直觀地從用戶視角展現(xiàn)進口跨境電商服務質(zhì)量關(guān)鍵詞,本文利用Jieba和Wordcloud繪制詞云圖實現(xiàn)特征可視化,如圖2所示。圖中的字體越大,代表詞頻越高[8]。由于“京東”頻數(shù)較高,且無實際分析意義,因為為了凸顯其他詞語信息,把“京東”放入停用詞表中,將其過濾掉。由圖2可見,進口跨境電商用戶主要關(guān)注產(chǎn)品效果、價格、物流等相關(guān)因素。
2.3? 基于LDA主題模型的特征分析
LDA(Latent Dirichlet Allocation)是基于共軛先驗原理以及貝葉斯框架的文檔主題生成模型,包括文檔(d)、主題(z)及特征(w)三層結(jié)構(gòu),所以也被叫做三層貝葉斯概率模型[9]。
困惑度(Perplexity)是度量一個概率分布或概率預測樣本的重要指標,常用來確定LDA模型的最優(yōu)主題數(shù)[10-11]。研究使用困惑指標的大小來確定系列文本中所涉及主題的最佳個數(shù)。實驗證明困惑度最優(yōu)值為4,使用Pyldavis將困惑度最優(yōu)的主題數(shù)即主題k=4可視化(如圖3所示)。
圖譜中的不同組塊表示各不相同的主題,并且組塊大小表示對應主題在語料庫的重要性,組塊之間的距離表示主題之間的相似性,根據(jù)組塊大小及距離可提煉出文檔的核心技術(shù)主題。圖3是主題k=4的可視化ldavis圖譜,4個主題均由明顯的名詞組塊構(gòu)成且各組塊分布比較分散,表明當主題k=4時聚類精確度較高,更適合作為聚類主題數(shù)。
本文使用LDA主題聚類模型得到4個主題,并選取了每個主題排名前12的特征詞及對應權(quán)重,結(jié)果如表2所示。結(jié)合Rust[3]提出服務質(zhì)量理論,并根據(jù)表內(nèi)高概率特征詞的含義,最終將4個主題概括為物流效率、產(chǎn)品功效、價格優(yōu)惠和產(chǎn)品體驗。
在物流效率維度中,主要包括快遞速度和配送可靠性兩個方面。由“速度”、“送到”、“太慢”等特征詞可以看出,對于進口跨境電商消費者來說,存在與國內(nèi)消費者同樣的要求即對快遞配送效率存在較高要求。而在配送可靠性方面,快遞小哥態(tài)度、快遞包裝是否完好都是消費者較為關(guān)注的因素。
在產(chǎn)品功效維度中,由權(quán)重較高的關(guān)鍵詞可看出,該主題主要表達了消費者對進口產(chǎn)品功能與效果的觀點?!把a水”、“滋潤”、“舒服”等特征詞頻繁出現(xiàn),表明大部分消費者對于京東國際上的進口跨境個護產(chǎn)品功效比較認可。而“緊繃”“干燥”、“敏感”等詞也表達了進口個護產(chǎn)品在功效上仍存在消費者不滿意之處。
在感知價值維度中,“活動”、“價格”、“性價比”“優(yōu)惠”等關(guān)鍵詞占據(jù)較高權(quán)重,表明了消費者對于進口商品的態(tài)度和觀點。同時“物美價廉”、“劃算”、“值得”等關(guān)鍵詞也表明了消費者對于進口跨境電商服務多數(shù)持滿意觀點。在消費者滿意度研究領(lǐng)域,學者也常用感知價值來衡量產(chǎn)品價格的高低。因此本文將主題3定義為感知價值。
在產(chǎn)品體驗維度,出現(xiàn)了“不錯”、“滿意”、“喜歡”等特征詞,表明多數(shù)消費者對于進口產(chǎn)品整體持滿意觀點?;厮菰颊Z料庫,發(fā)現(xiàn)消費者對于產(chǎn)品外觀、包裝顏值等因素較為看重,而這些因素也極大地影響了消費者的產(chǎn)品體驗感。
3? 結(jié)論與展望
研究嘗試使用京東國際個護商品消費者評論,應用文本特征提取、詞云圖可視化、LDA主題聚類等文本挖掘技術(shù),分析得出影響京東國際進口跨境電商消費者服務質(zhì)量的關(guān)鍵因素主要包括物流效率、產(chǎn)品功效、價格優(yōu)惠和產(chǎn)品體驗4個方面。在此基礎上具體分析各個因素影響消費者服務質(zhì)量的機制及其相互間的邏輯關(guān)系,從而幫助進口跨境電商商家更好地改善消費者購物體驗,提升進口跨境電商的服務水平。
本文在對進口跨境電商服務質(zhì)量進行分析時,僅采用了京東國際的評價數(shù)據(jù),在未來的研究中,應充分考慮更多平臺如速賣通展開研究,使結(jié)果更加具有代表性;另外在文本挖掘中仍存在部分無法篩除的噪音,這些不足有待進一步完善。
參考文獻:
[1]? GRONROOS C. An applied service marketing theory[J]. European Journal of Marketing, 1993,16(7):30-41.
[2]? LEWIS R C, BOOMS B H. The marketing aspects of service quality[J]. Emerging Perspectives on Services Marketing, 1983,65(4):99-107.
[3]? RUST R T, OLIVER R L. Service quality: New directions in theory and practice[M]. Sage Publications, 1993.
[4]? GRONROOS C. An service quality model and its marketing implication[J]. European Journal of Marketing, 1984,18(4):36-44.
[5] 杜學美,謝志鴻,丁璟妤. 餐飲類網(wǎng)絡團購服務質(zhì)量模型研究[J]. 上海管理科學,2018,40(1):50-56.
[6]? QAISER S, ALI R. Text mining: Use of TF-IDF to examine the relevance of words to documents[J]. International Journal of Computer Applications, 2018,181(1):25-29.
[7]? SHAHID N, ILYAS M U, ALOWIBDI J S. Word cloud segmentation for simplified exploration of trending topics on Twitter[J]. IET Software, 2017,11(5):214-220.
[8] 毛曉莉,施本植. 新能源汽車普通消費者參與的大數(shù)據(jù)研究:基于文本挖掘和深度學習[J]. 海南大學學報(人文社會科學版),2022,40(5):201-210.
[9]? RUST R T, OLIVER.RL. Service quality: New directions in theory and practice[J]. Sage Thous and Oaks, 1994(18):58-69.
[10] 杜慧,陳云芳,張偉. 主題模型中的參數(shù)估計方法綜述[J]. 計算機科學,2017,44(S1):29-32,47.
[11] 陳澤宇,黃勃. 基于LDA特征擴展的用戶畫像[J]. 軟件導刊,2020,19(6):192-195.
收稿日期:2023-04-07
作者簡介:宋春燕(1999—),女,山東菏澤人,貴州大學管理學院碩士研究生,研究方向:管理系統(tǒng)工程。
引文格式:宋春燕. 基于文本挖掘的進口跨境電商服務質(zhì)量研究[J]. 物流科技,2024,47(3):55-57,65.