摘要:基于文本挖掘的用戶需求分析能夠從大量的在線用戶評論中挖掘出用戶的顯性需求和潛在需求。在用戶需求挖掘理論研究的基礎(chǔ)上,對某汽車用戶在線評論數(shù)據(jù)進行采集、預(yù)處理、詞云圖可視化分析以及關(guān)鍵詞共現(xiàn)分析。結(jié)果表明:該款汽車在空間、動力、內(nèi)飾、外觀方面具有優(yōu)勢,在胎噪、油耗、車機方面有待優(yōu)化。
關(guān)鍵詞:文本挖掘;在線評論;用戶需求;汽車
0 前言
隨著經(jīng)濟發(fā)展和生產(chǎn)力水平的提升,我國的商品市場已從賣方市場轉(zhuǎn)變?yōu)橘I方市場,導(dǎo)致企業(yè)之間的競爭變得更激烈。這種競爭不僅表現(xiàn)在商品的價格上,還表現(xiàn)在商品的功能、樣式、包裝、物流等方面。為滿足現(xiàn)有用戶和潛在用戶需求,企業(yè)必須能夠精準分析用戶的需求,并在不斷變化的市場環(huán)境中把握用戶需求的變化,及時調(diào)整產(chǎn)品或服務(wù)的營銷策略。
需求分析研究是一項重要的市場調(diào)研活動,是指對消費者需求和需求滿足程度進行深入研究和分析的過程。目前,常用的用戶需求分析研究方法主要包括用戶訪談法、專家咨詢法、問卷調(diào)查法和數(shù)據(jù)分析法,其中數(shù)據(jù)分析法能夠從網(wǎng)絡(luò)大量的文本評論數(shù)據(jù)中,挖掘出用戶的顯性需求和隱性需求。
隨著汽車電動化、智能化、網(wǎng)聯(lián)化、共享化發(fā)展,消費者購車前了解汽車信息主要通過專業(yè)汽車網(wǎng)站。通過這些網(wǎng)站可以查閱汽車資訊、查找汽車品牌或車系、查看口碑評論及經(jīng)銷商報價等內(nèi)容,由此也衍生出懂車帝、汽車之家、易車網(wǎng)、太平洋汽車等選車、買車、用車、換車的一站式服務(wù)網(wǎng)站。這類網(wǎng)站通常因其專業(yè)性、便捷性、易用性等優(yōu)點聚集了大量汽車用戶,產(chǎn)生了大量的汽車相關(guān)評論數(shù)據(jù)。汽車企業(yè)能夠根據(jù)自身及競爭對手車型的互聯(lián)網(wǎng)評論數(shù)據(jù)來分析用戶體驗反饋,挖掘汽車用戶的潛在需求[1],并借助數(shù)據(jù)挖掘和分析結(jié)論來優(yōu)化產(chǎn)品設(shè)計與營銷戰(zhàn)略。
1 文本挖掘技術(shù)在汽車領(lǐng)域的研究
在中國知網(wǎng)定制如下檢索條件:((題名=‘文本挖掘’)AND(題名=‘汽車’)),獲得135 篇文獻,人工刪除明顯與汽車領(lǐng)域無關(guān)的文獻后,對剩下100 篇文獻進行發(fā)文年度趨勢分析。分析可知,相關(guān)研究最早發(fā)表于2011 年,2011—2016 年可視為萌芽期,2017—2020 年為發(fā)展期,在2021 年達到年度發(fā)表最高值(23 篇/年),而后文獻篇數(shù)相對回落。對檢索出的文獻進行關(guān)鍵詞共現(xiàn)分析,結(jié)果如圖1所示。由圖1 可知:在汽車領(lǐng)域,關(guān)于文本挖掘技術(shù)的應(yīng)用研究主要用于汽車用戶情感分析[2-3]、主題模型分類[4-5]、滿意度影響因素[6-7]和銷量預(yù)測[8-9]等方面,且針對電動汽車較多,幾乎沒有針對特定品牌燃油汽車進行在線用戶評論關(guān)鍵詞共現(xiàn)分析的研究。
2 基于在線評論挖掘汽車用戶需求
筆者選擇國產(chǎn)某汽車品牌比較有代表性的星越L 汽車作為實證研究對象,并借助文本數(shù)據(jù)挖掘技術(shù)對該汽車的在線評論數(shù)據(jù)進行采集與預(yù)處理、詞云圖可視化分析和關(guān)鍵詞共現(xiàn)分析,從而幫助企業(yè)識別用戶需求,完善產(chǎn)品功能。
2. 1 基于網(wǎng)絡(luò)爬蟲技術(shù)的在線評論數(shù)據(jù)采集與存儲
本研究主要利用目前獲取網(wǎng)頁數(shù)據(jù)比較主流的網(wǎng)絡(luò)爬蟲技術(shù),實現(xiàn)對該款汽車用戶在線評論數(shù)據(jù)的采集,采集的數(shù)據(jù)源主要是懂車帝和汽車之家網(wǎng)站。在網(wǎng)絡(luò)爬蟲工具方面,主要利用Python 的re、requests 等模塊來獲取數(shù)據(jù)源。數(shù)據(jù)采集的主要步驟為:① 在Python 導(dǎo)入requests、beautiful soup 和selenium 庫,分別用于發(fā)送網(wǎng)絡(luò)請求、解析HTML 頁面和模擬瀏覽器行為;② 給爬蟲設(shè)置一個請求頭,模擬正常用戶瀏覽器訪問網(wǎng)站,避免被目標網(wǎng)站屏蔽;③ 分別訪問懂車帝和汽車之家網(wǎng)站上該款汽車的評論頁面,通過selenium庫和Chrome 瀏覽器驅(qū)動模擬瀏覽器行為,如翻頁、點擊等操作;④ 使用BeautifulSoup 庫解析HTML 頁面,從頁面中提取評論數(shù)據(jù),包括評論者的昵稱、評論日期、評論內(nèi)容等;⑤ 通過翻頁抓取,獲取評論的總頁數(shù),并通過循環(huán)訪問每一頁,以抓取更多評論;⑥ 將采集得到的在線評論數(shù)據(jù)存儲在一個數(shù)據(jù)結(jié)構(gòu)(如列表或字典)中,將其輸出到本地Excel 文件進行存儲。
2. 2 基于中文分詞技術(shù)的在線評論數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)存在重復(fù)評論、換行符、空格等異常數(shù)據(jù),影響后續(xù)數(shù)據(jù)分析的客觀性和準確性,因此有必要對原始數(shù)據(jù)進行預(yù)處理,主要包括數(shù)據(jù)加載與簡單預(yù)處理、中文分詞、去停用詞等。
2. 2. 1 數(shù)據(jù)加載與簡單預(yù)處理
將在線評論原始數(shù)據(jù)讀取到Python 中,存儲為一個數(shù)據(jù)框?qū)ο?。通過對讀入數(shù)據(jù)進行觀察可以發(fā)現(xiàn),原始評論數(shù)據(jù)中存在重復(fù)評論,以及較多的數(shù)字、字母、符號和表情等,因此需要進行去除重復(fù)值、部分無效詞等簡單預(yù)處理。本研究主要采用數(shù)據(jù)框的drop_duplicates 方法去除“評論內(nèi)容”列的重復(fù)值,再使用Python 內(nèi)置的re 模塊的compile 函數(shù)去除評論數(shù)據(jù)中“[0-9a-zA-Z]| |\n|吉利|星越|汽車|提車|車”等無效詞。
2. 2. 2 中文分詞
中文分詞是將中文漢字序列拆分為單個的字或者詞語。目前使用較多的中文分詞工具有jieba、SnowNLP、HanLP、NLPIR 等。由于jieba 在中文分詞方面具有易用性和有用性,本研究使用Python中的jieba 庫實現(xiàn)文本評論數(shù)據(jù)的中文分詞。選擇jieba 庫默認的精確模式,使用cut()函數(shù)對評論數(shù)據(jù)中的“評論內(nèi)容”列進行分詞。
2. 2. 3 去停用詞
通過觀察分詞后的評論數(shù)據(jù)可以發(fā)現(xiàn),分出的詞中有很多符號、空格等與數(shù)據(jù)分析無關(guān)的詞,因此需要進行去停用詞處理。本研究在網(wǎng)上下載的停用詞表基礎(chǔ)上,結(jié)合對文本評論數(shù)據(jù)分詞的觀察,更新得到停用詞表“stopwords2023.txt”。
通過with open 方法讀取停用詞表后,利用re 模塊的sub 函數(shù)簡單處理停用詞表中的空格、換行符等,然后使用代碼[[i for i in s if i not in stop] for s in comments['評論分詞']]來去除停用詞,最后將預(yù)處理后的評論數(shù)據(jù)輸出為Excel 文件,并保存為“comments_after.xlsx”。預(yù)處理后的評論數(shù)據(jù)如圖2 所示。
2. 3 基于詞頻統(tǒng)計技術(shù)的在線評論數(shù)據(jù)詞云圖可視化
詞云圖(word cloud)是由詞組成的云狀圖形,常用于文本數(shù)據(jù)的可視化,還可以進一步設(shè)置詞云的形狀、顏色、尺寸等。本研究將經(jīng)過處理后的有效分詞進行詞頻統(tǒng)計,然后在Python 中導(dǎo)入詞云圖模塊及pyplot 模塊,繪制出的詞云圖如圖3 所示。從圖3 可以看出,用戶對于該款汽車的關(guān)注點主要是空間、油耗、動力、外觀、內(nèi)飾、配置等功能特征,且用戶評論中“滿意”、“喜歡”等正面評價較為突出。
2. 4 基于語義關(guān)系的在線評論數(shù)據(jù)關(guān)鍵詞共現(xiàn)分析
基于詞頻統(tǒng)計的詞云圖可視化分析僅能分析關(guān)鍵詞在文本評論數(shù)據(jù)中出現(xiàn)的頻率,但不能反映出關(guān)鍵詞之間的關(guān)聯(lián)性。因此,需要進一步對關(guān)鍵詞進行共現(xiàn)分析。共現(xiàn)分析的原理是在詞頻統(tǒng)計的基礎(chǔ)上進行聚類分析,從而挖掘出文本的主題結(jié)構(gòu)。關(guān)鍵詞共現(xiàn)分析的步驟主要為提取在線評論數(shù)據(jù)關(guān)鍵詞、構(gòu)建關(guān)鍵詞共現(xiàn)矩陣、構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò)圖。
基于預(yù)處理后的在線評論數(shù)據(jù),利用Python 的標準GUI 庫tkinter 庫的_flatten 函數(shù)提取出頻數(shù)排前20 位的關(guān)鍵詞,分別是:油耗、空間、動力、駕駛、開、內(nèi)飾、高速、買、滿意、配置、感受、喜歡、不錯、外觀、跑、高、座椅、后排、真的、模式。
根據(jù)前述提取出頻數(shù)排前20 位的關(guān)鍵詞,構(gòu)建關(guān)鍵詞共現(xiàn)矩陣,共現(xiàn)矩陣的每一行/每一列代表一個關(guān)鍵詞,矩陣中的每個元素表示關(guān)鍵詞之間的共現(xiàn)次數(shù),如圖4 所示。
最后,基于Networkx 圖論與復(fù)雜網(wǎng)絡(luò)建模工具,使用Python 語言構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò)圖,如圖5 所示。
從圖4 和圖5 可以看出,共現(xiàn)次數(shù)較高的關(guān)鍵詞對包括(空間,后排)、(油耗,高)、(駕駛,感受)、(外觀,內(nèi)飾)、(跑,高速)、(配置,高)、(駕駛,模式)等。較多的用戶在空間、動力、外觀方面比較滿意,該款汽車在內(nèi)飾、外觀方面具有優(yōu)勢。
3 結(jié)語
本研究提出基于在線評論數(shù)據(jù)挖掘汽車用戶需求的方法,為汽車企業(yè)在大數(shù)據(jù)時代如何利用數(shù)據(jù)挖掘手段,獲取目標客戶真實需求提供了一種易用且有效的技術(shù)方法。結(jié)果顯示,該款汽車在空間、動力、內(nèi)飾、外觀方面具有優(yōu)勢,在胎噪、油耗方面有待優(yōu)化。
參 考 文 獻
[ 1 ] 吳瑋怡. 數(shù)據(jù)挖掘在電動汽車充電樁充電故障檢測中的應(yīng)用[J]. 汽車與新動力,2023,6(2):81-84.
[ 2 ] 張夢婷,葉楠,范黃健. 基于情感分析的新能源汽車用戶評論語義網(wǎng)絡(luò)分析與主題建模[J].科技和產(chǎn)業(yè),2022,22(12):364-369.
[ 3 ] 原顯冬. 基于文本挖掘的SUV 汽車客戶情感分析[J]. 中國市場,2023(10):128-132.
[ 4 ] 劉冠東. 基于文本挖掘的主題投資探索性研究[D]. 廣州:華南理工大學(xué),2020.
[ 5 ] 張弦. 基于主題模型的車輛殘值評估研究[D].南京:南京大學(xué),2018.
[ 6 ] 桂術(shù)蒙. 基于論壇評論的新能源汽車用戶滿意度研究[D]. 遼寧大連:大連理工大學(xué),2022.
[ 7 ] 董斯雨. 基于在線評論的新能源汽車用戶滿意度研究[D]. 武漢:中南財經(jīng)政法大學(xué),2022.
[ 8 ] 何永杰. 在線評論對汽車銷量的影響研究[D].長春:吉林大學(xué),2020.
[ 9 ] 王曉光. 新能源汽車在線評論的特征挖掘、質(zhì)量評價及銷售預(yù)測效能研究[D]. 江蘇徐州:中國礦業(yè)大學(xué),2022.