穆翠霞
摘要:為了用戶更直觀、全面、高效地了解商品評(píng)價(jià)信息,以京東為例,設(shè)計(jì)和實(shí)現(xiàn)了商品評(píng)價(jià)文本可視化。采用八爪魚采集器進(jìn)行了數(shù)據(jù)采集,結(jié)合Python和jieba進(jìn)行了分詞和詞頻統(tǒng)計(jì),Echarts實(shí)現(xiàn)了詞云圖、旭日?qǐng)D和主題河流圖等文本可視化形式,幫助用戶多角度多形式地了解商品評(píng)價(jià)情況。
關(guān)鍵詞:文本可視化;商品評(píng)價(jià);Echarts;jieba
中圖分類號(hào):TP311.1? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)35-0011-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Visualization Design of Commodity Evaluation Text Based on Python and Echarts
MU Cui-xia
(China Womens University, Beijing 100101, China)
Abstract: In order to understand the commodity evaluation information more intuitively, comprehensively and efficiently, taking JD as an example, this paper designs and realizes the visualization of commodity evaluation text. Using Octopus collector for data collection, combined with Python and Jieba for word segmentation and word frequency statistics, realizing text visualization forms such as word cloud, sunburst and theme River, which helps users understand commodity evaluation from different angles.
Key words: text data visualization; commodity evaluation; Echarts; jieba
ChannelAdvisor通過調(diào)查發(fā)現(xiàn)[1],90%的消費(fèi)者在購買商品前會(huì)瀏覽在線評(píng)論,而且他們中的83%消費(fèi)者認(rèn)為最終購買決策會(huì)受到在線評(píng)論影響。在線評(píng)論作為一種口碑形式,通常沒有明顯的商業(yè)目的,更容易獲得消費(fèi)者信賴。Jupiter Research調(diào)查數(shù)據(jù)[2]顯示超過90%的大企業(yè)相信,在影響消費(fèi)者是否購買的決定性因素中網(wǎng)民意見是至關(guān)重要的。以京東為例,商品評(píng)價(jià)通常包含好評(píng)度、評(píng)價(jià)標(biāo)簽、評(píng)價(jià)條數(shù)、好評(píng)中評(píng)差評(píng)各自條數(shù)、各條評(píng)價(jià)詳情(用戶、時(shí)間、星級(jí)、文本等)等,如圖1所示。消費(fèi)者可以通過好評(píng)度、評(píng)價(jià)標(biāo)簽獲得對(duì)商品的初步總體印象,通過好評(píng)、中評(píng)、差評(píng)條數(shù)情況進(jìn)一步了解用戶對(duì)商品的反饋傾向,還可以查看評(píng)價(jià)詳情了解具體評(píng)價(jià)內(nèi)容。但是,在查看評(píng)價(jià)詳情時(shí),雖然可以按照默認(rèn)系統(tǒng)推薦排序,也可以選擇按照時(shí)間排序,但是評(píng)價(jià)條數(shù)成千上萬,不可能依次全部瀏覽。為了讓用戶更全面、高效、直觀地了解商品評(píng)價(jià)情況,從而為用戶的購買決策提供支持,本文研究商品評(píng)價(jià)文本的可視化設(shè)計(jì)和實(shí)現(xiàn)。文本可視化的一般流程包括數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、文本分詞與統(tǒng)計(jì)、數(shù)據(jù)可視化設(shè)計(jì)與實(shí)現(xiàn)。下文將以京東商城某型號(hào)的投影儀評(píng)價(jià)數(shù)據(jù)為例,結(jié)合具體實(shí)現(xiàn)工具、方法和過程,闡述商品評(píng)價(jià)文本的可視化設(shè)計(jì)與實(shí)現(xiàn)。
1 數(shù)據(jù)采集與預(yù)處理[3]
八爪魚采集器是一款免費(fèi)的網(wǎng)頁數(shù)據(jù)采集軟件,使用簡單,功能強(qiáng)大,還可以根據(jù)軟件內(nèi)置模板進(jìn)行數(shù)據(jù)采集。配置八爪魚采集參數(shù),采集了京東某款投影儀的商品評(píng)價(jià)原始數(shù)據(jù),如圖2所示,包括用戶賬號(hào)、級(jí)別、評(píng)價(jià)星級(jí)、評(píng)價(jià)內(nèi)容、評(píng)價(jià)日期、評(píng)價(jià)關(guān)鍵詞、評(píng)價(jià)類型等信息。
采集京東某款投影儀原始數(shù)據(jù)共729條(受限于采集軟件和京東平臺(tái),采集的并非全部評(píng)價(jià)數(shù)據(jù),重點(diǎn)僅在研究可視化設(shè)計(jì)與實(shí)現(xiàn)),去除無效評(píng)價(jià)記錄,包括重復(fù)記錄(同一用戶的相同評(píng)價(jià)),評(píng)價(jià)文本與星評(píng)不一致的記錄,用戶未進(jìn)行文本評(píng)價(jià)的記錄。京東默認(rèn)4星和5星為好評(píng),2星和3星為中評(píng),1星為差評(píng)。評(píng)價(jià)文本與星評(píng)不一致的記錄,比如評(píng)價(jià)文本中出現(xiàn)差評(píng)而星評(píng)為4星,評(píng)價(jià)文本為一般而星評(píng)為4星或5星。最后保留評(píng)價(jià)記錄共706條,將好評(píng)358條、中評(píng)150條和差評(píng)198條保存為3個(gè)不同的txt文件,后面用于設(shè)計(jì)詞云圖和旭日?qǐng)D等。另外按照時(shí)間順序?qū)⒑迷u(píng)、差評(píng)數(shù)據(jù)各自分別保存為5個(gè)不同txt文件,后面用來設(shè)計(jì)主題河流圖。
2 文本分詞及詞頻統(tǒng)計(jì)[4-5]
下面將利用Python和jieba結(jié)巴中文分詞實(shí)現(xiàn)商品評(píng)價(jià)文本的分詞和詞頻統(tǒng)計(jì)。jieba是一款優(yōu)秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式,其中精確模式將語句最精確的切分,只輸出最大概率組合,不存在冗余數(shù)據(jù),適合做文本分析。
2.1 自定義詞典和自定義停用詞表
針對(duì)投影儀商品評(píng)價(jià)這一特定文本的分析需求,通過jieba分詞效果測試,把部分特定詞添加到自定義詞典中,比如“側(cè)投”“不刺眼”“還原度”“自動(dòng)對(duì)焦”等。
為了保證可視化效果,去掉一些無效詞的干擾,還可以自定義停用詞表,這些詞對(duì)于表達(dá)商品評(píng)價(jià)信息沒有實(shí)際意義,比如“部分”“聯(lián)系”“整體”“應(yīng)該”“最后”等。另外,有的用戶進(jìn)行商品評(píng)價(jià)采用了模板,類似“外觀外形:……投影亮度:……”,考慮到這些評(píng)價(jià)分類詞匯包括:“外形外觀”“投影亮度”“投影效果”“音質(zhì)音效”“操作難易”“其他特色”等,不是對(duì)商品的實(shí)質(zhì)評(píng)價(jià)或描述,因此將分類詞匯刪除,減少對(duì)實(shí)質(zhì)評(píng)價(jià)詞匯信息的提取和可視化表達(dá)的影響。
2.2 分詞及詞頻統(tǒng)計(jì)
Python采用jieba分詞工具,調(diào)用上文的自定義詞典和自定義停用詞表,實(shí)現(xiàn)分詞及詞頻統(tǒng)計(jì),并按照Echarts可視化實(shí)現(xiàn)的格式要求寫入文件。實(shí)現(xiàn)關(guān)鍵代碼如下圖3,結(jié)合可視化具體需求,對(duì)整理好的不同評(píng)價(jià)文本進(jìn)行分詞和詞頻統(tǒng)計(jì)處理。
2.3 評(píng)價(jià)詞標(biāo)注
以好評(píng)文本分詞結(jié)果為例,將按照用戶體驗(yàn)、產(chǎn)品性能、外觀外形、其他評(píng)價(jià)、物流客服、性價(jià)高低等6個(gè)評(píng)價(jià)屬性類別對(duì)分詞進(jìn)行標(biāo)注,然后按照不同屬性類別內(nèi)部進(jìn)行詞頻排序,選擇排名前10評(píng)價(jià)詞及詞頻用于分屬性詞云圖和旭日?qǐng)D可視化設(shè)計(jì),如下圖4所示。
3 Echarts可視化設(shè)計(jì)與實(shí)現(xiàn)
ECharts 是一個(gè)使用 JavaScript 實(shí)現(xiàn)的開源可視化庫,提供直觀、交互豐富且可高度個(gè)性化定制的數(shù)據(jù)可視化圖表,適用于多種不同的可視化場景。本文設(shè)計(jì)了不同的文本可視化形式,包括詞云圖、旭日?qǐng)D和主題河流圖,試圖從多角度多方式地滿足用戶快速、全面、直觀地了解商品評(píng)價(jià)的需求[4-6]。詞云圖通過字體大小、位置和顏色等表達(dá)不同關(guān)鍵詞的重要程度。旭日?qǐng)D(Sunburst)由多層的環(huán)形圖組成,既能像餅圖一樣表現(xiàn)局部和整體的占比,又能像矩形樹圖一樣表現(xiàn)層級(jí)關(guān)系,本文中用來表達(dá)對(duì)于商品不同方面的評(píng)價(jià)情況。主題河流圖主要用來表示事件或主題等在一段時(shí)間內(nèi)的變化,本文用于表達(dá)隨著時(shí)間推移的評(píng)價(jià)變化情況。下面將闡述商品評(píng)價(jià)文本的不同可視化設(shè)計(jì)與實(shí)現(xiàn)。
3.1 不同款商品的評(píng)價(jià)標(biāo)簽詞云圖
評(píng)價(jià)標(biāo)簽?zāi)苤苯油ㄟ^八爪魚采集器爬取,如圖5所示,然后分別提取其中的標(biāo)簽詞和數(shù)值,采用JavaScript和Echarts實(shí)現(xiàn)詞云圖,如圖6和圖7所示。這樣可以直觀、初步地對(duì)比不同產(chǎn)品,比如兩個(gè)不同品牌的價(jià)位相當(dāng)?shù)耐队皟x評(píng)價(jià)標(biāo)簽情況。詞云圖實(shí)現(xiàn)的關(guān)鍵代碼如圖8所示。
3.2 好評(píng)、中評(píng)、差評(píng)詞云圖
根據(jù)商品評(píng)價(jià)的情感傾向,分別將好評(píng)、中評(píng)、差評(píng)文本以詞云圖形式展示,如圖9、圖10、圖11所示,這樣用戶可以從視覺上直觀、全面地了解不同評(píng)價(jià)類型的整體情況。比如差評(píng)中“客服”“京東”“退貨”等較為突出,在好評(píng)中“不錯(cuò)”“清晰”“簡單”“小巧”“方便”等較為突出。
3.3 好評(píng)與差評(píng)分屬性旭日?qǐng)D[7]
根據(jù)評(píng)價(jià)屬性分類后,可以設(shè)計(jì)和實(shí)現(xiàn)好評(píng)和差評(píng)文本的分屬性旭日?qǐng)D。下圖12為好評(píng)文本的旭日?qǐng)D及下鉆效果,通過旭日?qǐng)D可以直觀地看到,好評(píng)文本中不同的屬性包括用戶體驗(yàn)、產(chǎn)品性能、外觀外形、物流客服、性價(jià)高低、其他評(píng)價(jià)等所占比例情況,還有不同屬性中的各評(píng)價(jià)詞占比情況。
比如好評(píng)文本的用戶體驗(yàn)中“不錯(cuò)”“簡單”“方便”,產(chǎn)品性能中的“效果”“清晰”“白天”,外觀外形中的“小巧”“美觀”等都占較大比例。單擊某屬性比如“用戶體驗(yàn)”,通過旭日?qǐng)D的下鉆效果可以進(jìn)一步更清晰地查看“用戶體驗(yàn)”的評(píng)價(jià)詞比例分布情況。另外,通過對(duì)比好評(píng)和差評(píng)的旭日?qǐng)D,用戶可以清晰地對(duì)比了解用戶滿意和不滿意的方面主要集中在哪些方面,然后可以進(jìn)一步查看評(píng)論詳情來獲取相關(guān)信息。下圖13為差評(píng)的分屬性旭日?qǐng)D,差評(píng)中“物流客服”明顯占比增大,“外觀外形”明顯占比減小。
3.4 好評(píng)與差評(píng)分屬性詞云圖
按照不同的屬性分類分別設(shè)計(jì)詞云圖并進(jìn)行對(duì)比,對(duì)好評(píng)和差評(píng)文本實(shí)現(xiàn)分屬性詞云圖,結(jié)果如圖14和圖15,可以進(jìn)一步直觀對(duì)比不同屬性的評(píng)價(jià)情況。比如差評(píng)中對(duì)“外觀外形”的評(píng)價(jià)明顯減少,性價(jià)高低的評(píng)價(jià)主要集中在“降價(jià)”“價(jià)格”“保價(jià)”等。
3.5 差評(píng)主題河流圖[8]
隨著時(shí)間的變化,評(píng)價(jià)也可能發(fā)生變化,設(shè)計(jì)主題河流圖可以直觀展示評(píng)價(jià)關(guān)鍵詞的變化情況,比如差評(píng)變化情況如下圖16所示,差評(píng)中“客服”“退貨”“京東”等在3月增多明顯。主題河流圖的實(shí)現(xiàn)關(guān)鍵代碼,如圖17所示。
4 結(jié)束語
對(duì)商品評(píng)價(jià)文本的可視化分析,可以幫助消費(fèi)者更直觀、全面、高效地了解商品情況,從而支持消費(fèi)者的購買決策,同時(shí)也可以幫助商家更好地了解消費(fèi)者的反饋和需求,進(jìn)而改進(jìn)商品和服務(wù)等,提升用戶購物體驗(yàn)。本文基于Python和Echarts并結(jié)合jieba分詞,對(duì)某款投影儀的評(píng)價(jià)文本設(shè)計(jì)了詞云圖、旭日?qǐng)D、主題河流圖等多種可視化形式,讓用戶多角度更全面地了解商品,而且也適用于其他類型商品的評(píng)價(jià)文本可視化。但是,本文中數(shù)據(jù)爬取的完整性以及不同屬性評(píng)價(jià)詞的自動(dòng)標(biāo)注等有待后續(xù)深入研究。
參考文獻(xiàn):
[1] 宋蘇娟,彭衛(wèi),王沖.基于手機(jī)評(píng)論數(shù)據(jù)探究在線評(píng)論有用性的影響因素[J].商場現(xiàn)代化,2020(11):1-4.
[2] 曹麗,郭愷強(qiáng).基于在線評(píng)論的網(wǎng)絡(luò)營銷策略研究[J].輕紡工業(yè)與技術(shù),2020,49(5):120-121.
[3] 陳俊宇,鄭列.基于R語言的商品評(píng)論情感可視化分析[J].湖北工業(yè)大學(xué)學(xué)報(bào),2020,35(1):110-113.
[4] 徐博龍.應(yīng)用Jieba和Wordcloud庫的詞云設(shè)計(jì)與優(yōu)化[J].福建電腦,2019,35(6):25-28.
[5] 李春芳,石民勇.數(shù)據(jù)可視化原理與實(shí)例[M].北京:中國傳媒大學(xué)出版社,2018.
[6] 韓帥康,江濤,張順.大數(shù)據(jù)評(píng)論采集分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2020,16(4):35-37.
[7] 易小群,李天瑞,陳超.面向評(píng)論文本數(shù)據(jù)的旭日?qǐng)D可視化[J].計(jì)算機(jī)科學(xué),2019,46(10):14-18.
[8]百度Echarts[EB/OL].[2020-05-26].https://echarts.apache.org/zh/index.html.
【通聯(lián)編輯:謝媛媛】