黃蘇雨
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,人們越來越多地在電商網(wǎng)站、論壇、社交網(wǎng)絡(luò)等平臺上,公開發(fā)表對商品的各種評價(jià)和意見,由此帶來的文本數(shù)據(jù)呈現(xiàn)爆發(fā)性增長。本文就醫(yī)療器械領(lǐng)域的血糖儀作為研究對象,利用python在各電商平臺上爬取數(shù)據(jù),對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、中文分詞、去除停用詞等預(yù)處理,再利用基于情感分析的LDA改進(jìn)模型對數(shù)據(jù)進(jìn)行分析,得到各主題下的詞分布,以此獲得對產(chǎn)品的建議。
關(guān)鍵詞:文本分析;血糖儀;LDA模型;情感分析
1.引言
隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,用戶越來越偏向于線上消費(fèi),同時在各網(wǎng)絡(luò)等平臺上,隨時分享自己的意見。大量的文本評論內(nèi)容,隱藏著產(chǎn)品特性、用戶需求以及使用反饋。如何從中進(jìn)行挖掘來精細(xì)化定位產(chǎn)品或服務(wù)的不足,對商家來說,是個很重要的商機(jī)。
目前,文本挖掘技術(shù)是數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),其中,產(chǎn)品評論挖掘技術(shù)又是輔助分析海量評論信息的一種有效手段。本文就選取血糖儀作為研究對象,獲取其線上的評論數(shù)據(jù),經(jīng)預(yù)處理之后,利用基于情感分析的LDA改進(jìn)模型對數(shù)據(jù)進(jìn)行分析,得到各主題下的詞分布。
2.數(shù)據(jù)選取與預(yù)處理
根據(jù)相關(guān)資料統(tǒng)計(jì),我國擁有著世界上最大的糖尿病人群,目前已達(dá)到1.48億。然而,血糖儀在中國糖尿病人群中的滲透率并不高,與發(fā)達(dá)國家相差很大。外資品牌首先搶占國內(nèi)血糖儀市場,并且占有較大比例的份額,而國內(nèi)品牌目前主要靠性價(jià)比占據(jù)一定份額。本次研究希望能夠通過對血糖儀的相關(guān)評論進(jìn)行分析,對國內(nèi)相關(guān)品牌提供指導(dǎo)意見,力求改變我國高端產(chǎn)品靠進(jìn)口的現(xiàn)狀。
我們選取國內(nèi)外比較有代表性的品牌下銷量最佳的型號,同時利用python工具爬取相關(guān)評論數(shù)據(jù)。國內(nèi)、國外血糖儀評論數(shù)據(jù)分別獲得21025、10849條。
從獲取的數(shù)據(jù)來看,不同于傳統(tǒng)的文本,商品評論具有以下特點(diǎn):(1)文本短,較多為字?jǐn)?shù)較少的短評論;(2)情感傾向明顯,存在很多較明顯的詞匯;(3)語言不規(guī)范,會出現(xiàn)一些網(wǎng)絡(luò)用詞、符號、數(shù)字等;(4)存在重復(fù)記錄或者重復(fù)的主題。所以處理流程如下:數(shù)據(jù)清洗(文本去重、機(jī)械壓縮、短句刪除)、中文分詞、此行標(biāo)準(zhǔn)、去除停用詞。
3.模型運(yùn)用
本文在LDA模型的三層結(jié)構(gòu)的基礎(chǔ)上,加入情感層,并且引入情感詞典作為先驗(yàn)信息。在改進(jìn)的模型中,情感的產(chǎn)生依賴于主題,而在每個主題下會得到不同情感下的詞分布。
該模型的生成過程如下:
(1)對于每一個主題和情感,抽取詞分布,其中,。
(2)對于每一篇文檔,。
(2.1)從狄利克雷分布中,生成該文檔的主題分布;
(2.2)對于每個主題,分別從狄利克雷分布中,生成情感分布;
(2.3)對于每個句子:選取主題;主題為時,選取情感;選取單詞。
在求解過程中,可以使用Gibbs抽樣算法對該模型進(jìn)行參數(shù)估計(jì)和統(tǒng)計(jì)推理。
3.1 建立詞典
由于網(wǎng)絡(luò)評論文本的特殊性,從已有情感詞典的基礎(chǔ)上展開擴(kuò)展:(一)通用基礎(chǔ)詞典。典型的中文詞典:知網(wǎng)的“情感分析用詞語集”、臺灣大學(xué)情感詞典、大連理工大學(xué)的情感詞匯本體庫;(二)擴(kuò)充詞典,主要來源于搜狗拼音詞庫網(wǎng)絡(luò)流巧新詞;(三)領(lǐng)域詞典。針對醫(yī)療器械領(lǐng)域建立相關(guān)語料庫,以此建立該領(lǐng)域的情感詞典,語料從各大電商平臺獲取。
首先篩選并去除各詞典中的許多情感極性相反的,或者情感意義比較多的詞匯,然后對各詞典中的正負(fù)面評價(jià)詞語等進(jìn)行去重,組合再分別建立積極、消極情感詞典。
3.2 實(shí)驗(yàn)參數(shù)設(shè)定
在實(shí)例操作過程中,三個超參數(shù)分別取值為。此外,主題個數(shù)設(shè)定為5,迭代次數(shù)選擇10000次。
4.結(jié)果分析
從上述結(jié)果來看,用戶傾向于使用國外血糖儀,可能主要有以下原因:(1)品牌。由于國外品牌血糖儀進(jìn)入市場早,其技術(shù)、產(chǎn)品和營銷手段等都已經(jīng)很成熟,得到了專業(yè)醫(yī)護(hù)人員及患者的認(rèn)可和對品牌的忠誠度。(2)精確度。從用戶的反饋結(jié)果來看,國外品牌血糖儀的準(zhǔn)確度高于國內(nèi)品牌。精確度應(yīng)該是第一重要因素,在測量過程中,無論是低血糖還是高血糖,當(dāng)存在偏差時,都可能會對用戶的生命造成威脅。這一方面,進(jìn)口血糖儀就保持了較高的準(zhǔn)確度。(3)服務(wù)。在售后服務(wù)這塊,國外品牌往往能提供更完善的服務(wù)體系,例如強(qiáng)生提供相應(yīng)的社區(qū)服務(wù),以社區(qū)模式為用戶打造健康平臺,為用戶提供專業(yè)教育和咨詢、三年儀器保修、檢測儀器服務(wù)等。(4)操作。國外血糖儀操作更簡易一些,基本都是免調(diào)碼,同時很多都是一鍵式操作,比如羅氏整合型,試紙放進(jìn)去,可以連續(xù)測多次。
但也有對國外品牌血糖儀不滿的地方,主要是血糖儀和試紙的價(jià)格。進(jìn)口血糖儀的機(jī)器價(jià)格和試紙價(jià)格均高于國產(chǎn)品牌,尤其試紙作為消耗品,日常使用,價(jià)格高,用戶難以承受。
另一些客戶傾向于使用國內(nèi)血糖儀的原因可能如下:(1)價(jià)格。在血糖儀和試紙價(jià)格上均占據(jù)優(yōu)勢,性價(jià)比高。(2)電商營銷。國內(nèi)品牌利用互聯(lián)網(wǎng)營銷平臺,比國外品牌率先抓住機(jī)遇,與阿里巴巴、百度、京東等開展合作。(3)體積小巧。國產(chǎn)品牌的血糖儀都呈現(xiàn)體積小巧的特點(diǎn),方便用戶隨身攜帶。
但也存在很多不足,以至于讓用戶不會重復(fù)購買:(1)準(zhǔn)確度。反饋來看,國產(chǎn)血糖儀還是存在偏差,重復(fù)進(jìn)行測量,是對試紙的浪費(fèi)。(2)顯示。從反饋來看,國產(chǎn)品牌的屏幕顯示一般比較小,對于老年人或視力有問題的用戶來說很不方便的。
總的來說,(一)對于進(jìn)口血糖儀,用戶更看重的是品牌,以及帶來的其他效應(yīng),比如準(zhǔn)確度、采血等方面,價(jià)格昂貴造成的劣勢,也能夠由產(chǎn)品帶來的信賴感和用戶消費(fèi)水平的提供來解決。(二)對于國產(chǎn)血糖儀,在價(jià)格上占據(jù)優(yōu)勢,受到普通用戶的青睞。但質(zhì)量上可能無法像國外品牌帶來強(qiáng)烈的信賴感。
5.建議
5.1優(yōu)化渠道,繼續(xù)抓住互聯(lián)網(wǎng)營銷機(jī)遇
公司應(yīng)該建立醫(yī)療機(jī)構(gòu)、OTC零售網(wǎng)絡(luò)、互聯(lián)平臺三位一體銷渠道,尤其在電商渠道,抓住契機(jī),積極拓展電子商務(wù)家用醫(yī)療體系的營銷渠道,加大銷售費(fèi)用投入、調(diào)整費(fèi)用結(jié)構(gòu)。尤其加大公司在電商平臺的投入,以此在電商平臺的渠道運(yùn)營建設(shè)所獲得的品牌影響力。
5.2注重研發(fā),推進(jìn)自身品類日益豐富
從用戶實(shí)際反饋來看,儀器穩(wěn)定性還存在不足的地方。由于國內(nèi)品牌研發(fā)經(jīng)驗(yàn)遠(yuǎn)不及國際品牌豐富,國產(chǎn)品牌需要繼續(xù)加大研發(fā)投入,推進(jìn)老產(chǎn)品線更新?lián)Q代,以及結(jié)合人工智能等技術(shù),研發(fā)新產(chǎn)品,不斷升級現(xiàn)有的產(chǎn)品線。
5.3走出國際化之路,產(chǎn)品向高端化延伸
縱觀國際醫(yī)療器械行業(yè)巨頭發(fā)展歷史,國際化都是的必經(jīng)之路,也是順應(yīng)用戶消費(fèi)升級,國內(nèi)品牌應(yīng)該引入海外的研發(fā)創(chuàng)新、技術(shù)和管理人才,以促進(jìn)品牌、產(chǎn)品、團(tuán)隊(duì)的國際化;同時,需要在國外商務(wù)拓展中心,積極收集最前沿資訊,通過引進(jìn)來、走出去雙向發(fā)展,最終實(shí)現(xiàn)產(chǎn)品向高端化延伸。
5.4推進(jìn)品牌化戰(zhàn)略
隨著用戶的消費(fèi)升級,深受產(chǎn)品質(zhì)量困擾的消費(fèi)者意識到品牌價(jià)值的重要性,國產(chǎn)品牌應(yīng)該堅(jiān)持品牌化策略,確定以核心產(chǎn)品為品牌傳播切入點(diǎn)的品牌策略,例如與頂級品牌傳播公司合作。在提升員工對公司品牌的認(rèn)知、認(rèn)同和堅(jiān)持的同時,不斷提升消費(fèi)者對品牌的認(rèn)知、認(rèn)同以及忠誠度。
參考文獻(xiàn):
[1]余琦瑋,肖穎,林靜,徐新勝,王慶林,張飛.產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用[J].中國機(jī)械工程,2017,28(22):2714-2721.
[2]王慶福,王興國.基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究[J].無線互聯(lián)科技,2016(11):103-104.