陶莉娜 李超萍 李健 高榮
摘 要:隨著互聯(lián)網(wǎng)絡(luò)科技的迅速發(fā)展,越來(lái)越多的用戶開始網(wǎng)上購(gòu)物,網(wǎng)絡(luò)中的商品評(píng)論數(shù)據(jù)也隨之增加。如何在大量的評(píng)論數(shù)據(jù)中提取有用的信息,使數(shù)據(jù)價(jià)值最大化是值得重視的問題。本文針對(duì)京東網(wǎng)站商品的評(píng)論數(shù)據(jù)進(jìn)行了情感分析,從中提取有用的信息,幫助商家了解消費(fèi)者的需求,發(fā)現(xiàn)商品的不足之處,并制定改進(jìn)方案,以提高商品的競(jìng)爭(zhēng)力。
關(guān)鍵詞:數(shù)據(jù)挖掘;商品評(píng)論;情感分析
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)04-0019-03
Abstract:With the rapid development of internet technology,more and more users have begun to shop online,and the product review data on the internet has also increased. However,how to extract useful information from a large amount of review data and maximize the value of data is a problem worthy of attention. This article analyzes the sentiment data of JD.com website products,provides useful information to help businesses understand the needs of consumers,discovers the inadequacies of products,and formulates improvement programs to improve the competitiveness of products.
Keywords:data mining;commodity reviews;sentiment analysis
1 主要技術(shù)實(shí)現(xiàn)
1.1 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)的迅速發(fā)展使互聯(lián)網(wǎng)成為大量信息的載體,有效地提取并利用這些信息對(duì)我們來(lái)說(shuō)是一個(gè)很大的挑戰(zhàn)。為了快速的提取有用信息,我們采取網(wǎng)絡(luò)爬蟲技術(shù),它的好處是獲取成本小,可以將網(wǎng)頁(yè)上的內(nèi)容按照一定的格式規(guī)范進(jìn)行有針對(duì)性地獲取。
1.2 基于文本情感分析
文本的情感分析是指利用計(jì)算機(jī)語(yǔ)言、自然語(yǔ)言處理和文本挖掘來(lái)辨別文本主觀情感信息的一種手段。一般來(lái)說(shuō),情感分析是對(duì)說(shuō)話者當(dāng)時(shí)的言語(yǔ)評(píng)論或建議的一個(gè)情感狀況辨析。其研究?jī)?nèi)容包括非結(jié)構(gòu)化文本的分詞、情感傾向性分類和情感強(qiáng)度等,它涉及到自然語(yǔ)言處理、文本分詞、機(jī)器學(xué)習(xí)等多個(gè)研究領(lǐng)域。本文的研究重點(diǎn)是對(duì)商品評(píng)論文本所表達(dá)的正向或負(fù)向情感進(jìn)行分類[1]。
根據(jù)情感分析可明顯發(fā)現(xiàn)商品的某些不足之處,對(duì)應(yīng)地采取有效措施提高商品質(zhì)量,比如采集的榨汁機(jī)評(píng)論信息,從多數(shù)評(píng)論中可以看出,用戶對(duì)榨汁機(jī)的噪音大表現(xiàn)出不滿意,那么產(chǎn)品的生產(chǎn)廠家可做出針對(duì)性地改進(jìn),以贏得更多客戶的信賴,提高商家形象,可更好地維護(hù)與客戶之間的關(guān)系[2]。
1.3 評(píng)論挖掘算法
Apriori算法能夠快速處理數(shù)據(jù),并能進(jìn)行商品價(jià)格對(duì)用戶行為等的預(yù)測(cè)。Apriori算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。
它是Agrawal[3]等設(shè)計(jì)的一個(gè)基本算法,采用兩階段的思想,并且基于多次掃描事務(wù)庫(kù)來(lái)執(zhí)行。我們運(yùn)用的是Apriori算法的改良版,即FP Tree算法。FP Tree算法改進(jìn)了Apriori算法的I/O瓶頸,巧妙地利用了樹結(jié)構(gòu),提高了算法運(yùn)行速度。
2 基于京東網(wǎng)站評(píng)論的情感分析
2.1 數(shù)據(jù)準(zhǔn)備
利用Python語(yǔ)言編寫的數(shù)據(jù)抓取程序具有高效率的特點(diǎn),此次研究使用python語(yǔ)言編寫程序,爬取京東每類排名前六的商品的評(píng)論,保存進(jìn)數(shù)據(jù)庫(kù)作為數(shù)據(jù)原料庫(kù)。
其中用到Python的一個(gè)庫(kù)Beautiful Soup,它在用戶爬取網(wǎng)頁(yè)信息的時(shí)候具有高效的網(wǎng)頁(yè)解析效率,能快速?gòu)木W(wǎng)頁(yè)中抓取數(shù)據(jù),同時(shí)使用多線程來(lái)處理網(wǎng)絡(luò)請(qǐng)求,加快數(shù)據(jù)的爬取速度,這樣的開發(fā)方式的優(yōu)點(diǎn)是不但使數(shù)據(jù)采集系統(tǒng)在大數(shù)據(jù)量傳輸時(shí)的速度有明顯提高,而且該系統(tǒng)的性能也得到了顯著的提升[4]。本系統(tǒng)數(shù)據(jù)爬取流程圖如圖1所示。
圖1 數(shù)據(jù)采集流程
2.2 數(shù)據(jù)的采集過(guò)程
數(shù)據(jù)采集過(guò)程主要利用網(wǎng)絡(luò)爬蟲技術(shù)。使用Python語(yǔ)言來(lái)實(shí)現(xiàn)數(shù)據(jù)采集,在爬蟲中使用相應(yīng)的庫(kù),如request、re、bs4等。數(shù)據(jù)采集過(guò)程為通過(guò)獲取目標(biāo)網(wǎng)頁(yè)鏈接,再利用XPath和CSS Selector匹配相應(yīng)標(biāo)簽,從而獲取相應(yīng)的評(píng)論信息。但由于數(shù)據(jù)的龐大,單線程模式無(wú)法滿足所需的爬取速度,所以采取多線程模式來(lái)爬取商品評(píng)論信息,提高爬蟲的整體運(yùn)行效率。
利用數(shù)據(jù)采集程序爬取京東某品牌榨汁機(jī)商品的部分評(píng)論信息樣例如表1所示。
2.3 數(shù)據(jù)預(yù)處理
2.3.1 規(guī)范數(shù)據(jù)
以京東獲取的商品評(píng)論作為數(shù)據(jù)分析庫(kù)。但評(píng)論信息的隨意性很容易造成數(shù)據(jù)的噪音。比如現(xiàn)在的網(wǎng)絡(luò)用語(yǔ)、錯(cuò)別字、詞不對(duì)意等。這些噪音很容易給情感分析造成一定的影響。所以對(duì)商品的評(píng)論信息做預(yù)處理十分重要。預(yù)處理要把一些錯(cuò)意句、網(wǎng)絡(luò)用語(yǔ)和錯(cuò)別字等用規(guī)范的語(yǔ)言修改,最終得到語(yǔ)法與表達(dá)規(guī)范的評(píng)論。網(wǎng)絡(luò)用語(yǔ)通過(guò)在自定義字典的添加,可以在分詞時(shí)分析出情感值。
數(shù)據(jù)處理中采用結(jié)巴分析算法,主要原因是它處理速度快,分詞準(zhǔn)確,并帶有新詞發(fā)現(xiàn)功能。結(jié)巴分詞中提供的詞性(part-of-speech)是詞匯基本的語(yǔ)法范疇,主要用來(lái)描述一個(gè)詞在上下文的作用。然后利用Aprior算法,計(jì)算商品的屬性值。該算法應(yīng)用廣泛,可用于分析消費(fèi)市場(chǎng)商品的價(jià)格,得出商品的情感值等數(shù)據(jù),如表2所示,表中數(shù)據(jù)為不同品牌的榨汁機(jī)、熱水器商品的屬性值。
2.3.2 計(jì)算情感值
根據(jù)運(yùn)行的結(jié)果可以得到三方面的信息:首先我們可以根據(jù)情感值來(lái)了解用戶對(duì)商品的喜愛程度;其次,可根據(jù)情感值的平均值來(lái)推測(cè)出該商品的總評(píng)價(jià)趨向;最后,可根據(jù)情感值的大小繪制每類特征的情感的波動(dòng)情況。根據(jù)情感值的正負(fù),我們將評(píng)價(jià)粗略地分成正面評(píng)價(jià)、中性評(píng)價(jià)和負(fù)面評(píng)價(jià)。從結(jié)果集里選出感情值較為平穩(wěn)的,看出對(duì)該商品的喜愛程度達(dá)到70%-80%,可根據(jù)其情感區(qū)間為負(fù)數(shù)的商品的不足進(jìn)行改進(jìn)。比如,該商品是榨汁機(jī),負(fù)面評(píng)論大多數(shù)為“噪音大”,商家據(jù)此改進(jìn)榨汁機(jī)的噪音,改進(jìn)不足。通過(guò)數(shù)據(jù)分析,得出商品的情感值,圖2為針對(duì)某品牌榨汁機(jī)噪音小的情感值分布。
3 結(jié) 論
本文以京東網(wǎng)為例,研究了如何對(duì)產(chǎn)品評(píng)論進(jìn)行情感分析,并闡述了結(jié)果對(duì)實(shí)際的指導(dǎo)意義。本文對(duì)評(píng)論信息的抽樣數(shù)據(jù)進(jìn)行的情感分析結(jié)果顯示,以“榨汁機(jī)”為例,該款榨汁機(jī)噪音大等特征方面的情感值的負(fù)面情緒較為明顯,說(shuō)明消費(fèi)者對(duì)于這部分的評(píng)價(jià)總體來(lái)看是不滿意的,生產(chǎn)者需要對(duì)此引起足夠的重視,對(duì)產(chǎn)品的不足之處進(jìn)行改進(jìn),以滿足客戶的需求,留住這些表現(xiàn)為負(fù)面情緒的用戶,從而提升企業(yè)競(jìng)爭(zhēng)力。在競(jìng)爭(zhēng)激烈的當(dāng)前社會(huì),企業(yè)的響應(yīng)速度往往決定了企業(yè)的未來(lái),根據(jù)產(chǎn)品評(píng)論信息對(duì)商品做出及時(shí)反饋的速度大大高于傳統(tǒng)的人工方式,也比較準(zhǔn)確。本文使用的方式將會(huì)得到廣泛的應(yīng)用。
參考文獻(xiàn):
[1] 張衛(wèi).互聯(lián)網(wǎng)商品評(píng)論情感分析研究 [D].重慶:重慶大學(xué),2016.
[2] 馬妍.商品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn) [D].北京:北京交通大學(xué),2015.
[3] Agrawal R,Srikant R. Fast algorithms for mining association rules [A]. In:Proceedings of the 20th International Conference Very Large Data Base,Santiago,Chile,1994:487-499.
[4] 李弈星.多線程技術(shù)的優(yōu)勢(shì)及其在測(cè)控系統(tǒng)中的應(yīng)用 [J].技術(shù)與市場(chǎng),2016,23(11):92.
作者簡(jiǎn)介:陶莉娜(1997.04-),女,廣西桂林人,本科。研究方向:數(shù)據(jù)采集與分析;李超萍(1997.06-),女,廣西來(lái)賓人,本科。研究方向:數(shù)據(jù)采集與分析;李?。?998.05-),男,廣西柳州人,本科。研究方向:數(shù)據(jù)采集與分析;通訊作者:高榮(1979.02-),男,山東濰坊人,講師。研究方向:數(shù)據(jù)挖掘。