許林峰,藍(lán)鼎棟,張俊峰,王志文,陳珂
(廣東石油化工學(xué)院計(jì)算機(jī)與電子信息學(xué)院,廣東茂名525000)
情感計(jì)算和文本挖掘的商品評(píng)論傾向性分析*
許林峰,藍(lán)鼎棟,張俊峰,王志文,陳珂
(廣東石油化工學(xué)院計(jì)算機(jī)與電子信息學(xué)院,廣東茂名525000)
文章基于提取用戶(hù)評(píng)論中用戶(hù)的觀點(diǎn)和評(píng)論的極性,利用基于句法分析的模式匹配方法來(lái)提取特征詞,建立特征詞集合。采用了TF-IDF算法來(lái)抽取匹配特征詞的觀點(diǎn)詞集合,去除貢獻(xiàn)度低的觀點(diǎn)詞,然后采用簡(jiǎn)約相似度算法來(lái)量化種子詞和目標(biāo)觀點(diǎn)詞之間的相似度,該相似度能夠很好的代表未知目標(biāo)詞在一個(gè)句子中的傾向性,從而為量化用戶(hù)觀點(diǎn)極性打下基礎(chǔ)。最后以某電商平臺(tái)上的商品成交記錄作為實(shí)驗(yàn)測(cè)試數(shù)據(jù),得到不同商品在不同特征之間的評(píng)價(jià)差異,從而挖掘出用戶(hù)的個(gè)性化需求。
評(píng)論極性;產(chǎn)品評(píng)論挖掘;用戶(hù)觀點(diǎn)抽取
隨著Internet和電子商務(wù)的快速發(fā)展,人們?cè)谫?gòu)買(mǎi)商品后會(huì)留下意見(jiàn)和評(píng)價(jià),也可在微博、論壇等媒介上表達(dá)個(gè)人情感觀點(diǎn),其數(shù)量呈爆炸式增長(zhǎng),如何有效地利用這些數(shù)據(jù),對(duì)商家和消費(fèi)者具有巨大的商業(yè)價(jià)值與社會(huì)價(jià)值。然而如此大規(guī)模數(shù)據(jù),需要成熟而準(zhǔn)確的分類(lèi)挖掘系統(tǒng)和算法進(jìn)行有效分析。
Sista等人[1]以GI中的褒貶詞作為種子詞進(jìn)行情感詞典的建立,利用Wordnet[2]進(jìn)行自動(dòng)的擴(kuò)展,從而加大詞語(yǔ)集合進(jìn)行下一步的研究。Turney[3]利用PMI-IR算法[4]計(jì)算詞語(yǔ)的傾向性,利用詞語(yǔ)之間的互信息計(jì)算目標(biāo)詞對(duì)于“excellent”和“poor”兩個(gè)詞集之間的互信息,最后通過(guò)它們之間的差值作為目標(biāo)詞的情感傾向性。英國(guó)Corpora軟件公司開(kāi)發(fā)了一套名為“感情色彩(Sentiment)”的文本情感分析系統(tǒng)。文獻(xiàn)[5]通過(guò)求合法、向量空間法等對(duì)情感值進(jìn)行傾向性統(tǒng)計(jì)。朱嫣嵐等人[6]提出了語(yǔ)義相似度和相關(guān)場(chǎng)語(yǔ)義傾向性計(jì)算方法。徐琳宏等人[7]計(jì)算了詞匯與基準(zhǔn)詞的相似度,又利用SVM分類(lèi)器對(duì)褒貶性進(jìn)行分析。
文章基于用戶(hù)評(píng)論,對(duì)評(píng)論對(duì)象進(jìn)行抽取,比較了傳統(tǒng)的TF-IDF算法[8]與特征詞模式匹配算法[9]的優(yōu)劣。利用語(yǔ)料庫(kù)進(jìn)行評(píng)論特征抽取以及情感極性強(qiáng)度的判斷,建立以特征詞集為模型的商品特征分析表。最后對(duì)每個(gè)品牌商品特征進(jìn)行分析評(píng)價(jià),并找出商品的優(yōu)勢(shì)以及劣勢(shì),分析客戶(hù)的抱怨點(diǎn)。
文章研究過(guò)程可分為四個(gè)部分,第一部分為用戶(hù)評(píng)論采集和數(shù)據(jù)預(yù)處理(包括去除無(wú)效評(píng)論,刪除停用詞、分詞、詞性標(biāo)注),第二部分為量化詞典的構(gòu)建,第三部分為用戶(hù)評(píng)論特征詞的篩選,第四部分為量化評(píng)論情感極性,建立商品特征極性圖表。研究路線如圖1所示。
商品特征詞是由名詞或名詞短語(yǔ)組成,因此最關(guān)注的是詞性標(biāo)注為名詞或名詞短語(yǔ)的分詞結(jié)果。將名詞或名詞短語(yǔ)抽取出來(lái),作為候選特征詞語(yǔ),進(jìn)一步裁剪保留下真正的特征詞。利用滑動(dòng)窗口抽取名詞和名詞短語(yǔ),名詞短語(yǔ)的窗口大小為size,即相鄰的不超過(guò)size個(gè)詞語(yǔ)。名詞和名詞短語(yǔ)被抽取出來(lái)作為候選特征詞語(yǔ),將候選特征詞語(yǔ)放入候選特征詞語(yǔ)列表中。在抽取過(guò)程中保存候選特征詞對(duì)應(yīng)的評(píng)論編號(hào)和數(shù)目以及包含特征的句子編號(hào)和數(shù)目。由于在通過(guò)抽取形成候選特征詞列表中,存在較多噪音,可能很多候選詞語(yǔ)并不是真正的商品特征詞語(yǔ),僅是一起出現(xiàn)的名詞或者名詞組合。所以需要對(duì)候選特征詞列表進(jìn)行裁剪,保留真正的商品特征詞語(yǔ)。根據(jù)裁剪后的特征詞語(yǔ)抽取出語(yǔ)法模式,然后用新抽取出的模式來(lái)匹配評(píng)論句子,特征詞的位置所對(duì)應(yīng)的名詞或名詞短語(yǔ)就可以作為新的特征詞語(yǔ)。
圖1 研究路線
絕大多數(shù)詞語(yǔ)相似度和相關(guān)度的計(jì)算一般是依靠語(yǔ)料庫(kù)或詞典的。文章采用一種簡(jiǎn)約相似度算法,計(jì)算目標(biāo)詞和種子詞之間的相似度,進(jìn)而求出目標(biāo)詞的情感傾向值,建立量化詞典。
簡(jiǎn)約相似度算法公式如下:
式中:Sim(word,seed)表示目標(biāo)詞和種子詞的相似度值,co_occurrence表示目標(biāo)詞和種子詞在語(yǔ)料庫(kù)共現(xiàn)的次數(shù),word_mum和seed_num分別表示目標(biāo)詞和種子詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。
當(dāng)a=100時(shí),各詞相似度分布較為平滑。在同一個(gè)語(yǔ)料庫(kù)中,如果兩個(gè)詞共同出現(xiàn)的句子數(shù)恰好等于這兩個(gè)詞分別出現(xiàn)的句子數(shù),則其相似度為1。對(duì)于一個(gè)目標(biāo)詞的極性判定,需要根據(jù)該詞的情感傾向度,即該詞與正向種子集合的相似度減去與負(fù)向種子集合的相似度。運(yùn)用以下公式計(jì)算目標(biāo)詞的總體傾向性:
式中:Sim(word,“excellent”)和Sim(word,“poor”)分別表示詞語(yǔ)(word)與褒義詞集和貶義詞集的相關(guān)度。若SO(word)>0,則為褒義,SO(word)<0,則為貶義,最后將目標(biāo)詞的傾向值存入情感詞典中。
4.1 基于依存關(guān)系的特征關(guān)聯(lián)抽取算法
對(duì)于一個(gè)評(píng)論來(lái)說(shuō),同一個(gè)詞往往依賴(lài)于多個(gè)詞語(yǔ),對(duì)于詞“好”來(lái)說(shuō)可能存在advmod(好,非常)和nsubj(好,質(zhì)量)關(guān)系。通常在提取依存關(guān)系詞性對(duì)的時(shí)候主要考慮以下四個(gè)詞性標(biāo)注:a(形容詞),d(副詞),n(名詞),v(動(dòng)詞)。對(duì)于所有的依存關(guān)系,如果全部考慮進(jìn)來(lái),將會(huì)導(dǎo)致非常高的時(shí)間復(fù)雜度。文章只考慮基于形容詞(即觀點(diǎn)詞)的依存關(guān)系對(duì)。特征和觀點(diǎn)關(guān)聯(lián)對(duì)結(jié)構(gòu)如下:
特征和觀點(diǎn)關(guān)聯(lián)對(duì)的抽取算法如下:
(1)對(duì)于每個(gè)評(píng)論句子,首先找出依存關(guān)系詞性對(duì)中以形容詞,副詞和動(dòng)詞作為觀點(diǎn)詞,若沒(méi)有找到以形容詞為核心觀點(diǎn)詞,則跳到下一句。
(2)將找出的依存關(guān)系詞性對(duì)存入列表中,然后再對(duì)句子尋找依存觀點(diǎn)詞的名詞,若不存在,則將評(píng)論對(duì)象設(shè)為產(chǎn)品本身。
(3)在句子中查找是否存在否定詞,若存在則Is-neg=1,否則Is-neg=0。
(4)對(duì)抽取到觀點(diǎn)詞的句子提取出特征和觀點(diǎn)關(guān)聯(lián)對(duì)結(jié)構(gòu),從而進(jìn)行極性強(qiáng)度的計(jì)算。
4.2 情感強(qiáng)度計(jì)算
對(duì)于提取出來(lái)的句子特征關(guān)聯(lián)對(duì)結(jié)構(gòu),每一個(gè)句子w,句子極性強(qiáng)度計(jì)算公式如下:
式中:strength(w)為句子w的極性強(qiáng)度,wmod為w修飾觀點(diǎn)詞的修飾詞,d(w,wmod)為w在wmod的修飾強(qiáng)度,v為觀點(diǎn)詞的修飾強(qiáng)度。對(duì)于種子詞,褒義為1,貶義為-1,而非種子詞情感詞量化已經(jīng)計(jì)算出來(lái)了。
一個(gè)產(chǎn)品所對(duì)應(yīng)的特征極性是通過(guò)整篇評(píng)論所產(chǎn)生的特征和觀點(diǎn)關(guān)聯(lián)對(duì)中形容詞(即情感詞或觀點(diǎn)詞)的極性強(qiáng)度所獲得的。并不是所有的評(píng)論都一定包含一個(gè)產(chǎn)品的所有特征,對(duì)已特定的評(píng)論只需要抽取在該句所包含的特征,并把用戶(hù)對(duì)該特征的情感極性計(jì)算出來(lái),最后通過(guò)整個(gè)語(yǔ)料庫(kù)的統(tǒng)計(jì),得出該產(chǎn)品對(duì)應(yīng)特征的評(píng)論極性。
5.1 兩種特征抽取算法的對(duì)比
從語(yǔ)料庫(kù)中提取五個(gè)商品評(píng)論,分別是品牌一、品牌二、品牌三、品牌四和品牌五。對(duì)這些語(yǔ)料,先進(jìn)行數(shù)據(jù)過(guò)濾,去除掉一些包含亂碼、特殊符號(hào)以及重復(fù)的水軍評(píng)論;接著進(jìn)行特征詞的抽取。
每個(gè)品牌按照它占整個(gè)語(yǔ)料庫(kù)的比例進(jìn)行分層提取,將同一品牌的不同型號(hào)評(píng)論統(tǒng)一存放到一個(gè)語(yǔ)料庫(kù)中,從每個(gè)品牌中提取1 000條語(yǔ)錄,對(duì)應(yīng)有5 000條語(yǔ)錄。特征抽取的評(píng)判標(biāo)準(zhǔn)是以淘寶上的評(píng)論特征對(duì)象以及人工的評(píng)判。TF-IDF與句法模式抽取算法比較情況如表1所示。
表1 TF-IDF 與句法模式抽取算法的實(shí)驗(yàn)比較
實(shí)驗(yàn)結(jié)果顯示,文章采用的句法模式特征抽取方法比一般的TF-IDF算法更為有效,準(zhǔn)確率平均提高了9%,召回率平均提高了7%,F(xiàn)1(正確率和召回率的調(diào)和平均值)平均提高了10%。
5.2 情感極性強(qiáng)度算法的分類(lèi)對(duì)比
從語(yǔ)料庫(kù)中人工抽取200條褒義句和200貶義句,主要標(biāo)注極性很明顯的極性句子,且多個(gè)情感詞不存在同一句子中。由于評(píng)論的對(duì)象多種多樣,實(shí)驗(yàn)中統(tǒng)一篩選出“服務(wù)”作為評(píng)論對(duì)象的句子,并由人工先進(jìn)行極性強(qiáng)度的打分,其實(shí)驗(yàn)結(jié)果如表2所示。
表2 情感極性分析算法實(shí)驗(yàn)對(duì)比
由表2可知,該情感極性強(qiáng)度算法對(duì)于貶義的識(shí)別效果比對(duì)褒義的識(shí)別效果要差,雖然相差的百分比并不是很大,但是對(duì)于分析整體的情感傾向是有較強(qiáng)的影響。
5.3 產(chǎn)品特征分析
提取出來(lái)的特征詞集,由于特征向量較多,商品分析產(chǎn)生較大的誤差。因此對(duì)這些特征詞集進(jìn)行聚類(lèi)。設(shè)定每一個(gè)同類(lèi)特征描述的代表,即在這些特征向量之間,找出幾個(gè)能夠代表整個(gè)特征詞集的基礎(chǔ)特征?;A(chǔ)特征有服務(wù)、物流、質(zhì)量等十項(xiàng)。各品牌商品評(píng)論特征分析如圖2所示。
圖2 各品牌評(píng)論特征分析
由圖2可知:(1)品牌一在這五個(gè)品牌中質(zhì)量是靠后的,安裝費(fèi)用不合理,價(jià)格比其他品牌更實(shí)惠。優(yōu)點(diǎn)在于其功能較多,在服務(wù)和物流方面做得不錯(cuò)。(2)品牌二在各方面也是中規(guī)中矩,在各個(gè)特征評(píng)價(jià)方面并不會(huì)有明顯的優(yōu)點(diǎn)和缺點(diǎn)。(3)品牌三各項(xiàng)特征水平表現(xiàn)上中等,其優(yōu)勢(shì)在于性?xún)r(jià)比,其次服務(wù)方面做的很好;然而物流速度是最大的不足。(4)品牌四在各項(xiàng)特征上的表現(xiàn)最為顯眼,其主要優(yōu)勢(shì)是外觀和質(zhì)量,其排名為第一,口碑和評(píng)價(jià)也非常高;缺點(diǎn)在于價(jià)格貴。(5)品牌五在總體方面還是很不錯(cuò)的,優(yōu)勢(shì)在于完善的售后和功能強(qiáng)大,安裝費(fèi)用方面口碑不錯(cuò)。
文章基于商品評(píng)論挖掘,主要研究了評(píng)論挖掘中的特征提取以及基于句法分析模式的關(guān)聯(lián)詞抽取方法,并與以往的TF-IDF抽取模式進(jìn)行了對(duì)比;同時(shí)對(duì)于這些特征,還進(jìn)行了用戶(hù)的情感強(qiáng)度的分析。最后,通過(guò)對(duì)整個(gè)語(yǔ)料庫(kù)的分析,為每個(gè)品牌分別建立了以這些特征對(duì)象所給出的總體評(píng)價(jià)模型,分析得出每個(gè)品牌的優(yōu)勢(shì)、劣勢(shì)以及用戶(hù)的抱怨點(diǎn)和贊點(diǎn),從而挖掘出用戶(hù)的個(gè)性化需求。
[1]Sista S,Srinivasan S.Polarized Lexicon for Review Classification[C]//Proceedings of the International Conference onMachine Learning,Models,Technologies&Applications.Las Vegas:CS-REA Press,2004:867-872.
[2]Fellbaum C,Miller G.WordNet:An Electronic Lexical Database[M].Cambridge:MIT Press,1998.
[3]Turney P D.Thumbs up or thumbs down Semantic Orientation Applied to Unsupervised Classification of Reviews[J].Proceedings of Annual Meeting of the Association for Computational Linguistics,2002:417-424.
[4]Turney P.Mining the web for synonyms:PMI-IR versus LSA on TOEFL[C]//Proceedings of the 12th European Conference onMachine Learning.Berlin:Springer Verlag,2001:491-502.
[5]厲小軍,戴霖,施寒瀟,等.文本傾向性分析綜述[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2011,45(7):1167-1175.
[6]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2005,20(1):14-20.
[7]徐琳鴻,林鴻飛,楊志豪,等.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[8]諶志群,張國(guó)煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007,25(7):1046-1052.
[9]祖李軍,王衛(wèi)平.中文網(wǎng)絡(luò)評(píng)論中提取產(chǎn)品特征的研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(5):196-202.
Product Reviews Orientation Analysis Based on Affective Computing and Text Mining
XU Linfeng,LAN Dingdong,ZHANG Junfeng,WANG Zhiwen,CHEN Ke
(College of Computer and Electronic Information,Guangdong University of Petrochemical Technology,Maoming 525000,China)
The paper takes the trading records of water heaters on the business platform as an example,extracts the viewpoints and polarity of reviews based on the users’comments,and proposes feature words based on thematching pattern of syntactic analysis so as to establish sets by data collection and pretreatment.The paper also extracts view words sets ofmatching featurewords by TF-IDF algorithm,and get rid of those view words which contributes less.Then the simple similarity algorithm is used to quantify the similarity between seed words and target view words.The similarity can be very good to the tendentiousness of the unknown target words in a sentence,laying a solid foundation for quantifying users’views polarity.Finally the evaluation of differences among different features of different water heaters can be seen,and the users’individualized requirements can bemined.
Polarity of reviews;Product reviewsmining;Users’view extraction
TP391.1
A
2095-2562(2016)01-0001-04
(責(zé)任編輯:黃容)
2015-12-06;
2015-12-24
廣東省高等學(xué)??萍紕?chuàng)新項(xiàng)目(2013kjcx0132);國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(201411656017);校級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練與培育項(xiàng)目(2015DCA004,2015pyA002,2015pyA041,2015pyA042);大學(xué)生拔尖創(chuàng)新人才培養(yǎng)“培英計(jì)劃”項(xiàng)目(廣石化院[2015]21號(hào))
許林峰(1993—),男,廣東深圳人,學(xué)士,研究方向?yàn)閿?shù)據(jù)挖掘。
陳珂(1964—),男,黑龍江牡丹江人,教授,研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)、復(fù)雜網(wǎng)絡(luò)。
廣東石油化工學(xué)院學(xué)報(bào)2016年1期