秦成磊 魏 曉
(上海應(yīng)用技術(shù)大學(xué)計算機科學(xué)與信息工程學(xué)院 上海 201418)
?
中文在線評論中的商品特征聚類研究
秦成磊魏曉*
(上海應(yīng)用技術(shù)大學(xué)計算機科學(xué)與信息工程學(xué)院上海 201418)
摘要針對評論中蘊含的商品特征數(shù)目繁多且同一特征具有多種不同描述的情況,提出一種基于語義相似度的商品特征聚類算法。算法包括 “分配”和“轉(zhuǎn)移”兩個過程?!胺峙洹边^程對特征詞進行聚類得到初始簇序列;“轉(zhuǎn)移”過程依次遍歷初始簇序列將簇內(nèi)可能存在的與其他簇語義相似度更高的特征詞轉(zhuǎn)移到對應(yīng)的簇。實驗結(jié)果表明該算法聚類質(zhì)量高、時間復(fù)雜度小且對數(shù)據(jù)輸入次序不敏感。
關(guān)鍵詞商品特征聚類特征聚類語義相似度評論挖掘
0引言
Godes David等[1]早在2004年針對服裝、計算機、旅游等行業(yè)的研究發(fā)現(xiàn),有近半數(shù)以上的網(wǎng)購消費者在做出購買決定前參考了該商品的評論信息。Cone公司在發(fā)布的《2011年網(wǎng)絡(luò)影響趨勢跟蹤》中也得到類似結(jié)論:89%的消費者認為通過網(wǎng)絡(luò)渠道獲得的商品信息是值得信賴的,64%的消費者主要根據(jù)商品的相關(guān)評論來驗證該商品的質(zhì)量[2]。事實上,很多消費者無論是網(wǎng)上購物還是實體店購物都會事先在相關(guān)網(wǎng)站上查看該商品的評價信息以便作出有利的決策。因此,如何在海量的評論中挖掘出有價值的信息是目前研究的熱點之一。
商品特征聚類在獲取消費者對商品性能的關(guān)注度、輔助商家提升商品質(zhì)量等方面具有重要作用。目前的研究主要包括從評論中抽取商品特征、提取觀點詞、判斷情感極性等。而近幾年網(wǎng)購用戶數(shù)量驟增[3],一件商品的評論數(shù)也大大增加,不同的用戶所關(guān)注商品特征的視角往往不同,對同一商品特征的描述也不盡相同。這給基于特征詞、觀點詞判斷用戶情感極性帶來較大的困難,致使挖掘結(jié)果不夠直觀。因此,有必要對商品特征進行聚類。
本文首先從評論中提取商品特征,其次計算特征詞之間的語義相似度,最后根據(jù)本文提出的聚類算法將同類特征進行聚類。實驗結(jié)果表明,該算法具有聚類質(zhì)量高等優(yōu)點。
1相關(guān)工作
商品特征聚類的關(guān)鍵技術(shù)之一是從評論語料中提取商品特征?,F(xiàn)有的文本特征選擇方法如TF-IDF、信息增益、X2統(tǒng)計量、互信息等[4,5]對主題較為鮮明的文本具有較好的抽取效果。但用戶的商品評論通常只含一個句子,較為簡短。因此,上述方法在商品特征抽取中效果并不理想。
商品特征抽取分為人工定義和自動提取:
姚天昉等[6]人工定義了汽車領(lǐng)域的商品特征,準(zhǔn)確度較高。網(wǎng)絡(luò)的快速發(fā)展,使得人工定義商品特征的缺陷逐漸顯現(xiàn)出來:首先沒有考慮用戶對商品特征的描述,其次商品更新時需要手工添加新的特征。
商品特征自動提取最具代表性方法的是MinQing Hu等[7]提出的利用詞性標(biāo)注提取評論中的名詞或名詞性短語并生成事務(wù)集,根據(jù)Apriori算法[8]提取特征候選集,最后利用鄰近規(guī)則和獨立支持度規(guī)則過濾商品特征。李實等[9]在Hu的方法上做了一些改進,使其適合中文商品特征自動提取。
在商品特征聚類方面,Zhongwu Zhai等[10]認為對同一特征描述的詞語或詞組應(yīng)該放在一類中,提出一種半監(jiān)督SC-EM商品特征聚類算法,但隨著數(shù)據(jù)規(guī)模擴大,對自動化程度的要求逐漸提高,該算法適用性有待提高。張珠等[11]以語素和評價詞作為衡量商品屬性之間關(guān)聯(lián)程度的特征,采用K-Means方法進行商品屬性歸類,但K-Means聚類方法存在固有的缺陷,如聚類質(zhì)量易受數(shù)據(jù)輸入次序、離群點等影響。李愛清等[12]通過構(gòu)建商品特征粒度樹對商品特征進行歸類,但對商品新特征的識別分類存在著一定的不足。
2商品特征聚類
2.1提取商品特征
要對商品特征進行聚類首先要從用戶評論中提取商品特征。文中所述的商品特征主要包括商品屬性名稱、功能性名稱。為方便處理,將抓取的評論存放到文件中,每一行代表一條評論。商品特征提取步驟如下:
(1) 為了提高評論分詞的效果首先要構(gòu)建停用詞表和用戶詞庫并對用戶詞庫中的詞條進行詞性標(biāo)注;
(2) 利用中科院分詞動態(tài)連接庫對評論進行分詞,剔除評論中的人名、地名、團體機構(gòu)名和其他專用名稱,只保留名詞性慣用語和名詞性語素并生成事務(wù)集;
(3) 使用Apriori算法從事務(wù)集中提取頻繁1項集、頻繁2項集、頻繁3項集[7]。為了提高獲取商品特征的準(zhǔn)確率,頻繁項集的最小支持頻度分別為為5、3、2;
(4) 通過上述步驟得到的商品特征詞尚不能自動識別商品特征詞組,如“配件包裝”,“配件”和“包裝”單獨作為商品特征會造成歧義,因此需要通過鄰近規(guī)則[7]識別商品特征詞組。為了提高特征詞組識別的準(zhǔn)確率,本文在文獻[9]的基礎(chǔ)之上做了改進。首先將頻繁1項集中的特征加入商品特征列表List中。頻繁2項集中商品特征詞(a,b)在評論集S(S1,S2,…,Sn)任意Si中的坐標(biāo)為Xa,Xb,要求|Xa-Xb|≤2且包含特征詞(a,b)的評論條數(shù)K≥2,則認為(a,b)是一個特征詞組并加入List中。對頻繁3項集中特征詞(a,b,c)考慮三種情況:|Xa-Xb|≤2、|Xa-Xc|≤2、|Xb-Xc|≤2,符合任意一種,則認為其對應(yīng)的組合是商品特征詞組并加入List中。
(5) 商品特征列表List中存在著一定數(shù)量的非商品特征的名詞,如“理由”、“心愿”等。因此還要用獨立規(guī)則[9]除去這些詞。特征詞a在頻繁2項集、頻繁3項集中的父項分別表示為(a,b)、(a,b,c),評論集S(S1,S2,…,Sn)中含有a、(a,b)、(a,b,c)的評論條數(shù)分別是K1、K2、K3,要求(K1-K2-K3)≥3,則認為特征詞是符合要求的,否則從商品特征列表List中刪除。
經(jīng)過上述五個步驟之后,從評論中挖掘的商品特征具有較高的準(zhǔn)確率。
2.2特征詞相似度計算方法
2.2.1同義詞詞林簡介
目前常用的中文語義詞典主要有《知網(wǎng)》、《同義詞詞林》?!吨W(wǎng)》中兩個主要的概念:“概念”與“義原”?!案拍睢笔菍υ~匯語義的描述而“義原”是描述“概念”的最小語義單位。由于中文意境廣博深遠, “概念”與“語義”并沒有明顯的分界線,用于計算語義相似度有一定的不足。因此,本文根據(jù)《同義詞詞林》計算特征詞之間的語義相似度。
《同義詞詞林》是梅家駒等于1983年編寫而成,但由于時間久遠,本文采用的是哈工大信息檢索研究室的《同義詞詞林擴展版》[15]?!锻x詞詞林》把其收錄的詞匯分成大、中、小3類,大類12個,中類97個,小類1 400個。每個小類中的詞根據(jù)語義相關(guān)性又分成若干行,每行中的詞匯語義基本相同或者具有很強的相關(guān)性。
擴展版同時提供五級編碼,也就是說為詞林中的小類中每行詞匯提供編碼,如下所示:
Aa01A01= 人 士 人物 人士 人氏 人選
Bk02C07# 大腦 中腦 小腦 前腦 丘腦
Di09D52# 計劃科 考評科 調(diào)查科 行政科 保衛(wèi)科 調(diào)研
《同義詞詞林擴展版》收錄高達7萬余個詞條,但還是不夠完善。因此,還要將擴展版未收錄的一些詞匯添加到詞林中,如“WIFI、藍牙、無線網(wǎng)”等添加到“網(wǎng)、網(wǎng)絡(luò)”所在的行。
2.2.2相似度計算方法
《同義詞詞林擴展版》提供五級編碼使計算詞匯之間的語義相似度具有可行性。文中采用田久樂等[12]提出的詞語相似度計算方法。
(1) 兩個詞匯不在同一棵樹上:
Sim(A,B)=f
(1)
(2) 兩個詞匯在一棵樹上:
(a) 在第二層分支:
(2)
(b) 在第三層分支:
(3)
(c) 在第四層分支:
(4)
(d) 在第五層分支:
(5)
原文f、a、b、c、d的取值分別為0.1、0.65、0.8、0.9、0.96; n,k分別表示分支層總結(jié)點數(shù)和分支層之間的距離。本文中β在第二層分支取0.6,第三層分支取0.8,第四層分支取0.9,第五層分支取0.95;若詞匯的編碼完全相同,則Sim(A,B)=1;若兩個詞匯不在一棵樹上,則Sim(A,B)=0.1。
2.3商品特征聚類算法
2.3.1“分配”過程算法描述
本文提出的基于語義相似度的商品特征聚類算法將商品同類特征進行聚類,同類特征之間具有很強的語義相似度,因此本文認為每個簇的簇中心一旦確定就不再改變?!胺峙洹边^程具體算法描述如下:
(1) 獲取商品特征列表List中每個商品特征在擴展版中的編碼,構(gòu)建<編碼,特征詞>對,形如< Aa01A01,人物>記為efList{(E1,f1),(E2,f2),(E3,f3),…,(En,fn)};
(2) 任選(Ei,fi)其中1≤i≤n作為第一個簇的簇中心并創(chuàng)建Cluster[0]{(Ei,fi)};遍歷efList剩余元素計算Sim(efList[j].Encoding,Cluster[0][0].Encoding)(Encoding表示特證詞在同義詞詞林中對應(yīng)的編碼)其中1≤j≤n且j≠i,若Sim>0.85,將efList[j]加入到Cluster[0]中,否則將(Ej,fj)作為第二個簇的簇中心并創(chuàng)建Cluster[1]{(Ej,fj)};遍歷efList剩余元素,計算Sim1(efList[k].Encoding,Cluster[0][0].Encoding)其中1≤k≤n且k≠i且k≠j,若Sim1≥0.85,則將efList[k]放入Cluster[0]中;否則,再計算Sim2(efList[k].Encoding,Cluster[1][0].Encoding),若Sim2≥0.85,則將efList[k]放進入Cluster[1];否則將(Ek,fk)作為第三個簇的簇中心并創(chuàng)建Cluster[2]{(Ek,fk)},重復(fù)上述過程,直到遍歷完特征列表為止。也就是取efList中剩余的元素的編碼依次與已創(chuàng)建過的簇的簇中心計算相似度,一旦符合條件將該元素放進對應(yīng)的簇中,如果直到遍歷完所有的簇都不符合條件,則創(chuàng)建一個新簇,并將該元素作為新簇的簇中心。算法偽代碼如下所示。
Begin:
1構(gòu)建<編碼,特征詞對>,記為:
efList{(E1,f1),(E2,f2),…,(En,fn)};
2設(shè)置信號量p=0;
3for(i=1;i<=features.Count;i++)
4if(Clusters.Count==0)
5將(Ei,fi)作為Cluster[0]的簇中心創(chuàng)建Cluster[0]{(Ei,fi)};
6else//計算簇中心與特征詞的相似度
7for(j=0;j 8計算sim(efList[i].Encoding,Cluster[j][0].Encoding) 9if(sim>=0.85) 10設(shè)置p=1; 11將(Ei,fi)加入Cluster[j]中; 12else 13Break; 14if(p!=1) 15將(Ei,fi)作為Cluster[j+1]的簇中心并創(chuàng)建Cluster[j+1]{(Ei,fi)}; End. 算法執(zhí)行的示意如圖1所示。 圖1 “分配”過程算法執(zhí)行示意圖 2.3.2“轉(zhuǎn)移”過程算法描述 上述算法執(zhí)行完后,可能存在著 efList[k].Encoding與后創(chuàng)建簇的簇中心相似度較大的情況。因此為提高聚類質(zhì)量,還需進行以下操作。將生成的簇按照生成順序排列,即{Cluster[0],Cluster[1],Cluster[2],…,Cluster[n]},將Cluster[p]中除簇中心外的所有元素分別與所有Cluster[q]的簇中心計算相似度,其中0≤p 2.3.3時間復(fù)雜度分析 3實驗及分析 為驗證提出方法的有效性,本文首先進行了商品特征提取實驗并與李實等提出的方法進行對比; 其次將提取出的商品特征進行聚類并與人工聚類結(jié)果對比。實驗數(shù)據(jù)集分別來自京東商城某型號手機的用戶點評數(shù)據(jù)和攜程網(wǎng)某酒店的用戶點評數(shù)據(jù),評論數(shù)分別為2165、3700條。 3.1商品特征提取與對比實驗 本文在李實等提出的鄰近規(guī)則基礎(chǔ)上做了改進,改進后的鄰近規(guī)則在識別商品特征詞組具有較高的準(zhǔn)確率。實驗結(jié)果如表1所示。 表1 鄰近規(guī)則對比實驗 實驗表明改進的鄰近規(guī)則有較高的準(zhǔn)確率,使抽取到的商品特征的維度降低,能夠提升商品特征聚類的效率。 3.2商品特征聚類與對比實驗 為驗證提出的算法具有聚類質(zhì)量高的優(yōu)點,進行聚類實驗。本文的商品特征聚類算法的聚類結(jié)果如圖2所示。 從圖2的數(shù)據(jù)可以發(fā)現(xiàn),廠家所給的商品參數(shù)與用戶在評論中使用的特征名稱有較大的出入,如“機身尺寸”在評論中簡稱為“尺寸”、“副攝像頭”被稱為“前攝像頭”或“前置攝像頭”等;自動聚類結(jié)果有效的降低了商品特征的維度并與人工聚類的結(jié)果相近。手機、酒店的特征聚類部分結(jié)果如表2、表3所示,表中第一列表示的是該簇的簇中心。 表2 手機特征聚類部分結(jié)果 表3 酒店特征聚類部分結(jié)果 從表中可看出,算法聚類結(jié)果質(zhì)量較高且不受離群點的影響,如“贈品”、“保安”都作為單獨的一個簇。而K-Means算法聚類質(zhì)量易受離群點影響,即離群點終將被分到與其距離最近的簇中,從而影響聚類的質(zhì)量。 4結(jié)語 本文提出的基于語義相似度的商品特征聚類算法能夠有效地對相同或相近的商品特征進行聚類,降低商品特征維度,為評論挖掘的進一步研究奠定基礎(chǔ)。但也存在著一些不足,如語義詞典更新周期長,不能及時地收錄新詞,這給基于語義的相關(guān)研究工作帶來不便。針對這些存在的不足,將做進一步研究。 參考文獻 [1] Godes David,Mayzlin Dina.Using online conversations to studyword-of-mouth communication[J].Marketing Science,2004,23(4):545-560. [2] Cone Communications LLC.Cone Releases the 2011 Online Influence Trend Tracker[OL].[2011].http://www.conecomm.com/contentmgr/showdetails.php/id/4008. [3] 第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].中國互聯(lián)網(wǎng)絡(luò)信息中心,2012. [4] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008. [5] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報,2004,18(1):26-32. [6] 姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C]//北京:中國中文信息學(xué)會二十五周年學(xué)術(shù)會議,2006:260-281. [7] Minqing Hu,Bing Liu.Mining Opinion Features in Customer Reviews[C]//InAAAI,2004:755-760. [8] Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithms for mining association rules in large databases[C]//Proceedings of the 20th International Conference on Very Large Data Bases (VLDB)1994.Santiago:ACM,1994:487-499. [9] 李實,葉強,李一軍.中文網(wǎng)絡(luò)客戶評論的商品特征挖掘方法研究[J].管理科學(xué)學(xué)報,2009,12(2):142-152. [10] Zhongwu Zhai,Bing Liu,Hua Xu,et al.Clustering product features for opinion mining[C]//Proceedings of the 4th international conference on Web search and data mining(WSDM)2011.Hongkong:ACM,2011:347-354. [11] 張珠,賈文杰,夏迎炬,等.商品屬性歸類技術(shù)研究[C]//黑龍江:第六屆全國信息檢索學(xué)術(shù)會議,2010. [12] 李愛清,何爍,郗亞輝.商品評論挖掘可視化實驗平臺的開發(fā)[J].河北大學(xué)學(xué)報:自然科學(xué)版,2012,32(2):212-217. [13] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學(xué)學(xué)報:信息科學(xué)版,2010,28(6):602-608. [14] 梅家駒,竺一鳴,高蘊琦.同義詞詞林[M ].上海:上海辭書出版社,1983. [15] 哈工大社會計算與信息檢索研究中心.同義詞詞林擴展版說明[OL].[2012].http://www.datatang.com/datares/go.aspx?dataid=612465. 收稿日期:2014-12-02。秦成磊,碩士生,主研領(lǐng)域:Web文本挖掘,Web智能信息處理。魏曉,副教授。 中圖分類號TP3 文獻標(biāo)識碼A DOI:10.3969/j.issn.1000-386x.2016.07.015 RESEARCH ON COMMODITY FEATURES CLUSTERING IN CHINESE ONLINE COMMENTS Qin ChengleiWei Xiao* (SchoolofComputerScienceandInformationEngineering,ShanghaiInstituteofTechnology,Shanghai201418,China) AbstractIn light of the situation that in comments there are so many commodity feature numbers while multiple different descriptions are just for one feature, we proposed a semantic similarity-based commodity features clustering algorithm. The algorithm includes two processes, the “allocation” and the “transfer”. The “allocation” process clusters the feature words to get primary clusters sequence; and the “transfer” process traverses the primary clusters sequence in turn and transfers the feature words within a cluster which possibly have higher similarity in semantics as of other clusters to the corresponding cluster. Experimental results indicate that the algorithm has high quality, small time complexity and is insensitive to data input order. KeywordsCommodity features clusteringFeatures clusteringSemantic similarityComment mining