胡令傳,陶曉鵬
(復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)
客戶評論中用戶體驗(yàn)信息自動提取研究
胡令傳,陶曉鵬
(復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)
客戶評論在人們的日常生活中越來越重要,人們希望從客戶評論中獲取商品的用戶體驗(yàn)信息??蛻粼u論數(shù)量的急劇增長使得用戶快速、精準(zhǔn)地獲取有用的信息變得較為困難。為此,提出一種能夠自動提取用戶體驗(yàn)信息的方法。該方法通過語義片段過濾評論中的冗余信息,提取產(chǎn)品特征詞及特征描述詞,將其結(jié)合組成用戶體驗(yàn)信息,自動獲取信息能夠迅速、準(zhǔn)確地從客戶評論中提取信息。實(shí)驗(yàn)結(jié)果證明了該方法的有效性,并且能夠保證較高的準(zhǔn)確率與查全率。
客戶評論;特征挖掘;情感分析;語義片段提取;用戶體驗(yàn);語義相似度
隨著電子商務(wù)、微博的興起,人們的衣食住行與互聯(lián)網(wǎng)的關(guān)系越來越密切,互聯(lián)網(wǎng)中的信息也隨之飛速增長。電子商務(wù)中的客戶評論數(shù)量急劇增長使得用戶想要在評論中快速準(zhǔn)確的獲取到其他用戶的體驗(yàn)信息變得困難??蛻粼u論的特點(diǎn)有:數(shù)量大,在主流的電商網(wǎng)站上,一件商品的客戶評論已經(jīng)成千上萬;內(nèi)容單一,大部分的客戶評論字?jǐn)?shù)較少,所包含的信息量少;語法簡單,比較口語化;表達(dá)方法簡單。
本文提出一種在評論中獲取用戶體驗(yàn)信息的方法。該方法首先對評論進(jìn)行分詞、詞性標(biāo)注,然后進(jìn)行產(chǎn)品特征與特征描述的提取,根據(jù)產(chǎn)品特征與特征描述來提取出用戶體驗(yàn)信息。
2.1 問題分析
現(xiàn)在電商網(wǎng)站上出現(xiàn)了一些對評論進(jìn)行分類、摘要的方法:(1)用戶對商品的總體體驗(yàn)打分,電商網(wǎng)站根據(jù)分?jǐn)?shù)進(jìn)行分類,如一號店,這種方法的弊端是提供的信息量太少;(2)用戶添加體驗(yàn)信息,其他用戶可以重復(fù)使用,如京東商城,這種方法得到的信息與具體評論內(nèi)容脫節(jié);(3)人工總結(jié)詞組,統(tǒng)計其數(shù)量,如百度微購,但人工總結(jié)效率低、不全面。在現(xiàn)有的研究方向中,與本文研究工作密切相關(guān)的主要有2個:產(chǎn)品特征挖掘和情感傾向分析。下面結(jié)合本文的方法對這2個方面分別進(jìn)行介紹和分析。
2.2 產(chǎn)品特征挖掘
產(chǎn)品特征挖掘是指從大量的網(wǎng)絡(luò)客戶產(chǎn)品評論中獲取產(chǎn)品特征,這項(xiàng)技術(shù)是產(chǎn)品特征情感傾向分析的前提。文獻(xiàn)[1-2]使用了人工標(biāo)記語料加上機(jī)器學(xué)習(xí)的方法提取汽車的產(chǎn)品特征,取得了不錯的效果。但人工進(jìn)行參與的產(chǎn)品特征提取方法可移植性差。文獻(xiàn)[3]首先對句子進(jìn)行句法分析,進(jìn)行名詞短語的獲取,然后運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行提取到產(chǎn)品特征。這種方法雖然不需要人工進(jìn)行干預(yù),但準(zhǔn)確率與效率都比較低。
人工參與和句法分析的特征提取方法都不太適用于電商網(wǎng)站上的客戶評論:對于前者,客戶評論數(shù)量龐大,種類繁多,采用人工進(jìn)行標(biāo)注特征,可行性太差;對于后者,互聯(lián)網(wǎng)上的評論表達(dá)自由,形式新穎,并不一定符合非常嚴(yán)謹(jǐn)?shù)恼Z法規(guī)則,導(dǎo)致句法分析結(jié)果不會太理想,進(jìn)而準(zhǔn)確率不會太高。本文則結(jié)合客戶評論自身的特點(diǎn),采用了語義片段提取與詞頻統(tǒng)計結(jié)合的方法實(shí)現(xiàn)了自動產(chǎn)品特征挖掘。
2.3 情感傾向分析
情感傾向分析的目的是判斷用戶對產(chǎn)品的態(tài)度,包括正面、負(fù)面和中性[4]。目前情感傾向分析的技術(shù)主要分為2種:機(jī)器學(xué)習(xí)方法和語義方法。文獻(xiàn)[5]提出了半監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行情感傾向挖掘。這種方法雖然能夠達(dá)到非常高的準(zhǔn)確度,但人工標(biāo)記語料效率低?;谡Z義理解的情感分析方法[6-7]是利用詞語相似度計算詞語與褒義詞和貶義詞的距離,從而得到的詞語的情感值。在文獻(xiàn)[8]中,用基于語義理解的情感傾向分析方法對文本的情感傾向進(jìn)行分析,取得了非常好的效果。
目前的情感傾向分析方法只是考慮了一些比較有情感色彩的詞,比如“不錯”、“好看”這樣的詞。而客戶評論特別是一些電商網(wǎng)站的評論中會出現(xiàn)很多新詞,比如“接地氣”、“正能量”這種詞,則不能很好地判斷其褒貶。更有像“荷蘭進(jìn)口”這種詞,不能僅僅用褒貶來表達(dá)。因此,定義了表達(dá)范圍更廣泛的概念,稱為特征描述詞。用特征描述詞的提取來代替情感傾向分析,使得評論閱讀者能夠獲取到更加豐富的信息。
本文提出的自動獲取用戶體驗(yàn)信息方法主要有3個步驟:(1)通過產(chǎn)品特征挖掘獲取到產(chǎn)品的特征信息,即產(chǎn)品特征詞;(2)獲取描述產(chǎn)品特征的詞語,即特征描述詞;(3)合并特征詞和特征描述詞,形成用戶體驗(yàn)信息。
3.1 產(chǎn)品特征挖掘
產(chǎn)品特征挖掘基于語法規(guī)則及上下文相似度計算,分3個步驟:復(fù)合名詞合并,語義片段提取,語境相似度計算。
(1)復(fù)合名詞合并。這里的復(fù)合名詞包括普通意義的復(fù)合名詞、“的”字結(jié)構(gòu)等。用復(fù)合名詞作為產(chǎn)品特征詞能夠保證所提取信息的完整性和精確性。合并規(guī)則如下:
名詞+名詞(直至后面不是名詞)
名詞+“的”+名詞
(2)語義片段提取。客戶評論中存在字?jǐn)?shù)很多,但沒有或者很少用戶體驗(yàn)信息的句子,通過名詞短語和介詞短語形式的語義片段的提取有用信息提取出來?;谌缦碌恼Z法規(guī)則來定義語義片段:
名詞+副詞+名詞修飾語 (東西/NN很/AD不錯/JJ)
名詞+副詞+動詞(寶寶/NN很/AD喜歡/VV)
名詞+副詞+表語形容詞 (味道/NN很/AD濃/VA)
動詞+副詞+表語形容詞 (買的/VV很/AD便宜/VA)
介詞+名詞+表語形容詞 (比/P超市/NN便宜/VA)
語義片段提取用正則表達(dá)式來實(shí)現(xiàn)。實(shí)驗(yàn)表明,利用這些語法規(guī)則能夠提取出基本完整的語義片段集合,達(dá)到了91.9%。
(3)語境相似度計算[9]。在客戶評論中,產(chǎn)品特征詞的語境有許多相似之處:句中位置相似,上下文的詞相似、上下文的詞性相似。根據(jù)這些特點(diǎn),本文設(shè)計了特征詞擴(kuò)展算法,其中,用W1表示已知的產(chǎn)品特征詞;W2表示候選特征詞。W1和W2各自取前后2個詞語及其詞性分別作為它們的上下文,用PW表示上下文中的詞,PT表示對應(yīng)的詞性。整個上下文如下所示:
算法中的權(quán)重值由人為設(shè)定,分值大小確定的原則為:上下文中距離特征詞越近的詞和詞性的權(quán)重越高;在距離相同的情況下,上下文中的詞比詞性的權(quán)重高。所有的候選特征詞依據(jù)得分從高至低排序,如果其得分大于預(yù)先設(shè)定的閾值,則確定為新的產(chǎn)品特征詞。這里的閾值是根據(jù)實(shí)驗(yàn)過程中得到的結(jié)果,取其最小值所得。
特征擴(kuò)展算法如下:
3.2 特征描述詞的提取
PMI算法[10]利用詞之間同時出現(xiàn)的概率判斷情感傾向,PMI算法可以用下式表示:
本文發(fā)現(xiàn)客戶評論中都有多個特征描述詞同時出現(xiàn)。因此借用PMI算法,利用已知的特征描述詞發(fā)現(xiàn)新的特征描述詞,即式(1)中ω表示已知的特征描述詞,ω^表示待確定的特征描述詞。根據(jù)PMI算法給所有的ω^打分排序之后,然后去掉其中的副詞(AD)、動詞(VV),最后根據(jù)預(yù)先設(shè)定的閾值進(jìn)行篩選。這里的閾值是根據(jù)實(shí)驗(yàn)結(jié)果,取每次正確結(jié)果的最小值所得。
3.3 種子詞的獲取
前面介紹的產(chǎn)品特征詞和特征描述詞的獲取,都需要一些初始的已知詞,分別稱為產(chǎn)品特征種子詞和特征描述種子詞。采用如下步驟獲取種子詞:
(1)對語義片段提取的結(jié)果進(jìn)行詞頻統(tǒng)計。
(2)設(shè)置一個停用詞表[11],包含經(jīng)常出現(xiàn),但是沒有參考價值的詞語。
(3)選取出現(xiàn)頻率最高,且不包含停用詞的N個名詞作為產(chǎn)品特征種子詞,頻率最高且不包含停用詞的N個形容詞作為特征描述種子詞。N的值太小會影響拓展詞的準(zhǔn)確度,N的值太大會影響種子詞的準(zhǔn)確度。
3.4 特征詞和特征描述詞的合并
用戶體驗(yàn)信息是特征詞與特征描述詞的結(jié)合。本文利用上下文相關(guān)性,將特征詞與特征描述詞聯(lián)系起來。依次處理每個特征詞,然后合并它們的結(jié)果。單個特征詞的處理方法如下:
(1)獲取特征詞的上下文,這里的上下文取的是特征詞的前面2個詞與后面2個詞。
(2)記錄上下文中含有的特征描述詞,并統(tǒng)計在所有評論中出現(xiàn)的次數(shù)。
(3)在含有特征描述詞的上下文中,查看是否含有否定詞,若含有否定詞,需在特征描述詞前加入否定詞,并重新統(tǒng)計其數(shù)量。
圖1給出了本文的實(shí)驗(yàn)流程,包括每個步驟的簡要實(shí)現(xiàn)方法。
圖1 本文方法實(shí)驗(yàn)流程
4.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理
在京東商城選取10個不同種類的商品進(jìn)行對比實(shí)驗(yàn),如表1所示。在信息提取之前,對評論進(jìn)行預(yù)處理:
(1)重復(fù)其他用戶的評論,即有些用戶直接復(fù)制的其他用戶的評論。
(2)存在大量重復(fù)文字的評論,如:“好好好好好!!!”。
(3)存在大量特殊字符的評論,如:“A?(?]%好”。
(4)存在大量空白的評論,如:“東西很好 很給力”。
(5)重復(fù)自身的評論,如:“東西很好 東西很好東西很好 東西很好東西很好”。
對于(1)、(5)中的評論,采取去重的方法;對于(2)、(3)中的評論,直接將評論丟棄;對于4中的評論,除去空白。
表1 京東商城選取的10個商品
4.2 修正的召回率和F-Measure值
本文的任務(wù)是從海量評論數(shù)據(jù)中提出取對客戶有用的信息,通常用準(zhǔn)確率(precision)和召回率(recall)來評估提取的質(zhì)量。并用F-Measure[12]值綜合準(zhǔn)確率和召回率2個數(shù)值,其中常用的是F1,它的定義如下:
由于本文的實(shí)驗(yàn)數(shù)據(jù)規(guī)模太大,無法對所有評論進(jìn)行人工標(biāo)注,導(dǎo)致無法統(tǒng)計所有正確信息的數(shù)量,進(jìn)而無法計算召回率。因此,設(shè)計了新的召回率計算公式,稱為修正的召回率,即用2個進(jìn)行比較的結(jié)果的正確部分的合并作為正確信息的全集,具體公式如表2所示。
表2 修正的查全率計算
本文把用新的召回率計算得到的F-measure值稱為修正的 F-measure值,記為Fw,傳統(tǒng)的 FMeasure值記為Ft。證明略,當(dāng)滿足條件C1≥C2時,下式成立:
在下面實(shí)驗(yàn)的比較中,把本文方法提出的結(jié)果視為提取結(jié)果1,已有方法(比如京東商城的方法)提取的結(jié)果視為提取結(jié)果2。上面的結(jié)論說明,只要本文方法提取出足夠多的正確信息,就能夠保證修正的F-measure值的比較結(jié)果與傳統(tǒng)的比較結(jié)果一致。
4.3 結(jié)果分析
本文對語義片段提取、種子詞獲取以及用戶體驗(yàn)信息進(jìn)行了實(shí)驗(yàn)結(jié)果的統(tǒng)計與分析。
4.3.1 語義片段提取實(shí)驗(yàn)
從Iphone4的評論中隨機(jī)選取100條,經(jīng)過人工挑選,從中找出62個語義片段,作為實(shí)驗(yàn)的“黃金標(biāo)準(zhǔn)”(Gold Stan-dard)。本文方法的提取結(jié)果如表3所示。
表3 本文方法的提取結(jié)果
表3結(jié)果表明,本文方法雖然不能保證較高的精確率,但能夠保證非常高的召回率。這樣的結(jié)果就能保證本文的語義片段提取損失盡可能少的信息量,也保證了本文最后提取出來的用戶體驗(yàn)信息的全面性、完整性。
4.3.2 種子詞獲取實(shí)驗(yàn)
實(shí)驗(yàn)數(shù)據(jù)來自10種商品的全部評論,N的值設(shè)為5,實(shí)驗(yàn)結(jié)果如表4所示。其中,每個商品的評論中產(chǎn)生10個種子詞,包括5個特征種子詞和5個特征描述種子詞,它們的正確性由人工評定。實(shí)驗(yàn)結(jié)果表明,本文方法準(zhǔn)確率達(dá)到98%,基本可以替代人工提供的數(shù)據(jù)。
表4 種子詞提取實(shí)驗(yàn)結(jié)果
4.3.3 用戶體驗(yàn)信息提取實(shí)驗(yàn)
本文對10種商品的評論進(jìn)行用戶體驗(yàn)信息提取,結(jié)果與京東商城進(jìn)行比較。京東商城的結(jié)果通過爬蟲程序從評論接口獲取,每個商品都獲得一條體驗(yàn)信息。本文方法和京東商城的結(jié)果都由人工判斷是否正確。實(shí)驗(yàn)結(jié)果如表5、表6所示。實(shí)驗(yàn)結(jié)果表明,在準(zhǔn)確率上,本文方法與京東商城相差不大,但是在召回率上,本文方法遠(yuǎn)遠(yuǎn)優(yōu)于京東商城。在最終F-Measure值評估上,本文方法無論是宏平均還是微平均都遠(yuǎn)遠(yuǎn)優(yōu)于京東商城。
表5 用戶體驗(yàn)信息提取結(jié)果對比
表6 宏平均值與微平均值結(jié)果對比
客戶評論隨著電子商務(wù)的發(fā)展起著越來越重要的角色,進(jìn)而處理評論的技術(shù)要求也越來越高?,F(xiàn)有方法依賴于人力,不能真正客觀地從評論中提取信息。本文方法能夠自動獲取產(chǎn)品特征與特征描述詞,并組成用戶體驗(yàn)信息。實(shí)驗(yàn)證明該方法能夠自動、全面、客觀地從客戶評論中獲取信息。
[1] Kobayashi N,Inui K,Matsumoto J,et al.Collecting Evaluative Expressions for Opinion Extraction[C]// Proceedings of IJCNLP’05.Berlin,Germany:Springer, 2005:596-605.
[2] Li Zhuang,Feng Jing,Zhu Xiaoyan.Movie review Mining and Summarization[C]//Proceedings of the 15th ACM International Conference on Information and Knowledge Management.[S.1.]:ACM Press,2006:43-50.
[3] Hu Mingqing,Liu Bing.Mining Opinion Features in Customerreviews[C]//Proceedings ofthe 19th National Conference on Artifical Intelligence.San Jose, USA:AAAI Press,2004:755-760.
[4] Pang Bo,Lee L.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.
[5] Pang Bo,Lee L,Vaithyanathan S.Thumbs Up? Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of ACL’02.[S.1.]: Association for Computational Linguistics,2002:79-86.
[6] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機(jī)制[J].中文信息學(xué)報,2007,21(1):96-100.
[7] 朱嫣嵐,閔 錦,周雅倩,等.基于hownet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,(1):14-20.
[8] Nasukawa T,Yi J.Sentiment Analysis:Capturing Favorability Using Natural language processing[C]//Proceedings of the 2nd International Conference on Knowledge Capture.Sanibel Island,USA:ACM Press,2003:70-77.
[9] 劉宏哲,須 德.基于本體的語義相似度和相關(guān)度計算研究綜述[J].計算機(jī)科學(xué),2012,39(2):8-13.
[10] Turney P D,Littman M L.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.
[11] 朱 杰,劉功申,陳 卓.中文文本傾向性分類技術(shù)比較研究[J].信息安全與通信保密,2010,(4):56-58.
[12] Makhoul J,Kubala F,Schwartz R,et al.Performance Measures for Information Extraction[C]//Proceedings of DARPA’99.[S.1.]:IEEE Press,1999:249-252.
編輯 索書志
Research on Information Automatic Extraction of User Experience from Customer Reviews
HU Lingchuan,TAO Xiaopeng
(School of Computer Science,Fudan University,Shanghai 201203,China)
Customer reviews are playing an increasingly important role in people’s daily lives,from which people want to obtain some information about user experience.However,with the continuous development of the Internet,it is pretty difficult for users to get the useful information in a rapid and accurate way.The common practice is to collect experience information manually or half-manually,and calculate the frequency of tem.This paper presents an automatic method to extract information about the user experience from customer reviews,it extracts product features and feature description through semantic segment filtering redundant information,and consists of user experience information,it implements information extraction rapidly and precisely.Abundant experiments show that this method is available and can guarantee very high precision and recall ratio.
customer reviews;feature mining;emotion analysis;semantic segment extraction;user experience;semantic similarity
1000-3428(2015)01-0049-05
A
TP391
10.3969/j.issn.1000-3428.2015.01.009
胡令傳(1990-),男,碩士,主研方向:自然語言處理,機(jī)器翻譯;陶曉鵬,副教授、博士。
2013-12-26
2014-02-27 E-mail:hulingchuan@hotmail.com
中文引用格式:胡令傳,陶曉鵬.客戶評論中用戶體驗(yàn)信息自動提取研究[J].計算機(jī)工程,2015,41(1):49-53.
英文引用格式:Hu Lingchuan,Tao Xiaopeng.Research on Information Automatic Extraction of User Experience from Customer Reviews[J].Computer Engineering,2015,41(1):49-53.