王榮洋,鞠久朋,李壽山,周國棟
(蘇州大學 計算機科學與技術學院 自然語言處理實驗室, 江蘇 蘇州 215006)
隨著Web 2.0技術的迅猛發(fā)展,互聯(lián)網(wǎng)上帶有豐富意見的資源(如評論、博客等)正以指數(shù)級的速度增長?;谟脩舭l(fā)布內(nèi)容的情感分析已經(jīng)成為自然語言處理領域中的一個研究熱點。情感分析又稱意見挖掘,是指通過計算機手段,幫助用戶快速獲取、整理和分析相關評價信息。近年來,情感分析研究已經(jīng)取得一系列進展,特別是在情感信息的褒、貶極性分類方面[1-2]。目前,越來越多的研究者開始把目光轉(zhuǎn)向細粒度的[3](Fine-grained)情感分析,如評價對象抽取。
評價對象(Opinion Target)是指某段評論中所討論的主題,具體表現(xiàn)為評論文本中評價詞語所修飾的對象。評價對象抽取是情感信息抽取任務重要的研究課題之一。而且這項研究的開展有助于為上層情感分析任務提供服務。 評價對象抽取任務可以被建模成信息抽取。由于條件隨機場[4]序列標注模型能較好地捕捉上下文信息,它已經(jīng)被成功應用于多個任務中,在評價對象抽取中也得到了很好地應用[5]。
本文基于條件隨機場模型,研究多種特征在評價對象抽取任務中的表現(xiàn),具體內(nèi)容組織如下,第二部分介紹相關研究;第三部分描述基于CRFs的系統(tǒng)構建、詳細介紹特征;第四部分給出相關實驗結(jié)果及分析;最后總結(jié)全文。
初期,評價對象抽取的研究一般是基于規(guī)則/模板的方法。規(guī)則的制定通常要借助一系列自然語言理解預處理模塊,如詞性標注、命名實體識別、句法分析、語義分析等。相應地,制定的規(guī)則也包括詞序列規(guī)則、詞性規(guī)則、句法規(guī)則以及語義規(guī)則等形式。Kim[3]等通過將語義角色映射到制定的模板框架,從在線的新聞文本中抽取觀點、觀點持有者以及主題。另外,有些學者[6-7]使用關聯(lián)規(guī)則挖掘的方法或是基于句法分析的結(jié)果找出頻繁出現(xiàn)的候選評價對象,繼而使用兩種剪枝方法去除錯誤樣例。
隨著話題模型的逐漸興起,很多學者將其應用到情感分析領域。由于評價對象是蘊涵于情感文本中的某些話題,因此可以使用話題模型來進行評價對象的識別。有學者[8-9]采用多粒度的話題模型挖掘產(chǎn)品領域情感文本中的評價對象,并將相似的評價對象進行聚類。這種方法理論上能夠提高評價對象抽取的召回率。由于這是一種無指導的學習方法,不需要人工標注的語料,也不存在領域適應問題,因此有著廣闊的研究前景。但遺憾的是,還沒有實驗將這種方法與上述傳統(tǒng)的基于名詞短語的方法進行對比。
近年來,隨著CRFs在中文分詞、詞性標注、命名實體識別等自然語言處理任務取得的進展,特別是在情感分析領域主客觀分類、觀點持有者識別等任務上的成功應用,有研究者[3]將它應用在評價對象抽取的研究上。
本文中,我們采用基于CRFs的評價對象抽取系統(tǒng),同時采用Jakob[5]和Lu[10]所用的特征,并引入新的SRL(語義角色標注)特征,并在實驗中組合這些特征。我們將所有特征歸納為四類,表1給出這些特征的簡單說明。
表1 特征概述
在實驗過程中,我們將詞、詞性特征表述為基本詞法特征,將其余特征(除語義角色特征)統(tǒng)稱為擴展特征。
從情感表達的角度,情感詞主要分為兩類,一類是形容詞,另一類是動詞,且主要為形容詞。對于形容詞情感詞,Arg0(施事者)極有可能是評價對象,例如,“While none of the features are earth-shattering”,這里“feature/earth-shattering”構成了一個評價對象/情感詞的搭配。對于動詞情感詞,如例句“I like the new movie I saw last night!”中的“l(fā)ike”,其角色Arg1(受事者)的中心詞就是評價對象。但其中包含一個定語從句,從句中謂語動詞“saw”的角色Arg1也能提供評價對象信息。
因此,區(qū)別對待謂詞類別以及情感詞詞性對正確判斷起到重要作用。我們還發(fā)現(xiàn),對于存在從句成分的句子,該從句就有可能是某個謂詞的角色,而從句中通常也含有謂詞,但評價對象通常是從句中謂詞的某個角色,因此消除主句與從句中語義角色的嵌套關系也顯得很重要。通過語料可以發(fā)現(xiàn)評價對象通常不會太長,就算有修飾成分一般也不會超過某長度,因此過長的角色(>5個詞)我們不予標注。另外,考慮到評價對象與情感詞通常相鄰,所以我們對長句作了切分,即將長句切分成一個個短句來分別處理。鑒于以上分析,我們設計了如下的算法。
Algorithm語義角色特征提取算法
Require: 句子中詞、詞性、是否是情感詞的信息表T
Require: 語義角色標注結(jié)果表SRL
Output: 語義角色特征列表L
Procedure
將SRL表歸并成一列: 消除謂詞角色間嵌套結(jié)構,保留最小語義角色單元的Arg0、Arg1、Arg2三種信息,刪除長srl標注結(jié)果(>5個詞),將srl用I*B的形式表示。用短句切分子程序?qū)⒕渥忧蟹殖扇舾勺泳洹?/p>
Foreeach子句
if子句中含有情感詞
特征為語義角色標記+情感詞詞性
else
特征為語義角色標記
為子句中的每個詞增加對應的特征(非語義角色置特征*)
Repeat
End
本文用到的語料有兩個來源: DSRC*http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/及IMDb*http://www.imdb.com/。DSRC語料包含services和universities兩個領域,文獻[11]給出了DSRC詳細的標注規(guī)范及說明;IMDb是movies領域評論的評價對象/評價詞標注[12]。各領域的原始語料規(guī)模統(tǒng)計如表2所示。
表2 原始語料規(guī)模
實驗過程中,我們進行了多組實驗。首先對各種特征及其組合進行實驗,其次為了體現(xiàn)SRL的作用,我們將引入SRL特征之前與引入SRL特征之后的性能分別作了對比。在本實驗中,條件隨機場模型的實現(xiàn)采用CRF++*http://crfpp.sourceforge.net/,采用默認參數(shù),詞與詞性的窗口大小為3,其余特征用當前窗口,使用標記的Bigram特征。
本文采用的SRL工具為我實驗室開發(fā)的基于短語結(jié)構句法分析的、采用特征向量的SRL系統(tǒng)*http://nlp.suda.edu.cn/~jhli/,在CoNLL 2005 SRL shared task的WSJ 測試集上獲得了78.75的F1。
在數(shù)據(jù)集上使用10倍交叉驗證的方法,最終評價標準采用10次的平均。我們采用的評價標準是平均準確率、平均召回率、平均F1,分別記作P、R、F1。
1) 基本詞法特征實驗結(jié)果
表3是采用最基本的詞法特征模板的實驗結(jié)果,記作CRF_basic。
表3 CRF_basic的識別結(jié)果
詞形和詞性特征組合能取得相對好的性能。其中services領域提升幅度最大,達到3.2個點。
2) 單個擴展特征實驗結(jié)果
在詞法特征的基礎上,我們首先單獨引入各種特征,實驗結(jié)果如表4所示,記作CRF_ext_uni。
表4 CRF_ext_uni識別結(jié)果
可以看出,就單個特征而言,dLn的作用最為顯著,最大提升幅度達4.94個點。其次作用明顯的是wDs。但這兩個特征都是間接依賴于isOE,因為只有先找到情感詞,才能判別某個詞是否與情感詞直接依存、以及是否與情感詞距離最近的名詞/名詞短語。
3) 多個擴展特征組合實驗結(jié)果
根據(jù)單個特征的效果,我們以四個性能較好的特征為基礎,做兩兩、三三以及更多的與其他特征的組合,做了對比試驗,結(jié)果如表5所示,記作CRF_ext_comb。
表5 CRF_ext_comb識別結(jié)果
隨著特征的累積增加,性能會有顯著的提高,其中最好的一組組合特征是編號14,較基本特征相比,提升約6個百分點。
4) 使用語義角色特征實驗結(jié)果
以基本特征、最佳系統(tǒng)和所有特征系統(tǒng)為基礎,我們引入SRL特征。實驗結(jié)果如表6所示。
表6 加入SRL特征后的實驗結(jié)果對比
續(xù)表
比較引入SRL特征前、后三個系統(tǒng)的性能變化,可以得到如下結(jié)論。
(1) 在基礎系統(tǒng)上,三個領域提升的幅度分別為1.37、2.75和0.63;
(2) 在最佳系統(tǒng)BEST上,三個領域的準確率、召回率都有提高;
(3) 在使用所有特征的系統(tǒng)上,提升幅度為0.93、1.98、0.05。movies領域的提升幅度最不明顯,可能是由于其基線系統(tǒng)的性能本身已經(jīng)比較高。
5) 實驗分析
通過以上實驗可以看出,利用基本詞法特征可以達到不錯地效果,這是由于詞本身可以比較好的指示當前詞是否可以作為評價對象,但是這種特征不能捕獲評價對象與情感詞之間的關系,因此僅僅利用這種特征識別評價對象有一定的局限性。
利用依存關系特征可以比較好的捕獲評價對象與情感詞之間的關系,對評價對象的識別可以起到很好地指示作用,但評價對象與情感詞之間的關系往往不是依存關系所能捕獲的,因此需要尋找新的特征捕獲它們之間的關系。
由于評價對象往往與情感詞密切相關,甚至有時它們在一句話中的距離非常近,因此利用相對位置特征能較好地捕獲它們之間的關系,但對于評價對象與情感詞相距比較遠的情況,相對位置特征就顯得有些局限。
通過語料發(fā)現(xiàn),評價對象通常會擔任某個謂詞的角色(受事者Arg1或施事者Arg0),因此SRL特征能比較好地捕捉這種信息。為直觀理解SRL特征的作用,我們分析了測試結(jié)果。例句“I like the movie.”中“movie”相對于動詞性謂詞情感詞“l(fā)ike”的角色是受事者Arg1,而“movie”正是評價對象。例句“The movie is wonderful.”中“movie”是謂詞“be”的角色施事者Arg0的中心詞,形容詞性情感詞“wonderful”充當Arg2的角色。因此,在引入SRL特征時,區(qū)分動詞性情感詞和形容詞性情感詞顯得尤為重要。實際上,算法的設計正是出于這一點的考慮??傮w而言,SRL特征的提出改善了評價對象抽取的性能,SRL信息對評價對象識別有很好的指示作用。
本文研究基于CRFs的評價對象抽取系統(tǒng)中各種特征的選擇和比較,將用于情感信息抽取的特征歸納為詞法、語法、相對位置、語義等四大類別。通過大量地實驗,系統(tǒng)地比較、研究了各類特征及其組合對系統(tǒng)性能的影響。此外,本文提出將SRL特征加入系統(tǒng)之中,并提出了引入的算法,實驗結(jié)果表明,SRL信息能對評價對象抽取起到很好地指示作用。
統(tǒng)計表明,在movies語料中約9.5%的評價對象由代詞指代,在DSRC中這一比例高達12.5%,因此在下一步的工作中,指代消解在評價對象抽取上的應用顯得尤為重要。另外,本文通過將SRL作為特征加入系統(tǒng)中,雖然起對到評價對象起到很好地指示作用,但是其作用并未能完全發(fā)揮,因此如何將評價對象抽取融入到SRL框架也是一個值得研究的問題。
[1] Pang B., Lee L., Vaithyanathan S. Thumbs Up Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of EMNLP-2002. 2002: 79-86.
[2] Li S., Huang C., Zong C. Multi-domain Sentiment Classification with Classifier Combination[J]. Journal of Computer Science and Technology (JCST), 2011, 26(1): 25-33 .
[3] Kim S., Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.
[4] Lafferty J., McCallum A., Pereira F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001. 2001: 282-289.
[5] Jakob N., Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.
[6] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of AAAI-2004. 2004: 755-760.
[7] 倪茂樹,林鴻飛.基于關聯(lián)規(guī)則和極性分析的商品評論挖掘[C]//第三屆全國信息檢索與內(nèi)容安全學術會議.2007:628-634.
[8] Titov I., McDonald R. Modeling Online Reviews with Multi-grain Topic Models[C]//Proceedings of WWW-2008. 2008: 111-120.
[9] Lu Y., Zhai C., Sundaresan N. Rated aspect summarization of short comments[C]//Proceedings of WWW-2009. 2009: 131-140.
[10] Lu B. Identifying Opinion Holders and Targets with Dependency Parser in Chinese News Texts[C]//Proceedings of the NAACL HLT 2010 Student Research Workshop, Los Angeles, California. 2010: 46-51.
[11] Toprak C., Jakob N., Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of ACL-2010. 2010: 575-584.
[12] Zhuang L., Jing F., Zhu X. Movie review mining and summarization[C]//Proceedings of CIKM-2006. 2006: 43-50.