劉 濤,趙 鵬,劉慧婷,紀(jì) 霞
(1.安徽大學(xué)計(jì)算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥230039;2.安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230601)
一種改進(jìn)的基于核心句的評價(jià)搭配抽取方法
劉 濤1,2,趙 鵬1,2,劉慧婷1,2,紀(jì) 霞1,2
(1.安徽大學(xué)計(jì)算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥230039;2.安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230601)
目前主流的評價(jià)搭配抽取方法以句法依存分析為基礎(chǔ),由于中文評價(jià)文本的不規(guī)范性,導(dǎo)致其句法分析結(jié)果不穩(wěn)定,進(jìn)而影響評價(jià)搭配的抽取效果。針對該問題,提出一種改進(jìn)的基于核心句的評價(jià)搭配抽取方法。設(shè)計(jì)融合核心句和句法依存關(guān)系的評價(jià)搭配抽取方法,提高評價(jià)語句句法分析結(jié)果的穩(wěn)定性,并且在處理復(fù)雜的評價(jià)語句時(shí),加入對評價(jià)對象之間、情感詞之間并列關(guān)系的分析。實(shí)驗(yàn)結(jié)果表明,該方法能提高召回率和準(zhǔn)確率。
核心句;評價(jià)搭配;語法模板;并列關(guān)系;依存關(guān)系
隨著電子商務(wù)的蓬勃發(fā)展,越來越多的消費(fèi)者傾向于在網(wǎng)絡(luò)上發(fā)表自己的觀點(diǎn)和評論,這些網(wǎng)絡(luò)上出現(xiàn)的海量評價(jià)文本蘊(yùn)含著大量有價(jià)值的信息。快捷高效地挖掘出這些評論中消費(fèi)者對商品及其屬性的褒貶態(tài)度和評價(jià)意見,不僅可以指導(dǎo)商家對產(chǎn)品和服務(wù)做出有針對性的改進(jìn),而且可以幫助消費(fèi)者選擇合適的商品和服務(wù)。情感分析任務(wù)日益成為研究者們關(guān)注的焦點(diǎn),評價(jià)搭配的抽取是情感分析的關(guān)鍵技術(shù)。第三屆中文傾向性分析測評已將評價(jià)搭配的抽取作為新增的要素級評測任務(wù)[1]。評價(jià)搭配是指評價(jià)對象與其對應(yīng)的修飾詞的組合[2],因此,本文抽取結(jié)果的表現(xiàn)形式為:<評價(jià)對象,評價(jià)詞>。
近年來,越來越多的研究人員開始關(guān)注評價(jià)搭配抽取。在面向英文評論的搭配方面,文獻(xiàn)[3]首先對文本進(jìn)行句法依存分析,然后依據(jù)詞性建立模板獲得評價(jià)搭配的候選集,再使用最大熵模型的方法篩選候選集合,最后得到評價(jià)搭配的集合。但該方法只能抽取在一個(gè)單句中的評價(jià)對象和評價(jià)詞的搭配,且限定了評價(jià)詞和評價(jià)對象的詞性。文獻(xiàn)[4]首先手工標(biāo)記出評價(jià)文本中的評價(jià)對象和評價(jià)詞,然后在句法分析的基礎(chǔ)上獲得評價(jià)搭配和評價(jià)詞之間的句法規(guī)則,最后用這些規(guī)則識別評價(jià)搭配,該方法是以人工標(biāo)注作為基礎(chǔ),需要大量的人力和時(shí)間,且覆蓋率偏低。文獻(xiàn)[5]先從評價(jià)語句中找出評價(jià)對象,然后用最近距離進(jìn)行匹配的方法抽取評價(jià)搭配,該方法限定評價(jià)詞為形容詞,忽略了具有傾向性的動詞和名詞,同時(shí)使用編輯距離的模糊匹配方法抽取評價(jià)搭配,在中文語料中效果并不理想。在中文評價(jià)文本方面,文獻(xiàn)[6]提出了基于最大熵模型的中文評價(jià)搭配的抽取方法,發(fā)現(xiàn)程度副詞能明顯的提高抽取性能,但要事先確定產(chǎn)品特征和情感詞匯。文獻(xiàn)[7]也是使用最大熵模型的方法識別評價(jià)搭配,取得了不錯的效果,但是該方法需要構(gòu)建適合語料環(huán)境的極性詞表,且單純使用統(tǒng)計(jì)模型的方法難以取得良好的效果。文獻(xiàn)[8]在句法分析的基礎(chǔ)上,獲得評價(jià)對象和評價(jià)詞的路徑,并將其作為語義特征應(yīng)用于最大熵模型。文獻(xiàn)[9]從特定的情感詞出發(fā),自動獲得情感詞對應(yīng)的評價(jià)對象,利用句法分析的結(jié)果獲取依存結(jié)構(gòu)。文獻(xiàn)[10]利用SBV極性傳遞法識別需抽取的評價(jià)對象和評價(jià)詞(極性詞),并引入ATT鏈算法以及互信息法確定評價(jià)對象的邊界,進(jìn)一步挖掘了評價(jià)對象與評價(jià)詞的語義關(guān)系。
可以看出,目前抽取搭配常用2類方法:一種方法是基于一些語言特征利用最大熵模型等機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練獲得模型[3,6,9];另一種方法是基于規(guī)則或模板[4-5,10]。不難發(fā)現(xiàn),不管使用以上哪種方法,句法分析都在評價(jià)搭配抽取方面起著重要的作用,但是由于中文網(wǎng)絡(luò)評價(jià)語句的不規(guī)范性,導(dǎo)致其句法分析的結(jié)果不準(zhǔn)確。針對這個(gè)問題,文獻(xiàn)[11]提出了用原始語料中評價(jià)語句的核心句的方法抽取評價(jià)對象,文獻(xiàn)[12]把核心句的思想引入到評價(jià)搭配的抽取中,提出了融合核心句和依存關(guān)系的評價(jià)搭配的抽取方法,但是沒有考慮到語句中并列關(guān)系的評價(jià)對象和情感詞,且在提取核心句時(shí)先對不規(guī)范的原始語句進(jìn)行句法依存分析,影響了核心句的抽取效果。為此,本文提出一種改進(jìn)的基于核心句的評價(jià)搭配抽取方法。
2.1 核心句的抽取
所謂核心句即為依據(jù)一定的規(guī)則將原句進(jìn)行處理后得到的新句,新句一般為原句的核心片段,如果原句不符合任何規(guī)則,則保持不變[11]。本文中的核心句主要指刪除冗余,保留與評價(jià)搭配相關(guān)的主干成分。本文旨在利用核心句提高評價(jià)文本句法依存分析的準(zhǔn)確率。抽取核心句的原則是使評價(jià)文本規(guī)范化,同時(shí)又盡量不丟失原句中與評價(jià)搭配相關(guān)的成分?;谝陨显瓌t,以及對大量語料的觀察,本文確定了5條規(guī)則,如表1所示。
表1 核心語句獲得的規(guī)則
將句子按照表1的5條規(guī)則順序處理后即可以得到所需的核心句。例如“酒店服務(wù)員很熱情,環(huán)境也很好,尤其是戶外的自然環(huán)境非常好,唯一的不足就是房間的設(shè)施有點(diǎn)舊。希望酒店能盡快改進(jìn)?!碧幚聿襟E如下:
步驟1匹配Rule3,例句處理后變?yōu)椤熬频攴?wù)員很熱情,環(huán)境也很好,尤其是戶外的自然環(huán)境非常好,唯一的不足就是房間的設(shè)施有點(diǎn)舊?!?/p>
步驟2匹配Rule4,例句處理后變?yōu)椤熬频攴?wù)員很熱情,環(huán)境也很好,尤其是戶外的自然環(huán)境非常好,就是房間的設(shè)施有點(diǎn)舊?!?/p>
步驟3匹配Rule5,例句變?yōu)椤熬频攴?wù)員很熱情,環(huán)境也很好,戶外的自然環(huán)境非常好,房間的設(shè)施有點(diǎn)舊?!?/p>
上面例句的核心句即為“酒店服務(wù)員很熱情,環(huán)境也很好,戶外的自然環(huán)境非常好,房間的設(shè)施有點(diǎn)舊?!毙枰赋龅氖?對于不同類型的語料,抽取核心句的規(guī)則會有所不同,如果是同一領(lǐng)域的語料,則可以尋找出理想的規(guī)則以更好地發(fā)揮核心句的作用。
2.2 語法模板的獲取
識別評價(jià)搭配模板如表2所示。
表2 識別評價(jià)搭配模板
表2中的箭頭表示存在依存關(guān)系;箭頭兩端的字母代表具有依存關(guān)系的2個(gè)詞的詞性;箭頭上方的標(biāo)識(如“SBV”)表示具體的依存關(guān)系;括號中的成分表示是有可能存在的。
在獲得核心句之后,需要對核心句進(jìn)行句法依存分析,然后根據(jù)評價(jià)搭配抽取模板抽取評價(jià)搭配。通過對語料的觀察和分析,發(fā)現(xiàn)評價(jià)對象和評價(jià)詞之間主要有以下關(guān)系:
(1)修飾關(guān)系,如:“時(shí)尚的外觀”,本文用表2的模板1來識別此類的評價(jià)搭配。
(2)主謂關(guān)系,如:“房間很干凈?!?根據(jù)主語和謂語核心詞的詞性,分為3種情況:
1)用表2的模板2首先識別出核心評價(jià)搭配<n,a>,如果主語是復(fù)合短語則使用表2的模板5識別出完整的評價(jià)對象n+n或者v+n,同樣如果謂語是復(fù)合短語則用表2的模板6識別出完整的評價(jià)詞d+a。
2)用表2的模板3首先識別出評價(jià)對象n,如果主語是復(fù)合短語則使用表2的模板5識別出完整的評價(jià)對象n1+n2或者v1+n2,再用表2的模板7識別出評價(jià)詞n/a/v,最后判斷是否符合表2的模板8,若符合,則獲得完整的評價(jià)詞d+v+n/a/v。
3)用表2的模板4首先識別出核心評價(jià)搭配<v,a>,然后用表2的模板5識別出評價(jià)對象n+v,同樣如果謂語是復(fù)合短語則用表2的模板6識別出完整的評價(jià)詞d+a。
(3)并列關(guān)系,這里分為2種情況:
1)評價(jià)對象是并列關(guān)系的,如“酒店的環(huán)境和設(shè)施都很差。”,本文用表2的模板9識別出并列的評價(jià)對象n1,然后根據(jù)n2識別出評價(jià)對象n1完整形態(tài)和對應(yīng)的評價(jià)詞;
2)評價(jià)詞是并列關(guān)系的,如“房間很干凈,也很安靜?!?本文用表2的模板9識別出評價(jià)詞a1,然后根據(jù)a2識別出a1的評價(jià)對象,最后判斷a2是否有前綴修飾詞,有的話就使用表2的模板6識別出完整的評價(jià)詞d+a。
本文使用的是哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索研究中心提供的語言技術(shù)平臺(Language Technology Platform,LTP)進(jìn)行分詞和依存關(guān)系分析的。具體評價(jià)搭配抽取算法如下:
輸入評論語句集合StcSet0={s1,s2,…,sm}
輸出評價(jià)搭配集合CombinSet1={<o(jì)bj1,evalu1>,<o(jì)bj2,evalu2>,…,<o(jì)bjn,evalun>}
Step1掃描集合StcSet0中的每個(gè)句子,對于句子sk(k=1,2,…,m),依次使用表1中的5個(gè)規(guī)則匹配處理,最后獲得sk的核心語句shk。掃描結(jié)束后獲得集合StcSet0對應(yīng)的核心句集合StcSet1,StcSet1= {hs1,hs2,…,hsm}。
Step2掃描集合StcSet1中的每個(gè)句子,對于句子hsk(k=1,2,…,m),構(gòu)造分析器,具體如下:
(1)首先匹配表2中的模板1,若匹配失敗直接進(jìn)入步驟(2);若匹配成功,先識別出評價(jià)搭配<n1,a1>,然后通過a1匹配表2中的模板6,若匹配成功,則獲得評價(jià)詞d1a1,再通過a1匹配表2中的模板9,若匹配成功,則獲得評價(jià)搭配<n1,a2>,最后通過n1匹配表2中的模板9,若匹配成功,則獲得評價(jià)搭配<n2,a1>。
(2)匹配表2中的模板2,若匹配成功,得到評價(jià)搭配<n1,a1>,然后通過n1循環(huán)匹配表2中的模板5(設(shè)定最多循環(huán)2次),若匹配成功,得到評價(jià)對象x2x1n1(x2x1可能是nn或vn),再通過a1匹配表2中的模板6,若匹配成功,則獲得評價(jià)詞d1a1。再通過n1匹配表2中的模板9,若匹配成功,則獲得評價(jià)搭配<n2,(d1)a1>。之后通過a1匹配表2中的模板9,若匹配成功,則獲得評價(jià)配對<x2x1n1,(d1)a2>。
(3)匹配表2中的模板3和模板7(其中,2個(gè)模板中的v是同一個(gè)詞),若匹配成功,則得到評價(jià)搭配<n,(d)+n/a>,然后通過n匹配表2中的模板5右邊的n2,若匹配成功,獲得評價(jià)對象n1/v1+n,若評價(jià)詞中有單獨(dú)的a,則需要匹配表2中的模板6,獲得評價(jià)詞d+a,同上面的步驟(2)一樣,對評價(jià)詞a和評價(jià)對象n用表2中的模板9進(jìn)行匹配并作出同樣的處理。
(4)匹配表2中的模板4,若匹配成功,則得到評價(jià)搭配<v,a>,然后通過v匹配表2中的模板5右邊的v2,若匹配成功,則獲得評價(jià)對象n1+v,再通過a匹配表2中的模板6,若匹配成功,得到評價(jià)詞d+a,然后同步驟(2)一樣,對評價(jià)詞a用表2中的模板9進(jìn)行匹配并做同樣的處理。
Step3重復(fù)Step2,直至處理完集合StcSet1中的每個(gè)句子。
Step4算法結(jié)束。
3.1 數(shù)據(jù)集與評價(jià)指標(biāo)
本文采用的實(shí)驗(yàn)數(shù)據(jù)是譚松波的中文情感挖掘語料提供的酒店評價(jià)語料,選取其中的1200篇,正反各600篇作為實(shí)驗(yàn)的數(shù)據(jù)集,進(jìn)行了3組實(shí)驗(yàn)。第1組實(shí)驗(yàn)對原始語料和使用表1規(guī)則抽取的核心句分別進(jìn)行句法依存分析后,再分別使用表2的語法模板抽取評價(jià)搭配;第2組實(shí)驗(yàn)對抽取的核心句進(jìn)行句法依存分析后,分別使用含有并列關(guān)系的模板和不含并列關(guān)系的模板進(jìn)行評價(jià)搭配抽取;第3組實(shí)驗(yàn)將從1200篇語料隨機(jī)選取900篇作為訓(xùn)練語料,余下的300篇作為測試語料,然后做基于最大熵模型的評價(jià)搭配抽取實(shí)驗(yàn),并與本文方法做對比。本文使用手工標(biāo)注所有語料中的評價(jià)搭配作為實(shí)驗(yàn)結(jié)果的對比標(biāo)準(zhǔn)。
本文實(shí)驗(yàn)主要采用召回率(R)、精確率(P)、識別性能(F)這3個(gè)評價(jià)指標(biāo),具體如式(1)~式(3)所示:
3.2 結(jié)果對比
3組實(shí)驗(yàn)結(jié)果分別如表3~表5所示。
表3 2種實(shí)驗(yàn)方法的結(jié)果對比%
表4 是否含有并列關(guān)系模板的對比結(jié)果%
表5 本文方法與基于最大熵模型的實(shí)驗(yàn)結(jié)果對比%
表3表明,使用核心句可以顯著地提高評價(jià)搭配的抽取效果,這主要是原始語料中評價(jià)語句的不規(guī)范性導(dǎo)致的。對原始語料進(jìn)行句法依存關(guān)系分析,其結(jié)果的準(zhǔn)確性不是很高,因此,使用語法模板抽取評價(jià)搭配就很難得到理想的結(jié)果。而對原始語句消除冗余,獲得核心句,就會在很大程度上改善這個(gè)問題,從而獲得比較理想的抽取效果。
從表4可以看出,加入并列關(guān)系的語法模板可以提高評價(jià)搭配的抽取效果,當(dāng)評價(jià)語句中含有并列關(guān)系的評價(jià)對象或評價(jià)詞時(shí),只有一對評價(jià)搭配表現(xiàn)為修飾關(guān)系或主謂關(guān)系,此時(shí),用并列關(guān)系的模板就可以抽取其余的評價(jià)配對,提高了抽取的效果。
從表5可以看出,本文方法與文獻(xiàn)[7]方法相比,在召回率上提高了約3%,在準(zhǔn)確率上提前高了約3.2%,從而證明了本文方法的有效性,且具有一定的應(yīng)用價(jià)值。
評價(jià)搭配的抽取是文本情感挖掘的一個(gè)重要研究方向,本文提出一種改進(jìn)的基于核心句的評價(jià)搭配抽取方法。該方法融合了核心句和句法依存關(guān)系,極大地改善中文評價(jià)文本的不規(guī)范性,并在處理復(fù)雜語句時(shí)重點(diǎn)分析評價(jià)對象之間以及情感值之間的并列關(guān)系,提高評價(jià)搭配的抽取效果。實(shí)驗(yàn)結(jié)果也表明該方法的有效性,具有實(shí)際應(yīng)用價(jià)值。但是本文方法也存在不足,對于像“我住的是3棟,不跟前臺一棟房子,很難找。”這類含有潛在評價(jià)搭配的語句無法識別出評價(jià)搭配;對不同類型的語料,具體的模板會有所改變。今后將把評價(jià)語句的語義角色特性引入到評價(jià)搭配的抽取中,同時(shí),將對比較句式的評價(jià)語句進(jìn)行重點(diǎn)探索,進(jìn)一步提高評價(jià)搭配的抽取效果。
致謝:感謝哈爾濱工業(yè)大學(xué)社會計(jì)算與信息檢索研究中心提供的LTP句法分析器。
[1] 許洪波,孫 樂,姚天昉,等.第三屆中文傾向性分析總結(jié)報(bào)告[C]//第三屆中文傾向性分析評測會議論文集.[出版地不詳]:中國中文信息學(xué)會信息檢索專業(yè)委員會,2011:1-24.
[2] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[3] Somprasertsri G,Lalitrojwong P.Mining Feature-opinion in Online Customer Reviews for Opinion Summarization[J].Journal of Universal Computer Science, 2010,16(6):938-955.
[4] Feng Sheng,ZhangMing,ZhangYanxing,etal. RecommendedorNotRecommended?Review ClassificationThroughOpinionExtraction[C]// Proceedings of the12th International Asia-Pacific Web Conference.Washington D.C.,USA:[s.n.],2010: 350-352.
[5] Liu Bing,HuMinqing,ChengJunsheng.Opinion Observer:Analyzing and Comparing Opinions on the Web[C]//Proceedingsofthe14thInternational Conference on World Wide Web.New York,USA: ACM Press,2005:342-351.
[6] 章劍鋒,張 奇,吳立德.中文觀點(diǎn)挖掘中的主觀性關(guān)系抽取[J].中文信息學(xué)報(bào),2008,22(2):55-59.
[7] 方 明,劉培玉.基于最大熵模型的評價(jià)搭配識別[J].計(jì)算機(jī)研究應(yīng)用,2011,28(10):3714-3716.
[8] 樊 娜,蔡皖東,趙 煜.基于最大熵模型的觀點(diǎn)句主觀關(guān)系提取[J].計(jì)算機(jī)工程,2010,36(2):4-6.
[9] 王素格.基于Web的評論文本情感分類問題研究[D].上海:上海大學(xué),2008.
[10] 顧正甲,姚天昉.評價(jià)對象及其傾向性的抽取和判別[J].中文信息學(xué)報(bào),2012,26(4):91-97.
[11] 張 莉,錢玲飛,許 鑫.基于核心句及句法關(guān)系的評價(jià)對象抽取[J].中文信息學(xué)報(bào),2011,25(3):23-29.
[12] 陶新竹,趙 鵬,劉 濤.融合核心句與依存關(guān)系的評價(jià)搭配的抽取[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(1): 118-121.
編輯 劉 冰
An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence
LIU Tao1,2,ZHAO Peng1,2,LIU Huiting1,2,JI Xia1,2
(1.Key Laboratory of Intelligent Computing&Signal Processing,Ministry of Education,Anhui University,Hefei 230039,China; 2.School of Computer Science and Technology,Anhui University,Hefei 230601,China)
The mainstreaming evaluation collocation extroction methods are based on syntactic dependency parsing. Because the grammar of most Chinese evaluation text is not normative,the syntax analysis result is unstable and affects the result of extracting evaluation collocation.To solve this problem,this paper presents an improved method of extracting evaluation collocation based on kernel sentences,which extracts evaluation collocation by combining kernel sentences and syntactic dependency.This method can significantly improve the stability of the syntax analysis result,and it also can add the analysis of the coordinative relationship among the emotional words and among the opinion targets when dealing with complex sentences.Experimental result exhibits that this method can improve the recall rate and accuracy.
kernel sentence;evaluation collocation;syntax template;coordinative relationship;dependency relationship
劉 濤,趙 鵬,劉慧婷,等.一種改進(jìn)的基于核心句的評價(jià)搭配抽取方法[J].計(jì)算機(jī)工程,2015, 41(2):157-160.
英文引用格式:Liu Tao,Zhao Peng,Liu Huiting,et al.An Improved Method of Evaluation Collocation Extraction Based on Kernel Sentence[J].Computer Engineering,2015,41(2):157-160.
1000-3428(2015)02-0157-04
:A
:TP391
10.3969/j.issn.1000-3428.2015.02.030
國家自然科學(xué)基金資助項(xiàng)目(61202227);安徽省自然科學(xué)基金資助項(xiàng)目(1408085MF122);安徽大學(xué)青年骨干教師培養(yǎng)基金資助項(xiàng)目(33010017)。
劉 濤(1985-),男,碩士研究生,主研方向:自然語音處理,文本情感挖掘;趙 鵬、劉慧婷,副教授;紀(jì) 霞,講師、博士。
2014-01-20
:2014-03-16E-mail:zhaopeng_ad@163.com