唐文武,過(guò) 弋,2,徐永斌,方 旭
(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 石河子大學(xué) 信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003)
基于條件隨機(jī)場(chǎng)的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別
唐文武1,過(guò) 弋1,2,徐永斌1,方 旭1
(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 石河子大學(xué) 信息科學(xué)與技術(shù)學(xué)院,新疆 石河子 832003)
在電商網(wǎng)站評(píng)論文本中,評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性的缺省識(shí)別對(duì)文本情感分析具有重要地作用。針對(duì)電商網(wǎng)站評(píng)論文本中評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性缺省問(wèn)題,該文提出了一種基于條件隨機(jī)場(chǎng)的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別方法。首先利用情感詞典識(shí)別觀點(diǎn)句,將缺省項(xiàng)識(shí)別問(wèn)題轉(zhuǎn)換成序列標(biāo)注問(wèn)題,綜合詞法特征和依存句法特征,使用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練,并在測(cè)試集上對(duì)待識(shí)別的觀點(diǎn)句進(jìn)行序列標(biāo)注,通過(guò)標(biāo)注結(jié)果判定缺省項(xiàng)的位置。實(shí)驗(yàn)結(jié)果表明,該方法具有較高的準(zhǔn)確率和召回率,驗(yàn)證了該方法的有效性。
條件隨機(jī)場(chǎng);評(píng)價(jià)對(duì)象;缺省識(shí)別;序列標(biāo)注
隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展以及網(wǎng)絡(luò)應(yīng)用的迅速普及,互聯(lián)網(wǎng)已經(jīng)涉及人們生活中的方方面面,并成為人們直接表達(dá)自己情感的重要平臺(tái)?;ヂ?lián)網(wǎng)信息的爆炸式增長(zhǎng),伴隨著京東、天貓、亞馬遜等電子商務(wù)網(wǎng)站的發(fā)展。大量的評(píng)論是用戶對(duì)商品直接情感的表達(dá)。人們?cè)谠u(píng)論一個(gè)產(chǎn)品時(shí),通常會(huì)使用簡(jiǎn)明的語(yǔ)言去表達(dá)自己的看法。因此,導(dǎo)致了評(píng)論文本口語(yǔ)化、不規(guī)范、缺省現(xiàn)象嚴(yán)重等特點(diǎn)。
中文缺省也稱為中文零指代[1],是指人們?cè)谔囟ǖ恼Z(yǔ)言環(huán)境下,在不影響意思表達(dá)的前提下,為了使語(yǔ)言簡(jiǎn)潔明快,省去句子中的某些語(yǔ)言成分的現(xiàn)象。在情感觀點(diǎn)句中,人們往往會(huì)省略評(píng)價(jià)對(duì)象和評(píng)價(jià)屬性。評(píng)價(jià)對(duì)象是指評(píng)論所針對(duì)的對(duì)象或?qū)ο蟮膶傩浴H纭拔r很新鮮?!?,這句觀點(diǎn)句中,“蝦”作為該觀點(diǎn)句的主語(yǔ),充當(dāng)該評(píng)價(jià)的對(duì)象,“很新鮮”用來(lái)修飾“蝦”作為該評(píng)價(jià)對(duì)象的評(píng)價(jià)短語(yǔ)。
目前,對(duì)評(píng)價(jià)要素的抽取研究工作已經(jīng)取得了一定的成果,但是大多數(shù)的研究工作只能抽取出句子中存在的評(píng)價(jià)對(duì)象和屬性。評(píng)價(jià)對(duì)象的缺省,導(dǎo)致了在進(jìn)行評(píng)價(jià)要素抽取時(shí),常常無(wú)法準(zhǔn)確、全面地抽取出評(píng)價(jià)要素,句子中大量的評(píng)價(jià)詞無(wú)法匹配到評(píng)價(jià)對(duì)象的問(wèn)題。當(dāng)前對(duì)于中文缺省識(shí)別的研究并不多,因此本文主要針對(duì)觀點(diǎn)句中評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別進(jìn)行研究。本文將判定缺省項(xiàng)在句子中的位置問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,綜合詞特征、詞性特征和句法特征對(duì)條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練,最后利用訓(xùn)練后的模型識(shí)別測(cè)試集中缺省項(xiàng)在觀點(diǎn)句中的位置,從而為評(píng)價(jià)對(duì)象缺省項(xiàng)恢復(fù)的工作奠定了基礎(chǔ)。
目前,在零指代識(shí)別問(wèn)題上主要有基于規(guī)則和基于機(jī)器學(xué)習(xí)兩種方法。
基于規(guī)則方面,Yeh和Chen等[2]將規(guī)則方法應(yīng)用到中文零指代消解的零指代項(xiàng)識(shí)別研究中,通過(guò)大量手工標(biāo)注的規(guī)則,并提出了中心理論的方法來(lái)解決中文零指代消解。楊國(guó)慶等[3]參考Yeh等提出的方法,提出缺省三元規(guī)則,以動(dòng)詞驅(qū)動(dòng)為核心提出規(guī)則來(lái)獲得缺省項(xiàng)的結(jié)構(gòu)化信息。Kong等[4]提出一種基于規(guī)則探測(cè)零指代詞的方法,該方法通過(guò)對(duì)一個(gè)句子進(jìn)行完全句法分析,由此獲取覆蓋當(dāng)前預(yù)測(cè)節(jié)點(diǎn)的最小子樹(shù),從而構(gòu)造一定的規(guī)則去判斷句子中的零指代詞。由于基于規(guī)則的方法主要依賴于人工構(gòu)建大量的規(guī)則,將會(huì)耗費(fèi)大量的人力。因此,人們更青睞于使用機(jī)器學(xué)習(xí)的方法去解決零指代問(wèn)題。
Zhao等[5]是第一個(gè)利用機(jī)器學(xué)習(xí)算法解決了零指代詞識(shí)別與零指代詞恢復(fù)的問(wèn)題,為之后的工作提供了基礎(chǔ)。Kong和Zhou[6]在同一個(gè)框架下,提出了基于樹(shù)核函數(shù)的零指代識(shí)別和消解的方法,從結(jié)構(gòu)化信息入手解決零指代識(shí)別問(wèn)題。Song等[7]將零指代識(shí)別和零指代消解兩個(gè)子任務(wù)通過(guò)馬爾科夫邏輯進(jìn)行聯(lián)合,在同一個(gè)機(jī)器學(xué)習(xí)框架下進(jìn)行處理。秦凱偉等[8]實(shí)現(xiàn)了一個(gè)基于機(jī)器學(xué)習(xí)的中文缺省項(xiàng)識(shí)別系統(tǒng),選取多個(gè)特征進(jìn)行組合,利用支持向量機(jī)SVM進(jìn)行缺省項(xiàng)識(shí)別研究。劉慧慧等[9]對(duì)評(píng)價(jià)對(duì)象缺省識(shí)別進(jìn)行了研究,通過(guò)決策樹(shù)算法對(duì)候選缺省項(xiàng)集進(jìn)行二元分類,從而進(jìn)行判定觀點(diǎn)句中是否存在缺省現(xiàn)象。Yang等[10]提出了將零指代詞識(shí)別問(wèn)題轉(zhuǎn)換為打標(biāo)簽問(wèn)題的方法,利用詞法和語(yǔ)法特征,通過(guò)二元分類器為每個(gè)詞打上標(biāo)簽,以此來(lái)識(shí)別句子中是否出現(xiàn)缺省現(xiàn)象。此外,Rao等[11]通過(guò)模型跟蹤對(duì)話中焦點(diǎn)的流動(dòng),對(duì)話語(yǔ)中的零指代問(wèn)題進(jìn)行了研究。Chen等[12]提出了一種無(wú)監(jiān)督的概率模型,通過(guò)顯著性模型來(lái)獲取語(yǔ)篇信息,同時(shí)解決了零指代識(shí)別和恢復(fù)。
在目前利用機(jī)器學(xué)習(xí)進(jìn)行缺省項(xiàng)識(shí)別的研究中,大多數(shù)都將缺省項(xiàng)識(shí)別問(wèn)題轉(zhuǎn)換為二元分類問(wèn)題,利用標(biāo)準(zhǔn)句法信息作為特征,并在標(biāo)準(zhǔn)的句法樹(shù)上獲得了很好的性能,但在自動(dòng)句法樹(shù)上性能并不好。評(píng)價(jià)對(duì)象的缺省破壞了該對(duì)象周圍正常的詞串、詞性和依存關(guān)系搭配序列,因此在真正的應(yīng)用中獲得正確的句法信息是困難的,利用標(biāo)準(zhǔn)的句法樹(shù)上提取的特征訓(xùn)練出的模型應(yīng)用在自動(dòng)的句法樹(shù)上導(dǎo)致性能的下降。由于評(píng)價(jià)對(duì)象在句子序列中出現(xiàn)的位置具有一定的規(guī)律性,其缺省的位置同樣具有一定的規(guī)律性。通過(guò)在自動(dòng)句法樹(shù)上提取特征,并融合詞串、詞性特征,對(duì)存在缺省項(xiàng)的詞序列打上標(biāo)簽,從而可以獲取評(píng)價(jià)對(duì)象缺省的位置。因此,本文提出的方法是將評(píng)價(jià)對(duì)象缺省識(shí)別轉(zhuǎn)換為序列標(biāo)注問(wèn)題,利用依存句法樹(shù)自動(dòng)獲取依存信息作為特征,并結(jié)合詞法特征,利用條件隨機(jī)場(chǎng)模型對(duì)評(píng)價(jià)對(duì)象缺省項(xiàng)位置進(jìn)行識(shí)別。
3.1 缺省項(xiàng)類型
在缺省項(xiàng)類型的分類上,許多文獻(xiàn)都使用了CTB[13]語(yǔ)料中對(duì)缺省項(xiàng)的分類。其分類如表1所示。
表1 CTB中缺省項(xiàng)分類
其中,NONE-*T*、NONE-*PRO*以及NONE-*pro*占的比例最大。根據(jù)以上分類的規(guī)則,以及對(duì)觀點(diǎn)句中缺省項(xiàng)的觀察分析,本文依據(jù)文獻(xiàn)[9]上的分類,將觀點(diǎn)句中評(píng)價(jià)對(duì)象缺省項(xiàng)的類型主要分為以下兩種情況:
(1) 缺省項(xiàng)作為句子的主語(yǔ)或賓語(yǔ)等主要成分
例1 蝦不錯(cuò),很新鮮,第二次買了。
在例1的第二個(gè)子句中,缺省了評(píng)價(jià)短語(yǔ)“很新鮮”的評(píng)價(jià)對(duì)象“蝦”,該詞作為句子的主語(yǔ)。
例2 順豐就是快,其他物流都比不上。
在例2中的第二個(gè)子句中,缺省了評(píng)價(jià)對(duì)象“順豐”,該詞作為句子的賓語(yǔ)。
(2) 缺省項(xiàng)作為非主要成分
例3 阿根廷紅蝦太好吃了,價(jià)格也親民,比白蝦便宜好多。
在例3中的第二個(gè)子句缺省了屬性詞“價(jià)格”的評(píng)價(jià)對(duì)象“阿根廷紅蝦”,第三個(gè)子句中缺省了“白蝦”的評(píng)價(jià)屬性“價(jià)格”。
3.2 缺省項(xiàng)識(shí)別
根據(jù)中心理論[14],主語(yǔ)、謂語(yǔ)和賓語(yǔ)作為句子的主要成分,其中主語(yǔ)是最有可能被指代,其次是賓語(yǔ),最后為其他位置上的詞語(yǔ)。因此,缺省項(xiàng)出現(xiàn)在句子中的各個(gè)位置上的概率具有明顯的差異。通過(guò)機(jī)器學(xué)習(xí)的方法計(jì)算每個(gè)位置上出現(xiàn)缺省的概率,從而得到缺省項(xiàng)最有可能出現(xiàn)的位置。
本文將識(shí)別缺省項(xiàng)在情感句中出現(xiàn)的位置轉(zhuǎn)化為序列標(biāo)注問(wèn)題。通過(guò)對(duì)每個(gè)詞設(shè)定標(biāo)簽,以此判斷該詞之前是否出現(xiàn)缺省項(xiàng),并利用機(jī)器學(xué)習(xí)模型解決序列標(biāo)注的問(wèn)題。本文將序列標(biāo)注問(wèn)題定義為:
定義1X=(x1,x2,…,xn)為長(zhǎng)度為n的觀察序列,對(duì)于給定的觀察序列,輸出對(duì)應(yīng)的標(biāo)簽序列Y=(y1,y2,…,yn),其中yi為xi所對(duì)應(yīng)的序列標(biāo)簽。
在序列標(biāo)注的問(wèn)題上,目前有很多模型得以應(yīng)用,如隱馬爾科夫模型、條件隨機(jī)場(chǎng)、自動(dòng)轉(zhuǎn)換機(jī)、最大熵模型以及支持向量機(jī)SVM等。其中隱馬爾科夫模型、最大熵模型以及條件隨機(jī)場(chǎng)是最常用最基本的三種模型,另外SVMTool也將SVM原理應(yīng)用于序列標(biāo)注的問(wèn)題上。CRFs(條件隨機(jī)場(chǎng))作為一種性能良好的標(biāo)記和切分序列化數(shù)據(jù)的統(tǒng)計(jì)框架,在詞性標(biāo)注、命名實(shí)體識(shí)別、分詞等自然語(yǔ)言領(lǐng)域都有著比較好的應(yīng)用場(chǎng)景。CRFs在序列標(biāo)注問(wèn)題上克服了隱馬爾科夫模型必須具備獨(dú)立性假設(shè)的問(wèn)題,可以容納任意的上下文信息,特征設(shè)計(jì)靈活。而相比于最大熵模型,其標(biāo)記偏置的缺點(diǎn)在CRFs上得到了解決??紤]到上下文信息對(duì)缺省項(xiàng)識(shí)別的影響,以及為了能夠更好得融合多個(gè)特征進(jìn)行推理。因此,本文提出利用CRFs對(duì)情感句中評(píng)價(jià)對(duì)象缺省項(xiàng)的位置進(jìn)行識(shí)別。
在序列標(biāo)注模型上,定義集合X為觀點(diǎn)句中的詞語(yǔ),標(biāo)簽集合為Y={N;P;O};其中,N表示該詞之前存在缺省項(xiàng),且作為句子的主要成分;P表示該詞之前存在缺省項(xiàng),且不作為句子的主要成分;O表示該詞之前不存在缺省項(xiàng)。因此,利用條件隨機(jī)場(chǎng)模型生成只包含N、P和O的序列,則通過(guò)找到標(biāo)記N和P所對(duì)應(yīng)的詞語(yǔ),就可以判斷該詞之前存在缺省項(xiàng)。例如,觀點(diǎn)句“蝦不錯(cuò),很新鮮,價(jià)格便宜?!?,通過(guò)CRFs進(jìn)行標(biāo)注后,對(duì)應(yīng)的標(biāo)注序列為“蝦/O不錯(cuò)/O,很/N新鮮/O,/O價(jià)格/P便宜/O。/O”,由此可知,“很”這個(gè)詞對(duì)應(yīng)的標(biāo)簽為“N”,則該觀點(diǎn)句中評(píng)價(jià)對(duì)象缺省出現(xiàn)在“很”之前。
圖1顯示了利用CRFs識(shí)別評(píng)價(jià)對(duì)象缺省項(xiàng)的整體流程。首先通過(guò)對(duì)評(píng)價(jià)語(yǔ)料進(jìn)行分詞、分句、清洗等預(yù)處理;然后,通過(guò)HowNet情感詞典進(jìn)行觀點(diǎn)句的識(shí)別;接著進(jìn)行特征選擇、選取詞串特征、詞性特征和句法特征作為模型的特征;接著進(jìn)行語(yǔ)料的標(biāo)注,形成訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料;利用訓(xùn)練語(yǔ)料訓(xùn)練模型;最后利用模型進(jìn)行測(cè)試語(yǔ)料的測(cè)試,生成缺省項(xiàng)識(shí)別的結(jié)果。
圖1 基于CRF的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別框架圖
3.3 條件隨機(jī)場(chǎng)模型
條件隨機(jī)場(chǎng)模型CRFs,是由JohnLafferty和AndrewMcCallum[15]在2001年提出的一種判別式的無(wú)向圖模型,是用于切分和標(biāo)記有序數(shù)據(jù)的條件概率模型。CRFs是一種性能良好的標(biāo)記和切分序列化數(shù)據(jù)的統(tǒng)計(jì)框架模型。在詞性標(biāo)注、命名實(shí)體識(shí)別、分詞等自然語(yǔ)言處理領(lǐng)域有著比較好的應(yīng)用場(chǎng)景。它不僅克服了隱馬爾科夫模型必須具備獨(dú)立性假設(shè)和最大熵模型標(biāo)記偏置的缺點(diǎn),而且可以綜合使用包括字、詞以及上下文信息等多種特征,并且允許選擇任意的外部特征,將特征融入到模型中。最后,在實(shí)現(xiàn)特征的全局歸一化后,獲取到全局的最優(yōu)解。本文對(duì)CRF做了如下定義。
定義2 設(shè)G(V,E)為一個(gè)無(wú)向圖,若隨機(jī)變量YV在條件X出現(xiàn)的情況下,其條件概率分布遵循馬爾科夫特性,即滿足式(1)所示。
則稱(X,Y)構(gòu)成了一個(gè)條件隨機(jī)場(chǎng)。其中,V和E分別代表了無(wú)向圖G(V,E)的頂點(diǎn)和邊的集合,而YV則是G的頂點(diǎn)的索引,w~v表示在無(wú)向圖G中w和v相鄰。其模型的定義如下:
定義3 設(shè)X,Y為隨機(jī)變量,X=(x1,x2,…,xn)為長(zhǎng)度為n的待觀測(cè)序列,而Y=(y1,y2,…,yn)為與X長(zhǎng)度相同的狀態(tài)輸出序列。按照CRFs的原理,其狀態(tài)輸出序列可以表示為式(2)。
其中,
3.4 特征選擇和語(yǔ)料標(biāo)注
在進(jìn)行缺省項(xiàng)識(shí)別的特征選擇時(shí),不僅需要考慮詞本身的特征,句子的結(jié)構(gòu)特征也對(duì)缺省項(xiàng)的識(shí)別具有很大的影響。在大多數(shù)的研究中,都采用了語(yǔ)料中已經(jīng)標(biāo)注的正確句法信息作為特征,但在真正的應(yīng)用中獲得正確的句法信息是困難的。因此本文采用了詞法特征及依存句法特征,如表2所示。
表2 特征說(shuō)明
(1) 詞法特征
不同位置上的缺省項(xiàng),其前后詞語(yǔ)的詞串和詞性也不同。由于不同位置上發(fā)生缺省的概率不同,因此不同詞性的詞串其前后存在缺省項(xiàng)的概率也不相同。例如,一個(gè)句子的第一個(gè)詞為動(dòng)詞,該詞前存在缺省項(xiàng)的概率比名詞或者代詞來(lái)的大;在“她/r說(shuō)/v很/d干凈/a”和“她/r說(shuō)/v蝦米/n很/d干凈/a”這兩句評(píng)價(jià)句的對(duì)比中可以看出,副詞前一個(gè)詞為動(dòng)詞與副詞前一個(gè)詞為名詞兩種情況相比,前者在副詞前更有可能存在缺省項(xiàng)。由此可知,評(píng)價(jià)對(duì)象的缺省破壞了正常的詞性和詞串搭配,從而存在非正常的詞性和詞串搭配的位置更容易出現(xiàn)缺省項(xiàng)。因此本文使用詞法特征作為判定缺省項(xiàng)位置的特征。
(2) 依存句法特征
僅僅用詞法特征進(jìn)行缺省項(xiàng)的判定是不夠的,無(wú)法利用缺省項(xiàng)的上下文關(guān)系。中文句子中成分的排列具有一定的規(guī)律性,例如,不存在主謂關(guān)系,卻存在動(dòng)賓關(guān)系的句子其謂語(yǔ)之前很有可能存在缺省項(xiàng)。因此本文也使用了依存句法關(guān)系特征以此來(lái)表征詞語(yǔ)之間的關(guān)系。
在圖2中“很”與“新鮮”存在狀中結(jié)構(gòu)(ADV),且“很”作為從屬詞(箭尾)?!靶迈r”與根節(jié)點(diǎn)存在HED關(guān)系。從圖2和圖3的對(duì)比可以看出,存在狀中關(guān)系的“很”之前存在缺省評(píng)價(jià)對(duì)象“蝦”。
圖2 評(píng)價(jià)對(duì)象缺省的句子依存關(guān)系
圖3 完整的句子依存關(guān)系
在語(yǔ)料的標(biāo)注上,本文使用3-tag標(biāo)注法。標(biāo)簽N表示當(dāng)前詞之前存在缺省項(xiàng),且缺省項(xiàng)作為句子主要成分;標(biāo)簽P表示當(dāng)前詞之前存在缺省項(xiàng),且缺省項(xiàng)不作為句子主要成分;標(biāo)簽O表示當(dāng)前詞之前不存在缺省項(xiàng)。在特征標(biāo)注上,本文使用哈爾濱工業(yè)大學(xué)的自然語(yǔ)言處理工具LTP,通過(guò)對(duì)情感句進(jìn)行切詞、詞性標(biāo)注、依存句法分析等對(duì)特征進(jìn)行標(biāo)注。其中,對(duì)于每個(gè)詞的句法特征,標(biāo)記為該詞作為從屬詞時(shí)其對(duì)應(yīng)的句法依存關(guān)系。訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料的標(biāo)注樣例如表3所示。
在表3中語(yǔ)料的標(biāo)注樣例中,“很”標(biāo)注為N,表示其之前存在缺省項(xiàng),且作為句子的主要成分,在例句中為缺少主語(yǔ)。“價(jià)格”標(biāo)注為P,表示該詞之前存在缺省項(xiàng),且不作為句子的主要成分,在例句中缺省了評(píng)價(jià)對(duì)象“蝦”。
表3 CRF語(yǔ)料標(biāo)注樣例
利用訓(xùn)練數(shù)據(jù)訓(xùn)練之后得到的CRFs模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,將會(huì)對(duì)每個(gè)詞串進(jìn)行標(biāo)注,通過(guò)標(biāo)注的標(biāo)簽得到測(cè)試數(shù)據(jù)中缺省項(xiàng)的位置。測(cè)試結(jié)果樣例如表4所示。
表4 CRFs測(cè)試結(jié)果樣例
從表4的結(jié)果樣例中可以看出,在“濕度”之前存在缺省項(xiàng),應(yīng)該為“蝦的濕度”,缺省了“蝦”,且不作為句子的主要成分;在“要”之前同樣存在缺省項(xiàng),缺省了比較對(duì)象“描述的濕度”,且作為句子的主要成分。
4.1 數(shù)據(jù)集
本文所使用的數(shù)據(jù)集是從天貓網(wǎng)站上采集的關(guān)于蝦類商品的評(píng)論數(shù)據(jù),抽取了其中1 980條評(píng)論信息作為本文的語(yǔ)料。通過(guò)清洗、分句等預(yù)處理,最后得到3 366條子句。在情感觀點(diǎn)句的識(shí)別中,本文使用HowNet情感詞典進(jìn)行情感句的判斷,由于考慮到詞典中的詞語(yǔ)由于詞性的不同會(huì)導(dǎo)致情感傾向性的差異,因此在詞典中加入詞性信息使得情感句的判斷更加準(zhǔn)確,共識(shí)別出2 539條觀點(diǎn)句。在實(shí)驗(yàn)語(yǔ)料的標(biāo)注上,本文采用人工標(biāo)注的方法。語(yǔ)料中評(píng)價(jià)對(duì)象的缺省項(xiàng)位置的標(biāo)注均由兩名標(biāo)注者進(jìn)行手工標(biāo)注,其標(biāo)注結(jié)果的一致性大于0.8,具有一定的可信度。對(duì)于語(yǔ)料中兩人標(biāo)注不一致的部分,則交由第三人進(jìn)行標(biāo)注。語(yǔ)料中評(píng)價(jià)對(duì)象缺省項(xiàng)類型統(tǒng)計(jì)結(jié)果如表5所示。
表5 缺省項(xiàng)類型統(tǒng)計(jì)結(jié)果
從表5可以看出,包含作為句子主要成分的評(píng)價(jià)對(duì)象缺省項(xiàng)類型的句子占所有句子總數(shù)的56.40%;包含不作為句子主要成分的評(píng)價(jià)對(duì)象缺省項(xiàng)類型的句子占所有句子總數(shù)的11.58%。因此,評(píng)價(jià)對(duì)象缺省項(xiàng)在本文的語(yǔ)料中占有67.98%的比例。
4.2 實(shí)驗(yàn)結(jié)果與分析
4.2.1 自然語(yǔ)言處理工具測(cè)試結(jié)果對(duì)比
本文的方法中綜合了詞串、詞性和依存關(guān)系作為CRF模型的特征。在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的生成過(guò)程中,需要利用自然語(yǔ)言處理工具對(duì)數(shù)據(jù)進(jìn)行處理。分詞效果的好壞直接影響了詞性和依存關(guān)系的判斷。因此,為了選擇合適的自然語(yǔ)言處理工具處理本文的短文本數(shù)據(jù)集,本文對(duì)LTP、HANLP、FNLP三種自然語(yǔ)言處理工具進(jìn)行了分詞測(cè)試實(shí)驗(yàn)。本文隨機(jī)抽取了1 000條句子分別利用三種自然語(yǔ)言處理工具進(jìn)行了測(cè)試,并通過(guò)人工校驗(yàn)的方法對(duì)測(cè)試結(jié)果進(jìn)行評(píng)價(jià)。測(cè)試結(jié)果見(jiàn)表6。
表6 自然語(yǔ)言處理工具分詞實(shí)驗(yàn)結(jié)果
從表6中的實(shí)驗(yàn)結(jié)果可以看出,F(xiàn)NLP相對(duì)于其他兩種自然語(yǔ)言處理工具的分詞結(jié)果,正確率較低,為88.02%。其主要的錯(cuò)誤在于對(duì)名詞與形容詞組合的短語(yǔ)往往無(wú)法進(jìn)行正確的切分。例如,評(píng)價(jià)短語(yǔ)“質(zhì)量好”中,“質(zhì)量好”無(wú)法被正確切分出“質(zhì)量”和“好”兩個(gè)詞。由于評(píng)論短文本中會(huì)出現(xiàn)大量類似的短語(yǔ),因此FNLP不適合處理本文的數(shù)據(jù)。
HANLP的分詞正確率為90.66%,其錯(cuò)誤的最大比例在歧義的處理上。例如,“活動(dòng)價(jià)”則會(huì)被切分為“活動(dòng)”和“價(jià)”,“快遞員”則被切分為“快遞”和“員”,“嘗過(guò)后”會(huì)被切分為“嘗”和“過(guò)后”等。LTP的分詞結(jié)果最好,正確率為94.35%,較少出現(xiàn)上述兩種工具的分詞問(wèn)題。因此在對(duì)評(píng)價(jià)數(shù)據(jù)進(jìn)行處理時(shí),本文采用了LTP自然語(yǔ)言處理工具進(jìn)行處理。
4.2.2 評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別實(shí)驗(yàn)
本實(shí)驗(yàn)對(duì)于測(cè)試本文提出的方法的性能,主要采用了準(zhǔn)確率P、召回率R和F值三種指標(biāo),其計(jì)算方法如下:
正確率P
本實(shí)驗(yàn)將2 539條觀點(diǎn)句中,取出2 072條觀點(diǎn)句作為訓(xùn)練語(yǔ)料,467條觀點(diǎn)句作為測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn)。訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料的特征標(biāo)注上使用了哈工大自然語(yǔ)言處理工具LTP進(jìn)行處理,形成訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。使用CRF++0.53工具進(jìn)行CRFs模型的訓(xùn)練以及測(cè)試。本文使用文獻(xiàn)[9]提出的利用規(guī)則找出候選缺省項(xiàng),再綜合詞法和句法特征利用決策樹(shù)算法進(jìn)行對(duì)候選缺省項(xiàng)判斷的方法作為本文的Baseline。另外,對(duì)不同的特征組合進(jìn)行了實(shí)驗(yàn),包括詞串特征+詞性特征、詞串特征+依存語(yǔ)法特征、詞串特征+詞性特征+依存句法特征來(lái)說(shuō)明特征組合對(duì)實(shí)驗(yàn)結(jié)果的影響。最終的實(shí)驗(yàn)結(jié)果見(jiàn)表7。
從表7中可以看出,本文提出的方法相比于Baseline中的方法在本文語(yǔ)料的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別上具有明顯的提高,正確率、召回率和F值分別為86.03%、69.44%和76.85%。同時(shí),從特征組合對(duì)比實(shí)驗(yàn)中可以看出,綜合了詞法特征和句法特征后,相比于詞串+詞性特征和詞串+句法特征的組合得到的效果更好,也驗(yàn)證了該方法的有效性。另外由于句子成分缺省的影響,導(dǎo)致在進(jìn)行分詞、詞性標(biāo)注和依存句法分析時(shí)會(huì)發(fā)生錯(cuò)誤,這些錯(cuò)誤也直接導(dǎo)致了方法性能上的下降。
表7 評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別實(shí)驗(yàn)結(jié)果
此外,本文還對(duì)香蕉商品的評(píng)論數(shù)據(jù)進(jìn)行了處理。同樣隨機(jī)抽取了2 539條觀點(diǎn)句進(jìn)行了實(shí)驗(yàn),其中2 072條作為訓(xùn)練語(yǔ)料,467條作為測(cè)試語(yǔ)料,并通過(guò)同樣的處理,最后的實(shí)驗(yàn)結(jié)果如表8所示。
表8 蝦類和香蕉評(píng)論實(shí)驗(yàn)結(jié)果
表8的實(shí)驗(yàn)結(jié)果可以說(shuō)明,本文提出的方法在蝦類和香蕉評(píng)論數(shù)據(jù)的處理上都具有較好的性能。香蕉數(shù)據(jù)的實(shí)驗(yàn)結(jié)果在準(zhǔn)確率上比蝦類數(shù)據(jù)較低,但其召回率和F值都相對(duì)較高。由此也證明了該方法的通用性。
本文提出了一種基于條件隨機(jī)場(chǎng)模型的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別方法。首先通過(guò)HowNet情感詞典加入詞性信息提高觀點(diǎn)句識(shí)別的準(zhǔn)確性,并將識(shí)別評(píng)價(jià)對(duì)象缺省項(xiàng)位置的問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,判斷觀點(diǎn)句中每個(gè)詞之前是否存在缺省項(xiàng),并結(jié)合了詞法特征和句法特征,利用條件隨機(jī)場(chǎng)模型進(jìn)行標(biāo)注。最后經(jīng)過(guò)實(shí)驗(yàn)對(duì)方法性能進(jìn)行測(cè)試,準(zhǔn)確率達(dá)到了86.03%,驗(yàn)證了此方法的有效性與準(zhǔn)確性。
在以后的研究中考慮擴(kuò)展出更多的特征對(duì)性能進(jìn)行改進(jìn)。另外,由于商品評(píng)論的簡(jiǎn)短、口語(yǔ)化、不規(guī)范、缺省現(xiàn)象嚴(yán)重等特點(diǎn),對(duì)商品評(píng)論對(duì)象恢復(fù)工作增加了困難。在以后的研究工作中,利用識(shí)別評(píng)價(jià)對(duì)象缺省項(xiàng)的位置幫助進(jìn)行評(píng)價(jià)對(duì)象缺省恢復(fù),以此來(lái)提高電商評(píng)論情感分析的性能的研究將成為重點(diǎn)。
[1] 秦凱偉, 孔芳, 李培峰, 等. 基于規(guī)則的中文零指代項(xiàng)識(shí)別研究[J]. 計(jì)算機(jī)科學(xué), 2012, 39(10): 278-281.
[2] Yeh C L, Chen Y C. Zero Anaphora Resolution in Chinese with Shallow Parsing[J]. Journal of Chinese Language and Computing, 2007, 17(1): 41-56.
[3] 楊國(guó)慶, 孔芳, 朱巧明, 等. 基于規(guī)則的中文缺省識(shí)別研究[J]. 計(jì)算機(jī)科學(xué), 2011, 38(12): 255-257.
[4] Qin K, Kong F, Li P, et al. Chinese zero anaphor detection: rule-based approach[M].Knowledge Engineering and Management. Springer Berlin Heidelberg, 2011: 403-407.
[5] Zhao S, Ng H T. Identification and Resolution of Chinese Zero Pronouns: A Machine Learning Approach[C]//Proceedings of the EMNLP-CoNLL. 2007, 2007: 541-550.
[6] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero anaphora resolution[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 882-891.
[7] SongYang, Wang Houfeng. Chinese Zero Anaphora Resolution with Markov Logic[J]. Journal of Computer Research and Development, 2015, 52(9): 2114-2122.
[8] 秦凱偉, 孔芳, 李培峰, 等. 用于中文缺省識(shí)別研究的機(jī)器學(xué)習(xí)方法[J]. Computer Engineering, 2012, 38(22): 130-132.
[9] 劉慧慧, 王素格, 趙策力. 觀點(diǎn)句中評(píng)價(jià)對(duì)象/屬性的缺省項(xiàng)識(shí)別方法研究[J]. 中文信息學(xué)報(bào), 2014, 28(6): 175-182.
[10] Yang Y,Xue N. Chasing the ghost: recovering empty categories in the Chinese Treebank[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 1382-1390.
[11] Rao S,Ettinger A, Hal Daumé I I I, et al. Dialogue focus tracking for zero pronoun resolution[C]//Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). 2015: 494-502.
[12] Chen C, Ng V. Chinese Zero Pronoun Resolution: A Joint Unsupervised Discourse-Aware Model Rivaling State-of-the-Art Resolvers[C]//Proceedings of the Meeting of the Association for Computational Linguistics, 2015.
[13] Nianwen X, Xia F. The bracketing Guidelines for the Penn Chinese Treebank Project[R].Technical Reqort IRCS 00-08,University of Pennsylvania, 2000.
[14] Yeh C L, Chen Y J. An Empirical Study of Zero Anaphora Resolution in Chinese Based on Centering Model[C]//Proceedings of the ROCLING. 2001.
[15] Lafferty J,Mccallum A, Pereira F, et al. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the International Conference on Machine Learning, 2001.
The Default Comment Object Identification Based on Condition Random Fields
TANG Wenwu1, GUO Yi1,2, XU Yongbin1, FANG Xu1
(1. Department of Computer Science and Engineering, East China University of Science and Technology, Shanghai 200237, China;2. School of Information Science and Technology, Shihezi University, Shihezi,Xinjiang 832003, China)
The identification of the default objects and attributes in a comment is important in sentiment analysis for the commerce website’s reviews. To resolve the default comment objects and attributes, this paper proposes an effective identification method based on Conditional Random Fields (CRF). After applying an emotion dictionary to locate the opinion comments, we treat this task as a sequence labeling problem, and choose the lexical and dependency parsing elements as features. The evaluation results prove the proposed method with reasonable good accuracy and recall rates.
Conditional Random Fields(CRFs); comment object; the default resolution; sequence labeling
唐文武(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、情感計(jì)算。E-mail:tangww10101458@163.com過(guò)弋(1975—),通信作者,教授,博士,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、智能信息處理、本體工程。E-mail:yguo1110@ecust.edu.cn徐永斌(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。Email:xyb0723@sina.cn
1003-0077(2016)06-0208-07
2016-09-27 定稿日期: 2016-10-15
國(guó)家自然科學(xué)基金(61462073)
TP391
A