李明峰 賈修一
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
隨著互聯(lián)網(wǎng)的快速發(fā)展,微博在社會(huì)生活中也扮演著越來(lái)越重要的角色。大量的微博數(shù)據(jù)具有巨大的潛在價(jià)值,對(duì)微博數(shù)據(jù)進(jìn)行挖掘、整理和分析有著重要的意義。微博情感分析是微博數(shù)據(jù)挖掘和分析的一項(xiàng)重要的基礎(chǔ)任務(wù),在輿論監(jiān)測(cè)、社會(huì)調(diào)查、市場(chǎng)營(yíng)銷、決策支持有著重要的意義。
近年來(lái)學(xué)者們開始關(guān)注一些特殊的修辭手法在社交媒體文本中的應(yīng)用,如諷刺、反語(yǔ)、幽默等。一些特殊的修辭手法的運(yùn)用往往會(huì)對(duì)微博情感分析的結(jié)果帶來(lái)一些錯(cuò)誤和偏差,從而出現(xiàn)一些新的挑戰(zhàn)。反語(yǔ)修辭在微博文本中的應(yīng)用就是一個(gè)典型的例子。反語(yǔ)是一種常見的修辭手法,它是一種非字面的表達(dá)方式,語(yǔ)句表達(dá)的真實(shí)觀點(diǎn)或情感傾向會(huì)與字面上的相反,例如“結(jié)婚紀(jì)念日買到了假貨,真是一個(gè)美好的紀(jì)念”,僅僅從字面上理解該語(yǔ)句可能會(huì)被認(rèn)為是表達(dá)積極情感傾向的語(yǔ)句,但是該語(yǔ)句真正要表達(dá)的是一種無(wú)奈和嘲諷的消極情感傾向。如何自動(dòng)識(shí)別反語(yǔ)語(yǔ)句開始變成了自然語(yǔ)言處理領(lǐng)域的一項(xiàng)挑戰(zhàn)。
反語(yǔ)作為一種修辭現(xiàn)象,長(zhǎng)久以來(lái)一直備受語(yǔ)言學(xué)家、心理學(xué)家、認(rèn)知學(xué)家的廣泛關(guān)注[1~5]。隨著自然語(yǔ)言處理領(lǐng)域的發(fā)展,尤其是隨著觀點(diǎn)挖掘和情感分類技術(shù)持續(xù)深入的研究,自然語(yǔ)言領(lǐng)域的學(xué)者們也開始注意到非字面表達(dá)這種語(yǔ)言現(xiàn)象,對(duì)反語(yǔ)的自動(dòng)識(shí)別技術(shù)開始愈加受重視。
在語(yǔ)言和心理學(xué)領(lǐng)域。Gibbs等從心理學(xué)角度解釋反語(yǔ)在口語(yǔ)中的形成和應(yīng)用[2]。Utsumi從語(yǔ)言學(xué)角度分析了反語(yǔ)的本質(zhì),定義了反語(yǔ)的三大要素,提出了一個(gè)統(tǒng)一識(shí)別反語(yǔ)的計(jì)算模型[3]。在中文方面,劉正光通過對(duì)研究反語(yǔ)在對(duì)話中的產(chǎn)生條件和過程,從語(yǔ)言學(xué)和心理學(xué)的角度解釋反語(yǔ)的本質(zhì)[4]。Li對(duì)漢語(yǔ)和英語(yǔ)在反語(yǔ)使用上的差異進(jìn)行了比較分析[5]。
在自然語(yǔ)言處理領(lǐng)域,我們語(yǔ)料庫(kù)構(gòu)建、特征選擇、分類算法三個(gè)角度介紹研究現(xiàn)狀。Filatova使用眾包策略從在線群體中獲得語(yǔ)句來(lái)構(gòu)造反語(yǔ)語(yǔ)料庫(kù)[6]。Veale和Hao通過搜索引擎獲得含有諷刺意味的比喻句[7]。Davidov使用Mechanical Turk service獲取推特推文和亞馬遜評(píng)論然后使用#sarcasm標(biāo)簽來(lái)篩選語(yǔ)句從而構(gòu)造反語(yǔ)語(yǔ)料庫(kù)[8~9]。González-Ibá?ez同樣使用標(biāo)簽從推特中獲取反語(yǔ)[10]。Reyes等利用用戶標(biāo)簽#irony來(lái)選擇反語(yǔ)構(gòu)造語(yǔ)料庫(kù)[11~13]。Tang等通過人工標(biāo)注的方式構(gòu)造了一個(gè)1000條語(yǔ)句級(jí)別的漢語(yǔ)微博反語(yǔ)語(yǔ)料庫(kù)[14]。人工標(biāo)注相對(duì)于使用標(biāo)簽進(jìn)行篩選更具有準(zhǔn)確性,但是會(huì)面臨語(yǔ)料庫(kù)樣本數(shù)量上的劣勢(shì),但在準(zhǔn)確性上有優(yōu)勢(shì)。
在特征選擇方面 González-Ibá?ez利用情感字典、@user、表情符進(jìn)行特征提?。?0],在實(shí)際應(yīng)用中這種簡(jiǎn)單特征往往面臨不足。Reyes等從不同角度研究了電商評(píng)論和社交媒體中的反語(yǔ)識(shí)別工作,構(gòu)建了包含n元文法、POS的n元文法、滑稽程度、詞匯褒貶程度、情感復(fù)雜度和歡樂程度等抽象復(fù)雜的特征體系[11~13]。Burfoot等針對(duì)新聞?wù)Z料,在基本詞袋特征基礎(chǔ)上討論了標(biāo)題臟話和俚語(yǔ)等特征[15]。Vanin和Barbieri分別提出了葡萄牙文和意大利文的特征構(gòu)造方法[16~17]。Carvalho 等提出了用戶評(píng)論中反語(yǔ)識(shí)別的一些線索[18],Katz和Li等提出了一些語(yǔ)法結(jié)構(gòu)上的線索[19~20]。
在分類算法方面 González-Ibá?ez等使用支持向量機(jī)和邏輯斯蒂回歸兩種經(jīng)典的分類算法識(shí)別反語(yǔ),發(fā)現(xiàn)支持向量機(jī)算法表現(xiàn)普遍好于邏輯斯蒂回歸[10]。Reyes等使用了樸素貝葉斯、支持向量機(jī)和決策樹三種經(jīng)典算法識(shí)別反語(yǔ),研究了三種分類在不同數(shù)據(jù)集上識(shí)別反語(yǔ)的性能[11~13]。Tsur等提出了一種基于模式匹配的半監(jiān)督學(xué)習(xí)方法識(shí)別反語(yǔ)[8]。
當(dāng)前在計(jì)算機(jī)領(lǐng)域反語(yǔ)自動(dòng)識(shí)別方面的研究相對(duì)較少,缺乏整體性和系統(tǒng)性,中文反語(yǔ)自動(dòng)識(shí)別方面的研究更甚。目前反語(yǔ)的自動(dòng)識(shí)別技術(shù)主要集中在機(jī)器學(xué)習(xí)的方法上,主要挑戰(zhàn)在于如何構(gòu)造完備的語(yǔ)料庫(kù)和如何找到有效的特征。本文的目標(biāo)在于提高反語(yǔ)識(shí)別準(zhǔn)確性,同時(shí)減小反語(yǔ)自動(dòng)識(shí)別技術(shù)對(duì)語(yǔ)料庫(kù)的依賴,提高技術(shù)的普遍適應(yīng)性。
首先我們使用基于詞性篩選的改進(jìn)型一元文法特征,通過不同的特征加權(quán)方法和不同的分類算法對(duì)一元文法在反語(yǔ)識(shí)別的效果進(jìn)行研究。為了減少語(yǔ)料庫(kù)規(guī)模對(duì)反語(yǔ)識(shí)別的影響,我們提出了一種高抽象層次的特征體系。最后我們通過多分類器集成學(xué)習(xí)的方法,使反語(yǔ)識(shí)別的綜合效果達(dá)到最佳。
圖1 反語(yǔ)識(shí)別的一般流程
首先進(jìn)行數(shù)據(jù)的獲取,然后進(jìn)行文本預(yù)處理,利用選擇的特征對(duì)文本進(jìn)行特征提取將文本轉(zhuǎn)換為特征向量,對(duì)特征向量進(jìn)行特征篩選,提高空間效率,最后選擇分類算法訓(xùn)練測(cè)試。
不同的詞性在反語(yǔ)中的重要程度往往會(huì)有很大的不同,動(dòng)詞、形容詞、副詞往往會(huì)比介詞、時(shí)間詞、人物名詞、地點(diǎn)名詞等在反語(yǔ)識(shí)別中更重要,因此我們的改進(jìn)策略便是根據(jù)詞性的不同進(jìn)行早期特征篩選。
與傳統(tǒng)的一元文法不同,我們?cè)谖谋绢A(yù)處理后根據(jù)文本分詞和詞性標(biāo)注的結(jié)果,依照中科院計(jì)算所的漢語(yǔ)詞性標(biāo)記集,進(jìn)行基于詞性標(biāo)記的特征篩選,具體的步驟如下:1)將名詞中的人名、地名、機(jī)構(gòu)團(tuán)體名、其它專名、名詞性慣用語(yǔ)、名詞性語(yǔ)素都刪除,然后將剩余的名詞保留;2)將所有的動(dòng)詞都保留;3)將所有的形容詞都保留;4)將所有的副詞都保留;5)將所有的連詞都保留;6)保留所有的嘆詞;7)將其他所有的詞都刪除。將上面的詞語(yǔ)進(jìn)行整理,作為一元文法的特征詞,然后利用特征詞進(jìn)行特征提取,得到特征向量,選擇分類算法進(jìn)行訓(xùn)練和測(cè)試。
1)詞性特征
前文中提到在反語(yǔ)識(shí)別任務(wù)中不同的詞性有著不同的重要程度,我們定義詞性特征為重要詞性的詞語(yǔ)在句子中所占比重。
首先統(tǒng)計(jì)名詞在句子中所占的比重,在這里需要對(duì)名詞進(jìn)行一部份篩選。在對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注后,將名詞中的人名、地名、機(jī)構(gòu)團(tuán)體名、其它專名、名詞性慣用語(yǔ)、名詞性語(yǔ)素都不考慮,只統(tǒng)計(jì)剩余的名詞在句子中所占的比率。然后統(tǒng)計(jì)動(dòng)詞、形容詞、副詞、連詞、嘆詞在句子中所占的比重。
由于反語(yǔ)語(yǔ)句一般都有強(qiáng)烈的傾向性,這種傾向性往往可以表現(xiàn)在上面所提到的詞性在句子詞語(yǔ)比重上的增加。詞性特征作為輔助性特征,有助于提高反語(yǔ)識(shí)別的準(zhǔn)確率,但關(guān)鍵特征是情感矛盾度,因?yàn)榍楦忻芏葟哪骋环矫娣从沉朔凑Z(yǔ)形成的基本規(guī)律。
2)情感矛盾度特征
情感矛盾度特征的提取需要借助情感字典和情感分析工具。情感矛盾度用來(lái)度量微博文本字面情感和潛在的真實(shí)情感之間的矛盾。我們定義了兩種層次的情感矛盾度:句子級(jí)、分句級(jí),下面將分別介紹這些級(jí)別的情感矛盾度。
計(jì)算句子級(jí)情感矛盾度時(shí),首先將微博文本拆分為句子,分析每個(gè)句子的情感極性,統(tǒng)計(jì)不同情感極性的句子的個(gè)數(shù)和整個(gè)句子的個(gè)數(shù)。
在計(jì)算句子的情感極性時(shí),采用了商用的情感分析工具BosonNLP。BosonNLP情感引擎提供行業(yè)領(lǐng)先的篇章級(jí)情感分析。它基于上百萬(wàn)條社交網(wǎng)絡(luò)平衡語(yǔ)料和數(shù)十萬(wàn)條新聞平衡語(yǔ)料的機(jī)器學(xué)習(xí)模型,結(jié)合自主開發(fā)的半監(jiān)督學(xué)習(xí)技術(shù),正負(fù)面情感分析準(zhǔn)確度達(dá)到80%~85%。它的覆蓋范圍比較廣泛,在微博情感分析領(lǐng)域有著較好的效果。它能夠?qū)渥印⒒蚨陶Z(yǔ)的情感極性進(jìn)行判斷,輸出的結(jié)果是正面情感和負(fù)面情感的概率。
在利用BosonNLP進(jìn)行情感分析時(shí),由于輸出的結(jié)果為正面情感和負(fù)面情感的概率,兩者概率之和為1。當(dāng)正面情感概率大于0.8時(shí)我們將句子判定為正面情感,當(dāng)正面情感概率在0.6和0.8之間時(shí)將句子判定為疑似正面情感,當(dāng)正面情感概率在0.4到0.6之間時(shí)將句子判定為情感難以確定,當(dāng)負(fù)面情感概率大于0.8時(shí)將句子判定為負(fù)面情感,當(dāng)負(fù)面情感概率在0.6和0.8之間時(shí)判定句子為疑似負(fù)面情感。
利用BosonNLP完成情感分析后,還可以利用BosonNLP提供的情感字典對(duì)句子的核心詞匯進(jìn)行情感計(jì)算。利用StanfordNLP平臺(tái)下的lex-parser句法分析工具,分析出句子的依存關(guān)系,找出句子的核心動(dòng)詞,并且根據(jù)核心詞找出修飾核心動(dòng)詞的詞語(yǔ),我們將核心動(dòng)詞和修飾核心動(dòng)詞的詞語(yǔ)稱為核心詞匯。根據(jù)情感字典計(jì)算出核心詞匯的情感極性,將核心詞匯的情感分為3類:正類、負(fù)類、中立類。統(tǒng)計(jì)微博文本中句子的核心詞匯情感為正面負(fù)面或中立的個(gè)數(shù)。
由于很多微博文本往往只有單獨(dú)的一個(gè)句子,因此還需要計(jì)算分句級(jí)情感矛盾度。首先將微博文本劃分為單個(gè)的句子,然后將句子劃分為分句,分析和統(tǒng)計(jì)分句的情感極性。同樣我們可以利用BosonNLP來(lái)計(jì)算分句的情感極性,利用句法分析工具和情感字典計(jì)算分句的核心詞匯情感極性,并進(jìn)行統(tǒng)計(jì)。
上文中分別介紹了改進(jìn)的一元文法特征和高抽象層次的特征,利用兩種特征分別進(jìn)行特征提取,然后對(duì)一元文法特征提取之后的特征向量進(jìn)行特征篩。采用不同的分類算法,對(duì)經(jīng)過特征篩選的一元文法特征向量和高抽象層次特征的特征向量分別進(jìn)行訓(xùn)練和測(cè)試。最后我們可以利用上面得到的多個(gè)分類器進(jìn)行投票決策。
圖2 多分類器集成學(xué)習(xí)結(jié)構(gòu)
語(yǔ)料庫(kù)通過兩種特征選擇不同的分類算法后得到多個(gè)分類器,利用多個(gè)分類器進(jìn)行投票決策。
介紹完了多分類器集成學(xué)習(xí)的策略后我們通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。
在實(shí)驗(yàn)中我們從封閉測(cè)試的分類效果和在不同訓(xùn)練語(yǔ)料規(guī)模下的分類效果這兩個(gè)方面來(lái)驗(yàn)證方法的反語(yǔ)識(shí)別效果。
本文使用的反語(yǔ)語(yǔ)料是臺(tái)灣國(guó)立大學(xué)Tang等標(biāo)注的1005條反語(yǔ)語(yǔ)料,這些反語(yǔ)文本經(jīng)過整理后已經(jīng)去除了垃圾信息,非反語(yǔ)使用的是從COAE2014測(cè)試語(yǔ)料中進(jìn)行篩選。由于反語(yǔ)語(yǔ)料中大量的語(yǔ)句含有“很好”“可以”“再”等詞,為了平衡這些詞語(yǔ)的影響,我們的非反語(yǔ)就從COAE2014中抽取的包含“很好”“可以”“再”等詞的語(yǔ)句,然后進(jìn)行人工標(biāo)注,從中選出2000條語(yǔ)句構(gòu)成非反語(yǔ)語(yǔ)料。非反語(yǔ)預(yù)料中含有微博文本中常見的垃圾信息,如URL、@User、轉(zhuǎn)發(fā)微博、廣告等,因此需要對(duì)這些文本進(jìn)行垃圾信息過濾。
分詞標(biāo)注我們采用的是ICTCLAS,它支持用戶開發(fā)接口。首先過濾掉上面所提到的垃圾信息,然后通過將句子進(jìn)行分詞和詞性標(biāo)注將句子分割成了詞語(yǔ)的組合,得到每個(gè)詞語(yǔ)的詞性。完成了句子的垃圾信息過濾、分詞、標(biāo)注后,可以通過對(duì)分詞標(biāo)注后的句子進(jìn)行后續(xù)的工作。
由于一元文法是在語(yǔ)料庫(kù)的基礎(chǔ)上進(jìn)行分詞,然后根據(jù)分詞的結(jié)果,利用選出的特征詞進(jìn)行特征向量的提取,如果首先在整個(gè)語(yǔ)料庫(kù)上進(jìn)行文本預(yù)處理和特征向量的提取,然后再劃分訓(xùn)練集和測(cè)試集,這會(huì)導(dǎo)致測(cè)試集中的詞語(yǔ)也作為了特征詞的參與了模型的訓(xùn)練,這與現(xiàn)實(shí)情況不符,因此我們需要先在整個(gè)語(yǔ)料庫(kù)的基礎(chǔ)上劃分訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。高抽象層次的特征則不會(huì)出現(xiàn)這類問題,因此我們可以在整個(gè)語(yǔ)料庫(kù)上進(jìn)行高抽象特征的特征向量的提取,然后劃分測(cè)試集和訓(xùn)練集。
1)實(shí)驗(yàn)設(shè)置
對(duì)于一元文法特征,首先選取1000條反語(yǔ)樣本、2000條非反語(yǔ)樣本,用它們來(lái)構(gòu)成我們的實(shí)驗(yàn)語(yǔ)料。從實(shí)驗(yàn)語(yǔ)料中的反語(yǔ)和非反語(yǔ)中分別隨機(jī)抽取500條和1000條樣本作為訓(xùn)練語(yǔ)料,然后將實(shí)驗(yàn)語(yǔ)料中剩余的樣本作為測(cè)試語(yǔ)料。測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料的大小相同。然后利用訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料進(jìn)行文本預(yù)處理,選擇訓(xùn)練語(yǔ)料中的詞語(yǔ)作為特征詞,利用TF-IDF特征加權(quán)算法分別對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行特征提取得到訓(xùn)練集和測(cè)試集,并通過信息增益的方法進(jìn)行特征篩選。接下來(lái)分別使用樸素貝葉斯、SVM、隨機(jī)森林算法進(jìn)行模型的訓(xùn)練和測(cè)試。最終我們重復(fù)進(jìn)行5次實(shí)驗(yàn)然后取平均值。
對(duì)于高抽象層次特征,可以直接利用經(jīng)過預(yù)處理后的實(shí)驗(yàn)語(yǔ)料進(jìn)行特征提取,然后選擇與一元文法中訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料樣本對(duì)應(yīng)位置的特征向量分別組成訓(xùn)練集和測(cè)試集,在五組訓(xùn)練集和測(cè)試集上分別使用樸素貝葉斯、SVM、隨機(jī)森林算法進(jìn)行模型的訓(xùn)練和測(cè)試。
對(duì)于多分類器集成學(xué)習(xí),根據(jù)一元文法和高抽象層次特征的實(shí)驗(yàn)結(jié)果,選擇一元文法特征的SVM分類器和高抽象層次特征的SVM分類器和隨機(jī)森林分類器,進(jìn)行投票決策。
2)實(shí)驗(yàn)結(jié)果與分析
表1 一元文法特征的實(shí)驗(yàn)結(jié)果
表1中A、B、C、D、E、F分別表示一元文法特征在不同算法下的分類結(jié)果,A、B、C分別表示沒有經(jīng)過特征篩選的樸素貝葉斯、SVM、隨機(jī)森林算法下的分類效果;D、E、F分別表示在信息增益閾值為0.0、0.005、0.01時(shí)SVM算法下的分類效果。下標(biāo)1表示反語(yǔ),下標(biāo)2表示非反語(yǔ)。約簡(jiǎn)率是經(jīng)過特征篩選后的特征維度與特征篩選前的特征維度的比值。從實(shí)驗(yàn)的結(jié)果中發(fā)現(xiàn)一元文法特征在樸素貝葉斯算法下表現(xiàn)較差,在SVM算法和隨機(jī)森林算法下表現(xiàn)較好;通過特征篩選可以有效地降低特征空間的維度,提高空間效率和時(shí)間效率,如表1所示當(dāng)實(shí)驗(yàn)F時(shí)我們的特征只有189維。
表2 高抽象層次特征的實(shí)驗(yàn)結(jié)果
表2中G、H、I分別表示高抽象層次特征在不同算法下的分類結(jié)果,分別表示為樸素貝葉斯、SVM、隨機(jī)森林算法下的分類效果。盡管在SVM和隨機(jī)森林算法下高抽象層次特征的方法F值下降了約3個(gè)百分點(diǎn),但是高抽象層次特征的特征維度更低,同時(shí)它受語(yǔ)料規(guī)模的影響也更小,具有更好的穩(wěn)定性和普遍適應(yīng)性,后面會(huì)通過實(shí)驗(yàn)來(lái)證明。
表3 集成學(xué)習(xí)的封閉測(cè)試效果
從表3的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)在使用集成學(xué)習(xí)策略,反語(yǔ)樣本上相對(duì)于一元文法在F值上有接近7個(gè)百分點(diǎn)的上升,在非反語(yǔ)上F值有接近6個(gè)百分點(diǎn)的上升。使用集成學(xué)習(xí)在封閉測(cè)試的分類效果有明顯的提高。
前文中提到一元文法的效果受語(yǔ)料規(guī)模的影響較大,而高抽象層次特征可以減小語(yǔ)料規(guī)模對(duì)方法效果的影響,我們通過實(shí)驗(yàn)來(lái)驗(yàn)證。
1)實(shí)驗(yàn)設(shè)置
與封閉測(cè)試的實(shí)驗(yàn)設(shè)置類似,對(duì)于一元文法特征,在1000條反語(yǔ)樣本、2000條非反語(yǔ)樣本的實(shí)驗(yàn)語(yǔ)料中分別隨機(jī)抽取500條和1000條樣本作為備選語(yǔ)料,然后將實(shí)驗(yàn)語(yǔ)料中剩余的語(yǔ)句作為測(cè)試語(yǔ)料。從備選預(yù)料中分別隨機(jī)抽取100條反語(yǔ)樣本、200條非反語(yǔ)樣本,重復(fù)進(jìn)行五次形成5組300條樣本的訓(xùn)練預(yù)料;備選預(yù)料中分別隨機(jī)抽取200條反語(yǔ)樣本、400條非反語(yǔ)樣本,重復(fù)進(jìn)行五次形成5組600條樣本的訓(xùn)練預(yù)料;同樣的操作我們可以得到5組300條反語(yǔ)樣本、600條非反語(yǔ)樣本的900條樣本訓(xùn)練語(yǔ)料和5組400條反語(yǔ)樣本、800條非反語(yǔ)樣本的1200條樣本訓(xùn)練語(yǔ)料。然后利用訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料進(jìn)行文本預(yù)處理,選擇訓(xùn)練語(yǔ)料中的詞語(yǔ)作為特征詞,利用TF-IDF特征加權(quán)算法分別對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行特征提取得到訓(xùn)練集和測(cè)試集。在這里只需要進(jìn)行SVM算法進(jìn)行模型的訓(xùn)練和測(cè)試,最終我們分別取5組不同規(guī)模訓(xùn)練語(yǔ)料實(shí)驗(yàn)的平均值。
對(duì)于高抽象層次特征,選擇與一元文法中訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料樣本對(duì)應(yīng)位置的特征向量分別組成訓(xùn)練集和測(cè)試集,分別使用SVM算法進(jìn)行模型的訓(xùn)練和測(cè)試。
對(duì)于多分類器集成學(xué)習(xí),選擇一元文法特征的SVM分類器和高抽象層次特征的SVM分類器和隨機(jī)森林分類器,進(jìn)行投票決策。
如圖3所示,橫軸1、2、3、4分別表示不同規(guī)模的訓(xùn)練語(yǔ)料下的測(cè)試結(jié)果,5表示封閉測(cè)試的結(jié)果。從圖中可以發(fā)現(xiàn)一元文法受語(yǔ)料庫(kù)規(guī)模影響最大,從封閉測(cè)試到實(shí)驗(yàn)1,F(xiàn)值下降了10個(gè)百分點(diǎn)左右;高抽象特征方法受語(yǔ)料規(guī)模影響最小下降了約3個(gè)百分點(diǎn);集成學(xué)習(xí)策略結(jié)合了兩種方法的優(yōu)勢(shì)在取得較高的F值的同時(shí),隨著語(yǔ)料規(guī)模的變化F值下降了約5個(gè)百分點(diǎn)。
圖3 語(yǔ)料庫(kù)規(guī)模對(duì)不同方法的影響
本文提出了一元文法和高抽象層次特征的方法進(jìn)行中文反語(yǔ)識(shí)別,通過高抽象層次特征減小了語(yǔ)料規(guī)模對(duì)方法效果的影響,并最終在多分類器集成學(xué)習(xí)的策略下,取得了較好的綜合效果。