韓修龍
摘要:為了對微博語料中的新詞進(jìn)行有效的識別,針對微博語料獨(dú)有的文本特性,該文提出基于SVM和特征相關(guān)性的微博新詞發(fā)現(xiàn)方法。采用N元遞增模型得到候選詞集合以及每個候選詞的基礎(chǔ)特征向量,并結(jié)合已有的詞典和部分人工標(biāo)注進(jìn)行正負(fù)樣本的標(biāo)注。通過相關(guān)性分析構(gòu)造新的候選詞特征,并構(gòu)造新的特征向量。然后利用SVM模型訓(xùn)練得到最大間隔分離超平面并對測試集中的語料進(jìn)行新詞判定。通過對比實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
關(guān)鍵詞:自然語言處理;新詞識別;支持向量機(jī)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)02-0174-03
1 概述
由于微博用戶的廣泛性和多層次性的特點(diǎn),許多的新詞[1]會被不斷的創(chuàng)造出來,這些新詞不存在已有的詞典中,在中文分詞等其他的自然語言處理任務(wù)中會造成一定的影響。在新詞發(fā)現(xiàn)領(lǐng)域,常用的方法分為以下三種:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法以及規(guī)則和統(tǒng)計(jì)相互融合的方法[2]。
在基于規(guī)則的方法中,利用構(gòu)詞原理,結(jié)合詞的語義等信息構(gòu)造模板,通過將候選詞匹配模板來發(fā)現(xiàn)新詞。如李明等[3]利用改進(jìn)后的Apriori算法對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理并生成關(guān)聯(lián)規(guī)則,然后利用關(guān)聯(lián)規(guī)則抽取新的專業(yè)詞匯,達(dá)到了很好的效果。
基于統(tǒng)計(jì)的方法[4]則是通過不同的方法對語料進(jìn)行切分,得到候選詞,然后統(tǒng)計(jì)候選詞的多種維度的特征,然后基于相關(guān)的閥值對候選詞進(jìn)行篩選,得出新詞。陳飛等[7]人利用條件隨機(jī)場模型,解決面向開放領(lǐng)域的新詞發(fā)現(xiàn)問題。現(xiàn)在大多數(shù)的研究者采用將二者結(jié)合的方法,發(fā)揮各自的優(yōu)點(diǎn),從而提高新詞發(fā)現(xiàn)的準(zhǔn)確率。
2 相關(guān)工作
2.1 候選詞的選取
傳統(tǒng)的新詞發(fā)現(xiàn)算法往往首先利用相關(guān)的中文分詞工具對語料進(jìn)行分詞,然后對分詞后的散串進(jìn)行統(tǒng)計(jì)分析,從其中挖掘出新詞。但是由于微博構(gòu)詞的新穎性、無規(guī)則性等特點(diǎn),有些新詞是之前存在的詞的對應(yīng)組合,比如“王者農(nóng)藥”,使用分詞工具進(jìn)行分詞的時候會被分成“王者”和“農(nóng)藥”兩個毫無聯(lián)系的詞語,但是這個詞實(shí)際上是在微博里流行度很廣的詞。為了避免這種問題,本文不使用現(xiàn)有的分詞工具對語料進(jìn)行分詞。
本文采用的抽取候選詞的方法是常用的N元遞增模型,崔世起通過對大量的語料進(jìn)行研究分析,發(fā)現(xiàn)新詞主要由二到四個漢字組成,所以本文取N的最大值為4,從候選的語料中抽取長度不超過N的連續(xù)字串作為候選詞串。
2.2 候選詞特征選取與計(jì)算
本文選取的新詞特征有:
1) 互信息(PMI):Pecina等[13]人的實(shí)驗(yàn)結(jié)果表明PMI能夠很好的衡量字符串之間的結(jié)合程度,本文選取PMI作為候選詞的一個特征。
2) 詞頻(TF):在判斷一個詞是否是新詞時,詞頻也是需要考慮的一個量。一個詞只有在出現(xiàn)達(dá)到一定的次數(shù)后,它才有可能被稱為新詞,所以詞頻也是要考慮的一個特征。
3) 鄰接信息熵(BE):PMI衡量的是詞語內(nèi)部之間的相關(guān)性,即結(jié)合的緊密性,其中鄰接信息熵又分為左鄰接信息熵(LBE)和右鄰接熵(RBE)兩種。
4) 鄰接類別(AV):本文不僅考慮了鄰接信息熵,而且還考慮了候選詞的鄰接類別,其中鄰接類別又分為左領(lǐng)接類別(LAV)和右鄰接類別(RAV)。
除了以上的所說的特征,候選詞的長度(TL)即包含的字的個數(shù)也是一個基本特征。
2.3 語料預(yù)處理
1) 實(shí)驗(yàn)數(shù)據(jù):
通過爬蟲爬取新浪微博2017年5月份的10萬條熱門微博,這些微博涉及不同的版塊,包括社會、科技、教育等,本文不做細(xì)粒度的劃分。
2) 數(shù)據(jù)清洗及候選詞提取:
相比于常規(guī)的中文文本語料,微博預(yù)料的文本內(nèi)容極其的雜亂無章。除了正常的中文內(nèi)容外,還有大量的不相關(guān)的干擾項(xiàng),如表情符號等。
3) 正負(fù)樣本標(biāo)注:
當(dāng)獲取候選詞后,需要對這些詞進(jìn)行標(biāo)注,判定新詞與非新詞。然后對標(biāo)注的結(jié)果進(jìn)行訓(xùn)練集和測試集的劃分。
3 實(shí)驗(yàn)結(jié)果
3.1 評價指標(biāo)
對于新詞發(fā)現(xiàn),一般采用準(zhǔn)確率、召回率、F1值3個指標(biāo)來衡量最終的結(jié)果。
3.2 特征相關(guān)性分析及特征組合的選取
首先針對提取出來9個單獨(dú)特征,分析其在新詞識別中與類別的相關(guān)性,然后分析兩兩特征之間的相關(guān)性,選取的是Pearson相關(guān)系數(shù)。圖2展示的是各個單獨(dú)特征與類別的相關(guān)性,表1則展示的是各個特征之間的相關(guān)性。
從圖1中可以看出,互信息與是否是新詞的相關(guān)性最大,其次就是詞頻。
從表1中可以看到,各基礎(chǔ)特征之間的相關(guān)性大小有很大的差異。
首先基于以上的基礎(chǔ)特征,比較在不同的核函數(shù)下的分類效果,同時比效基于多種閥值過濾規(guī)則的效果。結(jié)果如圖2所示。通過調(diào)整不同特征下的閥值,得出基于規(guī)則的最好成績,準(zhǔn)確率為0.671,召回率為0.667,F(xiàn)1值為0.669。在使用SVM模型的時候,選取不同的核函數(shù)觀察在不同核函數(shù)下的變化。選用的核函數(shù)是常用的三種,徑向基函數(shù)、多項(xiàng)式函數(shù)、sigmoid函數(shù),從圖2中可以看出,當(dāng)核函數(shù)為RBF的時候,分類的效果表現(xiàn)的最好。但是三種基函數(shù)在準(zhǔn)確率、召回率、F1值上面都表現(xiàn)的比基于統(tǒng)計(jì)的好。
其次基于圖1的相關(guān)性分析,逐步的增加特征數(shù)量,觀察特征數(shù)量的增加對實(shí)驗(yàn)結(jié)果的影響。以RBE和LBE為基線(SVM(B))通過訓(xùn)練得到基礎(chǔ)的結(jié)果以此作為后續(xù)的比較。之后依次增加相關(guān)性強(qiáng)的同類特征,并訓(xùn)練相應(yīng)的模型得出結(jié)果。表2展示的該比較的結(jié)果。從表中可以看到隨著特征的不斷增加,實(shí)驗(yàn)的各種指標(biāo)都在不斷增加,并且增加的比例與相關(guān)性是相關(guān)的,與類別的相關(guān)性越大的特征,提升的性能就越好。endprint
最后,基于表1中特征之間的相關(guān)性分析,本文接下來人工構(gòu)造組合特征。構(gòu)造的特征如下:
(1) 內(nèi)部特征和外部特征的組合(IEF)
上面選擇的特征當(dāng)中,AV類和BE類的屬于外部特征,二者描述的是候選詞的上下文特征,而PMI描述的是詞候選詞的內(nèi)部特征,描述的是詞的凝結(jié)程度,因此將這兩類特征結(jié)合在一起作為一個特征,其構(gòu)造方式如公式(1):
[IEF= AV+BEPMI] (1)
其中AV為LAV和RAV之間的最小值,BE也是LBE和RBE之間的最小值,PMI為PMI_MIN。這樣構(gòu)造的目的是為了衡量外部特征和內(nèi)部特征的相關(guān)性。
(2) 候選詞的平均鄰接類別(AAV)
從表1中可以得出,候選詞的詞頻與AV的相關(guān)性最高,將這兩者結(jié)合在一起用AAV描述兩者之間的關(guān)系。其表達(dá)式為(2):
[AAV= AVTF] (2)
其中AV為LAV和RAV之間的最小值,TF為詞頻。
將上述的兩個特征加進(jìn)候選詞的特征空間,得到的結(jié)果在表2中。通過試驗(yàn)對比可以看到,SVM在新詞發(fā)現(xiàn)的問題上比傳統(tǒng)的基于規(guī)則的方法在準(zhǔn)確率上提升了5.3%,召回率上提升了11%,F(xiàn)1值上提升了8.1%,當(dāng)加入了IEF和AAV這兩個特征,相比于沒有加入的時候,準(zhǔn)確率、召回率、F1值分別提升了2.75%、2.8%、2.77%。說明基于特征相關(guān)性構(gòu)造的特征可以在一定程度上提升新詞的識別率。
4 結(jié)束語
本文基于微博數(shù)據(jù),提出一種基于SVM和特征相關(guān)性的微博新詞識別方法。通過不同的對比實(shí)驗(yàn),基于特征相關(guān)性的方法在一定程度上可以提升新詞識別的準(zhǔn)確率、召回率和F1值,但是此種方法只驗(yàn)證了候選詞在“1+1”、“2+1”、“2+2”等這些構(gòu)詞模式下的效果,沒有涉及“1+1+1”、“1+2+1”等這些模式,所以下一步的工作是研究本文提出的方法在這些構(gòu)詞模式下的效果。除此之外,在接下來的工作中還會研究本方法在大規(guī)模語料庫上的效果。
參考文獻(xiàn):
[1] Chen K J, Bai M H. Unknown word detection forChinese by a corpus-based learning method[J]. International Journal of Computational Linguistics and Chinese Language Processing, 1998, 3(1):27-44.
[2] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 清華大學(xué)出版社, 2008.
[3] 李明. 針對特定領(lǐng)域的中文新詞發(fā)現(xiàn)技術(shù)研究[D]. 南京: 南京航空航天大學(xué), 2012.
[4] Pecina P, Schlesinger P. Combining association measures for collocation extraction[C]//Proceedings of the COLING/ACL on Main conference poster sessions. Association for Computational Linguistics, 2006: 651-658.
[5] 丁溪源. 基于大規(guī)模語料的中文新詞抽取算法的設(shè)計(jì)與實(shí)現(xiàn)[D]. 南京理工大學(xué), 2011.
[6] 李文坤, 張仰森, 陳若愚. 基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8):2302-2304.
[7] 陳飛, 劉奕群, 魏超等. 基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 軟件學(xué)報, 2013, 24(5):1051-1060.
[8] 荀恩東, 李晟. 采用術(shù)語定義模式和多特征的新術(shù)語及定義識別方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2009, 46(1):62-69.
[9] Pecina P, Schlesinger P. Combining Association Measures for Collocation Extraction[C].// ACL 2006, International Conference on Computational Linguistics and, Meeting of the Association for Computational Linguistics, Proceedings of the Conference, Sydney, Australia, 17-21 July. DBLP, 2006:651-658.
[10] Adankon, Mathias M., and M. Cheriet. Support Vector Machine. Springer US, 2015.endprint