王仲華,盧嬌麗
(1.太原師范學院 數(shù)學系,山西 晉中 030619; 2.山西大學 現(xiàn)代教育技術中心, 山西 太原 030006)
?
*1基于SVM和詞性對分析的VN組合關系識別
王仲華1,盧嬌麗2
(1.太原師范學院 數(shù)學系,山西 晉中 030619; 2.山西大學 現(xiàn)代教育技術中心, 山西 太原 030006)
〔摘要〕在動詞+名詞關系是中文句子結(jié)構(gòu)中一種非常重要的語言現(xiàn)象,它在中文句法分析和組塊分析時經(jīng)常引起歧義,文章在充分分析了詞性對統(tǒng)計信息的基礎上,首先對動詞+名詞關系重要性進行了舉例和統(tǒng)計說明,然后將動賓關系和偏正關系這兩種重要的歧義關系識別問題看作分類問題,由于支持向量機在高維度、小樣本數(shù)據(jù)中具有良好的泛化能力,將其作為分類器,最后將分類的結(jié)果用于指導中文句法分析的語義消歧,實驗結(jié)果表明,該模型能獲得很好的關系識別效果.
〔關鍵詞〕動詞+名詞;支持向量機;詞性對分析;關系識別
0引言
在中文完全句法分析和淺層句法分析和語料處理過程中,發(fā)現(xiàn)自然語言處理中存在大量的歧義現(xiàn)象,這些歧義直接影響著句子分析的質(zhì)量和效率,而VN結(jié)構(gòu)(動詞+名詞或v+n關系)是常見的歧義結(jié)構(gòu),為了自動獲取歧義消除的知識,文獻[1]對漢語中的動詞和名稱的交融從語言學角度給出了深層次分析,文獻[2]利用了復雜的特征構(gòu)造方法處理VN組合,文獻[3]中使用了動詞、名詞本身及其上下文信息作為特征,而動詞+名詞常見的結(jié)構(gòu)關系為動賓和偏正關系,能形式化為分類問題,利用樸素貝葉斯分類器對動詞+名詞結(jié)構(gòu)進行標注取得了較高的準確率.在組塊分析方面的主流方法是統(tǒng)計機器學習方法,文獻[4-6]使用支持向量機進行組塊識別,給出了更好的推廣預測能力,這些方法都進行了大量的語料預處理工作,使用了局部的特征作為動詞+名詞結(jié)構(gòu)關系識別的依據(jù);而實際語料處理中若能直接利用上下文詞性和詞性對局部特征信息將會極大地提高處理效率,本文在對句子的詞性對特征進行統(tǒng)計分析的基礎上,得到完整的句子對應的詞性對序列,使用支持向量機模型進行對動詞+名詞關系進行識別,獲得了較高的識別率,結(jié)果將用于指導完整句法分析,能消除句法歧義,提高句法分析的效率和質(zhì)量.
1VN關系和詞性對分析
1.1動詞+名詞關系舉例
動詞+名詞關系分析是部分句法分析的一個重要內(nèi)容,中文部分句法分析也叫組塊分析,由于各研究單位使用的數(shù)據(jù)集不同,出現(xiàn)了許多不同的定義,本文根據(jù)文獻[7]的漢語句法樹庫標注體系中的組塊定義和常用組塊表示方法:名詞短語標記為NP,動詞短語標記為VP.
根據(jù)語委的句法樹庫10 000句語料統(tǒng)計發(fā)現(xiàn)包含有VN現(xiàn)象的句子占50.25%,其中組塊為NP和VP的分別占780句和1420句.
VN關系舉例如下:
1)測量/v體溫/n通常/d要/vu用/v體溫計/n.
2)他們/rr向/p勛爵/n夫婦/n表示/v歉意/n.
[測量/v體溫/n]VP;[表示/v歉意/n]VP.
在1)、2)句子中VN是動賓關系.
3)這種/rz計算/v方法/n一直/d沿用/v到/v今天/t.
4)她/rr成/v了/ul藝術團/n的/ud獨唱/v演員/n.
[計算/v方法/n]NP;[獨唱/v演員/n]NP
在3)、4)句子中VN是偏正關系.
1.2詞性對序列分析
VN關系屬于詞性對中的常見結(jié)構(gòu),詞性對的信息是句子的局部特征,句子分析需要轉(zhuǎn)換為詞性對序列分析,保留句子的全局信息,比如(ud,v)和(v,n)兩個特征同時出現(xiàn)時分類為NP,而(d,v)和(v,n)同時出現(xiàn)時,分類為VP;VN關系識別需要構(gòu)造出詞性對字典.詞性對字典是詞性對序列向量化的基礎,從國家語委20 000句的完全句法語料中統(tǒng)計得出不同詞性對為2 314個,表1給出了隨著句子數(shù)增多,不同詞性對數(shù)量的增加情況,從中發(fā)現(xiàn)新的詞性對已經(jīng)很少加入詞性對字典.
表1 詞性對與句子數(shù)關系表
不同詞對的詞頻也在字典中.統(tǒng)計排序結(jié)果顯示前100個詞性對占總詞性對比例為90.62%,而當增加為前200個詞性對時,提高不到1%,因此考慮到計算效率將前100個詞性對作為完整的向量字典,基本上可以包含所有句子的詞性對.表2列出了統(tǒng)計所得排在前十位的詞性對出現(xiàn)頻率表,作為特征字典的選取依據(jù).
表2 詞性對出現(xiàn)頻率表
2SVM模型
支持向量機[6](Support Vector Machine, SVM)建立在統(tǒng)計學習理論基礎上, 應用 VC維理論和結(jié)構(gòu)風險最小化原理,借助于最優(yōu)化方法等, 在很大程度上克服了傳統(tǒng)機器學習面臨的維數(shù)災難、 局部最小化以及過學習等難以解決的問題, 并具有良好的泛化能力, 是一種新型的機器學習方法.其算法可總結(jié)如下:
1)已知訓練集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X,Y)l,其中xi∈X=Rn,yi∈Y∈{-1,1},i=1,2,…,l;
4)解決上述問題后可得最優(yōu)分類面函數(shù)(分類器):
將測試樣本輸入分類器即可得到輸出結(jié)果:正類或負類.
3實驗分析
3.1語料處理
我們使用了國家語委的20 000句語料,這些語料已經(jīng)根據(jù)清華大學的漢語句法樹庫標注體系[7]進行過人工標注和校對,從中選取了5 000句包含VN關系的句子進行處理,然后抽取其中的詞性對得到270個包含VN的偏正結(jié)構(gòu)的詞性對序列,685個包含VN為動賓結(jié)構(gòu)的詞性對序列.
語料處理過程如下:
1) [BH[ZW[SB測量/v體溫/n]VP[ZZ通常/d[SB要/vu[SB用/v體溫計/n]VP]VP]VP]SP./wj]DJ.
2) 測量/v體溫/n通常/d要/vu用/v體溫計/n./wj.
3) (v,n) (n,d) (d,vu) (vu,v) (v,n) (n,wj).
此處1)是國家語委的完全句法語料,其中左方括號[后面的標記為句法關系標記集中的結(jié)構(gòu)類型,BH表示標號結(jié)構(gòu),ZW表示主謂結(jié)構(gòu),DZ表示定中結(jié)構(gòu),SB表示述補結(jié)構(gòu),ZZ表示狀中結(jié)構(gòu),已經(jīng)做過人工校對,2)是對原始語料1)進行抽取得到的句子和詞性序列;3)是抽取的詞性對序列;訓練和測試語料如3)所示形式.
3.2識別效果
使用支持向量機進行二分類時,選擇150句分類為NP的句子和300句分類為VP的句子作為訓練語料,其余的分別選100句NP和200句VP句子作為測試語料.
首先將前100個詞性對作為特征構(gòu)成了100維的向量,每個句子都對應于一個特征向量,包含詞性對(v,n)的句子,包含偏正關系的句子對應的向量被標為正類,包含動賓關系的句子對應的向量被標為負類,這些信息在特征向量中能得到體現(xiàn),SVM通過對訓練樣本學習就可得出w和b的值,這時分類器就確定了.在測試階段,對新的句子分析時,先得到它的詞性對序列,也就是特征向量,就可得出對應的類別,作為自動識別的結(jié)果.實驗中使用了LIBSVM工具包實現(xiàn)SVM模型,此處核函數(shù)選用高斯核,懲罰參數(shù)默認為500,對訓練語料進行學習,在測試語料上顯示出在對包含v+n的句子進行分類時,本文使用精確率(用P表示)、召回率(用R表示)和F1測量作為評價指標.自動識別結(jié)果見表3.
表3 實驗結(jié)果比較 (%)
從表3中看出,本文的方法精確率比文獻[2]的方法略有下降,但召回率和F1測量都有一定的提高,而與其他方法相比各方面都有較大的提高,取得了較好的識別效果.使用所得VN關系識別結(jié)果,對已經(jīng)詞性標注的句子進行詞性對序列化,自動標注動詞+名詞的組塊關系,將極大提高句法分析和組塊分析的效率和質(zhì)量.
4結(jié)論
本文在VN組合關系識別過程中,充分利用了詞性對信息,與只用詞性或者詞作為特征的方法相比考慮了局部特征的重要性,而與專門構(gòu)造復雜的局部特征相比處理過程得到簡化,同時考慮了全局特征信息,取得了較好的識別效果,下一步將考慮將部分長距離的復雜特征局部信息加入特征向量以便提高VN關系識別效果.
參考文獻:
[1]吳長安.漢語名詞、動詞交融模式的歷史形成[J].中國語文,2012,29(1):17-28
[2]趙軍,黃昌寧.基于復雜特征的VN結(jié)構(gòu)模板獲取模型[J].軟件學報,1999,10(1):92-99
[3]李珩,朱靖波,姚天順.基于SVM的中文組塊分析[J].中文信息學報,2004,18(2):1-7
[4]李麗江.基于多分類器決策的VN組合自動標注[J].計算機工程,2008,34(5):79-82
[5]JOACHIMS T,HOFMANN T.Predicting structured objects with support vector machines[J]. Communications of the Acm,2009,11(52): 97-104
[6]鄧乃揚,田英杰.數(shù)據(jù)挖掘中的新方法——支持向量機[M].北京:科學出版社,2004
[7]周強.漢語句法樹庫標注體系[J].中文信息學報,2004,18(4):1-8
Chinese VN Relation Identification Research Based on SVM and POS Pairs
WANG Zhonghua1, LU Jiaoli2
(1.Department of Mathematics,Taiyuan Normal University,Jinzhong 030619;2.Modern Education Technology Center,Shanxi University, Taiyuan 030006, China)
〔Abstract〕Verb+noun relation called VN structure is an important language phenomenon in Chinese sentence structure, but it can cause ambiguities in parsing and chunk analysis. This paper gives some examples and statistics about the importance of VN relations after the analysis of the basis of statistical information on POS pairs, then ambiguous relationship identification problem between the verb-object relationship and the modifier-head relationship is taken as a classification problem, because of the support vector machine has a good generalization ability in high dimension, small sample data, it can be used as a classifier. Finally, the classification results for the semantic analysis to guide Chinese syntactic disambiguation. The results of experiment show a better relation identification effect.
〔Key words〕VN structure; SVM;POS pairs analysis; relations identification
*收稿日期:2015-12-11
作者簡介:王仲華(1977-),男,山西昔陽人,碩士,太原師范學院數(shù)學系講師,主要從事統(tǒng)計機器學習,自然語言處理研究.
〔文章編號〕1672-2027(2016)01-0035-04〔中圖分類號〕TP391
〔文獻標識碼〕A