張淑征,陳明銳,許 斌,鐘東來,佟明川
(1.海南大學(xué) 信息科學(xué)與技術(shù)學(xué)院,海南 ???70228;2.清華大學(xué)計(jì)算機(jī)系,北京100084)
?
基于句法分析的文本定義抽取方法
張淑征1,2,陳明銳1,許斌2,鐘東來2,佟明川1,2
(1.海南大學(xué) 信息科學(xué)與技術(shù)學(xué)院,海南 ???70228;2.清華大學(xué)計(jì)算機(jī)系,北京100084)
摘要:提出了一種基于句法分析的特征提取方法,該方法將對(duì)句子成分進(jìn)行分析,并將其作為特征集的一部分進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)證明,將句子成分分析結(jié)果加入特征集中進(jìn)行定義的抽取,有較好的正確率和召回率.
關(guān)鍵詞:特征提??; 定義抽取; 句法分析
隨著機(jī)器學(xué)習(xí)的深入研究,自然語言處理技術(shù)也得到了長(zhǎng)足地發(fā)展,人們對(duì)計(jì)算機(jī)的自動(dòng)化處理能力的要求也越來越高.知識(shí)圖譜能夠?yàn)閷?shí)現(xiàn)計(jì)算機(jī)的自動(dòng)推理等提供幫助,因此在當(dāng)前弱關(guān)聯(lián)的互聯(lián)網(wǎng)環(huán)境中構(gòu)建知識(shí)圖譜,為了實(shí)現(xiàn)復(fù)雜互聯(lián)網(wǎng)之間的相互關(guān)聯(lián),增強(qiáng)互聯(lián)網(wǎng)的可擴(kuò)展性以及實(shí)現(xiàn)計(jì)算機(jī)的自動(dòng)推理、智能問答等提供支撐.
在知識(shí)圖譜的構(gòu)建過程中,需要從大量的結(jié)構(gòu)復(fù)雜的文本中抽取屬性.從種類繁多半結(jié)構(gòu)化以及非結(jié)構(gòu)化的文本中抽取屬性需要大量的人力勞動(dòng),因此實(shí)現(xiàn)自動(dòng)化或半自動(dòng)化的屬性抽取對(duì)于知識(shí)圖譜的構(gòu)建具有重要的意義.定義是用來對(duì)專有名詞進(jìn)行解釋說明,對(duì)于人們學(xué)習(xí)知識(shí)有重要的作用,因此創(chuàng)建一個(gè)定義詞匯表能夠?yàn)槿藗兊膶W(xué)習(xí)提供幫助.定義屬性是構(gòu)建知識(shí)圖譜的重要組成部分,實(shí)現(xiàn)定義的自動(dòng)化抽取對(duì)于知識(shí)圖譜的自動(dòng)化構(gòu)建具有重要的意義.在強(qiáng)結(jié)構(gòu)化的文本中,如技術(shù)或醫(yī)療的相關(guān)文本資料的定義可以通過文本的結(jié)構(gòu)以及版式等特征等進(jìn)行自動(dòng)識(shí)別;在結(jié)構(gòu)化程度比較低的領(lǐng)域,如數(shù)學(xué)教材等,可以通過對(duì)句子進(jìn)行句法分析來進(jìn)行定義的自動(dòng)識(shí)別抽取.
1相關(guān)工作
自然語言處理技術(shù)的不斷發(fā)展,計(jì)算機(jī)對(duì)人類語言的理解處理能力的不斷增強(qiáng),其自動(dòng)化處理文本的能力也在不斷地提升.如何使計(jì)算機(jī)能夠自動(dòng)并準(zhǔn)確的從結(jié)構(gòu)復(fù)雜的文本中抽取定義這一話題一直深深吸引著很多研究者,并對(duì)此進(jìn)行了很多的深入研究.Muresan[1]等采用模式匹配的方法,該方法采用語言學(xué)的相關(guān)知識(shí)與提示性短語相結(jié)合作為抽取特征的方式來進(jìn)行定義的抽取.Storrer[2]等提出了一種將通常在定義中出現(xiàn)的動(dòng)詞作為特征集合的方法.Monachesi[3]等則將特殊的標(biāo)點(diǎn)符號(hào)作為特征來進(jìn)行定義的提取.化柏林[4]等根據(jù)定義本身具有的一些特征與規(guī)律,提出一種基于多重規(guī)則的學(xué)術(shù)定義抽取規(guī)則構(gòu)建方法.一些研究者將模式匹配與機(jī)器學(xué)習(xí)相結(jié)合來實(shí)現(xiàn)自動(dòng)化的定義抽取[5-7].潘湑[8]等提出了采用分類方法進(jìn)行專業(yè)術(shù)語定義抽取的方法,此方法使得在領(lǐng)域中進(jìn)行定義的抽取準(zhǔn)確率得到極大的提升.基于專業(yè)術(shù)語定義的自動(dòng)化抽取方法的研究近年來也得到了極大的發(fā)展[9-12].
文獻(xiàn)[1-12]中的研究方法更注重詞匯在定義自動(dòng)化抽取任務(wù)中的影響,很少考慮到句法對(duì)定義抽取的影響.句法是研究句子的各個(gè)組成部分及其排列順序,因此對(duì)定義的自動(dòng)化抽取有重要的影響.對(duì)句子進(jìn)行分析包括詞法分析和句法分析2個(gè)方面,其中詞法分析包括對(duì)專有名詞以及通常在定義中出現(xiàn)的動(dòng)詞(本文稱為關(guān)鍵動(dòng)詞)的統(tǒng)計(jì)分析;句法分析包括專有名詞與關(guān)鍵動(dòng)詞之間的相對(duì)位置關(guān)系及其在句子中的句子成分的分析統(tǒng)計(jì).將詞法分析和句法分析的統(tǒng)計(jì)結(jié)果作為句子的特征向量,最后采用機(jī)器學(xué)習(xí)對(duì)特征向量集進(jìn)行訓(xùn)練.
2問題定義
將定義抽取任務(wù)作為一個(gè)二分類問題,根據(jù)一個(gè)句子的特征向量來判斷句子是否是一個(gè)定義.給定一個(gè)句子樣本集C,對(duì)于樣本集C中的每一個(gè)句子S,用一個(gè)布爾類型的值來標(biāo)記該句子是否是一個(gè)定義,然后用一組布爾類型的值或文本類型的值來表示句子中特殊的版式、詞匯以及語言特點(diǎn).這些特點(diǎn)可以是文本的版式信息(粗體,斜體),特殊符號(hào)、關(guān)鍵詞是否存在以及關(guān)鍵詞在句子中所做的句子成分,也可以簡(jiǎn)單概括一個(gè)定義的語言結(jié)構(gòu).因此,如果將含有某個(gè)關(guān)鍵動(dòng)詞作為定義的特征,相對(duì)于不含有該關(guān)鍵動(dòng)詞的句子來說,含有該關(guān)鍵動(dòng)詞的句子將更有可能是一個(gè)定義.
2.1 邏輯回歸邏輯回歸是一個(gè)常被用來解決二分類問題的簡(jiǎn)便方法,具體步驟如下:
1)尋找預(yù)測(cè)函數(shù)hypothesis,即訓(xùn)練模型;
2)構(gòu)造損失函數(shù)J;
3)采用梯度下降法,使得J函數(shù)取得最小值并求得回歸參數(shù)θ.
對(duì)于含有m個(gè)樣本的樣本集C,對(duì)該樣本集中的每個(gè)句子進(jìn)行句法分析,最終形成一個(gè)特征集x=(x1,x2,…,xm),其中xi表示第i個(gè)樣本的句法特征向量,并對(duì)樣本C中的每個(gè)句子進(jìn)行是否是定義的分類標(biāo)記,形成一個(gè)分類集為y=(y1,y2,…,ym),其中yi表示第i個(gè)樣本所屬類別,構(gòu)造預(yù)測(cè)函數(shù)hθ(x)
(1)
求解預(yù)測(cè)函數(shù)中的θ的值,即可求解出該預(yù)測(cè)函數(shù).采用梯度下降法對(duì)含有θ參數(shù)的模型損失函數(shù)J(θ)進(jìn)行求導(dǎo)
(2)
求解使得式(2)中的J(θ)取得最小值時(shí)θ的取值,從而求解得出預(yù)測(cè)函數(shù)hθ(x).當(dāng)要判定一個(gè)句子是否是一個(gè)定義的時(shí)候,需要對(duì)句子進(jìn)行句法分析,形成一個(gè)句法特征向量x,然后將x帶入式(1),進(jìn)行二分類運(yùn)算求解出hθ(x)的值,根據(jù)運(yùn)算結(jié)果即可得出改句子是否是一個(gè)定義.
2.2支持向量機(jī)算法 支持向量機(jī)算法是由Cortes[13]等于1995年提出的一種監(jiān)督式學(xué)習(xí)的方式,在解決小樣本、非線性及高斯模式識(shí)別中有其特有的優(yōu)勢(shì),因此被廣泛應(yīng)用于統(tǒng)計(jì)分類以及回歸分析.支持向量機(jī)算法將訓(xùn)練集中的樣本映射為高維特征空間的點(diǎn),使得不同類別的樣本是由一個(gè)盡可能寬的間隙劃分,然后將新的樣本映射到相同的空間中,并基于映射點(diǎn)所屬間隙側(cè)來預(yù)測(cè)所屬類別,SVM算法類別中的間隙如圖1所示.
對(duì)于含有m個(gè)樣本的樣本集C,對(duì)該樣本集中的每個(gè)句子進(jìn)行句法分析,形成一個(gè)特征向量集x=(x1,x2,…,xm),其中xi表示第i個(gè)樣本的特征向量,并對(duì)樣本進(jìn)行是否是定義的分類標(biāo)記,分類集為y=(y1,y2,…,ym),其中yi表示第i個(gè)樣本所屬類別.
(3)
根據(jù)選取的樣本集C,抽取的特征向量集x以及樣本集中樣本所屬分類的分類集y,然后帶入式(3),通過求解最大間隙,求解模型參數(shù)w和b從而求得間隙最大的分類器.求得模型參數(shù)w和b之后便可以確定分類函數(shù)
f(x)=wTx+b,
(4)
最優(yōu)超平面為:wTxi+b=0,當(dāng)要判定一個(gè)句子是否是一個(gè)定義的時(shí)候,就可以對(duì)該句子進(jìn)行句法分析,形成一個(gè)句法特征向量z,然后將z帶入式(4),進(jìn)行二分類運(yùn)算,運(yùn)算結(jié)果大于0(即:f(x)>0),則這個(gè)句子是一個(gè)定義;反之,這個(gè)句子不是一個(gè)定義.
2.3樸素貝葉斯算法樸素貝葉斯算法被認(rèn)為是最穩(wěn)定有效的分類算法之一.在數(shù)據(jù)分類問題一共有2個(gè)步驟:1)建立一個(gè)模型,描述預(yù)先的數(shù)據(jù)集,通過分析特征向量集來構(gòu)造模型;2)將要進(jìn)行分類的句子的特征向量放入模型,進(jìn)行分類計(jì)算.樸素貝葉斯分類算法的具體分類步驟如下:
步驟1對(duì)于一個(gè)待分類項(xiàng)x={x1,x2,…,xn},而每個(gè)xi(0
步驟2有類別集合y={y1,y2,…,ym};
步驟3求出待分類項(xiàng)x的各個(gè)類別出現(xiàn)的概率P(y1|x),P(y2|x),…,P(ym|x);
步驟4對(duì)于待分類項(xiàng)x,如果類別yk發(fā)生的概率最大,那么待分類項(xiàng)x的類別為yk,即
(5)
在4個(gè)步驟中,最關(guān)鍵的就是計(jì)算步驟3中的各個(gè)條件概率,具體步驟如下:
1)找到一個(gè)已知分類的待分類項(xiàng)集合,此集合叫做訓(xùn)練樣本集;
2)統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì),即
P(x1|y1),P(x2|y1),…,P(xn|y1);P(x1|y2),P(x2|y2),…,P(xn|y2);……;
P(x1|ym),P(x2|ym),…,P(xn|ym);
3)如果各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo)
(6)
因?yàn)榉帜笇?duì)于所有類別為常數(shù),因此只要將分子最大化即可,又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立所以有
樸素貝葉斯工作原理如圖2所示.
在樸素貝葉斯算法進(jìn)行分類的過程中,主要是要根據(jù)樣本集求出在各類別下各個(gè)特征屬性的條件概率估計(jì),最終根據(jù)概率估計(jì)值求出待分類項(xiàng)x的各個(gè)類別出現(xiàn)的概率,出現(xiàn)的概率最高的類別即為x的類別.
對(duì)于含有m個(gè)樣本的樣本集C,對(duì)該樣本集中的每個(gè)句子S進(jìn)行句法分析,形成一個(gè)特征向量集x={x1,x2,…,xm},其中xi表示第i個(gè)樣本的句法特征向量;對(duì)于特征集中的每一個(gè)特征向量xi有xi={a1,a2,…,az},其中aj(0 當(dāng)要判定一個(gè)句子是否是定義的時(shí)候,對(duì)其進(jìn)行句法分析形成句法特征向量b={b1,b2,…,bz},其中bi(0 (7) 2.4隨機(jī)森林算法隨機(jī)森林是由LeoBreiman[14]在2001年提出.在機(jī)器學(xué)習(xí)中,隨機(jī)森林是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由n個(gè)決策樹輸出的類別的眾數(shù)而定,因此隨機(jī)森林能夠處理高維度的數(shù)據(jù),并且不用做特征選擇,同時(shí)能夠在樣本數(shù)據(jù)集缺失的情況下,維持運(yùn)算精度. 對(duì)于含有m個(gè)樣本的樣本集C,每個(gè)樣本有n個(gè)特征屬性.采用bootstrap重抽樣方法從樣本集C中抽取多個(gè)樣本,然后對(duì)每個(gè)bootstrap樣本進(jìn)行決策樹建模,使用Bagging方法形成每棵樹的訓(xùn)練集,指定一個(gè)屬性個(gè)數(shù)i(i≤n),在每個(gè)內(nèi)部節(jié)點(diǎn),從n個(gè)屬性中隨機(jī)抽取i個(gè)屬性上最好的分裂方式對(duì)結(jié)點(diǎn)進(jìn)行分裂.由于以上2個(gè)過程都采用隨機(jī)采樣保證了隨機(jī)性,因此不需要剪枝也不會(huì)出現(xiàn)過擬合. 隨機(jī)森林是一個(gè)樹型分類器{h(x,βk),k=1,…}的集合,其中分類器h(x,βk)是用CART算法構(gòu)建的沒有剪枝的分類回歸樹,x是輸入向量,βk是獨(dú)立同分布的隨機(jī)向量,決定了單棵樹的生長(zhǎng)過程.因此當(dāng)對(duì)新的樣本進(jìn)行分類時(shí),就將其在每棵樹中進(jìn)行分類,然后對(duì)計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì),數(shù)目較多的分類即為該有樣本的所屬類別. 對(duì)于含有m個(gè)樣本的樣本集C,該樣本集中的每個(gè)句子有n個(gè)句法特征向量,采用bootstrap重抽樣方法從樣本集C中抽取樣本量為K的訓(xùn)練樣本集X,從n個(gè)向量中隨機(jī)的選取i(i≤n)個(gè)特征,對(duì)每一個(gè)訓(xùn)練樣本集進(jìn)行決策樹建模{h(x,βk),k=1,…},當(dāng)要判定一個(gè)句子是否是定義的時(shí)候,對(duì)其進(jìn)行句法分析形成句法特征向量b={b1,b2,…,bz},其中bi(0 3實(shí)驗(yàn) 3.1特征抽取在分類算法中,特征的抽取對(duì)分類有重要影響,采用詞法分析和句法分析2種分析方式來進(jìn)行特征抽取. 3.1.1詞法分析在進(jìn)行詞法分析的過程中,依據(jù)LT4eL項(xiàng)目所提供的方法,從150個(gè)定義中抽取關(guān)鍵詞動(dòng)詞并創(chuàng)建一個(gè)詞匯表.對(duì)詞匯表進(jìn)行分析統(tǒng)計(jì),有如下特征: 1) 包含動(dòng)詞或動(dòng)詞詞組“是”、“是XX”; 2) 包含動(dòng)詞或動(dòng)詞詞組“用來”、“用來XX”; 3) 包含動(dòng)詞“指”、“指代”等; 4) 包含動(dòng)詞“表示”、“表明”、“表達(dá)”等; 5) 包含動(dòng)詞“意為”等; 6) 包含動(dòng)詞“稱為”、“稱之為”、“稱作”、“稱”、“叫做”、“叫”、“構(gòu)成”等; 7) 包含“——”、“:”等特殊標(biāo)點(diǎn)符號(hào). 將以上7項(xiàng)特征作為句子的詞法特征,將其放入樣本的特征集中. 3.1.2句法分析人類判斷定義的方法是一個(gè)對(duì)句子進(jìn)行句法分析的一個(gè)綜合性的過程.現(xiàn)有的研究大多集中在詞法的分析,忽略了句法分析對(duì)句子分析的重要影響,因此在本研究中加入對(duì)句法進(jìn)行分析的研究,并與只采用詞法分析的實(shí)驗(yàn)進(jìn)行對(duì)比.由于當(dāng)前的通用的分詞工具不能將領(lǐng)域的專業(yè)術(shù)語進(jìn)行準(zhǔn)確的劃分,因此本文在進(jìn)行句法分析過程中,首先創(chuàng)建了英語學(xué)科的專有名詞詞匯表,然后針對(duì)每個(gè)句子進(jìn)行分析,是否存在專有名詞以及關(guān)鍵動(dòng)詞,若兩者同時(shí)存在,則對(duì)該句子進(jìn)行如下特征提?。?/p> 1) 專有名詞與關(guān)鍵動(dòng)詞的相對(duì)位置專有名詞位于關(guān)鍵動(dòng)詞的前面,記為“1”;專有名詞位于關(guān)鍵動(dòng)詞的后面,記為“-1”;當(dāng)兩者至少有一者缺失的情況,記為“0”. 2) 專有名詞與關(guān)鍵動(dòng)詞在句子中的句子成分關(guān)系句子成為關(guān)系一共有如下幾種:SP(Subject-Predicate)表示專有名詞與關(guān)鍵動(dòng)詞之間是主謂關(guān)系;PO (Predicate-Object)表示專有名詞是關(guān)鍵動(dòng)詞的賓語;NO表示專有名詞與關(guān)鍵動(dòng)詞在句子中均出現(xiàn),但是兩者之間沒有任何關(guān)系;Other表示專有名詞與關(guān)鍵動(dòng)詞在句子中均出現(xiàn),但是上述3種關(guān)系之外的關(guān)系;Default表示專有名詞和關(guān)鍵動(dòng)詞兩者至少有一者缺失. 上述所有的詞法特征以及句法特征構(gòu)成一個(gè)句子的特征向量,將這些特征信息放入Weka工作區(qū)用邏輯回歸、支持向量機(jī)、樸素貝葉斯以及隨機(jī)森林4種分類算法進(jìn)行分類運(yùn)算. 3.2實(shí)驗(yàn)結(jié)果評(píng)估在實(shí)驗(yàn)1中,對(duì)樣本數(shù)據(jù)集和關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,進(jìn)而進(jìn)行特征抽??;實(shí)驗(yàn)2在實(shí)驗(yàn)1的基礎(chǔ)上加入專有名詞與關(guān)鍵動(dòng)詞的相對(duì)位置分析.實(shí)驗(yàn)3是在實(shí)驗(yàn)1的基礎(chǔ)上加入對(duì)樣本句子成分關(guān)系特征.實(shí)驗(yàn)4是在實(shí)驗(yàn)1的基礎(chǔ)上加入句法分析中的相對(duì)位置和句子成分關(guān)系2個(gè)特征.分別將4個(gè)實(shí)驗(yàn)所抽取的特征向量集放入Weka中分別進(jìn)行邏輯回歸、支持向量機(jī)、樸素貝葉斯和隨機(jī)森林4種算法進(jìn)行二分類,最終實(shí)驗(yàn)結(jié)果對(duì)比如表1所示. 表1 實(shí)驗(yàn)結(jié)果比較 實(shí)驗(yàn)結(jié)果表明僅僅進(jìn)行詞法分析抽取的特征向量集,在分類效果上遠(yuǎn)不及進(jìn)行加入句法分析抽取的特征向量集的分類效果,加入句法分析特征后,分類的正確率最多可提升10%左右;在進(jìn)行句法分析的過程中抽取的2個(gè)特征:專有名詞與關(guān)鍵動(dòng)詞之間的相對(duì)位置關(guān)系和兩者在句子中的句子成分之間的關(guān)系,對(duì)判斷一個(gè)句子是否是定義的影響不同,專有名詞與關(guān)鍵動(dòng)詞在句子中的句子成分之間的關(guān)系比兩者之間的相對(duì)位置關(guān)系的影響要相對(duì)大一些. 對(duì)每個(gè)實(shí)驗(yàn)而言,用不同的算法進(jìn)行分析,分析結(jié)果也不盡相同.由表1的實(shí)驗(yàn)分析結(jié)果可知,隨機(jī)森林算法在4個(gè)實(shí)驗(yàn)中的實(shí)驗(yàn)效果是最好的,正確率高達(dá)91.3%.因此可以看出所抽取的特征之間是線性無關(guān)的,但特征之間存在某種非線性依賴關(guān)系. 根據(jù)英語學(xué)科教育領(lǐng)域的領(lǐng)域特點(diǎn)以及領(lǐng)域的權(quán)威資料制定英語學(xué)科的專業(yè)術(shù)語表,相對(duì)于通用的定義抽取方法,該方法對(duì)于領(lǐng)域定義的抽取其準(zhǔn)確率能夠得到很大的提升;本文以LT4eL項(xiàng)目為依據(jù)進(jìn)行特征的抽取,創(chuàng)建了關(guān)鍵動(dòng)詞表,同時(shí)抽取了句子中關(guān)鍵動(dòng)詞與專業(yè)術(shù)語之間的位置關(guān)系及其在句子中所做的成分,這在一定程度上模擬了人類識(shí)別定義的方法,使得實(shí)驗(yàn)的準(zhǔn)確率以及召回率都得到了極大地提升. 4結(jié)束語 筆者提出了一種基于句法分析的中文文本定義抽取方法,首先創(chuàng)建該領(lǐng)域的專有名詞詞匯表,并從文本集中抽取特征形成一個(gè)關(guān)鍵詞詞集,并依據(jù)2個(gè)詞集以及2個(gè)詞集之間的相互關(guān)系對(duì)中文句子進(jìn)行句法分析抽取句子特征,最后將提取的特征向量集采用邏輯回歸、SVM、樸素貝葉斯和隨機(jī)森林4種算法進(jìn)行分類訓(xùn)練.實(shí)驗(yàn)結(jié)果表明進(jìn)行句法分析的特征向量集比僅采用詞法分析的特征向量集正確率有很大的提升,正確率最高可達(dá)91.3%. 在今后的工作中,有以下幾方面需要進(jìn)行完善:1)進(jìn)行自動(dòng)化句法分析以提高工作效率.現(xiàn)有的分詞技術(shù)以及句法分析技術(shù)都不能對(duì)句子進(jìn)行較為準(zhǔn)確的分析,因此實(shí)現(xiàn)句法分析的自動(dòng)化,將會(huì)對(duì)定義的自動(dòng)化抽取以及自然語言的理解有重要的影響;2)擴(kuò)展本文方法,采用結(jié)構(gòu)更加靈活的規(guī)則模式,使得本文方法不僅對(duì)中文文本有效,同樣也適用于其他語言,有助于提升多語言混合文本的定義自動(dòng)化抽取的正確率;3)不斷完善特征抽取的過程,并改進(jìn)分類算法,使其在中文文本中定義自動(dòng)化抽取的準(zhǔn)確率能夠得到提升;4)形成一套完善的構(gòu)建專有名詞詞集以及關(guān)鍵詞詞集的方法論,增強(qiáng)句法分析方法的通用性,使其可以用于多種屬性、多種領(lǐng)域的屬性值抽取,成為一種通用的自動(dòng)化文本抽取方法. 參考文獻(xiàn): [1] Muresan S, Klavans J. A method for automatically building and evaluating dictionary resources: proceedings of the Language Resources and Evaluation Conference, Las Palmas, May 29-31,2002[C].[S.l.]:[s.n.],2002. [2] Storrer A, Wellinghoff S. Automated detection and annotation of term definitions in German text corpora: proceedings of the 5th International Conference on Language Resources and Evaluation, Genoa, May 22-28, 2006 [C].[S.l.]:[s.n.],2006. [3] Monachesi P, Westerhout E. What can NLP techniques do for eLearning?: proceedings of the International Conference on Informatics and Systems 2008, Cairo, March 27-29, 2008[C]. Cairo: Cairo University press,2008. [4] 化柏林, 劉一寧, 鄭彥寧. 針對(duì)學(xué)術(shù)定義的抽取規(guī)則構(gòu)建方法研究[J]. 情報(bào)理論與實(shí)踐,2011,34(12):5-9. [5] Penagos C R. Metalinguistic information extraction from specialized texts to enrich computational lexicons [D]. Barcelona: Universitat Pompeu Fabra,2004. [6] Fahmi I, Bouma G. Learning to identify definitions using syntactic features: proceedings of the EACL 2006 workshop on learning structured information in natural language applications, Trento, April 3-7,2006[C].[S.l.]:[s.n.],2006. [7] 郭銀蕊, 陳榮. 基于遺傳算法的Web信息抽取[J]. 模式識(shí)別與人工智能,2011,24(3):385-390. [8] 潘湑, 顧宏斌. 采用改進(jìn)重采樣和BRF方法的定義抽取研究[J]. 中文信息學(xué)報(bào),2011,25(3):30-37. [9] Pollak S, Vavpetic A, Kranjc J, et al. NLP workflow for on-line definition extraction from English and Slovene text corpora:proceeding of the KONVENS 2012, Vienna, September 19-21, 2012[C] . Vienna: Eigenverlag GAI,2012. [10] Wanichayapong N, Pruthipunyaskul W, Pattara-Atikom W, et al. Social-based traffic information extraction and classification: proceedings of the International Conference on ITS Telecommunications, Saint-Petersburg, July 31-August 5,2011[C].Piscataway: IEEE press,2011. [11] Trigui O. How to extract Arabic definitions from the Web? Arabic definition question answering system [M]. Berlin: Springer,2011:318-323. [12] 吳瑞紅, 呂學(xué)強(qiáng). 基于互聯(lián)網(wǎng)的術(shù)語定義辨析[J]. 北京大學(xué)學(xué)報(bào) (自然科學(xué)版),2014,50(1):33-40. [13] Cortes C, Vapnik V. Support-vector networks [J]. Machine learning,1995,20(3):273-297. [14] Breiman L. Random forests [J]. Machine Learning,2001,45(1):5-32. 收稿日期:2016-03-02 基金項(xiàng)目:海南省社會(huì)發(fā)展科技專項(xiàng)(2015SF32);國(guó)家863課題(2015AA015401) 作者簡(jiǎn)介:張淑征(1989-),女,河南安陽人,海南大學(xué)2013級(jí)碩士研究生,研究方向:知識(shí)工程,包含領(lǐng)域本體知識(shí)庫的研究,E-mail:hnshuzheng@163.com 通信作者: 陳明銳(1960-),男,海南澄邁人,教授, 博士生導(dǎo)師,E-mail:mrchen@hainu.edu.cn 文章編號(hào):1004-1729(2016)02-0105-07 中圖分類號(hào):TP 181 文獻(xiàn)標(biāo)志碼:ADOl:10.15886/j.cnki.hdxbzkb.2016.0017 Method for Definition Extraction Based on Syntactic Analysis Zhang Shuzheng1,2, Chen Mingrui1, Xu Bin2, Zhong Donglai2, Tong Mingchuan1,2 (1. College of Information Science and Technology, Hainan University, Haikou 570228, China;2. School of Information Science and Technology, Tsinghua University, Beijing 100084, China) Abstract:In the study, a feature extraction method based on syntactic analysis was proposed. The method analyzed the sentence elements, and which were use as a part of the feature set for the experiment. The results indicated that the feature set, into which the feature extracted through sentence analysis was added, has better precision and recall rate. Keywords:feature extraction; definition extraction; Syntactic analysis