賈真,何大可,楊燕,楊宇飛,冶忠林
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031)
?
基于弱監(jiān)督學(xué)習(xí)的中文網(wǎng)絡(luò)百科關(guān)系抽取
賈真,何大可,楊燕,楊宇飛,冶忠林
(西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031)
實(shí)體關(guān)系抽取在信息檢索、自動(dòng)問答、本體學(xué)習(xí)等領(lǐng)域都具有重要作用。提出了基于弱監(jiān)督學(xué)習(xí)的關(guān)系抽取框架。首先利用知識(shí)庫(kù)中已有結(jié)構(gòu)化的關(guān)系三元組,從自然語(yǔ)言文本中自動(dòng)獲取訓(xùn)練語(yǔ)料;針對(duì)訓(xùn)練語(yǔ)料數(shù)量較少導(dǎo)致特征不足的問題,采用基于樸素貝葉斯的句子分類器和基于自擴(kuò)展的訓(xùn)練方法,從未標(biāo)注數(shù)據(jù)中獲取更多的訓(xùn)練語(yǔ)料;然后利用條件隨機(jī)場(chǎng)模型訓(xùn)練關(guān)系抽取器。實(shí)驗(yàn)結(jié)果表明所提方法的有效性,有現(xiàn)有方法相比,文中方法獲得較高的準(zhǔn)確率。
知識(shí)獲取;信息抽?。魂P(guān)系抽??;弱監(jiān)督學(xué)習(xí);自擴(kuò)展;中文網(wǎng)絡(luò)百科;條件隨機(jī)場(chǎng);樸素貝葉斯
Relation extraction from Chinese online encyclopedia
實(shí)體關(guān)系抽取是自動(dòng)構(gòu)建知識(shí)庫(kù)的基礎(chǔ),同時(shí)在自動(dòng)問答、信息檢索等多個(gè)領(lǐng)域具有重要的應(yīng)用價(jià)值。傳統(tǒng)實(shí)體關(guān)系抽取方法主要有基于模式匹配或基于有監(jiān)督的統(tǒng)計(jì)機(jī)器學(xué)習(xí)。隨著關(guān)系抽取從限定關(guān)系類型轉(zhuǎn)向開放領(lǐng)域,數(shù)據(jù)源從標(biāo)準(zhǔn)語(yǔ)料庫(kù)轉(zhuǎn)向海量的網(wǎng)絡(luò)數(shù)據(jù),傳統(tǒng)基于模式匹配和有監(jiān)督統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法逐漸顯示出局限性。由于開放領(lǐng)域的關(guān)系類型數(shù)量巨大,不同關(guān)系的模式表現(xiàn)形式多樣,變化較大,在基于模式匹配的方法中,難以用人工方式定義全部的模式。在基于有監(jiān)督機(jī)器學(xué)習(xí)方法中,人工標(biāo)注訓(xùn)練語(yǔ)料需要耗費(fèi)大量的人力和時(shí)間,面向海量的網(wǎng)絡(luò)數(shù)據(jù),人工標(biāo)注幾乎是不可能的。如何能夠監(jiān)督最小化,即不使用人工標(biāo)注或減少人工標(biāo)注,也能構(gòu)建高性能的關(guān)系抽取系統(tǒng)是當(dāng)前的研究熱點(diǎn)。由于基于弱監(jiān)督學(xué)習(xí)(weakly supervised learning)的關(guān)系抽取方法能夠在較少人工干預(yù)下、自動(dòng)獲取訓(xùn)練語(yǔ)料而受到了廣泛的關(guān)注?;谌醣O(jiān)督學(xué)習(xí)的關(guān)系抽取框架依賴于一個(gè)某領(lǐng)域的知識(shí)庫(kù),從知識(shí)庫(kù)中可以獲取關(guān)系三元組,同時(shí)需要大量的文本集。從文本集中尋找含有關(guān)系實(shí)體對(duì)的句子,用來建立訓(xùn)練集,然后用這個(gè)訓(xùn)練集訓(xùn)練抽取器,從測(cè)試文本集中抽取關(guān)系實(shí)例?,F(xiàn)有方法都是自動(dòng)抽取含有關(guān)系實(shí)體對(duì)的句子作為訓(xùn)練語(yǔ)料,這種利用實(shí)體對(duì)共現(xiàn)得到的訓(xùn)練語(yǔ)料很不可靠,例如,從知識(shí)庫(kù)中獲取關(guān)系三元組,〈魯迅,國(guó)籍,中國(guó)〉,從文本集中獲取含有實(shí)體對(duì)〈魯迅,中國(guó)〉的句子:“魯迅以小說創(chuàng)作起家。1918年在《新青年》雜志發(fā)表的《狂人日記》是中國(guó)現(xiàn)代白話小說的開山之作,影響深遠(yuǎn)”。這句話并沒有表達(dá)魯迅國(guó)籍是中國(guó)的關(guān)系。Riedel等[1]在紐約時(shí)報(bào)文本集中進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)含有國(guó)籍關(guān)系實(shí)體對(duì)的句子中38%的句子沒有表達(dá)國(guó)籍這個(gè)關(guān)系,含有出生地關(guān)系實(shí)體對(duì)的句子中有35%的句子沒有表達(dá)出生地關(guān)系。利用有噪聲的訓(xùn)練語(yǔ)料訓(xùn)練模型會(huì)影響準(zhǔn)確率,降低抽取性能。為了提高訓(xùn)練語(yǔ)料的準(zhǔn)確率,文中利用關(guān)系詞語(yǔ)對(duì)訓(xùn)練語(yǔ)料進(jìn)行約束,即句子中不僅要有實(shí)體對(duì),還要有表達(dá)關(guān)系的詞語(yǔ)。由于知識(shí)庫(kù)中的關(guān)系實(shí)例數(shù)量有限,導(dǎo)致訓(xùn)練語(yǔ)料可能較少,存在特征不足的問題,文中利用訓(xùn)練語(yǔ)料訓(xùn)練句子分類器,并基于bootstrapping方法迭代地從未標(biāo)注數(shù)據(jù)中獲取新的訓(xùn)練語(yǔ)料。最后利用CRF模型訓(xùn)練關(guān)系抽取器。文中的主要貢獻(xiàn)有:
1) 與利用實(shí)體對(duì)獲取訓(xùn)練語(yǔ)料相比,利用關(guān)系三元組獲取訓(xùn)練語(yǔ)料的質(zhì)量有了明顯提升;
2) 引入了句子分類器從未標(biāo)注語(yǔ)料中提取新的訓(xùn)練語(yǔ)料,緩解了訓(xùn)練語(yǔ)料不足問題;
3) 以互動(dòng)百科信息盒中的關(guān)系實(shí)例作為知識(shí)庫(kù),互動(dòng)百科條目文本作為訓(xùn)練文本集和測(cè)試文本集進(jìn)行實(shí)驗(yàn),驗(yàn)證了文中方法的有效性。
實(shí)體關(guān)系抽取研究始于信息理解會(huì)議(message understanding conference, MUC)。1998年最后一次MUC-7上首次提出了關(guān)系抽取任務(wù)。在MUC-7之后,MUC被自動(dòng)內(nèi)容抽?。╝utomatic content extraction, ACE)評(píng)測(cè)所取代。ACE由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院NIST組織,從1999年至2008年已經(jīng)舉辦過9次評(píng)測(cè),2008年ACE評(píng)測(cè)改名為文本分析會(huì)議(text analysis conference,TAC),從2008年至今已經(jīng)舉行了6次評(píng)測(cè)。ACE評(píng)測(cè)中關(guān)系抽取任務(wù)包括7個(gè)大類關(guān)系和若干個(gè)子關(guān)系。實(shí)體關(guān)系抽取方法主要有模式匹配的方法和機(jī)器學(xué)習(xí)的方法。在模式匹配的方法中,模式的自動(dòng)獲取技術(shù)是研究的關(guān)鍵。機(jī)器學(xué)習(xí)方法根據(jù)是否需要人工標(biāo)注訓(xùn)練語(yǔ)料分為有監(jiān)督機(jī)器學(xué)習(xí)、半監(jiān)督機(jī)器學(xué)習(xí)和無監(jiān)督機(jī)器學(xué)習(xí)。有監(jiān)督學(xué)習(xí)方法有特征向量的方法[2-4]和核函數(shù)的方法[5-6]。半監(jiān)督學(xué)習(xí)方法以少量的關(guān)系實(shí)例為種子,采用不斷迭代的方法從未標(biāo)注語(yǔ)料中抽取可靠性較高的關(guān)系實(shí)例[7]。無監(jiān)督關(guān)系抽取主要使用聚類方法[8-9],并為聚類后的簇賦予關(guān)系名稱。
弱監(jiān)督學(xué)習(xí)的關(guān)系抽取最早由Craven和Kumlien提出[10],用于從學(xué)術(shù)文獻(xiàn)的摘要中抽取蛋白質(zhì)與基因之間的關(guān)系。Wu等[11]利用維基百科信息盒中結(jié)構(gòu)化的〈屬性,屬性值〉二元組對(duì)維基百科條目文本的句子進(jìn)行回標(biāo),自動(dòng)獲取屬性關(guān)系抽取訓(xùn)練語(yǔ)料,并使用CRF模型為每個(gè)屬性訓(xùn)練抽取器。Bunescu等[12]分別將具有關(guān)系的實(shí)體對(duì)正例和反例作為查詢請(qǐng)求,從搜索引擎查詢結(jié)果中提取包含實(shí)體對(duì)的句子作為訓(xùn)練語(yǔ)料。Mintz等[13]從Freebase www.freebase.com中獲取具有關(guān)系的實(shí)體對(duì),從維基百科條目文本中獲取關(guān)系抽取的訓(xùn)練數(shù)據(jù)。Mintz的方法基于以下假設(shè):如果2個(gè)實(shí)體之間存在某種關(guān)系,那么所有含有實(shí)體對(duì)的句子都描述了這個(gè)關(guān)系。Yao等[14]對(duì)Mintz等[13]提出的方法進(jìn)行了改進(jìn),把關(guān)系抽取和實(shí)體的種類綜合考慮,利用實(shí)體的類別來過濾掉部分錯(cuò)誤的關(guān)系。Riedel等[1]認(rèn)為Mintz的假設(shè)過于嚴(yán)格,含有關(guān)系實(shí)體對(duì)的句子并不一定表達(dá)了該關(guān)系。Riedel將Mintz的假設(shè)放松為:如果2個(gè)實(shí)體之間存在某種關(guān)系,那么含有實(shí)體對(duì)的句子中至少有一個(gè)句子描述了該關(guān)系。Surdeanu等[15]基于弱監(jiān)督學(xué)習(xí)對(duì)TAC-KBP進(jìn)行屬性模板填充,先將維基百科信息盒中的半結(jié)構(gòu)化信息映射至KBP結(jié)構(gòu)化的屬性模板,再?gòu)恼Z(yǔ)料中獲取包含實(shí)例名和屬性值二元組的句子作為訓(xùn)練語(yǔ)料。陳立瑋和馮巖松等[16]從互動(dòng)百科信息盒中獲取實(shí)體對(duì),從新聞數(shù)據(jù)中獲取訓(xùn)練語(yǔ)料,提出了bootstrapping思想的協(xié)同訓(xùn)練方法來對(duì)弱監(jiān)督關(guān)系抽取模型進(jìn)行強(qiáng)化,并提出了將傳統(tǒng)特征與n-gram特征相結(jié)合進(jìn)行協(xié)同訓(xùn)練的方法。
弱監(jiān)督學(xué)習(xí)的關(guān)系抽取框架包括3個(gè)重要的因素:知識(shí)庫(kù)、訓(xùn)練語(yǔ)料和抽取模型。
2.1 知識(shí)庫(kù)
互動(dòng)百科是目前最大的中文網(wǎng)絡(luò)百科之一,互動(dòng)百科的部分條目中,存在人工創(chuàng)建的信息盒,信息盒中包含了大量半結(jié)構(gòu)化的關(guān)系三元組。例如,從互動(dòng)百科條目“西南交通大學(xué)”信息盒中能夠獲取關(guān)系三元組〈西南交通大學(xué),創(chuàng)建時(shí)間,1896年〉。其中,“西南交通大學(xué)”是關(guān)系主體,“1896年”是關(guān)系客體,創(chuàng)建時(shí)間為關(guān)系詞語(yǔ)。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn),互動(dòng)百科信息盒中的關(guān)系名稱是統(tǒng)一定義的,具有較好的唯一性和標(biāo)識(shí)性。文中利用互動(dòng)百科信息盒獲取關(guān)系三元組,構(gòu)造知識(shí)庫(kù)。信息盒是半結(jié)構(gòu)化信息,某些關(guān)系有多個(gè)客體(如“知名校友”一欄中有多個(gè)人名),某些關(guān)系的客體不是實(shí)體詞,而是1個(gè)句子(如“校訓(xùn)”),因此需要對(duì)其進(jìn)行結(jié)構(gòu)化處理。由于實(shí)體關(guān)系抽取依賴于命名實(shí)體識(shí)別,因此只提取主體和客體是命名實(shí)體的關(guān)系。對(duì)于1個(gè)關(guān)系具有多個(gè)客體的情況,例如“知名校友”信息盒中的內(nèi)容為:林同炎,劉大同,張維。分別組成3個(gè)關(guān)系三元組:〈西南交通大學(xué),知名校友,劉大同〉、〈西南交通大學(xué),知名校友,林同炎〉和〈西南交通大學(xué),知名校友,張維〉。
2.2 訓(xùn)練語(yǔ)料
現(xiàn)有弱監(jiān)督學(xué)習(xí)的關(guān)系抽取框架是利用關(guān)系實(shí)體對(duì)從文本中獲取訓(xùn)練語(yǔ)料的,然而,包含實(shí)體對(duì)的句子有時(shí)并不是關(guān)系描述語(yǔ)句。基于實(shí)體對(duì)的共現(xiàn)自動(dòng)建立起來的訓(xùn)練語(yǔ)料中有大量的噪聲,正確的訓(xùn)練語(yǔ)料并不多。為了提高訓(xùn)練語(yǔ)料的準(zhǔn)確率,假設(shè)關(guān)系描述語(yǔ)句中通常以某個(gè)特定的關(guān)系關(guān)鍵詞為核心,例如,“所屬地區(qū)”關(guān)系的表達(dá)可能為“位于、處于、屬于”等。 “創(chuàng)建時(shí)間”關(guān)系的表達(dá)可能為“創(chuàng)立、創(chuàng)建、成立”等。知識(shí)庫(kù)中的關(guān)系名稱是統(tǒng)一的,然而語(yǔ)句中對(duì)關(guān)系的表達(dá)有多種方式。如果直接匹配關(guān)系詞語(yǔ),會(huì)導(dǎo)致過低的召回率,因此,需要將關(guān)系關(guān)鍵詞進(jìn)行同義擴(kuò)展。
首先采用西南交通大學(xué)中文分詞[17]對(duì)關(guān)系詞語(yǔ)進(jìn)行細(xì)粒度分詞。例如,“創(chuàng)建時(shí)間”細(xì)粒度分詞后為“創(chuàng)建”和“時(shí)間”2個(gè)詞。然后分別對(duì)這2個(gè)詞語(yǔ)進(jìn)行同義擴(kuò)展。文中采用基于同義詞詞林[18]的語(yǔ)義相似度計(jì)算擴(kuò)展關(guān)系詞語(yǔ)。語(yǔ)義相似度計(jì)算采用田久樂等[19]提出的方法。該方法是根據(jù)詞語(yǔ)的義項(xiàng)在同義詞詞林的位置和編碼計(jì)算出詞語(yǔ)的語(yǔ)義相似度。滿足相似度閾值的詞語(yǔ)都視為同義詞。詞語(yǔ)相似度的值受到3個(gè)因素的制約:分支層系數(shù)、分支層節(jié)點(diǎn)總數(shù)和分支間隔。為了避免語(yǔ)義漂移,文中僅計(jì)算第5層分支詞語(yǔ)間的語(yǔ)義相似度。例如,“創(chuàng)建”的同義詞為“創(chuàng)立、開創(chuàng)、創(chuàng)始、創(chuàng)建、創(chuàng)辦”等,“時(shí)間”的同義詞為“時(shí)間、時(shí)刻、時(shí)日、工夫、日子、光陰”等。將擴(kuò)展后的這些同義詞組合成為新的關(guān)系關(guān)鍵詞,例如“創(chuàng)立時(shí)間、開創(chuàng)時(shí)刻”等。同義詞詞典的關(guān)系關(guān)鍵詞獲取受到詞典規(guī)模的限制,無法對(duì)未登錄詞進(jìn)行同義擴(kuò)展。因此,在提取訓(xùn)練語(yǔ)料時(shí),若某一含有關(guān)系實(shí)體對(duì)的句子中某詞語(yǔ)與關(guān)系關(guān)鍵詞的字面相似度[20]大于45%,該詞語(yǔ)成為關(guān)系關(guān)鍵詞,該句子成為訓(xùn)練數(shù)據(jù)。
從知識(shí)庫(kù)中提取關(guān)系三元組〈西南交通大學(xué),創(chuàng)建時(shí)間,1896年〉,百科文本集中有一個(gè)包含西南交通大學(xué)和1896年的句子,該句子同時(shí)包含關(guān)系關(guān)鍵詞“創(chuàng)建”,如圖1所示。提取該句子作為“創(chuàng)建時(shí)間”關(guān)系的訓(xùn)練語(yǔ)料。
圖1 從文本集中獲取訓(xùn)練數(shù)據(jù)
與人工標(biāo)注的可靠的訓(xùn)練語(yǔ)料不同,由于自然語(yǔ)言預(yù)處理錯(cuò)誤或知識(shí)庫(kù)中的關(guān)系客體在文本中不存在,就會(huì)導(dǎo)致錯(cuò)誤和遺漏的標(biāo)注。特別是由于知識(shí)庫(kù)中的關(guān)系實(shí)例數(shù)量較少時(shí),自動(dòng)獲取的訓(xùn)練語(yǔ)料數(shù)量較少,許多測(cè)試數(shù)據(jù)中的特征在訓(xùn)練語(yǔ)料中很少出現(xiàn)甚至不存在。文中將已標(biāo)注的訓(xùn)練語(yǔ)料作為正例,從未標(biāo)注數(shù)據(jù)中提取部分?jǐn)?shù)據(jù)作為反例,采用bootstapping方法訓(xùn)練分類器,然后對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類,標(biāo)注為正例的數(shù)據(jù)作為新的訓(xùn)練數(shù)據(jù)。
一個(gè)分類器性能的優(yōu)劣往往取決于選擇的特征是否能夠最大程度地表達(dá)不同類別的差異,選擇恰當(dāng)?shù)奶卣饔兄趯W(xué)習(xí)到性能較好的分類器,實(shí)現(xiàn)不同類別的最優(yōu)劃分。句子分類常用的特征包括詞法特征、句法特征和n-gram特征。詞法特征由句子中的詞序列和詞性序列構(gòu)成,而句子中的語(yǔ)言描述過于具體,很難在其他的句子中再次出現(xiàn),導(dǎo)致嚴(yán)重的數(shù)據(jù)稀疏性問題,也使得訓(xùn)練出的模型缺乏泛化能力。句法特征從句子的依存句法分析結(jié)果中獲取。句法特征也存在詞法特征中的數(shù)據(jù)稀疏性問題,并且句法特征依賴于句法分析的效果,然而現(xiàn)有中文句法分析工具的準(zhǔn)確率都不是很理想,導(dǎo)致句法特征不可靠。n-gram特征通常是文本中n個(gè)連續(xù)詞組成的序列,可以捕捉到局部范圍內(nèi)連續(xù)詞語(yǔ)之間的序列關(guān)系,體現(xiàn)語(yǔ)法習(xí)慣,n-gram只包含3~4個(gè)詞,因而不會(huì)像傳統(tǒng)詞法特征那樣過于具體,導(dǎo)致特征稀疏,幾乎不可能再現(xiàn)。除了傳統(tǒng)詞語(yǔ)序列的n-gram特征,文獻(xiàn)[16]把連續(xù)詞語(yǔ)的詞性標(biāo)注組織成詞性序列n-gram特征;以及把詞語(yǔ)和它的詞性序列組成n-gram特征,并使用tri-gram,即n=3。
文中采用由詞語(yǔ)和它的詞性組成的n-gram特征,并令n=1,2,3。
1-gram:1個(gè)詞語(yǔ)+詞性 (wordi/ posi) (wordi)
2-gram:2個(gè)連續(xù)詞語(yǔ)+詞性(wordi/ posi, wordi+1/ posi+1)
3-gram:3個(gè)連續(xù)詞語(yǔ)+詞性(wordi/ posi, wordi+1/ posi+1, wordi+2/ posi+2)
從句子中2個(gè)實(shí)體詞之間的文本中提取1/2/3-gram作為特征值。1/2/3-gram表示既取1-gram,又取2-gram、3-gram。例如句子“英國(guó)威爾士大學(xué)/ntu 圣三一學(xué)院/nt 成立/v 于/p 1848年/t”中提取了多個(gè)1-gram “圣三一學(xué)院 / nt”、“成立 / v”、“于 / p”等,以及多個(gè)2-gram“圣三一學(xué)院 / nt , 成立 / v”、“成立 / v , 于 / p”等。
文中利用樸素貝葉斯分類(na?ve Bayes classification,NBC)模型訓(xùn)練句子分類器。訓(xùn)練數(shù)據(jù)作為正例,從未標(biāo)注數(shù)據(jù)中提取部分?jǐn)?shù)據(jù)(未標(biāo)注數(shù)據(jù)中也含有實(shí)體對(duì))作為反例,首先提取正例特征和反例特征訓(xùn)練分類器,然后對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類,對(duì)新正例進(jìn)行標(biāo)注,并將新正例加入到訓(xùn)練語(yǔ)料中。對(duì)新正例進(jìn)行標(biāo)注的方法是根據(jù)實(shí)體類別分別標(biāo)注關(guān)系主體和關(guān)系客體,將出現(xiàn)概率最大n-gram標(biāo)注為關(guān)系關(guān)鍵詞。例如,1-gram“成立”出現(xiàn)概率最大,那么“成立”就是關(guān)系關(guān)鍵詞,若句子中有多個(gè)關(guān)系主體或客體,則標(biāo)注最先出現(xiàn)的實(shí)體對(duì)作為關(guān)系主體和客體。
2.3 抽取模型
條件隨機(jī)場(chǎng)(conditional random field,CRF)是由Lafferty等[21]于2001年首先提出,是目前優(yōu)秀的機(jī)器學(xué)習(xí)模型之一。已被廣泛用于中文分詞、實(shí)體識(shí)別、詞性標(biāo)注和信息提取等自然語(yǔ)言處理領(lǐng)域。CRF是一個(gè)判別式模型,其最簡(jiǎn)單的形式是線性的CRF,即模型中各個(gè)節(jié)點(diǎn)之間構(gòu)成線性結(jié)構(gòu)。一個(gè)線性的CRF對(duì)應(yīng)于一個(gè)有限狀態(tài)機(jī),它非常適合于進(jìn)行線性數(shù)據(jù)序列的標(biāo)注,在信息提取任務(wù)中,基于CRF用于序列標(biāo)注的優(yōu)勢(shì),將信息提取問題轉(zhuǎn)換成目標(biāo)信息的序列標(biāo)注問題。
為了進(jìn)行CRF的訓(xùn)練,文中在訓(xùn)練語(yǔ)料中引入標(biāo)注集對(duì)訓(xùn)練語(yǔ)料進(jìn)行轉(zhuǎn)換。文中使用的是BIESO序列標(biāo)注集,其中B代表關(guān)系關(guān)鍵詞的開始;I代表關(guān)系關(guān)鍵詞的內(nèi)部;E代表關(guān)系關(guān)鍵詞的結(jié)尾;S代表獨(dú)立的實(shí)體;O代表了當(dāng)前詞既不是實(shí)體,也不是關(guān)系關(guān)鍵詞。
例如對(duì)訓(xùn)練語(yǔ)句“濱海大學(xué)/ntu 是/vshi 一所/mq 綜合性/n 國(guó)立大學(xué)/nis ,/w 成立/vi 于/p 1991年/t”進(jìn)行序列標(biāo)注如圖2。
圖2 序列標(biāo)注示例
圖2中,S-SUB表示關(guān)系主體,S-OBJ表示關(guān)系客體,B-REL表示關(guān)系關(guān)鍵詞的開始,E-REL表示關(guān)系關(guān)鍵詞結(jié)尾。將該訓(xùn)練語(yǔ)句轉(zhuǎn)換為序列標(biāo)注的形式如表1。
表1 訓(xùn)練語(yǔ)句序列標(biāo)注Table 1 Sequence labeling of training sentenc
在CRF建立抽取模型過程中,特征選取與特征模板的制定是一項(xiàng)重要任務(wù)。特征選取時(shí)CRF模型不僅能夠綜合使用字、詞、詞性、詞形等上下文信息,還能利用各種外部信息,如詞典等。文中選取詞本身、詞性、上下文信息(定義活動(dòng)的窗口)作為特征?!吧舷挛男畔ⅰ敝傅氖前ó?dāng)前詞在內(nèi)的及其前后若干個(gè)詞所組成的觀察窗口[22]。窗口過大,選擇的特征會(huì)急劇增加,影響運(yùn)行效率;窗口過小,選擇的特征較少,影響抽取器的性能。根據(jù)分析,選擇長(zhǎng)度為3的窗口,即觀察包含當(dāng)前詞在內(nèi)以及其前后各2個(gè)詞。特征模板如表2所示。
表2 特征模板Table 2 Feature templates
弱監(jiān)督關(guān)系抽取需要結(jié)構(gòu)化知識(shí)庫(kù)構(gòu)建訓(xùn)練集。知識(shí)的表達(dá)形式為三元組,即〈主體,關(guān)系,客體〉的結(jié)構(gòu)。選用互動(dòng)百科信息盒構(gòu)造結(jié)構(gòu)化知識(shí)庫(kù)并進(jìn)行分詞和實(shí)體識(shí)別預(yù)處理,關(guān)系三元組中的主體和客體必須為命名實(shí)體,從中選取“創(chuàng)建時(shí)間”、“國(guó)籍”、“出生年月”、“所屬地區(qū)”等4種關(guān)系進(jìn)行實(shí)驗(yàn)。文本集采用互動(dòng)百科條目文章。這里以“創(chuàng)建時(shí)間”關(guān)系為例對(duì)語(yǔ)料進(jìn)行說明。關(guān)系主體類型為機(jī)構(gòu)名(詞性標(biāo)注為nt),客體類型為時(shí)間(詞性標(biāo)注為t)。從信息盒中抽取關(guān)系三元組共有9 257個(gè),匹配句子有6 876個(gè),從其余未匹配的句子中提取含有實(shí)體二元組〈nt, t〉的句子作為測(cè)試文本集,測(cè)試文本集中的句子數(shù)共114 831個(gè)。
實(shí)驗(yàn)結(jié)果的評(píng)價(jià)包括分類器的評(píng)價(jià)和抽取器的評(píng)價(jià)。分類器的性能用從測(cè)試文本集中得到的正例中正確標(biāo)記的關(guān)系比率來評(píng)價(jià),正確的比率越大說明分類器的性能越好。實(shí)驗(yàn)從測(cè)試文本集中得到正確的正例數(shù)量為T2,正例總數(shù)記為T1。準(zhǔn)確率PC計(jì)算公式如式(1):
由于從測(cè)試文本集中生成的正例總數(shù)較多,故采用隨機(jī)抽樣的評(píng)價(jià)方法。文中設(shè)計(jì)了3種n-gram特征:詞語(yǔ)序列特征、詞性序列特征、以及詞語(yǔ)和詞性組合序列特征。這里分別測(cè)試了3種特征的分類器準(zhǔn)確率(PC),測(cè)試結(jié)果如表3所示。
表3 不同特征下分類器性能比較Table 3 Performance comparison among different feature %
通過表3看出,用詞語(yǔ)序列作為特征的分類器準(zhǔn)確率最好,其次是詞語(yǔ)+詞性序列特征。然而詞語(yǔ)序列作為特征的分類器獲取的新正例數(shù)量較少,用詞語(yǔ)+詞性序列特征和詞性特征獲取新正例的數(shù)量均較多。例如表4中,對(duì)于“創(chuàng)建時(shí)間”關(guān)系,用詞語(yǔ)+詞性序列獲取的新正例數(shù)量為4 174個(gè),用詞語(yǔ)序列獲取的新正例僅為2 697個(gè);對(duì)于“出生年月”關(guān)系,用詞語(yǔ)+詞性獲取的新正例數(shù)量為3 491個(gè),用詞語(yǔ)序列獲取的新正例僅有1 795個(gè)。因此,采用詞語(yǔ)+詞性組合特征的分類器總體性能最好。
表4 不同特征下訓(xùn)練語(yǔ)料數(shù)量比較Table 4 quantity comparison among different feature %
在抽取器的評(píng)價(jià)中,文中采用關(guān)系的準(zhǔn)確率(P)、召回率(R)、F值(F-Score)作為最終的評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算方法如式(2)~(4)所示。
式中:V1是抽取正確的關(guān)系個(gè)數(shù);V2是抽取關(guān)系的總個(gè)數(shù);V3是語(yǔ)料中關(guān)系的個(gè)數(shù)。
將本中方法與不采用分類器直接利用三元組獲取的訓(xùn)練語(yǔ)料訓(xùn)練CRF抽取器的抽取結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如表5所示。從表5可以看出,與未經(jīng)過訓(xùn)練語(yǔ)料優(yōu)化而直接采用CRF訓(xùn)練抽取器的方法相比,文中方法在保持了較高準(zhǔn)確率的基礎(chǔ)上,召回率也有了較大的提高。說明利用樸素貝葉斯分類器從反例中獲取新正例來優(yōu)化訓(xùn)練語(yǔ)料,在一定程度上提高了訓(xùn)練語(yǔ)料的質(zhì)量和抽取的性能。在以上4種關(guān)系抽取中,創(chuàng)建時(shí)間關(guān)系的準(zhǔn)確率和召回率均較低,這是由于句子中的關(guān)系主體(類型為nt)或關(guān)系客體(類型為t)不唯一,例如大學(xué)機(jī)構(gòu)往往有子機(jī)構(gòu)(如院系等),以子機(jī)構(gòu)的創(chuàng)建時(shí)間作為關(guān)系客體則會(huì)造成錯(cuò)誤。
表5 與未優(yōu)化訓(xùn)練語(yǔ)料的關(guān)系抽取方法對(duì)比
Table 5 Performance comparison with the method of unoptimized training corpus %
關(guān)系文中方法未優(yōu)化訓(xùn)練語(yǔ)料準(zhǔn)確率召回率F值準(zhǔn)確率召回率F值創(chuàng)建時(shí)間7211.920.6688.815.6國(guó)籍8484.684.39872.183.1出生年月9627.542.89633.449.6所屬地區(qū)9895.396.69877.386.4
現(xiàn)有弱監(jiān)督學(xué)習(xí)的關(guān)系抽取框架是將關(guān)系抽取看做一個(gè)分類問題,首先利用實(shí)體對(duì)獲取訓(xùn)練語(yǔ)料,然后訓(xùn)練分類器,從測(cè)試文本集的句子中提取實(shí)體對(duì),利用分類器對(duì)實(shí)體對(duì)進(jìn)行關(guān)系預(yù)測(cè)。文中與文獻(xiàn)[13]的方法進(jìn)行對(duì)比,對(duì)比結(jié)果如表6。
表6 與其他弱監(jiān)督學(xué)習(xí)的關(guān)系抽取方法對(duì)比
Table 6 Performance comparison with other weakly supervised method %
關(guān)系文中方法文獻(xiàn)[13]方法準(zhǔn)確率召回率F值準(zhǔn)確率召回率F值創(chuàng)建時(shí)間7211.920.6479955.1國(guó)籍8484.684.30.02990.03出生年月9627.542.866.670.268.4所屬地區(qū)9895.396.637.79954.6
通過表6的實(shí)驗(yàn)結(jié)果可以看出,現(xiàn)有弱監(jiān)督學(xué)習(xí)的關(guān)系抽取系統(tǒng)獲得較高的召回率,然而,關(guān)系預(yù)測(cè)的準(zhǔn)確率非常低,這是由于沒有關(guān)系詞語(yǔ)的約束會(huì)導(dǎo)致關(guān)系識(shí)別錯(cuò)誤。尤其在“國(guó)籍”關(guān)系抽取中,句子中人名和地名共現(xiàn)的情況非常多,而僅有較少的句子表達(dá)國(guó)籍關(guān)系。文中方法的準(zhǔn)確率普遍較高,而且“國(guó)籍”關(guān)系和“所屬地區(qū)”關(guān)系抽取也取得了較高的召回率,總體抽取性能優(yōu)于現(xiàn)有弱監(jiān)督學(xué)習(xí)的關(guān)系抽取方法。此外,對(duì)于簡(jiǎn)單句子的抽取效果較好,復(fù)雜句子或長(zhǎng)句子的抽取效果不好。分詞、詞性標(biāo)注、實(shí)體標(biāo)注等自然語(yǔ)言預(yù)處理錯(cuò)誤對(duì)于關(guān)系抽取性能也會(huì)產(chǎn)生影響。
文中提出了一種弱監(jiān)督學(xué)習(xí)的關(guān)系抽取方法框架,該方法從中文網(wǎng)絡(luò)百科條目半結(jié)構(gòu)化的信息盒中提取關(guān)系三元組構(gòu)建知識(shí)庫(kù),利用關(guān)系三元組對(duì)百科文本中進(jìn)行回標(biāo),包含實(shí)體對(duì)和關(guān)系詞語(yǔ)的句子成為關(guān)系抽取的訓(xùn)練語(yǔ)料,該方法有效解決了訓(xùn)練語(yǔ)料自動(dòng)構(gòu)建的問題。針對(duì)訓(xùn)練語(yǔ)料較為稀疏從而導(dǎo)致特征不足的問題,提出了bootstrapping的訓(xùn)練語(yǔ)料優(yōu)化方法,該方法以已標(biāo)注的訓(xùn)練語(yǔ)料為正例,以部分未標(biāo)注數(shù)據(jù)為反例,訓(xùn)練貝葉斯分類器,然后從未標(biāo)注數(shù)據(jù)中提取新的正例,補(bǔ)充訓(xùn)練語(yǔ)料的不足。對(duì)于分類器特征提取問題,論文提出一種詞和詞性組合的n-gram特征,從正例和反例的句子中分別提取詞語(yǔ)和詞性組合的1/2/3-gram作為特征,訓(xùn)練分類器。實(shí)驗(yàn)結(jié)果表明優(yōu)化訓(xùn)練語(yǔ)料能夠提升關(guān)系抽取的性能。利用關(guān)系詞語(yǔ)對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行約束,與僅利用實(shí)體對(duì)共現(xiàn)獲取的訓(xùn)練語(yǔ)料進(jìn)行關(guān)系抽取相比,抽取準(zhǔn)確率有了顯著提高。
[1]RIEDEL S, YAO L, MCCALLUM A. Modeling relations and their mentions without labeled text[J]. Machine Learning and Knowledge Discovery in Databases, 2010, 6323: 148-163.
[2]ZHANG T, Regularized winnow methods[J]. Advance in Neural Information Processing Systems, 2001(13):703-709.
[3]KAMBHATLA N. Combining lexical, syntactic and semantic features with maximum entropy models for extracting relations[C] //Proceedings of the ACL, 2004 on Interactive Poster and Demonstration Sessions. Barcelona, Spain, 2004: 178-181.
[4]TRATZ S, HOVY E. ISI: automatic classification of relations between nominals using a maximum entropy classifier[C] //Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala, Sweden, 2010: 222-225.
[5]ZELENKO D, AONE C, RICHARDELLA A. Kernel methods for relation extraction [J]. Machine Learning, 2003(3):1083-1106.
[6]GIULIANO C, LAVELLI A, PIGHIN D, et al. FBK-IRST: Kernel methods for semantic relation extraction[C] //Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007). Prague, Czech, 2007: 141-144.
[7]程顯毅, 朱倩. 未定義類型的關(guān)系抽取的半監(jiān)督學(xué)習(xí)框架研究[J]. 南京大學(xué)學(xué)報(bào):自然科學(xué)版, 2012, 48(4): 466-474. CHENG Xianyi, ZHU Qian. A study of relation extraction of undefined relation type based on semi-supervised learning framework[J]. Journal of Nanjing University: Natural Sciences, 2012, 48(4): 466-474.
[8]BOLLEGALA D, MATSUO Y, ISHIZUKA M. Relational duality: unsupervised extraction of semantic relations between entities on the Web[C] //Proceedings of the 19th World Wide Web Conference. New York, 2010: 151-160.
[9]YAN Y, OKACAKI N, MATSUO Y, et al. Unsupervised relation extraction by mining Wikipedia texts using information from the Web[C] //Proceedings of the Joint Conference of the 46th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Singapore, 2009: 1021-1029.
[10]CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C] //Proceedings of the 7th International Conference on Intelligent Systems for Molecular Biology. Palo Alto, CA, 1999: 77-86.
[11]WU F, DANIEL S W. Autonomously semantifying wikipedia[C] //Proceedings of the ACM Sixteenth Conference on Information and Knowledge Management. New York, 2007: 41-50.
[12]BUNESCU R C, MOONEY R J. Learning to extract relations from the web using minimal supervision[C] //Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, 2007: 567-570.
[13]MINTZ M, BILLS S, SNOW R. Distant supervision for relation extraction without labeled data[C] //Proceedings of the 47th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, 2009: 1003-1011.
[14]YAO LM, RIEDEL S, MCAALLUM A. Collective cross document relation extraction without labeled data[C] //Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, 2010: 1013-1023.
[15]SURDANU M, MCCLOSKY D, TIBSHIRANI J, et al. A simple distant supervision approach for the TAC-KBP slot filling task [C] //Proceedings of the Text Analysis Conference 2010-Knowledge Base Population Worksho.[s.l.], 2010:1-5.
[16]陳立瑋, 馮巖松, 趙東巖. 基于弱監(jiān)督學(xué)習(xí)的海量網(wǎng)絡(luò)數(shù)據(jù)關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(9): 1825-1835. CHEN Liwei, FENG Yansong, ZHAO Dongyan. Extracting relations from the web via weakly supervised learning[J]. Journal of Computer Research and Development, 2013, 50(9): 1825-1835.
[17]尹紅風(fēng), 賈真, 李天瑞, 等. 西南交通大學(xué)中文分詞[EB/OL]. [2012-07-24]. http://ics.swjtu.edu.cn. YIN Hongfeng, JIA Zhen, LI Tianrui, et al. Southwest Jiaotong University Chinese Segmentation [EB/OL]. [2012-07-24]. http://ics.swjtu.edu.cn.
[18]CHE W X, LI Z H, LIU T. LTP: a Chinese language technology platform[C]//Proceedings of the Coling 2010.[s.l.], 2010: 13-16.
[19]田久樂, 趙蔚. 基于同義詞詞林的詞語(yǔ)相似度計(jì)算方法[J]. 吉林大學(xué)學(xué)報(bào): 自然科學(xué)版, 2010, 28(6): 602-608. TIAN Jiule, ZHAO Wei. Words similarity algorithm based on Tongyici Cilin in semantic Web adaptive learning system[J]. Journal of Jilin University: Inform ation Science Edition, 2010, 28(6): 602-608.
[20]張雪英, 閭國(guó)年. 基于字面相似度的地理信息分類體系自動(dòng)轉(zhuǎn)換方法[J].遙感學(xué)報(bào), 2008, 12(3): 433-440. ZHANG Xueying, LU Guonian. Approach to automatic conversion of geographic information classification schemes[J]. Journal of Remote Sensing, 2008, 12(3): 433-440.
[21]LAFFERTY J, PEREIRA F, MCCALUM A. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th International Conference on Machine Learning. San Francisco: AAAI Press, 2001: 282-289.
[22]張佳寶. 基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別研究 [D]. 長(zhǎng)沙:國(guó)防科技大學(xué), 2010:45-59. ZHANG Jiabao. The research on conditional random fields based Chinese named entity recognition[D]. Changsha: National University of Defense Technology, 2010: 45-59.
賈真, 1975年生,女,講師,主要研究方向?yàn)閮?nèi)容安全、信息抽取、知識(shí)工程。四川省計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專委會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專委會(huì)委員。
何大可, 1944年生,男,教授,博士生導(dǎo)師,中國(guó)密碼學(xué)會(huì)副理事長(zhǎng)、學(xué)術(shù)委員會(huì)委員,信息安全國(guó)家重點(diǎn)實(shí)驗(yàn)室第四屆學(xué)術(shù)委員會(huì)委員,全國(guó)并行計(jì)算專業(yè)委員會(huì)委員,中國(guó)電子學(xué)會(huì)高級(jí)會(huì)員。受聘為四川省商用密碼專家小組成員,四川省保密技術(shù)專家咨詢小組成員。主要研究方向?yàn)樾畔踩?nèi)容安全、并行計(jì)算。曾獲陜西省及國(guó)家教委科技進(jìn)步二等獎(jiǎng)、國(guó)家自然科學(xué)四等獎(jiǎng),鐵道部科技進(jìn)步三等獎(jiǎng)、詹天佑人才獎(jiǎng)。發(fā)表學(xué)術(shù)論文240余篇,出版專著3部。
楊燕, 1964年生,女,教授,博士生導(dǎo)師,博士,主要研究方向?yàn)閿?shù)據(jù)挖掘、計(jì)算智能、集成學(xué)習(xí)。ACM成都分部副主席,中國(guó)計(jì)算機(jī)學(xué)會(huì)人工智能與模式識(shí)別專委會(huì)委員和理論計(jì)算機(jī)科學(xué)專委會(huì)委員,中國(guó)人工智能學(xué)會(huì)機(jī)器學(xué)習(xí)專委會(huì)委員和粗糙集與軟計(jì)算專委會(huì)委員。曾獲四川省優(yōu)秀教學(xué)成果二等獎(jiǎng),校優(yōu)秀教學(xué)成果一、二等獎(jiǎng),發(fā)表學(xué)術(shù)論文120余篇,出版專著1部。
based on weakly supervised learnin
JIA Zhen,HE Dake,YANG Yan,YANG Yufei,YE Zhonglin
(School of Information and Science Technology, Southwest Jiaotong University, Chengdu 610031, China)
Entity relation extraction plays an important role in the fields of information retrieval, automatic question answering and ontology learning. An entity relation extraction frame based on weakly-supervised learning is proposed in the paper. First, training data are acquired automatically from natural language texts by using relation triples in structured knowledge base. To solve the problem that the number of training data is small and features are insufficient, a bootstrapping method is used to train sentence classifiers based on naive Bayes model. This method can acquire more training data from unlabelled data. The relation extractors are trained by using conditional random fields (CRF) model. The experiment results showed that the method is feasible and effective. Compared with the existing methods state-of-the-art method, the proposed method achieves high accuracy.
knowledge acquisition; information extraction; relation extraction; weakly supervised learning; bootstrapping; Chinese online encyclopedia; conditional random fields; naive Bayes
2013-11-07.
日期:2015-01-13.
國(guó)家自然科學(xué)基金資助項(xiàng)目(61170111, 61134002, 61202043, 61262058).
賈真.E-mail:zjia@home.swjtu.edu.cn.
10.10.3969/j.issn.1673-4785.201311017
http://www.cnki.net/kcms/detail/23.1538.TP.20150113.1130.008.html
TP391
A
1673-4785(2015)01-0113-07
賈真,何大可,楊燕,等.基于弱監(jiān)督學(xué)習(xí)的中文網(wǎng)絡(luò)百科關(guān)系抽取. 智能系統(tǒng)學(xué)報(bào), 2015, 10(1): 113-119.
英文引用格式:JIA Zhen,HE Dake,YANG Yan,et al.Relation extraction from Chinese online encyclopedia based on weakly supervised learnin[J]. CAAI Transactions on Intelligent Systems, 2015, 1(6): 113-119.