張葦如,孫 樂,韓先培
(1. 中國科學(xué)院 軟件研究所,北京 100190;2. 中國科學(xué)院 研究生院,北京 100049)
信息抽取研究技術(shù)是人們獲取信息的有力工具,是應(yīng)對信息爆炸帶來的嚴(yán)重挑戰(zhàn)的重要手段。信息抽取的目標(biāo)是從無結(jié)構(gòu)自然語言文本中提取計算機可理解的結(jié)構(gòu)化信息,其中一種主要的結(jié)構(gòu)化信息是實體語義關(guān)系。例如,實體間的上下位關(guān)系(is-a)、局部—整體關(guān)系(part-of)以及更具體的作者—作品關(guān)系(author-of)、首都—國家關(guān)系(capital-of)等。實體關(guān)系抽取是自動知識本體構(gòu)建的基礎(chǔ),同時也可應(yīng)用到問答、信息檢索等多個領(lǐng)域。
近年來,隨著關(guān)系抽取任務(wù)逐步從限定領(lǐng)域走向開放領(lǐng)域,實體關(guān)系抽取研究主要關(guān)注如下幾個要點: (1)抽取性能。抽取的實體對必須保證高準(zhǔn)確率與召回率。由于本文研究面向開放文本的關(guān)系抽取,且以知識庫構(gòu)建為目標(biāo),所以準(zhǔn)確率比召回率更為關(guān)鍵;(2)監(jiān)督最小化。由于開放領(lǐng)域中關(guān)系類別數(shù)目巨大,且依賴于人工標(biāo)注語料的方法耗費大量人力和時間,因此開放領(lǐng)域信息抽取主要關(guān)注如何減少或不使用人工標(biāo)注來構(gòu)建高性能抽取系統(tǒng)。目前大部分方法采用無監(jiān)督的機器學(xué)習(xí)或信息冗余的自舉迭代;(3)文本適用性??紤]到開放領(lǐng)域所面對的文本的多樣性,抽取算法應(yīng)能適用于不同風(fēng)格、不同領(lǐng)域的自然語言文本;(4)關(guān)系的多樣性。關(guān)系抽取算法的性能不能受限于關(guān)系類型,不僅在上下位(is-a)、同義(synonym)這樣基本的語義關(guān)系上,而且在電影—導(dǎo)演(director-film)、出生日期(was-born-on)這些關(guān)系上也能取得好的抽取效果。
傳統(tǒng)方法通常采用自舉迭代的模式匹配方法在自然語言文本上抽取關(guān)系實例。在第一次迭代中,該方法使用少量的關(guān)系實例作為種子,利用實體共現(xiàn)信息在海量文本中尋找關(guān)系的句子實例,從而借助句子實例構(gòu)建抽取模式,用以抽取新的關(guān)系實例。在下一次迭代中,新抽取的關(guān)系實例將被加入種子集合以構(gòu)建新的抽取模式,進一步抽取更多的關(guān)系實例。
然而,上述基于模式匹配的方法有如下缺點。1)句子實例的獲取過程依賴于實體識別的準(zhǔn)確性, 因為不正確的實體識別會導(dǎo)致錯誤的句子實例識別;2)包含關(guān)系實體對的句子不一定準(zhǔn)確表示目標(biāo)關(guān)系,這就導(dǎo)致構(gòu)造的模式可能是不顯著或錯誤的,并因此造成整個迭代過程的錯誤傳播,影響抽取結(jié)果。例如,在目標(biāo)關(guān)系capital-of的抽取中,存在關(guān)系實體對“北京—中國”共現(xiàn)的句子“北京是中國的政治中心”,并未準(zhǔn)確表示目標(biāo)關(guān)系,若不加以區(qū)分會被錯誤地歸于正例集合,從而降低抽取性能。
針對上述問題,本文充分利用維基百科的結(jié)構(gòu)化特征,通過挖掘維基百科結(jié)構(gòu)化數(shù)據(jù)生成句子實例,使得句子實例同時具有準(zhǔn)確性和顯著性。正如Medelyan等[1]所述,維基百科的結(jié)構(gòu)特點恰好可以克服命名實體識別的問題。每一個維基頁面代表一個概念即實體,在它的描述語句中出現(xiàn)的其他實體,以超鏈接的方式標(biāo)注。利用上述特性,我們就可以自動地識別出實體對,且共現(xiàn)的實體對通常都是顯著的。同時,為了進一步提升模式的可信度,我們提出了兩個假設(shè): 1)模式的顯著性假設(shè),表示一個關(guān)系的模式通常會在句子實例中出現(xiàn)多次;2)關(guān)鍵詞假設(shè),關(guān)系的模式通常以某個特定的關(guān)鍵詞為核心。在此基礎(chǔ)上,我們提出了基于關(guān)鍵詞的分類和層次聚類算法,對模式進行過濾和泛化。
我們選取五種不同的關(guān)系進行抽取實驗: 整體—部分關(guān)系(part-of)、材料—成品關(guān)系(production)、首都—國家關(guān)系(capital-of)、地理位置關(guān)系(located-in)、出生日期關(guān)系(was-born-on)。我們在中文維基百科及搜狗全網(wǎng)新聞?wù)Z料庫(Sogou_CA)上進行新實例對的抽取,大多數(shù)關(guān)系的抽取得到了良好的實驗效果。
早期的方法采用人工標(biāo)注的數(shù)據(jù)作為初始輸入,但這樣做耗費大量的人力、時間成本。DIPRE和Snowball[2]使用少量的種子實例,通過自舉迭代產(chǎn)生新的實例與模式。Ruiz-Casado等[3]將WordNet中的關(guān)系實例映射到Wikipedia中,并抽取實例出現(xiàn)的上下文作為輸入。實驗總共抽取出1 200 個新的關(guān)系對,正確率在61%~69%之間。Yan等[4]不使用任何先驗知識,提出一種無監(jiān)督的關(guān)系抽取方法,并借助維基百科及互聯(lián)網(wǎng)語料進行聚類。
在提升模式質(zhì)量方面,DIPRE和Snowball在每次迭代中,選取可信度高的實例加入正例集合,產(chǎn)生的模式在下一輪迭代中使用,其中,可信度高低由匹配到的模式數(shù)量決定。這種方法的問題在于對信息冗余的依賴性很大。由此,Pantel和Pennacchiotti[5]提出的Espresso 方法采用了Web Expansion策略,在整個Web上獲取冗余信息來挖掘大量的文本模式,并利用互信息判斷模式和實例的可信度。該方法的潛在問題是,Web上抽取的模式不一定能在當(dāng)前領(lǐng)域的小數(shù)據(jù)集上可用。
在正例反例的區(qū)分上,Shchanek等[6]提出的LEILA包含發(fā)現(xiàn)、訓(xùn)練、測試三個階段,在發(fā)現(xiàn)階段,利用與先驗知識產(chǎn)生沖突的關(guān)系實例生成反例。王剛[7]等提出了一種基于正例的關(guān)系抽取方法,用以在維基百科中抽取關(guān)系實例。
正如上一章所言,維基百科為信息抽取提供了一個非常適合的平臺。我們借鑒Ruiz-Casado從人工標(biāo)注知識體系到Web用戶生成的內(nèi)容文本(UGC)進行映射的思想,挖掘知網(wǎng)中豐富的語義關(guān)系,將其映射到維基百科。我們利用維基百科的結(jié)構(gòu)化信息生成句子實例,解決實體識別的問題。為了進一步提升模式質(zhì)量,我們提出了模式的顯著性假設(shè)與關(guān)鍵詞假設(shè),利用基于關(guān)鍵詞的分類、層次聚類算法對模式進行過濾與泛化。
我們提出的關(guān)系抽取策略共分為以下幾個步驟。
1. 關(guān)系實例獲取。在知網(wǎng)中挖掘潛在的語義關(guān)系實體對,作為關(guān)系抽取的實例種子。
2. 句子實例獲取。利用實體消歧技術(shù),實現(xiàn)《知網(wǎng)》到維基百科的實體映射,并利用維基百科的結(jié)構(gòu)化特性挖掘句子實例。
3. 模式構(gòu)建與挖掘。采用基于關(guān)鍵詞的分類和層次聚類算法對模式進行過濾與泛化。
4. 新實例抽取。利用構(gòu)建的模式,在自然語言文本中挖掘新的關(guān)系實體對。
語義關(guān)系挖掘是指借助《知網(wǎng)》的概念描述體系,獲取概念之間的潛在關(guān)系。除了本身所定義的16種顯式關(guān)系外,《知網(wǎng)》中還存在大量隱式的語義關(guān)系。例如,在下面的概念描述中:
CPUpart|部件,%computer|電腦,heart|心
通過包含關(guān)系符號“%”,我們可以推斷得知“CPU”是“電腦”的一部分。本文的目標(biāo)是實體間的語義關(guān)系,因此我們更多地關(guān)注涉及命名實體的隱式語義關(guān)系。通過制定規(guī)則,我們從《知網(wǎng)》中挖掘出大量潛在的語義關(guān)系實體對。
我們首先對維基百科數(shù)據(jù)進行如下處理: (1)所有的繁體字符轉(zhuǎn)換為簡體;(2)處理重定向頁面之間的鏈接關(guān)系;(3)對于消歧頁,將其釋義關(guān)聯(lián)到對應(yīng)頁面;(4)抽取每個詞條及其對應(yīng)文本,進行分詞、詞性標(biāo)注及命名體識別。
為了實現(xiàn)實例映射,我們在維基百科中尋找 3.1 節(jié)得到的實體對,只有當(dāng)關(guān)系實例中的兩個實體都能與維基百科中的詞條對應(yīng)時,才進行映射。這樣做是為了保證隨后抽取的句子實例的質(zhì)量,避免因為實體歧義造成的錯誤。沿用上面的例子,實體對(CPU,電腦)中的兩個實體都能在維基百科的詞條中找到。其中,如圖1所示,“CPU”有多個義項。
圖1 詞條“CPU”的多個釋義
我們采用一種基于字面匹配的算法Lesk進行消歧[8],并選取維基百科中的釋義及知網(wǎng)中的描述作為消歧上下文。經(jīng)過消歧,我們選取“中央處理器”義項。這種算法雖然簡單,但是由于有豐富的解釋性上下文,因此可以得到理想的實體消歧效果。
經(jīng)過消歧與映射,我們得到了維基百科中高質(zhì)量的關(guān)系實例,接下來,抽取其對應(yīng)文本中共現(xiàn)的句子作為句子實例。之所以選擇維基百科作為句子實例的數(shù)據(jù)源,是因為維基百科中包含大量結(jié)構(gòu)良好的信息: 每一個維基頁面表示一個主題,即實體,在文本中出現(xiàn)的其他重要實體,都以超鏈接的方式標(biāo)注。利用這種超鏈接結(jié)構(gòu),我們就可以避免實體識別的錯誤,同時保證句子內(nèi)實體對之間關(guān)系模式的顯著性(維基百科只對重要實體進行鏈接)。
為了構(gòu)建關(guān)系抽取的模式,傳統(tǒng)的啟發(fā)式方法對句子實例進行詞性標(biāo)注,并用通配符替換實體對出現(xiàn)的位置來構(gòu)建模式。例如,“北京是中國的首都”的模式構(gòu)建結(jié)果為“object 是/v target 的/u 首都/n”。
但是,上述方法構(gòu)建的模式有如下缺點: 1)通用性不足,需要泛化。例如,上述模式無法從句子實例“伯尼爾是歐洲聯(lián)邦制國家瑞士的首都”中抽取出關(guān)系實例(尼泊爾,瑞士),盡管這兩個句子的構(gòu)造只有細微差別;2)準(zhǔn)確性不足。這是因為僅僅基于共現(xiàn)得到的句子實例通常包含大量噪聲和反例。例如,從“北京是中國政治文化的中心”中得到的模式并未表示北京和中國之間的capital-of關(guān)系。
為此,我們提出了基于關(guān)鍵詞的分類和層次聚類算法。我們的方法基于下面兩個假設(shè): 1)模式的顯著性假設(shè):表示一個關(guān)系的某種模式會在句子實例中出現(xiàn)多次;2)模式的關(guān)鍵詞假設(shè): 模式通常以某個特定的關(guān)鍵詞為核心。基于上述兩個假設(shè),我們利用基于關(guān)鍵詞的分類與層次聚類方法,過濾可信度低的模式,并在此基礎(chǔ)上對模式進行泛化。
3.3.1 關(guān)鍵詞的選擇
我們觀察到,特定關(guān)系的模式通常是以關(guān)鍵詞為核心的。例如,上下位關(guān)系中通常含有關(guān)鍵詞“is a”,位置關(guān)系中可能含有關(guān)鍵詞“位于”?;陉P(guān)鍵詞的分類能找到無論在語義還是結(jié)構(gòu)上都相似的模式?;谏鲜龇治?,選擇關(guān)鍵詞是模式過濾與泛化的重要步驟。本文采用一種基于熵的特征選擇[9]方法來確定關(guān)鍵詞。其基本思想如下: 假設(shè)P={p1,p2,…,pN}為所有模式的集合,W={w1,w2,…,wM}為P中所有模式的詞集合。本文利用如下公式計算P的熵值,其中,Si,j為pi,pj之間的相似度函數(shù)。
(1)
該方法從P集合中依次去掉W集合中的每個元素,計算得到{E1,E2,…,EM},進行排序,Ei值越大,則wi越重要。我們選取對E值提升貢獻最大的K個名詞或動詞作為目標(biāo)關(guān)系的關(guān)鍵詞。
3.3.2 基于關(guān)鍵詞的過濾
對特定的目標(biāo)關(guān)系,本文首先對其候選模式進行基于關(guān)鍵詞的分類: 按關(guān)鍵詞的排序,包含該關(guān)鍵詞的模式被歸為一類,每個模式至多只能屬于一個類。具體算法如下:
輸入: 特定關(guān)系的候選模式集合P = {p1, p2,…,pn}, 關(guān)鍵詞集合K = {k1, k2,…,km},
輸出: 基于關(guān)鍵詞分類得到的類Class= {class1,class2,…,classm};
Begin
初始化類的集合 Class = { class1,class2,…,classm} ( classi=? 1<=i<=m+1 )
fori∈[1,m]do
forp∈Pdo
ifp包含kithen
classi←classi∪{p} P.remove(p)
returnClass
End
包含同一個關(guān)鍵詞的模式也可能有多種。例如,對于關(guān)鍵詞“首都”,可能存在“object 是/v target 的/u 首都/n”,“target 的/u 首都/n 是/v object”等多種模式。因此,針對每個基于關(guān)鍵詞的類,我們對其內(nèi)部樣本再進行層次聚類, 合并相似的模式,同時過濾出現(xiàn)頻率較低的不可信模式。
具體算法如下:
輸入: 基于某個關(guān)鍵詞的模式集合P = {p1, p2,…,pn}, 閾值t1,t2
輸出: 聚類后得到的簇Cluster={cluster1,cluster2,…};
Begin
初始化簇的集合 Cluster={cluster1,cluster2, clustern} ( clusteri= {pi} 1<=i<=n)
whilemin<=t1do
ifminclusteri,clusterjClusterdiscomplete-linkage(clusteri, …,clusterj) <=t1then
merge(clusteri, clusterj)
forcluster∈Clusterdo
ifsize(cluster) < t2thenCluster.remove(cluster)
returnCluster
End
距離的計算采用完全連鎖(Complete-Linkage)即最大距離,保證一個簇中的模式兩兩之間都具有較高的相似性,其計算公式為:
max(d(a,b):a∈A,b∈B)
(2)
其中,d(a,b)表示模式a,b的編輯距離。
3.3.3 基于編輯距離的泛化
本文在普通的編輯距離算法基礎(chǔ)上,加入詞性的影響,具體公式如下:
其中
我們對Ruiz-Casado[3]的方法做出了一些改進,基于上面的編輯距離計算公式進行模式泛化。其基本思想是,在編輯距離矩陣中反向?qū)ふ揖庉嬀嚯x最短路徑,同步進行保留、添加、刪除、修改操作,最終得到泛化后的模式。
假設(shè)有如下兩個模式:
object/nx 是/v 位于/v target/nx 南部/f 的/u 一個/NUM 州/n
object/nx 是/v target/nx 西北部/f 的/u 一個/NUM 地區(qū)/n
泛化后的結(jié)果如箭頭所示,圖2展示了編輯距離計算及模式泛化的過程。
圖2 編輯距離的一個計算示例
最后,我們利用生成的模式進行新關(guān)系實例的抽取。對象可以是維基百科也可以是其他語料或Web文本。一旦任意模式匹配成功,object和target所對應(yīng)的實體就被作為目標(biāo)關(guān)系的一個實例抽取。最終得到的結(jié)果將是新關(guān)系實例的列表。
我們使用中文維基百科2011年1月10日的版本作為實驗數(shù)據(jù)(總共包含714 682個詞條),另外還加入了1.1G的搜狗全網(wǎng)新聞?wù)Z料(Sogou_CA)。實驗過程中,我們使用中國科學(xué)院自動化所開發(fā)的漢語分詞、詞性標(biāo)注、命名實體識別一體化軟件NlprCSegTagNer2.0對語料進行預(yù)處理。
實驗分為三部分: 關(guān)系實例映射,模式性能驗證,新實例抽取。
為了驗證《知網(wǎng)》中關(guān)系實例的挖掘性能以及從《知網(wǎng)》到維基百科的實體映射性能,我們選取了首都—國家(capital-of)、位置關(guān)系(located-in)、整體—部分關(guān)系(part-of)、材料—成品關(guān)系(production)、屬性—宿主關(guān)系(attribute-host)以及出生日期關(guān)系(was-born-on)作為目標(biāo)關(guān)系,結(jié)果如表1所示。前五種關(guān)系從知網(wǎng)中挖掘而來, 括號內(nèi)是關(guān)系實例成功映射到維基百科中的比率。出生日期關(guān)系直接從維基百科的分類信息中得到。
表1 關(guān)系實例挖掘與映射數(shù)量
由表1數(shù)據(jù),我們可以看出: 1)《知網(wǎng)》及維基百科的結(jié)構(gòu)化信息中蘊含了大量的潛在關(guān)系實例,為抽取提供了良好的初始樣本;2)《知網(wǎng)》和維基百科的數(shù)據(jù)存在大量冗余,特別是維基百科幾乎覆蓋了《知網(wǎng)》中的命名實體;3)命名實體消歧可以很好地實現(xiàn)《知網(wǎng)》到維基百科的映射: 對于有歧義的詞,我們使用的消歧算法達到82%的正確率,且大多錯誤是由于維基百科本身不存在與之對應(yīng)的概念造成的。
為了檢驗?zāi)J降男阅?,我們利用維基百科的結(jié)構(gòu)化信息得到句子實例,進一步地通過基于關(guān)鍵詞的分類與層次聚類算法過濾和泛化模式。表2是首都—國家關(guān)系(capital-of)的模式,其中,1~3是使用我們提出的方法獲得的模式,4~8由一種簡單的層次聚類算法生成。
表2 capital-of關(guān)系的泛化模式
續(xù)表
從表2可以看出,由于失去了關(guān)鍵詞的依托,層次聚類終止條件的閾值設(shè)置較大可能造成過度泛化,包含大量反例與不顯著的模式,因而影響準(zhǔn)確性;而低閾值對模式的篩選過于苛刻,遺漏一些有用模式,降低了通用性。這一實驗結(jié)果充分表明了,我們提出的基于關(guān)鍵詞的分類與層次聚類算法能有效地進行過濾與泛化,得到通用且準(zhǔn)確的模式。
表3是在維基百科和搜狗全網(wǎng)新聞?wù)Z料庫上的實驗結(jié)果。其中,capital-of關(guān)系在維基百科和搜狗語料中抽取的新實例個數(shù)分別占49%,57%;was-born-on分別占73%, 99%。其他關(guān)系在兩個數(shù)據(jù)集上抽取的關(guān)系對基本完全不同于種子數(shù)據(jù),即所占比率達到100%。
表3 抽取效果
分析實驗結(jié)果,我們可以得到以下結(jié)論。
(1) 本文提出的方法能夠取得良好的關(guān)系抽取性能
對于capital-of, located-in, was-born-on,無論是在維基百科數(shù)據(jù)集,還是在更為冗余的Web語料中,我們的方法都抽取出大規(guī)模高質(zhì)量的關(guān)系實例。通過分析,我們認(rèn)為高準(zhǔn)確率得益于高質(zhì)量的模式。這也就證明了利用維基百科作為句子實例的來源能有效地提高實體識別的準(zhǔn)確性和顯著性,而基于關(guān)鍵詞的過濾與泛化策略能在模式的可信度和覆蓋度之間取得好的平衡。尤其是對capital-of這種具體的關(guān)系類型,我們提出的方法非常有效,準(zhǔn)確率在90%以上。少量錯誤源于特殊的上下文語境,例如,“許多人認(rèn)為悉尼是澳大利亞的首都”。located-in關(guān)系在維基百科中的準(zhǔn)確率較搜狗語料更高,是由于維基百科文本相對噪聲較少。而was-born-on在搜狗新聞?wù)Z料中反而得到更高的準(zhǔn)確率,因為這種關(guān)系在搜狗語料中呈現(xiàn)的模式較為單一。例如,容易造成抽取錯誤的模式“target/ PER ( / w object/TIM ”在搜狗語料中出現(xiàn)的概率很低。
(2) 基于自舉的模式構(gòu)建方法并不適用于所有的關(guān)系抽取
實驗結(jié)果中,Production關(guān)系抽取的準(zhǔn)確率和數(shù)量都不理想。據(jù)我們所知,目前針對這種關(guān)系的相關(guān)研究也都沒有取得比較好的實驗效果。究其原因,這類關(guān)系很少在文本中以實例共現(xiàn)的形式出現(xiàn),因此無法生成適當(dāng)?shù)哪J接靡猿槿嵗?/p>
(3) 抽取效果通過深入挖掘能得到進一步提升
抽取到的實例中蘊含豐富的語義信息。對capital-of關(guān)系進行挖掘,我們能得到大量別名信息。例如,“華盛頓”、“華盛頓市”、“華盛頓特區(qū)”、“華盛頓哥倫比亞特區(qū)”等。Part-of, located-in關(guān)系可以進行傳遞,例如,LocatedIn(費城,賓夕法尼亞州)和LocatedIn(賓夕法尼亞州,美國)進行傳遞,生成關(guān)系LocatedIn(費城,美國)。在大量的part-of實例中,存在短語構(gòu)成的實例對,如(千佛山,濟南的三大名勝)。如果引入語法信息,增強對模式的約束,抽取效果能得到進一步提升。
本文提出了一種基于維基百科的抽取策略,旨在從開放文本中抽取高正確率的中文關(guān)系實體對。具體來說,我們首次提出了從人工標(biāo)注知識體系知網(wǎng)到維基百科實體映射的方法獲取關(guān)系實例,通過充分利用維基百科的結(jié)構(gòu)化特性,我們的方法很好地解決了實體識別的準(zhǔn)確性問題,產(chǎn)生了準(zhǔn)確和顯著的句子實例;進一步,我們提出了模式的顯著性假設(shè)和關(guān)鍵詞假設(shè),在此基礎(chǔ)上構(gòu)建了基于關(guān)鍵詞的分類及層次聚類算法,顯著提升了模式的可信度。實驗結(jié)果表明我們的方法無論是在數(shù)量上還是準(zhǔn)確率上都達到了良好的關(guān)系抽取性能。
在下一步工作中,我們希望對關(guān)系實例進行進一步挖掘,以提升抽取準(zhǔn)確率并獲取更多語義信息。另外,我們還將嘗試抽取其他類別的關(guān)系實例。
[1] O. Medelyan, D. Milne, C. Legg, et al. Mining Meaning from Wikipedia [J].International Journal of Human-Computer Studies, September 2009, 67(9): 716-754.
[2] E. Agichtein, L. Gravano. Snowball: Extracting Relations from Large Plain-Text Collections[C]//Proceedings of the fifth ACM conference on Digital libraries. New York, NY, USA: ACM, 2000: 85-94.
[3] M. Ruiz- Casado, E. Alfonseca, P. Castells. Automatic Extraction of Semantic Relationships for WordNet by Means of Pattern Learning from Wikipedia[J] .Natural Language Processing and Information Systems 2005, 3513: 233-242.
[4] Y. Yan, N. Okazaki, Y. Matsuo, et al. Unsupervised Relation Extraction by Mining Wikipedia Texts Using Information from the Web[C]//Proceeding of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 2-Volume 2.
[5] P. Pantel, M. Pennacchiotti. Espresso: Leveraging Generic Patterns for Automatically Harvesting Semantic Relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, 2006:113-120.
[6] F. M. Suchanek, G. Ifrim, G. Weikum. LEILA: Learning to Extract Information by Linguistic Analysis [J]. ACL, 2006:18-25.
[7] G. Wang, Y. Yu, H. Zhu. PORE: Positive-Only Relation Extraction from Wikipedia Text. Lecture Notes in Computer Science[C]//Proceedings of Lecture Notes in Computer Science, 2007, Volume 4825:580-594.
[8] Kilgarriff, J. Rosenzweig. English SENSEVAL: Report an Results.[C]//Proceedings of the 2nd International Conference on Language Resourcesand Evaluation, LREC, Athens, Greece. 2000.
[9] J. X. Chen, D. H. Ji, C. L. Tan, et al. Unsupervised Feature Selection for Relation Extraction[C]//IJCNLP, 2005.
[10] F. M. Suchanek, G. Kasneci, G.Weikum. YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia [J]. Proceeding WWW ’07 Proceedings of the 16th international conference on World Wide Web,2007:697-706.
[11] F. M. Suchanek, G. Ifrim, G. Weikum. Combining linguistic and statistical analysis to extract relations from web documents [J]. Proceeding of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 2006:712-717.
[12] M. Banek, D. Juric, Z. Skocir. Learning Semantic N-Ary Relations from Wikipedia [J]. Database and Expert Systems Applications 2010, 6261:470-477.
[13] D. P. T. Nguyen, Y. Matsuo, M. Ishizuka. Subtree Mining for Relation Extraction from Wikipedia[C]//Proceedings of NAACL-Short ’07 Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Companion: 125-128.
[14] J. X. Huang, P. M. Ryu, K. S. Choi. An Empirical Research on Extracting Relations from Wikipedia Text [J]. IDEAL Intelligent Data Engineering and Automated Learning-IDEAL 2008, 5326: 241-249.
[15] 王剛.自動抽取維基百科文本中的語義關(guān)系[D].上海交通大學(xué)碩士學(xué)位論文,2008.
[16] 董振東, 董強.《知網(wǎng)》[EB/OL]. http://www.keenage.com.