• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      開放式信息抽取研究進(jìn)展

      2014-02-28 05:12:43蔡東風(fēng)
      中文信息學(xué)報(bào) 2014年4期
      關(guān)鍵詞:知識庫句法短語

      楊 博,蔡東風(fēng),楊 華

      (1. 沈陽航空航天大學(xué) 知識工程研究中心,遼寧 沈陽 110136;2. 沈陽航空航天大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 沈陽 110136)

      1 引言

      從自由文本中抽取有用的結(jié)構(gòu)化信息在當(dāng)前大數(shù)據(jù)時(shí)代已獲得廣泛關(guān)注,這種淺層語義表示是文本蘊(yùn)含、知識庫構(gòu)建、問答等復(fù)雜語義任務(wù)的重要基礎(chǔ)。但傳統(tǒng)的有監(jiān)督方法并不能勝任海量信息抽取,主要是受限于訓(xùn)練數(shù)據(jù)。近年來有兩種無監(jiān)督的文本理解方法關(guān)注于淺層語義,即機(jī)器閱讀[1]和閱讀式學(xué)習(xí)[2]。兩者的差異在于:首先是對文本的表示方式不同,機(jī)器閱讀需表示成固定的實(shí)體—關(guān)系三元組結(jié)構(gòu)(Arg1, Rel, Arg2),而閱讀式學(xué)習(xí)需根據(jù)依存句法樹表示成更為靈活的關(guān)系—實(shí)體結(jié)構(gòu),可以抽取多于兩個(gè)實(shí)體的關(guān)系對,而且關(guān)系并不限于動(dòng)詞短語,而是基于依存的關(guān)系對(中心詞、關(guān)系、修飾詞);其次是文本領(lǐng)域的不同,機(jī)器閱讀不限制主題與領(lǐng)域,而閱讀式學(xué)習(xí)僅關(guān)注限定領(lǐng)域的文本以構(gòu)建特定主題的語義模型。

      雖然有時(shí)僅僅通過基于動(dòng)詞的實(shí)體關(guān)系不能完整地表達(dá)語義信息,但機(jī)器閱讀的主要貢獻(xiàn)是對抽取模式的發(fā)展,即能適應(yīng)大規(guī)模文本的開放式信息抽取(Open Information Extraction, OIE)[3]。與機(jī)器閱讀互補(bǔ)的是,以依存分析為基礎(chǔ)的閱讀式學(xué)習(xí)含有豐富的句法特征,這樣可以保證信息量及準(zhǔn)確性,但其代價(jià)就是抽取效率的下降。因此,既要適應(yīng)從海量文本中高效地抽取淺層語義信息,也要盡量抽取細(xì)微的完整信息,以利于后續(xù)深層語義任務(wù)的進(jìn)行,是本文主要探討的內(nèi)容。

      開放式信息抽取按關(guān)系參數(shù)復(fù)雜程度可分為二元、多元等類別,本文第二部分將按此路線對典型的OIE系統(tǒng)予以闡述;鑒于目前主流的OIE系統(tǒng)尚無法實(shí)現(xiàn)隱含關(guān)系抽取,本文第三部分將介紹采用Markov邏輯、本體推理等聯(lián)合推理方式進(jìn)行深層隱含信息抽取的新方法;第四部分進(jìn)行總結(jié)與展望。

      2 開放式實(shí)體關(guān)系抽取

      傳統(tǒng)的信息抽取是在限定文本領(lǐng)域、限定語義單元類型的條件下進(jìn)行的,這顯然不適用于無法預(yù)先定義實(shí)體-關(guān)系類型的大規(guī)模文本。尤其是隨著互聯(lián)網(wǎng)的飛速發(fā)展,如何從海量的非結(jié)構(gòu)化Web文本中快速、自動(dòng)、準(zhǔn)確地抽取有用信息就顯得尤為重要。華盛頓大學(xué)在開放式信息抽取領(lǐng)域積累了許多頗具代表性的成果,以下按時(shí)間順序?qū)IE的幾個(gè)具有里程碑意義的系統(tǒng)予以介紹與分析。

      2.1 二元開放式實(shí)體關(guān)系抽取

      2.1.1 KnowItAll和TextRunner

      KnowItAll[4]是由傳統(tǒng)信息抽取向開放式信息抽取過度的一個(gè)有益嘗試: 為解決語料非均勻性問題,KnowItAll采用詞性標(biāo)記而不是句法分析,也無需命名實(shí)體識別,由識別向抽取轉(zhuǎn)變;在自動(dòng)抽取方面,采用領(lǐng)域獨(dú)立的抽取模板來標(biāo)注小規(guī)模訓(xùn)練語料并使用bootstrapping擴(kuò)展到未知的大規(guī)模語料,能從大量網(wǎng)頁中抽取多種實(shí)體關(guān)系。盡管 KnowItAll的訓(xùn)練過程為自監(jiān)督,但抽取并不完全是自動(dòng)的,即需要用戶在每次抽取信息之前指出一個(gè)感興趣的關(guān)系,當(dāng)語料規(guī)模龐大、內(nèi)容復(fù)雜時(shí),預(yù)定義所有感興趣的關(guān)系也確實(shí)是個(gè)問題,效率并不理想。

      OIE的目標(biāo)是從非限定領(lǐng)域的文本中自動(dòng)發(fā)現(xiàn)所有可能的關(guān)系。隨著第一個(gè)OIE系統(tǒng)——TextRunner[5-6]的問世,真正意義上的大規(guī)模、領(lǐng)域獨(dú)立、高效的目標(biāo)得以實(shí)現(xiàn)。TextRunner(O-CRF)利用啟發(fā)式規(guī)則從賓州樹庫訓(xùn)練樣本,采用二階線性鏈CRF抽取器從開放式文本中自動(dòng)抽取關(guān)系三元組,其輸入是含詞性標(biāo)記和NP語塊分析的語句(由OpenNLP工具實(shí)現(xiàn)),輸出格式是(ei,rij,ej)(i

      2.1.2 WOE

      TextRunner能自動(dòng)抽取Web文本中大量的實(shí)體關(guān)系,但在準(zhǔn)確率和召回率方面還不夠理想。2010年,Wu Fei提出一種源于Wikipedia的OIE方法——WOE[7],通過將Infobox的屬性值與相應(yīng)語句匹配生成特定關(guān)系訓(xùn)練樣本,與Kylin[8]相同,再從這些樣本中抽象出關(guān)系獨(dú)立(開放)的訓(xùn)練數(shù)據(jù)經(jīng)自監(jiān)督學(xué)習(xí)得到抽取器。WOE的抽取器有兩個(gè):WOEpos和WOEparse。WOEpos僅包含詞性、NP語塊、大寫、標(biāo)點(diǎn)等淺層特征,學(xué)習(xí)算法與TextRunner相同,通過訓(xùn)練Mallet機(jī)器學(xué)習(xí)軟件包中的二階CRF模型輸出兩名詞短語間確定的關(guān)系詞,與TextRunner相比效率相仿,準(zhǔn)確率和召回率略有提升;而WOEparse包含依存分析等深層句法特征,學(xué)習(xí)通過識別兩名詞短語間的最短依存路徑進(jìn)行,并采用通用句法模板判斷該最短依存路徑是否表示兩名詞短語間的某種語義關(guān)系,但最短路徑并不能完全確定語義關(guān)系,比如“Anna was not born in UK”按最短依存路徑的抽取結(jié)果為(Anna, BornIn, UK),這顯然違背了原句語義,所以還需附加修飾語和“auxpass”、“neg”等依存標(biāo)記,形成擴(kuò)展路徑。通過對Wikipedia語料的訓(xùn)練可知,出現(xiàn)頻率較高的5個(gè)句法模板是:N-nsubj→V←prep-N、N-nsubjpass→V←prep-N、N-nsubj→V←dobj-N、N-nsubjpass→V←agent-N 、N-nsubj→V←dobj-N←prep-N。從[7]中的實(shí)驗(yàn)結(jié)果可知,采用句法特征的WOEparse能明顯改善實(shí)體關(guān)系抽取效果,但代價(jià)就是抽取速度的下降,要比TextRunner慢30倍。

      2.1.3 ReVerb和R2A2

      針對TextRunner抽取出的無信息量和錯(cuò)誤信息以及WOE中句法特征對抽取速度影響的不足,第2代OIE——ReVerb[9]對此予以改進(jìn),其抽取器是邏輯回歸分類器,由淺層句法特征(詞性、NP語塊)訓(xùn)練得到。ReVerb的特色之處是應(yīng)用淺層句法約束來消除錯(cuò)誤信息并減少無信息量的信息抽取,該句法約束針對關(guān)系短語,關(guān)系短語的構(gòu)成有3種情況:①一個(gè)簡單的動(dòng)詞短語;②動(dòng)詞短語與緊隨其后的介詞或虛詞(如born in);③動(dòng)詞短語與其后的簡單名詞短語并且以介詞或虛詞結(jié)尾(如has great admiration for)。經(jīng)300句測試語料發(fā)現(xiàn),有85%的二元?jiǎng)釉~關(guān)系短語滿足該約束,不滿足約束的情況有:8%為非連續(xù)短語結(jié)構(gòu)(如X turned Y off);4%為關(guān)系短語不在實(shí)體之間(如…the Y that X discovered);3%為詞性不匹配(如X to attack Y)。但僅通過句法約束抽取出的關(guān)系短語不一定有價(jià)值(可能包含很多實(shí)體),還需進(jìn)行詞性約束。ReVerb以動(dòng)詞關(guān)系抽取為主,得到滿足約束的關(guān)系后再依據(jù)鄰近原則確定左右實(shí)體,其問題也主要在于此,即關(guān)系短語能準(zhǔn)確得到,但實(shí)體詞經(jīng)常出錯(cuò),比如“Women in China can have the status either equal to men or respected by the society”的抽取結(jié)果為(China, can have, the status),但事實(shí)上Arg1應(yīng)為women,Arg2也因被截?cái)喽鲥e(cuò)。其他的常見錯(cuò)誤是將大于二元的關(guān)系誤認(rèn)為二元關(guān)系,如“He lent me a book”的抽取結(jié)果為(He, lent, me)。

      實(shí)體結(jié)構(gòu)按出現(xiàn)頻率可分為簡單名詞短語(如Calciumpreventsosteoporosis)、附加介詞(如Lake Michigan is one ofthefiveGreatLakesofNorthAmerica)、并列結(jié)構(gòu)(如GoogleandAppleare headquartered in Silicon Valley)、獨(dú)立從句(如Scientists estimatethat80%ofoilremainsathreat)、關(guān)系從句(如Russia,whichmarcheswithChina, has the largest territory in the world)等情況,其中簡單名詞短語最為普遍,這也是ReVerb之前的OIE系統(tǒng)成功的原因。但對于其他情況,ReVerb常見的實(shí)體錯(cuò)誤就不可避免了,為此R2A2[10]融入了實(shí)體學(xué)習(xí)組件ArgLearner以更好地判別實(shí)體的邊界。ArgLearner首先確定Arg1、Arg2,再進(jìn)一步識別兩者的左右邊界,其中Arg1的右邊界利用Weka機(jī)器學(xué)習(xí)軟件包中的REPTree決策樹學(xué)習(xí)器識別,Arg1的左邊界和Arg2的右邊界利用Mallet機(jī)器學(xué)習(xí)軟件包中的CRF分類器識別,鑒于Arg2通常在關(guān)系短語之后,所以無需獨(dú)立確定其左邊界。通過實(shí)驗(yàn)發(fā)現(xiàn),R2A2對Arg1的改善較明顯,適用于簡單名詞短語、附加介詞、并列結(jié)構(gòu)等情況,對Arg2的改善略遜于Arg1,且R2A2的準(zhǔn)確率與召回率明顯高于ReVerb。

      2.1.4 OLLIE

      以上提及的OIE系統(tǒng)已經(jīng)可以有效地進(jìn)行大規(guī)模網(wǎng)絡(luò)信息抽取,但仍然有兩個(gè)主要缺陷: 一是僅抽取以動(dòng)詞為核心的關(guān)系,這樣會遺漏以其他句法實(shí)體(如名詞、形容詞等)為核心的重要信息;二是忽略上下文全局信息,僅對語句的局部進(jìn)行分析,使得部分抽取結(jié)果并非事實(shí)。為此,文獻(xiàn)[11]提出新一代OIE系統(tǒng)——開放式語言學(xué)習(xí)信息抽取(Open Language Learning for Information Extraction, OLLIE),彌補(bǔ)了以往OIE的不足。如表1所示,用ReVerb、 WOE對前3句進(jìn)行抽取是沒有任何結(jié)果的,但采用OLLIE可得到擴(kuò)展后的準(zhǔn)確結(jié)果;用ReVerb、WOE對后兩句抽取的結(jié)果并不完整,采用OLLIE可抽取出融入了上下文的完整信息。

      表1 OLLIE信息抽取實(shí)例

      為抽取擴(kuò)展的以動(dòng)詞、名詞、形容詞等為核心的關(guān)系,OLLIE的關(guān)系抽取分3個(gè)步驟進(jìn)行。第一步是構(gòu)建bootstrapping集,將由ReVerb抽取的高置信度的三元組作為初始集合,再采用bootstrapping方法自動(dòng)構(gòu)建較大規(guī)模的訓(xùn)練集,為確保信息與初始種子一致,可將依存路徑長度作為約束以保留主干成分。這種將訓(xùn)練數(shù)據(jù)推廣到未知關(guān)系的方式普遍適用于OIE,若關(guān)系詞與種子匹配,便可學(xué)習(xí)到開放模板以應(yīng)用于其他關(guān)系抽取。

      第二步是學(xué)習(xí)開放模板,開放模板是從依存路徑到開放式抽取的一種映射,表2列出了OLLIE頻率較高的模板。其中,模板5的slot指依存路徑中不在種子關(guān)系對中出現(xiàn)的空位節(jié)點(diǎn),需在詞性和詞法上限制,若其不與關(guān)系對成反義則可跳過,如“Federer hired Annacone as a coach”的種子關(guān)系對為(Annacone; is the coach of; Federer),hired即為空位詞。對候選模板要進(jìn)行以下4項(xiàng)檢查: ①依存路徑?jīng)]有空位節(jié)點(diǎn);②關(guān)系節(jié)點(diǎn)在Arg1與Arg2中間;③若模板中有介詞,需與關(guān)系中的介詞匹配;④路徑中沒有nn或amod邊。其中依存分析使用高效的Malt分析器,以適應(yīng)大規(guī)模信息抽取。若滿足條件,可作為無詞法約束的句法模板(表2的1~3模板);若不滿足條件,對候選模板的關(guān)系和空位詞還需在詞法和語義上約束,如表2的4~5模板,采用相似詞匯列表等方式,可借助WordNet等實(shí)現(xiàn)。

      第三步是用開放模板從未知語句抽取二元關(guān)系。先將開放模板與語句的依存分析結(jié)果匹配以識別實(shí)體與關(guān)系的基節(jié)點(diǎn),再擴(kuò)展為與之前抽取相關(guān)的全部信息。如圖1所示是對語句“I learned that the 2012 Sasquatch music festival is scheduled for May 25th until May 28th”的依存分析結(jié)果。將表2中抽取模式1與該句匹配,可知arg1對應(yīng)“festival”,rel對應(yīng)“scheduled”,arg2對應(yīng)“25th”及介詞“for”,但抽取(festival, be scheduled for, 25th)的意義不大,于是進(jìn)行擴(kuò)展。將邊為amod(形容詞), nn(名詞組合), det(冠詞), neg(否定詞), prep_of(介詞of), num(數(shù)字),quantmod(數(shù)量短語)的詞組成名詞短語,當(dāng)核心名詞不恰當(dāng)時(shí),還需擴(kuò)展標(biāo)記為rcmod(關(guān)系從句), infmod(動(dòng)詞不定式), partmod(分詞),ref(指代詞), prepc_of的邊, 因?yàn)檫@些是表達(dá)重要信息的關(guān)系從句。對于關(guān)系短語,需擴(kuò)展標(biāo)記為advmod(副詞), mod(修飾詞),aux(助動(dòng)詞),auxpass(被動(dòng)詞),cop(系動(dòng)詞),prt(動(dòng)詞短語)的邊,當(dāng)dobj(直接賓語), iobj(間接賓語)不在實(shí)體中出現(xiàn)時(shí)也要在此步擴(kuò)展。在識別這些詞后,需按原句次序排列,如圖1的抽取結(jié)果為(the Sasquatch music festival, be scheduled for, May 25th)。

      圖1 依存分析樹實(shí)例

      此外,OLLIE還融入上下文分析的功能以解決部分抽取結(jié)果并非事實(shí)的不足,即為關(guān)系對擴(kuò)展一個(gè)額外的域。如表1的第4句增加了表示歸因的AttributedTo域,第5句增加了表示條件為真的ClausalModifier域以使結(jié)果準(zhǔn)確有效。附加域通過依存分析實(shí)現(xiàn): 如歸因結(jié)構(gòu)在依存分析中標(biāo)記為ccomp,但不是所有的ccomp邊都為歸因結(jié)構(gòu),還要借助VerbNet進(jìn)行匹配;又如狀語從句在依存分析中標(biāo)記為advcl,篩選后再將從句的首個(gè)詞與訓(xùn)練集(如if, when, although, because等)匹配,若符合便增加ClausalModifier域。

      OLLIE與以往的OIE相比有兩個(gè)重大突破: 一是擴(kuò)展了關(guān)系抽取范圍,可以識別以名詞、形容詞等成分為核心的關(guān)系;二是融入上下文信息,使結(jié)果更具事實(shí)性。OLLIE美中不足的是: 易受依存分析錯(cuò)誤的影響,開放模板不能保證適應(yīng)所有情況,二元實(shí)體關(guān)系會忽略一些重要信息等。從文獻(xiàn)[11]中的實(shí)驗(yàn)結(jié)果可知,OLLIE與Reverb等相比已經(jīng)表現(xiàn)出無可爭議的優(yōu)越性,對OIE的深入發(fā)展具有重要意義。

      2.2 n元開放式實(shí)體關(guān)系抽取

      現(xiàn)有的OIE方法多數(shù)關(guān)注二元實(shí)體的抽取,文獻(xiàn)[12]中基于語義角色標(biāo)注的OIE分析顯示,在考察的英文語句中有40%的實(shí)體關(guān)系為n元的。不恰當(dāng)?shù)靥幚韓元實(shí)體關(guān)系會導(dǎo)致抽取結(jié)果不完整、無信息量甚至錯(cuò)誤。如對于語句“The first commercial airline flight was from St. Petersburg to Tampa in 1914”,至少可以抽取出3個(gè)關(guān)系對:(the first commercial airline flight, was from, St. Petersburg),(the first commercial airline flight, was to, Tampa),(the first commercial airline flight, was in, 1914)。但采用ReVerb等OIE系統(tǒng)是無法得到這些關(guān)系的。盡管ReVerb可以識別各句中的若干從句,但僅能抽取各從句中的一組關(guān)系對。淺層句法信息雖然提高了OIE的效率,卻無法抽取高階n元事件。目前對Wikipedia進(jìn)行高階事件抽取已有一些研究,但需要限制實(shí)體類型,如文獻(xiàn)[13]從Infobox中抽取時(shí)間、地點(diǎn)、類別信息等,文獻(xiàn)[14-15]可從英文語句抽取n元事件,但至少要包含一個(gè)時(shí)間信息。

      文獻(xiàn)[16]在Wanderlust[17]的基礎(chǔ)上,提出一種可對任意實(shí)體類型進(jìn)行n元信息抽取的方法——KRAKEN。KRAKEN將Stanford依存分析結(jié)果作為輸入,按以下3個(gè)步驟進(jìn)行:

      (1) 檢測事件短語:KRAKEN將事件短語視為一系列動(dòng)詞、修飾語和介詞,如has been known、deserves to own等,通過aux, cop, xcomp, acomp, prt, auxpass等依存標(biāo)記連接。檢測到的事件短語可包含一個(gè)動(dòng)詞,也可包含不與上述依存標(biāo)記連接的詞。

      (2) 檢測實(shí)體主導(dǎo)詞:對事件短語的每個(gè)詞,依據(jù)依存路徑查找實(shí)體主導(dǎo)詞,如依存路徑nsubj-↓表示一個(gè)向下的類型為nsubj的連接,該連接所指向的即為實(shí)體主導(dǎo)詞。如圖2所示,一個(gè)事件短語是was coined,根據(jù)依存路徑rcmod-↑-appos-↑可找到主語Doublethink。

      (3) 檢測全部實(shí)體:從實(shí)體主導(dǎo)詞遞歸地尋找向下的連接可得到全部實(shí)體。經(jīng)過以上3步可形成事件,若事件短語至少含有一個(gè)實(shí)體,則將其抽取為事件。如圖2中,由依存路徑prep-↓-pobj-↓可找到2個(gè)實(shí)體(Orwell和the novel 1984);從該句可抽取出2個(gè)n元事件,即WasCoined(Doublethink,(by) Orwell,(in) the novel 1984)和Describes(Doublethink, fictional concept)。

      圖2 n元OIE實(shí)例

      文獻(xiàn)[16]將KRAKEN與ReVerb進(jìn)行比較,結(jié)果表明KRAKEN可較為準(zhǔn)確地抽取完整的n元事件,彌補(bǔ)了ReVerb的不足。但KRAKEN在檢測錯(cuò)誤依存分析時(shí)采用了啟發(fā)式信息,使得實(shí)驗(yàn)的500句有155句跳過,而且深層句法特征使得效率下降,不能勝任大規(guī)模Web文本的情況。未來的一個(gè)發(fā)展方向是對事件短語及實(shí)體的規(guī)范化,如文獻(xiàn)[18-19]中的無監(jiān)督聚類方法可促進(jìn)相似事件短語或?qū)嶓w的聚類,文獻(xiàn)[20]中的遠(yuǎn)距離監(jiān)督方法將事件整合到現(xiàn)有的知識庫中,以此提高召回率和實(shí)用性,也可利用文獻(xiàn)[21]中的由依存關(guān)系獲取子句集合,并依據(jù)子句類型靈活組合的方法抽取更為多樣的n元關(guān)系。將二元實(shí)體關(guān)系抽取擴(kuò)展為語義豐富的n元關(guān)系是必然趨勢,也是一個(gè)前沿方向。

      3 基于聯(lián)合推理的開放式信息抽取

      信息抽取是自然語言處理的一個(gè)重要分支,也是知識發(fā)現(xiàn)的前提,一個(gè)主要難點(diǎn)在于并非所有的實(shí)體關(guān)系都可以明顯地直接抽取,隱含關(guān)系也是普遍存在的,如“牛奶含有鈣”也可說成“鈣可從牛奶中提取”或“喝牛奶可預(yù)防骨質(zhì)疏松”等。之前的很多方法都不涉及隱含關(guān)系抽取,如自動(dòng)內(nèi)容抽取會議ACE2007的語料庫雖同時(shí)標(biāo)注了明顯和隱含關(guān)系,但評測時(shí)通常忽略后者,目前主流的OIE系統(tǒng)也無法實(shí)現(xiàn)。若對抽取出的信息不加以規(guī)范和歸納,是無法發(fā)掘文本中隱含的深層語義關(guān)系的,此時(shí)引入聯(lián)合推理,可以極大地改善此局面,能自動(dòng)推理得到更為豐富的信息,促進(jìn)對文本的理解。文獻(xiàn)[22]就極力推崇采用聯(lián)合推理的方法處理自然語言的問題。目前概率聯(lián)合推理主要包括Markov邏輯和由粗略至精細(xì)(coarse-to-fine)的本體推理兩種,以下分別予以闡述。

      3.1 基于Markov邏輯網(wǎng)的OIE

      Markov邏輯網(wǎng)(Markov Logic Networks, MLN)[23]是一種將Markov網(wǎng)絡(luò)與一階邏輯相結(jié)合的統(tǒng)計(jì)關(guān)系學(xué)習(xí)框架,為大規(guī)模Markov網(wǎng)提供了一種簡練的邏輯語言,為一階邏輯增加了不確定性處理能力,在語義角色標(biāo)注[24]、共指消解[25]、文本蘊(yùn)含[26]、實(shí)體鏈接消歧[27]等研究中得到很好的應(yīng)用。

      MLN可看作一種用一階邏輯公式來實(shí)例化Markov網(wǎng)絡(luò)的模板語言,是公式Fj及其相應(yīng)權(quán)重wj的集合,其基本推理任務(wù)是MAP(Maximum a Posteriori)推理,即尋找一個(gè)值使得可滿足的子句的權(quán)值之和最大。MLN能夠在對象實(shí)體和關(guān)系不斷變化中自動(dòng)調(diào)整其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),不僅避免了隱馬爾科夫模型的獨(dú)立性假設(shè),而且與線性鏈結(jié)構(gòu)的條件隨機(jī)場相比可擴(kuò)展成任意的網(wǎng)絡(luò)結(jié)構(gòu),更為通用。

      之前利用MLN處理信息抽取問題,需要限定類別和領(lǐng)域[28],既然開放式信息抽取是今后的發(fā)展趨勢,那么在OIE中融入聯(lián)合推理,使兩者相得益彰,是很好的研究方法。

      3.1.1 StatSnowball和EntSum

      文獻(xiàn)[29]提出一種無監(jiān)督自學(xué)習(xí)的知識挖掘模型——統(tǒng)計(jì)滾雪球(StatSnowball),即對初始種子進(jìn)行bootstrapping循環(huán)迭代,直到不再生成新的可信模板或知識為止,MLN是其底層引擎(由alchemy工具包實(shí)現(xiàn))。MLN的一個(gè)主要任務(wù)是定義能反映普遍規(guī)律的一階邏輯模板公式,在序列標(biāo)記任務(wù)中可定義句子級別的公式以模擬線性鏈CRF,即InField(ti, REL-S)∧Verb(ti+1)?InField(ti+1, REL-C),含義為若前一個(gè)詞是關(guān)系詞的開始(REL-S)且當(dāng)前詞為動(dòng)詞則當(dāng)前詞很可能是關(guān)系詞的延續(xù)(REL-C),結(jié)果表明MLN要好于CRF。文獻(xiàn)[29]中也將StatSnowball用于二元OIE任務(wù),模板分別利用經(jīng)驗(yàn)和l1范式選取(即MLN中的結(jié)構(gòu)學(xué)習(xí)),因?yàn)槭褂肕LN作為底層統(tǒng)計(jì)模型,故可以實(shí)現(xiàn)各種級別的聯(lián)合抽取(如在網(wǎng)頁級別還可定義公式:SimilarToken(t1,t2)∧F1(t1)∧F2(t2)∧InField(t1,+f)?InField(t2,+f),含義為對于同類關(guān)系,相似的詞應(yīng)有相似的標(biāo)記,其中+號表明該公式對于不同的實(shí)例需要分別實(shí)例化并賦予不同權(quán)重),故能融合跨關(guān)系的知識以提高抽取效率。

      StatSnowball與OIE的不同之處是:OIE需人工選擇特征經(jīng)自學(xué)習(xí)得到抽取器,而StatSnowball是自動(dòng)產(chǎn)生和選擇模板以形成抽取器。與傳統(tǒng)Snowball[30]方法相比,Snowball使用嚴(yán)格的關(guān)鍵字匹配模板,只能抽取少量的固定種類的關(guān)系,而且手工設(shè)計(jì)的模板可移植性差,而StatSnowball不存在這類問題。

      在StatSnowball 的基礎(chǔ)上,文獻(xiàn)[31]提出一種實(shí)體識別和關(guān)系抽取的聯(lián)合模型——EntSum。以往的信息抽取通常將實(shí)體與關(guān)系的識別分開進(jìn)行,鑒于兩者緊密相關(guān),將實(shí)體—關(guān)系抽取聯(lián)合處理,會改善抽取效果。EntSum模型由基于擴(kuò)展CRF的命名實(shí)體識別模塊和基于StatSnowball的bootstrapping關(guān)系抽取模塊組成,兩模塊用迭代方法結(jié)合起來,使得關(guān)系抽取的模板語法特征和知識語義特征能被實(shí)體識別利用,可在保證準(zhǔn)確率的同時(shí)提高召回率,兩項(xiàng)任務(wù)均得到更好的效果。

      3.1.2 基于thebeast引擎的OIE

      文獻(xiàn)[32]使用MLN另一個(gè)常用引擎thebeast實(shí)現(xiàn)了二元OIE,其主要思想類似于語義角色標(biāo)注,即關(guān)系短語rij可作為謂語,而實(shí)體是謂語的某種語義角色,所以可先抽取謂語,而且將實(shí)體—關(guān)系抽取聯(lián)合進(jìn)行。在thebeast工具包中,公式分局部與全局兩種,可涉及任意個(gè)可觀察基原子(由已知信息可獲得的證據(jù)謂詞)但只包含一個(gè)隱基原子(需經(jīng)過推理判別其真值的查詢謂詞)的公式為局部公式。為實(shí)現(xiàn)OIE,可定義如表3所示的3個(gè)局部公式。

      表3 局部公式

      與局部公式不同,全局公式可包含多個(gè)隱基原子,用來處理涉及多個(gè)實(shí)體—關(guān)系時(shí)的約束關(guān)系,以保持一致性。為實(shí)現(xiàn)OIE,可定義如表4所示的9個(gè)全局公式。

      表4 全局公式

      如對于語句“With the rapid rise of mechanization in the late 19th and 20th centuries, farming tasks could be done with a speed and on a scale previously impossible.”由公式⑴可推斷“be done”為謂語,由公式(2)可推斷“be done with”為關(guān)系短語,由公式⑶可推斷“farming tasks”、“a speed”可作為謂語的某種語義角色,由公式(4)~(6)可推斷“farming tasks”、“a speed”分別在“be done with”之前和之后,且可構(gòu)成三元組(farming tasks, be done with, a speed),由公式(7)~(8)也可由三元組反過來驗(yàn)證實(shí)體與關(guān)系短語的確切的前后位置(雙向聯(lián)合推理),由公式(9)~(10),若已知該句的實(shí)體及關(guān)系,且該句與其它句相似,則可推斷其它句的實(shí)體及關(guān)系,公式(11)~(12)在結(jié)構(gòu)上進(jìn)行約束,即謂語的每個(gè)語義角色僅有一個(gè),可避免冗余。

      Thebeast中的MAP推理采用以整數(shù)線性規(guī)劃(Integer Linear Programming, ILP)[33]為基本求解器(base solver)的割平面推理(Cutting Plane Inference, CPI)算法[34],權(quán)重學(xué)習(xí)采用在線最大邊際(Online Max-Margin)算法[35]進(jìn)行。從文獻(xiàn)[32]中的實(shí)驗(yàn)結(jié)果可知,采用基于MLN的聯(lián)合推理方法進(jìn)行開放式信息抽取,對實(shí)體、關(guān)系抽取的準(zhǔn)確率、召回率、F值等主要評價(jià)指標(biāo)均優(yōu)于TextRunner,從而說明聯(lián)合推理的方法要好于獨(dú)立抽取的效果。

      但上述方法同樣存在無信息量的問題,從WOE及OLLIE的經(jīng)驗(yàn)可知,采用句法特征可增加信息量,于是可引入可觀察謂詞dep(h,m,d),表示h處有指向m處的依存弧d。本文定義了如表5所示的部分模板,很容易將其轉(zhuǎn)化為Markov邏輯公式。

      表5 基于句法特征的部分抽取規(guī)則

      將深層句法特征融入聯(lián)合推理中,可得到更為豐富的信息抽取結(jié)果,如從“The professor of UCLA, Judea Pearl, won the A.M. Turing Award of the year”中不僅可得到(Judea Pearl, won, the A.M. Turing Award),還可抽取出(Judea Pearl, is, a professor of UCLA)、(A.M. Turing, is, an award)等基本信息,這是僅僅通過動(dòng)詞所不能表達(dá)的。同時(shí),為減輕深層句法特征對抽取效率的影響,可采用Malt、DepPattern等高效的句法分析器。此外,開放式信息抽取不應(yīng)局限于二元實(shí)體,可設(shè)計(jì)能從語句中抽取多元實(shí)體關(guān)系的模板,比如“{The peasant}nsubjcarries{the rabbit}dobj, {holding}xcompit by its ears”、“Benoit talked to Michel in order tosecure{the account}dobj”等句式。應(yīng)用聯(lián)合推理進(jìn)行n元完整信息抽取將是未來的發(fā)展趨勢。

      3.2 基于本體推理的信息抽取

      信息抽取不應(yīng)局限于從非結(jié)構(gòu)化文本中高效并準(zhǔn)確地挖掘信息,而應(yīng)為更高層次的應(yīng)用(如決策、問答等)起到輔助的作用;抽取結(jié)果構(gòu)成的知識庫也不應(yīng)成為靜態(tài)的存儲信息的容器,而應(yīng)成為能從文本的隱含事實(shí)中推斷新信息的知識挖掘模型。多數(shù)現(xiàn)有的信息抽取系統(tǒng)僅僅抽取文本中敘述的事實(shí),并非真正意義上的知識庫,如OLLIE能從Web文本中抽取大量實(shí)體關(guān)系,但并未對其有效組織。有些系統(tǒng)融入了規(guī)則學(xué)習(xí),如NELL(the Never-Ending Language Learner)[36]采用半監(jiān)督的bootstrapping方法,給定初始本體類別和種子(如personHasCitizenship:with),通過學(xué)習(xí)規(guī)則能在大規(guī)模Web文本中抽取更多的信息,但其知識庫依然是基本的信息存儲;OntExt[37]采用聚類技術(shù)將NELL擴(kuò)展成無需預(yù)定義的能自動(dòng)計(jì)算限定實(shí)體間關(guān)系類型的模型,如關(guān)系musicianPlaysInstrument是將在名詞短語中同時(shí)出現(xiàn)的能劃入with標(biāo)記的模式聚類形成的,但該方法每次僅計(jì)算一種類型標(biāo)記,不適應(yīng)大規(guī)模語料,也不適合推斷語義本體結(jié)構(gòu);SHERLOCK-HOLMES[38]作為最早的無監(jiān)督歸納邏輯程序設(shè)計(jì)(Inductive Logic Programming, ILP)系統(tǒng),能從開放域Web文本中學(xué)習(xí)一階Horn子句,將TextRunner的結(jié)果組成蘊(yùn)含規(guī)則,如contains(food, chemical)∧help_prevent(chemical, disease)?help_prevent(food, disease),再通過規(guī)則輔助問答,但其推理仍屬淺層以保證效率,且知識庫也未組織成結(jié)構(gòu)化的本體形式。

      與眾不同的是,KOG[39]應(yīng)用MLN聯(lián)合推理方法將Wikipedia的Infobox與WordNet相結(jié)合自動(dòng)構(gòu)建出豐富的本體結(jié)構(gòu),既避免了Wikipedia的異構(gòu)、冗余、不規(guī)范的缺陷,也彌補(bǔ)了WordNet缺乏屬性結(jié)構(gòu)的不足,形成實(shí)體—屬性—值的機(jī)器可讀的結(jié)構(gòu),為Wikipedia進(jìn)行包含SQL查詢、專題瀏覽等功能的深層問答應(yīng)用做了鋪墊;VELVET[40]僅需輸入種子本體,利用聯(lián)合推理在背景知識庫與目標(biāo)關(guān)系間自動(dòng)建立最佳本體映射,通過遠(yuǎn)距離監(jiān)督為目標(biāo)關(guān)系啟發(fā)式地生成訓(xùn)練樣本,并采用本體平滑方法學(xué)習(xí)關(guān)系抽取器,能在最弱監(jiān)督下抽取關(guān)系,也為結(jié)構(gòu)化知識庫的構(gòu)建奠定了基礎(chǔ)。文獻(xiàn)[41]利用句法和語義特征將OIE與關(guān)系聚類、消歧等技術(shù)整合,自動(dòng)構(gòu)建出基于Wikipedia的較為完備的語義網(wǎng)絡(luò),也為大規(guī)模語義信息的本體化提供一種思路。

      Markov邏輯作為目前較為理想的一階邏輯概率模型,既能使一階謂詞邏輯、產(chǎn)生式規(guī)則煥發(fā)生機(jī),又能充分利用概率方法處理不確定性問題,使兩者優(yōu)勢互補(bǔ),但其應(yīng)用很大程度上受限于推理效率,其表達(dá)能力仍為命題邏輯的層次。文獻(xiàn)[42]指出,圖模型中的近似推理仍為NP難問題,即便是非常受限的命題語言也不易于處理。但近期提升概率推理(Lifted Probabilistic Inference)[43]使得推理的簡化成為可能,OLPI[44]就通過coarse-to-fine的本體結(jié)構(gòu)提高了推理和學(xué)習(xí)效率。文獻(xiàn)[45]將其與Markov邏輯整合,提出了簡易Markov邏輯(Tractable Markov Logic, TML),并證明是目前最為豐富和高效的邏輯語言之一。在TML中,領(lǐng)域知識分解為若干部分,各部分取自事物類的層次化結(jié)構(gòu),依據(jù)此結(jié)構(gòu),各部分進(jìn)一步分解為子部分,以此類推。

      TML知識庫是規(guī)則的集合,有3種形式,如表6所示(x、X分別表示變量和常量)。

      表6 TML的語言形式

      子類規(guī)則表示C1是C2的子類,而且相同類的子類是獨(dú)立的。子部分規(guī)則含意為C1類的對象包含C2類的n個(gè)子部分P,默認(rèn)為n=1。子部分規(guī)則為不帶權(quán)重的嚴(yán)格公式,因?yàn)榫植糠纸獾牟淮_定性可通過子類規(guī)則表達(dá)。而且嚴(yán)格公式之間不存在矛盾,因?yàn)橛忻艿闹R庫的分配函數(shù)為零。關(guān)系規(guī)則表示類C對象的子部分P1,P2…之間存在關(guān)系R,R為不存在這樣的關(guān)系。關(guān)系規(guī)則的參數(shù)采用權(quán)重而不是概率,使得TML知識庫更為簡潔,因?yàn)闄?quán)重僅需表示從父類到子類的對數(shù)概率的變化,這樣就可以省略無變化的關(guān)系。

      TML的層次化類圖中的節(jié)點(diǎn)表示類(非葉節(jié)點(diǎn))或?qū)嵗?葉節(jié)點(diǎn)),若滿足Is(B,A)則有從A到B的邊,且圖中必須有既不是任何類的子類也不是其子部分的頂層類,頂層類中僅有一個(gè)對象。如圖3所示,是描述食物鏈的簡略TML知識庫,其含義為頂層對象食物鏈包含捕食性、寄生性、碎食性3個(gè)子部分,捕食性食物鏈又可細(xì)分為高級消費(fèi)者(通常為肉食性動(dòng)物)、次級消費(fèi)者(通常為植食性動(dòng)物)、生產(chǎn)者(通常為植物)等子類,在高級消費(fèi)者這一子類中,河馬、鱷魚這兩個(gè)子部分的關(guān)系為捕食。

      圖3 TML知識庫舉例

      TML的表示能力很強(qiáng),允許概率繼承層次化結(jié)構(gòu)和高樹寬的關(guān)系模型,如規(guī)模為n的非遞歸概率上下文無關(guān)文法可用TML知識庫在多項(xiàng)式計(jì)算復(fù)雜度內(nèi)表示,證明詳見文獻(xiàn)[45]。

      作為一種邏輯語言,TML與描述邏輯很相似,但減少了很多限制,如允許在某子類的子部分之間存在任意參數(shù)的關(guān)系。TML易于處理是因?yàn)閷哟位惤Y(jié)構(gòu)與局部分解的嵌套組合降低了MLN分配函數(shù)的復(fù)雜度,即每步僅處理一個(gè)子集,能進(jìn)行高效的大規(guī)模一階邏輯推理,適用于語義Web等很多領(lǐng)域。

      自然語言中的許多表述在句法和語義上可分解為層次化的類/局部結(jié)構(gòu),文本通常包含對象間存在的各種關(guān)系。自然語言中的概念和關(guān)系包含的豐富的本體結(jié)構(gòu)通過TML能簡潔地表示事件與關(guān)系的語義信息,從而可將從非結(jié)構(gòu)化文本抽取到的信息組織成TML知識庫。文獻(xiàn)[46]就提出了一種利用TML將語句分析、事件抽取、知識庫歸納聯(lián)合處理的設(shè)想。利用TML進(jìn)行信息抽取及知識庫構(gòu)建是一個(gè)很有前景的領(lǐng)域,雖然TML的理論剛提出不久,應(yīng)用案例尚未成熟,但可以預(yù)見TML在本體知識推理中將扮演重要角色。

      4 總結(jié)與展望

      開放式信息抽取能在無人工標(biāo)注的非限定領(lǐng)域的海量文本中自動(dòng)抽取非限定語義單元類型的實(shí)體關(guān)系對,是從非結(jié)構(gòu)化文本中挖掘知識的主要途徑,對深入理解文本起到關(guān)鍵作用。本文按時(shí)間順序,對KnowItAll、TextRunner、WOE、ReVerb、R2A2等典型二元OIE系統(tǒng)進(jìn)行總結(jié)與分析,其主要局限是僅抽取以動(dòng)詞為核心的關(guān)系,而且未兼顧上下文全局信息,這樣會使信息量及置信度不足。新一代OLLIE系統(tǒng)針對這兩點(diǎn)進(jìn)行了深度改進(jìn),使二元實(shí)體關(guān)系抽取提升到較高水平。但實(shí)際的實(shí)體關(guān)系并非僅此而已,高階n元實(shí)體關(guān)系占有較大比例。KRAKEN系統(tǒng)巧妙地引入句法特征,通過依存路徑可較為準(zhǔn)確地檢測到n元實(shí)體關(guān)系,為OIE的發(fā)展又開創(chuàng)了先河。

      但上述開放式實(shí)體關(guān)系抽取方法無法深入字里行間以達(dá)到推斷文本深層含義的目的。為實(shí)現(xiàn)機(jī)器閱讀的深入理解文本的宏偉目標(biāo),采用聯(lián)合推理的方法可有效推斷出文本傳達(dá)出的更為豐富的信息。本文將概率聯(lián)合推理分為Markov邏輯和coarse-to-fine本體推理兩類,并分析了StatSnowball、EntSum、thebeast等采用Markov邏輯進(jìn)行開放式信息抽取的方法?;贛arkov邏輯的OIE在某種程度上可提升性能,但限于推理效率的瓶頸,與實(shí)現(xiàn)高效的大規(guī)模網(wǎng)絡(luò)信息抽取仍有一定距離,而且固定格式的平面結(jié)構(gòu)關(guān)系對也不利于知識庫構(gòu)建、決策、問答等深層語義任務(wù)的進(jìn)行。在提升概率推理的基礎(chǔ)上,以TML為代表的本體推理的提出突破了Markov邏輯的困境,可以清晰地構(gòu)建出層次化的本體知識庫,有效地表示復(fù)雜的知識體系,以支持推理及自動(dòng)知識發(fā)現(xiàn)。

      信息抽取是進(jìn)行決策、問答等深層語義任務(wù)的主要渠道,然而目前大多數(shù)方法是將各階段目標(biāo)分解為獨(dú)立的子任務(wù)再集成,這樣做的弊端是: ①前一階段無法識別的在后續(xù)階段不再出現(xiàn),而后續(xù)階段要依賴之前的結(jié)果進(jìn)行,信息因此而不完整;②前一階段識別錯(cuò)誤的對后續(xù)階段又是誤導(dǎo),而此時(shí)后續(xù)階段又無法通過其它信息糾正錯(cuò)誤,錯(cuò)誤率因此而累積;③后續(xù)階段任務(wù)會為之前的任務(wù)提供很多有用的特征,而如果順序式處理各階段任務(wù)將屏蔽此輔助與優(yōu)化的功能。之所以采用聯(lián)合推理進(jìn)行信息抽取,一方面可以推斷表面文字所不能顯示的深層隱含信息,另一方面就是綜合各階段子任務(wù),相互融合、相互補(bǔ)充、相互促進(jìn),像杠桿一樣在各方面之間尋求平衡,以趨向整體上的理想效果。如果說開放式信息抽取是機(jī)器閱讀的強(qiáng)有力的采集工具,Markov邏輯又為其錦上添花的話,那么基于本體結(jié)構(gòu)的聯(lián)合推理方法將是在自動(dòng)深入理解文本的征程上邁出的深遠(yuǎn)的一步。

      [1] Oren Etzioni, Michele Banko, Michael J. Cafarella. Machine reading[C]//Proceedings of AAAI Conference on Artificial Intelligence, 2006.

      [2] K Barker, B Agashe, S Chaw, et al. Learning by reading: A prototype system, performance baseline and lessons learned[C]//Proceedings of 22nd National Conference of Artificial Intelligence, 2007.

      [3] 趙軍,劉康,周光有,蔡黎.開放式文本信息抽取[J].中文信息學(xué)報(bào),2011,25(6):98-110.

      [4] O Etzioni, M Cafarella, D Downey, et al. Unsupervised named-entity extraction from the web: An experimental study[J]. Artificial Intelligence, 2005, 165(1):91-134.

      [5] Michele Banko, Michael J Cafarella, Stephen Soderland, et al. Open information extraction from the web[C]//Proceedings of IJCAI, 2007.

      [6] Michele Banko, Oren Etzioni. The tradeoffs between open and traditional relation extraction[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics, 2008.

      [7] F Wu, D S Weld. Open information extraction using Wikipedia[C]//Proceedings of Annual Meeting of the Association for Computational Linguistics, 2010: 118-127.

      [8] Fei Wu, Daniel S Weld. Automatically semantifying Wikipedia[C]//Proceedings of the 16th Conference on Information and Knowledge Management, 2007.

      [9] Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying relations for open information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2011.

      [10] Oren Etzioni, Anthony Fader, Janara Christensen, et al. Open information extraction: the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence, 2011.

      [11] Mausam, Michael Schmitz, Robert Bart, Stephen Soderland, Oren Etzioni. Open Language Learning for Information Extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CONLL), 2012.

      [12] Janara Christensen, Mausam, Stephen Soderland, Oren Etzioni. An analysis of open information extraction based on semantic role labeling[C]//Proceedings of K-CAP, 2011: 113-120.

      [13] Johannes Hoffart, Fabian M. Suchanek, Klaus Berberich, et al. YAGO2: A Spatrally and Iemporally Enhanced Knowledge Base Powwikipedia[J].Artificial Intelligence, 2013,194:28-16.

      [14] Xiao Ling, Daniel S.Weld. Temporal information extraction[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence, 2010.

      [15] Gerhard Weikum, Nikos Ntarmos, Marc Spaniol, et al. Longitudinal analytics on web archive data: It’s about time![C]//Proceedings of CIDR, 2011: 199-202.

      [16] Alan Akbik, Alexander Loser. KRAKEN: N-ary Facts in Open Information Extraction[C]//Proceedings of AKBC-WEKEX at NAACL, 2012: 52-56.

      [17] Alan Akbik, Jurgen Bross. Wanderlust: Extracting semantic relations from natural language text using dependency grammar patterns[C]//Proceedings of the 1st Workshop on Semantic Search at 18th WWWW Conference, 2009.

      [18] D T Bollegala, Y Matsuo, M Ishizuka. Relational duality: Unsupervised extraction of semantic relations between entities on the web[C]//Proceedings of the 19th international conference on world wide web, 2010: 151-160.

      [19] Bonan Min, Shuming Shi, Ralph Grishman, Chin-Yew Lin. Ensemble Semantics for Large-scale Unsupervised Relation Extraction[C]//Proceedings of Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012: 1027-1037.

      [20] M Mintz, S Bills, R Snow, D Jurafsky. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2009: 1003-1011.

      [21] Del Corro L, Gemulla R. ClansIE: Clanse-based Open Information Extraction[C]//Proceedings of the 22nd International conference on world wide web, 2013: 355-366.

      [22] Andrew McCallum. Joint Inference for Natural Language Processing[C]//Proceedings of the 13th Conference on Computational Natural Language Learning, 2009.

      [23] P Domingos, D Lowd. Markov Logic: An Interface Layer for Artificial Intelligence[M]. Morgan & Claypool, San Rafael, CA, 2009.

      [24] Wanxiang Che, Ting Liu. Jointly Modeling WSD and SRL with Markov Logic[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010: 161-169.

      [25] Yang Song, Jing Jiang, Wayne Xin Zhao, et al. Joint Learning for Coreference Resolution with Markov Logic[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing, 2012.

      [26] Xipeng Qiu, Ling Cao, Zhao Liu, Xuan jing Huang. Recongnizing Inference in Iexts with Markov Logic Networks[J]. ACM Language Information Processing, 2012, 11(4), Article 15.

      [27] Hongjie Dai, Richard Tzong-Han Tsai, Wen-Lian Hsu. Entity Disambiguation Using a Markov Logic Network[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 846-855.

      [28] Hoifung Poon, Pedro Domingos. Joint Inference in Information Extraction[C]//Proceedings of the 22nd National Conference on Artificial Intelligence, 2007: 913-918.

      [29] Jun Zhu, Zaiqing Nie, Xiaojiang Liu, Bo Zhang, Jirong Wen. StatSnowball: a statistical approach to extracting entity relationships[C]//Proceedings of the 18th international conference on World Wide Web, 2009: 101-110.

      [30] E Agichtein, L Gravano. Snowball: Extracting relations from large plain-text collections[C]//Proceedings of the 5th ACM International Conference on Di-gital Libraries, 2000.

      [31] Xiaojiang Liu, Nenghai Yu. People Summarization by Combining Named Entity Recognition and Relation Extraction[J]. Journal of Convergence Information Technology, 2010, 5(10): 233-241.

      [32] Yongbin Liu, Bingru Yang. Joint Inference: a Statistical Approach for Open Information Extraction[J]. Appl. Math. Inf. 2012, 6(2): 627-633.

      [33] James Clarke. Global Inference for Sentence Compression: An Integer Linear Programming Approach[D]. PHD thesis, University of Edinburgh, 2008.

      [34] Sebastian Riedel. Efficient Prediction of Relational Structure and its Application to Natural Language Processing[D]. PHD thesis, University of Edinburgh, 2009.

      [35] Tuyen N. Huynh, Raymond J. Mooney. Online Max-Margin Weight Learning for Markov Logic Networks [C]//Proceedings of the 11th SIAM International Conference on Data Mining, 2011: 642-651.

      [36] A Carlson, J. Betteridge, B. Kisiel, et al. Toward an architecture for never-ending language learning[C]//Proceedings of the 24th National Conference on Artificial Intelligence, 2010: 1306-1313.

      [37] Thahir Mohamed, Estevam R. Hruschka Jr., Tom M.Mitchell. Discovering Relations between Noun Categories[C]//Proceedings of EMNLP, 2011.

      [38] S Schoenmackers. Inference over the web[D]. PHD thesis, University of Washington, 2011.

      [39] Fei Wu, Daniel S. Weld. Automatically refining the wikipedia infobox ontology[C]//Proceedings of the 17th International Conference on World Wide Web, 2008.

      [40] Congle Zhang, Raphael Hoffmann, Daniel S. Weld. Ontological Smoothing for Relation Extraction with Minimal Supervision[C]//Proceedings of AAAI, 2012.

      [41] A Moro, R Navigli. Integrating Syntactic and Semantic Analysis into the Open Information Extraution Paradigm[C]//Proceedings of IJCAI, 2013.

      [42] D Roth. On the hardness of approximate reasoning[J]. Artificial Intelligence, 1996, 82:273-302.

      [43] V Gogate, P Domingos. Probabilistic theorem proving[C]//Proceedings of the 27th Conference on Uncertainty in Artificial Intelligence, 2011:256-265.

      [44] C Kiddon, P Domingos. Coarse-to-fine inference and learning for first-order probabilistic models[C]//Proceedings of the 25th AAAI Conference on Artificial Intelligence, 2011:1049-1056.

      [45] P Domingos, Austin Webb. A Tractable First-Order Probabilistic Logic[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence, 2012.

      [46] Chloe Kiddon, Pedro Domingos. Knowledge Extraction and Joint Inference Using Tractable Markov Logic [C]//Proceedings of AKBC-WEKEX at NAACL, 2012: 79-83.

      猜你喜歡
      知識庫句法短語
      句法與句意(外一篇)
      中華詩詞(2021年3期)2021-12-31 08:07:22
      述謂結(jié)構(gòu)與英語句法配置
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
      句法二題
      中華詩詞(2018年3期)2018-08-01 06:40:40
      詩詞聯(lián)句句法梳理
      中華詩詞(2018年11期)2018-03-26 06:41:32
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      位置與方向測試題
      吕梁市| 丰都县| 呼伦贝尔市| 龙口市| 吉木萨尔县| 东乌珠穆沁旗| 开封市| 常德市| 东辽县| 重庆市| 丁青县| 饶河县| 九龙城区| 灵丘县| 张家口市| 遵义市| 长乐市| 盘锦市| 茶陵县| 厦门市| 新竹市| 阜阳市| 永州市| 名山县| 南开区| 仁怀市| 湟中县| 美姑县| 张家港市| 敦煌市| 茶陵县| 罗甸县| 明溪县| 泰安市| 会宁县| 南城县| 琼中| 封开县| 佛教| 金寨县| 谷城县|