• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向中文專利的開放式實(shí)體關(guān)系抽取研究

      2015-04-14 12:28:34趙奇猛王裴巖馮好國蔡東風(fēng)
      關(guān)鍵詞:謂詞組塊外層

      趙奇猛,王裴巖,馮好國,蔡東風(fēng)

      沈陽航空航天大學(xué) 知識工程研究中心,沈陽 110136

      1 引言

      機(jī)器閱讀旨在從大規(guī)模、非結(jié)構(gòu)化文本中自動(dòng)抽取知識,并將其應(yīng)用到問答等任務(wù)中,一直是人工智能的主要目標(biāo)[1]。

      目前作為機(jī)器閱讀手段之一的信息抽取大多關(guān)注于抽取二元實(shí)體之間的語義關(guān)系,David[2]認(rèn)為動(dòng)詞至多作用于二元,若用一階邏輯來形式化表式實(shí)體關(guān)系,那么多元關(guān)系可以通過多個(gè)二元謂詞表示,在一階邏輯形式意義表達(dá)的基礎(chǔ)上,可以方便地進(jìn)行深層推理。如“橙汁富含維他命C,維他命C防止疾病”用一階邏輯可表示為“富含(橙汁,維他命C)∧防止(維他命C,疾?。保ㄟ^推理可得到“防止(橙汁,疾病)”的隱含關(guān)系。傳統(tǒng)的信息抽取需要預(yù)先定義所有的關(guān)系類型并附帶標(biāo)注過的一些實(shí)例,但隨著數(shù)據(jù)尤其是網(wǎng)絡(luò)信息的海量增長,目標(biāo)關(guān)系類型過多甚至是未知的,此時(shí)僅僅依靠抽取規(guī)則或標(biāo)注語料是不可能實(shí)現(xiàn)的。

      早期Aone等[3]能夠抽取100種關(guān)系和事件,但專家手工構(gòu)建規(guī)則費(fèi)時(shí)費(fèi)力。Hasegawa等[4]利用上下文信息對識別的實(shí)體進(jìn)行聚類,抽取頻率較高的語義標(biāo)簽作為實(shí)體集的關(guān)系,但抽取的顆粒還不夠精細(xì)。KnowItAll[5]采用領(lǐng)域獨(dú)立的抽取模板,針對指定的關(guān)系進(jìn)行抽取,能從大量網(wǎng)頁中抽取多種實(shí)體關(guān)系。缺點(diǎn)是需要用戶在每次抽取信息之前指出一個(gè)感興趣的關(guān)系。后期出現(xiàn)大量基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,很大程度上減少了用戶的參與并增強(qiáng)了領(lǐng)域的適應(yīng)性,但抽取的關(guān)系有限。

      近年來出現(xiàn)的開放式信息抽取技術(shù)(Open Information Extraction,OIE)為應(yīng)對大規(guī)模文本信息提供了新的思路和研究范式,即利用語言自身的完備性,抽取大量關(guān)系。如TextRunner-2008[6]利用啟發(fā)式規(guī)則從賓州樹庫生成訓(xùn)練樣本,抽取淺層特征訓(xùn)練二階線性鏈CRF抽取模型,結(jié)合信息冗余過濾模型,從開放式文本中自動(dòng)抽取關(guān)系三元組。Liu等[7]利用MLN將實(shí)體的識別和關(guān)系的分類統(tǒng)一起來聯(lián)合推理抽取,相比于Text-Runner有較大提升。ReVerb[8]利用淺層句法和詞匯約束,很好地解決了TextRunner抽取的無信息量和錯(cuò)誤信息的問題。但這些系統(tǒng)有兩個(gè)主要缺陷:一是僅抽取以動(dòng)詞為核心的關(guān)系;二是忽略上下文全局信息。OLLIE[9]利用學(xué)習(xí)到的開放式模板和依存分析很好地解決了以上問題。開放式信息抽取系統(tǒng)的結(jié)果已經(jīng)被用來支持如獲取常識知識[10]、識別蘊(yùn)涵規(guī)則[11]和本體映射[12]等任務(wù)。

      面對開放領(lǐng)域,如何針對每一領(lǐng)域內(nèi)實(shí)體類別確定其關(guān)系類別,是開放式關(guān)系抽取的首要難點(diǎn)[13]。目前急需解決的難題是制定能表示關(guān)系的詞的標(biāo)準(zhǔn)。與以英文為代表的西方語言取得的重大進(jìn)展相比,中文在這方面的研究還很少。主要原因有:(1)缺少詞的屈折形態(tài),如,中文難以通過形態(tài)特征從動(dòng)詞序列中確定核心動(dòng)詞;(2)重語義而弱句法,關(guān)系詞的是否難以通過句法特征判斷,如,“……在/p MNP[接口/ng 20/sym]接收/vg MNP[編碼/vg 參數(shù)/ng]”中的“接受”是關(guān)系詞,而類似的句法形式“……在/p MNP[橫截面/ng]是/vx MNP[任何/r 形狀/ng]”中的“是”則相反;(3)漢語表達(dá)多出現(xiàn)省略,如省略主語。

      為此,本文提出一種在組塊內(nèi)外層標(biāo)注基礎(chǔ)上應(yīng)用馬爾可夫邏輯網(wǎng)模型分層次進(jìn)行中文專利開放式實(shí)體關(guān)系抽取的方法。實(shí)驗(yàn)結(jié)果顯示:(1)在內(nèi)外層組塊標(biāo)記的基礎(chǔ)上進(jìn)行開放式實(shí)體關(guān)系抽取的可行性;(2)本文提出的MLN-G模型F值優(yōu)于SVM。

      2 相關(guān)背景

      2.1 中文專利依存樹庫

      漢語缺少形態(tài)變化,句式靈活而又不像英語句法模式強(qiáng)。按照認(rèn)知科學(xué)的觀點(diǎn),人們必須首先識別、學(xué)習(xí)和理解文本中的實(shí)體或者概念(具體的或抽象的),才能很好地理解自然語言文本,而這些實(shí)體和概念大多是由文本句子中的名詞短語所描述,也就是說,如果掌握了文本中的名詞短語,就可以在很大程度上把握文本所表達(dá)的主要意思,抽取出令人滿意的信息,而且組塊分析已經(jīng)獲得了廣泛的研究。因此,本文設(shè)想在組塊的基礎(chǔ)上進(jìn)行開放式實(shí)體關(guān)系抽?。∣pen Entity Relation Extraction,OERE)可行性的探索。

      本文實(shí)驗(yàn)依賴于本單位構(gòu)建的中文專利依存樹庫(Chinese Patent Dependency Treebank 1.0,CPDT1.0)。CPDT1.0的句子來源有生物、化學(xué)、計(jì)算機(jī)和機(jī)械等領(lǐng)域,其標(biāo)記的內(nèi)容主要有分詞、詞類、組塊和依存等。本文利用的主要語義信息為前三項(xiàng)。其中組塊標(biāo)記分為三類:最大名詞短語(MNP)、并列結(jié)構(gòu)(BL)、術(shù)語(SY)。如“MNP[該/r SY[單向閥/ng]]允許/vg MNP[水/ng]按照/vg MNP[箭頭/ng所/ussu示/vg的/usde方向/ng]流入/vg MNP[由/p BL[SY[片狀物/ng]100/m和/c所/ussu述/vg SY[壁/ng]部分/ng 102/m]所/ussu限定/vg的/usde空間/ng]。/wj”。其中MNP可包含BL和SY,BL也可包含MNP和SY,SY為最小單位。語義實(shí)體來自上述三類組塊。外層組塊指不被其他任何組塊標(biāo)簽包含,內(nèi)層組塊指被其他組塊標(biāo)簽包含的。CPDT1.0各項(xiàng)分布統(tǒng)計(jì)見表1。

      表1 中文專利依存樹庫統(tǒng)計(jì)表

      2.2 Markov邏輯網(wǎng)

      許多現(xiàn)實(shí)世界的問題具有不確定性和復(fù)雜結(jié)構(gòu)。統(tǒng)計(jì)學(xué)習(xí)在解決不確定性上取得了很大的成功,比如貝葉斯網(wǎng)絡(luò)和馬爾可夫網(wǎng)絡(luò)等;而關(guān)系學(xué)習(xí)主要針對客觀世界的復(fù)雜結(jié)構(gòu),比如一階邏輯編程等模型成功地為現(xiàn)實(shí)世界的邏輯性建模。統(tǒng)計(jì)關(guān)系學(xué)習(xí)希望能同時(shí)考慮這兩個(gè)重要的因素。Markov邏輯網(wǎng)[14](MLN)是一種將Markov網(wǎng)絡(luò)與一階邏輯相結(jié)合的統(tǒng)計(jì)關(guān)系學(xué)習(xí)框架,為大型Markov網(wǎng)提供了一種精練的知識描述語言,為一階邏輯增加了模糊推理能力。容易集成知識挖掘中的先驗(yàn)知識和結(jié)構(gòu)輸出,可以提高知識挖掘的效率。

      其基本思想是弱化一階邏輯的約束:即便一個(gè)可能世界(或狀態(tài))違反了知識庫中的邏輯公式,也不是不可能發(fā)生,只是發(fā)生的概率變小。公式附帶的權(quán)重體現(xiàn)了其限制強(qiáng)度,權(quán)重越大,越趨向于純一階邏輯知識。MLN被證明是更通用的模型,如CRF和概率關(guān)系模型等是其特殊的情況。MLN的一個(gè)主要任務(wù)是定義能反映普遍規(guī)律的一階邏輯模板公式,能夠很好地繼承之前邏輯和無向圖模型的相關(guān)理論。

      MLN可看作用一階邏輯公式來實(shí)例化Markov網(wǎng)絡(luò)的模板語言,是公式φ及其相應(yīng)權(quán)重w的集合,它定義了一個(gè)可能世界y的聯(lián)合概率分布:

      其中Z為歸一化常數(shù);B是將φ中的自由變量對應(yīng)到常量的一個(gè)綁定;(y)是二元特征函數(shù),若在y中將φ的自由變量替換為B中常量所得的公式為真,其值為1,否則為0。

      Markov邏輯網(wǎng)的基本推理任務(wù)是給定證據(jù) 找到一個(gè)最可能的世界y,也稱為MAP推理,即:

      則推理歸納為尋找一個(gè)值使得可滿足子句的權(quán)值之和最大。即使在規(guī)模很小的領(lǐng)域,直接計(jì)算也是很棘手的,本文使用一種既準(zhǔn)確又高效的基于整數(shù)線性規(guī)劃(ILP)的割平面算法[15](CPI)來進(jìn)行推理。對于MLN的公式權(quán)重學(xué)習(xí),采用Online Max-Margin的權(quán)重學(xué)習(xí)方法[16]。

      3 開放式實(shí)體關(guān)系抽取方法

      3.1 開放式實(shí)體關(guān)系抽取問題定義

      OERE 的形式定義為三元組t=(ei,rij,ej),i≠j,其中ei和ej代表語義實(shí)體的字符串,rij代表兩個(gè)實(shí)體之間關(guān)系的詞序列。因?yàn)閞ij可以通過句子中的詞來確定,所以不需要預(yù)先定義關(guān)系。需要注意的是三元組是有順序的,即 (ei,rij,ej)≠(ej,rij,ei)(有對稱性質(zhì)的除外,如,“A 連接 B”,其中A和B分別代表組塊,下同)。

      本文中,ei和ej包括基本的名詞短語及嵌套的名詞短語和介詞短語,rij包含的關(guān)系詞有動(dòng)詞和修飾詞,動(dòng)詞需要模型識別,如,“A 確定/vg設(shè)置/vg B”中識別“設(shè)置”為關(guān)系詞。修飾詞可以通過后處理獲得,一般會(huì)就近依附于動(dòng)詞,如“難以”和“于”等。

      3.2 獲取實(shí)體關(guān)系對標(biāo)注語料

      在分析CPDT1.0組塊特點(diǎn)的基礎(chǔ)上,提出自動(dòng)發(fā)現(xiàn)隱含動(dòng)詞之間的關(guān)系和識別關(guān)系的MLN模型。為了學(xué)習(xí)公式權(quán)重,需要構(gòu)建三元組實(shí)例。有兩個(gè)問題待解決:一是實(shí)體對如何組對;二是確定表示實(shí)體對的語義關(guān)系在句中的位置。為解決第一個(gè)問題,本文將相鄰實(shí)體兩兩成對。例如“A利用B產(chǎn)生 C”,相鄰兩兩組對有{A和B,B和C}兩對。通過兩兩成對可以獲得10 771對的實(shí)體對。至于第二個(gè)問題,本文提出以下假設(shè)。

      假設(shè)代表兩個(gè)實(shí)體之間語義關(guān)系的動(dòng)詞位于實(shí)體之間。

      本文通過均勻隨機(jī)采樣,發(fā)現(xiàn)代表關(guān)系詞的動(dòng)詞來源于實(shí)體對左右邊界外的500對中,標(biāo)記為正例的僅占0.01,雖然會(huì)過濾一些來自左右邊界外的關(guān)系詞,如“A與B通信”,通信可以看作是A和B之間的關(guān)系,但因在語料中出現(xiàn)比例較少,所以不計(jì)。而采樣400例動(dòng)詞,來自實(shí)體對之間的則占0.55。故假設(shè)合理。

      過濾不滿足假設(shè)的實(shí)體對后,剩下未標(biāo)注的有8 539對。實(shí)例對的標(biāo)注通過自擴(kuò)展[17]結(jié)合人工校驗(yàn)最終生成外層5 595對標(biāo)注實(shí)例。包含的關(guān)系種類有1 020種,外層占91.76%。其中,自擴(kuò)展的底層模型選擇的是支持向量機(jī),因其能夠在小樣本上取得較好的性能。

      MNP和BL中可能會(huì)包含實(shí)例對,如“其中/r MNP[SY[非/h 撓性/ng 部件/ng](/wkl此后/t稱為/vg“/wyl SY[片狀物/ng]”/wyr)/wkr 的/usde 前/nd 端/ng] 旋轉(zhuǎn)/vg支承/vg……”。包含的內(nèi)層三元組為t={“SY[非/h 撓性/ng 部件/ng]”,“稱為”,“SY[片狀物/ng]”}。從887對內(nèi)層實(shí)例中隨機(jī)采樣標(biāo)注200對。

      3.3 馬爾可夫邏輯網(wǎng)公式定義

      為識別動(dòng)詞是否為關(guān)系詞及實(shí)現(xiàn)句子級別的結(jié)構(gòu)輸出,本文定義了兩個(gè)隱謂詞isRel(rn,i)和unRel(rn,i),前一個(gè)表達(dá)的意思是序號為rn的實(shí)體對位置i的詞是關(guān)系詞。同時(shí)利用負(fù)例信息,定義否定謂詞unRel(rn,i)表示序號為rn的實(shí)體對位置i的詞不是關(guān)系詞。除了隱謂詞之外,本文定義了描述語料中可用信息的觀察謂詞,如表2所示。

      表2 觀察謂詞

      定義好謂詞,需要定義描述關(guān)系的公式。MLN中的公式可以分為局部公式和全局公式。

      3.3.1 局部公式

      局部公式通常表示關(guān)系詞的局部特征,用來判斷隱謂詞是否成立。

      實(shí)際應(yīng)用中,公式中含有“+”的變量指實(shí)例變量,即需被替換為同類型集合中的常量,實(shí)例公式由公式中各個(gè)實(shí)例變量的笛卡爾積組合而成。MLN引擎為每個(gè)實(shí)例公式賦予相應(yīng)權(quán)重,其他變量隱含為全稱量詞。公式結(jié)尾處有點(diǎn)號的代表嚴(yán)格約束(hard rule),反之為軟約束(soft rule)。

      詞和詞性特征可在一定程度上判斷動(dòng)詞是否為關(guān)系詞。如,從“MNP[SY[棱柱形/ng]結(jié)構(gòu)/ng的/usde各邊/r長度/ng]約/d為/vx MNP[1.5/m-/sym 2/m cm/sym]。/wj”中發(fā)現(xiàn)“約/d”可以充當(dāng)動(dòng)詞“為”的修飾,可推出“為”可能是關(guān)系詞;又如,從“在/p BL[MNP[第一/m 位置/ng]和/c MNP[第二/m 位置/ng]]之間/nd往復(fù)/vq 移動(dòng)/vg,/wo 使得/vg MNP[SY[烤爐/ng]內(nèi)/nd的/usde 材料/ng,……]”中的“在/p”和“之間/nd”識別實(shí)體1為狀語,則中間的動(dòng)詞可能不構(gòu)成關(guān)系詞。式(3)和(4)是描述詞和詞性性質(zhì)的公式:

      其中詞和詞性特征的范圍取決于實(shí)體的上下文,設(shè)句子序列為{…,w2/p2,w1/p1,ent1,mid/midp,ent2,w1/p1,w2/p2,…}。如果窗口為1,特征可取w1/p1和mid/midp;窗口為2,可取w2/p2、w1/p1和mid/midp。mid/midp代表ent1和ent2中間的詞/詞性序列。為了泛化識別的關(guān)系詞,mid/midp不包含待判斷的關(guān)系詞和詞性。

      距離特征在傳統(tǒng)實(shí)體關(guān)系抽取中被廣泛運(yùn)用,實(shí)驗(yàn)發(fā)現(xiàn)在開放式實(shí)體關(guān)系抽取中同樣有很好的效果,如式(5)和(6):

      式(7)表示關(guān)系詞及其詞性的先驗(yàn)分布,此處沒有利用負(fù)例是因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn)這樣可以防止語料的偏置:

      不同于傳統(tǒng)授課,翻轉(zhuǎn)課堂中學(xué)生所需投入的時(shí)間與精力較多,所以評價(jià)方法是否全面、客觀、公平,對課堂效果的提升顯得非常重要。目前的評價(jià)方法結(jié)合課前與課中,課前重視學(xué)生的努力程度,即任務(wù)是否完成、對團(tuán)隊(duì)的貢獻(xiàn)量大小等,而課中則注重學(xué)習(xí)質(zhì)量,強(qiáng)調(diào)學(xué)習(xí)深度。大多數(shù)研究者認(rèn)為學(xué)生可以從翻轉(zhuǎn)中獲益,但能否提高成績,則較為保守。加之翻轉(zhuǎn)環(huán)節(jié)多,學(xué)生深度學(xué)習(xí)無法考量等,所以如何發(fā)展出一套適用的測評工具和方法來評估翻轉(zhuǎn)課堂的效果,未來還需更長時(shí)間的觀察與科學(xué)研究才能確定。

      從“MNP[SY[路面板/ng]的/usde寬度/ng]等于/vg MNP[一個(gè)/m 行車道/ng的/usde寬度/ng]”中可以看出,如果實(shí)體核心詞相同,動(dòng)詞可能作為關(guān)系詞;從“MNP[塞/ng 301/m]可/vz與/p MNP[SY[充氣器/ng]44/m]一起/d使用/vg,/wo或者/c代替/vg MNP[SY[充氣器/ng]44/m]。/wj”中發(fā)現(xiàn)核心詞相同且“使用”和“代替”有并列關(guān)系,推出動(dòng)詞可能不是關(guān)系詞,如式(8)和(9):

      倘若關(guān)系詞右邊有副詞,如“MNP[圖/ng 3E/sym]示意/vg地/usdi示出/vg MNP[SY[麥克非/ng]……]”中的“示意”右邊有“地/usdi”,則表明這個(gè)動(dòng)詞作修飾語不是關(guān)系,如式(10):

      如果實(shí)體1含有時(shí)間類詞,那么一般來說實(shí)體1作為狀語,公式定義如下。

      如果實(shí)體之間有連詞,句子表達(dá)的意思是另一層,中間的動(dòng)詞可能不是關(guān)系詞,如“MNP[所/ussu述/vg SY[片狀物/ng]]可/vz由/p MNP[SY[驅(qū)動(dòng)/vg單元/ng]83/m]進(jìn)行/vg 驅(qū)動(dòng)/vg,/wo 并且/c MNP[SY[扭簧/ng]11/m]……”中含有連詞“并且”。負(fù)例有相反的現(xiàn)象,如式(12)和(13):

      通過啟發(fā)式規(guī)則容易發(fā)現(xiàn)一些實(shí)體不構(gòu)成實(shí)體對,則第rn個(gè)實(shí)體對動(dòng)詞i不是關(guān)系詞,通過式(14)描述:

      3.3.2 全局公式

      涉及兩個(gè)以上的隱謂詞為全局公式,主要目的是建立隱謂詞之間相互依存關(guān)系并使最終結(jié)果滿足一定約束。在Markov邏輯網(wǎng)上,能夠通過構(gòu)建不同規(guī)則,來模仿很多算法任務(wù)。如式(15)~式(18)描述句子級別關(guān)系的結(jié)構(gòu)輸出:

      漢語中常常會(huì)出現(xiàn)動(dòng)詞上下文的省略,導(dǎo)致特征不足,可以通過聯(lián)合推理解決以上問題。如果兩個(gè)關(guān)系詞相同,先識別簡單的,借助確定的推斷難以判別的,如式(19)所示:

      3.4 后處理

      為使抽取結(jié)果更完善,建立詞表,如果實(shí)體以及關(guān)系詞左右緊鄰的詞出現(xiàn)在詞表中,將其擴(kuò)充。比如,實(shí)體擴(kuò)充把方位名詞“中”、“上”和“內(nèi)”等擴(kuò)充進(jìn)來;動(dòng)詞擴(kuò)充把相關(guān)的副詞和介詞擴(kuò)充進(jìn)來,如“難以”、“不”、“了”和“于”等。

      4 實(shí)驗(yàn)結(jié)果及分析

      4.1 實(shí)驗(yàn)設(shè)置

      因SVM在實(shí)體關(guān)系抽取中被廣泛運(yùn)用,又能夠同時(shí)利用正負(fù)實(shí)例,故將其作為對比實(shí)驗(yàn)。

      為驗(yàn)證在組塊的基礎(chǔ)上進(jìn)行開放式實(shí)體關(guān)系抽取的可行性和和對比本文提出的Markov邏輯網(wǎng)模型的效果,本文設(shè)置兩組對比實(shí)驗(yàn),一組是SVM、MLN-L(只包含局部公式和上述最后兩個(gè)全局約束公式)和MLN-G(包括所有公式)對外層抽取效果的對比,另一組是在同樣條件下對內(nèi)層抽取效果的對比。

      SVM工具包選用的是SVM-Light,內(nèi)、外層用的核函數(shù)為線性核,SVM選取的特征與MLN相同。為防止距離特征影響過強(qiáng)而導(dǎo)致震蕩的問題,對其進(jìn)行縮放,區(qū)間為[-1,1]。MLN網(wǎng)實(shí)現(xiàn)的工具包用的是thebeast,外層學(xué)習(xí)規(guī)則為Plain Perceptron,內(nèi)層為1-best MIRA。外層帶標(biāo)注的實(shí)例對共計(jì)5 595對,正例占44.25%;內(nèi)層共計(jì)200對,正例占36%。第一組實(shí)驗(yàn)利用外層語料進(jìn)行十折交叉驗(yàn)證,并比較了上下文窗口為1和2的情況。

      第二組實(shí)驗(yàn)將所有外層語料作為訓(xùn)練集,內(nèi)層為測試集。

      4.2 結(jié)果及分析

      第一組和第二組實(shí)驗(yàn)結(jié)果分別如表3、4所示。

      表3 SVM、MLN-L和MLN-G外層實(shí)驗(yàn)結(jié)果對比(%)

      表4 SVM、MLN-L和MLN-G內(nèi)層實(shí)驗(yàn)結(jié)果對比(%)

      從實(shí)驗(yàn)結(jié)果來看,在組塊的基礎(chǔ)上實(shí)現(xiàn)OERE具有可行性。對于外層,如果將每個(gè)實(shí)例作為獨(dú)立的實(shí)例,不考慮彼此的影響,MLN-L稍遜于SVM,但差別不大,主要原因是工具包的實(shí)現(xiàn)利用的采樣隨機(jī)算法不能獲得全局最優(yōu)解;而MLN-G明顯高于其他兩個(gè)。主要原因有:MLN-G考慮關(guān)系的結(jié)構(gòu)輸出和聯(lián)合推理。如,通?!癆 描述/vg為/vx B”中“為”是關(guān)系詞,通過學(xué)習(xí)隱謂詞的依賴關(guān)系能夠發(fā)現(xiàn),當(dāng)?shù)贸觥懊枋觥辈皇顷P(guān)系詞時(shí),推得“為”是關(guān)系詞,公式權(quán)重為0.026,反過來發(fā)現(xiàn)“為”是關(guān)系詞時(shí),能推出“描述”不是關(guān)系詞的公式權(quán)重為0.019。

      5 結(jié)束語

      開放式實(shí)體關(guān)系抽取以及MLN是近年來文本信息處理和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),但是當(dāng)前關(guān)于中文的開放式實(shí)體關(guān)系抽取研究較少。本文提出一種在組塊標(biāo)注基礎(chǔ)上應(yīng)用馬爾可夫邏輯網(wǎng)分層次進(jìn)行中文專利開放式實(shí)體關(guān)系抽取的方法,驗(yàn)證了句子經(jīng)過組塊分析后更易處理,且MLN-G模型較SVM取得更好的效果。

      今后,將進(jìn)一步考慮處理以名詞和形容詞等為核心關(guān)系的詞,并融合實(shí)體的識別,做聯(lián)合推理,從而更好地解決語料的稀疏問題,有助于中文Web的開放式信息抽取的研究。

      [1]Poon H,Domingos P.Unsupervised ontological induction from text[C]//Proceedings of theForty Eighth Annual Meeting of the Association for Computational Linguistics,Uppsala,Sweden,2010:296-305.

      [2]David D.Thematic proto-roles and argument selection[J].Language,1991,67(3):547-619.

      [3]Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the 6th Applied Natural Language Processing Conference,2000.

      [4]Hasegawa T,Sekine S,Grishman R.Discovering relations among named entities from large corpora[C]//Proceedings of ACL,2004.

      [5]Etzioni O,Cafarella M,Downey D,et al.Unsupervised namedentity extraction from the web:an experimental study[J].Artificial Intelligence,2005,165(1):91-134.

      [6]Banko M,Cafarella M J,Soderland S,et al.Open information extraction from the web[J].Communications of the ACM,2008,51(12):68-74.

      [7]劉永彬,楊炳儒.基于馬爾可夫邏輯網(wǎng)的聯(lián)合推理開放式信息抽取[J].計(jì)算機(jī)科學(xué),2012,39(9):627-633.

      [8]Etzioni O.Open information extraction:the second generation[C]//Proceedings of International Joint Conference on Artificial Intelligence,2011.

      [9]Schmitz M,Rart R,Soderland S,et al.Open language learning for information extraction[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CONLL),2012.

      [10]Lin T,Etzioni O.Identifying functional relations in Web text[C]//Proceedings of EMNLP,2010.

      [11]Schoenmackers S,Etzioni O,Weld D S,et al.Learning first-order horn clauses from web text[C]//Proceedings of EMNLP,2010.

      [12]Soderland S,Roof B.Adapting open information extraction to domain-specific relations[J].AI Magazine,2010,31(3):93-102.

      [13]趙軍,劉康,周光有,等.開放式文本信息抽取[J].中文信息學(xué)報(bào),2011,25(6):98-110.

      [14]Domingos P,Lowd D.Markov logic:an interface layer for artificial intelligence[M].San Rafael,CA:Morgan&Claypool,2009.

      [15]Riedel S.Improving the accuracy and efficiency of map inference for markov logic[C]//Proceedings of the Annual Conference on Uncertainty in AI,2008.

      [16]Huynh T N,Mooney R J.Online MaxMargin weight learning for markov logic networks[C]//Proceedings of the 11th SIAM International Conference on Data Mining,2011:642-651.

      [17]Mihalcea R.Co-training and self-training for word sense disambiguation[C]//Proceedings of CoNLL,2004.

      猜你喜歡
      謂詞組塊外層
      一種溶液探測傳感器
      傳感器世界(2022年4期)2022-11-24 21:23:50
      橫浪作用下大型上部組塊雙船浮托安裝動(dòng)力響應(yīng)特性試驗(yàn)研究
      被遮蔽的邏輯謂詞
      ——論胡好對邏輯謂詞的誤讀
      黨項(xiàng)語謂詞前綴的分裂式
      西夏研究(2020年2期)2020-06-01 05:19:12
      陸豐7-2油田導(dǎo)管架平臺(tái)上部組塊低位浮托安裝關(guān)鍵技術(shù)
      一種購物袋
      科技資訊(2016年6期)2016-05-14 13:09:55
      也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
      專題Ⅱ 物質(zhì)構(gòu)成的奧秘
      “人”字變身
      英語詞匯組塊學(xué)習(xí)路徑研究——組塊法
      永福县| 平定县| 辰溪县| 仁布县| 教育| 三亚市| 泰宁县| 石泉县| 屏边| 磐石市| 武山县| 建宁县| 胶南市| 涿州市| 汤阴县| 阜城县| 崇文区| 句容市| 陆河县| 汝州市| 两当县| 兴文县| 陇西县| 江源县| 兰溪市| 双桥区| 太和县| 峡江县| 滦南县| 斗六市| 丹寨县| 美姑县| 商城县| 高州市| 高密市| 平遥县| 伊川县| 柘荣县| 康乐县| 临西县| 崇州市|