• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    實體關(guān)系抽取綜述

    2020-06-18 05:44:20王傳棟
    計算機工程與應(yīng)用 2020年12期
    關(guān)鍵詞:實體遠(yuǎn)程卷積

    王傳棟,徐 嬌,張 永

    南京郵電大學(xué) 計算機學(xué)院,南京210023

    1 引言

    隨著大數(shù)據(jù)的迅猛發(fā)展,海量信息常以半結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式呈現(xiàn)給用戶,如何通過文本深層分析模型向用戶提供高質(zhì)量、精準(zhǔn)而有價值的信息成為學(xué)者們研究的熱點問題。在這種背景下,信息抽取的研究得到了快速發(fā)展,實體關(guān)系抽取作為其重要子任務(wù)之一,逐漸引起廣大學(xué)者的關(guān)注。

    關(guān)系抽取旨在已完成實體識別的基礎(chǔ)上,檢索實體間所存在的關(guān)系,即在已標(biāo)注出實體及實體類型的句子上確定實體間的關(guān)系類別。目前主流的實體關(guān)系抽取方法可細(xì)分為基于有監(jiān)督的方式、基于半監(jiān)督的方式、基于無監(jiān)督的方式和面向開放域的關(guān)系抽取。隨著近些年深度學(xué)習(xí)的不斷發(fā)展和完善,學(xué)者們開始嘗試將一些基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)引入到關(guān)系抽取任務(wù)中[1],成為新的研究熱點。

    作為信息抽取的重要任務(wù)之一,關(guān)系抽取能夠?qū)Ω×6葮颖緮?shù)據(jù)中的信息進行語義關(guān)系分析,通過對海量信息進行關(guān)系抽取,可以將無結(jié)構(gòu)文本轉(zhuǎn)化為格式統(tǒng)一的關(guān)系數(shù)據(jù),為知識圖譜、推薦系統(tǒng)、信息檢索等任務(wù)提供支持。同時,關(guān)系抽取的研究對篇章理解、自動摘要生成等研究領(lǐng)域也有深刻意義,具有廣闊的應(yīng)用場景。

    2 關(guān)系抽取的發(fā)展

    1998年美國國防高級研究計劃局召開第七屆消息理解會議(Message Understanding Conference,MUC),并首次提出模板抽取任務(wù)。MUC-7中關(guān)系抽取任務(wù)首次單獨作為評測任務(wù)被提出,評測語料內(nèi)容主要來自于紐約時報中涉及飛機失事、航天發(fā)射事件的相關(guān)新聞[2],其中包含三類實體關(guān)系:Location_of、Employee_of和Product_of,并且設(shè)計了相應(yīng)的評價體系。

    1999年美國國家標(biāo)準(zhǔn)技術(shù)研究院召開自動內(nèi)容抽取會議(Automatic Content Extraction,ACE),旨在研究新聞?wù)Z料中的信息抽取任務(wù)。關(guān)系抽取任務(wù)屬于ACE會議中定義的關(guān)系檢測與識別(Relation Detection and Recognition,RDR)[3],繼MUC和ACE評測會議后,SemEval(Semantic Evaluation)也成為信息抽取領(lǐng)域的重要會議,其間補增評測任務(wù)中的實體關(guān)系類型,進一步促進了實體關(guān)系抽取問題的研究。

    隨著大數(shù)據(jù)時代的來臨,異構(gòu)數(shù)據(jù)呈指數(shù)級的增加,而上述測評會議所發(fā)布的依靠人工標(biāo)注方式得到的語料集已經(jīng)無法滿足新的需求。人工標(biāo)注雖可以獲得高質(zhì)量數(shù)據(jù),但成本較高且語料的覆蓋面窄,對于醫(yī)療等某些特定領(lǐng)域,需要更高昂的標(biāo)注成本,導(dǎo)致模型可拓展性較差。一方面為了獲得大規(guī)模、多領(lǐng)域的語料支持,許多學(xué)者開始關(guān)注面向開放域的信息抽取任務(wù),另一方面隨著涵蓋更多領(lǐng)域信息的Freebases、維基百科和YAGO等知識庫的建立和壯大,ACL 2009會議上Mintz首次提出將Distant Supervision應(yīng)用到關(guān)系抽取任務(wù)中,并取得了一定效果[4]。傳統(tǒng)機器學(xué)習(xí)方法存在特征提取誤差傳播問題,極大影響關(guān)系抽取模型的性能。隨著深度學(xué)習(xí)的崛起,學(xué)者們逐漸將深度學(xué)習(xí)引入關(guān)系抽取任務(wù),大量基于CNN、RNN、LSTM、GRU、GCN等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系抽取方法被提出。

    3 關(guān)系抽取的研究現(xiàn)狀

    實體關(guān)系抽取是構(gòu)建知識庫的重要步驟,也是許多NLP下游任務(wù)的基礎(chǔ),根據(jù)對人工標(biāo)注數(shù)據(jù)的依賴程度,主流的實體關(guān)系抽取方法主要分為三種:有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法[5]。近年來,隨著深度學(xué)習(xí)在聯(lián)合學(xué)習(xí)、遠(yuǎn)程監(jiān)督等方面的應(yīng)用,使關(guān)系抽取任務(wù)相比此前基于傳統(tǒng)機器學(xué)習(xí)的方法取得了更好的效果。

    3.1 有監(jiān)督的關(guān)系抽取

    基于監(jiān)督學(xué)習(xí)方法的實體關(guān)系抽取任務(wù),通過在人工標(biāo)注的數(shù)據(jù)上訓(xùn)練模型,然后將其應(yīng)用在特定領(lǐng)域,具有較高準(zhǔn)確率,主要包括基于規(guī)則的方法、基于特征向量的方法和基于核函數(shù)的方法[6]。

    基于規(guī)則的方法主要運用語言學(xué)的相關(guān)知識,對語料進行分析并歸納出關(guān)系表達(dá)式。Aone等[7]通過人工制定的抽取規(guī)則,來對文本數(shù)據(jù)進行模式匹配,篩選出符合相應(yīng)規(guī)則的關(guān)系樣例。Miller等人[8]通過使用與實體相關(guān)的語義信息來擴展語法樹并聯(lián)合表示句法和語義,生成規(guī)則進行實體關(guān)系抽取。Fundel等人[9]使用斯坦福開發(fā)的句法分析器(Stanford Parser)構(gòu)造句子的依存關(guān)系樹(Dependency Tree),通過對依存關(guān)系樹上兩個實體間的路徑進行分析來制定規(guī)則。然而制定關(guān)系規(guī)則時需要相關(guān)領(lǐng)域知識的支持,并且規(guī)則不具有通用性,無法有效進行跨領(lǐng)域遷移。

    基于特征向量的方法首先從句子上下文中提取詞性、實體位置等有用信息來構(gòu)造特征向量,結(jié)合機器學(xué)習(xí)方法在特征向量上訓(xùn)練關(guān)系抽取模型。Kambhatla等人[10]使用實體類型、實體詞、句法分析樹、依存關(guān)系等多種特征構(gòu)造特征向量作為模型輸入,并在特征向量上首次采用最大熵分類模型對實體關(guān)系抽取問題進行建模,實驗證明:結(jié)合各層次的語言特征對關(guān)系抽取任務(wù)具有豐富的價值。Zhou等人[11]在Kambhatla模型的基礎(chǔ)上加入了WordNet、基本詞組塊和Name List信息來增強語義信息,采用SVM分類器在實體關(guān)系抽取上的F-measure達(dá)到55.5%。Jiang等人[12]系統(tǒng)分析和比較了不同特征對關(guān)系抽取結(jié)果的影響,結(jié)果表明選取較基礎(chǔ)的特征就能達(dá)到很好的效果,相反的,若所選取特征不相互獨立時,會一定程度導(dǎo)致性能的下降。Bui等人[13]、楊志豪[14]以及Miwa[15]使用詞袋特征、詞性特征以及依存關(guān)系特征等作為模型輸入,并在生物醫(yī)學(xué)領(lǐng)域的關(guān)系抽取上取得了一定成績。

    盡管基于特征向量的方法在關(guān)系抽取領(lǐng)域取得了很好的效果,但存在一定局限性,首先該方法很大程度上依賴大量特征工程的工作;其次當(dāng)前使用的特征已基本覆蓋大多數(shù)語言現(xiàn)象,性能上難以實現(xiàn)較大的提升。基于特征向量方法上述的局限性,更多的研究者嘗試將核函數(shù)應(yīng)用到實體關(guān)系抽取領(lǐng)域中,核方法不需要人為構(gòu)造顯性特征向量,而使用核函數(shù)的映射對多種信息進行融合來實現(xiàn)關(guān)系抽取。

    采用基于核方法的關(guān)系抽取,對高維特征空間的樣例只需計算其內(nèi)積而無需得到具體的函數(shù)值,即使用隱性特征映射代替顯性的特征映射,為基于特征向量的方法開拓了新的思路[16]。Zelenko等人[17]在2013年首次將核方法應(yīng)用到關(guān)系抽取任務(wù)上,設(shè)計并提出了核函數(shù)及其計算方法,結(jié)合兩個樣本的淺層句法解析樹來分析兩者間的相似性,結(jié)合SVM分類器在200篇新聞?wù)Z料的數(shù)據(jù)上得到了不錯的結(jié)果[18]。Culotta等人[19]改進Zlenko的方法,提出基于語法規(guī)則的依存樹核進行關(guān)系抽取,通過使用詞性、實體類型、WordNet上位詞等特征來擴充樹上的節(jié)點,提供了更豐富的句子表示形式,并在更大、包含更多關(guān)系類型的標(biāo)注語料庫上進行訓(xùn)練。Bunescu等人[20]提出一種定義非常嚴(yán)格的最短路徑依賴核,實現(xiàn)了比單純依存樹核更高的精度,但也因此導(dǎo)致召回率下降。Giuliano等人[21]使用詞袋(Bag-of-Words)代替稀疏子序列作為全局性信息結(jié)合詞屬性等相關(guān)特征作為局部信息,使用核函數(shù)的線性組合來整合兩部分信息。實驗表明:該方法在生物醫(yī)學(xué)數(shù)據(jù)中提取實體間關(guān)系時,僅使用淺層語言特征就達(dá)到了較好的性能。

    使用核函數(shù)方法可以學(xué)習(xí)文本的長距離特征而不需要構(gòu)造特征向量,在關(guān)系抽取任務(wù)上的性能也超過了基于特征向量的方法,通過使用核方法復(fù)合不同核函數(shù)來表達(dá)高維特征空間時,會相應(yīng)產(chǎn)生訓(xùn)練速度較慢的負(fù)面影響,無法很好適用于處理大規(guī)模語料下的關(guān)系抽取[22]。

    3.2 半監(jiān)督的關(guān)系抽取

    半監(jiān)督學(xué)習(xí)只需通過對少量的種子標(biāo)記樣本和大量無標(biāo)記的樣本進行迭代訓(xùn)練就可以得到分類模型[23],常用算法主要有Bootstrapping方法[24]、協(xié)同訓(xùn)練方法[25]和標(biāo)注傳播方法[26]。

    采用Bootstrapping技術(shù)的三個代表性半監(jiān)督關(guān)系抽取系統(tǒng)即:DIPRE[27](Dual Iterative Pattern Relation Expansion),Snowball[28]和Zhang’s method[29]。其中DIPRE系統(tǒng)[27]是最早被提出的基于Bootstrapping的半監(jiān)督實體關(guān)系抽取方法,該方法在迭代初期使用少量書籍的(author,title)實體對作為種子,通過不斷迭代能夠自動從萬維網(wǎng)獲取新的書籍關(guān)系實例。Agichtein[28]基于Bootstrapping采用和DIPRE相同的模式匹配方法從非結(jié)構(gòu)化文本中抽?。╫rganization,location)關(guān)系。Zhang等[29]在結(jié)合SVM的Bootstrapping模型上,提出基于隨機特征投影的BootProject算法,實驗表明該方法可以顯著降低對標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。Chen等人[26]通過標(biāo)注傳播算法計算無標(biāo)記樣本中關(guān)系樣例的最近鄰來實現(xiàn)關(guān)系抽取,在ACE 2003語料上的實驗結(jié)果表明,在僅有少量帶標(biāo)記的樣本可使用時,基于標(biāo)注傳播(LP)算法的關(guān)系抽取模型性能明顯優(yōu)于SVM和Bootstrapping。張佳宏等人[30]在Zhou[31]的基礎(chǔ)上通過引入無標(biāo)注樣本置信度衡量機制,在訓(xùn)練迭代次數(shù)得到顯著減少的同時還取得了較高的F值。

    半監(jiān)督實體關(guān)系抽取一定程度上既能降低對標(biāo)注語料的依賴,又可以得到較高的精度,所以能更好地適應(yīng)于大規(guī)模訓(xùn)練語料的任務(wù)。目前基于半監(jiān)督學(xué)習(xí)方法的實體關(guān)系抽取任務(wù)中應(yīng)用最廣泛的就是Bootstrapping算法,但該方法存在語義漂移等問題,還易受到初始關(guān)系種子質(zhì)量的影響[32]。

    3.3 無監(jiān)督的關(guān)系抽取

    由于有監(jiān)督和半監(jiān)督實體關(guān)系抽取均依賴帶標(biāo)記的語料,雖然半監(jiān)督方法僅使用少量的標(biāo)記數(shù)據(jù)作為種子,但如何選擇或選擇多少數(shù)量種子的問題仍未得到有效解決。針對這些問題,一些研究者基于聚類的思想,通過學(xué)習(xí)對實體上下文進行抽取來刻畫實體間的語義關(guān)系,實現(xiàn)無監(jiān)督關(guān)系抽取。

    Hasegawa等人[33]在2004年ACL會議上首次提出無監(jiān)督學(xué)習(xí)的命名實體關(guān)系抽取方法,為無監(jiān)督實體關(guān)系抽取研究奠定了基礎(chǔ),但該方法一方面很難預(yù)先定義相似性的閾值,另一方面簡單地按頻率選擇關(guān)系特征詞時并沒有考慮噪聲特征。Zhang等人[34]在進行聚類時,應(yīng)用淺層句法樹來表達(dá)實體間所存在的關(guān)系,通過衡量句法樹的相似性來對實體間的相似性進行分析,充分考慮了低頻實體間可能存在的語義關(guān)系。Chen等人[35]使用DCM(Discriminative Category Matching)選取具有判別性的特征關(guān)系詞,并通過提出的聚類質(zhì)量評估公式得到最優(yōu)聚類數(shù)目和最優(yōu)特征子集,與Hasegawa等人[33]的方法相比,在ACE語料庫上的性能得到大幅度提高。秦兵等人[36]提出一種基于無監(jiān)督學(xué)習(xí)方法的中文實體關(guān)系抽取模型,在得到候選關(guān)系三元組和關(guān)系指示詞后、結(jié)合句式規(guī)則對其進行篩選,實驗在大規(guī)模無標(biāo)記中文網(wǎng)絡(luò)文本數(shù)據(jù)上的微平均準(zhǔn)確率高于80%。

    無監(jiān)督的實體關(guān)系抽取方法不需要預(yù)定義任何關(guān)系類型,也不依賴標(biāo)注數(shù)據(jù),可以適應(yīng)無規(guī)則內(nèi)容文本,具有很好的領(lǐng)域移植性。但聚類出來的關(guān)系類別邊界不夠清晰、模型的整體準(zhǔn)確率較低,并且低頻關(guān)系實例使得模型的召回率較低[18]。

    3.4 開放域的關(guān)系抽取

    開放域?qū)嶓w關(guān)系抽取是目前研究的熱點,僅Freebase中就包含多達(dá)4 000萬實體,上萬種屬性關(guān)系,這樣數(shù)量級的關(guān)系抽取單純依靠人工標(biāo)注數(shù)據(jù)集是很難實現(xiàn)的,半監(jiān)督和遠(yuǎn)程監(jiān)督的學(xué)習(xí)方法一定程度上可以實現(xiàn)開放域的關(guān)系抽取。因其在數(shù)據(jù)規(guī)模、數(shù)據(jù)源類型、領(lǐng)域上的可拓展性,開放式信息抽取在處理大規(guī)模Web頁面中異構(gòu)信息時,具有其他關(guān)系抽取模型不可比擬的優(yōu)勢。

    開放域的關(guān)系抽取目前主要有兩種具有代表性的研究方向,一種是基于句法設(shè)計規(guī)則來對三元組進行過濾;另一種是基于知識監(jiān)督的方法,這種思想后來慢慢發(fā)展出遠(yuǎn)程監(jiān)督方法。開放式信息抽取的概念最早由Banko等人[37]在2007年IJCAL會議上提出,同時提出第一個領(lǐng)域無關(guān)的OIE系統(tǒng)TextRunner,并可擴展到大規(guī)模Web語料庫。Banko和Etzioni[38]將抽取問題轉(zhuǎn)換為在條件隨機場模型上的序列標(biāo)注任務(wù),結(jié)合無監(jiān)督同義詞消解算法來處理候選關(guān)系和對象中的同義詞。Zhu構(gòu)建的Statsnowball系統(tǒng)[39],可以看作是Snowball系統(tǒng)的開放域信息抽取版本,使用馬爾科夫邏輯網(wǎng)絡(luò)來抽取實體間的關(guān)系。2010年Wu等人[40]基于維基百科的信息構(gòu)建WOE(Wikipedia-based Open Extractor)系統(tǒng),實現(xiàn)了比TextRunner更高的召回率和準(zhǔn)確率。Fader[41]定義了兩個由動詞表達(dá)的二元關(guān)系的詞法和語法約束,實驗表明可以通過增加這些約束來改善Open IE系統(tǒng)的信息不連貫和信息不足的問題。

    3.5 基于深度學(xué)習(xí)的關(guān)系抽取

    基于傳統(tǒng)機器學(xué)習(xí)的關(guān)系抽取方法在特征提取過程中存在誤差傳播問題,很大程度上限制了模型性能的提升。隨著近些年深度學(xué)習(xí)的崛起,因其能夠自動學(xué)習(xí)更高階語義特征并具有較高的精確度,基于深度學(xué)習(xí)的方法成為了實體關(guān)系抽取領(lǐng)域新的研究熱點[42]。

    根據(jù)語料集標(biāo)注方式的差異性,目前國內(nèi)外基于深度學(xué)習(xí)的實體關(guān)系抽取方法可被分為遠(yuǎn)程監(jiān)督和有監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí)在訓(xùn)練過程中使用人工標(biāo)注的數(shù)據(jù)集,而遠(yuǎn)程監(jiān)督的學(xué)習(xí)方法通過對齊遠(yuǎn)程知識庫自動對語料進行標(biāo)注來獲取帶標(biāo)記語料數(shù)據(jù)。

    3.5.1 基于深度學(xué)習(xí)的有監(jiān)督關(guān)系抽取

    基于深度學(xué)習(xí)的有監(jiān)督實體關(guān)系抽取根據(jù)實體識別和關(guān)系檢測兩個子任務(wù)完成順序的不同,可細(xì)分為流水線方法和聯(lián)合抽取方法。其中流水線學(xué)習(xí)方法是在實體已被標(biāo)注的數(shù)據(jù)基礎(chǔ)上進行實體間關(guān)系的抽取,聯(lián)合學(xué)習(xí)方法是同時進行實體識別和實體關(guān)系抽取任務(wù)[42]。表1中整理了深度學(xué)習(xí)框架下有監(jiān)督關(guān)系抽取經(jīng)典方法,其中的模型主要是基于現(xiàn)有CNN、RNN、LSTM改進輸入特征或網(wǎng)絡(luò)結(jié)構(gòu),比如添加不同特征、結(jié)合多種Attention機制和引入依存樹挖掘更深層次語義信息來提升模型的性能。隨著圖卷積神經(jīng)網(wǎng)絡(luò)的興起,因其在處理異構(gòu)數(shù)據(jù)所具備的天然優(yōu)勢,許多學(xué)者嘗試引入GCN來學(xué)習(xí)依存樹中蘊含的豐富信息。基于特征組合的關(guān)系抽取方法均賴于其他特征工具包,另外很多模型將關(guān)系抽取建模為單標(biāo)記問題,無法解決樣本中關(guān)系重疊問題。下面對相關(guān)模型進行深入研究和分析。

    (1)基于RNN模型的關(guān)系抽取方法

    遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)因為其既有內(nèi)部反饋連接又有前饋連接,比前饋網(wǎng)絡(luò)更適合處理序列化輸入,基于RNN的實體關(guān)系抽取方法最早由Socher等人[43]提出。模型中每個單詞均由向量和矩陣組成,分別用來學(xué)習(xí)表示單詞本身語義和對其他單詞的修飾作用,可以自動學(xué)習(xí)到較長短語的深層語義,但模型需要學(xué)習(xí)的參數(shù)過多。Hashimoto等人[44]提出一種基于解析樹的RNN模型,通過對重要短語進行顯式加權(quán),結(jié)合短語類別、詞性標(biāo)注等特征實現(xiàn)性能提升。雖然RNN進行關(guān)系抽取已經(jīng)表現(xiàn)出不錯的性能,但原始的RNN模型因其層數(shù)較多而更易出現(xiàn)梯度消失或梯度爆炸問題,無法有效解決文本數(shù)據(jù)中的長依賴問題。

    表1 有監(jiān)督實體關(guān)系抽取的經(jīng)典模型

    (2)基于CNN模型的關(guān)系抽取方法

    2014年Zeng等人[45]首次提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進行關(guān)系抽取,不需要復(fù)雜的預(yù)處理僅將所有單詞向量作為初始輸入,結(jié)合卷積深度神經(jīng)網(wǎng)絡(luò)(CDNN)提取的詞匯和句子特征進行關(guān)系分類。2015年Xu等人[46]在Zeng工作的基礎(chǔ)上,在依存關(guān)系樹的最短依賴路徑上通過卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)更魯棒的關(guān)系特征,同時提出一種簡單負(fù)采樣策略來改善實體距離較遠(yuǎn)所產(chǎn)生的問題。但模型性能很大程度受依存樹解析結(jié)果的影響,并且僅在最短依賴路徑上進行學(xué)習(xí)不能充分利用依存樹所蘊含的豐富信息。Wang等人[47]基于卷積神經(jīng)網(wǎng)絡(luò),使用兩層注意力機制提取句子特征并設(shè)計一個pair-wise合頁損失函數(shù),實驗證明其性能優(yōu)于標(biāo)準(zhǔn)損失函數(shù)。引入多級注意力機制捕獲更高層語義信息的同時,也面臨著結(jié)構(gòu)復(fù)雜、參數(shù)較多、收斂困難等問題?;趩卧~的重要性與關(guān)系類型的高度相關(guān)性,Zhu等人[48]在2017年提出TAC-CNN模型,結(jié)合詞級別的注意力機制通過計算每個單詞與關(guān)系類別的相關(guān)度計算相應(yīng)權(quán)重。不引入二級注意力機制的情況下,在SemEval-2010 Task 8數(shù)據(jù)集上F1即達(dá)到87.3%。

    (3)基于LSTM模型的關(guān)系抽取方法

    Sundermeyer等人[56]通過構(gòu)建專門的記憶單元存儲重要歷史信息,以此獲得遠(yuǎn)距離單詞之間的關(guān)系,提出長短時記憶網(wǎng)絡(luò)模型(Long Short-Term Memory network,LSTM)不但可以有效解決實體之間的長依賴問題,還可以結(jié)合聚類技術(shù)大幅度減少訓(xùn)練和測試用時。Xu等人[49]結(jié)合實體對間的最短依存路徑和長短時記憶網(wǎng)絡(luò)模型,提出了用于關(guān)系分類的新型神經(jīng)網(wǎng)絡(luò)模型SDP-LSTM,它可以結(jié)合最短依存路徑上的單詞、POS標(biāo)記、語法關(guān)系、WordNet上位詞等信息迭代的學(xué)習(xí)與關(guān)系分類相關(guān)的特征。但SDP-LSTM在引入多種特征的同時,也使得模型更加依賴特征抽取工具,多特征的提取也加劇錯誤傳播問題。Zhang等人[50]基于每個時刻的輸入不僅依賴文本中某個單詞前面的單詞,還依賴于后面單詞的思想,提出結(jié)合前向和后向LSTM捕捉雙向的語義依賴獲取更多語序信息[57]。在SemEval-2010語料庫上的實驗表明,模型僅使用單詞嵌入作為輸入特征就可以實現(xiàn)遠(yuǎn)優(yōu)于CNN和CR-CNN方法的F1值。

    (4)基于GCN模型的關(guān)系抽取方法

    句法依存樹包含句子中各詞語間的依存關(guān)系,將其引入關(guān)系抽取任務(wù)可以挖掘更深層的語義信息。圖卷積神經(jīng)網(wǎng)絡(luò)的提出[58]實現(xiàn)了非歐式數(shù)據(jù)上的卷積操作,也為處理圖結(jié)構(gòu)數(shù)據(jù)提供了新思路。

    Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經(jīng)網(wǎng)絡(luò)并用于實體關(guān)系抽取問題,僅保留兩個實體的最小公共祖先子樹上K距離內(nèi)的節(jié)點,并將修剪后的句法依存樹引入圖卷積網(wǎng)絡(luò)進行實體關(guān)系抽取任務(wù)。實驗表明,這種修剪方式過濾依存樹中無關(guān)數(shù)據(jù)的同時,保留了對關(guān)系抽取任務(wù)有用的信息。但基于規(guī)則的硬性修剪策略卻很容易產(chǎn)生過剪枝或欠剪枝,為了解決這個問題,Guo等人[52]提出了注意力引導(dǎo)的圖卷積網(wǎng)絡(luò)AGGCN,可以理解為一種對句法依存樹的軟修剪策略,模型將完整依存樹作為輸入并結(jié)合注意力機制,在迭代訓(xùn)練中自動學(xué)習(xí)保留對關(guān)系抽取任務(wù)有用的子結(jié)構(gòu)。AGGCN模型由M個相同模塊組成,每個塊包含注意力引導(dǎo)層、密集連接層和線性組合層,其中注意力引導(dǎo)層使用多頭注意力機制構(gòu)造N個注意力引導(dǎo)鄰接矩陣,將輸入依存樹轉(zhuǎn)換為N個不同的全連接邊加權(quán)圖,即每個注意力引導(dǎo)鄰接矩陣對應(yīng)一個全連接圖。

    Sun等人[53]認(rèn)為AGGCN模型使用的全連接圖破壞了依存樹原始結(jié)構(gòu),基于這個問題提出了可學(xué)習(xí)的句法傳輸注意力圖卷積網(wǎng)絡(luò)(LST-AGCN),通過引入連接節(jié)點的依存關(guān)系類型將樹轉(zhuǎn)換為加權(quán)圖即句法傳輸圖。通過詞嵌入、依存關(guān)系嵌入和節(jié)點嵌入來建模可學(xué)習(xí)的傳輸矩陣A,并結(jié)合注意力機制學(xué)習(xí)合適權(quán)重來聚合所有圖層輸出的特征向量,得到最終句子表示再進行關(guān)系抽取,其中涉及的注意力機制主要用于整合每層GCN的輸出。

    表2將注意力機制按其結(jié)構(gòu)分為單層自注意力、多層注意力和多頭注意力機制。無論是基于CNN、RNN還是GCN衍生出的關(guān)系抽取模型,均可以通過引入不同Attention或其組合來提高性能。注意力機制良好的軟性選擇能力也可以有效緩解遠(yuǎn)程監(jiān)督中的噪聲問題,許多研究將其引入遠(yuǎn)程監(jiān)督來過濾錯誤標(biāo)記的樣本。

    表2 注意力機制相關(guān)方法統(tǒng)計

    流水線方法雖然已取得不錯的成績,但仍存在局限性:順序進行實體識別和關(guān)系抽取時,忽略了兩個子任務(wù)間的內(nèi)在聯(lián)系;實體識別中產(chǎn)生的錯誤會降低關(guān)系抽取模型的性能即存在錯誤傳播的問題。相比之下,聯(lián)合學(xué)習(xí)方法可以充分利用實體和關(guān)系間的交互信息,有效地緩解了上述問題。

    Miwa等人[54]提出一種端對端模型來聯(lián)合表示實體和關(guān)系,其中實體識別和關(guān)系抽取兩個子任務(wù)共享LSTM編碼層序列參數(shù)的思想,雖然考慮了兩個子任務(wù)間的交互、緩解了錯誤傳播問題,但模型學(xué)習(xí)過程仍然類似流水線方法,不屬于真正意義上的聯(lián)合抽取。Katiyar等[55]在深度BILSTM序列標(biāo)注方法的基礎(chǔ)上引入注意力機制,使用多層雙向LSTM將實體識別子任務(wù)建模成序列標(biāo)注任務(wù),結(jié)合序列標(biāo)注結(jié)果和共享編碼層表示進行實體關(guān)系抽取,模型可以拓展各種預(yù)定義的關(guān)系類型,是真正意義上第一個基于神經(jīng)網(wǎng)絡(luò)的關(guān)系聯(lián)合抽取模型。Zheng等人[62]提出基于新標(biāo)注策略的實體關(guān)系抽取方法,將聯(lián)合提取任務(wù)轉(zhuǎn)化成端到端的序列標(biāo)注問題而無需分別識別實體和關(guān)系,解決了流水線方法中實體冗余問題。但無論是上述的參數(shù)共享還是序列標(biāo)注的聯(lián)合抽取模型,均未有效解決重疊關(guān)系問題。

    3.5.2 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取

    Mintz等人[4]在2009年ACL上提出將遠(yuǎn)程監(jiān)督應(yīng)用到實體關(guān)系抽取任務(wù)上,基于“如果兩個實體在已知知識庫中存在某種關(guān)系,那么包含這兩個實體的句子也表示該關(guān)系”的假設(shè),通過將數(shù)據(jù)自動對齊遠(yuǎn)程知識庫中的信息來對開放域中海量數(shù)據(jù)進行自動標(biāo)注來獲得標(biāo)記樣本。遠(yuǎn)程監(jiān)督關(guān)系抽取較快得到大量標(biāo)記樣本的同時,大幅降低人工標(biāo)注的工作量,但由于所基于的假設(shè)條件過于強烈,使得遠(yuǎn)程監(jiān)督數(shù)據(jù)集中包含大量的錯誤標(biāo)記樣本。

    如表3所示,針對遠(yuǎn)程監(jiān)督中錯誤標(biāo)簽問題學(xué)者們提出了很可行的解決方法,比如引入多示例學(xué)習(xí)、結(jié)合Attention機制、對噪聲進行擬合、建模為強化學(xué)習(xí)問題,下面對相關(guān)模型進行深入分析。

    Zeng等人[63]通過多示例學(xué)習(xí)的方法來緩解遠(yuǎn)程監(jiān)督中的噪音問題,在2014年Zeng等人[45]的CNN基礎(chǔ)上將句子根據(jù)實體位置切分為3段,分別進行池化來得到更多與實體相關(guān)的上下文信息。多示例學(xué)習(xí)是將包含同一實體對的所有樣本看成一個包,模型只選擇包中使得關(guān)系概率最大的一個示例作為實體對的表示,該方法一定程度上降低噪音數(shù)據(jù)的影響,但也因此丟失了大量有用的信息[69],另外也無法處理關(guān)系重疊問題。Jiang等人[59]提出多示例多標(biāo)記的卷積神經(jīng)網(wǎng)絡(luò)模型來松弛at-least-once假設(shè),將關(guān)系抽取任務(wù)建模為多標(biāo)記問題,解決了關(guān)系重疊問題。基于多示例學(xué)習(xí)的模型雖然可以有效緩解遠(yuǎn)程監(jiān)督中的噪聲問題,但僅選取bag內(nèi)最高置信度的樣例可能會丟失大量有用信息。

    Lin等人[60]通過引入Attention機制來自動學(xué)習(xí)如何篩選包內(nèi)所有樣本的信息,有效避免多示例模型中造成的信息損失。實驗表明該模型能夠?qū)W到合理權(quán)重來緩解遠(yuǎn)程監(jiān)督中噪音問題的同時,還充分挖掘有用信息。Ji等人[64]從Freebase和Wikipedia頁面中提取實體的描述作為額外信息來改善實體表示模塊的性能,其中句級注意力模塊與Lin等人[60]類似,自動為包內(nèi)的樣本學(xué)得合理的權(quán)重。Feng等人[65]提出了一種基于強化學(xué)習(xí)框架的關(guān)系抽取模型,該模型由樣本選擇器和關(guān)系分類器兩部分組成,其中將樣本選擇建模為強化學(xué)習(xí)問題。整個過程在沒有明確的句子級標(biāo)簽的情況下,僅使用來自關(guān)系分類器的弱監(jiān)督信息就可以有效過濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的嘈雜句子。2018年ACL會議上,Qin等人[66]提出一種基于深度強化學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,旨在使用深度強化學(xué)習(xí)框架不斷訓(xùn)練得到一個正例、負(fù)例指示器,不但實現(xiàn)對負(fù)例的識別,還將其放至對應(yīng)關(guān)系類別的負(fù)例集中。該模型不依賴于特定的關(guān)系分類器,是一種即插即用的技術(shù),能被引入現(xiàn)有的任何一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型。但這兩種結(jié)合強化學(xué)習(xí)的抽取模型均未解決重疊關(guān)系問題,而且屬于流水線型抽取方法,不能有效學(xué)習(xí)子任務(wù)間的交互。2019年AAAI會議上Takanobu等人[67]上提出基于分層強化學(xué)習(xí)的關(guān)系抽取方法,將任務(wù)分解為實體檢測和關(guān)系提取兩個子任務(wù),分層方法的性質(zhì)可以對兩個子任務(wù)間的交互進行有效建模,且擅長提取實體間的重疊關(guān)系。

    Ren等人[70]提出基于遠(yuǎn)程監(jiān)督的聯(lián)合抽取模型COTYPE進行實體關(guān)系抽取,實驗表明該方法不僅能擴展到不同領(lǐng)域,還有效減弱了錯誤的累積傳播。Luo等人[68]認(rèn)為可以根據(jù)數(shù)據(jù)中潛在的信息學(xué)習(xí)噪音的模式,在訓(xùn)練過程中通過動態(tài)轉(zhuǎn)移矩陣對噪音進行建模來達(dá)到擬合真實分布的目的。在沒有直接指導(dǎo)的情況下逐步學(xué)習(xí)對基礎(chǔ)噪聲模式進行建模,并靈活利用數(shù)據(jù)質(zhì)量的先驗知識來提高轉(zhuǎn)移矩陣的有效性。2019年ACL會議上,F(xiàn)u等人[71]提出基于圖卷積網(wǎng)絡(luò)的聯(lián)合關(guān)系抽取模型GraphRel,對實體重疊問題提出了解決方案。模型通過堆疊Bi-LSTM句子編碼器和GCN依存樹編碼器來自動提取每個單詞的隱含特征。第一階段預(yù)測后計算實體損失和關(guān)系損失。為了考慮三元組之間的相互作用,在第二階段添加了關(guān)系加權(quán)GCN來解決實體重疊問題?;诘诙A段提取的特征進行分類后可得到較準(zhǔn)確的結(jié)果,訓(xùn)練時損失函數(shù)為兩個階段實體和關(guān)系預(yù)測損失的線性加和。GraphRel基于關(guān)系加權(quán)的圖卷積網(wǎng)絡(luò),考慮了命名實體與關(guān)系之間的相互作用。在NYT和WebNLG數(shù)據(jù)集上分別評估該模型,實驗表明,此方法比以前的工作F1評測值分別提高了3.2%和5.8%。

    表3 遠(yuǎn)程監(jiān)督中噪聲問題的常見解決方法

    4 關(guān)系抽取的數(shù)據(jù)集及評價指標(biāo)

    4.1 數(shù)據(jù)集

    有監(jiān)督學(xué)習(xí)關(guān)系抽取中常用的數(shù)據(jù)集主要包括MUC關(guān)系抽取數(shù)據(jù)集、ACE04、ACE05、TACRED、SemEval-2010 Task 8和FewRel數(shù)據(jù)集,其中FewRel在有監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)的關(guān)系抽取任務(wù)中均能應(yīng)用。NYT-FB是遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)應(yīng)用最廣泛的數(shù)據(jù)集,語料來自于紐約時報,通過自動鏈接到Freebase知識庫中的實體并經(jīng)關(guān)系對齊等操作來標(biāo)注實體間關(guān)系類別。

    表4中模型SPTree和Miwa等人提出的關(guān)系抽取方法,在ACE05數(shù)據(jù)集上的性能均優(yōu)于ACE04,F(xiàn)1評測值分別提高了7.2%和7.9%。在SemEval-2010 Task 8數(shù)據(jù)集上,模型SDP-LSTM的F1評測值僅比C-AGGCN高2%,但兩者在數(shù)據(jù)集TACRED上的差值卻達(dá)到了10.3%,分析可能因為TACRED數(shù)據(jù)集包含更多關(guān)系類別且“no_relation”類數(shù)據(jù)所占比重過大。而當(dāng)基于有監(jiān)督學(xué)習(xí)的關(guān)系抽取模型CDNN使用遠(yuǎn)程監(jiān)督數(shù)據(jù)集進行訓(xùn)練時,由于遠(yuǎn)程監(jiān)督中大量的噪聲數(shù)據(jù)的影響,CDNN方法的性能急劇下降。表4中數(shù)據(jù)說明模型的性能不僅受結(jié)構(gòu)和初始化的影響,還取決于所使用的數(shù)據(jù)集,并且使用不同數(shù)據(jù)集進行訓(xùn)練得到的關(guān)系分類器性能往往有較大差距。

    4.2 評價指標(biāo)

    關(guān)系抽取主要采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure)3項作為基本評價指標(biāo),其中準(zhǔn)確率和召回率是一對矛盾的度量,通常使用F值綜合考慮兩者來對系統(tǒng)性能進行總體評價。計算公式分別如下所示:

    表4 不同數(shù)據(jù)集及模型的性能

    Fβ中β是調(diào)節(jié)準(zhǔn)確率和召回率比重的參數(shù)。當(dāng)β=1時,認(rèn)為在評價模型性能時兩者同等重要。由上式得到F1表示為:

    遠(yuǎn)程監(jiān)督興起后,模型所需要處理的數(shù)據(jù)規(guī)模量級增加,在考察系統(tǒng)性能時,也將運行時間和內(nèi)存占用作為評價指標(biāo)的一部分進行考量。

    5 關(guān)系抽取的挑戰(zhàn)和趨勢

    實體關(guān)系抽取基于海量信息可以將無結(jié)構(gòu)文本轉(zhuǎn)化為格式統(tǒng)一的關(guān)系數(shù)據(jù),為知識圖譜、推薦系統(tǒng)、信息檢索等任務(wù)提供基礎(chǔ)的數(shù)據(jù)支持。同時,關(guān)系抽取研究對語義分析、篇章理解、自動問答等領(lǐng)域也具有重要意義。

    目前,基于深度學(xué)習(xí)的實體關(guān)系抽取雖然已經(jīng)取得了極大的成功,但在領(lǐng)域自適應(yīng)性和召回率方面仍有很大的提升空間。其次,實體關(guān)系抽取任務(wù)中仍存在以下亟待解決的問題:很多主流的關(guān)系抽取方法均未有效解決關(guān)系類型的OOV(Out Of Vocabulary)問題,僅簡單地將不屬于預(yù)定義實體關(guān)系類型的數(shù)據(jù)歸入Other類,而Other類中的實體對只能通過人工處理才能確定關(guān)系類型定義;為了緩解遠(yuǎn)程監(jiān)督的錯誤標(biāo)簽問題,學(xué)者們分別結(jié)合多示例學(xué)習(xí)[59,63]、Attention機制[60,64]、強化學(xué)習(xí)框架[65-67]、噪聲建模[68]等方法提出許多模型,但如何建立更有效的方法緩解遠(yuǎn)程監(jiān)督中錯誤標(biāo)簽的影響仍是關(guān)系抽取中研究的重點問題。

    5.1 未來研究方向

    5.1.1 二元關(guān)系到多元關(guān)系抽取的擴展

    目前大多數(shù)實體關(guān)系抽取的研究僅停留在二元關(guān)系的層面上,但實際中英文語料的多元實體關(guān)系卻占據(jù)高達(dá)40%的比重[73]。多元關(guān)系抽取能夠獲取到更多實體之間的關(guān)系,相較于二元實體關(guān)系抽取來說,多元關(guān)系抽取的研究具有更大挑戰(zhàn)性。如何將二元抽取技術(shù)拓展至三元甚至多元層面是今后實體關(guān)系發(fā)展的一個熱門研究方向。

    5.1.2 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取

    遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)通過外部知識庫作為監(jiān)督源,自動對語料庫進行標(biāo)注,能夠以較低成本獲取大量帶標(biāo)記的樣本。但由于遠(yuǎn)程監(jiān)督所基于的假設(shè)過于肯定,難免含有大量的噪音數(shù)據(jù),而如何使用有效的降噪方式來緩解遠(yuǎn)程監(jiān)督中的錯誤標(biāo)注問題一直是關(guān)系抽取研究的重要課題。

    5.1.3 段落和篇章級關(guān)系抽取技術(shù)

    現(xiàn)有關(guān)系抽取工作主要聚焦于句子級關(guān)系抽取而現(xiàn)實生活中實體對經(jīng)常分別位于不同句子,根據(jù)從維基百科采樣的人工標(biāo)注數(shù)據(jù)的統(tǒng)計表明,至少40%的實體關(guān)系信息只能從多個句子中才能聯(lián)合獲取。研究段落級甚至篇章級的關(guān)系抽取要求模型具有更強大的邏輯推理、指代推理和常識推理能力,現(xiàn)有的跨句子N元關(guān)系抽取研究常通過引入指代消解任務(wù)的方法來提升模型的性能。未來融合改進指代消解和圖結(jié)構(gòu)的方法也許是解決段落級和篇章級實體關(guān)系抽取任務(wù)的有效方案。

    5.2 基于深度學(xué)習(xí)的關(guān)系抽取新思路

    5.2.1 融合圖卷積網(wǎng)絡(luò)的實體關(guān)系抽取

    自第一個圖卷積神經(jīng)網(wǎng)絡(luò)被Bruna等人[58]提出以來,就受到了研究人員的大量關(guān)注,被廣泛應(yīng)用于推薦系統(tǒng)、交通流量預(yù)測、生物醫(yī)學(xué)、計算機視覺等領(lǐng)域。圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域也有大量應(yīng)用,涉及的常見圖結(jié)構(gòu)主要包括知識圖譜、依存句法樹、詞共現(xiàn)圖、文章引用網(wǎng)等。Liu等人[74]和Nguyen等人[75]使用基于依存句法樹的圖卷積神經(jīng)網(wǎng)絡(luò)來進行事件抽取任務(wù)。Marcheggiani等人[76]基于句法依存樹提出結(jié)合長短時記憶網(wǎng)絡(luò)的圖卷積模型,并成功應(yīng)用于語法角色標(biāo)注任務(wù)上。

    圖卷積神經(jīng)網(wǎng)絡(luò)也被引入關(guān)系抽取任務(wù)中,并表現(xiàn)出了較高的性能。Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經(jīng)網(wǎng)絡(luò)并用于實體關(guān)系抽取問題。2019年ACL會議上,Guo等人[52]基于硬修剪策略可能存在的欠剪枝和過剪枝問題,結(jié)合多頭注意力將全句法依存樹作為圖輸入,使用圖卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)依存樹中對關(guān)系提取任務(wù)有用的子結(jié)構(gòu)Sun等人[53]使用句法傳輸圖代替AGGC模型中的全連接圖,結(jié)合自注意力機制提出一種新的圖卷積關(guān)系抽取模型LST-AGCN。但以上模型一方面無法建模兩個子任務(wù)間的交互,另一方面也不能處理重疊關(guān)系。Fu等人[71]提出基于圖卷積網(wǎng)絡(luò)的聯(lián)合關(guān)系抽取模型GraphRel則有效解決上述問題。

    大量的研究已表明,在引入圖卷積網(wǎng)絡(luò)模型后,各項任務(wù)上的性能都出現(xiàn)了一定的提升。相對于傳統(tǒng)自然語言處理中的序列化建模,使用圖卷積網(wǎng)絡(luò)能夠挖掘更多非線性的復(fù)雜語義特征。對于關(guān)系抽取問題,在原LSTM的網(wǎng)絡(luò)結(jié)構(gòu)上引入基于句法依賴樹的圖卷積網(wǎng)絡(luò),模型不但能學(xué)習(xí)文本的語序性信息,還通過圖卷積充分學(xué)習(xí)依賴樹的空間結(jié)構(gòu)信息,更好地挖掘潛在語義關(guān)系。

    5.2.2 基于強化學(xué)習(xí)框架的實體關(guān)系抽取

    強化學(xué)習(xí)是實體關(guān)系抽取問題中新的研究思路,2018年AAAI會議上Feng等人[65]將強化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合提出了一種基于噪音數(shù)據(jù)的句子級實體關(guān)系抽取模型,僅使用來自關(guān)系分類器的弱監(jiān)督信息就可以有效過濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的嘈雜句子。Qin等人[66]提出一種基于深度強化學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,不依賴于特定的關(guān)系分類器,是一種即插即用的技術(shù),能被引入現(xiàn)有的任何一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型。Takanobu等人[67]提出基于分層強化學(xué)習(xí)的關(guān)系抽取模型,將任務(wù)分解為實體檢測和關(guān)系提取兩個子任務(wù),使用分層方法有效建模子任務(wù)間的交互,而且擅長提取實體間的重疊關(guān)系。無論是對于任務(wù)中遠(yuǎn)程監(jiān)督的噪音問題還是重疊關(guān)系問題,強化學(xué)習(xí)的技術(shù)都提供了一種切實可行的解決辦法。

    5.2.3 基于小樣本學(xué)習(xí)的實體關(guān)系抽取

    小樣本學(xué)習(xí)方法(few-shot learning)作為公認(rèn)未來最具潛力的研究方向之一,過去的研究主要集中在計算機視覺領(lǐng)域,在自然語言處理領(lǐng)域的探索還較少。2018年Han等人[77]首次將小樣本學(xué)習(xí)引入到關(guān)系抽取任務(wù)中,提出小樣本關(guān)系抽取數(shù)據(jù)集FewRel,希望推動自然語言處理特別是實體關(guān)系抽取任務(wù)中的小樣本學(xué)習(xí)研究。2019年Gao等人[61]提出一種基于小樣本學(xué)習(xí)的關(guān)系抽取模型,該模型結(jié)合特征和實例兩級注意力機制,實現(xiàn)降低噪聲數(shù)據(jù)影響的同時保留對關(guān)系分類結(jié)果有用的特征信息。Ye等人[72]在2019年ACL會議上提出用于一種解決小樣本關(guān)系抽取問題的新方法,該模型結(jié)合多級匹配和整合結(jié)構(gòu)對訓(xùn)練樣本間的隱含關(guān)聯(lián)進行學(xué)習(xí),盡可能充分挖掘少量樣本中對關(guān)系分類有用的潛在信息。Soares等人[78]則采用預(yù)訓(xùn)練模型BERT來處理關(guān)系抽取任務(wù)中的小樣本學(xué)習(xí)問題。因為基于海量數(shù)據(jù)訓(xùn)練的BERT包含豐富的語義特征,引入模型后能夠有效緩解小樣本學(xué)習(xí)中特征匱乏問題,實驗表明其在FewRel數(shù)據(jù)集上的性能已經(jīng)超過人工進行關(guān)系分類的水平。Gao等人[79]進一步研究發(fā)現(xiàn)要將小樣本學(xué)習(xí)模型用于生產(chǎn)環(huán)境中,則模型不僅要具備領(lǐng)域遷移性,還需要能判斷出數(shù)據(jù)是不是屬于“非以上關(guān)系”的關(guān)系類型。為了解決以上兩個問題,Gao等人采集了大量醫(yī)療領(lǐng)域的數(shù)據(jù)并進行標(biāo)注,并在FewRel數(shù)據(jù)集原N-way K-shot的基礎(chǔ)上添加了“以上都不是”選項,提出了Few-Rel2.0數(shù)據(jù)集。

    總之,研究小樣本學(xué)習(xí)的關(guān)系抽取方法,能使模型具備“舉一反三”的高效學(xué)習(xí)能力,無論是對現(xiàn)有的小樣本學(xué)習(xí)方法進行改進,還是提出新的小樣本學(xué)習(xí)模型進行關(guān)系抽取,都將大大降低模型對標(biāo)注樣本數(shù)量上的依賴,對推動關(guān)系抽取技術(shù)的落地有著重大意義。

    6 結(jié)束語

    現(xiàn)階段,基于監(jiān)督的方式在關(guān)系抽取任務(wù)上具有較高的準(zhǔn)確率和召回率,但模型卻嚴(yán)重依賴準(zhǔn)確的標(biāo)注數(shù)據(jù)。當(dāng)模型遷移到新的領(lǐng)域時,需要構(gòu)建新的標(biāo)注語料庫并重新對模型進行訓(xùn)練。半監(jiān)督方式的關(guān)系抽取降低了對標(biāo)注數(shù)據(jù)的依賴,可以適應(yīng)標(biāo)注數(shù)據(jù)匱乏的情況,但卻對初始種子的質(zhì)量有很高的要求,并且經(jīng)常存在語義漂移問題。無監(jiān)督的關(guān)系抽取因其無需依賴標(biāo)注數(shù)據(jù),所以不但在領(lǐng)域可移植性上具有先天的優(yōu)勢,在處理開放域海量數(shù)據(jù)時也表現(xiàn)出良好的性能,但其聚類閾值的確定一直是較大的挑戰(zhàn)。

    關(guān)系抽取技術(shù)發(fā)展至今,在研究內(nèi)容上逐漸由限定領(lǐng)域轉(zhuǎn)向開放領(lǐng)域,關(guān)系類型的定義方式表現(xiàn)為由人工預(yù)先定義演變?yōu)殛P(guān)系類型自發(fā)現(xiàn);在研究方法上,深度學(xué)習(xí)的方法在關(guān)系抽取任務(wù)的性能上大幅超越傳統(tǒng)機器學(xué)習(xí),基于深度學(xué)習(xí)框架的關(guān)系抽取技術(shù)越來越受到學(xué)者們的關(guān)注,在此基礎(chǔ)上結(jié)合新興的圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、注意力機制、強化學(xué)習(xí)和小樣本學(xué)習(xí)的思想等均為關(guān)系抽取問題提供了新的解決思路。

    猜你喜歡
    實體遠(yuǎn)程卷積
    讓人膽寒的“遠(yuǎn)程殺手”:彈道導(dǎo)彈
    軍事文摘(2022年20期)2023-01-10 07:18:38
    遠(yuǎn)程工作狂綜合征
    英語文摘(2021年11期)2021-12-31 03:25:18
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    前海自貿(mào)區(qū):金融服務(wù)實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    遠(yuǎn)程詐騙
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    一本大道久久a久久精品| 免费看a级黄色片| 久久 成人 亚洲| 成熟少妇高潮喷水视频| 亚洲精品国产区一区二| 大型av网站在线播放| 欧美日韩中文字幕国产精品一区二区三区 | 欧美国产精品va在线观看不卡| 国产日韩一区二区三区精品不卡| 两人在一起打扑克的视频| 黄色视频,在线免费观看| 亚洲精品在线美女| 国产99久久九九免费精品| 国产亚洲欧美精品永久| 美女 人体艺术 gogo| 99riav亚洲国产免费| 老汉色av国产亚洲站长工具| 久久精品国产清高在天天线| 免费少妇av软件| 男人舔女人的私密视频| 免费在线观看视频国产中文字幕亚洲| 可以在线观看毛片的网站| 美女扒开内裤让男人捅视频| 在线观看日韩欧美| 最近最新免费中文字幕在线| 亚洲欧美一区二区三区黑人| 午夜福利免费观看在线| 欧美午夜高清在线| 欧美在线黄色| 亚洲全国av大片| 成人特级黄色片久久久久久久| 欧美激情久久久久久爽电影 | 日本三级黄在线观看| 国产精品美女特级片免费视频播放器| 久久性视频一级片| 听说在线观看完整版免费高清| 亚洲精品粉嫩美女一区| 久久人人精品亚洲av| 午夜福利高清视频| 国产黄片美女视频| 中文资源天堂在线| 国产综合懂色| 别揉我奶头 嗯啊视频| 国产精品美女特级片免费视频播放器| 免费人成视频x8x8入口观看| 深爱激情五月婷婷| 淫秽高清视频在线观看| 亚洲精品粉嫩美女一区| 精品午夜福利在线看| 18禁黄网站禁片免费观看直播| 国产三级在线视频| 欧美又色又爽又黄视频| ponron亚洲| 精品一区二区三区视频在线观看免费| 精品不卡国产一区二区三区| 国产精品99久久久久久久久| 99精品在免费线老司机午夜| 久久人妻av系列| 成年女人毛片免费观看观看9| 一级黄片播放器| 国产精品嫩草影院av在线观看 | 熟妇人妻久久中文字幕3abv| 丁香六月欧美| 天堂影院成人在线观看| 中文字幕免费在线视频6| 国产成人欧美在线观看| 国产精品伦人一区二区| 日韩 亚洲 欧美在线| 欧美成狂野欧美在线观看| 亚洲av免费高清在线观看| 好男人在线观看高清免费视频| 18禁裸乳无遮挡免费网站照片| 日韩高清综合在线| 最近最新免费中文字幕在线| 最近最新免费中文字幕在线| 中国美女看黄片| 性色avwww在线观看| 俺也久久电影网| 91久久精品国产一区二区成人| 18禁在线播放成人免费| 日韩欧美免费精品| 免费观看人在逋| 18禁在线播放成人免费| 亚洲五月天丁香| 国产成人影院久久av| 一级作爱视频免费观看| 熟女人妻精品中文字幕| 亚洲成a人片在线一区二区| 又爽又黄无遮挡网站| 最新在线观看一区二区三区| 老司机福利观看| 欧美色欧美亚洲另类二区| 国产视频内射| 国产精品久久久久久久久免 | 99久久精品国产亚洲精品| 无人区码免费观看不卡| 一区二区三区免费毛片| 狠狠狠狠99中文字幕| 国产成人福利小说| 色哟哟·www| 亚洲无线在线观看| 俄罗斯特黄特色一大片| 色哟哟·www| 嫩草影院精品99| 亚洲av一区综合| 啪啪无遮挡十八禁网站| a在线观看视频网站| 18美女黄网站色大片免费观看| 亚洲av熟女| 制服丝袜大香蕉在线| 久久天躁狠狠躁夜夜2o2o| 久久久久国内视频| 国产成人影院久久av| 国产麻豆成人av免费视频| 一本一本综合久久| 亚洲国产色片| 亚洲人与动物交配视频| 欧美黄色淫秽网站| 精品午夜福利视频在线观看一区| 国产成人欧美在线观看| 人妻久久中文字幕网| 国产精品亚洲av一区麻豆| 国产成人啪精品午夜网站| 欧美日韩国产亚洲二区| av福利片在线观看| 亚洲 国产 在线| 一a级毛片在线观看| 国产精品免费一区二区三区在线| 波多野结衣高清作品| 色哟哟·www| 国产精品女同一区二区软件 | 国产精品,欧美在线| 国产av不卡久久| 亚洲av日韩精品久久久久久密| 91在线精品国自产拍蜜月| 午夜免费激情av| 国产真实乱freesex| 久久99热6这里只有精品| 亚洲美女搞黄在线观看 | 少妇被粗大猛烈的视频| 国产主播在线观看一区二区| 日韩欧美一区二区三区在线观看| 十八禁网站免费在线| 淫秽高清视频在线观看| 99国产精品一区二区蜜桃av| 欧美成人一区二区免费高清观看| 中国美女看黄片| 18禁黄网站禁片午夜丰满| 久久精品国产99精品国产亚洲性色| 亚洲精品乱码久久久v下载方式| 99热这里只有是精品50| 成人精品一区二区免费| 中文资源天堂在线| 亚洲色图av天堂| 夜夜看夜夜爽夜夜摸| 国产精品综合久久久久久久免费| 亚洲专区中文字幕在线| 亚洲精品日韩av片在线观看| 在线观看一区二区三区| 深夜精品福利| 免费观看人在逋| 最近最新免费中文字幕在线| 久9热在线精品视频| 99久久精品国产亚洲精品| 精品99又大又爽又粗少妇毛片 | 特大巨黑吊av在线直播| 日本一本二区三区精品| 精品久久久久久久人妻蜜臀av| 国产精品国产高清国产av| 97碰自拍视频| 久久久久久久久大av| a级毛片a级免费在线| 性色avwww在线观看| 亚洲欧美激情综合另类| 极品教师在线视频| 黄色丝袜av网址大全| 亚洲av中文字字幕乱码综合| 亚洲专区国产一区二区| 最好的美女福利视频网| 色吧在线观看| 极品教师在线免费播放| 亚洲av第一区精品v没综合| 久久午夜福利片| 国产精品美女特级片免费视频播放器| 成年女人毛片免费观看观看9| 麻豆一二三区av精品| 18+在线观看网站| 少妇高潮的动态图| 12—13女人毛片做爰片一| 最好的美女福利视频网| 久久久久久久久大av| 亚洲无线在线观看| 一个人观看的视频www高清免费观看| 18禁黄网站禁片午夜丰满| 欧美极品一区二区三区四区| 精品久久久久久久久久免费视频| 国产淫片久久久久久久久 | 亚洲 国产 在线| av欧美777| 90打野战视频偷拍视频| 午夜福利在线观看吧| 可以在线观看的亚洲视频| 如何舔出高潮| 99热这里只有是精品50| 日韩欧美在线乱码| 国产精品1区2区在线观看.| 日本免费一区二区三区高清不卡| 国产高清激情床上av| 亚洲最大成人av| 禁无遮挡网站| 国产v大片淫在线免费观看| 又黄又爽又刺激的免费视频.| 在线观看舔阴道视频| 老熟妇乱子伦视频在线观看| 大型黄色视频在线免费观看| 午夜福利欧美成人| 丰满人妻一区二区三区视频av| 国产一区二区亚洲精品在线观看| 乱人视频在线观看| 亚洲av免费高清在线观看| 国产69精品久久久久777片| 在线播放国产精品三级| a级一级毛片免费在线观看| 亚洲国产高清在线一区二区三| 日韩欧美精品v在线| 国产精品一及| 欧美一区二区亚洲| 成人性生交大片免费视频hd| 亚洲美女搞黄在线观看 | 波多野结衣高清作品| 制服丝袜大香蕉在线| 99riav亚洲国产免费| 国产成人欧美在线观看| av专区在线播放| 久久香蕉精品热| 无遮挡黄片免费观看| 国产精品一及| 91在线精品国自产拍蜜月| x7x7x7水蜜桃| 免费观看精品视频网站| 亚洲专区国产一区二区| 在线观看av片永久免费下载| 国产精品久久久久久精品电影| av在线天堂中文字幕| 可以在线观看的亚洲视频| 人妻久久中文字幕网| 麻豆一二三区av精品| 午夜两性在线视频| 18禁黄网站禁片免费观看直播| 九色成人免费人妻av| av视频在线观看入口| x7x7x7水蜜桃| 九色国产91popny在线| 亚洲经典国产精华液单 | 亚洲久久久久久中文字幕| 久久香蕉精品热| 国产一区二区在线av高清观看| 一级黄片播放器| 91九色精品人成在线观看| 91久久精品电影网| 国产免费av片在线观看野外av| 国产精品自产拍在线观看55亚洲| a在线观看视频网站| 日本黄色片子视频| 波多野结衣巨乳人妻| 精品国产亚洲在线| 日韩欧美一区二区三区在线观看| 亚洲性夜色夜夜综合| 成年人黄色毛片网站| 亚洲人成网站在线播| 国产午夜精品论理片| 在线观看av片永久免费下载| 日本 av在线| 一个人免费在线观看电影| 国产日本99.免费观看| 免费在线观看日本一区| 身体一侧抽搐| 国产精品,欧美在线| 亚洲aⅴ乱码一区二区在线播放| 久久天躁狠狠躁夜夜2o2o| 如何舔出高潮| 欧美日韩国产亚洲二区| 久久热精品热| 有码 亚洲区| 国产亚洲精品久久久com| 一卡2卡三卡四卡精品乱码亚洲| 黄色一级大片看看| 亚洲综合色惰| 一本久久中文字幕| 亚洲av成人精品一区久久| av在线观看视频网站免费| 两个人视频免费观看高清| 丰满人妻熟妇乱又伦精品不卡| 国产色婷婷99| 在线a可以看的网站| 少妇人妻一区二区三区视频| 嫩草影院精品99| 欧美中文日本在线观看视频| 搡老熟女国产l中国老女人| 国产三级中文精品| 亚洲国产欧洲综合997久久,| 好男人在线观看高清免费视频| 看免费av毛片| 一区二区三区高清视频在线| 丰满人妻一区二区三区视频av| 欧美激情在线99| 国产视频内射| 亚洲国产日韩欧美精品在线观看| 精品人妻偷拍中文字幕| 精品午夜福利在线看| 亚洲欧美清纯卡通| 国内久久婷婷六月综合欲色啪| 18+在线观看网站| 欧美三级亚洲精品| 丰满人妻一区二区三区视频av| 97热精品久久久久久| 在线播放国产精品三级| 成人高潮视频无遮挡免费网站| 亚洲精品亚洲一区二区| 久久99热这里只有精品18| 俄罗斯特黄特色一大片| 亚洲人成伊人成综合网2020| 小蜜桃在线观看免费完整版高清| 国产精品久久久久久久电影| 国产精品久久久久久精品电影| 一区二区三区四区激情视频 | 俺也久久电影网| 日本在线视频免费播放| 在线观看舔阴道视频| 亚洲成人久久性| 亚洲av成人av| 在现免费观看毛片| 又黄又爽又刺激的免费视频.| 久久香蕉精品热| 99久久精品热视频| 国产精品久久视频播放| 又爽又黄a免费视频| 亚洲专区国产一区二区| 他把我摸到了高潮在线观看| 性插视频无遮挡在线免费观看| 91麻豆av在线| 内射极品少妇av片p| 国产三级在线视频| 国产精品自产拍在线观看55亚洲| 久久久久国内视频| 久久伊人香网站| 国产综合懂色| 在线观看66精品国产| 12—13女人毛片做爰片一| 久久精品影院6| 日韩有码中文字幕| 国产欧美日韩精品一区二区| 成人国产一区最新在线观看| 欧美一区二区国产精品久久精品| 日韩高清综合在线| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 成年版毛片免费区| 国产伦精品一区二区三区视频9| 日本免费a在线| 亚洲欧美精品综合久久99| 搡老熟女国产l中国老女人| 波多野结衣高清无吗| 少妇的逼好多水| 国产精品嫩草影院av在线观看 | 精品久久久久久久末码| 亚洲不卡免费看| 小说图片视频综合网站| 他把我摸到了高潮在线观看| www.www免费av| 高清在线国产一区| 不卡一级毛片| 久久婷婷人人爽人人干人人爱| 最近最新免费中文字幕在线| 国产在视频线在精品| 波野结衣二区三区在线| 日韩成人在线观看一区二区三区| 国产精品女同一区二区软件 | 在线看三级毛片| 两性午夜刺激爽爽歪歪视频在线观看| 免费看a级黄色片| 91在线精品国自产拍蜜月| 欧美另类亚洲清纯唯美| 国语自产精品视频在线第100页| 国产精品久久久久久精品电影| 国产亚洲av嫩草精品影院| 一本精品99久久精品77| 精品一区二区三区人妻视频| 麻豆国产97在线/欧美| 女人被狂操c到高潮| 成年版毛片免费区| 一进一出好大好爽视频| 别揉我奶头~嗯~啊~动态视频| 亚洲中文日韩欧美视频| 国产男靠女视频免费网站| 亚洲av一区综合| 又爽又黄a免费视频| 国产精品综合久久久久久久免费| 欧美一区二区国产精品久久精品| 蜜桃亚洲精品一区二区三区| 在线观看66精品国产| 欧美午夜高清在线| 最近在线观看免费完整版| 国产精品人妻久久久久久| 99国产极品粉嫩在线观看| 亚洲精品久久国产高清桃花| 日本一本二区三区精品| 在线观看av片永久免费下载| 91在线精品国自产拍蜜月| 精品人妻一区二区三区麻豆 | 日本 av在线| 久久久久久国产a免费观看| 欧美成狂野欧美在线观看| 怎么达到女性高潮| 免费无遮挡裸体视频| 亚洲自偷自拍三级| 欧美色欧美亚洲另类二区| 久久久久国产精品人妻aⅴ院| 亚洲av免费在线观看| 精品熟女少妇八av免费久了| 免费看光身美女| 国产蜜桃级精品一区二区三区| 欧美色视频一区免费| 特级一级黄色大片| 久久这里只有精品中国| 最后的刺客免费高清国语| 天堂影院成人在线观看| 悠悠久久av| 亚洲最大成人av| 51午夜福利影视在线观看| 麻豆国产av国片精品| 色5月婷婷丁香| 久久精品国产亚洲av香蕉五月| 男人和女人高潮做爰伦理| 特大巨黑吊av在线直播| 熟女电影av网| 色综合站精品国产| 最新在线观看一区二区三区| 伦理电影大哥的女人| 99热只有精品国产| 最新在线观看一区二区三区| 欧美激情久久久久久爽电影| 日本精品一区二区三区蜜桃| 午夜激情福利司机影院| 国产精品一区二区三区四区免费观看 | 好男人电影高清在线观看| 深爱激情五月婷婷| 欧美日韩亚洲国产一区二区在线观看| 欧美三级亚洲精品| 国产一区二区三区在线臀色熟女| 精品久久久久久成人av| 国产一级毛片七仙女欲春2| 性色av乱码一区二区三区2| 亚洲在线自拍视频| 无遮挡黄片免费观看| 男人的好看免费观看在线视频| av视频在线观看入口| 男人舔女人下体高潮全视频| 久99久视频精品免费| 国产精品乱码一区二三区的特点| 免费av毛片视频| 午夜激情欧美在线| 在线a可以看的网站| 美女xxoo啪啪120秒动态图 | 午夜福利欧美成人| 国产成人aa在线观看| 日韩精品中文字幕看吧| 有码 亚洲区| 国产av一区在线观看免费| 精品人妻1区二区| av女优亚洲男人天堂| 激情在线观看视频在线高清| 麻豆国产97在线/欧美| 亚洲第一电影网av| av在线观看视频网站免费| 久久久久国内视频| 国产伦一二天堂av在线观看| 国产欧美日韩精品亚洲av| 一本精品99久久精品77| 亚洲av成人不卡在线观看播放网| 午夜福利视频1000在线观看| 亚洲国产精品合色在线| 久久久久久久午夜电影| 级片在线观看| 国产真实伦视频高清在线观看 | 久久性视频一级片| 看十八女毛片水多多多| 国产一区二区三区在线臀色熟女| av在线老鸭窝| 3wmmmm亚洲av在线观看| 亚洲人与动物交配视频| 亚洲人成网站在线播放欧美日韩| 一个人免费在线观看电影| 麻豆一二三区av精品| 97超视频在线观看视频| 色av中文字幕| 欧美一区二区精品小视频在线| www.www免费av| 伊人久久精品亚洲午夜| 丰满乱子伦码专区| 老女人水多毛片| www日本黄色视频网| 可以在线观看的亚洲视频| 久久久久免费精品人妻一区二区| 免费高清视频大片| 国产av一区在线观看免费| 日韩欧美精品v在线| 一级作爱视频免费观看| 熟女电影av网| 男女视频在线观看网站免费| 好看av亚洲va欧美ⅴa在| 国产一区二区在线av高清观看| 精品人妻一区二区三区麻豆 | 超碰av人人做人人爽久久| 欧美一级a爱片免费观看看| 午夜福利18| 在现免费观看毛片| 婷婷亚洲欧美| 日韩欧美免费精品| 9191精品国产免费久久| 97超视频在线观看视频| 欧美国产日韩亚洲一区| 精华霜和精华液先用哪个| 少妇人妻精品综合一区二区 | 99热精品在线国产| 国产精品,欧美在线| 欧洲精品卡2卡3卡4卡5卡区| 亚洲中文字幕日韩| 18美女黄网站色大片免费观看| 亚洲欧美日韩东京热| 99国产综合亚洲精品| 日韩欧美在线乱码| 久久久久久国产a免费观看| 午夜精品一区二区三区免费看| 亚洲av.av天堂| 精品久久久久久成人av| 无遮挡黄片免费观看| 美女高潮的动态| 又粗又爽又猛毛片免费看| 一本一本综合久久| 亚洲 欧美 日韩 在线 免费| 日韩高清综合在线| 在线a可以看的网站| 啪啪无遮挡十八禁网站| 国产探花极品一区二区| 国产精品女同一区二区软件 | 欧美xxxx黑人xx丫x性爽| 国产午夜精品论理片| 18禁在线播放成人免费| 色综合婷婷激情| 亚洲国产欧美人成| 国产av麻豆久久久久久久| 欧美精品国产亚洲| 十八禁国产超污无遮挡网站| 97超视频在线观看视频| 久久国产精品人妻蜜桃| 亚洲综合色惰| 国产色爽女视频免费观看| 免费电影在线观看免费观看| 色尼玛亚洲综合影院| 男女下面进入的视频免费午夜| 精品99又大又爽又粗少妇毛片 | 村上凉子中文字幕在线| aaaaa片日本免费| 嫩草影视91久久| 久久久久性生活片| 欧美+亚洲+日韩+国产| bbb黄色大片| 91午夜精品亚洲一区二区三区 | 国产淫片久久久久久久久 | 香蕉av资源在线| 国内久久婷婷六月综合欲色啪| 国内揄拍国产精品人妻在线| 欧美日韩亚洲国产一区二区在线观看| 国产午夜精品久久久久久一区二区三区 | 中文字幕熟女人妻在线| 看片在线看免费视频| 国产一区二区三区在线臀色熟女| 波多野结衣巨乳人妻| 90打野战视频偷拍视频| 国产精品电影一区二区三区| 国产欧美日韩精品亚洲av| 免费观看精品视频网站| 亚洲国产欧洲综合997久久,| 夜夜躁狠狠躁天天躁| 哪里可以看免费的av片| 亚洲av中文字字幕乱码综合| 成人特级av手机在线观看| 欧美日本视频| 我要搜黄色片| 日韩精品中文字幕看吧| 久久亚洲真实| 亚洲人成网站在线播放欧美日韩| 桃红色精品国产亚洲av| 不卡一级毛片| 99热6这里只有精品| 国产三级在线视频| 特大巨黑吊av在线直播| 精品国产三级普通话版| 级片在线观看| av欧美777| 天堂影院成人在线观看| 亚洲av美国av| 丁香六月欧美| 偷拍熟女少妇极品色| 99久久九九国产精品国产免费| 毛片一级片免费看久久久久 | 中文字幕免费在线视频6| 亚洲综合色惰| 男女那种视频在线观看| 天堂√8在线中文| 国产亚洲精品av在线| 51午夜福利影视在线观看| 亚洲精品一卡2卡三卡4卡5卡| 夜夜爽天天搞| 亚洲电影在线观看av|