周義恒 陳顥天 周向東
摘 要:實(shí)體關(guān)系抽取在科技文獻(xiàn)挖掘、文本知識(shí)發(fā)現(xiàn)等應(yīng)用中起著重要作用。本文提出了一種新的實(shí)體關(guān)系聯(lián)合抽取模型,利用關(guān)系之間存在的關(guān)聯(lián)性來提升實(shí)體與關(guān)系聯(lián)合抽取的性能。即將實(shí)體二元組(實(shí)體對(duì))映射到關(guān)系語義子空間,并利用圖注意力網(wǎng)絡(luò)(Graph Attention Network)來探索關(guān)系之間相關(guān)性,實(shí)現(xiàn)了實(shí)體關(guān)系三元組抽取性能的改進(jìn)。在兩個(gè)常用的公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本模型達(dá)到了目前已知的最好性能指標(biāo)。
關(guān)鍵詞:關(guān)系相關(guān)性;聯(lián)合抽取;圖注意力網(wǎng)絡(luò)
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2097-0145(2022)03-0039-06doi:10.11847/fj.41.3.39
Joint Extraction of Science Entity and Relation Based on Graph Attention Network
ZHOU Yi-heng1,2, CHEN Hao-tian1,2, ZHOU Xiang-dong1,2
(1.College of Computer Science and Technology, Fudan University, Shanghai 200438, China; 2.Shanghai Key Laboratory of Data Science, Shanghai 200438, China)
Abstract:Entity and relation extraction plays an important role in science text mining and science knowledge and information discovery. In this paper, we propose a novel entity and relation joint extraction model, utilizing the association information between relations to improve model performance. Specifically, we project entity pair vectors to corresponding relation-spaces, and adopt Graph Attention Network (GAT) to adaptively explore the association information between them, thereby improving the model performance. The experimental results on two commonly used datasets show that our proposed model outperforms other existing models and archives the state-of-the-art performance.
Key words:association information between relations; joint extraction; graph attention network
1 引言
隨著信息技術(shù)的迅速發(fā)展,科學(xué)研究中累積了大量文本數(shù)據(jù)。這些數(shù)據(jù)往往蘊(yùn)含著豐富的知識(shí),相關(guān)的知識(shí)抽取與挖掘技術(shù)具有重要的應(yīng)用價(jià)值。實(shí)體關(guān)系三元組是以三元組形式將文本(如科技文獻(xiàn))中提取的人名、地名等為代表的專用名詞表示為主、賓實(shí)體對(duì)象,兩個(gè)實(shí)體之間的聯(lián)系表示為關(guān)系的數(shù)據(jù)結(jié)構(gòu)。實(shí)體關(guān)系三元組是當(dāng)前構(gòu)建知識(shí)庫或語義網(wǎng)絡(luò)最常用的基本數(shù)據(jù)對(duì)象,因此從非結(jié)構(gòu)化的文本數(shù)據(jù)中自動(dòng)抽取實(shí)體關(guān)系三元組具有重要的研究意義。
實(shí)體關(guān)系三元組通常以)形式表達(dá)。如圖1所示的一段文本:“張三出生于上海,一個(gè)位于中國東部的城市”,可以從中抽取諸如<張三,出生于,上海>(Z-BornIn-S),<張三,出生于,中國>(Z-BornIn-C)和<張三,家鄉(xiāng)是,上海>(Z-Home-S)等三個(gè)實(shí)體關(guān)系三元組。通過進(jìn)一步的觀察可以發(fā)現(xiàn)許多句子中蘊(yùn)含的不同三元組之間存在實(shí)體或關(guān)系共享情況,稱為實(shí)體關(guān)系重疊問題。本文將這種重疊問題分為兩類:單實(shí)體重疊Single Entity Overlap(SEO)和實(shí)體對(duì)重疊Entity Pair Overlap(EPO)。圖1中三元組Z-BornIn-S和Z-Home-S屬于 SEO問題,而三元組Z-BornIn-S和Z-BornIn-C屬于EPO問題。由于實(shí)體或關(guān)系重疊會(huì)產(chǎn)生遮蔽或混淆的情況,往往對(duì)三元組自動(dòng)抽取帶來不利的影響。
隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,實(shí)體關(guān)系三元組抽取技術(shù)從早期的流水線模式已經(jīng)發(fā)展到基于各種深度網(wǎng)絡(luò)的聯(lián)合抽取方法[1~4]。基于深度網(wǎng)絡(luò)的抽取方法通常將整個(gè)句子編碼,利用解碼器逐一生成三元組或者先抽取三元的主語部分subject,然后預(yù)測其余部分即
本文在前人工作的基礎(chǔ)上提出一種新的發(fā)掘關(guān)系相關(guān)性來改進(jìn)聯(lián)合抽取模型性能的方法。通過圖注意力網(wǎng)絡(luò)Graph Attention Network(GAT)探索關(guān)系之間的相關(guān)性來提高三元組抽取性能。具體而言,本文提出關(guān)系語義空間的概念用于關(guān)系相關(guān)性建模。關(guān)系語義空間由不同關(guān)系子空間組成,每個(gè)子空間訓(xùn)練標(biāo)記器(分類器)fr(s,o)→(yes/no)以預(yù)測實(shí)體對(duì)是否能映射到對(duì)應(yīng)的關(guān)系上。與前人工作相比,本文以重疊實(shí)體作為橋梁探索關(guān)系相關(guān)性,利用圖模型對(duì)不同關(guān)系子空間之間的相關(guān)性進(jìn)行建模。基于GAT的自適應(yīng)學(xué)習(xí)機(jī)制,使得實(shí)體特征向量獲得不同關(guān)系之間的相關(guān)性信息,進(jìn)而提升了三元組抽取的性能。
本文的主要貢獻(xiàn)如下:提出了一個(gè)新穎的基于GAT的聯(lián)合實(shí)體關(guān)系抽取模型:RCRel。將不同的關(guān)系子空間組成的關(guān)系語義空間與GAT集成,將主賓實(shí)體對(duì)映射到所有關(guān)系子空間中以進(jìn)行關(guān)系預(yù)測,從而有效地克服關(guān)系重疊問題并提升了抽取性能。分別在公共數(shù)據(jù)集NYT和WebNLG上進(jìn)行實(shí)驗(yàn)以評(píng)估本模型的性能。當(dāng)使用BERT作為編碼層時(shí),F(xiàn)1達(dá)到92.5%和93.3%,超過了已知工作的最好指標(biāo)。
2 文獻(xiàn)綜述
早期的關(guān)系三元組抽取模型大多采用流水線(Pipline)方法[5~7]。首先識(shí)別文本中的潛在實(shí)體對(duì),接著對(duì)每個(gè)實(shí)體對(duì)判斷關(guān)系類別。該方法容易受到誤差累計(jì)問題的影響,即實(shí)體識(shí)別的誤差會(huì)傳遞到關(guān)系分類中。隨后出現(xiàn)了新的實(shí)體關(guān)系聯(lián)合學(xué)習(xí)模型,
包括基于特征的模型[8~11]和基于深度網(wǎng)絡(luò)的模型[1,4,12~14]?;谏疃壬窠?jīng)網(wǎng)絡(luò)的模型將人工構(gòu)造特征替換為模型自動(dòng)學(xué)習(xí)特征,使三元組抽取性能獲得了顯著提高。在聯(lián)合抽取模型中,實(shí)體識(shí)別和關(guān)系分類同時(shí)進(jìn)行,兩個(gè)子任務(wù)之間的交互可以減輕模型偏差(也稱曝光偏差exposure bias),提高抽取性能。Zheng等[12]提出了一種基于標(biāo)記策略的端到端實(shí)體關(guān)系抽取模型,將實(shí)體和關(guān)系抽取轉(zhuǎn)換為標(biāo)記(分類)問題。Zeng等[1]提出了一種基于復(fù)制機(jī)制的端到端學(xué)習(xí)模型,將重疊的三元組分為三類并從各類句子中進(jìn)行聯(lián)合抽取。Dai等[2]提出了一種新的聯(lián)合標(biāo)簽?zāi)P?,從N個(gè)單詞的語句中生成N個(gè)標(biāo)簽序列并利用位置注意機(jī)制對(duì)序列進(jìn)行建模,最后基于CRF模型抽取關(guān)系三元組。Hamilton等[15]提出了 ETL-Span聯(lián)合標(biāo)記策略模型,通過標(biāo)記頭實(shí)體和不同關(guān)系尾實(shí)體來消除重疊問題。Wei等[3]提出了一種新的標(biāo)記策略和解碼方法CasRel,該方法首先使用主語標(biāo)記器標(biāo)記主語并將每個(gè)主語映射到N個(gè)<關(guān)系-賓語>序列中,然后使用標(biāo)記器抽取賓語和關(guān)系。深度神經(jīng)網(wǎng)絡(luò)聯(lián)合標(biāo)注表現(xiàn)出較好的性能,但是對(duì)于復(fù)雜關(guān)系和重疊問題的探索仍有待進(jìn)一步深化。
近年的研究中出現(xiàn)了基于圖網(wǎng)絡(luò)模型的三元組抽取方法。圖網(wǎng)絡(luò)模型是指在圖上運(yùn)行的深度網(wǎng)絡(luò),它為每個(gè)節(jié)點(diǎn)學(xué)習(xí)一個(gè)包含鄰域信息的嵌入(節(jié)點(diǎn)通過邊直接連接到目標(biāo)節(jié)點(diǎn))。這種嵌入往往用于解決如節(jié)點(diǎn)標(biāo)記、節(jié)點(diǎn)預(yù)測、邊預(yù)測等問題。圖神經(jīng)網(wǎng)絡(luò)領(lǐng)域的經(jīng)典模型有GCN,Graph Sample and Aggregate(GraphSAGE)[16]和GAT等。圖網(wǎng)絡(luò)模型有助于刻畫抽象概念,例如實(shí)體之間的關(guān)系。在實(shí)體關(guān)系抽取時(shí),實(shí)體和關(guān)系重疊是影響抽取效果的重要因素。但是關(guān)系重疊較為復(fù)雜和難以刻畫,因此前人工作往往忽略這類問題。鑒于圖網(wǎng)絡(luò)具備刻畫節(jié)點(diǎn)之間復(fù)雜關(guān)系并進(jìn)行量化計(jì)算的能力,F(xiàn)u等[4]提出了GraphRel來探索關(guān)系之間的相互聯(lián)系并進(jìn)行加權(quán),以提升三元組抽取的性能。該文使用BILSTM(Bidirectional LSTM)模型抽取實(shí)體,使用關(guān)系加權(quán)GCN對(duì)命名實(shí)體與關(guān)系之間的交互進(jìn)行建模,最后對(duì)實(shí)體對(duì)進(jìn)行分類。GraphRel首次在實(shí)體和關(guān)系抽取任務(wù)中提出了實(shí)體和關(guān)系之間交互的問題。在兩個(gè)公開數(shù)據(jù)集上都有較好的實(shí)驗(yàn)性能。但是GCN無法自適應(yīng)地獲取關(guān)系之間的相關(guān)性,與一些最新的非圖網(wǎng)絡(luò)方法相比,整體抽取性能還有待進(jìn)一步提升。
因此在前人工作的啟發(fā)下,本文提出了一種新的基于關(guān)系相關(guān)性建模的關(guān)系三元組抽取方法。在新的三元組抽取框架下利用GAT自適應(yīng)地學(xué)習(xí)關(guān)系語義空間中關(guān)系之間的相關(guān)性,并獲得較好的抽取性能。
3 方法論
本文提出一種新的實(shí)體關(guān)系聯(lián)合抽取模型RCRel。從關(guān)系注意力和關(guān)系相似度的角度出發(fā)探索關(guān)系語義空間相關(guān)性來解決實(shí)體關(guān)系抽取中的重疊問題。本模型利用關(guān)系共現(xiàn)性預(yù)訓(xùn)練關(guān)系嵌入編碼器,構(gòu)建了一個(gè)關(guān)系編碼器對(duì)關(guān)系進(jìn)行編碼。在GAT的基礎(chǔ)上,引入關(guān)系嵌入改善注意力機(jī)制以更好地探索實(shí)體關(guān)系之間的相關(guān)性。
RCRel對(duì)象關(guān)系聯(lián)合抽取模型的目標(biāo)方程可以用如下最大似然函數(shù)L(D)描述。
假設(shè)訓(xùn)練集D包含所有句子和xi∈D。令Ti=s,o,r代表與句子xi對(duì)應(yīng)的一組三元組。則
L(D)=∏|D|i=1[∏(s,o,r)∈Tip((s,o,r)|xi)]=∏|D|i=1[∏(s,o)∈Tip((s,o)|xi)∏r∈Ti|(s,o)p(r|(s,o),xi)]
=∏|D|i=1[∏(s,o)∈Tip((s,o)|xi)∏r∈Ti|(s,o)p(r|(s,o,xi)∏rTi|(s,o)p(r|(s,o,xi))](1)
本文將三元組分為兩部分:關(guān)系r和(s,o),然后通過使用鏈?zhǔn)椒▌t對(duì)其進(jìn)行分解。公式(1)描述了一個(gè)新的聯(lián)合抽取框架。它將三元組抽取分為兩部分:實(shí)體抽?。‥E)和關(guān)系抽取(RE)?;谠撃繕?biāo)函數(shù),本文提出的RCRel抽取方法由三個(gè)環(huán)節(jié)構(gòu)成:首先,從句子中抽取所有實(shí)體。然后,將所有實(shí)體向量映射到關(guān)系語義空間,并通過圖注意力網(wǎng)絡(luò)建立不同關(guān)系子空間之間的相關(guān)性。最后,在不同的關(guān)系語義子空間中計(jì)算所有實(shí)體對(duì)之間的得分以獲得關(guān)系三元組。本文模型的總體框架如圖2所示:實(shí)體抽取過程中,由實(shí)體標(biāo)記器標(biāo)記并抽取3個(gè)候選實(shí)體(J:John,S:Sheffield,E:England)。關(guān)系語義空間中,候選實(shí)體嵌入和關(guān)系嵌入被投射到不同的關(guān)系語義空間中。然后,通過R-GAT將每個(gè)關(guān)系語義子空間中的實(shí)體向量融合,并分別映射為主語和賓語。最后,根據(jù)關(guān)系標(biāo)記器計(jì)算得分來確定關(guān)系三元組。A67D4071-5767-49FE-868D-67CB7CFF2701
3.1 RCRel聯(lián)合抽取模型
RCRel模型的整體結(jié)構(gòu)如圖2所示。
實(shí)體抽?。簩?shí)體抽取是關(guān)系三元組抽取的基礎(chǔ)。RCRel模型采用類似于CasRel的二元標(biāo)記策略,但是一次性抽取所有實(shí)體。這樣的改變使整個(gè)抽取過程更加完整并且避免信息丟失。實(shí)體抽取過程描述如下:將BERT獲得的所有TOKEN的特征向量通過兩個(gè)二元線性層,獲取實(shí)體的頭尾位置。標(biāo)記公式如下
pheadi=σ(Wheadxi+bhead)(2)
ptaili=σ(Wtailxi+btail)(3)
關(guān)系語義空間:不同關(guān)系語義子空間下的實(shí)體之間也往往存在一定的相關(guān)性。如“John was born in Sheffield,a city of England.”這句話中,可以直接抽取出諸如
因此,為了探索實(shí)體關(guān)系之間的關(guān)系相關(guān)性,本文首先設(shè)計(jì)了新的實(shí)體抽取器和關(guān)系編碼器來抽取實(shí)體并對(duì)關(guān)系進(jìn)行嵌入編碼。然后將實(shí)體嵌入和關(guān)系嵌入傳入關(guān)系語義空間建模,從而捕捉不同實(shí)體在關(guān)系語義空間的相關(guān)性。本文將實(shí)體向量v*映射到不同的關(guān)系語義子空間
hji=Wivj(4)
其中hji表示第i個(gè)關(guān)系語義子空間下對(duì)應(yīng)的j個(gè)實(shí)體的向量,而Wi表示與第i個(gè)關(guān)系語義子空間相對(duì)應(yīng)的權(quán)重矩陣,vj表示與實(shí)體集中的第j個(gè)實(shí)體相對(duì)應(yīng)的向量。
本文采用GAT對(duì)不同關(guān)系之間的相關(guān)性進(jìn)行建模。GAT將相鄰頂點(diǎn)的特征通過聚合運(yùn)算匯集到中心頂點(diǎn)上,利用圖上的鄰域信息學(xué)習(xí)新的頂點(diǎn)特征表達(dá)。GAT通過自注意力機(jī)制學(xué)習(xí)到節(jié)點(diǎn)之間的權(quán)重關(guān)系,而無需像其他網(wǎng)絡(luò)一樣進(jìn)行大規(guī)模全圖計(jì)算或者提前知道鄰域信息,使得模型的學(xué)習(xí)能力和推理能力大幅增強(qiáng)。假設(shè)Hj0-N=[hj0,hj1,…,hjN]表示不同關(guān)系子空間中第j 個(gè)實(shí)體的向量序列,其中N表示數(shù)據(jù)集中的關(guān)系數(shù)量。受Transformer的自注意力啟發(fā),本文在GAT的每一層之后添加了一層前饋神經(jīng)網(wǎng)絡(luò)(FFN),以增強(qiáng)模型的性能。此過程可以表示如下
Gj0-N=FNN(GAT(Hj0-n))(5)
其中Gj0-N=[gj0,gj1,…,gjN]表示GAT之后的Hj0-N向量序列。
本文將包含關(guān)系信息的實(shí)體向量分別映射成主語向量和賓語向量。然后在每個(gè)關(guān)系語義子空間中對(duì)主語向量和賓語向量進(jìn)行配對(duì)。通過使用Sigmoid函數(shù)計(jì)算其內(nèi)積來預(yù)測對(duì)應(yīng)的關(guān)系。如果分?jǐn)?shù)超過閾值,則在該關(guān)系語義子空間中找到對(duì)應(yīng)關(guān)系三元組。該過程可用公式表示如下
ski=Wsigki+bsi(6)
oli=Woigli+boi(7)
Scorek,li=σ(ski·oli)(8)
其中ski表示第i個(gè)關(guān)系語義子空間中第k個(gè)主語的向量。Wsi是第i個(gè)關(guān)系的主語映射矩陣的權(quán)重,而bsi是偏置。類似地,oli表示第i個(gè)關(guān)系語義子空間中第l個(gè)賓語的向量。Woi和boi是賓語的矩陣權(quán)重和偏置。Scorek,li表示第i個(gè)關(guān)系語義子空間中第k個(gè)主語與第l個(gè)賓語的關(guān)系得分。由于同一實(shí)體不能在三元組中同時(shí)用作主語和賓語,本文對(duì)關(guān)系二元標(biāo)記器中得分矩陣的對(duì)角線進(jìn)行了遮蔽。
模型在處理前文所示例句“John was born in Sheffield, a city of England.” 時(shí),在關(guān)系語義子空間Born in下,第0個(gè)主語John和第1個(gè)賓語Sheffield的關(guān)系得分大于閾值,因此可以抽取得到三元組
4 實(shí)驗(yàn)
為了驗(yàn)證和評(píng)估本文方法的有效性,本文與前人工作中性能較好和最新的多個(gè)模型進(jìn)行了對(duì)比實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析。按前人工作的慣例在兩個(gè)常用的數(shù)據(jù)集NYT和WebNLG上進(jìn)行了抽取性能準(zhǔn)確性對(duì)比和本文方法消融實(shí)驗(yàn)。針對(duì)實(shí)體關(guān)系重疊問題進(jìn)行了細(xì)分對(duì)比實(shí)驗(yàn),驗(yàn)證本文方法在解決重疊問題方面的性能。
實(shí)驗(yàn)數(shù)據(jù)集:為了保證實(shí)驗(yàn)對(duì)比的公平性,我們使用兩個(gè)最常用的基準(zhǔn)數(shù)據(jù)集NYT[17]和WebNLG[18]進(jìn)行實(shí)驗(yàn)。NYT數(shù)據(jù)集是學(xué)者使用遠(yuǎn)程監(jiān)督方法在NYT-NEWS數(shù)據(jù)上制作的。它由11800個(gè)句子和24個(gè)預(yù)定義的關(guān)系類型組成。WebNLG數(shù)據(jù)網(wǎng)最初是為自然語言生成(NLG)任務(wù)創(chuàng)建的,被前人改編為關(guān)系三元組抽取任務(wù)的數(shù)據(jù)集。它包含246個(gè)預(yù)定義的關(guān)系類型。其中NYT包含用于訓(xùn)練的56195個(gè)句子,用于驗(yàn)證的5000個(gè)句子和用于測試的5000個(gè)句子,而WebNLG包含用于訓(xùn)練的5019個(gè)句子,用于驗(yàn)證的500個(gè)句子和用于測試的703個(gè)句子。本文將重疊的問題分為三類:SEO,EPO和Muilt。在NYT和WebNLG中,分別有大約34.1 和67.8 的重疊關(guān)系以及34.5 和65.4 的共現(xiàn)關(guān)系。這兩個(gè)數(shù)據(jù)集包含大量具有相關(guān)性的關(guān)系三元組,可以用來驗(yàn)證本文的想法。NYT和WebNLG的統(tǒng)計(jì)信息,如表1所示。A67D4071-5767-49FE-868D-67CB7CFF2701
實(shí)驗(yàn)設(shè)置:在編碼器部分,使用Bert-base-cased。通過最小化損失函數(shù)來優(yōu)化模型,并使用AdamW隨機(jī)梯度下降梯度優(yōu)化算法和shuffle mini-batch方法來訓(xùn)練模型。主要的超參數(shù)設(shè)置如下:batch-size=16,學(xué)習(xí)率=1e-5,GAT層數(shù)=4,以及λ=N,其中N代表數(shù)據(jù)集中關(guān)系的數(shù)量。使用NVIDIA RTX3090作為訓(xùn)練GPU。在NYT和WebNLG數(shù)據(jù)集上分別訓(xùn)練了15個(gè)小時(shí)和3.5個(gè)小時(shí)之后,選擇了具有最優(yōu)的模型參數(shù)用于評(píng)估測試集。
評(píng)估指標(biāo):參照前人工作中常用的評(píng)估指標(biāo)和約定。當(dāng)且僅當(dāng)主語、關(guān)系和賓語都正確時(shí),才認(rèn)為抽取的三元組是正確的。使用標(biāo)準(zhǔn)的Precision,Recall和F1分?jǐn)?shù)來評(píng)估模型的效果,
模型綜合預(yù)測性能的體現(xiàn)由F1分?jǐn)?shù)反映。
實(shí)驗(yàn)結(jié)果:表2給出用于比較的基線模型分別為NovelTagging[12], CopyR[1],GraphRel[4],ETL-span[2],CasRel[3]和TPLinker[18]。在NYT數(shù)據(jù)集及WebNLG數(shù)據(jù)集上,RCRel優(yōu)于以前的最優(yōu)方法。具體來說,在兩個(gè)數(shù)據(jù)集的綜合表現(xiàn)上,RCRel均分別超過了之前最優(yōu)模型CasRel和TPLinker。
對(duì)實(shí)驗(yàn)結(jié)果的分析如下:
(1)在每一輪訓(xùn)練中,CasRel一次只能處理一個(gè)主語對(duì)應(yīng)的一個(gè)隨機(jī)關(guān)系三元組。顯然會(huì)造成上下文信息丟失。當(dāng)三元組的數(shù)目很大時(shí),抽取句子中信息的操作顯著增加,進(jìn)一步導(dǎo)致性能下降。
(2)當(dāng)一個(gè)句子中有更多的三元組時(shí),實(shí)體與關(guān)系之間的關(guān)聯(lián)會(huì)變得更加復(fù)雜,CasRel不能有效的抽取隱式關(guān)系。
本文的RCRel框架更加合理,可以一次性處理一個(gè)句子中的所有三元組信息,并通過語義推斷獲得額外信息。因此,即使一個(gè)句子里的三元組的數(shù)量較多,RCRel的性能也不會(huì)下降。
消融實(shí)驗(yàn):為了驗(yàn)證GAT模塊的重要性,本文設(shè)置了不同的GAT層數(shù)進(jìn)行消融實(shí)驗(yàn)。表3顯示了消融實(shí)驗(yàn)的結(jié)果。隨著GAT的層數(shù)從0增加到4,模型的F1分?jǐn)?shù)從91.5%增加到92.7%。當(dāng)層數(shù)增加到8時(shí),F(xiàn)1分?jǐn)?shù)降低到92.1%。該現(xiàn)象表明當(dāng)層數(shù)增加時(shí),三元組之間可以通過GAT交換更多的信息,從而使模型的性能更好。隨著層數(shù)不斷增加,模型會(huì)吸收一些不相關(guān)的信息導(dǎo)致模型性能退化。
重疊問題對(duì)比實(shí)驗(yàn):為驗(yàn)證RCRel處理重疊問題的能力,本文在NYT和WebNLG數(shù)據(jù)集上開展進(jìn)一步實(shí)驗(yàn),將數(shù)據(jù)集劃分為不同的子數(shù)據(jù)集,用于評(píng)估不同的重疊問題:(1)根據(jù)句子中包含的三元組類型,將數(shù)據(jù)集分為三個(gè)子數(shù)據(jù)集:Normal、SEO和EPO。(2)根據(jù)句子中包含的三元組數(shù),將數(shù)據(jù)集分為5個(gè)子數(shù)據(jù)集:分別對(duì)應(yīng)句子中包含1、2、…、5(及以上)個(gè)三元組。本文將不同類別的數(shù)據(jù)集用于測評(píng)和對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。對(duì)于此三類問題,RCRel在大多數(shù)情況下都優(yōu)于CasRel。在SEO及EPO的情況下,RCRel在NYT和WebNLG上皆超過了CasRel。根據(jù)不同三元組數(shù)的實(shí)驗(yàn)結(jié)果,RCRel在每種情況下也優(yōu)于以前的模型。通過比較RCRel和其他模型的結(jié)果,可以發(fā)現(xiàn)本文方法主要在SEO、EPO 和包含較多關(guān)系的句子抽取情況下獲得了更多的改進(jìn)。這些實(shí)驗(yàn)結(jié)果表明,本文提出的RCRel能夠更好地處理重疊和復(fù)雜句子問題,并表現(xiàn)出更高的抽取性能。
5 結(jié)論與啟示
本文提出一個(gè)新的端到端實(shí)體關(guān)系三元組聯(lián)合抽取框架RCRel,通過探索不同關(guān)系語義子空間之間的相關(guān)性來提高實(shí)體關(guān)系抽取的性能。該模型將實(shí)體對(duì)映射到不同的關(guān)系語義子空間,利用關(guān)系相關(guān)來解決重疊問題并獲得較好的抽取性能。實(shí)驗(yàn)驗(yàn)證顯示RCRel在兩個(gè)公共數(shù)據(jù)集上達(dá)到了最優(yōu)的抽取效果,進(jìn)一步證明了三元組關(guān)系重疊問題可以加以利用,即通過發(fā)掘其相關(guān)性來幫助模型改善性能。當(dāng)然本文提出的模型依然存在一些問題,如缺乏自適應(yīng)能力,模型結(jié)構(gòu)以及參數(shù)量的設(shè)計(jì)需要根據(jù)不同數(shù)量的關(guān)系作相應(yīng)的調(diào)整。因此在處理大量關(guān)系抽取問題時(shí)需要進(jìn)一步改進(jìn)模型。本文進(jìn)一步的優(yōu)化工作可能涉及以下方面:(1)使用模型蒸餾技術(shù),優(yōu)化模型的參數(shù)量與計(jì)算量,加速訓(xùn)練和推理。(2)改進(jìn)模型結(jié)構(gòu)以針對(duì)更復(fù)雜的關(guān)系情況,提升模型的泛化能力和魯棒性。(3)獲取更多的高質(zhì)量訓(xùn)練數(shù)據(jù),提升模型的精度。未來將探索如何引入先驗(yàn)的實(shí)體關(guān)系語義知識(shí)來增強(qiáng)模型的性能。
參 考 文 獻(xiàn):
[1]Zeng X, Zeng D, He S, et al.. Extracting relational facts by an end-to-end neural model with copy mechanism[A]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Melbourne, 2018. 506-514.
[2]Dai D, Xiao X, Lyu Y, et al.. Joint extraction of entities and overlapping relations using position-attentive sequence labeling[A]. Proceedings of the AAAI Conference on Artificial Intelligence[C]. AAAI Press, Honolulu, 2019. 6300-6308.
[3]Wei Z, Su J, Wang Y, et al.. A novel cascade binary tagging framework for relational triple extraction[A]. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, acl2020.org, 2020.1476-1488.A67D4071-5767-49FE-868D-67CB7CFF2701
[4]Fu T J, Li P H, Ma W Y, et al.. GraphRel: modeling text as relational graphs for joint entity and relation extraction[A]. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Florence, 2019.1409-1418.
[5]Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction[J]. Journal of Machine Learning Research, 2003, 3: 1083-1106.
[6]Zhou G, Su J, Zhang J, et al.. Exploring various knowledge in relation extraction[A]. Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Michigan, 2005.427-434.
[7]Chan Y S, Roth D. Exploiting syntactico-semantic structures for relation extraction[A]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Portland, 2011.551-560.
[8]Yu X, Lam W. Jointly identifying entities and extracting relations in encyclopedia text via a graphical model approach
[A]. The 23rd International Conference on Computational Linguistics[C]. Tsinghua University Press, Beijing, 2010.1399-1407.
[9]Li Q, Ji H. Incremental joint extraction of entity mentions and relations[A]. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Baltimore, 2014.402-412.
[10]Miwa M, Sasaki Y. Modeling joint entity and relation extraction with table representation[A]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing[C]. EMNLP Press, Doha, 2014.1858-1869.
[11]Ren X, Wu Z, He W, et al.. CoType: joint extraction of typed entities and relations with knowledge bases[A]. Proceedings of the 26th International Conference on World Wide Web[C]. WWW Press, Perth, 2017.1015-1024.
[12]Zheng S, Wang F, Bao H, et al.. Joint extraction of entities and relations based on a novel tagging scheme[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017.1227-1236.
[13]Gupta P, Schütze H, Andrassy B, et al.. Table filling multi-task recurrent neural network for joint entity and relation extraction[A]. The 26th International Conference on Computational Linguistics: Technical Papers[C]. COLING Press, Osaka, 2016. 2537-2547.
[14]Katiyar A, Cardie C. Going out on a limb: joint extraction of entity mentions and relations without dependency trees[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017.917-928.
[15]Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[J]. arXiv: 1706. 02216, 2017.
[16]Riedel S, Yao L, McCallum A, et al.. Modeling relations and their mentions without labeled text[A]. Joint European Conference on Machine Learning and Knowledge Discovery in Databases[C]. KDD Press, Springer, 2010. 148-163.
[17]Gardent C, Shimorina A, Narayan S, et al.. Creating training corpora for nlg micro-planning[A]. The 55th Annual Meeting of the Association for Computational Linguistics[C]. ACL Press, Vancouver, 2017. 179-188.
[18]Wang Y, Yu B, Zhang Y, et al.. TPLinker: single-stage joint extraction of entities and relations through token pair linking[A]. Proceedings of the 28th International Conference on Computational Linguistics[C]. COLING Press, Barcelona, 2020.1572-1582.A67D4071-5767-49FE-868D-67CB7CFF2701