摘 要:當前的開放域信息抽?。∣penIE)方法無法同時兼顧抽取結果的緊湊性和模型的性能,導致其抽取結果不能更好地被應用到下游任務中。為此,提出一個基于雙仿射注意力進行表格填充及迭代抽取的模型。首先,該模型通過雙仿射注意力學習單詞之間的方向信息、捕獲單詞對之間的相互作用,隨后對二維表格進行填充,使句子中的成分相互共享并識別緊湊成分;其次,使用多頭注意力機制將謂詞和參數(shù)的表示應用于上下文的嵌入中,使謂詞和參數(shù)的提取相互依賴,更好地鏈接關系成分和參數(shù)成分;最后,對于含有多個關系成分的句子,使用迭代抽取的方式在無須重新編碼的情況下捕獲每次提取之間固有的依賴關系。在公開數(shù)據(jù)集CaRB和Wire57上的實驗表明,該方法比基線方法實現(xiàn)了更高的精度和召回率,F(xiàn)1值提升了至少1.4%和3.2%,同時產(chǎn)生了更短、語義更豐富的提取。
關鍵詞:開放域信息抽?。?雙仿射注意力; 緊湊性; 多頭注意力; 迭代抽取
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)07-018-2046-06
doi:10.19734/j.issn.1001-3695.2023.10.0543
Iterative open information extraction based on biaffine attention
Abstract:The current OpenIE methods cannot take into account the compactness of the extraction results and the performance of the model at the same time, which makes the extraction results unable to be better applied to downstream tasks. Therefore, this paper proposed a model that used biaffine attention for table filling and iterative extraction. Firstly, the model learned the directional information between words through biaffine attention, captured the interaction between word pairs, and then filled the two-dimensional table to make the components in the sentence share each other and identify compact components. Secondly, it used the multi-head attention mechanism to apply the representation of predicates and parameters to the context embedding, making the extraction of predicates and parameters dependent on each other and better linking the relationship components and parameter components. Finally, for sentences containing multiple relational components, it used iterative extraction to capture the inherent dependencies between each extraction without recoding. Experiments on the public datasets CaRB and Wire57 show that this method achieves higher precision and recall than baseline methods, improving F1 values by at least 1.4% and 3.2%, while producing shorter and semantically richer extractions.
Key words:open information extraction(OpenIE); biaffine attention; compactness; multi-head attention; iterative extraction
0 引言
OpenIE以一種無監(jiān)督的、領域獨立的方式,為自然語言文本生成結構化的、機器可讀的信息表示[1]。這使得OpenIE的抽取結果被應用在一些下游任務中,例如問答[2]、事件模式歸納[3]、自動模式提?。?]等。
盡管OpenIE從基于學習和規(guī)則的模型到近幾年基于神經(jīng)網(wǎng)絡的模型取得了很大的進步,但是近幾年流行的OpenIE模型往往以犧牲提取的關系三元組的緊湊性為代價,只專注于如何從輸入的句子中抽取覆蓋更多的信息,導致模型產(chǎn)生了更多具有附加信息的特定三元組,這使得抽取結果很難應用在下游任務中。例如,對于句子“The rest of the group reach a small shop,where the crocodile breaks through a wall and devours Annabelle”,近年比較流行的基于神經(jīng)網(wǎng)絡的OpenIE模型IMoJIE[5]的抽取結果為“The rest of the group;reach;a small shop,where the crocodile breaks through a wall and devours Annabelle”和“the crocodile;devours;Annabelle a small shop”。它抽取的結果中包含特定的修飾語以及完整的從句,這種提取嚴重限制了OpenIE結果在識別相似事實和合并共享成分事實等下游任務中的實用性。除此之外,在關注抽取結果緊湊性的同時,忽略了抽取結果的精度和召回率,以降低精度和召回率來換取高的緊湊性是不符合OpenIE任務目標的。
因此,本文提出了一種新的流水線式方法,該方法可以在抽取緊湊三元組的同時提升模型的精度和召回率。具體來說,首先使用雙仿射注意力對二維表格進行填充,以此來捕獲成分之間的相互作用,最大限度地減少邊界檢測中的歧義并識別參數(shù)和謂詞成分。隨后,使用多頭注意力機制串聯(lián)多級特征,基于謂詞鏈接其相關參數(shù),使謂詞和參數(shù)相互依賴。最后,對于含有多個謂詞的句子,使用迭代抽取的方式捕獲多個關系三元組之間的依賴關系。通過這種方式,提取了緊湊三元組并提升了模型的性能??偟膩碚f貢獻如下:
a)基于雙仿射注意力進行表填充,這種模式可以識別組成邊界及其角色,更好地編碼單詞對之間的信息,捕獲成分之間的相互作用,并最大限度地減少邊界檢測中的歧義。
b)基于謂詞鏈接其相關參數(shù),使謂詞和參數(shù)之間相互依賴,并通過多頭注意力機制將謂詞和參數(shù)的表示應用于上下文的詞嵌入中。
c)使用迭代抽取的方式進行關系三元組的抽取,這種方式能在無須重新編碼的情況下建模每次抽取之間固有的依賴關系,更好地處理含有多個謂詞的句子。
1 相關工作
OpenIE已經(jīng)被廣泛研究了十幾年,2007年文獻[6]首次提出OpenIE任務,并提出了該任務的首個模型。隨后,許多基于學習和規(guī)則的模型相繼被提出,這些傳統(tǒng)的OpenIE模型在不使用任何訓練數(shù)據(jù)集的情況下從句子中提取出關系三元組,但是其嚴重依賴于句法或語義解析,因此不可避免地會受到淺層特征錯誤傳播的影響。近年,隨著神經(jīng)網(wǎng)絡應用的發(fā)展,提出了基于神經(jīng)網(wǎng)絡的OpenIE模型,這些基于神經(jīng)網(wǎng)絡的模型大致被分為基于序列標記和基于序列生成兩大類,成為目前解決OpenIE的主要技術。
1.1 基于學習和規(guī)則的模型
傳統(tǒng)的基于學習和規(guī)則的模型,例如TextRunner[6]、NestIE[7]、ClausIE[8]、MinIE[9]、Stanford-OIE[10]等,使用語法或語義解析器結合規(guī)則從句子中提取關系三元組。TextRunner是第一個自監(jiān)督學習的OpenIE模型,可以處理非預設的關系,避免了特定領域的訓練數(shù)據(jù),具有良好的可擴展性,但是無法捕獲長距離關系,召回率低。NestIE、ClausIE及MinIE專注于尋找緊湊三元組,并表明了緊湊三元組在一些語義任務中的有用性。NestIE使用的嵌套表示提升了元組的信息度并提升了生成元組的數(shù)量,但是其過度依賴依存解析且嵌套結構中會出現(xiàn)空參數(shù)。ClausIE降低了抽取的復雜度,并且可以并行地抽取,但是其未考慮子句之間的關系。MinIE雖然在提供有效且緊湊抽取的同時保證了高精度和高召回率,但是其數(shù)字的準確度較低且忽略了上下文信息。Stanford-OIE將句子拆分簡化成搜索問題,并結合自然邏輯刪減子句,其高質量的抽取有助于下游任務,但是其分類器錯誤影響了性能。這些基于學習和規(guī)則的傳統(tǒng)模型雖然為OpenIE的發(fā)展作出了很大的貢獻。但是,由于近幾年神經(jīng)網(wǎng)絡模型的出現(xiàn),基于學習和規(guī)則的傳統(tǒng)模型已經(jīng)被近幾年提出的基于神經(jīng)網(wǎng)絡的模型所替代。
1.2 基于序列標記的模型
基于序列標記的模型,例如RnnOIE[11]、 SenseOIE[12]、SpanOIE[13]和CompactIE[14]等,將OpenIE視為序列標注任務,通常包含用于生成詞向量的嵌入層,用于生成包含上下文特征的隱向量的編碼器,以及通過詞向量和標注方案來預測標簽的解碼器三個模塊。RnnOIE是首個監(jiān)督神經(jīng)網(wǎng)絡模型,通過首先識別關系詞再使用序列標記獲得它們的參數(shù)的方式來抽取關系三元組,可以為單個參數(shù)生成多個可能的元組并有效識別隱形謂詞,但是其召回率較低,無法處理復雜文本。SenseOIE通過在序列標記設置中使用多個OpenIE模型的提取特征來改進RnnOIE。然而,它的訓練需要手動標注黃金提取,這對于任務來說是不可擴展的,限制了SenseOIE只能在3 000個句子的數(shù)據(jù)集上進行訓練。SpanOIE使用跨度選擇模型,是序列標記范式的一種變體,使用謂詞模塊首先選擇潛在的候選關系跨度,然后對句子中所有可能的關系跨度分類為主語或賓語。然而,SpanOIE不能提取名義關系。此外,它僅在單個OpenIE模型上引導其訓練數(shù)據(jù)。CompactIE使用流水線的方式進行緊湊成分的識別和提取,取得了相對較好的進展,但是在很大程度上犧牲了抽取結果的精度和召回率。這是因為其將關系三元組的提取視為獨立的而不是相互依賴的,忽略了同一個關系三元組中謂詞和參數(shù)之間,以及不同關系三元組之間緊密交織的關系。
1.3 基于序列生成的模型
基于序列生成的模型使用seq2seq模型一次生成一個單詞的輸出提取[15~17],生成的序列包含字段標定符,并將生成的平面序列轉換為元組。NeuralOIE[15]避免了誤差傳播并且可以改變單詞的順序,但是其未考慮復雜文本結構。Adversarial-OIE[17]引入生成對抗網(wǎng)絡GAN來解決訓練和推理時文本生成不一致而導致的暴露偏差問題,但是其模型訓練相對困難,性能隨迭代次數(shù)的增加會下降。IMoJIE[5]是生成式OpenIE的最新技術,它使用基于BERT的編碼器和迭代解碼器,對迄今為止生成的抽取結果進行重新編碼。這種重新編碼的方式雖然捕獲了提取之間的依賴項,提高了整體的性能,但也使其速度比RnnOIE慢了50倍,并且存在自回歸方法的誤差累計。
2 模型
本文模型取名為IBiAttOIE,模型的整體架構如圖1所示。IBiAttOIE由成分提取和多級特征融合及迭代抽取兩部分組成。具體來說:a)首先使用雙仿射注意力學習單詞對的方向信息并進行表填充,通過這種模式來識別一句話中的參數(shù)和謂詞成分,最終為其分配成分標簽;b)隨后,基于謂詞鏈接其相關參數(shù),使參數(shù)和謂詞之間相互依賴,更好地鏈接關系成分和參數(shù)成分;c)最后,對于含有多個謂詞的句子,將含有每次抽取信息的上下文嵌入特征與之前的特征串聯(lián)進行迭代抽取,這種方式可以在無須重新編碼的情況下建模每次提取之間固有的依賴關系。
2.1 成分提取
成分提取是本文模型的第一步,其目的是找到一組成分,使每個成分的跨度是單詞的連續(xù)序列并且具有預定義類型。在成分提取過程中,首先通過雙仿射注意力對標簽進行預測,隨后對二維表格進行填充。這種模式可以簡化OpenIE任務并為多級特征融合及迭代抽取過程提供更多的信息。
2.1.1 使用雙仿射注意力預測標簽
對于一個輸入句子S,為了獲得每個單詞的上下文表示hi,使用預訓練語言模型BERT作為句子的編碼器,編碼器的輸出為:{h1,h2,…,hi,ht1,ht2,ht3}=BERT({x1,x2,…,xi,xt1,xt2,xt3}),其中xi是每個單詞的輸入表示,xt1、xt2和xt3是附加的token,分別表示[is]、[of]和[from]。添加最后這三個標記是因為OpenIE有時需要預測輸入句子中不存在的標記,比如“US president Donald Trump gave a speech on Wednesday”將會有一個關系三元組“Donald Trump;[is] president [of];US”。增加附加標記使得這種提取成為可能。
為了更好地學習單詞之間的方向信息,使用深度雙仿射注意力(deep biaffine attention)機制[18]學習單詞對之間的相互作用。具體來說,使用兩個多層感知機(MLP)來識別每個單詞hi的頭部和尾部:
hheadi=MLPhead(hi),htaili=MLPtail(hi)(1)
接下來,使用Biaffine評分函數(shù)計算每個單詞對的評分向量:
在獲得評分向量vi,j后,將其輸入到softmax函數(shù)中來預測每個標簽。一句話由參數(shù)argument和謂詞predicate組成,其中參數(shù)argument∈{subject,object},subject表示關系三元組中的主體,object表示關系三元組中的客體。標簽的空間定義為Y,Y為argument、predicate、object、subject的集合,計算每個標簽yi,j在標簽空間Y上的概率分布:
P(yi,j|S)=softmax(vi,j)(3)
其中:S用于表示輸入的句子。
2.1.2 進行表填充
二維表格是根據(jù)每個標簽yi,j在標簽空間Y上的概率分布進行填充的。具體來說,一個句子S帶有s個標記,每個句子S對應一個表格T|s|×|s|。表T中的每個單元格(i,j)被分配一個標簽yi,j,每個單元格的標簽都是根據(jù)單詞對之間的關系來標記的,每個單元格用Arg(argument)、Sub(subject)、Obj(object)、Pre(predicate)或none標簽標記,其中none表示單詞對之間不存在關系。圖2展示了二維表格填充的示例。
接下來訓練這個二維表格以最小化下面這個訓練目標:
其中:Yi,j為單元格(i,j)的glod標簽。
最后,計算表中相鄰行和列之間的距離,找到成分的跨度span,然后為每個跨度span分配一個標簽,并在將輸出結果傳遞給多級特征融合及迭代抽取模塊之前,過濾掉屬于none的所有成分。
2.2 多級特征融合及迭代抽取
OpenIE同一個關系三元組中的謂詞和參數(shù)之間的提取以及不同關系三元組之間的提取是緊密交織的。因此,應將關系三元組的提取視為相互依賴的而不是獨立的。多級特征融合及迭代抽取的過程就是基于謂詞鏈接其參數(shù),對含有多個謂詞的句子,將此次抽取結果的上下文嵌入與其他特征進行串聯(lián),作為下一次抽取的輸入進行迭代抽取。
2.2.1 多級特征融合
經(jīng)過成分提取過程獲得句子S中的成分標簽后,鏈接關系成分和參數(shù)成分。本文將關系成分和參數(shù)成分鏈接的任務定義為依賴于謂詞鏈接其相應參數(shù)的問題。在多級特征融合過程中,使用多頭注意力機制將謂詞和參數(shù)的表示應用于上下文的嵌入中,使謂詞和參數(shù)相互依賴。
2.2.2 迭代抽取
對于含有多個謂詞的句子,迭代抽取的目的在于在無須重新編碼的情況下建模每次提取之間固有的依賴關系。具體來說,將串聯(lián)的特征作為多頭注意力模塊的輸入,多頭注意力模塊由N個多頭注意力塊組成,每個多頭注意力塊都由一個多頭注意力層(multi-head attention layer)和一個位置前饋層(position-wise feed-forward layer)組成。注意力層與原始Transformer中encoder-decoder的注意力層相同[19]。首先將Xq、Xk、Xv分別變換為Q=XqWq、K=XkWk、V=XvWv,其中Wq、Wk、Wv是權重矩陣。變換后計算每個頭部的注意力,然后將每個頭部的注意力輸出連接起來并進行線性轉換:
每個頭部以h為索引,dmh為多頭注意力的維數(shù);nh表示頭的數(shù)量。位置前饋層由兩個圍繞ReLU激活函數(shù)的線性變換組成。根據(jù)Transformer之前的相關工作,在多頭注意力層和位置前饋層應用了殘余連接(residual connection)[20]和層歸一化(layer normalization)[21]。隨后,多頭注意力模塊的輸出被輸入到標簽分類層,通過標簽分類層獲得對應該謂詞的參數(shù)成分。
將維護到目前為止提取輸出的信息,進而捕獲多個關系三元組之間固有的依賴關系。
2.3 訓練目標
將每一次的預測標簽與真實標簽之間的交叉熵損失相加,得到最終的損失函數(shù),用Lce表示。為了提升模型的整體效果,在表填充過程中對二維表格施加結構性約束,具體為
a)二維表格為正方形,其關于對角線對稱,約束損失為
b)除非表中存在關系的組成部分,否則不會出現(xiàn)關系,即對于每個單詞,其成為標簽Arg和Pre的概率不低于成為Sub和Obj的概率,約束損失為
c)一個關系三元組中必須存在subject,但是可以不存在object,對于predicate成分的每一列或行,出現(xiàn)在非對角線上的詞屬于subject成分的最大可能性不低于屬于object成分的最大可能性,約束損失為
其中:t表示單詞成分類型;ρ表示句子S中所有單詞對的P(yi,j|S)的堆棧;Ysub、Yobj、Yarg、Ypre分別為標簽空間Y中subject、object、argument、predicate的成分標簽;ζ表示句子中predicate成分跨度的并集。最后,在訓練期間,共同優(yōu)化Lentry+Lce+Lsym+Limp+Ltriple。
3 實驗
3.1 訓練數(shù)據(jù)集
訓練本文提取緊湊三元組的迭代抽取模型需要一個緊湊三元組的基準。目前被廣泛采用的OpenIE基準是通過組合多個OpenIE模型的提取而創(chuàng)建的,但是它包括之前模型中過度特定的和不正確的抽取。CompactIE設計了一種數(shù)據(jù)處理算法,可以從零開始提取緊湊三元組。因此,采用CompactIE提出的基準作為訓練集。它是在OpenIE2016[22]基準測試集中的每個多子句上獲得的一個為提取緊湊三元組而定制的新的訓練數(shù)據(jù)集。該數(shù)據(jù)集每個句子的提取量是OpenIE2016的1.25倍,且它的組成成分更緊湊。其中大約1%的句子進行驗證,其余的句子用于訓練。表1是該訓練數(shù)據(jù)集的整體情況。
3.2 評估數(shù)據(jù)集和評價指標
實驗主要在CaRB和Wire57兩個數(shù)據(jù)集上進行評估,用于評價模型抽取效果的指標主要有精度(P)、召回率(R)和由這些評分函數(shù)計算的F1值。由于這些數(shù)據(jù)集不是以緊湊三元組為目標的,所以,為了進行公平比較,排除了至少在一個成分內(nèi)含有一個從句的三元組。表2顯示了處理后的數(shù)據(jù)集統(tǒng)計信息。
數(shù)據(jù)集句子三元組數(shù)據(jù)集句子三元組
Wire5756309CaRB5772101
Wire57數(shù)據(jù)集有著高細粒度的提取,會懲罰過度特定的提取,對緊湊三元組的提取更為嚴格,CaRB數(shù)據(jù)集的抽取具有更高的質量和覆蓋率。但是,CaRB和Wire57數(shù)據(jù)集的評分函數(shù)都是基于系統(tǒng)提取與事實基準的token級匹配。除此之外,這些基準是不完整的,這意味著黃金提取結果并不包括相同事實的所有可接受的表面表示方式。而BenchIE[23]基準和評分范式相對比較完整,因此實驗使用了BenchIE基準和評分范式進行以事實為中心的評估。
3.3 實驗設置
實驗在Python 3.6和PyTorch Lightning[24]環(huán)境下進行,在GPU上訓練、驗證及測試。由于表格填充模型的模式設計不支持成分內(nèi)的連詞,所以在將句子傳遞給本文模型之前,將它們預處理為更小的無連詞的句子。
為了與之前的工作進行公平比較,使用BERT-based-uncased[25]作為本模型的文本編碼器,將batch size設置為32,學習率設置為5×10-5,多頭注意力塊的數(shù)量為4,位置嵌入層的維度為64,并使用AdamW優(yōu)化器優(yōu)化所有模型。
3.4 實驗結果及分析
3.4.1 基線模型
為了驗證IBiAttOIE在OpenIE任務上的有效性,與以下基線模型進行了對比:
a)最先進的序列標記模型OpenIE6[26]和Multi2OIE[27]。OpenIE6模型基于新的迭代網(wǎng)格標簽(iterative grid labels,IGL)架構,將具有重疊跨度的序列標注任務轉換成網(wǎng)格標注問題以學習抽取之間的依存關系,在保證準確率的同時,通過加入全局覆蓋約束來進一步提高召回率。Multi2OIE模型根據(jù)BERT嵌入層的隱藏狀態(tài)標注所有謂詞,然后抽取與每個已識別的謂詞相關聯(lián)的參數(shù),并利用多語言BERT進行編碼,消除對其他語言的數(shù)據(jù)需求。
b)最先進的序列生成系統(tǒng)IMoJIE[5]。IMoJIE模型使用基于BERT的編碼器和基于LSTM的迭代解碼器,對至今生成的所有抽取進行重復編碼,可以捕獲抽取之間的依存關系,減少了輸出集的總體冗余。此外,還可以根據(jù)輸入文本的長度或復雜性調整輸出。
c)用于提取緊湊三元組的傳統(tǒng)非神經(jīng)網(wǎng)絡式系統(tǒng)NestIE[7]和MinIE[9],及基于神經(jīng)網(wǎng)絡的系統(tǒng)CompactIE[14]。NestIE模型使用bootstrapping方法來學習n元元組和嵌套元組的抽取模式,以對依存解析的結構相匹配。此外,設計了一組規(guī)則將生成的元組進行鏈接以捕捉上下文信息。MinIE模型為每個元組提供語義標注,如極性、情態(tài)、歸屬和數(shù)量,從同位語和屬有詞中產(chǎn)生由非介詞動詞構成的隱性抽取,通過設計多種模式刪除冗余的單詞來最小化參數(shù),以權衡準確度和召回率。CompactIE模型是分步抽取模型,使用端到端流水線方法從單個句子中抽取關系三元組。首先提取謂詞和參數(shù),隨后使用分類器確定它們之間的關系,該模型能夠重用相同的組成部分來生成多個元組。
3.4.2 主實驗
為了驗證IBiAttOIE抽取結果的緊湊性和模型的性能,將經(jīng)過30個epoch訓練得到的模型在測試集上進行實驗,并與上述基線模型進行了對比。為了驗證IBiAttOIE抽取結果的緊湊性,還采用了之前工作[14]提出的評價指標對模型抽取結果的緊湊性進行評估:a)ACL,它表示所生成的三元組中成分的平均長度,這是在語法上對緊湊性的度量,ACL分數(shù)越低表示三元組的緊湊性越高;b)NCC,它表示每個成分可以作為獨立三元組提取的子句的平均數(shù)量,NCC分數(shù)越低,三元組的緊湊性越高;c)RPA,它表示每個參數(shù)的重復次數(shù),RPA分數(shù)越高,每個句子產(chǎn)生的總成分的共享比例越高。表3和4總結了IBiAttOIE與這些基線模型在CaRB數(shù)據(jù)集和Wire57數(shù)據(jù)集上的性能。
不難發(fā)現(xiàn),IBiAttOIE與其他基線模型相比實現(xiàn)了更高的精度和召回率,這是由于將謂詞成分和參數(shù)成分鏈接的過程視為相互依賴的,不是獨立進行的,并對含有多個謂詞的句子進行迭代抽取和特征融合,以此捕獲了多個關系三元組之間固有的依賴關系。IBiAttOIE在ACL評分上明顯低于其他基于神經(jīng)網(wǎng)絡的OpenIE系統(tǒng),并與MinIE的ACL評分接近。NestIE的ACL評分最低是因為它將句子分成帶有動詞、名詞、介詞和形容詞中介關系的小三元組,但是它的細粒度策略為了提取三元組的緊湊性極大地犧牲了F1值。IBiAttOIE的NCC評分達到了最低分數(shù),這表明IBiAttOIE抽取的三元組中的成分包含最少的動詞從句。因此,這些三元組比其他三元組更適合下游任務的應用。IBiAttOIE的高RPA評分證明了提出方法的有效性,因為它使系統(tǒng)能夠重用相同的成分來生成多個三元組。MinIE模型有更高的RPA評分,這是因為它提取多個三元組來表示相同的事實,導致唯一成分的重復率更高。綜上所述,IBiAttOIE能夠產(chǎn)生更短、語義更豐富、在下游任務實用性更強的提取。
3.4.3 多頭注意力對模型性能的影響
在多級特征融合中使用了多頭注意力機制,并基于謂詞成分鏈接其參數(shù),為了確定多頭注意力機制對模型性能的影響,將使用多頭注意力機制的實驗結果與使用BiLSTM的實驗結果進行了對比,對比結果如表5所示。
通過表5不難發(fā)現(xiàn),使用多頭注意力機制比使用BiLSTM更能使模型取得好的效果、高的性能。這是因為多頭注意力機制具有融合句子和謂詞特征的優(yōu)點,多頭注意力機制可以在謂詞和參數(shù)提取之間創(chuàng)建協(xié)同作用,能夠依賴于謂詞鏈接其對應參數(shù),使謂詞和參數(shù)相互依賴。因此,在利用謂詞信息方面,使用多頭注意力機制優(yōu)于使用BiLSTM簡單連接。
3.4.4 迭代抽取對模型性能的影響
對于含有多個謂詞的句子,采用迭代抽取的方式在無須重新編碼的情況下建模每次提取之間固有的依賴關系。為了驗證本文迭代抽取方式對模型性能的影響,將使用迭代方式進行抽取的模型性能與進行簡單重復抽取的模型性能進行了對比,對比結果如表6所示。
通過數(shù)據(jù)不難發(fā)現(xiàn),對于含有多個關系三元組的句子使用迭代抽取的方式能使模型取得更好的性能。這是因為,將每次抽取的信息作為新的特征與之前的特征串聯(lián)在了一起,使得在每次抽取時都能獲得在此次抽取之前的相關信息。這將維護到目前為止提取輸出的信息,捕獲多個關系三元組之間固有的依賴關系,因此更有助于模型整體性能的提升。
4 案例分析
為了更好地說明本文IBiAttOIE模型,現(xiàn)采取數(shù)據(jù)集中的句子進行案例分析,將未進行緊湊三元組抽取的系統(tǒng)IMoJIE的抽取結果以及僅關注緊湊性的系統(tǒng)CompactIE的抽取結果與本模型的抽取結果進行了對比,對比結果如圖3所示。
IMoJIE的提取中“where the crocodile breaks through a wall and devours Annabelle”包含了特定的修飾語,甚至是完整的從句,這種提取過于具體和冗長,并且沒有提取出“crocodile;breaks;through a wall”這個關系三元組知識。CompactIE的提取中,將句子中“was not actually born on”這一信息識別提取成了“was born actually on”,這違背了句子的本意,并且沒有識別出“superman,is,hero”這個關系三元組,這是因為CompactIE沒有正確地識別單詞的組成邊界以及沒有捕獲單詞之間的依賴關系。同時由于沒有對輸入句子進行附加標記,所以沒有預測出輸入句子中不存在的標記。這種抽取結果會嚴重限制OpenIE在一些下游任務中的應用,而本文模型的抽取結果更緊湊并且覆蓋了更全面的關系三元組信息,能更好地兼容模型性能和抽取結果的緊湊性。相比之下,本文模型的抽取結果在識別相似事實和合并共享成分的事實等下游任務中更加靈活。
5 結束語
為了使OpenIE任務抽取的關系三元組更緊湊,實現(xiàn)關系三元組之間的成分共享,提高模型的精度和召回率,使其更適合應用于下游應用程序,在成分提取模塊使用雙仿射注意力進行表填充來識別組成邊界及其角色,以找到一句話中的參數(shù)和謂詞成分,最終為其分配成分標簽,以此來識別嵌套成分,提高關系三元組的緊湊性。在多級特征融合及迭代抽取模塊使用multi-head attention機制代替?zhèn)鹘y(tǒng)BiLSTM簡單連接的方式,將謂詞的表示應用于上下文的詞嵌入中,并使用迭代抽取的方式在無須重新編碼的情況下建模每次抽取之間固有的依賴關系,提升模型的精度和召回率。實驗結果表明,本文模型取得了優(yōu)異的性能。
參考文獻:
[1]胡杭樂, 程春雷, 葉青, 等. 開放信息抽取研究綜述[J]. 計算機工程與應用, 2023,59(16): 31-49. (Hu Hangle, Cheng Chunlei, Ye Qing, et al. Survey of open information extraction research[J]. Computer Engineering and Applications, 2023,59(16): 31-49.)
[2]Yan Zhao, Tang Duyu, Duan Nan, et al. Assertion-based QA with question-aware open information extraction[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 6021-6028.
[3]Balasubramanian N, Soderland S, Etzioni O. Generating coherent event schemas at scale[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2013: 1721-1731.
[4]Nimishakavi M, Saini U S, Talukdar P. Relation schema induction using tensor factorization with side information[EB/OL]. (2016-11-16). https://arxiv.org/abs/1605.04227.
[5]Kolluru K, Aggarwal S, Rathore V, et al. IMoJIE: iterative memory-based joint open information extraction[EB/OL]. (2020-05-17). https://arxiv.org/abs/2005.08178.
[6]Etzioni O, Banko M, Soderland S, et al. Open information extraction from the Web[J]. Communications of the ACM, 2008, 51(12): 68-74.
[7]Bhutani N, Jagadish H V, Radev D. Nested propositions in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 55-64.
[8]Del Corro L, Gemulla R. ClausIE: clause-based open information extraction[C]//Proc of the 22nd International Conference on World Wide Web. New York: ACM Press, 2013: 355-366.
[9]Gashteovski K, Gemulla R, Corro L. MinIE: minimizing facts in open information extraction[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2620-2630.
[10]Angeli G, Premkumar M J J, Manning C D. Leveraging linguistic structure for open domain information extraction[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 344-354.
[11]Stanovsky G, Michael J, Zettlemo240a9546b1b8ec20e756af30ef3f2bd03c5e31ea8a7a7d429ddaaba152af8c32yer L, et al. Supervised open information extraction[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2018: 885-895.
[12]Roy A, Park Y, Lee T, et al. Supervising unsupervised open information extraction models[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 728-737.
[13]Zhan Junlang, Zhao Hai. Span model for open information extraction on accurate corpus[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 9523-9530.
[14]Bayat F F, Bhutani N, Jagadish H V. CompactIE: compact facts in open information extraction [EB/OL]. (2022-06-09). https://arxiv.org/abs/2205.02880.
[15]Cui Lei, Wei Furu, Zhou Ming. Neural open information extraction[EB/OL]. (2018-05-11). https://arxiv.org/abs/1805.04270.
[16]Sun Mingming, Li Xu, Wang Xin, et al. Logician: a unified end-to-end neural approach for open-domain information extraction[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 556-564.
[17]韓家寶, 王宏志. 基于生成式對抗網(wǎng)絡的開放式信息抽?。跩]. 智能計算機與應用, 2021,11(10): 155-159. (Han Jiabao, Wang Hongzhi. Generative adversarial network based open information extraction[J]. Intelligent Computers and Applications, 2021,11(10): 155-159.)
[18]Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing [EB/OL]. (2017-03-10). https://arxiv.org/abs/1611.01734.
[19]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]//Proc of the 31st Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[21]Ba J L, Kiros J R, Hinton G E. Layer normalization[EB/OL]. (2016-07-21). https://arxiv.org/abs/1607.06450.
[22]Mausam M. Open information extraction systems and downstream applications[C]//Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 4074-4077.
[23]Gashteovski K, Yu Mingying, Kotnis B, et al. BenchIE: open information extraction evaluation based on facts, not tokens[EB/OL]. (2022-04-13). https://arxiv.org/abs/2109.06850.
[24]Léchelle W, Gotti F, Langlais P. Wire57 : a fine-grained benchmark for open information extraction[EB/OL]. (2019-08-01). https://arxiv.org/abs/1809.08962.
[25]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [EB/OL]. (2019-05-24). https://arxiv.org/abs/1810.04805.
[26]Kolluru K, Adlakha V, Aggarwal S, et al. OpenIE6: iterative grid labeling and coordination analysis for open information extraction[EB/OL]. (2020-10-07). https://arxiv.org/abs/2010.03147.
[27]Ro Y, Lee Y, Kang P. Multi2OIE: multilingual open information extraction based on multi-head attention with BERT[C]//Proc of Fin-dings of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1107-1117.