摘" 要: 關(guān)系抽取旨在從文本中提取出實(shí)體對之間存在的語義關(guān)系,但現(xiàn)有的關(guān)系抽取方法均存在關(guān)系冗余和重疊的不足,尤其是對于短文本,會因上下文信息不足而出現(xiàn)語義信息不足和噪聲大等問題。此外,一般流水線式的關(guān)系抽取模型還存在誤差傳遞問題。為此,文中提出一種基于并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)的短文本實(shí)體關(guān)系聯(lián)合抽取方法。該方法利用BERT生成語義特征信息,采用并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)來捕獲語義信息,從而提升上下文信息的捕獲能力并緩解噪聲。聯(lián)合抽取框架通過抽取潛在關(guān)系來過濾無關(guān)關(guān)系,然后再抽取實(shí)體以預(yù)測三元組,從而解決關(guān)系冗余和重疊問題,并提高計(jì)算效率。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的主流模型相比,所提模型在三個(gè)公共數(shù)據(jù)集NYT、WebNLG和DuIE上的F1值分別為90.9%、91.3%和73.5%,相較于基線模型均有提升,驗(yàn)證了該模型的有效性。
關(guān)鍵詞: 實(shí)體關(guān)系抽?。?短文本; 殘差膨脹卷積網(wǎng)絡(luò); 語義特征; 聯(lián)合抽??; BERT編碼器
中圖分類號: TN919?34; TP391.1" " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)02?0169?10
Short text entity relation joint extraction based on parallel residual expansion convolutional network
ZENG Wei1, 2, XI Xuefeng1, 2, 3, CUI Zhiming1, 2, 3
(1. Suzhou University of Science and Technology, Suzhou 215000, China;
2. Suzhou Key Laboratory of Virtual Reality Intelligent Interaction and Application Technology, Suzhou 215000, China;
3. Suzhou Smart City Research Institute, Suzhou 215000, China)
Abstract: Relationship extraction aims to extract semantic relationships between entity pairs from text, but existing relationship extraction methods suffer from the shortcomings of relationship redundancy and overlap, especially for short texts, which may result in insufficient semantic information and loud noise due to insufficient contextual information. Moreover, conventional pipeline based relation extraction models face error propagation issues. A method of short text entity relation joint extraction based on parallel residual expansion convolutional network is proposed. In this method, BERT (bidirectional encoder representations from transformers) is used to generate semantic feature information, and the parallel residual dilated convolutional network is employed to capture semantic information, thereby enhancing the ability to capture context information and alleviate noise. The joint extraction framework can be used to filter out irrelevant relationships by extracting potential relationships, and extract entities to predict triplets, thus solving the problems of relationship redundancy and overlap, and improving computational efficiency. The experimental results demonstrate that, in comparison with existing mainstream models, the F1 values of the proposed model on the three public datasets NYT, WebNLG and DuIE are 90.9%, 91.3% and 73.5%, respectively, which are improved compared with the baseline model, which verifies the effectiveness of the model.
Keywords: entity relationship extraction; short text; residual expansion convolutional network; semantic features; joint extraction; BERT encoder
0" 引" 言
關(guān)系抽取(Relation Extraction)是自然語言處理領(lǐng)域的重要任務(wù),其目標(biāo)是從文本中自動識別和提取出實(shí)體之間的語義關(guān)系,并使用三元組(頭實(shí)體,關(guān)系,尾實(shí)體)來表示實(shí)體之間的關(guān)系。目前,關(guān)系抽取主要面臨著實(shí)體關(guān)系重疊問題。SEO表示多個(gè)實(shí)體與同一實(shí)體存在關(guān)系,例如“Zhang and Li live in China”對應(yīng)三元組包括(Zhang, live in, China)和(Li, Live in, China);EPO表示同一對實(shí)體存在多種關(guān)系,例如“Beijing is the capital of China”對應(yīng)三元組包括(Beijing, capital, China)和(Beijing, location, China);SOO表示主體和客體重疊,例如“Lebron James is a good basketball player”對應(yīng)三元組包括(Lebron James, first name, Leborn)。
隨著社交媒體的普及和互聯(lián)網(wǎng)信息的爆炸性增長,短文本在網(wǎng)絡(luò)上得到了廣泛的應(yīng)用,如社交媒體評論、微博消息、短信等。短文本具有信息密度高、表達(dá)形式簡潔的特點(diǎn),但同時(shí)也存在著語言不規(guī)范性和上下文信息不完整的挑戰(zhàn)。因此,如何從中文短文本里快速準(zhǔn)確地提取出重要的關(guān)系特征成為短文本關(guān)系抽取任務(wù)的關(guān)鍵。
本文針對以上短文本存在的關(guān)系重疊和上下文信息不豐富的問題,提出了一種基于并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)的短文本關(guān)系抽取模型PRDC(Parallel Residual Dilated Convolution)。該模型采用實(shí)體關(guān)系聯(lián)合抽取框架,以緩解誤差傳遞和實(shí)體關(guān)系重疊問題。同時(shí),模型使用BERT預(yù)訓(xùn)練模型作為嵌入層來生成文本表示,并利用殘差膨脹卷積網(wǎng)絡(luò)來提取特征信息。本文方法主要的創(chuàng)新點(diǎn)在于:構(gòu)建的并聯(lián)殘差膨脹卷積模塊能有效捕獲上下文信息,融合了殘差網(wǎng)絡(luò)和膨脹卷積的優(yōu)勢,緩解深層網(wǎng)絡(luò)帶來的梯度消失或爆炸問題。實(shí)驗(yàn)結(jié)果表明,相較于其他模型,本文提出的模型表現(xiàn)出了較好的效果。代碼地址:https://github.com/hubufeng/joint?entity?and?relation?extraction。
1" 相關(guān)工作
關(guān)系抽取模型按照結(jié)構(gòu)可分為流水線模式(Pipeline)和聯(lián)合抽?。↗oint)兩種。流水線模式先抽取實(shí)體,后抽取關(guān)系。然而,這種模型存在明顯的誤差傳遞問題,因?yàn)閷?shí)體抽取和關(guān)系分類任務(wù)相互獨(dú)立,無法相互糾正錯誤,導(dǎo)致實(shí)體抽取階段的誤差直接影響關(guān)系分類效果。
聯(lián)合模型為了減少誤差傳遞和整合實(shí)體識別與關(guān)系抽取任務(wù),主要分為兩類:參數(shù)共享和聯(lián)合解碼。參數(shù)共享實(shí)質(zhì)上是多任務(wù)學(xué)習(xí),兩個(gè)任務(wù)共享Encoder,但使用不同的Decoder,并構(gòu)建聯(lián)合loss來進(jìn)行訓(xùn)練優(yōu)化。然而,這種方式仍然未能解決誤差傳遞問題,同時(shí)還存在暴露偏差的問題。許多學(xué)者研究提出了聯(lián)合解碼模型,特別是以TPLinker為代表的Table Filling系列方法。但PURE[1]模型證明了聯(lián)合模型不一定比Pipeline模型更好,實(shí)際效果取決于具體任務(wù)和數(shù)據(jù)。各類方法匯總?cè)鐖D1所示。
基于標(biāo)注的方法通常使用二分標(biāo)注序列來確定實(shí)體的起止位置或確定實(shí)體之間的關(guān)系,例如,CasRel[2]先抽取subject實(shí)體,然后在此基礎(chǔ)上同時(shí)抽取關(guān)系和對應(yīng)的object實(shí)體。盡管這種方法能夠解決重疊問題,但仍屬于Pipeline模式,存在誤差傳遞和暴露偏差的問題。同時(shí),因?yàn)樾枰?jì)算subject每個(gè)關(guān)系下可能對應(yīng)的object,導(dǎo)致計(jì)算量過大,存在關(guān)系冗余問題。PRGC[3]針對關(guān)系冗余問題,將聯(lián)合抽取分成三個(gè)子任務(wù),并通過過濾無關(guān)關(guān)系來提升計(jì)算效率。BiRTE[4]則改進(jìn)了CasRel,使用雙向提取框架,并通過互補(bǔ)減少實(shí)體抽取遺漏。
基于片段的方法SpanRE[5]分為4個(gè)階段。首先,該方法列舉了所有可能的片段[start(i), end(i)],即從i個(gè)tokens中任選2個(gè)作為片段的起止;其次,對這些片段進(jìn)行編碼,生成span向量表示;然后,預(yù)測每個(gè)片段是否為實(shí)體;最后,對提取的所有Span實(shí)體進(jìn)行兩兩配對,預(yù)測它們之間的關(guān)系。SpERT[6]對SpanRE進(jìn)行了改進(jìn),采用了BERT編碼文本,并學(xué)習(xí)了width embeddings來表示Span的長度。在實(shí)體分類階段,該方法會過濾掉none標(biāo)簽的Span,并限制Span的長度。PURE模型雖然在輸入層引入了Typed Makers以整合實(shí)體位置和類型信息,但仍然存在Pipeline模型的通病,且對每個(gè)實(shí)體對進(jìn)行關(guān)系預(yù)測時(shí)會存在很多噪聲。此外,Span方法需要對每個(gè)實(shí)體對進(jìn)行判斷和預(yù)測,這可能會引入很多噪聲。與此不同,CasRel模型先尋找subject,然后再匹配object,從而過濾掉很多噪聲。
基于填表的方法通常為每個(gè)關(guān)系維護(hù)一個(gè)表,表中每項(xiàng)表示實(shí)體對是否具有此類關(guān)系。TPLinker[7]提出了握手標(biāo)記方案來記錄實(shí)體對tokens的邊界,從而解決了關(guān)系重疊和誤差傳遞問題。然而,該方法標(biāo)注的復(fù)雜度較高,解碼效率也不夠高。GRTE[8]認(rèn)為TPLinker填充關(guān)系表時(shí)僅依賴于局部特征,忽略了全局信息,因此提出了更高效的填表策略。UNIRE[9]將實(shí)體和關(guān)系兩個(gè)任務(wù)標(biāo)簽整合到統(tǒng)一聯(lián)合標(biāo)簽空間,并設(shè)計(jì)了簡單快速的解碼方法來增強(qiáng)實(shí)體和關(guān)系的交互。OneRel[10]則類似于TPLinker,減少了關(guān)系矩陣數(shù)量以減少冗余信息,并增強(qiáng)了實(shí)體和關(guān)系的交互。
基于閱讀理解的方法[11]將實(shí)體關(guān)系抽取看成多輪問答問題,從文本中識別答案片段,通過分階段抽取頭實(shí)體、關(guān)系和尾實(shí)體來實(shí)現(xiàn)。此外,還有基于圖卷積[12]和端到端[13]的實(shí)體關(guān)系聯(lián)合抽取模型。文獻(xiàn)[14]忽略三元組序列而直接輸出最終的三元組集合,關(guān)注關(guān)系類型和實(shí)體,為網(wǎng)絡(luò)提供了更準(zhǔn)確的訓(xùn)練信號。另外,還有基于語言模型增強(qiáng)[15]的中文關(guān)系抽取方法來進(jìn)行輕量化學(xué)習(xí)。注意力機(jī)制[16?18]在關(guān)系抽取任務(wù)中也逐漸得到應(yīng)用,用于捕捉句級和空間依賴關(guān)系。最后,遠(yuǎn)程監(jiān)督方法利用外部知識豐富實(shí)體和關(guān)系信息,但同時(shí)會引入大量噪聲,并需要手工設(shè)計(jì)特征,而文獻(xiàn)[19?22]緩解了遠(yuǎn)程監(jiān)督方法帶來的問題。文獻(xiàn)[23]提出基于跨度的方法,將聯(lián)合抽取定義為一個(gè)條件序列生成問題,采用具有指向機(jī)制的編碼?解碼結(jié)構(gòu)。文獻(xiàn)[24]引入BART模型。文獻(xiàn)[25]首次提出將多模態(tài)實(shí)體識別和多模態(tài)關(guān)系抽取聯(lián)合執(zhí)行,并用邊緣增強(qiáng)圖對齊網(wǎng)絡(luò)來輔助對象和實(shí)體間的對齊。上述方法各有優(yōu)缺點(diǎn),需根據(jù)具體任務(wù)和數(shù)據(jù)選擇合適的模型。
2" 模型設(shè)計(jì)
為了更好地從非結(jié)構(gòu)化文本中表征信息并抽取關(guān)系信息,本文提出基于并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)模型PRDC,結(jié)構(gòu)如圖2所示,由BERT編碼器、PRDC模塊和關(guān)系抽取層三個(gè)主要組件構(gòu)成。在關(guān)系抽取層中,包含潛在關(guān)系預(yù)測模塊、特定關(guān)系序列標(biāo)注模塊和全局對應(yīng)模塊三個(gè)關(guān)鍵部分。
模型首先通過BERT編碼文本信息,有助于緩解短文本可能帶來的一詞多義問題;然后,利用PRDC提取文本特征并進(jìn)行降噪;接著,將提取的特征信息與BERT編碼的信息進(jìn)行結(jié)合,以豐富語義信息,從而緩解短文本語義不夠豐富的問題;最后,實(shí)體關(guān)系聯(lián)合抽取緩解關(guān)系重疊和誤差傳遞問題,通過潛在關(guān)系預(yù)測得到潛在關(guān)系,以此過濾掉無關(guān)關(guān)系。特定關(guān)系序列標(biāo)注模塊結(jié)合句子表示和得到的關(guān)系表示來標(biāo)注頭尾實(shí)體,以識別實(shí)體信息。關(guān)系和實(shí)體的組合形成了三元組,但其中的一些組合是不合理的。因此,全局對應(yīng)模塊使用矩陣表示來判斷字對之間是否存在關(guān)聯(lián),從而進(jìn)一步過濾不合理的三元組。
2.1" BERT編碼器
自然語言文本無法直接被神經(jīng)網(wǎng)絡(luò)編碼,因此需要將其轉(zhuǎn)換為向量形式,通常使用BERT預(yù)訓(xùn)練模型生成文本表示。BERT編碼層負(fù)責(zé)將輸入序列中的每個(gè)詞匯轉(zhuǎn)換成其對應(yīng)的向量表示,在這個(gè)過程中,每個(gè)詞匯的向量表示會受到序列中其他詞匯的影響,故使用多頭自注意力(Multi?head Self?Attention)機(jī)制來捕捉詞匯之間的語義關(guān)聯(lián)。BERT的編碼層扮演著將文本序列映射到向量空間的角色,使得模型能夠理解文本中的語義信息,并且為下游任務(wù)提供良好的表示。
2.2" PRDC模塊
PRDC模塊的核心結(jié)構(gòu)是殘差塊(Residual Block)和膨脹塊(Dilated Block)。典型的ResNet由多個(gè)殘差塊組成,每個(gè)殘差塊內(nèi)部可以包含若干卷積層、批量歸一化層和激活函數(shù)層。整個(gè)網(wǎng)絡(luò)以及殘差塊的設(shè)計(jì)主要遵循“跳躍連接”的思想,即將輸入信號繞過一個(gè)或多個(gè)層,直接傳遞給后續(xù)的層,從而解決梯度消失問題。膨脹塊通過在卷積核之間插入間隔來增加卷積核的有效大小,從而擴(kuò)大感受野。這意味著膨脹卷積可以捕捉更廣大范圍內(nèi)的上下文信息,有助于提高特征提取的能力。
由于短文本句子長度不同,且涉及關(guān)系抽取的重要信息可能分布在任何位置,因此需要從句子中抽取不同的局部特征。卷積操作能夠捕獲局部特征,使用滑動窗口與句子向量進(jìn)行卷積運(yùn)算。由于需要抽取句子的多個(gè)局部特征,因此需要設(shè)計(jì)不同的過濾器來完成特征抽取,通過并聯(lián)各卷積網(wǎng)絡(luò)特征來豐富句子特征信息。此外,殘差網(wǎng)絡(luò)除了能解決梯度消失問題,還能提高網(wǎng)絡(luò)收斂速度和模型泛化能力。
本文設(shè)計(jì)的并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖3所示。示例中BERT輸出假設(shè)為(786,32,100),其中第一維表示embedding大小,第二維表示批處理大小,第三維表示句子長度,經(jīng)過維度擴(kuò)展后進(jìn)入卷積網(wǎng)絡(luò)。本文使用二維卷積作為基本單元,詞向量維度作為通道數(shù),批處理大小和句子長度作為卷積操作的二維矩陣,用于挖掘句子內(nèi)部與句子之間的信息。不同大小的卷積核的卷積允許并行學(xué)習(xí)多尺度特征,其中卷積核大小為5和3的卷積為膨脹卷積,經(jīng)過并聯(lián)的卷積層后,在第二維度上進(jìn)行拼接得到最終輸出。
卷積網(wǎng)絡(luò)中使用逐點(diǎn)卷積(Pointwise Conv, PW),用卷積核大小為1的卷積進(jìn)行壓縮降維,減少參數(shù)量,從而讓網(wǎng)絡(luò)更深、更寬、更好地提取特征。此外圖3b)中的(1×1 conv,192)卷積可看作是卷積的殘差連接。
2.3" 關(guān)系抽取層
2.3.1" 潛在關(guān)系預(yù)測
進(jìn)行潛在的關(guān)系預(yù)測可避免冗余關(guān)系預(yù)測,假設(shè)經(jīng)過句子表示和PRDC特征提取后的輸出為[h∈Rn×d],進(jìn)行平均池化操作和潛在關(guān)系預(yù)測過程的公式如下:
[havg=Avgpool(h)∈Rd×1] (1)
[Prel=σ(Wrhavg+br)] (2)
式中:[Wr∈Rd×1]為可訓(xùn)練權(quán)重;[σ]為sigmoid激活函數(shù)。將潛在關(guān)系預(yù)測建模為一個(gè)多標(biāo)簽二進(jìn)制分類任務(wù),如果概率超過某個(gè)閾值[λ1],則為對應(yīng)關(guān)系分配標(biāo)簽1,否則將對應(yīng)的關(guān)系標(biāo)簽置為0。接下來只需要將特定關(guān)系的序列標(biāo)簽應(yīng)用于預(yù)測關(guān)系,而不用預(yù)測全部關(guān)系。
2.3.2" 特定關(guān)系序列標(biāo)注
通過潛在關(guān)系獲得了描述潛在關(guān)系的幾個(gè)特定關(guān)系的句子表示,然后模型執(zhí)行兩個(gè)序列標(biāo)注操作來分別提取主體和客體。為解決實(shí)體重疊問題,采用兩個(gè)BIO序列標(biāo)注方式進(jìn)行實(shí)體抽取,然后對構(gòu)成的三元組進(jìn)行評估,篩選出最終的三元組。過程對應(yīng)公式如下:
[Psubi,j=softmax(Wsub(hi+uj)+bsub)] (3)
[Pobji,j=softmax(Wobj(hi+uj)+bobj)] (4)
式中:[uj∈Rd×1]是[U∈Rd×r]關(guān)系集合矩陣中第[j]個(gè)關(guān)系表示,[r]表示全部關(guān)系數(shù)量;[hi∈Rd×1]是處理后的第[i]個(gè)token的輸出;[Wsub,Wobj∈Rd×3]是可訓(xùn)練權(quán)重。標(biāo)注集合{B,I,O}大小為3。
2.3.3" 全局對應(yīng)
將標(biāo)注得到的實(shí)體與預(yù)測的關(guān)系構(gòu)成三元組,此時(shí)的三元組中包含subject和object構(gòu)成的所有可能的組合,需要進(jìn)一步篩選去除無用三元組。利用全局對應(yīng)模塊過濾三元組,該模塊可與潛在關(guān)系模塊同時(shí)學(xué)習(xí),且會生成全局矩陣,矩陣中每個(gè)元素表示對應(yīng)的token pair是否存在關(guān)聯(lián),使用閾值[λ2]進(jìn)行過濾,存在關(guān)聯(lián)則用1表示,無關(guān)則用0表示。矩陣中元素獲取方式如下:
[Pi,j=σ(Wg(hsubi;hobjj)+bg)] (5)
式中:[hsubi,hobjj∈Rd×1]表示句子第[i]個(gè)token和第[j]個(gè)token對應(yīng)的實(shí)體與預(yù)測的向量表示,作為頭尾實(shí)體對;[Wg∈Rd×1]是可訓(xùn)練權(quán)重。
整體的損失由關(guān)系預(yù)測、特定關(guān)系序列標(biāo)注、全局對應(yīng)三個(gè)模塊組成。各部分損失計(jì)算公式如下:
[Lrel=-1nri=1nryilogPrel+(1-yi)log(1-Prel)] (6)
[Lseq=-12×n×npotrt={sub,obj}j=1npotri=1nyti,jlogPti,j] (7)
[Lglobal=-1n2i=1nj=1nyi,jlogPi,j+(1-yi,j)log(1-Pi,j)] (8)
式中:[nr]是所有關(guān)系集合大??;[npotr]是預(yù)測的潛在關(guān)系集合大小;[n]是句子長度。模型總的聯(lián)合損失是式(6)~式(8)損失的總和,表示為:
[L=Lrel+Lseq+Lglobal] (9)
3" 實(shí)" 驗(yàn)
3.1" 數(shù)據(jù)集和評估指標(biāo)
本文使用了三個(gè)公共數(shù)據(jù)集,包括WebNLG、NYT和DuIE數(shù)據(jù)集。其中,WebNLG和NYT屬于常規(guī)數(shù)據(jù)集,而DuIE則屬于短文本數(shù)據(jù)集。通過在這兩類數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證模型的有效性和泛化能力。WebNLG數(shù)據(jù)集來源于DBpedia,而NYT數(shù)據(jù)集則來自紐約時(shí)報(bào)。DuIE數(shù)據(jù)集由百度提供,是一個(gè)用于中文短文本關(guān)系抽取任務(wù)的數(shù)據(jù)集,旨在推動自然語言處理領(lǐng)域中相關(guān)研究的進(jìn)展,解決傳統(tǒng)方法在處理短文本關(guān)系抽取任務(wù)時(shí)所面臨的挑戰(zhàn),包括語義表達(dá)受限、噪聲和歧義等問題。該數(shù)據(jù)集包含了一系列中文短文本對,每個(gè)文本對都包含兩個(gè)實(shí)體以及它們之間的關(guān)系,這些關(guān)系可以是各種各樣的,例如人物關(guān)系、實(shí)體屬性等,共涵蓋了18種實(shí)體關(guān)系類別。數(shù)據(jù)集的詳細(xì)劃分情況如表1所示,測試集中實(shí)體關(guān)系重疊情況和三元組數(shù)目的統(tǒng)計(jì)如表2、表3所示。
本文采用準(zhǔn)確率P、召回率R和F1值作為評價(jià)指標(biāo),計(jì)算公式如下所示:
[P=TPTP+FP×100%] (10)
[R=TPTP+FN×100%] (11)
[F1=2×P×RP+R×100%] (12)
3.2" 實(shí)驗(yàn)設(shè)置
運(yùn)行環(huán)境Python版本為3.8.18,PyTorch版本為2.1.2,Transformer版本為4.36.2,Tpdm版本為4.66.1。模型訓(xùn)練時(shí),采用Dropout和早停策略來防止模型過擬合。各參數(shù)設(shè)置詳情如表4所示。
3.3" 對比實(shí)驗(yàn)
為了驗(yàn)證基于殘差網(wǎng)絡(luò)和注意力的實(shí)體關(guān)系聯(lián)合抽取模型的效果,將其與以下基線模型進(jìn)行實(shí)驗(yàn)對比。
GraphRel[26]:先使用圖卷積網(wǎng)絡(luò)建立關(guān)系圖,再整合關(guān)系圖上的實(shí)體。
OrderCopyRE[27]:考慮三元組提取順序,引入強(qiáng)化學(xué)習(xí)。
ETL?Span[28]:先識別頭實(shí)體,再識別實(shí)體和關(guān)系,使用span標(biāo)注方法。
CasRel[2]:先抽取主實(shí)體,再同時(shí)抽取關(guān)系和對應(yīng)客體,使用二元級聯(lián)標(biāo)注。
DualDec[29]:改進(jìn)CasRel模型,使用雙解碼器解決實(shí)體關(guān)系重疊問題。
PRGC[3]:先抽取關(guān)系再識別實(shí)體,最后使用全局對應(yīng)模塊過濾三元組。
根據(jù)表5的性能數(shù)據(jù)分析,本文所提出的方法在三個(gè)數(shù)據(jù)集上相較于其他基線模型表現(xiàn)出更優(yōu)異的效果。在NYT和WebNLG數(shù)據(jù)集中,OrderCopyRE模型的F1值比GraphRel模型分別高出10.2%和18.7%,這表明考慮三元組提取順序?qū)Τ槿⌒Ч酗@著提升。ETL?Span和CasRel模型采用了分步抽取信息的策略,相較于簡單考慮三元組順序的方法,其性能提升較為顯著。然而需要注意的是,兩者的標(biāo)注方式存在差異,采用二元級聯(lián)標(biāo)注方式的效果比Span標(biāo)注方式更為優(yōu)越,F(xiàn)1值分別高出11.2%和3.2%。
在NYT數(shù)據(jù)集中,DualDec模型通過使用雙解碼器解決了重疊問題,性能進(jìn)一步提升1.7%;然而在WebNLG數(shù)據(jù)集上,其效果略微下降1.4%。PRGC模型通過過濾冗余關(guān)系,在解決重疊問題的同時(shí)降低了模型復(fù)雜度,進(jìn)而提高了其性能。最后,本文所提出的模型在數(shù)據(jù)集NYT和WebNLG上的F1值分別為90.9%和91.3%,相較于PRGC模型分別提高了0.4%和1.6%,相較于經(jīng)典模型CasRel分別提高了1.7%和5.0%。相較于DualDec模型,本文模型的F1值在NYT數(shù)據(jù)集上不變,在WebNLG數(shù)據(jù)集上提升6.4%,總的來說還是有所提升,在泛化能力上優(yōu)于DualDec模型。本文方法在短文本數(shù)據(jù)集DuIE上F1值為73.5%,與PRGC模型相比高出0.2%。通過對比實(shí)驗(yàn)結(jié)果可以看出,本文所提出的模型在關(guān)系抽取能力和泛化能力上均優(yōu)于基線模型,有效提升了關(guān)系抽取的性能。
3.4" 消融實(shí)驗(yàn)
3.4.1" 模型對關(guān)系重疊的影響
為了驗(yàn)證模型在處理重疊問題和提取多重關(guān)系方面的能力,在三個(gè)數(shù)據(jù)集上將其與基線模型進(jìn)行了對比。
表6所示為各模型對重疊關(guān)系的抽取結(jié)果,對應(yīng)圖4中可以明顯看出,本文提出的模型在多種情況下均表現(xiàn)出最佳效果。在NYT和WebNLG數(shù)據(jù)集上,本文模型相比于目前較好的模型PRGC,在Normal情況下,性能分別提高了0.7%、4.7%;在SEO情況下,性能分別提高了0.1%和1.2%;EPO情況下,在NYT數(shù)據(jù)集上性能提升0.2%,在WebNLG數(shù)據(jù)集上性能降低0.7%,說明模型在NYT上對重疊關(guān)系都能很好的抽取,在WebNLG上抽取普通關(guān)系性能更佳。最后,在DuIE數(shù)據(jù)集上本文模型相比PRGC抽取SEO和EPO重疊關(guān)系分別提升0.3%和0.7%。總的來說,本文所提出的模型在處理重疊關(guān)系問題上相較于其他模型能更好地提取三元組。這是因?yàn)楸疚牡穆?lián)合抽取框架不僅有效減少了誤差傳播抽取信息,而且能夠過濾掉無用的關(guān)系,從而提高性能。
3.4.2" 模型對三元組數(shù)目提取的影響
為了驗(yàn)證模型在提取三元組數(shù)量方面的能力,將數(shù)據(jù)集按照句子中包含的三元組個(gè)數(shù)劃分為5個(gè)不同的類別,并進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5、表7所示。
本文提出的模型相較于其他基線模型在兩個(gè)數(shù)據(jù)集上均展現(xiàn)出顯著優(yōu)勢。
本文模型相較于性能較好的PRGC模型,在WebNLG數(shù)據(jù)集上普遍效果很好,三元組數(shù)量分別為1、2、3、4時(shí),F(xiàn)1值分別提升4.3%、1.2%、0.8%和1.4%;在NYT數(shù)據(jù)集上,三元組數(shù)量分別為1、3、4時(shí),F(xiàn)1值分別提升0.6%、0.4%和0.6%;N≥5時(shí)在NYT和WebNLG較于PRGC均略微下降0.4%,但數(shù)據(jù)集中三元組數(shù)量高于5組的占比較低。在DuIE數(shù)據(jù)集上當(dāng)三元組數(shù)量為3時(shí),F(xiàn)1值較PRGC提升1.1%??傮w來說,PRDC模型能更好地處理大部分三元組。
3.4.3" PRDC對模型的影響
為了驗(yàn)證PRDC對模型抽取關(guān)系特性的有效性,設(shè)計(jì)了消融實(shí)驗(yàn)進(jìn)行驗(yàn)證。各模型的對比結(jié)果如表8所示。
表8中每個(gè)模型都具有相同的關(guān)系抽取層RE,相比于BERT+RE基線模型,添加BiGRU、ATT和PRDC模塊在DuIE短文本數(shù)據(jù)集上進(jìn)行驗(yàn)證。由表8可知,單獨(dú)添加PRDC模塊的模型效果最好,為73.45%,這可能歸因于短文本的長度通常較短,信息密度較高,而CNN能更好地捕獲局部特征。
此外,添加BiGRU后模型性能反而下降0.31%,可能是因?yàn)锽iGRU對于長序列數(shù)據(jù)的處理效果通常更好,但如果序列長度過短或過長,會導(dǎo)致BiGRU的性能下降。
添加多頭注意力機(jī)制后模型性能提升0.08%,但多個(gè)模塊的串聯(lián)組合效果低于單獨(dú)添加PRDC,甚至有的低于BERT+RE的基線模型,這可能是因?yàn)镻RDC和ATT都涉及到對輸入序列進(jìn)行關(guān)注或增強(qiáng),因此它們可能會在某種程度上重疊或沖突,導(dǎo)致模型學(xué)習(xí)到冗余的信息,造成模型性能下降。
4" 結(jié)" 語
關(guān)系抽取旨在從文本中提取出實(shí)體對之間存在的語義關(guān)系,但現(xiàn)有的關(guān)系抽取方法均存在關(guān)系冗余和重疊的不足,尤其是對于短文本,會因上下文信息不足而出現(xiàn)語義信息不足和噪聲大等問題。此外,一般流水線式的關(guān)系抽取模型還存在誤差傳遞問題。為此,文中提出一種基于并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)的短文本實(shí)體關(guān)系聯(lián)合抽取方法。本文提出的基于并聯(lián)殘差膨脹卷積網(wǎng)絡(luò)的短文本實(shí)體關(guān)系聯(lián)合抽取方法在實(shí)驗(yàn)中取得了令人滿意的結(jié)果。通過在公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了該方法在解決短文本關(guān)系抽取任務(wù)中的有效性。本文方法能夠有效地應(yīng)對短文本語義表達(dá)受限、噪聲和歧義性等挑戰(zhàn),提高了關(guān)系抽取任務(wù)的準(zhǔn)確性。
實(shí)驗(yàn)結(jié)果顯示,在聯(lián)合抽取框架中引入設(shè)計(jì)的并聯(lián)殘差膨脹卷積網(wǎng)絡(luò),能夠更好地捕獲關(guān)鍵信息并提高模型性能。
但是,對于具有大量主客體重疊特點(diǎn)的數(shù)據(jù)集來說,該模型還有待完善和提高。未來,將進(jìn)一步研究該模型應(yīng)用于其他領(lǐng)域關(guān)系抽取任務(wù),優(yōu)化模型并讓其更好地應(yīng)對主客體重疊的情況。
注:本文通訊作者為奚雪峰、崔志明。
參考文獻(xiàn)
[1] ZHONG Z, CHEN D. A frustratingly easy approach for entity and relation extraction [C]// In 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. [S.l.]: ACL, 2021: 50?61.
[2] WEI Z, SU J, WANG Y, et al. A novel cascade binary tagging framework for relational triple extraction [C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2020: 1476?1488.
[3] ZHENG H, WEN R, CHEN X, et al. PRGC: potential relation and global correspondence based joint relational triple extraction [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]: ACL, 2021: 6225?6235.
[4] REN F, ZHANG L, ZHAO X, et al. A simple but effective bidirectional framework for relational triple extraction [C]// Proceedings of the Fifteenth ACM International Conference on Web Search and Data Mining. San Francisco, CA, USA: ACM, 2022: 824?832.
[5] DIXIT K, AL?ONAIZAN Y. Span?level model for relation extraction [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2019: 5308?5314.
[6] EBERTS M, ULGES A. Span?based joint entity and relation extraction with transformer pre?training [EB/OL]. [2023?01?17]. https://www.xueshufan.com/publication/3090302425.
[7] WANG Y, YU B, ZHANG Y, et al. TPLinker: single?stage joint extraction of entities and relations through token pair linking [C]// Proceedings of the 28th International Conference on Computational Linguistics. Barcelona, Spain: ACM, 2020: 1572?1582.
[8] REN F, ZHANG L, YIN S, et al. A novel global feature?oriented relational triple extraction model based on table filling [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Cambridge, Massachusetts: ACM, 2021: 2646?2656.
[9] WANG Y, SUN C, WU Y, et al. UniRE: a unified label space for entity relation extraction [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. [S.l.]: ACM, 2021: 220?231.
[10] SHANG Y M, HUANG H, MAO X. OneRel: joint entity and relation extraction with one module in one step [J]. Computation and language, 2022, 36(10): 11285?11293.
[11] LI X, YIN F, SUN Z, et al. Entity?relation extraction as multi?turn question answering [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACM, 2019: 1340?1350.
[12] 喬勇鵬,于亞新,劉樹越,等.圖卷積增強(qiáng)多路解碼的實(shí)體關(guān)系聯(lián)合抽取模型[J].計(jì)算機(jī)研究與發(fā)展,2023,60(1):153?166.
[13] 賈寶林,尹世群,王寧朝.基于門控多層感知機(jī)的端到端實(shí)體關(guān)系聯(lián)合抽取[J].中文信息學(xué)報(bào),2023,37(3):143?151.
[14] SUI D, ZENG X, CHEN Y, et al. Joint entity and relation extraction with set prediction networks [J]. IEEE transactions on neural networks and learning systems, 2023, 35(9): 12784?12795.
[15] 薛平,李影,吳中海.基于語言模型增強(qiáng)的中文關(guān)系抽取方法[J].中文信息學(xué)報(bào),2023,37(7):32?41.
[16] 寧尚明,滕飛,李天瑞.基于多通道自注意力機(jī)制的電子病歷實(shí)體關(guān)系抽取[J].計(jì)算機(jī)學(xué)報(bào),2020,43(5):916?929.
[17] 李志欣,孫亞茹,唐素勤,等.雙路注意力引導(dǎo)圖卷積網(wǎng)絡(luò)的關(guān)系抽取[J].電子學(xué)報(bào),2021,49(2):315?323.
[18] 葛艷,杜坤鈺,杜軍威,等.基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法研究[J].中文信息學(xué)報(bào),2021,35(10):81?89.
[19] ZENG D, LIU K, CHEN Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: EMNLP, 2015: 1753?1762.
[20] 馮建周,宋沙沙,王元卓,等.基于改進(jìn)注意力機(jī)制的實(shí)體關(guān)系抽取方法[J].電子學(xué)報(bào),2019,47(8):1692?1700.
[21] 唐朝,諾明花,胡巖.ResNet結(jié)合BiGRU的關(guān)系抽取混合模型[J].中文信息學(xué)報(bào),2020,34(2):38?45.
[22] ZHOU K, QIAO Q, LI Y, et al. Improving distantly supervised relation extraction by natural language inference [J]. Proceedings of the AAAI conference on artificial intelligence, 2023, 37(11): 14047?14055.
[23] ZARATIANA U, TOMEH N, HOLAT P, et al. An autore?gressive text?to?graph framework for joint entity and relation extraction [EB/OL]. [2024?01?08]. https://arxiv.org/abs/2401.01326?context=cs.LG.
[24] CHANG H, XU H, VAN GENABITH J, et al. JoinER?BART: joint entity and relation extraction with constrained decoding, representation reuse and fusion [J]. IEEE/ACM transactions on audio, speech, and language processing, 2023(31): 3603?3616.
[25] YUAN L, CAI Y, WANG J, et al. Joint multimodal entity?relation extraction based on edge?enhanced graph alignment network and word?pair relation tagging [J]. Proceedings of the AAAI conference on artificial intelligence, 2023, 37(9): 11051?11059.
[26] FU T J, LI P H, MA W Y. Graphrel: modeling text as relational graphs for joint entity and relation extraction [EB/OL]. [2023?12?07]. https://www.xueshufan.com/publication/2949212908.
[27] ZENG X, HE S, ZENG D, et al. Learning the extraction order of multiple relational facts in a sentence with reinforcement learning [C]// 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing. Hong Kong, China: NLP, 2019: 367?377.
[28] YU B, ZHANG Z, SHU X, et al. Joint extraction of entities and relations based on a novel decomposition strategy [C]// European Conference on Artificial Intelligence. [S.l.]: IOS, 2020: 2282?2289.
[29] MA L, REN H, ZHANG X. Effective cascade dual?decoder model for joint entity and relation extraction [EB/OL]. [2023?11?07]. https://www.xueshufan.com/publication/3176985211.
[30] 張魯,段友祥,劉娟,等.基于RoBERTa和加權(quán)圖卷積網(wǎng)絡(luò)的中文地質(zhì)實(shí)體關(guān)系抽取[J].計(jì)算機(jī)科學(xué),2024,51(8):297?303.
[31] 成全,蔣世輝,李卓卓.基于改進(jìn)CasRel實(shí)體關(guān)系抽取模型的在線健康信息語義發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2024,8(10):112?124.