李敬燦,肖萃林,覃曉婷,謝夏
(海南大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,海南 海口 570228)
實(shí)體關(guān)系抽取是指從非結(jié)構(gòu)化文本中識(shí)別并提取出頭實(shí)體、關(guān)系和尾實(shí)體的三元組信息的過程。作為信息抽取的基本任務(wù)之一,其抽取準(zhǔn)確性將直接影響到信息抽取的準(zhǔn)確性。隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,信息抽取應(yīng)用越發(fā)廣泛,在問答系統(tǒng)、金融、法律等領(lǐng)域都有重要作用,因此信息抽取尤其是語義信息準(zhǔn)確性高的信息抽取越來越受到人們的重視。
目前,實(shí)體關(guān)系的三元組抽取方法主要分為管道和聯(lián)合兩類。管道方法通常是先識(shí)別出實(shí)體,然后再提取實(shí)體之間的關(guān)系以進(jìn)行關(guān)系抽取。早期實(shí)體關(guān)系抽取主要依賴于卷積神經(jīng)網(wǎng)絡(luò)(CNN)來處理文本。然而,這些方法存在一些局限性,比如卷積核大小的固定性和所提取特征的單一性等問題。
隨后,文獻(xiàn)[1]采用CNN模型和注意力機(jī)制相結(jié)合的形式來進(jìn)行關(guān)系抽取。研究人員也逐漸將基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的方法應(yīng)用于實(shí)體關(guān)系抽取任務(wù),這些方法能更好地處理文本中的長(zhǎng)期依賴關(guān)系。文獻(xiàn)[2]設(shè)計(jì)了一種雙向循環(huán)門控單元,并集成注意力機(jī)制,能夠捕獲更多有價(jià)值的字符級(jí)信息。文獻(xiàn)[3]則提出一種基于最短依賴路徑的長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò),用于文本的關(guān)系分類,能夠收集最短路徑上的異構(gòu)信息。
雖然管道方法能在一定程度上實(shí)現(xiàn)實(shí)體關(guān)系抽取的效果,但該方法在結(jié)構(gòu)上存在錯(cuò)誤累積和三元組重疊的問題,并且也會(huì)忽略掉實(shí)體識(shí)別和關(guān)系抽取直接的關(guān)聯(lián)。三元組重疊問題可以分為一對(duì)一正常類(OO)、單個(gè)實(shí)體重疊類(SEO)和實(shí)體對(duì)重疊類(EPO)3種主要類型。一對(duì)一正常類沒有實(shí)體重疊,每個(gè)三元組的實(shí)體都是獨(dú)立的,不共享;單個(gè)實(shí)體重疊類存在一個(gè)實(shí)體在多個(gè)三元組中重疊,但其他實(shí)體不重疊;實(shí)體對(duì)重疊類,即多個(gè)實(shí)體對(duì)在不同三元組中重疊可能會(huì)涉及多對(duì)實(shí)體。文獻(xiàn)[4]提出一種利用詞序信息和依存樹結(jié)構(gòu)信息的樹形結(jié)構(gòu),將長(zhǎng)短時(shí)記憶模型轉(zhuǎn)化為樹形結(jié)構(gòu)進(jìn)行建模,以提取實(shí)體和實(shí)體關(guān)系。然而,這種方法仍然存在一定的先后性問題。為了應(yīng)對(duì)這個(gè)問題,研究人員開始嘗試采用聯(lián)合抽取或所謂的“端到端抽取”方法,通過聯(lián)合建模來同時(shí)處理實(shí)體識(shí)別和關(guān)系抽取任務(wù)。文獻(xiàn)[5]提出一種新的模型,由集合預(yù)測(cè)網(wǎng)絡(luò)直接并行解碼實(shí)體關(guān)系三元組,這種方法能同時(shí)完成實(shí)體和關(guān)系的抽取,從而避免了誤差的累積。但是由于關(guān)系和實(shí)體會(huì)被同時(shí)解碼,這又會(huì)導(dǎo)致實(shí)體主客體間聯(lián)系薄弱的問題。
近年來的大語言模型,特別是ChatGPT的出現(xiàn)在各行各業(yè)都掀起了一波熱潮。大語言模型(LLM)的最近進(jìn)展已經(jīng)顯示出它在各個(gè)領(lǐng)域的巨大潛力[6]。文獻(xiàn)[7]基于大規(guī)模預(yù)訓(xùn)練語言模型,提出一種API實(shí)體關(guān)系聯(lián)合抽取模型(AERJE)。文獻(xiàn)[8]利用GPT-3和Flan-T5 Large模型在不同監(jiān)督水平下評(píng)估它們?cè)跇?biāo)準(zhǔn)關(guān)系抽取任務(wù)上的性能,取得了很好的效果。但目前基于大模型的關(guān)系抽取方法大都針對(duì)無監(jiān)督學(xué)習(xí)領(lǐng)域,對(duì)于有監(jiān)督任務(wù)缺乏成熟的模型訓(xùn)練方法和微調(diào)策略。
本文提出一種基于大語言模型的關(guān)系抽取算法。首先對(duì)大型語言模型 Meta AI(LLaMA)進(jìn)行微調(diào)訓(xùn)練,使其更加適應(yīng)關(guān)系抽取的任務(wù)。為了增強(qiáng)關(guān)系和實(shí)體之間的交互,在提取關(guān)系的基礎(chǔ)上使用自注意力機(jī)制來增強(qiáng)實(shí)體對(duì)之間的關(guān)聯(lián)程度,增強(qiáng)關(guān)系和實(shí)體之間的信息共享,接著使用平均池化泛化到整個(gè)句子中。針對(duì)實(shí)體對(duì)設(shè)計(jì)一個(gè)過濾矩陣,并引入詞性信息進(jìn)行語義增強(qiáng),根據(jù)過濾矩陣中實(shí)體對(duì)的相關(guān)性過濾掉無效的三元組,有效減少誤差傳播和重疊問題。最后對(duì)兩個(gè)新聞文本數(shù)據(jù)集WebNLG[9]和NYT[10]進(jìn)行評(píng)估。本文的工作主要有以下貢獻(xiàn):
1)設(shè)計(jì)一個(gè)新的端到端結(jié)構(gòu),并將大語言模型進(jìn)行微調(diào),使其更適合關(guān)系抽取的任務(wù)。
2)針對(duì)實(shí)體對(duì)設(shè)計(jì)一個(gè)過濾矩陣,并引入詞性信息進(jìn)行語義增強(qiáng),根據(jù)過濾矩陣中實(shí)體對(duì)的相關(guān)性過濾掉無效的三元組。
3)在NYT和WebNLG數(shù)據(jù)集上進(jìn)行全面的評(píng)估,驗(yàn)證模型的有效性。
隨著重疊三元組問題的出現(xiàn),實(shí)體關(guān)系聯(lián)合抽取任務(wù)的難度以及復(fù)雜度大幅提升。因?yàn)槟P托枰R(shí)別和區(qū)分這些重疊的實(shí)體以及與它們的相關(guān)關(guān)系。解決這個(gè)問題需要新的建模技巧和策略,以處理不同類型的實(shí)體重疊情況。
Seq2Seq方法最早由文獻(xiàn)[11]引入,采用序列到序列模型直接生成三元組,避免生成大量無效信息,并且能夠捕捉輸入序列中的長(zhǎng)距離依賴關(guān)系。文獻(xiàn)[12]提出一個(gè)新的標(biāo)注策略,使用簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)就可以標(biāo)注關(guān)系實(shí)體信息,通過簡(jiǎn)化模型,有效地提高了實(shí)體關(guān)系抽取任務(wù)的性能。然而,在處理單實(shí)體重疊和實(shí)體對(duì)重疊時(shí)仍存在一些不足。隨后的研究著重解決了這些問題,并將解決方案分為基于復(fù)制機(jī)制的方法和基于標(biāo)注策略的方法?;趶?fù)制機(jī)制的方法如CopyRE模型[13],通過自回歸解碼器按順序解碼三元組,該模型在當(dāng)時(shí)獲得了最佳的結(jié)果。但是,因?yàn)榻獯a方式的局限性,CopyRE模型可能無法完全識(shí)別實(shí)體,并且可能造成三元組彼此之間無法進(jìn)行平衡交互。文獻(xiàn)[5]提出一種集合預(yù)測(cè)網(wǎng)絡(luò)模型,可以直接生成三元組集合,并且通過并行解碼三元組的方式,解決三元組之間的交互失衡問題。
盡管Seq2Seq方法已經(jīng)成為自然語言處理(NLP)領(lǐng)域解決各種問題的主要方法之一,但是NLP問題的復(fù)雜性和多樣性使得有些問題可以更好地通過圖來表示和解決。文獻(xiàn)[14]提出一種動(dòng)態(tài)圖方法,引入跨度注意層用于獲取所有候選實(shí)體的表示并構(gòu)建跨度圖,這個(gè)跨度圖被輸入到圖注意力模型中,以動(dòng)態(tài)學(xué)習(xí)實(shí)體跨度與關(guān)系的相互作用。此外,文獻(xiàn)[15]設(shè)計(jì)一種具備多頭自注意力和密集連接的圖卷積網(wǎng)絡(luò),利用多頭自注意力機(jī)制為不同的關(guān)系類型分配不同的權(quán)重,確保各種關(guān)系的概率空間不會(huì)互相排斥。動(dòng)態(tài)圖方法在處理重疊實(shí)體關(guān)系抽取問題時(shí)取得了一定的進(jìn)展,但也存在一些問題,尤其在處理實(shí)體對(duì)重疊類問題時(shí)表現(xiàn)不佳。
近年來,研究人員設(shè)計(jì)了許多預(yù)訓(xùn)練語言模型,這些模型在大量未標(biāo)記的語料庫上運(yùn)行了無監(jiān)督學(xué)習(xí),并且獲得非常不錯(cuò)的特征表示。文獻(xiàn)[16]利用BERT模型[17]最后兩層輸出的隱藏信息構(gòu)建一個(gè)二維矩陣以表示特征,通過遮蓋不相關(guān)的實(shí)體來獲取實(shí)體位置信息,在最終性能方面表現(xiàn)出色,但時(shí)間復(fù)雜度較高。文獻(xiàn)[18]則探索了一種新穎的模型架構(gòu),將Transformer和指針網(wǎng)絡(luò)相結(jié)合,更好地提取實(shí)體和關(guān)系,并且集成了語法引導(dǎo)的網(wǎng)絡(luò),將句子中的語法信息納入到編碼器中,提高模型對(duì)句子中關(guān)鍵詞的關(guān)注度。在上述研究的基礎(chǔ)上,文獻(xiàn)[19]利用BERT模型對(duì)句子進(jìn)行編碼和解碼,在驗(yàn)證階段采用校準(zhǔn)算法,過濾掉了部分不符合源句子事實(shí)的三元組,提升了結(jié)果的準(zhǔn)確性。此外,文獻(xiàn)[20]提出一種包含3個(gè)步驟的算法用于提取重疊的實(shí)體關(guān)系。該算法利用BERT模型獲取句子的上下文信息,并且將這些信息共享給下游的2個(gè)子任務(wù):命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取,用以提高訓(xùn)練模型的性能。然而,采取共享參數(shù)的方法進(jìn)行下游任務(wù)訓(xùn)練,容易造成誤差傳播的問題。
本文算法采用大語言模型作為編碼器,并對(duì)其進(jìn)行微調(diào)來學(xué)習(xí)實(shí)體和關(guān)系的語義特征。首先使用自注意力機(jī)制來增強(qiáng)實(shí)體對(duì)之間關(guān)聯(lián)程度,增強(qiáng)關(guān)系和實(shí)體之間的信息共享,接著使用平均池化泛化到整個(gè)句子中。針對(duì)實(shí)體對(duì)設(shè)計(jì)一個(gè)過濾矩陣,并引入詞性信息進(jìn)行語義增強(qiáng),根據(jù)過濾矩陣中實(shí)體對(duì)的相關(guān)性過濾掉無效的三元組。
本文提出的端到端系統(tǒng)包括4個(gè)模塊:編碼器,關(guān)系提取,實(shí)體提取和詞性過濾矩陣。基于大語言模型與語義增強(qiáng)的關(guān)系抽取方法如圖1所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版)。
圖1 基于大語言模型與語義增強(qiáng)的關(guān)系抽取方法Fig.1 Relation extraction method based on large-language model and semantic enhancement
本文算法采用LLaMA[21]作為語言編碼器,將句子轉(zhuǎn)換為特征向量。LLaMA是由 Meta AI 發(fā)布的一個(gè)開放且高效的大型基礎(chǔ)語言模型,共有7B、13B、33B、65B 4種版本。因其訓(xùn)練的數(shù)據(jù)集來源都是公開的,從而保證了其工作的兼容性和可復(fù)現(xiàn)性。本文選擇LLaMA-7B模型,并對(duì)其進(jìn)行了微調(diào),使其更適用于關(guān)系抽取的任務(wù)。
在得到編碼器的特征向量hi之后,將它輸入到關(guān)系抽取模塊。一個(gè)句子中可能包含多個(gè)關(guān)系,所以可以將關(guān)系抽取認(rèn)定為多分類任務(wù)。每抽取一個(gè)關(guān)系必定對(duì)應(yīng)一對(duì)實(shí)體對(duì),但如何在抽取關(guān)系時(shí)利用實(shí)體信息是一個(gè)難點(diǎn)。本文提出一種模擬實(shí)體的方法,首先使用自注意力機(jī)制來增強(qiáng)實(shí)體對(duì)之間關(guān)聯(lián)程度,增強(qiáng)關(guān)系和實(shí)體之間的信息共享,接著使用平均池化泛化到整個(gè)句子中。具體公式如式(1)~式(3)所示:
E=Avgpool(Softmax((WqhiWk)(hi)T)Wvhi)
(1)
havg=Avgpool(hi)
(2)
Prel=ReLU(Wr·[havg;E]+br)
(3)
其中:Wq、Wk、Wv、Wr和br是可訓(xùn)練的權(quán)重矩陣;havg指整體句子的信息向量;Prel是指正確答案為某關(guān)系的概率大小;hi是編碼器得到的特征向量;E是指整體的模擬實(shí)體信息向量。
如圖1所示,為了處理句子中的特殊實(shí)體重疊模式,如SEO重疊和EPO重疊,設(shè)計(jì)2個(gè)序列標(biāo)記操作來提取實(shí)體對(duì)中的主語和賓語。模型包含2個(gè)全連接層,然后輸入到Softmax激活函數(shù)來預(yù)測(cè)對(duì)象的位置。其中,Psub表示主語實(shí)體的位置信息,Pobj表示賓語實(shí)體的位置信息。具體公式如式(4)、式(5)所示:
Psub=Softmax(WsubPrel+bsub)
(4)
Pobj=Softmax(WobjPrel+bobj)
(5)
其中:Prel是關(guān)系抽取的結(jié)果;Wsub、Wobj、bsub和bobj是可訓(xùn)練的權(quán)重矩陣。
過濾矩陣的目標(biāo)是在預(yù)測(cè)三元組的過程中篩選出與主語和賓語之間相關(guān)性較高的實(shí)體,以提高預(yù)測(cè)的準(zhǔn)確性。這意味著它專注于選擇與給定主語和賓語之間的關(guān)系更為相關(guān)的實(shí)體,以降低誤差并提高模型性能。之前的關(guān)系抽取和實(shí)體抽取,可以看作是一個(gè)完整的三元組預(yù)測(cè)過程。關(guān)系抽取中的自注意力機(jī)制可以加強(qiáng)實(shí)體和關(guān)系之間的聯(lián)系,但是僅靠實(shí)體抽取模塊來確定實(shí)體對(duì),使得主語和賓語之間的聯(lián)系確實(shí)有些薄弱。為了解決這個(gè)問題,本文設(shè)計(jì)一個(gè)實(shí)體過濾矩陣,旨在加強(qiáng)主語和賓語之間的聯(lián)系。本文設(shè)計(jì)一個(gè)大小為n×n的矩陣,其中n表示句子的長(zhǎng)度。矩陣中的每個(gè)數(shù)字(i,j)表示橫坐標(biāo)i位置的詞和縱坐標(biāo)j位置的詞是一個(gè)實(shí)體對(duì)。在面對(duì)多種關(guān)系和實(shí)體的復(fù)雜場(chǎng)景時(shí),每種關(guān)系都會(huì)生成對(duì)應(yīng)的得分矩陣。當(dāng)?shù)梅殖^預(yù)設(shè)閾值時(shí),表示對(duì)應(yīng)的2個(gè)實(shí)體具有這種關(guān)系。
本文在實(shí)體過濾矩陣的基礎(chǔ)上進(jìn)一步提出名詞矩陣的理念。其核心思想在于大部分關(guān)于實(shí)體的句子通常都是由名詞或名詞性短語構(gòu)成的。對(duì)2個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì),名詞性實(shí)體占總實(shí)體的結(jié)果如表1所示。
表1 NYT和WebNLG數(shù)據(jù)集上實(shí)體的詞性統(tǒng)計(jì)Table 1 Part of speech statistics of entities on NYT and WebNLG datasets
通過僅關(guān)注名詞或名詞性短語中的有意義的候選對(duì)象,能夠降低在實(shí)體識(shí)別任務(wù)上出現(xiàn)錯(cuò)誤的風(fēng)險(xiǎn)。為了在研究中融合這種觀察,本文利用詞性分析工具StanfordNLP[22]來鑒別句子中的詞性,從而構(gòu)造一個(gè)名詞矩陣Me,其中每個(gè)格子代表一個(gè)詞。矩陣中名詞賦予值λ,非名詞的格子則維持為0值。將實(shí)體過濾矩陣與名詞矩陣對(duì)應(yīng)元素相乘,得到最終的詞性過濾矩陣,從而過濾掉實(shí)體抽取模塊中錯(cuò)誤的主語和賓語,提高三元組的準(zhǔn)確性。具體計(jì)算公式如式(6)所示:
Pi,j=σ(Wm·[hi,hj]·Me+bm)
(6)
其中:Pi,j代表i,j位置實(shí)體的相關(guān)概率;Wm是可訓(xùn)練權(quán)重;hi、hj為給定句子中第i、j個(gè)單詞的編碼嵌入;Me是名詞矩陣的權(quán)重。
本文算法的損失函數(shù)包含3個(gè)模塊的損失,分別是關(guān)系損失Lrel、實(shí)體損失Lent和語法損失Lfl,計(jì)算公式分別如式(7)~式(9)所示:
(1-yi)ln(1-Prel(i)))
(7)
(1-yi)ln(1-Pent(i)))
(8)
(1-ki,jmi,j)ln(1-Pm(i,j)))
(9)
其中:nr是關(guān)系種類的數(shù)量;ne是句子的長(zhǎng)度;i和j表示矩陣的行和列;ki,j是矩陣的真值;Pi,j是圖1中灰色矩陣中的預(yù)測(cè)結(jié)果。最后,將這三部分相加,得到最終的損失函數(shù),如式(10)所示:
Ltotal=Lrel+Lent+Lfl
(10)
實(shí)驗(yàn)是在Intel Xeon E5 2.40 GHz CPU的服務(wù)器上進(jìn)行的,內(nèi)存大小為48 GB,GPU 型號(hào)為NVIDIA Tesla V100,Linux環(huán)境為CentOS 6.8, 選擇PyTorch框架和Python語言搭建深度學(xué)習(xí)環(huán)境。在該模型上訓(xùn)練了110個(gè)epoch,選擇Adam作為模型的優(yōu)化器。對(duì)于NYT數(shù)據(jù)集batch size大小設(shè)置為64,WebNLG數(shù)據(jù)集batch size大小設(shè)置為6。設(shè)置解碼器的學(xué)習(xí)速率為0.001,語法矩陣的λ值為0.6,實(shí)體抽取模塊和關(guān)系抽取模塊的閾值都是0.5,詞性過濾矩陣的閾值為0.4,編碼器的學(xué)習(xí)率為1×10-5。
NYT數(shù)據(jù)集匯集了來自其語料庫的文本,其中包括118萬條句子和24個(gè)預(yù)設(shè)的關(guān)系分類。WebNLG是一個(gè)更為復(fù)雜的數(shù)據(jù)集,其數(shù)據(jù)量相對(duì)較少,但關(guān)系類別卻更為豐富。該數(shù)據(jù)集中有5 000條普通文本句子和246個(gè)關(guān)系類別。此數(shù)據(jù)集為不同算法提供了2種標(biāo)簽格式(NYT*、WebNLG*),為了得到更全面的評(píng)估,本文針對(duì)這兩種標(biāo)簽格式進(jìn)行了實(shí)驗(yàn)。
使用LoRA[23]技術(shù)對(duì)LLaMA模型進(jìn)行訓(xùn)練微調(diào)。LoRA會(huì)凍結(jié)原模型 LLaMA 參數(shù),通過往模型中加入額外的網(wǎng)絡(luò)層,達(dá)到只訓(xùn)練這些新增網(wǎng)絡(luò)層參數(shù)的能力。其中,lr=0.003,LoRAR=8,LoRA Alpha為16, LoRA Dropout為0.05。
將微調(diào)之后的LLaMA與T5small[21]、T5-base[24]、Roberta[25]、Albert[26]、BERT[17]、LLaMA進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同大語言模型作為編碼器的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different large-language models as encoders %
評(píng)估結(jié)果表明,在普通文本NYT和WebNLG數(shù)據(jù)集上,微調(diào)之后的LLaMA模型在準(zhǔn)確率、召回率和F1值得分方面都取得了最高的性能。與原始的LLaMA模型相比,微調(diào)之后的模型可以提供更好的指標(biāo),驗(yàn)證了對(duì)大模型微調(diào)訓(xùn)練的有效性。
為了驗(yàn)證模型大小對(duì)關(guān)系提取任務(wù)的影響,實(shí)驗(yàn)分別部署了T5small(6 000萬個(gè)參數(shù))和T5-base(2.2億個(gè)參數(shù))??梢钥闯?更大的T5模型并沒有提供更高的性能。這表明更大的模型尺寸并不一定會(huì)轉(zhuǎn)化為更好的結(jié)果。
為了驗(yàn)證詞性過濾矩陣中的名詞λ取何值時(shí),模型能夠取得最優(yōu)的結(jié)果,在NYT數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示。橫坐標(biāo)為λ的取值,縱坐標(biāo)為F1值,當(dāng)λ的取值為0.6時(shí)模型能夠達(dá)到最優(yōu)的效果。
圖2 在NYT數(shù)據(jù)集上不同λ值的F1值結(jié)果Fig.2 F1 value results of different λ values on NYT dataset
進(jìn)一步驗(yàn)證不同的分詞工具對(duì)于模型的影響,本節(jié)設(shè)計(jì)了NLTK[27]、spaCy[28]和StanfordNLP分詞工具的對(duì)比實(shí)驗(yàn)。NLTK是一個(gè)廣泛使用的Python自然語言處理工具庫;spaCy是世界上最快的工業(yè)級(jí)自然語言處理工具,支持多種自然語言處理基本功能。表3是算法在不同分詞工具上的F1值,可以看出這3種工具對(duì)于模型結(jié)果的影響并不大,說明模型的效果并不依賴于特定的分詞工具。
表3 本文算法在不同分詞工具上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of this algorithm on different word segmentation tools %
表4顯示了本文模型在這2個(gè)數(shù)據(jù)集上與其他基線模型的比較,加粗表示性能最優(yōu)。除少量的準(zhǔn)確率或召回率略低于PRGC模型外,本文模型在4個(gè)數(shù)據(jù)集上都獲取了最高的F1值。該模型在WebNLG和WebNLG*數(shù)據(jù)集上 F1值相較PRGC模型分別提高了 1.9和0.2個(gè)百分點(diǎn),在 NYT 和NYT*數(shù)據(jù)集上 F1 值分別有0.4和0.1個(gè)百分點(diǎn)的提升。
表4 本文模型在NYT、WebNLG、NYT*和WebNLG*數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of this model on NYT, WebNLG, NYT* and WebNLG* datasets %
獲得句子中的多個(gè)重疊實(shí)體是具有挑戰(zhàn)性的提取任務(wù),多個(gè)實(shí)體情況指的是多個(gè)實(shí)體三元組出現(xiàn)在同一句子中。實(shí)體重疊可以分為3種類型:一對(duì)一正常類(OO),實(shí)體對(duì)重疊類(EPO)和單個(gè)實(shí)體重疊類(SEO)。一對(duì)一是指與一個(gè)實(shí)體只和另一個(gè)實(shí)體匹配,并且這個(gè)實(shí)體對(duì)只有一種關(guān)系。實(shí)體對(duì)重疊是指一個(gè)實(shí)體與多個(gè)實(shí)體具有關(guān)系,單個(gè)實(shí)體重疊是指一個(gè)實(shí)體和另一個(gè)實(shí)體具有多個(gè)關(guān)系。
首先對(duì)多實(shí)體情景進(jìn)行評(píng)估,評(píng)估具有1~4個(gè)或更多三元組的句子。其中N表示句子中實(shí)體三元組的數(shù)量。評(píng)價(jià)結(jié)果如表5所示,在普通文本數(shù)據(jù)集(NYT和WebNLG)上的F1值都超過了90%。即使是在復(fù)雜場(chǎng)景N≥4時(shí),本文算法也能夠提供穩(wěn)定的F1值,其中,NYT的得分表現(xiàn)為92.9%,WebNLG為93.7%,NYT*為92.6%,WebNLG*為92.8%,表明算法處理多實(shí)體句子的有效性。
表5 本文算法在復(fù)雜三元組場(chǎng)景下的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of this algorithm in complex triple scenarios %
在第2個(gè)評(píng)估中考察了3個(gè)不同方面的實(shí)體重疊場(chǎng)景。表5顯示本文算法在簡(jiǎn)單的時(shí)間內(nèi)達(dá)到了很高的精度,在一對(duì)一匹配場(chǎng)景時(shí),NYT上F1值為92.9%,WebNLG為92.2%。算法在NYT和WebNLG數(shù)據(jù)集上的任何場(chǎng)景中都能獲得90%以上的F1值,表明算法具有處理復(fù)雜場(chǎng)景的能力。
本節(jié)進(jìn)行了一組消融實(shí)驗(yàn)證明算法核心組件的有效性。算法由3個(gè)核心部分組成:關(guān)系抽取模塊、實(shí)體抽取模塊和詞性過濾矩陣模塊。實(shí)驗(yàn)結(jié)果如圖3、圖4所示。圖中的Rel、Ent和FL分別表示關(guān)系抽取模塊、實(shí)體抽取模塊、詞性過濾矩陣模塊。圖3是在WebNLG數(shù)據(jù)集上的實(shí)驗(yàn),可以看出,將3個(gè)模塊相結(jié)合的模型達(dá)到最佳性能。類似的情況也可以在圖4 NYT數(shù)據(jù)集中看到。
圖3 本文算法在WebNLG數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.3 Ablation experimental results of this algorithm on WebNLG dataset
圖4 本文算法在NYT數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Fig.4 Ablation experimental results of this algorithm on NYT dataset
本文提出一種新的端到端關(guān)系抽取結(jié)構(gòu),該結(jié)構(gòu)利用大語言模型的能力來自動(dòng)學(xué)習(xí)關(guān)系的語義特征。首先在提取關(guān)系的基礎(chǔ)上使用自注意力機(jī)制來增強(qiáng)實(shí)體對(duì)之間的關(guān)聯(lián)程度,增強(qiáng)關(guān)系和實(shí)體之間的信息共享,然后使用平均池化泛化到整個(gè)句子中。針對(duì)實(shí)體對(duì)設(shè)計(jì)一個(gè)過濾矩陣,并引入詞性信息進(jìn)行語義增強(qiáng),根據(jù)過濾矩陣中實(shí)體對(duì)的相關(guān)性過濾掉無效的三元組。實(shí)驗(yàn)結(jié)果表明,本文算法在NYT和WebNLG數(shù)據(jù)集上的F1值分別為93.1%和90.4%。下一步的工作包括3個(gè)方面:將在更多樣化的數(shù)據(jù)集上進(jìn)一步驗(yàn)證本文提出的算法;下游任務(wù)如知識(shí)圖譜的構(gòu)建,可以使用本文的技術(shù)進(jìn)行開發(fā);部署一個(gè)具有6億個(gè)參數(shù)的大語言模型。