李智杰,韓瑞瑞,李昌華,張 頡,石昊琦
西安建筑科技大學 信息與控制工程學院,西安710055
知識圖譜[1]一詞在2012 年被Google 公司首次提出,它是一個結構化的語義知識庫,可以組織海量信息,用于描述客觀世界中的概念以及它們之間存在的關系。知識圖譜不僅在語義搜索、深度問答等通用領域發(fā)揮著重要作用,在金融、醫(yī)療、城市規(guī)劃等垂直領域中也有著廣闊的應用前景[2]。知識圖譜的構成單位是關系三元組,因此從非結構化文本中抽取出關系三元組對構建知識圖譜十分重要。
實體關系抽取任務的提出就是為了解決關系三元組抽取問題。例如,在句子“姚明出生于上海”中,可以提取出關系三元組(姚明,出生于,上海),其中“姚明”和“上?!狈謩e稱為頭實體和尾實體,“出生于”稱為這兩個實體之間的關系。實體關系抽取任務最初采用基于規(guī)則和模板的方法[3],由于人工和時間等因素的限制,逐漸發(fā)展為基于統(tǒng)計機器學習的方法[4]。近年來,由于深度學習發(fā)展迅速,基于深度學習構建實體關系抽取模型已成為信息抽取領域新的研究方向[5],這一方向認為抽取任務應被劃分為流水線方法和聯(lián)合學習方法,這兩種方法都基于卷積神經網絡(convolutional neural networks,CNN)、循環(huán)神經網絡(recurrent neural network,RNN)、長短時記憶網絡(long short-term memory,LSTM)這三種網絡架構進行組織和擴展[6]。流水線方法是在已經抽取出實體的基礎上,對每個實體對之間的關系進行分類的方法。雖然采用流水線的方式會使每個子任務更加集中,更容易解決問題,但兩個子任務之間的完全分離可能會遇到錯誤傳播問題,同時也忽略了它們之間的相互依賴性[7]。聯(lián)合學習方法是指在執(zhí)行兩個子任務時,使用同一個編碼層,聯(lián)合檢測實體及其關系。聯(lián)合學習方法能夠學習到實體和關系之間潛在的聯(lián)系,從而在兩個子任務中獲得更好的性能。
目前多數(shù)聯(lián)合抽取模型使用BERT(bidirectional encoder representations from transformers)[8]進行預訓練,它能為聯(lián)合模型提供一種通用的融合上下文信息的詞向量表示。隨著自然語言處理任務的發(fā)展,研究人員對BERT 進行了一系列改進,RoBERTa(robustly optimized BERT pretraining approach)[9]是其中一種變體,相比原生BERT,RoBERTa 預訓練模型使用了更多的數(shù)據(jù)集并且訓練得更加充分。盡管之前的實體關系抽取工作已經取得了很大的成功,但在以往的多數(shù)模型中,關系都被看作需要分配給實體對的離散標簽。事實上,在提取出的所有實體對之間,大多都沒有形成有效的關系,這導致了很多負樣本的產生。另外,如果沒有足夠的訓練樣本,分類器很難判斷實體參與的關系,導致重疊關系三元組提取不完整。因此,本文提出一種JPEA模型(joint model based on pre-trained encoder and attention mechanism)。本文的工作主要包括以下幾點:
(1)針對此前大多數(shù)實體關系抽取方法在語義特征表示和重疊關系提取方面的缺陷,提出了融合預訓練模型和注意力的聯(lián)合抽取模型JPEA。
(2)為了更準確地抽取出頭實體,將預訓練模型編碼的結果輸入BiLSTM 網絡和自注意力機制進行深層次特征提取,獲得更細粒度的語義。
(3)為了增強兩個標記模塊的依賴性,將提取的頭實體特征作為條件信息,利用CNN 和注意力模塊融合到句子特征向量中,為關系及尾實體的標記增強實體表達能力。
(4)分別在公開的數(shù)據(jù)集紐約時報(the New York Times,NYT)和WebNLG(Web natural language generation)上針對不同預訓練模型進行測試,實驗表明,不同預訓練模型下JPEA 模型的各項評價指標均有較好的表現(xiàn),F(xiàn)1值最高分別可達到92.4%和92.9%。
根據(jù)實體關系抽取的發(fā)展來看,該任務主要可以分為基于規(guī)則和模板的方法、基于統(tǒng)計機器學習的方法和基于深度學習的方法。
實體關系抽取任務最初通常采用基于規(guī)則和模板的方法[10],在該傳統(tǒng)方法中,語法和語義規(guī)則往往需要通過人工構造的方式獲取。這種方式有兩個明顯的缺點:(1)一般只有對特定領域有深入認知的人員才有資格手動編寫模板和規(guī)則,這會造成大量的人力和資源消耗;(2)手動制定的規(guī)則具有較差的可移植性,一般難以拓展到其他領域。
通過早期的相關研究結果可以發(fā)現(xiàn),以特征工程為核心的有監(jiān)督抽取方法是實施基于統(tǒng)計機器學習的抽取方法的主流[11]。這類方法雖然理論基礎已經趨于完善,但是仍然離不開人力的參與,適合用于模型訓練的特征集仍需要通過大量的特征工程人工篩選獲得。因此,近些年來學術界的研究重點轉向了半監(jiān)督和無監(jiān)督的抽取方法。Shinyama 等人[12]提出了搶占式信息提取的概念,其關鍵在于找到文本中多個實體之間的并行對應關系,并使用聚類的方式抽取信息。Carlson等人[13]提出的耦合分類和關系實例抽取器的半監(jiān)督學習方式,能夠預防與引導學習方法相關的語義漂移問題,提高抽取精度。Zhang等人[14]提出了基于MBL(memory-based learning)的統(tǒng)一框架,采用無監(jiān)督學習方法,實現(xiàn)了對實體間多元關系的精準識別。
近年來,人們提出了大量的深度神經網絡模型來完成實體關系抽取任務,基于深度學習的抽取方法主要采用CNN[15]、RNN[16]和LSTM[17]的變體或組合結構。Socher等人[18]首次在分類任務中引入RNN模型來全面處理詞向量空間中的組合性,句法樹中的每個節(jié)點會被分配到一個向量和一個矩陣,分別用來學習該處的詞向量和相鄰單詞或短語的含義,但是該模型沒有考慮實體對的位置信息。Zeng等人[19]首次把CNN 應用到關系分類任務中,詞匯和句子層面的特征均通過卷積深度神經網絡獲取,并提出位置特征來指定期望分配關系標簽的實體對。Cai等人[20]將CNN 和雙通道遞歸神經網絡與LSTM 單元相結合,同時沿SDP(the shortest dependency path)前向和后向學習具有方向信息的關系表。
上述研究所采用的模型都應用于流水線抽取任務中,近些年,研究人員開始致力于聯(lián)合抽取模型的研究。Miwa 等人[21]首次將LSTM-RNNs 神經網絡結構應用于聯(lián)合抽取任務。Zheng 等人[22]提出了一種新穎的標記方式,把聯(lián)合抽取問題建模為端到端的序列標注模型,但是該方法在重疊關系的識別上仍存在不足。Yu等人[23]將聯(lián)合抽取任務分解為相互關聯(lián)的兩個子任務,采用合理的分解策略,充分捕獲不同步驟之間的語義相關性。Wei 等人[24]打破了傳統(tǒng)的思路,從新的角度理解信息抽取任務,并提出了一個新的級聯(lián)二進制標記框架,著重處理重疊問題。但該框架抽取頭實體時對語義信息獲取不夠充分,且僅將抽取出的頭實體向量與各詞向量進行了簡單的拼接,忽略了頭實體和其他單詞之間的細粒度語義關系,存在特征丟失問題。因此,本文在此基礎上提出了一種融合預訓練模型和注意力的聯(lián)合抽取模型。
由于聯(lián)合抽取方法經常遇到關系重疊和實體嵌套的問題,無法對非結構化文本進行合理的抽取,甚至出現(xiàn)漏抽取的問題。另外,由于靜態(tài)編碼模型無法準確捕獲序列時序位置信息,常造成三元組抽取準確率偏低。針對此問題,采用預訓練模型動態(tài)編碼能夠有效表述句子序列內在特征的特點,并利用注意力機制捕獲頭實體信息,提出了一種融合預訓練模型和注意力的網絡模型用于聯(lián)合抽取實體關系三元組。
在之前的Seq2seq方法中,關系三元組抽取任務通常建模為式(1),即先抽取頭實體s,然后結合主實體抽取出對應的尾實體o,最后根據(jù)抽取出的實體對預測關系r。
本文提出的JPEA 模型將三元組抽取過程整體建模為式(2):
其中,x是輸入的句子,T是所有關系類型的集合。通過式(2)將三元組的抽取問題轉變?yōu)橹羔槝俗栴},這種建模方式允許模型一次提取出多個關系三元組:首先通過頭實體標記器檢測出句子中所有的實體,這些實體都是潛在的頭實體,即都有可能與其他實體構成關系三元組,然后針對每一個潛在的頭實體,通過關系及尾實體標記器來查找所有與該頭實體有關的關系和對應關系下的尾實體,若句子中不存在與該頭實體有相關關系的尾實體,則舍棄該頭實體,最終完整地抽取出句子中包含的三元組。
JPEA 模型通過預訓練模型編碼詞向量,采用自注意力機制和BiLSTM網絡結合來豐富語義特征,捕獲更重要的語義信息,再通過歸一化標記出所有頭實體;其次將多層CNN網絡與注意力機制融合,提取頭實體特征,計算每個頭實體相對于句子中每個詞向量的權重,并將加權后的頭實體特征與句子向量進行拼接,用于標記與每個頭實體之間存在合適關系的全部尾實體及正確的實體間關系。模型總體架構如圖1 所示,其中預訓練模型為RoBERTa,s_start和s_end 分別表示頭實體的起始和結束,o_start 和o_end分別表示尾實體的起始和結束,1/0標記表示該位置是否對應起始或結束位置。以圖中抽取出的第一個歌曲實體“All Too Well”為例,在“be_composed_by”和“be_sung_by”關系條件下對應的尾實體均為“Taylor Swift”,在其他的關系條件下沒有對應的尾實體,因此頭實體“All Too Well”可以抽取出(All Too Well,be_composed_by,Taylor Swift)和(All Too Well,be_sung_by,Taylor Swift)兩個三元組。
圖1 JPEA實體關系聯(lián)合抽取模型架構Fig. 1 JPEA entity relationship joint extraction model structure
傳統(tǒng)的文本編碼模型在語義表征能力上有所欠缺,而RoBERTa模型在大量訓練數(shù)據(jù)的基礎上,能夠準確高效地表達句子的潛在信息。RoBERTa是基于多層雙向Transformer 的語言表示模型,它通過對每個單詞的左右語境進行聯(lián)合訓練來學習深度表征,在許多下游任務中都有著高效的表現(xiàn),因此所提模型采用RoBERTa預訓練模型編碼句子向量。
JPEA模型的兩個實體標記模塊共享同一個編碼層,RoBERTa 模型從待分析句子序列中提取出語義特征,并將特征傳遞給兩個實體標記模塊。首先將輸入的文本序列表示成向量形式,對于處理后的文本序列中的第i個字符的向量表示如式(3)所示:
其中,Wtoken、Wseg、Wpos分別為token嵌入、分句嵌入和位置嵌入。然后通過RoBERTa模型對嵌入結果進行編碼,最后一層Transformer 輸出的值即是文本編碼的最終結果,如式(4)所示:
其中,E={e1,e2,…,en}為待處理文本序列的向量表示形式,n表示文本序列長度,X={x1,x2,…,xn}為經過RoBERTa編碼得到的具有上下文信息的句子向量。
傳統(tǒng)的循環(huán)神經網絡在處理時序數(shù)據(jù)時雖然不受數(shù)據(jù)長度的限制,但由于無法很好地捕獲反向語義,存在嚴重的信息丟失問題,無法準確描述句子特征。BiLSTM網絡是一種特殊的循環(huán)神經網絡,能夠實現(xiàn)從后往前編碼,通過利用句子中比較靠后的重要信息,能夠很好地捕捉雙向的語義依賴。故本模塊選取BiLSTM網絡對RoBERTa編碼層提取的句子向量進行進一步的特征表示。具體操作為:將向量矩陣X輸入BiLSTM網絡進行編碼,每一時刻t的輸入除了詞向量外還有上一時刻的輸出向量,每一時刻得到的輸出向量ht均為前向編碼向量和后向編碼向量拼接而成。上述過程如式(5)所示:
其中,xt表示t時刻輸入的詞向量。經過BiLSTM網絡編碼后得到的向量為H={h1,h2,…,hn}。
為了增強模型的辨別能力,研究人員通常會在神經網絡模型中加入自注意力機制,通過為輸入信息的每個部分賦予不同的權重,可以抽取出關鍵信息,使模型做出更加準確的判斷。自注意力機制的計算如式(6)所示:
其中,Q、K、V分別表示查詢矩陣、鍵矩陣和值矩陣,是鍵矩陣第一維度的平方根,用以維持梯度的穩(wěn)定。
自注意力機制不會增加模型的計算開銷和結構的復雜度,同時還可以有效彌補BiLSTM網絡在解決長距離依賴問題上的缺陷。根據(jù)上述原理描述,本模塊在BiLSTM層之后拼接一層自注意力網絡,根據(jù)上下文信息為每個詞向量訓練相應的權重,以更準確、完整地標記出頭實體。操作過程可描述為:Q、K、V通過參數(shù)矩陣WQ、WK、WV進行線性變換,再通過自注意力運算得到各個位置的注意力大小,最后經過線性變換得到更加豐富的語義信息,這里的Q、K、V為上一步的輸出向量H。如式(7)所示,M={m1,m2,…,mn}為經過自注意力層編碼后得到的結果。
頭實體標記器用來識別輸入句子中所有可能的頭實體,它是通過對特征加強層的輸出結果M進行解碼實現(xiàn)的。頭實體標記器由兩個相同且獨立的二進制分類器組成,可以通過為每個位置分配0/1標記來分別檢測頭實體的開始和結束位置。具體操作如下:
其中,mi是輸入句子中第i個單詞經特征加強層處理后的向量,和均表示第i個單詞向量經解碼層處理后的輸出值,兩個輸出值都是概率值。如果該值大于實驗設置的某一限定值,那么該單詞所在位置將被分配到標記1,否則將被分配到標記0??稍谀P陀柧毜倪^程中不斷調整參數(shù),為頭實體標記器確定一個最佳限定值,本文實驗在多次調整后將該限定值設為0.5。W(·)和b(·)分別表示訓練權重和偏置向量,s指代頭實體,σ代表sigmoid 激活函數(shù)。實驗設定采用指針對就近匹配原則解決一個句子中存在多個頭實體的問題,并且不考慮單詞的結束位置在開始位置前面的情況。
為了加強JPEA 模型的兩個實體標記模塊之間的依賴性,在抽取尾實體和實體對間關系之前,還需要對標記出的頭實體進行特征處理,但是將頭實體表示與句子向量進行簡單的拼接不能完整地表達特征信息。本文采用CNN與注意力機制進行頭實體與句子向量的融合。首先,獲取頭實體的起始和結束標記之間所有單詞的特征表示Xhead,將向量輸入到一個多層CNN網絡中學習實體級別的特征表示,使用最大池化操作得到最終的特征向量xhead,如式(10)所示:
本文認為,頭實體的特征對尾實體標記任務的影響主要與當前位置詞有關,于是在特征融合的過程中加入了注意力機制,如式(11)所示:
首先,將編碼層輸出的句子向量X與頭實體特征向量xhead做點積運算,運算結果即是注意力權重;其次,計算該權重與頭實體特征向量相乘的結果;最后,把加權的頭實體向量與當前位置的詞向量拼接在一起,經過特征融合后得到的向量為T={T1,T2,…,Tn}。
關系及尾實體標記器采用多層二進制分類器,在進行尾實體標記時,首先需要預定義若干種關系,關系的數(shù)量即為二進制分類器的層數(shù)。關系及尾實體標記器的輸入是融合了頭實體特征的句子向量T,在對向量T進行解碼時,對于所有可能的關系,標記器將同時為每個檢測到的頭實體標記出相應的尾實體。詳細操作如下:
Ti是第i個單詞的編碼向量經過特征融合后的向量表示,和均代表第i個融合向量經解碼層處理后的輸出值,兩個輸出值都是概率值,W(·)和b(·)分別表示關系條件下訓練的權重矩陣和偏置值,o指代尾實體,σ代表sigmoid激活函數(shù)。
本模型的損失函數(shù)可以表示為頭實體抽取損失和關系及尾實體抽取損失值的加和,因為兩個任務均采用二進制分類器,所以在模型中采用二分類交叉熵損失函數(shù)。具體可由式(14)表示:
其中,J={s_start,s_end,o_start,o_end},n代表句子的長度。表示句子中第i個單詞是實體的開始或結束位置的樣本標簽,表示二進制分類器預測開始或結束位置樣本標簽為正例的概率。
本文選擇在NYT和WebNLG兩個公開語料庫上進行實驗。NYT是摘自New York Times新聞文章的樣本,并由遠程監(jiān)督方法進行注釋,共包含56 195句用于訓練,5 000 句用于測試。WebNLG 起初被應用于自然語言構建任務,一些學者將其作為關系抽取的數(shù)據(jù)集進行應用,其包含5 019句用于訓練,703句用于測試。為了驗證本文提出的JPEA 模型在處理重疊關系問題上有更好的表現(xiàn),將句子類型劃分成三部分,分別為:正常(Normal)、實體對重疊(entity pair overlap,EPO)、單一實體重疊(single entity overlap,SEO)。具體劃分情況如表1所示。
表1 數(shù)據(jù)集統(tǒng)計Table 1 Statistics of datasets
實驗通過準確率(P)、召回率(R)和調和平均值(F1)三個指標來評估模型的效果,F(xiàn)1 為主要指標,各指標的計算公式如式(15)~(17)。
為了探究JPEA 模型各個改進模塊的效果,本文針對各個設計做了消融實驗,以展示通過BiLSTM與自注意力結合獲得語句特征表示、利用CNN 與注意力機制融合將頭實體特征融入句子向量這兩處設計對實驗的增益效果。
本文的所有實驗均在Windows 10 操作系統(tǒng)上完成,處理器為Intel?Core i7-10700K@3.80 GHz,顯卡為NVIDIAGeForce GTX3090Ti。使用的語言是python3.7,預訓練模型均使用Base 版本,模型的優(yōu)化器選擇Adam。模型的最優(yōu)參數(shù)設置如表2所示。
表2 模型參數(shù)值Tabel 2 Model parameter values
3.3.1 模型對比實驗分析
為了驗證JPEA 模型的優(yōu)越性,本文選取了幾個目前在重疊關系抽取方面表現(xiàn)較好的模型進行對比分析,基線模型的實驗結果直接摘自原始出版的論文。為了評估引入不同的預訓練模型對實體關系抽取任務性能的影響,進一步做了一系列對比實驗。JPEABERT代表預訓練模型改用BERT,JPEAALBERT表示編碼器采用ALBERT[25]預訓練模型,JPEAELECTRA表示在ELECTRA[26]預訓練模型的基礎之上實例化實體關系抽取框架。為了確保對比實驗結果的準確性,實驗對此類關系抽取模型采用相同的輸入,然后比較模型的實驗結果。對比情況如表3所示,其中加粗數(shù)字表示實驗結果的最優(yōu)值。
表3 不同模型在NYT和WebNLG數(shù)據(jù)集上的實驗結果Table 3 Experimental results of different models on NYT and WebNLG datasets 單位:%
對比表3 中的數(shù)據(jù)可以看出,在三個評價指標上,本文提出的JPEA模型及其變體均取得了較好的實驗結果,體現(xiàn)了模型的優(yōu)越性。CopyRE[27]在實體關系抽取過程中采用動態(tài)解碼的方式并首次嘗試解決重疊關系的抽取問題,但由于RNN 展開的固有限制,導致生成的三元組有限。GraphRel[28]在編碼的過程加入了GCN(graph convolutional networks),同時獲得句子序列和區(qū)域依存詞的特征,因此在兩個數(shù)據(jù)集上的實驗結果都有一定程度的提高。CopyRRL[29]在CopyRE模型的基礎上加入了強化學習,考慮了關系三元組的提取順序對抽取任務的影響,模型整體有著不錯的效果,但其采用的復制機制仍未解決實體復制不完整的問題。ETL-Span[23]模型將抽取任務分解為序列標記問題,在WebNLG 上的抽取結果有了很大程度的提升。CasRel[24]更是在此基礎上構造了一個全新的指針標注框架,抽取效果達到了領域內最優(yōu)。在NYT 和WebNLG 數(shù)據(jù)集上,JPEABERT模型的F1 與CasRel模型相比分別提高了1.5個百分點和0.5個百分點,說明對頭實體標記器的輸入向量做特征加強和對關系及尾實體標記器的輸入向量做實體級特征融合對提升模型的抽取效果有很大的貢獻。JPEA 的抽取性能優(yōu)于JPEABERT,其原因在于RoBERTa 采用了更多的數(shù)據(jù)進行訓練,可以更充分地學習句子的上下文信息。當編碼器采用ALBERT預訓練模型時,模型的整體表現(xiàn)相較于CasRel有微提升,但與JPEA相比存在差距。原因在于相較于BERT的其他變體來說,ALBERT 模型的參數(shù)大大減少,導致模型學習得不夠充分,不過參數(shù)的減少在一定程度上提升了訓練的速度。JPEAELECTRA模型在兩個數(shù)據(jù)集上的F1 值都達到了最佳,因為ELECTRA 模型的預訓練任務是替換標記檢測,這對模型學習能力的提升有一定程度的影響。圖2所示為JPEA模型在兩個公開數(shù)據(jù)集上訓練時損失函數(shù)的變化情況??梢钥闯鲭S著訓練周期的增長,損失值保持下降狀態(tài),最終均在第50 個訓練周期左右損失值降到最低,模型根據(jù)早停機制停止訓練。
圖2 訓練損失值Fig. 2 Training loss value
3.3.2 消融實驗分析
為了驗證BiLSTM 網絡結合自注意力機制提取特征和CNN 與注意力機制特征融合兩個模塊對JPEA 模型性能的增益作用,本文在兩個公開語料庫上進一步做了消融實驗,實驗結果如表4 所示。其中,JPEA-BAM 表示將經過編碼層得到的句子表征直接進行頭實體標記;JPEA-LAN表示將所有頭實體向量的平均值與句子的表征直接拼接。
表4 在兩個數(shù)據(jù)集上的消融實驗結果Table 4 Results of ablation experiments on two datasets 單位:%
對比實驗結果可以發(fā)現(xiàn),兩個模塊組件都對JPEA模型性能的提高作出了積極貢獻。JPEA-LAN模型性能在NYT數(shù)據(jù)集上下降了1.3個百分點,對模型的影響較大,這說明通過卷積神經網絡提取頭實體特征并利用注意力機制加權進行特征融合,可以有效地利用頭實體信息輔助尾實體及關系標注,忽略其他冗余信息,從而使最終抽取的三元組更加準確。JPEA-BAM 模型在兩個數(shù)據(jù)集上的F1 值與JPEA 模型均相差0.2個百分點,可以得出,結合BiLSTM網絡與自注意力機制進一步學習句子的內在特征,能夠獲得細粒度語義信息,更有利于頭實體的檢測。
3.3.3 重疊問題實驗分析
為了進一步驗證JPEA 模型解決重疊三元組問題的有效性,本文對Normal、EPO和SEO三種模式進行擴展實驗,并與基線模型進行對比,在兩個數(shù)據(jù)集上的F1值對比情況如圖3所示。
圖3 從不同模式的句子中抽取三元組的F1值Fig. 3 F1-score of extracting relational triples from sentences with different patterns
由圖3 可見,在兩個數(shù)據(jù)集上,JPEA 模型在三種不同模式下的F1 值均有很好且較為一致的表現(xiàn),尤其是在EPO 和SEO 兩種重疊模式下,F(xiàn)1 值有明顯的提高,說明本文所提出的模型在解決重疊關系三元組的提取問題上有優(yōu)異的表現(xiàn)。其次,可以觀察到大多數(shù)的基線模型在正常、EPO 和SEO 三種重疊模式下的抽取性能都呈現(xiàn)依次下降趨勢,也就是說,基線模型提取EPO 和SEO 兩種重疊模式的能力有所欠缺。而相比之下,JPEA 模型在三種重疊模式下的表現(xiàn)都不一般。這是因為這些基線模型的結構存在一定的缺陷,它們將實體對映射到關系或者選擇Sequence-to-Sequence的模型架構。將實體對映射到關系很容易產生冗余實體對問題,導致較高的錯誤率,難以高效解決關系重疊的問題。并且Sequence-to-Sequence模式設計復雜的解碼架構使得局部特征抽取不充分,導致抽取的三元組不夠完整。盡管CasRel模型對于重疊關系三元組的提取有著良好的表現(xiàn),但相較于JPEA 模型在處理復雜句子方面仍有不足。因為除了采用分層指針標注策略將頭實體映射到關系和尾實體上之外,RoBERTa模型改進了優(yōu)化函數(shù),使用了更大的數(shù)據(jù)集進行預訓練,更完整地提取語句的上下文信息,而BiLSTM網絡結合注意力機制更是對句子表征向量進行了深層次的學習。同時在尾實體及關系標記前利用CNN 和注意力機制進行頭實體特征與句子向量的融合,增強了JPEA 模型兩個模塊之間的依賴。綜上所述,JPEA 模型具有較強的處理復雜文本的能力,且在解決重疊關系三元組問題上有著良好的高效性。
本文基于預訓練模型提出了一種可以解決實體關系抽取過程中三元組重疊問題的JPEA 模型。該模型通過預訓練模型編碼得到包含上下文信息的句子向量,再將句子向量輸入BiLSTM網絡和自注意力機制得到更精確的句子級特征表示,在關系及尾實體標記任務之前添加特征融合層,利用CNN 和注意力機制將頭實體特征與句子向量融合,強化頭實體標記與關系及尾實體標記模塊之間的內在聯(lián)系。實驗結果表明,所提JPEA模型在重疊關系三元組的抽取任務中有著良好表現(xiàn),當選用不同的預訓練模型時,總體模型在兩個數(shù)據(jù)集上執(zhí)行的抽取工作都能取得不錯的結果,其中基于ELECTRA 模型的效果最佳。
本文所提模型雖然在抽取的準確率上有一定程度的提升,但是模型的穩(wěn)定性較差,一旦數(shù)據(jù)集中帶有錯誤標簽的樣本過多,JPEA 模型的性能就會受到影響并產生波動。因此,在后續(xù)的工作中如何進一步提升模型的性能、增強模型的穩(wěn)定性是亟需解決的主要問題。本文提出的模型目前主要針對公共數(shù)據(jù)集進行測試,而近年來隨著領域知識圖譜構建技術的發(fā)展,將實體關系抽取技術應用到垂直領域來構建領域知識圖譜變得更加有意義。特別地,結合城市規(guī)劃領域知識圖譜對規(guī)劃活動做決策提供輔助至關重要,因此接下來將會深入城市規(guī)劃領域對本模型進行改進,為城市規(guī)劃領域知識圖譜的構建及應用做好鋪墊工作。