張明芳,余正濤,郭軍軍,高盛祥,線巖團
(昆明理工大學 1.信息工程與自動化學院;2.云南省人工智能重點試驗室,云南 昆明 650500)
涉案新聞實體關(guān)系抽取作為司法領(lǐng)域信息抽取[1]的重要組成部分,是構(gòu)建案件知識圖譜的基礎(chǔ)。相比通用領(lǐng)域,涉案新聞中的實體是指被告人、被害人和作案地點等與案件相關(guān)的人名、地名、機構(gòu)名,關(guān)系是這些實體之間的相互聯(lián)系,比如被告人和被害人之間的關(guān)系定義為“被告人-被害人”。在涉案新聞句級文本中,普遍存在多個關(guān)系,并且不同關(guān)系的關(guān)聯(lián)實體有重復(fù),這類關(guān)系被稱作重疊實體關(guān)系。例如圖1所示,句子中有“被告人-被害人”和“被告人-作案地點”兩個關(guān)系,“程華”是關(guān)系“被告人-被害人”的源實體,也是關(guān)系“被告人-作案地點”的源實體。準確抽取出重疊實體關(guān)系,是涉案新聞實體關(guān)系抽取研究的難點。
針對重疊實體關(guān)系抽取任務(wù),Zeng等[2]提出基于復(fù)制機制的端到端模型,解碼器從源句復(fù)制實體詞,不同的實體關(guān)系三元組由不同的解碼器生成。Takanobu等[3]提出一種通過定位關(guān)系指示符來抽取重疊實體關(guān)系的方法。關(guān)系指示符是指句子中的一個位置,在這個位置有足夠的信息來識別語義關(guān)系,并依照該語義關(guān)系識別相關(guān)聯(lián)的實體對。
從以上分析可知,重疊實體關(guān)系抽取的效果依賴于是否準確定位關(guān)系指示符。在涉案新聞中,存在誤導定位關(guān)系指示符的干擾詞,且預(yù)測罪名的關(guān)鍵詞是定位關(guān)系指示符的重要依據(jù)。因此融入罪名信息可以使模型在定位關(guān)系指示符時增強對關(guān)鍵詞的敏感性,進而減少干擾詞所帶來的影響。例如圖1所示,干擾詞“騷擾”和“辱罵短信”將關(guān)系“被告人-被害人”的指示符定位為“辱罵短信”之后的“,”,并錯誤抽取出源實體“劉興榮”和目標實體“程華”?!按騻笔穷A(yù)測罪名“故意傷害罪”的關(guān)鍵詞,同時也是正確定位關(guān)系“被告人-被害人”的指示符的重要依據(jù),因此在抽取重疊實體關(guān)系時引入“故意傷害罪”能夠指導模型將“被告人-被害人”關(guān)系的指示符準確定位到“打傷”之后的“?!蔽恢?并正確識別出關(guān)系對應(yīng)的源實體“程華”和目標實體“劉興榮”。
圖1 重疊實體關(guān)系及罪名與實體關(guān)系之間的聯(lián)系舉例
基于以上分析,本文提出一種聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取方法,使用罪名預(yù)測的結(jié)果指導重疊實體關(guān)系抽取。為了緩解因聯(lián)合罪名預(yù)測而對重疊實體關(guān)系抽取帶來的錯誤傳播,本文使用了一種分層級聯(lián)的強化學習機制,將罪名預(yù)測和重疊實體關(guān)系抽取視為兩個交互的強化學習任務(wù),并將重疊實體關(guān)系抽取任務(wù)分為關(guān)系抽取主任務(wù)和實體識別輔任務(wù),輔任務(wù)服務(wù)于主任務(wù)。罪名首先指導主任務(wù)抽取出關(guān)系,然后指導輔任務(wù)依照該關(guān)系識別關(guān)系的關(guān)聯(lián)實體對,并將輔任務(wù)的結(jié)果視為主任務(wù)關(guān)系抽取的驗證,不同關(guān)系的實體識別輔任務(wù)相互獨立,有效抽取重疊實體關(guān)系。完成重疊實體關(guān)系抽取后,將結(jié)果反饋給罪名預(yù)測任務(wù)優(yōu)化罪名預(yù)測的強化學習策略。
命名實體識別[4]和關(guān)系分類[5]是構(gòu)建知識圖譜[6]的重要組成步驟,對許多自然語言處理任務(wù)都有幫助,目前有流水線和聯(lián)合學習兩種主要框架。
流水線抽取方式[7]是將實體關(guān)系抽取模型分為命名實體識別和關(guān)系分類兩個獨立的子任務(wù),首先在文本中檢測實體,然后發(fā)現(xiàn)實體之間的關(guān)系[8]。流水線方式雖然靈活,但下游任務(wù)容易受到上游任務(wù)錯誤傳遞的影響[9],并且未考慮兩個任務(wù)之間的內(nèi)在聯(lián)系和依賴關(guān)系。
聯(lián)合學習抽取方式包括共享參數(shù)[10]和聯(lián)合解碼[11]兩類聯(lián)合抽取模型。共享參數(shù)的聯(lián)合抽取模型通過共享參數(shù)實現(xiàn)聯(lián)合,例如Miwa等[12]提出首先檢測實體,然后檢測實體之間的關(guān)系,并使用實體和關(guān)系標簽共同對神經(jīng)網(wǎng)絡(luò)參數(shù)進行解碼更新。共享參數(shù)的聯(lián)合抽取模型對子模型沒有限制,但由于使用獨立的解碼算法,導致實體模型和關(guān)系模型之間交互不強。聯(lián)合解碼的抽取模型通過共享解碼實現(xiàn)聯(lián)合,加強了實體模型和關(guān)系模型的交互,需要在子模型特征的豐富性以及解碼的精確性之間做權(quán)衡。例如,Dai等[13]提出一種根據(jù)查詢詞位置P標記實體和關(guān)系的標簽的方法,實體識別和關(guān)系抽取共享同一個模型;Zheng等[14]將聯(lián)合抽取任務(wù)轉(zhuǎn)化為標簽問題,然后基于該標簽問題研究了不同端到端模型來直接抽取實體及其關(guān)系。聯(lián)合學習的方法將兩個子模型統(tǒng)一建模,因此可以進一步利用兩個任務(wù)之間的潛在信息[15,16],以緩解流水線方法錯誤傳播的缺點。
強化學習在實體關(guān)系抽取任務(wù)中得到廣泛的應(yīng)用,例如,Feng等[17]針對遠程監(jiān)督獲得的訓練數(shù)據(jù)噪聲大的問題,使用通過強化學習訓練的實例選擇器對數(shù)據(jù)去噪,在進行關(guān)系分類。Qin等[18]在遠程監(jiān)督關(guān)系抽取中,通過強化學習,將假正例樣本重新分配到負例樣本中。
在目前已有的實體關(guān)系抽取研究中,大部分只關(guān)注實體之間的單關(guān)系抽取,而涉案新聞句級文本中普遍存在重疊實體關(guān)系。因此,本文將實體識別看做是關(guān)系抽取的驗證,提出聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取方法,罪名不僅幫助檢測關(guān)系指示符,還指導識別關(guān)系的關(guān)聯(lián)實體。
本文提出聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取方法,將罪名預(yù)測和重疊實體關(guān)系抽取視為兩層交互的強化學習模型,并將重疊實體關(guān)系抽取層分為關(guān)系抽取的主模塊和實體識別的輔模塊。罪名預(yù)測層預(yù)測出的罪名指導重疊實體關(guān)系抽取層主模塊檢測關(guān)系指示符預(yù)測關(guān)系,每預(yù)測到一個關(guān)系,啟動輔模塊依照關(guān)系以罪名作為指導,識別關(guān)系的關(guān)聯(lián)實體對。將輔模塊的實體識別結(jié)果反饋給主模塊作為關(guān)系的驗證,不同時刻預(yù)測出的關(guān)系的實體識別輔模塊相互獨立,有效處理重疊實體關(guān)系。當重疊實體關(guān)系抽取任務(wù)完成,將結(jié)果反饋給罪名預(yù)測層優(yōu)化罪名預(yù)測的強化學習策略。
模型框架如圖2所示,Agent首先在罪名預(yù)測層通過掃描整個文本預(yù)測出罪名c。
圖2 模型整體框架圖
罪名c指導重疊實體關(guān)系抽取層的關(guān)系抽取主模塊逐字掃描句子在一個特定位置定位關(guān)系指示符預(yù)測關(guān)系類型,這種關(guān)系抽取方法不同于關(guān)系分類,不需要對實體進行標注,可以理解為尋找足夠的信息預(yù)測關(guān)系類型。當某時間步驟t找到足夠的信息確定一個關(guān)系ot時,Agent依照ot以罪名c指導輔模塊啟動實體識別任務(wù),可以看作是為文本逐字打標簽,根據(jù)標簽(α1,α2,…,αL)即可知道關(guān)系ot所對應(yīng)的關(guān)聯(lián)實體對,并將結(jié)果反饋給主模塊,主模塊通過將該結(jié)果用作關(guān)系抽取的驗證進而優(yōu)化關(guān)系抽取強化學習策略。當實體識別輔任務(wù)完成,Agent返回到主模塊從當前位置開始掃描抽取下一個關(guān)系,并觸發(fā)下一個實體識別輔任務(wù),不同時間步驟預(yù)測出的關(guān)系的實體識別輔任務(wù)相互獨立,當主模塊掃描到句末,結(jié)束整個句子的重疊實體關(guān)系抽取。并將重疊實體關(guān)系抽取層主模塊抽取出的關(guān)系和輔模塊識別出的實體反饋給罪名預(yù)測層優(yōu)化罪名預(yù)測強化學習策略。圖中虛線箭頭代表強化學習的反饋機制,r代表與反饋機制相關(guān)的獎勵,下文將分別詳細介紹。
聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取模型如圖3所示,下文將詳細介紹模型的實現(xiàn)過程。
圖3 聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取模型
(1)狀態(tài)。狀態(tài)S由整個文本的隱狀態(tài)H最大池化后經(jīng)過非線性激活函數(shù)得到。將其表示為
(1)
(2)
(3)
(4)
H=(h1,h2,h3,…,hL)
(5)
(2)選項。選項c從ε={NC}∪C中選擇,NC代表無罪名,C是罪名的集合。不管Agent做何選擇,都立即被接管到重疊實體關(guān)系抽取層執(zhí)行相關(guān)任務(wù)。
(3)策略。罪名預(yù)測的隨機策略λ:S→c,用于指定選項的概率分布,最后根據(jù)該概率分布選擇概率最大的選項c作為強化學習的動作
c~λ(c|S)=softmax (WλS)
(6)
式中:S為狀態(tài),c為預(yù)測出的罪名,Wλ為可學習參數(shù)。
(4)獎勵。Agent提供標量中間獎勵來估計罪名c未來的回報,并通過最大化預(yù)期累積獎勵來優(yōu)化策略函數(shù)λ,獎勵計算如下
(7)
(8)
(9)
在重疊實體關(guān)系抽取層,目的是從涉案新聞句級文本中抽取出包括重疊實體關(guān)系在內(nèi)的所有實體關(guān)系。本文通過聯(lián)合罪名預(yù)測和將實體識別看做關(guān)系抽取的驗證,優(yōu)化了關(guān)系抽取主模塊策略,進而有效解決重疊實體關(guān)系抽取問題。Agent以罪名作為指導,掃描句子在適當位置預(yù)測關(guān)系,當時間步驟t預(yù)測出一個關(guān)系后,Agent啟動實體識別輔模塊依照關(guān)系并以罪名作為指導為每一個字打標簽,并將標簽結(jié)果反饋給關(guān)系抽取主模塊驗證關(guān)系的合理性。完成輔任務(wù)后,Agent又被接管到關(guān)系抽取主模塊進行下一時間步驟的關(guān)系預(yù)測。不同時間步驟預(yù)測到的關(guān)系的實體識別任務(wù)相互獨立,使一個實體可以被多次識別,有效抽取重疊實體關(guān)系。下文將分別介紹關(guān)系抽取主模塊和實體識別輔模塊。
2.2.1 關(guān)系抽取主模塊
(10)
(2)選項。選項ot在集合?={NR}∪R中選擇,其中,NR代表不存在關(guān)系,R代表定義的關(guān)系集合。在某個時間步驟,如果沒有足夠的信息表明一個關(guān)系存在時,Agent選擇NR。否則確定一個關(guān)系并觸發(fā)實體識別輔任務(wù),當實體識別任務(wù)完成,Agent繼續(xù)被關(guān)系抽取模塊接管去執(zhí)行下一個選項,直到句末。
(11)
(4)獎勵。關(guān)系抽取模塊提供給Agent的t時刻的關(guān)系抽取層自身的獎勵,由該時刻預(yù)測出的關(guān)系與金標注比較得到。計算如下
(12)
涉案新聞句級文本普遍為含有兩個重疊實體關(guān)系的數(shù)據(jù),且訓練模型時不使用沒有關(guān)系的數(shù)據(jù),因此,通過經(jīng)驗設(shè)計了如上獎勵參數(shù)。本文認為當關(guān)系名稱預(yù)測正確且關(guān)系對應(yīng)的原實體和目標實體的開始位置定位準確,則正確抽取出一個關(guān)系。最后用一個最終獎勵來評價一個句子的抽取效果
(13)
式中:ST指一個句子所有時間步驟的實體關(guān)系抽取模塊狀態(tài)集合。Fβ(ST)是指整個句子重疊實體關(guān)系抽取的精度p和回收率r加權(quán)平均值,β指權(quán)重,取0.1。
2.2.2 實體識別輔模塊
(14)
(2)選項。每一個時間步的選項是為當前字分配對應(yīng)的標簽,標簽包括A=({S,T,O}×{B,I})∪{N},其中S和T分別代表與關(guān)系相關(guān)聯(lián)的源實體與目標實體,O代表與該關(guān)系無關(guān)的實體,N代表非實體字,B和I分別代表實體的開頭字與非開頭字。同一實體可以根據(jù)目前所涉及的不同關(guān)系類型分配不同的標記,因此可以處理重疊實體關(guān)系。有關(guān)示例,請參見圖4。
圖4 實體標簽示例
o
t′
a
t
(15)
式中:Wπ[ot′]為關(guān)系ot′對應(yīng)的關(guān)聯(lián)實體標簽預(yù)測時softmax分類的可學習參數(shù)。
(4)獎勵。由罪名預(yù)測層預(yù)測的罪名和主模塊抽取的關(guān)系,Agent通過該模塊策略采樣,得到每個字的實體標簽。因此,在對動作進行采樣時,通過將采樣結(jié)果和金標注進行比較提供即時獎勵
(16)
式中:sgn(·)為符號函數(shù),yt為關(guān)系o的金標準實體標注。這里,Φ(yt)為非實體標記的向下偏置權(quán)重函數(shù),定義如下
(17)
(18)
式中:T為該罪名所指導的關(guān)系抽取主任務(wù)的總時間步長,T′為該罪名指導下的基于當前關(guān)系的實體識別輔任務(wù)的總時間步長。
為了優(yōu)化重疊實體關(guān)系抽取層關(guān)系抽取主模塊的強化學習策略μ,本文的目標是最大化當前時間步驟t,Agent遵循策略μ的動作的預(yù)期累積回報J(θμ),計算如下
(19)
類似地,當Agent在關(guān)系抽取模塊抽取出一個關(guān)系ot后,沿著實體識別輔模塊策略π采樣時,通過最大化當前時間步驟t′遵循策略π的預(yù)期累積回報J(θπ)來優(yōu)化實體識別強化學習策略π
(20)
通過將未來預(yù)期累積獎勵分別分解為貝爾曼方程,得到三個任務(wù)的當前期望最大獎勵分別為
(21)
然后使用策略梯度方法去分別優(yōu)化每一個模塊的策略。利用似然比技巧,罪名預(yù)測層、關(guān)系抽取主模塊、實體識別輔模塊的策略梯度分別為
(22)
本試驗使用的語料來自于各司法新聞網(wǎng)站,將語料爬取下來清洗過后進行分句,對句子進行人工標注,標記出罪名、關(guān)系以及關(guān)系的實體對,最后得到22 860條數(shù)據(jù),數(shù)據(jù)匯總?cè)绫?所示。
表1 試驗語料統(tǒng)計
隨機抽取80%作為訓練集,10%作為開發(fā)集,10%作為測試集。為了保證數(shù)據(jù)的均衡,三種數(shù)據(jù)集關(guān)系量和數(shù)據(jù)量的比例基本一致。
本文定義了無罪和和涉案新聞中最常見的3種罪名,涉案新聞中對構(gòu)建案件知識圖譜有意義的7種實體關(guān)系,如表2和表3所示。
表2 罪名類別數(shù)量統(tǒng)計
所有超參數(shù)都在開發(fā)集上調(diào)優(yōu),所有狀態(tài)向量的維度均為300維,罪名向量、關(guān)系類型向量和實體標簽向量隨機初始化,優(yōu)化算法采用Adam算法,學習率取0.000 01,dropout系數(shù)取0.5,獎勵參數(shù)均由經(jīng)驗所得,訓練批次大小取16,測試批次大小取64,epoch取15。
本文使用準確率(p),召回率(r),F1值(F1_score)作為評價指標。其中,F1_score計算方式為
F1_score=2*p*r/(p+r)
(23)
當關(guān)系名稱預(yù)測正確,并且準確定位與關(guān)系相關(guān)聯(lián)的源實體和目標實體開始位置時,本文認為正確抽取出一個關(guān)系。
本文選擇了5個實體關(guān)系聯(lián)合抽取模型進行試驗對比,其中包括基于特征的方法CoType和神經(jīng)網(wǎng)絡(luò)的方法CopyR、Tagging、ATT+LSTM、SPTree。
CoType[19]:通過運行一種數(shù)據(jù)驅(qū)動的文本分割算法來提取實體提及,并同時將文本特征和類型標簽嵌入到兩個低維空間,分別用于實體提及和關(guān)系提及。
CopyR[2]:解決重疊實體關(guān)系抽取。提出一種基于復(fù)制機制的的端到端學習模型,可以從任意一個類的句子中聯(lián)合提取相關(guān)關(guān)系。在譯碼過程中,采用了兩種不同的譯碼策略:一種是聯(lián)合譯碼器,另一種是多個獨立譯碼器。
Tagging[14]:通過一種新的標注方案聯(lián)合提取實體和關(guān)系,將提取問題轉(zhuǎn)化為標注任務(wù)。并使用了具有偏置損失函數(shù)的端到端模型來適應(yīng)新標注模式,增強實體之間的關(guān)聯(lián)。
ATT+LSTM[20]:利用雙向長短期記憶網(wǎng)絡(luò)Bi-LSTM和詞向量級別attention神經(jīng)機制來捕捉句子中最重要的語義信息,可以自動聚焦于對分類有決定性影響的詞語,并將該句子級特征向量用于關(guān)系分類。
SPTree[12]:一種端到端神經(jīng)網(wǎng)絡(luò)模型,通過在雙向序列LSTM-RNNs上疊加雙向樹型結(jié)構(gòu)來捕獲單詞序列和依賴樹的子結(jié)構(gòu)信息。
為了驗證方法的有效性,本文做了以下4組試驗。(1)將本文模型和幾個模型進行比較,驗證了在普遍具有重疊實體關(guān)系的涉案新聞數(shù)據(jù)集中,本文模型具有很大優(yōu)勢;(2)進行消融試驗,驗證罪名分別從直接協(xié)助關(guān)系抽取和通過指導實體識別間接協(xié)助關(guān)系抽取兩方面有效提高重疊實體關(guān)系抽取的準確性,并且當同時作用于實體識別和關(guān)系抽取兩個模塊時取得最好效果;(3)進行罪名預(yù)測的準確性試驗,驗證重疊實體關(guān)系抽取層的反饋對罪名預(yù)測層有很大的促進作用;(4)列舉了3個輸入輸出實例,證明本文的方法可以處理多種場景下的問題。
試驗1:將不同的模型作用到涉案新聞數(shù)據(jù)集上,結(jié)果如表4所示。
表4 不同方法的試驗結(jié)果
分析表4可知,基于特征提取的方法CoType的F1值僅達到0.240,基于神經(jīng)網(wǎng)絡(luò)的方法普遍優(yōu)于基于特征提取的方法。本文模型F1值取得0.865的結(jié)果,高出ATT+LSTM、Tagging、SPTree各0.401、0.318、0.308。在涉案新聞數(shù)據(jù)集上,ATT+LSTM將句子級特征用于關(guān)系分類,每一個句子只能得到唯一一個關(guān)系。Tagging為實體分配唯一標簽,句子中的每一個實體僅被識別一次,因此只能抽取出實體沒有重復(fù)的關(guān)系。SPTree僅將一種關(guān)系與實體對配對,只能抽取出句子中唯一一個關(guān)系。CopyR在抽取重疊實體關(guān)系上取得了不錯的結(jié)果,但該方法強烈依賴標注過的噪聲訓練數(shù)據(jù),本文使用的涉案新聞數(shù)據(jù)集沒有對噪聲數(shù)據(jù)進行標注,F1值比本文模型低了0.281。本文模型得益于聯(lián)合罪名預(yù)測和以實體識別作為關(guān)系抽取的驗證的方法,在涉案新聞句級重疊實體關(guān)系抽取任務(wù)上達到了最優(yōu)的效果。
試驗2:消融試驗。本文分別將不聯(lián)合罪名預(yù)測、僅將罪名作用于關(guān)系抽取主模塊、僅將罪名作用于實體識別輔模塊、將罪名作用于關(guān)系抽取主模塊和實體識別輔模塊4個方法進行對比,對比結(jié)果如表5所示。
表5 消融試驗結(jié)果
分析表5可知,罪名分別對關(guān)系抽取和實體識別都有指導作用,當罪名只作用于關(guān)系抽取主任務(wù)時F1值為0.839,比不聯(lián)合罪名高出0.014,說明罪名有效幫助準確定位關(guān)系指示符。當罪名只作用于實體識別輔任務(wù)時F1值為0.852,比不聯(lián)合罪名高出0.027,罪名通過作用于實體識別輔任務(wù)進而協(xié)助關(guān)系抽取主任務(wù)的方法,比直接作用于關(guān)系抽取主任務(wù)效果更好,這不僅說明罪名對實體識別具有很大的指導作用,還說明本文使用的實體識別輔助關(guān)系抽取方法的有效性。當罪名不僅作用于關(guān)系抽取主任務(wù)還作用于實體識輔任務(wù)時達到最好的效果,此時F1值為0.865,比不聯(lián)合罪名預(yù)測高出0.04。
試驗3:罪名預(yù)測的準確率試驗。將不反饋重疊實體關(guān)系抽取層的結(jié)果、只反饋關(guān)系抽取模塊的結(jié)果、只反饋實體識別模塊的結(jié)果和同時反饋關(guān)系抽取模塊和實體識別模塊的結(jié)果4個試驗進行比較,試驗結(jié)果如表6所示。
表6 罪名預(yù)測結(jié)果試驗
分析表6可知,當不反饋重疊實體關(guān)系抽取的結(jié)果時,無延遲獎勵,此時F1值僅達到0.753。當僅反饋關(guān)系抽取結(jié)果時,只計算關(guān)系抽取模塊對于罪名預(yù)測的延遲獎勵,此時F1值為0.805比不反饋高出0.052。當僅反饋實體識別結(jié)果時,只計算實體識別對于罪名預(yù)測的延遲獎勵,此時F1值為0.778,比不反饋高出0.025。當反饋整個重疊實體關(guān)系抽取層抽取出的關(guān)系和實體時,不僅計算關(guān)系抽取對罪名預(yù)測的延遲獎勵,還計算了實體識別對罪名預(yù)測的延遲獎勵,此時F1值為0.811,比不反饋高出0.076。綜上所述,實體識別和關(guān)系抽取對罪名預(yù)測都有正反饋作用,當同時將兩者反饋給罪名預(yù)測層時,獲得最好效果。
試驗4:模型抽取結(jié)果示例。列舉了3個在不同場景下模型的抽取結(jié)果。證明罪名對實體識別和關(guān)系抽取的指導作用且模型能夠抽取重疊實體關(guān)系。
如表7所示,場景1,當存在“騷擾”和“辱罵短信”等對關(guān)系的關(guān)聯(lián)實體對識別產(chǎn)生誤導的信息時,罪名“故意傷害罪”可以幫助將“被告人-被害人”關(guān)系的關(guān)聯(lián)實體對定位到“打傷”附近,進而正確識別出來。場景2,當罪名預(yù)測與關(guān)系抽取共用相同的信息“偷走”等,罪名“盜竊罪”可以幫助更準確的定位“被告人-被害人”的關(guān)系指示符。場景3,盡管實體“羅某某”不僅是“被告人-被害人”關(guān)系的目標實體,還是“其他關(guān)系”的源實體,本文模型依然能將這兩個關(guān)系以及關(guān)系的關(guān)聯(lián)實體對正確抽取出來。
表7 模型抽取結(jié)果示例
針對涉案新聞中的重疊實體關(guān)系抽取任務(wù),本文提出一種聯(lián)合罪名預(yù)測的涉案新聞重疊實體關(guān)系抽取的方法,整體模型基于級聯(lián)強化學習,通過在重疊實體關(guān)系抽取中融入罪名,解決涉案新聞中關(guān)系指示符定位不準確問題,有效提高涉案新聞句級文本中重疊實體關(guān)系抽取的準確性。在未來工作中,基于涉案新聞的數(shù)據(jù)特點,將致力于解決涉案新聞篇章級的重疊實體關(guān)系抽取。