王小鵬,孫媛媛,林鴻飛
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連 116024)
隨著智慧司法建設(shè)的推進(jìn),如何幫助辦案人員從海量的犯罪文書中獲取有用的信息成為了一項(xiàng)非常有意義的研究工作,司法領(lǐng)域的自然語言處理技術(shù)也因此受到了研究者的廣泛關(guān)注和重視,特別是對海量司法文書進(jìn)行智能分析和處理已成為司法人工智能研究的重要內(nèi)容。關(guān)系抽取作為信息挖掘的基礎(chǔ)性工作,不僅可實(shí)現(xiàn)司法信息的獲取,還在司法問答、刑期預(yù)判和司法知識(shí)圖譜構(gòu)建等任務(wù)中有重要應(yīng)用。
司法文書,是指司法機(jī)關(guān)制作的具有司法效力或司法意義的文書[1]。司法關(guān)系抽取則是在已知司法文書中具有司法屬性的名詞或短語實(shí)體基礎(chǔ)上,識(shí)別出實(shí)體之間的關(guān)系事實(shí),據(jù)此構(gòu)造三元組,如:[張三,攻擊關(guān)系,李四],“張三”“李四”是司法實(shí)體,他們之間的關(guān)系事實(shí)是攻擊關(guān)系。相較于通用領(lǐng)域的關(guān)系抽取研究,司法領(lǐng)域關(guān)系抽取面臨以下問題和挑戰(zhàn):
1)通用領(lǐng)域預(yù)訓(xùn)練語言模型在司法領(lǐng)域的應(yīng)用存在一定局限性。首先,司法文本是按照嚴(yán)格的模板進(jìn)行撰寫的,相較于通用語料庫(如維基百科語料),在文本結(jié)構(gòu)上存在較大差異;此外,通用語料庫和司法文本語料庫的詞分布并不相同,因此很難確保通用領(lǐng)域預(yù)訓(xùn)練語言模型在司法任務(wù)上的性能表現(xiàn)。
2)司法文書中,存在許多同一實(shí)體對應(yīng)多個(gè)關(guān)系的情況,這將嚴(yán)重混淆關(guān)系提取。如“被告人張三和被告人李四系鄰居。”描述中“張三”和“李四”從司法層次講是共犯關(guān)系,在社會(huì)層次中他們之間是鄰里關(guān)系。當(dāng)數(shù)據(jù)集中關(guān)系重疊較多時(shí),模型就很難清楚地識(shí)別出所有的關(guān)系標(biāo)簽?,F(xiàn)有關(guān)系抽取模型使用的MaxPooling[2]和詞級(jí)注意[3]等方法雖然可以很好地將低層級(jí)語義合并生成高層級(jí)關(guān)系表示向量,使得模型在單標(biāo)簽關(guān)系識(shí)別上表現(xiàn)優(yōu)異,但對于多重關(guān)系抽取,這種高層次的關(guān)系向量卻很難準(zhǔn)確地表達(dá)標(biāo)簽特征,進(jìn)而影響性能。
針對以上問題,本文提出了一種基于刑事Electra(Criminal-Efficiently learning an encoder that classifies token replacements accurately,CriElectra)的編-解碼關(guān)系抽取模型,解碼器由雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò)[4]和膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)[5]構(gòu)成,即CELCN(CriElectra-BiLSTM-CapsNet)。首先參考中文Electra[6]的訓(xùn)練方法,在一百多萬份刑事案件數(shù)據(jù)集上訓(xùn)練得到了CriElectra;然后在雙向長短期記憶網(wǎng)絡(luò)上加入CriElectra 的詞特征進(jìn)行中文文本的特征提?。蛔詈罄媚z囊網(wǎng)絡(luò)對特征信息進(jìn)行矢量聚類,實(shí)現(xiàn)實(shí)體間的關(guān)系抽取。本文在自行設(shè)計(jì)并構(gòu)建的故意傷害罪關(guān)系抽取數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),模型的F1 值可以達(dá)到79.88%,相較于其他基線方法,CELCN 可以取得非常不錯(cuò)的效果。本文的主要工作如下:
1)基于司法業(yè)務(wù)需求和罪名特點(diǎn),提出了一種側(cè)重于司法屬性和社會(huì)屬性的關(guān)系定義方案,并構(gòu)建了故意傷害罪的關(guān)系抽取數(shù)據(jù)集。
2)提出了基于百萬刑事數(shù)據(jù)的預(yù)訓(xùn)練語言模型CriElectra,該預(yù)訓(xùn)練語言模型能夠更有效地學(xué)習(xí)表示司法領(lǐng)域文書中的語義信息。
3)基于膠囊網(wǎng)絡(luò)進(jìn)行高維矢量空間的特征聚類,能夠有效地解決數(shù)據(jù)集中多標(biāo)簽關(guān)系的識(shí)別任務(wù)。
關(guān)系抽取一般可分為基于機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法?;跈C(jī)器學(xué)習(xí)的方法是以自然語言處理(Natural Language Processing,NLP)技術(shù)中的統(tǒng)計(jì)學(xué)語言模型為基礎(chǔ),從分類的角度研究關(guān)系抽取,即根據(jù)各種語言學(xué)特征識(shí)別實(shí)體對于每個(gè)標(biāo)簽的可能性,然后再通過基于統(tǒng)計(jì)模型的分類器進(jìn)行關(guān)系的分類[7]。這種方法可按照有無標(biāo)注好的數(shù)據(jù)集分為有監(jiān)督、無監(jiān)督和弱監(jiān)督三種方法,其中有監(jiān)督的方法是指所有數(shù)據(jù)集都是通過人工標(biāo)注形成的,該方法具有很高的準(zhǔn)確性,但過分依賴標(biāo)注的數(shù)據(jù)集,成本較大;無監(jiān)督方法不需要人工語料作為支撐,能自動(dòng)識(shí)別文本中三元組,因此在處理大規(guī)模數(shù)據(jù)語料時(shí)具有其他方法無法比擬的優(yōu)勢,但缺少人工標(biāo)注導(dǎo)致其準(zhǔn)確率和召回率較低;弱監(jiān)督的方法是指根據(jù)少量已標(biāo)注好的語料三元組,在未標(biāo)注的語料中發(fā)現(xiàn)新的三元組,進(jìn)而形成大規(guī)模的語料集,但由于噪聲等問題并未完全解決,其性能也受到了限制。基于深度學(xué)習(xí)關(guān)系抽取的方法,主要包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9]的方法以及二者相結(jié)合的方法[10]。在此基礎(chǔ)上,Lu 等[11]引 入PCNN(Piecewise Convolutional Neural Network)對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的池化層進(jìn)行改進(jìn),并使用句子級(jí)選擇注意力機(jī)制減輕錯(cuò)誤標(biāo)簽的影響,最終F1 值的結(jié)果比基于多示例學(xué)習(xí)的方法高了5%。Kiyavash 等[12]引入詞級(jí)別的注意力機(jī)制并結(jié)合BiLSTM 對文本進(jìn)行建模從而實(shí)現(xiàn)結(jié)果的提升。Luo 等[13]結(jié)合雙向GRU(Gate Recurrent Unit)和PCNN 模型實(shí)現(xiàn)對實(shí)體結(jié)構(gòu)等信息的提取,在NYT(New York Times)數(shù)據(jù)集上表現(xiàn)優(yōu)異。
近年來,針對預(yù)訓(xùn)練語言模型的研究發(fā)展迅猛,預(yù)訓(xùn)練語言模型是一種動(dòng)態(tài)詞向量表示方法,不同于靜態(tài)詞向量,該詞向量基于上下文信息表示單詞的語義知識(shí),能夠很好地解決一詞多義的問題。在預(yù)訓(xùn)練語言模型研究中,Peters等[14]提出的預(yù)訓(xùn)練語言模型ELMo(Embedding from Language Models),利用BiLSTM 不僅解決了長距離信息丟失問題,還可對詞在復(fù)雜特征(如句法和語義)和變化的語言語境下進(jìn)行建模。Devlin 等[15]提出自編碼語言模型BERT(Bidirectional Encoder Representation from Transformers),不同于GPT(Generative Pre-Training)[16]中單向的語義知識(shí)學(xué)習(xí),它通過Transformer 實(shí)現(xiàn)了對文本的雙向特征表示,并在11項(xiàng)自然語言處理任務(wù)中取得了最佳成績。Yang 等[17]提出了自回歸預(yù)訓(xùn)練模型XLNet(Transformer-XL Network),在多項(xiàng)自然語言處理任務(wù)中性能獲得了顯著的提升。在具體的任務(wù)應(yīng)用中,李妮等[18]、王子牛等[19]、尹學(xué)振等[20]、王月等[21]采用基于BERT 的模型分別對通用領(lǐng)域、軍事領(lǐng)域、警情領(lǐng)域命名實(shí)體的識(shí)別進(jìn)行了研究,實(shí)驗(yàn)結(jié)果均有不同程度的提高。但隨著預(yù)訓(xùn)練語言模型的進(jìn)一步發(fā)展,研究者發(fā)現(xiàn)由于文本結(jié)構(gòu)、詞分布的差異,開放領(lǐng)域的預(yù)訓(xùn)練模型在特定領(lǐng)域表現(xiàn)一般,于是Lee 等[22]提出了生物醫(yī)學(xué)領(lǐng)域的BioBERT(Biomedical BERT),實(shí)驗(yàn)結(jié)果表明,BioBERT 的F1值比BERT 高了2.8%;此外,2019 年清華大學(xué)公開了基于百萬刑事數(shù)據(jù)集和百萬民事數(shù)據(jù)集的刑事BERT 和民事BERT,從其公布的結(jié)果看,這兩種模型相較于通用BERT 可以在司法領(lǐng)域任務(wù)上實(shí)現(xiàn)快速的收斂。因此,特定領(lǐng)域語言模型的研究逐漸成為大家研究和探討的熱點(diǎn)。
為了改善CNN 和RNN 在特征學(xué)習(xí)過程中信息丟失問題,Hinton 等[23]首次提出了可自動(dòng)學(xué)習(xí)部分與整體之間關(guān)系的膠囊網(wǎng)絡(luò)。Sabour 等[5]基于膠囊網(wǎng)絡(luò)進(jìn)一步提出一種可識(shí)別高度重疊數(shù)字的動(dòng)態(tài)路由算法,該膠囊網(wǎng)絡(luò)算法在低層特征到高層特征的聚類過程中,不僅關(guān)注特征存在的可能性,還關(guān)注特征的空間分布信息,使模型獲取的信息更加全面,因此在圖像識(shí)別任務(wù)上取得了非常不錯(cuò)的效果。Hinton等[24]提出了一種基于EM(Expectation Maximization)算法的膠囊網(wǎng)絡(luò),該方法將一維向量膠囊改進(jìn)為二維向量膠囊,使得膠囊可以表示更多的特征信息。Zhang 等[25]將膠囊網(wǎng)絡(luò)引入關(guān)系抽取任務(wù)中,主要進(jìn)行了兩部分的工作:首先在動(dòng)態(tài)路由算法引進(jìn)注意力值;其次,在邊界損失函數(shù)中設(shè)置了可學(xué)習(xí)閾值參數(shù),從而優(yōu)化了整個(gè)算法模型,在多標(biāo)簽關(guān)系抽取數(shù)據(jù)集NYT-10 上,F(xiàn)1 值可以得到2%的提升。隨后,Zhang 等[26]將詞注意力機(jī)制與動(dòng)態(tài)路由結(jié)合,提出了Att-CapNet(Attentive Capsule Network)模型,進(jìn)一步改進(jìn)了膠囊網(wǎng)絡(luò),最近膠囊網(wǎng)絡(luò)也被逐漸應(yīng)用于文本分類[27]和疾病分類[28]等NLP 任務(wù),且都取得了很好的性能表現(xiàn)和提升。
CELCN 模型結(jié)構(gòu)如圖1 所示,包含三部分:基于CriElectra 的預(yù)訓(xùn)練層、基于BiLSTM 的特征提取層和基于CapsNet 的特征聚類層。該模型首先通過CriElectra 得到單個(gè)字符的動(dòng)態(tài)語義向量表示;然后把字符向量輸入到BiLSTM 模型,對其序列和層級(jí)建模以提取語義和結(jié)構(gòu)特征;接著通過CapsNet 對特征矩陣進(jìn)行矢量空間的特征聚類,形成高層膠囊,再根據(jù)高層膠囊的模長預(yù)測關(guān)系標(biāo)簽的可能性。
圖1 CELCN模型結(jié)構(gòu)Fig.1 Structure of CELCN model
2.1.1 訓(xùn)練CriElectra
BERT 在預(yù)訓(xùn)練語言模型領(lǐng)域取得了非常好的成就,但BERT 采用的MLM(Mask Language Model)預(yù)訓(xùn)練方式并不高效,它只有15%的Token 對參數(shù)的更新有用,其他的85%不參與梯度更新;除此之外,預(yù)訓(xùn)練階段與特征提取階段存在信息不匹配,因?yàn)橄掠稳蝿?wù)的特征提取階段,并不會(huì)出現(xiàn)“[Mask]”這個(gè)詞,而在上游預(yù)訓(xùn)練過程中卻使用“[Mask]”替換Token。于是Clark 等[6]基于對抗網(wǎng)絡(luò)設(shè)計(jì)了預(yù)訓(xùn)練模型Electra,該模型提出了RTD(Replace Token Detection)預(yù)訓(xùn)練任務(wù),與MLM 方式不同,RTD 的預(yù)訓(xùn)練目標(biāo)是學(xué)習(xí)區(qū)分輸入的詞是否被替換,盡管引入了“[Mask]”,但是在梯度傳播的過程中,模型還需關(guān)注有沒有發(fā)生過替換,因此降低了“[Mask]”的影響,在很大程度上緩解了MLM 引起的信息不匹配的負(fù)面影響。此外,由于RTD 在訓(xùn)練過程中全部Token會(huì)參與參數(shù)更新,因此Electra 訓(xùn)練速度更快,其實(shí)驗(yàn)結(jié)果還表明,在句對分類、閱讀理解等任務(wù)上的Electra 性能要優(yōu)于BERT,在自然語言推斷、句對分類任務(wù)上性能表現(xiàn)相當(dāng)。
基于Electra 訓(xùn)練更快、性能與BERT 相當(dāng)?shù)忍攸c(diǎn),本文基于中文Electra 提出了CriElectra,訓(xùn)練數(shù)據(jù)來源于中國裁判文書網(wǎng)公開的文書數(shù)據(jù),首先通過下載獲取百萬份刑事文書數(shù)據(jù),然后通過篩選形成100 多萬份刑事案件數(shù)據(jù)集,其中所涉罪名包括盜竊、涉毒、交通駕駛罪等10 類469 個(gè)刑事罪名,地域包含23 個(gè)省、5 個(gè)自治區(qū)、4 個(gè)直轄市。
CriElectra 訓(xùn)練示例如圖2 所示。
圖2 CriElectra訓(xùn)練示例Fig.2 CriElectra training example
給定輸入序列E={e1,e2,…,en},由生成器G 進(jìn)行MLM任務(wù)預(yù)測屏蔽詞,即隨機(jī)屏蔽輸入序列中的詞生成帶有“[MASK]”的序列,然后通過transformer 的結(jié)構(gòu)編碼器得到一組包含上下文信息的向量hG(E)=[hg1,hg2,…,hgn],再經(jīng)歸一化層預(yù)測屏蔽位置gt的詞,過程如下所示:
生成器訓(xùn)練過程中的損失函數(shù)如下:
判別器的目標(biāo)是判斷輸入序列中的詞是否發(fā)生替換,即將生成器得到序列D={d1,d2,…,dn}通過Transfomer 結(jié)構(gòu)的編碼器得到hD(E)=[hd1,hd2,…,hdn],再經(jīng)sigmoid 層輸出,過程如下所示:
其中dt∈dn,更具體地說,通過用生成器樣本替換屏蔽的標(biāo)記來創(chuàng)建一個(gè)損壞的示例Ecorrupt,并訓(xùn)練鑒別器來預(yù)測Ecorrupt中的哪些標(biāo)記與原始輸入E相匹配。判別器訓(xùn)練過程中的損失函數(shù)如下:
式(4)中:θG與θD分別為生成器和判別器的參數(shù);I(a=b)為判別函數(shù),當(dāng)滿足條件a=b時(shí),取1,不滿足時(shí)為0。CriElectra 訓(xùn)練通過最小化生成器和判別器的交叉熵?fù)p失函數(shù)進(jìn)行,具體可以表示為:
由于生成器的體積是判別器的1/4,為避免模型間損失失衡,因此使用λ=0.5 平衡生成器和判別器的損失。該模型Pytorch 和Tensorflow版本在之后將會(huì)開源(https://github.com/DUTIR-LegalIntelligence),供學(xué)者共同研究。
2.1.2 CriElectra應(yīng)用
CriElectra 預(yù)訓(xùn)練語言模型旨在讓下游任務(wù)模型能夠使用更好的司法文本的詞表示,文本中句子可以表示成字符的集合E={e1,e2,…,en},en表示句子中第n(n∈N)個(gè)字符。整個(gè)CriElectra 進(jìn)行向量矩陣轉(zhuǎn)化的過程可以表示為:
其中:E為輸入到模型的句子向量表示;X∈為模型輸出的CriElectra 向量矩陣,X可以具體表示為X={x1,x2,…,xn};θElectra為Electra 模型相關(guān)參數(shù)。
特征編碼層所使用的模型為雙向的長短期記憶模型BiLSTM,它是RNN 的一種變體,包含了一個(gè)門控記憶細(xì)胞來捕獲數(shù)據(jù)中的長期依賴關(guān)系,并能夠避免由標(biāo)準(zhǔn)RNN 引起的梯度消失和爆炸問題。雙向長短期記憶循環(huán)模型由兩個(gè)不同方向的長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)組成,兩個(gè)LSTM 分別從前向和后向?qū)W習(xí)單詞的上下文信息,再將二者拼接起來,作為當(dāng)前時(shí)刻的輸出。隱藏層狀態(tài)可以用式(9)~(11)描述:
本文中膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,將BiLSTM 提取的特征h分割到低層膠囊u∈中,為保證膠囊的模長和為1,經(jīng)非線性壓縮函數(shù)g得到每個(gè)低階膠囊utk,具體過程如下所示:
圖3 膠囊網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.3 Structure of capsule network model
式(12)、(13)中:[x;y]表示x和y垂直連接,‖‖表示計(jì)算向量的模長。通過動(dòng)態(tài)路由算法實(shí)現(xiàn)低層膠囊ui與高層膠囊Rj之間的信息傳遞,偽代碼如算法1 所示。其中,z為路由的迭代次數(shù)。
訓(xùn)練過程中,通過最小化高層膠囊的邊際損失實(shí)現(xiàn)訓(xùn)練。第j個(gè)高層膠囊的損失函數(shù)Lj為:
式(14)、(15)、(16)中:若句子的關(guān)系為Rj高層膠囊對應(yīng)的標(biāo)簽,則Yj值取1,否則取0;m+=0.9 為上邊界,m-=0.1 為下邊界;λ=0.5,模型的全部損失是所有高層分類膠囊損失之和。
算法1 動(dòng)態(tài)路由算法。
司法文本不同于其他領(lǐng)域文本,其每個(gè)罪名所涉及的概念與構(gòu)成、罪名認(rèn)定以及立案量刑的標(biāo)準(zhǔn)均不一致,所涉及的司法文書實(shí)體分布、業(yè)務(wù)也各有側(cè)重?;谝陨咸匦?,目前采用統(tǒng)一模型抽取所有司法文書當(dāng)中的關(guān)系較為困難,因此本文選取故意傷害罪司法文書作為關(guān)系抽取的研究對象。
由于故意傷害罪關(guān)注的核心要素是人和物,本文在參考通用領(lǐng)域人物關(guān)系定義的基礎(chǔ)上,根據(jù)《刑法》中對社會(huì)屬性和司法屬性的關(guān)系需求,從“人”與“人”、“人”與“物”兩種粗粒度出發(fā)定義了9 種分類關(guān)系,具體如下。
親屬關(guān)系 指兩個(gè)自然人之間存在直系親屬或旁系親屬關(guān)系。
同事關(guān)系 指兩個(gè)自然人在同一個(gè)公司工作或同一時(shí)間從事同一份工作。
鄰里關(guān)系 指兩個(gè)自然人生活在同一個(gè)社區(qū)、同一個(gè)單元或同一個(gè)村。
感情關(guān)系 指兩個(gè)自然人之間未存在法律認(rèn)可的情侶關(guān)系,如戀愛、情人關(guān)系。
施動(dòng)關(guān)系 指兩個(gè)自然人是被告人和被害人的關(guān)系。
共犯關(guān)系 指兩個(gè)自然人同為被告人。
使用關(guān)系 在一起案件中,以某作案工具為中心,某自然人使用了該作案工具做出了攻擊行為,則該自然人與該作案工具之間是使用關(guān)系。
攻擊關(guān)系 在一起案件中,以某作案工具為中心,該作案工具攻擊了某個(gè)自然人,則該自然人與該作案工具之間是攻擊關(guān)系。
擁有關(guān)系 在一起案件中,存在的違禁作案工具的所屬關(guān)系,違禁作案工具指槍、爆炸物品、劇毒物品等物品或工具。
除此之外,還定義了一種NA 關(guān)系,表明“人”與“人”、“人”與“物”之間不存在關(guān)系或者存在的關(guān)系不屬于已定義的9 種關(guān)系。
本文標(biāo)注的故意傷害罪的文書內(nèi)容來自中國裁判文書網(wǎng)的公開文書數(shù)據(jù)。利用規(guī)則對犯罪事實(shí)描述部分進(jìn)行抽取,再由志愿者進(jìn)行手工標(biāo)注,具體的數(shù)據(jù)分布如圖4 所示。除此之外,由于司法文本的特殊性,其中關(guān)系重疊的語料占比為7.66%。同時(shí),為了更好地描述案件中實(shí)體間的邏輯指向關(guān)系,構(gòu)建過程中對關(guān)系的方向性也進(jìn)行標(biāo)注,如三元組,它們的實(shí)體對都為E1 和E2,但由于實(shí)體在文中出現(xiàn)前后順序不一樣,因此兩實(shí)體之間的關(guān)系指向會(huì)發(fā)生變化,本文稱R1 和R2 互為反向關(guān)系。具體的數(shù)據(jù)集會(huì)再經(jīng)整理和擴(kuò)充后進(jìn)行開源(https://github.com/DUTIR-LegalIntelligence),供學(xué)者共同研究。
圖4 關(guān)系分布Fig.4 Relationship distribution
對于CriElectra 預(yù)訓(xùn)練語言模型,分別采用以下幾種模型進(jìn)行實(shí)驗(yàn)對比:
1)ELCN(Electra-BiLSTM-CapsNet)。預(yù)訓(xùn)練層使用中文Electra預(yù)訓(xùn)練模型(https://github.com/ymcui/Chinese-ELECTRA),模型結(jié)構(gòu)為Electra-BiLSTM-CapsNet。
2)XBLCN(XBert-BiLSTM-CapsNet)。預(yù)訓(xùn)練層使用清華大學(xué)公開的刑事BERT 預(yù)訓(xùn)練模型(https://github.com/thunlp/OpenCLaP),模型結(jié)構(gòu)為XBert-BiLSTM-CapsNet。
3)MBLCN(MBert-BiLSTM-CapsNet)。預(yù)訓(xùn)練層使用清華大學(xué)公開的民事BERT 預(yù)訓(xùn)練模型(https://github.com/thunlp/OpenCLaP),模型結(jié)構(gòu)為MBert-BiLSTM-CapsNet。
為了評估BiLSTM 的特征提取的能力,分別采用以下幾種模型進(jìn)行實(shí)驗(yàn)對比:
1)CERCN(CriElectra-RNN-CapsNet)。特征提取層使用RNN,模型結(jié)構(gòu)為CriElectra-RNN-CapsNet。
2)CECCN(CriElectra-CNN-CapsNet)。特征提取層使用CNN,模型結(jié)構(gòu)為CriElectra-CNN-CapsNet。
3)CECN(CriElectra-CapsNet)。未使用特征提取層,模型結(jié)構(gòu)為CriElectra-CapsNet。
對于膠囊網(wǎng)絡(luò),分別采用以下幾種模型進(jìn)行實(shí)驗(yàn)對比:
1)CELMP(CriElectra-BiLSTM-MaxPooling)。特征提取層采用MaxPooling特征聚類層[2],模型結(jié)構(gòu)為CriElectra-BiLSTM-MaxPooling。
2)CELAP(CriElectra-BiLSTM-AvgPooling)。特征提取層采用AvgPooling 特征聚類層,模型結(jié)構(gòu)為CriElectra-BiLSTMAvgPooling。
實(shí)驗(yàn)中,關(guān)系抽取模型的性能由從非結(jié)構(gòu)化文本中關(guān)系標(biāo)簽的最終提取結(jié)果的精確率(Precision,precision)、召回率(Recall,recall)以及F1 值(F1-score,F(xiàn)1)來進(jìn)行評估。評價(jià)指標(biāo)的計(jì)算式如下:
式(17)、(18)和(19)中:correct_num表示正確預(yù)測的標(biāo)簽個(gè)數(shù),predict_num表示預(yù)測的標(biāo)簽總數(shù),true_num表示實(shí)際正確的標(biāo)簽總數(shù)。
CELCN 與ELCN 訓(xùn)練的F1 曲線如圖5 所示。由圖5 可以看出,訓(xùn)練前期基于CriElectra 的模型相較于基于中文Electera 的模型,收斂更快;當(dāng)模型趨于穩(wěn)定時(shí),CELCN 模型的F1 值更高,性能更優(yōu)。因此可表明,相較于中文Electra,在故意傷害罪關(guān)系抽取數(shù)據(jù)集上,CriElectra 預(yù)訓(xùn)練模型能夠更好地提供司法文本中詞的向量表示,使得關(guān)系抽取的結(jié)果更優(yōu)。
圖5 CELCN與ELCN的F1值曲線Fig.5 F1-score curves of CELCN and ELCN
為了進(jìn)一步地研究CriElectra 與別的司法領(lǐng)域預(yù)訓(xùn)練語言模型之間的性能差異,分別基于清華大學(xué)公開的刑事BERT 和民事BERT 展開實(shí)驗(yàn),CELCN 與XBLCN、MBLCN 訓(xùn)練過程中的F1 值曲線如圖6 所示。由圖6 可以看出,三條曲線當(dāng)中,民事BERT 不管是在收斂速度還是最終結(jié)果上表現(xiàn)都很一般;而CriElectra 與刑事BERT 相比性能表現(xiàn)相當(dāng)。但由于CriElectra 在訓(xùn)練構(gòu)建過程中,所花費(fèi)時(shí)間成本更低,因此,基于Electra 構(gòu)建特定領(lǐng)域預(yù)訓(xùn)練模型是一個(gè)很好的研究方向。
圖6 CELCN與MBLCN、XBLCN的F1值曲線Fig.6 F1-score curves of CELCN,MBLCN and XBLCN
以CriElectra 預(yù)訓(xùn)練模型、中文Electra、刑事BERT 以及民事BERT 為預(yù)訓(xùn)練層實(shí)驗(yàn)的詳細(xì)精確率、召回率和F1 值如表1 所示??梢钥闯鍪褂肅riElectra(CELCN)相較于使用中文Electera(ELCN),精確率可以提升1.54 個(gè)百分點(diǎn),召回率可以提升1.17 個(gè)百分點(diǎn),F(xiàn)1 的提升可以達(dá)到1.93 個(gè)百分點(diǎn),效果顯著。相較于使用民事BERT(MBLCN),CELCN 的精確率、召回率更高,F(xiàn)1 值可得到3.3 個(gè)百分點(diǎn)的提升。跟刑事BERT(XBLCN)相比,CELCN 性能表現(xiàn)相當(dāng)。這也證明了CriElectra 能夠更好地學(xué)習(xí)到法律文本的詞向量表示。
為研究BiLSEM 的文本特征提取表現(xiàn),本文分別基于RNN、CNN 做了對比實(shí)驗(yàn),同時(shí)為了解BiLSTM 是否對模型的性能有所幫助,還進(jìn)行了CECN 模型實(shí)驗(yàn),實(shí)驗(yàn)的詳細(xì)結(jié)果如表1 所示。從表1 中可以看出,BiLSTM 相較于RNN、CNN能夠取得更好的F1 值,這是因?yàn)楸疚乃脭?shù)據(jù)集語料句子長度較長,而RNN 和CNN 的長距離學(xué)習(xí)能力較弱。對于CECN 模型,BiLSTM 能夠給模型帶來0.41 個(gè)百分點(diǎn)的F1 值提升,盡管提升有限,但在一定程度上表明基于BiLSTM 的特征提取層能夠使模型更好地學(xué)習(xí)到文本的特征表示。
表1 不同模型的性能對比 單位:%Tab.1 Performance comparison of different models unit:%
為研究膠囊網(wǎng)絡(luò)的性能表現(xiàn),本文分別進(jìn)行了基于Maxpooling 的特征聚類層和基于Avgpooling 的特征聚類層的實(shí)驗(yàn),其中CELCN、CELMP 和CELAP 在實(shí)驗(yàn)過程中的F1 曲線如圖7 所示。從圖7 可以看出,盡管膠囊網(wǎng)絡(luò)的收斂速度較慢,但實(shí)驗(yàn)的最終結(jié)果表明CELCN 的性能要明顯優(yōu)于CELMP 和CELAP。
圖7 CELMP和CELAP的F1值曲線Fig.7 F1-score curves of CELMP and CELAP
實(shí)驗(yàn)CELCN 與CELMP、CELAP 更詳細(xì)的精確率、召回率和F1 值的實(shí)驗(yàn)對比結(jié)果如表1,其中CELCN 的精確率、召回率和F1 值分別為77.26%、82.68% 和79.88%,相較于CELMP 和CELAP,F(xiàn)1 值分別提升了3.53 個(gè)百分點(diǎn)和3.73 個(gè)百分點(diǎn),表明了膠囊網(wǎng)絡(luò)在特征聚類方面的優(yōu)勢。
為了進(jìn)一步地研究膠囊網(wǎng)絡(luò)帶來的性能提升,本文從數(shù)據(jù)集中抽取一部分多標(biāo)簽關(guān)系數(shù)據(jù)進(jìn)行測試,實(shí)驗(yàn)的測試結(jié)果如表2 所示,其中,CELCN 的準(zhǔn)確率、召回率和F1 值分別為43.88%、41.32%和42.56%,比CELAP 的F1 值高0.26 個(gè)百分點(diǎn),比CELMP 的F1 值高3.91 個(gè)百分點(diǎn),進(jìn)一步證明了膠囊網(wǎng)絡(luò)在多標(biāo)簽關(guān)系抽取任務(wù)中的性能優(yōu)勢。
表2 部分多標(biāo)簽重疊關(guān)系數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果 單位:%Tab.2 Experimental results of some multi-label overlapping relationship data unit:%
本文針對司法領(lǐng)域提出了一種新的司法預(yù)訓(xùn)練模型CriElectra,然后利用中文通用的人物關(guān)系語料,結(jié)合司法知識(shí)和人工標(biāo)注方法構(gòu)建以被告人、被害人以及作案工具為中心的故意傷害罪關(guān)系抽取數(shù)據(jù)集,并提出了CELCN 模型,很好地解決了故意傷害罪關(guān)系抽取語料中一對實(shí)體多種關(guān)系的情況,為司法領(lǐng)域中文關(guān)系抽取研究提供了技術(shù)基礎(chǔ)。在未來的工作中,將基于本文中CELCN 的研究,進(jìn)一步開展多罪名的關(guān)系抽取研究。