翁 洋,向 迪 ,郭曉冬,洪文興,李 鑫
(1.四川大學(xué)數(shù)學(xué)學(xué)院,四川成都610064;2.廈門大學(xué)航空航天學(xué)院,福建廈門361102;3.四川大學(xué)法學(xué)院,四川成都610207)
近年來,司法領(lǐng)域的數(shù)據(jù)量迅速增長.法官、律師和檢察官等法律專業(yè)人員不僅要處理大量案件,還需要查閱大量檔案以供參考或分析與案件有關(guān)的數(shù)據(jù).這可能會導(dǎo)致司法工作效率低下,出錯(cuò)的風(fēng)險(xiǎn)增加.如何將人工智能技術(shù)應(yīng)用在司法領(lǐng)域,提高司法人員在案件處理環(huán)節(jié)的效率逐漸成為法律人工智能研究的熱點(diǎn)[1-3].人工智能在法律領(lǐng)域的落地,不僅需要了解法律規(guī)范,還需要對法律運(yùn)行狀態(tài)有深刻的認(rèn)知.法律的實(shí)施、運(yùn)行情況被集中地記錄在裁判文書中,我國已有近億份裁判文書上網(wǎng)公開,為法律人工智能應(yīng)用提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ).因此,本文將重點(diǎn)放在如何幫助司法人員利用大規(guī)模裁判文書對案件進(jìn)行解釋和公正判斷上.對于司法判決的可解釋性和公正性,一種可行的方法是從裁判文書中抽取相關(guān)案件要素,案情事實(shí)中的重要事實(shí)表述是法律規(guī)范所涉要素在具體案件中的具體表現(xiàn),可以使用這些事實(shí)描述來幫助司法判決;另一種可行的方法是從裁判文書中挖掘爭議焦點(diǎn),我國法院已形成了通過圍繞爭議焦點(diǎn)展開審判提高審判效率的審判模式,利用爭議焦點(diǎn)理清審判思路可以幫助司法公正.所以,面向大規(guī)模裁判文書的信息抽取技術(shù)的突破能提高法院運(yùn)行效率,為法官的審判工作提供輔助;為法律人工智能的新技術(shù)研究提供支撐;對社會運(yùn)行態(tài)勢進(jìn)行研判,為黨政機(jī)關(guān)決策提供輔助.
信息抽取是從自然語言文本中抽取指定類型的實(shí)體、關(guān)系與事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)[4-6], 然而,由于法律領(lǐng)域的知識壁壘,基于裁判文書的信息抽取技術(shù)還處于主要利用基于人工制定規(guī)則匹配的階段[7].目前在法學(xué)領(lǐng)域內(nèi)存在兩種裁判文書信息抽取方法:一是正則表達(dá)式匹配的方法,即通過人工制定匹配規(guī)則及策略進(jìn)行相應(yīng)的標(biāo)簽確定;二是基于機(jī)器學(xué)習(xí)的文本分類方法,通過法學(xué)專家制定標(biāo)簽體系,并根據(jù)標(biāo)簽體系標(biāo)注數(shù)據(jù),利用標(biāo)注數(shù)據(jù)訓(xùn)練文本分類模型.
在具體案件中,多個(gè)司法標(biāo)簽可能出現(xiàn)在同一語句中,以符合案件實(shí)際情況及通常的語言表達(dá)習(xí)慣.因此,將裁判文書信息抽取任務(wù)轉(zhuǎn)換為多標(biāo)簽文本分類是自然語言處理技術(shù)應(yīng)用在司法領(lǐng)域的合理應(yīng)用.由于法律信息的獨(dú)特結(jié)構(gòu)、法言法語自成體系的表達(dá)和推理方法,傳統(tǒng)的低召回的正則提取方式和實(shí)體識別提取方式便不再適用,需要根據(jù)領(lǐng)域?qū)<裔槍λ璨门形臅男畔?biāo)簽體系進(jìn)行分類.
早期的多標(biāo)簽文本分類算法將多標(biāo)簽問題轉(zhuǎn)變?yōu)槎鄠€(gè)單標(biāo)簽的分類問題[8],這類方法會丟失標(biāo)簽之間的相關(guān)性.利用標(biāo)簽之間的依賴關(guān)系已是多標(biāo)簽學(xué)習(xí)的一個(gè)重要研究方向[9-14].概率圖模型是一種描述變量之間關(guān)系的模型框架,其在多標(biāo)簽分類中也有諸多應(yīng)用,例如貝葉斯網(wǎng)絡(luò)[15-17]和條件隨機(jī)場[18],然而這些圖模型需要復(fù)雜的學(xué)習(xí)和推斷過程.Guo等[19]提出條件依賴網(wǎng)絡(luò)(conditional dependency network,CDN)來建模標(biāo)簽之間的依賴關(guān)系,直觀地描述了標(biāo)簽之間的依賴性,并且不用進(jìn)行復(fù)雜的網(wǎng)絡(luò)學(xué)習(xí)和推斷.在文本多標(biāo)簽分類任務(wù)中,傳統(tǒng)的多標(biāo)簽學(xué)習(xí)算法一般利用詞層級的稀疏特征作為文本的特征表達(dá),例如詞袋模型和n-gram[20].這些表達(dá)忽略了文本中深層次的語義信息,而傳統(tǒng)多標(biāo)簽分類算法自身的特征提取能力不足,這導(dǎo)致傳統(tǒng)的多標(biāo)簽算法難以充分利用文本信息.為了更有效地利用文本信息,許多深度學(xué)習(xí)網(wǎng)絡(luò)模型[21-24]被應(yīng)用于多標(biāo)簽文本分類任務(wù)中.然而,在這些網(wǎng)絡(luò)結(jié)構(gòu)中標(biāo)簽之間的依賴關(guān)系也沒有得到很好的利用.為了更好地利用標(biāo)簽之間的依賴關(guān)系,Kurata等[25]提出當(dāng)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理多標(biāo)簽文本分類任務(wù)時(shí),用標(biāo)簽之間的共現(xiàn)關(guān)系來初始化網(wǎng)絡(luò)最后輸出層的權(quán)重,以此利用標(biāo)簽之間的依賴關(guān)系.Chen等[26]建立卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)(CNN-RNN)網(wǎng)絡(luò),CNN-RNN將CNN和RNN整合在一個(gè)網(wǎng)絡(luò)中以利用文本的語義表達(dá),并建模標(biāo)簽之間的關(guān)系.Baker等[27]利用基于CNN的共現(xiàn)行為來初始化最后的隱藏層以提升模型表現(xiàn).Yang等[28]提出SGM,其利用基于長短時(shí)記憶(LSTM)的序列到序列的網(wǎng)絡(luò)結(jié)構(gòu)來逐次產(chǎn)生標(biāo)簽,同時(shí)網(wǎng)絡(luò)中還利用了注意力機(jī)制.隨著預(yù)訓(xùn)練模型(bidirectional encoder representations from transformers,BERT)[29]的廣泛流行,X-BERT[30]的出現(xiàn)利用BERT來處理極大規(guī)模多標(biāo)簽文本分類問題.除此之外,很多用于多標(biāo)簽文本分類的深度學(xué)習(xí)模型具有特定的形式,不容易進(jìn)行模型擴(kuò)展,難以讓各種強(qiáng)有力的網(wǎng)絡(luò)模型在多標(biāo)簽文本分類任務(wù)中得到簡便有效的利用,因此研究深層語義表示和要素標(biāo)簽建模相結(jié)合的深度學(xué)習(xí)框架顯得尤為重要.
本文的主要目的是為了將司法信息從裁判文書中自動(dòng)抽取出來,并根據(jù)領(lǐng)域?qū)<以O(shè)計(jì)的標(biāo)簽體系進(jìn)行分類.因此根據(jù)司法判決可解釋性和公正性的需要,進(jìn)行以下兩個(gè)裁判文書信息抽取任務(wù),一是案件要素抽取,二是爭議焦點(diǎn)抽取.具體地,給定司法文書中的相關(guān)段落,系統(tǒng)需針對文本信息進(jìn)行判斷,識別其中的關(guān)鍵標(biāo)簽信息.然而這些標(biāo)簽之間存在依賴關(guān)系,一個(gè)司法標(biāo)簽的出現(xiàn)可能導(dǎo)致另一個(gè)司法標(biāo)簽出現(xiàn)概率的增加.現(xiàn)有的大多數(shù)工作只關(guān)注于標(biāo)簽的提取任務(wù),而忽略了標(biāo)簽之間的依賴關(guān)系.為了解決這個(gè)問題,提出了基于深度條件依賴網(wǎng)絡(luò)的裁判文書信息抽取框架(framework for information extraction of judgment documents based on deep conditional dependency network,DCDN),即利用深度CPN去構(gòu)建司法標(biāo)簽間的依賴性,以更準(zhǔn)確的抽取裁判文書中的信息.
總的來說,本文的貢獻(xiàn)為以下幾點(diǎn):
1) 將構(gòu)建標(biāo)簽關(guān)系的條件依賴網(wǎng)絡(luò)思想與深度學(xué)習(xí)網(wǎng)絡(luò)模型結(jié)合在一起,更好地利用裁判文書文本信息和司法標(biāo)簽之間的依賴關(guān)系,并將它們置于同一網(wǎng)絡(luò)下互相指導(dǎo)學(xué)習(xí),以此來提升具有依賴關(guān)系的司法標(biāo)簽提取效果.
2) 在真實(shí)場景司法數(shù)據(jù)集CAIL2019(案件要素抽取)上的實(shí)驗(yàn)結(jié)果表明本文提出的框架用于案件要素抽取任務(wù)具有較好的擴(kuò)展性和有效性,此外,本文的模型取得了幾乎全方位的效果提升.
3) 在真實(shí)場景司法數(shù)據(jù)集LAIC2021(爭議焦點(diǎn)識別)上的實(shí)驗(yàn)結(jié)果表明本文提出的框架用于爭議焦點(diǎn)任務(wù)具有較好的有效性,本文的模型相比基線有一致且較大的改進(jìn).
裁判文書信息抽取是從裁判文書中抽取指定類型的司法信息.裁判文書信息抽取的任務(wù)多樣,包括并不僅限于裁判文書的段落標(biāo)簽、爭議焦點(diǎn)、案情事實(shí)中的案情要素以及案情事實(shí)中的實(shí)體和關(guān)系.結(jié)合法學(xué)知識,主要考慮了兩個(gè)信息抽取任務(wù),一是案件要素抽取,二是爭議焦點(diǎn)抽取.案件要素指案情事實(shí)描述中的關(guān)鍵行為詞及與行為相關(guān)的要素.案件要素提取任務(wù)是對裁判文書案件事實(shí)描述段落打上相應(yīng)的案件要素標(biāo)簽(圖1左),屬于多標(biāo)簽樣本分類任務(wù).此外,案件標(biāo)簽間往往存在依賴關(guān)系,即在同一個(gè)案件事件描述中一個(gè)案件要素標(biāo)簽的出現(xiàn)可能導(dǎo)致另一個(gè)案件要素標(biāo)簽出現(xiàn)概率的增大.例如,在離婚案件中,案件事實(shí)如果有“婚后有子女”的標(biāo)簽,那么它同時(shí)具有“支付撫養(yǎng)費(fèi)”標(biāo)簽的概率就會很大.爭議焦點(diǎn)是案件雙方當(dāng)事人爭執(zhí)的核心分歧點(diǎn)和法官裁判思路的內(nèi)容,爭議焦點(diǎn)提取任務(wù)是根據(jù)裁判文書中原被告的訴請及答辯內(nèi)容,對其中訴辯雙方在證據(jù)、事實(shí)和法律適用方面的的爭議焦點(diǎn)進(jìn)行識別和檢測(圖1右),屬于多標(biāo)簽樣本分類任務(wù).同理于案件要素提取,爭議焦點(diǎn)間往往也會存在依賴關(guān)系.
圖1 裁判文書信息抽取的例子Fig.1Example of information extraction from judgment document
圖2 DCDN框架示意圖Fig.2DCDN framework diagram
受到CDN[19]描述的標(biāo)簽之間的依賴關(guān)系啟發(fā),利用條件依賴網(wǎng)絡(luò)的思想建模標(biāo)簽之間的依賴關(guān)系,以此構(gòu)建基于深度條件依賴關(guān)系的裁判文書信息抽取框架.本文提出的DCDN,主要包含裁判文書特征提取網(wǎng)絡(luò)與標(biāo)簽依賴關(guān)系網(wǎng)絡(luò)兩個(gè)部分,假設(shè)每一個(gè)司法標(biāo)簽與其他司法標(biāo)簽有關(guān),關(guān)系程度的大小由權(quán)重決定.整體板塊如圖2所示.
隨著BERT的出現(xiàn),將BERT融入深度學(xué)習(xí)模型是得到高精確、高召回模型的常見措施,因此,本文中首先使用BERT作為基礎(chǔ)模型以獲取裁判文書輸入序列的上下文表示.輸入到BERT的序列通常為:
[CLS]
然后利用BERT獲取每個(gè)字符的上下文表示H(x),用于特征抽取.對于輸入序列(x1,x2,…,xN),有
H(x)=Bert(x1,x2,…,xN).
(1)
引入一個(gè)新的參數(shù)矩陣Wf∈RL×dim(H(x)),其中L表示需分類的司法標(biāo)簽數(shù),那么司法標(biāo)簽預(yù)測信息向量可以通過下式得到:
F(x)=WfH(x).
(2)
正如圖2所示,將不包括第i個(gè)標(biāo)簽的標(biāo)簽集y-i中司法標(biāo)簽的具體值(1或0)做線性組合之后加到標(biāo)簽信息預(yù)測向量F(x)的第i維上,以此獲得一個(gè)在給定x和y-i中司法標(biāo)簽具體取值的情況下第i個(gè)司法標(biāo)簽的最終預(yù)測信息,即:
F(x)i+wi1y1+wi2y2+…+wii-1yi-1+
wii+1yi+1+…+wiLyL,
其中wij是權(quán)重參數(shù),它在一定程度上暗示第i個(gè)司法標(biāo)簽和第j個(gè)司法標(biāo)簽的相關(guān)程度.讓W(xué)y∈RL×(L-1),Wy中的元素即為wij,然后便能得到司法標(biāo)簽的最終條件預(yù)測信息:
F(x)+Wy·Ys,
上式中·為Hadamard乘積,Ys∈RL×(L-1)表示司法標(biāo)簽具體取值的矩陣.Ys第i行的形式如下:
y1,y2,…,yi-1,yi+1,…,yL,
隨后利用sigmoid函數(shù)σ便能得到每個(gè)司法標(biāo)簽的條件預(yù)測概率:
(3)
DCDN中網(wǎng)絡(luò)結(jié)構(gòu)的最終輸出為在給定裁判文本序列x和一定司法標(biāo)簽具體值下對某一個(gè)標(biāo)簽的條件概率預(yù)測,輸出第i個(gè)司法標(biāo)簽的條件概率預(yù)測值如式(3)所示.這是一個(gè)在一定條件下的二值概率預(yù)測問題,因此用binary-crossentropy損失函數(shù):
(1-yi)log(1-p(yi=1|F(x),y-i))],
(4)
其中D是樣本數(shù)量,訓(xùn)練過程中可為每個(gè)批次中的樣本數(shù)量.訓(xùn)練過程中,在預(yù)訓(xùn)練模型特征提取網(wǎng)絡(luò)前端輸入了裁判文本序列x后,對于每一個(gè)司法標(biāo)簽的預(yù)測還需要輸入此樣本x訓(xùn)練數(shù)據(jù)對應(yīng)的其他司法標(biāo)簽值,這些都是類似于已有觀測的特征輸入.整個(gè)訓(xùn)練過程本質(zhì)上與普通神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程一致.
本文中用反向傳播算法來說明DCDN在訓(xùn)練過程中參數(shù)的梯度計(jì)算形式.僅僅給出DCDN中F(x)之后的參數(shù)梯度形式,當(dāng)誤差由DCDN后端傳到F(x)之前的網(wǎng)絡(luò)結(jié)構(gòu)時(shí),參數(shù)梯度的計(jì)算方式與通常的神經(jīng)網(wǎng)絡(luò)反向傳播梯度計(jì)算方式一致.
首先令
則
使DCDN最后未通過sigmoid函數(shù)的輸出為:
Z=F(x)+Wy·Ys,
位于輸出層前一層的誤差δ′i可通過F(x)反向傳播.設(shè)輸出層前一層的輸出Z′,則
出現(xiàn)以上求和式的原因?yàn)閆′在經(jīng)過全連接層之后與F(x)中的每一項(xiàng)均有關(guān).由δ′i便可將誤差傳播到網(wǎng)絡(luò)前端,據(jù)此可根據(jù)具體網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算每個(gè)參數(shù)的梯度.在計(jì)算網(wǎng)絡(luò)參數(shù)的梯度之后,通過一些深度學(xué)習(xí)的優(yōu)化方法就可進(jìn)行訓(xùn)練過程中的參數(shù)更新.
算法1gibbs sampling for inference
輸入:Text sequence,x; Number of labels,L; Burn-in iteration number,nb; Instance collection iteration number,nc
輸出:Predictor sequence of labels,y.
1: initializey=(y1,y2, …,yL),l=0;
2: choose a random orderingrover label spaceY.
3: forj=1 tonb+ncdo
4: fori=1 toLdo
5:q=p(yr(i))=1|F(x),y-r(i))
6: sampleu~uniform distribution of (0,1);
7: ifu≤qthenyr(i)=1
8: elseyr(i)=0
9: end if
10: ifj>nbthen
12: ifl 14: end if 15: end if 16: end for 17: end for 在CAIL2019(http:∥cail.cipsc.org.cn:2019/index.html 2019年中國法研杯司法人工智能挑戰(zhàn)賽)(案件要素抽取)上進(jìn)行裁判文書案件要素信息抽取實(shí)驗(yàn).數(shù)據(jù)集中的全部數(shù)據(jù)來源于中國裁判文書網(wǎng)上的法律文書.每個(gè)訓(xùn)練數(shù)據(jù)的文本由法律文書的案情描述部分組成,其中每個(gè)句子都被同時(shí)分配了至少一個(gè)對應(yīng)的類別標(biāo)簽.在這篇文章中,用離婚領(lǐng)域的小數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn),并把數(shù)據(jù)集劃分為訓(xùn)練集和驗(yàn)證集.其中,訓(xùn)練集包含10 484條句子層級的樣本,而驗(yàn)證集包含1 201條句子層級的樣本,并且整個(gè)數(shù)據(jù)集一共有20個(gè)標(biāo)簽(表1). 表1 預(yù)定義案件要素標(biāo)簽 在LAIC2021(http:∥data.court.gov.cn/pages/laic2021.html 第四屆中國法研杯司法人工智能挑戰(zhàn)賽)(爭議焦點(diǎn)識別)上進(jìn)行裁判文書爭議焦點(diǎn)信息抽取實(shí)驗(yàn).全部數(shù)據(jù)來源于浙江省高級人民法院提供并標(biāo)注的法院裁判文書,包含大約14 000篇裁判文書以及人工額外標(biāo)注的爭議焦點(diǎn)(標(biāo)簽形式),其中所涉及到的裁判文書均為民事判決書,涉及的案由包括民間借貸、離婚、機(jī)動(dòng)車交通事故責(zé)任、金融借款合同等.在本文中,按8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集,驗(yàn)證集和測試集.這個(gè)數(shù)據(jù)集一共包括了148個(gè)爭議焦點(diǎn)標(biāo)簽. 采用Micro精確率(Mi-P)、Micro召回率(Mi-R)和Micro-F1值(Mi-F1)作為評價(jià)指標(biāo). 利用下述基線模型與本文提出的框架進(jìn)行對比. CNN:用CNN作特征提取表達(dá),之后利用sigmoid函數(shù)得到每個(gè)標(biāo)簽的概率輸出. RNN:用RNN作特征提取表達(dá),其他與CNN相同. BERT:用BERT作特征提取表達(dá),其他與CNN相同. SGM[28]:將多標(biāo)簽分類任務(wù)視為序列生成問題,構(gòu)建基于LSTM的序列到序列的網(wǎng)絡(luò)模型.不僅構(gòu)建了標(biāo)簽間的依賴性,還獲取了輸入文本的關(guān)鍵信息. LSAN[32]:基于注意力機(jī)制來學(xué)習(xí)特定標(biāo)簽的文檔表示,能夠利用標(biāo)簽的語義信息來確定標(biāo)簽和文檔之間的語義聯(lián)系來建立特定標(biāo)簽的文檔表示. RBT-MRC[33]: 引入標(biāo)簽信息和法律先驗(yàn)知識構(gòu)造輔助問句,利用BERT機(jī)器閱讀理解模型建立輔助問句和裁判文書之間的語義聯(lián)系提取司法要素,該方法僅在案件要素提取任務(wù)中作為基線模型. 此外,為了證明CDN融入深度學(xué)習(xí)模型的思想具有良好的擴(kuò)展性,還考慮將CDN融入CNN(CNN-DCD)和GRU(GRU-DCD)作為基線模型. 考慮到兩個(gè)數(shù)據(jù)集的最大字長,數(shù)據(jù)量等各不相同,設(shè)置兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)的參數(shù)如表2所示.在CAIL2019(案件要素抽取)數(shù)據(jù)集上,用Adam優(yōu)化器[34]極小化損失函數(shù),并設(shè)置優(yōu)化器中的兩個(gè)動(dòng)量參數(shù)β1和β2分別為0.900和0.999.實(shí)驗(yàn)中初始的學(xué)習(xí)率為0.000 5,并且每3個(gè)訓(xùn)練輪次后學(xué)習(xí)率縮減為原來的五分之三.對于在DCDN中涉及的Gibbs采樣過程,設(shè)置burn-in次數(shù)為10,并且進(jìn)行另外的10輪迭代來收集采樣樣本.在DCDN的訓(xùn)練過程中每1 000 表2 超參數(shù)設(shè)置 次做一次驗(yàn)證集上的評估.所用的BERT中文預(yù)訓(xùn)練模型為Chinese_L-12_H-768A-12(https:∥github.com/google-research/bert#pre-trained-models). 在LAIC2021(爭議焦點(diǎn)識別)數(shù)據(jù)集上,用Adam優(yōu)化器[29]極小化損失函數(shù),并設(shè)置優(yōu)化器中的學(xué)習(xí)步長為0.000 01.對于在DCDN中涉及的Gibbs采樣過程,與CAIL2019(案件要素抽取)中設(shè)置保持一致.在完成訓(xùn)練之后,選擇在驗(yàn)證集上具有最低損失的模型作為最終的測試模型,并在測試集上測試結(jié)果.所用的BERT中文預(yù)訓(xùn)練模型為bert-base-chinese(https:∥huggingface.co/bert-base-chinese). 表3給出了DCDN和所有基線模型在CAIL2019(案件要素抽取)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.如表3所示,DCDN在所有評價(jià)標(biāo)準(zhǔn)上都得到了最好的結(jié)果.與CNN、GRU、SGM、LSAN和RBT-MRC模型相比,DCDN模型的改進(jìn)較大.與現(xiàn)在最常用的BERT模型相比,Mi-P增加了約0.37個(gè)百分點(diǎn),Mi-R增加了1.62 個(gè)百分點(diǎn),Mi-F1分?jǐn)?shù)增加了1個(gè)百分點(diǎn).這表明DCDN在案件要素抽取任務(wù)上的有效性.此外,CNN-DCD和DCDN模型相較于無深度CDN的CNN、BERT模型在所有指標(biāo)上都得到了提升,GRU-DCD模型相較于GRU模型在Mi-R和Mi-F1得到了提升.這表明了將條件依賴網(wǎng)絡(luò)融入深度學(xué)習(xí)模型的思想具有良好的擴(kuò)展性.綜合來看,本文的模型優(yōu)于基準(zhǔn)模型,表現(xiàn)出融入要素標(biāo)簽之間的依賴關(guān)系可以使案件要素抽取的效果得到進(jìn)一步提升. 表3 在CAIL2019(案件要素抽取)驗(yàn)證集上的實(shí)驗(yàn)結(jié)果 表4給出了DCDN和所有基線模型在LAIC2021(爭議焦點(diǎn)識別)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.如表4所示,DCDN在Mi-R和上Mi-F1分?jǐn)?shù)都得到了最好的結(jié)果.Mi-P相較于在此指標(biāo)上表現(xiàn)最好的CNN模型降低了5.70個(gè)百分點(diǎn),Mi-R相較于在此指標(biāo)上表現(xiàn)最好的BERT模型提高了11.39個(gè)百分點(diǎn),Mi-F1分?jǐn)?shù)相較于在此指標(biāo)上表現(xiàn)最好的BERT模型提高了2.79 個(gè)百分點(diǎn).這表明DCDN在爭議焦點(diǎn)識別任務(wù)上的有效性.此外,CNN-DCD和DCDN模型相較于對應(yīng)的CNN、BERT模型在Mi-R和Mi-F1分?jǐn)?shù)上得到了提升,GRU-DCD模型相較于GRU模型在Mi-P上得到了提升.這表明了將CDN融入深度學(xué)習(xí)模型的思想具有良好的擴(kuò)展性. 表4 在LAIC2021(爭議焦點(diǎn)識別)測試集上的實(shí)驗(yàn)結(jié)果 值得一提的是,相較于CAIL2019(案件要素抽取)是對短文本的司法句子進(jìn)行標(biāo)簽標(biāo)注,LAIC2021(爭議焦點(diǎn)識別)是對長文本的司法段落進(jìn)行標(biāo)簽標(biāo)注并且標(biāo)簽數(shù)多達(dá)148個(gè),這些易導(dǎo)致實(shí)驗(yàn)的最終效果不佳.此外,CNN擅長空間特征的學(xué)習(xí)和捕獲.RNN擅長時(shí)序特征的捕獲.傳統(tǒng)的RNN模型在解決長序列之間的關(guān)聯(lián)時(shí),表現(xiàn)很差,原因是在進(jìn)行反向傳播的時(shí)候, 過長的序列導(dǎo)致梯度的計(jì)算異常, 發(fā)生梯度消失或爆炸.爭議焦點(diǎn)識別更注重于局部信息抽取,而不是時(shí)序特征的捕獲,例如出現(xiàn)“撫養(yǎng)”,傾向于根據(jù)這兩個(gè)字給段落打上“撫養(yǎng)費(fèi)”標(biāo)簽,而不是通過這個(gè)段落的語義.所以在長文本LAIC2021數(shù)據(jù)集上,GRU和基于LSTM的SGM、LSAN的效果不好,而基線模型CNN的Mi-P得到了最好的效果. 本文給出了一個(gè)直觀的例子(表5)來證明DCDN在爭議焦點(diǎn)任務(wù)上的重要性. 如表5所示,案例是關(guān)于醫(yī)療費(fèi)用糾紛案.本案的爭議焦點(diǎn)為:1) 醫(yī)護(hù)費(fèi)用認(rèn)定,2) 保險(xiǎn)公司責(zé)任承擔(dān)情況.DCDN正確預(yù)測出醫(yī)護(hù)費(fèi)用認(rèn)定焦點(diǎn),錯(cuò)誤預(yù)測出易混淆的基于醫(yī)療費(fèi)用的損失賠償數(shù)額認(rèn)定焦點(diǎn).而BERT模型無法預(yù)測出任何爭議焦點(diǎn).由該案例知,DCDN在顯著提高模型召回率的同時(shí),也會降低模型的精確率. 表5 爭議焦點(diǎn)樣例分析 本文提出了DCDN,該方法首先采用BERT預(yù)訓(xùn)練模型來提取裁判文書的深層次語義信息,再借助CDN的思想構(gòu)建司法標(biāo)簽間的依賴關(guān)系.結(jié)合法學(xué)知識,主要考慮了兩個(gè)信息抽取任務(wù),一是案件要素抽取,二是爭議焦點(diǎn)抽取,并在兩個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果表明,本文的模型相比基線有一致且較大的改進(jìn),這表明該模型在裁判文書信息抽取上的有效性.此外,還實(shí)驗(yàn)了將CDN運(yùn)用到其他深度學(xué)習(xí)模型上,證明了該模型的擴(kuò)展性. 然而本文發(fā)現(xiàn)該框架的訓(xùn)練和預(yù)測是完全割裂開的,訓(xùn)練的目的是為了獲得描述標(biāo)簽依賴關(guān)系的條件概率,預(yù)測時(shí)需要利用這些訓(xùn)練出的條件概率通過Gibbs采樣進(jìn)行推斷,因此DCDN其實(shí)還不是一個(gè)完整統(tǒng)一的框架.在未來的工作中,希望通過考慮整體性的所有標(biāo)簽以指導(dǎo)整個(gè)網(wǎng)絡(luò)的學(xué)習(xí).3 實(shí)驗(yàn)部分
3.1 數(shù)據(jù)集和評價(jià)標(biāo)準(zhǔn)
3.2 實(shí)驗(yàn)設(shè)置
3.3 結(jié)論和討論
3.4 樣例分析
4 結(jié) 論
廈門大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年6期