摘 要:現(xiàn)有基于知識(shí)圖譜的法律判決預(yù)測(cè)方法重點(diǎn)關(guān)注案件的要素實(shí)體和關(guān)系,不能充分地獲取案件的特征信息。針對(duì)該問題,提出了一種增強(qiáng)案件特征融合的知識(shí)圖譜法律判決預(yù)測(cè)方法。首先,該方法利用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)挖掘事實(shí)描述文本深層次的因果、時(shí)序等全文語(yǔ)義特征信息。然后通過知識(shí)圖譜向量空間中案例間相似度注意力計(jì)算學(xué)習(xí)類案特征表示。最后,融合特征信息和知識(shí)圖譜的結(jié)構(gòu)化知識(shí),豐富實(shí)體和關(guān)系在案件事實(shí)文本中的語(yǔ)義特征表示,實(shí)現(xiàn)法律判決鏈路預(yù)測(cè)任務(wù)。在危險(xiǎn)駕駛罪和盜竊罪兩類罪名數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,該方法在MRR、Hit@1兩個(gè)關(guān)鍵評(píng)價(jià)指標(biāo)上與當(dāng)前表現(xiàn)最好的鏈路預(yù)測(cè)模型相比提升了1.5%左右,Hit@3和Hit@10等指標(biāo)也均有提升,驗(yàn)證了案件特征增強(qiáng)融合能補(bǔ)充法律知識(shí)圖譜中缺失的案件特征信息并提高預(yù)測(cè)的效果。
關(guān)鍵詞:知識(shí)圖譜嵌入;特征增強(qiáng);歷史相似案例;法律判決鏈路預(yù)測(cè)
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-032-2153-07
doi: 10.19734/j.issn.1001-3695.2023.11.0533
Legal judgment prediction using case feature enhancement based on knowledge graph
Abstract: The existing legal judgment prediction methods based on knowledge graph focus on the element entities and relationships of the case, and cannot adequately capture the characteristic information of the case. Aiming at this problem, the paper proposed a knowledge graph legal judgment prediction method that enhanced the fusion of case features. Firstly, this me-thod used bidirectional gated recurrent neural network to mine the deep semantic feature information such as causality and time sequence of fact description text. Then, it calculated the feature representation of the learning class case by the similarity attention between cases in the knowledge graph vector space. Finally, the fusion of feature information and structured knowledge of knowledge graph enriched the semantic feature representation of entities and relationships in the case fact text, and realized the legal judgment link prediction task. The experimental results on the two types of crime datasets of dangerous driving and theft show that the method improves the two key evaluation indicators of MRR and Hit@1 by about 1.5% compared with the current best-performing link prediction models. The indicators such as Hit@3 and Hit@10 are also improved, which verifies that the case feature enhancement fusion can supplement the missing case feature information in the legal knowledge graph and improve the prediction effect.
Key words:knowledge graph embedding; feature enhancement; historical similarity cases; legal judgment link prediction
0 引言
人工智能技術(shù)下的法律判決預(yù)測(cè)(legal judgment prediction,LJP)是指從海量司法案件中學(xué)習(xí)判決模式,根據(jù)案件的事實(shí)文本來(lái)預(yù)測(cè)案件的判決結(jié)果,如適用法律條款、所犯罪名和刑期等?;谏疃葘W(xué)習(xí)的法律判決預(yù)測(cè)方法[1~5]取得了非常高的預(yù)測(cè)準(zhǔn)確率,但由于判決模式對(duì)法律工作人員不可見以及對(duì)案件中的核心要素刻畫不足,導(dǎo)致其無(wú)法很好地解釋判決結(jié)果的由來(lái)?;谥R(shí)圖譜的法律判決預(yù)測(cè)方法以三元組的形式關(guān)注案件事實(shí)描述中關(guān)鍵要素實(shí)體及實(shí)體間的關(guān)系,能有效地提取和展示海量案件信息知識(shí),將影響最終判決結(jié)果的案件事實(shí)要素直觀地展現(xiàn)出來(lái),為案件的判決結(jié)果提供清晰有力的支持。洪文興等人[6]依托命名實(shí)體識(shí)別和關(guān)系抽取技術(shù),概括案件事實(shí)的骨架結(jié)構(gòu),提出司法案件的案情知識(shí)圖譜自動(dòng)構(gòu)建模型,為后續(xù)中文法律知識(shí)圖譜的下游任務(wù)奠定了基礎(chǔ)。
為增強(qiáng)法律知識(shí)圖譜實(shí)體關(guān)系的表達(dá)能力,杜文源[7]提出基于知識(shí)圖譜的刑事案件判決預(yù)測(cè)模型,融合多源信息的向量化表示,取得了較好的效果,但采取直接拼接的方式實(shí)現(xiàn)知識(shí)圖譜多源異質(zhì)信息的融合會(huì)產(chǎn)生融合損失。陳思[8]通過在司法圖譜嵌入四種類型的罪名空間標(biāo)簽特征,捕獲更多的罪名信息來(lái)學(xué)習(xí)魯棒的罪名向量表示,實(shí)現(xiàn)了更好的預(yù)測(cè)效果,但卻未針對(duì)如何融合這些罪名標(biāo)簽的表征提出更有效的嵌入方式。Dhani等人[9]基于印度知識(shí)產(chǎn)權(quán)相關(guān)法律法規(guī)構(gòu)建知識(shí)圖譜,借鑒遠(yuǎn)程監(jiān)督思想提出了一種通過從法律知識(shí)圖譜中自動(dòng)學(xué)習(xí)節(jié)點(diǎn)特征來(lái)預(yù)測(cè)案例圖節(jié)點(diǎn)的解決方案,發(fā)現(xiàn)結(jié)合相關(guān)領(lǐng)域特征可以獲得更好的預(yù)測(cè)結(jié)果。另外,為了豐富知識(shí)圖譜結(jié)構(gòu)化表示的信息,Li等人[10]針對(duì)文本理解和法律推理困難的問題提出了基于文本和圖的法律條文補(bǔ)全方法,通過文本特征增強(qiáng)圖節(jié)點(diǎn)表示,提升了預(yù)測(cè)效果。王治政等人[11]提出基于多視角知識(shí)圖譜嵌入的量刑預(yù)測(cè)方法,通過學(xué)習(xí)要素的初始表示以及融合知識(shí)圖譜特征,在量刑預(yù)測(cè)任務(wù)中表現(xiàn)較優(yōu)。針對(duì)當(dāng)前法律判決任務(wù)不能完全有效地整合法律條款的信息,Zhao等人[12]設(shè)計(jì)了一種圖融合方法來(lái)融合文本和外部知識(shí)的法律條文區(qū)分信息,有效提升了預(yù)測(cè)效果??紤]到判決預(yù)測(cè)過程中相似案例的影響,黃治綱等人[13]針對(duì)傳統(tǒng)的知識(shí)圖譜向量化表示精度較低等問題,提出一種基于知識(shí)圖譜的案件推薦模型,通過知識(shí)表示學(xué)習(xí)尋找相似案件,提升推薦準(zhǔn)確率。綜上所述,基于知識(shí)圖譜的法律判決預(yù)測(cè)方法主要集中于提取案件事實(shí)描述的關(guān)鍵信息,過度依賴實(shí)體關(guān)系,未能全面地捕捉到案件事實(shí)的特征信息,而通過融合外部信息來(lái)豐富特征表示以彌補(bǔ)不足,對(duì)于預(yù)測(cè)結(jié)果準(zhǔn)確率的提升具有不錯(cuò)的效果。
受此啟發(fā),本文提出了一種對(duì)知識(shí)圖譜進(jìn)行特征增強(qiáng)的法律判決預(yù)測(cè)方法。從案件事實(shí)描述文本中抽取實(shí)體關(guān)系構(gòu)建法律知識(shí)圖譜,以結(jié)構(gòu)化信息概括影響判決結(jié)果的案件核心要素。利用案件事實(shí)描述文本的全文語(yǔ)義特征以及歷史類案特征來(lái)增強(qiáng)當(dāng)前案例實(shí)體關(guān)系的特征表示,進(jìn)行全局信息學(xué)習(xí)和歷史信息學(xué)習(xí)。實(shí)現(xiàn)融合外部信息的同時(shí),增強(qiáng)知識(shí)圖譜內(nèi)部類案特征的表示,既強(qiáng)化案情描述和案件要素實(shí)體之間的信息交互,又增強(qiáng)相似案件之間的影響,減少無(wú)關(guān)因素的干擾,為知識(shí)圖譜案件事實(shí)要素三元組中的實(shí)體關(guān)系向量表示提供更豐富的特征信息,增強(qiáng)案件文本與法律知識(shí)圖譜之間的關(guān)聯(lián)性,提高最終的預(yù)測(cè)效果。
本文的主要貢獻(xiàn)如下:
a)采用雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)理解文本描述上下文信息,進(jìn)行全局信息學(xué)習(xí),獲取案件文本中的全局語(yǔ)義信息特征,增強(qiáng)知識(shí)圖譜嵌入空間中實(shí)體關(guān)系與案件事實(shí)描述文本之間的關(guān)聯(lián)表示。
b)計(jì)算案例間實(shí)體相似度來(lái)獲取知識(shí)圖譜中歷史相似案例特征信息,學(xué)習(xí)歷史信息特征,擴(kuò)大法律圖譜向量空間中相似案例間實(shí)體關(guān)系特征影響。
c)采用基于注意力機(jī)制融合方法來(lái)減少兩種異質(zhì)特征的融合損失。
1 問題定義
將法律判決預(yù)測(cè)任務(wù)定義為知識(shí)圖譜的鏈路預(yù)測(cè)任務(wù),如圖1所示,通過結(jié)合知識(shí)圖譜中的結(jié)構(gòu)化案件信息和案件事實(shí)描述文本的特征信息,豐富向量表示,提高最終判決預(yù)測(cè)結(jié)果的準(zhǔn)確率。
針對(duì)案件事實(shí)描述進(jìn)行知識(shí)抽取,并完成本體構(gòu)建,旨在結(jié)構(gòu)化表述案件的事實(shí)要素信息和審理過程,以本體模型作為表示、存儲(chǔ)案件事實(shí)要素信息的邏輯存儲(chǔ)介質(zhì),主要以裁判文書中案件事實(shí)描述的組成部分及它們之間的語(yǔ)義關(guān)系為依據(jù)。基于七步法[14],結(jié)合司法判決基本流程,構(gòu)建法律判決本體模型,為法律知識(shí)圖譜構(gòu)建提供邏輯支撐,具體定義實(shí)體類型和實(shí)體間關(guān)系如表1所示。其中,以案件號(hào)實(shí)體為出發(fā)點(diǎn)的關(guān)系主要描述案件事實(shí)基本信息,以罪犯實(shí)體為出發(fā)點(diǎn)的關(guān)系主要描述某罪犯在某案件中最終所獲判定信息。
對(duì)于法律知識(shí)圖譜中的實(shí)體集合E和關(guān)系集合R,鏈路預(yù)測(cè)任務(wù)的輸入端是從案件事實(shí)描述中提取到的案件事實(shí)要素三元組的集合S={(h,r,t)},其中h,t∈E,r∈R,每個(gè)三元組由頭實(shí)體h、關(guān)系r和尾實(shí)體t組成,輸出端是預(yù)測(cè)的三元組量刑尾實(shí)體。該任務(wù)的目標(biāo)是通過給定的判決結(jié)果三元組(h,r,t)遮蓋尾實(shí)體,生成測(cè)試三元組(h,r,ttest),并利用知識(shí)圖譜鏈路預(yù)測(cè)模型來(lái)推斷該判決結(jié)果實(shí)體屬于目標(biāo)實(shí)體的概率。在該預(yù)測(cè)模型中,通過對(duì)頭實(shí)體向量h和關(guān)系向量t進(jìn)行計(jì)算,得到當(dāng)前案件的判決結(jié)果實(shí)體屬于目標(biāo)實(shí)體的概率值,根據(jù)概率值對(duì)判決結(jié)果三元組的尾實(shí)體進(jìn)行預(yù)測(cè)。
2 基于知識(shí)圖譜的案件特征增強(qiáng)法律判決預(yù)測(cè)模型
針對(duì)知識(shí)圖譜嵌入存在案件事實(shí)特征信息缺失的問題,提出基于知識(shí)圖譜的案件特征增強(qiáng)法律判決預(yù)測(cè)模型(know-ledge graph feature enhance legal judgment prediction,KGFELJP),模型主要由知識(shí)圖譜嵌入模塊、類案特征增強(qiáng)模塊、全文語(yǔ)義特征增強(qiáng)模塊和基于注意力機(jī)制的特征融合模塊組成,模型結(jié)構(gòu)如圖2所示。
首先需要對(duì)案情描述的事實(shí)文本進(jìn)行知識(shí)圖譜三元組提取,將自然語(yǔ)言的案件事實(shí)轉(zhuǎn)換為結(jié)構(gòu)化的圖譜表示,有助于捕捉案件事實(shí)之間的關(guān)系。另外,為了獲取案件事實(shí)描述的整體語(yǔ)義信息,還需要對(duì)事實(shí)描述文本進(jìn)行詞向量編碼,編碼后通過單層的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional gate recurrent unit,Bi-GRU)[15]作為理解上下文信息的嵌入機(jī)制來(lái)增強(qiáng)案件事實(shí)描述文本的全文語(yǔ)義特征,更準(zhǔn)確地捕捉案件文本之間的關(guān)聯(lián)性。同時(shí),對(duì)知識(shí)圖譜嵌入后的案件要素向量通過案例實(shí)體相似度計(jì)算學(xué)習(xí)歷史案例實(shí)體的向量表示,計(jì)算案例間實(shí)體相似度作為權(quán)重,讓當(dāng)前案例學(xué)習(xí)到相似案例的關(guān)鍵實(shí)體和特征。最后通過基于注意力機(jī)制融合歷史案例特征增強(qiáng)后的知識(shí)圖譜案件要素向量表示和案件事實(shí)描述全文語(yǔ)義特征。在融合特征后進(jìn)行法律判決鏈路預(yù)測(cè)任務(wù),基于現(xiàn)有實(shí)體之間的關(guān)系,預(yù)測(cè)出判決結(jié)果的尾實(shí)體,實(shí)現(xiàn)法律判決預(yù)測(cè)的目標(biāo)。通過全文語(yǔ)義特征和歷史相似案例特征來(lái)豐富知識(shí)圖譜三元組的向量表示,彌補(bǔ)知識(shí)圖譜嵌入過程中案件特征信息的丟失,在保證可解釋性的前提下提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
2.1 知識(shí)圖譜嵌入模塊
通過知識(shí)抽取,將裁判文書中的案情事實(shí)描述轉(zhuǎn)換為事實(shí)三元組的形式來(lái)進(jìn)行表示,使案件事實(shí)描述的自然語(yǔ)言文本轉(zhuǎn)換為結(jié)構(gòu)化的知識(shí)圖譜向量,基于當(dāng)前表現(xiàn)最好的RotatE[16]鏈路預(yù)測(cè)模型進(jìn)行知識(shí)圖譜嵌入。RotatE 模型主要是通過將實(shí)體和關(guān)系映射到復(fù)數(shù)向量空間中,后續(xù)再將每個(gè)關(guān)系定義為復(fù)數(shù)向量空間中的旋轉(zhuǎn),進(jìn)而可以對(duì)不同類型的關(guān)系模式進(jìn)行建模和推理,并且由于其在時(shí)間和內(nèi)存上都保持線性,具有更強(qiáng)的表示能力,所以易擴(kuò)展到大型的知識(shí)圖譜,正好符合法律領(lǐng)域大量相關(guān)數(shù)據(jù)的特點(diǎn)??梢詫?shí)現(xiàn)將案件事實(shí)要素的初始向量映射到圖譜向量空間中,融合文本信息表示和知識(shí)圖譜結(jié)構(gòu),獲取法律知識(shí)圖譜中案件要素實(shí)體和關(guān)系的向量表示。
基于幾何模型RotatE的思想,定義如式(1)所示的評(píng)分函數(shù)來(lái)評(píng)估一個(gè)事實(shí)三元組(h,r,t)的置信度:
如果事實(shí)三元組(h,r,t)為真,評(píng)分函數(shù)應(yīng)該得到一個(gè)盡可能大的值。基于評(píng)分函數(shù)z(h,r,t),法律知識(shí)圖譜中事實(shí)三元組(h,r,t)的條件概率定義如式(2)所示。
其中:h′、t′表示頭實(shí)體和尾實(shí)體的負(fù)例;負(fù)樣本集S′(h,r,t)={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}。
知識(shí)圖譜嵌入模型的目標(biāo)是最大化當(dāng)前法律知識(shí)圖譜中已有事實(shí)三元組的條件概率,如式(3)所示。
2.2 類案特征增強(qiáng)模塊
實(shí)現(xiàn)類案特征增強(qiáng)首先要對(duì)相似案例進(jìn)行分組,將具有相似特征的案例分到同一個(gè)組,每個(gè)組表示一個(gè)案例類。從每個(gè)案例類中學(xué)習(xí)差異性特征,分析每個(gè)案例類中的案件差異,作為該類的差異性特征。將當(dāng)前案件的特征與每個(gè)案例類作比較,匹配相似度最高的那個(gè)類。根據(jù)匹配案例類的差異性特征調(diào)整當(dāng)前案件的向量表示,糾正偏差,關(guān)注當(dāng)前案件和匹配案例類的差異點(diǎn),保留當(dāng)前案件的獨(dú)特特征。
案例間相似度就是把一個(gè)案例的各個(gè)實(shí)體屬性間相似度綜合在一起,通常是通過距離來(lái)定義的。在構(gòu)建好的知識(shí)圖譜實(shí)體向量空間中,每個(gè)案件ci都是由n個(gè)實(shí)體eni表示成ci=(e1i,e2i,…,eni)T的形式。為了計(jì)算每個(gè)不同案件之間的語(yǔ)義相似度,通常使用兩個(gè)案件之間的歐氏距離來(lái)體現(xiàn)案件的語(yǔ)義相似性。兩個(gè)案例ci、cj之間的歐氏距離為兩個(gè)k維向量(e1i,e2i,…,eki)與(e1j,e2j,…,ekj)之間的距離,如式(4)所示。
其中:d(ci,cj)表示兩個(gè)向量之間的歐氏距離。假設(shè)案例ci、cj的相似度使用simcase(i, j)來(lái)表示,如式(5)所示。為了進(jìn)行歸一化處理,將案例間相似度限制在(0,1]來(lái)作為注意力權(quán)重系數(shù):
得到當(dāng)前案例與歷史相似案例的相似度之后,把相似度作為注意力機(jī)制的權(quán)重αj加權(quán)求和,使當(dāng)前案例學(xué)習(xí)到對(duì)歷史案例注意力聚焦的實(shí)體特征c,沿著列方向平鋪得到具有歷史案例特征的案件要素向量表征C,如式(6)所示。
c=∑αjc:j
C=TiledT(c)(6)
其中:αj為上述得到的當(dāng)前案例與歷史相似案例的相似度;TiledT(c)表示沿著列方向平鋪T次。
2.3 全文語(yǔ)義特征增強(qiáng)模塊
進(jìn)行全文語(yǔ)義特征增強(qiáng),需要對(duì)案件事實(shí)描述進(jìn)行詞向量編碼,將每個(gè)字符映射到高維向量空間,其中每個(gè)向量元素代表了一個(gè)詞語(yǔ)或短語(yǔ)的語(yǔ)義表示。將案情描述向量表征輸入一個(gè)單層的雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)獲取上下文信息的語(yǔ)義向量序列。將案件事實(shí)的語(yǔ)義信息嵌入到文本編碼向量中,增強(qiáng)文本表示的語(yǔ)義特征,獲取更全面、準(zhǔn)確的案件表示,繼而更好地理解案件各個(gè)要素之間的關(guān)系和影響,彌補(bǔ)知識(shí)圖譜嵌入重點(diǎn)關(guān)注于三元組信息而缺失全文語(yǔ)義特征的缺陷。
將輸入案件的案情描述分為m個(gè)句子,每個(gè)句子經(jīng)過詞向量編碼后表示為si,每個(gè)句子中的詞使用詞向量wj進(jìn)行表示,因此整個(gè)案件的案情描述可以表示為m個(gè)句子的向量序列fact={s1,s2,…,sm}。之后將案情描述的詞向量表示送入雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)層中,模擬詞與詞之間的語(yǔ)義交互來(lái)獲取案情描述上下文語(yǔ)義依賴特征F,如式(7)所示。
2.4 基于注意力機(jī)制的融合模塊
對(duì)類案特征增強(qiáng)后的知識(shí)圖譜三元組向量特征表示C和對(duì)事實(shí)描述文本全文語(yǔ)義特征增強(qiáng)后的特征表示F采用注意力機(jī)制特征融合方法(attentional feature fusion,AFF)[17]進(jìn)行融合,融合后的特征可以表示為
最終鏈路預(yù)測(cè)的結(jié)果分?jǐn)?shù)采用與 RotatE一致的評(píng)分函數(shù),如式(1)所示,區(qū)別在于加上了融合后的特征向量矩陣可以實(shí)現(xiàn)案件要素的向量表示與知識(shí)圖譜的三元組結(jié)構(gòu)相結(jié)合,豐富三元組中實(shí)體和關(guān)系的特征表示,如式(9)所示。
其中:Re(·)表示向量的實(shí)部;lm(·)表示向量的虛部;Wfc表示增強(qiáng)融合后的特征在復(fù)數(shù)空間的向量矩陣;Θ為參數(shù)空間。
2.5 方法步驟
算法 基于知識(shí)圖譜的特征增強(qiáng)鏈路預(yù)測(cè)方法
3 實(shí)驗(yàn)和分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
數(shù)據(jù)集選擇經(jīng)過脫敏處理的CAIL2018的測(cè)試數(shù)據(jù)集[18],共包括268萬(wàn)刑事法律文本,其中涉及202條罪名和183條法條,刑期長(zhǎng)短包括0~25年、無(wú)期、死刑,內(nèi)容對(duì)應(yīng)到案情描述與罪名裁定兩部分,滿足對(duì)裁判文書中的數(shù)據(jù)源的需求。經(jīng)過數(shù)據(jù)清洗,挑選出單人單罪的案件,即只有一個(gè)犯罪嫌疑人且只觸犯一個(gè)罪名的案件,最終選擇初始數(shù)據(jù)集和經(jīng)過篩選得到的危險(xiǎn)駕駛罪和盜竊罪這兩類罪名刑期標(biāo)簽分布差距很大的類別案件為研究對(duì)象,并對(duì)數(shù)據(jù)的刑期結(jié)果進(jìn)行統(tǒng)計(jì),得到以月為單位刑期的案件數(shù)量統(tǒng)計(jì),如圖3所示。
3.2 參數(shù)設(shè)置和評(píng)價(jià)指標(biāo)
由于中文案件事實(shí)描述文檔長(zhǎng)度大部分都在 300~750 字符,為減少裁剪和填補(bǔ)帶來(lái)的負(fù)面影響,設(shè)置最大文檔長(zhǎng)度為 635字符;采用 Adam 算法作為優(yōu)化器,學(xué)習(xí)率設(shè)為 0.000 1;提取案件事實(shí)語(yǔ)義特征的鄰域信息的長(zhǎng)度為 50,即為案件事實(shí)要素采樣 50 字符節(jié)點(diǎn)作為其上下文信息;單層Bi-GRU 的dropout(隨機(jī)失活率)設(shè)置為丟失 0.2;批次處理大小設(shè)置為 8,訓(xùn)練輪次設(shè)置為 99。
知識(shí)圖譜嵌入的實(shí)體和關(guān)系向量維度為200,每個(gè)計(jì)算批次的大小為 100 × 50,正例三元組的個(gè)數(shù)為100,每個(gè)三元組的負(fù)采樣個(gè)數(shù)為50,訓(xùn)練輪數(shù)設(shè)置為 1 000,剩余參數(shù)為RotatE中所提供的默認(rèn)參數(shù)。
鏈接預(yù)測(cè)任務(wù)通常以MRR、Hit@1、Hit@3、Hit@10作為評(píng)估模型的指標(biāo)。MRR是指平均倒排序,主要用于衡量正例三元組的最高排名,計(jì)算值越大,表示模型的鏈接預(yù)測(cè)性能越好,表示為
Hit@n是指在鏈接預(yù)測(cè)中排名小于n的三元組的平均占比,側(cè)重于總體排名,數(shù)值越大,表示模型的鏈接預(yù)測(cè)性能越好,n的取值一般為1、3和10,具體公式如下:
其中:S表示三元組的集合;|S|是三元組集合的個(gè)數(shù);ranki表示第i個(gè)三元組的鏈接預(yù)測(cè)排名;函數(shù)I(·)表示如果條件成立則為1,不成立則為0。
考慮到需要與基于深度學(xué)習(xí)的判決預(yù)測(cè)方法進(jìn)行比較,使用準(zhǔn)確率Acc和宏F值(macro-F)用于基于深度學(xué)習(xí)的法律判決預(yù)測(cè)的評(píng)價(jià)指標(biāo)。Acc與Hit@1基本一致,主要用于評(píng)價(jià)結(jié)果中最大概率為正確標(biāo)簽的比例;macro-F用于評(píng)價(jià)模型在所有標(biāo)簽中的分類性能。
3.3 基線模型
為了驗(yàn)證本文方法在基于法律知識(shí)圖譜的法律判決鏈路預(yù)測(cè)任務(wù)中的有效性,將本文方法與幾類非常典型的知識(shí)圖譜鏈路預(yù)測(cè)模型方法和深度學(xué)習(xí)預(yù)測(cè)方法進(jìn)行對(duì)比。對(duì)比方法主要包括TransE[19]、TransH[20]、TransA[21]、TransR[22]、DistMult[23]、SimplE[24]、ComplEx[25]、ConvE[26]和當(dāng)前鏈路預(yù)測(cè)表現(xiàn)效果最好的RotatE[16]以及當(dāng)前最新的基于深度學(xué)習(xí)的法律判決預(yù)測(cè)方法NeurJudge[27]、EPM[4]以及ML-LJP[28]。
3.4 實(shí)驗(yàn)結(jié)果和實(shí)驗(yàn)分析
為了比較特征增強(qiáng)的知識(shí)圖譜法律判決鏈路預(yù)測(cè)模型 KGFELJP 和基線模型,在未篩選罪名的CAIL2018數(shù)據(jù)集和篩選某種罪名后的兩種罪名,即危險(xiǎn)駕駛罪和盜竊罪的數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2~5所示,黑體數(shù)字為最優(yōu)結(jié)果(下同)。特別說(shuō)明:考慮到基于知識(shí)圖譜和基于深度學(xué)習(xí)的判決預(yù)測(cè)任務(wù)具有兩種不同的評(píng)價(jià)指標(biāo)體系,無(wú)法獲取對(duì)方的評(píng)價(jià)指標(biāo)數(shù)據(jù),因此在表5中使用“—”來(lái)代替表示。
從實(shí)驗(yàn)結(jié)果可以看出:
a)從基準(zhǔn)模型的角度來(lái)說(shuō),KGFELJP模型在不同的數(shù)據(jù)集上,整體都優(yōu)于當(dāng)前最好的知識(shí)圖譜鏈路預(yù)測(cè)模型RotatE。其中在三類數(shù)據(jù)集上, KGFELJP 比最好的模型RotatE 在評(píng)價(jià)指標(biāo)MRR上均有提升,說(shuō)明本文方法對(duì)正確實(shí)體的結(jié)果預(yù)測(cè)位置更靠前,預(yù)測(cè)效果更好;在評(píng)價(jià)指標(biāo)Hit @1、Hit @3、Hit @10上同樣有所提升,說(shuō)明本文方法在預(yù)測(cè)精度上更加優(yōu)秀。由此可以證明,通過增強(qiáng)知識(shí)圖譜中實(shí)體和關(guān)系的特征表示,獲取實(shí)體關(guān)系在案件事實(shí)描述文本中的語(yǔ)義信息及歷史案例中的特征信息,進(jìn)行法律判決鏈路預(yù)測(cè)任務(wù),可以提升最終預(yù)測(cè)的效果。但由表5可得,KGFELJP模型與最新表現(xiàn)較好的基于深度學(xué)習(xí)的法律判決預(yù)測(cè)模型ML-LJP相比,仍然存在一定的差距,但通過使用圖譜嵌入方法可以獲得案件要素的向量表示,為模型學(xué)習(xí)案件的審理邏輯提供推理鏈路規(guī)則,使辦案人員能清楚地理解模型的預(yù)測(cè)依據(jù),提升預(yù)測(cè)結(jié)果的可解釋性。
b)從聚焦罪名的角度來(lái)說(shuō),KGFELJP模型在聚焦某類罪名的數(shù)據(jù)集上,評(píng)價(jià)指標(biāo)的提升要比在CAIL2018整體數(shù)據(jù)集上提升效果高得多,很可能是通過篩選出某種特定的罪名,去掉了很多對(duì)結(jié)果無(wú)關(guān)的影響因素,控制模型復(fù)雜度,減少模型學(xué)習(xí)的困難,避免過擬合。
c)從刑期分布的角度來(lái)說(shuō),KGFELJP模型在危險(xiǎn)駕駛罪的數(shù)據(jù)集上,評(píng)價(jià)指標(biāo)的提升要比在盜竊罪的數(shù)據(jù)集上提升性能高,原因可能是危險(xiǎn)駕駛罪的刑期標(biāo)簽分布比較均勻,會(huì)減少很多因數(shù)據(jù)不均衡而產(chǎn)生的噪聲損失,后續(xù)研究需要在數(shù)據(jù)集處理時(shí),對(duì)刑期標(biāo)簽劃分固定區(qū)間范圍以減少損失。
考慮到知識(shí)圖譜數(shù)據(jù)的稀疏問題,即由于信息表達(dá)的豐富性往往帶有偏好,且受限于知識(shí)抽取手段本身性能問題(一些暗含的常識(shí)信息并不會(huì)出現(xiàn)在自然語(yǔ)料中),實(shí)體間的關(guān)系往往是不完整的。為了充分驗(yàn)證模型的有效性,額外在兩種罪名數(shù)據(jù)集上進(jìn)行了稀疏知識(shí)圖譜信息實(shí)驗(yàn),在保證不剔除實(shí)體/關(guān)系的前提下,隨機(jī)剔除數(shù)據(jù)中的一些事實(shí),結(jié)果如表6和7所示。
實(shí)驗(yàn)結(jié)果顯示,在隨機(jī)剔除某些事實(shí)的條件下,在兩種罪名數(shù)據(jù)集上各模型表現(xiàn)均有下降,其原因可能是某些關(guān)系的缺失影響了部分實(shí)體描述的豐富性,制約了模型的進(jìn)一步提升。這一問題在基于嵌入的模型RotatE中尤為明顯,這是由于缺乏結(jié)構(gòu)信息在語(yǔ)義空間中會(huì)學(xué)習(xí)到錯(cuò)誤的嵌入,最終效果會(huì)下降很多。而本文模型通過額外學(xué)習(xí)全局信息和歷史信息來(lái)彌補(bǔ)語(yǔ)義空間部分實(shí)體關(guān)系缺失的不足,雖然表現(xiàn)也有所下降,但相較于RotatE模型還算比較穩(wěn)定。上述實(shí)驗(yàn)驗(yàn)證了本文模型在面對(duì)數(shù)據(jù)稀疏問題的有效性,為知識(shí)圖譜法律判決預(yù)測(cè)任務(wù)提供了一個(gè)新的有競(jìng)爭(zhēng)力的解決方案。
3.5 消融實(shí)驗(yàn)
為了驗(yàn)證本文模型的類案特征增強(qiáng)模塊、全文語(yǔ)義特征增強(qiáng)模塊以及注意力機(jī)制特征融合模塊的有效性,采用控制變量的方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表8~10所示。特別說(shuō)明:“(-)SCFE”表示未對(duì)知識(shí)圖譜向量空間使用相似案例特征增強(qiáng);“(-)SFE”表示未使用全文語(yǔ)義特征增強(qiáng)來(lái)彌補(bǔ)語(yǔ)義損失;“(-)AFF”表示對(duì)特征增強(qiáng)后的向量采用直接拼接的向量融合方式,未引入注意力機(jī)制融合來(lái)減少損失。
實(shí)驗(yàn)結(jié)果顯示,在不同的罪名數(shù)據(jù)集上去掉某個(gè)模塊的結(jié)果,模型表現(xiàn)均有所降低,充分驗(yàn)證了模型中各模塊的有效性。另一方面,在使用兩個(gè)模塊對(duì)知識(shí)圖譜向量空間進(jìn)行豐富向量表示后,額外加入注意力特征融合機(jī)制可以明顯彌補(bǔ)兩種異構(gòu)特征融合時(shí)的信息損失,從而進(jìn)一步提升了最終的鏈路預(yù)測(cè)效果。綜上,通過定量分析,充分驗(yàn)證了本文模型中各模塊的有效性,為知識(shí)圖譜法律判決預(yù)測(cè)任務(wù)提供了一個(gè)新的有競(jìng)爭(zhēng)力的解決方案。
3.6 預(yù)測(cè)方法可解釋性分析
雖然本文模型的預(yù)測(cè)效果與當(dāng)前表現(xiàn)較好的基于深度學(xué)習(xí)的法律判決預(yù)測(cè)模型相比,仍然存在一定的差距,但是基于知識(shí)圖譜的判決預(yù)測(cè)方法通過自然語(yǔ)言處理,對(duì)司法領(lǐng)域非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行信息提取和知識(shí)融合,將文本中的案件事實(shí)和法律關(guān)系進(jìn)行提煉和概括,實(shí)現(xiàn)了從非結(jié)構(gòu)化文本向結(jié)構(gòu)化知識(shí)圖譜的轉(zhuǎn)換,從而減少數(shù)據(jù)的模糊性和不確定性,獲得了更具解釋性和確定性的司法知識(shí)表達(dá)。知識(shí)圖譜結(jié)構(gòu)化表示有利于案件分析和法律推理,可以實(shí)現(xiàn)對(duì)司法決策過程的可解釋性建模,在構(gòu)建好的法律知識(shí)圖譜中,每一個(gè)案件事實(shí)實(shí)體和關(guān)系中都存在一條清晰明了的推理鏈條,即“案件基本信息-案件提交證據(jù)-案件犯罪主體-案件當(dāng)事人違反罪名及法條-案件加(減)刑因素-案件最終判決結(jié)果”,如圖4所示。
從當(dāng)前案件審判流程中所提交的案件關(guān)鍵證據(jù)事實(shí)出發(fā),途經(jīng)案件犯罪主體和對(duì)案件的判決結(jié)果有影響的案件因素,將識(shí)別出的案件要素與提交證據(jù)標(biāo)準(zhǔn)關(guān)聯(lián)匹配,獲取相符合的法條和罪名,并最終得到當(dāng)前案件的法律判決結(jié)果,形成完整嚴(yán)謹(jǐn)?shù)姆膳袥Q預(yù)測(cè)邏輯體系,清晰地展示出案件審理推斷的主要情況和發(fā)展趨勢(shì),支撐法院審判工作流程中的案件演化分析,如圖5所示,輔助法官通過案件推理鏈條實(shí)現(xiàn)對(duì)案情的合理分析,可提高司法審判的效率和質(zhì)量。
4 結(jié)束語(yǔ)
本文選取智慧司法領(lǐng)域中較為重要的法律判決預(yù)測(cè)任務(wù)作為研究重點(diǎn),針對(duì)基于知識(shí)圖譜的法律判決預(yù)測(cè)方法未充分融合外部特征,存在案件特征信息缺slTl7RrN4ZhcxWyXgk90FdmzN3pnbZztqc1FVzEtpCE=失的問題,引入特征補(bǔ)全來(lái)彌補(bǔ)知識(shí)圖譜嵌入中案例信息的缺失。具體來(lái)說(shuō),本文通過雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)獲取案件事實(shí)描述文本的語(yǔ)義信息表示,另一邊對(duì)知識(shí)圖譜嵌入后的案件要素向量表示進(jìn)行歷史相似案例特征增強(qiáng),最終兩者經(jīng)注意力機(jī)制融合不同層次的案情描述的表示,以增強(qiáng)知識(shí)圖譜中的實(shí)體和關(guān)系與案件的文本描述之間的關(guān)聯(lián),獲得實(shí)體和關(guān)系在案情文本中的語(yǔ)義信息,從而提升最終預(yù)測(cè)的性能。在經(jīng)過數(shù)據(jù)處理后的公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果顯示,本文提出的特征增強(qiáng)的類案輔助鏈路預(yù)測(cè)方法在法律判決預(yù)測(cè)任務(wù)上優(yōu)于當(dāng)前表現(xiàn)最好的鏈路預(yù)測(cè)模型,且相較于基于深度學(xué)習(xí)的法律判決預(yù)測(cè)方法來(lái)說(shuō),更具有可解釋性,可以實(shí)現(xiàn)對(duì)司法決策過程的可解釋性建模。當(dāng)然,本文研究也存在一定不足之處,如選取了只有一個(gè)當(dāng)事人且只涉及到一個(gè)罪名的案件作為研究重點(diǎn),此外效果也并未達(dá)到基于深度學(xué)習(xí)的法律判決預(yù)測(cè)方法的最優(yōu)效果。未來(lái),考慮從這兩個(gè)方面繼續(xù)進(jìn)行研究,在保證可解釋性的前提下,不斷提高方法的最終預(yù)測(cè)效果。
參考文獻(xiàn):
[1]Zhong Haoxi,Guo Zhipeng,Tu Cunchao,et al. Legal judgment prediction via topological learning [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2018: 3540-3549.
[2]Ma Luyao,Zhang Yating,Wang Tianyi,et al. Legal judgment prediction with multi-stage case representation learning in the real court setting [C]// Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : ACM Press,2021: 993-1002.
[3]Huang Yunyun,Shen Xiaoyu,Li Chuanyi,et al. Dependency learning for legal judgment prediction with a unified text-to-text transformer[EB/OL].(2021-12-13). https://arxiv.org/abs/2112.06370.
[4]Feng Yi,Li Chuanyi,Vincent N. Legal judgment prediction via event extraction with constraints [C]// Proc of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2022: 648-664.
[5]張晗,鄭偉昊,竇志成,等. 融合法律文本結(jié)構(gòu)信息的刑事案件判決預(yù)測(cè) [J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(3): 253-263.(Zhang Han,Zheng Weihao,Dou Zhicheng,et al. Integrating multi-layer structure information of law for legal judgment prediction [J]. Computer Engineering and Applications,2023,59(3): 253-263.)
[6]洪文興,胡志強(qiáng),翁洋,等. 面向司法案件的案情知識(shí)圖譜自動(dòng)構(gòu)建 [J]. 中文信息學(xué)報(bào),2020,34(1): 34-44.(Hong Wenxing,Hu Zhiqiang,Weng Yang,et al. Automated knowledge graph construction for judicial case facts [J]. Journal of Chinese Information Processing,2020,34(1): 34-44.)
[7]杜文源. 基于知識(shí)圖譜的刑事案件判決預(yù)測(cè)算法研究 [D]. 廈門:廈門大學(xué),2020.(Du Wenyuan. Research on criminal case judgment prediction algorithm based on knowledge graph [D]. Xiamen:Xiamen University,2020.)
[8]陳思. 司法領(lǐng)域知識(shí)圖譜構(gòu)建及推薦應(yīng)用的研究與實(shí)現(xiàn) [D]. 北京: 北京郵電大學(xué),2020.(Chen Si. Research and implementation of knowledge graph construction and recommendation application in the judicial field [D]. Beijing:Beijing University of Posts and Tele-communications,2020.)
[9]Dhani J S,Bhatt R,Ganesan B,et al. Similar cases recommendation using legal knowledge graphs [EB/OL].(2024-03-02). https://arxiv.org/abs/2107.04771.
[10]Li Luoqiu,Zhen Bi,Ye Hongbin,et al. Text-guided legal knowledge graph reasoning [C]// Proc of the 6th China Conference on Know-ledge Graph and Semantic Computing. Singapore: Springer,2021: 27-39.
[11]王治政,王雷,李帥馳,等. 基于多視角知識(shí)圖譜嵌入的量刑預(yù)測(cè) [J]. 模式識(shí)別與人工智能,2021,34(7): 655-665.(Wang Zhizheng,Wang Lei,Li Shuaichi,et al. Sentencing prediction based on multi-view knowledge graph embedding [J]. Pattern Recognition and Artificial Intelligence,2021,34(7): 655-665.)
[12]Zhao Qihui,Gao Tianhan,Zhou Song,et al. Legal judgment prediction via heterogeneous graphs and knowledge of law articles [J]. Applied Sciences,2022,12(5): 2531.
[13]黃治綱,謝新強(qiáng),邢鐵軍,等. 基于司法案例知識(shí)圖譜的類案推薦 [J]. 南京大學(xué)學(xué)報(bào):自然科學(xué),2021,57(6): 1053-1063.(Huang Zhigang,Xie Xinqiang,Xing Tiejun,et al. Case recommendation based on knowledge graph of judicial cases [J]. Journal of Nanjing University Natural Science,2021,57(6): 1053-1063.)
[14]鄧詩(shī)琦,洪亮. 面向智能應(yīng)用的領(lǐng)域本體構(gòu)建研究——以反電話詐騙領(lǐng)域?yàn)槔?[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(7): 73-84.(Deng Shiqi,Hong Liang. Constructing domain ontology for intelligent applications: case study of anti tele-fraud[J]. Data Analysis and Knowledge Discovery,2019,3(7): 73-84.)
[15]Cho K,Van Merrienboer B,Gulcehre C,et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [EB/OL].(2014-09-03). https://arxiv.org/abs/1406.1078.
[16]Sun Zhiqing,Deng Zhihong,Nie Jianyun,et al. RotatE: knowledge graph embedding by relational rotation in complex space [EB/OL].(2019-02-26). https://arxiv.org/abs/1902.10197.
[17]Dai Yimian,Gieseke F,Oehmcke S,et al. Attentional feature fusion [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2021: 3559-3568.
[18]Xiao Chaojun,Zhong Haoxi,Guo Zhipeng,et al. CAIL2018: a large-scale legal dataset for judgment prediction [EB/OL].(2018-07-04). https://arxiv.org/abs/1807.02478.
[19]Bordes A,Usunier N,Garcia-Durán A,et al. Translating embeddings for modeling multi-relational data [C]// Proc of the 26th Internatio-nal Conference on Neural Information Processing Systems. Red Hook,NY : Curran Associates Inc.,2013:2787-2795.
[20]Wang Zhen,Zhang Jianwen,F(xiàn)eng Jianlin,et al. Knowledge graph embedding by translating on hyperplanes [C]// Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2014:1112-1119.
[21]Xiao Han,Huang Minlie,Hao Yu,et al. TransA: an adaptive approach for knowledge graph embedding [EB/OL].(2015-09-28). https://arxiv.org/abs/1509.05490.
[22]Lin Yankai,Liu Zhiyuan,Sun Maosong,et al. Learning entity and relation embeddings for knowledge graph completion [C]// Proc of the 29th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2015: 2181-2187.
[23]Yang Bishan,Yih W T,He Xiaodong,et al. Embedding entities and relations for learning and inference in knowledge bases [EB/OL].(2015-08-29). https://arxiv.org/abs/1412.6575.
[24]Kazemi S M,Poole D. Simple embedding for link prediction in know-ledge graphs [EB/OL].(2018-10-26). https://arxiv.org/abs/1802.04868.
[25]Trouillon T,Welbl J,Riedel S,et al. Complex embeddings for simple link prediction [EB/OL].(2016-06-20). https://arxiv.org/abs/1606.06357.
[26]Dettmers T,Minervini P,Stenetorp P,et al. Convolutional 2D know-ledge graph embeddings [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018:1811-1818.
[27]Yue Linan,Liu Qi,Jin Binbin,et al. NeurJudge: a circumstance-aware neural framework for legal judgment prediction [C]// Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : ACM Press,2021: 973-982.
[28]Liu Yifei,Wu Yiquan,Zhang Yating,et al. ML-LJP: multi-law aware legal judgment prediction [C]// Proc of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York : ACM Press,2023: 1023-1034.