鄧 健,周 纖,羅準(zhǔn)辰,巢文涵
(1. 北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,北京 100191;2. 中國(guó)人民解放軍軍事科學(xué)院 軍事科學(xué)信息研究中心,北京 100142)
在法制社會(huì)中,證據(jù)是法官判決的前提條件。司法實(shí)踐中任何訴訟均應(yīng)以認(rèn)定事實(shí)和適用法律為其內(nèi)容,其中適用法律以一定事實(shí)的存在為前提,而事實(shí)認(rèn)定則有賴于證據(jù)證明。因此,在法律案件的審理過(guò)程中,需要通過(guò)證據(jù)鏈還原案件的真實(shí)樣貌,使法官能夠基于恰當(dāng)?shù)倪壿嫽A(chǔ)進(jìn)行審判,這個(gè)過(guò)程也被稱為證據(jù)推理(Evidential Reasoning)[1-2],是法官判案中重要的一環(huán)。如圖1所示,在被告人楊某的故意殺人案件中,作案工具圖這項(xiàng)證據(jù)證明了被告人作案工具與供述一致的事實(shí),這些證據(jù)事實(shí)可以輔助法官推進(jìn)故意殺人罪名的判決。
然而,在實(shí)際的司法實(shí)踐中,法官在撰寫(xiě)法律判決書(shū)時(shí)忽視或者回避證據(jù)事實(shí)推理的現(xiàn)象一定程度上還存在著。尤其是隨著文書(shū)上網(wǎng)制度的推行,公眾在接觸到更多刑事判決書(shū)的同時(shí),判決書(shū)證據(jù)說(shuō)理方面的不足也顯露在大眾視野中。如圖1所示,根據(jù)Teng等人[3]的研究,一般刑事判決書(shū)中證據(jù)部分通常為以下兩種表述方法: 左側(cè)利用抽象、籠統(tǒng)的說(shuō)法或者簡(jiǎn)單羅列的方法,代替對(duì)證據(jù)的分析、推理、論證,而右側(cè)證據(jù)說(shuō)理形式則規(guī)范組織了證據(jù)與其所能證明的證據(jù)事實(shí),即分論點(diǎn)(Sub-claim),具有更好的可讀性,然而此類規(guī)范形式在形式判決書(shū)中僅占約5%。
為了進(jìn)一步完善司法案件中證據(jù)事實(shí)的推理過(guò)程,本文提出了一項(xiàng)新的司法分論點(diǎn)生成任務(wù),基于對(duì)已知證據(jù)子集的歸納推理,生成合適的分論點(diǎn)作為證據(jù)事實(shí)以供判案參考。目前,司法領(lǐng)域的文本生成工作主要集中在摘要生成[4-5]或法庭觀點(diǎn)生成[6-7],但是這些研究與司法分論點(diǎn)生成存在著較為明顯的區(qū)別: 首先,司法摘要或者法庭觀點(diǎn)是對(duì)于案件事實(shí)的高度概括、總結(jié)性陳述,而司法分論點(diǎn)是一個(gè)個(gè)的證據(jù)事實(shí),屬于案件事實(shí)中的局部關(guān)鍵信息;其次,以證據(jù)為基礎(chǔ)的司法分論點(diǎn)能構(gòu)建一條從事實(shí)、證據(jù)、分論點(diǎn)、主罪名的完整邏輯鏈,能夠清晰展現(xiàn)出法官在案件定罪中的推理過(guò)程,而法庭觀點(diǎn)通常屬于對(duì)于最終判決的概括性解釋。
然而,當(dāng)前的文本生成模型[5,8-9]直接用于司法分論點(diǎn)生成仍然會(huì)存在一些問(wèn)題。司法分論點(diǎn)是基于證據(jù)推理出的證據(jù)事實(shí),通常與原始的案件事實(shí)存在一定的邏輯關(guān)系,這意味著我們需要依托于證據(jù)以及案件事實(shí)內(nèi)在的關(guān)聯(lián)來(lái)挖掘出更恰當(dāng)?shù)乃痉ǚ终擖c(diǎn)。此外,作為成文法國(guó)家,法律條文是案件審判中法官判案最基礎(chǔ)的依據(jù),其中規(guī)定了相應(yīng)罪名的構(gòu)成要件,這些信息能夠指導(dǎo)司法分論點(diǎn)的生成。因此,法律條文和當(dāng)前案件事實(shí)之間的潛在關(guān)系也是一個(gè)需要考慮的內(nèi)容。
針對(duì)上述問(wèn)題,本文提出了一種基于雙重注意力網(wǎng)絡(luò)[10]的司法分論點(diǎn)生成模型,該模型主要由證據(jù)注意力模塊以及法條注意力模塊構(gòu)成。具體來(lái)說(shuō),在證據(jù)注意力模塊中,通過(guò)注意力機(jī)制挖掘案件事實(shí)中與證據(jù)相關(guān)的碎片事實(shí)信息;在法條注意力模塊中,我們?cè)O(shè)計(jì)了一個(gè)法條注意力模型,利用案件事實(shí)信息增強(qiáng)法律條文的上下文表示。之后,相關(guān)證據(jù)和法律條文的信息被輸入進(jìn)解碼器中,逐步生成司法分論點(diǎn)。此外,為了增強(qiáng)生成文本的專業(yè)性以及準(zhǔn)確性,我們?cè)诮獯a器中使用了復(fù)制機(jī)制[11]來(lái)從原始事實(shí)描述中復(fù)制詞語(yǔ)。最后,為了評(píng)估模型效果,我們從在線裁判文書(shū)網(wǎng)中構(gòu)建了一個(gè)新的司法分論點(diǎn)數(shù)據(jù)集(1)https://drive.google.com/file/d/13PF4bvVRmyw1izcEuk-X9GvawO5qC_FlF/view?usp=sharing,在此數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們提出的模型能夠生成質(zhì)量更高的司法分論點(diǎn)文本。
本文貢獻(xiàn)主要如下: 首先據(jù)我們所知,我們首次提出服務(wù)于法律案件證據(jù)推理的司法分論點(diǎn)生成任務(wù),并且為此任務(wù)構(gòu)建了一個(gè)真實(shí)數(shù)據(jù)集;其次我們提出了一個(gè)雙重注意力網(wǎng)絡(luò)模型來(lái)挖掘證據(jù)、法律和事實(shí)信息之間的潛在關(guān)聯(lián),通過(guò)捕獲上下文語(yǔ)義來(lái)提高分論點(diǎn)生成的整體性能;最后在構(gòu)建的司法數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了本文所提出的模型的效果。
本文工作與目前尚未受到太多關(guān)注的司法證據(jù)有關(guān)。Ji等人[12]提出了從法庭記錄文件中提取證據(jù)信息的任務(wù),其目標(biāo)為從法庭記錄文件中提取證據(jù)提供者、證據(jù)名稱、證據(jù)內(nèi)容、質(zhì)證和質(zhì)證意見(jiàn)等關(guān)鍵信息。他們根據(jù)上述的信息類型來(lái)對(duì)文檔進(jìn)行分類,并通過(guò)端到端的聯(lián)合模型來(lái)完成證據(jù)信息的提取。
隨后,Ali等人[13]也從法院判決中提取了證據(jù)信息,并將其用于檢索類似的司法案件。最近,Teng等人[3]為了解決大多數(shù)法律判決書(shū)中的證據(jù)散亂問(wèn)題,提出了一種基于BERT[14]和 ESIM[15]的論辯驅(qū)動(dòng)方法來(lái)評(píng)判證據(jù)對(duì)之間的距離,從而據(jù)此將所有的司法證據(jù)分為多個(gè)不相交的證據(jù)子集。本文工作主要通過(guò)案情描述來(lái)挖掘證據(jù)之間的相關(guān)性,并且推導(dǎo)出證據(jù)在當(dāng)前案件中的作用。
以前關(guān)于法律文本生成的工作主要集中在摘要生成上。Schilder和Molina-Salgado[8]假設(shè)法律文件中的某些句子或段落可以概括部分或者整個(gè)文件。因此,他們提出了一種基于圖的方法,通過(guò)對(duì)比句子和段落的相似得分來(lái)對(duì)它們排序。Galgani等人[4]通過(guò)引入知識(shí)庫(kù)并提取個(gè)別關(guān)鍵句來(lái)概括一份法律文件。在他們的另一項(xiàng)工作[9]中,他們根據(jù)引文中的關(guān)鍵字篩選出合適的句子作為摘要。之后,Polsley等人[5]提出了一種基于詞頻和外部知識(shí)的法律文件自動(dòng)摘要工具。
更具體來(lái)說(shuō),與我們工作最相關(guān)的法律文本生成是基于案情描述的法庭觀點(diǎn)生成任務(wù)。Ye等人[6]首次提出該任務(wù),并設(shè)計(jì)了一個(gè)基于 LSTM 的label-seq2seq模型。Wu等人[16]將此任務(wù)應(yīng)用于民事案件。由于民事訴訟的“不告不理”原則,引入原告的訴求來(lái)生成法院觀點(diǎn),從而同意或駁回原告訴求。然后,Yue等人[17]將法庭觀點(diǎn)分為判決情況(ADC)和量刑情節(jié)(SEC)兩部分,并從案件事實(shí)中提取相關(guān)句子來(lái)分別生成。而最近Li 和Zhang[7]通過(guò)在他們的模型中利用罪名和法律條文進(jìn)一步提高了這項(xiàng)任務(wù)的性能。我們的司法分論點(diǎn)生成任務(wù)作為一項(xiàng)司法輔助工具,通過(guò)生成分論點(diǎn)來(lái)形成一條支撐最終判決的合理邏輯鏈,從而為法官以及其他司法從業(yè)人員提供參考。
本節(jié)我們會(huì)對(duì)司法分論點(diǎn)生成問(wèn)題給出一個(gè)準(zhǔn)確的定義。給定法律判決書(shū)中的一個(gè)由m個(gè)證據(jù)組成的集合E={E1,E2,E3,…,Em},長(zhǎng)度為n的案件描述文本F={f1,f2,f3,…,fn},以及p條相關(guān)的法律條文L={L1,L2,L3,…,Lp},我們的司法分論點(diǎn)生成任務(wù)是生成合適且符合邏輯的司法分論點(diǎn)C={c1,c2,c3,…,cq}。
給定一個(gè)實(shí)際的司法案件,我們需要從事實(shí)描述、證據(jù)和案件相關(guān)法律條文中挖掘三者之間的潛在信息,以產(chǎn)生合理的司法分論點(diǎn)。其中,證據(jù)是用來(lái)佐證案件經(jīng)過(guò)的真實(shí)性,它與案件經(jīng)過(guò)的某一部分事實(shí)有關(guān)。而法律條文是尋找請(qǐng)求權(quán)基礎(chǔ)與判斷法律關(guān)系最可靠的路徑,指明了各個(gè)罪名的犯罪構(gòu)成要件,結(jié)合具體案件經(jīng)過(guò)能將條文以更具說(shuō)服力的分論點(diǎn)形式將案件事實(shí)涵攝于法條的事實(shí)構(gòu)成之下,形成合理的推理結(jié)構(gòu)。考慮到證據(jù)和法律文章之間的差異,我們?cè)O(shè)計(jì)了基于雙重注意力網(wǎng)絡(luò)的司法融合模型來(lái)對(duì)案件經(jīng)過(guò)、證據(jù)和法律條文之間的特征進(jìn)行建模,從而獲取更有價(jià)值的法律上下文特征信息。
如圖2所示,我們?cè)O(shè)計(jì)了兩種類型的注意力模塊,以更好地獲得司法上下文特征。其中,主要使用預(yù)訓(xùn)練語(yǔ)言模型對(duì)兩個(gè)注意力模塊中的不同輸入進(jìn)行編碼,得到相應(yīng)的編碼向量。在證據(jù)注意力模塊中,我們將證據(jù)與案件經(jīng)過(guò)拼接在一起輸入預(yù)訓(xùn)練語(yǔ)言模型中進(jìn)行編碼,以獲得證據(jù)增強(qiáng)的案件經(jīng)過(guò)表示。此外,在法律注意力模塊中,我們分兩個(gè)階段實(shí)現(xiàn)了法條向量的獲取以及法律和案件經(jīng)過(guò)之間的注意力表示。最后,將兩個(gè)注意力模塊的輸出融合后作為T(mén)ransformer解碼器的輸入,通過(guò)逐步解碼從而得到符合邏輯的司法分論點(diǎn)。
圖2 模型整體架構(gòu)由一個(gè)基于雙重注意力模塊的編碼器,以及帶有復(fù)制機(jī)制的堆疊Transformer解碼器構(gòu)成。
在司法程序中,任何訴訟均以認(rèn)定事實(shí)和適用法律為其內(nèi)容,而事實(shí)的認(rèn)定是否真實(shí),則有賴于證明。因此,證據(jù)對(duì)于案件事實(shí)的認(rèn)定起著核心作用。而證據(jù)事實(shí)是人們基于證據(jù)所作出的關(guān)于案件的陳述,準(zhǔn)確地說(shuō),系由對(duì)證據(jù)的描述出發(fā)經(jīng)由合理推導(dǎo)而形成的對(duì)事實(shí)的陳述。鑒于證據(jù)和案件事實(shí)之間的關(guān)聯(lián)性,我們?cè)O(shè)計(jì)了一個(gè)證據(jù)注意力模塊,通過(guò)結(jié)合證據(jù)和事實(shí)描述之間以及證據(jù)和證據(jù)之間的信息來(lái)增強(qiáng)證據(jù)的表示,從而有效挖掘案件事實(shí)中潛在的證據(jù)關(guān)聯(lián)信息。
如圖2左側(cè)所示,我們將所有證據(jù)和事實(shí)描述拼接在一起獲得的證據(jù)與案件事實(shí)文本[E1,E2,…,Em,F]作為預(yù)訓(xùn)練語(yǔ)言模型的輸入。這樣處理的原因之一在于一個(gè)分論點(diǎn)對(duì)應(yīng)的證據(jù)數(shù)量通常少于3個(gè),而單個(gè)證據(jù)的長(zhǎng)度較短。因此,將它們與長(zhǎng)文本的案件經(jīng)過(guò)拼接在一起的話,不會(huì)因?yàn)榫幋a器的輸入長(zhǎng)度限制而被迫截?cái)嗵嗟陌讣?jīng)過(guò),從而保留絕大部分的事實(shí)信息。
最后,可以得到最終的證據(jù)增強(qiáng)的案件經(jīng)過(guò)表示He∈Rm×h。通過(guò)這樣的處理,我們既可以保留證據(jù)與案件事實(shí)之間的交互信息,也可以保留不同證據(jù)的交互信息。
司法案件的相關(guān)法律條文是司法實(shí)踐中律師辦案與法官判案最基礎(chǔ)的依據(jù),其中包含了許多有助于生成司法分論點(diǎn)的信息。法律條文是抽象性、高度概括性的對(duì)于一項(xiàng)罪名的權(quán)威解釋,通常包含罪名相應(yīng)的構(gòu)成要件,而如何將案件事實(shí)涵攝于法條的事實(shí)構(gòu)成之下也能為證據(jù)推理提供引導(dǎo)。不過(guò)與證據(jù)不同的是,法律條文通常比較長(zhǎng),不能像證據(jù)一樣拼接在一起來(lái)作為整體輸入,不然會(huì)極大程度上壓縮案件經(jīng)過(guò)的空間。因此,我們?cè)O(shè)計(jì)了另外一個(gè)法條注意力模塊來(lái)挖掘法條對(duì)當(dāng)前案件事實(shí)的具體適用邏輯,從而指導(dǎo)司法分論點(diǎn)的生成。
在獲得了法律條文的表述和事實(shí)描述之后,我們需要發(fā)掘法律條文在當(dāng)前案件中的具體適用,即探索法律條文中定義的構(gòu)成要件與案件事實(shí)之間的潛在聯(lián)系。我們首先使用點(diǎn)積計(jì)算Hf∈Rn×h和Hl∈Rp×h的相似度如式(1)所示。
(1)
然后,我們使用這個(gè)交互向量矩陣來(lái)獲得法條信息增強(qiáng)的案件事實(shí)表示。在這里,我們?cè)赒上應(yīng)用一個(gè)Softmax函數(shù)來(lái)衡量事實(shí)描述中不同部分與法律條文的相關(guān)程度,如式(2)所示。
αi=Softmax(Q)
(2)
最后法條信息增強(qiáng)的案件事實(shí)表示中的每一行HL∈Rp×h就是事實(shí)表示的加權(quán)和,如式(3)所示。
(3)
為了充分利用證據(jù)增強(qiáng)的事實(shí)表示He∈Rm×h和法條增強(qiáng)的事實(shí)表示HL∈Rp×h,我們將它們拼接后得到最終表示如式(4)所示。
(4)
為了提高生成的分論點(diǎn)的準(zhǔn)確性和專業(yè)性,我們?cè)诮獯a器中引入了類似于Vinyals等人[11]的復(fù)制機(jī)制,從而能夠從案件描述中選取有價(jià)值的詞語(yǔ)來(lái)進(jìn)一步提高分論點(diǎn)的生成質(zhì)量,例如其中的時(shí)間、人名、地點(diǎn)等關(guān)鍵詞語(yǔ)。我們可以計(jì)算注意力分布βi并獲得上下文向量,如式(5)~式(7)所示。
(8)
(9)
其中,Wc和Ws是可學(xué)習(xí)的參數(shù),σ是Sigmoid函數(shù)。而事實(shí)描述中的詞語(yǔ)的概率分布是對(duì)應(yīng)詞的注意力權(quán)重之和,如式(10)所示。
(10)
最終我們可以得到一個(gè)單詞w在當(dāng)前時(shí)間步長(zhǎng)的概率分布,如式(11)所示。
P(w)=Pgen*Pvocab(w)+(1-Pgen)Pcopy(w)
(11)
如圖2所示,我們模型的編碼器是基于預(yù)訓(xùn)練的語(yǔ)言模型,而隨機(jī)初始化的Transformer 解碼器沒(méi)有經(jīng)過(guò)預(yù)訓(xùn)練,這意味著解碼器必須從頭開(kāi)始訓(xùn)練。受摘要生成工作[18]的啟發(fā),兩個(gè)優(yōu)化器可以幫助緩解編碼器和解碼器之間的不匹配,因此我們?yōu)檫@兩個(gè)塊分別設(shè)置了單獨(dú)的優(yōu)化器。
根據(jù)中國(guó)裁判文書(shū)網(wǎng)(2)http://wenshu.court.gov.cn中所有公開(kāi)的法律判決文件構(gòu)建了一個(gè)新的司法數(shù)據(jù)集,我們選擇了法律案件中符合圖1中證據(jù)推理類的法律文書(shū)進(jìn)行實(shí)驗(yàn)。對(duì)于此類司法判決書(shū),一個(gè)分論點(diǎn)通常和相關(guān)的證據(jù)在同一行并由“證明”或“證實(shí)”分隔開(kāi),因此我們可以通過(guò)正則匹配等方式自動(dòng)提取證據(jù)子集和相應(yīng)的分論點(diǎn)?!白C明”或“證實(shí)”之前的部分是證據(jù)子集,“證明”或“證實(shí)”之后是相應(yīng)的司法分論點(diǎn)。其中不同分論點(diǎn)對(duì)應(yīng)的證據(jù)子集之間不存在重合部分,即證據(jù)與分論點(diǎn)之間是多對(duì)一的映射關(guān)系。
我們總共篩選出50 000多份法律案件的判決書(shū)文件,數(shù)據(jù)集各方面的數(shù)量和長(zhǎng)度統(tǒng)計(jì)如表1所示。從中可以發(fā)現(xiàn),一篇判決書(shū)中約有9個(gè)分論點(diǎn),而每個(gè)分論點(diǎn)對(duì)應(yīng)的證據(jù)數(shù)量都比較少,一般小于3,這表明大多數(shù)司法判決書(shū)文件對(duì)所有證據(jù)的劃分歸類比較精細(xì)。
表1 構(gòu)建的數(shù)據(jù)集統(tǒng)計(jì)結(jié)果
從統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn),司法判決書(shū)中的事實(shí)描述往往比較詳細(xì),導(dǎo)致案件描述的平均長(zhǎng)度達(dá)到了379。但是,為了減少司法判決書(shū)撰寫(xiě)時(shí)的工作量,一些法官往往直接從事實(shí)描述中提取較長(zhǎng)的一段作為分論點(diǎn),使得分論點(diǎn)的平均長(zhǎng)度達(dá)到98.38。關(guān)于法律條文,本文主要使用《中華人民共和國(guó)刑法》中涉及的法律條文,其中法律條文的平均長(zhǎng)度為114.69。但需要注意的是,每個(gè)實(shí)驗(yàn)樣本僅包含司法文書(shū)中提到的相關(guān)法律條文,其他無(wú)關(guān)條文將不會(huì)輸入模型進(jìn)行處理。最后,證據(jù)的平均長(zhǎng)度只有14.32,這是因?yàn)榇蟛糠肿C據(jù)都是名詞,例如,一份文件的名稱或證詞,即使加上一些修飾詞,也不會(huì)太長(zhǎng)。此外,我們將數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
3.2.1 基線模型
我們將本文提出的模型與幾種相關(guān)的文本生成方法進(jìn)行了比較,如下所示:
(1)Seq2Seq: 序列到序列模型[19-20]是NLG 任務(wù)的經(jīng)典模型。我們將證據(jù)和事實(shí)描述連接起來(lái)作為模型輸入。
(2)Seq2Seq+law: 我們將證據(jù)、事實(shí)描述和相關(guān)法律條文連接起來(lái)作為Seq2Seq的輸入。
(3)BART: BART[21]是一種預(yù)訓(xùn)練語(yǔ)言模型。我們同樣將證據(jù)和事實(shí)描述連接后作為輸入。
(4)AC-NLG: AC-NLG由Wu等人[16]提出,用于根據(jù)原告的主張和事實(shí)描述生成合適的法庭視圖。我們將其原輸入中的原告主張?zhí)鎿Q為證據(jù),而原輸入中的事實(shí)描述仍然保持一致。
我們使用BLEU[22]、ROUGE(3)https://pypi.python.org/pypi/lawrouge/和BERT SCORE[23]來(lái)評(píng)估我們模型的性能,它們是廣泛應(yīng)用于NLG任務(wù)中的自動(dòng)文本評(píng)估指標(biāo)。
3.2.2 實(shí)施細(xì)節(jié)
在實(shí)驗(yàn)中,我們使用Pytorch和Roberta的“chinese-roberta-wwm-ext”版本來(lái)實(shí)現(xiàn)BERT編碼器,所有輸入的長(zhǎng)度限制為512。對(duì)于解碼器,我們堆疊使用了六個(gè)Transformer 解碼器層,每個(gè) Transformer 解碼器有768個(gè)隱藏單元。每個(gè)解碼器層中的編碼器-解碼器多頭注意力,其輸入是來(lái)自編碼器的事實(shí)描述的證據(jù)、法條融合表示,以及來(lái)自前一個(gè)解碼器層的輸出(或是第一層的分論點(diǎn)輸入)。
對(duì)于不同的優(yōu)化器,我們?cè)诰幋a器和解碼器中設(shè)置了不同的參數(shù)。我們?yōu)榫幋a器設(shè)置了 learnRate=2e-3和warmUpSteps=2 000,而解碼器為learnRate=0.01和warmUpSteps=1 000。
(1)Seq2Seq和BART我們將事實(shí)描述和證據(jù)連接成一個(gè)長(zhǎng)文本,并將事實(shí)描述的字符數(shù)量限制為300,證據(jù)的字符數(shù)量限制為75。對(duì)于BART,我們使用“fnlp/bart-base-chinese”模型,并在當(dāng)前數(shù)據(jù)集上進(jìn)行微調(diào)。
(2)Seq2Seq+law基于Seq2Seq,我們將《中華人民共和國(guó)刑法》中與當(dāng)前案件相關(guān)的刑法條文與事實(shí)描述和證據(jù)相連接作為模型輸入,法條字符數(shù)量限制為120,其余參數(shù)細(xì)節(jié)與Seq2Seq保持一致。
(3)AC-NLG對(duì)于AC-NLG,原始輸入是事實(shí)描述和原告的主張,輸出是法庭觀點(diǎn)。我們將原告的主張?zhí)鎿Q為證據(jù)文本,以此適應(yīng)我們的分論點(diǎn)生成任務(wù),并利用本文的數(shù)據(jù)集重新進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置為2e-3。
表2展示了使用BLEU、ROUGE和BERTSCORE評(píng)估不同模型生成的分論點(diǎn)的結(jié)果。從結(jié)果可以看出,我們提出的模型在BLEU和ROUGE上的性能優(yōu)于其他基線。而對(duì)于BERT SCORE,我們的模型的P值很高,但R值和F1值都相對(duì)較低,這表明我們的模型生成的大部分分論點(diǎn)都是由一些關(guān)鍵詞匯組成的,從而盡可能涵蓋更多的關(guān)鍵內(nèi)容。
表2 實(shí)驗(yàn)結(jié)果 (單位: %)
由于模型參數(shù)和結(jié)構(gòu)的差異,Seq2Seq最終生成文本的各項(xiàng)指標(biāo)性能都比BART略差。而與AC-NLG相比,由于Seq2Seq通過(guò)連接文本來(lái)構(gòu)造輸入,而不是計(jì)算事實(shí)描述和證據(jù)之間的注意力來(lái)增強(qiáng)表示,因此AC-NLG生成的分論點(diǎn)整體質(zhì)量會(huì)更高。此外,在添加法律條文后,Seq2Seq的性能在一定程度上有所提高,這表明法律條文確實(shí)包含有助于生成分論點(diǎn)的信息。另外,與法院支持或駁回被告主張的法條意見(jiàn)不同,證據(jù)推理中的分論點(diǎn)始終是受證據(jù)支持的,這可能導(dǎo)致AC-NLG無(wú)法充分利用其模型內(nèi)部?jī)蓚€(gè)相反作用的解碼結(jié)構(gòu),從而最終效果低于我們的模型。最后,相對(duì)于BART 和 Seq2Seq主要依靠編碼器的雙向性來(lái)挖掘輸入之間的潛在關(guān)聯(lián),我們的模型可以通過(guò)證據(jù)注意力模塊和法條注意力模塊更有效地發(fā)現(xiàn)并融合事實(shí)描述、法律規(guī)章和證據(jù)三者之間的聯(lián)系,從而生成更合理的分論點(diǎn)。
本文模型中由幾個(gè)基本組成部分:
(1) 法條注意力模塊: 我們引入了相關(guān)法律條文信息輸入模型,因?yàn)榉梢?guī)章包含一些判斷犯罪行為的構(gòu)成要件信息,這些構(gòu)成要件可能與法官在對(duì)證據(jù)進(jìn)行分類和整理時(shí)的想法是一致的。因此,相關(guān)法律條文在一定程度上有助于分論點(diǎn)的產(chǎn)生。
(2) 證據(jù)注意力模塊: 我們使用證據(jù)注意力模塊來(lái)確定證據(jù)和事實(shí)描述之間的潛在關(guān)聯(lián)??紤]到分論點(diǎn)實(shí)際上相當(dāng)于是對(duì)于這些證據(jù)的一個(gè)總結(jié)歸納,因此它們之間語(yǔ)義等層面的聯(lián)系將會(huì)有助于最終司法分論點(diǎn)的生成。
(3) 復(fù)制機(jī)制: 由于分論點(diǎn)中經(jīng)常會(huì)涉及到具體的實(shí)體,如被害人或被告人的姓名、案件發(fā)生的時(shí)間地點(diǎn)等,如果模型直接在詞匯表中搜索單詞可能會(huì)導(dǎo)致一些實(shí)體錯(cuò)誤的出現(xiàn),所以我們選擇引入復(fù)制機(jī)制來(lái)盡量避免此類錯(cuò)誤的發(fā)生。
因此,我們對(duì)上述關(guān)鍵結(jié)構(gòu)進(jìn)行了消融實(shí)驗(yàn),對(duì)于法條注意力模塊與證據(jù)注意力模塊的消融實(shí)驗(yàn),我們分別取消了法條、證據(jù)的輸入,僅以剩余另一個(gè)模塊的輸出作為整體的融合特征,而對(duì)于復(fù)制機(jī)制我們則取消了Pvocab和Pcopy的計(jì)算,直接將解碼器輸出用來(lái)解碼。消融研究的結(jié)果如表2所示。從中可以看出,移除法條注意力模塊會(huì)略微降低模型的性能。而如果去掉證據(jù)注意力模塊,生成的分論點(diǎn)質(zhì)量的下降幅度更大,這證明證據(jù)中包含了更多與分論點(diǎn)相關(guān)的有價(jià)值信息。此外,關(guān)于復(fù)制機(jī)制的實(shí)驗(yàn)還表明,在解碼器中引入復(fù)制機(jī)制可以在一定程度上提高文本質(zhì)量,可能是由于減少了模型生成錯(cuò)誤實(shí)體對(duì)象的概率。
圖3顯示了我們的模型生成的兩個(gè)分論點(diǎn),它們依賴于同一案件中的不同證據(jù)子集,其中證據(jù)更關(guān)注的事實(shí)部分也用不同的顏色突出顯示(根據(jù)模型中的注意力矩陣得到)??梢园l(fā)現(xiàn),對(duì)于第一組證據(jù)“鑒定意見(jiàn)”而言,事實(shí)描述中的“被告人”“毒品”和“檢測(cè)到甲基苯丙胺”等詞語(yǔ)的注意力權(quán)重相對(duì)較高,說(shuō)明基于該證據(jù)進(jìn)行推理時(shí)會(huì)依賴于這幾個(gè)關(guān)鍵信息,從而使模型能夠得出“被告人持有的毒品被檢測(cè)到甲基苯丙胺”的結(jié)論。對(duì)于第二組證據(jù)“證人王某的證言”,事實(shí)描述中的“時(shí)間”“地點(diǎn)”和“逮捕”等受到的關(guān)注度更高,從而模型可以據(jù)此推斷出這項(xiàng)證據(jù)是為了證明被告人被捕的時(shí)間和地點(diǎn)。除此之外,我們也可以發(fā)現(xiàn)涉及販毒的法律條文會(huì)更加關(guān)注案件描述中的“克”“天津”“檢測(cè)到甲基苯丙胺”等與毒品相關(guān)的詞匯,這也證明了法條注意力模型的價(jià)值。
圖3 基于案件經(jīng)過(guò)、法律條文和證據(jù)子集生成司法分論的示例案件經(jīng)過(guò)中,深色陰影部分為與證據(jù)子集1交互時(shí)注意力權(quán)值更高的詞語(yǔ),淺色陰影為與證據(jù)子集2交互的注意力權(quán)值更高的詞語(yǔ),而加粗的詞語(yǔ)為法律條文更關(guān)注的部分。
在本文中,我們?cè)谒痉I(lǐng)域提出了一種新穎的分論點(diǎn)生成模型,以解決當(dāng)前大多數(shù)法律文件中缺少分論點(diǎn)的問(wèn)題,從而提高判決書(shū)的完整性和可讀性。本文設(shè)計(jì)了一個(gè)證據(jù)注意力模塊和一個(gè)法條注意力模塊來(lái)融合事實(shí)描述、證據(jù)、相關(guān)法律條文。而為了提高生成的司法分論點(diǎn)的質(zhì)量,我們堆疊使用了多個(gè)Transformer解碼結(jié)構(gòu),并且在解碼時(shí)使用類似于指針網(wǎng)絡(luò)的復(fù)制機(jī)制來(lái)從原文本中復(fù)制部分關(guān)鍵詞語(yǔ)。除此之外,本文還為此任務(wù)構(gòu)建了一個(gè)相應(yīng)的司法判決書(shū)的分論點(diǎn)數(shù)據(jù)集,并且在此數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也證明了本文模型的有效性。