張青, 王肖霞, 楊風(fēng)暴
(中北大學(xué)信息與通信工程學(xué)院, 太原 030051)
社公益訴訟案件作為一種新型的權(quán)益救濟方式,保障著國家與人民的利益生活。近年來,隨著法律的不斷普及,越來越多的人運用法律維護(hù)自身利益以及社會的公共利益。隨著公益訴訟案件的不斷增多,“案多人少”逐漸成為急需解決的問題之一。
近年來,隨著智能司法[1-2]不斷推進(jìn),越來越多的研究人員致力于智能司法的研究。智能司法將人工智能[3-4]與司法領(lǐng)域相結(jié)合,通過預(yù)測法條、罪名、量刑等因素提供給專業(yè)人員進(jìn)行參考,輔助專業(yè)人員進(jìn)行審判,提升辦案效率。法條多標(biāo)簽分類作為智能司法研究任務(wù)當(dāng)中的一個重要子任務(wù),是構(gòu)成智能司法的關(guān)鍵組成部分。為了能夠提升法條分類的合理性,滿足實際情況需求,本文中選擇法條多標(biāo)簽分類任務(wù)進(jìn)行研究。
目前法條多標(biāo)簽分類任務(wù)是采用文本分類技術(shù)[5]來實現(xiàn)的。隨著深度學(xué)習(xí)的發(fā)展,越來越多的研究人員將深度學(xué)習(xí)引入分類任務(wù)當(dāng)中,通過選取合適的模型對案件文本進(jìn)行向量表示獲取文本的語義信息以及提取特征信息,從而實現(xiàn)法條多標(biāo)簽分類。如Yang等[6]在多核卷積神經(jīng)網(wǎng)絡(luò)[7](convolutional neural networks,CNN)模型上融合了BERT[8](bidirectional encoder representation from transformers)句向量來提取文本的語義信息,最后添加了一種閾值方法來實現(xiàn)法條多標(biāo)簽的分類。該方法從獲取案件語義信息的角度去實現(xiàn)多標(biāo)簽分類任務(wù),卻忽略了標(biāo)簽之間的關(guān)聯(lián)性,在不平衡數(shù)據(jù)上的分類效果表現(xiàn)卻并不理想。并且BERT模型輸入最長字?jǐn)?shù)為512字,當(dāng)文本長與512字時,多余的字?jǐn)?shù)會被截斷,不會參與模型的訓(xùn)練,容易造成相關(guān)信息的丟失。唐光遠(yuǎn)等[9]在刑事案件中引入法條知識,并融入案情描述中實現(xiàn)法條的分類。該雖然方法引入了法條知識,加強了案情描述表示能力,但是該方法聚焦于法條的單標(biāo)簽分類,未能考慮法條之間的相關(guān)性,不符合實際情況。趙慧等[10]在臨床場景中提出了一種合并證的多標(biāo)簽分類模型,通過疾病標(biāo)簽關(guān)聯(lián)信息量化合并證并發(fā)關(guān)系,并基于樣本K鄰域內(nèi)標(biāo)簽的概率分布以后驗概率的方式計算樣本對每個疾病標(biāo)簽的隸屬概率,通過引入標(biāo)簽間的相關(guān)性來提升多標(biāo)簽分類效果。
基于此,在公益訴訟領(lǐng)域,結(jié)合法條司法解釋,提出了一種基于XLCLS模型的法條多標(biāo)簽分類方法。為了能夠更好地捕獲法律案件中的語義信息,采用XLNET預(yù)模型進(jìn)行訓(xùn)練,來獲取案件豐富的語義信息,同時還能解決由于BERT模型512字?jǐn)?shù)的限制而導(dǎo)致長案件文本相關(guān)信息丟失的問題;在此基礎(chǔ)上,引入法條的司法解釋來豐富案件向量表征,再通過CNN模型來提取案件與法條的特征信息,加深案件與法條之間的潛在聯(lián)系,最后通過余弦相似距離方法來計算法條之間的相似性,解決不常見法條容易被忽略的問題,提升法條多標(biāo)簽分類效果。
該模型主要由4個部分組成:預(yù)處理、文本表示、特征提取以及輸出部分,原理框圖如圖1所示。
圖1 法條多標(biāo)簽分類原理框圖Fig.1 Schematic diagram of multi-label classification
由于公益訴訟領(lǐng)域在自然語言處理中屬于新領(lǐng)域,且涉及國家行政機關(guān)以及相關(guān)單位或公民的隱私,相關(guān)案例信息無法公開,難以獲取大規(guī)模數(shù)據(jù)集。為了解決公益訴訟案件文本數(shù)量不足的問題,本文采用數(shù)據(jù)增強的方法對公益訴訟案件文本進(jìn)行處理,通過擴大訓(xùn)練樣本的規(guī)模,降低模型對某些屬性的依賴,在有效降低人工成本的基礎(chǔ)上提升模型性能。
本文中采取EDA與回譯數(shù)據(jù)增強方法,利用同義詞替換、隨機插入方法對原始數(shù)據(jù)集進(jìn)行處理,以及通過回譯將原始數(shù)據(jù)集通過百度翻譯變成英文再翻譯成中文。通過引入一定的噪聲來提升模型的魯棒性,同時通過同義詞替換與隨機插入引入了新詞,將模型推廣到不在訓(xùn)練集中的單詞,提升案件文本表示能力。數(shù)據(jù)增強后的數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)增強部分樣例Table 1 Example of data enhancement
為了更好地獲得案件豐富語義的向量表示,本文引入XLNET[10]語言模型對案件進(jìn)行訓(xùn)練,通過廣義自回歸預(yù)訓(xùn)練方法對文本進(jìn)行雙向編碼。
XLNET模型采用了隨機排列機制的自回歸語言來對句子進(jìn)行建模,在排列后的組合中選取一部分作為模型的輸入,如圖2所示。
圖2中,假設(shè)原始輸入句子為[嚴(yán),染,體,重,污,水],這樣將原本在“污”后面的下文“染”“嚴(yán)”“重”通過重新排序后變成“污”的上文,再利用這些字以及對應(yīng)的隱藏狀態(tài)memh對目標(biāo)字進(jìn)行預(yù)測,通過這種隨機排列方法來融合目標(biāo)單詞的上下文信息,解決了自回歸語言模型無法雙向預(yù)測的缺點。
圖2 排列機制Fig.2 Arrangement mechanism
由于微調(diào)階段無法對原始輸入進(jìn)行重新排列,這種隨機排列機制會導(dǎo)致前后階段不一致,因此需要預(yù)訓(xùn)練階段的輸入部分仍然是原始語句順序。為了解決該類問題,XLNET模型采用注意力機制掩碼方法,通過mask去掩蓋無用的單詞,使其在預(yù)測目標(biāo)詞的時候不發(fā)生作用,最終得到不同的排列組合,實現(xiàn)雙向預(yù)測。注意力機制掩碼如圖3所示。
在圖3當(dāng)中,對于排列后的“體”來說,能夠利用到“嚴(yán)”與“染”兩個字,因此在第二行當(dāng)中保留這兩個字,其余均用mask掩蓋。再如預(yù)測排列后的“嚴(yán)”字,沒有可以利用的信息,因此在第五行當(dāng)中全用mask掩蓋。排列機制的計算式為
圖3 注意力機制掩碼Fig.3 The attentional mechanism mask
(1)
式(1)中:θ為預(yù)測目標(biāo)詞最大概率的參數(shù);T為輸入句子的長度;Z~ZT表示句子的重新排列組合方式;EZ~ZT為期望,pθ(xzt|xz 為了在內(nèi)存的限制下學(xué)到更長的依賴關(guān)系,XLNET模型在transformer[11]基礎(chǔ)上提出了transformer-xl,采用段循環(huán)機制,使得當(dāng)前段在建模的時候能夠利用之前段的記憶信息來實現(xiàn)長期依賴性。如圖4所示。 圖4 段循環(huán)Fig.4 Segment cycle 圖4為段循環(huán)的信息傳遞方式,在處理段2時,每個隱藏層都會接受兩個輸入,分別為該段前面隱藏層的輸出(實線部分)與前一段隱藏層的輸出(虛線部分),其中虛線表示前一段的記憶信息,能夠建立創(chuàng)建長期依賴關(guān)系。同時,解決了transformer僅限于處理512個字符的問題,能夠處理更長的案件文本。 XLNET采用排列機制的自回歸語言訓(xùn)練與transformer-xl,解決了自回歸語言無法雙向訓(xùn)練的缺點,能夠充分的捕獲文本的上下文關(guān)系,獲得包含豐富語義信息的案件向量表示。 為了更好地提取案件和法條司法解釋的特征信息,通過構(gòu)建相應(yīng)的CNN模型,加深案件與法條之間的潛在聯(lián)系。將案件向量與法條司法解釋向量拼接后輸入CNN模型當(dāng)中,通過設(shè)置卷積核尺寸來提取不同粒度的特征信息,如圖5所示。 圖5 CNN特征提取Fig.5 CNN feature extraction 從圖5中可以看出原始輸入數(shù)據(jù)為案件經(jīng)過XLNET模型后獲得的向量表示,記為X,這里引入法條司法解釋,將法條司法解釋轉(zhuǎn)化為向量表示,記為I,將法條司法解釋向量與案件向量進(jìn)行拼接,如圖5第二模塊中所示,實線表示案件向量,虛線表示融合的法條知識向量,其計算公式為 V=[X;I] (2) 為了提取案件與法條司法解釋的特征信,將融合后的向量進(jìn)行卷積,通過設(shè)定不同大小的卷積核,來獲取不同尺寸的特征信息,然后將卷積后的向量進(jìn)行最大池化,來提取重要特征信息,同時能夠抑制網(wǎng)絡(luò)參數(shù)誤差造成估計均值偏移的現(xiàn)象,最后輸入全連接層當(dāng)中,計算公式為 C=f(WV+b) (3) 式(3)中:f是非線性函數(shù);W表示可以訓(xùn)練的權(quán)重矩陣;b表示偏置。 由于實際案例當(dāng)中,法條與法條間總是存在某種相似性,如案例“本院在辦案中發(fā)現(xiàn),xx診所無證行醫(yī),產(chǎn)生的醫(yī)療廢棄物與生活垃圾混同,沒有進(jìn)行定點投放,下雨天經(jīng)過雨水沖刷流入河流,造成水體污染。且診所當(dāng)中醫(yī)療污水未進(jìn)行處理直接排入污水管流入河流當(dāng)中,造成水污染?!敝?,由于醫(yī)療廢棄物與醫(yī)療廢水的隨意傾倒造成河流的水污染,但是該案例當(dāng)中也涉及了醫(yī)療廢物管理條例,然而該類屬于罕見案例,因此可能無法預(yù)測該法條,為了解決該類問題,引入法條相似性計算,通過余弦距離方法來計算法條之間的相似性,考察與其最相關(guān)的法條是否符合該案件當(dāng)中的情形,以此來提高法條多標(biāo)簽分類的準(zhǔn)確性。相似性計算公式為 (4) 式(4)中:ai、bi分別為法條a與b的司法解釋向量表示。 最終的輸出為多標(biāo)簽分類任務(wù),采用sigmoid函數(shù)來計算每一個法條相應(yīng)的概率,計算公式為 (5) 最后選取一個合適的閾值k,當(dāng)通過上述公式計算得到法條概率大于該閾值時,對應(yīng)法條則為預(yù)測法條類別。 本文實驗使用的數(shù)據(jù)部分由兩部分組成,一部分有高檢部門所提供,另一部分來自于裁判文書網(wǎng),利用爬蟲技術(shù),在裁判文書網(wǎng)上進(jìn)行爬取,獲取以環(huán)境保護(hù)為例的數(shù)據(jù)信息,兩部分?jǐn)?shù)據(jù)均為真實案例,具有科學(xué)合理性。最后對獲取的數(shù)據(jù)進(jìn)行初清洗,獲得總共可用數(shù)據(jù)15 984條。最后,按7∶3將數(shù)據(jù)劃分為訓(xùn)練集與測試集,得訓(xùn)練集與測試集分別為11 188條與4 796條。 打壓試驗。采取分級打壓,每級升壓0.2 MPa,保持穩(wěn)壓不小于10 min,檢查管身、接口、鎮(zhèn)墩、后背、支撐及構(gòu)筑物有無異?,F(xiàn)象,有無破損、漏水現(xiàn)象,確認(rèn)情況正常后,方可繼續(xù)升壓。在升壓過程中,如有壓力下降,且水壓降不得超過0.03 MPa,應(yīng)及時向管道內(nèi)補水,保證管道設(shè)計試驗壓力穩(wěn)定,穩(wěn)壓延續(xù)時間不得小于2 h。計算穩(wěn)壓時間內(nèi)管道補入的水量,即是實測滲水量,當(dāng)小于允許滲水量時,管道密實性為合格。 在多標(biāo)簽分類任務(wù)中,通常采用宏觀與微觀精確率P(正確預(yù)測為正的樣本占全部預(yù)測為正的比例)、召回率R(正確預(yù)測為正的樣本占全部實際為正的比例)、F1值(P與R的調(diào)和平均數(shù))作為實驗結(jié)果的評價指標(biāo),公式為 (6) (7) (8) (9) (10) (11) 式中:下標(biāo)ma與mi分別表示宏觀與微觀指標(biāo);Pi與Ri分別表示類別為i的精確率與召回率;TPi表示正類類別i預(yù)測正確的個數(shù);FNi表示正類類別i預(yù)測錯誤的個數(shù);FPi表示將負(fù)類i預(yù)測錯誤的個數(shù)。 2.3.1 各模型結(jié)果對比 本文實驗在公益訴訟案件數(shù)據(jù)集上進(jìn)行測試,為了驗證本文方法的有效性,分別與以下8種神經(jīng)網(wǎng)絡(luò)模型在法條多標(biāo)簽分類任務(wù)上進(jìn)行了實驗對比。 (1)w2c-CNN:以word2vec為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò)。 (2)w2c-CNN-L:以word2vec為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò),在詞嵌入訓(xùn)練模型當(dāng)中增加法條司法解釋。 (3)w2c-CNN-L-S:以word2vec為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò),在詞嵌入訓(xùn)練模型中增加法條司法解釋,在輸出層中引入法條相似性。 (4)BERT-CNN:以BERT為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò)。 (5)BERT-CNN-L:以BERT為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò),在詞嵌入訓(xùn)練模型當(dāng)中增加法條司法解釋。 (6)BERT-CNN-L-S:以BERT為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò),在詞嵌入訓(xùn)練模型中增加法條司法解釋,在輸出層中引入法條相似性。 (7)XLNET-CNN:以XLNET為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò)。 (8)XLNET-CNN-L:以XLNET為詞嵌入訓(xùn)練模型,CNN為主體網(wǎng)絡(luò),在詞嵌入訓(xùn)練模型當(dāng)中增加法條司法解釋。 具體實驗結(jié)果如表2所示。 由表2的實驗結(jié)果當(dāng)中可以觀察到3個方面。 (1)對比表2中CNN、BERT-CNN以及 XLNET-CNN模型,可以發(fā)現(xiàn)XLNET-CNN模型的分類效果達(dá)到最優(yōu),其中F1,ma與F1,mi達(dá)到了86.68%和88.12%。說明了多標(biāo)簽分類任務(wù)中,引入語言預(yù)訓(xùn)練模型能夠獲取豐富的文本語義信息,同時雙向編碼也能捕獲文本的上下文信息,提升分類效果。其中XLNET的分類效果優(yōu)于BERT模型,這是因為BERT模型的輸入文本長度本限制在512,但是在公益訴訟案件當(dāng)中,絕大數(shù)案件文本長度大于512,這導(dǎo)致了BERT模型在對文本進(jìn)行訓(xùn)練時,會造成一部分信息丟失,影響了分類效果。 (2)對比表2當(dāng)中有無引入法條司法解釋的模型,即CNN與CNN-L、BERT-CNN與BERT-CNN-L、XLNET-CNN與XLNET-CNN-L 3組模型,可以發(fā)現(xiàn),與未引入法條司法解釋的3個模型相比,引入了法條司法解釋的模型在F1,ma與F1,mi上分別提高了1.65%與2.40%、2.13%與1.68%、0.77%與1.13%,這是因為法條司法解釋包含了法條本身規(guī)定的相關(guān)信息,在模型當(dāng)中通過引入法條司法解釋信息,一方面能夠增加文本的語義信息,另一方面可以增強案件與法條之間的聯(lián)系,從而能夠提升多法條預(yù)測效果。 (3)對比表2當(dāng)中有無加入法條相似性的模型,即CNN-L與CNN-L-S、BERT-CNN-L與BERT-CNN-L-S、XLNET-CNN-L與XLCLS 3組模型,可以發(fā)現(xiàn),與未加入法條相似性的模型相比,加入了法條相似性模型在F1,ma與F1,mi上分別提高了2.98%與2.64%、1.40%與0.95%、0.92%與0.67%,其中本文的所采用的XLCLS模型,在各項指標(biāo)上都取得了最優(yōu)表現(xiàn)。對比法條相似性的指標(biāo)F1,ma與F1,mi可以看出,F(xiàn)1,ma的指標(biāo)提升效果較大,這是因為F1,ma更加考慮不常見類別的影響,而添加了法條相似性的模型,通過融入法條之間的相似性,來提升不常見法條的準(zhǔn)確性。 表2 不同模型的分類結(jié)果Table 2 Classification results of different model 2.3.2 閾值的確定 在法條多標(biāo)簽分類任務(wù)當(dāng)中,最后計算案件對于每一個法條的概率,通過選取合適的閾值,當(dāng)概率大于該閾值的則為預(yù)測的法條。為了能夠使得法條多標(biāo)簽分類方法達(dá)到最優(yōu)效果,考慮了不同閾值的選擇對模型的影響情況,如圖6所示。 圖6 閾值的影響Fig.6 Effect of thresholds 在圖6當(dāng)中,選取了兩組模型BERT-CNN-L-S與XLCLS進(jìn)行測試,閾值的范圍劃分為0.1~0.9,在兩組模型上對比不同的閾值對分類指標(biāo)F1,ma與F1,mi的影響。由圖8可以看出,在兩組模型上,當(dāng)閾值選擇為0.6時,F(xiàn)1,ma與F1,mi的值表現(xiàn)最好,這可能是由于法條多標(biāo)簽任務(wù)當(dāng)中,由于法條相似問題以致法條難以區(qū)分,當(dāng)閾值選取為傳統(tǒng)的0.5時,會造成法條推送過多的情況發(fā)生,影響分類的準(zhǔn)確性,因此最終確定閾值為0.6。 2.3.3 模型的收斂性分析 為了進(jìn)一步的提升該模型的有效性與穩(wěn)定性,繪制了兩組模型的收斂曲線進(jìn)行對比,通過比較損失在不同選代次數(shù)下的變化情況來選擇穩(wěn)定的法條多標(biāo)簽分類模型,如圖7所示。 圖7 收斂曲線Fig.7 Convergence curves 圖7中,在BERT-CNN-L-S與XLCLS兩組模型上驗證了損失在迭代次數(shù)上的變化情況,在有限的硬件與時間條件限制下,選擇迭代次數(shù)的范圍為1~15。從圖7中可以看出,在BERT-CNN-L-S模型上,當(dāng)?shù)螖?shù)達(dá)到11,模型開始收斂,而在XLNET-CNN-L-S模型上,迭代次數(shù)達(dá)到8以后,損失開始趨于穩(wěn)定,模型逐漸達(dá)到收斂狀態(tài)。在模型訓(xùn)練過程中,合適的迭代次數(shù)能夠提升模型的有效性與穩(wěn)定性,且隨著迭代次數(shù)的不斷增大,模型訓(xùn)練需要花費更多的時間,甚至?xí)?dǎo)致模型過擬合,影響模型的分類效果。對以上情況進(jìn)行分析,最終確定迭代次數(shù)為10。 本文中結(jié)合法條司法解釋,提出了一種基于XLCLS模型的法條多標(biāo)簽分類模型。該方法采用XLNET模型對案件進(jìn)行向量化表示,同時在模型當(dāng)中引入法條司法解釋,提升文本向量化表征能力,同時構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型提取案件與法條司法解釋的特征信息,最后引入法條間的相關(guān)性分析,結(jié)合sigmoid函數(shù)計算個法條的概率,通過閾值的選取實現(xiàn)法條多標(biāo)簽分類。實驗證明,本文提出的模型在公益訴訟案件數(shù)據(jù)上表現(xiàn)較好。1.3 特征提取
1.4 輸出
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
2.2 評價指標(biāo)
2.3 實驗對比與分析
3 結(jié)論