線巖團(tuán) 陳文仲 余正濤 張亞飛 王紅斌
罪名預(yù)測(cè)是法律判決預(yù)測(cè)任務(wù)中具有代表性的子任務(wù),也是法律輔助系統(tǒng)的重要組成部分[1].
罪名預(yù)測(cè)通常被看作針對(duì)案件事實(shí)的文本分類問(wèn)題.早期研究工作通常利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)罪名預(yù)測(cè)[2-4].隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用,基于深度學(xué)習(xí)方法的罪名預(yù)測(cè)模型大量涌現(xiàn).
2018 中國(guó)“法研杯”司法人工智能挑戰(zhàn)賽發(fā)布中文司法判決預(yù)測(cè)數(shù)據(jù)集,共包含260 余萬(wàn)條數(shù)據(jù),數(shù)據(jù)源于“中國(guó)裁判文書網(wǎng)”公開(kāi)的刑事法律文書[5].針對(duì)中文的司法判決預(yù)測(cè)任務(wù),目前有較多的研究工作均在此數(shù)據(jù)集上展開(kāi).
Zhong 等[6]將多種判決預(yù)測(cè)任務(wù)之間的依賴視為有向無(wú)環(huán)圖,提出了拓?fù)涠嗳蝿?wù)學(xué)習(xí)框架,并將多種判決任務(wù)間的依賴關(guān)系融入分類模型,改進(jìn)了罪名預(yù)測(cè)效果.Yang 等[7]借助多任務(wù)間的拓?fù)浣Y(jié)構(gòu),通過(guò)多角度前向預(yù)測(cè)和反向驗(yàn)證提高了多任務(wù)審判預(yù)測(cè)性能.王文廣等[8]提出了融合層次注意力網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的多任務(wù)罪名預(yù)測(cè)模型.已有研究表明,將罪名預(yù)測(cè)與其他相關(guān)判決預(yù)測(cè)任務(wù)聯(lián)合建模,為模型提供更多的監(jiān)督信息,可以改進(jìn)罪名預(yù)測(cè)效果.
Jiang 等[9]采用深度強(qiáng)化學(xué)習(xí)方法抽取文本中的論據(jù),并利用論據(jù)增強(qiáng)分類來(lái)提高罪名預(yù)測(cè)的準(zhǔn)確率.劉宗林等[10]在罪名預(yù)測(cè)和法條推薦聯(lián)合模型中融入罪名關(guān)鍵詞提升了罪名預(yù)測(cè)性能.Xu 等[11]采用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)易混淆法條之間的差異,并設(shè)計(jì)注意力機(jī)制充分利用這些差異從事實(shí)描述中抽取出明顯特征去區(qū)分易混淆罪名.已有的罪名預(yù)測(cè)工作大多從多任務(wù)學(xué)習(xí)和外部知識(shí)融入的角度開(kāi)展罪名預(yù)測(cè)研究,未考慮罪名預(yù)測(cè)的數(shù)據(jù)分布問(wèn)題.
由于各類案件發(fā)生概率的差異較大,罪名預(yù)測(cè)數(shù)據(jù)存在著嚴(yán)重的類別不平衡問(wèn)題.以 Hu 等[12]構(gòu)建的罪名預(yù)測(cè)數(shù)據(jù)集為例,Criminal-L 訓(xùn)練集共包含149 類罪名,將各罪名按其樣本占比降序排列,其中前10 類高頻罪名對(duì)應(yīng)的樣本占比約為78%,而最后100 類罪名的樣本僅占約3%,這是典型的“長(zhǎng)尾數(shù)據(jù)”.各類罪名在數(shù)量上的高度不平衡易導(dǎo)致模型在訓(xùn)練時(shí)偏向于高頻罪名而忽略低頻罪名,造成在罪名預(yù)測(cè)時(shí)低頻罪名易被錯(cuò)誤分類的問(wèn)題,從而嚴(yán)重影響模型性能.
針對(duì)罪名預(yù)測(cè)的類別不平衡問(wèn)題,Hu 等[12]在人工標(biāo)注法律屬性的基礎(chǔ)上,構(gòu)建聯(lián)合罪名預(yù)測(cè)和法律屬性預(yù)測(cè)的多任務(wù)分類模型,提高了低頻罪名的預(yù)測(cè)性能.He 等[13]在膠囊網(wǎng)絡(luò)基礎(chǔ)上,提出融合文本序列信息和空間信息的罪名預(yù)測(cè)模型,并引入Focal Loss 損失函數(shù),有效提高了低頻罪名的預(yù)測(cè)效果.
和已有的多任務(wù)方法[12]與改進(jìn)損失函數(shù)的方法[13]不同,本文從數(shù)據(jù)增強(qiáng)角度研究罪名預(yù)測(cè)的類別不平衡問(wèn)題.本文借鑒圖像分類中的混合樣本數(shù)據(jù)增強(qiáng)方法[14-15],在文本的表示空間中擴(kuò)增訓(xùn)練樣本,并提出融合罪名先驗(yàn)概率的標(biāo)簽合成策略,使合成樣本偏向低頻罪名類別,從而達(dá)到擴(kuò)增低頻罪名訓(xùn)練樣本的目的.在表示空間中合成偏向低頻罪名的訓(xùn)練樣本,既擴(kuò)增了訓(xùn)練樣本的數(shù)量,又豐富了特征的多樣性,有助于平滑模型的分類面,提高模型的泛化能力.
本文采用 Lin 等[16]提出的結(jié)構(gòu)化自注意力句子嵌入方法構(gòu)建罪名預(yù)測(cè)模型,并在模型訓(xùn)練過(guò)程中融入類別先驗(yàn)混合樣本數(shù)據(jù)增強(qiáng)策略,提升模型性能.實(shí)驗(yàn)結(jié)果表明,本文提出的融入類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)的罪名預(yù)測(cè)方法可以在不增加人工標(biāo)注和輔助任務(wù)的前提下,有效改進(jìn)罪名預(yù)測(cè)模型性能,顯著提高低頻罪名的預(yù)測(cè)效果.本文提出方法的源代碼可從網(wǎng)址https://github.com/xianyt/proir_mixup_charge 下載.
本文方法的主要貢獻(xiàn)如下:
1)本文將Mixup 數(shù)據(jù)增強(qiáng)方法引入罪名預(yù)測(cè)任務(wù)中,利用文本表示空間中的插值操作合成訓(xùn)練樣本.合成樣本增加了訓(xùn)練樣本的多樣性,有效提高了罪名預(yù)測(cè)模型的泛化能力.
2)本文針對(duì)罪名不平衡問(wèn)題,提出了類別先驗(yàn)引導(dǎo)的Mixup 數(shù)據(jù)增強(qiáng)策略.該策略在文本表示空間中生成傾向于低頻罪名的合成樣本,擴(kuò)增了低頻罪名樣本,有效緩解了罪名不平衡問(wèn)題,提高了低頻罪名的預(yù)測(cè)效果.
3)與基線模型相比,本文方法在Hu 等[12]構(gòu)建的3 個(gè)不同規(guī)模的罪名預(yù)測(cè)數(shù)據(jù)集上都取得了最好的預(yù)測(cè)效果.模型在宏準(zhǔn)確率、宏召回率和宏F1 值上都有顯著提升,低頻罪名宏F1 值提升達(dá)到13.5%.
已有的罪名預(yù)測(cè)研究工作主要從多任務(wù)聯(lián)合學(xué)習(xí)[12]和外部知識(shí)融入[10]的角度來(lái)提升模型性能,并利用輔助任務(wù)和改進(jìn)的損失函數(shù)來(lái)緩解罪名預(yù)測(cè)任務(wù)面臨的類別不平衡問(wèn)題.與已有工作不同的是,本文從數(shù)據(jù)增強(qiáng)角度來(lái)改進(jìn)罪名預(yù)測(cè)方法,提升罪名預(yù)測(cè)性能.和已有罪名預(yù)測(cè)方法相比,本文方法沒(méi)有引入輔助任務(wù),也不需要額外的數(shù)據(jù)標(biāo)注工作;另外,本文提出的數(shù)據(jù)增強(qiáng)策略不依賴于特定的文本編碼器,可以應(yīng)用于已有的罪名預(yù)測(cè)模型.
Zhang 等[14]提出的Mixup 方法是一種應(yīng)用于圖像分類的數(shù)據(jù)增強(qiáng)策略.該方法是從訓(xùn)練集中隨機(jī)抽取圖像樣本,并通過(guò)線性混合來(lái)合成新的圖像樣本,有效改進(jìn)了小樣本圖像分類的性能[14].由于文本是一種離散表示,所以Mixup 方法無(wú)法直接應(yīng)用于文本分類任務(wù).Verma 等[15]提出的Manifold Mixup 方法在圖像的嵌入空間中利用隨機(jī)混合圖像的向量表示來(lái)生成編碼空間中的偽樣本;相比Mixup 方法,Manifold Mixup 能夠提供更高層的監(jiān)督信息,使模型具有更好的泛化能力.受Manifold Mixup 方法啟發(fā),本文提出了融合類別先驗(yàn)Mixup方法,與 Manifold Mixup 方法中對(duì)樣本向量表示和標(biāo)簽采用相同混合因子的做法不同,本文方法針對(duì)文本表示和分類標(biāo)簽采用不同的混合因子,利用罪名的先驗(yàn)概率來(lái)生成偏向低頻類別的偽樣本,以此來(lái)緩解罪名不平衡問(wèn)題.
目前,Mixup 方法在自然語(yǔ)言處理領(lǐng)域僅有少量的研究工作.Guo 等[17]將Mixup 數(shù)據(jù)增強(qiáng)方法應(yīng)用于句子分類任務(wù),提出了詞級(jí)和句子級(jí)的Mixup策略,提升了句子分類的性能,將Mixup 數(shù)據(jù)增強(qiáng)方法應(yīng)用于句子分類任務(wù),提出了詞級(jí)和句子級(jí)的Mixup 策略,提升了句子分類的性能.Chen等[18]將Mixup 方法應(yīng)用于半監(jiān)督文本分類任務(wù),改進(jìn)了分類效果.目前還未見(jiàn)針對(duì)不平衡文本分類問(wèn)題的Mixup 方法.所以,本文面向罪名預(yù)測(cè)任務(wù),研究不平衡文本分類的Mixup 數(shù)據(jù)增強(qiáng)策略具有明顯的創(chuàng)新性.
本文提出的罪名預(yù)測(cè)方法在深度學(xué)習(xí)文本分類模型基礎(chǔ)上,引入Mixup 數(shù)據(jù)增強(qiáng)策略,并利用罪名先驗(yàn)概率生成偏向低頻罪名的偽樣本,以此緩解罪名預(yù)測(cè)中的類別不平衡問(wèn)題.
本文提出的罪名預(yù)測(cè)模型包括編碼層、類別先驗(yàn)引導(dǎo)Mixup 層和分類層3 層.圖1 展示了本文提出的罪名預(yù)測(cè)模型的總體結(jié)構(gòu).最下方的編碼層用于學(xué)習(xí)罪名描述文本的向量表示,該層包括3 個(gè)子層,分別是詞嵌入層、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)編碼層[19](Bi-directional long short-term memory,Bi-LSTM)和結(jié)構(gòu)化注意力層[9].在訓(xùn)練模型時(shí),本文方法在編碼層與分類層間加入類別先驗(yàn)引導(dǎo)Mixup層,該層通過(guò)隨機(jī)混合的文本向量表示和對(duì)應(yīng)的分類標(biāo)簽生成偽樣本和偽標(biāo)簽.偽樣本向量表示和文本向量表示被送入分類層.分類層通過(guò)全連接層和Softmax 激活函數(shù)計(jì)算罪名預(yù)測(cè)值,并針對(duì)偽樣本和普通樣本計(jì)算分類損失.
圖1 罪名預(yù)測(cè)模型的總體結(jié)構(gòu)圖Fig.1 Overview of proposed charge prediction model
本文選擇Bi-LSTM 作為文本編碼器主要有3個(gè)方面的考慮.首先,Bi-LSTM 是一種被廣泛應(yīng)用的序列編碼器,可以有效對(duì)長(zhǎng)文本進(jìn)行建模.Bi-LSTM 適合用于對(duì)篇章級(jí)的案件描述進(jìn)行編碼,其有效性已在多個(gè)罪名預(yù)測(cè)模型中得到驗(yàn)證[6-7,13];其次,在實(shí)驗(yàn)過(guò)程中作者發(fā)現(xiàn),Bi-LSTM 與結(jié)構(gòu)化注意力機(jī)制結(jié)合可能很好地獲取多個(gè)側(cè)面的文本分類特征.最后,相比于雙向編碼器表示模型(Bidirectional encoder representation from transformers,BERT)[20]等預(yù)訓(xùn)練語(yǔ)言模型,Bi-LSTM 結(jié)構(gòu)簡(jiǎn)單易于訓(xùn)練,可應(yīng)用于大規(guī)模文本分類問(wèn)題.而且,在類別嚴(yán)重不平衡的罪名預(yù)測(cè)任務(wù)上,Bi-LSTM 模型訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象不明顯.第4.4 節(jié)對(duì)比了不同文本編碼器對(duì)罪名預(yù)測(cè)性能的影響.
案情描述和事實(shí)文本中的詞序列x=[w1,w2,···,wn]經(jīng)過(guò)詞嵌入編碼后得到詞序列的低維向量表示E=[e1,e2,···,en],其中,n表示文本長(zhǎng)度,wi表示文本中的第i個(gè)詞,ei∈Rd表示第i個(gè)詞的詞向量,d表示詞向量的維度.
Bi-LSTM 層以詞序列的向量表示為輸入計(jì)算詞語(yǔ)在上下文中的向量表示:
為了獲得具有上下文語(yǔ)義的詞語(yǔ)表示,本文將正向和逆向的LSTM 輸出和ei拼接作為第i個(gè)詞在序列中的隱狀態(tài)表示:
通過(guò)拼接hi序列可得到詞序列的隱狀態(tài)表示H∈Rn×(2u+d),其中,u表示隱狀態(tài)的維度.
本文采用結(jié)構(gòu)化自注意力層來(lái)計(jì)算文本多個(gè)側(cè)面的向量表示.該層的注意力權(quán)重矩陣A∈Rr×n由2 層感知機(jī)計(jì)算得到,
式中,Ws1∈和Ws2∈是注意力層的參數(shù),da和r為模型的超參數(shù),da表示注意力層隱狀態(tài)的維度,r是注意力機(jī)制的個(gè)數(shù).
文本表示矩陣Z∈Rr×(2u+d)由詞序列的隱狀態(tài)表示H和注意力權(quán)重矩陣A的乘積得到,
文本的向量表示z由矩陣Z中的r個(gè)向量拼接得到,其維度為r×(2u+d).
在訓(xùn)練過(guò)程中,類別先驗(yàn)引導(dǎo)Mixup 層通過(guò)隨機(jī)混合批次內(nèi)的文本向量表示得到擴(kuò)增的文本向量表示,其中M是一個(gè)批次內(nèi)的樣本數(shù)據(jù)量,具體方法將在第 3 節(jié)中詳細(xì)闡述.
最后,分類層通過(guò)線性層和Softmax 激活函數(shù)預(yù)測(cè)各罪名的概率,
式中,W∈RK×r(2u+d)和b∈RK分別是線性層的權(quán)重矩陣和偏置,K表示罪名類別數(shù).
Mixup 數(shù)據(jù)增強(qiáng)方法的主要思想是通過(guò)混合隨機(jī)抽取的2 個(gè)圖像和對(duì)應(yīng)標(biāo)簽來(lái)生成偽樣本來(lái)擴(kuò)增訓(xùn)練數(shù)據(jù)[14].在此基礎(chǔ)上,Verma 等[15]提出在嵌入空間中生成偽樣本的Manifold Mixup 方法,
式中,gk(·)表示神經(jīng)網(wǎng)絡(luò)編碼器中從輸入到第k層的前向過(guò)程,λ∈[0,1] 為混合因子,由Beta 分布采樣得到.該方法在圖像的嵌入空間中合成偽樣本,利用更高層次的表示為模型提供更多的監(jiān)督信號(hào),從而有效提高了模型的泛化能力.
算法 1.類別先驗(yàn)Mixup 訓(xùn)練算法
本文借鑒Manifold Mixup 方法的思想,在文本的向量表示空間中合成偽樣本.在此基礎(chǔ)上,提出了融合類別先驗(yàn)的Mixup 數(shù)據(jù)增強(qiáng)策略.該策略在合成樣本的表示和標(biāo)簽時(shí)采用不同的混合因子,并通過(guò)各類別罪名的先驗(yàn)概率計(jì)算標(biāo)簽的混合因子,以便使偽樣本的標(biāo)簽偏向低頻罪名.本文提出的融合類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略的公式可表示為:
式中,f(·)為將文本編碼為向量的神經(jīng)網(wǎng)絡(luò),λ∈[0,1]為樣本的混合因子,由Beta (α,α)分布采樣得到,α為超參數(shù),λy∈[0,1] 為標(biāo)簽的混合因子,(xi,yi)和(xj,yj)是從同一個(gè)訓(xùn)練批次中隨機(jī)抽取的樣本對(duì).
為了能在訓(xùn)練過(guò)程中通過(guò)Mixup 方法擴(kuò)增低頻罪名訓(xùn)練樣本,本文通過(guò)融合各類別罪名的先驗(yàn)概率來(lái)指導(dǎo) Mixup 為低頻罪名標(biāo)簽賦予更大的混合因子,使得合成的偽樣本更偏向于少樣本類別.為此,首先根據(jù)類別先驗(yàn)概率計(jì)算類別混合因子λp:
式中,p(xi)和p(xj)分別為樣本xi和xj所對(duì)應(yīng)類別的先驗(yàn)概率.各類別罪名的先驗(yàn)概率根據(jù)訓(xùn)練集中的各類別罪名的占比計(jì)算得到.如果xi為低頻罪名,則意味著其先驗(yàn)概率低,那么按式(9)為其分配較大的λp,以使得偽樣本的標(biāo)簽偏向低頻罪名;反之,為其分配較小的λp.
在得到λp后,本文將之與采樣得到的樣本混合因子λ進(jìn)行平均得到標(biāo)簽混合因子λy:
通過(guò)引入類別先驗(yàn),使得合成樣本既擴(kuò)增了訓(xùn)練樣本,同時(shí)緩解了模型過(guò)于偏向高頻罪名的問(wèn)題.
本文將Mixup 數(shù)據(jù)增強(qiáng)策略引入深度學(xué)習(xí)罪名預(yù)測(cè)模型中.在訓(xùn)練過(guò)程中通過(guò)式(8)、式(9)和式(10)隨機(jī)混合一個(gè)批次內(nèi)的文本向量表示及其標(biāo)簽來(lái)獲得偽樣本,并利用交叉熵分別計(jì)算樣本和偽樣本的損失,模型損失L(θ)公式如下:
式中,第1 項(xiàng)為樣本分類損失,第2 項(xiàng)為偽樣本分類損失.M為一個(gè)批次的樣本數(shù)量,K為罪名類別數(shù),yik∈{0,1} 為樣本i在類別k上的標(biāo)簽,∈[0,1]為偽樣本j在類別k上的偽標(biāo)簽,分別為樣本i和j在類別k上的預(yù)測(cè)值.
融合類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)的罪名預(yù)測(cè)模型的訓(xùn)練過(guò)程參見(jiàn)算法1.算法輸入中的文本編碼器對(duì)應(yīng)第2 節(jié)的編碼層,罪名先驗(yàn)概率由訓(xùn)練集中各罪名的樣本數(shù)量預(yù)先估計(jì)得到.
為了驗(yàn)證所提出方法的有效性,本文將之與現(xiàn)有罪名預(yù)測(cè)方法進(jìn)行對(duì)比實(shí)驗(yàn),并分析了相關(guān)實(shí)驗(yàn)結(jié)果.
本文采用Hu 等[12]構(gòu)建的罪名預(yù)測(cè)數(shù)據(jù)集驗(yàn)證本文方法的有效性.該數(shù)據(jù)集主要針對(duì)低頻罪名和易混淆罪名預(yù)測(cè)任務(wù)構(gòu)建,不包含多被告、數(shù)罪并罰的情形.該數(shù)據(jù)集包含小、中、大3 個(gè)不同規(guī)模的子數(shù)據(jù)集,分別命名為Criminal-S、Criminal-M、Criminal-L,數(shù)據(jù)集統(tǒng)計(jì)信息參見(jiàn)表1.
表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 The statistics of different datasets
圖2 展示了Criminal 數(shù)據(jù)集中3 個(gè)不同規(guī)模子數(shù)據(jù)集訓(xùn)練樣本的高頻、中頻和低頻罪名的分布情況.圖2 中的高頻、中頻和低頻罪名根據(jù)Criminal-S 數(shù)據(jù)集的樣本數(shù)量統(tǒng)計(jì)得到,其中低頻罪名為樣本數(shù)少于10 的罪名(共 49 類),高頻罪名為樣本數(shù)多于100 的罪名(共49 類),其余的作為中頻罪名(共51 類).由圖2 可以看出,3 個(gè)不同規(guī)模數(shù)據(jù)集的罪名分布均呈現(xiàn)出典型的“長(zhǎng)尾分布”特征,其中,49 類高頻罪名樣本占比約為97%,中頻罪名樣本占比僅為2.6%左右,而3 個(gè)子數(shù)據(jù)集的低頻罪名更加稀少,均少于1%.從圖2 還可發(fā)現(xiàn),3 個(gè)不同規(guī)模的樣本分布差異主要集中在低頻罪名上.
圖2 訓(xùn)練集罪名樣本分布Fig.2 Charge distribution of the training set
為進(jìn)一步比較3 個(gè)子數(shù)據(jù)集在類別不平衡上的差異,本文在圖3 展示了樣本數(shù)量最少的 75 個(gè)罪名的樣本分布情況.本文統(tǒng)計(jì)了Criminal-S 數(shù)據(jù)集中各罪名的樣本數(shù)量,并將罪名按樣本從多到少排列作為圖3 的橫坐標(biāo).圖3 的縱坐標(biāo)為各罪名樣本的占比.從圖3 可發(fā)現(xiàn),3 個(gè)數(shù)據(jù)集中頻樣本上的分布基本一致,但是在低頻樣本分布上具有明顯差異.在Criminal-S 數(shù)據(jù)集中低頻罪名的分布比較穩(wěn)定,最低占比穩(wěn)定在0.013%左右.Criminal-M 數(shù)據(jù)集的低頻罪名占比在0.005%~0.013%之間波動(dòng),而Criminal-L 數(shù)據(jù)集的低頻罪名占比在0.003%~0.013%之間波動(dòng).相比之下,Criminal-L 數(shù)據(jù)集類別不平衡程度最嚴(yán)重,Criminal-M 數(shù)據(jù)集次之,而Criminal-S 數(shù)據(jù)集類別不平衡程度最輕.
圖3 訓(xùn)練集罪名部分樣本分布Fig.3 Charge distribution of the training set
在評(píng)價(jià)指標(biāo)方面,本文與文獻(xiàn)[12-13]同樣采用準(zhǔn)確率(Accuracy,Acc.)、宏精確率(Macro-precision,MP)、宏召回率(Macro-recall,MR)和宏F1 值(Macro F1)作為模型性能的評(píng)價(jià)指標(biāo).
本文采用Pytorch 實(shí)現(xiàn)提出的模型和算法.犯罪事實(shí)描述的最大詞序列長(zhǎng)度設(shè)為500,詞頻低于5 的詞被視為未知詞.詞嵌入維度d設(shè)為100,并采用文獻(xiàn)[12]的預(yù)訓(xùn)練詞向量初始化嵌入層參數(shù).Bi-LSTM 層的隱狀態(tài)維度u設(shè)為300.嵌入層和Bi-LSTM 層的dropout 值分別設(shè)置為0.3 和0.1.結(jié)構(gòu)化自注意力機(jī)制的頭數(shù)r設(shè)為24,注意力層隱狀態(tài)維度da設(shè)為128.樣本混合因子λ由參數(shù)α=150的Beta 分布采樣得到,標(biāo)簽混合因子λy由式(9)和式(10)計(jì)算得到.
模型采用Adam 梯度下降算法[21]訓(xùn)練,初始學(xué)習(xí)率設(shè)為 0.001,β1=0.9,β2=0.999,ε=10-8.最大訓(xùn)練輪次設(shè)為50,批次大小設(shè)為256.訓(xùn)練過(guò)程采用提前停止策略,并根據(jù)驗(yàn)證集損失函數(shù)最小選擇最優(yōu)模型.
為減小案件描述中不同金額、重量、酒精含量、年齡等對(duì)模型詞匯表的影響,本文在數(shù)據(jù)預(yù)處理時(shí)對(duì)犯罪事實(shí)描述中的金額、重量、酒精含量、年齡等的數(shù)字部分進(jìn)行了替換處理.例如,將“2018 年”替換為“×年”,“1 000 元”替換為“×元”.
本文采用以下幾種典型的文本分類模型和當(dāng)前性能最優(yōu)的罪名預(yù)測(cè)方法作為基線模型:
1)TFIDF+SVM:該方法采用詞頻逆文檔頻率(Term frequency-inverse document frequency,TFIDF)[22]抽取文本特征,特征維度為2 000,并采用支持向量機(jī)(Support vector machine,SVM)[23]作為分類器.
2)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN):該方法利用多個(gè)不同尺度的卷積網(wǎng)絡(luò)構(gòu)建文本分類器[24].
3)長(zhǎng)短期記憶網(wǎng)絡(luò):采用雙層LSTM 作為案件事實(shí)編碼器,并利用最大池化獲取分類特征[19].
4)事實(shí)-法條注意力模型(Fact-law attention model,Fact-Law Att):Luo 等[25]提出的融合法條相關(guān)性與注意力機(jī)制的多任務(wù)罪名預(yù)測(cè)模型.
5)小樣本屬性模型(Few-shot attributes model,Few-Shot Attri):Hu 等[12]提出的融合法律屬性與罪名預(yù)測(cè)的聯(lián)合模型,該方法通過(guò)引入法律屬性分類任務(wù)改進(jìn)低頻罪名預(yù)測(cè)性能.
6)序列增強(qiáng)型的膠囊模型(Sequence enhanced capsule model,SECaps):He 等[13]提出的融合文本序列信息和空間信息的罪名預(yù)測(cè)模型,并引入 Focal Loss 損失函數(shù),進(jìn)而改進(jìn)低頻罪名的預(yù)測(cè)效果.
除TFIDF+SVM 模型外,其余對(duì)比模型詞嵌入維度設(shè)為100.LSTM 模型的隱狀態(tài)維度設(shè)為100.CNN 模型的濾波器寬度為(2,3,4,5),每個(gè)濾波器的大小為25.基線模型實(shí)驗(yàn)結(jié)果引用自文獻(xiàn)[12-13].
本文實(shí)現(xiàn)了2 個(gè)引入Mixup 數(shù)據(jù)增強(qiáng)策略的模型:LSTM-Att-Manifold-Mixup 表示引入Manifold Mixup 數(shù)據(jù)增強(qiáng)策略的罪名預(yù)測(cè)模型,LSTMAtt-Prior-Mixup 為融合類別先驗(yàn)Mixup 的罪名預(yù)測(cè)模型.本文方法與基線模型的對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表2.
由表2 的實(shí)驗(yàn)結(jié)果可以看出,本文方法與基線模型相比,在3 個(gè)數(shù)據(jù)集上均取得了最好的預(yù)測(cè)結(jié)果,準(zhǔn)確率、宏精確率、宏召回率和宏F1 值均顯著優(yōu)于基線模型.與現(xiàn)有最優(yōu)模型SECaps 相比,本文模型LSTM-Att-Prior-Mixup 在Criminal-M 數(shù)據(jù)集上的性能提升最為明顯,準(zhǔn)確率提升了0.9%,MP 值提高了9.5%,MR 值提高了 11.8%,F1 值提高了10.5%.對(duì)比實(shí)驗(yàn)結(jié)果表明,類別先驗(yàn)Mixup數(shù)據(jù)增強(qiáng)方法能有效提高罪名預(yù)測(cè)模型的性能.
表2 罪名預(yù)測(cè)對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Comparative experimental results
與LSTM-Att-Manifold-Mixup 方法相比,引入類別先驗(yàn)的LSTM-Att-Prior-Mixup 方法在召回率和F1 值上具有明顯提升,但其對(duì)準(zhǔn)確率和MP值的影響并不明顯,在Criminal-L 的準(zhǔn)確率和宏精確率略有下降.但總的來(lái)說(shuō)引入類別先驗(yàn)有助于提高罪名預(yù)測(cè)的總體性能,而不會(huì)對(duì)模型準(zhǔn)確率造成過(guò)多不利影響.LSTM-Att-Prior-Mixup 方法針對(duì)小規(guī)模數(shù)據(jù)集Criminal-S 的提升最顯著,相比SECapsF1 提高了6.8%,而對(duì)于Criminal-M 和Criminal-L 數(shù)據(jù)集提升效果有所減弱,其主要原因可能是隨訓(xùn)練樣本的增多,Mixup 方法合成樣本的作用在減弱,甚至成為一種不利于模型訓(xùn)練的噪聲,從而影響模型的準(zhǔn)確率和 MP 值.
為進(jìn)一步驗(yàn)證本文方法對(duì)低頻罪名分類性能的改進(jìn)作用,本文針對(duì)不同頻率罪名開(kāi)展對(duì)比實(shí)驗(yàn),根據(jù)訓(xùn)練集中罪名的出現(xiàn)頻率將罪名劃分為3 類,出現(xiàn)次數(shù)不高于10 的罪名被看作低頻罪名,出現(xiàn)次數(shù)高于100 的罪名被看作高頻罪名,其余的作為中頻罪名.針對(duì)Criminal-S 數(shù)據(jù)集的不同頻率罪名預(yù)測(cè)實(shí)驗(yàn)結(jié)果見(jiàn)表3.
由表3 可以看出,本文方法在高頻、中頻和低頻罪名上的宏F1 值均優(yōu)于基線模型.本文模型對(duì)低頻罪名預(yù)測(cè)性能的提升尤為顯著,相比SECaps 模型宏F1 值提升達(dá)到 13.5%.實(shí)驗(yàn)結(jié)果表明,本文提出的數(shù)據(jù)增強(qiáng)策略不僅能大幅改進(jìn)低頻罪名的分類效果,對(duì)高頻和中頻罪名預(yù)測(cè)性能也有一定的促進(jìn)作用.其主要原因是合成樣本有助平滑模型分類的決策面,而類別先驗(yàn)引導(dǎo)的Mixup 數(shù)據(jù)增強(qiáng)策略合成的數(shù)據(jù)有效增強(qiáng)了低頻罪名的訓(xùn)練數(shù)據(jù),從而提高了模型對(duì)低頻罪名的泛化能力.
表3 不同頻率罪名預(yù)測(cè)宏 F1 值Table 3 Macro F1 value of different frequency charges
為驗(yàn)證本文方法對(duì)易混淆罪名預(yù)測(cè)性能的改進(jìn),本文選取Criminal-S 數(shù)據(jù)集中4 組典型的易混淆罪名開(kāi)展實(shí)驗(yàn),它們分別是“放火罪”與“失火罪”、“搶奪罪”與“搶劫罪”、“行賄罪”與“受賄罪”、“盜伐林木罪”與“濫伐林木罪”.表4 為現(xiàn)有方法與本文方法針對(duì)易混淆罪名的宏F1 值.
由表4 可以看出,與基線模型相比,本文方法對(duì)易混淆罪名的預(yù)測(cè)宏F1 值獲得了明顯提高.相比性能最好的SECaps 模型,本文方法在易混淆罪名上的宏F1 值提升了1.6%.文本方法在易混淆罪名上與LSTM-Att-Manifold-Mixup 模型性能相當(dāng),宏F1 值僅相差0.2%.實(shí)驗(yàn)結(jié)果表明,在文本的嵌入空間中合成偽樣本,可以改進(jìn)模型的泛化能力,提升易混淆罪名預(yù)測(cè)結(jié)果.
表4 易混淆罪名預(yù)測(cè)宏F1 值Table 4 Macro F1 value for confusing charges
為了驗(yàn)證本文提出的數(shù)據(jù)增強(qiáng)方法對(duì)不同編碼器的適應(yīng)性,本文將模型中的文本編碼器替換為BERT 預(yù)訓(xùn)練語(yǔ)言模型,并針對(duì)Criminal-S 數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn).
考慮到司法文本的領(lǐng)域特性,本文采用清華大學(xué)人工智能研究院自然語(yǔ)言處理與社會(huì)人文計(jì)算研究中心提供的刑事文書BERT 預(yù)訓(xùn)練語(yǔ)言模型[26]作為模型的編碼層.在實(shí)驗(yàn)中,本文實(shí)現(xiàn)了兩個(gè)基于BERT 罪名預(yù)測(cè)模型,其中BERT-CLS 表示采用[CLS]對(duì)應(yīng)向量作為文本表示的罪名預(yù)測(cè)模型;BERT-Att 表示在BERT 輸出的基礎(chǔ)上采用結(jié)構(gòu)化自注意力機(jī)制獲取文本表示的罪名預(yù)測(cè)模型.在微調(diào)BERT 模型時(shí),作者根據(jù)實(shí)驗(yàn)發(fā)現(xiàn)將學(xué)習(xí)速率設(shè)為 1×10-4,并根據(jù)驗(yàn)證集的F1 值選擇最優(yōu)模型時(shí)獲得的性能最好.此外,由于受限于GPU 的顯存容量,BERT 模型訓(xùn)練的批次大小設(shè)為32.表5展示了不同編碼器與不同Mixup 數(shù)據(jù)增強(qiáng)策略結(jié)合后,模型對(duì)測(cè)試集的預(yù)測(cè) F1 值.
由表5 的實(shí)驗(yàn)結(jié)果對(duì)比可以看出,以BERT 作為編碼器的模型預(yù)測(cè)性能均低于采用Bi-LSTM 作為編碼器的模型.在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)采用BERT 作為編碼器的罪名預(yù)測(cè)模型存在嚴(yán)重的過(guò)擬合問(wèn)題.在訓(xùn)練過(guò)程中,BERT 模型在訓(xùn)練集上的準(zhǔn)確率上升很快,在第7~8 輪時(shí)模型對(duì)訓(xùn)練集的準(zhǔn)確率達(dá)到1,但此時(shí)驗(yàn)證集的準(zhǔn)確率為94%左右.出現(xiàn)這一現(xiàn)象的原因可能是BERT 模型參數(shù)量巨大,在微調(diào)時(shí)模型過(guò)于偏向高頻罪名,從而導(dǎo)致模型的總體性能較差.
表5 不同編碼器對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of different encoder
對(duì)比不同的BERT 模型,BERT-Att 的性能要優(yōu)于 BERT-CLS.實(shí)驗(yàn)結(jié)果表明在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,采用結(jié)構(gòu)化注意機(jī)制有助于模型學(xué)習(xí)到更好的分類特征.
在數(shù)據(jù)增強(qiáng)策略方面,BERT-CLS 模型和BERT-Att 模型在引入數(shù)據(jù)增強(qiáng)策略后,模型性能均獲得明顯提升.與Manifold-Mixup 方法相比,本文提出的類別先驗(yàn) Mixup 數(shù)據(jù)增強(qiáng)策略可獲得更好的預(yù)測(cè)性能.
實(shí)驗(yàn)結(jié)果表明,本文提出的類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略可適用于不同的文本分類模型,同時(shí)有助于改進(jìn)模型對(duì)類別不平衡文本分類數(shù)據(jù)的性能.
類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略和結(jié)構(gòu)化自注意力機(jī)制是本文方法的重要組成部分.為驗(yàn)證它們對(duì)罪名預(yù)測(cè)模型性能的影響,本文進(jìn)行了2 組消融實(shí)驗(yàn).第1 組實(shí)驗(yàn)從模型訓(xùn)練過(guò)程中移除類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略,該實(shí)驗(yàn)在表6 標(biāo)記為L(zhǎng)STMAtt.第2 組實(shí)驗(yàn)在移除類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略基礎(chǔ)上,將結(jié)構(gòu)化自注意力層替換為最大池化層,該實(shí)驗(yàn)標(biāo)注記為L(zhǎng)STM-Maxpool.
由表6 的消融實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn),移除類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略后,模型性能明顯下降,模型針對(duì)Criminal-S 和Criminal-M 兩個(gè)數(shù)據(jù)集的準(zhǔn)確率和宏精確率有所下降,而3 個(gè)數(shù)據(jù)集的MR 平均下降了4.9%,F1 值平均下降了3.4%.實(shí)驗(yàn)結(jié)果表明,本文提出的類別先驗(yàn) Mixup 數(shù)據(jù)增強(qiáng)策略對(duì)緩解罪名不平衡具有重要作用,數(shù)據(jù)增強(qiáng)策略可顯著提高模型的召回率和F1 值,而不會(huì)對(duì)模型的準(zhǔn)確率和宏精確率造成過(guò)多的影響.
表6 消融實(shí)驗(yàn)罪名預(yù)測(cè)結(jié)果Table 6 Results of ablation experiments
本文將結(jié)構(gòu)化自注意力層替換為Max-pooling層后,模型性能大幅下降,準(zhǔn)確率平均下降了0.9%,MP 平均下降了22.8%,MR 平均下降了28.4%,F1值平均下降了25.8%,該實(shí)驗(yàn)結(jié)果表明,從文本中獲取豐富的分類特征對(duì)于罪名預(yù)測(cè)模型的性能提升具有重要影響.相比于最大池化層,結(jié)構(gòu)化自注意力機(jī)制能夠更加有效地捕獲不同側(cè)面案情的文本特征,從而大幅提高模型的性能.
從消融實(shí)驗(yàn)結(jié)果可看出,在利用結(jié)構(gòu)注意力獲取有效罪名分類特征的基礎(chǔ)上,引入本文提出的類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略可進(jìn)一步提高罪名預(yù)測(cè)性能.
本節(jié)討論模型主要超參數(shù)對(duì)罪名預(yù)測(cè)性能的影響.
樣本混合因子λ決定了樣本的合成比例,對(duì)偽樣本的分布具有重要影響.本文對(duì)比了不同Beta分布超參數(shù)對(duì)模型性能的影響.圖4 展示了不同超參數(shù)α下模型對(duì)Criminal-S 數(shù)據(jù)集的預(yù)測(cè)結(jié)果,橫坐標(biāo)為超參數(shù)α,縱坐標(biāo)為模型性能指標(biāo).
由圖4 的實(shí)驗(yàn)結(jié)果可以看出,隨著超參數(shù)α的增大模型的性能也逐步提高.其原因是當(dāng)α值較小時(shí),采樣得到的λ值偏向于0 或1,導(dǎo)致偽樣本向量表示偏向其中一個(gè)樣本,影響了偽樣本的多樣性.當(dāng)α值增大時(shí),采樣得到的λ值趨向于0.5,則樣本表示在合成樣本中的占比趨向于平均,則合成樣本在表示空間中分布更加均勻.這樣的數(shù)據(jù)分布有助于平滑模型的分類決策面,提高模型的泛化能力.當(dāng)α超過(guò) 150 后模型性能有所下降,其原因可能是采樣得到的λ值接近0.5 且方差很小,這也會(huì)影響合成樣本的多樣性,從而對(duì)模型訓(xùn)練造成不利影響.
圖4 Beta 分布超參數(shù)的影響Fig.4 Impact of Beta distribution parameters
當(dāng)α超過(guò)150 后模型性能有所下降,其原因可能是采樣得到的λ值接近0.5 且方差很小,這也會(huì)影響合成樣本的多樣性,從而對(duì)模型訓(xùn)練造成不利影響.
結(jié)構(gòu)化自注意力層的超參數(shù)r決定了文本表示的維度.圖5 展示了不同r值對(duì)應(yīng)的模型性能,橫坐標(biāo)為r的值,縱坐標(biāo)為模型的性能指標(biāo).
由圖5 結(jié)果可以看出,隨著注意力頭數(shù)r的增大,文本表示包含的特征越來(lái)越豐富,模型的性能也不斷提升.當(dāng)r大于24 后,模型性能有所下降,其原因可能是當(dāng)r增大時(shí),模型的復(fù)雜度也隨之增大,導(dǎo)致模型過(guò)擬合,降低了模型的泛化能力.
圖5 注意力頭數(shù)的影響Fig.5 Impact of head number in attention Layer
本文通過(guò)可視化模型的注意力權(quán)重來(lái)分析罪名預(yù)測(cè)模型的分類依據(jù),并通過(guò)對(duì)比LSTM-Att 模型和LSTM-Att-Prior-Mixup 的注意力差異對(duì)數(shù)據(jù)增強(qiáng)策略對(duì)模型的影響進(jìn)行分析.
圖6 展示了模型對(duì)低頻罪名“拐騙兒童罪”案例的注意力權(quán)重分布情況.從總體上看,2 個(gè)模型都關(guān)注到了案情描述中比較重要的詞語(yǔ),比如“不知去向”“借口”等.但是,相比于LSTM-Att-Prior-Mixup 模型,LSTM-Att 模型的注意力更加分散,它還關(guān)注了許多與罪名分類無(wú)關(guān)的詞語(yǔ),如“港南區(qū)”“評(píng)定”等.可能正是由于這些注意力的分散導(dǎo)致LSTM-Att 模型將該案件錯(cuò)分為“非法拘禁罪”.
圖6 低頻罪名案例Fig.6 Sample of low frequency charge
圖7 展示了模型對(duì)易混淆罪名“行賄罪”案例的注意力權(quán)重分布情況.與低頻罪名案例中的情況類似,兩個(gè)模型都關(guān)注到了案情描述中比較重要的詞語(yǔ),比如“行賄”“收受”“x萬(wàn)”等與行賄、受賄緊密相關(guān)的詞語(yǔ).然而,相比之下LSTM-Att 模型的注意力更加分散,從而導(dǎo)致模型將該案件錯(cuò)分為“受賄罪”.
圖7 易混淆罪名案例Fig.7 Sample of confusing charge
綜上所述,類別先驗(yàn)Mixup 有助于模型學(xué)習(xí)到更優(yōu)的注意力機(jī)制,使得模型關(guān)注的詞語(yǔ)更加集中,從而提高了模型對(duì)低頻罪名和易混淆罪名的預(yù)測(cè)能力.
本文將Mixup 數(shù)據(jù)增強(qiáng)策略引入到罪名預(yù)測(cè)任務(wù)中,并針對(duì)罪名不平衡問(wèn)題提出了類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)策略,有效緩解了類別不平衡帶來(lái)的影響,提高了低頻罪名和易混淆罪名的分類性能;相比已有方法,本文提出的類別先驗(yàn)Mixup 數(shù)據(jù)增強(qiáng)方法簡(jiǎn)單有效,無(wú)需額外的人工標(biāo)注,也不需要引入輔助任務(wù).
本文主要關(guān)注于改進(jìn)低頻罪名預(yù)測(cè)性能,并針對(duì)單罪名預(yù)測(cè)問(wèn)題驗(yàn)證了所提方法的有效性,而數(shù)罪并罰情況下的Mixup 數(shù)據(jù)增強(qiáng)策略將在下一步工作中進(jìn)行研究.