宋澤宇 李 旸 李德玉,3 王素格,3
近年來,深度學(xué)習(xí)的發(fā)展使司法大數(shù)據(jù)越來越受到人們的關(guān)注,催生出很多面向司法領(lǐng)域的應(yīng)用,智慧法院建設(shè)也被納入國家司法建設(shè)進(jìn)程.在司法領(lǐng)域,法官閱讀案情描述,依據(jù)相關(guān)法律條文,最終確定案件罪名.然而,在同一案件中,通常存在多個要素標(biāo)簽,這些標(biāo)簽的準(zhǔn)確識別與分類對于案情摘要、可解釋類案件推送等司法領(lǐng)域的實際業(yè)務(wù)具有重要的支撐作用.
目前,學(xué)者們已提出許多方法用于解決多標(biāo)簽分類問題,主要是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法,包含問題轉(zhuǎn)換方法和算法適應(yīng)方法兩類.
問題轉(zhuǎn)換方法通過分解樣本集,將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為傳統(tǒng)的多個單標(biāo)簽分類任務(wù),該策略與算法無關(guān).常見的是二元相關(guān)算法(Binary Correla-tion, BR)[1],核心思想是將每個標(biāo)簽視為一個單獨(dú)的二類變量,分別為每個標(biāo)簽訓(xùn)練一個二元分類器,不考慮標(biāo)簽間的相關(guān)性[2],但會造成預(yù)測性能下降.為了捕捉標(biāo)簽間的關(guān)系,標(biāo)簽集算法(Label Powerset, LP)將所有標(biāo)簽可能的組合取值視為一個新類,但是,由于標(biāo)簽的可能組合取值隨標(biāo)簽數(shù)指數(shù)增長,訓(xùn)練較復(fù)雜[3].分類器鏈算法(Classifier Chain, CC)以“鏈”的方式連接標(biāo)簽,一個標(biāo)簽的預(yù)測值可幫助預(yù)測另一個標(biāo)簽的不確定性,但只能捕捉標(biāo)簽的低階相關(guān)性[4].
算法適應(yīng)方法是對已有算法進(jìn)行適當(dāng)變換,以適應(yīng)多標(biāo)簽分類問題.Elisseeff等[5]提出排序支持向量機(jī)(Rank-Support Vector Machine, Rank-SVM),采用基于多標(biāo)簽熵的決策樹進(jìn)行多標(biāo)簽分類.針對司法領(lǐng)域,Thompson[6]采用最近鄰算法和決策樹算法等,實現(xiàn)裁判文書的分類.針對罪名標(biāo)簽預(yù)測中的多標(biāo)簽問題,ulea等[7]采用支持向量機(jī)(SVM)進(jìn)行分類,并以犯罪事實、犯罪時間等作為特征,取得較優(yōu)效果.
隨著深度學(xué)習(xí)的快速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型開始用于多標(biāo)簽文本分類(Multi-label Text Classi-fication, MLTC)任務(wù)中.Conneau等[8]和Yao等[9]將多標(biāo)簽分類視為一系列單標(biāo)簽文本分類任務(wù).Reyes等[10]簡單地將單標(biāo)簽文本分類擴(kuò)展到MLTC.但是這種簡化往往使分類性能下降,原因之一是單標(biāo)簽文本分類不涉及標(biāo)簽依賴問題,而多標(biāo)簽文本分類任務(wù)中各標(biāo)簽之間可能存在語義依賴.另外,當(dāng)涉及某些標(biāo)簽的訓(xùn)練數(shù)據(jù)不足時,標(biāo)簽間的語義依賴作用更明顯[11].Liu等[12]設(shè)計極端多標(biāo)簽-卷積神經(jīng)網(wǎng)絡(luò)模型(Extreme Multi-label-CNN, XML-CNN),側(cè)重于文檔表示,忽略標(biāo)簽間的相關(guān)性.卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network-Recurrent Neural Network, CNN-RNN)[13]和序列生成模型(Sequence Generation Model, SGM)[14]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)解碼器生成一系列可能的標(biāo)簽.在司法領(lǐng)域中,Ye等[15]從自然語言生成(Natural Language Generation, NLG)的角度,使用基于編碼端罪名標(biāo)簽的集合到集合(Sequence-to-Sequence, seq2seq)模型,生成判決觀點.
雖然標(biāo)簽差異可通過關(guān)注解碼器的狀態(tài)捕捉,但任何兩個標(biāo)簽的相關(guān)性并不能通過固定的遞歸解碼器動態(tài)建模.Yang等[16]提出分層注意力網(wǎng)絡(luò)(Hierarchical Attention Network, HAN),使用分層注意的門控循環(huán)單元(Gate Recurrent Unit, GRU)進(jìn)行多標(biāo)簽文檔分類.Yang等[17]提出序列到集合(Sequence-to-Set, Seq2set)模型,利用集合的無序性,降低錯誤標(biāo)簽序列帶來的影響,不僅捕捉標(biāo)簽之間的相互關(guān)系,而且減少對標(biāo)簽序列的依賴,分類性能得到一定提高.在司法領(lǐng)域中,Luo等[18]使用注意力機(jī)制,將法律條文信息融入文本建模部分,用于輔助罪名預(yù)測的多標(biāo)簽文本分類.
在實際應(yīng)用中,多標(biāo)簽文本分類任務(wù)中的標(biāo)簽具有語義信息,上述方法將標(biāo)簽看成原子符號,忽略關(guān)聯(lián)于標(biāo)簽的文本內(nèi)容的潛在知識.一些研究者希望利用標(biāo)簽信息捕獲單詞間的相似性和規(guī)律性.Du等[19]交互單詞表示和標(biāo)簽表示,獲得每個詞與標(biāo)簽的匹配得分,度量詞與標(biāo)簽的關(guān)聯(lián),但并未考慮不同標(biāo)簽應(yīng)關(guān)注不同文檔更深層語義表示.Byrd等[20]通過欠采樣標(biāo)簽類別對應(yīng)較多的文本、Chawla等[21]利用過采樣標(biāo)簽類別對應(yīng)較少的文本、Cui等[22]通過在損失函數(shù)中為“尾標(biāo)簽”分配較大權(quán)重的方式,處理標(biāo)簽分布極端不平衡的問題.
多標(biāo)簽文本分類是研究單個篇章中存在多個標(biāo)簽的情況,從不同標(biāo)簽在篇章中的位置來看,語義關(guān)聯(lián)較強(qiáng)的標(biāo)簽往往在文本中距離較近.當(dāng)文本內(nèi)容較長時,復(fù)雜的標(biāo)簽語義關(guān)聯(lián)信息可能隱藏在繁雜或冗余的內(nèi)容中.此外,法律文本數(shù)據(jù)集上也同樣存在部分標(biāo)簽訓(xùn)練數(shù)據(jù)不足,導(dǎo)致標(biāo)簽分布不平衡的問題,即大量“尾部標(biāo)簽”僅包含在較少的正面文本中.因此,針對上述標(biāo)簽關(guān)聯(lián)的信息,并結(jié)合法律文本分類的角度,需要解決如下3方面的問題:1)如何從法律文本中充分捕獲細(xì)粒度的文本語義信息;2)如何從每個法律文本中提取與相應(yīng)標(biāo)簽相關(guān)的區(qū)別性信息;3)如何準(zhǔn)確挖掘法律標(biāo)簽之間的依賴性或相關(guān)性關(guān)系.
為此,本文提出融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法(Multi-label Classification of Legal Text with Fusion of Label Relations, MLC-FLR),利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的特征矩陣和相關(guān)矩陣,捕捉和探索標(biāo)簽之間的關(guān)鍵依賴關(guān)系,建立標(biāo)簽間的依賴結(jié)構(gòu).再利用不同樣本對于標(biāo)簽的關(guān)注度也不同這一特性,提出標(biāo)簽注意機(jī)制,從樣本內(nèi)容信息中識別與標(biāo)簽相關(guān)的文本表示.最后,將兩者結(jié)合并輸入到編碼器中進(jìn)行分類.在3個法律數(shù)據(jù)集上的實驗表明,本文方法性能較優(yōu).
圖1 MLC-FLR框圖
為了更好地表示文本內(nèi)容,使用預(yù)先訓(xùn)練的Bert模型實現(xiàn)每個詞的上下文感知表示[23].
為了捕獲每個詞的前向和后向上下文語義,采用雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory, Bi-LSTM),獲得法律文本和標(biāo)簽的隱層語義表示.
將法律文本的嵌入向量X=[x1,x2,…,xn]輸入Bi-LSTM,通過時刻i-1和輸入更新時刻i的隱層狀態(tài)分別為:
已有研究表明,在多標(biāo)簽文本分類中,通常標(biāo)簽之間具有相關(guān)性,如何準(zhǔn)確捕獲隱藏在數(shù)據(jù)中的標(biāo)簽關(guān)系是多標(biāo)簽分類的重要問題.本文使用標(biāo)簽圖反映標(biāo)簽關(guān)系,設(shè)計基于鄰近度的相似標(biāo)簽圖構(gòu)造方法,用于模擬標(biāo)簽之間的相關(guān)關(guān)系.方法將每個標(biāo)簽視為一個節(jié)點,每個節(jié)點收集所有鄰居的特征以形成表示.每條邊反映節(jié)點之間的語義相關(guān)性:如果標(biāo)簽共現(xiàn),存在邊;否則,不存在邊.
設(shè)標(biāo)簽圖G=(V,E),其中,V為節(jié)點集,每個節(jié)點表示一個標(biāo)簽,E為邊集,每個邊表示其連接的2個標(biāo)簽具有相關(guān)性,邊上的權(quán)重表示標(biāo)簽相關(guān)性的強(qiáng)弱.標(biāo)簽圖可用鄰接矩陣A∈Rk×k表示,Aij表示第i個標(biāo)簽和第j個標(biāo)簽的相關(guān)性大小.
一個多標(biāo)簽文本數(shù)據(jù)集的標(biāo)簽圖可通過學(xué)習(xí)的方式獲得,具有k個節(jié)點vi∈V,邊(vi,vj)∈E,鄰接矩陣A,共現(xiàn)矩陣M∈Rk×k和頻率向量F∈Rk.通過數(shù)據(jù)驅(qū)動的方式建立鄰接矩陣.首先,利用樣本在訓(xùn)練集上的標(biāo)簽標(biāo)注統(tǒng)計所有標(biāo)簽對之間的出現(xiàn)次數(shù),得到共現(xiàn)矩陣M,頻率向量F,其中,k為標(biāo)簽數(shù),F(xiàn)i為標(biāo)簽i在訓(xùn)練集中的頻率.利用這個標(biāo)簽共現(xiàn)矩陣和頻率向量,可得到歸一化的鄰接矩陣A=M/F.這類似于相關(guān)矩陣如何內(nèi)置[24],除了不采用二值化.
標(biāo)簽嵌入由標(biāo)簽共存圖確定,并捕獲由圖結(jié)構(gòu)定義的標(biāo)簽語義信息.圖卷積網(wǎng)絡(luò)(GCN)聚合所有相鄰節(jié)點的值以更新當(dāng)前節(jié)點.每個卷積層只處理一階鄰域信息.多階鄰域信息可通過堆疊幾個卷積層實現(xiàn).對于每個節(jié)點vi∈V,使用標(biāo)簽在經(jīng)過Bi-LSTM后得到最后一個隱層表示作為節(jié)點特征,標(biāo)簽集Y中的k個標(biāo)簽形成Hk×d,為了區(qū)分,記作M.標(biāo)簽嵌入可表示為
H(l)=σ(AHlW0),H(l+1)=σ(AHlWl),
其中,σ(·)表示激活函數(shù),A表示鄰接矩陣,Wl表示第l層的卷積權(quán)重.輸出H(l+1)為融合共現(xiàn)標(biāo)簽關(guān)系的特征表示.
由于多標(biāo)簽文本可由一個或多個標(biāo)簽進(jìn)行標(biāo)記,并且對于每個文本,具有與其對應(yīng)標(biāo)簽最相關(guān)的上下文,即一個文本中的單詞對每個標(biāo)簽的貢獻(xiàn)不同,因此,為了得到具有與標(biāo)簽相關(guān)的法律文本表示,本文設(shè)計標(biāo)簽注意力機(jī)制,更好地從每個法律文本中提取相應(yīng)標(biāo)簽的區(qū)別性信息.
qj(e)=softmax(Vj(e,1),Vj(e,2),…,Vj(e,m)).
然后將qj(e)按行進(jìn)行max運(yùn)算,并將得到所有最大值進(jìn)行拼接,得到最大相關(guān)矩陣:
Bj=max(qj(1))⊕max(qj(2))⊕…⊕
max(qj(n))∈Rn×1.
將得到的Bj與1.2節(jié)得到的法律文本隱層表示Ht進(jìn)行點積,得到與標(biāo)簽yj相關(guān)的法律文本表示:
同樣,針對法律文本與所有標(biāo)簽執(zhí)行上述過程,得到k個融合標(biāo)簽信息的法律文本表示,再將其拼接,可得
至此,得到標(biāo)簽的圖表示H(l+1)和標(biāo)簽相關(guān)的文檔表示Mt,前者側(cè)重于標(biāo)簽內(nèi)容的表示,后者在一定程度上反映文本內(nèi)容與標(biāo)簽之間的語義關(guān)聯(lián),將兩者相乘并進(jìn)行分類:
f=H(l+1)Mt.
利用標(biāo)簽注意力機(jī)制,獲得標(biāo)簽相關(guān)的法律文本表示f后,再通過全連接層和sigmoid函數(shù)構(gòu)建多標(biāo)簽分類器:
其中,W為可訓(xùn)練模型參數(shù),sigmoid函數(shù)將輸出值轉(zhuǎn)化為概率.
交叉熵?fù)p失可作為損失函數(shù),已被證明適用于多標(biāo)簽文本分類任務(wù)[25],具體公式如下:
我的接近并最終投身文學(xué),近一甲子矣。在此漫漫歲月,雖無驕人成績,所幸終日矻矻,與文學(xué)相伴了一生。朋友曾與我談及一同起步的同行許多已巍然成樹,嘆息我等才情有限,始終不成氣候,最多算棵草而已,很沒勁。我同意他的比喻,卻不同意他的自卑。沒有長成樹木,長成了草,也是文學(xué)原野上的生命。而且,一粒種子,能長成一棵草,生動地活著,其實也并不容易。說樹不是一天長成的,草又何嘗不是?天時地利人和,一樣不能少。就一個寫作者而言,不說社會歷史那么高大上的原因了,僅僅稿件的發(fā)表就不知耗費(fèi)了編輯們多少辛勞。
本文在NVIDIA 1080Ti上使用Pytorch完成實驗,GCN嵌入維度設(shè)為768維,批處理大小為8,Bert的詞向量維度為768維,在維基百科上進(jìn)行預(yù)訓(xùn)練,使用自適應(yīng)矩估計(Adaptive Moment Estimation, Adam)優(yōu)化器最小化最終目標(biāo)函數(shù),學(xué)習(xí)率為2e-5,設(shè)置失活率為0.5,降低過擬合的影響.
本文的數(shù)據(jù)來源于2019 “中國法研杯”司法人工智能挑戰(zhàn)賽,該數(shù)據(jù)集來源于中國裁判文書網(wǎng),包括婚姻家庭(Divorce)、勞動爭議(Labor)和借款合同(Loan)領(lǐng)域.自行將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集[26],數(shù)據(jù)集具體信息如表1所示.
表1 數(shù)據(jù)集信息
本文采用的評價指標(biāo)為漢明損失(Hamming Loss)、Macro-F1和Micro-F1.
漢明損失評估被錯誤分類的標(biāo)簽對的個數(shù):
數(shù)值越小表明模型分類能力越強(qiáng).
Macro-F1先計算每個類別的F1值,再對所有類求平均值:
Micro-F1先計算所有類別總的精確率和召回率,再計算F1值:
其中,TPi表示被正確分類的正例,F(xiàn)Ni表示正例被錯分為負(fù)例,F(xiàn)Pi表示負(fù)例被錯分為正例.
本文選擇如下5種對比方法.
1)SGM[14].將多標(biāo)簽分類任務(wù)看作序列生成問題,不但考慮標(biāo)簽間的相關(guān)性,還自動獲取輸入文本的關(guān)鍵信息.
2)SGM+GE[14].該方法是對SGM的改進(jìn),提出帶有全局嵌入(Global Embedding, GE)的解碼器結(jié)構(gòu).
3)基于語義單元的多標(biāo)簽文本分類(Seman-tic-Unit-Based Dilated Convolution for Multi-label Text Classification, SU4MLC)[27].通過多層擴(kuò)展卷積產(chǎn)生更高層次的語義單位表示,并產(chǎn)生相應(yīng)的混合注意機(jī)制,在詞級和語義單位級提取信息.
4)Seq2set[17].利用集合的無序性,降低錯誤的標(biāo)簽序列帶來的影響,不僅捕捉標(biāo)簽之間的相互關(guān)系,而且減少對標(biāo)簽序列的依賴.
5)特定標(biāo)簽的注意力網(wǎng)絡(luò)(Label Specific Atten-tion Network, LSAN)[28].對于文檔內(nèi)容和標(biāo)簽文本,借助自注意力和標(biāo)簽注意力機(jī)制,學(xué)習(xí)特定于標(biāo)簽的文檔表示,最終有效集成這兩部分,提高最終預(yù)測性能.
上述5種對比方法均采用原文代碼.
各方法在Divorce、Labor、Loan數(shù)據(jù)集上的實驗結(jié)果如表2所示,表中漢明損失值越小越好,Macro-F1、Micro-F1值越大越好,黑體數(shù)字為最優(yōu)結(jié)果.
由表2可知,除去Loan數(shù)據(jù)集上的Micro-F1指標(biāo),MLC-FLR的其余指標(biāo)值均優(yōu)于其它方法,說明MLC-FLR對法律文書多標(biāo)簽分類的有效性.由于SGM、SGM+GE和MU4MLC的主體都是將多標(biāo)簽分類作為序列生成問題進(jìn)行處理,SGM+GE效果最優(yōu),其原因是SGM+GE加入全局嵌入,有效減少錯誤傳播.Seq2set的結(jié)果優(yōu)于SGM、SGM+GE和MU4MLC,是因為Seq2set利用集合的無序性,降低錯誤標(biāo)簽序列帶來的影響,較好地捕捉標(biāo)簽間的關(guān)系.相比SGM、SGM+GE、MU4MLC、Seq2set,LSAN的Macro-F1值有很大的提升,說明有效的集成標(biāo)簽語義和文檔內(nèi)容可提高分類性能.在3個數(shù)據(jù)集上,Micro-F1值均大于Macro-F1值,主要原因是數(shù)據(jù)類別不均衡造成的,樣本數(shù)目較多的類別結(jié)果影響整體性能.MLC-FLR的Micro-F1與Macro-F1差值最小,說明本文對少數(shù)類數(shù)據(jù)標(biāo)簽的標(biāo)注性能有所提升.
在3個數(shù)據(jù)集上的標(biāo)簽頻率分布如圖2所示.由圖可知,Labor數(shù)據(jù)集上尾標(biāo)簽出現(xiàn)頻率大多分布在100次左右,Divorce數(shù)據(jù)集上標(biāo)簽頻率明顯高于Labor數(shù)據(jù)集.漢明損失用于衡量被錯誤標(biāo)記的標(biāo)簽個數(shù),只有少量尾標(biāo)簽的預(yù)測錯誤不會對漢明損失產(chǎn)生較大的影響,因此相比而言Labor數(shù)據(jù)集上的漢明損失值更低.
圖2 標(biāo)簽頻率分布圖
在Loan數(shù)據(jù)集上,MLC-FLR的Micro-F1值較低,原因如下:一方面,Loan數(shù)據(jù)集的大小明顯小于Divorce、Loan數(shù)據(jù)集,使方法不能充分學(xué)習(xí)標(biāo)簽的特征;另一方面,Loan數(shù)據(jù)集同樣含有相對較多的長尾標(biāo)簽,而MLC-FLR是基于訓(xùn)練集構(gòu)建標(biāo)簽之間的關(guān)系,對于不均衡且數(shù)據(jù)量較小的文本,構(gòu)建的共現(xiàn)矩陣較稀疏,影響最終結(jié)果.因此,采用隨機(jī)采樣的方式,從呈現(xiàn)長尾分布的數(shù)據(jù)樣本集中隨機(jī)重復(fù)抽取樣本(有放回),可得到更多的樣本.
在數(shù)據(jù)是否增強(qiáng)的情況下,MLC-FLR在Loan數(shù)據(jù)集上的實驗結(jié)果如表3所示.由表可看出,在進(jìn)行少量數(shù)據(jù)增強(qiáng)的情況下,MLC-FLR取得不錯結(jié)果,從而證實上述分析的合理性.
表3 數(shù)據(jù)是否增強(qiáng)時MLC-FLR的指標(biāo)值
MLC-FLR主要由2個協(xié)同工作的關(guān)鍵模塊組成,即標(biāo)簽圖嵌入模塊和標(biāo)簽注意力模塊.本節(jié)通過消融實驗驗證每個模塊的效果.
為了證實每個模塊的重要性,定義LAM為去除標(biāo)簽圖嵌入模塊的模型,LAM-W為LAM中的詞嵌入采用Word2vec(Word to Vector)的模型,GCN-LAM-W為MLC-FLR中的詞嵌入采用Word2vec的模型.分別在3個數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果如表4所示.
由表4可看出,對比使用Bert作為詞嵌入的MLC-FLR和LAM,指標(biāo)值說明標(biāo)簽圖在實驗中的有效性,標(biāo)簽之間的關(guān)系形成的標(biāo)簽圖更有效地捕獲標(biāo)簽之間的關(guān)系,提升方法的分類能力.相比使用Word2vec作為詞嵌入的LAM-W和MLC-FLR-W,指標(biāo)值同樣表明MLC-FLR-W的分類效果優(yōu)于LAM-W,指標(biāo)值說明標(biāo)簽圖在分類中的重要性,而LAM-W更側(cè)重于捕獲文本信息,僅用于提取與相應(yīng)標(biāo)簽相關(guān)的區(qū)別性信息,而加入標(biāo)簽圖嵌入時可更有效地捕獲標(biāo)簽之間的關(guān)系,但同時二者都不可或缺,結(jié)合兩部分,才能有助于更好地提升方法的分類性能.
表4 各方法在3個數(shù)據(jù)集上的消融實驗結(jié)果
針對多標(biāo)簽文本分類問題,本文提出融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法(MLC-FLR).為了充分挖掘標(biāo)簽之間的相關(guān)關(guān)系,提出基于鄰近度的相似標(biāo)簽圖構(gòu)造方法,利用GCN得到標(biāo)簽的帶有關(guān)系特征的語義嵌入.此外,提出特定標(biāo)簽的注意力機(jī)制,用于獲取具有標(biāo)簽特征的文本表示,捕獲有用的標(biāo)簽特定信息.最終結(jié)合兩者用于分類.在3個法律數(shù)據(jù)集上的實驗結(jié)果說明本文方法的有效性.在對Loan數(shù)據(jù)集進(jìn)行分類時,MLC-FLR在Micro-F1值上并未取得最優(yōu)結(jié)果,經(jīng)過仔細(xì)分析發(fā)現(xiàn),該方法對于類似于Loan這樣的數(shù)據(jù)分布極不均衡的數(shù)據(jù)集或小樣本數(shù)據(jù)集,效果并不理想.因此,下一階段的任務(wù)主要是研究在數(shù)據(jù)分布不均衡或處理小樣本數(shù)據(jù)時,如何提升方法的分類性能.