張家偉,高冠東,肖 珂,宋勝尊
(1.河北農(nóng)業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 保定 071000;2.中央司法警官學(xué)院 數(shù)據(jù)科學(xué)與智能矯正技術(shù)研究中心,河北 保定 071000;3.中央司法警官學(xué)院 信息管理系,河北 保定 071000;4.河北省農(nóng)業(yè)大數(shù)據(jù)重點實驗室(河北農(nóng)業(yè)大學(xué)),河北 保定 071000;5.中央司法警官學(xué)院 監(jiān)獄學(xué)學(xué)院,河北 保定 071000)
暴力犯罪嚴(yán)重影響社會安全穩(wěn)定,運用犯罪心理學(xué)內(nèi)容進(jìn)行暴力犯罪服刑人員矯治的關(guān)鍵性認(rèn)知任務(wù)在于分級、治療和解釋[1]。分級作為首位尤為重要,劃分是否科學(xué)合理將直接影響服刑人員處遇的效用價值;同時也能為監(jiān)管部門合理制定矯正教育方案、評估再犯罪風(fēng)險提供科學(xué)依據(jù),從而促進(jìn)社會治安的持續(xù)穩(wěn)定。
目前,服刑人員的分級策略主要基于犯罪類型和風(fēng)險等級。犯罪類型是對服刑人員行為的簡化分類,忽視了行為的復(fù)雜性和異質(zhì)性,不能將服刑人員細(xì)分為有意義的心理和行為類別?;陲L(fēng)險等級的評估主要通過VRS(Verbal Rating Scale)、OGRS(Offender Group Reconviction Score)和VRAG(Violence Risk Appraisal Guide)等量表,將服刑人員劃分為低、中、高再犯罪風(fēng)險等級,有助于管理監(jiān)管資源的分配,但無法反映服刑人員犯罪的原因,難以對癥矯治[2],因此還應(yīng)從服刑人員的氣質(zhì)[3]、性格等方面的特征著手,深層次剖析服刑人員的心理和行為內(nèi)容,分析其犯罪原因,實現(xiàn)多元化分級,以達(dá)到對癥矯治的目的。
在心理學(xué)中,氣質(zhì)是指心理活動中表現(xiàn)出的強(qiáng)度、靈活性和指向性等方面的穩(wěn)定心理特征,因此將服刑人員分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)、抑郁質(zhì)4 種類型[4]。膽汁質(zhì)服刑人員常因沖動易怒而犯罪,傾向于單獨作案;多血質(zhì)服刑人員常因探索欲望而犯罪,傾向于團(tuán)伙作案;粘液質(zhì)服刑人員常因缺乏自我主張而犯罪,傾向于漸進(jìn)式犯罪;抑郁質(zhì)服刑人員常因自卑、無助而犯罪,傾向于自殺式犯罪[5]。4 種氣質(zhì)類型服刑人員的心理和行為表現(xiàn)特征各不相同,但都具有冷漠、自私和缺乏同情心等共性,因此通過犯罪行為描述文本信息實現(xiàn)歸因分類分級具有較大難度。
傳統(tǒng)的犯罪分析工具大多在服刑人員處于理性狀態(tài)時使用量表對他們進(jìn)行評估,易受到主觀因素干擾,影響了評估結(jié)果的準(zhǔn)確度[6]。而犯罪事實是服刑人員受到外界刺激,處于非理性狀態(tài)的外在表現(xiàn)。通過對犯罪事實的分析可以推斷出極端情況下服刑人員的歸因類型,結(jié)合服刑人員基本情況等信息可以進(jìn)一步提高歸因分類的準(zhǔn)確性,對服刑人員進(jìn)行針對性的教育和改造。近年來,人工智能技術(shù)的應(yīng)用,為新一代的犯罪評估工具的發(fā)展提供了契機(jī)[7]。
因此,可將文本分類方法引入犯罪心理學(xué)領(lǐng)域,通過挖掘分析暴力犯罪服刑人員的犯罪事實和服刑人員基本情況,以端到端的方式對他們的氣質(zhì)類型進(jìn)行分類決策。目前文本分類模型可分為傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型兩大類[8]。深度學(xué)習(xí)具有自動執(zhí)行特征學(xué)習(xí)捕獲判別信息等優(yōu)勢,已廣泛用于各個領(lǐng)域[9-12],并在法律判決預(yù)測[13-14]、司法案例智能推薦和暴力傾向分級[15]等司法實踐領(lǐng)域任務(wù)上取得了不小的進(jìn)展。其中,TextCNN(Text Convolutional Neural Network)[16]為深度學(xué)習(xí)中常用的模型之一,由于采用了卷積濾波器,具有突出的局部特征捕捉能力。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[17-18]因為能捕獲長程依賴性而被認(rèn)為是有效的順序文本數(shù)據(jù)處理架構(gòu)。此外,Yang等[19]提出了一種名為HAN(Hierarchy Attention Network)的模型,通過句子和文檔兩個層次提取特征,提高文本語義信息的獲取能力。Baek 等[20]利用TextCNN 構(gòu)建了一種預(yù)測暴力傾向評分和犯罪類型的模型,旨在推動智能警務(wù)技術(shù)的發(fā)展,但在提取上下文語義特征方面存在一定不足。Sadiq等[21]針對網(wǎng)絡(luò)暴力欺凌問題,對攻擊性行為進(jìn)行智能分級,通過手動設(shè)計特征構(gòu)建多層感知機(jī),并采用CNN-LSTM(Convolutional Neural Network-Long Short-Term Memory)和CNN-BiLSTM(Convolutional Neural Network-Bi-directional Long Short-Term Memory)進(jìn)行自動檢測,但由于缺乏關(guān)鍵性語義的提取,它們的性能無法得到充分發(fā)揮。
以上研究表明,采用新的模型結(jié)構(gòu)和方法能更好地捕獲語義特征,是實現(xiàn)準(zhǔn)確的暴力傾向分級的關(guān)鍵,因此,本文利用自然語言處理(Natural Language Processing,NLP)分析服刑人員的氣質(zhì)信息進(jìn)行處理決策,并提出一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級模型——犯罪語義卷積分層注意網(wǎng)絡(luò)(Criminal semantic Convolutional Hierarchical Attention Network,CCHA-Net)。所提網(wǎng)絡(luò)分別分析犯罪事實和服刑人員基本情況的語義,自動提取犯罪文本特征,并將服刑人員分為4 種類型:膽汁質(zhì)、多血質(zhì)、粘液質(zhì)和抑郁質(zhì)。首先,采用Focal Loss 同時替代兩通道中的Cross-Entropy 函數(shù)提升小樣本類別的分類準(zhǔn)確率;其次,在兩通道輸入層中,同時引入位置編碼以更好地對位置信息建模;改進(jìn)HAN 通道,為使編碼出的向量具備更明顯的類別特征,采用最大池化擴(kuò)展了顯著向量;最后,輸出層都采用全局平均池化(Global Average Pooling,GAP)替代全連接方法,從而規(guī)避過擬合。
本文首先收集中國裁判文書網(wǎng)上關(guān)于暴力犯罪類型案件的判決書組成基礎(chǔ)數(shù)據(jù)集;其次,由本課題組的多位犯罪心理學(xué)專家進(jìn)行聯(lián)合評估標(biāo)注工作;隨后,將數(shù)據(jù)集劃分為犯罪事實與服刑人員基本情況兩部分,分別通過Jieba 分詞器進(jìn)行分詞操作,并從犯罪事實文本中抽取具有關(guān)鍵性表征的字、詞、短語等構(gòu)成基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典,將它作為犯罪事實部分Jieba 分詞器的用戶預(yù)定義詞典;最后,將兩部分分詞之后的結(jié)果通過CCHA-Net 模型進(jìn)行聯(lián)合建模,以端到端的方式自動提取特征,并將暴力犯罪服刑人員劃分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)、抑郁質(zhì)4 種氣質(zhì)類型,監(jiān)管部門可根據(jù)氣質(zhì)類型間的差異個性化制定矯治方案,以實現(xiàn)對癥矯治的目的。圖1 描述了本文算法總體技術(shù)路線。
為解決傳統(tǒng)模型在暴力犯罪文本分類中語義特征提取不足和缺乏對不同信息維度的融合分析問題,本文提出一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級模型CCHA-Net。首先,利用HAN 通道提取非結(jié)構(gòu)化文本信息特征;其次,通過TextCNN 通道提取結(jié)構(gòu)化及半結(jié)構(gòu)化信息文本特征;最后,通過兩通道融合的方式充分利用不同信息維度的特點,實現(xiàn)更全面的特征提取。這種模型設(shè)計能有效克服傳統(tǒng)模型在暴力犯罪分類任務(wù)中的缺陷,從而達(dá)到提升模型分類準(zhǔn)確性的效果。CCHA-Net 框架流程如圖2 所示,其中兩通道的輸入層和輸出層模塊相同,但特征提取層模塊存在差異。
圖2 CCHA-Net整體流程Fig.2 CCHA-Net overall process
本文構(gòu)建的數(shù)據(jù)集分為犯罪事實和服刑人員基本情況兩部分,且分別屬于兩種不同的信息維度。在刑事案件中,這兩個維度的重要性不同。其中,按照服刑人員檔案記錄數(shù)據(jù)項中的犯罪事實部分提取了中國裁判文書網(wǎng)有關(guān)暴力犯罪類型案件的判決書中的案件事實部分,反映了犯罪行為的具體情況,包括時間、地點、手段和對象等非結(jié)構(gòu)化數(shù)據(jù)信息。這些信息可以對服刑人員進(jìn)行更加精準(zhǔn)的分類和判定,本文采用HAN 通道對犯罪事實部分進(jìn)行語義建模。而服刑人員基本情況部分則提取了判決書中的首部和判決結(jié)果部分,由服刑人員的年齡、出生日期、文化程度、職業(yè)、面貌、婚否、籍貫、罪名、刑期、前科次數(shù)、主從犯、團(tuán)伙犯和累慣犯等多個短語組成。這些信息屬于結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)范疇,可用于對案件的背景和動機(jī)進(jìn)行更深入的分析和理解。其中年齡、出生日期、刑期和前科次數(shù)屬于結(jié)構(gòu)化數(shù)據(jù),可直接提取數(shù)值特征,其余屬于半結(jié)構(gòu)化數(shù)據(jù),需要預(yù)處理后才能提取特征。本文采用TextCNN 通道對服刑人員基本情況部分進(jìn)行語義建模。
本文采用兩通道進(jìn)行網(wǎng)絡(luò)設(shè)計,優(yōu)勢在于可以充分利用不同信息維度的特點和差異,更好地提取和分類特征。此外,采用兩通道設(shè)計還有利于模型的解釋和可解釋性,可以更清晰地展示不同信息維度的貢獻(xiàn)和作用。綜上所述,采用兩通道進(jìn)行網(wǎng)絡(luò)設(shè)計是基于犯罪案件信息特點和分類需求的合理選擇,有助于提高分類準(zhǔn)確性和解釋性。
兩通道輸入層分別解決了文本向量化、位置信息建模兩個問題。首先,為解決犯罪文本存在的高維稀疏性問題,采用Ngram2vec 方法對文本進(jìn)行向量化處理工作;其次,同時在兩通道中引入了位置編碼,以增強(qiáng)詞語之間位置信息的表達(dá)能力。
HAN 通道特征提取層分為句編碼、句注意力模塊、文檔編碼、文檔注意力4 個模塊。首先,在句編碼模塊,為獲取句子的序列信息,采用雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,Bi-GRU)對句子中的詞進(jìn)行了建模表示;其次,在句注意力模塊,除了使用上下文向量外,本文提出了一種顯著向量,采用最大池化方法提取了詞向量每個維度上的最大值;最后,使用兩個向量共同打分,從而使句子編碼的類別特征更明顯。文檔編碼和文檔注意力模塊與句編碼和句注意力模塊類似。
TextCNN 通道特征提取層分為卷積、池化和拼接3 個模塊。首先,為提取局部短語特征,本文設(shè)計了3 個高度為3、4、5 的卷積核,進(jìn)行卷積操作,每種尺寸的卷積核有128 個;其次,為抽取主要特征同時減少參數(shù)量,采用最大池化方法抽取了每個特征圖中的最大值;最后,將池化后的結(jié)果進(jìn)行拼接,得到服刑人員基本情況的特征表示。
兩通道輸出層分別解決分類輸出和聯(lián)合建模兩個問題。首先,同時在兩通道中采用全局平均池化替代全連接方法進(jìn)行分類輸出,以解決過擬合問題;其次,通過Softmax 分類器,獲得了各自的分類概率;最后,為實現(xiàn)聯(lián)合建模,采用軟投票機(jī)制融合兩通道的分類概率,得到了最終的分類結(jié)果。
此外,為提升小樣本類別的關(guān)注度,本文在兩通道中同時采用Focal Loss 替代了Cross-Entropy 函數(shù)。
一個句子中詞語的先后順序不同,含義也會有所差異。隨著文本長度的增加,模型無法充分利用到詞向量之間的位置信息。為解決此類問題,本文提出在兩通道輸入層中同時引入了Vaswani 等[22]提出的位置編碼。假設(shè)輸入序列的長度為L,每個單詞的向量表示維度為dmodel。對于每個位置pos和每個維度i,計算一個位置編碼,如式(1)、(2)所示:
其中:pos是當(dāng)前位置;i為當(dāng)前維度;dmodel指向量維度。是一個假設(shè)條件,用于確定不同維度之間的周期性,確保位置編碼不會重復(fù)和重疊。將位置編碼按元素加到對應(yīng)位置的詞向量中,得到新的向量表示便帶有了位置信息。
在文本分類任務(wù)中,傳統(tǒng)的將文檔中的句子作為長序列進(jìn)行處理的方法無法捕捉文檔中的層次結(jié)構(gòu)信息,導(dǎo)致信息的丟失。為了解決這個問題,HAN 模型[19]應(yīng)運而生,該模型通過學(xué)習(xí)文本的語義層次結(jié)構(gòu)進(jìn)行文本分類,由句子和文檔兩個級別的注意力機(jī)制組成,能形成每個句子和文檔級別的加權(quán)平均表示,進(jìn)而為文本分類任務(wù)提供更準(zhǔn)確的表示。
為深化具有明顯的類別特征權(quán)重,提升分類準(zhǔn)確度,本文在HAN 模型基礎(chǔ)上提出一種顯著向量,采用最大池化方法提取句子和文檔的向量以表示矩陣中每個維度上最重要的信息;同時利用上下文向量與顯著向量共同評價的方式使模型能夠聚焦到最具判別性的語義特征。
1.4.1 句編碼模塊
在句編碼模塊中,為了獲取句子的長距離序列信息,采用RNN[17-18]將句子中的詞語按順序輸入進(jìn)行建模表示。由于RNN 的隱藏層變量會出現(xiàn)梯度消失和爆炸的問題,因此本文采用RNN 的變體,即Bi-GRU 解決此類問題。
假設(shè)對于數(shù)據(jù)集中犯罪事實部分的某一篇文檔S=[S1,S2,…,SL],Si代表該文檔中的第i(i∈[1,L])個句子。對于該文檔中的某一個句子Si=[xi1,xi2,…,xiT],xit代表第i個句子中第(tt∈[1,T])個單詞的向量表示。首先,使用Bi-GRU匯總兩個方向的信息獲得單詞的注解,如式(3)、(4)所示:
1.4.2 句注意力模塊
并非所有的詞都對句子意思的表達(dá)有同樣的重要性,因此,在句注意力模塊采用注意力機(jī)制評價每個單詞權(quán)重,再通過單詞及其得分形成句子的向量表示。
特別地,在句注意力模塊,為使模型更好地聚焦到最具判別性的語義信息,本文除了使用上下文向量Ug外,還創(chuàng)新性地為每個句子構(gòu)建了其獨有的顯著向量Us。設(shè)每個單詞的詞向量為xit=[xit1,xit2,…,xitW],W為詞向量的維度,每個維度都表示一個屬性信息。本文在計算每個句子獨有的顯著向量Uis時,對句子中全部T個單詞的w個維度,提取每個維度的最大值,然后將它們進(jìn)行連接作為句子獨有的顯著向量Uis,使得具有明顯類別特征的語義信息更加突出,如式(6)、(7)所示:
其中:Uis為句子Si獨有的顯著向量;uij為Uis的第j維;xitj是句子Si中的第t個詞向量的第j維的值。同時設(shè)置一個上下文向量Ug以表示“哪些單詞對犯罪分析更為關(guān)鍵”,此向量取隨機(jī)初始值,并在訓(xùn)練過程中不斷迭代學(xué)習(xí)。
之后,首先通過一個單層的多層感知機(jī)(MultiLayer Perceptron,MLP)將詞的注解hit送入,得到,如式(8)所示:
其中:Ws表示可訓(xùn)練權(quán)重;bs為偏置項。然后對于句子中的所有單詞,分別計算它和兩個向量的相似度并歸一化,得到針對兩種向量的注意力得分,如式(9)、(10)所示:
其中:αit、βit分別為單詞注解hit對于Ug和Uis兩個向量的歸一化分?jǐn)?shù),如圖2 中分?jǐn)?shù)①和分?jǐn)?shù)②所示。最后,將兩個分?jǐn)?shù)求和作為最終的注意力得分,根據(jù)所有單詞和注意分?jǐn)?shù)得到最終的句子向量表示Si,如式(11)所示:
通過上下文向量和顯著向量共同評價的方式,既能得到文檔中每個句子對應(yīng)的向量表示,又能提升犯罪文本中具有明顯判別含義的特征權(quán)重,達(dá)到模型分類準(zhǔn)確率提升的效果。
文檔編碼及注意力模塊與句編碼及注意力模塊類似。在得到句子的向量表示Si之后,首先,通過文檔編碼模塊同樣輸入Bi-GRU,得到句子的注解;其次,通過文檔注意力模塊計算句子注解對于上下文向量Ud和本文提出的顯著向量UL的得分,如圖2 中分?jǐn)?shù)③和分?jǐn)?shù)④所示;最后將兩個分?jǐn)?shù)求和,以得到最終的包含了全部句子信息的文檔向量d。
服刑人員基本情況是由許多獨立且不相關(guān)的短語組成,鑒于TextCNN[16]通過卷積操作,在捕獲局部短語特征方面表現(xiàn)出色,因此本文采用TextCNN 通道,分為卷積、池化和拼接3 個模塊,對服刑人員基本情況文本進(jìn)行特征提取。
在卷積模塊中,輸入矩陣的第i個到第i+h-1 個窗口內(nèi)的詞向量矩陣xi:i+h-1通過卷積操作提取到的特征oi如式(12)所示:
其中:f(·)是非線性激活函數(shù),W1為權(quán)值矩陣,b1是偏置項。卷積操作應(yīng)用于一個完整的服刑人員基本情況文本的詞向量{x1:h,x2:h+1,…,xn-h+1:n}會得到一個特征圖o,如式(13)所示:
在池化模塊中,最大池化方法用于提取每個特征圖中的最大值,具體運算如式(14)所示:
其中Fmax表示池化后的結(jié)果。在拼接模塊中,需要將詞向量分別經(jīng)過高度為3、4、5 的卷積核進(jìn)行卷積,再進(jìn)行池化后輸出的特征向量Fmax3、Fmax4、Fmax5按順序進(jìn)行拼接,從而得到服刑人員基本情況的特征表示向量Ffinal_max,具體過程如式(15)所示:
1.6.1 基于全局平均池的犯罪氣質(zhì)分類方法
經(jīng)典HAN 與TextCNN 模型輸出層中使用全連接方法進(jìn)行分類輸出,雖然應(yīng)用廣泛,但也有一些缺點:首先,參數(shù)量巨大,降低了訓(xùn)練速度;其次,非常容易出現(xiàn)過擬合。為了解決這兩個問題,本文同時在兩通道輸出層中采用全局平均池化替代了全連接方法,分別得到兩通道的分類輸出結(jié)果F1和F2。全局平均池化方法計算不需要設(shè)置大量參數(shù),計算量大幅減小,在避免出現(xiàn)全連接方法兩個主要缺點的同時,可以達(dá)到全連接方法相同甚至更高的分類效果。
1.6.2 基于軟投票的犯罪語義聯(lián)合建模方法
為實現(xiàn)對犯罪事實與服刑人員基本情況的語義表示進(jìn)行聯(lián)合建模,本文采用軟投票機(jī)制進(jìn)行特征融合。首先將兩個通道得到的分類輸出結(jié)果Fn分別應(yīng)用于Softmax 分類器,從而得到兩個通道的預(yù)測概率;然后,對這兩個概率求算術(shù)平均,得到了最終的類別預(yù)測概率p,用于暴力犯罪氣質(zhì)的分類,如式(16)所示:
其中:n表示模型通道數(shù)2,Wi為可訓(xùn)練權(quán)重,bi為偏置項。
為降低樣本數(shù)不均衡問題帶來的影響,本文在兩通道中同時采用Lin 等[23]提出的Focal Loss 替代了Cross-Entropy 函數(shù)。Focal Loss 主要針對每一種類別數(shù)重新賦予不同的權(quán)重,易分辨的類別賦予較少的權(quán)重,較難分辨的類別賦予較高的權(quán)重,從而達(dá)到提升關(guān)注度的效果。Focal Loss 計算流程如式(17)、(18)所示:
其中:αi表示權(quán)重因子,Ci表示每個類的計數(shù)。在Cross-Entropy 中,通過參數(shù)γ≥0 的Focal Loss 添加調(diào)制因子(1 -pi)γ:若γ=0,則Focal Loss 效果與Cross-Entropy 相同;若γ增加,那么α便會減小。為了控制每個類別的損失權(quán)重,有效地利用了參數(shù)β和σ。
2.1.1 數(shù)據(jù)集的獲取與標(biāo)記
首先,本文以中國裁判文書網(wǎng)為語料源,收集并選取了2015 年3 月26 日至2021 年8 月9 日暴力犯罪類型案件的判決書,得到4 665 條數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)集;其次,由本課題組的多位犯罪心理學(xué)家進(jìn)行聯(lián)合評估標(biāo)注工作;最后,得到膽汁質(zhì)2 232 條,多血質(zhì)1 963 條,粘液質(zhì)465 條,抑郁質(zhì)5 條。
2.1.2 基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典構(gòu)建
通過查看分詞器的效果,發(fā)現(xiàn)一些具有代表性的心理特征詞不能被很好地劃分,因此,本課題組的多位犯罪心理學(xué)專家從各類服刑人員的犯罪事實中選取了具有關(guān)鍵性表征的字、詞和短語等,構(gòu)建了4種暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典。
2.1.3 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理部分分別解決了分詞、刪除停用詞兩個問題。首先,Jieba 分詞器可以有效識別犯罪文本中的一些實體信息,分詞效果較好。因此,本文采用Jieba 分別對犯罪事實和服刑人員基本情況兩部分進(jìn)行分詞操作;此外,為避免分詞過程中關(guān)鍵性語義特征的流失,將基于暴力犯罪氣質(zhì)類型的關(guān)鍵詞詞典作為犯罪事實部分Jieba 分詞器的用戶預(yù)定義詞典;其次,本文通過加載哈爾濱工業(yè)大學(xué)停用詞表,刪除了一些不相關(guān)的詞、標(biāo)點符號等內(nèi)容,以減少訓(xùn)練過程中的噪聲。
2.2.1 實驗環(huán)境和超參數(shù)設(shè)置
本文使用的實驗平臺為Ubuntu 18,硬件為Intel i7-9700處理器,32 GB 內(nèi)存,RTX 2080 GPU 處理器。編碼采用Python 3.7.11 版本,深度學(xué)習(xí)庫為PyTorch 1.9.1,機(jī)器學(xué)習(xí)庫為Sklearn 1.0.2。為了使模型取得更好的效果,本文通過大量實驗選取了最優(yōu)的超參數(shù)設(shè)置,如表1 所示。
表1 超參數(shù)設(shè)置Tab.1 Hyperparameter setting
2.2.2 數(shù)據(jù)集劃分
為驗證實驗結(jié)果,按6∶2∶2 隨機(jī)劃分了4 665 條數(shù)據(jù),數(shù)據(jù)之間沒有交叉,數(shù)據(jù)集劃分如表2 所示。模型總共訓(xùn)練了50 個epoch。每100 個batch 后,對驗證集數(shù)據(jù)進(jìn)行測試,以保存最好的模型。然后用在測試集上,得到最終結(jié)果。
表2 數(shù)據(jù)集劃分Tab.2 Dataset division
2.2.3 評價指標(biāo)
為統(tǒng)計本文所提模型CCHA-Net 與其他相關(guān)基線模型的顯著差異,本文使用了準(zhǔn)確率(Acc)、精確率(P)、召回率(R)、F1 分?jǐn)?shù)對模型進(jìn)行了綜合評價。同時考慮到數(shù)據(jù)集存在樣本數(shù)不均衡問題,還引用了曲線下面積(Area Under Curve,AUC)值。由于本文是多分類問題,所以采用宏平均和微平均兩種方式對精確率(Macro_P,Micro_P)、召回率(Macro_R,Micro_R)、F1 分?jǐn)?shù)(Macro_F1,Micro_F1)、AUC 值(Macro_AUC,Micro_AUC)進(jìn)行計算。
2.3.1 消融實驗結(jié)果與分析
為深入分析兩通道單獨建模改進(jìn)內(nèi)容與聯(lián)合建模對暴力犯罪氣質(zhì)分類能力的影響,本文設(shè)計了消融實驗進(jìn)行分析比較,結(jié)果如表3 所示。
表3 消融實驗測試結(jié)果 單位:%Tab.3 Test results of ablation experiments unit:%
由表3 可知,在HAN 通道對犯罪事實進(jìn)行語義建模,將Focal Loss 替代Cross-Entropy 后,Macro_P 與Macro_F1 分別提升了2.96 和2.56 個百分點。這是由于Focal Loss 類似于一個獎懲機(jī)制,對大樣本類別權(quán)重進(jìn)行懲罰,同時對小類別權(quán)重進(jìn)行獎勵,使模型在訓(xùn)練過程中能更多地關(guān)注小類別,從而提升分類效果。
在輸入層引入位置編碼后,Acc 與Macro_AUC 分別提升了1.08 和5.71 個百分點。這是由于詞語的先后順序?qū)Ψ缸镂谋镜暮x理解有偏差,而位置編碼能夠通過引入位置向量而提高模型對于位置信息的感知能力,以解決此類問題。
在特征提取層句及文檔注意力模塊構(gòu)建顯著向量后,Acc 與Macro_P 分別提升了3.97 和4.08 個百分點。這是由于顯著向量的構(gòu)建,與上下文向量共同對句子中的單詞、文檔中的句子進(jìn)行打分,從而使句子及文檔編碼的類別特征更加明顯,模型能夠更好地關(guān)注到犯罪文本中最具差異性的信息。
在輸出層將全局平均池化替代全連接方法后,Acc 與Macro_P 分別提升了0.53 和0.87 個百分點。這是由于全局平均池化方法對全連接方法參數(shù)量大和易過擬合缺點進(jìn)行了避免。
在TextCNN 通道對服刑人員基本情況進(jìn)行了語義建模,各項改進(jìn)也得到了相應(yīng)的指標(biāo)提升。最終,將兩通道進(jìn)行聯(lián)合建模后,模型達(dá)到了最佳效果,其中Micro_F1、Macro_AUC和Micro_AUC 分別達(dá)到了99.57%、99.45%和99.89%。驗證了本文提出的CCHA-Net 模型在暴力犯罪氣質(zhì)分類方面具備較好的應(yīng)用價值。
由 表3 中 的Macro_AUC 和Micro_AUC 可 知,HAN 和TextCNN 的表現(xiàn)最差,這是因為兩者并沒有對樣本數(shù)不均衡、位置信息建模和過擬合等問題進(jìn)行優(yōu)化。HAN 到HAN+Focal Loss+位置編碼+顯著向量+GAP;TextCNN 到TextCNN+Focal Loss+位置編碼+GAP 的Macro_AUC 和Micro_AUC 指標(biāo)呈遞增趨勢,這說明本文提出的各項改進(jìn)措施都是有效的。而CCHA-Net 的Macro_AUC 和Micro_AUC 指標(biāo)則最高,這證明了本文提出的CCHA-Net 模型通過兩通道聯(lián)合建模后,在面對存在樣本數(shù)量不均衡問題的犯罪文本時,仍然能夠具備良好的分類效果。
2.3.2 相關(guān)模型對比實驗結(jié)果與分析
為了與以往的犯罪分析工作進(jìn)行比較,同時驗證本文提出的CCHA-Net 模型的優(yōu)越能力,本文在同一數(shù)據(jù)集上與17種相關(guān)模型進(jìn)行了對比實驗,包括9 種傳統(tǒng)機(jī)器學(xué)習(xí)已有相關(guān)基線模型:K最近鄰(K-Nearest Neighbor,KNN)[24]、多項式樸素貝葉斯(Multinomial Naive Bayes,MNB)[25]、高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)[26]、伯努利樸素貝葉斯(Bernoulli Naive Bayes,BNB)[27]、決策樹(Decision Tree,DT)[28]、隨機(jī)森林(Random Forest,RF)[29]、支持向量機(jī)(Support Vector Machine,SVM)[30]、XGBoost(eXtreme Gradient Boosting)[31]和邏輯回歸(Logistic Regression,LR)[32],8 種深度學(xué)習(xí)已有相關(guān)基線模型:長短期記憶(Long Short-Term Memory,LSTM)[33]、雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)[34]、門控循環(huán)單元(Gated Recurrent Unit,GRU)[35]、Bi-GRU[36]、Att-BiLSTM(Attentionbased Bidirectional Long Short-Term Memory networks)[37]、CLSTM[38]、CNN-BiLSTM[9]、AC-BiLSTM(Attention-based Bidirectional Long Short-Term Memory with Convolution layer)[39]。考慮到這些模型不是多通道模型,在實驗過程中,將兩類數(shù)據(jù)按照犯罪事實、服刑人員基本情況的順序整合在一起輸入模型。結(jié)果如表4 所示。
表4 對比實驗測試結(jié)果 單位:%Tab.4 Test results of comparative experiments unit:%
由表4 可知,在傳統(tǒng)機(jī)器學(xué)習(xí)模型中,GNB 表現(xiàn)最差,與CCHA-Net 相比,Acc 與Macro_R 分別低25.72 和28.14 個 百分點。這是由于膽汁質(zhì)與多血質(zhì)類型犯罪文本之間存在一定的相關(guān)性,GNB 在處理具有相關(guān)性的類別時效果不佳。與其中最優(yōu) 的SVM 相比,CCHA-Net 在Acc 和Macro_AUC 指 標(biāo)上分別高4.29 和9.30 個百分點,表明CCHA-Net 在處理相關(guān)性較強(qiáng)的類別時具有更好的性能。
在深度學(xué)習(xí)模型中,LSTM 表現(xiàn)最差,與CCHA-Net 相比,Acc 與Macro_P 分別低15.88 和16.43 個百分點。這是由于LSTM 丟失建模信息過多,如層次結(jié)構(gòu)與后向信息等。與其中最優(yōu)的AC-BiLSTM 相比,CCHA-Net 在Acc 和Macro_P 指標(biāo)上分別高4.08 和3.09 個百分點,表明CCHA-Net 具有更好的文本建模能力。
與所有模型相比,CCHA-Net 各項評價指標(biāo)最佳。Micro_F1,Macro_AUC,Micro_AUC 相較于次優(yōu)的AC-BiLSTM提高了4.08、5.59 和0.74 個百分點,證明本文提出的CCHANet 模型能夠有效勝任暴力犯罪氣質(zhì)分類任務(wù)。
2.3.3 CCHA-Net兩通道復(fù)雜度分析
CCHA-Net 模型的有效性,本文從兩通道處理方式的復(fù)雜度視角出發(fā),進(jìn)行了計算量和參數(shù)量的測試工作,以評估時間復(fù)雜度和空間復(fù)雜度。具體測試結(jié)果如表5 所示。
表5 兩通道處理方式復(fù)雜度評估結(jié)果Tab.5 Complexity evaluation results of dual-channel processing method
由表5 可知,本文提出的CCHA-Net 模型采用了兩通道聯(lián)合建模機(jī)制,計算量和參數(shù)量相當(dāng)于兩個通道的總和。從計算量和參數(shù)量的角度來看,CCHA-Net 的復(fù)雜度較為合理,具有良好的可擴(kuò)展性和實用性。
本文將文本分類方法引入犯罪心理學(xué)領(lǐng)域,提出了一種基于改進(jìn)HAN 與TextCNN 兩通道聯(lián)合建模的暴力犯罪分級算法CCHA-Net,通過分別剖析犯罪事實與服刑人員基本情況文本,以端到端的方式將服刑人員劃分為膽汁質(zhì)、多血質(zhì)、粘液質(zhì)和抑郁質(zhì)四種氣質(zhì)類型。首先,為提升小樣本類別的關(guān)注度,采用Focal Loss 同時替代兩通道中Cross-Entropy 函數(shù);其次,在兩通道輸入層中,同時引入了位置編碼,優(yōu)化了模型對詞語前后位置信息的感知能力;并改進(jìn)HAN 通道,為強(qiáng)化具有明顯的類別特征權(quán)重,采用最大池化構(gòu)建了顯著向量;最后,輸出層都采用全局平均池化替代全連接方法,以防止出現(xiàn)過擬合問題。為驗證CCHA-Net 的分類準(zhǔn)確率,將它與9 種傳統(tǒng)機(jī)器學(xué)習(xí)和8 種深度學(xué)習(xí)已有相關(guān)基線模型進(jìn)行了對比。實驗結(jié)果表明,CCHA-Net 在9 種主流評價指標(biāo)下均達(dá)到了最優(yōu),Micro_F1 為99.57%,Macro_AUC、Micro_AUC分別為99.45%和99.89%,三者相較于次優(yōu)的AC-BiLSTM 提高了4.08、5.59 和0.74 個百分點。驗證了CCHA-Net 能夠有效完成暴力犯罪分級任務(wù),同時為后期監(jiān)管部門制定個性化矯正教育方案奠定基礎(chǔ)。
未來的工作將集中在樣本數(shù)不均衡問題和數(shù)據(jù)集擴(kuò)充兩個方面。首先,由于數(shù)據(jù)集中存在樣本數(shù)不均衡的問題,導(dǎo)致宏平均下的評價指標(biāo)不是很高,未來將嘗試改進(jìn)損失函數(shù)或設(shè)計重采樣方法,并執(zhí)行圖神經(jīng)網(wǎng)絡(luò)解決此類問題。然后,本文將進(jìn)一步擴(kuò)充服刑人員樣本數(shù)據(jù)集,包括服刑人員訪談記錄、日??祻?fù)記錄、親情電話語音和通過各種傳感器采集的脈搏、心率、皮電和腦電信號等,通過多模態(tài)技術(shù)對服刑人員進(jìn)行綜合分級,以實現(xiàn)個性化矯治。