申強(qiáng)
摘要:在刑事案件辦理過程中,如何自動(dòng)且有效地提取非結(jié)構(gòu)化卷宗數(shù)據(jù)中的特征信息,是提升信訪風(fēng)險(xiǎn)評(píng)估模型精度的關(guān)鍵問題。本研究提出利用自然語言處理技術(shù),基于Prompt方法對(duì)卷宗提取特征文本,并采用文本嵌入模型對(duì)提取的特征進(jìn)行向量化處理及相似度歸一化,進(jìn)而訓(xùn)練出風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明,該方法能夠顯著提高特征表達(dá)能力,并提升評(píng)估模型在檢測(cè)信訪風(fēng)險(xiǎn)中的性能。未來,可以構(gòu)建端到端的混合模型,以實(shí)現(xiàn)完全自動(dòng)化的特征提取與風(fēng)險(xiǎn)預(yù)測(cè)。
關(guān)鍵詞:風(fēng)險(xiǎn)評(píng)估;特征工程;文本嵌入;文本相似度
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)13-0034-03 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
在刑事案件辦理中,信訪風(fēng)險(xiǎn)評(píng)估是一項(xiàng)重要的任務(wù)。非結(jié)構(gòu)化卷宗數(shù)據(jù)往往難以準(zhǔn)確歸納和定義特征參數(shù),這給風(fēng)險(xiǎn)評(píng)估模型的訓(xùn)練帶來了挑戰(zhàn)。本研究旨在提出一種解決方案,利用基于Prompt的文本抽取、文本嵌入向量化和相似度歸一化等技術(shù)輔助完成特征工程,從而實(shí)現(xiàn)對(duì)信訪風(fēng)險(xiǎn)的準(zhǔn)確評(píng)估,協(xié)助發(fā)現(xiàn)信訪隱患,完善刑事案件辦理中的風(fēng)險(xiǎn)評(píng)估理論體系。
1 文獻(xiàn)綜述
1.1 刑事案件辦理中的信訪風(fēng)險(xiǎn)評(píng)估
信訪風(fēng)險(xiǎn)評(píng)估是指在刑事案件辦理過程中對(duì)可能引發(fā)信訪問題的因素進(jìn)行分析和評(píng)估。信訪風(fēng)險(xiǎn)評(píng)估具有很強(qiáng)的時(shí)間性和動(dòng)態(tài)性,需要及時(shí)、準(zhǔn)確地識(shí)別和處理。
1.2 非結(jié)構(gòu)化卷宗數(shù)據(jù)的提取
非結(jié)構(gòu)化卷宗數(shù)據(jù)是刑事案件辦理中的一種重要數(shù)據(jù)類型,具有數(shù)據(jù)量大、格式多樣、內(nèi)容復(fù)雜等特點(diǎn)。
1.3 特征工程在風(fēng)險(xiǎn)評(píng)估中的重要性
特征工程是將原始數(shù)據(jù)轉(zhuǎn)換為適合機(jī)器學(xué)習(xí)模型輸入的特征的過程。在信訪風(fēng)險(xiǎn)評(píng)估中,特征工程的質(zhì)量直接影響模型的預(yù)測(cè)效果。提取有代表性的特征、減少特征維度可以提高風(fēng)險(xiǎn)評(píng)估模型的準(zhǔn)確性。
1.4 文本嵌入模型和其在特征提取中的應(yīng)用
文本嵌入模型將文本轉(zhuǎn)換為向量,可以有效地提取文本特征,在文本相似度檢測(cè)和向量數(shù)據(jù)庫檢索中具有廣泛的應(yīng)用。本文著重研究利用文本嵌入模型輔助計(jì)算相似度來實(shí)現(xiàn)特征歸一化。
2 方法概述
2.1 當(dāng)前特征數(shù)據(jù)的主要提取方法
當(dāng)前的風(fēng)險(xiǎn)評(píng)估最廣泛的做法仍是在全連接神經(jīng)網(wǎng)絡(luò)中進(jìn)行的監(jiān)督學(xué)習(xí)預(yù)測(cè),訓(xùn)練數(shù)據(jù)集中的X表示輸入特征數(shù)據(jù),如職業(yè)、年齡、受教育程度等特征屬性值。Y表示目標(biāo)變量標(biāo)簽,代表風(fēng)險(xiǎn)等級(jí)或者風(fēng)險(xiǎn)具體評(píng)分值。因?yàn)槿B接預(yù)測(cè)更依賴輸入的特征數(shù)據(jù)的準(zhǔn)確性和歸一分布合理性,所以多數(shù)是通過信息登記卡等結(jié)構(gòu)化數(shù)據(jù)來作為主要特征來源。人工登記有識(shí)別準(zhǔn)確、分布均勻以及能識(shí)別難度較大復(fù)雜特征的優(yōu)點(diǎn),如可將工作單位從具體的單位名稱歸納為機(jī)關(guān)事業(yè)單位、大型國有企業(yè)、個(gè)體經(jīng)營等,具有更加科學(xué)合理的特征數(shù)據(jù)歸一化基礎(chǔ),也能保證訓(xùn)練中的參數(shù)相關(guān)性。不過人工登記標(biāo)注工作量太大,效率低,無法及時(shí)增補(bǔ)更多的特征數(shù)據(jù),每次調(diào)整特征數(shù)據(jù)都要面臨歷史數(shù)據(jù)的補(bǔ)錄任務(wù),嚴(yán)重制約預(yù)測(cè)模型的進(jìn)化[1]。
2.2 文本信息提取模型的選擇和使用
基于提示詞Prompt+文本的通用自然語言理解信息提取模型在命名實(shí)體、關(guān)系抽取、時(shí)間抽取、片段抽取上能力不斷提升,完全可以應(yīng)用在卷宗抽取特征數(shù)據(jù)上。之所以在LLM大模型時(shí)代仍然使用小模型來處理單一信息抽取任務(wù),是因?yàn)樵陲L(fēng)險(xiǎn)評(píng)估這種全連接任務(wù)中,特征工程僅需要單一的信息提取能力,大語言模型推理成本太高,而且低資源消耗的場(chǎng)景下,基于生成式的大語言模型信息提取效果不一定比參數(shù)量在100~300M的Encoder-only小模型好。
依照期望特征來組織Prompt的schema入?yún)?,?gòu)建特征工程的基礎(chǔ)數(shù)據(jù)。命名實(shí)體:{人物、歸屬地、作案地、組織機(jī)構(gòu)等};關(guān)系抽?。喝宋铮海錾暝?、受教育情況、工作單位、職業(yè)、身份、婚姻狀況、羈押地、前科情況等};事件抽?。鹤锩海麜r(shí)間、地點(diǎn)、事件等};文本分類:領(lǐng)域:{民生、養(yǎng)老金、醫(yī)療衛(wèi)生、教育、工程、金融詐騙等}[2]。調(diào)整Prompt來抽取不同的特征數(shù)據(jù)進(jìn)行多輪訓(xùn)練評(píng)估,直到找到最優(yōu)特征組合,既不受制于人工標(biāo)注的效率,也不擔(dān)心初期的特征選取不科學(xué)和不完整。
2.3 文本嵌入模型的選擇和使用
信息抽取得到的是一組離散且沒有經(jīng)過人工的歸納和編碼化的特征數(shù)據(jù),不能直接滿足于全連接網(wǎng)絡(luò)輸入要求,比如工作單位是一組單位的中文名稱,如果不進(jìn)行基本的聚類,無法在結(jié)果擬合時(shí)有任何相關(guān)性支撐和延展性幫助,沒有任何實(shí)際訓(xùn)練價(jià)值。本研究嘗試通過文本嵌入模型來處理這些特征數(shù)據(jù),將中文文本向量化并作為基礎(chǔ)。中文文本嵌入模型與信息抽取模型一樣,已經(jīng)日漸成熟。其中,一些開源的離線模型如text2vec、m3e、bge等,都具備微調(diào)功能,并在中文文本向量化方面表現(xiàn)出色。
2.4 特征向量化和相似度歸一化的方法
連續(xù)的線性特征值如年齡、金額等可以利用最小最大歸一化或標(biāo)準(zhǔn)化均值方差歸一化,但是經(jīng)過文本信息提取的特征數(shù)據(jù)向量化后,仍然是一組離散的向量值,需要為每個(gè)特征做歸一化,全連接要求歸一化時(shí)相似的數(shù)值表述相似的特征意義,想要利用這些自動(dòng)提取的特征數(shù)據(jù),還要進(jìn)行相似度聚類。以工作單位來說明,涉案人員工作單位性質(zhì)在信訪風(fēng)險(xiǎn)評(píng)估時(shí)是重要的參考量,以往在人工登記案件信息卡或標(biāo)注特征時(shí),需要人工將工作單位登記為不同的單位性質(zhì)、身份、職業(yè)等。而自動(dòng)提取特征的做法中,工作單位只是一個(gè)單位名稱,并無單位性質(zhì)、身份、職業(yè)等附加特征,相似度歸一化可以在一定程度上模擬人工分類[3]。通過計(jì)算工作單位之間的相似度,將相似的工作單位聚集在一起并進(jìn)行歸一化。這樣,具有相似特征的工作單位將在歸一化后的向量空間中更接近,具體可以通過以下步驟實(shí)現(xiàn):
1) 收集工作單位數(shù)據(jù)集,包含工作單位的文本和嵌入模型轉(zhuǎn)換的向量值。
2) 使用相似度度量方法(如余弦相似度、歐氏距離等)計(jì)算工作單位之間的相似度。
3) 使用聚類算法(如K-means、層次聚類等)將相似的工作單位聚集在一起形成不同的類別,這樣相似的工作單位將被歸為同一類別。
4) 歸一化聚類中的嵌入向量,計(jì)算每個(gè)類別中所有樣本的均值向量,并將其他樣本的嵌入向量映射到該均值向量[4]。
3 訓(xùn)練設(shè)計(jì)和實(shí)驗(yàn)結(jié)果分析
3.1 訓(xùn)練集設(shè)計(jì)
本次準(zhǔn)備5萬件案件卷宗原始數(shù)據(jù),僅含有起訴書和判決書等訴訟文書卷制式文書,核算每個(gè)案件的信訪風(fēng)險(xiǎn)評(píng)估評(píng)分值作為目標(biāo)參數(shù)輸出。風(fēng)險(xiǎn)評(píng)估評(píng)分值標(biāo)準(zhǔn)分50分,分值越高,風(fēng)險(xiǎn)越大。去除極端目標(biāo)值后,5萬件案件的最終評(píng)分大體分布在47到52 之間,超過49.5分即可視為有發(fā)生信訪風(fēng)險(xiǎn)。計(jì)算方式大致如下:
1) 5萬件樣本數(shù)據(jù)中有3 500件涉訪,風(fēng)險(xiǎn)評(píng)估評(píng)分值默認(rèn)加1分。
2) 信訪數(shù)據(jù)中含類型、信訪人數(shù)和方式等再次加權(quán)增加0.1~1分評(píng)分值。
3) 案件數(shù)據(jù)也根據(jù)是否未上訴、是否有認(rèn)罪認(rèn)罰具結(jié)書、是否簡(jiǎn)易程序、是否為緩刑等加權(quán)降低風(fēng)險(xiǎn)評(píng)估評(píng)分值。
選用評(píng)分這種線性目標(biāo)值而非風(fēng)險(xiǎn)等級(jí)分類,是基于歷史測(cè)試數(shù)據(jù)的考量。在實(shí)際情況中,信訪風(fēng)險(xiǎn)評(píng)估的正例,即真實(shí)發(fā)生信訪的案件比例,通常低于5%,這意味著訓(xùn)練集失衡,多分類預(yù)測(cè)的中高風(fēng)險(xiǎn)等級(jí)召回率和F1值都非常低,且很難提升。尤其在特征值基于靈活自動(dòng)抽取的訓(xùn)練模式下,優(yōu)先關(guān)注的應(yīng)該是特征參數(shù)的選取和迭代,線性目標(biāo)值更適合作為模型評(píng)價(jià)。
3.2 特征工程
特征工程設(shè)計(jì)有多輪對(duì)比,因此信息提取的模型選用RexUniNLU-base。模型體積較小,在抽取任務(wù)中對(duì)比RexUIE能力損失有限,推理速度則有很大優(yōu)勢(shì)。由于本研究一個(gè)重要目標(biāo)就是靈活調(diào)整特征數(shù)量和意義,推理速度更重要。特征值通過Prompt的提示詞靈活選取,優(yōu)先選取數(shù)據(jù)集中辦案環(huán)節(jié)早期訴訟文書提取特征參數(shù),使模型在辦案環(huán)節(jié)早期就具備預(yù)測(cè)條件,及時(shí)得到評(píng)估結(jié)果,輔助辦案人員消除后續(xù)信訪隱患。
1) 特征值:涵蓋罪名、嫌疑人和被害人的性別、年齡、綽號(hào)、戶籍地、作案地、工作單位、受教育程度、職業(yè)、身份、強(qiáng)制措施(羈押/取保候?qū)彛?、婚否、作案?jīng)過(事件抽?。㈩I(lǐng)域(文本分類)、前科、扣押款物、審查結(jié)論[5]。本次準(zhǔn)備四組,分別為16、18、20、22個(gè),四組特征差異主要是在文書中提取出來的一些法定和酌定情節(jié),如自首、被害人有過錯(cuò)、積極賠償、弱勢(shì)群體等。
2) 向量化:特征參數(shù)向量化選用的文本嵌入模型是bge-large-zh-v1.5,對(duì)比幾個(gè)向量化的模型在相似度分析中表現(xiàn)基本雷同,選此模型的主要原因還是效率較高。
3) 相似度:以工作單位特征參數(shù)為例,任意兩個(gè)工作單位之間都使用向量計(jì)算余弦相似度,構(gòu)建相似度矩陣,使用K-means聚類算法設(shè)置類族數(shù)目,將相似的工作單位聚集到一起形成不同的類族。如圖1所展示,12個(gè)工作單位基于相互之間的文本相似度自動(dòng)被聚類為4組,大體擬合了企業(yè)、行政、政法、金融四組,有較高的現(xiàn)實(shí)還原度。
4) 歸一化:對(duì)于每個(gè)聚類中的工作單位,可以計(jì)算該聚類中所有樣本的均值向量,并將其他樣本的嵌入向量映射到該均值向量。
3.3 訓(xùn)練和預(yù)測(cè)
數(shù)據(jù)集劃分:X是輸入層特征數(shù)據(jù),Y為目標(biāo)變量風(fēng)險(xiǎn)評(píng)估評(píng)分值,數(shù)據(jù)集分層隨機(jī)選取70% 為訓(xùn)練集,剩余30% 為測(cè)試集,設(shè)定隨機(jī)數(shù)種子,確保多輪訓(xùn)練和評(píng)估時(shí)隨機(jī)結(jié)果可重復(fù)性。
全連接神經(jīng)網(wǎng)絡(luò):使用Keras框架構(gòu)建神經(jīng)網(wǎng)絡(luò),選用Adm優(yōu)化器,均方差損失函數(shù)。輸入層設(shè)置30 個(gè)神經(jīng)元,ReLU激活函數(shù),16~22個(gè)輸入特征數(shù)量。4 個(gè)隱藏層,ReLU激活函數(shù),神經(jīng)元數(shù)量分別是40、20、10和5。輸出層只有1個(gè)神經(jīng)元,線性激活函數(shù)。
3.4 評(píng)估指標(biāo)
均方誤差MSE:計(jì)算預(yù)測(cè)評(píng)分值與真實(shí)評(píng)分值之間的平均平方差。平均絕對(duì)誤差MAE:計(jì)算預(yù)測(cè)評(píng)分值與真實(shí)評(píng)分值之間的平均絕對(duì)差。與MSE不同,對(duì)異常值更加魯棒。R平方:度量了線性模型對(duì)評(píng)分值變異性的解釋能力。Loss曲線:訓(xùn)練過程中每個(gè)ep?och的損失值隨時(shí)間的變化,評(píng)估收斂情況。
3.5 實(shí)驗(yàn)結(jié)果
分4次訓(xùn)練,輸入層分別為16、18、20、22個(gè)特征參數(shù),結(jié)果如圖2所示。
圖2顯示,模型在訓(xùn)練集和驗(yàn)證集上的損失和平均絕對(duì)誤差都較小,說明模型在這些指標(biāo)上表現(xiàn)良好。表1顯示,均方誤差和平均絕對(duì)誤差的值也較小,模型的預(yù)測(cè)結(jié)果與實(shí)際值相對(duì)接近。22特征輸入時(shí),R平方的值為0.724 4,說明模型可以解釋目標(biāo)變量約72.4% 的變異性,這也表示模型的預(yù)測(cè)能力較好。
3.6 動(dòng)態(tài)調(diào)整特征數(shù)量和意義的影響分析
上述4種特征組合的評(píng)估結(jié)果表明,提升特征參數(shù)數(shù)目可以提升模型質(zhì)量,從Loss曲線可以看到訓(xùn)練和驗(yàn)證曲線比較符合,20特征參數(shù)時(shí)Loss值有升高,說明20特征選取訓(xùn)練收斂力度不夠。對(duì)應(yīng)的評(píng)估指標(biāo)也可以看出,20特征反而比18特征表現(xiàn)要差些,這也更加說明動(dòng)態(tài)調(diào)整特征數(shù)量在訓(xùn)練中的重要性,通過Prompt輔助快速組織特征參數(shù)的研究有很大意義。
4 結(jié)束語
基于Prompt和文本嵌入提取卷宗特征,降低了人工依賴,提高了特征提取的效率。相似度歸一使得篩選過程更加靈活,多輪訓(xùn)練對(duì)比評(píng)估使得篩選過程更加客觀。更豐富的特征參數(shù)可以提供更多有用的信息,從而改善模型的預(yù)測(cè)能力。后續(xù)會(huì)繼續(xù)擴(kuò)展應(yīng)用,將文本提取模型、文本嵌入模型和預(yù)測(cè)模型混合拼接成一個(gè)完整的mix模型,輸入卷宗+Prompt提示詞直接輸出預(yù)測(cè)結(jié)果,并對(duì)整個(gè)模型進(jìn)行訓(xùn)練和優(yōu)化。這種文本特征提取和相似度歸一化的方法在多個(gè)領(lǐng)域都具有廣泛的應(yīng)用前景。
參考文獻(xiàn):
[1] 安震威,來雨軒,馮巖松. 面向法律文書的自然語言理解[J]. 中文信息學(xué)報(bào),2022,36(8):1-11.
[2] 劉曉蒙,單清龍,周萌枝,等. 基于涉訴信訪案件風(fēng)險(xiǎn)識(shí)別的知識(shí)元自動(dòng)抽取技術(shù)[J]. 法制博覽,2021(19):19-21.
[3] 劉棟,楊輝,姬少培,等. 基于多模型加權(quán)組合的文本相似度計(jì)算模型[J]. 計(jì)算機(jī)工程,2023,49(10):97-104.
[4] 王有華. 基于歸一化壓縮距離的文本譜聚類算法研究[D]. 貴陽:貴州大學(xué),2016.
[5] 董紅松. 司法訴訟案件文本挖掘若干關(guān)鍵技術(shù)研究[D]. 太原:中北大學(xué),2021.
【通聯(lián)編輯:代影】