中圖分類號:D926.2 文獻標志碼:A 文章編號:2095-2945(2025)19-0180-05
Abstract:Withtherapiddevelopmentofartificialintellgencetechnology,LargeLanguageModels(LM)havemade significantprogressinthefieldofnaturallanguageprocessing.ThispaperdiscusstheapplicationandprospectsofLarge LanguageModelinjudicialtrialasistanescenarios.Byanalyzingthemainscenariosofjudicialtrialassistance,aswellasthe currentsituationandproblemsoftraditioalartificialinteligenetechnologyinteapplicationofjudicialtrialasistance,this paperstudiesthekeytechnologiesandapplicationscenariosoftheLargeLanguageModelintheaplicationofjudicialtrial assistance,revealingitsroleinimprovingadjudicationeficiencyandpromotingjudicialfaiess.ResearchshowsthattheLarge LanguageModelhasbroadaplicationprospectsinjudicialtrialassistance,butitstillneedstobecontiuouslyoptimizednd improved.
Keywords:LargeLanguageModel(LM);artificialinteligencetechnology;judicialfield;judicialtrialsistace;adjudication efficiency
智慧司法發(fā)展至今,還存在多元異構(gòu)司法知識難以統(tǒng)一表示、難以與法官理解協(xié)作交互、應(yīng)用不能隨辦案實際使用數(shù)據(jù)進行持續(xù)優(yōu)化等問題,導(dǎo)致所支撐的業(yè)務(wù)具有邊緣輔助為主、裁判等核心業(yè)務(wù)輔助能力不足、認知理解和說理能力較弱的特征。
以ChatGPT等為代表的生成式大模型,經(jīng)過在大量數(shù)據(jù)上的語料訓(xùn)練、指令微調(diào)以及人類反饋強化學(xué)習(xí),在意圖理解、知識認知、體系架構(gòu)等方面具有多方面的優(yōu)勢,正在為司法領(lǐng)域人工智能技術(shù)帶來技術(shù)范式的轉(zhuǎn)移,為貫穿政法領(lǐng)域應(yīng)用提供了一站式解決的可能。
本文旨在系統(tǒng)探討大模型在司法審判輔助場景中的應(yīng)用,通過詳細分析其技術(shù)原理和實際案例,揭示大模型在提高裁判效率、促進司法公正等方面的潛力。具體而言,本文將開展大模型在爭議焦點識別、文書自動生成、智能輔助審判等環(huán)節(jié)的探索研究,探討其在司法實踐中的實際效果和技術(shù)挑戰(zhàn),為推動智慧司法建設(shè)提供理論依據(jù)和實踐參考。
1 司法審判輔助應(yīng)用概述
1.1 司法審判輔助應(yīng)用基本介紹
司法審判輔助應(yīng)用是一種利用現(xiàn)代技術(shù)手段,特別是大數(shù)據(jù)、人工智能等技術(shù),來輔助法官進行案件審理和裁判決策的系統(tǒng)。其主要具備的核心功能有:案件特征提取、爭議焦點識別、裁判說理生成、論證溯源、文書生成、類案推送和法條推送等。旨在實現(xiàn)服務(wù)司法審判全流程AI賦能,重點面向刑事審判、民事審判以及庭審環(huán)節(jié)提供智能化和自動化的服務(wù)能力,輔助法官提升審判效率,促進裁判尺度統(tǒng)一,實現(xiàn)同案同判,增強案件裁判結(jié)果的可解釋性,提高司法裁判的公信力[]。
1.2傳統(tǒng)人工智能技術(shù)在司法審判輔助場景的應(yīng)用 現(xiàn)狀
傳統(tǒng)的人工智能技術(shù),例如自然語言處理、深度學(xué)習(xí),以及機器學(xué)習(xí)等關(guān)鍵技術(shù)已經(jīng)在智慧司法領(lǐng)域得到了實際的應(yīng)用,并取得了一定的應(yīng)用效果,在司法審判輔助應(yīng)用場景中,具體體現(xiàn)在以下幾個方面。
一是案件認知階段,根據(jù)案件的前置文書,采用正則表達式、機器學(xué)習(xí)等技術(shù)手段,結(jié)合通過專家經(jīng)驗梳理的屬性標簽,實現(xiàn)案件特征提取、案件事件抽取,以及案件基本信息抽取等能力④,可以將非結(jié)構(gòu)化文書進行結(jié)構(gòu)化轉(zhuǎn)換,并支持過程中的信息溯源,實現(xiàn)查有所依,可以有效地輔助法官快速閱卷,整理案件脈絡(luò),構(gòu)建案件畫像,形成案件概覽。
二是案件推理階段,結(jié)合案件特征,以及案件的事件脈絡(luò)等關(guān)鍵信息,通過深度學(xué)習(xí)等關(guān)鍵技術(shù)手段,提供爭議焦點識別、事實沖突檢測、法規(guī)法條推送、類案智能推送等服務(wù)能力。深入服務(wù)法官的審判工作,實現(xiàn)全過程賦能,結(jié)合案件特征為法官提供針對性的法律知識,相似案例,同時識別案件的爭點和問題,有效輔助法官實現(xiàn)同案同判。
三是裁判階段,根據(jù)法律專家知識和經(jīng)驗,結(jié)合歷史案件總結(jié)、量刑規(guī)則指導(dǎo)等關(guān)鍵手段,通過機器學(xué)習(xí)與規(guī)則相結(jié)合的方式,實現(xiàn)裁判結(jié)果預(yù)測、基于類案的裁判說理推薦,以及最終的裁判文書生成等服務(wù)能力[5。為法官在司法審判的最終環(huán)節(jié)提供裁判結(jié)果的論據(jù)說理,輔助提升司法公信力。
1.3傳統(tǒng)人工智能技術(shù)在司法審判輔助能力應(yīng)用中的主要問題
當(dāng)前,智能化技術(shù)對司法審判輔助仍然停留在“技術(shù)嵌入\"層面。究其原因還是技術(shù)“智能化\"程度的不足與司法場景下“適用性”的高要求之間的矛盾。傳統(tǒng)人工智能技術(shù)被廣泛應(yīng)用于司法場景時,暴露出了一些瓶頸和問題。AI大模型的出現(xiàn)則為解決下述問題提供了新的解決方案。
一是準確性有限,高度依賴標注數(shù)據(jù),制約智能化服務(wù)研發(fā)效率與質(zhì)量。以典型的案例特征提取、爭議焦點識別等任務(wù)為例,傳統(tǒng)人工智能技術(shù)往往依賴通過專業(yè)法律經(jīng)驗構(gòu)建的法律知識圖譜。在這種技術(shù)中,法律邏輯研究水平、數(shù)據(jù)標注質(zhì)量及覆蓋度將嚴重影響機器對案例要素認知的準確性和全面性。高度依賴標注數(shù)據(jù)的特性導(dǎo)致基于傳統(tǒng)人工智能技術(shù)的司法智能化服務(wù)研發(fā)效率難以提升、智能化服務(wù)質(zhì)量受到制約7]。
二是知識理解與邏輯推理能力不足,制約服務(wù)專業(yè)度與智能化程度。不同于其他通用領(lǐng)域,法律領(lǐng)域的諸多場景,如證據(jù)鏈構(gòu)建、事實推理認定等,需要大量法律知識及邏輯推理。在傳統(tǒng)人工智能算法上這些知識與推理邏輯往往難以通過標注數(shù)據(jù)的方式被準確習(xí)得8,因此,無法保證模型結(jié)果具備與專業(yè)法律人士相較的法律知識與司法邏輯特性。
三是缺乏自然語言生成與對話能力,制約智能化服務(wù)靈活性與便捷度。傳統(tǒng)人工智能模型往往受限于監(jiān)督學(xué)習(xí)為主的訓(xùn)練模式,無法提供流暢、富有邏輯的生成式響應(yīng)。以文書生成場景為例,傳統(tǒng)技術(shù)往往通過單一模板與信息回填方式實現(xiàn)文書部分段落的輔助生成,生成的內(nèi)容比較模板化,或者機械地引用歷史相似案件的裁判說理內(nèi)容,難以實現(xiàn)裁判說理、法院觀點等開放性內(nèi)容的輔助生成。
2大語言模型在司法審判輔助中的關(guān)鍵技術(shù)2.1 司法審判輔助應(yīng)用的技術(shù)架構(gòu)
面向司法領(lǐng)域運用大模型技術(shù)在司法審判輔助場景中應(yīng)用,需要構(gòu)建大模型底座,通過構(gòu)建數(shù)據(jù)集、知識庫,以及模型訓(xùn)練等能力,結(jié)合司法審判輔助的應(yīng)用場景,研究大模型能力如何在可認知、可推理、可溯源的司法審判架構(gòu)體系中落地,形成以數(shù)據(jù)、模型和知識服務(wù)為支撐的司法審判輔助能力應(yīng)用,如圖1所示。
具體研究內(nèi)容如下。
1)基礎(chǔ)支撐:提供基礎(chǔ)支撐的基礎(chǔ)設(shè)施層,主要包含GPU、存儲器、算力資源等。
2)數(shù)據(jù)處理:數(shù)據(jù)經(jīng)過請過清洗、數(shù)據(jù)增強處理之后,存儲于數(shù)據(jù)資源中,用于訓(xùn)練和微調(diào)法律大模型的大量文本數(shù)據(jù),包括法條、司法解釋、法律咨詢、判決文書等。
3)RAG知識構(gòu)建:構(gòu)建由專家知識積累和經(jīng)驗總結(jié)形成的司法知識庫、語料庫。主要包含:法律法規(guī)、司法解釋、指導(dǎo)案例、專家觀點、裁判文書,以及結(jié)合司法領(lǐng)域?qū)I(yè)知識和應(yīng)用場景歸納和整理形成語料庫等。
4)模型訓(xùn)練:根據(jù)不同的指令任務(wù)進行模型訓(xùn)練,包含基礎(chǔ)模型、監(jiān)督微調(diào)、模型評估、反饋強化、模型推理等模塊。
5)服務(wù)層:通過模型的學(xué)習(xí)和訓(xùn)練形成的服務(wù)能力,包含輔助閱卷、刑事審判、民事/行政審判等模塊。
2.2大語言模型在司法審判輔助中的關(guān)鍵技術(shù)
2.2.1 RAG知識庫構(gòu)建
因大語言模型文本生成的底層原理是基于概率的tokenbytoken的形式,因此會不可避免地產(chǎn)生“一本正經(jīng)的胡說八道\"的情況,也就是人們常說的“幻覺問題”。同時,大語言模型的規(guī)模越大,訓(xùn)練成本就越高,周期也就越長。那么具有時效性的數(shù)據(jù)也就無法參與訓(xùn)練,所以也就無法直接回答時效性相關(guān)的問題。而面向司法審判業(yè)務(wù)輔助能力,對輸出的正確性,以及法律條文和法律文書更新的時效性要求是非常高的,所以本文采用的大語言模型技術(shù),就是通過大語言模型外掛知識庫的方式提升司法審判輔助應(yīng)用中的智能化能力,所以本文研究主要內(nèi)容為通過大語言模型外掛法律QA訓(xùn)練語料,以及向量化的法律知識,提升大模型的法律垂領(lǐng)的認知能力。大語言模型服務(wù)能力生成的全過程如圖2所示。
RAG知識庫構(gòu)建是架構(gòu)中的基礎(chǔ),首先通過知識分類分塊處理,將各種文檔數(shù)據(jù)分割為多個段落,隨后,利用文本向量化模型將這些段落轉(zhuǎn)化為向量,并構(gòu)建文檔向量索引庫,便于后續(xù)知識庫檢索。
從流程圖中可以看出文本向量化整個架構(gòu)中的關(guān)鍵環(huán)節(jié),向量化是通過將數(shù)據(jù)轉(zhuǎn)化為向量形式,結(jié)合稀檢索和稠密檢索方法,實現(xiàn)了全面的知識增強。稀疏檢索如TF-IDF在關(guān)鍵詞匹配上表現(xiàn)出色,而稠密檢索則通過深度學(xué)習(xí)生成的向量進行語義理解。這種混合方法不僅提升了主題挖掘的準確性,還支持語義分析、關(guān)系抽取和個性化推薦,為數(shù)據(jù)提供了更深入的洞察和分析能力。向量化檢索技術(shù)流程圖如圖3所示。
文本知識通過向量化處理入庫之后,在用戶發(fā)起輸入時,首先將輸入文本轉(zhuǎn)化為向量,隨后進行向量檢索操作,匹配最相關(guān)文檔段落,匹配結(jié)果結(jié)合提示詞模板組裝成提示詞,輸入大模型服務(wù),生成最終的結(jié)果輸出。本次研究構(gòu)建的知識庫包含裁判文書、法律法規(guī)等信息基礎(chǔ)超2億余條知識。
2.2.2 大語言模型微調(diào)
本文在通用大模型的基礎(chǔ)上通過監(jiān)督微調(diào)的方式來進一步提升通用模型對法律領(lǐng)域知識的理解、推理及生成能力。本研究中,針對法條推薦爭議焦點歸納、案件認知思維鏈、裁判說理、案情總結(jié)等場景歸納總結(jié)14類語料庫,形成300余萬對QA訓(xùn)練語料。語料分布見表1。
整個訓(xùn)練過程基于Qwen2.5-14B-Instruct模型利用Lora高效微調(diào)方式進行監(jiān)督微調(diào)。訓(xùn)練過程的超參數(shù)設(shè)置如下:參數(shù)矩陣的秩(Lora_Rank)設(shè)為8、批大?。╞atch size)為196、學(xué)習(xí)率為 5×10-5.3 個epoch訓(xùn)練階段、上下文長度為4096個Token、訓(xùn)練過程在8*A100GPU 上進行。
在微調(diào)后的大模型上,以裁判說理生成能力為例,圖4展示了大語言模型生成的裁判說理段落,左側(cè)為輸入,包含訴請和查明事實,右側(cè)為輸出的裁判說理。
了相關(guān)法條,并對裁判結(jié)果進行預(yù)測,生成內(nèi)容較完整,可輔助法官完成裁判說理的論述。
2.3大語言模型在司法審判輔助中的應(yīng)用場景
介于大語言模型強大的自然語言生成和理解能力,在司法審判輔助中的應(yīng)用場景可以做到廣泛而深入,進而貫穿司法審判輔助的全流程,核心的應(yīng)用場景如下。
大語言模型生成的說理段落較之前模版式的生成內(nèi)容更加符合輸入案例的實際情況,同時精準引用
2.3.1 案件特征識別
案件特征識別是通過人工智能技術(shù)在文書中提取案件的基本信息、訴訟請求、案件事實情節(jié)、爭議焦點等信息,例如針對一個刑事案件通過案件特征識別可以識別案件的案由、當(dāng)事人、布爾型事實、數(shù)值型事實,以及量刑情節(jié)等。大語言模型通過自動標注能力可以快速提升標注樣本量,有效提升識別準確率。
2.3.2法律知識檢索
輸入 輸出【訴請】:1、依法判令二被告共同償還原 本院認為,合法的借貸關(guān)系受法律保護。本案中被告借款本金35000元及利息(利息自2019年 告祁某某向原告借款,并約定了利息,借款到期后,7月29日按照約定利息1分計算至付清之日 被告祁某某未履行還款義務(wù),應(yīng)當(dāng)承擔(dān)還款責(zé)任。止),2、涉案費用由被告承擔(dān)。 原告主張的利息約定符合法律規(guī)定,本院予以支持?!静槊魇聦崱浚罕驹航?jīng)審理查明認定事實如 本案中被告祁某某與被告翟某某系夫妻關(guān)系,上述下:原告楊某某與被告祁某某、翟某某系朋 借款發(fā)生在二人夫妻關(guān)系存續(xù)期間,屬于夫妻共同友關(guān)系,被告祁某某與被告翟某某系夫妻。 債務(wù)應(yīng)由二人承擔(dān)共同清償責(zé)任。綜上所述,依照被告祁某某因做生意資金緊張向原告借款 大模型 《中華人民共和國民法典》第六百六十七條、第六35000元,并于2019年7月29日向原告出具 百七十五條、《最高人民法院關(guān)于審理民間借貸案借條一張:“借條今借到楊某某現(xiàn)金人民幣 生成 件適用法律若干問題的規(guī)定》第二十四條、《最高35000元(參萬伍仟元整)利息每月350元借 人民法院關(guān)于審理涉及夫妻債務(wù)糾紛案件適用法律款人祁某某41092819832019年7月29號”。 有關(guān)問題的解釋》第三條及《中華人民共和國民事后經(jīng)原告多次催要,被告拒不還款,無奈 訴訟法》第一百四十四條之規(guī)定,判決如下:被告祁訴至法院。 某某、翟某某于本判決生效之日起十日內(nèi)償還原告上述事實有原告陳述及提供的借條、家庭 楊某某借款本金35000元及利息(利息自2019年7月關(guān)系成員證明、與被告翟某某電話錄音光 29日起按照月利率1%計算至付清之日止)。盤在卷予以證明。
法律知識檢索是指通過用戶或者系統(tǒng)的輸人,從知識庫中檢索相應(yīng)的法律法規(guī)、案例、卷宗、圖書等信息,依托大語言模型在用戶意圖理解、文本語義理解、專業(yè)知識檢索等方面技術(shù)優(yōu)勢,可以降低對輸入的專業(yè)性要求,同時在應(yīng)用上,可拓展建設(shè)對話式搜索服務(wù)和檢索內(nèi)容,面向法官實現(xiàn)全流程伴隨式信息檢索,同時可借助更多細節(jié)詢問、清晰度改進和想法反饋來優(yōu)化搜索結(jié)果。
2.3.3 裁判說理生成
裁判說理生成是基于案件的事實情節(jié)、訴辯、抗辯和爭議焦點等信息自動生成裁判文書中的本院認為段落內(nèi)容,包含說理、裁判結(jié)果預(yù)測以及引用的法條信息等。大語言模型可以基于海量案例大數(shù)據(jù)以及強大的文本生成能力,訓(xùn)練出一位“博學(xué)多才”的數(shù)字法官助手,提升裁判說理生成內(nèi)容的可采納率,同時減少裁判結(jié)果預(yù)測的偏離度,為法官提供精準化的輔助決策服務(wù)。
3大語言模型在司法審判輔助中面臨的挑戰(zhàn)與對策
3.1 數(shù)據(jù)質(zhì)量
大語言模型的學(xué)習(xí)訓(xùn)練效果在很大程度上取決于數(shù)據(jù)的質(zhì)量。目前,我國法律數(shù)據(jù)較為分散,數(shù)據(jù)質(zhì)量參差不齊,需要加強對高質(zhì)量法律數(shù)據(jù)的收集和整理。后續(xù)需要進一步加強頂層設(shè)計,加強法律數(shù)據(jù)治理,建設(shè)環(huán)境司法數(shù)據(jù)中臺,健全司法數(shù)據(jù)標準及規(guī)范體系。
3.2 技術(shù)難題
雖然大語言模型在法律領(lǐng)域的應(yīng)用取得了一定的成果,但仍有許多技術(shù)難題需要解決,如模型的可解釋性、泛化能力等。后續(xù)需要進一步健全完善算法治理機制,促進環(huán)境司法審判公平正義,確保算法決策的透明度和公正性。
3.3 法律倫理
司法審判輔助的應(yīng)用需要遵循法律倫理原則,確保公正、公平、透明。如何在技術(shù)發(fā)展與法律倫理之間找到平衡,是司法審判輔助服務(wù)能力發(fā)展過程中亟待解決的問題。后續(xù)需要進一步完善多元問責(zé)機制,筑牢司法監(jiān)督管理體系,加強對司法審判輔助系統(tǒng)的監(jiān)管和評估。
4發(fā)展前景
隨著大語言模型技術(shù)的不斷進步,司法審判輔助系統(tǒng)在法律領(lǐng)域的應(yīng)用前景十分廣闊。未來,大語言模型將進一步提升其理解和生成自然語言的能力,實現(xiàn)對法律知識的深度挖掘和高效利用,為法官提供更加智能化、精準化的裁判輔助支持。同時,司法審判輔助系統(tǒng)將與法律知識圖譜等技術(shù)相結(jié)合,為用戶提供更全面、更直觀的法律服務(wù)體驗
5結(jié)束語
本文系統(tǒng)探討了大模型在司法審判輔助場景中的應(yīng)用潛力、關(guān)鍵技術(shù)和實際案例。通過對司法審判輔助場景的詳細介紹和現(xiàn)有文獻的綜述,明確了大模型在司法領(lǐng)域的巨大應(yīng)用價值和優(yōu)勢。由于大模型在自然語言理解和文本生成方面的技術(shù)優(yōu)勢,可以大大提升爭議焦點識別、裁判說理生成、類案智能推送等環(huán)節(jié)的準確性和效率。未來大模型在輔助辦案過程中將發(fā)揮更大的作用,通過交互式的交流模式,徹底改變現(xiàn)有法院辦案的檢索方式,實現(xiàn)人機協(xié)同,時問時答,精準溯源,推進智慧司法進一步提升法官的辦案效率,促進司法公平公正。
參考文獻:
[1]張乾君.AI大模型發(fā)展綜述[J].通信技術(shù),2023,56(3):255-262.
[2]朱暉,劉晨暉.大數(shù)據(jù)在同案審判中的應(yīng)用研究[J].法律適用,2019(20) :47-54.
[3]譚紅葉,張博文,張虎,等.面向法律文書的量刑預(yù)測方法研究[J].中文信息學(xué)報,2020,34(3):107-114.
[4]詹力林,秦永彬,黃瑞章,等.融合時序行為鏈與事件類型的類案檢索方法[J].計算機應(yīng)用.
[5]CHEN J. Exploring the Legal Accuracy of MathematicalModels in Crime Sentencing Prediction in the FaceofCriminal Procedure Law Practice Needs [J].Applied Mathe-matics and Nonlinear Sciences,2O24,9(1).
[6] WANG Z. Research on intelligentl egal decision support sys-tembased on big data analysis [JJ.Applied Mathematics andNonlinear Sciences,2024,9(1).
[7] ZHANG K P. ChatGPT: Optimizing Language Models forDialogue[M].USA:University of Maryland,2022.
[8]李耕,王梓爍,何相騰,等.從ChatGPT到多模態(tài)大模型:現(xiàn)狀與未來[J].中國科學(xué)基金,2023,37(5):724-734.