李 尚,張宏莉,葉 麟,方濱興
(哈爾濱工業(yè)大學 網(wǎng)絡空間安全學院,哈爾濱 150001)
在司法領域,隨著廣大人民群眾的法律意識不斷增強,新案件的增長速度日益提高,再加上法律為了適應社會中層出不窮的新生事物而不斷做出更新和完善,使得每天都有大量的新數(shù)據(jù)出現(xiàn)。這些數(shù)據(jù)來自于各類民事和刑事案件卷宗和判決文書,以及法律法規(guī)的補充擴展和司法解釋。與此同時,中國司法信息化建設不斷推進,這些數(shù)據(jù)經(jīng)過篩選和清洗也更多地公開發(fā)布出來,中國裁判文書網(wǎng)是由最高人民法院主辦的裁判文書發(fā)布網(wǎng)站,收錄文書數(shù)量多達1 億余篇且仍在繼續(xù)增長,目前已成為法律領域最大規(guī)模的數(shù)據(jù)資料庫。
另一方面,隨著數(shù)據(jù)量的不斷增加,司法工作者的負擔也日益繁重,法官和律師不僅需要查閱大量歷史案例作為參考,還要對新的法律法規(guī)以及現(xiàn)有法律法規(guī)的補充擴展進行深入理解和研究。近年來,以深度學習和自然語言處理(natural language processing,NLP)為代表的人工智能技術不斷取得新的突破,其研究成果已經(jīng)推動了制造、醫(yī)療、教育等諸多領域的發(fā)展,提高了這些領域的生產(chǎn)效率,從而減輕了人們的勞動負擔。而在司法領域,人工智能的相關研究總體上仍處于起步階段。
文本處理是傳統(tǒng)機器學習和數(shù)據(jù)挖掘領域里相對基礎但也非常重要的技術分支,包括文本表示、聚類、分類、檢索等多個細分領域。而法律領域最主要的數(shù)據(jù)形式便是以裁判文書內(nèi)容為代表的法律文本,如圖1 所示,其內(nèi)容主要涉及對被告人信息、案件情節(jié)以及判決結果的描述。
圖1 法律文本(裁判文書)樣例Fig.1 An example of legal text(judgment document)
為了充分挖掘法律文本數(shù)據(jù)的價值,減輕法律從業(yè)人員繁重的數(shù)據(jù)處理工作負擔,近年來人工智能研究人員已經(jīng)針對基于深度學習的法律文本處理技術開展了一系列工作,特別是在法律文本表示、法律文本分類以及幾類典型的法律文本挖掘與應用方面,已產(chǎn)生一批代表性的成果。本文對這些研究工作和成果進行簡要的梳理和分析。
文本表示是許多NLP 應用中的基礎性任務,對提升各類文本處理算法性能具有十分重要的作用。文本表示的目標是將非結構化的文本數(shù)據(jù)映射到低維向量空間中,進而可以用數(shù)學方法對文本進行計算和處理[1]。與通用領域的文本相比,法律文本具有領域性強、信息密集、結構特征相對明顯等特點,更加有效的法律文本技術可以顯著提升建模、分類、推理、挖掘等下游任務的性能,近年來已引起研究者的廣泛興趣。
字和詞嵌入是對語言進行向量化表示的重要手段,但傳統(tǒng)的嵌入方法(如Word2Vec)對于法律文本中專業(yè)術語和領域知識的表達能力相對不足。Nay 通過在一個由案例法、成文法和行政法構成的法律語料庫上應用Word2Vec,訓練得到了一個Gov2Vec 的工具,可以有效地對語料中的法學概念進行編碼,并能夠學習到這些概念向量之間的隱含關系,成功運用在最高法院意見、總統(tǒng)行動和國會法案的摘要生成任務中[2];Chalkidis 和Kampas 同樣基于Word2Vec 提出了Law2Vec,通過包括英國、歐盟、加拿大、澳大利亞、美國和日本等國立法的大型語料庫中訓練法律詞匯嵌入,并驗證了法律詞匯語義特征表示在文本分類、信息抽取和信息檢索3 個任務中的重要作用[3]。
自2018 年以來,以BERT 為代表的預訓練語言模型已經(jīng)形成了一種新的NLP 范式[4]:首先使用大規(guī)模文本語料庫進行預訓練,再對特定任務的小數(shù)據(jù)集微調,從而降低單個NLP 任務的難度。預訓練語言模型的應用,大幅提升了命名實體識別、事件抽取、機器翻譯、自動問答等多項NLP 任務的性能,在法律文本處理領域也具有良好的應用前景。針對通用預訓練語言模型對法律領域術語和知識表達能力較弱的問題,Zhong 等人提出了一個基于千萬級法律文本(包括民事和刑事裁判文書)的中文預訓練模型OpenCLaP(Open Chinese Language Pre-trained Model Zoo),其支持最大512 長度的文本輸入以適配多種任務需求,經(jīng)過微調使用后有效提升了案件要素抽取、判決結果預測、相似案例匹配等多個法律文本處理任務中基線模型的性能[5]。目前,如何將知識嵌入到預訓練語言模型已成為該領域的研究熱點,在法律文本表示領域開展此類研究同樣有助于提升深度學習模型對于法律概念的理解和推理能力。
基于嵌入的法律文本表示方法充分發(fā)揮了深度神經(jīng)網(wǎng)絡在NLP 任務中強大的潛在語義學習能力,但其產(chǎn)生的文本向量往往無法解釋,這對于強調領域知識的法律文本是一個顯著的缺陷。而傳統(tǒng)的特征工程方法,由于需要大量人工標注工作,在大規(guī)模的法律語料庫面前也顯得捉襟見肘。因此,有研究者開始嘗試這兩種方法的結合,即在上層使用一定量的領域知識來定義法律文本表示的特征模式,然后在底層使用深度神經(jīng)網(wǎng)絡模型對這些特征進行學習和表示。
Li 等人根據(jù)中國刑法中對于盜竊罪的定義,歸納出與定罪量刑相關的9 維特征(包括犯罪嫌疑人基本信息、是否累犯、是否攜帶武器、涉案物品價值等),然后使用長短期記憶(long short-term memory,LSTM)網(wǎng)絡對法律文本進行編碼,再根據(jù)生成的向量表示使用分類算法,判斷是否符合某個特征,進而得到針對法律文本的9 維向量表示,在實現(xiàn)了特征降維的同時,使得特征能夠在法律知識框架下具備良好的解釋性[6]。針對判決結果預測任務,Li 等人提出了一種基于注意力機制的法律文本表示模型,通過在涉及10 類刑事罪名的裁判文書語料中進行訓練,生成基于案件事實、被告人信息及相關刑法條文等多個層面的潛在語義特征表示向量,能夠表示法律文本中人物、事件、法律條文3 者之間的潛在邏輯關系,大幅提升了罪名、法律條文、刑期等預測任務的性能和預測結果的可解釋性[7]。
文本分類是法律文本處理應用中的關鍵任務。不同的法律文本處理任務可以轉化為不同類型的文本分類問題。例如:判斷一個案件中的被告人是否有自首情節(jié)屬于簡單的二分類問題,分析案件類型(涉嫌的主要罪名為互斥關系)屬于多分類問題,判定被告人觸犯了哪些法條則屬于多標簽分類問題。已有的研究工作也基本圍繞這3 類問題展開。
Aletras 等人使用多個支持向量機(Support Vector Machine,SVM)分類器對案件的若干語義學特征分別進行二分類,用于預測歐洲人權法院的判決[8];Boella 等人使用詞頻-逆向文件頻率(Term Frequency– Inverse Document Frequency,TF–IDF)算法和信息增益進行特征選擇,然后訓練SVM分類器,以識別法律文本所歸屬的領域[9];Liu 等人在基于案例的推理系統(tǒng)中使用K 最近鄰(K–Nearest Neighbor,KNN)算法對12 種常見的刑事罪名進行分類[10];Katz 等人根據(jù)從案件概要中抽取的特征,構建了隨機樹模型以預測美國最高法院的決策[11];Lin 等人首先根據(jù)人工定義的21 類法律要素標簽對案件描述的句子進行分類,再用于區(qū)分搶劫和恐嚇罪名[12];Liu 等人將多個法條的不同組合作為標簽進行訓練,將多標簽分類問題簡化為多分類問題[13-14]。這些早期的工作大多利用特征工程與統(tǒng)計機器學習模型的結合,使用有監(jiān)督的學習方法訓練分類器,模型分類性能和結果的可解釋性都相對較好,但由于過度依賴特征設計和人工標注,在文本標簽體系發(fā)生變化時可擴展性較差。
近年來,以各類神經(jīng)網(wǎng)絡為代表的深度學習模型憑借其強大的特征學習能力在多種NLP 任務中發(fā)揮了重要作用,特別是針對大規(guī)模語料庫的學習中,相比人工規(guī)則構造特征的方法更能夠刻畫數(shù)據(jù)豐富的語義信息。Wei 等人使用卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)實現(xiàn)了一個法律文檔分類器,其實驗結果證明CNN 模型在大規(guī)模訓練集上取得的性能明顯優(yōu)于SVM[15];Chalkidis and Androutsopoulos 采用了完全不依賴人工標注的詞語本身、詞性標簽和符號嵌入作為特征,使用雙向LSTM 網(wǎng)絡完成了合同要素抽取任務[16];Luo 等人提出了一個基于注意力機制的多標簽神經(jīng)網(wǎng)絡分類器,通過將法律法規(guī)信息融入案件事實的向量表示,在提升案件罪名分類性能的同時使分類結果具備一定的可解釋性[17];Li 等人提出了一種多通道注意力神經(jīng)網(wǎng)絡框架,僅使用訓練數(shù)據(jù)中罪名類型、適用法條、刑期3 個極易獲取的標簽為監(jiān)督對案情描述、被告人信息和法律條文進行聯(lián)合編碼,靈活的編碼方式可以支持不同的多標簽分類任務,均取得了較好的分類性能[7];Wang 等人提出了一種層次化匹配神經(jīng)網(wǎng)絡,在構建案件罪名向量表示的過程中融入標簽的層次信息,并借助語義匹配的方法完成罪名分類任務,取得了較高的準確率[18]。
隨著法律文本表示和分類等法律文本處理技術的不斷成熟,以及法律領域利用計算機和人工智能技術輔助業(yè)務開展的需求的快速增長,近年來涌現(xiàn)出一些代表性的法律文本挖掘方法及其應用。
法律判決預測(Legal Judgment Prediction,LJP)是基于法律文本的最關鍵任務之一。在中國、德國、法國等采用大陸法系的國家中,判決結果是根據(jù)案件事實與成文法規(guī)決定的。在這一法律制度下,LJP的任務就是通過案件事實描述文本與法律條文的匹配,來判斷相關行為是否觸犯某條法律,進而對應判罪名、適用法條以及刑期做出預測。
已有研究大多將罪名和法條預測任務用文本分類算法解決,包括早期使用統(tǒng)計機器學習模型,以及近期使用深度學習模型的方法。為了促進LJP 的發(fā)展,Xiao 等人提出了一個大規(guī)模的中文裁判文書數(shù)據(jù)集C-LJP,包含中國法院發(fā)布的268 萬件刑期案件文本[19];在近期的一些工作中,Luo 和Li 將研究重心放在如何使用基于注意力機制的神經(jīng)網(wǎng)絡去挖掘案件,描述不同部分之間的邏輯關系,為了更好的實現(xiàn)這一目的以及為后續(xù)預測結果提供更好的可解釋性,引入了法律條文作為外部知識來引導神經(jīng)網(wǎng)絡的編碼過程,在罪名和法條預測任務中取得了優(yōu)異的性能[17,7];Zhong 等人通過引入LJP 各個子任務之間的拓撲關系,使得模型的預測過程更符合人類法官的判案邏輯,實驗結果也證實了這一做法的有效性[20]。
在刑期預測方面,有部分工作通過將刑期劃分為不同區(qū)間進而轉化為分類問題解決,也有一些研究者按照更符合任務本身特性的回歸問題去設計模型。Li 等人根據(jù)法律條文歸納出了盜竊案件除刑期外的10 維特征,利用神經(jīng)網(wǎng)絡訓練得到特征向量后再交由回歸算法進行計算,取得了較高的準確率,但這一方法相對依賴人工引入外部知識和標注,無法高效地將預測模型擴展到支持更多類型的案件[21];Chen 等人提出了一種采用門控機制的神經(jīng)網(wǎng)絡模型,以罪名為基礎對案件進行刑期預測,有效提升了預測的準確率[22]。但總體而言,由于刑期這一數(shù)據(jù)類型連續(xù)性的特點,以及在現(xiàn)實中存在的法律之外的量刑因素,使得現(xiàn)有的模型性能都不理想。
隨著案件文檔規(guī)模的日益增長,相似案例檢索對于提高法律從業(yè)人員的工作效率具有重要意義,高質量的類案推送結果也有助于中國法律更加接近所追求的“類案類判”的目標。
在早期的研究工作中,Saravanan 和Casanovas提出了基于語義網(wǎng)和本體論的法律案例檢索系統(tǒng),在輸入輸出兩端都比傳統(tǒng)基于關鍵字的系統(tǒng)實用性更強,其缺點是嚴重依賴法律專家對于本體的編輯,而且以本體作為檢索條件也無法滿足當前“以案搜案”的業(yè)務需求[23-24]。
英美法系國家采用的是判例法,對一個案件作出判決時必須明確引用既往案件的判決,因此自然形成了一個案例引文網(wǎng)絡,為引入圖算法解決類案檢索問題提供了基礎。Wagh 等人基于案例引證網(wǎng)絡節(jié)點的中心性和介數(shù)性提出了一種計算印度法院判決相似度的方法[25];Minocha 等人提出了一個法律離散度的概念,通過衡量兩個案例的相鄰節(jié)點集合的相似度,查找一個案例在引文網(wǎng)絡中的相似案例[26]。針對引文網(wǎng)絡通常非常稀疏的問題,有研究者開始引入機器學習算法對法律文本相似度進行計算,如基于段落相似度計算全文相似度、基于詞頻的貝葉斯統(tǒng)計方法、基于案件特征的最近鄰算法,但這些基于統(tǒng)計特征的方法丟失了文本原有的語義信息。為了盡可能保留文本的語義信息,使用詞嵌入和深度學習模型逐漸成為類案檢索任務的主流方法。
針對法律文本處理問題,本文簡要介紹了近年來以深度學習方法為主的相關研究成果,分別對法律文本表示、法律文本分類以及法律文本挖掘與應用領域的研究方向和進展進行了梳理和分析。除本文介紹的這些方向外,法律文本處理涉及到任務還包括法律問答、法律要素抽取、法律文本摘要等。
總體而言,傳統(tǒng)的文本處理技術均可以在法律文本處理任務中發(fā)揮重要作用,而以詞嵌入方法和神經(jīng)網(wǎng)絡為代表的深度學習模型的引入,更是能夠充分學習海量法律文本中蘊含的龐大語義信息。但是,如何使深度學習模型更好地與法律專業(yè)知識進行融合,是目前眾多研究工作面臨的共同難題,如何兼顧模型性能和結果可解釋性將成為該領域未來研究的焦點問題。