馬建剛 馬應(yīng)龍
摘 要:基于海量的司法文書進(jìn)行的高效司法文檔分類有助于目前的司法智能化應(yīng)用,如類案推送、文書檢索、判決預(yù)測(cè)和量刑輔助等。面向通用領(lǐng)域的文本分類方法因沒有考慮司法領(lǐng)域文本的復(fù)雜結(jié)構(gòu)和知識(shí)語義,導(dǎo)致司法文本分類的效能很低。針對(duì)該問題提出了一種語義驅(qū)動(dòng)的方法來學(xué)習(xí)和分類司法文書。首先,提出并構(gòu)建了面向司法領(lǐng)域的領(lǐng)域知識(shí)模型以清晰表達(dá)文檔級(jí)語義;然后,基于該模型對(duì)司法文檔進(jìn)行相應(yīng)的領(lǐng)域知識(shí)抽取;最后,利用圖長(zhǎng)短期記憶模型(Graph LSTM)對(duì)司法文書進(jìn)行訓(xùn)練和分類。實(shí)驗(yàn)結(jié)果表明該方法在準(zhǔn)確率和召回率方面明顯優(yōu)于常用的長(zhǎng)短期記憶(LSTM)模型、多類別邏輯回歸和支持向量機(jī)等方法。
關(guān)鍵詞:司法大數(shù)據(jù);領(lǐng)域知識(shí)模型;文本分類;智慧檢務(wù);圖長(zhǎng)短期記憶模型
中圖分類號(hào): TP309
文獻(xiàn)標(biāo)志碼:A
Abstract: Efficient document classification techniques based on large-scale judicial documents are crucial to current judicial intelligent application, such as similar case pushing, legal document retrieval, judgment prediction and sentencing assistance. The general-domain-oriented document classification methods are lack of efficiency because they do not consider the complex structure and knowledge semantics of judicial documents. To solve this problem, a semantic-driven method was proposed to learn and classify judicial documents. Firstly, a domain knowledge model oriented to judicial domain was proposed and constructed to express the document-level semantics clearly. Then, domain knowledge was extracted from the judicial documents based on the model. Finally, the judicial documents were trained and classified by using Graph Long Short-Term Memory (Graph LSTM) model. The experimental results show that, the proposed method is superior to Long Short-Term Memory (LSTM) model, Multinomial Logistic Regression (MLR) and Support Vector Machine (SVM) in accuracy and recall.
Key words: judicial big data; domain knowledge model; text categorization; smart procuratorate; Graph Long Short-Term Memory (Graph LSTM) model
0 引言
司法機(jī)關(guān)通過多年的信息化建設(shè)應(yīng)用已經(jīng)積累了海量的司法文書,如最高檢察院檢察信息公開網(wǎng)2016年一年就發(fā)布起訴書779478份,最高法院的中國裁判文書網(wǎng)已發(fā)布判決書4677萬份(截止2018年6月),為開展司法智能化建設(shè)應(yīng)用(如智慧法院、智慧檢務(wù)[1])提供了數(shù)據(jù)基礎(chǔ)?;诤A康乃痉ㄎ臅M(jìn)行高效的司法文檔分類對(duì)目前的司法智能化應(yīng)用極富價(jià)值,如類案推送、文書檢索、判決預(yù)測(cè)和量刑輔助等。
由于司法文檔本身的復(fù)雜結(jié)構(gòu)司法文檔分類是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[2]。文本自動(dòng)分類在自然語言處理領(lǐng)域是經(jīng)典的問題。常用的傳統(tǒng)文本分類方法有詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[3]、詞袋(Bag Of Words, BOW)模型[4]、向量空間模型(Vector Space Model, VSM)[5]、LDA (Latent Dirichlet Allocation)主題模型[6]等;然而,這些方法往往由于其文本表示通常是高維度高稀疏而導(dǎo)致特征表達(dá)能力很弱,針對(duì)司法文本的分類結(jié)果并不理想。許多研究基于機(jī)器學(xué)習(xí)方法的分類器來分類司法文檔[7-8],如K最近鄰(K-Nearest Neighbors, KNN)、支持向量機(jī)(Support Vector Machine, SVM)[9-10]、最大熵[11]、決策樹[12]等。
面向司法領(lǐng)域的文本分類方法需要考慮特定司法領(lǐng)域文本的復(fù)雜結(jié)構(gòu)和知識(shí)語義以提高司法文本分類的效能[13]。司法文書的文本分類應(yīng)用對(duì)分類準(zhǔn)確率有著極高的要求,且司法領(lǐng)域文本數(shù)量大、文本結(jié)構(gòu)復(fù)雜。馬建剛等[14]結(jié)合司法文檔語義背景知識(shí)提出了一種基于知識(shí)塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類方法,針對(duì)詞轉(zhuǎn)移距離模型在處理短文本時(shí)具有更好效能的特點(diǎn),抽取司法文檔的核心知識(shí)塊摘要,進(jìn)而將針對(duì)司法文檔的分類轉(zhuǎn)換成針對(duì)司法文檔知識(shí)塊摘要的分類,提高了分類的效能;然而,文獻(xiàn)[14]中對(duì)于確定從司法文檔所抽取的知識(shí)塊摘要中哪些屬于對(duì)分類至關(guān)重要的核心知識(shí)塊摘要還需要領(lǐng)域?qū)<胰斯じ深A(yù)和確認(rèn),在一定程度上降低了司法文檔分類的自動(dòng)化程度、增加了相應(yīng)的人工成本開銷。
針對(duì)上述問題,本文提出了一種語義驅(qū)動(dòng)的深度學(xué)習(xí)方法來進(jìn)行司法文本分類。首先,針對(duì)具體司法領(lǐng)域構(gòu)建對(duì)應(yīng)的司法領(lǐng)域知識(shí)本體以清晰表達(dá)文檔級(jí)語義;然后,基于領(lǐng)域本體檢測(cè)司法文檔中是否存在與領(lǐng)域知識(shí)本體中的術(shù)語對(duì)應(yīng)或相似的知識(shí)信息,為每一個(gè)司法文檔生成對(duì)應(yīng)的向量模型;接著,利用圖長(zhǎng)短期記憶(Graph Long Short-Term Memory, Graph LSTM)模型[15]對(duì)司法文書進(jìn)行訓(xùn)練和分類;最后,通過實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。實(shí)驗(yàn)結(jié)果表明,該方法要顯著優(yōu)于常用的長(zhǎng)短期記憶模型、多類別的邏輯回歸模型和支持向量機(jī)方法。本文方法與文獻(xiàn)[14]方法雖然都利用了領(lǐng)域背景知識(shí),但處理方法上有以下不同:1)本文方法利用領(lǐng)域本體生成司法文檔對(duì)應(yīng)的向量表示而不用獲取知識(shí)塊摘要;2)在領(lǐng)域知識(shí)本體構(gòu)建后,本文方法的司法文檔分類后續(xù)過程皆可以自動(dòng)化進(jìn)行,無需領(lǐng)域?qū)<疫M(jìn)一步人工干預(yù);最后,本文方法利用Graph LSTM深度學(xué)習(xí)模型進(jìn)行司法文檔自動(dòng)化分類。
1 司法文書領(lǐng)域知識(shí)模型
一個(gè)司法文書包含大量信息,但文檔中不同部分的信息對(duì)分析司法文檔的價(jià)值是不一樣的。因此,構(gòu)造一個(gè)司法文書領(lǐng)域的知識(shí)模型對(duì)分析司法文書有很大幫助?;诜缸飿?gòu)成理論構(gòu)建司法文書領(lǐng)域知識(shí)模型,模型包含犯罪構(gòu)成的四要件,即:主體、客體、主觀方面、客觀方面??陀^方面又包括危害行為和危害結(jié)果,同時(shí)還包括文書基本信息(如文號(hào))和判決結(jié)果信息。本文以交通肇事罪為例建立了司法文書領(lǐng)域知識(shí)模型(Legal Document Model, LDM),如圖1所示。交通肇事罪的判決書主要包括文檔基本信息、主體、客觀方面、判決結(jié)果等部分。其中文檔基本信息包括判決書文號(hào)、審判機(jī)關(guān)、公訴機(jī)關(guān)、審判員和審判日期等信息。主體和客觀方面這兩個(gè)概念來自刑法中的犯罪構(gòu)成要件。主體指被告人的信息,包括姓名、職業(yè)、年齡、出生日期、是否有前科、是否累犯等信息。交通肇事罪的客觀方面會(huì)涉及機(jī)動(dòng)車輛類型、危害行為和危害結(jié)果等,危害行為包括醉酒駕駛、追逐競(jìng)駛等,危害結(jié)果則包括人員傷亡、財(cái)產(chǎn)損失等。交通肇事罪的判決結(jié)果的主刑包括拘役、有期徒刑等。
2 基于LDM的司法文書自動(dòng)化知識(shí)抽取
自動(dòng)化知識(shí)抽取包括兩部分:一是抽取出客觀方面部分,這部分內(nèi)容主要決定了案件的判決結(jié)果。二是抽取出司法文書中的判決結(jié)果部分,并標(biāo)準(zhǔn)化判決結(jié)果,依此為司法文書分類,獲得可供實(shí)驗(yàn)用的帶標(biāo)簽的數(shù)據(jù)集。對(duì)每一個(gè)司法文書,使用一個(gè)可擴(kuò)展標(biāo)記語言(eXtensible Markup Language, XML)文件來保存抽取得到的知識(shí),XML文件的樹結(jié)構(gòu)取自于LDM的結(jié)構(gòu),并與之完全相同。XML文件中的各元素所存儲(chǔ)的正是一個(gè)司法文書中與LDM的各節(jié)點(diǎn)相關(guān)的信息,如在圖1所示的LDM中,客觀方面分支下存有一個(gè)酒駕節(jié)點(diǎn),若在一個(gè)判決書中檢測(cè)到犯罪嫌疑人存在酒駕行為,那么在與該判決書對(duì)應(yīng)的XML文件中代表酒駕的元素的值將被設(shè)置為1;若未檢測(cè)到,將被設(shè)置為0。
本文采用基于詞語相似度匹配和規(guī)則的方法來抽取客觀方面部分的知識(shí)。需要抽取的知識(shí)由LDM確定,不同罪名對(duì)應(yīng)的LDM不同。從圖1所示的LDM中可以看到,客觀方面中存在兩種需要抽取的知識(shí):一是定性的知識(shí),如酒駕、追逐競(jìng)駛,只有兩種結(jié)果,在XML文件中用0代表沒有,用1代表有;二是定量的知識(shí),如死亡人數(shù)、重傷人數(shù),這種知識(shí)需要提取具體的數(shù)字。對(duì)于定性的知識(shí),首先將判決書分詞,然后使用編輯距離判斷判決書中的各詞與代表待抽取知識(shí)的詞是否相似,若檢測(cè)到存在這樣一個(gè)相似的詞,則將XML文件中該元素的值設(shè)置為1,否則為0。編輯距離是一種計(jì)算詞語相似度的算法,計(jì)算式如下:
例如在抽取酒駕時(shí),如果判決書中存在“喝酒”“酒駕”“醉酒駕駛”等詞語時(shí),那么通過編輯距離就能將這些詞語判定為酒駕的相似詞,就能判定犯罪嫌疑人存在酒駕行為,并在XML文件中將對(duì)應(yīng)元素的值設(shè)置為1,這種做法,也是基于判決書中可能存在的用詞不規(guī)范以及自然語言的多樣性考慮的。對(duì)于定量的知識(shí),則采用基于規(guī)則的方法抽取,如死亡人數(shù),會(huì)利用“死亡*人”這一規(guī)則在判決書中尋找符合的句子,其中“*”代表死亡人數(shù),若能找到,則將“*”的值填入XML文件的元素中;若無法找到,則填入0,代表無人死亡。
同樣的,本文采用基于規(guī)則的方法抽取審判結(jié)果。在司法文檔中,審判結(jié)果具有固定的用語和結(jié)構(gòu),即被告人+姓名+犯+罪名+判處+判決結(jié)果。利用這個(gè)規(guī)則,很容易就能提取出判決結(jié)果。本文所抽取的審判結(jié)果主要是主刑部分,這樣就能得到形如“有期徒刑五年六個(gè)月”的判決結(jié)果部分。這里的“五年六個(gè)月”中的五和六在文檔中是漢字而不是阿拉伯?dāng)?shù)字,審判結(jié)果的標(biāo)準(zhǔn)化指的是將漢字轉(zhuǎn)化為阿拉伯?dāng)?shù)字,同時(shí)將月轉(zhuǎn)換為年,即將“五年六個(gè)月”轉(zhuǎn)化為5.5年。這樣做是為了方便根據(jù)刑期對(duì)司法文檔進(jìn)行分類。
對(duì)于一個(gè)保存了抽取所得知識(shí)的XML文件來說,可以很容易地使用一個(gè)向量來表示整個(gè)XML的重要信息,如XML中含有n個(gè)元素,那么可以用一個(gè)n維的向量來代表這個(gè)XML文件,向量的每一個(gè)分量表示XML文件的一個(gè)元素值。這個(gè)向量可以被認(rèn)為是保存了一個(gè)判決書的關(guān)鍵特征,基于此向量,可以作進(jìn)一步的研究,如分類、聚類等。這種做法簡(jiǎn)單明了,不足的是會(huì)丟失XML的結(jié)構(gòu)信息。
3 基于Graph LSTM的司法文書分類
3.1 LSTM模型
LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的變體,主要用于序列建模,其使用門機(jī)制處理信息,解決了RNN學(xué)習(xí)過程中的梯度消失問題,從而有效地學(xué)習(xí)到長(zhǎng)距離依賴信息。在LSTM網(wǎng)絡(luò)內(nèi)部,存在三種門:輸入門、遺忘門和輸出門。此外,相較于普通RNN模型,LSTM內(nèi)部除了狀態(tài)h之外還有單元狀態(tài)c。LSTM用兩個(gè)門來控制單元狀態(tài)c的內(nèi)容:一個(gè)是遺忘門,它決定了上一時(shí)刻的單元狀態(tài)ct-1有多少保留到當(dāng)前時(shí)刻ct;另一個(gè)是輸入門,它決定了當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入xt有多少保存到單元狀態(tài)ct。LSTM用輸出門來控制單元狀態(tài)ct有多少輸出到LSTM的當(dāng)前的輸出值ht。遺忘門公式為:
3.2 基于Graph LSTM的司法文書表示和分類
3.2.1 Graph LSTM
Graph LSTM是一種使用LSTM對(duì)圖類型的數(shù)據(jù)進(jìn)行編碼的方式,通常來說這里的圖指的是有向無環(huán)圖,對(duì)于無向圖和帶環(huán)的圖,可以通過拆分的方法將其轉(zhuǎn)換為有向無環(huán)圖。在Graph LSTM中,一個(gè)節(jié)點(diǎn)的向量表示是通過其子節(jié)點(diǎn)的向量表示學(xué)習(xí)得來的,具體而言,若一個(gè)節(jié)點(diǎn)q擁有n個(gè)子節(jié)點(diǎn),則將這n個(gè)子節(jié)點(diǎn)視為一個(gè)序列,然后通過LSTM進(jìn)行序列建模,即將n個(gè)子節(jié)點(diǎn)的向量表示輸入到一個(gè)LSTM中,最終LSTM的輸出即為q的向量表示。對(duì)圖中所有節(jié)點(diǎn)做如此遞歸的操作,最終可得到整個(gè)圖的向量表示。除無子節(jié)點(diǎn)的節(jié)點(diǎn)之外,每個(gè)節(jié)點(diǎn)都有一個(gè)與之相對(duì)應(yīng)的LSTM,即不同節(jié)點(diǎn)的LSTM參數(shù)不共享。
3.2.2 司法文書表示和分類
對(duì)一份判決書進(jìn)行基于LDM的自動(dòng)化知識(shí)抽取后可以得到一個(gè)XML文件。以圖1所示的交通肇事罪為例,得到的XML文件包括兩部分:一是客觀方面部分;二是審判結(jié)果部分。其中:客觀方面部分經(jīng)過Graph LSTM處理,得到一個(gè)向量表示,被認(rèn)為是判決書所描述案情的高級(jí)特征;審判結(jié)果部分中主刑的刑期,則被用來當(dāng)作分類的標(biāo)準(zhǔn),即分類結(jié)果。希望本文的模型能對(duì)一個(gè)判決書中的案情,也就是案件的客觀方面部分進(jìn)行分類,得出相應(yīng)的結(jié)果,即刑期。
圖2展示了Graph LSTM對(duì)XML信息處理的部分內(nèi)容,生成的XML文件是樹結(jié)構(gòu),樹是一種簡(jiǎn)單意義上的圖,所以也可使用Graph LSTM對(duì)其處理。圖中空心小圓代表葉子節(jié)點(diǎn),XML中屬于同一個(gè)父節(jié)點(diǎn)的葉子節(jié)點(diǎn)組成了一組序列信息,將這組序列信息輸入到一個(gè)LSTM中,即可得到其父節(jié)點(diǎn)的表示,如圖2中,h人員傷亡代表“人員傷亡”節(jié)點(diǎn)的表示,是由“死亡人數(shù)”“重傷人數(shù)”節(jié)點(diǎn)的信息經(jīng)由一個(gè)LSTM生成的,而“人員傷亡”“財(cái)產(chǎn)損失”等節(jié)點(diǎn)的表示又能生成節(jié)點(diǎn)“危害結(jié)果”的表示,按這種方式即可遞歸地得到客觀方面的表示,即h客觀方面,最后即可通過softmax層完成分類,目標(biāo)函數(shù)是負(fù)對(duì)數(shù)似然函數(shù)。
對(duì)于一個(gè)未經(jīng)審判的案件,給出其情節(jié),也就是判決書的客觀方面部分,訓(xùn)練好的模型可以對(duì)其自動(dòng)分類,即給出其刑期,或者推送類似情節(jié)的已判決案件,以供司法人員參考,具體分類過程如圖3所示。其中多層感知機(jī)(Multi-Layer Perceptron, MLP)是為了增強(qiáng)模型的特征表達(dá)能力。
4 實(shí)驗(yàn)驗(yàn)證與分析
4.1 數(shù)據(jù)集
實(shí)驗(yàn)所用數(shù)據(jù)集為交通肇事罪判決書,來源于中國裁判文書網(wǎng)(http://wenshu.court.gov.cn/),共10000份,使用其中的80%作為訓(xùn)練集,10%作為驗(yàn)證集,10%作為測(cè)試集,數(shù)據(jù)集的劃分是通過隨機(jī)選擇實(shí)現(xiàn)的。如前文所說,根據(jù)判決結(jié)果中主刑的刑期進(jìn)行分類,具體而言,根據(jù)最高人民法院《關(guān)于審理交通肇事刑事案件具體應(yīng)用法律若干問題的解釋》中的規(guī)定將其刑期劃分為4個(gè)區(qū)間,即:0到6個(gè)月,6個(gè)月以上到3年,3年以上到7年,以及7年以上。
4.2 對(duì)比的算法
將本文提出的LDM+Graph LSTM模型與多個(gè)算法進(jìn)行了比較,包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)的算法,傳統(tǒng)方法有多類別邏輯回歸(Multinomial Logistic Regression, MLR)和SVM,深度學(xué)習(xí)方法有普通的LSTM。
4.2.1? 多類別邏輯回歸
多類別的邏輯回歸無法處理圖數(shù)據(jù)結(jié)構(gòu),一種方法是使用一個(gè)n維向量(n-vector)作為特征,該向量來自于經(jīng)知識(shí)提取之后得到的XML文件,具體可見第2章節(jié)所述。在本實(shí)驗(yàn)中,根據(jù)交通肇事罪的LDM,n取30。另一種方法是使用經(jīng)典的TF-IDF方法,對(duì)于一篇判決書,首先去除審判結(jié)果部分,然后將剩余文本的TF-IDF向量作為特征輸入到多類別邏輯回歸中。
4.2.2 SVM
與多類別邏輯回歸相同,基于SVM的方法的輸入也是兩種,即n維向量和TF-IDF向量。
4.2.3 普通LSTM
普通LSTM對(duì)去掉審判結(jié)果之后的剩余文本進(jìn)行序列建模。首先,對(duì)文本進(jìn)行分詞等預(yù)處理,得到一組詞;然后,將所有詞按順序輸入到一個(gè)LSTM中,得到文本的向量表示,繼而通過SoftMax函數(shù)進(jìn)行分類。詞由詞向量表示,詞向量使用的是Word2Vec,在整個(gè)數(shù)據(jù)集上訓(xùn)練得到,維度為200。
4.3 模型參數(shù)和訓(xùn)練
使用JIEBA[16]分詞作為分詞工具,在實(shí)驗(yàn)中,Graph LSTM中各LSTM的隱藏層單元數(shù)設(shè)置為50,并且使用帶動(dòng)量的隨機(jī)梯度下降法優(yōu)化目標(biāo)函數(shù),批處理的大小為64,學(xué)習(xí)率設(shè)為0.01,動(dòng)量大小為0.9。
4.4 結(jié)果分析
實(shí)驗(yàn)中使用準(zhǔn)確率、召回率和F值作為指標(biāo)衡量分類效果,其中,F(xiàn)值為準(zhǔn)確率和召回率的調(diào)和平均值,F(xiàn)值= 準(zhǔn)確率*召回率*2/(準(zhǔn)確率+召回率)。在各數(shù)據(jù)集上不同方法的實(shí)驗(yàn)結(jié)果如表1所示,表中的Graph LSTM代表本文使用的基于LDM和Graph LSTM的模型。實(shí)驗(yàn)結(jié)果表明,相較其他方法,本文的模型在準(zhǔn)確率和召回率上都得到了最好的結(jié)果。
對(duì)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法來說,影響分類效果的因素除了分類方法之外,特征的選擇也是很重要的。從表1中可以看到,對(duì)于多類別的邏輯回歸和SVM這兩種方法,使用經(jīng)過基于LDM的知識(shí)提取得到的n維向量作為特征比使用TF-IDF特征能顯著地提高分類效果,這證明了經(jīng)知識(shí)提取之后的特征能有效地表達(dá)案件情節(jié)。
本文模型的分類效果相較于上述使用了n維向量作為特征的兩種方法也有很大提升,原因是經(jīng)過提取所得的知識(shí)具有特定結(jié)構(gòu),而n維向量丟失了這種結(jié)構(gòu)信息,但Graph LSTM能較好地考慮結(jié)構(gòu)信息,因此其分類效果更好。
本文還通過實(shí)驗(yàn)探索了數(shù)據(jù)集的規(guī)模大小對(duì)Graph LSTM分類效果的影響,并與傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)比,結(jié)果如圖4所示。由圖4可以看出,在樣本數(shù)量較少的情況下,Graph LSTM受限于數(shù)據(jù)集規(guī)模,分類效果不如傳統(tǒng)的機(jī)器學(xué)習(xí)方法;當(dāng)逐漸增大數(shù)據(jù)集規(guī)模后,Graph LSTM的分類效果迅速提升,在數(shù)據(jù)集規(guī)模達(dá)到6000份之后,分類效果不再提升,這也是深度學(xué)習(xí)模型的常見現(xiàn)象。而SVM的分類效果始終變化不大,也就是說,SVM對(duì)數(shù)據(jù)集規(guī)模并不敏感。
5 結(jié)語
本文針對(duì)司法文書的相似性分析、實(shí)現(xiàn)類案推送為司法人員提供智能輔助辦案服務(wù)的應(yīng)用場(chǎng)景,提出了一種語義驅(qū)動(dòng)的司法文檔學(xué)習(xí)分類方法。該方法使用司法領(lǐng)域知識(shí)構(gòu)建了基于領(lǐng)域知識(shí)的模型LDM;基于LDM使用結(jié)合詞語相似度和規(guī)則的自動(dòng)化方法從原始司法文件中提取結(jié)構(gòu)化的知識(shí),并保存到XML文件中;將抽取得到的知識(shí)作為原始文本的高級(jí)語義特征,并使用Graph LSTM進(jìn)行分類,相比傳統(tǒng)分類方法,顯著地提高了分類的效果。
參考文獻(xiàn) (References)
[1] 馬建剛.檢察實(shí)務(wù)中的大數(shù)據(jù)[M].北京:中國檢察出版社,2017:17-23.(MA J G. Procuratorial Big Data [M]. Beijing: China Procurational Press, 2017: 17-23.)
[2] BOELLA G, CARO L D, HUMPHREYS L, et al. Eunomos, a legal document and knowledge management system for the Web to provide relevant, reliable and up-to-date information on the law [J]. Artificial Intelligence and Law, 2016, 24(3): 245-283.
[3] JING L P, HUANG H K, SHI H B. Improved feature selection approach TF-IDF in text mining [C]// Proceedings of the 2003 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2003: 944-946.
[4] GALGANI F, COMPTON P, HOFFMANN A. LEXA: building knowledge bases for automatic legal citation classification [J]. Expert Systems with Applications, 2015, 42(17/18): 6391-6407.
[5] HAMMOUDA K M, KAMEL M S. Phrase-based document similarity based on an index graph model [C]// Proceedings of the 2002 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2002: 203-210.
[6] BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[7] ROITBLAT H L, KERSHAW A, OOT P. Document categorization in legal electronic discovery: computer classification vs. manual review [J]. Journal of the American Society for Information Science and Technology, 2010, 61(1):70-80.
[8] NOORTWIJK K V, NOORTWIJK K C. Automatic document classification in integrated legal content collections [C]// ICAIL 2017: Proceedings of the 16th International Conference on Artificial Intelligence and Law. New York: ACM, 2017: 129-134.查不到
[9] SULEA O, ZAMPIERI M, MALMASI S, et al. Exploring the use of text classification in the legal domain [C]// ASAIL 2017: Proceedings of the Second Workshop on Automated Detection, Extraction and Analysis of Semantic Information in Legal Texts. New York: ACM, 2017: 419-424. https://arxiv.org/pdf/1710.09306.pdf. 查不到
[10] SARIC F, DALBELO BASIC B, MOENS M F, et al. Multi-label classification of croatian legal documents using EuroVoc thesaurus [C]// SPLeT 2014: Proceedings of the 2014 Workshop on Semantic Processing of Legal Texts. Reykjavik: European Language Resources Association, 2014: 716-723.
[11] BAJWA I S, KARIM F, NAEEM M A, et al. A semi supervised approach for catchphrase classification in legal text documents [J]. Journal of Computers, 2017, 12(5): 451-461.
[12] SILVESTRO L D, SPAMPINATO D, TORRISI A. Automatic classification of legal textual documents using C4.5 [EB/OL]. [2018-10-15]. Catania: ITTIG:1-8. http://www.ittig.cnr.it/Ricerca/Testi/Spampinato-Di_Silvestro-Torrisi2009.pdf.
[13] NALLAPATI R, MANNING C D. Legal docket-entry classifica-tion: where machine learning stumbles [C]// EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 438-446.
[14] 馬建剛,張鵬,馬應(yīng)龍.基于知識(shí)塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類[J].計(jì)算機(jī)應(yīng)用,2019,39(5):1293-1298.(MA J G, ZHANG P, MA Y L. Efficient judicial document classification based on knowledge block summarization and word movers distance [J]. Journal of Computer Applications, 2019, 39(5):1293-1298.)
[15] PENG N, POON H, QUIRK C, et al. Cross-sentence n-ary relation extraction with graph LSTMs [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 101-115.
[16] SUN J J. Jieba Chinese word segmentation tool [EB/OL]. [2018-10-15]. https://github.com/fxsjy/jieba.