楊品莉,謝志長(zhǎng)
(四川大學(xué)電子信息學(xué)院,成都610065)
司法領(lǐng)域中,司法文件存在數(shù)據(jù)量大,文件種類繁多,案件涉及面廣等問題,所以實(shí)現(xiàn)司法領(lǐng)域中的信息自動(dòng)化是司法領(lǐng)域發(fā)展的必然趨勢(shì)。司法領(lǐng)域中的信息自動(dòng)化可以減輕司法從業(yè)人員的工作負(fù)擔(dān),有助于提高司法行業(yè)辦事效率,有利于實(shí)現(xiàn)司法領(lǐng)域的信息共享[1]。
近年來(lái),隨著各種自然語(yǔ)言處理技術(shù)的不斷提出,以及司法領(lǐng)域?qū)崿F(xiàn)司法信息自動(dòng)化的迫切需要,越來(lái)越多的自然語(yǔ)言處理技術(shù)應(yīng)用到司法領(lǐng)域中,如實(shí)體識(shí)別、關(guān)系抽取等[2]。在法律案例文本中存在著大量的司法領(lǐng)域?qū)嶓w,如“張三”、“四川省人民法院”、“成都市中級(jí)人民檢察院”等專用名詞,這些司法領(lǐng)域?qū)嶓w的識(shí)別是實(shí)現(xiàn)司法領(lǐng)域信息自動(dòng)化的基礎(chǔ),是后續(xù)實(shí)現(xiàn)司法信息抽取,構(gòu)建司法領(lǐng)域知識(shí)圖譜等技術(shù)的前提。因而,司法領(lǐng)域?qū)嶓w識(shí)別的研究對(duì)司法領(lǐng)域的發(fā)展顯得尤為重要。
目前,命名實(shí)體識(shí)別作為自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)研究,在很多領(lǐng)域都取得了大量的研究成果[3-4]。但是由于中文字符相較于英文字符的特殊性,中文字符存在一詞多義的現(xiàn)象以及中文字符詞與詞的聯(lián)系比較緊密,中文領(lǐng)域?qū)嶓w識(shí)別的研究成果目前相對(duì)比較少[5-6]。由于司法領(lǐng)域的特殊性,具有專用名詞多,訓(xùn)練數(shù)據(jù)難以獲取等特點(diǎn),因此司法領(lǐng)域的實(shí)體識(shí)別研究成果相對(duì)更少。最早的命名實(shí)體方法有以下幾種:①基于詞典和規(guī)則的方法[7],此類實(shí)體識(shí)別方法需要專家手動(dòng)創(chuàng)建規(guī)則模板,利用模式和字符串匹配識(shí)別命名實(shí)體;②基于統(tǒng)計(jì)的中文命名實(shí)體識(shí)別方法,包括條件隨機(jī)場(chǎng)(Con?ditional Random Fields,CRF)[8]、最大熵模型(Maximum Entropy,ME)[9]、隱馬爾可夫模型(Hidden Markov Mode,HMM)[10]、支持向量機(jī)(Support Vector Machine,SVM)[11]等,基于統(tǒng)計(jì)的方法需要從訓(xùn)練語(yǔ)料中統(tǒng)計(jì)分析出特征,并將特征加入到特征向量中。以上兩類方法都對(duì)語(yǔ)料庫(kù)的要求比較高,需要專家手動(dòng)從數(shù)據(jù)集中提取特征,并且兩類方法的可移植性和準(zhǔn)確率也比較差。隨著深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理中的應(yīng)用越來(lái)越廣泛,以及詞的分布式表示[12]的提出,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別技術(shù)也取得了一些成果[13],并逐漸應(yīng)用到各類領(lǐng)域?qū)嶓w識(shí)別中。然而,基于深度學(xué)習(xí)的方法根據(jù)一系列給定的特征獨(dú)立的對(duì)每個(gè)字符進(jìn)行預(yù)測(cè),沒有考慮上文已經(jīng)預(yù)測(cè)的標(biāo)簽,這可能造成預(yù)測(cè)到的標(biāo)簽序列無(wú)效[14],這在一定程度上降低了實(shí)體預(yù)測(cè)結(jié)果的準(zhǔn)確性。
基于此,本文提出了一種基于BiLSTM-CRF[15-17]網(wǎng)絡(luò)模型的司法實(shí)體識(shí)別方法,并采用Adam 優(yōu)化器對(duì)模型進(jìn)行優(yōu)化?;贐iLSTM-CRF 的網(wǎng)絡(luò)模型除了能夠保留基于深度學(xué)習(xí)方法的優(yōu)點(diǎn),將字符作為基本的處理單位,對(duì)每個(gè)字符分配類別標(biāo)記外,還引入了一些約束條件,避免了基于深度學(xué)習(xí)的方法存在的問題,能夠獲得比較高的實(shí)體識(shí)別準(zhǔn)確率。方法的總體流程圖如圖1 所示,首先處理司法案例文本,獲取數(shù)據(jù)集,然后將數(shù)據(jù)集放入BiLSTM-CRF 網(wǎng)絡(luò)模型訓(xùn)練,選取最優(yōu)的優(yōu)化器,并與其他模型比較,實(shí)驗(yàn)結(jié)果表明我們提出的模型在司法領(lǐng)域?qū)嶓w識(shí)別上是有效的。
圖1 本文實(shí)現(xiàn)司法實(shí)體識(shí)別方法總覽
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[18]是一種典型的處理序列化語(yǔ)句的深度學(xué)習(xí)網(wǎng)絡(luò)模型,其在理論上能夠處理任意長(zhǎng)度的序列,學(xué)習(xí)到任意長(zhǎng)度的上下文信息。但經(jīng)實(shí)踐證明,如果序列的長(zhǎng)度過長(zhǎng),會(huì)出現(xiàn)梯度消失問題而無(wú)法繼續(xù)進(jìn)行優(yōu)化。由此可得出RNN 存在長(zhǎng)度依賴問題,并不能獲取任意長(zhǎng)度的上下文特征信息。
針對(duì)這個(gè)問題,長(zhǎng)短期記憶模型(Long Short-Term Memory,LSTM)[19]被提出,LSTM 模型實(shí)際上是RNN 模型的一種改進(jìn)模型。LSTM 模型及LSTM 單元工作流程如圖2 所示,該模型利用門機(jī)制改變傳送到細(xì)胞狀態(tài)的信息來(lái)保持信息傳遞的持久性,從而能夠?qū)W到長(zhǎng)距離上下文特征,有效解決RNN 的長(zhǎng)度依賴問題。
圖2 LSTM單元工作流程
LSTM 模型由三個(gè)用sigmoid 作為激活函數(shù)的門結(jié)構(gòu)及一個(gè)細(xì)胞狀態(tài)組成,三個(gè)門結(jié)構(gòu)分別為輸入門,遺忘門和輸出門。LSTM 一個(gè)單元的工作流程為:
其中當(dāng)前時(shí)刻的輸入為xt;前一時(shí)刻的隱層狀態(tài)為ht-1;當(dāng)前時(shí)刻的隱層狀態(tài)為ht;臨時(shí)細(xì)胞狀態(tài)為;當(dāng)前時(shí)刻細(xì)胞狀態(tài)為Ct;上一刻細(xì)胞狀態(tài)為Ct-1。遺忘門的作用是選擇要遺忘的信息,遺忘門的輸入為ht-1和xt,輸出為遺忘門的值ft。計(jì)算當(dāng)前時(shí)刻細(xì)胞狀態(tài),輸入的值為it,ft,以及Ct-1,輸出為當(dāng)前時(shí)刻細(xì)胞狀態(tài)Ct。計(jì)算輸出門和當(dāng)前時(shí)刻隱層狀態(tài),輸入為ht-1,xt以及Ct,輸出為輸出門的值Ot以及隱層狀態(tài)ht。最終,得到與句子長(zhǎng)度相同的隱層狀態(tài)序列:
但是單向LSTM 模型只能編碼從前到后的信息,不能編碼從后到前的信息。為了獲得更多的信息,BiL?STM[20]被提出,BiLSTM 模型由前向LSTM 模型(提取過去的特征)和后向LSTM 模型(提取未來(lái)的特征)組成,可以得到雙向的語(yǔ)義信息。本文在后續(xù)實(shí)驗(yàn)中采用BiLSTM 模型,對(duì)每個(gè)句子都執(zhí)行前向和后向操作。
為了解決從BiLSTM 模塊中輸出的標(biāo)簽序列可能無(wú)效的問題,我們提出將CRF 模塊連接到BiLSTM 模塊的隱層輸出,對(duì)BiLSTM 模塊輸出的標(biāo)簽序列聯(lián)合解碼,進(jìn)行句子級(jí)的序列標(biāo)注,而不是單獨(dú)解碼每個(gè)標(biāo)簽。
CRF 一般用于計(jì)算整個(gè)序列的聯(lián)合概率。CRF 的參數(shù)化形式定義如下:
圖3 BiLSTM-CRF模型
式中,tk,δl是特征函數(shù),λk,μl為相應(yīng)的權(quán)重,Zx是規(guī)范因子。上式指根據(jù)輸入序列x,得到輸出序列y的條件概率。tk是定義在邊上的特征函數(shù),稱為轉(zhuǎn)移特征,依靠當(dāng)前詞及前一個(gè)詞判斷是否符合該特征,由當(dāng)前位置及前一個(gè)位置決定。δl是定義在節(jié)點(diǎn)上的特征函數(shù),稱為狀態(tài)特征,由當(dāng)前位置決定。tk,δl都由具體位置決定,所以是局部特征函數(shù)。通常,特征函數(shù)的取值為1 或0;當(dāng)條件滿足時(shí)取1,條件不滿足時(shí)取0。因此,CRF 輸出結(jié)果完全由特征函數(shù)tk,δl及權(quán)重λk,μl決定。
CRF 模塊可以通過從訓(xùn)練集學(xué)習(xí)到一些約束,以確保最終預(yù)測(cè)到的實(shí)體標(biāo)簽序列是有效的,從而解決基于神經(jīng)網(wǎng)絡(luò)方法的預(yù)測(cè)標(biāo)簽序列可能無(wú)效的問題。在CRF 模塊的損失函數(shù)中,輸出分?jǐn)?shù)最大的序列為標(biāo)簽預(yù)測(cè)序列,我們假設(shè)給定序列X,設(shè)序列標(biāo)注結(jié)果為y,則定義分?jǐn)?shù)為:
其中,P是BiLSTM 模塊隱層輸出經(jīng)線性操作后得到的初試得分矩陣,A是轉(zhuǎn)換得分矩陣。Ai,j為標(biāo)簽i后面的標(biāo)簽為標(biāo)簽j的概率,Pi,j為詞Wi映射到標(biāo)簽j的概率。對(duì)輸入序列X對(duì)應(yīng)的輸出標(biāo)簽序列y計(jì)算分?jǐn)?shù),最終的預(yù)測(cè)標(biāo)簽序列為得分最高的序列。
本文的BiLSTM-CRF 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,該網(wǎng)絡(luò)結(jié)構(gòu)由BiLSTM 和CRF 兩部分組成。首先,查找輸入文本序列中每個(gè)字符對(duì)應(yīng)的字符向量,將查找得到的字符向量序列作為模型中BiLSTM 模塊的輸入,分別通過該模塊前向LSTM 及后向LSTM 得到字符向量的隱層編碼表示,然后通過CRF 層為每個(gè)字符分配標(biāo)記,計(jì)算初試得分和轉(zhuǎn)換得分兩類分?jǐn)?shù),最終輸出的標(biāo)記序列為總分最高的序列。
本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)自從裁判文書網(wǎng)上下載的1000份裁判文書,主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書,我們將其中600 份裁判文書作為訓(xùn)練集,200 份作為驗(yàn)證集,200 份作為測(cè)試集。首先,將1000 份裁判文書規(guī)范格式,去掉空格,然后在法學(xué)專家的幫助下利用語(yǔ)料標(biāo)注工具YDEEA 將裁判文書標(biāo)記為BIO 字標(biāo)簽形式作為模型的輸入。在本文中,我們定義了5 類實(shí)體類別(姓名,地點(diǎn),司法單位,案卷編號(hào),犯罪類型)以及11 類字標(biāo)簽,如表1所示。
表1 BIO 字標(biāo)簽類別
本文基于NVIDIA 1080TI 顯卡及CUDA 9.0 提供的GPU 運(yùn)算支持實(shí)現(xiàn)了對(duì)BiLSTM-CRF 網(wǎng)絡(luò)模型的訓(xùn)練及測(cè)試。本文設(shè)計(jì)實(shí)現(xiàn)的司法實(shí)體識(shí)別系統(tǒng)基于Python 程序設(shè)計(jì)語(yǔ)言開發(fā),神經(jīng)網(wǎng)絡(luò)模型的開源工具使用的是TensorFlow 框架。
實(shí)驗(yàn)中使用的超參數(shù)設(shè)置如表2 所示。其中,詞向量維度設(shè)置為200,最大序列長(zhǎng)度設(shè)置為300,epoch設(shè)置為300,Batch_size 設(shè)置為16,dropout 設(shè)置為0.5,learning rate 設(shè)置為0.001。
表2 訓(xùn)練BiLSTM-CRF 模型參數(shù)設(shè)置
為了本文的模型進(jìn)行評(píng)估,在本文中采用準(zhǔn)確率(precision),召回率(recall)以及F1 值(F-measure)作為評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)的計(jì)算公式如下所示:
在實(shí)驗(yàn)中,我們采用目前主流的優(yōu)化器自適應(yīng)矩估計(jì)(Adam)優(yōu)化實(shí)驗(yàn)結(jié)果。Adam 具有計(jì)算不同參數(shù)的自適應(yīng)學(xué)習(xí)率的能力,以及低內(nèi)存需求和高計(jì)算效率,適用于較大規(guī)模的數(shù)據(jù)集。為了驗(yàn)證Adam 優(yōu)化器的效果,我們?cè)趯?duì)比實(shí)驗(yàn)中采用GD,RMS prop 優(yōu)化器分別對(duì)模型進(jìn)行優(yōu)化,比較不同優(yōu)化器對(duì)實(shí)驗(yàn)結(jié)果的影響。
門循環(huán)單元(GRU)[21]是LSTM 的變體。GRU 中只有更新門(獲取序列中長(zhǎng)距離依賴關(guān)系)和重置門(獲取序列中短距離依賴關(guān)系)。本文為了體現(xiàn)BiLSTM 在特定司法文本數(shù)據(jù)集上的效果,對(duì)比實(shí)驗(yàn)將BiLSTM 模塊替換為GRU 模塊,對(duì)網(wǎng)絡(luò)重新訓(xùn)練。
在基于BiLSTM-CRF 的網(wǎng)絡(luò)模型上訓(xùn)練數(shù)據(jù)集,準(zhǔn)確率,召回率以及F1 值等幾項(xiàng)評(píng)價(jià)指標(biāo)都取得了比較好的結(jié)果,其中準(zhǔn)確率為0.876,召回率為0.858,F(xiàn)1值為0.855。如表3 所示,使用Adam 優(yōu)化器相較于其他優(yōu)化器取得了更好的實(shí)驗(yàn)結(jié)果,準(zhǔn)確率、召回率及F1 值都明顯高于其他優(yōu)化器。
表3 不同優(yōu)化器在數(shù)據(jù)集下的評(píng)價(jià)指標(biāo)比較
根據(jù)表4,模型中使用BiLSTM 模塊比使用GRU模塊,準(zhǔn)確率提升了0.038,召回率提升了0.06,F(xiàn)1 值提升了0.028。對(duì)比實(shí)驗(yàn)表明在司法文本數(shù)據(jù)集上,采用BiLSTM 來(lái)輸出標(biāo)簽序列可以獲得更好的實(shí)體識(shí)別效果。
表4 不同模型在數(shù)據(jù)集下的評(píng)價(jià)指標(biāo)比較
本文對(duì)減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點(diǎn)、司法單位、案卷編號(hào)、犯罪類型等5 類實(shí)體進(jìn)行識(shí)別。表5 比較了裁判文書中不同實(shí)體類型的識(shí)別效果,結(jié)果顯示案卷編號(hào)的幾項(xiàng)評(píng)價(jià)指標(biāo)比較低,這可能是由于案卷編號(hào)的描述比較復(fù)雜,既有數(shù)字、文字,有的可能還含有括號(hào),比較難找到一種通用的規(guī)則。
表5 不同實(shí)體的評(píng)價(jià)指標(biāo)比較
本文設(shè)計(jì)實(shí)現(xiàn)了基于BiLSTM-CRF 的司法領(lǐng)域?qū)嶓w識(shí)別系統(tǒng),該系統(tǒng)能識(shí)別出減刑案件,假釋案件及暫予監(jiān)外案件的裁判文書中的姓名,司法單位,地點(diǎn),案卷編號(hào),犯罪類型等實(shí)體,在各項(xiàng)評(píng)價(jià)指標(biāo)上都取得了比較好的結(jié)果,為實(shí)現(xiàn)司法信息自動(dòng)化,研究司法事件抽取,構(gòu)建司法領(lǐng)域知識(shí)圖譜打下了基礎(chǔ)。
另外,該系統(tǒng)也存在一些待改進(jìn)的地方,例如可以通過增加語(yǔ)料,實(shí)現(xiàn)更多司法實(shí)體類別例如法條等的識(shí)別。還可以通過細(xì)分實(shí)體類別來(lái)獲得更準(zhǔn)確的實(shí)體識(shí)別結(jié)果。因此下一步計(jì)劃采用通用數(shù)據(jù)集與司法領(lǐng)域數(shù)據(jù)集相結(jié)合的方式擴(kuò)充數(shù)據(jù)集,以期提高實(shí)體識(shí)別效果和識(shí)別更多在司法領(lǐng)域中比較關(guān)鍵的實(shí)體。