劉明潔,梁 毅,艾中良,賈高峰
1.北京工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京100124
2.中國司法大數(shù)據(jù)研究院有限公司,北京100043
法律文書,又稱裁判文書,它記載著人民法院審理案件的過程和結(jié)果[1]。文本自動(dòng)校對(duì),是自然語言處理領(lǐng)域中的一個(gè)重要應(yīng)用,中文文本的自動(dòng)校對(duì)是應(yīng)用自然語言處理技術(shù)檢查文本中的語言書寫錯(cuò)誤[2-3]。
伴隨市場(chǎng)經(jīng)濟(jì)的發(fā)展以及司法體制的完善,法律文書在司法機(jī)關(guān)辦案過程中的重要性越來越凸顯。由于審判任務(wù)繁重等原因,文書的書寫會(huì)出現(xiàn)紕漏,例如當(dāng)事人姓名引用錯(cuò)誤、敘述事實(shí)文字使用錯(cuò)誤、法律條款運(yùn)用錯(cuò)誤等等,這在一定程度上損害了文書的權(quán)威性和公信力。因此,研究面向法律文書的中文文本校對(duì)技術(shù)對(duì)提高文書的質(zhì)量有著深遠(yuǎn)的意義。
法律文書中包含有當(dāng)事人信息,案件信息和裁判結(jié)論等內(nèi)容。每個(gè)部分都有語義的前后關(guān)聯(lián),對(duì)于一篇包含有大量法律專業(yè)術(shù)語和語義的文書,采用通用的文本校對(duì)方法很難發(fā)現(xiàn)其中的錯(cuò)誤,例如,在“……為此請(qǐng)求法院判令被告填平路面,恢復(fù)原狀”一句中,“判令”有“判決”和“施令”的意義,雖然詞語本意無錯(cuò),但在法律文書中不符合語言表達(dá)習(xí)慣,應(yīng)糾正為“判決”。對(duì)法律文書的文本校對(duì),需要結(jié)合語句中所表達(dá)的語義和語用來判別是否出現(xiàn)了字詞的使用錯(cuò)誤并給予提示。使用人工進(jìn)行法律文書校對(duì),不僅耗費(fèi)過多的人力資源成本,還會(huì)由于各類的不可控風(fēng)險(xiǎn)導(dǎo)致漏判與誤判。應(yīng)用計(jì)算機(jī)自動(dòng)文本校對(duì)技術(shù)判別法律文書的書寫錯(cuò)誤,目前的相關(guān)研究還比較少。
計(jì)算機(jī)科學(xué)領(lǐng)域內(nèi)針對(duì)法律文書的自動(dòng)校對(duì)技術(shù)研究比較少。張永安[4]利用定制的語料庫構(gòu)建了一個(gè)二元詞知識(shí)庫,使用N-gram模型對(duì)文書中的篇章結(jié)構(gòu)和法律術(shù)語等進(jìn)行檢測(cè),完成文書的自動(dòng)校對(duì)。徐雅斌[5]使用條件隨機(jī)場(chǎng)模型結(jié)合法律字詞詞綴特征對(duì)法律專業(yè)術(shù)語進(jìn)行識(shí)別和校驗(yàn)。甘雨坤[6]利用第三方插件,使用語法樹識(shí)別工具綜合檢查文書的語法邏輯和業(yè)務(wù)邏輯,以此來構(gòu)建文書糾錯(cuò)系統(tǒng)。王云[7]綜合計(jì)算機(jī)中文文本校對(duì)特點(diǎn)和原理概述了文本校對(duì)的一般方法。上述方法針對(duì)法律術(shù)語進(jìn)行了校對(duì)技術(shù)的研究,但一篇完整的文書中除了法律術(shù)語以外,還存在著大量的日常敘述用語,如何區(qū)分法律術(shù)語和日常敘述語并針對(duì)這些用語分別進(jìn)行自動(dòng)校對(duì)仍然有很多難點(diǎn)需要處理。
本文使用現(xiàn)代漢語語法規(guī)則和法律文書寫作規(guī)范,利用模糊分詞和正則規(guī)則匹配技術(shù),對(duì)照專業(yè)詞庫及自定義詞庫將句子拆分為若干詞或詞組,使用生詞識(shí)別規(guī)則合并單字詞散串為短語,將合成短語轉(zhuǎn)換為對(duì)應(yīng)的漢語拼音并找出與之相匹配的中文短語集合,然后使用詞向量相似度算法進(jìn)行識(shí)別計(jì)算,最后使用LSTM模型檢查和糾正錯(cuò)誤字詞,實(shí)現(xiàn)法律文書的文本自動(dòng)校對(duì)。
法律文書的錯(cuò)誤從表現(xiàn)形式上看主要分為敘事陳述時(shí)的直接錯(cuò)誤和行文書寫時(shí)的隱含錯(cuò)誤。筆者通過對(duì)中國裁判文書網(wǎng)上公開發(fā)布的文書進(jìn)行統(tǒng)計(jì)分析,對(duì)錯(cuò)誤情況概述如下。
本類別錯(cuò)誤主要是在敘事陳述時(shí)發(fā)生錯(cuò)字、漏字、多字等錯(cuò)誤。
(1)錯(cuò)字。錯(cuò)字即為字詞使用錯(cuò)誤,是指文書中的字詞被另外的字詞所替代從而出現(xiàn)錯(cuò)誤。一般替換的字詞具有音形類似的特點(diǎn)。
例1 按照《中華人民共和國民事訴訟法》低二百五十三條之規(guī)定
其中,單字“低”就是單字“第”的音相似錯(cuò)誤,此類錯(cuò)誤會(huì)導(dǎo)致上下文語境理解不合理。
例2 人民法院在審理此類糾紛時(shí),要對(duì)其試題權(quán)利能否對(duì)抗執(zhí)行進(jìn)行判斷
其中,詞匯“試題”是詞匯“實(shí)體”的音似詞錯(cuò)誤,盡管詞匯本身沒有錯(cuò)誤,但放在句子中同樣會(huì)出現(xiàn)搭配不合理的問題。
(2)漏字。漏字即為字詞缺失錯(cuò)誤,是指文書中出現(xiàn)丟字、少詞等情況從而導(dǎo)致句子意思表達(dá)不完整。
例1 被告在一審提交答辯狀期對(duì)管轄權(quán)提出異議
其中,“答辯狀期”后面缺少了“間”字,致使閱讀句子的人需要通過猜測(cè)才能獲知句子所要表達(dá)的真實(shí)意義。
例2 被告在火車上寫下了上述文字內(nèi)容
其中,“被告”后面缺少了“坐”字,出現(xiàn)語義牽連從而致使句子表達(dá)出現(xiàn)了理解錯(cuò)誤。
(3)多字。多字即為字詞書寫重疊,是指在文書撰寫過程中某個(gè)字重復(fù)書寫或突然增加從而導(dǎo)致句子表達(dá)意義出現(xiàn)差異。
例1 詢問上下午間車輛通行記錄
其中,“上下午間”后面增加了“間”字,使得句子表達(dá)的意思發(fā)生了變化。
例2 查看機(jī)構(gòu)的早晚日?qǐng)?bào)告來檢查運(yùn)行狀況
其中,“早晚日?qǐng)?bào)告”中增加了“日”字,使得句子表達(dá)的意思發(fā)生了變化。
本類別錯(cuò)誤主要是在行文書寫時(shí)發(fā)生涉案信息的前后文不統(tǒng)一情形,此類錯(cuò)誤較第一類錯(cuò)誤具有隱含性。包含有當(dāng)事人信息不統(tǒng)一、公訴機(jī)關(guān)與審判機(jī)關(guān)不匹配、法條使用不規(guī)范等。
(1)當(dāng)事人信息前后文不統(tǒng)一。當(dāng)事人信息包含有涉案人的性別、出生日期、民族、住址、文化程度等。上述信息中,姓名的前后不統(tǒng)一最為普遍。例如,某篇文書前文中當(dāng)事人姓名為“李俊為”,而后文中出現(xiàn)由于聯(lián)想輸入等因素而出現(xiàn)名字變化為“李俊偉”的情形,這使得文書的嚴(yán)肅性大打折扣。
(2)公訴機(jī)關(guān)與審判機(jī)關(guān)不匹配。公訴機(jī)關(guān)是代表國家執(zhí)行公訴職能,依法向法院提請(qǐng)追究被告人刑事責(zé)任的機(jī)關(guān),而審判機(jī)關(guān)是依照法律規(guī)定代表國家獨(dú)立行使審判權(quán)的機(jī)關(guān)。兩者之間一般來說是相互匹配的,而一旦出現(xiàn)機(jī)關(guān)地位不匹配的情形,削弱了文書的公正性。
(3)法條使用不規(guī)范。法條是量刑判罰的依據(jù),在法院的判決活動(dòng)中需要避免由于法律法規(guī)的更新和思維慣性從而導(dǎo)致的引用錯(cuò)誤。對(duì)案件的法條引用出現(xiàn)疏漏會(huì)削減文書的權(quán)威性。例如,某篇文書中涉及一般民事賠償?shù)募m紛,而在判決中卻引用了刑事賠償?shù)姆l,致使判罰力度加大,無端造成涉案人員的額外損失。
通過對(duì)法律文書中的常見書寫錯(cuò)誤進(jìn)行分析,可以看出,對(duì)敘事陳述錯(cuò)誤,其錯(cuò)誤形式較為明顯,可以通過對(duì)文書中的語句拆分找出異常單字,繼而通過單字合并、詞向量距離計(jì)算等技術(shù)識(shí)別錯(cuò)誤字詞。而行文書寫時(shí)的隱含錯(cuò)誤,由于其錯(cuò)誤形式更加隱蔽,通常需要嚴(yán)格的上下文語義判斷,同時(shí)一些疑似字詞的最終確定同樣需要上下文語意的判斷,這都需要引入更強(qiáng)有力的檢查方法。
基于上述分析,本文設(shè)計(jì)的文書錯(cuò)字自動(dòng)識(shí)別校對(duì)流程如圖1所示。對(duì)于一篇法律文書,首先應(yīng)利用文本挖掘技術(shù)將文書信息結(jié)構(gòu)化,提取出涉案人員、審判過程、量刑結(jié)果等關(guān)鍵數(shù)據(jù)。在本文中設(shè)計(jì)使用正則規(guī)則匹配技術(shù)對(duì)文書進(jìn)行解析。然后,基于中文分詞等技術(shù)對(duì)結(jié)構(gòu)化的文書進(jìn)行處理,并使用詞向量距離計(jì)算找出異常詞語。最后,結(jié)合異常詞語所在句子的上下文語義環(huán)境,使用深度學(xué)習(xí)算法,如神經(jīng)網(wǎng)絡(luò)等計(jì)算異常詞語存在的概率以及確定接近正確語義的備選詞語集合。
圖1 文書錯(cuò)字識(shí)別校對(duì)流程圖
單字詞散串合并是糾正錯(cuò)別字詞的第一步,它是由對(duì)法律文書進(jìn)行分詞后,將未識(shí)別單字生詞組合生成的。如果文書中包含有錯(cuò)字錯(cuò)詞,則該錯(cuò)字或錯(cuò)詞會(huì)被分成單字,即可對(duì)單字詞合并成字串并構(gòu)造詞向量進(jìn)行后續(xù)的近似度計(jì)算。漢語分詞是語法、語義分析的基礎(chǔ),一個(gè)分詞質(zhì)量高的算法對(duì)文本校對(duì)的結(jié)果有著重要的作用[8-9]。本文中使用了基于標(biāo)注的中文分詞方法,把對(duì)整篇文書的分詞過程看成是字詞在字串中的標(biāo)注問題。
標(biāo)注過程,即依據(jù)預(yù)定義特征進(jìn)行詞位特征的學(xué)習(xí)并形成一個(gè)概率模型。對(duì)待標(biāo)注字串進(jìn)行標(biāo)注時(shí),應(yīng)依據(jù)字與字之間的緊密程度得到標(biāo)注結(jié)果。標(biāo)注過程使用了分詞表,在分詞表中注明了各類詞匯以及詞性,即預(yù)定義特征。
常用的分詞表缺乏領(lǐng)域?qū)I(yè)詞匯,本文根據(jù)法律文書的行文特點(diǎn),按照不同的文書類別和審理程序抽取法律專業(yè)詞匯和短語形成專業(yè)詞匯表,擴(kuò)充至常規(guī)分詞表中對(duì)文書進(jìn)行分詞標(biāo)注。同時(shí),在構(gòu)建專業(yè)領(lǐng)域分詞表時(shí),本文進(jìn)行了優(yōu)化,將所有法律專業(yè)詞匯重新定義了詞性標(biāo)注。同時(shí),將一些常用字詞合并成短語形成的自定義詞語也新定義了詞性標(biāo)注。新詞庫詞性標(biāo)注類別如表1所示。
表1 新建詞庫詞性標(biāo)注
句子分詞標(biāo)注完成后,本文中將正確的分詞使用特殊符號(hào)進(jìn)行了標(biāo)記,保留無法識(shí)別的單字詞并通過以下規(guī)則進(jìn)行單字詞的散串合并[2]:
(1)相鄰兩個(gè)串中,兩個(gè)串均是單字且兩個(gè)單字成詞的概率小于閾值,則進(jìn)行合并。
(2)相鄰兩個(gè)串中,第一個(gè)串為單字,第二個(gè)串為多字,則進(jìn)行合并。
(3)相鄰兩個(gè)串中,第一個(gè)串為多字,第二個(gè)串為單字,則進(jìn)行合并。
詞向量間的距離,其結(jié)果標(biāo)識(shí)了兩個(gè)文本之間的相似程度。直觀來看,兩個(gè)文本之間相同的部分越多,相似度越高?;镜脑~向量相似距離計(jì)算由于詞向量生成維度過高從而增加了相似距離計(jì)算時(shí)的資源消耗。同時(shí),傳統(tǒng)的計(jì)算方法對(duì)字詞順序敏感,因此會(huì)出現(xiàn)同一字詞替換不同位置的單字而相似距離計(jì)算有很大差異的現(xiàn)象[10-12]。
獲得單字詞散串后,還需有與之相比較的短字詞文本才能進(jìn)行計(jì)算。本文中,獲取比對(duì)短字詞文本集的方式首先是將單字詞散串轉(zhuǎn)換成漢語拼音,然后在搜索此漢語拼音所對(duì)應(yīng)的短字詞文本,形成比對(duì)集合。計(jì)算相似度時(shí),本文定義待計(jì)算短字詞文本組成的單字集合為s,即
則兩個(gè)短字詞文本之間的相似度計(jì)算公式為:
相似度取值范圍在0 和1 之間,且只有當(dāng)兩個(gè)短字詞文本完全相等時(shí)取值為1。
詞向量距離計(jì)算解決的是對(duì)于兩個(gè)短語或句子之間的相似程度。在獲得了相似度符合閾值的字詞短語后,還要對(duì)單字散串所在句子的上下文語境關(guān)系進(jìn)行識(shí)別,以便確認(rèn)疑似錯(cuò)誤字詞是否存在和備選字詞是什么。
在結(jié)合上下文語境確認(rèn)疑似錯(cuò)誤字詞時(shí),本文使用了LSTM 模型并進(jìn)行了針對(duì)法律文本的改進(jìn)訓(xùn)練。LSTM模型于1997年由Seep和Jurgen提出,模型通過設(shè)置輸入門、輸出門、遺忘門等解決了出現(xiàn)在循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失現(xiàn)象[13-14]。其模型示意如圖2所示[15]。
圖2 LSTM模型圖示
本方案使用LSTM模型進(jìn)行疑似字詞判斷,模型的輸入即為疑似字詞所在短句,且每一時(shí)刻輸入句子中的一個(gè)單字短語。在模型運(yùn)算時(shí),先將短句文本轉(zhuǎn)換為詞向量Xi作為模型的輸入數(shù)據(jù)。而遺忘門讀取hi-1和Xi并輸出一個(gè)0 到1 之間的數(shù)值來表示舍棄信息的權(quán)重,計(jì)算公式為:
同時(shí),模型通過輸入數(shù)據(jù)計(jì)算狀態(tài)數(shù)值,利用遺忘門數(shù)值來決定每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)狀態(tài)的變更,即
式中,C為狀態(tài)值。最后,輸出門聯(lián)合狀態(tài)值以及輸入序列得到輸出值:
通過模型計(jì)算后輸出結(jié)果即為標(biāo)注結(jié)果,如果是正確字詞,則輸出原有字詞;如果是錯(cuò)誤字詞,則使用標(biāo)注符號(hào)ERRDIC進(jìn)行標(biāo)記輸出,即為hi。模型使用softmax交叉熵?fù)p失函數(shù),通過不同時(shí)刻的逐字詞輸入,結(jié)合語義計(jì)算詞語是否正確的概率并將最終概率最大的標(biāo)注進(jìn)行標(biāo)記,以此來標(biāo)識(shí)輸入句子中的字詞是否為疑似字詞。
根據(jù)上述設(shè)計(jì),實(shí)現(xiàn)邏輯見下述偽代碼所述。
算法1 面向法律文書的文本校對(duì)算法
輸入:法律文書
輸出:錯(cuò)字錯(cuò)詞組
1. 使用正則匹配規(guī)則對(duì)文書按照書寫規(guī)范分為標(biāo)題、首部、正文、尾部四個(gè)部分,形成段落數(shù)組X
2. for each s in X do
3. 利用詞庫對(duì)s進(jìn)行分詞
4. 將分詞正確的詞語進(jìn)行標(biāo)記
5.使用散串合并規(guī)則將單字合并
6. 對(duì)合并形成的散串轉(zhuǎn)換漢語拼音
7. 使用轉(zhuǎn)換后的漢語拼音搜索相對(duì)應(yīng)的短語字詞形成集合
8. 將第7步搜索出的字詞集分別與第5步中形成的散串計(jì)算相似度
9. 對(duì)相似度數(shù)值進(jìn)行分析,如果沒有相似度為1的情形,則進(jìn)入下一步進(jìn)行糾錯(cuò)處理;如果有相似度為1的情形,則判定為正確字詞,結(jié)束算法
10. 使用LSTM模型結(jié)合語義找出短語字詞集合中與單字詞散串匹配度最優(yōu)的字詞,將之判定為糾錯(cuò)詞
11. 將確認(rèn)錯(cuò)字錯(cuò)詞與糾正詞輸入返回列表
12. End For
本文使用中國裁判文書網(wǎng)上公開發(fā)布的法律文書數(shù)據(jù)構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,該網(wǎng)站公布各級(jí)法院判決生效的裁判文書,具有實(shí)時(shí)性。實(shí)驗(yàn)數(shù)據(jù)選取了某省2019 年發(fā)布的各類具有代表性判決書、裁定書、決定書共2 000篇。通過預(yù)先人工篩查的方式找出文書中的錯(cuò)字錯(cuò)詞,統(tǒng)計(jì)出實(shí)驗(yàn)數(shù)據(jù)中錯(cuò)字錯(cuò)詞占比及文書分布情況。
實(shí)驗(yàn)評(píng)測(cè)以召回率、準(zhǔn)確率和F-Score 作為評(píng)價(jià)標(biāo)準(zhǔn)。召回率本意是指應(yīng)被正確分類的樣本數(shù)占某分類總樣本數(shù)量的百分比,準(zhǔn)確率是指被分類器正確分類的樣本數(shù)量占分類器總分類樣本數(shù)量的百分比,F(xiàn)-Score是平衡召回率和準(zhǔn)確率而引入的指標(biāo)數(shù)值,是召回率和準(zhǔn)確率的調(diào)和平均。本評(píng)測(cè)實(shí)驗(yàn)中主要是獲取文書中的錯(cuò)字錯(cuò)詞,因此指標(biāo)定義如下:
使用本文提出的方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),得到召回率81%,準(zhǔn)確率80%,F(xiàn)-Score為81.03%。實(shí)驗(yàn)數(shù)據(jù)如表2和表3所示。
表2 實(shí)驗(yàn)數(shù)據(jù)
表3 實(shí)驗(yàn)結(jié)果 %
表3中,準(zhǔn)確率、召回率以及F值均由表2中相對(duì)應(yīng)的數(shù)據(jù)依公式計(jì)算得出。觀察表2的數(shù)據(jù),三類文書中識(shí)別出錯(cuò)字錯(cuò)詞的準(zhǔn)確率均大于召回率,這說明本文中所述方法并沒有把所有可識(shí)別的錯(cuò)字錯(cuò)詞正確識(shí)別。同時(shí),判決書類型的錯(cuò)字錯(cuò)詞糾錯(cuò)準(zhǔn)確率和召回率均是三種文書類型中最低的。探究其中的原因,主要是有以下幾方面:
(1)判決書類型在文書中的數(shù)量眾多,除了法律術(shù)語外,文書內(nèi)的日常性敘述語言眾多,對(duì)日常用語的經(jīng)驗(yàn)性常識(shí)和書寫規(guī)則仍然需要收集。
(2)文書書寫有標(biāo)準(zhǔn),但由于錯(cuò)誤眾多且分散,又由于錯(cuò)誤字詞所在句子是因語義或語用造成的錯(cuò)誤,這仍然需要收集大量語料進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練。
本文對(duì)法律文書出現(xiàn)的書寫錯(cuò)誤進(jìn)行了分析和總結(jié),提出了一種規(guī)則匹配和概率統(tǒng)計(jì)相結(jié)合的文本糾錯(cuò)校對(duì)方法,實(shí)驗(yàn)結(jié)果顯示,該方法有效地解決了對(duì)法律文書中書寫錯(cuò)誤的糾錯(cuò)識(shí)別。實(shí)際應(yīng)用中給法律文書的質(zhì)量提升拓展了上升空間,同時(shí),此方法也積累了一系列的法律專業(yè)術(shù)語和文書日常用語。實(shí)驗(yàn)結(jié)果表明該方法有效。本文的后續(xù)工作將進(jìn)一步搜集語料,豐富專業(yè)詞庫。完善模型訓(xùn)練數(shù)據(jù),提高識(shí)別準(zhǔn)確率。