費(fèi)志偉,艾中良,張 可,曹 禹
1(華北計(jì)算技術(shù)研究所,北京 100083)
2(中國(guó)司法大數(shù)據(jù)研究院,北京 100043)
近年來(lái),人工智能技術(shù)取得了長(zhǎng)足的進(jìn)步,并深入到生活的方方面面,在司法領(lǐng)域也是如此.2018年,司法部印發(fā)《“十三五”全國(guó)司法行政信息化發(fā)展規(guī)劃》,明確提出我國(guó)到2020年全面建成智能高效的司法行政信息化體系3.0 版.在頂層政策大力推動(dòng)下,全國(guó)各級(jí)法院參與研制了多種司法智能裁判輔助系統(tǒng)和裝備,例如,北京市高級(jí)人民法院的“睿法官”智能研判系統(tǒng)、上海市法院的“上海刑事案件智能輔助辦案系統(tǒng)”、杭州互聯(lián)網(wǎng)法院的“智能立案”系統(tǒng)、浙江省高級(jí)人民法院的小AI 做庭審筆錄等.
本文認(rèn)為現(xiàn)有的司法領(lǐng)域中的人工智能系統(tǒng)可分為兩種:
(1)利用人工智能技術(shù)建立的信息化系統(tǒng).此類系統(tǒng)主要通過(guò)目前成熟的人工智能技術(shù)將案卷文書,庭審信息等材料信息化,錄入到系統(tǒng)中.如通過(guò)OCR 技術(shù),識(shí)別審問(wèn)訊問(wèn)筆錄錄入系統(tǒng).通過(guò)語(yǔ)音識(shí)別技術(shù)將庭審過(guò)程中庭審語(yǔ)音轉(zhuǎn)換成文字記錄下來(lái),輔助記錄員記錄信息[1]等.這種系統(tǒng)不涉及審理過(guò)程,不需要結(jié)合法律相關(guān)知識(shí).直接利用現(xiàn)有成熟的人工智能技術(shù),在這些任務(wù)上效果也很好.
(2)結(jié)合人工智能技術(shù)輔助法官審理的智能審判系統(tǒng).此類系統(tǒng)面向司法領(lǐng)域中的任務(wù),設(shè)計(jì)相關(guān)算法,來(lái)輔助法官審理案件,如量刑系統(tǒng),通過(guò)人工智能算法根據(jù)案件事實(shí)得出量刑結(jié)果.這類系統(tǒng)需要面向司法領(lǐng)域的需求,結(jié)合法律知識(shí)和計(jì)算機(jī)知識(shí)設(shè)計(jì)相應(yīng)算法,并設(shè)計(jì)相應(yīng)的交互流程,以法官判案邏輯為主導(dǎo),結(jié)合審理流程,來(lái)實(shí)現(xiàn)智能化判案的效果.
目前利用人工智能技術(shù)建立司法信息化系統(tǒng)已經(jīng)取得了很好的效果,上述的庭審語(yǔ)音輔助系統(tǒng)切實(shí)的減少了記錄員的工作量,讓法院庭審過(guò)程更加高效.但在智能化輔助審理上效果不理想,如類案推薦系統(tǒng)一些法官表示無(wú)法提供精準(zhǔn)類案,類案沒(méi)有起到真正的參考價(jià)值.在江蘇智慧審判系統(tǒng)的應(yīng)用情況來(lái)看,部分法官甚至表示未使用該系統(tǒng)[2].本文認(rèn)為目前智能化輔助審理系統(tǒng)主要面臨著以下挑戰(zhàn):
計(jì)算機(jī)系統(tǒng)設(shè)計(jì)與司法領(lǐng)域知識(shí)結(jié)合不足.現(xiàn)有的輔助審判算法在設(shè)計(jì)時(shí)未考慮司法判案過(guò)程,未結(jié)合司法審判知識(shí).如2018年“法研杯”量刑預(yù)測(cè)任務(wù)中,在算法設(shè)計(jì)時(shí)使用自然語(yǔ)言處理相關(guān)技術(shù)基于案件事實(shí)直接得到罪名以及判刑刑期結(jié)果,與法院通常的審理流程不符,及不具備法理上的解釋性,在刑期任務(wù)中結(jié)果仍有很大的提升空間[3].
面對(duì)上述問(wèn)題,本文認(rèn)為在實(shí)際量刑人工智能系統(tǒng)的構(gòu)建中需要引入量刑理論,依據(jù)司法判案中審理流程來(lái)構(gòu)建相應(yīng)算法.在我國(guó),刑事案件判案過(guò)程中通常根據(jù)犯罪構(gòu)成理論,目前主流的犯罪構(gòu)成理論為四要件理論與三階層理論,在實(shí)際司法審判中四要件理論使用更為廣泛.犯罪構(gòu)成是指依照我國(guó)刑法規(guī)定,決定某一行為的社會(huì)危害性及其程度而為該行為構(gòu)成犯罪所必須的一切客觀和主觀要件的有機(jī)統(tǒng)一[4],依據(jù)四要件理論,主要包括犯罪客體、犯罪客觀方面、犯罪主體和犯罪主觀這4 方面.我國(guó)犯罪四要件理論起源于蘇聯(lián),司法實(shí)踐至今仍在沿用這一理論.在構(gòu)建智能審判系統(tǒng)時(shí)應(yīng)延續(xù)司法中四要件理論,將四要件識(shí)別引入系統(tǒng)設(shè)計(jì)中,在構(gòu)成要件的基礎(chǔ)上進(jìn)一步來(lái)做刑期預(yù)測(cè)、類案推送等任務(wù),為法官提供司法上的解釋,來(lái)進(jìn)一步輔助法官量刑.
本文主要貢獻(xiàn)如下:
(1)梳理了盜竊罪構(gòu)成要件標(biāo)簽體系,分析了構(gòu)成要件識(shí)別的難點(diǎn)和挑戰(zhàn),并詳細(xì)分析了識(shí)別構(gòu)成要件所需的前置條件和內(nèi)容.
(2)設(shè)計(jì)了構(gòu)成要件識(shí)別模型,利用機(jī)器學(xué)習(xí)技術(shù)來(lái)識(shí)別構(gòu)成要件,包括數(shù)據(jù)集的構(gòu)建和構(gòu)成要件模型的設(shè)計(jì).
(3)對(duì)比了常見的方法與本文設(shè)計(jì)的方法,在本文構(gòu)建的數(shù)據(jù)集上,對(duì)現(xiàn)有方法做了充分的測(cè)試.
本文設(shè)計(jì)的構(gòu)成要件識(shí)別任務(wù)符合當(dāng)下司法審理流程,在構(gòu)成要件的基礎(chǔ)上進(jìn)一步來(lái)做刑期預(yù)測(cè)、類案推送等任務(wù)能提高現(xiàn)有方法的可解釋性,能更加有效的輔助法官審理案件.
案件構(gòu)成要件識(shí)別根據(jù)構(gòu)成要件理論,從案件事實(shí)中識(shí)別出構(gòu)成要件.目前在構(gòu)成要件識(shí)別中的工作較少,與之有一定關(guān)聯(lián)的是案情關(guān)鍵要素識(shí)別,在計(jì)算機(jī)任務(wù)上可以看做文本分類任務(wù).在案件要素識(shí)別方面主要有CAIL2019 法研杯提出的案情要素識(shí)別任務(wù),該任務(wù)在案情描述中重要事實(shí)描述基礎(chǔ)上,識(shí)別案情要素.基于速裁案件要素式審判的理論,法律專家梳理了婚姻家庭、勞動(dòng)爭(zhēng)議和借款合同3 個(gè)領(lǐng)域的案情要素體系.該數(shù)據(jù)集包含民事案件內(nèi)容,不包括刑事案件內(nèi)容.王得賢[5]提出基于層次注意力的模型在該數(shù)據(jù)集上進(jìn)行測(cè)試.劉海順等人[6]提出編碼器解碼器結(jié)構(gòu),利用BERT 對(duì)文本內(nèi)容進(jìn)行編碼,提出BERT 模型后三層參數(shù)融合策略,然后使用LSTM 作為解碼器得到最終的預(yù)測(cè)結(jié)果.其他工作在可解釋性上,也使用了案情要素這一概念,Devlin 等人[7]構(gòu)建了一個(gè)可解釋的智能量刑模型,該模型一定程度上能解釋模型如何確定其最終輸出.但機(jī)器關(guān)注的關(guān)鍵部分與司法審理中關(guān)注的焦點(diǎn)并不相同,現(xiàn)有的通過(guò)注意力機(jī)制等方法提取出的案件要素并不具備司法上的解釋性.鐘皓曦等[8]基于強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí),提出通過(guò)問(wèn)答的方式,獲取案件事實(shí)中的影響定罪的元素,并通過(guò)這些元素來(lái)確定最終量刑并提供一定的解釋性.但是該文并未詳細(xì)闡述如何篩選案件要素,在單個(gè)罪名下的案件要素量少,該文選出的案件要素在司法上的支撐薄弱,在實(shí)際審理中的參考價(jià)值模糊.在實(shí)際司法中需要考慮更多的信息,按照本文所述的構(gòu)成要件來(lái)進(jìn)行審理.
案件構(gòu)成要件識(shí)別的難點(diǎn)在于不同的案件構(gòu)成要素不同,在梳理時(shí)需要法律人士參與,需要針對(duì)每個(gè)罪名梳理對(duì)應(yīng)的構(gòu)成要件體系.其次是利用大數(shù)據(jù)技術(shù)或深度學(xué)習(xí)技術(shù)依賴大規(guī)模標(biāo)注數(shù)據(jù)集,如何利用現(xiàn)有的公開信息,構(gòu)建一個(gè)構(gòu)成要件數(shù)據(jù)集,減少人工標(biāo)注工作量也是案件構(gòu)成要件識(shí)別面臨的挑戰(zhàn).
根據(jù)刑法第二百六十四條,盜竊罪是指以非法占有為目的,盜竊公私財(cái)物數(shù)額較大或者多次盜竊、入戶盜竊、攜帶兇器盜竊、扒竊公私財(cái)物的行為.審理一起盜竊案件時(shí),根據(jù)犯罪構(gòu)成中四要件理論,要判斷一起案件的主體要件、主觀要件、客體要件和客觀要件這4 個(gè)構(gòu)成要件是否存在.主體要件刻畫了行為人是否具有刑事責(zé)任能力,主觀要件分析了行為人對(duì)自己實(shí)施的危害社會(huì)的行為及其結(jié)果所持的心理態(tài)度,客體要件描述犯罪侵犯的法益,客觀要件描述了犯罪行為事實(shí).
本文詳細(xì)梳理了盜竊罪的構(gòu)成要件部分,并闡述了構(gòu)成要件與法院認(rèn)定事實(shí)之間的關(guān)系.在盜竊罪主體要件中主要從主體行為人是否具有刑事責(zé)任能力,是否為未成年人,是否有犯罪前科和是否為中國(guó)居民這些方面來(lái)判斷.
主觀要件可從5 點(diǎn)進(jìn)行考察,故意、非法占有為目的、牟利為目的、對(duì)特殊情節(jié)的明知和轉(zhuǎn)化為其他罪名.故意主要從犯罪嫌疑人有主動(dòng)參與作案的動(dòng)機(jī)、犯罪過(guò)程中有無(wú)策劃、是否事先通謀、事后銷贓的行為人,通謀的內(nèi)容包括盜竊行為和有無(wú)共犯這4 個(gè)方面進(jìn)行識(shí)別.非法占有為目的從對(duì)他人財(cái)物的明知和對(duì)盜竊后果的明知兩點(diǎn)進(jìn)行識(shí)別.牟利為目的,主要從盜竊他人通信線路、復(fù)制他人電信碼或者明知是盜竊、復(fù)制的電信設(shè)備、設(shè)施使用來(lái)判斷.對(duì)特殊情節(jié)的明知,可依常識(shí)推論犯罪嫌疑人是否知道被害人是殘疾人、孤寡老人或者喪失勞動(dòng)能力的人、被盜財(cái)物是否為珍貴文物,或者救災(zāi)、搶險(xiǎn)、防汛、優(yōu)撫、扶貧、移民、救濟(jì)款物,盜竊地點(diǎn)是自然災(zāi)害、事故災(zāi)害、社會(huì)安全事件等突發(fā)事件期間的事件發(fā)生地.轉(zhuǎn)化為其他罪名從犯罪嫌疑人對(duì)行為對(duì)象的性質(zhì)、功能等特征是否存在明確的認(rèn)知來(lái)判斷是否構(gòu)成特別罪名.
客體要件從他人占有的財(cái)物和價(jià)值來(lái)考察,他人占有的財(cái)物主要從實(shí)踐中的表現(xiàn)和學(xué)理解釋來(lái)認(rèn)定,如被害人對(duì)所盜財(cái)物擁有合法權(quán)利.學(xué)理解釋根據(jù)法學(xué)理論判斷客體的一些屬性如是否為遺忘物,基于委托關(guān)系的占有等.價(jià)值在確定刑事處罰時(shí)有重要意義,根據(jù)被盜物品價(jià)值確定案件的基準(zhǔn)刑以及在相應(yīng)的量刑格中確定增減刑.
客觀要件從客觀行為事實(shí)來(lái)對(duì)案件進(jìn)行考量,不同的客觀行為事實(shí)會(huì)影響盜竊罪的認(rèn)定.在盜竊罪的客觀行為事實(shí)中需要考慮時(shí)間、地點(diǎn)、犯罪參與人、動(dòng)機(jī)、手段、方法、被害人、行為對(duì)象、情節(jié)和后果這些方面.
法官依據(jù)證據(jù)以構(gòu)成要件為指導(dǎo)歸納、認(rèn)定案件事實(shí),在司法證據(jù)中識(shí)別案件構(gòu)成要件,并最終歸納總結(jié)出案件事實(shí),最終認(rèn)定的案件事實(shí)包含這起案件所涉及的全部構(gòu)成要件.盜竊罪構(gòu)成要件標(biāo)簽體系如表1中所示.
表1 盜竊罪構(gòu)成要件標(biāo)簽體系
本文選取了客觀要件作為識(shí)別對(duì)象,進(jìn)一步分析客觀行為事實(shí),篩選識(shí)別的要件內(nèi)容.在案件審理中,法官以客觀要件中的客觀行為事實(shí)來(lái)判定罪名以及量刑.在上述客觀行為事實(shí)中主要考察時(shí)間、地點(diǎn),犯罪參與人、動(dòng)機(jī)、手段方法、被害人、行為對(duì)象、情節(jié)和后果這些內(nèi)容,其中手段方法在審理中對(duì)案件的罪名有關(guān)鍵的作用,是判斷一起案件是否構(gòu)成盜竊罪,區(qū)別此罪與比罪的核心.
審理過(guò)程中犯罪情節(jié)和后果對(duì)最終處罰的基準(zhǔn)刑有著關(guān)鍵作用.參考《最高人民法院量刑規(guī)范化的指導(dǎo)意見》第三節(jié)盜竊罪相關(guān)量刑基準(zhǔn)中涉及到的情節(jié),本文認(rèn)為在情節(jié)和后果中可將盜竊情節(jié)分為一般盜竊行為、量刑從輕、減輕的情節(jié)和從重處罰情節(jié)這3 種方面.一般盜竊行為中根據(jù)盜竊數(shù)額來(lái)判斷對(duì)該案件處以多重的刑罰.如設(shè)立盜竊財(cái)物金額標(biāo)準(zhǔn),劃分?jǐn)?shù)額較大,數(shù)額巨大和數(shù)額特別巨大這幾檔來(lái)確定基準(zhǔn)刑.對(duì)被盜物品和時(shí)間以及行為人和后果進(jìn)行劃分,可設(shè)立量刑從輕、減輕情節(jié),如盜竊近親屬財(cái)物,初犯、偶犯,未成年人犯罪等.對(duì)盜竊行為進(jìn)行劃分可確定從重處罰情節(jié),如多次盜竊,入戶盜竊,教唆未成年人盜竊等.
本文提出的構(gòu)成要件識(shí)別任務(wù)根據(jù)法院認(rèn)定的犯罪事實(shí)來(lái)識(shí)別包含的構(gòu)成要件.在形式上通過(guò)給系統(tǒng)輸入案件的事實(shí)描述部分,得到該事實(shí)中包含的構(gòu)成要件標(biāo)簽.給定法官認(rèn)定的事實(shí)句子序列X={x1,x2,x3,···,xm},預(yù)測(cè)與X對(duì)應(yīng)的構(gòu)成要件標(biāo)簽集合其中m是序列X的長(zhǎng)度,xi表示序列中的第i個(gè)詞.Y={y1,y2,y3,···,yn}為構(gòu)成要件標(biāo)簽集合.n為構(gòu)成要件類別總數(shù),一個(gè)案件事實(shí)至少對(duì)應(yīng)一個(gè)構(gòu)成要件標(biāo)簽,可能對(duì)應(yīng)多個(gè)構(gòu)成要件標(biāo)簽,所以是Y的子集.
在構(gòu)建數(shù)據(jù)集時(shí),本文充分利用公開信息,在上述分析基礎(chǔ)上,首先確定構(gòu)成要件標(biāo)簽,之后在裁判文書網(wǎng)上篩選相應(yīng)的數(shù)據(jù)作為本文的訓(xùn)練和測(cè)試數(shù)據(jù).主要方法如下:
(1)本文在盜竊罪客觀構(gòu)成要件客觀行為事實(shí)中情節(jié)和后果的基礎(chǔ)上,依據(jù)無(wú)需金額標(biāo)準(zhǔn)的情形構(gòu)建數(shù)據(jù)集,無(wú)需金額標(biāo)準(zhǔn)的情形主要包含四類,依據(jù)《最高人民法院、最高人民檢察院關(guān)于辦理盜竊刑事案件適用法律若干問(wèn)題的解釋》第三條,分別是多次盜竊,入戶盜竊、攜帶兇器盜竊和扒竊.選取入戶盜竊、攜帶兇器盜竊、多次盜竊和扒竊作為本文分析的盜竊罪構(gòu)成要件中客觀要件需要識(shí)別的部分.并加入其他標(biāo)簽來(lái)區(qū)分其他構(gòu)成要件和其他情形.
(2)從中國(guó)裁判文書網(wǎng)[9],通過(guò)下載裁判文書網(wǎng)上刑事案件中的盜竊罪一審判決書,分析判決書中本院認(rèn)為部分,查找上述分析出的關(guān)鍵詞.圖1所示,一則盜竊罪案例中,本院認(rèn)為部分中包含“以非法占有為目的,在公共場(chǎng)所扒竊他人財(cái)物,其行為已構(gòu)成盜竊罪”.從中獲取關(guān)鍵詞“扒竊”.將該文書的認(rèn)定事實(shí)部分、被告人基本信息部分抽取出來(lái),作為數(shù)據(jù)集中文本的內(nèi)容.
圖1 裁判文書中構(gòu)成要件示例
上述構(gòu)成要件識(shí)別主要依據(jù)認(rèn)定的犯罪事實(shí).無(wú)需個(gè)人信息、過(guò)往犯罪經(jīng)過(guò)等信息,本文在構(gòu)建數(shù)據(jù)集時(shí),將法院裁判文書中認(rèn)定的事實(shí)部分作為數(shù)據(jù)輸入,將構(gòu)成要件作為標(biāo)簽.盜竊罪構(gòu)成要件數(shù)據(jù)實(shí)例如表2所示.
表2 盜竊罪構(gòu)成要件數(shù)據(jù)集示例
本文先構(gòu)建盜竊罪構(gòu)成要件數(shù)據(jù)集,然后基于預(yù)訓(xùn)練模型設(shè)計(jì)構(gòu)成要件識(shí)別模型,在本文構(gòu)建的盜竊罪構(gòu)成要件數(shù)據(jù)集上進(jìn)行訓(xùn)練,并取驗(yàn)證集上最優(yōu)模型作為最終的模型,整體流程如圖2所示.
圖2 構(gòu)成要件識(shí)別流程圖
本文提出基于BERT的盜竊罪構(gòu)成要件識(shí)別模型首先通過(guò)BERT 獲取語(yǔ)句的向量表示,之后運(yùn)用BiLSTM模型提取句特征,并結(jié)合注意力機(jī)制進(jìn)一步.
獲取對(duì)分類結(jié)果有重要影響的特征.具體流程如下:
(1)通過(guò)預(yù)訓(xùn)練語(yǔ)言模型獲取句向量.預(yù)訓(xùn)練模型的大小會(huì)影響下游任務(wù)的效果.本文選用了BERTbase 模型,能接受的最長(zhǎng)文本長(zhǎng)度m=512字符.隱藏層維度d=768,編碼層層數(shù)為l=12.在預(yù)訓(xùn)練模型上使用了目前最新的公開中文預(yù)訓(xùn)練數(shù)據(jù)集.
(2)構(gòu)建盜竊罪客觀要件識(shí)別模型.使用BERT 最后一層輸出向量作為文本表示,并拼接BiLSTM-Att 模型,下游任務(wù)設(shè)置為多分類任務(wù),通過(guò)下游任務(wù)對(duì)預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào).具體結(jié)構(gòu)如圖3所示,將得到的文本向量送入BiLSTM-Att 模型中,通過(guò)該模型識(shí)別盜竊罪構(gòu)成要件并在最后使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練.
圖3 BERT-BiLSTM-Att 模型結(jié)構(gòu)圖
在訓(xùn)練時(shí)設(shè)置學(xué)習(xí)率為3e-5,參數(shù)優(yōu)化使用BERT-Adam 優(yōu)化器.訓(xùn)練epoch 為60,batch-size 大小為16.
BERT 模型[10]在雙向Transformer[11]編碼器的基礎(chǔ)上實(shí)現(xiàn),其中每個(gè)Transformer 編碼單元由6 個(gè)Encoder 堆疊在一起,Transformer 編碼器單個(gè)Encoder架構(gòu)圖如圖4所示.
圖4 中N代表編碼器層數(shù),一個(gè)Transformer 編碼器包含兩層,一個(gè)是多頭的自注意力層,另一個(gè)是前饋神經(jīng)網(wǎng)絡(luò)層.多頭自注意力層中自注意力機(jī)制能彌補(bǔ)循環(huán)神經(jīng)網(wǎng)絡(luò)面臨的長(zhǎng)依賴問(wèn)題,不僅關(guān)注當(dāng)前幾個(gè)詞,能夠獲取更長(zhǎng)的全文信息.并通過(guò)多頭的方式獲取不同的交互關(guān)系.
圖4 Transformer encoder 模塊結(jié)構(gòu)圖
自注意力機(jī)制的可以看做在一個(gè)線性投影空間中建立模型輸入中不同向量之間的交互關(guān)系.自注意力機(jī)制的運(yùn)算過(guò)程中,首先會(huì)計(jì)算出3 個(gè)新的向量:Q(query),K(key),V(value),這3 個(gè)向量是詞嵌入向量與一個(gè)矩陣相乘得到的結(jié)果,該矩陣是隨機(jī)初始化的維度為(64,512)的矩陣.當(dāng)輸入一個(gè)句子時(shí),該句子中的每個(gè)詞都與其他的詞進(jìn)行Attention計(jì)算,Attention的計(jì)算公式如下:
其中,dk表示每個(gè)字的query 和key 向量的維度,Softmax()是歸一化指數(shù)函數(shù).最終得到的Attention值是一個(gè)矩陣值,矩陣值的每一行代表輸入句子中相應(yīng)字的Attention向量,其中包含了句子中該詞和其他位置的詞的相互關(guān)系信息,是一個(gè)新的向量表示.由此,我們可以看到,BERT 模型使用帶有自注意力機(jī)制的雙向Transformer 模型獲得了句子的前后語(yǔ)義關(guān)系,從而更好地獲得了一個(gè)句子的語(yǔ)義表達(dá).
在預(yù)訓(xùn)練過(guò)程中,BERT 使用MLM(masked language model)任務(wù)和NSP(next sentence prediction)任務(wù)進(jìn)行預(yù)訓(xùn)練.一般使用BERT 做文本分類任務(wù)時(shí)使用BERT 最后一層池化后的輸出,在其基礎(chǔ)上使用全連接層和交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,如圖5所示.文本選取BERT 輸出作為文本向量表示.
圖5 BERT 文本分類模型
LSTM(long short-term memory network)[12,13]是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,通過(guò)引入門控機(jī)制來(lái)控制信息的累計(jì)速度,包括有選擇地加入新的信息,并有選擇地遺忘之前累積的信息來(lái)改善循環(huán)網(wǎng)絡(luò)的長(zhǎng)依賴問(wèn)題.BiLSTM-Attention[14]模型在LSTM 基礎(chǔ)上,以其作為基礎(chǔ)的網(wǎng)絡(luò)層,通過(guò)增加一個(gè)逆句子順序的網(wǎng)絡(luò)層,來(lái)獲取一個(gè)詞的上下文關(guān)系,增強(qiáng)網(wǎng)絡(luò)的表示能力.并在獲取的表示后加入注意力機(jī)制來(lái)更好的獲取關(guān)鍵的信息.
BiLSTM-Att 模型如圖6所示,其中et為詞向量,為某一順序上LSTM 在該時(shí)刻的向量,為將兩個(gè)向量拼接后的向量,最后將yt通過(guò)注意力層得到該句子的表示.在得到的句子表示上加入Attention層之后為BiLSTM-Attention 模型.
圖6 BiLSTM-Att 文本分類模型
本文從裁判文書網(wǎng)上下載盜竊罪一審判決書1 萬(wàn)份,通過(guò)正則的方式獲取文書中案件事實(shí)部分,之后對(duì)判決書提取判決結(jié)果.通過(guò)本院認(rèn)為部分,提取判決結(jié)果中包含上述標(biāo)簽的案件構(gòu)建2 400 條數(shù)據(jù),篩選標(biāo)簽示例如圖7所示,樣例數(shù)據(jù)如表2所示.
圖7 判決書中標(biāo)簽示例
通過(guò)對(duì)案件事實(shí)和標(biāo)簽進(jìn)行統(tǒng)計(jì)分析,本文構(gòu)建的數(shù)據(jù)集在文本長(zhǎng)度上按字符統(tǒng)計(jì),平均文本長(zhǎng)度為235 字,最大文本長(zhǎng)度653 字,最小文本長(zhǎng)度為124 字.統(tǒng)計(jì)相應(yīng)的占比,本文構(gòu)建的數(shù)據(jù)集中其他文書600 份,入戶盜竊587 份,攜帶兇器盜竊122 份,扒竊836 份,多次盜竊483 份.占比如圖8所示.
圖8 各標(biāo)簽占數(shù)據(jù)集比例
實(shí)驗(yàn)硬件設(shè)備如表3所示.
表3 實(shí)驗(yàn)環(huán)境
將數(shù)據(jù)集劃分為2 000 條作為訓(xùn)練數(shù)據(jù),200 條作為評(píng)測(cè)在200 份測(cè)試數(shù)據(jù)中進(jìn)行,評(píng)測(cè)上述所有的標(biāo)簽分類結(jié)果,從精度(precision),召回率(recall),F1值3 方面評(píng)測(cè)算法的結(jié)果.
精度(precision)是指標(biāo)記為正類的元組實(shí)際為正類的百分比,計(jì)算方法為:
其中,Tp為被分類器正確分類的正元組個(gè)數(shù),Fp為錯(cuò)誤標(biāo)記為正元組的負(fù)元組個(gè)數(shù).
召回率計(jì)算方法為:
其中,Tp為模型預(yù)測(cè)出的標(biāo)簽正確的標(biāo)簽個(gè)數(shù),Fn為被錯(cuò)誤標(biāo)記為負(fù)元組的正元組個(gè)數(shù),即假負(fù)例個(gè)數(shù).
F1值計(jì)算方式為:
其中,precision為上述精度,recall為上述召回率.
對(duì)上述3 個(gè)指標(biāo)從micro 指標(biāo)進(jìn)行考察,計(jì)算方式如下:
其中,B(·)為計(jì)算precision,recall和F1算符.
數(shù)據(jù)集劃分為訓(xùn)練數(shù)據(jù)2 000 條,驗(yàn)證數(shù)據(jù)200 條,測(cè)試數(shù)據(jù)200 條.實(shí)驗(yàn)對(duì)比了目前文本分類中常用的模型和最新的模型.對(duì)比了多個(gè)預(yù)訓(xùn)練模型,主要有科大訊飛開源的中文預(yù)訓(xùn)練語(yǔ)言模型[15],和清華大學(xué)開源的司法數(shù)據(jù)上的預(yù)訓(xùn)練語(yǔ)言模型.
常用的模型比較了LSTM 和基于LSTM的一些改進(jìn)模型,主要有LSTM、BiLSTM 和BiLSTM-Att.模型輸入的詞向量本文使用Google 團(tuán)隊(duì)發(fā)布的Word2Vec工具[16],通過(guò)在CAIL2018 罪名預(yù)測(cè)數(shù)據(jù)集[17]的事實(shí)部分作為訓(xùn)練語(yǔ)料庫(kù),使用結(jié)巴分詞將語(yǔ)料分詞后進(jìn)行訓(xùn)練.Word2Vec 中選擇的方法為CBOW,該方法通過(guò)中心詞周圍的詞來(lái)預(yù)測(cè)中心詞.預(yù)訓(xùn)練詞向量維度為300 維,訓(xùn)練設(shè)置的相關(guān)參數(shù)如表4所示.
表4 Word2Vec 參數(shù)設(shè)置
主要比較的預(yù)訓(xùn)練模型如下:
BERT-xs:該預(yù)訓(xùn)練模型在663 萬(wàn)篇刑事文書上進(jìn)行預(yù)訓(xùn)練,未采用全詞覆蓋訓(xùn)練策略,訓(xùn)練時(shí)以字為力度進(jìn)行切分.
BERT-wwm:該預(yù)訓(xùn)練模型在中文維基百度上進(jìn)行訓(xùn)練,采用全詞覆蓋訓(xùn)練策略,訓(xùn)練時(shí)一個(gè)完整的詞的部分子詞被覆蓋,則同屬該詞的其他部分也會(huì)被覆蓋.
BERT-wwm-ext:該預(yù)訓(xùn)練模型在上述預(yù)訓(xùn)練方法的基礎(chǔ)上增加了數(shù)據(jù),其中EXT 數(shù)據(jù)包括:中文維基百科,其他百科、新聞、問(wèn)答等數(shù)據(jù),總詞數(shù)達(dá)5.4 B.
RoBERTa-wwm-ext:使用RoBERTa 并使用上述的訓(xùn)練策略和訓(xùn)練數(shù)據(jù),將模型換為RoBERTa,RoBERTa 相比于原始的BERT 做了如下改進(jìn):訓(xùn)練時(shí)間更久,并增大了batch size;移除了BERT 預(yù)訓(xùn)練任務(wù)中的NSP 任務(wù);訓(xùn)練了更長(zhǎng)的序列和動(dòng)態(tài)調(diào)整mask策略.
經(jīng)計(jì)算得到本文使用的模型precisionmicro為 93.54%,recallmicro為95.75%,F1micro為94.63%.
表5 中BiA 表示BiLSTM-Att 部分,BERT-xs-BiA 代表使用BERT-xs 預(yù)訓(xùn)練模型得到文本句向量,再送入BiLSTM-Att 中做分類,識(shí)別構(gòu)成要件.BERT-xs表示只使用BERT 做分類,識(shí)別構(gòu)成要件,其他模型標(biāo)識(shí)同理可得.
表5 測(cè)試結(jié)果(%)
從實(shí)驗(yàn)結(jié)果可以看到,相比于BiLSTM 和帶注意力層的BiLSTM,BERT 預(yù)訓(xùn)練模型優(yōu)于傳統(tǒng)的模型,這表明BERT 模型能夠在訓(xùn)練數(shù)據(jù)較少的情形下,通過(guò)面向下游任務(wù)進(jìn)行微調(diào),取得較好的結(jié)果.
通過(guò)BERT-xs 和BERT-xs-BiA 對(duì)比和其他預(yù)訓(xùn)練模型間比較可知使用了BERT 提取句向量做為輸入比使用Word2Vec 訓(xùn)練得到詞向量得到的結(jié)果好.這表明通過(guò)BERT 模型獲取的文本向量能夠更好的表示文本,通過(guò)與BiLSTM-Att 結(jié)合能進(jìn)一步提高識(shí)別效果.
在基于預(yù)訓(xùn)練語(yǔ)言模型的對(duì)比中,預(yù)訓(xùn)練語(yǔ)言模型的選擇也相當(dāng)重要,選擇合適的預(yù)訓(xùn)練模型能提高一定的準(zhǔn)確率,如BERT-wwm、BERT-wwm-ext 和RoBERTa-wwm-ext 模型三者模型大小相差不大,使用RoBERTa-wwm-ext 能提高一定的準(zhǔn)確率.在訓(xùn)練時(shí)BERT-xs 能夠更快的學(xué)習(xí)到司法任務(wù)相關(guān)的內(nèi)容,在前幾個(gè)epoch 結(jié)果優(yōu)于其他模型.但在最終結(jié)果上并非最優(yōu),本文認(rèn)為這與下游任務(wù)有關(guān),在司法文本分類任務(wù)上通用語(yǔ)料庫(kù)上預(yù)訓(xùn)練的語(yǔ)言模型能達(dá)到司法文本上預(yù)訓(xùn)練的語(yǔ)言模型的結(jié)果.
本文設(shè)計(jì)了盜竊罪構(gòu)成要件識(shí)別任務(wù),結(jié)合量刑理論,提出結(jié)合構(gòu)成要件的司法智能系統(tǒng)構(gòu)建思路.從案件審理的四要件角度,詳細(xì)梳理了盜竊罪的構(gòu)成要件和識(shí)別該要件所需的前置條件.之后構(gòu)建了首個(gè)盜竊罪的構(gòu)成要件數(shù)據(jù)集,從公開數(shù)據(jù)上利用搜索和正則匹配等方式篩選數(shù)據(jù),構(gòu)建了數(shù)據(jù)集.最后設(shè)計(jì)了基于BERT 模型的構(gòu)成要件識(shí)別模型,對(duì)該數(shù)據(jù)集進(jìn)行分類,并測(cè)試了相關(guān)結(jié)果.在本文構(gòu)建的數(shù)據(jù)集上,該模型達(dá)到了93.54%的準(zhǔn)確率,優(yōu)于傳統(tǒng)模型.本文提出的構(gòu)成要件識(shí)別任務(wù)有很強(qiáng)的司法理論支撐,能夠指導(dǎo)規(guī)范案情要素識(shí)別的內(nèi)容,并且在本文工作基礎(chǔ)上構(gòu)建智能審判相關(guān)算法,能夠更好的為法官提供指引,有很強(qiáng)的實(shí)際意義.