屈垠岑,趙銀亮,酒沖沖,劉 碩
(西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710049)
閱卷一直是司法訴訟工作中不可缺少的一步,充當(dāng)著串聯(lián)訴訟各階段的重要角色。刑事、民事和行政等訴訟案件在不同程序環(huán)節(jié)都需要相關(guān)人員對(duì)卷宗進(jìn)行閱卷,一份卷宗往往包含大量文件材料,閱卷者通常需要閱讀所有的文件材料來發(fā)現(xiàn)案件的實(shí)體事實(shí)和程序事實(shí),避免遺漏和錯(cuò)誤。比如在審查起訴環(huán)節(jié),辦案人需要在有關(guān)利害關(guān)系人參與下,對(duì)偵查過程及結(jié)論進(jìn)行審查,并確定是否起訴。審查的方式主要是書面閱卷,同時(shí)也必須訊問有關(guān)利害關(guān)系人的意見。其中,書面閱卷審查的內(nèi)容重點(diǎn)為犯罪嫌疑人的情況、犯罪事實(shí)與情節(jié)、證據(jù)材料、訴訟文書和法律手續(xù)、有無遺漏罪行、是否應(yīng)予追究刑事責(zé)任、偵查活動(dòng)是否合法等[1]。伴隨多樣化閱卷目標(biāo)和大量的卷宗文書,閱卷審查所需思維過程復(fù)雜、工作量大。在訴訟實(shí)踐中,辦案人錯(cuò)誤地認(rèn)定事實(shí)、錯(cuò)誤地定性、錯(cuò)誤地起訴的深層次原因在于人類的認(rèn)知能力,包括偵查發(fā)現(xiàn)事實(shí)的能力、公訴中判斷證據(jù)與事實(shí)及其性質(zhì)的能力都是有限的[2]。
面對(duì)大量文書數(shù)據(jù)和多樣化閱卷目標(biāo),由于普通人的認(rèn)知能力有限,在閱卷過程中常會(huì)面臨信息過載和知識(shí)迷航兩大挑戰(zhàn)[3]。其中,信息過載是指閱卷者接收了太多的信息卻無法有效整合、組織成自己需要的信息[4]。知識(shí)迷航是指閱卷者在信息收集過程中可能出現(xiàn)類似在大海中航行迷失方向而不知所措的現(xiàn)象[5]。在司法實(shí)踐中,通過對(duì)辦案實(shí)踐的總結(jié)形成閱卷流程和方法,并制作閱卷筆錄[6]可以一定程度上緩解這兩個(gè)問題,如“先簡后繁”“先供后證”的閱讀方式有利于減輕閱卷迷航的問題,“對(duì)照閱讀”“邊閱邊問”的閱讀方式有利于減輕認(rèn)知負(fù)載的問題,但這些方法依然需要閱卷者有豐富的閱卷經(jīng)驗(yàn),并且需要花費(fèi)閱卷者大量的時(shí)間精力。
為了解決上述問題,采用一個(gè)合適的模型來自動(dòng)組織卷宗知識(shí)、表達(dá)卷宗內(nèi)容信息是很有必要的,知識(shí)森林模型采用與人類認(rèn)知更一致的方式表示卷宗內(nèi)容,利用主題分面樹以及主題間關(guān)系作為卷宗的知識(shí)化表示,已在教育領(lǐng)域顯示出顯著緩解信息過載和知識(shí)迷航的效果。本文以隨案電子卷宗為研究對(duì)象,研究目標(biāo)是為每一份案件卷宗數(shù)據(jù)自動(dòng)構(gòu)建卷宗知識(shí)森林,展現(xiàn)卷宗完整信息。本文的主要工作如下:
1)提出隨案電子卷宗的知識(shí)森林模型,它由主題分面樹和主題關(guān)系組成,主題分面樹組織卷宗主題的相關(guān)信息,從而緩解信息過載問題,主題關(guān)系展示卷宗主題間的關(guān)系鏈路來緩解迷航問題。通過該模型的知識(shí)組織形式,選擇部分主題和少量卷宗碎片實(shí)現(xiàn)閱卷目標(biāo)成為可能,避免了全面瀏覽卷宗內(nèi)容以完成閱卷任務(wù)的困難。
2)提出了一種自動(dòng)構(gòu)建卷宗知識(shí)森林的方法,包括信息抽取、知識(shí)融合等,并驗(yàn)證了該方法的準(zhǔn)確性與有效性。
卷宗知識(shí)是事實(shí)和數(shù)據(jù)的集合,這些分散的事實(shí)和數(shù)據(jù)需要被組織成有序的結(jié)構(gòu)。針對(duì)卷宗文書的研究,常見的知識(shí)組織模型有主題圖和知識(shí)圖譜。在主題圖領(lǐng)域,劉秀如等[7]分析了公安案件中文書數(shù)據(jù)的主題及主題間的關(guān)聯(lián),并實(shí)現(xiàn)了主題圖可視化;Jungiewicz 等[8]利用波蘭法院的判決文書集生成了主題圖;Chen 等[9]利用公安案件的主題圖實(shí)現(xiàn)了案件導(dǎo)航系統(tǒng)。利用主題圖的主題關(guān)系可以方便地進(jìn)行信息總覽和信息導(dǎo)航,從而能在一定程度上解決迷航問題,但主題圖在組織知識(shí)片段時(shí)粒度太大,忽略了主題信息,因此難以解決信息過載的問題。在知識(shí)圖譜領(lǐng)域,F(xiàn)iltz[10]和Markovi? 等[11]提出了法律的表示方法,并構(gòu)建了法律知識(shí)圖譜;洪文興等[12]通過實(shí)體抽取和關(guān)系抽取等方法針對(duì)相關(guān)法律和裁判文書構(gòu)建了司法知識(shí)圖譜;Lian 等[13]針對(duì)裁判文書和相關(guān)社交媒體信息構(gòu)建了案件知識(shí)圖譜。上述工作通過知識(shí)圖譜可視化和后續(xù)的知識(shí)搜索等功能可以在一定程度上緩解信息過載問題,但實(shí)體沒有經(jīng)過層次化組織直接展示,無法提供清晰的主題間關(guān)系路徑,因此難以解決迷航的問題。
為了改善知識(shí)迷航和信息過載的問題,Zheng 等[14]提出了知識(shí)森林的概念。知識(shí)森林由主題分面樹和主題間關(guān)系構(gòu)成,其中主題是指課程中的知識(shí)概念,主題分面樹圍繞相應(yīng)主題以層次化的形式組織wikipedia 相關(guān)描述和網(wǎng)絡(luò)爬取的知識(shí)碎片,主題間關(guān)系指主題間的學(xué)習(xí)依賴性。在在線教育場景中,以數(shù)據(jù)結(jié)構(gòu)課程為例,該課程中包含棧、線性表等知識(shí)概念,將它們作為知識(shí)森林中的主題,線性表和棧的學(xué)習(xí)依賴性由線性表主題指向棧主題的主題關(guān)系表示,代表了應(yīng)該先學(xué)線性表再學(xué)棧。知識(shí)森林模型既可以表達(dá)主題間的關(guān)系鏈路,又可以展示主題的相關(guān)信息,有利于緩解迷航和信息過載的問題。但上述知識(shí)森林模型針對(duì)的是教育場景,因此針對(duì)卷宗文書特殊的知識(shí)形式和主題信息,本文根據(jù)卷宗文書的特點(diǎn)研究卷宗知識(shí)森林的定義和表示,并構(gòu)建卷宗知識(shí)森林。
卷宗本體是卷宗知識(shí)森林的表示基礎(chǔ),本章利用司法相關(guān)本體論和行業(yè)標(biāo)準(zhǔn)定義了卷宗本體,并利用卷宗本體定義了卷宗知識(shí)森林的基本構(gòu)成。
本體是對(duì)一個(gè)特定領(lǐng)域的重要概念的形式化描述。卷宗本體定義了卷宗常見概念及其相關(guān)信息和相互關(guān)系,對(duì)卷宗內(nèi)容進(jìn)行系統(tǒng)描述。首先,本文給出卷宗本體的形式化定義,定義卷宗本體為一個(gè)五元組O={C,A,R,H,X},其中:C為卷宗中的概念集合,A為屬性集,R為卷宗概念之間的關(guān)系集合,H為卷宗中的概念層次,X為公理集。C中每個(gè)概念ci表示相同類型的一組對(duì)象,A(ci)表示概念ci的屬性集,關(guān)系集合R中每個(gè)關(guān)系表示概念cp和概念cq的二元關(guān)系,H表示了概念集C中的父子關(guān)系,X中的公理是對(duì)卷宗本體的概念、關(guān)系或者概念對(duì)象的關(guān)系的限制。
基于“一案一卷”原則,本文依據(jù)案件要素本體論[15]對(duì)卷宗本體結(jié)構(gòu)進(jìn)行定義。本文以案件“人物事時(shí)空”五要素論為基礎(chǔ),參照法院行業(yè)標(biāo)準(zhǔn)中的電子卷宗閱卷目錄規(guī)范(FYB/T 52021—2018)對(duì)本體結(jié)構(gòu)做出調(diào)整,得到卷宗本體中4 個(gè)頂層概念:案件相關(guān)人、案件相關(guān)物、案件相關(guān)行為、卷宗基本信息。對(duì)各頂層概念簡要概述如下:
1)案件相關(guān)人概念包括辯護(hù)人、被告、原告、訴訟代理人等實(shí)體類,被告和原告分別有年齡、身份證號(hào)碼、民族、籍貫等數(shù)據(jù)屬性,如果是法人,則有單位的全稱和所在地址等數(shù)據(jù)屬性,并且在卷宗中有被告身份證明等相關(guān)文件或文本片段對(duì)原告、被告進(jìn)行描述。
2)案件相關(guān)物概念包括涉案工具,犯罪、侵權(quán)痕跡等實(shí)體類,如書證、物證、筆錄等證據(jù)材料均是一種物化的形式[16]。涉案工具指實(shí)施犯罪、侵權(quán)行為所用之物,如刀、槍、信件等,有長、寬、高、型號(hào)、數(shù)量、價(jià)值等數(shù)據(jù)屬性,在卷宗中有物證處理材料等相關(guān)文件或起訴書等文本片段進(jìn)行描述;犯罪、侵權(quán)痕跡是指犯罪、侵權(quán)行為引起的客觀變化,包括相關(guān)行為形成之物和針對(duì)之物、相關(guān)人員遺留和黏附之物,如現(xiàn)場留下的指紋、足跡、工具破壞痕跡、贓款贓物等,相關(guān)屬性包括勘驗(yàn)人、勘驗(yàn)地點(diǎn)等實(shí)體,在卷宗中有勘驗(yàn)筆錄、鑒定意見等相關(guān)文件或文本片段對(duì)犯罪、侵權(quán)痕跡進(jìn)行描述。
3)案件相關(guān)行為概念包括案件事實(shí)。案件事實(shí)是指在案件發(fā)生過程中的事件,有事件的施加者、承受者、發(fā)生時(shí)間、發(fā)生空間屬性,并且在卷宗中有起訴書、判決書等相關(guān)文件片段對(duì)案件事實(shí)進(jìn)行描述。
4)卷宗基本信息概念包括判決結(jié)果、卷宗編號(hào)和案件流程。判決結(jié)果指法院做出的具有法律效力的書面文書處理決定,判決結(jié)果通常依據(jù)相關(guān)法律條文,因此有審批依據(jù)屬性,在卷宗中有判決書等相關(guān)文件片段對(duì)判決結(jié)果進(jìn)行描述。每份卷宗都有獨(dú)特的編號(hào),編號(hào)是卷宗中重要的信息,在卷宗各文件重復(fù)出現(xiàn)。案件流程指立案、司法拘留等與案件執(zhí)行有關(guān)的程序,在卷宗中有立案審批表、案件審判流程管理信息表等相關(guān)文件對(duì)案件流程進(jìn)行描述。
基于上述本體的概念集合、概念層次和屬性集,可以推斷出關(guān)系集合和公理集,關(guān)系集合包括包含關(guān)系、依據(jù)關(guān)系、執(zhí)行關(guān)系、判定關(guān)系、順承關(guān)系、參與關(guān)系、被影響關(guān)系、產(chǎn)生關(guān)系、持有關(guān)系、證明關(guān)系、起訴關(guān)系、代理關(guān)系、辯護(hù)關(guān)系,并對(duì)關(guān)系的domain(定義域)和range(值域)進(jìn)行約束得到公理集。
本文使用資源描述框架(Resource Description Framework,RDF)進(jìn)行卷宗本體的知識(shí)表示和存儲(chǔ),基于RDF 的本體論描述了卷宗中4 類頂層概念、10 類底層概念、10 類關(guān)系和5 類數(shù)據(jù)屬性。本體結(jié)構(gòu)如圖1 所示,其中內(nèi)層為頂層概念,外層為底層概念,最外層為底層概念對(duì)應(yīng)的數(shù)據(jù)屬性。
圖1 卷宗本體結(jié)構(gòu)Fig.1 Structure of case file ontology
卷宗知識(shí)森林由主題分面樹結(jié)合主題關(guān)系構(gòu)成,可以表示為二元組KF=(FT,TR)。其中,對(duì)于卷宗主題集T={t1,t2,…,tn},F(xiàn)T={FTi|ti∈T}是指與T中元素一一對(duì)應(yīng)的主題分面樹的集合,TR?T×T表示T中主題關(guān)系的多重集合。
卷宗主題ti∈T為卷宗中具有實(shí)際意義的事物,即本體中底層概念對(duì)應(yīng)的所有實(shí)體類和事件。根據(jù)XTM(eXtensive markup language Topic Maps)1.0 標(biāo)準(zhǔn),主題就是現(xiàn)實(shí)事物的具體化,它可以是表示任何事物對(duì)象的名詞。本文依據(jù)卷宗本體頂層概念,將卷宗主題分為案件相關(guān)人物、物體或司法概念,以及案件發(fā)生經(jīng)過4 類。比如,被告某某屬于案件相關(guān)人主題類、某某組織吸毒事件屬于案件相關(guān)行為主題類,卷宗主題集為卷宗中所有的主題,包括被告某某、某某組織吸毒事件、販毒罪、現(xiàn)場證據(jù)等。
主題分面樹是指圍繞一定主題將實(shí)體、事件、屬性、卷宗碎片形成層次化的樹。主題ti的主題分面樹可以表示為元組FTi=(Fi,RFi)。其中Fi是指與ti相關(guān)的分面集合,對(duì)應(yīng)本體中最外層底層概念的數(shù)據(jù)屬性,包括屬性、卷宗碎片和非主題實(shí)體,屬性指對(duì)某主題相關(guān)概念特征或性質(zhì)的描述,卷宗碎片指卷宗中對(duì)同主題進(jìn)行描述的最小文本片段或文件,非主題類實(shí)體指不屬于任一主題類但是和主題存在特定關(guān)系的實(shí)體,形式化描述為Fi=A(ci),ci為主題ti的對(duì)應(yīng)本體概念,A(ci)表示概念ci的屬性集。RFi?({ti}∪Fi)×Fi表示主題ti和分面的關(guān)系,對(duì)應(yīng)本體結(jié)構(gòu)中底層概念和最外層數(shù)據(jù)屬性之間的關(guān)系,形式化描述為RFi=(ci,A(ci))。主題分面樹將多方面的分面、碎片通過層次化的形式組織起來,針對(duì)閱卷目標(biāo)中的不同關(guān)注點(diǎn),用戶都可以在使用過程中方便地定位相關(guān)知識(shí)、理解相關(guān)內(nèi)容。比如,在勘驗(yàn)筆錄主題中,勘驗(yàn)筆錄主題的分面表示為F勘驗(yàn)筆錄={事故時(shí)間,二月一日,勘驗(yàn)人,丁某,…},而勘驗(yàn)筆錄主題的主題和分面關(guān)系可以表示為RF勘驗(yàn)筆錄={(勘驗(yàn)筆錄,勘驗(yàn)人),(勘驗(yàn)人,丁某),…}。
主題關(guān)系ri,j∈TR指卷宗中主題ti和主題tj之間某種預(yù)定義類型的關(guān)系,對(duì)應(yīng)本體結(jié)構(gòu)中頂層概念之間的關(guān)系和外層底層概念之間的關(guān)系,形式化描述為ri,j∈R(ci,cj),ci為主題ti的對(duì)應(yīng)本體概念,cj為主題tj的對(duì)應(yīng)本體概念。主題之間以關(guān)系連接形成主題鏈路,通過選擇鏈路上的相關(guān)主題實(shí)現(xiàn)閱卷目標(biāo),可以避免尋找閱卷內(nèi)容重點(diǎn)時(shí)全面瀏覽卷宗帶來的困難。如被告某某主題和某某組織吸毒主題是參與關(guān)系,表明被告參與了某某組織組織吸毒的事件,針對(duì)查找嫌疑人有無遺漏罪行的閱卷目標(biāo),可以確定嫌疑人相關(guān)的犯罪事件,并依據(jù)事件間的順承關(guān)系可確定閱卷范圍和順序。
卷宗文書中除了包含豐富的主題和關(guān)系以及隨時(shí)間變化的案情發(fā)展邏輯之外,也存在重復(fù)的信息。針對(duì)上述特點(diǎn),構(gòu)建卷宗知識(shí)森林存在一定的挑戰(zhàn)性,本文結(jié)合卷宗知識(shí)森林和卷宗文書的特點(diǎn),對(duì)于構(gòu)建卷宗知識(shí)森林過程中存在的問題提出了相應(yīng)的解決方法。
1)卷宗中有豐富的主題。卷宗中包含多個(gè)文書,不同文書有不同的主題,同一份文書也會(huì)包含多個(gè)主題。通過碎片化將多主題文書分割為單一主題的碎片,使碎片內(nèi)部具有最大的主題相關(guān)性,碎片之間具有最小的主題相關(guān)性,避免了多主題混合對(duì)閱卷帶來的認(rèn)知負(fù)擔(dān)。
2)卷宗存在案情發(fā)展邏輯。卷宗中的案情以事件作為最小單元,隨著事件發(fā)展可以構(gòu)建案情發(fā)展邏輯,事件作為卷宗發(fā)展的主線,是信息關(guān)聯(lián)的關(guān)鍵節(jié)點(diǎn)。因此除了常規(guī)的實(shí)體抽取、關(guān)系抽取之外,還需要對(duì)卷宗中的相關(guān)部分進(jìn)行事件抽取,并通過順承關(guān)系形成事件鏈,展現(xiàn)案件的發(fā)展經(jīng)過。
3)卷宗中存在重復(fù)的信息。在卷宗不同文書中部分信息會(huì)反復(fù)出現(xiàn),如果不處理重復(fù)的信息,會(huì)帶來閱卷認(rèn)知上的阻礙和信息過載問題。因此,通過實(shí)體對(duì)齊、事件共指等方法合并同義主題,提煉卷宗內(nèi)容,避免重復(fù)閱讀的認(rèn)知過載問題。
4)卷宗主題包含多樣化的信息,主題之間存在復(fù)雜的關(guān)系。依據(jù)卷宗本體結(jié)構(gòu),將復(fù)雜的卷宗內(nèi)容映射到知識(shí)森林的主題分面樹和主題關(guān)系,以與人的認(rèn)知更一致的方式展示卷宗內(nèi)容。其中,卷宗知識(shí)森林通過主題分面樹多樣化的分面和與其相關(guān)聯(lián)的卷宗碎片來表達(dá)卷宗中豐富的主題信息,滿足閱卷中不同的關(guān)注目標(biāo)。卷宗知識(shí)森林中主題關(guān)系形成的關(guān)系鏈路,為選擇閱卷目標(biāo)相關(guān)主題實(shí)現(xiàn)閱卷目標(biāo)提供了可能,緩解閱卷過程中出現(xiàn)的迷航問題。
知識(shí)森林的構(gòu)建可以看作是卷宗知識(shí)的再組織過程,依據(jù)上述卷宗知識(shí)森林模型的相關(guān)問題分析,本章實(shí)現(xiàn)了一種卷宗知識(shí)森林構(gòu)建方法,該方法可以在實(shí)際卷宗數(shù)據(jù)中構(gòu)建出知識(shí)森林模型。
如圖2 所示,面向隨案電子卷宗的知識(shí)森林構(gòu)建的總體框架包含5 步。
圖2 卷宗知識(shí)森林構(gòu)建方法Fig.2 Case file knowledge forest construction method
第1 步 碎片化。本文通過對(duì)卷宗進(jìn)行碎片化,分割出案件相關(guān)人、案件相關(guān)行為、案件相關(guān)物、卷宗基本信息這4種類型的多個(gè)碎片。本文利用關(guān)鍵詞對(duì)結(jié)構(gòu)化文書和非結(jié)構(gòu)化文書進(jìn)行分類,由于文書名稱的規(guī)范性,本文總結(jié)了卷宗文書的常見類型并整理了文書分類的觸發(fā)詞詞表,利用觸發(fā)詞分類出案件相關(guān)人、卷宗基本信息、案件相關(guān)物三種類型的結(jié)構(gòu)化文書。本文對(duì)得到的非結(jié)構(gòu)化文書進(jìn)行文本分割,采用SECTOR(SEgmentation and TOpic Classification)模型[17]通過BiLSTM(Bidirectional Long Short-Term Memory)網(wǎng)絡(luò)學(xué)習(xí)文檔潛在主題的向量表示,對(duì)向量進(jìn)行主題分類,并利用主題的變化對(duì)文檔進(jìn)行分割,將文書分割出案件相關(guān)人、案件相關(guān)行為、案件相關(guān)物、卷宗基本信息4 種類型的碎片。碎片化的流程如圖3 所示。
圖3 碎片化流程Fig.3 Fragmentation flowchart
第2 步 信息抽取。結(jié)構(gòu)化文書通過文書格式提取出固定類型的信息,非結(jié)構(gòu)化文書本文通過劃分不同的語義段落來針對(duì)性地提取不同信息。在結(jié)構(gòu)化文書中,本文利用相應(yīng)文書格式模板和Tabula表格提取工具抽取結(jié)構(gòu)化文書的信息,獲得相關(guān)實(shí)體和實(shí)體的屬性信息,如“現(xiàn)場勘驗(yàn)記錄”作為犯罪痕跡類實(shí)體,抽取出的“勘驗(yàn)時(shí)間”和“勘驗(yàn)地點(diǎn)”等值作為該實(shí)體的屬性。在非結(jié)構(gòu)化文書中,本文參考Wang等[18]的方法使用語義角色標(biāo)注(Semantic Role Labeling,SRL)結(jié)合啟發(fā)式規(guī)則的方法進(jìn)行事件抽取,抽取出事件的施加者、承受者、時(shí)間、地點(diǎn)、動(dòng)作、方式屬性;其余碎片本文采用LSTM-CRF(Long Short-Term Memory-Conditional Random Field)模型[19]進(jìn)行實(shí)體抽取和 GRU-attention(Gated Recurrent Unit with attention mechanism)模型[20-21]進(jìn)行關(guān)系抽取,抽取卷宗本體中定義的實(shí)體和實(shí)體關(guān)系。信息抽取的流程圖如圖4所示。
圖4 信息抽取流程Fig.4 Information extraction flowchart
第3 步 知識(shí)融合,主要分為實(shí)體對(duì)齊和事件共指兩方面。在結(jié)構(gòu)化文檔和非結(jié)構(gòu)化的文檔中抽取的實(shí)體可能是同一實(shí)體的不同名稱,因此實(shí)體對(duì)齊主要采用基于同義詞表的方法,手動(dòng)標(biāo)注出領(lǐng)域同義詞表,對(duì)齊后的實(shí)體屬性為合并前兩個(gè)實(shí)體屬性的并集。由于卷宗中不同文本文書會(huì)對(duì)同一事件重復(fù)描述,因此還需要識(shí)別出共指事件并合并,事件共指主要采用平均事件句的Word2Vec 詞向量計(jì)算余弦相似度的方法,如果大于給定閾值,則認(rèn)為事件共指,將兩個(gè)事件合并到一起,認(rèn)為這個(gè)新事件對(duì)應(yīng)兩個(gè)事件句,新事件的事件屬性為合并前兩個(gè)事件的事件屬性的并集。
第4 步 知識(shí)森林構(gòu)建。本文利用預(yù)構(gòu)建的卷宗本體將卷宗信息映射到知識(shí)森林,依據(jù)卷宗本體結(jié)構(gòu),將所有事件和部分實(shí)體放入主題集,屬性、非主題實(shí)體、卷宗碎片屬于分面集,主題和分面的關(guān)系由主題對(duì)應(yīng)的本體結(jié)構(gòu)確定。對(duì)于特殊的“案件相關(guān)行為”類型主題,本文認(rèn)為在同一個(gè)句子中的事件表達(dá)同一主題,因此將一句中所有事件的集合表示為一個(gè)主題,并通過依存句法分析將句子的主謂賓成分連接起來為該主題命名。知識(shí)森林的主題預(yù)定義關(guān)系由關(guān)系抽取的結(jié)果轉(zhuǎn)化而來,本文保留主題分面樹的主題間實(shí)體關(guān)系,但由于關(guān)系抽取的結(jié)果只限于實(shí)體之間,本文還需要進(jìn)一步挖掘“案件相關(guān)行為”類主題分面樹的主題關(guān)系。因此本文加入啟發(fā)式規(guī)則作為補(bǔ)充:如果“案件相關(guān)行為”類主題分面樹中事件的施加者、承受者屬性和其他主題分面樹的主題實(shí)體對(duì)齊,如果該主題是“案件相關(guān)人”類實(shí)體本文認(rèn)為該分面樹和“案件相關(guān)行為”類主題分面樹的關(guān)系是參與,如果該主題是“案件相關(guān)物”類實(shí)體本文認(rèn)為該分面樹和“案件相關(guān)行為”類主題分面樹的關(guān)系是證明;本文利用文檔敘述事件的先后順序作為“案件相關(guān)行為”類主題分面樹之間的順承關(guān)系。知識(shí)森林構(gòu)建的偽代碼如下。
第5 步 知識(shí)森林存儲(chǔ)及可視化。本文將知識(shí)森林的數(shù)據(jù)寫入關(guān)系型數(shù)據(jù)庫Mysql 進(jìn)行存儲(chǔ),使用SpringBoot 框架Java 開發(fā)的后端,并基于Angular 框架利用D3.js 和echarts插件實(shí)現(xiàn)前端進(jìn)行可視化展示。
為了驗(yàn)證知識(shí)森林自動(dòng)構(gòu)建方法,本文對(duì)部分方法做了小范圍內(nèi)的評(píng)估,包括卷宗碎片化、事件抽取、事件共指。本實(shí)驗(yàn)環(huán)境在1080Ti 8 GB GPU 環(huán)境下進(jìn)行,使用PyTorch 框架進(jìn)行開發(fā)。
3.2.1 數(shù)據(jù)集
本文在8 份完整脫敏的卷宗上進(jìn)行了測試,其中有3 份刑事卷宗、1 份民事卷宗、4 份行政卷宗。平均每份卷宗包括31 份文件材料,最多的包含了52 份文件材料。對(duì)于單個(gè)文書來說,結(jié)構(gòu)化文書2 頁篇幅最為常見,非結(jié)構(gòu)化文書平均篇幅5 頁,最長可以達(dá)到9 頁。
由于卷宗數(shù)據(jù)的特殊性,不能大量獲取卷宗,在裁判文書網(wǎng)下載了300 份公開的裁判文書作為訓(xùn)練和測試的補(bǔ)充數(shù)據(jù),考慮到刑事、民事、行政文書之間的內(nèi)容和格式都有所不同,本文隨機(jī)抽取100 份民事文書、100 份刑事文書、100 份行政文書。
3.2.2 卷宗碎片化
對(duì)于文書分類,本文在8 份完整卷宗上進(jìn)行測試并交由人工審核,評(píng)估得到基于觸發(fā)詞進(jìn)行分類的效果的精確率為89.4%,召回率為87.5%,F(xiàn)1 值為88.4% 。對(duì)于文本分割,本文對(duì)300 份判決書進(jìn)行人工標(biāo)注,最終獲得標(biāo)注數(shù)據(jù)6 481 條,隨機(jī)選擇5 833 條作為訓(xùn)練數(shù)據(jù),648 條作為測試數(shù)據(jù),評(píng)估結(jié)果如表1 所示,該結(jié)果表明該碎片化方法可以較為準(zhǔn)確地分割實(shí)際卷宗文書。其中,“案件相關(guān)行為”類別的F1 分?jǐn)?shù)為89.91%,與“案件相關(guān)人”類別和“案件相關(guān)物”類別相比,該類別分?jǐn)?shù)較低,這是因?yàn)椤鞍讣嚓P(guān)行為”類碎片在判決書中出現(xiàn)在案件事實(shí)相關(guān)段落,文書中常多處提及案件事實(shí)且內(nèi)容豐富多樣,因此訓(xùn)練集和測試集差異較大,模型在測試集上擬合不夠充分,考慮增加更多提及事實(shí)的文書進(jìn)行訓(xùn)練。
表1 文本分割結(jié)果Tab.1 Results of text segmentation
3.2.3 事件抽取
對(duì)于事件抽取,本文采用了一種比較元組的方法進(jìn)行結(jié)果評(píng)估,如果只比較兩個(gè)元組是否完全相同,會(huì)忽略掉那些部分正確的元組,因此本文參照Wang 等[18]的5W1H 事件屬性抽取方法中的評(píng)估方式,采用字符串相似性度量來評(píng)估,結(jié)果如表2 所示。
表2 事件抽取結(jié)果Tab.2 Results of event extraction
本文隨機(jī)選取30 份民事文書、30 份刑事文書、30 份行政文書,在90 份文書上進(jìn)行測試,發(fā)現(xiàn)“時(shí)間”和“地點(diǎn)”屬性的抽取效果比“施加者”和“承受者”屬性更好,這是因?yàn)椤笆┘诱摺焙汀俺惺苷摺痹谙嗤髡Z賓語的情況下經(jīng)常被省略或用代詞代替導(dǎo)致出現(xiàn)抽取結(jié)果出錯(cuò)的情況,且由于卷宗文書多長句,“承受者”和“施加者”屬性和“行為”屬性關(guān)聯(lián)度更高,SRL 系統(tǒng)受到長句中多個(gè)“施加者”“行為”“承受者”屬性的信息干擾,難以發(fā)現(xiàn)其潛在相關(guān)聯(lián)系,因此“承受者”和“施加者”屬性的抽取精度較低。SRL 系統(tǒng)輸出的結(jié)果還會(huì)出現(xiàn)分詞錯(cuò)誤等問題,如觸發(fā)詞和屬性分詞錯(cuò)誤,導(dǎo)致抽取的結(jié)果含義不清,從而影響事件抽取的結(jié)果,但這種情況對(duì)知識(shí)森林構(gòu)建方法而言僅為獨(dú)立影響并允許獨(dú)立改善。
3.2.4 事件共指
本文將事件間余弦相似度大于給定閾值的事件識(shí)別為共指事件。本文選擇一份卷宗中不同文書對(duì)同一事件進(jìn)行描述的事件句作為正例,隨機(jī)選擇不同事件句作為負(fù)例,正負(fù)例比例為1∶1,共200 組數(shù)據(jù),構(gòu)建卷宗語義匹配數(shù)據(jù)集。為了確定最佳的閾值,本文在卷宗的語義匹配數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),計(jì)算了不同閾值對(duì)結(jié)果的影響。表3 顯示了不同閾值下對(duì)相似性判斷結(jié)果的影響。最終,本文設(shè)定閾值為0.7,最佳的準(zhǔn)確率(acc)值為0.73。
表3 事件共指結(jié)果Tab.3 Results of event coreference
本文以一刑事初審卷宗為例,對(duì)該卷宗構(gòu)建知識(shí)森林后,卷宗知識(shí)森林的主題及其對(duì)應(yīng)分面碎片數(shù)量和主題關(guān)系數(shù)量統(tǒng)計(jì)情況如表4、5 所示。
表4 卷宗知識(shí)森林主題分面樹構(gòu)建結(jié)果Tab.4 Results of topic facet tree construction of case file knowledge forest
卷宗知識(shí)森林可視化界面如圖5 所示,該界面由兩個(gè)組件組成,包括知識(shí)森林概覽和主題分面樹展示。在知識(shí)森林概覽部分可以總覽所有的卷宗主題和主題關(guān)系,然后在主題分面樹部分提供有關(guān)所選主題的主題分面樹信息。可以看到在此案件中,在“案件相關(guān)人”“案件相關(guān)物”“案件相關(guān)行為”“卷宗基本信息”主題類下存在多個(gè)主題,如“案件相關(guān)人”主題類下對(duì)應(yīng)的被告“盧*玲”等主題,“案件相關(guān)行為”主題類下對(duì)應(yīng)的“于*海提供車輛”等主題,在此部分,用戶可以針對(duì)具體的閱卷目標(biāo)選擇相關(guān)主題,避免了因閱卷目標(biāo)難定位帶來的迷航問題。
圖5 卷宗知識(shí)森林可視化結(jié)果Fig.5 Case file knowledge forest visualization result
表5 卷宗知識(shí)森林主題關(guān)系構(gòu)建結(jié)果Tab.5 Topic relationship construction results of case file knowledge forest
用戶可以在知識(shí)森林概覽部分點(diǎn)擊某個(gè)主題,主題分面樹部分會(huì)顯示所選主題的主題分面樹信息,同時(shí)知識(shí)森林概覽部分也會(huì)展示只與該主題有關(guān)系的主題。如圖6 所示,通過點(diǎn)擊“于*海提供車輛”主題,可以看到該主題對(duì)應(yīng)的主題分面樹信息,包括事件屬性和對(duì)應(yīng)的卷宗碎片,并直接地展示該事件的參與者、該事件前后順承發(fā)生的事件,以及證明該事件發(fā)生的證據(jù)。通過提供相關(guān)主題和主題分面樹信息,用戶可以選擇閱讀相關(guān)分面和對(duì)應(yīng)的卷宗碎片來滿足閱卷中不同的關(guān)注目標(biāo),“順承”關(guān)系相連的事件展現(xiàn)了案情發(fā)展經(jīng)過,提供該主題發(fā)生的上下文,“參與”和“證明”關(guān)系連接了與該事件相關(guān)的人或物,為針對(duì)不同閱卷目標(biāo)選擇相關(guān)主題進(jìn)行閱卷提供了可能。
圖6 卷宗知識(shí)森林點(diǎn)擊效果Fig.6 Case file knowledge forest clicking result
本文認(rèn)為提取的主題和主題關(guān)系能夠滿足用戶閱卷中的不同的關(guān)注點(diǎn)。具體來說,案件相關(guān)行為類主題中分別包含從起訴書和上訴狀中提取的多個(gè)案件事實(shí),能夠滿足發(fā)現(xiàn)案件事實(shí)沖突等相關(guān)閱卷目標(biāo)。案件相關(guān)人類主題中被告“張*”包含嫌疑人身份證明和起訴書案件相關(guān)人部分兩個(gè)碎片,能夠滿足確定犯罪嫌疑人情況的閱卷目標(biāo)。案件相關(guān)物類主題的“訊問筆錄”和“補(bǔ)充偵查函”等主題能夠滿足確定偵察活動(dòng)是否合法的閱卷需要。案件相關(guān)人和案件事實(shí)類主題之間的參與關(guān)系能夠滿足判斷有無遺漏罪行、是否應(yīng)予追究刑事責(zé)任的閱卷目標(biāo)。案件相關(guān)物類主題和案件相關(guān)行為類主題之間的證明關(guān)系能夠滿足判斷證據(jù)是否充分的閱卷目標(biāo)。
知識(shí)森林提供了卷宗的相關(guān)內(nèi)容展示,用戶可以針對(duì)具體的閱卷目標(biāo)選擇相關(guān)主題,避免了因閱卷目標(biāo)難定位帶來的迷航問題,通過瀏覽主題分面樹的相關(guān)分面,為針對(duì)不同閱卷目標(biāo)選擇相關(guān)主題進(jìn)行閱卷提供了可能。同時(shí),在知識(shí)融合、知識(shí)森林構(gòu)建步驟中的信息處理方法可以緩解冗余信息帶來的信息過載問題。在知識(shí)森林可視化界面中,用戶通過選擇特定卷宗和點(diǎn)擊卷宗知識(shí)森林的樹就能夠?qū)崿F(xiàn)卷宗內(nèi)容的大致了解和問題定位,滿足用戶友好性和易用性的要求。
因此,本文認(rèn)為知識(shí)森林的可視化結(jié)果能夠滿足用戶的閱卷需求,且提高了閱卷效率,可以緩解閱卷過程中的信息過載和迷航問題。
本文提出了一種表達(dá)卷宗內(nèi)容的知識(shí)森林模型,可以較為完整、準(zhǔn)確地展示卷宗信息,組織分散的知識(shí)碎片和復(fù)雜的卷宗主題,其中卷宗本體提供了一個(gè)系統(tǒng)性的卷宗內(nèi)容表示框架。然后本文結(jié)合知識(shí)抽取、知識(shí)融合等方法實(shí)現(xiàn)了一種卷宗知識(shí)森林構(gòu)建方法,并以實(shí)驗(yàn)驗(yàn)證了該方法可以在實(shí)際卷宗中構(gòu)建知識(shí)森林,最后本文通過實(shí)例展示了本文方法的有效性和合理性。
在以后的工作中,如何將多媒體的知識(shí)比如現(xiàn)場照片或?qū)弳栦浺舻纫暵犢Y料類證據(jù)融入卷宗知識(shí)森林也是重要的研究內(nèi)容。需要指出的是,本文提出的知識(shí)森林自動(dòng)構(gòu)建的實(shí)現(xiàn)方法還有待進(jìn)一步改進(jìn),如面對(duì)復(fù)雜案件時(shí),計(jì)算事件共指的方法錯(cuò)誤率較高,可以結(jié)合結(jié)構(gòu)化的事件抽取結(jié)果對(duì)其進(jìn)行改進(jìn)。