司徒凌云 石 進 楊海平 沈固朝
(南京大學(xué)信息管理學(xué)院 南京 210023)
南海疆占中國海洋國土面積的三分之二,不僅是國家安全的天然屏障、重要的出??谂c戰(zhàn)略通道,也是未來重要的能源接續(xù)區(qū)與資源基地。大國博弈背景下,南海疆維權(quán)關(guān)乎國家安全、區(qū)域和平與亞太經(jīng)濟發(fā)展。隨著域外勢力對南海疆域的持續(xù)介入與南海問題司法化進程的不斷推進,加快收集、整理南海疆維權(quán)資料,深入挖掘維權(quán)證據(jù),充分厘清證據(jù)關(guān)系,有序組織證據(jù)鏈條,設(shè)計構(gòu)建南海疆維權(quán)證據(jù)鏈系統(tǒng),已成為支撐南海疆維權(quán)斗爭,服務(wù)中國海洋強國戰(zhàn)略的重要任務(wù)與迫切需求。
眾多研究機構(gòu)在南海疆資料的收集與整理方面進行了大量工作,取得了階段性成果。以中國南海研究協(xié)同創(chuàng)新中心、中國南海研究院等機構(gòu)為例,經(jīng)過十多年的努力,在對南海疆資料人工收集、整理、編碼以及數(shù)字化的基礎(chǔ)上,初步建立了文獻數(shù)據(jù)庫、法律數(shù)據(jù)庫、地圖數(shù)據(jù)庫、網(wǎng)絡(luò)信息數(shù)據(jù)庫、影像數(shù)據(jù)庫、民國檔案數(shù)據(jù)庫、索引數(shù)據(jù)庫以及外國檔案數(shù)據(jù)庫。這些數(shù)據(jù)庫群的建立為南海疆維權(quán)證據(jù)鏈系統(tǒng)的構(gòu)建奠定了扎實的數(shù)據(jù)基礎(chǔ)。
南海疆維權(quán)所需的歷史證據(jù)和法理證據(jù)淹沒在文獻的汪洋大海之中,盡管數(shù)字化的全文數(shù)據(jù)庫群可在一定程度上減輕了人們在傳統(tǒng)圖書館中皓首窮經(jīng)的時間耗費,但要從成千上萬的圖書、論文、網(wǎng)頁、地圖等數(shù)字載體上高效、便捷地讀取所需的關(guān)鍵證據(jù)信息,仍然非常困難。南海疆維權(quán)證據(jù)鏈系統(tǒng)的構(gòu)建就是致力于實現(xiàn)面向多形式、多載體的知識關(guān)聯(lián)和內(nèi)容分析系統(tǒng),使之完成證據(jù)信息的挖掘工作,并清晰地展現(xiàn)給用戶。目前,南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建所面臨關(guān)鍵問題在于如何基于內(nèi)容語義進行細粒度證據(jù)實體的抽取與表示,對多模態(tài)證據(jù)實體進行深層次的關(guān)系挖掘與關(guān)聯(lián),以及基于司法維權(quán)視角有效進行證據(jù)組織與可視化。
本文首先總結(jié)了南海疆維權(quán)證據(jù)鏈的國內(nèi)外研究現(xiàn)狀,指出了目前研究工作的局限;然后,在明確定義南海疆維權(quán)證據(jù)鏈相關(guān)概念的基礎(chǔ)上,設(shè)計了南海疆維權(quán)證據(jù)鏈系統(tǒng)的總體架構(gòu)與核心功能;接著,提出了基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建技術(shù)體系,詳細闡述了核心技術(shù),包括多模態(tài)細粒度證據(jù)實體的抽取與表示,證據(jù)實體的多層次關(guān)系抽取與跨模態(tài)鏈接,以及司法維權(quán)視角下的證據(jù)鏈的有效組織與可視化。最后,從服務(wù)南海疆域維權(quán)實踐、南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn),以及南海疆?dāng)?shù)字人文敘事三個方面論述了基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)的應(yīng)用價值。
南海疆維權(quán)證據(jù)鏈的研究涉及南海疆資料的收集與整理、證據(jù)鏈理論設(shè)計與構(gòu)建實踐、以及多模態(tài)知識圖譜的應(yīng)用。
1.1南海疆資料收集與整理國內(nèi)外南海疆資料的收集與整理研究呈現(xiàn)出數(shù)據(jù)類型多元化、資料處理數(shù)字化的特征,目前基于南海疆資料進行維權(quán)證據(jù)鏈構(gòu)建的研究較少。
1.1.1 數(shù)據(jù)多元化 隨著南海疆資料整理工作的不斷推進,資料來源、數(shù)據(jù)類型、載體形式極大豐富。除了傳統(tǒng)的紙質(zhì)文獻外,音頻、視頻、地圖、畫像、口述歷史、檔案文件等也納入了整理范疇。廈門大學(xué)的韓振華教授組織眾多專家在全國各地搜集了豐富的歷史記錄,并于1988年出版了《我國南海諸島史料匯編》,其中收錄了各類文獻形式的資料,包括圖書、雜志、方志、地圖、檔案、報紙以及調(diào)查資料等[1];1996年中國南海研究院吳士存的《民國時期的南海諸島問題》揭示了一批國民政府在南海諸島主權(quán)維護上的檔案[2];2016年中國邊疆文獻中心編著的《南海諸島圖集錄》,以圖文形式梳理了古今記載南海諸島情況的文獻與圖像,共包含文獻313種、圖像876幅;2018年廈門大學(xué)的李劍出版了《中國在南海的歷史性權(quán)利及證據(jù)目錄》[3],為開展相關(guān)研究工作提供了便利。
1.1.2 資料數(shù)字化 資料整理工作從文本化走向數(shù)字化與智能化,數(shù)據(jù)庫等信息技術(shù)被廣泛用于南海疆資料的整理研究。1994年中國社科院邊疆研究所的李國強編撰了《海南及南海諸島史地論著資料索引》[4]。1998年,吳士存等編撰的《南海資料索引》[5]為資料的搜集與整理提供了便利;2015年,廈門大學(xué)圖書館的鄭詠青以族譜、碑刻、田野調(diào)查、地方史料和中外地圖資料構(gòu)建了的“東南海疆研究數(shù)據(jù)庫”[6];2012年開始,沈固朝教授依托南京大學(xué)中國南海研究協(xié)同創(chuàng)新中心和信息管理學(xué)院,組織南海疆?dāng)?shù)字資源建設(shè),相關(guān)工作已持續(xù)了十余年,目前仍在進行中。這些數(shù)字化的資源建設(shè)為面向南海疆領(lǐng)域的知識組織與知識發(fā)現(xiàn),以及南海疆維權(quán)證據(jù)鏈系統(tǒng)的構(gòu)建奠定了扎實的基礎(chǔ)。
1.2證據(jù)鏈理論與構(gòu)建實踐證據(jù)鏈的概念源于法學(xué)界,應(yīng)用于海疆維權(quán)的研究,目前主要以理論研究為主,構(gòu)建與實現(xiàn)仍處于起步階段。
1.2.1 證據(jù)鏈理論模型 證據(jù)鏈的概念產(chǎn)生于司法實踐,普通法與國際法學(xué)者在證據(jù)的認(rèn)定標(biāo)準(zhǔn)以及證據(jù)證明力大小的評判等方面都存在分歧。陳為鋼對刑事證據(jù)鏈的概念進行了梳理與歸納,將證據(jù)鏈定義為兩個或兩個以上證據(jù)的集合,是證據(jù)之間相互聯(lián)結(jié)形成的能夠相互印證、揭示案件事實的證明集合體[7];栗崢對證據(jù)鏈的結(jié)構(gòu)主義進行了論述[8]。鄭飛對證據(jù)鏈中證據(jù)的屬性層次進行了探討[9]。蔡作斌闡述了證據(jù)鏈完整性的標(biāo)準(zhǔn)與審查判斷的規(guī)則[9]。這些研究主要停留在概念辨析與理論模型階段。
1.2.2 證據(jù)鏈構(gòu)建實踐 2011年,Kuntze N使用可信計算模型構(gòu)建了安全證據(jù)生成器,通過對安全事件的收集與關(guān)聯(lián)構(gòu)建了數(shù)字證據(jù)鏈[11]。熊勝于2012年利用BP神經(jīng)網(wǎng)絡(luò)對電子證據(jù)進行收集與分析,根據(jù)不同主線輸出相應(yīng)的證據(jù)鏈條[12]。馬國富在2013年提出了可信電子證據(jù)的獲取與鑒定模型,將證據(jù)鏈應(yīng)用于司法鑒定[13]。秦東在2016年提出了三層框架的數(shù)據(jù)關(guān)聯(lián)模型,為南海文獻資料證據(jù)鏈的構(gòu)建提供模型支撐[14]。2019年,陳書鵬設(shè)計了基于AI的南海主權(quán)證據(jù)知識管理系統(tǒng)[15]。張衛(wèi)彬提出基于證明力大小構(gòu)造論證中國擁有南沙群島主權(quán)證據(jù)鏈[16]。這些研究所能處理的數(shù)據(jù)類型單一、以文本型數(shù)據(jù)為主,數(shù)據(jù)規(guī)模有限,未充分考慮司法維權(quán)應(yīng)用場景的特征和需求,可拓展性有待提高。
1.3多模態(tài)知識圖譜的應(yīng)用多模態(tài)知識圖譜技術(shù)對多模態(tài)數(shù)據(jù)的表示與關(guān)聯(lián)能力可以很好的應(yīng)用于多元數(shù)據(jù)的組織、分析與關(guān)聯(lián)。國內(nèi)外關(guān)于知識圖譜技術(shù)的發(fā)展與應(yīng)用研究已經(jīng)有了一定的積累。
1.3.1 多模態(tài)知識圖譜的發(fā)展 知識圖譜技術(shù)最早由Google于2012年提出,經(jīng)過近10年的發(fā)展,已經(jīng)成為了一種有效的知識表示、組織、關(guān)聯(lián)與展示技術(shù),被廣泛應(yīng)用于推薦系統(tǒng)、自動問答、信息檢索等方面[17]。2019年,多模態(tài)知識圖譜[18]被提出,相較于傳統(tǒng)的知識圖譜,多模態(tài)知識圖譜實現(xiàn)了對多種模態(tài)(包含視覺模態(tài))實體的支持,可以對多種模態(tài)實體間的多層次語義關(guān)系進行關(guān)聯(lián)[19]。以IMGpedia、MMKG、Richpedia等為代表的多模態(tài)知識圖譜系統(tǒng)已經(jīng)驗證了該技術(shù)對多模態(tài)類型數(shù)據(jù)組織關(guān)聯(lián)的可行性和先進性。
1.3.2 知識圖譜的司法應(yīng)用 在司法場景中應(yīng)用知識圖譜,國內(nèi)外已有一些初步嘗試。2017年FILTZ E提出了奧地利法律法規(guī)、法院判決的表示方法,并構(gòu)建了法律、法規(guī)的知識圖譜[20]。2019年陳彥光等利用文本分類和信息抽取技術(shù)構(gòu)建面向刑事案例的知識圖譜[21]。陳建峽等基于Neo4j構(gòu)建了司法案件的知識圖譜,并支持可視化展示[22]。但是,目前知識圖譜的應(yīng)用研究還是主要面向單一模態(tài)的文本類型數(shù)據(jù),對于多模態(tài)知識圖譜技術(shù)的司法應(yīng)用研究較少。
系統(tǒng)總體設(shè)計是南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建的基礎(chǔ)。我們首先界定了南海疆維權(quán)證據(jù)鏈系統(tǒng)的相關(guān)概念,然后基于軟件工程方法設(shè)計了南海疆維權(quán)證據(jù)鏈系統(tǒng)的層次架構(gòu)與核心功能。
2.1概念的界定南海疆維權(quán)證據(jù)鏈工程研究是融合法學(xué)、計算機科學(xué)、情報學(xué)等多學(xué)科的交叉學(xué)科研究。為了避免由于學(xué)科差異造成對相關(guān)概念理解的偏差,首先對文中出現(xiàn)的南海疆維權(quán)證據(jù)鏈相關(guān)概念,如證據(jù)、證據(jù)鏈、維權(quán)證據(jù)鏈、南海疆維權(quán)證據(jù)鏈以及南海疆維權(quán)證據(jù)鏈系統(tǒng)進行說明。
證據(jù)是指依照司法訴訟規(guī)則可被用于證明案件事實的各種證明材料[5]。證明材料是司法訴訟中當(dāng)事人向法院提供的,法院依照職權(quán)收集的用于證明案件事實的材料。證據(jù)來源于證明材料,只有具備證據(jù)特征,即相關(guān)性、真實性、合法性、適格性以及證明性的證明材料才能稱為證據(jù)[9]。證據(jù)分為直接證據(jù)與間接證據(jù)。直接證據(jù)是指能夠單獨、直接證明案件主要事實的證據(jù)。間接證據(jù)是指不能單獨、直接證明,需要與其他證據(jù)結(jié)合才能證明案件主要事實的證據(jù)。證據(jù)的類型可簡要概括為物證、書證、言證等。
證據(jù)鏈?zhǔn)侵赣蓛蓚€或兩個以上不同證據(jù)組成,用于證明案件事實的證據(jù)集合[5]。證據(jù)鏈要求邏輯性、順序性、唯一性以及完整性的統(tǒng)一。其中,邏輯性要求構(gòu)成證據(jù)鏈的各個證據(jù)之間存在必然的、內(nèi)在的聯(lián)系并且可以相互印證。順序性要求證據(jù)鏈上各個證據(jù)的排布要按照一定的順序,如案件發(fā)生的時間順序等。唯一性不僅要求證據(jù)鏈的各個證據(jù)所證明的內(nèi)容是唯一的,而且要求各證據(jù)構(gòu)成的具有證明作用的證據(jù)鏈也是唯一的。完整性是指按照訴訟法的規(guī)定,經(jīng)依法收集并提交法庭審查、判斷,據(jù)以認(rèn)定案件事實的證據(jù)所達到的確實、充分的程度[9]。要達到確實、充分的程度,必須滿足:第一,對待證事實,即與案件有關(guān)的全部事實,都已收集與之相對應(yīng)的證據(jù);第二,所收集的證據(jù)已查證屬實;第三,證據(jù)之間、證據(jù)與案件事實之間不存在矛盾或矛盾已得到合理排除;第四,借助上述證據(jù)進行邏輯上的分析、判斷、歸納、綜合,得出的結(jié)論是唯一的。
南海疆維權(quán)證據(jù)鏈?zhǔn)侵竾H司法訴訟場景下維護南海疆權(quán)益主張的證據(jù)鏈。其中,南海疆權(quán)益主張包括領(lǐng)土主權(quán)和主權(quán)性權(quán)利,一般通過證據(jù)說明早發(fā)現(xiàn)、早命名、先占等來進行證明[23]。南海疆維權(quán)證據(jù)鏈系統(tǒng)是以軟件系統(tǒng)的形式,進行自動化的南海疆?dāng)?shù)字資料的存儲與處理,實現(xiàn)多模態(tài)細粒度證據(jù)的抽取與表示、檢索與關(guān)聯(lián)、組織與展示等功能,應(yīng)用于國際司法場景,為維護南海疆權(quán)益主張快速提供證明鏈條。維權(quán)證據(jù)鏈系統(tǒng)主要為研究人員提供被稱之為證據(jù)的材料或信息。至于證據(jù)的價值,需要研究人員在證據(jù)學(xué)的指導(dǎo)下,參照有關(guān)學(xué)科的理論和實踐經(jīng)驗進行判斷。
2.2系統(tǒng)架構(gòu)設(shè)計面向司法維權(quán)的應(yīng)用場景,筆者設(shè)計了如圖1所示的南海疆維權(quán)證據(jù)鏈系統(tǒng)的層次架構(gòu)。自底向上,該系統(tǒng)可以劃分為六個層次,分別為資料層、處理層、數(shù)據(jù)層、證據(jù)層、關(guān)系層以及應(yīng)用層。
圖1 證據(jù)鏈系統(tǒng)的架構(gòu)設(shè)計
資料層是指南海疆相關(guān)的原始資料。資料的類型包括文獻資料,如期刊論文、會議論文、學(xué)位論文、科技報告、圖書報紙等;檔案資料,即從各類檔案館收集的館藏檔案;圖片資料,如南海疆相關(guān)的地圖、畫冊、碑刻等;影音資料,即廣播電視、歷史口述、會議錄音、人物采訪的音頻、視頻等;法律資料,即各時期普通法與國際法中與海疆相關(guān)的條文與規(guī)范等。
處理層是指對資料層進行預(yù)處理的工具集,負(fù)責(zé)將粗粒度、非結(jié)構(gòu)化的原始資料自動、批量地轉(zhuǎn)化為細粒度、結(jié)構(gòu)化的數(shù)據(jù)。該層主要包含外文翻譯、文言識別、音視頻文字化、元數(shù)據(jù)標(biāo)引和分類,以及長內(nèi)容的細化切分等,通過將龐大繁雜的原始資料表示為細粒度的、結(jié)構(gòu)化的、全文化的可編輯數(shù)據(jù),在經(jīng)過一定程度的人工標(biāo)注與語義轉(zhuǎn)化后存儲到相應(yīng)的數(shù)據(jù)庫。
數(shù)據(jù)層是南海疆的數(shù)據(jù)倉庫,是存儲預(yù)處理之后細粒度、結(jié)構(gòu)化數(shù)據(jù)的多種類型數(shù)據(jù)庫的集成,并提供對不同類型數(shù)據(jù)的維護與更新。數(shù)據(jù)層底層支持多種類型的數(shù)據(jù)庫,包括關(guān)系型數(shù)據(jù)庫、 圖形數(shù)據(jù)庫、列式數(shù)據(jù)庫、 鍵值數(shù)據(jù)庫和分布式數(shù)據(jù)庫等。
證據(jù)層是南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建的核心。一方面,負(fù)責(zé)對數(shù)據(jù)庫中存儲的數(shù)據(jù)進行進一步的分析,實現(xiàn)數(shù)據(jù)到證據(jù)的轉(zhuǎn)化,包括證據(jù)實體抽取、證據(jù)關(guān)系抽取、實體的消歧、共指的消解等。另一方面,負(fù)責(zé)對結(jié)構(gòu)化數(shù)據(jù)進行自動化的屬性標(biāo)引,從而形成帶標(biāo)簽的證據(jù)實體。
關(guān)系層是南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建的關(guān)鍵。一方面,負(fù)責(zé)對證據(jù)間深層次關(guān)系的抽取以及關(guān)聯(lián)規(guī)則的挖掘;另一方面,負(fù)責(zé)將標(biāo)記好的證據(jù)實體,根據(jù)證據(jù)關(guān)系與關(guān)聯(lián)規(guī)則進行有效組織,包括證據(jù)屬性共現(xiàn)關(guān)系的組織,司法論證邏輯關(guān)系的組織、以及證明力大小關(guān)系的組織等。
應(yīng)用層是南海疆維權(quán)證據(jù)鏈系統(tǒng)的實際應(yīng)用,主要面向具體用戶,服務(wù)于具體應(yīng)用場景,支撐具體的南海疆維權(quán)實際工作,包括證據(jù)實體的智能檢索與排序,證據(jù)鏈條的知識圖譜展示,證據(jù)內(nèi)容的分享與推薦,證據(jù)知識的發(fā)現(xiàn)與關(guān)聯(lián)等。
2.3系統(tǒng)功能設(shè)計南海疆維權(quán)證據(jù)鏈系統(tǒng)的主要功能設(shè)計如圖2所示,大致可以劃分為數(shù)據(jù)預(yù)處理、證據(jù)實體抽取、證據(jù)關(guān)系抽取、證據(jù)關(guān)聯(lián)組織以及證據(jù)鏈應(yīng)用交互等五大功能模塊。
圖2 證據(jù)鏈系統(tǒng)的功能設(shè)計
數(shù)據(jù)預(yù)處理功能模塊對應(yīng)一組預(yù)處理工具集,以實現(xiàn)原始資料的文本化、圖片化和結(jié)構(gòu)化。該工具集一般包括:a.外文翻譯工具,主要負(fù)責(zé)將非中文的南海疆文字資料翻譯為中文,將手寫體轉(zhuǎn)換為印刷體,以便于后續(xù)的處理;b.古籍識別工具,主要負(fù)責(zé)對歷史文獻中以書法、篆刻、文言、豎排等形式的古籍文字進行自動化識別與數(shù)字化;c.圖片轉(zhuǎn)譯工具,主要實現(xiàn)對圖片內(nèi)容的識別,自動化將圖片中出現(xiàn)的文字解析為文本文字;d.音視頻打點軟件,主要負(fù)責(zé)對音、視頻內(nèi)容進行解析,自動提煉出南海疆維權(quán)相關(guān)的片段;e.內(nèi)容切割軟件,主要負(fù)責(zé)對文本、音視頻等長內(nèi)容進行細粒度的切割,將長篇、冗長的文獻與音視頻切分為以句或段為單元,以分鐘為單元的細粒度內(nèi)容。
證據(jù)實體抽取功能主要有三個子功能構(gòu)成,分別為基于規(guī)則的證據(jù)實體抽取模塊、基于統(tǒng)計的證據(jù)實體抽取,以及基于學(xué)習(xí)的證據(jù)實體抽取,三個子功能可以獨立使用,也可以融合并用。針對不同的數(shù)據(jù)類型,可以調(diào)整不同方法的使用?;谝?guī)則的證據(jù)實體抽取,基本思想是依賴人工分析與專家知識制定的通用的抽取規(guī)則,同時建立面向特定領(lǐng)域場景的語料庫,進而通過軟件程序?qū)崿F(xiàn)自動化的實體抽?。换诮y(tǒng)計的證據(jù)實體抽取的基本思想則是基于詞頻統(tǒng)計,將符合語料信息且頻繁出現(xiàn)的關(guān)鍵詞進行抽取,從而形成證據(jù)實體;基于學(xué)習(xí)的證據(jù)實體抽取一般先通過少量的人工標(biāo)記,然后運用人工智能算法進行模型訓(xùn)練,進而基于訓(xùn)練模型進行實體識別。
證據(jù)關(guān)系抽取功能主要考慮三種層次的關(guān)系抽取,分別為屬性層關(guān)系、邏輯層關(guān)系以及證明層關(guān)系。其中,屬性層關(guān)系是通過對證據(jù)的時間、空間、人物、事件、類型、來源、載體等客觀屬性的刻畫,并抽取不同證據(jù)之間橫向(如同一、共指等)與縱向(如時間變化、地點遷移等)的關(guān)系。邏輯層關(guān)系是指證據(jù)論證運用的演繹邏輯與歸納邏輯關(guān)系等;證明層關(guān)系則具體指司法維權(quán)場景下證據(jù)材料類型證明力大小的關(guān)系。
證據(jù)關(guān)聯(lián)組織功能主要基于證據(jù)屬性、證據(jù)關(guān)系以及證明主張,按照一定的規(guī)則將證據(jù)進行結(jié)構(gòu)形式上與語義內(nèi)容上的組織,形成單一或復(fù)合鏈條形式的證據(jù)鏈。筆者設(shè)計了四種典型的證據(jù)關(guān)聯(lián)組織模式,即基于屬性共現(xiàn)的關(guān)聯(lián)組織、基于論證邏輯的關(guān)聯(lián)組織、基于證明力大小的關(guān)聯(lián)組織和基于維權(quán)主張的關(guān)聯(lián)組織。四種組織模式的制定源于實際的運用需求,其中屬性共現(xiàn)的關(guān)聯(lián)有助于快速的證據(jù)分類,論證邏輯的組織有助于訴訟下的證據(jù)博弈與推薦,證明力大小的組織有利于司法訴訟的證據(jù)選擇,維權(quán)主張的組織有利于主張相關(guān)維權(quán)證據(jù)的快速檢索。
證據(jù)鏈應(yīng)用交互功能是為各類實際應(yīng)用提供交互接口,服務(wù)于南海疆證據(jù)鏈系統(tǒng)的實際用戶與具體場景。一方面,基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)可以提供多種關(guān)聯(lián)組織形態(tài)的可視化證據(jù)呈現(xiàn),便于用戶查閱與調(diào)整;另一方面,支持用戶對南海疆維權(quán)證據(jù)各層次數(shù)據(jù)(包括原始資料、數(shù)據(jù)、證據(jù)等)的智慧檢索與排序;同時,支持圍繞特定權(quán)益主張展示多形態(tài)的支撐證據(jù)鏈條,以及證據(jù)主題聚類的知識圖譜。進一步,還可以為南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn)提供數(shù)據(jù)資源,為南海疆?dāng)?shù)字人文敘事啟發(fā)敘述脈絡(luò)。
基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)的構(gòu)建技術(shù)體系如圖3所示,其核心技術(shù)包括多模態(tài)細粒度證據(jù)實體的抽取與表示、證據(jù)實體的關(guān)系抽取與跨模態(tài)鏈接,以及司法維權(quán)視角下的證據(jù)組織與可視化。
圖3 南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建技術(shù)體系
3.1多模態(tài)細粒度證據(jù)實體抽取與表示技術(shù)證據(jù)實體的抽取是證據(jù)鏈系統(tǒng)構(gòu)建的基礎(chǔ)。原始的南海疆資料具有多模態(tài)與粗粒度特征。一方面,原始資料包含文本、圖像、音頻、視頻等多種類型數(shù)據(jù);另一方面,原始資料的證據(jù)知識粒度較粗,長篇的文獻或音、視頻資料中可能只有局部內(nèi)容才可作為具有專指性、針對性的證據(jù)。為此,多模態(tài)細粒度證據(jù)實體的抽取與表示是南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建的核心技術(shù)之一。
第一,多模態(tài)證據(jù)實體的元數(shù)據(jù)建模技術(shù)。基于對多模態(tài)原始資料的預(yù)處理,包括文本化、圖片化與片段化等,結(jié)合證據(jù)要素特征,構(gòu)建證據(jù)多模態(tài)證據(jù)實體元數(shù)據(jù)模型,并從概念、屬性、關(guān)系等維度對文本化與圖片化的數(shù)據(jù)進行統(tǒng)一表示,以便于證據(jù)實體挖掘。
第二,細粒度證據(jù)實體的智能抽取技術(shù)。通過人工定義的抽取規(guī)則,人工標(biāo)注細粒度證據(jù)實體構(gòu)建原始訓(xùn)練數(shù)據(jù)集,進一步融合人工標(biāo)注結(jié)果與機器學(xué)習(xí)算法(如條件隨機場等)或深度學(xué)習(xí)算法(如長短期記憶網(wǎng)絡(luò)等)進行證據(jù)實體的自動識別與抽取。
第三,多模態(tài)證據(jù)實體的噪聲過濾技術(shù)。證據(jù)鏈要求的可靠和價值屬性是建立在證據(jù)實體唯一性的基礎(chǔ)之上,為了提升實體抽取的準(zhǔn)確性,保障證據(jù)實體的唯一性,基于實體抽取的初步結(jié)果,使用聚類算法(如k-means算法等)合并語義相同的有效實體,并過濾掉語義相關(guān)性較低的噪聲實體。
3.2證據(jù)實體的關(guān)系抽取與跨模態(tài)鏈接技術(shù)證據(jù)實體的關(guān)系關(guān)聯(lián)是證據(jù)鏈系統(tǒng)構(gòu)建的核心。在司法維權(quán)場景下,證據(jù)實體的關(guān)系不僅包含時間、地點、人物、事件等證據(jù)的客觀屬性關(guān)系,還包括因果、印證、對立等證據(jù)的論證邏輯關(guān)系以及證據(jù)證明力大小等關(guān)系。為此,證據(jù)實體的多層次關(guān)系抽取與跨模態(tài)鏈接是南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建的核心技術(shù)之一。
第一,證據(jù)實體的關(guān)系抽取技術(shù)。從司法實踐的視角出發(fā),利用深度學(xué)習(xí)方法實現(xiàn)對證據(jù)實體多層次關(guān)系的智能抽取,主要考慮三個層次的關(guān)系。屬性層關(guān)系,如時間、地點、歸屬、人物、事件等;邏輯層關(guān)系,如是否存在因果聯(lián)系、是否相互印證或是否相互矛盾等基于演繹推理與歸納推理的邏輯關(guān)系抽取是保障證據(jù)鏈邏輯性的關(guān)鍵;證明層關(guān)系,如基于證據(jù)的主題相關(guān)性、證據(jù)的載體類型分量、證據(jù)的客觀性、真實性與合法性等要素界定的證據(jù)證明力大小關(guān)系等;
第二,證據(jù)實體的跨模態(tài)鏈接技術(shù)?;谧C據(jù)實體與關(guān)系抽取的結(jié)果,進行多模態(tài)證據(jù)間的有效關(guān)聯(lián),主要包括:跨模態(tài)實體的消歧技術(shù),利用語義模型實現(xiàn)證據(jù)實體的消歧,利用統(tǒng)計機器學(xué)習(xí)算法進行證據(jù)實體的共指消解;多模態(tài)實體的融合技術(shù),對多模態(tài)的證據(jù)實體(如圖片、文字等)采用不同的神經(jīng)網(wǎng)絡(luò)提取結(jié)構(gòu)化表示,并引入注意力機制(Attention Mechanism)對多模態(tài)實體進行表示融合;跨模態(tài)實體的對齊技術(shù),通過網(wǎng)頁鏈接形式,對多模態(tài)的證據(jù)實體與關(guān)系進行表征。
3.3維權(quán)視角下的證據(jù)鏈組織與可視化技術(shù)證據(jù)鏈的組織與可視化是系統(tǒng)應(yīng)用的關(guān)鍵。在南海疆維權(quán)的實踐工作中,在司法維權(quán)的實際場景下,證據(jù)鏈組織的合理性、嚴(yán)謹(jǐn)性、完整性,以及證據(jù)鏈呈現(xiàn)的準(zhǔn)確性、直觀性,直接關(guān)乎權(quán)益主張的論證說服力。為了提高維權(quán)證據(jù)鏈在司法場景中應(yīng)用的有效性與效率,司法維權(quán)視角下的證據(jù)鏈組織與可視化也是核心技術(shù)之一。
第一,南海疆維權(quán)證據(jù)鏈的組織技術(shù)。結(jié)合司法維權(quán)的論證邏輯、證據(jù)鋪陳順序特征,進行證據(jù)實體的有效組織,包括完整的屬性共現(xiàn)關(guān)系鏈條組織(如時間序列鏈條、地點變遷鏈條、人物關(guān)系鏈條、事件發(fā)展鏈條等),嚴(yán)謹(jǐn)?shù)恼撟C邏輯關(guān)系鏈條組織(如因果邏輯鏈條、支撐證明鏈條、對立證偽鏈條等),多權(quán)益主張主題鏈條組織(如先占權(quán)益鏈條、有效統(tǒng)治權(quán)益證明鏈條等)。多維度鏈條的關(guān)系組織也是對于證據(jù)鏈順序性、邏輯性、完整性要求的有力支撐。
第二,南海疆維權(quán)證據(jù)鏈的可視化技術(shù)。利用可視化工具實現(xiàn)證據(jù)鏈多樣形式(如表格,魚刺圖、樹狀圖、網(wǎng)狀圖、甘特圖、氣泡圖等)的靈活展示,提供用戶友好性交互接口,支持用戶動態(tài)調(diào)整證據(jù)鏈的構(gòu)成與組織,包括證據(jù)實體的剔除與補缺等,進而支撐不同立場下的證據(jù)鏈應(yīng)用。
基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)有著細粒度內(nèi)容、多模態(tài)類型、多維度語義關(guān)聯(lián)的優(yōu)勢,對于南海疆維權(quán)實踐工作、南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn),以及南海疆?dāng)?shù)字人文敘事有著重要的應(yīng)用價值。
4.1南海疆維權(quán)實踐工作的支撐平臺面向南海疆維權(quán)的實踐工作,基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)是重要的支撐平臺。首先,它表現(xiàn)為證據(jù)鏈系統(tǒng)的應(yīng)用,可以實現(xiàn)對海量、多元、異構(gòu)的南海疆資料進行自動化預(yù)處理、細粒度切割、結(jié)構(gòu)化存儲,實現(xiàn)南海疆原始資料的批量清洗與精化;其次,證據(jù)鏈系統(tǒng)的應(yīng)用,可以通過便捷的查詢與推薦,為南海疆權(quán)益主張,快速提供證據(jù)的支撐;再次,證據(jù)鏈系統(tǒng)的應(yīng)用,可以在司法維權(quán)的訴訟場景下,基于論證邏輯提供多維度的證據(jù)鏈條,用“證據(jù)組合拳”,駁斥對方舉證;最后,在國際外交輿論戰(zhàn)場上,證據(jù)鏈系統(tǒng)的應(yīng)用,可以提供多重脈絡(luò)、多種形式的證據(jù)鏈條展示,以直觀、嚴(yán)謹(jǐn)、系統(tǒng)的證據(jù)鏈條完整地“還原”歷史全貌,駁斥不當(dāng)孤證的權(quán)益主張,有理有據(jù)地抵制和消弭歪曲歷史真相的輿論,維護我國南海疆權(quán)益。
4.2南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn)的資源庫面向南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn),基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)是重要的資源寶庫。證據(jù)鏈系統(tǒng)的應(yīng)用,可以一定程度擺脫對各種繁雜無序數(shù)據(jù)的人工處理,實現(xiàn)南海疆?dāng)?shù)字資源的自動化收集與整理;證據(jù)鏈系統(tǒng)中存儲的海量、多元的有效數(shù)據(jù),包括大量結(jié)構(gòu)化的文獻、圖片、影音資料等,為進一步的海疆?dāng)?shù)據(jù)挖掘奠定了重要的數(shù)據(jù)基礎(chǔ);證據(jù)鏈系統(tǒng)中內(nèi)置了的眾多語料庫與標(biāo)記規(guī)則集合,集成了眾多語義分析算法、智能分析工具、知識表示與知識推理組件,為面向具體問題的知識發(fā)現(xiàn)提供了便利條件;十多年來證據(jù)鏈工程建設(shè)已經(jīng)較系統(tǒng)地抽取并梳理出了眾多史實事件、時序關(guān)系、邏輯脈絡(luò),為進一步的面向核心爭點問題的研究提供了重要的線索。
4.3南海疆?dāng)?shù)字人文敘事的重要依托面向南海疆?dāng)?shù)字人文歷史敘事,基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)是重要的依托,對于真實地還原史實、生動地敘述歷史、講好中國故事有著重要的意義。歷史敘事對于史料的真實性、敘事脈絡(luò)的條理性有著嚴(yán)格的要求?;诙嗄B(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)的應(yīng)用,一方面可以基于真實資料構(gòu)建的證據(jù)鏈條,實現(xiàn)從局部證據(jù)到完整內(nèi)容的有效追溯,可以實現(xiàn)從碎片史料到關(guān)聯(lián)史料以及全景史料的探究,可以實現(xiàn)從單一脈絡(luò)到多重脈絡(luò)的史實還原與印證。另一方面,基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)已有的深層次關(guān)系挖掘與關(guān)聯(lián)組織優(yōu)勢,可以為數(shù)字人文敘事的藝術(shù)創(chuàng)作提供新的啟迪,創(chuàng)新敘事邏輯與脈絡(luò),揭示史料獨特的解讀視角,結(jié)合多種模態(tài)數(shù)據(jù),利用多種媒體手段,以通俗易懂、生動形象的方式講好中國故事。
筆者總結(jié)了南海疆維權(quán)證據(jù)鏈的國內(nèi)外研究現(xiàn)狀,指出了目前研究工作的局限與挑戰(zhàn),設(shè)計了南海疆維權(quán)證據(jù)鏈系統(tǒng)的層次架構(gòu)與核心功能,提出了基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)構(gòu)建技術(shù)體系,并從服務(wù)南海疆域維權(quán)實踐工作、南海疆?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn),以及南海疆?dāng)?shù)字人文敘事三個維度分析了基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)的應(yīng)用價值。
筆者認(rèn)為,基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)架構(gòu)與功能的設(shè)計,以及構(gòu)建技術(shù)體系的建立,可為南海疆維權(quán)證據(jù)鏈系統(tǒng)的實現(xiàn)奠定基礎(chǔ)和指明方向。南海疆維權(quán)證據(jù)鏈系統(tǒng)的構(gòu)建是一個復(fù)雜工程,應(yīng)秉持以實際需求為導(dǎo)向、多學(xué)科融合為途徑,人工與計算協(xié)同為方法,通過迭代式、增量式、反饋制導(dǎo)的方式有序推進基于多模態(tài)知識圖譜的南海疆維權(quán)證據(jù)鏈系統(tǒng)的實現(xiàn)與優(yōu)化。