• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于知識(shí)圖譜的書證目錄知識(shí)發(fā)現(xiàn)研究*
      ——以南海書證目錄為例

      2022-04-12 04:00:46王燕紅司徒凌云楊海平
      情報(bào)雜志 2022年3期
      關(guān)鍵詞:書證島礁南海

      王燕紅 司徒凌云 楊海平 程 為

      (1.南京大學(xué)信息管理學(xué)院 南京 210023;2.南京農(nóng)業(yè)大學(xué)信息科技學(xué)院 南京 210023)

      0 引 言

      知識(shí)發(fā)現(xiàn)的定義是由Fayyad等在1996年提出,指從數(shù)據(jù)集中提取有效的、新穎的、潛在有用的、可理解的模式的非平凡過(guò)程。知識(shí)發(fā)現(xiàn)過(guò)程呈現(xiàn)“數(shù)據(jù)—信息—知識(shí)”的邏輯演變[1]。從知識(shí)發(fā)現(xiàn)的視角,通過(guò)文獻(xiàn)內(nèi)容挖掘與分析建立文獻(xiàn)內(nèi)容之間的內(nèi)部鏈接關(guān)系,向下通過(guò)具象化加工處理成時(shí)間、地點(diǎn)、人物等分類實(shí)體數(shù)據(jù),向上通過(guò)關(guān)聯(lián)化發(fā)現(xiàn)有價(jià)值的知識(shí),表明數(shù)據(jù)分析有利于挖掘隱性知識(shí)并賦能知識(shí)發(fā)現(xiàn),促使信息資源向知識(shí)型信息資源轉(zhuǎn)換,體現(xiàn)出三者相互融合、層層遞進(jìn)的邏輯演變。

      但武漢大學(xué)馬費(fèi)成教授[2]提出人工智能、大數(shù)據(jù)等新技術(shù)在很大程度上將傳統(tǒng)的由事實(shí)、數(shù)據(jù)、信息、知識(shí)、情報(bào)(智能)所構(gòu)成的、漸進(jìn)式的信息鏈機(jī)構(gòu)發(fā)生改變,對(duì)知識(shí)、情報(bào)和解決方案的挖掘可以在任意階段進(jìn)行。因而,本研究希望對(duì)南海書證目錄的知識(shí)發(fā)現(xiàn)研究,通過(guò)利用知識(shí)圖譜技術(shù),在對(duì)數(shù)據(jù)進(jìn)行深度挖掘和分析的基礎(chǔ)上,提煉升華成知識(shí),促使其實(shí)現(xiàn)直接從數(shù)據(jù)層到知識(shí)層的跨越,深度揭示不同知識(shí)對(duì)象,并支持關(guān)聯(lián)與組織,從而探索知識(shí)發(fā)現(xiàn)的新研究范式。

      1 南海文獻(xiàn)目錄整理現(xiàn)狀

      在南海檔案資料整理的檢索工具編制方面,早在1948年, 我國(guó)著名圖書館學(xué)家杜定友先生編纂的專題書目《東西南沙群島資料目錄》[3]。此后,1973年福建省圖書館編纂的《我國(guó)南海諸島資料聯(lián)合目錄》[4],1981年許崇灝、鄭資約、杜定友、丘岳宋續(xù)編的《瓊崖志略·南錄》合輯[5];1994年,中國(guó)社會(huì)科學(xué)院中國(guó)邊疆史地研究中心李國(guó)強(qiáng)、寇俊敏編輯的《海南及南海諸島史地論著資料索引》[6];1998年,吳士存、沈固朝、李秀領(lǐng)編輯的《南海資料索引》[7];2013年,范伊然主編的《南??脊刨Y料整理與述評(píng)》[8];2016年,國(guó)家圖書館中國(guó)邊疆文獻(xiàn)研究中心編著的《南海諸島圖籍錄》[9](全三冊(cè)),一直也從未停止。這些出版的文獻(xiàn)整理工具都是對(duì)資料的梳理,通過(guò)目錄學(xué)的方法將文獻(xiàn)整理成不同類別的目錄,匯集成冊(cè),逐漸實(shí)現(xiàn)了從文獻(xiàn)層次到數(shù)據(jù)層次的邁進(jìn)。

      隨著信息的數(shù)字化程度越來(lái)越高,資料來(lái)源越來(lái)越分散,整理工具也從原先的文獻(xiàn)目錄發(fā)展到了數(shù)據(jù)庫(kù)等信息化平臺(tái)。廈門大學(xué)圖書館構(gòu)建“東南海疆研究數(shù)據(jù)庫(kù)”以及南京大學(xué)信息管理學(xué)院協(xié)力中國(guó)南海研究協(xié)同創(chuàng)新中心構(gòu)建的《南海文庫(kù)》數(shù)字資源庫(kù),都昭示著數(shù)據(jù)庫(kù)將成為今后做南海文獻(xiàn)發(fā)掘與整理的重要基礎(chǔ)性工具。但隨著網(wǎng)絡(luò)的發(fā)展和越來(lái)越多沉睡文獻(xiàn)的公開,南海疆文獻(xiàn)資料系統(tǒng)性、完整性、關(guān)聯(lián)性不足的問(wèn)題越來(lái)越凸顯,現(xiàn)有南海疆文獻(xiàn)整理與挖掘成果缺乏對(duì)文獻(xiàn)資料內(nèi)容的深度挖掘以及知識(shí)關(guān)聯(lián),需要從知識(shí)發(fā)現(xiàn)視角,對(duì)資料進(jìn)行深層揭示,實(shí)現(xiàn)南海文獻(xiàn)資料從數(shù)據(jù)層向知識(shí)層轉(zhuǎn)化。

      對(duì)南海書證目錄的研究,將以構(gòu)建知識(shí)圖譜的方式,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的目的。知識(shí)圖譜是通過(guò)數(shù)據(jù)模型構(gòu)建實(shí)體之間關(guān)系的圖形,它是一種有向關(guān)系圖,構(gòu)建這張圖的過(guò)程中,需要對(duì)原始數(shù)據(jù)清理,采用自然語(yǔ)言進(jìn)行實(shí)體識(shí)別,基于特征向量構(gòu)建實(shí)體關(guān)系,采用圖論知識(shí)繪制實(shí)體和關(guān)系,采用數(shù)據(jù)挖掘技術(shù)獲得知識(shí),分析出潛在關(guān)系等,最終達(dá)到深入獲得數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的目的,實(shí)現(xiàn)知識(shí)挖掘[10]。

      2 基于規(guī)則的文本信息抽取

      2.1數(shù)據(jù)來(lái)源及預(yù)處理研究選取的是由廈門大學(xué)出版社于2018年8月出版《中國(guó)在南海的歷史性權(quán)利及證據(jù)目錄》[11]一書,本書是由李劍依歷史事件發(fā)生的年代或朝代先后順序?qū)v史證據(jù)集中編排。對(duì)書證目錄的實(shí)體標(biāo)注與抽取,將以本書的主體部分,即第三章《南海主權(quán)證據(jù)表》作為主要的數(shù)據(jù)來(lái)源。另外,本研究采集了部分百度百科的數(shù)據(jù)作為明確實(shí)體實(shí)例的補(bǔ)充?!吨袊?guó)在南海的歷史性權(quán)利及證據(jù)目錄》的第三章《南海主權(quán)證據(jù)表》,它以半結(jié)構(gòu)化的表格形式按時(shí)序列舉組織了每一條證據(jù)的“主題序號(hào)”“序號(hào)”“時(shí)間(公元)/朝代”“事件/描述”及“文獻(xiàn)來(lái)源”五大屬性內(nèi)容,其中有些同一描述在多個(gè)“文獻(xiàn)來(lái)源”中被記載,凡空白之處與緊鄰的上一表格框內(nèi)容相同。文本中一條證據(jù)內(nèi)容如例1所示,其中 表示單元格分割符,后面緊接括號(hào)內(nèi)內(nèi)容表示前面單元格的內(nèi)容屬性。

      例1:S1 (主題序號(hào))1 (序號(hào))25-220年/東漢 (時(shí)間(公元)/朝代)有關(guān)“漲?!焙汀皾q海崎頭”的記載,其中“漲?!睘槲覈?guó)古代對(duì)包括南海諸島在內(nèi)的南海之稱謂,“崎頭”為古代對(duì)海中的礁嶼、淺灘的稱呼,“漲海崎頭”即泛指南海諸島礁灘 (事件/描述)楊孚:《異物志》,見(明)唐胄《正德瓊臺(tái)志》卷9,土產(chǎn)下,藥之屬,引《異物志》,第14頁(yè)。1964年上海古籍書店據(jù)寧波天一閣藏明正德殘本影印 (文獻(xiàn)來(lái)源)。

      證據(jù)表中的“主題序號(hào)”是有實(shí)際意義的為字母標(biāo)識(shí),單字母標(biāo)識(shí)是最上位大類,其對(duì)應(yīng)含義見表1。

      表1 主題序號(hào)及對(duì)應(yīng)的含義表

      利用OCR文字識(shí)別技術(shù)對(duì)《南海主權(quán)證據(jù)表》進(jìn)行文本化處理,并參照原文本人工校對(duì)糾錯(cuò),獲得該表格中共有711條形如例1的證據(jù)記載,將近17萬(wàn)字,用于后續(xù)處理。

      2.2書證目錄與實(shí)體、屬性的對(duì)應(yīng)關(guān)系經(jīng)過(guò)數(shù)據(jù)預(yù)處理,可以發(fā)現(xiàn)證據(jù)表是基于半結(jié)構(gòu)化的文本組織,由于表格行列相關(guān)的屬性,單獨(dú)單元格的文本信息并不孤立,它與同行的其他信息同屬一條證據(jù),存在相關(guān)關(guān)系;與同列的其他信息同屬一種信息類型,具有相似文本結(jié)構(gòu)。因此根據(jù)半結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),可以以各列組成的不同相似文本集合為對(duì)象,分析文本結(jié)構(gòu),根據(jù)待抽取文本及其上下文的特征,定義規(guī)則對(duì)每一行即一條證據(jù)的各字段進(jìn)行遍歷抽取。本研究選擇利用正則表達(dá)式表達(dá)規(guī)則構(gòu)造文本匹配模式,從而獲取不同規(guī)則對(duì)應(yīng)的信息。

      在信息抽取中,書證目錄與實(shí)體、屬性的對(duì)應(yīng)關(guān)系,如圖1所示。實(shí)體是指現(xiàn)實(shí)世界中客觀存在并可相互區(qū)分的事物,在自然語(yǔ)言處理領(lǐng)域指文本中有特定意義、可指向某一具體事物的字段,如人名、地名等。從書證目錄文本中抽取的四個(gè)實(shí)體分為引源著作、引源責(zé)任者、涉證島礁、古地名。在“事件/描述”字段可獲取文本中南海島礁的實(shí)體信息,由于證據(jù)表中的每一條事件記載都具有歷史性證據(jù)的性質(zhì),而島礁名又是證據(jù)中的一個(gè)重要屬性,因此為表示島礁名在證據(jù)中的重要性,將南海島嶼這一實(shí)體類型命名為“涉證島礁”,由于古籍中存在島礁古今名對(duì)照的說(shuō)明,所以增加“古地名”這一實(shí)體類型,用于揭示島礁的古今對(duì)照關(guān)系。在“文獻(xiàn)來(lái)源”字段可獲取各條證據(jù)對(duì)應(yīng)的記載出處,也即證據(jù)表中各證據(jù)的引源信息,對(duì)文本中的作者、書名、信息進(jìn)行抽取,并從揭示這些實(shí)體類型具有引用源出處的性質(zhì)對(duì)實(shí)體規(guī)范化命名,如作者對(duì)應(yīng)“引源責(zé)任者”,書名對(duì)應(yīng)“引源著作”等。

      圖1 目錄與實(shí)體、屬性以及實(shí)體與屬性對(duì)應(yīng)關(guān)系圖

      屬性是屬于描述實(shí)體某一性質(zhì)的數(shù)據(jù),在上面所抽取的信息中,有些數(shù)據(jù)是數(shù)值型數(shù)據(jù)而無(wú)法單獨(dú)作為一種實(shí)體類型,例如時(shí)間、卷次等。由于時(shí)間與證據(jù)記載以及文獻(xiàn)來(lái)源都是相互對(duì)應(yīng)的關(guān)系,因此可作為“引源著作”的時(shí)間屬性,除此之外,卷次、期次、頁(yè)碼都是在“文獻(xiàn)來(lái)源”部分作為證據(jù)詳細(xì)出處的補(bǔ)充說(shuō)明,因此作為“引源著作”的來(lái)源屬性。證據(jù)的主題序號(hào)用來(lái)揭示證據(jù)的分類信息,因此可以用“引源著作”與“涉證島礁”兩實(shí)體組成的每一組關(guān)系來(lái)對(duì)應(yīng)各證據(jù)的主題屬性。

      2.3實(shí)體與屬性抽取規(guī)則對(duì)于實(shí)體抽取的規(guī)則,本研究以南京大學(xué)中國(guó)南海協(xié)同創(chuàng)新中心所創(chuàng)建的《南海地名關(guān)鍵詞表》作為依據(jù),按照關(guān)鍵詞表中的古今同義將所有地名關(guān)鍵詞分為古名和今名兩大類,在每一條“事件/描述”字段中,分別對(duì)古今兩類各南海地名關(guān)鍵詞遍歷匹配,將每條證據(jù)中匹配成功的古今地名關(guān)鍵詞抽取出來(lái),即完成對(duì)每條證據(jù)中“涉證島礁”及“古地名”實(shí)例的抽取。

      引源著作即來(lái)自于“文獻(xiàn)來(lái)源”字段中的具體文獻(xiàn),而文獻(xiàn)的形式特點(diǎn)就是由書名號(hào)分割出來(lái)的,因此定義規(guī)則“《(.*?)》”,將“文獻(xiàn)來(lái)源”字段中所有由書名號(hào)包括起來(lái)的字符串文本抽取出來(lái),再在其起始字符前和終止字符后分別加上左書名號(hào)和右書名號(hào),實(shí)現(xiàn)每一條證據(jù)中引源著作的自動(dòng)抽取。

      分析“文獻(xiàn)來(lái)源”字段的形式特點(diǎn),可以發(fā)現(xiàn)“引源責(zé)任者”的出現(xiàn)位置是固定的,它出現(xiàn)在“文獻(xiàn)來(lái)源”的最開始,其最常見的兩種模式是:“宋濂:《元史》……”“柯劭忞撰《新元史》......”,可以發(fā)現(xiàn)引源責(zé)任者與引源著作之間是相對(duì)較為固定的分割模式,比如冒號(hào)以及編、撰、校等動(dòng)詞,因此可以依次指定規(guī)則來(lái)抽取引源責(zé)任者,由“(.*?)[:|編|校|撰|著|輯]《(.*?)》”來(lái)返回由引源責(zé)任者和引源著作組成的抽取結(jié)果,而這一個(gè)結(jié)果對(duì)也是存在相關(guān)關(guān)系的兩個(gè)實(shí)體實(shí)例。

      對(duì)于屬性抽取的規(guī)則,主題屬性抽取通過(guò)逐行獲取每一條證據(jù)內(nèi)容,獲取第一個(gè)單元格的內(nèi)容即為“主題序號(hào)”,根據(jù)表1中提到的“主題序號(hào)”標(biāo)識(shí)及其對(duì)應(yīng)的實(shí)際意義,進(jìn)行文本替換,用來(lái)揭示該條證據(jù)的主題類型。其中部分證據(jù)涉及多個(gè)分類,例如“S60/MS1”則表示該條證據(jù)同時(shí)屬于“主權(quán)宣示”和“維權(quán)”兩個(gè)主題分類,因此在文本轉(zhuǎn)換時(shí)需要將兩個(gè)主題序號(hào)都進(jìn)行替換且并列存儲(chǔ)。采取的方法是首先用“/”對(duì)主題序號(hào)中涉及多個(gè)分類的實(shí)例進(jìn)行切分,再利用主題序號(hào)-主題類型對(duì)應(yīng)表對(duì)每一條證據(jù)的主題序號(hào)遍歷進(jìn)行替換并抽取。

      分析文本中的“時(shí)間(公元)/朝代”內(nèi)容,雖然已經(jīng)是較為規(guī)則的單一字段,但是仍有不同的書寫格式,分析同種類型的文本格式,通過(guò)正則表達(dá)式進(jìn)行匹配,獲取字段內(nèi)的時(shí)間及朝代,不同格式示例及對(duì)應(yīng)正則表達(dá)式抽取規(guī)則,按照該規(guī)則分別抽取每一條證據(jù)中的公元時(shí)間和朝代。

      卷次、期次以及頁(yè)碼的表達(dá)是相對(duì)固定的,例如卷次有“第1卷”“卷9”“上卷”這種常見表達(dá),期次有“第16期”“第8、9合期”這樣的固定表達(dá),頁(yè)碼有“第1-2頁(yè)”“第3頁(yè)”這樣的固定表達(dá),同時(shí),也有卷次、期次混合表達(dá)如“第8卷2期”,以及期次頁(yè)碼的混合表達(dá)如“第2期36頁(yè)”等。由于文本中卷次、期次、頁(yè)碼總是在上下文接連著出現(xiàn),因此當(dāng)我們定義“第(.*?)期”的規(guī)則去抽取期次時(shí),會(huì)在諸如“第1卷,第2期”這樣的表達(dá)中抽取出“1卷,第2”這樣錯(cuò)誤的文本信息,因此采取對(duì)出現(xiàn)字符進(jìn)行限定的方式進(jìn)行抽取。最終,從書證目錄中抽取到的信息如圖2所示。

      圖2 書證目錄信息抽取結(jié)構(gòu)圖

      2.4數(shù)據(jù)審查依據(jù)規(guī)則對(duì)每一條證據(jù)中的各實(shí)體及各屬性進(jìn)行抽取后,就得到了證據(jù)中所包含的各實(shí)體實(shí)例以及實(shí)體屬性值,也使得實(shí)體實(shí)例之間基于同屬一條證據(jù)內(nèi)容而建立起依賴關(guān)系,例如同一條證據(jù)中,“引源責(zé)任者”與“引源著作”之間存在著廣義上的創(chuàng)作關(guān)系。但是,由于部分證據(jù)文本的細(xì)微差異性,因此我們需要對(duì)自動(dòng)抽取的數(shù)據(jù)進(jìn)行人工審查,例如基于原文本抽取“引源責(zé)任者”時(shí)分別出現(xiàn)以下兩種情況:“(清)明誼”、“嵇璜、曹仁虎、戴衢亨”,前者需要?jiǎng)h去括號(hào)內(nèi)內(nèi)容;后者需要按頓號(hào)分隔3位責(zé)任者。本研究選擇兩組審查人員分別對(duì)相同的內(nèi)容進(jìn)行審查,在審查結(jié)束后將兩組審查結(jié)果進(jìn)行對(duì)比,審查結(jié)果不一致的數(shù)據(jù)進(jìn)行討論并最終確定正確的數(shù)據(jù)。

      完成對(duì)711條證據(jù)中各實(shí)體及屬性的自動(dòng)抽取與人工核對(duì)后,即形成了原證據(jù)表中各行證據(jù)里諸實(shí)體及屬性組成的二維表,每一行文本信息來(lái)自于原證據(jù)表中同一條證據(jù),每一列代表一種具體實(shí)體或?qū)傩灶愋?。由于本?shí)驗(yàn)構(gòu)建南海地名書證索引的需要,因此對(duì)于每一行數(shù)據(jù),“涉證島礁”和“古地名”兩種實(shí)體類型至少有一個(gè)非空,“引源著作”類型一定非空,經(jīng)過(guò)篩選有462條證據(jù)在“事件/描述”字段有涉證島礁或古地名實(shí)例的同時(shí)在“文獻(xiàn)來(lái)源”字段中有引源著作實(shí)例。基于規(guī)則抽取出各實(shí)體實(shí)例的總頻次與非重復(fù)實(shí)體實(shí)例個(gè)數(shù)見表2,抽取出的各屬性實(shí)例總頻次見表3。

      表2 各實(shí)體實(shí)例總頻次及非重復(fù)實(shí)例個(gè)數(shù)

      表3 各屬性實(shí)例總頻次

      2.5涉證島礁消歧由文本表述的差異性和南海島礁名在歷史中演變,使得本研究中獲取到的涉證島礁名存在異名同指和同名異指的情況,只有對(duì)這些歧義進(jìn)行處理,才能更好地集中細(xì)粒度的實(shí)體及其關(guān)系,更好地進(jìn)行知識(shí)挖掘分析,因此應(yīng)分別對(duì)其進(jìn)行處理。

      2.5.1 異名同指 異名同指的一大原因是文本中的表述差異性導(dǎo)致的實(shí)體名不規(guī)范,例文本中出現(xiàn)“東沙、西沙群島”,當(dāng)我們將其標(biāo)注為兩個(gè)實(shí)體實(shí)例時(shí),“東沙”實(shí)際上指“東沙群島”,對(duì)于這一異名同指的情況,由標(biāo)注人員在熟悉原文本的情況下,結(jié)合上下文語(yǔ)境,判斷實(shí)體是由于表述差異而導(dǎo)致的島礁名簡(jiǎn)寫,將其按照規(guī)范命名方式補(bǔ)全。異名同指的另一原因是島礁別名,本研究采取的策略主要有兩個(gè)方向:一是根據(jù)原文本內(nèi)容提取出島礁的學(xué)名——?jiǎng)e名對(duì)應(yīng)關(guān)系,其中學(xué)名在本研究中被定義為規(guī)范實(shí)體詞;第二種策略是依據(jù)最大最全的中文百科信息集合——百度百科,根據(jù)人工標(biāo)注的所有涉證島礁實(shí)體詞去重后構(gòu)建詞表,以遍歷的方式利用關(guān)鍵詞搜索爬取百度百科的基本簡(jiǎn)介和三元組信息,并對(duì)三元組人工篩選組信息,保存有“別名”“外文名”屬性的實(shí)體詞信息,作為對(duì)應(yīng)實(shí)體詞的屬性補(bǔ)充及異名同指對(duì)應(yīng)關(guān)系的數(shù)據(jù)支撐。

      在《南海主權(quán)證據(jù)表》文本中及百度百科數(shù)據(jù)中,一個(gè)涉證島礁的規(guī)范實(shí)體詞最多可能包含除自身外13種異名同指歧義,表4列出了異名同指歧義數(shù)量大于等于3的8個(gè)規(guī)范實(shí)體詞(規(guī)范實(shí)體詞自身除外)。

      表4 涉證島礁異名同指數(shù)量最多的8個(gè)規(guī)范實(shí)體詞

      2.5.2 同名異指 同名異指在本研究種出現(xiàn)的主要原因是歷史中對(duì)島礁命名的演變,歷史中曾有時(shí)期將多個(gè)島作為一個(gè)總稱。關(guān)于地名研究比較復(fù)雜,不同階段有不同的分歧和研究成果,截止目前,只能根據(jù)多數(shù)結(jié)論作為參照。例原文本中出現(xiàn)內(nèi)容:“‘萬(wàn)里長(zhǎng)沙’即東沙和西沙群島,‘萬(wàn)里石塘’指中沙和南沙群島”,即“萬(wàn)里長(zhǎng)沙”既指東沙群島,也指西沙群島;“萬(wàn)里石塘”既指中沙群島,也指南沙群島,它們均可看作兩個(gè)涉證島礁的規(guī)范實(shí)體詞作為一個(gè)整體的別名。因此本研究中采取的策略與異名同指歧義消除一致,即抽取島礁的學(xué)名——?jiǎng)e名對(duì)應(yīng)關(guān)系,不同之處是當(dāng)別名指向兩個(gè)作為整體的實(shí)體規(guī)范詞時(shí),構(gòu)建兩條關(guān)系,例:東沙群島——萬(wàn)里長(zhǎng)沙,西沙群島——萬(wàn)里長(zhǎng)沙。

      3 基于Neo4j的南海書證目錄知識(shí)圖譜構(gòu)建

      3.1知識(shí)圖譜節(jié)點(diǎn)及關(guān)系定義知識(shí)圖譜的基本組成是節(jié)點(diǎn)及節(jié)點(diǎn)之間的相互關(guān)系,因此需要分別對(duì)其做出定義。首先以本研究中的實(shí)體類型為依據(jù)定義節(jié)點(diǎn)類型,“涉證島礁”“引源責(zé)任者”和“引源著作”分別定義為三類。根據(jù)上面涉證島礁消歧,實(shí)際上是對(duì)涉證島礁做了進(jìn)一步細(xì)分,即分為規(guī)范實(shí)體詞和規(guī)范實(shí)體詞的其他表達(dá),其他表達(dá)主要有兩種形式:一是歷規(guī)范實(shí)體詞史中曾出現(xiàn)過(guò)的別名,二是其外文名或外國(guó)稱呼,因此,將規(guī)范實(shí)體詞仍劃分為“涉證島礁”類型,并且由“別名”“外文名”分化出兩種新的節(jié)點(diǎn)類型,共5種節(jié)點(diǎn)類型。

      實(shí)體關(guān)系的挖掘來(lái)自于原文本,分析《南海主權(quán)證據(jù)表》文本內(nèi)容,責(zé)任者對(duì)著作具有編、校、撰等多種不同責(zé)任,但是廣義上,它們都屬于創(chuàng)作,因此可以定義“引源責(zé)任者”對(duì)“引源著作”有“創(chuàng)作”關(guān)系。從證據(jù)記載的形式看,“引源著作”對(duì)“涉證島礁”有“提及”關(guān)系,但是由于每條證據(jù)都根據(jù)其主題內(nèi)容進(jìn)行了分類,即對(duì)該證據(jù)的描述可以劃分為對(duì)中國(guó)主權(quán)立場(chǎng)支撐的某種確定主權(quán)類型(具體分類見表1),因此可以采用證據(jù)的主題范疇進(jìn)一步將“提及”細(xì)化為8種關(guān)系,從主題分類的角度更深層次地揭示“涉證島礁”在何種主題內(nèi)容內(nèi)被“引源著作”提及,完善歷史文獻(xiàn)對(duì)主權(quán)相關(guān)事件記載的信息與意義。根據(jù)百度百科三元組信息及原文本內(nèi)容分析,無(wú)論是別名或外文名,都曾是歷史中某一國(guó)家或朝代對(duì)相關(guān)島嶼的稱呼,因此定義“涉證島礁”對(duì)“別名”和“外文名”有“地名演變”關(guān)系,用來(lái)顯示它們之間因時(shí)間或空間差異所導(dǎo)致的同義關(guān)系。

      在構(gòu)建知識(shí)圖譜的過(guò)程中,除了節(jié)點(diǎn)和關(guān)系,還有屬性需要定義。首先,《南海主權(quán)證據(jù)表》在組織證據(jù)時(shí),是以歷史時(shí)間排列,而這一確定的歷史時(shí)間與文獻(xiàn)來(lái)源中有相關(guān)記載的歷史文獻(xiàn)發(fā)表時(shí)間是吻合的,因此,將之前從文本中抽取的公元紀(jì)年及朝代作為“引源著作”的屬性,從時(shí)間維度完善知識(shí)圖譜,可以為研究提供更多知識(shí)分析的角度。另外,在涉證島礁消歧過(guò)程中采集的百度百科數(shù)據(jù),其基本簡(jiǎn)介和部分三元組信息,可以作為“涉證島礁”的屬性,既可以幫助明確每一規(guī)范實(shí)體詞的實(shí)際意義,也易于與其別名、外文名區(qū)分。定義完節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系以及它們的屬性,則構(gòu)成了知識(shí)圖譜基本的關(guān)系描述模型。

      3.2知識(shí)圖譜架構(gòu)及數(shù)據(jù)存儲(chǔ)根據(jù)上面提出的知識(shí)圖譜基本關(guān)系描述模型,首先需要選擇關(guān)系數(shù)據(jù)庫(kù)來(lái)表示關(guān)系描述模型,并以數(shù)據(jù)庫(kù)的形式對(duì)人工標(biāo)注并抽取的單張二維表進(jìn)行分解,轉(zhuǎn)化為表示關(guān)系描述模型的多張二維表進(jìn)行組織和存儲(chǔ)。根據(jù)上文,單張二維表中是存儲(chǔ)了主題類型、時(shí)間、朝代、涉證島礁、引源責(zé)任者、引源著作的六元組結(jié)構(gòu),它們之間存在一一對(duì)應(yīng)的關(guān)系,二維表分解的主要過(guò)程是在保持原有數(shù)據(jù)間關(guān)系依賴的基礎(chǔ)上,以關(guān)系描述模型為基礎(chǔ),用節(jié)點(diǎn)二維表邏輯表示節(jié)點(diǎn)及其屬性,并用關(guān)系二維表揭示節(jié)點(diǎn)之間的邏輯關(guān)系,構(gòu)造數(shù)據(jù)庫(kù)模式。在這一過(guò)程中遵守主鍵存在且唯一、外鍵參照主鍵、關(guān)系表兩主鍵成員一一對(duì)應(yīng)等原則,最終構(gòu)建了5張節(jié)點(diǎn)信息二維表,以及11張關(guān)系信息二維表,其數(shù)據(jù)庫(kù)模式如圖3所示。

      圖3 南海書證島礁索引數(shù)據(jù)庫(kù)模式

      Neo4j是高性能的NoSQL圖形數(shù)據(jù)庫(kù),是構(gòu)建知識(shí)圖譜的高效工具,另一方面,它也方便直接將由二維表存儲(chǔ)的數(shù)據(jù)轉(zhuǎn)換為節(jié)點(diǎn)關(guān)系的存儲(chǔ)形式,因此本研究利用其構(gòu)建南海書證島礁索引的知識(shí)圖譜。將5張節(jié)點(diǎn)表和11張關(guān)系表轉(zhuǎn)換為完成后,共得到733個(gè)唯一節(jié)點(diǎn),1 494條唯一關(guān)系,具體節(jié)點(diǎn)及關(guān)系數(shù)據(jù)如表5所示。

      表5 各節(jié)點(diǎn)及關(guān)系數(shù)

      3.3基于知識(shí)圖譜的知識(shí)挖掘與分析通過(guò)Neo4j,最終構(gòu)建南海書證島礁索引知識(shí)表示模型如圖4所示。在知識(shí)表示模型中,可以清楚看到每一條書證目錄信息里的知識(shí)都可以通過(guò)實(shí)體及其屬性之間的表示和關(guān)聯(lián)來(lái)揭示。其中“公元時(shí)間”“朝代”的時(shí)間屬性和“卷次”“期次”和“頁(yè)碼”的來(lái)源屬性直接屬于引源著作,通過(guò)與引源責(zé)任者的關(guān)聯(lián)來(lái)揭示書證目錄中書證來(lái)源相關(guān)的知識(shí);引源著作與涉證島礁之間的關(guān)系則揭示了當(dāng)前書證的文獻(xiàn)來(lái)源信息與證據(jù)內(nèi)容,從而在實(shí)體關(guān)聯(lián)的基礎(chǔ)上實(shí)現(xiàn)了單條書證知識(shí)的細(xì)粒度表示?;跁C目錄的知識(shí)表示模型,將非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本內(nèi)容進(jìn)行結(jié)構(gòu)化表示,完成批量書證目錄知識(shí)的規(guī)范化描述,并在此基礎(chǔ)上實(shí)現(xiàn)書證之間關(guān)系的挖掘。

      圖4 南海書證島礁索引知識(shí)表示模型

      基于書證目錄的知識(shí)表示模型完成南海領(lǐng)域書證實(shí)例的知識(shí)圖譜構(gòu)建,并從書證關(guān)聯(lián)、地名演變、創(chuàng)作關(guān)系三個(gè)方面進(jìn)行了基于知識(shí)圖譜的知識(shí)關(guān)聯(lián)實(shí)例分析。

      從書證關(guān)聯(lián)的角度,以“中沙群島”這一涉證島礁的兩條書證記錄為實(shí)例進(jìn)行關(guān)聯(lián)分析與展示,如圖5所示?!吨袊?guó)分省新圖》和《海國(guó)見聞錄》的兩條書證通過(guò)“中沙群島”實(shí)現(xiàn)了直接關(guān)聯(lián),兩個(gè)引源著作在對(duì)“中沙群島”的記錄上的相互印證可以增強(qiáng)其作為證據(jù)的可信度,借此可以嘗試去構(gòu)建南海書證證據(jù)的證據(jù)鏈。以鏈接形成的證據(jù)組合能夠?qū)κ聦?shí)產(chǎn)生更為合情理的認(rèn)知和信念, 遠(yuǎn)遠(yuǎn)大于單獨(dú)考慮兩個(gè)孤立證據(jù)的效果, 即“1加1”大于2。同時(shí),在兩個(gè)“引源著作”節(jié)點(diǎn)的“properties”屬性確定了書證的詳細(xì)出處,可以作為文獻(xiàn)線索,查找書證原始文件?!吧孀C島礁”和“引源著作”的關(guān)聯(lián)中,兩條書證的主題類型都屬于“主權(quán)宣示”,進(jìn)一步揭示了兩者在主題類型上的關(guān)聯(lián)性,后續(xù)可以從證據(jù)主題分類角度組織書證目錄,進(jìn)一步利用知識(shí)圖譜。此外,在關(guān)系“properties”屬性中的“content”完整存儲(chǔ)證據(jù)內(nèi)容,實(shí)現(xiàn)文獻(xiàn)線索與內(nèi)容事實(shí)的關(guān)聯(lián)。

      圖5 書證實(shí)例知識(shí)圖譜圖

      從地名演變角度,將涉證島礁的別名、外文名進(jìn)行關(guān)聯(lián),可便于搜集證據(jù),查找國(guó)內(nèi)外相關(guān)南海維權(quán)證據(jù)。同時(shí)挖掘這些涉證島礁背后外文名的由來(lái),例如曾經(jīng)被侵占、爭(zhēng)議,可以跟蹤線索去查找相關(guān)國(guó)家的南海資料。如圖6所示,“南沙群島”“南海諸島”“西沙群島”的地名演變實(shí)例圖。其中,西沙群島的其中一個(gè)外文名為“Paracel Islands”即帕拉塞爾群島,它是越南語(yǔ)的漢語(yǔ)音譯,研究人員在查找外國(guó)文獻(xiàn)時(shí),亦可以用“Paracel Islands”作為檢索詞保證文獻(xiàn)檢索的檢全率。

      圖6 “地名演變”實(shí)例知識(shí)圖譜圖

      從創(chuàng)作關(guān)系揭示引源責(zé)任者與引源著作間的關(guān)系,可以發(fā)掘、處理南海維權(quán)領(lǐng)域重點(diǎn)文獻(xiàn)資料以及重點(diǎn)的學(xué)者和研究者。多個(gè)引源著作涉及同一個(gè)引源責(zé)任者,說(shuō)明這個(gè)責(zé)任者對(duì)南海的關(guān)注,可以深度挖掘該責(zé)任者相關(guān)的其他資料,確認(rèn)是否還有遺漏未發(fā)現(xiàn)的南海相關(guān)書證資料,以及探究其關(guān)注南海的原因和目的,以加強(qiáng)書證證據(jù)之間的“有助益的支撐” ?!坝兄娴闹巍笔侵柑嵘尚判缘母怕手?。一個(gè)證據(jù)對(duì)另一個(gè)證據(jù)的助益并非使兩者證成為真, 而只是促使彼此變得更為可信[12]。如圖7所示,引源責(zé)任者康泰涉及創(chuàng)作關(guān)系的圖書有四部《扶南傳》《古海國(guó)遺書鈔》《外國(guó)雜傳》《太平御覽》,將其作為重點(diǎn)關(guān)注對(duì)象,進(jìn)一步了解這位引源責(zé)任者的相關(guān)資料。發(fā)現(xiàn)康泰是三國(guó)東吳時(shí)期吳國(guó)出使南海的官員,約在黃武五年,交州刺史呂岱派中郎將他出使南海諸國(guó),進(jìn)行外交活動(dòng)。通過(guò)結(jié)合康泰的官方身份背景,其記載的南海有關(guān)信息的可信度將進(jìn)一步增強(qiáng)。

      圖7 “創(chuàng)作”關(guān)系實(shí)例知識(shí)圖譜圖

      通過(guò)實(shí)例,研究認(rèn)為基于書證目錄的知識(shí)表示模型可以完整且細(xì)致地揭示書證文獻(xiàn)線索和內(nèi)容事實(shí),并通過(guò)實(shí)體、屬性或關(guān)系的共現(xiàn)來(lái)揭示不同書證之間的關(guān)聯(lián)關(guān)系,對(duì)知識(shí)圖譜的利用,可以從書證關(guān)聯(lián)、地點(diǎn)演變、創(chuàng)作關(guān)系等角度挖掘隱含知識(shí),實(shí)現(xiàn)其知識(shí)發(fā)現(xiàn)的功能,后續(xù)也可以考慮從時(shí)間序列、證據(jù)主題類型等不同角度組織書證目錄。

      3.4南海書證目錄的知識(shí)圖譜構(gòu)建意義南海書證目錄知識(shí)圖譜的構(gòu)建能夠部分實(shí)現(xiàn)南海維權(quán)文獻(xiàn)資料的知識(shí)關(guān)聯(lián)。通過(guò)系統(tǒng)梳理南海維權(quán)文獻(xiàn)資源,使現(xiàn)存散亂的南海疆文獻(xiàn)歷史書證資料變得有序化、結(jié)構(gòu)化、關(guān)聯(lián)化,同時(shí)書證目錄與證據(jù)內(nèi)容的結(jié)合,為后續(xù)搭建面向知識(shí)關(guān)聯(lián)的南海疆文獻(xiàn)資料檢索工具建立基礎(chǔ),搭建的檢索工具能同時(shí)滿足學(xué)者對(duì)南海文獻(xiàn)歷史性證據(jù)的“檢” (找線索)和“索” (取原文)功能的“一站式”獲取需求[13],提高研究人員資料獲取的速度與質(zhì)量,提升學(xué)者南海維權(quán)研究深度與厚度。

      南海疆文獻(xiàn)資料的書證資料作為歷史證據(jù),是其作為維權(quán)證據(jù)的重要一部分,是證據(jù)鏈構(gòu)建的重要資源之一。南海疆歷史書證證據(jù)的證據(jù)鏈構(gòu)建是南海疆證據(jù)鏈構(gòu)建的初步探索和嘗試,為其他證據(jù)的證據(jù)鏈構(gòu)建提供參考。南海書證目錄,只是作為南海維權(quán)證據(jù)的證據(jù)清單呈現(xiàn),其弊端在于純粹的“羅列”,需要去實(shí)現(xiàn)“串并聯(lián)”,而通過(guò)對(duì)其的知識(shí)組織、知識(shí)發(fā)現(xiàn),能夠呈現(xiàn)書證目錄間的組織關(guān)系,表達(dá)事實(shí)認(rèn)定的內(nèi)在結(jié)構(gòu)與邏輯軌跡,實(shí)現(xiàn)南海疆維權(quán)的證據(jù)鏈的表達(dá)[14]。南海書證目錄知識(shí)圖譜的構(gòu)建,通過(guò)目錄數(shù)據(jù)的序化,可以協(xié)助研究,減輕工作量,有利于進(jìn)一步挖掘和整理。同時(shí),它將大量數(shù)據(jù)中存在的各種實(shí)體以及其相關(guān)關(guān)系用圖的方式形象準(zhǔn)確地表述出來(lái),有助于聚合大量概念主題,從而實(shí)現(xiàn)知識(shí)的快速響應(yīng)和推理。

      4 結(jié) 語(yǔ)

      研究提出的定義規(guī)則的方式,成功抽取從南海歷史書證目錄中的4個(gè)實(shí)體,6種屬性,實(shí)現(xiàn)了對(duì)歷史書目證據(jù)的有序化、結(jié)構(gòu)化,對(duì)后續(xù)南海維權(quán)構(gòu)建證據(jù)鏈做好數(shù)據(jù)基礎(chǔ)。同時(shí),對(duì)涉證島礁、引源著者、引源責(zé)任者、古地名等實(shí)體進(jìn)行揭示和關(guān)聯(lián)化,通構(gòu)建南海書證島礁索引知識(shí)表示模型,完整且細(xì)致地揭示書證文獻(xiàn)線索和內(nèi)容事實(shí),并從書證關(guān)聯(lián)、地名演變、實(shí)體關(guān)系等多角度深度挖掘南海書目證據(jù)中的隱含知識(shí),通過(guò)知識(shí)圖譜以可視化方式進(jìn)行展示,基本實(shí)現(xiàn)南海書證目錄數(shù)據(jù)資源向知識(shí)資源的轉(zhuǎn)化與升華。

      但是,目前南海書證目錄的知識(shí)圖譜數(shù)據(jù)來(lái)源較為單一,后續(xù)的研究中可以提升數(shù)據(jù)規(guī)模,同時(shí)將其他類型的南海文獻(xiàn)資料作為數(shù)據(jù)來(lái)源,將進(jìn)一步利用知識(shí)融合等技術(shù),對(duì)多數(shù)據(jù)源的知識(shí)進(jìn)行處理,實(shí)現(xiàn)南海文獻(xiàn)資源大數(shù)據(jù)碎片化知識(shí)的融合、關(guān)聯(lián)與深度挖掘,提升知識(shí)發(fā)現(xiàn)的深度與廣度。

      猜你喜歡
      書證島礁南海
      我國(guó)書證提出命令制度構(gòu)造的反思與調(diào)整*
      南海明珠
      北海北、南海南
      黃河之聲(2021年10期)2021-09-18 03:07:18
      體系作戰(zhàn)條件下島礁作戰(zhàn)中輔助決策問(wèn)題研究
      《漢語(yǔ)大詞典·火部》書證斷句獻(xiàn)疑
      南海的虎斑貝
      南海隨筆
      草原(2016年1期)2016-01-31 21:21:51
      基于OODA過(guò)程的島礁防空CGF模型
      近35年來(lái)熱帶風(fēng)暴對(duì)我國(guó)南海島礁的影響分析
      《漢語(yǔ)大詞典》現(xiàn)代書證失誤及其影響——以《圍城》書證為例
      吉林市| 灵石县| 商城县| 咸丰县| 靖远县| 辽源市| 察哈| 柞水县| 潍坊市| 望奎县| 祁连县| 民权县| 和林格尔县| 边坝县| 白城市| 东莞市| 化州市| 邛崃市| 寻乌县| 南华县| 肥西县| 登封市| 龙川县| 上林县| 周宁县| 海南省| 阿瓦提县| 涿州市| 梨树县| 师宗县| 乌兰县| 西藏| 嘉义市| 巍山| 黄大仙区| 屏东县| 闽清县| 全椒县| 霍州市| 桃园市| 清镇市|