• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      歷史典籍的結構化探索
      ——《史記·列傳》數(shù)字人文知識庫的構建與可視化研究

      2022-12-02 05:28:46鄭童哲恒李斌馮敏萱常博林王東波
      大數(shù)據(jù) 2022年6期
      關鍵詞:知識庫古籍史記

      鄭童哲恒,李斌,馮敏萱,常博林,王東波

      1. 南京師范大學文學院,江蘇 南京 210097;

      2. 南京農(nóng)業(yè)大學信息管理學院,江蘇 南京 210095

      0 引言

      古籍是我 國傳統(tǒng)文化的重要載體,是民族精神的集中體現(xiàn)。我國古籍浩如煙海,在綿延千年的發(fā)展過程中歷久彌新,蘊藏了大量的歷史人文知識,是研究傳統(tǒng)文化和挖掘歷史信息的珍貴材料。在眾多古籍之中,《史記》意義重大,它是中國歷史上第一部紀傳體通史,記載了從傳說中的黃帝時代至漢武帝時期共3 000多年的歷史,對后世文學和史學發(fā)展具有重要指導意義?!妒酚洝饭?30篇,其中列傳有70篇,共24萬余字,占《史記》全文篇幅的一半左右,記載了眾多歷史人物的言行事跡,具有很高的研究價值。

      古文信息處理是指借助信息技術手段對古代漢語文本的音、形、義進行處理和加工[1]。數(shù)字人文(digital humanities)也被稱為人文計算(humanities computing),面向人文社會科學與計算之間的交叉領域開展研究,通過智能檢索、文本挖掘、可視化等各種信息技術和手段達到研究目的[2]。近年來,隨著古文信息處理技術、人工智能與大數(shù)據(jù)技術的持續(xù)發(fā)展,數(shù)字人文研究范式在古籍研究中的應用范圍不斷擴大、應用方式不斷演進[3]。古籍數(shù)字人文研究為解決古代典籍因卷帙浩繁、晦澀難懂而不易開發(fā)利用等問題提供了新思路,為深入挖掘古籍文本信息、全面檢索古籍文本內(nèi)容、直觀展示古籍文本內(nèi)涵提供了新方法。

      本文繼承南京師范大學開發(fā)的《左傳》[4]、《史記·本紀》(以下簡稱為《本紀》)[5]和《史記·世家》(以下簡稱為《世家》)3個數(shù)字人文知識庫,創(chuàng)新性、發(fā)展性地以《史記·列傳》(以下簡稱為《列傳》)為研究語料,首先進行自動分詞和詞性標注并進行人工校對,再進一步人工標注人物和地點等實體信息,得到《列傳》高質量標注文本。在此基礎上構建《列傳》數(shù)字人文知識庫和檢索平臺,并據(jù)此完成詞匯、人物、地點3個方面的信息挖掘與計量統(tǒng)計,力圖運用大數(shù)據(jù)技術推動歷史典籍的結構化探索,進而為歷史文獻學、歷史地理學、語言學等學科的研究提供服務。

      1 相關研究

      古籍數(shù)字化開發(fā)分為表層和深層兩個層次[6]。表層古籍數(shù)字化包括古籍的錄入、數(shù)字化存儲、網(wǎng)絡傳播等,深層古籍數(shù)字化則包括古籍的信息標注、內(nèi)容加工和知識檢索。表層古籍數(shù)字化研究與實踐始于20 世紀 70 年代末[7],在其發(fā)展初期涌現(xiàn)出以文本錄入為基礎實現(xiàn)全文檢索的古籍語料庫。如中國社會科學院開發(fā)的《全唐詩》速檢系統(tǒng),提供字、詩句、標題檢索[8];愛如生公司開發(fā)的中國基本古籍庫,提供分類、條目、全文檢索[9]。由于沒有對古籍文本進行深加工,上述表層古籍數(shù)字化成果的功能較為單一,查全率和查準率亦不夠理想。

      隨著人們對古籍數(shù)字化的認識不斷發(fā)展,數(shù)字化古籍文本的知識加工不斷完善,邁向更深的“知識域”,進入深層古籍數(shù)字化階段。深層古籍數(shù)字化旨在對古籍內(nèi)容進行標注并構建知識網(wǎng)絡,進而推動古籍文本可視化、文本信息挖掘等工作。對古籍文本進行詞語切分和詞性標注,是突破基于“字”的全文檢索、構建詞匯級別古籍數(shù)據(jù)庫的必要條件。古代漢語標注語料庫目前較為稀少,主要有:臺灣的上古、中古漢語標記語料庫;南京師范大學先秦、中古[10]漢語標注語料庫;留金騰等人[11]以《淮南子》為文本構建的上古漢語分詞及詞性標注語料庫。針對目前古漢語標注語料庫數(shù)量少、深度不足的問題,本文對古籍文本進行了更深層次的數(shù)字化加工。

      21世紀初興起的數(shù)字人文研究以古籍數(shù)字化為基礎條件,對古籍內(nèi)容進行數(shù)據(jù)統(tǒng)計、信息和知識挖掘等處理[12]?;谥R本體(ontology)的古籍知識庫建設取得進展。唐振貴等人[13]在時間軸上由粗至細系統(tǒng)梳理了中國古代時間譜系,構建了涵蓋時間系統(tǒng)等五大主要模塊的中國古代時間本體。中國歷代人物傳記資料庫(China biographical database,CBDB)通過創(chuàng)建關系型數(shù)據(jù)庫,記錄了史料中保存下來的歷史人物的職業(yè)、親屬關系、社會關系等數(shù)據(jù)[14]。古籍專書數(shù)據(jù)庫亦取得成果。錢智勇等人[15]論述了楚辭知識庫和網(wǎng)站設計的實現(xiàn)步驟、技術難點及解決思路,力求實現(xiàn)辭賦知識的多維度關聯(lián)與智能檢索。在南京師范大學先秦語料庫的基礎上,許超等人[16]提取《左傳》中的人物、事件,使用社會網(wǎng)絡分析軟件Pajek建立春秋時期的社會網(wǎng)絡,并對其進行定性、定量探索性研究。李斌等人[4]在詞語切分、詞性、人物ID信息標注的基礎上進一步標注時間、地點坐標信息,構建深度標注的《左傳》知識庫,實現(xiàn)了一系列基于詞語、實體和時間地理信息的統(tǒng)計與可視化。相同的思路也被應用于南京師范大學《史記·本紀》和《史記·世家》數(shù)字人文知識庫的構建當中。

      《史記》在漢籍當中至關重要,因此相關數(shù)字化研究很受重視。1987年,哈爾濱工業(yè)大學建成《史記》全文檢索系統(tǒng),這是中國對古文獻全文進行字檢索的開創(chuàng)性成果?!抖π愎偶返裙偶洳財?shù)據(jù)庫將《史記》收錄在內(nèi),提供全文檢索功能,完成了《史記》的表層數(shù)字化工作。隨著《史記》數(shù)字化走向深層階段,《瀚堂典藏》數(shù)據(jù)庫收錄《史記》,并運用人工智能分詞技術,實現(xiàn)了古籍文本基于詞的檢索。2014年中華書局推出收錄《史記》在內(nèi)的《中華經(jīng)典古籍庫》,提供專名查詢(包括人名、事件、地名、紀年、職官機構)、聯(lián)機字典、紀年換算等檢索功能[17]。

      近年來,《史記》專書數(shù)字人文研究亦有發(fā)展。張琪等人[18]探究基于深度學習方法的古籍分詞詞性一體化標注技術,并將其應用于《史記》,統(tǒng)計出《史記》中人名、地名、動詞、時間詞4種詞類的高頻詞。劉忠寶等人[19]提出面向《史記》的歷史事件及其組成元素抽取方法,并基于此構建《史記》事理圖譜。南京師范大學開發(fā)的《史記·本紀》數(shù)字人文知識庫,提供詞匯、人物、地點與地理信息系統(tǒng)(geographical information system,GIS)信息檢索功能。

      綜上可知,《史記》專書深層數(shù)字化和數(shù)字人文研究已有一定成果,詞匯級別的、提供實體信息查詢的《史記》數(shù)字人文知識庫正在逐步建設當中。本文有效結合詞匯、實體信息、GIS技術等方面,完成《史記》中《列傳》部分的內(nèi)容標注與知識挖掘,為建成完整的《史記》數(shù)字人文知識庫補充大量語料,也為后續(xù)進行綜合性、多層次的《史記》全文文本知識挖掘、計量分析與可視化檢索提供可能。

      2 《史記·列傳》數(shù)字人文知識庫的建設

      知識庫是存儲、組織和處理知識以及提供知識服務的重要知識集合[20]。數(shù)字人文視域下的古籍知識庫建設是在古籍文本錄入的基礎之上,對生文本進行詞性、句法、語義等不同層面的標注,提取時間、地點、人物、事件等不同類型的實體,通過大數(shù)據(jù)技術重組古籍文獻知識,并支持可視化分析。為建設《史記·列傳》數(shù)字人文知識庫,首先對《列傳》進行自動分詞和人工詞性標注,再為每個人物、地點指定唯一的ID編號,進一步完善命名實體信息。人物方面補充人物別名、性別、國別,地點方面補充今地名和GIS坐標,由此實現(xiàn)了《列傳》詞類標注基礎上的歷史時間、地點、人物信息全面標注,得到6張數(shù)據(jù)表:文本表、文本標注表、人物表、地點表、人物同現(xiàn)表、人地同現(xiàn)表。進而以6張一維線性序列表為基礎,構建多維《列傳》知識網(wǎng)絡,打通人物庫與GIS庫,使《史記·列傳》數(shù)字人文知識庫成為基于詞和實體的、結構化、一體化的知識集合。

      2.1 數(shù)據(jù)來源與分詞和詞性標注

      《史記·列傳》數(shù)據(jù)庫的原始數(shù)據(jù)來自《史記》(點校修訂本)[21]的《列傳》部分。首先使用南京師范大學開發(fā)的古漢語分詞與詞性標注規(guī)范和自動分析工具[22],對《列傳》全文24萬余字進行自動分詞和詞性標注,詞性標記共分為32類:形容詞(a)、連詞(c)、副詞(d)、方位詞(f)、詞綴(i)、兼詞(j)、數(shù)詞(m)、普通名詞(n)、書名(nb)、國名(ng)、年號(nh)、民族(nn)、官職(no)、人名(nr)、地名(ns)、專名(nx)、介詞(p)、量詞(q)、代詞(r)、擬聲詞(s)、時間詞(t)、助詞(u)、動詞(v)、使動用法(vs)、為動用法(vw)、意動用法(vy)、標點(w)、其他語素和字(x)、語氣詞(y)、形容詞作狀語(za)、名詞作狀語(zn)、動詞作狀語(zv)。再根據(jù)《二十四史全譯》[23]等工具書,對自動分詞和詞性標注結果進行人工校對。在人工校對的基礎之上,對《列傳》全文進行二次實體信息人工標注(標注內(nèi)容包括人物信息和地點信息等),由此形成了《列傳》高質量、多層次的標注文本。多層次標注樣例見表1。

      表1 多層次標注樣例

      2.2 實體信息標注

      2.2.1 人物信息標注

      《列傳》中人物和名稱往往不是一一對應的,異名同指(一人對應多個名稱)、同名異指(一個名稱對應多人)的情況時有出現(xiàn)。人物與名稱的參差對應使后續(xù)計量分析的準確性受到很大影響,因此本文采取為每個人物標注唯一人物ID編號的方法,選取其最具代表性和概括性的、為人們所熟知的稱呼為“正名”,其余歸為“別名”,同一人物的不同名稱都指向同一個ID。如果某人物在《史記》的《本紀》和《世家》部分出現(xiàn)過,則沿用其先前被匹配的人物ID,如果是在《列傳》中出現(xiàn)的新人物,則為其標注新的ID。除人物ID、正名、別名之外,《史記·列傳》數(shù)據(jù)庫中收錄的人物信息還包括每個人物的性別、國別、備注,人名表示例見表2。

      表2 人名表示例

      2.2.2 地點信息標注

      《史記·列傳》知識庫收錄的地點信息包括文中每個地點的地點ID、地名、今地名、類別(一般地名、諸侯國名、河流、山名等)、百度地圖GIS坐標,地名表示例見表3。同樣,如果某地點在《史記》的《本紀》和《世家》部分出現(xiàn)過,則沿用其先前被匹配的地點ID;如果是在《列傳》中出現(xiàn)的新地點,則為其標注新的ID。筆者參考《史記地名考》[24]等文獻以考證文中古地名的今地點,在此基礎上利用百度地圖應用程序接口(application program interface,API)解析今地點,獲得對應的GIS坐標數(shù)據(jù)。

      表3 地名表示例

      2.3 數(shù)據(jù)庫架構

      在經(jīng)過二次校對的分詞和詞性標注、人物信息標注、地點信息標注的基礎之上,完成了《列傳》文本的歷史時間、地點、人物信息的全面標注,形成 文本表、文本標注表、人物表、地點表、人物同現(xiàn)表、人地同現(xiàn)表,構建了《史記·列傳》數(shù)字人文知識庫,知識庫結構如圖1所示。

      圖1 《史記·列傳》數(shù)字人文知識庫結構

      3 《史記·列傳》數(shù)字人文知識庫與地圖平臺

      3.1 檢索框架

      本文構建的《史記·列傳》檢索平臺包含全文檢索、人物檢索、地名檢索三大功能,全文檢索包括“文本”“詞頻詞性”檢索功能,而人物和地名實體查詢需要依托實體ID,其中人物檢索包括“人物基本信息”“原文追蹤”和“人物關系”檢索功能,地名檢索包括“地點基本信息”和“人地同現(xiàn)”檢索功能。檢索平臺結構如圖2所示。

      圖2 檢索平臺結構

      3.2 全文檢索

      在全文檢索方面,本檢索平臺除提供基礎的文本字符匹配檢索之外,還提供詞頻詞性檢索。詞頻詞性檢索可以基于詞,如檢索“者”,可得“者”在《列傳》中以助詞(u)詞性出現(xiàn)2 714次,以代詞(r)詞性出現(xiàn)1 812次,以名詞(n)詞性出現(xiàn)86次。從不同詞性的應用比例來看,在《列傳》中“者”主要以助詞和代詞形式出現(xiàn),尤以助詞為主,這可以為《史記》的詞匯研究提供支撐材料。詞頻詞性檢索也可以基于詞性,如檢索名詞(n),可得《列傳》中的名詞按頻次由多到少排列分別為“人、王、兵、臣、國……”,從高頻名詞可以看出,這是一段群雄交鋒、英雄輩出、戰(zhàn)爭四起的歷史歲月。詞頻詞性檢索示例見表4和表5。

      表4 詞頻詞性檢索示例(詞:者)

      表5 詞頻詞性檢索示例(詞性:名詞)

      3.3 人物檢索

      相較于傳統(tǒng)的人物檢索,本平臺的人物檢索功能更加全面、準確、直觀。人物檢索頁面能夠為用戶提供所查詢?nèi)宋锏幕拘畔ⅲㄈ宋颕D、正名、別名、性別、國別)、上下文信息(出現(xiàn)次數(shù)、原文追蹤)以及人物關系(交往人物、交往頻次)。以檢索“公孫敖”為例,首先在人物檢索頁面輸入“公孫敖”,繼而呈現(xiàn)“公孫敖”的人物基本信息,可知其人物ID為7731。以人物ID為線索,進一步檢索可得“公孫敖”在《列傳》中以各種稱謂出現(xiàn)的24個文段?!肮珜O敖”人物檢索示例見表6,原文追蹤示例見表7。

      表6 “公孫敖”人物檢索示例

      表7 “公孫敖”人物原文追蹤示例

      3.4 地點檢索

      地點檢索頁面供用戶檢索《列傳》中所有地點的基本信息(地點ID、地名、今地點、類別),并使用百度地圖API,添加地圖控件,將《列傳》中出現(xiàn)的地名還原為精確的地圖坐標,并做出相應標記,使用戶能夠從地圖上直觀感受《列傳》地名的具體位置。

      3.5 人物地圖——人地同現(xiàn)軌跡圖

      人物游歷軌跡是歷史研究中的重要問題之一,但用傳統(tǒng)方法進行研究往往需要進行大量考證,且文字描寫不夠直觀。為了用更加簡潔且直觀的方式來展現(xiàn)《列傳》中人物的游歷軌跡,運用近似計算和可視化方法,根據(jù)人物和地點在文本中的同現(xiàn)信息(在用逗號或句號分隔的一個句子中同時出現(xiàn))生成人地同現(xiàn)軌跡圖,并在檢索平臺網(wǎng)站上提供地圖信息查詢功能。

      以“李廣”為例,平臺檢索“李廣”的高頻同現(xiàn)地點見表8。由此可以推斷出“李廣”的游歷軌跡,生成人地同現(xiàn)圖,為“李廣”事跡研究提供可視化線索。

      表8 平臺檢索“李廣”的高頻同現(xiàn)地點

      4 數(shù)據(jù)分析與可視化

      《史記·列傳》數(shù)字人文知識庫及檢索平臺進行了歷史典籍的結構化探索,在數(shù)據(jù)的豐富性和檢索的層次性上遠超傳統(tǒng)全文檢索數(shù)據(jù)庫。本節(jié)將在此基礎上,對《列傳》進行詞匯、人物、地點、實體同現(xiàn)等層面的知識挖掘與計量分析。

      4.1 《列傳》詞匯基本面貌

      不同于以往基于字的古籍數(shù)據(jù)庫,本文構建的《史記·列傳》數(shù)據(jù)庫以經(jīng)過大量切分和標注工作得到的《列傳》分詞標注文本為基礎,實現(xiàn)了基于詞的檢索,能夠從詞匯層面對《列傳》全文進行窮盡式的統(tǒng)計,將《列傳》全文的計量分析從單字層面拓展到詞匯層面。據(jù)統(tǒng)計,《列傳》共有216 942個詞(247 540個字),其中單字詞有189 683個,雙字詞有23 175個,三字及以上詞語有4 084個,全文以單字詞為主,平均每詞1.1個字。

      運用《史記·列傳》數(shù)據(jù)庫可以進行以往基于字的數(shù)據(jù)庫無法完成的多字詞統(tǒng)計,這是沒有分詞的數(shù)據(jù)庫無法實現(xiàn)的工作?!读袀鳌犯哳l多字詞(前10位)見表9。構詞方面,《列傳》中的多字詞以雙字詞為主;詞性方面,《列傳》中的多字詞以名詞為主,其他詞性較少出現(xiàn);詞義方面,高頻多字詞均與國家、政治體系、軍事、民族等相關,符合《史記》記敘朝代興替、帝王與人臣事跡的文本特點?!读袀鳌犯哳l多字詞詞云如圖3所示。

      圖3 《列傳》高頻多字詞詞云

      表9 《列傳》高頻多字詞(前10位)

      除了對詞匯長度進行統(tǒng)計,還可以從詞性角度對各詞性內(nèi)部的詞匯分布進行計算,得出各詞類的高頻詞。如《列傳》全文中副詞共出現(xiàn)16 956次,其中最高頻的前5個副詞見表10,由此可知文中最常用的副詞是“不”,頻次高達4 453次,遠遠超過其他副詞。

      表10 《列傳》高頻副詞(前5位)

      4.2 《列傳》實體信息統(tǒng)計

      4.2.1 人物分布

      不同于《本紀》和《世家》,《列傳》主要記錄人臣事跡,所涉人物必然相應地與前兩部分有所不同。對文中記錄的歷史人物進行頻次層面的梳理,有助于把握《列傳》的重點人物和事件。據(jù)統(tǒng)計,《列傳》出場人物共1 787位,其中未在《本紀》《世家》出現(xiàn)的《列傳》特有人物共1 092位。

      統(tǒng)計《列傳》高頻人物有助于把握《列傳》的人物事件主基調(diào),而高頻人物往往有多個不同稱謂,這給人物統(tǒng)計增加了難度。本文使用的為每個人物標注唯一人物ID的方法,不僅在很大程度上降低了“異名同指”和“同名異指”問題對人物統(tǒng)計造成的負面影響,還為《列傳》人物研究提供了人物的不同稱謂頻次方面的研究材料?!读袀鳌分邪闯鰣鲱l次排序前10位的人物如圖4所示,由內(nèi)圈至外圈分別為人物ID、人物主名以及該人物的不同稱謂占比。

      圖4 《列傳》高頻人物及稱謂分布(前10位)

      4.2.2 地點分布

      傳統(tǒng)的古籍地點研究往往以某地在文本中出現(xiàn)的若干處例句為對象,研究方法以列舉、歸納為主,研究結果也多停留在文字層面。而通過窮盡式的統(tǒng)計與可視化的檢索,本文可收集《列傳》任意地點的所有出處,并將其定位至百度地圖,這為《列傳》地點研究提供了更精細的語料、更高效的方法、更直觀的結果。

      據(jù)統(tǒng)計,《列傳》共提及地點1 173個,按頻次排序前10位的高頻地點(不包括諸侯國)見表11,出現(xiàn)范圍最廣、次數(shù)最多的地點多為河流、古都城。

      黃河作為頻次最高的地點,在《列傳》乃至《史記》全文中的地位一目了然,這印證了北方黃河流域是《史記》所記載歷史的主要地理背景。表11中排名第二的邯鄲為趙國國都,排名第八的咸陽為秦國國都(秦朝都城),再次為趙國和秦國的影響力提供了佐證。值得注意的是,《列傳》中邯鄲的頻次高于咸陽,與《本紀》中情況相反,這正體現(xiàn)了秦國和趙國的不同歷史地位:趙國為戰(zhàn)國七雄之一,但后被秦軍攻滅;而秦國兼并六國進而完成統(tǒng)一大業(yè),建立了中國歷史上首個統(tǒng)一封建王朝,因此在以王朝更替為主的《本紀》之中,秦國都城的出現(xiàn)頻次自然比趙國都城高得多。這足以證明從《史記》地名的分布規(guī)律中可以窺見歷史信息,為古籍研究提供材料。

      表11 《列傳》高頻地點(前10位)

      《列傳》中出現(xiàn)的1 173個地點中,有556個未在《本紀》和《世家》中出現(xiàn)過。為了更好地探索《列傳》獨特的歷史地理信息,本文統(tǒng)計得出《列傳》獨有的高頻地點前5位(不包括諸侯國),具體見表12。

      表12 高頻《列傳》獨有高頻地點(前5位)

      《列傳》獨有高頻地點前5位中包含“烏孫”“康居”兩個西域地名,可見《列傳》有許多前文較少涉及的與西域相關的歷史事件描寫,這值得相關學科的研究人員特別關注。

      4.3 實體關系

      傳統(tǒng)古籍研究很難自動地、全面地挖掘人物、地點等實體間的關系,并以客觀統(tǒng)一的標準對其進行衡量。本文在對《列傳》進行全文實體標注的基礎上,計算實體ID間的同現(xiàn)情況并進行統(tǒng)計,實體同現(xiàn)次數(shù)越多則相關度越高。據(jù)此本文進行了《列傳》人物關系密度和廣度、人物的同現(xiàn)地點數(shù)、地點的同現(xiàn)人物數(shù)的統(tǒng)計和匯總。

      4.3.1 人物關系密度

      兩個人物之間的同現(xiàn)次數(shù)可以作為估算人物關系的指標,往往聯(lián)系越緊密的兩個人同現(xiàn)次數(shù)越多。本文在《列傳》中選取表13所示的3對同現(xiàn)人物進行分析,高頻同現(xiàn)人物對多與歷史事件、血緣親族、君臣關系等相關。漢高祖劉邦和項羽在《列傳》中為最高頻同現(xiàn)人物對,這正是“楚漢爭霸”的縮影;漢文帝與漢景帝是父子關系,并共同造就“文景之治”;秦昭王和藺相如同現(xiàn)多次,這源于“完璧歸趙”和“澠池會盟”。由此可見,統(tǒng)計《列傳》中的高頻同現(xiàn)人物對可以為眾多歷史人物和歷史事件的研究提供量化參考。

      表13 《列傳》高頻人物同現(xiàn)對

      為了更好地展現(xiàn)《列傳》眾多人物間的關聯(lián)以及交往密度,本文選取《列傳》同現(xiàn)人物高頻前120對,借助ECharts技術繪制人物關系網(wǎng)絡(如圖5所示)。圖5中節(jié)點表示人物,邊表示交往關系,根據(jù)圖中節(jié)點大小、關系網(wǎng)疏密,可以直觀地把握人物交際網(wǎng)絡。從整體上看,《列傳》中的人物交際關系網(wǎng)主要以漢高祖、秦始皇、韓信、項羽、秦昭王等人物為核心。

      圖5 《列傳》同現(xiàn)人物關系網(wǎng)絡(前120對)

      4.3.2 人物關系廣度

      廣度同樣是衡量人物交往情況的參考依據(jù)。某一特定人物對的同現(xiàn)頻次可以顯示兩人之間的關系疏密,而某一特定人物擁有的同現(xiàn)對數(shù)量,則可以顯示該人物的交往范圍。統(tǒng)計出某一特定人物共擁有多少對人物關系后,可以進一步細化查詢該人物分別與哪些人物有過幾次同現(xiàn),在研究歷史人物生平時便可比較完整地把握其人際關系。借助ECharts繪制的“李廣”在《列傳》中的人物關系圖如圖6所示。中心節(jié)點為“李廣”,周圍節(jié)點為與其有同現(xiàn)關系的人物,節(jié)點越大說明同現(xiàn)關系越多,也即關系越緊密、相關度越高。由圖6可見,“李廣”在《列傳》中共與29人有過同現(xiàn),其中相關度最高的是“公孫敖”,“衛(wèi)青”“李敢”“程不識”3人次之。

      圖6 “李廣”在《列傳》中的人物關系圖

      4.3.3 人地關系

      人物-地點關系是古籍研究的重要問題之一,有助于探究歷史人物生平經(jīng)歷、把握歷史地點重要程度。但使用傳統(tǒng)研究方法很難從量化的角度讓人們對古人游歷情況有直觀的了解。本文在計算人物-地點同現(xiàn)關系的基礎上估算《列傳》人物游歷地點,分別從人物角度計算人物的同現(xiàn)地點數(shù)量、從地點角度計算地點的同現(xiàn)人物數(shù)量,這可以作為推斷某特定人物在《列傳》中所記錄的游歷軌跡、某特定地點在《列傳》中的重要程度的參考。

      《列傳》中同現(xiàn)地點數(shù)最多的前5個人物和同現(xiàn)人物數(shù)量最多的前5個地點見表14??梢钥闯鏊腥嗣偷孛c前文統(tǒng)計得到的高頻人物、高頻地點、廣交人物、密交人物多有重合。

      表14 《列傳》高頻共現(xiàn)人物、地點(前5位)

      5 結束語

      古籍數(shù)字化不斷向深層方向發(fā)展,將傳統(tǒng)典籍的文本轉換為高度結構化的新型數(shù)字人文知識庫,將文本中詞匯、人物、地理實體等要素有機組織起來,推動古籍文本可視化、文本信息挖掘等工作,對我國古籍的研究與傳承意義重大,對語言學、歷史文獻學、歷史地理學等學科具有積極的推動作用。本文為進行歷史典籍的結構化探索、推動《史記》深層數(shù)字化工作,以《列傳》為對象,將傳統(tǒng)典籍的文本轉換為高度結構化的新型數(shù)字人文知識庫,主要完成了以下工作。

      ● 對《列傳》進行詞性、實體標注,完善《列傳》人物表、地名表等6張數(shù)據(jù)表,在此基礎上建成了基于詞和實體的、結構化、一體化的《史記·列傳》數(shù)據(jù)庫。這對南京師范大學開發(fā)的《史記·本紀》《史記·世家》數(shù)字人文知識庫起到了重要的承接作用,為《史記》整體數(shù)據(jù)庫的構建做了豐富的內(nèi)容補充。

      ● 基于數(shù)據(jù)庫開發(fā)線上檢索系統(tǒng),檢索功能包括全文檢索以及傳統(tǒng)數(shù)據(jù)庫無法實現(xiàn)的基于深度標注的詞頻詞性檢索、人物檢索、地點檢索等,并結合百度地圖實現(xiàn)人物關系、人地關系的可視化。

      ● 在數(shù)據(jù)庫和檢索平臺的基礎上,本文進行了一系列數(shù)據(jù)統(tǒng)計和可視化分析。首先描寫《列傳》多字詞的基本面貌,計算得到《列傳》平均每詞1.1個字。其次統(tǒng)計《列傳》人物、地點分布情況,列出了《列傳》的高頻人物和地點,得出《列傳》共出現(xiàn)人物1 787位、地點1 173個。且較之《本紀》和《世家》,《列傳》特有人物共1 092位,特有地點共556個,量化了《列傳》與《本紀》《世家》的差異。最后,量化《列傳》人物關系和人地關系,對人物-人物、人物-地點的交往密度和廣度進行計量。

      但受制于時間、人力等因素,本文研究仍存在不足之處有待在未來的工作中不斷改進,具體如下。

      ● 完善標注規(guī)則,提高標注準確性。本文數(shù)據(jù)正在持續(xù)校對當中,后續(xù)將對細節(jié)問題進行補充和校正。在此過程中需要及時記錄并整理所遇到的問題,相應地對標注規(guī)則進行細化。亦可通過開放在線標注校正系統(tǒng),為邀請各界專家學者加入標注校對工作提供便利條件,最終形成系統(tǒng)性的標注規(guī)范,使《列傳》標注文本具有更高的準確度。

      ● 后續(xù)將繼續(xù)擴大數(shù)據(jù)規(guī)模,將《本紀》《世家》和《列傳》三部分數(shù)據(jù)庫進行整合,形成更加完整的《史記》數(shù)據(jù)庫。

      ● 嘗試運用多種數(shù)字化技術,對包括人物關系、人地關系在內(nèi)的實體關系計算進行改進,使其突破限于近似估算的水平。

      ● 嘗試設計交互可視化系統(tǒng),使可視化效果更加多維、豐富。優(yōu)化檢索平臺性能,使檢索平臺更好地為社會服務,起到科研和科普作用。還可以與其他學科和數(shù)據(jù)庫聯(lián)動,拓寬研究思路,得出更加多層次、寬領域的研究成果。

      猜你喜歡
      知識庫古籍史記
      少年品讀 史記
      少年品讀 史記
      中醫(yī)古籍“疒”部俗字考辨舉隅
      關于版本學的問答——《古籍善本》修訂重版說明
      天一閣文叢(2020年0期)2020-11-05 08:28:06
      少年品讀 史記
      少年品讀 史記
      基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
      關于古籍保護人才培養(yǎng)的若干思考
      天一閣文叢(2018年0期)2018-11-29 07:48:08
      我是古籍修復師
      金橋(2017年5期)2017-07-05 08:14:41
      高速公路信息系統(tǒng)維護知識庫的建立和應用
      吐鲁番市| 马鞍山市| 思南县| 大邑县| 丰原市| 江都市| 阿坝县| 岗巴县| 商南县| 黄陵县| 吉木乃县| 博乐市| 澎湖县| 同仁县| 同心县| 镇安县| 蒙自县| 阳西县| 滕州市| 平南县| 平度市| 涟水县| 闵行区| 平遥县| 安达市| 新蔡县| 岳池县| 临颍县| 浦江县| 遂昌县| 齐河县| 溧水县| 民权县| 新河县| 丘北县| 疏勒县| 黄梅县| 南开区| 周口市| 龙胜| 白城市|