• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    古籍中人物史料的關(guān)聯(lián)組織研究
    ——以《漢書·藝文志》中西漢經(jīng)學家群體為例

    2023-03-12 09:14:16程結(jié)晶王璞鈺
    圖書館論壇 2023年3期
    關(guān)鍵詞:藝文志西漢本體

    程結(jié)晶,王璞鈺

    0 引言

    經(jīng)學泛指先秦各家的學術(shù)要義,其作為古代傳統(tǒng)學術(shù)思想的主體,對古代文化乃至現(xiàn)今社會的傳統(tǒng)道德理念都起著不可或缺的作用,而經(jīng)學家則是指闡釋、注解、研究與宣傳先秦各家學術(shù)要義與經(jīng)典的學者。由于秦始皇“焚書”以及漢初上層統(tǒng)治集團對儒生經(jīng)學的鄙夷,特別是漢高祖劉邦本人對儒生經(jīng)學持“諸客冠儒冠來者,沛公輒解其冠,溲溺其中”的態(tài)度,因此西漢初年經(jīng)學家及經(jīng)學思想勢力普遍較弱[1]。自西漢武帝“罷黜百家,獨尊儒術(shù)”以來,經(jīng)學便成為漢代統(tǒng)治階級的官方思想,得到了快速的發(fā)展,經(jīng)學家也從民間走向官方,紛紛由“避世”走向“出仕”,研究西漢時期的經(jīng)學家群體能很好地觀察這一時期經(jīng)學的發(fā)展以及經(jīng)學派內(nèi)部學術(shù)思想的交流、沖突與融合[2]。

    本文引入關(guān)聯(lián)數(shù)據(jù)對原始數(shù)據(jù)分散的知識元素進行有序化組織,使其不再純粹依靠文本考證進行知識研究,而是將含有人物知識元素的史料資源轉(zhuǎn)化為數(shù)據(jù)資源,在此基礎(chǔ)上實現(xiàn)知識關(guān)聯(lián),以此推動西漢經(jīng)學家史料挖掘的廣度與深度。所謂的古籍人物知識關(guān)聯(lián),便是指基于數(shù)字化的史籍資料與碎片化的人物數(shù)據(jù),且有一定數(shù)據(jù)組織方式與體系的,核心實體記載于同一古籍中,具有相似特性的歷史人物描述性信息的語義化網(wǎng)絡(luò)開放數(shù)據(jù)集。此數(shù)據(jù)集最大的意義在于將原先分散在同一古籍中不同章節(jié)的相關(guān)知識元素匯聚到一起,以方便他人的使用,且可通過數(shù)據(jù)導出來進行社會網(wǎng)絡(luò)分析、統(tǒng)計分析或地理空間分析等深入的數(shù)據(jù)挖掘[3-4]?,F(xiàn)今,如何挖掘古籍資料中的歷史文化知識內(nèi)容,已成為新文科背景下古籍數(shù)字化研究的重要內(nèi)容。

    為方便數(shù)據(jù)收集與關(guān)系抽取,本文以《漢書·藝文志》(以下簡稱《藝文志》)中所記載的西漢經(jīng)學家為例進行研究?!端囄闹尽纷鳛楝F(xiàn)存最早的歷史編年史目錄文獻,位列《漢書》十志之一[5-6],兼具文獻學、歷史學、文學、思想學以及圖書館學等多重學科研究價值。清代史學大家王鳴盛認為《藝文志》乃學問之眉目,著述之門戶[7]?!端囄闹尽纷鳛闈h代最具有代表性的史志書目,記載的各家學者均具時期代表性,具有人物研究價值,能直觀反映西漢時期各家學術(shù)的淵源、發(fā)展走向。《藝文志》所記載的人物甚多,僅《六藝略》中就記有人物110多個,既包括孔子、漢武帝、司馬相如等高度知名人物,也包括張禹、王同、大小夏侯等不知名卻有一定學術(shù)研究價值的人物。為切合研究主題以及便于數(shù)據(jù)收集工作,筆者將以《藝文志》中記載的經(jīng)學家群體為研究對象,構(gòu)建知識關(guān)聯(lián)的組織框架,旨在通過聚合重構(gòu)知識元素來方便相關(guān)用戶群體與社會大眾的利用,同時也為其他古籍中人物群體史料的語義化知識組織研究提供參考借鑒[8]。

    1 相關(guān)研究

    截至2021年7月31日,在知網(wǎng)、維普、萬方等文獻檢索平臺所檢索得到的《藝文志》西漢經(jīng)學家相關(guān)研究成果較少。因此,為擴大參考文獻資料來源,提高研究的科學性,資料收集與文獻梳理工作將圍繞西漢經(jīng)學家與歷史文化領(lǐng)域的知識關(guān)聯(lián)、語義化知識組織等方面展開。西漢經(jīng)學家作為西漢時期一個重要的士人群體,其學術(shù)思想具有較高的研究價值。此外,西漢經(jīng)學家也可視為一個專有的歷史人物群體,歷代也不乏這類人物群體,如明清的進士群體、民國初年的上海女醫(yī)生群體等。諸多學者從不同研究視角,以不同的研究重心,對西漢經(jīng)學家與歷史文化領(lǐng)域的知識關(guān)聯(lián)進行細致的研究與剖析,為本次研究提供了參考價值極高的文獻資料。對歷史人物群體人文知識的深入了解是進行史料資源知識關(guān)聯(lián)組織的重要前提,其他領(lǐng)域研究知識關(guān)聯(lián)、知識組織的文獻資料對本研究也具有重要的借鑒價值。

    1.1 西漢經(jīng)學家人物群體研究

    西漢經(jīng)學家群體作為此次研究的主要對象,在進行數(shù)據(jù)化前,需要盡可能地了解該群體的歷史變遷、生活環(huán)境、社會活動等相關(guān)人文知識。近年來,諸多學者進行了相關(guān)領(lǐng)域的研究??赚F(xiàn)紅通過展示西漢經(jīng)學家從西漢初年至西漢末年人生道路選擇的變化過程,引出經(jīng)學在西漢一朝的盛衰起伏趨勢,從而揭示經(jīng)學地位與經(jīng)學家命運之間的關(guān)聯(lián)[9]。胡建軍則對西漢知名經(jīng)學家族——韋賢家族進行研究,通過家族世系的考證與詮釋,引出西漢韋賢家族的形成演變,進而指出韋賢家族在西漢經(jīng)學發(fā)展中的地位,以此促進西漢經(jīng)學研究的進步[10]?,F(xiàn)階段,學界關(guān)于西漢經(jīng)學家研究已有較多的理論成果,促進了筆者對西漢經(jīng)學家及其歷史變遷、社會活動等方面的了解,但在研究方法上仍以傳統(tǒng)意義上的文本考證為主,極少用到數(shù)據(jù)分析、統(tǒng)計分析等新文科所倡導的社會科學計算手段。

    1.2 歷史文化領(lǐng)域的知識關(guān)聯(lián)研究

    中國是一個擁有幾千年優(yōu)秀傳統(tǒng)文化的大國,有無數(shù)的歷史人物和歷史文化知識承載著中華優(yōu)秀傳統(tǒng)文化。諸多學者以不同的研究視角,對歷史人物和歷史文化知識進行重構(gòu)、聚合、關(guān)聯(lián)。賈君枝等從發(fā)展的視角出發(fā),構(gòu)建以SKOS模型化、RDF關(guān)聯(lián)化、關(guān)聯(lián)數(shù)據(jù)發(fā)布為主的知識組織框架,并系統(tǒng)概括了這一知識關(guān)聯(lián)對傳統(tǒng)文化知識的應(yīng)用價值[11];在歷史文化領(lǐng)域的知識關(guān)聯(lián)研究中,部分學者將重點放在知識關(guān)聯(lián)的資源關(guān)聯(lián)與服務(wù)功能的研究上,李永卉等為構(gòu)建地方詩詞資源的關(guān)聯(lián)組織,基于Drupal平臺,結(jié)合XAMPP集成包實現(xiàn)地方詩詞資源關(guān)聯(lián)數(shù)據(jù)平臺的搭建,使其可以進行可視化展示與語義推理服務(wù)[12];徐晨飛等構(gòu)建了《方志物產(chǎn)》語義化知識組織的框架,并以此系統(tǒng)探討了實體識別、實體關(guān)聯(lián)、可視化展示等方志物產(chǎn)關(guān)聯(lián)數(shù)據(jù)發(fā)布的全過程[13]?,F(xiàn)階段知識關(guān)聯(lián)在人文學科中的應(yīng)用研究,仍以“物”為主,“人”的研究較少,但眾多從不同視角和維度探討歷史文化知識資源語義化組織的研究,已經(jīng)為后人研究歷史人物知識的關(guān)聯(lián)組織提供了參考價值極高的研究方法與視角。為實現(xiàn)《藝文志》西漢經(jīng)學家人物知識資源的價值最大化,需要對其進行語義組織化,在完成實體屬性分析、詞表構(gòu)建、本體模型確定的基礎(chǔ)上,完成知識組織框架的最終確定。

    知識關(guān)聯(lián)在歷史文化研究中已有較多的研究成果,盡管歷史人物方面研究成果較少,但已有部分學者逐步涉足歷史人物的知識關(guān)聯(lián)研究?,F(xiàn)階段,基于關(guān)聯(lián)組織的歷史人物史料方面也有一定的實踐成果,如中國歷代人物傳記資料庫平臺、上海圖書館家譜知識服務(wù)平臺等,為此次研究提供價值豐富的實例參考?;谏鲜鰧W者研究成果與國內(nèi)實踐成果,本文將構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的《藝文志》歷史人物史料語義化知識組織框架。

    2 《藝文志》西漢經(jīng)學家人物知識的實體屬性與本體構(gòu)建

    2.1 數(shù)據(jù)分類

    本次研究所采用的《藝文志》西漢經(jīng)學家人物數(shù)據(jù),不僅包含《藝文志》西漢經(jīng)學家人物信息,還囊括《藝文志》西漢經(jīng)學家相關(guān)事件信息、地理信息等諸多相關(guān)知識要素?;跀?shù)據(jù)類型、來源與表達方式的不同對數(shù)據(jù)進行梳理,梳理后的數(shù)據(jù)可歸納為4類,即《藝文志》西漢經(jīng)學家人物對象數(shù)據(jù)、事件數(shù)據(jù)、地點數(shù)據(jù)、著述數(shù)據(jù)。

    (1)《藝文志》西漢經(jīng)學家人物對象數(shù)據(jù):指含有人物相關(guān)信息的數(shù)據(jù)集,包括來自經(jīng)古籍考證的人名詞條的網(wǎng)絡(luò)文本數(shù)據(jù)、班固所著的《漢書·儒林傳》與司馬遷所著的《史記·儒林列傳》等關(guān)于西漢經(jīng)學家的數(shù)字化文本。

    (2)《藝文志》西漢經(jīng)學家相關(guān)事件數(shù)據(jù):該數(shù)據(jù)集以含有《藝文志》西漢經(jīng)學家相關(guān)事件要素的各類型數(shù)據(jù)為主,主要為來自經(jīng)古籍考證的事件詞條的網(wǎng)絡(luò)文本數(shù)據(jù)、葉長青的《漢書·藝文志問答》與徐建委的《漢書·藝文志·六藝略箋證》等書籍的數(shù)字化文本。

    (3)《藝文志》西漢經(jīng)學家相關(guān)地點數(shù)據(jù):此類數(shù)據(jù)囊括含有相關(guān)地點信息的各類數(shù)據(jù),以中國歷史地理信息平臺、中國歷史地理GIS數(shù)據(jù)庫等查找到的時空地名錄、相關(guān)古代地理數(shù)據(jù)、經(jīng)緯數(shù)據(jù)等為主[14]。

    (4)《藝文志》西漢經(jīng)學家相關(guān)著述數(shù)據(jù):此類數(shù)據(jù)涵蓋《藝文志》西漢經(jīng)學家相關(guān)著述的信息內(nèi)容,數(shù)據(jù)主要來自上海圖書館開放數(shù)據(jù)平臺中文古籍聯(lián)合目錄及循證目錄所檢索的館藏著述數(shù)據(jù)、版本數(shù)據(jù)等。

    2.2 實體屬性

    本文所研究的《藝文志》西漢經(jīng)學家人物知識主要強調(diào)特定時期與學術(shù)群體等屬性特征,即將時間限制于西漢,將學術(shù)群體限制于《藝文志》所記的經(jīng)學家,將基礎(chǔ)文本限制于《藝文志》,其最大的意義在于可通過社會計量分析、統(tǒng)計分析或地理空間分析來進行深入的知識挖掘。該知識集合的分類表達基于上文的數(shù)據(jù)來源分析進行延伸,分別是人物、事件、地點、著述,且各類知識的數(shù)據(jù)來源在上文數(shù)據(jù)來源分析皆對應(yīng)表述清楚,在此不做贅述。人物為知識中的主體內(nèi)容與基礎(chǔ),是知識的核心,本質(zhì)上是對人物的描述性內(nèi)容,方便對人物的進一步了解,是事件、著述的生成者,也是地點的觸發(fā)者。該集合可包括人物介紹、姓、異名、字、仕途、生年、卒年等;事件、著述是該知識的重要組成,一個事件中經(jīng)常會關(guān)聯(lián)到不同的人物、地點,著述也是如此,事件可包括時間、事件影響等,而著述則包含作者、標題、內(nèi)容、體裁、版本、創(chuàng)作時間、時代背景等,事件主要指的是該學者所經(jīng)歷的重要事件,著述則是該學者一生所做的學術(shù)作品;地點則是該知識的重要補充內(nèi)容,可包括地點名稱、別名、介紹、經(jīng)緯等,地點是學者一生所經(jīng)歷的重要地點?;谥R分析得出的具體實體屬性如圖1所示。

    圖1 《藝文志》西漢經(jīng)學家人物知識的實體屬性

    2.3 本體模型

    本體可視為特定領(lǐng)域之中某套知識概念以及其相互之間關(guān)系形式化表達的抽象模型,常用于形容特定領(lǐng)域中的知識,其定義為共享概念模型的明確的形式化規(guī)范說明[15]?,F(xiàn)階段本體構(gòu)建在文史知識工程中得到廣泛的應(yīng)用。本體構(gòu)建涉及特定領(lǐng)域中知識的開放共享,結(jié)合圖1中的實體屬性,本研究的知識劃分為人物、事件、地點、著述4個部分。為貼合該知識多本體的特點,本文將選擇多本體型構(gòu)建方式構(gòu)建本體。在本文已有本體模型理論與國內(nèi)相關(guān)學者本體模型研究成果的基礎(chǔ)上,對本體服務(wù)中心(ONTHUB.NET)提供的本體進行選擇性復(fù)用。本體服務(wù)中心作為一個開放的本體數(shù)據(jù)庫,既可為用戶提供國內(nèi)外諸多知名本體(如上海圖書館家譜知識庫本體、中國歷代人物傳記資料庫關(guān)聯(lián)數(shù)據(jù)系統(tǒng)本體、EMR本體等),也可為用戶提供本體的校驗功能。綜合多方因素,構(gòu)建了《藝文志》西漢經(jīng)學家人物知識的本體模型。

    根據(jù)本研究的知識關(guān)聯(lián)特點,遵循復(fù)用原則,選擇FOAF、SHLNames、LOV、DC、EVENT、GeoNames等國內(nèi)外詞表進行復(fù)用,結(jié)合實際情況引入額外構(gòu)建詞表(Character Knowledge Resources,CKR)。FOAF是一個致力于使用網(wǎng)絡(luò)連接人和信息的項目,可視為一種基于W3C框架與RDF技術(shù)的命名屬性和類的詞典,主要用于描述人物與學術(shù)關(guān)系內(nèi)容;SHLNames基于FOAF項目的屬性描述,對人物本體類和屬性間的關(guān)系做了很大程度上的補充;LOV(Linked Open Vocabularies)即關(guān)聯(lián)開放詞表,是一個專為可用詞表而設(shè)計的詞表庫,對各領(lǐng)域、行業(yè)、類型的本體及其屬性進行了描述;DC(Dublin Core Metadata Initiative)即都柏林核心元數(shù)據(jù)計劃,主要指包括屬性、詞匯編碼模式、語法編碼模式和類在內(nèi)的用于描述數(shù)字文獻的元數(shù)據(jù)術(shù)語的最新規(guī)范;EVENT(The Event Ontology)則是專用于描述事件概念的本體,該本體僅有6個一級類;GeoNames(The Geonames Ontology)主要針對GeoNames.org數(shù)據(jù)庫中定義的地理屬性進行描述,該本體常被用于地理區(qū)域本體的復(fù)用中。然而,盡管本文盡可能復(fù)用詞表,但在實際構(gòu)建時復(fù)用的本體詞表往往無法滿足實際需要,因此需要根據(jù)研究的實踐需求構(gòu)建CKR,以對《藝文志》西漢經(jīng)學家人物知識的實體屬性做進一步補充與完善,完成本體模型屬性的確定。通過各本體間屬性的相互映射,實現(xiàn)本體間的關(guān)聯(lián)[16]。

    《藝文志》西漢經(jīng)學家人物知識的4類核心實體在本體模型中均以類(class)來表示,即人物類(ckr:Person)、事件類(ckr:Event)、地點類(ckr:Place)、著述類(ckr:Work),且均按照自身特點與復(fù)用的詞表進行屬性內(nèi)容的補充。人物類為本體中的核心、主體內(nèi)容與基礎(chǔ),其本質(zhì)是對人物的介紹性描述,其知識書寫模式應(yīng)敘述人名并作簡要文字描述且不等同于小傳,不做介紹;介紹則作為屬性來描述,即小傳(shl:brief-Biography),該類主要參照FOAF、SHLNames詞表來對《藝文志》西漢經(jīng)學家人物屬性進行描述,并對人物類中的關(guān)聯(lián)數(shù)據(jù)標注屬性標簽即生地(shl:birthplace)、卒地(shl:deathplace)、創(chuàng)作著述(ckr:creatorOf)等,使其與其他實體內(nèi)容相關(guān)聯(lián)。著述、事件類則是本體的重要構(gòu)成者,主要復(fù)用了SHLNames、DC、EVENT,并利用自建詞表進行屬性內(nèi)容的補充與完善;著述類、事件類的知識書寫模式均無介紹性文字僅敘述著述名、事件名,其時間屬性則與外部數(shù)據(jù)平臺實體關(guān)聯(lián),知識書寫模式將表示為“朝代+年號”。以上兩種類的信息描述均體現(xiàn)了知識的特殊性;地點類是本體的重要內(nèi)容補充,地名屬性將與中國歷史地理信息平臺、中國歷史地理GIS數(shù)據(jù)庫等外部數(shù)據(jù)平臺鏈接,將地理的現(xiàn)今地名映射為古代地名,且附上對應(yīng)朝代。該實體使用的主要是GeoNames與自建詞表(CKR),以此來對完成屬性內(nèi)容的描述,由此體現(xiàn)知識的創(chuàng)新性[17]。最終確定的本體類及其屬性如表1所示。

    表1 《藝文志》西漢經(jīng)學家人物知識的本體類及其屬性

    基于本體詞表的設(shè)定與相關(guān)屬性概念的定義說明,并借鑒李永卉等[12]《地方詩詞資源的關(guān)聯(lián)組織研究——以蘇軾鎮(zhèn)江詩詞為例》一文中的本體模型構(gòu)建思路,最終確定知識本體模型(如圖2所示),以此描述《藝文志》西漢經(jīng)學家人物知識的基本屬性特征,且該模型具備一定的可延伸性與復(fù)用性。對知識的數(shù)據(jù)分析、實體屬性分析、詞表構(gòu)建以及本體模型確定,為《藝文志》西漢經(jīng)學家知識關(guān)聯(lián)的組織框架構(gòu)建做好基礎(chǔ)工作。

    圖2 《藝文志》西漢經(jīng)學家人物知識本體模型

    3 《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)的組織框架

    知識關(guān)聯(lián)最大的優(yōu)勢是將原始資料集中分散的知識元素進行深度序化組織,關(guān)聯(lián)外部異構(gòu)知識源,從而形成一個具備強大擴展性、共享性、復(fù)用性和聚合性的有機整體。通過對國內(nèi)相關(guān)文獻的分析,結(jié)合上文提出的實體屬性分析、自建詞表以及本體模型構(gòu)建,所構(gòu)建的《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)的組織框架將涵蓋源數(shù)據(jù)層的數(shù)據(jù)收集與處理、數(shù)據(jù)轉(zhuǎn)換層的RDF數(shù)據(jù)生成、數(shù)據(jù)關(guān)聯(lián)層的實體關(guān)聯(lián)與關(guān)聯(lián)發(fā)布以及知識應(yīng)用層的服務(wù)與利用等4個層次,如圖3所示。為提高研究的真實性與科學性,將以《藝文志》中《易》部分為基礎(chǔ)數(shù)據(jù)集,代入知識關(guān)聯(lián)組織框架的各步驟以開展實證研究。

    圖3 《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)組織框架

    3.1 源數(shù)據(jù)層

    源數(shù)據(jù)層的主要任務(wù)是收集作為知識關(guān)聯(lián)基礎(chǔ)的數(shù)據(jù)資料,以數(shù)字化的《藝文志》西漢經(jīng)學家文獻資料集為基礎(chǔ),結(jié)合領(lǐng)域的相關(guān)數(shù)據(jù)資料盡可能進行補充完善。因此,源數(shù)據(jù)層收集的數(shù)據(jù)資料呈多層級、異構(gòu)化的特點,數(shù)據(jù)資料來源見上文的數(shù)據(jù)分類部分。為提高源數(shù)據(jù)質(zhì)量,減少冗余、雜亂、過時、缺失甚至錯誤等問題的發(fā)生,通過深度學習的方式來對源數(shù)據(jù)進行分類、去重,即訓練計算機學習樣本數(shù)據(jù)的內(nèi)在規(guī)律與表示層次,使其可識別文本數(shù)據(jù)集,并進行自動識別處理[18]。

    在諸多深度學習模型中,堆疊降噪自動編碼器(SDAs)可基于單個類別的組合來進行多項類別的人物識別與關(guān)系抽取,組合性強、靈活度高?,F(xiàn)階段,西藏大學計算機科學系珠杰[16]便以SDAs為基礎(chǔ)設(shè)計了人物關(guān)系抽取方法,并對類似于本文研究文本的人物關(guān)系語料進行了人物特征與關(guān)系抽取。為驗證SDAs應(yīng)用于多層神經(jīng)網(wǎng)絡(luò)的可行性,珠杰等進行了網(wǎng)絡(luò)深度實驗,實驗結(jié)果顯示一至四層神經(jīng)網(wǎng)絡(luò)的召回率(Recall)與F值(F-Measure)一直處于疊增狀態(tài),由此可知,相較于單層神經(jīng)網(wǎng)絡(luò),多層神經(jīng)網(wǎng)絡(luò)對SDAs的適用性更強,應(yīng)對關(guān)系抽取、實體識別、實體抽取等復(fù)雜問題的能力也更突出[16]。此外,Bi-LSTM-CRF+BERT模型也適用于相應(yīng)實體的識別工作,并通過人工校對的方式提高實體識別工作的質(zhì)量。

    《藝文志》中《易》部分文本語料主要包括《藝文志》原文、經(jīng)古籍考證的人名詞條數(shù)據(jù)以及數(shù)字化的相關(guān)文獻。由于現(xiàn)階段《藝文志》經(jīng)學家資料分布呈分散化的態(tài)勢,難以收集,因此所用的TXT文本語料內(nèi)容層級還較為薄弱,其主要目的是用于測試命名實體識別模型的功效。本次研究實際使用的命名實體識別模型為Bi-LSTM-CRF+BERT模型,主要任務(wù)是將每一行文本中的人名實體抽取出來,經(jīng)過處理從2萬余字共284條文本數(shù)據(jù)中抽取出539個人名實體,識別結(jié)果(取兩位小數(shù))如表2所示。由于文言文文本語料較難識別,因此尚存在部分文本語料識別錯誤或是識別不出的問題,實例如圖4所示,圖中對一條文本數(shù)據(jù)進行識別,所抽取出的人名“杜陵田”“王孫”存在錯誤,應(yīng)通過文本語料的上下文語境以及古籍佐證將其重新規(guī)范標注為“田何”與“周王孫”。因此,需要投入大量的人力與時間對識別結(jié)果進行人工校對與重新標注,去除重復(fù)與無關(guān)人名實體。經(jīng)此數(shù)據(jù)預(yù)處理,提取出人物、著述、事件、地點等一系列的命名實體數(shù)據(jù),并形成人物、著述、事件及地點數(shù)據(jù)表存儲于關(guān)系型數(shù)據(jù)庫(RDB)中,形成一個基于關(guān)系模型、具有多層級結(jié)構(gòu)的數(shù)據(jù)庫。該層作為關(guān)聯(lián)組織中的基礎(chǔ)層,決定了知識關(guān)聯(lián)的質(zhì)量。

    圖4 人名實體識別示例

    表2 識別結(jié)果統(tǒng)計

    3.2 數(shù)據(jù)轉(zhuǎn)換層

    數(shù)據(jù)抽取層的主要任務(wù)是通過相應(yīng)的本體模型將源數(shù)據(jù)層形成的關(guān)系型數(shù)據(jù)庫進行實體抽取,以轉(zhuǎn)換為RDF數(shù)據(jù)格式并存儲于相應(yīng)數(shù)據(jù)庫中。RDF數(shù)據(jù)作為一般關(guān)聯(lián)數(shù)據(jù)所采用的數(shù)據(jù)模型,常以“實體—屬性—值”三元組的形式描述。通過上文構(gòu)建的知識本體模型與自建詞表,本文所研究的《藝文志》西漢經(jīng)學家人物知識的各類實體對象均已得到規(guī)范描述。為進一步凸顯本研究的科學性與嚴謹性,在進行RDF數(shù)據(jù)格式轉(zhuǎn)換前,需要進行屬性的構(gòu)建,并需要借助庫中內(nèi)置模塊進行內(nèi)容類型與節(jié)點的設(shè)計。參照上文本體模型的設(shè)計,將內(nèi)容類型設(shè)計為4類,即人物、地點、事件、著述,并以事件內(nèi)容為例,對屬性的字段類型進行了添加,如field_agent代表事件介紹,field_product代表事件影響,field_releventWork代表相關(guān)著述。為進行內(nèi)部數(shù)據(jù)關(guān)聯(lián),將相關(guān)著述、相關(guān)人物、發(fā)生地點及子事件等設(shè)置為Note Reference字段來關(guān)聯(lián)相關(guān)數(shù)據(jù),以事件部分為實例的內(nèi)容節(jié)點設(shè)置如表3所示。本研究的內(nèi)容節(jié)點類型可包括文本、長文本、長文本和摘要、節(jié)點模塊元素以及Node Reference等,內(nèi)容節(jié)點總計39個,其中節(jié)點模塊要素4個,文本9個,長文本9個,長文本和摘要4個,Node Reference共13個。

    表3 《藝文志》西漢經(jīng)學家人物知識的內(nèi)容節(jié)點設(shè)置(事件部分)

    為將存放于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)資源抽取、轉(zhuǎn)換、映射為RDF數(shù)據(jù),本文將采用RDB2RDF進行直接映射。Direct Mapping映射語言可將關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)直接映射為RDF詞表,并將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)表轉(zhuǎn)換為RDF類(class),字段轉(zhuǎn)換RDF屬性(property),且遵循一對一對應(yīng)原則[19-20]。關(guān)系型數(shù)據(jù)庫中的4個表所對應(yīng)本體中的類及其數(shù)據(jù)屬性,在上文本體模型與詞表構(gòu)建中已有詳細闡述,在此不做贅述。由于D2RQ第三方RDF轉(zhuǎn)化工具應(yīng)用靈活性強、適用于市面上的大部分主流關(guān)系型數(shù)據(jù)庫,且支持Direct Mapping映射語言,更適用于本次研究[21]。經(jīng)實體抽取、關(guān)系抽取、屬性抽取等處理生成的三元組數(shù)據(jù)將以XML格式存儲于Graph DB數(shù)據(jù)庫中,該數(shù)據(jù)庫內(nèi)置的“前向鏈”(forwardchaining)推理機,能夠?qū)С鲋R進行同步推理更新,以此對知識進行動態(tài)存儲,為下一步知識關(guān)聯(lián)做好準備。

    3.3 數(shù)據(jù)關(guān)聯(lián)層

    數(shù)據(jù)關(guān)聯(lián)層的主要任務(wù)是數(shù)據(jù)的實體關(guān)聯(lián)與關(guān)聯(lián)發(fā)布,是語義化知識組織框架的核心。實體關(guān)聯(lián)的技術(shù)特點在于與外部數(shù)據(jù)集進行語義鏈接,以擴充西漢經(jīng)學家人物知識的廣度,從而進一步完善領(lǐng)域知識內(nèi)容。本文可通過多個開放數(shù)據(jù)平臺來進行關(guān)聯(lián),如上海圖書館開放數(shù)據(jù)平臺“人名規(guī)范庫”與“中國歷史紀年表”以及北京大學中國古代史研究中心“中國歷代人物傳記資料庫(CBDB)項目”等。以上海圖書館開放數(shù)據(jù)平臺“中國歷史紀年表”為例,“中國歷史紀年表”包括上古至今各個時期的朝代君王、君王姓名、君王年號、年號名稱、年號開始及結(jié)束時間等屬性。通過上海圖書館“中國歷史紀年表”對應(yīng)條目SPARQL語句的在線查詢,并設(shè)置對象屬性與實體關(guān)系,由此將檢索得的資源URI(即“http://...”的形式)與人物實體進行關(guān)聯(lián),如表4所示。以《藝文志》中經(jīng)學家京房的生卒年份“-77”“-37”為關(guān)鍵詞進行檢索,可得到相關(guān)URI及其中的朝代君王、君王名稱及年號屬性,“-77”檢索結(jié)果為西漢昭帝劉弗陵元鳳四年,“-37”檢索結(jié)果為西漢元帝劉奭建昭二年。京房其人于公元前45年方才舉孝廉出仕,檢索得其在西漢元帝劉奭初元二年出仕,結(jié)合其生卒年及本人將陰陽學說與政治相勾連的治學從政思想,因此可推理出這位經(jīng)學大師的主要活動在西漢元帝劉奭時期。

    表4 京房生卒年年份與上海圖書館“中國歷史紀年表”的匹配[13]

    除京房外,其他西漢經(jīng)學家人物的生卒年也可獲得相對應(yīng)的中國歷史紀年與君王年號等信息。為進一步佐證實體關(guān)聯(lián)的可靠性,將人物實體“京房”,地點實體“長安”,事件實體“奏考功課吏法”,著述實體“《京房易傳》”代入本體模型進行驗證。如圖5所示,通過該實例進一步表明了實體關(guān)聯(lián)的可靠性與可行性。在完成實體關(guān)聯(lián)后,可通過配置服務(wù)器并遵循關(guān)聯(lián)數(shù)據(jù)發(fā)布四原則向社會大眾進行知識關(guān)聯(lián)發(fā)布。該原則在2006年由Tim Berners Lee提出,內(nèi)容包括所有事物需對應(yīng)賦予一個URI,使用HTTP URIs便于人們訪問資源,通過標準RDF為人們查找HTTP URIs提供信息等。由此進行對外的關(guān)聯(lián)數(shù)據(jù)發(fā)布,為知識應(yīng)用提供一個可靠的開放數(shù)據(jù)平臺。

    圖5 《藝文志》西漢經(jīng)學家人物知識實體關(guān)聯(lián)實例

    3.4 知識應(yīng)用層

    知識應(yīng)用層的主要任務(wù)是為用戶提供《藝文志》西漢經(jīng)學家人物知識的利用服務(wù),是知識關(guān)聯(lián)的最終目的?;跀?shù)據(jù)關(guān)聯(lián)層形成的開放服務(wù)平臺,為用戶提供知識的語義檢索與瀏覽、知識挖掘、知識推薦、知識檢索、專題服務(wù)、知識推理、可視化分析、知識圖譜等服務(wù),核心在于提升用戶的體驗,優(yōu)化知識共享。

    本文所構(gòu)建的《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)的組織框架包括源數(shù)據(jù)層、數(shù)據(jù)轉(zhuǎn)換層、數(shù)據(jù)關(guān)聯(lián)層、知識應(yīng)用層。從基礎(chǔ)的數(shù)據(jù)收集與預(yù)處理到數(shù)據(jù)轉(zhuǎn)換層的本體構(gòu)建、實體抽取及RDF轉(zhuǎn)換,再到數(shù)據(jù)關(guān)聯(lián)層的實體關(guān)聯(lián)與關(guān)聯(lián)發(fā)布,最后到基于開放數(shù)據(jù)平臺的知識應(yīng)用,形成一個結(jié)構(gòu)嚴密、流程完整的知識關(guān)聯(lián)語義化組織框架。

    4 《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)組織的實踐價值

    4.1 提供參考借鑒與實踐探索路徑

    綜上,《藝文志》西漢經(jīng)學家人物知識的實體屬性、本體模型以及知識關(guān)聯(lián)的組織框架可廣泛應(yīng)用于人文社科領(lǐng)域的相關(guān)研究中。本文圖1中實體屬性不僅可對本文知識進行屬性定義,也可為檔案學領(lǐng)域中的家譜檔案、作家檔案、名人檔案等涉及人物主題的知識圖譜構(gòu)建提供屬性定義的復(fù)用,圖3中源數(shù)據(jù)層的數(shù)據(jù)資料收集工作也可為文學領(lǐng)域中的名著人物關(guān)系圖譜構(gòu)建、人物影響力分析等研究提供參考借鑒。此外,本文圖2中本體模型及表1的本體類及其屬性均可為數(shù)字人文領(lǐng)域中古籍本體與詞表構(gòu)建提供復(fù)用功能,歷史人文研究領(lǐng)域中歷史文化知識資源的語義化組織研究也可復(fù)用圖3中的知識關(guān)聯(lián)框架。以上對實體屬性、本體模型及知識關(guān)聯(lián)的組織框架及其相關(guān)要素的復(fù)用的最大好處是減少研究人員在精力、時間上的浪費,推動知識的共享與傳播,同時也加快科研領(lǐng)域的探索。

    4.2 加快新技術(shù)理念與傳統(tǒng)歷史文化工作領(lǐng)域的深度融合

    數(shù)字人文作為一門數(shù)字技術(shù)與傳統(tǒng)人文學科相交叉的新型學科,最初被稱為人文計算,即通過計算機的高速計算功能輔助并解決人文學科的問題,然而隨著時間的發(fā)展與自身在人文學科領(lǐng)域的全方位滲透,現(xiàn)如今只要是涉及計算機和數(shù)字化的人文學科研究,均可被認為是數(shù)字人文[22]。本文在此次研究中利用到知識關(guān)聯(lián)、本體構(gòu)建、數(shù)據(jù)發(fā)布等常見的信息技術(shù)及相關(guān)的信息研究方法。本文所構(gòu)建的知識關(guān)聯(lián)組織框架,其各層均體現(xiàn)了數(shù)字技術(shù)與傳統(tǒng)文化工作相結(jié)合的理念,圖3中數(shù)據(jù)關(guān)聯(lián)層基于實體關(guān)聯(lián)的分類來擴充傳統(tǒng)文化知識內(nèi)容,體現(xiàn)了數(shù)字技術(shù)與傳統(tǒng)文化工作的深度融合。通過將數(shù)字領(lǐng)域的技術(shù)、方法與理念應(yīng)用于傳統(tǒng)文化工作中,拓寬了傳統(tǒng)歷史文化工作領(lǐng)域的研究路徑與思路。

    4.3 推動傳統(tǒng)歷史文化知識弘揚、傳播與擴散

    數(shù)字人文這一概念的提出,在為傳統(tǒng)文化工作提供新的理念、技術(shù)和方法的同時,也促進了傳統(tǒng)歷史文化知識的傳播與擴散。本文圖3中數(shù)據(jù)關(guān)聯(lián)層在優(yōu)化知識結(jié)構(gòu)與內(nèi)容的同時,也方便了用戶的知識檢索、發(fā)現(xiàn)與獲取[23]。此外,圖3中知識應(yīng)用層也進一步推動傳統(tǒng)歷史人物文化知識的共享,如其中的知識推薦便是基于大數(shù)據(jù)相關(guān)思維,通過開放數(shù)據(jù)平臺來向相關(guān)群體提供所需要的歷史人物知識,或是借助網(wǎng)站內(nèi)置的知識推薦系統(tǒng)向感興趣的用戶提供知識信息。此外,也可借助多媒體軟件來進行動態(tài)的歷史人物知識展示,以此提高受眾群體的接受滿意度,進一步推動知識的傳播與共享。

    5 總結(jié)與展望

    中華傳統(tǒng)文化作為中華民族數(shù)千年歷史沉淀下來的精華,是民族賴以生存和發(fā)展的根基,是民族興旺發(fā)達的精神支柱。歷史人物作為傳統(tǒng)文化的重要倡導者,對歷史文化的發(fā)展起著推動作用。然而,只對個別歷史人物進行研究,勢必會夸大個人的作用,進而否定歷史發(fā)展規(guī)律。因此,在對歷史人物進行研究時,要關(guān)注歷史人物的社會活動,將歷史人物與社會活動、歷史環(huán)境與他人關(guān)聯(lián)在一起,避免人物個體與社會產(chǎn)生割裂。經(jīng)學作為中國古代學術(shù)思想的主體[24],蘊含了豐富的人文價值。西漢經(jīng)學家們闡釋、注解、研究與宣傳經(jīng)學,對中國古代經(jīng)學的發(fā)展起到了不可或缺的作用,而《藝文志》所記載的西漢經(jīng)學家更具代表性。研究其相關(guān)知識,觀察其社會活動,有利于對西漢經(jīng)學發(fā)展史進行知識挖掘。早前,由于技術(shù)、時代、年代等因素,西漢經(jīng)學家的人物知識難以進行聚合,影響到對知識的整理與挖掘。筆者在本文中根據(jù)《藝文志》西漢經(jīng)學家人物數(shù)據(jù)來源分析,結(jié)合相關(guān)領(lǐng)域?qū)W者的研究思路,設(shè)計了《藝文志》西漢經(jīng)學家人物知識的實體屬性與本體模型,并通過本體詞表進行描述。在此基礎(chǔ)上,設(shè)計了《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)的語義化知識組織框架,并對源數(shù)據(jù)層、數(shù)據(jù)轉(zhuǎn)換層、數(shù)據(jù)關(guān)聯(lián)層、知識應(yīng)用層等自下而上的各層級進行闡述,由此探討了《藝文志》西漢經(jīng)學家人物知識關(guān)聯(lián)的實踐價值。

    本文也存在較多的不足之處:其一,西漢一朝經(jīng)學家人物眾多,但筆者為方便研究,僅選擇《藝文志》中所記載且知識內(nèi)容較為完整的人物進行研究,而對于一些信息殘缺的人物并沒有利用知識推理來進行完善,以將其作為研究對象,若條件允許,殘缺或佚失人物也應(yīng)當納入研究對象中。其二,受制于技術(shù)條件,在進行數(shù)據(jù)關(guān)聯(lián)層描述時,未利用開放數(shù)據(jù)平臺對其進行可視化展示等。其三,由于筆者知識領(lǐng)域有限,詞表構(gòu)建時除去詞表中的復(fù)用部分,部分自建詞表的真實性及可用性有待檢驗。另外,由于各大開放歷史人文數(shù)據(jù)庫中的西漢經(jīng)學家相關(guān)記載較少,且本框架仍處于本體驗證階段,因此未能對本文提出的知識關(guān)聯(lián)的語義化知識組織框架做進一步的實證分析。

    猜你喜歡
    藝文志西漢本體
    Abstracts and Key Words
    哲學分析(2023年4期)2023-12-21 05:30:27
    走馬樓西漢簡所見赦令初探
    對姜夔自度曲音樂本體的現(xiàn)代解讀
    中國音樂學(2020年4期)2020-12-25 02:58:06
    《明史·藝文志》史部地理類訂誤十一則
    天一閣文叢(2020年0期)2020-11-05 08:28:30
    西漢
    西漢玉器的鑒定
    文物天地(2019年6期)2019-07-12 09:17:26
    《我應(yīng)該感到自豪才對》的本體性教學內(nèi)容及啟示
    文學教育(2016年27期)2016-02-28 02:35:15
    《南明史·藝文志》經(jīng)部著錄標準商榷
    天一閣文叢(2014年1期)2014-10-13 08:00:06
    《漢書·藝文志》“輯而論篹”句釋說——“論語”二字話
    魏源對西漢四家詩的評說
    观塘区| 四平市| 康保县| 永定县| 浪卡子县| 大关县| 托克托县| 合肥市| 海阳市| 德保县| 三台县| 花莲市| 红桥区| 临泉县| 福清市| 滁州市| 沙雅县| 报价| 吉木乃县| 会宁县| 贡山| 大化| 盱眙县| 怀远县| 白山市| 时尚| 巴南区| 禹城市| 多伦县| 清丰县| 海安县| 湟源县| 蕲春县| 连山| 汝阳县| 和硕县| 青龙| 汽车| 侯马市| 宁陵县| 华宁县|