摘 要 論文選取“古代四大農(nóng)書”為實例對象,搭建基于知識圖譜的古農(nóng)書資源的語義知識組織框架。首先,通過分析與整理相關(guān)數(shù)據(jù),構(gòu)建古農(nóng)書史料資源的本體模型,以規(guī)范化描述資源中的概念與關(guān)系。其次,利用已建構(gòu)的模型對數(shù)據(jù)進行知識抽取,運用知識融合技術(shù)解決存在的共指問題,最后將三元組數(shù)據(jù)儲存至Neo4j數(shù)據(jù)庫中,從而完成對古農(nóng)書史料資源的語義組織和多維知識發(fā)現(xiàn)。本研究提出了古農(nóng)書史料資源語義知識組織的研究方案,為數(shù)字人文熱潮下古農(nóng)書資源的深度開發(fā)與應用提供了全新的研究視角。
關(guān)鍵詞 古代農(nóng)書;知識組織;知識發(fā)現(xiàn);數(shù)字人文
分類號 G250
DOI 10.16810/j.cnki.1672-514X.2025.02.008
Research on Semantic Knowledge Organization and Multidimensional Knowledge Discovery of Ancient Agricultural Books From the Perspective of Digital Humanities
Wu Yanfei, Zhang Qiang, Zhou Shubin, Tan Shu
Abstract This paper selected the “Four Ancient Agricultural Books” as the case object to construct a semantic knowledge organization framework of ancient agricultural book resources based on knowledge graph. Firstly, by analyzing and sorting out the relevant data, the ontological model of the historical resources of the ancient agricultural books was constructed to standardize the description of the concepts and relationships in the resources. Secondly, the constructed model was used to extract the knowledge of the data, the knowledge fusion technology was used to solve the existing co-referential problem, and finally the triplet data was stored in the Neo4j database, so as to complete the semantic organization and multi-dimensional knowledge discovery of the historical resources of the ancient agricultural books. This study proposes a research scheme on the semantic knowledge organization of ancient agricultural book historical resources, which provides a new research perspective for the in-depth development and application of ancient agricultural book resources under the boom of digital humanities.
Keywords Ancient agricultural books. Knowledge organization. Knowledge discovery. Digital humanities.
0 引言
古籍是中華傳統(tǒng)文化的重要載體,是寶貴的文化遺產(chǎn),詳細記載了中國長達五千年的歷史和文化,蘊含著深厚的傳統(tǒng)文化精神和中華民族特有的想象力與創(chuàng)造力[1]。近年來,古籍資源的保護和利用受到黨和政府的高度重視,2022年頒布的《關(guān)于推進新時代古籍工作的意見》中針對新時代古籍工作的展開與推進提出了具體要求,充分強調(diào)開發(fā)利用古籍資源的重要性[2]。古農(nóng)書是古籍不可或缺的組成部分,反映了中國古代各時期農(nóng)耕社會的發(fā)展狀況,全面系統(tǒng)地記述了中華傳統(tǒng)農(nóng)業(yè)的生產(chǎn)知識與技術(shù)經(jīng)驗,具有豐富的史料價值。作為傳統(tǒng)農(nóng)耕文化的載體,古農(nóng)書有著豐富的傳統(tǒng)農(nóng)業(yè)科學實踐經(jīng)驗,對其進行挖掘、整理和研究,不僅有助于深入推進中華優(yōu)秀傳統(tǒng)農(nóng)耕文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展,還能為當代農(nóng)業(yè)的可持續(xù)發(fā)展和鄉(xiāng)村振興提供重要的科學價值與實踐意義。
數(shù)字人文是一門將數(shù)字化技術(shù)和傳統(tǒng)人文研究相融合形成的交叉學科,其徹底顛覆了傳統(tǒng)人文學科的研究范式。語義網(wǎng)技術(shù)在數(shù)字人文研究中被視為知識組織的核心技術(shù),深受人文學者的廣泛關(guān)注[3]。古農(nóng)書多以紙質(zhì)文獻形式存于館藏機構(gòu),資源分布相對分散,亟需對其進行數(shù)字化乃至語義化來解決存在的“重藏輕用”問題。知識圖譜作為關(guān)鍵的語義網(wǎng)技術(shù)之一,突破了不同場景下的數(shù)據(jù)隔離,揭示了資源中的實體與實體間的關(guān)系,并利用關(guān)系將各實體關(guān)聯(lián)起來形成知識網(wǎng)絡[4]。通過具備語義處理能力的知識圖譜可對古農(nóng)書的知識結(jié)構(gòu)進行揭示與表達,有助于重構(gòu)農(nóng)書中涵蓋的知識,實現(xiàn)農(nóng)書資源的關(guān)聯(lián)化組織,為古農(nóng)書的知識組織與知識發(fā)現(xiàn)提供語義化的支撐方式。
本研究以“四大農(nóng)書”為研究對象,通過分析農(nóng)書資源的特征提取相關(guān)概念及關(guān)系,利用本體技術(shù)構(gòu)建通用性強的語義描述模型,進而構(gòu)建古農(nóng)書資源知識圖譜,以實現(xiàn)古農(nóng)書資源的多維知識發(fā)現(xiàn)研究,探索古農(nóng)書資源的知識組織與發(fā)現(xiàn)模式,為深入挖掘古農(nóng)書資源提供理論與實踐支持。
1 數(shù)字人文研究現(xiàn)狀
數(shù)字人文以人文科學為旨歸,運用計算技術(shù)對傳統(tǒng)人文進行分析研究,打破了傳統(tǒng)人文學科研究的壁壘。數(shù)字人文基礎(chǔ)設(shè)施作為支持人文學科研究的關(guān)鍵基礎(chǔ),為人文學者開展人文領(lǐng)域研究提供了支撐跨學科研究的資源、軟件工具、數(shù)據(jù)管理與分析等基礎(chǔ)設(shè)施[5]。當前,國外在數(shù)字人文基礎(chǔ)設(shè)施建設(shè)方面較為成熟,如美國圖書館建設(shè)的“中文善本書目數(shù)據(jù)庫”,哈佛燕京圖書館開發(fā)的“線裝古籍計算機檢索系統(tǒng)”,日本京都大學編制的“全國漢籍書目數(shù)據(jù)庫”等。國內(nèi)也在借鑒國外基礎(chǔ)設(shè)施建設(shè)經(jīng)驗的基礎(chǔ)上取得了一定的進展,如上海圖書館推出了“中國家譜知識服務平臺”“中文古籍聯(lián)合目錄及循證平臺”和“人名規(guī)范庫”等[6]資源;國家圖書館依托中華古籍保護計劃建設(shè)了中華古籍資源庫[7],以實現(xiàn)特藏數(shù)字資源的共享。此外,國家圖書館與法國國家圖書館合作開發(fā)了“法藏敦煌”,與哈佛大學燕京圖書館合作共建了“哈佛大學善本特藏”。北京大學數(shù)字人文研究中心將智能技術(shù)賦能古籍數(shù)字化,形成一系列成果,包括“宋元學案傳承可視化系統(tǒng)”“中國歷代人物資料庫WEB檢索系統(tǒng)”“朱子年譜可視化系統(tǒng)”等[8]。目前我國的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)主要側(cè)重于典籍資源,然而針對古農(nóng)書數(shù)字資源基礎(chǔ)設(shè)施建設(shè)仍存在不足,且古農(nóng)書特定領(lǐng)域下的史料大多是非結(jié)構(gòu)化的館藏紙質(zhì)文獻,缺乏對其知識結(jié)構(gòu)的深度挖掘與知識組織。
近年來,歷史人文領(lǐng)域研究迎來了新變革,這一變革在數(shù)字人文浪潮的影響下逐漸成形。數(shù)字人文研究的主流技術(shù),如本體、知識圖譜與關(guān)聯(lián)數(shù)據(jù)等語義網(wǎng)技術(shù),正在重塑人文研究的知識組織模式,為古籍資源的知識組織研究提供全新的研究路徑。在現(xiàn)有的研究中較少以整體視角探究古籍資源,主要有鄧仲華等使用本體庫的構(gòu)建技術(shù)對古籍版本數(shù)據(jù)進行組織,形成古籍版本本體庫[9]。白林林等則借助Drupal平臺完成對CNMARC格式編目的中文古籍書目數(shù)據(jù)的關(guān)聯(lián)化發(fā)布[10]。歐陽劍等運用知識圖譜技術(shù)對中國歷代存世典籍進行知識組織,構(gòu)建古籍知識關(guān)聯(lián)網(wǎng)絡[11]。當前大部分研究更多聚焦于古籍中的特定領(lǐng)域,譬如在中醫(yī)古籍方面,丁侃等在設(shè)計中醫(yī)古籍資源元數(shù)據(jù)方案的基礎(chǔ)上,通過構(gòu)建中醫(yī)文獻和人物本體將中醫(yī)學術(shù)傳承的脈絡關(guān)聯(lián)起來[12];在方志典籍方面,徐晨飛等以機構(gòu)特藏的《方志物產(chǎn)》為數(shù)據(jù)來源,完成方志物產(chǎn)知識本體的構(gòu)建,利用關(guān)聯(lián)數(shù)據(jù)實現(xiàn)對方志物產(chǎn)史料的知識關(guān)聯(lián)與發(fā)布[13];在敦煌古籍方面,程結(jié)晶等分析敦煌遺書圖像的特征,并運用關(guān)聯(lián)數(shù)據(jù)進行敦煌遺書圖像知識關(guān)聯(lián)研究[14]。
縱觀前述研究可知,古籍資源的開發(fā)與應用研究目前已有一定的進展,對其特定對象的知識組織研究也有了可行性的探索。古農(nóng)書作為古籍資源的關(guān)鍵組成部分,絕大部分研究集中于古代農(nóng)書的思想、出版與校注等方面,對古農(nóng)書資源的知識組織研究相對有限,仍停留在粗粒度階段,缺乏對其細粒度知識關(guān)聯(lián)與語義組織。為填補這一研究空白,本文借助本體理論和技術(shù)對古農(nóng)書資源中涉及的概念屬性進行統(tǒng)一的語義描述,提出古農(nóng)書本體模型,以展示知識之間的語義關(guān)聯(lián),并以此為基礎(chǔ)構(gòu)建古農(nóng)書知識圖譜,實現(xiàn)資源的多維知識發(fā)現(xiàn),為進一步開發(fā)利用古農(nóng)書資源提供了新路徑。
2 古農(nóng)書資源語義化知識組織研究框架
我國古農(nóng)書資源數(shù)量豐富且挖掘潛力巨大,然而卻面臨“藏而不用”的矛盾,尚未對多源異構(gòu)的古農(nóng)書資源進行深層次的語義化組織。為解決這些問題,必須運用知識圖譜等語義網(wǎng)技術(shù)將古農(nóng)書資源中分散的知識元素進行全面深入地知識描述和組織,以建立知識之間的互聯(lián)互通,從而促進古農(nóng)書資源的共享、傳播及利用?;诖?,本文提出構(gòu)建古農(nóng)書資源的語義化知識組織模型設(shè)想,其具體流程框架如圖1所示。該模型從層次結(jié)構(gòu)上劃分為數(shù)據(jù)資源層、知識組織層、知識關(guān)聯(lián)層和知識應用層四個層次,內(nèi)容上涵蓋了數(shù)據(jù)獲取、數(shù)據(jù)預處理、知識表示、知識抽取、知識融合、知識存儲和知識發(fā)現(xiàn)等方面。
數(shù)據(jù)資源層作為基礎(chǔ)層,其主要任務是采集分散的數(shù)據(jù)資源,將大量離散且多源異構(gòu)的古農(nóng)書資源進行整合。古農(nóng)書資源的數(shù)據(jù)來源多種多樣,以散存于高校、圖書館和檔案館等文化機構(gòu)的紙質(zhì)文獻作為主要的數(shù)據(jù)來源。對于異構(gòu)的文獻資源,需要進行數(shù)字化處理,并采用OCR技術(shù)和人工校對相結(jié)合的方式將其轉(zhuǎn)化為文獻文字文本,同時結(jié)合領(lǐng)域內(nèi)相關(guān)的數(shù)據(jù)資源進行補充和完善。由此形成的原始數(shù)據(jù)集屬于非結(jié)構(gòu)化數(shù)據(jù),需經(jīng)過數(shù)據(jù)預處理操作將非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),并存儲于關(guān)系型數(shù)據(jù)庫(RDB)中作為后續(xù)研究的數(shù)據(jù)基礎(chǔ)。
知識組織層的主要任務是從概念層面對領(lǐng)域內(nèi)的知識進行組織管理,即構(gòu)建古農(nóng)書資源本體。古農(nóng)書資源本體構(gòu)建是知識圖譜構(gòu)建的核心,通過構(gòu)建本體模型實現(xiàn)從原始數(shù)據(jù)資源到數(shù)字化實體標注資源的轉(zhuǎn)換,并確定了實體集所涵蓋的概念和屬性,以實現(xiàn)對領(lǐng)域內(nèi)知識的規(guī)范描述。結(jié)合古農(nóng)書資源的結(jié)構(gòu)特征,在明確古農(nóng)書資源本體的核心概念和屬性的基礎(chǔ)上,探討運用現(xiàn)有本體和自建本體相結(jié)合的方式來構(gòu)建古籍資源本體模型,進而實現(xiàn)模式層的搭建。這既滿足了對古農(nóng)書資源知識組織和描述的需求,也為后續(xù)的知識關(guān)聯(lián)和應用提供了模型基礎(chǔ)。
知識關(guān)聯(lián)層的主要任務是對原始數(shù)據(jù)集進行知識抽取、知識融合與知識存儲,以實現(xiàn)古農(nóng)書資源實體間的深層次語義關(guān)聯(lián)。知識抽取是基于已構(gòu)建的本體模型,從古農(nóng)書數(shù)據(jù)庫中提取實體、屬性與關(guān)系,并以S-P-O三元組的形式存儲數(shù)據(jù),完成實體間的語義關(guān)聯(lián)。由于經(jīng)過知識抽取后獲取到的數(shù)據(jù)存在歧義和冗余問題,需通過知識合并、共指消解和實體消歧等方法進行信息的整合和消歧。在完成知識融合任務后,以古農(nóng)書資源本體模型為根據(jù),將處理后的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成RDF數(shù)據(jù),為古農(nóng)書資源的知識應用提供數(shù)據(jù)支持。
知識應用層的主要任務是基于語義化知識組織框架為用戶提供古農(nóng)書知識的開發(fā)利用服務,以滿足數(shù)字人文研究領(lǐng)域的特定需求,進而推動古農(nóng)書資源的深入研究。RDF三元組數(shù)據(jù)將分散的知識聯(lián)系起來,為構(gòu)建知識圖譜與關(guān)聯(lián)數(shù)據(jù)提供統(tǒng)一標準的表現(xiàn)形式。古農(nóng)書知識圖譜以圖的形式展示古農(nóng)書知識間復雜的語義關(guān)系,為用戶提供檢索服務,用戶可通過Cypher語句查詢相應節(jié)點和關(guān)系。此外,知識圖譜還采用先進的挖掘算法,通過查詢最短路徑實現(xiàn)古農(nóng)書資源相關(guān)知識的聚合展示與知識挖掘,挖掘節(jié)點之間的隱藏關(guān)系,為古農(nóng)書資源的深度利用與知識發(fā)現(xiàn)研究做鋪墊。
3 古農(nóng)書資源本體模型構(gòu)建及整合處理
農(nóng)為邦本,本固邦寧。農(nóng)業(yè)作為我國古代社會的支柱產(chǎn)業(yè),是中華文明生存和發(fā)展的基石,歷經(jīng)長達萬年的演進,為今人留下了琳瑯滿目的中國農(nóng)學著作。據(jù)統(tǒng)計,從公元前3世紀至清朝末年,共有376種古代農(nóng)學著作問世[15],而有“古代四大農(nóng)書”之稱的《氾勝之書》[16]《齊民要術(shù)》[17]《王禎農(nóng)書》[18]和《農(nóng)政全書》[19]是最具有代表性和影響力的著作,其反映了中國古代各時期農(nóng)耕社會的發(fā)展狀況。《氾勝之書》是由西漢氾勝之所著,是我國最早的一部農(nóng)書,其記載了西漢時期黃河流域的農(nóng)業(yè)生產(chǎn)實踐與智慧,強調(diào)天時、地利、人和是進行農(nóng)耕的總原則,為后世反復征引?!洱R民要術(shù)》是北魏時期杰出農(nóng)學家賈思勰所著的一部綜合性農(nóng)書,也是中國現(xiàn)存最完整的農(nóng)學著作,該書涉及面廣,運用“采捃經(jīng)傳”的方法去征引古農(nóng)書及同時代有關(guān)農(nóng)學的文字記錄,系統(tǒng)且全面地總結(jié)了中國古達農(nóng)業(yè)的農(nóng)業(yè)生產(chǎn)知識和經(jīng)驗。《王禎農(nóng)書》對我國南北方各地的農(nóng)業(yè)進行系統(tǒng)研究,將農(nóng)器列為綜合性農(nóng)學著作的重要組成部分,并以圖文并茂的方式呈現(xiàn)農(nóng)業(yè)知識。由明代徐光啟所著的《農(nóng)政全書》貫穿了徐光啟的治國治民的農(nóng)政思想,還專門設(shè)置“荒政”和“水利”卷目用以探討開墾和水利問題。四大農(nóng)書是先民萬年農(nóng)耕智慧的結(jié)晶,以其作為實例對象進行研究對弘揚中國傳統(tǒng)農(nóng)業(yè)文化具有重要的現(xiàn)實價值。
本文選擇《氾勝之書輯釋》(中華書局出版)、《齊名要術(shù)譯注》(上海古籍出版社出版)、《東魯王氏農(nóng)書譯注》與《農(nóng)政全書》作為數(shù)據(jù)來源。首先對紙質(zhì)文獻進行數(shù)字化掃描生成圖像掃描本,采用OCR與人工校對相結(jié)合的方式實現(xiàn)數(shù)字化及文本化,并將形成的文獻文本以二維表形式儲存起來。同時利用中華古籍資源庫中的數(shù)字資源對其校對獲得非結(jié)構(gòu)化數(shù)據(jù),然后通過數(shù)據(jù)預處理將其存儲到關(guān)系型數(shù)據(jù)庫中作為知識抽取的語料。
3.1 古農(nóng)書資源知識本體頂層概念
本體是一種描述知識的抽象模型,常用于表示特定領(lǐng)域中的概念及其相互關(guān)系,可定義為共享概念模型明確的形式化規(guī)范說明[20]?,F(xiàn)階段,本體被廣泛應用于文史知識工程等領(lǐng)域,本體模型設(shè)計遵循領(lǐng)域本體設(shè)計流程,即在調(diào)研已有的本體模型理論與國內(nèi)外相關(guān)本體模型的基礎(chǔ)上,通過復用本體對領(lǐng)域內(nèi)所包含的概念及關(guān)系進行描述與揭示,同時考慮自建詞表設(shè)計本體模型。本研究選用七步法構(gòu)建本體,結(jié)合古農(nóng)書資源的結(jié)構(gòu)特點,參考FOAF、DC、Time、GeoNames及上海圖書館本體SHL等本體詞表,對本體中的人物、地點、時間等屬性進行復用。然而,由于復用的本體詞表無法滿足古農(nóng)書資源組織描述的需求,因此需要構(gòu)建自建詞表古農(nóng)書史料資源(Agricultural book historical resources,ABHR),以完善與補充古農(nóng)書知識的實體及屬性,從而完成古農(nóng)書資源本體模型屬性的構(gòu)建。
在充分分析古農(nóng)書資源的基礎(chǔ)上,構(gòu)建古農(nóng)書資源知識本體模型,首先需要在明確領(lǐng)域本體的核心概念及相關(guān)屬性后,進一步確定概念屬性中的核心元素,以便于更好地揭示和描述概念間的相互聯(lián)系及古農(nóng)書資源間的關(guān)聯(lián)。依托從古農(nóng)書資源中梳理出的知識元素,將古農(nóng)書資源的頂層概念劃分為六大類,包括農(nóng)書(abhr: AgriculturalBook)、史料(abhr: HistoricalResources)、空間(shl: SpatialThing)、時間(time:TemporalEntity)、資源(abhr:Resource)和人物(foaf:Agent),并納入到本體模型中。
3.2 本體的核心類與層級定義
在依托古農(nóng)書資源中梳理出的知識元素基礎(chǔ)上,將古農(nóng)書資源的頂層概念劃分為農(nóng)書、史料、時間、地點、人物和資源六個核心類后,還需要對核心類概念進行細分,確定其所涉及的類及類的父子關(guān)系,從而建立核心概念及內(nèi)容中的具體聯(lián)系,完善古農(nóng)書知識的關(guān)鍵語義要素體系。古農(nóng)書資源類及層次關(guān)系詳見表1所示。
農(nóng)書類旨在揭示與描述古農(nóng)書資源的外部屬性特征,表征其所包含的書目特征。依據(jù)現(xiàn)行的古籍編目規(guī)范以及中文古籍書目數(shù)據(jù),確定了農(nóng)書類所涵蓋的數(shù)據(jù)屬性主要有題名、版本、正文、注釋、冊數(shù)等。
史料是本體構(gòu)建的核心和主體,是對古農(nóng)書史料資源的內(nèi)容描述與歸納。為確保細粒度地描述古農(nóng)書史料資源,分析現(xiàn)有農(nóng)書的編目情況,將史料類分為農(nóng)本思想、農(nóng)事、水利、畜牧、飲食、百谷、農(nóng)器、荒政、雜俎九大類。農(nóng)本思想貫穿農(nóng)業(yè)生產(chǎn)的全過程,充分體現(xiàn)了中國古代的“重農(nóng)”思想,且與人物類、時間類緊密相連。百谷又稱百榖,主要包含各種作物栽種、培育、收獲等方法,還涉及到林木、纖維與藥材的種植與利用。農(nóng)器是從事農(nóng)業(yè)生產(chǎn)的重要工具,其主要涉及農(nóng)業(yè)機械的制造方法。農(nóng)事是關(guān)于農(nóng)田的田制、開墾、經(jīng)營管理與農(nóng)時等問題,與百谷及農(nóng)器密切相關(guān)。畜牧是對家畜及家禽等飼養(yǎng)技術(shù)的記錄 。飲食是農(nóng)書史料資源的特色,主要包括各種食物、酒類的加工和制作方法?;恼彩寝r(nóng)書史料的獨特之處,體現(xiàn)了災荒時期“預弭為上、有備為中、賑濟為下”的救災政策。水利是農(nóng)業(yè)生產(chǎn)的命脈,記載了古代興修水利的方法和措施。雜俎又稱為雜錄,用來標識無類可歸的文章,主要包括其他與農(nóng)業(yè)生產(chǎn)相關(guān)的活動,如貨殖、涂甕、筆墨等。
人物類涵蓋了與古籍資源相關(guān)的個人、群體、機構(gòu)等,主要分為個人(foaf:Person)、群體(foaf:group)、機構(gòu)(foaf:Organization)三個子類。人物是歷史的見證者,也是史料資源的創(chuàng)作者,是指與古農(nóng)書資源緊密相關(guān)的責任者和編撰者;群體主要是與古籍資源相關(guān)的族群;機構(gòu)則包含古農(nóng)書資源的研究、保護與館藏機構(gòu)等。人物類包括數(shù)據(jù)屬性和對象屬性,對于古農(nóng)書資源中的個人子類,其數(shù)據(jù)屬性包括名稱、姓氏、字、號、仕途等。
時間類是用來描述古農(nóng)書資源的時間特征,如農(nóng)書的出版時間、個人的生卒年等。時間類能以時間跨度為根據(jù)劃分成時間點(time:Instant)和時間段(time:Interval)兩個子類。時間點是對時間的詳細描述,可用年月日來表示。因不同歷史階段使用的紀年方式存在一定差異,故需要將時間點進一步劃分為年號紀年(abhr:ReignTitleEra)和公元紀年(abhr:CommonEra)兩個子類。時間段則使用朝代(shl:Dynasty)、年號(shl:Reign)和特定時間范圍(time:ProperInterval)三個子類進行范圍性描述。
空間類是指古農(nóng)書資源中所包含的位置信息,包括農(nóng)書資源的出版地、個人的出生地及史料資源中的特定地區(qū)等內(nèi)容??臻g類可分為地點和地區(qū)兩個子類,地區(qū)用于描述農(nóng)書內(nèi)容中涉及到的范圍相對模糊的傳統(tǒng)地域及現(xiàn)有區(qū)劃,如關(guān)中地區(qū)、黃河流域等。
資源類是指古農(nóng)書資源的呈現(xiàn)類型。古農(nóng)書資源本體模型不僅充分描述了其所擁有的外部和內(nèi)部特征信息,還表達了古農(nóng)書史料資源知識呈現(xiàn)的形式化信息。這有助于從多維度出發(fā)展示古農(nóng)書資源,包括文本、視頻、圖像等形式。資源類的數(shù)據(jù)屬性包括文本資源、專家述評、視頻資源及圖片資源。
3.3 各類實體屬性描述及關(guān)系
在完成古農(nóng)書史料資源本體核心概念及層次關(guān)系的構(gòu)建后,需要對各類實體的屬性進行定義與描述。屬性分為對象屬性和數(shù)據(jù)屬性,為古農(nóng)書史料資源概念知識范圍內(nèi)的關(guān)系和特征提供了豐富的語義描述。對象屬性又稱為關(guān)系屬性,其作用是定義類與類之間的相互關(guān)系,定義域和值域均為類,在本研究中用來表述古農(nóng)書史料資源類間的關(guān)系特征,進而支持古農(nóng)書史料資源知識圖譜的關(guān)聯(lián)檢索、知識發(fā)現(xiàn)與知識推理等,具體的對象屬性如表2所示。數(shù)據(jù)屬性是用來描述類目自身的屬性特征,其定義域為一種或多種類,值域為指定的數(shù)據(jù)類型[21],具體的數(shù)據(jù)屬性如表3所示。建立數(shù)據(jù)屬性的目的是為確保對資源的具體描述,一方面可以幫助用戶了解古農(nóng)書史料資源實例的特征,另一方面可以輔助用戶進行語義檢索與知識發(fā)現(xiàn)。
完成本體詞表與屬性的定義說明后,參考已有研究中構(gòu)建本體模型的思路,形成古農(nóng)書史料資源本體模型,如圖2所示。該模型詳細描述了古農(nóng)書資源的基本屬性特征,使其具有可擴展性和復用性。同時借助本體開發(fā)工具Protégé創(chuàng)建本體模型,以便為后續(xù)的知識組織與關(guān)聯(lián)奠定堅實的模型基礎(chǔ)。
3.4 知識抽取與融合
知識抽取是以構(gòu)建的本體模型為依據(jù),從古農(nóng)書資源知識庫中提取實體、屬性和關(guān)系,并將其轉(zhuǎn)換成RDF數(shù)據(jù)格式存儲于數(shù)據(jù)庫中。RDF數(shù)據(jù)具有規(guī)范的資源描述模式,以S-P-O三元組進行描述,通常表現(xiàn)為“實體-屬性-值”或“實體-關(guān)系-實體”。古農(nóng)書文獻的數(shù)字化程度較低,文獻內(nèi)容繁多且雜亂,因此在進行知識抽取時需要進行規(guī)范化的語義標注。本研究采用數(shù)字化文本標注工具Markus對文本進行實體標注,其原理是根據(jù)本體模型設(shè)置語義標簽構(gòu)建語義標簽集,并利用其實體關(guān)系標注功能將文本轉(zhuǎn)換成標簽下的標注實體關(guān)系,進而抽取出文本中的史料、人物、時間、空間等實體關(guān)系,如圖3所示。為完善農(nóng)書領(lǐng)域內(nèi)的相關(guān)數(shù)據(jù)資源,還需利用百科網(wǎng)絡資源進行補充,對于半結(jié)構(gòu)化數(shù)據(jù)可通過調(diào)用Jiagu深度學習自然語言處理工具包來實現(xiàn)實體關(guān)系抽取,具體如圖4所示。
完成知識抽取后,多源異構(gòu)的古農(nóng)書史料資源通過轉(zhuǎn)換形成由實體和關(guān)系組成的三元組數(shù)據(jù)集,但仍存在諸多挑戰(zhàn),如表達的冗余、語義方面的歧義等,需要采用知識融合方法進行信息的整合處理。本研究主要面臨實體共指問題,即同一概念的實體指向交叉,不同文獻對同一實體的描述不一致,因此必須將實體的多個指稱項順理統(tǒng)一起來。例如,《農(nóng)政全書·農(nóng)器篇》中“镈”與《纂文》中“耨”都指代同一農(nóng)器,而“耨”實際上是“镈”的別名,于是將其合并為“镈”,其他名稱歸入農(nóng)器的屬性中。此外,古農(nóng)書資源中還存在同人異名情況,如“耿橘”,其字為“藍陽”,又字“庭懷”,同一個人具有多個稱謂,為此以其名作為統(tǒng)一標識,而字、號則置于屬性中。知識融合能夠?qū)愒磾?shù)據(jù)中同一實體不同表達進行合并,有效解決數(shù)據(jù)冗余和共指問題,提高了古農(nóng)書史料資源語義組織的質(zhì)量。
4 古農(nóng)書史料資源知識圖譜構(gòu)建及應用
本研究以Neo4j圖數(shù)據(jù)庫為基礎(chǔ)構(gòu)建古農(nóng)書史料資源知識圖譜。由于本體模型與知識圖譜的表現(xiàn)形式存在差異,需利用RDF三元組這一通用數(shù)據(jù)鏈接方式,將已建的本體模型映射至圖數(shù)據(jù)庫中。具體映射規(guī)則(見圖5):一是將本體中的類與實例映射為圖數(shù)據(jù)庫的節(jié)點;二是實現(xiàn)本體中對象屬性與圖數(shù)據(jù)庫中關(guān)系類型的相互映射;三是實現(xiàn)本體中數(shù)據(jù)屬性與節(jié)點屬性的相互映射。根據(jù)本體到知識圖譜的映射規(guī)則,實現(xiàn)古農(nóng)書史料資源的圖數(shù)據(jù)庫存儲。最終形成的古農(nóng)書史料資源知識圖譜涵蓋1236個實體節(jié)點,2654個三元組關(guān)系,節(jié)點和關(guān)系共同構(gòu)建了多維的古農(nóng)書史料資源關(guān)聯(lián)網(wǎng)絡,詳細描述了古農(nóng)書中蘊含的深厚的史料資源,便于利用知識推理、路徑計算等方式進行知識單元內(nèi)容的細粒度挖掘,為后續(xù)知識發(fā)現(xiàn)奠定基礎(chǔ)。
4.1 知識關(guān)聯(lián)
知識圖譜以強大的可視化特性脫穎而出,在完成知識存儲后,采用圖譜的形式可視化展示古農(nóng)書史料資源。知識圖譜還可詳細地描述節(jié)點和關(guān)系的知識結(jié)構(gòu)。用戶通過點擊節(jié)點可以靈活調(diào)整節(jié)點的顏色與大小,實體類型以顏色加以區(qū)分,如人物實體以大紅色表示,時間實體則以淺綠色呈現(xiàn)。用戶可按需進一步查看節(jié)點的詳細信息及節(jié)點間的關(guān)聯(lián)。本研究通過知識圖譜實現(xiàn)對古農(nóng)書史料資源的實例化展示,將涉及古農(nóng)書史料資源的農(nóng)書、人物、時間、空間等知識單元有序地聯(lián)結(jié)起來,實現(xiàn)從靜態(tài)知識到動態(tài)知識網(wǎng)絡的轉(zhuǎn)化,以便更好地挖掘隱含知識。
4.2 知識檢索
古農(nóng)書史料資源知識圖譜能夠?qū)⒎稚⒘闼榈闹R單元聯(lián)結(jié)起來,用戶可根據(jù)需求構(gòu)建適合的查詢語句將知識從數(shù)據(jù)庫中檢索出來。Cypher語言作為圖查詢工具,具有簡便高效的優(yōu)勢,以“富弼”為例進行檢索,通過Cypher查詢語句:MATCH(n)-[r:創(chuàng)作者]-(m:Person{name:'富弼'}) return n,m可呈現(xiàn)相關(guān)節(jié)點與關(guān)系,查詢結(jié)果見圖6。圖6展示了富弼創(chuàng)作的五項史料,包括《擘畫屋舍安泊流民事行移》《曉示流民許令諸般采取營運不得邀阻事》《告諭勸誘人戶各量出斛米以救濟饑民事》《支散流民斛斗畫一指揮行移》《宣問救濟流民事札子》,這五項史料資源均與荒政相關(guān),且發(fā)生在北宋時期,在一定程度上反映了富弼對災民救濟方面的見解。
4.3 知識發(fā)現(xiàn)
知識圖譜以可視化方式將知識結(jié)構(gòu)展示給用戶,其最重要的價值是為用戶提供知識發(fā)現(xiàn)服務,促進科學研究的開展。古農(nóng)書史料資源蘊含的知識單元具有細粒度的特征,能夠從多個角度對知識內(nèi)容進行挖掘與重組,探究古農(nóng)書史料資源中隱含知識,進而實現(xiàn)對史料資源深度的知識發(fā)現(xiàn)研究。如以人物為線索進行知識發(fā)現(xiàn),可為歷史人物研究提供豐富多樣的史料資源,幫助用戶更加全面深刻地了解古農(nóng)書史料資源的知識內(nèi)涵。以范仲淹為例,輸入查詢語句通過知識圖譜展示從人物到史料的知識脈絡,發(fā)現(xiàn)其創(chuàng)作的史料資源,包括《宋范仲淹上呂相公呈中丞咨目》 《開河法》和《建閘法》,如圖7所示。這些史料資源與當時的水利建設(shè)密切相關(guān),在一定程度上論證了范仲淹的水利思想,體現(xiàn)了其先憂后樂、關(guān)懷民生的高尚品格。通過點擊相關(guān)節(jié)點,可以進一步呈現(xiàn)其具體的數(shù)據(jù)屬性,從而獲取相關(guān)信息,為挖掘背后的知識提供支持。
知識圖譜為實現(xiàn)古農(nóng)書史料資源知識內(nèi)容的深度發(fā)現(xiàn)提供研究途徑,可深入挖掘資源中潛在的知識,詳細描述史料資源的歷史文化內(nèi)涵。知識圖譜的優(yōu)勢在于知識查詢與推理,為推動古農(nóng)書資源的知識組織與發(fā)現(xiàn)研究提供了重要的思路。此外,知識圖譜拓展了古農(nóng)書史料資源的應用范圍,通過可視化的方式清晰呈現(xiàn)了古農(nóng)書史料資源的知識結(jié)構(gòu)特征,使資源中所蘊含的歷史文化記憶得以再現(xiàn),深入分析了古農(nóng)書領(lǐng)域知識傳播與歷史文化再現(xiàn)的價值,對中華優(yōu)秀傳統(tǒng)農(nóng)耕文化的保護與傳承具有重要意義。
5 結(jié)語
我國自古以來高度重視農(nóng)業(yè),農(nóng)業(yè)作為中華民族賴以生存和發(fā)展的基石,為后世留下了諸多珍貴的農(nóng)學著作,這些璀璨的農(nóng)書資料為相關(guān)領(lǐng)域的研究提供了豐富詳盡的史料。古農(nóng)書資源數(shù)據(jù)量龐大,具有悠久的編修傳統(tǒng),蘊含著豐富的歷史文化價值。然而現(xiàn)階段,針對古農(nóng)書資源的開發(fā)利用相對有限,且大多為紙質(zhì)文獻資源,缺乏對其進行數(shù)字化、知識化處理,迫切需要借助數(shù)字技術(shù)來實現(xiàn)資源的深度知識組織。本研究以“古代四大農(nóng)書”為數(shù)據(jù)源,結(jié)合領(lǐng)域內(nèi)相關(guān)學者的研究思路,在深入分析資源所包含的知識元素與語義關(guān)系后,界定了古農(nóng)書史料資源的實體屬性與本體模型?;诖?,將RDF數(shù)據(jù)導入圖數(shù)據(jù)庫中生成古農(nóng)書史料資源知識圖譜,實現(xiàn)了古農(nóng)書史料資源的語義聚合,為古農(nóng)書資源的數(shù)字化乃至知識化研究提供理論基礎(chǔ)與技術(shù)支持,探索了資源間的知識關(guān)聯(lián)語義化組織方案。
本研究為古農(nóng)書史料資源提供了語義化組織方法,揭示其語義內(nèi)涵與人文價值。但仍有不足之處:其一,目前僅以“四大農(nóng)書”為數(shù)據(jù)源進行數(shù)據(jù)采集與整理,其所涵蓋的數(shù)據(jù)量相對有限且薄弱,后續(xù)有待將更多的農(nóng)書資源加入數(shù)據(jù)庫,以擴大研究規(guī)模。其二,由于古農(nóng)書相關(guān)文獻資源所包含的信息量龐大,大多為非結(jié)構(gòu)化數(shù)據(jù),其數(shù)據(jù)采集與提取工作繁重,耗時長,僅僅仰賴人工方式顯得效率不足。因此,針對龐雜的古農(nóng)書館藏資源,需要引入更多半自動化、全自動化的數(shù)據(jù)標注和信息抽取方法來完善數(shù)據(jù)處理過程。
參考文獻:
蹤凡.讓古籍文獻“活起來”[EB/OL].[2024-07-13].https://epaper.gmw.cn/gmrb/html/2017-11/30/nw.D110000gmrb_20171130_3-14.htm.
中國政府網(wǎng).中共中央辦公廳 國務院辦公廳印發(fā)《關(guān)于推進新時代古籍工作的意見》[EB/OL].[2024-07-13].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
鄧君, 宋先智, 鐘楚依.我國數(shù)字人文領(lǐng)域研究熱點及前沿探析[J].現(xiàn)代情報,2019,39(10): 154-164.
陳濤, 劉煒, 單蓉蓉, 等.知識圖譜在數(shù)字人文中的應用研究[J].中國圖書館學報,2019,45(6): 34-49.
劉煒,謝蓉,張磊,等.面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[J].中國圖書館學報, 2016,42(5): 29-39.
上海圖書館家譜聯(lián)合編目系統(tǒng)[EB/OL].[2024-03-08].https://jplb.library.sh.cn/index.
中華古籍資源庫[EB/OL].[2024-07-16].http://read.nlc.cn/thematDataSearch/toGujiIndex.
北京大學數(shù)字人文研究中心項目展示平臺[EB/OL].[2024-07-16].http://digitalhumanities.pku.edu.cn/project/.
鄧仲華,黃鑫,陸穎雋,等.論中文古籍版本本體庫的構(gòu)建[J].圖書情報知識, 2014(4):80-87,93.
白林林, 祝忠明.基于Drupal的中文古籍書目關(guān)聯(lián)數(shù)據(jù)發(fā)布研究[J].圖書情報工作, 2017,61(4): 123-129.
歐陽劍, 梁珠芳, 任樹懷.大規(guī)模中國歷代存世典籍知識圖譜構(gòu)建研究[J].圖書情報工作, 2021,65(5): 126-135.
丁侃, 張麗君.基于本體的中醫(yī)學術(shù)傳承脈絡構(gòu)建[J].中醫(yī)文獻雜志,2018,36(5): 32-35.
徐晨飛, 包平, 張惠敏, 等.基于關(guān)聯(lián)數(shù)據(jù)的方志物產(chǎn)史料語義化知識組織研究[J].大學圖書館學報,2020,38(6): 78-88.
程結(jié)晶,王心雨.敦煌遺書圖像知識關(guān)聯(lián)與語義描述[J].圖書情報工作,2021,65(7): 123-131.
張晴丹.守望農(nóng)史學[N].中國科學報, 2020-09-08(005).
萬國鼎.氾勝之書輯釋[M].北京:中華書局, 1957.
繆啟愉, 繆桂龍.齊民要術(shù)譯注[M].上海:上海古籍出版社, 2006.
王禎. 東魯王氏農(nóng)書譯注[M].繆啟愉,譯.上海:上海古籍出版社, 1994.
徐光啟.農(nóng)政全書[M].石聲漢,點校.上海:上海古籍出版社, 2020.
STUDER R, BENJAMINS V R, FENSEL D. Knowledge engineering: principles and methods[J].Data amp; Knowledge Engineering, 1998, 25(1-2): 161-197.
李永卉, 周樹斌, 周宇婷, 等.基于圖數(shù)據(jù)庫Neo4j的宋代鎮(zhèn)江詩詞知識圖譜構(gòu)建研究[J].大學圖書館學報,2021,39(2): 52-61.
吳艷飛 華中師范大學信息管理學院碩士研究生。湖北武漢,430079。
張 強 華中師范大學信息管理學院博士研究生。湖北武漢,430079。
周樹斌 華中師范大學信息管理學院博士研究生。湖北武漢,430079。
譚 淑 華中師范大學信息管理學院碩士研究生。湖北武漢,430079。
(收稿日期:2024-06-27 編校:陳安琪,曹曉文)