王麗麗,張 寧
(1.中國人民大學圖書館,北京 100872;2.中國人民大學古籍整理研究所,北京 100872;3.中國人民大學數(shù)字人文研究中心,北京 100872)
黨的十八大以來,以習近平同志為核心的黨中央對傳承和弘揚中華優(yōu)秀傳統(tǒng)文化作出一系列重大決策部署,古籍事業(yè)迎來新的發(fā)展機遇。2022 年3 月,“加強文物古籍保護利用” 首次寫入政府工作報告[1]。4月11 日,中共中央辦公廳、國務院辦公廳印發(fā)《關于推進新時代古籍工作的意見》[2]。4 月25 日,習近平總書記在考察中國人民大學圖書館時指出,要運用現(xiàn)代科技手段加強古籍典藏的保護修復和綜合利用[3]。5月27 日,習近平總書記強調(diào):把考古探索和文獻研究同自然科學技術手段有機結合起來[4]。
古籍具有獨特的文物價值、學術價值和藝術價值,是凝聚傳統(tǒng)文化最重要的載體之一。從傳統(tǒng)的古籍文獻書目整理,到古籍書目和全文數(shù)據(jù)庫建設,對古籍資源的開發(fā)與利用一直是學界和業(yè)界關注的焦點。當前,古籍資源的數(shù)字化著錄已較為普及,如各單位自建古籍書目數(shù)據(jù)庫、“學苑汲古:高校古文獻資源庫”“全國古籍普查登記基本數(shù)據(jù)庫” 等。此外,還出現(xiàn)一批商業(yè)化的古籍全文數(shù)據(jù)庫,如 “中國基本古籍庫”“中華經(jīng)典古籍庫” “書同文古籍數(shù)據(jù)庫” 等。但隨著大規(guī)模古籍數(shù)據(jù)庫的建成,學者發(fā)現(xiàn)古籍數(shù)據(jù)庫只是對古籍文獻外部特征與內(nèi)容特征進行揭示,僅能滿足用戶基本的檢索與使用的需求,并未對古籍資源從知識組織的角度進行深入挖掘和利用,傳統(tǒng)古籍整理的局限性逐漸暴露出來[5]。
近年來,計算機信息技術與人文學科研究深度結合的新興交叉學術領域——數(shù)字人文(Digital Humanity)得到了迅速發(fā)展,成為加強古籍典藏保護修復和綜合利用的重要現(xiàn)代科技手段。數(shù)字人文背景下,對古籍資源的整理與研究從數(shù)字化向數(shù)據(jù)化邁進,從全文數(shù)據(jù)庫向知識平臺邁進,從全文檢索向智慧檢索邁進。古籍知識關聯(lián)指的是匯集大量結構化的古籍數(shù)據(jù),對其進行細粒度、多維度切分,通過機器標引、輔以人工標引,利用關聯(lián)數(shù)據(jù)、語義網(wǎng)等技術,進行統(tǒng)計分析、網(wǎng)絡分析和空間分析等,探尋數(shù)據(jù)間的關系,實現(xiàn)古籍資源外部與內(nèi)容特征、古籍資源中蘊含的知識元之間的互聯(lián),并可根據(jù)用戶的需求,實時、自動實現(xiàn)知識之間的自動重組與可視化展示。本文在梳理數(shù)字人文視角下古籍知識關聯(lián)的研究基礎之上,探討古籍知識關聯(lián)的關鍵環(huán)節(jié),舉例分析古籍知識關聯(lián),總結古籍知識關聯(lián)的壁壘。
數(shù)字人文的出現(xiàn)為古籍整理帶來獲取資料的智能化、研究方法的數(shù)據(jù)化、研究結果的可視化三大進展[6]。將數(shù)字人文應用于古籍整理,改變了古籍文獻傳統(tǒng)檢索方式,從電子文獻到結構化數(shù)據(jù)庫、從點狀檢索到網(wǎng)狀關聯(lián)、從逐條拷貝到分類打包,使傳統(tǒng)的靜態(tài)文本轉(zhuǎn)化為可隨意組合的動態(tài)文本[7]。古籍整理不再僅僅是實現(xiàn)更大范圍的文獻信息的揭示與保存,更重要的是要實現(xiàn)古籍文獻蘊含知識之間的關聯(lián),深入挖掘其蘊含的哲學思想、人文精神、價值理念、道德規(guī)范。知識與知識之間互相發(fā)生聯(lián)系與影響即為知識關聯(lián)。對知識關聯(lián)的研究已經(jīng)有不少,如文庭孝[8,9]圍繞知識關聯(lián)的基礎理論、內(nèi)部特征、結構分析與應用開展研究,趙蓉英研究了[10]知識關聯(lián)的類型。也有學者對學術文獻及其知識關聯(lián)[11]、金融領域知識關聯(lián)[12]等特定領域文獻間的知識關聯(lián)進行研究。目前圍繞古籍資源知識關聯(lián)進行的理論研究主要是圍繞某一數(shù)字人文平臺展開的。李兵等對中醫(yī)古籍知識化研究現(xiàn)狀和常用的知識分析與挖掘方法進行綜述[13]。黃水清認為應利用數(shù)字人文技術實現(xiàn)古籍資源的創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展。歐陽劍提出在新時代古籍資源轉(zhuǎn)化方面,文本化和數(shù)據(jù)化是基礎、知識化是重要方式、平臺化是有效利用及傳播的重要途徑[14]。魏曉萍探討了數(shù)字人文理論與技術方法在古籍文獻開發(fā)與利用的應用[5]。李欣等認為數(shù)字方志特藏資源建設應使用關聯(lián)書目元數(shù)據(jù)方案,最小粒度化方志元數(shù)據(jù),提供開放平臺,元數(shù)據(jù)的創(chuàng)建、分析等可以利用文本分析技術等技術手段實現(xiàn)或者以眾包形式開展[15]。王蕾等從元數(shù)據(jù)方案、檢索點設計和數(shù)據(jù)關聯(lián)等角度,總結徽州文書數(shù)據(jù)庫的建設經(jīng)驗[16]。陳力認為數(shù)字人文視域下的古籍數(shù)字化與古典知識庫建設存在計算機編碼漢字和計算機圖像識別并轉(zhuǎn)換為字符的能力等問題[17]。
理論研究指導實踐發(fā)展,利用自然語言處理技術、關聯(lián)數(shù)據(jù)、GIS 技術、可視化技術等,數(shù)字人文指導下古籍知識關聯(lián)領域已經(jīng)產(chǎn)生了較為豐碩的實踐成果。一是通過自動標注、自動校對、詞語切分等自然語言處理技術,實現(xiàn)命名實體的識別與關聯(lián)等。如清華大學自然語言處理與社會人文計算實驗室研發(fā)的中文詩歌自動生成系統(tǒng)《九歌》,以大規(guī)模詩歌文本為研究對象分析詩歌內(nèi)在聯(lián)系,為用戶提供詩歌生成以及人機交互創(chuàng)作等功能[18];侯漢清、包平等圍繞《方志物產(chǎn)》中地名等命名實體的識別與關聯(lián)開展了系列研究[19]。二是通過關聯(lián)數(shù)據(jù),實現(xiàn)古籍文獻中的時間、地點、人物等的關聯(lián),形成知識網(wǎng)絡,挖掘古籍文獻的內(nèi)在關系。如 “中國歷代人物傳記資料庫(CBDB)” 構建關系型數(shù)據(jù)庫為歷史文獻人物建模[20];上海圖書館“中國家譜知識服務平臺” 應用關聯(lián)數(shù)據(jù)重構上海圖書館的家譜服務。三是結合GIS 技術呈現(xiàn)古籍文獻資源的時空分布。如 “學術地圖發(fā)布平臺” 實現(xiàn)了數(shù)據(jù)共享、可視化分析及多功能查詢等,“唐宋文學編年地圖平臺” 以編年地圖的形式提供唐宋時期文學人物、事件的時空分布及作品關系。四是通過可視化技術等構建知識圖譜。如北京大學 “宋元學案知識圖譜可視化系統(tǒng)” 梳理宋元時期學術史中的關系圖譜、學術流變、師承關系、學派傳承,構建完整的學術史衍化脈絡全景;武漢大學數(shù)字文化遺產(chǎn)研究中心完成了 “數(shù)字敦煌莫高窟” “新疆克孜爾石窟數(shù)字化” “頤和園佛香閣三維重建” 等項目。
相較于傳統(tǒng)意義上的古籍數(shù)據(jù)庫,這些實踐成果有了新的發(fā)展。一是組織機制不同,傳統(tǒng)的古籍整理目的在于版本鑒定、揭示資源、保存資源、利用資源,而古籍數(shù)字人文平臺功能更為多樣、深入,其融合館藏元數(shù)據(jù)記錄、專家研究成果、相關網(wǎng)絡資源,以知識本體為基礎,應用關聯(lián)數(shù)據(jù)等技術,對古籍資源完成數(shù)字化到數(shù)據(jù)化的知識重組,以可視化的形式揭示古籍資源間的知識關聯(lián)。二是收錄范圍擴展,傳統(tǒng)的古籍數(shù)據(jù)庫收錄范圍主要局限在原始文獻資料方面[21],古籍數(shù)字人文平臺不僅收錄原始文獻,還收錄古籍文獻的解析文本、延伸文獻等,更在一定程度上實現(xiàn)了從 “數(shù)字化” 到 “數(shù)據(jù)化” 的過渡,從 “數(shù)據(jù)孤島”到 “數(shù)據(jù)共享” 的轉(zhuǎn)變。以往的數(shù)據(jù)庫平臺多為 “數(shù)字化” 平臺,主要為全文掃描圖像與文本存儲平臺;而古籍數(shù)字人文平臺則是一個 “數(shù)據(jù)化” 的平臺,從“存儲” 提升到“分析” 與“關聯(lián)”。
縱覽這些古籍數(shù)字人文平臺,古籍知識關聯(lián)是在古籍文獻組織基礎之上,基于古籍文本數(shù)據(jù)進行的知識單元間的關聯(lián)。
在原有的古籍數(shù)據(jù)庫基礎之上,數(shù)字人文視角下的古籍知識關聯(lián)可以實現(xiàn)更大范圍文獻間的組織。
(1)平臺文獻之間的組織。從揭示程度來看,數(shù)字人文視角下的古籍平臺不僅僅實現(xiàn)了書目信息的集合揭示,還實現(xiàn)了對書目信息的區(qū)分、聚類、比較和統(tǒng)計分析[22],進一步對文本化的古籍內(nèi)容進行數(shù)據(jù)化轉(zhuǎn)換。一方面,借助于相似的數(shù)字化技術和統(tǒng)一的元數(shù)據(jù)標準,分散、獨立的各古籍平臺間的書目數(shù)據(jù)可進行互聯(lián),實現(xiàn)不同平臺間的關聯(lián);另一方面,在平臺內(nèi)部,由于古籍數(shù)字人文平臺對資源的內(nèi)外部特征描述更為全面,可實現(xiàn)繁簡字、異體字、版本之間(匯編本與單行本、叢書的著錄)等的互聯(lián)。
(2)平臺內(nèi)外文獻之間的組織。這主要指的是平臺文獻與新印古籍資源、延伸研究文獻、互聯(lián)網(wǎng)學術資源等之間的關聯(lián)與組織。對于人文學者來說,古籍原本的闡釋是其研究工作的基礎,依據(jù)這些原始文獻開展的相關研究也是重要的研究資料。新印古籍資源不僅僅是原典的簡單影印出版,更是專題性、縱深性資料的精選匯總。延伸研究文獻指的是和某一古籍相關的新出版的學術研究論著、學者年表、編年史等研究資料。如家譜資源的延伸研究文獻包括人物傳記、歷史年表、職官表、日記信札、報紙公告欄等。將中國知網(wǎng)、超星等數(shù)據(jù)庫中相關的研究資料關聯(lián)到古籍數(shù)字人文平臺之上,將大大拓展用戶學術研究的視野,節(jié)約其時間。如清代臺灣方志物產(chǎn)篇分析系統(tǒng)利用學名將方志中的物產(chǎn)聯(lián)結到現(xiàn)代植物資料庫,將西方分類學觀念建構的知識體系與傳統(tǒng)方志的資料互相聯(lián)結[23]。
文獻組織是對古籍書目信息的組織,知識組織是對古籍文本的組織。而古籍文本不能直接被計算機語言識別和使用,需要將其轉(zhuǎn)化為可識別、可理解的結構化數(shù)據(jù),進一步從數(shù)據(jù)轉(zhuǎn)化為知識,方能實現(xiàn)古籍知識關聯(lián)。因此,古籍數(shù)據(jù)是古籍知識關聯(lián)的基礎。
(1)古籍文本轉(zhuǎn)化為古籍數(shù)據(jù)。首先,清洗以圖片、文本等格式存儲的古籍數(shù)據(jù),通過OCR 技術等采集古籍文本數(shù)據(jù),借助分詞與標注技術等將古籍數(shù)據(jù)顆粒化,形成具有獨立意義的結構化數(shù)據(jù)單元,借助大數(shù)據(jù)技術對各數(shù)據(jù)單元進行標引形成新的聚類,以實現(xiàn)數(shù)據(jù)的重新組織。如中文古籍半自動化標記平臺(MARKUS)通過關聯(lián)多個權威語料庫實現(xiàn)古籍中歷史人名、地名、官名與時間等實體的自動標注,為研究者提供可以通過定義關鍵字列表、上下文中的關鍵字、正則表達式等方式進行半自動標注,且支持以txt、excel、html 格式輸出標注結果[24]。
(2)古籍數(shù)據(jù)的量化分析,包括統(tǒng)計分析、網(wǎng)絡分析和空間分析。古籍數(shù)據(jù)的統(tǒng)計分析主要是利用數(shù)學語言對獨立數(shù)據(jù)單元的總數(shù)、頻次等進行概括性分析,較易實現(xiàn)。古籍數(shù)據(jù)的網(wǎng)絡分析是指對已顆?;墓偶當?shù)據(jù)以某一共同特征構建出新網(wǎng)絡結構進行分析,如《宋元學案》知識圖譜可視化系統(tǒng)將《宋元學案》人物、時間、地點、著作及它們之間的復雜語義關系提取出來構造成知識圖譜,提供可視化展現(xiàn)、交互式瀏覽、語義化查詢等功能[25]。古籍數(shù)據(jù)的空間分析即是將線性平面的數(shù)據(jù)實現(xiàn)點線面的空間分布,包括結構圖、地圖、分布圖等,如 “學術地圖發(fā)布平臺”借助GIS 技術實現(xiàn)歷史人物的行跡、特征分布和社會關系等信息的地理映射。
以文獻為單元的傳統(tǒng)古籍數(shù)據(jù)庫僅能滿足用戶的資料需求,遠不能滿足其知識需求,古籍中所包含的細粒度知識元的組織成為古籍數(shù)字人文平臺的研究重點,這也是古籍知識關聯(lián)的本質(zhì)。知識元的概念最早于20 世紀70 年代后期由弗拉基米爾·斯拉麥卡提出,學術文獻中的知識元指的是語義上相對完整地表達特定知識的最小的內(nèi)容單元[26]。古籍典籍知識元的涵義又比普通學術文獻中的知識元更為特殊,其類型更為多樣、復雜。
不同類別的古籍所包含的知識元類型有所不同。以史部為例,其下屬17 大類中,地理類之下的總志、方志、專志等多包含的知識元類型相似,數(shù)字方志集成平臺即實現(xiàn)了對方志類知識元的組織。該平臺拆分、合并華東師范大學圖書館等圖書館、超星、CADAL、中國方志庫、瀚堂典籍庫及方正電子書等方志類元數(shù)據(jù),采用BIBFRAME 書目數(shù)據(jù)模型進行轉(zhuǎn)換、查重、映射,實現(xiàn)方志與外部數(shù)據(jù)的互聯(lián)、最小粒度化方志元數(shù)據(jù)、平臺開放、用戶可協(xié)作參與,并嘗試通過內(nèi)容分析技術對方志中的內(nèi)容進行分析[15]。史部史表類、傳記類的人表、年譜、科舉錄、職官錄知識元類型相似,多表現(xiàn)為 “某人生于某年,任某職” 等。如《山陰州山吳氏族譜》中有 “太學生楚材公,姓吳氏,諱乘權;子立公,諱乘業(yè)。山陰州山里人?!?包含了 “楚材公是太學生” “楚材公姓吳氏” “楚材公諱乘權”“子立公諱乘業(yè)” “楚材公和子立公為山陰州山里人”等語義三元組,以RDF 數(shù)據(jù)格式描述,將人、地、時串聯(lián)成一個個的遷徙事件,可將具有共同先祖的先祖名人及其遷徙事件關聯(lián)起來[27]。而史部金石類中的知識元不僅包括對圖像的識別,即如何將圖像中的內(nèi)容進行抽取、釋讀,還包括對識別后的文本知識元進行語義描述。
除此之外,古籍資源還包含一些特殊類型的知識元。如版本知識元、鈐印知識元,通過對 “楝亭曹氏藏書” 印主為曹寅、“楝亭曹氏藏書” 印為長方形、陽文、篆體,“楝亭曹氏藏書” 刻于《皇明大訓記》書名頁等的描述,可以讓機器準確理解鈐印知識元,如圖1 所示。
圖1 “楝亭曹氏藏書” 藏書印RDF 數(shù)據(jù)Fig.1 RDF data of"Cao's collection"book seal
從文獻單元的組織深入到知識單元的組織,古籍數(shù)字人文平臺可實現(xiàn)知識關聯(lián)。關聯(lián)的本質(zhì)是實現(xiàn)文獻與文獻、知識與知識之間的互相聯(lián)系與影響。古籍數(shù)字人文平臺實現(xiàn)了更大范圍書目數(shù)據(jù)的聚合,有利于學者將散落在不同機構的同一作品的不同版本聚集,“辨章學術、考鏡源流”,進行版本鑒定與版本源流的考證。而借助內(nèi)容挖掘、時空分析等數(shù)據(jù)分析技術與知識地圖、主題圖等可視化技術,古籍知識關聯(lián)可進行方志與家譜挖掘、鈐印知識網(wǎng)絡發(fā)現(xiàn)、特定時期與地域?qū)W者研究脈絡與交往分析等。
夫家有譜、州有志、國有史,方志和家譜具有揭示某一區(qū)域與家族長期、延續(xù)的發(fā)展狀況與遷徙路線的史料性價值。通過集成散落在各地的大量零散方志、家譜,借助于統(tǒng)一的元數(shù)據(jù)標準,可集成不同平臺間志譜書目數(shù)據(jù)、志譜相關資源。在此基礎之上,對大規(guī)模、多源、多維的志譜資源進行文本化、數(shù)據(jù)化轉(zhuǎn)換,抽取其中蘊含的知識單元,通過量化分析與可視化展示,實現(xiàn)志譜的數(shù)據(jù)集成與知識關聯(lián)。如中國家譜知識服務平臺把散落在不同家譜文獻中的人、地、時、事關聯(lián)起來,發(fā)現(xiàn)人與人之間、人與文獻之間的關系,形成完整的知識圖,以可視化的方式展示。這既便于普通讀者直觀獲得隱藏在不同文獻中的知識,并將不同的文獻按照某一主題有機地組織起來,提供知識導航;更可以幫助研究者發(fā)現(xiàn)問題,提出問題[27]。
鈐印知識元是古籍資源中一種重要的知識元。將鈐印作為實體對象,對其所蘊含的印文、印主、藏本知識進行語義標注,實現(xiàn)同一印主不同鈐印間的歸一處理,實現(xiàn)同一印主的字、號、別名等之間的歸一處理,并將藏本信息與聯(lián)合目錄、循證平臺關聯(lián),將時間、地點與歷史紀年表、地理名詞表等關聯(lián),將印主信息與人名規(guī)范檔等進行關聯(lián),進而發(fā)現(xiàn)印文、印主與藏本之間的關聯(lián)關系,實現(xiàn)平臺內(nèi)外文獻的互聯(lián)與鈐印的知識挖掘。通過構建鈐印知識元庫,既可以加深鈐印內(nèi)含知識的挖掘?qū)哟?、細化其表示粒度,又可以輔助梳理遞藏源流、考證藏書的收藏與散逸情況、溯清館藏來源[28]。
通過對多源、異構古籍資源的文獻組織、知識組織,可實現(xiàn)平臺內(nèi)外的文獻與文獻之間、文獻內(nèi)外知識單元之間的關聯(lián),幫助研究者發(fā)現(xiàn)人工難以獲得的知識,進行特定時期與特定地域?qū)W者研究脈絡與交往等的分析。這是當前古籍知識關聯(lián)實現(xiàn)的重要價值所在。如歐陽劍以大規(guī)模中國古籍文本(41 563 種古籍,總計48.35 億字)為研究對象,對古籍進行整理、標注、自動分詞等處理,創(chuàng)建了一個以語言學、歷史文獻學、歷史地理學等人文學科研究為主的古籍實時統(tǒng)計分析平臺,實現(xiàn)了實時統(tǒng)計分析、時間和空間可視化分析,可輔助研究者在大量的古籍文獻中發(fā)現(xiàn)新的模式、現(xiàn)象、趨勢等[29]。
數(shù)字人文視角下古籍知識關聯(lián)雖極具現(xiàn)實意義,但在實施中仍然受到種種壁壘的限制。
對于大多數(shù)機構來說,知識關聯(lián)的對象——古籍文獻數(shù)據(jù)與知識元的文本化處理與關聯(lián)化實現(xiàn)仍然具有較高的難度。古字無定形,已完成的古籍數(shù)字化資源在文本化轉(zhuǎn)換過程中仍以OCR 識別加專家人工校讀為主要工作方式。雖然目前書同文i-慧眼OCR 平臺、古聯(lián)公司古籍OCR 系統(tǒng)、如是OCR 等在古籍文本OCR 識別方面已經(jīng)取得了一定的成就,但普遍意義上來說,古籍OCR 識別始終面臨版式多樣(橫版、豎版、小字雙行等)、格式各異(除文字外還有碑帖拓片、輿圖等實物、圖像類)、異體字眾多、字形字體多變、字符集大而標注樣本少等困難。
古籍全文數(shù)字化是進行古籍知識關聯(lián)的基礎,古籍文本的識別與轉(zhuǎn)換相關研究問題一直深受學界重視。不少學者基于機器學習、深度學習等方法技術,提出了古籍文檔圖像版面分析方法與文字檢測分割方法、構建大規(guī)模圖像和文本語料庫、設計古籍文檔圖像預訓練模型等。未來,應進一步增強該領域的研究,以提高古籍文本識別效率與質(zhì)量。
要實現(xiàn)古籍知識關聯(lián),在古籍文本化的基礎之上,還需要將傳統(tǒng)古籍數(shù)據(jù)庫中的關系型古籍全文數(shù)據(jù)轉(zhuǎn)換為語義層次的知識元。數(shù)據(jù)化的古籍知識需要有相關機構牽頭,多學科領域?qū)<覅⑴c制定統(tǒng)一的、科學的元數(shù)據(jù)描述規(guī)范,方能使得不同平臺間文獻單元、知識單元實現(xiàn)共享、形成映射。而在知識關聯(lián)的構建過程中,需要應用到各種技術方法。對于圖書館等古籍資源館藏機構來說,從文本分析、聚類分類、主題分析、內(nèi)容挖掘、時序分析、地理空間分析、社會關系分析等內(nèi)容分析技術到可視化技術,到機器學習的技術、方法需要得到進一步開發(fā)與應用,這是發(fā)現(xiàn)知識元與知識元間的關系,并以可視化的形式進行揭示,進而實現(xiàn)知識關聯(lián)的關鍵。圖書館等館藏機構應進一步與相關機構加強合作,推動相關技術方法的開發(fā)、落地、應用、推廣。
古籍數(shù)字人文項目的紛紛落地、數(shù)字人文平臺的不斷推出也展露了當前古籍數(shù)字人文研究的一個隱性弊端,即大大小小的數(shù)字人文項目 “遍地開花”,大部分古籍數(shù)字人文平臺僅為某一機構所開發(fā),多針對某一特定類型資源如方志、中醫(yī)藥、佛經(jīng)等甚至單一部古籍等,使用范圍也多受限于建設單位內(nèi)部。數(shù)字人文視角下的古籍知識關聯(lián)應克服傳統(tǒng)古籍整理的 “小、散、亂” 模式,從建制上進行努力,避免重復建設,參考古籍書目數(shù)據(jù)庫 “全國古籍普查登記基本數(shù)據(jù)庫”等模式,由相關機構牽頭,館藏機構、人文學者、計算機領域?qū)W者共同協(xié)作,多建設如 “中文古籍聯(lián)合目錄及循證平臺” “數(shù)字方志集成平臺” 這類綜合性、集成性、可擴展性的平臺,促進古籍資源的共建共享、深度挖掘。
古籍資源是一個圖書館 “人無我有”、具有特殊價值的一部分資源,是數(shù)字人文研究的重要對象之一,數(shù)字人文的理念、工具與方法是古籍資源開發(fā)與利用的重要助力。數(shù)字人文視角下,從文獻單元層次的組織深入到知識單元層次的組織,借助數(shù)據(jù)分析技術、機器學習、可視化技術等,可實現(xiàn)古籍知識關聯(lián)。古籍知識關聯(lián)起點是文獻組織,基礎是古籍數(shù)據(jù),本質(zhì)是知識組織。古籍知識關聯(lián)可進行方志與家譜挖掘、鈐印知識網(wǎng)絡發(fā)現(xiàn)、特定時期與地域?qū)W者研究脈絡與交往分析等,但在實施中仍面臨知識元處理難度大、技術要求高、集成平臺少等壁壘。
囿于研究條件所限,論文僅從理論角度對古籍知識關聯(lián)的研究與應用、關鍵環(huán)節(jié)、壁壘等進行了論述,未來我們將以館藏古籍知識平臺優(yōu)化升級為契機,進一步對古籍元數(shù)據(jù)描述規(guī)范、古籍文本轉(zhuǎn)換與內(nèi)容挖掘、不同平臺間數(shù)據(jù)交換及更新機制進行研究,以促進古籍資源更深層次的知識關聯(lián)、更大范圍的共建共享,提升古籍資源開發(fā)水平與服務質(zhì)量。