徐晨飛 包 平
(1. 南通大學經(jīng)濟與管理學院,南通 226019; 2. 南京農(nóng)業(yè)大學數(shù)字人文研究中心,南京 210095)
近年來,數(shù)字人文作為一種方法論的實踐在許多人文學科中開始興起,有學者聞風而至也有學者冷眼旁觀,學術(shù)共同體仍未形成清晰輪廓。普適的理論框架尚未成型仍在建構(gòu)當中[1],其應用價值還需學者在各種學術(shù)研究實踐中進行探討與驗證[2],但不可否認的是,數(shù)字人文概念的出現(xiàn)正在引發(fā)人文學科傳統(tǒng)研究范式的革新與轉(zhuǎn)變。
相較于其他人文學科,史學領(lǐng)域有關(guān)數(shù)字人文研究理論與應用的爭鳴與探討似乎更盛,如“計量史學”“量化史學”“數(shù)字史學”“信息史學”“互聯(lián)網(wǎng)歷史學”等相關(guān)概念層出不窮,這些概念都昭示出史學研究的傳統(tǒng)范式已開始悄然轉(zhuǎn)變。國內(nèi)相關(guān)學者也在此方面提出許多見解,讓人耳目一新。
在農(nóng)史領(lǐng)域,跨學科研究屬性特征較為明顯,如南京農(nóng)業(yè)大學科學技術(shù)史學科點早在2003年就設立了“科技史信息組織”方向,之后也培育出一系列優(yōu)秀的研究成果,而彼時數(shù)字人文概念還未在國內(nèi)生根,這說明我國農(nóng)史學者是較早意識到采用數(shù)字人文研究方法來拓展和豐富研究領(lǐng)域與內(nèi)容的。本文將基于面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設施重要組成部分——方志物產(chǎn)知識庫的相關(guān)功能[3],嘗試對農(nóng)史領(lǐng)域數(shù)字人文研究范式進行理論化探索,提出較為具體的研究框架與實現(xiàn)路徑,并圍繞相關(guān)主題展開實證研究。
《方志物產(chǎn)》是1949年建國前后,大批有識之士在我國著名農(nóng)史學家萬國鼎先生的策劃和組織下集一代人心血精心搜集、挑選和抄寫裝訂起來的大型方志類資料匯編[4],具有唯一性和不可替代性,海內(nèi)外未見同類型的其他文獻可與之媲美。針對這一套珍貴資料,如何運用現(xiàn)代信息技術(shù)手段進行保護、組織、利用與傳播,使其更好地為各類人群所用,顯得尤為重要。依托國家社會科學基金重大項目“方志物產(chǎn)知識庫構(gòu)建及深度利用研究”,本研究設計構(gòu)建的方志物產(chǎn)知識庫主要是面向領(lǐng)域用戶,提供數(shù)字人文研究應用場景下的知識服務。通過與領(lǐng)域?qū)<业纳疃仍L談,提煉得到知識庫系統(tǒng)的核心功能主要包括方志物產(chǎn)領(lǐng)域知識系統(tǒng)化存儲、知識檢索與統(tǒng)計、多源知識聚合以及知識可視化等四個方面:
(1)方志物產(chǎn)領(lǐng)域知識系統(tǒng)化存儲
方志物產(chǎn)領(lǐng)域知識系統(tǒng)化存儲有兩層含義:一是需要將方志物產(chǎn)領(lǐng)域知識概念以及與之相關(guān)聯(lián)的領(lǐng)域外部概念,包含它們之間的語義關(guān)系,以知識本體(Ontology)的方式進行存儲;二是將方志物產(chǎn)領(lǐng)域中的知識實體以及實體之間的聯(lián)系以關(guān)聯(lián)數(shù)據(jù)(Linked Data)的形式存儲并對外發(fā)布。這種存儲方式有別于傳統(tǒng)的文本或圖像信息資源的存儲形式,此處存儲的內(nèi)容是經(jīng)過深度數(shù)字化與數(shù)據(jù)化加工,并采用知識本體模型進行語義化描述后的知識。通過知識存儲,可實現(xiàn)《方志物產(chǎn)》手抄本資料從紙質(zhì)文本形態(tài)到網(wǎng)絡化可關(guān)聯(lián)的結(jié)構(gòu)化數(shù)據(jù)形態(tài),方便用戶隨時隨地進行檢索與查閱。
(2)方志物產(chǎn)領(lǐng)域知識檢索與統(tǒng)計
檢索與統(tǒng)計功能一向是各類知識庫的必備功能。方志物產(chǎn)領(lǐng)域知識以物產(chǎn)知識為中心,通過設定多種檢索途徑來全方位揭示物產(chǎn)知識,比如簡單檢索、高級檢索、分類檢索、隨機檢索等,其中分類檢索途徑按不同角度又可分為物產(chǎn)來源地區(qū)、物產(chǎn)分類、物產(chǎn)名稱首字母等。此外,知識庫的知識檢索功能還包括基于關(guān)聯(lián)數(shù)據(jù)的語義檢索,一般可通過W3C發(fā)布的RDF數(shù)據(jù)的標準化查詢語言SPARQL[5]來實現(xiàn)。統(tǒng)計功能是基于不同維度對方志物產(chǎn)領(lǐng)域知識進行總結(jié),如各來源志書中的物產(chǎn)數(shù)量、物種數(shù)量,不同地區(qū)、不同物產(chǎn)分類下的物產(chǎn)數(shù)量等等。知識檢索與統(tǒng)計功能可幫助用戶以更多元化的視角來觀察與分析數(shù)據(jù)。
(3)方志物產(chǎn)領(lǐng)域多源知識聚合
方志物產(chǎn)知識庫系統(tǒng)中的知識不應局限于內(nèi)部單一知識源,還應與多種外部異構(gòu)知識源通過各類應用程序接口進行對接,為用戶提供與方志物產(chǎn)領(lǐng)域相關(guān)聯(lián)的各類知識。通過知識的關(guān)聯(lián),還可將來自不同源頭的知識單元凝聚在一起,構(gòu)建多維度多層次且互相關(guān)聯(lián)的知識體系,實現(xiàn)知識聚合應用,進而可提供更為精準、有針對性的知識服務。比如,與物產(chǎn)相關(guān)的中文百科知識、詩詞知識等,還有與方志、古籍書目以及人物、地名、時間等實體相關(guān)聯(lián)的其他機構(gòu)的開放數(shù)據(jù)等,這些開放數(shù)據(jù)所形成的多維度知識將成為方志物產(chǎn)領(lǐng)域知識的有益補充,可進一步擴大和挖掘領(lǐng)域知識的廣度與深度。
(4)方志物產(chǎn)領(lǐng)域知識可視化
領(lǐng)域知識可視化是以各種圖形或圖像化界面的呈現(xiàn)方式向終端用戶進行展示,也是知識庫系統(tǒng)的重要功能之一。通過前期調(diào)研,領(lǐng)域?qū)W者最希望獲得的可視化內(nèi)容是以歷史地圖的方式展現(xiàn)各種物產(chǎn)在不同時期的空間分布情況,而運用地理信息系統(tǒng)(GIS)技術(shù)可以較為完美地解決領(lǐng)域用戶的這一需求。此外,近年來較為流行的知識圖譜技術(shù)也可運用于領(lǐng)域知識可視化中,可以將領(lǐng)域知識中的各類實體及實體之間的關(guān)系描繪出來,并且還可以根據(jù)用戶的需求不斷擴展延伸。
總之,方志物產(chǎn)知識庫系統(tǒng)的核心任務是將《方志物產(chǎn)》資料中的物產(chǎn)知識進行多維度呈現(xiàn),同時與外部開放知識源進行關(guān)聯(lián),實現(xiàn)知識的聚合與共享,為領(lǐng)域用戶提供可視化的知識服務。我們通過數(shù)字化、數(shù)據(jù)化、知識化、平臺化等四個開發(fā)步驟[3],以《方志物產(chǎn)》云南卷資料為基礎(chǔ),同時將《方志物產(chǎn)》未收錄的民國省志《新纂云南通志》[6],以及《云南古代物產(chǎn)大系》[7]中的物產(chǎn)史料進行輯錄、整理以及數(shù)字化處理,作為知識庫的有益補充(總計67,062條物產(chǎn)數(shù)據(jù)),設計并實現(xiàn)了方志物產(chǎn)知識庫系統(tǒng)——“古云南物語”,首頁如圖1所示。
圖1 方志物產(chǎn)知識庫系統(tǒng)“古云南物語”首頁
該知識庫系統(tǒng)功能模塊主要包括:物產(chǎn)知識檢索、物產(chǎn)知識展示、物產(chǎn)時空展現(xiàn)、方志知識呈現(xiàn)以及領(lǐng)域知識聚合等。例如,在物產(chǎn)知識展示頁面中,主要有三部分內(nèi)容:首先是對《方志物產(chǎn)》資料中有關(guān)物產(chǎn)詳細信息的展示,包括物產(chǎn)的名稱、物產(chǎn)來源方志信息、物產(chǎn)的分類信息、物產(chǎn)所屬地區(qū)、物產(chǎn)描述信息、物產(chǎn)描述信息中的別名、引書、人物、產(chǎn)地等實體信息;其次,頁面還展示了物產(chǎn)來源其他古籍資料信息,包括古籍中對相關(guān)物產(chǎn)的描述信息;最后是與物產(chǎn)相關(guān)的第三方機構(gòu)的開放知識展示,包括物產(chǎn)相關(guān)的詩詞、物產(chǎn)的百科知識以及地圖展示等,進而實現(xiàn)多源異構(gòu)知識的聚合。此外,在物產(chǎn)知識展示頁面中,還提供RDF、XML、JSON三種格式的物產(chǎn)關(guān)聯(lián)數(shù)據(jù)的共享以及物產(chǎn)的知識圖譜展示。圖2是物產(chǎn)“孔雀”的知識展示頁面。
圖2 物產(chǎn)“孔雀”知識展示頁面
此外,選用“中華文明之時空基礎(chǔ)架構(gòu)”(CCTS)(1)見網(wǎng)址:http://ccts.ascc.net/。的1582年的明代歷史地圖、“中國歷史地理信息系統(tǒng)項目”(CHGIS)(2)見網(wǎng)址:http://yugong.fudan.edu.cn/views/chgis_index.php。V6版本的1820年的清代歷史地圖與1911年的近代歷史地圖等三張地圖作為物產(chǎn)時空展現(xiàn)的底圖數(shù)據(jù),不僅可通過物產(chǎn)記載時間來自動調(diào)用其所屬時代的底圖進行呈現(xiàn),也可以通過人工切換的方式來選擇底圖。如圖3是出自明天啟五年《滇志》的物產(chǎn)“甜菜”的時空展現(xiàn)圖,系統(tǒng)自動選擇CCTS的明朝1582年底圖作為展示地圖,地圖上會出現(xiàn)紅色的位置標記表示各種志書中“甜菜”的記載地區(qū);在頁面右邊區(qū)域為“甜菜”在知識庫中的所有簡要記載信息,并按照年份先后次序進行了排序,點擊其中某一條物產(chǎn)記載信息的年份可在左邊地圖上高亮顯示該物產(chǎn)的地理位置。物產(chǎn)簡要記載信息包括記載的來源志書、志書中物產(chǎn)的歸屬地以及物產(chǎn)的所屬分類等,這些記載信息有助于探究某物產(chǎn)的地方知識書寫模式的變化。
圖3 物產(chǎn)“甜菜”時空展現(xiàn)圖
作為面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設施,方志物產(chǎn)知識庫可為領(lǐng)域?qū)W者提供多源、精準知識以及平臺工具。但是,我們需要更進一步思考的是,該知識庫系統(tǒng)能否有效幫助領(lǐng)域?qū)W者改進傳統(tǒng)研究方法,掌握數(shù)字人文研究思維,進一步拓展傳統(tǒng)研究的邊界?本文嘗試設計面向農(nóng)史領(lǐng)域的數(shù)字人文研究框架,以期對上述問題進行解答。
數(shù)字人文研究作為一種跨學科融合的研究范式,要短時間內(nèi)被領(lǐng)域內(nèi)科學共同體一致接受是較為困難的,但毋庸置疑的是,它與信息技術(shù)一樣不會停止向前發(fā)展的腳步。在農(nóng)史領(lǐng)域,傳統(tǒng)研究范式隨著時代的發(fā)展也在不斷發(fā)生改變,從傳統(tǒng)史學、文獻學為主流的研究方法到開始借鑒其他學科的研究方法,如計量與統(tǒng)計的方法等,為領(lǐng)域?qū)W者提供了更多元更新興的研究視角。邁入大數(shù)據(jù)時代,信息技術(shù)革命顛覆了學者檢索史料、獲取史料以及詮釋史料的過程,盡管技術(shù)對于人文學者而言可能還是一道屏障,但也有不少領(lǐng)域?qū)W者開始嘗試并愿意付出一定的學習成本去掌握新技能,運用于其研究活動中。相關(guān)技術(shù)性研究工具的出現(xiàn),如研究基礎(chǔ)設施的建成從某種程度上可提高人文學者的學習效率,但這些技術(shù)工具目前是無法模擬出人文學者的問題意識、思辨模式、人文關(guān)懷以及價值取向的。有學者提出數(shù)字人文研究框架的概念,即描述了數(shù)字人文的研究過程,包含若干功能模塊,模塊之間的相互作用構(gòu)成數(shù)字人文研究范式[8]。筆者認為在新研究范式的形成過程中,研究框架與研究基礎(chǔ)設施均必不可少,相較于研究基礎(chǔ)設施提供客觀的物理條件支撐,研究框架更從邏輯思維層面提供指導。
西北農(nóng)林科技大學張波教授對于農(nóng)史研究方法研究頗有心得,上世紀九十年代初就撰文從不同角度對農(nóng)史研究方法體系進行劃分,包括具體研究方法、基本研究方法以及哲學意義方法[9];后于2019年出版專著《農(nóng)史研究法》,對農(nóng)史學科理論、農(nóng)史研究方法進行了系統(tǒng)化闡述。比如:他提出農(nóng)史研究方法的主導思想應是科學的思維方法;研究方法類型包括文獻型研究、考古型研究及民族學調(diào)查研究等;具體研究方法又包括如何開展資料工作、選題謀篇及論著寫作等等。思維方法應是農(nóng)史認識層次的根本性方法,張波教授基于康德哲學的三個重要概念,提出農(nóng)史研究中存在感性——知性——理性的過程,是農(nóng)史最基本的思維方法[10]。感性認識方法是通過農(nóng)史資料建立農(nóng)史個別認識的科學方法;知性認識是通過全面的史料研究認識農(nóng)史過程的科學方法;理性認識是把握農(nóng)史本質(zhì)和農(nóng)史規(guī)律的科學方法。從感性到知性再到理性,包含了觀察、調(diào)查、比較、類比、歸納、演繹、分析、綜合、假說、系統(tǒng)化以及邏輯與歷史統(tǒng)一等哲學方法,這一循序漸進的認識過程體現(xiàn)出傳統(tǒng)農(nóng)史研究范式的內(nèi)在機理。而在數(shù)字人文研究領(lǐng)域,也有學者基于研究者的主體視角,提出相類似的方法論,如J. Unsworth將數(shù)字人文常用方法歸納為七大“學術(shù)原語”[11],具體為探索、注釋、比對、參考、取樣、闡釋和表達。不難看出,數(shù)字人文研究方法也是同樣遵循感性——知性——理性這樣的思維方式,當然相較于傳統(tǒng)方法,其優(yōu)勢是可對這一系列方法進行技術(shù)性層面的改進,比如擴大觀察資料對象的數(shù)量,從宏觀層面實現(xiàn)文本多維度可視化,達到“觀其大略,豁然貫通”的效果??傊瑪?shù)字人文研究的目標并不是要機器完全取代人,鄧小南教授也提出“研究不靠搜章摘句,真能充分利用數(shù)據(jù)庫優(yōu)勢而不被其限制的,首先是具備史學訓練基礎(chǔ)、具備清晰問題意識的學人”[2],要相對完美地實現(xiàn)“人機結(jié)合”,才會真正帶來研究范式上的革新。
本研究嘗試從領(lǐng)域?qū)W者的需求和研究視角出發(fā),將農(nóng)史研究思維方法與數(shù)字人文研究方法相結(jié)合,設計一個面向農(nóng)史領(lǐng)域的數(shù)字人文研究框架,如圖4所示。該框架主要包含感性認識、知性認識、理性認識等三個層次。接下來,結(jié)合方志物產(chǎn)知識庫來詳細闡述該研究框架的實現(xiàn)路徑。
圖4 面向農(nóng)史領(lǐng)域的數(shù)字人文研究框架
在感性認識層,領(lǐng)域?qū)W者可通過使用數(shù)字人文研究基礎(chǔ)設施中的平臺或工具來初步解決自己的研究需求,對研究目標、所需研究資料、研究方法、研究路徑等有一個大致的思路與方向。此處的研究需求包括兩種類型:“啟發(fā)式需求”與“問題式需求”?!皢l(fā)式需求”是指領(lǐng)域?qū)W者在選擇基礎(chǔ)設施之前并沒有提出明確的研究問題,而是需要通過使用基礎(chǔ)設施,通過獲取相關(guān)運算數(shù)據(jù)結(jié)果、可視化圖譜等,逐步地啟發(fā)學者明確其研究命題,進而發(fā)現(xiàn)可能存在的新史實或現(xiàn)象來重構(gòu)歷史認知與理論。有學者認為這是一種“數(shù)據(jù)驅(qū)動”下的側(cè)重于發(fā)現(xiàn)而非解釋的新研究范式[12]。“問題式需求”是指領(lǐng)域?qū)W者在展開數(shù)字人文研究之前對自己所要解決的一系列研究問題都非常明確,比如對提出的研究假設應如何開展實證研究都了然于心,即屬于傳統(tǒng)意義上“問題驅(qū)動”的研究范式。對于某些對數(shù)字人文研究有較為深刻理解與研究經(jīng)驗的領(lǐng)域?qū)W者而言,這兩種類型的研究需求往往可以合二為一,構(gòu)成一個“基于問題的數(shù)據(jù)型論證范式”[8],即先基于需求提出問題獲取相關(guān)數(shù)據(jù),受數(shù)據(jù)分析與計算結(jié)果啟發(fā)后,再利用人文學理進行闡釋發(fā)現(xiàn)新的知識。
確定研究需求后,領(lǐng)域?qū)W者基于數(shù)字人文研究基礎(chǔ)設施進入到下一階段研究活動,此處基礎(chǔ)設施包括領(lǐng)域知識庫系統(tǒng),可實現(xiàn)文本分析、統(tǒng)計與相關(guān)性分析、社會網(wǎng)絡分析、GIS分析等等功能的數(shù)字人文相關(guān)研究工具集等。在基礎(chǔ)設施中,可以通過檢索功能獲得相關(guān)數(shù)據(jù)資源,通過可視化功能多角度觀察數(shù)據(jù),通過工具集來比較、分析數(shù)據(jù)等,這些結(jié)果也為領(lǐng)域?qū)W者的“啟發(fā)式需求”或“問題式需求”提供感性認識。例如:領(lǐng)域?qū)W者提出“有關(guān)明清云南魚類物產(chǎn)分布情況”的問題式研究需求,可先基于方志物產(chǎn)知識庫系統(tǒng)進行物產(chǎn)知識檢索,通過關(guān)鍵字“魚”進行匹配獲得1,372條數(shù)據(jù);然后對不同種類的魚類物產(chǎn)進行觀察,獲取來源方志、來源其他古籍、《方志物產(chǎn)》描述內(nèi)容、其他古籍描述內(nèi)容、物產(chǎn)分類、物產(chǎn)記載地區(qū)、物產(chǎn)百科知識、物產(chǎn)時空分布等一系列內(nèi)容;基于上述內(nèi)容可進行同一物產(chǎn)的多方資料的比較,比如各種志書對同一物產(chǎn)知識書寫的差異,還可以基于GIS工具獲取物產(chǎn)的分布情況等。通過使用方志物產(chǎn)知識庫,學者對于來源資料、資料的量級、相關(guān)物產(chǎn)記載情況、物產(chǎn)的分布狀況有了一個初步的印象,并且在這過程中產(chǎn)生的大量數(shù)據(jù)集、數(shù)據(jù)分析的結(jié)果也可能會激發(fā)學者產(chǎn)生新的學術(shù)問題意識,進而形成有益的迭代式研究。
在知性認識層,領(lǐng)域?qū)W者需基于自身的人文學理素養(yǎng),對上一階段的研究進展進行總結(jié),對基于數(shù)字人文研究基礎(chǔ)設施獲得的研究素材進行判別篩選,對下一階段的研究步驟再進行規(guī)劃。首先,領(lǐng)域?qū)W者應先再審視自己最初的研究需求,有哪些需求是可通過基礎(chǔ)設施得以直接解決,哪些需求還未能解決。如果未解決,接下來打算通過何種方式解決,是繼續(xù)采用數(shù)字人文研究的方法,還是回歸傳統(tǒng)人文研究方法?如果繼續(xù)采用數(shù)字人文研究的方法,應該轉(zhuǎn)向選擇其他何種平臺、工具來解決研究需求。其次,若研究需求得以完全或某種程度上的解決,領(lǐng)域?qū)W者對于基礎(chǔ)設施提供的數(shù)據(jù)或基于相關(guān)分析模型與可視化工具得到的結(jié)果大致會存在兩種判斷:一是對其存疑,二是確定其真實有效。若存疑,基礎(chǔ)設施應提供相應線索以供領(lǐng)域?qū)W者進行考證,領(lǐng)域?qū)W者也可以借助其他線上或線下的平臺工具進行數(shù)據(jù)核驗,以此達到“去偽存真”的目的。如果學者認定基礎(chǔ)設施提供的數(shù)據(jù)或分析的結(jié)果是可信任的,則可直接從中獲取并生成相關(guān)格式的數(shù)據(jù)作為自己的研究素材。這類研究素材從知識類型的角度分為“事實型知識”與“計算型知識”,“事實型知識”包括各類實體知識如物產(chǎn)知識、人物知識、古籍知識等,以及一些通用型知識如地理經(jīng)緯度、中國歷史紀年等,這些知識大多直接來源于原始資料或是其他權(quán)威機構(gòu),其內(nèi)容一般較為精確,不易出錯;“計算型知識”是指通過數(shù)字人文研究基礎(chǔ)設施內(nèi)置的算法與模型,如量化分析、文本分析、GIS空間分析、社會網(wǎng)絡分析等進行計算處理而獲得的知識。一般而言,“計算型知識”的質(zhì)量取決于分析模型的構(gòu)建質(zhì)量,因此在模型建立之初開發(fā)人員就應與領(lǐng)域?qū)W者展開良好的互動,以學者的研究需求為導向進行構(gòu)建,這樣獲得的“計算型知識”才有可能受到領(lǐng)域?qū)W者的采信與青睞。總之,在數(shù)字人文研究框架的知性認識階段更強調(diào)資料獲取的全面性與精準性。
例如,領(lǐng)域?qū)W者通過方志物產(chǎn)知識庫系統(tǒng)獲取到明清時期云南地區(qū)魚類物產(chǎn)的相關(guān)數(shù)據(jù)以及數(shù)據(jù)分析結(jié)果后,可先判斷哪些內(nèi)容存疑,需要通過其他方式進行考證,方志物產(chǎn)知識庫的相關(guān)功能也為學者考證提供了諸多線索。如來源方志知識中包含詳細的所屬方志目錄信息、館藏信息等,與華東師范大學“數(shù)字方志集成平臺”(3)見網(wǎng)址:http://fangzhi.ecnu.edu.cn/。也進行了知識關(guān)聯(lián)與聚合,因此學者可以較為便捷地通過這些線索迅速獲取到原文資料進行對比、核查。再如物產(chǎn)知識不僅源于方志,還源于大量其他類型的古籍,我們將這些古籍與上海圖書館的“中文古籍聯(lián)合目錄及循證平臺”(4)見網(wǎng)址: https://gj.library.sh.cn/。中的古籍資料也進行了知識關(guān)聯(lián),可以獲取到相關(guān)古籍的多個版本信息以及藏錄信息,這也為領(lǐng)域?qū)W者后續(xù)基于文獻的史料考證提供便利。此外,方志物產(chǎn)知識庫還提供大量的“事實型知識”與“計算型知識”?!笆聦嵭椭R”包括方志記載的物產(chǎn)知識,鏈接到百度百科、維基百科、互動百科上的物產(chǎn)百科知識、人物相關(guān)知識、地名知識等等,這些知識大多來自原始資料如手抄本《方志物產(chǎn)》以及第三方機構(gòu)的網(wǎng)絡開放資源如“上海圖書館開放數(shù)據(jù)平臺”(5)見網(wǎng)址:http://data.library.sh.cn/。、“中國歷代人物傳記資料庫(CBDB)”(6)見網(wǎng)址:https://projects.iq.harvard.edu/chinesecbdb。等?!坝嬎阈椭R”包括基于地圖模型的物產(chǎn)時空展現(xiàn)、基于本體模型的各類實體如物產(chǎn)、方志、古籍等之間的關(guān)系呈現(xiàn)、通過SPARQL檢索得到的開放關(guān)聯(lián)數(shù)據(jù)集等等。如果領(lǐng)域?qū)W者認為這些知識的組織、加工、計算及產(chǎn)生過程是符合人文學理的,即可直接采用知識庫生成的各類型數(shù)據(jù)作為研究素材,如某種物產(chǎn)的分布地圖、RDF格式的關(guān)聯(lián)數(shù)據(jù)等;反之,若存疑則再基于各類線索進行考證。
理性認識層需要領(lǐng)域?qū)W者回歸學科的邏輯,采用歸納、演繹、綜合的方法將前階段獲取的相關(guān)資料、數(shù)據(jù),以及基于基礎(chǔ)設施計算后的結(jié)果進行系統(tǒng)化整理,透過現(xiàn)象究其本質(zhì),把握農(nóng)史研究的規(guī)律并最終以成果的形式對外發(fā)布。在這一階段,基于獲得的各類資源,領(lǐng)域?qū)W者需要結(jié)合其自身學科的學理進行思辨、類比,證明相關(guān)假設或發(fā)現(xiàn)新的知識并最終撰寫成文,這部分與傳統(tǒng)研究范式較為相似;但是數(shù)字人文研究的成果不應只是論文、專著等形式,相關(guān)研究數(shù)據(jù)、實驗方法、計算模型工具等都應同時公開,讓第三方可以還原研究結(jié)論的生成過程,即與自然科學實驗數(shù)據(jù)一樣可以被檢驗與評價,這點是有別于傳統(tǒng)人文學科研究范式的。數(shù)字人文研究屬于跨學科研究,需要多方學者共同參與協(xié)作完成,這與傳統(tǒng)人文學者“單打獨斗”的方式又不盡相同。打破傳統(tǒng)人文成果的評價與傳播體系,也是建立成熟數(shù)字人文研究框架的重要一環(huán),主要體現(xiàn)于兩個方面:一是傳統(tǒng)的評價機制或不能滿足多方面的利益需求,因此也無法有效地調(diào)動參與人員的積極性,健全數(shù)字人文研究成果的學術(shù)評價機制就顯得尤為重要;二是學科之間存在不可通約性,跨學科學者來自不同的科學共同體,其之間的交流不可避免地存在很多問題,相關(guān)部門或機構(gòu)應盡快推出相關(guān)業(yè)界標準來消除信息鴻溝。
目前,針對數(shù)字人文研究方面的論文,已有許多國內(nèi)外學術(shù)期刊要求作者需同步提交論文支撐數(shù)據(jù)。以筆者為例,之前曾以《方志物產(chǎn)》云南卷語料為基礎(chǔ),運用深度學習模型進行物產(chǎn)相關(guān)實體的自動識別實驗,后撰寫成文發(fā)表于相關(guān)期刊上,而實驗數(shù)據(jù)如“《方志物產(chǎn)》云南卷原始文本數(shù)據(jù)集”“深度學習模型訓練所用標注語料數(shù)據(jù)集”“深度學習十折測試結(jié)果數(shù)據(jù)集”等均需要提交并對外公開[13]??梢哉f,這樣的方式即是從學理與數(shù)據(jù)層面共同反映出數(shù)字人文研究框架中的“理性認識”。
本節(jié)運用上文設計的數(shù)字人文研究框架,并基于方志物產(chǎn)知識庫對“云南茶葉”這一主題進行探索性研究,來驗證該數(shù)字人文研究框架的可用性,同時也可展現(xiàn)方志物產(chǎn)知識庫作為數(shù)字人文研究基礎(chǔ)設施之于農(nóng)史研究的價值。
中國從發(fā)現(xiàn)茶至今已約有5000年的歷史。地處我國西南的云南具有得天獨厚的自然環(huán)境與悠久的種茶歷史。吳覺農(nóng)先生曾指出,中國西南區(qū)是世界茶樹的原產(chǎn)地,云南則是原產(chǎn)地的中心[14]。云南產(chǎn)茶歷史悠久,據(jù)傣文記載,早在1700多年前東漢時期已有茶葉栽培[15],民間稱茶為“武侯遺種”,至今西雙版納一帶仍沿襲著祭祀孔明的“茶組會”活動。正式文獻中出現(xiàn)記載始于唐代,樊綽《蠻書》中提到“茶出銀生城界諸山,散收無采造法,蒙舍蠻以椒、姜、桂和烹而飲之”,其中銀生城界諸山指位于西雙版納的六大茶山和無量山、哀牢山等產(chǎn)茶地區(qū)[16]。元代,云南茶葉的貿(mào)易開始擴展,李京在《云南志略》中記載金齒百夷“以氈、布、茶、鹽互相貿(mào)易”[17]。其后,各個時期云南地區(qū)經(jīng)濟作物均以茶葉為大宗,價值也最高。
鑒于茶葉在云南農(nóng)業(yè)歷史上的顯著地位,“云南茶葉”這一主題也是領(lǐng)域?qū)W者的研究熱點,傳統(tǒng)的研究方法主要還是基于歷史學、文獻學及考古學的方法,目前還鮮有學者基于數(shù)字人文視角對這一主題展開研究。接下來,本文嘗試通過數(shù)字人文研究框架對該主題的研究路徑進行設計。首先,領(lǐng)域?qū)W者需對“云南茶葉”主題研究有感性認識。這一階段的主要任務是明確研究需求,例如可通過研究基礎(chǔ)設施對相關(guān)關(guān)鍵詞進行檢索,此處的研究基礎(chǔ)設施為專題知識庫以及數(shù)字人文分析工具等,通過瀏覽基礎(chǔ)設施所提供的各種形態(tài)內(nèi)容(文獻、數(shù)據(jù)、可視化圖表等),將學者的“問題式需求”或“啟發(fā)式需求”逐漸轉(zhuǎn)化為清晰的研究命題。然后,在知性認識階段,學者需要掌握更為詳盡全面的各類資料,同時對基礎(chǔ)設施所提供的內(nèi)容進行甄別,對于存疑的內(nèi)容通過多方途徑進行考證,對于確認無誤的內(nèi)容可直將其接納入學者研究素材庫。最后,結(jié)合各類資料,進行歸納總結(jié),對“云南茶葉”相關(guān)研究命題形成理性認識并撰寫成文。
對于“云南茶葉”這一研究對象,假設用戶在使用方志物產(chǎn)知識庫之前,腦海中還未形成精準的研究議題,這時可先通過知識庫對其中相關(guān)內(nèi)容進行檢索,通過“遙讀”[18]與“近讀”[19]相結(jié)合的方式來觀察檢索結(jié)果,同時還可利用軟件工具進行初步的數(shù)據(jù)分析,在此過程中逐漸受到啟發(fā)明確自身的研究需求。
例如,在方志物產(chǎn)知識庫中,由于不確定研究需求,我們采用模糊查找的方式,以關(guān)鍵字“茶”進行搜索,一共得到510條物產(chǎn)記錄,意味著在《方志物產(chǎn)》云南卷及其他古籍中有510條物產(chǎn)名稱中含有“茶”這個字,如圖5所示;還可對這些物產(chǎn)進行詳細瀏覽,掌握《方志物產(chǎn)》及其他古籍對其的描述信息、分類信息以及地理位置信息等。圖6為《方志物產(chǎn)》云南卷第一卷明景泰六年《云南圖經(jīng)志書》中所載“感通茶”的物產(chǎn)知識展示頁,從中可獲取“感通茶”詞條在《方志物產(chǎn)》中的描述信息為“產(chǎn)于感通寺其味勝于他處所出者”,其中包含產(chǎn)地實體“感通寺”,物產(chǎn)分類標簽為“土產(chǎn)”,物產(chǎn)記載地區(qū)為“大理府”等。另外,還可發(fā)現(xiàn)在《滇略》《御定佩文齋廣群芳譜》《徐霞客游記·滇游日記八》《明一統(tǒng)志》《滇南雜記》等古籍中亦有“感通茶”的記錄,同時可獲取這些古籍對“感通茶”的描述信息,如《御定佩文齋廣群芳譜》中有載:“感通寺在點蒼山圣應峰麓,舊名蕩山,又名上山,有三十六院,皆產(chǎn)茶,樹高二丈,性味不減陽羨,名曰感通茶……”通過知識檢索與細致閱讀可對這些包含“茶”關(guān)鍵字的物產(chǎn)有初步印象。
圖5 關(guān)鍵字“茶”的搜索結(jié)果
圖6 “感通茶”物產(chǎn)知識展示頁面
對檢索的510條結(jié)果通過軟件工具進行二次統(tǒng)計與分析,可從更多角度來觀察云南“茶”。通過去重篩選共得到133條記錄,按照物產(chǎn)出現(xiàn)頻次進行統(tǒng)計,有88條“茶”相關(guān)物產(chǎn)只出現(xiàn)過1次,出現(xiàn)5次以上的見表1。出現(xiàn)頻率較高且相關(guān)的“茶”物產(chǎn)均可作為潛在的研究對象,例如雪茶、感通茶、太華茶、普洱茶等等。但是,由于采用了模糊檢索的方式,從中匹配出來的物產(chǎn)記錄并非都與“茶”相關(guān),有些則屬于花屬,如茶花、山茶花、白茶花等,這些物產(chǎn)數(shù)據(jù)需要清洗過濾掉。
表1 “茶”相關(guān)物產(chǎn)出現(xiàn)頻次(5次以上)
方志物產(chǎn)知識庫還提供基于GIS技術(shù)的物產(chǎn)時空展現(xiàn)功能,通過該功能可對各歷史時期云南茶葉種植情況進行分析。以明代為例,我們選擇“茶”物產(chǎn)作為研究對象,獲取其時空分布圖,如圖7所示,再結(jié)合明代各種方志以及其他古籍對“茶”物產(chǎn)的描述,可快速了解到:明代云南滇南茶產(chǎn)地主要有車里宣慰司地(今西雙版納地區(qū)),但產(chǎn)量不高,包括普洱茶;滇西茶產(chǎn)地主要有南甸州、灣甸州、金齒軍民指揮使司的保山及德宏地區(qū),其中滇西大理府感通寺所產(chǎn)感通茶較為知名,但價格也頗高;滇東地區(qū)主要集中于曲靖府、云南府、澂江府、廣西府和臨安府等地?;谠摲N方法,還可對清代、民國時期各地產(chǎn)茶情況進行“遙讀”,獲取更多感性層面的認識。
圖7 “茶”時空展現(xiàn)圖
此外,還有一些名稱上包含“茶”字,但或不屬于“茶葉”類的物產(chǎn),應該進一步觀察方志記載內(nèi)容再加以判別。這時可將同種物產(chǎn)進行聚類考察,獲得物產(chǎn)在不同時期不同來源方志的記載情況,動態(tài)獲取物產(chǎn)知識書寫的變化情況。例如“兒茶”究竟是否為一種茶葉?將知識庫中所有“兒茶”的記載內(nèi)容羅列出后,答案呼之欲出。“兒茶”聚類情況如表2所示。
從該表中可看出,方志物產(chǎn)知識庫中的“兒茶”最早始于清康熙四十一年(1702)的《永昌府志》,到民國二十二年(1933)的《車里》共有10條記錄??梢酝ㄟ^這些記錄中的物產(chǎn)分類以及物產(chǎn)描述信息來了解“兒茶”到底為何物。先從分類上來看,各志書編纂者給“兒茶”的分類標簽包括“物產(chǎn)、食貨屬、藥、制造品”;再從物產(chǎn)描述中可知其為“車里特產(chǎn)車人和檳榔嚼食并能治口齒諸病”,基于“藥”“治口齒諸病”等文本可以初步判斷兒茶并非茶葉,而有可能是一種中藥材。這也屬于數(shù)字人文研究框架中的感性認識階段,若要深入研究“兒茶”這一物產(chǎn),可以通過其他途徑搜集更多資料,進而邁入知性認識階段。比如查得有文獻記載:“兒茶又名鳥爹泥、鳥壘泥、孩兒茶……有關(guān)文獻中多記述原產(chǎn)于熱帶南洋諸國,少見有國內(nèi)出產(chǎn)的記載……云南的兒茶產(chǎn)于西雙版納傣族自治州,尤以勐罕產(chǎn)量最多?!瓋翰瓒嘤米魇諗縿静菥V目載有‘清上隔熱、化痰生津,涂金瘡一切諸癥,生肌定痛,止血收濕’等功效……”[20]。另外通過知識庫的知識聚合功能,可獲得“兒茶”的百科詞條數(shù)據(jù)。其中“百度百科”中的“兒茶”知識為:“兒茶,中藥名。為豆科植物兒茶Acacia catechu (L.f.)Willci.的去皮枝、干的干燥煎膏。冬季采收枝、干,除去外皮,砍成大塊,加水煎煮,濃縮,干燥。分布于云南南部地區(qū),海南有栽培。具有活血止痛,止血生肌,收濕斂瘡,清肺化痰的功效……”結(jié)合這些資料可以明確“兒茶”確屬于中藥材。
表2 物產(chǎn)“兒茶”來源方志記載情況
這些資料中提及“兒茶”的產(chǎn)地主要是在云南的南部地區(qū)西雙版納一帶,但是在方志物產(chǎn)知識庫中清代方志中記載“兒茶”出自“永昌府”(今保山市)、“龍陵縣”“車里縣”等,其時空展現(xiàn)如圖8所示,因此隨之而來會引發(fā)諸多疑問:為何現(xiàn)今資料不提永昌府、龍陵縣?“兒茶”原產(chǎn)熱帶南洋諸國,是先傳至永昌、龍陵還是車里宣慰司地?對于領(lǐng)域?qū)W者,這些疑惑有可能會形成一系列的研究靈感或啟發(fā),從而獲得新的研究命題。至此,下階段研究邁入至數(shù)字人文研究框架的知性認識層。
圖8 物產(chǎn)“兒茶”時空展現(xiàn)
當領(lǐng)域?qū)W者明確自己的研究需求后,可進一步借助方志物產(chǎn)知識庫,針對自己的詳細研究命題展開研究工作。知識庫可提供事實型知識與計算型知識供學者作為研究素材,如基于GIS的物產(chǎn)時空分布圖就是一種典型的計算型知識;同時知識庫還可為學者提供“考鏡源流”的線索,即通過關(guān)聯(lián)數(shù)據(jù)技術(shù)將本地方志、古籍關(guān)聯(lián)至其他機構(gòu)的開放知識源,方便學者一站式地進行二次檢索與知識的再發(fā)現(xiàn)。通過線上或線下的不斷考證,在廣泛獲取、累積了一定數(shù)量與質(zhì)量的研究素材之后,即可從知性認識進入理性認識層。在最后階段,領(lǐng)域?qū)W者需對相關(guān)農(nóng)史研究規(guī)律、資料進行全盤把握,開始撰寫、修改、發(fā)布其研究成果,并且通過外界的評價機制與交流反饋不斷完善其研究工作。
數(shù)字人文研究范式帶來的新科學革命依舊任重道遠,而“范式再構(gòu)與轉(zhuǎn)換”的過程難免產(chǎn)生新舊科學共同體之間的分歧與對立。因此,筆者認為數(shù)字人文研究的統(tǒng)一學術(shù)共同體構(gòu)建不應急于求成,不同學科均可在實踐中逐步摸索、探討符合自身學科屬性及發(fā)展的研究范式,可先各自構(gòu)建小學術(shù)共同體,從而達成“星星之火”之勢;另外,數(shù)字人文研究基礎(chǔ)設施與研究框架是研究范式創(chuàng)新的前置基礎(chǔ)條件,需學界花大力氣按學科領(lǐng)域進行建設與探討。作為面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設施的重要一環(huán),方志物產(chǎn)知識庫可為領(lǐng)域?qū)W者開展人文研究提供數(shù)據(jù)與工具,但是僅僅依靠數(shù)據(jù)與工具往往也不足以支撐起一項完整的學科主題研究活動,正如有學者曾深刻地指出“拋棄人性的歷史學沒有存在價值”[21],傳統(tǒng)人文研究過程中依然有大量的步驟是信息技術(shù)無法取代的。
本文提出的面向農(nóng)史領(lǐng)域的數(shù)字人文研究框架還有待未來開展更多的實證工作來加以驗證與完善,同時還應注意收集與整理領(lǐng)域?qū)W者的各類研究需求,以及在使用方志物產(chǎn)知識庫過程當中發(fā)現(xiàn)的各類問題。知識庫的構(gòu)建過程不是一蹴而就的,其功能與內(nèi)容均需要不斷迭代來滿足各種知識服務需求。在今后研究工作中,我們將繼續(xù)升級知識庫系統(tǒng),為領(lǐng)域?qū)W者提供用戶研究數(shù)據(jù)管理、研究專題服務、眾包編輯、智能史料考證等一系列功能;同時將全國范圍的物產(chǎn)資料錄入知識庫,通過文本分析、社會網(wǎng)絡分析、時空序列分析、可視化分析等數(shù)字人文研究常用方法發(fā)現(xiàn)隱含知識或新問題,再結(jié)合傳統(tǒng)歷史學、文獻學等研究方法進行多方面考證,進而開展一系列相關(guān)主題研究。將這些研究的方法、過程、結(jié)果及經(jīng)驗進行總結(jié)并反復論證,最終提出面向農(nóng)史領(lǐng)域的數(shù)字人文研究范式,推動農(nóng)史研究的不斷深化與發(fā)展。