樓向英
(浙江理工大學(xué)圖書館 杭州 310018)
據(jù)英文維基百科對(duì)Digital Humanities(數(shù)字人文)的解釋,數(shù)字人文可被定義為進(jìn)行學(xué)術(shù)研究的新方式,涉及協(xié)作、跨學(xué)科與計(jì)算參與的研究、教學(xué)和出版。它為人文學(xué)科的研究提供了數(shù)字工具和方法,印刷文字不再是知識(shí)生產(chǎn)和分配的主要媒介[1]。雖然學(xué)界對(duì)數(shù)字人文的定義有很多種,而且它的內(nèi)涵也在不斷發(fā)展,但我們可以把數(shù)字人文理解成一種研究方法[2],一種適應(yīng)時(shí)代大趨勢(shì)并把廣義的計(jì)算機(jī)技術(shù)應(yīng)用于人文領(lǐng)域的研究方法。數(shù)字人文技術(shù)體系主要包括數(shù)字化技術(shù)、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)分析技術(shù)、可視化技術(shù)、VR/AR技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等[3]。
近20年來,數(shù)字人文研究方法被廣泛應(yīng)用于語(yǔ)言、文學(xué)、歷史地理、圖書情報(bào)與檔案等學(xué)科領(lǐng)域。2021年7月中旬,筆者利用中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)高級(jí)檢索欄目,以“(篇關(guān)摘:家譜 + 宗譜 + 族譜 + 譜牒 + 家乘 + 玉牒)AND(篇關(guān)摘:數(shù)字人文)”這一比較寬泛的檢索式進(jìn)行檢索,檢索范圍為總庫(kù),時(shí)間不限,旨在相對(duì)查全數(shù)字人文視域下與家譜研究相關(guān)的文獻(xiàn),結(jié)果僅有12篇命中。究其原因,一方面在于數(shù)字人文在家譜的專門性研究中尚未普及,另一方面在于部分研究成果盡管沒有同時(shí)明確使用“數(shù)字人文”和“家譜”等概念,但其在實(shí)際研究中已運(yùn)用了知識(shí)圖譜等數(shù)字人文技術(shù)[4-12]。
筆者通過分析上述直接相關(guān)、間接相關(guān)的兩類研究文獻(xiàn),發(fā)現(xiàn)上海圖書館對(duì)數(shù)字人文在家譜研究領(lǐng)域的應(yīng)用做了大量工作,包括將館藏的家譜數(shù)字化[13],利用基于語(yǔ)義萬(wàn)維網(wǎng)的規(guī)范控制方法、基于知識(shí)本體的知識(shí)組織方法以及關(guān)聯(lián)數(shù)據(jù)技術(shù)、社會(huì)化網(wǎng)絡(luò)技術(shù)(SNS)、可視化技術(shù),實(shí)現(xiàn)面向知識(shí)發(fā)現(xiàn)的家譜數(shù)字人文服務(wù)[14-18],甚至將家譜納入集文獻(xiàn)庫(kù)和知識(shí)庫(kù)于一體的人文數(shù)據(jù)基礎(chǔ)設(shè)施中[19]。
此外,有學(xué)者嘗試將數(shù)字人文研究方法引入家譜研究。如許鑫、陸柳夢(mèng)[20]以家譜語(yǔ)料為基礎(chǔ),以毗陵莊氏家譜為實(shí)例,通過社會(huì)網(wǎng)絡(luò)分析法,提取出明清江南世家之間的姻婭關(guān)系,為數(shù)字人文在家譜研究中的應(yīng)用提供了一個(gè)新途徑。朱蘭蘭、薄田雅[21]從數(shù)字人文視角出發(fā),分析了利用數(shù)字人文技術(shù)手段(文本挖掘技術(shù)、可視化分析工具等)對(duì)家譜檔案資源進(jìn)行多元化開發(fā)的可行性。此類文獻(xiàn)數(shù)量不少,不一一贅述。
綜合分析以上兩類研究成果,筆者發(fā)現(xiàn)數(shù)字人文方法在家譜研究中的應(yīng)用已初現(xiàn)雛形,但絕大部分成果仍是將家譜作為一個(gè)整體來研究,尚未對(duì)世系即家譜內(nèi)容中最核心的人物給予足夠的重視。
大部分學(xué)者傾向于將家譜視為與國(guó)史、地方志并列的歷史文獻(xiàn)。近世以降的中國(guó)家譜一般包括該家族的來源及遷徙、世系傳承、名宦鄉(xiāng)賢、田產(chǎn)祠墓、族規(guī)家訓(xùn)等諸多內(nèi)容,其中世系主要記錄以男性為中心的家族血緣關(guān)系,往往是家譜內(nèi)容中最重要也是占比最大的部分。
筆者認(rèn)為,數(shù)字人文研究方法可以從根本上拓展當(dāng)前家譜研究與應(yīng)用的思路,包括但不限于家譜數(shù)據(jù)的獲取、標(biāo)注、分析與展現(xiàn)。把重要家譜的世系提取出來并建立人物數(shù)據(jù)庫(kù),可更有效地聚焦以世系為核心的家譜研究。例如,商業(yè)化的“ancestry.com”網(wǎng)站與美國(guó)猶他家譜學(xué)會(huì)的“family search.org”網(wǎng)站,被視為以人物為中心而非以文獻(xiàn)為中心的家譜平臺(tái);由上海圖書館建設(shè)的中國(guó)家譜知識(shí)服務(wù)平臺(tái)[22]也已將胡適、盛宣懷、李鴻章三位人物所屬家譜中的世系以可視化的形式析出。
在鄉(xiāng)村振興的新時(shí)代背景下,若加以科學(xué)引導(dǎo),舊譜新修仍可成為弘揚(yáng)傳統(tǒng)、增進(jìn)認(rèn)同、完善治理并激活地方創(chuàng)生的重要方式。而在新譜與舊譜之間,真正起橋梁作用的恰恰是人,也就是構(gòu)成家譜主體的世系部分。家譜作為歷史文獻(xiàn)是非常特殊的,中國(guó)人向來講究“修身、齊家、治國(guó)、平天下”,歷代流傳的優(yōu)良家教家風(fēng)和垂范百世的名人故事,將個(gè)體的修身處世與家庭責(zé)任、國(guó)家情懷緊密聯(lián)系在一起。傳統(tǒng)家譜會(huì)因?yàn)槭老抵刑峒暗娜宋锱c活在當(dāng)下的人有所聯(lián)系而重新獲得生機(jī),并由此給人們提供不斷尋根究底、追本溯源的可能性,這正是家譜世系的恒久意義所在。
中國(guó)國(guó)家圖書館珍藏的《仙源類譜》和《宗藩慶系錄》是目前僅存的兩種趙宋皇族寫本譜牒,其編修年代距今已超過800年,是迄今為止各大家譜目錄中所見傳世最早的譜牒文獻(xiàn)?!断稍搭愖V》按照不同世系,詳細(xì)記載了宋代宗室的官爵、功罪、生卒、子女甚至女婿等信息,內(nèi)容較《宗藩慶系錄》更為完備。因此,下文將主要以宋寫本《仙源類譜》為案例,嘗試結(jié)合數(shù)字人文方法與傳統(tǒng)家譜文獻(xiàn),探索以世系為核心的家譜研究與應(yīng)用的新路徑,以期更好地挖掘中國(guó)家譜資源的寶貴價(jià)值。
筆者利用在哈佛大學(xué)量化社會(huì)科學(xué)研究所訪學(xué)的機(jī)會(huì),與“中國(guó)歷代人物傳記資料庫(kù)”(下文簡(jiǎn)稱CBDB數(shù)據(jù)庫(kù))開展項(xiàng)目合作,致力于將《仙源類譜》記錄的趙宋宗子、宗女等信息納入該關(guān)系型歷史人物數(shù)據(jù)庫(kù)?!爸袊?guó)歷代人物傳記資料庫(kù)” 是由哈佛大學(xué)費(fèi)正清中國(guó)研究中心、北京大學(xué)中國(guó)古代史研究中心、臺(tái)灣相關(guān)研究機(jī)構(gòu)的歷史語(yǔ)言研究所共同主持的學(xué)術(shù)數(shù)據(jù)庫(kù),旨在系統(tǒng)收錄中國(guó)歷史上所有的人物傳記資料,將其整理為數(shù)據(jù),免費(fèi)供學(xué)術(shù)研究使用。
在中國(guó)國(guó)家圖書館早已完成《仙源類譜》文獻(xiàn)縮微的前提下,對(duì)宋寫本家譜進(jìn)行文本化是將其納入數(shù)據(jù)庫(kù)的第一步。
筆者通過手動(dòng)錄入和人工校對(duì),將類似圖1所示的家譜縮微膠片中的原文整理成文字。與此同時(shí),利用OCR識(shí)別軟件等工具和現(xiàn)有數(shù)字化資源,仔細(xì)比對(duì)《宋史·宗室世系表》等相關(guān)內(nèi)容來對(duì)《仙源類譜》進(jìn)行文本化處理。
圖1 中國(guó)國(guó)家圖書館藏《仙源類譜》縮微膠片示例
以趙世智次子趙令祈為例,其在《仙源類譜》中的完整信息經(jīng)文本化處理后具體如下:次令祈,至和三年七月二十三日生,賜名授太子右內(nèi)率府副率。該遇嘉祐八年三月二十九日英宗皇帝即位,轉(zhuǎn)太子右監(jiān)門率府率。該遇治平四年正月八日神宗皇帝即位,轉(zhuǎn)右千牛衛(wèi)將軍。累轉(zhuǎn)右監(jiān)門衛(wèi)大將軍,領(lǐng)榮州刺史。該遇元豐八年三月五日哲宗皇帝即位,轉(zhuǎn)右武衛(wèi)大將軍,領(lǐng)饒州團(tuán)練使。該大觀二年八寶赦,轉(zhuǎn)領(lǐng)永州防御使,改領(lǐng)文州。政和三年三月十一日卒,贈(zèng)保康軍節(jié)度觀察留后,追封房陵郡公,再贈(zèng)保寧軍節(jié)度使。
結(jié)合宋寫本《仙源類譜》與元修《宋史·宗室世系表》等文獻(xiàn)史料,我們可以清晰地了解趙令祈出自宋太祖趙匡胤長(zhǎng)子即燕王趙德昭一房,由此我們能夠進(jìn)一步還原自趙匡胤至趙令祈的完整傳承世系:趙匡胤—趙德昭—趙惟正—趙從讜—趙世智—趙令祈。趙令祈又生有子堅(jiān)、子惠、子薦、子舉、子韞、子傅、子昌、子榮諸子。
文本化工作完成之后,將文字內(nèi)容數(shù)據(jù)化是第二步。數(shù)據(jù)化在這里是指使文本內(nèi)容具有一定的數(shù)據(jù)結(jié)構(gòu),便于計(jì)算機(jī)的后續(xù)處理。根據(jù)中國(guó)歷代人物傳記資料庫(kù)的要求,數(shù)據(jù)化工作要盡可能多地提取出文本中的有效信息,如人名、生卒、職官、親屬婚姻等社會(huì)關(guān)系類型信息,并通過編程和正則表達(dá)式的應(yīng)用,將其整理成符合CBDB數(shù)據(jù)庫(kù)導(dǎo)入要求的Excel表格。
仍以趙令祈為例,數(shù)據(jù)化后,其信息在Excel表格中具體被導(dǎo)入多個(gè)子表。
子表“biogmain scratch”:此表給每一位人物賦予一個(gè)臨時(shí)ID(供過渡用,導(dǎo)入CBDB數(shù)據(jù)庫(kù)后將有專門的ID),趙令祈的臨時(shí)ID為13。
子表“biogmain”:此表是主表,包含人物的基本信息,如姓氏、名字、生年、卒年、所屬時(shí)代等。趙令祈在主表中的基本信息經(jīng)整理如圖2,利用年代轉(zhuǎn)化工具,將生年與卒年的年號(hào)紀(jì)年轉(zhuǎn)換為公元紀(jì)年。由此可知,趙令祈生于公元1056年,卒于公元1113年,享年58歲(此處按中國(guó)慣例計(jì)虛歲)。
圖2 數(shù)據(jù)化后趙令祈的基本信息
子表“kinship1 ”:此表提取人物關(guān)系,結(jié)果如圖3所示,證明趙世智與趙令祈的關(guān)系為父子。
圖3 數(shù)據(jù)化后趙令祈的父子信息
子表“kinship2”:此表提取人物關(guān)系,結(jié)果如圖4,顯示二人關(guān)系為子父。
圖4 數(shù)據(jù)化后趙令祈的子父信息
Entry:此表提取入仕途徑。趙令祈職官信息數(shù)據(jù)化后的結(jié)果參見圖5。
圖5 數(shù)據(jù)化后趙令祈的職官信息
這些數(shù)據(jù)化工作完成后,我們將所得信息與CBDB數(shù)據(jù)庫(kù)中已收錄的約2 500個(gè)宋代趙姓人物(由于一般趙宋宗室取名嚴(yán)格使用行輩聯(lián)名,故此處統(tǒng)計(jì)數(shù)據(jù)不含趙姓單名人數(shù))進(jìn)行比對(duì)查重,發(fā)現(xiàn)人物實(shí)際重復(fù)率較低。僅利用《仙源類譜》這一種宋寫本譜牒,至少可以增補(bǔ)1 056個(gè)CBDB 數(shù)據(jù)庫(kù)中尚未收錄的宋代人物,其中包括宗子 512人、宗女324人、 宗女婿220 人。
宋代皇族人口繁衍迅速,為避免子孫大量重名,他們習(xí)慣在取名時(shí)使用生僻字。因此,在譜牒的文本化過程中,不時(shí)會(huì)遇到無(wú)法常規(guī)輸入的字??紤]到后續(xù)數(shù)據(jù)化工作和CBDB數(shù)據(jù)庫(kù)的自身特點(diǎn),使用特殊造字法并不可行。為此,對(duì)無(wú)法常規(guī)輸入的字,已明確為異體字者,筆者原則上直接改用正字;無(wú)法明確是否為異體字者,則暫用最近似的字代替,并做好相應(yīng)標(biāo)記。
一定程度的失真是文本化過程中不得不承受的損失。同樣,數(shù)據(jù)化一方面是將重要信息精煉的過程,另一方面也是原文信息逐漸失真的過程。比如,為方便后續(xù)研究,原文中薨、亡、崩、卒等詞,數(shù)據(jù)化后一律作 “卒”處理。
另外,在進(jìn)行數(shù)據(jù)化工作的同時(shí),筆者也會(huì)對(duì)一些語(yǔ)義進(jìn)行明確。主要涉及以下兩種情況:一是原文中名字缺失或文字漫漶難識(shí)的宗子,其父子、兄弟關(guān)系明確者,通過核查《宋史·宗室世系表》,將人物信息補(bǔ)充完整。如趙令緝第五子的名字在宋寫本中闕如,在數(shù)據(jù)化過程中則通過史學(xué)考證確定為子。二是語(yǔ)義的顯性化。如原文“紹熙三年閏二月磨勘轉(zhuǎn)秉義郎,五年二月九日亡”,在數(shù)據(jù)化過程中則需要根據(jù)上下文將卒年明確為紹熙五年。又如“該遇郊祀大禮,紹熙三年閏二月復(fù)舊官”,應(yīng)聯(lián)系上下文,在數(shù)據(jù)化過程中將“舊官”明確為“右監(jiān)門衛(wèi)大將軍”。
這些實(shí)例生動(dòng)揭示了一點(diǎn):在譜牒文獻(xiàn)的文本化、數(shù)據(jù)化過程中,每向前推進(jìn)一步,都需要信息技術(shù)專家與人文學(xué)者的往復(fù)溝通、彼此合作。
完成宋寫本譜牒內(nèi)容的文本化、數(shù)據(jù)化后,最終將有技術(shù)人員把整體內(nèi)容導(dǎo)入CBDB數(shù)據(jù)庫(kù)。值得注意的是,該大型數(shù)據(jù)庫(kù)此前已收錄宋代人物約5萬(wàn)人,導(dǎo)入《仙源類譜》等皇族資料,不僅能夠擴(kuò)充同時(shí)代的歷史人物信息,而且也必將提升宋寫本譜牒的利用率與歷史價(jià)值。因?yàn)閮H《仙源類譜》和《宗藩慶系錄》所撬動(dòng)的關(guān)聯(lián)人物就或可達(dá)萬(wàn)人,這對(duì)于更全面地探討宋人社會(huì)網(wǎng)絡(luò)關(guān)系,分析趙宋皇族人口乃至社會(huì)上下流動(dòng)諸問題,都有積極意義。
當(dāng)然,宋寫本譜牒的內(nèi)容除了可以融入CBDB數(shù)據(jù)庫(kù),還可以整合到更為多元的大數(shù)據(jù)平臺(tái),如中國(guó)家譜知識(shí)服務(wù)平臺(tái)。在數(shù)字人文迅速發(fā)展的大背景下,印刷文字不再是知識(shí)生產(chǎn)和分配的主要媒介,理當(dāng)更積極地看待重要家譜的數(shù)字化和數(shù)據(jù)化,積極進(jìn)行內(nèi)容共享和傳播,而不是僅以秘笈善本等形式將其深藏不用。
CBDB數(shù)據(jù)庫(kù)是把人物有關(guān)信息進(jìn)行拆分后再納入的關(guān)系型數(shù)據(jù)庫(kù),它將《仙源類譜》涉及的人物納入了一個(gè)全球共享的廣闊平臺(tái),但這也容易導(dǎo)致趙宋宗室的人物信息湮沒在大數(shù)據(jù)海洋里。因此,融入CBDB數(shù)據(jù)庫(kù)僅是萬(wàn)里長(zhǎng)征的第一步,除了鼓勵(lì)數(shù)據(jù)融入、整合之外,如何通過聚焦家譜世系以凸顯人物的價(jià)值同樣十分重要。
就《仙源類譜》而言,聚焦世系將有助于對(duì)宋代皇族的人物關(guān)系進(jìn)行全面梳理與勘誤。例如,太祖皇帝下第六世《仙源類譜》卷一明確記載趙匡胤來孫趙令琯,嘉祐五年三月二十四日生,政和五年八月二十五日卒,贈(zèng)感德軍節(jié)度觀察留后,追封華原郡公。《宋史·宗室世系表》卻將趙令琯卒后的追贈(zèng)信息誤作“贈(zèng)感德軍節(jié)度使、華原郡公”[23]5663。又如,太祖皇帝下第七世《仙源類譜》卷二十二記載趙令渥長(zhǎng)子為右迪功郎趙子淇,但在《宋史·宗室世系表》中“子淇”名字作“子洱”[23]6015。元人編纂宋代“宗室世系表”時(shí),主要參照了原有的趙宋皇族譜牒資料,因此宋寫本《仙源類譜》作為第一手史料,其價(jià)值不言而喻。需要指出的是,盡管《仙源類譜》的數(shù)據(jù)化工作已經(jīng)完成,但囿于《宋史·宗室世系表》尚未實(shí)現(xiàn)科學(xué)有效的數(shù)據(jù)化,校對(duì)比勘工作仍不便利用計(jì)算機(jī)輔助進(jìn)行。此外,存世的《仙源類譜》所載多為趙匡胤、趙光義、趙廷美三兄弟下第六世、第七世子孫,而正史宗室世系表保存了共十三代、總數(shù)超過六萬(wàn)人的皇族人口數(shù)據(jù),要對(duì)后者加以系統(tǒng)整理,尚需要更多的歷史材料支撐。
若從更長(zhǎng)遠(yuǎn)的角度出發(fā),對(duì)宋代宗室世系的校勘還原工作仍然只是基礎(chǔ)。研究的遠(yuǎn)期目標(biāo),還應(yīng)是進(jìn)一步結(jié)合宋寫本譜牒、正史宗室世系表、宗室傳記、碑志(如北宋皇陵等出土的墓志銘、宋人文集中的皇族墓志銘)、登科錄宗子應(yīng)舉、地方志散見科舉、仕宦、人物事跡等多元化歷史文本信息,以及歷代不斷遞修的重要趙氏族譜等資料,利用知識(shí)圖譜、本體等技術(shù),建成開放共享的宋代皇族人物數(shù)據(jù)庫(kù)及趙氏家譜網(wǎng)。如近年浙江臺(tái)州黃巖考古新發(fā)現(xiàn)了趙匡胤七世孫趙伯澐夫婦墓,其中趙伯澐為妻子李氏撰寫的墓志銘提及了人物生卒年月日、下葬時(shí)間等具體細(xì)節(jié),與1993年重修的《黃巖西橋趙氏宗譜》中的記載竟完全吻合,足證中國(guó)家譜千百年來傳承有序,不宜因其民間性而輕易忽視。但要真正大規(guī)模開發(fā)家譜的價(jià)值,還是離不開數(shù)字人文技術(shù)與方法的支撐。
若想實(shí)現(xiàn)上述研究與應(yīng)用愿景,需要進(jìn)一步完善我國(guó)數(shù)字人文基礎(chǔ)設(shè)施,也需要聯(lián)合各方力量,如高校、科研院所、圖書館乃至各地各姓氏宗親會(huì)等共同參與??傊允老禐楹诵?,聚焦人物關(guān)系及姓氏群體的變遷,或不失為數(shù)字人文新趨勢(shì)下推進(jìn)家譜利用的可行路徑。
對(duì)于家譜而言,數(shù)字人文不僅是一種研究方法,其發(fā)展更多地是為了打破公眾和學(xué)術(shù)的壁壘、打破學(xué)術(shù)研究和普及應(yīng)用的壁壘。而聚焦世系、以人為本將會(huì)是家譜與數(shù)字人文相結(jié)合的入手點(diǎn)。
文章將宋代皇家譜牒《仙源類譜》融入CBDB數(shù)據(jù)庫(kù),嘗試聚焦《仙源類譜》的世系來進(jìn)一步凸顯家譜價(jià)值,以實(shí)踐的方式初步證實(shí)了從這一入手點(diǎn)開始研究的可行性。最終證明了數(shù)字人文將以需求為導(dǎo)向,將信息技術(shù)與需求相融合滲透到家譜研究與實(shí)際應(yīng)用的方方面面。