張錦勝 林澤斐
摘要:[目的/意義]聯(lián)合挖掘與西南聯(lián)大有關的多部名人日記,構建融合多部文獻信息的西南聯(lián)大社會網(wǎng)絡圖譜,以期通過多日記聯(lián)合挖掘,發(fā)現(xiàn)更多的潛在社會關系,突破單日記社會網(wǎng)絡挖掘的局限性。[方法/過程]以1938—1941年間與西南聯(lián)大相關的多部日記為語料,利用Python程序統(tǒng)計人物共現(xiàn)關系,使用Gephi構建多日記社交網(wǎng)絡圖譜。通過社會網(wǎng)絡分析方法,對網(wǎng)絡拓撲特征、人物中心度特征以及基于模塊化和K-core的人物群體特征等進行分析和探討。[結果/結論]相較于獨立日記挖掘,多日記社會網(wǎng)絡聯(lián)合挖掘顯示出更明顯的網(wǎng)絡結構特征,更加去中心化,社會關系信息也更為豐富,可揭示出較為隱蔽的社交關系,在數(shù)字人文領域具有良好的應用價值。
關鍵詞:數(shù)字人文;社會網(wǎng)絡;文本挖掘;西南聯(lián)大
分類號:G254
引用格式:張錦勝, 林澤斐. 數(shù)字人文視角下多日記人物關系聯(lián)合挖掘及可視化研究: 以西南聯(lián)大相關日記為例[J/OL]. 知識管理論壇, 2022, 8(3): 171-182[引用日期]. http://www.kmf.ac.cn/p/342/.名人日記作為一種歷史文獻,較為真實地記錄了僅作者了解卻不為大眾所知的事務,并能夠間接反映特定時期社會、政治、經(jīng)濟、文化等方面的背景信息,具有很高的史料價值。與傳統(tǒng)的日記研究相比,數(shù)字人文視閾下的文本挖掘方法具有高效且直觀的優(yōu)勢,能夠從海量語料中快速構建人物社會網(wǎng)絡,其中蘊含的社會關系信息可與其他史料相互印證,甚至得到新的發(fā)現(xiàn)?,F(xiàn)有名人日記文本挖掘工作均基于獨立日記開展。相較于單日記文本挖掘,多日記聯(lián)合挖掘可以更好地揭示歷史時期的社交網(wǎng)絡結構和關鍵人物,有助于豐富歷史人物研究的廣度和深度。因此,多日記聯(lián)合挖掘在名人日記文本挖掘研究中具有重要的價值。
西南聯(lián)合大學(以下簡稱“西南聯(lián)大”)是抗日戰(zhàn)爭打響后,我國重要的高等教育機構,曾培養(yǎng)了一大批優(yōu)秀的思想家、科學家、文學家、實業(yè)家和社會活動家,被公認為中國高等教育歷史上一顆璀璨奪目的明珠。西南聯(lián)大的師生中不乏有記日記習慣的人士,這為深入探究西南聯(lián)大的發(fā)展歷程提供了可以相互佐證的參考。近年來,諸如《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《西南聯(lián)大求學日記》等相關日記相繼出版,為構建融合多日記的西南聯(lián)大社會網(wǎng)絡提供了條件。
基于此,本研究對與西南聯(lián)大相關的4部日記進行聯(lián)合挖掘,首次通過多日記聯(lián)合挖掘的方式構建面向歷史研究的較大規(guī)模的人物社會網(wǎng)絡,以人物關系為主要脈絡,發(fā)現(xiàn)并提煉西南聯(lián)大相關的多本日記中所蘊藏的知識,以期為數(shù)字人文視角下名人日記聯(lián)合開發(fā)工作提供參考借鑒。
1? 文獻回顧
目前,面向數(shù)字人文的文本挖掘工作主要涉及以下幾個領域:①作者歸屬與風格分析,相關研究多采用定量統(tǒng)計分析和計算機輔助技術,對作者在用詞、句式等方面的特點進行分析,以此來鑒定作者身份和風格特征[1-2];②作品情感分析,相關研究利用自然語言處理技術和情感分析方法,挖掘文學作品中的情感特征,從而自動分析文學作品的情感傾向性[3-5];③社會網(wǎng)絡分析與挖掘,相關研究多使用自然語言處理技術,從文學作品中抽取人物并構建社會網(wǎng)絡,以此來研究文學作品中的人物關系和社會結構特征[6-9];④面向人文文獻的基礎自然語言處理(Natural Language Processing, NLP)任務研究,相關研究主要針對古籍資料等人文文獻,利用傳統(tǒng)機器學習方法和深度學習方法對詞法分析[10-12]、命名實體識別[13-15]等基礎性NLP任務進行探索。
日記是一種私人記載形式,按照時間順序記錄了作者的親身經(jīng)歷以及作者對人、事、物的看法,歷來被認為具有直接史料的價值[16]。傳統(tǒng)日記研究主要涉及歷史學、檔案學、藝術學、軍事學等多個學科領域。例如,R. F. Grattan對英國陸軍元帥阿蘭布魯克勛爵的戰(zhàn)爭日記運用比較方法,利用軍事與管理理論得出一些關于如何提出成功戰(zhàn)略的結論[17];張詩洋對《張彭春日記》進行了深入研究,通過對該日記的分析和解讀,補充了中國早期話劇發(fā)展史以及張彭春本人戲劇思想的論據(jù)[18];吳景平則對《蔣介石日記》進行了詳細研究,從而印證了國民黨在抗戰(zhàn)初期對日的態(tài)度[19]。這些研究都以傳統(tǒng)人文研究方法發(fā)掘了日記所承載的歷史、文化和社會價值。
近年來,隨著數(shù)字人文研究熱度的不斷攀升,文本挖掘和社會網(wǎng)絡分析方法開始被應用于名人日記研究中,如T. Cserpes對18世紀匈牙利貴族S. Károlyi的日記文本進行社交網(wǎng)絡分析,闡釋匈牙利貴族的社交網(wǎng)絡如何與這一時期出現(xiàn)的新型社會地位相聯(lián)系[20];J. Zhou等使用LIWC古漢語詞典和CC-LIWC系統(tǒng)作為分析工具,量化分析曾國藩日記以探究其心理變化[21];宋雪雁、鐘文敏對《王世杰日記》和《譚延闿日記》的文本挖掘,較為系統(tǒng)地對日記所蘊含的社交網(wǎng)絡、地理位置、文本情感進行知識發(fā)現(xiàn)[22-24];黃紫荊等使用BERT(Bidirectional Encoder Representation from Transformers)模型對《拉貝日記》進行情感極性識別,揭示了南京大屠殺前后拉貝的情感分布特征[25]。
值得注意的是,目前針對名人日記的文本挖掘研究均基于獨立日記開展,而單一日記承載的信息量相對有限。相比于單一日記,具有相似社會背景的多部名人日記具有更大的信息量,且可以相互印證,從而具有更高的挖掘價值。因此,本研究將采用多文本聯(lián)合挖掘的方式,以西南聯(lián)大師生日記中的人物關系作為挖掘對象,借助文本挖掘技術對西南聯(lián)大師生的社會關系進行分析與可視化展示,以此對面向數(shù)字人文的多日記聯(lián)合挖掘方法予以探討。
2? 西南聯(lián)大日記社會網(wǎng)絡構建
2.1? 數(shù)據(jù)來源
西南聯(lián)大是中國抗日戰(zhàn)爭后由北京大學、清華大學、南開大學內遷設于昆明的一所綜合性大學。自1937年8月建立到1946年7月31日停止辦學,該校共存在了8年11個月。西南聯(lián)大保存了抗戰(zhàn)時期我國重要的科研力量,并培育了大量杰出的學生,其中不少人成為了世界一流的學者。
本研究以《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《朱自清日記》《西南聯(lián)大求學日記》4部名人日記作為語料開展研究,各日記的基本信息見表1。由于4部日記的起始年和終止年不盡相同,為控制時間的統(tǒng)一性,取各日記記載時間與1938—1943年的交集部分開展研究,這一時間跨度包含了西南聯(lián)大8年辦學時間中的6年,涉及日記文本共約90萬字。
4部日記都是作者對個人生活的日常記錄,具有鮮明的個人風格。其中,梅貽琦作為校務委員會主席,記錄較為簡潔;鄭天挺先生作為教務長,記錄的內容瑣碎且細致;朱自清教授語言十分干練簡白;許淵沖先生在學生時期更多地記錄讀書學習與日常生活,較為詳盡。4部日記分別以校長、總務長、教授、學生4個身份反映出西南聯(lián)大從創(chuàng)立之初到逐漸發(fā)展的過程。
2.2? 語料預處理
日記原文中對人物的記錄有著許多姓氏、字號、職位、身份、昵稱、學位等不同種類的省略及代稱。針對這些省略及代稱,本研究結合百科、日記注釋、檔案、歷史文獻等有關資料,通過對原文的研讀,查找、校對資料,建立人物姓名與在日記中稱謂的對照詞表,示例見表2,以該詞表為基準,通過文本編輯器查找、替換功能將原文中的各種指代稱謂替換為人物的正式姓名并逐一加以人工核對。
本研究使用基于Python的NLP工具包PaddleNLP[26]作為文本分詞工具。為提高人名分詞的準確性,通過設置自定義詞典,將日記出現(xiàn)的所有人名存放于詞典文件。根據(jù)分詞處理后所產生的詞性標簽,去除其他無關的詞匯,提取各句中帶有實質意義的人名詞匯。
2.3? 人物共現(xiàn)統(tǒng)計
為統(tǒng)計每一人名詞匯對在所有句子中的共現(xiàn)頻次,利用Python編程枚舉每個句子中共現(xiàn)人名詞匯對,然后將4部日記原文中所有句子中的相同人名詞匯對進行歸并統(tǒng)計。為了將分析重點聚焦于重要的高頻人物,本研究通過閾值限定參與人物共現(xiàn)分析的人名數(shù)量,閾值設定為各日記及各年份出現(xiàn)頻次最高的前200個人名詞匯對中所出現(xiàn)的人名。
經(jīng)過整理和統(tǒng)計,《梅貽琦西南聯(lián)大日記》得到118名人物與1 312對共現(xiàn)關系;《鄭天挺西南聯(lián)大日記》得到75名人物與6 718對共現(xiàn)關系;《朱自清日記》得到115名人物與1 040對共現(xiàn)關系;《西南聯(lián)大求學日記》得到88名人物與1 568對共現(xiàn)關系。四部日記綜合去重后最終得到317名人物和他們之間的10 638對共現(xiàn)關系。最后,分別將4部作品及綜合的人物共現(xiàn)關系轉換為CSV格式的Gephi鄰接表數(shù)據(jù)[27]。
2.4? 生成社會網(wǎng)絡
將處理過的CSV鄰接表,導入Gephi中,使用ForceAtlas 2算法[28]生成各獨立日記社會網(wǎng)絡圖譜以及融合各日記信息的社會網(wǎng)絡圖譜(以下簡稱“融合社會網(wǎng)絡”),見圖1和圖2。圖譜中,節(jié)點的大小反映人物的中心度大小,邊的粗細程度則反映出兩個相關人物的共現(xiàn)頻次。
本研究利用Gephi的網(wǎng)絡統(tǒng)計功能,進行網(wǎng)絡結構特征的計算。網(wǎng)絡直徑、網(wǎng)絡平均度、平均路徑長度等統(tǒng)計特征指標可以用來描述日記人物共現(xiàn)關系網(wǎng)絡的拓撲結構。對本研究構建的多篇日記人物共現(xiàn)關系網(wǎng)絡的特征指標進行計算,結果如表3所示:
與單獨日記社交網(wǎng)絡相比,融合社會網(wǎng)絡的規(guī)模較大,但是其網(wǎng)絡密度有所下降,這與社會網(wǎng)絡融合后人物數(shù)量增加,而4位日記作者的社交圈并非完全一致有關。根據(jù)網(wǎng)絡統(tǒng)計特征指標計算結果可以看出,獨立和融合社會網(wǎng)絡的平均聚類系數(shù)均較大,平均路徑長度較短,反映出典型的小世界特性[29],其中,融合社會網(wǎng)絡的網(wǎng)絡直徑為6,更接近真實世界社會網(wǎng)絡的六度分隔(six degrees of separation)現(xiàn)象。
模塊化指數(shù)(modularity index)為M. E. J. Newman和M. Girvan提出的社區(qū)劃分評估指標[30]。一般認為,模塊化指數(shù)大于0.3,即代表網(wǎng)絡具有較明顯的社區(qū)結構,真實世界社區(qū)的模塊化指數(shù)通常介于0.3—0.7之間[31]。本研究中利用Gephi劃分社群并計算了融合社會網(wǎng)絡的模塊化指數(shù),其指標為0.352,這意味著同時進行多篇日記聯(lián)合挖掘后,仍具有較為明顯的網(wǎng)絡社區(qū)結構。
根據(jù)生成的可視化圖譜和網(wǎng)絡結構特征,可以看出融合后的社會網(wǎng)絡相較于單日記社會網(wǎng)絡更加地去中心化,不僅保留了各日記自身的社會關系,還揭示出一些較為隱蔽的社交關系,網(wǎng)絡信息也更為豐富。
3? 西南聯(lián)大社會網(wǎng)絡關系挖掘
3.1? 網(wǎng)絡人物中心度分析
3.1.1? 融合社會網(wǎng)絡人物中心度分析
本研究統(tǒng)計了融合社會網(wǎng)絡中人物的中心度(degree centrality),排名前20位的人物見表4。通過表4可知,4部日記作者的中心度排名均為前列。鄭天挺作為西南聯(lián)大的總務長,既要負責外部關于西南聯(lián)大的發(fā)展事務,也要負責學校內部教授的教學活動安排以及本身負責的教學領域研究,與各個教授、同仁交流較多;梅貽琦作為西南聯(lián)大常務委員會的常委會主席,主抓西南聯(lián)大的各項工作[32];朱自清原是清華大學中文系主任,在西南聯(lián)大中與其他學校的中文系教授經(jīng)常交流,且因學科建設研究要求等要與校長、總務長、文學院同仁保持聯(lián)系;許淵沖是西南聯(lián)大首屆外語系學生,在社交網(wǎng)絡中,他與同齡人、外文語文系的老師頻繁交流。此外,還有樊際昌、蔣夢麟、楊振聲、羅常培、羅庸、陳雪屏、章廷謙、姚從吾、查良釗等或是西南聯(lián)大行政人員或是相關院系主要負責人,在人物共現(xiàn)圖中占不小的比例。結合他們在西南聯(lián)大的職務和身份,這一結果與西南聯(lián)大歷史事實相符。
3.1.2? 各年份網(wǎng)絡人物中心度變化分析
人物的社會關系在時間維度上具有一定的動態(tài)性,為分析不同年份西南聯(lián)大的社會關系,我們融合各單獨日記中的歷年日記文本,生成各年份的融合社會網(wǎng)絡。統(tǒng)計人物中心度信息后可以發(fā)現(xiàn),各年份融合社會網(wǎng)絡中核心人物中心度的變化,基本可以分為3類:①陳岱孫、查良釗、劉匡南、錢端升、吳瓊、魏建功、曾慕蠡等核心人物在日記人物共現(xiàn)關系網(wǎng)絡圖中有著空白年份,即在該年份,由于該人物共現(xiàn)頻次較低,未出現(xiàn)在所抽取的社會網(wǎng)絡中;②樊際昌、楊振聲、馮友蘭、陳福田、趙乃摶、萬兆鳳、羅庸等核心人物在日記人物共現(xiàn)網(wǎng)絡圖中有著某一年份中心度與其他年份差異較大或各年份的中心度變化明顯的現(xiàn)象;③羅常培、陳雪屏、章延謙、蔣夢麟等核心人物在日記人物共現(xiàn)關系網(wǎng)絡中一直有著很高的中心度地位且變化幅度很小。
針對以上3種類型的人物,筆者從核心人物中選取部分有代表性的人物,代表性核心人物名單及其中心度相對排名的變化情況見表5。
結合這些核心人物的生平及其在西南聯(lián)大與梅貽琦、鄭天挺、朱自清、許淵沖等日記作者或其他核心人物的交往過程進行分析,發(fā)現(xiàn)以上人物的中心度變化與歷史領域學者對西南聯(lián)大的許多研究成果相呼應。
在第一組中,劉匡南、吳瓊、曾慕蠡受許淵沖參軍入伍影響,中心度存在空白[33];陳岱孫是西南聯(lián)大經(jīng)濟系的教授;查良釗、錢端升都是1938年應邀擔任西南聯(lián)大師范學院教授,查良釗次年出任聯(lián)大訓導長,錢端升之后出任北大辦事處法學院院長,對應了查良釗與錢端升在人物共現(xiàn)網(wǎng)絡中的中心度提升[34];魏建功與鄭天挺原同為北京大學文學系教授, 1940年鄭天挺兼任西南聯(lián)大總務長事務繁忙,同年魏建功離職換崗,網(wǎng)絡中心度變化體現(xiàn)了其二人事業(yè)方向的不同選擇[35]。
在第二組中,樊際昌在社交網(wǎng)絡的中心度大幅下降是因為1943年國民政府令聯(lián)大開辦譯員訓練班,樊際昌擔任訓練班主任[36];楊振聲在1941年中心度的下降印證了西南聯(lián)大選派他任敘永分校校長的經(jīng)歷[34];馮友蘭、陳福田均為許淵沖上過課,授課期間人物中心度大幅提升[34];趙乃摶的社交網(wǎng)絡中心度在1943年驟降,印證了趙乃摶教授該年在譯員訓練班教學的經(jīng)歷[37];萬兆鳳與許淵沖聯(lián)系緊密,直至1942年和1943年,許淵沖入伍,忙于畢業(yè),其社交網(wǎng)絡中心度迅速下跌;羅庸與鄭天挺交流密切,至1940年鄭天挺任教務長交流驟減,1942年鄭天挺將中文系事務交予羅庸,社交網(wǎng)絡中心度的變化印證這一史實。
在第三組中,羅常培、陳雪屏、章延謙、蔣夢麟在社交網(wǎng)絡的中心度常年穩(wěn)定前列。羅常培是梅貽琦、鄭天挺的左膀右臂,三人關系相當緊密,且羅常培與朱自清同為西南聯(lián)大中文系教授[34];陳雪屏多次擔任西南聯(lián)大校務會議教授代表,曾任北京大學教育系代理主任,與鄭天挺、羅常培等人交流頻繁[38];章延謙曾任西南聯(lián)大常務委員辦公室秘書長,蔣夢麟歷任中華民國教育部長、北京大學校長、西南聯(lián)大常務委員會委員[34]。
3.2? 西南聯(lián)大日記的網(wǎng)絡人物社群分析
3.2.1? 基于模塊化的凝聚子群分解
調用Gephi統(tǒng)計設置中的Community Detection的模塊化方法,選擇節(jié)點—顏色—分割“Modularity Class”后不同社區(qū)有著不同的顏色,直觀地驗證了模塊化后的結果:從網(wǎng)絡整體出發(fā),不同顏色之間的位置相對分明,有4個較為明顯的社區(qū),存在明顯的人物社交群落,見圖3。其中的左側數(shù)字,為數(shù)據(jù)模塊化后,分配給各個社區(qū)的默認ID;右側則是每個社區(qū)節(jié)點數(shù)占全部節(jié)點數(shù)的比例,從大到小,依次排列。
從融合社會網(wǎng)絡圖譜(圖2)可以看出,西南聯(lián)大部分日記人物的共現(xiàn)關系有著鮮明的中心點,即4部日記的作者,因此該融合社交網(wǎng)絡圖譜有著明顯的群體區(qū)分。此外,每個群體又有著更細致的分類,還具有明顯的中心與外緣差別。所有人物都至少和4位中心人物有著關聯(lián),形成了復雜的社交網(wǎng)絡。位于群體中心的人物彼此聯(lián)系緊密,如:以梅貽琦、鄭天挺為首的西南聯(lián)大行政人員,掌握西南聯(lián)大的外部事務及內部事務;以朱自清、胡適、羅常培為核心人員的西南聯(lián)大中文系,進行頻繁的學術交流和生活社交;以許淵沖、林同端、萬兆鳳、劉匡南為主要人員的西南聯(lián)大學生,圍繞學習和生活,占據(jù)了一部分人物共現(xiàn)圖譜。而處于三大群體外的邊緣人物只存在極少的人物共現(xiàn)關聯(lián),在西南聯(lián)大影響力不足。
3.2.2? 基于 K-core 的人物群體過濾
采用K-core對各年份模塊化分解后的多篇日記社交網(wǎng)絡進行過濾,可以更清晰地挖掘核心群體的人物及其之間的共現(xiàn)關系。在前文各個年份社交網(wǎng)絡統(tǒng)計特征的基礎上,分別以K=3、4、5進行觀察,最后設置K=4為標準對1938—1943年各年份西南聯(lián)大日記社交網(wǎng)絡進行人物過濾,保留核心人物群體共現(xiàn)關系進行可視化展示,如圖4所示:
多篇日記人物K-core結構社交網(wǎng)絡中,相同顏色節(jié)點代表人物是相同群體,不同顏色的節(jié)點位置距離程度代表人物群體間的關聯(lián)密切程度。社交網(wǎng)絡人物間的共現(xiàn)關系由邊體現(xiàn),鏈接權重越大,邊越粗,意味著兩個人物的共現(xiàn)關聯(lián)越密切,聯(lián)系越頻繁。從整體趨勢上來看,共現(xiàn)網(wǎng)絡中人物節(jié)點受到力引導后能夠較為清晰地劃分為“學生”“教授”“行政人員”3類:“學生”部分人物多是與許淵沖相關聯(lián)的人物或為江西籍學生,或為外語系學生,或為外語系教授,涵蓋了許淵沖在西南聯(lián)大求學的生活;“教授”部分人物或為西南聯(lián)大同仁,或為朱自清的親人朋友;“行政人員”或為西南聯(lián)大常務委員、總務處、教務處和建設處等相關人員,或為政府行政人員。由上述分析可以看出,對不同年份的融合社會網(wǎng)絡進行K-core過濾,能夠較好地表現(xiàn)出各年份核心人物之間的社交關系變化。
3.2.3? 核心人物群體分析
社會網(wǎng)絡中的高中心度人物有較多的存留歷史檔案資料,通過分析這些資料,可以得出這些高中心度人物間的真實社會關系。本研究使用Gephi對各年份融合社會網(wǎng)絡進行社區(qū)劃分,得到各年份的人物類簇,最終選擇群體較大的人物類簇進行分析,見表6,并將各類簇中包含的核心人物(高中心度人物)與歷史資料相印證。
表6中每年都在核心群體中占比較大的人物如蔣夢麟、章延謙、羅常培、魏建功、羅庸等人均是西南聯(lián)大的教授或行政人員,與4位日記作者存在同事或師生關系[34,39]。例如,1942年群體1的繆云臺是梅貽琦的好友,1938年群體0中的邱椿、周作仁是鄭天挺的好友,1938年群體1的蕭乾和1941年群體1的葉圣陶、聞宥、呂叔湘是朱自清的好友,1941年群體9中的萬紹祖、趙家珍、曾慕蠡、黃有莘、張德基是許淵沖的同學好友[33,40-41]。1942年群體1的韓詠華、梅祖彥、梅祖彬是梅貽琦的妻兒,1943年群體0的鄭雯是鄭天挺的女兒,1938年群體1的周翕庭是朱自清的姐夫,林同端是許淵沖當時愛慕的女生[33]。1943年群體5的陳立夫和1942年群體1費子堅、馬光宸、張道藩、盧漢是國民政府下的軍官或政府人員。從上述史料可以看出,各類簇中包含的核心人物在真實歷史中具有明顯的集聚性,這表明對本研究構建的融合社會網(wǎng)絡進行社區(qū)聚類,可較為有效地反映出現(xiàn)實世界的人物社會關系。
此外,通過融合社會網(wǎng)絡,還可以發(fā)現(xiàn)傳統(tǒng)研究視角不易發(fā)現(xiàn)的隱蔽社群關系,例如結合圖2、表6和日記文本描述,可以較為直觀地挖掘出西南聯(lián)大橋牌社交網(wǎng)絡:梅貽琦曾與繆云臺、梅祖杉、蕭蘧、章耘夫等8人打過橋牌;鄭天挺曾與陳雪屏、羅常培、朱洪、周樹人、章耘夫、邵循正等12人打過橋牌;朱自清曾與吳晗、蕭蘧、陳岱孫、馮友蘭等19人打過橋牌;許淵沖曾與吳瓊、陳福田等25人打過橋牌。不難發(fā)現(xiàn)橋牌這一娛樂活動在西南聯(lián)大的師生中風靡一時,相關日記作者亦不例外:朱自清和吳晗、柳無忌、邵循正等十余人成立了橋牌俱樂部;許淵沖不僅平時和許多同學打橋牌,甚至和陳福田教授、聯(lián)大幾位助教都有過交手。與4位日記作者交手次數(shù)越多的人物,其在核心人物群體中的地位也越明顯,例如,陳福田、陳岱孫、陳雪屏、陳省身被譽為西南聯(lián)大橋牌名將“四陳”,1941年群體0社群就包含了聯(lián)大橋牌名將“四陳”中的兩位。顯然,小小的橋牌將西南聯(lián)大的眾多師生串聯(lián)了起來,其在當時西南聯(lián)大師生日常生活的重要性可見一斑。
4? 總結
本研究利用《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《朱自清日記》《西南聯(lián)大求學日記》等4部日記類書籍構建人物社會網(wǎng)絡,從多本非結構化的日記文本中抽取出結構化人物實體與共現(xiàn)關聯(lián)數(shù)據(jù)進行統(tǒng)計與量化分析,結合社會網(wǎng)絡分析方法,對網(wǎng)絡拓撲特征、人物中心性特征以及基于模塊化和K-core的人物群體特征等問題進行分析與討論,通過印證相關歷史研究進行分析。與獨立日記挖掘相比,多日記聯(lián)合挖掘可以得出更明顯的網(wǎng)絡結構特征和更全面的社交網(wǎng)絡可視化圖譜,更加地去中心化,信息也更為豐富,有助于發(fā)現(xiàn)傳統(tǒng)研究視角不易發(fā)現(xiàn)的隱蔽社交關系,從而對傳統(tǒng)研究做出有益補充。
本研究也存在著一定的不足之處。本研究僅基于梅貽琦、鄭天挺、朱自清、許淵沖4人的個人日記文本進行人物關系挖掘,師生關系、人員關系較為復雜,且該關系網(wǎng)絡中的人物關系結構并不一定能夠完全代表某一人物在當時西南聯(lián)大師生群體間的影響力。梅貽琦的日記與其他3部日記存在時間不重合的問題,鄭天挺和梅貽琦的日記原文存在一定的缺失,朱自清在日記中對人物共現(xiàn)情況的記錄較為簡略,1943年許淵沖在日記中的記錄也特別簡略,在一定程度上影響對人物共現(xiàn)原因的分析與判斷。本研究所抽取的人物,多為西南聯(lián)大文學院師生、西南聯(lián)大行政人物,僅能展現(xiàn)西南聯(lián)大局部師生關系、師師關系。此外,本研究所抽取的數(shù)據(jù)為局部時間段數(shù)據(jù),僅能展現(xiàn)西南聯(lián)大局部時間段之內的特定人物關系,更多、更豐富的人物關系的挖掘與呈現(xiàn),還需更長時段的數(shù)據(jù)與更多相關日記文本的充實。
參考文獻:
[1] 武曉春, 黃萱菁, 吳立德. 基于語義分析的作者身份識別方法研究[J]. 中文信息學報, 2006(6): 61-68.
[2] 年洪東, 陳小荷, 王東波. 現(xiàn)當代文學作品的作者身份識別研究[J]. 計算機工程與應用, 2010, 46(4): 226-229.
[3] LORD G, SMITH M N, KIRSCHENBUAM M G, et al. Exploring erotics in Emily Dickinsons correspondence with text mining and visual interfaces[C]// Proceedings of the 6th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, 2006:141-150.
[4] 邰沁清, 夏恩賞, 饒高琦, 等. 數(shù)字人文視角下的金庸文本挖掘研究[J]. 數(shù)字人文, 2020(4): 115-136.
[5] Yumpu.com. Seeking the sentimental in nineteenth century American fiction[EB/OL]. [2023-03-12]. https://www.yumpu.com/en/document/view/33692161/seeking-the-sentimental-in-nineteenth-century-american-fiction.
[6] MORETTI F. Network theory, plot analysis[J]. New left review, 2011(68): 80-102.
[7] 范文潔, 李忠凱, 黃水清. 基于社會網(wǎng)絡分析的《左傳》戰(zhàn)爭計量及可視化研究[J]. 圖書情報工作, 2020, 64(6): 90-99.
[8] 宋雪雁, 霍曉楠, 劉寅鵬, 等. 數(shù)字人文視角下《全唐詩》貶謫詩人社會關系研究[J]. 現(xiàn)代情報, 2022, 42(2): 14-21.
[9] REYNALDO. Analyzing social networks of XML plays: exploring Shakespeares genres - DH2018[EB/OL]. [2023-03-12]. https://dh2018.adho.org/en/analyzing-social-networks-of-xml-plays-exploring-shakespeares-genres/.
[10] 程寧, 李斌, 葛四嘉, 等. 基于BiLSTM-CRF的古漢語自動斷句與詞法分析一體化研究[J]. 中文信息學報, 2020, 34(4): 1-9.
[11] 程寧. 基于深度學習的古籍文本斷句與詞法分析一體化處理技術研究[D].南京:南京師范大學,2020.
[12] 李斌, 袁義國, 蘆靖雅, 等. 第一屆古代漢語分詞和詞性標注國際評測[J]. 中文信息學報, 2023, 37(3): 46-53.
[13] 于舒娟, 毛新濤, 張昀, 等. 基于詞典和字形特征的中文命名實體識別[J]. 中文信息學報, 2023, 37(3): 112-122.
[14] 劉瀏. 古漢語典籍中的實體知識挖掘研究[D].南京:南京大學,2018.
[15] 湯亞芬.先秦古漢語典籍中的人名自動識別研究[J].現(xiàn)代圖書情報技術,2013(S1):63-68.
[16] 齊世榮. 談日記的史料價值[J]. 首都師范大學學報(社會科學版), 2011(6): 1-15.
[17] GRATTAN R F. A study in comparative strategy using the Alanbrooke diaries[J]. Management decision, 2004, 42(8): 1024-1036.
[18] 張詩洋. 新發(fā)現(xiàn)張彭春日記的文獻價值考述[J]. 文獻, 2021(5): 73-88.
[19] 吳景平. 蔣介石與抗戰(zhàn)初期國民黨的對日和戰(zhàn)態(tài)度——以名人日記為中心的比較研究[J]. 抗日戰(zhàn)爭研究, 2010(2): 131-144.
[20] CSERPES T. Measuring identity change: analysing fragments from the diary of Sándor Károlyi with social-network analysis[J]. European review of history: revue européenne dhistoire, 2012, 19(5): 729-748.
[21] ZHOU J, ZHU T. Research on the psychology of historical figures based on big data analysis and data mining : taking Zeng Guofans diary as an example[C]// Proceedings of 3rd international academic exchange conference on science and technology innovation. Guangzhou: IAECST, 2021: 704-708.
[22] 宋雪雁, 崔浩男, 梁穎, 等. 數(shù)字人文視角下名人日記資源知識發(fā)現(xiàn)研究——以王世杰日記為例[J]. 情報理論與實踐, 2021, 44(6): 105-111.
[23] 宋雪雁, 鐘文敏. 數(shù)字人文視角下《譚延闿日記》人物關系挖掘及可視化研究[J]. 情報科學, 2022, 40(6): 25-35.
[24] 宋雪雁, 鐘文敏. 數(shù)字人文視域下《譚延闿日記》的地理位置挖掘與可視化研究[J]. 蘭臺世界, 2021(10): 33-38.
[25] 黃紫荊,邱玉倩,沈彤,等.數(shù)字人文視角下的《拉貝日記》情感識別與分析[J].圖書館論壇,2023,43(3):54-63.
[26] PaddleNLP Contributors. PaddleNLP: an easy-to-use and high performance NLP library[EB/OL]. [2023-03-01]. https://github.com/PaddlePaddle/PaddleNLP.
[27] Gephi. CSV Format[EB/OL]. [2023-03-02]. https://gephi.org/users/supported-graph-formats/csv-format.
[28] JACOMY M, VENTURINI T, HEYMANN S, et al. ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software[J]. Plos one, 2014, 9(6): e98679.
[29] WATTS D J, STROGATZ S H. Collective Dynamics of ‘small-world networks[J]. Nature, 1998, 393(6684): 440-442.
[30] NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical review E, 2004, 69(2): 026113.
[31] GREEN D G, LIU J, ABBASS H A. Dual-phase evolution[M]. New York: Springer, 2014: 3-40.
[32] 于正陽. 西南聯(lián)大梅貽琦治校理念及實踐研究:一個關系協(xié)調的視角[J]. 揚州大學學報(高教研究版), 2021, 25(3): 52-59.
[33] 許淵沖. 西南聯(lián)大求學日記[M]. 北京:中譯出版社, 2021.
[34] 北京大學. 國立西南聯(lián)合大學史料:教職員卷[M]. 昆明:云南教育出版社, 1998.
[35] 楊紹軍. 魏建功先生在西南聯(lián)大[J]. 學術探索, 2011(1): 2,145.
[36] 聞黎明. 關于西南聯(lián)合大學戰(zhàn)時從軍運動的考察[J]. 抗日戰(zhàn)爭研究, 2010(3): 5-18.
[37] 張友仁. 趙迺摶教授的生平和學術(下)[J]. 西安財經(jīng)學院學報, 2015, 28(2): 121-128.
[38] 劉火雄. 興觀群怨 詩史互證——鄭天挺西南聯(lián)大時期的詩詞交游及其學術活動考察[J]. 文藝評論, 2022(5): 17-25.
[39] 鄭天挺. 鄭天挺西南聯(lián)大日記[M]. 北京:中華書局, 2018.
[40] 吳衛(wèi)萍. 朱自清、葉圣陶的成都友誼[J]. 青年文學家, 2010(1): 24.
[41] 朱自清. 朱自清日記·上(1937-1941)[M]. 北京:石油工業(yè)出版社, 2018.
作者貢獻說明:
張錦勝:確定選題,提出研究思路,分析和處理數(shù)據(jù),撰寫論文,修改論文;
林澤斐:修改論文并定稿。
Joint Mining and Visualization of Character Relationships in Multiple Diaries from the Perspective of Digital Humanities——A Case Study of Diaries Related to Southwest Associated University
Zhang Jinsheng? Lin Zefei
College of Social Development, Fujian Normal University, Fuzhou 350117
Abstract: [Purpose/Significance] By jointly mining multiple diaries related to National South-west Associated University (NSAU), a social network graph of NSAU that integrates information from multiple sources is constructed. The aim is to discover more potential social relationships through joint mining of multiple diaries, and break through the limitations of single diary social network mining. [Method/Process] Using multiple diaries related to NSAU from 1938 to 1941 as corpus, Python program is used to count co-occurrence relationships of characters, and Gephi is used to construct multi-diary social network graph. Through social network analysis methods, the network topology features, character centrality features and character group features based on modularity and K-core are analyzed and discussed. [Result/Conclusion] Compared with independent diary mining, multi-diary social network joint mining showed more obvious network structure features, more decentralized and rich social relationship information, which can reveal more hidden social relationships, and has good application value in the field of digital humanities.
Keywords: digital humanities? ? social network? ? text mining? ? National South-west Associated University