張錦勝 林澤斐
摘要:[目的/意義]聯(lián)合挖掘與西南聯(lián)大有關(guān)的多部名人日記,構(gòu)建融合多部文獻(xiàn)信息的西南聯(lián)大社會(huì)網(wǎng)絡(luò)圖譜,以期通過(guò)多日記聯(lián)合挖掘,發(fā)現(xiàn)更多的潛在社會(huì)關(guān)系,突破單日記社會(huì)網(wǎng)絡(luò)挖掘的局限性。[方法/過(guò)程]以1938—1941年間與西南聯(lián)大相關(guān)的多部日記為語(yǔ)料,利用Python程序統(tǒng)計(jì)人物共現(xiàn)關(guān)系,使用Gephi構(gòu)建多日記社交網(wǎng)絡(luò)圖譜。通過(guò)社會(huì)網(wǎng)絡(luò)分析方法,對(duì)網(wǎng)絡(luò)拓?fù)涮卣?、人物中心度特征以及基于模塊化和K-core的人物群體特征等進(jìn)行分析和探討。[結(jié)果/結(jié)論]相較于獨(dú)立日記挖掘,多日記社會(huì)網(wǎng)絡(luò)聯(lián)合挖掘顯示出更明顯的網(wǎng)絡(luò)結(jié)構(gòu)特征,更加去中心化,社會(huì)關(guān)系信息也更為豐富,可揭示出較為隱蔽的社交關(guān)系,在數(shù)字人文領(lǐng)域具有良好的應(yīng)用價(jià)值。
關(guān)鍵詞:數(shù)字人文;社會(huì)網(wǎng)絡(luò);文本挖掘;西南聯(lián)大
分類(lèi)號(hào):G254
引用格式:張錦勝, 林澤斐. 數(shù)字人文視角下多日記人物關(guān)系聯(lián)合挖掘及可視化研究: 以西南聯(lián)大相關(guān)日記為例[J/OL]. 知識(shí)管理論壇, 2022, 8(3): 171-182[引用日期]. http://www.kmf.ac.cn/p/342/.名人日記作為一種歷史文獻(xiàn),較為真實(shí)地記錄了僅作者了解卻不為大眾所知的事務(wù),并能夠間接反映特定時(shí)期社會(huì)、政治、經(jīng)濟(jì)、文化等方面的背景信息,具有很高的史料價(jià)值。與傳統(tǒng)的日記研究相比,數(shù)字人文視閾下的文本挖掘方法具有高效且直觀的優(yōu)勢(shì),能夠從海量語(yǔ)料中快速構(gòu)建人物社會(huì)網(wǎng)絡(luò),其中蘊(yùn)含的社會(huì)關(guān)系信息可與其他史料相互印證,甚至得到新的發(fā)現(xiàn)?,F(xiàn)有名人日記文本挖掘工作均基于獨(dú)立日記開(kāi)展。相較于單日記文本挖掘,多日記聯(lián)合挖掘可以更好地揭示歷史時(shí)期的社交網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)鍵人物,有助于豐富歷史人物研究的廣度和深度。因此,多日記聯(lián)合挖掘在名人日記文本挖掘研究中具有重要的價(jià)值。
西南聯(lián)合大學(xué)(以下簡(jiǎn)稱(chēng)“西南聯(lián)大”)是抗日戰(zhàn)爭(zhēng)打響后,我國(guó)重要的高等教育機(jī)構(gòu),曾培養(yǎng)了一大批優(yōu)秀的思想家、科學(xué)家、文學(xué)家、實(shí)業(yè)家和社會(huì)活動(dòng)家,被公認(rèn)為中國(guó)高等教育歷史上一顆璀璨奪目的明珠。西南聯(lián)大的師生中不乏有記日記習(xí)慣的人士,這為深入探究西南聯(lián)大的發(fā)展歷程提供了可以相互佐證的參考。近年來(lái),諸如《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《西南聯(lián)大求學(xué)日記》等相關(guān)日記相繼出版,為構(gòu)建融合多日記的西南聯(lián)大社會(huì)網(wǎng)絡(luò)提供了條件。
基于此,本研究對(duì)與西南聯(lián)大相關(guān)的4部日記進(jìn)行聯(lián)合挖掘,首次通過(guò)多日記聯(lián)合挖掘的方式構(gòu)建面向歷史研究的較大規(guī)模的人物社會(huì)網(wǎng)絡(luò),以人物關(guān)系為主要脈絡(luò),發(fā)現(xiàn)并提煉西南聯(lián)大相關(guān)的多本日記中所蘊(yùn)藏的知識(shí),以期為數(shù)字人文視角下名人日記聯(lián)合開(kāi)發(fā)工作提供參考借鑒。
1? 文獻(xiàn)回顧
目前,面向數(shù)字人文的文本挖掘工作主要涉及以下幾個(gè)領(lǐng)域:①作者歸屬與風(fēng)格分析,相關(guān)研究多采用定量統(tǒng)計(jì)分析和計(jì)算機(jī)輔助技術(shù),對(duì)作者在用詞、句式等方面的特點(diǎn)進(jìn)行分析,以此來(lái)鑒定作者身份和風(fēng)格特征[1-2];②作品情感分析,相關(guān)研究利用自然語(yǔ)言處理技術(shù)和情感分析方法,挖掘文學(xué)作品中的情感特征,從而自動(dòng)分析文學(xué)作品的情感傾向性[3-5];③社會(huì)網(wǎng)絡(luò)分析與挖掘,相關(guān)研究多使用自然語(yǔ)言處理技術(shù),從文學(xué)作品中抽取人物并構(gòu)建社會(huì)網(wǎng)絡(luò),以此來(lái)研究文學(xué)作品中的人物關(guān)系和社會(huì)結(jié)構(gòu)特征[6-9];④面向人文文獻(xiàn)的基礎(chǔ)自然語(yǔ)言處理(Natural Language Processing, NLP)任務(wù)研究,相關(guān)研究主要針對(duì)古籍資料等人文文獻(xiàn),利用傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法對(duì)詞法分析[10-12]、命名實(shí)體識(shí)別[13-15]等基礎(chǔ)性NLP任務(wù)進(jìn)行探索。
日記是一種私人記載形式,按照時(shí)間順序記錄了作者的親身經(jīng)歷以及作者對(duì)人、事、物的看法,歷來(lái)被認(rèn)為具有直接史料的價(jià)值[16]。傳統(tǒng)日記研究主要涉及歷史學(xué)、檔案學(xué)、藝術(shù)學(xué)、軍事學(xué)等多個(gè)學(xué)科領(lǐng)域。例如,R. F. Grattan對(duì)英國(guó)陸軍元帥阿蘭布魯克勛爵的戰(zhàn)爭(zhēng)日記運(yùn)用比較方法,利用軍事與管理理論得出一些關(guān)于如何提出成功戰(zhàn)略的結(jié)論[17];張?jiān)娧髮?duì)《張彭春日記》進(jìn)行了深入研究,通過(guò)對(duì)該日記的分析和解讀,補(bǔ)充了中國(guó)早期話劇發(fā)展史以及張彭春本人戲劇思想的論據(jù)[18];吳景平則對(duì)《蔣介石日記》進(jìn)行了詳細(xì)研究,從而印證了國(guó)民黨在抗戰(zhàn)初期對(duì)日的態(tài)度[19]。這些研究都以傳統(tǒng)人文研究方法發(fā)掘了日記所承載的歷史、文化和社會(huì)價(jià)值。
近年來(lái),隨著數(shù)字人文研究熱度的不斷攀升,文本挖掘和社會(huì)網(wǎng)絡(luò)分析方法開(kāi)始被應(yīng)用于名人日記研究中,如T. Cserpes對(duì)18世紀(jì)匈牙利貴族S. Károlyi的日記文本進(jìn)行社交網(wǎng)絡(luò)分析,闡釋匈牙利貴族的社交網(wǎng)絡(luò)如何與這一時(shí)期出現(xiàn)的新型社會(huì)地位相聯(lián)系[20];J. Zhou等使用LIWC古漢語(yǔ)詞典和CC-LIWC系統(tǒng)作為分析工具,量化分析曾國(guó)藩日記以探究其心理變化[21];宋雪雁、鐘文敏對(duì)《王世杰日記》和《譚延闿日記》的文本挖掘,較為系統(tǒng)地對(duì)日記所蘊(yùn)含的社交網(wǎng)絡(luò)、地理位置、文本情感進(jìn)行知識(shí)發(fā)現(xiàn)[22-24];黃紫荊等使用BERT(Bidirectional Encoder Representation from Transformers)模型對(duì)《拉貝日記》進(jìn)行情感極性識(shí)別,揭示了南京大屠殺前后拉貝的情感分布特征[25]。
值得注意的是,目前針對(duì)名人日記的文本挖掘研究均基于獨(dú)立日記開(kāi)展,而單一日記承載的信息量相對(duì)有限。相比于單一日記,具有相似社會(huì)背景的多部名人日記具有更大的信息量,且可以相互印證,從而具有更高的挖掘價(jià)值。因此,本研究將采用多文本聯(lián)合挖掘的方式,以西南聯(lián)大師生日記中的人物關(guān)系作為挖掘?qū)ο?,借助文本挖掘技術(shù)對(duì)西南聯(lián)大師生的社會(huì)關(guān)系進(jìn)行分析與可視化展示,以此對(duì)面向數(shù)字人文的多日記聯(lián)合挖掘方法予以探討。
2? 西南聯(lián)大日記社會(huì)網(wǎng)絡(luò)構(gòu)建
2.1? 數(shù)據(jù)來(lái)源
西南聯(lián)大是中國(guó)抗日戰(zhàn)爭(zhēng)后由北京大學(xué)、清華大學(xué)、南開(kāi)大學(xué)內(nèi)遷設(shè)于昆明的一所綜合性大學(xué)。自1937年8月建立到1946年7月31日停止辦學(xué),該校共存在了8年11個(gè)月。西南聯(lián)大保存了抗戰(zhàn)時(shí)期我國(guó)重要的科研力量,并培育了大量杰出的學(xué)生,其中不少人成為了世界一流的學(xué)者。
本研究以《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《朱自清日記》《西南聯(lián)大求學(xué)日記》4部名人日記作為語(yǔ)料開(kāi)展研究,各日記的基本信息見(jiàn)表1。由于4部日記的起始年和終止年不盡相同,為控制時(shí)間的統(tǒng)一性,取各日記記載時(shí)間與1938—1943年的交集部分開(kāi)展研究,這一時(shí)間跨度包含了西南聯(lián)大8年辦學(xué)時(shí)間中的6年,涉及日記文本共約90萬(wàn)字。
4部日記都是作者對(duì)個(gè)人生活的日常記錄,具有鮮明的個(gè)人風(fēng)格。其中,梅貽琦作為校務(wù)委員會(huì)主席,記錄較為簡(jiǎn)潔;鄭天挺先生作為教務(wù)長(zhǎng),記錄的內(nèi)容瑣碎且細(xì)致;朱自清教授語(yǔ)言十分干練簡(jiǎn)白;許淵沖先生在學(xué)生時(shí)期更多地記錄讀書(shū)學(xué)習(xí)與日常生活,較為詳盡。4部日記分別以校長(zhǎng)、總務(wù)長(zhǎng)、教授、學(xué)生4個(gè)身份反映出西南聯(lián)大從創(chuàng)立之初到逐漸發(fā)展的過(guò)程。
2.2? 語(yǔ)料預(yù)處理
日記原文中對(duì)人物的記錄有著許多姓氏、字號(hào)、職位、身份、昵稱(chēng)、學(xué)位等不同種類(lèi)的省略及代稱(chēng)。針對(duì)這些省略及代稱(chēng),本研究結(jié)合百科、日記注釋、檔案、歷史文獻(xiàn)等有關(guān)資料,通過(guò)對(duì)原文的研讀,查找、校對(duì)資料,建立人物姓名與在日記中稱(chēng)謂的對(duì)照詞表,示例見(jiàn)表2,以該詞表為基準(zhǔn),通過(guò)文本編輯器查找、替換功能將原文中的各種指代稱(chēng)謂替換為人物的正式姓名并逐一加以人工核對(duì)。
本研究使用基于Python的NLP工具包PaddleNLP[26]作為文本分詞工具。為提高人名分詞的準(zhǔn)確性,通過(guò)設(shè)置自定義詞典,將日記出現(xiàn)的所有人名存放于詞典文件。根據(jù)分詞處理后所產(chǎn)生的詞性標(biāo)簽,去除其他無(wú)關(guān)的詞匯,提取各句中帶有實(shí)質(zhì)意義的人名詞匯。
2.3? 人物共現(xiàn)統(tǒng)計(jì)
為統(tǒng)計(jì)每一人名詞匯對(duì)在所有句子中的共現(xiàn)頻次,利用Python編程枚舉每個(gè)句子中共現(xiàn)人名詞匯對(duì),然后將4部日記原文中所有句子中的相同人名詞匯對(duì)進(jìn)行歸并統(tǒng)計(jì)。為了將分析重點(diǎn)聚焦于重要的高頻人物,本研究通過(guò)閾值限定參與人物共現(xiàn)分析的人名數(shù)量,閾值設(shè)定為各日記及各年份出現(xiàn)頻次最高的前200個(gè)人名詞匯對(duì)中所出現(xiàn)的人名。
經(jīng)過(guò)整理和統(tǒng)計(jì),《梅貽琦西南聯(lián)大日記》得到118名人物與1 312對(duì)共現(xiàn)關(guān)系;《鄭天挺西南聯(lián)大日記》得到75名人物與6 718對(duì)共現(xiàn)關(guān)系;《朱自清日記》得到115名人物與1 040對(duì)共現(xiàn)關(guān)系;《西南聯(lián)大求學(xué)日記》得到88名人物與1 568對(duì)共現(xiàn)關(guān)系。四部日記綜合去重后最終得到317名人物和他們之間的10 638對(duì)共現(xiàn)關(guān)系。最后,分別將4部作品及綜合的人物共現(xiàn)關(guān)系轉(zhuǎn)換為CSV格式的Gephi鄰接表數(shù)據(jù)[27]。
2.4? 生成社會(huì)網(wǎng)絡(luò)
將處理過(guò)的CSV鄰接表,導(dǎo)入Gephi中,使用ForceAtlas 2算法[28]生成各獨(dú)立日記社會(huì)網(wǎng)絡(luò)圖譜以及融合各日記信息的社會(huì)網(wǎng)絡(luò)圖譜(以下簡(jiǎn)稱(chēng)“融合社會(huì)網(wǎng)絡(luò)”),見(jiàn)圖1和圖2。圖譜中,節(jié)點(diǎn)的大小反映人物的中心度大小,邊的粗細(xì)程度則反映出兩個(gè)相關(guān)人物的共現(xiàn)頻次。
本研究利用Gephi的網(wǎng)絡(luò)統(tǒng)計(jì)功能,進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)特征的計(jì)算。網(wǎng)絡(luò)直徑、網(wǎng)絡(luò)平均度、平均路徑長(zhǎng)度等統(tǒng)計(jì)特征指標(biāo)可以用來(lái)描述日記人物共現(xiàn)關(guān)系網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。對(duì)本研究構(gòu)建的多篇日記人物共現(xiàn)關(guān)系網(wǎng)絡(luò)的特征指標(biāo)進(jìn)行計(jì)算,結(jié)果如表3所示:
與單獨(dú)日記社交網(wǎng)絡(luò)相比,融合社會(huì)網(wǎng)絡(luò)的規(guī)模較大,但是其網(wǎng)絡(luò)密度有所下降,這與社會(huì)網(wǎng)絡(luò)融合后人物數(shù)量增加,而4位日記作者的社交圈并非完全一致有關(guān)。根據(jù)網(wǎng)絡(luò)統(tǒng)計(jì)特征指標(biāo)計(jì)算結(jié)果可以看出,獨(dú)立和融合社會(huì)網(wǎng)絡(luò)的平均聚類(lèi)系數(shù)均較大,平均路徑長(zhǎng)度較短,反映出典型的小世界特性[29],其中,融合社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)直徑為6,更接近真實(shí)世界社會(huì)網(wǎng)絡(luò)的六度分隔(six degrees of separation)現(xiàn)象。
模塊化指數(shù)(modularity index)為M. E. J. Newman和M. Girvan提出的社區(qū)劃分評(píng)估指標(biāo)[30]。一般認(rèn)為,模塊化指數(shù)大于0.3,即代表網(wǎng)絡(luò)具有較明顯的社區(qū)結(jié)構(gòu),真實(shí)世界社區(qū)的模塊化指數(shù)通常介于0.3—0.7之間[31]。本研究中利用Gephi劃分社群并計(jì)算了融合社會(huì)網(wǎng)絡(luò)的模塊化指數(shù),其指標(biāo)為0.352,這意味著同時(shí)進(jìn)行多篇日記聯(lián)合挖掘后,仍具有較為明顯的網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)。
根據(jù)生成的可視化圖譜和網(wǎng)絡(luò)結(jié)構(gòu)特征,可以看出融合后的社會(huì)網(wǎng)絡(luò)相較于單日記社會(huì)網(wǎng)絡(luò)更加地去中心化,不僅保留了各日記自身的社會(huì)關(guān)系,還揭示出一些較為隱蔽的社交關(guān)系,網(wǎng)絡(luò)信息也更為豐富。
3? 西南聯(lián)大社會(huì)網(wǎng)絡(luò)關(guān)系挖掘
3.1? 網(wǎng)絡(luò)人物中心度分析
3.1.1? 融合社會(huì)網(wǎng)絡(luò)人物中心度分析
本研究統(tǒng)計(jì)了融合社會(huì)網(wǎng)絡(luò)中人物的中心度(degree centrality),排名前20位的人物見(jiàn)表4。通過(guò)表4可知,4部日記作者的中心度排名均為前列。鄭天挺作為西南聯(lián)大的總務(wù)長(zhǎng),既要負(fù)責(zé)外部關(guān)于西南聯(lián)大的發(fā)展事務(wù),也要負(fù)責(zé)學(xué)校內(nèi)部教授的教學(xué)活動(dòng)安排以及本身負(fù)責(zé)的教學(xué)領(lǐng)域研究,與各個(gè)教授、同仁交流較多;梅貽琦作為西南聯(lián)大常務(wù)委員會(huì)的常委會(huì)主席,主抓西南聯(lián)大的各項(xiàng)工作[32];朱自清原是清華大學(xué)中文系主任,在西南聯(lián)大中與其他學(xué)校的中文系教授經(jīng)常交流,且因?qū)W科建設(shè)研究要求等要與校長(zhǎng)、總務(wù)長(zhǎng)、文學(xué)院同仁保持聯(lián)系;許淵沖是西南聯(lián)大首屆外語(yǔ)系學(xué)生,在社交網(wǎng)絡(luò)中,他與同齡人、外文語(yǔ)文系的老師頻繁交流。此外,還有樊際昌、蔣夢(mèng)麟、楊振聲、羅常培、羅庸、陳雪屏、章廷謙、姚從吾、查良釗等或是西南聯(lián)大行政人員或是相關(guān)院系主要負(fù)責(zé)人,在人物共現(xiàn)圖中占不小的比例。結(jié)合他們?cè)谖髂下?lián)大的職務(wù)和身份,這一結(jié)果與西南聯(lián)大歷史事實(shí)相符。
3.1.2? 各年份網(wǎng)絡(luò)人物中心度變化分析
人物的社會(huì)關(guān)系在時(shí)間維度上具有一定的動(dòng)態(tài)性,為分析不同年份西南聯(lián)大的社會(huì)關(guān)系,我們?nèi)诤细鲉为?dú)日記中的歷年日記文本,生成各年份的融合社會(huì)網(wǎng)絡(luò)。統(tǒng)計(jì)人物中心度信息后可以發(fā)現(xiàn),各年份融合社會(huì)網(wǎng)絡(luò)中核心人物中心度的變化,基本可以分為3類(lèi):①陳岱孫、查良釗、劉匡南、錢(qián)端升、吳瓊、魏建功、曾慕蠡等核心人物在日記人物共現(xiàn)關(guān)系網(wǎng)絡(luò)圖中有著空白年份,即在該年份,由于該人物共現(xiàn)頻次較低,未出現(xiàn)在所抽取的社會(huì)網(wǎng)絡(luò)中;②樊際昌、楊振聲、馮友蘭、陳福田、趙乃摶、萬(wàn)兆鳳、羅庸等核心人物在日記人物共現(xiàn)網(wǎng)絡(luò)圖中有著某一年份中心度與其他年份差異較大或各年份的中心度變化明顯的現(xiàn)象;③羅常培、陳雪屏、章延謙、蔣夢(mèng)麟等核心人物在日記人物共現(xiàn)關(guān)系網(wǎng)絡(luò)中一直有著很高的中心度地位且變化幅度很小。
針對(duì)以上3種類(lèi)型的人物,筆者從核心人物中選取部分有代表性的人物,代表性核心人物名單及其中心度相對(duì)排名的變化情況見(jiàn)表5。
結(jié)合這些核心人物的生平及其在西南聯(lián)大與梅貽琦、鄭天挺、朱自清、許淵沖等日記作者或其他核心人物的交往過(guò)程進(jìn)行分析,發(fā)現(xiàn)以上人物的中心度變化與歷史領(lǐng)域?qū)W者對(duì)西南聯(lián)大的許多研究成果相呼應(yīng)。
在第一組中,劉匡南、吳瓊、曾慕蠡受許淵沖參軍入伍影響,中心度存在空白[33];陳岱孫是西南聯(lián)大經(jīng)濟(jì)系的教授;查良釗、錢(qián)端升都是1938年應(yīng)邀擔(dān)任西南聯(lián)大師范學(xué)院教授,查良釗次年出任聯(lián)大訓(xùn)導(dǎo)長(zhǎng),錢(qián)端升之后出任北大辦事處法學(xué)院院長(zhǎng),對(duì)應(yīng)了查良釗與錢(qián)端升在人物共現(xiàn)網(wǎng)絡(luò)中的中心度提升[34];魏建功與鄭天挺原同為北京大學(xué)文學(xué)系教授, 1940年鄭天挺兼任西南聯(lián)大總務(wù)長(zhǎng)事務(wù)繁忙,同年魏建功離職換崗,網(wǎng)絡(luò)中心度變化體現(xiàn)了其二人事業(yè)方向的不同選擇[35]。
在第二組中,樊際昌在社交網(wǎng)絡(luò)的中心度大幅下降是因?yàn)?943年國(guó)民政府令聯(lián)大開(kāi)辦譯員訓(xùn)練班,樊際昌擔(dān)任訓(xùn)練班主任[36];楊振聲在1941年中心度的下降印證了西南聯(lián)大選派他任敘永分校校長(zhǎng)的經(jīng)歷[34];馮友蘭、陳福田均為許淵沖上過(guò)課,授課期間人物中心度大幅提升[34];趙乃摶的社交網(wǎng)絡(luò)中心度在1943年驟降,印證了趙乃摶教授該年在譯員訓(xùn)練班教學(xué)的經(jīng)歷[37];萬(wàn)兆鳳與許淵沖聯(lián)系緊密,直至1942年和1943年,許淵沖入伍,忙于畢業(yè),其社交網(wǎng)絡(luò)中心度迅速下跌;羅庸與鄭天挺交流密切,至1940年鄭天挺任教務(wù)長(zhǎng)交流驟減,1942年鄭天挺將中文系事務(wù)交予羅庸,社交網(wǎng)絡(luò)中心度的變化印證這一史實(shí)。
在第三組中,羅常培、陳雪屏、章延謙、蔣夢(mèng)麟在社交網(wǎng)絡(luò)的中心度常年穩(wěn)定前列。羅常培是梅貽琦、鄭天挺的左膀右臂,三人關(guān)系相當(dāng)緊密,且羅常培與朱自清同為西南聯(lián)大中文系教授[34];陳雪屏多次擔(dān)任西南聯(lián)大校務(wù)會(huì)議教授代表,曾任北京大學(xué)教育系代理主任,與鄭天挺、羅常培等人交流頻繁[38];章延謙曾任西南聯(lián)大常務(wù)委員辦公室秘書(shū)長(zhǎng),蔣夢(mèng)麟歷任中華民國(guó)教育部長(zhǎng)、北京大學(xué)校長(zhǎng)、西南聯(lián)大常務(wù)委員會(huì)委員[34]。
3.2? 西南聯(lián)大日記的網(wǎng)絡(luò)人物社群分析
3.2.1? 基于模塊化的凝聚子群分解
調(diào)用Gephi統(tǒng)計(jì)設(shè)置中的Community Detection的模塊化方法,選擇節(jié)點(diǎn)—顏色—分割“Modularity Class”后不同社區(qū)有著不同的顏色,直觀地驗(yàn)證了模塊化后的結(jié)果:從網(wǎng)絡(luò)整體出發(fā),不同顏色之間的位置相對(duì)分明,有4個(gè)較為明顯的社區(qū),存在明顯的人物社交群落,見(jiàn)圖3。其中的左側(cè)數(shù)字,為數(shù)據(jù)模塊化后,分配給各個(gè)社區(qū)的默認(rèn)ID;右側(cè)則是每個(gè)社區(qū)節(jié)點(diǎn)數(shù)占全部節(jié)點(diǎn)數(shù)的比例,從大到小,依次排列。
從融合社會(huì)網(wǎng)絡(luò)圖譜(圖2)可以看出,西南聯(lián)大部分日記人物的共現(xiàn)關(guān)系有著鮮明的中心點(diǎn),即4部日記的作者,因此該融合社交網(wǎng)絡(luò)圖譜有著明顯的群體區(qū)分。此外,每個(gè)群體又有著更細(xì)致的分類(lèi),還具有明顯的中心與外緣差別。所有人物都至少和4位中心人物有著關(guān)聯(lián),形成了復(fù)雜的社交網(wǎng)絡(luò)。位于群體中心的人物彼此聯(lián)系緊密,如:以梅貽琦、鄭天挺為首的西南聯(lián)大行政人員,掌握西南聯(lián)大的外部事務(wù)及內(nèi)部事務(wù);以朱自清、胡適、羅常培為核心人員的西南聯(lián)大中文系,進(jìn)行頻繁的學(xué)術(shù)交流和生活社交;以許淵沖、林同端、萬(wàn)兆鳳、劉匡南為主要人員的西南聯(lián)大學(xué)生,圍繞學(xué)習(xí)和生活,占據(jù)了一部分人物共現(xiàn)圖譜。而處于三大群體外的邊緣人物只存在極少的人物共現(xiàn)關(guān)聯(lián),在西南聯(lián)大影響力不足。
3.2.2? 基于 K-core 的人物群體過(guò)濾
采用K-core對(duì)各年份模塊化分解后的多篇日記社交網(wǎng)絡(luò)進(jìn)行過(guò)濾,可以更清晰地挖掘核心群體的人物及其之間的共現(xiàn)關(guān)系。在前文各個(gè)年份社交網(wǎng)絡(luò)統(tǒng)計(jì)特征的基礎(chǔ)上,分別以K=3、4、5進(jìn)行觀察,最后設(shè)置K=4為標(biāo)準(zhǔn)對(duì)1938—1943年各年份西南聯(lián)大日記社交網(wǎng)絡(luò)進(jìn)行人物過(guò)濾,保留核心人物群體共現(xiàn)關(guān)系進(jìn)行可視化展示,如圖4所示:
多篇日記人物K-core結(jié)構(gòu)社交網(wǎng)絡(luò)中,相同顏色節(jié)點(diǎn)代表人物是相同群體,不同顏色的節(jié)點(diǎn)位置距離程度代表人物群體間的關(guān)聯(lián)密切程度。社交網(wǎng)絡(luò)人物間的共現(xiàn)關(guān)系由邊體現(xiàn),鏈接權(quán)重越大,邊越粗,意味著兩個(gè)人物的共現(xiàn)關(guān)聯(lián)越密切,聯(lián)系越頻繁。從整體趨勢(shì)上來(lái)看,共現(xiàn)網(wǎng)絡(luò)中人物節(jié)點(diǎn)受到力引導(dǎo)后能夠較為清晰地劃分為“學(xué)生”“教授”“行政人員”3類(lèi):“學(xué)生”部分人物多是與許淵沖相關(guān)聯(lián)的人物或?yàn)榻骷畬W(xué)生,或?yàn)橥庹Z(yǔ)系學(xué)生,或?yàn)橥庹Z(yǔ)系教授,涵蓋了許淵沖在西南聯(lián)大求學(xué)的生活;“教授”部分人物或?yàn)槲髂下?lián)大同仁,或?yàn)橹熳郧宓挠H人朋友;“行政人員”或?yàn)槲髂下?lián)大常務(wù)委員、總務(wù)處、教務(wù)處和建設(shè)處等相關(guān)人員,或?yàn)檎姓藛T。由上述分析可以看出,對(duì)不同年份的融合社會(huì)網(wǎng)絡(luò)進(jìn)行K-core過(guò)濾,能夠較好地表現(xiàn)出各年份核心人物之間的社交關(guān)系變化。
3.2.3? 核心人物群體分析
社會(huì)網(wǎng)絡(luò)中的高中心度人物有較多的存留歷史檔案資料,通過(guò)分析這些資料,可以得出這些高中心度人物間的真實(shí)社會(huì)關(guān)系。本研究使用Gephi對(duì)各年份融合社會(huì)網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,得到各年份的人物類(lèi)簇,最終選擇群體較大的人物類(lèi)簇進(jìn)行分析,見(jiàn)表6,并將各類(lèi)簇中包含的核心人物(高中心度人物)與歷史資料相印證。
表6中每年都在核心群體中占比較大的人物如蔣夢(mèng)麟、章延謙、羅常培、魏建功、羅庸等人均是西南聯(lián)大的教授或行政人員,與4位日記作者存在同事或師生關(guān)系[34,39]。例如,1942年群體1的繆云臺(tái)是梅貽琦的好友,1938年群體0中的邱椿、周作仁是鄭天挺的好友,1938年群體1的蕭乾和1941年群體1的葉圣陶、聞宥、呂叔湘是朱自清的好友,1941年群體9中的萬(wàn)紹祖、趙家珍、曾慕蠡、黃有莘、張德基是許淵沖的同學(xué)好友[33,40-41]。1942年群體1的韓詠華、梅祖彥、梅祖彬是梅貽琦的妻兒,1943年群體0的鄭雯是鄭天挺的女兒,1938年群體1的周翕庭是朱自清的姐夫,林同端是許淵沖當(dāng)時(shí)愛(ài)慕的女生[33]。1943年群體5的陳立夫和1942年群體1費(fèi)子堅(jiān)、馬光宸、張道藩、盧漢是國(guó)民政府下的軍官或政府人員。從上述史料可以看出,各類(lèi)簇中包含的核心人物在真實(shí)歷史中具有明顯的集聚性,這表明對(duì)本研究構(gòu)建的融合社會(huì)網(wǎng)絡(luò)進(jìn)行社區(qū)聚類(lèi),可較為有效地反映出現(xiàn)實(shí)世界的人物社會(huì)關(guān)系。
此外,通過(guò)融合社會(huì)網(wǎng)絡(luò),還可以發(fā)現(xiàn)傳統(tǒng)研究視角不易發(fā)現(xiàn)的隱蔽社群關(guān)系,例如結(jié)合圖2、表6和日記文本描述,可以較為直觀地挖掘出西南聯(lián)大橋牌社交網(wǎng)絡(luò):梅貽琦曾與繆云臺(tái)、梅祖杉、蕭蘧、章耘夫等8人打過(guò)橋牌;鄭天挺曾與陳雪屏、羅常培、朱洪、周樹(shù)人、章耘夫、邵循正等12人打過(guò)橋牌;朱自清曾與吳晗、蕭蘧、陳岱孫、馮友蘭等19人打過(guò)橋牌;許淵沖曾與吳瓊、陳福田等25人打過(guò)橋牌。不難發(fā)現(xiàn)橋牌這一娛樂(lè)活動(dòng)在西南聯(lián)大的師生中風(fēng)靡一時(shí),相關(guān)日記作者亦不例外:朱自清和吳晗、柳無(wú)忌、邵循正等十余人成立了橋牌俱樂(lè)部;許淵沖不僅平時(shí)和許多同學(xué)打橋牌,甚至和陳福田教授、聯(lián)大幾位助教都有過(guò)交手。與4位日記作者交手次數(shù)越多的人物,其在核心人物群體中的地位也越明顯,例如,陳福田、陳岱孫、陳雪屏、陳省身被譽(yù)為西南聯(lián)大橋牌名將“四陳”,1941年群體0社群就包含了聯(lián)大橋牌名將“四陳”中的兩位。顯然,小小的橋牌將西南聯(lián)大的眾多師生串聯(lián)了起來(lái),其在當(dāng)時(shí)西南聯(lián)大師生日常生活的重要性可見(jiàn)一斑。
4? 總結(jié)
本研究利用《梅貽琦西南聯(lián)大日記》《鄭天挺西南聯(lián)大日記》《朱自清日記》《西南聯(lián)大求學(xué)日記》等4部日記類(lèi)書(shū)籍構(gòu)建人物社會(huì)網(wǎng)絡(luò),從多本非結(jié)構(gòu)化的日記文本中抽取出結(jié)構(gòu)化人物實(shí)體與共現(xiàn)關(guān)聯(lián)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與量化分析,結(jié)合社會(huì)網(wǎng)絡(luò)分析方法,對(duì)網(wǎng)絡(luò)拓?fù)涮卣?、人物中心性特征以及基于模塊化和K-core的人物群體特征等問(wèn)題進(jìn)行分析與討論,通過(guò)印證相關(guān)歷史研究進(jìn)行分析。與獨(dú)立日記挖掘相比,多日記聯(lián)合挖掘可以得出更明顯的網(wǎng)絡(luò)結(jié)構(gòu)特征和更全面的社交網(wǎng)絡(luò)可視化圖譜,更加地去中心化,信息也更為豐富,有助于發(fā)現(xiàn)傳統(tǒng)研究視角不易發(fā)現(xiàn)的隱蔽社交關(guān)系,從而對(duì)傳統(tǒng)研究做出有益補(bǔ)充。
本研究也存在著一定的不足之處。本研究?jī)H基于梅貽琦、鄭天挺、朱自清、許淵沖4人的個(gè)人日記文本進(jìn)行人物關(guān)系挖掘,師生關(guān)系、人員關(guān)系較為復(fù)雜,且該關(guān)系網(wǎng)絡(luò)中的人物關(guān)系結(jié)構(gòu)并不一定能夠完全代表某一人物在當(dāng)時(shí)西南聯(lián)大師生群體間的影響力。梅貽琦的日記與其他3部日記存在時(shí)間不重合的問(wèn)題,鄭天挺和梅貽琦的日記原文存在一定的缺失,朱自清在日記中對(duì)人物共現(xiàn)情況的記錄較為簡(jiǎn)略,1943年許淵沖在日記中的記錄也特別簡(jiǎn)略,在一定程度上影響對(duì)人物共現(xiàn)原因的分析與判斷。本研究所抽取的人物,多為西南聯(lián)大文學(xué)院師生、西南聯(lián)大行政人物,僅能展現(xiàn)西南聯(lián)大局部師生關(guān)系、師師關(guān)系。此外,本研究所抽取的數(shù)據(jù)為局部時(shí)間段數(shù)據(jù),僅能展現(xiàn)西南聯(lián)大局部時(shí)間段之內(nèi)的特定人物關(guān)系,更多、更豐富的人物關(guān)系的挖掘與呈現(xiàn),還需更長(zhǎng)時(shí)段的數(shù)據(jù)與更多相關(guān)日記文本的充實(shí)。
參考文獻(xiàn):
[1] 武曉春, 黃萱菁, 吳立德. 基于語(yǔ)義分析的作者身份識(shí)別方法研究[J]. 中文信息學(xué)報(bào), 2006(6): 61-68.
[2] 年洪東, 陳小荷, 王東波. 現(xiàn)當(dāng)代文學(xué)作品的作者身份識(shí)別研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(4): 226-229.
[3] LORD G, SMITH M N, KIRSCHENBUAM M G, et al. Exploring erotics in Emily Dickinsons correspondence with text mining and visual interfaces[C]// Proceedings of the 6th ACM/IEEE-CS joint conference on digital libraries. New York: ACM, 2006:141-150.
[4] 邰沁清, 夏恩賞, 饒高琦, 等. 數(shù)字人文視角下的金庸文本挖掘研究[J]. 數(shù)字人文, 2020(4): 115-136.
[5] Yumpu.com. Seeking the sentimental in nineteenth century American fiction[EB/OL]. [2023-03-12]. https://www.yumpu.com/en/document/view/33692161/seeking-the-sentimental-in-nineteenth-century-american-fiction.
[6] MORETTI F. Network theory, plot analysis[J]. New left review, 2011(68): 80-102.
[7] 范文潔, 李忠凱, 黃水清. 基于社會(huì)網(wǎng)絡(luò)分析的《左傳》戰(zhàn)爭(zhēng)計(jì)量及可視化研究[J]. 圖書(shū)情報(bào)工作, 2020, 64(6): 90-99.
[8] 宋雪雁, 霍曉楠, 劉寅鵬, 等. 數(shù)字人文視角下《全唐詩(shī)》貶謫詩(shī)人社會(huì)關(guān)系研究[J]. 現(xiàn)代情報(bào), 2022, 42(2): 14-21.
[9] REYNALDO. Analyzing social networks of XML plays: exploring Shakespeares genres - DH2018[EB/OL]. [2023-03-12]. https://dh2018.adho.org/en/analyzing-social-networks-of-xml-plays-exploring-shakespeares-genres/.
[10] 程寧, 李斌, 葛四嘉, 等. 基于BiLSTM-CRF的古漢語(yǔ)自動(dòng)斷句與詞法分析一體化研究[J]. 中文信息學(xué)報(bào), 2020, 34(4): 1-9.
[11] 程寧. 基于深度學(xué)習(xí)的古籍文本斷句與詞法分析一體化處理技術(shù)研究[D].南京:南京師范大學(xué),2020.
[12] 李斌, 袁義國(guó), 蘆靖雅, 等. 第一屆古代漢語(yǔ)分詞和詞性標(biāo)注國(guó)際評(píng)測(cè)[J]. 中文信息學(xué)報(bào), 2023, 37(3): 46-53.
[13] 于舒娟, 毛新濤, 張昀, 等. 基于詞典和字形特征的中文命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37(3): 112-122.
[14] 劉瀏. 古漢語(yǔ)典籍中的實(shí)體知識(shí)挖掘研究[D].南京:南京大學(xué),2018.
[15] 湯亞芬.先秦古漢語(yǔ)典籍中的人名自動(dòng)識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(S1):63-68.
[16] 齊世榮. 談日記的史料價(jià)值[J]. 首都師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2011(6): 1-15.
[17] GRATTAN R F. A study in comparative strategy using the Alanbrooke diaries[J]. Management decision, 2004, 42(8): 1024-1036.
[18] 張?jiān)娧? 新發(fā)現(xiàn)張彭春日記的文獻(xiàn)價(jià)值考述[J]. 文獻(xiàn), 2021(5): 73-88.
[19] 吳景平. 蔣介石與抗戰(zhàn)初期國(guó)民黨的對(duì)日和戰(zhàn)態(tài)度——以名人日記為中心的比較研究[J]. 抗日戰(zhàn)爭(zhēng)研究, 2010(2): 131-144.
[20] CSERPES T. Measuring identity change: analysing fragments from the diary of Sándor Károlyi with social-network analysis[J]. European review of history: revue européenne dhistoire, 2012, 19(5): 729-748.
[21] ZHOU J, ZHU T. Research on the psychology of historical figures based on big data analysis and data mining : taking Zeng Guofans diary as an example[C]// Proceedings of 3rd international academic exchange conference on science and technology innovation. Guangzhou: IAECST, 2021: 704-708.
[22] 宋雪雁, 崔浩男, 梁穎, 等. 數(shù)字人文視角下名人日記資源知識(shí)發(fā)現(xiàn)研究——以王世杰日記為例[J]. 情報(bào)理論與實(shí)踐, 2021, 44(6): 105-111.
[23] 宋雪雁, 鐘文敏. 數(shù)字人文視角下《譚延闿日記》人物關(guān)系挖掘及可視化研究[J]. 情報(bào)科學(xué), 2022, 40(6): 25-35.
[24] 宋雪雁, 鐘文敏. 數(shù)字人文視域下《譚延闿日記》的地理位置挖掘與可視化研究[J]. 蘭臺(tái)世界, 2021(10): 33-38.
[25] 黃紫荊,邱玉倩,沈彤,等.數(shù)字人文視角下的《拉貝日記》情感識(shí)別與分析[J].圖書(shū)館論壇,2023,43(3):54-63.
[26] PaddleNLP Contributors. PaddleNLP: an easy-to-use and high performance NLP library[EB/OL]. [2023-03-01]. https://github.com/PaddlePaddle/PaddleNLP.
[27] Gephi. CSV Format[EB/OL]. [2023-03-02]. https://gephi.org/users/supported-graph-formats/csv-format.
[28] JACOMY M, VENTURINI T, HEYMANN S, et al. ForceAtlas2, a continuous graph layout algorithm for handy network visualization designed for the Gephi software[J]. Plos one, 2014, 9(6): e98679.
[29] WATTS D J, STROGATZ S H. Collective Dynamics of ‘small-world networks[J]. Nature, 1998, 393(6684): 440-442.
[30] NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical review E, 2004, 69(2): 026113.
[31] GREEN D G, LIU J, ABBASS H A. Dual-phase evolution[M]. New York: Springer, 2014: 3-40.
[32] 于正陽(yáng). 西南聯(lián)大梅貽琦治校理念及實(shí)踐研究:一個(gè)關(guān)系協(xié)調(diào)的視角[J]. 揚(yáng)州大學(xué)學(xué)報(bào)(高教研究版), 2021, 25(3): 52-59.
[33] 許淵沖. 西南聯(lián)大求學(xué)日記[M]. 北京:中譯出版社, 2021.
[34] 北京大學(xué). 國(guó)立西南聯(lián)合大學(xué)史料:教職員卷[M]. 昆明:云南教育出版社, 1998.
[35] 楊紹軍. 魏建功先生在西南聯(lián)大[J]. 學(xué)術(shù)探索, 2011(1): 2,145.
[36] 聞黎明. 關(guān)于西南聯(lián)合大學(xué)戰(zhàn)時(shí)從軍運(yùn)動(dòng)的考察[J]. 抗日戰(zhàn)爭(zhēng)研究, 2010(3): 5-18.
[37] 張友仁. 趙迺摶教授的生平和學(xué)術(shù)(下)[J]. 西安財(cái)經(jīng)學(xué)院學(xué)報(bào), 2015, 28(2): 121-128.
[38] 劉火雄. 興觀群怨 詩(shī)史互證——鄭天挺西南聯(lián)大時(shí)期的詩(shī)詞交游及其學(xué)術(shù)活動(dòng)考察[J]. 文藝評(píng)論, 2022(5): 17-25.
[39] 鄭天挺. 鄭天挺西南聯(lián)大日記[M]. 北京:中華書(shū)局, 2018.
[40] 吳衛(wèi)萍. 朱自清、葉圣陶的成都友誼[J]. 青年文學(xué)家, 2010(1): 24.
[41] 朱自清. 朱自清日記·上(1937-1941)[M]. 北京:石油工業(yè)出版社, 2018.
作者貢獻(xiàn)說(shuō)明:
張錦勝:確定選題,提出研究思路,分析和處理數(shù)據(jù),撰寫(xiě)論文,修改論文;
林澤斐:修改論文并定稿。
Joint Mining and Visualization of Character Relationships in Multiple Diaries from the Perspective of Digital Humanities——A Case Study of Diaries Related to Southwest Associated University
Zhang Jinsheng? Lin Zefei
College of Social Development, Fujian Normal University, Fuzhou 350117
Abstract: [Purpose/Significance] By jointly mining multiple diaries related to National South-west Associated University (NSAU), a social network graph of NSAU that integrates information from multiple sources is constructed. The aim is to discover more potential social relationships through joint mining of multiple diaries, and break through the limitations of single diary social network mining. [Method/Process] Using multiple diaries related to NSAU from 1938 to 1941 as corpus, Python program is used to count co-occurrence relationships of characters, and Gephi is used to construct multi-diary social network graph. Through social network analysis methods, the network topology features, character centrality features and character group features based on modularity and K-core are analyzed and discussed. [Result/Conclusion] Compared with independent diary mining, multi-diary social network joint mining showed more obvious network structure features, more decentralized and rich social relationship information, which can reveal more hidden social relationships, and has good application value in the field of digital humanities.
Keywords: digital humanities? ? social network? ? text mining? ? National South-west Associated University