何琳 艾毓茜 劉建斌 彭秋茹
摘要:[目的/意義]數(shù)字遠(yuǎn)讀視角下分析歷史典籍,將特定時(shí)期社會(huì)通過(guò)可視化等綜合技術(shù)展現(xiàn)給研究者,以幫助研究者量化史學(xué)研究。[方法/過(guò)程]以社會(huì)發(fā)展過(guò)程中產(chǎn)生的文本數(shù)據(jù)為基礎(chǔ),借鑒用戶畫(huà)像概念,提出社會(huì)畫(huà)像的構(gòu)建方法。根據(jù)各發(fā)展分面內(nèi)在邏輯數(shù)據(jù)構(gòu)建社會(huì)畫(huà)像描述框架,利用多種文本挖掘技術(shù)抽取不同維度的特征標(biāo)簽,形成社會(huì)畫(huà)像,并以先秦時(shí)期為例進(jìn)行實(shí)證研究。[結(jié)果/結(jié)論]借助基于史實(shí)的社會(huì)畫(huà)像,能夠全景化呈現(xiàn)社會(huì)發(fā)展?fàn)顩r,可以為研究者快速獲得古代社會(huì)概貌提供支持,具有一定的實(shí)踐意義和價(jià)值。
關(guān)鍵詞:社會(huì)畫(huà)像;數(shù)字遠(yuǎn)讀;用戶畫(huà)像;文本挖掘;社會(huì)發(fā)展
DOI:10.3969/j.issn.1008-0821.2022.07.002
〔中圖分類號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2022)07-0022-09
Research on Construction Methods of Social Portraits on Digital HumanitiesHe LinAi YuxiLiu JianbinPeng Qiuru
(1.College of Information Management,Nanjing Agricultural University,Nanjing 210095,China;
2.Center for Humanity and Social Computation,Nanjing Agricultural University,Nanjing 210095,China)
Abstract:[Purpose/Significance]It is helpful to analyze historical classics from the perspective of distant reading by using visualization and other comprehensive technologies to show the society of a specific period to help researchers quantify historical research.[Method/Process]Drawing on the concept of user portraits,this article proposed a method for constructing social portraits based on the text data generated in the process of social development.The social portrait description framework was constructed based on the internal logic data of each social development facet,and used a variety of text mining techniques to extract feature labels of different dimensions to describe the social portrait,and took the pre-Qin period as an example for empirical research.[Results/Conclusion]With the help of social portraits based on historical facts,the social development situation can be presented in a panoramic way,which can provide support for researchers to quickly obtain an overview of the ancient society.
Key words:social portrait;distant reading;user portrait;text mining;social development
2010年,莫萊蒂引入遠(yuǎn)讀概念將數(shù)字技術(shù)應(yīng)用于人文學(xué)科,形成跨學(xué)科的數(shù)字人文研究[1]。在沒(méi)有理論假設(shè)的前提下,文本內(nèi)容挖掘及可視化分析利用數(shù)據(jù)挖掘、文本聚類、分類等方法,可以從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí),尋找隱藏在數(shù)據(jù)中的模式、趨勢(shì)和相關(guān)性,揭示事物現(xiàn)象和發(fā)展規(guī)律,是對(duì)數(shù)字人文的可視化展示,為數(shù)字文本提供全局圖景,可以很好地應(yīng)用于史實(shí)的研究[2]。但目前的研究多集中于對(duì)大規(guī)模歷史資料進(jìn)行單一領(lǐng)域的定量分析,如歷史地理信息可視化[3]、領(lǐng)域知識(shí)組織[4]、社會(huì)網(wǎng)絡(luò)分析[5]和主題挖掘[6]等。而日益蓬勃發(fā)展的用戶畫(huà)像技術(shù),以大量具有時(shí)效性的真實(shí)用戶數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),抽取其中的屬性、行為等特征形成用戶模型,具有全面性、時(shí)效性、真實(shí)性、動(dòng)態(tài)性以及代表性等特征[7]。畫(huà)像技術(shù)有助于在數(shù)字遠(yuǎn)讀處理中,進(jìn)一步細(xì)分分析的顆粒度。
用戶畫(huà)像技術(shù)及數(shù)字遠(yuǎn)讀技術(shù)的蓬勃發(fā)展,為文本進(jìn)行多維度社會(huì)畫(huà)像分析提供了堅(jiān)實(shí)的技術(shù)基礎(chǔ),本文嘗試面向典籍,基于文本挖掘視角試圖為研究者提供不同歷史時(shí)期社會(huì)的“放大鏡”。借鑒用戶畫(huà)像概念,本文采用“社會(huì)畫(huà)像”一詞,借以描述從文本角度構(gòu)建的不同歷史時(shí)期多維度的社會(huì)畫(huà)像描述框架,然后結(jié)合歷史中的相關(guān)人物、事件、物體等數(shù)據(jù),建立古代社會(huì)畫(huà)像標(biāo)簽體系,利用定性與定量相結(jié)合的方法,從不同角度、不同層面對(duì)古代社會(huì)進(jìn)行分析展示,試圖形成當(dāng)時(shí)的社會(huì)畫(huà)像。以先秦時(shí)期為例進(jìn)行實(shí)證研究,結(jié)果表明,本文提出的社會(huì)畫(huà)像構(gòu)建技術(shù),能夠有效形成面向文本的社會(huì)概貌描述,對(duì)于提升大規(guī)模文本的快速有效分析具有一定的實(shí)踐意義和價(jià)值。5E9B229B-E087-48AE-95C9-8A895CDF36E6
1相關(guān)研究
1.1用戶畫(huà)像
用戶畫(huà)像研究最初由交互設(shè)計(jì)之父Cooper A[8]提出,他認(rèn)為用戶畫(huà)像是“基于用戶真實(shí)數(shù)據(jù)的虛擬代表”。用戶畫(huà)像根據(jù)用戶信息來(lái)提取典型的用戶特征,如用戶的基本屬性特征、行為特征、社交特征等[9]。在基于VSM的用戶畫(huà)像研究中,研究者用加權(quán)的VSM模型來(lái)表示用戶畫(huà)像,VSM模型主要用于關(guān)鍵詞的獲取和賦權(quán),通過(guò)獲取用戶行為數(shù)據(jù)、內(nèi)容數(shù)據(jù)、互動(dòng)數(shù)據(jù)和情景數(shù)據(jù)等使用數(shù)據(jù)[10],從中抽取關(guān)鍵詞構(gòu)成用戶畫(huà)像的標(biāo)簽數(shù)據(jù),常使用布爾值、詞頻或詞頻—逆文檔頻率用以賦權(quán)值。其核心思想是將文本看作一個(gè)詞袋模型,用向量集合來(lái)表示文檔,每個(gè)向量由特征詞與權(quán)值組成,權(quán)值反映特征詞對(duì)表示文本的重要程度。用戶被表示為從用戶使用數(shù)據(jù)中抽取的關(guān)鍵詞及相應(yīng)權(quán)重組成的向量,通過(guò)計(jì)算歐幾里得距離、曼哈頓距離、閔科夫斯基距離、余弦距離來(lái)測(cè)量用戶間的相似度[11-13]。
用戶畫(huà)像的標(biāo)簽數(shù)據(jù)主要有兩種來(lái)源,一種是通過(guò)人工添加標(biāo)簽,因其需要大量的人力物力,較少被使用;另一種是對(duì)大量文本語(yǔ)料進(jìn)行文本挖掘抽取特征詞進(jìn)行標(biāo)簽表示。文本挖掘技術(shù)多用于用戶畫(huà)像的標(biāo)簽數(shù)據(jù)獲取,如圖書(shū)館基于知識(shí)挖掘的智慧推薦服務(wù)[14]。大多數(shù)用戶畫(huà)像的標(biāo)簽數(shù)據(jù)通過(guò)對(duì)用戶使用數(shù)據(jù)進(jìn)行關(guān)鍵詞抽取,挖掘相關(guān)信息的屬性特征,如從數(shù)字圖書(shū)館使用數(shù)據(jù)中獲取學(xué)術(shù)用戶的研究興趣[15],通過(guò)對(duì)用戶的訪問(wèn)頻率、檢索習(xí)慣、檢索內(nèi)容等和信息行為相關(guān)的數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)與用戶興趣相關(guān)的文獻(xiàn)推薦。
1.2數(shù)字遠(yuǎn)讀
“遠(yuǎn)讀”的概念最早由莫萊蒂于2000年提出,利用定量分析的方法聚焦于眾多文本單位之間的關(guān)聯(lián),從中發(fā)現(xiàn)規(guī)律,以獲得宏觀視野[16]。2005年,他又提出利用表圖、地圖和樹(shù)圖3種抽象模型,收集和解釋數(shù)據(jù),進(jìn)行實(shí)證化探索研究[17]。實(shí)質(zhì)上,莫萊蒂提出的遠(yuǎn)讀是通過(guò)分析數(shù)據(jù),利用實(shí)證性模型驗(yàn)證人文學(xué)者的相關(guān)研究,從宏觀角度研究人文學(xué)的發(fā)展。大規(guī)模文本集合上的遠(yuǎn)讀,主要分為宏觀統(tǒng)計(jì)描述和內(nèi)在結(jié)構(gòu)特征揭示兩種,其結(jié)果都是文本的宏觀抽象表達(dá),需要進(jìn)一步解讀[1]。通過(guò)宏觀的分析,利用計(jì)算機(jī)技術(shù)量化描述文本特征,幫助學(xué)者深入解讀文本潛在規(guī)律,對(duì)于歷史學(xué)者而言,可以獲得全新的視角來(lái)觀察超長(zhǎng)歷史時(shí)間段的文化現(xiàn)象。
可視化作為遠(yuǎn)讀的重要呈現(xiàn)手段,在實(shí)際研究中多使用標(biāo)簽云、網(wǎng)絡(luò)圖、結(jié)構(gòu)圖、熱力圖、地圖、時(shí)間線圖6種可視化方法。其中,標(biāo)簽云用以展示高頻詞匯,網(wǎng)絡(luò)圖可以反映文本內(nèi)或文本間信息的相互關(guān)系,結(jié)構(gòu)圖可以展現(xiàn)語(yǔ)料庫(kù)或單個(gè)文檔的層級(jí)結(jié)構(gòu),時(shí)間線圖則可以反映歷史數(shù)據(jù)隨時(shí)間的演化。因此,可以認(rèn)為遠(yuǎn)讀是數(shù)字文本的可視化形式,用以描述文檔集合的全局特征,幫助學(xué)者獲得整體認(rèn)知,方便研究人員更快發(fā)現(xiàn)文檔內(nèi)部的潛在關(guān)聯(lián),快速選擇研究角度深入分析。
綜上,本文在數(shù)字遠(yuǎn)讀研究的基礎(chǔ)上,結(jié)合用戶畫(huà)像研究,提出“社會(huì)畫(huà)像”這一概念。社會(huì)畫(huà)像即社會(huì)發(fā)展概貌,由特定時(shí)期社會(huì)發(fā)展描述的基本維度匯聚而成。通過(guò)抽取每個(gè)維度的描述概念構(gòu)成社會(huì)特征標(biāo)簽,使用社會(huì)特征標(biāo)簽構(gòu)建社會(huì)畫(huà)像并進(jìn)行可視化展示。基于社會(huì)特征標(biāo)簽,利用定性與定量相結(jié)合的方法,從不同角度、不同層面對(duì)社會(huì)發(fā)展維度進(jìn)行分析,可快速、清楚地了解該時(shí)期社會(huì)發(fā)展的主要特征。社會(huì)畫(huà)像具有以下特征:
1)結(jié)構(gòu)化:建立社會(huì)描述文本分析框架,縮小文本分析的顆粒度。
2)自動(dòng)化:利用文本分析技術(shù),抽取社會(huì)畫(huà)像特征標(biāo)簽,自動(dòng)構(gòu)建社會(huì)畫(huà)像。
3)可視化:在文本計(jì)算的基礎(chǔ)上,幫助研究者形成快速的多維度分析結(jié)果。
2基于數(shù)字遠(yuǎn)讀技術(shù)的社會(huì)畫(huà)像構(gòu)建流程
基于數(shù)字遠(yuǎn)讀技術(shù)的社會(huì)畫(huà)像可用于驗(yàn)證或輔助歷史學(xué)科的相關(guān)研究,為研究者快速獲得古代社會(huì)概貌及各方面發(fā)展特征提供支持,同時(shí)幫助構(gòu)建更符合現(xiàn)代人閱讀習(xí)慣的古漢語(yǔ)數(shù)字產(chǎn)品。社會(huì)畫(huà)像的構(gòu)建主要包括兩個(gè)部分:社會(huì)畫(huà)像描述框架和社會(huì)畫(huà)像標(biāo)簽體系。其中,社會(huì)畫(huà)像描述框架是社會(huì)畫(huà)像構(gòu)建的基礎(chǔ),而社會(huì)畫(huà)像標(biāo)簽體系是社會(huì)畫(huà)像呈現(xiàn)的具體數(shù)據(jù)來(lái)源,可以更細(xì)致地反映特定時(shí)期社會(huì)各分面發(fā)展?fàn)顩r,并較為全面地呈現(xiàn)該時(shí)期主要發(fā)展特征。利用標(biāo)簽體系抽取社會(huì)特征標(biāo)簽并進(jìn)行可視化處理,綜合展示社會(huì)畫(huà)像的效果。具體實(shí)證設(shè)計(jì)流程如圖1所示。
2.1社會(huì)畫(huà)像分面描述框架的構(gòu)建
在社會(huì)評(píng)價(jià)指標(biāo)方面,國(guó)家發(fā)改委和國(guó)家統(tǒng)計(jì)局聯(lián)合制(修)訂的《社會(huì)發(fā)展水平綜合評(píng)價(jià)方案》提出四大維度,涉及人口發(fā)展、生活水平、公共服務(wù)以及社會(huì)和諧;聯(lián)合國(guó)使用人文發(fā)展指數(shù),由健康指數(shù)、文化指數(shù)、生活水平指數(shù)復(fù)合組成。相關(guān)研究方面,王文博等[18]提出社會(huì)發(fā)展水平評(píng)價(jià)的6個(gè)板塊,分別為人口發(fā)展、人民生活質(zhì)量、經(jīng)濟(jì)發(fā)展、社會(huì)公平與協(xié)調(diào)、安全與政治進(jìn)步和生態(tài)環(huán)境;代金輝等[19]構(gòu)建了社會(huì)發(fā)展水平統(tǒng)計(jì)模型,包括經(jīng)濟(jì)、人民生活、教育、科技、精神文化、醫(yī)療衛(wèi)生6個(gè)要素層;張艷豐等[20]在應(yīng)用層面提出智慧城市數(shù)據(jù)畫(huà)像分析框架,包括智慧治理、智慧民生、智慧經(jīng)濟(jì)、智慧環(huán)境、創(chuàng)新驅(qū)動(dòng)5個(gè)維度。
綜上,社會(huì)畫(huà)像分面描述框架需要涵蓋與社會(huì)發(fā)展相關(guān)的政務(wù)、生活、經(jīng)濟(jì)、教育、環(huán)境以及創(chuàng)新等領(lǐng)域。本研究試圖通過(guò)文本統(tǒng)計(jì)方法借以描述特定歷史時(shí)期內(nèi)社會(huì)發(fā)展的總體狀況。前期對(duì)歷史典籍進(jìn)行了文本聚類[21-22],因此,本文綜合考量社會(huì)相關(guān)評(píng)價(jià)指標(biāo)及前期研究文獻(xiàn),擬從政治、經(jīng)濟(jì)、文化、社會(huì)、軍事5個(gè)層面構(gòu)建社會(huì)畫(huà)像描述框架SD(Social Development):
SD={α1PF,α2EE,α3CF,α4SC,α5MF}(1)
其中,PF(Political Factors)表示政治發(fā)展?fàn)顩r,體現(xiàn)政府行政效能和服務(wù),具體包括國(guó)家外交、律法及治理模式等多個(gè)方面。EE(Economical Efficiency)表示經(jīng)濟(jì)發(fā)展?fàn)顩r,具體包括農(nóng)業(yè)、工業(yè)、商業(yè)、手工業(yè)、養(yǎng)殖業(yè)等。CF(Cultural Factor)表示文化發(fā)展?fàn)顩r,具體包括教育、建筑、天文、歷算、醫(yī)學(xué)、文學(xué)等方面。SC(Social Customs)特指社會(huì)習(xí)俗方面發(fā)展?fàn)顩r,具體包括婚喪嫁娶、祭祀、風(fēng)俗習(xí)慣、生育等方面。MF(Military Force)表示軍事發(fā)展?fàn)顩r,具體包括軍隊(duì)、軍備、戰(zhàn)爭(zhēng)等方面。αi為每個(gè)自變量與因變量之間的關(guān)聯(lián)系數(shù),表示每個(gè)因素對(duì)社會(huì)整體情況的影響大小,即對(duì)應(yīng)的權(quán)重。5E9B229B-E087-48AE-95C9-8A895CDF36E6
2.2社會(huì)畫(huà)像候選標(biāo)簽的獲取
社會(huì)畫(huà)像描述框架是構(gòu)建畫(huà)像的基礎(chǔ),在此基礎(chǔ)上需要從相關(guān)文本中獲取語(yǔ)義相關(guān)的詞匯用于描述框架中的每個(gè)分面,借以形成以詞匯為基礎(chǔ)的社會(huì)畫(huà)像。候選標(biāo)簽的獲取工作便是從古漢語(yǔ)文本數(shù)據(jù)中,抽取出社會(huì)畫(huà)像描述框架SD中的具體事實(shí)信息稱為概念實(shí)體,如人名、地名、時(shí)間、物品及事件等。
通常情況下,某一時(shí)期社會(huì)發(fā)展中越有影響力的事件,在這一時(shí)期的社會(huì)文本中記敘的篇幅越長(zhǎng)、內(nèi)容越多。因此,本文利用社會(huì)畫(huà)像標(biāo)簽體系構(gòu)建用戶詞典,在只考慮詞頻的情況下對(duì)語(yǔ)料庫(kù)進(jìn)行抽詞,通過(guò)計(jì)算候選標(biāo)簽在數(shù)據(jù)集中的總詞頻與該詞在數(shù)據(jù)集中覆蓋程度之間的乘積,得到候選標(biāo)簽及其初始權(quán)值。具體公式如式(2):
SEAi=tfi×log N/dfi(2)
其中,tfi指第i個(gè)詞在社會(huì)文本語(yǔ)料庫(kù)中的總詞頻,dfi表示含有第i個(gè)詞的文本數(shù)量,社會(huì)文本語(yǔ)料庫(kù)中的總文本數(shù)量用N進(jìn)行表示,SEAi表示第i個(gè)詞可以反映語(yǔ)料庫(kù)主題的能力大小。在總文本數(shù)量N一定的情況下,如果一個(gè)詞在語(yǔ)料庫(kù)中的詞頻越高,且包含該詞的文本越多,那么這個(gè)詞的SEAi值越高,即這個(gè)詞越能反映該時(shí)期社會(huì)的發(fā)展特征。如“師”“使”等在語(yǔ)料庫(kù)多篇文本中出現(xiàn),同時(shí)在某一篇文本中的詞頻也比較高,即可認(rèn)為“師”“使”等在語(yǔ)料庫(kù)中具有較高的文本主題表現(xiàn)能力。最終篩選SEAi值在前50%,同時(shí)至少在兩篇文本中出現(xiàn)的字、詞作為古代社會(huì)候選標(biāo)簽進(jìn)行特征加權(quán)。
2.3社會(huì)畫(huà)像特征標(biāo)簽加權(quán)計(jì)算
為進(jìn)一步區(qū)分候選標(biāo)簽的重要程度、加強(qiáng)特征標(biāo)簽與社會(huì)發(fā)展分面之間的映射關(guān)系,更好地區(qū)分抽取出的特征候選詞的重要程度。本文利用改進(jìn)的社會(huì)發(fā)展向量模型對(duì)已抽取社會(huì)特征候選詞的權(quán)重進(jìn)行修正,修正后的特征候選詞權(quán)重為該詞的初始權(quán)重SEAi值與該詞所屬類別的成分得分系數(shù)的乘積[23]。
本研究針對(duì)春秋時(shí)期歷史典籍語(yǔ)料數(shù)據(jù),通過(guò)分別統(tǒng)計(jì)抽取的候選標(biāo)簽所表征的事件種類和個(gè)數(shù),以春秋三傳中時(shí)間劃分為文本組織標(biāo)準(zhǔn),形成了255個(gè)觀測(cè)數(shù)據(jù)樣本。利用主成分分析法進(jìn)行降維因子分析,并利用KMO和Bartlett球形度檢驗(yàn)定量的檢驗(yàn)變量之間是否具有相關(guān)性。
通過(guò)表1和表2可以發(fā)現(xiàn),各影響因素之間的相關(guān)系數(shù)均大于0.3,存在較好的線性相關(guān)性。根據(jù)相關(guān)性檢驗(yàn)結(jié)果,KMO值大于0.8,且Bartlett球形度檢驗(yàn)P值小于0.001,此時(shí)主成分分析的結(jié)果具有較好的實(shí)用性,可以進(jìn)行因子分析。
如表3所示,根據(jù)最終計(jì)算得到的成分得分系數(shù)矩陣,得到最終改進(jìn)的社會(huì)發(fā)展評(píng)價(jià)模型的表達(dá)式:
SD={0.229×PF,0.193×EE,0.227×CF,0.228×SC,0.209×MF}(3)
2.4社會(huì)畫(huà)像可視化
抽取權(quán)重超過(guò)閾值的特征標(biāo)簽,得到社會(huì)特征向量F(v),定義社會(huì)畫(huà)像H為特征向量F(v)中的所有的特征及其權(quán)重:
H={(w1,t1),(w2,t2),……,(wn,tn)},ti∈F(v)(4)
其中,ti表示第i個(gè)特征標(biāo)簽;wi表示第i個(gè)特征標(biāo)簽的權(quán)重,n表示共有n個(gè)特征標(biāo)簽,權(quán)重越大的特征在社會(huì)畫(huà)像中的標(biāo)簽越大。本文抽取加權(quán)后權(quán)重前50的特征標(biāo)簽進(jìn)行社會(huì)畫(huà)像可視化處理,具體實(shí)現(xiàn)過(guò)程如下所示:
1)選擇各社會(huì)分面中權(quán)重最高的特征標(biāo)簽作為核心節(jié)點(diǎn)。
2)計(jì)算特征標(biāo)簽間的映射距離。若兩個(gè)詞在標(biāo)簽體系中存在關(guān)系,則這兩個(gè)詞之間存在一條邊,否則沒(méi)有邊,邊的長(zhǎng)度S即為特征標(biāo)簽間的映射距離:
S(i,j)=β×L(i,j)(5)
其中,L(i,j)表示特征標(biāo)簽i與特征標(biāo)簽j在社會(huì)畫(huà)像標(biāo)簽體系中的最短路徑長(zhǎng)度,β表示兩個(gè)特征標(biāo)簽之間的關(guān)聯(lián)系數(shù)。
3)確定最短映射距離閾值,依次將各特征標(biāo)簽劃分至最近的核心節(jié)點(diǎn)的類別中。
4)畫(huà)像可視化。根據(jù)預(yù)先選擇的核心節(jié)點(diǎn)個(gè)數(shù),以核心節(jié)點(diǎn)所表示的特征標(biāo)簽為中心生成畫(huà)像,使最終抽取的社會(huì)特征標(biāo)簽分布于不同核心節(jié)點(diǎn)的周?chē)?/p>
3社會(huì)畫(huà)像構(gòu)建實(shí)證分析
為驗(yàn)證本文提出的社會(huì)畫(huà)像構(gòu)建方法的有效性,本文選取先秦時(shí)期進(jìn)行社會(huì)畫(huà)像構(gòu)建的實(shí)證分析。先秦時(shí)期作為中國(guó)歷史上重要階段,學(xué)者們研究較為深入,相關(guān)研究成果能夠支撐本文實(shí)證效果的驗(yàn)證?!蹲髠鳌纷鳛橄惹貢r(shí)期重要典籍,保留了大量先秦春秋時(shí)期政治、經(jīng)濟(jì)、文化、軍事等各方面的信息。因此,本文以已進(jìn)行人工分詞和詞性標(biāo)注的《左傳》語(yǔ)料[24]為代表,作為春秋時(shí)期社會(huì)畫(huà)像的重要文本來(lái)源。
3.1以《左傳》文本為例的社會(huì)畫(huà)像構(gòu)建
首先,本文利用《春秋左傳詞典》《漢語(yǔ)大詞典》構(gòu)建春秋時(shí)期社會(huì)畫(huà)像描述框架;其次,本文抽取《左傳》中與社會(huì)發(fā)展相關(guān)的客觀描述性文本,構(gòu)建春秋時(shí)期社會(huì)語(yǔ)料庫(kù),利用社會(huì)畫(huà)像標(biāo)簽體系構(gòu)建用戶詞典進(jìn)行社會(huì)標(biāo)簽抽取。
選擇計(jì)算SEAi結(jié)果排名前50%且出現(xiàn)在兩篇以上文檔中的詞作為春秋社會(huì)特征,共篩選得到311個(gè)候選標(biāo)簽,因古漢語(yǔ)多使用單字且語(yǔ)義多樣,因此,同現(xiàn)代漢語(yǔ)相比,抽取難度較大。使用改進(jìn)的社會(huì)發(fā)展向量模型對(duì)已抽取候選標(biāo)簽進(jìn)行加權(quán),并做歸一化處理,篩選后得到的春秋社會(huì)特征標(biāo)簽及其對(duì)應(yīng)權(quán)重如表4所示。
由表4可知,大多數(shù)特征標(biāo)簽權(quán)重較低,僅少數(shù)特征標(biāo)簽的權(quán)重大于0.6。因此,可認(rèn)為權(quán)重高的特征標(biāo)簽是《左傳》描述的春秋社會(huì)的主要特征,關(guān)注高權(quán)重特征標(biāo)簽可以幫助發(fā)現(xiàn)春秋社會(huì)的顯著特點(diǎn)。計(jì)算特征標(biāo)簽在春秋社會(huì)畫(huà)像標(biāo)簽體系中的映射距離及關(guān)聯(lián)系數(shù),根據(jù)特征標(biāo)簽關(guān)聯(lián)系數(shù)及其權(quán)重繪制春秋時(shí)期的社會(huì)畫(huà)像,如圖2所示。5E9B229B-E087-48AE-95C9-8A895CDF36E6
由圖2可知,總體上春秋時(shí)期社會(huì)特征標(biāo)簽主要被分為四大類,具體為“政治”“社會(huì)”“文化”“軍事”,其中與“政治”“軍事”相關(guān)的特征標(biāo)簽最多,“文化”類特征標(biāo)簽次之,“社會(huì)”類特征標(biāo)簽最少。在《左傳》中記敘與經(jīng)濟(jì)發(fā)展相關(guān)的事件描述非常少,因此,特征值排名前50的詞中沒(méi)有經(jīng)濟(jì)相關(guān)的特征標(biāo)簽。
3.2以《左傳》文本為例的社會(huì)畫(huà)像分析
3.2.1社會(huì)畫(huà)像維度分析
根據(jù)已構(gòu)建的社會(huì)畫(huà)像描述框架,對(duì)構(gòu)建的社會(huì)畫(huà)像進(jìn)行不同維度的描述。其中,基本信息維度通過(guò)對(duì)文本原始數(shù)據(jù)進(jìn)行定量分析來(lái)描述,物質(zhì)文
化維度和非物質(zhì)文化維度通過(guò)對(duì)春秋時(shí)期社會(huì)畫(huà)像的標(biāo)簽數(shù)據(jù)進(jìn)行定量分析來(lái)描述。
1)基本信息維度。用于描述某一時(shí)期社會(huì)的基本信息的特征標(biāo)簽,如社會(huì)中的諸侯國(guó)、氏族、部落、主要人物及其相關(guān)的地理位置等信息。圖3春秋時(shí)期社會(huì)基本信息維度
從基本信息維度進(jìn)行分析,如圖3所示?!蹲髠鳌匪洑v史共254年(公元前722—公元前468年),涉及東周王朝君王共17位,包含8個(gè)主要諸侯國(guó):齊、宋、晉、秦、楚、吳、越、鄭,記載約113個(gè)氏族、47個(gè)部落,以戎、狄、皋落氏為主要代表,整個(gè)春秋時(shí)期的主要人物包括秦穆公、晉文公、齊桓公、宋襄公、楚莊公等。
2)物質(zhì)文化維度。描述社會(huì)物質(zhì)類的特征標(biāo)簽,包括實(shí)體類信息,如具體的器物、建筑、景觀、宮殿等,以及對(duì)實(shí)體起描述作用的描述性信息。
由圖4可知,《左傳》所記敘的春秋社會(huì)物質(zhì)文化維度具體包括器具、建筑類型、宮殿、宗廟和生產(chǎn)材料等方面。其中,器具根據(jù)用途分為刑具、農(nóng)用器具、工業(yè)器具、祭祀用具、禮器、兵器和日常用具;建筑類型專指古建筑類型,包括宗廟、宮殿、門(mén)、亭臺(tái)等;在經(jīng)濟(jì)生產(chǎn)材料方面,工業(yè)材料主要為鐵、銅等,手工業(yè)材料主要為絲、布、麻、毛等。整體來(lái)看,春秋時(shí)期的物質(zhì)文化多以祭祀需要和軍事防御為主要目的,同時(shí)由于《左傳》中經(jīng)濟(jì)相關(guān)記敘較少,抽取出的經(jīng)濟(jì)生產(chǎn)材料相對(duì)較少。圖4春秋時(shí)期社會(huì)物質(zhì)文化維度
3)非物質(zhì)文化維度。用于描述社會(huì)非物質(zhì)類的特征標(biāo)簽,包括具體的民俗、文化相關(guān)人物等實(shí)體類信息,以及對(duì)應(yīng)的描述性信息。圖5春秋時(shí)期社會(huì)非物質(zhì)文化維度
由圖5可知,《左傳》所記敘的春秋社會(huì)非物質(zhì)文化維度具體包括律法、文化、藝術(shù)以及思想等方面。律法主要為徭役、賦稅、基本刑法及對(duì)應(yīng)刑罰、訴訟法和具體的法典;文化包括天文、歷算、醫(yī)學(xué)和文學(xué)書(shū)籍等,其中天文和歷算多用作占卜、祭祀等活動(dòng)的信息;藝術(shù)以樂(lè)曲、舞蹈為主,多用于祭祀與宴席活動(dòng)中;民俗活動(dòng)以婚、喪、祭祀等為主。
3.2.2社會(huì)標(biāo)簽相關(guān)性
圖2對(duì)《左傳》所記敘的春秋時(shí)期社會(huì)的特點(diǎn)進(jìn)行了整體畫(huà)像描述。利用社會(huì)畫(huà)像標(biāo)簽體系,進(jìn)一步繪制春秋時(shí)期社會(huì)4個(gè)發(fā)展分面的社會(huì)畫(huà)像,如圖6所示。
由圖6可知,春秋時(shí)期在政治分面中主要涉及政權(quán)更迭、外交、律法3個(gè)方面,其中,與外交相關(guān)的標(biāo)簽最多,多表征諸侯國(guó)間的外交事件,如小國(guó)、附屬國(guó)朝見(jiàn)大國(guó)、派使節(jié)出使他國(guó)、尋求同盟等。畫(huà)像反映出春秋時(shí)期外交類政治事件頻繁。
在春秋時(shí)期軍事分面的社會(huì)畫(huà)像中,權(quán)重較高的特征標(biāo)簽有“師”“將”“奔”“帥”等,分析發(fā)現(xiàn)軍事分面的特征標(biāo)簽多為軍隊(duì)、軍職,如“將”“卒”,以及戰(zhàn)爭(zhēng)相關(guān)的描述動(dòng)詞包括“帥”“奔”“伐”等,而對(duì)具體作戰(zhàn)策略描述很少。
社會(huì)風(fēng)俗和文化分面的特征標(biāo)簽多為由外交類、圖6春秋時(shí)期社會(huì)4個(gè)發(fā)展分面社會(huì)畫(huà)像
戰(zhàn)爭(zhēng)類事件引起的相關(guān)事件。具體觀察圖6中的社會(huì)風(fēng)俗分面,發(fā)現(xiàn)與當(dāng)時(shí)動(dòng)蕩不安的社會(huì)背景相符,婚喪嫁娶、生老病死等相關(guān)的社會(huì)標(biāo)簽權(quán)重較高,如“取”(同“娶”)“聘”“殺”“死”“生”等。而在文化分面中,“禮”“享”“食”等標(biāo)簽多為外交宴請(qǐng)相關(guān)禮樂(lè)文化的描述,同時(shí),春秋時(shí)期注重占卜、天象等,如卜卦、周易等相關(guān)事件的特征標(biāo)簽“師”的權(quán)重較高。
3.3結(jié)果分析
現(xiàn)有的數(shù)字遠(yuǎn)讀分析主要集中于高頻詞分析、主題聚類及情感分析等。本文提出的社會(huì)畫(huà)像分析主要針對(duì)歷史文本,建立社會(huì)發(fā)展描述分析框架,將詞頻分析在一定程度上提升為語(yǔ)義類別的分析,通過(guò)抽取相關(guān)語(yǔ)義類別的概念進(jìn)行可視化描述。從本質(zhì)上說(shuō)是基于統(tǒng)計(jì)手段為人文學(xué)者文本深度分析提供了一種數(shù)字化處理的手段。從定性評(píng)價(jià)的角度,春秋社會(huì)畫(huà)像將這段歷史時(shí)期從軍事、政治、社會(huì)及文化4個(gè)層面,通過(guò)對(duì)重要的人物、地點(diǎn)、事件、物件進(jìn)行分析與統(tǒng)計(jì),較難用量化方法準(zhǔn)確衡量每個(gè)維度的描述準(zhǔn)確性。
《春秋大事表》是清代研究《春秋》經(jīng)傳的一部重要著作,作者顧棟高對(duì)春秋及其三傳做了分類整理和實(shí)證研究[25]。本文將研究結(jié)果與《春秋大事表》進(jìn)行對(duì)比,本文的量化統(tǒng)計(jì)結(jié)果較為吻合。由于本文語(yǔ)料來(lái)源的限制,經(jīng)濟(jì)類別未涵蓋在統(tǒng)計(jì)結(jié)果中。部分詞類活用的詞匯未能準(zhǔn)確反映類別特征??傮w而言,驗(yàn)證了本文提出的社會(huì)畫(huà)像方法能夠在一定程度上實(shí)現(xiàn)對(duì)文本的結(jié)構(gòu)化和語(yǔ)義化分析。
4結(jié)論
對(duì)典籍?dāng)?shù)據(jù)進(jìn)行社會(huì)畫(huà)像的主要目的是將古代社會(huì)發(fā)展過(guò)程中的描述文本通過(guò)可視化技術(shù)進(jìn)行分析展示。本文在相關(guān)理論研究的支持下,借鑒用戶畫(huà)像概念,提出社會(huì)畫(huà)像及社會(huì)畫(huà)像描述框架,利用社會(huì)畫(huà)像標(biāo)簽體系抽取特征標(biāo)簽來(lái)表示社會(huì)特征,并構(gòu)建該時(shí)期的社會(huì)畫(huà)像。為驗(yàn)證本文提出方法的有效性,針對(duì)先秦典籍文本,構(gòu)建了春秋時(shí)期社會(huì)畫(huà)像,主要包括政治、軍事、文化及社會(huì)4個(gè)發(fā)展分面,主要特點(diǎn)為外交類政治事件頻繁、戰(zhàn)爭(zhēng)頻發(fā)、注重禮樂(lè)文化。畫(huà)像結(jié)果與相關(guān)歷史研究結(jié)論相符,表明本文提出的社會(huì)畫(huà)像構(gòu)建方法可以為研究者快速獲得古代社會(huì)概貌提供支持,具有一定的實(shí)踐意義。
本文的春秋社會(huì)畫(huà)像構(gòu)建研究還存在許多不足。首先,需要完善社會(huì)畫(huà)像描述框架,需要更多的數(shù)據(jù)來(lái)豐富框架內(nèi)容;其次,在基于社會(huì)畫(huà)像標(biāo)簽體系的特征標(biāo)簽抽取算法中,需要進(jìn)一步考慮詞與詞之間豐富的關(guān)系,拓展現(xiàn)有的詞間關(guān)系;最后,由于分析的社會(huì)語(yǔ)料較為單一,沒(méi)有實(shí)現(xiàn)對(duì)不同時(shí)期的社會(huì)畫(huà)像進(jìn)行比較和分析,這對(duì)深入探索古代社會(huì)尤其是先秦時(shí)期社會(huì)的發(fā)展變遷也很重要。以上不足需要在后續(xù)研究工作中繼續(xù)改進(jìn)和優(yōu)化。5E9B229B-E087-48AE-95C9-8A895CDF36E6
參考文獻(xiàn)
[1]王軍.從人文計(jì)算到可視化——數(shù)字人文的發(fā)展脈絡(luò)梳理[J].文藝?yán)碚撆c批評(píng),2020,(2):18-23.
[2]歐陽(yáng)劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國(guó)圖書(shū)館學(xué)報(bào),2016,42(2):66-80.
[3]潘威.“數(shù)字人文”背景下歷史地理信息化的應(yīng)對(duì)——走進(jìn)歷史地理信息化2.0時(shí)代[J].云南大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2018,17(6):80-87.
[4]鄧君,鐘楚依,王阮,等.清代職官知識(shí)組織與關(guān)聯(lián)分析——以《長(zhǎng)春縣志·長(zhǎng)春職官考釋表》為例[J].圖書(shū)情報(bào)工作,2020,64(17):18-26.
[5]宋雪雁,崔浩男,梁穎,等.數(shù)字人文視角下名人日記資源知識(shí)發(fā)現(xiàn)研究——以王世杰日記為例[J/OL].情報(bào)理論與實(shí)踐:1-10[2021-01-20].http://kns.cnki.net/kcms/detail/11.1762.G3.20210116.1400.004.html.
[6]何琳,喬粵,劉雪琪.春秋時(shí)期社會(huì)發(fā)展的主題挖掘與演變分析——以《左傳》為例[J].圖書(shū)情報(bào)工作,2020,64(7):30-38.
[7]汪倩,徐勇,張心蕊,等.用戶畫(huà)像研究進(jìn)展綜述[J].現(xiàn)代計(jì)算機(jī),2020,(24):60-63
[8]Cooper A.The Inmates are Running the Asylum:Why High-Tech Products Drive Us Crazy and How to Restore the Sanity[M].Sams Publishing,2004.
[9]徐璐瑤,姜增祺,黃婷婷,等.基于大數(shù)據(jù)的用戶畫(huà)像系統(tǒng)概述[J].電子世界,2018,(2):64-65.
[10]孫守強(qiáng).基于用戶畫(huà)像的智慧圖書(shū)館個(gè)性化服務(wù)研究[J].圖書(shū)館工作與研究,2019,(7):60-65.
[11]Chen J,Nairn R,Nelson L,et al.Short and Tweet:Experiments on Recommending Content from Information Streams[C]//International Conference on Human Factors in Computing Systems,Atlanta,Georgia,USA,2010:1185-1194.
[12]Lee W J,Oh K J,Lim C G,et al.User Profile Extraction from Twitter for Personalized News Recommendation[C]//International Conference on Advanced Communication Technology,Pyeongchang,Korea(South),2014:779-783.
[13]畢達(dá)天,王福,許鵬程.基于VSM的移動(dòng)圖書(shū)館用戶畫(huà)像及場(chǎng)景推薦[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(9):100-108.
[14]Kurashima T,Iwata T,Hoshide T,et al.Geo Topic Model:Joint Modeling of Users Activity Area and Interests for Location Recommendation[C]//The 6th ACM International Conference on Web Search & Data Mining,Rome,Italy,2013:375-384.
[15]王穎純,董雪敏,劉燕權(quán).基于知識(shí)挖掘的圖書(shū)館智慧推薦服務(wù)模式[J].圖書(shū)館學(xué)研究,2018,(9):37-43.
[16]都嵐嵐.論莫萊蒂的遠(yuǎn)讀及其影響[J].中國(guó)比較文學(xué),2020,(3):179-193.
[17]趙薇.從概念模型到計(jì)算批評(píng):數(shù)字時(shí)代的“世界文學(xué)”研究[J].中國(guó)比較文學(xué),2019,(4):48-66.
[18]王文博,竇彩蘭,張欣.中國(guó)社會(huì)發(fā)展水平綜合評(píng)價(jià)研究[J].統(tǒng)計(jì)與信息論壇,2006,(1):26-30,41.
[19]代金輝,馬樹(shù)才,劉宏巖.社會(huì)發(fā)展水平統(tǒng)計(jì)指標(biāo)體系的構(gòu)建與評(píng)價(jià)[J].統(tǒng)計(jì)與決策,2018,34(1):30-33.
[20]張艷豐,鄒凱,彭麗徽,等.數(shù)字空間視角下智慧城市全景數(shù)據(jù)畫(huà)像實(shí)證研究[J].情報(bào)學(xué)報(bào),2020,39(12):1330-1339.
[21]何琳,喬粵,劉雪琪.春秋時(shí)期社會(huì)發(fā)展的主題挖掘與演變分析——以《左傳》為例[J].圖書(shū)情報(bào)工作,2020,64(7):30-38
[22]何琳,喬粵,孟凱.基于典籍的春秋社會(huì)時(shí)間序列演變分析方法初探[J].情報(bào)理論與實(shí)踐,2021,44(2):33-40
[23]艾毓茜.古代社會(huì)畫(huà)像構(gòu)建及其應(yīng)用研究[D].南京:南京農(nóng)業(yè)大學(xué),2021.
[24]陳小荷,李斌,馮敏萱,等.先秦《左傳》語(yǔ)料庫(kù)[EB/OL].https://catalog.ldc.upenn.edu/LDC2017T14,2019-05-05.
[25]顧棟高.春秋大事表[M].北京:中華書(shū)局,1993.
(責(zé)任編輯:陳媛)5E9B229B-E087-48AE-95C9-8A895CDF36E6