陳 蕾,胡亦旻,艾 葦,胡俊峰,2
(1. 北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871;2. 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京 100871)
?
《紅樓夢》中社會權(quán)勢關(guān)系的提取及網(wǎng)絡(luò)構(gòu)建
陳 蕾1,胡亦旻1,艾 葦1,胡俊峰1,2
(1. 北京大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100871;2. 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京 100871)
社會地位與權(quán)勢的研究一直是社會語言學(xué)領(lǐng)域的一個(gè)熱點(diǎn)話題。該文借助數(shù)據(jù)挖掘中的關(guān)系提取方案雪球算法(SnowballAlgorithm),實(shí)現(xiàn)了《紅樓夢》文本中候選的特征語言模式(pattern)和人物關(guān)系對之間的相互定位與賦權(quán),對小說中頻繁同現(xiàn)的人物對之間的社會等級關(guān)系進(jìn)行挖掘,以此建立了能反映人物等級關(guān)系的有向加權(quán)人際關(guān)系網(wǎng)絡(luò)。進(jìn)一步應(yīng)用最小樹形圖算法,生成了涵蓋192個(gè)《紅樓夢》主要人物的單向聯(lián)通的樹狀社會關(guān)系圖。通過這種方法生成的社會關(guān)系圖不但能有效反映人際交往親密度與社區(qū)影響力,同時(shí)還透視了人與人之間的社會等級差異。相較于單純基于人際交往親密程度的無向關(guān)系網(wǎng)絡(luò),能更加客觀地表達(dá)出社會交往中人際關(guān)系網(wǎng)絡(luò)的真實(shí)圖景。
關(guān)系提??;權(quán)勢關(guān)系;社會關(guān)系網(wǎng)絡(luò);最小樹形圖
社會語言學(xué)研究作為一門新興學(xué)科,其主題圍繞著語言和社會之間的相互作用展開,社會權(quán)勢關(guān)系和不同社會階層的語言使用是其中常見的研究方向之一[1]。不同身份地位的人群所使用的語言有特異性,特殊的用語往往也會成為特定社會關(guān)系的語言標(biāo)志。據(jù)此,如果收集人物間兩兩互動的語料,并提取出一些反映相對權(quán)勢關(guān)系的特征詞語,理論上就可以通過這些特征詞語在群體中評估人物地位高低,并定位出具有權(quán)勢差距的一對對個(gè)體。本文旨在通過文本提取信息,構(gòu)建《紅樓夢》一書中微型社會的權(quán)勢網(wǎng)絡(luò)。
權(quán)勢是一種等級化、易于度量的單向社會關(guān)系。關(guān)于權(quán)勢的社會語言學(xué)研究可以追溯到20世紀(jì)60年代,美國語言學(xué)家William Labov在1966年出版的TheSocialStratificationofEnglishinNewYorkCity一書中報(bào)道了用“隱蔽式錄音”的方法研究紐約市百貨公司職員口語中對(r)音的著重程度和其社會地位之間的關(guān)系[2],發(fā)現(xiàn)社會地位越高的職員越傾向于將(r)音發(fā)出。1972年,英國語言學(xué)家通過采集英國諾里奇市方言的語音資料,得出與性別和潛在聲望相關(guān)的音位和語音變素[3]。早期的社會心理學(xué)家也曾經(jīng)嘗試通過分析歐洲語言中權(quán)勢與同等關(guān)系的代詞的使用,揭示在歷史進(jìn)程中不同社會階級之間的人際關(guān)系演變[4],探討了社會地位高的人自稱和他稱方式從明顯與社會地位低的人用語方式分開,到逐漸也用權(quán)勢低者的用語進(jìn)行自稱和他稱的變化。社會語言學(xué)在中國發(fā)展起來后,國內(nèi)相關(guān)研究也逐漸發(fā)展起來。2009年胡美馨等通過分析前秦到晚清的文本,揭示女性身份認(rèn)同的話語從強(qiáng)調(diào)男女差異(如在文學(xué)作品中“妳”和“你”的性別區(qū)分,暗示女性社會地位較低)逐漸過渡至男女“平等”(如逐漸趨向于“你”的統(tǒng)一化使用,代表女性社會地位趨于平等)的變化,探討了女性社會地位的變遷[5]。2013年李佳靜等通過對杭州市“老板娘”一稱呼語的調(diào)查,認(rèn)為“老板娘”一用語包含上對下的社會權(quán)勢關(guān)系,而這種用語的逐漸減少和廢棄,也從另一方面反映出女性地位的提升[6]。傳統(tǒng)的社會語言學(xué)研究方法能夠以專業(yè)角度結(jié)合社會歷史發(fā)展進(jìn)程和語言元素的變化,然而往往也需要投入大量時(shí)間和人力進(jìn)行采樣。本研究中,我們采用了程序篩選結(jié)合人工監(jiān)督過程,有效提高研究效率,同時(shí)更多從文本和數(shù)據(jù)本身入手,研究角度有別于前述“由假設(shè)推動的(hypotheses driven)”的研究。
近年來,隨著計(jì)算科學(xué)的介入,基于文本的權(quán)勢研究中出現(xiàn)了更多機(jī)器學(xué)習(xí)和統(tǒng)計(jì)模型的方法。大多數(shù)研究針對易于根據(jù)團(tuán)隊(duì)角色明確劃分強(qiáng)弱勢團(tuán)體的情況。如2012年Danescu Niculescu Mizil等[7]于World Wide Web Conference發(fā)表文章,分別采集維基百科中管理員、管理員申請者、非管理員的網(wǎng)絡(luò)討論記錄和美國最高法院的辯護(hù)記錄,根據(jù)不同群體間互動時(shí)使用與對方相同語言模式的頻率差異,分析“附和”(coordination)行為與權(quán)勢的關(guān)系。同年,Gilbert[8]使用開源的Enron公司內(nèi)部電子信件,根據(jù)職位建立權(quán)勢層級結(jié)構(gòu),并據(jù)此提取不同權(quán)勢階級在詞匯選用上的不同偏好。2014年Agarwal等[9]使用相同語料,說明交談中被提到次數(shù)越多的人物,社會地位就越高的現(xiàn)象。以上研究與前文提到的傳統(tǒng)社會語言學(xué)研究思路較為相似,都是在已知個(gè)體或群體的社會地位的基礎(chǔ)上,尋找分布特點(diǎn)對應(yīng)權(quán)勢差異的語言因素,如詞語、詞性、語言習(xí)慣等。另外一些研究則采用逆向思維,通過少數(shù)已知權(quán)勢關(guān)系,提取特征語素,再用這些特征語素建立分類器,進(jìn)行未知權(quán)勢關(guān)系的預(yù)測。如2011年Bramsen[10]等發(fā)表的研究,同樣利用Enron公司Email文本資料,將雇員間兩兩通郵的信件分為訓(xùn)練集和測試集,并通過在訓(xùn)練集中統(tǒng)計(jì)N-gram頻率,篩選特征,借助支持向量機(jī)模型(Support Vector Machine)預(yù)測寄信者相對于收信人的地位差異。本文中,我們希望能夠通過地位關(guān)系和語言特征之間的互證從而擴(kuò)增已知信息,這一點(diǎn)與前人研究相似。然而,我們同時(shí)也嘗試探索結(jié)構(gòu)信息,在《紅樓夢》的虛擬社會體系中構(gòu)建權(quán)勢關(guān)系網(wǎng)絡(luò),一方面修正兩人交互的偶然性偏差,獲得人物之間社會地位關(guān)系的全局最優(yōu)解;另一方面,清晰闡述小說的社會關(guān)系和權(quán)勢結(jié)構(gòu)。這一點(diǎn)由于應(yīng)用文本的特殊性,則是在前述研究中鮮少出現(xiàn)的。
本文選用《紅樓夢》作為研究語料主要基于以下三點(diǎn)考慮。首先,《紅樓夢》中出場人物數(shù)量多,人物間階級關(guān)系相對穩(wěn)定且鮮明;其次,針對該語料的研究能夠比較容易地通過人們對小說內(nèi)容的理解進(jìn)行驗(yàn)證與評測;最后,為該項(xiàng)研究今后在更加廣泛的領(lǐng)域開展研究奠定可靠的基礎(chǔ)。
2.1 實(shí)驗(yàn)背景介紹和方法概述
本實(shí)驗(yàn)采用已分詞的《紅樓夢》小說文本和包括了各人物所有稱謂的紅樓夢人名文本,在預(yù)處理階段提取兩個(gè)人名同現(xiàn)的語句(如“惜春 又 謝 了 王夫人”)。目標(biāo)是從出現(xiàn)在人名之間的詞語中提取模式,并用模式詞語預(yù)測人物對間權(quán)勢關(guān)系。由于小說文本容量有限,相當(dāng)一部分人物對之間的交互頻率不高,以前研究中普遍是基于統(tǒng)計(jì)的方法使用分類器系統(tǒng),對于樣本量小的情況不甚適用。在此處我們引入的雪球系統(tǒng)本質(zhì)上采用了HITS算法,能夠通過不斷迭代,強(qiáng)化最具優(yōu)勢的特征,過濾掉一些偶發(fā)的干擾特征。在關(guān)系提取階段,會盡量保留人物對之間雙向的可能關(guān)系,最后通過生成有向圖的單向連通最小支撐樹的方案來削減偶然交互造成的異常值。
主要方法部分,本文先借鑒經(jīng)典雪球系統(tǒng),由權(quán)勢人名對提取特征模式詞語。后用同義詞林?jǐn)U充,經(jīng)HITS系統(tǒng)篩選后,對得分低的詞語進(jìn)行去除,保留質(zhì)量較高的特征模式詞語。接下來對上述特征詞在文中進(jìn)行定位,并據(jù)此計(jì)算每一對存在交互的人物之間的權(quán)勢值。最后,用最小樹形圖算法生成整個(gè)紅樓夢社區(qū)中可定位人物組成的有向無環(huán)權(quán)勢關(guān)系圖。
2.2 經(jīng)典雪球系統(tǒng)對研究有向關(guān)系的啟發(fā)
1999年哥倫比亞大學(xué)的Agichtein和Gravano等發(fā)表了一個(gè)用于關(guān)系提取的經(jīng)典算法,命名為“雪球”(Snowball)系統(tǒng)[11]。雪球系統(tǒng)及其各類變體多應(yīng)用于開放系統(tǒng)中實(shí)體提取,如互聯(lián)網(wǎng)中的問題發(fā)掘等。其基于“關(guān)系”(relationships)的篩選機(jī)制,對本文研究小說文本這一封閉集合中社會關(guān)系結(jié)構(gòu)具有深刻啟發(fā)。研究者們觀察到,在《紅樓夢》中具有權(quán)勢差的個(gè)體之間,普遍存在不少重復(fù)出現(xiàn)的“相處模式”,如權(quán)勢高的一方對權(quán)勢低的一方常常有“命令”、“驅(qū)使”等行為[12]:
“原來寶玉心里有件私事,于頭一日就吩咐茗煙……”
“寶玉便命晴雯來吩咐道……”
“黛玉不時(shí)遣雪雁來探消息……”
而權(quán)勢低的一方對權(quán)勢高的一方常常有“伴”、“從”等行為:
“惜春又謝了王夫人?!?/p>
“這里紫鵑扶著黛玉躺在床上……”
“這里雪雁正在屋里伴著黛玉 ……”
這些在文本中反復(fù)出現(xiàn)的特征詞匯和經(jīng)典雪球系統(tǒng)中的“模式”非常相似,而具有權(quán)勢差的一對人物可看做主體。因此,在最初的嘗試中,本文作者嘗試了通過經(jīng)典雪球系統(tǒng)進(jìn)行實(shí)體與模式的迭代提取,后考慮到文學(xué)作品的修辭特點(diǎn)和人際關(guān)系的信息復(fù)雜性,在傳統(tǒng)算法的思路基礎(chǔ)上做出以下改進(jìn)。
(1) 改用單個(gè)詞語取代詞向量作為模式。
(2) 使用HITS算法對候選的語言模式和關(guān)系實(shí)體進(jìn)行加權(quán)評估。
(3) 考慮到封閉系統(tǒng)的特點(diǎn),減少迭代次數(shù)、并就每一步擴(kuò)展和提取采用不同的策略(圖1)。
圖 1 改進(jìn)后的實(shí)體和模式提取流程
(4) 原始雪球系統(tǒng)中,辨別的是“存在目標(biāo)關(guān)系的實(shí)體”和“不存在目標(biāo)關(guān)系的實(shí)體”。而在我們的假設(shè)中,每對人物之間總是存在一定的權(quán)勢差,只是實(shí)體之間社會地位相差的程度有異,因此我們根據(jù)模式對文中所有實(shí)體共現(xiàn)場景進(jìn)行遍歷,最后得出的并非一個(gè)區(qū)分系統(tǒng),而是一個(gè)N×N打分矩陣,儲存每一個(gè)人相對于其他所有人的權(quán)勢分值。
(5) 根據(jù)打分矩陣確定主要人物間權(quán)勢關(guān)系,初步?jīng)Q定圖中大多數(shù)邊的方向。
(6) 引入有向圖的最小生成樹算法,以交互頻率為邊權(quán),生成主要人物間社會權(quán)勢關(guān)系的有向加權(quán)無環(huán)圖。
2.3 用種子實(shí)體提取模式詞語
首先,通過文本閱讀和資料分析,我們列出100對存在明確地位差異的人物對作為種子實(shí)體,其中主要以“主-仆”(如“黛玉-紫鵑”、“寶玉-襲人”)、“長-幼”(如“賈母-鳳姐”、“賈政-寶玉”)關(guān)系為主。按照上位者所處的位置順序分為“上對下”和“下對上”兩組種子包。
然后,提取原文中所有在種子之間出現(xiàn)的詞語,統(tǒng)計(jì)其在不同種子之間出現(xiàn)的頻率,并根據(jù)頻率(經(jīng)過詞頻修正)各篩選出前100個(gè)“上對下”和“下對上”的模式詞語。
2.4 引入HITS算法進(jìn)行權(quán)威度評估
HITS (Hyperlink-Induced Topic Search) 算法是1999年由康奈爾大學(xué)的Jon Kleinberg提出的一種基于“樞紐值(hubs)”和“權(quán)威值(authorities)”進(jìn)行網(wǎng)頁質(zhì)量評價(jià)的算法思想。本文引入此方法實(shí)現(xiàn)對實(shí)體和模式的質(zhì)量控制:假設(shè)人物對主要具備“權(quán)威性”,模式詞語主要具備“樞紐性”——即被具有高樞紐性的模式所命中的人物對,具有更為顯著的地位差異;而存在于權(quán)勢差更顯著的人物之間的模式詞語, 能更有效地區(qū)分人物之間的地位差異。最終根據(jù)迭代至基本穩(wěn)定的分值,將“上對下”和“下對上”的模式詞語進(jìn)行排序。
2.5 通過同義詞詞林?jǐn)U充模式詞語范圍
考慮到意義相近的詞語在揭示權(quán)勢關(guān)系的作用上有最大概率和原模式詞語相同,我們運(yùn)用哈爾濱工業(yè)大學(xué)信息檢索研究室《同義詞詞林》(擴(kuò)展版)對模式詞語列表進(jìn)行擴(kuò)增。擴(kuò)展后,分別得到“上對下”模式詞語1 494個(gè)和“下對上”模式詞語1 214個(gè)。然而,由于漢語詞匯的一詞多義現(xiàn)象,其中很多結(jié)果可信度較低。因此,對各1 000余個(gè)詞語再次使用HITS算法評估其質(zhì)量,將小于底限分?jǐn)?shù)(0.000 1)的結(jié)果去掉,并將“上對下”和“下對上”中都出現(xiàn)的重復(fù)詞匯去掉,最終得到“上對下”模式詞語112個(gè),“下對上”模式詞語124個(gè),作為對2.2中所得詞語的修正和擴(kuò)充。
2.6 人物關(guān)系加權(quán)有向無環(huán)圖的生成
將模式詞語作為地位差距的標(biāo)志,遍歷文中所有人名對,對其交互頻率和出現(xiàn)權(quán)勢差異的次數(shù)進(jìn)行統(tǒng)計(jì),得出一個(gè)交互頻率矩陣和雙向的權(quán)勢矩陣。以兩個(gè)矩陣為數(shù)據(jù)基礎(chǔ),結(jié)合最小樹形圖算法,我們希望得到人物關(guān)系的加權(quán)有向無環(huán)圖,將兩點(diǎn)之間交互頻率的對數(shù)值賦值為兩個(gè)點(diǎn)之間的交互邊權(quán),作為親疏程度的衡量。親疏程度在某種程度上反映了社會關(guān)系中子群落的信息,我們使用這種信息對一些偶然交互造成的誤判進(jìn)行校正。例如,彩屏在權(quán)勢矩陣中體現(xiàn)出比賈母更高的地位,而兩人在文中僅有一次交互,數(shù)據(jù)可信性極低,故用對數(shù)計(jì)算剔除是合理的,同時(shí)對于交互次數(shù)多的兩人,其邊權(quán)值自然就大,體現(xiàn)出兩者關(guān)系的緊密。
接下來,再根據(jù)權(quán)勢矩陣,考察圖中每對人物之間的權(quán)勢方向,以明確上述帶權(quán)圖邊的指向。首先計(jì)算出所有人名對的權(quán)勢差的絕對值的平均值,將其作為篩選的閾值。當(dāng)權(quán)勢差高于閾值,保留權(quán)勢更大的方向?yàn)樽罱K無環(huán)圖中兩結(jié)點(diǎn)間方向,若小于等于閾值,則暫時(shí)保留結(jié)點(diǎn)間的雙向關(guān)系,若認(rèn)為之間的相對權(quán)勢并不明顯,但對于權(quán)勢值較高的方向,增加10%的邊權(quán),以保證在之后生成樹的過程中實(shí)際存在的微弱地位優(yōu)勢不會被過強(qiáng)的交互頻率所逆轉(zhuǎn)。
在此圖的基礎(chǔ)上,運(yùn)行最小樹形圖算法最終得到確定的方向。使用最小樹形圖的目的在于得到全局邊權(quán)的最優(yōu)的情況,并依此得到每個(gè)人名對確定的單一權(quán)勢方向。具體來說,對于我們之前得到的有向帶權(quán)的圖,假設(shè)一個(gè)“權(quán)勢至高者”作為根節(jié)點(diǎn)(本文中假設(shè)賈母在文中的地位最高),從根出發(fā),選擇其伸出的邊權(quán)最大的邊來擴(kuò)展下一個(gè)點(diǎn),并從下一個(gè)點(diǎn)重復(fù)這一擴(kuò)展方法,直至所有的點(diǎn)連入圖中,從而得到一個(gè)較優(yōu)解??疾烀恳粋€(gè)點(diǎn)的入邊,如果有比其值更大的未選邊,就要考慮替換,由于圖中不可成環(huán),故有兩種情況:
(1) 如果待替換的邊與原來的邊共圈,替換不產(chǎn)生環(huán),則直接替換(圖2a)。
(2) 如果替換邊與其他邊成環(huán),先替換掉原邊,再考慮打開所成的環(huán)。在從所有連到環(huán)上某點(diǎn)的未選邊中選擇與該點(diǎn)原入邊邊權(quán)差最小的替換環(huán)中邊,若還有環(huán)則放棄,選差第二小的反復(fù)進(jìn)行直至無環(huán)(圖2b)。
圖 2 最小樹形圖算法思路圖解粗箭頭代表待替換邊
通過這樣的算法,我們就成功得到了邊權(quán)和最大《紅樓夢》人物關(guān)系有向無環(huán)圖,即最小樹形圖[13]。
3.1 模式詞匯提取
列舉“上對下”、“下對上”兩種關(guān)系中最終權(quán)重較高的模式詞匯(圖3、表1、表2),可看出,在“上對下”關(guān)系中,模式詞匯之間權(quán)重差距更為明顯;而“下對上”關(guān)系中,模式詞匯的權(quán)重差異則較為緩和。根據(jù)得分最高的模式詞匯,可推測其中社會地位相對較高的人對社會地位較低的人在“命”一詞的使用上有很高的頻率,且一旦這一語素出現(xiàn)于兩個(gè)人之間,二者社會地位懸殊的事實(shí)就很容易被確定下來。而從“下對上”的關(guān)系詞中,直觀上應(yīng)該更為顯著的如“陪”、“扶”等詞匯實(shí)際上得分卻并不如“到”、“睡”一
圖 3 關(guān)系模式詞匯權(quán)重分布示意圖
類從詞義本身偏向中性的詞匯那么高。推測出現(xiàn)這種差異的原因是,在《紅樓夢》這一作品中對于地位高者的威嚴(yán)和權(quán)勢的形象塑造著墨更重(致使相似命令式詞匯出現(xiàn)頻繁),而對于丫鬟和小輩這樣的地位相對較低者,則一來更少作為交際中的主動者(模式詞匯描述的更多是回應(yīng)和反應(yīng)的行動),二來《紅樓夢》中對他們的描寫也更注重人物的獨(dú)特個(gè)性(使得如同“命”一樣千遍一律的詞匯很少出現(xiàn))。
從模式詞匯的提取結(jié)果上看,我們并不能下結(jié)論說每一個(gè)詞匯都能夠獨(dú)自代表一種關(guān)系,甚至其中也有可能出現(xiàn)一些由于主被動關(guān)系無法區(qū)分而混淆的結(jié)果。但是從另一方面說,在對文本進(jìn)行深入研究之前,也無法根據(jù)對詞義的直觀理解來排除結(jié)果。因此我們選擇在關(guān)系提取這一步中驗(yàn)證這些模式詞匯對權(quán)勢關(guān)系的預(yù)測準(zhǔn)確度,來判斷模式詞匯對文中社會地位差異場景的敏感性。
表1 “上對下”關(guān)系模式詞匯舉例
表2 “下對上”關(guān)系模式詞匯舉例
3.2 《紅樓夢》權(quán)勢關(guān)系人物對的提取
對于主要的192個(gè)人物之間的社會地位差異,我們使用模式詞語在其間出現(xiàn)的頻率計(jì)算,對于每兩個(gè)人之間出現(xiàn)雙向有權(quán)邊的情況,保留得分更高的一條,作為權(quán)勢降低的方向。之后,用已知158對具有相對權(quán)勢差異的人物對,進(jìn)行準(zhǔn)確度測試。具體地,對于二者能夠通過一條邊直接連通的人物對,觀察連通方向是否與假設(shè)方向相同,若相同則記為“正確”,反之記為“不正確”;對于二者不能夠通過一條邊直接連通的人物對,在只能往權(quán)勢降低方向行進(jìn)的前提下,觀察從假設(shè)中地位高的一方是否能夠間接連通地位低的一方,以及地位低的一方是否能夠連通地位高的一方。若前一種情況通暢而后一種情況無法到達(dá),記為“正確”,反之記為“不正確”,若兩種情況都可以連通,則記為“不定”。最終,我們得到92個(gè)正確結(jié)果,23個(gè)不正確結(jié)果,以及43個(gè)不定結(jié)果。
3.3 《紅樓夢》社會關(guān)系網(wǎng)絡(luò)模型初探
原始的有向關(guān)系網(wǎng)絡(luò)存在相當(dāng)數(shù)量的環(huán)路,這反映了人際交往過程中地位關(guān)系的復(fù)雜性。因此存在43對人物之間權(quán)勢方向無法確定。例如,湘云和岫煙、湘云和鴛鴦、鳳姐和探春、鳳姐和寶釵等。因此,直接觀察該有向關(guān)系網(wǎng)絡(luò)中人物間等級化關(guān)系和社區(qū)結(jié)構(gòu)劃分并不清晰(圖4a)。
考慮到個(gè)人之間的關(guān)系在實(shí)際交往中可能會有偶然性,即跨越等級的表現(xiàn)(如寶玉和晴雯之間常常出現(xiàn)僭越主仆關(guān)系的互動),但從社群整體來看等級關(guān)系則是相對穩(wěn)定的。因此,我們利用最小樹形圖算法將有向關(guān)系網(wǎng)絡(luò)中的次要的邊去除,形成一個(gè)整體上擁有最強(qiáng)單向依賴關(guān)系的樹,由此得到以數(shù)個(gè)主要人物為中心的多中心輻射狀樹形圖(圖4b、圖4c)。考慮到賈母在紅樓夢中的地位,我們這里選取賈母作為樹根,默認(rèn)沒有權(quán)勢地位明顯高于賈母的人。大多數(shù)(134個(gè))結(jié) 點(diǎn) 都只有一條關(guān)聯(lián)的邊(葉子結(jié)點(diǎn)),而只有少數(shù)結(jié)點(diǎn)(8個(gè))被多余五條邊連接,成為每一簇小社群的中心,通常都是《紅樓夢》中社會地位較高的人物(表3)。其中,賈寶玉的主角效應(yīng)非常顯著,其他人物社會關(guān)系也能在圖中很好地體現(xiàn)出來。
圖 4 《紅樓夢》192個(gè)主要人物網(wǎng)絡(luò)模型(未示權(quán)勢方向)
圖 4(續(xù))
表3 樹形網(wǎng)絡(luò)中出入邊總數(shù)大于5的人物
可以預(yù)期,由于人物間交互信息繁雜,不怎么打交道的兩人之間,容易在少數(shù)往來中偶然命中特征詞匯,造成原始網(wǎng)絡(luò)中一些誤保留的邊。通過生成最小樹形圖刪除一些邊后,這種情況有所改善,使得社會關(guān)系結(jié)構(gòu)能夠更好地體現(xiàn)出來,如圖5所示情況。在原圖中,除去權(quán)重顯著低于反向邊權(quán)的邊后,紫鵑相連的邊共有30條,而雪雁所連的邊有12條。在最小樹形圖算法處理下, 許多邊由于交互頻率過低而被消除,如雪雁和紫鵑與賈母、寶玉之間的邊。然而,這并不代表我們放棄了對這些關(guān)系的判定,雖然沒有被直接相連,我們依然可以從樹形圖中得到紫鵑、雪雁和賈母、寶玉等人之間的關(guān)系。從而很大程度上去除了冗雜交互信息,促進(jìn)有向社交網(wǎng)絡(luò)的可視化。事實(shí)上,這樣的樹狀網(wǎng)絡(luò)直觀地反應(yīng)出了人物的行政權(quán)勢關(guān)系。最小樹形圖算法不僅刪除了許多可疑的邊,還刪除了非直接隸屬(聯(lián)系不夠緊密)關(guān)系的邊,這樣留下的邊往往連接的是有直接上下級關(guān)系的兩人,有利于我們對整個(gè)網(wǎng)絡(luò)的權(quán)勢脈絡(luò)有更加清晰、正確的認(rèn)識。同時(shí),對于文本中沒有直接產(chǎn)生交互關(guān)系的個(gè)體,只要在樹上存在直接連通的通路,就可以預(yù)測其在《紅樓夢》中的相對權(quán)勢關(guān)系。舉例來說,墨雨很少與其他人物有交集,但其處于紫鵑的下級,從而我們可以合理地推斷,與其在同一路徑且位于上層的賈寶玉對于墨雨有社會地位上的優(yōu)勢。也就是說,即使對于非直接隸屬的關(guān)系,我們通過權(quán)勢的可傳遞性以及樹的特點(diǎn),能夠做出合理的推斷。
圖5 樹形網(wǎng)絡(luò)局部特寫(寶玉——黛玉——紫鵑——雪雁)
當(dāng)然,最小樹形圖也有其局限性,對于數(shù)據(jù)稀少的個(gè)體,可能由于全局最優(yōu)的需要而生成我們意料之外的邊,例如,原始關(guān)系數(shù)據(jù)極少的北靜郡王和賈元春,就接入了寶玉的下方,并不太符合實(shí)際的關(guān)系。同樣地,有些與他人交集較少的底層的丫鬟或奴仆,也可能作為個(gè)例接入并非其主人的父節(jié)點(diǎn)。根據(jù)觀察,若不考慮一些個(gè)體由于數(shù)據(jù)不足而產(chǎn)生的問題,樹形圖整體上以很高的準(zhǔn)確度反應(yīng)《紅樓夢》中的權(quán)力制約關(guān)系。
本研究嘗試了在文本語料中提取人物社會階層關(guān)系,建立了反映社會階層關(guān)系的紅樓夢人際關(guān)系網(wǎng)。實(shí)驗(yàn)表明,通過該有向關(guān)系網(wǎng)做出的最小樹形圖能較為準(zhǔn)確地反映《紅樓夢》中192個(gè)主要人物之間的社群結(jié)構(gòu),對多數(shù)人物對之間的社會地位差異的預(yù)測結(jié)果也比較可靠。
相對于以前的研究,此方法的特點(diǎn)有三個(gè);其一,適用于文學(xué)作品一類的小文本,人物關(guān)系復(fù)雜,而交互信息有限的情況;其二,相較于以往的社區(qū)劃分算法,在加入了權(quán)勢依賴關(guān)系是單向且無環(huán)路的約束后,實(shí)現(xiàn)了整體權(quán)勢結(jié)構(gòu)的最優(yōu)。能有效地消除個(gè)別人物角色之間偶然發(fā)生的階層越位的互動帶來的干擾,因此在社會地位的判定上更為精細(xì)。由于階層關(guān)系并非可以單純依據(jù)人物之間的兩兩互動來確定,因此在本研究中我們沒有使用常見的分類器的方案,一開始就盡可能地保留了人物之間所有的雙向關(guān)系,然后再局部對比和全局考量過程中逐漸選擇性刪除邊,最后達(dá)到了好的效果;其三,所得到的權(quán)勢關(guān)系不再局限于有交互事件發(fā)生的個(gè)體之間,而是可以借助連接其他節(jié)點(diǎn)形成通路來間接比較,因此能有很好的預(yù)測性。在權(quán)勢網(wǎng)絡(luò)中的兩個(gè)人物只要有通路,就能唯一判定相互之間的權(quán)勢關(guān)系,而并不要求在文本中兩個(gè)人有實(shí)際的互動。
在人際關(guān)系網(wǎng)絡(luò)研究中加入等級關(guān)系更真實(shí)地還原了社會網(wǎng)絡(luò)中人物之間的社會交往形態(tài)。可以認(rèn)為本文的方法在研究社群劃分、社會關(guān)系變遷和社會結(jié)構(gòu)分析中都存在更大的應(yīng)用潛力。
同時(shí),本研究仍然存在一些局限性。
(1) 可應(yīng)用語料的有限性。如《紅樓夢》這樣出場人物眾多、存在明確而復(fù)雜的人物關(guān)系、等級森嚴(yán)的社會制度的小說非常少。因此,在后續(xù)的探索中,我們考慮嘗試在網(wǎng)絡(luò)論壇的社區(qū)環(huán)境下考察此方法的有效性,并同時(shí)嘗試尋找其他可用語料和應(yīng)用場景。
(2) 由于文學(xué)作品側(cè)重于主角的描寫,眾多配角的出場多是圍繞主角進(jìn)行,而現(xiàn)實(shí)生活中,這樣以一人為核心、其他人之間的關(guān)系都很疏離的情況是不太常見的。且由于最小生成樹的算法特征,無法連入劇情主干的一些成獨(dú)立“小圈子”的節(jié)點(diǎn)們在建樹過程中被逐漸刪去,邊緣化群體之間的關(guān)系無法被觀測到。因此,若考慮將本文方法應(yīng)用于現(xiàn)實(shí)生活中的網(wǎng)絡(luò)社區(qū),尚且需要做更多的嘗試和調(diào)整。
(3) 本文以詞語提取而非詞包提取為主,并沒有特別考慮被動式。分辨“上對下”和“下對上”關(guān)系主要依靠兩個(gè)人物在文本中出現(xiàn)的順序。當(dāng)被動式一類可能造成詞義反轉(zhuǎn)的情況出現(xiàn)時(shí),詞語在兩種關(guān)系方向中的權(quán)重都會降低(主動式和被動式的權(quán)重互相抵消)。這就導(dǎo)致本研究在模式詞語的提取上始終比較保守。在未來大文本的工作中,可以考慮進(jìn)一步使用詞袋模型或更復(fù)雜的語言元素代替單獨(dú)詞組,將被動式等可能造成詞義削弱或反轉(zhuǎn)的因素納入模型中。而在現(xiàn)有的小文本情況下使用詞袋模型等可能會導(dǎo)致每個(gè)候選模式的頻率都比較低。
感謝北京大學(xué)信息科學(xué)與技術(shù)學(xué)院張夢楠、苗睿同學(xué),地球空間學(xué)院李豐翔同學(xué)為本文研究工作提供幫助和支持。
[1] 趙蓉暉編. 社會語言學(xué)[M]. 上海:上海外語教育出版社,2004.
[2] Labov W. The social stratification of English in New York city[M]. Cambridge University Press, 2006.
[3] 祝畹瑾編. 社會語言學(xué)譯文集[M]. 北京:北京大學(xué)出版社,1985.
[4] 祝畹瑾編. 社會語言學(xué)譯文集[M]. 北京:北京大學(xué)出版社,1985.
[5] 胡美馨,吳宗杰. 從先秦與晚清文本看女性身份的話語變遷——一種譜系學(xué)的跨文化分析[J]. 中國社會語言學(xué),2009,2(13): 141-151.
[6] 李佳靜,孫德平. 杭州市稱呼語"老板娘"調(diào)查[J]. 中國社會語言學(xué),2013,1(20): 27-37.
[7] Danescu-Niculescu-Mizil C, Lee L, Pang B, et al. Echoes of power: Language effects and power differences in social interaction[C]//Proceedings of the 21st international conference on World Wide Web. ACM, 2012: 699-708.
[8] Gilbert E. Phrases that signal workplace hierarchy[C]//Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. ACM, 2012: 1037-1046.
[9] Agarwal A, Omuya A, Zhang J, et al. Enron Corporation: You're the Boss if People Get Mentioned to You[C]//Proceedings of the 2014 International Conference on Social Computing. ACM, 2014: 2.
[10] Bramsen P, Escobar-Molano M, Patel A, et al. Extracting social power relationships from natural language[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 773-782.
[11] Agichtein E, Gravano L. Snowball: Extracting relations from large plain-text collections[C]//Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000: 85-94.
[12] 曹雪芹,高鶚. 紅樓夢[M]. 北京:人民文學(xué)出版社,2000.
[13] Kleinberg J M. Hubs, authorities, and communities[J]. ACM Computing Surveys (CSUR), 1999, 31(4es): 5.
Extraction of Power Relationship and Its Corresponding Social Network inTheStoryofStone
CHEN Lei1, HU Yimin1,AI Wei1, HU Junfeng1,2
(1. School of Information Science and Engineering, Peking University, Beijing 100871,China;2. Key Laboratory of Computational Linguistics (Peking University), Ministry of Edncation, Beijing 100871,China)
The study of social status has always been a hot spot in sociolinguistics. In this study, we applied Snowball Algorithm and HITS Algorithm to discover the social relationships in the Chinese novelTheStoryoftheStone. By locating and weighting “Patterns” and “Tuples” iteratively, we construct a relationship network with social class information. Finally, we generate a min-cost arborescence of the social relationships of 192 main characters inTheStoryoftheStonewith Chu-Liu/Edmonds' algorithm. The generated social relationship reflects not only the intimacy and social influences, but also the hierarchical inequality of people. We regard it as a more objective and authentic reflection of social relationship network in class society.
relationship extraction; power relationships; social network analysis; min-cost arborescence
陳蕾(1993—),美國圣路易斯華盛頓大學(xué)博士研究生,主要研究領(lǐng)域?yàn)樯镄畔W(xué)和統(tǒng)計(jì)遺傳學(xué)。E-mail:1100012154@pku.edu.cn胡亦旻(1994—),本科生,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)科學(xué)與技術(shù)。E-mail:1300011764@pku.edu.cn艾葦(1990—),美國密歇根大學(xué)博士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與推薦系統(tǒng)。E-mail:aiwei@pku.edu.cn
1003-0077(2015)05-0185-09
2015-06-26 定稿日期: 2015-09-10
國家自然科學(xué)基金(M1321005);國家自然科學(xué)基金(61472017)
TP
A