王 悅
(天津師范大學(xué)外國(guó)語(yǔ)學(xué)院,天津 300387)
主題學(xué)研究作為比較文學(xué)平行研究的重要分支,是中西文學(xué)文化交流互鑒的重要切入點(diǎn)。傳統(tǒng)意義上,人們對(duì)主題的獲取主要依靠人的直覺(jué)或邏輯概括,[1](P451)主題通常體現(xiàn)在人物和情節(jié)上。[2](P174)但這種傳統(tǒng)“文本細(xì)讀”方式很難做到文本信息的全面覆蓋,尤其當(dāng)涉及多個(gè)文本或文本規(guī)模較大時(shí),準(zhǔn)確性和處理效率將進(jìn)一步降低。當(dāng)前,隨著“新文科”建設(shè)的不斷推進(jìn),計(jì)算機(jī)以其快速、準(zhǔn)確以及大規(guī)模處理能力為包括主題學(xué)在內(nèi)的各類人文研究打開(kāi)了新視野,展現(xiàn)出廣闊的研究前景。海斯(Heise)在2017 年的美國(guó)比較文學(xué)協(xié)會(huì)(ACLA)報(bào)告的開(kāi)篇中也曾反復(fù)指出,當(dāng)前的比較文學(xué)研究更加多元,更加接近世界文學(xué),未來(lái)的比較文學(xué)面臨的最大挑戰(zhàn)是人文研究版圖的快速重塑,需要在繼續(xù)劃清學(xué)科邊界的同時(shí)加強(qiáng)跨學(xué)科、新媒體融合和數(shù)字量化研究。[3](P1-7)數(shù)字化研究已經(jīng)成為當(dāng)前比較文學(xué)研究的重要方向,而“計(jì)算批評(píng)”作為“數(shù)字人文”研究的嶄新路徑,也開(kāi)始引起學(xué)界的關(guān)注和探索。
2000年莫萊蒂(Moretti)在《世界文學(xué)猜想》[4](P54-68)一文中第一次提出了“遠(yuǎn)讀”概念,使文學(xué)研究獲得一種“鳥(niǎo)瞰式的宏觀視野”。[5](P9)該范式顛覆性地革新了文學(xué)研究傳統(tǒng)的“文本細(xì)讀”范式,提出不直接閱讀文本,以犧牲細(xì)節(jié)的豐富性為代價(jià),獲得一種對(duì)系統(tǒng)的整體理解,潛藏著一種對(duì)文學(xué)研究中文本細(xì)讀的經(jīng)典方法的顛覆性挑戰(zhàn)。[6](P178)如都嵐嵐教授所言,“遠(yuǎn)讀實(shí)踐不僅為世界文學(xué)提出了切實(shí)可行的研究路徑,而且推動(dòng)了文學(xué)研究與計(jì)算機(jī)技術(shù)交叉的趨勢(shì)”。[7](P191)過(guò)去的20年間,各大學(xué)和研究機(jī)構(gòu)紛紛開(kāi)始建立數(shù)字人文實(shí)驗(yàn)室,極大地?cái)U(kuò)大了影響研究的范圍和視角,提高了研究精度。
但是,隨著“數(shù)字人文”研究的不斷深入,在巨大的人力物力投入的背后,也有許多質(zhì)疑的聲音。布羅姆(Harold Bloom)在《紐約時(shí)報(bào)》上曾言稱莫萊蒂是“荒謬的”,小說(shuō)、詩(shī)歌、戲劇等文學(xué)帶給我們的不是冷冰冰的數(shù)據(jù),而是指引我們走向充滿智慧的哲理性的思考,而定量研究將文學(xué)從智慧貶為信息。[8](P218)斯皮瓦克(Gayatri Spivak)也認(rèn)為文學(xué)史不是一大堆事實(shí)性數(shù)據(jù)的羅列,而是像百科全書(shū)一樣復(fù)雜。許多學(xué)者認(rèn)為莫萊蒂主張放棄對(duì)單一文本的閱讀是只見(jiàn)“森林”,不見(jiàn)“樹(shù)木”的做法,[9](P191)他們擔(dān)心遠(yuǎn)讀會(huì)取代文本細(xì)讀的樂(lè)趣。甚至莫萊蒂本人也曾在2016年的訪談中感嘆,“數(shù)字人文研究的成果要低于預(yù)期”。[10](P37)對(duì)“數(shù)字人文”研究成果的失望使莫萊蒂在2016年提出了“計(jì)算批評(píng)”[10](P33)這一概念,試圖探索數(shù)字技術(shù)與文學(xué)研究融合的新模式。
“計(jì)算批評(píng)”的概念柔和了“數(shù)字人文”徹底革命人文研究方法的做法,它不否認(rèn)和拋棄傳統(tǒng)的人文批評(píng)方法,恢復(fù)了文學(xué)文本的核心地位,“從而消解了文學(xué)闡釋和經(jīng)驗(yàn)研究之間由來(lái)已久的敵意”。[11](P181)這種數(shù)字化研究不追求世界范圍內(nèi)的宏大圖景,而是更加聚焦作品文本特征的挖掘和比較,因此也被稱為“中距離閱讀”。日本現(xiàn)代文學(xué)研究者霍伊特·朗(Hoyt Long)和美國(guó)和亞太地區(qū)文學(xué)研究學(xué)者蘇真(Richard Jean So)建立的芝加哥大學(xué)文本實(shí)驗(yàn)室,在“遠(yuǎn)讀”的基礎(chǔ)上提出一種“可伸縮閱讀”(Scalable Reading)的概念,即“利用一系列工具和闡釋方法,通過(guò)多尺度的‘透鏡’來(lái)閱讀和分析文本文檔”,[11](P182)進(jìn)一步將“數(shù)字人文”推向“計(jì)算批評(píng)”。這種研究在立足人文學(xué)科自身方法的同時(shí),保持人文領(lǐng)域?qū)?shù)字時(shí)代的開(kāi)放性,是一種數(shù)據(jù)驅(qū)動(dòng)和算法支持的人文研究。
本文選擇了法國(guó)文學(xué)大師加繆出版于1947 年的《鼠疫》和中國(guó)知名作家遲子建2009年出版的描寫(xiě)20世紀(jì)三十年代哈爾濱鼠疫災(zāi)害的《白雪烏鴉》這兩部“存在主義”作品作為分析文本,選取Wordsmith 8.0,Editplus,Antsegment 和Excel 作為主要研究工具,對(duì)兩部小說(shuō)進(jìn)行了全文本數(shù)據(jù)考察和情感極性分析。
(一)研究模型建立 傳統(tǒng)意義來(lái)看,主題學(xué)研究大多從人物和情節(jié)入手?,F(xiàn)有研究對(duì)這兩部作品進(jìn)行的主題分析均采用“人物-主題”的分析模式,基于“文本細(xì)讀”進(jìn)行定性研究,聚焦在“里厄醫(yī)生”“伍連德醫(yī)生”“朗貝爾”“柯塔爾”“太監(jiān)翟役生”“于秀晴”“喜歲”等典型人物的形象分析上。這種關(guān)注個(gè)體人物分析的方式可能會(huì)忽略整部作品作為一個(gè)整體表現(xiàn)出的作品情緒。但如果采用大數(shù)據(jù)分析模式,對(duì)人物名稱進(jìn)行提取很難形成明顯趨勢(shì),情節(jié)方面作為可抽取指標(biāo)的詞類過(guò)于復(fù)雜和多元,也較難捕捉。所以,我們需要對(duì)統(tǒng)計(jì)指標(biāo)進(jìn)行重新思考。
情感極性分析是基于文本的一種數(shù)據(jù)挖掘分析模式,指對(duì)文本的傾向性和觀點(diǎn)態(tài)度的分析挖掘,也稱為傾向性分析,包括情感的極性和強(qiáng)度兩個(gè)維度。按任務(wù)粒度可劃分為詞語(yǔ)級(jí)情感分析、語(yǔ)句級(jí)情感分析和篇章級(jí)情感分析。[12](P78)語(yǔ)料庫(kù)主題學(xué)研究主要是基于詞頻統(tǒng)計(jì)進(jìn)行的。這種研究模式下,認(rèn)為文本是由主題構(gòu)成的,主題卻是由詞語(yǔ)構(gòu)成的。當(dāng)一些具有語(yǔ)義內(nèi)容的實(shí)義詞在多個(gè)文本中頻繁出現(xiàn)時(shí),便可能形成一個(gè)主題。[1](P452)詞語(yǔ)級(jí)的情感分析主要基于兩類詞匯進(jìn)行,即屬性詞和情感詞。屬性詞是關(guān)于描述主體的部位、屬性、性能等方面的詞語(yǔ),如外觀、價(jià)格等;情感詞是對(duì)主題或其特征發(fā)表褒貶觀點(diǎn)的詞語(yǔ),如好、不錯(cuò)、糟糕等。[13](P1)文學(xué)文本中,屬性詞和情感詞通常不會(huì)成對(duì)或相鄰出現(xiàn),因此關(guān)聯(lián)性較弱。所以本文選取了情感詞這一更加確定并凸顯的詞類進(jìn)行提取分析。
在生成的兩部作品的情感詞頻表的基礎(chǔ)上,我們手動(dòng)篩選出情感詞,并將他們分別歸入包括正極性、弱正極性、弱負(fù)極性、負(fù)極性四個(gè)情感極性的17個(gè)情感子極性中,具體極性架構(gòu)見(jiàn)圖1:
(二)研究步驟 由于兩部作品書(shū)寫(xiě)語(yǔ)言不同,而漢語(yǔ)和法語(yǔ)的分詞機(jī)制不同可能對(duì)最后的詞頻統(tǒng)計(jì)對(duì)比造成誤差。漢語(yǔ)語(yǔ)料的詞數(shù)和字?jǐn)?shù)存在較大差距,和英語(yǔ)材料進(jìn)行對(duì)比時(shí)詞頻統(tǒng)計(jì)的可比性將有所降低。因此本文選取了上海譯文出版社2013 年出版的《鼠疫》中文版和人民文學(xué)出版社2010 年出版的《白雪烏鴉》中文版作為建庫(kù)文本,來(lái)統(tǒng)一文本語(yǔ)言。
1.語(yǔ)料庫(kù)建立
首先,使用EditPlus 軟件對(duì)原始文本進(jìn)行降噪處理,使用AntSegment軟件對(duì)文本進(jìn)行分詞處理,最終導(dǎo)入WordSmith8.0生成兩個(gè)可比語(yǔ)料庫(kù)。其中《鼠疫》庫(kù)容486674詞,標(biāo)準(zhǔn)類符型符比(STTR)44.15%,平均句長(zhǎng)9.45;《白雪烏鴉》庫(kù)容553200 詞,標(biāo)準(zhǔn)類符型符比(STTR)55.43%,平均句長(zhǎng)16.95??偟膩?lái)看,庫(kù)容詞數(shù)相當(dāng),可比性較強(qiáng),《白雪烏鴉》的詞類稍顯豐富。使用WordSmith8.0詞表功能生成兩部作品的詞頻表(Word list),最低詞頻設(shè)定為8。生成的兩個(gè)詞表中,《鼠疫》詞頻大于8次的詞條2658個(gè),《白雪烏鴉》2919個(gè),兩部作品生成的有效詞匯類符數(shù)量大致相當(dāng),可比性較強(qiáng)。
2.情感極性聚類處理
在WordSmith 生成詞表的基礎(chǔ)上,篩選出《鼠疫》中情感詞135個(gè),《白雪烏鴉》中情感詞99個(gè)。依照情感極性架構(gòu)(圖1),我們將兩部作品中的情感詞匯進(jìn)行聚類處理,并計(jì)算出每個(gè)子極性詞匯的聚類總詞頻。從統(tǒng)計(jì)結(jié)果來(lái)看,《白雪烏鴉》中的正極性總詞頻(1272)略多于負(fù)極性總詞頻(1228),而《鼠疫》中的負(fù)極總詞頻(1636)略多于正極性總詞頻(1562),這說(shuō)明后者的整體情感氛圍較為低沉,而前者情感氛圍則較為溫暖。另外,在生成的總詞表中,《白雪烏鴉》出現(xiàn)大于8 次的類符數(shù)較之《鼠疫》多出261 個(gè),但生成的情感詞匯表中,《鼠疫》中的情感詞匯總詞頻卻多于《白雪烏鴉》,這表明相比之下,《鼠疫》這部作品的情感表達(dá)更為頻繁和密集。此外,兩部作品中的情感子極性分布也體現(xiàn)出較大差異性,所以我們需要生成情感子極性分布圖來(lái)進(jìn)行更進(jìn)一步的觀察。
3.情感極性分析
將兩部作品統(tǒng)計(jì)出的聚類情感詞頻數(shù)據(jù)導(dǎo)入Excel 軟件,生成情感正負(fù)極分布餅形圖和子極性分布雷達(dá)圖(圖2、圖3)。我們可以看到,《白雪烏鴉》中的正極性情感詞匯占比52%,明顯多于《鼠疫》中的41%,這表示《白雪烏鴉》這部作品的情感表達(dá)較為積極外顯。而《鼠疫》中的弱極性情感表達(dá)(33%)則明顯多于《白雪烏鴉》(23%),說(shuō)明《鼠疫》中的情感表達(dá)較為含蓄內(nèi)斂,也就是說(shuō)《鼠疫》在情感表達(dá)方面的表述更加理智和冷靜。負(fù)極性情感詞匯在兩部作品中的占比大致相當(dāng),表示兩部作品對(duì)悲傷和痛苦的直接表達(dá)程度大致相同。
圖2 《鼠疫》情感詞匯子極性分布圖
圖3《白雪烏鴉》情感詞匯子極性分布圖
在情感詞匯子極性分布圖(圖2、圖3)中,我們可以看到更精確的情感構(gòu)成情況。首先,在正向極性一側(cè),《白雪烏鴉》中詞頻數(shù)最高的四個(gè)子極性為高興(464)、肯定(338)、喜愛(ài)(316)和憧憬(70);《鼠疫》中詞頻數(shù)最高的三個(gè)子極性為高興(558)、肯定(208)、反抗(198)和喜愛(ài)(180)。我們確實(shí)可以看到,《白雪烏鴉》這部作品更加凸顯“憧憬”這種情感,更著重體現(xiàn)了絕望中的希望和溫情。而《鼠疫》中“反抗”這個(gè)子極性卻非常突出,《白雪烏鴉》中“反抗”這個(gè)子極性基本沒(méi)有出現(xiàn),詞頻總數(shù)為零,而且《鼠疫》中“勇氣”子極性詞頻總數(shù)(154)也明顯多于《白雪烏鴉》(28),因此《鼠疫》中一個(gè)較為突出的主題就是面對(duì)無(wú)序荒誕世界所進(jìn)行的希緒弗斯式的反抗。這兩方面的突出數(shù)據(jù)與之前“文本細(xì)讀”模式下得出的結(jié)論基本一致。
但我們也發(fā)現(xiàn)了一些模糊地帶和新的主題分支?,F(xiàn)有研究普遍認(rèn)為《鼠疫》的主題相對(duì)冷峻,而《白雪烏鴉》則更多地表達(dá)“苦難中的溫情”以及“對(duì)死亡的終極關(guān)懷”。[14](P39-43)但從數(shù)據(jù)上來(lái)看,《鼠疫》中表達(dá)“憧憬”的總詞頻為136,占到正向總詞頻的8.7%,而《白雪烏鴉》中“憧憬”子極性詞頻總數(shù)為70,在正向總詞頻中的占比僅為5.5%。事實(shí)上,《鼠疫》中也表達(dá)了憧憬和希望的主題,而且占比高于《白雪烏鴉》,只是由于《鼠疫》中的情感極性較為豐富,在文本細(xì)讀過(guò)程中很難發(fā)現(xiàn)。除此之外,在兩部作品情感極性的對(duì)比中,我們可以看到“理性”這一子極性也存在巨大差異?!妒笠摺分蟹磸?fù)出現(xiàn)“冷靜”“耐心”“理智”等表現(xiàn)理性的情感詞,占到正向總詞頻的6.3%左右,但《白雪烏鴉》中卻沒(méi)有明顯體現(xiàn)。這就構(gòu)成了《鼠疫》中另一個(gè)差異性主題,即西方民族在重大危機(jī)面前的個(gè)人智慧和理性,這與西方文明從文藝復(fù)興到啟蒙運(yùn)動(dòng)建立起的理性主義文化是十分契合的,同時(shí)這與中國(guó)的集體主義人文關(guān)懷也存在顯著差異,這一點(diǎn)在現(xiàn)有的作品主題分析中則很少提及。
相對(duì)正極性詞匯一側(cè),負(fù)極性詞匯一側(cè)體現(xiàn)出更大的差異性,蘊(yùn)藏了更多的差異性主題。《白雪烏鴉》和《鼠疫》中“悲傷”這個(gè)子極性都占到了最大份額,表明兩部作品都表達(dá)了人類面臨疫情和死亡時(shí)所表現(xiàn)出了共通的悲傷情緒。但《白雪烏鴉》中更加突出“恐懼”和“憤怒”,詞頻總數(shù)分別為318和138,在負(fù)極性一側(cè)占比28.2%和11.2%。而《鼠疫》中更為突出的子極性則為“痛苦”和“忍受”,詞頻總數(shù)分別為390和198,在負(fù)極性一側(cè)占比23.8%和12.1%。除此之外,《鼠疫》中還出現(xiàn)了《白雪烏鴉》中很少出現(xiàn)的兩個(gè)情感子極性,“孤獨(dú)”和“焦慮”。綜合負(fù)極性詞匯一側(cè)我們可以看到,在情緒的表達(dá)方面兩部作品存在巨大差異,《白雪烏鴉》中的負(fù)面情緒表達(dá)較為外顯,而《鼠疫》中的負(fù)面情緒更多體現(xiàn)在個(gè)體人物內(nèi)心,較為內(nèi)斂。
在語(yǔ)料庫(kù)文本挖掘工具的幫助下,我們發(fā)現(xiàn)《白雪烏鴉》和《鼠疫》這兩部同題材的中西疫情小說(shuō)雖然都是基于重大災(zāi)難這一母題展開(kāi),卻體現(xiàn)出“理性”和“感性”、“內(nèi)”和“外”、“散”和“聚”的異質(zhì)主題,折射出中西方民族的異質(zhì)文化身份和價(jià)值體系:《白雪烏鴉》中的人物更加感性,面對(duì)苦難更傾向于在傾訴中獲得慰藉和希望,體現(xiàn)為集體主義精神;而《鼠疫》中人們則表現(xiàn)出更多的理性力量、孤獨(dú)的感受以及對(duì)苦難的忍受,體現(xiàn)為個(gè)人主義精神。這些結(jié)論在現(xiàn)有研究中都鮮有提及,在一定程度上體現(xiàn)了“計(jì)算批評(píng)”主題學(xué)研究對(duì)現(xiàn)有研究范式的補(bǔ)充作用和方法論意義。另外,此次研究拋棄了較為成熟的以“人物”和“情節(jié)”構(gòu)建作品主題的方式,嘗試從“情感”角度提取作品主題,進(jìn)行了主題學(xué)“計(jì)算批評(píng)”領(lǐng)域的進(jìn)一步探索。
“遠(yuǎn)讀”概念催生的大數(shù)據(jù)研究方法推動(dòng)了“計(jì)算批評(píng)”研究范式的發(fā)展。數(shù)字時(shí)代來(lái)臨后,研究者有限的精力與幾乎無(wú)窮的文本之間的矛盾更加突出。[6](P180)借助計(jì)算機(jī)技術(shù),我們可以伸縮文學(xué)觀察批評(píng)的視野,在“細(xì)讀”和“遠(yuǎn)讀”之間建立起一座橋梁?!皵?shù)字人文”研究方法不是對(duì)傳統(tǒng)文學(xué)研究方法的替代和拋棄,而是多維度補(bǔ)充。正如紐約城市大學(xué)教授理查德·麥克斯威爾曾提到的那樣:“莫萊蒂的《歐洲小說(shuō)地圖》關(guān)鍵并不在于他所說(shuō)的一切都正確無(wú)誤,而在于它開(kāi)啟了討論的空間”。[8](P215)雖然當(dāng)前“計(jì)算批評(píng)”文學(xué)研究還不夠成熟,但這并不妨礙它成為文學(xué)研究的重要研究方向。