張 云
信息技術(shù)的發(fā)展推動了古典文學(xué)研究的進(jìn)程,主要表現(xiàn)在數(shù)據(jù)采集、數(shù)據(jù)檢索等方面,如《文淵閣四庫全書電子版》《四部叢刊電子版》《中國基本古籍庫》等都是古籍?dāng)?shù)據(jù)化的成果。隨著大數(shù)據(jù)、云計算、圖像檢索技術(shù)的發(fā)展,2005年李鐸就提出人文學(xué)科要進(jìn)入“數(shù)據(jù)分析”[1]時代。古典文學(xué)是古代文人的精神產(chǎn)品,具有復(fù)雜性、多樣性的特征,形象化、概括性強,在應(yīng)用數(shù)據(jù)分析法時會出現(xiàn)應(yīng)用誤差。而數(shù)據(jù)分析法在古典文學(xué)中的應(yīng)用現(xiàn)狀如何,針對古典文學(xué)自身屬性特征怎樣應(yīng)對出現(xiàn)的應(yīng)用誤差,是古典文學(xué)研究者值得思考的問題。
數(shù)據(jù)分析法是對數(shù)據(jù)特征、數(shù)量關(guān)系和數(shù)量變化進(jìn)行分析與研究的一種方法,最初應(yīng)用于社會科學(xué)研究。其后,人文科學(xué)尤其是經(jīng)濟(jì)史研究中數(shù)據(jù)分析法的引入,使該研究法迅速興起、綻放光彩。因為更容易找到量化研究的對象,隨之而來的計量語言學(xué)逐漸衍生,為文學(xué)的數(shù)據(jù)分析研究奠定了基礎(chǔ)。在這樣一個引入和發(fā)展的過程中,社會科學(xué)研究所使用的微積分、方程解析等方法并未引入文學(xué)研究領(lǐng)域,文學(xué)研究中的數(shù)據(jù)分析尚停留在基礎(chǔ)統(tǒng)計階段,雖有建模研究的嘗試,但是在古典文學(xué)數(shù)據(jù)關(guān)聯(lián)性的深度挖掘與分析方面仍有欠缺。
基礎(chǔ)數(shù)據(jù)統(tǒng)計分析是古典文學(xué)研究中比較常見的應(yīng)用方法。袁行霈在《中國詩歌藝術(shù)研究》中廣泛應(yīng)用了這種方法:“在李賀現(xiàn)存的240多首詩中,共用了2494個不同的字。其中:‘冷’字19次,‘凝’字16次,‘啼’字29次?!薄啊痘ㄩg集》里出現(xiàn)的頻率和用法:‘冷’字42次,‘凝’字26次,‘啼’字35次?!蓖ㄟ^數(shù)據(jù)分析,得出如下結(jié)論:從以上例句可以看出,花間詞人在詞語的選擇和運用上是多么接近長吉[2]。此外,楊公驥在《中國文學(xué)》一書中統(tǒng)計《詩經(jīng)》的章節(jié)用字量為2950個左右,其中動詞達(dá)300個以上,比例超過十分之一,以此推斷出這些動詞的運用對中國古代文學(xué)豐富表現(xiàn)力的影響。劉尊明在詞學(xué)研究中也多用數(shù)據(jù)統(tǒng)計分析,就柳永詞用調(diào)研究而言,其通過統(tǒng)計分析柳永詞“孤調(diào)”的數(shù)量和占比,得出“柳永大膽用調(diào)、積極創(chuàng)調(diào)等方面的創(chuàng)作成就”。袁行霈、楊公冀、劉尊明通過古典文學(xué)字詞,用調(diào)頻率的統(tǒng)計發(fā)現(xiàn)問題、分析問題,這種方法是數(shù)據(jù)分析法在文學(xué)研究中最常見的一種應(yīng)用方式,在當(dāng)下文學(xué)研究和論文寫作中也有廣泛應(yīng)用。
除了基本的數(shù)據(jù)統(tǒng)計分析之外,劉石在《大數(shù)據(jù)技術(shù)與古代文學(xué)經(jīng)典文本分析研究》中提到要利用計算機、統(tǒng)計學(xué)的技術(shù)手段,發(fā)掘文本組織的特征及相互關(guān)系,利用定量統(tǒng)計、分析的方法,選擇先秦至明清時段古代文學(xué)經(jīng)典文本進(jìn)行相似性、關(guān)聯(lián)性、規(guī)律性研究,有望解決古典文學(xué)研究領(lǐng)域長期存在的疑而難決的“作品歸屬、作品辨?zhèn)?、異文辨析、修辭特色、風(fēng)格生成、題材變遷、因革影響等方面的問題”[3]。
此外,一些學(xué)者也從數(shù)據(jù)建模角度進(jìn)行了積極有益的嘗試。王兆鵬在《宋詞排行榜》中選取了“選本、互聯(lián)網(wǎng)頁、評點、研究論文和唱和”[4]五個指標(biāo)并進(jìn)行了一級權(quán)重劃分,在此基礎(chǔ)上對不同時代的詞選影響力進(jìn)行了二級權(quán)重劃分,最終形成了系統(tǒng)的數(shù)據(jù)分析研究模型。以此為基礎(chǔ),推導(dǎo)得出宋詞排行榜。此外,王兆鵬也運用文獻(xiàn)計量的方式,在唐詩排行榜方面做了同樣的嘗試。在文獻(xiàn)計量學(xué)中,存在主觀賦權(quán)和客觀賦權(quán)兩種評判方式。為統(tǒng)計唐詩在后代傳播、接收過程中的關(guān)注度,結(jié)合文學(xué)研究的特點,王兆鵬從四個維度對數(shù)據(jù)進(jìn)行了加權(quán)處理,通過主觀賦權(quán)的評判法計算出唐詩排名。王兆鵬選取的四個維度分別是“歷代選本入選唐詩的數(shù)據(jù)、歷代評點唐詩的數(shù)據(jù)、20世紀(jì)研究唐詩的論文數(shù)據(jù)、文學(xué)史著作選介唐詩的數(shù)據(jù)”[5]。通過四個維度的數(shù)據(jù)加權(quán)與計量排名,王兆鵬給出了唐詩中七律、五律、七絕、五絕的排行榜答案:崔顥的《黃鶴樓》為七律之首,杜甫的《登岳陽樓》為五律之首,王維的《送元二使安西》為七絕之首,王之渙的《登鸛雀樓》為五絕之首。
這種研究方法無疑是對基礎(chǔ)統(tǒng)計分析的一次升華,也是對數(shù)據(jù)分析法的一次有益嘗試。
隨著古典文學(xué)研究領(lǐng)域?qū)<覍W(xué)者與計算機或統(tǒng)計學(xué)領(lǐng)域?qū)<覍W(xué)者的深入研究,尤其是隨著知識圖譜在古典文學(xué)領(lǐng)域的應(yīng)用,各類古詩詞數(shù)據(jù)平臺逐漸豐富、成熟。自“《全唐詩》檢索系統(tǒng)”“《全宋詩》分析系統(tǒng)”的建設(shè)伊始,近些年涌現(xiàn)出一批諸如唐詩別苑、Know-Poetry、搜韻、唐宋文學(xué)編年地圖等詩詞知識圖譜平臺,為古詩詞領(lǐng)域碎片化知識的關(guān)聯(lián)整合、詩詞信息的檢索提供了更加便捷的路徑。其中,“唐詩別苑”由北師大研發(fā),可以通過關(guān)鍵字對詩作、詩人、地理、風(fēng)格、題材、意象等信息進(jìn)行檢索呈現(xiàn);搜韻網(wǎng)則收錄約90萬首古今詩詞作品,可以通過關(guān)鍵詞、字詞位置、作者、朝代、體裁、韻部等字段檢索;兩者都為更精準(zhǔn)地獲取數(shù)據(jù)提供了便捷高效的指引。
但無論是頻率統(tǒng)計還是數(shù)據(jù)建模,都只是側(cè)重數(shù)量方面的研究,數(shù)據(jù)關(guān)聯(lián)度的挖掘仍存在一些不足。1998年《哈佛商業(yè)評論》刊載的“啤酒與尿布”案例可謂是數(shù)據(jù)關(guān)聯(lián)研究方面的典型。沃爾瑪員工發(fā)現(xiàn)“啤酒”與“尿布”經(jīng)常出現(xiàn)在同一購物籃,而且這種關(guān)聯(lián)往往出現(xiàn)在年輕的父親身上。于是,沃爾瑪調(diào)整策略,將“啤酒”與“尿布”同置,極大地提升了銷量①根據(jù)《哈佛商業(yè)評論》原文進(jìn)行簡化改寫,保留原文事件和觀點,簡化細(xì)節(jié),以此說明。。類似這種關(guān)聯(lián),給文學(xué)研究提供了一個新的視角:是否有一些貌似不相關(guān)的內(nèi)容背后有某種關(guān)聯(lián)因素可供文學(xué)研究挖掘。而大數(shù)據(jù)技術(shù)的發(fā)展為關(guān)聯(lián)度的研究提供了更廣泛的可能。鄭永曉在《加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變——“大數(shù)據(jù)”“云計算”理論與古典文學(xué)研究》中闡述了大數(shù)據(jù)關(guān)聯(lián)研究的價值:“基于大數(shù)據(jù)的思維特別注重事物間的關(guān)系,在分析文學(xué)與外部因素關(guān)系時,有可能發(fā)現(xiàn)其他此前我們從未注意的現(xiàn)象與文學(xué)的關(guān)系……”[6]但是,目前就文學(xué)研究中大數(shù)據(jù)價值挖掘與應(yīng)用的案例和實踐研究成果僅僅是揭開了冰山的一角,未來仍有廣闊的研究空間有待后來者進(jìn)一步研究和發(fā)掘。
總體來看,古典文學(xué)研究領(lǐng)域的數(shù)字化進(jìn)程目前仍停留在古籍?dāng)?shù)字化、數(shù)字檢索化和數(shù)據(jù)平臺搭建的階段。利用數(shù)據(jù)平臺分析古典文學(xué)遇到的風(fēng)格生成、文體特色、題材變遷等文學(xué)問題因無前車之鑒,因此任重而道遠(yuǎn)。
數(shù)據(jù)分析研究通常比平常的對比分析研究、鑒賞評論所得出的結(jié)果更穩(wěn)定。因為數(shù)據(jù)分析法的研究對象是固定的數(shù)據(jù)量,而且隨著基數(shù)的增加,結(jié)果的穩(wěn)定性會更高。但是,數(shù)據(jù)選取、數(shù)據(jù)處理、數(shù)據(jù)分析、應(yīng)用范圍的差異很可能出現(xiàn)截然相反的研究結(jié)果。
數(shù)據(jù)是數(shù)據(jù)分析法賴以生存的基礎(chǔ)。如果沒有準(zhǔn)確、恰當(dāng)?shù)臄?shù)據(jù),準(zhǔn)確的研究結(jié)論就無從談起。陳尚君統(tǒng)計《全唐詩》共收詩49403首,輯?!度圃娧a編》收逸詩6327首,唐詩總計55730首,殘句3060條,涉及唐代詩人3700位左右。但尚永亮在《數(shù)據(jù)庫、計量分析與古代文學(xué)研究的現(xiàn)代化進(jìn)程》中,對《全唐詩》《全唐詩補編》《全唐詩逸》《中國文學(xué)家大辭典·唐五代卷》等相關(guān)文獻(xiàn)數(shù)據(jù)做了重新統(tǒng)計,得出現(xiàn)存唐詩50454首,作者3228人的結(jié)論[7]。
二者的差異與基礎(chǔ)數(shù)據(jù)統(tǒng)計材料的選取有直接關(guān)系??梢?,數(shù)據(jù)來源和選取對數(shù)據(jù)分析結(jié)果的準(zhǔn)確性會產(chǎn)生較大的影響。除此之外,能否選取恰當(dāng)?shù)臉颖緮?shù)據(jù)也是影響研究結(jié)果的一個重要因素。曹操的詩歌在明代以前并不算出名,然而隨著明代古詩地位被重新確定,文論家、讀者、商業(yè)刊印者等目標(biāo)受眾或褒或貶、或抑或揚的評判都對曹操詩歌作品的文學(xué)地位產(chǎn)生了相應(yīng)的影響。
類似隨時代變遷而詩文地位不同的情況也發(fā)生在陶淵明、杜甫身上?!端螘贰稌x書》《南史》等史傳中都把陶淵明放入《隱逸傳》之中,很少提及其文學(xué)成就;鐘嶸在《詩品》之中只將陶淵明的作品列入“中品”;劉勰在《文心雕龍》之中也未提及陶淵明,因此這個歷史時期陶淵明都不是以詩文而聞名。至梁代,昭明太子蕭統(tǒng)對陶淵明有了較高評價,并且親自為其作傳;此后歷經(jīng)唐、五代,至北宋年間,陶淵明的詩歌地位才得以上升。蘇軾創(chuàng)作《和陶詩》共135首,對陶淵明詩歌逐一和作,對陶淵明詩歌地位的提升有重要作用。
在這個過程中,政治、歷史、文學(xué)風(fēng)尚等諸多因素的博弈產(chǎn)生了所謂的“名家”“名作”。如今做計量研究,如何剝離過往諸多因素的影響,在不同的代表性選本中抽取恰當(dāng)?shù)臉颖咀鳛閿?shù)據(jù)基礎(chǔ)是一個不小的考驗。因此,能否對選擇樣本的影響因素進(jìn)行充分的研究,理清最能夠代表樣本的目標(biāo)選本,將直接影響到數(shù)據(jù)分析結(jié)果的可信度。
數(shù)據(jù)清洗和分類處理是數(shù)據(jù)分析的前提,清洗和分類的科學(xué)性也將影響數(shù)據(jù)分析結(jié)果的信度與效度。所謂數(shù)據(jù)清洗,就是根據(jù)數(shù)據(jù)統(tǒng)計分析的標(biāo)準(zhǔn),對前期獲取的大量文獻(xiàn)數(shù)據(jù)進(jìn)行有效性檢測和樹立,篩選并提出冗余和無效信息的處理過程。因此,數(shù)據(jù)清洗工作的完善程度也將直接影響數(shù)據(jù)分析結(jié)果的精度與質(zhì)量。
除此之外,李炳海在《中國古代文學(xué)的定量、定性和定位研究》中強調(diào):“以類別劃分為基礎(chǔ)的定量分析是發(fā)現(xiàn)問題的開始?!灶悇e劃分為基礎(chǔ)的定量研究,可以使問題由模糊變得明朗……分類方式的確定在很大程度上制約定量研究的成敗,這里歸根結(jié)底是一個視角問題,是學(xué)術(shù)眼光和思維方式在發(fā)揮作用。”[8]由此可見,數(shù)據(jù)分類處理是否得當(dāng)也可能造成研究結(jié)果的誤差出現(xiàn)。
20世紀(jì)80年代中后期,美籍華裔陳炳藻從數(shù)理統(tǒng)計的觀點出發(fā),對《紅樓夢》的用字規(guī)律做了統(tǒng)計分析。通過《紅樓夢》前80回與后40回用字相關(guān)度的分析,得出了這樣的研究結(jié)論:《紅樓夢》前后120回內(nèi)容均由曹雪芹所作。但此后深圳大學(xué)的錢學(xué)烈和復(fù)旦大學(xué)的李賢平利用同類方法再次統(tǒng)計分析,得出的結(jié)論卻是:前80回與后40回的作者并非同一人。這兩項研究結(jié)果可謂大相徑庭。兩者同樣是對具體字詞使用頻率進(jìn)行的統(tǒng)計分析,之所以結(jié)論不同,是因二者所采用的統(tǒng)計分析方法不同。因此,降低數(shù)據(jù)分析法研究誤差的方法之一就是慎重地選擇數(shù)據(jù)分析的方法。
韋勒克、沃倫在文學(xué)研究中進(jìn)行了“內(nèi)部研究”與“外部研究”的劃分。從文學(xué)的內(nèi)部研究角度來看,計量方法的適用范圍并不十分廣闊,主要集中在意象分析和語言風(fēng)格分析方面。袁行霈的《中國詩歌藝術(shù)研究》在對溫庭筠詞作藝術(shù)的研究中就對溫詞的意象進(jìn)行了統(tǒng)計分析:“溫詞里寫‘眉’十二次,有以山喻‘眉’者,如‘眉黛遠(yuǎn)山綠’;寫‘鬢’八次,如‘鬢云殘’‘鬢如蟬’;寫‘釵’六次,寫‘鈿’六次,寫‘屏’七次,‘玉釵’‘玉鉤’‘玉爐’共有十九次之多。”通過這些意象的統(tǒng)計對溫詞中著力描述婦女生活的特性進(jìn)行了分析和印證[9]。
在語言風(fēng)格方面,前者已有提及,袁行霈在《中國詩歌藝術(shù)研究》中將李賀詩詞與《花間集》的語言風(fēng)格進(jìn)行了統(tǒng)計數(shù)據(jù)對比分析,通過“冷”“凝”“咽”“啼”“垂”“寒”“幽”“死”“淚”“老”十個用詞風(fēng)格進(jìn)行數(shù)據(jù)對比,分析了二者之間的關(guān)聯(lián)。以上二者是計量方法研究范圍的一個典型例證,超越此范圍的研究應(yīng)用仍存在一些困難,需要做進(jìn)一步的驗證。因此,超范圍的使用可能會帶來研究成果的誤差。
此外,由于文學(xué)獨特的審美特性,也不能僅憑統(tǒng)計分析結(jié)果就想逼近審美判斷。劉石、孫茂松在《大數(shù)據(jù)時代的古典文學(xué)研究》中也提道:“文學(xué)性問題的提出和分析處理不可能完全交給機器,也就不可能完全交給技術(shù)專家。相反,從問題的設(shè)置到語料的選取再到分析結(jié)果的解讀、意義的闡釋、體系的構(gòu)建等,都將由古代文學(xué)和文獻(xiàn)學(xué)相關(guān)領(lǐng)域高水平的專家學(xué)者完成?!保?0]研究結(jié)果的誤差一方面體現(xiàn)了文學(xué)研究“橫看成嶺側(cè)成峰”的現(xiàn)象,另一方面也讓研究者重新審視其現(xiàn)狀與意義。雖然從理論上看,每一次數(shù)據(jù)分析都可能存在誤差,但是對誤差產(chǎn)生原因的深入理解和判斷、對新方法的引入與應(yīng)用都有可能幫助他們在數(shù)據(jù)分析研究中最大限度地接近真相、還原真相。