馬創(chuàng)新,陳小荷
(1. 江蘇師范大學(xué) 語(yǔ)言科學(xué)與藝術(shù)學(xué)院,江蘇 徐州 221009;2. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
古今中外存在著很多作者存疑的文獻(xiàn),具體情況包括: 有些文獻(xiàn)本來(lái)就沒有作者署名;有些文獻(xiàn)署的是作者筆名,而世人無(wú)法確定該筆名在現(xiàn)實(shí)世界中的所指人物對(duì)象;有些文獻(xiàn)有具體可查的署名作者,但世人對(duì)該文獻(xiàn)作者的真實(shí)性產(chǎn)生懷疑或有爭(zhēng)議。比如,俄裔作家索爾仁尼對(duì)于《靜靜的頓河》是否為肖洛霍夫所寫表示公開質(zhì)疑,他認(rèn)為《靜靜的頓河》這樣的鴻篇巨著,不是當(dāng)時(shí)只有20多歲的年輕人——肖洛霍夫所能寫出的,還有人懷疑肖洛霍夫抄襲了已故作家克魯烏可夫的作品[1]。狄更斯和馬克·吐溫對(duì)于《羅密歐和朱麗葉》是否為莎士比亞所寫也表示過懷疑,因?yàn)樗麄冇X得莎士比亞的出身為英國(guó)平民,而《羅密歐和朱麗葉》描寫的是意大利上流社會(huì)的生活[2]。中國(guó)古典小說(shuō)《紅樓夢(mèng)》的作者也有懸疑,有些學(xué)者認(rèn)為《紅樓夢(mèng)》全書120回為同一人所作,而有些學(xué)者認(rèn)為前80回與后40回并非同一人所作[3]。
對(duì)于如何確定存疑文獻(xiàn)的真實(shí)作者,我們認(rèn)為可以從高頻詞的等級(jí)相關(guān)度方面來(lái)分析這個(gè)問題。相對(duì)于中低頻詞型來(lái)說(shuō),文獻(xiàn)中出現(xiàn)的高頻詞中,連詞、介詞和副詞占有更大的比例。如果把寫文章比作蓋房子的話,名詞、動(dòng)詞、形容詞等實(shí)詞就相當(dāng)于磚瓦等建筑材料,連詞、介詞和副詞等虛詞就相當(dāng)于水泥、黃沙等黏合材料。同一作者在寫作兩部題材不同的作品時(shí),兩部作品中所使用的名詞重合度會(huì)比較低,但所用的連詞、介詞和副詞等虛詞重合度會(huì)較高[4-5]。我們所提出的方法是基于這樣的考慮: 兩部文獻(xiàn)語(yǔ)言風(fēng)格的差異不僅體現(xiàn)在詞型的重合度上,還更細(xì)微地體現(xiàn)在高頻詞的等級(jí)相關(guān)度上。如果兩部作品是同一作者所寫,那么它們的相關(guān)系數(shù)就會(huì)比較高;如果兩部作品是不同作者所寫,那么它們的相關(guān)系數(shù)就會(huì)比較低。
1984年,挪威奧斯陸大學(xué)的一個(gè)統(tǒng)計(jì)學(xué)家領(lǐng)導(dǎo)一個(gè)小組統(tǒng)計(jì)三組文獻(xiàn)中的詞語(yǔ)特征,三組文獻(xiàn)分別是肖洛霍夫的確認(rèn)作品、存疑作品《靜靜的頓河》、克魯烏可夫的作品。他們先是統(tǒng)計(jì)不同詞匯量與總詞匯量的比值,三組分別是65.5%、64.6%、58.9%;再選擇最常見20個(gè)俄語(yǔ)單詞,統(tǒng)計(jì)它們出現(xiàn)的頻率,分別是22.8%、23.3%、26.2%;然后統(tǒng)計(jì)出現(xiàn)多于一次的詞語(yǔ)所占百分比,分別是80.9%、81.9%、76.9%。上述三種統(tǒng)計(jì)結(jié)果都顯示,肖洛霍夫比克魯烏可夫更有可能是《靜靜的頓河》的真正作者[6]。
在《紅樓夢(mèng)》作者信息的研究方面,最早使用統(tǒng)計(jì)方法展開研究的是瑞典漢學(xué)家高本漢。高本漢(1952年)選取了32種語(yǔ)法、詞匯現(xiàn)象,統(tǒng)計(jì)它們?cè)凇都t樓夢(mèng)》等五部作品中的出現(xiàn)頻率。高本漢根據(jù)統(tǒng)計(jì)結(jié)果,認(rèn)為《紅樓夢(mèng)》全書120回為同一人所作[7]。1980年,在美國(guó)威斯康星大學(xué)舉行的《紅樓夢(mèng)》研討會(huì)上,陳炳藻發(fā)表論文“從詞匯上的統(tǒng)計(jì)論《紅樓夢(mèng)》的作者問題”,他把《紅樓夢(mèng)》分為三組,分別是1~40回、41~80回、81~120回,另外還配上了《兒女英雄傳》。他按一定比例從各組中抽選特定詞類,再統(tǒng)計(jì)各組詞語(yǔ)之間的相關(guān)系數(shù),計(jì)算出《紅樓夢(mèng)》前80回和后40回的詞匯相關(guān)度為78.57%,而《紅樓夢(mèng)》與《兒女英雄傳》的詞匯相關(guān)度僅為32.14%。由此認(rèn)為《紅樓夢(mèng)》前80回和后40回為一人所作[8]。
劉鈞杰在《紅樓夢(mèng)》前80回中選取40回,和后40回進(jìn)行比較,對(duì)六項(xiàng)語(yǔ)言材料在前部和后部的出現(xiàn)進(jìn)行統(tǒng)計(jì)比較,結(jié)論是前、后的語(yǔ)言風(fēng)格存在明顯差異[9]。陳大康選取27個(gè)詞、46個(gè)字,考察它們?cè)凇都t樓夢(mèng)》前后出版的情況,并且分析89 758個(gè)句子的句長(zhǎng)分布及平均句長(zhǎng),認(rèn)為《紅樓夢(mèng)》前80回和后40回并非一人所作[10]。
李賢平從《紅樓夢(mèng)》中抽取了47個(gè)虛字,統(tǒng)計(jì)其在各回中的使用頻率,用統(tǒng)計(jì)學(xué)方法探索各回寫作風(fēng)格的接近程度,并用聚類方法對(duì)120回進(jìn)行分析,認(rèn)為《紅樓夢(mèng)》各個(gè)部分是由不同的作者在不同的時(shí)期撰寫的[11]。
徐秉錚等從詞的相關(guān)性和上下文的相關(guān)性、字符數(shù)的統(tǒng)計(jì)、字符串的統(tǒng)計(jì)等三方面判斷《紅樓夢(mèng)》前80回與后40回的語(yǔ)言風(fēng)格有明顯的不同[12]。張運(yùn)良等將《紅樓夢(mèng)》120回平均分成1~40回、41~80回、81~120回等三個(gè)集合,然后以句類為特征向量,采用K近鄰算法作為分類算法構(gòu)建分類器,實(shí)驗(yàn)發(fā)現(xiàn)集合1和集合2句類風(fēng)格相近,集合3句類風(fēng)格和前兩個(gè)集合差距較大[13]。施建軍使用支持向量機(jī)技術(shù),以44個(gè)文言虛字頻率為特征向量,對(duì)《紅樓夢(mèng)》120回進(jìn)行分類研究,結(jié)果發(fā)現(xiàn),前80回與后40回在寫作風(fēng)格上存在明顯差別[14]。
布拉德福提出了頻次—等級(jí)排序法,這種方法在社會(huì)科學(xué)領(lǐng)域中被廣泛應(yīng)用[15],例如,把某部文獻(xiàn)中的詞型按照其出現(xiàn)頻次遞減排列,就會(huì)呈現(xiàn)出布拉德福分布。布拉德福分布的特點(diǎn)顯示: 我們考察的具體對(duì)象的大多數(shù)集中于少數(shù)主體來(lái)源。例如,人們寫文章時(shí)總是傾向于選擇自己常用的詞語(yǔ)。Zipf發(fā)現(xiàn)了詞型的出現(xiàn)頻率與等級(jí)序號(hào)之間的關(guān)系,任何一篇文章中詞型的頻次和頻次等級(jí)的乘積總為一個(gè)常數(shù)[16]。
人們?cè)诒磉_(dá)一個(gè)觀點(diǎn)或者描述一個(gè)事物時(shí),會(huì)有多個(gè)同類詞語(yǔ)可供選擇,有的詞語(yǔ)會(huì)被經(jīng)常用到,而有的詞語(yǔ)不常被使用。這種選擇上的頻度不均現(xiàn)象致使被選詞語(yǔ)的特征信息變得越來(lái)越突出,這又會(huì)反過來(lái)作為再次被選的影響因素。如果把個(gè)體在表達(dá)一個(gè)觀點(diǎn)或者描述一個(gè)事物時(shí)選用某詞語(yǔ)看作這個(gè)詞語(yǔ)的一次成功,那么這種成功的累積必然會(huì)產(chǎn)生新的成功,這就使得個(gè)體在語(yǔ)言運(yùn)用方面會(huì)形成思維定勢(shì)。文獻(xiàn)之間的語(yǔ)言風(fēng)格差異不僅體現(xiàn)在使用的高頻詞上,還更加細(xì)微地體現(xiàn)在高頻詞的使用頻率等級(jí)上[17]。
為了能夠給鑒定作者存疑的文獻(xiàn)提供更多的參考信息,我們提出了一種“基于高頻詞等級(jí)相關(guān)度的方法”,測(cè)量各份語(yǔ)料之間在詞型等級(jí)方面的相關(guān)度,推斷“存疑文獻(xiàn)”的作者信息。這種算法分為三個(gè)步驟:
(1) 首先,對(duì)于各份語(yǔ)料,詞型均按照出現(xiàn)頻次(即詞型的詞例數(shù))遞減順序排列;
(2) 然后,對(duì)于已經(jīng)排序的詞型按照“頻序法”確定等級(jí),把出現(xiàn)頻次最高的詞型等級(jí)定為1,次高的詞型等級(jí)定為2,……依次類推,頻次相等的詞型為一個(gè)等級(jí),以其在語(yǔ)料中詞頻序值為等級(jí)[18]。
(3) 接下來(lái),計(jì)算各份語(yǔ)料之間高頻詞等級(jí)的相關(guān)度。相關(guān)度的計(jì)算方法采用“斯皮爾曼等級(jí)相關(guān)”,如式(1)所示。
(1)
其中,Di表示每一對(duì)數(shù)據(jù)相應(yīng)的兩個(gè)等級(jí)之差,n表示樣本數(shù)。
斯皮爾曼等級(jí)相關(guān)適用于研究數(shù)據(jù)是具有等級(jí)性質(zhì)的成對(duì)數(shù)據(jù),并且變量之間呈線性關(guān)系[19-20]。但是,兩份語(yǔ)料中出現(xiàn)的詞型數(shù)據(jù)并不是成對(duì)的,所以采用這種計(jì)算方法所得到的相關(guān)系數(shù)是一個(gè)近似值。我們用ARs來(lái)表示“以語(yǔ)料A中特定數(shù)量詞型為樣本”與語(yǔ)料B中全部詞型比較所得到的相關(guān)系數(shù),對(duì)于在語(yǔ)料A中出現(xiàn)而語(yǔ)料B中沒有出現(xiàn)的詞型,不放在計(jì)算范圍內(nèi)。同樣,以BRs來(lái)表示“以語(yǔ)料B中特定數(shù)量詞型為樣本”與語(yǔ)料A中全部詞型比較所得到的相關(guān)系數(shù),對(duì)于在語(yǔ)料B中出現(xiàn)而語(yǔ)料A中沒有出現(xiàn)的詞型,也不在計(jì)算范圍內(nèi)。通常選取在語(yǔ)料中出現(xiàn)頻次排在前100、200、300位的高頻詞作為樣本。語(yǔ)料A與B的相關(guān)度用ABRs來(lái)表示,ABRs等于ARs與BRs的均值,即: ABRs=(ARs+BRs)/2。也就是說(shuō),語(yǔ)料A與B的相關(guān)度就等于: “以語(yǔ)料A中特定數(shù)量詞型為樣本”與語(yǔ)料B的全部詞型比較所得到的相關(guān)系數(shù),加上“以語(yǔ)料B中特定數(shù)量詞型為樣本”與語(yǔ)料A的全部詞型比較所得到的相關(guān)系數(shù),兩個(gè)系數(shù)之和再除以2所得到的商。
為了驗(yàn)證此方法的效果,我們選取《孟子》《荀子》這兩部先秦文獻(xiàn)作為實(shí)驗(yàn)語(yǔ)料,對(duì)這兩部文獻(xiàn)做人工分詞處理。這兩部文獻(xiàn)都是儒家經(jīng)典,在主題內(nèi)容上有著很大的相關(guān)性。學(xué)術(shù)界對(duì)于這兩部文獻(xiàn)的作者,也無(wú)異議。把《孟子》語(yǔ)料均分為兩部分,兩部分語(yǔ)料用“《孟子》一”和“《孟子》二”表示;把《荀子》語(yǔ)料均分為四部分,四部分語(yǔ)料用“《荀子》一”、“《荀子》二”、“《荀子》三”和“《荀子》四”表示。采用“頻序法”確定詞型等級(jí),選取頻次排在前100位的詞型作為樣本,分別測(cè)量這七份語(yǔ)料兩兩之間的相關(guān)度,形成如表1所示的相似度矩陣。
將表1、表2和表3中的數(shù)據(jù)分別劃分為三個(gè)區(qū),第一區(qū)位于表格左上角,是《孟子》兩份語(yǔ)料之間的相關(guān)度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是《荀子》四份語(yǔ)料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是《孟子》兩份語(yǔ)料與《荀子》四份語(yǔ)料之間的相關(guān)度數(shù)據(jù),都以常規(guī)字體顯示。
表1 使用“基于高頻詞等級(jí)相關(guān)度的方法”得到的相關(guān)度矩陣(%)
為了評(píng)估“基于高頻詞等級(jí)相關(guān)度方法”的有效性,我們使用另外兩種常用的分析文獻(xiàn)相似度的方法與之相比較[21]。一種是“基于詞型共現(xiàn)率的方法”。其計(jì)算方法如式(2)所示。
語(yǔ)料A與語(yǔ)料B的相關(guān)度=(A與B的共現(xiàn)詞型數(shù))/(A與B的詞型數(shù))
(2)
式(2)中,“A與B的詞型數(shù)”并不等于“A的詞型數(shù)+B的詞型數(shù)”,因?yàn)檎Z(yǔ)料A與語(yǔ)料B中有一些共現(xiàn)詞型,這些共現(xiàn)詞型既出現(xiàn)在語(yǔ)料A中,又出現(xiàn)在語(yǔ)料B中,不能重復(fù)計(jì)算,所以“A與B的詞型數(shù)”等于“A的詞型數(shù)+B的詞型數(shù)-A與B的共現(xiàn)詞型數(shù)”。
另一種是“基于詞例共現(xiàn)率的方法”。其計(jì)算方法如式(3)所示。
語(yǔ)料A與語(yǔ)料B的相關(guān)度=(A與B的共現(xiàn)詞型的詞例數(shù)) /(A與B的詞例數(shù))
(3)
式(3)中,“A與B的詞例數(shù)”等于“A的詞例數(shù)+B的詞例數(shù)”。
表2是使用“基于詞型共現(xiàn)率的方法”所得到的七份語(yǔ)料相互之間的相關(guān)度矩陣,表3是使用“基于詞例共現(xiàn)率的方法”所得到的相關(guān)度矩陣。
表2 使用“基于詞型共現(xiàn)率的方法”得到的相關(guān)度矩陣(%)
表3 使用“基于詞例共現(xiàn)率的方法”得到的相關(guān)度矩陣(%)
為了能夠直觀地觀察到使用這三種方法所得到的數(shù)據(jù)在“量”上的特征,我們使用Excel 2016把表1、表2、表3中的數(shù)據(jù)轉(zhuǎn)化為柱形圖,如圖1所示。觀察圖1能夠發(fā)現(xiàn):
(1) 使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)三個(gè)區(qū)之間的區(qū)別明顯,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度也顯著高于第三區(qū);
(2) 使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到數(shù)據(jù)三個(gè)區(qū)之間也有區(qū)別,但不如使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到數(shù)據(jù)區(qū)別度大,左上角第一區(qū)數(shù)據(jù)的柱形高度顯著高于第三區(qū),右下角第二區(qū)的柱形高度與第三區(qū)右上角柱形高度相關(guān)差不大,區(qū)分度較小。
圖1 三種方法的數(shù)據(jù)柱形圖
為了分析使用三種方法分別得到的數(shù)據(jù)的集中與離散情況,我們計(jì)算了每種方法所得到數(shù)據(jù)的各個(gè)區(qū)的標(biāo)準(zhǔn)差,把計(jì)算結(jié)果匯總起來(lái),形成表4。通過分析表4,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)三個(gè)區(qū)的標(biāo)準(zhǔn)差分別為0、3.97%、3.59%,均略大于使用另外兩種方法所得到數(shù)據(jù)標(biāo)準(zhǔn)差,這說(shuō)明使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)波動(dòng)性略大; (2)使用“基于詞型共現(xiàn)率的方法”與“基于詞例共現(xiàn)率的方法”所得到的標(biāo)準(zhǔn)差數(shù)值都很小,這兩種方法所得到的標(biāo)準(zhǔn)差數(shù)值差異也很小。
表4 三種方法的標(biāo)準(zhǔn)差對(duì)比(%)
接下來(lái),計(jì)算每種方法所得到數(shù)據(jù)的各個(gè)區(qū)的均值,并且計(jì)算了各區(qū)之間的均值之差,把計(jì)算結(jié)果匯總起來(lái),形成表5。通過分析表5,我們發(fā)現(xiàn): (1)使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)三個(gè)區(qū)的均值分別為90.84%、83.77%、77.15%,介于使用另外兩種方法所得到的均值之間; (2)使用“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所得到的數(shù)據(jù)三個(gè)區(qū)之間的均值差異比較小; (3)使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)三個(gè)區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為13.69%,第二、三區(qū)均值之差為6.62%,顯著高于使用另外兩種方法所得到的相應(yīng)數(shù)據(jù)。
表5 三種方法的均值對(duì)比(%)
分析上述數(shù)據(jù),能夠得出以下結(jié)論: (1)“基于高頻詞等級(jí)相關(guān)度的方法”所生成的數(shù)據(jù),在“第一、三區(qū)均值之差”和“第二、三區(qū)均值之差”方面均顯著高于另兩種方法所生成的數(shù)據(jù),證明這種方法區(qū)分語(yǔ)言風(fēng)格的能力最強(qiáng)。(2)“基于詞型共現(xiàn)率的方法”和“基于詞例共現(xiàn)率的方法”所產(chǎn)生的數(shù)據(jù)波動(dòng)較小,而“基于高頻詞等級(jí)相關(guān)度的方法”所產(chǎn)生的數(shù)據(jù)波動(dòng)略大,離散度略高。
以《紅樓夢(mèng)》作為實(shí)驗(yàn)語(yǔ)料,使用哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā)的“語(yǔ)言技術(shù)平臺(tái)”對(duì)語(yǔ)料作分詞處理,把《紅樓夢(mèng)》的120回分為12份語(yǔ)料,每份語(yǔ)料包含10回,這樣第一份語(yǔ)料就包含第1至第10回,第二份語(yǔ)料包含第11回至第20回,……,依次類推,簡(jiǎn)寫為: 一(第1~10回)、二(第11~20回)、三(第21~30回)、四(第31~40回)、五(第41~50回)、六(第51~60回)、七(第61~70回)、八(第71~80回)、九(第81~90回)、十(第91~100回)、十一(第101~110回)、十二(第111~120回)[22]。
使用“基于高頻詞等級(jí)相關(guān)度的方法”計(jì)算這12份語(yǔ)料相互之間的相關(guān)度,均取出現(xiàn)頻次排在前100位的詞型作為樣本語(yǔ)料。把相關(guān)數(shù)據(jù)匯總起來(lái),形成表6所示的相關(guān)度矩陣。為了便于發(fā)現(xiàn)前80回與后40回之間的區(qū)別,把表6中的數(shù)據(jù)也劃分為三個(gè)區(qū),第一區(qū)位于表格左上角,是前八份語(yǔ)料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色字體顯示;第二區(qū)位于表格右下角,是后四份語(yǔ)料相互之間的相關(guān)度數(shù)據(jù),在表中都以黑色斜體字顯示;第三區(qū)位于右上角和左下角,是前8份語(yǔ)料與后4份語(yǔ)料兩部分語(yǔ)料之間的相關(guān)度數(shù)據(jù),都以常規(guī)字體顯示。
表6 使用“基于高頻詞等級(jí)相關(guān)度的方法”得到的相關(guān)度矩陣(%)
計(jì)算出使用這種方法所得到數(shù)據(jù)的各個(gè)區(qū)均值,并且計(jì)算出各區(qū)之間的均值之差,把結(jié)果匯總起來(lái),形成表7。通過分析表7,我們發(fā)現(xiàn): 使用“基于高頻詞等級(jí)相關(guān)度的方法”所得到的數(shù)據(jù)三個(gè)區(qū)的均值分別為68.51%、73.69%、50.74%,三個(gè)區(qū)之間的均值差異比較大,第一、三區(qū)均值之差為17.77%,第二、三區(qū)均值之差為22.95%,差異明顯。
表7 各區(qū)均值及區(qū)間均值之差(%)
分析上述數(shù)據(jù),能夠得到以下結(jié)論: (1)《紅樓夢(mèng)》的前8份語(yǔ)料相互之間的相關(guān)度要高,后四份語(yǔ)料相互之間的相關(guān)度也高,即語(yǔ)言風(fēng)格相似度大; (2)前8份語(yǔ)料與后4份語(yǔ)料之間的相關(guān)度要低,即語(yǔ)言風(fēng)格差異度大。
我們把《紅樓夢(mèng)》的120回均分為12份語(yǔ)料,每10回作為一份語(yǔ)料,然后使用“基于高頻詞等級(jí)相關(guān)度的方法”,計(jì)算這12份語(yǔ)料兩兩之間的相關(guān)度,得到結(jié)論: “《紅樓夢(mèng)》的前8份語(yǔ)料兩兩之間相關(guān)度高,后4份語(yǔ)料兩兩之間相關(guān)度也高,而前8份語(yǔ)料與后4份語(yǔ)料這兩部分語(yǔ)料之間相關(guān)度低。”也就是說(shuō),前80回之間語(yǔ)言風(fēng)格相似度高,后40回之間的語(yǔ)言風(fēng)格相似度也高,而前80回與后40回的語(yǔ)言風(fēng)格差異很大。由此推斷《紅樓夢(mèng)》前80回應(yīng)是同一人所寫,后40回應(yīng)是另一人所寫。