張賽
摘 要:以語料庫和統(tǒng)計方法進行語言結(jié)構(gòu)特征計量研究是漢語語言風(fēng)格描寫研究及作家判定研究的重要方法。本文以語言結(jié)構(gòu)的計量特征表示文本的方法加強了語言風(fēng)格對比及作者判定研究的可解釋性,具有較高的理論和應(yīng)用價值。
關(guān)鍵詞:語言風(fēng)格;語言結(jié)構(gòu);計量特征
本文基于語料庫和統(tǒng)計方法,獲取現(xiàn)代漢語語言結(jié)構(gòu)的計量特征,而后考察這些語言結(jié)構(gòu)計量特征在作家語言風(fēng)格描寫、對比研究及作家判定方面的實際應(yīng)用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結(jié)構(gòu)在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結(jié)構(gòu)在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結(jié)構(gòu)是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談?wù)劇泛晚n寒父親韓仁均作品《兒子韓寒》。《三重門》于2000年由作家出版社出版,總字?jǐn)?shù)155820,總詞數(shù)116461;《1988:我想和這個世界談?wù)劇返谝话嬗?010年7月6日《獨唱團》刊發(fā),總字?jǐn)?shù)92384,總詞數(shù)70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經(jīng)歷,具有傳記性質(zhì),總字?jǐn)?shù)52854,總詞數(shù)37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標(biāo)注所用的軟件為LJParser。LJParser文本搜索與挖掘開發(fā)平臺包括全文精準(zhǔn)搜索、新詞發(fā)現(xiàn)、漢語分詞標(biāo)注、詞語統(tǒng)計與術(shù)語翻譯、自動聚類與熱點發(fā)現(xiàn)、分類過濾、自動摘要、關(guān)鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標(biāo)注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統(tǒng)計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質(zhì)疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于韓寒近期作品《1988:我想和這個世界談?wù)劇愤€是其父作品《兒子韓寒》。如果《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于《1988:我想和這個世界談?wù)劇罚c《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據(jù)。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異的話,那么就為《三重門》由韓父代筆而作的質(zhì)疑提供了證據(jù)。
二、數(shù)據(jù)與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉(zhuǎn)折程度比較的虛字)的比例。對于這兩個方面,AntConc的數(shù)據(jù)統(tǒng)計結(jié)果如表1所示:
表1 三個文本相應(yīng)變量出現(xiàn)的頻度
■
由于三個文本的總字?jǐn)?shù)和總詞數(shù)各不相同,為了更好地進行比較,我們將頻度轉(zhuǎn)換為頻率,從目標(biāo)標(biāo)點和虛字出現(xiàn)的頻率來進行對比,頻率數(shù)據(jù)如表2所示:
表2 三個文本相應(yīng)變量出現(xiàn)的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談?wù)劇放c《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現(xiàn)的比例(0.35%)要顯著高于《1988:我想和這個世界談?wù)劇罚?.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談?wù)劇窞?7.20,而《兒子韓寒》則為31.94,高于前兩篇??梢婍n寒早期作品《三重門》與近期作品《1988:我想和這個世界談?wù)劇菲骄溟L接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯(lián)系到逗號的數(shù)據(jù)(《三重門》6.34%;《1988:我想和這個世界談?wù)劇?.22%;《兒子韓寒》4.95%),可以發(fā)現(xiàn),韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談?wù)劇穭t呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉(zhuǎn)折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談?wù)劇分械某霈F(xiàn)頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關(guān)性檢驗。
相關(guān)性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談?wù)劇罚?.6438%±1.05711%)呈顯著相關(guān),p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談?wù)劇放c《兒子韓寒》(p=0)也分別呈顯著相關(guān)。三個研究文本的相關(guān)系數(shù)如表3所示。
表3 三對文本對的成對樣本相關(guān)系數(shù)
■
結(jié)果表明,相關(guān)性檢驗并不能為研究提供有意義的證據(jù)。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談?wù)劇烦蓪?,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結(jié)果,如下所示。
表4 兩對文本對的成對樣本檢驗結(jié)果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異,0
0.1。這樣的數(shù)據(jù)說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談?wù)劇返奶撛~使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認(rèn)為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談?wù)劇放c《兒子韓寒》來比較,結(jié)果會是什么樣的呢?我們做了《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗,結(jié)果如表5所示。
表5 《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果
■
《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果顯示,《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結(jié)論
本研究通過對三個52,000字以上的語料樣本進行統(tǒng)計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節(jié),還需要在將來的研究中加以改進。綜觀整個研究,我們發(fā)現(xiàn),將基于計量語言學(xué)研究成果的語言結(jié)構(gòu)分布特征作為語言風(fēng)格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結(jié)果都可以從語言學(xué)的角度進行分析和解釋。此外,學(xué)者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學(xué)研究領(lǐng)域進行嘗試。標(biāo)注體系和工具對統(tǒng)計結(jié)果的影響,語言風(fēng)格在字、詞、句等語言結(jié)構(gòu)和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續(xù)和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風(fēng)格比較及作家判定中的應(yīng)用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應(yīng)用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應(yīng)用[J].計算機工程與應(yīng)用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學(xué)語體分析[M].北京:外語教學(xué)與研究出版社,2009.
摘 要:以語料庫和統(tǒng)計方法進行語言結(jié)構(gòu)特征計量研究是漢語語言風(fēng)格描寫研究及作家判定研究的重要方法。本文以語言結(jié)構(gòu)的計量特征表示文本的方法加強了語言風(fēng)格對比及作者判定研究的可解釋性,具有較高的理論和應(yīng)用價值。
關(guān)鍵詞:語言風(fēng)格;語言結(jié)構(gòu);計量特征
本文基于語料庫和統(tǒng)計方法,獲取現(xiàn)代漢語語言結(jié)構(gòu)的計量特征,而后考察這些語言結(jié)構(gòu)計量特征在作家語言風(fēng)格描寫、對比研究及作家判定方面的實際應(yīng)用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結(jié)構(gòu)在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結(jié)構(gòu)在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結(jié)構(gòu)是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談?wù)劇泛晚n寒父親韓仁均作品《兒子韓寒》?!度亻T》于2000年由作家出版社出版,總字?jǐn)?shù)155820,總詞數(shù)116461;《1988:我想和這個世界談?wù)劇返谝话嬗?010年7月6日《獨唱團》刊發(fā),總字?jǐn)?shù)92384,總詞數(shù)70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經(jīng)歷,具有傳記性質(zhì),總字?jǐn)?shù)52854,總詞數(shù)37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標(biāo)注所用的軟件為LJParser。LJParser文本搜索與挖掘開發(fā)平臺包括全文精準(zhǔn)搜索、新詞發(fā)現(xiàn)、漢語分詞標(biāo)注、詞語統(tǒng)計與術(shù)語翻譯、自動聚類與熱點發(fā)現(xiàn)、分類過濾、自動摘要、關(guān)鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標(biāo)注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統(tǒng)計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質(zhì)疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于韓寒近期作品《1988:我想和這個世界談?wù)劇愤€是其父作品《兒子韓寒》。如果《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于《1988:我想和這個世界談?wù)劇?,而與《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據(jù)。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異的話,那么就為《三重門》由韓父代筆而作的質(zhì)疑提供了證據(jù)。
二、數(shù)據(jù)與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉(zhuǎn)折程度比較的虛字)的比例。對于這兩個方面,AntConc的數(shù)據(jù)統(tǒng)計結(jié)果如表1所示:
表1 三個文本相應(yīng)變量出現(xiàn)的頻度
■
由于三個文本的總字?jǐn)?shù)和總詞數(shù)各不相同,為了更好地進行比較,我們將頻度轉(zhuǎn)換為頻率,從目標(biāo)標(biāo)點和虛字出現(xiàn)的頻率來進行對比,頻率數(shù)據(jù)如表2所示:
表2 三個文本相應(yīng)變量出現(xiàn)的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談?wù)劇放c《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現(xiàn)的比例(0.35%)要顯著高于《1988:我想和這個世界談?wù)劇罚?.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談?wù)劇窞?7.20,而《兒子韓寒》則為31.94,高于前兩篇。可見韓寒早期作品《三重門》與近期作品《1988:我想和這個世界談?wù)劇菲骄溟L接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯(lián)系到逗號的數(shù)據(jù)(《三重門》6.34%;《1988:我想和這個世界談?wù)劇?.22%;《兒子韓寒》4.95%),可以發(fā)現(xiàn),韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談?wù)劇穭t呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉(zhuǎn)折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談?wù)劇分械某霈F(xiàn)頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關(guān)性檢驗。
相關(guān)性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談?wù)劇罚?.6438%±1.05711%)呈顯著相關(guān),p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談?wù)劇放c《兒子韓寒》(p=0)也分別呈顯著相關(guān)。三個研究文本的相關(guān)系數(shù)如表3所示。
表3 三對文本對的成對樣本相關(guān)系數(shù)
■
結(jié)果表明,相關(guān)性檢驗并不能為研究提供有意義的證據(jù)。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談?wù)劇烦蓪?,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結(jié)果,如下所示。
表4 兩對文本對的成對樣本檢驗結(jié)果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異,0
0.1。這樣的數(shù)據(jù)說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談?wù)劇返奶撛~使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認(rèn)為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談?wù)劇放c《兒子韓寒》來比較,結(jié)果會是什么樣的呢?我們做了《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗,結(jié)果如表5所示。
表5 《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果
■
《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果顯示,《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結(jié)論
本研究通過對三個52,000字以上的語料樣本進行統(tǒng)計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節(jié),還需要在將來的研究中加以改進。綜觀整個研究,我們發(fā)現(xiàn),將基于計量語言學(xué)研究成果的語言結(jié)構(gòu)分布特征作為語言風(fēng)格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結(jié)果都可以從語言學(xué)的角度進行分析和解釋。此外,學(xué)者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學(xué)研究領(lǐng)域進行嘗試。標(biāo)注體系和工具對統(tǒng)計結(jié)果的影響,語言風(fēng)格在字、詞、句等語言結(jié)構(gòu)和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續(xù)和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風(fēng)格比較及作家判定中的應(yīng)用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應(yīng)用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應(yīng)用[J].計算機工程與應(yīng)用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學(xué)語體分析[M].北京:外語教學(xué)與研究出版社,2009.
摘 要:以語料庫和統(tǒng)計方法進行語言結(jié)構(gòu)特征計量研究是漢語語言風(fēng)格描寫研究及作家判定研究的重要方法。本文以語言結(jié)構(gòu)的計量特征表示文本的方法加強了語言風(fēng)格對比及作者判定研究的可解釋性,具有較高的理論和應(yīng)用價值。
關(guān)鍵詞:語言風(fēng)格;語言結(jié)構(gòu);計量特征
本文基于語料庫和統(tǒng)計方法,獲取現(xiàn)代漢語語言結(jié)構(gòu)的計量特征,而后考察這些語言結(jié)構(gòu)計量特征在作家語言風(fēng)格描寫、對比研究及作家判定方面的實際應(yīng)用。具體過程是:首先,分別選取兩個作家的三個語料樣本,對其進行分詞并以文本為單位計算特定語言結(jié)構(gòu)在文本中的頻率和百分比;然后,基于樣本的均值比較這些語言結(jié)構(gòu)在分別屬于兩個作家的兩個樣本中的分布是否具有差異;最后,還對同一個作家的兩個不同的樣本中比較這些語言結(jié)構(gòu)是否具有差異。
一、語料與方法
研究選取了3個文本,分別為韓寒早期作品《三重門》,韓寒近期作品《1988:我想和這個世界談?wù)劇泛晚n寒父親韓仁均作品《兒子韓寒》?!度亻T》于2000年由作家出版社出版,總字?jǐn)?shù)155820,總詞數(shù)116461;《1988:我想和這個世界談?wù)劇返谝话嬗?010年7月6日《獨唱團》刊發(fā),總字?jǐn)?shù)92384,總詞數(shù)70185。兩者均為韓寒所著的長篇小說。而《兒子韓寒》為韓寒的父親韓仁均所寫,向讀者介紹了韓寒的成長經(jīng)歷,具有傳記性質(zhì),總字?jǐn)?shù)52854,總詞數(shù)37654。
首先,筆者將這三個文本進行了漢語分詞處理,漢語分詞標(biāo)注所用的軟件為LJParser。LJParser文本搜索與挖掘開發(fā)平臺包括全文精準(zhǔn)搜索、新詞發(fā)現(xiàn)、漢語分詞標(biāo)注、詞語統(tǒng)計與術(shù)語翻譯、自動聚類與熱點發(fā)現(xiàn)、分類過濾、自動摘要、關(guān)鍵詞提取、文檔去重、正文提取等十余項功能。對于分詞標(biāo)注后的三個文本,我們利用AntConc軟件進行了語料庫分析(詞頻統(tǒng)計等)。由于韓寒早期作品《三重門》的作者存在爭議,有人質(zhì)疑《三重門》為韓寒父親代筆,所以我們試圖通過比較文本中陳述句、疑問句、感嘆句比例,近似平均句長,以及23個常見虛字在文本中的使用情況,來觀察《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于韓寒近期作品《1988:我想和這個世界談?wù)劇愤€是其父作品《兒子韓寒》。如果《三重門》的語體風(fēng)格和用詞習(xí)慣是更接近于《1988:我想和這個世界談?wù)劇?,而與《兒子韓寒》有顯著性差異,那么我們就為《三重門》為韓寒自己所寫提供了證據(jù)。反之,如果《三重門》與《兒子韓寒》更為接近,而與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異的話,那么就為《三重門》由韓父代筆而作的質(zhì)疑提供了證據(jù)。
二、數(shù)據(jù)與分析
本文主要研究了三個文本以下兩個方面的差異:一是陳述句、疑問句和感嘆句比例及近似平均句長,二是常見虛字(包括句尾虛字,白話虛字和表轉(zhuǎn)折程度比較的虛字)的比例。對于這兩個方面,AntConc的數(shù)據(jù)統(tǒng)計結(jié)果如表1所示:
表1 三個文本相應(yīng)變量出現(xiàn)的頻度
■
由于三個文本的總字?jǐn)?shù)和總詞數(shù)各不相同,為了更好地進行比較,我們將頻度轉(zhuǎn)換為頻率,從目標(biāo)標(biāo)點和虛字出現(xiàn)的頻率來進行對比,頻率數(shù)據(jù)如表2所示:
表2 三個文本相應(yīng)變量出現(xiàn)的頻率
■
從表中可以看到《三重門》《1988:我想和這個世界談?wù)劇放c《兒子韓寒》所用的逗號、句號、嘆號和問號比例分別有所差別,而其中《三重門》中嘆號出現(xiàn)的比例(0.35%)要顯著高于《1988:我想和這個世界談?wù)劇罚?.00%)與《兒子韓寒》(0.06%)。從平均句長上來看,《三重門》為26.53,《1988:我想和這個世界談?wù)劇窞?7.20,而《兒子韓寒》則為31.94,高于前兩篇??梢婍n寒早期作品《三重門》與近期作品《1988:我想和這個世界談?wù)劇菲骄溟L接近,而其父作品《兒子韓寒》的平均句長則要長于韓寒。聯(lián)系到逗號的數(shù)據(jù)(《三重門》6.34%;《1988:我想和這個世界談?wù)劇?.22%;《兒子韓寒》4.95%),可以發(fā)現(xiàn),韓仁均作品《兒子韓寒》不僅整句平均句長更長,其長句中每一個短句的句長也要長于其他兩部作品。而《1988:我想和這個世界談?wù)劇穭t呈明顯的短句更多更短的特點,其逗號比例顯著高于另外兩部作品。
虛字方面的分析,我們選取了23個虛字,分別為5個句尾虛字:呀、嗎、咧、么、呢;9個白話虛字:了、的、著、一、不、把、讓、是、好;9個表轉(zhuǎn)折程度比較的虛字:可、就、但、越、再、便、更、此、很。
從表2中可以看到,有四個虛字:“么”“了”“著”“是”在《1988:我想和這個世界談?wù)劇分械某霈F(xiàn)頻率要明顯高于《三重門》和《兒子韓寒》。由于單個字的對比說服力有限,因此我們運用SPSS進行了三個文本同樣23個虛字的相關(guān)性檢驗。
相關(guān)性檢驗表明,《三重門》(0.5179%±0.83918%)與《1988:我想和這個世界談?wù)劇罚?.6438%±1.05711%)呈顯著相關(guān),p=0;《三重門》與《兒子韓寒》(0.5209%±1.01391&)(p=0)和《1988:我想和這個世界談?wù)劇放c《兒子韓寒》(p=0)也分別呈顯著相關(guān)。三個研究文本的相關(guān)系數(shù)如表3所示。
表3 三對文本對的成對樣本相關(guān)系數(shù)
■
結(jié)果表明,相關(guān)性檢驗并不能為研究提供有意義的證據(jù)。因此,針對這23個虛字,我們利用SPSS軟件進一步做了配對樣本T檢驗。
對于這23個虛字,我們分別以《三重門》和《1988:我想和這個世界談?wù)劇烦蓪?,以及《三重門》和《兒子韓寒》成對,進行了兩對成對樣本檢驗。表4為成對樣本檢驗結(jié)果,如下所示。
表4 兩對文本對的成對樣本檢驗結(jié)果
■
從表4中可以看到,《三重門》與《1988:我想和這個世界談?wù)劇反嬖陲@著性差異,0
0.1。這樣的數(shù)據(jù)說明韓寒早期作品《三重門》與近期作品《1988我想和這個世界談?wù)劇返奶撛~使用存在顯著差異,然而其早期作品《三重門》與其父親作品《兒子韓寒》的虛字用法卻非常相似。從某種意義上說,我們有理由認(rèn)為《三重門》可能由韓仁均代筆而作。如果真是這樣,那么拿《1988:我想和這個世界談?wù)劇放c《兒子韓寒》來比較,結(jié)果會是什么樣的呢?我們做了《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗,結(jié)果如表5所示。
表5 《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果
■
《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的成對樣本檢驗結(jié)果顯示,《1988:我想和這個世界談?wù)劇放c《兒子韓寒》的23個虛字用法存在差異邊緣性顯著,0.05
三、結(jié)論
本研究通過對三個52,000字以上的語料樣本進行統(tǒng)計分析,有以下推測:《三重門》可能是由韓寒之父韓仁均代筆而作,或者《三重門》是韓寒父子二者合著。然而,我們的研究也存在一些值得推敲的細節(jié),還需要在將來的研究中加以改進。綜觀整個研究,我們發(fā)現(xiàn),將基于計量語言學(xué)研究成果的語言結(jié)構(gòu)分布特征作為語言風(fēng)格對比和作家判定,實驗證明是可行可信的,而且特征選擇和對比分析結(jié)果都可以從語言學(xué)的角度進行分析和解釋。此外,學(xué)者黃偉、劉海濤曾用這種方法成功地進行了文本聚類和分類實驗。這樣的方法具有普適性,值得在更多的語言學(xué)研究領(lǐng)域進行嘗試。標(biāo)注體系和工具對統(tǒng)計結(jié)果的影響,語言風(fēng)格在字、詞、句等語言結(jié)構(gòu)和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續(xù)和深入研究的課題。
參考文獻:
[1]陳芯瑩,李雯雯,王燕.計量特征在語言風(fēng)格比較及作家判定中的應(yīng)用——以韓寒《三重門》與郭敬明《夢里花落知多少》為例[J].計算機工程與應(yīng)用, 2012,48(3):137-139.
[2]黃偉,劉海濤.漢語語體的計量特征在文本聚類中的應(yīng)用[J].計算機工程與應(yīng)用,2009,45(29):25-27.
[3]桂詩春.基于語料庫的英語語言學(xué)語體分析[M].北京:外語教學(xué)與研究出版社,2009.