——以對宮澤賢治童話作品的實證性考察為例"/>
○曹雅潔
?
日語語言文體研究中的計量方法
——以對宮澤賢治童話作品的實證性考察為例
○曹雅潔
摘 要:借助原文語料庫和計算機技術可以定量地分析日語的詞匯和句子,主要考察對象包括句子長度、名詞比率、MVR和會話文比率等,通過對這些指標的大規(guī)模數(shù)據統(tǒng)計和對比分析可以探究日語語言的文體特征。以此為基礎對宮澤賢治童話作品的各項指標進行了考察和對比分析,分別計算了其句子長度和描寫性語言的分布情況,得出了其個人的文體特征,驗證了用計量方法探究日語語言文體特征的可操作性。
關鍵詞:日語語言 文體 計量方法 語料庫
隨著信息技術的發(fā)展和普及,進入20世紀80年代后,研究者開始借助語料庫來研究文本,并通過定量分析來探究文本的特征。人們通常用語料庫文體學、計量文體學等詞語來描述這一新興的研究方法。但無論哪種說法,其根本均為基于語料庫對文本進行定量分析。
近年來,國內對文本進行定量分析的研究主要分為兩大類。分別為漢語言文學作品分析和英美文學作品分析。前者研究內容主要集中在唐宋詩詞等古代漢語言文學作品的詞匯語義、詩詞語言風格評價等方面。[1]其用途之一在于通過字、詞、標點等出現(xiàn)的頻度統(tǒng)計來分析文本的文體風格。在此基礎上,還可用于通過字、詞、句的出現(xiàn)頻率來確定文學作品的創(chuàng)作者。如通過對《紅樓夢》前80回和后40回的用詞統(tǒng)計,確定后40回是否為曹雪芹所作。也就是說,通過文學作品的計量研究分析文本的語言風格,可以確認未知作者的文本或作者有疑義的文本的真實創(chuàng)作者。國內對文學文本進行定量分析研究的第二類為英美文學作品的量化研究。[2]
盡管人們認為量化研究文學文本始于20世紀80年代,但事實上,以日本為例,早在1950年,波多野完治即有所涉及。他隨機抽取了500個小說片段進行字數(shù)統(tǒng)計,并與報紙、雜志中的文本進行了比較。盡管這只是一個雛形,但可以說開創(chuàng)了日本定量分析文學文本的先河,為后來者提供了一個全新的研究視角。
目前文本的量化分析方法主要運用于分析其文體特征。所謂文體即是文章“內容的展開方式”“作者的表現(xiàn)態(tài)度”和“所選取的表達方式”的結合(樺島忠夫,1968:76)。文體考察實際上是對某一語言特征的考察,即運用語言學的方法將文本作為語言形式來進行文體分析。這種文體分析具體來說即分析、統(tǒng)計文章的音韻、文字和文的具體形態(tài)。例如,文章有無音韻規(guī)律,經常使用的詞語類型,文的構造和功能,多運用短文還是長文,等等。
在計算機技術發(fā)展之前的定量分析文體方法只適合于“詩歌或語篇片段的分析。對篇幅較大的小說、劇本或一個作家的全部作品困難較大?!保▌⑹郎⒅烊鹎?,2006:69)就目前的研究情況來看也確實如此。雖然現(xiàn)代文體研究通過抽取文章語言并進行統(tǒng)計,可以明晰某一類文學作品或是某一位作家的語言特征,但到目前為止,所研究的文學作品多為詩歌、短劇等篇幅短小、統(tǒng)計起來較為方便的文學類別,并且統(tǒng)計分析對象大多集中于英語圈作家的作品。國內這類對文體進行定量分析的研究也大多集中在唐宋詩詞等古漢語作品這類篇幅相對短小的作品上?!皩唧w作家的文體風格的研究,以國外居多。”(劉世生、朱瑞清,2006:65)目前國內對日本文學作品和作家的文體研究現(xiàn)狀也是如此。但是隨著語料庫的發(fā)展,通過語料庫這一平臺,分析長篇的日語文本或某一作者的文體成為可能。
但從具體的分析考察內容上來說,日語的語言特點決定了其文本與漢語及英語文本存在較大差異。在量化分析漢語及英語文本時,大多采用統(tǒng)計詞頻的方式,即統(tǒng)計某字或詞語出現(xiàn)的頻率,進而分析文體風格。但是在日語文本分析中,統(tǒng)計詞頻較為困難。首先,日語的表記方法多樣,有漢字、平假名、片假名以及羅馬字等多種方式,有的詞語還有多種漢字寫法,如「変える?替える?代える」,因此同一詞語可能會出現(xiàn)多種書寫方式;而同樣的假名也可能有不同的含義,如「蟻(あり)?有り(あり)」,這無疑大大增加了詞頻統(tǒng)計的工作量。其次,日語詞匯中活用變化較多,同一含義的單詞根據上下文的不同可能會變化成五六種不同的活用形,這同樣給詞頻統(tǒng)計帶來不便。
因此,在試圖運用語料庫量化分析日語文本時,需要結合日語的表現(xiàn)特點重新確定考察對象。通過比較分析,可以從以下幾個方面著手:
1.句子長度
這項指標考察每一句中字數(shù)或自立語數(shù)或文節(jié)的數(shù)量。由于日語中每一文節(jié)僅包含一個自立語,因此該項指標考察的自立語數(shù)量和文節(jié)數(shù)應為一致。一篇文章中,若每句句子越長(即包含的自立語數(shù)或文節(jié)數(shù)越多),則文章越難理解;相反則淺顯易懂。波多野完治曾對日本的小說、報紙、雜志文章中的句子長度進行過統(tǒng)計,結果如下:[3]
表1:
也就是說在日語文章中,與報紙、雜志報道相比,小說的句子長度是最短的,平均每句句子只有34.5個字。但是與日常對話相比,其結果又將如何?樺島忠夫曾對具體數(shù)值進行過統(tǒng)計,統(tǒng)計結果如下表所示:[4]
表2:
需要說明的是,此處對小說句子長度的統(tǒng)計中不包括會話文。在這項統(tǒng)計中可以看出小說的平均句子長度大約是日常對話的3倍。以上兩組表格中,雖考察項目有所不同(前者統(tǒng)計的為句子字數(shù),后者統(tǒng)計的是自立語數(shù)量),但所指向的內容均為句子長度。
2.名詞比率
名詞比率是指文本中名詞的數(shù)量在所有獨立詞中所占比例。根據樺島忠夫的統(tǒng)計,各類型文章中名詞的平均使用率如下:
表3:
可以看出,在標題文本中名詞的使用率最高,談話語則最低。這表明了名詞較多地使用于歸納性、說明性文本中,而在描寫性文本中則使用較少。
3.MVR
MVR為Modifier and Verb Rate的縮寫,即修飾詞與動詞的比率。Modifier包括形容詞、形容動詞、副詞、連體詞等起修飾作用的詞語,V即動詞。在計算時,通常會在M和V的比值下再乘以100以方便標記。文本中,MVR的值越高,說明該文本運用了較多的描寫性的修飾詞語,閱讀起來容易理解,不晦澀。反之則表明文本的說明性傾向越大。
4.會話文的比率
會話文的比率是指一部文學作品中引用的對話在全文中所占的比例。我們已知日常對話的平均句子長度約為小說平均句子長度的三分之一。文學作品中,作者常常引用對話使讀者身臨其境地把握人物的心理、情緒和環(huán)境氛圍等。因此,文本中如果較多地引用對話的話,不僅通俗易懂,且能夠讓讀者直觀地感受到人物性格特征及場景氣氛等,因而更加引人入勝。
以上四項指標中,第一項直接關系到文本閱讀時的難易度,即相對于長句來說,短句更容易理解;第二、三、四項指標直接關系到文本的描寫性傾向。即名詞比率越低、MVR和會話文比率越高,則文本越傾向于描寫性。而相對于說明性文本,描寫性傾向越高的文本閱讀難度越低。因此,對該四項指標的考察除了能掌握文本(或作者)的文體特征之外,還均能從實證角度論證文本的閱讀難易度。
宮澤賢治的作品在日本廣受歡迎,并且其讀者群并不限于兒童。為了解這位作家的語言風格,筆者將利用原文語料庫和日語解析軟件對其作品進行大規(guī)模的數(shù)據提取和對比分析。
(一)數(shù)據采集
為使結論盡量客觀而全面,在數(shù)據采集上,筆者選取了宮澤賢治各個時期所創(chuàng)作的18篇童話作品。其中因為1921年為宮澤賢治創(chuàng)作的高峰期,本文選擇的該時期作品也略多一些。具體作品情況如表4所示(其中*為其生前未發(fā)表作品)。
表4:
前文已述,由于日文表記方法的多樣性,為避免在計算句子長度時使用字數(shù)統(tǒng)計造成不盡客觀的結果,筆者還將在字數(shù)統(tǒng)計的基礎上采用解析軟件統(tǒng)計文節(jié)數(shù)量。由于每一個文節(jié)只包含一個自立語數(shù)量,因此句子的文節(jié)數(shù)也反映了自立語數(shù),即句子長度。通過解析軟件可得出上述18篇童話作品的字數(shù)、句子數(shù)以及文節(jié)數(shù),將這些數(shù)據進行計算之后可以得出宮澤賢治該18篇童話作品的句子長度數(shù)據,結果如圖1所示(橫坐標的數(shù)字為表4中各童話作品的編號)。
圖1:
從上圖可以看出,在統(tǒng)計的宮澤賢治的18部童話作品中,除了第1、2、18號作品,其余15部作品每句平均文字數(shù)幾乎都集中在25-35字之間。其中有一半的作品都是在30字左右。而每一句的平均文節(jié)數(shù)大體也呈現(xiàn)這一規(guī)律??傮w來說,這18篇作品的平均文節(jié)數(shù)都在5-10之間。其中第1、2、18篇作品的數(shù)據更低一些。具體來說,每一文的平均文節(jié)數(shù)為9或10的只有三部作品,其余作品大多為7個或8個文節(jié)。經計算,所有18部童話作品的每句平均字數(shù)為27.5,平均文節(jié)數(shù)為7.7。
(二)對比分析
定量分析文學作品的目的在于總結作家或作品的文體特征。而特征是相對的,因此在該例中,要想總結宮澤賢治童話句子長度的特征,就必須有參照對象。樺島忠夫通過統(tǒng)計得出的結論為“口語中,平均每文使用的文節(jié)數(shù)為3.2-3.6,大約為小說的三分之一?!庇纱耍覀兛芍?,小說中每文的平均文節(jié)數(shù)大約在9.6-10.8之間。但是,根據上文對宮澤賢治十八篇童話作品的統(tǒng)計,其每文的平均文節(jié)數(shù)只有7.7,僅為小說文節(jié)數(shù)的四分之三。在此基礎上筆者又進行了對比研究。在比較對象的選擇上,考慮到要兼顧時代特點和作品特點,因此選擇了同時代的島崎藤村的作品進行對比分析。島崎藤村(1872-1943)和宮澤賢治的(1896-1933)生活年代大體相近,因此避免了因年代不同而造成的作品文體差異。表2為本文所要統(tǒng)計的島崎藤村的五篇作品及各作品字數(shù)、句子數(shù)和文節(jié)數(shù)的相關數(shù)據。這五篇作品均為其代表作,創(chuàng)作時期也各有不同,時間跨度達二十余年。其中《ふるさと》為童話。
表5:
由表5數(shù)據經過計算可以得出島崎藤村五部作品中每句平均字數(shù)和每句平均文節(jié)數(shù)。數(shù)值分布如圖2所示。
圖2:
從圖2可以看出,島崎藤村的五篇作品中,除了《破戒》以外,每句平均字數(shù)均在35-45之間。此外,五篇作品的每句平均文節(jié)數(shù)均為10-13左右。通過計算,這五篇作品的平均句長為每句38.8字和11.4文節(jié)。這一數(shù)據與宮澤賢治的有相當大的差距,圖3可以直觀反映出來(每組左邊的柱狀圖為宮澤賢治作品的數(shù)據)。與島崎藤村的作品相比,宮澤賢治作品的每句平均字數(shù)少十余字,每句平均文節(jié)少近4個。
圖3:
通過以上對數(shù)據的統(tǒng)計和對比,我們可以看出宮澤賢治的童話作品句子長度特別短小,介于口語和小說的長度之間(口語為3-4文節(jié),小說約為11文節(jié),宮澤賢治童話約為7.7)。但這一特征究竟是其個人寫作特征還是作為童話的普遍特征,我們可以通過與同時代其他作家的童話作品進行比較。以下將從雜志「赤い鳥」中選取四部童話作品作為參照進行對比?!赋啶B」為鈴木三重吉于1918年創(chuàng)辦的童話雜志,于1935年停刊。表6為從上述刊物中選取的作品的相關數(shù)據。
表6:
由表6可以看出,用于對比分析的四部童話作品的創(chuàng)作年份與宮澤賢治童話作品的創(chuàng)作年代相符,因此可以排除由于年代差距而導致的文風差異。比較結果可以直觀表現(xiàn)為圖4所示。兩道虛線分別為宮澤賢治童話作品每句話的平均字數(shù)和文節(jié)數(shù)。顯然除了芥川龍之介的數(shù)據較大以外,其他三部作品表現(xiàn)相當,但均高于宮澤賢治的童話作品。事實上,芥川龍之介其他非童話的作品的句子長度均較同時期小說家的數(shù)據要高;此外,「赤い鳥」也曾經收到過宮澤賢治的投稿,但并未采用。因此宮澤個人的寫作風格與雜志其他作品風格的差異由此可見一斑。
圖4:
以上數(shù)據和分析都表明,無論是與一般小說相比,還是與其他作家的童話作品相比,宮澤賢治童話作品的句子長度均偏短,每句話的中心詞數(shù)量偏少。這一發(fā)現(xiàn)從實證的角度說明宮澤賢治的作品淺顯易懂。筆者認為,這也是其在日本廣受歡迎的原因之一。
所謂描寫性語言,即能讓讀者在閱讀時產生種種關于樣態(tài)、方式方法等的聯(lián)想的語言表達。在一篇文章中,描寫性語言成分越多,文章就越容易理解。通過上述關于句子長度的分析,我們獲取相關數(shù)據并得出宮澤賢治童話作品淺顯易懂的結論。在該部分,我們將提取宮澤賢治作品中描寫性語言的數(shù)據,以對上述結論進行補充或駁斥。數(shù)據來源仍然與上文相同,抽取宮澤賢治于不同年代創(chuàng)作的18部作品,分析對象將包括以下幾個方面:名詞比率、MVR和會話文比率。
(一)名詞比率
在說明性的文本中,由于作者需要論述或推測機制、理由,又或者要判斷某事物的價值,因此我們可以認為在說明性的文章中名詞的比率較高。宮澤賢治的18部作品和島崎藤村的5部作品中的名詞比率如圖5所示。
圖5:
圖5中垂直虛線以左為宮澤賢治18部童話作品的相關數(shù)據。名詞使用率最低的為18號作品(32.68%),最高的為15號作品(44.06%),平均數(shù)值為39%。右邊島崎藤村5部作品的數(shù)據,我們可以看出數(shù)值最低的20號作品(46.71%)都高于賢治的最高值,而最高值的23號作品更是高達54.49%,藤村作品的平均數(shù)值為50.2%。圖5中水平虛線為日本小說中名詞比率的平均數(shù)值,可以看出該數(shù)據遠遠高于賢治的童話作品,整體上與島崎藤村的作品較為接近。通過圖6也可以看出,宮澤賢治童話作品的名詞比率也低于同時期其他童話作品。
圖6:
(二)MVR
MVR(Modifier and Verb Rate)為修飾詞與動詞的比率,是判斷文章描寫性特征的又一指標。修飾詞包括形容詞、形容動詞、副詞和連體詞。因此,動詞較多的文本MVR值偏小,相反,修飾詞較多的文本MVR就偏大。也就是,越是詳細描述表現(xiàn)對象樣態(tài)的文本,MVR也就越大,這樣的文本自然屬于描寫性文本。在統(tǒng)計并計算宮澤賢治的18部作品和島崎藤村的5部作品的MVR值之后,得出圖7。
圖7:
橫軸為名詞比率,縱軸為MVR值,虛線左右兩邊分別為賢治和藤村作品的數(shù)據。可以看出左邊宮澤賢治作品中MVR值在100以上的有6部,占全部作品的1/3,MVR值在70以下的作品僅兩部,其他作品大部分在80以上,所有18部作品的MVR平均值為89.32。而島崎藤村的5部作品中,MVR值最高的也僅僅為82.84,低于賢治作品的平均值。圖8為與「赤い鳥」中作品的對比圖。直線連接的四點為「赤い鳥」中四部童話作品的數(shù)據分布,MVR值最高的為24號作品(77.56),與賢治作品的平均值還存在較大差距。可以看出這四部作品在圖中位置都位于虛線以下,虛線以上均為賢治的作品。
圖8:
(三)會話文比率
判斷文章的描寫性傾向還可以通過會話文比率這一指標。即文本中對話字數(shù)與文本總字數(shù)的比率。在文本中,通過引用對話,能夠創(chuàng)造出身臨其境的感受,直觀地向讀者傳達人物的感情、身份、環(huán)境特征等。
圖9:
圖9為本文考察的27部作品的會話文比率。其中前18部宮澤賢治作品的數(shù)值明顯高于其他9部,其平均數(shù)值為34.65%,幾乎全文的三分之一以上均為直接引用的會話文。相比之下,島崎藤村的作品數(shù)值最低,除22號童話作品以外,其他四部均低于4%。而有3部「赤い鳥」中童話以及藤村的童話(22號)的會話文比率幾乎都在15%左右。此外,芥川龍之介的23號作品,雖然為童話,但數(shù)值卻僅為4.19%,再比較此前對比句子長度時的數(shù)值,23號作品遠高于其他「赤い鳥」中的童話,不得不說這是芥川龍之介的個人寫作特點。
圖10:
文本中的名詞比率、MVR和會話文比率均表現(xiàn)了作者行文時的描寫性傾向。如圖10所示,通過這三項指標的對比,我們可以看出宮澤賢治的作品具有較強的描寫性特征。其作品的MVR和會話文比率遠高于同時代其他作品(包括同時代童話作品),而名詞比率卻最低。再結合前文關于句子長度的相關數(shù)據,每一項指標的數(shù)值均說明宮澤賢治童話作品的通俗易懂,也解釋了其作為作家在日本人氣居高不下、其作品在日本廣為流傳的原因。
隨著現(xiàn)代計算機技術和語料庫的不斷完善,已有越來越多的研究者開始借助語料庫,使用定量分析的方法分析文本,尤其是文學文本。但盡管如此,研究大多局限于漢語言文學和英美文學作品,鮮見對日語文本,尤其是長篇文本進行量化研究。究其原因,除了日語長篇文本語料庫不夠充分之外,主要是先前計算機技術的局限性和日語自身的語言特點制約了日語語言的量化分析,導致大規(guī)模的詞頻統(tǒng)計無法完成。但是,計算機技術發(fā)展日新月異,目前已有相關軟件可以分析日語文本的文節(jié)特征,在此基礎上,在對日語文本進行定量分析時,可以跳出詞頻統(tǒng)計的束縛,通過句子長度、名詞比率、MVR和會話文比率,來探究日語(文學)文本的文體特征。本文利用語料庫和日語解析軟件,嘗試分析并對比了宮澤賢治童話作品的句子長度特點和描寫性傾向。筆者認為,結合語料庫和日語解析軟件,可以深入探究文本和作者的文體風格。
注釋:
[1]如試論古代文學中計量方法的應用、倉央嘉措情歌的用詞風格統(tǒng)計研究。
[2]如任艷,陳建生,丁峻:《英國哥特式小說中的詞叢——基于語料庫的文學文體學研究》,解放軍外國語學院學報,2013年,第9期。
[3]數(shù)據來自波多野完治:《現(xiàn)代文章心理學》,新潮社,1950年版,第153頁。
[4]數(shù)據來自樺島忠夫:《日本語のスタイルブック》,大修館書店,1979年版,第214頁。
參考文獻:
[1]樺島忠夫.表現(xiàn)の解剖——続文章工學[M].三省堂,昭和43年:27-94.
[2]波多野完治.現(xiàn)代文章心理學[M].新潮社,1950:153-164.
[3]樺島忠夫.日本語のスタイルブック [M].大修館書店,1979:211-216.
[4]橋本進吉.國文法研究第二冊(橋本進吉博士著作集)[M].巖波書店,1948:5-12.
[5]前川喜久雄.コーパスとは何か(國文學解釈と鑑賞 特集=日本語研究とコーパス)[J].至文堂,2009,(1).
[6]宮島達夫.図説日本語——グラフで見る言葉の姿[M].角川書店,1982:373-392.
[7]原子朗.真の文體論的批評への期待」[J].『日本語學』特集,1997,(9).
[8]劉世生,朱瑞青.文體學概論[M].北京:北京大學出版社,2006:61-69.
[9]李文中.語料庫語言學的研究視野[J].解放軍外國語學院學報,2010,(3):37-40.
[10]李晉,郎建國.語料庫語言學視野中的外國文學研究[J].外國語,2010,(2):82-89.
[11]毛文偉.日語語料庫建設的現(xiàn)狀綜述[J].日語語言研究,2009,(6):42-47.
[12]唐磊.試論古代文學中計量方法的應用[J].中國社會科學院研究生院學報,2006,(2):126-132.
[13]陳晨,陳小瑩等.倉央嘉措情歌的用詞風格統(tǒng)計研究[J].西北民族大學學報(自然科學版),2009,(3):46-50.
[14]任艷,陳建生,丁峻.英國哥特式小說中的詞叢——基于語料庫的文學文體學研究[J].解放軍外國語學院學報,2013,(9):16-20.
(曹雅潔 江蘇大學文學院 212013)
基金項目:(本文是2014年江蘇省教育廳項目“小松左京作品的日本文化意義”[項目編號:2014SJB804]、2015年江蘇省教育廳項目“中日傳統(tǒng)‘家’文化與百姓幸福觀問題研究”[項目批準號:2015SJB838]、江蘇大學2015年高等教育教改研究課題“語料庫技術輔助高校日語專業(yè)詞匯搭配教學的研究與實踐”[課題編號:2015JGYB024]的階段性研究成果。)