謝雪鋒
(桂林電子科技大學(xué) 外國語學(xué)院,廣西 桂林 541004)
語料庫研究方法應(yīng)用的探討
——以王穎基于語料庫的對比分析論文為例
謝雪鋒
(桂林電子科技大學(xué) 外國語學(xué)院,廣西 桂林 541004)
本文討論了王穎關(guān)于中國學(xué)習(xí)者英文寫作中高頻介詞的研究論文,探討其如何利用語料庫研究方法對研究對象進(jìn)行量化分析。同時,本文也認(rèn)為其所用的語料庫研究方法存在有優(yōu)缺點(diǎn),提出要謹(jǐn)慎選擇研究中具體所采用的方法,避免產(chǎn)生研究結(jié)果的偏差。
量化分析;語料庫;誤差
在2009年第3期《北京化工大學(xué)學(xué)報(社會科學(xué)版)》上,北京協(xié)和醫(yī)學(xué)院護(hù)理學(xué)院的王穎發(fā)表了題為“中國學(xué)習(xí)者英文寫作中的高頻介詞研究——基于語料庫的對比分析”的論文。作者王穎在該文摘要指出其研究采用基于語料庫中的中介語的對比研究方法,結(jié)合定量分析與定性分析討論,來考察本族語和學(xué)習(xí)者語料庫中的15個常用介詞的特點(diǎn)。本文將對該研究進(jìn)行簡單分析,特別討論了其所采用的語料庫研究方法的優(yōu)缺點(diǎn)。
1.研究目的
王穎在引言中首先闡述了介詞的意義以及介詞是中國學(xué)習(xí)者英語學(xué)習(xí)的難點(diǎn),提出利用語料庫(本族語語料庫和中介語語料庫)對此進(jìn)行研究,找出英語為本族語者和中國學(xué)習(xí)者在介詞使用上的差異,并探討學(xué)習(xí)者超用(overuse)和少用(underuse)介詞的原因以及在教學(xué)上的啟示。
2.研究方法
王穎借助語料庫索引軟件AntConc3.1.302,對兩個本族語者語料庫Brown、LOB和一個學(xué)習(xí)者語料庫CLEC進(jìn)行檢索和分析。她的研究比較突出的特別是在量化分析部分應(yīng)用了語料庫研究方法,再將得出的統(tǒng)計數(shù)據(jù)進(jìn)行定性分析。下面將簡述該研究所應(yīng)用的研究工具、統(tǒng)計數(shù)值方法以及研究步驟。
3.研究工具
采用Anthony博士于2006年3月8日在網(wǎng)上發(fā)行的語料庫檢索軟件 AntConc3.1.302中的兩個子程序:(1)詞頻表Word List:用于生成15個常用英語介詞在三個語料庫的頻次表;(2)關(guān)鍵詞表Keyword List:用于生成對比學(xué)習(xí)者語料庫和本族語者語料庫是產(chǎn)生的超用和少用詞匯表。
4.統(tǒng)計數(shù)值
采用了兩種統(tǒng)計數(shù)值:百分比,或然率(Keyness)。文章舉of為例:在CLEC里of的頻數(shù)是23207,而整個語料庫的總詞次為1172732,其百分比為23207/1172732=1.98。作者認(rèn)為或然率的絕對值越大,說明該次在兩個語料庫中的差異越大,正負(fù)號表示超用或少用,并且規(guī)定Keyness閾值在0.01顯著水平上位16.4,就是說如果某一個介詞在兩個語料庫對比中keyness的絕對值高于16.4,便認(rèn)為學(xué)習(xí)者語料與本族者語料有顯著差異,或超用或少用了該詞。
5.研究步驟
在橫向比較 15個常用介詞在兩個本族語者語料庫Brown、LOB和學(xué)習(xí)者語料庫CLEC的異同后,把 CLEC的五個語料庫和 Brown進(jìn)行對比,得出不同階段的學(xué)習(xí)者對介詞掌握情況的縱向比較結(jié)果。同時,利用桂詩春“學(xué)習(xí)者錯誤相關(guān)矩陣”將CLEC的五個語料庫分成初、中、高三個等級,來考量學(xué)習(xí)者在不同階段的介詞使用情況。
6.分析結(jié)果
中國學(xué)習(xí)者與英語本族語者使用介詞的總體頻次沒有顯著差異;常用介詞在兩個本族語者語料庫 Brown、LOB中的差別不明顯,而對比學(xué)習(xí)者語料庫CLEC,看到有些介詞被超用了,如to, in, about,有些少用了,如of, as,with, by。
高級學(xué)習(xí)者的語料要比初級學(xué)習(xí)者的語料更接近本族語者語料;某些出現(xiàn)在初級學(xué)習(xí)者身上所存在的問題同樣出現(xiàn)在中、高級學(xué)習(xí)者身上。文章最后分析了造成中國英語學(xué)習(xí)者超用和少用部分介詞的原因,認(rèn)為母語的干擾、漢語本身的語法以及其他諸如教師課堂用語、對固定搭配的忽視等等因素造成了部分介詞超用和少用。
王穎的論文在量化分析中所采用的語料庫研究方法值得進(jìn)一步探討。首先,語料庫選擇帶來的偏差。中國學(xué)習(xí)者語料庫CLEC收集了包括中學(xué)生、大學(xué)英語4級和6級、專業(yè)英語低年級和高年級在內(nèi)的5種學(xué)生的語料一百多萬詞,并對言語失誤進(jìn)行標(biāo)注。該語料庫注重的是對學(xué)習(xí)者言語失誤的描述,那么通過某個詞在這個語料庫里的詞頻率與在本族語語料庫Brown、LOB里的詞頻率進(jìn)行對比而得出該詞超用或少用的結(jié)論就值得懷疑了。某個詞在CLEC的詞頻率和在 Brown、LOB里詞頻率一致或接近,也不能得出中國學(xué)習(xí)者就不存在超用或少用該詞了。例如王穎論文提到 15個常用介詞在CLEC里的總詞頻率10.43%和在Brown、LOB的總詞頻率12.18%、12.42%非常接近,但顯然在CLEC里的詞頻率要低一些,可是不能輕易地下結(jié)論說中國英語學(xué)習(xí)者都少用了這15個常用介詞,因為這15個介詞每個在相應(yīng)的語料庫里都有著不同的詞頻率。另外,在通過 AntConc 3.1.302里的Word List程序生成某些詞的詞頻表并不會剔除錯用的情況,因而所得到的結(jié)果不能真實地說明某個詞超用和少用?;蛘哒f要是讓這些統(tǒng)計數(shù)據(jù)保有意義的話,至少要保證CLEC里的語料都不存在言語失誤的。顯然,這是不可能的。
統(tǒng)計方法不同所帶來的偏差。以 in為例,在通過AntConc 3.1.302的Word List程序生成的詞頻表里,in屬于超用的情況,而在通過AntConc 3.1.302的Keyword List程序以Brown為參考語料庫得出的或然率表里,in卻屬于學(xué)習(xí)者語料庫和本族語者語料庫使用差別不明顯的介詞。
從上面的討論來看,我們發(fā)現(xiàn)偏重描述言語失誤的中介語語料庫和本族語語料庫所進(jìn)行的比較研究可以很生動地分析語料,但是在研究中具體所采取的方法需要謹(jǐn)慎考慮,避免給研究結(jié)果帶來偏差。雖然王穎的論文在少用和超用介詞方面的論證存在有些值得商榷的問題,但是所采用語料庫的方法卻也是很客觀的、獨(dú)到的。
[1] 王穎. 中國學(xué)習(xí)者英文寫作中的高頻介詞研究——基于語料庫的對比分析[J]. 北京化工大學(xué)學(xué)報(社會科學(xué)版),2009,3.
H0-0
A
1008-7427(2011)06-0097-01
2011-03-28