殷銘
摘? ? 要: 本文采用中介語(yǔ)對(duì)比分析方法,將搜集到的獨(dú)立學(xué)院學(xué)生英語(yǔ)寫(xiě)作文本自建語(yǔ)料庫(kù),與LOCNESS語(yǔ)料庫(kù)中英、美大學(xué)生寫(xiě)作語(yǔ)料進(jìn)行對(duì)比分析,運(yùn)用語(yǔ)料庫(kù)檢索、標(biāo)注、統(tǒng)計(jì)等一系列工具,研究并分析獨(dú)立學(xué)院學(xué)生英語(yǔ)寫(xiě)作詞匯的宏觀特征,并對(duì)獨(dú)立學(xué)院大學(xué)英語(yǔ)寫(xiě)作教學(xué)提出一些建議。
關(guān)鍵詞: 語(yǔ)料庫(kù)? ? 獨(dú)立學(xué)院? ? 英語(yǔ)寫(xiě)作? ? 詞匯特征
1.引言
2017年最新發(fā)布的《大學(xué)英語(yǔ)教學(xué)指南》(以下簡(jiǎn)稱(chēng)《指南》)對(duì)中國(guó)大學(xué)生的英語(yǔ)能力提出了全新的要求,除了能用英語(yǔ)進(jìn)行日常溝通與交流外,還要能有效地傳播中華文化,這已經(jīng)上升到國(guó)家戰(zhàn)略需求的層面?!吨改稀芬髮W(xué)生在高中英語(yǔ)的基礎(chǔ)上進(jìn)一步提高英語(yǔ)聽(tīng)、說(shuō)、讀、寫(xiě)、譯的能力。作為五項(xiàng)基本技能之一,寫(xiě)作是最能體現(xiàn)學(xué)生語(yǔ)言綜合運(yùn)用能力的部分,同時(shí)是目前英語(yǔ)教學(xué)中最薄弱的環(huán)節(jié)(鹿青,2017)。寫(xiě)作需要英語(yǔ)教師給予及時(shí)、有效的反饋,反饋不足甚至零反饋只能導(dǎo)致學(xué)生去網(wǎng)絡(luò)上尋找良莠不齊的范文作為參照,久而久之便失去寫(xiě)作的熱情和信心,只能期望在四、六級(jí)考試前突擊背誦作文模板或經(jīng)典例句。
語(yǔ)料庫(kù)語(yǔ)言學(xué)的目標(biāo)之一是解釋各種語(yǔ)言現(xiàn)象是否可能發(fā)生及發(fā)生概率的大小(Kennedy,1998:270),語(yǔ)料庫(kù)相關(guān)研究中的對(duì)比最終常常落實(shí)到頻率的對(duì)比,語(yǔ)料庫(kù)內(nèi)部詞匯或短語(yǔ)的比較和兩個(gè)乃至更多語(yǔ)料庫(kù)見(jiàn)的比較最終是頻率的比較(梁茂成,2010:10)。本研究從寫(xiě)作詞匯特征入手,因?yàn)樵~匯是英語(yǔ)寫(xiě)作最基本的材料,詞匯運(yùn)用的豐富程度是高質(zhì)量作文的顯著性特征之一(Reed,2000),并對(duì)各類(lèi)詞匯特征出現(xiàn)的概率和頻率進(jìn)行量化分析。對(duì)比獨(dú)立學(xué)院學(xué)生與英、美大學(xué)生寫(xiě)作用詞的特點(diǎn)及差異,并分析原因,提出相關(guān)的寫(xiě)作教學(xué)建議,使學(xué)生盡快適應(yīng)《指南》的最新要求。
2.研究設(shè)計(jì)
2.1研究問(wèn)題
本研究期望解決如下三個(gè)問(wèn)題:獨(dú)立學(xué)院學(xué)生與英、美大學(xué)生英語(yǔ)寫(xiě)作詞匯各自有哪些特征?這些詞匯特征是否存在顯著差異?是否有行之有效的措施提升獨(dú)立學(xué)院學(xué)生英語(yǔ)寫(xiě)作詞匯水平?
2.2研究方法
本研究采用語(yǔ)料庫(kù)中介語(yǔ)對(duì)比分析方法,參照英語(yǔ)母語(yǔ)成人語(yǔ)料庫(kù),對(duì)自建的獨(dú)立學(xué)院語(yǔ)料庫(kù)進(jìn)行觀察和分析,運(yùn)用語(yǔ)料庫(kù)工具分析詞匯密度、詞級(jí)、詞長(zhǎng)、詞頻及詞性分布情況,試圖從宏觀上揭示獨(dú)立學(xué)院學(xué)生英語(yǔ)寫(xiě)作詞匯特征。
2.3研究對(duì)象
本研究所選取的觀察語(yǔ)料來(lái)自南京某高校設(shè)在泰州的一所獨(dú)立學(xué)院。該校自2015年起每年舉行一次同命題英語(yǔ)寫(xiě)作比賽(見(jiàn)表1),筆者共收集到2015年—2018四年間的學(xué)生作文共計(jì)7841篇。為保證本研究的信度和效度,筆者從每年比賽文本中各隨機(jī)抽取500篇共計(jì)2000篇自建語(yǔ)料庫(kù),庫(kù)容量為497915詞,并將其命名為NNUTC。
用于參照的語(yǔ)料庫(kù)是由比利時(shí)Louvain大學(xué)Sylviane Granger教授主持建立的英、美本族語(yǔ)大學(xué)生作文語(yǔ)料庫(kù)LOCNESS(The Louvain Corpus of Native English Essays)。該庫(kù)容量為265695詞,包括英國(guó)和美國(guó)大學(xué)生議論文和說(shuō)明文共322篇,涉及若干主題。
2.4研究工具
本研究使用一系列語(yǔ)料庫(kù)檢索、標(biāo)注、統(tǒng)計(jì)工具分析各種詞匯特征出現(xiàn)的概率和頻率,分別為用來(lái)測(cè)量詞匯密度和詞長(zhǎng)的WordSmith,統(tǒng)計(jì)詞級(jí)分布的Range,檢索詞頻的AntConc,進(jìn)行詞性標(biāo)注的TreeTagger和用來(lái)檢驗(yàn)頻數(shù)差異的Log-likelihood Ratio Calculator。
3.發(fā)現(xiàn)與討論
3.1詞匯密度
類(lèi)符/形符比是衡量文本中詞匯密度的常用方法(梁茂成,2010:9)。筆者使用WordSmith對(duì)兩庫(kù)中的類(lèi)符/形符比進(jìn)行分析發(fā)現(xiàn),NNUTC的形符數(shù)為497915詞,類(lèi)符數(shù)為12631詞,LOCNESS的形符數(shù)為265695詞,類(lèi)符數(shù)為16055詞,類(lèi)符/形符比分別為2.54%和6.04%。但由于寫(xiě)作中不可避免會(huì)重復(fù)出現(xiàn)大量諸如the, a, of等功能詞,且文本越長(zhǎng)功能詞重復(fù)次數(shù)越多,密度反而會(huì)降低,因此標(biāo)準(zhǔn)化類(lèi)符/形符比被認(rèn)為是較為可靠的詞匯密度的測(cè)量工具(梁茂成,2010:10)。將二者的標(biāo)準(zhǔn)化類(lèi)符/形符比進(jìn)行對(duì)比發(fā)現(xiàn),NNUTC的標(biāo)準(zhǔn)化類(lèi)符/形符比為37.53%,要略低于LOCNESS的40.13%,可見(jiàn)獨(dú)立學(xué)院學(xué)生的作文中詞匯密度較低,主要體現(xiàn)為寫(xiě)作用詞變化不多且種類(lèi)單一,缺乏一定的變化。
3.2詞級(jí)
筆者利用Range軟件分別統(tǒng)計(jì)兩個(gè)語(yǔ)料庫(kù)的詞級(jí)分布和詞匯復(fù)現(xiàn)率情況。如表2所示,獨(dú)立學(xué)院學(xué)生所使用的一級(jí)、二級(jí)、三級(jí)和超綱詞匯的百分比分別為82.95-9.34-2.32-5.39,而表3中英、美大學(xué)生各級(jí)詞匯使用比例分別為80.93-7.61-2.29-9.17。Cobb(2003:393-423)經(jīng)過(guò)研究發(fā)現(xiàn),英語(yǔ)母語(yǔ)者作文的詞頻比分別為70-10-10-10,高級(jí)英語(yǔ)學(xué)習(xí)者的作文詞頻比分別為88-3-3-6,而中國(guó)高水平英語(yǔ)學(xué)習(xí)者的書(shū)面語(yǔ)詞頻比為84-6-5-6(文秋芳,2003)。
可以看出:(1)獨(dú)立學(xué)院學(xué)生和英、美大學(xué)生都偏重于使用高頻詞匯(list one),且比例均超過(guò)80%,而獨(dú)立學(xué)院學(xué)生超綱詞匯使用比例要遠(yuǎn)低于英、美大學(xué)生;(2)英、美大學(xué)生所用詞匯的詞族(Families)和種類(lèi)(Types)明顯高于獨(dú)立學(xué)院學(xué)生,體現(xiàn)出獨(dú)立學(xué)院學(xué)生詞匯使用的豐富性不足,重復(fù)使用部分單詞;(3)從詞匯復(fù)現(xiàn)率(Tokens/Types)來(lái)看,獨(dú)立學(xué)院學(xué)生的高頻詞匯和次高頻詞匯的復(fù)現(xiàn)均遠(yuǎn)遠(yuǎn)高出英、美大學(xué)生,特別是高頻詞匯高出一倍多。綜上所述,獨(dú)立學(xué)院學(xué)生高頻和次高頻詞匯的掌握情況基本達(dá)到英語(yǔ)母語(yǔ)者和中國(guó)高水平英語(yǔ)學(xué)習(xí)者的平均水平,但學(xué)術(shù)詞匯的掌握能力亟待提高。
3.3詞長(zhǎng)
Karlgren(1996),Attali and Burstein(2004),桂詩(shī)春等(2003)都提出詞長(zhǎng)是比較語(yǔ)料庫(kù)常用的參數(shù)。筆者運(yùn)用WordSmith工具對(duì)兩個(gè)語(yǔ)料庫(kù)中的平均詞長(zhǎng)、詞長(zhǎng)標(biāo)準(zhǔn)差和不同字母數(shù)構(gòu)成的單詞數(shù)進(jìn)行了統(tǒng)計(jì)。由于15字母以上的單詞數(shù)量偏少,不具備典型性,因此本研究?jī)H選取1-15字母數(shù)的單詞數(shù)量進(jìn)行對(duì)比分析,得出表4所示數(shù)據(jù)。
從平均詞長(zhǎng)看,兩庫(kù)的平均詞長(zhǎng)均為5個(gè)字母,詞長(zhǎng)標(biāo)準(zhǔn)差沒(méi)有太大的差異。隨后筆者將不同字母數(shù)構(gòu)成的詞數(shù)進(jìn)行標(biāo)準(zhǔn)化處理(詞數(shù)/總形符數(shù)×10000000),以折線圖形式呈現(xiàn)。從圖1的對(duì)比中發(fā)現(xiàn),兩庫(kù)中使用最頻繁的單詞均由2個(gè)—4個(gè)字母構(gòu)成。LOCNESS中3字母詞最多,其次是2字母詞、4字母詞、5字母詞和6字母詞。NNUTC中2字母詞最多,其次是3字母詞、4字母詞、5字母詞和7字母詞。在5字母以上的單詞數(shù)中,NNUTC中除了7字母詞高于LOCNESS外,其余均略低。
為了進(jìn)一步弄清NNUTC中為何出現(xiàn)7字母單詞比例過(guò)多的情況,筆者通過(guò)編寫(xiě)正則式檢索出所有7字母單詞,發(fā)現(xiàn)除了ability, against, another, because, between, various, whether, without等各類(lèi)作文中普遍出現(xiàn)的高頻詞外,其他一些高頻出現(xiàn)的7字母詞諸如AlphaGo,booming, Chinese, English, connect, broaden, culture, foreign, reading, science, society, stories, telling, Western均為各年作文比賽中的主題詞或關(guān)鍵詞,出現(xiàn)高頻使用的情況也就不足為奇了。
雖然詞長(zhǎng)參數(shù)不能全面準(zhǔn)確地測(cè)量英語(yǔ)寫(xiě)作水平,但至少?gòu)囊粋€(gè)側(cè)面反映出學(xué)生在英語(yǔ)寫(xiě)作水平上確實(shí)存在差異(文秋芳,2003)。上圖說(shuō)明母語(yǔ)學(xué)習(xí)者能較為熟練地使用詞長(zhǎng)較長(zhǎng)的詞,而獨(dú)立學(xué)院學(xué)生則需要提高多字母單詞的使用能力,盡量避免使用簡(jiǎn)單、通用和口語(yǔ)化的詞語(yǔ)來(lái)表達(dá)思想,而應(yīng)多使用書(shū)面文體進(jìn)行寫(xiě)作。
另外需要補(bǔ)充一點(diǎn),自動(dòng)分詞工具雖然提高了信息處理的效率,但其分詞的依據(jù)是單詞之間存在的空格。當(dāng)詞與詞之間或單詞后出現(xiàn)標(biāo)點(diǎn)卻沒(méi)有跟下一個(gè)單詞之間留有空格時(shí),工具將默認(rèn)為是一個(gè)單詞,如*handsome,rich,因?yàn)閔andsome之后的逗號(hào)跟rich之間沒(méi)有空格,工具會(huì)默認(rèn)為這是一個(gè)由13個(gè)字母構(gòu)成的單詞。部分學(xué)生因?yàn)闀?shū)寫(xiě)時(shí)沒(méi)有養(yǎng)成空格的習(xí)慣,所以多字母單詞數(shù)量有所增加,但這畢竟是少數(shù),并不影響整體的趨勢(shì)。
3.4詞頻
筆者通過(guò)AntConc軟件的“詞表生成”功能觀察兩庫(kù)中的詞頻情況(見(jiàn)表5),并研究是否存在個(gè)別高頻詞出現(xiàn)過(guò)度使用的情況。兩庫(kù)中位列前20位的高頻詞匯大同小異,都是諸如the, to, of, and等功能詞和I, it, we, that等代詞。
把兩庫(kù)中同現(xiàn)的13個(gè)高頻詞匯進(jìn)行頻數(shù)差異檢驗(yàn),分析這些單詞是否存在顯著性差異。筆者使用許家金教授(Xu,2009)設(shè)計(jì)的對(duì)數(shù)似然比計(jì)算工具(Log-likelihood Ratio Calculator)進(jìn)行統(tǒng)計(jì)(見(jiàn)表6),發(fā)現(xiàn)除to外,其他12個(gè)詞均存在顯著性差異。其中and, in, are, with, it在獨(dú)立學(xué)院學(xué)生作文中出現(xiàn)過(guò)度使用的情況。
另外,筆者發(fā)現(xiàn)獨(dú)立學(xué)院學(xué)生高頻使用了people(Rank 13)和Chinese(Rank 15)兩詞,頻率分別達(dá)到5100和4526次,而這兩個(gè)詞在LOCNESS中的出現(xiàn)頻率分別為1234(Rank 26)和14(Rank 1980)。經(jīng)分析發(fā)現(xiàn),Chinese為2018年作文關(guān)鍵詞,高頻出現(xiàn)不難理解,而people一詞則出現(xiàn)了過(guò)度使用的情況。王立非等人曾發(fā)現(xiàn),people在書(shū)面語(yǔ)作文中大量出現(xiàn),占0.77%(王立非,2007)。people一詞的過(guò)度使用說(shuō)明獨(dú)立學(xué)院學(xué)生在寫(xiě)作時(shí)可能受到母語(yǔ)和固定模板的影響,當(dāng)要表達(dá)“人”或“人們”概念時(shí)往往認(rèn)為people最安全,或許也是唯一能用到的詞,而忽略諸如individual, person, one, public等詞的使用。
3.5詞性
筆者利用詞性標(biāo)注軟件TreeTagger對(duì)兩個(gè)庫(kù)中的文本進(jìn)行詞性賦碼標(biāo)注,試圖發(fā)現(xiàn)獨(dú)立學(xué)院學(xué)與英、美大學(xué)生寫(xiě)作用詞的詞性分布情況。使用TreeTagger賦碼器對(duì)英文賦碼,準(zhǔn)確率在96%-97%之間(梁茂成,2010:53),可以滿足研究的要求。再使用AntConc分別對(duì)賦碼后的文本進(jìn)行檢索和排序,通過(guò)標(biāo)準(zhǔn)化頻率處理(normalization)后得出表7的結(jié)果,比如普通名詞(NN)在NNUTC中出現(xiàn)75744次,每千詞使用普通名詞約為74.42次。
經(jīng)過(guò)對(duì)兩庫(kù)中排名前10的詞性對(duì)比發(fā)現(xiàn),獨(dú)立學(xué)院學(xué)生和英、美大學(xué)生都高頻使用了名詞(單、復(fù)數(shù))、介詞、形容詞、副詞等,且差異不大。而獨(dú)立學(xué)院學(xué)生對(duì)人稱(chēng)代詞(Rank 5,35127次)的使用頻率偏高。筆者經(jīng)過(guò)進(jìn)一步研究發(fā)現(xiàn),兩庫(kù)中常見(jiàn)人稱(chēng)代詞的使用存在顯著差異性(見(jiàn)表8)。其中獨(dú)立學(xué)院學(xué)生第一、二人稱(chēng)代詞使用數(shù)量是英、美大學(xué)生的3.56倍,存在過(guò)度使用的情況,而第三人稱(chēng)代詞則使用不足。文秋芳等人也發(fā)現(xiàn),就第一、二人稱(chēng)代詞使用數(shù)量而言,中國(guó)高水平英語(yǔ)學(xué)習(xí)者每萬(wàn)詞使用的代詞數(shù)量是美國(guó)大學(xué)生的2.84倍(文秋芳,2003)。
4.結(jié)論及建議
通過(guò)對(duì)獨(dú)立學(xué)院學(xué)生和英、美大學(xué)生英語(yǔ)寫(xiě)作詞匯特點(diǎn)的對(duì)比分析可以發(fā)現(xiàn):(1)獨(dú)立學(xué)院學(xué)生在英語(yǔ)寫(xiě)作時(shí)的詞匯輸出能力還是比較薄弱的,主要體現(xiàn)在寫(xiě)作時(shí)重復(fù)使用高頻、低詞級(jí)的普通詞匯,學(xué)術(shù)詞匯的掌握能力亟待提高;(2)表達(dá)個(gè)人觀點(diǎn)時(shí)手段顯得單一,且過(guò)度依賴(lài)寫(xiě)作要求中給出的關(guān)鍵詞;(3)詞匯變化不豐富,尚處于中介語(yǔ)發(fā)展的初級(jí)階段,寫(xiě)作用詞能力亟待提高。
影響英語(yǔ)寫(xiě)作的因素很多,但英語(yǔ)表達(dá)詞匯水平對(duì)英語(yǔ)寫(xiě)作能力起著至關(guān)重要的作用(馬廣惠,1999)。針對(duì)獨(dú)立學(xué)院學(xué)生英語(yǔ)寫(xiě)作用詞現(xiàn)狀,教師應(yīng)在課堂教學(xué)中強(qiáng)化學(xué)生的詞匯意識(shí),讓詞匯成為語(yǔ)言教學(xué)的中心(Lewis, 1993)。教師可以將語(yǔ)料庫(kù)研究方法融入課堂教學(xué)中,讓學(xué)生掌握基本的語(yǔ)料庫(kù)檢索工具。如可以利用“詞表生成”工具讓學(xué)生了解一篇文章的主題詞,或利用“搭配檢索”工具讓學(xué)生熟悉詞語(yǔ)之間的共選關(guān)系,再或者通過(guò)詞頻軟件得出母語(yǔ)者在寫(xiě)作中的高頻詞等。同時(shí),教師可以在寫(xiě)作教學(xué)環(huán)節(jié)中加入詞匯專(zhuān)項(xiàng)訓(xùn)練,例如通過(guò)同義詞替換、詞形轉(zhuǎn)換等形式鞏固、強(qiáng)化學(xué)生的詞匯表達(dá)能力。另外,教師對(duì)學(xué)生的作文應(yīng)給予及時(shí)、有針對(duì)性的反饋,鼓勵(lì)學(xué)生多寫(xiě)、愛(ài)寫(xiě)、要寫(xiě)。最后,教師要了解所教學(xué)生目前的中介語(yǔ)水平,要給出適合學(xué)生模仿、學(xué)習(xí)的范文,而不是從網(wǎng)絡(luò)上找一篇范文,或直接讓學(xué)生背誦所謂的模板或經(jīng)典句型。
參考文獻(xiàn):
[1]Attali Y., Burstein J.. Automated Essay Scoring With E-Rater[J]. Journal of Technology Learning and Assessment, 2006,4(2).
[2]Cobb, T.. Analyzing Late Interlanguage with Learner Corpora: Quebec Replications of Three European Studies[J]. Canadian Modern Language Review, 2003,59(3).
[3]Karlgren J.. Stylistic Variation in An Information Retrieval Experiment[J]. Computer Science, 1996.
[4]Kennedy, G. . An Introduction to Corpus Linguistics [M]. London: Longman, 1998.
[5]Lewis, M.. The Lexical Approach[M]. Hove: Language Teaching Publications, 1993.
[6]Read, J.. Assessing Vocabulary[M]. Cambridge: CUP, 2000.
[7]Xu, Jiajin. Log-likelihood ratio calculator [M]. Beijing: National Research Centre for Foreign Language Education, Beijing Foreign Studies University, 2009.
[8]桂詩(shī)春,楊惠中.中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)[M].上海:上海外語(yǔ)教育出版社,2003.
[9]梁茂成,李文中,許家金.語(yǔ)料庫(kù)應(yīng)用教程[M].北京:外語(yǔ)教學(xué)與研究出版社,2010.
[10]鹿青.獨(dú)立學(xué)院學(xué)生大學(xué)英語(yǔ)四級(jí)寫(xiě)作現(xiàn)狀思考[J].校園英語(yǔ),2017(16).
[11]馬廣惠,文秋芳.大學(xué)生英語(yǔ)寫(xiě)作能力的影響因素研究[J].外語(yǔ)教學(xué)與研究,1999(4).
[12]王立非,梁茂成.WordSmith方法在外語(yǔ)教學(xué)研究中的應(yīng)用[J].外語(yǔ)電化教學(xué),2007(3).
[13]文秋芳,丁言仁,王文宇.中國(guó)大學(xué)生英語(yǔ)書(shū)面語(yǔ)中的口語(yǔ)化傾向——高水平英語(yǔ)學(xué)習(xí)者語(yǔ)料對(duì)比分析[J].外語(yǔ)教學(xué)與研究,2003,35(4).