趙秀蓮
(商丘學(xué)院,河南商丘476000)
1.語(yǔ)料庫(kù)研究現(xiàn)狀述評(píng)
語(yǔ)料庫(kù)(corpus)指“為研究語(yǔ)言,用計(jì)算機(jī)處理和儲(chǔ)存的書(shū)面和口頭語(yǔ)言材料”(Sinclair 1999:171)。在語(yǔ)料庫(kù)的建設(shè)和開(kāi)發(fā)中,逐漸提出一些原則和方法并對(duì)之進(jìn)行理論探討和總結(jié),形成了語(yǔ)料庫(kù)語(yǔ)言學(xué)(Corpus Linguistics)。 Crystal把語(yǔ)料庫(kù)語(yǔ)言學(xué)定義為 “以語(yǔ)料為語(yǔ)言描寫(xiě)的起點(diǎn)或用語(yǔ)料來(lái)驗(yàn)證有關(guān)語(yǔ)言假說(shuō)的方法”(丁信善1998:4)。王立非將其定義為“運(yùn)用語(yǔ)料開(kāi)展語(yǔ)言學(xué)研究的學(xué)科”(王立非 2009:19)。
中國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)研究在最近十年發(fā)展迅速。 在現(xiàn)代外語(yǔ)、外語(yǔ)教學(xué)與研究、外國(guó)語(yǔ)等二十多家外語(yǔ)學(xué)類(lèi)核心期刊上,有關(guān)語(yǔ)料庫(kù)研究的文章從2001年至2010年共有316篇。 其中2001—2006年發(fā)表的語(yǔ)料庫(kù)語(yǔ)言學(xué)的文章主要是主要在詞匯、句法和語(yǔ)篇方面。1)詞匯研究:衛(wèi)乃興(2004)熊建國(guó) (2002),張立飛 (2003)等;2)句法研究:劉禮進(jìn) (2003),王克非 (2003)等;3)語(yǔ)篇研究:文秋芳 (2003),王立非 (2005,2006)等。2007—2010年有關(guān)語(yǔ)料庫(kù)研究的文章有143篇,在口語(yǔ)、文學(xué)、翻譯和語(yǔ)料庫(kù)理論研究方面有進(jìn)一步的拓展:1)語(yǔ)料庫(kù)的理論與方法,研究者有衛(wèi)乃興,李文中 (2007);2)口語(yǔ)語(yǔ)料庫(kù)的研究:王立菲,文秋芳 (2007)等;3)在文學(xué)研究的運(yùn)用:劉澤權(quán),劉超明等 (2008);4)語(yǔ)料庫(kù)與翻譯的研究,謝家成,劉洪泉 (2010)等。
可見(jiàn),目前語(yǔ)料庫(kù)在語(yǔ)言本體研究方面的層次和深度不斷延伸。 但總體而言,語(yǔ)料庫(kù)在語(yǔ)言教學(xué)中的應(yīng)用比較少(McCarthy 2008)。因此,如何把語(yǔ)料庫(kù)的資源和手段融入英語(yǔ)教學(xué)實(shí)踐就成了目前語(yǔ)料庫(kù)研究的新挑戰(zhàn)。 而把語(yǔ)料庫(kù)應(yīng)用于英語(yǔ)寫(xiě)作質(zhì)量量化評(píng)估的研究,尚待開(kāi)拓。
2.選題意義
作為重要的語(yǔ)言交際技能,英文寫(xiě)作是英文學(xué)習(xí)者語(yǔ)言輸出(output)的主要形式,是學(xué)生句法、詞匯等綜合知識(shí)水平和表達(dá)技能的體現(xiàn),因此對(duì)寫(xiě)作質(zhì)量的評(píng)估是評(píng)估英語(yǔ)教學(xué)質(zhì)量的主要切入點(diǎn)。但長(zhǎng)期以來(lái),寫(xiě)作測(cè)試的評(píng)估方法發(fā)展滯后,目前主要采用人工審閱的方式(包括各種全國(guó)大型英語(yǔ)考試),其信度被廣泛質(zhì)疑的同時(shí),評(píng)估規(guī)模也受到人力的嚴(yán)重限制。在計(jì)算機(jī)技術(shù)發(fā)達(dá)的今天,探索一種規(guī)?;?、機(jī)助、量化評(píng)估方法便迫在眉睫。
本研究旨在把語(yǔ)料庫(kù)應(yīng)用于教學(xué)研究實(shí)踐,探索一種規(guī)?;⑽膶?xiě)作質(zhì)量評(píng)估方法:量化、機(jī)助評(píng)估方法。本項(xiàng)目的意義在于:一方面將語(yǔ)料庫(kù)科學(xué)的研究進(jìn)一步深化和本土化,拓展語(yǔ)料庫(kù)科學(xué)本身的研究領(lǐng)域;另一方面,將語(yǔ)料庫(kù)技術(shù)服務(wù)于英語(yǔ)教學(xué)實(shí)踐,為英語(yǔ)寫(xiě)作質(zhì)量評(píng)估提供一種新型量化方法,不僅為英語(yǔ)教師的寫(xiě)作教學(xué)提供反饋,也可以推廣應(yīng)用,服務(wù)于各級(jí)英語(yǔ)教學(xué)質(zhì)量評(píng)估單位。
本項(xiàng)目將語(yǔ)料庫(kù)技術(shù)應(yīng)用于實(shí)際教學(xué)中進(jìn)行實(shí)證性研究,以客觀寫(xiě)作材料為研究對(duì)象,以語(yǔ)料庫(kù)為研究方法,以對(duì)商丘學(xué)院12年英語(yǔ)專(zhuān)業(yè)本科畢業(yè)論文的評(píng)估為例,探索一種新型的英文寫(xiě)作量化評(píng)估方法。
本研究將采用兩個(gè)例證語(yǔ)料庫(kù)來(lái)具體說(shuō)明該量化評(píng)估方法的具體操作步驟并且論證該方法的可靠性。例證語(yǔ)料庫(kù)是兩個(gè)層次具有明顯區(qū)別的兩個(gè)語(yǔ)料庫(kù),一個(gè)是本科層次的,一個(gè)是研究生層次的,分別是商丘學(xué)院2012年英語(yǔ)專(zhuān)業(yè)本科生畢業(yè)論文語(yǔ)料庫(kù)和寧波大學(xué)2012年碩士研究生畢業(yè)論文語(yǔ)料庫(kù)。
為什么不選取兩個(gè)具有可比性的同一層次的語(yǔ)料庫(kù)作為例子,而選取兩個(gè)層次具有明顯差別的作為例子? 這是因?yàn)槲覀円ㄟ^(guò)已知的去驗(yàn)證未知的,只有我們已知兩個(gè)語(yǔ)料庫(kù)是兩個(gè)層次的,才能驗(yàn)證我們正在探索的量化評(píng)估方法的評(píng)估結(jié)果是否符合我們的已知,以此來(lái)論證該評(píng)估方法是否可靠。
1.收集語(yǔ)料
收集了商丘學(xué)院2012年英語(yǔ)專(zhuān)業(yè)本科生畢業(yè)論文共180篇,30多萬(wàn)英文單詞;為了便于對(duì)比區(qū)分和分析,又收集了寧波大學(xué)2012年所有碩士研究生畢業(yè)論文60多篇,90多萬(wàn)英文單詞。
這些都是英語(yǔ)作為第二語(yǔ)言學(xué)習(xí)者的輸出文本,是兩個(gè)不同層次的學(xué)習(xí)者的寫(xiě)作,這樣更便于對(duì)比,因?yàn)檫@里我們的目的不是為了對(duì)比兩者,而是把兩者作為例子,用來(lái)說(shuō)明這種評(píng)估方法的具體操作步驟和可行性。當(dāng)然,該評(píng)估方法要應(yīng)用到實(shí)踐中,根據(jù)調(diào)研者的目的,應(yīng)該選取具有可比性的語(yǔ)料,例如,同一年級(jí)不同學(xué)校間的橫向?qū)Ρ龋蛘咄蝗后w在不同年級(jí)的縱向?qū)Ρ取?/p>
2.建立語(yǔ)料庫(kù)
語(yǔ)料收集完成后,需要進(jìn)行處理。由于我們?cè)u(píng)估的是學(xué)生英文寫(xiě)作質(zhì)量,所以論文中相關(guān)性小的內(nèi)容需要?jiǎng)h掉,例如論文封皮、目錄、表格、圖表、大段的引文,所有漢語(yǔ)文字、參考文獻(xiàn)、致謝、附錄包括附屬的開(kāi)題報(bào)告、中期檢查表等。
經(jīng)過(guò)處理后,商丘學(xué)院2012年180篇英語(yǔ)專(zhuān)業(yè)本科畢業(yè)論文還剩余29萬(wàn)余字,寧波大學(xué)2012年碩士研究生畢業(yè)論文60篇剩余89萬(wàn)余字,由于語(yǔ)料庫(kù)的大小影響各項(xiàng)指數(shù),所以盡量讓兩個(gè)語(yǔ)料庫(kù)的大小對(duì)等,故將寧波大學(xué)2012年碩士研究生畢業(yè)論文89萬(wàn)字刪掉一半多,剩余29萬(wàn)多字。經(jīng)過(guò)整理后,建成了兩個(gè)大小相當(dāng)?shù)恼Z(yǔ)料庫(kù)。為了便于指稱(chēng),商丘學(xué)院2012年英語(yǔ)專(zhuān)業(yè)本科畢業(yè)論文庫(kù)簡(jiǎn)稱(chēng)為SQC2012,寧波大學(xué)2012年碩士研究生畢業(yè)論文庫(kù)簡(jiǎn)稱(chēng)為NBU2012。
我們利用美國(guó)經(jīng)典語(yǔ)料庫(kù)BROWN作為參考語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)是收集母語(yǔ)為英語(yǔ)的人們的語(yǔ)言材料而建立的,是地道英語(yǔ)的語(yǔ)料庫(kù)。
3.語(yǔ)料庫(kù)標(biāo)注與處理
未經(jīng)標(biāo)注的語(yǔ)料庫(kù)有時(shí)無(wú)法充分提供研究所需的信息。例如,要想獲取語(yǔ)料庫(kù)的詞性信息,單純使用未經(jīng)標(biāo)注的語(yǔ)料庫(kù)是無(wú)法完成的,因?yàn)檎Z(yǔ)料庫(kù)檢索工具無(wú)法直接告訴我們?cè)谝粋€(gè)未經(jīng)標(biāo)注的語(yǔ)料庫(kù)中有多少個(gè)名詞,多少個(gè)動(dòng)詞,多少個(gè)形容詞,多少個(gè)副詞,而這些實(shí)詞信息正是我們研究文本流暢性清晰性的指標(biāo)。為了解決這個(gè)問(wèn)題,我們利用Go-tagger詞性標(biāo)注軟件對(duì)兩個(gè)語(yǔ)料庫(kù)進(jìn)行標(biāo)注,把語(yǔ)料庫(kù)的詞性(POS)標(biāo)注出來(lái),下面是來(lái)自SQC2012語(yǔ)料庫(kù)的標(biāo)注樣本片段:
This_NN novel_NN reveals_VBZ multiple_JJ love_NN,_,which_WDT will_MD be_VB analyzed_VBN in_IN five_CD parts_NNS._.下面是Go-tagger的詞性賦碼集:
通過(guò)檢索軟件,便可以統(tǒng)計(jì)出各個(gè)語(yǔ)料庫(kù)的實(shí)詞比例。
Table 1 Go-tagger的詞性賦碼集
4.數(shù)據(jù)提取
利用Wordsmith3.0和AntConc對(duì)語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行提取。
4.1 標(biāo)準(zhǔn)化類(lèi)形符比(STTR)
形符(token)指的是一個(gè)語(yǔ)料庫(kù)中所有單詞總數(shù),類(lèi)符 (type)是指一個(gè)語(yǔ)料庫(kù)中所有不同單詞的總數(shù),即語(yǔ)料庫(kù)中所重復(fù)的同一單詞只算一個(gè)類(lèi)符。例如在下句中 “A Nice little girl met another nice little girl.”有9個(gè)形符,但只有6個(gè)類(lèi)符。類(lèi)形符比 (TTR:Type-token Ration)指的是類(lèi)符與形符的比例(TTR refers to the relationship between the total number of running words in a corpus and the number of different words used.(Olohan 2004:80))。TTR標(biāo)志著一個(gè)語(yǔ)料庫(kù)中詞匯的多樣性或者詞匯的豐沛度(lexical variety)。 如果TTR數(shù)值低,表明語(yǔ)料庫(kù)中詞匯的重復(fù)率高,詞匯缺少變化,反之亦然。 因?yàn)檎Z(yǔ)料庫(kù)大小對(duì)TTR的值有一定影響,所以一般采取標(biāo)準(zhǔn)化類(lèi)形符比(STTR:Standardized type-token ratio)指的是大小為1000詞的連續(xù)多個(gè)語(yǔ)料庫(kù)的平均類(lèi)形符比 (Standardized type-token ratio is the average type-token ratio based on consecutive 1000-word chunks of text(Scott 2004:130)),可以用來(lái)衡量大小不一的兩個(gè)語(yǔ)料庫(kù)的類(lèi)形符比的異同,比起TTR,STTR是更加可靠的參數(shù) (Baker 2000:250)。
利用檢索軟件,我們獲得了如下數(shù)據(jù):
Table 2 SQC2012和NBU2012的STTR
上表顯示兩個(gè)語(yǔ)料庫(kù)的形符總數(shù)差別不大(SQC2012:296004;NBU2012:298843),但是類(lèi)符差別比較明顯(SQC2012:14577;NBU2012:11933)。 從標(biāo)準(zhǔn)化類(lèi)形符比看,SQC2012 的數(shù)據(jù)是 41.56,NBU2012 的是 35.54,而經(jīng)典語(yǔ)料庫(kù)BROWN的是44.59,這說(shuō)明,從詞匯豐沛度看,商丘學(xué)院的論文質(zhì)量更接近地道的英語(yǔ),這個(gè)結(jié)果是出人意料的,因?yàn)楫吘股糖饘W(xué)院的是本科生論文,寧波大學(xué)的是碩士生論文。但是數(shù)據(jù)是客觀的,事實(shí)就是事實(shí)。
造成這種結(jié)果的原因可能很多,但就語(yǔ)料庫(kù)本身來(lái)說(shuō),寧波大學(xué)的碩士論文只有60篇,60個(gè)主題,而商丘學(xué)院的180篇,180個(gè)主題,應(yīng)該對(duì)詞匯豐沛度有一定影響。也有可能是商丘學(xué)院的論文確實(shí)詞匯豐沛度高,但是這不是我們本項(xiàng)目的研究目的,在此不予以深究。
4.2 詞匯密度(lexical density)
根據(jù)意義,英語(yǔ)單詞可以分成兩大類(lèi):語(yǔ)法詞(grammatical words)和詞匯詞lexical words,即常說(shuō)的虛詞和實(shí)詞。語(yǔ)法詞反應(yīng)語(yǔ)法句法關(guān)系,主要包括冠詞、代詞、連詞和介詞等。 詞匯詞傳達(dá)詞匯信息,指稱(chēng)質(zhì)量(quality)、物質(zhì)(matter)或者動(dòng)作行為(action),主要包括名詞、動(dòng)詞、形容詞和副詞。 (Hu 2001:80)。
Ure(1971)是第一個(gè)定義詞匯密度的人(lexical density),指的是詞匯詞與形符的比例。根據(jù)韓禮德Halliday(1994:345)、Stubbs(1996:73)、Nida&Taber(1969:207), 語(yǔ)法詞反映句子的流暢度和表達(dá)清晰度(explicitness)和可預(yù)測(cè)性(predictability)。 詞匯詞反映文本所含信息量 (information load)。也即是說(shuō),詞匯密度越高,單位語(yǔ)料所含信息量越大,流暢度和清晰度越低,讀者解碼起來(lái)越困難。反之,詞匯密度越低,單位語(yǔ)料所含信息量越小,文本更加清晰流暢和易懂。
下面是兩個(gè)語(yǔ)料庫(kù)的檢索結(jié)果:
各種詞性總數(shù)在兩個(gè)語(yǔ)料庫(kù)的分布如下表:
Table 3 詞匯密度
根據(jù)上表,商丘學(xué)院2012年英語(yǔ)本科生畢業(yè)論文庫(kù)中名詞密度是4.89%,動(dòng)詞密度是1.06%,形容詞和副詞密度分別是1.22%和0.95%。實(shí)詞總密度為8.12%;寧波大學(xué)2012年英語(yǔ)碩士研究生畢業(yè)論文庫(kù)中名詞密度是4.05%,動(dòng)詞密度是1.28%,形容詞和副詞密度分別是1.05%和0.95%,實(shí)詞總密度是7.33%。這些數(shù)據(jù)顯示,商丘學(xué)院語(yǔ)料庫(kù)的實(shí)詞密度8.12%高于寧波大學(xué)語(yǔ)料庫(kù)的7.33%。 說(shuō)明寧波大學(xué)的語(yǔ)料庫(kù)的單位語(yǔ)料所含信息量越小,文本更加流暢、清晰和易于解碼。這個(gè)結(jié)果符合正常預(yù)期。說(shuō)明詞匯密度是量化評(píng)估英文寫(xiě)作的可靠參數(shù)。
4.3 高頻詞
高頻詞可以用來(lái)評(píng)估詞匯的重復(fù)率或冗余(redundancy)。
詞頻指的是一個(gè)單詞在某個(gè)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。根據(jù)Laviosa (1998b),高頻詞 (“l(fā)ist head”or“high frequency words”)指的是一個(gè)單詞出現(xiàn)的次數(shù)與某個(gè)語(yǔ)料庫(kù)中所有形符的比不小于0.10%。
一個(gè)語(yǔ)料庫(kù)中高頻詞越多,意味著其中單詞重復(fù)率越高,詞匯呈現(xiàn)簡(jiǎn)化(simplification)傾向。如果語(yǔ)料庫(kù)A比語(yǔ)料庫(kù)B中高頻詞所占比例高,那么語(yǔ)料庫(kù)A里較傾向于重復(fù)使用特定單詞,其詞匯比語(yǔ)料庫(kù)B更簡(jiǎn)單。
下面是兩個(gè)語(yǔ)料庫(kù)的檢索數(shù)據(jù)和參照語(yǔ)料庫(kù)BROWN的數(shù)據(jù):
Table 4 SQC2012、NBU2012和 BROWN高頻詞
根據(jù)表格可以看出,SQC2012庫(kù)中的高頻詞是122項(xiàng),累計(jì)占語(yǔ)料庫(kù)的51.09%,而 NBU2012庫(kù)中,高頻詞有113項(xiàng),累計(jì)占語(yǔ)料庫(kù)的41.72%,而經(jīng)典美國(guó)英語(yǔ)語(yǔ)料庫(kù)是85項(xiàng),占38.81%。數(shù)據(jù)顯示,商丘學(xué)院語(yǔ)料庫(kù)的高頻詞項(xiàng)目最多,高頻詞所占比例最大,表明詞匯重復(fù)率最高,詞匯呈現(xiàn)簡(jiǎn)化傾向,表明庫(kù)中所用詞匯較簡(jiǎn)單。而寧波大學(xué)語(yǔ)料庫(kù)的指標(biāo)更接近美國(guó)地道英語(yǔ)的標(biāo)準(zhǔn)。當(dāng)然,這是意料之中的,說(shuō)明高頻詞的數(shù)量和比例是可以作為量化評(píng)估的可靠參數(shù)。
4.4 詞長(zhǎng)(word-length)
一般來(lái)說(shuō),一個(gè)單詞的長(zhǎng)度標(biāo)志著該單詞的復(fù)雜度,單詞越長(zhǎng),說(shuō)明該單詞越高級(jí)越復(fù)雜;單詞越短,說(shuō)明該單詞越簡(jiǎn)單越初級(jí) (趙晴 2009),例如:simple— simplify— simplification,簡(jiǎn)單的說(shuō),這幾個(gè)單詞出現(xiàn)次序應(yīng)該是短的先出現(xiàn)在低年級(jí)的課本中,長(zhǎng)的后出現(xiàn)在高年級(jí)的課本中,短的較簡(jiǎn)單,較容易認(rèn)知,長(zhǎng)的較復(fù)雜,較難認(rèn)知。如果一個(gè)學(xué)生作文中出現(xiàn)較長(zhǎng)的單詞較多,說(shuō)明他習(xí)得的復(fù)雜詞匯較多,詞匯水平較高。
下面是SQC2012和NBU2012詞長(zhǎng)對(duì)比:
Table 5 SQC2012和 NBU2012的詞長(zhǎng)
數(shù)據(jù)表明,長(zhǎng)為1-6個(gè)字母的單詞在SQC2012中有22295個(gè),NBU2012中有204906個(gè)。前者比后者的短單詞多2000多個(gè),而7個(gè)字母的單詞兩者基本持平,7個(gè)以上字母的單詞前者均明顯少于后者,這說(shuō)明,商丘學(xué)院語(yǔ)料庫(kù)中有較多的短單詞而較少的長(zhǎng)單詞,而寧波大學(xué)語(yǔ)料庫(kù)中正好相反。說(shuō)明前者的詞匯復(fù)雜度小于后者。再看最后一行平均詞長(zhǎng),商丘學(xué)院語(yǔ)料庫(kù)的平均詞長(zhǎng)是4.97個(gè)字母,寧波大學(xué)的是5.14個(gè)字母,這也進(jìn)一步證明了寧波大學(xué)語(yǔ)料庫(kù)的詞匯較長(zhǎng)較復(fù)雜,商丘學(xué)院語(yǔ)料庫(kù)的較短較簡(jiǎn)單。這個(gè)指標(biāo)也符合我們的預(yù)期,說(shuō)明平均詞長(zhǎng)是可以作為一個(gè)可靠的參數(shù)來(lái)量化評(píng)估英文寫(xiě)作的。
4.5 平均句長(zhǎng) (mean sentence length)
句長(zhǎng)通常指一個(gè)句子當(dāng)中有多少個(gè)單詞,平均句長(zhǎng)是一個(gè)語(yǔ)料庫(kù)中所有句子的平均有多少個(gè)單詞。當(dāng)然一個(gè)句子的復(fù)雜度(complexity)不能單純從句長(zhǎng)衡量,但是對(duì)于一個(gè)語(yǔ)料庫(kù)而言,平均句長(zhǎng)卻能在一定程度上反映句子的復(fù)雜度(Yang 2002:135)。平均句長(zhǎng)受語(yǔ)料庫(kù)大小的影響,還可采取更加可靠參數(shù)——標(biāo)準(zhǔn)化平均句長(zhǎng)來(lái)檢測(cè)句子的復(fù)雜度,標(biāo)準(zhǔn)化平均句長(zhǎng)指多個(gè)1000單詞文本的平均句長(zhǎng)。 根據(jù)Butler(1985,p.121),句子長(zhǎng)度可分為短句 (1-9單詞)、中句 (10-25單詞)和長(zhǎng)句(25單詞以上)。
我們可以用檢索軟件 獲取如下平均句長(zhǎng)和標(biāo)準(zhǔn)化平均句長(zhǎng)的數(shù)據(jù):
Table 6 of SQC2012和NBU2012的平均句長(zhǎng)
上表表明 SQC2012中的句子有 13914個(gè),NBU2012有11378,而 100萬(wàn)詞的BROWN有 43017個(gè)。SQC2012平均句長(zhǎng)是20.75個(gè)單詞,NBU2012平均句長(zhǎng)是26.16個(gè)單詞,BROWN的平均句長(zhǎng)是27.85個(gè)單詞。從標(biāo)準(zhǔn)化平均句長(zhǎng)看,SQC2012是14.75個(gè)單詞,NBU2012的是20.36個(gè)單詞,BROWN的是21.95個(gè)單詞。這些數(shù)據(jù)說(shuō)明,寧波大學(xué)語(yǔ)料庫(kù)的平均句長(zhǎng)明顯大于商丘學(xué)院語(yǔ)料庫(kù)的平均句長(zhǎng),大約平均每句多了6個(gè)單詞。說(shuō)明商丘學(xué)院論文句子復(fù)雜度較小,句子較簡(jiǎn)單;寧波大學(xué)論文的句子復(fù)雜度較大,句子就較復(fù)雜,接近BROWN母語(yǔ)使用者的水平,與后者僅僅一個(gè)半單詞之差。當(dāng)然這也是意料之中,恰恰證明了平均句長(zhǎng)也是量化評(píng)估英文寫(xiě)作的一個(gè)可靠參數(shù)。
5.數(shù)據(jù)對(duì)比分析:
本研究建立了兩個(gè)例證語(yǔ)料庫(kù),具體說(shuō)明了語(yǔ)料庫(kù)量化評(píng)估方面的操作步驟,同時(shí)也論證了該評(píng)估方法的可靠性。
通過(guò)對(duì)標(biāo)準(zhǔn)化類(lèi)形符比、詞匯密度、高頻詞、詞長(zhǎng)和平均句長(zhǎng)這五個(gè)語(yǔ)料庫(kù)評(píng)估參數(shù)的考察,我們?cè)趦蓚€(gè)語(yǔ)料庫(kù)中得出如下發(fā)現(xiàn):
在標(biāo)準(zhǔn)化類(lèi)型符比方面,商丘學(xué)院的本科生畢業(yè)論文語(yǔ)料庫(kù)的數(shù)據(jù)是41.56,寧波大學(xué)碩士生畢業(yè)論文語(yǔ)料庫(kù)的數(shù)據(jù)是35.54,而經(jīng)典語(yǔ)料庫(kù)BROWN的是44.59,這說(shuō)明,從詞匯豐沛度看,商丘學(xué)院的論文質(zhì)量更接近地道的英語(yǔ)。
在詞匯密度方面,商丘學(xué)院語(yǔ)料庫(kù)的實(shí)詞密度8.12%高于寧波大學(xué)語(yǔ)料庫(kù)的7.33%。 說(shuō)明寧波大學(xué)的語(yǔ)料庫(kù)的單位語(yǔ)料所含信息量越小,文本更加流暢、清晰和易于解碼。
在高頻詞方面,商丘學(xué)院庫(kù)中的高頻詞是122項(xiàng),累計(jì)占語(yǔ)料庫(kù)的51.09%,而寧波大學(xué)庫(kù)中,高頻詞有113項(xiàng),累計(jì)占語(yǔ)料庫(kù)的41.72%,而經(jīng)典美國(guó)英語(yǔ)語(yǔ)料庫(kù)是85項(xiàng),占38.81%。數(shù)據(jù)顯示,商丘學(xué)院語(yǔ)料庫(kù)的高頻詞項(xiàng)目最多,高頻詞所占比例最大,表明詞匯重復(fù)率最高,詞匯呈現(xiàn)簡(jiǎn)化傾向,表明庫(kù)中所用詞匯較簡(jiǎn)單。而寧波大學(xué)語(yǔ)料庫(kù)的指標(biāo)更接近美國(guó)地道英語(yǔ)的標(biāo)準(zhǔn)。
從詞長(zhǎng)參數(shù)看,詞長(zhǎng)為1-6個(gè)字母的單詞在商丘學(xué)院庫(kù)中有22295個(gè),寧波大學(xué)庫(kù)中有204906個(gè)。前者比后者的短單詞多2000多個(gè),而7個(gè)字母的單詞兩者基本持平,7個(gè)以上字母的單詞前者均明顯少于后者,這說(shuō)明,商丘學(xué)院語(yǔ)料庫(kù)中有較多的短單詞而較少的長(zhǎng)單詞,而寧波大學(xué)語(yǔ)料庫(kù)中正好相反。說(shuō)明前者的詞匯復(fù)雜度小于后者。 此外,商丘學(xué)院語(yǔ)料庫(kù)的平均詞長(zhǎng)是4.97個(gè)字母,寧波大學(xué)的是5.14個(gè)字母,這也進(jìn)一步證明了寧波大學(xué)語(yǔ)料庫(kù)的詞匯較長(zhǎng)較復(fù)雜,商丘學(xué)院語(yǔ)料庫(kù)的較短較簡(jiǎn)單。
從標(biāo)準(zhǔn)化平均句長(zhǎng)看,SQC2012是14.75個(gè)單詞,NBU2012的是20.36個(gè)單詞,BROWN的是21.95個(gè)單詞。 這些數(shù)據(jù)說(shuō)明,寧波大學(xué)語(yǔ)料庫(kù)的平均句長(zhǎng)明顯大于商丘學(xué)院語(yǔ)料庫(kù)的平均句長(zhǎng),大約平均每句多了6個(gè)單詞。說(shuō)明商丘學(xué)院論文句子復(fù)雜度較小,句子較簡(jiǎn)單;寧波大學(xué)論文的句子復(fù)雜度較大,句子就較復(fù)雜,接近BROWN母語(yǔ)使用者的水平,與后者僅僅一個(gè)半單詞之差。
總之,除第一個(gè)參數(shù)外,其余四個(gè)均符合我們的已知,論證了這些語(yǔ)料庫(kù)評(píng)估參數(shù)可以作為可靠的參數(shù)來(lái)量化評(píng)估英文寫(xiě)作。以此我們成功地探索出了一種新型的英文寫(xiě)作語(yǔ)料庫(kù)量化評(píng)估方法。
從綜述部分可以看出,現(xiàn)有基于語(yǔ)料庫(kù)的英語(yǔ)寫(xiě)作研究主要集中于:利用現(xiàn)有語(yǔ)料庫(kù)對(duì)于學(xué)習(xí)者語(yǔ)言特點(diǎn)進(jìn)行研究,包括錯(cuò)誤分析(error analysis)、詞塊(word cluster)、類(lèi)連接、搭配(collocation)和冗余(redundancy)等特點(diǎn)分析。但將語(yǔ)料庫(kù)應(yīng)用于英語(yǔ)寫(xiě)作量化評(píng)估的研究還未出現(xiàn)。
1.本研究的應(yīng)用價(jià)值
該研究是一個(gè)機(jī)助量化評(píng)估方法的探索,其研究結(jié)果可以經(jīng)得起反復(fù)驗(yàn)證和廣泛推廣,例如,可以對(duì)各個(gè)學(xué)校或者同一學(xué)校各個(gè)班級(jí)之間的橫向共時(shí)(synchronic)量化對(duì)比,也可以應(yīng)用于同一教學(xué)對(duì)象群體在不同年級(jí)的英語(yǔ)寫(xiě)作質(zhì)量提高程度進(jìn)行縱向歷時(shí)(diachronic)量化對(duì)比;可以用于各種學(xué)校(中學(xué)或高校)的各種學(xué)生(大學(xué)英語(yǔ)學(xué)生或英語(yǔ)專(zhuān)業(yè)學(xué)生)英語(yǔ)寫(xiě)作質(zhì)量評(píng)估;可以幫助國(guó)家、省、市等各種教學(xué)評(píng)估部門(mén)對(duì)所監(jiān)督的各個(gè)教學(xué)單位的學(xué)生英語(yǔ)寫(xiě)作質(zhì)量進(jìn)行評(píng)估,也可以對(duì)全省或全市整體英語(yǔ)寫(xiě)作教學(xué)進(jìn)行量化評(píng)估。
2.該評(píng)估方法優(yōu)點(diǎn)
科學(xué)性:傳統(tǒng)人工評(píng)估是根據(jù)評(píng)估人的主觀知識(shí)結(jié)構(gòu)和直覺(jué)進(jìn)行的經(jīng)驗(yàn)式的審閱,由于不同的評(píng)估人認(rèn)知經(jīng)驗(yàn)不同,不可避免主觀臆斷的局限,不同研究對(duì)象的寫(xiě)作差異只能憑感覺(jué)來(lái)大致估計(jì),而該量化評(píng)估方法是利用計(jì)算機(jī)進(jìn)行定量分析,不同研究對(duì)象的寫(xiě)作差異在哪里,差異有多大都可以用數(shù)據(jù)作出量化說(shuō)明,同一研究對(duì)象的量化結(jié)果可以經(jīng)得起重復(fù)驗(yàn)證而不會(huì)前后不一,大大提高了評(píng)估的可靠性和科學(xué)性。
系統(tǒng)性:該方法根據(jù)統(tǒng)一標(biāo)準(zhǔn)可以進(jìn)行大規(guī)模評(píng)估,可對(duì)N多教學(xué)單位的每個(gè)學(xué)生的英語(yǔ)寫(xiě)作材料進(jìn)行總體分析,避免傳統(tǒng)抽樣評(píng)估的零散性和片面性,杜絕人工審閱的標(biāo)準(zhǔn)不一現(xiàn)象的出現(xiàn)。
規(guī)模高效性:只要收集到學(xué)生寫(xiě)作的電子文本,一個(gè)評(píng)估人在數(shù)小時(shí)內(nèi)可以對(duì)大規(guī)模寫(xiě)作文本進(jìn)行分析,既大幅地節(jié)約時(shí)間,又大量地節(jié)約人力。而傳統(tǒng)的評(píng)估只能靠抽樣調(diào)查,對(duì)教學(xué)單位所有寫(xiě)作文本的評(píng)估耗時(shí)耗力。
客觀公正性:該方法是利用計(jì)算機(jī)對(duì)第一手材料的分析,避免了傳統(tǒng)人工評(píng)估的主觀性和其他因素干擾的可能,為監(jiān)督部門(mén)評(píng)估工作的公正性提供一個(gè)有力的保障。
本項(xiàng)目把語(yǔ)料庫(kù)文本分析技術(shù)應(yīng)用于對(duì)英文寫(xiě)作質(zhì)量的評(píng)估,以商丘學(xué)院2012年英語(yǔ)專(zhuān)業(yè)本科生畢業(yè)論文和寧波大學(xué)的2012年碩士畢業(yè)論文的質(zhì)量分析為例,具體說(shuō)明了語(yǔ)料庫(kù)量化評(píng)估方面的操作步驟。
通過(guò)對(duì)標(biāo)準(zhǔn)化類(lèi)形符比、詞匯密度、高頻詞、詞長(zhǎng)和平均句長(zhǎng)這五個(gè)語(yǔ)料庫(kù)評(píng)估參數(shù)的考察,發(fā)現(xiàn)除第一個(gè)參數(shù)外,其余四個(gè)均符合我們的已知,論證了這些語(yǔ)料庫(kù)評(píng)估參數(shù)可以作為可靠的參數(shù)來(lái)量化評(píng)估英文寫(xiě)作。以此我們成功的探索出了一種新型的英文寫(xiě)作語(yǔ)料庫(kù)量化評(píng)估方法。該方法具有科學(xué)性、系統(tǒng)性、規(guī)模高效性和客觀公正性。具有廣泛的應(yīng)用價(jià)值和切實(shí)的實(shí)用性,可以推廣應(yīng)用的各個(gè)單位,用來(lái)量化評(píng)估英文寫(xiě)作的質(zhì)量。
Baker,M.(2000).Towards a Methodology for Investigating the Style of a Literary Translator[J].Target 12(2).
Halliday,M.A.K.(1994).An Introduction to Functional Grammar[M].London:Edward Arnold.
McCarthy,M.(2008).Accessing and Interpreting Corpus Information in the Teacher Education Context[J].Language Teaching(41).
McEnery,A.&Wilson,A.(2001).Corpus Linguistics[M].Edinburgh:Edinburgh University Press.
Nida,E.&Taber,C.(1996).The Theory and Practice of Translation[M].Leiden:E.J.Brill.
Olohan,M.(2004).Introducing Corpora in Translation Studies[M].London&New York:Routledge.
Sinclair,J.(1999).Corpus,Concordance,Collocation[M].Shanghai:Shanghai Foreign Language Teaching Press.
Scott,M.(2004).The Word Smith Tools(v.4.0)[M].Oxford:Oxford University Press.
Stubbs,M.(1996).Text and Corpus Analysis:Computer-Assisted Studies of Language and Culture[M].London:Blackwell.Stubbs,M.(2001).Texts,Corpora,and Problems of Interpretation:A Response to Widdowson[J].Applied Linguistics(22).
Ure,J.(1971).Lexical Density and Register Differentiation[A].In G.E.Perren&J.I.Trim (eds.).Applications of Linguistics:Selected Papers of the 2nd International Conference of Applied Linguistics,Cambridge 1969[C].Cambridge:Cambridge University Press.
丁信善 (1998).語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展及研究現(xiàn)狀 [J].當(dāng)代語(yǔ)言學(xué) (1)。
胡壯麟 (2001).語(yǔ)言學(xué)教程 [M].北京:北京大學(xué)出版社。
李文中(2004).上海語(yǔ)料庫(kù)語(yǔ)言學(xué)國(guó)際會(huì)議述評(píng)[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)(1)。
王立非,張 巖(2006).基于語(yǔ)料庫(kù)的大學(xué)生英語(yǔ)議論文中的語(yǔ)塊使用模式研[J].外語(yǔ)電化教學(xué)(4)。
衛(wèi)乃興(2007).中國(guó)學(xué)生英語(yǔ)口語(yǔ)的短語(yǔ)學(xué)特征研究 ——0LSEC語(yǔ)料庫(kù)的詞塊證據(jù)分析[J].現(xiàn)代外語(yǔ)(3)。
趙 晴(2009).基于語(yǔ)料庫(kù)的 《紅樓夢(mèng)》兩個(gè)英譯本的譯者風(fēng)格研究[D].西南大學(xué)。