方秀才
(淮南師范學(xué)院 外語系,安徽 淮南 232001)
全國(guó)碩士研究生英語入學(xué)考試(NETEM)效度驗(yàn)證
方秀才
(淮南師范學(xué)院 外語系,安徽 淮南 232001)
全國(guó)碩士研究生英語入學(xué)考試(非英語專業(yè))(簡(jiǎn)稱NETEM)實(shí)行全國(guó)統(tǒng)一考試,目的是測(cè)量學(xué)生的語言能力,為高等學(xué)校和科研機(jī)構(gòu)擇優(yōu)選拔人才提供依據(jù)。對(duì)于這項(xiàng)重要的考試,相關(guān)文獻(xiàn)卻很少驗(yàn)證其效度。本研究在作者研究該項(xiàng)考試閱讀理解部分效度的基礎(chǔ)上,通過組織測(cè)試實(shí)驗(yàn)和發(fā)放調(diào)查問卷,運(yùn)用定量、定性相結(jié)合的方法進(jìn)一步驗(yàn)證該項(xiàng)考試完型填空和寫作部分的效度,從而實(shí)現(xiàn)對(duì)該項(xiàng)考試各個(gè)部分進(jìn)行效度檢驗(yàn)。根據(jù)驗(yàn)證結(jié)果,文章為完善該項(xiàng)考試提出建議。
全國(guó)碩士研究生英語入學(xué)考試(NETEM);效度;效度驗(yàn)證;語言測(cè)試
語言測(cè)試的目的是提供一種科學(xué)的工具,通過對(duì)學(xué)生語言運(yùn)用的抽樣,對(duì)學(xué)生的語言能力進(jìn)行客觀、準(zhǔn)確、公正的評(píng)價(jià)。Bachman認(rèn)為,一個(gè)有用的測(cè)試必須具備六個(gè)品質(zhì),即:信度、效度、真實(shí)性、交互性,后效作用和可行性[1]17。其中,效度指的是根據(jù)所設(shè)想的測(cè)試使用目的,(所收集的)證據(jù)和(依照的)理論支持測(cè)試分?jǐn)?shù)解釋的程度……效度是一個(gè)統(tǒng)一的概念,即只有構(gòu)念效度這一種效度,而不是傳統(tǒng)上的多種概念。筆者認(rèn)可統(tǒng)一效度之說,但同時(shí)認(rèn)為傳統(tǒng)上的多種效度概念卻為我們驗(yàn)證效度收集證據(jù)時(shí)提供了角度,因此本文在效度檢驗(yàn)環(huán)節(jié)仍然使用這些概念。效度驗(yàn)證的過程回答了一項(xiàng)測(cè)試是否很好的履行了它設(shè)計(jì)時(shí)所應(yīng)達(dá)到的檢測(cè)任務(wù),是衡量測(cè)試質(zhì)量最重要的方式和途徑。
對(duì)于國(guó)內(nèi)的英語考試,楊惠中 &Weir C.把實(shí)驗(yàn)研究、問卷調(diào)查、座談會(huì)和內(nèi)省法心理研究等方法結(jié)合起來對(duì)CET的結(jié)構(gòu)效度、內(nèi)容效度、同期效度和預(yù)期效度以及表面效度進(jìn)行了研究[2];鄒申等從內(nèi)部效度(internal validity)和外部效度(external validity)對(duì)TEM進(jìn)行了效度驗(yàn)證[3]。他們?cè)谥袊?guó)開創(chuàng)對(duì)效度的研究先河之后,人們開始重視對(duì)外語測(cè)試試題效度的研究,其中有鄒申,周越美&張艷莉[4]及金艷[5]等。
“全國(guó)碩士研究生入學(xué)統(tǒng)一考試是為高等學(xué)校和科研機(jī)構(gòu)招收碩士研究生而設(shè)置的。其中,英語實(shí)行全國(guó)統(tǒng)一考試。它的評(píng)價(jià)標(biāo)準(zhǔn)是高等學(xué)校非英語專業(yè)優(yōu)秀本科畢業(yè)生能達(dá)到的及格或及格以上水平,以保證被錄取者具有一定的英語水平,有利于各高等學(xué)校和科研機(jī)構(gòu)在專業(yè)上擇優(yōu)選拔”[6]。該考試卷面滿分為100分,從2005年以后,該考試題型一直未有變動(dòng),主要有三大部分構(gòu)成:完型填空、閱讀理解和寫作,各占比重10%、60%和30%。歷年的NETEM考試大綱明確寫明“本考試對(duì)課程和教材不作統(tǒng)一規(guī)定”,因此它不是檢驗(yàn)教學(xué)成果的成就測(cè)試,而是一項(xiàng)參照考試大綱設(shè)計(jì)的水平測(cè)試,那么該考試能在多大程度上對(duì)考生水平做出檢測(cè)呢?它的效度到底有多高呢?上述文獻(xiàn)卻很少觸及NETEM的效度,這和該考試的社會(huì)意義、影響并不相稱。
近幾年,國(guó)內(nèi)出現(xiàn)了一些相關(guān)研究,方秀才以2005年碩士研究生英語入學(xué)考試為主要對(duì)象,研究了該項(xiàng)考試閱讀理解部分的效度[7];郭慶民評(píng)述了2006年該試題閱讀理解部分的命題[8];張怡則對(duì)該項(xiàng)考試翻譯進(jìn)行了效驗(yàn);論證閱讀理解部分的內(nèi)容效度。綜覽國(guó)內(nèi)這些文獻(xiàn),作者發(fā)現(xiàn)它們都是對(duì)該測(cè)試的某個(gè)部分進(jìn)行了效驗(yàn),不能完全反映整個(gè)考試的效度,而且都忽略了該項(xiàng)考試另外兩個(gè)重要組成部分即完型填空和寫作部分的效度檢驗(yàn)。本研究在作者對(duì)NETEM閱讀理解部分效度檢驗(yàn)的基礎(chǔ)上進(jìn)一步對(duì)考試的完型填空和寫作進(jìn)行效驗(yàn),從而完成對(duì)該項(xiàng)考試的效度全面檢驗(yàn)。針對(duì)存在的問題,文章為完善該項(xiàng)考試提出建議。
(一)調(diào)查對(duì)象
參加測(cè)試實(shí)驗(yàn)和問卷一回答的是從中國(guó)科學(xué)院研究生院2007級(jí)在讀碩士研究生一年級(jí)中隨機(jī)抽選的兩個(gè)班級(jí)共55名學(xué)生。為了保證實(shí)驗(yàn)的有效性,在授課老師的支持下,本次實(shí)驗(yàn)的成績(jī)記做他們英語課程平時(shí)成績(jī)的一部分。
(二)實(shí)驗(yàn)設(shè)計(jì)
1.實(shí)驗(yàn)材料
實(shí)驗(yàn)材料包括2008年NETEM完型填空及寫作部分的考試真題、答題紙、問卷、被試同期參加的碩士學(xué)位英語考試試題。本次調(diào)查問卷均采用Likert五點(diǎn)量表選項(xiàng)。
2.實(shí)驗(yàn)問卷的設(shè)計(jì)
問卷包括兩個(gè)問題,要求考生判斷完型填空和寫作部分對(duì)于檢測(cè)大綱所規(guī)定的相應(yīng)能力的合適程度,結(jié)果用來分析表面效度。為了更好地得到被試對(duì)于試題的主觀評(píng)價(jià),問卷直接穿插到試題的兩個(gè)部分之前,要求被試瀏覽完題目即對(duì)問卷問題做出回答,問卷中兩個(gè)問題如下:
Question 1:在你瀏覽完Section I后,你認(rèn)為“該部分不僅考查考生對(duì)不同語境中規(guī)范的語言要素 (包括詞匯、表達(dá)方式和結(jié)構(gòu))的掌握程度,而且還考查考生對(duì)語段特征(如連貫性和一致性等)的辨識(shí)能力等”嗎?
( )A.能很好檢測(cè) B.能較好檢測(cè)C.能一般檢測(cè) D.難以檢測(cè)E.很難檢測(cè)
Question 2:在你瀏覽完Section II(Part A&B)后,你認(rèn)為該部分能“考查考生的書面表達(dá)能力”嗎?
( )A.能很好檢測(cè) B.能較好檢測(cè) C.能一般檢測(cè) D.難以檢測(cè)E.很難檢測(cè)
3.實(shí)驗(yàn)解說詞和考試指令的設(shè)計(jì)
實(shí)驗(yàn)解說詞闡明該實(shí)驗(yàn)的目的和性質(zhì),考試指令重點(diǎn)規(guī)范考試的進(jìn)程和回答問卷的順序,要求學(xué)生嚴(yán)格執(zhí)行,否則視為無效問卷。
(三)實(shí)驗(yàn)步驟
研究人員組織的測(cè)試實(shí)驗(yàn)在兩個(gè)班同時(shí)進(jìn)行,耗時(shí)80分鐘,所有同學(xué)完成試題的回答。50位同學(xué)按要求回答了問卷中第一個(gè)問題,46位同學(xué)回答了第二個(gè)問題。被試同期參加的碩士學(xué)位英語考試的試卷制作、考試安排都按國(guó)家級(jí)考試進(jìn)行,信度效度都較高,這次的學(xué)位考試是在測(cè)試實(shí)驗(yàn)后一周內(nèi)進(jìn)行,保證了它們的同期性。從兩類考試中我們獲得的數(shù)據(jù)除問卷信息外,還包括55位被試在考研試題完型填空的分?jǐn)?shù)、應(yīng)用文和大作文的單項(xiàng)分以及他們?cè)趯W(xué)位英語考試中取得的完型填空和作文的分?jǐn)?shù)。
(四)實(shí)驗(yàn)結(jié)果
問卷第一個(gè)問題有50位被試作答,統(tǒng)計(jì)如下:
表一:2008年NETEM完型填空題型對(duì)問卷中所列能力檢測(cè)合適性
問卷第二個(gè)問題有46位被試作答,統(tǒng)計(jì)如下:
表二:2008年NETEM寫作題型對(duì)問卷中所列能力檢測(cè)合適性
表三:被試在測(cè)試實(shí)驗(yàn)及學(xué)位英語考試中的完型及寫作單項(xiàng)分原始數(shù)據(jù)一覽(因版面省略)
Ingram把表面效度定義為“一項(xiàng)測(cè)試的表面可信度或該測(cè)試被大眾接受的程度”[9]。從表一可以看出,只有48%的被試認(rèn)為該題型能很好或較好地“不僅考查考生對(duì)不同語境中規(guī)范的語言要素(包括詞匯、表達(dá)方式和結(jié)構(gòu))的掌握程度,而且還考查考生對(duì)語段特征(如連貫性和一致性等)的辨識(shí)能力等”,其中還有12%的被試認(rèn)為這種題型難以或者很難檢測(cè)考試大綱規(guī)定要檢測(cè)的能力。從表二可以看出,有近61%的被試認(rèn)為寫作部分的兩種題型能很好或較好地“考查考生的書面表達(dá)能力”,只有4%的被試認(rèn)為這兩個(gè)部分難以檢測(cè)該能力。
根據(jù)Alderson,Clapham&Wall的論述,盡管表面效度多是一些“外行”人群對(duì)某一項(xiàng)測(cè)試的評(píng)價(jià),自身可能欠缺依據(jù),但他們更相信,如果被試認(rèn)為某項(xiàng)考試表面效度較高,被試就更可能最大程度地發(fā)揮自己的能力和水平,更合理地答題,進(jìn)而影響該項(xiàng)考試的應(yīng)答效度(response validity)[9]172-175。甚至很多交際測(cè)試學(xué)家認(rèn)為表面效度是最重要的效度種類之一[10]160。一項(xiàng)考試只有具有較高的表面效度考生才會(huì)樂意接受,否則考生就會(huì)抵觸,這必然會(huì)影響考生水平發(fā)揮,也就無法對(duì)學(xué)生的能力進(jìn)行有效的檢測(cè)。另外,表面效度欠佳的測(cè)試也必然會(huì)招來社會(huì)各界更多的指責(zé),難以長(zhǎng)期的執(zhí)行下去,研究生入學(xué)考試是全國(guó)性的統(tǒng)一考試,應(yīng)該得到社會(huì)各界的廣泛認(rèn)可,保持其相對(duì)穩(wěn)定性意義重大。統(tǒng)計(jì)數(shù)據(jù)表明,現(xiàn)行的英語入學(xué)考試完型填空部分的表面效度并不是很高,寫作部分的表面效度相對(duì)較高。根據(jù)方秀才的研究,這和這兩個(gè)部分采用主觀和客觀題型息息相關(guān),因此,可以嘗試編寫主觀試題來檢測(cè)完型填空這種客觀題型試圖檢測(cè)的語言能力,提高該部分試題的表面效度。
我們是通過組織試驗(yàn)發(fā)放問卷來探討這兩個(gè)部分的表面效度的,調(diào)查群體有限。為了獲悉社會(huì)(主要是考生)對(duì)整個(gè)入學(xué)考試的評(píng)價(jià)(如考試的難易程度),作者從一些主流網(wǎng)站獲得相關(guān)信息,如下圖所示:
圖一:網(wǎng)絡(luò)對(duì)2008年考研英語難度調(diào)查
從圖一可以看出,參與這三大網(wǎng)站調(diào)查的60%左右的被試都認(rèn)為當(dāng)年的英語入學(xué)考試太難、很難或較難,主流網(wǎng)站對(duì)于其他年份實(shí)施的英語入學(xué)考試的調(diào)查結(jié)果也很相似。一門被認(rèn)為很難的考試是難以得到被試廣泛歡迎的,這種印象也勢(shì)必影響該考試的表面效度。
內(nèi)容效度指試題的內(nèi)容(包括內(nèi)容相關(guān)性和內(nèi)容覆蓋面)對(duì)于考試規(guī)范和考試大綱中規(guī)定的欲測(cè)內(nèi)容檢測(cè)的代表性和合適程度[9]173-176。對(duì)該效度的取證一般有兩條方法:專家檢測(cè)和考試規(guī)范的對(duì)照。聶建中和趙秀紅通過分析高考英語試題完形填空部分的考點(diǎn)效度來衡量該部分的試題質(zhì)量,他們認(rèn)為“完形填空的考點(diǎn)效度就是對(duì)完形填空題在考點(diǎn)刪除的合理性方面提出的效度要求”[11]54。因此,我們通過分析每個(gè)題項(xiàng)的考點(diǎn)和比對(duì)考試大綱來驗(yàn)證該部分的內(nèi)容效度。分析結(jié)果如下:2008年考研英語完型填空試題20題有17題考核詞匯層次知識(shí),具體為詞義辨析題13題,詞義搭配題4題;3題考核語段的連貫性和語義的邏輯性。我們還注意到這20題中沒有考核語法知識(shí)的題項(xiàng)。類似于聶建中和趙秀紅的分類,2008年考研英語完型填空試題中只有3題考核語篇層次的高檔題,比例僅占15%,而考核單詞、詞組層面的中低檔題有17題,比例高達(dá)85%。他們的研究得出以下結(jié)論:“完型填空題的特點(diǎn)和優(yōu)勢(shì)就在于它的綜合功能和語篇功能……刪詞 (設(shè)置題項(xiàng))時(shí)應(yīng)考慮盡量地把制約考點(diǎn)的范圍擴(kuò)大,使語境層次提高。這樣才能使試題的效度提高……否則完型填空就失去了它的綜合考查的意義”[11]56。綜上,2008年考研英語完型填空試題的考點(diǎn)分布很不合理,對(duì)于詞匯層面的中低檔題的考查比例過大,而對(duì)于語篇層面的高檔題考核不夠,導(dǎo)致內(nèi)容效度較低,使得完型填空綜合考查的功能無法很好體現(xiàn)。
對(duì)于寫作題目的設(shè)計(jì),Heaton認(rèn)為,呈現(xiàn)給學(xué)生的考題必須定義清楚、意圖明確,這樣才能激發(fā)學(xué)生動(dòng)筆去寫,而且寫作任務(wù)應(yīng)該保證考生有話可寫[10]137。筆者研究發(fā)現(xiàn)我國(guó)影響較大的全國(guó)性英語考試都將寫作作為最重要的主觀題來增加考試的表面效度,但寫作部分自身的效度研究卻沒有得到足夠的重視。筆者也沒有發(fā)現(xiàn)對(duì)碩士研究生英語入學(xué)考試的寫作部分效驗(yàn)的相關(guān)文獻(xiàn)。筆者通過對(duì)照考試大綱來對(duì)這一部分的內(nèi)容效度進(jìn)行檢測(cè)。結(jié)果發(fā)現(xiàn)從2005年大綱及題型更改以來寫作的第一部分即應(yīng)用文寫作內(nèi)容效度較高。和歷年該部分的試題一樣,出題意圖清楚,寫作要求清晰明確。如2008年題目首先介紹了寫信的緣由,其次統(tǒng)一了信件的內(nèi)容(道歉、解決方法),最后要求了字?jǐn)?shù)、署名等相關(guān)信息。指示性語言淺顯易懂,保障了考生對(duì)考題意圖的把握。情景貼近生活,考生有話可寫,便于應(yīng)用文寫作水平的發(fā)揮。
寫作的第二個(gè)部分要求考生根據(jù)提示信息寫一篇160-200字的作文,大綱中列舉的提示信息的形式有:主題句、寫作提綱、規(guī)定情景、圖、表等。然而近五年的考試無一例外地通過漫畫圖片來提示主題,根本沒有用到大綱中提及的其他提示方式,可以說試題的設(shè)計(jì)并沒有很好的遵守大綱,試題內(nèi)容效度欠佳。近五年的大作文要求考生首先 describe the drawing briefly,再 explain its intended meaning,然后give your comments(參見08年真題),盡管歷年試題該部分措辭稍有差異,但意圖統(tǒng)一。筆者仔細(xì)研究了這五次考試的漫畫提示圖,結(jié)果發(fā)現(xiàn)05和08年漫畫較容易看懂、易于描述 (describe the drawing briefly),象征意義(its intended meaning)明顯,考生也容易給出評(píng)論(give comments),然而另外三年的試題中的漫畫很難讀懂(尤其以09年真題中的漫畫為典型),更別說體會(huì)其象征意義了,這樣考生會(huì)無從下筆,題目無法很好檢測(cè)考生的寫作水平,勢(shì)必影響該部分的構(gòu)念效度。另外,寫作為主觀題型,人工閱卷的信度也勢(shì)必影響該部分的效度。
標(biāo)準(zhǔn)相關(guān)效度指的是測(cè)試分?jǐn)?shù)和已被認(rèn)可的能夠反映學(xué)生能力的標(biāo)準(zhǔn)之間的關(guān)系,包括同期效度即同期和短時(shí)間間隔內(nèi)兩種測(cè)試的一致性關(guān)系和預(yù)期效度即某一測(cè)試的表現(xiàn)對(duì)其后測(cè)試表現(xiàn)的預(yù)示關(guān)系。研究生英語入學(xué)考試和碩士學(xué)位英語考試的考試大綱、試卷結(jié)構(gòu)、題型設(shè)置及受試群體的英語水平非常相近,根據(jù)Bachman和Heaton對(duì)于平行測(cè)試的定義,可將它們視為平行,筆者通過這兩類考試的相關(guān)性檢驗(yàn)來驗(yàn)證研究生英語入學(xué)考試的標(biāo)準(zhǔn)相關(guān)效度 (本研究只驗(yàn)證同期效度,預(yù)期效度可通過對(duì)被試在07年研究生英語入學(xué)考試成績(jī)和這次的學(xué)位英語成績(jī)相關(guān)性檢驗(yàn)來驗(yàn)證,因無法獲取相關(guān)數(shù)據(jù)未能檢測(cè))。
筆者將表三中的數(shù)據(jù)分6項(xiàng)(考研完型分、考研作文總分、考研完型作文總分、學(xué)位完型分、學(xué)位作文分及學(xué)位完型作文總分)輸入SPSS 12.0軟件,并將兩組對(duì)應(yīng)分?jǐn)?shù)依次進(jìn)行3次相關(guān)性檢驗(yàn)(如考研完型分與學(xué)位完型分),結(jié)果參見下表:
表四:研究生英語入學(xué)考試及碩士學(xué)位英語考試完型填空、作文單項(xiàng)分及兩項(xiàng)總分的相關(guān)性
統(tǒng)計(jì)學(xué)及教育測(cè)量學(xué)中相關(guān)性檢驗(yàn)證明理論假設(shè)的最寬松的要求是α≤0.05,而從結(jié)果可以看出,這三次檢驗(yàn)的significance level遠(yuǎn)遠(yuǎn)大于這個(gè)數(shù)值,可以認(rèn)定這6項(xiàng)分?jǐn)?shù)兩兩之間均不存在有意義的相關(guān)。因此我們得出如下結(jié)論,即:研究生英語入學(xué)考試完型填空及作文試題的同期效度很低,通過考生在該考試中的表現(xiàn)來衡量他們的英語水平并不是特別合適。
從上文效驗(yàn)結(jié)果可見,NETEM完型填空部分表面效度、內(nèi)容效度、同期效度較低;寫作部分表面效度較高,同期效度較低;寫作第一部分內(nèi)容效度較高,第二部分的內(nèi)容及構(gòu)念效度較低,以漫畫作為題目指示的方式不夠明確,不能很好地檢測(cè)考生的寫作能力。筆者結(jié)合前期研究成果,對(duì)改進(jìn)NETEM效度提出以下建議:(1)明確考試大綱中的表述,確保對(duì)各項(xiàng)能力的檢測(cè)比重,這樣才能更好地規(guī)范試題;(2)保持對(duì)欲測(cè)能力測(cè)試平衡,不斷增加對(duì)高層次英語綜合能力的檢測(cè),并增加檢測(cè)的區(qū)分度;(3)可以嘗試綜合檢測(cè)讀、寫、譯能力(聽說能力在復(fù)試中檢測(cè));(4)適當(dāng)增加效度較高的主觀性試題的比重,同時(shí)保障較高的閱卷效度;(5)切實(shí)做好考后的統(tǒng)計(jì)分析工作,并保證數(shù)據(jù)分析的結(jié)果應(yīng)用到大綱和試卷的改進(jìn)過程中;(6)不斷對(duì)該項(xiàng)考試進(jìn)行效度驗(yàn)證,找到問題,改進(jìn)考試。
[1]BACHMAN,L.F.Fundamental Considerations in Language Testing[M].Oxford:Oxford University Press,1997.
[2]楊惠中,WEIR,C.Validation study of the National College English Test[M].上海:上海外語教育出版社,1988.
[3]鄒申等.TEM考試效度研究 (TEM Validation Study) [M].上海:上海外語教育出版社,1997.
[4]鄒申,張艷莉,周越美.閱讀測(cè)試中題目類型、策略與分?jǐn)?shù)的關(guān)系-TEM4考試閱讀項(xiàng)目的答題效度研究[J].外語與外語教學(xué),2002(5):19-22.
[5]金艷.高級(jí)英語閱讀測(cè)試的開發(fā)和效度研究[M].上海:上海外語教育出版社,2002.
[6]教育部考試中心.2008年全國(guó)碩士研究生入學(xué)統(tǒng)一考試英語考試大綱(非英語專業(yè))[Z].北京:高等教育出版社,2007.
[7]方秀才.2005年全國(guó)碩士研究生英語入學(xué)考試(NETEM)閱讀試題效度驗(yàn)證初探[J].中國(guó)考試,2005(12):36-39.
[8]郭慶民.2006年碩士研究生入學(xué)考試英語試題閱讀理解部分評(píng)述[J].中國(guó)考試,2006(7):15-17.
[9]ALDERSON,J.C.,CLAPHAM,C.&WALL,D.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995:172.
[10]HEATON,J.B.Writing English Language Tests[M].London:Longman Group UK Limited,1988.
[11]聶建中,趙秀紅.高考英語完形填空的效度分析[J].教育理論與實(shí)踐,2005(3):54-56.
H310.4
A
2095-0683(2011)03-0114-04
2011-04-06
2008安徽省教育廳人文社科項(xiàng)目“全國(guó)碩士研究生英語入學(xué)考試效度研究”(2008sk321)
方秀才(1979-),男,安徽樅陽人,淮南師范學(xué)院外語系講師,碩士。
責(zé)任編校 秋晨