摘 要: 本文主要從命題原則、題型結(jié)構(gòu)、評分標(biāo)準(zhǔn)和評分辦法等方面分別對外語測試中常用的三種題型,即多項(xiàng)選擇題、完型填空、寫作題進(jìn)行分析比較,旨在提高這些測試題的信度和效度。
關(guān)鍵詞: 英語測試題 優(yōu)劣性 信度和效度
作為語言教師,我們幾乎天天和測試打交道。比如說,每次講授新課之前,可能抽出幾分鐘的時(shí)間復(fù)習(xí)一下上一課學(xué)過的知識(shí),或做單詞拼寫,或做短文聽寫等。每教完一課,可能要進(jìn)行一次測驗(yàn),檢查一下學(xué)生對本課掌握的情況。到學(xué)期中間,一般進(jìn)行期中考試,期末還要進(jìn)行期末考試,等等。在這樣的一個(gè)教學(xué)過程中,我們不僅可以看到學(xué)生的學(xué)習(xí)及進(jìn)步情況,同時(shí)還可以了解到自己的教學(xué)效果。因此,教學(xué)離不開測試?,F(xiàn)代教育理論的發(fā)展,尤其注重人的素質(zhì)的教育,強(qiáng)調(diào)發(fā)揮學(xué)生的主觀能動(dòng)性,強(qiáng)調(diào)因材施教。要檢驗(yàn)教學(xué)的效果,離不開對學(xué)生的評價(jià),通俗地講,就是對學(xué)生進(jìn)行測試。那么,為了正確地、更好地、更有效地運(yùn)用測試手段來檢查學(xué)生的成績及評價(jià)教師的教學(xué)效果,筆者從命題原則、題型結(jié)構(gòu)、評分標(biāo)準(zhǔn)和評分方法等方面分別對外語測試中常用的三種題型,即多項(xiàng)選擇題、完型填空、寫作題進(jìn)行分析比較,并對這三種測試題的優(yōu)劣性進(jìn)行了論述。
一、多項(xiàng)選擇題(multiple choice item)
多項(xiàng)選擇題命題的出發(fā)點(diǎn)是提高測試效度。
各類試題的命題都應(yīng)為測試目的服務(wù),以提高測試效度為前提。在多項(xiàng)選擇題的命題中,經(jīng)常會(huì)由于過多地考慮選擇項(xiàng)而忽略其他問題。例如,在學(xué)生還沒有學(xué)過San Francisco這個(gè)詞時(shí),就要求學(xué)生做下面的練習(xí):
San Francisco is________the west of the United States.
A.onB.toC.inD.at
這道題命題的本意是測試學(xué)生對英語常用介詞in和to在表示方位時(shí)用法上的區(qū)別,但是如果學(xué)生不知道San Francisco 是一個(gè)國家名還是美國國內(nèi)一個(gè)地名,他們就無法作出判斷,也很難找到正確答案。像這樣的試題根本無法達(dá)到測試介詞的目的。
1.多項(xiàng)選擇題的命題原則
(1)多項(xiàng)選擇題對題干和選擇項(xiàng)的要求
命題時(shí)要注意題干必須有一定的內(nèi)容,不能僅是一兩個(gè)詞,題干內(nèi)容提供的信息應(yīng)有效地將考生帶入測試點(diǎn)范圍之中。選擇項(xiàng)中共同的語言應(yīng)該放在題干中,避免每個(gè)選項(xiàng)里重復(fù)出現(xiàn)。同時(shí),選項(xiàng)的內(nèi)容和語言應(yīng)平行、對等,應(yīng)屬于同種類型(如同為單詞、短語或者從句)。正確答案的長度應(yīng)與其他選項(xiàng)大致相同,太長或太短都會(huì)對考生有暗示之嫌。例如:
The passage tells us________.
A.different waysB.teaching approach
C.educational systems D.different ways of learning in China
上題中,由于D項(xiàng)內(nèi)容豐富,有一定的長度,考生很容易通過比較選出正確答案項(xiàng)。此外,選項(xiàng)還要避免生詞形、搭配、詞序等的出現(xiàn)。例如:
He stood up and it.
A.objected to doB.objected to doing
C.be objected to doD.be objected to doing
上例中A、C、D三個(gè)選擇可能是生造的結(jié)構(gòu)。這樣的錯(cuò)誤信息可能成為誤導(dǎo)學(xué)生的語言輸入,使他們形成錯(cuò)誤假設(shè),妨礙以后的學(xué)習(xí)。這種試題效度差,達(dá)不到測試目的。
(2)命題要緊扣閱讀或聽力材料內(nèi)容
在閱讀和聽力測試的多項(xiàng)選擇題中,試題答案必須緊扣材料內(nèi)容,使考生只有在讀懂或聽懂之后才能作出正確選擇,而不能憑自己的經(jīng)驗(yàn)和常識(shí)甚至記憶就能猜對答案。因?yàn)檫x擇題本身就包含有猜測因素,如果測試內(nèi)容不緊扣閱讀或聽力材料,就很難保證測試效度。
2.多項(xiàng)選擇題的優(yōu)劣性
多項(xiàng)選擇題的優(yōu)點(diǎn)在于:首先,它只有一個(gè)正確答案,是一種客觀性試題,評分省時(shí)省力,因此,無需考慮評分者的因素,可把精力集中在提高命題質(zhì)量上。其次,使用該題型能夠控制試題的難度,并能通過測試等手段篩選試題,使正式考試更具可行性和科學(xué)性。再者,多項(xiàng)選擇題題義清晰,考生不會(huì)產(chǎn)生誤解,考生無須書面表達(dá)而不受其寫作能力的影響。另外,它對考生在英語語法、詞匯的理解、分析等方面內(nèi)容的考查信息量大,覆蓋面寬,形式靈活多樣,而且這種題型對于考生答題省時(shí),因此可以增加考試的覆蓋面和采樣量,提高考試的信度。
然而,多項(xiàng)選擇題也存在弊病,不能濫用該題型。因?yàn)椋?.多項(xiàng)選擇題只能顯示正確或錯(cuò)誤答案,它只考語言知識(shí)的識(shí)別,不能測量語言的運(yùn)用和產(chǎn)出能力,更不能排除猜測因素,考生可以靠猜測答題。而且多項(xiàng)選擇題最容易靠旁窺和打暗號等方式作弊,因此,測試結(jié)果的效度會(huì)打折扣。2.命題難。它的命題需要命題者花費(fèi)大量的時(shí)間和精力反復(fù)推敲,稍有不慎就會(huì)問題很多。3.反撥效應(yīng)差,容易使師生片面追求應(yīng)試技巧而忽視語言訓(xùn)練本身。
二、完形填空測試題(cloze test)
1.完形填空題的命題原則
完形填空測試(cloze test)是指所選的一段文章中有意地把每隔5—7個(gè)左右的單詞刪除掉,要求學(xué)生根據(jù)前后所提供的信息推測空缺中的意義并據(jù)此填上正確的詞,使之復(fù)原意義完整、結(jié)構(gòu)正確的短文,以測試考生綜合運(yùn)用語言的能力。該題型對命題的基本要求是:
該題往往是一篇或一段文章,段落的開頭和結(jié)尾的那個(gè)句子總是完整的,不留任何一個(gè)空格,這樣,為考生提供了更為完整和充分的語境。整題必須有一定的長度和適當(dāng)?shù)目崭駭?shù),只有這樣才能使考生正確理解題意,不致誤導(dǎo),才能達(dá)到測試信度的要求。
完形填空題的留空形式有兩種:一是定詞留空,大約每隔5—11個(gè)詞留一個(gè)空,詞與詞間隔的距離越短,難度越大,一般以7—9個(gè)詞的詞距為宜。二是不定留空。根據(jù)測試要求,需要測試什么內(nèi)容就把該位置留空,例如測試習(xí)慣搭配、介詞用法、時(shí)態(tài)或語態(tài)的變化等都可以在這些地方留空。
2.完形填空題的三種評分辦法
(1)確切詞評分法(exact-word method)
確切詞評分法是指考生在空缺處填寫的詞正確與否要根據(jù)它所刪除的詞是否一致。這種評分既簡單又客觀。但是,由于很少有考生能夠填出與原文完全相同的詞語,這種評分方法使完形填空題加大了難度,降低了測試的區(qū)分度,故現(xiàn)在很少使用這一測試方法。
(2)可接受詞評分法(acceptable-word method)
可接受詞評分法是學(xué)生在空缺處所填寫的詞并不強(qiáng)求與原文完全相同,只要在結(jié)構(gòu)上、語義上正確就可視為正確的答案。這樣做的好處是降低了難度,提高了成績,而且從考生多種多樣的答案中教師還能發(fā)現(xiàn)教學(xué)的不足。但使用這種方法評分可能產(chǎn)生分歧意見,因而可能會(huì)降低評分的客觀性。因此它不適用于大規(guī)模的標(biāo)準(zhǔn)化測試。
(3)多項(xiàng)選擇評分法(multiple-choice method)
多項(xiàng)選擇評分法是嚴(yán)格的完形測試作適當(dāng)?shù)男拚?,把由學(xué)生在空缺處填入正確的詞改為向?qū)W生提供備選項(xiàng),供他們選擇。這種形式的試題評分較客觀,命題較科學(xué),信度和效度都達(dá)到要求,是目前各類測試中完形填空題最常用的一種形式。
3.完形填空題的優(yōu)劣性
完形填空的優(yōu)點(diǎn)在于:1.完形填空題具有測試考生綜合運(yùn)用語言能力的優(yōu)勢。例如目前廣為流行的CET,DETS,IELTS(雅思)等都有這類題型。考生在做這類題型時(shí),需要運(yùn)用英語語言的各種知識(shí)和能力,除了熟練運(yùn)用語法、詞匯等知識(shí)以外,還必須具有很強(qiáng)的概括、分析、推斷等能力,只有這樣才能保證答案的準(zhǔn)確性。2.完形填空題命題省時(shí),是一種比較經(jīng)濟(jì)的測試手段。它的命題無需像多項(xiàng)選擇題那樣,每一個(gè)題都要仔細(xì)斟酌,花費(fèi)大量的時(shí)間和精力。
與此同時(shí),完形填空題也不可避免地存在一定的局限性,集中體現(xiàn)在以下三個(gè)方面:1.不能敏感地測定學(xué)生在低年級學(xué)習(xí)英語所取得的效果,也就是說,完形填空測試題在低年級似乎不能發(fā)揮其本身的優(yōu)勢。2.采用可接受詞評分似乎在某種程度上能更好地了解被試者的英語運(yùn)用水平,然而,對于在非英語國家這一環(huán)境里教授英語,命題方面受到客觀因素的制約。3.嚴(yán)格的完形填空題,每隔5—8個(gè)單詞刪除一詞,留一空格,可能有時(shí)遇上一些地名、人名或其他常識(shí)性或?qū)W(xué)生來說較難猜測的詞,這就可能提高試題難度,從而降低了考試的信度和效度,以及試題的區(qū)分度。
三、寫作測試(writing test)
1.寫作的命題原則
寫作是大學(xué)英語教學(xué)中的一個(gè)重要組成部分。縱觀各類綜合英語教科書,寫作必定是其中一項(xiàng)重要內(nèi)容。同樣,寫作測試在考試中也是一個(gè)不可少的項(xiàng)目,在綜合能力考卷中。人們予以寫作的高度重視體現(xiàn)了寫作能力在實(shí)際語言交流中的重要作用。
能夠正確拼寫英語單詞及運(yùn)用標(biāo)點(diǎn)符號不等于會(huì)寫完整的句子;會(huì)寫完整的句子不等于會(huì)寫通順連貫的文章;但會(huì)寫通順連貫文章的人必須具備以上拼寫、詞匯和語法知識(shí)。
大學(xué)英語寫作能力實(shí)際上還涵蓋了其他一些因素——內(nèi)容條理性、文體恰當(dāng)性、修辭知識(shí)等。
寫作測試是一種高效度的語言測試手段,我們應(yīng)該發(fā)揮其最大的效度優(yōu)勢。要做到這一點(diǎn),在設(shè)計(jì)寫作試題時(shí),應(yīng)注意下面幾條原則:
第一,寫作試題要有真實(shí)的情景,也就是考生現(xiàn)在或?qū)砗苡锌赡軙?huì)遇到的情景。這條原則稱作真實(shí)性原則。設(shè)計(jì)寫作試題要遵循這條原則。因?yàn)橹挥性囶}的情景真實(shí),才能測試我們所期望學(xué)生應(yīng)掌握的寫作技能。
第二,寫作試題要保證以意義為測試焦點(diǎn),而非語言形式。
第三,試題的要求應(yīng)該是互動(dòng)性行為。在現(xiàn)實(shí)生活中,人們使用語言來進(jìn)行交際時(shí),是一個(gè)交互性的、動(dòng)態(tài)的過程。寫作同樣也是一種交互性的行為,因?yàn)閷懗鰜淼臇|西是讓讀者看的。這就意味著設(shè)計(jì)寫作試題時(shí),需要考慮到互動(dòng)性這一特征。
2.寫作測試題的兩種評分法
(1)整體(或印象)評分法(holistic/impression scoring)
整體評分法把作文視作一個(gè)完整的篇章,根據(jù)其總體印象打分,所以有時(shí)被稱為印象評分法。問卷人員就總的印象給出獎(jiǎng)勵(lì)分,而不是按語言點(diǎn)的錯(cuò)誤數(shù)目扣分。
整體評分法把所閱作文分成幾個(gè)檔次(band),每個(gè)檔次與一個(gè)分?jǐn)?shù)或分?jǐn)?shù)段相對應(yīng)。每個(gè)檔次還必須明確該檔次作文的特征,比如內(nèi)容、語法、組織、表達(dá)等,同時(shí)檔次之間應(yīng)顯示明顯區(qū)別。閱卷人員注重的是作文的整體質(zhì)量,而不是局部現(xiàn)象的特征,比如作文主題擴(kuò)展和例證是否充分,論證是否有力;作文風(fēng)格是否符合閱讀對象的層次和背景,等等。
(2)分析評分法(analysis scoring)
分析評分法認(rèn)為作文是由不同的成分(components)組成,如語法、內(nèi)容、組織、表達(dá)和連貫等。分析評分法根據(jù)不同成分給作文分別打分,最終分?jǐn)?shù)由各個(gè)小分相加而成。
分析評分法有以下特點(diǎn):1.使問卷人員明確具體評分方面。2.組成部分之間的評分不互相干擾或影響。由于一個(gè)人各種具體寫作技能的發(fā)展常常是不平衡的,因此很難用一種固定模式來衡量。分析評分法可以針對每項(xiàng)技能或每個(gè)方面單獨(dú)打分,從而避免出現(xiàn)整體評分法所面臨跨檔次的難題。
但是,分析評分法存在的第一個(gè)問題是把寫作能力人為地分割成互不關(guān)聯(lián)的部分。寫作能力的體現(xiàn)事實(shí)上不僅僅是按照規(guī)范把句子聯(lián)在一起,它還涉及其他方面,如文體、風(fēng)格,這些都需要從文章總體上觀察和評判。把各個(gè)部分分離出來會(huì)導(dǎo)致閱卷人員過多地關(guān)注作文的局部性而忽略其全局性。分析評分法的第二個(gè)問題起源于第一個(gè)問題。寫作能力劃成單獨(dú)部分后就涉及分值分配,即某個(gè)部分占總分的比例。換句話說,比例如何分配牽涉到考試的結(jié)構(gòu)效度,即考分的解釋功能。如果在寫作總分中語言分的比例過高,寫作分?jǐn)?shù)實(shí)際上反映的是語言知識(shí),不是寫作能力。因此,我們在使用分析評分法時(shí)要力求做到重點(diǎn)明確、分值合理,較高的分值比例應(yīng)給那些較能體現(xiàn)或代表寫作能力的部分。
3.寫作測試的優(yōu)劣性
寫作測試的最大優(yōu)點(diǎn)是效度高。第一,寫作測試是一門綜合性測試,它不僅能考查學(xué)生的輸出性技能(productive skill),同時(shí)還能考查學(xué)生的接收性技能(receptive skill)。第二,它能同時(shí)測試語言的各個(gè)層次和范疇。它可以測試學(xué)生的組織能力、分析能力、表達(dá)能力、邏輯推理、對各種語體的掌握等。寫作測試作為一種行為測試,測量的是學(xué)生實(shí)際運(yùn)用語言的能力,給教學(xué)帶來的是非常積極的正面反撥作用。
寫作測試的弱點(diǎn)是信度低。寫作測試屬于主觀測試,主觀測試的評分無法客觀化。比如對一篇作文的評分,10位評分員可能給出10個(gè)不同的分?jǐn)?shù)。有時(shí)同一位評分員也無法做到評分標(biāo)準(zhǔn)始終如一。評分無法客觀化,測試信度難以保證。
綜上所述,筆者從命題原則、評分標(biāo)準(zhǔn)、操作進(jìn)程諸方面對這三種常見題型(多項(xiàng)選擇、完形填空、寫作測試)的命題進(jìn)行了盡可能客觀的論述,并指出其優(yōu)劣性。目的是讓英語考試命題者在運(yùn)用以上題型時(shí)揚(yáng)長避短,以便更好地考查出英語學(xué)習(xí)者真實(shí)的英語水平。
參考文獻(xiàn):
[1]劉潤清,韓寶成.語言測試和它的方法.外語教學(xué)與研究出版社,1999.
[2]鄒申,楊任明.簡明英語測試教程.高等教育出版社,2000.
[3]Bachman,L.F.Fundamental Considerations in Language Testing.Oxford University Press,1991.