王佶旻
漢語測試中多項選擇題的命題技術(shù)探究
王佶旻
多項選擇題是客觀化語言測驗的主要形式,在語言教學(xué)和學(xué)習(xí)中擔(dān)當(dāng)了重要的角色,但要使用好這種題型的前提是能夠很好地掌握命題技術(shù)。本文探討了編寫多項選擇題的技術(shù)與方法,包括語料的選擇和處理以及題干和選項的編寫技巧,并提出了效度領(lǐng)先的命題基本原則。
語言測驗;多項選擇題;效度
多項選擇題是1915年由美國人弗雷德里克·凱利(Frederick Kelly)首次提出并使用的(Spolsky,B.,1995)。這種測驗方式允許大規(guī)模測試,評分快捷、簡易,只要把一個鏤空的模子套在答案上就行了。這種題型的發(fā)明影響了整個教育制度,對語言測驗的發(fā)展也起到了很大的推進(jìn)作用。如今,多項選擇題已經(jīng)成為客觀化語言測驗的主要形式,在語言教學(xué)和學(xué)習(xí)中擔(dān)當(dāng)了重要的角色,但要使用好這種題型的前提是能夠很好地掌握命題技術(shù)。就像Hea?ton(1975)說的那樣:“在某些方面,多項選擇技術(shù)之于測驗,恰如透視法之于繪畫:只有真正能夠欣賞并掌握了這些技術(shù)的人,才能擺脫它強加給你的束縛,你才能從中發(fā)現(xiàn)新意并改進(jìn)測驗技術(shù)”。因而探究多項選擇題的命題技術(shù)是提高試題質(zhì)量,保證測驗效度的有效途徑。
多項選擇題(這里只討論多選一的形式)由兩部分組成,前一部分叫“題干”(stem),后一部分叫“選項”或“備選答案”(option/response/alternative)。選項一般有三到五個不等,其中一個是正確答案(key),另外的幾個叫“干擾項”(distracter)。 干擾項的作用是干擾那些水平不高的被試,起到迷惑的作用,所以有人也稱之為“迷惑選項”。此外,語言測驗一般都是由語言材料來呈現(xiàn)的,這種以語言來考查語言能力的測量方式是語言測驗的顯著特點,因而在命題過程中,我們還要關(guān)注語言材料的選擇和使用的問題。
語言材料(語料)是編寫題目的前提和依據(jù),測驗所使用的語料,無論是一個詞語還是一篇長文章,對編寫題目都是十分重要的??梢哉f,選好語料是編制試題過程中的第一步,也是關(guān)鍵的一步。
我們知道,題目從工具層面直接影響到測驗的效度,因此在命題過程中始終要考慮的是題目是否考查了想要考查的東西,也就是測驗的效度問題。為此在語料的選擇中要遵循以下幾個原則:
語言測驗的最終目的是要測查出學(xué)習(xí)者在廣泛的社會生活、工作和學(xué)習(xí)中運用語言的能力,因此語料的選擇首先要保證題材的廣泛性,所涉及的方面可以包括經(jīng)濟(jì)、歷史、地理、家庭、文學(xué)文化、科技、教育、文藝、體育等社會和個人生活的大多數(shù)領(lǐng)域。這一原則也體現(xiàn)了測驗公平性的要求。由于被試的專業(yè)背景和興趣愛好各不相同,如果語料的題材過窄,必然影響到考試內(nèi)容的覆蓋面。這樣,熟悉某一領(lǐng)域的被試就會獲益,從而導(dǎo)致對其他被試的不公平,測驗的公平性直接影響到測驗的效度。
因此應(yīng)當(dāng)選擇一般性語料,如報紙、通俗(非專業(yè))雜志、電視、廣播、廣告等大眾傳媒。一般性語料是指沒有特定的受眾范圍、具有較高流行度的語言記錄。一般性語料不包括體裁特征和作者個人風(fēng)格非常特殊的文學(xué)作品、科學(xué)技術(shù)文獻(xiàn)、商業(yè)和法律文書和理論專著等。
良好的內(nèi)容傾向是指語料所涉及的內(nèi)容、觀點積極或中性,沒有消極的、反面的觀點,即沒有可能在政治、宗教信仰、民族、性、毒品等方面在考生群體或亞群體中引起敏感反應(yīng)的內(nèi)容。對敏感性問題還需要做出以下說明:①敏感僅對考生群體或考生亞群體而言,對考生以外的任何個人或群體,不存在敏感問題。敏感性問題也不是對任何一個個體而言的,比如小貓、小狗、兔子,可能是很多人喜歡的動物,但也不排除個別考生“怕帶毛的動物”。②敏感性問題是有爭議的問題。如兩性/同性/雙性關(guān)系,而沒有爭議的問題不是敏感性問題,如偷竊、貪污、受賄等,不能把對消極現(xiàn)象的批評看成是消極現(xiàn)象或“暴露社會陰暗面”。另外,一些小毛病不是敏感性問題,如自私、怯懦、貪財、嫉妒、狹隘、趨利避害、自我中心等。③語言功能要求不屬于敏感性問題。某些語言功能,如反對、命令、強迫、警告、恐嚇、憤怒等等功能項目不屬于敏感問題。
規(guī)范性包括語料的正確性、得體性和通用性。
正確性是指語料應(yīng)當(dāng)是規(guī)范的現(xiàn)代漢語,不能出現(xiàn)語法、用詞、文字書寫和標(biāo)點符號上的錯誤。同時,語料所使用的語言(包括在語音、詞匯、語法以及各種表達(dá)等方面)應(yīng)該是標(biāo)準(zhǔn)的漢語普通話,而非任何一種漢語方言。漢語作為第二語言的能力測驗是以現(xiàn)代漢語普通話為標(biāo)準(zhǔn)的,因此要避免出現(xiàn)地域方言詞、社會方言詞和行業(yè)方言詞。
得體性是指語料在語言使用上的合理性和可接受性。
通用性指的是語料的體裁和語言風(fēng)格應(yīng)該是一般性的、通用性的。除非特殊需要,一般的外語水平測驗都要避免采用作者個人風(fēng)格明顯的文學(xué)作品(如詩歌、戲劇等),這兩種文學(xué)體裁的語言風(fēng)格不適合成為考試的語料;而專業(yè)性的論文、報告或者科學(xué)論著等也不適合選做一般性的語言測驗的語料。如果所編寫的題目出現(xiàn)對特殊的技術(shù)術(shù)語或者專業(yè)術(shù)語的考查,考生的表現(xiàn)就會因為缺乏某方面的專業(yè)知識而受到影響。
考試要追求公平性,這種公平性需要通過試題來保證,因此在選擇語料時就要充分考慮到公平性,這在外語測驗中尤為重要。要保證公平性就要注意以下幾點:①語言材料盡量避免使用只有某個特定民族或文化背景的人所熟悉的場所、人物或事件;②避免試題語言材料直接表示或暗示對任何一種文化或民族習(xí)慣的評價;③盡力保證語言材料和試題內(nèi)容對各種文化背景下的兩種性別都不存在偏見,如“粉底液”有可能帶有性別差異;④避免介紹只有特定人群才有的知識;⑤避免過于專業(yè)化的情景和內(nèi)容。
好的語料應(yīng)該是信息量大、層次豐富的語料。實際上在命題過程中我們常常發(fā)現(xiàn),許多語料字?jǐn)?shù)雖然不少但出題很困難,這其中的原因就是語料的內(nèi)容層次不豐富,信息量小。選取信息量豐富的語料,對命題者來說可以多層次、多角度進(jìn)行開掘,比較容易多出題、出好題。對考生來說,這樣的語料,可以考查他們在不同層次上的理解能力。
真實性是指從真實的自然的語言材料中選取語料,而不是由命題人員自己編寫語言材料。語料的真實性是測驗效度的需要。我們知道,測驗的最終目的是考查出被試在真實的語言環(huán)境中的實際語言交際能力,真實的語料是真實的語言環(huán)境的組成部分,因此在測驗中讓被試接觸真實的語料有利于提高測驗的效度,增加測驗分?jǐn)?shù)的可推廣性。
選擇適當(dāng)?shù)恼Z料之后,常常需要對語料作一些必要的處理,這些處理包括修改語法、詞匯、文字和標(biāo)點使用上的錯誤。在進(jìn)行語料處理時要注意以下兩點:①為了保證測驗的真實性,所選語料原則上應(yīng)保持原貌,盡量不做內(nèi)容上的添加、刪改和編輯,更不能隨意編寫語料;②為了保證測驗的真實性,也為了保持語料原有的層次和內(nèi)容,不能將長篇語料壓縮成提綱。實際上,語料的真實性是測驗效度的需要,測驗界也越來越重視這個基本原則,比如新托??荚囋诿}原則中就特別重視語料的真實性,所選語料全部來自美國大學(xué)校園的真實語言環(huán)境。
題干的作用是把問題簡明扼要地提出來,被試可以從題干中獲得如何答題的全部信息。根據(jù)題型的不同,題干的形式也有所不同,大致有以下三種:
1)一個有待補充的陳述,比如,例1:根據(jù)本文我們知道張立是一位:A.教師,B.醫(yī)生,C.律師,D.記者。
2)一個完整的陳述,比如,例2:跟你說話簡直是對牛彈琴!A.你沒資格跟我說話,B.你一點都聽不明白,C.你也太不懂音樂了,D.你不要彈琴給牛聽。
這樣的題目中,選項大多是對題干的說明和解釋。
3)一個完整的問題,比如,例3:李曉桐最喜歡的顏色是什么?A.藍(lán)色,B.紅色,C.黃色,D.白色。
第一,題干應(yīng)盡可能多地包含試題內(nèi)容。凡是題目中共含的因素、重復(fù)性的詞語(如相同的敘述或修飾成分)都應(yīng)該放在題干中,而不要在選項中重復(fù)使用,以使選項盡可能精練,比如,例4:根據(jù)本文,成人最好:A.每天睡6小時,B.每天睡8小時,C.每天睡10小時,D.每天睡12小時。
這個題目的問題在于題干中沒有包含所有共含的因素和重復(fù)性的詞語,使得選項過于冗長,降低了效率,可以改為:根據(jù)本文,成人最好每天睡多少小時?A.6小時,B.8小時,C.10小時,D.12小時。
不論是題干還是選項,都應(yīng)力求不重復(fù)一個詞,不多用一個字,編寫題目時,措辭需反復(fù)推敲。這一點不僅是經(jīng)濟(jì)的原則,更是測驗效度的需要。因為測驗要考查的是考生對語料的理解,而不是對題干和選項的理解,冗長煩瑣的題干和選項只會增加考生不必要的閱讀負(fù)擔(dān),從而威脅到測驗的效度。
第二,盡量避免采用非常規(guī)方式的提問,比如以否定的方式提問,像下面這個題干,例5:作者沒有提到下列哪一條原因?這些非常規(guī)的提問方式造成思維上的困難,而這種思維上的能力不是我們要考查的能力。再者,非常規(guī)的表達(dá)還會設(shè)置沒有必要的圈套,造成某些考生由于粗心大意而答錯題,從而增加隨機(jī)誤差,降低考試的信度。
第三,設(shè)計題干時要留足余地,使題目具有一定開放性。具體方法是題干只使用特指問句,不用是非疑問句、正反問句和選擇疑問句,舉個例子說明。例6:宣紙的制作藝術(shù)歷史長不長?A.很長,B.不長,C.不太長,D.有點長。這個題目的選項即使湊出了四個,也顯得非常勉強,更重要的是,這類選項因為缺乏有效的干擾,并且互相之間構(gòu)成了暗示,而增加了猜中概率,降低了選項的有效性。修改的方法是使用特指疑問的方式,拓寬選項的內(nèi)容和相互獨立性。
第四,題目與題目之間應(yīng)有相對的獨立性,避免相互依賴,相互包含或相互暗示。不能使考生因為會做第一個題目便自然會做下一個題目,或因為不會做這個題目便也不會做另外的題目。這一條原則主要針對閱讀理解或聽力理解中的段子題,即根據(jù)一段文章,回答幾個連續(xù)的問題。比如,對同一段閱讀材料,要避免重復(fù)考查同樣的要點,舉個例子來說明。例7:這個故事發(fā)生在什么時間?A.上午,B.下午,C.晚上,D.夜里。后面又有一個問題:作者交代了事情的:A.原因,B.結(jié)果,C.時間,D.地點。顯然,C正確,否則前面那個題就不會那么問了。
第五,要避免考查常識性問題。因為題目如果是常識性問題,那么考生就不需要聽懂或讀懂就可以回答出來,題目的有效性就得不到保證了,比如下面這個閱讀理解題目。例8:貓頭鷹通常在什么時間出來活動?A.上午,B.中午,C.下午,D.晚上。眾所周知,貓頭鷹是晝伏夜出的動物,這是一個常識問題,因而此題考查的是常識還是語言的閱讀理解能力就不得而知了。
總之,在編寫題干時要記住一條總的原則:題目要有效地考查出你打算考查的東西。比如,在閱讀理解測驗中,你想考的是學(xué)生對閱讀材料的理解水平怎么樣,而不是考查學(xué)生理解你問的那個問題的水平怎么樣。一個好的題干,應(yīng)當(dāng)保證所有人都能理解你問的是什么。
在一個題目中,如果說題干是刺激物,那么選項就是反應(yīng)物,多項選擇題的選項在編寫時應(yīng)盡量模仿考生可能產(chǎn)生的反應(yīng),使題目具有更好的真實性。具體而言有以下一些方法。
第一,保證正確答案的正確性和唯一性,這一條看起來簡單,但要真正做到,也不是那么容易。李筱菊(1997)在談及英語多項選擇題的命題方法時也首先提出了答案唯一性的原則。下面的例題就有多個正確答案。例9:__多數(shù)的江南小鎮(zhèn)一樣,周莊得坐船去才有味道。A.像,B.如,C.似,D.又。
第二,避免題目內(nèi)部的相互暗示。在編寫題干時我們要注意題目間的暗示,在編寫選項時則要注意避免題目內(nèi)的暗示。題目內(nèi)暗示就是選項之間的暗示,有以下幾種不同的情況。
1)四個選項中某一選項與其他選項意義相反,或者由三個積極(消極)意義、一個消極(積極)意義的選項組成。比如,例10:作者認(rèn)為那個人怎么樣?A.很善良,B.很殘忍,C.很漂亮,D.很勇敢。在四個選項中只有B是消極意義的選項,這樣就會吸引一部分考生選擇B作為正確答案。
2)四個選項中有意義相同或相反的選項,比如,例11:如果不用于運輸,即使修建了道路,也不會產(chǎn)生經(jīng)濟(jì)效益,這些地區(qū)還會回到貧困中去。A.辦法,B.回報,C.方案,D.過程。選項A與C意義相同,考生如果知道的話,會立刻將這兩個選項排除掉,相當(dāng)于只有兩個有效選項,考生猜對答案的概率增加為50%。再比如,例12:男:這女人真是,怎么把孩子一扔了之呢?女:女人太難了,她一定也有難處才這樣做。問:女的對孩子的媽媽是什么態(tài)度?A.嘲笑,B.同情,C.厭惡,D.鼓勵。選項B與C意義相反,暗示其中有一個是正確答案。
3)選項在形式上長短不一或者沒有按數(shù)值大小順序或其規(guī)律性排列。多項選擇題的選項長度應(yīng)盡量相等,不要有的長,有的短,長短不齊的選項可能會給被試造成暗示,含有數(shù)字或具有某些規(guī)律的選項要按數(shù)值大小順序或其規(guī)律性排列。比如,例13:過去的就讓它過去吧,現(xiàn)在說什么也來不及了。問:說話人是什么意思?A.你說晚了,B.對過去的事不要太在意,C.讓他去吧,D.去得晚了。
選項B因為明顯過長,會吸引一部分考生。為了避免考生利用或誤用暗示,選項長短應(yīng)盡可能一致,保持選項長短一致的技巧有拆字、填字等,選項即使無法相同,也要按照字?jǐn)?shù)多少的順序排列。
第三,確保干擾項的干擾能力。每個干擾項都應(yīng)該似是而非,具有一定的迷惑作用。干擾項應(yīng)該是精心設(shè)計的,而不是隨意拼湊。如果有一個干擾項沒有人選,它就是個無效選項,四選一的題目如果有一個無效選項,猜對這個題的概率就由25%上升為33%了。干擾項的難度一般不要比正確選項大,因為干擾項的難度大于正確選項,就可能把水平高的被試也迷惑了,其結(jié)果是題目的區(qū)分度降低。要編寫出真正具有一定迷惑作用的干擾項,必須充分利用語料中包含的各個要點或難點,仔細(xì)揣測考生可能會在哪個環(huán)節(jié)上出現(xiàn)問題以及這一點是不是與預(yù)定要測量的語言能力緊密相關(guān),做到有根有據(jù)地編寫干擾項。
第四,閱讀理解和聽力理解試題的備選答案應(yīng)盡可能回避語料中原有的措辭,特別是正確答案應(yīng)該換一個說法,看下面這個例子。例14:“連麗如平易近人,一點名演員的架子也沒有。”問:這句話告訴我們,連麗如怎么樣?A.沒有名,B.很一般,C.不擺架子,D.不是演員。這個題目本來要考查的要點就是“平易近人”和“沒有架子”的含義,但由于正確答案C沒有避開原文中“架子”一詞,考生當(dāng)然會傾向于選擇C。在這種情況下,可以把“不擺架子”換成另一種說法,如“很謙虛”等。
第五,所有選項難度應(yīng)該大體相當(dāng),這一點在考查詞匯的題目中尤其重要。比如,例15:看著剛剛成材的樹林被濫砍亂伐,誰不心疼??!A.可惜,B.著急,C.憤慨,D.失望。干擾項C是純粹的書面語,難度明顯大于其他答案,很可能會吸引較多的高水平考生,或讓水平較低的考生“望而生畏”,使題目區(qū)分度降低??梢愿某伞吧鷼狻币辉~,使選項的難度平衡。同樣,如果在四個選項中有一個明顯偏易,也會造成同樣的后果。
當(dāng)然,主觀判斷選項的難易有時很不準(zhǔn)確,這時我們就要依靠題目分析。題目分析能提供這方面信息,如果哪個答案區(qū)分性很差,很可能是這個答案迷惑性過強(太難了),使水平高的考生誤入圈套。
第六,所有選項(特別是詞匯試題的答案)應(yīng)盡可能涉及同一類事物、活動或同一領(lǐng)域。四個備選答案不管是近義、類義或是反義,在意義上總應(yīng)有某種內(nèi)在聯(lián)系,而最好不要風(fēng)馬牛不相及。比如,例16:最近幾年來,我們的對外貿(mào)易有了很大發(fā)展。A.外邊,B.外地,C.外國,D.外匯。A、B、C說的都是地點,而D卻是指一種貨幣,顯得有些不合群,可以改成“外部”。除了注意各選項的相關(guān)性,還應(yīng)特別強調(diào)保持詞性的一致,如果有三個答案是名詞,而只有一個是形容詞,很容易造成不必要的暗示。特別是在語法測驗中,應(yīng)嚴(yán)格避免詞類不一致的現(xiàn)象。
第七,除了測驗特殊語法點的題目外,其他測驗題目的選項放到題干里時都要合乎語法,也就是說,每一個選項在語法上都應(yīng)該是可替換的。下面的這道閱讀理解題就有不可替換的問題。例18:根據(jù)本文,我們知道“莉莉”是一只:A.鳥,B.狗,C.貓,D.魚。選項D在名量搭配上是錯誤的,語法好的考生馬上就能將它排除,降低了此題測量閱讀能力的效力。
第八,選項盡量不要用“上述三個都不是”,“都沒有”等說法;不要用“從不”、“總是”、“所有”等表示范圍太廣的詞語。
第九,正確答案在選項中的位置不應(yīng)固定,應(yīng)做到出現(xiàn)頻率相等,出現(xiàn)順序隨機(jī)。比如,不能把大部分的正確答案都放在選項“C”的位置上,應(yīng)使其均勻分布,以減少猜測對測量精度的影響。
語言測驗質(zhì)量的好壞,在很大程度上取決于命題技術(shù),一個好的題目就像一件精美的藝術(shù)品一樣,是需要精心雕琢的。多項選擇題是語言測驗中最常用的一種題型。它使用方便,評分客觀,對語言測驗的標(biāo)準(zhǔn)化和客觀化起到了積極作用。但同時這種題型固定的格式又使得命題受到了較大的束縛,因而探究多項選擇題的命題技巧就顯得十分重要。在命題過程中每一步都必須考慮到所測的因素是否有利于提高測驗的有效性,這是命題技術(shù)中最重要的東西,稱為“效度領(lǐng)先”的原則,這一原則在其他題型的命題過程中同樣適用。
[1]Spolsky,B.Measure Words[M].上海:上海外語教育出版社.1995.
[2]Heaton,B.Writing English Language Tests.Longman.1975.
[3]李筱菊.語言測試科學(xué)與藝術(shù)[M].長沙:湖南教育出版社.1997.
Studies on How to Write Multiple-choice Items in Chinese Language Testing
WANG Yimin
Multiple-choice test is the main form of objective testing,and it plays an important role in language teaching and learning.In order to make this kind of test more useful,we should know how to write multiple-choice items.This paper discusses the techniques and methods on how to write multiple-choice items,including how to select language materials and how to write item stems and options.Finally we make a proposition that test validity is the main factor people should consider when writing a test item.
Language Tesing;Multiple-choice;Validity
G405
A
1005-8427(2012)05-0039-6
本研究得到教育部人文社科重點研究基地重大項目“漢語作為第二語言的能力標(biāo)準(zhǔn)”以及北京語言大學(xué)青年自主科研支持計劃資助項目“漢語口語測試標(biāo)準(zhǔn)體系研究”(中央高?;究蒲袠I(yè)務(wù)費專項資金)的支持。
北京語言大學(xué)