楊 洋
[摘要] 從心理測量的角度出發(fā),說明標(biāo)準(zhǔn)化測試的概念及當(dāng)前國內(nèi)對標(biāo)準(zhǔn)化考試存在不少誤解和誤用,因此必須從觀念和體制兩方面入手,提高民眾對標(biāo)準(zhǔn)化考試的認(rèn)識,推動體制上的逐步變革,進(jìn)而不斷地完善考試技術(shù),提高標(biāo)準(zhǔn)化考試質(zhì)量。
[關(guān)鍵詞] 標(biāo)準(zhǔn)化考試;誤用;觀念;體制
[中圖分類號] G40-02[文獻(xiàn)標(biāo)識碼] A[文章編號] 1008-004X(2009)08-041-04
當(dāng)前對于標(biāo)準(zhǔn)化考試的討論和批評日益激烈,此類文章經(jīng)常見諸各類報(bào)刊。由于討論者對于標(biāo)準(zhǔn)化考試的理解不盡相同,使得許多討論難能在一個層面上。因此,有必要對標(biāo)準(zhǔn)化考試的相關(guān)概念作一說明,以促進(jìn)民眾和媒體對這一問題的理解。對標(biāo)準(zhǔn)化考試的批評和誤解主要來自三個方面:一是民眾和媒體輿論對標(biāo)準(zhǔn)化考試的概念和形式有誤解,往往將標(biāo)準(zhǔn)化等同于“機(jī)械化、公式化、概念化”;(南方周末,2005.2.24)一是考試使用機(jī)構(gòu)或政策制定者對考試的誤用(如有的城市將英語四六級與相關(guān)人員落戶掛鉤)和普通民眾對考試分?jǐn)?shù)的誤讀;三是考試自身存在較嚴(yán)重的質(zhì)量問題,這些都有待于考試研究者和編制者加強(qiáng)研究,以不斷完善考試技術(shù)。
一、什么是標(biāo)準(zhǔn)化考試
考試是對人的心理特質(zhì)的測量,是通過對受考者行為樣本的觀察來推測其行為總體。既然是測量就肯定會有誤差。物理測量尚且如此,作為一種心理測量的考試就更容易受到無關(guān)因素的干擾。相關(guān)理論告訴我們,只有將這些無關(guān)因素的影響降到最低,才能保證考試的科學(xué)性與公平性。所以,考試的標(biāo)準(zhǔn)化是實(shí)現(xiàn)考試科學(xué)性與公平性,保證考試質(zhì)量的重要途徑。
所謂“標(biāo)準(zhǔn)化”,是指將測驗(yàn)誤差降至最小的過程,包括統(tǒng)一內(nèi)容、統(tǒng)一指導(dǎo)語、統(tǒng)一時(shí)限、統(tǒng)一評分、確立常模、收集信度和效度資料等。(謝小慶,1988) 原國家教育委員會考試管理中心主編的《標(biāo)準(zhǔn)化考試》一書,將標(biāo)準(zhǔn)化測驗(yàn)的各個環(huán)節(jié)大致分為“試題編制標(biāo)準(zhǔn)化、考試實(shí)施標(biāo)準(zhǔn)化、閱卷評分標(biāo)準(zhǔn)化及分?jǐn)?shù)轉(zhuǎn)化與解釋的標(biāo)準(zhǔn)化”。也有學(xué)者認(rèn)為,需要進(jìn)行標(biāo)準(zhǔn)化的不止上述環(huán)節(jié),除了“在命題、施測、評分和分?jǐn)?shù)解釋四個環(huán)節(jié)上都嚴(yán)格控制了誤差”以外,還必須“實(shí)現(xiàn)試題預(yù)測、DIF分析和分?jǐn)?shù)等值、合理地確定測驗(yàn)長度和及格線”等。(徐靜等,2004) 總之,標(biāo)準(zhǔn)化考試是要控制考試的每一個環(huán)節(jié),使其按照一定的標(biāo)準(zhǔn)來進(jìn)行,從而將與考試目的無關(guān)的誤差因素盡量剔除,使測驗(yàn)者之間的個體差異在考試分?jǐn)?shù)差異中的比例達(dá)到最大。
由于對標(biāo)準(zhǔn)化考試的認(rèn)識尚不明確,很多人對其產(chǎn)生了誤解。作為考試研究人員,需要更多地向大眾介紹所謂標(biāo)準(zhǔn)化問題。
1. 標(biāo)準(zhǔn)化考試不等于選擇題。提起標(biāo)準(zhǔn)化考試,可能許多人就會想到四選一的多項(xiàng)選擇題,同時(shí)有標(biāo)準(zhǔn)的唯一的答案。許多批評者認(rèn)為這種“標(biāo)準(zhǔn)”的形式扼殺了考生的創(chuàng)造力,也無法考查出考生的真實(shí)能力。是一種“機(jī)械化、公式化、概念化”的考查方式。其實(shí),標(biāo)準(zhǔn)化考試并不是因?yàn)橛袠?biāo)準(zhǔn)答案而得名,其題型也不僅限于選擇題。
多項(xiàng)選擇題是第一次世界大戰(zhàn)時(shí)期奧提斯(Otis, A.S.)發(fā)明的,現(xiàn)在被廣泛地運(yùn)用于各類標(biāo)準(zhǔn)化測試。選擇題在很大程度上降低了閱卷的成本和評分誤差,而且擴(kuò)大了試題覆蓋的范圍,減少了取樣誤差,提高了考試的效度。很多人覺得選擇題具體如四選一的形式比較僵化,難能考查考生的真實(shí)能力。但其實(shí)選擇題“既可以測量一般層次的學(xué)習(xí)結(jié)果,亦可以測量理解、運(yùn)用、分析、綜合和評價(jià)這些高層次能力”,(張敏強(qiáng),1998) 如果說這種題型一定有某些不足的話,那就主要在于題目本身的編制問題。質(zhì)量低下的選擇題可考查考生死記硬背的學(xué)業(yè)水平;而質(zhì)量好的選擇題則可以考查考生較高層次的能力?,F(xiàn)在有許多高質(zhì)量的標(biāo)準(zhǔn)化考試(如托福、SAT等)都還在繼續(xù)使用選擇題,說明這種題型具有一定的優(yōu)勢。
當(dāng)然,筆者并不否定選擇題有其自身的缺點(diǎn):
(1)編制良好的選擇題較花費(fèi)時(shí)間,特別是干擾項(xiàng)的設(shè)立。
(2)這種題型較難測量以發(fā)散為思維特征的重要能力,如表達(dá)、創(chuàng)造能力等。
(3)無法測量學(xué)生的思維過程。
(4)這種題型有被試者猜測正確作答之嫌疑。(張敏強(qiáng),1998)
因此,標(biāo)準(zhǔn)化考試中需要添加其他客觀題型,也需要添加問答、寫作等主觀題型,以全面考查被試人的各方面能力。
2. 主觀題也可以實(shí)現(xiàn)標(biāo)準(zhǔn)化。一般來說,相對于客觀題,主觀性試題較難實(shí)現(xiàn)標(biāo)準(zhǔn)化。這是因?yàn)榈谝?從命題環(huán)節(jié)看,主觀題所需要的答題時(shí)間較長,題目數(shù)量較少,命題時(shí)容易出現(xiàn)取樣誤差,從而影響考試效度。例如,一篇題為“互聯(lián)網(wǎng)時(shí)代”的作文就可能對沒有接觸過電腦和互聯(lián)網(wǎng)的考生造成歧視。
第二,從閱卷環(huán)節(jié)看,容易產(chǎn)生評分誤差。因?yàn)橹饔^性試題一般不存在標(biāo)準(zhǔn)答案,而只有評分標(biāo)準(zhǔn)。不同評分者對評分標(biāo)準(zhǔn)的理解會有所差別,對于同一份答卷給出的分?jǐn)?shù)甚至相差較遠(yuǎn)。這就一方面要求考試機(jī)構(gòu)對評分員其中主要成員應(yīng)進(jìn)行嚴(yán)格的培訓(xùn),通過試評使他們對評分標(biāo)準(zhǔn)的理解盡量保持一致;另一方面,必然要求對評分者的閱卷質(zhì)量進(jìn)行監(jiān)控,通過控制,以降低主觀性試題誤差,使其真正實(shí)現(xiàn)“標(biāo)準(zhǔn)化”。
3. 標(biāo)準(zhǔn)化考試的目的在于提高效率。標(biāo)準(zhǔn)化考試和現(xiàn)代教育一樣,是大規(guī)模生產(chǎn)的必然結(jié)果。此前有一錯誤觀念,認(rèn)為學(xué)校教育就是要把所有學(xué)生放在同一條生產(chǎn)線上,這種想法實(shí)際上夸大了學(xué)生的共性而忽略了學(xué)生的個性。但是在現(xiàn)代社會,學(xué)校教育可以提高教育的效率,使得幾乎所有社會成員都能享受以前少部分人能夠享受的特權(quán)。為此,一定的犧牲是值得的。實(shí)際上,標(biāo)準(zhǔn)化考試在某種意義上就是一個犧牲一定效果而獲得效率的行為。因?yàn)橛辛藰?biāo)準(zhǔn)化考試,就可以大大提高評價(jià)的效率,降低評價(jià)的成本。為此,一定的犧牲在所難免??荚嚳赡軐Σ糠秩藷o效,或者不公平,但是從社會整體來說,考試卻是有效的,也是公平的。如果將來社會資源極度豐富,不用考慮時(shí)間、成本等因素,標(biāo)準(zhǔn)化考試或許會被更為準(zhǔn)確的面試或長期觀察所取代,但近期實(shí)際情況證實(shí),在社會和自然資源相對發(fā)達(dá)的美國,也難實(shí)現(xiàn)。因此在目前情況下,尤其在我國,還不能對標(biāo)準(zhǔn)化考試抱有過高的期望,認(rèn)為考試就是一個完美的選拔制度。就是說,應(yīng)該也只能把考試作為提高人才選拔效率的一種手段,而且只能是一種輔助手段。
二、標(biāo)準(zhǔn)化測試的誤用
眾所皆知,考試的目的是通過對考試分?jǐn)?shù)的解釋,為考試使用者提供決策參考。此中,如果對考試誤用,那么就是對考試的分?jǐn)?shù)做出了不恰當(dāng)?shù)慕忉?。由?這種不恰當(dāng)解釋就會給決策產(chǎn)生影響,以致?lián)p害考試的效度。所以,我們敢說,世上沒有低效度的考試,只有低效度的分?jǐn)?shù)解釋。
目前,我國不恰當(dāng)?shù)姆謹(jǐn)?shù)解釋主要有如下幾種:
1. 缺乏分?jǐn)?shù)參照體系。目前,我國關(guān)于考試的認(rèn)知和執(zhí)行過程中,一般在對測驗(yàn)分?jǐn)?shù)做出常模參照解釋的時(shí)候,只是孤立地給出分?jǐn)?shù),而不給出常模的相關(guān)信息,這樣做的結(jié)果是無法對分?jǐn)?shù)做出恰當(dāng)?shù)慕忉?從而影響決策。例如一位考生在一次考試中取得了80分的成績,嚴(yán)格說來,僅憑這個分?jǐn)?shù)是無法對這一考生的表現(xiàn)做出任何判斷的。因?yàn)榫瓦@一成績而言,他可能是考得最好的一位,也可能是考得最差的一位。但如果知道了平均分和標(biāo)準(zhǔn)差這些對常模做出描述的參數(shù),那么,就可以對他的成績做出判斷。如韋氏智商分?jǐn)?shù)就是以100為平均分,15為標(biāo)準(zhǔn)差。如果一個人的智商分?jǐn)?shù)是115,就說明這個人比平均分?jǐn)?shù)高出了一個標(biāo)準(zhǔn)差,即他的智商比84%左右的人要高。這樣的信息顯然更有利于決策者做出決定。
2. 缺乏對分?jǐn)?shù)必要的描述。在對測驗(yàn)分?jǐn)?shù)作出標(biāo)準(zhǔn)參照解釋的時(shí)候,倘若只報(bào)告分?jǐn)?shù),而不對考生所達(dá)到的水平作出必要的描述,那么,決策者就無法獲取足夠的信息。何況在通常情況下,人們對測驗(yàn)作出標(biāo)準(zhǔn)參照解釋的時(shí)候,平均分和標(biāo)準(zhǔn)差并不重要,因而考試使用者也不怎么關(guān)心。重要的是關(guān)于其標(biāo)準(zhǔn)或及格線的設(shè)定,以及對達(dá)到這一標(biāo)準(zhǔn)的被試能力的描述。這樣,決策者關(guān)于其了解考生能力具備的基礎(chǔ)上,知道考生能從事哪些方面的工作。美國ETS開發(fā)的TOEIC考試在報(bào)告成績時(shí)對考生的“能做”(can do)就作了非常詳盡的描述,這樣考試決策者就可以對考生的能力有更加清晰的了解。
3. 過分夸大標(biāo)準(zhǔn)化考試的功能。任何考試的功能都是有限的,所測查的都是考生某一個或者某幾個方面的能力??荚囍挥斜挥脕碓u價(jià)它能夠測查的方面時(shí),才能夠發(fā)揮其作用,否則就是無效的。數(shù)學(xué)考試只能被用來評價(jià)考生的數(shù)學(xué)能力,如果被用來評價(jià)考生的語文能力,不但無效,且也是荒唐的。此前,我國不少高等院校將英語四六級考試成績與畢業(yè)證書掛鉤,這種做法實(shí)際上默認(rèn)了一個合格的大學(xué)畢業(yè)生必須具備良好的英語水平。雖然中國現(xiàn)在與世界的聯(lián)系越來越緊密,國際交流也日益頻繁,但是也并不是所有的大學(xué)畢業(yè)生都需要參與國際交流。對于有些畢業(yè)生來說,或許在他的工作中很少會用到英語。對于這些人,有必要一定要讓他們具備良好的英語水平嗎?試想一名專業(yè)成績優(yōu)秀的大學(xué)畢業(yè)生因?yàn)闆]有通過英語四六級考試而不能獲得畢業(yè)證書,從而與能夠發(fā)揮自己專業(yè)技能的崗位失之交臂,難道說不是一件令人遺憾的事么。因此,這些院校將畢業(yè)證書與英語四六級掛鉤的做法,其實(shí)是對英語四六級考試的誤用。為此,也有人批評英語四六級考試,認(rèn)為應(yīng)該將其取消。這種觀點(diǎn)雖然太過極端,但也從一定程度上說明,在決定一個人命運(yùn)的相關(guān)考試中,我們需要對英語四六級考試進(jìn)行適當(dāng)?shù)姆謹(jǐn)?shù)解釋,使其在對學(xué)生的英語能力進(jìn)行評價(jià)時(shí)發(fā)揮這類考試的應(yīng)有功效。
三、考試技術(shù)有待完善,質(zhì)量有待提高
所謂標(biāo)準(zhǔn)化考試,顧名思義,就是按照標(biāo)準(zhǔn)進(jìn)行的考試。那么按什么標(biāo)準(zhǔn)呢?美國教育研究會、心理學(xué)會和教育測量委員會聯(lián)合制定了美國《教育與心理測驗(yàn)標(biāo)準(zhǔn)》,美國的標(biāo)準(zhǔn)化考試從編制、施測到評分、質(zhì)量分析都需要按照這個《標(biāo)準(zhǔn)》。而中國現(xiàn)在沒有自己的“標(biāo)準(zhǔn)”,因此,嚴(yán)格地說,中國現(xiàn)階段沒有自己的標(biāo)準(zhǔn)化考試。在許多方面只能參考借鑒別國的經(jīng)驗(yàn)。
中國是考試的故鄉(xiāng),但在現(xiàn)代考試技術(shù)上卻大大落后于西方。在19世紀(jì)末20世紀(jì)初這一段時(shí)期,西方的實(shí)驗(yàn)心理學(xué)和心理測驗(yàn)的發(fā)展推動了考試的發(fā)展。從1909年到1915年,教育測驗(yàn)逐漸增多,測驗(yàn)研究進(jìn)入了興盛時(shí)期。1922年斯坦福成就測試問世并逐漸風(fēng)行。當(dāng)時(shí),不僅學(xué)科測驗(yàn)有了發(fā)展,而且診斷測試和練習(xí)測驗(yàn)編制也陸續(xù)問世,形成了利用教育測量來進(jìn)行教育調(diào)查研究的風(fēng)氣。相比較,我國關(guān)于考試的研究起步較晚,教育和心理測量領(lǐng)域真正得到重視還是在改革開放以后。而在上個世紀(jì)后期,由于科學(xué)技術(shù)的發(fā)展,特別是計(jì)算機(jī)的普及,使得西方考試技術(shù)領(lǐng)域有了迅速的發(fā)展。除了傳統(tǒng)的經(jīng)典測量理論以外,項(xiàng)目反應(yīng)理論和概化理論也得到了廣泛的應(yīng)用。與此同時(shí),出現(xiàn)了計(jì)算機(jī)自適應(yīng)性測試(CAT)、電子評分員(E-rater)及真實(shí)性測試(authentic test)等許多新的測驗(yàn)方式。考試技術(shù)的發(fā)展日新月異,這一切,無不說明,我國的考試研究還必需進(jìn)行大量的拓寬性工作。
在我國,每年都在舉辦著成千上萬的各種類型的考試。這些考試的規(guī)模不可謂不大,其利害也不可謂不高。但這些考試真正實(shí)現(xiàn)標(biāo)準(zhǔn)化卻可謂少之又少。究其原因,筆者認(rèn)為可以歸結(jié)為觀念和體制兩個方面:
首先,從觀念方面分析,中國的廣大民眾對考試有一種“膜拜”的心理,普遍認(rèn)為考試一定是神圣的、公平的。如果因?yàn)榭荚嚱Y(jié)果比其他人差而失去某些機(jī)會,必然是心服口服。這種心理或許源于對權(quán)威的服從,或許是被考試的形式所“蒙蔽”。但不管怎么說,考試的形式不僅保證了考試的信度,而且保證了考試的效度,即一個考試是否真的能夠考查出試卷編制者想要考查的能力。這種心理使得人們幾乎從不對考試的科學(xué)性和有效性進(jìn)行質(zhì)疑??荚嚨男问绞谷藗兛吹降闹皇切问缴系钠降群凸?卻忽視了實(shí)際上可能存在的不平等和不公平。
其次,從體制方面來分析,中國的考試大多數(shù)都是由政府部門或隸屬于政府部門的機(jī)構(gòu)來組織的,因此,這些部門或機(jī)構(gòu)可以通過行政力量來“培育”或“分割”市場。在這種情況下,不同的考試能否生存或壯大不取決于考試本身的質(zhì)量高低,而是從很大程度上取決于行政命令。即便是對考試的質(zhì)量,也缺乏有效的監(jiān)督,往往只有通過考試研發(fā)人員的責(zé)任心來實(shí)現(xiàn)。到頭來,在我國社會主義市場經(jīng)濟(jì)的大趨勢下,是否也應(yīng)該把考試行業(yè)放在市場中,讓考試經(jīng)受實(shí)踐的檢驗(yàn),讓不同的考試在相互競爭中得到提高,觀念和體制成為影響我國考試行業(yè)發(fā)展的重要原因。而這兩方面本身也相互影響。政府部門組織的考試會因其“官方”身份而增加考試的“權(quán)威性”,于是民眾更加不會懷疑其科學(xué)性和有效性。與此相伴,民眾的篤信不疑必然從另一方面削減了對考試質(zhì)量的監(jiān)督,使得考試的組織機(jī)構(gòu)在不經(jīng)意間放松對考試質(zhì)量的追求。如此惡性循環(huán),必然影響標(biāo)準(zhǔn)化考試的發(fā)展。為此,我們必須首先大力宣傳有關(guān)標(biāo)準(zhǔn)化考試的觀念,提高廣大民眾對考試的認(rèn)知,進(jìn)而推動考試體制的逐步變革。這樣,才能不斷提高標(biāo)準(zhǔn)化考試的推行,真正實(shí)現(xiàn)利用考試達(dá)到人才評估的目的。
標(biāo)準(zhǔn)化考試作為一種人才評估手段,在中國正發(fā)揮著越來越大的作用,然而標(biāo)準(zhǔn)化考試也只不過是人才評估的手段之一。因此,我們既不能低估標(biāo)準(zhǔn)化考試的作用,也不能高估其作用。那種對考試“膜拜”的心理和將考試“一棒子打死”的態(tài)度,都不可取。標(biāo)準(zhǔn)化考試的推行和真正落實(shí),還有一個漫長的形成和發(fā)展過程。
[參考文獻(xiàn)]
[1]魯子問. 標(biāo)準(zhǔn)化考試的死去與活來[J]. 湖北招生考試(理論),2005,(6).
[2]漆書青. 既要努力改進(jìn)技術(shù) 更要正確合理使用[J]. 湖北招生考試(理論),2005,(6).
[3]謝小慶. 心理測量講義[M].武漢:華中師范大學(xué)出版社,1988.
[4]徐靜,王瑞烽. 標(biāo)準(zhǔn)化考試在理解上的一致與分歧[J]. 中國考試,2004,(1).
[5]張敏強(qiáng). 教育測量學(xué)[M]. 北京:人民教育出版社,1998.
[責(zé)任編輯:黎陽]