張厚粲
(北京師范大學(xué),北京 100875)
教育測(cè)量學(xué):高考科學(xué)化的技術(shù)保障
張厚粲
(北京師范大學(xué),北京 100875)
高考在教育領(lǐng)域發(fā)揮著“指揮棒”的作用。將心理統(tǒng)計(jì)測(cè)量技術(shù)用于高考研究,為提高高考試題質(zhì)量提供了科學(xué)依據(jù),使高考能夠?qū)忌鞒隹陀^、全面的評(píng)價(jià)。教育和心理測(cè)驗(yàn)的發(fā)展趨勢(shì)不僅是預(yù)測(cè)考生今后在大學(xué)的學(xué)習(xí)成績,還要關(guān)注考生的學(xué)習(xí)發(fā)展。
恢復(fù)高考;高考改革;測(cè)驗(yàn)技術(shù);高校招生
從1977年恢復(fù)高考以來,高考已經(jīng)走過了40年。40年來,高考一直是全社會(huì)關(guān)注的焦點(diǎn),在教育領(lǐng)域發(fā)揮著“指揮棒”的作用。回望40年來我們走過的路,或許可以對(duì)今天的高考改革有所啟發(fā)。
1979年,我首次給北京師范大學(xué)心理專業(yè)“文化大革命”后招收的第一個(gè)班——78級(jí)同學(xué)開設(shè)了《心理統(tǒng)計(jì)》課程。1980年,我又邀請(qǐng)出生于中國臺(tái)灣、畢業(yè)于美國明尼蘇達(dá)大學(xué)心理系的林安玲老師給78級(jí)同學(xué)開設(shè)了《心理測(cè)驗(yàn)》課程。同學(xué)們通過學(xué)習(xí)認(rèn)識(shí)到,借助于心理教育測(cè)量學(xué)理論和統(tǒng)計(jì)學(xué)技術(shù),可以對(duì)考試的多方面特質(zhì),包括難度、題目區(qū)分度、信度、效度、公平性等進(jìn)行檢驗(yàn),從而可以改進(jìn)和提高考試的質(zhì)量,加強(qiáng)考試的科學(xué)化程度??紤]到高考在當(dāng)時(shí)具有非常重要的意義,在我的鼓勵(lì)和指導(dǎo)下,心理專業(yè)78級(jí)的同學(xué)嘗試將心理統(tǒng)計(jì)測(cè)量技術(shù)用于高考研究,對(duì)高考試卷的質(zhì)量進(jìn)行了第一次統(tǒng)計(jì)檢驗(yàn)。
我們研究小組將最初的研究結(jié)果撰寫成《對(duì)高考試題的統(tǒng)計(jì)分析》一文,發(fā)表在《北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》1981年第5期。在這篇文章中,我們提出,高考選拔測(cè)驗(yàn)的工具是試卷,試題的好壞對(duì)高考質(zhì)量有重要的影響。好的試題具有良好的區(qū)分、鑒別能力,它可以把學(xué)習(xí)好的和學(xué)習(xí)較差的學(xué)生準(zhǔn)確地區(qū)分開來,以備擇優(yōu)錄取。如果試卷質(zhì)量不夠理想,就不能把最好的學(xué)生選拔出來。提高試卷質(zhì)量是做好高考工作的保證,僅僅憑借個(gè)人的經(jīng)驗(yàn)進(jìn)行高考命題,不足以保證高考試題和試卷的質(zhì)量;20世紀(jì)以來,對(duì)學(xué)習(xí)成績的評(píng)定已成為一門專門的學(xué)科——“心理和教育測(cè)量學(xué)”,只有基于心理和教育測(cè)量原理進(jìn)行試題和試卷的統(tǒng)計(jì)分析,才可以彌補(bǔ)個(gè)人經(jīng)驗(yàn)的不足,從而使高考對(duì)考生作出更客觀、更全面的評(píng)價(jià)[1]。
在對(duì)取樣問題進(jìn)行分析討論之后,我們對(duì)取自1979年和1980年高考試卷的兩個(gè)樣本進(jìn)行了統(tǒng)計(jì)分析,分析的內(nèi)容包括難度、區(qū)分度、信度。與此同時(shí),我們還通過北京師范大學(xué)教務(wù)處取得數(shù)學(xué)、物理、化學(xué)等系的學(xué)生高考入學(xué)成績和在校成績,計(jì)算高考的效度系數(shù)。
效度研究發(fā)現(xiàn),只有數(shù)學(xué)高考成績可以較好地預(yù)測(cè)大學(xué)學(xué)習(xí)成績,而政治、語文等科目鮮有預(yù)測(cè)能力。信度研究發(fā)現(xiàn),1979年物理試卷的α系數(shù)達(dá)到0.957,1979年數(shù)學(xué)試卷的α系數(shù)達(dá)到0.869,1980年化學(xué)試卷的α系數(shù)達(dá)到0.856,信度比較理想。但是,其他許多科目試卷的信度并不理想。通過區(qū)分度分析,各個(gè)科目的試卷中都發(fā)現(xiàn)了一些區(qū)分度較好的題目,也發(fā)現(xiàn)了一些區(qū)分度較差的題目。這些結(jié)果,可以為改進(jìn)高考命題工作提供實(shí)證依據(jù)。難度分析發(fā)現(xiàn),1979年和1980年高考試卷均存在一些過難或過易的試題。正是這些難度不當(dāng)?shù)脑囶},降低了考試的區(qū)分度。
在這篇文章中,我們結(jié)合研究成果比較系統(tǒng)地介紹了效度、信度、難度、區(qū)分度等心理測(cè)量學(xué)的基本概念,介紹了心理測(cè)量學(xué)的基本原理。
研究結(jié)論認(rèn)為,高考試題中盡管某個(gè)學(xué)科試卷和一部分試題具有較好的質(zhì)量,但仍然存在許多質(zhì)量不高的試題和試卷,試題的質(zhì)量很不穩(wěn)定。造成這種參差不齊現(xiàn)象的最主要原因是依舊沿用經(jīng)驗(yàn)式命題方法。一個(gè)人的經(jīng)驗(yàn)再豐富,也難免帶有一定的局限性。再好的售貨員不用尺或秤,而僅憑經(jīng)驗(yàn)賣布賣糖是會(huì)出錯(cuò)的。同樣,再有經(jīng)驗(yàn)的教師僅憑經(jīng)驗(yàn)來編制測(cè)驗(yàn)也并不可靠,很難保證試題質(zhì)量。因此,我們認(rèn)為,應(yīng)更多地采用客觀性選擇題。有人擔(dān)心選擇題雖然會(huì)提高測(cè)驗(yàn)的信度,但由于選擇題不能考查學(xué)生綜合運(yùn)用知識(shí)的能力,因此又會(huì)降低效度。我們認(rèn)為,一個(gè)試題能否考查綜合運(yùn)用能力,不在于其形式是選擇題還是論述題,而在于其內(nèi)容,良好的選擇題同樣可以考查這種能力,更何況一份試卷可以包含多種題型。為了不斷提高試題的質(zhì)量,應(yīng)該大力開展教育和心理測(cè)量學(xué)研究,應(yīng)盡快成立專門的常設(shè)研究機(jī)構(gòu),負(fù)責(zé)研究教育測(cè)量問題,同時(shí)也要培養(yǎng)我國的教育測(cè)量技術(shù)隊(duì)伍。
在實(shí)證研究的基礎(chǔ)之上,我們建議在高考中更多地采用客觀性選擇題。雖然論述題能夠較好地考查學(xué)生組織材料能力和創(chuàng)造能力,但評(píng)分過程難以克服主觀因素的影響,評(píng)分者信度不高,很難反映學(xué)生的真實(shí)水平。研究發(fā)現(xiàn),1983年高考同一份語文卷不同省份間評(píng)分差距高達(dá)33分,同一省內(nèi)評(píng)分差距高達(dá)23分,其中作文差異最大,滿分45分的作文,評(píng)分差距高達(dá)27分。
在這篇文章中,我們還對(duì)根據(jù)雙向細(xì)目表編制試卷、對(duì)試題進(jìn)行統(tǒng)計(jì)分析、題庫建設(shè)、常模建設(shè)等方面提出了具體的建議。
結(jié)合實(shí)證研究結(jié)果,我們提出在高考的總分計(jì)算中以標(biāo)準(zhǔn)分取代原始分的建議。我們以1984年高考成績?yōu)槔齺碚f明采用標(biāo)準(zhǔn)分計(jì)算總分的必要性。1984年高考的數(shù)學(xué)考試,題目出得活,對(duì)知識(shí)的覆蓋面寬,著重考査學(xué)生靈活思考、綜合運(yùn)用已有知識(shí)的能力。試卷分析結(jié)果表明,對(duì)于高分考生具有很好的題目區(qū)分度,適合當(dāng)時(shí)全國高考錄取率很低的實(shí)際情況。但是,試題過難,在全國19個(gè)省、市、自治區(qū)中,及格率最高的省份為23.1%,最低的省份只有0.73%,總平均及格率為10.8%,因此,在高考總分中,數(shù)學(xué)成績所占比重很小,對(duì)于大學(xué)錄取的影響微乎其微。相反,語文、政治等容易得分的科目在大學(xué)錄取中反而發(fā)揮了較大的作用。
在教育部有關(guān)司局的支持下,尤其是得到當(dāng)時(shí)負(fù)責(zé)招生處工作的楊學(xué)為同志的大力支持與協(xié)助,我們又進(jìn)行了一系列的后續(xù)研究,對(duì)高考試卷進(jìn)行了更加深入的統(tǒng)計(jì)分析。
在效度研究方面,我們從全國6個(gè)大區(qū)各種水平、各種類型的16所高等院校抽取了24個(gè)教學(xué)班為樣本,以大學(xué)一年級(jí)的各科學(xué)習(xí)成績總分作為效標(biāo),對(duì)1978年、1979年兩個(gè)年度的高考進(jìn)行了效度分析。樣本包含清華大學(xué)、同濟(jì)大學(xué)、四川大學(xué)、蘭州大學(xué)等。結(jié)果,在24個(gè)相關(guān)系數(shù)中只有5個(gè)達(dá)到了顯著性水平,不及總數(shù)的21%。其中出現(xiàn)了6個(gè)負(fù)相關(guān),占總數(shù)的25%。這一結(jié)果表明,高考總分并不能有效地預(yù)測(cè)學(xué)生考入大學(xué)后的學(xué)習(xí)成績。
我們分別從北京的市重點(diǎn)中學(xué)、區(qū)重點(diǎn)中學(xué)和普通中學(xué)中取樣,按文理科分別計(jì)算了高考成績與中學(xué)各科成績的相關(guān)。結(jié)果,除政治科外,其他各科的相關(guān)系數(shù)都達(dá)到顯著水平,即高考成績與中學(xué)成績之間表現(xiàn)出了很大的一致性。另外,我們請(qǐng)班主任和主要任課教師在高考前填寫《中學(xué)生學(xué)習(xí)能力評(píng)定量表》,對(duì)每位學(xué)生從4個(gè)方面進(jìn)行等級(jí)評(píng)定,內(nèi)容包括思維能力、記憶力、一般學(xué)習(xí)品質(zhì)和社會(huì)活動(dòng)能力,評(píng)定內(nèi)容包含“高考錄取可能性”一項(xiàng)。高考成績公布后,我們發(fā)現(xiàn)中學(xué)教師評(píng)定的預(yù)測(cè)效度極好,高考總分與評(píng)定總分的相關(guān)為0.76,高考總分與錄取可能性評(píng)定的相關(guān)為0.99。這一結(jié)果表明,中學(xué)教師對(duì)學(xué)生的了解是比較準(zhǔn)確的。我們建議,不斷完善評(píng)定量表,使中學(xué)教師在幫助高校選拔人才中發(fā)揮應(yīng)有的作用,從而克服一次高考定終身的簡單化的弊病。
在預(yù)測(cè)大學(xué)學(xué)習(xí)表現(xiàn)方面,高考的哪些科目預(yù)測(cè)效度較好?哪些科目預(yù)測(cè)效度較差?對(duì)此,我們進(jìn)行了實(shí)證效度研究。我們用多元回歸的方法,以清華大學(xué)、北京工業(yè)大學(xué)、北京中醫(yī)學(xué)院等7所大學(xué)某些專業(yè)的83級(jí)學(xué)生為樣本,以他們?cè)诖髮W(xué)一年級(jí)的各科學(xué)習(xí)總成績作為效標(biāo)(Y),以高考的各科分?jǐn)?shù)建立對(duì)Y的多元回歸方程,并比較各個(gè)偏回歸系數(shù)。我們?yōu)椴煌瑢I(yè)建立了可以對(duì)不同高考科目分?jǐn)?shù)加權(quán)的回歸方程。從這個(gè)回歸方程中可以看出,不同高考科目對(duì)不同專業(yè)的大學(xué)學(xué)習(xí)成績的預(yù)測(cè)效度不同。我們發(fā)現(xiàn),對(duì)于每個(gè)專業(yè),都有3~4科高考成績具有較好的預(yù)測(cè)效度。例如,對(duì)于計(jì)算機(jī)專業(yè)的學(xué)生,外語、數(shù)學(xué)和物理3科的預(yù)測(cè)效度明顯高于語文、政治、化學(xué)、生物4科。對(duì)于醫(yī)學(xué)專業(yè)的學(xué)生,數(shù)學(xué)、物理、化學(xué)、生物4科的預(yù)測(cè)效度明顯高于政治、語文、外語3科。在7科中,以高考化學(xué)成績的預(yù)測(cè)效度最高,明顯高于其他6科。我們還發(fā)現(xiàn),政治和語文兩科對(duì)各個(gè)專業(yè)的預(yù)測(cè)效度都很差,與大學(xué)學(xué)習(xí)成績的相關(guān)系數(shù)極低,政治成績甚至出現(xiàn)與大學(xué)學(xué)習(xí)成績的負(fù)相關(guān)。據(jù)此,我們建議高考根據(jù)測(cè)試的不同要求分兩次進(jìn)行。一次是以檢査中學(xué)知識(shí)和一般學(xué)習(xí)能力為目的的中學(xué)畢業(yè)統(tǒng)考,考試科目可以較全;另一次是選拔性考試,目的是為培養(yǎng)某一專業(yè)方向的高級(jí)人才選拔優(yōu)秀中學(xué)畢業(yè)生,內(nèi)容只包括與專業(yè)學(xué)習(xí)關(guān)系密切的3~4個(gè)科目。我們建議將語文和政治兩科的考查問題放到中學(xué)畢業(yè)時(shí)的資格考試。
考試不僅僅具有選拔功能,更重要的是可以為學(xué)生、教師和家長提供改進(jìn)學(xué)習(xí)的反饋信息,可以借助“大數(shù)據(jù)”來改進(jìn)學(xué)習(xí)。早在20世紀(jì)80年代初,我就指出,教育和心理測(cè)驗(yàn)的發(fā)展趨勢(shì)是從關(guān)注預(yù)測(cè)轉(zhuǎn)向關(guān)注學(xué)生發(fā)展。
在1983年第4期的《教育研究》中,我發(fā)表了《智力概念的演變和智力測(cè)驗(yàn)發(fā)展的新趨勢(shì)》[2]一文。我在文中指出:“心理測(cè)驗(yàn)當(dāng)前正在從強(qiáng)調(diào)診斷和預(yù)測(cè)轉(zhuǎn)向強(qiáng)調(diào)發(fā)展和提高人們的智力水平。這是心理測(cè)驗(yàn)發(fā)展的一個(gè)更為重要的方面?!蔽乙昧松4耍≧.L.Thorndike)1975年在《比奈測(cè)驗(yàn)七十年以后》一文中的一段文字:“從使教育對(duì)所有兒童和青年最大限度地發(fā)揮作用這一目的出發(fā),我們必須認(rèn)真面對(duì)這樣一個(gè)由來已久而又一直未受到重視的問題——因材施教,即為發(fā)展每個(gè)人的能力提供最為有效的措施。一個(gè)對(duì)學(xué)習(xí)能力的良好測(cè)量還并不等于最佳的教育措施?!绷硗膺€引用了比奈1908年在談及自己的研究目的時(shí)一段文字:“對(duì)兒童正常發(fā)展的深刻了解,不只是非常有趣,而且將有助于進(jìn)行真正適合兒童能力的教學(xué)?!蔽以谖恼轮兄赋?,心理測(cè)驗(yàn)的目的應(yīng)確定為“提高教學(xué)質(zhì)量、促進(jìn)智力發(fā)展”。這種轉(zhuǎn)變反映出,隨著社會(huì)和科學(xué)的發(fā)展,心理測(cè)驗(yàn)作為一門科學(xué)也發(fā)展到了更高級(jí)的階段。
精心編制的測(cè)驗(yàn)可以幫助學(xué)生發(fā)現(xiàn)學(xué)習(xí)中的系統(tǒng)性錯(cuò)誤。在這篇文章中,我結(jié)合幾個(gè)小學(xué)生學(xué)習(xí)四則運(yùn)算過程的具體案例,說明精心編制的測(cè)驗(yàn)可以把復(fù)雜的技能分解為構(gòu)成它的一些基本思維、操作過程和基本能力要素,可以根據(jù)特定的錯(cuò)誤類型確認(rèn)出學(xué)生的系統(tǒng)性錯(cuò)誤,即不僅指出錯(cuò)誤的數(shù)量,也指出錯(cuò)誤的性質(zhì)和根源。這種診斷性方法在教學(xué)上的重要意義是顯而易見的。這是心理測(cè)驗(yàn)的一個(gè)重要的發(fā)展方向。
回望40年前我們關(guān)于高考改革和考試科學(xué)化所做的研究和所提出的建議,我發(fā)現(xiàn),一些建議已經(jīng)實(shí)現(xiàn):(1)對(duì)試題進(jìn)行統(tǒng)計(jì)分析,對(duì)試題和試卷質(zhì)量進(jìn)行定量化評(píng)價(jià);(2)按照“考試藍(lán)圖”設(shè)計(jì)試卷,命制試題;(3)將標(biāo)準(zhǔn)參照的高中學(xué)業(yè)水平考試與選拔性的競(jìng)爭考試分開;(4)減少高考科目,根據(jù)大學(xué)不同專業(yè)的需要,按照大學(xué)的要求,由考生自己選考若干科目;(5)更多地采用客觀性試題;(6)由高中教師對(duì)學(xué)生進(jìn)行綜合評(píng)價(jià)。
受制于種種制約條件,一些建議尚未實(shí)現(xiàn):(1)讓高中教師在高校招生中發(fā)揮作用,獲得更大的發(fā)言權(quán);(2)為了保證考試質(zhì)量進(jìn)行考前預(yù)測(cè);(3)建立跨年度常模,使高考發(fā)揮教育發(fā)展監(jiān)測(cè)的作用。
我們關(guān)于高考總分采用標(biāo)準(zhǔn)分的建議,在20世紀(jì)90年代曾經(jīng)被全國許多省份采用。進(jìn)入21世紀(jì)之后,又出現(xiàn)了回潮和反復(fù),凸顯了改革道路的艱難和曲折。
2013年11月12日,十八屆三中全會(huì)通過的《中共中央關(guān)于全面深化改革若干重大問題的決定》(以下簡稱《決定》)第42條明確闡明:“推進(jìn)考試招生制度改革,探索招生和考試相對(duì)分離、學(xué)生考試多次選擇、學(xué)校依法自主招生、專業(yè)機(jī)構(gòu)組織實(shí)施、政府宏觀管理、社會(huì)參與監(jiān)督的運(yùn)行機(jī)制,從根本上解決一考定終身的弊端?!盵3]《決定》明確發(fā)出了高考制度改革的信號(hào),為教育改革指明了方向,今天需要下決心加以落實(shí)。
2014年9月4日頒布的《國務(wù)院關(guān)于深化考試招生制度改革的實(shí)施意見》中明確指出:改革招生錄取機(jī)制,探索基于統(tǒng)一高考和高中學(xué)業(yè)水平考試成績、參考綜合素質(zhì)評(píng)價(jià)的多元錄取機(jī)制[4]。這是當(dāng)前和今后一個(gè)時(shí)期指導(dǎo)考試招生制度改革的綱領(lǐng)性文件,標(biāo)志著新一輪考試招生制度改革全面啟動(dòng)。
我固然為自己40年前基于實(shí)證研究結(jié)果提出的改革建議得到認(rèn)同、在提高國家文化教育水平、促進(jìn)社會(huì)發(fā)展和民族復(fù)興方面起到積極作用而感到欣慰,但我也知道,從“寫入文件”到真正實(shí)施之間,仍有雄關(guān)漫道需要跨越。因此,為了將《決定》和《實(shí)施意見》變?yōu)楝F(xiàn)實(shí),我們還需要繼續(xù)奮斗。盡管我今年已經(jīng)90歲了,但我仍然愿意和大家一道繼續(xù)推進(jìn)大學(xué)招生制度的改革。
[1]心理系測(cè)驗(yàn)研究小組.對(duì)高考試題的統(tǒng)計(jì)分析[J].北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),1981(5).
[2]張厚粲.智力概念的演變和智力測(cè)驗(yàn)發(fā)展的新趨勢(shì)[J].教育研究,1983(4).
[3]中共中央:十八屆三中全會(huì)關(guān)于全面深化改革若干重大問題的決定[EB/OL].(2013-11-12)[2013-11-15].http://news.xinhuanet.com/politics/2013-11/15/c_118164235.htm.
[4]國務(wù)院.關(guān)于深化考試招生制度改革的實(shí)施意見[EB/OL].(2014-09-03)[2014-09-08].http://www.moe.edu.cn/publicfiles/business/htmlfiles/moe/moe_1778/201409/174543.html.
Educational Measurement as Significant Technical Support:Looking Back on College Entrance Examination over the 40 Years
ZHANG Houcan
(Beijing Normal University,Beijing 100875,China)
College Entrance Examination plays the role of“baton”in the field of education.The application of psychological statistical measurement techniques to the study of College Entrance Examination provides a scientific basis for improving the quality of College Entrance Examination so that College Entrance Examination can make an objective and comprehensive evaluation of the examinees.The development trend of education and psychological testing is not only to predict examinees’future academic achievement in college,but also to help them during their learning and development processes.
Resumption of the College Entrance Examination;College Entrance Examination Reform;Measurement Techniques;College Admission
G405
A
1005-8427(2017)08-0004-4
10.19360/j.cnki.11-3303/g4.2017.08.002
張厚粲(1927—),女,北京師范大學(xué)心理學(xué)院,心理學(xué)家,教授。
(責(zé)任編輯:周黎明)