朱哲民 孔祥一
2020 年《深化新時(shí)代教育評(píng)價(jià)改革總體方案》提出,堅(jiān)持科學(xué)有效,改進(jìn)結(jié)果評(píng)價(jià),強(qiáng)化過(guò)程評(píng)價(jià),探索增值評(píng)價(jià),健全綜合評(píng)價(jià),充分利用信息技術(shù),提高教育評(píng)價(jià)的科學(xué)性、專(zhuān)業(yè)性、客觀性。[1]新時(shí)代的學(xué)業(yè)質(zhì)量監(jiān)測(cè)要以學(xué)生能力發(fā)展為觀測(cè)對(duì)象,根據(jù)學(xué)生的學(xué)業(yè)水平變化全面細(xì)致地診斷學(xué)情,查找教學(xué)的薄弱環(huán)節(jié),明確學(xué)生的學(xué)情弱點(diǎn),通過(guò)增值評(píng)價(jià)促進(jìn)教師的教與學(xué)生的學(xué)。
增值一詞源自經(jīng)濟(jì)領(lǐng)域,指產(chǎn)出與投入相比之后增加的部分。在教育學(xué)中,增值評(píng)價(jià)又稱(chēng)成長(zhǎng)評(píng)價(jià),是對(duì)學(xué)生、教師或?qū)W校一段時(shí)間的進(jìn)步進(jìn)行測(cè)評(píng),目前的增值評(píng)價(jià)研究集中于學(xué)業(yè)增值評(píng)價(jià)。傳統(tǒng)學(xué)業(yè)質(zhì)量評(píng)價(jià)多通過(guò)測(cè)驗(yàn)分?jǐn)?shù)衡量學(xué)生在學(xué)科整體以及各個(gè)維度的表現(xiàn),是對(duì)學(xué)生一個(gè)階段學(xué)習(xí)情況的檢測(cè)與總結(jié),本質(zhì)上是一種結(jié)果評(píng)價(jià)。與結(jié)果評(píng)價(jià)不同,增值評(píng)價(jià)著眼于學(xué)生學(xué)業(yè)水平的進(jìn)步,而非學(xué)業(yè)成績(jī)排名。學(xué)業(yè)增值評(píng)價(jià)可以分為兩種情況:第一種是以學(xué)段為對(duì)象進(jìn)行縱向增值評(píng)價(jià),即對(duì)不同年份同一年級(jí)的學(xué)業(yè)質(zhì)量進(jìn)行追蹤,如對(duì)每一屆的小學(xué)畢業(yè)生進(jìn)行增值評(píng)價(jià),尋找各屆學(xué)生學(xué)業(yè)水平差異及整體變化趨勢(shì);第二種是以學(xué)生為對(duì)象進(jìn)行學(xué)業(yè)水平追蹤,通過(guò)對(duì)同一批學(xué)生的持續(xù)追蹤獲取學(xué)生個(gè)體學(xué)業(yè)水平的增值信息,為教師客觀細(xì)致地了解學(xué)生學(xué)業(yè)水平變化提供依據(jù)。
增值評(píng)價(jià)不能簡(jiǎn)單地理解為學(xué)生兩次學(xué)業(yè)分?jǐn)?shù)的差值,也不能單純地使用分?jǐn)?shù)變化評(píng)價(jià)學(xué)生的學(xué)業(yè)水平。使用增值評(píng)價(jià)必須對(duì)兩次測(cè)試進(jìn)行等值處理,把兩次測(cè)試成績(jī)轉(zhuǎn)化到一個(gè)量尺上?;诜?jǐn)?shù)的等值可以使用平均分等值法,即第二次考試的轉(zhuǎn)化分?jǐn)?shù)=第二次考試的原始分?jǐn)?shù)+(第一次考試的平均分?jǐn)?shù)-第二次考試的平均分?jǐn)?shù))?;诜?jǐn)?shù)的等值技術(shù)其實(shí)并不理想,一方面,為了評(píng)分方便,同一題型(如選擇題)無(wú)論難易如何賦分皆相同,不能準(zhǔn)確描述學(xué)生能力水平;另一方面,學(xué)生的總分由不同題型獲得的分?jǐn)?shù)相加而成,相當(dāng)于默認(rèn)不同題型中的“1 分”等值。這種刨除題目特征的計(jì)分方式雖然簡(jiǎn)易但并不合理。分?jǐn)?shù)本質(zhì)是一種有序變量,它只能對(duì)學(xué)生排序,不能全面反映學(xué)生的能力水平。此外,傳統(tǒng)考試的難度和區(qū)分度依賴(lài)于學(xué)生水平,這導(dǎo)致不同年份間學(xué)生水平的縱向?qū)Ρ群茈y進(jìn)行等值化處理,不利于教育行政部門(mén)監(jiān)測(cè)學(xué)生學(xué)業(yè)水平的變化。綜上,本研究認(rèn)為學(xué)業(yè)增值評(píng)價(jià)應(yīng)傾向于使用項(xiàng)目反應(yīng)理論(item response theory,IRT)。
IRT 是研究被試潛在特質(zhì)(能力)和項(xiàng)目參數(shù)之間反應(yīng)關(guān)系的測(cè)量理論,也是現(xiàn)今最先進(jìn)、最年輕的教育測(cè)量理論。IRT 的優(yōu)勢(shì)在于首先它利用統(tǒng)計(jì)方法分析學(xué)生在考試中的反應(yīng),獲知學(xué)生的能力水平而非分?jǐn)?shù),滿足克服唯分?jǐn)?shù)的要求;其次,IRT 獲得的題目難度和題目區(qū)分度具有線性不變性(linear invariance),滿足等值轉(zhuǎn)換中唯一性、公平性、對(duì)稱(chēng)性的要求,可以科學(xué)方便地完成不同考試間的等值轉(zhuǎn)換,便于對(duì)學(xué)生進(jìn)行縱向研究。而經(jīng)典等值理論所認(rèn)定的等值轉(zhuǎn)換關(guān)系,是假設(shè)能夠存在而不是必然能夠具有的。[2]因此,IRT 已逐漸成為目前學(xué)業(yè)質(zhì)量監(jiān)測(cè)的主要工具,也是進(jìn)行分?jǐn)?shù)等值轉(zhuǎn)換的理想工具。
等值轉(zhuǎn)換技術(shù)分為兩類(lèi),一類(lèi)是“錨人”,即讓一組人接受不同的測(cè)驗(yàn)版本,另一類(lèi)是“錨題”,即不同測(cè)驗(yàn)中含有共同的題目。對(duì)某一學(xué)段進(jìn)行縱向增值評(píng)價(jià)可以采用“錨題”的方式進(jìn)行鏈接??梢赃x用的IRT 等值方法包括Mean/Mean(MM)、Mean/Sigma(MS)和Stocking-Lord(SL)等多種方法,使用R程序包equateIRT①通過(guò)convert命令可以利用轉(zhuǎn)換系數(shù)把第一次測(cè)試的題目參數(shù)和學(xué)生能力轉(zhuǎn)換到第二次考試所對(duì)應(yīng)的量尺上。也可以使用chainec命令獲取轉(zhuǎn)換系數(shù),然后手動(dòng)計(jì)算題目參數(shù),最后計(jì)算學(xué)生第二次的能力水平。
在對(duì)同一批學(xué)生的學(xué)習(xí)質(zhì)量進(jìn)行追蹤時(shí),基于IRT 的能力值可以不經(jīng)過(guò)分?jǐn)?shù)轉(zhuǎn)換直接使用。這是因?yàn)镮RT 假設(shè)學(xué)生能力屬于標(biāo)準(zhǔn)正態(tài)分布,實(shí)際操作中當(dāng)樣本量較大時(shí),可以認(rèn)為學(xué)生的總體分布不存在較大差異。換言之,對(duì)于同一批學(xué)生,可以假設(shè)其總體能力分布不會(huì)隨著時(shí)間變化而變化。但個(gè)體能力在同一總體中的位置會(huì)產(chǎn)生變化,這一變化可以通過(guò)能力差進(jìn)行衡量。
在參考國(guó)內(nèi)外關(guān)于學(xué)業(yè)質(zhì)量監(jiān)測(cè)的基礎(chǔ)上,筆者構(gòu)建了基于IRT 的數(shù)學(xué)學(xué)業(yè)監(jiān)測(cè)的流程化操作思路。(如圖1 所示)
圖1 基于IRT的數(shù)學(xué)學(xué)業(yè)監(jiān)測(cè)的流程化操作思路
基于兩次或多次學(xué)業(yè)考試中學(xué)生的能力差可以標(biāo)定學(xué)生能力的變化,依據(jù)不同群體中學(xué)生在不同維度題目中體現(xiàn)的能力變化撰寫(xiě)增值評(píng)價(jià)報(bào)告。增值評(píng)價(jià)報(bào)告可以分為兩類(lèi),一類(lèi)是給教育行政部門(mén)的學(xué)生整體評(píng)價(jià)報(bào)告,一類(lèi)是給教師和學(xué)生的個(gè)體評(píng)價(jià)報(bào)告。在新時(shí)代教育評(píng)價(jià)中,兩類(lèi)報(bào)告都屬于診斷報(bào)告而非總結(jié)報(bào)告。面向教育行政部門(mén)的增值評(píng)價(jià)報(bào)告可以包括學(xué)生整體能力的變化,如學(xué)生能力均值、中位數(shù)、方差、百分位數(shù)等數(shù)據(jù)變化,學(xué)生在各子維度上的能力變化情況,學(xué)生能力存在差異的群體類(lèi)別,存在中等以上差異的特定群體的能力變化情況等,以及根據(jù)這些信息提供的有針對(duì)性的意見(jiàn)。面向教師和學(xué)生的個(gè)體增值評(píng)價(jià)報(bào)告關(guān)注每位學(xué)生個(gè)體的能力變化,針對(duì)學(xué)生所屬的群體和個(gè)體在不同維度上的能力表現(xiàn)提供可視化數(shù)據(jù)圖表,建議使用表格和雷達(dá)圖相結(jié)合的形式制作個(gè)體增值評(píng)價(jià)報(bào)告。
2021 年,《義務(wù)教育質(zhì)量評(píng)價(jià)指南》正式發(fā)布,其中,縣域義務(wù)教育質(zhì)量評(píng)價(jià)指標(biāo)體系針對(duì)“唯分?jǐn)?shù)、唯升學(xué)”的傾向,提出了“不單純以升學(xué)率評(píng)價(jià)學(xué)校、校長(zhǎng)和教師”的考查要點(diǎn)等,這為增值評(píng)價(jià)提供了土壤。但我國(guó)縣域教育工作者普遍缺乏教育測(cè)量技術(shù)的專(zhuān)業(yè)訓(xùn)練。為指導(dǎo)縣域教師學(xué)習(xí)增值評(píng)價(jià)技術(shù),科學(xué)測(cè)評(píng)縣域?qū)W生數(shù)學(xué)學(xué)業(yè)現(xiàn)狀,本研究項(xiàng)目組帶領(lǐng)一線教師對(duì)吉林省某縣的2020 屆六年級(jí)畢業(yè)生學(xué)業(yè)現(xiàn)狀進(jìn)行調(diào)查。
傳統(tǒng)教育測(cè)量多通過(guò)總分判斷學(xué)生的學(xué)業(yè)水平,但現(xiàn)代研究?jī)A向于建立多維度指標(biāo)細(xì)化學(xué)生能力水平?;A(chǔ)知識(shí)、基本技能、基本思想和基本活動(dòng)經(jīng)驗(yàn)構(gòu)成的“四基”是發(fā)展學(xué)生核心素養(yǎng)的有效載體[3],本研究依據(jù)“四基”構(gòu)建試題評(píng)價(jià)的知識(shí)、技能、思想維度,參考《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2022 年版)》[4](以下簡(jiǎn)稱(chēng)《課程標(biāo)準(zhǔn)》)用認(rèn)知維度替代不易測(cè)量的基本活動(dòng)經(jīng)驗(yàn),形成數(shù)學(xué)試題評(píng)價(jià)的知識(shí)、認(rèn)知、思想、技能四大維度,其具體指標(biāo)劃分如下?!墩n程標(biāo)準(zhǔn)》中的數(shù)學(xué)課程內(nèi)容包括“數(shù)與代數(shù)”“圖形與幾何”“統(tǒng)計(jì)與概率”“綜合與實(shí)踐”4 個(gè)學(xué)習(xí)領(lǐng)域[4],本研究據(jù)此設(shè)計(jì)知識(shí)維度的評(píng)價(jià)指標(biāo)。參照《課程標(biāo)準(zhǔn)》[4]對(duì)探索的解釋以及已有研究[5]對(duì)應(yīng)用和推理的定義,本研究構(gòu)建了認(rèn)知維度以及了解、理解、應(yīng)用、探究4 個(gè)子維度。史寧中教授提出,數(shù)學(xué)基本思想包括抽象、推理、模型[6],為后續(xù)表達(dá)建模能力時(shí)更加清晰,本研究將“模型”調(diào)整為“建?!?,形成思想維度及其抽象、推理、建模3 個(gè)子維度。運(yùn)算能力、空間想象能力、邏輯思維能力是數(shù)學(xué)的三大基礎(chǔ)能力[7],已有研究表明計(jì)算、定理定義的理解和掌握、用數(shù)學(xué)語(yǔ)言進(jìn)行描述和表達(dá)、動(dòng)手操作等都是數(shù)學(xué)能力的重要表現(xiàn)[8],本文基于以上研究構(gòu)建技能維度,并將其分為計(jì)算、語(yǔ)言理解、操作、數(shù)學(xué)表達(dá)、空間想象、基本定理定義6 個(gè)子維度。最終維度劃分見(jiàn)表1。
表1 數(shù)學(xué)試題維度及其指標(biāo)劃分
項(xiàng)目組隨機(jī)選取吉林省某縣某校100 名被試,依據(jù)項(xiàng)目反應(yīng)理論,對(duì)初測(cè)試題進(jìn)行篩選,僅保留區(qū)分度為正值且難度參數(shù)范圍在[-3,3]的題目,最終保留35 道題目。需要注意的是,每一道測(cè)試題都從知識(shí)維度、認(rèn)知維度、思想維度、技能維度4 個(gè)維度進(jìn)行標(biāo)定,每一個(gè)維度下可以包含多個(gè)子維度。各維度具體試題考查比例見(jiàn)表2。
表2 小學(xué)6 年級(jí)數(shù)學(xué)試題目各維度的考查比例
正式測(cè)試共兩次,均發(fā)放學(xué)業(yè)測(cè)試卷246份,回收246 份,有效試卷246 份。第一次測(cè)試卷Alpha 信度為0.892,第二次測(cè)試卷Alpha 信度為0.920,說(shuō)明兩套測(cè)試卷質(zhì)量較好。
IRT 是依托統(tǒng)計(jì)技術(shù)的現(xiàn)代測(cè)量方法,一般專(zhuān)業(yè)教育統(tǒng)計(jì)人員會(huì)選擇自編程序進(jìn)行測(cè)量以方便隨時(shí)調(diào)整程序。教育測(cè)量人員多借助專(zhuān)業(yè)軟件測(cè)量,常用的IRT測(cè)量軟件有BICAL,RASCAL,MICRO-SCALE,ANCILLES,ASCAL,LOGIST,RIDA,BILOG-MG,STATA 等,也可使用R 程序包進(jìn)行計(jì)算。
本研究使用STATA 軟件②進(jìn)行測(cè)試。STATA是進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)管理以及繪制專(zhuān)業(yè)圖表的整合性統(tǒng)計(jì)軟件,IRT 只是其功能的一部分。STATA 中的IRT 模塊使用簡(jiǎn)單方便,可以直接從Excel 錄入數(shù)據(jù),一鍵輸出結(jié)果。STATA 軟件能夠使用1PL模型(即Rasch 模型)、2PL模型、3PL模型或混合模型等常見(jiàn)IRT 模型進(jìn)行估算,能夠繪制項(xiàng)目曲線和信息函數(shù)曲線。
最簡(jiǎn)單的IRT 模型為1PL(單參數(shù)邏輯斯蒂克)模型,模型的數(shù)學(xué)表達(dá)式為:
其中θ是學(xué)生的能力,參數(shù)a和bi分別為區(qū)分度參數(shù)和第i個(gè)項(xiàng)目上的難度參數(shù)。傳統(tǒng)1PL模型中的區(qū)分度參數(shù)取值固定為1。但在STATA軟件中,1PL 模型的區(qū)分度參數(shù)是1 附近的一個(gè)需要估計(jì)的值。依據(jù)學(xué)生的能力和每道試題的參數(shù),可以計(jì)算學(xué)生在每道試題的正確反應(yīng)概率。反過(guò)來(lái),依據(jù)學(xué)生在每道試題的作答反應(yīng)(正確或錯(cuò)誤),可以利用統(tǒng)計(jì)軟件估計(jì)學(xué)生在對(duì)應(yīng)題目上體現(xiàn)出的能力和每道試題的具體參數(shù)。
獲取學(xué)生數(shù)學(xué)能力在各個(gè)維度上的增值,可以得到學(xué)生學(xué)業(yè)進(jìn)步的細(xì)致信息,因此,本研究對(duì)學(xué)生在每個(gè)維度上的題目結(jié)果進(jìn)行單獨(dú)分析。首先,提取考查同一子維度的題目,這些題目共同考查一個(gè)子維度,可以認(rèn)為學(xué)生在這些題目上反映出的能力是共同子維度能力。其次,將同一維度題目的反應(yīng)(1 代表正確,0 代表錯(cuò)誤)輸入Excel,錄入STATA 軟件。使用STATA 的IRT選項(xiàng),利用1PL 模型對(duì)測(cè)試數(shù)據(jù)整體及各個(gè)子維度進(jìn)行分析,獲得學(xué)生在各個(gè)子維度上的能力水平,以及這個(gè)維度上題目的基本信息。基于1PL模型輸出的題目參數(shù)如表3。
表3 STATA軟件1PL模型下部分題目的參數(shù)輸出結(jié)果
表3 為STATA 軟件1PL 模型的輸出結(jié)果。第一列中A,B,C 代表試題,第二、三列輸出結(jié)果為題目參數(shù),其中Discrim為區(qū)分度參數(shù),本研究中的區(qū)分度參數(shù)為1.225001。Diff為難度參數(shù),其取值一般為-3 至+3,每個(gè)題目的難度參數(shù)都不相同,如果難度參數(shù)值為0,代表能力值為0的學(xué)生在這道題上的正確反應(yīng)概率為50%。題目A 的難度為-1.064208,說(shuō)明能力值為-1.064208的學(xué)生有50%的概率做對(duì)這道題,這意味著能力值為0 的學(xué)生答對(duì)該題的概率高于50%,題目A比較容易;題目B 的難度為0.0843218,說(shuō)明該題難度略微超過(guò)平均難度。依據(jù)以上題目參數(shù)可以清楚看出每道題適合哪個(gè)水平的學(xué)生。使用特定維度對(duì)應(yīng)的題目,還可以獲得學(xué)生對(duì)應(yīng)維度下的能力。STATA軟件中能力輸出結(jié)果形式見(jiàn)表4。
表4 STATA 軟件中部分學(xué)生能力水平輸出結(jié)果
IRT 中的學(xué)生能力基于標(biāo)準(zhǔn)正態(tài)分布,取值大多在-3 至+3 之間??忌? 的能力值為-0.0681094,低于平均水平(平均能力水平值為0);考生5 的能力值為1.8657600,高于平均水平,說(shuō)明該學(xué)生數(shù)學(xué)學(xué)業(yè)能力水平較高。特別值得關(guān)注的是,IRT 是一種基于樣本估計(jì)總體的統(tǒng)計(jì)技術(shù),這里學(xué)生體現(xiàn)的能力水平并不是學(xué)生在測(cè)試樣本中的能力水平,而是經(jīng)過(guò)統(tǒng)計(jì)后,學(xué)生在整個(gè)群體中的能力水平表現(xiàn)情況。因此,和傳統(tǒng)的分?jǐn)?shù)相比,基于IRT 的增值評(píng)價(jià)具有更好的解釋力。
獲取并匯報(bào)學(xué)生的數(shù)學(xué)學(xué)業(yè)能力水平而非分?jǐn)?shù),是破除“唯分?jǐn)?shù)”的有力途徑。通過(guò)參數(shù)估計(jì),可以獲得每名學(xué)生在每道試題中不同維度的能力表現(xiàn),這些能力構(gòu)成了學(xué)生的個(gè)性化診斷依據(jù)?;诿棵麑W(xué)生的個(gè)性化診斷數(shù)據(jù)和學(xué)業(yè)信息,學(xué)生本人和教師可以直觀地認(rèn)識(shí)學(xué)生在不同維度上的能力水平,從而有針對(duì)性地開(kāi)展補(bǔ)救學(xué)習(xí)以及指導(dǎo)訓(xùn)練。表5 為兩名學(xué)生在知識(shí)維度上的能力水平表現(xiàn)。
從表5 可以看出,1 號(hào)學(xué)生和240 號(hào)學(xué)生的數(shù)學(xué)總能力在0 附近,絕對(duì)值均小于0.5,說(shuō)明兩名學(xué)生處于中等學(xué)業(yè)水平,但具體表現(xiàn)各有差異。1 號(hào)學(xué)生在統(tǒng)計(jì)與概率維度上的能力值為-0.7724003,240 號(hào)學(xué)生在圖形和幾何維度上的能力值為-0.6787782,說(shuō)明這兩名學(xué)生的數(shù)學(xué)學(xué)業(yè)表現(xiàn)均存在薄弱環(huán)節(jié),1 號(hào)學(xué)生需要著重學(xué)習(xí)統(tǒng)計(jì)與概率知識(shí),而240 號(hào)學(xué)生需要加大圖形與幾何的學(xué)習(xí)投入。和以往單獨(dú)使用成績(jī)進(jìn)行評(píng)價(jià)不同的是,本研究基于IRT 技術(shù)獲得學(xué)生學(xué)業(yè)更加細(xì)致的信息。一方面,基于知識(shí)維度可以了解學(xué)生學(xué)業(yè)表現(xiàn)的薄弱點(diǎn),為學(xué)生學(xué)業(yè)提升提供方向;另一方面,使用傳統(tǒng)的計(jì)分法,即使學(xué)生做對(duì)的題目不同,其分?jǐn)?shù)也可能相同,不過(guò)學(xué)生做對(duì)不同試題時(shí)的能力水平一定是不同的,IRT技術(shù)能為學(xué)生學(xué)業(yè)評(píng)價(jià)提供更加精確的數(shù)據(jù)支持。
表5 2 名學(xué)生在知識(shí)維度上的能力水平表現(xiàn)
表6 為2 名學(xué)生在技能維度上的能力水平表現(xiàn)。其中,22 號(hào)學(xué)生的推理、操作和空間想象能力值為負(fù),低于平均水平,說(shuō)明該學(xué)生的推理、操作能力和空間想象能力有待提升。122 號(hào)學(xué)生在推理、計(jì)算、操作、數(shù)學(xué)表達(dá)、空間想象等維度的表現(xiàn)較好,但抽象、建模、語(yǔ)言理解能力值為負(fù),低于平均水平,說(shuō)明該生無(wú)法抓住試題要點(diǎn),在完整閱讀理解試題上存在困難,因“讀題”這種少見(jiàn)的非數(shù)學(xué)知識(shí)性能力不足而導(dǎo)致學(xué)業(yè)水平較低。這說(shuō)明除了需要提升抽象、建模等傳統(tǒng)的數(shù)學(xué)能力,122 號(hào)學(xué)生還要加強(qiáng)語(yǔ)言理解、閱讀能力的訓(xùn)練。
表6 2 名學(xué)生在技能維度上的能力水平表現(xiàn)
基于IRT 的增值評(píng)價(jià)還能全維度展示個(gè)體學(xué)生學(xué)業(yè)水平。表7 中,學(xué)生探究維度的能力值為0.5382433,高于平均水平,說(shuō)明他在面對(duì)傳統(tǒng)的“難題”時(shí)表現(xiàn)不俗,但在了解、理解、應(yīng)用3個(gè)維度上的能力值為負(fù)值,說(shuō)明他在解答中等以下難度的試題時(shí)準(zhǔn)確率不高。可以看出這是一位數(shù)學(xué)學(xué)習(xí)“小聰明型”的學(xué)生,即這類(lèi)學(xué)生在基礎(chǔ)題目上得分率不高,但在高水平題目上偶有建樹(shù)。進(jìn)一步分析發(fā)現(xiàn),這位學(xué)生在基本定理定義和計(jì)算維度的能力值均為負(fù)值,基本定理定義和計(jì)算分別是“基礎(chǔ)知識(shí)”和“基本技能”的重要組成部分,低于平均水平,說(shuō)明該生“雙基”薄弱。重視“雙基”是我國(guó)數(shù)學(xué)教育的優(yōu)良傳統(tǒng),大量的實(shí)踐研究證明了“雙基”的重要性。但該生“雙基”不牢,基本定理定義掌握較差、計(jì)算不準(zhǔn)確,這可能是他總能力低于平均水平的重要原因。增值評(píng)價(jià)的直觀數(shù)據(jù)既有助于學(xué)生正確認(rèn)識(shí)自己的學(xué)業(yè)水平,直觀審視自身能力上的薄弱環(huán)節(jié),也有助于教師進(jìn)行有針對(duì)性的教學(xué)指引與補(bǔ)救。
表7 1 名學(xué)生在數(shù)學(xué)學(xué)業(yè)表現(xiàn)上的能力值
對(duì)學(xué)生在學(xué)業(yè)表現(xiàn)各維度的能力和背景信息進(jìn)行差異分析,可以探索影響學(xué)生學(xué)業(yè)水平的各項(xiàng)因素。本研究主要關(guān)注非教學(xué)因素,具體包括性別、課后學(xué)習(xí)時(shí)間、是否寄宿、陪伴學(xué)習(xí)、父親學(xué)歷、母親學(xué)歷6 個(gè)維度。其中,性別分為男、女兩類(lèi);課后學(xué)習(xí)時(shí)間分為0~0.5 小時(shí)、0.5~1小時(shí)、1~2 小時(shí)、2 小時(shí)以上;是否寄宿分為寄宿和非寄宿兩類(lèi);陪伴學(xué)習(xí)分為父母陪伴、祖輩陪伴、其他親屬陪伴、自己獨(dú)立;父母學(xué)歷分為無(wú)、初中、初中以上。對(duì)以上6 個(gè)維度進(jìn)行t檢驗(yàn)和方差分析。獨(dú)立樣本t檢驗(yàn)效應(yīng)量Cohen’sd大于0.8 時(shí)說(shuō)明差異很大,0.5~0.8 為差異中等,0.2~0.5 說(shuō)明差異較小。方差分析的效應(yīng)量使用μ2,μ2大于0.64 說(shuō)明差異較大,在0.64~0.25 之間說(shuō)明中等差異,小于0.25 說(shuō)明差異很小。6 類(lèi)非教學(xué)因素差異分析的效應(yīng)量計(jì)算結(jié)果見(jiàn)表8,空白代表沒(méi)有差異。
表8 非教學(xué)因素差異分析效應(yīng)量計(jì)算結(jié)果
由表8 可以看出,對(duì)學(xué)生數(shù)學(xué)學(xué)業(yè)成績(jī)影響較大的非教學(xué)因素包括課后學(xué)習(xí)時(shí)間、是否寄宿和母親學(xué)歷。學(xué)生的課后學(xué)習(xí)時(shí)間在多個(gè)維度上都存在差異,它影響所有的思想維度和技能維度,影響認(rèn)知維度的理解和應(yīng)用。父親學(xué)歷在各個(gè)維度上都沒(méi)有差異,但是母親學(xué)歷在多個(gè)維度上存在差異。母親無(wú)學(xué)歷學(xué)生的平均能力最低,說(shuō)明母親無(wú)學(xué)歷的學(xué)生數(shù)學(xué)學(xué)業(yè)表現(xiàn)最差,是需要關(guān)注的重點(diǎn)。寄宿和非寄宿學(xué)生也在多個(gè)維度上存在顯著差異,其中數(shù)學(xué)表達(dá)維度的效應(yīng)量(Cohens’d=0.580>0.50)存在中等差異。寄宿學(xué)生的學(xué)業(yè)能力低于非寄宿學(xué)生,寄宿生和非寄宿生中父親無(wú)學(xué)歷者的比例分別為3.4%和3.7%,但寄宿生和非寄宿生中母親無(wú)學(xué)歷者的比例分別為12.1%和2.7%。對(duì)于偏遠(yuǎn)地區(qū)和農(nóng)村地區(qū)而言,很多無(wú)學(xué)歷的父母選擇讓子女在學(xué)校寄宿,但有些學(xué)校師資力量有限,寄宿管理相對(duì)薄弱,對(duì)學(xué)生約束不夠,最終導(dǎo)致學(xué)生學(xué)業(yè)表現(xiàn)不佳。
增值評(píng)價(jià)對(duì)同一批學(xué)生進(jìn)行跟蹤測(cè)試,對(duì)其兩次測(cè)試成績(jī)進(jìn)行等值轉(zhuǎn)化,使考試結(jié)果具有可比性。只有經(jīng)過(guò)等值轉(zhuǎn)換后的數(shù)據(jù)才能夠進(jìn)行增值評(píng)價(jià)。
將個(gè)體兩次考試中的能力差值繪制雷達(dá)圖,輔以必要的個(gè)人信息、數(shù)據(jù)和文字說(shuō)明,可以構(gòu)成個(gè)性化診斷增值評(píng)價(jià)報(bào)告。實(shí)際操作中發(fā)現(xiàn),學(xué)生家長(zhǎng)對(duì)于負(fù)能力存在理解誤區(qū),為此在撰寫(xiě)增值評(píng)價(jià)報(bào)告時(shí),均對(duì)能力值做出處理(加5,并保留一位小數(shù)),這有助于家長(zhǎng)和學(xué)生理解數(shù)值的具體含義。調(diào)整后各維度能力均值為5,最大值在10 以?xún)?nèi),最小值為正值。
從表9 和圖2 可以看出,兩次測(cè)試間,某學(xué)生知識(shí)維度中的統(tǒng)計(jì)與概率能力略有退步,綜合與實(shí)踐能力、圖形與幾何能力略有上升,數(shù)與代數(shù)能力變化不大。其中,數(shù)與代數(shù)能力水平低于平均水平(5.0),說(shuō)明該學(xué)生需要重點(diǎn)鞏固數(shù)與代數(shù)知識(shí)的學(xué)習(xí)。在思想維度,該生的推理能力進(jìn)步最大,抽象能力和建模能力略有退步。由此可以推測(cè),該生最擅長(zhǎng)回答圖形與幾何中涉及推理能力的試題。在技能維度,學(xué)生的計(jì)算能力較好,有較大的進(jìn)步,語(yǔ)言理解和數(shù)學(xué)表達(dá)能力低于平均水平。學(xué)生的語(yǔ)言理解能力不強(qiáng)、數(shù)學(xué)表達(dá)能力較弱,在面對(duì)字?jǐn)?shù)較多的試題時(shí)易產(chǎn)生閱讀障礙,這可能是該生統(tǒng)計(jì)與概率能力不高的原因之一。在認(rèn)知維度,學(xué)生的探究能力有所退步,且低于平均水平。綜上可以發(fā)現(xiàn),兩次考試中該生的主要問(wèn)題都出現(xiàn)在語(yǔ)言理解和數(shù)學(xué)表達(dá)部分,說(shuō)明他數(shù)學(xué)學(xué)業(yè)的薄弱環(huán)節(jié)是讀題和數(shù)學(xué)表述,而非計(jì)算或基礎(chǔ)知識(shí)。但與上次考試相比,該生的圖形與幾何、綜合與實(shí)踐、推理、計(jì)算等能力上有了較大的進(jìn)步。根據(jù)以上分析,研究者可以給該學(xué)生提出有針對(duì)性的評(píng)價(jià)內(nèi)容、結(jié)論和建議,如表10。
表10 個(gè)人增值評(píng)價(jià)報(bào)告中的評(píng)價(jià)內(nèi)容、結(jié)論和建議
圖2 學(xué)業(yè)質(zhì)量增值評(píng)價(jià)個(gè)人能力雷達(dá)圖
表9 個(gè)性化學(xué)業(yè)質(zhì)量增值評(píng)價(jià)報(bào)告
本研究希望提供程序化的增值評(píng)價(jià)操作思路,經(jīng)過(guò)“手把手”式的教導(dǎo),幫助一線教師克服數(shù)據(jù)統(tǒng)計(jì)時(shí)的畏懼心理,獨(dú)立進(jìn)行增值評(píng)價(jià)。研究發(fā)現(xiàn),增值評(píng)價(jià)提供的信息有助于教師對(duì)學(xué)生因材施教。在影響小學(xué)數(shù)學(xué)學(xué)業(yè)水平的非教學(xué)因素中,是否寄宿是一個(gè)需要重點(diǎn)關(guān)注的維度,教育行政部門(mén)應(yīng)該針對(duì)寄宿學(xué)生群體尤其是農(nóng)村寄宿學(xué)生制定幫扶政策。未來(lái)的增值評(píng)價(jià)既應(yīng)為教育行政部門(mén)提供資政報(bào)告,也要為學(xué)生提供詳細(xì)的增值診斷信息以及個(gè)性化的輔助教學(xué)建議。
智慧化是未來(lái)考試發(fā)展的趨勢(shì)。智慧化的前提是從考試中獲取多維化的信息,而多維化的基礎(chǔ)是評(píng)價(jià)指標(biāo)結(jié)構(gòu)化。教育管理者在考試之初應(yīng)建立雙向細(xì)目表,科學(xué)設(shè)計(jì)評(píng)價(jià)指標(biāo)的結(jié)構(gòu);在評(píng)價(jià)時(shí)不能以分?jǐn)?shù)一言概之,需根據(jù)評(píng)價(jià)指標(biāo)的不同維度分別進(jìn)行評(píng)價(jià),獲得學(xué)生的個(gè)性化診斷信息,指導(dǎo)教師改進(jìn)教學(xué),引導(dǎo)學(xué)生提升學(xué)業(yè)水平。從技術(shù)發(fā)展來(lái)看,我國(guó)教育測(cè)量從服務(wù)選拔開(kāi)始向個(gè)性化輔助培養(yǎng)轉(zhuǎn)變,構(gòu)建適合個(gè)人、更加開(kāi)放靈活的教育是未來(lái)教育的發(fā)展趨勢(shì)。[9]但實(shí)踐中仍然有很多教師熱衷于使用傳統(tǒng)的總分進(jìn)行結(jié)果評(píng)價(jià)。本文設(shè)計(jì)的增值評(píng)價(jià)基于結(jié)構(gòu)化的評(píng)價(jià)維度,可以發(fā)現(xiàn)學(xué)生學(xué)習(xí)盲點(diǎn),從而有針對(duì)性地指導(dǎo)學(xué)生展開(kāi)補(bǔ)救,提升學(xué)習(xí)效率,降低教師工作壓力。
增值評(píng)價(jià)的方法不是越復(fù)雜越好。為了便于一線教師更好地實(shí)施增值評(píng)價(jià),需滿足以下3 個(gè)條件:第一,評(píng)價(jià)理論要簡(jiǎn)易,數(shù)據(jù)解釋要清晰易懂,例如,在IRT 輸出能力的結(jié)果中,以0 為分界線,正值高于平均水平,負(fù)值低于平均水平,增值評(píng)價(jià)前后兩次數(shù)據(jù)的差值就是評(píng)價(jià)結(jié)果,數(shù)據(jù)變化代表能力水平的不同,這樣解釋增值評(píng)價(jià)是符合一線教師認(rèn)知的;第二,評(píng)價(jià)模型要簡(jiǎn)易,模型參數(shù)不宜過(guò)多,IRT 中的1PL 模型只包含個(gè)體能力、題目難度兩個(gè)參數(shù),能滿足一線教師的基本需求;第三,評(píng)價(jià)工具要好操作,有軟件可以直接應(yīng)用,一線教師普遍不具有專(zhuān)業(yè)統(tǒng)計(jì)軟件操作經(jīng)驗(yàn),像STATA 這樣“一鍵錄入、一鍵輸出”的軟件比較適合一線教師實(shí)際操作。此外,實(shí)踐發(fā)現(xiàn),與其給一線教師講解統(tǒng)計(jì)理論、增值評(píng)價(jià)方法或操作原理,不如帶領(lǐng)教師先操作后講解。本次調(diào)查中,許多一線教師表示本研究使用的方法是可接受的,實(shí)際操作也能獨(dú)立完成,但對(duì)于多元線性回歸模型、成長(zhǎng)百分比模型等增值評(píng)價(jià)模型,他們普遍認(rèn)為較難,不易接受。
增值評(píng)價(jià)結(jié)果是使用者直接看到的核心內(nèi)容。評(píng)價(jià)結(jié)果既要科學(xué)地呈現(xiàn)信息,還要吸引使用者的興趣。首先,評(píng)價(jià)結(jié)果要以圖為主、數(shù)據(jù)為輔。在評(píng)價(jià)結(jié)果顯示中盡量把雷達(dá)圖、折線圖等易于理解的統(tǒng)計(jì)圖作為主要的呈現(xiàn)手段,數(shù)據(jù)可不呈現(xiàn)或少呈現(xiàn)。其次,評(píng)價(jià)結(jié)果要分維度呈現(xiàn),在成績(jī)報(bào)告單中的不同位置清晰明了地呈現(xiàn)個(gè)體信息、雷達(dá)圖、評(píng)價(jià)建議等,有助于使用者一目了然地找到自己關(guān)心的信息。最后,評(píng)價(jià)結(jié)果的呈現(xiàn)要注重?cái)?shù)據(jù)理解力、視覺(jué)點(diǎn)綴、設(shè)計(jì)與美學(xué)、視覺(jué)隱喻、數(shù)據(jù)可記憶性這5 個(gè)維度[10]的實(shí)際效果。應(yīng)然狀態(tài)下,家長(zhǎng)和學(xué)生在面對(duì)個(gè)體信息時(shí)應(yīng)該會(huì)仔細(xì)研讀,學(xué)習(xí)如何讀取數(shù)據(jù)信息。但實(shí)然狀態(tài)下,大多數(shù)家長(zhǎng)和學(xué)生對(duì)數(shù)據(jù)存在抵觸情緒。把增值結(jié)果通過(guò)圖的形式進(jìn)行可視化處理,更加符合教師、家長(zhǎng)和學(xué)生的需求。
①equateIRT 可以在https://cran.rstudio.com/web/packages/equateIRT/index.html 下載,具體操作案例見(jiàn)https://cran.rstudio.com/web/packages/equateIRT/equateIRT.pdf。
②目前STATA 最新版本號(hào)為16,官網(wǎng)網(wǎng)站為https://www.stata.com。同時(shí)官方提供了IRT 基本操作流程,詳見(jiàn)https://www.stata.com/features/irt/。