郭蕓等
摘 要: 本文將科學測量理論的多面Ranch模型理論用于師范生說課技能評價的數(shù)據(jù)分析,為相關(guān)評價提供信效度信息,同時為未來教育測評提供有價值的參考。
關(guān)鍵詞: 說課技能 評價 Rasch模型 加權(quán)擬合統(tǒng)計
說課是一種重要的教學研討形式,說課技能訓練對提高師范生教育教學水平具有重要作用,已成為師范生教學技能培訓的重要組成部分。然而,在師范生說課培訓實踐中,師范生的說課技能評價主要依靠指導教師的主觀評分確定,評價可信度相對較低。
丹麥數(shù)學家Georg Rasch于1960年提出的Rasch模型提供的統(tǒng)計框架可以消除主觀評價中各方面因素對評價結(jié)果的影響[1]。該模型除了考生能力和試題難度兩個因素外,還將評分員及評分量表等因素加入模型,不僅可以分析考生能力和試題難度導致的評價差異,而且可以分析由其他因素導致的評價誤差來源,可有效提高主觀評分信度[2]。
本文通過Rasch模型對說課比賽中學生的表現(xiàn)、評分者的評分及評分標準的難度做整體分析,從而檢驗是否每個學生都得到合理評估,評分者對學生的評估是否做出了合理判斷及評分嚴厲度的差異,評分標準的難度值是否符合學生的整體能力,為師范生教學技能評價提供有益參考。
1.研究對象
以某高等師范院校生物科學(師范)專業(yè)四年級的8名師范生(其中男生3名,女生5名)的說課比賽成績?yōu)閷ο?,其中說課內(nèi)容包括一說教材,二說教法,三說學法,四說教學過程,五說教學評價,六說板書。5位評分教師根據(jù)說課學生上述六方面的表現(xiàn),按照評分標準采用10點計分,具體見表1。
2.研究方法
采用Bond & Fox Facets[3],一種進行多面Rasch分析的計算機軟件程序?qū)ι鲜鰯?shù)據(jù)資料進行分析。本研究設計了三個側(cè)面,即學生表現(xiàn)、題目/任務難度、評分者的嚴厲度。采用的可以接受的吻合統(tǒng)計(infit)范圍設置在0.6-1.4之間[4]。此外,學生表現(xiàn)評估報告分離比的期望值大于2.0[5]。
3.研究結(jié)果
3.1對評分者、學生及內(nèi)容的概述
在這次說課比賽中,對學生能力、評分者嚴厲度和評分標準難度的總體評估結(jié)果見圖1所示。圖中最左側(cè)呈現(xiàn)的是對數(shù)(logits)刻度,范圍從-2到+4,對于三個側(cè)面標尺都相同;學生能力以學生編號呈現(xiàn)在第二列,能力最高的學生在頂端,能力最低的學生在底端;評分者的嚴格程度在第三列,最寬松的評分者在底部,而最嚴格的評分者在最頂端;項目(評分標準)的難易程度在第四列,圖中由上而下依次為由難而易;最后一列為評分量表的使用情況。該圖可直觀地顯示每個側(cè)面的整體分布及不同個體之間的差異。由圖1可知,8名學生的能力排序,其中最高能力的表現(xiàn)者為S6,最低能力的表現(xiàn)者為S4;評分者中有3位在0以下,1位評分者在0處,1位在+2到+3之間,顯示5位評分者中4位較寬松,一位較嚴格;在項目難度方面,既不容易,又不難,六個項目中一個高于平均值,三個處于平均值,兩個低于平均值。
3.2學生能力表現(xiàn)分析
學生能力表現(xiàn)的估計值從-0.94logits到3.95logits(圖1第2列)。按照學生表現(xiàn)的質(zhì)量以降序排列。具體來說,能力估計值縱列顯示學生6是能力水平最高為3.95logits,而學生5能力最差為-0.94logits。
學生說課比賽中的能力表現(xiàn)分析的吻合統(tǒng)計——加權(quán)擬合統(tǒng)計(infit)結(jié)果見表2。在表中,擬合統(tǒng)計顯示所有學生都擬合模型,加權(quán)擬合統(tǒng)計量(infit)在可接受范圍內(nèi)(0.6-1.4),表明每個學生都能被科學地評估,得到合理的能力分數(shù)。
多面Rasch分析也提供RMSE(Root Mean-Square Standard Error),即估計值標準誤均方的平方根,代表估計的平均誤差。學生能力的RMSE是0.24,表明學生的測量誤差很低。分離比(Separation)取值范圍在0至無窮大,達到2就能區(qū)分高低水平,學生的分離比是5.20,超過了最低要求2.0,說明依據(jù)學生的表現(xiàn)能夠把學生的能力區(qū)分開來。上述結(jié)果說明本測驗信度高,能夠按照能力水平將學生區(qū)分開。
3.3評分質(zhì)量分析
5個評分者的嚴格程度平均值為0,表明評分者的評分整體上比較適宜。對評分者評分質(zhì)量的吻合統(tǒng)計結(jié)果見表3。按照擬合統(tǒng)計量可接受的范圍(0.6-1.4),表明評分者對學生的表現(xiàn)都作出了合理判斷。評分者的分離比為5.61,分離信度為0.97,這些信息表明評分者之間是存在差異的,5位評分者中至少有一位評分者在評分過程中表現(xiàn)出明顯不同的嚴厲度,但總體上呈現(xiàn)較好的內(nèi)部一致性,他們以統(tǒng)一標準行使自己的評判職責。
3.4項目難度分析
對項目難度分析的吻合統(tǒng)計結(jié)果見表4。表中項目以難度降序呈現(xiàn),結(jié)果顯示“項目1”是最難的項目(說教材),“項目4”在六個標準中是最容易的(說教學過程)?!罢f教材”成為學生說課最困難的項目,表明入職前的教師(師范生)由于缺乏對教材的系統(tǒng)學習與思考,未能在深入理解課程標準的基礎上準確把握教材。擬合統(tǒng)計顯示所有項目都非常吻合模型期望,各個項目的infit統(tǒng)計量都在0.6-1.4之間,即各評分者跨評分標準的一致性較好,各評分者在同一評分標準上的寬嚴標準相同。
4.討論
在依靠主觀評價學生的學業(yè)能力時,傳統(tǒng)做法是除去一個最高分和一個最低分,評價者所給平均分就代表學生的學業(yè)能力,這樣的做法往往存在局限性。評分者對評價項目的理解及要求(嚴厲度)存在差異,有可能給出最高分或最低分的評分者對學生的表現(xiàn)做出了合理判斷,即檢測存在樣本依賴與測驗依賴[6],學生的能力無法得到客觀評價。
與傳統(tǒng)教育測量相比,Rasch模型分析可以鑒別影響主觀評價可靠性的各種因素,如特殊的評分者、特殊的評分標準。同時,能夠依據(jù)吻合統(tǒng)計(Infit)改進測驗,當發(fā)現(xiàn)不吻合因素時,能夠通過與評分者、參與學生進行討論改進評估。本研究基于Rasch模型對師范生說課能力評價結(jié)果的分析提供三個評估側(cè)面之間的關(guān)系(圖1)、學生能力和吻合統(tǒng)計(表2)、評委的嚴格程度和吻合統(tǒng)計(表3)、項目難度和吻合統(tǒng)計(表4),模型分析的結(jié)果表明,每位學生都在吻合統(tǒng)計范圍之內(nèi),說明每個學生都能被科學地評估,得到合理評價,其分離比說明測驗信度高,能夠把學生分為不同能力水平;對評分質(zhì)量分析得到擬合統(tǒng)計量在可接受范圍,證明評分者對學生的表現(xiàn)做出了合理判斷,分離比等信息表明評分者之間存在差異,但總體上呈現(xiàn)較好的內(nèi)部一致性;對評分標準(項目難度)的分析表明各評分者跨評分標準的一致性較好,各評分者在同一評分標準上的寬嚴標準相同。
參考文獻:
[1]晏子.心理科學領(lǐng)域內(nèi)的客觀測量——Rasch模型之特點及發(fā)展規(guī)律[J].心理科學進展,2010,18(8):1298-1305.
[2]Linacre JM,Wright.BD.A user’s guide to FACETS:Rasch model computer program,version 2.4 for PC compatible computers[M].Chicago,IL:MESA Press.1993.
[3]Bond TC,F(xiàn)ox CM.Applying the Rasch model:Fundamental measurement in the human sciences (2nded)[M].Lawrenec Erlbaum Associates Inc,2012.
[4]Wright BD,Linacre,JM,Gustafson JE,Martin-Lof P.Reasonable mean-square fit values[J].Rasch Measurement Transactions,1994,8(3):370.
[5]Linacre,JM.Many-facet Rasch measurement.Chicago,IL:MESA Press.1993.
[6]王蕾.Rasch測量理論及在高考命題中的實證研究[J].中國考試,2008(1):32-39.
通訊作者:龍中兒