趙玉
摘 ?要:本研究利用多面 Rasch模型對118名大學(xué)生評價10名任課教師的課堂教學(xué)能力的數(shù)據(jù)進行分析。研究結(jié)果表明不同學(xué)生對評教的寬嚴(yán)程度不一致的現(xiàn)象,多面RASCH模型可消除評分者效應(yīng),從而提高學(xué)生評教的信度。
關(guān)鍵詞:多面Rasch模型;學(xué)生評教;方法
中圖分類號:G640 ? ? ? ? 文獻標(biāo)志碼:A ? ? ? ? 文章編號:2096-000X(2019)20-0056-03
Abstract: This study used many-faceted Rasch model to analyze the data of 118 college students evaluating the classroom teaching ability of 10 teachers. The empirical results show that there is inconsistency in the degree of leniency and strictness of grading among different students. The many-faceted RASCH model can eliminate the rater effect and improve the reliability of students'evaluation of teaching.
Keywords: many-faceted Rasch model; student evaluation of teaching; method
一、概述
(一)學(xué)生評教結(jié)果的有效性
目前,學(xué)生評教已經(jīng)成為高校評價教師教學(xué)質(zhì)量的一項重要參考指標(biāo)。盡管學(xué)術(shù)界關(guān)于學(xué)生評教有效性、影響因素等開展過大量研究,但在一些關(guān)鍵問題上仍爭議不斷。
國外學(xué)者對學(xué)生評教的有效性進行了大量實證研究,但結(jié)論不一。Overall和Marsh(1980)的大規(guī)模追蹤研究經(jīng)常被引用作為學(xué)生評教合理性的證據(jù),其研究顯示,1400名學(xué)生在完成課程一年后與其剛完成課程時的評價結(jié)果相關(guān)系數(shù)高達0.83。國內(nèi)外從理論到實證均有支持上述觀點的研究,但結(jié)論與之不同的研究也一直存在。例如,韓婷等人(2007)發(fā)現(xiàn)學(xué)生評價與教學(xué)督導(dǎo)組的評價之間的Kappa系數(shù)不到0.4,這是非常弱的一致性;Dennis E. Clayson(2009)的元分析研究顯示,學(xué)生評教與學(xué)習(xí)結(jié)果的一致性與學(xué)習(xí)結(jié)果的測量方式有關(guān),測量方式越客觀,則二者的一致性越低。
事實上,影響學(xué)生評教結(jié)果的因素可能有多方面,如課程難度、學(xué)生對該課程的興趣、對學(xué)業(yè)的預(yù)望及選擇該課程的原因等(Marsh & Roche,1997)。課程類別、班級人數(shù)等因素也會顯著影響對教師的評分(王永林,2005),但不同教師所任授課程本身不具可比性。因此學(xué)生評教應(yīng)當(dāng)綜合多方面因素,以保證評價的有效性和公平性。
(二)學(xué)生評教數(shù)據(jù)的分析方法
目前,多數(shù)研究與實踐中使用加權(quán)平均法或名次法分析評教數(shù)據(jù)。加權(quán)平均法與名次法分別使用原始分?jǐn)?shù)和名次來評價教學(xué)效果,優(yōu)點是操作簡便,意義直觀,但不同班級、不同課程的評價結(jié)果不具有可比性,教師教學(xué)水平之間差距也難以客觀量化地分析。
為更好地使用學(xué)生評教數(shù)據(jù)分析教學(xué)質(zhì)量,研究者們對評價方法進行了多方面的改進。例如,評價方案可改為評教只在“同質(zhì)課程”內(nèi)進行,以解決可比性問題(艾文國,2012),但這種做法有回避問題之嫌。有研究者使用標(biāo)準(zhǔn)分?jǐn)?shù)代替原始分?jǐn)?shù)(崔國生,2009),或以一定權(quán)重匯總學(xué)生評教、教研室主任評價等多種信息,并根據(jù)全校平均水平對標(biāo)準(zhǔn)分進行線性轉(zhuǎn)換,將前一年度評教結(jié)果和本年度評教結(jié)果以1:2加權(quán),以校正后的分?jǐn)?shù)作為最終評教結(jié)果(馬天梅,2007),這些改進措施能對不同課程、不同班級的評教結(jié)果進行比較。
綜上,學(xué)者們?yōu)閷崿F(xiàn)學(xué)生評教結(jié)果的可比性提出了多種方法,在一定程度上提高了評價的有效性。但前述各種方法的一個明顯局限是,評價結(jié)果的準(zhǔn)確性均依賴于學(xué)生群體的代表性。即,被試樣本要有足夠的代表性,評教結(jié)果才是可靠的。例如,若評價尺度嚴(yán)格的學(xué)生較多,教師獲得的評價就低。以往的解決方法是預(yù)處理數(shù)據(jù)時去除極端數(shù)據(jù)(馬天梅,2007),但確定極端數(shù)據(jù)所占比例有主觀成分在內(nèi),而且即便去除了極端數(shù)據(jù)也難以保證樣本數(shù)據(jù)構(gòu)成與總體完全一致。
(三)多側(cè)面Rasch模型
學(xué)生評教過程中存在各種誤差,因而評教結(jié)果的有效性需綜合考慮各種影響因素,傳統(tǒng)教育測量學(xué)方法難以勝任,而多側(cè)面Rasch模型(Multi-Faceted Rasch Model)可以滿足上述要求。
多側(cè)面Rasch模型由Linacre于1989年在Rasch模型的基礎(chǔ)上拓廣而來(Lunz & Linacre,2010),是用于對測量結(jié)果具有潛在影響的多變量進行細致的分析的一類應(yīng)用測量模型。相對于其他方法(如概化理論),多側(cè)面Rasch模型具有多方面的優(yōu)勢(Randall & Engelhard, 2009),它繼承了Rasch模型的優(yōu)良特性,各參數(shù)具有充分統(tǒng)計量,估計結(jié)果具有等距量尺。多側(cè)面Rasch模型為檢查測量情景中各種側(cè)面的影響(如評分者嚴(yán)厲程度、指標(biāo)難度)提供了方法,可提高測量結(jié)果的客觀性和公平性。
目前此模型在各類考試主觀題評分領(lǐng)域應(yīng)用非常廣泛(He et.al.,2013)。然而,由于多側(cè)面Rasch模型在模型設(shè)定、參數(shù)估計、數(shù)學(xué)計算等方面的復(fù)雜性,在學(xué)生評教領(lǐng)域未見有采用此模型的探索與實踐。
綜上所述,本研究將采用多面Rasch模型為代表的現(xiàn)代教育測量學(xué)理論, 主要從學(xué)生側(cè)面、被評教師側(cè)面和評教指標(biāo)側(cè)面三個方面進行分析,其數(shù)學(xué)模型為:
Pnijk是被評教師n在項目i上被學(xué)生j評定為k等的概率。
Bn是教師n的課堂教學(xué)能力參數(shù)。
Di是評教指標(biāo)i的難度參數(shù)。
Cj是學(xué)生j的評教寬嚴(yán)程度。
Fk是分部評分模型中教師得分從k-1等到k等級的難度,每個評教指標(biāo)均為h級評分。
二、研究設(shè)計
(一)數(shù)據(jù)來源
2018年3-6月,118名在校大學(xué)生對10名任課教師課堂教學(xué)能力進行評分,其中58名學(xué)生對1-6號教師打分,另外60名學(xué)生對5-10號教師打分。采用10個指標(biāo),每個指標(biāo)分4級評分,學(xué)生從教學(xué)的態(tài)度、內(nèi)容、方法和效果四個方面對教師課堂教學(xué)能力進行評分,滿分100分。
(二)數(shù)據(jù)分析
本次研究使用FACETS軟件對數(shù)據(jù)進行分析。此情境下影響被試分?jǐn)?shù)有三個側(cè)面,其一是教師的教學(xué)水平特質(zhì),其二是學(xué)生評分的寬嚴(yán)程度,其三是評教指標(biāo)難度。Facets 軟件能將教師、學(xué)生和評教指標(biāo)作為三個單獨的面進行分析,體現(xiàn)教師教學(xué)能力差異、學(xué)生評教差異和評教指標(biāo)難度差異。
三、結(jié)果
(一)教師側(cè)面
表1所示,教師教學(xué)的能力值范圍是0.40Logits 至 0.70Logits 之間。能力值最高的是 2號教師(0.70Logists),最低的是9號教師(0.40Logists)。Infit和Oufit數(shù)值大小可以反映評委使用評分量表評定被試成績的一致性,其值越接近于1,測評精度越高??ǚ綑z驗結(jié)果顯示教師間的教學(xué)能力差異達到顯著水平,說明教師間的能力存在顯著差異。
(二)學(xué)生側(cè)面,即評教寬嚴(yán)程度分析
多面RASCH模型可以直接給出評分者的寬嚴(yán)程度,表2中第一列為評分者的寬嚴(yán)程度;第二列為寬嚴(yán)程度參數(shù)的估計標(biāo)準(zhǔn)誤,后兩列為相應(yīng)評分者的擬合指標(biāo)??梢钥闯?8號學(xué)生評分(-1.67LOGITS)最為寬松,116號學(xué)生評分(2.82LOGITS)最為嚴(yán)格,兩者相差4.49個LOGITS。同時,F(xiàn)ACETS還給出多個評分者寬嚴(yán)程度差異的指標(biāo),如分離指標(biāo)為6.35,即評分者的寬嚴(yán)程度至少可以分為6個水平;信度指標(biāo)為0.98,此指標(biāo)越大,表示評分者寬嚴(yán)程度差異越大。對評分者之間的寬嚴(yán)程度的卡方檢驗(x2=4479.8,df=117,p=0.00),也顯示他們之間的差異達到了顯著性水平。
(三)項目側(cè)面
注:
由表3可以看出, 項目4(評教指標(biāo)為教學(xué)內(nèi)容方面的,即內(nèi)容充分,表達清楚,重點突出)和項目9(評教指標(biāo)為教學(xué)效果方面的,即學(xué)生理解和掌握課程內(nèi)容)是難度(均為0.04 LOGITS)最大的,項目6(評教指標(biāo)為教學(xué)方法方面的,即語言精練,生動明確,能夠配合肢體語言,富有感染力)難度(-0.05 LOGITS)最低。同時卡方值也較小,說明項目之間的難度沒有太大區(qū)別。
四、結(jié)論
研究結(jié)果表明不同學(xué)生存在評教的寬嚴(yán)程度不一致的現(xiàn)象,將多面RASCH模型運用于高校學(xué)生評教中,可消除評分者效應(yīng),更加客觀地對教師教學(xué)能力進行評價,從而提高學(xué)生評教的信度。
參考文獻:
[1]艾文國,王桂偉,關(guān)玉晶.高校學(xué)生評教系統(tǒng)改進研究[J].中國大學(xué)教學(xué),2012(12):76-79.
[2]崔國生.學(xué)生評教誤差的幾種校正方法[J].沈陽工程學(xué)院學(xué)報(社會科學(xué)版),2009(3):402-403,409.
[3]韓婷,李慧梁,張宏,等.Kappa統(tǒng)計量評價教學(xué)督導(dǎo)組與學(xué)生評教的一致性[J].醫(yī)學(xué)教育探索,2007,6(12):1117-1119.
[4]馬天梅.提高學(xué)生評教有效性的實證分析[J].中國高等醫(yī)學(xué)教育,2007(8):65-67.
[5]黎光明,張敏強.基于學(xué)生評教的多元概化理論分析[J].教育測量與評價(理論版),2013(7):4-6,17.
[6]王永林.學(xué)生評教的特性及其影響因素初探[J].教育科學(xué),2005,21(1):28-30.
[7]肖繼軍.基于PLS-SEM模型的高校學(xué)生評教實證分析[J].統(tǒng)計與決策,2009(5):158-161.
[8]He, T. H., Gou, W. J., Chien, Y. C., Chen, I. S. J., & Chang, S. M.(2013). Multi-faceted Rasch Measurement and Bias Patterns in EFL Writing Performance Assessment. Psychological Reports, 112(2),469-485.
[9]Lunz, M. E., & Linacre, J. M. (2010). Reliability of Performance Examinations: Revisited. Journal of Applied Measurement, 11(2),172-181.
[10]Marsh, H. W., & Roche, L. A.(1997). Making students' evaluations of teaching effectiveness effective: The critical issues of validity, bias, and utility. American Psychologist, 52(11),1187-1197.
[11]Randall, J., & Engelhard, G.(2009). Examining teacher grades using Rasch measurement theory. Journal of Educational Measurement, 46(1),1-18.
[12]Overall, J. U., & Marsh, H. W.(1980). Students' evaluations of instruction: A longitudinal study of their stability. Journal of Educational Psychology, 72,321-325.
[13]Linacre,J. M.,& Wright. B.D. A User's Guide to FACETS: Rasch Model Computer Program,Version 2.4 for PC CompatibleComputers [M].Chicago,IL:MESAPress,1993.