韓映雄,周林芝
(1.華東師范大學(xué)考試與評(píng)價(jià)研究院,上海200062;2.華東師范大學(xué)高等教育研究所,上海200062)
過(guò)去二十年來(lái),要求高等教育“回歸教學(xué)”的聲音日益高漲,社會(huì)各界對(duì)大學(xué)教學(xué)質(zhì)量的擔(dān)憂和重視已經(jīng)到了前所未有的高度。教育部先后頒發(fā)的兩個(gè)有關(guān)高等教育質(zhì)量的文件以及相關(guān)研究[1]就是例證。人們對(duì)大學(xué)教學(xué)質(zhì)量的擔(dān)憂,一方面是由于高等教育規(guī)模擴(kuò)大所引致,另一方面也與大學(xué)過(guò)于重視科研的績(jī)效辦學(xué)觀有密切關(guān)系。這一現(xiàn)象并不是我國(guó)高等教育發(fā)展所獨(dú)有的現(xiàn)象,美國(guó)等高等教育發(fā)達(dá)國(guó)家在20世紀(jì)80年代也曾出現(xiàn)過(guò)。
導(dǎo)致大學(xué)教學(xué)質(zhì)量下滑或變化的原因既包括來(lái)自主觀的理念或認(rèn)識(shí)因素,也包括一定社會(huì)歷史條件下的高等教育外部因素,如全球?qū)W術(shù)競(jìng)爭(zhēng)、知識(shí)分工、一流大學(xué)建設(shè)需求等。就理念因素而言,如何衡量和評(píng)價(jià)大學(xué)教學(xué)質(zhì)量,既是學(xué)術(shù)界持續(xù)討論的熱點(diǎn)問(wèn)題,也是教育管理界所面臨的難題。與科研質(zhì)量評(píng)價(jià)相比較,教學(xué)評(píng)價(jià)要更加復(fù)雜和難以達(dá)成共識(shí)。
基于此,研究以2000年以來(lái)Web of Science核心數(shù)據(jù)庫(kù)中發(fā)表的有關(guān)大學(xué)教學(xué)評(píng)價(jià)的研究成果為資料來(lái)源,試圖回顧和總結(jié)近20年來(lái)學(xué)術(shù)界和教育管理界對(duì)學(xué)生評(píng)教的最新思考和實(shí)踐經(jīng)驗(yàn)。
研究以Web of Science核心數(shù)據(jù)庫(kù)為文獻(xiàn)檢索來(lái)源,不設(shè)時(shí)間限制,共檢索到包含Teaching Evaluation、Evaluation of Teaching等檢索詞的英文研究文獻(xiàn)523篇,經(jīng)過(guò)篩選后得到360篇有效文獻(xiàn)。
研究使用知識(shí)圖譜法作為文獻(xiàn)處理和分析的方法,該方法是以科學(xué)知識(shí)為對(duì)象,通過(guò)空間表征法,綜合運(yùn)用科學(xué)計(jì)量學(xué)、信息可視化技術(shù)、應(yīng)用數(shù)學(xué)、圖形學(xué)等學(xué)科的理論和方法,揭示科學(xué)文獻(xiàn)和引文路徑的復(fù)雜交織所反映出的科學(xué)交流及發(fā)展趨勢(shì)[2]。與傳統(tǒng)的內(nèi)容分析法相比,知識(shí)圖譜分析法的優(yōu)勢(shì)在于可以更客觀、形象反映某學(xué)科或知識(shí)領(lǐng)域的研究熱點(diǎn)和研究趨勢(shì),且能夠完整地呈現(xiàn)出那些有影響性的、高引用率的代表性文獻(xiàn)。從文獻(xiàn)的全面性和系統(tǒng)性角度看,知識(shí)圖譜法有其獨(dú)特的優(yōu)勢(shì)。但該方法也明顯存在不足——在反映論文更為詳細(xì)觀點(diǎn)上的深度不夠。為克服這一缺陷,研究對(duì)經(jīng)知識(shí)圖譜分析方法所得到的代表性論文開(kāi)展了仔細(xì)閱讀和主要觀點(diǎn)的梳理與歸納。知識(shí)圖譜分析方法僅是本研究的信息收集方法,但研究結(jié)論并不僅僅局限于知識(shí)圖譜方法所自動(dòng)生成的諸多圖表信息。
表1-表3是Cite Space軟件分析出的高共被引文獻(xiàn)、高中心性文獻(xiàn)和突現(xiàn)文獻(xiàn)。
上述大部分文獻(xiàn)都對(duì)學(xué)生評(píng)教這一主題進(jìn)行了討論和分析,這說(shuō)明學(xué)生評(píng)教是大學(xué)教學(xué)評(píng)價(jià)領(lǐng)域的熱門問(wèn)題。在學(xué)生評(píng)教研究領(lǐng)域內(nèi),以下問(wèn)題被多次討論:
表1 Cite Space軟件分析出的高共被引文獻(xiàn)
表2 Cite Space軟件分析出的高中心性文獻(xiàn)
表3 Cite Space軟件分析出的突現(xiàn)文獻(xiàn)
(1)學(xué)生評(píng)教是否具有較高信度?不同學(xué)生的評(píng)教結(jié)果是否具有一致性?
(2)學(xué)生評(píng)教是否具有較高效度?評(píng)教結(jié)果能在多大程度上反映教師教學(xué)有效性?
(3)學(xué)生在評(píng)教過(guò)程中是否受到非教學(xué)因素的影響從而導(dǎo)致評(píng)教結(jié)果出現(xiàn)偏差?
(4)學(xué)生評(píng)教結(jié)果的應(yīng)用中存在哪些問(wèn)題?如何更好地應(yīng)用學(xué)生評(píng)教結(jié)果?
學(xué)生評(píng)教信度是指學(xué)生評(píng)教結(jié)果穩(wěn)定反映教師教學(xué)水平的程度。當(dāng)學(xué)生評(píng)教結(jié)果在不同時(shí)間、構(gòu)成測(cè)量的不同項(xiàng)目和不同評(píng)價(jià)者之間保持一致時(shí),學(xué)生評(píng)教具有較高的信度。馬什(Marsh)指出,造成學(xué)生評(píng)教結(jié)果不一致的最主要原因是不同學(xué)生對(duì)同一名教師的評(píng)價(jià)不同,而不是不同學(xué)生評(píng)教指標(biāo)之間缺乏一致性。因此,研究學(xué)生評(píng)教信度最重要的是檢驗(yàn)評(píng)分者信度(inter-rater reliability),即檢驗(yàn)同一課程中不同學(xué)生之間評(píng)教結(jié)果的一致性程度[3]。
對(duì)評(píng)分者信度的研究早已有之。在早期的研究中,學(xué)者們普遍使用班級(jí)平均評(píng)教分?jǐn)?shù)來(lái)衡量信度,這種被眾多學(xué)者認(rèn)可的計(jì)算方法的最大缺陷是忽略了學(xué)生個(gè)體之間的差異[4]。隨著統(tǒng)計(jì)學(xué)的發(fā)展和應(yīng)用,學(xué)者們將班級(jí)平均情況與學(xué)生個(gè)體情況納入研究當(dāng)中,引發(fā)了人們對(duì)學(xué)生評(píng)教信度問(wèn)題的再次討論。莫利(Morley)指出,一些經(jīng)典研究中檢測(cè)學(xué)生評(píng)教信度的方法雖然廣為流傳,但使用的是班級(jí)平均評(píng)教分?jǐn)?shù),且部分存在邏輯問(wèn)題。他同時(shí)提出,不能使用班級(jí)平均評(píng)教分?jǐn)?shù)的原因是環(huán)境污染(environmental contaminates,即班級(jí)內(nèi)部的環(huán)境因素如學(xué)生之間的交流等)會(huì)導(dǎo)致學(xué)生評(píng)教信度虛高。平均數(shù)還會(huì)掩蓋影響班級(jí)內(nèi)學(xué)生評(píng)價(jià)教學(xué)的重要潛在變量,并不能幫助研究者了解教學(xué)之外影響信度系數(shù)的環(huán)境因素。他使用SPSS宏命令(SPSS macros)對(duì)樣本進(jìn)行單向或雙向的組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient,簡(jiǎn)稱ICC)檢驗(yàn)后發(fā)現(xiàn),在1073個(gè)使用特定工具開(kāi)展評(píng)教的班級(jí)中,僅有21%~28%的班級(jí)內(nèi)部評(píng)分者信度系數(shù)大于等0.7[5]??死咨–layson)也對(duì)學(xué)生評(píng)教的信度進(jìn)行了檢驗(yàn),結(jié)論與莫利相似。他發(fā)現(xiàn)班級(jí)內(nèi)部學(xué)生評(píng)教結(jié)果之間的差異較大,14個(gè)班級(jí)中僅有4個(gè)班級(jí)的ICC值大于0.7,且所有班級(jí)的Krippendorff's alpha系數(shù)都沒(méi)有達(dá)到可接受的水平[6]。丹妮拉(Daniela)等人運(yùn)用多級(jí)交叉分類模型(cross-classified multilevel models)和方差分量法(variance componen)分析總方差中能用學(xué)生、教師和課程特征解釋的比例后發(fā)現(xiàn),學(xué)生與教師的相互作用(即學(xué)生的期待、能力、興趣等特征與教師的期望、風(fēng)格等特征的匹配程度)以及一些未知的變量是造成評(píng)教結(jié)果差異的主要來(lái)源,而能夠反映評(píng)分者信度的特征只能解釋小部分的學(xué)生評(píng)教結(jié)果差異[7]。
上述3項(xiàng)研究證明,在學(xué)生評(píng)教中,評(píng)分者信度普遍較低。早期研究由于在研究設(shè)計(jì)上存在問(wèn)題,從而夸大了學(xué)生評(píng)教的信度。不過(guò),學(xué)者們意識(shí)到特定的評(píng)教工具可能對(duì)信度有所影響,因此沒(méi)有徹底推翻學(xué)生評(píng)教信度較高的傳統(tǒng)結(jié)論。
學(xué)生評(píng)教效度(或有效性)指評(píng)教結(jié)果反映教學(xué)有效性的程度。斯博仁(Spooren)指出,教育學(xué)家僅在教學(xué)有效性的一些特征(例如豐富的學(xué)科知識(shí)、良好的課程組織、幫助學(xué)生學(xué)習(xí)、具有教學(xué)熱情、及時(shí)反饋、與學(xué)生進(jìn)行互動(dòng)等)上達(dá)成共識(shí),但還未能明確定義教學(xué)有效性[8]。因此基于這些模糊的教學(xué)有效性特征而建立起的學(xué)生評(píng)教工具之間存在著較大差異,常常被詬病效度較低。對(duì)此,以馬什為代表的學(xué)者們提出,可轉(zhuǎn)而研究學(xué)生評(píng)教與其他衡量教師教學(xué)有效性標(biāo)準(zhǔn)之間的相關(guān)性,并以此來(lái)檢測(cè)學(xué)生評(píng)教的建構(gòu)效度(construct validity)。如果學(xué)生評(píng)教結(jié)果與學(xué)生學(xué)習(xí)成就、教師自評(píng)、同行評(píng)議等教師教學(xué)有效性標(biāo)準(zhǔn)的測(cè)量結(jié)果正相關(guān),并且特定的學(xué)生評(píng)教因子與其在邏輯和理論上聯(lián)系最緊密的變量高度相關(guān),則說(shuō)明學(xué)生評(píng)教的效度較高[3]。
自1974年蘇利文(Sullivan)等人[9]發(fā)現(xiàn)學(xué)生評(píng)教與學(xué)生的平均測(cè)驗(yàn)成績(jī)存在正相關(guān)以來(lái),學(xué)者們使用不同的評(píng)教工具與學(xué)習(xí)成就測(cè)量工具,運(yùn)用多種方法對(duì)二者的相關(guān)性展開(kāi)了研究,得出了不一致的結(jié)論。就研究方法來(lái)說(shuō),為了比較學(xué)生在不同課程中獲得的學(xué)業(yè)成就,學(xué)者們一般使用多段效度范式(multisection validity paradigm)。近期也有比較新穎的研究方法出現(xiàn),如加爾布雷斯(Galbraith)使用的神經(jīng)網(wǎng)絡(luò)分析法(neural network analysis)[10]。就研究結(jié)論來(lái)說(shuō),克雷森的元分析顯示,由于統(tǒng)計(jì)的復(fù)雜性隨時(shí)間推移而不斷提高,總體趨勢(shì)是后期研究得出的二者相關(guān)性普遍小于前期的研究結(jié)果??死咨仓赋觯斐裳芯拷Y(jié)論不一致的最主要原因還是測(cè)量工具的差異。學(xué)生評(píng)教和學(xué)生學(xué)習(xí)成就的測(cè)量工具越客觀,二者的相關(guān)性越小[11]。斯特勒(Stehle)的研究也證明了這一觀點(diǎn),并解釋了不同測(cè)量工具影響研究結(jié)論的原因。由于客觀考試(在斯特勒的研究中是多選題考試)一般考察陳述性知識(shí),這類知識(shí)可通過(guò)自學(xué)、背誦等渠道獲得,教師在其中發(fā)揮的作用不大。而主觀考試(在研究中是考察實(shí)踐操作能力的考試)涉及的知識(shí)更有可能由教師傳授獲得,教師的教學(xué)目標(biāo)也與主觀題考察的分析問(wèn)題、應(yīng)用知識(shí)更相符[12]。因此,與主觀測(cè)試相比,客觀的學(xué)生學(xué)業(yè)成就測(cè)量工具往往更難檢測(cè)出教師的作用,測(cè)量結(jié)果也就與反映教師教學(xué)有效性的學(xué)生評(píng)教結(jié)果更不相關(guān)。不過(guò),也有與測(cè)量方法無(wú)關(guān)的因素影響著二者的相關(guān)性,如學(xué)科差異等[11]??梢?jiàn),學(xué)生評(píng)教與學(xué)生學(xué)習(xí)成就的關(guān)系十分復(fù)雜,“評(píng)教結(jié)果好的教師能讓學(xué)生收獲更多知識(shí)”這種簡(jiǎn)單的論斷并不準(zhǔn)確[10]。
也有研究涉及學(xué)生評(píng)教與教師對(duì)教學(xué)效果的自評(píng)、同行和管理者評(píng)價(jià)、專業(yè)觀察者評(píng)價(jià)的相關(guān)性,但是這類研究數(shù)量較少。正如馬什提出的,檢驗(yàn)學(xué)生評(píng)教與其他教學(xué)有效性標(biāo)準(zhǔn)之間的關(guān)系時(shí)必須注意評(píng)教的多維性[3]。如研究學(xué)生評(píng)教與教師自評(píng)的相關(guān)性時(shí),不僅要檢驗(yàn)二者在總體評(píng)價(jià)上的相關(guān)性,還要在不同的評(píng)教維度(例如課堂管理、教學(xué)熱情、與學(xué)生相處情況等)上檢驗(yàn)相關(guān)性。另外,目前也缺少對(duì)學(xué)生評(píng)教與學(xué)生學(xué)習(xí)動(dòng)機(jī)、學(xué)習(xí)策略、學(xué)習(xí)興趣之間關(guān)系的探討。教師教學(xué)對(duì)學(xué)生學(xué)習(xí)的促進(jìn)不應(yīng)只表現(xiàn)在學(xué)習(xí)成就方面,但學(xué)生在態(tài)度、策略等方面的變化是否可以作為教學(xué)有效性的衡量標(biāo)準(zhǔn)、與學(xué)生評(píng)教存在怎樣的關(guān)系還有待研究。綜上所述,學(xué)生評(píng)教效度是一個(gè)被不斷討論但仍存在爭(zhēng)議,有待繼續(xù)深化研究的主題。
常見(jiàn)的非教學(xué)因素包括教師、學(xué)生和課程的背景特征(background characteristics)如教師的性別、職稱和教齡,學(xué)生的興趣、選課原因和預(yù)期分?jǐn)?shù),課程類型、課程安排和課程難易程度等。
1.分?jǐn)?shù)對(duì)學(xué)生評(píng)教的影響
教師和學(xué)生之間若存在分?jǐn)?shù)互惠關(guān)系,則很容易引發(fā)分?jǐn)?shù)膨脹效應(yīng)。因此學(xué)者們就學(xué)生分?jǐn)?shù)特別是高于實(shí)際學(xué)習(xí)水平的分?jǐn)?shù)對(duì)評(píng)教結(jié)果的影響進(jìn)行了大量研究。
首先,學(xué)生分?jǐn)?shù)概念的外延擴(kuò)大了。早期對(duì)學(xué)生分?jǐn)?shù)的討論局限于實(shí)際分?jǐn)?shù)(如課程考試分?jǐn)?shù))和預(yù)期分?jǐn)?shù)(可能反映學(xué)生的真實(shí)學(xué)習(xí)水平和受教師評(píng)分標(biāo)準(zhǔn)影響的期待分?jǐn)?shù))。而艾斯利(Isely)指出,學(xué)生的相對(duì)預(yù)期分?jǐn)?shù)(Relative Expected Grade,即預(yù)期分?jǐn)?shù)與歷史分?jǐn)?shù)的差值)比預(yù)期分?jǐn)?shù)更顯著影響學(xué)生評(píng)教結(jié)果。這是由于歷史分?jǐn)?shù)代表了學(xué)生習(xí)慣接受的成績(jī),而預(yù)期分?jǐn)?shù)可能受具體教師打分習(xí)慣的影響,這兩個(gè)成績(jī)的差值更能反映教師寬松打分的程度,因此應(yīng)將相對(duì)預(yù)期分?jǐn)?shù)作為學(xué)生分?jǐn)?shù)對(duì)學(xué)生評(píng)教影響的解釋變量[13]。
其次,研究結(jié)論各執(zhí)一詞。對(duì)學(xué)生分?jǐn)?shù)和學(xué)生評(píng)教存在正相關(guān)關(guān)系的解釋衍生出支持兩種截然不同的假設(shè):支持評(píng)分寬大假設(shè)和支持效度假設(shè)。支持評(píng)分寬大假設(shè)(grading leniency hypothesis)的學(xué)者認(rèn)為,分?jǐn)?shù)互惠導(dǎo)致了正相關(guān),因此寬大評(píng)分是學(xué)生評(píng)教的重要潛在偏差來(lái)源。而支持效度假設(shè)(validity hypothesis)的學(xué)者認(rèn)為,評(píng)教分?jǐn)?shù)高的教師確實(shí)促進(jìn)了學(xué)生學(xué)習(xí),這些學(xué)習(xí)效果好的學(xué)生獲得了更高的分?jǐn)?shù),二者的正相關(guān)關(guān)系恰好證明了學(xué)生評(píng)教的效度較高[14]。這兩種假設(shè)的支持者經(jīng)過(guò)多年討論仍各執(zhí)一詞。支持評(píng)分寬大假設(shè)的學(xué)者用數(shù)據(jù)證明,當(dāng)學(xué)生預(yù)期分?jǐn)?shù)增加1個(gè)單位時(shí),學(xué)生評(píng)教分?jǐn)?shù)也會(huì)相應(yīng)增加[15]。朗本(Langbein)在控制預(yù)期分?jǐn)?shù)、教師和課程特征的影響后也發(fā)現(xiàn),給學(xué)生打分高的教師會(huì)在學(xué)生評(píng)教中得到更高分?jǐn)?shù)。因此,學(xué)校若為迎合學(xué)生喜好,僅將學(xué)生評(píng)教結(jié)果作為評(píng)價(jià)教師教學(xué)水平的依據(jù)并以此進(jìn)行人事決策的話,就會(huì)在教師和學(xué)生中產(chǎn)生沃博艮湖效應(yīng)(Lake Wobegon Effect)——即教師的教學(xué)水平和學(xué)生的學(xué)習(xí)成就均虛有其表。這不僅不利于教師教學(xué)水平的提高,還會(huì)對(duì)就業(yè)市場(chǎng)有一定影響[16]??ɡ谞枺–arrell)的研究也發(fā)現(xiàn),寬大評(píng)分的做法盡管會(huì)使學(xué)生們一時(shí)取得高分,但學(xué)生卻在在后續(xù)課程中表現(xiàn)不佳。他同時(shí)指出,學(xué)生評(píng)教對(duì)學(xué)生在同期課程中的成績(jī)有正向預(yù)測(cè)作用,但對(duì)他們的后續(xù)成績(jī)的預(yù)測(cè)作用很差[17]。這說(shuō)明教師評(píng)學(xué)和學(xué)生評(píng)教都沒(méi)能反映出真實(shí)的學(xué)習(xí)和教學(xué)情況。布拉加(Braga)在卡雷爾研究的基礎(chǔ)上更進(jìn)一步,他證明了學(xué)生主要根據(jù)課堂中的實(shí)際效用即獲得的成績(jī)而非教師的教學(xué)效果來(lái)進(jìn)行評(píng)教[18]。這兩位學(xué)者的研究從另一個(gè)側(cè)面說(shuō)明學(xué)生評(píng)教容易受到寬大評(píng)分的影響。捍衛(wèi)學(xué)生評(píng)教效度的學(xué)者重點(diǎn)反駁了評(píng)分寬大假設(shè)支持者對(duì)預(yù)期分?jǐn)?shù)與學(xué)生評(píng)教相關(guān)性的解讀,認(rèn)為預(yù)期分?jǐn)?shù)與學(xué)生真實(shí)學(xué)習(xí)水平更為相關(guān)。這種預(yù)期分?jǐn)?shù)與學(xué)生真實(shí)學(xué)習(xí)水平的相關(guān)性被稱為預(yù)期分?jǐn)?shù)的內(nèi)生性(endogeneity)。希維(Seiver)最早關(guān)注到這一點(diǎn),他認(rèn)為雖然前人研究發(fā)現(xiàn)預(yù)期成績(jī)影響學(xué)生對(duì)教師的評(píng)價(jià),但實(shí)際上教學(xué)質(zhì)量(用學(xué)生評(píng)教衡量)也可能影響預(yù)期成績(jī)[19]。在此之后,諸多學(xué)者的研究證明,當(dāng)控制教學(xué)質(zhì)量相關(guān)因素之后,預(yù)期成績(jī)對(duì)學(xué)生評(píng)教的影響會(huì)減弱。馬什等人發(fā)現(xiàn),一旦控制學(xué)生學(xué)習(xí)認(rèn)知的影響,班級(jí)平均預(yù)期分?jǐn)?shù)和學(xué)生評(píng)教之間的關(guān)系就被消除了[20]。森特拉(Centra)基于大樣本研究也發(fā)現(xiàn),學(xué)習(xí)成果對(duì)學(xué)生評(píng)教結(jié)果產(chǎn)生了很大的積極影響。而在控制學(xué)習(xí)成果后,預(yù)期成績(jī)通常不會(huì)影響學(xué)生評(píng)教結(jié)果[21]。斯博仁也認(rèn)為學(xué)生評(píng)教受學(xué)生分?jǐn)?shù)的影響較小,他運(yùn)用馬什編制的學(xué)生評(píng)教量表(Students'Evaluation of Teaching,簡(jiǎn)稱SET)[22],運(yùn)用交叉分類多層次分析(crossclassified multilevel analysis)探究了學(xué)生和教師特征對(duì)學(xué)生評(píng)教分?jǐn)?shù)的影響以及造成學(xué)生評(píng)教結(jié)果偏差的因素。結(jié)果顯示,人們普遍認(rèn)為會(huì)顯著影響評(píng)教結(jié)果的因素如學(xué)生的分?jǐn)?shù)、課堂參與以及教師的職稱等實(shí)際上對(duì)結(jié)果的影響并不大[23]。
還有研究者對(duì)分?jǐn)?shù)的影響持中立態(tài)度。如薩巴萊塔(Zabaleta)專門研究了學(xué)生課程所得分?jǐn)?shù)與評(píng)教結(jié)果之間的關(guān)系以及教師的年齡、性別、教學(xué)經(jīng)驗(yàn)等因素對(duì)二者的影響,并發(fā)現(xiàn)學(xué)生所得成績(jī)與評(píng)教結(jié)果之間的關(guān)系比較模糊[24]。由此可見(jiàn),關(guān)于分?jǐn)?shù)與學(xué)生評(píng)教之間的關(guān)系目前尚無(wú)共識(shí)。最近有學(xué)者指出,一些研究者似乎經(jīng)常從前人研究中挑選支持他們假設(shè)的結(jié)果,甚至產(chǎn)生了研究者偏差(experimenter bias)[25]。
2.教師魅力對(duì)學(xué)生評(píng)教的影響
近年來(lái)興起的對(duì)教師魅力的關(guān)注,源于一個(gè)廣泛使用的非官方學(xué)生評(píng)教網(wǎng)站——RateMyProfessor.com。大學(xué)開(kāi)始對(duì)學(xué)生評(píng)教結(jié)果進(jìn)行匿名處理之后,尋找不到足夠大的樣本成為困擾研究者的難題。因此,研究者開(kāi)始應(yīng)用評(píng)教網(wǎng)站上公開(kāi)的數(shù)據(jù)開(kāi)展研究。在各類評(píng)教網(wǎng)站中,RateMyProfessor.com的影響最為廣泛,它不僅成為美國(guó)學(xué)生選擇學(xué)校和課程時(shí)的參考資料,還被一些大學(xué)排行榜用作數(shù)據(jù)來(lái)源。許多學(xué)者認(rèn)為,對(duì)這種評(píng)教網(wǎng)站的數(shù)據(jù)進(jìn)行分析,將有助于深入理解學(xué)生評(píng)價(jià)教師的過(guò)程和潛在偏差。
RateMyProfessor.com網(wǎng)站使用的評(píng)教工具由4個(gè)維度組成:課程難度(easiness)、清晰度(clarity)、幫助度(helpfulness)和魅力度(hotness),其中魅力度是爭(zhēng)議較多的維度之一。費(fèi)爾頓(Felton)指出,課程的難易度以及教授的個(gè)人魅力等與教學(xué)無(wú)關(guān)的因素會(huì)影響學(xué)生評(píng)教結(jié)果[26]。他認(rèn)為個(gè)人魅力強(qiáng)的教師會(huì)產(chǎn)生光環(huán)效應(yīng),即這種好的總體印象會(huì)影響學(xué)生對(duì)其他方面的判斷。但這項(xiàng)研究沒(méi)有考慮到評(píng)分中的負(fù)值的缺失值,對(duì)此,費(fèi)爾頓在此基礎(chǔ)上做了改進(jìn)性研究,結(jié)果同樣發(fā)現(xiàn)總體教學(xué)質(zhì)量和教師個(gè)人魅力之間存在統(tǒng)計(jì)上的顯著相關(guān)[27]。羅森(Rosen)在費(fèi)爾頓的基礎(chǔ)上對(duì)魅力度數(shù)據(jù)進(jìn)行了更科學(xué)的處理,依然得出教學(xué)質(zhì)量評(píng)分與個(gè)人魅力呈正相關(guān)且不同學(xué)科獲得的評(píng)教分?jǐn)?shù)存在差異的結(jié)論[28]。這些研究都一致證明了教師個(gè)人魅力與學(xué)生評(píng)教之間的正相關(guān)關(guān)系。
隨著時(shí)間推移和數(shù)據(jù)處理技術(shù)的進(jìn)步,有學(xué)者開(kāi)始質(zhì)疑使用RateMyProfessor.com網(wǎng)站數(shù)據(jù)進(jìn)行研究的科學(xué)性問(wèn)題??死咨椭赋觯琑ateMyProfessor.com網(wǎng)站使用的評(píng)教工具不是評(píng)價(jià)教學(xué)有效性的工具,而更像是學(xué)生喜愛(ài)度量表,因此用這種工具評(píng)價(jià)教師教學(xué)質(zhì)量是不合理的。但也有研究發(fā)現(xiàn),RateMyProfessor.com網(wǎng)站的評(píng)教結(jié)果與院校自行組織的學(xué)生評(píng)教結(jié)果在統(tǒng)計(jì)上具有相關(guān)性,因此院校也需要重新檢查自己使用的評(píng)教工具[29]。除了教師個(gè)人魅力外,課程難易程度、教師性別等也是討論的熱點(diǎn),但研究結(jié)論尚未達(dá)成共識(shí)。另外,隨著網(wǎng)絡(luò)評(píng)教的興起,學(xué)者們開(kāi)始關(guān)注不回應(yīng)偏差(non-response bias)對(duì)學(xué)生評(píng)教的影響。賴森維茨(Reisenwitz)的研究指出,參與網(wǎng)絡(luò)評(píng)教的學(xué)生與未參與評(píng)教的學(xué)生在性別、種族、GPA方面存在顯著差異,拒絕參與評(píng)教的學(xué)生可能影響由參與評(píng)教學(xué)生組成的樣本的代表性。為此,大學(xué)應(yīng)通過(guò)加強(qiáng)動(dòng)員,采用紙質(zhì)評(píng)教與網(wǎng)絡(luò)評(píng)教相結(jié)合的方式來(lái)避免這種偏差[30]。
總體而言,非教學(xué)因素對(duì)學(xué)生評(píng)教的影響是一個(gè)討論豐富但結(jié)論不統(tǒng)一且仍有待繼續(xù)研究的主題。
如何使用學(xué)生評(píng)教結(jié)果來(lái)幫助教師提高教學(xué)水平呢?學(xué)生評(píng)教除了能為管理者人事決策提供信息外,還應(yīng)能診斷教師教學(xué)的優(yōu)缺點(diǎn)。盡管學(xué)生評(píng)教提供的信息有潛在的用處,但如果直接將學(xué)生評(píng)教結(jié)果反饋給教師,可能對(duì)教師教學(xué)水平的促進(jìn)作用非常有限。因?yàn)樵谌狈χ笇?dǎo)和幫助條件下,教師不一定會(huì)主動(dòng)改進(jìn)教學(xué)。甚至有學(xué)者發(fā)現(xiàn),學(xué)生評(píng)教的結(jié)果越負(fù)面,教師行為就越不可能發(fā)生變化[31]。馬什指出,學(xué)生評(píng)教結(jié)果摘要、針對(duì)教師個(gè)人的總結(jié)材料、結(jié)合學(xué)生評(píng)教結(jié)果的教學(xué)專家咨詢這3種反饋方式對(duì)教師教學(xué)水平的影響依次增大[22]。因此,學(xué)校管理者若想充分利用學(xué)生評(píng)教資源,應(yīng)當(dāng)請(qǐng)教學(xué)專家有針對(duì)性地幫助教師改善教學(xué)。另一個(gè)重要問(wèn)題是如何更加科學(xué)地解讀評(píng)教結(jié)果。學(xué)生評(píng)教結(jié)果可分為兩類:一類是評(píng)教分?jǐn)?shù),另一類是開(kāi)放性問(wèn)題的回答。首先,現(xiàn)實(shí)中存在管理者誤讀評(píng)教分?jǐn)?shù)的現(xiàn)象。博耶森(Boysen)發(fā)現(xiàn),管理者大多缺乏統(tǒng)計(jì)學(xué)知識(shí),因此經(jīng)常使用分高者更優(yōu)的慣性思維來(lái)比較不同教師的學(xué)生評(píng)教分?jǐn)?shù),這種比較甚至精確到學(xué)生評(píng)教平均分?jǐn)?shù)的小數(shù)點(diǎn)后3位。但實(shí)際上,比較學(xué)生評(píng)教中很小的差異是不科學(xué)的,因?yàn)榭赡苁桥c教學(xué)無(wú)關(guān)的因素影響了評(píng)教分?jǐn)?shù)。為此,他提出解釋學(xué)生評(píng)教結(jié)果的原則——不能直接對(duì)原始平均分進(jìn)行比較,要使用嚴(yán)格的統(tǒng)計(jì)方法如計(jì)算測(cè)量的標(biāo)準(zhǔn)誤和置信區(qū)間以及給出真分?jǐn)?shù)的范圍等[32]。其次,實(shí)踐中存在對(duì)學(xué)生評(píng)教信息挖掘不夠的問(wèn)題。雖然斯文尼奇(Svinicki)[33]的研究證明了開(kāi)放性評(píng)價(jià)在學(xué)生評(píng)教中具有重要作用,并建議在設(shè)計(jì)學(xué)生評(píng)教問(wèn)卷時(shí)關(guān)注設(shè)置開(kāi)放性問(wèn)題,但是由于開(kāi)放性問(wèn)題回答的文本量過(guò)大,相關(guān)人員并沒(méi)能挖掘其中蘊(yùn)含的豐富信息。近年來(lái),隨著文本分析軟件的發(fā)展,此種情況才有所改變。
學(xué)生評(píng)教作為一種手段和工具,是為滿足評(píng)價(jià)大學(xué)教學(xué)水平需要而產(chǎn)生和發(fā)展起來(lái)的。除了學(xué)生評(píng)教這種手段之外,教師自評(píng)、同行評(píng)價(jià)、督導(dǎo)評(píng)價(jià)等其他方法也在大學(xué)教學(xué)評(píng)價(jià)實(shí)踐中有所使用。相對(duì)而言,學(xué)生評(píng)教因其操作簡(jiǎn)便且能反映學(xué)生在教學(xué)和學(xué)校管理中的主體地位而被眾多院校采用,并已成為當(dāng)前最主要的教學(xué)評(píng)價(jià)手段。從知識(shí)圖譜分析結(jié)果來(lái)看,學(xué)生評(píng)教也是大學(xué)教學(xué)評(píng)價(jià)領(lǐng)域的熱門主題。盡管如此,很難說(shuō)學(xué)生評(píng)教就是最佳手段。學(xué)生評(píng)教的信度、效度、影響研究還有諸多有待討論之處。在尚未找到最佳手段之前,學(xué)生評(píng)教只能作為權(quán)宜之計(jì)而存在。
在有關(guān)大學(xué)教學(xué)水平評(píng)價(jià)的研究中,學(xué)者們不斷致力于對(duì)學(xué)生評(píng)教開(kāi)展深入細(xì)致的研究,以便持續(xù)推動(dòng)該方法的優(yōu)化并提升其科學(xué)性。假使未來(lái),人們能更清楚地揭示出學(xué)生評(píng)教實(shí)踐中的謎團(tuán)、困惑和可靠的技術(shù)路徑,學(xué)生評(píng)教將可為大學(xué)教學(xué)評(píng)價(jià)提供更為有力的幫助和貢獻(xiàn)。限于人們對(duì)學(xué)生評(píng)教當(dāng)前的認(rèn)識(shí)水平和實(shí)踐經(jīng)驗(yàn),保持清醒、理性和謹(jǐn)慎的態(tài)度應(yīng)用學(xué)生評(píng)教是十分必要的。沒(méi)有學(xué)生評(píng)教的大學(xué)教學(xué)評(píng)價(jià)是不完善和不全面的,但單純依賴學(xué)生評(píng)教開(kāi)展教學(xué)評(píng)價(jià)的做法也是不可取的。
格林沃爾德(Greenwald)[34]的研究為思考學(xué)生評(píng)教效度開(kāi)啟了更為廣闊的視角,他提出的4種效度——概念結(jié)構(gòu)、聚合效度、區(qū)分效度和結(jié)果效度實(shí)際上分別對(duì)應(yīng)于實(shí)踐中的如下4個(gè)基本問(wèn)題:學(xué)生評(píng)教的維度即指標(biāo)體系應(yīng)該是怎樣的?學(xué)生評(píng)教的結(jié)果能否真正篩選出那些可以稱之為有效的教學(xué)?教學(xué)之外的哪些因素影響學(xué)生評(píng)教的結(jié)果?學(xué)生評(píng)教是否能達(dá)到促進(jìn)教師專業(yè)發(fā)展的目的?這4個(gè)問(wèn)題也正是當(dāng)前我國(guó)大學(xué)在應(yīng)用學(xué)生評(píng)教過(guò)程中所面臨的困惑。
首先,在評(píng)教指標(biāo)體系方面,科學(xué)性不高是一個(gè)普遍問(wèn)題。例如,在不少院校,諸如“老師不遲到、不早退”之類的問(wèn)項(xiàng)常被用作評(píng)價(jià)維度。其實(shí),不遲到和不早退是教師教學(xué)中的一個(gè)事實(shí)行為,它并不需要學(xué)生做主觀價(jià)值判斷。對(duì)此類行為,利用技術(shù)手段如實(shí)記錄即可獲得證據(jù)。交由學(xué)生判斷,便出現(xiàn)與事實(shí)不符的調(diào)查結(jié)果。類似不科學(xué)的問(wèn)項(xiàng)在學(xué)生評(píng)教問(wèn)卷中的出現(xiàn),足以反映當(dāng)前我國(guó)院校學(xué)生評(píng)教問(wèn)卷的質(zhì)量是令人擔(dān)憂的。院校管理者或相關(guān)部門有時(shí)候并不重視學(xué)生評(píng)教問(wèn)卷的科學(xué)性,也較少開(kāi)展規(guī)范的科學(xué)研制,大多數(shù)時(shí)候是由非專業(yè)的管理人員依據(jù)經(jīng)驗(yàn)或是別校的樣例東拼西湊而成,也有不少院校的學(xué)生評(píng)教問(wèn)卷是由承擔(dān)問(wèn)卷實(shí)施系統(tǒng)的技術(shù)公司提供的。學(xué)生評(píng)教的有效性本來(lái)就受制于很多難以控制因素的影響,如再加之問(wèn)卷質(zhì)量科學(xué)性不夠的現(xiàn)實(shí),其結(jié)果的應(yīng)用和參考價(jià)值自然就大打折扣了。
其次,在關(guān)于學(xué)生評(píng)教結(jié)果與有效教學(xué)或?qū)W生學(xué)業(yè)成就之間的關(guān)系問(wèn)題上,克雷森和加爾布雷斯的研究結(jié)論顛覆了人們之前已經(jīng)形成的對(duì)此問(wèn)題的既有觀念和看法。本來(lái),人們只是想通過(guò)學(xué)生評(píng)教促進(jìn)教師更好地教學(xué)并最終達(dá)到學(xué)生獲得更多學(xué)業(yè)成就的目的,現(xiàn)在既然評(píng)教結(jié)果與學(xué)生學(xué)業(yè)成就之間的關(guān)系很模糊甚至很小的話,似乎實(shí)在沒(méi)有必要耗時(shí)耗力地實(shí)施學(xué)生評(píng)教了。的確,假使學(xué)生評(píng)教只有此種單一功能的話,放棄它沒(méi)有什么壞處。但是,學(xué)生評(píng)教已經(jīng)被寄托了除此之外的其他用途——課程教學(xué)質(zhì)量鑒定、教師人事決策、學(xué)生的課程教學(xué)滿意度測(cè)評(píng)等。
第三,如何恰當(dāng)看待影響學(xué)生評(píng)教結(jié)果的因素以及降低或控制這些影響因素。如前所述,有太多因素會(huì)影響或干擾學(xué)生評(píng)教的結(jié)果,這為后續(xù)充分利用學(xué)生評(píng)教結(jié)果實(shí)現(xiàn)其他管理目標(biāo)帶來(lái)客觀上的障礙和挑戰(zhàn)。隨著研究的深入,有可能還會(huì)進(jìn)一步發(fā)現(xiàn)更多的影響因素。發(fā)現(xiàn)這些影響因素是必要的,但更重要的是在實(shí)施學(xué)生評(píng)教時(shí)如何控制這些影響因素,或是將其作為控制變量,這是后續(xù)有待深入研究的一個(gè)重要方向。
最后,在教師人事管理中如何恰當(dāng)利用學(xué)生評(píng)教的結(jié)果。簡(jiǎn)單地將學(xué)生評(píng)教結(jié)果與教師的獎(jiǎng)懲、薪資直接掛鉤的做法是不當(dāng)?shù)模彩遣回?fù)責(zé)任的。但現(xiàn)實(shí)中,有很多院校卻是這樣做的。這種做法歪曲了學(xué)生評(píng)教本該具有的良好價(jià)值屬性,并導(dǎo)致教師對(duì)學(xué)生評(píng)教產(chǎn)生更大的抱怨和誤解,甚至還會(huì)促使教師與學(xué)生聯(lián)手合作——學(xué)生獲得滿意的分?jǐn)?shù)、教師得到中意的評(píng)教結(jié)果。學(xué)生評(píng)教作為教學(xué)評(píng)價(jià)手段的初衷本是服務(wù)于教師專業(yè)發(fā)展,確切地說(shuō),是用于尋找和收集教師教學(xué)的不足與缺陷。
基于人們對(duì)學(xué)生評(píng)教的認(rèn)識(shí)水平和應(yīng)用現(xiàn)狀,有兩類風(fēng)險(xiǎn)在實(shí)施學(xué)生評(píng)教時(shí)應(yīng)予以正視和防范。
一是系統(tǒng)性風(fēng)險(xiǎn)。系統(tǒng)性風(fēng)險(xiǎn)是指那些由學(xué)生評(píng)教作為一種評(píng)價(jià)手段的功能局限而帶來(lái)的風(fēng)險(xiǎn)。上述的學(xué)生評(píng)教結(jié)果未必與學(xué)生學(xué)業(yè)成就以及有效教學(xué)之間密切相關(guān)、諸多目前尚難以控制的因素對(duì)學(xué)生評(píng)教結(jié)果的影響等均屬于系統(tǒng)性風(fēng)險(xiǎn)。系統(tǒng)性風(fēng)險(xiǎn)是不可避免的,但卻是可容忍的。畢竟,任何事物都有其固有的局限性。防范系統(tǒng)性風(fēng)險(xiǎn)的根本辦法是在任何時(shí)候都不要把學(xué)生評(píng)教作為衡量大學(xué)教學(xué)水平的唯一手段。與此同時(shí),通過(guò)加深對(duì)學(xué)生評(píng)教客觀規(guī)律的認(rèn)識(shí)來(lái)給學(xué)生評(píng)教實(shí)踐“打補(bǔ)丁”。另一種風(fēng)險(xiǎn)是誤用性風(fēng)險(xiǎn)。誤用性風(fēng)險(xiǎn)是指那些因未能使用科學(xué)的學(xué)生評(píng)教問(wèn)卷或是濫用學(xué)生評(píng)教結(jié)果而導(dǎo)致的風(fēng)險(xiǎn),如使用低質(zhì)量的學(xué)生評(píng)教問(wèn)卷、將學(xué)生評(píng)教結(jié)果與教師獎(jiǎng)懲、薪水直接掛鉤等就屬于誤用性風(fēng)險(xiǎn)。誤用性風(fēng)險(xiǎn)的危害遠(yuǎn)大于系統(tǒng)性風(fēng)險(xiǎn),是需要力爭(zhēng)在實(shí)踐中予以有效防范的。要想做到這一點(diǎn),首先需要教學(xué)管理人員樹(shù)立對(duì)教育科學(xué)成果的敬畏之心,其次,在學(xué)生評(píng)教問(wèn)卷研制、結(jié)果運(yùn)用的過(guò)程中盡可能地吸收教師和學(xué)生的意見(jiàn)和建議。