石榮月,范 勇,潘 婭,李叢磊,葛修婷
(西南科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,四川 綿陽 621000)
實施教育評價是教育教學(xué)決策的重要前提,而有效的教育評價依賴于全面的、可靠的評價機制。[1]對教學(xué)評價理論和實踐持續(xù)、深入地進行研究,科學(xué)、準(zhǔn)確、全面地評價教學(xué)質(zhì)量,則是促進教學(xué)目標(biāo)有效實現(xiàn)的必要條件之一。近年來,伴隨學(xué)生數(shù)量和運行數(shù)據(jù)的增加,迫切需要引入有效應(yīng)對大規(guī)模教學(xué)評價的技術(shù)和方法。而移動端的普及、APP開發(fā)技術(shù)和教育技術(shù)學(xué)科的發(fā)展,已使“增量評價”、“全面評價”、“可靠評價”為目標(biāo)的教學(xué)評價,有了技術(shù)和方法的保障。
在網(wǎng)絡(luò)普及的背景下,學(xué)生網(wǎng)上評價成為了高校教師教學(xué)質(zhì)量監(jiān)控的主要手段,部分學(xué)者將目光從傳統(tǒng)的學(xué)生評價轉(zhuǎn)移到網(wǎng)上評價。關(guān)于學(xué)生網(wǎng)上評價的實踐反思,曹輝等人在《高校學(xué)生網(wǎng)上評教的困境與反思》中認為,評價指標(biāo)過于抽象,評價指標(biāo)的題目過多,難以理解指標(biāo)體系的設(shè)置,未把學(xué)生需求放在中心地位,容易失去學(xué)生對評價的耐心;另外,網(wǎng)絡(luò)雖然為學(xué)生評價提供了方便的參評方式,但也使學(xué)生評價行為出現(xiàn)異化現(xiàn)象,這些網(wǎng)上評價被動參與行為所產(chǎn)生的評價結(jié)果是有失公允的。凌惜勤等認為傳統(tǒng)的高校學(xué)生評教活動多從學(xué)校管理本位出發(fā),主要體現(xiàn)教學(xué)管理者的意志和功利性,更注重“總結(jié)性”評價,信息反饋相對滯后,師生間溝通的渠道不暢,流于形式,效果欠佳??子鸨硎窘處熃虒W(xué)質(zhì)量評價中,提倡形成性評價,全面發(fā)揮評價功能,改變以往那種突出評價的選拔分等而忽視改進教育功能的做法。張欣在《學(xué)生網(wǎng)上評教的現(xiàn)狀、問題及對策研究》中指出,目前網(wǎng)上評價相關(guān)研究都大都停留在理論研究階段,而且網(wǎng)上評價得不到學(xué)校和相關(guān)部門的大力支持,利用評價結(jié)果來提高教學(xué)質(zhì)量的研究也很少。
綜上,網(wǎng)上評價主要存在以下不足:①學(xué)校多設(shè)置教學(xué)評價為查詢成績的前提條件,強制學(xué)生參與評價,學(xué)生為了盡快完成“任務(wù)”,隨意性較大,導(dǎo)致問卷可信度降低。②評價指標(biāo)過于煩瑣,為了對教學(xué)質(zhì)量進行“全面”評價,設(shè)立了過多的指標(biāo)。以西南某高校為例,大一至大三的學(xué)生每學(xué)期課程在10門左右。假設(shè)每個課程設(shè)立問題20個,就要做200個選擇題,花費了學(xué)生過多的時間和精力,可靠性也由于過度的煩瑣而值得懷疑。③充分利用評價結(jié)果,對教師進行持續(xù)跟蹤,旨在提高教學(xué)質(zhì)量的研究很少。④大部分研究停留在理論研究階段,缺少實證研究的支撐。
為了更深入地了解學(xué)生對教學(xué)評價的想法,審視我們現(xiàn)有的評價體系。本研究從各年級隨機抽取5名學(xué)生進行訪談,通過學(xué)生的訪談反饋,可以發(fā)現(xiàn)學(xué)生的不滿主要集中于以下兩點:①沒有自主選擇權(quán),忽略學(xué)生對課程的主體性評價。②學(xué)校片面強調(diào) “全面性”、“覆蓋式”指標(biāo)體系,忽視學(xué)生的個人意愿。
基于以上文獻研究和個人訪談結(jié)果,本研究擬結(jié)合目前智能終端的普及、“點贊”文化的流行,將教師教學(xué)評價系統(tǒng)部署在學(xué)生常用校園APP軟件上,對指標(biāo)體系進行精簡化處理,并賦予學(xué)生自主選擇評價課程的權(quán)利,反饋教師教學(xué)質(zhì)量,探討教師教學(xué)質(zhì)量的穩(wěn)定性。具體研究問題如下:①“點贊”形式下的移動端評價結(jié)果能否與專家評估吻合。②該評價方法能否獲得區(qū)分度較高的評價結(jié)果,使評價結(jié)果落到實處。③通過探索性分析,探討教師教學(xué)穩(wěn)定性情況。
隨著移動互聯(lián)網(wǎng)的普及,人們使用手機、pad等移動端上網(wǎng)的比例越來越高。用戶在移動端設(shè)備上用“點贊”來使內(nèi)心“喜愛和支持”的感情得以外化。同時點贊憑借其態(tài)度表達的直觀性和快速便捷低成本的優(yōu)勢,迅速成為社會生活中極為常見的傳播符號。[2]在對教師教學(xué)質(zhì)量的評價中,引入“點贊”的方式,一方面簡化了傳統(tǒng)的評價形式,增加了學(xué)生對評價的接受度,用這種“潮流”的方式可以激發(fā)學(xué)生的評價熱情。另一方面,“點贊”的方式能獲得相對真實的信息,篩選出優(yōu)秀教師及待改進教師。運用移動端統(tǒng)計的方式,可以持續(xù)跟蹤教師狀態(tài),獲得教師教學(xué)的穩(wěn)定性及波動性狀態(tài),統(tǒng)計出教師擅長的課程。
美國學(xué)者Howard研究表明:在大樣本情況下,“學(xué)生評價”是穩(wěn)定可靠的。本文采取學(xué)生評價方式,將評價系統(tǒng)嵌入學(xué)生日常使用的移動APP中(該移動APP提供官網(wǎng)新聞、課表、一卡通、圖書館、網(wǎng)易云課堂、圈子等特色功能),注冊學(xué)生數(shù)46722,日均活躍度16785。為解決學(xué)生自主選擇權(quán)的問題,在評價系統(tǒng)中設(shè)置由學(xué)生自己選擇要點贊的課程教師(學(xué)生最多選課程總數(shù)50%的課程,至少選1門課程),用“點贊”的方式為教師評價。這種設(shè)置節(jié)約了學(xué)生的評價時間,讓學(xué)生有掌控感,發(fā)揮了學(xué)生的主觀能動性,是一種基于學(xué)生視角的評價方式。
國內(nèi)不同高校評價的指標(biāo)各不相同,但是內(nèi)容大致包括教學(xué)態(tài)度、授課內(nèi)容、教學(xué)內(nèi)容、教學(xué)水平、教學(xué)效果、師德師風(fēng)等??傊?,沒有一個適用于所有高校的評價指標(biāo)和評價標(biāo)準(zhǔn),但是,在特定領(lǐng)域設(shè)計一個較為客觀的評價指標(biāo)體系仍是可能的。
本文通過文獻調(diào)研的方法,對國內(nèi)外相關(guān)文獻進行整理,初步確定教學(xué)評價的指標(biāo)清單。然后,以專家論證的方式對指標(biāo)進行修訂并最終確定教師教學(xué)質(zhì)量評價的指標(biāo)體系。指標(biāo)體系包括師德師風(fēng)、敬業(yè)精神和責(zé)任意識、課堂教與學(xué)氛圍、教學(xué)效果與收獲、興趣激發(fā)、教學(xué)水平。[3]參與評價是基于學(xué)生自愿,評價課程是由學(xué)生自主選擇,每位學(xué)生選評課程將在1~5門,僅根據(jù)指標(biāo)設(shè)立六個對應(yīng)的問題。即使主動降低了課程數(shù)和問卷數(shù),隨著學(xué)生主動評價、主動定位參評課程過程的進行,仍然提高了問卷的有效性,同時使課程區(qū)分度拉大,更便于定位優(yōu)秀課程和待改進課程。指標(biāo)編號及內(nèi)容對照情況如表1所示。
表1 指標(biāo)編號內(nèi)容對照表
關(guān)于指標(biāo)權(quán)重的確定,大多研究以德爾菲法、層次分析法、熵權(quán)法、均值法等來確定,本文采用層次分析法進行指標(biāo)權(quán)重的賦值。層次分析法是指通過不同指標(biāo)之間的兩兩比較來確定指標(biāo)間權(quán)重的方法,它也是一種定量與定性分析相結(jié)合的多目標(biāo)決策分析方法。它的系統(tǒng)性、所需定量數(shù)據(jù)少的特性使其受到很多研究者的追捧,這種方法對項目風(fēng)險評估過程中出現(xiàn)的多個指標(biāo)和方案的選擇提供了有效的解決方案。[4]
為得到較為合理的權(quán)重值,本研究選取五位教師參與調(diào)查,其中包括兩位正高級別管理層專家,這兩位專家學(xué)術(shù)水平、教學(xué)經(jīng)驗、管理經(jīng)驗都較為豐富并且經(jīng)常參與學(xué)院組織的專家評價活動。另外包含不參與管理工作的副高級別教師兩位、講師級別教師一位,旨在尊重被評價教師對評價內(nèi)容的看法。根據(jù)問卷反饋結(jié)果和層次分析法中T.L.Satty提出9個重要度等級(見表2),對六項指標(biāo)進行比較,建立五個6×6的矩陣模型。
表2 判斷矩陣標(biāo)度
Yaahp是一種層次分析法可視化建模與計算軟件。本研究應(yīng)用Yaahp軟件對采集到的專家數(shù)據(jù)(矩陣)進行處理,得到指標(biāo)的權(quán)重如表3所示。
表3 指標(biāo)權(quán)重
2017年6月中旬-2017年7月下旬、2018年1月中旬-2018年3月下旬開展調(diào)查,邀請學(xué)生通過移動APP回答相關(guān)調(diào)查題目。
根據(jù)馬什(Marsh)于1984年關(guān)于“學(xué)生評價”一致性的研究表明,當(dāng)有50個學(xué)生參加評價時,評價的可靠性為0.95;當(dāng)有25個學(xué)生參與時,評價的可靠性為0.90,保留參與人數(shù)在25人以上的課程。2017年秋季,從教師課程評價維度,參與調(diào)查的教師課程為1969門,保留評價人數(shù)大于25人的課程,刪除參與人數(shù)少于25人的課程,可評價課程731門。2018年春季,從教師課程評價維度,參與調(diào)查的教師課程為2119門,保留評價人數(shù)大于25人的課程,刪除參與人數(shù)少于25人的課程,可評價課程546門。
評價結(jié)果顯示,平均分為34左右,說明學(xué)生僅選擇3~4門課程進行了評價。在教學(xué)評價中,我們通常認為離散程度越高,區(qū)分度越好。2017年秋季和2018年春季評價結(jié)果方差分別為334.5和373.7,我們認為離散程度高,評價結(jié)果區(qū)分度好。2017年秋季和2018年春季評價偏度分別為0.354和0.424,分布為正偏或右偏,分布圖形在右邊拖尾,評價得分極高的教師偏少。2017年秋季和2018年春季的評價結(jié)果中,峰度均為負值,為低峰度,觀測值在分布中心附近沒有正態(tài)分布那樣集中,尾部更厚。如表4所示。
表4 描述性數(shù)據(jù)統(tǒng)計結(jié)果
參考美國教育測驗服務(wù)中心(ETS)的“學(xué)生教學(xué)評估報告表”(SIR)中將評價等級分為 “最好(前10%以內(nèi))、比大部分人好(前30%以內(nèi))、一般、比大部分人差(后30%以內(nèi))、最差(后l0%以內(nèi))”五個等級,將被評價課程的學(xué)生“點贊”率劃分為五個等級,評價主客體都能夠很精確地掌握指標(biāo)等級的劃定范圍。
將可評價課程導(dǎo)入數(shù)據(jù)庫,按照SIR的評價等級將課程劃分為五個等級后,分別求五個等級的平均值,如表5所示。
表5 評價結(jié)果等級匯總
一般學(xué)校評價結(jié)果平均分在90分以上,最低分不低于80分。本研究評價結(jié)果是由點贊率得來,而學(xué)生只選自己意愿中的百分之五十以內(nèi)的課程給予評價,所以課程結(jié)果非百分制計分,只表示相對分數(shù)。從表4可知,雖然學(xué)生更迭,授課教師也不盡相同,但是兩個學(xué)期各個區(qū)間的平均分卻十分接近。它說明,反映一個學(xué)校教學(xué)狀況的客觀規(guī)律是存在的,通過評價結(jié)果能明顯區(qū)分出課程優(yōu)劣。
在評分較高的區(qū)間中,每學(xué)期都包括高等數(shù)學(xué)、大學(xué)物理、程序設(shè)計等,不被學(xué)生歡迎的課程主要包括軍事理論、體育達標(biāo)、形勢與政策等課程。對每位教師的教學(xué)評分,我們每學(xué)期都征求有關(guān)領(lǐng)導(dǎo)的意見,特別是對評分高的或評分低的教師,我們都會同有關(guān)的系,做進一步的調(diào)查了解,發(fā)現(xiàn)大多數(shù)評分與教師本人的真實教學(xué)情況基本相符。由此可知,課程的受歡迎因素,不僅和教師授課水平息息相關(guān),課程內(nèi)容也是受學(xué)生喜歡的因素之一。
對該學(xué)校計算機學(xué)院的教師性別加以區(qū)分并進行男女教師評價結(jié)果的對比。同2017秋季的調(diào)查比較,2018春季學(xué)生對計算機學(xué)院的女性教師的滿意度有所下降,但是仍比男性教師高7.45。結(jié)合2017秋季的情況,可以發(fā)現(xiàn)計算機學(xué)院女教師的受歡迎程度高于男性教師。如圖1所示。
圖1 男女教師評價結(jié)果對比圖
從計算機學(xué)院評價結(jié)果中,隨機抽取八名兩學(xué)期都參與評價的教師,每個節(jié)點代表一名教師評優(yōu)結(jié)果的位置,可以發(fā)現(xiàn)教師三、教師五、教師八評價結(jié)果相對穩(wěn)定,兩個學(xué)期都處于分值較低的狀態(tài),調(diào)查發(fā)現(xiàn)教師三和教師五兩學(xué)期教同一門課程,教師八每學(xué)期教6門課程以上;而教師四和教師七兩學(xué)期評價結(jié)果波動很大,這兩位教師兩學(xué)期所教課程并非一門,并且無明顯關(guān)聯(lián),比如教師七2017年秋季所教課程為離散數(shù)學(xué),而2018年春季所教課程為程序設(shè)計。(見圖2)可見,教師擅長的課程也是影響評價結(jié)果的重要因素。這些數(shù)據(jù)可以幫助教研組指導(dǎo)教學(xué)檢查,選擇重點聽課對象,確定專題進行教研活動等。
圖2 教師教學(xué)質(zhì)量波動圖
為了考察學(xué)生評價與專家評價的吻合度,我們用學(xué)生調(diào)查同樣的指標(biāo)來編制專家問卷,用李克特五級量表測量專家評價等級,從“非常贊成”(5分)到“很不贊成”(1分)。專家以不記名的方式參加評價,選擇其中一項。以該高校計算機學(xué)院為測試點,聯(lián)系六名同行專家,以他們已有的聽課感受給教師評分。以同樣的權(quán)重為每位參評教師打分,按照“學(xué)生教學(xué)評估報告表”(SIR)中將教師劃分到不同區(qū)間。運用SPSS對專家數(shù)據(jù)和學(xué)生數(shù)據(jù)進行比對,皮爾遜相關(guān)系數(shù)為0.754,顯著性為0.00(顯著性<0.05,相關(guān)顯著),說明學(xué)生評價與專家評價吻合度較高。由于專家評價和學(xué)生評價的角度不同,例如專家聽課時容易受教師課堂教學(xué)的某些“表象”情況所影響。一位語音語調(diào)好、口語流利、板書工整清楚的教師容易受到專家的認同。[5]專家更注重教師“如何教”,而學(xué)生更多地體會“學(xué)到多少”。所以專家評價和學(xué)生評價又會有所不同。
由于本研究沒有學(xué)校和教師的協(xié)助,所以學(xué)生參與率和高于25人評價的課程相對較低,僅占所有課程的30%左右,仍有很大的提升空間。從高校和教師兩方面給予移動端評價以支持,可以進一步促使移動端的評價發(fā)揮最大的價值與意義。高校教務(wù)評價系統(tǒng)借鑒這種評價方式可以提高教學(xué)評價的有效性,發(fā)揮學(xué)生評價的功能。對于教師而言只有掌握了學(xué)生的評價信息后才能了解學(xué)生的需求與想法,進而改進教學(xué)。
本文在研究了高校教師教學(xué)質(zhì)量評價中的工作流程和特點后,借助于學(xué)校現(xiàn)有的移動端軟件,設(shè)計并實現(xiàn)了一套基于移動端的、運用目前流行的“點贊”形式的高校教師教學(xué)質(zhì)量評價系統(tǒng)。結(jié)合學(xué)生反饋的意見和建議,在評價過程中給學(xué)生自主選擇的權(quán)利,精簡了評價指標(biāo),評價結(jié)果能夠與專家評估相吻合。以學(xué)生為主體的移動端“點贊”評價結(jié)果,有明顯的區(qū)分度,較好地顯化了高校教師教學(xué)質(zhì)量??梢詫處煹脑u優(yōu)、提職、獎勵等提供行政決策性服務(wù)。通過對該高校計算機學(xué)院男女教師評價結(jié)果對比發(fā)現(xiàn),女教師明顯比男教師更受歡迎。學(xué)生評價是持續(xù)的,可以依據(jù)持續(xù)的評價結(jié)果跟蹤每位教師的教學(xué)穩(wěn)定性情況,發(fā)現(xiàn)教師擅長的課程,用來為改進教學(xué)服務(wù),協(xié)助管理者更好地考察、考核教師的教學(xué)質(zhì)量,并進行后續(xù)的跟蹤調(diào)查,提高教師的教學(xué)質(zhì)量。