覃斌毅 李蕓
摘要:在高校教學活動中,學生期末考試成績是評估學生對所學知識掌握程度的重要依據(jù),也是評價教學質量的重要指標之一。學生在課程學習中的學習行為與期末考試成績存在著一種量化關系。本文使用雨課堂對課程學習數(shù)據(jù)進行采集,然后使用主成分分析方法對數(shù)據(jù)進行分析,并通過混淆矩陣評價成績預測結果,最終實現(xiàn)通過平時課堂學習數(shù)據(jù)預測課程期末成績。
關鍵詞:雨課堂主成分分析成績預測混淆矩陣
Abstract: In college teaching activities, students' final examination results are not only an important basis for evaluating students' mastery of knowledge, but also one of the important indicators for evaluating teaching quality.There is a quantitative relationship between students' learning behavior in course learning and their final exam scores. In this paper, the rain classroom is used to collect the course learning data, then the principal component analysis method is used to analyze the data, and the score prediction results are evaluated through the confusion matrix. Finally, the final score of the course is predicted through the usual classroom learning data.
Key Words: Rain classroom; Principal component analysis; Performance prediction; Confusion matrix
《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》中提出“推動信息技術和高等教育的合理融合,利用信息化工具和平臺提升教學水平”。在高校教學活動中,學生期末考試成績是評估學生對所學知識掌握程度的重要依據(jù),也是評價教學質量的重要指標之一。研究表明,學生在課程學習中的學習行為與期末考試成績存在著一種量化關系。通過這種量化關系,可以根據(jù)學生在課程中的學習行為,預測出學生期末考試是否會掛科,使得教師在教學過程中及時對存在掛科風險的學生進行指導,避免掛科,從而提高教學質量。如何利用信息化工具,記錄下學生在課程學習中的學習行為數(shù)據(jù),并對數(shù)據(jù)進行分析,得出學習行為與課程期末考試成績的聯(lián)系,建立期末成績預測模型,具有實際應用價值。
在國外,Shaymaa E.Sorour等[1]人通過分析學生的課程評論數(shù)據(jù),提取出評論屬性,然后利用決策樹和隨機森林算法預測學生課程成績。Agoritsa Polyzou等[2]人利用線性回歸和矩陣因子分解對學生個人已修課程成績進行分析,進而對學生未修課程的成績進行預測。美國普渡大學構建了課程信號系統(tǒng)[3],該系統(tǒng)收集了學生過往學習的數(shù)據(jù),借助該系統(tǒng)可以預測學生在學習某一門課程中是否存在危機,及時向存在危機風險的學生提出合理的建議,并選擇合適的學習資源推送給學生,降低學習危機發(fā)生率。Juan A. Lara等[4]人建立了輟學學生和完成課程的學生的參考模型,該模型分析的數(shù)據(jù)來源于學生在Moodle學習平臺學習時所形成的交互數(shù)據(jù)。
在國內(nèi),謝露露等[5]使用神經(jīng)網(wǎng)絡對MOOC上學生學習的數(shù)據(jù)進行分析,取得了較好的預測成績結果。Liu等[6]從教學系統(tǒng)存儲的學生日志數(shù)據(jù)中提取出所需的特征,并利用提取的特征作為分類器的輸入,最終實現(xiàn)學生成績的預測。暴延敏[7]大數(shù)據(jù)使用支持向量機對學生的個人綜合數(shù)據(jù)進行建模,預測學生能否順利畢業(yè)。陳秀玲[8]使用主成分分析法對教務系統(tǒng)中收集到的教務數(shù)據(jù)進行分析,得出畢業(yè)學生綜合成績評定排名。賈靖怡等[9]建立了基于Adaboost算法的MOOC學習者徐向成績預測模型。黎龍珍[10]借助數(shù)據(jù)預處理方法和決策樹C4.5,對收集到在線學習的高維行為特征數(shù)據(jù)進行分析,建立了成績預測模型。
當前對課程成績預測的研究主要分析的是線上教學或特定的學生系統(tǒng)上的數(shù)據(jù),對線下課堂教學的數(shù)據(jù)分析較少。與線上教學不同,傳統(tǒng)的線下教學數(shù)據(jù)往往不易于收集。然而,線下教學仍是高校當前進行教學活動的主要形式。因此,如何收集并利用好線下教學的數(shù)據(jù)尤為重要,雨課堂就是一種很好的收集線下教學數(shù)據(jù)的教學工具。
在2016年,清華大學推出一款智慧教學工具—雨課堂。它將信息技術融入到課程教學中,在后臺對教學大數(shù)據(jù)進行“全景式”記錄,為整個教學過程提供數(shù)據(jù)化、智能化的信息支持。它的運行方式是通過增強微信和PPT這兩個常用軟件的功能,實現(xiàn)了課堂教學數(shù)據(jù)的采集[11][12]。
因此,本文提出借助雨課堂對課程學習數(shù)據(jù)進行采集,然后使用主成分分析方法對數(shù)據(jù)進行分析,并通過混淆矩陣評價成績預測結果,最終實現(xiàn)通過平時課堂學習數(shù)據(jù)預測課程期末成績。
1 主成分分析介紹
主成分分析(Principal Component Analysis,PCA)是統(tǒng)計學中的一種多元統(tǒng)計分析方法。它是通過將原始數(shù)據(jù)的多個變量通過線性變換,以選出較少個數(shù)重要變量。這些選出的重要變量往往包含了原始數(shù)據(jù)變量所包含的重要信息。
主成分是按照方差貢獻率的大小進行降序排序的,方差貢獻率最大的主成分稱為第1主成分,依次類推。
2 期末成績預測
2.1 預測目標
本文以課程《傳感器原理》為例,在該課程的教學過程中,使用雨課堂對學生課堂學習數(shù)據(jù)進行記錄。然后,借助主成分分析方法對數(shù)據(jù)進行分析,預測學生能否通過該門課程期末考試。
2.2 數(shù)據(jù)來源
本次使用的課堂數(shù)據(jù)來源于2019年春季期和2018春季期《傳感器原理》線下教學中使用雨課堂采集到的學生學習數(shù)據(jù),2019春季期教學班為48人,2018春季期教學班為43人。其中,學生學習數(shù)據(jù)包括每個章節(jié)的課堂練習情況、到課次數(shù)、平時成績等共10種變量。
2.3 代表性變量選取及合理性分析
在建模前,使用散點圖、計算期末成績與變量的相關系數(shù)結合的方法從10種變量中篩選出主成分分析需要的變量。
圖1為10個變量與期末成績的散點圖。圖1(a)反映了平時成績與期末成績的關系,其中平時成績是由課堂表現(xiàn)、課后作業(yè)來構成。從圖1(a)看到,以平時成績75分為分界線,平時成績大于75分的學生在期末考試均能通過;平時成績低于75分的學生則有可能出不及格的情況,表明平時成績與期末成績呈現(xiàn)一定的相關性。
圖1(b)反映了到課次數(shù)與期末成績的關系。從圖1(b)看到,以到課次數(shù)12次為分界線,到課次數(shù)大于12次的學生在期末考試均能通過;到課次數(shù)低于12次的學生期末考試均沒能通過。這表明到課次數(shù)與期末成績有較強的相關性。這是因為到課次數(shù)在一定程度上反映了學生對本門課程的重視程度,到課次數(shù)越低,說明學生對課程的重視程度越低,越容易導致掛科。
圖1(c)顯示的是全學期課堂練習正確題數(shù)與期末成績的關系。從圖1(c)看到,以正確題數(shù)10題為分界線,正確題數(shù)大于10道題的學生期末考試均能通過;正確題數(shù)低于10題的學生則可能出現(xiàn)不及格的情況,且隨著正確題數(shù)的減少,不及格的可能性隨之增大,表明全學期課堂練習正確題數(shù)與期末考試成績有相關性。這是因為課堂練習在一定程度上反映了學生當堂掌握知識的程度,學生當堂掌握知識越好,越有利于后期考試。
圖1(d)-圖1(j)顯示的是各個章節(jié)課堂練習正確題數(shù)與期末成績的關系。除了圖(f)第六章課堂練習正題數(shù)與期末成績呈現(xiàn)相關性以外,其他章節(jié)與期末成績沒有呈現(xiàn)明顯的相關性。這是因為期末考試涉及到各個章節(jié)的內(nèi)容,學生單一章節(jié)的練習情況難以反映對整個課程知識的掌握情況。
綜上所述,平時成績、到課次數(shù)、全學期課堂練習正確題數(shù)、第6章課堂練習正確題數(shù)這4種變量與期末成績相關性較強,可作為后續(xù)建模的備選變量。
為了進一步篩選出變量,分別計算期末成績與平時成績、到課次數(shù)、全學期課堂練習做正確題數(shù)、第六章課堂練習做正確題數(shù)的相關系數(shù),并以0.65為閾值,確定選取的變量。經(jīng)計算得出,期末成績與平時成績、到課次數(shù)、全學期課堂練習做正確題數(shù)、第六章課題練習做正確題數(shù)的相關系數(shù)分別為0.69、0.76、0.74、0.64。因此,最終選取平時成績、到課次數(shù)、全學期課堂練習做正確題數(shù)為主成分分析的輸入變量。
2.4 預測結果
在使用PCA前,先對選取的3種變量分別進行歸一化。然后,將歸一化后的變量作為PCA的輸入,以第一、第二、第三主成分作為坐標軸得到如圖2所示。在圖中,*表示期末不及格的學生,o表示期末及格的學生。從圖2看到,及格的學生分布在右半空間,而不及格的學生分布在左半空間,它們具有較明顯的區(qū)分度。
為了進一步分析預測結果,以第一主成分為橫軸,第二主成分為縱軸得到圖3。從圖3可以明顯看出,及格的學生位于右半平面,不及格的學生基本位于左半平面。此時,選擇以第一主成分-0.4處為分界線,落在分界線右側的點預測為及格,落在左側的點則預測為不及格。因而,根據(jù)主成分分析預測到該教學班48個學生中,6人期末考試會不及格。
3 預測效果評價
3.1 運用混淆矩陣模型評價預測結果
2019年春季期《傳感器原理》學生期末考試成績預測結果與學生期末考試成績實際結果對比圖(僅選取不及格部分對比)如表2所示。
根據(jù)表2,我們可以得到混淆矩陣如表3所示。
根據(jù)混淆矩陣,得到該模型的準確率為92%,召回率為75%,故模型具有較好的預測性能。
為了進一步驗證所提方法的泛化能力,本文使用相同的分析方法,對《傳感器原理》另一個班級2018年秋季期的期末成績運用主成分分析法進行預測,并與期末考試實際結果對比,得到混淆矩陣如表4所示。
根據(jù)混淆矩陣,得到該模型的準確率為100%,召回率為100%,進一步表明該模型具有很好的預測性能。
4 結語
本文利用雨課堂對線下教學數(shù)據(jù)進行收集,然后使用主成分分析PCA對數(shù)據(jù)進行分析,最終得出學生是否能通過期末考試的預測。研究結果表明,借助PCA對線下教學數(shù)據(jù)分析,可以準確預測出學生期末考試的通過情況,有助于及時對預警學生進行干預,避免掛科,提高教學質量。
參考文獻
[1] Sorour S E , Mine T . Building an Interpretable Model of Predicting Student Performance Using Comment Data Mining[C]// Iiai International Congress on Advanced Applied Informatics. IEEE, 2016.
[2] Polyzou A , Karypis G . Grade prediction with models specific to students and courses[J]. international journal of data science & analytics, 2016, 2(3-4):1-13.
[3] 劉艷華,徐鵬.大數(shù)據(jù)教育應用研究綜述及其典型案例解析——以美國普渡大學課程信號項目為例[J].軟件導刊(教育技術),2014,13(12):47-51.
[4] Jokhan A , Sharma B , Singh S . Early warning system as a predictor for student performance in higher education blended courses[J]. Studies in Higher Education, 2018:1-12.
[5] Li X , Xie L , Wang H . Grade Prediction in MOOCs[C]// 2016 IEEE Intl Conference on Computational Science and Engineering (CSE) and IEEE Intl Conference on Embedded and Ubiquitous Computing (EUC) and 15th Intl Symposium on Distributed Computing and Applications for Business Engineering (DCABES). IEEE, 2016.
[6] Liu W , Wu J , Gao X , et al. An early warning model of student achievement based on decision trees algorithm[C]// 2017 IEEE 6th International Conference on Teaching Assessment, and Learning for Engineering (TALE). IEEE, 2017.
[7] 暴延敏. 基于大學生行為分析的學業(yè)預警方法研究[D].石家莊:河北師范大學,2018.
[8]陳秀玲.基于貝葉斯k近鄰和主成分分析的教務數(shù)據(jù)挖掘研究[D].哈爾濱:哈爾濱工程大學,2007.
[9]賈靖怡,李玉斌,姚巧紅,袁子涵.基于AdaBoost的MOOC學習成績預測模型研究[J].軟件導刊,2021,20(3):242-246.
[10]黎龍珍.基于決策樹算法的在線學習成績預測[J].信息技術與信息化,2021(1):130-133.
[11]王帥國.雨課堂:移動互聯(lián)網(wǎng)與大數(shù)據(jù)背景下的智慧教學工具[J].現(xiàn)代教育技術,2017,27(5):26-32.
[12]覃斌毅,李蕓.基于Z管理圖的學生學習效果定性分析方法研究[J].科技視界,2021(1):46-48.