杜佳恒 邱飛岳
摘要:學(xué)生的成績(jī)是教師優(yōu)化教學(xué)過(guò)程、調(diào)整教學(xué)決策的重要標(biāo)準(zhǔn),文章運(yùn)用了多種機(jī)器學(xué)習(xí)算法對(duì)學(xué)生的數(shù)學(xué)成績(jī)進(jìn)行建模,通過(guò)比較模型的準(zhǔn)確率、精確率、召回率、F1-Score,最終確定了人工神經(jīng)網(wǎng)絡(luò)是最優(yōu)的模型。通過(guò)對(duì)數(shù)據(jù)特征重要性評(píng)估,得出了影響學(xué)生成績(jī)的主要因素是母親的工作、父親的工作、出勤量、掛科數(shù)、健康狀況、出去玩的頻率及周飲酒量的結(jié)論。
關(guān)鍵詞:機(jī)器學(xué)習(xí);成績(jī)預(yù)測(cè);支持向量機(jī);樸素貝葉斯網(wǎng)絡(luò);決策樹(shù);神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1674-9324(2020)16-0101-02
一、引言
近年來(lái),隨著信息技術(shù)的發(fā)展,人類正從IT時(shí)代走向DT時(shí)代,教育相關(guān)的數(shù)據(jù)在內(nèi)容與數(shù)量上有了巨大的增長(zhǎng),越來(lái)越多的研究者開(kāi)始對(duì)教育數(shù)據(jù)進(jìn)行探索和分析,目的是發(fā)現(xiàn)教育的新特點(diǎn)、新規(guī)律,以提高教學(xué)水平和教育質(zhì)量。本研究將機(jī)器學(xué)習(xí)算法方面的內(nèi)容應(yīng)用到教育領(lǐng)域中,通過(guò)對(duì)學(xué)生數(shù)學(xué)成績(jī)數(shù)據(jù)進(jìn)行預(yù)處理、特征選擇、模型構(gòu)建及評(píng)估來(lái)預(yù)測(cè)學(xué)生的成績(jī),從而為老師提高學(xué)生成績(jī)提供一定的建議。
二、研究方法
本次研究將采用多種機(jī)器學(xué)習(xí)算法對(duì)學(xué)生的成績(jī)進(jìn)行預(yù)測(cè),包括支持向量機(jī)、樸素貝葉斯網(wǎng)絡(luò)、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)。通過(guò)對(duì)各個(gè)模型的對(duì)比,最終選擇出一個(gè)最優(yōu)的模型,并根據(jù)該最優(yōu)模型為老師的教和學(xué)生的學(xué)提供一定的指導(dǎo)。
三、實(shí)驗(yàn)數(shù)據(jù)
本次研究中用到的數(shù)據(jù)集來(lái)源UCIMachineLearningRepository,它是一個(gè)多變量數(shù)據(jù)集,由30個(gè)特征列和一個(gè)目標(biāo)列構(gòu)成,包括395條學(xué)生數(shù)學(xué)成績(jī)及一些影響成績(jī)的相關(guān)數(shù)據(jù),如人口統(tǒng)計(jì)學(xué)、社會(huì)和學(xué)校相關(guān)的數(shù)據(jù)等。
四、數(shù)據(jù)預(yù)處理與特征選擇
首先對(duì)數(shù)據(jù)進(jìn)行探索性分析,檢查數(shù)據(jù)集有沒(méi)有空缺值及異常值;對(duì)于目標(biāo)列,這里按照大于10分設(shè)為1,其他為0的方式進(jìn)行量化,目的是通過(guò)訓(xùn)練,找出可以預(yù)測(cè)分?jǐn)?shù)的模型。由于該數(shù)據(jù)集包含不同內(nèi)容和范圍的數(shù)據(jù),所以如何對(duì)其進(jìn)行歸一化就顯得特別重要,因?yàn)檫M(jìn)行了歸一化后的數(shù)據(jù)可以使模型更加有效地進(jìn)行建模。對(duì)于文本數(shù)據(jù),我們首先可以將其數(shù)字化,而后對(duì)其進(jìn)行獨(dú)熱編碼。
其次是特征選擇,特征選擇主要的特點(diǎn)是選擇一個(gè)子類的特性,可以作為一個(gè)輸入數(shù)據(jù),并減少不合適的數(shù)據(jù),此步驟有助于提高對(duì)給定數(shù)據(jù)集預(yù)測(cè)的準(zhǔn)確性。在本研究中,我們采用隨機(jī)森林計(jì)算特征重要性程度,以檢驗(yàn)?zāi)男┨卣鲗?duì)學(xué)生的成績(jī)最重要。圖1顯示了基于熵的特征重要性。在特征選擇過(guò)程中,需要選擇高等級(jí)特征,排除其他特征。
五、成績(jī)預(yù)測(cè)模型構(gòu)建
基于上述預(yù)處理后的數(shù)據(jù),采用10折交叉驗(yàn)證的方式,分別采用支持向量機(jī)、樸素貝葉斯網(wǎng)絡(luò)、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)。
實(shí)驗(yàn)運(yùn)行的環(huán)境是:Windows10家庭版、Python3.7、Inteli7-7500U以及8G內(nèi)存。預(yù)測(cè)模型各個(gè)指標(biāo)的性能如表1和表2所示。這里使用的性能評(píng)價(jià)標(biāo)準(zhǔn)為準(zhǔn)確率、精確率、召回率、F1-Score。準(zhǔn)確率是用來(lái)衡量模型對(duì)數(shù)據(jù)集中樣本預(yù)測(cè)正確的比例;精確率是指被預(yù)測(cè)為正例的樣本中有多少是真正的正例;召回率是用來(lái)評(píng)判你有沒(méi)有把樣本中所有的真的正例全部找出來(lái),指的是預(yù)測(cè)為某一類別的真實(shí)類別占所有真實(shí)類別的比例;F1-Score是指精確率與召回率的調(diào)和平均值。
六、總結(jié)
本文通過(guò)多種算法對(duì)學(xué)生成績(jī)進(jìn)行了建模,通過(guò)比較模型的準(zhǔn)確率、精確率、召回率、F值,確定了人工神經(jīng)網(wǎng)絡(luò)為最佳的分類模型,并得出了影響成績(jī)的主要特征。通過(guò)實(shí)驗(yàn)結(jié)果,可以為學(xué)校管理者、教師開(kāi)展精準(zhǔn)教學(xué)提供一定的參考,由于本次數(shù)據(jù)集不大,會(huì)影響模型的準(zhǔn)確率,接下來(lái)將會(huì)收集更多數(shù)據(jù)進(jìn)行建模。
參考文獻(xiàn):
[1]胡祖輝,徐毅.大數(shù)據(jù)背景下高校教育數(shù)據(jù)的分析與應(yīng)用研究[J].現(xiàn)代教育科學(xué),2017,(01):109-114.
[2]徐瑋.大數(shù)據(jù)對(duì)高等教育的影響和挑戰(zhàn)[J].教育教學(xué)論壇,2013,(37):4-5.
[3]ROMERO C,LOPEZ MI.Predictingstudents'final performance from participation in on-line discussion forums[J].Computers & Education,2013,(68):458-472.
Research on the Application of Machine Learning in Mathematics Achievement Prediction
DU Jia-heng,QIU Fei-yue
(Zhejiang University Technology,Hangzhou,Zhejiang 310014,Chian)
Abstract:Students' performance is an important standard for teachers to optimize teaching process and adjust teaching decision-making.In this paper,a variety of machine learning algorithms are used to model students' mathematical performance.By comparing the accuracy,accuracy,recall rate and F1 score of the model,it is finally determined that the artificial neural network is the optimal model.Through the evaluation of the importance of data characteristics,the main factors affecting students' performance are mother's work,father's work,attendance,number of subjects,health status,frequency of going out to play and weekly alcohol consumption.
Key words:machine learning;performance prediction;support vector machine;naive bayesian network;decision tree;neural network
收稿日期:2019-06-10
作者簡(jiǎn)介:杜佳恒(1994-),男(漢族),浙江杭州人,浙江工業(yè)大學(xué)教育科學(xué)與技術(shù)學(xué)院,碩士研究生在讀,研究方向:教育大數(shù)據(jù)與學(xué)習(xí)分析。
通訊作者:邱飛岳。