王 娜,李勁松,潘子堯,姚明海*
(1.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013;2.渤海大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,遼寧 錦州 121013)
2022年10月16日,習(xí)近平總書記在中國共產(chǎn)黨第二十次全國代表大會上的報(bào)告中明確提出“高質(zhì)量發(fā)展是全面建設(shè)社會主義現(xiàn)代化國家的首要任務(wù)”[1]。推進(jìn)“高質(zhì)量發(fā)展”離不開高質(zhì)量的人才隊(duì)伍,所以提升教學(xué)質(zhì)量具有重大的現(xiàn)實(shí)意義[2]。早在2019年中共中央、國務(wù)院印發(fā)的《中國教育現(xiàn)代化2035》中就明確指出,要充分“利用現(xiàn)代技術(shù)加快推動人才培養(yǎng)模式改革,實(shí)現(xiàn)規(guī)?;逃c個(gè)性化培養(yǎng)的有機(jī)結(jié)合”著力提高教育質(zhì)量?;跀?shù)據(jù)挖掘相關(guān)理論的教育數(shù)據(jù)挖掘(Educational Data Mining,EDM)可以從各種教育數(shù)據(jù)中挖掘數(shù)據(jù)背后的教育規(guī)律,并可以為提高教育質(zhì)量提供數(shù)據(jù)支撐,已經(jīng)成為當(dāng)前教育工作者們關(guān)注的焦點(diǎn)[3-4]。成績預(yù)測或成績預(yù)警作為EDM的熱門研究領(lǐng)域之一,通過構(gòu)建有效的預(yù)測或預(yù)警模型預(yù)測其學(xué)習(xí)成績,發(fā)現(xiàn)成績可能不理想甚至有輟學(xué)風(fēng)險(xiǎn)的學(xué)生,為教師提供精確的教學(xué)指導(dǎo),為學(xué)生改變學(xué)習(xí)方式提供重要的參考依據(jù),對提高教學(xué)質(zhì)量具有重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義[5-6]。
近年來,國內(nèi)外學(xué)者在成績預(yù)測和成績預(yù)警方面開展了相關(guān)研究工作。劉曉雲(yún)等人利用多元線性回歸方法構(gòu)建預(yù)測高校學(xué)生畢業(yè)成績的模型[7]。Chen等人基于梯度提升決策樹算法、人工神經(jīng)網(wǎng)絡(luò)算法和K-means算法,構(gòu)建了一個(gè)基于學(xué)生行為特征的分析預(yù)測平臺[8]。雖然國內(nèi)外學(xué)者已經(jīng)對成績預(yù)測展開了相關(guān)研究,但是隨著大數(shù)據(jù)時(shí)代的到來,與學(xué)生成績相關(guān)如學(xué)生行為記錄、學(xué)生消費(fèi)習(xí)慣等教育數(shù)據(jù)變得越來越龐大。因?yàn)檎n程相關(guān)性,數(shù)據(jù)存在冗余信息等原因會影響基于這些數(shù)據(jù)構(gòu)建的成績預(yù)測或預(yù)警模型的性能。因此,有些學(xué)者開始嘗試?yán)锰卣鬟x擇的方法對數(shù)據(jù)進(jìn)行篩選。Gitinabard等人采用特征選擇和邏輯回歸的方法來預(yù)測學(xué)生是否退課[9]。Thaher等人利用改進(jìn)的鯨魚優(yōu)化算法從學(xué)生成績中選擇出有助于構(gòu)建精準(zhǔn)預(yù)測模型的特征[10]。雖然國內(nèi)外學(xué)者已經(jīng)開展了相關(guān)的研究工作,但如何構(gòu)建更為精準(zhǔn)的成績預(yù)測或預(yù)警模型仍是關(guān)注重點(diǎn)。
眾所周知,學(xué)位能否順利獲得深刻地影響著學(xué)生的未來發(fā)展[11]。如果能在大學(xué)初期就可以向獲得學(xué)位存在風(fēng)險(xiǎn)的同學(xué)發(fā)出預(yù)警,就可以督促學(xué)生及時(shí)改進(jìn)學(xué)習(xí)方式,保證其順利畢業(yè)。因此,提出基于特征選擇方法構(gòu)建更為精準(zhǔn)的學(xué)位預(yù)警模型。
特征選擇是為了構(gòu)建更精準(zhǔn)的學(xué)習(xí)模型而從原始特征中選擇出一個(gè)特征子集的理論方法。在特征選擇的過程中可以有效地去除噪聲、冗余等干擾信息,高效地進(jìn)行維數(shù)約簡,進(jìn)而提高學(xué)習(xí)性能,增加對學(xué)習(xí)結(jié)果的理解[12]。
基于Fisher得分的特征選擇方法是依據(jù)Fisher得分來尋找一組具有最好判別能力的特征子集的有監(jiān)督特征選擇方法[13]。其定義如公式(1)所示:
(1)
基于Fisher的特征選擇過程描述如下:
輸入:訓(xùn)練樣本集。其中,X表示n個(gè)具有d維特征的樣本;Q是全體特征集合。
輸出:選擇出的特征集D。
Fisher特征選擇方法通過計(jì)算原始特征的重要性得分來進(jìn)行特征選擇,方法簡單、直觀。因此,為了消除原始課程數(shù)據(jù)間的冗余信息,采用Fisher特征選擇方法來為構(gòu)建的學(xué)位預(yù)警模型篩選特征信息。
基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論的支持向量機(jī)(Support Vector Machine,SVM)算法[14]是一個(gè)高效的有監(jiān)督分類算法。其核心思想是在特征空間中建構(gòu)最優(yōu)分割超平面,使得分類器能夠得到全局最優(yōu)解。對于線性不可分的問題,SVM使用各種核函數(shù)將低維空間線性不可分的數(shù)據(jù)映射到高維特征空間,達(dá)到線性可分的結(jié)果。二維數(shù)據(jù)的SVM分類效果如圖1所示,圖中最優(yōu)超平面的方程為:
圖1 二維數(shù)據(jù)的SVM分類示意圖
f(x)=w·x+b=0
(2)
其中,樣本(xi,yi),xi∈Rd,yi∈{+1, -1},i=1,2,…,N,w是權(quán)重向量,b為尺度因子,權(quán)重向量和尺度因子決定了超平面的位置。
因SVM采用結(jié)構(gòu)風(fēng)險(xiǎn)最小準(zhǔn)則來訓(xùn)練分類器,能較好地處理樣本特征非線性、維數(shù)高等問題,使其具有精準(zhǔn)的分類能力[15]。因此,提出基于SVM構(gòu)建學(xué)位預(yù)警模型。
提出的基于Fisher特征選擇的學(xué)位預(yù)警模型主要包括數(shù)據(jù)預(yù)處理、模型構(gòu)建和學(xué)分預(yù)警三個(gè)部分,其算法流程如圖2所示??紤]到學(xué)生成績樣本的特殊性,在數(shù)據(jù)預(yù)處理階段要確保樣本數(shù)據(jù)的規(guī)范化。要對學(xué)生成績進(jìn)行篩選,例如,刪除選擇人數(shù)較少的課程數(shù)據(jù),刪除選課較少的學(xué)生(如退學(xué)、休學(xué)等)成績數(shù)據(jù)。此外,還要根據(jù)公式(3)對數(shù)據(jù)進(jìn)行歸一化處理。
(3)
在模型構(gòu)建階段首先利用Fisher算法進(jìn)行特征選擇;然后利用選擇后的特征構(gòu)建學(xué)位預(yù)警模型。在學(xué)位預(yù)警階段,首先將測試樣本依據(jù)特征選擇規(guī)則得到新的測試樣本;然后根據(jù)構(gòu)建好的預(yù)警模型判斷是否對學(xué)生進(jìn)行學(xué)位預(yù)警。
該文利用某高校2018級軟件工程專業(yè)、化學(xué)專業(yè)、會計(jì)學(xué)專業(yè)、漢語言文學(xué)專業(yè)學(xué)生的真實(shí)成績構(gòu)建學(xué)位預(yù)警模型,通過統(tǒng)計(jì)大量的隨機(jī)實(shí)驗(yàn)結(jié)果來驗(yàn)證用特征選擇的方法構(gòu)建預(yù)警模型的可行性和有效性。
實(shí)驗(yàn)數(shù)據(jù)為某高校開設(shè)的包括工學(xué)類、理學(xué)類、管理學(xué)類、文學(xué)類在內(nèi)的軟件工程專業(yè)、化學(xué)專業(yè)、會計(jì)學(xué)專業(yè)、漢語言文學(xué)專業(yè)學(xué)生在1、2、3學(xué)期所獲得的非學(xué)位課課程成績和最終的平均學(xué)位績點(diǎn)成績,并分別對各專業(yè)學(xué)生成績進(jìn)行如下處理:
(1)刪除選課人數(shù)過少(專業(yè)人數(shù)的10%)的課程;
(2)將格式為“優(yōu)秀”“良好”“中等”“及格”和“不及格”的等級成績替換為“95”“85”“75”“65”和“55”百分制成績;
(3)為了避免不同課程成績間數(shù)量級對實(shí)驗(yàn)結(jié)果的影響,將學(xué)生分?jǐn)?shù)成績歸一化到[0,1]區(qū)間內(nèi)。
最終,利用處理后的1、2、3學(xué)期非學(xué)位課課程成績和學(xué)位績點(diǎn)成績構(gòu)建各專業(yè)的學(xué)位預(yù)警模型,數(shù)據(jù)情況如表1所示。
表1 數(shù)據(jù)情況匯總
該文選用了有效、直觀的錯(cuò)誤率(ER)作為評價(jià)指標(biāo),其計(jì)算公式如公式(4)所示。此外,由于需要給出預(yù)警的樣本僅占總樣本的5%,使得正負(fù)樣本間存在嚴(yán)重的不平衡問題。因此,該文還用查全率(Recall)、查準(zhǔn)率(Precision)、錯(cuò)誤拒絕率(FRR)和錯(cuò)誤接受率(FAR)共同作為評價(jià)指標(biāo)。其中,錯(cuò)誤率值越低說明預(yù)警模型的預(yù)警準(zhǔn)確率越高;召回率又被稱為查全率,表示需要給出預(yù)警的樣本被正確給出預(yù)警的概率;查準(zhǔn)率又被稱為精準(zhǔn)率,表示被預(yù)警模型給出預(yù)警的樣本中真正需要做出預(yù)警的概率。錯(cuò)誤拒絕率預(yù)警模型判斷無需做出預(yù)警的樣本中實(shí)際應(yīng)該給出預(yù)警的概率;錯(cuò)誤接受率表示無需給出預(yù)警的而被錯(cuò)誤做出預(yù)警的概率。它們的計(jì)算公式分別為:
(4)
(5)
(6)
(7)
(8)
其中,TP和FN分別表示預(yù)警模型對應(yīng)該給出學(xué)位預(yù)警的樣本正確做出預(yù)警(正確預(yù)測)的樣本數(shù)量和沒有做出預(yù)警(錯(cuò)誤預(yù)測)的樣本數(shù)量;FP和TN分別表示預(yù)警模型對無需給出學(xué)位預(yù)警的樣本錯(cuò)誤給出預(yù)警(錯(cuò)誤預(yù)測)的樣本數(shù)量和沒有做出預(yù)警(正確預(yù)測)的樣本數(shù)量;TP+FN即正樣本的數(shù)量,TN+FP即負(fù)樣本的數(shù)量。
為了確保實(shí)驗(yàn)結(jié)果的穩(wěn)定性和證明算法的有效性,分別對每個(gè)專業(yè)進(jìn)行6組實(shí)驗(yàn)。實(shí)驗(yàn)1到實(shí)驗(yàn)6分別利用不同的訓(xùn)練樣本數(shù)量來構(gòu)建預(yù)警模型,6組實(shí)驗(yàn)中分別隨機(jī)選擇總樣本的40%、50%、60%、70%、80%和90%作為訓(xùn)練集,其余樣本數(shù)據(jù)作為測試集。每組實(shí)驗(yàn)都重復(fù)100次隨機(jī)選樣本,并將多次實(shí)驗(yàn)結(jié)果的平均值作為最終的統(tǒng)計(jì)結(jié)果。實(shí)驗(yàn)結(jié)果如表2至表6所示。
表2 各專業(yè)學(xué)位預(yù)警錯(cuò)誤率結(jié)果統(tǒng)計(jì)
從表2中可以看出,隨著訓(xùn)練樣本的增加,各專業(yè)構(gòu)建的學(xué)位預(yù)警模型的錯(cuò)誤率普遍呈現(xiàn)下降趨勢。其中,基于特征選擇的預(yù)警模型明顯具有更低的預(yù)警誤差和更高的穩(wěn)定性。
從表3到表6中也同樣可以發(fā)現(xiàn),各專業(yè)的成績數(shù)據(jù)經(jīng)過特征選擇后構(gòu)建的學(xué)位預(yù)警模型其查全率和查準(zhǔn)率都高于沒有進(jìn)行特征選擇的模型;而基于特征選擇構(gòu)建的學(xué)位預(yù)警模型的錯(cuò)誤接受率和錯(cuò)誤拒絕率則明顯低于沒有進(jìn)行特征選擇的模型。
表3 各專業(yè)學(xué)位預(yù)警查全率結(jié)果統(tǒng)計(jì)
表4 各專業(yè)學(xué)位預(yù)警查準(zhǔn)率結(jié)果統(tǒng)計(jì)
表5 各專業(yè)學(xué)位預(yù)警錯(cuò)誤拒絕率結(jié)果統(tǒng)計(jì)
表6 各專業(yè)學(xué)位預(yù)警錯(cuò)誤接收率結(jié)果統(tǒng)計(jì)
綜上所述,從表2至表6中的各項(xiàng)指標(biāo)的統(tǒng)計(jì)結(jié)果顯示,基于Fisher特征選擇的學(xué)位預(yù)警模型具有更低的錯(cuò)誤率和更高的穩(wěn)定性。表明基于特征選擇的方法可以選擇出更有效的課程來構(gòu)建更為精準(zhǔn)的學(xué)位預(yù)警模型,其構(gòu)建模型給出的預(yù)警結(jié)果更為可信,更有助于學(xué)生和教師及時(shí)地調(diào)整教學(xué)方式。
高校擴(kuò)招政策的連年實(shí)施在為提升國內(nèi)人口素質(zhì)的同時(shí),也對現(xiàn)有高校教學(xué)管理模型帶來了更高的挑戰(zhàn)。探索學(xué)生學(xué)習(xí)的一般規(guī)律,挖掘和分析學(xué)生特征和成績的關(guān)系,構(gòu)建更為精準(zhǔn)的學(xué)位預(yù)警模型可以更好地提高教學(xué)質(zhì)量,對完善高校學(xué)位預(yù)警機(jī)制有重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義,因此提出基于Fisher特征選擇的學(xué)位預(yù)警模型方法。實(shí)驗(yàn)結(jié)果表明,構(gòu)建的學(xué)位預(yù)警模型能更好地從現(xiàn)有成績數(shù)據(jù)中挖掘有效信息,使預(yù)警模型具有更低的預(yù)警誤差和更高的穩(wěn)定性,能夠更好地完成學(xué)位預(yù)警工作。但成績預(yù)測或預(yù)警工作不僅會受到前期成績的單一影響,還可能受到學(xué)習(xí)背景、行為習(xí)慣等因素的影響。因此,成績預(yù)測、預(yù)警等工作仍是一個(gè)較為復(fù)雜的課題,在下一步的研究中將會利用特征選擇方法充分挖掘?qū)W習(xí)背景、學(xué)習(xí)環(huán)境、行為習(xí)慣等更多因素,以構(gòu)建更加精準(zhǔn)有效的成績預(yù)測或預(yù)警模型。