李嘉偉,費(fèi) 雪,李丞勇,黨同真,高克寧
(1.東北大學(xué) 理學(xué)院,遼寧 沈陽 110819;2.東北大學(xué) 計(jì)算中心,遼寧 沈陽 110819)
數(shù)據(jù)挖掘在教育中的應(yīng)用是一個(gè)新興的跨學(xué)科研究領(lǐng)域,被稱為教育數(shù)據(jù)挖掘(EDM)[1]。即通過開發(fā)相關(guān)的算法探索來自教育環(huán)境的獨(dú)特?cái)?shù)據(jù)類型。通常這些數(shù)據(jù)具有多層次的結(jié)構(gòu),人們在這種環(huán)境中開發(fā)和探索數(shù)據(jù)內(nèi)部所蘊(yùn)含的聯(lián)系與意義。通過數(shù)據(jù)統(tǒng)計(jì)、指標(biāo)展現(xiàn)、橫向?qū)Ρ?、趨勢分析等技術(shù)方法將數(shù)據(jù)轉(zhuǎn)化為知識,以此探索符合新工科建設(shè)下所需的教學(xué)模式。國外很早就有應(yīng)用數(shù)據(jù)挖掘技術(shù)建立學(xué)生成績預(yù)測模型的研究,主要是應(yīng)用于傳統(tǒng)的課堂教學(xué)考試成績預(yù)測中。近年來隨著互聯(lián)網(wǎng)教學(xué)模式的興起,許多研究者也將數(shù)據(jù)挖掘技術(shù)應(yīng)用于MOOC 數(shù)據(jù)環(huán)境,但其研究側(cè)重點(diǎn)更多關(guān)注學(xué)生的輟學(xué)率或堅(jiān)持時(shí)間。另一部分研究者則選擇利用學(xué)生學(xué)習(xí)管理系統(tǒng)中收集的數(shù)據(jù)來實(shí)現(xiàn)學(xué)生成績的預(yù)測。本文通過對不同文獻(xiàn)中預(yù)測學(xué)生成績模型的梳理,總結(jié)出在學(xué)生成績預(yù)測過程中的研究方法及流程。
預(yù)測學(xué)生成績的數(shù)據(jù)主要來源于問卷調(diào)查、學(xué)習(xí)管理系統(tǒng)等。問卷調(diào)查方式廣泛應(yīng)用于教育領(lǐng)域,以此收集的數(shù)據(jù)具有個(gè)性化和適應(yīng)性的特點(diǎn)。其個(gè)性化表現(xiàn)在可收集不同學(xué)生除人口特征外的基本信息,適應(yīng)性則是幫助研究人員提取關(guān)于課程不同方面的數(shù)據(jù)。文獻(xiàn)[2]發(fā)現(xiàn)三個(gè)潛在影響數(shù)學(xué)課堂教學(xué)質(zhì)量的因素:教師的專業(yè)能力、學(xué)生的課后學(xué)習(xí)興趣及其學(xué)習(xí)表現(xiàn)。因此針對性地設(shè)計(jì)了身份描述、教師評價(jià)和對數(shù)學(xué)學(xué)科的興趣性三個(gè)部分調(diào)查問卷,最后得出不同因素在預(yù)測學(xué)生成績表現(xiàn)中的占比。文獻(xiàn)[3]通過設(shè)計(jì)性格學(xué)業(yè)動(dòng)機(jī)、性格求助行為、自我調(diào)節(jié)學(xué)習(xí)的傾向、性格認(rèn)知情緒等四份調(diào)查問卷,來探究學(xué)生根據(jù)不同的學(xué)習(xí)傾向遵循一定的行為模式對最終學(xué)習(xí)成績的影響。
一般的學(xué)習(xí)管理系統(tǒng)(LMS)主要包含:網(wǎng)上注冊報(bào)名、課程管理、課程分配、信息資源、學(xué)習(xí)評估等內(nèi)容。旨在傳遞,跟蹤,報(bào)告和管理學(xué)習(xí)內(nèi)容,掌握學(xué)員學(xué)習(xí)進(jìn)度以及學(xué)員的參與互動(dòng)。文獻(xiàn)[4]為建立學(xué)生期末考試成績預(yù)測模型,通過分析學(xué)生Moodle 日志的時(shí)間分布規(guī)律,生成包含學(xué)生在課程進(jìn)行期間訪問某個(gè)LMS 課程的次數(shù)和時(shí)間順序。文獻(xiàn)[5]利用Moodle 日志中提取的數(shù)據(jù),研究學(xué)生的學(xué)習(xí)過程,對學(xué)生的學(xué)習(xí)時(shí)間、作業(yè)拖延等方面進(jìn)行聚類,并將這些行為與最終學(xué)習(xí)成績進(jìn)行匹配。
預(yù)測學(xué)生成績的數(shù)據(jù)包括學(xué)生與教育系統(tǒng)的交互(如測驗(yàn)成績、互動(dòng)練習(xí)等)、學(xué)生合作的數(shù)據(jù)(如小組討論、社交活動(dòng)等)、管理數(shù)據(jù)(如學(xué)校、老師的信息等)、人口數(shù)據(jù)(如年齡、性別等)、學(xué)生情感作用(如動(dòng)機(jī)、情緒狀態(tài)等)等。傳統(tǒng)考試成績預(yù)測形式更側(cè)重于學(xué)生、學(xué)校與家庭因素,通常包括學(xué)生基本信息與學(xué)生情感狀態(tài)分析、教師教學(xué)水平與學(xué)校資源配置、家庭幸福程度與父母受教育程度等內(nèi)容。本文將當(dāng)前主要文獻(xiàn)所使用的預(yù)測因素進(jìn)行分析并歸類如表1 所示。
由于采集預(yù)測學(xué)生成績的數(shù)據(jù)有多種來源,最終收集的數(shù)據(jù)可能受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失、數(shù)據(jù)沖突等影響,因此必須對數(shù)據(jù)預(yù)處理,常用的方法如表2 所示。
表1 預(yù)測學(xué)生成績主要因素
表2 主要處理方法及說明
數(shù)據(jù)的預(yù)處理主要包括數(shù)據(jù)集成、數(shù)據(jù)清洗、數(shù)據(jù)歸約和數(shù)據(jù)轉(zhuǎn)換等。數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)采用一致的數(shù)據(jù)存儲(chǔ)集成存儲(chǔ)。數(shù)據(jù)清洗包括對數(shù)據(jù)的不一致檢驗(yàn)、噪聲數(shù)據(jù)的識別、數(shù)據(jù)過濾等方面,有利于提高數(shù)據(jù)的一致性、準(zhǔn)確性、真實(shí)性和可用性。數(shù)據(jù)歸約需要在不損害分析結(jié)果準(zhǔn)確性的前提下降低數(shù)據(jù)集規(guī)模,提升預(yù)測模型訓(xùn)練的速度。數(shù)據(jù)轉(zhuǎn)換目的是將各變量不同形式的數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)挖掘算法需要的形式,如通常使用獨(dú)熱編碼將學(xué)生特征屬性轉(zhuǎn)化為數(shù)值類型。
常見的數(shù)據(jù)挖掘方法主要包括分類、回歸、聚類、關(guān)聯(lián)規(guī)則挖掘與探索性分析等。其中學(xué)生成績預(yù)測更多應(yīng)用監(jiān)督學(xué)習(xí)中的分類與回歸等相關(guān)算法。分類主要的算法包括:決策樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)、K鄰近等。通過將學(xué)生成績劃分成多個(gè)等級區(qū)間來實(shí)現(xiàn)預(yù)測分類,例如預(yù)測學(xué)生成績是否能夠及格。回歸則通過發(fā)現(xiàn)變量或?qū)傩灾g的依賴關(guān)系來預(yù)測連續(xù)型數(shù)據(jù),例如預(yù)測學(xué)生的GPA 成績。
文獻(xiàn)[6]通過調(diào)查問卷收集VBS Purvanchal 大學(xué)的成績報(bào)告和學(xué)生飲酒量等多種特征,采用BFTree、J48、REPTree 和CART 四種決策樹算法探究酒精對學(xué)生記憶能力的影響,進(jìn)而實(shí)現(xiàn)對學(xué)生成績的預(yù)測。文獻(xiàn)[7]使用決策樹預(yù)測學(xué)生四年學(xué)習(xí)計(jì)劃結(jié)束后的成績,同時(shí)將學(xué)生群體劃分為低成就學(xué)生和高成就學(xué)生。為可能成績差的學(xué)生提供及時(shí)警告和支持,為成績好的學(xué)生提供建議和機(jī)會(huì)。文獻(xiàn)[8]利用遺傳算法優(yōu)化ID3、C4.5 和CART三種決策樹來預(yù)測學(xué)生通過教師資格考試(LET)的可能性。結(jié)果表明C4.5 算法是最適合該模型的算法。其精度為73.10%,F(xiàn)1 測度為62.53%。決策樹的優(yōu)點(diǎn)在于計(jì)算簡單、易于理解。比較適合處理有缺失屬性的樣本、處理不相關(guān)的特征。在相對短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。但也會(huì)造成忽略數(shù)據(jù)之間的相關(guān)性、發(fā)生過擬合的現(xiàn)象。對于那些類別樣本數(shù)量不一致的數(shù)據(jù),信息增益的結(jié)果會(huì)更加偏向于占比更大的特征,可能會(huì)影響到預(yù)測的效果。
貝葉斯方法被廣泛運(yùn)用于關(guān)聯(lián)度較小的因素下學(xué)生成績預(yù)測模型。文獻(xiàn)[9]通過多種數(shù)據(jù)挖掘算法找出影響Sri Lanka 相關(guān)專業(yè)學(xué)生成績的關(guān)鍵因素。其中樸素貝葉斯算法生成的模型取得92.17%的準(zhǔn)確率。文獻(xiàn)[10]從學(xué)習(xí)管理系統(tǒng)中提取特征數(shù)據(jù)集使用樸素貝葉斯等多種數(shù)據(jù)挖掘算法來對學(xué)生最終成績進(jìn)行五元分類,最終獲得69%的準(zhǔn)確率。文獻(xiàn)[11]等人在模型的構(gòu)建過程中考慮了11 個(gè)基于學(xué)生的因素,以76.60%的準(zhǔn)確率成功預(yù)測八年級土耳其學(xué)生的數(shù)學(xué)成績分類,同時(shí),學(xué)生信心因素也被發(fā)現(xiàn)是影響八年級學(xué)生數(shù)學(xué)成績的最有效因素。樸素貝葉斯模型對小規(guī)模的數(shù)據(jù)表現(xiàn)很,能夠處理多分類任務(wù),適合增量式訓(xùn)練。對缺失數(shù)據(jù)不太敏感,常用于文本分類。但是樸素貝葉斯需要計(jì)算先驗(yàn)概率,并且要求在給定目標(biāo)值時(shí)的屬性之間相互條件獨(dú)立。
人工神經(jīng)網(wǎng)絡(luò)(ANN)依靠系統(tǒng)的復(fù)雜程度,調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。文獻(xiàn)[12]闡述了課程難度的科學(xué)評估方法,并將其作為衡量學(xué)生在該課程中的表現(xiàn)的指標(biāo),并使用神經(jīng)網(wǎng)絡(luò)算法建立預(yù)測成績模型,最終預(yù)測率達(dá)97.12%。文獻(xiàn)[13]在研究中評估了包括神經(jīng)網(wǎng)絡(luò)等兩種半監(jiān)督學(xué)習(xí)算法預(yù)測學(xué)生期末考試成績的有效性。實(shí)驗(yàn)表明半監(jiān)督方法的優(yōu)勢在于利用少量有標(biāo)記和大量無標(biāo)記的數(shù)據(jù)可以建立可靠的預(yù)測模型,能夠顯著提高分類精度(79.90%)。文獻(xiàn)[14]在訓(xùn)練階段對神經(jīng)網(wǎng)絡(luò)算法建模過程中通過PCA 來消除數(shù)據(jù)集中的相關(guān)信息,從而提高分類器的性能至95.54%。神經(jīng)網(wǎng)絡(luò)相較于其他算法的優(yōu)點(diǎn)在于其能充分逼近復(fù)雜的非線性關(guān)系,同時(shí)具備聯(lián)想記憶的功能。但神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間過長,有時(shí)甚至可能達(dá)不到學(xué)習(xí)的目的,其需要大量的參數(shù),如網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、權(quán)值和閾值的初始值等,并且神經(jīng)網(wǎng)絡(luò)對輸出結(jié)果的解釋性較弱。
支持向量機(jī)(SVM)是一種二分類模型,它的目的是尋找一個(gè)超平面來對樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。文獻(xiàn)[15]使用SVM 對計(jì)算機(jī)應(yīng)用專業(yè)本科一年級學(xué)生的編程能力進(jìn)行了預(yù)測,分析了影響學(xué)生編程能力的因素并提出了一些該領(lǐng)域在教學(xué)模式上有前景的發(fā)展方向。文獻(xiàn)[16]通過收集巴基斯坦不同大學(xué)學(xué)生的獎(jiǎng)學(xué)金數(shù)據(jù),對家庭支出和學(xué)生個(gè)人信息特征集進(jìn)行研究,判別和生成分類模型用來預(yù)測學(xué)生是否能夠完成他的學(xué)位,SVM 實(shí)現(xiàn)了76.60%的預(yù)測準(zhǔn)確率。文獻(xiàn)[17]針對學(xué)生檔案系統(tǒng)、學(xué)習(xí)管理系統(tǒng)和調(diào)查等三個(gè)數(shù)據(jù)源使用了SVM 算法進(jìn)行建模。由多種變量組合預(yù)測學(xué)生的學(xué)業(yè)成績,其準(zhǔn)確率為82.95%。SVM 可以解決高維問題,能夠處理非線性特征的相互作用,不需要依賴整個(gè)數(shù)據(jù)就可以提高其泛化能力。但是SVM 對缺失數(shù)據(jù)非常敏感,同時(shí)對非線性問題沒有通用的解決方案,很難找到合適的核函數(shù)。
數(shù)據(jù)挖掘中常用的是線性回歸和邏輯回歸,其都屬于廣義線性模型。與線性回歸不同,邏輯回歸主要用于解決分類問題。文獻(xiàn)[18]研究了哥倫比亞一所大學(xué)本科學(xué)生的輟學(xué)情況,實(shí)驗(yàn)結(jié)果表明,邏輯回歸算法可以使識別是否會(huì)輟學(xué)的模型達(dá)到可靠的精度水平,預(yù)測準(zhǔn)確率為92%。文獻(xiàn)[19]通過收集LMS 中的日志數(shù)據(jù),如時(shí)間段和IP 地址記錄每個(gè)用戶的信號(即鼠標(biāo)單擊),分析預(yù)測學(xué)生在學(xué)習(xí)管理系統(tǒng)中的成績。使用探索性因子分析法提取少數(shù)假想變量,簡化數(shù)據(jù)結(jié)構(gòu),隨后將數(shù)據(jù)擬合成為多元線性回歸模型。利用RMSEA 與CFI 指標(biāo)來評價(jià)模型,同時(shí)討論日志數(shù)據(jù)與認(rèn)知活動(dòng)的關(guān)系,提出學(xué)習(xí)管理系統(tǒng)的設(shè)計(jì)建議?;貧w算法實(shí)現(xiàn)簡單,分類時(shí)計(jì)算量非常小,速度快,存儲(chǔ)資源低,并且邏輯回歸可以通過L2 正則化來解決線性回歸中的多重共線性問題。但是當(dāng)特征空間很大的時(shí)候,邏輯回歸的性能不是很好,容易造成欠擬合,并且對于非線性特征需要在數(shù)據(jù)預(yù)處理時(shí)進(jìn)行轉(zhuǎn)換。
文獻(xiàn)[20]探究行為和學(xué)生缺課對他們的學(xué)習(xí)成績有影響,并使用一些數(shù)據(jù)挖掘技術(shù)來測量上述兩類特征的效果。采用K 近鄰等算法對學(xué)生成績進(jìn)行分類最終準(zhǔn)確率可達(dá)74.30%。文獻(xiàn)[21]綜合考慮了學(xué)生以往的學(xué)業(yè)成績、隨后的中專成績以及各種非學(xué)業(yè)因素的基礎(chǔ)上,對學(xué)生的畢業(yè)學(xué)位完成率進(jìn)行預(yù)測。采用了K 近鄰等多種數(shù)據(jù)挖掘算法,其中K 近鄰準(zhǔn)確率達(dá)86.31%。當(dāng)樣本不平衡時(shí),K 近鄰算法分類可能會(huì)造成不理想的預(yù)測結(jié)果。同時(shí),該算法計(jì)算量較大,對每一個(gè)待分類的文本都要計(jì)算它到全體已知樣本的距離,才能計(jì)算出它的K 個(gè)近鄰點(diǎn)。并且K 鄰近的可理解性較差,無法給出像決策樹那樣的規(guī)則。
集成算法是通過結(jié)合多個(gè)弱學(xué)習(xí)算法構(gòu)建模型來完成學(xué)習(xí)任務(wù)。常見的集成算法包括隨機(jī)森林、boosting、bagging 等。文獻(xiàn)[22]發(fā)現(xiàn)學(xué)業(yè)獎(jiǎng)學(xué)金、年齡、縣域和高中學(xué)歷對學(xué)生的學(xué)業(yè)成績有影響。并使用梯度提升樹(GBT)算法有效的將決策樹預(yù)測準(zhǔn)確率提升至67.41%。文獻(xiàn)[23]收集計(jì)算機(jī)系統(tǒng)工程專業(yè)學(xué)生1 年級和2 年級學(xué)生在商業(yè)、編程、數(shù)學(xué)、研究和系統(tǒng)主題領(lǐng)域的成績。采用特征選擇算法將預(yù)測使用的特征向量從9減少到4,提高計(jì)算效率的同時(shí)將隨機(jī)森林分類器的準(zhǔn)確率從52.51%提升至57.92%。文獻(xiàn)[24]建立了基于梯度升壓機(jī)的決策樹模型,實(shí)現(xiàn)對2015 年和2016 年巴西聯(lián)邦地區(qū)公立學(xué)校學(xué)生在學(xué)年結(jié)束時(shí)學(xué)習(xí)成績的預(yù)測分析。不難發(fā)現(xiàn),當(dāng)下最先進(jìn)的預(yù)測大多都使用了集成技術(shù),集成的模型比使用單個(gè)模型預(yù)測出來的結(jié)果要精確得多,但是集成算法卻需要大量的維護(hù)工作。
在上述文獻(xiàn)中,學(xué)生成績預(yù)測模型的評估分為分類與回歸。評估分類模型性能的度量主要包括準(zhǔn)確率、召回率、精確率、ROC 曲線、F1-measure、ROC 曲線下面積AUC 等。如文獻(xiàn)[6-17、22-24]等使用了多種分類評估計(jì)算,評估回歸模型的性能度量主要有誤差平方和(SSE),均方根誤差(RMSE)、決定系數(shù)等。如文獻(xiàn)[5、18-19]采用回歸評估。
為說明不同的分類評估模型,特引入混淆矩陣作為說明。其中“真正(TP):被模型預(yù)測為正的正樣本。假正(FP):被模型預(yù)測為正的負(fù)樣本。假負(fù)(FN):被模型預(yù)測為負(fù)的正樣本。真負(fù)(TN):被模型預(yù)測為負(fù)的負(fù)樣本”。
(1)準(zhǔn)確率(Accuracy)
準(zhǔn)確率是最常用的分類性能指標(biāo),比值大小主要體現(xiàn)學(xué)生成績預(yù)測模型的準(zhǔn)確性。
(2)精準(zhǔn)率(Precision)
又稱為查準(zhǔn)率精確率,比值大小代表學(xué)生成績預(yù)測結(jié)果中實(shí)際正確的占預(yù)測為正確的樣本的比例,主要表現(xiàn)模型的預(yù)測是否精準(zhǔn)。
(3)召回率(Recall)
召回率表現(xiàn)正確預(yù)測的正例數(shù)與實(shí)際正例總數(shù)的比值,即模型的對樣本的查全性能。
(4)F1 score
F 值是精確率和召回率的綜合評價(jià)指標(biāo),因此F 值對模型的評估也更加客觀。
(5)ROC 曲線
表示預(yù)測學(xué)生成績的分類中界定正負(fù)例的不同閾值,橫坐標(biāo)FPR(假正率),縱坐標(biāo)為TPR(真正率)。其曲線積分面積定義為AUC,AUC 值越大的分類器,性能越好。
回歸評估模型主要體現(xiàn)整體預(yù)測值與真實(shí)值之間的差距,設(shè)xi(i=1,2…n)為數(shù)據(jù)集中樣本的真實(shí)值,表示第i 個(gè)預(yù)測值。
(1)誤差平方和(SSE)
同等數(shù)據(jù)集下,SSE 表示樣本預(yù)測值與真實(shí)值之間的差距,SSE 越小預(yù)測模型效果越好。
(2)均方根誤差(RMSE)
RMSE 使用平均誤差,而平均值對異常點(diǎn)較敏感,即平均值是非魯棒的。
(3)決定系數(shù)
決定系數(shù)越大,則表示模型所選取的特征對學(xué)生成績的解釋程度越高。
SST:總平方和;
SSR:回歸平方和;
SSE:殘差平方和。
通過文獻(xiàn)綜述,本文認(rèn)為學(xué)生成績預(yù)測過程如圖1所示。其主要流程分為數(shù)據(jù)收集與數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模型評估等三個(gè)部分。數(shù)據(jù)主要通過問卷調(diào)查和學(xué)生信息管理系統(tǒng)收集,經(jīng)過數(shù)據(jù)預(yù)處理后將其劃分為訓(xùn)練集與測試集,選擇使用不同的數(shù)據(jù)挖掘算法來訓(xùn)練學(xué)生成績預(yù)測模型,使用測試集進(jìn)行檢驗(yàn)的同時(shí)與真實(shí)結(jié)果進(jìn)行對比并微調(diào)模型,使其能夠達(dá)到更精確的效果。
圖1 預(yù)測學(xué)生成績流程
本文發(fā)現(xiàn)更多學(xué)者傾向于在針對預(yù)測學(xué)生成績所使用數(shù)據(jù)的類型以及模型訓(xùn)練的算法上做出改變。在影響學(xué)生成績的因素中,更多文獻(xiàn)傾向于選擇客觀性的數(shù)據(jù)實(shí)現(xiàn)對學(xué)生成績的預(yù)測,如人口統(tǒng)計(jì)特征、GPA、父母教育背景等,而鮮有文獻(xiàn)考慮學(xué)生的學(xué)習(xí)興趣與情感認(rèn)知水平或教師風(fēng)格等主觀因素,其主要原因是這些主觀因素沒有得到更好的數(shù)據(jù)量化,從而導(dǎo)致最終預(yù)測結(jié)果準(zhǔn)確率并不高。因此,本文認(rèn)為學(xué)生成績預(yù)測模型中關(guān)于學(xué)生情感認(rèn)知以及教師風(fēng)格等主觀因素的量化可作為未來研究方向之一,同時(shí)也可以嘗試教育學(xué)與心理學(xué)領(lǐng)域的相關(guān)研究,探討更多影響學(xué)生成績的因素。此外,通過使用特征選擇技術(shù)可以實(shí)現(xiàn)模型簡化,例如通過主成分析法將多種特征合成為少數(shù)幾個(gè)相互無關(guān)的綜合指標(biāo)。每個(gè)主成分都能夠反映原始變量中互不重復(fù)的絕大部分信息,從而得到更加科學(xué)有效的數(shù)據(jù),使得學(xué)生成績被更有效地預(yù)測。在算法方面,目前更多的研究所使用的算法傾向于集成技術(shù),如隨機(jī)森林、boosting、bagging 等,通過將多種弱分類模型的預(yù)測結(jié)果進(jìn)行投票來提高最終預(yù)測分類的準(zhǔn)確性。此外,部分研究者在特定的情境之下改進(jìn)現(xiàn)有較為經(jīng)典的分類算法,如決策樹、支持向量機(jī)等,使學(xué)生成績預(yù)測模型起到了更好的效果。