任鴿 楊勇
摘要:傳統(tǒng)的高校成績(jī)預(yù)警系統(tǒng)是根據(jù)學(xué)生未完成學(xué)分績(jī)提出預(yù)警,不能做到真正的預(yù)測(cè)。近年來,隨著人工智能領(lǐng)域取得的巨大發(fā)展,將人工智能與高校的管理相結(jié)合已經(jīng)成為了一個(gè)未來的發(fā)展方向。為了了解到學(xué)生以往成績(jī)和未來成績(jī)之間的關(guān)聯(lián),建立基于BP神經(jīng)網(wǎng)絡(luò)的高校學(xué)生成績(jī)預(yù)測(cè)模型,探討B(tài)P神經(jīng)網(wǎng)絡(luò)在高校學(xué)生管理領(lǐng)域的應(yīng)用。結(jié)果表明,BP神經(jīng)網(wǎng)絡(luò)能有效提高學(xué)生成績(jī)預(yù)測(cè)的精度,以及應(yīng)用于學(xué)期多門課程的成績(jī)預(yù)測(cè)上的可行性。
關(guān)鍵詞:成績(jī)預(yù)警;BP神經(jīng)網(wǎng)絡(luò);相關(guān)系數(shù)
中圖分類號(hào):G434;TP18? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1007-9416(2020)10-0000-00
0引言
隨著教育大數(shù)據(jù)的不斷積累,如何從海量的教育數(shù)據(jù)中挖掘有用的信息成為近年來數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)研究之一[1]。教育大數(shù)據(jù)的挖掘可以為學(xué)校教學(xué)質(zhì)量提高,人才培養(yǎng)方案的評(píng)價(jià)等方面提供依據(jù),具有很重要的理論研究研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值,越來越多的學(xué)者開始關(guān)注數(shù)據(jù)挖掘技術(shù)在教育教學(xué)領(lǐng)域的應(yīng)用[2]。教育數(shù)據(jù)挖掘是指用數(shù)據(jù)挖掘技術(shù)分析從大量教學(xué)數(shù)據(jù)中自動(dòng)檢索并整理統(tǒng)計(jì)出相關(guān)信息的數(shù)據(jù)分析過程,發(fā)現(xiàn)教學(xué)數(shù)據(jù)中潛在的有效信息,以解決教學(xué)實(shí)踐中的問題,為教學(xué)管理者、教師、學(xué)生等教育領(lǐng)域相關(guān)人員提供教學(xué)建議和理論支持。學(xué)生成績(jī)預(yù)測(cè)是教育數(shù)據(jù)挖掘中的重要內(nèi)容。
目前已經(jīng)有很多學(xué)者對(duì)學(xué)生成績(jī)預(yù)測(cè)做了研究。葉澤俊[3]采用基于C5.0算法的決策樹分類方法對(duì)非英語專業(yè)學(xué)生四級(jí)通過概率進(jìn)行預(yù)測(cè)。劉艷杰[4]利用貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)的到學(xué)科之間的關(guān)聯(lián)性,基于貝葉斯網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)學(xué)習(xí)網(wǎng)絡(luò)參數(shù),最后通過聯(lián)合樹算法給出成績(jī)預(yù)測(cè)。張燕[5]提出一種基于樸素貝葉斯的英語成績(jī)預(yù)測(cè)模型,以某職業(yè)院校2016、2018的英語四級(jí)考試成績(jī)作為基本數(shù)據(jù)來源,采用樸素貝葉斯模型中概率對(duì)不同屬性下的學(xué)生英語成績(jī)進(jìn)行預(yù)測(cè)。甘才軍[6]設(shè)計(jì)并實(shí)現(xiàn)了一種可針對(duì)學(xué)生實(shí) 驗(yàn)課程成績(jī)進(jìn)行主動(dòng)式預(yù)警的系統(tǒng),該系統(tǒng)根據(jù)學(xué)生以往實(shí)驗(yàn)報(bào)告及教師批閱信息,利用貝葉斯分類器對(duì)學(xué) 生實(shí)驗(yàn)課程最終考核成績(jī)提前作出預(yù)測(cè)并及時(shí)發(fā)出預(yù)警,以督促學(xué)生在課外更加主動(dòng)地學(xué)習(xí)。王婧妍[7],吳興惠[8]用隨機(jī)森林算法來提高成績(jī)預(yù)測(cè)模型的精度。申航杰[9]提出了一種融合模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)方法。陳曦[10]提出了一種基于課程知識(shí)圖譜的預(yù)測(cè)算法。張昊[11]使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)中的一種變體雙向門控單元網(wǎng)絡(luò)(Bi-GRU)來預(yù)測(cè)學(xué)生成績(jī)。
為了提高學(xué)生成績(jī)預(yù)測(cè)的精度,本文提出了建立BP神經(jīng)網(wǎng)絡(luò)模型來預(yù)測(cè)學(xué)生成績(jī)。
1 BP神經(jīng)網(wǎng)絡(luò)成績(jī)預(yù)測(cè)
圖1為 BP 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),包含輸入層、隱藏層與輸出層,若輸出層得不到期望輸出則轉(zhuǎn)入誤差反向傳播,根據(jù)預(yù)測(cè)誤差調(diào)整神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)權(quán)值、閾值,以期逼近期望輸出[12]。BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)大的描述非線性函數(shù)的能力,而且一個(gè)3層的BP神經(jīng)網(wǎng)絡(luò)即可模擬任意復(fù)雜的非線性問題[13],對(duì)于這種數(shù)據(jù)預(yù)測(cè)問題能取得較好的結(jié)果。
如何設(shè)計(jì)隱藏層的神經(jīng)元節(jié)點(diǎn)數(shù)是BP神經(jīng)網(wǎng)絡(luò)中的關(guān)鍵問題,如果設(shè)計(jì)的節(jié)點(diǎn)較少則不能夠很好的逼近模擬的函數(shù),不能夠獲得準(zhǔn)確的結(jié)果。如果設(shè)計(jì)的節(jié)點(diǎn)數(shù)過多會(huì)使網(wǎng)絡(luò)變得更復(fù)雜,算法訓(xùn)練的時(shí)間會(huì)大大增加,算法的效率會(huì)降低。一般情況下,隨著隱藏層的節(jié)點(diǎn)數(shù)的增多,模型的誤差會(huì)出現(xiàn)先下降后升高的趨勢(shì),所以確定合適的節(jié)點(diǎn)數(shù)非常重要,通常隱藏層節(jié)點(diǎn)數(shù)量確定可以通過試湊法[14]和公式1和公式2確定:
l<(m+n)+a? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 公式1
l=2m+1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?公式2
其中,l為隱層節(jié)點(diǎn)數(shù),m為輸入層節(jié)點(diǎn)數(shù),n為輸出層節(jié)點(diǎn)數(shù),a為0-10的常數(shù)。
2數(shù)據(jù)采集
本實(shí)驗(yàn)的數(shù)據(jù)來自新疆師范大學(xué)2010屆到2018屆軟件工程專業(yè)的有不及格記錄的256名學(xué)生八個(gè)學(xué)期的期末考試總評(píng)成績(jī),選取有核心課程的七個(gè)學(xué)期,核心課程的選取如表1所示。
針對(duì)采集的原始數(shù)據(jù),做數(shù)據(jù)預(yù)處理。對(duì)于缺考的學(xué)生成績(jī)數(shù)據(jù)替換為該課程所有學(xué)生取得分?jǐn)?shù)的均值。
3 BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)分析
用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)生成績(jī)預(yù)測(cè)過程中,我們首先將八個(gè)學(xué)期的學(xué)生課程成績(jī)分為學(xué)習(xí)樣本與測(cè)試樣本,通過學(xué)習(xí)樣本訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),將學(xué)習(xí)樣本中的基礎(chǔ)課程成績(jī)?cè)O(shè)置為神經(jīng)網(wǎng)絡(luò)的輸入項(xiàng),目標(biāo)課程成績(jī)?cè)O(shè)置為輸出項(xiàng),利用反向傳播算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,確定各個(gè)節(jié)點(diǎn)的參數(shù)。得到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)模型后,在預(yù)測(cè)學(xué)生成績(jī)時(shí),將基礎(chǔ)課程成績(jī)代入訓(xùn)練好的模型中,即可預(yù)測(cè)得出學(xué)生的目標(biāo)課程成績(jī),實(shí)現(xiàn)對(duì)學(xué)生成績(jī)的預(yù)測(cè)。
為了加強(qiáng)BP神經(jīng)網(wǎng)絡(luò)的實(shí)際預(yù)測(cè)功能,得到不同學(xué)期,不同科目的預(yù)測(cè)結(jié)果,建立多輸出的網(wǎng)絡(luò)模型。輸入是學(xué)生已完成的所有科目的分?jǐn)?shù),輸出是對(duì)應(yīng)下一學(xué)期的所有科目成績(jī)。例如,通過第一學(xué)期的成績(jī)數(shù)據(jù)來預(yù)測(cè)第二學(xué)期的成績(jī),通過第一,第二學(xué)期的成績(jī)來預(yù)測(cè)第三學(xué)期的成績(jī),以此類推。相對(duì)于十分精確地預(yù)測(cè)學(xué)生的分?jǐn)?shù),預(yù)測(cè)學(xué)生的成績(jī)能否及格往往更重要。因此模型的預(yù)測(cè)學(xué)生及格準(zhǔn)確率能達(dá)到一定要求,就能說明模型的實(shí)用價(jià)值。因此,在預(yù)測(cè)學(xué)期多門課程的多輸出模型下,預(yù)測(cè)的不是成績(jī)數(shù)值,而是及格與否。
程序運(yùn)行在tensorflow2.0.0的框架下,使用Adam優(yōu)化器,學(xué)習(xí)速率決定了訓(xùn)練過程中的權(quán)值變化,一般情況下選取較小的學(xué)習(xí)速率保證學(xué)習(xí)的穩(wěn)定性,因此這里取學(xué)習(xí)率為0.0001。輸出層經(jīng)過softmax函數(shù),得到概率最大的值的序號(hào)作為預(yù)測(cè)成績(jī)。
經(jīng)過100次迭代后得到的預(yù)測(cè)準(zhǔn)確率如圖2所示。橫坐標(biāo)是迭代次數(shù),縱坐標(biāo)是預(yù)測(cè)的準(zhǔn)確度。從圖中可以看出,各學(xué)期的預(yù)測(cè)準(zhǔn)確率在70%到100%左右波動(dòng),其中,由于第八學(xué)期課程樣本數(shù)量較少,所以預(yù)測(cè)準(zhǔn)確率在10次迭代后就達(dá)到了100%,預(yù)測(cè)準(zhǔn)確率最低的第六學(xué)期也達(dá)到了70%。
4結(jié)語
為了了解到高校學(xué)生以往成績(jī)和未來成績(jī)之間的關(guān)聯(lián),建立了基于BP神經(jīng)網(wǎng)絡(luò)的高校學(xué)生成績(jī)預(yù)測(cè)模型,通過學(xué)生以往的成績(jī)數(shù)據(jù)來預(yù)測(cè)未來成績(jī)。實(shí)驗(yàn)數(shù)據(jù)表明,用BP神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)學(xué)期多門課程的平均準(zhǔn)確率能達(dá)到70%。
參考文獻(xiàn)
[1] 張志剛.教育數(shù)據(jù)挖掘研究與探索[J].長(zhǎng)春師范大學(xué)學(xué)報(bào),2020,39(2):34-36.
[2] 劉邦奇,李鑫.智慧課堂數(shù)據(jù)挖掘分析與應(yīng)用實(shí)證研究[J].電化教育研究,2018,39(6):41-47.
[3] 葉澤俊.基于數(shù)據(jù)挖掘的大學(xué)英語四級(jí)通過率預(yù)測(cè)建模研究[J].長(zhǎng)春師范大學(xué)學(xué)報(bào),2019,38(12):55-62..
[4] 劉艷杰,李霞.基于貝葉斯網(wǎng)絡(luò)的學(xué)生成績(jī)預(yù)測(cè)[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,33(5):75-78.
[5] 張燕.基于樸素貝葉斯的英語成績(jī)預(yù)測(cè)模型構(gòu)建研究[J].自動(dòng)化技術(shù)與應(yīng)用,2019,38(10):67-69+88..
[6] 甘才軍.主動(dòng)式實(shí)驗(yàn)課程成績(jī)預(yù)警系統(tǒng)及其效果評(píng)估[J].軟件導(dǎo)刊,2020,19(5):128-131.
[7] 王婧妍,張玉飛,徐卓.基于特征選擇優(yōu)化的學(xué)生成績(jī)預(yù)測(cè)[J].智庫時(shí)代,2020(1):124-125.
[8] 吳興惠,周玉萍,邢?;?利用隨機(jī)森林算法對(duì)學(xué)生成績(jī)?cè)u(píng)價(jià)與預(yù)測(cè)研究[J].電腦知識(shí)與技術(shù),2020,16(4):254-255+258.
[9] 申航杰,琚生根,孫界平.基于模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(5):66-73+84.
[10] 陳曦,梅廣,張金金,等.融合知識(shí)圖譜和協(xié)同過濾的學(xué)生成績(jī)預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2020,40(2):595-601..
[11] 張昊.一種基于神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)預(yù)測(cè)方法[J].遼寧師專學(xué)報(bào)(自然科學(xué)版),2019,21(3):94-96..
[12] 周正思,劉林,程鵬.基于遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的GIS設(shè)備放電故障診斷[J].電氣開關(guān),2016,54(3):37-40.
[13] 吳蓓.基于決策樹算法的成績(jī)預(yù)測(cè)模型研究及應(yīng)用[D].西安:西安理工大學(xué),2019.
[14] 岳琪,溫新.改進(jìn)GA-BP神經(jīng)網(wǎng)絡(luò)在高校教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用[J].黑龍江大學(xué)自然科學(xué)學(xué)報(bào),2019,36(3):353-358..
收稿日期:2020-08-17
*基金項(xiàng)目:新疆維吾爾自治區(qū)高校研項(xiàng)目“基于圖數(shù)據(jù)庫的危安人物知識(shí)圖譜構(gòu)建研究”(XJEDU2016S066);新疆維吾爾自治區(qū)教學(xué)改革與研究項(xiàng)目“基于大數(shù)據(jù)的高校學(xué)生學(xué)業(yè)成績(jī)預(yù)警分析”(ZJG2019-11)
作者簡(jiǎn)介:任鴿(1986—),女,河南蘭考人,碩士,講師,研究方向:數(shù)據(jù)挖掘,自然語言處理;楊勇(1979—),男,陜西漢中人,博士,副教授,研究方向:知識(shí)庫自動(dòng)構(gòu)建、語義消歧研究。
The Application of BP Neural Network in Early Warning of College Students' Performance*
REN Ge,YANG Yong
(College of Computer Science and Technology,Xinjiang Normal University,Urumqi Xinjiang? 830054)
Abstract:The traditional college achievement early warning system is based on the students unfinished credits, which cant make a real prediction. In recent years, with the great development in the field of artificial intelligence, the combination of artificial intelligence and university management has become a future development direction. In order to understand the relationship between students past performance and future performance, a prediction model of College Students performance based on BP neural network is established, and the application of BP neural network in the field of college students management is discussed. The results show that compared with the correlation coefficient method, BP neural network can effectively improve the accuracy of students performance prediction and the feasibility of applying it to multiple courses in the semester.
Keywords: performance warning; BP neural network; correlation coefficient