肖琪
(常熟理工學(xué)院 紡織服裝與設(shè)計學(xué)院, 江蘇 常熟 215500)
高等教育是連接教育和未來就業(yè)的重要節(jié)點,也是貧困家庭子代提高未來收入的重要途經(jīng)。隨著我國市場經(jīng)濟(jì)的發(fā)展,高校擴(kuò)招以及高校收費(fèi)制度等一系列因素增加了家庭經(jīng)濟(jì)困難學(xué)生的經(jīng)濟(jì)壓力,這部分特殊群體即為高校貧困生[1]。他們是貧困家庭子代職業(yè)和收入流動的主要部分,因此高校貧困生是國家教育扶貧的重點對象[2]。黨的十九大以來,在精準(zhǔn)扶貧思想的指導(dǎo)下,中國教育領(lǐng)域的扶貧也逐漸轉(zhuǎn)為教育精準(zhǔn)扶貧[3]。教育精準(zhǔn)扶貧戰(zhàn)役中,精準(zhǔn)“扶智”成為攻堅戰(zhàn)。高校貧困生的學(xué)業(yè)成績是精準(zhǔn)“扶智”過程中的重要組成部分,而且對學(xué)生未來的就業(yè)和收入有很大的影響[4],因此精準(zhǔn)“扶智”的前提和基礎(chǔ)是對高校貧困生的學(xué)業(yè)成績做到精準(zhǔn)幫扶。對高校貧困生的學(xué)業(yè)成績進(jìn)行精準(zhǔn)扶貧的關(guān)鍵是精準(zhǔn)預(yù)測高校貧困生的學(xué)習(xí)成績,甄別學(xué)習(xí)高風(fēng)險學(xué)生,降低貧困生學(xué)習(xí)的失敗率,從而提高高校貧困生整體的學(xué)業(yè)成績。因此,解決高校貧困生學(xué)業(yè)成績的精準(zhǔn)預(yù)測問題是高校貧困生精準(zhǔn)扶貧的前提與基礎(chǔ),也是實現(xiàn)高等教育領(lǐng)域精準(zhǔn)扶貧中“扶智”的一個有效途徑,具有現(xiàn)實意義。
以往關(guān)于高校貧困生學(xué)業(yè)成績的研究主要側(cè)重于高校貧困生學(xué)業(yè)成績的影響因素。而量化各個影響因素對貧困生學(xué)業(yè)成績的影響,尋找其中遵循的科學(xué)規(guī)律,并預(yù)測貧困生將來可能達(dá)到的學(xué)業(yè)成績的文獻(xiàn)很少見。隨著計算機(jī)技術(shù)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)因其具有高度非線性、自學(xué)習(xí)性和映射性等優(yōu)點[5],不需要尋找樣本數(shù)據(jù)間的顯示關(guān)系式和數(shù)學(xué)模型,便可以準(zhǔn)確地逼近刻畫樣本數(shù)據(jù)規(guī)律的最佳函數(shù),因而廣泛應(yīng)用于各個學(xué)科領(lǐng)域。崔強(qiáng)等[6]利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了學(xué)業(yè)預(yù)警模型,有效推動了高校思想政治教育??琢罹У萚7]基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了學(xué)業(yè)預(yù)警模型,并根據(jù)不同的預(yù)警結(jié)果執(zhí)行相應(yīng)的干預(yù)策略,幫助高風(fēng)險學(xué)生順利完成學(xué)業(yè),最終提高了人才培養(yǎng)質(zhì)量。BP神經(jīng)網(wǎng)絡(luò)是一種非常重要而經(jīng)典的人工神經(jīng)網(wǎng)絡(luò),它也被稱為誤差反向傳播神經(jīng)網(wǎng)絡(luò),是一種按照逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)[8]。因而本研究采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建高校貧困生學(xué)業(yè)成績預(yù)測模型,通過對比回歸模型的預(yù)測精度,驗證了BP神經(jīng)網(wǎng)絡(luò)模型在不需要構(gòu)建顯性數(shù)學(xué)關(guān)系式的前提下預(yù)測精度的優(yōu)越性。
建立科學(xué)、系統(tǒng)的預(yù)測指標(biāo)是構(gòu)建高校貧困生學(xué)業(yè)成績預(yù)測模型的關(guān)鍵。影響高校貧困生學(xué)業(yè)成績的因素有很多,包括課程作業(yè)、自主學(xué)習(xí)、活動參與、課外閱讀、朋輩交流、學(xué)習(xí)氛圍、個人閑暇活動分配等。如果將每個影響因素都作為模型的預(yù)測指標(biāo),會導(dǎo)致模型變得復(fù)雜,同時變量的增多也會導(dǎo)致樣本數(shù)據(jù)收集工作的難度增加,所以準(zhǔn)確地篩選與學(xué)業(yè)成績相關(guān)聯(lián)的因素并將其作為預(yù)測模型指標(biāo),將直接影響預(yù)測模型的精確度。
郭穎等[9]通過統(tǒng)計學(xué)分析發(fā)現(xiàn)期末考試成績與上課出勤率、隨堂測試成績有很大關(guān)系。王德東等[10]采用大數(shù)據(jù)技術(shù)分析了學(xué)生日常成績、圖書借閱數(shù)量等與學(xué)生未來學(xué)習(xí)成績之間的潛在關(guān)系,用來對學(xué)生進(jìn)行學(xué)業(yè)預(yù)警。付洪等[11]通過相關(guān)調(diào)查與數(shù)據(jù)分析發(fā)現(xiàn)大學(xué)生網(wǎng)絡(luò)行為與學(xué)習(xí)成績之間呈現(xiàn)出越來越強(qiáng)的關(guān)聯(lián)性。因此,本研究將學(xué)生的上課出勤率、期中考試成績、圖書借閱數(shù)量以及上網(wǎng)時間等四個因素作為影響貧困大學(xué)生學(xué)業(yè)成績的預(yù)測指標(biāo)輸入變量。學(xué)生上課出勤率高表明其學(xué)習(xí)參與度高。而經(jīng)常出現(xiàn)曠課或者遲到早退情況的學(xué)生,表明其學(xué)習(xí)參與度不高。圖書借閱數(shù)量反映了學(xué)生的學(xué)習(xí)態(tài)度。上網(wǎng)時間的長短也可以間接反映學(xué)生的學(xué)習(xí)參與度,上網(wǎng)時間長,表明學(xué)生課余時間沒有好好預(yù)習(xí)或者鞏固知識,從而表明學(xué)生的學(xué)習(xí)參與度不高。有的同學(xué)上課出勤率高、上網(wǎng)時間也很短,但是期中考試成績卻不理想,反映了其學(xué)習(xí)策略不恰當(dāng)。綜合考慮,選擇以上四個因素作為自變量用來預(yù)測貧困生的學(xué)業(yè)成績。學(xué)生的期末考試成績則是因變量。
本研究從某高校貧困生中隨機(jī)選取718名作為樣本,以學(xué)生一個學(xué)期的出勤率、期中考試成績、圖書借閱數(shù)量以及上網(wǎng)時間構(gòu)成預(yù)測指標(biāo)體系。無論公假、事假或病假,都視為缺勤,總上課次數(shù)減去缺勤次數(shù)再除以總上課次數(shù),即為出勤率。如在一個學(xué)期中,學(xué)生每次上課出勤,即滿勤,出勤率為1。為了不挫傷學(xué)生學(xué)習(xí)的積極性,減輕學(xué)生的心理負(fù)擔(dān)和壓力,對學(xué)生期中考試一般安排2門。因此,期中考試成績指標(biāo)是2門學(xué)科期中考試成績的平均值。圖書借閱數(shù)量以平均每個月的借閱圖書為依據(jù)。上網(wǎng)時間根據(jù)信息系統(tǒng)監(jiān)測到學(xué)生一學(xué)期平均每月上網(wǎng)時長來決定,以小時/月為單位。
貧困生學(xué)業(yè)成績預(yù)測模型所涉及到的各項指標(biāo)及其相關(guān)數(shù)據(jù),如表1所示。
表1 學(xué)業(yè)成績的各項指標(biāo)
在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)預(yù)測之前,為避免原始數(shù)據(jù)過大造成網(wǎng)絡(luò)麻痹,要對原始數(shù)據(jù)進(jìn)行歸一化處理。因此將表1中的原始數(shù)據(jù)規(guī)范在[-1,1]之間,這樣可以盡可能地平滑數(shù)據(jù)。歸一化的數(shù)據(jù)作為模型的樣本,如表2所示。
表2 樣本數(shù)據(jù)
BP神經(jīng)網(wǎng)絡(luò)屬于多層前向神經(jīng)網(wǎng)絡(luò),增加網(wǎng)絡(luò)層數(shù)能夠使結(jié)果更精確,降低誤差,但是會使計算量過大,訓(xùn)練過程難以擬合。因此,采用經(jīng)典的“輸入層——隱含層——輸出層”三層結(jié)構(gòu)建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型。
采用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行貧困生學(xué)業(yè)成績預(yù)測,分為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和檢驗兩個部分。訓(xùn)練樣本的輸入數(shù)據(jù)來自718名貧困生中隨機(jī)選取的640個貧困生學(xué)業(yè)成績指標(biāo)數(shù)據(jù),輸出數(shù)據(jù)來自640名貧困生的期末考試學(xué)業(yè)成績。檢驗樣本輸入數(shù)據(jù)來自總樣本中剩余的78名貧困生學(xué)業(yè)成績指標(biāo)數(shù)據(jù)。因此,訓(xùn)練樣本的輸入節(jié)點數(shù)為4,輸出層節(jié)點數(shù)均為1,隱含層節(jié)點數(shù)如式(1)。
(1)
式中,N為隱含層節(jié)點數(shù);m為輸入節(jié)點數(shù);n為輸出節(jié)點數(shù);a為[1,10]之間的常數(shù)。
根據(jù)式(1),本研究隱含層節(jié)點取值范圍為[3,12]。隱含層節(jié)點的確定,要使得模型預(yù)測精度高。預(yù)測模型精度的評估采用誤差百分比和均方根誤差作為評估指標(biāo),如式(2)、式(3)。
(2)
式中,MAPE為相對誤差百分比;abs為絕對值運(yùn)算;A(i)為模型輸出值;B(i)為實際值;k為樣本數(shù)量。
(3)
式中,RMSE為均方根誤差;k為樣本數(shù)量;A(i)為模型輸出值;B(i)為實際值。
根據(jù)隱含層節(jié)點的取值范圍,改變隱含層節(jié)點數(shù)值,對訓(xùn)練樣本進(jìn)行訓(xùn)練,得到了不同節(jié)點數(shù)時所對應(yīng)的誤差,如表3所示。
表3 不同隱含層節(jié)點數(shù)的預(yù)測誤差
從表3可以看出,最終確定誤差最小時對應(yīng)的隱含層節(jié)點數(shù)為9。這是因為如果隱含層節(jié)點數(shù)過少,不能充分反映樣本規(guī)律,誤差存在波動;但節(jié)點數(shù)過多,會增加網(wǎng)絡(luò)學(xué)習(xí)時間,可能出現(xiàn)“過擬合現(xiàn)象”,會導(dǎo)致誤差較大。
輸入層和輸出層的傳遞函數(shù)選取宗旨是使預(yù)測精確度高。
在網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)值、閾值相同的情況下,BP神經(jīng)網(wǎng)絡(luò)誤差與隱含層、輸出層的傳遞函數(shù)之間的關(guān)系,如表4所示。
表4 不同傳遞函數(shù)對應(yīng)的誤差
表4中的三個函數(shù):logsig、tansig和purelin均為神經(jīng)網(wǎng)絡(luò)中常使用的傳遞函數(shù),其中,logsig是S型的對數(shù)函數(shù);tansig是S型的正切函數(shù);purelin是線性函數(shù)。
從表4可以看出,隱含層和輸出層的傳遞函數(shù)選擇對BP神經(jīng)網(wǎng)絡(luò)預(yù)測精度有影響。其中誤差百分比和均方根誤差最小的隱含層和輸出層的傳遞函數(shù)分別為purelin、purelin。
本研究利用MATLAB_R2017a自帶的人工神經(jīng)網(wǎng)絡(luò)工具箱來完成模型的建立。選用3層結(jié)構(gòu)BP神經(jīng)網(wǎng)絡(luò):輸入層、一個隱含層和輸出層。輸入層的節(jié)點數(shù)為4,隱含層節(jié)點數(shù)為9,輸出層節(jié)點數(shù)為1。BP神經(jīng)網(wǎng)絡(luò)根據(jù)設(shè)置好的參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練參數(shù)如表5所示。
表5 訓(xùn)練參數(shù)的設(shè)置
利用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)對貧困生學(xué)業(yè)成績進(jìn)行預(yù)測。
為了驗證BP神經(jīng)網(wǎng)絡(luò)對貧困生學(xué)業(yè)成績進(jìn)行預(yù)測的優(yōu)越性,本研究對比了回歸分析法和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果。采用SPSS軟件進(jìn)行多元線性回歸分析,利用表1的貧困生信息,以學(xué)業(yè)成績分?jǐn)?shù)作為因變量,上課出勤率、期中考試成績、圖書借閱數(shù)量以及上網(wǎng)時間作為自變量,建立貧困生學(xué)業(yè)成績的回歸分析模型。得到的回歸方程式如式(4)。
F=-131.81+147.85C+0.81Z+0.02T-0.02W
(4)
式中,F(xiàn)為學(xué)業(yè)成績分?jǐn)?shù);C為上課出勤率;Z為期中考試成績;T為圖書借閱數(shù)量;W為上網(wǎng)時間。
根據(jù)表5進(jìn)行BP神經(jīng)網(wǎng)絡(luò)預(yù)測和根據(jù)回歸分析法得到的式(4)進(jìn)行預(yù)測,對比結(jié)果如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)和回歸分析法的學(xué)業(yè)成績預(yù)測結(jié)果
從圖1可以看出,BP神經(jīng)網(wǎng)絡(luò)對高校貧困生學(xué)業(yè)成績的預(yù)測結(jié)果和真實分?jǐn)?shù)比較接近。而回歸分析法的預(yù)測結(jié)果和實際值存在偏差。
在進(jìn)行預(yù)測時,實際值和預(yù)測值之間的接近程度一般采用擬合度來表征。對BP神經(jīng)網(wǎng)絡(luò)和回歸分析法的預(yù)測結(jié)果進(jìn)行相關(guān)性分析,結(jié)果如圖2所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)和回歸分析法預(yù)測結(jié)果的相關(guān)性分析
從圖2可以看出,BP神經(jīng)網(wǎng)絡(luò)的擬合度為0.96,預(yù)測結(jié)果與實際值較為一致,具有較高的精確度,回歸分析法預(yù)測高校貧困生學(xué)業(yè)成績的擬合度為0.70。因此,BP神經(jīng)網(wǎng)絡(luò)對高校貧困生學(xué)業(yè)成績的預(yù)測精度更高,更有效。
高校貧困生學(xué)業(yè)成績的有效預(yù)測是精準(zhǔn)扶貧背景下實現(xiàn)精準(zhǔn)“扶智“的前提和基礎(chǔ)。本研究在學(xué)習(xí)狀態(tài)監(jiān)測數(shù)據(jù)的基礎(chǔ)上建立BP神經(jīng)網(wǎng)絡(luò)模型對高校貧困生學(xué)業(yè)成績進(jìn)行預(yù)測,可以有效篩選學(xué)習(xí)存在高風(fēng)險學(xué)生,主動干預(yù),為高校貧困生學(xué)業(yè)成績的提高,確保學(xué)業(yè)順利完成提供有力參考。
采用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建高校貧困生學(xué)業(yè)成績預(yù)測模型,無需尋找樣本數(shù)據(jù)間的顯性關(guān)系式和數(shù)學(xué)模型即可直接預(yù)測學(xué)業(yè)成績。篩選貧困生上課出勤率、期中考試成績、圖書借閱數(shù)量以及上網(wǎng)時間等四個因素作為學(xué)業(yè)成績的預(yù)測指標(biāo)。對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,當(dāng)隱含層節(jié)點為9,輸入層函數(shù)為purelin,輸出層函數(shù)為purelin時BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度達(dá)到最優(yōu)狀態(tài)。該模型與回歸分析模型的檢驗結(jié)果進(jìn)行對比研究,兩個模型對高校貧困生學(xué)業(yè)成績預(yù)測的擬合度分別為0.96、0.70,充分驗證了BP神經(jīng)網(wǎng)絡(luò)模型對貧困生學(xué)業(yè)成績預(yù)測的精確度更高。