許杰 倪文瀚 蘭潔 周翔宇
關(guān)鍵詞:教育數(shù)據(jù)挖掘;寬度學(xué)習(xí)算法;成績(jī)預(yù)測(cè)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)20-0090-03
0 引言
作為一種新興跨學(xué)科研究領(lǐng)域,教育數(shù)據(jù)挖掘涉及計(jì)算機(jī)科學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和教育統(tǒng)計(jì)學(xué)等多學(xué)科內(nèi)容。其中,實(shí)現(xiàn)高校學(xué)生成績(jī)的預(yù)測(cè)是教育數(shù)據(jù)挖掘的重要目標(biāo),通過(guò)對(duì)學(xué)生日常行為數(shù)據(jù)的挖掘與分析,可以幫助學(xué)校管理者和教師及時(shí)了解學(xué)生的學(xué)習(xí)成績(jī),并做出針對(duì)性指導(dǎo),改善學(xué)生的學(xué)習(xí)效率,盡可能避免出現(xiàn)課程不及格的現(xiàn)象,提高教學(xué)質(zhì)量。因此,如何實(shí)現(xiàn)高校學(xué)生成績(jī)的準(zhǔn)確預(yù)測(cè),是本文研究的重點(diǎn)內(nèi)容。
高校學(xué)生成績(jī)預(yù)測(cè)是指基于學(xué)生的相關(guān)信息,如歷史成績(jī)、行為數(shù)據(jù)、心理特征等,來(lái)預(yù)測(cè)其未來(lái)的學(xué)習(xí)表現(xiàn),如分?jǐn)?shù)、排名、考核等級(jí)等。這是教育數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱點(diǎn)問(wèn)題,也是提高教育質(zhì)量和效率的一個(gè)重要手段。針對(duì)高校學(xué)生的成績(jī)預(yù)測(cè)已經(jīng)得到很多研究者的關(guān)注并取得相應(yīng)的研究成果。文獻(xiàn)[1-3]提出了基于統(tǒng)計(jì)模型的方法,這種方法利用統(tǒng)計(jì)理論和技術(shù),如線性回歸、邏輯回歸、方差分析等,建立學(xué)生成績(jī)與各種因素之間的數(shù)學(xué)關(guān)系,并進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn)。這類(lèi)方法簡(jiǎn)單易用,但需要滿足一定的假設(shè)條件,并且難以處理非線性和復(fù)雜的關(guān)系。文獻(xiàn)[4-6]設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的方法,能夠利用機(jī)器學(xué)習(xí)算法,如決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等,從大量的數(shù)據(jù)中自動(dòng)學(xué)習(xí)出成績(jī)預(yù)測(cè)模型,并進(jìn)行優(yōu)化和評(píng)估。這類(lèi)方法能夠處理非線性和復(fù)雜的關(guān)系,并且具有較強(qiáng)的泛化能力和魯棒性。文獻(xiàn)[7]利用深度神經(jīng)網(wǎng)絡(luò),從多源異構(gòu)數(shù)據(jù)中提取高層次特征,并進(jìn)行端到端的成績(jī)預(yù)測(cè)。這類(lèi)方法能夠處理高維度和復(fù)雜結(jié)構(gòu)的數(shù)據(jù),并且具有較強(qiáng)的表達(dá)能力和自適應(yīng)能力。
上述方法雖然能夠?qū)崿F(xiàn)高校學(xué)生的成績(jī)預(yù)測(cè),但還存在一些預(yù)測(cè)精度低和速度較慢的問(wèn)題。具體來(lái)說(shuō),首先是數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量是影響成績(jī)預(yù)測(cè)精度的重要因素之一。如果數(shù)據(jù)存在缺失值、噪聲值、異常值等問(wèn)題,或者數(shù)據(jù)量不足、數(shù)據(jù)來(lái)源單一、數(shù)據(jù)分布不均等問(wèn)題,都會(huì)導(dǎo)致成績(jī)預(yù)測(cè)模型的訓(xùn)練和測(cè)試效果下降。第二是特征選擇問(wèn)題。特征選擇是指從原始數(shù)據(jù)中篩選出與目標(biāo)變量相關(guān)性較高且冗余性較低的特征子集,以提高成績(jī)預(yù)測(cè)模型的泛化能力和解釋能力。如果特征選擇不合理,可能會(huì)導(dǎo)致信息損失或噪聲干擾,從而影響成績(jī)預(yù)測(cè)精度。第三是模型選擇問(wèn)題。模型選擇是指從多個(gè)候選模型中選擇一個(gè)最優(yōu)模型來(lái)進(jìn)行成績(jī)預(yù)測(cè)。不同的模型具有不同的假設(shè)條件、參數(shù)設(shè)置、優(yōu)化方法等,對(duì)于同一份數(shù)據(jù)可能會(huì)產(chǎn)生不同的預(yù)測(cè)結(jié)果。如果模型選擇不符合當(dāng)前數(shù)據(jù)特點(diǎn)或者沒(méi)有經(jīng)過(guò)充分的調(diào)優(yōu)和驗(yàn)證,可能會(huì)導(dǎo)致成績(jī)預(yù)測(cè)精度降低。最后是評(píng)估指標(biāo)問(wèn)題。評(píng)估指標(biāo)是指用來(lái)衡量成績(jī)預(yù)測(cè)模型好壞的數(shù)值或標(biāo)準(zhǔn)。常見(jiàn)的評(píng)估指標(biāo)有均方誤差、平均絕對(duì)誤差、相關(guān)系數(shù)、準(zhǔn)確率等。不同的評(píng)估指標(biāo)反映了成績(jī)預(yù)測(cè)結(jié)果的不同方面,例如:誤差大小、正確率、覆蓋率等。如果評(píng)估指標(biāo)沒(méi)有考慮到教育領(lǐng)域內(nèi)特有的因素或者沒(méi)有結(jié)合多種指標(biāo)進(jìn)行綜合分析,可能會(huì)導(dǎo)致對(duì)成績(jī)預(yù)測(cè)精度產(chǎn)生偏頗或片面的認(rèn)識(shí)。
因此,本文提出了一種基于寬度學(xué)習(xí)網(wǎng)絡(luò)的高校學(xué)生成績(jī)預(yù)測(cè)方法,通過(guò)建立數(shù)據(jù)處理、網(wǎng)絡(luò)訓(xùn)練和成績(jī)預(yù)測(cè)三個(gè)模塊,改善了數(shù)據(jù)質(zhì)量、模型選擇和評(píng)估指標(biāo)等問(wèn)題。
1 寬度學(xué)習(xí)網(wǎng)絡(luò)
寬度學(xué)習(xí)網(wǎng)絡(luò)是基于隨機(jī)向量函數(shù)鏈接神經(jīng)網(wǎng)絡(luò)(RVFLNN) 的一種改進(jìn)和擴(kuò)展,RVFLNN是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),其輸入層到隱層的權(quán)重和偏置是隨機(jī)生成的,不需要訓(xùn)練,只需要求解隱層到輸出層的權(quán)重矩陣。RVFLNN雖然簡(jiǎn)單高效,但也存在一些問(wèn)題,比如輸入數(shù)據(jù)的映射特征不夠豐富和穩(wěn)定,導(dǎo)致網(wǎng)絡(luò)性能受限。為了解決這些問(wèn)題,陳俊龍教授及其團(tuán)隊(duì)[8]在2018年首次在學(xué)術(shù)界提出了寬度學(xué)習(xí)系統(tǒng)(BLS) ,并在之后不斷進(jìn)行改進(jìn)和擴(kuò)展。與深度學(xué)習(xí)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)有所不同,寬度學(xué)習(xí)網(wǎng)絡(luò)可以利用較少的網(wǎng)絡(luò)層數(shù)量來(lái)實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的處理,同時(shí)利用偽逆矩陣的計(jì)算,一次求解得到訓(xùn)練網(wǎng)絡(luò)的權(quán)重參數(shù),避免了龐大的計(jì)算量,提高了運(yùn)算速度。因此可以將寬度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用到教育大數(shù)據(jù)領(lǐng)域,實(shí)現(xiàn)學(xué)生成績(jī)的高效與準(zhǔn)確預(yù)測(cè)。
1.1 寬度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
寬度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,其中包括輸入層、特征層、增強(qiáng)層和輸出層。特征層和增強(qiáng)層包含兩種節(jié)點(diǎn),分別是特征節(jié)點(diǎn)(feature node)和增強(qiáng)節(jié)點(diǎn)(enhancement node)。特征節(jié)點(diǎn)由輸入數(shù)據(jù)計(jì)算得到,增強(qiáng)節(jié)點(diǎn)根據(jù)特征節(jié)點(diǎn)進(jìn)一步計(jì)算得到。兩種節(jié)點(diǎn)直接組合起來(lái)連接到輸出層節(jié)點(diǎn)。由于這種相對(duì)簡(jiǎn)單的結(jié)構(gòu),寬度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練時(shí)只需要求解單層的最優(yōu)權(quán)值,避免了復(fù)雜的反向傳播過(guò)程,有效降低了模型訓(xùn)練時(shí)間。
當(dāng)特征層和增強(qiáng)層需要增加新的網(wǎng)絡(luò)節(jié)點(diǎn),或者收集到新的訓(xùn)練數(shù)據(jù)時(shí),寬度學(xué)習(xí)網(wǎng)絡(luò)無(wú)須復(fù)雜的重新訓(xùn)練過(guò)程,只需要通過(guò)一些高效的增量計(jì)算來(lái)動(dòng)態(tài)地更新已經(jīng)學(xué)習(xí)到的權(quán)值。寬度學(xué)習(xí)網(wǎng)絡(luò)的增量學(xué)習(xí)包括添加特征節(jié)點(diǎn)、添加增強(qiáng)節(jié)點(diǎn)以及添加輸入數(shù)據(jù)等情況。
1.2 寬度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練
寬度學(xué)習(xí)網(wǎng)絡(luò)需要通過(guò)訓(xùn)練來(lái)生成特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn),這兩類(lèi)節(jié)點(diǎn)分別負(fù)責(zé)提取輸入數(shù)據(jù)的線性和非線性特征。同時(shí),寬度學(xué)習(xí)網(wǎng)絡(luò)需要通過(guò)訓(xùn)練來(lái)求解特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)到目標(biāo)值的偽逆矩陣,這相當(dāng)于神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,并調(diào)整稀疏表示和正交規(guī)范化等技術(shù),以提高特征節(jié)點(diǎn)和增強(qiáng)節(jié)點(diǎn)的表達(dá)能力和穩(wěn)定性。寬度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方法主要采用梯度下降法,這是一種最常用的訓(xùn)練方法,它根據(jù)損失函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行迭代更新,使得損失函數(shù)達(dá)到最小值。梯度下降法可以分為批量梯度下降、隨機(jī)梯度下降和小批量梯度下降等不同的變體,根據(jù)每次更新時(shí)使用的數(shù)據(jù)量的不同。梯度下降法也可以結(jié)合一些優(yōu)化技術(shù),例如動(dòng)量、自適應(yīng)學(xué)習(xí)率、正則化等,來(lái)提高訓(xùn)練效率和穩(wěn)定性。
1.3 常見(jiàn)應(yīng)用領(lǐng)域
經(jīng)過(guò)近幾年的快速發(fā)展,寬度學(xué)習(xí)網(wǎng)絡(luò)已在很多技術(shù)領(lǐng)域都有展開(kāi)應(yīng)用,并且有良好的發(fā)展?jié)摿?,比如時(shí)間序列、高光譜分析、腦機(jī)信號(hào)分析、容錯(cuò)、基因鑒定與疾病檢測(cè)、步態(tài)識(shí)別、3D打印以及智能交通等。其中,在安防領(lǐng)域[9],寬度學(xué)習(xí)網(wǎng)絡(luò)可以提升人工智能識(shí)別的可靠性和場(chǎng)景適應(yīng)能力。2020年Feng等人[10]提出了寬度學(xué)習(xí)網(wǎng)絡(luò)可以通過(guò)增量學(xué)習(xí)來(lái)適應(yīng)系統(tǒng)的變化和故障,這種方法應(yīng)用在容錯(cuò)系統(tǒng)中解決了機(jī)器人控制系統(tǒng)存在的故障率高等問(wèn)題。同時(shí),由于寬度學(xué)習(xí)網(wǎng)絡(luò)可以處理不同長(zhǎng)度和頻率的時(shí)間序列數(shù)據(jù),在股票預(yù)測(cè)[11]和災(zāi)害預(yù)報(bào)[12]中也有較好的應(yīng)用價(jià)值。
2 基于寬度學(xué)習(xí)的高校學(xué)生成績(jī)預(yù)測(cè)模型
為了實(shí)現(xiàn)高校學(xué)生成績(jī)的準(zhǔn)確預(yù)測(cè),本文提出了一種基于寬度學(xué)習(xí)的高校學(xué)生成績(jī)預(yù)測(cè)模型,成績(jī)預(yù)測(cè)流程如圖2所示。該模型主要包括數(shù)據(jù)處理、網(wǎng)絡(luò)訓(xùn)練和成績(jī)預(yù)測(cè)三個(gè)模塊,每個(gè)模塊的具體功能如下。
2.1 數(shù)據(jù)處理模塊
這個(gè)模塊的功能是處理影響學(xué)生成績(jī)的日常行為數(shù)據(jù),包括數(shù)據(jù)的獲取、存儲(chǔ)、更新、提取等操作。由于影響學(xué)生成績(jī)的日常行為數(shù)據(jù)維數(shù)較多,其中部分?jǐn)?shù)據(jù)對(duì)成績(jī)并無(wú)參考價(jià)值,所以在數(shù)據(jù)處理模塊中需要進(jìn)行特征提取,以獲取對(duì)本文研究有用的行為特征。
2.2 網(wǎng)絡(luò)訓(xùn)練模塊
在網(wǎng)絡(luò)訓(xùn)練模塊中,首先需準(zhǔn)備數(shù)據(jù),將類(lèi)別變量進(jìn)行編碼,把數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,然后建立寬度學(xué)習(xí)網(wǎng)絡(luò)模型,設(shè)置各層的激活函數(shù)、單元數(shù)、學(xué)習(xí)率、正則化等參數(shù),在訓(xùn)練過(guò)程中,將訓(xùn)練集數(shù)據(jù)輸入模型,設(shè)置迭代次數(shù),并使用測(cè)試集數(shù)據(jù)計(jì)算預(yù)測(cè)誤差,調(diào)整參數(shù)優(yōu)化模型。
2.3 成績(jī)預(yù)測(cè)模塊
經(jīng)過(guò)數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練后,成績(jī)預(yù)測(cè)模塊可以快速準(zhǔn)確地預(yù)測(cè)學(xué)生成績(jī)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)準(zhǔn)備
為了訓(xùn)練和測(cè)試成績(jī)預(yù)測(cè)模型,把數(shù)據(jù)集按照7∶3的比例劃分為訓(xùn)練集和測(cè)試集。在對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,分別采用線性回歸、支持向量機(jī)和本文提出的寬度學(xué)習(xí)網(wǎng)絡(luò)建立模型,并對(duì)模型參數(shù)進(jìn)行優(yōu)化,以保證方法對(duì)比的公平。本文的實(shí)驗(yàn)在以下硬件和軟件環(huán)境下進(jìn)行:處理器是Intel(R) Core(TM) i7-9700,主頻是3.2GHz,內(nèi)存是16.0GB;軟件環(huán)境是Py?thon3.8。在使用寬度學(xué)習(xí)算法的成績(jī)預(yù)測(cè)模型中,設(shè)置每個(gè)窗口有10個(gè)特征節(jié)點(diǎn),共有20個(gè)窗口,增強(qiáng)節(jié)點(diǎn)有200個(gè)。
3.2 不同預(yù)測(cè)模型的對(duì)比結(jié)果與分析
在本文實(shí)驗(yàn)中,首先將采集到的數(shù)據(jù)進(jìn)行預(yù)處理,解決數(shù)據(jù)缺失、異常和噪聲問(wèn)題,然后將訓(xùn)練數(shù)據(jù)導(dǎo)入預(yù)先設(shè)計(jì)好的寬度學(xué)習(xí)網(wǎng)絡(luò)模型,通過(guò)網(wǎng)絡(luò)訓(xùn)練調(diào)整網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)量和權(quán)重參數(shù),最終通過(guò)訓(xùn)練好的寬度學(xué)習(xí)網(wǎng)絡(luò)模型輸出數(shù)據(jù)得到學(xué)生成績(jī)的預(yù)測(cè)值,并與已有的兩種方法進(jìn)行對(duì)比,實(shí)驗(yàn)對(duì)比結(jié)果如圖3所示。
由圖3中可以發(fā)現(xiàn),經(jīng)過(guò)數(shù)據(jù)預(yù)處理和模型訓(xùn)練后,采用線性回歸的學(xué)生成績(jī)預(yù)測(cè)準(zhǔn)確率為75.2%,支持向量機(jī)的預(yù)測(cè)準(zhǔn)確率為84.7%,而本文提出的寬度學(xué)習(xí)預(yù)測(cè)模型準(zhǔn)確率達(dá)到了93.5%,驗(yàn)證了本文所提出預(yù)測(cè)模型的有效性。
同時(shí),為了評(píng)估高校學(xué)生成績(jī)模型的預(yù)測(cè)性能,主要用到的評(píng)標(biāo)指標(biāo)包括均方誤差(MAE) 、平均絕對(duì)誤差(RMSE) 、準(zhǔn)確率(P) 和召回率(R) 。三種不同方法的預(yù)測(cè)性能對(duì)比結(jié)果如表1所示,從中可以看到,同線性回歸和支持向量機(jī)兩種方法相比,本文提出的寬度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率達(dá)到了92.4%,召回率達(dá)到了94.2%,同時(shí)具有最低的MAE值和RMSE值,說(shuō)明本方法提高了成績(jī)預(yù)測(cè)精度。
4 總結(jié)
本文設(shè)計(jì)了一種基于寬度學(xué)習(xí)的高校學(xué)生成績(jī)預(yù)測(cè)模型,通過(guò)數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練,最終實(shí)現(xiàn)了高校學(xué)生成績(jī)的快速準(zhǔn)確預(yù)測(cè),能夠幫助高校教育管理人員及時(shí)了解學(xué)生的學(xué)習(xí)狀況,提高學(xué)生成績(jī)。