田 鈺
(合肥市教育局 教育科學(xué)研究院,安徽 合肥 230071)
隨著社會對高等教育的重視程度越來越高,如何針對考生成績進行科學(xué)的預(yù)測分析來提高教學(xué)質(zhì)量,已成為教育部門關(guān)注的焦點。傳統(tǒng)方法是利用數(shù)理統(tǒng)計的知識設(shè)置分數(shù)線來對考生成績進行檔次劃分,難以從中挖掘影響成績的潛在因素。因此,教育數(shù)據(jù)挖掘(Educational Data Mining, EDM)應(yīng)運而生。EDM[1]運用教育學(xué)、計算機科學(xué)、統(tǒng)計學(xué)、心理學(xué)等多個學(xué)科的理論和技術(shù)來解決教學(xué)研究與教學(xué)實踐中的問題,主要包括數(shù)據(jù)準備、數(shù)據(jù)篩選、數(shù)據(jù)處理、數(shù)據(jù)挖掘、模式評估等一系列步驟。
如何通過高效的挖掘算法幫助管理者和決策者揭示教學(xué)規(guī)律并完善教學(xué)方法,一直是EDM領(lǐng)域中極具挑戰(zhàn)性的問題。國內(nèi)外學(xué)者對此也進行了相關(guān)的研究。KUMARVERMA[2]使用Apriori算法對考生的歷史成績進行分析與分類,挖掘成績間的關(guān)聯(lián)規(guī)則,但該方法利用傳統(tǒng)的Apriori算法,會產(chǎn)生大量頻繁項集、候選項集,需要多次訪問事務(wù)數(shù)據(jù)庫,從而帶來了巨大的I/O負載。文獻[3-5]使用決策樹(Decision Tree, D-T)對考生成績進行預(yù)測,通過計算特征屬性的信息熵與信息增益選擇分裂屬性,構(gòu)建具有最大增益率的決策樹來建立分類規(guī)則并分析預(yù)測模型,但是對連續(xù)的分數(shù)預(yù)測精確度較差,可能出現(xiàn)過度匹配的問題且容易產(chǎn)生過擬合的現(xiàn)象。ZHANG等[6]將支持向量機(Support Vector Machine, SVM)應(yīng)用到高考成績預(yù)測中,以回歸分析來預(yù)測高考成績。但是在數(shù)據(jù)的收集、對混合預(yù)測的效果等方面存在不足。DEVASIA等[7]采用樸素貝葉斯模型(Naive Bayesian, N-B)收集考生特征屬性,計算不同類別下的條件概率來預(yù)測期末的表現(xiàn),最終提高預(yù)測的準確性。貝葉斯模型中各屬性相互獨立,但是在現(xiàn)實生活中,影響成績的屬性間往往具有緊密的聯(lián)系,從而導(dǎo)致分類精度較差。上述文獻分析證實了機器學(xué)習(xí)方法在某種程度上可以對考生的成績進行有效的分析及預(yù)測,但仍然存在諸多缺陷。
雖然傳統(tǒng)機器學(xué)習(xí)方法在EDM領(lǐng)域已較成熟,然而很少有將深度學(xué)習(xí)模型運用到成績預(yù)測中??紤]到傳統(tǒng)方法處理多元化非線性數(shù)據(jù)時效率較低,一批學(xué)者開始使用神經(jīng)網(wǎng)絡(luò)模型對考生成績進行分析與預(yù)測。IBRAHIM等[8]利用人工神經(jīng)網(wǎng)絡(luò),通過學(xué)生累計平均學(xué)分績點(Cumulative Grade Point Average, CGPA)衡量其學(xué)業(yè)成績。然而,該模型無法處理時間序列數(shù)據(jù),因此未能考慮到前后成績的相關(guān)性對結(jié)果的影響。OKUBO等[9]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)來預(yù)測學(xué)生期末成績。該方法通過日志信息提取學(xué)生的學(xué)習(xí)活動,作為神經(jīng)網(wǎng)絡(luò)的輸入。但是該方法忽略了考生個人信息,未能充分捕捉其特征。
為解決以上方法中存在的問題,本文將考生短期特征與長期特征相結(jié)合,提出一種新穎的多元特征感知的神經(jīng)網(wǎng)絡(luò)模型(Multiple Features-aware Neural Network, MFNN)。主要貢獻有如下幾點:
(1)本文將長短期記憶網(wǎng)絡(luò)(Long Short Term Memory network, LSTM)應(yīng)用到成績預(yù)測中,利用該網(wǎng)絡(luò)對考生進行建模。與經(jīng)典的成績預(yù)測方法相比,LSTM算法能提取出具有時序性的特征,從而提高預(yù)測結(jié)果的精度。
(2)針對傳統(tǒng)算法無法感知多元特征的問題,提出MFNN模型。該模型利用LSTM模塊和embedding模塊同時捕捉考生短期特征和長期特征,從深度和廣度兩方面分析特征之間非線性關(guān)系。
(3)在2015年合肥市考生的真實數(shù)據(jù)集上進行大量實驗,實驗結(jié)果證明,本文提出的MFNN模型在理科和文科數(shù)據(jù)集上的預(yù)測精度均優(yōu)于其他對比算法。
本章主要介紹循環(huán)神經(jīng)網(wǎng)絡(luò)RNN以及長短期記憶網(wǎng)絡(luò)LSTM。
循環(huán)神經(jīng)網(wǎng)絡(luò)[10-12]通過將當(dāng)前神經(jīng)元的隱藏狀態(tài)傳入下一時刻的神經(jīng)元,使神經(jīng)網(wǎng)絡(luò)具備短期的“記憶功能”。設(shè)變長序列(x1,x2,…,xt),RNN根據(jù)當(dāng)前的輸入xt以及上一時刻的隱含狀態(tài)ht-1來產(chǎn)生下一時刻的輸出Ot,一般ht直接用于輸出,即ht=RNN(ht-1,xt)。
長短期記憶網(wǎng)絡(luò)[13-15]是為了解決RNN訓(xùn)練過程中梯度消失與梯度爆炸問題的一種優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。相比于RNN,LSTM能夠更好地挖掘數(shù)據(jù)之間長期的依賴關(guān)系,是現(xiàn)今最為流行的一種方案。
如圖1所示,LSTM模型包含3個控制門:遺忘門,輸入門和輸出門。
(1)遺忘門將上一階段ht-1以及當(dāng)前狀態(tài)xt輸入到sigmoid函數(shù)中,針對上一個神經(jīng)元狀態(tài)Ct-1進行選擇性遺忘。遺忘門計算公式如下:
ft=σ(wtxt+ufht-1)。
(1)
式中:σ表示sigmoid函數(shù),wt和uf表示遺忘門中的權(quán)值矩陣,遺忘門的輸出為:
ft°Ct-1。
(2)
式中:°表示元素乘,定義如下:
A°B=(a1,a2,…,an)°(b1,b2,…,bn)=(a1b1,a2b2,…,anbn)。
(3)
(2)輸入門通過上一狀態(tài)的輸出、當(dāng)前狀態(tài)的輸入以及tanh激活函數(shù)生成候選新信息,得到下一時刻狀態(tài)Ct,輸入門計算公式如下:
it=σ(wixt+uiht-1),
(4)
(5)
(6)
(3)輸出門負責(zé)計算本層激活值。神經(jīng)元的狀態(tài)信息經(jīng)過tanh層進行激活與Ot相乘,得到輸出信息ht。輸出門計算公式如下:
Ot=σ(woxt+uoht-1)。
(7)
式中:wo和uo是輸出門中的權(quán)值矩陣,輸出信息為:
ht=Ot°tanh(Ct)。
(8)
本章將詳細闡述多元特征感知的神經(jīng)網(wǎng)絡(luò)模型MFNN,包括輸入層、中間層和輸出層,并介紹模型所使用的損失函數(shù),MFNN模型架構(gòu)如圖2所示。
2.1.1 輸入層(Input Layer)
傳統(tǒng)基于神經(jīng)網(wǎng)絡(luò)的預(yù)測方法,常利用考生u的成績序列Su對u進行建模,僅捕獲考生u近期學(xué)習(xí)狀態(tài),即短期特征Stu。為引入多元化特征,分析特征之間非線性關(guān)系,本文將u的個人信息Iu作為embedding模塊的輸入,捕獲u的長期特征Ltu。
2.1.2 中間層(Middle Layer)
中間層主要包括兩個模塊:LSTM模塊、embedding模塊。中間層利用這兩個模塊同時從深度和廣度兩方面捕獲考生u的長期特征Ltu和短期特征Stu。
(1)LSTM模塊 LSTM利用神經(jīng)元內(nèi)部的門控機制選擇性地保存序列以往的狀態(tài)。因此,在獲得具有時序性的輸入Su后,LSTM模塊利用記憶細胞學(xué)習(xí)u的短期特征,學(xué)習(xí)過程如下:
(9)
(10)
(11)
(12)
(13)
(14)
(15)
式中:C表示連接操作,Vu表示輸出層所需的輸入向量。
2.1.3 輸出層(Output Layer)
輸出層對Vu進行特征轉(zhuǎn)換,得到考生u的長期特征,轉(zhuǎn)換過程如下:
Ltu=fL(WL·Vu+bL)。
(16)
式中:fL表示激活函數(shù),WL表示權(quán)值矩陣,bL表示偏置項。然后,輸出層在考生u的長期特征Ltu和短期特征Stu的基礎(chǔ)上,構(gòu)建一個新的輸出向量Gu。最后,通過一個全連接層,產(chǎn)生最終預(yù)測值。具體定義如下:
(17)
(18)
MFNN模型預(yù)測考生u的高考成績Ou,是一個回歸問題。平方損失函數(shù)是一種常用于回歸問題的Pointwise損失函數(shù),具有以下3個優(yōu)點:①避免正負誤差不能相加的問題;②計算誤差的過程中,提高對高誤差的靈敏度;③一階導(dǎo)數(shù)連續(xù),容易優(yōu)化。因此,本文使用平方損失函數(shù)優(yōu)化MFNN模型。平方損失函數(shù)定義如下:
(19)
本章主要對實驗結(jié)果進行分析,并對本文提出的MFNN模型的性能進行相關(guān)評價。首先介紹實驗中使用的數(shù)據(jù)集,然后介紹評價指標和對比方法,最后通過不同參數(shù)的設(shè)置說明了本文提出的方法的研究價值與意義。
本文使用由合肥市教育局提供的真實數(shù)據(jù)集進行實驗,該數(shù)據(jù)集由2015年合肥市高三考生3次模擬考試的成績以及他們的高考成績構(gòu)成。為使實驗結(jié)果更加準確可靠,需要對數(shù)據(jù)集進行預(yù)處理操作。將文科理科類型的考生進行分離,并去除了同一所學(xué)校相同姓名的考生記錄。最終,數(shù)據(jù)集包含10 138名理工類考生以及4 874名文史類考生記錄,每條考生記錄包含22個特征屬性值,分別是考生3次??嫉某煽円约霸摽忌膶W(xué)校、家庭背景、考生類別以及高考成績。
本部分實驗環(huán)境是:Python 3.7 , JetBrainsPycharm 2018.1×64,Windows 7 , Intel i7-4790 CPU 3.60 GHZ處理器 , 4 GB RAM。
為了評價MFNN模型的性能,本文通過命中率(HR)評估預(yù)測準確度并與其他方法進行對比。命中率的定義為:
(20)
式中:U表示測試集中考生集合,u表示U中的每位考生,R(u)表示根據(jù)訓(xùn)練集上特征預(yù)測出來的高考結(jié)果,T(u)表示測試集上的實際考試結(jié)果。
為了驗證MFNN模型在高考成績預(yù)測方面的表現(xiàn),將其與下列6種方法進行對比:
實驗中,為了統(tǒng)一相關(guān)參數(shù),設(shè)置神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,batch的大小為32,迭代次數(shù)為100次,優(yōu)化器為Adam。其中,MLP、RNN、BiLSTM、MFNN的網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。同時,為了消除實驗結(jié)果的隨機性,本文執(zhí)行如下兩種操作:①為獲得更可靠的預(yù)測,按9:1,8:2,7:3,6:4的比例隨機劃分訓(xùn)練集和測試集進行多次實驗;②在每個數(shù)據(jù)集上進行10次實驗,取其平均值作為最終實驗結(jié)果。
表2給出在不同數(shù)據(jù)集劃分比例下7種預(yù)測方法的命中率,從表中可以看出,本文提出的MFNN模型具有最高的命中率。結(jié)果表明,MFNN總體上具有最佳的預(yù)測精度。因此,證明了同時考慮考生長期特征和短期特征的MFNN模型在成績預(yù)測領(lǐng)域的有效性。
表1 網(wǎng)絡(luò)參數(shù)設(shè)置
表2 預(yù)測性能對比
如圖3所示為MFNN與其他5種方法命中率的對比結(jié)果(由于POP的性能較弱,省略了該方法)。由圖3可以看出:①當(dāng)訓(xùn)練集和測試集的比例為9∶1時,6種方法的命中率達到最高,意味著訓(xùn)練集有用信息足夠時,可以學(xué)習(xí)出關(guān)鍵特征,從而使得預(yù)測精度提升;②基于神經(jīng)網(wǎng)絡(luò)的方法預(yù)測精度總體較高,這是由于神經(jīng)網(wǎng)絡(luò)具有強大的非線性擬合能力,能捕獲考生更深層次的特征,因此使用神經(jīng)網(wǎng)絡(luò)能極大地提升預(yù)測精度;③基于RNN的模型較其他方法命中率更高,從而證明考生的短期特征對高考成績具有一定程度的影響,其中BiLSTM的預(yù)測精度與RNN相似,說明在成績預(yù)測中雙向捕捉考生的特征意義不大;④MFNN利用RNN和MLP充分感知用戶的多元特征,在6種方法中命中率最高。
3.4.1 迭代次數(shù)
本文使用迭代次數(shù)λ來控制MFNN學(xué)習(xí)的進度。為了研究迭代次數(shù)λ對模型性能的影響,實驗設(shè)置,λ的取值范圍是1~100,步長為1,RNN、BiLSTM和MFNN的網(wǎng)絡(luò)參數(shù)如表1所示。實驗結(jié)果如圖4所示。
圖4a和圖4b分別顯示在理科與文科中λ對損失值loss的影響。可以看出,當(dāng)λ<10時,loss值下降迅速;當(dāng)λ≥10時,loss值下降趨勢變緩,逐漸收斂,這表明MFNN迭代10次后性能較為平穩(wěn),且理科loss值保持在0.004以下,文科loss值保持在0.006以下。此外,在100次迭代中,MFNN的loss值和loss值震蕩幅度總體低于RNN和BiLSTM。證明MFNN引入考生的長期特征,能夠更全面地對考生進行建模,提高預(yù)測精度和穩(wěn)定度。
3.4.2 長短期特征維度
MFNN基于Ltu和Stu進行成績預(yù)測,為了研究長期特征的維度LD和短期特征的維度SD對預(yù)測結(jié)果的影響,使用理科9:1以及文科7:3數(shù)據(jù)集進行實驗。設(shè)置LD=[32,64,128,256],SD=[8,16,32,64],MFNN網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示,實驗結(jié)果如表3和圖5所示。
表3 長短期特征維度對預(yù)測精度的影響
由圖5及表3中可以看出維度LD和SD對MFNN的預(yù)測精度具有顯著影響。維度過低,模型不能充分捕獲考生特征;反之,模型將捕獲其冗余特征,造成過擬合的現(xiàn)象。理科中當(dāng)LD=16,SD=128;文科中當(dāng)LD=32,SD=64,命中率達到最高。說明相比于長期特征,考生短期特征對高考成績的影響更大,這一點在理科考生中尤為突出。
本文提出一種多元特征感知的神經(jīng)網(wǎng)絡(luò)模型MFNN,用于解決教育領(lǐng)域成績預(yù)測的問題。該模型利用LSTM的記憶功能捕獲考生短期特征,并將長期特征映射成嵌入向量來共同學(xué)習(xí)考生的多元化特征,綜合考慮考生的短期特征和長期特征對高考成績預(yù)測的影響。最后,在2015年高中質(zhì)量檢測與高考的真實數(shù)據(jù)集上進行了實驗評估模型性能。實驗結(jié)果表明,MFNN在預(yù)測效率上優(yōu)于其他對比方法。未來將引入注意力機制到成績預(yù)測中,并對藝體類考生的成績進行相關(guān)預(yù)測與分析。