魏迪海
(樂山開放大學,四川 樂山 614800)
為了探索適合學生的最優(yōu)學習要素,一門被稱為教育數據挖掘(Educational Data Mining,EDM)的新學科產生。教育數據挖掘實際上就是基于計算機技術的學習系統(tǒng),交互學習環(huán)境,模擬學習環(huán)境,現(xiàn)有學校學習系統(tǒng)等采集用戶學習行為數據。在心理學和學習科學的理論指導下,利用計算機科學、數據挖掘等領域的知識,發(fā)現(xiàn)學生是如何學習。EDM 的優(yōu)勢體現(xiàn)在可以把不同領域的各種數據連接在一起。它關注從研究所提供的大量數據中提取特征以支持教育過程的進展。
EDM 與傳統(tǒng)數據庫技術不同,它可以回答問題,例如誰是潛在的課程成績不及格學生?EDM 可以回答更深層次的問題,例如預測學生的成績(如果他在考試中通過或失?。Q芯咳藛T還可以建立學生模型來單獨預測每個學生的特征和表現(xiàn)。因此,參與EDM 領域的研究人員使用不同的數據挖掘技術來評估講師,以便提高他們的教育能力。
由于當前教育系統(tǒng)并沒有重視對學生表現(xiàn)的預測,因此這些系統(tǒng)效率并不高。預測學生感興趣的課程并了解他在教學活動過程的學習行為可以提高教育效率。結合深度學習和EDM 技術,完成學生的評估過程,可以更好地提高學生的表現(xiàn)以及優(yōu)化教育過程。此外,深度學習還可以用在更廣泛的教育數據,通過模式識別、圖像處理、對象檢測和自然語言處理等方法。通過機器學習技術實現(xiàn)的學習管理系統(tǒng),可以利用數據挖掘來獲得更好、更準確的結果。
本文提出一種深度學習方法,通過在長短期記憶(LSTM)上實施卷積神經網絡來構建學生表現(xiàn)的預測模型,可以基于學生數據預測他將來的學習表現(xiàn)。本文還引入了數據預處理技術(如mini-max scaler 和quantile transforms)以提高結果的準確性。本研究的目的是提取新特征并找到它們的權重,以根據從特征中導出的權重來構建變量節(jié)點和隱藏層的神經網絡系統(tǒng)。然后,在構建系統(tǒng)后使用這些特征及其權重來預測有關學生的信息。
數據科學和現(xiàn)代技術(如大數據和高性能計算機)的發(fā)展為機器學習提供了通過復雜系統(tǒng)理解數據及其行為的機會。機器學習使計算機能夠在不同的算法中學習,而無須嚴格執(zhí)行來自某個程序或有限指令集。
深度學習是直接從不同媒介的數據學習有用特征的機器學習技術,其利用許多神經網絡層來進行無監(jiān)督或有監(jiān)督的非線性數據處理,以進行分類和模式識別任務,模擬了人腦分析、決策和學習方面的能力。深度學習的目標是模擬人腦直接從無監(jiān)督數據中提取特征。
深度學習的核心是對信息的特征和表示進行分層計算,例如對低層到高層的特征分別進行定義。雖然機器學習獲得大量學生的前期學習表現(xiàn)數據,但執(zhí)行時由于忽略了數據行為特征常常不能得到理想的效果。而深度學習的特征是從特定的學生數據中自動提取的。這種特征方法是深度學習系統(tǒng)獨立的一部分。
可見,利用輸入數據計算表示特征是預測學生未來表現(xiàn)的關鍵。本文通過大量的實際學生課程數據,例如學生之前學期的平均成績績點和所獲得學分,作為深度學習的提取特征,來進行學生學習表現(xiàn)的預測研究。
2.2.1 深度神經網絡(DNN)
DNN 是一個具有多個隱藏層的神經網絡。它的模型在復雜的數據和非線性函數下表現(xiàn)更好。這種類型的深度學習可以適應訓練期間對隱藏層的任何改進,并且訓練通過反向傳播算法進行。由于DNN 在使用復雜數據的預測模型時具有良好的可擴展性,因此被認為適用于教育深度學習預測。
2.2.2 卷積神經網絡(CNN)
CNN 由于能夠識別各種完整的特征行為而被廣泛應用于圖像識別的各個領域。因此,它的用途被擴展到包括教育和學習預測過程。從這個意義上說,CNN 與神經網絡類似,一般是由連接的多個神經元以分層的形式組成,通過訓練完成分層結構。DNN 在連接上與網絡不同,例如深度信念網絡、反向傳播和稀疏自動編碼器;網絡中的每一層可以共享每個神經元的權重,因此權重可以控制網絡中的層。CNN 通過在特定時間點提取新特征用于學生行為,該特征考慮了教育狀況的特征。
2.2.3 遞歸神經網絡(RNN)
RNN 考慮了一種神經網絡算法,并在數據序列方面表現(xiàn)良好。該算法的優(yōu)點之一是它記錄了當前狀態(tài)或下一個狀態(tài)中使用的先前狀態(tài)。除隱藏層外,還有動態(tài)輸入輸出層;在隱藏層內部,輸入和輸出情況由一個節(jié)點到另一個節(jié)點的輸出權重表示。由于隱藏層中的連接和反饋路徑,此類算法在訓練期間的優(yōu)勢適用于預測。
2.2.4 長短期記憶(LSTM)
LSTM 模型被定義為RNN 的變體。該算法的價值在于在隱藏層中創(chuàng)建了自環(huán)。它在系統(tǒng)運行過程中自動生成路徑,并在每次迭代中生成短路徑。它類似于DNN,但在更新影響神經網絡中排序路徑的權重方面有所不同。這種類型使用歷史中的先前數據來提取有用的信息(通常為特征),以實現(xiàn)更好的學生行為預測。
本研究的主要目的是通過考慮以長短期記憶(LSTM)為代表的深度學習技術并利用基于時間的特征提出一種新方法。
為了從前一門課程的表現(xiàn)中預測學生下一門課程的表現(xiàn),本文利用收集的數據去訓練所提出的模型。從多學科大學采集真實數據后,進行數據預處理,去除冗余屬性、噪聲等。然后,根據數據獲取日期將數據分為兩組:第一個數據集來自2007年到2016年,用于訓練,而第二個數據集來自2016年到2019年,用于測試所提出模型的預測能力。測試過程一些評價指標評估所提出的預測模型的準確能力。
本文提出的整體模型框架如圖1所示,包含四個階段。第一階段為收集數據,并建立一個簡單的學生數據庫。第二階段為數據預處理過程,提取操作數據和有用信息數據并進行預處理操作,包括對它們的權重根據特征進行計算。第三階段為把這些特征輸入到神經網絡,然后創(chuàng)建多個隱藏層來處理數據。第四階段是模型評估,包括訓練模式和帶有評價指標的測試模式。
圖1 學生成績預測網絡流程圖
本文從某所大學收集數據,包含2007年至2019年的課程、學生、分數等信息,有4 699 個科目(課程)、83 993 名學生和3 828 879 條記錄。除了訓練和測試樣本之外,這些數據集還使用樣本信息描述數據分布。還考慮了訓練率和總樣本數。
該數據集代表16個學術單位(學院/研究所/學院)的學生表現(xiàn)。數據分為兩個不相等的部分。主要部分(從2007年到2016年收集的數據)用于訓練,而剩余的樣本部分(從2017年到2019年收集的數據)用于測試。訓練數據集和測試數據集的課程績點的統(tǒng)計直方圖分別如圖2和圖3所示。其中,經濟學教育的數據占比最高,約為18%,而物理教育的占比最低,僅為0.9%??梢钥吹剑s89.7%的訓練數據集的課程績點水平等于或大于中等等級,而測試數據集等于或大于中等等級的百分比為88.6%。
圖2 訓練數據集的統(tǒng)計直方圖
圖3 測試數據集的統(tǒng)計直方圖
由于收集的數據包含冗余信息,需要通過預處理解決數據冗余屬性和噪聲等。主要步驟如下:(1)清除課程名稱、講師姓名、學生姓名等冗余屬性;(2)清除學生已注冊但考試、免修課程等未完成的冗余或噪音記錄;(3)清除一些上課學生總數少于15人時的課程;(4)將字符串或文本值轉換為數值。
對整個輸入數據進行分析后選擇學習模型輸入屬性,見表1,為本文使用的數據集樣本。這些選定的屬性是根據實驗結果和一些以前的學生表現(xiàn)預測模型選擇的。
表1 部分訓練集內容
由于各種屬性存在不同的分布,對預測模型使用分位數變換法(Quantile Trans Formation,QTF)和最小最大縮放法(Min-Max Scaler,MMS)來生成和轉換深度學習網絡收斂的值范圍。
由于非線性變換QTF 可以顯著減少異常值的影響,因此它被認為是目前最好的預處理技術之一。高于或低于擬合界限的驗證數據/測試數據的值被設置為輸出分布范圍。在數據轉換之前,每個特征的分布和范圍都有顯著差異。QTF數據將被轉換到0 和1 之間。例如,對于工程技術課程,其訓練數據如圖4所示,而測試數據如圖5所示??梢?,經過對特征執(zhí)行MMS 后,數據更接近正態(tài)分布。
圖4 工程技術課程訓練數據集的統(tǒng)計直方圖
圖5 工程技術專業(yè)測試數據集的統(tǒng)計直方圖
MMS 具體針對每幅圖像創(chuàng)建區(qū)間,通過使用式(1)和式(2),把每個特征的轉換到給定范圍內:
通過這些算法,本文的實驗結果與回歸任務中的原始數據相比,有較好的效果了可喜的成績。通過從訓練集中學習,將縮放器應用于測試集。
使用深度學習和線性回歸兩種算法來實現(xiàn)學生成績預測模型。1D-CNN 接收21 個特征的1D 數據向量;然后,它將通過一個卷積層的堆棧,該卷積層有64 個節(jié)點,每個節(jié)點有3 個內核。然后,在每次卷積之后,將執(zhí)行整流線性單元(rectified linear unit,ReLU)激活函數,如圖6所示。
圖6 本文實施的整體架構
其中,LSTM 包括64 個Tanh 單元和單次步長。在1D-CNN 和LSTM 上使用式(3)所示的Sigmoid 函數產生范圍為0 到1 的輸出。為了模擬范圍為0.0 到4.0 的學生成績,方程(3)的輸出將乘以4.0:
在本文的深度學習模型中,使用均方根傳播(RMSProp)算法或Adam 算法,作為優(yōu)化函數,學習率為0.000 1。在500 個epoch 到達之前,獲得了16 000 epoch 的大小。為了減少過擬合的影響,把5 個epoch 作為迭代停止條件。如果在每個連續(xù)的epoch 之后損失沒有減少,也會停止模型的訓練。此外,Scaler 算法針對訓練集執(zhí)行,同時對訓練集和測試集進行轉換。
回歸的性能可以通過MAE 和RMSE 在測試集上平均運行5次來評估。MAE和RMSE可以分別使用式(4)和式(5)計算:
其中y是學生的真實成績值(范圍從0.0 到4.0),是學生的預測成績值。
實驗結果由以下部分給出??梢钥闯鯭TF 對回歸任務的預處理數據有不錯的性能表現(xiàn)。選擇的縮放器與RMSProp和Adam 一起運行,作為兩個優(yōu)化器進行比較。該研究是通過線性回歸和深度學習以及優(yōu)化器函數和最佳縮放器對不同教學單位的所有16 個數據集進行的,并將合并的16 個數據集作為一個數據集進行預測。
結果由多種縮放器計算獲得。很明顯,縮放器可以提高深度學習性能。在使用的縮放器中,QTF 的表現(xiàn)最好,在16 個數據集中,它得出的15 個數據集通過1D-CNN 和LSTM 方法,在CNN 的一層(1D)有明顯的改進。
Adam 優(yōu)化器函數和RMSProp 的比較結果如表2所示。通過使用RMSProp,16 個數據集中有14 個得到了改進,所有數據集的平均改進約為3.3%。
在測試模式和訓練模式下,不同算法中,結果略有不同。相比其他方法,它們在相同的條件有更好的性能表現(xiàn)。本文將所得結果與現(xiàn)有數據集進行比較,圖7說明了本文方法與訓練集基本同質。
圖7 在同一數據集上測試和訓練不同方法的模式
對于所提出的系統(tǒng),我們有兩種模式,首先是訓練模式,使用標記數據提前學習系統(tǒng),并使用表2中所示的標準數據集運行系統(tǒng)。然后是測試模式,對所需專業(yè)學生進行成績預測。
表2 預測性能最優(yōu)函數
本文提出了一種應用于高等教育方面的深度神經網絡,并通過比較學生的水平和成績來識別和預測學生學習表現(xiàn)行為。本文的深度神經網絡構建有四個步驟,包括數據初始化和預處理,在神經網絡中構建隱藏層的過程,為每個層提取有用的特征和權重。為了提高預測精度,我們使用了Adams 和RMSProp 兩種模型在網絡訓練過程。所提出的方法從所取得的結果中證明了它的價值,并且可以在實際中使用。通過這些結果,在教職員工和學生方面幫助教育機構很容易。將來,可能需要提取的更新特征,并仔細選擇它們的權重;通過更新神經網絡中的隱藏層,可以使系統(tǒng)更加可靠。