袁亞興
(國家開放大學(xué),北京 100039)
由于互聯(lián)網(wǎng)科技的普及教育模式的轉(zhuǎn)變,在線教育越來越被人們認(rèn)可和接受。截止到2017年12月,國家開放大學(xué)在校生達(dá)到333.4萬,較2016年底增加2.5萬人,年增長率為0.77%[1]。學(xué)生學(xué)習(xí)主要基于網(wǎng)絡(luò)進(jìn)行,如此龐大的在線學(xué)生數(shù)量,其教學(xué)質(zhì)量及學(xué)生在線學(xué)習(xí)效果成為當(dāng)前國家開放大學(xué)關(guān)注的重點問題。由于在線教育時通過網(wǎng)絡(luò)在線連接師生進(jìn)行教育模式的劃定,如何根據(jù)在線學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行成績預(yù)測,并為教育管理人員提供教學(xué)輔助,是在線教育亟待解決的重要問題[2][3]。
當(dāng)前數(shù)據(jù)挖掘技術(shù)飛速發(fā)展,通過探究數(shù)據(jù)間規(guī)律構(gòu)建在線學(xué)習(xí)成績預(yù)測模型,即從數(shù)據(jù)中學(xué)習(xí)預(yù)測模型是目前人工智能技術(shù)應(yīng)用教育數(shù)據(jù)的研究熱點。
然而,由于在線教育數(shù)據(jù)存在基數(shù)大、格式多樣的問題,針對不同數(shù)據(jù)需要提供特定算法模型,面向不同的在線情景各類算法準(zhǔn)確率也各有不同。本文基于國家開放大學(xué)2017年度學(xué)生網(wǎng)絡(luò)在線學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù),使用機器學(xué)習(xí)中經(jīng)典分類模型,通過對在線學(xué)習(xí)者的學(xué)習(xí)行為特征的提取確定影響成績因素,然后提出基于機器學(xué)習(xí)預(yù)測方法對在線學(xué)習(xí)者學(xué)習(xí)成績進(jìn)行預(yù)測,在實驗驗證的基礎(chǔ)上,通過對不同模型的實驗結(jié)果的分析與比較,對模型的性能進(jìn)行評估與分析,最后對課程適用模型做出總結(jié)。
教育數(shù)據(jù)挖掘技術(shù)是利用數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域進(jìn)行針對各類不同教育環(huán)境中的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,挖掘出數(shù)據(jù)內(nèi)蘊藏行為規(guī)律,以幫助教育工作者更好地了解學(xué)生,幫助學(xué)生了解自身定位,改善學(xué)習(xí)環(huán)境。如今各類基建設(shè)施日趨完善,獲取的教育數(shù)據(jù)的質(zhì)量大幅提高,然而由于數(shù)據(jù)表現(xiàn)形式單一,無法直觀地從數(shù)據(jù)中發(fā)現(xiàn)其中潛在的規(guī)律,從而實現(xiàn)對事物的發(fā)展趨勢的預(yù)測[4]。德國學(xué)者Hans-peter Kriegel等于2007發(fā)表一篇關(guān)于數(shù)據(jù)挖掘技術(shù)發(fā)展前景及規(guī)律發(fā)現(xiàn)的文章[5],為數(shù)據(jù)挖掘在教育領(lǐng)域應(yīng)用奠定理論基礎(chǔ)。Romreo.C等利用學(xué)習(xí)日志數(shù)據(jù),構(gòu)建學(xué)習(xí)者行為數(shù)據(jù)預(yù)測模型,對學(xué)生學(xué)習(xí)動機進(jìn)行預(yù)估[6]。
隨著教育數(shù)據(jù)挖掘技術(shù)逐漸發(fā)展,研究人員逐漸完成了針對教育數(shù)據(jù)的分類、聚類等相關(guān)分析工作,并利用數(shù)據(jù)統(tǒng)計分析方法完成了時序模型、關(guān)聯(lián)分析、偏差分析等任務(wù)[7]。其中應(yīng)用分類方法對成績進(jìn)行預(yù)測是分類技術(shù)應(yīng)用頻率最高的。通過對國內(nèi)外研究現(xiàn)狀的了解,針對教育數(shù)據(jù)進(jìn)行分類的應(yīng)用比較廣泛使用的方法有:Decision Trees、Support Vector Machine、Neural Network等。我國學(xué)者崔人桀應(yīng)用C4.5決策樹算法對學(xué)生專業(yè)培養(yǎng)數(shù)據(jù)進(jìn)行建模分析,挖掘?qū)W生行為規(guī)律[8]。隨后姜丹等人利用慕課網(wǎng)在線教育的特點及實踐現(xiàn)狀設(shè)計了一個智能學(xué)習(xí)平臺,用來提升在線學(xué)習(xí)用戶的在線學(xué)習(xí)效果[9]。
綜上所述,已有研究中大多結(jié)合平臺自有數(shù)據(jù)進(jìn)行建模并進(jìn)行分析,少有結(jié)合在線課程行為數(shù)據(jù)以及針對網(wǎng)絡(luò)課程設(shè)計的模型,本文基于國家開放大學(xué)學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行方案的分析與設(shè)計。
本文研究學(xué)生網(wǎng)絡(luò)行為預(yù)測模型,首先通過對數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進(jìn)行清洗,確保數(shù)據(jù)完整與完善,進(jìn)行特征提取,對特征進(jìn)行重復(fù)篩選與計算其相關(guān)系數(shù),最后使用經(jīng)典機器學(xué)習(xí)算法模型進(jìn)行預(yù)測,最后對預(yù)測結(jié)果分析得出結(jié)論,并對不同課程使用不同模型,分析適合課程的理想模型。
圖1 模型流程框圖
本文從國家開放大學(xué)學(xué)習(xí)網(wǎng)篩選出116592名學(xué)生的學(xué)習(xí)數(shù)據(jù),主要包括用戶信息、課程信息、在線學(xué)習(xí)行為數(shù)據(jù)(提問、作業(yè)、測驗、論壇、成績)等進(jìn)行實驗。
學(xué)生學(xué)習(xí)數(shù)據(jù)以關(guān)系數(shù)據(jù)形式進(jìn)行存儲,以網(wǎng)絡(luò)構(gòu)架模式進(jìn)行采樣,對每次學(xué)生交互行為進(jìn)行記錄,根據(jù)主觀意識提取學(xué)生個人信息及學(xué)習(xí)情況作為實驗數(shù)據(jù)。
通過獲取的格式化數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)轉(zhuǎn)化成標(biāo)準(zhǔn)化數(shù)據(jù),并進(jìn)行特征篩選,最后合成數(shù)據(jù)訓(xùn)練集與數(shù)據(jù)測試集。
通過對數(shù)據(jù)處理獲得相應(yīng)數(shù)據(jù)訓(xùn)練集與測試集,為模型訓(xùn)練提供了數(shù)據(jù)基礎(chǔ)。本研究第二重點為機器學(xué)習(xí)模型選取及模型訓(xùn)練。
本文使用神經(jīng)網(wǎng)絡(luò)、最近鄰、決策樹等多個經(jīng)典機器學(xué)習(xí)算法,進(jìn)行課程成績的預(yù)測與分析,通過分析得出相應(yīng)課程與適用模型的匹配規(guī)律。
數(shù)據(jù)處理后進(jìn)行數(shù)據(jù)提取工作,其中成績表為預(yù)測目的表,其中成績分為測試成績、最終成績,最終成績?yōu)槟繕?biāo)成績,也是我們的最終目的,由于成績值為連續(xù)性,采用分類方法將成績劃分,優(yōu)良中差四個等級,劃分規(guī)律見表1所示。
表1 成績分級表
由于學(xué)生基數(shù)大且影響學(xué)生的其他因素較多,并且已經(jīng)獲取到的學(xué)生數(shù)據(jù)中存在大量的質(zhì)量問題,因此需要對數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,主要存在問題分為以下三類:數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)錯誤等。我們對所選取數(shù)據(jù)及逆行處理分析如下:
1.數(shù)據(jù)缺失
針對學(xué)生成績、學(xué)生學(xué)習(xí)信息缺失的情況進(jìn)行統(tǒng)計主要分為如下兩種情況,第一種為簡單缺失,缺失某學(xué)生某一科目的或者某次課程時長,對于此問題采用向上采樣方式,獲取離其最近一次上課時長作為填補值進(jìn)行填補。對于有的學(xué)生在選課表格中出現(xiàn)選課記錄,在成績表格中卻不存在上課記錄,此類缺失我們使用課程所屬科目內(nèi)同類科目上課記錄,用其他科目對本科目成績進(jìn)行填充。
2.數(shù)據(jù)重復(fù)
數(shù)據(jù)出現(xiàn)重復(fù)記錄是錯誤數(shù)據(jù)中最常見的,由于網(wǎng)絡(luò)問題,或者是提交問題,重復(fù)數(shù)據(jù)多種多樣,為避免重復(fù)數(shù)據(jù)對訓(xùn)練集造成影響,我們對于字段中重復(fù)出現(xiàn)的成績、信息等數(shù)據(jù)進(jìn)行簡單去重,保留其最后一次提交數(shù)據(jù)。
3.數(shù)據(jù)錯誤
錯誤數(shù)據(jù)會影響預(yù)測準(zhǔn)確度,其存在于各類表中,但若對成績進(jìn)行預(yù)測,成績準(zhǔn)確是最為客觀的標(biāo)準(zhǔn),我們對成績中出現(xiàn)的空值、異常值進(jìn)行遍歷刪除,用同類科目進(jìn)行填充。
在所有提取的學(xué)生行為特征中,有許多特征與目標(biāo)成績相關(guān)性極小,比如課程點擊次數(shù)對于成績影響較小。因此,可以進(jìn)行相關(guān)性分析,增強特征與特征之間的理解,并以此對特征進(jìn)行權(quán)重賦值,刪除權(quán)重值較輕的特征,增加特征間關(guān)聯(lián)性,以及與分類結(jié)果的相關(guān)性,以此達(dá)到改進(jìn)數(shù)據(jù)關(guān)聯(lián)強度,提高預(yù)測準(zhǔn)確精度的目的。同時適當(dāng)?shù)奶卣骱Y選,在降低算法復(fù)雜度的同時也適當(dāng)減小了工作量。
本文采取三種相關(guān)性分析方法即Pearson、RFE、Lasso,通過使用以上三種方法,進(jìn)行對學(xué)習(xí)行為特征的提取,本文所提出的算法采用最相關(guān)的前十個特征作為輸入數(shù)據(jù)進(jìn)行成績預(yù)測,并根據(jù)不同算法模型,選取不同的特征進(jìn)行預(yù)測工作。
下文將對三種特征篩選方法進(jìn)行說明。
1. Pearson相關(guān)分析:也稱作皮爾森相關(guān)系數(shù),是一種線性相關(guān)系數(shù),對于給定的兩個變量A和B,通過計算兩個變量的相關(guān)系數(shù)進(jìn)行相關(guān)性的判定。Pearson相關(guān)分析目的為了算出任意特征與目標(biāo)特征線性相關(guān)值,當(dāng)計算出所有相關(guān)系數(shù),我們可以根據(jù)實際需求效果選定合適的閾值進(jìn)行特征篩選,然后根據(jù)相關(guān)性的排布,將小于指定閾值的特征字段進(jìn)行剔除。
2. RFE特征消除法:也稱作遞歸特征消除法,旨在多次進(jìn)行模型構(gòu)建,通過衡量系數(shù)選擇最為合理的模型,以減小差值作為修改標(biāo)準(zhǔn),以此選擇出最為合理的模型特征,用來進(jìn)行特征的排序,確立了最優(yōu)先使用的特征和最優(yōu)先排除的特征,根據(jù)上述步驟循環(huán)進(jìn)行訓(xùn)練,直到所有的特征均被遍歷完成,RFE會給出一個次序特征,根據(jù)次序特征進(jìn)行特征選擇。
3. Lasso回歸算法:lasso是基于第一范式的特征選擇方法,其對數(shù)據(jù)要求極低,可以適用于一維連續(xù)因變量、多維連續(xù)因變量、非負(fù)次數(shù)因變量、二元離散因變量、多元離散因變量等線性模型,并且無論數(shù)據(jù)是連續(xù)值還是離散值,lasso算法均能很好地進(jìn)行特征選擇。同時lasso算法不僅可以選擇相對重要的變量,還可以穩(wěn)定的防止過擬合效應(yīng)。針對學(xué)生學(xué)習(xí)行為預(yù)測未來學(xué)生成績,根據(jù)學(xué)生在進(jìn)行考試前一定時間內(nèi)量化的行為數(shù)據(jù)對歷史成績進(jìn)行訓(xùn)練學(xué)習(xí),為了在降低算法復(fù)雜度的同時,更要保證成績預(yù)測準(zhǔn)確度,本文采用如上三種方法進(jìn)行特征篩選。
經(jīng)過特征選擇及特征降維,得到的特征數(shù)據(jù)為對成績影響最大的特征屬性,本文使用Pearson、Lasso、RFE等特征選擇方式經(jīng)過篩選剩余以下13類特征,詳情見表2:
表2 特征選取分析
提取特征后,從116592名學(xué)生中抽取了2000個學(xué)生以及他們兩個月在線學(xué)習(xí)數(shù)據(jù)作為樣本。以采用神經(jīng)網(wǎng)絡(luò)為例,BP神經(jīng)網(wǎng)絡(luò)[10]是一個信號前向傳播,誤差反向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),在該預(yù)測模型中,神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖
xi輸入表示第i個輸入樣本數(shù)據(jù),同時所匹配的Vij權(quán)重表示輸入層到隱含層的第i個節(jié)點到第j個節(jié)點的權(quán)重代價,Wij權(quán)重表示隱含層到輸出層的第i個節(jié)點到第j個節(jié)點的權(quán)重代價。對于輸入相應(yīng)的學(xué)生編號及提取隸屬于該課程信息進(jìn)行預(yù)測,對結(jié)果進(jìn)行分析,并重復(fù)進(jìn)行。
經(jīng)過特征篩選與提取,利用機器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、決策樹、高斯回歸、最近鄰等經(jīng)典算法進(jìn)行模型的構(gòu)建,對不同學(xué)生針對不同課程進(jìn)行預(yù)測分析。預(yù)測流程如圖3所示。
實驗選取平均準(zhǔn)確率ACC、均方誤差MSE和均方根誤差RMSE作為相關(guān)性分析評價指標(biāo)。其中利用MSE、RMSE可以對預(yù)測方法的性能及準(zhǔn)確率進(jìn)行有效度量。假設(shè)Xi表示實際成績值,Mi為利用模型所得的預(yù)測成績值,則均方誤差和均方根誤差表示如下所示:
實驗數(shù)據(jù)表明,分別采用神經(jīng)網(wǎng)絡(luò)模型、高斯回歸模型、最近鄰模型、決策樹等模型,使用上述三種降維方式進(jìn)行處理,準(zhǔn)確率比不做降維處理有所提高。相關(guān)性分析結(jié)果如表3所示。
表3 相關(guān)性分析結(jié)果
本次實驗針對不同學(xué)生參與同一門課程的學(xué)習(xí)行為進(jìn)行分析,實驗得出課程編號為23的課程,使用神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確率,比其他模型高出近一個百分點。因此可以選擇此類模型作為該課程預(yù)測模型。實驗結(jié)果如表4所示。
本次實驗以探究同一個學(xué)生對不同課程學(xué)習(xí)過程預(yù)測模型探究,實驗表明,使用神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率較其他模型要高,但對于樣本較少情況使用最近鄰更能很好適合樣本。部分實驗結(jié)果如表5所示。
表4 同一門課程不同學(xué)生預(yù)測準(zhǔn)確率表
表5 同一個學(xué)生不同課程預(yù)測準(zhǔn)確率表
本文基于國家開放大學(xué)在線學(xué)習(xí)數(shù)據(jù),針對不同課程類型,選取不同特征數(shù)據(jù)進(jìn)行成績預(yù)測,有效降低了算法復(fù)雜性,并大幅度提高了預(yù)測精度。實驗結(jié)果表明,相對于所有同學(xué)都使用一個模型來說,不同學(xué)生選取不同模型有較高的定制與實用性,但由于數(shù)據(jù)質(zhì)量問題,學(xué)習(xí)者在線學(xué)習(xí)行為監(jiān)督不足等原因,各種策略的使用存在一定缺陷。下一步將針對每個學(xué)生具體情況進(jìn)行更為復(fù)雜的預(yù)測,引入深度學(xué)習(xí)相關(guān)算法,進(jìn)一步改善特征選取的人為意愿的弊端,使得方法更具有實用性。