陶利莎 馬燕 爨力源 鄒富源 田媛 黃洪琳
摘要:近年來,線上教育的迅速發(fā)展給教育者提供了數(shù)據(jù)化的學(xué)習(xí)情況反饋,利用這些學(xué)習(xí)情況的反饋對學(xué)生進(jìn)行成績預(yù)測便是一個(gè)新興研究點(diǎn)。該文記錄了研究過程中對學(xué)習(xí)者行為數(shù)據(jù)集的分析,對數(shù)據(jù)進(jìn)行處理,利用Matlab進(jìn)行聚類分析等方法進(jìn)行分析并得出結(jié)論。利用數(shù)據(jù)分析的方法預(yù)測學(xué)習(xí)者成績在教育者的工作上有著很大幫助。
關(guān)鍵詞:數(shù)據(jù)處理;成績預(yù)測;聚類分析;學(xué)習(xí)行為
中圖分類號(hào):TP399 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)35-0027-03
Analysis of Learning Behavior and Performance Prediction Based on MOOC Data
TAO Li-sha, MA Yan, CUAN Li-yuan, ZOU Fu-yuan, TIAN Yuan, HUANG Hong-lin
(The College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 200234, China)
Abstract: In recent years, the rapid development of online courses has provided educators with data-based feedback on study situations. An emerging research focus is to use the feedback of these learning situations to predict the performance of the students. This paper records the analysis of the learner's behavior data set during the research process, processes the data, and uses Matlab to perform cluster analysis and other methods to analyze and draw conclusions. Using the method of data analysis to predict learners' performance is of great help to the work of educators.
Key words: data processing; performance prediction; cluster analysis; learning behavior
在全球化的大背景下,在線學(xué)習(xí)領(lǐng)域的全球化趨勢也越來越顯著。特別是由于疫情的原因,線上教育越來越普遍。隨著互聯(lián)網(wǎng) Web2.0和云計(jì)算等技術(shù)越來越成熟,大型網(wǎng)絡(luò)教育平臺(tái)——慕課 (massive open online course ,MOOC)也正在快速興起,由于互聯(lián)網(wǎng)技術(shù)的記憶功能,學(xué)習(xí)者在慕課平臺(tái)上的所有學(xué)習(xí)活動(dòng)和行為都會(huì)被以多種形式的數(shù)據(jù)形式記錄下來[1],基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)對學(xué)習(xí)者行為進(jìn)行建模,分析慕課的發(fā)展趨勢和優(yōu)化方案,吸引著越來越多研究人員的參與其中[2]。
由于慕課出現(xiàn)的時(shí)間還很短,目前為數(shù)不多的研究大致包括關(guān)于單維度數(shù)據(jù)的統(tǒng)計(jì)分析、對不同學(xué)科、不同線上學(xué)習(xí)平臺(tái)數(shù)據(jù)的綜合分析和研究學(xué)習(xí)者的退出率、論壇的活躍程度、課程完成率等模型[3]。本文在借鑒為數(shù)不多的模型,對學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行分析。基于不同的分類模型,建立了預(yù)測學(xué)習(xí)者是否能獲得證書和預(yù)測學(xué)習(xí)者成績的模型,可為慕課課程的教學(xué)改進(jìn)提供借鑒。
1開發(fā)思路
利用教育數(shù)據(jù)分析和挖掘技術(shù),通過大量數(shù)據(jù)驅(qū)動(dòng)的方式構(gòu)建在線學(xué)習(xí)者學(xué)業(yè)成績預(yù)測模型是目前課題研究的熱點(diǎn)。然而,采用人工神經(jīng)網(wǎng)絡(luò)、決策樹等算法訓(xùn)練的單一預(yù)測模型的性能不穩(wěn)定,由于數(shù)據(jù)變化導(dǎo)致預(yù)測結(jié)果誤差較大。
對MOOC學(xué)習(xí)者行為數(shù)據(jù)分析發(fā)現(xiàn),學(xué)習(xí)者行為數(shù)據(jù)分布較為散亂,且成績分布在低分段的學(xué)習(xí)者較多。經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn),與傳統(tǒng)的教學(xué)模式相比,慕課學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和知識(shí)背景分布多種多樣,學(xué)習(xí)者利用平臺(tái)的方式也各不相同 ,大多數(shù)學(xué)習(xí)者并不是為了獲得證書而去學(xué)習(xí)。僅僅根據(jù)選擇相關(guān)性較強(qiáng)的特征向量對學(xué)習(xí)者成績進(jìn)行預(yù)測無法得到較好的預(yù)測效果,因而基于學(xué)習(xí)者的多樣性將學(xué)習(xí)者聚類分析歸為不同的類別[4],再對每類進(jìn)行線性回歸分析得到線性回歸方程,最后將測試集代入到預(yù)測模型中進(jìn)行回歸方程的顯著性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)和回歸系數(shù)的顯著性檢驗(yàn)[5]用于實(shí)際問題中。
此外,能否獲得證書也是平臺(tái)效用的一個(gè)重要體現(xiàn),本文篩選重要影響變量,采用3種二元分類模型 :線性判別分析(linear discriminant analysis ,LDA )、邏輯回歸 (logistic regression ,LR)和線性核支持向量機(jī)(linear support vector machine ,l-SVM),進(jìn)行是否能獲得證書的預(yù)測,準(zhǔn)確率均較高。
2預(yù)測模型的介紹
2.1用于預(yù)測是否獲得證書的模型
預(yù)測是否獲得證書屬于典型的二分類問題,本文采用三種適用于該問題的分類模型。
2.1.1線性判別分析
線性判別分析,也稱作Fisher線性判別,是模式識(shí)別的經(jīng)典算法。LDA的基本思想是想辦法將樣本數(shù)據(jù)投影到一條合適的直線上,使投影到直線上的同類樣本之間差異盡可能的小,使不同類樣本間的差異盡可能的大,這樣就可以直觀且簡便地判斷某個(gè)樣本數(shù)據(jù)屬于哪一類了。使用該種方法可以使投影后的模式樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離,即模式在空間中擁有最佳的可分離性。因此,它是一種有效的特征提取方法,采用該方法也能將學(xué)習(xí)者進(jìn)行準(zhǔn)確地分類。
2.1.2邏輯回歸
邏輯回歸模型是針對二分類問題的一種易于實(shí)現(xiàn)而且性能優(yōu)異的分類模型。邏輯回歸目的是從特征學(xué)習(xí)出一個(gè)0/1分類模型,其中,用1表示獲得證書,0則反之。這個(gè)模型是將特性的線性組合作為自變量,即選擇學(xué)習(xí)者的特征向量數(shù)據(jù)作為自變量,由于自變量的取值范圍是負(fù)無窮到正無窮。因此,使用logistic函數(shù)(或稱作sigmoid函數(shù))將自變量映射到(0,1)上,映射后的值被認(rèn)為是屬于y=1的概率,也就是獲得證書的概率。然后將映射后的值在(0.5,1)的歸為一類,將處于(0,0.5)的歸為另一類,便完成了學(xué)習(xí)者的分類。
2.1.3線性核支持向量機(jī)
支持向量機(jī)(SVM)是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛地應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中,同樣也是解決分類問題的經(jīng)典模型。考慮到學(xué)習(xí)者的特征向量數(shù)據(jù)是非線性的,本文的處理方法是選擇線性核函數(shù),通過將數(shù)據(jù)映射到高維空間,來解決在原始空間中線性不可分的問題。在分開數(shù)據(jù)的超平面的兩邊建有兩個(gè)互相平行的超平面,分隔超平面使兩個(gè)平行超平面的距離最大化,可以對數(shù)據(jù)進(jìn)行有效地劃分。
2.2用于預(yù)測成績的模型
2.2.1K-means聚類模型
聚類和回歸是兩類主要的預(yù)測問題,聚類是預(yù)測離散的值,形成的離散的“簇”對應(yīng)著潛在的離散概念的劃分?;貧w是預(yù)測連續(xù)的值,將兩者進(jìn)行結(jié)合能得到適應(yīng)性較強(qiáng)的預(yù)測模型。對于無標(biāo)簽的學(xué)習(xí)者樣本,采取無監(jiān)督的K-means聚類分析對學(xué)習(xí)者進(jìn)行劃分,這種方法的主要缺點(diǎn)是隨機(jī)選擇初始質(zhì)心,如果數(shù)據(jù)存在離群值,可能會(huì)收斂到一個(gè)不穩(wěn)定的結(jié)果,采用LOF算法剔除離群值可以提高模型的準(zhǔn)確率。
實(shí)現(xiàn)K-means算法主要包括以下四點(diǎn):
(1)簇個(gè)數(shù) k 的選擇;
(2)各個(gè)樣本點(diǎn)到“簇中心”的距離;
(3)根據(jù)新劃分的簇,更新“簇中心”;
(4)重復(fù)上述2、3過程,直至"簇中心"不再移動(dòng)。
2.2.2線性回歸模型
主要包括以下幾個(gè)步驟:
(1)對K-means聚類后的各數(shù)據(jù)點(diǎn)求取線性回歸方程;
(2)測試集檢驗(yàn),將測試數(shù)據(jù)點(diǎn)歸到距“簇中心”距離最小的一類;
(3)代入該類的線性回歸方程中,得到預(yù)測值;
(4)方程通過回歸方程的擬合優(yōu)度檢驗(yàn)[5],評(píng)估預(yù)測模型確定最優(yōu)回歸模型。
3具體實(shí)現(xiàn)
本文利用matlab及其工具箱進(jìn)行應(yīng)用程序的編寫,建立了一個(gè)分類預(yù)測模型,對在線學(xué)習(xí)的學(xué)習(xí)者是否獲得證書和學(xué)習(xí)成績進(jìn)行預(yù)測。
3.1學(xué)習(xí)者是否獲得證書的預(yù)測
首先,導(dǎo)入與獲得證書相關(guān)的兩個(gè)特征向量數(shù)據(jù):頁面訪問量和學(xué)習(xí)章節(jié)數(shù)。對數(shù)據(jù)進(jìn)行異常值的剔除:
for i = 1:m
for j = 1:m
dist(i,j) = norm(K_train(i,:)-K_train(j,:));
end
end
lof = LOF(dist);
for i=1:m
if lof(i)>1
K_train(i,:)=NaN;
end
end
K_train = K_train(all(~isnan(K_train),2),:);
其次,對數(shù)據(jù)進(jìn)行歸一化處理,歸一化代碼如下:
[x,y]=size(data);
tackledata=zeros(x,y);
maxd=max(data);
for i=1:y
for j=1:x
tackledata(j,i)=data(j,i)/maxd(i);
end
end
調(diào)用matlab的classification learner工具箱,選擇線性判別、邏輯回歸和線性支持向量機(jī)進(jìn)行訓(xùn)練。
其中,將模型導(dǎo)出后,可以通過如下語句檢驗(yàn)?zāi)P停?/p>
trainModel.predictFcn(data);
3.2學(xué)習(xí)者成績的預(yù)測
首先,導(dǎo)入與學(xué)習(xí)者成績相關(guān)的三個(gè)特征向量數(shù)據(jù):頁面訪問量、參與課程互動(dòng)的天數(shù)和學(xué)習(xí)章節(jié)數(shù)。對數(shù)據(jù)進(jìn)行異常值的剔除和歸一化處理。
其次,對數(shù)據(jù)進(jìn)行K-means聚類分析,得到如表3所示的聚類中心,關(guān)鍵語句如下:
k=3; [cluster2,C,sumD,D]=kmeans(K_train(1:3),k,'Start','uniform','Distance','sqEuclidean','Replicates',5);
再通過如下代碼:
CoeMatrix=[];
for i=1:k
[m,n]=size(K_train(cluster==i,1:3));
linear = fitlm(K_train(cluster==i,1:3),K_train(cluster==i,4));
CoeMatrix=[CoeMatrix linear.CoefficientCovariance(:,1)];
end
得到各類的線性回歸模型,其中,CoeMatrix為三類學(xué)習(xí)者特征向量的系數(shù)矩陣,如表4所示。
結(jié)果表達(dá)式:
[Y1=120.02-0.53X1-0.79X2-1.01X3]
[Y2=7.02-0.09X1-0.03X2-0.03X3]
[Y3=0.54-0.01X1-0.01X2-0.02X3]
最后,導(dǎo)入測試數(shù)據(jù)對模型的預(yù)測效果進(jìn)行檢驗(yàn),代碼如下:
[Error1,Predition1,clunum]=prediction(CoeMatrix,K_test,C,k);
[allx,ally]=size(K_test);
grade=K_test(:,4);
MSE = sum((Predition1-grade).^2)./allx;
RMSE = sqrt(mean((Predition1-grade).^2));
MAE = mean(abs(Predition1-grade));
R2 = 1 - (sum((Predition1-grade).^2) / sum((grade - mean(grade)).^2));
其中,調(diào)用prediction函數(shù),可以將測試數(shù)據(jù)劃分到不同的類同時(shí)得到預(yù)測值和誤差,MSE、RMSE、MAE、R2為線性回歸模型的評(píng)價(jià)指標(biāo)。這是該模型最核心的代碼,其余代碼在此不做過多贅述。
決定系數(shù)R2越趨近于1表明擬合效果越好[5],實(shí)驗(yàn)所得的R2為0.62,說明該模型具有較好的擬合效果。
4 結(jié)束語
在宏觀方面運(yùn)用K-means聚類然后進(jìn)行多元線性回歸分析,構(gòu)建出一種適應(yīng)性更強(qiáng)的成績預(yù)測模型,微觀方面依據(jù)判定系數(shù) R2 和估計(jì)標(biāo)準(zhǔn)差來檢驗(yàn)[5],具有不錯(cuò)的實(shí)際應(yīng)用效果,可以將需要進(jìn)行預(yù)測的學(xué)習(xí)者學(xué)習(xí)行為數(shù)據(jù)導(dǎo)入,得到相應(yīng)的預(yù)測值。預(yù)測結(jié)果為教師和管理者對教學(xué)計(jì)劃和教學(xué)模式的改進(jìn)提供了可靠的數(shù)據(jù)保障,為后續(xù)學(xué)習(xí)行為分析及成績預(yù)測起到借鑒和促進(jìn)作用。
參考文獻(xiàn):
[1] Breslow L,Pritchard D,DeBoer J,et al.Studying learning in the worldwide classroom:Research into edX’s first MOOC[J].Research & Practice in Assessment,2013,8(1):13-25.
[2] Waldrop M M. Online learning:Campus 2.0[J].Nature,2013,495(7440):160-163
[3] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J]. 計(jì)算機(jī)研究與發(fā)展,2015,52(3):614-628.
[4] 張強(qiáng). MOOC 學(xué)習(xí)者學(xué)習(xí)行為聚類分析[J].通化師范學(xué)院學(xué)報(bào),2015,36(2):37-39.
[5] 郝巧龍,魏振鋼,林喜軍. MOOC學(xué)習(xí)行為分析及成績預(yù)測方法研究[J].電子技術(shù)與軟件工程2016(7):167-168.
【通聯(lián)編輯:王力】