楊璐 郭文鋒 賀強 高宇鵬
摘? 要: MOOC(Massive Open Online Courses)作為典型的“互聯(lián)網(wǎng)+教育”模式正在影響著教育發(fā)展,但是較高的退課率影響了教學(xué)效果。根據(jù)“學(xué)堂在線”MOOC平臺收集的數(shù)據(jù),對學(xué)習(xí)者的學(xué)習(xí)行為進行統(tǒng)計分析,發(fā)現(xiàn)不退課學(xué)習(xí)者的平均學(xué)習(xí)次數(shù)明顯多于退課學(xué)習(xí)者的平均學(xué)習(xí)次數(shù)。采用主成分分析法分析七種學(xué)習(xí)行為次數(shù),提取出“完成作業(yè)”(problem)和“觀看視頻”(video)兩種學(xué)習(xí)行為作為影響退課的主要因素。采用機器學(xué)習(xí)方法AdaBoost算法對學(xué)習(xí)者是否退課進行預(yù)測。結(jié)果顯示,采用主成分分析法確定的兩種學(xué)習(xí)行為對退課預(yù)測具有明顯作用。
關(guān)鍵詞: MOOC; 主成分分析; AdaBoost; 退課預(yù)測
中圖分類號:TP399? ? ? ? ? 文獻標(biāo)志碼:A? ? ?文章編號:1006-8228(2019)08-33-04
Abstract: As a representative model of teaching via the Internet, Massive Open Online Courses (MOOC) has been influencing the development of education, but the high dropout rate bring out bad teaching effects. According to the data collected by MOOC platform xuetangx.com, the statistical analysis of learners' learning behavior shows that the average learning times of non-dropout learners are significantly higher than that of dropout learners. Principal component analysis (PCA) is used to analyze seven kinds of learning behaviors, and two kinds of learning behaviors, "problem" and "video", are extracted as the main factors affecting dropout. AdaBoost algorithm, a machine learning method, is used to predict whether learners will dropout or not. The results show that the two learning behaviors determined by the principal component analysis method have obvious effects on the prediction of dropout.
Key words: MOOC; principal component analysis; AdaBoost; dropout prediction
0 引言
MOOC(Massive Open Online Courses),中文稱為“慕課”,是教學(xué)模式借助互聯(lián)網(wǎng)發(fā)展的一種新型教學(xué)模式,具有課程免費、內(nèi)容豐富、學(xué)習(xí)自由等特點。在過去的六年里,MOOC平臺不斷涌現(xiàn),國內(nèi)外著名高校紛紛在MOOC平臺開設(shè)精品課程,越來越多的學(xué)員通過MOOC平臺學(xué)習(xí)。
對MOOC的研究工作主要基于學(xué)習(xí)行為的統(tǒng)計進而對MOOC的教學(xué)設(shè)計提供建議。樊超[1]等采用人類動力學(xué)研究方法對用戶的學(xué)習(xí)時間間隔分布和持續(xù)時間分布、用戶學(xué)習(xí)的活躍性等進行了分析并提出了合理化建議。伍杰華[2]等使用統(tǒng)計方法對學(xué)習(xí)者的學(xué)習(xí)背景、課程完成情況、學(xué)習(xí)行為特征等進行分析。牟智佳[3]等通過視頻學(xué)習(xí)次數(shù)、評價參與次數(shù)、文本學(xué)習(xí)次數(shù)和論壇主題發(fā)起數(shù)分析,將MOOC學(xué)習(xí)群體分成三類。童小素[4]等通過學(xué)習(xí)行為分析,建立了MOOC質(zhì)量評價指標(biāo)體系,利用該體系進行評價實踐。安哲鋒[5]等針對MOOC學(xué)習(xí)質(zhì)量建立模型,對學(xué)習(xí)內(nèi)容的質(zhì)量、學(xué)習(xí)支持的質(zhì)量、學(xué)習(xí)交互的質(zhì)量、學(xué)習(xí)期望的質(zhì)量以及學(xué)習(xí)感知的質(zhì)量五個方面進行分析,以促進MOOC學(xué)習(xí)質(zhì)量的提升。王雪[6]等對教學(xué)視頻的學(xué)習(xí)評論進行分析,總結(jié)了教學(xué)設(shè)計、教學(xué)內(nèi)容、教師和技術(shù)規(guī)范等四方面的MOOC教學(xué)視頻設(shè)計。張璐妮[7]等針對某MOOC平臺的外形課程和學(xué)習(xí)者數(shù)據(jù),采用回歸分析方法對課程參與人數(shù)和討論區(qū)帖子關(guān)注度等因素進行分析。張潤芝[8]等選取了304門MOOC課程的基本信息和授課教師視頻語言表達技巧的信息,通過多元線性回歸分析法等研究了課程的基本信息對教師視頻語言表達技巧的影響。曹曉明[9]等通過MOOC視頻的不同組織方式對學(xué)習(xí)者的學(xué)習(xí)成績、認(rèn)知負荷和專注度的影響進行了研究,為視頻制作提供了參考。
綜上所述,目前關(guān)于MOOC的研究主要集中在對學(xué)習(xí)行為的分析進而幫助改進教學(xué)設(shè)計,而對影響學(xué)習(xí)者學(xué)習(xí)效果因素的探索比較少,大量的學(xué)習(xí)者不能完成MOOC課程的學(xué)習(xí)。因此,本文基于“學(xué)堂在線”MOOC平臺學(xué)習(xí)者的學(xué)習(xí)數(shù)據(jù),對影響MOOC退課的七種學(xué)習(xí)行為進行分析,采用機器學(xué)習(xí)方法(AdaBoost算法)對MOOC退課進行預(yù)測。
1 AdaBoosting算法
集成學(xué)習(xí)(Ensemble)[10]是在原始數(shù)據(jù)集上構(gòu)建多個分類器(每個分類器稱為基分類器),然后采用一定的規(guī)則(如投票法)對未知樣本的類標(biāo)簽進行預(yù)測。當(dāng)各個基分類器之間是相互獨立的,且基分類器分類效果好于隨機猜測分類器時,集成分類器的性能優(yōu)于單個分類器。
Boosting算法作為集成學(xué)習(xí)的一種,首先使用一種學(xué)習(xí)算法對訓(xùn)練樣本進行分類,如果分類性能不高,則不能對所有樣本進行正確的分類。對于不能正確分類的樣本,則增大其權(quán)重,反之,對于正確分類的樣本就減小其權(quán)重,再重新進行學(xué)習(xí)。這樣迭代多次后,分類器就可以對所有樣本進行正確分類了。
AdaBoost算法[11]作為Boosting算法的典型代表,其基本思想是,初始時每個訓(xùn)練樣本的權(quán)重相同,然后使用一個弱分類器對訓(xùn)練集進行多次迭代訓(xùn)練,根據(jù)訓(xùn)練結(jié)果為訓(xùn)練樣本重新賦予權(quán)重,即對不能正確分類的樣本賦予較大的權(quán)重,這樣在下次迭代訓(xùn)練時重點學(xué)習(xí)那些不能正確分類的樣本。每次迭代后都會得到一個預(yù)測模型,每個預(yù)測模型根據(jù)其預(yù)測準(zhǔn)確率也賦予一個權(quán)重。迭代結(jié)束后,產(chǎn)生一個預(yù)測模型序列。最后,對預(yù)測模型采用加權(quán)平均法得到最終的預(yù)測模型。詳細計算流程見算法1。
2 數(shù)據(jù)描述
本文采用的數(shù)據(jù)為“學(xué)堂在線”MOOC平臺2013年10月27日到2014年8月1日部分學(xué)習(xí)者的選課記錄和行為記錄,每條記錄包括學(xué)習(xí)者的注冊賬號、學(xué)習(xí)時間、學(xué)習(xí)方式、學(xué)習(xí)行為和是否退課。其中學(xué)習(xí)行為包括七種類型:完成作業(yè)(problem)、觀看視頻(video)、訪問課程內(nèi)容(access)、訪問wiki(wiki)、課程討論(discussion)、瀏覽網(wǎng)頁(navigate)和關(guān)閉網(wǎng)頁(page_close)。
3 數(shù)據(jù)處理
首先,統(tǒng)計退課學(xué)習(xí)者和不退課學(xué)習(xí)者在整個學(xué)習(xí)期間每種學(xué)習(xí)行為的平均次數(shù)(見表1),其次,為了降低算法的計算復(fù)雜度,在不影響預(yù)測準(zhǔn)確率的前提下,采用主成分分析法PCA[12](Principal Component Analysis)來降低數(shù)據(jù)的維度。主成分分析法PCA,是一種被廣泛使用的數(shù)據(jù)壓縮算法,其目的是在盡量減小信息損失的情況下,通過析取主成分(即方差較大的特征),將高維的數(shù)據(jù)轉(zhuǎn)換為低維的數(shù)據(jù),從而降低算法的復(fù)雜度。本文選取方差占比超過80%的特征作為主成分。通過主成分分析法PCA對數(shù)據(jù)進行降維,每種學(xué)習(xí)行為的方差及方差占比計算結(jié)果見表2。
4 預(yù)測結(jié)果
本文選取的數(shù)據(jù)集為二分類非平衡數(shù)據(jù)集,不退課的學(xué)習(xí)者數(shù)為24961,退課的學(xué)習(xí)者數(shù)為95581,非平衡率為1:3.83。在傳統(tǒng)的分類方法中,常采用預(yù)測準(zhǔn)確率(precision)作為評價指標(biāo)。但對非平衡數(shù)據(jù)分類,準(zhǔn)確率不能真正評價分類性能。在對非平衡數(shù)據(jù)分類的評價指標(biāo)中,ROC(receiver operating characteristic)曲線[13]被認(rèn)為是一種較全面的指標(biāo)。ROC曲線取假正例率TPR=TP/(TP+TN)為橫坐標(biāo),取真正例率TPR=TP/(TP+TN)為縱坐標(biāo)。分類結(jié)果的混淆矩陣見表3。采用ROC曲線下的面積(AUC)作為評價指標(biāo),AUC越大說明模型的分類性能越好。
從表4可以看出,采用主成分分析法降維后的數(shù)據(jù)較好地預(yù)測了退課率,預(yù)測精度基本未受影響,也反映了采用主成分分析法對原始數(shù)據(jù)集進行降維,選取的特征較好地反映了原始數(shù)據(jù)集的特征,保證了主成分分析方法的有效性。在描述學(xué)習(xí)的七種學(xué)習(xí)行為中,完成作業(yè)(problem)和觀看視頻(video)是影響退課的兩種主要學(xué)習(xí)行為。MOOC平臺可通過分析學(xué)習(xí)者的這兩種行為,及時發(fā)現(xiàn)可能會退課的學(xué)習(xí)者,盡早采取一定的措施(如向?qū)W習(xí)者推送學(xué)習(xí)提醒信息)以降低退課率。
5 總結(jié)與展望
“學(xué)堂在線”作為國內(nèi)領(lǐng)先的MOOC平臺,于2013年10月10日正式啟動,經(jīng)過五年多的發(fā)展,已運行了國內(nèi)外幾十所頂尖高校的優(yōu)質(zhì)課程。與學(xué)習(xí)者選課人數(shù)相比,完成課程的人數(shù)太少。
本文選取“學(xué)堂在線”2013年10月27日到2014年8月1日近一年學(xué)習(xí)者的選課記錄,通過分析七種學(xué)習(xí)行為的平均次數(shù),發(fā)現(xiàn)完成課程的學(xué)習(xí)者的平均次數(shù)要明顯多于退課學(xué)習(xí)者的平均次數(shù)。因此,本文首先對七種學(xué)習(xí)行為的次數(shù)進行匯總。然后通過主成分分析法進行特征提取,選取其中兩種學(xué)習(xí)行為(觀看視頻和完成作業(yè)),這兩種學(xué)習(xí)行為對學(xué)習(xí)者是否退課影響最大。最后采用AdaBoost算法對學(xué)習(xí)者退課進行預(yù)測,結(jié)果顯示其具有較高的準(zhǔn)確率。而且對特征提取前后進行對比,采用“觀看視頻”和“完成作業(yè)”這兩種學(xué)習(xí)行為對學(xué)習(xí)者是否退課的預(yù)測,準(zhǔn)確率略有下降,但在時間復(fù)雜度方面有明顯的改善,這也說明了采用主成分分析法對特征提取的有效性。
綜合本文分析,當(dāng)教師設(shè)置MOOC課程時,應(yīng)著重考慮視頻的設(shè)置、組織,以及作業(yè)集的設(shè)置、評分等環(huán)節(jié)。本文不足之處是未研究其余五種學(xué)習(xí)行為對學(xué)習(xí)者退課的影響,以及未考慮學(xué)習(xí)者的學(xué)習(xí)活躍性等因素對退課的影響。
參考文獻(References):
[1] 樊超,宗利永.MOOC在線學(xué)習(xí)行為的人類動力學(xué)分析[J].開放教育研究,2016.22(2):53-58
[2] 伍杰華,付慧平.MOOC學(xué)習(xí)行為的統(tǒng)計、預(yù)測與展望[J].工業(yè)和信息化教育,2017.2:81-89
[3] 牟智佳,武法提.MOOC學(xué)習(xí)結(jié)果預(yù)測指標(biāo)探索與學(xué)習(xí)群體特征分析[J].現(xiàn)代遠程教育研究,2017.3:60-68,95
[4] 童小素,賈小軍.MOOC質(zhì)量評價體系的構(gòu)建探究[J].中國遠程教育(綜合版),2017.5:63-71
[5] 安哲鋒,張峰峰.MOOC學(xué)習(xí)質(zhì)量立體模型的構(gòu)建研究——基于學(xué)習(xí)者體驗視角的研究[J].成人教育,2018.38(6):21-26
[6] 王雪,周圍,王志軍等.MOOC教學(xué)視頻的優(yōu)化設(shè)計研究——以美國課程中央網(wǎng)站Top20 MOOC為案例[J].中國遠程教育,2018.520(5):47-56
[7] 張璐妮,唐守廉,劉宇泓.MOOC學(xué)習(xí)者參與行為實證研究——以“中國大學(xué)MOOC”外語課程為例[J].北京郵電大學(xué)學(xué)報(社會科學(xué)版),2018.102(3):101-107
[8] 張潤芝.大規(guī)模開放在線課程教師視頻語言表達技巧影響因素研究[J].電化教育研究,2018.5.
[9] 曹曉明,朱姍,薛錫雅.實踐型慕課的視頻組織方式對學(xué)習(xí)效果影響的實驗研究[J].電化教育研究,2018.5.
[10] Dietterich T G. Ensemble Methods in Machine Learning[J].Proc International Workshgp on Multiple Classifier Systems,2000.1857(1):1-15
[11] Wu X, Kumar V. The Top Ten Algorithms in Data Mining[M].CRC Press,2009.
[12] H?skuldsson A. A combined theory for PCA and PLS[J].Journal of Chemometrics,1995.9(2):91-123
[13] Fawcett T. An introduction to ROC analysis[J].PatternRecognition Letters,2005.27(8):861-874