郭文鋒 樊 超
(1.山西農(nóng)業(yè)大學(xué) 基礎(chǔ)部,山西 晉中 030801;2.成都理工大學(xué) 管理科學(xué)學(xué)院,四川 成都610059)
MOOCs學(xué)習(xí)具有學(xué)習(xí)泛在化以及學(xué)習(xí)資源豐富和知識結(jié)構(gòu)系統(tǒng)化等特點(diǎn)(樊超,宗利永,2016),為學(xué)習(xí)者提供了一種新的學(xué)習(xí)方式。盡管MOOCs為學(xué)習(xí)者在課程來源、內(nèi)容、時(shí)長、認(rèn)證等方面提供了更多選擇權(quán),但較低的完成率仍是當(dāng)前MOOCs所面臨的主要問題之一。大量研究表明,MOOCs的完成率約為5%到10%(De Freitas, Morgan,& Gibson, 2015)。而影響MOOCs完成率的主要原因是學(xué)習(xí)者不能持續(xù)學(xué)習(xí),即學(xué)習(xí)者學(xué)習(xí)一段時(shí)間后就放棄了學(xué)習(xí),我們稱之為退課。如果能盡早發(fā)現(xiàn)可能退課的學(xué)習(xí)者,并對其給予激勵(lì)措施則可有效提高其學(xué)習(xí)積極性,進(jìn)而降低退課的可能性。為此,F(xiàn)eng、Tang和Liu(2019)基于學(xué)堂在線平臺的“小木”人工智能輔助系統(tǒng)針對可能退課的學(xué)習(xí)者進(jìn)行了在線干預(yù),干預(yù)措施主要是向?qū)W習(xí)者推送激勵(lì)學(xué)習(xí)的提醒信息。通過一個(gè)對照組和三個(gè)實(shí)驗(yàn)組進(jìn)行對比分析,采取了激勵(lì)措施的實(shí)驗(yàn)組在觀看視頻時(shí)長、完成作業(yè)數(shù)量和作業(yè)正確率方面有顯著提升。這一實(shí)證研究表明對可能退課者實(shí)施干預(yù)可以促進(jìn)其持續(xù)學(xué)習(xí)。
隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,MOOCs平臺記錄并存儲了海量的學(xué)習(xí)行為數(shù)據(jù),為定量分析學(xué)習(xí)者的退課行為提供了基礎(chǔ)?,F(xiàn)有研究主要基于資源訪問度(學(xué)習(xí)行為時(shí)長和次數(shù))構(gòu)建學(xué)習(xí)行為指標(biāo)來預(yù)測退課,而資源訪問規(guī)律對退課也具有重要影響,因此本研究將基于學(xué)堂在線MOOCs平臺記錄的37門計(jì)算機(jī)類課程的學(xué)習(xí)行為數(shù)據(jù),綜合資源訪問度和資源訪問規(guī)律構(gòu)建學(xué)習(xí)行為指標(biāo),探索能夠預(yù)測學(xué)習(xí)者退課行為的學(xué)習(xí)行為指標(biāo)。
關(guān)于MOOCs的退課預(yù)測是目前教育大數(shù)據(jù)領(lǐng)域的一個(gè)研究熱點(diǎn),其目的是發(fā)現(xiàn)潛在的退課者以便于課程設(shè)計(jì)者調(diào)整課程設(shè)計(jì)、改善學(xué)習(xí)者的學(xué)習(xí)體驗(yàn),從而降低退課率并提高學(xué)習(xí)者的學(xué)習(xí)積極性和學(xué)習(xí)效果。關(guān)于MOOCs的退課研究的內(nèi)容主要包括基于不同數(shù)據(jù)源的退課影響指標(biāo)分析、退課預(yù)測模型的實(shí)證研究等。
退課影響指標(biāo)分析指的是根據(jù)研究數(shù)據(jù)構(gòu)建學(xué)習(xí)行為指標(biāo)并分析對退課的影響。根據(jù)數(shù)據(jù)來源的不同,可分為兩類研究,一是基于調(diào)查問卷等小樣本數(shù)據(jù),二是基于數(shù)據(jù)庫記錄的大數(shù)據(jù)。具體來說,一方面,采用問卷調(diào)查或文獻(xiàn)調(diào)研獲得研究數(shù)據(jù)從而構(gòu)建影響退課的指標(biāo),包括持續(xù)時(shí)間投入、參與論壇討論(梁林梅,2015),學(xué)習(xí)者的感知有用性、滿意度、內(nèi)在動機(jī)(楊根福,2016),學(xué)習(xí)者自身、教學(xué)內(nèi)容與視頻、教師、MOOC教學(xué)支撐平臺(徐振國,張冠文,石林,安晶,2017),期望確認(rèn)、好奇心和態(tài)度(任巖,2021)等。另一方面,得益于網(wǎng)絡(luò)技術(shù)的發(fā)展,學(xué)習(xí)平臺記錄了大量的點(diǎn)擊流數(shù)據(jù),可以通過對這些數(shù)據(jù)的處理獲得影響退課的行為指標(biāo)。大部分研究主要根據(jù)對學(xué)習(xí)資源(包括視頻、作業(yè)、頁面和論壇四類)的訪問度來構(gòu)建影響指標(biāo),包括觀看視頻時(shí)長(牟智佳,武法提,2017;王改花,傅鋼善,2019;張媛媛,李爽,2019),觀看視頻次數(shù)(牟智佳,武法提,2017;Lemay & Doleck, 2020),提交作業(yè)次數(shù)、訪問頁面次數(shù)(李爽,鐘瑤,喻忱,程罡,魏順平,2017;張媛媛,李爽,2019),論壇參與程度(李爽 等,2017;王改花,傅鋼善,2019;張媛媛,李爽,2019)等。此外,也有學(xué)者考慮學(xué)習(xí)者的年齡、性別和教育背景對學(xué)習(xí)者持續(xù)學(xué)習(xí)的影響(Williams, Stafford, Corliss, & Reilly, 2018)。不難看出,基于調(diào)查問卷的研究優(yōu)點(diǎn)是能夠了解學(xué)習(xí)者的真實(shí)心理狀態(tài)和學(xué)習(xí)動機(jī),而大數(shù)據(jù)的優(yōu)點(diǎn)是能夠記錄學(xué)習(xí)者的詳細(xì)行為,盡量減少樣本偏差。
關(guān)于退課預(yù)測模型的實(shí)證研究指的是利用機(jī)器學(xué)習(xí)算法對退課進(jìn)行預(yù)測,以及對退課預(yù)測算法進(jìn)行改進(jìn)并比較幾種不同算法的預(yù)測準(zhǔn)確率。一些研究者基于經(jīng)典的分類算法對退課進(jìn)行預(yù)測,它們的共同特點(diǎn)是需要人工提取學(xué)習(xí)行為特征。如Kloft、Stiehler、Zheng和Pinkwart(2014)基于MOOC的點(diǎn)擊流數(shù)據(jù)訓(xùn)練支持向量機(jī)(SVM)模型預(yù)測學(xué)習(xí)者在下一周是否退課。Sinha、Jermann、Li和Dillenbourg(2014)基于Coursra平臺學(xué)生播放視頻的交互數(shù)據(jù)使用邏輯回歸模型(LR)進(jìn)行了退課預(yù)測。Xing、Chen、Stein和Marcinkowski(2016)使用決策樹(C4.5)對MOOC交互數(shù)據(jù)建模,以便盡早發(fā)現(xiàn)退課者。還有部分學(xué)者采用如集成學(xué)習(xí)算法(Youssef, Mohammed, & Wafaa, 2019)、樸素貝葉斯(Xing, Tang, & Pei, 2019)等算法對退課進(jìn)行預(yù)測??紤]到學(xué)習(xí)行為的時(shí)序特征,一些研究者采用時(shí)序預(yù)測模型預(yù)測退課。長短期記憶網(wǎng)絡(luò)(LSTM)(Qu, Li, Wu, Zhang, & Wang, 2019)作為一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),常用于對時(shí)間序列進(jìn)行預(yù)測。孫霞、吳楠楠、張蕾、陳靜和馮筠(2019)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從學(xué)習(xí)者學(xué)習(xí)活動日志中自動抽取一段時(shí)間內(nèi)的連續(xù)特征,以學(xué)習(xí)者行為特征為自變量,采用長短期記憶網(wǎng)絡(luò)(LSTM)建立MOOCs輟學(xué)率預(yù)測模型CNN_LSTM。為了克服輸入數(shù)據(jù)序列增長時(shí)導(dǎo)致數(shù)據(jù)丟失的問題,Chen和Wu(2021)通過引入注意力機(jī)制提出了一種時(shí)間序列模型CNN-LSTM-ATT來預(yù)測退課行為。盡管采用CNN自動提取特征可以減少工作量,而且對預(yù)測算法進(jìn)行改進(jìn)的主要目的在于提高預(yù)測退課的準(zhǔn)確率,但這些都不便于課程設(shè)計(jì)者理解退課的機(jī)制。
現(xiàn)有的研究主要基于資源訪問度(包括學(xué)習(xí)行為時(shí)長和次數(shù))探究影響退課的指標(biāo),而對基于資源訪問規(guī)律的指標(biāo)探究較少,包括活躍天數(shù)、會話數(shù)、訪問間隔天數(shù)等。相關(guān)研究表明,會話數(shù)(Kloft et al., 2014)、活躍天數(shù)(Kloft et al.,2014)、訪問間隔天數(shù)(王改花,傅鋼善,2019)等對學(xué)習(xí)效果具有重要的影響。因此,本研究針對MOOCs平臺提供的數(shù)據(jù),擬整合資源訪問度和資源訪問規(guī)律兩類因素構(gòu)建行為指標(biāo),使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型綜合分析其對退課的影響。研究問題具體包括:①通過對行為指標(biāo)分類,比較分析不同類型指標(biāo)對退課預(yù)測的效果;②探索哪些指標(biāo)組合對退課的預(yù)測效果最好。通過對這些問題的探索,試圖找出影響學(xué)習(xí)者退課的重要指標(biāo),為MOOCs的設(shè)計(jì)者盡早發(fā)現(xiàn)準(zhǔn)備退課者提供幫助。
不同的文獻(xiàn)對退課有不同的定義,為了便于驗(yàn)證和測試,本研究采用學(xué)堂在線開放數(shù)據(jù)集的定義,即學(xué)習(xí)者經(jīng)過連續(xù)35天學(xué)習(xí),如果在之后的十天內(nèi)沒有學(xué)習(xí)行為,則被認(rèn)為退課,否則為非退課(或者持續(xù)學(xué)習(xí))。
本研究采用的數(shù)據(jù)來源于學(xué)堂在線平臺的開放數(shù)據(jù)集①。學(xué)堂在線是目前中國最大的MOOC學(xué)習(xí)平臺,由清華大學(xué)于2013年創(chuàng)建,為全球?qū)W習(xí)者提供了12個(gè)類別的1 000多門課程,其中課程類別包括計(jì)算機(jī)科學(xué)、工程、物理學(xué)、外語等,選課次數(shù)累計(jì)達(dá)到1 000萬次。在學(xué)習(xí)者學(xué)習(xí)的過程中,系統(tǒng)平臺自動記錄了鼠標(biāo)點(diǎn)擊流日志信息,從中抽取用于描述學(xué)習(xí)者的行為記錄,記錄字段包括:注冊id、用戶名、課程id、會話id、學(xué)習(xí)行為類別、訪問對象和時(shí)間戳。其中,根據(jù)資源類型的不同,學(xué)習(xí)行為類別包括觀看視頻(播放、暫停、快進(jìn)等)、完成作業(yè)(正確、錯(cuò)誤等)、訪問頁面(訪問課件、課程信息等)和論壇討論(提問、回答問題等)四種。
研究主要針對學(xué)堂在線平臺的37門計(jì)算機(jī)類課程的學(xué)習(xí)行為日志記錄進(jìn)行分析,課程開設(shè)周期為2015年6月10日至2017年5月31日,開設(shè)周數(shù)為9到43周不等,詳細(xì)統(tǒng)計(jì)信息見表1。日志記錄包含了豐富的學(xué)習(xí)者學(xué)習(xí)行為信息,為深入理解學(xué)習(xí)者的退課機(jī)制提供了數(shù)據(jù)支撐。
表1 計(jì)算機(jī)類課程學(xué)習(xí)行為日志統(tǒng)計(jì)
基于學(xué)習(xí)行為記錄探索反映學(xué)習(xí)效果的行為指標(biāo),有助于理解學(xué)習(xí)者退課原因、提高學(xué)習(xí)者的參與度。學(xué)習(xí)行為次數(shù)和學(xué)習(xí)行為時(shí)長是基于資源訪問度的兩種重要的指標(biāo)(牟智佳,武法提,2017),反映了學(xué)習(xí)者訪問資源、參與學(xué)習(xí)的程度。每種學(xué)習(xí)行為類別包括多種動作,例如:觀看視頻包括播放、暫停、快進(jìn)等動作,如果連續(xù)多條行為記錄屬于觀看視頻的行為類型,即算作一次觀看視頻,且最后一條記錄的發(fā)生時(shí)間減去第一條記錄的發(fā)生時(shí)間即為此次觀看視頻的時(shí)長(以秒為單位)。將學(xué)習(xí)者在35天內(nèi)觀看視頻的次數(shù)、時(shí)長分別匯總即得到其觀看視頻次數(shù)和觀看視頻時(shí)長。針對四種學(xué)習(xí)行為類別,學(xué)習(xí)行為次數(shù)指標(biāo)包括觀看視頻次數(shù)、完成作業(yè)次數(shù)、訪問頁面次數(shù)和論壇討論次數(shù)。學(xué)習(xí)行為時(shí)長按照四種學(xué)習(xí)行為類別劃分為:觀看視頻時(shí)長、完成作業(yè)時(shí)長、瀏覽網(wǎng)頁時(shí)長和論壇討論時(shí)長。
資源訪問規(guī)律指標(biāo)反映了學(xué)習(xí)者的學(xué)習(xí)規(guī)律性,本研究只考慮會話數(shù)、活躍天數(shù)和訪問間隔天數(shù)三個(gè)因素。一個(gè)會話(session)指的是學(xué)習(xí)者在學(xué)堂在線平臺學(xué)習(xí)時(shí),從進(jìn)入網(wǎng)站到關(guān)閉網(wǎng)站經(jīng)過的時(shí)間,在這段時(shí)間內(nèi)學(xué)習(xí)者產(chǎn)生了一系列的學(xué)習(xí)行為,如觀看視頻、完成作業(yè)等。會話數(shù)反映了學(xué)習(xí)者在35天內(nèi)使用瀏覽器登錄平臺學(xué)習(xí)的次數(shù)。學(xué)習(xí)者學(xué)習(xí)一門課程的活躍天數(shù)反映了學(xué)習(xí)者學(xué)習(xí)的持續(xù)性,只要學(xué)習(xí)者在某一天產(chǎn)生了一次學(xué)習(xí)行為,則活躍天數(shù)計(jì)為1(Kloft et al., 2014)。學(xué)習(xí)者第一次學(xué)習(xí)到最后一次學(xué)習(xí)的訪問間隔天數(shù),反映了學(xué)習(xí)者的學(xué)習(xí)周期(王改花,傅鋼善,2019)。使用間隔天數(shù)除以活躍天數(shù)可以得到平均活躍間隔天數(shù)。
綜合考慮資源訪問規(guī)律和資源訪問度兩類因素,根據(jù)會話總數(shù)以及學(xué)習(xí)行為次數(shù)和學(xué)習(xí)行為時(shí)長,可以計(jì)算得到每個(gè)會話的平均學(xué)習(xí)行為次數(shù)和時(shí)長,基于活躍天數(shù)以及學(xué)習(xí)行為次數(shù)和學(xué)習(xí)行為時(shí)長,可以計(jì)算得到平均每天的學(xué)習(xí)行為次數(shù)和平均每天的學(xué)習(xí)行為時(shí)長。
綜上所述,本文一共提取了28個(gè)學(xué)習(xí)行為指標(biāo),具體指標(biāo)的描述及編碼見下頁表2。
表2 學(xué)習(xí)行為指標(biāo)、編碼及類別
1. 數(shù)據(jù)清洗與篩選
采用Python工具對學(xué)習(xí)平臺中的37門計(jì)算機(jī)課程的學(xué)習(xí)日志進(jìn)行格式化處理,選取各個(gè)學(xué)習(xí)模塊中都有學(xué)習(xí)者參與的數(shù)據(jù)樣本,最終抽取得到8 827條記錄、28個(gè)行為指標(biāo)。
2. 數(shù)據(jù)歸一化
不同行為指標(biāo)在數(shù)量級上存在顯著差異,為了消除指標(biāo)的數(shù)量級對預(yù)測模型的影響,采用基于python的機(jī)器學(xué)習(xí)工具scikit-learn的離差標(biāo)準(zhǔn)化(min-max標(biāo)準(zhǔn)化)將各個(gè)指標(biāo)值限定在[0, 1]。
本文將采用三種分類算法(支持向量機(jī)、邏輯回歸和樸素貝葉斯)分析各類學(xué)習(xí)行為指標(biāo)對退課的預(yù)測準(zhǔn)確率,采用屬性選擇算法(基于遞歸特征消除的特征排序算法)對學(xué)習(xí)行為指標(biāo)的重要性進(jìn)行排序,進(jìn)而選取能夠獲得最高預(yù)測準(zhǔn)確率的最優(yōu)指標(biāo)組合。模型具體包括以下幾種。
1. 支持向量機(jī)(SVM)
通過優(yōu)化尋找超平面將數(shù)據(jù)樣本分為兩類,使得位于超平面兩側(cè)的樣本距離最大化。本文采用了機(jī)器學(xué)習(xí)工具scikit-learn的線性分類支持向量機(jī)(LinearSVC)。
2. 邏輯回歸(LR)
通過將數(shù)據(jù)樣本的線性回歸問題通過sigmoid函數(shù)映射轉(zhuǎn)換為非線性回歸。本研究采用了機(jī)器學(xué)習(xí)工具scikit-learn的線性模型的邏輯回歸(LogisticRegression)。
3. 樸素貝葉斯(NB)
以貝葉斯定理為基礎(chǔ),通過數(shù)據(jù)樣本學(xué)習(xí)從輸入到輸出的概率分布,最后輸出使得后驗(yàn)概率最大的類別。本文采用了機(jī)器學(xué)習(xí)工具scikit-learn的基于高斯的貝葉斯分類算法(GaussianNB)。
4. 基于遞歸特征消除(RFE)的特征排序算法
首先在學(xué)習(xí)行為指標(biāo)全集上訓(xùn)練模型并得到每個(gè)指標(biāo)的重要性,然后從指標(biāo)全集中刪除重要性最低的一個(gè)指標(biāo),再在剩余的指標(biāo)集合上訓(xùn)練,不斷循環(huán)此過程直到剩余一個(gè)指標(biāo),按照此順序依次得到重要性由低到高的行為指標(biāo)。本研究評估器仍然采用基于線性分類的支持向量機(jī)(LinearSVC)。
本文主要對學(xué)習(xí)者是否退課進(jìn)行預(yù)測,本質(zhì)上屬于二分類問題。評價(jià)二分類性能的常見指標(biāo)有:①準(zhǔn)確率(Accuracy),反映了預(yù)測準(zhǔn)確的樣本數(shù)占樣本總數(shù)的比例;②精確率(Precision),又稱查準(zhǔn)率,反映了在預(yù)測為退課的樣本中,真正退課的樣本所占的比例;③召回率(Recall),又稱查全率,反映了在真正退課的樣本中,被預(yù)測為退課的樣本所占的比例;④F1分?jǐn)?shù),是基于精確率和召回率的調(diào)和平均數(shù),同時(shí)兼顧了分類算法的精確率和召回率,是一類綜合性評估指標(biāo),在類別不平衡的評估中占有重要的地位。
首先將28個(gè)學(xué)習(xí)行為指標(biāo)分為七個(gè)類別(見表2),包括:①學(xué)習(xí)行為次數(shù);②學(xué)習(xí)行為時(shí)長;③每個(gè)會話的平均學(xué)習(xí)行為次數(shù);④每個(gè)會話的平均學(xué)習(xí)行為時(shí)長;⑤平均每天的學(xué)習(xí)行為次數(shù);⑥平均每天的學(xué)習(xí)行為時(shí)長;⑦資源訪問規(guī)律指標(biāo)。采用支持向量機(jī)(SVM)、邏輯回歸(LR)和樸素貝葉斯(NB)等三種具有代表性的分類算法,比較不同類別的學(xué)習(xí)行為指標(biāo)對退課預(yù)測的準(zhǔn)確率,并分析不同分類算法的效果。
接著采用基于遞歸特征消除(RFE)的特征排序算法,分析不同學(xué)習(xí)行為指標(biāo)對退課預(yù)測的權(quán)重順序以及預(yù)測準(zhǔn)確率最高的最優(yōu)指標(biāo)組合。
在學(xué)習(xí)行為指標(biāo)的提取上,主要針對學(xué)習(xí)行為次數(shù)和學(xué)習(xí)行為時(shí)長,在考慮會話數(shù)和活躍天數(shù)的基礎(chǔ)上,將學(xué)習(xí)行為指標(biāo)劃分為七個(gè)類別。本部分主要分析哪種類型的學(xué)習(xí)行為指標(biāo)更能有效地預(yù)測學(xué)習(xí)者的退課行為以及比較不同預(yù)測分類算法的預(yù)測效果。為了了解不同類型學(xué)習(xí)行為指標(biāo)獨(dú)立和綜合的預(yù)測效果,以對學(xué)習(xí)行為指標(biāo)全集進(jìn)行的預(yù)測分析作為參照。為了評估各個(gè)預(yù)測分類算法的預(yù)測效果,采用五折交叉驗(yàn)證的策略,分析結(jié)果見表3。
通過表3發(fā)現(xiàn):①從四類分類評估指標(biāo)來看,由于學(xué)習(xí)者退課比例較高,使得樣本數(shù)據(jù)類別不平衡,導(dǎo)致召回率較高(0.840~0.999,除0.247外),因此在對比分析時(shí)應(yīng)重點(diǎn)考慮準(zhǔn)確率、精確率和F1分?jǐn)?shù)。②資源訪問規(guī)律指標(biāo)對退課行為預(yù)測效果最高(從準(zhǔn)確率和F1分?jǐn)?shù)看),甚至高于指標(biāo)全集的預(yù)測結(jié)果。這表明會話數(shù)(SN)、活躍天數(shù)(AD)、訪問間隔天數(shù)(ID)等指標(biāo)更能反映學(xué)習(xí)者的學(xué)習(xí)狀況。③學(xué)習(xí)行為次數(shù)較學(xué)習(xí)行為時(shí)長對退課行為的預(yù)測效果更好,即學(xué)習(xí)行為次數(shù)更能有效預(yù)測學(xué)習(xí)者的退課行為。④從學(xué)習(xí)行為次數(shù)、每個(gè)會話的平均學(xué)習(xí)行為次數(shù)和平均每天的學(xué)習(xí)行為次數(shù)三類指標(biāo)分析發(fā)現(xiàn),學(xué)習(xí)行為次數(shù)對退課行為預(yù)測效果最好,每個(gè)會話的平均學(xué)習(xí)行為次數(shù)預(yù)測效果次之,平均每天的學(xué)習(xí)行為次數(shù)預(yù)測效果最差。除了NB算法,從學(xué)習(xí)行為時(shí)長、每個(gè)會話的平均學(xué)習(xí)行為時(shí)長和平均每天的學(xué)習(xí)行為時(shí)長三類指標(biāo)分析發(fā)現(xiàn),預(yù)測準(zhǔn)確率和F1由好到差依次為:平均每天的學(xué)習(xí)行為時(shí)長、每個(gè)會話的平均學(xué)習(xí)行為時(shí)長、學(xué)習(xí)行為時(shí)長。這表明會話數(shù)和活躍天數(shù)對學(xué)習(xí)行為次數(shù)和學(xué)習(xí)行為時(shí)長影響不同。⑤綜合分析發(fā)現(xiàn),支持向量機(jī)(SVM)預(yù)測準(zhǔn)確率最高,邏輯回歸(LR)預(yù)測效果要好于樸素貝葉斯(NB)。
表3 不同類型學(xué)習(xí)行為指標(biāo)預(yù)測比較分析結(jié)果
盡管學(xué)習(xí)行為活動的類型有多種,但不同的行為指標(biāo)對退課行為的預(yù)測重要性可能存在差異。本研究采用基于遞歸特征消除(RFE)的特征排序算法,對學(xué)習(xí)行為指標(biāo)的重要性進(jìn)行排序,評估器仍然采用基于線性分類的支持向量機(jī)(LinearSVC)。退課行為預(yù)測指標(biāo)的重要性排序(由高到低)結(jié)果見表4。會話數(shù)(SN)和活躍天數(shù)(AD)兩個(gè)學(xué)習(xí)行為指標(biāo)的重要性排名位列前二,訪問間隔天數(shù)(ID)和平均活躍間隔天數(shù)排名比較靠前(位列第7、8),這與第1步驟中分析不同類型學(xué)習(xí)行為指標(biāo)預(yù)測一致,表明SN和AD這兩個(gè)指標(biāo)對退課行為預(yù)測影響最大。會話數(shù)越多意味著學(xué)習(xí)者登錄學(xué)習(xí)平臺越頻繁,學(xué)習(xí)積極性越高,則學(xué)習(xí)者發(fā)生退課的可能性越小。
表4 指標(biāo)重要性排序結(jié)果(由高到低)
為了進(jìn)一步提取有效預(yù)測退課行為的指標(biāo)組合,按照學(xué)習(xí)行為指標(biāo)的重要性排序依次添加指標(biāo)構(gòu)成集合,然后采用支持向量機(jī)分類算法對各個(gè)指標(biāo)集合進(jìn)行預(yù)測,預(yù)測準(zhǔn)確率(評估指標(biāo)采用F1分?jǐn)?shù))見圖1。圖中橫坐標(biāo)的數(shù)字代表學(xué)習(xí)行為指標(biāo)集合,如“7”代表按照指標(biāo)重要性排序后的前7個(gè)指標(biāo)構(gòu)成的集合,“28”代表指標(biāo)全集。從圖1可以看出,隨著指標(biāo)的增加,前7個(gè)行為指標(biāo)構(gòu)成的集合(SN、AD、TD、DD、DDPD、WFPD和ID)對退課行為預(yù)測的準(zhǔn)確率最高(F1=0.836),即構(gòu)成預(yù)測退課的最優(yōu)指標(biāo)組合。隨著指標(biāo)的繼續(xù)增加,預(yù)測的準(zhǔn)確率逐漸下降,一直到指標(biāo)全集時(shí)F1分?jǐn)?shù)到達(dá)0.832。
圖1 學(xué)習(xí)行為指標(biāo)組合的預(yù)測準(zhǔn)確率比較分析
本研究以學(xué)堂在線的37門計(jì)算機(jī)課程的學(xué)習(xí)行為數(shù)據(jù)為研究對象,整合資源訪問度和資源訪問規(guī)律兩類因素構(gòu)建學(xué)習(xí)行為指標(biāo),采用三種機(jī)器學(xué)習(xí)分類模型分析了學(xué)習(xí)行為指標(biāo)對學(xué)習(xí)者退課的影響問題。首先抽取得到28個(gè)學(xué)習(xí)行為指標(biāo),然后從不同類型的學(xué)習(xí)行為指標(biāo)以及學(xué)習(xí)行為指標(biāo)的最優(yōu)組合兩方面,對影響學(xué)習(xí)者退課的指標(biāo)進(jìn)行了探索分析,得出如下結(jié)論:第一,與以往研究不同之處在于,本研究綜合考慮了資源訪問度和資源訪問規(guī)律兩類因素構(gòu)建學(xué)習(xí)行為指標(biāo),而且經(jīng)過實(shí)證研究表明資源訪問規(guī)律指標(biāo)對退課的預(yù)測效果最好。這些指標(biāo)包括:會話數(shù)、活躍天數(shù)等,反映了學(xué)習(xí)者的真實(shí)學(xué)習(xí)規(guī)律。在不同類型的學(xué)習(xí)行為指標(biāo)的預(yù)測對比分析中,發(fā)現(xiàn)學(xué)習(xí)行為次數(shù)相對于學(xué)習(xí)行為時(shí)長預(yù)測準(zhǔn)確率更高,這與牟智佳與武法提(2017)使用這些行為指標(biāo)預(yù)測學(xué)習(xí)成績的結(jié)論一致,反映了這些學(xué)習(xí)行為指標(biāo)不僅可以用于預(yù)測學(xué)習(xí)成績,也可以用于預(yù)測退課。第二,綜合考慮28個(gè)行為指標(biāo),通過遞歸特征消除(RFE)的特征排序算法得到其重要性排序,發(fā)現(xiàn)排序后的前7個(gè)行為指標(biāo)構(gòu)成了預(yù)測退課的最優(yōu)指標(biāo)組合,而且這7個(gè)指標(biāo)中包括了資源訪問規(guī)律指標(biāo)中的3個(gè)(會話數(shù)、活躍天數(shù)和訪問間隔天數(shù)),再次驗(yàn)證了資源訪問規(guī)律指標(biāo)對預(yù)測退課的重要性。
一門計(jì)算機(jī)類課程的開設(shè)周數(shù)一般為9到16周,MOOCs開發(fā)人員可以通過學(xué)習(xí)平臺分析學(xué)習(xí)者連續(xù)5周(35天)的學(xué)習(xí)記錄,并計(jì)算資源訪問規(guī)律指標(biāo)或者最優(yōu)指標(biāo)組合(包含7個(gè)指標(biāo)),然后采用機(jī)器學(xué)習(xí)分類算法(如支持向量機(jī))對其后兩周的退課情況進(jìn)行預(yù)測,從而發(fā)現(xiàn)可能的退課者,進(jìn)而通過平臺向?qū)W習(xí)者推送鼓勵(lì)其持續(xù)學(xué)習(xí)的提醒信息,可以提高其學(xué)習(xí)的動力和積極性,降低退課率。此外,目前大部分計(jì)算機(jī)類MOOCs面向社會開放,學(xué)習(xí)者在教育水平、職業(yè)等方面呈現(xiàn)多樣化,他們?yōu)榱藵M足自己某方面的需求注冊并學(xué)習(xí)MOOCs。由于能否持續(xù)學(xué)習(xí)全靠自主選擇,為了提高他們學(xué)習(xí)的積極性,降低退課率,提高M(jìn)OOCs資源的利用率,MOOCs開發(fā)人員在設(shè)計(jì)教學(xué)內(nèi)容時(shí)應(yīng)注意理論聯(lián)系實(shí)際。計(jì)算機(jī)類課程本身就具有實(shí)踐性強(qiáng)的特點(diǎn),比較容易將枯燥乏味的理論知識與真實(shí)有趣的實(shí)際應(yīng)用緊密結(jié)合(通過視頻內(nèi)容呈現(xiàn)),讓學(xué)習(xí)者體會到學(xué)習(xí)的實(shí)用性,提高他們的學(xué)習(xí)積極性(會話數(shù)、活躍天數(shù)也會隨之增加)。設(shè)計(jì)者可以在學(xué)習(xí)完一節(jié)內(nèi)容后,設(shè)置一些難度適中且與實(shí)際應(yīng)用結(jié)合的作業(yè)供學(xué)習(xí)者鞏固知識并檢驗(yàn)學(xué)習(xí)效果,當(dāng)學(xué)習(xí)完一門MOOC后可以為其頒發(fā)結(jié)業(yè)證書,從而提高其學(xué)習(xí)的滿意度。
本研究雖然分析了有效預(yù)測學(xué)習(xí)者退課的學(xué)習(xí)行為指標(biāo),但仍存在如下兩方面的不足:第一,本文主要基于計(jì)算機(jī)類課程展開研究,今后將選取多個(gè)不同學(xué)科的學(xué)習(xí)者行為數(shù)據(jù)進(jìn)行對比分析,探索不同學(xué)科的學(xué)習(xí)行為數(shù)據(jù)在預(yù)測退課指標(biāo)的選取上是否具有顯著差異。第二,本研究主要基于資源訪問度和資源訪問規(guī)律兩類因素構(gòu)建影響退課的行為指標(biāo),為學(xué)習(xí)平臺盡早發(fā)現(xiàn)退課者提供了判斷依據(jù),以便及時(shí)提醒學(xué)習(xí)者持續(xù)學(xué)習(xí),但并不能針對課程設(shè)計(jì)者在教學(xué)內(nèi)容、教學(xué)設(shè)計(jì)等方面給出改進(jìn)建議。今后將深入分析一些具體類型的數(shù)據(jù),如觀看視頻的數(shù)據(jù),包括播放、暫停、快進(jìn)、停止等更微觀的學(xué)習(xí)動作,以期發(fā)現(xiàn)在視頻內(nèi)容學(xué)習(xí)方面影響退課的深層機(jī)理,進(jìn)一步幫助MOOCs教師盡早發(fā)現(xiàn)退課行為并采取適當(dāng)?shù)慕虒W(xué)干預(yù),切實(shí)改善學(xué)習(xí)者的在線學(xué)習(xí)效果。
注釋
① http:// moocdata.cn/data/ user-activity