羅立成+楊絮+張海+陶亞楠
本文是西班牙科爾多瓦大學(xué)實施的一個基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績預(yù)測實例。在該項研究中,研究者對多示例學(xué)習(xí)和單示例學(xué)習(xí)算法的預(yù)測效果進行了比較研究。
● 基于MOODLE網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的數(shù)據(jù)對學(xué)習(xí)結(jié)果的預(yù)測研究
一直以來,根據(jù)學(xué)生使用網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的情況對他們的學(xué)習(xí)成績進行預(yù)測都是一個難題。為了解決這一問題,研究者需要在兩者之間建立起有意義的關(guān)聯(lián)。例如,學(xué)生可以通過課程中的不同活動來加強理解課堂中所學(xué)到的概念,在課程完成時進行期末考試,成績合格者則表示成功完成本課程,成績不合格者則表示未成功完成課程。有了這一前提,研究者所要做的只是根據(jù)學(xué)生在課程中完成的活動數(shù)量、類型和所用時間來預(yù)測學(xué)生能否通過該模塊的考試。
本研究中所用的數(shù)據(jù)來自科爾多瓦大學(xué)的Moodle在線學(xué)習(xí)課程,研究者使用了由Moodle篩選出的7門課程和419名學(xué)生產(chǎn)生的數(shù)據(jù)。
Moodle系統(tǒng)在關(guān)系數(shù)據(jù)庫中存儲了大量關(guān)于課程內(nèi)容、使用者、使用情況的詳細信息,該研究基于所存儲信息中的測驗、作業(yè)和論壇三類活動進行預(yù)測。其中,“測驗?zāi)K”是用來檢驗學(xué)生知識層次和回顧所學(xué)內(nèi)容的有用工具,它可以為學(xué)生的學(xué)習(xí)狀況提供及時的反饋,為學(xué)生的材料理解程度提供準(zhǔn)確的評估;“作業(yè)模塊”是用來搜集學(xué)生作業(yè)的工具,該模塊可以幫助學(xué)生輕松上傳數(shù)字內(nèi)容,學(xué)生可以上傳論文、電子表格、報告、網(wǎng)頁、圖片,或者小的音視頻剪輯片段等;“論壇模塊”是Moodle課程中一個強大的通信工具,它能夠讓教師與學(xué)生之間的交流不受時間與地點的限制,相互交流的人也不必同時在線,因此,學(xué)生可以利用任何時間進行回復(fù),這就可以幫助師生展開深入探討,研究處理的信息如下表所示。
● 基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績預(yù)測算法比較
傳統(tǒng)上這類研究一般使用監(jiān)管學(xué)習(xí)算法,但在實踐中面臨的問題是,每門課程具有不同類型、不同數(shù)量的活動,且每個學(xué)生完成活動的數(shù)量取決于自身的興趣和花費時間的多少,這就導(dǎo)致了獲取的信息不夠完整,而多示例學(xué)習(xí)算法可以用來解決這一問題。在實際教學(xué)中,使用多示例學(xué)習(xí)算法,可以以一種自然的方式表現(xiàn)出來,而不必進行大量改動。上頁表中的信息,可以用兩種方式進行描述。
一種是使用傳統(tǒng)監(jiān)管學(xué)習(xí)算法解決問題的經(jīng)典描述。這種描述將學(xué)生按“模式/示例”進行劃分。每個示例中的信息展示了學(xué)生可能參加的所有活動,但是在這個問題中,每個學(xué)生可以執(zhí)行不同數(shù)量的活動,勤奮的學(xué)生可能會做完所有的活動,而懶惰的學(xué)生可能一項活動都不做。另外,有的課程只擁有少量的活動,而其他的課程卻擁有大量的不同類型的活動。使用這種描述,就會忽略每個學(xué)生和每個課程中的信息差異,因為所有的示例都會共享相同的信息。
另一種描述方式是多示例問題描述。每個示例都由一個注冊了全部課程的學(xué)生組成。在這種情況下,每個學(xué)生被看作是一個用來表示活動完成情況的數(shù)據(jù)包,每個數(shù)據(jù)包由一個或幾個示例構(gòu)成,每個示例表示學(xué)生已經(jīng)完成的不同活動類型。因此,在每個數(shù)據(jù)包中都會包含著各種類型的活動,它們代表著學(xué)生完成的示例。這種表示方法非常匹配上面的問題,因為包含學(xué)生與課程的一般通用信息是作為數(shù)據(jù)包屬性進行存儲,而變量信息是作為示例屬性進行存儲的。對數(shù)據(jù)包屬性和示例信息的總結(jié)如下圖所示。
從多示例學(xué)習(xí)的角度出發(fā),這些信息可以以一種更自然的方式表示,當(dāng)加入新類型的活動時,與該類型無關(guān)的模式不會受到影響。被執(zhí)行的活動所屬類型信息被存儲為示例,每個學(xué)生包含示例的數(shù)量也是可變的,因此,課程中不常見的活動被執(zhí)行后不會帶來各個模式中通用信息的增加。
對單示例學(xué)習(xí)算法與多示例學(xué)習(xí)算法的比較實驗采用了十倍分層交叉驗證方法進行,可以看到準(zhǔn)確度、敏感性、特殊性的比較結(jié)果。準(zhǔn)確度測量的是正確評估的案例在所有評估案例所占的比例,敏感度測量的是在滿足某種條件時正確識別的案例中所占的比例,特殊性測量的是不滿足某種條件時正確識別的案例所占的比例。一些模型的敏感度值會因某些具體值的降低而得到優(yōu)化,這表明,由于這些模型將學(xué)生確定為可以成功完成課程,而實際上他們卻未通過考試,從而導(dǎo)致了模型沒有對這些消極示例進行正確分類。實際上,面對這種情況的確很難分類,因為有一些勤奮的學(xué)生最后卻沒能成功通過考試。
研究對傳統(tǒng)監(jiān)管式學(xué)習(xí)算法與多示例學(xué)習(xí)算法的應(yīng)用結(jié)果進行了比較,每種各選擇了15種算法對最具代表性的范例進行檢驗,并對結(jié)果進行對比。通過比較得知,使用多示例算法所得到的結(jié)果獲得了較高的準(zhǔn)確度值,且差異很大。這些結(jié)果表明在基于在線學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)者成績預(yù)測領(lǐng)域,多示例算法是一種更加合理的算法,它可以用適當(dāng)?shù)姆绞矫枥L可用信息,并能夠顯著提高算法結(jié)果的準(zhǔn)確度。
本論文獲得吉林省教育廳“十三五”社會科學(xué)研究規(guī)劃項目重點課題“基于數(shù)據(jù)挖掘的卓越教師能力結(jié)構(gòu)與培訓(xùn)研究”、東北師范大學(xué)本科教改研究課題“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評價研究”、吉林省高等教育教學(xué)改革課題重點項目“卓越新聞傳播人才創(chuàng)新培養(yǎng)模式與評價研究”、吉林省重點科技攻關(guān)項目“基于大數(shù)據(jù)的互聯(lián)網(wǎng)+長白文化數(shù)字博物館工程”資助。endprint