何普亮 張戰(zhàn)勝
摘? 要 在教育領(lǐng)域,通過數(shù)據(jù)挖掘技術(shù)可以從海量教育數(shù)據(jù)中挖掘出大量有價值的信息,為教與學(xué)的各類利益相關(guān)者提供參考和建議。從大數(shù)據(jù)時代的教育數(shù)據(jù)挖掘的一般過程、典型方法、常用工具和典型應(yīng)用等幾個方面對教育數(shù)據(jù)挖掘領(lǐng)域展開論述,以期為教育管理人員和研究人員提供參考,促進教育教學(xué)走向個性化和智能化。
關(guān)鍵詞 大數(shù)據(jù);教育數(shù)據(jù);數(shù)據(jù)挖掘;教育管理;智慧教育
中圖分類號:G434? ? 文獻標識碼:B
文章編號:1671-489X(2019)23-0007-04
1 引言
隨著教育信息化的不斷推進與發(fā)展,先進的信息技術(shù)手段對教育教學(xué)的各個方面都產(chǎn)生深刻影響,正在不斷改變未來教育的發(fā)展方向。其中大數(shù)據(jù)技術(shù)對教育的影響尤為令人矚目。教育部2018年4月印發(fā)的《教育信息化2.0行動計劃》中即指出:“要全面提高利用大數(shù)據(jù)支撐保障教育管理、決策和公共服務(wù)的能力?!币虼?,在大數(shù)據(jù)背景下,利用數(shù)據(jù)挖掘技術(shù)對教育教學(xué)的全過程進行分析、管理和評價,既是技術(shù)發(fā)展的必然趨勢,也是信息化時代教育教學(xué)的必然要求。
在教育信息化尚未普及的年代,由于缺乏有效的信息采集與存儲手段,大量的教育教學(xué)過程信息難以被有效記錄,因此,教育大數(shù)據(jù)挖掘也就缺乏相應(yīng)的土壤。現(xiàn)在,隨著數(shù)字化學(xué)習、網(wǎng)絡(luò)學(xué)習空間、課堂直播技術(shù)等現(xiàn)代化信息技術(shù)手段的普及,學(xué)習者的學(xué)習過程、學(xué)習行為可以被非常方便地記錄下來,為教育數(shù)據(jù)挖掘提供了大量的數(shù)據(jù)來源,因此,開展大數(shù)據(jù)背景下的教育數(shù)據(jù)挖掘也就成為可能。鑒于此,本文以上述現(xiàn)狀為背景,對大數(shù)據(jù)下的教育數(shù)據(jù)挖掘技術(shù)進行研究和綜述,從方法、工具和應(yīng)用三個方面詳細論述教育數(shù)據(jù)挖掘技術(shù)及其應(yīng)用。
2 教育數(shù)據(jù)挖掘的一般過程
與傳統(tǒng)的數(shù)據(jù)挖掘不同,教育數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域為教育教學(xué)領(lǐng)域,其核心目的是挖掘教育教學(xué)中存在的規(guī)律、發(fā)現(xiàn)核心問題,為教育領(lǐng)域中的利益相關(guān)者提供建議與對策。根據(jù)教育教學(xué)的實際應(yīng)用情況,本文提出教育數(shù)據(jù)挖掘的一般過程,如圖1所示。
在對教育過程中產(chǎn)生的海量大數(shù)據(jù)進行挖掘時,首先需要進行數(shù)據(jù)采集。中學(xué)教育領(lǐng)域較為常見的數(shù)據(jù)類型包括成績數(shù)據(jù)、作業(yè)數(shù)據(jù)、討論數(shù)據(jù)、學(xué)習者的反思數(shù)據(jù)等。在完成數(shù)據(jù)采集后,第二步是對數(shù)據(jù)進行預(yù)處理,常見的預(yù)處理主要包括去重、去噪、文本類數(shù)據(jù)的預(yù)處理以及特征選擇等。完成預(yù)處理后,則應(yīng)根據(jù)數(shù)據(jù)挖掘的目的,選擇合適的挖掘方法,常見的挖掘方法包括分類、聚類、文本挖掘、社交網(wǎng)絡(luò)分析等。得到挖掘結(jié)果后,應(yīng)采用合適的方法對挖掘結(jié)果進行呈現(xiàn),目前常用的是可視化的呈現(xiàn)方法包括柱狀圖、餅圖、折線圖、詞云圖、網(wǎng)絡(luò)結(jié)構(gòu)圖等。最后應(yīng)對數(shù)據(jù)挖掘的結(jié)果進行分析,向各類利益相關(guān)者如教育管理人員、教師、學(xué)生等提供相應(yīng)的建議與對策,以促進教育教學(xué)的發(fā)展。
3 面向大數(shù)據(jù)的教育數(shù)據(jù)挖掘典型方法
在上述教育數(shù)據(jù)挖掘的一般過程中,挖掘方法的選擇是最為核心的步驟之一。下面對教育數(shù)據(jù)挖掘中幾類典型的挖掘方法進行介紹。
基于分類的教育數(shù)據(jù)挖掘方法? 分類是數(shù)據(jù)挖掘中最為常用的方法之一,它是指按照一定的分類體系自動地將對象劃分至某一類別中。若待分類的分類體系屬于類別數(shù)據(jù),則該過程被稱為分類;若待分類的對象屬于數(shù)值數(shù)據(jù),則該過程被稱為回歸。在教育領(lǐng)域,常用的分類算法主要包括決策樹算法、k近鄰算法、樸素貝葉斯算法、邏輯斯蒂回歸模型、神經(jīng)網(wǎng)絡(luò)模型等;常用的回歸算法則主要使用一般線性回歸模型。
在教育教學(xué)中,分類算法的應(yīng)用非常廣泛,如對學(xué)習者的學(xué)習狀態(tài)進行分類,以實現(xiàn)學(xué)習狀態(tài)的預(yù)測:羅力成等人通過自動分類算法對在線學(xué)習平臺中學(xué)習者的學(xué)習成績進行預(yù)測[1];Kloft等人通過自動分類算法對MOOC課程學(xué)習中每周的輟學(xué)率進行自動預(yù)測[2];潘怡等人對E-lear-ning中的學(xué)習者所發(fā)表的文本進行情感分類,從而對學(xué)習者的情感狀態(tài)進行預(yù)測[3];Wise等人通過文本分類算法對MOOC評論進行自動分類,以挖掘海量評論中所蘊含的有價值的信息[4]等。分類算法也可以用于對學(xué)習者的學(xué)習行為進行分類,以實現(xiàn)學(xué)習者分類:Sunar等人通過對MOOC課程中學(xué)習者的學(xué)習行為進行自動分類,將MOOC學(xué)習者分為不同的類別,以便于教師給予個性化的學(xué)習提示[5]等。
基于聚類的教育數(shù)據(jù)挖掘方法? 聚類算法是數(shù)據(jù)挖掘中用于發(fā)現(xiàn)數(shù)據(jù)潛藏的模式的常用算法。與分類算法不同的是,應(yīng)用聚類時,數(shù)據(jù)本身并沒有明確的分類標準,需要通過機器學(xué)習的方法從數(shù)據(jù)中自動分析數(shù)據(jù)的特征與相似情況,從而將數(shù)據(jù)聚合為多個不同的類別。常用的聚類算法包括DB-Scan、基于層次的聚類方法、Kmeans算法等。
聚類算法常常被用于發(fā)現(xiàn)學(xué)習者在學(xué)習參與中的特定行為模式。如吳林靜等人對網(wǎng)絡(luò)學(xué)習空間中學(xué)習者的學(xué)習行為進行聚類,并總結(jié)了網(wǎng)絡(luò)學(xué)習空間中常見的四種行為模式,即勤奮型學(xué)習者、消極型學(xué)習者、中規(guī)中矩型學(xué)習者、三好學(xué)生型學(xué)習者[6];Rebecca等人通過聚類算法對MOOC中學(xué)習者的參與行為進行建模和聚類,以挖掘MOOC學(xué)習中典型的行為參與模式[7]。聚類也被用于對學(xué)習者進行分組,根據(jù)學(xué)習者的各類屬性對學(xué)習者進行聚類,實現(xiàn)學(xué)習者的同質(zhì)或異質(zhì)分組。此外,學(xué)習者的學(xué)習興趣[8]、學(xué)習者的形成性評價[9]也可以通過聚類算法進行挖掘。
基于文本挖掘的教育數(shù)據(jù)挖掘方法? 在教育教學(xué)過程中,學(xué)習過程的參與者包括教師和學(xué)生會產(chǎn)生大量的文本類學(xué)習過程數(shù)據(jù),如教案、講義、作業(yè)、討論、反思、答疑、評論等。這些文本數(shù)據(jù)是學(xué)習過程的客觀反映,且蘊含了大量的知識,對于分析教學(xué)質(zhì)量和學(xué)習者狀態(tài)有著重要的意義。因此,對這些文本數(shù)據(jù)進行挖掘有助于提升教學(xué)質(zhì)量和改進教學(xué)過程。
與傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)不同,教育教學(xué)過程中產(chǎn)生的文本數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),其挖掘方法也與傳統(tǒng)的數(shù)據(jù)挖掘方法存在較大的差異。由于文本數(shù)據(jù)的特殊性質(zhì),文本數(shù)據(jù)的預(yù)處理與結(jié)構(gòu)化數(shù)據(jù)相比更為復(fù)雜,相關(guān)常用的算法包括文本數(shù)據(jù)的分詞、分句、去停用詞、向量化等。完成文本預(yù)處理后,即可通過相關(guān)文本挖掘算法從文本語料中挖掘出有用的信息,如通過文本分類算法對MOOC評論進行分類以幫助管理者和教師對評論進行快速分類[10];通過LDA等主題挖掘算法對學(xué)習者討論區(qū)的主題演變進行追蹤和分析[11];通過情感計算對學(xué)習者學(xué)習過程中的情感狀態(tài)進行監(jiān)測,并提供個性化學(xué)習資源[12]等。
4 教育大數(shù)據(jù)挖掘的常用工具及分類
為了提升教育數(shù)據(jù)挖掘的效率,尤其是在大數(shù)據(jù)環(huán)境中,當數(shù)據(jù)量較大時,必須采用各類輔助挖掘工具,才能夠以更高的效率挖掘數(shù)據(jù)中有用的信息。通過對目前教育數(shù)據(jù)挖掘領(lǐng)域常用的工具進行梳理,本文將常用工具分為四類:預(yù)處理與特征工程類工具、算法挖掘類工具、文本挖掘工具和數(shù)據(jù)可視化工具。具體工具名稱及功能如表1所示。
5 教育數(shù)據(jù)挖掘的典型應(yīng)用
Civitas Learning項目? Civitas Learning是一家致力于通過機器學(xué)習的方式從高等教育學(xué)生的學(xué)習過程數(shù)據(jù)中挖掘信息,以幫助學(xué)習者提升學(xué)習成績的新興公司。該系統(tǒng)對學(xué)習者的全過程學(xué)習數(shù)據(jù)進行記錄,包括學(xué)習者的系統(tǒng)記錄、學(xué)習者的參與行為和學(xué)習結(jié)果等。通過分析和挖掘這些數(shù)據(jù),系統(tǒng)可以對學(xué)習者的出勤率、輟學(xué)率等進行評價,并探測和顯示導(dǎo)致中途輟學(xué)和學(xué)習成績失敗的警告性信號。此外,該系統(tǒng)還允許用戶發(fā)現(xiàn)導(dǎo)致無謂消耗的特定課程,并判定有效的學(xué)習資源和干預(yù)措施。該系統(tǒng)目前已被多所國外高校使用,擁有230萬用戶。根據(jù)報道,應(yīng)用該系統(tǒng)后,南佛羅里達大學(xué)學(xué)生第一年的持續(xù)入學(xué)率達到91%以上;在得克薩斯州州立大學(xué),在該系統(tǒng)中每天約有1000人進行注冊學(xué)習;在Del Mar學(xué)院,應(yīng)用該系統(tǒng)后,其學(xué)校學(xué)生畢業(yè)率提升了34%。
i-Ready自適應(yīng)學(xué)習系統(tǒng)? 與Civitas致力于高等教育不同,i-Ready系統(tǒng)致力于中小學(xué)學(xué)段學(xué)習者的學(xué)習診斷。i-Ready提供了跨平臺的不同版本,以實現(xiàn)數(shù)據(jù)驅(qū)動的課堂。在數(shù)據(jù)驅(qū)動下,該系統(tǒng)為學(xué)習者提供個性化的學(xué)習體驗,通過強大的評估功能、結(jié)合學(xué)習者的參與行為,挖掘?qū)W習者的個性化學(xué)習需求,并提供有針對性的學(xué)習資源,從而最終實現(xiàn)個性化的學(xué)習體驗。在該學(xué)習系統(tǒng)中,學(xué)習者根據(jù)自己的學(xué)習記錄數(shù)據(jù)制訂相應(yīng)的學(xué)習計劃,而教師則從教學(xué)的主導(dǎo)者轉(zhuǎn)變?yōu)閷W(xué)習的領(lǐng)航員,為學(xué)生提供指導(dǎo)。
為了驗證該系統(tǒng)的使用效果,美國弗吉尼亞州的法明頓小學(xué)于2012年使用該系統(tǒng)進行了實證研究。實驗在學(xué)習者使用i-Ready系統(tǒng)后進行標準化考試,考試結(jié)果發(fā)現(xiàn),在每天使用i-Ready平臺35~45分鐘后,學(xué)習者的學(xué)習成績得到很大提高,其中閱讀成績提高88%,數(shù)學(xué)成績提高約75%。
Course Signals系統(tǒng)? Course Signals是由普渡大學(xué)于2009年開始研發(fā)的一個面向?qū)W習者的課程預(yù)警項目。該項目通過跟蹤學(xué)生的學(xué)業(yè)進展并進行實時提醒,以幫助學(xué)生順利完成課程學(xué)習。該系統(tǒng)可以采集學(xué)習者的課程完成情況、在線互動數(shù)據(jù)、學(xué)習者考試成績數(shù)據(jù)、資源訪問歷史、學(xué)習者其他特征等。結(jié)合這些數(shù)據(jù),系統(tǒng)可以對學(xué)習者的學(xué)習狀況進行評估,并對其后續(xù)發(fā)展情況進行預(yù)測,預(yù)測結(jié)果會以信號燈的方式進行呈現(xiàn)。如果預(yù)測結(jié)果顯示學(xué)習者存在課程失敗的可能性,則系統(tǒng)會顯示紅色信號燈,以提醒學(xué)習者需要多加努力,同時會提示相關(guān)教師給予學(xué)習者更多指導(dǎo);如果學(xué)習者表現(xiàn)良好,則系統(tǒng)會顯示綠色信號燈。實證研究顯示,使用該課程預(yù)警項目的學(xué)生,在評估中獲得更多的B和C以及更少的D和F;在部分課程中,獲得A和B的學(xué)生數(shù)量增加了28%。
中慶智課系統(tǒng)? 中慶智課是由中慶公司研發(fā)的基于錄播和人工智能技術(shù)的智能化課堂教學(xué)分析評測系統(tǒng)。該系統(tǒng)主要圍繞課堂教學(xué)展開,通過人工智能技術(shù)、大數(shù)據(jù)技術(shù)、互聯(lián)網(wǎng)技術(shù)、音視頻處理技術(shù)等與教育教學(xué)深度融合,對課堂教學(xué)過程進行深度挖掘,可實現(xiàn)課堂教學(xué)基礎(chǔ)大數(shù)據(jù)的常態(tài)化、伴隨式采集和即時分析,可以應(yīng)用于智慧校園環(huán)境下的教育管理、教師專業(yè)成長、學(xué)生個性化學(xué)習等智慧化應(yīng)用的數(shù)據(jù)采集與分析服務(wù)。中慶智課系統(tǒng)目前已在中小學(xué)和高等教育學(xué)段多所學(xué)校進行實證應(yīng)用,幫助教育從傳統(tǒng)的人工觀察走向智慧教育新階段。圖2為中慶智課系統(tǒng)使用示意圖。
6 結(jié)語
隨著信息技術(shù)和人工智能技術(shù)的不斷發(fā)展,教育領(lǐng)域所產(chǎn)生和積累的數(shù)據(jù)也越來越多,這些數(shù)據(jù)蘊含著大量有價值的信息,為教育數(shù)據(jù)挖掘提供了可能和良好的應(yīng)用前景。本文從教育數(shù)據(jù)挖掘的一般過程、教育數(shù)據(jù)挖掘的典型方法、常用工具以及目前國內(nèi)外的相關(guān)典型應(yīng)用等幾個方面,對大數(shù)據(jù)時代的教育數(shù)據(jù)挖掘進行介紹和分析,以期為教育管理人員和教育研究人員提供參考。在后續(xù)研究中將進一步開展教育數(shù)據(jù)挖掘的相關(guān)實證研究,以促進教育走向個性化和智能化。
參考文獻
[1]羅立成,楊絮,張海,等.基于在線學(xué)習數(shù)據(jù)的學(xué)習者成績預(yù)測研究海外實例[J].中國信息技術(shù)教育,2017(20):
87-88.
[2]Kloft M, Stiehler F, ZHENG Z, et al. Predicting MOOC dropout over weeks using machine learning methods
[M]//Proceedings of the EMNLP 2014 Workshop on Ana-
lysis of Large Scale Social Interaction in MOOCs.2014:
60-65.
[3]潘怡,葉輝,鄒軍華.E-learning評論文本的情感分類研究[J].開放教育研究,2014,20(2):88-94.
[4]Wise A F, CUI Y, WAN Q, et al. Mining for gold: Identifying content-related MOOC discussion threads across domains through linguistic modeling[J].The Internet and Higher Education,2017(32):11-28.
[5]Sunar A S, White S, Abdullah N A, et al. How Lear-
ners Interactions Sustain Engagement: A MOOC Case Study[J].IEEE Transactions on Learning Technologies,
2016,10(1):475-487.
[6]吳林靜,勞傳媛,劉清堂,等.網(wǎng)絡(luò)學(xué)習空間中的在線學(xué)習行為分析模型及應(yīng)用研究[J].現(xiàn)代教育技術(shù),2018,
28(6):46-53.
[7]Ferguson R, Clow D. Examining engagement: analy-sing learner subpopulations in massive open online courses (MOOCs)[M]//Proceedings of the Fifth Inter-national Conference on Learning Analytics and Know-ledge,2015:51-58.
[8]王法玉,姜妍.基于自組織神經(jīng)網(wǎng)絡(luò)和模糊聚類的校園無線網(wǎng)用戶學(xué)習興趣度行為分析[J].計算機應(yīng)用研究,
2018,35(1):186-189.
[9]文孟飛,劉偉榮,葉征.基于自動聚類和集成學(xué)習的網(wǎng)絡(luò)教學(xué)形成性評價方法[J].中國電化教育,2018(3):74-82.
[10]吳林靜,劉清堂,毛剛,等.大數(shù)據(jù)視角下的慕課評論語義分析模型及應(yīng)用研究[J].電化教育研究,2017(11):
43-48.
[11]劉三女牙,彭晛,劉智,等.面向MOOC課程評論的學(xué)習者話題挖掘研究[J].電化教育研究,2017(10):30-36.
[12]黃昌勤,俞建慧,王希哲.學(xué)習云空間中基于情感分析的學(xué)習推薦研究[J].中國電化教育,2018(10):7-14,39.
作者:何普亮,華中師范大學(xué)第一附屬中學(xué)信息中心,助理工程師,研究方向為教育技術(shù)與教育裝備;張戰(zhàn)勝,華中師范大學(xué)第一附屬中學(xué)信息中心,工程師,研究方向為教育信息化(430223)。