彭亞+于翠波+張勖
摘 要 教育數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘技術(shù)應用于教育領域,以發(fā)現(xiàn)教育中的潛在問題。介紹教育數(shù)據(jù)挖掘的發(fā)展歷程和研究現(xiàn)狀,采用文獻計量和內(nèi)容分析法對教育數(shù)據(jù)挖掘從教育環(huán)境、應用類型和技術(shù)方法三方面進行分析,并對教育數(shù)據(jù)挖掘的應用有所發(fā)現(xiàn)。
關(guān)鍵詞 數(shù)據(jù)挖掘;教育數(shù)據(jù)挖掘;e-learning
中圖分類號:G642.0 文獻標識碼:A
文章編號:1671-489X(2017)18-0001-06
Applied Research of Education Data Mining Technology//PENG Ya, YU CUIBo, ZHANG Xu
Abstract Education Data Mining (EDM) belongs to a multidiscipli-nary research field which applies data mining technology to educa-
tion for finding the hidden value of data. This paper firstly introduces
the concept, development history and present research status of EDM,
then researches and analyzes EDM from aspects of education envi-
ronment, application type and the technical methods and last discusses
the current research status of EDM.
Key words data mining; education data mining; e-learning
1 前言
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中通過算法發(fā)現(xiàn)有用信息的過程,最早出現(xiàn)在數(shù)據(jù)庫領域,與計算機科學和統(tǒng)計學聯(lián)系緊密。數(shù)據(jù)挖掘用到了包括抽樣、估計、建模、人工智能、模式識別、可視化等技術(shù),并在近30年的時間里得到快速發(fā)展,目前已廣泛應用在各個領域。
教育數(shù)據(jù)挖掘(Education Data Mining,EDM)是將數(shù)據(jù)挖掘技術(shù)應用于教育領域,并結(jié)合了教育學、計算機科學、統(tǒng)計學等學科的理論和技術(shù),用以提高學習、教學和管理三方面水平的新興的多學科交叉研究領域。教育數(shù)據(jù)挖掘技術(shù)可用來解決教學工作和教育研究中遇到的很多問題,比如了解學生喜好、輔助教學管理人員做出決策、幫助教師改進課程、對比學生知識掌握情況等。根據(jù)數(shù)據(jù)挖掘技術(shù)應用的業(yè)務領域,可以將數(shù)據(jù)挖掘分為e-learning數(shù)據(jù)挖掘、e-management數(shù)據(jù)挖掘和e-research數(shù)據(jù)挖掘。E-learning數(shù)據(jù)挖掘應用在教學領域,進行學習者特征識別、在線學習行為分析、師生交互分析等,數(shù)據(jù)來源于課堂教學、遠程教學系統(tǒng)、學習軟件系統(tǒng)等。E-management數(shù)據(jù)挖掘應用在教學管理領域,其數(shù)據(jù)來源于各種教學管理系統(tǒng)中。E-research數(shù)據(jù)挖掘應用科研領域,用以提高科研效率,數(shù)據(jù)主要是來源于各種科研數(shù)據(jù)庫。
2 教育數(shù)據(jù)挖掘研究現(xiàn)狀
關(guān)于教育數(shù)據(jù)挖掘的研究發(fā)展歷程,起初是智能輔導系統(tǒng)(ITS)、人工智能教育(AIED)和用戶建模(UM)等眾多研究領域中的一個子方向。從2005年開始,國際上許多計算機應用(如ITS等)的相關(guān)會議都設置了關(guān)于EDM的議題。不同時間、不同會議上的EDM議題雖有差別,但宗旨一致。2007年,歐洲技術(shù)促進學習協(xié)會(EATEL)在希臘克里特島舉辦第二屆歐洲技術(shù)促進學習會議(EC-TEL2007),
其間舉辦了“Apply Data Mining in E-Learning”研討會(ADML2007);之后,該領域研究者組成國際教育數(shù)據(jù)挖掘工作組,并創(chuàng)辦在線學術(shù)期刊——《教育數(shù)據(jù)挖掘雜志》;2008年開始,該工作組每年都會召開教育數(shù)據(jù)挖掘國際會議;2011年成立國際教育數(shù)據(jù)挖掘協(xié)會(IEDMS)。EDM的研究歷程見圖1所示。
目前與EDM相關(guān)的學術(shù)會議主要有International Con-
ference on Educational Data mining(EDM)、Interna-
tional Conference on Learning Analytics and Knowle-dge(LAK)、International Conference on Artificial Intelligence in Education(AIED)、International Con-
ference on Intelligence Tutoring Systems(ITS)等。
與EDM相關(guān)的主要期刊有Journal of Engineering Education(JEE)、Computers and Education(CAE)、Journal of the Learning Sciences(JLS)、Expert System with Applications(ESWA)、Journal of Educational Data Mining(JEDM)等。此外,關(guān)于EDM的書籍,國際上主要有2010年Romero等人編寫的Handbook of Educational Data Mining,該書詳細講述了EDM的概念、技術(shù)以及案例等;國內(nèi)主要有葛道凱、張少剛、魏順平等人編寫的《教育數(shù)據(jù)挖掘方法與應用》,程艷編寫的《教育數(shù)據(jù)挖掘與教育虛擬社區(qū)群集智能化構(gòu)建方法》等。endprint
在Google Scholar中以包含Educational data mining
的完整字句對已有論文進行搜索,用每年論文發(fā)表數(shù)目體現(xiàn)教育數(shù)據(jù)挖掘的發(fā)展狀況,能夠形象地展示出教育數(shù)據(jù)挖掘的發(fā)展研究趨勢。2008—2015年,教育數(shù)據(jù)挖掘論文發(fā)表數(shù)目隨時間變化趨勢如圖2所示。
從圖中可以看出,EDM論文數(shù)目呈現(xiàn)總體上升趨勢。2008—2011年增長趨勢比較平緩,2008年發(fā)表的關(guān)于EDM論文數(shù)量僅有不足200篇;2010和2011分別約為400篇;但從2011年以后,關(guān)于EDM論文數(shù)量遞增的趨勢明顯增大,數(shù)目已達到近1800篇。因此,關(guān)于教育數(shù)據(jù)挖掘的研究呈總體遞增趨勢,且關(guān)注度逐步增長,國內(nèi)外研究持續(xù)上升。
3 教育數(shù)據(jù)挖掘研究與分析結(jié)果
本次研究樣本主要是來源于The 8th International Conference on Educational Data Mining(EDM2015)的論文集。EDM會議是關(guān)于教育數(shù)據(jù)挖掘的一個領先的高質(zhì)量的國際會議,主要關(guān)注教學研究和學生學習過程,相關(guān)研究的數(shù)據(jù)集分別來自ITS、MOOC、教育游戲、學習軟件、教學管理系統(tǒng)等。其中,EDM2015論文集中收錄長論文(Full Papers)42篇、短論文(Short Papers)48篇、海報與展示論文(Poster and Demo Papers)46篇、博士交流(DC Papers)12篇。選擇論文集中質(zhì)量較高的長論文和短論文作為本次的研究對象;另外在Google Scholar上搜索教育數(shù)據(jù)挖掘相關(guān)的論文,并選取2009—2014年間下載次數(shù)超過50的16篇論文作為補充。如此一來,本次研究的論文樣本總數(shù)計106篇。研究過程采用定量分析與定性分析相結(jié)合的方法,從教學環(huán)境、應用類型及數(shù)據(jù)挖掘技術(shù)方法三個方面對這些樣本進行分析研究。
EDM應用的教學環(huán)境 教學環(huán)境是教師進行教學活動或者學生進行學習必不可少的軟硬件及基礎設施的組合,可以是物理上的教室,也可以是虛擬的互聯(lián)網(wǎng)系統(tǒng)或?qū)W習軟件等。教學環(huán)境是教、學活動實際進行的場所,其中產(chǎn)生的數(shù)據(jù)可以作為EDM研究數(shù)據(jù)的來源,同時也是實施調(diào)整、改進教師教學或者學生學習的實驗場地。將教學環(huán)境主要分為相對較少采用現(xiàn)代信息科技系統(tǒng)的傳統(tǒng)教學環(huán)境、以開放式的互聯(lián)網(wǎng)信息系統(tǒng)為主的網(wǎng)絡教學環(huán)境和大數(shù)據(jù)時代背景下涌現(xiàn)出的新型教學場所或載體的大數(shù)據(jù)教學環(huán)境。
通過對論文樣本的教學環(huán)境進行分析和歸類,在本文選取的106篇樣本中,傳統(tǒng)教學環(huán)境的有15篇,占論文總數(shù)的14.1%;網(wǎng)絡教學環(huán)境的有32篇,占比40.6%;大數(shù)據(jù)教學環(huán)境的有29篇,占比25.5%;此外還有一些論文沒有指出具體某種教學環(huán)境類型,稱為其他,有14篇,占比19.8%,見表1所示。各種主要教學環(huán)境在樣本中的分布情況見圖3。
由表1和圖3可見,來自網(wǎng)絡教學環(huán)境下的論文數(shù)量最多,占比40.6%;來自大數(shù)據(jù)環(huán)境下的論文數(shù)量次之,比例達到總數(shù)的25.5%,且多于傳統(tǒng)教學環(huán)境下的14.1%。這是因為相比于傳統(tǒng)環(huán)境,數(shù)字化的網(wǎng)絡環(huán)境與大數(shù)據(jù)環(huán)境下,教、學過程中的數(shù)據(jù)采集、存儲及處理更方便、快捷。另外,雖然目前大數(shù)據(jù)環(huán)境下的教育數(shù)據(jù)挖掘研究還不算最多,但由于它可以在短時間對上萬名學生的數(shù)據(jù)完成建模、預測等,其受到的關(guān)注度會越來越高。
傳統(tǒng)教學環(huán)境下EDM的研究通常采用統(tǒng)計學方法對搜集的數(shù)據(jù)進行分析比對,以便于幫助教師根據(jù)學生的知識掌握情況相應地變動教學方案。傳統(tǒng)教學環(huán)境下研究的數(shù)據(jù)來源有學生考試成績、作業(yè)習題和課堂情況記錄等。此類數(shù)據(jù)獲取通常比較煩瑣,需要逐個統(tǒng)計并錄入,數(shù)據(jù)量也相對較小。傳統(tǒng)教學環(huán)境下EDM的研究結(jié)果有通過學生的課堂表現(xiàn)來預測學生學習情況,以便于了解學生的知識掌握程度[1],根據(jù)學生上課回答問題情況對問題進行自動分類,有助于教師優(yōu)化教學計劃[2],對學生的CET成績進行可視化分析和評價[3]。雖然各種新型的教學環(huán)境不斷涌現(xiàn)出來,面對面教學的傳統(tǒng)教學環(huán)境依然占當今校園教學的主流,因此,這些研究結(jié)果有利于改進課堂教學。
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡技術(shù)也越來越多地運用到教學領域中形成網(wǎng)絡教學環(huán)境,數(shù)字化的網(wǎng)絡教學環(huán)境下產(chǎn)生的數(shù)據(jù)種類豐富、數(shù)量眾多,獲取容易。網(wǎng)絡環(huán)境下用于EDM的數(shù)據(jù)來源可以是服務器,也可以是客戶端的用戶活動記錄,這些數(shù)據(jù)包括學生的登錄次數(shù)、學習記錄和作業(yè)成績等。在網(wǎng)絡教學環(huán)境中最典型的應用就是智能導學系統(tǒng)(ITS),目前流行的ITS有MOODLE和ASSISTMent,以及其他一些小范圍的智能導學系統(tǒng)。在教學應用中,可以基于ITS對個人學習曲線進行混合建模,比較幾種模型優(yōu)勢并構(gòu)建最適合的模型來描述學生學習,對學習情況進行估計[4]。將智能導學推薦系統(tǒng)用于在線教育系統(tǒng)中,使用分類的方法在網(wǎng)絡教育環(huán)境中檢索最合適的課程,可以幫助學習者找到最適合的課程[5]。網(wǎng)絡教學環(huán)境中的數(shù)據(jù)獲取相較于傳統(tǒng)教學環(huán)境更方便,教學活動可以根據(jù)每個用戶的特點自適應調(diào)整。
大數(shù)據(jù)教學環(huán)境的特點是擁有海量的學習活動數(shù)據(jù),其數(shù)據(jù)來源有MOOC、益智類游戲記錄數(shù)據(jù)、在線問卷訪談等,此類環(huán)境下的數(shù)據(jù)量最大。目前的MOOC平臺有Coursera、edX、Udacity等。與傳統(tǒng)課堂和一般網(wǎng)絡課堂的區(qū)別是,大數(shù)據(jù)環(huán)境下的MOOC課堂通常有數(shù)萬甚至數(shù)十萬名學生,因此,記錄的數(shù)據(jù)量是極大的,需要在大數(shù)據(jù)平臺上處理。如通過將學生進行分類來強調(diào)學生之間的差異,并確定他們在MOOC中成功完成課程的路徑和方法[6]。
此外,除了上述三種環(huán)境下的論文,本次研究中還有一些論文的數(shù)據(jù)集來源于網(wǎng)絡上公開的數(shù)據(jù)集,如KDDCup、
PSLC DataShop等。此類論文通常是將模型進行優(yōu)化,把幾種EDM方法進行分析并對比優(yōu)劣,或者是對EDM方法進行改進等,有助于教師或者管理人員制定學習方法或教學策略等。endprint
以上三種學習環(huán)境中,通??杉僭O傳統(tǒng)教學環(huán)境下學生學習動機相同、知識水平類似,而且此環(huán)境下學生數(shù)量及可獲取的數(shù)據(jù)相對較少,因此,用到的數(shù)據(jù)挖掘技術(shù)方法也相對簡單。一般的網(wǎng)絡教育相對于傳統(tǒng)教育的特點是數(shù)據(jù)易于獲取,學生更多;而大數(shù)據(jù)教學環(huán)境相較于一般網(wǎng)絡教育的優(yōu)點是課程更加豐富,自由度更大。目前教學中已開始嘗試將在線教學應用于傳統(tǒng)課堂并對學生學習情況進行預測,比較高中、大學和在線教學環(huán)境的交互學習情況等。
EDM的應用類型 在研究中,根據(jù)EDM結(jié)果的不同用途,將EDM的應用類型分成可視化(Visualization,即VS)、學生建模(Student Modeling,即SM)、學生表現(xiàn)預測(Pre-
dicting Student Performance,即PSP)、推薦系統(tǒng)(Reco-
mmender System,即RS)、自適應系統(tǒng)(Adaptive System,
即AS)五類。VS是指將信息或數(shù)據(jù)用圖的形式形象化地展示出來;SM是指通過對學生的行為、動機和學習習慣等建立模型,揭示學生的學習特征;PSP是指通過已經(jīng)掌握的數(shù)據(jù)去預測未知的結(jié)果;RS是指根據(jù)學生的特點向其推薦書籍、課程或者學習方法等;AS是指根據(jù)學生建模的結(jié)果做自適應變化的學習系統(tǒng)。
通過對論文樣本進行分析,可知用于可視化(VS)的有19篇,占論文總數(shù)的17.9%;研究學生建模(SM)的有32篇,占論文總數(shù)的30.2%;進行學生表現(xiàn)預測(PSP)的有29篇,占27.4%;用于推薦系統(tǒng)(RS)的有14篇,占30.2%;用于自適應系統(tǒng)(AS)研究的有12篇,占11.3%,如表2所示。各種用途分類結(jié)果在樣本中的分布情況見圖4。
選中的樣本中,用于學生建模(SM)研究的論文數(shù)量最多。EDM中學生建模采用貝葉斯網(wǎng)、序列模式挖掘、關(guān)聯(lián)規(guī)則和邏輯回歸等方法,對學生特點和學習行為進行自動建模。對學生建模,可以幫助教師及研究人員等更好地了解學生的學習特征,關(guān)注學習過程和教學研究。例如:利用最受歡迎的BKT推理模型推斷學生的知識和能力,了解學生的學習情況[7];將多功能分層序列模式挖掘和水平分層均用于學習行為特征中,并進行對比,找出更適合的方式[8]。此外,學生建模還可以對集中模型進行優(yōu)化、改進,從而得到最適合的模型,如針對Duolingo這一系統(tǒng)進行模型優(yōu)化[4]。
進行學生表現(xiàn)預測(PSP)研究的論文數(shù)量僅次于SM。在EDM中,PSP的例子有預測學生的學習成績、預測學生是否能完成某項任務以及學生未來表現(xiàn)等。PSP是目前非常流行的應用,用到的最主要的方法有分類、回歸、決策樹等。例如:利用分類器對學生成績進行預測;用邏輯回歸和貝葉斯知識追蹤的方法,根據(jù)某中學的學生在ASSISTMent系統(tǒng)交互的數(shù)據(jù),預測這個學校學生的大學入學率;根據(jù)學生參與論壇在線討論的情況,用分類和聚類的方法來預測學生最終的成績。
可視化(VS)研究可以幫助人們更加直觀地理解教育數(shù)據(jù),如在線評估過程中產(chǎn)生的數(shù)據(jù)、考試成績、用戶論壇數(shù)據(jù)等??梢暬€可以幫助人們形象地對比不同的EDM技術(shù)與方法的差距,如在傳統(tǒng)教育環(huán)境中,將可視化數(shù)據(jù)挖掘用于高等教育評價體系[3]。
推薦系統(tǒng)(RS)研究可以根據(jù)人們以往的購書內(nèi)容以及瀏覽內(nèi)容向其推薦合適的書籍,或者根據(jù)學生的學歷、專業(yè)等向其推薦合適的課程等。例如:用分類的方法在網(wǎng)絡教育環(huán)境中檢索最合適的課程[5];用目前最先進的主題細分模型對課程進行選擇[9]。
自適應系統(tǒng)(AS)的研究是根據(jù)學生建模的結(jié)果自適應地調(diào)整學習內(nèi)容,即學習系統(tǒng)可以根據(jù)學生每段時間的學習狀況,相應地去調(diào)整該學生下一階段的學習計劃。如用支持向量機和邏輯回歸對資源進行優(yōu)化以適應學生進行學習[10]。在自適應輔導系統(tǒng)中,首先要準確評估一個學生的能力,并對學生的表現(xiàn)進行預測,然后基于類型進行自適應。
由于本次研究的樣本主要來自EDM2015,而EDM2015會議主題是關(guān)注教育研究問題和隱藏學習過程的,因此,研究用途為學生建模(SM)和學生表現(xiàn)預測(PSP)的較多,自適應系統(tǒng)(AS)和推薦系統(tǒng)(RS)相對較少。但在教學中,自適應系統(tǒng)(AS)和推薦系統(tǒng)(RS)同樣非常重要,尤其是在網(wǎng)絡教育環(huán)境及大數(shù)據(jù)教學環(huán)境中,自適應系統(tǒng)(AS)和推薦系統(tǒng)(RS)能夠給學生的學習及教師的教學提供極大的方便。
EDM的技術(shù)方法 從本次調(diào)研的論文以及綜合Romero和Venture、Baker和Yacef對EDM的分類了解到,統(tǒng)計分析與可視化、預測、聚類、關(guān)系挖掘是EDM研究中最常用的技術(shù),同時也是最基本、最成熟的技術(shù)。此外,還有一些技術(shù)如文本挖掘、協(xié)同過濾等也會在EDM中用到,但出現(xiàn)的概率都很低,本文將其歸為其他。
通過對樣本論文的分析,發(fā)現(xiàn)部分論文的研究過程中會用到不止一種技術(shù)方法,因此,計算某種技術(shù)方法所占百分比,是按照用到該種方法的論文數(shù)占總論文的比例計算的。本次研究的論文中,以統(tǒng)計分析與可視化方法為主的是21篇,占比19.8%;以預測技術(shù)為主的是48篇,占比45.3%;以聚類技術(shù)為主的是22篇,占比20.8%;以關(guān)系挖掘方法為主的是28篇,占比26.4%;其他方法的有14篇,占論文總數(shù)的13.2%??蓪⒋舜窝芯康恼撐闹械拈L論文、短論文、其他代表性論文等按照EDM的技術(shù)方法進行分類,得到分類數(shù)目見表3。各種主要EDM技術(shù)方法在樣本中的分布情況見圖5。
由表3和圖5可見,預測是EDM研究中最常用的技術(shù),跟隨其后的依次是關(guān)系挖掘、聚類、統(tǒng)計分析與可視化,而文本挖掘、協(xié)同過濾等其他技術(shù)在研究中則用到得較少。在幾種技術(shù)中,聚類包括聚類和離群點分析,預測包括分類、回歸以及決策樹,關(guān)系挖掘包括關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘等。
統(tǒng)計分析與可視化通常不算數(shù)據(jù)挖掘技術(shù),但因可處理數(shù)據(jù)挖掘問題,因此也算教育數(shù)據(jù)挖掘的方法。統(tǒng)計的過程是先形成假設,然后在可視化中將數(shù)據(jù)轉(zhuǎn)化為易于理解的圖像來進行檢驗。統(tǒng)計分析與可視化的應用可以使研究人員更加直觀地對數(shù)據(jù)進行理解和分析,如基于小的ITS樣本對幾種模型進行分析,并用統(tǒng)計分析與可視化的方法對幾種效用進行評估[11]。endprint
預測是根據(jù)已知屬性來預測未知屬性的情況,分類、回歸以及決策樹均可實現(xiàn)預測功能。當未知屬性為類別型時,特指分類,如用分類的方法來實現(xiàn)對學生課程完成情況的預測,并用自然語言處理檢測是否成功預測[12]?;貧w中被估計的目標屬性通常是連續(xù)的,常常會用到最小二乘和梯度下降算法,如使用回歸對自適應系統(tǒng)中的命令的有效性進行預測,以實現(xiàn)將自適應系統(tǒng)用于教學中的功能[13]。決策樹是一種樹型結(jié)構(gòu),可根據(jù)某一屬性對數(shù)據(jù)進行分裂,以達到某一標準的最優(yōu)值。但在運用決策樹的過程中要注意如何分裂以及如何停止分裂兩個過程,如先將學生課堂表現(xiàn)是否活躍進行分類,將學生分為“積極”和“非積極兩類”;之后將“非積極”的學生根據(jù)是否自愿購買課程進行分類[6]。決策樹算法是目前預測算法中運用頻率最高的。
將數(shù)據(jù)按照內(nèi)在相似性劃分成多個類別是聚類算法,其中較普遍的方法是EM算法和K-means算法等。如用聚類的方法,根據(jù)McGraw-Hill網(wǎng)絡教育平臺的學生登錄數(shù)據(jù)來洞察學生的學習經(jīng)驗,其中有用到K-means算法[14];將幾種模型進行對比,選出最適合論文中Duolingo數(shù)據(jù)集的模型并進行優(yōu)化[4]。聚類與分類不同,它是一種在不知道樣本類別及個數(shù)的情況下的無指導的學習過程。根據(jù)學生的學習信息,可以對學生進行個性化分類,如組成協(xié)作學習小組、實現(xiàn)個性化課程管理以及對學生分類推薦課程等。
關(guān)系挖掘是從關(guān)系數(shù)據(jù)庫中的多個表中挖掘有意義的模式,可以挖掘空間上的共現(xiàn)關(guān)系,也可以挖掘時間上的序列關(guān)系,其包括關(guān)聯(lián)規(guī)則挖掘、序列模式挖掘等。關(guān)聯(lián)規(guī)則挖掘是挖掘空間共現(xiàn)關(guān)系,根據(jù)規(guī)則發(fā)現(xiàn)數(shù)據(jù)集中隱藏關(guān)聯(lián)。如通過peer-submitted和peer-reviewed的關(guān)系,分析學生行為和學習成果[15];選取遠程教育的在線學生為樣本進行分析,根據(jù)年齡的不同來比較他們的學習能力差異以及學習態(tài)度,通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn)額外信息,并更好地幫助教師教學和學生學習。序列模式挖掘即是在某一時間相繼產(chǎn)生的關(guān)系[16],教學中可以將序列模式挖掘技術(shù)用于學生學習過程。研究中有論述多功能分層序列模式挖掘,并對現(xiàn)有的序列模式挖掘算法進行擴展等。目前,國內(nèi)外的關(guān)系挖掘研究雖仍面臨一些挑戰(zhàn),但也已經(jīng)獲得大量成果。
文本挖掘即文本數(shù)據(jù)挖掘,數(shù)據(jù)一般是指文本處理過程中產(chǎn)生的高質(zhì)量信息。典型的文本挖掘方法有文本分類、文本聚類、信息抽取、自動分詞等。比如可以將數(shù)據(jù)挖掘技術(shù)用在跟蹤學生整個學期學習情況的文本集上,并要求學生寫課后評論,發(fā)現(xiàn)其中隱含知識,以此來預測學生學習成績等。
4 結(jié)論與未來研究
本次研究的貢獻與意義 本次研究調(diào)研了教育數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程及研究現(xiàn)狀,并采用文獻計量和內(nèi)容分析法,重點對EDM從教育環(huán)境、應用類型和技術(shù)方法三方面進行了研究分析,有助于在實際應用中把各種應用與具體的數(shù)據(jù)挖掘情況相結(jié)合,找出適合的技術(shù)方法。例如:用學生建模(SM)來分析學生的學習效果以及繪制或預測學生的行為模式,幫助教師和學生更加清楚學習情況等;而學生表現(xiàn)預測(PSP)可以對學生的成績、未來表現(xiàn)等進行預測等。針對不同的研究對象而言,對教師的信息進行挖掘,可以幫助教師改進教學方法,制訂教學方案等;對學生的信息挖掘,可以了解學生的行為特征、日常學習情況、知識掌握程度等。
隨著科技的發(fā)展和信息量的劇增,EDM得到巨大發(fā)展,并廣泛應用在教育領域各個層次的教學中。在EDM的三種教學環(huán)境中,網(wǎng)絡教育環(huán)境是占比最多的。起初,應用最廣泛且教育領域的研究者們接觸最多的教學方式,就是傳統(tǒng)的教學方式。而隨著網(wǎng)絡的發(fā)展,依照傳統(tǒng)方法在大量數(shù)據(jù)中尋找決策變得困難,為了更好地幫助教師教學和學生學習,網(wǎng)絡教學應運而生,并被廣泛地應用在教育中,因此,關(guān)于網(wǎng)絡教學環(huán)境下的EDM研究數(shù)量越來越多。
之后,隨著互聯(lián)網(wǎng)的崛起,大數(shù)據(jù)背景下EDM又得到迅速發(fā)展。但相對于傳統(tǒng)教學和網(wǎng)絡教學環(huán)境,大數(shù)據(jù)背景下的教育數(shù)據(jù)挖掘的數(shù)據(jù)量巨大,技術(shù)更加復雜,對信息人員技能和成本要求也更高。因此,大數(shù)據(jù)環(huán)境下的EDM研究更加復雜,但研究的空間也是巨大的。
EDM研究的建議與展望 在教育數(shù)據(jù)挖掘中,數(shù)據(jù)是關(guān)鍵,只有擁有足夠的數(shù)據(jù),才能對學生的行為特征、日常學習情況、知識掌握程度等進行分析,從而將學生的情況表現(xiàn)得更清楚。在傳統(tǒng)教學環(huán)境中,數(shù)據(jù)的獲取比較困難,可以考慮在教學實踐中運用傳統(tǒng)教學與非傳統(tǒng)教學相結(jié)合的教學方式來記錄反映學生學習情況的數(shù)據(jù)。目前,有些學校已經(jīng)實現(xiàn)了此種教學方式,但數(shù)據(jù)記錄情況不夠全面詳細,未來仍需要對此種傳統(tǒng)與非傳統(tǒng)結(jié)合的教學方式進行優(yōu)化。
在教學研究中,數(shù)據(jù)挖掘只是一種技術(shù)方法,其根本目的是了解學生特性,預知學生掌握程度,以便能夠在教學中采取適合的教學方法調(diào)動學生學習的積極性,使學生能夠更好地掌握知識。高斯也曾說過:“對數(shù)據(jù)挖掘、文本挖掘的無知不是沒有相關(guān)知識,而是過于依賴數(shù)據(jù)挖掘和文本挖掘而忽視其他?!币虼?,應把常用的數(shù)據(jù)挖掘技術(shù)應用在教育的各個方面,把每一種應用與具體的挖掘情況相結(jié)合,根據(jù)教育中具體情況,選擇適當?shù)姆椒ㄍ诰驍?shù)據(jù)中的內(nèi)在聯(lián)系,找出教學中出現(xiàn)的問題,提高教學水平。
隨著網(wǎng)絡的發(fā)展,非傳統(tǒng)教學環(huán)境下的數(shù)據(jù)量越來越多,需要引入大數(shù)據(jù)平臺。同時,這些數(shù)據(jù)隱含著學習者的學習方法、學習路徑、學習過程中思想活動等對提高學習效率非常重要的信息,數(shù)據(jù)十分復雜,對算法的復雜度的要求更高,要做的工作也更多,會有更多的研究課題。因此,大數(shù)據(jù)環(huán)境下的EDM將是新的研究趨勢。未來將更關(guān)注大數(shù)據(jù)環(huán)境下EDM算法的設計和改進,以便于更好地服務智慧教育、教育信息化。
參考文獻
[1]Samei B, Olney A M, Kelly S, et al. Modeling Classroom Dis-
course: Do Models that Predict Dialogic Instruction Properties Generalize across Populations?[J].International Educational Data Mining Society,2015.endprint
[2]Blanchard N, DMello S, Olney A M, et al. Automatic Classi-
fication of Question & Answer Discourse Segments from Teachers
Speech in Classrooms[J].International Educational Data Mining
Society,2015.
[3]Jin H, Wu T, Liu Z, et al. Application of visual data mining in
higher-education evaluation system[M]//2009 First International
Workshop on Education Technology and Computer Science.2009.
[4]Streeter M. Mixture Modeling of Individual Learning Curves
[J].International Educational Data Mining Society,2015.
[5]Mihaescu M C, Popescu P S, Ionascu C. Intelligent Tutor Re-commender System for On-Line Educational Environments[J].International Educational Data Mining Society,2015.
[6]Sharma K, Jermann P, Dillenbourg P. Identifying Styles and Paths toward Success in MOOCs[J].International Educational Data Mining Society,2015.
[7]Martori F, Cuadros J, González-Sabaté L. Direct Estimation of the Minimum RSS Value for Training Bayesian Knowledge Tracing Parameters[J].International Educational Data Mining Society,2015.
[8]Ye C, Segedy J R, Kinnebrew J S, et al. Learning Behavior Characterization with Multi-Feature, Hierarchical Activity Se-
quences[J].International Educational Data Mining Society,2015.
[9]Alharbi G, Hain T. Using Topic Segmentation Models for the Automatic Organisation of MOOCs Resources[J].International Educational Data Mining Society,2015.
[10]Alexandron G, Zhou Q, Pritchard D. Discovering the Peda-gogical Resources that Assist Students in Answering Questions Correctly-A Machine Learning Approach[J].International Educa-
tional Data Mining Society,2015
[11]Doroudi S, Holstein K, Aleven V, et al. Towards Understan-ding How to Leverage Sense-Making, Induction and Refinement,
and Fluency to Improve Robust Learning[J].International Edu-cational Data Mining Society,2015.
[12]Crossley S, McNamara D S, Baker R, et al. Language to Completion: Success in an Educational Data Mining Massive Open Online Class[J].International Educational Data Mining Society,2015.
[13]Tang S, Gogel H, McBride E, et al. Desirable Difficulty and Other Predictors of Effective Item Orderings[J].International Educational Data Mining Society,2015.
[14]Agnihotri L, Aghababyan A, Mojarad S, et al. Mining Login
Data for Actionable Student Insight[J].International Educa-tional Data Mining Society,2015.
[15]Bhatnagar S, Lasry N, Desmarais M, et al. An Analysis of
Peer-Submitted and Peer-Reviewed Answer Rationales, in an
Asynchronous Peer Instruction Based Learning Environment[J].
International Educational Data Mining Society,2015.
[16]Bravo J, Romero S J, Luna M, et al. Exploring the influence of ICT in online students through data mining tools[J].Interna-tional Educational Data Mining Society,2015.endprint