湯?,|,胡秋玲
(湖南第一師范學院a 信息科學與工程學院;b 圖書館,湖南 長沙 410205)
教育大數(shù)據(jù)的出現(xiàn)至少要歸因于數(shù)字時代的兩大趨勢。第一,傳統(tǒng)教育機構(gòu)產(chǎn)生了大量標準化教育信息。具體而言,學生信息系統(tǒng)已被廣泛用于存儲和組織學生的個人資料信息(例如人員統(tǒng)計、學術(shù)背景)和學術(shù)記錄(例如課程注冊和最終成績)。這些數(shù)據(jù)往往涉及到幾十年來在某個教育機構(gòu)學習的學生,這些機構(gòu)的學生信息系統(tǒng)使得大規(guī)模管理和分析這些數(shù)據(jù)成為可能。第二,某些在面對面的課堂上很難記錄的學習行為現(xiàn)在可以被學習管理系統(tǒng)捕獲。在大多數(shù)情況下,教師使用學習管理系統(tǒng)分發(fā)教學材料、處理學生作業(yè)以及與學生溝通交流。就某一學生而言,從點擊課程模塊到修改提交的論文,這些帶有時間戳的日志相當于數(shù)千個數(shù)據(jù)點。除了學生信息系統(tǒng)和學習管理系統(tǒng)之外,數(shù)字學習環(huán)境(如各種社交網(wǎng)絡、論壇、基于教育游戲的學習環(huán)境、學習存儲庫、虛擬環(huán)境、無處不在的計算環(huán)境等等)中的創(chuàng)新技術(shù)能夠跟蹤和收集學生的各種數(shù)字足跡,也產(chǎn)生大量異構(gòu)和多模態(tài)的數(shù)據(jù)。
教育大數(shù)據(jù)具有數(shù)量大、更新速度快、多樣化等特點,對分析學習者行為具有很高的價值。教育大數(shù)據(jù)為解決以前代價高昂甚至不可能回答的問題提供了堅實的數(shù)據(jù)基礎。通過跟蹤學生行為的數(shù)字足跡,研究人員能夠更精細地把握學習過程。通過將行為數(shù)據(jù)與心理調(diào)查表結(jié)合,研究人員可以將學生的行動序列映射到認知特征上,并驗證觀察到的行為痕跡是否與理論假設一致,從而有針對性地完善學習理論。豐富的教育大數(shù)據(jù)有助于人們了解具體教育政策的影響,并解決與政策有關(guān)的問題。例如,將學習過程數(shù)據(jù)和管理數(shù)據(jù)關(guān)聯(lián)起來可以揭示各種教育不平等現(xiàn)象的細微差別,并能以更短的反饋周期為采取切實的行動提供依據(jù)。幾十年來,人們一直在尋找與一對一輔導相媲美的有效教學方法,而教育大數(shù)據(jù)及其分析結(jié)果可用于探索學生的學習軌跡,設計自適應和個性化的學習環(huán)境,使個性化教學從理想走向現(xiàn)實。在教育界,越來越多的人希望通過分析教育大數(shù)據(jù)提高學習成績、推薦課程、分析學習模式、預測輟學率、提高教師工作效率、減少管理工作量等等。大數(shù)據(jù)分析正在改變教育行業(yè),并為學習者和教師提供新的機會。
目前,國內(nèi)教育大數(shù)據(jù)的研究論文不少,但是,這些論文往往局限于教育數(shù)據(jù)挖掘和學習分析兩大研究領域中的一個或兩個,全局性的分析文章還不多見。本文致力于填補這一空白,全景展現(xiàn)教育大數(shù)據(jù)的分類層次、平臺技術(shù)、研究主題和面臨的挑戰(zhàn)。首先從微觀層面、中間層面和宏觀層面深入探討教育大數(shù)據(jù)的內(nèi)涵和外延,然后闡明教育大數(shù)據(jù)的各種平臺處理技術(shù),最后重點分析教育大數(shù)據(jù)的主要研究方向和面臨的挑戰(zhàn)。
為了更好地理解教育大數(shù)據(jù)的作用,我們從三個層面對其進行考察,即微觀層面(如點擊流數(shù)據(jù))、中間層面(如文本數(shù)據(jù))和宏觀層面(如機構(gòu)數(shù)據(jù))。在微觀層面,教育大數(shù)據(jù)是細粒度的交互式數(shù)據(jù),活動之間的間隔短至數(shù)秒。大多數(shù)微觀層面的數(shù)據(jù)是學習者與其學習環(huán)境交互時被自動收集的,這些環(huán)境包括智能家教系統(tǒng)、大規(guī)模在線開放課程(MOOC)、模擬仿真和游戲等等。中間層面的大數(shù)據(jù)涵蓋了學生在智能輔導系統(tǒng)、在線論壇、社交媒體等學習環(huán)境中進行寫作活動產(chǎn)生的各種數(shù)據(jù)。這些在自然狀態(tài)下被系統(tǒng)捕獲的原始數(shù)據(jù)能夠反映學習者的認知能力、社交能力和學習情感狀態(tài)等。宏觀層面的教育大數(shù)據(jù)由各教育機構(gòu)產(chǎn)生。具體的例子包括學生人員統(tǒng)計、入學數(shù)據(jù)、校園服務數(shù)據(jù)、課程時間表和課程注冊數(shù)據(jù)、大學專業(yè)要求和學位完成數(shù)據(jù)等。宏觀層面的教學數(shù)據(jù)通常是在很多年的時間跨度內(nèi)收集的,很少更新,通常每個學期只更新一到兩次(例如,課程表信息,成績記錄)。值得注意的是,這些微觀/中間/宏觀層面的分類不應該被視為嚴格不同的層次,因為它們在每個數(shù)據(jù)源中可能有相當多的重疊。例如,智能輔導系統(tǒng)中的擊鍵日志是微觀層面的數(shù)據(jù),這些數(shù)據(jù)又可以表征寫入行為(例如,突發(fā)寫入、編輯過程等),而書面文本的內(nèi)容和語言特征代表了可以用自然語言處理技術(shù)分析的中間層數(shù)據(jù)。類似地,社交媒體交互活動通常涉及微觀層面的時間戳(有時還需要位置信息),以及每個帖子的中間層數(shù)據(jù)。
Hadoop、Spark 和Samza 是目前比較流行的大數(shù)據(jù)分析系統(tǒng)。Hadoop 用于復雜的離線教育大數(shù)據(jù)處理,Spark 經(jīng)常用于離線快速教育大數(shù)據(jù)處理,Samza 主要用于解決流式教育數(shù)據(jù)處理過程中的的高數(shù)據(jù)率和大數(shù)據(jù)量問題。
Hadoop 是一種開源框架,由一組實用程序構(gòu)成[1]。它使用簡單的編程模型跨計算機集群分布式處理大型數(shù)據(jù)集,具有低成本、高效率、高可靠性、高可擴展性和高容錯能力。Hadoop 包括一些核心模塊,底層是hadoop 分布式文件系統(tǒng)HDFS,存儲了Hadoop 集群中所有存儲節(jié)點上的文件。HDFS之 上 是 由 JobTrackers 和 TaskTrackers 構(gòu) 成 的MapReduce 引擎。除此之外還包括數(shù)據(jù)倉庫工具Hive 和非關(guān)系型數(shù)據(jù)庫NoSQL 等模塊。
Apache Spark 是一個統(tǒng)一的分布式內(nèi)存計算引擎[2]。Spark 的設計目標是為編寫大數(shù)據(jù)應用程序提供一個統(tǒng)一的平臺,它的應用范圍限制在計算引擎之內(nèi),從存儲系統(tǒng)加載數(shù)據(jù)并計算,但最終結(jié)果并不永久存儲在Spark 中,Spark 可以和多種存儲系統(tǒng)結(jié)合使用,如Kafka(一個開源的流處理平臺)、Hbase(一種開源的分布式非關(guān)系型數(shù)據(jù)庫)、Hive、HDFS 以及關(guān)系型數(shù)據(jù)庫。Apache Spark的局限性在于沒有文件管理系統(tǒng),需要與其他平臺集成,不支持完整的實時數(shù)據(jù)處理,內(nèi)存消耗非常高,小文件發(fā)行問題,等待時間較長,支持算法偏少,不能自動處理背壓,需要手動優(yōu)化等。
Samza 是一個分布式的流式數(shù)據(jù)處理框架,它基于Hadoop 并使用Kafka 分布式消息系統(tǒng)處理實時數(shù)據(jù)[3]。Samza 的目標是將數(shù)據(jù)流作為接收到的消息進行處理,Samza 的數(shù)據(jù)流初始元素是一個消息,數(shù)據(jù)流是分區(qū)的,每個分區(qū)都有一個特定的ID(標識)或偏移量。Samza 將存儲和處理放在同一臺機器上,不加載額外的內(nèi)存,盡管Samza 主要是依賴于Hadoop 的Yarn 和Kafka,但是它的Execution模塊和Streaming 模塊是可插拔的。
教育大數(shù)據(jù)研究可大致劃分為四個方向:學習者的行為和表現(xiàn)、大數(shù)據(jù)建模和教育數(shù)據(jù)倉庫、教育體系的改進、大數(shù)據(jù)融入課程。
這一研究方向包括如下主題:學習分析、用戶行為和態(tài)度、適應性學習和學習滿意度。
基于不斷增長的教育大數(shù)據(jù),學習分析可以增強對學習行為的理解,為決策者、講師和學習者提供有用的建議,幫助教育從業(yè)者提高教學效率[4]。在學習分析領域中,許多研究已經(jīng)開展并取得了相關(guān)的成果[5]。值得注意的例子包括對學習者失敗風險的識別[6]和來自社區(qū)間互動的數(shù)據(jù)流分析[7]。
學習管理系統(tǒng)(LMS)在高等教育教學模式中發(fā)揮著基礎性作用。通過學習管理系統(tǒng)分析學生的行為和態(tài)度并改善學習過程的新研究方向已經(jīng)出現(xiàn)。例如,Cantabella 介紹了一個在穆爾西亞天主教大學進行的案例[8],該案例考慮了LMS 的訪問量、學生使用的工具及其相關(guān)事件并根據(jù)學生的學習方式(即校內(nèi)、網(wǎng)上和混合)分析了他們過去四年的行為。
自適應學習系統(tǒng)通過持續(xù)的互動為學習者提供建議。豐富而個性化的學習資源、及時的反饋系統(tǒng)、快速的溝通系統(tǒng)、自適應的實時評估更符合個人需求。個性化自適應學習已經(jīng)成為教育大數(shù)據(jù)研究的新范式。例如,有研究考慮到MOOC 用戶多、資源豐富,但缺乏自適應學習的特點,建立了以學習者認知需求為中心的自適應學習MOOC 教育大數(shù)據(jù)系統(tǒng)模型[9]。
在線學習平臺產(chǎn)生的教育大數(shù)據(jù)提供了與滿意度相關(guān)的各種信息如學習內(nèi)容、服務、互動、努力程度等,它是一種適合實時處理的大數(shù)據(jù)集范式。教育大數(shù)據(jù)為在線課程提供了實施非侵入性和過程性評估策略的機會,對傳統(tǒng)且耗時的收集反饋方式(如問卷調(diào)查)是一種有力的補充。例如,Elia G 設計了一種新方法,分析學生在線學習產(chǎn)生的數(shù)據(jù),評估學生對課程的滿意程度[10]。
隨著學習人數(shù)的日益增加,在線學習門戶網(wǎng)站或在線教育系統(tǒng)跟蹤和記錄的數(shù)據(jù)量越來越龐大,標準分析程序已經(jīng)無法滿足處理要求。需要建立和使用大數(shù)據(jù)模型加快分析進程。另一方面,許多NoSQL(非關(guān)系型數(shù)據(jù)庫)平臺,如Hadoop、Cassandra、MongoDB 等已經(jīng)出現(xiàn),且支持MapReduce范式,這為并行地計算和分析教育大數(shù)據(jù),進而抽取相關(guān)模式提供了基礎。許多研究人員根據(jù)不同的教學應用場景,提出了各種教育大數(shù)據(jù)分析模型。例如ahin M 基于多種機器學習方法開發(fā)的各種模型如決策樹[11]、邏輯回歸、支持向量機、集成學習和k-最近鄰方法等,提出了一種自適應神經(jīng)模糊推理系統(tǒng)(ANFIS)。ANFIS 結(jié)合了神經(jīng)網(wǎng)絡技術(shù)和模糊推理方法,能夠高精度地預測MOOC學生的輟學率。
教育機構(gòu)的管理人員需要及時的分析報告,以評估和跟蹤學生的成績、入學人數(shù)的增減、學術(shù)資格、實驗室和建筑維護記錄、學生訪問記錄和全體學生就業(yè)記錄等。目前,大多數(shù)研究報告都需要花時間從分散在不同來源的數(shù)據(jù)庫中收集數(shù)據(jù),在約定的期限內(nèi),分析師們往往只能提供有限卻昂貴的信息。因此,建立提供許多接口,能夠兼容和管理各種數(shù)據(jù)類型的數(shù)據(jù)倉庫成為教育大數(shù)據(jù)研究的核心挑戰(zhàn)。Neamah 提出了一組構(gòu)建教育數(shù)據(jù)倉庫的步驟[12],第一階段進行數(shù)據(jù)預處理、數(shù)據(jù)收集、數(shù)據(jù)輸入和數(shù)據(jù)驗證,第二階段對高校不同資源庫中的信息和數(shù)據(jù)進行加載、提取和轉(zhuǎn)換,第三階段存儲所有信息和數(shù)據(jù),創(chuàng)建數(shù)據(jù)倉庫。
改進教育體系的研究涵蓋了統(tǒng)計工具和分析軟件的選擇、教育排名系統(tǒng)、互聯(lián)網(wǎng)的使用等主題。
當今社會,大數(shù)據(jù)軟件專家的數(shù)量遠遠小于實際需求。解決這一問題的潛在方法是選擇和使用專業(yè)的數(shù)據(jù)分析軟件和統(tǒng)計工具。Ozgur C 比較了Excel 插件、SPSS、SAS 和R 四種數(shù)據(jù)分析軟件[13]。作者概述了每種軟件的授權(quán)費、培訓時間和費用、統(tǒng)計方法和應用領域等,為大學師生提供有價值的參考。
目前有許多排名系統(tǒng)為高等教育提供地區(qū)性、全國性或國際性的評估服務,然而,由于它們通常采用主觀性評價指標和權(quán)重因素,產(chǎn)生的排名結(jié)果在客觀性和公正性方面?zhèn)涫苜|(zhì)疑。教育大數(shù)據(jù)的涌現(xiàn),為教育排名系統(tǒng)研發(fā)提供了全新的視野。例如,Qiu 等人在大數(shù)據(jù)技術(shù)的支持下,開發(fā)了一個實時、可擴展和模型驅(qū)動的高等教育排名系統(tǒng)[14]。
如何評估互聯(lián)網(wǎng)對教育的影響一直是研究者感興趣的主題。目前,兩種大數(shù)據(jù)分析工具即谷歌趨勢(Google Trends)和網(wǎng)絡分析工具(Web analytics tools),為了解學習者使用互聯(lián)網(wǎng)的情況提供了巨大的潛力?;谶@兩個創(chuàng)新工具,監(jiān)測大規(guī)模教育互聯(lián)網(wǎng)的使用數(shù)據(jù),研究人員能夠了解在教育教學中,互聯(lián)網(wǎng)的使用是否緩解或加劇了現(xiàn)有的教育不公平、提高或降低了學習效率等問題。
越來越多的研究認為,在教學中,要對大數(shù)據(jù)的概念和技能進行實質(zhì)性的覆蓋,需要更多地、逐步地對學生進行干預,并將大數(shù)據(jù)主題整合到多個核心課程中。許多研究針對將大數(shù)據(jù)融入課程這一主題展開了有益的探索。例如,Buffum 等人開發(fā)了一個面向中學的大數(shù)據(jù)課程模塊[15],該模塊與美國課程標準結(jié)合緊密。他們的研究表明,在中學引入大數(shù)據(jù)教學,能夠豐富包括科學、數(shù)學和語言藝術(shù)在內(nèi)的核心學科。Nelson 等人針對電氣和計算機工程專業(yè)的研究助理開發(fā)了一個大數(shù)據(jù)教育課程項目[16]。美國會計協(xié)會(AAA)和國際大學商學院促進協(xié)會(AACSB)一直強調(diào)將大數(shù)據(jù)及其處理技術(shù)整合到會計課程中的重要性。為了響應這些呼吁,并確定一個共同的教學資源主體,Sledgianowski等人設計了一個會計教育框架,幫助教育工作者將與大數(shù)據(jù)和商業(yè)分析相關(guān)的信息系統(tǒng)和技術(shù)能力整合到會計課程中[17]。
1.教育大數(shù)據(jù)采集和元數(shù)據(jù)(描述數(shù)據(jù)的數(shù)據(jù))自動生成
數(shù)據(jù)采集的目標是在數(shù)據(jù)存儲到數(shù)據(jù)倉庫或其他存儲設備之前對數(shù)據(jù)進行收集、過濾和清理。然而,定義數(shù)據(jù)過濾器是主要的挑戰(zhàn)之一。而另一個挑戰(zhàn)是如何自動生成元數(shù)據(jù)。元數(shù)據(jù)描述了需要記錄哪些數(shù)據(jù),以及如何記錄和測量數(shù)據(jù)。需要新的方法和思路記錄數(shù)據(jù)的上下文環(huán)境和語義。
2.教育大數(shù)據(jù)質(zhì)量
數(shù)據(jù)的價值取決于數(shù)據(jù)的質(zhì)量。通常情況下,數(shù)據(jù)包含誤差、錯誤和不完整性。但是,目前低質(zhì)量數(shù)據(jù)已經(jīng)成為一個嚴重的問題。在許多數(shù)據(jù)倉庫項目中,數(shù)據(jù)清理消耗大約30%至80%的開發(fā)時間和預算。提高教育數(shù)據(jù)質(zhì)量是大數(shù)據(jù)分析專家面臨的重要挑戰(zhàn)。
3.教育大數(shù)據(jù)的共享和轉(zhuǎn)移
盡管數(shù)據(jù)在急劇增長,但大多數(shù)數(shù)據(jù)仍然無法訪問或無法全部訪問。由于大數(shù)據(jù)的異質(zhì)性和規(guī)模性,大數(shù)據(jù)的共享成為一項具有挑戰(zhàn)性的任務。此外,將大規(guī)模的教育數(shù)據(jù)從一個位置無縫地轉(zhuǎn)移到另一個位置也是一個潛在的挑戰(zhàn)。
4.教育大數(shù)據(jù)的查詢和索引
在教育大數(shù)據(jù)的查詢和索引中,存在一些挑戰(zhàn)。首先,大數(shù)據(jù)存儲在分布式系統(tǒng)中,因此大數(shù)據(jù)集的索引結(jié)構(gòu)和查詢理論應該基于這樣的系統(tǒng)來發(fā)展。其次,樹狀結(jié)構(gòu)在傳統(tǒng)的查詢優(yōu)化和索引技術(shù)中非常流行,但在大數(shù)據(jù)集上卻不能很好地工作。第三,容錯是大數(shù)據(jù)查詢和索引中需要注意的一個重要方面。此外,在大數(shù)據(jù)分析中保持合理的查詢性能和吞吐量是一個重大的研究挑戰(zhàn)。
5.教育大數(shù)據(jù)的不確定性
當從多個異構(gòu)來源收集教育數(shù)據(jù)時,數(shù)據(jù)的不確定性也伴隨而來。通常,不斷擴大的數(shù)據(jù)規(guī)模導致數(shù)據(jù)的不確定性發(fā)生突變,傳統(tǒng)數(shù)據(jù)梳理工具失去作用。教育大數(shù)據(jù)的這種不確定性嚴重影響了深度學習算法的性能。近年來,不斷有研究人員提出各種方法,試圖解決數(shù)據(jù)的不確定性給教育大數(shù)據(jù)學習帶來的問題,然而,為了確保從大數(shù)據(jù)分析中得出可靠的結(jié)論,仍然需要更合適的方法來理解數(shù)據(jù)的不確定性。
6.教育大數(shù)據(jù)的隱私、安全與倫理
數(shù)據(jù)隱私、安全和倫理是大數(shù)據(jù)創(chuàng)新生態(tài)系統(tǒng)的三大關(guān)注點。數(shù)據(jù)隱私涉及到如何查看和管理教育信息,數(shù)據(jù)安全涉及到個人重要信息的保護,數(shù)據(jù)倫理與數(shù)據(jù)分析的濫用有關(guān),其中,隱私是最大的擔憂。在相互聯(lián)系和開放的當今世界,包括個人信息在內(nèi)的信息共享越來越多,而大數(shù)據(jù)的陰暗面就是允許對這些信息進行監(jiān)視。另外,即使有強大的網(wǎng)絡安全,仍然可能存在隱私侵犯,因此,研究和開發(fā)新的工具和技術(shù)保護高度分布在網(wǎng)絡中的大規(guī)模數(shù)據(jù)至關(guān)重要。
7.教育數(shù)據(jù)的可視化
可視化的教育大數(shù)據(jù)能夠生成易于使用的、動態(tài)的、交互式的分析視圖。然而,靜態(tài)或動態(tài)教育大數(shù)據(jù)的可視化是主要的研究挑戰(zhàn)之一。這種挑戰(zhàn)來自數(shù)據(jù)感知、數(shù)據(jù)的實時性以及交互的可擴展性。降低延遲和減少數(shù)據(jù)是解決這一問題的思路之一,同時,隨著自動化技術(shù)的不斷發(fā)展,數(shù)據(jù)的分析解釋工作在人類的適度參與下,下一代可視化技術(shù)預計會隨著時間的推移而快速發(fā)展。
本文從數(shù)據(jù)分層、技術(shù)平臺、研究方向和研究挑戰(zhàn)等方面對教育大數(shù)據(jù)的研究工作進行了全面分析。各種各樣的數(shù)據(jù)源(如學習管理系統(tǒng)、開放教育資源、大規(guī)模在線課程、社交媒體和關(guān)聯(lián)數(shù)據(jù)等)產(chǎn)生了類型各異的教育數(shù)據(jù)。為了理解這些異構(gòu)的教育大數(shù)據(jù),本文首先從微觀/中間/宏觀三個層次探討了教育大數(shù)據(jù)的產(chǎn)生和應用場景,然后研究了教育大數(shù)據(jù)的分析和處理平臺。為了給研究人員提供積極的參考,本文著重分析了教育大數(shù)據(jù)研究的四個方向及其涵蓋的主題,同時梳理了教育大數(shù)據(jù)研究面臨的各種挑戰(zhàn)。