李強(qiáng) 趙晨杰 羅先錄
摘 要:目前基于信息化、體驗(yàn)式的教學(xué)線上和線下課堂,可通過移動端、網(wǎng)頁端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù)。如何采集這些線上線下產(chǎn)生的各種學(xué)情數(shù)據(jù),利用采集數(shù)據(jù)的特點(diǎn)結(jié)合主流的大數(shù)據(jù)應(yīng)用技術(shù)進(jìn)行處理、分析和挖掘,并對受教育者或教育機(jī)構(gòu)提供有用的決策信息成為很多研究機(jī)構(gòu)的研究主題。本文基于目前學(xué)情分析系統(tǒng)的發(fā)展,引入大數(shù)據(jù)技術(shù),設(shè)計(jì)了以Hadoop為核心的學(xué)情分析系統(tǒng),提出了基于學(xué)情分析系統(tǒng)的數(shù)據(jù)挖掘并行算法分析平臺設(shè)計(jì),實(shí)現(xiàn)了一種基于數(shù)據(jù)的智慧校園平臺。
關(guān)鍵詞:學(xué)情數(shù)據(jù);大數(shù)據(jù)技術(shù);數(shù)據(jù)挖掘;平臺設(shè)計(jì)
中圖分類號:TP301 文獻(xiàn)標(biāo)識碼:A
1 引言(Introduction)
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)無時(shí)無刻不在產(chǎn)生,特別是教育大數(shù)據(jù),已經(jīng)成為推動教育行業(yè)的提升和變革的強(qiáng)大力量。基于信息化、體驗(yàn)式的教學(xué)線上和線下課堂,可通過移動端、網(wǎng)頁端、嵌入式設(shè)備端等捕獲大量的學(xué)情行為數(shù)據(jù),這些數(shù)據(jù)符合大數(shù)據(jù)4V特性:海量(Volume)、多樣性(Variety)、時(shí)效性(Velocity)和有效性(Veracity),給傳統(tǒng)的教育數(shù)據(jù)存儲、分析和處理都帶來了極大的挑戰(zhàn)。在與其他行業(yè)相比,教育界對大數(shù)據(jù)的廣泛接納比其他成熟行業(yè)稍晚。但如今大數(shù)據(jù)已經(jīng)慢慢走進(jìn)教育的各個(gè)角落。產(chǎn)生了更多的教育機(jī)構(gòu)和企業(yè)開始對教育大數(shù)據(jù)深入研究并構(gòu)建可交互的大數(shù)據(jù)平臺。教育的大數(shù)據(jù)不僅影響學(xué)校內(nèi)部治理的改革,而且會驅(qū)動整個(gè)教育領(lǐng)域的變革,利用大數(shù)據(jù)平臺構(gòu)建每一位受教育者的用戶畫像,針對每一位受教育者給出合理的建議,從而使得教育和關(guān)愛每一個(gè)孩子成為可能。
“大數(shù)據(jù)”這一概念已經(jīng)在各行業(yè)的應(yīng)用獲得了極大的成功,也應(yīng)運(yùn)而生了“數(shù)據(jù)科學(xué)”這一嶄新科學(xué)領(lǐng)域,通過大數(shù)據(jù)理論基礎(chǔ)和框架技術(shù)可解決教育和大數(shù)據(jù)融合中所產(chǎn)生的問題。本文提出了教育大數(shù)據(jù)背景下運(yùn)用大數(shù)據(jù)技術(shù)處理和分析教育行業(yè)數(shù)據(jù)的技術(shù)架構(gòu),并基于Hadoop技術(shù)生態(tài)圈設(shè)計(jì)了學(xué)情分析系統(tǒng)的技術(shù)架構(gòu)及數(shù)據(jù)挖掘平臺,將其應(yīng)用于學(xué)院教學(xué)質(zhì)量監(jiān)控。
2 學(xué)情分析概述(Overview of academic behavior
analysis)
學(xué)情分析指的是學(xué)生在學(xué)習(xí)方面有何特點(diǎn)、學(xué)習(xí)方法怎樣、習(xí)慣怎樣、興趣如何,成績?nèi)绾蔚?。其設(shè)計(jì)理念包括教學(xué)方法、學(xué)法指導(dǎo)和教學(xué)設(shè)想,根據(jù)獲取的數(shù)據(jù)研究者可以從高校創(chuàng)新創(chuàng)業(yè)教育改革、創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)、基于產(chǎn)業(yè)發(fā)展需求的專業(yè)結(jié)構(gòu)調(diào)整研究、學(xué)生學(xué)習(xí)行為分析、教師教授行為分析,以及個(gè)性化推薦等角度展開研究[1]。對教育大數(shù)據(jù)進(jìn)行分析,需要從大量數(shù)據(jù)中進(jìn)行提取與挖掘,在這個(gè)過程中包括數(shù)據(jù)的清洗、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等。這些分析環(huán)節(jié)的每個(gè)構(gòu)成都應(yīng)成為數(shù)據(jù)分析研究的重要內(nèi)容,從而最大限度地保持與還原客觀事實(shí)[2]。
在如今的學(xué)校教育中,數(shù)據(jù)已成為教學(xué)改進(jìn)最為顯著的指標(biāo),而更多科學(xué)決策也是基于數(shù)據(jù)而產(chǎn)生的。在學(xué)校的數(shù)據(jù)種類不僅僅指考試成績,也包括入學(xué)率、出勤率、輟學(xué)率、升學(xué)率等。對于具體的課堂教學(xué)來說,數(shù)據(jù)應(yīng)該是能說明教學(xué)效果的,比如學(xué)生考試成績、作業(yè)正確率、上課出勤率、積極參與課堂科學(xué)的舉手次數(shù),回答問題次數(shù)、時(shí)長與正確率,師生互動的頻率與時(shí)長等。
根據(jù)以上綜合分析,基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺研究和建設(shè)是有著重大的意義,廣東東軟學(xué)院作為全國應(yīng)用型大學(xué)的典范,我們更加注重課程實(shí)踐性和學(xué)生動手能力,根據(jù)大數(shù)據(jù)分析和挖掘技術(shù)可以更加合理調(diào)整學(xué)院的學(xué)科專業(yè)、教師教授方式和學(xué)生學(xué)習(xí)方式等。同時(shí),該平臺的建立會完善廣東東軟學(xué)院的大數(shù)據(jù)應(yīng)用實(shí)踐教學(xué)體系。因此,建立和完善學(xué)情分析平臺可促進(jìn)和深化學(xué)院學(xué)生的學(xué)習(xí)、教師教學(xué)實(shí)踐,以及幫助相關(guān)部門提供更加合理的計(jì)劃和建議。
3 研究現(xiàn)狀(Current research situation)
國外對學(xué)習(xí)和學(xué)情分析的研究起步較早,從2011年起已經(jīng)積累了很多的理論基礎(chǔ),近年來已經(jīng)由純粹的理論概念階段發(fā)展到具體的實(shí)際應(yīng)用階段,涌現(xiàn)出很多已經(jīng)處于實(shí)用階段的學(xué)習(xí)和學(xué)情分析系統(tǒng)。與國外相比,國內(nèi)到目前為止主要還是停留在理論探索和分析階段,或者是在理論和概念上的拓展,對于具體的學(xué)習(xí)分析工具和系統(tǒng)的實(shí)際應(yīng)用的研究和開發(fā)較少[1-3]?;诖髷?shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺是廣東東軟學(xué)院在學(xué)習(xí)和學(xué)情分析領(lǐng)域的實(shí)際應(yīng)用,利用通用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)對教育數(shù)據(jù)進(jìn)行多維分析。
通過大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)結(jié)合能夠更好為各階段學(xué)生提供更有價(jià)值的信息,如“希維塔斯學(xué)習(xí)”就是一家專門聚焦于運(yùn)用預(yù)測性分析、機(jī)器學(xué)習(xí)從而提高學(xué)生成績的公司[1]。加拿大的一家教育科技公司“渴望學(xué)習(xí)”(Desire 2 Learn)已經(jīng)面向高等教育領(lǐng)域的學(xué)生,推出了基于他們自己過去的學(xué)習(xí)成績數(shù)據(jù)預(yù)測并改善其未來學(xué)習(xí)成績的大數(shù)據(jù)服務(wù)項(xiàng)目[2]?!翱释麑W(xué)習(xí)”的產(chǎn)品通過監(jiān)控學(xué)生閱讀電子化的課程材料、提交電子版的作業(yè)、通過在線與同學(xué)交流、完成考試與測驗(yàn),就能讓其計(jì)算程序持續(xù)、系統(tǒng)地分析每個(gè)學(xué)生的教育數(shù)據(jù)。老師得到的不再是過去那種只展示學(xué)生 分?jǐn)?shù)與作業(yè)的結(jié)果,而是像閱讀材料的時(shí)間長短等這樣更為詳細(xì)的重要信息,如此老師就能及時(shí)診斷問題的所在,提出改進(jìn)的建議,并預(yù)測學(xué)生的期末考試成績。紐頓的創(chuàng)辦人、首席執(zhí)行官何塞·費(fèi)雷拉和培生高等教育分公司的總裁格雷格·托賓合作研發(fā)將大學(xué)數(shù)學(xué)、大學(xué)統(tǒng)計(jì)學(xué)、大學(xué)一年級作文、經(jīng)濟(jì)學(xué)和科學(xué)等領(lǐng)域納入教育產(chǎn)品中[3]。
在學(xué)習(xí)和學(xué)情分析系統(tǒng)建設(shè)方面,其研究成果主要涉及多個(gè)不同的教育系統(tǒng)。
基于Web的學(xué)習(xí)系統(tǒng):Pardos等學(xué)者在基于Web的數(shù)學(xué)教學(xué)平臺AssisTments上,花了兩年時(shí)間,跟蹤分析1393名8年級學(xué)生在該平臺上的數(shù)學(xué)學(xué)習(xí)行為數(shù)據(jù),研究學(xué)習(xí)中體現(xiàn)的情感如厭倦、專注、困惑、挫折等與最終的學(xué)習(xí)結(jié)果之間的關(guān)系[4]。Kizilcec等學(xué)者針對Mooc教學(xué)中低完成率的問題,提出根據(jù)學(xué)生與Mooc學(xué)習(xí)課程的交互,對不同的學(xué)習(xí)者進(jìn)行分類,該研究對Mooc未來的教學(xué)指導(dǎo)設(shè)計(jì)有一定意義[5]。
基于學(xué)習(xí)管理系統(tǒng)(LMS),許多學(xué)習(xí)分析研究是基于LMS記錄的教育數(shù)據(jù)。Lonn等針對密歇根大學(xué)一二年級工程系學(xué)生,開發(fā)了M-STEM Academy作為早期學(xué)業(yè)預(yù)警系統(tǒng),研究了如何挖掘LMS數(shù)據(jù),以及將這些數(shù)據(jù)轉(zhuǎn)化成警示數(shù)據(jù)每周提供給導(dǎo)師,以方便導(dǎo)師對學(xué)生進(jìn)行有針對性的支持[6]。Garcia-Solorzano等指出LMS環(huán)境和面對面教學(xué)環(huán)境不同,教師在線監(jiān)控學(xué)習(xí)較困難,許多LMS提供的學(xué)生跟蹤數(shù)據(jù)難以理解。針對這個(gè)問題,他們設(shè)計(jì)了一個(gè)基于瀏覽的圖像化教學(xué)監(jiān)控工具,幫助教師洞察學(xué)生表現(xiàn),并及時(shí)發(fā)現(xiàn)潛在問題[7]。
基于Web 2.0或社會學(xué)習(xí)系統(tǒng):Gunnarsson和Alterman分析了班上107名學(xué)生的博客,使用學(xué)生之間互動的相關(guān)博客數(shù)據(jù),特別是某學(xué)生對其他學(xué)生博客內(nèi)容的推介,建立了一個(gè)模型來識別有價(jià)值的內(nèi)容和對教師的意義[7]。Southavilay等學(xué)者研究了大學(xué)生使用云計(jì)算工具Google Docs進(jìn)行合作寫作的案例,提出三種可視化方法分析寫作進(jìn)程,包括校訂版本演化、主題演化圖、主題合作網(wǎng)絡(luò)來探索學(xué)生的思維、能力表現(xiàn),目的是讓團(tuán)隊(duì)中的每一個(gè)學(xué)生的寫作更有成效[7]。在社會學(xué)習(xí)分析方面,英國學(xué)者Ferguson和Buckingham做了全面的分析,提出了五種方法研究正式和非正式的教育環(huán)境數(shù)據(jù)源,注重從社會維度如情感、性格、學(xué)習(xí)網(wǎng)絡(luò)所反映出的學(xué)習(xí)者的學(xué)習(xí)狀態(tài)。
基于實(shí)時(shí)學(xué)習(xí)系統(tǒng):傳統(tǒng)教學(xué)環(huán)境中,教師通過分析學(xué)生表現(xiàn)如出勤率、考試、教室內(nèi)的行為等傳統(tǒng)數(shù)據(jù)來幫助學(xué)生?,F(xiàn)在利用信息和通信技術(shù)(Information Communication Technology),可以將教室中的交互情境數(shù)字化,從而使數(shù)據(jù)更加多源。Blikstenin提出多情態(tài)交互分析系統(tǒng),數(shù)據(jù)包括視頻、音頻、文本、姿勢、生物傳感信息(如眼球跟蹤)等[6,7],研究者可以探究過去不可能獲知的學(xué)生學(xué)習(xí)活動,進(jìn)行更全面的分析。
通過上述分析,目前基于教育大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘仍處于發(fā)展的初期,特別是在國內(nèi)的研究與實(shí)施仍處于起步階段,在實(shí)際的應(yīng)用中仍然不能依靠數(shù)據(jù)提供的有價(jià)值信息促進(jìn)學(xué)生學(xué)習(xí)。因此,利用不同的數(shù)據(jù)源產(chǎn)生的分布式教育數(shù)據(jù),建立一個(gè)集成和開放的學(xué)情分析系統(tǒng)是很有必要的。
4 基于大數(shù)據(jù)技術(shù)的學(xué)情分析系統(tǒng)框架(Framework
of academic behavior analysis system based on
big data technology)
基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺研建是大數(shù)據(jù)技術(shù)與教育行業(yè)結(jié)合的一種實(shí)際應(yīng)用的體現(xiàn),通過平臺提供的功能來改善學(xué)生的學(xué)習(xí)行為,為教師提供更好的教學(xué)方案,為職能部門提供合理的管理方案等。基于主流的Hadoop技術(shù)搭建大數(shù)據(jù)平臺,提供了數(shù)據(jù)的清洗、過濾及匯總操作,根據(jù)業(yè)務(wù)需求選取合適的大數(shù)據(jù)框架進(jìn)行大數(shù)據(jù)分析。在大數(shù)據(jù)平臺之上構(gòu)建了數(shù)據(jù)挖掘并行算法處理平臺,挖掘更加有價(jià)值的數(shù)據(jù)信息,為學(xué)生推薦更加科學(xué)合理有用的學(xué)習(xí)資源或其他資源。
4.1 系統(tǒng)開發(fā)的目標(biāo)
基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)研建是將大數(shù)據(jù)技術(shù)、數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)等計(jì)算機(jī)技術(shù)應(yīng)用于教育行業(yè)數(shù)字化和信息化的重要方面,可以通過平臺幫助學(xué)生更好的學(xué)習(xí)、幫助老師更好的教學(xué),為學(xué)校管理層和決策層提供更加科學(xué)的決策依據(jù)。區(qū)別于其他行業(yè),教育行業(yè)逐漸被認(rèn)為是大數(shù)據(jù)可以大有作為的一個(gè)重要領(lǐng)域,利用大數(shù)據(jù)技術(shù)促進(jìn)和完善教育教學(xué)改革。此項(xiàng)目的建立將會更加加快高校信息化建設(shè)的速度和質(zhì)量。
4.2 系統(tǒng)開發(fā)的可行性分析
根據(jù)教育行業(yè)業(yè)務(wù)需求,設(shè)計(jì)了合理的大數(shù)據(jù)處理與分析平臺和數(shù)據(jù)挖掘并行算法處理平臺,項(xiàng)目重點(diǎn)為利用Hadoop平臺對大數(shù)據(jù)日志進(jìn)行存儲、分析、處理,對采集的數(shù)據(jù)進(jìn)行分析,完成相應(yīng)日志的入庫、處理、分析、實(shí)時(shí)查詢等主要功能。對經(jīng)過處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,挖掘出有價(jià)值的信息,給用戶推薦更好的資源。按照實(shí)施計(jì)劃部署相應(yīng)的大數(shù)據(jù)系統(tǒng)平臺,根據(jù)平臺的數(shù)據(jù)處理量,初步規(guī)劃Hadoop集群的數(shù)量為5—10臺。
4.3 系統(tǒng)開發(fā)數(shù)據(jù)來源
數(shù)據(jù)來源于學(xué)院學(xué)生信息管理系統(tǒng)、招生就業(yè)系統(tǒng)、校園考勤系統(tǒng)、圖書管理系統(tǒng)平臺、教務(wù)等真實(shí)數(shù)據(jù),同時(shí)從輔助教學(xué)平臺上抓取有價(jià)值的可信度高的數(shù)據(jù),如發(fā)帖數(shù)據(jù)(貼吧等)、學(xué)習(xí)者調(diào)查、用戶資料、網(wǎng)絡(luò)社交媒體等獲取相關(guān)數(shù)據(jù),從而形成學(xué)情分析系統(tǒng)大數(shù)據(jù)平臺的數(shù)據(jù)集。
4.4 系統(tǒng)開發(fā)過程及關(guān)鍵技術(shù)
首先根據(jù)數(shù)據(jù)集的數(shù)量級(PB或TB)確定集群數(shù)量,確定選擇在線大數(shù)據(jù)平臺還是本地建立服務(wù)器集群搭建大數(shù)據(jù)處理與分析的分布式平臺。
對數(shù)據(jù)源進(jìn)行初步整理和分析,學(xué)校相關(guān)信息系統(tǒng)需要與相關(guān)職能部分溝通數(shù)據(jù)中有價(jià)值或權(quán)重較高的字段或描述,從其他網(wǎng)站采集的數(shù)據(jù)需要經(jīng)過討論分析后確定技術(shù)可行性和評估數(shù)據(jù)源價(jià)值。
將采集到的各數(shù)據(jù)源通過大數(shù)據(jù)技術(shù)提供的Sqoop(主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(Mysql、Oracle等)間進(jìn)行數(shù)據(jù)的傳遞)和Flume(日志采集工具)技術(shù)將數(shù)據(jù)源導(dǎo)入或推送到HDFS分布式文件系統(tǒng)中,對未來可能開發(fā)并投入使用的管理信息系統(tǒng)通過Log4G日志的形式記錄,每天或每周定點(diǎn)通過大數(shù)據(jù)日志收集工具Flume向大數(shù)據(jù)平臺的HDFS分布式文件系統(tǒng)推送記錄數(shù)據(jù)。
對存儲在HDFS中的數(shù)據(jù)進(jìn)行數(shù)據(jù)的ETL(清洗、過濾、匯總),大數(shù)據(jù)分析部分采用Hive與Impala結(jié)合方式,對查詢速度要求較高的采用基于內(nèi)存的迭代式框架Spark技術(shù)框架,此時(shí)經(jīng)過大數(shù)據(jù)分析后的數(shù)據(jù)可直接通過Web系統(tǒng)作統(tǒng)計(jì)數(shù)據(jù)的頁面展示。
處理之后的數(shù)據(jù)可以作為數(shù)據(jù)挖掘平臺進(jìn)行聚類、分類、關(guān)聯(lián)和回歸等數(shù)據(jù)挖掘算法的并行化處理媒介,從而得到學(xué)生行為分析的重要信息,最后通過推薦系統(tǒng)為學(xué)生推薦合理的資源信息。
4.5 集群環(huán)境搭建方案
根據(jù)業(yè)務(wù)需求搭建集群10臺左右的大數(shù)據(jù)處理和分析平臺, 項(xiàng)目中需要Hadoop集群能夠商用,并且要求穩(wěn)定,性能沒有瓶頸。所以針對于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能[8]。
當(dāng)Hbase提供服務(wù)速度難以保證情況下,使用Impala替換HBase、Impala StateStore和Impala Catalog Server安裝到HBase master所在機(jī)器,HBase Region所在機(jī)器安裝Impala Daemon。JobTracker機(jī)器變?yōu)镽esourceManager,TaskTracker變?yōu)镹odeManager。
以上集群安排是根據(jù)數(shù)據(jù)和業(yè)務(wù)進(jìn)行預(yù)估暫定集群數(shù)量在10臺以下,如果后期集群數(shù)量增加應(yīng)該重新調(diào)整各節(jié)點(diǎn)的配置。
管理服務(wù)器是平臺的主節(jié)點(diǎn),負(fù)責(zé)管理計(jì)算和任務(wù)分配等,節(jié)點(diǎn)1—4和剩余節(jié)點(diǎn)機(jī)都屬于從節(jié)點(diǎn),從節(jié)點(diǎn)負(fù)責(zé)執(zhí)行主節(jié)點(diǎn)分配的存儲和計(jì)算的任務(wù)。要求數(shù)據(jù)節(jié)點(diǎn)盡可能放在一起利于數(shù)據(jù)的本地化,加快數(shù)據(jù)查詢速率,這里的HRegion由HRegionServer存放和管理本地節(jié)點(diǎn),主要用于讀寫HDFS,管理Table中的數(shù)據(jù),因?yàn)閼?yīng)該將HRegion與HDFS中的DataNode安裝在同一個(gè)從節(jié)點(diǎn)服務(wù)器中。HA采用管理服務(wù)器1和服務(wù)器2互備。
項(xiàng)目根據(jù)預(yù)期的數(shù)據(jù)和業(yè)務(wù)需求搭建集群在10臺以下的大數(shù)據(jù)處理和分析平臺,項(xiàng)目中采用穩(wěn)定、性能瓶頸小的Hadoop集群。同時(shí)針對于Hadoop服務(wù)器,需要做一些操作系統(tǒng)級別優(yōu)化(CentOS6.4),以使得集群獲得最優(yōu)的性能和穩(wěn)定性能。
4.6 架構(gòu)設(shè)計(jì)
基于大數(shù)據(jù)應(yīng)用技術(shù)的學(xué)情分析系統(tǒng)平臺架構(gòu)分為大數(shù)據(jù)處理與分析平臺和數(shù)據(jù)挖掘并行算法分析平臺組成。其中大數(shù)據(jù)處理與分析平臺主要對數(shù)據(jù)源進(jìn)行ETL過程,滿足一部分的數(shù)據(jù)查詢需求,以及圖形化展示需求。數(shù)據(jù)挖掘并行算法分析平臺主要對經(jīng)過大數(shù)據(jù)處理后的數(shù)據(jù)挖掘出潛在有價(jià)值的信息,為學(xué)生的學(xué)習(xí)、生活等方面提供個(gè)性化的推薦和意見等[9,10]。
4.6.1 學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)
學(xué)情分析系統(tǒng)的大數(shù)據(jù)平臺架構(gòu)設(shè)計(jì)如圖1所示。
學(xué)院信息網(wǎng)站數(shù)據(jù)和由外部網(wǎng)站采集的數(shù)據(jù)均以壓縮形式上傳HDFS對應(yīng)的目錄,相應(yīng)的Mapreduce直接從HDFS上獲取原始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和分析。Mapreduce主要包含三種類型:匯總部分(過濾、清洗、匯總)。使用分布式存儲系統(tǒng)HBase存儲一些數(shù)據(jù)量級較大的數(shù)據(jù)和進(jìn)行一些簡單的統(tǒng)計(jì)分析,同時(shí),將Mapreduce處理后的數(shù)據(jù)存儲在Hbase中,之后使用Thrift服務(wù)與Web進(jìn)行交互顯示。Spark分析部分主要利用SparkSql、SparkMLlib、Graphx三大組件進(jìn)行復(fù)雜的批量處理、基于響應(yīng)速度要求高的交互查詢、基于實(shí)時(shí)數(shù)據(jù)流的查詢。Mapreduce匯總部分的結(jié)果加載到Hive中并且使用Impala提供Web端的查詢。需要做進(jìn)一步分析和關(guān)聯(lián)的部分使用Sqoop導(dǎo)出到Oracle或Mysql中,由Oracle或Mysql來完成Web端復(fù)雜圖形的展現(xiàn)[11,12]。
4.6.2 學(xué)情分析系統(tǒng)數(shù)據(jù)挖掘并行算法分析平臺設(shè)計(jì)
數(shù)據(jù)挖掘并行算法分析平臺如圖2所示。
數(shù)據(jù)經(jīng)過預(yù)處理后,需要考慮如何能讓數(shù)據(jù)發(fā)揮作用。這就需要采用數(shù)據(jù)挖掘平臺提供的數(shù)據(jù)挖掘和分析工具、算法進(jìn)行有價(jià)值信息的抽取,從而實(shí)現(xiàn)從數(shù)據(jù)到信息的高效轉(zhuǎn)化。對受教育者的學(xué)習(xí)數(shù)據(jù)、行為數(shù)據(jù)等進(jìn)行深入分析和挖掘,查找可能存在的問題等重要信息,并利用這些數(shù)據(jù)為改善受教育者的成績或?qū)W習(xí)行為提供個(gè)性化的服務(wù)。同時(shí),借助數(shù)據(jù)中一位受教育者的各個(gè)維度數(shù)據(jù)來綜合評判學(xué)生表現(xiàn),利用大數(shù)據(jù)挖掘技術(shù),針對學(xué)生存在的問題提供合理的建議與意見[13,14]。
通過大數(shù)據(jù)和數(shù)據(jù)挖掘進(jìn)行學(xué)習(xí)分析能夠?yàn)槊恳晃皇芙逃邉?chuàng)設(shè)一個(gè)量身定做的學(xué)習(xí)環(huán)境和個(gè)性化的課程,還能創(chuàng)建一個(gè)早期預(yù)警系統(tǒng)以便發(fā)現(xiàn)開除和輟學(xué)等潛在的風(fēng)險(xiǎn),為受教育者的多年學(xué)習(xí)提供一個(gè)富有挑戰(zhàn)性而非逐漸厭倦的學(xué)習(xí)計(jì)劃。因此,學(xué)習(xí)可以依靠大數(shù)據(jù)驅(qū)動。通過分析和挖掘,進(jìn)一步改善教學(xué)的方式與方法,進(jìn)一步促進(jìn)學(xué)生學(xué)習(xí)成績的提高。
根據(jù)平臺需求主要使用以下五種數(shù)據(jù)挖掘技術(shù)從大數(shù)據(jù)分析后的數(shù)據(jù)中提取有價(jià)值數(shù)據(jù)信息:
(1)預(yù)測(Prediction)——基于對歷史數(shù)據(jù)的分析,預(yù)測新數(shù)據(jù)的特征或數(shù)據(jù)的未來發(fā)展趨勢。例如,要具備知道一個(gè)學(xué)生在什么情況下盡管事實(shí)上有能力但卻有意回答錯(cuò)誤的能力。
(2)聚類(Clustering)——發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。這對于把有相同學(xué)習(xí)興趣的學(xué)生分在一組很有用。
(3)相關(guān)性挖掘(Relationship Mining)——發(fā)現(xiàn)各種變量或因素之間的關(guān)系,并對其進(jìn)行解碼以便今后使用它們。這對探知學(xué)生在尋求幫助后是否能夠正確回答問題的可靠性很有幫助[14]。
(4)升華人的判斷(Distillation for Human Judgment)——建立可視的機(jī)器學(xué)習(xí)的模式。
(5)用模式進(jìn)行發(fā)現(xiàn)(Discovery with Models)——使用通過大數(shù)據(jù)分析開發(fā)出的模式進(jìn)行“元學(xué)習(xí)”(Meta-Study)[14]。
5 結(jié)論(Conclusion)
本文從大數(shù)據(jù)視角提出,利用Hadoop生態(tài)圈構(gòu)建基于大數(shù)據(jù)應(yīng)用技術(shù)的智能化學(xué)情分析服務(wù)架構(gòu),該方案主要目標(biāo)是解決海量教育信息的匯聚、存儲和存取及分析和挖掘等,從而為智能化教育教學(xué)服務(wù)提供技術(shù)支撐。
同時(shí),隨著國家信息戰(zhàn)略的實(shí)施,網(wǎng)絡(luò)帶寬及其他相關(guān)硬件設(shè)施的發(fā)展,這為大數(shù)據(jù)技術(shù)應(yīng)用提供了較為廣闊的空間。針對教育大數(shù)據(jù)對教育、教學(xué)及學(xué)生學(xué)習(xí)的方方面面影響,基于大數(shù)據(jù)技術(shù)的教育改革勢在必行,高效創(chuàng)新創(chuàng)業(yè)教育改革、基于產(chǎn)業(yè)需求的高效專業(yè)調(diào)整及學(xué)生的學(xué)習(xí)行為分析和教師教授行為分析都將從基于知識或經(jīng)驗(yàn)的改革轉(zhuǎn)移到基于數(shù)據(jù)的教育教學(xué)改革。根據(jù)大數(shù)據(jù)平臺分析結(jié)果我們可以更加合理的調(diào)整學(xué)科專業(yè),教師教授方式和學(xué)生的學(xué)習(xí)方式等。該平臺的建立促進(jìn)和深化了學(xué)校學(xué)生學(xué)習(xí)、教師教學(xué)實(shí)踐及幫助相關(guān)部門提供合理的計(jì)劃和建議。