李 丹
(陜西學(xué)前師范學(xué)院,陜西西安,710010)
大數(shù)據(jù)解析及其在教育領(lǐng)域的應(yīng)用綜述
李 丹
(陜西學(xué)前師范學(xué)院,陜西西安,710010)
從大數(shù)據(jù)的特征入手,給出了大數(shù)據(jù)的處理流程,分析了數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)、數(shù)據(jù)可視化的要點(diǎn),給出了教育大數(shù)據(jù)的應(yīng)用模式,從個(gè)性化課程分析、教育領(lǐng)域的數(shù)據(jù)挖掘、監(jiān)測(cè)學(xué)生的考試、為教育決策和教育改革提供參考、幫助家長(zhǎng)和教師找到適合孩子的學(xué)習(xí)方法五方面論述了大數(shù)據(jù)的應(yīng)用實(shí)踐。
大數(shù)據(jù);處理流程;教育大數(shù)據(jù);應(yīng)用實(shí)踐
隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展,人們利用網(wǎng)絡(luò)來處理各類事件,由此產(chǎn)生出大量的數(shù)據(jù),這些數(shù)據(jù)大多都是無規(guī)則的。隨著云計(jì)算技術(shù)的發(fā)展,將分布在各個(gè)角落的無規(guī)則的數(shù)據(jù)進(jìn)行分析、整理,篩選出有用的信息,從而為各行各業(yè)服務(wù),這是大數(shù)據(jù)所要研究的范疇。
大數(shù)據(jù)在全球范圍內(nèi)備受關(guān)注,對(duì)大數(shù)據(jù)的定義也有多種提法。IBM提出3V,即認(rèn)為大數(shù)據(jù)具備規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)三個(gè)特征:規(guī)模性指數(shù)據(jù)量巨大,量級(jí)達(dá)到TB級(jí)及PB級(jí);多樣性指數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);高速性指數(shù)據(jù)創(chuàng)建、處理和分析的速度持續(xù)在加快。在此基礎(chǔ)上,還有人提出4V定義:IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(Value),大數(shù)據(jù)的價(jià)值往往呈現(xiàn)稀疏性;而IBM認(rèn)為大數(shù)據(jù)還具有精確性 (Veracity),將精確性作為大數(shù)據(jù)的第四個(gè)屬性凸顯了應(yīng)對(duì)與管理某些類型數(shù)據(jù)中固有的不確定性的重要性。除了3V定義,較典型定義來自維基百科,即認(rèn)為大數(shù)據(jù)指難以用常用的軟件工具在可容忍時(shí)間內(nèi)抓取、管理以及處理的數(shù)據(jù)集。比較而言,3V定義對(duì)大數(shù)據(jù)特征進(jìn)行了形象的描述,因此成為目前引用最多也最被認(rèn)可的定義。
傳統(tǒng)的數(shù)據(jù)服務(wù)(Data Services)指的是數(shù)據(jù)操作密集型Web服務(wù),它們對(duì)用戶提供接入數(shù)據(jù)資源的接口,對(duì)內(nèi)則將數(shù)據(jù)源及操作進(jìn)行封裝,并對(duì)來自用戶的搜索和分析請(qǐng)求進(jìn)行處理。對(duì)于企業(yè)來說,數(shù)據(jù)通常被存儲(chǔ)在多個(gè)應(yīng)用系統(tǒng)當(dāng)中,如果想要調(diào)用數(shù)據(jù),就需要分別連接應(yīng)用的數(shù)據(jù)存儲(chǔ)系統(tǒng)。數(shù)據(jù)服務(wù)通過提供一個(gè)抽象層,為用戶隔離了異構(gòu)數(shù)據(jù)源的復(fù)雜性,使其能夠以統(tǒng)一的方式訪問或更新數(shù)據(jù)。目前來說,數(shù)據(jù)服務(wù)的理想應(yīng)用是數(shù)據(jù)所有者將數(shù)據(jù)開放,具有相應(yīng)權(quán)限的用戶、客戶端和應(yīng)用程序可通過數(shù)據(jù)服務(wù)對(duì)數(shù)據(jù)進(jìn)行訪問和操作。
圖1 大數(shù)據(jù)系統(tǒng)流程圖
大數(shù)據(jù)系統(tǒng)實(shí)際上就是數(shù)據(jù)的生命周期,即數(shù)據(jù)采集、存儲(chǔ)、查找、分析和可視化的過程,大數(shù)據(jù)系統(tǒng)流程圖,如圖1所示,其中Hadoop是一種開源實(shí)現(xiàn)平臺(tái),其結(jié)構(gòu)如圖2所示。
圖2 Intel Hadoop組件結(jié)構(gòu)
2.1 數(shù)據(jù)采集:
結(jié)構(gòu)化數(shù)據(jù)通常是指可以用二維關(guān)系表達(dá)的數(shù)據(jù),如關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù);而非結(jié)構(gòu)化數(shù)據(jù)則是指難以用二維關(guān)系表達(dá)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)方式有非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、文件系統(tǒng)、內(nèi)容管理系統(tǒng),如WinFS、EXT3、HDFS、GFS、TFS等,大數(shù)據(jù)采集的大量數(shù)據(jù)是半結(jié)構(gòu)化或非結(jié)構(gòu)化的。因此,通過各種方法采集數(shù)據(jù)信息便顯得格外重要。
數(shù)據(jù)采集是大數(shù)據(jù)處理流程中最基礎(chǔ)的一步,目前常用的數(shù)據(jù)采集手段有傳感器收取、射頻識(shí)別、數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎,以及條形碼技術(shù)等。
2.2 數(shù)據(jù)分析
數(shù)據(jù)分析在方法論上需要解決的課題首先就在于:如何透過多層次、多維度的數(shù)據(jù)集實(shí)現(xiàn)對(duì)于某一個(gè)人、某一件事或某一種社會(huì)狀態(tài)的現(xiàn)實(shí)態(tài)勢(shì)的聚焦,即真相再現(xiàn);其中的難點(diǎn)就在于,我們需要洞察哪些維度是描述一個(gè)人、一件事以及一種社會(huì)狀態(tài)存在狀態(tài)的最為關(guān)鍵性的維度,并且這些維度之間的關(guān)聯(lián)方式是怎樣的等。其次,如何在時(shí)間序列上離散的、貌似各不相關(guān)的數(shù)據(jù)集合中,找到一種或多種與人的活動(dòng)、事件的發(fā)展以及社會(huì)的運(yùn)作有機(jī)聯(lián)系的連續(xù)性數(shù)據(jù)的分析邏輯。其中的難點(diǎn)就在于,我們對(duì)于離散的、貌似各不相關(guān)的數(shù)據(jù)如何進(jìn)行屬性標(biāo)簽化的分類。不同類屬的數(shù)據(jù)集的功能聚合模型(用于特定的分析對(duì)象)以及數(shù)據(jù)的標(biāo)簽化技術(shù),是大數(shù)據(jù)分析的技術(shù)關(guān)鍵。
已有數(shù)據(jù)服務(wù)架構(gòu)主要是為數(shù)據(jù)統(tǒng)一操作(增刪改查)而設(shè)計(jì)的,而大數(shù)據(jù)服務(wù)架構(gòu)是為了在屏蔽數(shù)據(jù)資源和操作復(fù)雜性的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)資源服務(wù)化。表1將UE-BDaaSA(面向用戶體驗(yàn)的大數(shù)據(jù)服務(wù)架構(gòu))和WCF DS、OSDI從數(shù)據(jù)對(duì)象、支持的數(shù)據(jù)模型、支持的數(shù)據(jù)類型、數(shù)據(jù)源、語義、數(shù)據(jù)服務(wù)描述、服務(wù)構(gòu)建方式以及支持的服務(wù)操作等多方面進(jìn)行對(duì)比??梢钥闯?,每種架構(gòu)都具有一定優(yōu)勢(shì),而UE-BDaaSA主要面向大數(shù)據(jù)服務(wù),通過引入非結(jié)構(gòu)化數(shù)據(jù)模型GDM(星系數(shù)據(jù)模型)和語義技術(shù),以及提供完善的服務(wù)模型和應(yīng)用操作,使得UE-BDaaSA在數(shù)據(jù)模型支持、語義支持、服務(wù)描述完善度、服務(wù)方式、支持的操作等多方面都表現(xiàn)較好,尤其是UE-BDaaSA對(duì)非結(jié)構(gòu)化數(shù)據(jù)提供支持,并提供了分析和可視化服務(wù)等多種服務(wù)類型,可見UE-BDaaSA是一種實(shí)用的大數(shù)據(jù)服務(wù)架構(gòu)。
表1 WCF DS、OSDI 、UE-BDaaSA對(duì)比
從數(shù)據(jù)存儲(chǔ)共享來看,一般會(huì)選用擴(kuò)展性極好的hadoop平臺(tái),但是由于hadoop技術(shù)的成熟度的問題,在數(shù)據(jù)高效利用的方面就會(huì)出現(xiàn)很多問題,因此就必不可少的需要各類分布式計(jì)算的能力來做補(bǔ)充,這其中有數(shù)據(jù)加載問題,數(shù)據(jù)查詢分析問題,以及準(zhǔn)實(shí)時(shí)的分析和挖掘應(yīng)用的問題,因此國(guó)內(nèi)外各種產(chǎn)品和各類服務(wù)商也都圍繞著這些現(xiàn)實(shí)問題在積極的尋找高效恰當(dāng)?shù)慕鉀Q方案。其中actian提出的基于大數(shù)據(jù)2.0的計(jì)算中心解決方案,可以將分布式加載、高性能查詢和流式計(jì)算等技術(shù)系統(tǒng)的整合在一起,為客戶提供標(biāo)準(zhǔn)化服務(wù)。
actian大數(shù)據(jù)2.0分析平臺(tái)具有豐富易用的數(shù)據(jù)挖掘分析功能,可驅(qū)動(dòng)更快的價(jià)值實(shí)現(xiàn)。同時(shí)作為現(xiàn)有基礎(chǔ)設(shè)施(如hadoop平臺(tái),結(jié)構(gòu)化數(shù)據(jù)倉(cāng)庫(kù)平臺(tái))的補(bǔ)充,該分析平臺(tái)可以部署在企業(yè)私有云或混合云之上,為適應(yīng)不同的業(yè)務(wù)需要,提供了靈活的授權(quán)模式。
2.3 數(shù)據(jù)服務(wù)
目前,對(duì)外提供大數(shù)據(jù)服務(wù)的既有政府、企業(yè),也有科研機(jī)構(gòu),其提供的數(shù)據(jù)服務(wù)集中在數(shù)據(jù)查詢/驗(yàn)證服務(wù),面向企業(yè)的
數(shù)據(jù)分析服務(wù)和數(shù)據(jù)集市。
(1)數(shù)據(jù)查詢/驗(yàn)證服務(wù):該類服務(wù)主要提供數(shù)據(jù)搜索服務(wù)或著基于底層數(shù)據(jù)源為用戶提供驗(yàn)證服務(wù),例如客戶地址驗(yàn)證、Email驗(yàn)證、金融數(shù)據(jù)服務(wù)等。典型的有,Google提供的BigQuery搜索服務(wù);StrikeIron、Xignite等網(wǎng)站提供的金融、電子商務(wù)、通信類驗(yàn)證服務(wù)。
(2)面向企業(yè)的數(shù)據(jù)分析服務(wù):該類服務(wù)是以幫助企業(yè)分析數(shù)據(jù)為目的的服務(wù),其數(shù)據(jù)來源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。例如,Precog提供大數(shù)據(jù)分析服務(wù),可以從各種數(shù)據(jù)源抓取輸入數(shù)據(jù),同時(shí)還使用人群統(tǒng)計(jì)、態(tài)度、位置和其他信息使數(shù)據(jù)更為豐富,最后綜合進(jìn)行分析;埃森哲也提供一站式數(shù)據(jù)分析解決方案;量子恒道和“淘師爺”都是針對(duì)淘寶賣家提供電子商務(wù)數(shù)據(jù)的分析,幫助賣家提高銷售量。這類分析服務(wù)提供的方式是由服務(wù)提供商通過自己的分析系統(tǒng)幫助數(shù)據(jù)擁有者分析數(shù)據(jù),而不是為有分析需求的用戶提供一個(gè)分析數(shù)據(jù)的環(huán)境。
(3)數(shù)據(jù)集市:是以數(shù)據(jù)提供和數(shù)據(jù)下載為目的的數(shù)據(jù)服務(wù)。例如,美國(guó)政府通過Data.gov向公眾提供各類政府?dāng)?shù)據(jù);Amazon在AWS基礎(chǔ)上提供的公共數(shù)據(jù)集服務(wù);實(shí)時(shí)數(shù)據(jù)交易網(wǎng)站Factual.com以數(shù)據(jù)服務(wù)的形式向應(yīng)用軟件開發(fā)商和內(nèi)容發(fā)布商提供高品質(zhì)低成本(甚至零成本)的數(shù)據(jù);數(shù)據(jù)堂Datatang.com提供科研數(shù)據(jù)共享服務(wù)。
2.4 數(shù)據(jù)可視化
不管是對(duì)數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^地展示數(shù)據(jù)。數(shù)據(jù)可視化的前提是給定要進(jìn)行可視化的數(shù)據(jù),這些數(shù)據(jù)有可能是用戶檢索的結(jié)果,有可能是分析的結(jié)果。這樣,大數(shù)據(jù)的可視化請(qǐng)求的處理流程可概述為,先執(zhí)行大數(shù)據(jù)檢索服務(wù)或者大數(shù)據(jù)分析服務(wù),再將其結(jié)果數(shù)據(jù)輸入到可視化型數(shù)據(jù)服務(wù)中,最后輸出可視化腳本或包含可視化腳本的網(wǎng)頁(yè)腳本。
數(shù)據(jù)分析能夠幫助用戶從大數(shù)據(jù)中洞察價(jià)值。然而,在大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)分析結(jié)果依然海量,如果能夠有一種簡(jiǎn)單的方式對(duì)數(shù)據(jù)規(guī)律進(jìn)行直觀展現(xiàn),必將使大數(shù)據(jù)中的價(jià)值得到快速理解和發(fā)現(xiàn),可視化就是這樣的方式??梢暬蓙硪丫?,隨著20世紀(jì)50年代計(jì)算機(jī)圖形學(xué)的出現(xiàn),信息技術(shù)加速了可視化的演變。時(shí)至今日,可視化已經(jīng)發(fā)展為數(shù)據(jù)可視化、科學(xué)可視化、信息可視化、可視分析這幾大方向。可視分析起源于2005年,它是一門通過交互可視界面來分析、推理和決策的科學(xué),通過將可視化和數(shù)據(jù)處理分析方法結(jié)合,提高可視化質(zhì)量的同時(shí)也為用戶提供更完整的大規(guī)模數(shù)據(jù)解決方案。
如今,針對(duì)可視分析的研究和應(yīng)用逐步發(fā)展,已經(jīng)出現(xiàn)很多重要而常用的開源可視化編程語言和環(huán)境,它們具備的一個(gè)共同特點(diǎn)就是為用戶提供了常見的專業(yè)可視化模版或圖形庫(kù),用戶可以通過簡(jiǎn)單調(diào)用即可很快實(shí)現(xiàn)可視化效果,此外,由于軟件的開源優(yōu)勢(shì),專業(yè)用戶可以根據(jù)其需求,對(duì)圖形源代碼進(jìn)行定制修改。
Processing是由MIT Media Lab的Ben Fry和Casey Reas開發(fā)的開源軟件,基于java構(gòu)建,其特點(diǎn)是簡(jiǎn)單,通過使用Processing可以生成圖形、3D圖形、聲音、實(shí)時(shí)影像等,用戶還可以通過添加交互行為來實(shí)現(xiàn)實(shí)時(shí)的互動(dòng)。通過該軟件可以導(dǎo)出在瀏覽器中使用的文件,但前提是瀏覽器裝有java插件,這也是該軟件在web中應(yīng)用面臨的瓶頸。為了解決這一問題,Processing.js框架被設(shè)計(jì)出來,它主要針對(duì)不想使用Flash或 Java applets進(jìn)行圖片編程以及Web交互的開發(fā)者。Processing.js使用JavaScript在HTMLS的Canvas元素上繪制形狀以及操作圖像,這就要求目標(biāo)用戶的瀏覽器支持HTML5。D3.js是一個(gè)基于JavaScript的開源數(shù)據(jù)可視化庫(kù),它允許綁定任意數(shù)據(jù)到DOM,然后將數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)換應(yīng)用到Document中。用戶可以使用它用一個(gè)數(shù)組創(chuàng)建基本的HMTL表格,或是利用它的流體過度和交互,用相似的數(shù)據(jù)創(chuàng)建SVG條形圖[12]。諸多成熟的開源可視化組件庫(kù)都為大數(shù)據(jù)可視化提供了便利,針對(duì)大數(shù)據(jù)可視化服務(wù)需求,充分利用現(xiàn)有可視化組件庫(kù),進(jìn)一步降低用戶學(xué)習(xí)成本,是大數(shù)據(jù)研究的重要目標(biāo)之一。
基于數(shù)據(jù)挖掘、數(shù)據(jù)分析和在線決策面板三大要素的教育大數(shù)據(jù)應(yīng)用流程具體可劃分為六個(gè)步驟,如圖3所示,一是學(xué)生使用在線系統(tǒng)進(jìn)行學(xué)習(xí);二是系統(tǒng)收集和記錄學(xué)生的在線學(xué)習(xí)行為,存入數(shù)據(jù)庫(kù);三是進(jìn)行數(shù)據(jù)分析和處理、預(yù)測(cè)學(xué)生的學(xué)業(yè)表現(xiàn);四是對(duì)預(yù)測(cè)和反饋結(jié)果進(jìn)行可視化處理;五是提供適合學(xué)生個(gè)人的學(xué)習(xí)材料;六是教師、管理人員和開發(fā)人員適時(shí)給予學(xué)生指導(dǎo)和幫助。
圖3 教育大數(shù)據(jù)流程圖
4.1 個(gè)性化課程分析
進(jìn)行數(shù)據(jù)分析和處理、預(yù)測(cè)學(xué)生的學(xué)業(yè)表現(xiàn),并向其推薦他們可能取得優(yōu)秀學(xué)業(yè)表現(xiàn)的課程。系統(tǒng)首先獲取某個(gè)學(xué)生以前(高中或大學(xué))的學(xué)業(yè)表現(xiàn),然后從已畢業(yè)學(xué)生的成績(jī)庫(kù)中找到與之成績(jī)相似的學(xué)生,分析以前的成績(jī)和待選課程表現(xiàn)之間的相關(guān)性、結(jié)合某專業(yè)的要求和學(xué)生能夠完成的課程進(jìn)行分析、利用這些信息預(yù)測(cè)學(xué)生未來在課程中可能取得的成績(jī),最后綜合考量預(yù)測(cè)的學(xué)生成績(jī)。
4.2 教育領(lǐng)域的數(shù)據(jù)挖掘
教育數(shù)據(jù)與其他領(lǐng)域中的數(shù)據(jù)比較起來,有一些獨(dú)特的特征??偨Y(jié)起來就是教育數(shù)據(jù)是分層的(hierarchical)。有鍵擊層(keystroke level)、回答層(answer level)、學(xué)期層(session level)、學(xué)生層(student level)、教室層(classroom level)、教師層(teacher level)和學(xué)校層(school level),數(shù)據(jù)就隱含在這些不同的層之中。
教育中的數(shù)據(jù)挖掘是邁向大數(shù)據(jù)分析的一項(xiàng)主要工作?;?dòng)性學(xué)習(xí)的新方法已經(jīng)通過智力輔導(dǎo)系統(tǒng)、刺激與激勵(lì)機(jī)制、教育性的游戲產(chǎn)生了越來越多的尚未結(jié)構(gòu)化的數(shù)據(jù)。教育中最近的趨勢(shì)是允許研究者積累大量尚未結(jié)構(gòu)化的數(shù)據(jù)(unstructured data)。這就使得更豐富的數(shù)據(jù)能給研究者創(chuàng)造出比過去更多的探究學(xué)生學(xué)習(xí)環(huán)境的新機(jī)會(huì)。
4.3 監(jiān)測(cè)學(xué)生的考試
監(jiān)測(cè)學(xué)生的考試能讓研究者有效定型學(xué)生的學(xué)習(xí)行為。大數(shù)據(jù)要求教育工作者必須超越傳統(tǒng),不能只追求正確的答案,學(xué)生是如何朝著正確答案努力的過程也同樣重要。在一次考試中,學(xué)生個(gè)人和整體在每道題上花費(fèi)了多少時(shí)間?最長(zhǎng)的是多少?最短的是多少?平均又是多少?哪些此前已經(jīng)出現(xiàn)過的問題學(xué)生答對(duì)或答錯(cuò)了?哪些問題的線索讓學(xué)生獲益了?通過監(jiān)測(cè)這些信息,形成數(shù)據(jù)檔案,能夠幫助教育工作者理解學(xué)生為了掌握學(xué)習(xí)內(nèi)容而進(jìn)行學(xué)習(xí)的全過程,并有助于向他們提供個(gè)性化的學(xué)習(xí)模式。
用這些學(xué)生學(xué)習(xí)的行為檔案創(chuàng)造適應(yīng)性的學(xué)習(xí)系統(tǒng)能夠提高學(xué)生的學(xué)習(xí)效果。利用學(xué)生是“如何”學(xué)習(xí)的這樣重要的信息,考試的出題者們就能為學(xué)生量身定制出適合學(xué)生的個(gè)性化問題,并設(shè)計(jì)出能夠促進(jìn)記憶力的問題。
4.4 為教育決策和教育改革提供參考
數(shù)據(jù)不僅可以幫助改善教育教學(xué),在重大教育決策制定和教育改革方面,大數(shù)據(jù)更有用武之地。美國(guó)利用數(shù)據(jù)來診斷處在輟學(xué)危險(xiǎn)期的學(xué)生、探索教育開支與學(xué)生學(xué)習(xí)成績(jī)提升的關(guān)系、探索學(xué)生缺課與成績(jī)的關(guān)系。如果有了充分的數(shù)據(jù),便可以發(fā)掘更多的教師特征和學(xué)生成績(jī)之間的關(guān)系,從而為挑選教師提供更好的參考。
4.5 幫助家長(zhǎng)和教師找到適合孩子的學(xué)習(xí)方法
比如,美國(guó)的麥格勞.希爾教育出版集團(tuán)就開發(fā)出了一種預(yù)測(cè)評(píng)估工具,幫助學(xué)生評(píng)估他們已有的知識(shí)和達(dá)標(biāo)測(cè)驗(yàn)所需程度的差距,進(jìn)而指出學(xué)生有待提高的地方。評(píng)估工具可以讓教師跟蹤學(xué)生的學(xué)習(xí)情況,從而找到學(xué)生的學(xué)習(xí)特點(diǎn)和方法。有些學(xué)生適合按部就班,有些則更適合圖式信息和整合信息的非線性學(xué)習(xí)。這些都可以通過大數(shù)據(jù)搜集和分析很快識(shí)別出來,從而為教育教學(xué)提供堅(jiān)實(shí)的依據(jù)。
隨著大數(shù)據(jù)理論及其相關(guān)技術(shù)的不斷完善和發(fā)展,其在教育領(lǐng)域的應(yīng)用將會(huì)更加廣泛,對(duì)教育的影響力也會(huì)日益提高。
[1] 韓晶,大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究:北京郵電大學(xué)博士論文2013.4
[2] 劉智慧 張泉靈,大數(shù)據(jù)技術(shù)研究綜述:浙江大學(xué)學(xué)報(bào)(工學(xué)版)2014.2
[3] Grobelnik,Marko.Big Data Tutorial [EB/OL]http:// videolectures.net/eswc2012_grobelnik_big一data/
[4] Hamish Barwick.The 'four Vs' of Big Data. Implementing InformationInfrastructure Symposium[EB/OL].http://www.computerworld.coin.au/ article/396198/iiis_four_vs_big_data/
[5] IBM. What is big data? [EB/OL].http;//wvvw901 .ibm. com/software/data/bigdata/
[6] 李國(guó)杰,程學(xué)旗大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研宄現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2012,(06):647-657.
[7] 馬帥,李建欣,胡春明大數(shù)據(jù)科學(xué)與工程的挑戰(zhàn)與思考[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012, 8(9): 22-30.
[8] Google Big Query [EB/OL].https://cloud.google.coni/ products/big-query
[9] StrikeIron[EB/OL].http://www.strikeiron.com/ strikeironservices.aspx
[10] Xignite [EB/OL].http://www.xignite.com/Products/ ProductDirectory.aspx
[11] serviceobjects.NET http://www.serviceobjects.com/ products/directory ofwebservices.asp
[12] WebserviceX[EB/OL].http://www.webservicex.net/WCF/ webServices.aspx
[13] 張燕南,關(guān)于大數(shù)據(jù)應(yīng)用于教育的思考:教育理論探索2013.12
[14] COLLEGESTATS.How Can Data Mining & Analytics Enhance Education?[EB/OL].http://collegestats.org/ articles/2013/01/how-can-data-mining-analyticsenhance-education/.
Big data analysis and in education domain application summary
Li Dan
(Shanxi Xueqian Normal University,Shanxi Xi’an,710100)
From big data characteristic obtaining,has given the big data processing flow,has analyzed the data acquisition,the data analysis,the digital data service,the data visualization main point,gave has educated the big data the application pattern,analyzed,the education domain data mining from the personalized curriculum,monitors student's test, provides the reference for the education decision-making and the education reform,helps the guardian and the teacher found suits child's study method five aspects to elaborate the big data application practice.
Big data;Processing flow;Educates the big data;Using practice