梅鵬飛,何曉萍
(南昌大學(xué) 體育與教育學(xué)院,江西 南昌 330031)
《大數(shù)據(jù)時代》的作者維克托·邁爾-舍恩伯格開創(chuàng)了國外大數(shù)據(jù)研究先河,并通過4個“V”描述了大數(shù)據(jù)具有的四大特征。即數(shù)據(jù)體量大(Volume)、數(shù)據(jù)類型多(Variety)、數(shù)據(jù)價值密度低(Value)、數(shù)據(jù)具有實效性(Velocity)四大特征。[1]教育大數(shù)據(jù)是大數(shù)據(jù)的一個子集,特指教育領(lǐng)域的大數(shù)據(jù),是整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的,一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數(shù)據(jù)集合。[2]本文采用詞頻分析法和引文分析法,使用CiteSpace軟件對Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫中教育大數(shù)據(jù)研究的相關(guān)文獻進行了搜索、梳理,客觀生成的國外教育大數(shù)據(jù)研究的知識圖譜,揭示了國外教育大數(shù)據(jù)研究領(lǐng)域、研究力量分布、知識基礎(chǔ)與研究熱點主題。有效的數(shù)據(jù)分析,以期為我國教育大數(shù)據(jù)的進一步研究提供參考和借鑒。
詞頻分析法是指分析某學(xué)科領(lǐng)域特定時間內(nèi)發(fā)表的文獻關(guān)鍵詞,通過關(guān)鍵詞出現(xiàn)的頻次的高低及頻次的變化趨勢來確定該領(lǐng)域研究重點和發(fā)展方向的文獻計量方法。[3]引文分析法,利用數(shù)學(xué)及統(tǒng)計學(xué)方法進行比較、歸納、抽象、概括等,對科學(xué)期刊、論文、著者等分析對象的引用和被引用現(xiàn)象進行分析,以揭示其數(shù)量特征和內(nèi)在規(guī)律的一種信息計量研究方法。[4]本文利用詞頻分析法和引文分析法,分析國外教育大數(shù)據(jù)研究的領(lǐng)域分布、知識基礎(chǔ)與熱點主題。采取定量研究與定性研究相結(jié)合的方法,首先結(jié)合詞頻分析法、引文分析法對相關(guān)文獻進行定量分析,再通過定性分析加以補充。
為確保文獻的權(quán)威性,本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫作為文獻信息來源,檢索策略中以“big data”、“education”作為主題詞,時間限制為2007-2017年,限定學(xué)科為Education Educational Research,文獻類型為Article,搜索、篩選、整理得到209條相關(guān)文獻。導(dǎo)出文獻數(shù)據(jù)的題錄信息,以全記錄格式保存,保存日期為2017年6月8日。
本文分析工具采用陳超美博士及其團隊開發(fā)的基于Java語言的可視化分析軟件CiteSpace V,這是一款專門用于學(xué)術(shù)文獻分析的信息可視化分析工具。目前已廣泛應(yīng)用于探測、分析學(xué)科研究前沿的發(fā)展趨勢以及研究前沿與知識基礎(chǔ)之間、不同研究前沿之間的關(guān)系。[5]可視化工具以圖表形式直觀展現(xiàn)關(guān)鍵詞的熱點分布及領(lǐng)域走向,揭示了研究主題的外表特征,且圖譜的數(shù)據(jù)為科學(xué)、客觀地分析教育大數(shù)據(jù)提供了依據(jù)。
國際教育大數(shù)據(jù)研究10年來發(fā)文數(shù)量及引文數(shù)量統(tǒng)計與分析結(jié)果如圖1、圖2所示。從圖中可以看出,國際教育大數(shù)據(jù)研究的發(fā)文數(shù)量2007至2013逐年增長,2013達到一個小高峰,2014年有所回落,但比較穩(wěn)定;2015至2016年關(guān)于教育大數(shù)據(jù)研究又開始受到更多研究者的關(guān)注,2016年又達到頂峰。而引文數(shù)量在2008-2012年亦逐年增長,且增速比較顯著。結(jié)合圖1和圖2來看,發(fā)文數(shù)量越多,相應(yīng)的引文數(shù)量也越多,其走向有著密切的相關(guān)性。說明了隨著大數(shù)據(jù)時代的到來,教育大數(shù)據(jù)研究越來越受重視。
圖1 年度發(fā)文數(shù)量
圖2 年度引文數(shù)量
在CiteSpace V中設(shè)置時間切片為1,時間設(shè)置為2007-2017年,分析對象同時選擇“Institution”和“Country”,選擇 TopN,N 值設(shè)為 50,采用 Pathfinder(尋徑)算法,運行CiteSpace V,得到教育大數(shù)據(jù)國家和地區(qū)圖譜,如圖3所示。
圖3 教育大數(shù)據(jù)研究國家(地區(qū))及機構(gòu)圖譜
其中,圓形節(jié)點代表國家(地區(qū)),處于連接線上的小節(jié)點代表機構(gòu)。圓圈的大小代表發(fā)文數(shù)量,圓圈越大表示發(fā)文數(shù)量越多;節(jié)點間的連線代表合作程度,節(jié)點間的連線越多,表示合作越密切;節(jié)點最外層的紫色圓環(huán)代表中心性,中心性越大,表示在該領(lǐng)域內(nèi)影響力越大。[6]從圖3中可以看出,節(jié)點最大的國家是美國(USA),其次是西班牙(SPAIN)。
從表1中可見,被引頻次最高的是美國,文獻貢獻率最大,接下來是西班牙、澳大利亞、英國、土耳其、加拿大。從整個圖譜來看,美國最外層的紫色圓環(huán)最大,節(jié)點中心性最高,說明美國在教育大數(shù)據(jù)領(lǐng)域占有領(lǐng)先地位。同時,美國與其他國家的節(jié)點間連線較多。由此可見,圖譜中絕大多數(shù)國家與美國有合作關(guān)系。
美國關(guān)于教育大數(shù)據(jù)研究機構(gòu)主要集中在大學(xué)和科技公司(Microsoft),如普渡大學(xué)、斯坦福大學(xué)、美國佐治亞大學(xué)、匹茲堡大學(xué)等;西班牙的主要研究機構(gòu)有科爾多瓦大學(xué)、馬德里科技大學(xué)、西班牙格拉納達大學(xué)等;澳大利亞主要有莫納什大學(xué)、堪培拉大學(xué)、麥考瑞大學(xué)等;英國主要研究機構(gòu)有倫敦大學(xué)、諾丁漢大學(xué)、英國普利茅斯大學(xué)等;土耳其具有代表性的機構(gòu)有哈希德佩大學(xué)、加齊大學(xué)等;加拿大主要研究機構(gòu)有皇家大學(xué)、卡爾加里大學(xué)等。這些國家和機構(gòu)在教育大數(shù)據(jù)研究方向占有重要地位,研究者給予了更多關(guān)注。
在CiteSpace V軟件界面中選擇分析對象為關(guān)鍵詞(Keyword),其余設(shè)置不變。運行軟件,得到關(guān)于教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜,如圖4所示。圖譜中,節(jié)點(圓圈)大小代表關(guān)鍵詞共現(xiàn)頻次,圓圈內(nèi)環(huán)不同顏色代表其出現(xiàn)的相應(yīng)年份,節(jié)點紫色圓環(huán)(在黑白圖中用圓環(huán)粗細顯示)表示關(guān)鍵詞具有高度中心性。中心性越高的節(jié)點,對其他節(jié)點間的聯(lián)系起控制作用,這也體現(xiàn)其在整個網(wǎng)絡(luò)中的重要地位。[7]
表1 教育大數(shù)據(jù)研究力量分布統(tǒng)計
圖4 關(guān)鍵詞共現(xiàn)圖譜
圖4揭示了國際教育大數(shù)據(jù)研究熱點,節(jié)點最大的是“data mining(數(shù)據(jù)挖掘)”,具體包括“education(教育)”、“performance (績效)”、“high education (高等教育)”、“model (模型)”、“technology (技術(shù))”、“education data mining (教育數(shù)據(jù)挖掘)”、“big data (大數(shù)據(jù))”、“l(fā)earning analytics(學(xué)習(xí)分析)”。通過合并同義詞后,從運行結(jié)果中導(dǎo)出前被引頻次大于10的關(guān)鍵詞,如表2所示。
表2 被引頻次>10的關(guān)鍵詞排列表
結(jié)合圖4所示圖譜中關(guān)鍵詞的圓圈大小、紫色圓環(huán)粗細,以及表3所示關(guān)鍵詞中心性大小,可以發(fā)現(xiàn)頻次排在前9的關(guān)鍵詞,其中心性都較高,并處于圖譜中心位置,表示它們與其他關(guān)鍵詞存在著緊密的關(guān)聯(lián)性,節(jié)點年輪較為突出。綜合分析發(fā)現(xiàn),2007-2017年教育大數(shù)據(jù)研究的關(guān)注點主要在“data mining(數(shù)據(jù)挖掘)”、“performance(績效)”、“education(教育)”、“big data(大數(shù)據(jù))”、“higher education(高等教育)”、“technology(技術(shù))”、“l(fā)earning analytics (學(xué)習(xí)分析)”、“education data mining(教育數(shù)據(jù)挖掘)”,在教育大數(shù)據(jù)研究中占有重要地位。
表3 關(guān)鍵詞中心性排列表
在線教育和大數(shù)據(jù)時代背景下,計算機領(lǐng)域(數(shù)據(jù)挖掘)與教育領(lǐng)域相結(jié)合是一種必然的趨勢。大數(shù)據(jù)在教育領(lǐng)域中的應(yīng)用主要有學(xué)習(xí)分析(Learning Analytics)和教育數(shù)據(jù)挖掘(Education data mining)。[8]利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時進行干預(yù),有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。目前,教育大數(shù)據(jù)研究領(lǐng)域的熱點,主要是圍繞大數(shù)據(jù)的概念表征、教育(高等教育)、數(shù)據(jù)挖掘以及學(xué)習(xí)分析等基礎(chǔ)理論的研究。
教育大數(shù)據(jù)研究也存在一些亟待解決的問題。其一,教育數(shù)據(jù)由教育者和受教育者進行教學(xué)活動所產(chǎn)生,對主導(dǎo)-主體相結(jié)合的教學(xué)行為和學(xué)習(xí)行為,具有潛在的應(yīng)用價值,但也涉及教師和學(xué)生的隱私,保護不當會帶來嚴重的后果。其二,在算法研究上要加大安全系數(shù),以防黑客惡意入侵(如2017年5月份出現(xiàn)的勒索病毒攻擊教育網(wǎng)站及幾所高校導(dǎo)致畢業(yè)論文系統(tǒng)癱瘓)。
本節(jié)對教育大數(shù)據(jù)進行知識基礎(chǔ)的分析,目的是對研究某領(lǐng)域的發(fā)展歷程和前沿有一個清晰的了解。其中主要包括奠基性文獻分析和關(guān)鍵性文獻分析。
(1)奠基性文獻分析
文獻共被引圖譜反映了對應(yīng)研究領(lǐng)域的知識基礎(chǔ)。若兩篇文獻同時被其他文獻引用,則這兩篇文獻間就存在共被引關(guān)系。參考文獻通過共被引關(guān)系構(gòu)成了文獻共被引圖譜。在圖譜中,節(jié)點表示參考文獻,節(jié)點間的連線表示其間存在共被引關(guān)系。[9]連線的粗細表征了共被引的強弱。知識基礎(chǔ)分析有利于研究某領(lǐng)域的前沿和本質(zhì),由共引聚類來表示,共引聚類中的文獻越多,其知識基礎(chǔ)越大并趨于穩(wěn)定狀態(tài)。[10]教育大數(shù)據(jù)研究的知識基礎(chǔ)分析大致可分為兩類:一是早期研究的奠基性文獻,二是被引頻次和中心性都較高的文獻。
在CiteSpace V軟件中,分析對象選擇“Cited Reference”,以 Thresholding(c,cc,ccv),c(引文數(shù)量)、cc(共被引頻次)和ccv(共被引系數(shù))三個層次上,分別設(shè)定閾值為(2,2,20),運行軟件,得到關(guān)于教育大數(shù)據(jù)研究的共引文獻時間序列圖譜,如圖5所示。
圖5 共引文獻時間序列圖譜
由圖5可知,大數(shù)據(jù)研究的奠基性文獻最早可追溯到 2008 年,Borgman 在《LEARNED PUBLISHING》上出版的《Data,disciplines,and scholarly publishing》。 同樣在2008年,Erik W.Black在 Internet and Higher Education上發(fā)表的《Data for free:Using LMS activity logs to measure community in online courses》。此外還有Beer D于2009年發(fā)表在《New Media&Society》上的《Power through the al gorithm?Participatory web cultures and the technological unconscious》等文獻。
Borgman認為研究數(shù)據(jù)可以被重復(fù)使用,復(fù)制研究,以提出新的問題,并驗證研究結(jié)果。數(shù)據(jù)正在成為學(xué)識或?qū)W問的重要產(chǎn)物,在補充期刊文章、論文和書籍中所起的作用。文中指出當鏈接到出版物和其他相關(guān)資源以形成價值鏈時,數(shù)據(jù)變得更加有價值。數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,出版物的在線可用性和學(xué)者發(fā)表文章的初衷也不盡相同。出版社、學(xué)者和圖書館員都可以在構(gòu)建數(shù)字化研究的信息基礎(chǔ)設(shè)施方面發(fā)揮作用。技術(shù)、政策和機構(gòu)組成部分正在逐漸成熟,在公共存儲庫中實現(xiàn)大量的數(shù)據(jù)集,以及與出版商數(shù)據(jù)庫的鏈接,是維護和維持數(shù)字形式的學(xué)術(shù)記錄的最有希望的解決方案。[11]
Beer在文中指出,對Web 2.0版本的描述通常被理解為大規(guī)模地轉(zhuǎn)向Web的參與式和協(xié)作版本,用戶可以在其中參與和創(chuàng)建內(nèi)容。事實上,迄今為止還沒有機會探索在這種明顯的“賦權(quán)”和“民主化”的背景下如何發(fā)揮作用。本文認為,這是一個迫切需要關(guān)注的問題。[12]后Web2.0時代是網(wǎng)絡(luò)發(fā)展中一個重要階段,它連接著下一代互聯(lián)網(wǎng)Web3.0。在這個時代背景下,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù)?!按髷?shù)據(jù)的出現(xiàn)究竟帶來了什么”,必須對這些問題進行深入的思考。
2011年,Mackenzie、Adrian等人在文中指出,連接代碼和編碼、“危機”的產(chǎn)生式和對“危機”的擔(dān)憂為探索的主題。從中分析了當代生活中越來越多的各種各樣的代碼如何受到危機擴散的嚴重影響。討論了跨越這些看似多樣化主題的代碼和危機耦合的三個相關(guān)方面(Signification意義,Performativity操演和Excess過度)。跨越這些看似不同的主題,作者和這個特殊問題中的其他貢獻者試圖超越對代碼語言限制的理解。[13]隨著大數(shù)據(jù)時代的到來這些問題顯得尤為明顯,隨之而來的教育大數(shù)據(jù)也必然存在這樣的問題,研究者應(yīng)該予以重視。
2012年,BoydD 在 《Information Communication&Society》上發(fā)表的文章《CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon》,作者提出了大數(shù)據(jù)的關(guān)鍵性問題:大型搜索數(shù)據(jù)是否能幫助我們創(chuàng)造更好的工具、服務(wù)和公共產(chǎn)品,還是會迎來新一輪的隱私入侵和侵入性營銷;數(shù)據(jù)分析是否能幫助我們了解在線社區(qū)和政治運動,還是使用分析來跟蹤抗議者和抑制言論;大數(shù)據(jù)會改變我們?nèi)绾窝芯咳穗H交往和文化,還是縮小研究選擇范圍,并改變“研究”的意義。文章將大數(shù)據(jù)定義為一種文化、技術(shù)和學(xué)術(shù)現(xiàn)象,并論述了六個值得深思的代表性觀點:①大數(shù)據(jù)改變了知識的定義。②聲稱客觀性和準確性是誤導(dǎo)性的。③更大的數(shù)據(jù)并不總是更好的數(shù)據(jù)。④脫離上下文,大數(shù)據(jù)將失去意義。⑤只是因為它是可訪問的并不會使其受倫理約束。⑥有限的獲取大數(shù)據(jù)帶來了新的數(shù)字鴻溝。[14]
2013年 Eynon Rebecca在《The rise of Big Data:what does it mean foreducation,technology,and media research?》一文中提出了三組大數(shù)據(jù)在教育領(lǐng)域中的挑戰(zhàn):①道德挑戰(zhàn),大數(shù)據(jù)代表了一系列倫理道德方面的考慮,特別是要考慮關(guān)于隱私、知情同意和對傷害的防護等方面,并提出了更廣泛的問題——應(yīng)該將哪些數(shù)據(jù)結(jié)合和分析,以及運用其達到何種目的。②確保了解使用大數(shù)據(jù)可以或不能執(zhí)行的研究種類。③圍繞不平等問題的挑戰(zhàn)。除此之外作者提出了一些實際問題——大家如何熟練地進行這種分析、在多學(xué)科團隊中學(xué)習(xí)與他人合作是否足夠。[15]這些問題的提出為后期研究者繼續(xù)研究教育大數(shù)據(jù)時提供參考,有利于問題進一步得到解決。
2014年Di Cerbo和Behrens在《Impacts of the Digital Ocean on Education》一文中提出了“數(shù)字海洋”概念,“數(shù)字海洋”用來描述與數(shù)字工具交互獲得的超大規(guī)模數(shù)據(jù)。正如“大數(shù)據(jù)”正在轉(zhuǎn)變其他行業(yè),如保險、金融、零售和職業(yè)體育,“數(shù)字海洋”將及時轉(zhuǎn)變教育。它將解決一些長期困擾教育工作者的問題,從而實現(xiàn)從課堂到整個系統(tǒng)的各個層面的循證政策的長期愿望。[16]文中通過設(shè)定一個希望取得成功的愿景:他們將教學(xué)、學(xué)習(xí)和評估視為一個綜合過程的三個不同方面,隨時/實時互相補充;他們看到更復(fù)雜的教育成果,如個人和個人的技能,并使之變得可評估、可教導(dǎo)和可學(xué)習(xí)。但是,作者也對讀者提出了要求——在21世紀的學(xué)習(xí)中,對學(xué)習(xí)、推理和技術(shù)從不同角度進行思考。
(2)關(guān)鍵性文獻分析
關(guān)鍵性文獻指被引頻次或中心性比較高的文獻。在CiteSpace V 中,分析對象選擇“Cited Reference”,運行CiteSpace軟件得到文獻共被引圖譜,便于直觀地呈現(xiàn)關(guān)鍵節(jié)點文獻,如圖6所示。
圖6 文獻共被引圖譜
根據(jù)軟件運行結(jié)果,將被引頻次排前10的文獻導(dǎo)出,如表4所示。
表4 被引頻次前10的文獻
結(jié)合圖6和表4可知,來自科瓦多爾大學(xué)教授Romero Cristobal在 2010年發(fā)表的 《Educational Data Mining:A Review of the State of the Art》一文被引頻次13次,中心性0.50,影響力較大,是教育大數(shù)據(jù)領(lǐng)域的關(guān)鍵性文獻。文中調(diào)查了迄今為止在教育領(lǐng)域進行的最相關(guān)的研究。首先介紹EDM(教育數(shù)據(jù)挖掘),并描述不同用戶組,教育環(huán)境類型及其提供的數(shù)據(jù)。然后,列出通過數(shù)據(jù)挖掘技術(shù)解決的教育環(huán)境中最典型/最常見的任務(wù),最后討論一些最有潛力的未來研究課題。文中對EDM方面進行了最新情況的回顧,并對該領(lǐng)域迄今為止最為相關(guān)的研究工作進行了調(diào)查。對每個研究都進行了分類,這些研究類目來自不同的研究平臺(e-learning/LMS和ITS/AEHS),使用了不同的數(shù)據(jù)挖掘技術(shù)或方法(決策樹、神經(jīng)網(wǎng)絡(luò)以及貝葉斯網(wǎng)絡(luò)),完成數(shù)據(jù)挖掘任務(wù)(回歸、聚類、分類以及關(guān)聯(lián)規(guī)則挖掘)。[17]教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題,教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。
Romero Cristobal在2007年發(fā)表的論文《Educational data mining:A survey from 1995 to 2005》被引頻次10次,中心性0.37,是教育大數(shù)據(jù)研究領(lǐng)域的關(guān)鍵性文獻之一。文中提出了在教育系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘的循環(huán)模型,是集形成假設(shè)、測試和修復(fù)的迭代循環(huán)系統(tǒng)。并指出數(shù)據(jù)挖掘技術(shù)可以探測出有用的信息,用于形成性評估,以協(xié)助教育者,為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。[18]文中對數(shù)據(jù)挖掘在教育系統(tǒng)中應(yīng)用的多角度分析,包括面向?qū)W生、教師、學(xué)術(shù)負責(zé)人和管理員,為后期教育大數(shù)據(jù)研究模型的構(gòu)建做出了重要貢獻。
懷卡托大學(xué)的計算機科學(xué)系教授Witten I在2005年編著了一本數(shù)據(jù)挖掘領(lǐng)域經(jīng)典教材 《Data Mining:Practical Machine Learning Tools and Techniques,Second Edition》(《數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)》),自第一版出版后對上一版內(nèi)容進行了全面更新:數(shù)據(jù)挖掘領(lǐng)域的技術(shù)變革和新方法,包括數(shù)據(jù)轉(zhuǎn)換、集成學(xué)習(xí)、大規(guī)模數(shù)據(jù)集、多示例學(xué)習(xí)方面的新材料,以及新版的Weka機器學(xué)習(xí)軟件。[19]機器學(xué)習(xí)(Machine Learning)是計算機科學(xué)的一個子領(lǐng)域,機器學(xué)習(xí)關(guān)注預(yù)測,是對已知的特性進行預(yù)測。數(shù)據(jù)挖掘使用機器學(xué)習(xí)的手法,關(guān)注從數(shù)據(jù)中發(fā)現(xiàn)未知的特性。因此,這本專著屬于教育大數(shù)據(jù)領(lǐng)域研究的關(guān)鍵性文獻之一,為后續(xù)教育大數(shù)據(jù)研究提供了參考和線索。
本文以Web of Science核心合集中SCI和SSCI兩個數(shù)據(jù)庫收錄的近年來教育大數(shù)據(jù)研究文獻為來源,通過使用CiteSpace V軟件,對客觀呈現(xiàn)的圖表信息從教育大數(shù)據(jù)的研究力量分布、知識基礎(chǔ)及研究熱點等方面進行分析。
圖譜揭示教育大數(shù)據(jù)研究的外部特征表明,研究力量主要分布于普渡大學(xué)、斯坦福大學(xué)及微軟科技公司為核心的研究團體,其中最大的研究群體是普渡大學(xué)。西班牙地域的主要研究機構(gòu)有科爾多瓦大學(xué),其他研究群都含有多個機構(gòu)。Romero C作為學(xué)科研究的領(lǐng)軍人物,文獻貢獻量最大,影響力較高。Witten I和Yacef K等作為學(xué)科研究帶頭人,學(xué)術(shù)研究貢獻量較大。
教育大數(shù)據(jù)共引文獻時間序列圖譜及文獻共被引圖譜顯示了教育大數(shù)據(jù)研究的知識基礎(chǔ)。數(shù)據(jù)可以復(fù)制利用已被證實,通過高精儀器的科學(xué)與工程研究,正在以更高的速度生成比以往任何時候都要多的數(shù)據(jù)。隨著在網(wǎng)絡(luò)世界中對教育、商業(yè)和社會活動更多的交流和溝通,正在形成廣泛的數(shù)字化跟蹤,產(chǎn)生一系列行為數(shù)據(jù),這些數(shù)據(jù)對人類活動的建模和對個人反饋的定制非常有價值?!按髷?shù)據(jù)的出現(xiàn)究竟帶來了什么”,必須對這個問題進行深入的思考。
關(guān)鍵性文獻分析表明,經(jīng)典國外文獻為國內(nèi)的教育大數(shù)據(jù)研究提供了豐富的理論基礎(chǔ)和分析框架,主要涉及數(shù)據(jù)挖掘在教育系統(tǒng)中運用循環(huán)模型,以協(xié)助教育者,為設(shè)計教學(xué)情境修改教學(xué)方法時提供決策并建立教學(xué)基礎(chǔ)。教育數(shù)據(jù)挖掘是一個新興的跨學(xué)科研究領(lǐng)域,主要任務(wù)是開發(fā)一些用于探索源自教育環(huán)境中數(shù)據(jù)的方法。為了研究教育問題,教育數(shù)據(jù)挖掘使用計算方法來分析教育數(shù)據(jù)。
關(guān)鍵詞共現(xiàn)圖譜直觀呈現(xiàn)了國外教育大數(shù)據(jù)研究熱點,主要包括數(shù)據(jù)挖掘、學(xué)習(xí)分析、教育數(shù)據(jù)挖掘。利用數(shù)據(jù)挖掘和學(xué)習(xí)分析技術(shù)可以依據(jù)學(xué)習(xí)者學(xué)習(xí)行為有效預(yù)測學(xué)習(xí)者學(xué)習(xí)偏好,跟蹤學(xué)習(xí)者學(xué)習(xí)狀態(tài),必要時進行干預(yù),有助于提高學(xué)習(xí)效果并實現(xiàn)個性化教學(xué)。
目前,大數(shù)據(jù)在教育領(lǐng)域中面臨三大挑戰(zhàn),也就是研究領(lǐng)域所關(guān)注的三個值得研究的問題:其一,數(shù)據(jù)越大是否就是好數(shù)據(jù),由于數(shù)據(jù)的類型和用途在學(xué)科之間差異很大,須考慮教育領(lǐng)域大數(shù)據(jù)的準確性和可行性;其二,采集的大數(shù)據(jù)是否滿足可證偽條件,教育領(lǐng)域大數(shù)據(jù)只有滿足了可證偽條件的驗證,方能保證大數(shù)據(jù)的客觀性和準確性;其三,限制性采集大數(shù)據(jù)所創(chuàng)建的新數(shù)據(jù)是否會形成信息孤島從而影響數(shù)據(jù)共享,限制性地獲取教育大數(shù)據(jù),易形成數(shù)字鴻溝,從而影響數(shù)據(jù)共享??傊?,為了保證教育大數(shù)據(jù)的均衡發(fā)展,需要在安全、應(yīng)用、治理方面進行深入研究。
[1]維克托·邁爾-舍恩伯格著,盛揚燕、周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2012.
[2]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015(9):54-61,69.
[3]馬費成,張勤.國內(nèi)外知識管理研究熱點——基于詞頻的統(tǒng)計分析[J].情報學(xué)報,2006,25(2):163-171.
[4]羅式勝.文獻計量學(xué)概論[M].廣州:中山大學(xué)出版社,1994.
[5]Chen C.M.Cite Space II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for information Science and Technology,2006,57(3),359-377.
[6]何曉萍,江毅,萬昆.基于 Web of Science 的MOOC研究可視化分析[J].現(xiàn)代情報,2015(8):92-99.
[7]陳超美.Cite SpaceⅡ:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009,28(3):401-402.
[8]Bienkowski,M.,Feng,M.&Means,B.(2012).Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief[EB/OL].http://www.ed.gov/edblogs/technology/files/edm-la-brief.pdf.
[9]Small H.Co-citation in Scientific Literature:New Measure of Relationship between 2 Documents[J].Journal of the American Society For Information Science,1973,24(4):265-269.
[10]Persson O.The intellectual base and research fronts of JASIS 1986-1990[J].Journal of the American Society for Information Science,1994,45(1):31-38.
[11]Borgman C L.Data,disciplines,and scholarly publishing[M].Learned Publishing,2008,21(1):29-38.
[12]Beer D.Power through the algorithm?Participatory web cultures and the technological unconscious[J].NEW MEDIA SOC,2009,11(6):985-1002.
[13]Mackenzie A,Vurdubakis,T.Codes and Codings in Crisis Signification,Performativity and Excess[J].Theory Culture&Society,2011,28(6):3-23.
[14]Boyd,D.CRITICAL QUESTIONS FOR BIG DATA Provocations for a cultural,technological,and scholarly phenomenon[J].Information Communication&Society,2012,15(5):662-679.
[15]Eynon R.The rise of Big Data:what does it mean for education,technology,and media research?[J].Learning Media and Technology,2013,38(3):237-240.
[16]Di Cerbo.K.E.&Behrens,J.T.(2014)Impacts of the Digital Ocean[M].London:Pearson.
[17]Romero C.Educational Data Mining:A Review of the State of the Art[J].IEEETRANSACTIONS ON SYSTEMS MAN AND CYBERNETICS PART C-APPLICATIONS AND REVIEWS,2010,40(6):601-608.
[18]Remero C.Educational data mining:A survey from 1995 to 2005[J].Expert Systems with Applications,33(2007):135-146.
[19]IanH.Witten,EibeFrank.Data mining:practical machine learning tools and techniques=數(shù)據(jù)挖掘:實用機器學(xué)習(xí)技術(shù)/2nd[M].China Machine Press,2005.