邢蓓蓓 楊現(xiàn)民 李勤生
?
教育大數(shù)據(jù)的來源與采集技術(shù)
邢蓓蓓1楊現(xiàn)民2李勤生3
(1.江蘇師范大學(xué)化學(xué)化工學(xué)院,江蘇徐州 221116;2.江蘇師范大學(xué)智慧教育研究中心,江蘇徐州 221116;3.河北省沙河市孔莊學(xué)區(qū),河北沙河 054100)
教育數(shù)據(jù)的全面、自然、動(dòng)態(tài)、持續(xù)采集是構(gòu)建教育大數(shù)據(jù)的基礎(chǔ)性和先導(dǎo)性工作。業(yè)務(wù)的差異性直接導(dǎo)致教育數(shù)據(jù)來源更加多元、數(shù)據(jù)采集更加復(fù)雜。文章探討了教育大數(shù)據(jù)的來源,認(rèn)為教育大數(shù)據(jù)產(chǎn)生于各種教育實(shí)踐活動(dòng),核心數(shù)據(jù)源頭是“人”和“物”;介紹了4大類、13種常見數(shù)據(jù)采集技術(shù),包括物聯(lián)感知類技術(shù)、視頻錄制類技術(shù)、圖像識(shí)別類技術(shù)以及平臺(tái)采集類技術(shù),指出每類技術(shù)采集的數(shù)據(jù)范圍和重點(diǎn)有所不同;總結(jié)了教育數(shù)據(jù)采集的注意事項(xiàng):要提前規(guī)劃設(shè)計(jì),要有清晰的邊界,要保持連續(xù)性和規(guī)范性,采集粒度要盡可能小,采集過程要符合倫理道德。
教育大數(shù)據(jù);數(shù)據(jù)來源;采集技術(shù);注意事項(xiàng)
2015年是中國的教育大數(shù)據(jù)元年[1],政府、企業(yè)、學(xué)校、研究者、管理者、教師、社會(huì)公眾等都開始關(guān)注教育大數(shù)據(jù),相關(guān)政策文件、研究機(jī)構(gòu)、學(xué)術(shù)活動(dòng)、市場產(chǎn)品等開始紛紛出現(xiàn)。然而,我國的教育大數(shù)據(jù)研究與實(shí)踐領(lǐng)域整體還處于起步探索階段,是在“摸著石頭過河”,涉及一系列關(guān)鍵問題亟待解決(如教育數(shù)據(jù)的自然采集、教育數(shù)據(jù)的安全管理與隱私保護(hù)、教育數(shù)據(jù)的無縫流轉(zhuǎn)與開放共享、教育數(shù)據(jù)的深度挖掘以及學(xué)習(xí)分析等)。其中,教育數(shù)據(jù)的全面、自然、動(dòng)態(tài)、持續(xù)采集是構(gòu)建教育大數(shù)據(jù)的基礎(chǔ)性和先導(dǎo)性工作,這就需要厘清一些基本問題:教育數(shù)據(jù)的產(chǎn)生源頭在哪里?哪些數(shù)據(jù)需要采集?有哪些常用的數(shù)據(jù)采集技術(shù)?采集時(shí)需要注意什么?本文嘗試回答上述問題。
教育是一個(gè)超復(fù)雜的系統(tǒng),涉及教學(xué)、管理、教研、服務(wù)等諸多業(yè)務(wù)。與金融系統(tǒng)具有清晰、規(guī)范、一致化的業(yè)務(wù)流程所不同的是,不同地區(qū)、不同學(xué)校的教育業(yè)務(wù)雖然具有一定的共性,但差異性也很突出,而業(yè)務(wù)的差異性直接導(dǎo)致教育數(shù)據(jù)來源更加多元、數(shù)據(jù)采集更加復(fù)雜。
教育大數(shù)據(jù)產(chǎn)生于各種教育實(shí)踐活動(dòng),既包括校園環(huán)境下的教學(xué)活動(dòng)、管理活動(dòng)、科研活動(dòng)以及校園生活,也包括家庭、社區(qū)、博物館、圖書館等非正式環(huán)境下的學(xué)習(xí)活動(dòng);既包括線上的教育教學(xué)活動(dòng),也包括線下的教育教學(xué)活動(dòng)。教育大數(shù)據(jù)的核心數(shù)據(jù)源頭是“人”和“物”——“人”包括學(xué)生、教師、管理者和家長,“物”包括信息系統(tǒng)校園網(wǎng)站、服務(wù)器、多媒體設(shè)備等各種教育裝備。
圖1 教育大數(shù)據(jù)的來源
依據(jù)來源和范圍的不同,可以將教育大數(shù)據(jù)分為個(gè)體教育大數(shù)據(jù)、課程教育大數(shù)據(jù)、班級(jí)教育大數(shù)據(jù)、學(xué)校教育大數(shù)據(jù)、區(qū)域教育大數(shù)據(jù)、國家教育大數(shù)據(jù)等六種,它們從下向上、從小到大逐級(jí)匯聚[2]:①個(gè)體教育大數(shù)據(jù)包括教育部2012年正式發(fā)布的《教育管理信息化系列行業(yè)標(biāo)準(zhǔn)(教技[2012]3號(hào))》中規(guī)定采集的教職工與學(xué)生的基礎(chǔ)信息、用戶各種行為數(shù)據(jù)(如學(xué)生隨時(shí)隨地的學(xué)習(xí)行為記錄、管理人員的各種操作行為記錄、教師的教學(xué)行為記錄等)以及用戶狀態(tài)描述數(shù)據(jù)(如學(xué)習(xí)興趣、動(dòng)機(jī)、健康狀況等);②課程教育大數(shù)據(jù)是指圍繞課程教學(xué)而產(chǎn)生的相關(guān)教育數(shù)據(jù),包括課程基本信息、課程成員、課程資源、課程作業(yè)、師生交互行為、課程考核等數(shù)據(jù),其中課程成員數(shù)據(jù)來自個(gè)體層,用于描述與學(xué)生課程學(xué)習(xí)相關(guān)的個(gè)人信息;③班級(jí)教育大數(shù)據(jù)是指以班級(jí)為單位采集的各種教育數(shù)據(jù),包括班級(jí)每位學(xué)生的作業(yè)數(shù)據(jù)、考試數(shù)據(jù)、各門課程學(xué)習(xí)數(shù)據(jù)、課堂實(shí)錄數(shù)據(jù)、班級(jí)管理數(shù)據(jù)等;④學(xué)校教育大數(shù)據(jù)主要包括標(biāo)準(zhǔn)規(guī)定的各種學(xué)校管理數(shù)據(jù)(如概況、學(xué)生管理、辦公管理、科研管理、財(cái)務(wù)管理等)、課堂教學(xué)數(shù)據(jù)、教務(wù)數(shù)據(jù)、校園安全數(shù)據(jù)、設(shè)備使用與維護(hù)數(shù)據(jù)、教室實(shí)驗(yàn)室等使用數(shù)據(jù)、學(xué)校能耗數(shù)據(jù)以及校園生活數(shù)據(jù);⑤區(qū)域教育大數(shù)據(jù)主要來自各學(xué)校以及社會(huì)培訓(xùn)與在線教育機(jī)構(gòu),包括國家標(biāo)準(zhǔn)規(guī)定的教育行政管理數(shù)據(jù)、區(qū)域教育云平臺(tái)產(chǎn)生的各種行為與結(jié)果數(shù)據(jù)、區(qū)域教研等所需的各種教育資源、各種區(qū)域?qū)用骈_展的教學(xué)教研與學(xué)生競賽活動(dòng)數(shù)據(jù)以及各種社會(huì)培訓(xùn)與在線教育活動(dòng)數(shù)據(jù);⑥國家教育大數(shù)據(jù)主要匯聚了來自各區(qū)域產(chǎn)生的各種教育數(shù)據(jù),側(cè)重教育管理類數(shù)據(jù)的采集。
教育數(shù)據(jù)的采集需要綜合應(yīng)用多種技術(shù),每種技術(shù)采集的數(shù)據(jù)范圍和重點(diǎn)都有所不同。圖2展示了教育數(shù)據(jù)采集的技術(shù)體系,共包括4大類、13種常見數(shù)據(jù)采集技術(shù)。
1 物聯(lián)感知類技術(shù)
該類技術(shù)主要包括物聯(lián)網(wǎng)感知技術(shù)、可穿戴設(shè)備技術(shù)和校園一卡通技術(shù)。其中,物聯(lián)網(wǎng)感知技術(shù)主要用于采集設(shè)備狀態(tài)數(shù)據(jù),可穿戴設(shè)備技術(shù)主要用于采集個(gè)體生理數(shù)據(jù)與學(xué)習(xí)行為數(shù)據(jù),校園一卡通技術(shù)則主要用于采集各種校園生活數(shù)據(jù)。
物聯(lián)網(wǎng)感知技術(shù)是實(shí)現(xiàn)萬物相連的前提,是采集物理世界信息的重要渠道[3]。目前在教育領(lǐng)域利用物聯(lián)網(wǎng)感知技術(shù)采集基礎(chǔ)信息,主要通過傳感器和電子標(biāo)簽等方式進(jìn)行——通常情況下,傳感器用來感知采集點(diǎn)的環(huán)境參數(shù),電子標(biāo)簽用于對(duì)采集點(diǎn)的信息進(jìn)行標(biāo)識(shí)。而對(duì)于采集后的信息數(shù)據(jù),需經(jīng)過無線網(wǎng)絡(luò)上傳至網(wǎng)絡(luò)信息中心進(jìn)行存儲(chǔ),并利用各種智能技術(shù)對(duì)感知數(shù)據(jù)進(jìn)行分析處理以實(shí)現(xiàn)智能控制。學(xué)校的教室設(shè)備、會(huì)議設(shè)備、實(shí)驗(yàn)器材等分布離散、信息透明度小、管理難度大,通過給這些物理教學(xué)設(shè)備粘貼RFID標(biāo)簽或傳感器,分配專人管理,可以實(shí)現(xiàn)統(tǒng)一管理和調(diào)度,有效檢測(cè)設(shè)備的工作狀態(tài)。
圖2 教育大數(shù)據(jù)采集技術(shù)圖譜
可穿戴設(shè)備技術(shù)可以把多媒體、傳感器和無線通信等技術(shù)嵌入人們的衣著中,支持手勢(shì)和眼動(dòng)操作等多種交互方式[4]。近年來,智能眼鏡、智能手表、智能手環(huán)等新產(chǎn)品的不斷出現(xiàn),形態(tài)各異的可穿戴設(shè)備正在逐步融入人們的日常生活與工作中。可穿戴設(shè)備技術(shù)為自然采集學(xué)習(xí)者的學(xué)習(xí)、生活和身體數(shù)據(jù)提供了可能。通過佩戴相關(guān)設(shè)備可以實(shí)時(shí)記錄學(xué)習(xí)者的運(yùn)動(dòng)狀態(tài)、呼吸量、血壓、運(yùn)動(dòng)量、睡眠質(zhì)量等生理狀態(tài)數(shù)據(jù),以及學(xué)習(xí)者學(xué)習(xí)的時(shí)間、內(nèi)容、地點(diǎn)、使用的設(shè)備等學(xué)習(xí)信息。除此之外,可穿戴設(shè)備技術(shù)還可以與虛擬仿真、增強(qiáng)現(xiàn)實(shí)技術(shù)相結(jié)合,優(yōu)化內(nèi)容呈現(xiàn)方式、豐富學(xué)習(xí)環(huán)境,對(duì)學(xué)習(xí)者的所見、所聞、所感進(jìn)行全息記錄。
校園一卡通技術(shù)是以校園網(wǎng)為載體,以電子和信息技術(shù)為輔助手段,集身份識(shí)別、校務(wù)管理以及各項(xiàng)校園服務(wù)等應(yīng)用項(xiàng)目為一體的完整系統(tǒng)[5],可以采集的數(shù)據(jù)范圍包括:餐飲消費(fèi)、洗浴收費(fèi)、超市購物、運(yùn)動(dòng)健身、課堂考勤、圖書借閱、銀行轉(zhuǎn)賬、上機(jī)收費(fèi)、學(xué)生選課、學(xué)生補(bǔ)助、就醫(yī)買藥等,幾乎涵蓋了校園生活的方方面面。部分地區(qū)的校園一卡通系統(tǒng)還與城市交通、醫(yī)療等系統(tǒng)關(guān)聯(lián),學(xué)生可以方便地使用一卡通坐公交、地鐵,購買藥物等。這些數(shù)據(jù)的采集不僅對(duì)于教育管理有價(jià)值,對(duì)于整個(gè)城市的管理與規(guī)劃也有重要意義。
2 視頻錄制類技術(shù)
該類技術(shù)主要包括視頻監(jiān)控技術(shù)、智能錄播技術(shù)與情感識(shí)別技術(shù)。其中,視頻監(jiān)控技術(shù)主要用于采集校園安全數(shù)據(jù),智能錄播技術(shù)主要用于采集課堂教學(xué)數(shù)據(jù),情感識(shí)別技術(shù)主要用于采集學(xué)生學(xué)習(xí)過程中的情感數(shù)據(jù)。
校園安全監(jiān)控系統(tǒng)是一套旨在用于全面、實(shí)時(shí)監(jiān)控校園運(yùn)行情況,跟蹤學(xué)生出入學(xué)校情況,從而準(zhǔn)確監(jiān)控和預(yù)測(cè)校園中可能發(fā)生的危機(jī)地點(diǎn),實(shí)現(xiàn)校園防火防盜和綜合等安全管理工作的系統(tǒng)[6]。校園安全監(jiān)控系統(tǒng)的核心技術(shù)是視頻監(jiān)控,主要借助不同監(jiān)控點(diǎn)的攝像機(jī)采集整個(gè)校園數(shù)據(jù),以服務(wù)于學(xué)校管理中心、市教育局監(jiān)控中心等不同監(jiān)控單位來實(shí)時(shí)診斷校園安全。視頻監(jiān)控系統(tǒng)能夠?qū)崿F(xiàn)對(duì)學(xué)生教師以及校外人員出入校園情況的監(jiān)控,實(shí)現(xiàn)對(duì)校園異常情況如對(duì)突發(fā)性奔跑、人員密集等進(jìn)行預(yù)警,實(shí)現(xiàn)對(duì)校園設(shè)備的全面監(jiān)控與管理,實(shí)現(xiàn)對(duì)各班級(jí)情況的有效監(jiān)控[7]。
智能錄播系統(tǒng)通過先進(jìn)的流媒體及智能化全自動(dòng)控制技術(shù),可以實(shí)時(shí)、自動(dòng)地采集課堂教學(xué)數(shù)據(jù),并同步實(shí)現(xiàn)在校園網(wǎng)或Internet上的視頻直播以及遠(yuǎn)程互動(dòng)教學(xué)功能,成為網(wǎng)上可實(shí)時(shí)直播、點(diǎn)播的學(xué)習(xí)資源,全真再現(xiàn)課堂教學(xué)的全過程[8]。智能錄播系統(tǒng)主要通過教室內(nèi)3臺(tái)可跟蹤定位的攝像機(jī),來實(shí)時(shí)采集教學(xué)過程中的視頻與音頻信息。此外,智能錄播系統(tǒng)還通過對(duì)電子白板的錄屏采集教學(xué)課件,最終形成3份不同角度的課堂實(shí)錄視頻、教學(xué)課件錄像以及定制的合成視頻。通過在教室中安裝智能錄播系統(tǒng)來實(shí)時(shí)采集課堂中教師的提問、引導(dǎo)、評(píng)價(jià)等教學(xué)行為,可以完整采錄教師在教學(xué)中使用課件的內(nèi)容、使用的時(shí)間以及使用的方法,還可以采集到學(xué)生課堂上的回答內(nèi)容、記錄、傾聽以及走神等行為。
情感識(shí)別技術(shù)通過觀察人的表情、行為和情感產(chǎn)生的前提環(huán)境來推斷情感狀態(tài),其基本目的在于賦予計(jì)算機(jī)像人一樣觀察、理解和生成各種情感特征的能力。目前,情感識(shí)別技術(shù)主要通過面部表情和語音特征來提取情感信息。情感是影響線上線下學(xué)習(xí)效果的重要變量,學(xué)習(xí)過程中的情感數(shù)據(jù)采集至關(guān)重要。通過情感識(shí)別技術(shù)可以即時(shí)判斷學(xué)生的情緒狀態(tài),進(jìn)而提供針對(duì)性的支持服務(wù)。以在線學(xué)習(xí)為例,當(dāng)學(xué)生在學(xué)習(xí)過程中出現(xiàn)煩躁情緒時(shí),通過情感識(shí)別技術(shù),系統(tǒng)可以給予學(xué)生適當(dāng)?shù)墓膭?lì)或者減慢學(xué)習(xí)進(jìn)度;當(dāng)學(xué)生感到枯燥乏味、情緒低落時(shí),系統(tǒng)可以適當(dāng)降低內(nèi)容難度并給出調(diào)動(dòng)學(xué)生積極性的鼓勵(lì)話語;當(dāng)學(xué)生感到充滿自信時(shí),系統(tǒng)可以根據(jù)學(xué)生的水平提供更具挑戰(zhàn)性的學(xué)習(xí)內(nèi)容與材料[9]。
當(dāng)前,主流的情感識(shí)別技術(shù)是基于面部表情特征的情感計(jì)算,該技術(shù)通過攝像頭實(shí)時(shí)采集學(xué)習(xí)者的臉部五官位置、肌肉運(yùn)動(dòng)等表情特征值來進(jìn)行情緒識(shí)別。除此之外,還可以實(shí)時(shí)采集學(xué)習(xí)者的語音、文本、繪圖等輸入信息,對(duì)其中蘊(yùn)含的情緒信息進(jìn)行內(nèi)容挖掘和智能分析識(shí)別。近年來,隨著人類對(duì)人腦結(jié)構(gòu)認(rèn)識(shí)的不斷深入,未來基于腦電波的情感識(shí)別采集技術(shù)將成為情感數(shù)據(jù)采集和情感識(shí)別的重要渠道。
3 圖像識(shí)別類技術(shù)
圖像識(shí)別類技術(shù)是人工智能的一個(gè)重要領(lǐng)域,是指利用計(jì)算機(jī)對(duì)圖像進(jìn)行匹配、處理、分析,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù)[10],主要包括網(wǎng)評(píng)網(wǎng)閱技術(shù)、點(diǎn)陣數(shù)碼筆技術(shù)與拍照搜題技術(shù)。其中,網(wǎng)評(píng)網(wǎng)閱技術(shù)主要用于采集學(xué)生考試成績數(shù)據(jù),點(diǎn)陣數(shù)碼筆技術(shù)主要用于采集各種作業(yè)、練習(xí)、考試數(shù)據(jù),拍照搜題技術(shù)主要用于采集學(xué)生作業(yè)練習(xí)數(shù)據(jù)。
互聯(lián)網(wǎng)閱卷系統(tǒng)是目前中考、高考、英語四級(jí)或六級(jí)考試等大型考試活動(dòng)慣用的閱卷技術(shù),是學(xué)生考試成績數(shù)據(jù)的重要采集技術(shù)。閱卷系統(tǒng)以計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和圖像處理技術(shù)為依托,采用專業(yè)掃描閱讀設(shè)備,對(duì)各類考試答卷和文檔進(jìn)行掃描和處理,實(shí)現(xiàn)客觀題機(jī)器自動(dòng)評(píng)卷以及主觀題教師網(wǎng)絡(luò)高效評(píng)卷。隨著試題庫系統(tǒng)以及人工智能技術(shù)的不斷發(fā)展,一些產(chǎn)品已實(shí)現(xiàn)對(duì)部分主觀題的自動(dòng)評(píng)閱。
點(diǎn)陣數(shù)碼筆是一種新型高科技紙面書寫工具。通過在普通紙張上印刷一層不可見的點(diǎn)陣圖案,點(diǎn)陣數(shù)碼筆前端的高速攝像頭能隨時(shí)捕捉筆尖的運(yùn)動(dòng)軌跡,同時(shí)將數(shù)據(jù)傳回?cái)?shù)據(jù)處理器,最終將信息經(jīng)由藍(lán)牙或者USB線向外傳輸[11]。點(diǎn)陣數(shù)碼筆既可以保存學(xué)習(xí)者的最終書寫結(jié)果,又可以記錄學(xué)習(xí)者的書寫過程信息,如書寫方式、書寫順序、書寫時(shí)間等,還可以結(jié)合書寫或者繪畫過程同步錄入聲音,采集書寫時(shí)的情景信息。點(diǎn)陣數(shù)碼筆是一種非常自然的書寫數(shù)據(jù)采集工具,十分貼近用戶的日常書寫習(xí)慣,因此有望成為作業(yè)、練習(xí)數(shù)據(jù)的主導(dǎo)采集工具。
拍照搜題技術(shù)是圖像識(shí)別技術(shù)在教育領(lǐng)域的應(yīng)用形式之一,主要通過終端設(shè)備(如智能手機(jī)、平板等)來獲取相關(guān)題目的照片,繼而由系統(tǒng)根據(jù)已有的題庫進(jìn)行自動(dòng)匹配、處理與分析,最終篩選出與圖片最為相似的題目、答案及其解答思路。市場上越來越多的作業(yè)題庫產(chǎn)品開始提供拍照搜題功能,為學(xué)生日常作業(yè)練習(xí)數(shù)據(jù)的采集提供了很好的渠道。拍照搜題技術(shù)除了可以實(shí)現(xiàn)題目答案的檢索,還可以通過拍照上傳的方式存儲(chǔ)學(xué)生的作業(yè)練習(xí)結(jié)果以及過程數(shù)據(jù)。這些數(shù)據(jù)通過軟件平臺(tái)的處理分析,可以有效服務(wù)于教師的教學(xué)決策和學(xué)生的自我診斷。
4 平臺(tái)采集類技術(shù)
該類技術(shù)主要包括在線學(xué)習(xí)與管理平臺(tái)技術(shù)、日志搜索分析技術(shù)、移動(dòng)APP技術(shù)與網(wǎng)絡(luò)爬蟲采集技術(shù)。其中,在線學(xué)習(xí)與管理平臺(tái)技術(shù)主要用于采集各種在線學(xué)習(xí)與管理數(shù)據(jù),日志搜索分析技術(shù)主要用于采集運(yùn)維日志與用戶日志數(shù)據(jù),移動(dòng)APP技術(shù)主要用于采集各種移動(dòng)學(xué)習(xí)過程數(shù)據(jù),網(wǎng)絡(luò)爬蟲采集技術(shù)主要用于采集教育輿情數(shù)據(jù)。
在線學(xué)習(xí)與管理平臺(tái)是當(dāng)前教育數(shù)據(jù)采集的重要載體,可以采集大多數(shù)網(wǎng)上學(xué)習(xí)、教研與管理活動(dòng)數(shù)據(jù)。各種在線學(xué)習(xí)類平臺(tái)與管理類平臺(tái),因定位和功能的不同,其支持采集的教育數(shù)據(jù)范圍和類型也有所不同——通常情況下,在線學(xué)習(xí)類平臺(tái)主要負(fù)責(zé)采集課程學(xué)習(xí)數(shù)據(jù),如課程基本信息、課程資源、課程作業(yè)、師生交互信息、課程考核結(jié)果等;管理類平臺(tái)(如資產(chǎn)管理系統(tǒng)、人事管理系統(tǒng)等)主要負(fù)責(zé)學(xué)籍、設(shè)備資產(chǎn)、科研、財(cái)務(wù)、人事等信息的采集與管理。除了使用專門的在線學(xué)習(xí)與管理平臺(tái)采集數(shù)據(jù)外,還可以通過第三方的插件來采集數(shù)據(jù),如基于火狐瀏覽器的油猴腳本可以自動(dòng)采集BlackBoard平臺(tái)中的交互數(shù)據(jù),包括學(xué)生信息交互頻次、交互內(nèi)容以及交互的方向等[12]。
日志文件中存儲(chǔ)了大量的用戶以及系統(tǒng)的操作信息,通過日志搜索分析技術(shù)可以有效篩選出有用的信息。日志搜索分析技術(shù)是指通過日志管理工具,對(duì)日志進(jìn)行集中采集和實(shí)時(shí)索引,提供搜索、分析、可視化和監(jiān)控等,最終實(shí)現(xiàn)對(duì)線上業(yè)務(wù)的實(shí)時(shí)監(jiān)控、業(yè)務(wù)異常原因定位、業(yè)務(wù)日志數(shù)據(jù)統(tǒng)計(jì)分析以及安全與合規(guī)審計(jì)[13]。日志搜索分析技術(shù)一方面可以實(shí)時(shí)監(jiān)控教育設(shè)備及資產(chǎn)的運(yùn)行狀況,如設(shè)備耗電量、故障信息、安全威脅等,為智能運(yùn)維提供數(shù)據(jù)支撐;另一方面可以詳細(xì)記錄用戶的操作行為,如系統(tǒng)登錄次數(shù)、登錄時(shí)間、增刪查改等基本信息,用于教師、學(xué)生以及管理者的行為模式診斷。
近年來,隨著移動(dòng)終端和通訊技術(shù)的發(fā)展,移動(dòng)APP技術(shù)逐漸成為移動(dòng)學(xué)習(xí)過程數(shù)據(jù)采集的主導(dǎo)技術(shù)。從本質(zhì)上來看,移動(dòng)APP技術(shù)與在線學(xué)習(xí)與管理平臺(tái)技術(shù)類似,只是采集渠道來自于移動(dòng)終端,采集方式更加靈活、多樣。學(xué)生可以通過無線網(wǎng)絡(luò),使用移動(dòng)終端(如智能手機(jī)、平板、PDA等)與云端學(xué)習(xí)平臺(tái)進(jìn)行互動(dòng)。通過結(jié)合移動(dòng)終端的定位技術(shù),系統(tǒng)將實(shí)時(shí)采集學(xué)習(xí)者的學(xué)習(xí)地點(diǎn)、學(xué)習(xí)時(shí)間、學(xué)習(xí)內(nèi)容以及學(xué)習(xí)狀態(tài)等信息,以服務(wù)于教師對(duì)學(xué)生學(xué)習(xí)情況的實(shí)時(shí)監(jiān)測(cè),進(jìn)而實(shí)現(xiàn)個(gè)性化智能輔導(dǎo)。
網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序或自動(dòng)化腳本,是搜索引擎的重要組成部分[14]。網(wǎng)絡(luò)爬蟲類產(chǎn)品如八爪魚采集器、網(wǎng)頁抓取軟件等,在數(shù)據(jù)采集領(lǐng)域有著廣泛的應(yīng)用,可以定期實(shí)時(shí)采集各大門戶網(wǎng)站數(shù)據(jù)、監(jiān)控各大社交網(wǎng)站、博客,自動(dòng)抓取企業(yè)產(chǎn)品的相關(guān)評(píng)論。隨著互聯(lián)網(wǎng)新媒體(如門戶網(wǎng)站、微博、微信)的興起,教育領(lǐng)域的信息傳播呈現(xiàn)出傳播速度快、波及范圍廣和內(nèi)容多樣化的特點(diǎn)。網(wǎng)絡(luò)爬蟲采集技術(shù)可以實(shí)時(shí)監(jiān)控、采集教育領(lǐng)域網(wǎng)絡(luò)輿情數(shù)據(jù),從而為有效處理各種突發(fā)事件提供可能。
數(shù)據(jù)采集是建設(shè)教育大數(shù)據(jù)的基礎(chǔ)性、先導(dǎo)性工作。隨著很多新型技術(shù)(如眼動(dòng)追蹤技術(shù)、語音交互技術(shù)、體感技術(shù)等)的逐步成熟,將有越來越多的數(shù)據(jù)采集技術(shù)應(yīng)用到教育領(lǐng)域,推動(dòng)教育大數(shù)據(jù)更加實(shí)時(shí)、連續(xù)、便捷的采集。為了保證高質(zhì)量教育數(shù)據(jù)的可持續(xù)性采集,教育數(shù)據(jù)采集在實(shí)踐過程中需要注意如下事項(xiàng):
1 要提前規(guī)劃設(shè)計(jì)
教育大數(shù)據(jù)的建設(shè)與應(yīng)用是一項(xiàng)系統(tǒng)工程,需要進(jìn)行頂層設(shè)計(jì),以便有目的、有序地采集高質(zhì)量教育數(shù)據(jù)。規(guī)劃設(shè)計(jì)的內(nèi)容包括:數(shù)據(jù)采集的范圍、使用的數(shù)據(jù)采集技術(shù)、數(shù)據(jù)采集環(huán)境的部署、數(shù)據(jù)采集質(zhì)量的保障措施、采集數(shù)據(jù)的應(yīng)用目的和場景、數(shù)據(jù)的存儲(chǔ)方案、數(shù)據(jù)的更新機(jī)制、數(shù)據(jù)的交換標(biāo)準(zhǔn)等。
不同層級(jí)的教育數(shù)據(jù)采集應(yīng)當(dāng)有不同的側(cè)重點(diǎn)——國家教育大數(shù)據(jù)和區(qū)域教育大數(shù)據(jù)應(yīng)以管理類數(shù)據(jù)采集為主,同時(shí)注重與人口、社會(huì)、醫(yī)療、交通等領(lǐng)域大數(shù)據(jù)的關(guān)聯(lián)交叉分析與挖掘,重點(diǎn)服務(wù)教育政策的制定以及區(qū)域教育的均衡發(fā)展;學(xué)校、班級(jí)、課程大數(shù)據(jù)應(yīng)以教與學(xué)活動(dòng)數(shù)據(jù)采集為主,重點(diǎn)服務(wù)教學(xué)質(zhì)量的提升;個(gè)體大數(shù)據(jù)應(yīng)以學(xué)習(xí)者個(gè)體的行為數(shù)據(jù)、狀態(tài)數(shù)據(jù)、情境數(shù)據(jù)等采集為主,重點(diǎn)服務(wù)學(xué)習(xí)者的個(gè)性化學(xué)習(xí)診斷和個(gè)性化發(fā)展。
2 要有清晰的邊界
大數(shù)據(jù)雖然具有混雜性、來源多樣性等特征,數(shù)據(jù)的存儲(chǔ)成本也越來越低,但并非要囊括一切數(shù)據(jù),沒有價(jià)值的數(shù)據(jù)是不值得收集和分析的。教育大數(shù)據(jù)同樣如此,其采集應(yīng)當(dāng)有清晰的邊界,而非盲目采集任何教育活動(dòng)數(shù)據(jù)。究竟要采集哪些數(shù)據(jù),取決于數(shù)據(jù)的應(yīng)用目的。舉個(gè)例子,為了檢測(cè)評(píng)估學(xué)生的學(xué)習(xí)進(jìn)展,就需要對(duì)課程瀏覽、作業(yè)練習(xí)、交流互動(dòng)、提問答疑等數(shù)據(jù)進(jìn)行實(shí)時(shí)采集和分析,而不必采集學(xué)生的飲食、運(yùn)動(dòng)等數(shù)據(jù)。當(dāng)然,我們并不否認(rèn)飲食、運(yùn)動(dòng)等數(shù)據(jù)在診斷學(xué)生體質(zhì)狀況方面的價(jià)值。這里所提的“數(shù)據(jù)邊界”是相對(duì)于具體的應(yīng)用目的而言的,任何數(shù)據(jù)分析模型的構(gòu)建都需要依賴特定的數(shù)據(jù)集合,唯有如此才能保證分析模型的有效性和分析結(jié)果的應(yīng)用價(jià)值。
3 要保持連續(xù)性和規(guī)范性
很多時(shí)候,僅憑某個(gè)學(xué)生的一次作業(yè)成績并不能說明什么問題,但如果將一個(gè)班級(jí)每位學(xué)生歷次的作業(yè)成績數(shù)據(jù)甚至包括作業(yè)的過程數(shù)據(jù)都全部采集到,便可以客觀評(píng)估學(xué)生的整體學(xué)習(xí)效果、發(fā)現(xiàn)學(xué)習(xí)盲點(diǎn)、診斷教學(xué)難點(diǎn),開展針對(duì)性教學(xué)和個(gè)別化輔導(dǎo),這時(shí)的作業(yè)數(shù)據(jù)便具有了“大”價(jià)值。
教育大數(shù)據(jù)的采集應(yīng)秉持“持續(xù)創(chuàng)造價(jià)值,規(guī)范提升價(jià)值”的理念。教育數(shù)據(jù)的采集一方面應(yīng)當(dāng)保持連續(xù)性,即根據(jù)前期規(guī)劃設(shè)計(jì),定期、連續(xù)、有規(guī)律地采集各種教育數(shù)據(jù),通過長時(shí)間累計(jì)從小數(shù)據(jù)生成大數(shù)據(jù);另一方面,為了保證后期數(shù)據(jù)的融通互換和一致化處理,教育數(shù)據(jù)的采集應(yīng)遵循特定的技術(shù)標(biāo)準(zhǔn)和規(guī)范。目前,全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育技術(shù)分技術(shù)委員會(huì)已在教育信息化標(biāo)準(zhǔn)研制方面做了大量的工作,有些技術(shù)標(biāo)準(zhǔn)已經(jīng)成為國標(biāo),各應(yīng)用系統(tǒng)的研發(fā)應(yīng)當(dāng)遵循教育管理信息化標(biāo)準(zhǔn)、教育資源建設(shè)標(biāo)準(zhǔn)等。此外,國際上一些通用標(biāo)準(zhǔn)也值得借鑒,如IMS-QTI(問題與測(cè)試交互)標(biāo)準(zhǔn)、xAPI(學(xué)習(xí)體驗(yàn)記錄)規(guī)范等。
4 采集粒度要盡可能小
數(shù)據(jù)粒度是指數(shù)據(jù)的細(xì)化和綜合程度[15]。一般來說,細(xì)化程度越高,粒度越?。患?xì)化程度越低,粒度越大。呂海燕等[16]認(rèn)為,數(shù)據(jù)采集應(yīng)處于一個(gè)合適的粒度級(jí)別,粒度的級(jí)別既不能太高也不能太低。這是因?yàn)?,低的粒度?jí)別能提供詳盡的數(shù)據(jù),但要占用較多的存儲(chǔ)空間、需要較長的查詢時(shí)間;高的粒度級(jí)別能快速方便地進(jìn)行查詢,但不能提供過細(xì)的數(shù)據(jù)。
就教育大數(shù)據(jù)采集而言,在保證數(shù)據(jù)有效性的基礎(chǔ)上,數(shù)據(jù)粒度應(yīng)盡可能細(xì),以便從中挖掘更多的潛在價(jià)值。傳統(tǒng)的教育數(shù)據(jù)以分?jǐn)?shù)為核心,一份作業(yè)、一張?jiān)嚲碜詈蟛杉降膬H僅是一個(gè)表征成績的數(shù)字符號(hào),即采集的數(shù)據(jù)粒度比較大。如果基于在線學(xué)習(xí)平臺(tái)或點(diǎn)陣數(shù)碼筆技術(shù)能夠采集到每個(gè)學(xué)生的答題過程,如做題的順序、每道題的停留時(shí)間、答案修改次數(shù)等更細(xì)化的過程記錄數(shù)據(jù),便能更加精準(zhǔn)地判斷學(xué)生在哪些知識(shí)點(diǎn)存有疑惑和答錯(cuò)的具體原因(馬虎大意還是未掌握知識(shí))。因此,可以說“小顆粒匯聚大數(shù)據(jù),大數(shù)據(jù)蘊(yùn)藏大價(jià)值”。
5 采集過程要符合倫理道德
數(shù)據(jù)隱私與安全一直是大數(shù)據(jù)發(fā)展的障礙之一。教育數(shù)據(jù)的采集源頭來自廣大學(xué)生、教師、家長以及學(xué)校,數(shù)據(jù)繁雜多樣,其中成績、排名、家庭背景等諸多信息涉及個(gè)人隱私。目前,國內(nèi)在教育數(shù)據(jù)隱私保護(hù)方面的法律法規(guī)還不健全,學(xué)校、教育機(jī)構(gòu)等學(xué)生數(shù)據(jù)的保護(hù)意識(shí)亟待加強(qiáng)。由于監(jiān)管不到位,教育行業(yè)中不乏一些為了商業(yè)利益而私售師生以及家長信息的不良企業(yè)。
不管出于研究、管理還是商業(yè)目的,任何教育數(shù)據(jù)在采集之前,都應(yīng)當(dāng)遵循教育數(shù)據(jù)采集倫理道德規(guī)范(建議相關(guān)部門盡快編制),數(shù)據(jù)產(chǎn)生主體也應(yīng)當(dāng)享有一定的知情權(quán)和選擇權(quán)。數(shù)據(jù)采集的初衷和最終目的應(yīng)該本著“服務(wù)教育發(fā)展、服務(wù)師生成長”的理念,而非盲目采集或基于利益驅(qū)動(dòng)去采集數(shù)據(jù)。
[1]楊現(xiàn)民,唐斯斯,李冀紅.教育大數(shù)據(jù)的技術(shù)體系框架與發(fā)展趨勢(shì)——“教育大數(shù)據(jù)研究與實(shí)踐專欄”之整體框架篇[J].現(xiàn)代教育技術(shù),2016,(1):5-12.
[2]楊現(xiàn)民,王榴卉,唐斯斯.教育大數(shù)據(jù)的應(yīng)用模式與政策建議[J].電化教育研究,2015,(9):54-61.
[3]李盧一,鄭燕林.物聯(lián)網(wǎng)在教育中的應(yīng)用[J].現(xiàn)代教育技術(shù),2010,(2):8-10.
[4]湖北省科學(xué)技術(shù)廳.可穿戴技術(shù)[OL].
[5]張升平.數(shù)字化校園之校園一卡通的建設(shè)[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,(1):56-59.
[6]朱琳.基于云計(jì)算的分布式校園視頻監(jiān)控系統(tǒng)的設(shè)計(jì)[J].計(jì)算機(jī)測(cè)量與控制,2013,(10):2676-2679.
[7]李勝,呼家龍,劉俞.RFID智慧校園安防管理系統(tǒng)研究與應(yīng)用[J].現(xiàn)代教育技術(shù),2013,(3):95-99.
[8]張飛碧.全自動(dòng)智能錄播系統(tǒng)的架構(gòu)分析[J].中國電化教育,2008,(5):104-108.
[9]趙力,黃程韋.實(shí)用語音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,(2):157-170.
[10]吳小菁,陳星娥.遺傳算法在圖像識(shí)別技術(shù)中的應(yīng)用[J].保山學(xué)院學(xué)報(bào),2013,(5):67-69.
[11]劉增輝.基于數(shù)碼筆的答題紙系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,(8):240-243.
[12]Macfadyen L P, Dawson S. Mining LMS data to develop an “early warning system” for educators: A proof of concept[J]. Computers & Education, 2010,(2):588-599.
[13]日志易.日志易產(chǎn)品概述[OL].
[14]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010,(15):4112-4115.
[15]李靜.數(shù)據(jù)倉庫中的數(shù)據(jù)粒度確定原則[J].計(jì)算機(jī)與現(xiàn)代化,2007,(2):57-58、61.
[16]呂海燕,車曉偉.數(shù)據(jù)倉庫中數(shù)據(jù)粒度的劃分[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,(9):2323-2325、2328.
Source and Acquisition Technology of Big Data in Education
XING Bei-bei1YANG Xian-min2LI Qin-sheng3
The comprehensiveness, naturalness, dynamics and continuous acquisition is the foundational and precursory work in the construction of educational big data. Differences in service would directly cause the source of educational data more multivariate and the acquisition of data more complicated. This paper discussed the source of big data in education, and proposed that big data in education derived from all kinds of educational activities and the core data sources were “persons” and “things”; introduced four categories and thirteen kinds of data acquisition technologies that were commonly used in educational field, including internet of things perception technology, video recording technology, image recognition technology and platform acquisition technology, and pointed that the difference appeared in the ranges and emphases of each type of data acquisition technologies; concluded some attention items for educational data acquisition: pre-planning and designing, having a clear boundary, maintaining the continuity and normativity, making the granularity of acquisition as small as possible, making the acquisition process conform to the ethics and morality.
big data in education; data source; acquisition technology; attention items
G40-057
A
1009—8097(2016)08—0014—08
10.3969/j.issn.1009-8097.2016.08.002
本文為江蘇省普通高校專業(yè)學(xué)位研究生實(shí)踐創(chuàng)新計(jì)劃項(xiàng)目“初中化學(xué)立體化閱讀材料的創(chuàng)新設(shè)計(jì)與應(yīng)用研究”、江蘇高校優(yōu)勢(shì)學(xué)科建設(shè)工程資助項(xiàng)目“江蘇師范大學(xué)教育學(xué)省優(yōu)勢(shì)學(xué)科建設(shè)”(項(xiàng)目編號(hào):蘇政辦發(fā)〔2014〕37號(hào))、江蘇高校品牌專業(yè)建設(shè)工程資助項(xiàng)目的階段性研究成果。
邢蓓蓓,在讀碩士,助理實(shí)驗(yàn)師,研究方向?yàn)榧夹g(shù)增強(qiáng)學(xué)習(xí)、科學(xué)閱讀材料設(shè)計(jì),郵箱為xingbeibei8888@163.com。
2016年5月13日
編輯:小西