李愛霞 舒 杭 顧小清
(1.華東師范大學 教育信息技術(shù)學系,上海 200062; 2. 江南大學 教育信息化研究中心,江蘇無錫 215000 )
在智能時代,融合AI、大數(shù)據(jù)技術(shù)構(gòu)建“教育大腦”可實現(xiàn)對教育系統(tǒng)的全局性即時分析,促進教育數(shù)據(jù)資源、教學資源、人力資源等有效調(diào)配,進而達到精準的、個性化的可持續(xù)性教育價值挖掘與開發(fā),是實現(xiàn)智慧教育體系的關(guān)鍵。近幾年,國家強調(diào)教育智能化建設(shè)(國務(wù)院,2017),大力推進智能教育,推動人工智能在教學、管理等方面的全流程應(yīng)用,利用智能技術(shù)加快推動人才培養(yǎng)模式、教學方法改革,通過人工智能等技術(shù)為教育賦能的訴求愈發(fā)緊迫。如何將智能技術(shù)與教育融合,顧小清等(2021)提出人工智能大腦的隱喻,指出人工智能大腦為教育數(shù)據(jù)治理與教學創(chuàng)新提供了方向、過程以及結(jié)果,進而形塑智能化、精準化、適切化的教育生態(tài)系統(tǒng)。
但怎樣構(gòu)建教育大腦?數(shù)據(jù)中臺的出現(xiàn)及其在數(shù)據(jù)融合、處理、分析和管理方面的優(yōu)勢,特別是在教育全息畫像、教育診斷、教育預(yù)測、教育干預(yù)等方面的技術(shù)突破,使構(gòu)建“教育人工智能大腦”成為可能。
總體而言,數(shù)據(jù)中臺是一種組織戰(zhàn)略,連接前后臺,使前臺能夠快速響應(yīng)業(yè)務(wù)變化,即能夠有效賦能前臺的公民數(shù)據(jù)用戶,再利用后臺的數(shù)據(jù)進行決策。高德納(Gatner,2016)的分層應(yīng)用策略報告,將網(wǎng)絡(luò)業(yè)務(wù)系統(tǒng)分為前臺、中臺、后臺,中臺的核心作用是提升業(yè)務(wù)系統(tǒng)響應(yīng)能力與速度。付登坡等(2020)認為數(shù)據(jù)中臺的本質(zhì)是“數(shù)據(jù)倉庫+數(shù)據(jù)服務(wù)中間件”。數(shù)據(jù)中臺通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時統(tǒng)一標準和口徑(項陽,2020),生成數(shù)據(jù)資產(chǎn)及數(shù)據(jù)服務(wù)。數(shù)據(jù)中臺的核心是可持續(xù)地“讓數(shù)據(jù)用起來”,使得數(shù)據(jù)來源于業(yè)務(wù),反哺于業(yè)務(wù),不斷循環(huán)迭代,以促進數(shù)據(jù)的可見、可用和可運營。數(shù)據(jù)流轉(zhuǎn)不僅能降低重復建設(shè)、減少“煙囪式”協(xié)作的成本,還能實現(xiàn)系統(tǒng)發(fā)展的可持續(xù)優(yōu)化迭代(卜意磊等,2020)。
教育數(shù)據(jù)中臺是數(shù)據(jù)中臺在教育中的應(yīng)用,是為了滿足教育教學的特定化需求,對教育數(shù)據(jù)進行融合、處理,使之成為可理解、可使用、可管理的數(shù)據(jù)資產(chǎn),并將教育數(shù)據(jù)服務(wù)于教育體系(見圖1)。
圖1 教育數(shù)據(jù)中臺概念解構(gòu)
教育數(shù)據(jù)中臺的本質(zhì)是“數(shù)據(jù)倉庫+數(shù)據(jù)服務(wù)中間件”。這也是數(shù)據(jù)中臺與數(shù)據(jù)倉庫的區(qū)別。數(shù)據(jù)中臺不僅存儲數(shù)據(jù),還將數(shù)據(jù)服務(wù)于教育(付登波等,2020)。比如,它通過分析學生行為數(shù)據(jù)支持學生畫像刻畫,還可以根據(jù)教育需求提供針對性教育報告。教育數(shù)據(jù)中臺不是單純的技術(shù)疊加,不是技術(shù)化的大數(shù)據(jù)平臺。大數(shù)據(jù)平臺關(guān)心技術(shù)層面,比如研發(fā)效率、大數(shù)據(jù)處理等,針對的是技術(shù)人員,而數(shù)據(jù)中臺的核心是數(shù)據(jù)服務(wù)能力,結(jié)合實時的教育需求,通過數(shù)據(jù)建模賦能教育教學。數(shù)據(jù)中臺也是個不斷更新的體系,在教育服務(wù)過程中,持續(xù)迭代技術(shù)、數(shù)據(jù)建模。
數(shù)據(jù)中臺由四部分組成:技術(shù)體系、數(shù)據(jù)體系、服務(wù)體系和運營體系。技術(shù)體系主要實現(xiàn)大數(shù)據(jù)的存儲、處理、管理與應(yīng)用,以及支持中臺的構(gòu)建;數(shù)據(jù)體系是實現(xiàn)數(shù)據(jù)資產(chǎn)化的核心,使離散的數(shù)據(jù)成為可用的服務(wù)型數(shù)據(jù);服務(wù)體系是實現(xiàn)數(shù)據(jù)到產(chǎn)品落腳的關(guān)鍵,通過數(shù)據(jù)的可視化,實現(xiàn)用戶的畫像刻畫、管理、評價等,使數(shù)據(jù)與業(yè)務(wù)匹配;運營體系根據(jù)數(shù)據(jù)及用戶需求,實現(xiàn)產(chǎn)品的更新迭代及創(chuàng)建。
數(shù)據(jù)中臺的功能包括數(shù)據(jù)融合、數(shù)據(jù)加工、數(shù)據(jù)可視化、數(shù)據(jù)服務(wù)化。其中,數(shù)據(jù)融合回應(yīng)教育數(shù)據(jù)孤島問題,數(shù)據(jù)中臺提供統(tǒng)一、適配的一站式數(shù)據(jù)收集標準與方法,實現(xiàn)教育數(shù)據(jù)的收集與轉(zhuǎn)換;數(shù)據(jù)加工功能應(yīng)對教育數(shù)據(jù)資產(chǎn)化,通過數(shù)據(jù)處理,打通教學、學習與學校管理等的全域數(shù)據(jù)流,以統(tǒng)一的數(shù)據(jù)標準和質(zhì)量體系服務(wù)未來的教育;數(shù)據(jù)中臺智能化的數(shù)據(jù)管理方法應(yīng)對全域數(shù)據(jù)可視化展示,為教育數(shù)據(jù)使用者提供可視化數(shù)據(jù)圖譜;數(shù)據(jù)業(yè)務(wù)化應(yīng)對數(shù)據(jù)流轉(zhuǎn)問題,能運用機器學習、自然語言等人工智能方法將教育數(shù)據(jù)應(yīng)用于具體教育問題的解決,比如學習監(jiān)督與預(yù)測、學習畫像分析等。
總之,教育數(shù)據(jù)中臺是將教育數(shù)據(jù)轉(zhuǎn)變?yōu)榻逃a(chǎn)力的機制。
教育數(shù)據(jù)中臺的價值主要體現(xiàn)在兩個方面:技術(shù)價值和數(shù)據(jù)服務(wù)價值。技術(shù)方面,教育數(shù)據(jù)中臺融合Hadoop、MySQL、Oracle、Spark等技術(shù)架構(gòu),滿足教育場景對多數(shù)據(jù)并發(fā)處理的高量級數(shù)據(jù)處理需求,為教育數(shù)據(jù)的跨主題域訪問、量級數(shù)據(jù)標簽化、數(shù)據(jù)多線程并發(fā)處理等提供支持;教育服務(wù)方面,教育數(shù)據(jù)中臺以個性化學習為理念,通過對學生、教師等行為數(shù)據(jù)的全視域采集融合、處理分析,為學校教與學提供精準的決策支持,最終實現(xiàn)從“教育是什么”“為什么”“未來怎樣”以及“怎么應(yīng)對”的教育全域問題的精準解析,即教育全息畫像、教育診斷、教育預(yù)測、教育干預(yù)等技術(shù)突破,構(gòu)建“教育人工智能大腦”。
1.教育數(shù)據(jù)中臺明晰“教育發(fā)生”的真諦
教育數(shù)據(jù)中臺以教師、學生行為數(shù)據(jù)為來源,通過成熟的畫像技術(shù)實現(xiàn)教師、學生的多模態(tài)畫像智能生成,可視化呈現(xiàn)教師教育成果、教育過程及學生學習效果、學習過程等,告訴人們教育中發(fā)生了什么。其中,教師畫像包括教師特征模型、教研心理模型、社會交互模型、教研行為模型和教研成果模型(胡小勇等,2019)等,學生畫像主要有學生的認知、非認知、學習習慣等全息畫像。以上畫像是實現(xiàn)精準化教學素養(yǎng)提升以及個性化助學的基礎(chǔ),也是智能教育決策的前提,推動了教育由被動向主動轉(zhuǎn)變。
2.教育數(shù)據(jù)中臺支持教育診斷
教育數(shù)據(jù)中臺的另一應(yīng)用是實現(xiàn)智能的教育診斷:通過訪問智能硬件設(shè)備,管理具有集成服務(wù)的教育平臺及設(shè)備并從中獲取教育數(shù)據(jù);使用數(shù)據(jù)規(guī)則對教師教學、學生學習等活動進行及時的數(shù)據(jù)轉(zhuǎn)換,形成實時的智能洞察報告,進而診斷教育過程問題。比如,匯聚了學生學習知識圖譜數(shù)據(jù)后,數(shù)據(jù)中臺可跟蹤及可視化報告學生的知識完整度與不足,為教師全方位、立體地了解學生學習效果及干預(yù)提供參考。
3.教育數(shù)據(jù)中臺助推教育數(shù)據(jù)挖掘
教育中臺的更大價值在于對教師和學習者模型的挖掘和預(yù)測。教育數(shù)據(jù)挖掘研究的重點是建立從學生數(shù)據(jù)中提取隱藏知識的模型,從而提高學生學習成績。利用教育數(shù)據(jù)挖掘技術(shù),可將教育系統(tǒng)的原始數(shù)據(jù)轉(zhuǎn)化為有價值的信息,供教師、學生、家長、教育研究者、教育軟件開發(fā)人員等使用。其教育應(yīng)用主要有聚類、預(yù)測、分類等。例如,數(shù)據(jù)中臺可通過機器學習模型“學習”每個學生,找出他們的缺點,并確定改進的方法,如學習更多的課程或練習,也可以用來預(yù)測某一課程的入學人數(shù)(Yadav et al.,2012),預(yù)測傳統(tǒng)課堂教學模式的異化(Akinola et al.,2012),檢測在線考試中使用的不公平手段,檢測學生成績記錄的異常值,預(yù)測學生成績等。簡言之,數(shù)據(jù)中臺的數(shù)據(jù)挖掘和預(yù)測功能為教育提供了預(yù)測未來的“法眼”,是教育者有效教學的導航燈。
4.教育數(shù)據(jù)中臺助力教育決策
解決教育問題,完全依賴經(jīng)驗的模式已被淘汰。如何對教育進行智能的、個性化的決策支持是當前教育面臨的重要課題。教育數(shù)據(jù)中臺在基于全面的教育服務(wù)獲取豐富的教師及學生數(shù)據(jù),以及對他們?nèi)娈嬒竦幕A(chǔ)上,總結(jié)教育規(guī)律,實現(xiàn)教育資源的循環(huán)豐富完善、教育推薦路線的精準匹配等,為教育管理者、教師以及學習者提供精準的教育服務(wù)。具體而言,數(shù)據(jù)中臺可以根據(jù)學生畫像提供個性化學習資源推薦,如根據(jù)學生的認知特征、學習風格等進行準確定位,分析其潛在的學習需求,進而提供有針對性的學習資源、學習服務(wù)支持。例如,教育數(shù)據(jù)中臺能夠通過Apriori、DEA-BP等算法智能地從教學評價數(shù)據(jù)中提取潛在的規(guī)律和知識,為教學評價決策提供支持(Ma et al., 2021);還可集成神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、遺傳算法等模型,實現(xiàn)對教育質(zhì)量和教育投入的監(jiān)測,實現(xiàn)教育物質(zhì)資源、人力資源等的優(yōu)化配置及管理,提高教育服務(wù)質(zhì)量。
數(shù)據(jù)中臺打破傳統(tǒng)的“煙囪”式的產(chǎn)品應(yīng)用管理模式,疏通數(shù)據(jù)流轉(zhuǎn)通道。數(shù)據(jù)中臺擁有提供適配數(shù)據(jù)采集、轉(zhuǎn)換的完整的大數(shù)據(jù)軟硬件工具,能夠?qū)崟r、大批量地實現(xiàn)數(shù)據(jù)的采集和交換,且能夠根據(jù)業(yè)務(wù)層次需求,部署數(shù)據(jù)采集的來源與類型,從而協(xié)助定位、理解數(shù)據(jù),根據(jù)統(tǒng)一的標準工具與方法實現(xiàn)數(shù)據(jù)的標準化轉(zhuǎn)換。這與當前教育急需解決的數(shù)據(jù)零散、無法統(tǒng)一的需求緊密相關(guān)。
1. OneData數(shù)據(jù)資產(chǎn)化與服務(wù)化
建設(shè)數(shù)據(jù)中臺的最終目的是讓“數(shù)據(jù)用起來”,最終實現(xiàn)產(chǎn)品的創(chuàng)新,更新迭代。系統(tǒng)的技術(shù)、理念及方法都是可復制的。數(shù)據(jù)中臺的根本創(chuàng)新是將數(shù)據(jù)資產(chǎn)化,然后將資產(chǎn)化的數(shù)據(jù)作為生產(chǎn)資料應(yīng)用于業(yè)務(wù)價值的創(chuàng)造,持續(xù)產(chǎn)生價值。數(shù)據(jù)中臺不僅僅是技術(shù),更是一種從“技術(shù)優(yōu)先”到“數(shù)據(jù)優(yōu)先”的思維轉(zhuǎn)變,目標是讓數(shù)據(jù)持續(xù)用起來,通過數(shù)據(jù)中臺提供的工具、方法和運行機制,把數(shù)據(jù)變?yōu)榉?wù)能力,讓數(shù)據(jù)更方便地被業(yè)務(wù)所使用(付登波等,2020)。數(shù)據(jù)中臺遵循OneData的核心方法(見圖2),通過統(tǒng)一的數(shù)據(jù)標準收集、處理數(shù)據(jù),及對數(shù)據(jù)進行清洗、加工,使零散的數(shù)據(jù)變成可以用于教育管理、教學及學習場景的可應(yīng)用數(shù)據(jù),即數(shù)據(jù)資產(chǎn)。
2. OneModel和OneID實現(xiàn)數(shù)據(jù)的雙打通
1)OneModel打通跨平臺數(shù)據(jù)融合通道。中臺是統(tǒng)一數(shù)據(jù)格式、數(shù)據(jù)接口打通平臺間數(shù)據(jù)融合的通道。該方法實現(xiàn)數(shù)據(jù)的資產(chǎn)化構(gòu)建與管理,通過對數(shù)據(jù)的標準定義、數(shù)據(jù)質(zhì)量與安全控制將數(shù)據(jù)收集處理等技術(shù)形成完整的體系,進而對大批量數(shù)據(jù)進行智能化建模、梳理。
圖2 數(shù)據(jù)中臺OneData核心方法
2)OneID打通跨平臺的個人數(shù)據(jù)融合銜接通道。OneID的個人數(shù)據(jù)收集方法,使得不同平臺間的個人數(shù)據(jù)無縫銜接,可加速個人數(shù)據(jù)標簽化處理,實現(xiàn)全方位的個人畫像刻畫。兩種方式的結(jié)合可消除數(shù)據(jù)孤島,驅(qū)動數(shù)據(jù)價值化,更可實現(xiàn)智能化的數(shù)據(jù)管理。這與當前數(shù)據(jù)流通的需求不謀而合。
圖3 教育數(shù)據(jù)中臺技術(shù)架構(gòu)
3)OneService一體化數(shù)據(jù)服務(wù)。中臺針對產(chǎn)品的一體化服務(wù)體系,為數(shù)據(jù)到業(yè)務(wù)的落地提供技術(shù)保障。在數(shù)據(jù)資產(chǎn)化處理后,伴隨而來的是如何將數(shù)據(jù)應(yīng)用到實際教育場景,中臺的后續(xù)系統(tǒng)能夠通過ID實現(xiàn)多維數(shù)據(jù)鏈接,并根據(jù)標簽化的數(shù)據(jù)驅(qū)動業(yè)務(wù)提升,其中包括服務(wù)質(zhì)量、產(chǎn)品升級等,智能化地根據(jù)教學需求優(yōu)化教育環(huán)境、教學策略、教育管理等。
教育數(shù)據(jù)中臺作為促使教育數(shù)據(jù)用起來的機制,能實現(xiàn)“教育服務(wù)數(shù)據(jù)化”到“數(shù)據(jù)服務(wù)教育化”的循環(huán)。為了實現(xiàn)教育數(shù)據(jù)的大規(guī)模、高效率處理需求,數(shù)據(jù)中臺擁有PB級大規(guī)模數(shù)據(jù)管理能力,支持穿透數(shù)據(jù)庫、Hadoop、大規(guī)模MPP集群,實現(xiàn)PB級結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的多樣化海量數(shù)據(jù)的統(tǒng)一存儲、管理和分析。如何保證數(shù)據(jù)中臺持續(xù)、穩(wěn)定地運行,強大的技術(shù)架構(gòu)是基礎(chǔ),其中不僅包括基礎(chǔ)硬件設(shè)備技術(shù),還包括數(shù)據(jù)采集、存儲、轉(zhuǎn)換及開發(fā)的軟技術(shù),以及數(shù)據(jù)管理的理論技術(shù)。
教育大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析與應(yīng)用服務(wù)流程與環(huán)節(jié),融合以教育數(shù)據(jù)中臺不僅能夠支撐以上功能,并且設(shè)有數(shù)據(jù)治理層,支持教育數(shù)據(jù)的循環(huán)、序列及融合分析需求。本文將分別從教育數(shù)據(jù)采集層、數(shù)據(jù)存儲層、數(shù)據(jù)開發(fā)層、數(shù)據(jù)服務(wù)層和數(shù)據(jù)治理層,分析教育數(shù)據(jù)中臺的技術(shù)架構(gòu)(見圖3)。
1.數(shù)據(jù)采集層:全方位實時數(shù)據(jù)獲取
數(shù)據(jù)融合指數(shù)據(jù)中臺按照一定的規(guī)范,收集、關(guān)聯(lián)、整合不同的教育數(shù)據(jù)類型的過程,為后續(xù)的數(shù)據(jù)資產(chǎn)化做準備。教育數(shù)據(jù)來源的多樣性、數(shù)據(jù)類型的復雜性是教育數(shù)據(jù)融合的難點。當前教育數(shù)據(jù)來源主要有線上數(shù)據(jù)、線下數(shù)據(jù)和物聯(lián)感應(yīng)數(shù)據(jù),每種來源對應(yīng)的數(shù)據(jù)類型也不同:按教育場景分有課堂師生行為數(shù)據(jù)、戶外學習數(shù)據(jù)、網(wǎng)絡(luò)社交活動數(shù)據(jù)、成長經(jīng)歷數(shù)據(jù);根據(jù)數(shù)據(jù)類型分有結(jié)構(gòu)化數(shù)據(jù)(如學生成績等數(shù)據(jù))、半/非結(jié)構(gòu)化數(shù)據(jù)(如視頻、音頻、行為序列、文檔日志、文本等數(shù)據(jù))、物聯(lián)感應(yīng)數(shù)據(jù)(如一卡通或生理感應(yīng)數(shù)據(jù)等)。針對多樣化的數(shù)據(jù)來源,數(shù)據(jù)中臺具有適配性的數(shù)據(jù)采集及融合手段;從時效看,主要包括離線批處理和實時流處理數(shù)據(jù);從數(shù)據(jù)類型看,有結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
離線批處理一般用于對低時效的海量教育數(shù)據(jù)的周期性遷移,實現(xiàn)數(shù)據(jù)的全量或增量式數(shù)據(jù)存儲。離線批處理數(shù)據(jù)收集技術(shù)主要有開源工具(主要有Kettle、Sqoop、DataX)和服務(wù)器協(xié)議(FTP)兩種。Sqoop是解決結(jié)構(gòu)化數(shù)據(jù)和分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)之間數(shù)據(jù)轉(zhuǎn)移的軟件,可將關(guān)系型數(shù)據(jù)庫(如MySQL,Oracle,Postgres等)與Hadoop的HDFS的數(shù)據(jù)互相傳出。Kettle是開源的數(shù)據(jù)抽取-轉(zhuǎn)換-存儲工具(Extract-Transform-Load,ETL),適用于處理輕量級數(shù)據(jù),對大規(guī)模數(shù)據(jù)的清理則可能會因數(shù)據(jù)量大和清洗邏輯復雜導致數(shù)據(jù)傳輸效率打折扣。另外,該模式還可能清洗掉未被開發(fā)的數(shù)據(jù)。DataX是對結(jié)構(gòu)化數(shù)據(jù)進行插件式離線交換的工具,特別是異構(gòu)數(shù)據(jù)源的轉(zhuǎn)換、流量轉(zhuǎn)換、進度監(jiān)察等。
實時流處理主要用于采集APP、服務(wù)器日志、小程序、各種API接口及數(shù)據(jù)文件等實時數(shù)據(jù)。其中,記錄師生教與學的行為日志數(shù)據(jù)居多,且數(shù)據(jù)結(jié)構(gòu)多樣,來源環(huán)境復雜。針對這類數(shù)據(jù),研發(fā)人員常用實時日志采集引擎Flume,這是一款由Cloudera開發(fā)的,主打高并發(fā)、高速度、分布式海量日志采集的技術(shù)。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)并發(fā)送,用于采集數(shù)據(jù),且支持對數(shù)據(jù)的簡單處理,并寫到各種數(shù)據(jù)接收方。Wiki、論壇等產(chǎn)生的海量消息類數(shù)據(jù),可由分布式消息隊列技術(shù)Kafka收集和轉(zhuǎn)換。Kafka為實時數(shù)據(jù)提供統(tǒng)一、高吞吐、低延遲的平臺。
綜上,教育數(shù)據(jù)中臺既滿足異構(gòu)存儲、異構(gòu)數(shù)據(jù)類型的交換需要,還滿足不同時效數(shù)據(jù)的互通,但沒有哪種工具能兼顧所有需求。對此,數(shù)據(jù)中臺采用內(nèi)置離線和實時數(shù)據(jù)同步的策略,滿足復雜數(shù)據(jù)的融合。
2.數(shù)據(jù)存儲層:海量數(shù)據(jù)的“倉庫”
教育數(shù)據(jù)匯集后的海量級、多類型數(shù)據(jù)對傳統(tǒng)的數(shù)據(jù)存儲方式帶來巨大沖擊。以往教育中以關(guān)系型數(shù)據(jù)庫為主要數(shù)據(jù)存儲方式,顯然不能滿足大數(shù)據(jù)環(huán)境下的多類型、海量數(shù)據(jù)存儲以及復雜的數(shù)據(jù)挖掘和分析操作需求。對此,數(shù)據(jù)中臺具備的融合性數(shù)據(jù)存儲架構(gòu),對大數(shù)據(jù)的存儲方式擁有比較成熟的技術(shù)支撐。它能針對不同的數(shù)據(jù)來源、數(shù)據(jù)類型及未來的數(shù)據(jù)應(yīng)用場景,以分而治之的策略適配不同的數(shù)據(jù)庫和數(shù)據(jù)存儲技術(shù)。為了后續(xù)數(shù)據(jù)開發(fā)的便捷,教育數(shù)據(jù)中臺按不同的數(shù)據(jù)類型將數(shù)據(jù)庫分為數(shù)據(jù)目錄、數(shù)據(jù)標簽、數(shù)據(jù)檢索、圖數(shù)據(jù)庫、視頻數(shù)據(jù)庫和音頻數(shù)據(jù)庫。對應(yīng)的存儲方式有分布式文件系統(tǒng)(HDFS)、非關(guān)系型數(shù)據(jù)庫NoSQL、關(guān)系型數(shù)據(jù)庫(見圖4)。
分布式文件系統(tǒng)HDFS是以Hadoop為基礎(chǔ)的對超大集高吞吐量數(shù)據(jù)的存儲,容錯性高,可為教育中產(chǎn)生的日志、會話、知識結(jié)構(gòu)以及物聯(lián)環(huán)境感知等高并發(fā)數(shù)據(jù)提供實時存儲,還可為大數(shù)據(jù)融合提供底層的數(shù)據(jù)存儲能力支撐。非關(guān)系型數(shù)據(jù)庫NoSQL可滿足圖、文檔等超大規(guī)模非關(guān)系型數(shù)據(jù)的存儲需求,具有易擴展、大量級、高性能等特點,主要技術(shù)包括MongDB、HBase、Hive等。關(guān)系型數(shù)據(jù)庫是成績、知識點等結(jié)構(gòu)化數(shù)據(jù)的主要存儲方式,主要以行和列的形式存儲數(shù)據(jù),具有規(guī)范化的數(shù)據(jù)格式,能充分節(jié)約數(shù)據(jù)存儲空間,還便于用戶對數(shù)據(jù)的理解和檢索,主要技術(shù)包括Oracle、MySQL等。
總之,三類數(shù)據(jù)存儲方式所支持的數(shù)據(jù)類型與來源不同,但是它們之間以O(shè)neID為主要的數(shù)據(jù)融合橋梁支撐數(shù)據(jù)開發(fā)和挖掘。
3.數(shù)據(jù)開發(fā)層:教育數(shù)據(jù)價值提煉工廠
數(shù)據(jù)開發(fā)是將教育融合的原始數(shù)據(jù)資產(chǎn)化的轉(zhuǎn)化工廠。數(shù)據(jù)開發(fā)是一套包含數(shù)據(jù)加工算法和過程管理的工具(付登波等,2020),根據(jù)數(shù)據(jù)的時效性與類型,分配不同的數(shù)據(jù)處理方法。比如,通過離線開發(fā)組件計算分析一定規(guī)模的數(shù)據(jù),實現(xiàn)非實時的、批量教育數(shù)據(jù)的挖掘;通過實時開發(fā)對實時流數(shù)據(jù)進行“跟蹤式”處理,挖掘教育數(shù)據(jù)價值。另外,數(shù)據(jù)中臺的數(shù)據(jù)開發(fā)系統(tǒng)還可用于開發(fā)內(nèi)部算法與教育模型,以滿足不斷變化的教育數(shù)據(jù)服務(wù)需求。綜上,教育數(shù)據(jù)中臺開發(fā)層主要由數(shù)據(jù)開發(fā)組件、多維教育模型庫、數(shù)據(jù)智能組件和AI模型庫四部分組成。
數(shù)據(jù)開發(fā)組件的設(shè)置一般根據(jù)數(shù)據(jù)來源不同而有別,實時產(chǎn)生的流數(shù)據(jù)和歷史數(shù)據(jù),分別由Flink和Tabase多維開發(fā)組件與之對應(yīng)。其中,F(xiàn)link作為第四代數(shù)據(jù)計算引擎的代表,是可擴展的批處理和流式數(shù)據(jù)處理平臺,可實現(xiàn)數(shù)據(jù)的高效率開發(fā)。Flink的數(shù)據(jù)流API還支持有界或無界數(shù)據(jù)流轉(zhuǎn)換,支持20多種不同類型的轉(zhuǎn)換和流計算。Tabase多維開發(fā)組件是對歷史數(shù)據(jù)的處理技術(shù)的組合,主要有MapReduce、Spark、Redis、Impala等。安通過多種技術(shù)的融合完成教育數(shù)據(jù)的批量計算、查詢以及交叉分析。多維教育模型庫設(shè)置為數(shù)據(jù)開發(fā)指明了方向。按照分析對象的不同,主要教育模型有學生、教師、學習資源、教育環(huán)境四類。教育數(shù)據(jù)中臺根據(jù)模型庫的指標對數(shù)據(jù)進行處理、挖掘,進而生成教育服務(wù)模型。算法是數(shù)據(jù)挖掘的推動力,其在教育中已有比較成熟的應(yīng)用,比如根據(jù)算法功能分為語音識別、圖像識別、聚類、序列分析、知識追蹤等;根據(jù)支持數(shù)據(jù)量級有深度學習、機器學習等。另外,教育數(shù)據(jù)中臺的算法框架不僅支持數(shù)據(jù)的挖掘,還支持算法本身的開發(fā),以滿足更復雜數(shù)據(jù)的分析。
4.數(shù)據(jù)服務(wù)層:鏈接教育服務(wù)與數(shù)據(jù)的橋梁
數(shù)據(jù)服務(wù)體系是實現(xiàn)教育數(shù)據(jù)與教育服務(wù)對接的關(guān)鍵,包括API管理、查詢/分析服務(wù)、數(shù)據(jù)可視化服務(wù)、教育服務(wù)挖掘、教育服務(wù)推送。
API管理功能主要是對眾多數(shù)據(jù)來源、存儲、處理等軟件數(shù)據(jù)接口的管理,通過對各系統(tǒng)數(shù)據(jù)接口的統(tǒng)一處理,為數(shù)據(jù)安全、數(shù)據(jù)調(diào)配做導航。數(shù)據(jù)的查詢/分析服務(wù)以及數(shù)據(jù)的可視化模塊是利用檢索與可視化的方式向開發(fā)者、管理者展示數(shù)據(jù)結(jié)構(gòu),便于他們監(jiān)管與運用數(shù)據(jù)。
教育服務(wù)推送是為學生、教師及管理者推薦教育服務(wù)功能的技術(shù),讓他們更好地了解、運用信息化教育系統(tǒng)的功能,賦能教育教學,形成教育服務(wù)生態(tài)圈。教育服務(wù)挖掘是建設(shè)教育服務(wù)生態(tài)的關(guān)鍵之一,也是連接教育與數(shù)據(jù)應(yīng)用的核心。在大量數(shù)據(jù)與技術(shù)的融合下,數(shù)據(jù)中臺深入挖掘教育規(guī)律,描繪教育現(xiàn)象,以響應(yīng)多樣化的數(shù)據(jù)服務(wù)需求。
5.數(shù)據(jù)治理層:為教育數(shù)據(jù)穩(wěn)定運轉(zhuǎn)護航
隨著數(shù)據(jù)的積累與開發(fā),數(shù)據(jù)逐漸成為教育資產(chǎn)的一部分。教育數(shù)據(jù)中臺對教育元數(shù)據(jù)、數(shù)據(jù)標準、數(shù)據(jù)標簽、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全以及數(shù)據(jù)生命周期進行管理。其中,元數(shù)據(jù)管理主要包括對數(shù)據(jù)元的配置、數(shù)據(jù)模型管理以及元數(shù)據(jù)屬性管理;數(shù)據(jù)標簽?zāi)K是對數(shù)據(jù)資產(chǎn)的貼源標簽、數(shù)據(jù)標簽進行監(jiān)管;數(shù)據(jù)質(zhì)量管理主要是對數(shù)據(jù)質(zhì)量的校驗與管理;數(shù)據(jù)安全模塊是監(jiān)測全局數(shù)據(jù)的隱私、共享異常,實現(xiàn)對全局數(shù)據(jù)的安全保障;數(shù)據(jù)生命周期是監(jiān)督系統(tǒng),對有意義數(shù)據(jù)持續(xù)保存,將無意義數(shù)據(jù)緩釋的功能模塊。
總而言之,數(shù)據(jù)治理是通過可視化監(jiān)控元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)周期、數(shù)據(jù)標準和數(shù)據(jù)周期等,實時把控學校教育數(shù)據(jù)資產(chǎn)質(zhì)量,為教育數(shù)據(jù)中臺的穩(wěn)定運轉(zhuǎn)護航。
通過數(shù)據(jù)中臺構(gòu)建教育數(shù)據(jù)大腦,對助力未來智能化教育發(fā)展具有現(xiàn)實意義,故促進教育數(shù)據(jù)中臺落地,是建設(shè)教育大腦的核心工程。教育數(shù)據(jù)中臺的建設(shè)主要包括教育數(shù)據(jù)意識的啟發(fā)、基礎(chǔ)設(shè)施及標準的建設(shè)、教育服務(wù)生態(tài)的驅(qū)動三個環(huán)節(jié)。其中,數(shù)據(jù)意識的頂層引領(lǐng)為教育數(shù)據(jù)中臺建設(shè)指明方向,基礎(chǔ)設(shè)施建設(shè)與規(guī)范為教育數(shù)據(jù)中臺鋪設(shè)基石,教育服務(wù)生態(tài)為教育數(shù)據(jù)中臺的驅(qū)動提供動力和原料。
數(shù)據(jù)作為教育數(shù)據(jù)中臺的“血液”,為智能化教育發(fā)展提供“燃料”。掌握、運用有效的教育數(shù)據(jù),是學校優(yōu)化教育發(fā)展的必備技能。教育數(shù)據(jù)化的實現(xiàn)要以頂層數(shù)據(jù)意識引領(lǐng),實現(xiàn)從“經(jīng)驗”為主導到靠“數(shù)據(jù)驅(qū)動”的教育決策理念的轉(zhuǎn)變。引領(lǐng)頂層數(shù)據(jù)意識主要回答“是什么”“為什么”“怎么用”三個問題,即提升學生、教師及管理者懂數(shù)據(jù)、用數(shù)據(jù)的意識與能力。
首先,注重教育大腦、大數(shù)據(jù)等政策、價值的宣傳,提升用數(shù)據(jù)服務(wù)教育的意識,養(yǎng)成教育數(shù)據(jù)價值意識。另外,以經(jīng)典的應(yīng)用案例或以教育大腦為核心的數(shù)據(jù)賦能教育服務(wù)體系的構(gòu)建,讓師生、管理體會大數(shù)據(jù)帶來的技術(shù)紅利。
其次,堅持以用數(shù)據(jù)為中心,切實推動教育數(shù)據(jù)融合發(fā)展。培養(yǎng)教師、管理者用數(shù)據(jù)助力教學的意識和能力,讓他們在理解數(shù)據(jù)價值的基礎(chǔ)上善于根據(jù)自身訴求獲取、分析、運用、管理教育數(shù)據(jù),不斷提升利用數(shù)據(jù)推進工作的意識;鼓勵教育數(shù)據(jù)共享共用,推動公共數(shù)據(jù)資源匯聚融合。
大量級數(shù)據(jù)的采集、存儲與處理是數(shù)據(jù)中臺的基本能力,支撐教育數(shù)據(jù)中臺功能發(fā)揮的根本是扎實的基礎(chǔ)設(shè)施架構(gòu)?;A(chǔ)設(shè)施建設(shè)主要包括制定數(shù)據(jù)標準、建設(shè)硬件設(shè)備以及搭建云平臺等。
數(shù)據(jù)規(guī)范與標準是融合教育數(shù)據(jù)的前提。這要求:統(tǒng)一基礎(chǔ)平臺標準和數(shù)據(jù)元標準,實現(xiàn)對基礎(chǔ)平臺數(shù)據(jù)的深度融合挖掘,以保證個性化教育數(shù)據(jù)服務(wù)需求;執(zhí)行統(tǒng)一的數(shù)據(jù)共享標準,保障數(shù)據(jù)采集、整合、共享協(xié)議一致,實現(xiàn)數(shù)據(jù)互聯(lián)互通和開放共享;執(zhí)行統(tǒng)一的管理標準,保障數(shù)據(jù)管理規(guī)范、安全可控。
硬件設(shè)備主要指加強學習、教學、管理、校園建設(shè)等基礎(chǔ)數(shù)據(jù)庫和網(wǎng)絡(luò)等基礎(chǔ)硬件設(shè)施的建設(shè)。高性能、大容量數(shù)據(jù)存儲設(shè)備,以及高速的網(wǎng)絡(luò)帶寬是保證數(shù)據(jù)采集、上傳時效的基礎(chǔ),也是保證數(shù)據(jù)高效運轉(zhuǎn)的“底座”。
考慮到建設(shè)量級數(shù)據(jù)處理的時效性以及硬件設(shè)備建設(shè)成本,依托云平臺建設(shè)數(shù)據(jù)中臺服務(wù)體系是最佳選擇。云平臺綜合硬件資源和軟件資源的服務(wù),為數(shù)據(jù)中臺的計算提供有力保障,可促進各系統(tǒng)數(shù)據(jù)資源交換共享。
數(shù)據(jù)中臺的最終功能是實現(xiàn)教育數(shù)據(jù)的價值挖掘,但是挖掘教育數(shù)據(jù)價值的目的、動力及“原料”來源是教育教學的服務(wù)需求,即多樣化的教育服務(wù)功能為數(shù)據(jù)中臺輸送全面、立體化的教育數(shù)據(jù),反過來,教育數(shù)據(jù)中臺助力教育服務(wù)功能的完善。因此,開發(fā)全方位的教學、學習服務(wù)功能,打造數(shù)據(jù)驅(qū)動的智能教育服務(wù)生態(tài)圈,形成數(shù)據(jù)運轉(zhuǎn)閉環(huán),是推動教育數(shù)據(jù)中臺深入發(fā)展的助燃劑。
當前研究較多的教育服務(wù)包括畫像刻畫、學習分析、學習環(huán)境設(shè)計等,距離全息的智能化教育體系藍圖還很遠,故全面的教育服務(wù)生態(tài)開發(fā)是必要的。對用戶需求開展調(diào)研是產(chǎn)品設(shè)計比較常見的方式,然而該方式中用戶頂層設(shè)計能力的缺失是弊端,特別是在智能化時代,人們對教學、環(huán)境功能更迭效率需求無法用人工調(diào)研方式來滿足。因此,構(gòu)建數(shù)據(jù)智能和場景驅(qū)動的教育數(shù)據(jù)服務(wù)體系,通過大數(shù)據(jù)智能分析幫助開發(fā)者深挖學生、教師、教育環(huán)境等的深層特征,即以數(shù)據(jù)化的“望、聞、問、切”,實現(xiàn)教育數(shù)據(jù)中臺精準化的教育數(shù)據(jù)采集、教育服務(wù)支持。智能化數(shù)據(jù)服務(wù)生態(tài)構(gòu)建主要從三個方面著手:1)加強教師平臺、學生平臺、校園管理、校園學習空間等智能化、數(shù)字化服務(wù)教育的軟硬空間建設(shè),促進教育空間服務(wù)數(shù)據(jù)化;2)提升教師、管理者數(shù)據(jù)服務(wù)教育的意識,養(yǎng)成懂數(shù)據(jù)、用數(shù)據(jù)的教育服務(wù)理念,實現(xiàn)教育教學、管理服務(wù)數(shù)據(jù)化;3)關(guān)注智能技術(shù)數(shù)據(jù)驅(qū)動的教育服務(wù)挖掘模型構(gòu)建,運用技術(shù)與數(shù)據(jù)相結(jié)合的手段,實現(xiàn)教育服務(wù)的自動化產(chǎn)出。
總之,以教育數(shù)據(jù)為基礎(chǔ)構(gòu)建教育大腦,賦予智慧教育可能是當下的重點工作。但目前我國的教育數(shù)據(jù)中臺建設(shè)還處于起步階段,不能一蹴而就,數(shù)據(jù)積累、設(shè)施配備、環(huán)境建設(shè)等都是今后教育數(shù)據(jù)中臺建設(shè)的重要方向。具體而言,教育數(shù)據(jù)中臺的建設(shè)應(yīng)注意:1)教育數(shù)據(jù)中臺不是千篇一律的,教育機構(gòu)需根據(jù)自身需要定制中臺規(guī)模;2)提高數(shù)據(jù)意識,尤其是要重視小數(shù)據(jù),貼合教育中“小數(shù)據(jù)帶動大數(shù)據(jù)”的現(xiàn)實問題,使教育數(shù)據(jù)中臺深入教育規(guī)律和本質(zhì);3)重視數(shù)據(jù)中臺的價值挖掘,完善教育理論模型和數(shù)據(jù)模型的融合,開發(fā)更完善、精確的教育模型,并應(yīng)用于實踐?;谝陨戏治?,從技術(shù)層面加強教育建模與表征的技術(shù)開發(fā)體系以及智能的多模態(tài)教育數(shù)據(jù)收集、融合與分析算法;從理論層面完善教育模型框架,挖掘行為數(shù)據(jù)與真實教育意義的關(guān)系,這些是未來教育數(shù)據(jù)中臺落地的關(guān)鍵,也是完成教育人工智能大腦的必經(jīng)之路。
簡言之,教育數(shù)據(jù)中臺的發(fā)展和構(gòu)建對未來智能教育的發(fā)展具有重要意義,除了基礎(chǔ)設(shè)施、頂層意識、技術(shù)規(guī)范等基本支撐,實現(xiàn)教育理論層面和數(shù)據(jù)驅(qū)動的教育分析的融合、迭代和落地,也是未來教育數(shù)據(jù)中臺建設(shè)的重點。