袁慶祝
中博信息技術研究院有限公司
教育大數據是指在整個教育活動過程中所產生的以及根據教育需要采集到的、一切用于教育發(fā)展并可創(chuàng)造巨大潛在價值的數據集合,中國政府高度重視教育大數據及研究應用,提出“探索發(fā)揮大數據對變革教育方式、促進教育公平、提升教育質量的支撐作用”。
中國教育資源雖豐富但數據分散、數據收集與分析手段落后,為此,本文研究了教育大數據智能分析平臺及關鍵技術,搭建教育大數據智能分析平臺。研究結果可為后續(xù)教育質量綜合分析、教育質量預警和教育決策支持等提供參考,從而推進教育現代化發(fā)展。
隨著大數據技術的發(fā)展,國內已有較多學者針對教育大數據展開了廣泛研究,祝智庭與楊現民等從教育大數據的文化意蘊及教育大數據的應用模式等方面展開了討論,提出了構建大數據的策略框架與相應政策建議。吳南中等討論了教育大數據范式與建模策略的問題。在教育大數據應用方面,從個性化資源的推送服務、資源開發(fā)范式、學習分析方法、教育數據挖掘等方面展開研究。然而這些研究中,未將大數據、互聯網技術與教育中的痛點相結合,形成規(guī)范、體系的教育大數據系統(tǒng)。
本文經過實地調研及向相關工作在教育一線的專家請教,發(fā)現目前教育中存在以下痛點:(1)教育資源分布不均。目前學區(qū)劃分多是按照人工劃分,并未結合新生兒數量、適齡兒童數量,尤其是這兩者未來兩三年內的變化,導致教育資源不平衡。(2)學位信息缺少預警機制。對于適齡學生和學位未進行比對,對教育資源緊張區(qū)域沒有預警。(3)控輟保學缺乏分析機制。對輟學的學生,沒有有效的手段進行整合、分析,并采取相應的措施進行干預。(4)數據分散,存在孤島現象,無法實現數據資源統(tǒng)一,建設統(tǒng)一分享。
本文針對教育大數據現存的問題,利用大數據采集分析、機器學習等先進技術手段,研究基于互聯網的異構系統(tǒng)數據采集、融合、深度預測分析等,解決數據分散、教育資源分布不均勻等問題,按照數據源、關鍵技術、平臺建設的思路進行研究,技術架構路線如圖1所示。
圖1 技術架構路線
基于互聯網+大數據的智慧教育平臺關鍵難點是數據采集問題,平臺的底層數據來源均來自不同學?;虻貐^(qū)的內部系統(tǒng),如何利用互聯網技術從異構系統(tǒng)中獲取統(tǒng)一數據源是本文所要解決的關鍵問題。如圖2所示。
圖2 異構數據采集技術方案
針對這一難點,本文設計了一種多模態(tài)數據融合與交互共享技術,面向大規(guī)模結構或非結構化、異構文本數據的特征信息提取方法,以及基于文本描述數據集成的關聯,實現大規(guī)模數據的融合與交互共享。不同來源的數據,其特征在現實中都具有其意義,在特征表示學習方法的基礎上,結合其語義關系進一步處理后,形成數據集,通過模型融合來實現多任務集成的深度學習,并同時完成決策融合,輸出數據融合結果。
最后基于自主設計的服務集成中間件平臺及流數據實時處理技術,兼容多方數據的對接模式,實現多方數據的采集。
2.3.1 低負載數據索引技術
互聯網大數據多樣復雜且動態(tài)性高,使得傳統(tǒng)索引方法不能適用。本文定義檢索算法,針對性地研究面向大規(guī)模非結構化異構文本數據的用戶行為主題、情景、情感的理解方法,提取相關特征信息,基于預編碼的符號化方法對其有效表征;在數據庫層設計一套內容語義、情景特征敏感的壓縮感知、多模態(tài)低負載索引和基于CPU/GPU的處理機制,支持各種個性化分析及典型查詢的快速處理。
2.3.2 用戶特征分析與畫像構建技術
針對用戶在異質空間的行為數據,本文設計一種大數據驅動的、基于特征挖掘技術的用戶細分方法,通過知識圖譜技術構建必要的知識,從不同維度提取用戶基本特征,支持基于網絡空間數據輸入自動生成用戶個性化空間。
2.3.3 個性化的推薦技術
本文基于分布式環(huán)境下的推薦算法,提出了面向精準推薦的特征選擇與特征向量相似性度量模型,結合社交網絡關聯、時空特征關聯等信息,實現對缺失行為信息的用戶進行特征填補。這樣的一個推薦模型充分考慮本項目的數據特征、應用約束與復合優(yōu)化指標。
2.3.4 大數據應用基礎技術
(1)大數據基礎環(huán)境
Hadoop是一個開發(fā)和運行處理大規(guī)模數據的軟件平臺,在大量計算機組成的集群中對海量數據進行分布式計算。Hadoop框架中最核心設計就是:HDFS和MapReduce。HDFS提供了海量數據的存儲,MapReduce提供了對數據的計算。本項目基礎元數據存儲在基于HDFS分布式文件系統(tǒng)的HBase中。而對于數據的ETL過程以及模型計算分析過程都將基于Hadoop生態(tài)圈組件進行。
(2)批處理引擎實時分析技術
Spark擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce算法。本項目采用spark進行模型的實時計算與分析。為教育政務信息決策系統(tǒng)的各個應用提供數據分析結果。
(3)數據流實時分析技術
數據流實時分析技術,實時處理采集進來的教育數據,保證數據分析的實時性和準確性。本文將采用Spark Streaming技術,把Spark Streaming的輸入數據按照batch size分成一段一段的數據,每一段數據都轉換成Spark中的RDD(Resilient Distributed Dataset),然后將Spark Streaming中對DStream的Transformation操作變?yōu)獒槍park中對RDD的Transformation操作,將RDD經過操作變成中間結果保存在內存中。
本文基于各方數據源信息,基于當前主流的大數據技術,搭建大數據平臺,建立數據集市中心,結合人工智能分析算法,建立智慧教育平臺。
系統(tǒng)架構設計圖如圖3所示。
圖3 系統(tǒng)架構設計
(1)數據采集層
主要包括以下采集內容:學生、教師、教育廳門戶、普通高中等信息數據,外部數據采集包括社保、醫(yī)療、交通車管、房產等數據。
平臺提供可視化ETL平臺,根據采集工具及數據源類型,定制采集方式,采集頻率等,使用拖拽的方式定義數據源、適配器、入庫等配置,并監(jiān)控執(zhí)行狀態(tài)。
(2)數據集市中心
數據集市基于大數據平臺創(chuàng)建,用于不同業(yè)務部門的需求和不同分析應用的分析數據的存儲,數據集市模型也按主題組織,可以采用星型模型或雪花型模型進行組織,是基于不同部門、不同人員的分析需求而組織的。
(3)數據分析工具
本文基于Spark Streaming實時流計算框架以及storm流處理技術,結合算法框架搭建的數據分析子系統(tǒng),具有實時流處理功能,并且具有批處理和事件兩種處理模式。并搭配NOSQL數據庫等離線計算集群,使得集群同時具備海量數據處理和實時計算的能力。
平臺提供統(tǒng)一的門戶,支持WEB、移動APP等多種方式訪問。面向用戶端,涉及教育規(guī)劃、教育扶貧、控輟保學、綜合查詢等應用。面向管理端,提供采集配置、數據庫配置、權限管理等多種系統(tǒng)配置管理功能,支持系統(tǒng)個性化設置。如圖4所示。
圖4 功能架構圖
4.2.1 教育規(guī)劃應用
在傳統(tǒng)的學校服務區(qū)劃分過程中,大多數教育的管理者只考慮了行政邊界上的劃分,很少從空間上、學生上學距離遠近的角度進行分析。應用GIS技術,從空間分布的角度研究學校的服務范圍,利用空間分析和Voronoi多邊形,劃分空間上學校教育服務區(qū),使得每個學生上學比較近,結合學校資源和規(guī)模,幫助教育廳更好地配置資源,給教育資源可達性評價分析提供決策支持作用。
4.2.2 學位預警分析
從各官網、新聞媒體音視頻、圖像等渠道采集學校學位、師資力量、人口數等各類數據,提取其特征、語義等信息,進行數據融合,計算得出每個學校的教育容量和教育規(guī)模,與同期服務區(qū)內的人口進行對比,計算出服務區(qū)內教育資源過剩和不足的學校;通過教育服務區(qū)的劃分和可達性評價計算,得出該地區(qū)基礎教育資源相對較好的地區(qū)和教育資源不足的薄弱地區(qū),從而優(yōu)化教育資源。
對于適齡學生和學位進行比對,并進行學位預警和生成報告,根據適齡人口及區(qū)域內學位分析,對教育資源緊張區(qū)域進行特殊預警,為教育資源規(guī)劃及利用提供決策服務。如圖5所示。
4.2.3 教育扶貧應用
利用異構數據采集技術對貧困戶的主要勞動力信息、銀行存款信息、房產信息、社保信息等數據進行采集,實現貧困戶集中管理分析。根據扶貧對象的基礎信息、指標數據,設立預警閾值,當相關數據超過閾值,系統(tǒng)自動發(fā)出預警,提醒相關人員進行特別關注。
4.2.4 “控輟保學”應用
(1)“控輟”分析
通過獲取公安部門戶籍人口信息,以及對各學校信息的采集獲取,對各學區(qū)內所有適齡兒童、少年入學、輟學等情況進行全面的統(tǒng)計分析,建立義務教育階段兒童、少年管理檔案,做到底數清楚,為控輟提供準確的情況。
(2)貧困生輟學分析
針對在扶貧管理功能中建檔立卡的貧困學生進行跟蹤分析,以及輟學率的統(tǒng)計分析,避免學生因經濟情況導致輟學。
4.2.5 學生/教師行為畫像
基于用戶特征分析與畫像構建技術,對學生及教師進行行為畫像。
學生行為畫像包含:學生基本信息、學生個人簡歷、考試成績、獎懲情況、家庭基本情況等。并在此基礎之上將不同維度的信息關聯分析,深度挖掘學生的興趣愛好、優(yōu)缺點等,實時展現學生的動態(tài)情況,為學生學業(yè)狀態(tài)及行為軌跡分析提供支撐,有利于加強對學生的管理。
教師行為畫像包含:教師基本信息、結合專業(yè)技能、科研成果、獎勵榮譽、培訓進修等幾個方面特征樣本,進行教師畫像的標簽化展示。實現以教師為主體的數據挖掘,對教師個體及群體進行精準刻畫,服務于高校人事、科研管理。
教育大數據分布在包括教育教學、資源、教學評估等在內綜合教育系統(tǒng)的始末。大數據的思維和理念可以為優(yōu)化教育政策、創(chuàng)新教育教學模式、變革教育測量與評價方法等理論研究提供客觀依據以及新的研究視角,能夠更好地推動教育領域的變革。
圖5 各市縣適齡人口及學位情況
本文基于海南省教育現狀,整合現有海南省教育廳政務信息系統(tǒng)的數據,按照標準規(guī)范進行數據治理,建立海南省政務大數據中心,將大數據技術應用于教育規(guī)劃、教育扶貧、控輟保學、綜合查詢、人物畫像等方面,完善教育信息管理服務能力,推動全省教育信息化的全面發(fā)展,幫助教育廳解決部分業(yè)務、管理、領導決策的需要;通過數據輔助決策,提供學位資源預警,為合理規(guī)劃教育資源、分配師資資源提供數據依據。未來一方面將大數據有效植入了教、學、管、評、研的方方面面,力爭促進教學質量提升、管理水平提升;另一方面將區(qū)塊鏈技術引入教育大數據,為用戶數據安全隱私保駕護航。