曾楊
(上海大學(xué)信息化工作辦公室,上海 200444)
各高校在近十年全面發(fā)展信息化建設(shè),統(tǒng)一身份認(rèn)證、公共數(shù)據(jù)庫、服務(wù)器、網(wǎng)絡(luò)、各系統(tǒng)平臺都陸續(xù)建設(shè)實施。在數(shù)字化校園的建設(shè)過程中,各高校相繼建設(shè)了許多的業(yè)務(wù)系統(tǒng),業(yè)務(wù)邏輯得以梳理,辦理步驟得以簡化,信息數(shù)據(jù)得以采集。但是,各業(yè)務(wù)系統(tǒng)在建設(shè)之初沒有進(jìn)行較好的統(tǒng)籌規(guī)劃和統(tǒng)一管理,這就造成后期維護(hù)成本高、數(shù)據(jù)共享難度大、數(shù)據(jù)利用率低,數(shù)據(jù)展示效果差。為解決上述存在的問題,上海大學(xué)依靠表單+流程+數(shù)據(jù)+展示的開發(fā)理念,圍繞統(tǒng)一數(shù)據(jù)平臺、一站式服務(wù)大廳、數(shù)據(jù)分析展示三個方面進(jìn)行重點建設(shè)。但是,這三個平臺主要還是依托傳統(tǒng)的關(guān)系型數(shù)據(jù)庫自底向上地建設(shè)教育信息化,這就成為目前智慧化校園的建設(shè)瓶頸。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)和人工智能的崛起標(biāo)志著大數(shù)據(jù)時代的到來,許多領(lǐng)域包括教育信息化相繼進(jìn)入大數(shù)據(jù)時代。有些高校和研究者已經(jīng)從理論上定義了大數(shù)據(jù),從思維上提煉了大數(shù)據(jù)時代的思維轉(zhuǎn)變[1],從技術(shù)上構(gòu)建了計算、存儲和分析挖掘模型[2]。高校大數(shù)據(jù)從理論到實踐的過程中,平臺的構(gòu)建是至關(guān)重要的環(huán)節(jié)。東北師范大學(xué)針對數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、分析挖掘四個方面的需求進(jìn)行分析,提出了自底向上分別是數(shù)據(jù)源、采集層、存儲層、計算層、分析挖掘?qū)?、?yīng)用層的教育大數(shù)據(jù)平臺[3]。不同于傳統(tǒng)的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源的分類,其從應(yīng)用場景出發(fā)將數(shù)據(jù)源分為管理、資源、行為、評價四大類。數(shù)據(jù)源中的各類數(shù)據(jù)依照實際需求實時采集或者批量采集到分布式架構(gòu)的存儲層中,再通過計算層的各類數(shù)據(jù)計算引擎實現(xiàn)數(shù)據(jù)的過濾和整合,經(jīng)過分析挖掘?qū)拥奶幚懋a(chǎn)生新的數(shù)據(jù),繼而在應(yīng)用層表現(xiàn)出來。
受其他高校大數(shù)據(jù)平臺構(gòu)建的啟發(fā),并結(jié)合本校教育信息化的實際情況,本文從數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)分析、算法推薦四個部分構(gòu)建符合本校人員結(jié)構(gòu)、管理方式、應(yīng)用實踐的教育大數(shù)據(jù)平臺。
利用Java技術(shù)對各類數(shù)據(jù)源采集的數(shù)據(jù)進(jìn)行ETL操作,并把處理后的數(shù)據(jù)存入Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)。對于一部分需要在報表中顯示的數(shù)據(jù),存入MongoDB中,利用Python進(jìn)行查詢,快速在報表中進(jìn)行分頁展示,還可以利用Storm對數(shù)據(jù)進(jìn)行快速的流處理[4]。例如:通過師生在食堂的校園卡消費記錄,獲取到實時消費的熱力圖,提供給后勤部門,后勤部門可以根據(jù)圖例實時調(diào)整開放窗口的數(shù)量,增加或者減少菜的供應(yīng),根據(jù)食堂的刷卡人數(shù)科學(xué)管理食堂的供應(yīng),發(fā)現(xiàn)各個食堂潛在的營業(yè)差異。
在數(shù)據(jù)平臺部門將數(shù)據(jù)存入HDFS之后,需要利用Hive、Postgres等客戶端,根據(jù)數(shù)據(jù)分析的業(yè)務(wù)需求,將數(shù)據(jù)進(jìn)行重新的分庫和分表操作,以便應(yīng)對用戶個性化的需求。數(shù)據(jù)倉庫將原先分散的數(shù)據(jù)根據(jù)主題的不同,集成為新的數(shù)據(jù)源,產(chǎn)生新的數(shù)據(jù)接口,供平臺和業(yè)務(wù)系統(tǒng)調(diào)用。例如:高校各部門的業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫后可以根據(jù)不同的主題集成學(xué)校管理、學(xué)生管理、教學(xué)管理、教職工管理、科研管理、資產(chǎn)設(shè)備管理、辦公管理、財務(wù)管理等數(shù)據(jù)子集。學(xué)生的獎學(xué)金評定、老師的績效考核、部門的年終考核都可以調(diào)用這些數(shù)據(jù)子集。
基于數(shù)據(jù)倉庫中的數(shù)據(jù)和Hive客戶端,運用Python、Go、R等編程語言,結(jié)合Spark等計算工具[5],對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行多維度、全方位的分析以便給領(lǐng)導(dǎo)層和決策者提供政策擬定和結(jié)果判斷的依據(jù)。運用關(guān)聯(lián)規(guī)則分析、線性回歸、非線性回歸等分析模型擬合出相應(yīng)的數(shù)學(xué)模擬,從而發(fā)現(xiàn)問題、描繪趨勢、預(yù)測結(jié)果。例如:可以對學(xué)校的學(xué)生進(jìn)行行為分析,通過填寫調(diào)查問卷直接獲取數(shù)據(jù)或者提取學(xué)生在校的相關(guān)行為日志數(shù)據(jù),從這些數(shù)據(jù)中訓(xùn)練出學(xué)生的性格、興趣、作息,以此作為社區(qū)分配寢室的依據(jù)。
利用聚類、分類算法可以得到不同屬性的數(shù)據(jù)分類情況,這些屬性稱為特征,根據(jù)不同的特征用戶群體,可以有不同的報表推薦。協(xié)同過濾算法可以過濾出相似的用戶,之后再用共現(xiàn)規(guī)則算法或者互信息算法可以分析出有關(guān)聯(lián)的特征。所以,運用協(xié)同過濾算法、共現(xiàn)規(guī)則算法、互信息算法可以向?qū)W生推薦適合的社團(tuán),也可以向師生推薦可能感興趣的學(xué)?;顒印H绻行碌奶卣鞯募尤耄梢圆捎弥T如神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法,根據(jù)不同的事務(wù)訓(xùn)練不同的特征參數(shù)。如果研究深入也可以嘗試多層神經(jīng)網(wǎng)絡(luò),進(jìn)入深度學(xué)習(xí)的研究范圍。高校中的學(xué)生獎學(xué)金評定和績效考核就可以采用神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方面,從而得到符合每個高校自身的評價指標(biāo)體系。
本文從自身高校實際部門人員結(jié)構(gòu)出發(fā)構(gòu)建了大數(shù)據(jù)平臺的四個部分,這四個部分都包含許多的大數(shù)據(jù)技術(shù)。伴隨著管理方式的更新和機(jī)構(gòu)改革的實施,上述教育大數(shù)據(jù)平臺的四個部分可以對應(yīng)四個機(jī)構(gòu)部門,四個機(jī)構(gòu)部門既獨立運作,又相互聯(lián)系,分配清晰,便于統(tǒng)籌管理。
教育大數(shù)據(jù)平臺也包含了傳統(tǒng)領(lǐng)域大數(shù)據(jù)平臺中的開發(fā)平臺、查詢系統(tǒng)、計算框架、存儲、消息傳遞。但其更側(cè)重于分析,教育大數(shù)據(jù)平臺的分析廣義上可以分為兩塊,一塊是實時計算,另一塊是定時運算。
實時計算可以體現(xiàn)在對頁面或者日志進(jìn)行埋點的分析中。平臺獲取到一些操作或者特定行為的時候,將信息通過消息系統(tǒng)傳遞給實時計算平臺Storm,Storm收到消息完成計算并持久化結(jié)果。例如:對于Web數(shù)據(jù)可以通過埋點的方式,實時獲取已發(fā)布活動的關(guān)注熱度,對于關(guān)注度高的活動可以適當(dāng)?shù)卦黾踊顒訄龃蝸頋M足大家的需求,對于關(guān)注度低的活動可以通過校內(nèi)推廣、彈窗、算法推薦等方式增加關(guān)注。對于關(guān)注度高,但是,轉(zhuǎn)化率低的活動,可以進(jìn)一步分析其產(chǎn)生的原因。
定時運算可以體現(xiàn)在學(xué)生畫像的分析中。平臺每天定時獲取學(xué)生的上網(wǎng)數(shù)據(jù)、門禁數(shù)據(jù)、活動參與數(shù)據(jù)、借書數(shù)據(jù)、校園卡消費數(shù)據(jù)等,利用大數(shù)據(jù)平臺分析其學(xué)習(xí)、生活、消費等習(xí)慣,在學(xué)生畫像上以分析出的特征屬性作為標(biāo)簽,方便學(xué)校和企業(yè)對于學(xué)生有更好的認(rèn)知。對學(xué)生進(jìn)行畫像數(shù)據(jù)的采集和分析,有利于學(xué)校通過分析學(xué)生的行為來改變教學(xué)模式、改善管理制度,建設(shè)更符合學(xué)生意識形態(tài)的智慧校園。