陳 穎 遲耀丹 吳博琦 劉安琪
(吉林建筑大學(xué),吉林 長(zhǎng)春130118)
隨著時(shí)代的不斷進(jìn)步發(fā)展,高校管理變得越來(lái)越艱難,“智慧校園”應(yīng)景而生。然而,隨著學(xué)生的人數(shù)增多,使之對(duì)應(yīng)的相關(guān)數(shù)據(jù)量變大,并且隨著時(shí)代的進(jìn)步,學(xué)校對(duì)于每個(gè)學(xué)生管理的數(shù)據(jù)類型也在增加。這導(dǎo)致了學(xué)校需要掌握的學(xué)生的各項(xiàng)數(shù)據(jù)在數(shù)量上飛速增加。而大數(shù)據(jù)平臺(tái)正是針對(duì)于大量信息處理的使用思路及技術(shù),能和不斷發(fā)展的校園管理系統(tǒng)完美結(jié)合。
在校園系統(tǒng)中搭建大數(shù)據(jù)平臺(tái),利用相關(guān)技術(shù)采集、分析和挖掘師生產(chǎn)生的數(shù)據(jù),例如基本信息(姓名、性別、班級(jí)、學(xué)號(hào)或工號(hào)、家庭住址等)、教學(xué)數(shù)據(jù)(成績(jī)錄入和分析、課程選擇和選課等)、生活數(shù)據(jù)(一卡通的消費(fèi)數(shù)據(jù)和圖書館借書信息等),為師生提供便捷、高效的服務(wù)平臺(tái),是智慧校園發(fā)展道路上的一個(gè)重點(diǎn)研究問(wèn)題。
智慧校園的前身是數(shù)字化校園。從數(shù)字化校園到智慧校園一共經(jīng)歷了五個(gè)階段[1]。
第一階段是90 年代,電腦、校園廣播、多媒體設(shè)備等電子產(chǎn)品的普及;
第二階段是90 年代到00 年代,辦公室、教室等辦公學(xué)習(xí)地區(qū)互聯(lián)網(wǎng)相通;
第三階段是00 年代,此時(shí)老師和學(xué)生可以通過(guò)有線無(wú)線網(wǎng)絡(luò)及移動(dòng)網(wǎng)絡(luò),隨時(shí)隨地的進(jìn)行學(xué)習(xí)和溝通;
第四階段是00 年代到10 年代,一卡通、智慧教室等教育信息化工具開始聯(lián)網(wǎng);
第五階段是在10 年代之后,基本可以實(shí)現(xiàn)學(xué)生自由多樣有個(gè)性的學(xué)習(xí),老師差異化的教學(xué)。
智慧校園發(fā)展的五個(gè)階段如圖1 所示:
現(xiàn)在的智慧校園,已經(jīng)可以給師生提供一個(gè)良好的工作、學(xué)習(xí)和生活的環(huán)境。但是冗雜海量的數(shù)據(jù)卻成為智慧校園未來(lái)發(fā)展道路上的一顆絆腳石。為解決這一難題,工程專家結(jié)合發(fā)展迅速的大數(shù)據(jù)平臺(tái),利用相關(guān)技術(shù)建設(shè)更加完善的智慧校園。
圖1 智慧校園發(fā)展的五個(gè)階段
硬件成本的降低、網(wǎng)絡(luò)寬帶的提升、云計(jì)算的興起、網(wǎng)絡(luò)技術(shù)的發(fā)展、智能終端的普及以及物聯(lián)網(wǎng)的發(fā)展是大數(shù)據(jù)產(chǎn)生的前提。
二十世紀(jì)末,大數(shù)據(jù)剛開始出現(xiàn),還停留在數(shù)據(jù)挖掘階段;2003 年到2006 年,開始自由探索大數(shù)據(jù),處于突破階段;2006年到2009 年,并行計(jì)算和分布式系統(tǒng)開始形成,大數(shù)據(jù)逐漸成熟;2011 年到2013 年,麥肯錫全球研究所先后發(fā)布研究報(bào)告《大數(shù)據(jù):下一個(gè)創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿》[2]和《顛覆性技術(shù):技術(shù)改進(jìn)生活、商業(yè)和全球經(jīng)濟(jì)》[3],使大數(shù)據(jù)廣為人知,越來(lái)越多的專家開始投身研究。
大數(shù)據(jù)的分析與處理,主要有數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘和數(shù)據(jù)可視化四部分[4],常與云計(jì)算結(jié)合分析數(shù)據(jù)。現(xiàn)在智慧校園建設(shè)中,運(yùn)用最多的大數(shù)據(jù)分析工具是基于云計(jì)算的Hadoop 及其生態(tài)圈以及Spark 技術(shù)。
目前,Hadoop 云計(jì)算平臺(tái)主要采用開源技術(shù)。Hadoop 技術(shù)框架是大數(shù)據(jù)建設(shè)的主流技術(shù),核心是HDFS 和MapReduce[5]。
Hadoop 技術(shù)框架中,HDFS 組件[5]是數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ),可以滿足基于流數(shù)據(jù)模式訪問(wèn)和超大文件數(shù)據(jù)存儲(chǔ)的需求。HDFS 組件的優(yōu)點(diǎn)是高容錯(cuò)性、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率,可以解決普通存儲(chǔ)存在的存儲(chǔ)故障等問(wèn)題,為大數(shù)據(jù)的應(yīng)用處理帶來(lái)了很多便利。
分析計(jì)算模型——MapReduce,是Hadoop 中的并行計(jì)算框架。MapReduce 組件[6]對(duì)大數(shù)據(jù)進(jìn)行分析處理,將接收到的數(shù)據(jù)分析任務(wù)分為并行的Map 任務(wù)和Reduce 任務(wù)。
Spark 技術(shù)[7]是在MapReduce 的基礎(chǔ)之上發(fā)展而來(lái),計(jì)算性能遠(yuǎn)遠(yuǎn)超過(guò)Hadoop,計(jì)算速度是Hadoop 的110 倍。Spark 與Hadoop 一樣采用開源技術(shù),是一種基于內(nèi)存的數(shù)據(jù)分析集群計(jì)算框架,Spark 利用Scala 語(yǔ)言來(lái)優(yōu)化迭代式工作負(fù)載。實(shí)際上,Spark 可以在Hadoop 文件系統(tǒng)上與Hadoop 一起運(yùn)行。Spark 技術(shù)的核心組件有SparkSQL、SparkStreaming、SparkGraphX 以及SparkMLlib。
SparkSQL[8]是Spark 技術(shù)中用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊,讓內(nèi)部可以使用其他結(jié)構(gòu)信息來(lái)執(zhí)行更成熟的優(yōu)化,外部可以讓SQL 和DataSet 的API 交互。SparkSQL 的開發(fā)目的是為用戶提供關(guān)系查詢和復(fù)雜過(guò)程算法混合應(yīng)用的靈活性,能在很快的時(shí)間里產(chǎn)生結(jié)果數(shù)據(jù)。
SparkStreaming[8]是Spark 技術(shù)中的應(yīng)用計(jì)算程序,可以對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行高通量、高容錯(cuò)的流式處理,將流式數(shù)據(jù)轉(zhuǎn)化為RDD,操作方法類似Map 任務(wù)和Reduce 任務(wù)。
隨著時(shí)代的進(jìn)步和高校老師教學(xué)、學(xué)生學(xué)習(xí)的需求,智慧校園應(yīng)景而生,隨之而來(lái)的是各類數(shù)據(jù)的集合。利用時(shí)下最熱的大數(shù)據(jù)平臺(tái)處理師生產(chǎn)生的海量數(shù)據(jù),從而得到對(duì)高校有益的知識(shí)。
智慧校園大數(shù)據(jù)分析平臺(tái)分為平臺(tái)層、功能層、服務(wù)層三個(gè)層次[9]。平臺(tái)層是智慧校園大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)支持;功能層的功能是存儲(chǔ)數(shù)據(jù)、挖掘知識(shí);服務(wù)層為用戶提供便利的大數(shù)據(jù)服務(wù)。在智慧校園平臺(tái)里,師生可以通過(guò)用戶界面查詢工作、學(xué)習(xí)或生活各方面的信息。智慧校園大數(shù)據(jù)分析平臺(tái)如圖2 所示:
圖2 智慧校園大數(shù)據(jù)分析平臺(tái)
大數(shù)據(jù)處理首先是進(jìn)行數(shù)據(jù)抽取與清洗,將用戶界面上的學(xué)生和老師的信息收集起來(lái),檢測(cè)數(shù)據(jù),剔除或改正錯(cuò)誤、不一致的數(shù)據(jù);然后是將數(shù)據(jù)存儲(chǔ)起來(lái)進(jìn)行分析,將得到的數(shù)據(jù)存儲(chǔ)在HDFS 組件中;最后是利用Hadoop 或者Spark 進(jìn)行數(shù)據(jù)挖掘,利用算法找到隱藏在海量數(shù)據(jù)中的重要信息,方便老師和學(xué)生查詢使用。
數(shù)據(jù)挖掘是大數(shù)據(jù)處理平臺(tái)的核心,是一種將原始數(shù)據(jù)分析方法和決策算法結(jié)合起來(lái)的技術(shù)。雖然數(shù)據(jù)挖掘這一概念的提出才短短30 年,但是現(xiàn)有社會(huì)的發(fā)展十分迫切的需要數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘的步驟如圖3 所示:
圖3 數(shù)據(jù)挖掘的步驟
數(shù)據(jù)挖掘中必然的一步是進(jìn)行數(shù)據(jù)預(yù)處理。它的主要目的是處理智慧校園用戶界面收集到數(shù)據(jù)中存在的噪聲、不完整性和不一致性;審核數(shù)據(jù)是否完整、準(zhǔn)確,是否有用、及時(shí);剔除存在問(wèn)題、不符合條件的數(shù)據(jù);將得到的數(shù)據(jù)按一定的順序排列好。數(shù)據(jù)預(yù)處理有四個(gè)方法:數(shù)據(jù)清理、數(shù)據(jù)整合、數(shù)據(jù)變換、數(shù)據(jù)歸約。
建立智慧校園大數(shù)據(jù)分析平臺(tái)已經(jīng)成為高??焖侔l(fā)展中不可忽略的一個(gè)重要環(huán)節(jié)。本文通過(guò)對(duì)智慧校園發(fā)展進(jìn)程的簡(jiǎn)單了解,對(duì)大數(shù)據(jù)中基于云計(jì)算的Hadoop 及其生態(tài)圈以及Spark技術(shù)的簡(jiǎn)要介紹,提出了一個(gè)能使在校老師和學(xué)生便于科研、學(xué)習(xí)和生活的服務(wù)型平臺(tái)框架,為智慧校園建立大數(shù)據(jù)分析平臺(tái)提供參考。本文不足之處在于只提出了一個(gè)簡(jiǎn)單的智慧校園服務(wù)型平臺(tái)的框架,在后續(xù)研究中,可考慮實(shí)現(xiàn)該平臺(tái)。