王冬梅
摘要:高校業(yè)務系統(tǒng)數(shù)據(jù)資源的結(jié)構(gòu)、內(nèi)容以及數(shù)據(jù)利用價值還不夠清晰,尚未真正發(fā)揮應有作用。以筆者所在高校為例,本文介紹基于Hadoop的“智慧校園大數(shù)據(jù)平臺”的數(shù)據(jù)建設(shè)方案。文章根據(jù)學?,F(xiàn)狀提出適合高校信息化建設(shè)的數(shù)據(jù)治理方案,主要通過Hadoop分布式系統(tǒng)架構(gòu)為大數(shù)據(jù)存儲提供底層支撐,通過共享數(shù)據(jù)中心存儲權(quán)威數(shù)據(jù),通過智慧校園大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)流調(diào)用和共享,為大數(shù)據(jù)分析和決策提供依據(jù)。
關(guān)鍵詞:Hadoop集群;智慧校園;共享數(shù)據(jù)中心;大數(shù)據(jù)平臺
引言
高校業(yè)務系統(tǒng)與校園信息系統(tǒng)緊密結(jié)合,形成了海量數(shù)據(jù)資源,但這些數(shù)據(jù)資源的結(jié)構(gòu)、內(nèi)容以及數(shù)據(jù)利用價值還不夠清晰,對信息共享、處理涉及多個系統(tǒng)之間的協(xié)調(diào)時,需要整合多個系統(tǒng)的數(shù)據(jù)、資源,處理跨數(shù)據(jù)庫、跨平臺等多方面的工作,數(shù)據(jù)流程容易產(chǎn)生混亂,尚未真正發(fā)揮應有作用。需要形成統(tǒng)一的數(shù)據(jù)服務鏈,構(gòu)建數(shù)據(jù)倉庫,提高數(shù)據(jù)可視化監(jiān)控能力,為上層應用提供數(shù)據(jù)服務[1]。同時,在高校信息化建設(shè)的過程中,學校各業(yè)務系統(tǒng)所產(chǎn)生的數(shù)據(jù)都是以結(jié)構(gòu)化數(shù)據(jù)為主,但在教學過程中產(chǎn)生大量的非結(jié)構(gòu)化數(shù)據(jù),如在線課程資源、學習行為軌跡數(shù)據(jù)、上網(wǎng)行為數(shù)據(jù)等。為探索有效解決以上問題,實現(xiàn)智能預測、智能輔助決策與管理的高校智慧校園,以筆者所在高校為例,本文引入高?!爸腔坌@大數(shù)據(jù)平臺”的概念,平臺充分兼顧各種數(shù)據(jù)源類型的集成、治理和可視化要求,提供統(tǒng)一集成和共享服務。
1. 高校大數(shù)據(jù)治理與建設(shè)目標
平臺架構(gòu)的設(shè)計需要充分考慮其先進性并且可以落地實施,能為學校下階段的發(fā)展提供有力支撐,建立數(shù)據(jù)生產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)開發(fā)以及數(shù)據(jù)應用的閉環(huán)數(shù)據(jù)生態(tài),建設(shè)高校權(quán)威數(shù)據(jù)中心,明確數(shù)據(jù)利用價值,為大數(shù)據(jù)分析提供基礎(chǔ)。建立數(shù)據(jù)收集、存儲、處理、分析和使用等方面的規(guī)范,包括數(shù)據(jù)訪問權(quán)限、數(shù)據(jù)質(zhì)量評估、數(shù)據(jù)備份和恢復等措施。
高校數(shù)據(jù)治理與建設(shè)的一般目標如下:
(1)統(tǒng)一數(shù)據(jù)標準,沉淀公共數(shù)據(jù)。智慧校園大數(shù)據(jù)平臺可以將散亂的數(shù)據(jù)整合起來進行統(tǒng)一管理,使得數(shù)據(jù)更加全面、準確、可靠。這有助于提高數(shù)據(jù)質(zhì)量和可信度,從而為大數(shù)據(jù)分析應用打下更加穩(wěn)定、精準的數(shù)據(jù)基礎(chǔ)。
(2)實現(xiàn)快速數(shù)據(jù)處理。智慧校園大數(shù)據(jù)平臺可以利用分布式計算技術(shù)和并行處理技術(shù),加快數(shù)據(jù)處理速度,這對于需要快速響應的大數(shù)據(jù)分析應用非常重要,可以大大提高數(shù)據(jù)處理效率和分析速度。
(3)保障數(shù)據(jù)安全。治理后建設(shè)的智慧校園大數(shù)據(jù)平臺可以實現(xiàn)對數(shù)據(jù)的安全保護,包括數(shù)據(jù)權(quán)限管理、數(shù)據(jù)備份與恢復、數(shù)據(jù)加密等功能,可以有效地防范數(shù)據(jù)泄露和數(shù)據(jù)損失風險。
(4)實現(xiàn)數(shù)據(jù)共享與協(xié)作。智慧校園大數(shù)據(jù)平臺可以建設(shè)共享數(shù)據(jù)中心,通過共享數(shù)據(jù)中心、角色授權(quán)、API接口等提供多用戶協(xié)同工作環(huán)境,支持不同用戶之間的數(shù)據(jù)共享和協(xié)作,這對于開展大規(guī)??鐚W科、跨部門合作研究非常有益,可以加速知識創(chuàng)新和科學進步。
(5)探索數(shù)據(jù)挖掘與分析??梢约筛鞣N數(shù)據(jù)挖掘和分析工具,如機器學習、數(shù)據(jù)可視化等,幫助用戶更加深入地挖掘數(shù)據(jù)的內(nèi)在規(guī)律和價值,發(fā)現(xiàn)新的知識和洞見,從而為科學研究和教育教學服務。
2. 基于Hadoop的校園大數(shù)據(jù)平臺整體架構(gòu)設(shè)計
以筆者所在高校為例,介紹本?!爸腔坌@大數(shù)據(jù)平臺”的核心架構(gòu)?;贖adoop 生態(tài)集群以構(gòu)建底層服務支撐,以各種可視化圖形的方式呈現(xiàn)給各類業(yè)務人員,滿足不同角色用戶的需求,實現(xiàn)數(shù)據(jù)價值。
2.1 整體架構(gòu)
整體架構(gòu)設(shè)計需要充分考慮其先進性并且可以落地實施,能為學校未來五年的發(fā)展提供有力支撐。基于共享數(shù)據(jù)中心建設(shè)的大數(shù)據(jù)生態(tài)鏈,以現(xiàn)有各類業(yè)務的數(shù)據(jù)為底層支撐,將智慧校園相關(guān)數(shù)據(jù)采集到Hadoop集群中進行分布式文件存儲,具體如圖1所示。通過建設(shè)共享數(shù)據(jù)中心,構(gòu)建大數(shù)據(jù)生態(tài)鏈,對資源進行整合和業(yè)務流程優(yōu)化,通過分布式文件系統(tǒng) Hdfs對多維數(shù)據(jù)進行關(guān)聯(lián)、分類、降維、聚類分析與可視化呈現(xiàn)。
2.2 數(shù)據(jù)源層
當前高校信息化建設(shè)中,各應用系統(tǒng)建設(shè)以業(yè)務需求為導向獨立運行,同時安防監(jiān)控、在線課程資源、上網(wǎng)行為等非結(jié)構(gòu)化數(shù)據(jù)資源在智慧校園建設(shè)中的作用已經(jīng)體現(xiàn)。為實現(xiàn)智能預測、智能輔助決策與管理的高校智慧校園,建設(shè)權(quán)威的數(shù)據(jù)管理平臺須首先確定數(shù)據(jù)來源,形成有效的數(shù)據(jù)資源,為各類業(yè)務或決策系統(tǒng)服務。數(shù)據(jù)來源應包括現(xiàn)有業(yè)務系統(tǒng)的數(shù)據(jù)(如教務、科研、人事等)、職能部門數(shù)據(jù)、師生用戶行為軌跡數(shù)據(jù)、日志數(shù)據(jù)等。數(shù)據(jù)源層集成新的本地數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù),開發(fā)智能填報系統(tǒng)采集臨時、零散數(shù)據(jù),完善信息標準、深入數(shù)據(jù)治理、提高數(shù)據(jù)質(zhì)量及數(shù)據(jù)安全、為建設(shè)校級全量數(shù)據(jù)中心打好基礎(chǔ)。同時在數(shù)據(jù)處理過程中須結(jié)合教育部標準,制定規(guī)范,設(shè)計校級的數(shù)據(jù)標準,對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、流數(shù)據(jù)須進行標準化轉(zhuǎn)換,分類管理。
2.3 數(shù)據(jù)存儲模塊
運用云計算技術(shù),采用 MapReduce算法和HDFS分布式文件系統(tǒng),建立分布式數(shù)據(jù)庫 Hadoop集群系統(tǒng),為師生提供在線的數(shù)據(jù)存儲服務,采用 hdfs、hbase 和 sqoop 對數(shù)據(jù)進行存取,其中hdfs已成為大數(shù)據(jù)磁盤存儲的事實標準,主要應用于海量日志類大文件的在線存儲。 數(shù)據(jù)存儲層借助于Hadoop的MapReduce模塊將數(shù)據(jù)批量寫入HBase分布式數(shù)據(jù)庫中,Hadoop計算機集群的架構(gòu)為主/從部署架構(gòu),也就是Master/Slave部署架構(gòu)[2],使用一個管理節(jié)點、多個子節(jié)點的方式,保證數(shù)據(jù)的安全性和可靠性,實現(xiàn)數(shù)據(jù)的冗余存儲。各業(yè)務數(shù)據(jù)經(jīng)采集、清洗后存儲于共享數(shù)據(jù)中心,形成權(quán)威的數(shù)據(jù)存儲倉庫。共享數(shù)據(jù)中心采用數(shù)據(jù)分區(qū)設(shè)計,如緩沖區(qū)、核心區(qū)、主題區(qū)等。一方面,對不同類型數(shù)據(jù)進行區(qū)分,保障數(shù)據(jù)體系的劃分清晰和區(qū)域內(nèi)部的靈活擴展;另一方面,根據(jù)不同的數(shù)據(jù)分區(qū)內(nèi)數(shù)據(jù)特性的不同,可以設(shè)置不同的安全和訪問策略。
2.4 數(shù)據(jù)接口模塊
數(shù)據(jù)接口模塊承擔連接不同源頭和目標業(yè)務數(shù)據(jù)的任務,并將其以一種可接受的格式傳遞到目標位置。該模塊還負責數(shù)據(jù)清洗、轉(zhuǎn)換和處理等任務,確保數(shù)據(jù)的準確性和一致性。常用的數(shù)據(jù)交換技術(shù)有ETL、ELT和Data Virtualization。ETL技術(shù)將數(shù)據(jù)從源系統(tǒng)中提取出來,經(jīng)過轉(zhuǎn)換之后再加載到目標系統(tǒng)中;ELT是在將數(shù)據(jù)加載到目標系統(tǒng)之后再進行轉(zhuǎn)換;Data Virtualization技術(shù)允許用戶在不將數(shù)據(jù)物理移動的情況下,通過虛擬視圖訪問分散的數(shù)據(jù)源,允許用戶對多個數(shù)據(jù)源進行聯(lián)合查詢,并將結(jié)果組合成一個單一的虛擬表。該模塊支持為場景化應用開發(fā)提供基于HTTP的API數(shù)據(jù)服務接口,并提供各個API開發(fā)規(guī)范文檔,便于用戶或開發(fā)商基于API接口數(shù)據(jù)場景應用,在具體的模塊功能設(shè)計中,數(shù)據(jù)接口模塊的設(shè)計還應考慮支持腳本化開發(fā)、勾選式開發(fā)、服務化開發(fā)等功能。
2.5 大數(shù)據(jù)分析模塊
大數(shù)據(jù)分析層在Hadoop的Map Reduce編程模型上,構(gòu)建各類數(shù)據(jù)分析包,對提交的學生大數(shù)據(jù)進行分析。例如,筆者所在學校在大數(shù)據(jù)共享與分析的基礎(chǔ)上實現(xiàn)了基于人臉識別的晚歸預警提醒、陌生人員入侵校園提醒、可疑人員行為軌跡查詢,提前對學生的學業(yè)和狀態(tài)進行有效干預,防止意外發(fā)生[3]。基于Hadoop構(gòu)建的大數(shù)據(jù)共享服務,實現(xiàn)了教師工作量基礎(chǔ)數(shù)據(jù)的采集,從人事、教務、學籍等各個業(yè)務系統(tǒng)中抽取、清洗獲得有效數(shù)據(jù),進行分析、轉(zhuǎn)換,為教師工作量計算和考核提供了智能化的服務,真正意義上做到了讓數(shù)據(jù)跑起來、用起來,方便了學校的管理。
2.6 數(shù)據(jù)流向服務設(shè)計
從數(shù)據(jù)流的應用設(shè)計來看,共享數(shù)據(jù)中心主要以業(yè)務系統(tǒng)應用為主,供業(yè)務人員使用,而各業(yè)務系統(tǒng)又可以提供基礎(chǔ)數(shù)據(jù)、輔助數(shù)據(jù)和中間件服務,各業(yè)務系統(tǒng)通過數(shù)據(jù)交換中間件服務實現(xiàn)了與共享數(shù)據(jù)中心平臺之間的信息共享和交換。此外,各業(yè)務系統(tǒng)數(shù)據(jù)又可以下行至共享數(shù)據(jù)中心,與其他業(yè)務系統(tǒng)共享數(shù)據(jù)。業(yè)務子系統(tǒng)既是數(shù)據(jù)的提供者,也是共享數(shù)據(jù)的受益者。相關(guān)業(yè)務系統(tǒng)可以把數(shù)據(jù)提供給共享庫,如迎新工作可以提供學生信息,其他業(yè)務系統(tǒng)可以通過共享庫獲取數(shù)據(jù)。
3. 技術(shù)架構(gòu)設(shè)計
3.1 數(shù)據(jù)訪問接口API設(shè)計
智慧校園大數(shù)據(jù)平臺通過數(shù)據(jù)訪問接口API訪問共享數(shù)據(jù)中心,為用戶和不同業(yè)務提供數(shù)據(jù)共享服務,可提供多用戶協(xié)同工作環(huán)境,支持不同用戶、不同業(yè)務之間的數(shù)據(jù)共享和協(xié)作。筆者所在高校共享數(shù)據(jù)中心設(shè)計通過API來提供數(shù)據(jù)服務,方便校內(nèi)各業(yè)務快速獲取所需數(shù)據(jù),同時也增加數(shù)據(jù)中心的曝光度和影響力。在設(shè)計API之前,可按以下步驟進行:(1)明確API的需求和范圍、涉及功能,明確目標用戶以及需要共享與保護的數(shù)據(jù)范圍;(2)根據(jù)需求和范圍設(shè)計API的調(diào)用方式、返回數(shù)據(jù)格式等;(3)設(shè)計API的架構(gòu)和協(xié)議,同時考慮安全性、可擴展性、易用性等因素。例如,選擇RESTful API架構(gòu),并采用HTTPS協(xié)議進行通信,可以提高API的安全性。
3.2 Hadoop集群部署
Hadoop集群是一個分布式的計算平臺,可提供海量數(shù)據(jù)的分布式存儲、分布式計算和分布式管理功能。Hadoop集群基于 MapReduce開發(fā)框架,集群的數(shù)據(jù)存儲、數(shù)據(jù)處理、資源管理和任務調(diào)度等功能于一體,把任務劃分成多個小任務,將這些任務通過 MapReduce計算框架中的 map函數(shù)將數(shù)據(jù)分割成小塊后寫入磁盤或文件系統(tǒng)中,并使用 HDFS對數(shù)據(jù)進行存儲和管理。Hadoop集群可運行在多個計算機上,包括 PC機、服務器和移動終端。分布式計算能降低系統(tǒng)總體擁有成本,同時還能保證數(shù)據(jù)的完整性和一致性。
Hadoop集群具體來說包含兩個集群:HDFS集群和YARN集群,兩者邏輯上分離,但物理上常在一起。HDFS集群負責海量數(shù)據(jù)的存儲,集群中的角色主要有:NameNode、DataNode、SecondaryNameNode。YARN集群負責海量數(shù)據(jù)運算時的資源調(diào)度,集群中的角色主要有ResourceManager、NodeManager。
智慧校園大數(shù)據(jù)平臺采用Hadoop作為數(shù)據(jù)處理框架,HDFS作為分布式文件系統(tǒng)。本文大數(shù)據(jù)平臺采用Cluster mode(群集模式)-單節(jié)點模式-高可用HA模式部署,該集群模式主要用于生產(chǎn)環(huán)境部署[4],會使用N臺主機組成一個Hadoop集群。這種部署模式下,主節(jié)點和從節(jié)點會分開部署在不同的機器上,由多個節(jié)點構(gòu)成,具體可視高校所要處理的數(shù)量大小以及及時性要求所定,1臺作為Namenode主節(jié)點,N臺作為Datanode從節(jié)點。
結(jié)語
借助大數(shù)據(jù)分析與挖掘技術(shù)實現(xiàn)輔助教育教學管理、輔助智能決策,優(yōu)化改革創(chuàng)新,必須從數(shù)據(jù)治理抓起,對當前系統(tǒng)進行有效整合,提高數(shù)據(jù)共享,建設(shè)校情分析、跨部門數(shù)據(jù)共享查詢、狀態(tài)數(shù)據(jù)采集等數(shù)據(jù)應用,提供能自主設(shè)計、管理數(shù)據(jù)應用場景的工具,形成校級數(shù)據(jù)應用市場,完善從需求到服務的數(shù)據(jù)生態(tài)鏈,實現(xiàn)全生命周期管理。逐步清晰數(shù)據(jù)的利用價值,基于數(shù)據(jù)生態(tài)鏈實現(xiàn)信息與業(yè)務的相互融合,進一步實現(xiàn)大數(shù)據(jù)分析展示與智能決策需求。
以筆者所在學校為例,隨著數(shù)據(jù)治理的進行,共享數(shù)據(jù)中心逐步投入信息使用中,對學校的數(shù)字化校園建設(shè)與學校教育教學管理起到重要的作用,真正意義上做到了讓數(shù)據(jù)跑起來、用起來。利用Hadoop框架分布式文件系統(tǒng)Hdfs和MapReduce,將多維數(shù)據(jù)進行關(guān)聯(lián)、分類、降維等分析與可視化呈現(xiàn),開創(chuàng)了智慧校園教育管理決策科學化、管理智能化、監(jiān)督過程化的新模式,為教育改革和創(chuàng)新提供支持和指導。
參考文獻:
[1]萬中鈺.基于hadoop平臺下的數(shù)據(jù)治理系統(tǒng)的實踐及應用[J].長江信息通信, 2021,(11):163-165,169.
[2]胡榮星.高職院校共享數(shù)據(jù)庫平臺設(shè)計——以南京城市職業(yè)學院為例[J].信息與電腦(理論版),2019,(7):240-242.
[3]楊嵐.基于Hadoop平臺的交通管理數(shù)據(jù)存儲系統(tǒng)設(shè)計分析[J].九江學院學報(自然科學版),2022,(4):59-64.
[4]夏曼.基于云計算的農(nóng)產(chǎn)品電子商務平臺的設(shè)計與實現(xiàn)[D].南寧:廣西大學,2015.
作者簡介:王冬梅,碩士,高級工程師,研究方向:大數(shù)據(jù)分析。
基金項目:南京城市職業(yè)學院2020-2023年度校級課題——高校智慧校園大數(shù)據(jù)采集與分析研究(編號:KY202016)。