陳麗麗
摘要:大數(shù)據(jù)專業(yè)是現(xiàn)在非常熱門的專業(yè),各大高校自2015年起陸續(xù)開設(shè)了大數(shù)據(jù)專業(yè),大數(shù)據(jù)專業(yè)是實踐性比較強(qiáng)的專業(yè),如何通過一個行之有效的大數(shù)據(jù)教學(xué)平臺更好地達(dá)到增強(qiáng)實踐能力的教學(xué)目的,是本文論述的主要問題。本文主要闡述了大數(shù)據(jù)專業(yè)實訓(xùn)平臺的建設(shè)原則、建設(shè)過程以及實訓(xùn)平臺在教學(xué)過程中的應(yīng)用。
關(guān)鍵詞:交互實訓(xùn);集群;虛擬化;分布式
中圖分類號:TP311 ? ? ? 文獻(xiàn)標(biāo)識碼: A
文章編號:1009-3044(2020)28-0108-03
Abstract:Big data major is a very popular major now. Every university has set up big data major since 2015. Big data major is a major with strong practicality. How to better achieve the purpose of enhancing practical ability through an effective big data teaching platform is the main problem discussed in this paper. This paper mainly expounds the construction principle, construction process and application of the training platform in the teaching process of big data specialty.
Key words:interactive training; cluster; virtualization; distributed
1 引言
隨著高校在大數(shù)據(jù)教育方面的發(fā)展,各大高校相繼設(shè)立了大數(shù)據(jù)專業(yè),大數(shù)據(jù)專業(yè)的招生每年在逐步增長。但是與此同時高校在大數(shù)據(jù)專業(yè)建設(shè)上也面臨著巨大的問題和挑戰(zhàn),例如:教學(xué)資源匱乏,現(xiàn)有實訓(xùn)教室無法滿足大數(shù)據(jù)的教學(xué)需求,師資力量薄弱,缺少企業(yè)級的綜合實訓(xùn)項目。針對這些問題,大數(shù)據(jù)實訓(xùn)平臺項目提上立題議程,該平臺從資源管理、課程管理、實訓(xùn)管理等方面去解決教學(xué)問題。
2 建設(shè)背景
近年來,國家大力推動大數(shù)據(jù)技術(shù)的發(fā)展和建設(shè),大數(shù)據(jù)技術(shù)逐漸從概念走向落地的趨勢,無論是互聯(lián)網(wǎng)行業(yè)、通信行業(yè),還是金融行業(yè)、服務(wù)業(yè)或是零售業(yè)大數(shù)據(jù)技術(shù)都得到廣泛的運用,各大企業(yè)對大數(shù)據(jù)高端人才的需求也越來越緊迫,企業(yè)的IT人員要緊隨大數(shù)據(jù)浪潮不斷在提高自身的技術(shù)水平,各大高校也陸續(xù)開設(shè)大數(shù)據(jù)相關(guān)專業(yè)向企業(yè)輸送人才。
2.1大數(shù)據(jù)政策背景
2014年以來,我國政府已將大數(shù)據(jù)明確提升到國家戰(zhàn)略的高度,中央和很多地方政府都對大數(shù)據(jù)予以高度重視。
2015年以來,習(xí)近平在多個場合針對大數(shù)據(jù)發(fā)表重要講話,明確指示要加快推動國家大數(shù)據(jù)戰(zhàn)略。同時,為了進(jìn)一步推動我國大數(shù)據(jù)技術(shù)的發(fā)展與大數(shù)據(jù)應(yīng)用的盡快落地。
2016年6月,教育部下發(fā)了《教育信息化“十三五”規(guī)劃》,從政策層面確定了教育大數(shù)據(jù)的建設(shè)方向。2016年2月教育部公布新增“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè),2016年9月,正式批準(zhǔn)增設(shè)“高職-大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)” 。
2.2 大數(shù)據(jù)行業(yè)背景
各大企業(yè)為了尋求發(fā)展,也紛紛加入大數(shù)據(jù)行列,由此衍生了工業(yè)大數(shù)據(jù)、交通大數(shù)據(jù)、農(nóng)業(yè)大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)等行業(yè)應(yīng)用。
2018年中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模為4384.5億元,到2021年,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將超過8000億元。
2018年全球大數(shù)據(jù)市場規(guī)模為420億美元,到2024年,全球大數(shù)據(jù)市場規(guī)模超過840億美元,年增長率為12.3%。
2.3大數(shù)據(jù)人才需求
越來越多的企業(yè)開始應(yīng)用大數(shù)據(jù),國內(nèi)大數(shù)據(jù)人才供不應(yīng)求。目前從各個招聘網(wǎng)站、各種人才分析報告來看,目前大數(shù)據(jù)崗位供需平衡嚴(yán)重不均衡,大部分受訪的大數(shù)據(jù)相關(guān)企業(yè)也認(rèn)為大數(shù)據(jù)人才嚴(yán)重短缺,是企業(yè)謀求發(fā)展所面臨的關(guān)鍵問題之一。面對大數(shù)據(jù)人才荒,一方面,企業(yè)要加強(qiáng)已有技術(shù)人員大數(shù)據(jù)專業(yè)的技能培訓(xùn);另一方面,各大高校廣納賢才尋求大數(shù)據(jù)專任老師并積極討論研究大數(shù)據(jù)人才培養(yǎng),爭取最短時間內(nèi)向企業(yè)輸送大數(shù)據(jù)專業(yè)人才,實現(xiàn)校企合作互贏互利。
3 平臺概述
大數(shù)據(jù)教學(xué)實訓(xùn)平臺立足于當(dāng)前大數(shù)據(jù)時代背景,深度研究高校大數(shù)據(jù)教學(xué)實訓(xùn)場景,深挖教學(xué)需求,是一款集教學(xué)、實驗、實訓(xùn)、培訓(xùn)、測評、學(xué)情分析于一體的大數(shù)據(jù)專業(yè)教學(xué)平臺。平臺提供簡單易用的教學(xué)、學(xué)習(xí)及運維管理功能。大數(shù)據(jù)專業(yè)技能點與實際項目案例相結(jié)合,讓學(xué)生能夠真實掌握每個技能點在實際項目中的實際應(yīng)用。將一個項目拆分成多個實訓(xùn),多個實訓(xùn)間共同使用同一實訓(xùn)環(huán)境,以實現(xiàn)項目的連貫性和真實性。項目提供整套的實訓(xùn)環(huán)境及配套工具,用戶在切換實訓(xùn)時對應(yīng)的實訓(xùn)環(huán)境不會改變,在下一個實訓(xùn)中會繼續(xù)使用上一實訓(xùn)的環(huán)境,并最終完成該項目。
大數(shù)據(jù)教學(xué)實訓(xùn)平臺提供先進(jìn)、定制化的大數(shù)據(jù)課程體系,根據(jù)不同人才培養(yǎng)方案定制不同的課程,滿足不同高校大數(shù)據(jù)教學(xué)及實訓(xùn)需求。
4 平臺設(shè)計
4.1平臺架構(gòu)
4.2硬件環(huán)境
大數(shù)據(jù)實訓(xùn)平臺的硬件環(huán)境有三部分構(gòu)成,分別是高性能大數(shù)據(jù)實訓(xùn)一體機(jī)、大數(shù)據(jù)實訓(xùn)管理設(shè)備、實訓(xùn)臺式機(jī)、數(shù)據(jù)可視化顯示系統(tǒng)。
高性能大數(shù)據(jù)實訓(xùn)一體機(jī)是整個實訓(xùn)系統(tǒng)的核心硬件平臺,提供整個實訓(xùn)室的基礎(chǔ)IT資源,如計算能力、存儲能力及網(wǎng)絡(luò)能力等。
大數(shù)據(jù)實訓(xùn)管理設(shè)備負(fù)責(zé)整合全部計算資源、網(wǎng)絡(luò)資源與存儲資源,用于對計算資源服務(wù)器進(jìn)行統(tǒng)一管理,同時也是云實訓(xùn)平臺、數(shù)據(jù)中臺等管理系統(tǒng)的支撐平臺。
實訓(xùn)臺式機(jī)采用普通終端PC機(jī),組合成實訓(xùn)室局域網(wǎng),支撐學(xué)生進(jìn)行實訓(xùn)。
隨著信息技術(shù)的發(fā)展,大屏顯示技術(shù)也日益普及。一套優(yōu)秀的數(shù)據(jù)可視化圖像系統(tǒng)具備較高的圖像顯示能力、提供豐富的圖像色彩,并且具有較高的兼容性,作為各種大數(shù)據(jù)項目數(shù)據(jù)以及圖像可視化的集中顯示終端,可有效用于數(shù)據(jù)監(jiān)控及輔助決策。
4.3軟件環(huán)境
為了滿足高職院校大數(shù)據(jù)課程的教學(xué)、實訓(xùn)等多方面的需求,同時在一定程度上緩解大數(shù)據(jù)師資力量不足的問題。大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)實訓(xùn)平臺秉承“教學(xué)、科研、生產(chǎn)”一體化的思路和模式,從教學(xué)、實踐、科研和生產(chǎn)多方面構(gòu)架專業(yè)人才和特色人才的培養(yǎng)體系,真正在教學(xué)、科研、生產(chǎn)實現(xiàn)互相配合,形成教學(xué)、科研、生產(chǎn)的系統(tǒng)運作模式,從而協(xié)助構(gòu)建高職院校的大數(shù)據(jù)特色專業(yè)。
大數(shù)據(jù)技術(shù)與應(yīng)用實訓(xùn)室的軟件環(huán)境由基礎(chǔ)平臺、實訓(xùn)系統(tǒng)、實訓(xùn)資源體系及實訓(xùn)案例體系構(gòu)成。
4.3.1基礎(chǔ)平臺
基礎(chǔ)平臺包括云計算平臺、云實訓(xùn)平臺、數(shù)據(jù)中臺。
云計算平臺通過對硬件設(shè)備的虛擬化形成虛擬化資源池,可實現(xiàn)按需提供基礎(chǔ)IT資源(包括計算能力、存儲能力和網(wǎng)絡(luò)能力),實現(xiàn)資源的“彈性”分配。用戶通過Web界面實現(xiàn)對整個集群的集中管理,包括虛擬機(jī)、資源池、數(shù)據(jù)等,從而為用戶提供可靠,優(yōu)質(zhì)的虛擬環(huán)境。
云實訓(xùn)平臺旨在提供便捷的實訓(xùn)功能,完成對實訓(xùn)指導(dǎo)手冊、實訓(xùn)數(shù)據(jù)集、實訓(xùn)過程、實訓(xùn)報告、實訓(xùn)成績等教學(xué)實訓(xùn)過程的管理。同時,提供對學(xué)生、教師的信息管理。
數(shù)據(jù)中臺通過對本地數(shù)據(jù)倉庫集群以及外部數(shù)據(jù)庫數(shù)據(jù)源的關(guān)聯(lián)綁定,實現(xiàn)對海量數(shù)據(jù)的存儲、分析、查詢、遷移、導(dǎo)出等功能,為用戶提供方便、靈活的數(shù)據(jù)管理服務(wù)方便用戶進(jìn)行實訓(xùn)案例的設(shè)計。
4.3.2大數(shù)據(jù)實訓(xùn)系統(tǒng)
大數(shù)據(jù)實訓(xùn)系統(tǒng)包括數(shù)據(jù)采集與預(yù)處理實訓(xùn)系統(tǒng)、大數(shù)據(jù)離線分析實訓(xùn)系統(tǒng)、大數(shù)據(jù)實時分析實訓(xùn)系統(tǒng)、數(shù)據(jù)可視化實訓(xùn)系統(tǒng)等涉及大數(shù)據(jù)采集、清洗、存儲、分析、可視化各個環(huán)節(jié)的實訓(xùn),學(xué)生可充分利用該實訓(xùn)系統(tǒng)進(jìn)行大數(shù)據(jù)基本業(yè)務(wù)流程的操作訓(xùn)練。
4.3.3實訓(xùn)資源體系
大數(shù)據(jù)實訓(xùn)資源體系主要以實訓(xùn)任務(wù)為驅(qū)動,通過多方面的實訓(xùn)內(nèi)容輔助教學(xué)。通過原理驗證、實訓(xùn)應(yīng)用、綜合分析及自主設(shè)計等多層次的實訓(xùn)操作,為大數(shù)據(jù)的教學(xué)科研提供一整套完整的、一體化的大數(shù)據(jù)實訓(xùn)教學(xué)體系。該大數(shù)據(jù)實訓(xùn)資源體系全部來源于企業(yè)真實的項目轉(zhuǎn)化成果,所有內(nèi)容貼合實際運用,數(shù)據(jù)源來源真實可靠,模擬行業(yè)具體業(yè)務(wù)流程操作,能夠讓學(xué)生真實感受IT行業(yè)的真實工作流程。
根據(jù)大數(shù)據(jù)相關(guān)技術(shù)學(xué)習(xí)路徑,至少包括(但不限于):大數(shù)據(jù)離線分析環(huán)境部署教學(xué)實訓(xùn)包、大數(shù)據(jù)實時分析環(huán)境部署教學(xué)實訓(xùn)包、數(shù)據(jù)采集與預(yù)處理教學(xué)實訓(xùn)包、大數(shù)據(jù)離線存儲與分析教學(xué)實訓(xùn)包、大數(shù)據(jù)實時分析教學(xué)實訓(xùn)包、數(shù)據(jù)可視化教學(xué)實訓(xùn)包。該資源體系輔助大數(shù)據(jù)實訓(xùn)系統(tǒng)可充分提升實訓(xùn)效果和效率。
4.3.4實訓(xùn)案例體系
實訓(xùn)案例體系引入不同類別的行業(yè)典型大數(shù)據(jù)方面的應(yīng)用作為行業(yè)案例,針對特定的行業(yè)需求、面向不同類型、不同來源、不同頻率的數(shù)據(jù)渠道采用不同類型的大數(shù)據(jù)架構(gòu)和處理方法,以協(xié)助客戶開展具有針對性的生產(chǎn)性實訓(xùn)教學(xué)。
實訓(xùn)案例主要包括:招聘市場監(jiān)控分析實訓(xùn)系統(tǒng)、農(nóng)業(yè)大數(shù)據(jù)實訓(xùn)系統(tǒng)、交通數(shù)據(jù)監(jiān)控分析實訓(xùn)系統(tǒng)、疫情數(shù)據(jù)監(jiān)控分析實訓(xùn)系統(tǒng)。學(xué)生在掌握基本業(yè)務(wù)流程的操作后,可通過具體生產(chǎn)業(yè)務(wù)的操作訓(xùn)練,快速融入實際工作崗位。
5 研究方法和技術(shù)路線
5.1虛擬化技術(shù)分析
虛擬化技術(shù)是云計算的關(guān)鍵技術(shù),它的用途是對計算機(jī)物理資源進(jìn)行池化,并把物理資源做合理的分配。物理資源包括服務(wù)器、網(wǎng)絡(luò)和存儲。但是計算資源的池化不一定要用虛擬化技術(shù),金屬裸機(jī)也能池化,比如 IBM 的Softlayer就是直接使用物理機(jī)來實現(xiàn)云計算的。
可以動手做個實驗:購買一臺計算機(jī)(配置:雙核 3.0GB CPU、4GB 內(nèi)存、500GB 硬盤、1000MB 網(wǎng)卡),首先安裝 Windows 7 操作系統(tǒng),把所有的硬件驅(qū)動安裝好,然后安裝辦公軟件、QQ、音視頻播放軟件和 C 語言開發(fā)工具等。接下來安裝 VMware Workstation 12.0 虛擬化軟件,安裝完成后重新啟動計算機(jī),并雙擊桌面上的“VMware Workstation”圖標(biāo)啟動虛擬化軟件,在里面可以創(chuàng)建很多虛擬機(jī),擬機(jī)里安裝的操作系統(tǒng)分別是 Windows 7、Windows 8、Windows Server 2012、Windows XP 和Linux的各種發(fā)行版。只要不啟動虛擬機(jī),就不會消耗內(nèi)存和 CPU 資源,但是會占用硬盤空間。能同時啟動的虛擬機(jī)數(shù)目與計算機(jī)的物理內(nèi)存容量和 CPU 速度有關(guān)。另一款免費的桌面虛擬機(jī)軟件是 Oracle 公司的VirtualBox。
CPU 發(fā)展到多核,且本身就支持虛擬化。虛擬化軟件廠商直接推出了能運行在裸機(jī)上的虛擬化軟件層,如微軟的 Windows Hyper-v 2012、EMC 的ESXi6、思杰的XenServer、紅帽的 RHEV-H等,然后在虛擬化軟件層上直接創(chuàng)建更多的虛擬機(jī),虛擬化軟件層消耗的計算資源很少,一般在 10% 以內(nèi),相比前面的方法,同一臺物理機(jī)可以運行更多的虛擬機(jī)。
5.2集群技術(shù)分析
負(fù)載均衡技術(shù)用于解決如何把許多互不相關(guān)的小型任務(wù)或中型任務(wù)合理地分配到不同的服務(wù)器上的問題?;ゲ幌嚓P(guān)的小型任務(wù)或中型任務(wù)是指任務(wù)之間沒有關(guān)聯(lián)性,而且只用一臺服務(wù)器就可以完成的任務(wù)。絕大多數(shù)個人租戶的任務(wù)都屬于這類任務(wù)。對于大型任務(wù),由于一臺服務(wù)器無法按時完成,所以就要把大型任務(wù)拆分成許多中小型任務(wù),然后再分配給多臺服務(wù)器,由它們協(xié)同完成,這就是計算機(jī)集群技術(shù)所要解決的問題。對租戶來說,由很多臺服務(wù)器組成的集群系統(tǒng)就像一臺超級計算機(jī),不管運行多么復(fù)雜、大型的任務(wù),馬上就能得到結(jié)果。而具備同樣計算能力的超級計算機(jī)價格卻異常昂貴,所以當(dāng) PC 服務(wù)器價格大幅度下降之后,人們熱衷于采用廉價的集群系統(tǒng)來完成各種高性能的計算任務(wù)。比較明顯的例子就是,谷歌公司用幾萬臺服務(wù)器組建搜索集群系統(tǒng),而且服務(wù)器都是他們自己組裝的。
集群是一個復(fù)雜的工程,它涉及很多分布式方面的基礎(chǔ)算法,如選舉算法、一致算法、波算法、快照、故障檢測等。Hadoop就是一個集群系統(tǒng),它負(fù)責(zé)分布式系統(tǒng)的基礎(chǔ)算法,從而在Hadoop上編寫分布式程序就簡單多了。
5.3分布式技術(shù)分析
HDFS(Distributed File System)分布式文件系統(tǒng)是Hadoop生態(tài)系統(tǒng)中的重要組成部分,HDFS分布式文件系統(tǒng)是基于流式的數(shù)據(jù)訪問模式,它可以將同一網(wǎng)絡(luò)內(nèi)大量的計算機(jī)組成一個龐大的存儲集群,從而來實現(xiàn)海量數(shù)據(jù)的分布式存儲。HDFS分布式文件系統(tǒng)的存儲不需要高價格高性能的服務(wù)器來支撐,一些低成本的PC機(jī)也能添加到存儲集群中,從而降低了數(shù)據(jù)存儲的成本。
隨著互聯(lián)網(wǎng)的快速發(fā)展,每個應(yīng)用系統(tǒng)要存儲的數(shù)據(jù)量也在成本的增加,對數(shù)據(jù)的存儲提出了更高的要求,第一要有較高的吞吐量,第二要有較高的容錯能力,第三要有較高的性能和存儲效率,HDFS分布式文件系統(tǒng)正是具備了以上的特點,因此被廣泛地應(yīng)用于大數(shù)據(jù)項目的數(shù)據(jù)存儲上。
6 關(guān)鍵技術(shù)及解決方法
基于Hadoop2.0分布式存儲和分布式計算大數(shù)據(jù)平臺的構(gòu)建,整體架構(gòu)設(shè)計的實現(xiàn)如下:
本次采用Hadoop2.0 HDFS的高可用架構(gòu);Hadoop集群中有2個NameNode節(jié)點和5個DataNode節(jié)點,兩個NameNode節(jié)點互為備份,一個節(jié)點處于活動狀態(tài),另外一個節(jié)點處于備用狀態(tài)。Hadoop2.0中的ZooKeeper擔(dān)當(dāng)兩個NameNode服務(wù)器節(jié)點的協(xié)調(diào)工作,ZooKeeper是一個分布式協(xié)調(diào)服務(wù),它可以在HDFS高可用集群中提供故障自動轉(zhuǎn)移服務(wù)的功能。所有服務(wù)器之間配置SSH免密訪問,可以方便各節(jié)點間的訪問,同時為了保障Hadoop集群的安全性,大力加強(qiáng)安全網(wǎng)絡(luò)設(shè)置和用戶身份的驗證。
7 平臺應(yīng)用
大數(shù)據(jù)教學(xué)實訓(xùn)平臺中將用戶分為管理員、教師和學(xué)生,三種角色擁有不同的權(quán)限,有各自的操作工作區(qū)。
7.1管理員工作區(qū)
管理員工作區(qū)是大數(shù)據(jù)實訓(xùn)平臺的統(tǒng)一管理后臺,該工作區(qū)可進(jìn)行教學(xué)資源管理、課程資源管理、實驗報告設(shè)置,用戶管理,權(quán)限管理,安全設(shè)置等操作。
7.2教師工作區(qū)
教師工作區(qū)是大數(shù)據(jù)實訓(xùn)平臺的教師教學(xué)模塊,該工作區(qū)可進(jìn)行課程管理、實驗管理、實驗報告管理、實驗督導(dǎo)、成績管理、實驗監(jiān)控管理、學(xué)情分析等操作。
7.3學(xué)生工作區(qū)
學(xué)生工作區(qū)是大數(shù)據(jù)實訓(xùn)平臺的學(xué)生學(xué)習(xí)模塊,該工作區(qū)可進(jìn)行課程學(xué)習(xí)、觀看教學(xué)視頻、實驗訓(xùn)練、編寫實驗報告、考試考核、成績查詢等操作。
8 結(jié)語
本項目的落地切實能在大數(shù)據(jù)教學(xué)上提供非常大的幫助,實現(xiàn)信息化和師生的交互教學(xué),切實地提高大數(shù)據(jù)專業(yè)的上課效率、安全性及協(xié)同工作能力,降低設(shè)備采購的成本。
項目成功實施之后,減少大批量高性能臺式機(jī)的采購成本,只要配置少量高性能服務(wù)器就能完成高質(zhì)量的實訓(xùn)教學(xué),并且大大地提高上課的效率。
實訓(xùn)平臺的可擴(kuò)展性極高,技術(shù)先進(jìn)參照企業(yè)的生成標(biāo)準(zhǔn),可確保今后好幾年年不需要更換平臺,可以在需要的情況下增加新的功能,提供實訓(xùn)平臺的版本的升級。在服務(wù)器上安裝虛擬環(huán)境,可以布置多個不同的應(yīng)用程序,大大提高了服務(wù)器的利用率,對各個應(yīng)用系統(tǒng)實施動態(tài)冗余管理,系統(tǒng)可靠性有明顯提升。
參考文獻(xiàn):
[1] 林子雨.大數(shù)據(jù)技術(shù)原理與應(yīng)用[M].2版.北京:人民郵電出版社,2017.
[2] [英] 維克托·邁爾·舍恩伯格(Viktor Mayer-Sch?nberger).大數(shù)據(jù)時代:生活、工作與思維的大變革 a revolution that will transform how we live,work and think[M].周濤譯.杭州:浙江人民出版社,2013.
[3] 李賀華.基于云計算機(jī)系統(tǒng)的實訓(xùn)平臺研究與實現(xiàn)[J].實驗技術(shù)與管理,2015,32(3):157-160,202.
【通聯(lián)編輯:梁書】