王振華 洪泓 陳春麗
摘要:該文分析了大數(shù)據(jù)技術(shù)的前景與重要性,高校建設(shè)大數(shù)據(jù)實(shí)驗(yàn)室的意義和必要性。大數(shù)據(jù)技術(shù)是以數(shù)據(jù)存儲、加工、分析為主,向企業(yè)或單位提供決策和預(yù)測。該文同時探討了高校大數(shù)據(jù)技術(shù)課程體系,從科學(xué)研究和工程項(xiàng)目兩個方向,分別設(shè)置相關(guān)課程。針對大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室建設(shè)的幾個關(guān)鍵要素進(jìn)行分析,包括實(shí)驗(yàn)室基礎(chǔ)平臺建設(shè),實(shí)驗(yàn)室隊(duì)伍建設(shè),數(shù)據(jù)資源建設(shè)等。
關(guān)鍵詞:大數(shù)據(jù);實(shí)驗(yàn)室建設(shè);機(jī)器學(xué)習(xí)
信息技術(shù)與經(jīng)濟(jì)社會的快速發(fā)展促進(jìn)了數(shù)據(jù)量的爆發(fā)性增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源。利用數(shù)據(jù)輔助決策、合理配置資源,將是未來企業(yè)創(chuàng)造價值的重要方法,也是未來新興產(chǎn)業(yè)創(chuàng)建的重要依據(jù)。國家從戰(zhàn)略的角度,已經(jīng)開始重視大數(shù)據(jù)的發(fā)展。2015年8月31日,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。2016年12月18日工業(yè)和信息化部印發(fā)《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》。隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,對該類人才的培養(yǎng)也逐步成為高校信息技術(shù)教學(xué)的重要內(nèi)容。
大數(shù)據(jù)技術(shù)數(shù)據(jù)分析處理是從數(shù)據(jù)中挖掘關(guān)鍵信息,達(dá)到輔助決策,提升運(yùn)作效率的目標(biāo)。大數(shù)據(jù)技術(shù)目前在各個行業(yè)和跨行業(yè)之間存在廣泛的應(yīng)用空間,其重要的應(yīng)用之一,是預(yù)測性分析,從數(shù)據(jù)中挖掘出特點(diǎn),建立模型,迭代驗(yàn)證,確立模型,最終實(shí)現(xiàn)預(yù)測。其中數(shù)據(jù)分析包括檢查、清洗、轉(zhuǎn)換和建模等方法,即根據(jù)特定目標(biāo),對數(shù)據(jù)進(jìn)行收集與存儲,數(shù)據(jù)篩選,算法分析與預(yù)測,提出有建設(shè)性的意見,進(jìn)而輔助決策。
大數(shù)據(jù)技術(shù)包含兩個方面,即數(shù)據(jù)存儲技術(shù)和計(jì)算分析技術(shù)。存儲技術(shù)包括非結(jié)構(gòu)化數(shù)據(jù)收集架構(gòu),數(shù)據(jù)分布式存儲集群,MPP架構(gòu)的新型數(shù)據(jù)庫集群等。大數(shù)據(jù)中常用的分析技術(shù)有:關(guān)聯(lián)規(guī)則挖掘、聚類、遺傳算法、自然語言處理、神經(jīng)網(wǎng)絡(luò)、優(yōu)化、模式識別、預(yù)測模型等。
1大數(shù)據(jù)課程體系
目前,高校大數(shù)據(jù)相關(guān)專業(yè)沒有統(tǒng)一的課程體系,大數(shù)據(jù)技術(shù)相關(guān)的課程比較多。根據(jù)其應(yīng)用的側(cè)重點(diǎn)不同,可將大數(shù)據(jù)技術(shù)課程體系分為科學(xué)研究型和工程項(xiàng)目型兩類。具體課程體系見下表1。
2大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室建設(shè)理念
在高校培養(yǎng)大數(shù)據(jù)人才,利用高等學(xué)校的多學(xué)科優(yōu)勢建立大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室尤為必要,不僅可以服務(wù)于高校的教學(xué)和科研,通過大數(shù)據(jù)技術(shù)的科研與實(shí)驗(yàn),使學(xué)生掌握主流的大數(shù)據(jù)存儲、管理、分析處理技術(shù),以及大數(shù)據(jù)平臺架構(gòu)和建設(shè)技術(shù)。大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室利用先進(jìn)的技術(shù)、成熟的解決方案以及科學(xué)管理體系,結(jié)合專業(yè)優(yōu)勢,可以加強(qiáng)高校的產(chǎn)學(xué)研的功能,服務(wù)社會,為社會輸送大數(shù)據(jù)技術(shù)人才。
3大數(shù)據(jù)實(shí)驗(yàn)室建設(shè)內(nèi)容
3.1軟硬件設(shè)施建設(shè)
大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室建設(shè)應(yīng)在滿足科研和教學(xué)需求這一總目標(biāo)指導(dǎo)下,遵循國家標(biāo)準(zhǔn),采用目前國內(nèi)外先進(jìn)的大數(shù)據(jù)技術(shù)和有效的安全技術(shù)手段,建立具有先進(jìn)性、可擴(kuò)展性、實(shí)用性的大數(shù)據(jù)實(shí)驗(yàn)平臺。
大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室系統(tǒng)硬件平臺建設(shè):硬件平臺一般包括數(shù)據(jù)存儲與計(jì)算中心、可視化模塊及終端。其中,數(shù)據(jù)存儲與計(jì)算中心是整個系統(tǒng)的核心部分,它提供底層的計(jì)算資源、網(wǎng)絡(luò)資源、存儲資源,具有云存儲、虛擬化、并行計(jì)算等基本的功能。目前,許多公司都提供相關(guān)的硬件解決方案,比如,常見的公司有HP、IBM、Dell、曙光等。
大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室軟件平臺建設(shè):大數(shù)據(jù)技術(shù)軟件平臺主要是指一系列的軟件架構(gòu)和部署,例如:多種存儲模型管理系統(tǒng)等,大數(shù)據(jù)平臺可以充分借鑒國外高校和科技公司的大數(shù)據(jù)建設(shè)的經(jīng)驗(yàn),采用整體規(guī)劃、分步實(shí)施的建設(shè)思路,建立大數(shù)據(jù)管理平臺,為大數(shù)據(jù)應(yīng)用提供底層基礎(chǔ)數(shù)據(jù)支撐,并建立示范性和典型性的大數(shù)據(jù)應(yīng)用平臺。
建立大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室信息安全運(yùn)行平臺,構(gòu)建整個數(shù)據(jù)信息系統(tǒng)的安全支撐體系,保證各種業(yè)務(wù)應(yīng)用的安全運(yùn)行,通過技術(shù)手段實(shí)現(xiàn)信息系統(tǒng)安全可管理,使安全保護(hù)策略貫穿到信息系統(tǒng)的各個層面。
3.2實(shí)驗(yàn)室隊(duì)伍建設(shè),校企聯(lián)合培養(yǎng)學(xué)生
加強(qiáng)大數(shù)據(jù)技術(shù)實(shí)驗(yàn)教師隊(duì)伍建設(shè)的任務(wù)是艱巨的。目前高校中,領(lǐng)先的大數(shù)據(jù)技術(shù)開發(fā)團(tuán)隊(duì)比較匱乏,與多方參與合作共同促進(jìn)實(shí)驗(yàn)室隊(duì)伍建設(shè)是最佳的捷徑。利用社會上一些知名的大數(shù)據(jù)技術(shù)企業(yè)和大數(shù)據(jù)培訓(xùn)公司,進(jìn)行校企合作共同培養(yǎng)學(xué)生。公司可以提供技術(shù)工程師、企業(yè)講師等作為兼職教師,為學(xué)生講解部分行業(yè)性較強(qiáng)的課程,補(bǔ)充學(xué)校教師匱乏的不足。企業(yè)兼職教師還可為教師和學(xué)生講授項(xiàng)目實(shí)訓(xùn)課程,提升其實(shí)踐能力。
社會上知名的大數(shù)據(jù)技術(shù)公司,例如:百度、騰訊、阿里云、微軟等企業(yè),大數(shù)據(jù)技術(shù)實(shí)力雄厚,與許多高校在進(jìn)行校企合作。
3.3數(shù)據(jù)源
大數(shù)據(jù)實(shí)驗(yàn)室建設(shè)需要擁有大量數(shù)據(jù)。常見的大數(shù)據(jù)類型包括:文本、圖像、視頻、傳感器數(shù)據(jù)、聲音、社會媒體等。對于高等學(xué)校大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室的數(shù)據(jù)來源依然是一個非常重要的問題。對于獲得的大數(shù)據(jù),數(shù)據(jù)的安全和數(shù)據(jù)的隱私保護(hù),也是我們研究的重要課題。
3.3.1行業(yè)數(shù)據(jù)
企業(yè)發(fā)展過程中擁有大量的數(shù)據(jù),通過合作獲取他們的數(shù)據(jù)。隨著信息化技術(shù)和企業(yè)自身業(yè)務(wù)的發(fā)展,許多企業(yè)在生產(chǎn)經(jīng)營環(huán)節(jié)積累了大量的內(nèi)部數(shù)據(jù),包括研發(fā)、生產(chǎn)、經(jīng)營、銷售、客服、倉儲、財(cái)務(wù)等,比如電子商務(wù)公司、電信、交通、銀行、房地產(chǎn)、股票基金交易、天氣等;還有新興的高科技公司通過服務(wù)積累了巨量的數(shù)據(jù),如:社交網(wǎng)絡(luò)服務(wù)、通訊服務(wù)、搜索引擎等。
3.3.2網(wǎng)上數(shù)據(jù)
互聯(lián)網(wǎng)擁有大量數(shù)據(jù),從互聯(lián)網(wǎng)獲取數(shù)據(jù)。常用的方法是利用網(wǎng)絡(luò)爬蟲技術(shù)或者第三方公司提供的數(shù)據(jù)資源來獲得我們需要的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。一些第三方公司提供數(shù)據(jù)收費(fèi)數(shù)據(jù)服務(wù),通過API獲取需要的數(shù)據(jù)。比如:數(shù)說聚合、聚合數(shù)據(jù)等。
4結(jié)束語
目前,國內(nèi)大數(shù)據(jù)技術(shù)相關(guān)的信息技術(shù),與國外仍存在較大差距。加強(qiáng)相關(guān)學(xué)科建設(shè)和數(shù)據(jù)科學(xué)技術(shù)的發(fā)展,是高校與科研院所的重要職責(zé),培養(yǎng)相關(guān)技術(shù)人才是目前最緊迫的任務(wù)。大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室是高校重要的實(shí)踐教學(xué)、科學(xué)研究和技術(shù)服務(wù)基地,為社會和企業(yè)培養(yǎng)更多的相關(guān)人才,高校大數(shù)據(jù)技術(shù)實(shí)驗(yàn)室建設(shè)工作非常重要,也是建設(shè)“雙一流”大學(xué)的重要條件之一。