(江蘇聯(lián)合職業(yè)技術(shù)學院徐州財經(jīng)分院,江蘇徐州,221008)
大數(shù)據(jù)及其處理架構(gòu)在高校中的應(yīng)用探究
尚 博
(江蘇聯(lián)合職業(yè)技術(shù)學院徐州財經(jīng)分院,江蘇徐州,221008)
本文先對大數(shù)據(jù)做了簡要介紹,進而分析了結(jié)合高校大數(shù)據(jù)結(jié)構(gòu)的特點,進而以學生就業(yè)情況為例,分別作了高校數(shù)據(jù)采集、高校數(shù)據(jù)清理、高校數(shù)據(jù)存儲及管理、高校大數(shù)據(jù)分析、高校數(shù)據(jù)可視化顯化等環(huán)節(jié)的應(yīng)用做了深入探討,以便更好的為高校在教學任務(wù)、課件等教學信息、科學研究數(shù)據(jù)、師資信息、招生就業(yè)信息等方面借助大數(shù)據(jù)分析技術(shù),分析學生在高校和社會活動中產(chǎn)生的大數(shù)據(jù),形成數(shù)據(jù)庫,進而為高校制定更好的教學內(nèi)容和教學模式。
大數(shù)據(jù);數(shù)據(jù)分析;清理方式 Hadoop
隨著云時代的來臨,大數(shù)據(jù)(Big data)也吸引了越來越多的關(guān)注。早在1980年,著名未來學家阿爾文?托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。大數(shù)據(jù)(Big data),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。海量數(shù)據(jù)技術(shù),能夠有效地處理大量的容忍經(jīng)過時間內(nèi)的數(shù)據(jù)。大數(shù)據(jù)的技術(shù)應(yīng)用,包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。
大數(shù)據(jù)本身是一個比較抽象的概念,但是僅僅數(shù)量上的龐大顯然無法看出大數(shù)據(jù)這一概念和以往的“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)等概念之間有何區(qū)別。大數(shù)據(jù)可以更好的預(yù)測高校學生學習發(fā)展趨勢以及學生教育就業(yè)情況等,用戶通過電腦、筆記本、手機等方式接入數(shù)據(jù)中心,然后數(shù)據(jù)中心通過分析個人的各類信息,如微博、微信等社交信息中的抱怨,學生在選課、借閱圖書種類、成績變化等學習信息,盡可進行綜合性的分析判斷。
高校大數(shù)據(jù)按照信息處理環(huán)節(jié)包括高校數(shù)據(jù)采集、高校數(shù)據(jù)清理、高校數(shù)據(jù)存儲及管理、高校大數(shù)據(jù)分析、高校數(shù)據(jù)可視化顯化等五個環(huán)節(jié)。大數(shù)據(jù)(Big data)的處理流程和傳統(tǒng)的數(shù)據(jù)處理流程區(qū)別不大,主要的區(qū)別是,傳統(tǒng)的數(shù)據(jù)處理流程不能在處理大型非結(jié)構(gòu)化數(shù)據(jù),在每個加工環(huán)節(jié)都使用MapReduce并行處理的方式,而大數(shù)據(jù)就可以采用每個加工環(huán)節(jié)都使用MapReduce并行處理的方式。
2.1 高校大數(shù)據(jù)采集
大數(shù)據(jù)采集可通過RFID射頻數(shù)據(jù)、傳感器等采集到數(shù)據(jù),也可以通過社交網(wǎng)絡(luò)交互數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),關(guān)鍵的高速度和高可靠的分布式爬行或采集,取得高速數(shù)據(jù)映射,數(shù)據(jù)采集技術(shù)的突破;利用高速數(shù)據(jù)分析,轉(zhuǎn)換和加載等數(shù)據(jù)集成整合技術(shù),設(shè)計質(zhì)量評價模型。由于大數(shù)據(jù)散布于不同的物理機上的,所以可以采用Hadoop等大數(shù)據(jù)挖掘工具進行數(shù)據(jù)采集,通過指向需要的信息內(nèi)容存儲空間,形成數(shù)據(jù) 倉庫。所有的數(shù)據(jù)都是存在于云數(shù)據(jù)中心的資源池內(nèi),根據(jù)實際需求選擇數(shù)據(jù)采集方式,所以首要的任務(wù)是定義CIO的數(shù)據(jù)需求。
圖1 就業(yè)分析模型
圖2 高校大數(shù)據(jù)清理方式
高校大數(shù)據(jù)比較復(fù)雜,以高校學生就業(yè)分析情況為例,過去的就業(yè)分析數(shù)據(jù)主要來源于學生的簽約單位、學生的就業(yè)薪資待遇,學生就業(yè)分布的區(qū)域、學生畢業(yè)前所在院系專業(yè)排名、性別等維度來采集學生就業(yè)信息,通過上述采集,得到統(tǒng)計表格,然后高校就業(yè)指導(dǎo)辦老師,根據(jù)自己的經(jīng)驗指導(dǎo)在校學生應(yīng)對下一年的就業(yè)情況,無法預(yù)測在校的某個學生的就業(yè)情況,但是利用大數(shù)據(jù)采集,就可以采集學生更好的和就業(yè)相關(guān)的特征,比如學生在校的成績排名變化,學生參加校內(nèi)校外活動的情況,學生的戀愛情況,以及學生應(yīng)聘實習的情況,學生圖書館的借書種類,借書頻率,甚至可以采集學生在微薄等微信社交工具中所展示的對日常行為等,通過對歷屆學生在應(yīng)聘單位薪資待遇等等眾多的信息進行收集。以徐州財經(jīng)學院為例,可以從圖1所示的各類系統(tǒng)中采集學生的各類信息,構(gòu)成大數(shù)據(jù)下的就業(yè)分析模型所需的各類數(shù)據(jù)。
2.2 高校大數(shù)據(jù)清理方式
大數(shù)據(jù)下的數(shù)據(jù)清理方式,高校數(shù)據(jù)來源復(fù)雜多樣,對于不同的數(shù)據(jù)源,數(shù)據(jù)提取采取不同的方式,對于非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)頁通過Nutch的工具抓取,數(shù)據(jù)被Solr的工具索引后存儲在HBase數(shù)據(jù)庫,對每個結(jié)構(gòu)良好的信息系統(tǒng)中的數(shù)據(jù),可以使用ETL工具將數(shù)據(jù)提取到HBase的數(shù)據(jù)庫;如圖2所示示意圖。HBase的數(shù)據(jù)庫是一個分布式的,開放源碼的面向列的數(shù)據(jù)庫,不同于一般的關(guān)系數(shù)據(jù)庫,它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。該技術(shù)來源 Fay Chang 所撰寫的Google論文“Bigtable:一個結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng)”。
2.3 高校數(shù)據(jù)存儲及管理
根據(jù)高校大數(shù)據(jù)中的分散性,復(fù)雜性,本文建議采用虛擬存儲技術(shù)解決高校數(shù)據(jù)存儲和管理,存儲虛擬化可以提高存儲利用率,降低成本,簡化存儲管理,而基于網(wǎng)絡(luò)的虛擬存儲技術(shù)已成為一種趨勢,它的開放性、擴展性、管理性等方面的優(yōu)勢將在數(shù)據(jù)大集中、異地容災(zāi)等應(yīng)用中充分體現(xiàn)出來。本文建議利用云環(huán)境架構(gòu)搭建用戶視圖更好的方便數(shù)據(jù)的存儲,同時高校大數(shù)據(jù)的數(shù)據(jù)源比較多,既包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,也包括XML 等新的半結(jié)構(gòu)化數(shù)據(jù),以及以文字、視頻等其他形式存在的各類非結(jié)構(gòu)化數(shù)據(jù)。利用云環(huán)境架構(gòu)搭建用戶視圖更好的方便數(shù)據(jù)的存儲,可以更好的囊括現(xiàn)有的高校已經(jīng)建立大數(shù)據(jù)系統(tǒng),如學校的管理信息系統(tǒng)、學生學習管理系統(tǒng)等,這樣的好處還在于可以在統(tǒng)一數(shù)據(jù)中心資源池中積累大量的結(jié)構(gòu)化數(shù)據(jù)。
圖3 高校云環(huán)境存儲架構(gòu)
2.4 高校大數(shù)據(jù)分析
在數(shù)據(jù)分析方面可選用SAS及SPSS等工具,也可以使用基于開源軟件基礎(chǔ)構(gòu)架Hadoop的數(shù)據(jù)分析,經(jīng)過數(shù)據(jù)清理得到的數(shù)據(jù),需要進行數(shù)據(jù)分析挖掘。針對學生的生活信息,選課、借閱圖書、成績等學習信息,可以更好的使高校在可以在教學任務(wù)、課件等教學信息、科學研究數(shù)據(jù)、師資信息、招生就業(yè)信息等方面為學生提高服務(wù)和指導(dǎo)。以學生就業(yè)情況為例,將就業(yè)分析模型所需的數(shù)據(jù)存儲在Hbase 數(shù)據(jù)庫后,可以使用Hive 對Hbase數(shù)據(jù)庫中的各類數(shù)據(jù)進行查詢和分析。通過Hive 可以更好的實現(xiàn)對高校就業(yè)數(shù)據(jù)的現(xiàn)狀分析,且可以更容易的通過對現(xiàn)有就業(yè)情況較好的學生的數(shù)據(jù)進行研究,預(yù)測在校學生的就業(yè)情況。通過協(xié)作篩選,分析已就業(yè)學生的成績、參加過的社團活動、愛好特長,喜好職業(yè)、性格特點等,將在校學生和就業(yè)生的情況進行相似比對計算程度,通過建立綜合評判模型,可以更好的在校學生就業(yè)提供指導(dǎo)方案,其次是聚類分析,將未能就業(yè)學生通過不同的維度進行分析,通過對影響學生就業(yè)的問題就行研究分析,對在校學生的不利于就業(yè)的行為及時給出就業(yè)預(yù)警,能夠更好的發(fā)揮高校就業(yè)指導(dǎo)中心的作用。如圖3所示
Research on the application of large data and its processing architecture in Colleges and Universities
Shang Bo
(Xuzhou Jiangsu Xuzhou branch of Jiangsu Lianhe Technical Institute of Finance and Economics,221008)
In this paper,the author first of Big data gives a brief introduction,and then analyzes thecombination of characteristic of big data structure in Colleges and universities,the employment situation of students as an example,are described in detail by five aspects of data acquisition,data cleaning,data storage and management,data analysis, data display and etc.,in order to better for the colleges and universities with big data analysis techniquesin the task of teaching,courseware,teaching in formation,teachinginformation,scientific research data, enrollment and employmentinformation and other aspects,Students analyze large data generated in universities and social activities, the formation of a database,and then develop better teaching content and teaching mode for college.
Big data;data analysis;Cleaning method Hadoop