林嘉燕(福建信息職業(yè)技術(shù)學(xué)院,福建福州 350003)
構(gòu)建基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)
林嘉燕
(福建信息職業(yè)技術(shù)學(xué)院,福建福州 350003)
當(dāng)前,高校就業(yè)形勢嚴(yán)峻,如何利用大數(shù)據(jù)技術(shù)改善高校就業(yè)信息服務(wù)是一個值得研究的問題。通過分析大數(shù)據(jù)的定義、關(guān)鍵技術(shù)和高校就業(yè)信息服務(wù)現(xiàn)狀,本文提出構(gòu)建一個基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng),詳細(xì)闡述基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)的業(yè)務(wù)流程,并給出系統(tǒng)的基本架構(gòu)。
大數(shù)據(jù);就業(yè);非結(jié)構(gòu)化;分布式;推薦
隨著畢業(yè)生總體人數(shù)逐年提高,就業(yè)形勢日益嚴(yán)峻。原有的高校就業(yè)信息服務(wù)系統(tǒng)所能提供的支持微乎其微,急需找到一個更好的方案來改善當(dāng)前的局面。與此同時,隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,特別是移動互聯(lián)、物聯(lián)網(wǎng)和云計算等新興技術(shù)的不斷成熟,各行各業(yè)、各個職能領(lǐng)域中所蘊(yùn)含的大數(shù)據(jù)能量正在逐漸迸發(fā)出來。維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》一書中指出:“大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型”[1]。因此,在當(dāng)前階段,研究如何利用大數(shù)據(jù)思維方式來構(gòu)建一個全新的高校就業(yè)信息服務(wù)系統(tǒng),以便于更好地服務(wù)于高校應(yīng)屆畢業(yè)生的就業(yè)工作、推進(jìn)高校教改工作和教育管理工作的長足發(fā)展,顯然具有積極的現(xiàn)實(shí)意義。
1.1 大數(shù)據(jù)的定義
從運(yùn)營式系統(tǒng)階段的被動生成到用戶原創(chuàng)內(nèi)容階段的主動生成,最后到感知式系統(tǒng)階段的自動生成;數(shù)據(jù)產(chǎn)生方式不斷變革直接導(dǎo)致數(shù)據(jù)生成速率迅速增長,繼而引發(fā)數(shù)據(jù)存儲單位從Megabyte、Gigabyte、Terabyte、Petabyte到Exabyte的發(fā)展,最終催生了大數(shù)據(jù)時代。雖然近幾年大數(shù)據(jù)日漸流行,但是目前對于大數(shù)據(jù)的定義尚未形成公認(rèn)的定論。
維基百科對大數(shù)據(jù)的定義:大數(shù)據(jù)是指使用常用軟件工具獲取、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集[2]。全球知名的咨詢公司麥肯錫研究院(MGI)于2011年6月發(fā)布名為“Big Data:The Next Frontier for Innovation,Competition,and Productivity”的研究報告中對大數(shù)據(jù)的定義是:大數(shù)據(jù)指大小超過常規(guī)數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集,同時,并不是一定要超過特定TB規(guī)模的數(shù)據(jù)集才能算是大數(shù)據(jù)[3]。IBM提出大數(shù)據(jù)的3V模型,即大數(shù)據(jù)具備海量性(Volume)、多樣性(Variety)和高速性(Velocity)三個特征:海量性指數(shù)據(jù)量巨大,數(shù)據(jù)規(guī)模達(dá)到TB級及PB級;多樣性指數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);高速性指數(shù)據(jù)創(chuàng)建、處理和分析的速度持續(xù)在加快[4]。目前,接受度比較高的是IBM重定義的4V定義,也就是在3V的基礎(chǔ)上添加了真實(shí)性(Veracity)。
1.2 大數(shù)據(jù)的存儲
大數(shù)據(jù)時代數(shù)據(jù)處理的理念不再著眼于數(shù)據(jù)的抽樣、精確性和因果關(guān)系,轉(zhuǎn)而關(guān)注數(shù)據(jù)的全體性、高效率和相關(guān)性[1]。數(shù)據(jù)從傳統(tǒng)單一的結(jié)構(gòu)化形式發(fā)展到結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化三種形式并存、數(shù)據(jù)訪問的高并發(fā)度、數(shù)據(jù)處理形式多樣化都需要有一種新的存儲方式。
1.2.1 文件系統(tǒng)
文件系統(tǒng)是一個系統(tǒng)的基礎(chǔ),大數(shù)據(jù)系統(tǒng)因其獨(dú)有的特性需要一個全新的文件系統(tǒng)來支撐。產(chǎn)業(yè)界和學(xué)術(shù)界都非常關(guān)注大數(shù)據(jù)文件系統(tǒng)的研發(fā)。常見的大數(shù)據(jù)文件系統(tǒng)有GFS、HDFS、QFS、PVFS、Ceph、Lustre等。其中GFS是Google推出的一個可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問。它運(yùn)行于廉價的普通硬件上,可提供容錯功能和高性能服務(wù)[5]。雖然,Google公布了實(shí)現(xiàn)GFS系統(tǒng)的論文依據(jù)卻沒有開放源代碼。2005年秋天,受到資助的Hadoop項目在GFS基礎(chǔ)上研發(fā)出了Hadoop文件系統(tǒng)HDFS。目前,HDFS已經(jīng)成為應(yīng)用最為廣泛的開源文件系統(tǒng)。
1.2.2 數(shù)據(jù)庫技術(shù)
數(shù)據(jù)庫(Database)是按照數(shù)據(jù)結(jié)構(gòu)來組織、存儲和管理數(shù)據(jù)的倉庫。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)結(jié)構(gòu)有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);傳統(tǒng)的數(shù)據(jù)庫難以滿足多樣化的海量大數(shù)據(jù)的需求。因此,在大數(shù)據(jù)環(huán)境下,針對不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)往往使用不同的數(shù)據(jù)庫技術(shù)。針對傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)可以采用傳統(tǒng)的RDMBS,而對于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)可以采用NoSQL數(shù)據(jù)庫。常見的NoSQL數(shù)據(jù)庫有Bigtable、Hbase、Cassandra、HyperTable、Redis、MongoDB、CouchDB、LevelDB等。
1.3 大數(shù)據(jù)的處理
根據(jù)應(yīng)用場景不同,可以把大數(shù)據(jù)處理技術(shù)分為三大類[6]。
1.3.1 批量數(shù)據(jù)處理
批量數(shù)據(jù)一般是靜態(tài)存儲的可重復(fù)利用數(shù)據(jù),這類數(shù)據(jù)精確度較高,但同時因?yàn)閿?shù)據(jù)量龐大,往往價值密度低。Google的GFS+MapReduce組合就是一個批量數(shù)據(jù)處理系統(tǒng);而在此基礎(chǔ)上開源實(shí)現(xiàn)了HDFS和MapReduce的Hadoop更是被廣泛使用的經(jīng)典批量數(shù)據(jù)處理系統(tǒng)。目前,鑒于MapReduce存在的單點(diǎn)故障和性能瓶頸,已經(jīng)推出Hadoop MapReduceV2(Yarn)分布式計算框架。
1.3.2 在線數(shù)據(jù)實(shí)時處理
與批量數(shù)據(jù)不同,在線數(shù)據(jù)往往對實(shí)時性要求很高,可分為流式數(shù)據(jù)和交互式數(shù)據(jù)。典型的在線數(shù)據(jù)實(shí)時處理系統(tǒng)有Google的Dremel、Berkeley的Spark、Twitter的Storm。
1.3.3 圖數(shù)據(jù)處理
圖形數(shù)據(jù)庫是一種特殊的NoSQL數(shù)據(jù)庫,它利用圖形理論來存儲實(shí)體之間的關(guān)系信息,大量應(yīng)用于社交網(wǎng)絡(luò)和推薦系統(tǒng)中。圖數(shù)據(jù)作為一種獨(dú)特的數(shù)據(jù),它的處理復(fù)雜度遠(yuǎn)高于前面兩種。目前,比較典型的圖數(shù)據(jù)處理系統(tǒng)有Google的Pregel系統(tǒng)、Neo4j系統(tǒng)、Twitter的FlockDB、Apache的Giraph和微軟的Trinity系統(tǒng)。
根據(jù)教育部公布的數(shù)據(jù),2016年全國高校畢業(yè)生人數(shù)達(dá)到765萬的歷史新高,就業(yè)形勢日漸嚴(yán)峻。但是,目前整個高校的就業(yè)信息服務(wù)現(xiàn)狀不容樂觀??v觀各省各高校的就業(yè)信息服務(wù),基本以線上就業(yè)信息網(wǎng)和線下人才招聘會相結(jié)合的方式。線上就業(yè)信息網(wǎng)主要分為省畢業(yè)生就業(yè)公共網(wǎng)(或信息網(wǎng))和各個高校就業(yè)信息網(wǎng)兩塊,無論是省畢業(yè)生就業(yè)信息網(wǎng)還是各高校就業(yè)信息網(wǎng)基本只涵蓋就業(yè)相關(guān)政策和用人單位招聘信息兩塊內(nèi)容。
2.1 功能簡單,資源整合度低
高校作為畢業(yè)生進(jìn)入社會前校園生活的最后一站,各個職能部門都擁有大量的畢業(yè)生資料??上У氖牵@些信息資源往往是孤立的,沒有很好地整合以便提供更好的服務(wù)。作為就業(yè)信息服務(wù)工作重中之重的高校就業(yè)信息網(wǎng)基本只發(fā)揮了就業(yè)信息發(fā)布窗口的作用。
2.2 信息發(fā)布不及時,針對性低
智能手機(jī)的普及極大地加速了移動互聯(lián)網(wǎng)絡(luò)的發(fā)展,當(dāng)前的互聯(lián)網(wǎng)已經(jīng)不再是單一有線網(wǎng)絡(luò)形式的天下,而是一個隨時隨地滿足個性化需求、多種網(wǎng)絡(luò)并存的網(wǎng)絡(luò)時代。而當(dāng)前的就業(yè)信息服務(wù)系統(tǒng)的服務(wù)狀態(tài)仍然處于如下情況:從學(xué)生的角度看,往往是通過學(xué)校通知獲知相關(guān)就業(yè)政策和招聘信息再去上網(wǎng)查看;從高校就業(yè)信息發(fā)布部門的角度看,往往都是簡單地在網(wǎng)站上掛出,信息是否傳播到位是個未知數(shù)??梢?,在就業(yè)信息發(fā)布這個環(huán)節(jié)中,信息的實(shí)時性、針對性和使用率是很低的。
3.1 基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)業(yè)務(wù)流程(圖1)
圖1 基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)業(yè)務(wù)流程
為了完善健全高校就業(yè)信息服務(wù),順應(yīng)移動互聯(lián)網(wǎng)時代隨時隨地隨身的個性化需求,本文提出構(gòu)建基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)。下面從學(xué)生、用人單位、教師、教育管理部門和學(xué)校四個角度分析該系統(tǒng)的業(yè)務(wù)流程。
3.1.1 學(xué)生業(yè)務(wù)流程
新生報到時用身份證號碼或者手機(jī)號碼給每個新生注冊一個永久唯一的系統(tǒng)賬號。(1)入學(xué):新生入學(xué)培訓(xùn)時,各專業(yè)老師依據(jù)系統(tǒng)導(dǎo)出的本專業(yè)典型崗位分析報告進(jìn)行職業(yè)引導(dǎo)。(2)在校學(xué)習(xí):經(jīng)過職業(yè)引導(dǎo)的學(xué)生在校進(jìn)行導(dǎo)向性的知識學(xué)習(xí)、技能學(xué)習(xí)和能力培養(yǎng),并階段性地錄入過程材料。(3)畢業(yè):系統(tǒng)根據(jù)積累的學(xué)生個人檔案信息、用人單位信息進(jìn)行大數(shù)據(jù)處理與分析;在畢業(yè)生求職過程中,推送就業(yè)指導(dǎo)信息和對口專業(yè)的招聘信息,并根據(jù)系統(tǒng)數(shù)據(jù)分析結(jié)果給出個性化的精準(zhǔn)職位推薦,有效縮短畢業(yè)生求職時間,提高就業(yè)效率。在這個信息推送上,可以有網(wǎng)頁、郵件、短信、微信等方式全方位覆蓋,確保信息及時送達(dá)。同時,系統(tǒng)提供一個專門版塊供應(yīng)聘者記錄筆試、面試、體檢等方面的應(yīng)聘經(jīng)驗(yàn),為后來者引路。(4)職業(yè)生涯:畢業(yè)生在職業(yè)生涯過程中及時向系統(tǒng)反饋職位變動情況以及職位體驗(yàn)等職業(yè)生涯信息,以便于完善系統(tǒng)的數(shù)據(jù)樣本,做出更可靠的數(shù)據(jù)分析結(jié)果,形成一個良性循環(huán)。
3.1.2 用人單位業(yè)務(wù)流程
每個用人單位都可以向系統(tǒng)申請一個唯一的賬號,在系統(tǒng)中錄入單位性質(zhì)、主營業(yè)務(wù)、聯(lián)系方式等信息并實(shí)時發(fā)布崗位需求信息;系統(tǒng)經(jīng)過大數(shù)據(jù)分析給出精準(zhǔn)的人才推薦,有效縮短用人單位招聘周期。
3.1.3 教師
任課教師可以根據(jù)系統(tǒng)產(chǎn)生的本專業(yè)技能需求報告進(jìn)行培訓(xùn)進(jìn)修,提高自身的專業(yè)素養(yǎng);同時,及時調(diào)整本專業(yè)課程授課知識和專業(yè)培養(yǎng)方案,以便于適應(yīng)社會人才培養(yǎng)需求。
3.1.4 教育管理部門和學(xué)校
教育管理部門和學(xué)??梢栽谙到y(tǒng)上實(shí)時發(fā)布就業(yè)相關(guān)政策并通過多渠道進(jìn)行信息推送;一步到位,不需要再逐級傳送下去,大大提高信息傳播效率。同時,相關(guān)部門階段性地獲取人才需求報告和就業(yè)分析報告,適時調(diào)整專業(yè)設(shè)置和招生比例。
3.2 基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)構(gòu)建
基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)是一個整合各個部門數(shù)據(jù),進(jìn)行大數(shù)據(jù)全樣本分析的新型系統(tǒng),旨在從海量數(shù)據(jù)的相關(guān)性基礎(chǔ)上高效地給出個性化服務(wù)。在這里,我們根據(jù)系統(tǒng)運(yùn)行過程中的功能,把系統(tǒng)的大數(shù)據(jù)管理過程分為四個階段:大數(shù)據(jù)采集、大數(shù)據(jù)存儲、大數(shù)據(jù)處理和大數(shù)據(jù)分析。
鑒于高校就業(yè)信息服務(wù)系統(tǒng)中的數(shù)據(jù)處理基本是批量數(shù)據(jù)處理的特點(diǎn),本系統(tǒng)采用當(dāng)前最為流行的Hadoop 2.0架構(gòu)——HDFS+HBase+ MapReduceV2(Yarn),如圖2所示。
圖2 基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng)架構(gòu)
3.2.1 大數(shù)據(jù)采集
從學(xué)生、用人單位、教育管理部門三個入口采集信息。這些信息包括學(xué)生基本信息、學(xué)籍信息、獎懲情況、社會經(jīng)歷、技能、興趣愛好、職業(yè)生涯流動信息、用人單位基本信息和招聘信息、就業(yè)相關(guān)政策等。
3.2.2 大數(shù)據(jù)存儲
存儲分為文件系統(tǒng)和數(shù)據(jù)庫技術(shù)兩個部分,本系統(tǒng)使用的文件系統(tǒng)是Hadoop文件系統(tǒng)HDFS。從數(shù)據(jù)采集結(jié)果可以看出,采集到的數(shù)據(jù)有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)庫技術(shù)上使用行存數(shù)據(jù)庫和列存數(shù)據(jù)庫相結(jié)合的方式,結(jié)構(gòu)化數(shù)據(jù)采用傳統(tǒng)關(guān)系數(shù)據(jù)庫RDBMS,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采用在Bigtable基礎(chǔ)上行開源實(shí)現(xiàn)的列存數(shù)據(jù)庫HBase。
3.2.3 大數(shù)據(jù)處理
大數(shù)據(jù)處理階段主要依靠改進(jìn)后的Hadoop 2.0框架中的MapReduceV2(Yarn)分布式計算框架。以Yarn為獨(dú)立的資源管理和調(diào)度系統(tǒng),MapReduce為分布式計算框架;同時,兼容Spark作為系統(tǒng)的一個補(bǔ)充,增強(qiáng)系統(tǒng)的實(shí)時性。
3.2.4 大數(shù)據(jù)分析
大數(shù)據(jù)應(yīng)用階段主要根據(jù)前期處理結(jié)果進(jìn)行深度學(xué)習(xí)、數(shù)據(jù)挖掘得出數(shù)據(jù)背后隱藏的有價值的信息,推送給學(xué)生、教師、教育管理部門/學(xué)校和用人單位。此階段用到的工具包括Hive、Pig、Mahout和Chukwa等。其中,Hive和Pig主要做離線分析,Mahout具有擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法庫,主要用于做推薦挖掘,Chukwa用于監(jiān)控整個集群系統(tǒng)。
大數(shù)據(jù)在席卷互聯(lián)網(wǎng)的同時,也在改變著我們的思維方式和生活方式。人們通過大數(shù)據(jù)技術(shù)看到了普通數(shù)據(jù)背后隱藏的無限價值。本文提出的基于大數(shù)據(jù)的高校就業(yè)信息服務(wù)系統(tǒng),就是以整合高校資源為前提,分析數(shù)據(jù)、提取蘊(yùn)藏在數(shù)據(jù)背后的價值;讓數(shù)據(jù)發(fā)聲,以期推動高校就業(yè)信息服務(wù)的長足發(fā)展。此外,不容忽視的是大數(shù)據(jù)技術(shù)尚未成熟,它是一把雙刃劍,利用大數(shù)據(jù)技術(shù)挖掘出潛在價值固然重要;同時也要注意把控數(shù)據(jù)使用過程中的安全問題。
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:1,27,45,67.
[2]Big Data[EB/OL].(2015-03-16)[2016-09-20].http://en.wikipedia.org/wiki/Big_data.
[3]A.H.B.James Manyika,M chui,B Brown,et al.Big Data:the next frontier for innovation,competition,and productivity[J].McKinsey Global Institue,June 2011.
[4]R.Bryant,R.Katz,E.Lazowska.Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce,Science and Society[J].Computing Community Consortium,2008:1-15.
[5]GFS(Google文件系統(tǒng))百度百科[EB/OL].(2015-11-29)[2016-09-20].http://baike.baidu.com/item/GFS/1813072.
[6]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(9):1889-1908.
Construction of Graduates Employment Information Service System With Big Data
LIN Jia-yan
(Department of Software Engineering, Fujian Polytechnic of Information Technology,Fuzhou Fujian 350003,China)
The current situation of graduates employment is pretty disappointed, and how to improve the employment information service via Big-Data is worthy of study. Through the analysis of the key technology of Big-Data and the situation of the graduates employment information service, this paper proposes to construct a graduates employment information service system with Big-Data. It elaborates the business flow and the basic framework of the system.
Big-Data; employment; unstructured; distributed; recommend
2016-11-28
林嘉燕(1984- ),女,講師,碩士研究生,從事計算機(jī)網(wǎng)絡(luò)技術(shù)研究。
TP311
A
2095-7602(2017)06-0038-05