練佳熠,黃婉平
(1.柳州市城市職業(yè)學院,廣西 柳州 545036;2.柳州市第十二中學,廣西 柳州 545006)
高校畢業(yè)生就業(yè)指導工作一直是關乎國家經(jīng)濟發(fā)展、民生改善和社會穩(wěn)定的重要工作。為了更好地完成這項工作,高校需要全面了解本校學生的就業(yè)現(xiàn)狀,深入分析當前形勢下學生存在的就業(yè)問題及其產(chǎn)生的原因。這樣,才能夠有針對性地為相關學生提供全面、及時、個性化的就業(yè)信息,幫助其實現(xiàn)就業(yè)。在實現(xiàn)高校畢業(yè)生就業(yè)這個目標的過程中,除了不斷優(yōu)化學校的就業(yè)管理工作,還需要完善相關的信息化建設,從中獲取大量精準有效的數(shù)據(jù)來協(xié)助就業(yè)工作。
就業(yè)信息缺乏專門的存儲整合流程,容易導致造成大量數(shù)據(jù)信息丟失。在就業(yè)工作中產(chǎn)生的數(shù)據(jù)通常來源于就業(yè)信息化系統(tǒng)和文檔收集兩大渠道。其中就業(yè)系統(tǒng)中的數(shù)據(jù)基本都存儲在業(yè)務數(shù)據(jù)庫中,通常就業(yè)系統(tǒng)會每隔幾年便升級或更換,此時原有數(shù)據(jù)通常會因為遷移工作的難度造成損失;通過各種電子文檔收集的就業(yè)信息,也會因為保存不當、人員的變動等各種原因隨著時間的推移而逐漸丟失,使得寶貴的就業(yè)信息資源被浪費。
高校各信息系統(tǒng)之間整合困難,就業(yè)系統(tǒng)很難獲取其他系統(tǒng)的數(shù)據(jù)支持。高校信息平臺缺乏統(tǒng)一的規(guī)劃,各個部門雖然都建立了自己的信息平臺,但數(shù)據(jù)標準沒有統(tǒng)一并且數(shù)據(jù)基本都存在各自的業(yè)務數(shù)據(jù)庫中,有效信息相互之間不能實時共享,導致信息資源利用率低,無法對就業(yè)工作提供有效的支持,造成在工作中對類似數(shù)據(jù)出現(xiàn)重復獲取的情況,嚴重影響工作效率和參與者情緒[1]。
隨著時代的不斷發(fā)展,高校對就業(yè)工作的要求在不斷提升,不再是過去的管理好應屆畢業(yè)生的就業(yè)就行了,還要從就業(yè)的信息中提煉出對學院各層面發(fā)展都有用的信息,但是在智能手機大量使用的今天,不僅每年數(shù)據(jù)量都在大幅增加,數(shù)據(jù)類型也從過去的一些簡單數(shù)據(jù)變?yōu)榘纛l、圖表、圖像、視頻等多種類型的復雜數(shù)據(jù)。此時無論是以人工方式對Excel等辦公文檔的分析,還是傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)提供的插入、查詢、統(tǒng)計等技術(shù),都無法發(fā)現(xiàn)隱藏在數(shù)據(jù)中的關系和規(guī)則,也無法通過現(xiàn)在已有的數(shù)據(jù)來預測將來的發(fā)展趨勢和挖掘數(shù)據(jù)背后隱藏信息的手段。
由于缺少對就業(yè)數(shù)據(jù)深入統(tǒng)計、分析和預測的手段,無法提煉有效信息,當前大部分院校的就業(yè)信息工作還是基本停留在對就業(yè)信息發(fā)布和管理的應用層面上,以服務好應屆畢業(yè)生的就業(yè)工作為主要目標,無法提供信息去支持學校發(fā)展、專業(yè)建設、課程設計、教師發(fā)展、在校學生職業(yè)生涯規(guī)劃和就業(yè)指導,使得學校中存儲的大量就業(yè)數(shù)據(jù)無法發(fā)揮應有的作用[2]。
使用Hadoop生態(tài)圈搭建圖1所示的大數(shù)據(jù)平臺,制定就業(yè)工作的數(shù)據(jù)標準化管理,根據(jù)數(shù)據(jù)標準去采集相應的數(shù)據(jù),將數(shù)據(jù)經(jīng)過清洗處理后,存儲在數(shù)據(jù)倉庫如Hive、HBase中,可以供多個應用系統(tǒng)共享,解決數(shù)據(jù)共享的問題,然后通過對就業(yè)數(shù)據(jù)的分析,將結(jié)果以決策者最容易理解和接收的方式呈現(xiàn)出來,幫助決策者從多個角度理解當前的就業(yè)情況、發(fā)展趨勢等,能對學校、專業(yè)、課程、學生的發(fā)展提出指導性建議[3]。
圖1 基于大數(shù)據(jù)的高校就業(yè)決策系統(tǒng)
建立大數(shù)據(jù)平臺的核心意義是能對多個來源的數(shù)據(jù)進行整合并進行關聯(lián)分析,從而避免出現(xiàn)每個部門一套數(shù)據(jù),基層教師和學生疲于應付的情況。要實現(xiàn)這個目標,就必須提前制定所有參與方在使用大數(shù)據(jù)平臺時都必須遵循的數(shù)據(jù)標準。本平臺的數(shù)據(jù)標準主要針對平臺內(nèi)的底層數(shù)據(jù)相關要素進行規(guī)范,包含數(shù)據(jù)資源和數(shù)據(jù)交換共享2個部分,其中數(shù)據(jù)資源包括元數(shù)據(jù)、數(shù)據(jù)元素、數(shù)據(jù)字典和數(shù)據(jù)目錄等,數(shù)據(jù)交換共享包括數(shù)據(jù)交易和數(shù)據(jù)開放共享相關標準。
在本系統(tǒng)中,首先根據(jù)教育部、教育廳等上級部門對就業(yè)工作的要求去制定基礎業(yè)務數(shù)據(jù)標準,再結(jié)合本校的就業(yè)工作特色,制定適合本校就業(yè)工作的數(shù)據(jù)標準,這樣就可以約定數(shù)據(jù)在采集、預處理、存儲、分析、可視化和應用等流程需要遵循的數(shù)據(jù)標準,在系統(tǒng)中實現(xiàn)數(shù)據(jù)身份的識別,提高數(shù)據(jù)共享和復用的質(zhì)量。
這一階段的主要工作是將物理上存儲在各處的就業(yè)數(shù)據(jù)提取出來,實現(xiàn)數(shù)據(jù)的邏輯集中,從而成為一個統(tǒng)一的視圖,解決以往多系統(tǒng)分散建設無法數(shù)據(jù)整合的問題。由于原始數(shù)據(jù)種類多樣,格式、位置、存儲、時效性等迥異,該階段的重點是如何從異構(gòu)數(shù)據(jù)源中收集數(shù)據(jù)并轉(zhuǎn)換成相應的格式進行處理。
首先是確定數(shù)據(jù)的種類,就業(yè)數(shù)據(jù)的來源主要包含就業(yè)系統(tǒng)在內(nèi)的校內(nèi)信息系統(tǒng)的數(shù)據(jù)庫、日志和接口數(shù)據(jù)等,外部信息系統(tǒng)的數(shù)據(jù)和其他信息技術(shù)手段如Excel、Word等收集的就業(yè)數(shù)據(jù)[4]。
接下來需要根據(jù)不同的數(shù)據(jù)源采用相應的采集方法,對于信息系統(tǒng)里的數(shù)據(jù)庫,可以使用sqoop組件,該組件是一款開源的工具,可以在Hadoop與傳統(tǒng)的關系數(shù)據(jù)庫間進行大量數(shù)據(jù)的傳遞,通過它可以將關系型數(shù)據(jù)庫中的數(shù)據(jù)導入到Hadoop的HDFS上,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中;信息系統(tǒng)中的相關日志,通常以log文件或是通過HTTP接口傳遞出去,可以通過flume組件進行實時采集。flume是一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),通過它可以高效率地將多個信息系統(tǒng)中采集到相關的日志或接口數(shù)據(jù),并配合Kafka進行實時數(shù)據(jù)處理。其他信息技術(shù)手段如Excel、Word等電子文檔的數(shù)據(jù),一般是根據(jù)臨時增加的就業(yè)業(yè)務編寫和收集的,也可以是其他系統(tǒng)如釘釘、智慧校園等導出的數(shù)據(jù)形式,是就業(yè)工作中常見的辦公形式,如果不進行歸檔則很容易造成數(shù)據(jù)流失,這類數(shù)據(jù)也必須存儲到大數(shù)據(jù)平臺中,通常使用Python技術(shù)按照數(shù)據(jù)標準從這些文檔中提取有用的數(shù)據(jù)再存儲到大數(shù)據(jù)平臺中[5]。
在圖2中,對上述采集的數(shù)據(jù)進行舉例說明。大數(shù)據(jù)平臺中的基礎性數(shù)據(jù)如學生基本信息、課程成績、就業(yè)崗位信息等,通常存儲在學工管理系統(tǒng)和就業(yè)系統(tǒng)的數(shù)據(jù)庫中,應該設計一個固定的周期,定時將這些數(shù)據(jù)庫存儲的相關數(shù)據(jù)通過sqoop組件導入到大數(shù)據(jù)平臺的存儲組件中;對于一些實時變動的數(shù)據(jù),如學生的就業(yè)崗位實時信息,數(shù)據(jù)量一般比較小且變化頻繁,sqoop組件就不適用了,此時可以在就業(yè)系統(tǒng)開發(fā)一個就業(yè)崗位變動的業(yè)務日志,通過flume組件實時監(jiān)控這個業(yè)務日志文件,當日志文件添加了新的信息時,flume組件就會采集新增的數(shù)據(jù)到大數(shù)據(jù)平臺中進行處理。
圖2 針對學生就業(yè)崗位信息的數(shù)據(jù)采集
采集的數(shù)據(jù)一般并不能夠直接使用,除了要將無效的數(shù)據(jù)刪除,還需要根據(jù)業(yè)務需要對數(shù)據(jù)進行變形與增強再進行使用。在圖2的例子中,通過sqoop采集到的學生基礎數(shù)據(jù),因為是直接從數(shù)據(jù)庫中導入,數(shù)據(jù)的格式、種類和數(shù)量通常不能直接在大數(shù)據(jù)平臺中使用,需要進行相應處理,如將學生信息表中的班級和輔導員外鍵編號替換為班級名稱和輔導員名稱;通過flume采集的實時數(shù)據(jù)一般是json格式的,需要結(jié)合Kafka將json格式進行轉(zhuǎn)換和處理后再使用。
大數(shù)據(jù)平臺常見的存儲組件是HDFS、Hive、HBase和Kafka,可以將采集的數(shù)據(jù)根據(jù)業(yè)務需求選擇相應的存儲組件和處理方式。
HDFS是Hadoop的分布式文件系統(tǒng),可以部署在廉價的機器上,通過多個服務器的集群實現(xiàn)高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用,適合存儲視頻文件、海量文檔等超大文件,可以將采集到的數(shù)據(jù)存儲到HDFS上,不僅效率更高還可以保證數(shù)據(jù)的可靠性。
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,通常用于保存采集到的關系型數(shù)據(jù),然后可以通過HQL語句進行離線查詢分析。例如圖2中通過sqoop導入的學生基本數(shù)據(jù)如畢業(yè)生基本信息、課程成績、在校表現(xiàn)情況、公司信息、歷史就業(yè)數(shù)據(jù)等,一般存儲在Hive中。如果需要對數(shù)據(jù)進行分析,例如需要分析學生在校的專業(yè)成績和專業(yè)對口率之間的關系,可以通過HQL語句或是按照相應算法編寫mapreduce程序進行處理。
Kafka是高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),適合于存儲和處理高吞吐量的流式數(shù)據(jù),如學生的登錄日志、實習簽到日志、學生的實時就業(yè)/離職日志等,還可以通過Kafka Streaming或Spark Streaming來對Kafka中的流式數(shù)據(jù)進行實時處理。例如圖2中通過flume導入的學生實時就業(yè)崗位變動信息,可以先存儲在Kfaka中,通過Spark或Storm進行實時處理和分析得出結(jié)果。
HBase是適合實時存儲大量數(shù)據(jù)的數(shù)據(jù)庫,可以將主數(shù)據(jù)、部分被頻繁使用或有實時性需要的數(shù)據(jù)存儲到這里,例如學生的賬號信息、實時就業(yè)信息、公司的招聘信息等,基于大數(shù)據(jù)平臺的業(yè)務系統(tǒng)可以通過根據(jù)需要實時查詢、更新、分析HBase中的相關數(shù)據(jù),如果數(shù)據(jù)量太大,可以選擇Spark集群來進行實時分析處理或是MapReduce進行離線處理。例如,圖2中通過sqoop導入的學生基本數(shù)據(jù)中需要用于應用系統(tǒng)作為交換數(shù)據(jù),例如就業(yè)崗位數(shù)據(jù),可以存儲在HBase中;通過flume采集到的實時崗位變動信息,可以在處理后存儲到HBase中,再結(jié)合學生的基礎數(shù)據(jù)和原有崗位數(shù)據(jù),可以生成完整且實時的學生就業(yè)信息崗位表,提供給上層系統(tǒng)使用。
在大多數(shù)院校的信息系統(tǒng)中,僅僅是對數(shù)據(jù)進行了簡單的統(tǒng)計和展示,用匯報的方式將數(shù)據(jù)交給決策者,然后讓決策者去分析和處理數(shù)據(jù),期待其找出存在的問題,結(jié)果反而讓決策者迷失在海量的數(shù)據(jù)中。在本平臺當中,強調(diào)的是信息對使用者的價值,從業(yè)務角度對數(shù)據(jù)進行分析,然后將結(jié)果以使用者最容易理解和接收的形式呈現(xiàn)出來,下面將通過2個案例進行展示。
2.5.1 就業(yè)駕駛艙
圖3是構(gòu)建方案中供決策者看的就業(yè)駕駛艙,管理者可從多個角度查看當前的就業(yè)形勢。最中間的儀表盤是學院當前的就業(yè)率,左側(cè)儀表盤是已工作但是未簽約學生比例,右側(cè)的上半部分是即將就業(yè)的學生比例,右側(cè)的下半部分是即將離職的學生比例。通過這個駕駛艙,決策者不僅可以了解當前的就業(yè)率,也可以預測到將來的就業(yè)率是朝著什么方向發(fā)展。例如已工作未簽約的比例或預計就業(yè)的比例較高時,意味著就業(yè)率在未來會進一步提升;預計離職的比例較高,未來就業(yè)率就會下降。在這樣的數(shù)據(jù)支撐下做決策將更有效率、更加準確。
圖3 就業(yè)駕駛艙
2.5.2 學生崗位預測
將該生的當前的基本信息、課程信息等特征,歷屆學生的特征和就業(yè)信息等數(shù)據(jù),通過隨機森林決策樹、貝葉斯模型、GBDT等算法進行分析和預測,得到該生的崗位預測情況。這樣不僅可以對學生的職業(yè)規(guī)劃起指導作用,同時學生如果對崗位預測不滿意,也可以及時調(diào)整自己的校園規(guī)劃來實現(xiàn)崗位目標。學生崗位預測如圖4所示。
圖4 學生崗位預測
如何促進大學生就業(yè)是當前高校關注的一個重點問題,關系到高校教育持續(xù)健康的發(fā)展?;诖髷?shù)據(jù)的高校就業(yè)決策系統(tǒng),通過大數(shù)據(jù)平臺和就業(yè)信息的數(shù)據(jù)標準化管理,將各平臺資源進行整合,對數(shù)據(jù)進行深入分析和可視化展示,能有效提高就業(yè)信息的時效性和價值性,不僅幫助高校就業(yè)工作更有效地開展,還能實時反饋信息供學校各專業(yè)更好地根據(jù)當前的就業(yè)形勢進行調(diào)整,有助于培養(yǎng)更符合社會和時代要求的優(yōu)秀學生,對高校就業(yè)工作信息化建設有較大的意義。