文/黃蓉 扶麗娟
本文主要分析職業(yè)檔案與職業(yè)軌跡的應(yīng)用現(xiàn)狀,根據(jù)職業(yè)軌跡的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征對(duì)職業(yè)檔案大數(shù)據(jù)進(jìn)行職業(yè)軌跡分析與表示設(shè)計(jì),在完成職業(yè)檔案數(shù)據(jù)采集設(shè)計(jì)、職業(yè)軌跡大數(shù)據(jù)集建模分析后構(gòu)建職業(yè)軌跡畫像,并在此基礎(chǔ)之上運(yùn)用大數(shù)據(jù)技術(shù)設(shè)計(jì)求職者的職業(yè)潛力測(cè)量模型。
保居民就業(yè)是國家“六穩(wěn)”“六?!惫ぷ髦械年P(guān)鍵內(nèi)容。因此,圍繞如何保就業(yè)、實(shí)現(xiàn)高質(zhì)量就業(yè)的相關(guān)研究工作便應(yīng)運(yùn)而生。當(dāng)前,典型的研究代表有:大學(xué)專任教師圍繞如何提高學(xué)生的專業(yè)水平、職業(yè)素養(yǎng)和就業(yè)競(jìng)爭(zhēng)力進(jìn)行分析與研究;職業(yè)規(guī)劃師圍繞如何科學(xué)進(jìn)行職業(yè)規(guī)劃、職業(yè)指導(dǎo)和就業(yè)幫扶展開研究。這些研究都為保就業(yè)提供了許多有益的指導(dǎo)和幫助。然而,由于每個(gè)求職者的學(xué)習(xí)經(jīng)歷、工作經(jīng)歷、個(gè)人素養(yǎng)和能力傾向等存在差別,不同求職者很難借助統(tǒng)一的模式、套路來解決就業(yè),尤其是實(shí)現(xiàn)高質(zhì)量就業(yè)。這個(gè)問題如何破解?大數(shù)據(jù)時(shí)代的職業(yè)檔案給出了解決問題的方向和思路。
當(dāng)前,許多用人單位通過互聯(lián)網(wǎng)公開發(fā)布崗位招聘信息。與此同時(shí),許多求職者通過互聯(lián)網(wǎng)上傳其個(gè)人求職簡歷,也有許多成功就業(yè)者通過互聯(lián)網(wǎng)構(gòu)建其個(gè)人職業(yè)檔案作為其個(gè)人的展示、宣傳主頁。相關(guān)典型互聯(lián)網(wǎng)平臺(tái)有領(lǐng)英、前程無憂、BOSS 直聘等。對(duì)這些公開的、海量的求職簡歷信息(職業(yè)檔案)進(jìn)行大數(shù)據(jù)采集,并進(jìn)一步建立職業(yè)檔案之間的關(guān)系,就形成了一種職業(yè)社交網(wǎng)絡(luò)。通過挖掘分析職業(yè)社交網(wǎng)絡(luò)中的信息,進(jìn)行邏輯分析,形成可視化的表示,就可以形成職業(yè)軌跡。在職業(yè)軌跡的基礎(chǔ)上,通過對(duì)職業(yè)檔案大數(shù)據(jù)進(jìn)行清洗與分析,即可形成職業(yè)軌跡畫像。職業(yè)軌跡及其畫像能夠清楚地展示個(gè)人、公司甚至行業(yè)、區(qū)域的發(fā)展?fàn)顩r,同時(shí)還能夠幫助企業(yè)更好更快地分析崗位所需,遴選真正適合崗位的人才,實(shí)現(xiàn)人才的精準(zhǔn)推薦。
為了對(duì)求職過程進(jìn)行管理,職業(yè)生涯管理系統(tǒng)(Career Management System)應(yīng)運(yùn)而生。職業(yè)生涯管理系統(tǒng)在全面考慮職業(yè)內(nèi)外部環(huán)境要素的基礎(chǔ)上,分析和評(píng)價(jià)求職者的能力、興趣、價(jià)值觀等個(gè)體特征,確定求職者的職業(yè)生涯目標(biāo),監(jiān)測(cè)與評(píng)估個(gè)人職業(yè)畫像和職業(yè)前景,并制定措施幫助求職者實(shí)現(xiàn)該目標(biāo)。也就是說,職業(yè)生涯管理系統(tǒng)基于職業(yè)檔案大數(shù)據(jù)的職業(yè)軌跡分析及潛力測(cè)量系統(tǒng),以職業(yè)檔案大數(shù)據(jù)分析、職業(yè)潛力測(cè)量為出發(fā)點(diǎn),綜合運(yùn)用職業(yè)規(guī)劃、大數(shù)據(jù)、人工智能、數(shù)學(xué)建模等多學(xué)科理論與技術(shù),從數(shù)據(jù)采集、建模分析、職業(yè)軌跡畫像、職業(yè)潛力測(cè)量四方面進(jìn)行職業(yè)檔案大數(shù)據(jù)的信息模型研究。
職業(yè)軌跡分析主要是分析領(lǐng)英、前程無憂、BOSS 直聘等網(wǎng)站公開的職業(yè)檔案信息。根據(jù)職業(yè)軌跡的職業(yè)崗位分類、行業(yè)分類、區(qū)域分類的要求和流動(dòng)性要求,在進(jìn)行分析時(shí),相關(guān)人員一般應(yīng)提取職業(yè)檔案擁有者(用加密后的代碼表示)的所學(xué)專業(yè)、畢業(yè)時(shí)間、就業(yè)單位、就業(yè)崗位、就業(yè)開始時(shí)間、就業(yè)結(jié)束時(shí)間、單位所在區(qū)域、單位所屬行業(yè)等公共屬性。有這些公共屬性就可以充分表達(dá)職業(yè)軌跡的拓?fù)鋵傩院涂梢暬蟆?/p>
為了方便對(duì)職業(yè)軌跡進(jìn)行分析,可引入圖形來表示。圖能夠精確表示職業(yè)軌跡,并提高相應(yīng)的分析效率。圖是頂點(diǎn)+邊構(gòu)成的圖(其中,頂點(diǎn)是樣本點(diǎn));聚類為頂點(diǎn)的劃分;邊則是樣本點(diǎn)的相似度。圖聚類則是通過對(duì)圖中頂點(diǎn)的劃分來完成聚類。圖的劃分通常采用兩種方法:譜聚類和最小割。其中,譜聚類是一種基于圖論的聚類方法,其通過對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣的特征向量進(jìn)行分析來完成聚類,通過分析特征向量與特征值,獲得聚類結(jié)果。最小割則屬于離散優(yōu)化方法,其主要是將最小割轉(zhuǎn)化為最大網(wǎng)絡(luò)求解。近年來也有關(guān)于深度嵌入聚類(Deep Embedding Clustering,DEC)的相關(guān)研究成果,深度學(xué)習(xí)開始被引入特征聚類領(lǐng)域。
本文基于職業(yè)軌跡對(duì)職業(yè)檔案大數(shù)據(jù)進(jìn)行清洗分析,得到了職業(yè)軌跡畫像,然后采用JavaEE、SpringMVC、Spring、MyBatis、MySQL、Spark 等開源軟件技術(shù)和大數(shù)據(jù)技術(shù),建立了基于職業(yè)軌跡分析的職業(yè)潛力測(cè)量模型原型,旨在為各高校學(xué)生的專業(yè)選擇、職業(yè)成長和發(fā)展規(guī)劃提供幫助與指導(dǎo)。
在建立職業(yè)潛力模型的過程中,本文采用了職業(yè)潛力分析基礎(chǔ)理論、信息技術(shù)、數(shù)學(xué)建模與分析技術(shù)等理論和技術(shù),從信息采集、建模分析、職業(yè)軌跡畫像、潛力測(cè)量模型四個(gè)方面進(jìn)行了深入研究。首先,筆者基于SSM(Spring、SpringMVC、Mybatis)框架與Scrapy 爬蟲框架進(jìn)行數(shù)據(jù)信息的采集。其次,筆者用Pandas(一種強(qiáng)大的分析結(jié)構(gòu)化數(shù)據(jù)的工具集)對(duì)爬取到的信息進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計(jì)分析,并將分析結(jié)果用ECharts 以可視化的圖表形式展示給普通用戶。最后,筆者使用Java 框架技術(shù)進(jìn)行前臺(tái)展示與后臺(tái)管理。具體的流程如圖1 所示。
職業(yè)檔案數(shù)據(jù)采集研究是后續(xù)的建模分析、職業(yè)軌跡畫像、潛力測(cè)量模型的研究基礎(chǔ),是研究職業(yè)軌跡信息模型的關(guān)鍵所在,其具體步驟如下。
①研究職業(yè)檔案的大數(shù)據(jù)源。筆者根據(jù)職業(yè)軌跡與職業(yè)檔案關(guān)系理論,從數(shù)據(jù)的結(jié)構(gòu)完整性、公開性、有效性和數(shù)據(jù)量等方面,遴選了一種具有代表性的職業(yè)檔案大數(shù)據(jù)源。
②研究職業(yè)檔案數(shù)據(jù)采集的步驟與規(guī)范。筆者根據(jù)職業(yè)軌跡的組成要素之間的關(guān)系、職業(yè)軌跡與職業(yè)檔案的關(guān)系等,確定職業(yè)檔案數(shù)據(jù)采集的格式、手段、方式、頻率等。
通過以上研究,筆者運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù),完成了職業(yè)檔案大數(shù)據(jù)集的采集,以便更好地挖掘深層信息,輔助決策。
職業(yè)軌跡大數(shù)據(jù)集的建模分析需要應(yīng)用到職業(yè)教育論、數(shù)學(xué)建模分析理論、計(jì)算機(jī)數(shù)據(jù)統(tǒng)計(jì)與分析技術(shù)、職業(yè)能力發(fā)展理論、職業(yè)潛力測(cè)量理論等多學(xué)科理論和技術(shù)。目前,國內(nèi)關(guān)于這方面的研究與實(shí)踐不多,國外相關(guān)參考資料翻譯也困難,故此部分內(nèi)容將成為本文研究的重點(diǎn)。職業(yè)軌跡大數(shù)據(jù)集的具體建模分析流程如圖2 所示。
(1)數(shù)據(jù)清洗研究。筆者運(yùn)用刪除缺失值、均值填補(bǔ)法、熱卡填充法等方法對(duì)缺失的職業(yè)檔案數(shù)據(jù)進(jìn)行處理,運(yùn)用統(tǒng)計(jì)分析、聚類、模型檢測(cè)等方法對(duì)離群數(shù)據(jù)進(jìn)行處理,運(yùn)用回歸法對(duì)數(shù)據(jù)噪聲進(jìn)行處理,最終完成了職業(yè)檔案數(shù)據(jù)的清洗與整理工作。
(2)針對(duì)清洗后的數(shù)據(jù),筆者用ElasticSearch 搭建搜索引擎。在完成搜索引擎搭建后,用戶需要將數(shù)據(jù)導(dǎo)入搜索引擎中。導(dǎo)入數(shù)據(jù)可以使用數(shù)據(jù)源連接器、API 等方式,用戶可根據(jù)實(shí)際情況選擇合適的導(dǎo)入方式,但在導(dǎo)入數(shù)據(jù)時(shí),要注意數(shù)據(jù)格式、字段映射等問題。在完成數(shù)據(jù)導(dǎo)入后,用戶可以使用搜索引擎進(jìn)行查詢和搜索,搜索引擎可以定義一個(gè)Mapping 索引。在使用搜索引擎時(shí),用戶通常需要定義查詢語句、搜索條件、排序規(guī)則等,以便快速找到所需的信息。搜索引擎將搜索結(jié)果以某種形式呈現(xiàn)給用戶,如表格、地圖等形式。
(3)針對(duì)搜索引擎搜索到的結(jié)果數(shù)據(jù),筆者利用ElasticSearch搭建了分析引擎。ElasticSearch主要是通過聚合來進(jìn)行統(tǒng)計(jì)分析的。聚合主要有兩種形式:指標(biāo)聚合和桶聚合。筆者主要采用桶聚合的形式對(duì)搜索到的數(shù)據(jù)進(jìn)行分析。筆者先把搜索到的數(shù)據(jù)按照不同類型分成不同的索引,然后再進(jìn)行聚合運(yùn)算,在指定類型的索引中聚合出相關(guān)結(jié)果并進(jìn)行反饋。
(4)建模研究。筆者運(yùn)用自然語言處理技術(shù)并結(jié)合崗位勝任力分析模型,對(duì)處理過的數(shù)據(jù)進(jìn)行理解、標(biāo)注。
職業(yè)軌跡畫像設(shè)計(jì)步驟如下。
(1)職業(yè)軌跡畫像組成要素設(shè)計(jì)。筆者根據(jù)已有的職業(yè)檔案大數(shù)據(jù)和分析模型,研究設(shè)計(jì)職業(yè)軌跡畫像的組成要素以及要素與要素之間的關(guān)系,重點(diǎn)提取職業(yè)檔案擁有者(用加密后的代碼表示)的所學(xué)專業(yè)、畢業(yè)時(shí)間、就業(yè)單位、就業(yè)崗位、就業(yè)開始時(shí)間、就業(yè)結(jié)束時(shí)間、單位所在區(qū)域、單位所屬行業(yè)等要素。
(2)形成職業(yè)軌跡畫像。筆者依據(jù)職業(yè)軌跡畫像組成要素,采用可視化技術(shù)如ECharts,運(yùn)用樹狀圖、網(wǎng)狀圖、雷達(dá)圖等圖例,構(gòu)建了某一行業(yè)的職業(yè)軌跡畫像、某一類職業(yè)崗位發(fā)展畫像、行業(yè)間人才流動(dòng)畫像、區(qū)域間人才流動(dòng)畫像等。
職業(yè)潛力測(cè)量模型設(shè)計(jì)步驟如下。
(1)根據(jù)收集的簡歷集合,對(duì)相關(guān)數(shù)據(jù)進(jìn)行處理,并整理成職業(yè)檔案大數(shù)據(jù)集,實(shí)施建模分析等操作,得到職業(yè)軌跡畫像。
(2)為得到更精確的模型,引入知識(shí)潛力和協(xié)調(diào)潛力等因素,設(shè)計(jì)職業(yè)潛力測(cè)量模型。
(3)將第一步得到的職業(yè)軌跡畫像作為輸入內(nèi)容,確定職業(yè)潛力測(cè)量的測(cè)量數(shù)據(jù)、測(cè)量方法、測(cè)量結(jié)果的展示等,進(jìn)一步優(yōu)化職業(yè)潛力測(cè)量模型設(shè)計(jì)。
經(jīng)過上述步驟設(shè)計(jì)完成后的職業(yè)潛力測(cè)量模型,既可以幫助用戶進(jìn)行職業(yè)軌跡分析,又可以為職業(yè)軌跡畫像轉(zhuǎn)化提供方法和手段。
本文以職業(yè)檔案大數(shù)據(jù)分析、職業(yè)潛力測(cè)量為出發(fā)點(diǎn),綜合運(yùn)用職業(yè)規(guī)劃、信息化技術(shù)、數(shù)學(xué)建模等多學(xué)科理論與技術(shù),采用開源軟件技術(shù)和大數(shù)據(jù)技術(shù)建立基于職業(yè)軌跡分析的職業(yè)潛力測(cè)量模型原型。筆者及所在的項(xiàng)目團(tuán)隊(duì)擬在部分高職院校對(duì)該模型進(jìn)行實(shí)證研究,根據(jù)研究結(jié)果對(duì)模型進(jìn)行優(yōu)化,再將模型推廣至其他院校,以期為各高職院校學(xué)生的專業(yè)選擇、職業(yè)成長、發(fā)展規(guī)劃提供幫助和指導(dǎo)。