朱劍林 李林潔 宮托婭
摘要:簡(jiǎn)歷是求職者能力、經(jīng)歷、技能等簡(jiǎn)要的總結(jié),是求職者全面素質(zhì)和能力體現(xiàn)的縮影。但是目前互聯(lián)網(wǎng)上的簡(jiǎn)歷數(shù)據(jù)分散、格式不統(tǒng)一等問(wèn)題,該論文圍繞簡(jiǎn)歷數(shù)據(jù)可視化分析,以就業(yè)理論和生涯規(guī)劃理論為指導(dǎo),爬取了互聯(lián)網(wǎng)上公開(kāi)發(fā)布的求職簡(jiǎn)歷相關(guān)的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、特征工程,構(gòu)建了職業(yè)發(fā)展相關(guān)的特征并將結(jié)果進(jìn)行可視化分析。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導(dǎo)提供輔助指導(dǎo),為大規(guī)模細(xì)粒度研究人才職業(yè)流動(dòng)行為打下基礎(chǔ)。
關(guān)鍵詞:簡(jiǎn)歷數(shù)據(jù)分析;網(wǎng)絡(luò)爬蟲(chóng);數(shù)據(jù)可視化
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)36-0189-03
1 背景
根據(jù)Super(舒伯)[1-2]的職業(yè)生涯發(fā)展理論,人的職業(yè)生涯可以劃分為五個(gè)主要階段:成長(zhǎng)階段、探索階段、建立階段、維持階段和退出階段,職業(yè)選擇和生涯規(guī)劃是人重要的發(fā)展任務(wù)之一[1-3]。職業(yè)是指人們從事的相對(duì)穩(wěn)定的、有收入、專門(mén)類別的工作,它是人們的生活方式、經(jīng)濟(jì)狀況、文化水平、行為模式、思想情感的綜合反映,也是一個(gè)人的權(quán)力、義務(wù)、利益和職責(zé),從而是一個(gè)人社會(huì)地位的一般性表征。選擇職業(yè)是人的一生中最復(fù)雜和最重要的決定之一[1-2],人們對(duì)職業(yè)的選擇可以滿足他們的基本生存需求、價(jià)值觀和興趣,從而影響他們的生活質(zhì)量。Guay等人[4]強(qiáng)調(diào),職業(yè)發(fā)展是一個(gè)持續(xù)的過(guò)程,包括尋找、獲取和處理關(guān)于自己和環(huán)境的信息,個(gè)人在職業(yè)生涯中的工作變動(dòng)引起的人才流動(dòng)現(xiàn)象稱為職業(yè)流動(dòng)行為[5]。
求職者的能力、教育水平、經(jīng)歷、技能、職業(yè)追求等均濃縮在簡(jiǎn)歷中,簡(jiǎn)歷可以說(shuō)是求職者全面素質(zhì)和能力體現(xiàn)的縮影。隨著社會(huì)信息化的快速發(fā)展,互聯(lián)網(wǎng)上積累了大量的簡(jiǎn)歷相關(guān)數(shù)據(jù),同時(shí)信息處理能力的快速增長(zhǎng)、信息可視化理論和技術(shù)的不斷發(fā)展,為職業(yè)流動(dòng)行為的科學(xué)研究和創(chuàng)新提供了機(jī)遇。本項(xiàng)目擬從簡(jiǎn)歷數(shù)據(jù)的角度對(duì)職業(yè)流動(dòng)相關(guān)問(wèn)題進(jìn)行可視化分析,根據(jù)Super[1-2]的職業(yè)發(fā)展理論認(rèn)為人的職業(yè)選擇不是一次完成的,而是隨著環(huán)境以及個(gè)人的成長(zhǎng)而不斷動(dòng)態(tài)地發(fā)展變化,這些交互直接或者間接影響了自我的認(rèn)知和職業(yè)決策能力。
本文以求職者簡(jiǎn)歷中的性別、年齡、學(xué)歷、預(yù)期薪水、自我評(píng)價(jià)、崗位變遷等為基礎(chǔ),通過(guò)自身比對(duì)與比較不同城市的可視化數(shù)據(jù),將計(jì)算機(jī)行業(yè)中“通信/網(wǎng)絡(luò)/計(jì)算機(jī)”的職位類別在市場(chǎng)與人才競(jìng)爭(zhēng)中的特點(diǎn)一一展現(xiàn)。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導(dǎo)提供輔助材料,幫助求職者對(duì)該類型崗位有所理解并能找準(zhǔn)自己的定位,招聘單位借此類圖表數(shù)據(jù)也能對(duì)崗位或人才的緊缺有所了解,并能提供符合市場(chǎng)需要的合理的薪酬與待遇,為大規(guī)模細(xì)粒度研究人才職業(yè)流動(dòng)行為打下基礎(chǔ)。
2 相關(guān)研究工作
本論文圍繞簡(jiǎn)歷數(shù)據(jù)爬取與可視化這一研究主題,以就業(yè)理論和生涯規(guī)劃理論為指導(dǎo)[6-7],采集互聯(lián)網(wǎng)上公開(kāi)的簡(jiǎn)歷相關(guān)數(shù)據(jù),自適應(yīng)抽取相關(guān)數(shù)據(jù),從這些數(shù)據(jù)中構(gòu)建職業(yè)發(fā)展相關(guān)的特征,并盡可能無(wú)損將這些特征融合在一起動(dòng)態(tài)、實(shí)時(shí)、可視化展示職業(yè)發(fā)展相關(guān)指標(biāo)。
與本研究相關(guān)的研究?jī)?nèi)容,胥皇[5]提出基于屬性圖挖掘技術(shù)研究職業(yè)流動(dòng)行為(職業(yè)生涯中的工作變動(dòng)引起的人才流動(dòng)現(xiàn)象),將流量源發(fā)現(xiàn)和流動(dòng)量預(yù)估問(wèn)題分別轉(zhuǎn)換成了靜態(tài)圖聚類和動(dòng)態(tài)圖預(yù)測(cè)問(wèn)題。Wu K等[8]一個(gè)人的職業(yè)軌跡是由他/她在不同時(shí)期的工作或?qū)W習(xí)經(jīng)歷(機(jī)構(gòu))組成的,了解人們尤其是學(xué)者的職業(yè)軌跡,可以幫助政府制定更科學(xué)的戰(zhàn)略,以分配資源和吸引人才,幫助公司制定明智的招聘計(jì)劃,以及個(gè)人找到合適的合作研究者或工作機(jī)會(huì)。Huaxiu Yao等[9]試圖從基于在多個(gè)地點(diǎn)共同出現(xiàn)的行為記錄構(gòu)建校園的社交網(wǎng)絡(luò),并驗(yàn)證了校園社交網(wǎng)絡(luò)和學(xué)業(yè)成績(jī)的關(guān)系,表明學(xué)生的學(xué)業(yè)成績(jī)與他們的朋友圈相關(guān)。在校園社交網(wǎng)絡(luò)對(duì)學(xué)業(yè)成績(jī)有影響的基礎(chǔ)上,提出了一種新的基于多重網(wǎng)絡(luò)的標(biāo)簽傳播算法來(lái)預(yù)測(cè)學(xué)業(yè)成績(jī)。Nie M.等[10]基于學(xué)生校園行為提取了四種行為特征,提出了一種基于數(shù)據(jù)驅(qū)動(dòng)的職業(yè)選擇預(yù)測(cè)框架,發(fā)現(xiàn)所提取的職業(yè)技能、行為規(guī)律性和經(jīng)濟(jì)狀況與職業(yè)選擇顯著相關(guān)?;谝陨系难芯炕A(chǔ),教育管理者可以更好地指導(dǎo)學(xué)生的職業(yè)生涯規(guī)劃,并在必要時(shí)在早期實(shí)施有效的干預(yù)措施。
3 簡(jiǎn)歷數(shù)據(jù)的獲取與處理
本文數(shù)據(jù)爬取、處理、可視化均是基于Python語(yǔ)言編寫(xiě),并使用anaconda3進(jìn)行包的管理。Python語(yǔ)言是一種開(kāi)放源代碼、一個(gè)高層次的結(jié)合了解釋性,編譯性,互動(dòng)性和面向?qū)ο蟮拿赓M(fèi)的跨平臺(tái)的高級(jí)語(yǔ)言,被稱為“膠水語(yǔ)言”——可以非常容易地把Java和C++等主流語(yǔ)言粘在一起,實(shí)現(xiàn)程序之間的聯(lián)動(dòng)。
3.1 簡(jiǎn)歷數(shù)據(jù)的獲取
本文數(shù)據(jù)主要通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取某簡(jiǎn)歷發(fā)布與查詢網(wǎng)站而獲得。網(wǎng)絡(luò)爬蟲(chóng)英文Web Crawler[11-12],是一種能按照既定的規(guī)則自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或者腳本,已廣泛地運(yùn)用于互聯(lián)網(wǎng)的搜索引擎或者其他類似的網(wǎng)站中。從功能上來(lái)講,爬蟲(chóng)通常分為網(wǎng)頁(yè)獲取、網(wǎng)頁(yè)分析、數(shù)據(jù)儲(chǔ)存三個(gè)部分。爬蟲(chóng)的核心模塊有三個(gè)部分:URL管理器、網(wǎng)頁(yè)下載器和網(wǎng)頁(yè)解析器。
3.2 簡(jiǎn)歷數(shù)據(jù)的處理
數(shù)據(jù)處理的基本目的是從大量的、復(fù)雜的、難以理解的數(shù)據(jù)中去粗取精,抽取并推導(dǎo)出有價(jià)值、有意義的信息。處理數(shù)據(jù)需要一些軟件及算法的支持,數(shù)據(jù)處理相關(guān)軟件包括:支持?jǐn)?shù)據(jù)下載、模式識(shí)別等的程序設(shè)計(jì)語(yǔ)言及其編譯程序,管理維護(hù)數(shù)據(jù)的管理系統(tǒng),以及整合了多種數(shù)據(jù)處理方法的應(yīng)用軟件包。本文中對(duì)數(shù)據(jù)進(jìn)行處理使用到的第三方庫(kù)有Jieba、re、Collections、Numpy、Pandas等。
3.3 簡(jiǎn)歷數(shù)據(jù)的可視化
數(shù)據(jù)可視化[13-14],是針對(duì)數(shù)據(jù)視覺(jué)表現(xiàn)形式的科學(xué)技術(shù)研究,這種數(shù)據(jù)的視覺(jué)表現(xiàn)形式被定義為以某種概要形式抽提出來(lái)的信息,包括相應(yīng)信息的各種屬性、變量等。數(shù)據(jù)可視化技術(shù)主要通過(guò)圖形化手段對(duì)需要的數(shù)據(jù)進(jìn)行處理,目的是展示出直觀、鮮明、分而有類的數(shù)據(jù)。數(shù)據(jù)的可視化通過(guò)直觀地傳達(dá)關(guān)鍵的方面與特征,美學(xué)形式與功能需要齊頭并進(jìn),從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。論文中使用到的第三方庫(kù)有wordcloud、PIL、matplotlib.pyplotis、PyEcharts等。
4 簡(jiǎn)歷數(shù)據(jù)可視化
本節(jié)數(shù)據(jù)選取中國(guó)五個(gè)不同城市、所求職位類別為“通信/網(wǎng)絡(luò)/計(jì)算機(jī)”的求職者簡(jiǎn)歷,對(duì)他們簡(jiǎn)歷中的基本信息內(nèi)容進(jìn)行可視化分析。
4.1 個(gè)人簡(jiǎn)歷可視化
針對(duì)單個(gè)簡(jiǎn)歷數(shù)據(jù),生成該簡(jiǎn)歷的思維導(dǎo)圖,如圖1所示。
隨機(jī)選取的個(gè)人簡(jiǎn)歷在自我評(píng)價(jià)一欄,其自我評(píng)價(jià)的詞云圖如圖2所示。
4.2 簡(jiǎn)歷基本信息數(shù)據(jù)的圖表可視化
求職者中的性別分布:性別屬性構(gòu)成僅分為“男”“女”兩種,選擇簡(jiǎn)單明了的餅圖最為合適,不同顏色的面積大小表現(xiàn)了數(shù)值的多少。
求職者年齡組成:由于年齡跨度可能為十年甚至更多,且呈現(xiàn)明顯的男女差別需要具體到單一年齡段才能使數(shù)據(jù)更為翔實(shí)。論文中選擇以面積圖來(lái)展示求職者中男女的年齡分布,不僅僅顯示不同年齡數(shù)量的差別,更進(jìn)一步顯示男女之間在求職中的年齡體現(xiàn)。
求職者學(xué)歷區(qū)別:不同求職者受教育程度在很大程度上決定了求職崗位的難度及薪水等關(guān)鍵問(wèn)題,而對(duì)于同一崗位,競(jìng)爭(zhēng)者間的學(xué)歷劃分與分布能為市場(chǎng)及招聘公司的人才采納規(guī)劃提供有力的支持,圖3的南丁格爾圖為求職者學(xué)歷比例,展示不同學(xué)歷的數(shù)量分布。
求職者預(yù)期薪水分布:對(duì)于同一行業(yè)同一職位,不同的求職者根據(jù)市場(chǎng)規(guī)律及自身?xiàng)l件會(huì)有不同的薪水預(yù)期,明確了解薪水的期望數(shù)值,能為招聘公司對(duì)不同職位給出的薪水標(biāo)準(zhǔn)提供有力的支持。而由于職場(chǎng)中男女性別的自身差異較大,對(duì)預(yù)期薪水的判斷也有明顯差別,因此特別區(qū)分男女性別在相同職位“通信/網(wǎng)絡(luò)/計(jì)算機(jī)”上的預(yù)期薪水分布。
4.3 圖表整合優(yōu)化
論文中繪制了超過(guò)20多張圖表,為了能夠方便觀察,需要在一個(gè)界面顯示多個(gè)圖表。PyEcharts可支持圖表組合,組合類型有四種:Grid、Overlap、Page、Timeline。它們的不同功能如下:
1)Grid:可將多個(gè)不同類型的圖表放在一個(gè)界面中。
2)Overlap:可將多個(gè)類型功能不同的圖表放在一張圖種同時(shí)顯示。
3)Page:可將多個(gè)圖表按順序展示在一張網(wǎng)頁(yè)中,且能放置Grid、Overlap、Timeline這三種類型的圖表。
4)Timeline:可將多個(gè)圖表繪制成輪播圖,動(dòng)態(tài)播放。
根據(jù)所繪制的圖表,論文中應(yīng)用了Timeline和Page這兩種組合。論文中將所有圖表按照所代表的地區(qū)劃分,則分別有全部地區(qū)和北京、上海等五個(gè)城市的圖表,這樣的分法用Page模塊生成了6頁(yè)不同的圖表組合。同時(shí)為了能將不同城市的同一屬性進(jìn)行對(duì)比,本文按照不同圖表所展示的內(nèi)容,將不同地區(qū)作為輪播圖的選擇條件,并將顯示不同內(nèi)容的輪播圖放置在同一頁(yè)面中。
5 論文總結(jié)
本論文圍繞簡(jiǎn)歷數(shù)據(jù)可視化分析這一主題,以就業(yè)理論和生涯規(guī)劃理論為指導(dǎo),爬取了互聯(lián)網(wǎng)上公開(kāi)發(fā)布的求職簡(jiǎn)歷相關(guān)的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗、特征工程后,聚焦在計(jì)算機(jī)行業(yè)中“通信/網(wǎng)絡(luò)/計(jì)算機(jī)”的職位類別,以求職者簡(jiǎn)歷中的性別、年齡、學(xué)歷、預(yù)期薪水、自我評(píng)價(jià)、崗位變遷等為基礎(chǔ),構(gòu)建了職業(yè)發(fā)展相關(guān)的特征并將結(jié)果進(jìn)行了可視化分析。這些可視化的圖表數(shù)據(jù)以量化、直觀的方式為求職者的職業(yè)生涯指導(dǎo)提供輔助材料,幫助求職者對(duì)該類型崗位有所理解并能找準(zhǔn)自己的定位,招聘單位借此類圖表數(shù)據(jù)也能對(duì)崗位或人才的緊缺有所了解,并能提供符合市場(chǎng)需要的合理的薪酬與待遇,為大規(guī)模細(xì)粒度研究人才職業(yè)流動(dòng)行為打下基礎(chǔ)。
參考文獻(xiàn):
[1] Super D E.A theory of vocational development[J].Theory &Practice of Vocational Guidance,1953,8(5):13-24.
[2] Super D E.A life-span,life-space approach to career development[J].Journal of Vocational Behavior,1980,16(3):282-298.
[3] 馮嘉慧.美國(guó)生涯指導(dǎo)理論范式研究[D].上海:華東師范大學(xué),2019.
[4] Guay F,Ratelle C F,Senécal C,et al.Distinguishing developmental from chronic career indecision:self-efficacy,autonomy,and social support[J].Journal of Career Assessment,2006,14(2):235-251.
[5] 胥皇.基于屬性圖挖掘的職業(yè)流動(dòng)行為研究[D].西安:西北工業(yè)大學(xué), 2019.
[6] 張淼.大學(xué)生就業(yè)質(zhì)量評(píng)價(jià)指標(biāo)開(kāi)發(fā)及其實(shí)證檢驗(yàn)[D].西安:西北工業(yè)大學(xué),2017.
[7] 劉洋.遼寧省大學(xué)生就業(yè)偏好識(shí)別及影響因素研究[D].阜新:遼寧工程技術(shù)大學(xué),2017.
[8] Wu K,Tang J,Zhang C H.Where have You been?inferring career trajectory from academic social network[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018.
[9] Yao H X,Nie M,Su H,et al.Predicting academic performance via semi-supervised learning with constructed campus social network[M]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2017:597-609.
[10] Nie M,Yang L,Sun J,et al.Advanced forecasting of career choices for college students based on campus big data[J].Frontiers of Computer Science,2018,12(3):494-503.
[11] 瑞安·米切爾. Python網(wǎng)絡(luò)爬蟲(chóng)權(quán)威指南[M].神煩小寶,譯.2版.北京:人民郵電出版社,2019:92-168.
[12] 呂云翔,張揚(yáng).Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)[M].北京:清華大學(xué)出版社,2019:20-35.
[13] 魏世超,李歆,張宜弛,等.基于E-t-SNE的混合屬性數(shù)據(jù)降維可視化方法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(6):66-72.
[14] 張杰.Python數(shù)據(jù)可視化之美:專業(yè)圖表繪制指南(全彩)[M].北京:電子工業(yè)出版社,2020.
【通聯(lián)編輯:謝媛媛】