潘保國(guó),黃永杰,張慧敏,劉康穎,陳廣輝
(1.湖北工程學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 孝感 432000;2.浙江省溫州市龍港市玉成實(shí)驗(yàn)學(xué)校,浙江 溫州 325802)
近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)招聘依托于互聯(lián)網(wǎng)的觸角可以輕易地延伸到世界的每一個(gè)角落,達(dá)到了傳統(tǒng)招聘方式無(wú)法獲得的效果。網(wǎng)絡(luò)招聘可以簡(jiǎn)化招聘流程,減少時(shí)間投入,更加快捷。劉暢[1]利用網(wǎng)絡(luò)文本挖掘技術(shù)研究了數(shù)據(jù)分析崗位需求情況,李玲等[2]以信息管理與信息系統(tǒng)專業(yè)為例,分析了網(wǎng)絡(luò)招聘時(shí)代專業(yè)人才技能情況,徐成龍等[3]利用網(wǎng)絡(luò)招聘數(shù)據(jù)分析了體育經(jīng)濟(jì)與管理專業(yè)的人才市場(chǎng)需求,楊迪月等[4]以互聯(lián)網(wǎng)金融招聘數(shù)據(jù)為例,研究基于復(fù)雜網(wǎng)絡(luò)的招聘文本挖掘,陳慧慧[5]利用2020年網(wǎng)絡(luò)招聘信息研究了后疫情時(shí)代杭州市物流專業(yè)人才需求現(xiàn)狀。
為了更加直接地了解當(dāng)前社會(huì)上對(duì)于數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)人才的需求,本文利用招聘網(wǎng)站對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)人才需求狀況進(jìn)行研究,采用文本挖掘技術(shù)將大量的招聘網(wǎng)站的數(shù)據(jù)提取出來(lái),然后進(jìn)行詞云圖等可視化分析后提出相關(guān)建議,為大數(shù)據(jù)專業(yè)的人才培養(yǎng)模式提供參考,更加符合當(dāng)前大數(shù)據(jù)人才需求的就業(yè)市場(chǎng)。
通過(guò)多個(gè)招聘網(wǎng)站對(duì)比,我們選擇了前程無(wú)憂招聘網(wǎng)站。因?yàn)樗梢暂^為輕松獲取到全國(guó)各領(lǐng)域大數(shù)據(jù)相關(guān)專業(yè)的人才需求,信息可靠且具有較高的挖掘價(jià)值。
通過(guò)Python開(kāi)啟多線程,采集得到251313條相關(guān)數(shù)據(jù)。對(duì)其進(jìn)行去重處理(當(dāng)崗位名稱與公司名稱一致時(shí),則視為重復(fù)記錄)。最后得到有效記錄共計(jì)82436條,保留職位名稱、企業(yè)名稱、薪資、供職地點(diǎn)、發(fā)布時(shí)間、企業(yè)類型、招聘人數(shù)、學(xué)歷要求、經(jīng)驗(yàn)要求、所屬行業(yè)、崗位描述和公司規(guī)模等12個(gè)字段來(lái)進(jìn)一步分析。
對(duì)每個(gè)字段進(jìn)行相應(yīng)處理,保證數(shù)據(jù)集的完整與干凈,便于后續(xù)做詳細(xì)分析。主要包括以下5個(gè)方面:
1)對(duì)有效字段的缺失值與異常值進(jìn)行替換或刪除。用apply方法進(jìn)行自定義函數(shù)映射,將數(shù)值型字段的異常值替換為np.nan,便于后續(xù)計(jì)算。
2)對(duì)崗位字段進(jìn)行篩選并規(guī)范化崗位名稱。將崗位名中的大寫(xiě)英文字母統(tǒng)一轉(zhuǎn)換為小寫(xiě)字母,并在結(jié)合招聘網(wǎng)站的職位設(shè)置與調(diào)查相關(guān)公司崗位實(shí)際設(shè)置情況后,大體上可將崗位屬性與類型細(xì)分為:‘算法’,‘分析’,‘工程師’等十大類,進(jìn)一步進(jìn)行count計(jì)數(shù)與職位名稱規(guī)范,最后進(jìn)行歸并處理。
3)地址字段也存在參差不齊的現(xiàn)象,對(duì)其進(jìn)行過(guò)濾、替換操作。許多城市,由于名稱的不規(guī)范化,在進(jìn)行統(tǒng)計(jì)計(jì)數(shù)的時(shí)候被記為不同的城市,比如:廣州市-天河區(qū),廣州市-海珠區(qū),都是屬于廣州市,卻被計(jì)為兩個(gè)地區(qū)。
4)對(duì)薪資進(jìn)行統(tǒng)一換算,便于后續(xù)可視化操作及相關(guān)計(jì)算。大體上薪資字段類型分為元/天,千(以上/下)/月,萬(wàn)(以上/下)/月,萬(wàn)(以上/下)/年,如果數(shù)據(jù)是區(qū)間的形式,則求其平均值,最后的值統(tǒng)一單位為元/月。
5)對(duì)學(xué)歷、往屆和應(yīng)屆字段字段進(jìn)行篩選處理。避免切片錯(cuò)誤,個(gè)別學(xué)歷字段含有其他字段內(nèi)容,用正則表達(dá)式進(jìn)行查找替換,并構(gòu)建新的字段包括:“博士|碩士|本科|大專|高中|中專|中技|初中及以下|應(yīng)屆生|在校生”。
探索招聘的企業(yè)所在行業(yè)、性質(zhì)、規(guī)模及其要求的學(xué)歷、工作經(jīng)驗(yàn)情況,分析各個(gè)崗位的薪資狀況,挖掘相關(guān)企業(yè)所需要的職業(yè)技能情況。
1) 企業(yè)所在的行業(yè)分布。在就業(yè)市場(chǎng)中,研究招聘企業(yè)所在的行業(yè)對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)求職者來(lái)說(shuō)具有重要的意義,有助于在其學(xué)習(xí)過(guò)程中明確方向。在對(duì)大數(shù)據(jù)領(lǐng)域相關(guān)崗位的所在行業(yè)進(jìn)行分類匯總后,從統(tǒng)計(jì)出的41個(gè)行業(yè)中提取出行業(yè)排名前10的數(shù)據(jù),如圖1所示。在目前大數(shù)據(jù)環(huán)境中處于高速發(fā)展階段的互聯(lián)網(wǎng)行業(yè)占比最高,共有14460家企業(yè)占比26.4%。其次是電子技術(shù)行業(yè),占比9.57%,這兩個(gè)行業(yè)本身就對(duì)大數(shù)據(jù)職業(yè)人員的需求較高(見(jiàn)圖2)。就招聘崗位而言,缺口最大有開(kāi)發(fā)工程師、運(yùn)營(yíng)、數(shù)據(jù)分析、算法這些熱門(mén)崗位(見(jiàn)圖3)。
圖1 大數(shù)據(jù)相關(guān)熱門(mén)行業(yè)分布
圖2 大數(shù)據(jù)相關(guān)行業(yè)類型
圖3 大數(shù)據(jù)相關(guān)熱門(mén)招聘崗位
2) 企業(yè)性質(zhì)分布,圖4展示了大數(shù)據(jù)相關(guān)企業(yè)類型占比圖。
圖4 大數(shù)據(jù)相關(guān)企業(yè)類型
從圖4來(lái)看,超過(guò)一半的職位所在的企業(yè)為民營(yíng)企業(yè),這與企業(yè)整體水平的趨勢(shì)大致相同。上市公司和國(guó)企的占比相差不大,分別占10.6%和8.19%,排列在后的是合資企業(yè),外資等。從大數(shù)據(jù)相關(guān)企業(yè)招人數(shù)可知,企業(yè)所需的大數(shù)據(jù)專業(yè)的人數(shù)最多招若干人的概率為20.65%,招1人的概率高達(dá)39.96%,招2人的概率為19.33%。而在公司規(guī)模上,有近半數(shù)的公司屬于50~500人的中小型公司,綜上所述,可知目前相關(guān)企業(yè)對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的認(rèn)知度和認(rèn)可度相對(duì)較高,并且相關(guān)招聘公司規(guī)模和招人數(shù)目也比較可觀(見(jiàn)圖5)。
圖5 大數(shù)據(jù)相關(guān)企業(yè)規(guī)模
3) 企業(yè)所處地區(qū)分布(見(jiàn)圖6)。從分析結(jié)果可以看出招聘崗位的地區(qū)主要集中在經(jīng)濟(jì)發(fā)達(dá)的城市,大多分布在沿海偏西部地帶。招聘職位數(shù)量最多的前六個(gè)城市分別是上海(17.91%)、深圳(14.25%)、廣州(11.16%)、北京(8.60%)、杭州(5.32%)、武漢(4.96%),這六個(gè)城市地理位置和資源配置條件優(yōu)越,對(duì)大部分高校畢業(yè)生有一定的吸引力。
圖6 大數(shù)據(jù)相關(guān)職位熱門(mén)招聘城市
1) 學(xué)歷要求。學(xué)歷是企業(yè)招聘人才最初的門(mén)檻,通常,企業(yè)在招聘信息中明確指出最低學(xué)歷的限制,研究職位的最低學(xué)歷要求有助于求職者的自我定位以及培養(yǎng)機(jī)構(gòu)的教育機(jī)制改革。
對(duì)相關(guān)學(xué)歷要求進(jìn)行分析后,可知企業(yè)對(duì)學(xué)歷的要求可以分為以下幾類;本科(61.09%)、大專(28.75%)、碩士(6.02%)等,超過(guò)一大半的崗位對(duì)學(xué)歷提出了硬性的要求,大多數(shù)崗位招收的是本科和大專的學(xué)歷(見(jiàn)圖7)。從大數(shù)據(jù)相關(guān)職位學(xué)歷與平均薪資水平關(guān)系的圖(見(jiàn)圖8)中可以看出,學(xué)歷和薪資有一定的關(guān)系,其中學(xué)歷最高的博士薪資最高,碩士其次。
圖7 大數(shù)據(jù)相關(guān)學(xué)歷要求
圖8 大數(shù)據(jù)相關(guān)職位學(xué)歷與平均薪資水平關(guān)系
2) 工作經(jīng)驗(yàn)要求。企業(yè)對(duì)工作經(jīng)驗(yàn)的需求與崗位的性質(zhì)有很大的關(guān)系,擁有相關(guān)工作經(jīng)驗(yàn)的求職者可以更快的適應(yīng)相關(guān)工作崗位,可以減少公司培訓(xùn)的成本。不同的工作崗位會(huì)有不同的工作經(jīng)驗(yàn)需求。我們可以發(fā)現(xiàn)企業(yè)對(duì)大數(shù)據(jù)崗位的最低工作年限要求可以分為7個(gè)取值范圍:無(wú)需經(jīng)驗(yàn)、1年經(jīng)驗(yàn)、2年經(jīng)驗(yàn)、3~4年經(jīng)驗(yàn)、5~7年經(jīng)驗(yàn)、8~9年經(jīng)驗(yàn)、10年以上經(jīng)驗(yàn),其中3~4年經(jīng)驗(yàn)的人才需求最多(見(jiàn)圖9)。從大數(shù)據(jù)相關(guān)職位經(jīng)驗(yàn)與平均薪資關(guān)系圖中(見(jiàn)圖10),我們可以看出隨著經(jīng)驗(yàn)的加深,平均薪資會(huì)越來(lái)越多。
圖9 大數(shù)據(jù)相關(guān)工作經(jīng)驗(yàn)漏斗圖
圖10 大數(shù)據(jù)相關(guān)職位經(jīng)驗(yàn)與平均薪資關(guān)系圖
3) 招聘單位對(duì)崗位的能力要求。招聘信息中的崗位要求和任職資格非常直觀的體現(xiàn)了用人單位對(duì)求職者的技能需求,通過(guò)對(duì)崗位描述字段作進(jìn)一步文本挖掘,探索求職高頻職業(yè)技能。TF-IDF定義如下:
逆文檔頻率(IDF)=
TF-IDF=TF*IDF
利用TF-IDF算法加權(quán),篩選出前一百個(gè)高頻技能詞匯,并繪制了下列的詞云圖(見(jiàn)圖11)。
圖11 高頻技能詞匯詞云圖
從圖11中我們可以直觀看到用人單位對(duì)應(yīng)聘者的能力要求分可大致分為兩大類,一類是基本能力要求,包括溝通能力、學(xué)習(xí)能力、責(zé)任心等;另一類是專業(yè)技能需求,包括Java語(yǔ)言、數(shù)據(jù)庫(kù)、Python、linux、web、運(yùn)維、架構(gòu)等。我們又根據(jù)這一百個(gè)高技能詞匯相應(yīng)的權(quán)值抽取部分繪制出了“基本能力要求表”和“專業(yè)技能需求表”(見(jiàn)表1和表2)。
4) 基本能力要求。本文將基本能力定義為除專業(yè)技能以外的能力,可以概括為人際交往、職業(yè)素養(yǎng)、心理素質(zhì)、語(yǔ)言能力四大類。根據(jù)表1,從人際交往、職業(yè)素養(yǎng)等方面來(lái)看,用人單位對(duì)求職者有一些基本要求,包括要有較強(qiáng)的團(tuán)隊(duì)意識(shí)、學(xué)習(xí)能力要好,并且最重要的就是要有較好的溝通能力和責(zé)任心,說(shuō)明了企業(yè)比較重視團(tuán)隊(duì)之中成員與成員溝通,只有溝通才能夠建立合作,以及成員與成員的在工作中的互相協(xié)助。其次對(duì)責(zé)任心的要求,則說(shuō)明了企業(yè)十分重視員工在工作室認(rèn)真負(fù)責(zé)的工作態(tài)度。再次就是學(xué)習(xí)能力,這表明了在大部分工作崗位中最需要的就是學(xué)習(xí)能力,這樣才能提高工作的效率,這也是用人單位非??粗氐钠焚|(zhì)。而營(yíng)銷能力和策劃能力以及抗壓能力和報(bào)告撰寫(xiě)能力也占據(jù)了較高的權(quán)重,說(shuō)明部分崗位偏運(yùn)營(yíng)管理類,和營(yíng)銷、策劃有關(guān)。緊隨其后的就是團(tuán)隊(duì)合作能力,足以說(shuō)明與大數(shù)據(jù)相關(guān)專業(yè)的工作中,經(jīng)常需要同其他部門(mén)進(jìn)行合作。
表1 基本能力要求表
5) 專業(yè)技能要求。在專業(yè)知識(shí)技能需求的分析中,我們將對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的技能要求按知識(shí)類型分為數(shù)學(xué)與統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)、計(jì)算機(jī)相關(guān)知識(shí)、大數(shù)據(jù)技術(shù)專業(yè)知識(shí)三大類,其中優(yōu)化的權(quán)重最大,說(shuō)明大數(shù)據(jù)相關(guān)崗位大部分以數(shù)學(xué)基礎(chǔ)為核心(見(jiàn)表2)。只有具備了一定的數(shù)學(xué)基礎(chǔ),才能夠更好地理解和掌握各種更深層次的算法,位列其后的便是Java語(yǔ)言與數(shù)據(jù)庫(kù),處于大數(shù)據(jù)時(shí)代,各種類型的數(shù)據(jù)體量呈指數(shù)爆炸式增長(zhǎng),普通的存儲(chǔ)方式很難滿足相關(guān)數(shù)據(jù)的存儲(chǔ),這時(shí)就需要數(shù)據(jù)庫(kù)來(lái)進(jìn)行存取,便于數(shù)據(jù)的預(yù)處理與讀取,從而更好的處理數(shù)據(jù)。對(duì)于日益復(fù)雜的用戶需求,大數(shù)據(jù)各個(gè)領(lǐng)域的相關(guān)崗位任職者也得具備一定的編程能力,Java、Python、c++等編程語(yǔ)言在開(kāi)發(fā)上的應(yīng)用范圍也十分廣泛。對(duì)于不同的崗位,可以選擇不同的編程語(yǔ)言作為輔助工具。
表2 專業(yè)技能需求表
通過(guò)對(duì)數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)人才崗位需求分析得出以下三點(diǎn)結(jié)論:
1)招聘崗位主要集中在經(jīng)濟(jì)較為發(fā)達(dá)的一線城市和超一線城市,大多分布在沿海偏西部地帶,就業(yè)空間廣泛,各公司對(duì)于開(kāi)發(fā)工程師、運(yùn)營(yíng)、數(shù)據(jù)分析等職位存在較大需求,其中根據(jù)對(duì)比分析可以看出求職者選擇去上市公司或者民營(yíng)企業(yè)就職會(huì)更好,并且職位經(jīng)驗(yàn)越高的平均薪資越高。
2)用人單位對(duì)求職者的專業(yè)技能和職業(yè)綜合素質(zhì)要求較高。大數(shù)據(jù)相關(guān)行業(yè)需要經(jīng)過(guò)一定的實(shí)習(xí),培養(yǎng)扎實(shí)的專業(yè)技能,練就較強(qiáng)的溝通能力,有較豐富的經(jīng)驗(yàn)才能找到更好的工作。
3)學(xué)歷是企業(yè)招聘人才的第一道門(mén)檻,交叉分析可知本科以上的學(xué)歷在就業(yè)中會(huì)有一定的優(yōu)勢(shì),并且薪資相對(duì)于而言也會(huì)更高。
在進(jìn)行網(wǎng)絡(luò)調(diào)研時(shí),本文只選取了第三方招聘網(wǎng)站的招聘信息作為數(shù)據(jù)來(lái)源,而多數(shù)事業(yè)單位、國(guó)企等機(jī)構(gòu)的招聘信息通常發(fā)布在官網(wǎng)或其他人力資源網(wǎng)站上,數(shù)據(jù)選取還不夠全面系統(tǒng),對(duì)大數(shù)據(jù)人才需求現(xiàn)狀的調(diào)研結(jié)果不夠精確,有待進(jìn)一步提高。