袁莉
(北京郵電大學(xué),北京 100876)
2021 屆高校畢業(yè)生規(guī)模909 萬(wàn),同比增加35 萬(wàn),2022 屆高校畢業(yè)生規(guī)模預(yù)計(jì)1 076 萬(wàn),首次超過(guò)1 000 萬(wàn)人,我國(guó)高校畢業(yè)生將創(chuàng)下“畢業(yè)生人數(shù)最多”“畢業(yè)生人數(shù)增長(zhǎng)幅度最大”的雙高歷史。受新冠肺炎疫情影響,在相當(dāng)長(zhǎng)的一段時(shí)間里,世界經(jīng)濟(jì)都將處于調(diào)控和恢復(fù)之中,就業(yè)市場(chǎng)用人需求仍然存在著很大的不確定性。自2022年3月起,全國(guó)疫情再次反復(fù),給就業(yè)市場(chǎng)帶來(lái)又一波的沖擊,百度、快手、騰訊、字節(jié)跳動(dòng)等多家互聯(lián)網(wǎng)大廠相繼傳來(lái)裁員消息。新冠疫情之下,一方面是求職基本盤(pán)擴(kuò)大,競(jìng)爭(zhēng)人數(shù)增長(zhǎng),另一方面是市場(chǎng)需求收緊,企業(yè)縮減成本批量裁員,就業(yè)形式將更加緊張。
根據(jù)獵聘大數(shù)據(jù)研究院發(fā)布的《2022 春節(jié)后開(kāi)工一周中高端人才就業(yè)數(shù)據(jù)報(bào)告》,IT/互聯(lián)網(wǎng)、生產(chǎn)制造、企業(yè)服務(wù)成為今年春節(jié)后開(kāi)工一周新發(fā)職位最多的前三個(gè)領(lǐng)域,其中IT/互聯(lián)網(wǎng)招聘平均年薪位居第三,為28.14 萬(wàn)元,IT/互聯(lián)網(wǎng)也是開(kāi)工一周求職者投遞簡(jiǎn)歷最多的領(lǐng)域,占比達(dá)到17.85%。拉勾招聘發(fā)布的《2022年互聯(lián)網(wǎng)行業(yè)春招薪酬報(bào)告》顯示,2022年以來(lái),互聯(lián)網(wǎng)行業(yè)平均薪資為18 500 元,較去年同期增長(zhǎng)7.5%,比2021年6.9%的增幅還高出了0.6 個(gè)百分點(diǎn)?;ヂ?lián)網(wǎng)大廠的高水平薪資不僅對(duì)高校畢業(yè)生有極大的吸引力,對(duì)于想跳槽的職場(chǎng)老人的吸引力也是可想而知的。獵聘大數(shù)據(jù)研究院的報(bào)告顯示,僅有8.4%的受訪者表示對(duì)跳槽互聯(lián)網(wǎng)大廠毫無(wú)興趣。高薪資、優(yōu)福利成為求職者擠破頭也要進(jìn)大廠的重要因素。
2021年政府工作報(bào)告明確指出,強(qiáng)化穩(wěn)崗擴(kuò)就業(yè)政策落實(shí),扎實(shí)做好高校畢業(yè)生等重要群體的就業(yè)工作。要推進(jìn)高校畢業(yè)生高質(zhì)量充分就業(yè),不僅需要政府出臺(tái)一系列政策措施,完善保障制度,提供全方位的就業(yè)服務(wù),高校完善系列人才培養(yǎng)制度,豐富實(shí)踐平臺(tái),提供精準(zhǔn)就業(yè)指導(dǎo),還需要畢業(yè)生強(qiáng)化自身就業(yè)能力,增強(qiáng)個(gè)人在就業(yè)市場(chǎng)中的競(jìng)爭(zhēng)力?;ヂ?lián)網(wǎng)就業(yè)日益嚴(yán)峻,對(duì)想進(jìn)入互聯(lián)網(wǎng)企業(yè)就業(yè)的高校畢業(yè)生或者希望跳槽到互聯(lián)網(wǎng)大廠的求職者來(lái)說(shuō),關(guān)注并深刻了解互聯(lián)網(wǎng)行業(yè)不同崗位的職責(zé)要求和技能要求,從而有針對(duì)性地提高其個(gè)人就業(yè)競(jìng)爭(zhēng)力至關(guān)重要。本文運(yùn)用爬蟲(chóng)技術(shù),抓取互聯(lián)網(wǎng)企業(yè)的人才招聘廣告數(shù)據(jù)作為數(shù)據(jù)來(lái)源,借助文本挖掘算法進(jìn)行數(shù)據(jù)分析,識(shí)別互聯(lián)網(wǎng)企業(yè)不同職位的職責(zé)要求,揭示不同職位與任職要求的內(nèi)在聯(lián)系,為互聯(lián)網(wǎng)企業(yè)求職者提供決策指導(dǎo)。
本研究選取互聯(lián)網(wǎng)行業(yè)的典型企業(yè),通過(guò)Python 爬蟲(chóng)的方式獲取了字節(jié)跳動(dòng)、阿里巴巴這兩家公司在第三方招聘網(wǎng)站上發(fā)布的招聘信息,從字節(jié)跳動(dòng)官網(wǎng)爬取7 226 條信息,從阿里巴巴招聘官網(wǎng)爬取9 111 條信息,從第三方網(wǎng)站爬取655 條信息,對(duì)數(shù)據(jù)進(jìn)行去空值、去除無(wú)關(guān)變量等處理,最終保留崗位名稱(chēng)、工作地點(diǎn)、學(xué)歷要求、工作年限、工作薪資、職位描述、職位要求等字段數(shù)據(jù),最終獲得約17 000 條有效數(shù)據(jù)。對(duì)兩家企業(yè)提供的崗位名稱(chēng)進(jìn)行對(duì)比和統(tǒng)計(jì)分析,將工作重點(diǎn)聚焦于研發(fā)、運(yùn)營(yíng)、產(chǎn)品和市場(chǎng)四類(lèi)崗位。
獲取互聯(lián)網(wǎng)企業(yè)的招聘信息后,本研究將針對(duì)職位描述和職位要求這兩個(gè)字段的內(nèi)容進(jìn)行文本挖掘,具體研究過(guò)程如圖1所示。
圖1 研究方法和過(guò)程設(shè)計(jì)
在預(yù)處理環(huán)節(jié),首先利用Python 對(duì)數(shù)據(jù)進(jìn)行清洗,去除所分析字段中的空值,以保證后續(xù)文本分析的質(zhì)量;然后利用jieba 對(duì)文本進(jìn)行分詞和去停用詞處理,并結(jié)合本次研究問(wèn)題的具體特征,分別創(chuàng)建針對(duì)職位描述和職位要求文本的專(zhuān)用分詞字典和停用詞表,將特定于任務(wù)的停用詞添加到原始的中文停用詞表中,得到比較干凈的分詞數(shù)據(jù)。
在構(gòu)建詞向量的環(huán)節(jié),對(duì)所得到的分詞語(yǔ)料進(jìn)行匯總,將完整的數(shù)據(jù)分詞結(jié)果輸入到Word2vec 模型中進(jìn)行訓(xùn)練,得到每個(gè)詞的詞向量模型(詞向量是后續(xù)生成聚類(lèi)模型的主要依據(jù))。運(yùn)用K-means 算法對(duì)職位描述和職位要求的關(guān)鍵詞進(jìn)行聚類(lèi)。
聚類(lèi)將得到每個(gè)類(lèi)別所對(duì)應(yīng)的關(guān)鍵詞,為了比較不同崗位類(lèi)型在聚類(lèi)中所獲得不同維度的側(cè)重程度,對(duì)不同崗位類(lèi)型下出現(xiàn)的聚類(lèi)關(guān)鍵詞進(jìn)行計(jì)數(shù)。即某一維度關(guān)鍵詞在某一類(lèi)型的職位描述或職位要求中出現(xiàn)的次數(shù)刻畫(huà)了該類(lèi)型職位對(duì)這一維度的側(cè)重程度。根據(jù)得到的結(jié)果通過(guò)雷達(dá)圖的方式可視化能力畫(huà)像,做進(jìn)一步的對(duì)比分析。
將不同類(lèi)型職位所對(duì)應(yīng)的職位描述和職位要求分別存儲(chǔ)在txt 文件中,并基于得到的分詞結(jié)果利用TF-IDF 特征工程得到關(guān)鍵詞,將完整的數(shù)據(jù)分詞結(jié)果輸入到Word2vec 模型中進(jìn)行訓(xùn)練,得到每個(gè)分詞的詞向量模型。將TF-IDF 得到的前100 個(gè)關(guān)鍵詞所對(duì)應(yīng)的詞向量降維到二維空間中進(jìn)行可視化處理,經(jīng)可視化處理后可以觀察到100 個(gè)關(guān)鍵詞的大體分布情況,如圖2所示。
圖2 TF-IDF 得到的前100 個(gè)關(guān)鍵詞所對(duì)應(yīng)詞向量的二維展示
由圖2可知,TF-IDF 得到的關(guān)鍵詞在空間中分布均勻,底部主要是有關(guān)計(jì)算機(jī)技能要求的關(guān)鍵詞,左下角是有關(guān)算法和編程的關(guān)鍵詞,右下角則是與信息系統(tǒng)設(shè)計(jì)及搭建有關(guān)的關(guān)鍵詞。中間部分的關(guān)鍵詞與產(chǎn)品密切相關(guān),上面的關(guān)鍵詞則與用戶(hù)緊密相關(guān)。從下到上反映了產(chǎn)品從設(shè)計(jì)研發(fā),到落地實(shí)施,再到走向市場(chǎng)吸收用戶(hù)的完整過(guò)程;從上到下反映了根據(jù)市場(chǎng)分析發(fā)現(xiàn)用戶(hù)需求,籍此進(jìn)行產(chǎn)品設(shè)計(jì)與研發(fā)的過(guò)程。
K-Means 算法是以距離作為相似度的評(píng)價(jià)指標(biāo),用樣本點(diǎn)到類(lèi)別中心的誤差平方和作為聚類(lèi)好壞的評(píng)價(jià)指標(biāo),通過(guò)迭代的方法使總體分類(lèi)的誤差平方和函數(shù)達(dá)到最小。其核心思想是根據(jù)距離的不同將樣本聚成個(gè)簇,使得簇內(nèi)樣本的相似度高,簇間樣本的相似度低。
數(shù)據(jù)預(yù)處理得到職位描述和職位要求的完整分詞結(jié)果,進(jìn)行詞向量訓(xùn)練后,得到每個(gè)詞的詞向量,計(jì)算詞向量之間的歐氏距離作為詞向量樣本間的相似性度量值。具體的運(yùn)算步驟為:
(1)從所有詞向量中選擇個(gè)詞向量作為初始聚類(lèi)中心。
(2)計(jì)算各個(gè)詞向量到每個(gè)聚類(lèi)中心的距離,并將各個(gè)詞向量劃分到距離最近的聚類(lèi)中心的類(lèi)別中。
(3)根據(jù)各個(gè)詞向量所屬的類(lèi)別重新計(jì)算每個(gè)聚類(lèi)中心。
(4)當(dāng)新的聚類(lèi)中心與之前的聚類(lèi)中心相重合或計(jì)算結(jié)果小于閾值時(shí),運(yùn)算結(jié)束;否則重復(fù)步驟(2)和(3)。
K-means 算法的關(guān)鍵是確定分類(lèi)數(shù),本文采用輪廓系數(shù)(Silhouette Coefficient)和誤差平方和相結(jié)合的方法來(lái)確定最佳分類(lèi)數(shù)。
輪廓系數(shù)適用于實(shí)際類(lèi)別信息未知的情況,用K-means算法將待分類(lèi)的文本數(shù)據(jù)分成個(gè)簇,對(duì)于簇中的每個(gè)向量,分別計(jì)算它們的輪廓系數(shù)。
對(duì)于其中的一個(gè)點(diǎn)來(lái)說(shuō),分別計(jì)算:
得到向量的輪廓系數(shù):
由(3)式可知,輪廓系數(shù)的取值范圍為[-1,1],越靠近1,說(shuō)明聚類(lèi)效果越好。對(duì)所有點(diǎn)的輪廓系數(shù)求平均值,得到總的輪廓系數(shù)。
誤差平方和(sum of the squared errors, SSE)是所有樣本的聚類(lèi)誤差,用于衡量聚類(lèi)效果的好壞。誤差平方和越小,聚類(lèi)效果越好。
對(duì)得到的詞向量計(jì)算歐氏距離,進(jìn)行K-means 聚類(lèi),對(duì)聚類(lèi)參數(shù)分別取2 ~9,輸出聚類(lèi)結(jié)果和對(duì)應(yīng)的輪廓系數(shù)、誤差平方和SSE。發(fā)現(xiàn)當(dāng)=7 時(shí)輪廓系數(shù)、誤差平方和SSE 發(fā)生較大變化,出現(xiàn)“拐點(diǎn)”,得到職位描述和職位要求的誤差平方和與分類(lèi)數(shù)的關(guān)系圖,分別如圖3、圖4所示。另外,此時(shí)得到的類(lèi)別關(guān)鍵詞更合理,故選擇=7作為聚類(lèi)數(shù),得到每個(gè)聚類(lèi)所對(duì)應(yīng)的關(guān)鍵詞。
圖3 不同聚類(lèi)數(shù)下職位描述的聚類(lèi)效果
圖4 不同聚類(lèi)數(shù)下職位要求的聚類(lèi)效果
在職位描述和職位要求的文本聚類(lèi)結(jié)果中均含有英文文本類(lèi),這是因?yàn)樗@取的數(shù)據(jù)中含有少量的英文職位描述和職位要求,但出現(xiàn)次數(shù)較少,故將此文本類(lèi)略去,最終分別獲得職位描述和職位要求的六個(gè)聚類(lèi)。根據(jù)這六個(gè)職位的關(guān)鍵詞,本研究總結(jié)出六類(lèi)崗位特征和職位所要求的能力維度,如表1、表2所示。在互聯(lián)網(wǎng)企業(yè)招聘信息的職位描述中,六類(lèi)崗位特征分別是市場(chǎng)推廣、行業(yè)布局、組織統(tǒng)籌、產(chǎn)品分析、技術(shù)研發(fā)和新媒體運(yùn)營(yíng),職位要求方面,招聘信息反映的六個(gè)能力維度分別是:學(xué)歷及能力要求、行業(yè)經(jīng)驗(yàn)要求、市場(chǎng)運(yùn)作能力要求、組織統(tǒng)籌能力要求、技術(shù)能力要求和個(gè)人品質(zhì)要求。
表1 職位描述聚類(lèi)得到的六個(gè)崗位特征維度
表2 職位要求聚類(lèi)得到的六個(gè)能力維度
雷達(dá)圖便于對(duì)比同一種招聘類(lèi)型下不同職位的職位描述差異,本研究考慮高校畢業(yè)生通過(guò)校招進(jìn)入互聯(lián)網(wǎng)和求職者通過(guò)社招途徑進(jìn)入互聯(lián)網(wǎng)兩種不同情況,因此將招聘類(lèi)型作為補(bǔ)充內(nèi)容,對(duì)比互聯(lián)網(wǎng)企業(yè)在社招和校招中,針對(duì)同一職位招聘信息的職位描述和職位要求是否有所區(qū)別。
具體計(jì)算時(shí),按照招聘類(lèi)型的不同,對(duì)某一崗位的職位描述或職位要求中出現(xiàn)的六個(gè)維度的分詞進(jìn)行計(jì)數(shù),分別得到社招和校招的崗位-崗位特征/崗位-能力要求計(jì)數(shù)結(jié)果。分析某一類(lèi)崗位下校招和社招對(duì)職位描述的影響,可以采用卡方檢驗(yàn)的方法來(lái)判斷社招和校招之間是否存在差異。但由于目前樣本量較大,卡方檢驗(yàn)的效果欠佳。根據(jù)列聯(lián)表分析,可以對(duì)比不同維度關(guān)鍵詞出現(xiàn)的期望頻率與實(shí)際頻率。因此本研究將不同維度關(guān)鍵詞出現(xiàn)的實(shí)際頻率作為輸入值,制作成雷達(dá)圖進(jìn)行對(duì)比。
對(duì)比圖5和圖6的校招和社招職位描述雷達(dá)圖,可以看出,對(duì)于市場(chǎng)崗位來(lái)說(shuō),校招時(shí)對(duì)行業(yè)了解、組織統(tǒng)籌等職位內(nèi)容的描述更多一些,而在社招時(shí)更強(qiáng)調(diào)市場(chǎng)推廣,說(shuō)明社招時(shí)企業(yè)可能會(huì)在職位描述中直截了當(dāng)?shù)乇憩F(xiàn)出盈利目的。對(duì)于研發(fā)崗位來(lái)說(shuō),校招時(shí)對(duì)技術(shù)研發(fā)的描述相對(duì)較多,有很強(qiáng)的針對(duì)性。但在社招時(shí),除了技術(shù)研發(fā)的工作描述外,產(chǎn)品、推廣等方面的描述也頗多,體現(xiàn)出綜合性和拓展性。對(duì)于產(chǎn)品崗位來(lái)說(shuō),校招時(shí)的職位描述沒(méi)有很強(qiáng)的指向性,沒(méi)有設(shè)立很高的職業(yè)門(mén)檻。相反,社招崗位對(duì)產(chǎn)品分析、市場(chǎng)推廣等工作內(nèi)容的描述更具針對(duì)性。對(duì)于運(yùn)營(yíng)崗位來(lái)說(shuō),校招和社招的職位描述差異在于,社招時(shí)對(duì)市場(chǎng)推廣的描述更多。
圖5 互聯(lián)網(wǎng)公司校招職位描述雷達(dá)圖
圖6 互聯(lián)網(wǎng)公司社招職位描述雷達(dá)圖
對(duì)比圖7和圖8的校招和社招職位要求雷達(dá)圖,可以發(fā)現(xiàn),對(duì)于市場(chǎng)崗位來(lái)說(shuō),無(wú)論是校招還是社招,對(duì)個(gè)人品質(zhì)的要求都是頭等重要的,但社招還會(huì)對(duì)市場(chǎng)運(yùn)作能力提出要求,相對(duì)而言,校招對(duì)學(xué)歷的要求更加明確。對(duì)于研發(fā)崗位來(lái)說(shuō),校招和社招最顯著的差異是,社招時(shí)對(duì)學(xué)歷的要求放寬,但對(duì)個(gè)人品質(zhì)的要求相對(duì)提高。對(duì)于產(chǎn)品崗位來(lái)說(shuō),社招時(shí)對(duì)學(xué)歷的要求相對(duì)寬松一些,但對(duì)個(gè)人品質(zhì)的要求較高。對(duì)于運(yùn)營(yíng)崗位來(lái)說(shuō),同樣出現(xiàn)社招時(shí)學(xué)歷要求放寬、個(gè)人品質(zhì)要求提高的現(xiàn)象。
圖7 互聯(lián)網(wǎng)公司校招職位要求雷達(dá)圖
圖8 互聯(lián)網(wǎng)公司社招職位要求雷達(dá)圖
通過(guò)對(duì)互聯(lián)網(wǎng)企業(yè)發(fā)布的招聘信息進(jìn)行文本分析,研究了互聯(lián)網(wǎng)企業(yè)針對(duì)不同招聘類(lèi)型、不同職位類(lèi)型的人才需求特點(diǎn)。結(jié)果顯示:互聯(lián)網(wǎng)企業(yè)的招聘職位描述可以分為市場(chǎng)推廣、行業(yè)了解、組織統(tǒng)籌、產(chǎn)品分析、技術(shù)研發(fā)和新媒體運(yùn)營(yíng)六大維度;招聘職位要求可以分為學(xué)歷要求、行業(yè)經(jīng)驗(yàn)要求、市場(chǎng)運(yùn)作能力要求、組織統(tǒng)籌能力要求、技術(shù)能力要求和個(gè)人品質(zhì)要求六個(gè)維度。
在職位能力要求方面,互聯(lián)網(wǎng)企業(yè)進(jìn)行校招時(shí),無(wú)論是市場(chǎng)、研發(fā)、產(chǎn)品還是運(yùn)營(yíng)崗位,都特別注重個(gè)人品質(zhì)(如工作主動(dòng)性和溝通能力),其中市場(chǎng)崗位最看重個(gè)人品質(zhì),研發(fā)崗位對(duì)個(gè)人品質(zhì)的要求最弱,也是四類(lèi)職位中對(duì)技術(shù)能力要求最高的崗位,運(yùn)營(yíng)崗位則是四類(lèi)職位中最看重學(xué)歷的崗位,產(chǎn)品崗位在六個(gè)維度中要求中等。在進(jìn)行社招時(shí),四類(lèi)職位仍然關(guān)注個(gè)人品質(zhì),但從整體上來(lái)說(shuō)對(duì)學(xué)歷的要求有所降低,而是更加關(guān)注求職者的組織統(tǒng)籌能力、市場(chǎng)運(yùn)作能力和行業(yè)經(jīng)驗(yàn)。相形之下,市場(chǎng)崗位在市場(chǎng)運(yùn)作能力和個(gè)人品質(zhì)兩個(gè)維度的要求較高,產(chǎn)品崗位對(duì)行業(yè)經(jīng)驗(yàn)和組織統(tǒng)籌能力要求較高。