劉敏佳
(豫章師范學(xué)院經(jīng)濟(jì)與管理學(xué)院,江西 南昌 330103)
經(jīng)濟(jì)新常態(tài)背景下,我國(guó)發(fā)展進(jìn)入轉(zhuǎn)型升級(jí)階段,這對(duì)企業(yè)提出了更高的要求,變革和創(chuàng)新成為企業(yè)應(yīng)對(duì)未來快速發(fā)展市場(chǎng)的重要手段,人作為企業(yè)最重要的資源,是推動(dòng)和主導(dǎo)企業(yè)不斷發(fā)展升級(jí)的主導(dǎo)者。領(lǐng)英發(fā)布的《2021 人才趨勢(shì)報(bào)告》中提到,員工的流動(dòng)較之以往更為頻繁,流動(dòng)數(shù)據(jù)明顯上升,同時(shí)市場(chǎng)對(duì)人才的需求也不降反升。因此,企業(yè)采取靈活的人才戰(zhàn)略,對(duì)企業(yè)及時(shí)儲(chǔ)備人才具有重要意義。企業(yè)員工的流失具有不確定性,員工離職不僅增加了企業(yè)人力資源管理成本,而且給企業(yè)和員工的和諧文化環(huán)境帶來了負(fù)面影響。應(yīng)用數(shù)據(jù)與科學(xué)的數(shù)據(jù)分析工具能夠?qū)崿F(xiàn)對(duì)員工的科學(xué)管理[1],不同于以往的傳統(tǒng)經(jīng)驗(yàn)判斷,現(xiàn)階段大數(shù)據(jù)在各行各業(yè)、各個(gè)領(lǐng)域應(yīng)用廣泛,在人力資源管理領(lǐng)域里也實(shí)現(xiàn)了其重要功能。調(diào)研數(shù)據(jù)顯示,89%的中國(guó)企業(yè)將大數(shù)據(jù)用于人力資源管理各職能模塊的工作中。應(yīng)用大數(shù)據(jù)分析導(dǎo)致員工離職的主要因素,進(jìn)而提出科學(xué)合理的員工管理對(duì)策建議,對(duì)于企業(yè)人才戰(zhàn)略具有重要意義。
回顧關(guān)于員工離職的研究可知,員工離職是指從組織中獲取收益回報(bào)的員工與組織結(jié)束成員關(guān)系的一種行為,而主動(dòng)離職員工的意愿與行為是研究的主要內(nèi)容,員工離職傾向發(fā)生在員工離職的前一個(gè)階段,員工還未采取行動(dòng)但產(chǎn)生了相關(guān)離職傾向。在產(chǎn)生離職傾向到采取離職行動(dòng)的這個(gè)過程中,員工是否采取實(shí)際行動(dòng)受到內(nèi)部和外部各種因素的影響[2],如果能充分運(yùn)用企業(yè)人力資源管理信息系統(tǒng)中的員工數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)信息進(jìn)行提煉,分析離職員工的共同特征,就能對(duì)其余員工的離職傾向進(jìn)行預(yù)測(cè),提前采取措施,這對(duì)降低員工流失具有重要意義。
隨著數(shù)據(jù)挖掘的發(fā)展與廣泛使用,專家學(xué)者們分析并處理員工離職行為模型的工具更加智能化,在運(yùn)用大數(shù)據(jù)預(yù)測(cè)員工離職和流失方面取得了一定的成果[3]。國(guó)外eBay、VMware 等公司運(yùn)用數(shù)據(jù)挖掘工具對(duì)公司的員工數(shù)據(jù)信息進(jìn)行分析,發(fā)現(xiàn)工作壓力、家庭生活、年齡、業(yè)績(jī)表現(xiàn)情況等會(huì)導(dǎo)致員工離職,預(yù)測(cè)員工可能離職的傾向,并提前采取措施進(jìn)行干涉,最終對(duì)企業(yè)留才起到了一定作用[4]。國(guó)內(nèi)學(xué)者在研究員工離職模型的基礎(chǔ)上,運(yùn)用Stacking、Adaboost 等機(jī)器學(xué)習(xí)算法對(duì)企業(yè)員工離職傾向進(jìn)行了預(yù)測(cè),提高了企業(yè)對(duì)員工流動(dòng)的洞察能力。
Muchinsky 等學(xué)者對(duì)影響員工離職的因素從3 個(gè)層面進(jìn)行闡述,包括個(gè)人因素、經(jīng)濟(jì)機(jī)會(huì)和工作關(guān)系3 個(gè)方面[5]。國(guó)內(nèi)學(xué)者主要從外部環(huán)境、組織和個(gè)人3 個(gè)方面解釋員工離職的原因,企業(yè)儲(chǔ)備的大量員工個(gè)人信息數(shù)據(jù)對(duì)于從員工個(gè)人層面分析并預(yù)測(cè)離職傾向具有重要價(jià)值,幫助企業(yè)在員工甄選階段就提前辨別可能流失的員工[6]。因此,本文通過對(duì)互聯(lián)網(wǎng)行業(yè)員工個(gè)人信息數(shù)據(jù)進(jìn)行可視化分析,獲取離職員工與在職員工的個(gè)體特征,并運(yùn)用多種機(jī)器學(xué)習(xí)方法對(duì)員工離職進(jìn)行預(yù)測(cè)結(jié)果對(duì)比,為企業(yè)提出預(yù)防措施。
GL 互聯(lián)網(wǎng)公司正處于快速發(fā)展階段。近幾年,公司對(duì)員工的需求量增加,內(nèi)部供給不足,通過對(duì)公司現(xiàn)階段員工供需平衡問題的分析發(fā)現(xiàn)導(dǎo)致近期外部招聘壓力增加的原因是員工離職率上升。文章選取GL 公司2018—2021 年員工數(shù)據(jù)作為進(jìn)一步分析該公司員工離職原因的樣本來源,找出影響該公司員工離職的關(guān)鍵影響因素,挖掘離職員工的共同特質(zhì),進(jìn)而提出具體和更有針對(duì)性的意見,運(yùn)用數(shù)據(jù)挖掘的方法對(duì)員工數(shù)據(jù)進(jìn)行分析并建立模型,幫助GL 公司確定可能離職的員工范圍,并且采取相應(yīng)措施留住人才或者提前儲(chǔ)備人才,解決員工的流失問題。
此次研究以人力資源部門數(shù)據(jù)系統(tǒng)中近3 年員工信息作為樣本,對(duì)所有收集到的數(shù)據(jù)進(jìn)行局部清洗,對(duì)異常值和重復(fù)值進(jìn)行處理,同時(shí)根據(jù)字段屬性對(duì)空白值進(jìn)行填補(bǔ)。將本次數(shù)據(jù)中收集到的與員工離職關(guān)系不大的字段,如序號(hào)、員工工號(hào)等刪除,最后共計(jì)采集到在職員工與離職員工的數(shù)據(jù)5 396 條,變量9 個(gè),其中包括員工崗位類別、崗位職務(wù)、員工年齡、員工職級(jí)、員工性別、員工婚姻狀況、員工學(xué)歷、員工工作地點(diǎn)8 個(gè)自變量,員工是否離職作為因變量。
通過對(duì)在職員工和離職員工數(shù)據(jù)進(jìn)行可視化分析比較,可以發(fā)現(xiàn)在職員工與離職員工之間的特征差異,進(jìn)而掌握影響員工離職的主要影響因素,并為后期進(jìn)一步提取員工離職的變量特征和選擇離職模型提供選擇依據(jù),對(duì)變量與員工離職之間的關(guān)系進(jìn)行描述性分析。
從各部門在職與離職員工的分布情況可以發(fā)現(xiàn),不同崗位類別上的員工離職情況存在一些明顯差異,對(duì)采集到的員工信息按照工作性質(zhì)的相似性進(jìn)行歸類,將員工的崗位類別歸為8 類。不同崗位類別離職人數(shù)和離職率差異較大,總體來看,離職人員較多集中在銷售部和技術(shù)部,但離職率最高的主要是產(chǎn)品和行政等職能部門(見圖1)?;ヂ?lián)網(wǎng)公司技術(shù)人員流失率較高,技術(shù)人員也是公司的核心競(jìng)爭(zhēng)力所在,因此需要加強(qiáng)對(duì)關(guān)鍵部門的員工流失預(yù)防工作。
圖1 各崗位在職員工與離職員工人數(shù)柱形圖
圖2 為各職級(jí)在職員工與離職員工人數(shù)柱形圖。由圖2 可知,職位級(jí)別越高,離職的員工人數(shù)越少,當(dāng)前該公司實(shí)習(xí)生和普通員工離職人數(shù)較多,而經(jīng)理及以上的職位離職人數(shù)較少。職位越高的員工在公司的收入和地位越高,其離職成本較大,且公司中高管理層以上人員數(shù)量占比較低。但從離職率來看,管理層與普通員工相對(duì)較高,對(duì)公司而言,管理層員工的流失帶來的損失更為嚴(yán)重,中高以上管理人員外部供給緊缺,招募成本較高,同時(shí)會(huì)給在職員工帶來跟隨效應(yīng)。因此,公司在關(guān)注離職人數(shù)較多的普通員工群體的同時(shí),也需要重視中高管理層員工的離職現(xiàn)象。
圖2 各職級(jí)在職員工與離職員工人數(shù)柱形圖
圖3 為離職員工與在職員工的年齡分布箱型圖。由圖3 可知,離職員工和在職員工的平均年齡都在30 歲左右,最高年齡在45 歲,與在職員工相比,離職員工年齡偏低,但差異不大;離職人員工齡主要集中在3 年到6 年之間(見圖4)。在職員工工齡中位數(shù)比離職員工工齡的中位數(shù)更高,在公司服務(wù)年限越短的員工離職的可能性越大,相對(duì)而言,工齡越長(zhǎng),員工越趨于穩(wěn)定,對(duì)公司的歸屬感和依賴感越強(qiáng)。
圖3 離職員工與在職員工年齡分布箱型圖
圖4 離職員工與在職員工工齡分布箱型圖
為了對(duì)員工是否離職進(jìn)行預(yù)測(cè),本文使用3 種機(jī)器學(xué)習(xí)模型對(duì)員工離職情況進(jìn)行預(yù)測(cè),分別是支持向量機(jī)(Support Vector Machine,SVM)、XGBoost 和決策樹(Decision Tree)模型。為了更好地選擇與模型相關(guān)的特征變量,運(yùn)用統(tǒng)計(jì)軟件對(duì)此次采集到的9 個(gè)變量信息進(jìn)行皮爾遜相關(guān)性分析,對(duì)員工各變量信息之間是否存在統(tǒng)計(jì)上的顯著性相關(guān)關(guān)系進(jìn)行檢驗(yàn),對(duì)具有顯著相關(guān)關(guān)系的變量進(jìn)行一定程度的剔除,只選擇其中一個(gè)變量進(jìn)行模型構(gòu)建與測(cè)試,避免選擇多個(gè)重復(fù)的特征變量。通過變量之間相關(guān)分析結(jié)果可知,員工是否離職與員工崗位類別、職務(wù)、婚否、是否全職、年齡、工齡之間存在一定的關(guān)系,員工婚否和是否全職及年齡的關(guān)聯(lián)度不大,因此刪除這兩個(gè)變量,考慮到特征變量不多,保留學(xué)歷這一變量,最后選擇剩下的幾個(gè)變量作為離職預(yù)測(cè)模型的特征變量。
在進(jìn)行模型預(yù)測(cè)前,首先對(duì)離職數(shù)據(jù)變量進(jìn)行特征處理,主要是將字符型變量(職務(wù)、崗位類別、性別、學(xué)歷等)轉(zhuǎn)換成離散型的數(shù)值變量。本文使用one-hot 編碼處理字符型變量,使用pandas的get_dummies 方法。處理完字符型數(shù)據(jù)后,為防止梯度下降時(shí)算法收斂速度過慢,本文對(duì)連續(xù)性數(shù)值做歸一化處理。
本文選取支持向量機(jī)模型預(yù)測(cè)員工離職情況。采用8∶2 的比例劃分訓(xùn)練集和測(cè)試集,最終獲得4 316 條訓(xùn)練集和1 080 條測(cè)試集數(shù)據(jù)。本文使用10 折交叉驗(yàn)證法選取最佳的超參數(shù)(懲罰系數(shù)C和核函數(shù)γ),最終選取的參數(shù)值C 為10,γ 為0.1。使用該參數(shù)進(jìn)行預(yù)測(cè),訓(xùn)練集和測(cè)試集獲得的分類結(jié)果見表1。
表1 支持向量機(jī)模型預(yù)測(cè)離職訓(xùn)練集和測(cè)試集分類結(jié)果
同理,選取XGBoost 模型預(yù)測(cè)員工離職情況。訓(xùn)練集和測(cè)試集同樣采用8∶2 的比例劃分。使用10折交叉驗(yàn)證法選取參數(shù),最終選取控制數(shù)深度max_depth 為4,學(xué)習(xí)率為0.3,學(xué)習(xí)器個(gè)數(shù)n_estimators 為10。使用該參數(shù)進(jìn)行預(yù)測(cè),訓(xùn)練集和測(cè)試集獲得的分類結(jié)果見表2。
表2 XGBoost 模型預(yù)測(cè)離職訓(xùn)練集和測(cè)試集分類結(jié)果
同理,使用決策樹模型預(yù)測(cè)員工離職情況。使用10 折交叉驗(yàn)證法選取超參數(shù)決策樹深度maxdepth 為4。訓(xùn)練集和測(cè)試集的分類結(jié)果見表3。
表3 決策樹模型預(yù)測(cè)離職訓(xùn)練集和測(cè)試集分類結(jié)果
根據(jù)實(shí)驗(yàn)結(jié)果,XGBoost 模型的預(yù)測(cè)結(jié)果相對(duì)其他模型要好,因此,本文最終選擇XGBoost 模型作為預(yù)測(cè)員工離職情況的模型。
員工是企業(yè)競(jìng)爭(zhēng)核心力所在,員工流失會(huì)給企業(yè)帶來不可估量的損失,企業(yè)如果能夠在員工入職前或在員工入職初期就能提前預(yù)知某一員工未來離職的概率,發(fā)現(xiàn)影響員工離職的主要個(gè)人因素,不僅能夠在選用人才階段提高招聘率,還能夠在員工流失前及時(shí)采取有效措施,留住人才,將企業(yè)損失減至最低。文章基于大數(shù)據(jù)視角,結(jié)合收集整理到的北京GL 互聯(lián)網(wǎng)公司人力資源信息管理系統(tǒng)中近幾年在職員工與離職員工的信息數(shù)據(jù),運(yùn)用統(tǒng)計(jì)工具對(duì)員工各特征變量與員工離職之間的關(guān)系進(jìn)行相關(guān)分析,發(fā)現(xiàn)崗位類別、職務(wù)、婚否、是否全職、年齡、工齡與員工離職存在一定的相關(guān)性,并主要從崗位類別、職務(wù)級(jí)別、工齡和年齡方面對(duì)在職員工與離職員工數(shù)據(jù)進(jìn)行可視化分析,為企業(yè)直觀了解員工個(gè)人數(shù)據(jù)特征提供參考,有利于企業(yè)制定人力資源相關(guān)決策。運(yùn)用SVM、XGBoost 和決策樹3 種機(jī)器學(xué)習(xí)模型對(duì)員工離職情況進(jìn)行預(yù)測(cè),從預(yù)測(cè)結(jié)果來看,XGBoost 模型預(yù)測(cè)結(jié)果最佳,對(duì)企業(yè)有效預(yù)測(cè)員工在未來的離職情況有幫助。
企業(yè)結(jié)合影響員工離職的主要因素,有效采取預(yù)防措施,包括:一是加強(qiáng)人力資源信息系統(tǒng)的建設(shè),全面收集員工入職數(shù)據(jù)信息,為員工離職預(yù)測(cè)提供充足的數(shù)據(jù)資料,使企業(yè)在員工入職前就能運(yùn)用模型提前預(yù)測(cè)離職率,提高招聘成功率。二是通過企業(yè)文化的建設(shè),加強(qiáng)企業(yè)與員工之間的情感承諾,為員工提供職業(yè)生涯規(guī)劃與指導(dǎo),提升員工的歸屬感。三是制定科學(xué)合理的績(jī)效考核制度和薪酬體系,為員工提供公平的晉升環(huán)境,降低人才因職務(wù)晉升問題流失的風(fēng)險(xiǎn)。四是建立合理的企業(yè)內(nèi)部流動(dòng)機(jī)制,打通部門之間人才流動(dòng)的通道,為內(nèi)部員工提供適當(dāng)?shù)霓D(zhuǎn)崗機(jī)會(huì),降低企業(yè)整體招聘成本。