• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機器學(xué)習(xí)的員工流失預(yù)測及影響因素研究

      2023-08-29 03:33:16張家普李思奧于欣怡王亞飛
      商展經(jīng)濟 2023年16期
      關(guān)鍵詞:變量預(yù)測模型

      張家普 李思奧 于欣怡 王亞飛

      (北京外國語大學(xué)國際商學(xué)院 北京 100089)

      員工作為企業(yè)成果的傳承與價值的創(chuàng)造者,對企業(yè)的生存和發(fā)展起著舉足輕重的作用,是企業(yè)寶貴的財富。然而,隨著現(xiàn)代科技的不斷發(fā)展,企業(yè)所處的環(huán)境競爭愈發(fā)激烈,“新的剛來,老的就走”的員工流失現(xiàn)象在企業(yè)中越來越普遍。以互聯(lián)網(wǎng)企業(yè)為例,2022年美團員工的流失率達到23%,騰訊達到21%,快手的員工流失率更是高達31.8%。員工流失可以簡單理解為企業(yè)成員主動提出脫離企業(yè)的一種行為,當然該行為對于企業(yè)而言是被動的。員工流失對于企業(yè)而言并不是簡單的人員離職,其會對企業(yè)的人事、財務(wù)、業(yè)務(wù)等多方面造成影響。基層員工的離職會導(dǎo)致企業(yè)缺乏一線工作的具體執(zhí)行者,短期內(nèi)策略難以順暢落地,從而增加企業(yè)成本;而管理層員工的離職,則會導(dǎo)致企業(yè)部分業(yè)務(wù)停滯、癱瘓,影響企業(yè)長期發(fā)展。在此背景下,企業(yè)人力資源部門有效掌握員工離職動向、了解員工流失原因?qū)ζ髽I(yè)提高人力資源合理配置、降低企業(yè)經(jīng)營成本具有重要意義。

      針對該問題,部分學(xué)者從因果關(guān)系的角度出發(fā)進行各類因素與員工流失之間的實證研究。從因果關(guān)系分析往往基于以往理論假定因果關(guān)系成立,再通過數(shù)據(jù)結(jié)果驗證變量之間的非線性和交互關(guān)系,相對而言,預(yù)測性分析并未假設(shè)變量之間的因果關(guān)系,也并未假定變量之間特定的函數(shù)形式,能夠有效還原數(shù)據(jù)本身的特性,發(fā)掘數(shù)據(jù)中包含的復(fù)雜規(guī)律,有助于提出創(chuàng)新性的理論來解釋員工流失的原因。同時,預(yù)測性分析還提供了評估解釋性模型的新角度,衡量每個變量對預(yù)測表現(xiàn)的貢獻率,從而探究不同因素對于影響員工流失的重要程度。因此,本文以“IBM公司人力資源數(shù)據(jù)集”為例,采用預(yù)測性建模的方法,運用“決策樹”“邏輯回歸”單一的機器學(xué)習(xí)算法和“隨機森林”“XGBoost”集成的機器學(xué)習(xí)算法,分別構(gòu)建員工流失預(yù)測模型并進行比較,分析影響員工流失的重要因素,從而為企業(yè)制定人才挽留措施、提高人力資源配置與管理提供有益的建議。

      1 文獻綜述

      1.1 影響員工流失的因素

      綜合國內(nèi)外的研究成果,影響員工離職意向的因素可分為以下三類:員工自身客觀因素、員工自身主觀因素、外部環(huán)境因素。

      員工自身客觀因素主要包括員工的年齡、性別、受教育水平、婚姻狀況等。張勉和蘇樹茁(2001)研究發(fā)現(xiàn),在人口變量中,已婚者相對于未婚者,學(xué)歷為本科的雇員相對于學(xué)歷為高中及以下的雇員產(chǎn)生離職意向的概率顯著減小。員工自身主觀因素包括員工的工作滿意度、工作成就感、職業(yè)發(fā)展規(guī)劃、組織承諾等。員工可能會因為工作滿意度不夠高而離職;趙西萍等人(2003)認為工作滿意度與員工的離職意向呈負相關(guān);徐芳和夏瑛(2012)以酒店從業(yè)人員為例,研究得出隨著職級的提升,個人實現(xiàn)價值越來越大,其對工作的滿意度也就越高;組織承諾是員工對于公司的歸屬感與認同感(崔勛,2003),對于公司歸屬感與認同感較高的員工,往往離職意向更低。

      外部環(huán)境因素包括薪酬、工作環(huán)境、員工福利激勵等物質(zhì)工作條件,工作部門等自身工作情況及管理層管理措施、通勤時間等。薪酬與員工的離職關(guān)聯(lián)性較大,王趙夢(2016)認為,根據(jù)社會比較理論,工作積極性不僅關(guān)系到個人的實際工資,而且關(guān)系到工資分配是否公平;公司的硬件條件也會影響員工的離職意愿,高國生和張亞偉(2021)調(diào)查發(fā)現(xiàn),我國東部某城市保險企業(yè)銷售人員流失的主要因素是對工作硬件環(huán)境存在不滿情緒;而員工福利例如股權(quán)激勵是很多公司留住人才的重要手段,部分學(xué)者認為股權(quán)激勵具有吸引、篩選和留住人才的功能,可以有效阻止人員流失,對于風(fēng)險規(guī)避程度較低的員工尤為適用(Oyer,2004);葉仁蓀等(2005)則通過實證研究證明管理層的管理措施可通過影響員工的工作滿意度與組織承諾來影響員工的離職意向。

      1.2 機器學(xué)習(xí)與員工流失研究

      隨著機器學(xué)習(xí)方法、數(shù)據(jù)挖掘技術(shù)在企業(yè)管理中的廣泛應(yīng)用(陸瑤等,2020),通過機器學(xué)習(xí)研究員工流失問題逐漸成為熱點。

      國外學(xué)者從不同模型出發(fā),使用機器學(xué)習(xí)方法預(yù)測員工的離職行為。Ribes(2017)等分析了員工離職因素,并以此為基礎(chǔ)構(gòu)建了員工離職預(yù)測模型,發(fā)現(xiàn)員工的離職預(yù)測問題與企業(yè)目標客戶流失預(yù)測問題相似,因此可以使用機器學(xué)習(xí)方法例如決策樹算法、支持向量機算法等對此類問題一起進行分析預(yù)測;Hebbar等(2018)采用了邏輯回歸、支持向量機(SVM)和隨機森林等不同模型探究員工流失問題。

      國內(nèi)學(xué)者利用機器學(xué)習(xí)對員工流失問題進行了預(yù)測性分析。李蕓等(2020)使用支持向量機(SVM)算法對員工流失問題進行了預(yù)測分析,并以電網(wǎng)企業(yè)人力資源數(shù)據(jù)為基礎(chǔ),建立了預(yù)警模型。葉仁蓀等(2005)通過對國有企業(yè)員工進行問卷調(diào)查,并利用Lisrel和SPSS進行分析,建立了員工離職模型;李佳浩等(2021)采用基于Stacking集成算法Adaboost和隨機森林算法一起構(gòu)建而形成一種LRA員工離職傾向模型研究員工流失問題;杜彩蘭(2016)根據(jù)快消行業(yè)人員流失特點和現(xiàn)在國內(nèi)外數(shù)據(jù)挖掘技術(shù)的研究,運用生存分析方法,建立人員流失數(shù)據(jù)分析模型,尋找與人員流失相關(guān)的人員統(tǒng)計變量,并結(jié)合某可樂公司的人員數(shù)據(jù)進行模型估計和預(yù)測。

      2 數(shù)據(jù)說明及預(yù)處理

      2.1 數(shù)據(jù)說明與變量處理

      本文以阿里云天池實驗室公開的“IBM公司人力資源數(shù)據(jù)集”進行員工流失預(yù)測及影響因素研究。該數(shù)據(jù)集包含35個變量,1470個樣本,其中26個為數(shù)值型變量,9個為非數(shù)值型變量。被解釋變量為Attrition(是否離職),其余34個變量描述的是可能影響員工流失的因素,包含員工個人特征、工作特征、主觀滿意度等各項信息。

      初步觀察發(fā)現(xiàn),O v e r 1 8(年齡是否超過1 8 歲)、StandardHour(標準工時)和EmployeeCount(雇員數(shù)量)顯示其為常量特征,對于預(yù)測員工是否離職沒有意義,EmployeeNumber(員工號碼)與員工是否離職不存在內(nèi)在聯(lián)系,因此對以上變量先行剔除;變量DailyRate(日息)、HourlyRate(時息)、MonthlyRate(月息)與MonthlyIncome(月收入)含義重復(fù),因此對前三個變量予以剔除。數(shù)據(jù)質(zhì)量檢查顯示不存在缺失值和重復(fù)值。

      綜上,通過初步觀察分析,筆者團隊刪除了7個無價值變量后,數(shù)據(jù)集還剩下28個變量,其中非數(shù)值型變量8個,數(shù)值型變量20個。

      2.2 特征編碼處理

      對于數(shù)據(jù)集中的8個非數(shù)值型變量,為便于之后的分析,需要對這些變量進行特征編碼處理。其中,Attrition(是否離職)、Gender(性別)、OverTime(是否加班)為二分類變量,對其進行0-1編碼處理,BusinessTravel(商務(wù)差旅頻率)有Non-Travel(不出差)、Travel_Rarely(不經(jīng)常出差)和Travel_Frequently(經(jīng)常出差)三類,其理論意義存在遞進關(guān)系,故在數(shù)據(jù)處理時為這三類分別賦值,保留其遞進關(guān)系。具體見表1。

      表1 變量特征編碼處理

      對于其他字符型變量,包括Department(所在部門)、EducationField(所學(xué)習(xí)的專業(yè)領(lǐng)域)、JobRole(工作角色)、MaritalStatus(婚姻狀況),這些離散特征取值之間沒有大小的意義,因此對上述變量分別采用get_dummies的方法進行獨熱編碼處理,不僅解決了分類器不好處理屬性數(shù)據(jù)的問題,也在一定程度上起到了擴充特征的作用。特征編碼處理后,數(shù)據(jù)集由之前的28個變量擴充到45個,其中44個變量作為預(yù)測變量。

      2.3 數(shù)據(jù)平衡性處理

      當樣本中各個類別分布不平衡,某一類別的樣本數(shù)遠少于其他類別時,大多數(shù)機器學(xué)習(xí)方法對不平衡的數(shù)據(jù)集不能進行很好地預(yù)測,無法取得理想的效果,所以需要根據(jù)樣本數(shù)據(jù)分布是否均勻進行平衡性處理。

      本文的數(shù)據(jù)集中,離職樣本數(shù)量為237個,在職樣本數(shù)量為1233個,在整個數(shù)據(jù)集中在職/離職員工數(shù)據(jù)樣本比例為83.88:16.12,這符合真實的客觀情況,但對于機器學(xué)習(xí)而言則屬于非平衡數(shù)據(jù),因此在建立模型之前,本文采用SMOTE方法對數(shù)據(jù)進行平衡性處理。處理后離職員工和在職員工樣本數(shù)量各占50%,各為1233個。

      2.4 相關(guān)性分析

      通過相關(guān)系數(shù)矩陣對變量進行相關(guān)性分析后得出,變量OverTime、MaritalStatus/Single(是否單身)、Tot a lWork i ngYea rs(總工齡)、JobL evel(職業(yè)級別)、YearsInCurrentRole(目前工作職責的工作年數(shù))與被解釋變量Attrition相關(guān)性較高,而變量Gender(性別)、JobRole/Sales Executive(是否是銷售主管)、EducationField/Other(專業(yè)領(lǐng)域是否為其他)、Department/Human Resources(是否在人力資源部)、PercentSalaryHike(工資提高百分比)、PerformanceRating(績效評估)、JobRole/Research Scientist(是否是科學(xué)研究員)對被解釋變量的相關(guān)性排名靠后,相關(guān)系數(shù)低于0.03,因此對該貢獻度較低的6個變量予以剔除。

      3 實證檢驗與結(jié)果分析

      3.1 模型構(gòu)建與評估

      數(shù)據(jù)預(yù)處理后,本文依次使用決策樹、邏輯回歸、隨機森林和XGBoost四種機器學(xué)習(xí)算法,對員工離職進行預(yù)測,并通過計算準確率(Accuracy)、精確率(Precision)、召回率(Recall)、AUC等指標對模型性能進行比較,選出最優(yōu)的預(yù)測模型(見表2),其中,決策樹、邏輯回歸和隨機森林是基于監(jiān)督學(xué)習(xí)的分類算法,而XGBoost是一種梯度提升樹算法。

      表2 模型評價

      具體步驟如下:(1)收集數(shù)據(jù)集:收集并準備數(shù)據(jù)集,包括特征和目標變量;(2)將數(shù)據(jù)集拆分為訓(xùn)練集和測試集:按照一定比例將數(shù)據(jù)集分為訓(xùn)練集和測試集,本文隨機抽取測試集預(yù)測目標變量,30%作為測試集,而其余70%作為訓(xùn)練集;(3)訓(xùn)練模型:使用訓(xùn)練集訓(xùn)練各模型,并調(diào)整超參數(shù)如決策樹數(shù)量、子樹大小等,以提高模型性能。

      利用數(shù)據(jù)進行模型訓(xùn)練,得到混淆矩陣,并分別計算各模型準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值、AUC等指標并畫出各模型ROC曲線。通過表2對比模型性能評價指標結(jié)果可以看出,決策樹與邏輯回歸的性能在預(yù)測的準確率、精確率、召回率、F1值上,其表現(xiàn)均不如隨機森林、提升法這樣的集成學(xué)習(xí)方法。進一步對比隨機森林和XGBoost可以看出,這兩個模型的預(yù)測效果都非常出色,其中隨機森林的準確率為91.49%,召回率為86.29%,XGBoost的準確率為92.43%,召回率為88.58%;盡管兩個模型預(yù)測準確率均超過了90%,但是XGBoost在準確率、精確率、召回率和F1值上的數(shù)值比隨機森林略大。經(jīng)過綜合比較分析得出,XGBoost作為員工離職的分類預(yù)測模型效果更佳,通過得出的變量重要性排序,分析員工流失的關(guān)鍵影響因素并給出后續(xù)建議。

      3.2 員工離職影響因素分析

      由于XGBoost對于本數(shù)據(jù)集的預(yù)測能力優(yōu)于決策樹、邏輯回歸與隨機森林,且XGBoost具有防止過擬合、可解釋能力更強等優(yōu)點,因此接下來根據(jù)XGBoost模型對變量重要性度量的結(jié)果繪制變量相對重要性排序圖,對影響員工流失的因素進行排序。從圖1可以看出,影響較高的因素有:MaritalStatus(婚姻狀況)、EducationField(學(xué)習(xí)的專業(yè)領(lǐng)域)、Department(所在部門)、StockOptionLevel(股票期權(quán)水平)、OverTime(是否加班)、JobLevel(職業(yè)級別)等?;诖?,本文結(jié)合變量交叉統(tǒng)計圖對影響因素作進一步分析。

      圖1 XGBoost模型變量重要性排序圖

      首先,特征重要性排序圖顯示,員工婚姻狀況是對員工是否離職影響最高的因素,通過圖2(a)發(fā)現(xiàn),單身人員離職率的比例明顯更高,為已婚人員的兩倍多,可見單身群體不受家庭關(guān)系的影響,自由度更高,離職可能性更大;相比之下,已婚人士受家庭責任的影響,追求工作時間、工作地點、工作類型的穩(wěn)定,所以離職率相對更低。

      圖2 員工離職因素交叉統(tǒng)計圖

      其次,員工所在部門以及所學(xué)習(xí)的專業(yè)領(lǐng)域也是影響員工離職的重要因素。不同部門、不同專業(yè)的員工所獲得的薪酬有所差距,晉升空間和行業(yè)發(fā)展等各不相同,而這會影響到員工對自己所處職位和工作的看法,以及是否想繼續(xù)留下的態(tài)度。通過圖2(b)發(fā)現(xiàn),銷售部和人力資源部的離職率顯著高于研發(fā)部門,圖2(c)同樣反映出人力資源和市場營銷相關(guān)的員工離職率較高,而生命科學(xué)和醫(yī)療相關(guān)專業(yè)的員工離職率較低。據(jù)調(diào)查,目前銷售部門的離職率在各種職位的人員離職率中是最高的,原因在于銷售門檻低,部分求職者盲目入行,銷售壓力大、薪酬兩極分化嚴重,各種不穩(wěn)定性造就了銷售崗離職率較高。

      股票期權(quán)水平在影響員工離職的因素中排名也非常靠前。圖2(e)顯示,股票期權(quán)水平大于0的員工,其離職率明顯低于股票期權(quán)水平為0的員工,可見制定股票期權(quán)計劃對企業(yè)留住員工是一種非常有益的制度安排。豐富的股票期權(quán)計劃,既是對長期為公司服務(wù)并做出相應(yīng)成績的員工的獎勵,又巧妙地將員工的利益和企業(yè)的利益結(jié)合在一起,充分發(fā)揮了激勵組合效用,因此股票期權(quán)水平更高的員工對企業(yè)的認同感會更強,也更樂意為企業(yè)付出,不愿意離職。

      此外,對員工離職影響較高的因素還包括是否加班和員工職級。圖2(d)顯示,經(jīng)常加班員工的離職率是不經(jīng)常加班員工的3倍,可見經(jīng)常加班的員工更容易出于對現(xiàn)在工作的不滿意而離職。圖2(f)顯示,職業(yè)級別較低的員工離職率更高,而隨著職位級別的提升,離職的員工數(shù)量和比例不斷降低,這主要是由于職業(yè)級別較低、工作時間較短的員工往往處于職業(yè)生涯初期探索階段,更容易離職,而隨著職級的提升,員工個人實現(xiàn)價值越來越大,其對工作的滿意度也越來越高。

      4 結(jié)語

      本文對阿里云天池實驗室公開的“IBM公司人力資源數(shù)據(jù)集”提供的員工離職情況相關(guān)數(shù)據(jù)展開研究,依次對數(shù)據(jù)進行了質(zhì)量檢查、編碼處理、平衡性處理、相關(guān)性分析后,以變量篩選和擴充后的44個變量為預(yù)測變量,以是否離職為響應(yīng)變量,基于數(shù)據(jù)挖掘的方法依次構(gòu)建決策樹、邏輯回歸、隨機森林和XGBoost四個員工離職預(yù)測的分類模型,分析影響員工流失的關(guān)鍵因素。結(jié)果顯示,XGBoost模型無論在預(yù)測的準確率、召回率還是AUC的表現(xiàn)上均優(yōu)于其他三個模型,XGBoost的準確率達到92%,召回率達到88%。因此,本文認為XGBoost模型作為員工離職預(yù)測的分類模型最合適。以該模型計算各變量的重要性并進行排序,結(jié)合交叉統(tǒng)計圖分析后得出,員工婚姻狀況、所學(xué)習(xí)的專業(yè)、所在部門、股票期權(quán)、是否加班、職業(yè)級別等因素對員工是否離職的影響較高。

      基于此,本文對企業(yè)提出以下管理建議。

      第一,應(yīng)重視員工的婚姻狀況,可以為員工提供系列支持家庭穩(wěn)定的政策和福利,如彈性工作時間、帶薪假期及家庭健康保險,倡導(dǎo)和規(guī)范職場平等和公正,避免因員工的婚姻狀況而導(dǎo)致不公平的待遇等。

      第二,在員工專業(yè)領(lǐng)域需充分了解員工的技能和職業(yè)規(guī)劃,并為他們提供相應(yīng)的培訓(xùn)和發(fā)展機會,以配合公司的業(yè)務(wù)和目標,同時應(yīng)與員工進行持續(xù)的溝通,建立個人發(fā)展計劃,并根據(jù)員工的意愿和能力為他們提供相應(yīng)的職業(yè)發(fā)展空間。

      第三,如果員工所處的部門管理良好、氛圍和諧、同事之間互相支持,他們可能會更愿意留下來,因此企業(yè)應(yīng)加強溝通與協(xié)調(diào),建立和諧的工作氛圍,以提高員工的工作滿意度和忠誠度,同時也可以引入多元化的文化和理念,促進員工之間的相互學(xué)習(xí)和交流,并建立共同的愿景和目標。

      第四,較高的股票期權(quán)水平會激勵員工繼續(xù)留在公司,為公司創(chuàng)造更大的利潤,據(jù)此,公司可根據(jù)員工的表現(xiàn)和崗位等級,為員工提供適當?shù)墓善逼跈?quán),以鼓勵員工為公司創(chuàng)造更大的價值,同時要積極管理股票期權(quán)計劃,制定合理的期權(quán)授予政策和機制,并定期評估期權(quán)計劃的效果。

      猜你喜歡
      變量預(yù)測模型
      一半模型
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      抓住不變量解題
      重要模型『一線三等角』
      也談分離變量
      重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
      不必預(yù)測未來,只需把握現(xiàn)在
      3D打印中的模型分割與打包
      资溪县| 新丰县| 长白| 松溪县| 嘉兴市| 揭阳市| 临沭县| 鹤壁市| 诏安县| 习水县| 洱源县| 亳州市| 如东县| 徐闻县| 乐东| 昌宁县| 将乐县| 台湾省| 汕头市| 桓台县| 甘谷县| 奉化市| 宜都市| 闽清县| 沁阳市| 修文县| 邻水| 老河口市| 牙克石市| 彰化市| 永胜县| 丰县| 沁水县| 林甸县| 宁都县| 扶风县| 仙游县| 饶阳县| 牙克石市| 新建县| 宁晋县|