徐昆+趙東亮
[提要] 頻繁的員工流動(dòng)不僅增加企業(yè)的培訓(xùn)成本,還會(huì)降低企業(yè)的運(yùn)營(yíng)能力。本文利用R語(yǔ)言,建立隨機(jī)森林模型處理已離職人員數(shù)據(jù),從中分析員工離職影響因素,對(duì)于企業(yè)而言,能夠依據(jù)離職概率大小及離職影響因素采取針對(duì)性的挽留措施,并能夠分辨員工的真正離職動(dòng)機(jī),從而可以發(fā)現(xiàn)更深層的企業(yè)運(yùn)營(yíng)體系的問(wèn)題,可以為企業(yè)提供借鑒,便于提前采取措施,避免造成更多的損失。
關(guān)鍵詞:R語(yǔ)言;隨機(jī)森林模型;預(yù)測(cè);滿意度;離職傾向
中圖分類號(hào):F24 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2018年1月24日
離職傾向是員工個(gè)體經(jīng)歷了不滿意之后,想要離開(kāi)組織的態(tài)度和意向,它被認(rèn)為是預(yù)測(cè)離職行為最佳變量。綜合國(guó)內(nèi)外已有文獻(xiàn),離職傾向概念提出時(shí)間較早,但是其影響因素的探索一直沒(méi)有停滯,由于社會(huì)文化變遷,勞動(dòng)力結(jié)構(gòu)的變化,離職傾向的動(dòng)因也在發(fā)生著變化。員工離職意向形成基本源于兩個(gè)方面因素:一是員工自身的人格特質(zhì)因素,如突出個(gè)性、價(jià)值觀多元化等;二是其他外部因素,比如工作設(shè)置、組織支持等。國(guó)外學(xué)者提出的離職傾向動(dòng)因模型為本研究開(kāi)展提供了重要的理論依據(jù)。近幾年,國(guó)內(nèi)對(duì)新生代知識(shí)型員工關(guān)注越來(lái)越多,其離職傾向的探索也形成了一定程度積累,但仍存在一些不足:第一,已有文獻(xiàn)僅涉及了處于發(fā)展成熟期的民營(yíng)企業(yè)和國(guó)企,缺乏以高員工流動(dòng)率公司為對(duì)象展開(kāi)的研究;第二,研究框架受國(guó)外模型限制較大,系統(tǒng)地探索離職傾向的實(shí)證研究少。
另外,隨著大數(shù)據(jù)時(shí)代的到來(lái),運(yùn)用數(shù)據(jù)挖掘方法分析已離職人員數(shù)據(jù),挖掘員工離職影響因素,對(duì)在職員工進(jìn)行離職傾向預(yù)測(cè),依據(jù)離職概率大小及離職影響因素采取針對(duì)性的挽留措施,將更有效可行。eBay,包括沃爾瑪、瑞士信貸集團(tuán)和Box等都正在通過(guò)大數(shù)據(jù)“算”出最有可能跳槽的員工。這些公司的HR部門(mén)會(huì)收集員工的工作任期、員工調(diào)查、溝通模式甚至性格測(cè)試等一系列數(shù)據(jù),這些數(shù)據(jù)往往能夠揭示員工去留的動(dòng)機(jī),從而分析判斷員工的離職傾向性。沒(méi)有一種單一的數(shù)據(jù)可以預(yù)測(cè)員工去留。離職背后的動(dòng)機(jī)通常很復(fù)雜,收入多寡、同事關(guān)系、公司前景、職業(yè)規(guī)劃等等,在不同公司,這些變量的影響力又有很大的差異。對(duì)于企業(yè)而言,通過(guò)數(shù)據(jù)算法分析的目的并不在于驅(qū)趕有離心的員工,而在于挽留人才以及搞清楚背后的動(dòng)機(jī),解決公司弊病。正如沃爾瑪負(fù)責(zé)人員分析的全球副總裁Elpida Ormanidou所述:“如果我們能夠提前三個(gè)月,我們就能夠盡快地組織招聘和培訓(xùn),沒(méi)有人希望職位一直空缺著?!睆臄?shù)據(jù)中能夠看到更深的層次,挖掘出企業(yè)運(yùn)營(yíng)體系的內(nèi)在問(wèn)題,從而提前采取措施,可以避免造成更多的損失。綜上所述,本文以連鎖餐飲業(yè)作為研究焦點(diǎn),參照已有研究思路,根據(jù)大樣本統(tǒng)計(jì)研究,借助R語(yǔ)言隨機(jī)森林模型,對(duì)員工的離職概率進(jìn)行預(yù)測(cè),并辨識(shí)哪些因素影響該群體離職意向及不同因素的影響強(qiáng)度。
(一)預(yù)測(cè)模型——隨機(jī)森林模型。隨機(jī)森林算法的實(shí)質(zhì)是基于決策樹(shù)的分類器集成算法,其中每一棵樹(shù)都依賴于一個(gè)隨機(jī)向量,隨機(jī)森林的所有向量都是獨(dú)立同分布的。隨機(jī)森林就是對(duì)數(shù)據(jù)集的列變量和行觀測(cè)進(jìn)行隨機(jī)化,生成多個(gè)分類樹(shù),最終將分類樹(shù)結(jié)果進(jìn)行匯總。隨機(jī)森林相比于神經(jīng)網(wǎng)絡(luò),降低了運(yùn)算量的同時(shí)也提高了預(yù)測(cè)精度,而且該算法對(duì)多元共線性不敏感以及對(duì)缺失數(shù)據(jù)和非平衡數(shù)據(jù)比較穩(wěn)健,可以很好地適應(yīng)多達(dá)幾千個(gè)解釋變量數(shù)據(jù)集。
隨機(jī)森林的組成——隨機(jī)森林是由多個(gè)CART分類決策樹(shù)構(gòu)成,在構(gòu)建決策樹(shù)過(guò)程中,不進(jìn)行任何剪枝動(dòng)作,通過(guò)隨機(jī)挑選觀測(cè)(行)和變量(列)形成每一棵樹(shù)。對(duì)于分類模型,隨機(jī)森林將根據(jù)投票法為待分類樣本進(jìn)行分類;對(duì)于預(yù)測(cè)模型,隨機(jī)森林將使用單棵樹(shù)的簡(jiǎn)單平均值來(lái)預(yù)測(cè)樣本的Y值。
隨機(jī)森林的估計(jì)過(guò)程:(1)指定m值,即隨機(jī)產(chǎn)生m個(gè)變量用于節(jié)點(diǎn)上的二叉樹(shù),二叉樹(shù)變量的選擇仍然滿足節(jié)點(diǎn)不純度最小原則;(2)應(yīng)用Bootstrap自助法在原數(shù)據(jù)集中有放回地隨機(jī)抽取k個(gè)樣本集,組成k棵決策樹(shù),而對(duì)于未被抽取的樣本用于單棵決策樹(shù)的預(yù)測(cè);(3)根據(jù)k個(gè)決策樹(shù)組成的隨機(jī)森林對(duì)待分類樣本進(jìn)行分類或預(yù)測(cè),分類的原則是投票法,預(yù)測(cè)的原則是簡(jiǎn)單平均。
隨機(jī)森林性能因素:(1)每棵樹(shù)生長(zhǎng)越茂盛,組成森林的分類性能越好;(2)每棵樹(shù)之間的相關(guān)性越差,或樹(shù)之間是獨(dú)立的,則森林的分類性能越好。
(二)指標(biāo)體系的確定。為了實(shí)現(xiàn)預(yù)測(cè),首先我們需要收集一些歷史數(shù)據(jù)。針對(duì)S公司的實(shí)際情況,該公司當(dāng)前的數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)與我們期望相比存在一些不完善,我們決定確定一個(gè)新的指標(biāo)重新建立數(shù)據(jù)庫(kù)。首先我們采用文獻(xiàn)法和開(kāi)放式問(wèn)卷收集相關(guān)指標(biāo)條目,通過(guò)幾輪刪除,最終確定指標(biāo)。相關(guān)指標(biāo)可以分為三類:(1)個(gè)人信息。包括“姓名、性別、年齡、政治面貌、學(xué)歷、職業(yè)資格”;(2)綜合測(cè)評(píng)。綜合測(cè)評(píng)是招聘員工時(shí)對(duì)員工的綜合能力進(jìn)行問(wèn)卷測(cè)評(píng),測(cè)評(píng)指標(biāo)包括“言語(yǔ)理解、邏輯、常識(shí)、成就導(dǎo)向、抗壓能力、社交能力、外向性、心里感受性、情緒穩(wěn)定性、敬業(yè)”;(3)在職情況。在職情況是指員工在一段時(shí)間內(nèi)是否離職,我們用數(shù)字表示,“0”代表在職,“1”代表已經(jīng)離職。
(三)樣本數(shù)據(jù)的收集。為了獲得更加科學(xué)的數(shù)據(jù)并且檢驗(yàn)預(yù)測(cè)模型的實(shí)用性,我們聯(lián)系了S公司,讓該公司對(duì)最近入職的一批員工共170人進(jìn)行了相關(guān)指標(biāo)數(shù)據(jù)的收集。首先在招聘員工入職前,通過(guò)問(wèn)卷和測(cè)評(píng),獲得每位員工的個(gè)人信息和綜合測(cè)評(píng)成績(jī),并且在之后的3個(gè)月時(shí)間里對(duì)這一批員工進(jìn)行在職情況的跟蹤。得到數(shù)據(jù)如表1所示。(表1)
(四)預(yù)測(cè)。當(dāng)我們完成了歷史數(shù)據(jù)的收集之后,便可以對(duì)新一批員工進(jìn)行離職概率預(yù)測(cè)了。為了便于將數(shù)據(jù)導(dǎo)入模型,我們可以直接在170位員工的歷史數(shù)據(jù)后面添加新一批員工的數(shù)據(jù)。我們以新一批員工其中一位員工為例,他在表中的數(shù)據(jù)為第171條,需要預(yù)測(cè)的數(shù)據(jù)為“是否3個(gè)月內(nèi)離職”,暫時(shí)用“NA”表示數(shù)據(jù)空缺。(表2)
第一步,需要我們打開(kāi)R語(yǔ)言程序,下載隨機(jī)森林?jǐn)?shù)據(jù)包;
第二步,我們將歷史數(shù)據(jù)(訓(xùn)練樣本)和需要預(yù)測(cè)數(shù)據(jù)(預(yù)測(cè)樣本)導(dǎo)入模型;
第三步,將歷史數(shù)據(jù)(訓(xùn)練樣本)單獨(dú)提取出來(lái)供模型學(xué)習(xí),訓(xùn)練模型;
第四步,對(duì)預(yù)測(cè)數(shù)據(jù)(預(yù)測(cè)樣本)進(jìn)行預(yù)測(cè):
library(randomForest)#下載隨機(jī)森林?jǐn)?shù)據(jù)包#
d1<-read.csv(“~/Desktop/員工數(shù)據(jù)2.csv”)#讀取訓(xùn)練樣本和預(yù)測(cè)樣本#
d2<-d1[1:170,3:16]#提取訓(xùn)練樣本#
d3<-d1[171,3:16]#提取測(cè)試樣本#
d2[,“是否3個(gè)月內(nèi)離職”]<-factor(d2[,“是否3個(gè)月內(nèi)離職”])
levels(d2[,“是否3個(gè)月內(nèi)離職”])<-list(在職=0,離職=1)
set.seed(101010)
m1<-randomForest(是否3個(gè)月內(nèi)離職~.,data=d2,proximity=TRUE,
importance=TRUE,na.rm=TRUE)#訓(xùn)練模型#
p1<-predict(m1,d3,type="prob")#預(yù)測(cè)#
p1#預(yù)測(cè)結(jié)果#
在職 離職
0.666 0.334
attr(,“class”)
[1]“matrix”“votes”
(五)結(jié)果解釋及預(yù)測(cè)效果檢驗(yàn)。根據(jù)預(yù)測(cè)結(jié)果的顯示,該名員工在接下來(lái)3個(gè)月內(nèi)離職的概率為33.4%,在職的概率為66.6%。
同時(shí),我們可以增加一個(gè)對(duì)模型預(yù)測(cè)效果檢驗(yàn)的步驟。以歷史數(shù)據(jù)作為檢驗(yàn)標(biāo)準(zhǔn),將歷史數(shù)據(jù)導(dǎo)入模型進(jìn)行模擬“預(yù)測(cè)”,再將“預(yù)測(cè)”的結(jié)果與實(shí)際情況進(jìn)行對(duì)比,檢驗(yàn)過(guò)程如下:
p1<-predict(m1,d2)#用原始數(shù)據(jù)進(jìn)行預(yù)測(cè)顯示結(jié)果#
table(d2$是否3個(gè)月內(nèi)離職,p1)(表3)
從表3中可以看出,預(yù)測(cè)結(jié)果與實(shí)際情況完全一致,誤判率為0,模型的預(yù)測(cè)效果非常好。
當(dāng)員工入職一段時(shí)間后,雖然他們暫時(shí)沒(méi)有離職,但是他們都有潛在的離職傾向。根據(jù)現(xiàn)有的研究成果我們可以知道,離職傾向與工作滿意度成負(fù)相關(guān),也就是說(shuō),工作滿意度越高,離職傾向越小;工作滿意度越低,離職傾向越大。
于是我們便設(shè)計(jì)了“員工入職中期工作滿意度測(cè)評(píng)”問(wèn)卷,同樣采用文獻(xiàn)法和開(kāi)放式問(wèn)卷收集相關(guān)指標(biāo)條目,通過(guò)幾輪刪除,最終確定指標(biāo)為:“勞動(dòng)強(qiáng)度、工作壓力、與同事的關(guān)系、崗位性質(zhì)、職業(yè)地位、企業(yè)體制、企業(yè)類型、組織文化、管理水平、薪酬水平、發(fā)展機(jī)會(huì)、請(qǐng)假調(diào)休、職業(yè)興趣、職業(yè)意向、自尊、情感穩(wěn)定性、工作技能、工作安全感、工作卷入、組織承諾”。對(duì)應(yīng)不同指標(biāo),我們?cè)O(shè)計(jì)了相關(guān)問(wèn)題。例如,與“薪酬水平”對(duì)應(yīng)的問(wèn)題為“您對(duì)目前的薪酬待遇是否意?”;與“工作安全感”對(duì)應(yīng)的問(wèn)題為“現(xiàn)在的工作是否讓您感受到安全感?”。受試者在每個(gè)問(wèn)題后進(jìn)行打分,分?jǐn)?shù)區(qū)間為“0~10”分,分?jǐn)?shù)越高表示滿意度越高。在問(wèn)卷最后,設(shè)置了一項(xiàng)總體滿意度評(píng)價(jià)——“您對(duì)當(dāng)前工作總體是否滿意?”,“0”表示滿意,“1”表示不滿意。最終得到132位受試者的評(píng)價(jià)數(shù)據(jù)如表4所示。(表4)
同樣的,我們可以隨機(jī)森林模型對(duì)員工滿意度數(shù)據(jù)進(jìn)行分析,并且對(duì)各自變量重要性進(jìn)行排序:
d4<-read.csv(“~/Desktop/員工滿意度分析.csv”)
d4[,“對(duì)當(dāng)前工作總體是否滿意”]<-factor(d2[,“對(duì)當(dāng)前工作總體是否滿意”])
levels(d2[,“對(duì)當(dāng)前工作總體是否滿意”])<-list(滿意=0,不滿意=1)
set.seed(101010)
m1<-randomForest(對(duì)當(dāng)前工作總體是否滿意~.,data=d4,proximity=TRUE,
importance=TRUE,na.rm=TRUE)
Importance<-importance(x=m1)
Importance
varImpPlot(m1)#重要度排序#
對(duì)員工工作整體滿意度影響的各因素重要性分析如圖1所示。左邊圖形是根據(jù)Mean Decrease Accuracy來(lái)判斷自變量的重要程度。Mean Decrease Accuracy是衡量指標(biāo),衡量把一個(gè)指標(biāo)的取值變?yōu)殡S機(jī)數(shù),隨機(jī)森林模型預(yù)測(cè)準(zhǔn)確性降低的程度。數(shù)字越大表示該指標(biāo)的重要性越大。根據(jù)這個(gè)指標(biāo),薪酬水平、工作壓力、職業(yè)興趣、發(fā)展機(jī)會(huì)4個(gè)變量是影響員工工作整體滿意度的主要因素。右邊圖形是根據(jù)Mean Decrease Gini來(lái)判斷自變量的重要程度。Mean Decrease Gini指數(shù)是計(jì)算出每個(gè)變量對(duì)分類樹(shù)每個(gè)節(jié)點(diǎn)觀測(cè)值異質(zhì)性的影響程度,從而反映變量的重要性。該值越大表示該變量的重要性越大。根據(jù)這個(gè)指標(biāo),薪酬水平、發(fā)展機(jī)會(huì)、職業(yè)興趣、與同事的關(guān)系4個(gè)變量是影響員工工作整體滿意度的主要因素。(圖1)
(一)結(jié)論
1、對(duì)S餐飲連鎖公司來(lái)說(shuō),在員工入職前期,我們可以對(duì)員工在入職后一段時(shí)間內(nèi)的離職概率進(jìn)行預(yù)測(cè),預(yù)測(cè)要建立在模型對(duì)歷史數(shù)據(jù)的學(xué)習(xí)之上。對(duì)于如何建立相應(yīng)的歷史數(shù)據(jù)庫(kù),我們提出了3類數(shù)據(jù)指標(biāo),即個(gè)人信息、綜合測(cè)評(píng)、在職情況并且詳細(xì)分為17個(gè)子指標(biāo),該指標(biāo)構(gòu)建合理、主題明確、層次清楚、操作性強(qiáng),可以方便和準(zhǔn)確地進(jìn)行統(tǒng)計(jì)。
2、從對(duì)S餐飲連鎖公司員工入職中期的工作滿意度分析可以看出,影響員工工作整體滿意度的因素主要是薪酬水平、職業(yè)興趣、發(fā)展機(jī)會(huì)、工作壓力、與同事的管理系這幾項(xiàng)。根據(jù)分析結(jié)果,公司可以有針對(duì)性地去改善,提高員工在這幾個(gè)方面的滿意度,從而快速提升員工工作的整體滿意度,減小離職傾向。
(二)建議
1、針對(duì)不同行業(yè)和企業(yè),要建立起合理、合適的指標(biāo)體系。不同行業(yè)和企業(yè)員工的工作崗位和工作性質(zhì)存在差異,可以根據(jù)員工的工作特點(diǎn)對(duì)數(shù)據(jù)指標(biāo)體系進(jìn)行更改和替換。
2、為了保證預(yù)測(cè)的精度,歷史數(shù)據(jù)要盡可能越多越好。預(yù)測(cè)模型通過(guò)對(duì)大樣本的學(xué)習(xí),會(huì)進(jìn)一步提高預(yù)測(cè)的準(zhǔn)確性。
3、雖然預(yù)測(cè)模型有很高的準(zhǔn)確性,但仍然是建立在統(tǒng)計(jì)學(xué)的基礎(chǔ)之上,因此仍然存在誤判率。在實(shí)際的運(yùn)用過(guò)程中,可以將預(yù)測(cè)結(jié)果作為一項(xiàng)參考因素,而不應(yīng)完全依賴預(yù)測(cè)結(jié)果,作為絕對(duì)的標(biāo)準(zhǔn)。
[1]王雪莉,馬琳,張勉.基于獨(dú)生子女的調(diào)節(jié)作用的個(gè)人-工作匹配、工作滿意度與員工離職傾向研究[J].管理學(xué)報(bào),2014.11.5.
[2]柯江林,孫健敏.心理資本對(duì)工作滿意度、組織承諾與離職傾向的影響[J].經(jīng)濟(jì)與管理研究,2014.1.
[3]李潔,呂康銀,熊順朝.職業(yè)成長(zhǎng)、工作滿意度和離職傾向關(guān)系的實(shí)證研究[J].理論經(jīng)濟(jì)學(xué),2012.1.
[4]劉順祥.基于R語(yǔ)言的隨機(jī)森林算法運(yùn)用[EB/OL].http://www.docin.com,2015.11.
[5]蔡治.大數(shù)據(jù)時(shí)代的人力資源管理[M].北京:清華大學(xué)出版社,2016.