天天看點

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

1. 引言

21世紀是一個資訊經濟和知識經濟高度發展的時代,随着國際市場的不斷開放以及國内市場自由化程度的提高,市場對人才資源的競争愈發激烈,是以導緻優秀人才的流動意願也越來越強烈,離職的行為也變得越來越頻繁。優秀人才的流失将會嚴重抑制公司的發展,也将使公司付出巨大的人力物力去重新培養可用人才,是以通過對公司優秀員工的離職因素的研究,有效的降低離職率、減少離職行為變得必不可少。國内外對員工離職的影響因素的研究已有很多,著名學者Viteles [1] 得出在組織中智力測驗成績高于平均分以上的員工留職的時間更長。Abelson [2] 認為離職員工的離職大多是因為工作壓力大,對工作存在意見。我國學者劉智強、廖建橋和李震 [3] 在對國企員工離職傾向影響因素的研究中發現,升職制度對于國企員工離職傾向的影響要高于薪酬。顔西平 [4] 通過對生産一線的生産員工離職情況研究發現,影響其離職的主要因素是個人因素、組織因素及薪酬待遇。車雯 [5] 從中國銀行鹹陽分行的員工離職現狀着手,發現影響員工離職的最主要原因是薪酬體系設計的不合理、晉升管道太窄以及相關教育訓練的缺乏。馬躍如,餘航海,夏冰 [6] 在研究中證明,組織中的破壞性上司會加大和強化員工的負面情緒,導緻更強烈的離職意願。

綜上所述,國内外大部分關于員工離職影響因素的分析大多建立在定性分析的基礎上,定量分析涉及的比較少。本文嘗試使用随機森林機器學習 [7] [8] 方法對某公司優秀員工離職因素進行實證分析,找出影響其離職的最關鍵因素,把多餘的無用的特征去掉,降低了次元計算,避免了過拟合,同時用挑選出來的關鍵變量來形成一個新的名額幫助公司改善管理模式,并對在職的優秀員工進行預測,判斷其離職的機率以供公司管理人員采取相應的挽留人才措施。最後,提出有效可行的建議。

2. 樣本資料的擷取及模型建構

2.1. 樣本資料擷取

本文采用的資料集來源kaggle競賽項目:HR-Analytics。這個資料集是關于一家大公司的人力資源資料集,共有14,999條資料,包含9個自變量以及一個因變量。詳細說明見表1。熊夢鴻 [9] 談到,在現代的人力資源管理中,薪酬管理和績效管理是導緻優秀人才嚴重流失、抑制企業發展的最為關鍵和重要的内容。在本文中,将基于熊夢鴻 [9] 的論述,對于優秀員工的選擇名額分别為:工作年限大于等于4年;績效評估大于等于0.72;薪資水準為high。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Table 1. Explanation of variables

表1. 變量的解釋說明

2.2. 基本的描述性統計分析

從表2可以看到,1) 該公司的離職率将近20.8%。2) 該公司的優秀員工對公司的滿意度在62%左右。3) 該公司的優秀員工的績效評估大概在79.7%。4) 該公司的優秀員工平均每人參加過4個項目左右。5) 該公司的優秀員工每月平均工作時長大約在210個小時。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Table 2. Description statistics for each variable

表2. 各個變量的描述統計量

從圖1(a)中可以看到,該公司的優秀員工工作未發生差錯的占比為84.77%,遠高于發生差錯的;圖1(b)中可以看出,該公司優秀員工的薪資大多分布于低等–中等水準,高等水準占比比較少;圖1(c)中可以看出該公司優秀員工沒有得到晉升的占比為97.52%,遠大于得到晉升的。圖1(d)中可以看出該公司優秀員工參加4個項目的人數居多,參加7個項目的人數較少,占比為2.53%。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Figure 1. Percentage pie chart for each variable

圖1. 各變量的百分比餅圖

接下來通過R軟體對選擇出的優秀員工資料進行分析,将進一步探索各個變量分别與因變量(是否已經離職)之間的關系,結果如下圖2。

從圖2中可以看出,優秀員工離職的特征:

1) 對公司滿意度較低的員工離職率高,對公司滿意度較高的員工離職率也不低;

2) 績效評估較高的優秀員工離職率也高;

3) 平均每月工作時間多的(高于230個小時)優秀員工相對于每月工作時間短的員工離職率較高;

相對應的可能原因進一步分析如下:

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Figure 2. Whether to quit or not to be satisfied with the company (top), performance evaluation (middle), average working hours per month (bottom)

圖2. 是否離職與對公司滿意程度(上)、績效評估(中)、平均每月工作時長(下)

從圖2(上)可以看出,對公司滿意程度低于0.1的優秀員工基本上離職了,滿意度在0.75~0.9之間,優秀員工的離職率又達到了一個峰值,這些都是對公司滿意程度比較高的員工,說明其離職并不是對公司不滿意,可能是他們尋找到了一個更好地工作機會。圖2(中)可以看出,績效評估在0.6~0.8之間,優秀員工有一個比較好的留職情況,但是績效評估比較優秀的離職密度較大,說明對于績效評估比較高的優秀員工,公司沒有相應的轉化到升職和加薪上面。圖2(下)中可以很明顯的看出,平均每月工作時間多的(大約高于230小時)優秀員工離職率最高,說明一般離開公司的優秀員工大部分屬于過度工作的。

從圖3中可以看出:優秀員工離職的特征:

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Figure 3. The percentage stacking bar chart of whether a good employee leaves or not and other independent variables

圖3. 優秀員工是否離職分别與其他自變量的百分比堆積條形圖

1) 參與項目個數較少的員工選擇離職,但參與項目數在4~7個之間的員工離職率越來越高;

2) 在公司工作時間較短的優秀員工離職率更高,年數在4~6年比較集中;

3) 各個部門的離職率都差不多;

4) 薪資在低等–中等水準的優秀員工離職率高;

5) 5年内沒有得到晉升的員工離職率高;

進一步對其産生的可能的原因進行分析如下:

(1)中有的優秀員工在隻有兩個項目的時候就選擇了離開公司,同樣地,有4~7個項目的優秀員工離職率愈來愈高,我們可以猜測到:項目數目比較少的優秀員工可能會因為沒有受到公司的重視或者自己的才華得不到施展進而離開公司,6個項目數以上的優秀員工可能是因為工作太勞累進而選擇離開公司;(2)中大部分離職的優秀員工都是在公司已經工作了4~6年,而在公司待了7~10年的優秀員工反而沒有人離職。其可能的原因在于年輕的優秀員工更傾向于多嘗試挑選适合的公司或崗位,高離職率也意味着員工在短期内難以形成對企業價值觀的長期認同。(3)中可以看出,各個部門的離職率情況差不多,但是人力資源(hr)和技術(technical)部門的離職率稍微比較高,可以針對這兩個部門的優秀人員深入了解一下情況,多關注。(4)中薪資較低、沒有得到晉升的離職率高,很明顯,這符合人之常情。說明不定期的加薪和晉升也是必不可少的。

3. 模型建構

随機森林是通過組合多棵決策樹分類器進行預測的,是以形成了“森林”,這也就是其名稱的由來。從直覺上講,每棵決策樹都是一個分類器(針對于分類問題),那麼對于輸入一個樣本,N棵樹就會有N個分類結果。而随機森林将對多個決策樹産生的預測結果采取投票的方式,将投票次數最多的類别指定為最終的輸出。在本文中,我們将根據因變量進行7:3的分層抽樣,其中70%作為訓練集,剩餘30%作為測試集進行預測。

對于分類模型,通常采用混淆矩陣來評價其預測能力。混淆矩陣的核心在于預測值與真實值的互聯表。顯然,在混淆矩陣中,預測值和實際值相符的觀測個數是評價模型好壞的一個重要名額,如下表3所示。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Table 3. Confusion matrix

表3. 混淆矩陣

其中,強調預測精準程度和查準率的名額為:

Accuracy

=

T

P

+

T

N

T

P

+

F

N

+

F

P

+

T

N ,

Precision

=

T

P

T

P

+

F

P

模型的精度,即模型預測正确的個數/樣本的總個數。一般情況下,模型的精度越高,說明模型的效果越好;查準率,在模型預測為正類的樣本中,真正為正類的樣本所占的比例。一般情況下,查準率越高,說明模型的效果越好。

建立模型的實驗結果

如表4。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Table 4. Confusion matrix of test set

表4. 測試集的混淆矩陣

由表4可以看出,Accuraccy = (2316 + 594)/(2316 + 3 + 33 + 594) = 98.8%

Precision = 2316/(2316 + 33) = 98.6%,模型的精度和查準率都很高,說明該模型的預測效果非常好。

4. 優秀員工離職影響因素的重要性分析

繪制出影響優秀員工離職的各因素重要性分析如下圖4所示。由于其他文獻多使用Mean Decrease Accuracy名額,本文我們也重點在于對其的闡述。圖4即為Mean Decrease Accuracy名額,是指平均精确度的降低。如果變量重要,則預測的誤差增大,即誤差的增大相當于精确度的減少,精确度越小也就反映這個變量越重要。從圖中可以看出這些變量的重要性排序,其中比較重要的幾個變量依次為對公司的滿意程度、工作年限、績效評估、平均每月工作時長。通過前面的分析也得到了類似的發現。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Figure 4. Ranking chart of the importance of factors influencing the turnover of excellent employees

圖4. 各因素對優秀員工離職影響重要性排序圖

對在職優秀員工進行預測

目前為止,沒有任何資料能夠很精準的預測員工的去留,在這裡,我們可以利用模型來預測優秀員工在不久的将來是否會離職。接下來我們就用剩餘的30%資料,采用上述方法進行預測,判斷優秀員工是否會離職。

由表5可以得出,在這剩餘30%的樣本資料中,有597個優秀員工可能會選擇離職。該公司可以選擇對這些優秀員工進行重點關注,嘗試在優秀員工要離職的時候,采取适當措施以留住優秀人才或者提前招聘、教育訓練新員工,減少公司造成的損失。

r語言員工離職_基于随機森林的優秀員工離職因素實證分析及預測

Table 5. Forecast excellent employee turnover probability table

表5. 預測優秀員工離職機率表

5. 結論及建議

5.1. 結論

1) 随機森林算法可獲得影響因素的重要性排序,可快速有效地從大量影響因素中辨識出對模型預測影響較大的、較關鍵的影響因素,降低了模型的次元,并減小了模型過拟合的可能性,在管理領域中可以進行廣泛應用。

2) 選擇離開該公司的優秀員工平均每月工作時長大多在230個小時、4~7個項目以上且離職的優秀員工的薪資大多在低等–中等水準,說明選擇離職的優秀員工存在着過度勞累、薪酬低,付出和回報不對等的情況;

3) 從優秀員工的不同因素的資料比較中可以看出,該公司的優秀的離職員工大多對公司滿意程度比較高、績效評估比較優秀,說明可能該公司沒有這些相應的轉化到升職和加薪上面,導緻該公司優秀員工選擇尋求另一個更好的機會;這也說明了結論1,即使對公司有着很高的滿意度,但是還是有其他的因素影響優秀員工的離職。

4) 各個部門的離職率大緻都差不多,但是人力資源(hr)和技術(technical)部門的離職率比較高,那麼該公司應該對其部門的工作方式和工作量進行關注;

5.2. 建議

1) 該公司應該更加注重優秀員工的工作和生活的平衡,采取人性化的管理方式,提高工作效率,避免加班情況的出現;

2) 該公司應該要合理進行薪酬設計,并且要確定能夠及時的根據員工的工作表現和業績以及市場變化作出相應的客觀的變化,這樣能夠更好地激發優秀員工的工作熱情,調動其積極性、創造性。優秀員工看中的是良好的待遇,和更好的職業發展,這些因素都直接影響員工的主觀感受,公司給予了員工高的評價,但沒有相應轉化到薪資和升職,即使一部分離職的優秀員工對公司有很高的滿意度,但依然不能阻擋他們會追尋更好的工作機會。

3) 完善績效評估的方式,績效評估的真正意義是為了提高優秀員工的工作業績水準,但是現在大部分公司的績效評估缺乏科學的方式和依據,導緻評估結果失去公正性以至于造成了人員的流動。該公司可以根據相關管理人員和專業人員工作崗位的性質、職責以及所要承擔風險的大小程度來指定考核标準,脫離原本的死闆的條條框框。

基金項目

國家自然科學基金項目(61763008,71762008);廣西自然科學基金項目(2016GXNSFAA380194)。

NOTES

*通訊作者。