首页 > > 网络编程 > 其它 >

员工离职太正常不过了！但是如何用Python来预测…

2018-08-21 05:42:37来源：博客园阅读 ()

大数据使企业能够确定变量，预测自家公司的员工离职率。”——《哈佛商业评论》2017年8月

“员工流失分析就是评估公司员工流动率的过程，目的是预测未来的员工离职状况，减少员工流失情况。”——《福布斯》2016年3月

进群：548377875 即可获取数十套PDF哦！

import pandas as pd

hr = pd.read_csv('HR.csv')

col_names = hr.columns.tolist()

print("Column names:")

print(col_names)

print(" Sample data:")

hr.head()

我们的数据相当干净，没有缺失值：

hr.isnull().any()

数据包含了14999名员工和10个特征：

hr.shape

(14999, 10)

“left”列为结果变量，值为1或0，1代表员工离开了公司，0代表没有离开。

我们发现数据中有3571名员工离职，有11428名员工没有离职。

然后我们进一步查看这两个类别下的数字所蕴含的意义：

hr.groupby('left').mean()

几个观察结果：

留在公司的员工的平均满意程度要高于离职的员工
留在公司的员工的平均每月工作时长要多于离职的员工
出现工作事故的员工比没有出现工作事故的员工离开公司的意愿要低
过去五年中得到升职的员工比过去五年中没有升职的员工离开公司的意愿要低

数据可视化

我们将数据进行可视化，从而获取数据及重要特征的更清晰的展现。

员工的工作部分和离职频率的条形图

%matplotlib inline

import matplotlib.pyplot as plt

pd.crosstab(hr.department,hr.left).plot(kind='bar')

plt.title('Turnover Frequency for Department')

plt.xlabel('Department')

plt.ylabel('Frequency of Turnover')

plt.savefig('department_bar_chart')

我们可以看到，员工的薪资水平和离职频率有很大关系，因此薪资水平也可以作为预测结果的一个很好指标。

通常，直方图是我们在探索数据时用于分析数值变量的最有用的工具之一。

数值变量的直方图

为分类变量创建虚变量

数据集中有两个分类变量（department，salary），在用它们进行建模前需要将它们转换为虚变量。

cat_vars=['department','salary']

for var in cat_vars:

cat_list='var'+'_'+var

cat_list = pd.get_dummies(hr[var], prefix=var)

hr1=hr.join(cat_list)

hr=hr1

等创建完虚变量后，还需要移除实际的分类变量。

为分类变量创建虚变量后的列名：

hr.drop(hr.columns[[8, 9]], axis=1, inplace=True)

hr.columns.values

我们使用特征选择方法帮我们决定哪些变量非常重要，能够以很高的准确率预测员工的流动状况。现在X中一共有18个列，那么选为10个呢？

from sklearn.feature_selection import RFE

from sklearn.linear_model import LogisticRegression

model = LogisticRegression()

rfe = RFE(model, 10)

rfe = rfe.fit(hr[X], hr[y])

print(rfe.support_)

print(rfe.ranking_)

[True True False False True True True True False True True False

False False False True True False]

[1 1 3 9 1 1 1 1 5 1 1 6 8 7 4 1 1 2]

逻辑回归准确率：0.771

随机森林

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()

rf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion=’gini’, max_depth=None, max_features=’auto’, max_leaf_nodes=None, min_impurity_split=1e-07, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1, oob_score=False, random_state=None, verbose=0, warm_start=False)

print('Random Forest Accuracy: {:.3f}'.format(accuracy_score(y_test, rf.predict(X_test))))

随机森林准确率：0.978

10折交叉验证平均准确率：0.977

平均准确率仍然和随机森林模型的准确率非常接近，所以我们可以总结出模型的泛化能力很好。

精确度和召回率

我们构建混淆矩阵来可视化由分类器生成的预测值，并评估分类的准确率。

随机森林

逻辑回归

print(classification_report(y_test, logreg.predict(X_test)))

svc_y_pred = svc.predict(X_test)

svc_cm = metrics.confusion_matrix(svc_y_pred, y_test, [1,0])

sns.heatmap(svc_cm, annot=True, fmt='.2f',xticklabels = ["Left", "Stayed"] , yticklabels = ["Left", "Stayed"] )

plt.ylabel('True class')

plt.xlabel('Predicted class')

plt.title('Support Vector Machine')

plt.savefig('support_vector_machine')

当一名员工离职时，我们的分类器能正确预测的概率是多少呢？这种衡量方法被称为“召回率”，快速看一下这些图表可以发现随机森林的效果最好。在上面所有的离职情况中，随机森林从1038种离职情况中正确地检索出998种情况。这表明离职“召回率”达到95%（991/1038），远好于逻辑回归（26%）和支持向量机（85%）。