基于集成学习的信息化人才工作变更行为研究

2021-11-22王有刚杨浩杰张子振

呼伦贝尔学院学报 2021年5期

王有刚杨浩杰张子振

(安徽财经大学安徽蚌埠 233030)

在大数据时代背景下，从事数据科学工作的信息化人才，是数据时代急需的关键性人才，他们的工作至关重要。信息化人才在城市建设和企业发展中起重要作用。人力资源管理部门利用获取的数据使用集成学习模型，对信息化人才的数据进行分析，预测他们的工作变更意愿，可以更有效的帮助企业组织实现对信息人才的管理和配置，进一步提高企业人力资源管理的效率。本文使用了kaggle竞赛网站的从事数据科学的信息人才工作变更数据，构建了集成学习模型，并对模型的预测能力进行了评估。

根据已有的数据，运用机器学习的一系列算法和Stacking模型融合的思想将Adaboost、XGboost、LightGBM四种集成模型作为第一层基学习器，第一层四个基学习器依次训练，产生的数据作为样本使用第二层的简单的逻辑回归模型训练再预测，从而得到完整的Stacking模型预测结果，相比于之前单个模型，进一步提高了模型的预测准确度。通过该模型可以辅助人力资源管理部门对信息人才的工作变更意向进行有效的预测。目前，对企业确定员工就业意向方面的问题有许多研究，主要根据员工工作质量、员工工作满意度、工作压力、工作绩效管理等方面预测员工就业和离职倾向。Esch等探讨了求职者对人工智能支持的求职系统的看法以及这些观点是否会影响他们在这种情况下申请工作的可能性。[1]Li等通过对求职者在互联网发布的求职简历，提出了一种结合五因素人格问卷、支持向量机(SVM)和多准则决策(MCDM)的方法来提高招募合适人选的质量。支持向量机用于预测求职者的适应度，MCDM用于评估求职者的工作绩效。[2]Tzeng等利用台湾的三家医院的护士的数据，以工作动机、工作满意度及压力程度作为预测因子，使用支持向量机(SVM)预测护士离职意愿。[3]Sumathi等同样根据在泰米尔纳德邦初级卫生保健中心工作的医护人员中进行的调查，包括医务人员和护士，探讨了不同工作相关经验对组织支持感的影响。[4]Ma等探讨了在软件开发的生命周期中，软件开发人员的离职问题，并构建了一种方法来量化与开发商流动相关的不确定风险，包括辞职和更换。他们基于信息熵理论，建立了TRSD的风险度量模型，可以用来度量每个开发者的离职风险水平和正在进行的软件项目的整体风险[5]。

通过对以上研究的分析，以上学者大多数使用特定的模型方法来评估员工或求职者的就业意向，评估方法相对单一，而且相比较下单个模型评估指标相对单一，稳定性较差，可能存在对数据噪声处理欠佳等情况，鲁棒性较差。本文使用XGboost、Adaboost、LightGBM四个集成学习算法，并在此基础上使用Stacking模型融合的思想进一步提高了模型的泛化能力和预测精度。使用GridSearchCV(网格搜索)对模型进行调参，以Accuracy、f1-score、AUC值作为评价指标，可以更加精确和全面的评估模型的预测能力，从而进一步优化了员工求职意向模型的预测能力。

1 算法介绍

1.1 XGboost算法介绍

XGboost是基于梯度提升树的思想由梯度提升树(Gradient Boosting Decision Tree，GBDT)改进而来，在此基础上引入了二阶导数和正则化[6]，相比之下有效提升了模型的预测精度并且可以防止过拟合。在决策树的分裂过程上采用贪心算法，寻求局部最优。

通过贪心算法寻求局部最优解，每次迭代寻找出使损失函数降低最大的分类回归树(Classification And Regression Tree，CART)树，用泰勒展开对目标函数进行近似。[6]XGboost使用正则项作为树的复杂度衡量标准，树的复杂度由每棵树的深度，内部节点的个数和叶子节点的个数衡量。

1.2 Light GBM算法介绍

轻量级梯度提升机(Light Gradient Boosting Machine，LightGBM)采用了基于Histogram optimization(直方图优化)的决策树算法[6]，占用的内存更低，数据分隔的复杂度更低。直方图算法将每个特征值离散成k个离散值，放入直方图bin中，构造宽度为k的直方图。利用直方图对训练数据进行遍历，统计每个离散值，可以很大程度的减少数据运算量。在进行特征选择时，根据直方图的离散值，可以更快的遍历寻找出最优分割点。[6]一个叶子的直方图由它的父亲节点的直方图与它兄弟节点的直方图做差得到，利用这个方法，LightGBM可以在构造一个叶子的直方图后(父节点在上一轮就已经计算出来了)，用非常微小的存储代价和计算代价得到它兄弟叶子的直方图，在速度上可以得到进一步的提升。

在直方图算法基础上，LightGBM进行进一步的优化。多数GBDT工具，如极端梯度提升(EXtreme Gradient Boosting，XGboost)使用的是按层生长 (level-wise)的决策树生长策略，而LightGBM使用了带有深度限制的按叶子生长 (leaf-wise)算法。leaf-wise每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。深度限制是为了防止长出过深的决策树，在保证精度的基础上防止过拟合。

1.3 Adaboost算法介绍

自适应增强(Adaptive Boosting，Adaboost)算法，可以看作是一个加法模型，主要将关注点放在被错误分类的样本上，减小上一轮被正确分类样本的权值，提高被错误分类样本的样本权值。采用了CART分类树作为弱分类器。Adaboost算法的自适应性表现在于，每轮训练上一个弱分类器的分错误的样本权值会被加强，加强权值后该样本会再次被用来训练下一个弱分类器，每轮训练都用之前分错的样本训练新的分类器，产生新的样本权值，直到达到预定的错误率或者指定的迭代次数。是一个弱分类器不断提升的过程，不断的训练，逐步提高分类器对数据的分类能力。

1.4 Stacking模型融合

Stacking是一种模型融合的思想，对模型进行集成堆叠的一种策略，可以进一步提升模型的预测精度。[7]Stacking分为两层模型结构，第一层使用XGboost作为第一个基模型，进行五折交叉验证，每次将其中四折作为小训练集训练XGboost模型，剩下一折作为测试集并记录下该折测试集的预测结果，之后这四折训练出来的XGboost模型要对整个测试集进行预测。这个流程进行五次，五次生成的预测结果求平均，作为测试集，五次训练集的预测结果加和作为后面的训练集。后面的两个模型分别利用上一层模型生成的训练集和测试集重复进行五折交叉验证，保持五折的数据的一致，这个流程再重复三次，最后生成的三个预测结果代入第二层进行训练。[8]

第二层为了防止过拟合，第二层采用相对容易逻辑回归模型，这也是Stackingclassifier默认的第二层模型。将上一层的四个结果作为验证集，带入第二层逻辑回归模型进行再训练，得出Stacking模型融合的输出结果。

图1 Stacking模型融合

2 实证分析

2.1 探索性数据分析(EDA)

EDA探索性数据分析是一种对未知数据集了解分析的有效手段。通过对原始数据集作图、制表、计算特征量等手段探索分析数据内部的结构和规律，了解数据集的总体情况。本文的数据来源与Kaggle上的信息人才工作变更意愿的公共数据集，19158个原始数据作为训练集，2130个数据作为测试集。通过特征分析，去除噪声特征，使用XGboost输出特征重要性，筛选保留11个最显著的特征，本文选取的特征有：

city-development-index：工作所在城市发展指数，gender：性别；relevent-experience：有无工作经验；enrolled-university：大学就读情况；education-level：教育水平；major-discipline：主修专业；experience：之前工作经验年数；company-size：就职公司规模；company-type：就职公司类型；last-new-job：距离上一份工作多长时间；training-hours：工作的培训时间。

2.1.1 数据集统计性描述

使用pandas模块的describe()函数生成的原始数据统计性描述，包括数据集样本的总数，各个特征数据预处理后的最大值、最小值、std(标准差)等。

表1 数据集统计性描述

2.1.2 绘制箱线图

箱线图主要反应原始数据的分布特征和离散情况，上下两条线分别表示最大值和最小值，中间两条线组成一个矩形代表数据四分位极差，分别由数据的上四分位数和下四分位数构成，中间的线段表示数据分布的中位数，边界外的突出的点表示异常值。从图中可以看出城市发展指数高的城市，从事数据科学工作者相对不愿意变更自己的工作。可能因为城市相对发达，从事数据挖掘工作收入更高，同时工作生活环境以及企业文化更好。

图2 城市发展指数与target的箱线图

2.1.3 绘制热图

通过热图，我们可以看出数据之间的相关性，相关性强，对应色块颜色也就相对越深。可以非常直观的看出，城市发展指数是影响员工考虑是否变更工作的最重要的因素。从事数据科学的相关经验和他们任职的公司也具有很高的相关性，根据常识在这一行业经验更加丰富的员工，往往会进入更大待遇更好的公司工作。同时相关的工作经验、公司规模、大学就读专业也对员工是否变更工作有比较强的影响。

图3 数据集分布热图

2.1.4 绘制直方图

通过直方图可以看出，从事数据工作的人才大部分都就职于私人企业，只有少数就职于政府部门或者公共服务部门，这份工作男性占大多数，存在一定的男女不均衡现象。数据科学这类工作应该是顺应时代发展的热门高薪工作，但是人才却大量聚集在私企，某种程度上说明政府信息化建设的不足。

图4 直方图

2.2 数据预处理

由于原始数据存在大量缺失值，我们使用众数或者平均数对缺失值进行填充，之后把数据集中object类型的数据替换成int或者float类型的数据，方便之后模型对数据集做出预测。

2.2.1 SMOTE采样

从箱线图的分析结果得出，target具有长尾分布，这意味着数据集非常不平衡。约80%的从事数据挖掘的人才没有变更工作的考虑，而20%的有变更工作的考虑。采用SMOTE(Synthetic Minority Oversampling Technique)合成少数类过采样技术。对少数量的样本进行分析模拟，将模拟后产生的数值填充到原始数据集中，从而解决数据集的不平衡问题，进一步提升模型的预测效果。

2.2.2 one-hot编码

one-hot编码又称一位有效编码，将连续的不易于机器学习模型使用的原始分类数据，转化成二进制的易于模型使用的二进制向量表示。本文调用pandas.get-dummies方法对“relevent-experience”“training-hours”“city-development-index”等不易被分类模型处理的连续型特征离散化处理，方便后续使用。

2.3 参数调整

本文使用sklearn上的GridSearchCV(网格搜索)进行调参。该方法是由网格搜索和参数验证两部分组成，网格搜索是在指定的参数范围内进行参数调整，使用调整后的参数训练模型，遍历范围内所有的参数，尝试所有的可能性，直到寻找到验证集得分精度最高的参数。这个方法非常耗时，适合较小的数据集和少参数的情况。不同的模型，参数也不同，本文展示调参效果最好的XGboost算法，调参结果如表2：

表2 XGboost调参说明及调参结果

表3 调参结果对比

2.4 模型预测结果评估

表4 模型预测报告

表4来源于混淆矩阵，TruePositive(TP)表示将正类预测为正类；TrueNegative(TN)表示将负类预测为负类；FalsePositive(FP)表示将负类错误预测为正类；FalseNegative(FN)表示将正类错误预测为负类。Accuracy用于评价模型预测的准确度。计算公式为：

(1)

而评估一个模型好坏，不仅基于准确度得分，而且还得参考查准率(precision)、召回率(recall)，计算公式为：

(2)

(3)

precision-0、recall-0分别表示模型预测的无意愿变更工作人才的查准率和召回率，precision-1、recall-1则表示模型预测的希望变更工作人才的查准率和召回率。

f1-score指标综合考虑了precision和recall，可以更全面的反应模型的预测能力，计算公式如下：

(4)

ROC(Receiver Operating Characteristic)曲线和AUC值用于评价一个二分类器的优劣，ROC曲线用于模型正确的识别正例的比例与错误的把负例判断为正例的比例之间的权衡。AUC值是ROC曲线下面围成的面积，衡量模型的准确率。对于以上四个模型的预测效果，根据AUC值判断，Stacking>XGboost>LightGBM>Adaboost。四个模型的ROC曲线以及AUC值分别如下：

图5 ROC曲线

2.5 模型结果

本文用了f1-score、Accuracy和AUC值三个方面综合评估五个模型对于从事数据科学工作者变更行为的预测能力，Stacking模型融合整体表现更优秀，在2130个测试数据中，预测结果显示1712人无变更工作的意愿、418人有变更工作的意愿。模型预测准确率达到了0.8386，f1-score达到了0.8408，AUC值达到了0.9105。各个方面都说明了模型融合相比于单个集成模型预测能力和泛化能力得到了进一步的提升。

3 总结与建议

本文通过建立集成学习模型，对现信息化人才的数据进行分析预测，运用数理统计工具，分析了影响信息化人才工作变更的关键因素。模型具有较高的预测精度和泛化能力，可以有效帮助人力资源部门了解信息化人才工作真实意愿。本研究工作可以帮助城市和企业的人力资源管理部门更有效地进行人才管理配置，提供理论参考依据。

3.1 城市主动吸引信息化人才

通过对数理统计图表的分析，得知城市发展指数对从事数据挖掘工作的信息人才影响最大。从箱线图我们可以得出结论，城市发展指数高于0.85时，员工不变更工作的可能性更大。城市发展和人才去留是相辅相成的。高新技术人才可以更好地帮助城市发展，而城市发展地更好，人才也更愿意留在城市之中。对于城市管理者来说，想要不在信息时代落伍，需要出台一些福利政策，主动吸引信息化人才的加入。基础设施建好的同时，城市的生态文明建设也要跟上脚步才能留住人才。

3.2 重视有经验的信息化人才

注重信息化人才培养的同时，也要注重对有丰富工作经验的信息化人才尊重与保护。现代企业要做好知识管理，有丰富工作经验的信息化人才就是企业宝贵的知识财富。在工作中对这类人才要给予足够的重视，他们丰富的工作经验可以帮助城市和企业在信息化建设过程中少走许多弯路，同时还有助于新的信息人才培养。这些人往往能够成为未来信息化建设中流砥柱。

3.3 注重培养女性信息化人才

直方图可以明显反映出，从事数据科学工作的女性人数远远少于男性，部分原因可能是个人兴趣。城市和企业出台一些针对女性信息化人才的优惠政策，如相对小的工作压力、安排合理的孕假、给予一些工作补贴等。更多女性信息人才的加入到城市和企业信息化建设工作中可能会带来更好的成果和更高的效率。所以对于城市和企业要更加注重培养一些女性信息化人才。