APP下载

基于大数据分析的高校云招聘信息个性化推送研究

2022-09-06王金威

关键词:数值公式数量

王金威

(闽南理工学院 招生就业处,福建 泉州 362700)

1 引言

大数据时代的来临,使高校云平台信息资源呈现多元化形态,校园与企业的深层次合作,催生了高校云招聘方式的诞生[1]。企业通过在高校云平台投放招聘信息,学生登录高校云平台即可查看到各类企业招聘信息,此类招聘方式既简化了企业招聘流程,也节省了学生跑招聘会的时间。由于高校云平台内招聘信息众多,如何在海量的招聘信息内获取到符合条件的招聘信息是高校与企业亟待解决的问题[2-3]。面对上述情况,相关领域专家学者均研究出不同推荐算法,如陈涛等人[4]利用知识图谱方式获取文本语义信息并计算用户偏好度,依据用户偏好度使用协同过滤算法为用户实现信息推荐,但该方法在实际应用过程中准确率和召回率数值不够稳定,推荐效果不好。尚燕敏等人[5]则依据信息的异构关系,利用贝叶斯因子模式实现信息推送,但该方法模型在迭代过程中存在欠拟合情况,导致其推送结果不够准确,实用性不强。

大数据分析是指对规模巨大的数据进行分析的一种方法,能够从海量数据中提取有用信息,为大数据应用奠定坚实的基础[6]。该方法适用于对数据量较大、结构复杂的海量信息进行挖掘。目前以数据分类算法、融合算法、提取算法、对比算法、推荐算法为代表的大数据分析方法被广泛应用于各领域信息处理过程中,为用户提供精准的挖掘目标或决策方法。本文研究基于大数据分析的高校云招聘信息个性化推送方法,以期为高校学生就业提供有效途径。

2 高校云招聘信息个性化推送

学生在申请企业工作岗位时需填写个人简历,以便企业了解学生特长、性格和薪资期望等信息。由于学生填写的个人简历数量大,且简历内容属性不同,形成异构数据类型[7]。为能够推送符合学生求职需求的个性化招聘信息,使用Python软件爬取高校云平台内学生简历信息并将其保存为文本格式,以此构建学生简历语料库,为后续招聘信息个性化推荐搭建数据基础。

2.1 文本语义分块

为简化高校云招聘信息个性化推送步骤,对学生简历文本进行分块处理,其流程如下。

第一步:对学生简历文本语料库实施分词处理,并将分词结果标记为{T1,T2…,Tn},其中 n 表示词语总数量,Ti表示词语,主要由一个字或者多个字组成,可用w1w2,…,wm表示,m表示字总数量。

第二步:去除分词结果内的停用词。使用统计算法分析学生简历文本分词词频后,依据该结果使用信息检索软件内的中文停用词表遍历分词结果,去除停用词。

第三步:使用基于规则与统计的词语识别算法识别学生简历文本短语,该短语用{S1,S2…,Sn}表示,其中N表示短语总数,Si表示短语,主要由一个或多个词组成,用 T1,T2…,Tn表示。

第三步:将包含学生个人简历名词短语标记为EE,其他短语标记为描述短语DE,则学生个人简历标记结果表达如公式(1)。

公式(1)中,Ok表示第 k 篇学生简历,EEi、OEij分别表示第i个简历信息位短语和其后第j个描述语。

第四步:合并简历信息位短语和其后的描述短语,则得到文本分块结果。

上述文本分块结果可将学生简历文本信息分为个人基本信息、期望薪资、期待岗位、专业技能等若干文本,为后续学生简历信息抽取奠定一定基础。

2.2 词法与语法特征计算

使用大数据机器学习算法内的词频-逆文档(Term Frequency&Inverse Documentation Frequency,TF-IDF)算法计算词法与语法的特征,其中TF表示词语在学生简历内出现频率,IDF表示逆文档频率。假设Tfi,j表示词语在学生简历中出现频率,表达式见公式(2)。

公式(2)中,nij表示特征词ti在简历内dj出现次数。k表示特征词数量。

令表示逆文档频率,其表达如公式(3)。

公式(3)中,|O|、{j:ti∈dj}分别表示学生简历总数和涵盖特征词ti的简历数量。将公式(2)与公式(3)结果相乘,则有公式(4)。

公式(4)中,Tfidft,j为学生简历特征词向量。

2.3 简历信息抽取

依据学生简历词法与语法特征向量,建立学生简历信息抽取规则,如学生的基本信息则可利用其姓名和联系方式等进行抽取。以学生姓名信息抽取为例,令中文关键词和其对象的词性标签分别用J、P表示,待抽取的信息用B表示。在某个文本块内含有“姓名”关键词时,用re_name表示该关键词,抽取学生姓名信息表达公式如公式(5)、公式(6)。

公式(5)、公式(6)中,字母的下角标表示当前词前后第i个词,JP、n分别表示标点符号、名词词性。

当文本块内不涵盖“姓名”关键词时,将其标记为surname_keyword,表明待抽取的词存在于中文常用名表内,此时抽取学生姓名信息规则如公式(7)。

依据上述信息抽取规则,依次抽取学生简历分块信息,为后续招聘信息个性化推送做准备。

2.4 基于大数据分析的招聘信息个性化推送算法

依据上述小节获取到学生简历信息后,以互惠就业推荐算法实现招聘信息个性化推送。

2.4.1 企业招聘偏好相关性计算

企业招聘偏好对学生简历投递的采纳率影响较大。依据以往企业招聘经验,由已被聘用的学生相关属性值的离散程度可得到企业招聘偏好[8-9]。在此使用大数据分析算法内相似度计算方法计算企业招聘偏好。

令g、r分别表示待就业学生和已就业学生,则二者之间的相似度表达公式(8)。

公式(8)中,cgi、crj表示任意待就业学生和已就业学生;属性数量由m2表示;k表示任意属性;待就业学生和已就业学生的属性值分别为eki、ekj;ekmax、ekmin表示属性值的最大值和最小值;Φc(ex)表示招聘企业c聘用已就业学生的第k个属性的标准差。

依据公式(8)结果,计算待就业学生与招聘企业之间的相关度,表达如公式(9)。

公式(9)中,招聘企业c聘用已就业学生集合用Ic表示。

2.4.2 待就业学生偏好相关性计算

依据公式(9)结果,以与待就业学生相关性较高的招聘企业集合作为候选集合,计算待就业学生与招聘企业候选集合之间的相关性,步骤如下。

将待就业学生与招聘企业看作两组数据,计算该两组数据间的距离测度,并将该距离测度作为二者之间的相似度,其表达如公式(10)。

公式(10)中,x、y分别表 z'示待就业学生和招聘企业数据组。

使用聚类算法计算待就业学生对招聘企业的兴趣度,表达公式如公式(11):

上述公式中,Inte(s,c)表示待就业学生s对招聘企业c的兴趣度;Hs,c为距离待就业学生与已就业学生所在招聘企业集合最小数值的集合;Se表示招聘企业集合所在类别内的已就业学生集合;o表示计算待就业学生对招聘企业的兴趣度时的聚类中心,a表示相似度;d(o,o')表示招聘企业聚类中心间距离;o'表示初始聚类中心;spi表示已就业学生。

经过上述步骤,可获取待就业学生对招聘企业的兴趣度。

2.4.3 互惠就业推荐算法

招聘企业偏好与待就业学生对工作岗位的偏好数值是影响企业招聘与学生就业的关键因素[10],结合双方需求,使用互惠相关性计算方法获取招聘企业与待就业学生之间的互惠关系,其步骤如下。

Step1:依据公式(9)获得与待就业学生相关性较高的招聘企业集合。

Step2:使用聚类算法对已就业学生信息进行聚类处理。

Step3:使用公式(11)计算待就业学生对招聘企业的兴趣度。

Step4:计算招聘企业集合内招聘企业对待就业学生的互惠相关性。

在计算招聘企业c与所有待就业学生相关度时,以所有待就业学生的相关度平均值作为标准,并将二者间相关度平均值标记为gc。对于待就业学生s来说,为其推送候选单位集合标准如公式(12)。

假设Ln(s,d)表示待就业学生与候选招聘企业内的企业d之间的互惠相关性,其表达如公式(13)。

2.4.4 全局偏好互惠推送模型构建

构建全局偏好互惠推送模型,利用该模型实现待就业学生推送企业招聘信息个性化推送。

依据待就业学生偏好相关性、企业招聘偏好相关性以及待就业学生与招聘企业间的互惠关系,生成全部推荐岗位列表集合Y,该集合内的待就业学生推荐岗位列表用表示,其中P(Y)为待就业学生推送的固定长度列表时的推送质量评估模型,该模型表达如公式(14)。

公式(14)中,rel(ui~v)表示待就业学生模糊统计函数;

ui表示第i个待就业学生;Yi表示与ui待就业学生对应的推荐列表内的招聘岗位集合;G表示推送招聘岗位数量;M(ui,G)表示待就业学生与推送岗位的相关度之和;g(ui,Yi)-M(ui,G)表示偏离待就业学生偏好的程度;q(v→ui)表示招聘企业招收待就业学生概率。

受招聘岗位推送列表长度影响,为更明确反映招聘企业特点和学生能力等元素[11-12],改进公式(14)得到不限定推送列表长度的推送质量评估模型如公式(15)。

公式(15)中,Len表示推送列表内平均岗位数量;δ表示可变实数;M(ui,Len)表示推荐岗位数量为Len时,学生偏好与企业招聘偏好最大相似度;g(ui,Yi)-M(ui,Len)表示推荐岗位数量为 Len 时偏离待就业学生偏好的程度。

为保障推送给待就业学生的企业招聘信息与其个人偏好相符程度最高[13-14],通过调整可变实数数值和偏离待就业学生偏好程度实现推送列表的更新[15],则更新后的企业招聘列表表达如公式(16)。

经过上述步骤高校云平台完成向待就业学生推送个性化招聘信息。

3 实验分析

以某高校云平台为实验对象,使用本文方法为其应届毕业生推送企业招聘信息,并多个角度对本文方法展开验证。

3.1 信息抽取

F1数值是统计学中用来衡量二分类模型精确度的一种指标,可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。以F1数值作为衡量本文方法信息抽取指标,该指标是依据抽取学生个人简历信息时的准确率和召回率数值得到的,其是二者的调和平均数,是较准确率与召回率更为精准的评估指标。以抽取学生期望薪资和邮箱信息为例,测试在不同学生个人简历数量时F1数值变化情况,结果如图1所示。

图1 信息抽取测试结果

分析图1可知,本文方法抽取学生简历信息的F1数值随着学生简历数量的增加而降低。在学生简历数量为100至300份时,学生的期望薪资与邮箱信息抽取的F1数值均为1.0。在学生简历数量超过400后,抽取学生简历期望薪资和邮箱时的F1数值逐渐下降,且抽取学生简历期望薪资信息F1数值始终高于抽取邮箱信息的F1数值。但随着学生简历数量在增加,抽取二者信息时的F1数值始终高于0.83,该结果表明本文方法抽取学生简历信息能力较好,其抽取结果具备一定的科学性。

3.2 推送有效性测试

以企业招聘偏好相关性、待就业学生偏好相关性和企业与待就业学生之间互惠相关性为衡量指标,并设置其阈值不低于0.78,测试在不同学生简历数量时,本文方法推送招聘信息的有效性,结果如图2所示。

图2 推送有效性测试结果

分析图2可知,企业招聘偏好相关性、待就业学生偏好相关性和企业与待就业学生之间互惠相关性数值与学生简历数量呈反比例关系。企业招聘偏好相关性与待就业学生偏好相关性数值要高于企业与学生之间互惠相关性数值。在学生简历数量为4000份之前,企业招聘偏好相关性与待就业学生偏好相关性数值较为接近,但随着学生简历数量的增加,企业招聘偏好相关性数值较待就业学生偏好相关性数值下降幅度稍小。企业与学生之间互惠相关性数值下降较为缓慢。在学生简历数量为8000份时,企业招聘偏好相关性、待就业学生偏好相关性和互惠相关性数值均高于0.8,不低于所设阈值。上述结果表明,本文方法推送的企业招聘信息与学生和企业的相关度较高,具备较好的有效性。

从阶段性学生简历投递数量角度出发,进一步测试本文方法推送企业招聘信息的有效性。测试在不同推送企业招聘信息数量情况下,学习向企业投递其个人简历数量,结果如图3所示。

图3 推送企业招聘信息-简历投递数量关系图

分析图3可知,学生简历投递数量随着推送招聘信息数量的增加表现为指数型上升趋势。在推送招聘信息数量为10至30条之间时,学生的简历投递数量与招聘信息推送数量完全相同,表明此时使用本文方法为学生推荐的企业招聘信息完全符合学生就业需求,采纳率高达100%。随着推送招聘信息数量的增加,学生简历投递数量较推送招聘信息数量稍低,上述结果说明本文方法为学生推送的招聘信息有效性较好,学生采纳率高。

3.3 推送多样性测试

ILS是衡量推送多样性专有指标,统计本文方法推送招聘信息列表多样性专有指标ILS在推送招聘信息量不同时变化情况,分析其推送多样性效果,结果如图4所示。

图4 推送多样性测试结果

分析图4可知,ILS数值与推送招聘信息量成反比例关系。在推送招聘信息数量约为60条之前ILS数值由最初的0.9左右迅速下降至0.25左右,其下降速度较快。随着推送招聘信息量的增加,ILS数值虽继续呈现下降趋势,但ILS曲线整体保持平缓状态,在推送招聘信息量为250条至400条之间,该曲线保持直线状态,此时ILS数值为0.25左右。上述结果表明,本文方法推送的招聘信息时的ILS数值较小,所推送的招聘信息多样性较好。

3.4 应用测试

以学生的就业率为衡量指标,测试该高校不同专业的应届毕业生就业率,并与去年同期进行对比。其中去年使用的是传统的校园现场招聘方法,今年使用的是基于大数据分析的高校云招聘信息个性化推送方法。应届毕业生就业率结果如表1所示。

表1 应届毕业生就业率

分析表1可知,该高校使用本文方法后,其各个专业的就业率均有所提升,尤其是市场营销专业和供应链运营专业的应届毕业生就业率较去年同期分别增长了16.7%和18.09%,该结果说明本文方法应用后,可有效提升高校应届毕业生就业率,具备较好的实际应用效果。

4 结语

本文研究基于大数据分析的高校云招聘信息个性化推送方法。使用大数据分析算法内的相似度方法获取企业偏好、待就业学生偏好和企业与学生之间的互惠相关性等,以此向学生推送符合个人与企业偏好的招聘信息。将本文方法应用于某高校云平台内,实验结果表明该方法具备较好的信息抽取能力,且为学生推送的招聘信息有效性强,应用后该高校应届毕业生就业率明显提升,取得了较好的实际应用效果。

猜你喜欢

数值公式数量
组合数与组合数公式
排列数与排列数公式
体积占比不同的组合式石蜡相变传热数值模拟
数值大小比较“招招鲜”
舰船测风传感器安装位置数值仿真
铝合金加筋板焊接温度场和残余应力数值模拟
角:开启位置与数量关系的探索
头发的数量
“两两三三”解决天体问题
三角函数式的求值