APP下载

基于数据挖掘技术的信息专业相关职位画像研究

2019-09-10尹浩翔华昕玥王瑞楠杨彩霞

电子商务 2019年2期
关键词:文本挖掘数据挖掘

尹浩翔 华昕玥 王瑞楠 杨彩霞

摘要:从求职者角度看,若能从浩如烟海的网络招聘信息中提取出有价值的、精准的信息,将对个人的专业知识构建、职业素养的形成等具有重大的指引作用。本文从职位需求角度出发,以信息管理与信息系统专业为例,对前程无忧网相关数据进行收集,并利用数据挖掘、文本挖掘和数据可视化等大数据挖掘和分析技术实现较为精准的信息专业12类职位画像的构建和分析,旨在提供更详尽清晰的职位需求信息,可以为高校人才培养提供社会需求信息,也可以为求职者提供更有针对性的学习导向,具有重要的实际应用价值。

关键词:数据挖掘;文本挖掘;信息专业;职位画像;网络招聘

引言

大数据时代,人们可以透过海量的数据信息洞察数据背后事物的特点、行为,总结规律并能够预测未来,从而指导人们的各项决策。毕业生在求职中最困扰的因素是,对岗位要求的专业知识和技能掌握不够、自身定位不明确…。由于传统招聘方法因其自身的效率低、成本高等弊端,许多企业逐渐采用网络招聘方式[2]。一方面,我们可以从网络招聘渠道获取一些职位的市场需求信息[3];另一方面,多渠道、多信息的环境下也带来面对海量的招聘信息时,求职者往往会感觉无所适从等新问题[4]。因此,如何能对现有海量的结构化和非结构化的网络岗位招聘信息进行有效分析至关重要[5]。本文以哈尔滨理工大学信息管理与信息系统专业(以下简称信息专业)为例,对该专业的对口职位信息进行分析以构建全面的职位画像。通过对相关岗位清晰、全面地展示和从多角度多维度进行分析,帮助在校学生及求职者更为直观、全面地了解相关职位需求信息,把握行业发展动向,为学校教学和学生进行针对性地学习提供科学的指导。

1、信息专业相关职位画像设计

1.1 职位画像设计原则

职位画像是围绕海量数据进行深度挖掘、分析,形成职位信息各种特征信息的全景视图,进而实现职位画像的指导性作用,职位画像的结果需尽可能的客观有效,画像的构建过程应遵循以下的四种原则:

(1)基于业务模型。画像的构建不是没有目的性的、盲目的构建,而是需要以业务需要为指导进行针对性的构建。

(2)全面原则。基于业务模型构建职位画像,维度的选取应尽可能多方位的、全面的,不可有所偏重。但也并不代表标签是越多越好的,而是要基于业务模型的,选用有价值的标签去定义职位。

(3)真实原则。在数据采集过程中,数据的收集需要基于前程无忧中真实存在的职位信息,并且要对数据去空、去重,但不可过度加工。

(4)时效性原则。在数据采集过程中,要保证采集的数据是真实并且是新发布的数据信息。

1.2 职位画像维度设计

职位画像的字段决定了构建画像过程中的数据表现方式,进而决定了数据挖掘模型的有效性和信息量。本文在进行数据爬取时包含字段如表1所示,本文研究除了针对基础字段的统计分析之外,还包括对维度之间的关联关系进行分析。

1.3 职位信息的选择范围

首先,根据我校信息专业人才培养和人才输出的去向进行分类,大致分为技术类、管理类和技术与管理交叉类。其次,在三大门类的基础上对于职位进行细分,技术类分为后端开发、移动开发、前端开发、测试、运维、DBA、大数据这7种职位方向,管理类分为IT管理、信息系统管理、物流供应链管理这3种职位方向,技术和管理交叉类分为电子商务、ERP这2种职位方向,基于以上的12个职位关键词进行检索,设置搜索范围为“全国”及“全职”。

2、信息专业相关职位数据获取

2.1 数据源的选择

2018年4月,中国品牌评级权威机构Chnbrand发布了2018年第八届中国品牌力指数(C-BPI),前程无忧以716.4分的绝对优势荣获中国品牌力指数招聘门户网站行业品牌力第一名,综合性招聘网站的代表性平台——前程无忧具有信息海量且品类齐全的特点,涵盖的企业知名度较高、职位数目可观,企业的资料丰富度高,由此本文选择对前程无忧(51Job)相关数据进行收集。

2.2 数据抓取过程

(1)开发环境: Windows 10 64bit、Python3.6、Scropyl.5、Visual Studio Code

(2)开发过程:首先,创建一个新的爬虫工程;其次,在items.py文件中定义要解析具体数据的ltem结构,在pipelines.py中对数据的存储功能进行实现,并将收集到的数据保存在.excel文件中;最后,在51Job.py中通过css选择器获取网页中的所需数据。

2.3 数据抓取结果

本文以信息专业为例,对该专业的对口职位信息进行分析以构建全面的职位画像。具体爬取的项目及条数如表2所示。

3、职位画像实现及结果分析

3.1 维度之间相关关系设计

(1)职位一学历要求一经验要求一技能。通过分析不同职位信息的学历要求和经验要求,得到該岗位更看重学历、经验还是均看重,并得到不同类型岗位对技能的要求情况。

(2)职位一城市分布一平均薪资。通过分析不同职位信息的城市分布情况,得到不同职位哪些城市的需求量较大并且薪资分布情况如何。

(3)公司类型一平均薪资。通过统计不同类型公司的平均月薪,分析出公司类型和公司规模对于平均月薪的影响情况。

(4)职位类型一平均薪资。通过统计不同类型职位的平均月薪,分析出职位类型对于平均月薪的影响情况。

(5)各类职位的占比分布。统计出三大类职位的招聘数目以及三大类下属的各小类职位的招聘数目,可从此看出哪类岗位需求量较大。

(6)行业类型分布。统计出信息专业所有对口职位的公司行业类型,分析出主要行业类型分布。

(7)公司类型分布。统计出信息专业所有对口职位的公司类型,分析出主要公司类型分布。

3.2 技术类职位画像结果展示与分析

(1)职位类型一平均薪水。技术类职位中细分为前端开发、移动开发、后端开发、测试、运维、DBA和大数据7种岗位,将维度字段设置为职位类别,将数值字段设置为平均薪水,分析职位类型与平均薪水之间的相关关系。分析结果如图1所示,通过雷达图展示出职位类型与平均薪水之间的相关关系,可以看出DBA方向、大数据方向、移动开发方向的平均薪资较高。

(2)公司类型一平均薪水设置维度字段为公司类型,数据字段为平均薪水。通过饼图展示出公司类型与平均薪水之间的相关关系,由图2可知事业单位、国企、外资(欧美)等公司类型的平均薪水较高。

(3)学历要求分布通过汇总统计技术类全部岗位的学历要求,再通过柱形图展示出技术类岗位对于学历的要求情况,由图3可知,技术类岗位更青睐于本科和大专的求职者,且二者分布几乎不相上下,对于高学历求职者并没有表现出太多的偏好。

(4)经验要求分布通过汇总统计技术类全部岗位的经验要求,再通过柱形图展示出技术类岗位对于经验的要求情况,由图4可知,技术类岗位对工作经验没有太多要求,对于具备8-9年以及2年的求职者也表现出了一定偏好。

(5)技能要求分布本部分研究采用Python中自带的分词工具jieba分词进行文本挖掘,以后端开发、测试、前端开发、DBA、运维和移动开发相关职位数据作为样本,提取出职位要求中的技能关键词,并统计其权重,最后通过树图进行数据展示,以后端开发岗位为例,结果如图5所示。

后端开发类岗位技能要求排行为:web>javo>jovascript>js>css。

(6)技术类职位综合画像通过分析技术类职位类别一平均薪水、公司类型一平均薪水、学历要求分布、经验要求分布、技能要求分布构建出技术类职位综合画像,如图6所示。 4、结论

本文以信息管理与信息系统专业为例,通过数据挖掘技术将相关岗位的结构化数据信息进行收集、预处理和分析,得到各类职位信息中薪资水平、工作年限要求和岗位数量等数据的波动情况,并预测短时间内的发展趋势。通过文本挖掘技术对众多相关岗位非结构化的文本信息进行收集、整理并分析,挖掘出相关职位对应聘者知识和技能的需求,包括对基本职业能力、专业技能、学位及学科背景知识的要求等,研究结果将对个人的专业知识构建、职业素养的形成等具有重要的指引作用。

参考文献:

[l]杜华云.电子商务专业人才培养定位行业企业调研与分析[J].电子商务,2018,(07):59-62,84.

[2]刘庸.互联网和大数据时代国有大型文化企业招聘转型研究[J].人力资源管理,2018,(03):272-273.

[3]蔡文杰,李悦,王伟军,丁洁兰.信息管理与信息系统专业本科人才市场需求分析——基于网上招聘的内容分析[J].图书馆学刊,2009,31(08):18-20.

[4]夏立新,楚林,王忠义,等.基于网络文本挖掘的就业知识需求关系构建[J].图书情報知识,2016,(01):94-100.

[5] MACELI M. What Technology Skills Do Developers Need?A Text Analysis of Job Listings in Library and InformationScience (LIS) from Jobs.code41ib.org[A]. InformationTechnology&Libraries,September 2015,34(3):8-21.

猜你喜欢

文本挖掘数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
基于R的医学大数据挖掘系统研究
慧眼识璞玉,妙手炼浑金
文本观点挖掘和情感分析的研究