APP下载

聘大数据信息提取

2018-01-03方利胜

科技创新与应用 2018年33期
关键词:大数据

方利胜

摘 要: 随着互联网的广泛应用,利用网络平台进行招聘已经成为用人单位的主流招聘形式。面对海量的应聘简历,有效的提取并筛选应聘信息成为用人单位招聘工作的重点和难点。文章从用人单位制作招聘信息表及后续应聘大数据筛选两个方面着手,应用Matrixlaboratory(MATLAB)编程语言对应聘信息进行提取和筛选,从而快速统计不同需求所关注的应聘信息。

关键词:应聘;大数据;信息提取

中图分类号:TP311 文献标志码:A 文章编号:2095-2945(2018)33-0031-02

Abstract: With the wide use of the Internet, using the network platform for recruitment has become the mainstream form of recruitment. In the face of a large number of resumes, the effective extraction and screening of information has become the focus and difficulty of the recruitment work of employers. This paper starts from the following two aspects: making the recruitment information form and screening big data, using the Matrixlaboratory (MATLAB) programming language to extract and screen the application information, so as to quickly count the application information of different needs.

Keywords: application; big data; information extraction

引言

随着互联网的广泛应用,利用网络平台进行招聘已经成为用人单位的主流招聘形式。面对海量的应聘简历,有效的提取并筛选应聘信息成为用人单位招聘工作的重点和难点。Matlab 是美国MathWorks 公司推出的一套高性能的数值计算和可视化科学计算软件,是目前国内外高校和研究部门进行科学研究的重要工具。Matlab包含数百个内部核心函数[1],是目前用于信息统计的主要手段之一。本文应用(MATLAB)编程语言对应聘信息进行提取和筛选,从而快速统计应聘信息。

1 招聘信息表

为了保证后续招聘信息的提取,建议先将招聘所需要的关键信息制作成规范表格,主要内容应包括姓名、出生年月、性别、政治面貌、籍贯、毕业学校及专业、联系方式。同时,在网络招聘平台上,招聘单位应注明不按标准格式提交基本信息表不予入围,如表1所示。

待应聘者提交表格后,利用xlsread[2]及dlmwrite[3]命令将所有应聘者关键信息统计到一个excel表格中,如表2所示。

2 简历筛选

为了方便后续统計应聘人数及筛选人员,应要求应聘者用姓名命名简历。由于有的应聘者未按标准格式提供基本信息表,这部分人员的信息将不会统计到表2中,因此,会出现基本信息表中的人员与简历个数不一致的情况,需要将未统计入表的人员简历删除。利用dir命令读取简历的文件名,用xlsread命令读取信息表中人名,通过for[3]循环确定简历人名是否在信息表中,若在,提取信息表中的序号,用copyfile[3]重新命名简历文件,新文件名为“序号 人名”,若不在,则简历新文件名为“nonum人名”。在编程过程中,应注意,由于人名存在2个字、3个字甚至4个字的情况,因此在人名对应时,应先用if[3]命令判断人名字符数,再进行比对。执行命令语句后,在目标文件夹检查筛选后的简历,有如下两种情况,第一,简历名称为“nonum 人名”,直接删除该简历;第二,简历名称前的序号中断,导致这种情况发生的原因有两个,一是信息表中对应缺失序号人员的简历未下载,二是存在应聘者重名现象,这种情况需要根据信息表中的序号重新命名。在信息表信息与简历信息一一对应后,打印简历的排序即为信息表人员的排序,方便以后对应查询。

3 特定信息提取

有时需统计所有应聘人员的特定信息,如统计本次招聘共涉及到的学校数量、专业类别、男女比例等。利用xlsread命令读取相应关键信息列,对于学校及专业列,通过if命令识别“大学”或“学院”字符来间隔单元格内信息,最后将提取的信息用xlswrite命令写到新表格中。

4 结束语

目前利用网络平台进行招聘已经成为用人单位的主流招聘形式。面对海量的应聘简历,有效的提取并筛选应聘信息成为用人单位招聘工作的重点和难点。从应聘者提供的电子简历到对应聘者进行面试,中间的工作量巨大。简化工作内容并提供关键信息成为用人单位关注的重点。另外,对于每次招聘,用人单位也希望从各个角度分析招聘工作存在的不足,因此,特定信息的统计成为招聘工作必不可少的环节。本文从用人单位制作招聘信息表及后续应聘大数据筛选两个方面着手,应用(MATLAB)编程语言对应聘信息进行提取和筛选,从而快速统计不同需求关注的应聘信息。本文应用的基础在于应聘者应按照招聘单位的要求提供信息,对于重复规律性的工作,利用计算机编程语言可以大大提供工作效率,随着各个行业大数据的产生,结合计算机简化工作内容必将成为各行各业发展的趋势。

参考文献:

[1]郑喜英,孔波.基于Matlab的概率统计教学研究[J].河南教育学院学报:自然科学版,2014,23(1):56-60.

[2]寇金宝,洪林,李德胜.实现MATLAB与Excel数据交互的一种可行方法[J].天津职业大学学报,2010,19(2):93-95.

[3]张志涌,杨祖樱.MATLAB教程:R2010A[M].北京航空航天大学出版社,2010.

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索