APP下载

基于大数据挖掘的警校大学生公务员成功考取预测模型研究

2017-07-29吴剡青韩佳宏金渊涛陈佳鑫贾祖星

电脑知识与技术 2017年12期
关键词:预测模型数据挖掘

吴剡青 韩佳宏 金渊涛 陈佳鑫 贾祖星

摘要:警察院校大部分毕业生以考取公务员为主,为提高警校大学生公务员成功考取率,本小组进行问卷调查,使用spssstatistics和excel清洗、转换、整合数据,建立警校大学生成功考取公务员数据集。将现有的经典的具有普适作用的关联规则挖掘算法(如Apnon算法、FP-Growth算法)应用于警校大学生成功考取公务员数据集,设计适合这一主题的数据关联分析算法和数据挖掘算法,使用训练集用来估计模型运用spssmodeler、IBMWatson analytics构建多个模型,使用交叉验证选择最优模型,在R、python语言环境下对警校学生日常行为在网上进行爬虫、使用测试集来检验最终选择最优的模型的性能,不断验证模型性能,形成生态链条。最终出具调查报告,进而根据调查报告做出针对警校大学生公务员成功考取预测。

关键词:警校生;数据挖掘;预测模型;公务员考试

中央司法警官学院作为司法部直属司法部直属的唯一一所普通高等院校的警校毕业生,在全国公安院校拥有多种就业政策对比下,中警院的毕业生没有太多便利条件,我校大部分的毕业生在公务员考试时需要放弃自身专业的优势与社会招考的考生一起竞争为数不多的岗位,面临着失去专业优势,自谋出路巨大就业压力

为提高警校大学生公务员成功考取率,本小组使用大数据挖掘技术,建立预测模型。根据预测结果,为毕业生报考公务员提供决策支持为新人学的新生在大学四年所在的不同阶段的学习提供规划指,为将来的工作做好职业规划,并为我校的教学部门和管理部门探寻针对警校大学生更加有效的管理模式和教学方式提供帮助。我们对调查问卷的数据进行处理分析后得到的初步调查结果。

1我校考生的大学个人履历调查

1.1学生参与活动调查

我们通过调查问卷调查学生参与活动情况,来调查参与活动是否对考公务员有所帮助,调查结果见图1所示。在图1中,有31.1%的毕业生,认为专业知识竞赛对考上公务员最有帮助。作为警校学生,在大学所学的专业知识基本于实际工作中的业务接轨,有很强的联系性。参与专业知识竞赛能巩固自己的专业知识,提高自己的专业水平,而其中脱颖而出的优胜者更受到用人单位的青睐。占到21.3%的科研创新项目竞赛也同样如此,这样的活动一是培养了学生的学习能力、科研创新能力,二也证明了学生出类拔萃的综合素质,为用人单位在面试时提供参考。辩论大赛之所以能有19.5%这么高的比例,那是应为公务员考试需要进行面试,在笔试中也有诸多考察逻辑能力的考题,所以这也是学生认为一个值得参与的重要活动。

因此我们在这建议学生在大学期间应该多去参加以上这3种活动,来提高自己的能力,为将来的公务员考试作准备。当然别的小比例的如运动会、创新创业大赛、歌舞大赛活动也可以多多参与,结交朋友陶冶情操,毕竟读大学的目的不单单是为了考公务员。

1.2学生心中最重要的个人资质和证书调查

在大学的四年中学生会考取许多证书和取得各种资质,我们想找出哪些证书资质是对公务员考试是有用的哪些是无关紧要的,所以我们对学生心中最重要的个人资质和证书进行调查,调查结果见图2所示。

在图2中,学生心中最重要的个人资质和證书是大学英语四、六级占其中的48.3%,其次是司法考试占30.2%,党员占30.2%,计算机二级占22.1%,驾照占14.9%,心理咨询师占12.2%。由此我们可以直观地了解到在大学期间最重要的3个证书资质分别是大学英语四、六级证书、司法考试证书和党员。在我们看来公务员考试很大程度上是以学历为基础,以能力和证照为标准的人才选拔机制。学院考公成功的同学们,认为党员、大学英语四、六级、计算机二级和司法考试等证书非常有用。资质和证书,在某种程度上代表了能力的高低和大小。在对手和自己能力不相上下时,资质和证书的含金量和数量很可能会成为你打败对手的杀手锏。因此,我们建议尽可能多的考取一些社会热门、用人单位急需的(含金量高)的资质和证书,对考公轻松胜出是很有帮助的。

2我校考生复习迎考策略和技巧

由于公务员考试每年热点考题、题型都会有一定的变动,所以我们为了提高学生公务员考试成绩,为了更有效率的复习迎考,我们就公务员考试复习迎考策略和技巧进行调查。

2.1准备公务员考试的方法

我们调查了绝大部分毕业生公务员考试准备阶段的学习方式,以比较出最有效的学习方式供同学们参考,各方法所占比例,见图3所示。

在图3中,有36.16%的学生的学习宗旨是计划明确,瞄准真题,掐时练笔,查漏补缺,这种学习方式可以给自己带来非常高效的学习效率,并且可以在学习的同时养成良好的学习习惯,使自己在考试中不丢冤枉分。其次是占24.29%的人积极利用网络公务员考试平台信息,通过此方式可以及时获得最新的公务员考试信息和一些地方政府的政策,使自己可以全方位的去挑选适合自己的岗位,最大限度的发掘自己的潜能。参加学院开设的公务员选修课,在老师的指导下学习也占到19.2%,说明这也是一个非常有效的方法,通过老师传授自己多年的经验,可以使自己在公务员考试中少走弯路,将精力留在最正确的环节上。漫无目的的题海战术也占到6.92%,这种低效率低质量的学习方式经调查是不可取的,所以我们要去寻找最有效的学习方法。

所以我们希望同学们可以将高效率高质量的学习方法相结合,使它们互相贯通,已达到学习效率的最高境界,这样才能使自己在公务员考试中马到成功。

3我校警务化管理、警察特色教学的影响

中央司法警官学院作为一个警察类院校,采用警务化管理和警察教学,有着其他地方院校所不具备的特色,所以我们就警务化特色管理、警察教学带来的对学生公考的帮助进行调查,调查结果见图4所示。

这一调查采用不定项选择题进行测试。在图4中,所有学生中有83.67%的人认为警务化特色管理可以使自己有规范得体的行为举止和昂扬向上的警察精神风貌,帮助自己考公务员。有77.56%的学生认为警察特色教学强化了政治意识、警察意识和法制意识,此外64.29%的学生认为这样的特色大学学习对参加招考警察类公务员体能测试(警务技能)帮助很大,还有66.33%的学生因此具备了很强的时间观念和效率观念。

由此看出学院警务化管理对学生考公帮助很大,主要集中在思想建设、风貌举止和体能锻炼三个方面。这说明学院的警务化管理模式是一种科学的管理方式,能够实现教育和管理的有机结合,帮助学生养成准警察、准公务员的良好行为习惯。因此,我认为学校可以从公务员就业标准和考公要求的角度,突出专业优势,进一步探索科学发展、健全完善学院警务化管理的教育内容和管理方式。

4警校大学生公务员成功考取预测

4.1选择算法,构建模型

我们科学地剔除噪音,确定对于成功考取公务员重点因素之后,进行模型的设计。不用类型数据的数据使用不同的算法进行建模。结构化的数据(学生的個人成绩,个人学习时间)使用逻辑回归构建模型。半结构化的数据(学生的日常行为记录)和非结构化数据(面试过程,复习过程)使用决策树或者支持向量机svm构建模型。

对于结构化的数据例如考生的国考成绩与复习时间的长度之间的关系等等我们先将两种数据挑选出放入一个Excel中,使用spss modeler选择线性回归算法对数据进行建模。在图5中10小时的复习时间能达到148分的峰值,达到效率最大化。从复习10小时到复习12小时的成绩呈现下降趋势,成绩148分能滑落到136分这样一个谷值和复习5个小时的成绩持平。而从复习5小时到复习12小时成绩呈现上升趋势是一个效率提升的过程。

对于半结构化的数据,我们筛选出适合决策树算法的出关系显著因子,分为三个方向:个人履历优势、特色教学优势、考试复习策略,在个人履历优势中存在4个因子分别是:是否担任过学生干部、突出素质特长、在校期间是否获过重大奖项、在校期间是否经常参加活动,在特色教学优势中存在2个因子分别是:警务化管理是否有帮助、所学专业是否有就业优势,在考试复习策略中存在2个因子分别是:报网课还是面授课、准备公考是自学还是报班。构建决策树模型,做出预测符合以下两种情况的学生具有大概率成功考取公务员:

情况1:担任学生干部,自学复习公考,逻辑思维强口才出众,体育好身体素质出色,精通政治理论文笔好,服从警务化管理的学生;

情况2:担任学生干部,报班复习公考,上面授课,逻辑思维强口才出众,体育好身体素质出色、精通政治理论文笔好的学生。

4.2测试模型,构建生态链条

我们会使用python语言编写代码在校园网、贴吧、微博、人人网上对警校生日常行为进行爬虫,构建一个动态数据测试集同时加入时间序列模型来检验最终选择最优的模型的性能,。

同时由于公务员考试每年政策的改变,会有不同的热门考点,因此我们会根据每年不同情况,将测试集的反馈结果,在作为重要因子重新放人模型中,训练模型,不断优化模型性能。使模型能自我学习,形成一个构建一测试一反馈一构建的生态链条。

猜你喜欢

预测模型数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于矩阵理论下的高校教师人员流动趋势预测
基于支持向量回归的台湾旅游短期客流量预测模型研究
基于神经网络的北京市房价预测研究
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究