APP下载

大数据背景下高校招生策略预测

2020-09-06朱莉

数码世界 2020年8期
关键词:大数据

摘要:现如今,各高校招生计划不断扩大,招生的办法也越来越多样,各地区高校之间招生竞争也越来越激烈。为了保证生源数量和质量,高校把招生前的宣传工作作为吸引生源的主要方法,这就需要高校在网络高速发展的今天,以大数据为依托。首先定位生源对象,再结合云计算技术中的计算模型和框架来分析高校过去年份招收的生源对象情况,可以利用并行随机森林来预测招生的策略,这种方法在数据的采集上要比一般的预测树更加优越。

关键词:大数据;高校招生;策略预测

在高校招生信息多元化、生源招生日趋激烈、计算机技术高速发展的今天,想要确定一个准确适宜的招生策略,需要大量数据的整合与支持,但是当今所能参考的信息有一个数量庞大的数据库,统称为招生信息大数据,且这些数据已经不足以满足日益增长的信息需求,这就需要对高校招生进行策略预测,在众多专业学者的研究下,我国总结提出了高校招生策略的預测方法,本文就通过Hadoop平台来分析随机森林算法这一有效利用方法。

在云计算的所有应用技术中,Hadoop是最准确最先进的技术,是管理大数据和实现数据并行处理的最主要技术。它是一个开源式软件构架,它的焦点内容是分布式文件系统和并行式计算模型。

根据云计算技术的构造和数据处理的具体工具,再利用高校实际招生的数据资料,按照以保存、分析、计算为主的模式来创建高校招生数据云平台,其中包括数据的采集、保存、整理计算以及再应用等几个系统,它是Hadoop技术的具体体现形式,通过建立大数据存储系统和内存并行计算技术,共同组成数据分析计算系统,能够迅速又合理地对高校招生数据进行计算与评估。

该系统主要把高校的招生数目、学生毕业分数、专业分类等所有来源不尽相同、数据种类不一、模态也完全不同的招生数据作为数据的子集,构成了大量的异构数据。再通过数据整合技术,把这些数据移动到Hadoop的集群中,把所有数据进行统一的存档与分类管理。

数据仓库中的所有数据资料都存储于Hadoop的集群当中。它首先要对搜集到的所有高校往年的招生数据进行原始数据的阶段处理,包括清理、抽取、整合等环节,待把这些预处理工作完成后,再把数据分门别类提取到数据仓库,此过程能够进一步保证数据仓库里的所有数据都是分类明确的全局信息。

云平台主要运用并行化计算模型MapReduce对招生数据进行挖掘并合理分析,它能够为使用者展示出大量设计性强的并行计算软件结构,能够在集群中利用计算任务将数据自动分类再把集群中的所有数据资源完成自动任务分配,而且还可以自动完成监控任务,最后再把集群中的所有计算结果统一收集起来进行存储。所以,此种计算模型把数据的计算与存储、数据的通信、数据的容错率等这些操作困难的细枝末节全部集中在软件上解决,大大减轻了软件的开发困难,提高了用户的办公效率。紧接着,另一个并行化计算模型Spark再对庞大的数据进行迭代式计算,它主要是以内存集群和Hadoop为基础再经过改良演变而成的集群计算系统。在这其中,所有运行过的中间数据都统一在内存中进行存档处理,这对于迭代式计算方法完成的更好具有很大的用处。

云服务计算平台中提到:用户应用就要为用户提供优质服务,并以应用即为服务的原则作为支撑,数据应用系统在实践中主要体现在为高校招生预测提供优质的服务,主要有:利用文件夹的方法为各个地区的高校招生计划发送数据一览表、为高校专业分类提供建议、招收学生所在地选取、招生宣传攻略等众多应用服务。

在当前大数据的运用阶段,主要运用决策树等不同计算预测进行分析整理,其中决策树这一方法近些年来得到了细致分析与研究,且应用效果也绝佳。随之演变出来的随机森林预测计算方法,综合了不同分类的回归树进行集中分类预测计算,为随机森林算法做到并行化数据提供了重要条件。每当输入一个样本数据,不同的决策树会产生很多个计算结果,再通过软件内部投票形式对所有计算结果进行集中分类得出结论。随机森林的最大优点就是使并行化实现更加便捷,它集中了决策树的所有优点,使计算效率提高了很多倍,更增强了算法对数据整理的独特处理能力。

多个决策树的集合为随机森林算法的应用实现提供了前提条件。与此同时,袋装算法和随机子空间思想也为它提供了具体的理论基础。其中,袋装算法主要通过概率分布的原理对数据进行集中抽样并放回,在进行数据抽样时,设定有三分之一的数据不可被抽到,这些数据无法进行数据计算训练,剩余的部分主要是为数据的泛化能力做进一步实验使用。袋装算法能够使随机森林算法并行完成计算全过程。而随机子空间思想则是指在决策树进行不同节点的各个属性抽样时,能够在不被其他因素的影响下把所需要的样本快速提炼出来,过程非常随机化,所以数据可以同时并行地被抽取,从而让几个决策树一起生成。这两者使随机森林算法同时进行计算生成,且预测更加准确、迅速,对于数据的处理能力非常强大。

在大数据研究的背景下,通过国内外研究学者的实验结果可以得出,对于高校招生的大量数据,通过Hadoop并行式随机森林算法模型来对这些数据进行分类整理计算,能够令数据分析速度和大数据处理能力迅速提高,预测性也更强,能够对高校招生策略进行准确预测。

参考文献:

[1]于春,柳柳,徐晓丽.在读大学生在高校招生宣传体系中的独特优势及策略研究——以南京农业大学大学生回访母校为例[J].教育教学论坛,2020(17):35-36.

[2]唐玉生.基于考生反馈的高校招生宣传策略研究[J].湖南科技大学学报(社会科学版),2020,23(02):164-169.

[3]王金超,李佳思,曹建民.高校大类招生模式实践运行中存在的问题及其优化策略[J].轻纺工业与技术,2020,49(02):102-103.

[4]蔡何智.高职院校招生工作的创新策略探讨[J].创新创业理论研究与实践,2019,2(17):168-169.

朱莉(1976.10.23),女,汉族,江苏省明达职业技术学院,招生就业处,邮编224300,研究方向:高校招生工作和行政管理工作。

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索