APP下载

基于大数据的成绩数据分析平台设计与实现

2021-08-09胡雅祺王海丰彭鑫

新型工业化 2021年2期
关键词:班级分析教学

胡雅祺,王海丰,彭鑫

(海南热带海洋学院 计算机科学与技术学院,海南 三亚572022)

0 引言

得益于信息技术的兴起及发展,信息获取方式,记录手段及存储媒质都发生了质的变化,因此产生的数据正以前所未有的速度飞快增长和累积。随着数据的大爆炸,数以万计的数据信息已成为一种战略资源,而大数据分析的目的就是从这些数据中挖掘信息、分析趋势、提供决策支持。“大数据”技术将是未来高校教育领域最重要的变革手段。

随着教学信息化的发展,绝大多数的高等院校都在通过不同的信息系统进行办公处理,教学数据不断在累积更新。在教学数据中,学生相关信息的数据存量也以几何倍数增加。在这些数据中,数量不仅仅指的是数据本身的绝对数量大,还包括了数据的全面性,完整性及综合性。以成绩数据为例,现高校对学生的成绩考核已不仅仅是期末成绩为主,更加注重过程化考核,其中有学生学习行为数据(如考勤打卡,在线访问次数等)、学生成绩数据(如期末成绩,作业成绩,排名等等),以及学生交互数据(在线互动情况,讨论内容,发贴次数等等)。大数据技术对数据分析处理的速度对提高教学反馈效率有所帮助,通过数据分析可以及时得知异常信息,使教学相关人员及早了解,跟踪。教学信息海量,但存在大量不相关信息。因此需要对教学数据作预测分析,判断趋势及规律,虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。结合大数据的4V特点,大数据技术可以为教学数据提供可预测性,可趋势化的客观分析,通过分析真实有效的数据帮助教师和学校教学相关部门形成科学和快速的决策。

本文提出一种高校学生成绩分析大数据平台,为高校教学数据分析提供一种新思路,在高校建立成绩分析的大数据平台,利用海量的成绩数据进行数据挖掘、清洗、分析,为教学部门提供决策依据,为教师和学生提供更智能、便捷的信息化服务。

1 成绩数据分析平台设计

基于 Hadoop 分布式平台的学生成绩数据分析平台系统总体分为三个部分:数据采集,数据处理以及数据展示。学生成绩数据分析平台主要的功能是实现学生各类学习数据的收集,并根据教学需求对数据进行挖掘分析,生成趋势化的可视图表,便于发现总结学生成绩,以及实时的发现异常信息。学生成绩数据平台总体功能模块图如图1所示。

图1 总体功能模块图

1.1 成绩数据采集

本系统测试的实验数据来源于计算机公共基础课程的学生成绩系统、在线答题系统等数据。计算机公共基础课程成绩数据体量大,类型复杂。其中结构化数据主要存储在 Oracle、Sqlserver、Mysql等数据库中,各个教学平台中的数据基本以结构化数据为主;非结构化数据有些以 blob存储在数据库中或直接存储在文件系统中。

平台每一天采集一次数据,为了分类方便,用当日时间作为目录来划分采集到的数据,对Flume进行配置。由于Hadoop技术处理海量的小文件有所欠缺,故平台对Flume进行编辑控制,使Flume每天传递一次数据。数据采集的流程是由Flume监听数据源,再将数据源新产生的数据传递到HDFS上储存。

1.2 成绩数据处理

通过对采集到的学生成绩数据进行研究分析,发现关于学生的成绩数据记录中存在很多没有意义的数据,因此需要对原始的成绩数据记录做如下预处理:考虑到Hadoop的性能,首先对数据进行清洗,使用 MapReduce对源数据进行预处理,将处理好的数据放入到 HDFS中。结合本平台的特点,设计方案中采用MapReduce算法,数据清洗是通过编写的MapReduce程序来读取HDFS上的数据文件,去掉无用的字段、乱码,将数据整理干净。还要对一些缺失值数据进行清洗,利用学生的成绩不为空的理想情况下,数据集中的每条记录都应该是完整的。在数据集中,若某记录的属性值被标记为空白或null等,则认为该记录存在缺失值,是不完整的数据,MapReduce程序对于这些数据进行删除处理。

对处理过的成绩数据导入到 Hive 数据仓库中并按天进行分区,并通过 HQL 语言对 Hive 数据仓库中的数据进行查询统计分析。然后配置crontab定时器文件,每日夜间无数据访问时定时运行。

最后将 Hive进行查询分析后的结果数据导出到 Mysql 数据库中用于学生的成绩分析模块。数据处理整体流程图如图2所示。

图2 数据处理整体流程图

2 数据可视化展示

数据可视化是目前最流行的一种方式,将复杂的数据信息转换成易于理解,易于消化的图表展示,直接而客观的展现数据处理的结果。

计算机公共基础课程是一门注重实践应用能力培养的课程,而学生掌握其应用能力的方式就是“多练”,以计算机公共基础课程作业数据为例,通过 Hadoop 搭建的平台对学生的行为数据进行记录观测,对现有的学生作业答题数据进行分析,通过获取学生登录平台的IP地址,登录次数统计每日学生登录平台的练习次数来了解学生的答题频率以及衡量系统的访问量。机器IP的具体访问次数数据以降序排列,如图3所示。

图3 学生访问作业系统次数

该数据分析平台不仅仅是对学生的学习行为数据进行分析,还可根据学生的成绩数据分析得到不同学科的及格人数以及不同班级学生的完成情况等,统计后的数据能让老师了解每个班级的完成情况以及班级内同学的完成情况以此来判断整体教学情况,不同学科的及格人数统计如图4所示;不同学科的学生通过率如图5所示;班级完成情况人数统计如图6所示;班级作业完成率统计如图7所示。

图4 不同学科及格人数统计

图5 不同学科的学生通过率

图6 班级完成情况人数统计

图7 班级作业完成率统计

3 总结

基于大数据的学生成绩数据分析平台是在目前较流行的Hadoop开源平台下进行的。以本校计算机公共基础课程的实际情况为例,设计了基于Hadoop 的大数据平台,并搭建集群环境,进行学生成绩系统数据和Hive之间的数据交互测试,为进一步展开大数据分析做好准备,为本校建设成绩分析平台提出一种设计方案,为高校教学分析建设提供一种新思路。利用这些“大数据”建设结构和非结构化的数据分析平台,通过平台利用大数据手段将大量的学生学习行为数据,成绩数据,交互数据等转换成有效的教学信息,把数据深层次的价值挖掘出来,通过图表的可视化展示讯速的发现影响学生学习成绩的关键因素,帮助教师与相关部门及时进行教学干预,辅助教学决策,并可形成趋势化报告,以促使学习提高学习质量,督促教师优化教学方式,实现教学管理、教学过程、自主学习的三合一融合。

猜你喜欢

班级分析教学
班级“四小怪”
隐蔽失效适航要求符合性验证分析
微课让高中数学教学更高效
如何构建和谐班级
电力系统不平衡分析
“自我诊断表”在高中数学教学中的应用
对外汉语教学中“想”和“要”的比较
电力系统及其自动化发展趋势分析
不称心的新班级
班级被扣分后