APP下载

基于数据挖掘的学生学业预警研究

2018-01-08邱鑫仪沈良忠

电脑知识与技术 2017年36期
关键词:统计分析决策树数据挖掘

邱鑫仪 沈良忠

摘要:随着高等教育的大众化,做好教学质量管理成为高校普遍面临的重大课题。通过高校学生的学业预警制度能够调动学生主动学习,提高教学质量。该文针对我校信息工程学院2016、2017届学生的学习成绩,通过统计分析和分类分析深入挖掘影响学生预警的相关课程,为高校及时的做好学业预警管理工作提供支持,提醒学生更好地准备课程考试。

关键词:数据挖掘;预警;统计分析;决策树;Weka

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)36-0226-02

Abstract: With the popularization of higher education, the teaching quality management has become a major issue faced by the universities. Through the early warning mechanism toward university students, we can mobilize the positivity of the students and improve teaching quality. Based on the score data of 2016 and 2017 students in school of information engineering, this paper mines the courses related to the students early warning by means of statistical analysis and classification analysis, which provides support for the work of early warning and reminds the students to better prepare for the course exams.

Key words: Data mining; Early warning; Statistic Analysis; Decision tree; Weka

1 概述

自从1999年高校開始实施连续扩招政策以来,高校的学生在数量明显增加的同时生源质量也开始逐步下降,使得高校的学生管理和教学管理工作难度加大,针对这一现象各高校都适时地推出了学业预警制度,以期提高学生学习的主动性,同时降低教学管理的复杂性。2012年,我校教务处通过数据统计发现,近三年出于各种原因不能按时毕业的学生人数呈现上升趋势,因此在当年就拟定并发布了学业预警制度,每学期末都会启动学业预警工作,及时对学习存在困难或者故意旷课的学生予以提醒,甚至告知其家长,较好的达到了预期的效果。当前,信息技术的发展使得教学管理的信息化逐渐完善,各高校基本建立了自己的教务系统,基本实现学生成绩的电子化管理,但是对于系统中学生成绩等数据的深度利用工作还处于起步阶段。因此,如何通过这些数据挖掘出可能潜在的价值,对教学管理工作具有重要的参考意义,不少学者针对学生学业预警进行了相关研究。

王凯成运用4种数据挖掘算法对在读学生进行绩点预测,从而根据学生的学业表现预先获知其毕业时的平均绩点情况[1]。陈衡利用数据挖掘技术,针对成绩预警设计了三种模型,使学业预警更具实用性和有效性[2]。宫锋将数据挖掘技术应用于学生“学业预警”,对高校学生的学籍信息数据和学生日常表现数据进行数据挖掘,分析出学生预警的影响因素并建立相应学生学业预警的决策树,为教学管理、学生管理提供数据支持[3]。朱东星通过应用关联规则Apriori算法发现各科成绩与学生能否顺利毕业之间的内在关联,为学校的教务管理工作提供了支持[4]。

本文以我校信息工程学院的学生成绩数据为例,通过统计分析以及数据挖掘方法对学生的成绩进行研究,获取学生预警工作的转化关系,并在此基础上分析预警学生共有的特征,挖掘其中隐藏的规律。

2 数据准备及统计分析

2.1 数据准备

我校目前依然实行学年学分制,每一位学生都必须修得规定的学分才能毕业。如果学期中,某门课程没有通过就无法获得相应的学分。按照学校预警文件的规定,不及格学分超过每学期总学分的30%就要实施学业预警,学业预警在第二学期期初补考考试完成之后启动,补考通过的课程将不再记录。本文以信息工程学院2016、2017届学生为例,课程成绩数据只包括大一到大三的6个学期。学生成绩从学校教务系统导出,针对部分同学的成绩缺失情况进行记录删除,最后保留199条2016届学生、192条2017届学生成绩,同时通过对学生成绩的分析,删除相关的选修课程保留必修课程,主要由公共基础必修课和专业必修课、学科基础课组成,从中汇总预警学生的基本成绩数据,包括学号、姓名、预警门数、预警专业、预警班级,相关的预警学生成绩数据结构如表1所示:

2.2 统计分析

统计分析作为统计学当中的一种常用的科学方法,被广泛地运用于各个领域,起着信息功能、咨询功能、监督功能、辅助决策功能的作用[5]。此处以2017届学生为例,通过对2017届信息工程学院各专业预警学生成绩的分析得出信息工程学院中预警学生主要出现在电气专业和计算机专业,而电子专业信管专业较少,如图1所示:

通过汇总发现,预警人数最多的学生集中在大一下学期,有22个人,在大二上学期有9个人出现预警,了解到从大一下学期开始,学生的课程数目增多、难度加深、专业性加强,学生难以适应,可以通过合理的教学安排适当减少课程数目、降低课程难度。通过汇总发现,2016届的学生存在同样的情况。大一下学期开始出现大量学业问题,但是后续随着学生适应能力的逐渐加强以及学校启动学业预警管理工作,帮助预警的学生通过补考等措施再次获得学分,使得总体预警学生的人数下降,效果明显。由此可见,高校对学生的预警工作应主要放在大一下和大二年级,可以通过减少课程难易程度、改进课程教学方法来降低预警学生的数量,同时预防大三年级学生的预警状况,以此保证大部分学生在大四毕业设计和实习之前能够顺利获得相应学分保证毕业。endprint

进一步对数据进行转化率、新增率等的计算发现,通过学校的及时预警大一下学期到大二上学期有72.73%的预警学生转化为正常学生,新增率从100%降低到33.33%,改善预警学生工作的措施发挥效用,趋势明显下降;大二上学期到大二下学期有88.89%的预警学生转化为正常学生,新增率由33.33%下降到0%,在转化预警学生的同时有效预防预警学生,大二下学期的预警人数没有增加。大二下学期到大三上学期,新增率增加到50%,转化率从88.89%到0%,可见针对转化预警学生的有效措施在大三上学期的效果最为明显,由于大三上学期开始,教学课程任务慢慢减负,部分学生对待学业有所松懈导致在大三上学期又出现了预警学生。具体的转换指标如图2所示。

由上可以发现,在大一下学期开始出现预警学生到大二下学期为止,转化预警学生和预防预警学生出现的工作做得卓有成效,虽然总体趋势转好,但是在大三和大四学期还是应该重点关注以往的预警学生,防止相关课程再次出现不及格,影响学生毕业。

3 数据挖掘过程

3.1 决策树的构成

数据挖掘就是从大量的、不完整的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。

本文采取数据挖掘任务中的分类分析,由于决策树的 ID3 算法只能处理离散化的数据[6],所以要对成绩数据进行离散化的处理,为了使数据挖掘更好地運用,选取预警学生最多的课程,主要集中在大学计算机、大学英语、高等数学这三类课程,根据每类课程是否拿到学分设为和“N”和“Y”,将该学生“是否预警”也设为“N”和 “Y”。需要说明的是,由于大学英语包括大学英语(一)到大学英语(四)的四门课程,所以只要有一门不通过,就将大学英语设为“N”,高等数学也是类似。经过数据处理,最终的以表2呈现:

3.2 基于决策树的分析

本文利用 Weka 软件中决策树 ID3 算法进行决策树分析,根据分类结果为“Y”或“N”提取分类规则。提取的部分代表性分类规则如表3所示:

由表3可知,信息工程学院是否预警的决策树的根结点都为高等数学,这说明高等数学在大学期间的重要性,其次是大学英语、大学计算机。因此,在高等数学未通过拿不到学分而受到预警的学生要在大学期间针对高等数学要好好地进行学习,在以后的补考、重修中通过,对于信息工程学院即将上高等数学的学生而言,可以事先进行预习,制定一些针对高等数学的学习计划或者对高等数学等课程开展分层分类教学、另外开设课程加强班等举措。

4 结束语

本文以信息工程学院2016、2017届学生现有的学习情况,运用统计、分类分析挖掘数据背后隐藏的规则,学业预警体现了“以学生为本”和全员育人的教育理念,针对不同学生的学业预警信息,可以有效监控学生学习状态,及时纠正不良学习行为习惯,对预警学生的学习状况进行针对性的管理、引导,提高高校学生的培养质量,减轻高校教师的工作压力。

参考文献:

[1] 王凯成. 基于数据挖掘的大学生学业预警研究[D]. 上海师范大学, 2012.

[2] 陈衡. 基于数据挖掘的高校学生成绩预警模型研究[J]. 科学大众:科学教育, 2017(5):144-144.

[3] 宫锋. 数据挖掘在高校学生学业预警中的应用[J]. 电子技术与软件工程, 2017(4):202-203.

[4] 朱东星, 沈良忠. 关联规则在高校学业预警中的应用研究[J]. 电脑知识与技术, 2017, 13(23).

[5] 刘桂荣. 基于数据挖掘的(预警)学生状况分析及应用[D]. 武汉科技大学, 2009.

[6] 曾水光. 基于数据挖掘的河北省高考数据分析研究[D]. 河北师范大学, 2013.endprint

猜你喜欢

统计分析决策树数据挖掘
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
如何发挥新时期统计工作的作用之我见
以统计分析为基础的房地产税收优化分析
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用
基于GPGPU的离散数据挖掘研究