APP下载

数据挖掘在高校分析学生学情中的应用

2017-08-10郭俊亮

现代计算机 2017年17期
关键词:挂科信息熵决策树

郭俊亮

(铜仁职业技术学院信息工程学院,铜仁 554300)

数据挖掘在高校分析学生学情中的应用

郭俊亮

(铜仁职业技术学院信息工程学院,铜仁 554300)

学生的期末考试成绩出来以后,只能从结果上看挂科还是没有挂科,教师难以获取深层次的因素,针对此现状,利用数据挖掘的ID3算法对学生的一些基本属性进行数据挖掘,可以找出其中一些有用的信息,为教师的上课管理、学生的学习等提供数据支持。

决策树;数据挖掘;学生学习;ID3

0 引言

学生的期末考试成绩出来以后,老师和学生都只能看见这门课程表面的成绩,学生的成绩是和一些因素有关系的,例如学生对这门课程的学习兴趣,教师对这门课程的授课方式,影响学生学习的一些课外因素,这些都是是有很大的关联的,不能等挂科以后,才去分析原因。

通过数据挖掘技术可以从一些数据中发现隐藏的规律和模式,将数据挖掘与学生的平时的一些信息进行组合,可以找到学生的一些发展变化规律,加以利用可以提高学生们的学习成绩,提高授课教师的教学水平和学生的学习成绩。

1 决策树技术ID3的介绍

ID3算法是决策树技术中的一个经典的算法,在算法的运行过程中,要计算属性的信息熵与信息的增益,然后通过增益高的属性进行分类。

2 决策树技术在学生学习中的应用

学生的期末考试成绩会受到多方面因素的影响,学生的主观努力程度是很重要的因素,但是,同时也会受到其他方面因素的影响,例如,学生不喜欢教师的授课方式,家庭的经济情况、是否恋爱等,这些都影响学生的学习成绩,所以,通过ID3算法将学生的基本信息和学习基本状况联系起来,可以构建一个预测学生是否期末挂科的决策树。

2.1 数据处理

根据数据挖掘的目的和需要,获取学生的家庭经济情况、喜欢不喜欢教师的授课方式、出勤情况、作业情况、是否恋爱、共计5列属性,通过类别分析,对35名学生的情况属性进行数据离散化,如表1所示。

表1 样本学生的基本属性

2.2 决策树的构建

根据样本数据,以期末是否挂科为目标构建决策树。

(1)计算样本数据“是否挂科”分类的信息熵

(2)样本数据属性的信息熵和信息增益

鉴于我国绝大多数AMI患者直接就诊于基层医院,而基层医院的诊治现状又极不规范,因此,规范化胸痛中心建设应该立足于建立区域协同救治模式。

以“喜欢不喜欢教师的授课方式”为例计算信息熵。“喜欢不喜欢教师的授课方式”属性有两个值{A,B},所以决策树分为两个子集,分别计算其信息熵如下:

同样,可以计算出“家庭经济情况”、“出勤情况”、“作业情况”、“是否恋爱”的信息熵。

可以分别计算出个属性的信息增益如下:

可以得到结果是:“作业情况”是最大的增益效益属性,应按照“作业情况”的属性进行分类。

(3)重复以上步骤既可以构建一个决策树。

2.3 分析

根据决策树,可以提取分类规则

(1)if作业情况=C and出勤情况=C and是否恋爱=A喜欢不喜欢教师的授课方式=B学生挂科的比率是80%。

(2)if作业情况=C and出勤情况=C and是否恋爱=A喜欢不喜欢教师的授课方式=A学生挂科的比率是70%。

(3)if作业情况=C and出勤情况=B and是否恋爱=A喜欢不喜欢教师的授课方式=A学生挂科的比率是60%。

3 结语

将数据挖掘技术应用于预测学生期末挂科的中,能够提高、改进教师的教学方式,增加学生对授课教师的认同感,也增加学生对所学课程的兴趣,学生在学习和课外时。同时,学生在学习和课外时间的分配上也有了一个深刻的认识。

[1]丁保忠.数据挖掘技术在学生综合信息管理系统中的应用研究[D].河北:河北科技大学硕士论文,2013,04.

[2]韩家炜.数据挖掘概念与技术[M].范明,译.北京:机械工业出版社,2012:172-173.

[3]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用,2016,27(9):285-285.

Application of Data Mining in the Analysis of College Students'Learning Situation

GUO Jun-liang
(Department of Information Engineering,Tongren Polytechnic College,Tongren 554300)

After the final exam scores are post,it can only be seen fail or not from the exam results,it is difficult for teachers to acquire deep-seated factors,in this situation,some basic properties of the ID3 data mining algorithm based on data mining for the students,which can find out some useful information,to provide data support for the school management and teachers the students'learning.

郭俊亮(1987-),男,山西临汾人,硕士,研究方向为物联网与大数据

2017-04-14

2017-06-11

1007-1423(2017)17-0060-03

10.3969/j.issn.1007-1423.2017.17.012

Decision Tree;Data Mining;Student Learning;ID3

猜你喜欢

挂科信息熵决策树
基于信息熵可信度的测试点选择方法研究
华池县土地利用结构信息熵时空格局演变及机制分析
超级秀场 挂科
高职院校学生体育课程挂科原因分析与对策研究
决策树和随机森林方法在管理决策中的应用
近似边界精度信息熵的属性约简
基于校园卡消费预测学生挂科情况
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
信息熵及其在中医“证症”关联中的应用研究