APP下载

决策树数据挖掘算法在学生评价分析中的应用

2011-12-08齐云飞李勇强

河南医学高等专科学校学报 2011年5期
关键词:决策树数据挖掘维度

齐云飞,李勇强

(河南财政税务高等专科学校教务处,郑州451464;郑州铁路职业技术学院护理学院,郑州 450052)

决策树数据挖掘算法在学生评价分析中的应用

齐云飞1,李勇强2

(河南财政税务高等专科学校教务处,郑州451464;郑州铁路职业技术学院护理学院,郑州 450052)

高校学生成绩管理系统存储了大量的学生成绩信息,有效地对这些数据进行分析对学校教学管理具有重要意义。该文选择数据挖掘技术构建针对学生成绩的决策树分析模型。使用Microsoft商务智能平台搭建分析数据的维度结构,设置决策树算法参数,构建决策树分析模型,实现学生成绩的自动挖掘分析。

数据挖掘;决策树;商务智能;分类分析

随着高等教育信息化建设的深入,越来越多的高校开始采用数字化的学生评价系统。然而,传统面向操作的学生评价系统往往注重对评价信息的存储和操作,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象[2]。数据挖掘技术作为专用于信息查询和分析的新兴技术在商业智能领域取得了极大的成功。学生评价作为教学评价的一个重要方面,对高校的教学管理具有重要的指导意义,通过引入先进的数据挖掘技术对学生评价信息进行分析挖掘,发现数据背后隐藏的规律,能够极大的帮助教育管理者们掌握学生的状态,发现学生存在的问题,从而采取有针对性的措施改进教学管理。因此,建立科学的高校学生评价系统是加强高等学校教学管理和提高教学质量的重要举措[1]。

1 数据挖掘与决策树算法

1.1 数据挖掘的定义 数据挖掘是经由自动或半自动的方式来探究及分析大量的信息,以发现有意义的规律。Han和Kamber则认为数据挖掘是从数据库、数据仓库或其他的数据存储的大量数据中提取有用的信息与模式[3]。Fayyad等人将数据挖掘定义为从数据中找出有效地、新颖的、潜藏有用的以及最终能被理解的模式的高级过程。

数据挖掘的功能可以分为六类:分类、回归、预测、关联、聚类、描述。

下面研究的将数据挖掘技术应用到学生评价分析的方法,主要使用的是数据挖掘的分类功能,它能够依据学生成绩和评价信息对学生进行分类,从而实现针对不同学生的分类指导。

1.2 数据挖掘算法的选择 数据挖掘可以使用的挖掘算法有很多,如决策树算法、时序算法、聚类分析算法等,这些算法具有不同的实现原理,在应用上具有较大差异。下面选择决策树算法来实现对学生评价的分类分析,使用决策树算法主要基于以下考虑:①为学生设计的评价项多数使用的是‘高’、‘中’、‘低’等离散型变量,而决策树算法最适合进行离散型数据的分析。②评价分析的目的是对学生进行分类,决策树算法最擅长解决分类问题。③决策树算法具有建模速度快,收敛快,结构清晰便于理解的特点。

2 使用决策树算法实现学生评价分析

2.1 源数据的描述 学生评价信息表evaluation_user记录了学生基本信息和评价项,表中共记录了9个评价项,内容涉及学生的学习情况、家庭情况、消费情况、兼职情况等:

2.2 挖掘数据的结构与事实模型 要进行数据挖掘还需要根据评价信息表建立学生评价信息维度表、事实表和评价事实模型。系统为评价信息表建立了两个维度:year、term构成的时间维度和commentator、commentator_type属性构成的评价人维度。系统需要建立dim_ate、dim_commmentator两个维度表和事实表F_evaluation,维度表与系统表关系如图1所示。

表3.1 学生评价信息表

图1 学生评价事实模型

由于维度属性较少,且层次结构不复杂,所以事实模型采用星型模式构建,事实表F_evaluation通过key_commentator和key_date两个代理键与dim_date和dim_commmentator维度表进行连接。

2.3 挖掘数据的填充 维度表和事实表构建之后需要进行数据的填充,数据填充先从叶维度开始,先填充dim_date维度表,term和year存在于evaluation_user表中可以使用GROUP BY进行分组聚合填充。SQL语句如下:

INSERT dim_date VALUES(SELECT term,year FROM evaluation_user GROUP BY year,term)

完成叶维度表的填充后,需要填充F_evaluation事实表。事实表中的属性,除key_date和key_commentator两个代理键外都可以使用上述包含GROUP BY的INSERT语句进行填充操作。至于两个代理键由于是连接维度表的外键,所以必须采用查询填充。evaluation_user表中同时包含维度属性和度量值属性的一条记录,先利用维度属性查询维度表,得到对应的键值,将其添到代理键中。SQL语句如下:

2.4 构建决策树模型 处理好数据源后就可以使用该数据构建决策树评价分析模型,下面结合SQL SERVER提供的决策树挖掘算法构建模型。

在SQL SERVER中可以使用数据挖掘扩展(DMX)来构建数据挖掘对象。DMX是为数据挖掘定义统一的概念和统一的查询表达式,结构上与SQL语言相似。学生评价数据挖掘的DMX语句如下:

根据上述MDX定义语句,挖掘结构包含有11个属性,其中由KEY标志的ID作为键属性,他的每个值都对应了一个事件。TEXT和DISCRETE标志属性为离散型文本数据类型,Result Final的数据类型为 LONG长整型,DISCRETIZED(EQUAL_AREAS,4)标志着该属性使用等面积法将数据分到4个桶中,实现数据离散化。

2.5 决策树模型分析 数据挖掘完成后,系统会自动生成数据挖掘属性依赖关系图和决策树模型图。根据这两个图可以从挖掘结构的输入属性中挑选出对学生成绩影响最大的属性,并对其进行排序。通过调整关系图的紧密程度可以确定挖掘结构属性对学生成绩影响度的排序,如图2所示,排序由大到小为:

①学习态度:Study Attitude;②到课率:Rate Of Attend Class;③作业完成情况:Level Of Accomplish Home Work;④学院任职工作时间:College Post Time;⑤家庭经济情况:Financial Situation Family。

图2 学生评价分析决策树数据挖掘属性依赖关系图

决策树模型图从根节点到叶节点代表了数据挖掘发现的一条规则,如图3.3所示,可以发现以下规则:

图3 决策树算法生成的树形属性关系图

获得 Study Attitude= '差'and Rate Of Attend Class= '一般'and Financial Situation Family= '好或者'一般'的学生具有较差的成绩等。

系统通过学生评价信息获得上述分析后可以有针对性的对学生进行辅导,消除影响学生的不良因素,培养学生养成好的习惯,还可以按照构建的决策树模型对学生进行分类,指出导致学生成绩出现问题的主要影响因素,对学生发现和解决自身存在的问题是极大的帮助。

3 展望

使用数据挖掘对学生评价进行分析,除了使用分类功能外还可以使用回归功能分析连续性变量,使用预测功能是实现学生成绩预警,使用关联功能发现更多与学生成绩有关的因素。另外,在算法的选择上,也可以尝试使用其他算法,如时序、关联规则、聚类分析等。总之,随着数据分析技术的发展,数据挖掘在学校教学管理方面有着巨大的应用潜力,高校的教育管理者应该充分认识到信息的重要性,提高信息的利用效率。

[1]鄢 娟.高校教学质量的评估与教学改革的深化[J].中南民族大学学报,2003,23(S,2):286 -387.

[2]王 欣.SQLServer2005数据挖掘实例分析[M].中国水利水电出版社,2008.

[3]康耀龙.数据挖掘在高校教学质量评价系统中的应用[D].西安建筑科技大学硕士论文,2010:5.

G 272

B [

1008-9276(2011)05-0507-03

2011-05-15

齐云飞(1984-),男,郑州市人,学士,助教,从事教学管理工作。

[责任编校:蔡秀连]

猜你喜欢

决策树数据挖掘维度
理解“第三次理论飞跃”的三个维度
探讨人工智能与数据挖掘发展趋势
浅论诗中“史”识的四个维度
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
基于决策树的出租车乘客出行目的识别
光的维度
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用