APP下载

分类技术在高职教学质量评价分析中的应用

2012-07-25何中市

计算机工程与设计 2012年3期
关键词:剪枝决策树数据挖掘

黄 敏,何中市

(1.重庆工贸职业技术学院 信息工程系,重庆408000;2.重庆大学 计算机学院,重庆400044)

0 引 言

教学质量评价作为保障教学质量的重要手段之一,各高职院校建立了相应的评价系统,随着时间的推移,系统内的评价数据也在飞速的增长,传统的数据分析手段已明显落后。简单地将评价结果反馈给教学管理部门,并将该结果作为教师奖惩、晋升职称等的依据之一,无法对评价对象与评价结果间隐含的信息进行深入挖掘。数据挖掘技术作为一种新兴的先进的数据分析工具,正被广泛应用在各个领域[1-4]。基于数据挖掘技术的教学质量评价系统也进行了较多的研究[5-8],但对评价结果的分析及应用方面研究较少。鉴于此,本文利用数据挖掘中的分类技术对评价对像与评价结果之间的关系进行深入研究,采用分类算法构造决策树,挖掘出潜在关系,并将研究结果运用于实际,为教学管理者提供了更多的帮助信息。

1 数据挖掘

数据挖掘也叫数据开采,就是按照既定的目标,从大量数据中提取先前未知的信息或模式。它是从数据库中知识发现 (knowledge discovery in database,KDD)过程中的一个主要步骤。

KDD过程可以分为4部份:数据清理与集成 (cleaning and integration)、选择与转换 (selection and transformation)、数据挖掘 (data mining)、评估与表示 (evaluation and presentation)。数据清理与集成的目的是辨别出需要分析的数据集合,缩小处理范围,然而实际系统中收集到的原始数据通常是 “脏”的,即数据存在杂乱性、重复性以及不完整性;选择与转换可以处理数据中的遗漏及清洗脏数据,从而提高数据挖掘的质量;数据挖掘阶段进行实际的挖掘操作,它要先决定是进行发现型的数据挖掘还是验证型的数据挖掘,然后选择合适的工具,进行发现知识的操作及证实发现的知识;评估与表示这一步聚的任务不仅是采用特定的方式把结果表达出来,还要对信息进行过滤处理,如果不能令人满意,需要重复以上数据挖掘过程。

2 数据挖掘分类技术

数据挖掘分类技术主要有决策树、神经网络、k-均值、贝叶期分类、粗糙集、遗传算法、回归算法等等,这些技术一般有两个步骤[9]。①建立模型,通过分析由属性描述的样本集来建立模型;②模型应用,即使用模型进行分类,通过对模型的预测准确率进行评估,如果认为模型的准确率可以接受,则可以用它对数据样本或对象进行分类。分类结果的好坏取决于预测准确率的高低,选择不同的分类技术将导致不同的分类结果。

2.1 基于决策树的分类

决策树又称判定树,它是一个类似于流程图的树结构,提供了使用一组 “if-then”规则来分类记录的技术[10]。决策树由节点、分支和叶子3部分组成,节点代表属性,叶子结点代表类别,树的最顶层节点是根节点,从根节点到叶子结点的一条路径开成一条分类规则,其应用较为广泛[11-12]。目前已形成了多种决策树算法,如 CLS、ID3、CHAID、CART、FACT、C4.5、GINI、SEE5、SLIQ、SPRINT等[13]。其中最著名的算法是1986年J.R.Quinlan在 “Induction of Decision Trees”论文中提出的ID3算法和1993年改进后的C4.5算法。C4.5算法是ID3算法的改进版本,它采用信息增益率 (gain ratio)克服了用信息增益选择属性时偏向于选择取值多的属性不足;在树构造过程中或者构造完成之后,进行剪枝;能够完成对连续属性的离散化处理;能够对于不完整数据进行处理;最终可以形成产生式规则。

2.2 算法策略

C4.5算法是通过训练样本集构造一个决策树,而决策树的每个结点是使用信息增益率来选择属性。信息增益率计算方法如下:

设S= {S1,S2,…,Sn},每个数据对象有 m个属性,选择其中一个属性V为类标号属性,且V= {V1,V2,…,Vk},其中k为属性V的取值个数,则属性V的取值将数据对象集合S划分为k个子集Ci(i=1,2,…k)。设si是子集Ci中的对象个数,则对一个给定的对象分类所需要的期望信息为

其中pi=si/n,是任意对象属于Ci的概率。

设属性A有u个不同取值 {a1,a2,…,au},利用属性A的不同取值可以将数据对象集合S划分为u个子集{S1,S2,…,Su},其中Sj包含了S中在属性A上具有相同值aj,设Sij是子集Sj中集合Cj的对象个数,则由属性A划分子集的熵为

其中I(s1j+…+skj)=。

因此,在属性A上分枝的信息增益为

属性A的信息熵为

属性A的信息增益率为

通过以上公式,可求出数据对象各属性的信息增益率,找出其中具有最高信息增益率的属性作为分支结点,依次类推即可构建一棵分类决策树。

3 分类技术在高职教学质量评价中的应用

3.1 数据采集和预处理

本应用研究以重庆某职业技术学院教学管理系统里的数据为基础,主要是针对教师的基本情况和评价结果之间的关系进行分析,建立优秀教师模型,使学校对教师激励有一个确切的依据,同时对学校将来引进人才方面提供一定的参考。研究过程使用的是教师基本情况和2009年秋期教学评价结果两个方面的数据,这些数据可以通过目前正在使用的教学管理系统里的数据库获取 (见表1和表2)。

表1 教师基本信息

表2 教师教学质量评价结果

数据预处理主要包括数据清理、数据集成、数据消减等几步。在教师信息表中虽然有一些感兴趣的属性缺少属性值,但根据C4.5算法的特点,这些记录可以保留。在评价结果表中,有些教师因为参与评价的学生过少 (<20)或者某老师在该学期没有任课而没有评价结果,所以进行了删除,同时对一些不感兴趣的属性进行数据清理、集成后共有168条记录,占总记录数的98.6%。为了让挖掘结果易于理解,我们采用直方图中的分箱法对年龄进行处理,最终生成训练数据如表3所示。

表3 最终生成的训练数据

3.2 构造决策树

本研究中,经过训练共有168个教学评价数据,4个属性,分别是性别、学历、职称、年龄,根据教学评价结果属性的不同取值,将样本分为两个不同的子集: {“yes”}、{“no”}。表4是用于计算增益的部分数据。

现在计算教学评价 (JXPJ)的信息熵

表4 各属性样本分布

下面计算教学评价基于其它属性的条件信息熵

E (XB)= - (99/168 ((37/99)log2(37/99)+(62/99)log2(62/99))- (69/168 ((29/69)log2(29/69)+ (40/69)log2(40/69))=0.965035562

Gain=I (S1,S2) - E (XB) =0.993883692-0.965035562=0.0288481

split_info (XB)= - (99/168)log2(99/168)-(69/168)log2(69/168)=0.976874013

则教师性别 (XB)的信息增益率为

gain_ratio (XB)=Gain/split_info=0.0288481/0.976874013=0.029531

同理可计算

gain_ratio (XL)=0.150159766

gain_ratio (ZC)=0.067266797

gain_ratio (NL)=0.060292002

经过比较,由于教师学历 (XL)属性具有最高信息增益率,可以得出决策树的第一层节点为教师学历,然后建立第一层节点。

其它节点依次类推,直到所有的样本都属于同一类或样本数为空,建立叶子节点,当所有的属性值都已经访过,就完成了决策树的建立 (见图1)。

3.3 决策树的修剪

当决策树创建时,由于训练样本太少或数据中存在噪声和孤立点,许多分枝反映的是训练数据中的异常现象,建立的决策树会过度拟合训练样本集,反而不具有很好的预测性能[14]。通常用两种方法对树进行修剪,分别为先剪枝方法、后剪枝方法,后剪枝方法主要有4种:悲观错误剪枝 (PEP)、最小错误剪枝 (MEP)、代价复杂度剪枝(CCP)、基于错误剪枝 (EBP)[15]。本文采用的是基于错误剪枝。其基本思想是让决策树完全地生长,通过计算某结点上的子树被剪枝可能出现有期望错误率,如果剪去该结点导致较低的期望错误率,则删除该结点;如果剪去该结点导致较高的期望错误率,则保留该子树。图2就是通过后剪枝后的教学效果是否优秀的分类决策树。

3.4 生成分类规则

决策树最大的优点就是可以直接提取分类规则。将决策树进行广度优先搜索,对每一个叶节点,求出从根节点到该叶节点的路径,该路径所有节点的划分条件并在一起,并在每个叶节点生成IF-THEN规则,即构成一条分类规则。由于本研究中主要是希望了解教学质量评价结果为“优”的情况,因此所提取的规则主要考虑分类为 “yes”的百分比规则。所生成的分类规则如下:

规则1:IF学历=硕士 THEN 类是 “yes”的比例为92.3%;

规则2:IF学历=本科AND性别=男AND职称=副教授THEN类是 “yes”的比例为85.5%;

规则3:IF学历=本科AND性别=男AND职称=高讲AND年龄>37THEN类是 “yes”的比例为87.5%;

规则4:IF学历=本科AND性别=女AND职称=副教授AND年龄>45THEN类是 “yes”的比例为90.9%;

图1 教学质量评价结果决策树

图2 剪枝后的教学质量评价结果决策树

规则5:IF学历=本科AND性别=女AND职称=高讲AND年龄>45THEN类是 “yes”的比例为79.3%。

3.5 结论的运用

将从决策树中提取的分类规则汇报给教学管理者,根据规则,教学管理者对学校教师任课情况做了一定的调整,对具有高学历、高职称及年龄在37岁以上的教师充实到教学第一线,并适当增加课时量,发挥他们的长处,在教学队伍中起到带头、示范作用。对于年青教师则通过交流、听课、教学活动等手段来提高他们的教学经验及能力。在引进人才方面也以高学历高职称为主。经过2010年春期实践,对2010年春期的评价结果进行挖掘,30岁以下的年青教师的优秀率从原来的10.12%提高到28.43%,具有明显的提高。

4 结束语

本文结合重庆某职业技术学院2009年秋教学评价结果及教师个人信息数据,利用决策树分类算法实现了二者之间关系的分析,并得出一定的结论,为教学管理者提供决策支持并取得一定的效果。当然,教师的仪表、行为,学生自身素质及其它因素是否也会影响到学生对教师的评价,这也值得探讨。将数据挖掘技术充分应用到教学评价系统中,能帮助教学管理者和决策者从中获取更多有价值的、有兴趣的信息与知识,对教学的发展与教学质量的提高有很大的帮助。

[1]LIU Mei-ling,LI Xi,LI Yong-sheng.Application of data mining in university teaching and management [J].Computer Engineering and Design,2010,31 (5):1130-1133 (in Chinese).[刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用 [J].计算机工程与设计,2010,31 (5):1130-1133.]

[2]YU La-sheng,LI Qiang.Research on application of data mining in quality supervising and management system [J].Computer Engineering and Design,2010,31 (10):2327-2334(in Chinese).[余腊生,李强.数据挖掘在质量管理系统中的应用研究 [J].计算机工程与设计,2010,31(10):2327-2334.]

[3]YE Ming-quan, WU Chang-rong,HU Xue-gang.Research and application on medical data mining based on rough sets[J].Computer Engineering and Applications,2010,46(21):232-234 (in Chinese).[叶明全,伍长荣,胡学钢.基于粗糙集的医疗数据挖掘研究与应用.计算机工程与应用,2010,46 (21):232-234.]

[4]WANG Wei-hui,GENG Guo-hua,CHEN Li.Appliacation of data mining to insurance business [J].Computer Applications and Software,2008,25 (3):123-125 (in Chinese). [王伟辉,耿国华,陈莉.数据挖掘技术在保险业务中的应用 [J].计算机应用与软件,2008,25 (3):123-125.]

[5]WANG Jia-xin,WANG Xu-hui.Teaching evaluation system through network based on data mining [J].Journal of Henan Institute of Engineering,2009,21 (3):50-52 (in Chinese).[王佳欣,王旭辉.基于数据挖掘的网络评教系统 [J].河南工程学院学报 (自然科学版),2009,21 (3):50-52.]

[6]XIAO Zhi-ming.Data mining in higher education evaluation system [J].Coal Technology,2010,29 (7):212-214 (in Chinese).[肖志明.数据挖掘在高校教学评价系统中的应用[J].煤炭技术,2010,29 (7):212-214.]

[7]GUO Xiao-li,GUO Ping,FENG Li.Implementation of data mining technology in analysis and appraisal system of teaching quality [J].Journal of Northeast Dianli University Natural Science Edition,2006,26 (3):70-73 (in Chinese). [郭晓利,郭平,冯力.基于数据挖掘技术的教学质量分析评价系统的实现 [J].东北电力大学学报 (自然科学版),2006,26(3):70-73.]

[8]FU Hai-yan,FU Mou-song,ZHANG Cheng-yi.Application of rough set theory to instruction quality evaluation and analysis[J].Computer Engineering and Applications,2007,43(36):214-216 (in Chinese).[付海艳,符谋松,张诚一.粗糙集理论在高校教学质量评价分析中的应用 [J].计算机工程与应用,2007,43 (36):214-216.]

[9]MENG Fan-rong,SHI Lei,HU Ji-cheng.Research on classification technology of data mining [J].Computer and Modernization,2008,24 (3):29-31 (in Chinese).[孟凡荣,施蕾,胡继成.数据挖掘中分类技术的研究 [J].计算机与现代化,2008,24 (3):29-31.]

[10]TAN Jun-lu,WU Jian-hua.Classification algorithm of rule based on decision-tree [J].Computer Engineering and Design,2010,31 (5):1017-1019 (in Chinese).[谭俊璐,武建华.基于决策树规则的分类算法研究 [J].计算机工程与设计,2010,31 (5):1017-1019.]

[11]CHENG Tie-xin,GUO Tao,QI Xin.Application of decision-tree cluster model in the risk pre-warning for the tender evaluation of civil projects [J].Journal of Applied Statistics and Management,2010,29 (1):122-128 (in Chinese).[程铁信,郭涛,祁昕.决策树分类模型在工程项目评标风险预警 中的应 用 [J].数理统计与 管理,2010,29 (1):122-128.]

[12]CHENG Chang-pin,CHEN Qian.Research of applying the method of decision tree based on information gain ratio to college students employment forecasting [J].Computer Simulation,2010,27 (2):299-302 (in Chinese). [程昌品,陈强.基于信息增益比的决策树用于毕业生就业预测 [J].计算机仿真,2010,27 (2):299-302.]

[13]ZHANG Hai-xiao.The research on application of data classification in teaching of high learning [D].The Full Text of Chinese good Master’s Thesis Database,2005 (in Chinese).[张海笑.数据挖掘分类技术在高校教学中的应用研究 [D].中国优秀硕士学位论文全文数据库,2005.]

[14]LU Jing-jing.Teaching evaluation systems based on data mining [D].The full text of Chinese Good Master’s Thesis Database,2007(in Chinese).[卢晶晶.基于数据挖掘的教学评价系统 [D].中国优秀硕士学位论文全文数据库,2007.]

[15] WEI Hong-ning.Comparison among methods of decision tree pruning[J].Journal of Southwest Jiaotong University,2005,40 (1):44-48 (in Chinese). [魏红宁.决策树剪枝方法的比较 [J].西南交通大学学报,2005,40 (1):44-48.]

猜你喜欢

剪枝决策树数据挖掘
人到晚年宜“剪枝”
探讨人工智能与数据挖掘发展趋势
基于YOLOv4-Tiny模型剪枝算法
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于并行计算的大数据挖掘在电网中的应用
剪枝
基于决策树的出租车乘客出行目的识别
一种基于Hadoop的大数据挖掘云服务及应用
基于肺癌CT的决策树模型在肺癌诊断中的应用