APP下载

基于Apriori算法的高校学生综合测评数据挖掘

2017-02-23马煜

现代计算机 2017年1期
关键词:项集置信度事务

马煜

(陕西中医药大学信息化建设管理处,咸阳 712046)

基于Apriori算法的高校学生综合测评数据挖掘

马煜

(陕西中医药大学信息化建设管理处,咸阳 712046)

高等院校在每年评选奖学金工作中积累大量的数据,将数据挖掘技术中的关联规则挖掘算法Apriori应用于学校学生综合测评中,通过对这些数据分析,找到学生综合测评与学生成绩、家庭情况、性别、父母职业、父母教育背景、父母职业、学生在校获奖情况等相关,为学生评优工作、课程开设顺序提供有力证据。

关联规则;Apriori;数据挖掘;综合测评

0 引言

近些年随着我国高等院校教育事业的飞速发展,高校每年招生数量不断增多,从而学生管理工作变得尤为重要[1]。在实际的管理学生工作中,学生的信息之间有一定的潜在关联,女生在中医理论方面强于男生,而男生又胜于实验课的操作环节;理科学生成绩普遍高于文科学生,而文科学生在大学英语通过率上又有明显优势。此外,每届学生课程顺序的不同,也会对学生掌握新课程的难易起到了影响。

数据挖掘是从长年积累的数据中找到具有潜在价值的信息。在长期教学管理工作中,积累的数据越来越多,人们对这些数据挖掘相应关联知识的重视愈演愈烈。挖掘关联规则就是从给定的数据集中搜索数据项之间所存在的有价值联系[2]。本文将利用数据挖掘技术,以现有数据为基础,基于Apriori算法提取隐含在其中的潜在有用信息,建立大学各科成绩、学生性别、学生家庭情况、学生父母职业、学生父母教育背景等之间的关联,为教务管理部门提供依据,同时探索课程开设顺序对学生各科成绩的影响。

1 关联规则挖掘

关联规则挖掘就是从巨大的数据资源中寻找出数据间潜在有用信息的知识。1993年Rakesh Agrawal与 Ramakrishnan Srikant两位博士首先提出了从交易数据库发现项目间关联规则的相关问题,并给出了基本频繁集的Apriori算法[3]。关联规则指的是事务对象间的相互依存关系,若多个事务间存在一定的内部联系,那么其中单个事务就可以通过其他事务推测出,其目的就是从事务集中找出不同事务之间的潜在联系。目前该研究广泛应用于数据库应用、决策系统等方面。

1.1 关联规则概念

设I={I1,I2,…,Im}是由m个不同事务组成的集合,其中Ik(k=1,2,…m)是该集合中的某一项,包含k个项的项集为k-项集。设定一个事务数据库D,而一个事务T是I的一个子集,由不同事务一起组成的事务集D就形成了关联规则事务数据库。假定X,Y是I中的项集,其中X⊂I,Y⊂I,X⊂Y≠Ø。依据X、Y同时出现的频度(支持度)和既出现X又出现Y的强度(置信度),则可以确定关联规则X⇒Y的成立,X称为该关联规则的前提,Y称为结论[4]。

1.2 Apriori算法概述

Apriori算法会对事务集D进行多次扫描以找出所有频繁项集,在首次扫描时计算D中所有单个项的出现频度(即支持度)生成候选项集C1,比较支持度后产生频繁1项集L1,随后通过L1自连接生成新的候选项集C2,在扫描D后对每个候选项统计后生成频繁2项集L2,依次向后,直到不能找到新的频繁项集。此外,候选项集通过剪枝生成频繁项集,即删除候选项集的支持度低于最小支持度阈值的项集,剪枝的思路是一个频繁项集的任何一项集必定也是频繁项集。而新候选项集CK的生成是通过频繁项集Lk-1的自连接,自连接的前提是要求前(k-1)项相同。

由于在每次计算项集支持度时,需要扫描一次事务集D,从而增加了时间复杂度;在寻找频繁项集过程中要生成大量的候选项集,从而需要一定的内存空间存放候选项集,增加了空间复杂度。

2 Apriori算法在学生综合测评中的实现

2.1 数据采集

通过从相关部门抽取500名学生的基本信息,其中女生350人,男生150人。同时收集这些学生的2015-2016学年第一学期各科成绩、在校获奖情况。

2.2 数据库建立

将获取的数据进行选择并建立相应的数据库,为关联规则挖掘提供所需数据。Apriori算法将逐遍扫描数据库,通过设定的支持度生成新的候选集并找到频繁项集,根据设定的最小置信度生成关联规则。

2.3 关联规则表达方式定义

本系统在信息挖掘过程中,关联规则以文本方式形成。

例:中医基础理论优→医古文优35%85%

3 挖掘实验结果及分析

3.1 挖掘结果

根据关联规则Apriori算法,对500名学生数据信息进行挖掘,得到相应的关联规则。

3.2 结果分析

①该规则支持度28%,置信度92%,表明了高等数学成绩好的学生,他们的组织胚胎学成绩也好,也表明了理科学生对组织形态的观察能力和空间思维能力有着良好的基础。

②该规则支持度35%,置信度85%,说明了马克西主义原理成绩高的学生,他们的医学心理学成绩也高,马克思主义原理作为思政课,在一定程度上会对学生在医学心理学上有着积极影响。

③该规则支持度25%,置信度87%,说明了内科学成绩高的学生,他们的温病学成绩也高。

④该规则支持度40%,置信度82%,说明了女生大学英语成绩普遍比男生好,也表明了女生在语言学习上比男生更自觉主动。

⑤该规则支持度28%,置信度70%,说明了思想道德修养与法律基础成绩好的学生,他们的医古文成绩也好。

⑥该规则支持度30%,置信度75%,说明了人体解剖学成绩好的学生,他们的妇产科学成绩也好。学生对人体结构掌握后,对妇产科学有了更深的认识。

⑦该规则支持度45%,置信度80%,说明了男生实验课成绩普遍要比女生好,原因在于男生实际动手能力比较强,这与男女性格差异有关。

⑧该规则支持度20%,置信度90%,说明了拥有特长的学生基本上都获得过校园活动奖励,他们在学生活动中善于表现自己,性格普遍开朗。

⑨该规则支持度26%,置信度85%,说明了学生父母的教育文化程度对学生的特长培养起到了很大影响。

⑩该规则支持度50%,置信度65%,在支持度提高的情况下,依旧能生成该规则,说明了医古文课程成绩的好坏对医学心理学成绩没有太大的影响。

4 结语

随着高校学生信息的逐年丰富,管理者开始意识到从中获取有用信息的重要性,数据挖掘技术逐渐受到了关注。本文将关联规则挖掘应用到高校学生综合测评中,从学生的基本信息、每学年成绩、在校获奖情况等数据中,得出学生综合测评与学生性别、性格、学生父母文化程度等存在内在联系,也得出了部分课程在开设上,应当考虑先后顺序,尽量将相关课程安排连贯有序,不易间隔过久影响学生后续课程的学习效果。

[1]张冬冬,李玉龙,王玉鑫.数据挖掘技术在高校贫困生认定中的应用[J].西安文理学院学报:自然科学版,2013,16(4):90-94.

[2]郭景峰,路燕.一种数据挖掘关联规则的高效算法[J].山西大同大学学报:自然科学版,2008,24(4):35-37.

[3]陈则芝,李冬梅.数据挖掘关联规则Apriori算法的优化[J].山西大同大学学报:自然科学版,2008,24(4):35-37.

[4]宋卫林.基于最大频繁项集的数据挖掘关联规则算法研究[D].北京:北京邮电大学,2006.

Data Mining of the Comprehensive Evaluation of College Students Based on Apriori Algorithm

MA Yu

(The Informatization Construction Management Office,Shaanxi University of Chinese Medicine,Xianyang 712046)

The massive data has been accumulated in the selection of scholarship annually among different colleges and universities in China.Applies the Apriori algorithm of association rules in student comprehensive evaluation system,through the analysis of data,figures out the relationship between the evaluation and various factors,provides positive evidence to the evaluation work and the reasonable sequence of courses.

Association Rules;Apriori Algorithm;Data Mining;Comprehensive Evaluation

1007-1423(2017)01-0011-03

10.3969/j.issn.1007-1423.2016.01.003

马煜(1989-),男,陕西咸阳人,硕士研究生,初级工程师,研究方向为算法设计与分析

2016-11-01

2016-12-05

猜你喜欢

项集置信度事务
基于数据置信度衰减的多传感器区间估计融合方法
北京市公共机构节能宣传周活动“云”彩纷呈北京市机关事务管理局
一种基于定位置信度预测的二阶段目标检测方法
基于共现结构的频繁高效用项集挖掘算法
基于改进乐观两阶段锁的移动事务处理模型
不确定数据频繁项集挖掘算法研究
基于矩阵相乘的Apriori改进算法
正负关联规则两级置信度阈值设置方法
一种Web服务组合一致性验证方法研究
Hibernate框架持久化应用及原理探析