APP下载

粗糙集理论在数据分析中的应用研究

2017-04-06高亮

赤峰学院学报·自然科学版 2017年5期
关键词:决策表约简粗糙集

高亮

(安徽国际商务职业学院,安徽合肥230051)

粗糙集理论在数据分析中的应用研究

高亮

(安徽国际商务职业学院,安徽合肥230051)

随着Internet、信息检索等新技术的不断出现及快速发展,各种应用所积累的数据量急剧增长,如何从这些海量数据中提取有用的信息成为了一个很现实而且重要的问题.本文结合实例分析,给出了基于粗糙集理论数据分析的一般过程,为数据挖掘提供了一个新的方法.

粗糙集;数据分析;属性

1 引言

当今世界正处在一个数据爆炸的时代.伴随着多媒体、云计算、物联网、社交网络等技术的发展,以及天文观测、空间地理、金融分析等各领域每天都在产生巨量的数据,然而面对着这一片纷繁复杂的数据,就像面对着一个巨大的矿脉,怎样才能从中挖掘出真正的“金子”?那么最重要便是数据挖掘的工作,所谓数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先不知道的、但又是潜在有用的知识和信息的过程.目前,数据挖掘在科学研究、市场营销金融市场分析和预测、医疗保健、教育教学等许多领域得到了广泛的应用,已经成为计算机科学与工程研究的一个热点.

然而,实际系统中的数据一般都具有不完全性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求,严重影响了数据挖掘算法的执行效率.而粗糙集理论是一种用于处理不确定性和含糊性知识的数学工具,目前在数据挖掘的各方面已有很好的应用,其基本思想是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则.它无需提供相关数据集合外的任何先验信息,适合于发现数据中隐含的、潜在有用的规律,即知识,找出其内部数据的关联关系和特征.

2 粗糙集相关理论

粗糙集(Rough Set)理论是波兰数学家Z.pawlak于1982年提出的,是一种新的处理含糊性和不确定性问题的数学工具.相对于概率统计、模糊集等处理含糊性和不确定性的数学工具而言,粗糙集理论有这些理论不具备的优越性.统计学需要概率分布,模糊集理论需要隶属函数,而粗糙集理论的主要优势就在于它不需要关于数据的任何预备的或额外的信息.现已广泛应用于知识发现、机器学习、决策支持、专家系统等领域.

定义1[1]设U是一个论域,R是U上的一个等价关系,U/R表示R的所有的等价类(或者U上的分类)构成的集合,[x]R表示包含元素x∈U的R等价类.一个知识库就是一个关系系统K=(U,R),其中U为非空有限集,称为论域,R是U上的一簇等价关系.若P⊆R,且P≠ø,则∩P(P中所有等价关系的交集)也是一个等价关系,称为P上的不可区分关系,记为IND(P),且有.

定义2[1]设集合X⊆U,R是一个等价关系,称,且[x]R⊆}为集合X的R下近似集;称,且[x]R∩X≠ø}为集合X的R上近似集.称集合为X的R边界域;称为X的R正域;称为 X的R负域.

定义3[2]四元组S=(U,A,V,F)是一个信息系统,其中U为对象非空的有限集合,称为论域,即U={x1,x2,…,xn};A=C∪D是有限属性集合,A={a1,a2,…,am},子集C和D分别称为条件属性和决策属性;

定义4[3]S=(U,A,V,F)是一个信息系统,A=C∪ D,设P,Q⊆A,当时,称知识Q是k度依赖于知识P,记P⇒kQ,即对象的k×100%可以通过知识P划分到U/P的模块中.当k=1时,称属性集Q完全依赖于P;0<k<1时,称属性集Q部分依赖于P;k=0时,称属性集Q完全独立于P;而属性子集P⊆C关于D的重要性定义为σ(P)=rC(D)-rC-P(D),特别地,当P={a}时,属性a关于D的重要性定义为σ(P)=rC(D)-rC-P(D).

3 粗糙集理论在数据分析中的应用

目前,基于粗糙集理论的方法逐渐成为数据分析主流方法之一.利用粗糙集理论进行数据分析一般可分为以下五个过程:

1.数据准备及预处理:在现实世界的很多情况下,我们拿到的第一手数据都会存在噪音数据、空缺数据和不一致性数据等我们不希望出现的数据,因此,首先要对数据进行必要的处理,包括数据删除、数据补充、数据转换等,从而为下一步数据分析提高良好的处理环境,并且还要明确条件属性和决策属性.

2.建立决策表:对于处理好的数据用一个信息系统S=(U,A,V,F)给表示出来.

3.属性约简及属性重要度计算:属性约简就是在保持知识库分类能力不变的条件下删除其中不相关或不重要的冗余属性,得到一个最简洁的决策即最小(最优)约简.在决策表中,不同属性可能有不同的重要性,如果重要度为0则说明此属性为冗余属性,可删除,通过计算每个属性的重要程度则可以更加有效地进行属性约简.

4.规则提取:直观地讲就是将每个约简用在决策表的每个对象上,从表中读出适当的属性值来形成决策规则.用类似逻辑语言中α→β的形式表示决策规则,α和β分别称为决策规则的前件和后件,α代表条件属性值的组合.

5.决策分析:根据生成的规则进行数据分析,得到有用的结论.

下面我们用一个具体实例进行阐述:通过利用粗糙集理论来分析影响学生《高等数学》课程学习成绩的因素,以期量化学习成绩和学习因素之间的关系,为教师能够更好地进行教学和培养合格的人才提供一定的理论支持.

1.数据准备及预处理

首先采用问卷调查的方法,对安徽国际商务职业学院2015级会计专业56名学生进行了问卷调查(表1),采取随机抽样的原则抽取研究对象,共发放问卷56份,回收率100%,有效问卷56份,有效率100%.调查问卷分别从兴趣、高考成绩、课堂表现等六个方面提出问题,受调查者根据实际情况选出自己的答案选项,因此,各影响学习的因素属性分别记为C1:兴趣、C2:数学基础(高考成绩)、C3:课堂表现、C4:作业完成情况、C5:教师授课水平、C6:学习时间,选项ABCDE在决策表中分别用12345代替;决策属性为期末考试成绩,记作D,其中在[90,100]之间为优秀,[75,90)之间为良好,[60,75)之间为合格,[0,60)不合格,分别以1、2、3、4表示.将每一类中的所有实例的集合作为论域,每个实例作为论域中的对象,成绩影响因素集作为条件属性集,学生期末考试成绩作为决策属性.

表1 调查问卷

2.根据以上数据可建立成绩影响因素决策表(表2).

3.利用属性约简算法进行属性约简,并计算属性重要度.

(1)属性约简:利用属性约简算法进行约简,可知C1—C6所有属性均为不可约属性.

(2)计算属性重要度.首先计算出二维决策表中决策属性D相对于条件属性C的正域POSC(D),根据粗糙集中的依赖度函数,计算出决策属性D对条件属性C的依赖程度.

表2 决策表

其次,计算二维决策表中每一个属性Ci(i=1,2,…,6)对于决策属性D的重要度σ(Ci)=rC(D)-rC-Ci(D),其中rC-Ci(D)表示在条件属性C中去掉Ci后,决策属性D对条件属性C的依赖程度,σ(Ci)的值越大,说明属性Ci对分类的重要性越大,如果σ(Ci)=0,则说明属性Ci对分类不起作用,可以忽视其影响.

利用数学软件MATLB编程对二维决策表进行计算:得到各属性相应的依赖度及重要性有:

由此可见,σ(C6)>σ(C2)=σ(C3)>σ(C5)>σ(C4)>σ(C1)

4.规则提取:根据约简后的决策表提取规则,选取部分如下:

规则1:C1(1)∧C2(2)∧C3(1)∧C4(1)∧C5(1)∧C6(2)=>D(1)

规则2:C1(2)∧C2(2)∧C3(4)∧C4(2)∧C5(2)∧C6(4)=>D(4)

……

5.决策分析.

针对以上计算结果,我们进行进一步分析可知:

(1)兴趣、基础、课堂、作业、教师、学习时间等都是影响学生学习高等数学的重要因素;

(2)这六个影响因素的重要程度排序为:学习时间>数学基础(高考成绩)=课堂表现>教师授课水平>作业完成情况>兴趣.因此,可以看出学生学习成绩好坏很大程度上取决于自身的努力程度(即所花时间的多少),同时,学生在学习过程中要紧紧抓住课堂时间,边听边记边思考,只有这样才能取得较好的学习效果;

(3)根据提取的规则可以得到相应的结论,比如从提取的规则1中可以看出当一个学生在这六个方面都做得很好时,一定可以取得优秀的成绩,反之,由规则2得出虽然基础较好,但是如果上课不听课,课后自己不花时间努力学习,那么成绩必然不及格;

(4)从数据中可以看出数学基础也是影响大学生学好高等数学的一个非常重要的因素,这主要是由于数学课程具有连续性的特点,因此,对于一些基础较差、尤其是没有参加高考,自主招生进来的学生来讲,学习高等数学的难度更大,故而,要求我们教师在针对这部分学生时,应该更加关注他们,在教授过程中更耐心一些,更详细一些.

4 结束语

粗糙集理论作为一种新的处理含糊性和不确定性问题的数学工具,为数据分析提供了一条崭新的途径,其在数据挖掘中的应用研究目前正成为信息科学中的一个研究热点,发展空间广阔.

〔1〕张文修,吴伟志,梁吉业,李德玉.粗糙集理论与方法[M].北京:科学出版社,2001.1-25.

〔2〕安海忠,郑链,王广祥,等.粗糙集知识发现的研究现状和展望.计算机测量与控制,2003(2):81-83.

〔3〕史忠植.知识发现[M].北京:清华大学出版社, 2002.26-28.

TP274

:A

:1673-260X(2017)03-0022-03

2016-11-25

猜你喜欢

决策表约简粗糙集
基于决策表相容度和属性重要度的连续属性离散化算法*
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
基于粗糙集的不完备信息系统增量式属性约简
实值多变量维数约简:综述
基于模糊贴近度的属性约简
基于决策等价性的决策表属性集分解研究*
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
正反转电机缺相保护功能的实现及决策表分析测试