APP下载

一种基于核值的粗糙集填补方法

2014-07-24席宁

新媒体研究 2014年8期

摘 要 利用粗糙集的知识来进行缺失数据填补的方法很多,但很多都没有考虑到决策规则。文章利用核值的重要性,通过构造可辨识矩阵,使得填补的数据更好的遵循决策规则,消除噪音数据。

关键词 核值;极大完备子系统;可辨识矩阵

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0061-01

1 粗糙集相关知识

在现今社会中,各个行业都会用数据库来保存大量的历史数据。然而,这些数据总会在不经意间有所缺失,可能是环境因素,也可能是人为缺失。缺失的数据都蕴含着大量宝贵有用的信息,与企业经营成果息息相关,因此很多企业都采用数据挖掘等技术,从缺失的数据中挖掘出有价值的信息。

粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具,其作为一种较新的软计算方法,其被有效的运用到数据预处理中,为不完备信息的填补开辟了另一条途径。

在基于粗糙集的属性约简过程中,核值才是最有用的数据。本文提出了一种基于核值的重要性的填补方法,较好的保持信息表的决策规则。

该算法主要涉及到极大完备子系统和可辨识矩阵等粗糙集知识,相关的定义如下。

定理1 任一信息系统=,若增加一条对象,构成一个新的信息系统=<,,,>,其中,则的核值必是的核值。

推论 不完备信息系统S=,=是其极大完备子系统,则的核值必是S的核值。

2 基于核值的ROUSTIDA算法描述

2.1 算法描述

由上述推论可以表明将不完备信息系统S分离成其极大完备子系统和待补系统,而的核值必是S的核值,这说明在的核值的基础上引进不可分辨关系不影响S的核值。

该算法是以可辨识矩阵为基础,基本流程如下。

输入:不完备信息系统;

输出:完备信息系统;其中,前者是条件属性集,后者为决策属性集;

第一步 核值化:

将分离成它的极大完备子系统和待补系统。将看作是一个独立系统,建立它的核值体系,然后再将非核值的数据改为“*”,这样就会得到一个新的系统,将组合成一个新的信息系统=<,,,>.

第二步 求矩阵,,;r=0;

第三步

1)针对所有,求得,;

2)生成

(1) 对于所有,有=,;

(2) 对于所有,对做循环;

①若=0,=*;

②否则若,则

(1)若,则;

(2)若,则;

(3)否则;

③若某一对象与多个对象存在不可分辨关系,则将此对象的缺失属性值用其余对象的此属性的均值填补;

第四步 决策表中对象独立性的判断:

1)对上述;若=0,则如存在,使=时,都有,将=*转步骤3,否则转2;若有(),将()整行删去;否则转2;

2)若=转步骤5;否则,计算,,,,转到第三步;

第五步 如果有遗失值,可用其他算法处理;

第六步 结束。

2.2 算法分析

算法主要解决使ROUSTIDA算法失效的不完备数据。可以通过以下图表来说明问题。包括原始的不完备信息表,经过步骤一得出的基于核值的不完备信息系统,以及最终得到的完备信息表。

表1 原始表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 * 1 0

5 1 0 1 2

表2 基于核值的不完备信息表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 1 1 1

5 1 0 1 2

表3 结果表

U a1 a2 a3 a4

1 0 1 0 1

2 0 2 1 0

3 0 0 0 0

4 0 1 1 0

5 1 0 0 2

与原ROUSTIDA算法比较,该算法能使更多的缺失项得到科学的填补,且该算法在缺失项填补过程中,基于可辨识矩阵,以核值为比较对象,这样填补可保留更多的核值,从而使填补的值与决策规则更为贴近。同时第四步对决策表中对象独立性的判断,使该算法避免了应用其他方法可能导致的决策规则矛盾的问题。

但该算法也存在一定的缺点:1)计算较为复杂,比原ROUSTIDA算法计算繁琐;2)该算法仅对缺损数据较少时适用,若缺损较多,则对于初始计算极大完备子系统时存在的困难较大,甚至可能无法操作。

3 结论

一般的填补数据方法有时容易引起信息表内容的冲突,本算法是基于核值的基础上进行缺失数据填补的,能够保持更多的核值,并且更好的避免了信息表的冲突,又较好的反映了信息表所蕴含的决策规则。

参考文献

[1]Pawlak Z. Rough Sets and Fuzzy Sets. Fuzzy Sets and Systems, 1985(17):99-102.

[2]Krysikiewicz M. Rough Set Approach to Incomplete Information System. Information Sciences, 1998(112):39-49.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2005.

[4]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2006.

[5]曾黄麟.粗糙集理论及其应用[M].重庆:重庆大学出版社,1996.

作者简介

席宁(1977-),女,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。

摘 要 利用粗糙集的知识来进行缺失数据填补的方法很多,但很多都没有考虑到决策规则。文章利用核值的重要性,通过构造可辨识矩阵,使得填补的数据更好的遵循决策规则,消除噪音数据。

关键词 核值;极大完备子系统;可辨识矩阵

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0061-01

1 粗糙集相关知识

在现今社会中,各个行业都会用数据库来保存大量的历史数据。然而,这些数据总会在不经意间有所缺失,可能是环境因素,也可能是人为缺失。缺失的数据都蕴含着大量宝贵有用的信息,与企业经营成果息息相关,因此很多企业都采用数据挖掘等技术,从缺失的数据中挖掘出有价值的信息。

粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具,其作为一种较新的软计算方法,其被有效的运用到数据预处理中,为不完备信息的填补开辟了另一条途径。

在基于粗糙集的属性约简过程中,核值才是最有用的数据。本文提出了一种基于核值的重要性的填补方法,较好的保持信息表的决策规则。

该算法主要涉及到极大完备子系统和可辨识矩阵等粗糙集知识,相关的定义如下。

定理1 任一信息系统=,若增加一条对象,构成一个新的信息系统=<,,,>,其中,则的核值必是的核值。

推论 不完备信息系统S=,=是其极大完备子系统,则的核值必是S的核值。

2 基于核值的ROUSTIDA算法描述

2.1 算法描述

由上述推论可以表明将不完备信息系统S分离成其极大完备子系统和待补系统,而的核值必是S的核值,这说明在的核值的基础上引进不可分辨关系不影响S的核值。

该算法是以可辨识矩阵为基础,基本流程如下。

输入:不完备信息系统;

输出:完备信息系统;其中,前者是条件属性集,后者为决策属性集;

第一步 核值化:

将分离成它的极大完备子系统和待补系统。将看作是一个独立系统,建立它的核值体系,然后再将非核值的数据改为“*”,这样就会得到一个新的系统,将组合成一个新的信息系统=<,,,>.

第二步 求矩阵,,;r=0;

第三步

1)针对所有,求得,;

2)生成

(1) 对于所有,有=,;

(2) 对于所有,对做循环;

①若=0,=*;

②否则若,则

(1)若,则;

(2)若,则;

(3)否则;

③若某一对象与多个对象存在不可分辨关系,则将此对象的缺失属性值用其余对象的此属性的均值填补;

第四步 决策表中对象独立性的判断:

1)对上述;若=0,则如存在,使=时,都有,将=*转步骤3,否则转2;若有(),将()整行删去;否则转2;

2)若=转步骤5;否则,计算,,,,转到第三步;

第五步 如果有遗失值,可用其他算法处理;

第六步 结束。

2.2 算法分析

算法主要解决使ROUSTIDA算法失效的不完备数据。可以通过以下图表来说明问题。包括原始的不完备信息表,经过步骤一得出的基于核值的不完备信息系统,以及最终得到的完备信息表。

表1 原始表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 * 1 0

5 1 0 1 2

表2 基于核值的不完备信息表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 1 1 1

5 1 0 1 2

表3 结果表

U a1 a2 a3 a4

1 0 1 0 1

2 0 2 1 0

3 0 0 0 0

4 0 1 1 0

5 1 0 0 2

与原ROUSTIDA算法比较,该算法能使更多的缺失项得到科学的填补,且该算法在缺失项填补过程中,基于可辨识矩阵,以核值为比较对象,这样填补可保留更多的核值,从而使填补的值与决策规则更为贴近。同时第四步对决策表中对象独立性的判断,使该算法避免了应用其他方法可能导致的决策规则矛盾的问题。

但该算法也存在一定的缺点:1)计算较为复杂,比原ROUSTIDA算法计算繁琐;2)该算法仅对缺损数据较少时适用,若缺损较多,则对于初始计算极大完备子系统时存在的困难较大,甚至可能无法操作。

3 结论

一般的填补数据方法有时容易引起信息表内容的冲突,本算法是基于核值的基础上进行缺失数据填补的,能够保持更多的核值,并且更好的避免了信息表的冲突,又较好的反映了信息表所蕴含的决策规则。

参考文献

[1]Pawlak Z. Rough Sets and Fuzzy Sets. Fuzzy Sets and Systems, 1985(17):99-102.

[2]Krysikiewicz M. Rough Set Approach to Incomplete Information System. Information Sciences, 1998(112):39-49.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2005.

[4]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2006.

[5]曾黄麟.粗糙集理论及其应用[M].重庆:重庆大学出版社,1996.

作者简介

席宁(1977-),女,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。

摘 要 利用粗糙集的知识来进行缺失数据填补的方法很多,但很多都没有考虑到决策规则。文章利用核值的重要性,通过构造可辨识矩阵,使得填补的数据更好的遵循决策规则,消除噪音数据。

关键词 核值;极大完备子系统;可辨识矩阵

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0061-01

1 粗糙集相关知识

在现今社会中,各个行业都会用数据库来保存大量的历史数据。然而,这些数据总会在不经意间有所缺失,可能是环境因素,也可能是人为缺失。缺失的数据都蕴含着大量宝贵有用的信息,与企业经营成果息息相关,因此很多企业都采用数据挖掘等技术,从缺失的数据中挖掘出有价值的信息。

粗糙集理论是继概率论,模糊集,证据理论之后的又一个处理不确定性的数学工具,其作为一种较新的软计算方法,其被有效的运用到数据预处理中,为不完备信息的填补开辟了另一条途径。

在基于粗糙集的属性约简过程中,核值才是最有用的数据。本文提出了一种基于核值的重要性的填补方法,较好的保持信息表的决策规则。

该算法主要涉及到极大完备子系统和可辨识矩阵等粗糙集知识,相关的定义如下。

定理1 任一信息系统=,若增加一条对象,构成一个新的信息系统=<,,,>,其中,则的核值必是的核值。

推论 不完备信息系统S=,=是其极大完备子系统,则的核值必是S的核值。

2 基于核值的ROUSTIDA算法描述

2.1 算法描述

由上述推论可以表明将不完备信息系统S分离成其极大完备子系统和待补系统,而的核值必是S的核值,这说明在的核值的基础上引进不可分辨关系不影响S的核值。

该算法是以可辨识矩阵为基础,基本流程如下。

输入:不完备信息系统;

输出:完备信息系统;其中,前者是条件属性集,后者为决策属性集;

第一步 核值化:

将分离成它的极大完备子系统和待补系统。将看作是一个独立系统,建立它的核值体系,然后再将非核值的数据改为“*”,这样就会得到一个新的系统,将组合成一个新的信息系统=<,,,>.

第二步 求矩阵,,;r=0;

第三步

1)针对所有,求得,;

2)生成

(1) 对于所有,有=,;

(2) 对于所有,对做循环;

①若=0,=*;

②否则若,则

(1)若,则;

(2)若,则;

(3)否则;

③若某一对象与多个对象存在不可分辨关系,则将此对象的缺失属性值用其余对象的此属性的均值填补;

第四步 决策表中对象独立性的判断:

1)对上述;若=0,则如存在,使=时,都有,将=*转步骤3,否则转2;若有(),将()整行删去;否则转2;

2)若=转步骤5;否则,计算,,,,转到第三步;

第五步 如果有遗失值,可用其他算法处理;

第六步 结束。

2.2 算法分析

算法主要解决使ROUSTIDA算法失效的不完备数据。可以通过以下图表来说明问题。包括原始的不完备信息表,经过步骤一得出的基于核值的不完备信息系统,以及最终得到的完备信息表。

表1 原始表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 * 1 0

5 1 0 1 2

表2 基于核值的不完备信息表

U a1 a2 a3 a4

1 0 1 0 1

2 * 2 1 0

3 * 0 0 0

4 0 1 1 1

5 1 0 1 2

表3 结果表

U a1 a2 a3 a4

1 0 1 0 1

2 0 2 1 0

3 0 0 0 0

4 0 1 1 0

5 1 0 0 2

与原ROUSTIDA算法比较,该算法能使更多的缺失项得到科学的填补,且该算法在缺失项填补过程中,基于可辨识矩阵,以核值为比较对象,这样填补可保留更多的核值,从而使填补的值与决策规则更为贴近。同时第四步对决策表中对象独立性的判断,使该算法避免了应用其他方法可能导致的决策规则矛盾的问题。

但该算法也存在一定的缺点:1)计算较为复杂,比原ROUSTIDA算法计算繁琐;2)该算法仅对缺损数据较少时适用,若缺损较多,则对于初始计算极大完备子系统时存在的困难较大,甚至可能无法操作。

3 结论

一般的填补数据方法有时容易引起信息表内容的冲突,本算法是基于核值的基础上进行缺失数据填补的,能够保持更多的核值,并且更好的避免了信息表的冲突,又较好的反映了信息表所蕴含的决策规则。

参考文献

[1]Pawlak Z. Rough Sets and Fuzzy Sets. Fuzzy Sets and Systems, 1985(17):99-102.

[2]Krysikiewicz M. Rough Set Approach to Incomplete Information System. Information Sciences, 1998(112):39-49.

[3]王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2005.

[4]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2006.

[5]曾黄麟.粗糙集理论及其应用[M].重庆:重庆大学出版社,1996.

作者简介

席宁(1977-),女,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。