APP下载

改进K-means结合深度学习的不完备信息选取

2021-11-17宋新鹏张彦波

计算机仿真 2021年9期
关键词:粗糙集聚类边界

宋新鹏,张彦波

(1.河南大学信息化管理办公室,河南 开封,475004) 2.河南大学物理与电子学院,河南 开封,475004)

1 引言

随着信息技术的高速发展,现实生活中的数据信息量越来越大。由于数据信息在获取过程中的有限性,及测量过程中的误差性等原因,导致数据理解不全面,所掌握的数据信息通常不完备[1-2]。同时很多信息常常具有属性偏好,如学生成绩、工作效率、产品质量、投资回报等等,这些属性值会导致偏好次序的形成[3]。传统的粗糙集理论在数据分析方面起了很大的作用,然而该理论对噪声数据处理效果不好,在多粒度的信息系统中,信息的多属性值难以获取或经常丢失,因此对于不完备信息系统进行研究具有重要的意义,大量学者也在传统的粗糙集模型基础上进行了改进。文献[4]提出一种不完备邻域决策粗糙集的最小化代价属性简约算法,该方法在连续型数据系统中引入不完备邻域关系,利用二元关系对信息集进行重新构造,实验结果表明,该方法具有较好的约简性能,然后对于更加复杂的信息系统模型优势不明显。文献[5]提出一种基于信息熵的不完备数据特征选择算法,该方法以不完备信息作为特征准则,通过数据特征对熵值进行分析,解决了数据间的特征相关问题。实验结果表明,该算法具有较高的选择速度和正确率,然而由于空值的影响,该方法不能直接对不完备信息进行分析处理。文献[6]提出一种面向不完备信息系统的集对K-means聚类算法,该方法通过集对度量方法,取得初步聚类数据,然后将其分到相应域的边界域,最后通过选取UCI数据库的多个数据集进行实验评价。实验结果表明,该方法具有较好的聚类性能,然而由于信息变化对聚类算法的影响较大,该方法不能更好的取得合适参数。

基于现有研究,本文结合基础理论建立不完备信息系统的粗糙集,根据信息的决策域,求得不完备信息系统粗糙集的上近似值和下近似值。并将信息扩展到三个维度,通过对信息聚类,将相近度高的样本划分到正同域中,使样本处在聚类的中心位置,并结合深度学习,通过对样本的反复训练,增强选取目标的有效性。

2 不完备信息选取

信息具备随机性、有噪音、规模大等特性,信息选取是选择出用户敏感且有效的信息,决策管理者可以通过方法分析处理相关信息[7-9]。信息系统的另一种替代词为知识表达系统,通常可描述为四元方程,用公式可表示为

S=(U,A,V,f)

(1)

其中,U表示信息非空有限样本集;A表示信息非空有限属性集;V表示U关于A的信息值域集合;f表示关于信息的函数;以上变量可具体描述为

U={x1,x2,x3,…,xn}

A={a1,a2,a3,…,am}

V={V1,V2,V3,…,Vm}

f:vis=f(xi,as)∈Vs

(2)

其中,n表示信息非空有限样本集中数据样本的个数;m表示信息非空有限属性集中属性值的个数;Vs表示属性as(1≤s≤m)的值域;vis表示样本xi通过信息函数f在属性as上的计算结果。如果存在属性值缺失,那么信息系统便是不完备的系统。

与传统的粗糙集模型相似,不完备信息系统的粗糙集具有相同的表达形式,对于样本中的xi,假设邻域类为nφ(xi)、状态集为Q={X,Xd},其中X⊆U,Xd为X的补集,在不完备信息系统中,样本xi的状态集概率用公式可表示为

(3)

根据贝叶斯公式,可以求得对于∀xi∈U,应用动作集R={ap,ab,an}的三种行为决策公式为

Costp(xi)=αpp·p(X|nφ(xi))+αpn·p(Xd|nφ(xi))

Costb(xi)=αbp·p(X|nφ(xi))+αbn·p(Xd|nφ(xi))

Costn(xi)=αnp·p(X|nφ(xi))+αnn·p(Xd|nφ(xi))

(4)

根据最小化规则,当满足如下条件时

(5)

可推导得出

αpp·p(X|nφ(xi))+αpn·(1-p(Xd|nφ(xi)))

≤αbp·p(X|nφ(xi))+αbn·(1-p(Xd|nφ(xi)))

(6)

此时满足

(7)

其中,T(X)表示样本xi的一种行为,根据以上信息的决策域,可以求得不完备信息系统粗糙集的上近似值和下近似值,用公式分别表示为

(8)

其中

(9)

3 改进K-means聚类算法的信息选取

测量样本之间的距离是信息聚类中至关重要的过程,本文将信息样本间的距离拓展到3个维度:正同度、负反度和差异度,这样便可以有效的解决缺失值对不完备信息系统的影响。基于信息粒子中的正同度粒子集、负反度粒子集和差异度粒子集,本文采用正同域、负反域和边界域来表示不完备信息的聚类结果。其中正同域表示样本属于这一类,用Yz表示;负反域表示样本不属于这一类,用Yf表示;边界域表示样本可能属于这一类,用Yb表示。通过对信息聚类,将相近度高的样本划分到正同域中,使样本处在聚类的中心位置;将相似度低的样本划分到边界域;将相似度极低的样本划分到负反域。这三个域应满足如下条件

(10)

其中,Yi表示类簇。通过上式可以看出,每类簇的正同域Yz都不能为空集,任何一个样本最多只能属于一类簇的正同域。

针对数据缺失的不完备信息系统,对缺失的属性值进行集对分析。通过正同域、负反域和边界域来表示一种聚类。针对这3种划分关系,本文将K-means聚类分为两个阶段,第1阶段:构造正同域和边界域的信息集合;第2阶段:分离正同域和边界域的信息集合。根据集对距离可以求得每个样本最近的聚类中心,假设样本xi已经被划分到最近的了类簇Yi=Yi∪{xi},在迭代过程中,新聚类中心用公式可表示为

(11)

其中,x∈Yj,x={t1,t2,…,tn},j=1,2,…,k,|Yj|表示类簇Yi的信息元素个数。通过以上过程聚类的初步结果计算完毕,可以将类簇的样本分离成两种类型,公式表示为

(12)

通过对初步聚类的计算结果详细划分,可以分离正同域和边界域。假设正同度的阈值和负反度的阈值分别为ε和μ,计算该样本所在的类别中聚类中心的关联性。通过比较正同度和负反度与阈值大小之间的关系,依次将样本信息分配到其对应类簇的正同域和边界域中,公式表示为

(13)

4 深度学习

深度学习是以当前的信息为依据,采取从信息系统中获取相似度较高信息的过程。表示在当前信息状态Ht下,信息系统采取行为Et,根据信息转移函数P,信息状态由Ht转移到Ht+1,同时信息系统会根据当前状态Ht下采取行为Et的情况,反馈回一个信号Gt。通过不断训练,求得最优策略。深度学习框架如图1所示。

图1 深度学习框图

深度学习是一种经典的深度强化学习算法,可以感知不完备信息,根据深度学习部分提供的信息作出决策,从而完成信息的映射。虽然深度学习可以近似评估信息网络值,然而它却破坏了信息网络值的无条件收敛性,因此本文从以下两方面进行了优化。

一方面,在深度学习中由于智能体系与信息系统不断迭代交互,上一个信息状态与当前信息状态相似度极高,导致神经网络拟合时无法收敛。因此在深度学习中增加一个记忆库,用来存储这一段时间内的训练数据。在每次学习过程中,深度学习算法都会从记忆库中随机选择一些样本数据,输送到神经网络中。为了提高训练样本的利用率,将每次产生的新训练样本与旧训练样本混合更新,从而混乱样本间的关联性。

另一方面,当在深度学习中建立了一个与当前评估网络结构完全相同,而参数不同的目标神经网络时,当前的目标值Q只能由评估网络预测出来,这种方法可以有效的降低当前值与目标值的关联性,损失函数用公式可表示为

(14)

-Q(Ht,Et;θ))∇Q(Ht,Et;θ)

(15)

5 仿真实验与结果分析

(16)

式中,关于d和l项的计算分别为

(17)

其中,TWCi表示属于样本Ci,且正确聚类到这类信息的个数;FWCi表示不属于样本Ci,但错误聚类到这类信息的个数;FMCi表示属于样本错误聚类的其他类信息个数。

准确率Acc:表示信息的聚类效果,准确率越高,聚类效果越好。用公式可表示为

(18)

其中,φi表示类簇Yi中正确划分的样本信息个数;n表示样本信息总数。

图2 正同域聚类结果随参数α、β和γ变化的波动图像

图3 正同域和边界域的聚类结果随参数α、β和γ变化的波动图像

表1 正同域最优参数下的性能分析

表2 正同域和边界域最优参数下的性能分析

6 结束语

猜你喜欢

粗糙集聚类边界
基于隶属函数的模糊覆盖粗糙集新模型
一种傅里叶域海量数据高速谱聚类方法
基于知识图谱的k-modes文本聚类研究
基于数据降维与聚类的车联网数据分析应用
守住你的边界
基于模糊聚类和支持向量回归的成绩预测
有边界和无边界
OF MALLS AND MUSEUMS
人蚁边界防护网
基于粗集决策规则性质的研究