APP下载

基于特征关系的加权投票聚类集成研究

2018-02-07江志良

计算机工程与应用 2018年3期
关键词:子集计算方法标签

江志良,侯 远,吴 敏

华东师范大学 计算机科学与软件工程学院,上海 200062

1 引言

聚类是最重要的无监督学习方法之一。对于复杂数据集,单一的聚类算法较难发现数据稳定和较优的分类结构,而聚类集成可以解决这一问题[1]。

聚类集成的实现策略有基于数据点的共现关系及基于中值划分[2]的方法。第一种策略包括重标签和投票[3-4]、基于共生矩阵的二次聚类[5]、基于图或者超图的集成聚类[6-7];第二种策略主要通过Mirkin-Distance[8]等方法进行集成,其实现往往是NP难的[9-10],因此需应用启发式方法加以改进[11]。

对于具有较多特征的数据,一种较好的聚类集成策略包括如下两个步骤:(1)用单聚类算法对数据的不同特征子集进行聚类,得到若干个聚类成员;(2)由于使用不同数据子集进行聚类,因此每个聚类成员的质量是不一样的,需要对其进行加权投票。

在选择聚类成员的数据子集时,一般可用随机抽样,但较难确定样本容量大小和抽样次数。本文从特征相关性的角度出发,将数据集中每个特征与之不相关的K个特征(K<总特征数)组成数据子集,作为聚类成员的数据输入。这种数据选择方法相比随机抽样而言不确定的参数更少,从实验结果来看,其聚类集成效果也优于随机抽样。

基于加权投票的聚类集成方法实现简单,但需要对每个聚类成员进行重标签操作。已有的重标签方法主要有二分匹配(匈牙利算法)[12]、累积投票(Cumulative Voting)[13]等,但这些方法实现较为复杂。本文基于数据子集相似度,提出一种改进的Jaccard距离方法来解决重标签问题。

加权集成的另一重要问题是如何确定单聚类结果的权重准则。Vega-Pons[14]等基于CVI准则作为聚类加权标准,阳琳赟[15]等通过互信息对聚类成员进行加权,Devi K N V R[16]等将属性相关性作为加权标准,潘俊[17]等依据特征划分进行聚类集成。本文将经典的Davies-Bouldin-Index(DBI)[18]聚类准则作为权重计算方法之一,该方法不需借助外部标签,使用质心作为类簇的代表但计算量较大。相应的,本文将质心替换成均值、方差等基本统计量,提出一种计算量较小的权重计算方法。此外,本文还从特征关系出发将信息增益[19]、RELIEF[20]这两种特征选择方法改进为权重计算方法,并提出一种基于特征取值差异的权重计算方法。实验表明,这五种权重计算方法能很好处理球状类簇的数据集,信息增益和RELIEF方法对不规则形状类簇的数据集性能更好。

本文的内容安排如下:第2章给出聚类集成的问题描述;第3章论述基于最小特征相关性的数据子集的选取方法;第4章提出改进的相似度计算方法及重标签的步骤;第5章介绍了五种权重计算方法的定义和差别;第6章描述了基于加权投票的聚类集成步骤;第7章通过实验展现了不同权重计算方法对聚类集成的准确率影响及最小相关特征选择法的优势;第8章是对本文的总结。

2 问题描述

假定数据集D共有M条数据{d1,d2,…,dM}和N个特征{f1,f2,…,fN}。为论述方便,将D形式化表示成{F1,F2,…,FN},其中Fi为一个M维列向量,代表所有M条数据在第i个特征的值。

本文的聚类集成方法框架如下:用同一种聚类算法对数据集的不同部分进行聚类,最后将所有聚类结果进行融合。该框架的主要步骤有数据子集选择,聚类成员的权重计算,聚类结果的重标签和最终的加权投票。

3 基于特征相关性的数据子集选择

聚类集成的每个聚类成员都需要对数据集D的一个子集进行聚类。如果一个数据子集的特征间相关性很大,那么该次聚类能够使用的特征信息就很少,聚类集成就不能覆盖整个特征空间。所谓特征相关性,是指特征之间相互独立或相互依赖的程度。若特征之间是线性相关的,则可用皮尔逊系数来衡量其大小;更一般的相关性则使用互信息的方法来计算。本文使用与互信息等价的信息增益[19]方法来计算特征之间的相关性。数据子集的选取,一般可通过随机抽样来确定,但若要选取尽量不相关的特征,抽样大小和次数较难掌握。本文提出最小相关的特征选取方法,它以数据集的每个特征为基准,选择与其相关性最小的K个特征构成数据子集。具体包括如下两种策略:

算法1(子数据集选择)

策略1对数据集D的特征集{fi,f2,…,fN}中每一特征fi,计算D-{fi}中每一特征和fi的相关性,并选取与fi相关性最小的K-1个特征和fi一起组成数据子集Subi。

策略2

策略1只考虑与每个特征相关性最小的若干个特征,因而较容易获取特征子集,但也可能会导致特征重复,如 f2,f3,f4是和 f1相关性最小的3个特征,但 f2和 f4之间的相关性可能很大。策略2对策略1进行了改进,尽量考虑了所有特征的相关性。

实验表明策略1和策略2的聚类集成准确率都高于随机抽样,且策略2在聚类数较少时效果更优。

对于每个子特征集的大小K,从理论上来说并没有严格的限制。在后续的实验中本文给出了使得聚类准确率较高的K值的参考范围。

4 重标签

不同聚类过程对同一数据集进行聚类可能会得到不同的结果。例如:数据集D经过某个聚类算法聚类后得到聚类结果Pi=[1,2,3,4],即D的类簇标签是[1,2,3,4];不失一般性,假设再次使用该聚类算法对D进行聚类得到的类簇标签是Pj=[4,3,2,1],虽然Pi≠Pj,但它们指代的是相同的聚类结果,因此需要将Pj重置为[1,2,3,4],或将Pi重置为[4,3,2,1]后才能正确地对聚类结果进行投票。本文将基于最直接的数据相似度完成重标签步骤。下面先给出相似度的定义,并提出改进策略。

定义1(Jaccard距离)

集合S1和S2的Jaccard距离定义为:其中#表示集合中的元素个数。

直接使用Jaccard距离获取的是两个集合元素的重叠程度,可能会造成信息遗漏。例如,给定两个数据子集 S1={d1,d3,d5,d6,d7}和 S2={d1,d3,d8,d9,d10},其中di代表样本点的序号。显然,Jaccard(S1,S2)=0.25。然而,经过数据相似度计算发现,d5和d9对应的样本点之间的相似度大于规定的阈值,可认为d5=d9,从而Jaccard(S1,S2)=(2+1)/(8-1)=3/7。

可见,为避免遗漏信息,还需要检查集合的差集,从中找到符合相似度阈值的元素对的个数。因此,本文提出改进的Jaccard距离的计算方法如下:

算法 2(J2)

其中,{S1-S2}表示属于S1不属于S2的元素集合,E代表相似度计算函数。

由此,给出重标签的具体步骤如下:给定数据集D,设PA={CA1,CA2,…,CAN}和PB={CB1,CB2,…,CBM}为两个单聚类结果,其中CAi表示PA中的第i个类簇标签,CBj表示PB中的第j个类簇标签。记SAi,SBj分别表示属于类簇CAi,CBj的数据子集,则有:

若以PA为基准进行重标签,则对PA中的每个类簇CAi及其对应的数据子集SAi,遍历PB中的每个元素CBj及其对应的数据子集SBj,将J2(SAi,SBj)最大的SBj对应的CBj重新标签为CAj即可。需要注意,集合PA,PB的元素个数不一定相等,且PA中某个元素对应的数据子集可能和PB中的若干个元素对应的数据子集相似度相同或相近,因此重标签时会出现一对多的情况,如,CB1重标签的结果是{CA1,CA2},CB2重标签的结果是{CA2,CA3}。最后唯一的重标签结果可通过最终的加权投票确定。

5 基于特征关系的聚类准则

5.1 基本流程

重标签后,要对不同的单聚类算法的结果进行加权投票,得到最终的聚类标签。

通用的加权投票算法框架如算法3所述,其中M为数据集D的条目总数,聚类成员集合中的每个元素P是一个由聚类标签构成的M维列向量,即,向量的每个元素为对应序号的数据点的聚类标签。

算法3(加权投票)

将label中最大的value对应的key作为第i个样本点的最终标签

其中,label={∅,∅}是一个由key,value组成的二元组集合,key为标签,value为权重。

加权投票的权重对聚类融合结果影响很大。本文结合聚类评价准则和特征选择方法,分别采用DBI、信息增益、RELIEF以及两种新方法作为单聚类结果的权重计算准则。

5.2 几种权重计算方法

5.2.1 Davies-Bouldin-Index评价准则

Davies-Bouldin-Index(DBI)[18]是一种经典的聚类评价准则。它不需要借助外部标签,主要考虑类簇之间的关系和类簇内数据点离类簇中心的距离。

定义2(DBI):

其中,N代表聚类数,Si表示第i个类簇中所有数据点和其质心距离的均值,Mij代表第i和j个类簇质心之间的距离。不难看出,Mij值越大,Si值越小,DBI的值越小,即类簇之间的距离越大、同一类簇内的数据点越集中,聚类的质量越好。因此,DBI的值越小,聚类的质量越好。本文直接使用weight=eDBI-1作为单聚类结果的权重,e为自然底数。

DBI依据“类簇之间差异最大,类簇内差异最小”的聚类标准,通过质心以及样本点之间的距离定量分析类簇之间的差异。但是,它非常依赖类簇的质心,因此主要适用于评价球状类簇。

5.2.2 信息增益

信息增益[19]是最重要的特征选择方法之一,其核心是信息熵。假设特征F有k个取值 f1,f2,…,fk,p(fi)为特征F取值 fi的概率,则代表特征F的信息熵。在聚类问题中,特征F相对于聚类结果即类簇集合C={c1,c2,…,ck}的信息熵为:

定义3(相对信息熵):

同样,可定义特征F对类簇集合C的信息增益:

定义4(信息增益):

其中信息增益IG表示由于特征F而使得类簇集合C的不确定性减少的程度。F的信息增益越大,它在C的各个类簇中的区分度就越大,因此信息增益大的特征越多,聚类的质量就越好。使用信息增益来计算单聚类结果权重的方法如下:

其中,D代表整个数据集,F代表某个特征,col(D)表示特征个数,CTN是一个可选函数,当特征为连续值时,可将其转换为离散特征。

信息增益基于信息熵来评价特征与类别标签之间的相关性。当特征是离散值时,通过统计特征不同取值的频数来近似得到特征的离散概率分布。当特征为连续值时,一般有两种处理方法:(1)假设特征符合某种概率分布,在此基础上计算连续概率获得熵值分布。(2)将连续特征转换为离散特征再进行处理。为了统一计算,本文采取特征离散化的方法,将连续特征等距划分为离散值。基于信息增益的方法通过熵值差异来计算特征和类簇之间的相关性,理论上可以处理各种形状类簇的数据。

5.2.3 RELIEF

RELIEF[20]算法是一种用于特征选择的经典方法,其形式化描述如下:

算法 4(RELIEF)

该算法的基本思想是:尽量使每一个样本点和同一类别内距离其最近的样本点的间距最小,和不同类别内距其最近的样本点间距最大,因此它可以非常自然地作为聚类算法的评价标准。

从应用的角度来看,RELIEF考虑的是样本的密度,即使数据集的类簇形状是不规则的,只要每个类簇内的数据具有一定的密度,类簇之间有明显的间隔,RELIEF算法的效果就很好。

5.2.4 特征取值差异

本文基于特征之间的关系提出一种基于特征分布差异的权重计算方法。在理想情况下,当聚类结果的质量最好时,大部分特征在结果类簇中的区分度应最大,即当特征F的k个取值{f1,f2,…,fk}正好各自落在k个类簇{c1,c2,…,ck}中时,相对于特征F而言的聚类结果质量是最好的,但实际上特征的不同取值不会正好对应不同的类簇。一种直接的考虑是:特征F的取值在不同类簇间的频数差异越大,它在C个类簇中的区分度也就越大。于是,定义如下:

定义5(特征取值差异法):

其中abs是绝对值函数,nc表示类簇的个数,nf表示特征F取值的种数,freqik表示特征F的第k种取值在类簇Ci中出现的次数。基于最大频数差异的聚类成员权重计算方法如下:

其中,CTN是一个将连续特征进行离散化的可选函数,col(D)表示D的特征个数,getFreq(F,C)获取特征F的不同取值在不同类簇中出现的次数。

特征取值差异法只考虑每个特征的不同取值在不同类簇中出现的次数,并不直接计算特征和类簇的关系。

5.2.5 基本统计量差异

在评价聚类结果时,聚类后的每一个类簇一般都有一个代表性的特征,如使用DBI准则进行评价时,类簇代表是质心。以质心为基础的评价方法计算准确,但由于涉及每一个样本点和质心之间以及两两质心之间的距离,计算代价较大。本文使用更一般的统计量来代表每个类簇。具体定义如下:

定义6(基本统计量差异法):

其中,C表示所有类簇集合,F表示所有特征集合,nf代表特征个数,nc代表类簇个数;分母表示所有类簇方差的均值,该值越小,说明类簇内数据聚合度越高;分子diff定义如下:

其中,abs是绝对值函数,max(Cfi),min(Cfi),avg(Cfi)分别表示特征f在类簇Ci中的最大、最小和均值。易见,diff表示属于不同类簇两两之间的均值、最值的差,差值越大,类簇之间的距离越大。因此,基本统计量MS的值越大,表明聚类效果越好,从而可用于计算聚类结果权重。

6 聚类集成框架

整个加权投票的聚类集成框架如下:

步骤1初始聚类成员集合P={},权重集合W={}

步骤2

for i=1 to特征数:

1.用最小相关法选择特征子集Subi

2.用某种聚类算法对Subi进行聚类,得到结果pi,用算法5修正pi,并将修正后的pi加入集合P

3.用某种权重方法计算pi的权重wi,将wi加入集合W

步骤3对权重集合W进行0-1标准化

步骤4

for p1in P:

cand={p1}

for p2in P-{p1}:

以p1为基准将p2进行重标签并将更新后的p2加入集合cand用算法3对cand加权投票,得到最终聚类标签L用算法5修正L并用聚类准则计算L的准确率输出聚类准确率最高的L

基于加权投票的聚类集成在限制类簇个数的情况下,有时会出现一种包含样本点很少且离其他类簇较近的噪声类簇,如图1所示。

图1 噪声类簇

图1包含3个类簇,但·代表的类簇样本点很少,且和其他两个类簇距离很近,因此应该将其与其他两个类簇进行合并,最终的聚类数为2。这一合并思路可通过下列算法实现:

算法5(噪声簇合并)

for c in所有类簇:

如果 c的容量<=容量阈值:

for d in c:

dn=距d最近的类簇的质心

avg=距d最近类簇中所有点到质心的平均距离

if E(dn,d)<=avg

将d指派到dn对应的类簇中

其中c代表一个类簇,d代表类簇c中的一个数据点,E是一种相似度计算函数。

7 实验

7.1 实验数据及评价标准

本文从UCI Machine Learning Repository[21]选取了具有一定特征数的6个球状类簇数据集和4个不规则类簇数据集,见表1。

表1(a) 球状类簇数据集

表1(b) 不规则类簇数据集

本文使用经典的聚类评价标准DBI[18]和SDBW[22]来评价实验结果。这两种标准不需借助类标签信息,是无监督性质的评价准则,并且在常用的无监督评价准则中,SDBW的可信度是最高的[22]。但是这两种标准只能用于具有球状类簇的数据集。针对有真实类别信息的数据集,由于每个类别的实例数大致相同,即数据集是平衡的,因此直接使用分类准确性来评价。

DBI和SDBW的核心思想是类内距离和类间距离的比值,它们的值越小说明聚类效果越好;分类准确性为聚类正确的标签个数和数据集实例数的比值,值越大说明聚类效果越好。

为了更加全面地比较单次聚类和聚类集成的效果差异,本文基于上述三种评价标准定义如下评价方法:

定义7(单权重相对评价):

(1)对于DBI和SDBW,其相对评价定义为:

(单次评价值-集成评价值)/单次评价值

(2)分类准确率的相对评价定义为:

(集成准确率-单次准确率)/单次准确率

其中单次或者集成评价值是根据某一权重计算方法的单次聚类或者聚类集成结果计算的,如果考虑所有权重计算方法,则评价方法如下:

定义8(多权重相对评价):

7.2 实验结果

7.2.1 不同数据子集选择策略的对比

假设数据集一共有M个特征,为了分析最小相关特征选择法的效果,设计如下实验:设定M个聚类成员,之后:

(1)针对数据集的每一个特征,用算法1确定K个特征作为每个聚类成员的输入,进行加权聚类集成。

(2)对数据集随机抽样M次,每次抽出K个特征作为每个聚类成员的输入,进行加权聚类集成。

其中K值的大小经过之后的实验确定为特征总数M的70%~80%。

针对每一种数据子集选择方法,分别使用定义8计算该方法下聚类集成的效果,可以得到图2所示的实验结果,实验使用6个具有球状类簇的数据集,其中每个数据集的聚类数取其实际类别数。对于剩下的4个具有不规则类簇的数据集,DBI和SDBW不再适用,因此只比较它们的分类准确率。

从实验结果可知,最小相关特征法在大部分数据集上的相对评价都比随机抽样法高。它的DBI相对评价在5个数据集上高于随机抽样,SDBW的相对评价在4个数据集上高于随机抽样,分类准确度的相对评价在8个数据集上都高于随机抽样。因此,相对随机抽样而言,最小特征相关法不仅具有更少的不确定参数,用于聚类集成时的效果也比前者好。 使用最小特征相关法作为数据子集选择方法时,需要为每一个聚类成员选择K个特征,本文以每个数据集的分类准确性为依据,观察K取不同值时对分类准确性产生的影响,结果如图3。

图3中每一条折线代表一个数据集,分析可知,当使用最小相关特征法作为数据子集选择方法并进行聚类集成后,每个数据子集的特征数K取特征总数的70%~80%时,大部分数据集的聚类准确率都是最高的,当K大于特征总数的80%时,分类准确率不再提升。

7.2.2 球状类簇数据集的聚类集成实验

针对6个球状类簇数据集,将聚类数设定为数据集的真实类别数,分别使用K-Means和基于层次聚类的Agglomerative(AL)这两种聚类算法进行加权聚类集成,实验结果如表2所示,其中ACC、DBI、SDBW分别代表分类准确率、DBI评价值和SDBW评价值。每一行数据为某一数据集上分别使用五种权重计算方法聚类后得到的评价值的均值。

图2 两种数据子集选择方法的对比

图3 分类准确率和K值的关系

表2 两种算法下单聚类和聚类集成的对比

表2显示,聚类集成的真实分类准确率在所有数据集上都优于单聚类,且聚类集成的DBI和SDBW值在大部分数据集上也都优于单聚类。

接下来,基于DB Index(DBI)、信息增益(IG)、RELIEF(RF)、特征取值差异(MF)、基本统计量差异(MS)这五种权重计算方法,表3给出了每种权重计算方法下单聚类和聚类集成的效果。因为涉及所有数据集的评价值,权重计算方法的评价值的计算如下:对该权重计算方法在6个数据集和2种聚类算法(KMEANS,AL)下的各评价值(ACC/DBI/SDBW)构成的列表进行0-1标准化,将标准化后的均值作为最终评价值。进行标准化是因为评价值在不同数据集(相同聚类数)上的取值差异较大。

从表3可以看出,在五种权重计算方法下聚类集成的效果都好于单次。使用定义7对表3的数据计算发现,基于信息增益(IG)和基本统计量差异(MS)的方法在分类准确性上提升较高,为9.4%和8.8%。基于特征取值差异(MF)和基本统计量差异(MS)的方法在DBI上提升较高,为15.0%和15.2%。基于基本统计量差异(MS)和RELIEF(RF)的方法在SDBW上提升较高,为52.1%和53.5%。综合来看,基于基本统计量差异法的权重计算方法性能较好。

表3 不同权重计算方法的效果对比

图4给出了基于五种权重计算方法的聚类集成在不同数据集上的相对评价差异。从图中可看出,基于这五种权重计算方法的聚类集成在大部分数据集上的相对评价都大于0,且DBI相对评价在所有数据集上的趋势基本一致,基于特征取值差异(MF)的权重计算方法的SDBW相对评价在大部分数据集上高于其他权重方法,基于信息增益(IG)的权重计算方法的分类准确性相对评价在大部分数据集上高于其他权重方法。

图5给出了五种权重计算方法的平均执行时间。由此可见,基于RELIEF算法的权重计算方法时间消耗最大,而基于基本统计量差异(MS)的计算方法的时间性能最好,基于DBI的方法次之。综合考虑五种权重计算方法的效果和时间性能,基于DBI和基本统计量差异(MS)的权重计算方法较优。

7.2.3 球状类簇数据集不同聚类数的聚类集成

图4 不同权重计算方法的相对评价

图5 五种权重方法在各数据集上的执行时间

尽管数据集都有真实类别数,但在现实问题中聚类数往往不确定。因此,本文进一步考虑了不同聚类数下单聚类和聚类集成的差异。每一行数据取五种权重计算方法下聚类评价值的均值。实验结果如表4所示。从实验数据来看,在聚类数为4,6,8,10的条件下,基于不同权重计算方法的聚类集成在两种聚类算法下的DBI和SDBW的平均值都优于单次聚类。

针对每一种权重计算方法,类似7.2.2小节的实验,分别计算它在所有聚类算法(K-Means和AL)下所有数据集上的DBI和SDBW评价值经过0-1标准化后的均值,结果如表5所示。从实验数据来看,无论使用哪种权重计算方法,在不同聚类数下的集成效果都比单聚类好。

表4(a) K-Means算法下不同聚类数目下的DBI和SDBW对比

表4(b) Agglomerative算法下不同聚类数目下的DBI和SDBW对比

表5 不同聚类数目下不同权重计算方法在所有数据集上的DBI和SDBW对比

进一步,依然使用定义7(相对评价)分析不同权重计算方法在不同数据集上集成效果的差异,结果如图6所示。可以看出,五种权重计算方法随聚类数增加而变化的趋势大致一致,其中DBI相对评价随聚类数的增加有所降低,SDBW的相对评价在聚类数为6时最高,之后也随聚类数增加而下降。并且基于信息增益(IG)和基于DBI的权重计算方法在的相对评价在大部分聚类数上都高于其他权重计算方法。

图6 不同权重方法下相对评价随聚类数的变化

图7 4个不规则数据集降到三维的可视化结果

7.2.4 不规则类簇数据集的聚类集成实验

为比较五种权重计算方法在不规则类簇数据集上的效果,本文使用表1(b)所示的数据集进行实验,图7是4个数据集降维后的可视化结果。

不规则数据的质心是没有意义的,因此使用分类准确性作为评价标准,并用可处理任意簇类形状的DBSCAN(基于密度的聚类)和SPECTRAL(谱聚类)算法作为单聚类算法,分别计算五种权重计算方法下集成和单次聚类的准确率。结果如表6所示。

从表6的结果来看,基于RELIEF的权重计算方法在每一个数据集上的分类准确率都比基于DBI的方法高,这种差异在数据集synt3和synt4上尤为明显。基于信息增益(IG)和特征取值差异(MF)的方法在前3个数据集上的效果也比基于DBI的方法好。总体来看,对具有不规则类簇的数据进行聚类集成,IG、MF、RELIEF这三种基于特征选择的权重计算方法效果很好。

7.2.5 权重计算方法的比较

本文分析的五种权重计算方法,主要在数据集的适用范围、时间性能上有一定的差异。

基于信息增益(IG)的方法依赖于特征和聚类结果之间概率分布的差异,基于RELIEF的方法考虑依赖于样本的密度,而基于特征取值差异(MF)的方法则根据特征在不同类簇不同取值频数的差异进行区分,因此,这三种方法不受数据在空间中分布的影响,能处理具有任意形状类簇的数据。而其他两种方法需要有一个能代表类簇中心的量作为基础,因此它们只能处理类簇形状接近球状的数据集。

表6 synt1、synt2、synt3、synt4上的分类准确率

从时间性能来看,基于RELIEF的方法性能最差,基于基本统计量差异的方法性能最好,基于DBI的方法次之,因此当数据量较小时可以选择RELIEF方法。从聚类的准确率来看,当数据集具有球状类簇时,五种权重计算方法在所有数据集上的差别不是很大,但是对于类簇形状不规则的数据,基于RELIEF、IG、MF的权重计算方法效果更好。

因此,针对具体的数据集,为了选择合适的权重计算方法,可以先对数据集进行可视化确定它的类簇形状,对于维数较高的数据集,可以使用基于主成分分析的方法将其降到三维后进行可视化,之后按照如表7规则选择权重计算方法。

表7 权重计算方法的选择方案

8 结束语

本文针对加权投票的聚类集成,提出了一种基于特征最小相关性的数据子集选择方法,提高了聚类集成的准确度;此外,分析比较了五种权重计算方法,其聚类集成的准确率均优于单聚类,且基于RELIEF的方法可用于任何类簇形状的数据集,基于基本统计量差异的方法的时间复杂度最小。

[1]Vega-Pons S,Ruiz-Shulcloper J.A survey of clustering ensemble algorithms[J].International Journal of Pattern Recognition and Artificial Intelligence,2011,25(3):337-372.

[2]Régnier S.Sur quelques aspects mathématiques des problèmes de classification automatique[J].Mathématiques et Sciences Humaines,1983,82:13-29.

[3]Fischer B,Buhmann J M.Bagging for path-based clustering[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2003,25(11):1411-1415.

[4]Weingessel A,DimitriadouE,HornikK.Anensemble method for clustering[C]//International Workshop on Distributed Statistical Computing,2003.

[5]Fred A L N,Jain A K.Combining multiple clusterings using evidence accumulation[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2005,27(6):835-850.

[6]Strehl A,Ghosh J.Cluster ensembles-a knowledge reuse framework for combining partitionings[C]//Eighteenth National Conference on Artifical Intelligence,2002:93-99.

[7]Karypis G,Kumar V.A fast and high quality multilevel scheme for partitioning irregular graphs[J].SIAM Journal on Scientific Computing,1998,20(1):359-392.

[8] Mirkin B.Mathematicalclassification and clustering:From how to whatand why[M]//Classification,data analysis,and data highways.Berlin Heidelberg:Springer,1998:172-181.

[9]Křivánek M,Morávek J.NP-hard problems in hierarchicaltree clustering[J].Acta Inform,1986,23(3):311-323.

[10]Wakabayashi Y.Aggregation of binary relations:algorithmic and polyhedral investigations[D].University of Augsburg,1986.

[11]Filkov V,Skiena S.Integrating microarray data by consensus clustering[J].International Journal of Artificial Intelligence Tools,2004,13(4):863-880.

[12]Kuhn H W.The Hungarian method for the assignment problem[J].Naval Research Logistics,1955,2(1/2):83-97.

[13]Ayad H G,Kamel M S.Cumulative voting consensus method for partitions with variable number of clusters[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2008,30(1):160-173.

[14]Vega-Pons S,Correa-Morris J,Ruiz-Shulcloper J.Weighted cluster ensemble using a kernel consensus function[C]//Iberoamerican Congress on Pattern Recognition,2008:195-202.

[15]阳琳赟,周海京,卓晴,等.基于属性重要性的加权聚类融合[J].计算机科学,2009,36(4):243-245.

[16]Devi K N V R,Rao M S.Attribute and information gain based feature selection technique for cluster ensemble:Hybrid majority voting based variable importance measure[J].International Journal of Innovative Technology and Research,2013,1(6):607-610.

[17]潘俊,王瑞琴.基于选择性聚类集成的客户细分[J].计算机集成制造系统,2015,21(6):1662-1668.

[18]Davies D L,Bouldin D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,1979(2):224-227.

[19]李航.统计学习方法[M].北京:清华大学出版社,2012.

[20]Kira K,Rendell L A.A practical approach to feature selection[C]//International Workshop on Machine Learning,1992:249-256.

[21]Bache K,Lichman M.UCI Machine learning repository[D].Irvine,CA:University of California,2013.

[22]Liu Y,Li Z,Xiong H,et al.Understanding of internal

猜你喜欢

子集计算方法标签
浮力计算方法汇集
拓扑空间中紧致子集的性质研究
连通子集性质的推广与等价刻画
关于奇数阶二元子集的分离序列
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
随机振动试验包络计算方法
标签化伤害了谁
不同应变率比值计算方法在甲状腺恶性肿瘤诊断中的应用
科学家的标签