APP下载

聚类分析中类与类的特征

2015-05-30李晓云周菊玲李超群

数学学习与研究 2015年1期
关键词:聚类分析

李晓云 周菊玲 李超群

【摘要】本文基于聚类分析在多元统计分析中的重要作用,介绍聚类分析的定义,并在聚类分析的基础上详细给出了类的几个定义,并且讨论了类的几个特征及其内在关系.并用图解的方式及解析的方式导出类与类之间的距离,从而为进一步的聚类分析做好基础.

【关键词】聚类分析;类;类的特征;类间距离

一、引 言

聚类分析是研究如何将一组样品(对象、指标、属性等) 进行分类的方法.分类是人们深入认识事物的一个重要方法.

本文将在聚类分析的基础上详细探讨类和类的特征.

二、类和类的特征

1.类的定义

我们的目的是聚类,那么什么叫作类呢?由于客观事物的千差万别,在不同问题中类的含义是不尽相同的.因此,企图给类下一个严格的定义,绝非一件易事.下面给出类的几个定义,不同定义,适用于不同场合.

用G表示类,设G中有k个元素,这些元素用i,j表示:

定义1:T为一个给定的阈值,如果对于每一个i,j∈G,有dij≤T(dij为i和j的距离),则称G为一个类.

定义2:对阈值T,如果对于每个i∈G,有1k-1∑j∈Gdij≤T,则称G为一个类.

定义3:对阈值T,V,如果1k(k-1)∑i∈G∑j∈Gdij≤T,dij≤V,对一切i,j∈G,则称G为一个类.

定义4:对阈值T,若对于任意一个i∈G,一定存在j∈G,使得dij≤T,则称G为一个类.

由此可见,定义1的要求是最高的,凡属于它的类,一定也是后三种定义的类.此外,凡符合定义2的类,也一定是定义3的类.

2.类的特征

现在,类G的元素用x1,…,xm表示,m为G内的样本数(或指标数),可以从不同角度来刻画G的特征,常用的特征有:

1.均值x-G(或称为G的重心): x-G=1m∑mi=1xi

2.样本散布阵及协方差阵:

SG=∑mi=1(xi-x-G)(xi-x-G)′,∑G=1n-1SG

3.G的直径.此处给出两种定义.

(a)DG=∑mi=1(xi-x-G)′(xi-x-G)=tr(SG)

证明:由定义知:SG=∑mi=1(xi-x-G)(xi-x-G)′,其中:

SG=∑(xi1-x-1)2∑(xi1-x-1)(xi2-x-2)…∑(xi1-x-1)(xip-x-p)

∑(xi2-x-2)(xi1-x-1)∑(xi2-x-2)2…∑(xi2-x-2)(xip-x-p)

…………

∑(xip-x-p)(xi1-x-1)∑(xip-x-p)(xi2-x-2)…∑(xip-x-p)2  又知,

(xi-x-G)′(xi-x-G)=(xi1-x-1)2+(xi2-x-2)2+…+(xip-x-p)2=tr(SG)

证毕.

此处,还将给出直径的另一种定义:

(b)DG=maxi,j∈Gdij

3.类和类之间的距离

在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离.由于类的形状是多种多样的,所以,类与类之间的距离也有多种运算方法.另Gp和Gq中分别有k个和m个样品,它们的重心分别是x-p和x-q,它们之间的距离用D(p,q)表示.下列是几种常见的定义:

(1)最短距离法.

DK(p,q)=mindjlj∈Gp,l∈Gq

它等于类Gp与类Gq中临近的两个样品的距离,如图所示:

类间距离示意图 类群距离DK(p,q)=d23

(2)最长距离法.

DK(p,q)=maxdjlj∈Gp,l∈Gq

(3)类平均法.

DK(p,q)=1LK∑i∈Gp∑j∈Gqdij

它等于类Gp与类Gq中任两个样品的距离的平均,式中的和分别为类和类中的样品数.

(4)重心法.

Dc(p,q)=dx-px-q,它等于两个重心x-p与x-q间的距离.

(5)离差平方和法.

若采用直径的第一种定义方法,用Dp,Dq分别表示类Gp与类Gq的直径,用Dp+q表示大类Gp+q的直径,则有

Dp=∑i∈Gp(xi-x-p)′(xi-x-p),Dq=∑j∈Gp(xj-x-q)′(xj-x-q),

Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-),

其中x-=1k+l∑i∈Gp∪Gqxi.

用离差平方和法定义类Gp与类Gq之间的距离的平方为:D2w(p,q)=Dp+q-Dp-Dq,如果样品间的距离采用欧氏距离,则有

Dp+q=klk+lD2c(p+q),以下将给出具体证明.

证明:由定义Dp+q=∑j∈Gp∪Gq(xj-x-)′(xj-x-) =Dp+∑j∈Gq(xj-x-p)′(xj-x-p)+2∑j∈Gp∪Gq(x-p-x-)′(xj-x-p)+(k+l)(x-p-x-)′(x-p-x-)

而:∑j∈Gq(xj-x-p)′(xj-x-p)=Dq+k(x-p-x-q)′(x-p-x-q)Dp+q=Dp+Dq+k(x-p-x-p)′(x-p-x-p)_k2k+l(x-p-x-p)′(x-p-x-p)

=Dp+Dq+klk+l(x-p-x-p)′(x-p-x-p)

又知:D2w(p,q)=Dp+q-Dp-Dq,如果样品间的距离采用欧氏距离,则:D2w(p,q)=klk+lD2c(p,q) .

这说明,离差平方和法定义的距离与重心法定义的距离只相差一个常数,而这个常数与两类样品的个数有关.

结语:本文主要讨论了类的四种定义及三个重要特征,并给出了五种类与类之间距离的计算方法,了解这些之后,可为后续经典聚类分析和模糊聚类分析奠定基础.

【参考文献】

[1]何晓群.多元统计分析[M].北京:中国人民大学出版社,2004.

[2]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1989.

[3]包研科.数据分析教程[M].北京:清华大学出版社,2011.

[4]庄恒扬.模糊聚类计算方法的理论分析[J].江苏农学院学报,1998(19).

[5]何清.模糊聚类分析理论与应用研究进展[J].模糊系统与数学,1998(2).

猜你喜欢

聚类分析
基于谱聚类算法的音频聚类研究
基于Weka的江苏13个地级市温度聚类分析
我国中部地区农村居民消费行为阶段特征分析
基于聚类分析的无须人工干预的中文碎纸片自动拼接
浅析聚类分析在郫县烟草卷烟营销方面的应用
新媒体用户行为模式分析
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
“县级供电企业生产经营统计一套”表辅助决策模式研究