APP下载

模糊聚类分析及其应用研究

2014-02-27李新社姚俊平

网络安全技术与应用 2014年1期
关键词:等价定理聚类

李新社 姚俊平

(高新技术研究所 陕西 710025)

0 引言

模糊聚类分析技术是智能信息处理中的一个重要研究方向,是用模糊数学方法研究聚类问题,模糊聚类算法[1,2]由于具有良好的聚类性能与数据表达能力,已经成为近年来研究的热点,广泛的应用在分析和解决实际问题当中,包括工程、计算机科学、生命和医学科学、社会科学、经济学、无导师的学习、类型学分析或划分。这是由于实际问题中,一组事物是否属于某一类常常带有模糊性,也就是问题的界限不是十分清晰。我们不能明确回答是或否,而只能在某种程度上回答是。聚类分析研究已经有几十年的历史,它的重要性及与其他研究方向的交叉特性均已得到人们的肯定,其中模糊聚类是数据挖掘、模式识别等研究方向的重要研究内容之一,在天气形势分类、建筑的水泥适应性、汉字职别等方面具有极其重要的作用。本文将模糊聚类分析原理与实际问题结合起来,重点研究模糊聚类分析的过程和步骤,特别是聚类过程中参数的客主观处理方法。

1 基本概念与定理

定义1 设 R= (rij)n×n是n阶模糊方阵,I是n阶单位方阵,若R满足自反性 ( RI≤),对称性( RRT=),传递性( RR≤2),则称R为模糊等价矩阵。

定义2 设 R= (rij)n×n是n阶模糊方阵,I是n阶单位方阵,若R满足自反性( RI≤),对称性( RRT=),则称R为模糊相似矩阵。

定理1 R是n阶模糊等价矩阵⇔ ],1,0[∈∀λλR是等价的布尔矩阵。

定理2设R是n阶模糊等价矩阵,则 ∀0 ≤λ< μ≤1,Rμ所决定的分类中的每一个类是 λR 所决定的分类中的某个子类。

定理2表明,当 λ< μ时, Rμ的分类是 Rλ分类的加细,当λ由1变到0时, Rλ的分类由细变粗,形成一个动态的聚类过程。

定理3 设R是n阶模糊相似矩阵,则存在一个最小的自然数 )( nkk ≤,使得kR 为模糊等价矩阵,且对一切大于k的自然数l,恒有klRR= 。

2 模糊聚类方法与步骤

模糊聚类分析的实质一般是指根据研究对象本身的属性来构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。但大多数对象并没有严格的类属性和隶属关系,它们在属性等方面存在着重叠性和交叉性,具有亦此亦被的性质。

(1)建立数据矩阵

设论域 U={ x1,x2,…,xn}为被分类对象,每个对象又由m个指标表示其性状:

则得到原始数据矩阵为 X= (xij)n×m。

在实际问题中,不同的数据一般有不同的量纲,为了使观察的特征值具有相对意义,使各特征值取值限定在[0,1]上,需进行规格化处理,方法很多。

(2)建立X上的模糊相似矩阵

鉴别X中xi与xj的接近程度,用[0,1]中的数rij表示xi与xj的相似程度,得到相似矩阵(rij)n×m,对其求等价闭包或等价类,就可对X中的元素进行分类。这里需要指出的是相似系数矩阵必须符合自反性、对称性要求,可根据实际情况选择数量积法、夹角余选法、相关指数、指数相似系数法等。

相关系数法

最小最大法

绝对值指数法

采用何种方法要根据具体问题具体性质确定。这里注意有些模糊概念不具备此类特点,比如不能根据信任关系对人员分类,因为信任关系不具有对称性。

(3)聚类方法

此外,最大树法和编网法也经常用到。

3 模糊聚类方法应用

每个环境单元可以包括空气、水分、土壤、作物等四个因素。环境单元的污染状况由污染物在四要素中的超限度来描写。假设有五个单元x1,x2,x3,x4,x5,它们的污染数据为如表2所示。

数据矩阵为

采用最大值规格化法将数据规格化

用最大最小贴近度法构造模糊相似矩阵得到

用平方追赶法可得传递闭包

取λ=1,分成5类 {x1} ,{x2},{x3},{x4},{x5};取λ=0.7,分成4类 {x1} ,{ x2, x4}, {x3},{x5}; 类似处理下去直至合成一类{x1, x2, x4, x3, x5}。动态聚类结果如图-1所示。

图1 动态聚类结果

上面聚类方法是平方追赶法的应用过程,也可直接下从面相似矩阵R出发,以取λ=0.63为例说明。

在R0.63中,显然 r14=r24=1,于是{x2,x4},{x1,x4} 为相似类,所以有公共元素x4的相似类为 {x1,x2,x4},故分类应为{x1,x2,x4},{x3},{x5}。

4 模糊聚类应用分析

图2 模糊聚类步骤

模糊聚类步骤可如图2所示。模糊聚类最终结论的可靠性或者说参考价值与三大因素紧密相关:①样本选取是否随机,是否具有代表性;②规格化和相似度计算,特别是相似度计算;③阈值选取直接决定判断者的意图或结论。如何使模糊聚类分析的结果更加符合客观实际,仍然是今后研究的重点问题。

5 结论

本文将模糊聚类分析原理与实际问题结合起来,重点研究模糊聚类分析的过程和步骤,特别是聚类过程中参数的客主观处理方法,并就模糊聚类所存在的一些模糊问题进行了讨论,同时指出了未来研究的重点和方向。

[1] 孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.

[2] 王亮,王士同.动态权值混合C-均值模糊核聚类算法[J].软件学报,2011,28(8):2852-2855.

猜你喜欢

等价定理聚类
J. Liouville定理
等价转化
A Study on English listening status of students in vocational school
基于K-means聚类的车-地无线通信场强研究
n次自然数幂和的一个等价无穷大
“三共定理”及其应用(上)
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
收敛的非线性迭代数列xn+1=g(xn)的等价数列