APP下载

聚类分析算法的分析与评价

2019-11-30李芝峰张妍

电子技术与软件工程 2019年7期
关键词:中心点缺点聚类

文/李芝峰 张妍

1 引言

在信息时代存储人类活动的文本、视频、图像和音频数据庞大,把数据对象有效的区分开是一个热门的研究课题。

聚类分析算法是深度学习中的一个常用的算法,它根据对象差异,把不同类的对象区分开。聚类分析算法的目标是把混杂在一起的数据尽可能的分隔开,使同一类对象的相似程度尽可能大,使不同对象的相似程度尽可能的小。聚类分析算法是一种无监督学习的模式。目前聚类方法大体有以下类别:基于层次聚类算法、基于划分聚类算法、基于密度聚类算法、基于网格聚类算法、基于模型聚类算法、基于模糊聚类算法。随着理论研究的不断深入,聚类分析算法已经在语音分离、视频人脸检测、图像皮肤检测以及其他领域取得了不错的研究结果。

2 聚类分析算法

聚类方法分类不是很明确,聚类方法大体可以分为:基于层次聚类算法、基于划分聚类算法、基于密度聚类算法、基于网格聚类算法、基于模型聚类算法、基于模糊聚类算法。聚类方法包含着其他几种聚类分析算法,存在的每一种聚类分析算法都有这自己长处和短处。

2.1 划分法

划分法保持簇内对象相似性高,簇外对象差异高。该方法的划分大多是基于距离的,其原理是:首先选择K个初始聚类中心点;然后数据加入到距离中心点最近中;其次重新计算新类中心点,并作为新的中心点。

基于划分聚类算法有K-means算法、k-modes算 法、k-prototypes算 法、k-medoids算 法、CLARA算 法、CLARANS算 法、Focused CLARAN算法、PCM算法等其他算法。这类算法的优点是实现简单、时间复杂度和空间复杂度低,缺点是容易出现局部最优、对噪声很敏感、对初始中心点选取敏感、不能解决非凸数据。

2.2 层次法

层次法是对数据对象进行分解,可以是自上而下的策略,也可以是自下而上的策略,目前自下而上的聚合策略使用较多。该方法可以是基于距离或者密度或者连通性,自下而上的原理是:首先将给定的N个对象分为N类;然后计算两个类距离最小并进行合并;其次重新计算类之间的距离。

基于层次聚类算法有CURE算法、ROCK算法、变色龙算法CHEMALOEN算法、SBAC算法、BIRCH算法、BUBBLE算法、BUBBLE-FM算法等其他算法。这类算法的优点时是可解释性好、可以解决非球形簇,缺点是时间复杂度高、并且不能更正以前计算错误。

2.3 密度法

密度法是为了解决不规则形状的聚类方法。该方法是将密集的满足条件的点归类起来,并使合并起来的高密度区域划分为密度相连点最大集合的簇。该方法是基于密度的,其原理是:首先找到一个数据核心点;然后找到以该数据核心点为中心的密度相连的其他数据点,进行下一步的区域扩充。

基于密度聚类算法有基于密度的噪声应用空间聚类DBSCAN、DBLASD算法等其他算法。这类算法的优点是对噪声点出现不敏感、可以识别多种规则形状的聚类,缺点是输入参数会很大程度上影响聚类结果、对较稀的聚类和密度较大且离得较近的类区分不是很有效。

2.4 网格法

网格法是将数据对象转化成一定数目的单元格并会形成网状结构。该方法是基于密度的,其原理是:首先采用降维措施,将N维空间降维成单维空间并分割成等长的段;然后根据网格单元中含有数据量的阈值,将大于阈值的视为高密度单元,否则视为低密度单元;其次将相连的高密度单元识别为同一个簇。

基于网格聚类算法有小波聚类算法WaveCluster、基于密度和网格聚类算法CLIQUE等其他算法。这类算法的优点是时间复杂度低,缺点是算法对输入的参数很敏感、区分不规则分布的数据很困难、维度灾难。

2.5 模型法

模型法是一个模型一个类,然后使用合适的数据集去不断的训练这个认为合适的模型,这样训练出来的模型可能很符合数据的密度分布函数。在使用到的数据集是由概率分布所组成的前提下,该方法才能有效进行下去。

现在基于模型聚类算法有统计方案和神经网络方案两种方案,其中统计学方案算法有COBWEB算 法、CLASSIT算 法、AutoClass算法等其他算法;神经网络方案算法有SOMs算法等其他算法。这类算法的优点是划分类以概率形式展现出来,缺点是执行效率不高。

2.6 模糊法

模糊法是采用了模糊集合的理论,是为了克服非此即彼的分类缺点,该算法假设了数据是以概率的形式属于其中一个聚类。

基于模糊聚类算法有FCM算法。这类算法优点是能够得到一个参考样本分类结果可能性的计算方法,缺点是算法性能过渡依赖初始聚类中心的选择。

3 结束语

本文中的聚类算法能够较好的实现数据的分类。存在的每一种聚类算法都是为了更好的解决现实中的分类问题而存在。每一种聚类算法都是有自己的适应场景,也都有自己的优缺点。聚类算法虽然能够对数据进行分类,但是还是存在聚类数目是否自动问题,聚类算法优点不能够充分利用的问题,以及大规模数据和高维度数据处理能力的问题等其他问题。

猜你喜欢

中心点缺点聚类
Scratch 3.9更新了什么?
如何设置造型中心点?
跟踪导练(五)2
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
汉字艺术结构解析(二)中心点处笔画应紧奏
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例