一种K—均值聚类的改进算法

2013-12-26郭德超胡昌盛

科学时代·上半月 2013年12期

郭德超胡昌盛

【摘要】聚类分析是一种无监督的学习方法，是数据挖掘领域进行数据处理的重要分析工具和方法。K-均值聚类算法是一种典型的基于划分的方法，该方法的主要优点是，算法思想简单易行、快速而高效；但是该方法也存在其固有的缺陷：要求预先给定聚类个数；容易陷入局部极小值而得不到全局最优解等。针对以上问题，利用分类领域中的特征选择及特征加权方法，提出了一种改进的特征加权 K-均值聚类算法。实验结果证明，所提出的算法能产生质量较高的聚类结果。

【关键词】聚类分析；K-均值算法；特征加权

K-均值聚类算法因结构简单、快速高效且适用于处理大数据集，在众多科研领域得到广泛应用。但它同时存在一些缺陷和不足，要求预先给定聚类个数；容易陷入局部极小值而得不到全局最优解等。针对以上问题研究人员提出了各种各样的有效改进措施。文献[1]的作者通过 DBI 聚类指标和最大最小距离方法来自动确定最佳聚类数目，较好地解决了 K-均值聚类算法中聚类数目 K 值的确定问题。文献[2]提出一种有效的混合聚类算法，在一定程度上克服了 K-均值聚类算法和层次聚类算法各自的缺陷。文献[3]提出一种基于变长编码的改进遗传算法，有效地解决了 K-均值聚类算法对初始中心选取敏感的问题。文献[4]提出了一种基于密度及最近邻相似度的初始聚类中心选取方法，大大提高聚类结果的稳定性。文献[5]提出了一种基于数据对象在空间分布规律的新的初始聚类中心选取方法，有效解决由于初始中心选取的随机性而导致的聚类结果不稳定的问题。本文利用分类领域中的特征选择及特征加权方法，提出了一种改进的特征加权 K-均值聚类算法。实验结果证明，所提出的算法能产生质量较高的聚类结果。

2.K-均值算法的改进

3.实验结果

为了验证本文所提出算法的有效性和可行性，选用 UCI 提供的机器学习公共数据库中的5 个数据集对本文改进的聚类算法的聚类性能进行聚类实验。（见表1）

从表 2 中不难看出，随机选取初始聚类中心的传统 K-均值算法得到的聚类结果准确率低且不稳定，而且对于有大值属性存在的 Wine数据集，错分数大大增加；而使用本文所设计的改进聚类算法所得到的聚类结果不仅准确率高，而且相对稳定。

4.结束语

本文针对传统K-均值算法由于随机选取初始聚类中心而导致聚类结果不稳定、准确率低的缺点，提出了一种改进的特征加权K-均值聚类算法。实验结果表明，本文算法可以有效得到准确率高、较为稳定的聚类结果。

参考文献：

[1] 冯超.K-means聚类算法的研究：[大连理工大学硕士学位论文].大连：大连理工大学，2007

[2] 曾志雄.一种有效的基于划分和层次的混合聚类算法.计算机应用，2007

[3] 范光平.一种基于变长编码的遗传K均值算法研究：[浙江大学硕士学位论文].杭州：浙江大学，2007

[4] 孙可，刘杰，王学颖.K均值聚类算法初始质心选择的改进.沈阳师范大学学报，2009

[5] 徐义峰，陆春明，徐云青.一种改进的K-均值聚类算法. 计算机应用与软件，2008