APP下载

数据挖掘中聚类分析的算法研究

2014-10-21陈柯伊

新校园·上旬刊 2014年9期
关键词:聚类分析数据挖掘算法

陈柯伊

摘 要:数据挖掘技术已经在企业决策中得到了广泛的使用,这不仅能够帮助企业管理人员进行正确决策,也能够提升企业的经济效益与社会效益。在数据挖掘技术中,聚类技术是其中的重要组成部分,应用范圍也非常广泛。聚类算法有着理想的可伸缩效果,在处理数据的时候,有着理想的优势与聚类质量,该种分析方法是值得进行大范围推广和使用的。本文主要分析数据挖掘中聚类分析的算法。

关键词:数据挖掘;聚类分析;算法

数据挖掘即知识发现数据库,该种方法强调从大量不完全却含有噪声的数据中提取出对人们有用的信息,到目前为止,数据挖掘技术已经在企业决策中得到了广泛的应用,这不仅能够帮助企业管理人员进行正确决策,也能够提升企业的经济效益与社会效益。在数据挖掘技术中,聚类技术是其中的重要组成部分,应用范围也更加广泛。本文就针对数据挖掘中聚类分析的算法进行深入的分析。

一、聚类的概念

聚类分析是一种描述数据关系与描述对象的相关信息,数据分析强调数据对象的分析。进行聚类分析的根本目标就是在庞杂的数据中找出有用的数据,一般情况下,组内对象相关性越来,聚类效果就会相对较差。目前,聚类分析艺术已经成为一种重要的辅助性工具,开始在市场营销、社会服务以及科学研究工作中得到了广泛的应用,聚类分析技术也成为现阶段研究的重点与难点问题。

二、数据结构与数据类型

1.数据矩阵

数据矩阵是由对象—属性结构构成,这种矩阵包括n个对象。例如,要用几个属性来描述人,这些属性包括体重、身高、出生日期几个属性,这能够使用如下的矩阵列表进行表示:

xll…xlf…xlpxil…xif…xipxnl…xnf…xip

2.相异度矩阵

相异度矩阵即对象—对象结构,在这个矩阵之中,有n个对象的差异,一般情况下,使用nXn来表达相异度矩阵:

0d(2,1)0d(3,1)d(3,2)0……d(n,1)d(n,2)……0

在具体的应用工作中,数据挖掘任务的是各种复合数据与非数值型数据,这些数据类型是多种多样的,包括有序数据类型、标称型变量、布尔类型、分段数值变量、序数型、二元组合变量以及比例型变量等。

三、数据挖掘主要聚类算法分析

1.划分方法

划分方法即将包含n个数据数据集划分成为m个小组,其中每个小组都属于聚类,这些小组是需要满足几个要素的:一方面,分析包含的数据对象需要在一个以上;另一方面,每一个数据对象只能够在一个分组中出现,严禁出现在不同的分组中。为了提升计算结果的准确性,可以采用反复迭代法进行计算。在完成最后一步时,需要针对改进分组方案进行对比,在各个分组之中,数据对象越近,计算的准确性就越高。在这种算法之中,k平均算法与k中心点算法的使用范围最广,在技术水平的发展之下,在这两种算法基础上又延伸出了集中新型计算方法。

2.层次方法

层次方法也是数据挖掘中聚类分析算法的重要类型,该种算法能够将数据集进行层次分解。层次方法主要有两个类型,即从下而上凝聚的层次聚类与自上而下的分裂层次聚类,前者能够将数据对象进行单独分组,再将其进行合并处理。

3.基于密度分析法

在现阶段下,非球形数据集巨变能够采用基于距离的算法,但是,对于其余类型的巨变,是难以采用该种分析法进行计算的。密度分析法能够将密度聚集与相关区域进行密切的连接,基于密度分析法不仅能够发展不同形状的簇,也能够有效消除噪声,这种密度算法有OPTICS、DBSCAN以及DENCLUE几种类型。

4.基于模型分析法

基于模型分析法是能够通过聚类设定模型的一种计算方法,该种算法建立在数据集基础上,能够对一些数据模型与给定数据的拟合实现优化。基于模型分析法需要以数据概率建立假设,常用的分析法有概念聚集分析法、神经网络分析法与EM分析法几种类型。

5.基于网络分析法

基于网络分析法能够将量化网络空间实现聚类,有效优化计算效果,同时,该种方法也难以检测到边界聚类,计算对象主要针对水平聚类与垂直聚类。基于网络分析法与数据集大小并无密切的关系,其计算复杂性主要由网格单元数目来决定,常用的聚类算法包括STING、WaveCluster以及CLIQUE几种类型。

参考文献:

[1]胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报(工程科学版),2004(6).

[2]杨善林,李永森,胡笑旋,潘若愚. K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006(2).

猜你喜欢

聚类分析数据挖掘算法
探讨人工智能与数据挖掘发展趋势
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
基于并行计算的大数据挖掘在电网中的应用
农村居民家庭人均生活消费支出分析
基于省会城市经济发展程度的实证分析
基于聚类分析的互联网广告投放研究
一种改进的整周模糊度去相关算法
“县级供电企业生产经营统计一套”表辅助决策模式研究