APP下载

基于等距聚类方法的改进及其应用

2017-05-02丁洪玲叶静雷天宇金殿川

关键词:等距客户经理相似性

丁洪玲,叶静,雷天宇,金殿川

(1.华北理工大学 理学院,河北 唐山 063210;2.华北理工大学 生命科学学院,河北 唐山 063210)

基于等距聚类方法的改进及其应用

丁洪玲1,叶静1,雷天宇2,金殿川1

(1.华北理工大学 理学院,河北 唐山 063210;2.华北理工大学 生命科学学院,河北 唐山 063210)

聚类分析;相似性;重心;等距聚类

介绍了聚类分析的发展历程及其研究现状,分析比较了它们之间的差异及局限性。在此基础上根据类与类之间的特征,提出了一种新的等距聚类方法,并设计出了相应的程序算法(应用c#语言编写)。通过实例证明了该方法的可行性。

0 引言

“物以类聚,人以群分”,从古到今,分类就贯穿在实际生活中。所谓的类就是指相似元素的集合,同类样本尽可能的相似,不同类别样本之间有较大的差异性。譬如物种可以分为动物、植物;动物界又可分为两大类:脊柱动物和无脊椎动物;脊柱动物包括鱼类、爬行类、鸟类、两栖类、哺乳类等五大类。然而,随着生产技术和科学的发展,人们对分类的认识不断加深,只凭经验和专业技术的分类已经远远不能满足人们的需求,人们迫切需要更加准确、快速和科学的方法去分类。于是,数学工具逐渐被引入分类学中,后来随着多元统计的引入,聚类分析又逐渐从数值分类学中分离出来形成一个相对独立的分支[1]。

聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,起源于考古分[2],是将一组复杂的数据划分出一个相当简单的类的结构,因此必然要求进行相关性和相似性度量[3]。在相似性的度量中,常常包含着许多主观上的考虑,但是最重要的考虑是指标性质或观测的尺度一级相关的知识[4]。当样品聚类时,往往用距离来刻画,就像向平静的湖面抛一枚石子,以石子落水点为中心周围产生一波波水纹,在同一水纹或者相近水纹上的点有相差不大的半径,性质相似。又如等高线原理,在不同的高度上温度不同,高度相差大的两处温差大,高度相近的两处温差小。基于此,该项研究提出了一种新的聚类方法-等距聚类法。

随着经济和社会的发展,结合了更为强大的数学工具的聚类分析方法已经越来越多地应用到经济分析和社会工作分析中。聚类分析方法一般是先确定统计量,不论是定性数据还是定量数据都是如此,其次利用统计量对样品归类。由于目的、要求不同,因而产生了不同的聚类方法,其中较为常用的有系统聚类法、有序样品聚类法、K值聚类法、模糊聚类法等[5]。其中,基于系统聚类的5种方法在理论上可行,而在实际应用中却缺少可操作性;有序样品聚类法只适应于有序样品的聚类,局限性较大;K值聚类法在样本空间分类的数目较大时,可行性较差[6];模糊聚类分析方法主观性较强。针对以上各种聚类方法的不足,提出了一种新的聚类方法——等距聚类法。通过具体实例分析发现该方法不具有局限性,且消除了主观性等影响因素,操作性强,具有一定的可行性。

1 等距聚类法

传统的聚类方法在特定条件下并不能很好地解决问题,首先来看一个简单的例子(如表1所示)。经验算,按照传统的聚类方法得到的结果是a、c为一类,b、d为一类,而实际上,简单地从数据上看,a和b(或c和d)仅仅是调换了数据的顺序,把a和b分为一类,c, d分为一类更为合理。由此,该项研究提出了一种较为合理的聚类方法-等距聚类法。

一方面当对样品进行聚类时,往往由距离来刻画,另一方面当对指标聚类时,则根据相关系数或者某种相似性度量来聚类,等距聚类法就是基于这2个方面的一种方法,其通过计算得到样本重心,然后以样本重心为基准,算出所有样本到重心的距离,最后,比较样本到重心的距离并计算出两两之间的距离差,将距离差最小的聚为一类。

表1 案例具体数据

1.1 相似性度量及理论基础

假设每个样品有p个指标,故每个样品可以看成p维空间中的一个点,n个样品就组成p维中的n个点,此时用距离来度量样品之间的相似程度,数据矩阵如表2所示,相关计算公式如下。

表2 数据矩阵

重心的计算公式:

(1)

距离的计算公式:

绝对距离:

(2)

欧式距离:

(3)

名考斯基距离:

(4)

切比雪夫距离:

(5)

类与类之间的距离特征:

最小距离法:

(6)

1.2 等距聚类法的一般步骤

第5步:按照第4步继续聚类,直到得到事先确定的类的个数为止。

1.3 等距聚类法的程序算法设计

依据等距聚类方法原理,采用C#语言编写计算机程序,帮助读者方便快速地应用该方法对自己的数据进行分类。图1展示了程序计算分析的流程。读者可从Github(https://github.com/dinghl/equidistance_cluster)网站上下载该程序的所有源码文件及下文中的实例分析数据。

图1 等距聚类法系统流程图

2 实例分析

在实际中常遇到下面的问题:已知某银行微贷业务中心对2014年招聘的同一批客户经理进行放款业务考核时发现,有6位客户经理的年平均业绩相差微小,故想通过其他的聚类方法选出优、良、中、差亦是很困难的。这时从数据分析的角度做出更合理的分析为领导提供决策意见尤为重要。此处,该项研究采用了等距聚类法,6位客户经理(蔡、陈、董、范、孔、张),1~12月的业绩汇总如表3所示,业绩趋势如图2所示。

表3 6位客户经理在1~12月的业绩汇总表

图2 客户经理的业绩折线图

通过程序运行结果得到:

优:张;

良:董,孔;

中:陈,范;

差:蔡。

结果分析:对于微贷业务来讲,有一定的淡旺季之分。在这种情况下,如果能够在旺季把业绩相对提升,并且淡季也不松懈的客户经理才是最优秀的客户经理,而通过数据分析得到张经理完全符合最优客户经理;而蔡经理虽然年平均业绩不差,但是每月业绩起伏太大,工作状态不稳定,故为最差;客户经理董经理和孔经理相对于张经理来说过于稳定,没有更好地抓住工作中的淡旺季,可能心理上存有一定的打算保证每月完成业绩就好,并没有全力以赴地工作;客户经理陈经理和范经理稳定性不高但是比蔡经理稍强。

3 结论

聚类方法作为一种数据处理方法,它的理论至今还不完善,聚类方法存在着一定的局限性。该项研究提出的等距聚类法,是一种简单、计算量小的新方法。在某些程度上解决了传统聚类方法存在的局限性。通过对6位客户经理从1到12月的工作评价分析证明了该方法是可行的。

[1] 张尧庭,方开泰, 多元统计分析引论[M].北京:科学出版社,1982.

[2] 于秀林,任雪松, 多元统计分析[M].北京: 中国统计学出版社,1999.

[3] 何晓群, 多元统计分析[M]. 北京: 中国人民大学出版社, 2008.

[4] 王学仁,王松桂, 实用多元统计分析[M].上海: 上海科技技术出版社,1992.

[5] 王学明, 应用多元统计分析[M].上海: 上海财经大学出版社.

[6] L.S.W. BAI X, ZHAO Y B, Entropy Based Soft K-means Clustering[J]. in: IEEE International Conference on Granular Computing, EI, STP, 2008, pp. 107-110.

Improvement of An Isometric Clustering Method and Its Application

DING Hong-ling1, YE Jing1, LEI Tian-yu2, JIN Dian-chuan1

(1. College of Science, North China University of Science and Technology, Tangshan Hebei 063210, China;2.CollegeofLifeSciences,NorthChinaUniversityofScienceandTechnology,TangshanHebei063210,China)

clustering analysis;similarity;the center of gravity;isometric clustering

The development course and the research status of clustering analysis were introduced, the differences and limitations between them were compared. According to the characters between the two classes, a new clustering method was proposed based on the comparison, and the corresponding program was designed. The feasibility of this method has been proved by an example.

2095-2716(2017)02-0115-05

2016-10-11

2017-03-26

TP311.11

A

猜你喜欢

等距客户经理相似性
一类上三角算子矩阵的相似性与酉相似性
平面等距变换及其矩阵表示
Z通信公司客户经理绩效考核问题研究
拟凸Hartogs域到复空间形式的全纯等距嵌入映射的存在性
浅析当代中西方绘画的相似性
探究特色服务送客户“3+3”客户经理服务模式
低渗透黏土中氯离子弥散作用离心模拟相似性
两种等距电场激励氖原子辉光产生临界值研究
等距延拓以及相关问题
销售企业客户经理考核培养之道