APP下载

基于模糊聚类的城市经济发展水平分类

2014-11-30王宏赵红

关键词:聚类事物分类

王宏,赵红

(河北联合大学 理学院,河北 唐山 063009)

城市经济发展水平受多种因素共同影响,客观、准确地对城市经济发展进行分类,分析各城市的差异以及造成差异的主要原因,能够为各城市有针对性地制订相应的政策和措施提供理论依据,进而促进城市社会经济协调发展,具有重要的理论和实践意义。本文将模糊聚类分析应用于指城市经济发展水平的分类研究,选取具有代表性的经济指标建立模糊相似矩阵,应用模糊聚类法实现聚类,从而实现对城市经济发展水平的分类。

一、模糊聚类分析原理及步骤

聚类是根据一定的要求和规律,按照事物的某些性质、用途等,合理划分未分类事物的集合,得到确定事物分类的过程。模糊聚类是采用模糊数学方法,依据客观事物间的特征、亲疏程度和相似性,通过建立模糊相似关系,并在此基础上根据一定的隶属度来确定分类关系,也就是用模糊数学的方法把样本之间的模糊关系(相似性)加以定量的确定,从而客观且准确地进行分类。由于现实的分类过程往往伴随着模糊性,所以用模糊数学的方法来进行聚类分析会显得更自然、更科学、更符合客观实际。

模糊聚类分析的过程包括以下四个步骤:

第一步 选择统计指标

根据实际问题,选择那些具有明确的意义,有较强分辨力和代表性的属性,作为分类事物的统计指标。统计指标的选取对聚类有直接的影响。

第二步 数据标准化

把代表事物各属性的统计指标的数据进行处理,使之消除量纲的影响,便于分析和比较。数据标准化可以这样进行:采用最大值规格化法,对特性指标矩阵U*的第j列,计算Mj=max(u1j,u2j,...unj),j=1,2,…,m。得到标准化后的数据u'ij==1,2,…,n;j=1,2,…,m。

第三步 标定

所谓标定,就是根据实际情况,按某个准则或某种方法,给论域U(即待分类的集合)中的元素两两之间都赋以[0,1]内的一个数,叫做相似系数。它的大小表征两个元素彼此接近或相似的程度。

设U={u1,u2,...un}为待分类事物的全体,ui由一组数据xi1,xi2,...xim来表征,用rij来表示元素ui与uj的相似关系,0≤rij≤1(i,j=1,2,...n);rij=0表示ui与uj截然不同,毫无相似之处;rij=1表示它们完全相似或等同;当i=j时,rij就是ui自己与自己的相似程度,恒取为1。rij可根据实际情况,选择合适的方法来加以确定[1]。

第四步 聚类

选择一种合适的聚类方法,得到聚类结果,常用的聚类方法有基于模糊等价关系的传递闭包法,基于模糊相似关系的直接聚类法,以及基于模糊c-划分的模糊聚类方法。在应用模糊聚类分析解决实际问题时,根据具体情况选择合适的方法进行聚类。这里,我们采用基于模糊相似关系的直接聚类法通过最大生成树来实现聚类[2,3]。

二、模糊聚类分析在河北省各市经济发展水平的分类中的应用

(一)选择统计指标,建立指标体系

建立科学的指标体系时,应根据实际问题,选择那些具有明确的意义,有较强分辨力和代表性的属性,作为分类事物的统计指标。统计指标的选取对聚类有直接的影响。

河北省有11个市,设11个市组成一个分类集合X=x1,x2,…,x11

{},分别代表石家庄市、承德市、张家口市、秦皇岛市、唐山市、廊坊市、保定市、沧州市、衡水市、邢台市、邯郸市。每个市经济发展水平均采用人均GDP、城镇化率、社会消费品零售总额、农村居民人均纯收入、全社会固定资产投资5项统计指标来评判即有xij=xi1,xi2,xi3,xi4,xi5(),这里xij=表示为第 个事物的第 项特征指标值,i=1,2,…,11;j=1,2,…,5。本文现以这11个市的建立的5个科学指标为依据,对11个市经济发展水平的高低的相关程度分类,对这5 个统计指标,为使数据更科学,选取2008—2012年5年数据的平均值(附录Ⅰ)以期综合反映河北省各市的经济发展水平。

河北省各市社会经济发展水平评价指标体系上存在着总量指标,如国内生产总值、地方财政收入等。因为总量指标受到效益好坏、质量高低的影响,因此需要选用几年数据的平均值。人均GDP,即人均国内生产总值,它常作为发展经济学中衡量经济发展状况的指标,是重要的宏观经济指标之一,它是人们了解和把握一个国家或地区的宏观经济运行状况的有效工具;城镇化率,又称城市化率、城市化度、城市化水平、城市化指标,城镇化一方面是人口由农村向城市迁移聚集的过程,同时又表现为地域景观的变化、产业结构的转变、生产生活方式的变革,是人口、地域、社会经济组织形式和生产生活方式由传统落后的乡村型社会向现代城市社会转化的多方面内容综合统一的过程,是一个国家或地区经济发展进步的主要反映和重要标志;社会消费品零售总额指批发和零售业、住宿和餐饮业以及其他行业直接售给城乡居民和社会集团的社会消费品零售总额消费品零售额,是研究人民生活、社会消费品购买力、货币流通等问题的重要指标;农村居民人均纯收入是农村居民纯收入按照农村住户人口平均的纯收入水平,它反映的是全国或一个地区农村居民的平均收入水平,能反映其生活富裕程度,以此来说明该地区的经济发展状况;全社会固定资产投资固定资产投资是社会固定资产再生产的主要手段,通过建造和购置固定资产的活动,国民经济不断采用先进技术装备,建立新兴部门,进一步调整经济结构和生产力的地区分布,增强经济实力,为改善人民物质文化生活创造物质条件。

因此选取以下5 个因子,即人均GDP、城镇化率、社会消费品零售总额、农村居民人均纯收入、全社会固定资产投资构成一个指标体系进行聚类分析,用来反映河北省各市经济发展水平的高低。

(二)对数据作预处理

1确定分类对象,抽取相关的数据

首先,由于各类指标量纲不同,为了消除量纲的影响,利用SPSS 软件,对原始数据进行标准化处理。得到如下数据:

表1 标准化处理后的数据

2建立模糊相似关系的矩阵

使用MATLAB软件,采用绝对值减数法计算标准化后的数据[4],以得到模糊相似矩阵 (程序见附录Ⅱ),即为:R=

(三)用最大树法进行模糊聚类

x11},E为一相似模糊关系,其矩阵为E=

已知,X={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,

用Kruskal法求最大树:

画出11个结点x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11。由E知模糊相似矩阵的最大元为0.9386=E(x9,x10),再画边(x9,x10);次大元为0.9307=E(x8,x11),再画边(x8,x11);余下的最大元为0.9251=E(x3,x9),次大元为0.241=E(x3,x10),再画边(x3,x9)和(x3,x10),但边(x3,x10)与上面所画的边产生了回路,故不画这一步;余下的最大元为0.9217=E(x8,x10),次大元为0.9207=E(x8,x10),再画边(x8,x10)和(x4,x6);余下的最大元为0.9184=E(x2,x9),次大元为0.9155=E(x2,x3),再画边(x2,x9)和E(x2,x3),但边(x2,x3)与上面所画的边产生了回路,故不画这一步;……由此下去,再找出元0.9151=E(x7,x10),0.8944=E(x3,x4),0.8371=E(x1,x5)和0.8292=E(x1,x11),再画出边(x7,x10)、(x3,x4)、(x1,x5)和(x1,x11),至此所有结点都被连到,于是求得的最大树为图1

图1 Kruskal法得到的最大树

取λ=1,得11 类{x1},{x2},{x3},{x4},{x5},{x6},{x7},{x8},{x9},{x10},{x11};

取λ=0.9386,得10 类{x1},{x2},{x3},{x4},{x5},{x6},{x7},{x8},{x11}{x9,x10};

取λ=0.9307,得9 类{x1},{x2},{x3},{x4},{x5},{x6},{x7},{x9,x10},{x8,x11};

取λ=0.9251,得8 类{x1},{x2},,{x4},{x5},{x6},{x7},{x8,x11},{x3,x9,x10};

取λ=0.9217,得7 类{x1},{x2},{x4},{x5},{x6},{x7},{x3,x8,x9,x10,x11};

取λ=0.9207,得6 类{x1},{x2},{x5},{x7},{x4,x6},{x3,x8,x9,x10,x11};

取λ=0.9184,得5类{x1},{x5},{x7},{x4,x6},{x2,x3,x8,x9,x10,x11};

取λ=0.9151,得4类{x1},{x5},{x4,x6},{x2,x3,x7,x8,x9,x10,x11};

取λ=0.8944,得3类{x1},{x5},{x2,x3,x4,x6,x7,x8,x9,x10,x11};

取λ=0.8371,得2 类{x1,x5},{x2,x3,x4,x6,x7,x8,x9,x10,x11};

取λ=0.8292,得1类{x1,x2,x3,x4,x5,x6,x7,x8,x9,x10,x11}。

(四)聚类结果分析

对聚类结果采用F-统计量方法得其最佳分类。当λ=0.8545时,划分为{1,5},{2,3,4,6,7,8,9,10,11},分类数c=2,n1=2,n2=9,F的值最大。因此λ=0.8545为最佳阙值,相应地得到如下划分:{1,5},{2,3,4,6,7,8,9,10,11},即石家庄市与唐山市分为一类,承德市、张家口市、秦皇岛市、保定市、廊坊市、沧州市、衡水市、邢台市与邯郸市分为一类。从总体上看,石家庄市与唐山市归为一类,其各项经济指标都要高于其它各城市,因此经济发展水平相对较高,而其它9个城市归为一类,其城市经济发展水平相对较低。

四、结论

本文应用模糊聚类分析的方法对河北省各市经济发展水平进行分类。采用统计量法确定最佳阙值。得出河北省11个市,石家庄市与唐山市经济发展水平较高,其余9个市较低,得出的聚类结果与实际情况符合。

[1]高新波.模糊聚类分析及其应用[M].西安:西安电子科技大学出版社,2004.

[2]王秀珍.模糊聚类分析法及其应用[J].湖南:长沙大学学报,1992,13(4):46-49.

[3]黄祟福,王家新.模糊信息分析与应用[M].北京:北京师范大学出版社,1992.

[4]李相镐,李洪兴等.模糊聚类分析及其应用.贵州:贵州科技出版社,1994.

猜你喜欢

聚类事物分类
分类算一算
美好的事物
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
奇妙事物用心看
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
一种层次初始的聚类个数自适应的聚类方法研究