基于加权主成分聚类分析探究地方经济发展潜力

2017-05-15徐常青王明月

苏州科技大学学报(自然科学版) 2017年2期

关键词：第二产业第三产业聚类

李贤，徐常青，王明月，吴田

（苏州科技大学数理学院，江苏苏州 215009）

基于加权主成分聚类分析探究地方经济发展潜力

李贤，徐常青*，王明月，吴田

（苏州科技大学数理学院，江苏苏州 215009）

应用加权主成分聚类分析法探究江苏省13个地级市2014年第三产业发展潜力。先对样本点数据进行主成分分析，以消除指标过多造成的共线性问题；再通过对主成分进行加权；最后进行聚类分析，实现样本点的分类与分析。与传统的聚类分析相比，此方法既不会改变分类结果，又减少聚类过程中的计算量。

主成分分析；加权主成分分析；聚类分析；最短距离法

在中国经济发展的高速快车道上，第二产业发展始终起引领作用。但随着第三产业的兴起，第二产业逐渐被第三产业赶超。据统计，我国第二产业在1990年总值占全年GDP总量约40%，1990-2010年期间该比例始终保持在45%上下；而第三产业所占比重则从1990年的30%逐年上涨，到2013年达46.1%，比第二产业比重43.9%高2.2%，这是第三产业比重首次超过第二产业，而到2014年比重更是达到了48.2%，所占比重进一步提高。这表明，尽管第二产业仍然是经济增长的主导产业，其霸主地位已出现被撼动的迹象。这种现象与目前发达国家的发展状况完全一致。第三产业对经济发展影响较大的行业主要集中在批发零售业、房地产业和金融服务业等。经济的增长在得益于第二产业的强劲拉动的同时，第三产业对全国经济发展的作用也基本与第二产业相当。但与世界发达国家的产业结构相比，还是有较大的不同。与我国第三产业占比45%相比，发达国家第三产业占比达70%以上。

江苏省位于我国东部沿海长三角地区，经济发展位于我国前列，其第二产业的强劲带动了第三产业的发展。据2014年《江苏统计年鉴》，江苏省2014年地区GDP为65 088.3亿元，比上年增长8.7%，其中第三产业增加值30 396.5亿元，增长9.3%，占GDP比重46.7%，比上年提高1.2%；全省规模以上第三产业单位实现营业收入9 860亿元，比上年增长12%，增速比上年提高1.1%；营业利润1 091.5亿元，增长8.4%。

主成分分析是特征提取和数据降维的主要方法之一。主成分分析法可用于多元统计分析模型中的因子分析[1]，它在经济预测[2－3]、区域经济分析[4]、经济指标综合评价[5－7]等方面有广泛应用。找出第三产业发展的一些主要因素，同时也可以对不同地区的经济发展状况进行比对剖析[5]。

笔者首先利用主成分分析法对江苏省13个地级市第三产业14个领域2013、2014年度经济增长数据进行分析，找出第三产业发展对该14个领域的依赖程度，通过加权主成分分析和系统聚类给出13个地市的第三产业发展相似度分布和差距。

1 指标体系

为探究江苏各地级市第三产业发展潜力，收集了江苏省13个地级市2013、2014年度第三产业中14个重点行业的数据，通过计算得出2014年度各行业增长比。记第三产业中的14个主要行业依次为X1，X2，…，X14（见表1）。表1反映2013、2014年江苏省第三产业14个行业生产总值与增长比情况。表2反映13个地市第三产业各行业增长比情况。

表1 第三产业中分行业生产总值（单位：亿元）及增长比

表2 区域第三产业各行业增长比/%

由于受地理环境、政策和已有经济发展水平等因素影响，省内不同地区第三产业发展存在较大差异，主要体现在第三产业基础总量和发展速度方面[8－10]。

2 理论基础

多元统计分析可用于处理多指标问题。一般情况下，这些指标间存在一定相关性。主成分分析法用少量指标代替较多的相关性指标，避免了指标的重叠性。传统的主成分分析方法[1]首先将原始数据标准化，以消除量纲影响，并生成数据矩阵

其中X的每行对应一个样本点（n为样本点个数），列向量Xj对应第j个指标（p为指标个数）。文中每个城市的数据为一个样本点，每个行业为一个指标，因此，有 n=13，p=14。令 Xi*=σ（Xi）-1[Xi-E（Xi）]，i=1，…，p。 E（Xi）为第i个指标的均值，这里为第i个指标的平均状况。为第i个指标标准偏差，反映第i个指标发展均衡状况。记X*=（X1*，…，Xp*）∈Rn×p。称矩阵

为指标相关矩阵，R为对称半正定，其p个特征根λ1，λ2，…，λp非负。对特征值排序

公式（3）反映了p个指标的重要性情况。若λi1=max{λj：1，2，…，p}，那么发展最快的为第i1个行业。给定足够小ε＞0，若有正整数k：1＜k≤p，使λik＜ε，那么认为指标ik，ik+1，…，ip在第三产业总体发展中可忽略不计。

以上衡量指标重要性方法简单，但不够合理，在ε选取方面也缺乏好的策略。一种更加科学且常用的方法是通过累积方差贡献率来确定主成分个数，即重要指标数k。定义为第i个成分贡献率，ψk=为主成分Y1，…，Yk的累积贡献率。

经主成分分析处理后得到的主成分因子一般不具有相关性，但由于主成分为原因子的线性组合，一般不具备可解释性。加权主成分分析对主成分分析后的数据再次降维得一维数据（单指标数据）[9]。这种降维得到的加权数据并没有实际意义，只是主成分的一种线性组合，目的是再次优化数据处理过程，为系统聚类带来方便。令是主成分。这样，多指标的样本数据已“简化”为单指标的一维数据，根据大小对样本点进行排序，Z（1），…，Z（n）。

加权主成分聚类。假设样本点集合为π={X1，…，Xn}。令Gj（1）={Xj}，j=1，2，…，n。记第k步产生Nk个类，且分别为Gj（k），j=1，…，Nk。定义类间距为，其中dij=||Xi-Xj||为Xi，Xj间距离。若有1≤p＜q≤Nk，d（Gi（k），Gj（k）），则令Gp（k+1）=Gp（k）∪Gq（k）。第k+1步类数Nk+1=Nk-1。即除了合并的两类Gp（k）和Gq（k）生成一类外，其余类不发生变化。重复该过程，直至所有类合为一类，聚类结束。画出谱系聚类图并进行分类分析。

上述过程中，由于一维数据可排序，在用最短距离法时，无需计算类间所有样本点对的距离，只需计算类间相邻样本点距离，不仅降低了多维数据的计算量，同时简化了处理过程。

3 实例处理与分析

对式（2）定义的实对称阵R，由MATLAB指令eig（R）计算其特征值，按式（3）排列，依次为：56.694 4，31.468 8，21.863 3，16.221 8，11.993 7，11.723 7，8.225 7，5.577 2，2.544 7，0.887 3，0.536 0，0.263 5，0，0。

按累计贡献率 θ=0.85计算，得主成分主成分个数 m=7，贡献率依次为：φ1=33.75%、φ2=18.73%、φ3=13.01%、φ4=9.66%、φ5=6.98%、φ6=6.98%、φ7=4.90%累积贡献率ψ7=94.01%，故已包含原数据大部分信息，7个主成分相应特征向量为

T1=[-0.181 0 0.034 3 0.015 2 0.027 0-0.005 1-0.241 6 0.334 3-0.168 8 0.171 7-0.415 9 0.359 8 -0.431 6-0.429 4 0.252 6]

T2=[0.195 3 0.308 4 0.326 6 0.416 2 0.341 7 0.347 0 0.196 8 0.289 9 0.251 7 -0.0984 -0.074 1 0.021 2 0.142 6 0.357 2]

T3=[-0.256 1 0.168 2 0.491 6 -0.350 3 0.1561 -0.261 5 0.240 9 0.062 7 -0.528 9 0.057 2 0.037 5 0.211 6 0.104 2 0.216 7]

T4=[0.5361 -0.5224 0.1701 -0.059 5 0.397 6 -0.1093 0.240 0 -0.3051 -0.0713 -0.212 1 -0.160 4-0.012 6 0.071 5-0.139 2]

T5=[0.059 0-0.500 5 0.031 7 -0.3321 -0.1363 -0.001 8 0.058 2 0.596 8 0.289 0 0.019 7 0.334 0 0.105 6 0.112 6 0.193 3]

T6=[0.398 0-0.096 5 0.323 2 0.212 2-0.628 0 0.005 7-0.197 4-0.150 7-0.239 0 0.087 7 0.043 9 -0.089 2-0.069 3 0.383 7]

T7=[0.068 3 0.019 4-0.333 5 0.171 7-0.173 9-0.442 8 0.195 8 0.421 4-0.168 4 －0.252 1-0.550 4 -0.036 5 0.033 4 0.121 4]

得第一主成分

Y1=-0.181 0X1+0.034 3X2+0.015 2X3+0.027 0X4-0.005 1X5-0.241 6X6+0.334 3X7-0.168 8X8+0.171 7X9-0.415 9X10+0.359 8X11-0.431 6X12-0.429 4X13+0.252 6X14

第二主成分

Y2=0.195 3X1+0.308 4X2+0.326 6X3+0.416 2X4+0.341 7X5+0.347 0X6+0.196 8X7+0.289 9X8+0.251 7X9-0.098 4X10-0.074 1X11+0.021 2X12+0.142 6X13+0.357 2X14

第三主成分

Y3=-0.256 1X1+0.168 2X2+0.491 6X3-0.350 3X4+0.156 1X5-0.261 5X6+0.240 9X7+0.062 7X8-0.528 9X9+ 0.057 2X10+0.037 5X11+0.211 6X12+0.104 2X13+0.216 7X14

第四主成分

Y4=0.536 2X1-0.522 4X2+0.170 1X3-0.059 5X4+0.397 6X5-0.109 3X6+0.240 0X7-0.305 1X8-0.071 3X9-0.212 1X10-0.160 4X11-0.012 6X12+0.071 5X13-0.139 2X14

第五主成分

Y5=0.059 0X1-0.500 5X2+0.031 7X3-0.332 1X4-0.136 3X5-0.001 8X6+0.058 2X7+0.596 8X8+0.289 0X9+ 0.019 7X10+0.334 0X11+0.105 6X12+0.112 6X13+0.193 3X14

第六主成分

Y6=0.398 0X1-0.096 5X2+0.323 2X3+0.212 2X4-0.628 0X5+0.005 7X6-0.197 4X7-0.150 7X8-0.239 0X9+ 0.087 7X10+0.043 9X11-0.089 2X12-0.069 3X13+0.383 7X14

第七主成分

Y7=0.068 3X1+0.019 4X2-0.333 5X3+0.171 7X4-0.173 9X5-0.442 8X6+0.195 8X7+0.421 4X8-0.168 4X9－0.252 1X10-0.550 4X11-0.036 5X12+0.033 4X13+0.121 4X14

由加权主成分知：Z＝0.337 5Y1+0.187 3Y2+0.130 1Y3+0.096 6Y4+0.069 8Y5+0.069 8Y6+0.049 0Y7。经MATLAB计算，得各市加权主成分值 Z1-Z14依次为：0.532 8，-0.956 6，1.235 3，-0.252 7，-0.198 5，-2.097 2，0.094 7，-0.123 8，0.180 4，0.551 0，-0.078 6，0.503 5，0.609 7。

将Zi从大到小排列，根据系统聚类法，对地级市进行排序，得谱系聚类图（见图1）。

图1 谱系聚类图

4 结语

笔者基于加权主成分聚类分析对江苏省13个地级市的第三产业进行了聚类分析，这种聚类法既有分类作用，又有排序作用。所以从图1中可以看出，如果根据第三产业的发展情况把13个地级市分为四类，则徐州是第一类，增长速度较快；宿迁、扬州、南京、泰州、盐城、连云港、镇江、淮安、苏州和常州可以归为第二类，增长速度第二；无锡是第三类，增长速度第三；南通是第四类，增长速度第四。文中仅仅只是对江苏13个地级市的第三产业在2014年的增长情况作了聚类分析，并没有考虑第三产业发展的动力，所以还有待进一步的研究。

[1]高惠璇.应用多元统计分析[M].北京：北京大学出版社，2005：265-276.

[2]王淑芝，纪跃芝.经济预测方法及应用[J].现代情报，2004，12：184-185.

[3]王德青，朱建平，谢邦昌.主成分聚类分析有效性的思考[J].统计研究，2012，11：84-87.

[4]李雪梅，张素琴.主成分分析在区域经济分析中的应用[J].计算机工程与应用，2009，45（19）：204-206.

[5]吴殿廷，吴迪.用主成分分析法作多指标综合评价应该注意的问题[J].数学的实践与识，2015（20）：143-150.

[6]黄炎磊.主成分聚类分析在区域经济评价中的应用——以广东省城镇居民可支配收入为例[J].福建电脑，2009，25（9）：108-109.

[7]魏炜，隋祎.聚类分析法在区域经济划分中的应用——以江苏省作实证研究[J].市场周刊（理论研究），2008（10）：46-47.

[8]刘旭霞.基于主成分分析法的江苏经济发展研究[J].陕西农业科学，2011，57（2）：174-176.

[9]王宏建，易柱新.主成分方法用于聚类分析[J].经济数学，1996，13（1）：93-96.

[10]姚泽清，赵世玲.江苏省13城市国民经济主要指标聚类分析[J].解放军理工大学学报（自然科学版），2003，4（3）：91-94.

Exploration of local economic potential based on weighted principal component cluster analysis

LI Xian，XU Changqing*，Wang Mingyue，WU Tian
（School of Mathematics and Physics，SUST，Suzhou 215009，China）

In this paper we applied the weighted principal component cluster analysis method to explore the third industry development potential of thirteen cities in Jiangsu Province in 2014.Firstly，we made the principal component analysis of the sample points to eliminate colinearity caused by too many indexes.Then we weighted the principal components.Finally，we did the cluster analysis of the sample points.Compared with the traditional cluster analysis，this method does not change the classification effect but reduces the amount of calculation in the process of clustering.

principal component analysis；weighted principal component analysis；cluster analysis；the shortest distance method

责任编辑：谢金春

O212MR（2010）Subject Classification：62H25；62H30

：2096－3289（2017）02－0028－05

2016－03－14

国家自然科学基金资助项目（11171373）；苏州科技大学研究生科研创新资助项目（SKYCX16_002）

李贤（1990-），男，安徽亳州人，硕士研究生，研究方向：应用统计。

*通信作者：徐常青（1966-），男，博士，教授，硕士生导师，E-mail：cqxurichard@mail.usts.edu.cn。