各省经济发展情况的综合数据分析

2019-06-19苏忠玉

沈阳师范大学学报(自然科学版) 2019年2期

苏忠玉, 李玮, 李晴, 孙玉

(大连海洋大学信息工程学院, 辽宁大连 116023)

大量的高维数据在许多现代应用中变得越来越普遍,例如成像分析和数据分析。这些数据的巨大规模对计算速度和内存方面构成了巨大挑战[1-2]。分析我国各省的经济发展状况应该从多方面考察,比如该省(自治区或直辖市)的工业生产总值、固定资产投资、居民消费水平、进出口等指标。但是,由于这些指标都是对经济发展基本状况的反映,它们自身之间就存在着较强的相关性,这样在用这些指标反映经济发展状况时就造成了信息的大量重叠。这种信息的大量重叠有时甚至会抹杀经济发展状况的内在规律,所以如何能找到一组较少但却包含着较多信息量的变量,抓住主要矛盾分析数据,同时使问题得到简单化,成为了一个难题。本文提出的综合数据分析方法解决了这一难题。利用主成分分析法使用SPSS软件结合聚类分析,对31个省的经济发展状况进行了综合数据分析,该结论将为我国各省的经济发展和产业布局的科学规划提供重要的数据分析依据。

1 算法

本文提出了一种高效的综合数据分析方法。首先,利用主成分分析法对31个省的经济发展数据进行了分析,有效减少了数据的维数和提取了主要成分。其次,采用聚类分析方法对上述主要成分进行分类,进一步降低数据量,最终获得综合分析结果。

1.1 主成分分析

主成分分析是一种多元统计方法,利用降维的思想将多个指标转化为多个综合指标,并将信息的丢失最小化。这些综合指标通常被称为主成分,生成每个主成分的转换的综合指标是原始变量中不相关变量的线性组合,具有比原始变量更好的性质。所以只使用几个主成分而不损失太多的信息,就能解决复杂的高维问题[3-9]。

算法步骤如下:

1) 规范原始数据,消除变量对量级和维数的影响;

2) 根据归一化数据矩阵计算相关系数矩阵R;

3) 求R矩阵的特征根和特征向量;

4) 确定主成分,并对主要成分的信息作出适当的解释;

5) 合成主要成分,获得综合评价值。

1.2 聚类分析

聚类是将对象划分为多个组的过程,因此同一组中的数据对象具有较高的相似性,而不同组中的数据对象则不相似。相似或不相似的定义基于属性变量的值,通常用每个对象之间的距离来表示。集群是类似的对象组集合,它们通常被视为对象[10-11]。本文采用系统聚类方法对主成分分析法获得的主成分进行深度分析。

算法步骤如下:

首先,n个样本是n个类(类别)。一个类包含一个示例。其次,2个具有最近属性的类合并到一个新类中,得到n-1个类。最后,将2个最近的类合并成n-2类,以此类推,最后,所有的样本都归为一类。

2 结果

首先,将我国31个省的20项经济发展指标有效减少为1个主要成分;其次,根据评价结果进行综合分析将数据降为4个集群。

2.1 主成分结果

这部分是31个省20个指标的数据,原始数据来自《中国统计年鉴2012》[12]。31个省份20项指标的数据如表1所示。

2.1.1 统计检验

运用SPSS获得KMO(Kaiser-Meyer-Olkin)和巴特利特测试的结果是如表2所示。

从表2可以看出,KMO统计量=0.744>0.7,球形检验的卡方统计量=1 385.944,P=0.000<0.01,适合做主成分分析(注:KMO是相关系数与偏相关系数的一个比值,用于比较变量间简单相关系数与偏相关系数的一个统计量,其值越接近1,表明越适合做主成分分析;巴特利球形度检验是判断变量的相关系数矩阵是否为单位阵的一个统计量,其相伴概率小于显著性(0.05或0.1),表明相关系数矩阵不是单位矩阵,适合做主成分分析[13])。