基于二分K-均值的海陆差异研究

2020-04-07刘孝龙

山西农经 2020年4期

关键词：聚类分析数据挖掘

刘孝龙

摘要：以沿海11个省（直辖市、自治区）的截面数据为样本，构建陆域和海域经济指标体系，运用K-means聚类算法，分别在陆域和海域指标中对沿海省（直辖市、自治区）进行聚类，研究海域与陆域的关联性与差异性。

关键词：聚类分析;数据挖掘;海陆差异

文章编号：1004-7026（2020）04-0028-02 中国图书分类号：F207 文献标志码：A

1 研究背景

我国海洋经济呈现出蓬勃发展的态势，海洋产业不断优化升级，海洋经济对地区经济贡献度不断增加。但与海洋强国相比，我国海洋经济发展水平还存在着比较大的差距。当前，世界各国对海洋经济发展高度重视，我国针对海陆统筹发展也出台了许多政策规划。国内外已经有很多学者对陆海经济进行过研究。研究沿海11个省（直辖市、自治区）海域经济与陆域经济的联系，对推动区域协调发展具有学术研究价值、应用价值和现实意义。

国内外进行了很多关于陆海海域统筹发展的研究。国外有研究陆海产业结构优化必要性的[1]，也有研究沿海居民对海洋和海岸系统依赖性以及陆海协调与经济可持续发展的[2]。国内有学者研究了海洋产业对陆海经济的带动作用[3]，建立了陆域海域产业关联模型[4]，也有文献指出陆域经济壮大对陆海一体化起到了关键的推动作用[5]。

为探究陆域和海域经济指标的相关性和差异性，借助数据挖掘系统建模的优势，利用数据科学中聚类分析技术来研究陆海经济指标的相关性。已知的聚类分析算法有多种[6]，各种聚类方法被不断提出和改进。在实际应用中，聚类算法选择取决于待评估数据的类型和聚类的目的，不同的算法适合于不同类型的数据。根据近年来出现的各种聚类方法的特点，常用的聚类算法可分为基于划分的聚类算法[7]、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法等4种[8-9]。

基于划分的聚类算法是在机器学习中应用最多的。其假设聚类算法所使用的目标函数都是可微的，先对数据样本进行初步分组，再将此划分结果作为初始值进行迭代，在迭代过程中根据样本点到各组的距离反复调整，重新分组，最终得到一个最优的目标函数。最终聚类结果出现在目标函数收敛的情况下[10]。

K-mean算法成为经典算法是由于其具有以下优势：①时间复杂度与数据集大小呈线性关系;②收敛于局部最优解。K-mean算法也有缺点：①传统的K-means使用欧氏距离，仅适用于球形数据;②对噪声和孤立点较为敏感[11-12]。

2 研究过程

2.1 指标选取与数据预处理

采用的指标分为陆域指标和海域指标。陆域指标包括陆域生产总值增长率、陆域产业就业人数、陆域产业固定资产投资总额陆域三次产业比重、地区就业、出口总值、陆域劳动生产率、陆域经济密度、社会消费品零售总额等。海域指标除与陆域相似替代指标外，还有港口货物吞吐量、濱海旅游外汇收入一些海洋特色指标。两类指标共计31个指标。

为保证数据的完整性与准确性，数据选取沿海11个省（直辖市、自治区）2015年在这些指标下的数据。由于各指标量纲不同且数值具有非常大的比例差异，可能影响聚类性能。采用sklearn机器学习算法库对数据进行缩放，缩放后的数据范围在0～1之间。

2.2 聚类分析

K-means聚类算法易于理解，可解释性强，可以自己选择参数，但在实际应用上k-mean算法弊端也很明显，即算法可能收敛到局部最小值，而非全局最小值。为了克服这种弊端，使用python中的标准库numpy构建二分k-均值算法，用选取数据建立聚类模型，得到聚类结果。簇类别取值为0、1、2，表示3种类别。距离表示该样本与自己所在簇质心的距离。聚类结果如表1所示。

3 结果分析

由聚类分析结果可知，在海域分类结果中，辽宁、河北、福建、广西、海南分为一类，天津、上海分为一类，山东、江苏、浙江、广东分为一类;在陆域分类结果中，辽宁、上海分为一类，天津、山东、江苏、浙江、福建、广东分为一类，河北、广西、海南分为一类。

容易看出，河北、广西、海南在海域和陆域分类中都处于同一类别，山东、江苏、浙江、广东在海域和陆域分类中都被分到同一类别，说明这些省（直辖市、自治区）的陆海协同度较高。河北、山东的陆海产业均以第二产业为主，资源配置合理，陆域经济和海域经济联动紧密。长三角区域的江苏、浙江是以制造业、工业为支撑的大省，总体上陆海经济发展协调。江苏省近年涉海就业人员占地区就业人员比重较低，但人均海洋生产总值呈增长态势。浙江省存在海洋科技人才匮乏导致海洋科技贡献率低等问题，但具有优势的海洋第三产业对陆域经济起到了很好的反哺作用。广东、海南陆域经济和海域经济联动较弱，但是协调联动性仍强于同样处于珠三角地区的福建、广西。

在两种分类结果中，与上海处于同一类别的省（直辖市、自治区）很少。不管在陆域经济领域还是海域经济领域，上海都处于领先地位。上海是金融中心，其发达的滨海旅游业和国际航运中心的地位为陆域海域经济发展贡献了巨大推动力。

天津、福建、辽宁等省（直辖市）在海域和陆域分类中分别处于不同类别，说明这些省（直辖市）在陆域和海域发展中存在结构失衡问题。辽宁海洋经济基础较薄弱，海洋经济总量中大部分由传统行业组成，从产业结构角度上看，落后于其他产业结构以“三二一”和“二三一”为特征的地区。天津设立滨海新区，通过政策优惠、财政支持、融资扩展等方式引进企业，为海洋发展提供财力及政策支持，其人均海洋生产总值位于前列，但人均陆域生产总值和陆域产业就业人数均处于较低水平。

4 结束语

经过对比研究发现，河北、广西、海南、山东、江苏、浙江、广东在海域和陆域聚类中结果相似，说明其陆海经济具有较好的协调性，天津、福建、辽宁则在陆域和海域的聚类中呈现出差异性。从自然资源禀赋、需求结构、劳动力状况、技术创新、科技因素、政策因素等方面进行分析，对沿海省（直辖市、自治区）协调陆海经济发展具有重要的指导意义。

参考文献：

[1]Cochrane K L. Reconciling sustainability， economic efficiency and equity in fisheries： the one that got away？ [J]. Fish and fisheries，2000（1）：3-21.

[2]Hameedi. Study on sea coupling coordination mechanism from the perspective of the giant system[J]. Ecological Economy，2016（8）：25-28.

[3]欒维新，王海英.论我国沿海地区的陆海经济一体化[J].地理科学，1998（4）：343-348.

[4]于谨凯，曹艳乔.海洋产业影响系数及波及效果分析[J].中国海洋大学学报（社会科学版），2007（4）：7-12.

[5]郑坚铭.南海陆海经济一体化的岛礁建设探讨[J].现代商贸工业，2019（19）：41-42.

[6]Xu R， Wunsch D C. Survey of clustering algorithms [J]. Transactions on Neural Networks，2005（3）：645-678.

[7]Hong Y， Kwong S. Learning assignment order of instances for the constrained K-means clustering algorithm [J]. IEEE Transactions on Systems， Man and Cybernetics， Part B （Cybernetics），2008（2）：568-574.

[8]贺玲，吴玲达，蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究，2007（1）：10-13.

[9]孙吉贵，刘杰，赵连宇.聚类算法研究[J].软件学报，2008（1）：48-61.

[10]王骏.无监督学习中聚类和阈值分割新方法研究[D].南京：南京理工大学，2010.

[11]Kaufman L， Rousseeuw P J. Finding groups in data： an introduction to cluster analysis[M]. John Wiley & Sons，2009.

[12]Huang Z. Extensions to the k-means algorithm for clustering large data sets with categorical values[J]. Data mining and knowledge discovery，1998（3）：283-304.