基于因子分析法的城市商业中心抽取研究

2021-08-24张铭龙何贞铭

地理空间信息 2021年8期

张铭龙，何贞铭*

（1.长江大学地球科学学院，湖北武汉 430100）

商业中心是城市商圈形成的前提条件，是一个地区城市化进程的关键部分。商业中心布局随城市结构的发展而改变。城市商业中心的变化往往暗示了城市空间结构的变化[1]。因此，商业中心的信息挖掘在城市规划以及改善城市结构中扮演了十分重要的角色。近年来，POI数据作为当今地理数据中的研究热门，其拥有数据量大、用户参与广、更新快和位置精度高的特点。曹芳洁等[2]利用POI数据进行核密度运算和度量指标运算，最终确定了北京市商业中心集聚区和商业空间格局。

因子分析法是一种包含降维的思想，是把复杂的变量转化为简单因子的算法[3]。本文依据商业POI数据, 利用DBSCAN聚类分析法和密度因子分析法, 保证数据的精确度，验证算法的可依托程度，对武汉市商业中心的抽取进行探究，并分析提取后的商业中心分布情况和发展程度。

1 研究区概况

武汉市位于长江中游中部地区、湖北省东部，是国家区域中心城市（华中）、湖北省省会、长江中游重要的中心城市、辐射带动东西部地区发展的国家重要门户城市[4]。

2 数据来源

商业POI数据来自城市数据派网站，包括2017年武汉市商业性质POI数据，其数量为3 402个，商业数据分类内容商场、超市、便民商店/便利店、专卖店、个人用品/化妆品店、家居建材市场、文化用品店、中介机构、楼宇、综合市场。其余数据出自 2017年武汉统计年鉴的部分内容。

本文所用的POI数据与城市、社会、生活和服务密切相关，可以系统地反映城市空间特征和属性关系。基于POI数据挖掘城市中隐含的信息，具有重要的理论价值和现实意义[5-6]。

3 研究方法

3.1 聚类分析DBSCAN算法

DBSCAN 算法是密度聚类的典型代表，由Ester 等[7]提出。DBSCAN算法最大的优点是聚类速度快，可以有效地处理噪声点，找到任意形状的空间聚类[8]；另外，DBSCAN算法可以有效地解决数据量大且兴趣点重叠并相互覆盖的问题。从宏观角度来看分布规律，数据的位置精确度保持在细节层面上[9]。本文利用spyder软件对python语言中的DBSCAN算法进行编程，对武汉商业POI数据进行聚类分析。DBSCAN算法流程如图1所示。

图1 DBSCAN算法流程图

本文将设Eps为0.02，minpoints为35，计算得出其噪声比为30.60%。最后将武汉市原始商业POI用地与聚类分析后的商业POI用地进行对比，排除了 1 041个噪声点，得出DBSCAN算法有较好的数据筛选效果（图2）。

图2 武汉市原始商业POI用地与聚类分析后的商业POI用地对比情况图

3.2 因子分析算法

本文拟采用定量的方式挖掘每个POI点的发展程度，空间分析单元以城市商业POI数据作为微观层面的指标。通过ArcGIS Pro和SPSS软件采取不同的分析方法来分别获取评判商业中心的指标数据，其包括人口密度、服务业产业指数、最近道路距离、道路密度、商业聚集程度和所在行政区面积,密度因子分析算法的过程如图3所示。

图3 密度因子分析算法流程

首先，人口密度popDen(si)、服务业产业指数tertiary(si)数据均来自武汉统计年鉴，最近道路距离neardist(si)和所在行政区面积shpArea(si)通过ArcGIS中的邻近分析中的距离和面积计算功能得到。

其次，构造点实体建立Delaunay三角剖分的方法用于构造点实体的类Voronoi空间剖分图（Thiessen多边形）[10]，挖掘其兴趣点密度聚集程度，定义商业POI聚集程度为：

式中，si代表商业POI点；Den(si)是点的密度聚集程度；AVi是在商业POI范围内的类Voronoi图面积。密度聚集程度的范围取0～1之间，值越大，表明si的周围的类Voronoi图面积越小，商业POI呈聚集分布特征，点si处在商业中心的可能性越大；值越小，点si与其被包含的多边形之间的区域差异越大，其比例或相邻空间在商业功能上的聚合能力越小。

最后通过点缓冲区分析计算道路网络密度，定义道路网络密度计算公式：

式中，si表示商业POI点；RoadDen(si)是商业POI的道路网络密度；AVi是si的缓冲区面积（缓冲区半径取500m）；LPi是si缓冲区范围内所有道路长度之和。

首先标准化原始数据，消除不同变量的量纲影响；经过计算城市商业中心的KMO值为0.699＞0.6，Bartlett球度检验显著性P（Sig.）=0.00＜0.05，说明因子分析可以取得更好的结果，因此原始数据适用于因子分析；因子分析法有多种抽取方法和旋转方法，为了最大程度反映原始变量的信息量和更好地解释公因子的含义[11]，本文通过SPSS软件采用主成分抽取和最大方差旋转方法获取两个主成分，主成分一（F1）用于反映综合两类特征的变化情况，主成分二（F2）偏向于反映综合几何特征；基于因子得分系数和原始变量的标准化值统计出各个POI的商业中心密度指数（F），并将计算结果F归一化到[0,10]区间，其主成分参数参见表1，计算公式如式3、4和5 所示。

表1 主成分参数表

经过因子分析法评价后的点数据集，通过基于密度属性的聚类[12]进行下一步的数据清洗与分类，其过程为：

1）选择最大密度作为初始聚类中心。

2）根据广度优先遍历方法搜索该对象的直接邻居，聚类满足阈值的对象，并进行标记。

3）循环步骤1）和步骤2），依次搜索对象的间接邻居，向外扩散，将符合阈值的对象添加到集群，不合适的对象标记为噪声，并将其删除。

经过分析后，在武汉市三环以内的区域提取出 13个不同的商业POI点数据集，可以作为武汉市商业布局的空间分布，通过ArcGIS中的中心性特征分析抽取出13个商业中心（图4）。

图4 提取的商业布局空间分布与抽取出的武汉市商业中心

4 结语

随着经济的发展，城市基础建设的完善，城市商业中心开始由单中心模式向多中心模式转变，使得商业中心的服务范围覆盖整个城市[13]。本文从城市商业中心的抽取、POI数据使用与分析这两个方面进行了相关研究和算法开发，通过python进行DBSCAN算法的设计与改进，利于ArcGIS进行缓冲区分析、Delaunay三角网和Voronoi图的构建，然后进行相关因子得分和各属性值的加权统计，得到相关密度评价数据，最后对商业中心进行抽取。实验结果表明，聚类分析DBSCAN与密度因子分析算法在商业POI数据的支撑下，能有效地抽取出大部分的商业中心。该算法还存在着一些不足和一定的误差，后期应该加入点评POI数据，提高数据的完整度，并且将尽可能多的影响指标因素考虑在因子分析算法中。