基于聚类算法的GIS深度数据挖掘模型研究

2021-11-07熊燕

科技信息·学术版 2021年22期

摘要：本文基于项目研究，结合GIS数据的特点及业务领域特征，基于聚类算法进一步研究了深度数据挖掘方案，得到新的算法模型。本文阐述了多维建模过程及模式，对样本数据进行分类的方法，聚类规则等，并在来源项目中得到验证。

关键词：聚类，GIS，时间，位置，文件

前言

GIS 数据不仅具有空间特征，又具有属性特征，并随时间变化。因此，数据量大且结构复杂。如今，社会上许多行业和部门都在使用 GIS。面向不同应用领域的GIS数据，还会同时产生更多维度的数据，如人文信息。如果没有合适的数据分析和挖掘方案，GIS就不可能发挥其最大的效能，许多数据间的关联及潜在“知识”不会被发现。

1. GIS数据的特性

1.1 时空特性

地理数据是与空间相关的。它可以被分配坐标或任何空间引用。数据在地球表面，包括位置和组织。地理数据的规模可以从一般到具体，从简单到复杂。地理数据是动态的，包括空间动态（空间变化）和时间动态（时间变化）。地理数据既具有空间特征，又具有属性特征，并随时间变化。因此，数据量非常大。

1.2 业务特性

当今，许多行业已经将GIS纳入了自己的业务系统。在这些业务系统中，GIS中的数据与用户的其他在线活动相关联。GIS数据来源包括地图、遥感图像、文本数据、统计数据、实测数据、多媒体数据、现有系统数据等。由于标准化，不同系统之间的数据共享和互换性正变得越来越强。这扩大了数据的可用性，增加了数据的潜在价值。因此，在挖掘 GIS中的信息时，首先要明确业务需求，确定数据源。本文主要研究了用户在网络和数字地图上的活动数据。事实上，有很多数据库系统是关系数据库。

2. 聚类算法及挖掘架构

2.1 聚类算法

聚类（Cluster）分析是由若干模式（Pattern）组成的，通常，模式是一个度量（Measurement）的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类分析的算法可以分为划分法（Partitioning Methods）、层次法（Hierarchical Methods）、基于密度的方法（Density-based Methods）、基于网格的方法（Grid-based Methods）、基于模型的方法（Model-Based Methods）。

基于某种业务，很难说具体应用了哪种聚类算法，因为这些类别可能重叠，从而使得一种方法具有几类的特征。因此在聚类基本划分方法的基础上，如何针对业务领域设计出相应的新算法是有一定挑战的。

2.2 挖掘架构

在来源项目的研究中发现，数据资源可以通过访问公众、收集地理信息等方式获得。我们可以把所有的数据分成几种类型。一般的挖掘过程包括：挖掘对象确定、数据准备、模式提取、模式评价。

基于项目研究领域的特点，新挖掘算法模型的产生基于这样的架构：数据维的划分、切片、聚类、识别。该模型关注的是地理数据的维度，这些数据被信息需求分割。然后高密度区域被划分为集群。在对数字地图进行聚类之后，用户可以进一步识别地图上的深度信息。

3. 多维数据模型的建立

3.1 维度确定

数据在转换后被加载到一个关系数据库中。选择多维数据允许我们从数据库的各个方面观察数据。多维数据矩阵由模式表示：

C （A1，A2，...，Am，count）

矢量 Ai （i = 1，2，...，m）表示其中一个维度。参数count是一个变量。

在数据矩阵中，根据实验要求选择多个维度：时间维度、空间维度、 url 维度、用户维度、文件维度。建立数据矩阵后，可用于分析来自多个方向的数据。

3.2 模式设计

创建多维数据模式在关系数据库中，数据模型由实体及其关联的集合组成。该数据模型适用于在线事务处理。然后，我们构造了一个星型模式来表示数据仓库中的多维数据结构。这个模式包含一些部分，如图1所示。

星型模式由两部分组成：

（1）中心表也是事实表。这个表包含了大量的数据，这些数据并不是冗余的。

（2）还附加了一组维度表，每个维度对应一个维度表。

4.多维视图的聚类分析算法

在以前构建的数据仓库中采用聚类分析算法，从数据库引擎中提取数据的三个维度：日期、文件、位置。在数字地图中，位置维度按街道划分。日期尺寸除以年份。文件尺寸按文件类型划分。

根据原始数据经过清理和转换后的数据矩阵，用户对数据的访问用2D 表示。我们在这个二维表示中使用日期维度和文件维度。日期维度是按年组织的，例如：y1，y2，y3，y4。文件维度按访问的文件类型进行组织，例如：file1，file2，file3。事实或度量是属性 visit _ count。属性 visit _ count 的值表示每次访问一个文件的次数。

DBSCAN （Density-Based Spatial Clustering of Application with Noise）是一种针对高密度连接区域的密度聚类算法。该算法将具有足够密度的区域划分为若干个簇。任何形状的聚类都可以在带有“噪声”的空间数据库中找到。集群被定义为与密度相关的最大点集。基于密度的聚类包含了一些新的定义，例如：

（1）neighborhood是给定物体的区域，該区域的半径为r。

（2）如果一个对象的邻域至少包含一个最小数量的对象，该对象被称为核心对象。

（3）给定一个对象集 d，如果对象 p 在对象 q 的邻域内，q 是核心对象，我们说对象 p 是直接从对象 q 密度可达的。

结语：

该算法模型在来源项目中进行了实验。实验结果验证了该聚类分析算法及模型的有效性。数据被划分为多个维度，并通过星型模式存储在数据仓库中。新的聚类算法给出了一些定义和规则。根据这些算法规则，对多维数据进行计算和分析，最终可获得更深层次信息。

参考文献：

[1]吕奕. 基于改进密度峰值聚类算法的轨迹行为分析[J]. 计算机工程与应用. 2021，4

[2]Nagpal Mayank. Keyword Selection Strategies in Search Engine Optimization：How Relevant is Relevance [J]. Journal of Retailing. 2020，12

[3]Hamid Saadatfar. A New K-Nearest Neighbors Classifier for Big Data Based on Efficient Data Pruning [J]. Mathematics Volume 8，Issue 2. 2020

项目来源：面向复杂来源的大数据分析架构及算法模型研究，湖北省教育厅2019年度科研计划项目，项目编号B2019285

作者简介：熊燕，女，副教授，湖北省武汉市武昌理工学院，人工智能学院。