APP下载

空间数据挖掘在地质数据预处理中的应用

2014-11-15杜晓春

电子测试 2014年20期
关键词:云滴年段定性

杜晓春,刘 林

(西安欧亚学院,710065)

目前,针对数据挖掘的应用非常的多,几乎覆盖了各个不同的领域。在地质领域,我们一般采用空间数据挖掘技术来进行地质数据的集中处理。这样,也就找到了传统地质数据处理方法与空间数据挖掘技术对接的方法,建立了一种适合地质行业的地质数据预处理模型,从而使各单位的地质数据具有统一的标准,方便地质人员进行数据分析。

本次研究的数据主要从陕西省气象局和陕西省水利厅获得。众所周知,地下水系统、气象系统都是非常复杂的、持续变化的系统,它们都只存在相对的稳定。变化是一个复杂的非线性过程,它受诸多自然和人为因素的影响。因此,在进行数据挖掘前需要在实际生活中搜集相关的数据,而这些搜集而来的原始数据往往有很多问题不便于研究人员进行直接的分析和统计,如图1所示。它们的主要问题有:数据杂乱无章,因为大部分原始数据都是从生活中搜集来的,这些数据在产生前并没有经过统一的定义,也就是说,并没有统一的标准,数据的格式、结构都有很大的不同,因此,将这些在不同情况下搜集来的数据根本无法直接放在一起比较。

本次数据选取了有代表性的连续性数据,其中,主要选择了五段相对完整的数据分别是宝鸡地下水数据(1956-1971年段)、宝鸡的气象数据(1956—1971年段);西安地下水数据(1966—1974年段)、西安的气象数据(1966—1974年段);西安五县的气象数据(1956—1971年段)、山西某地的地下水分析数据(1956—1971年段)等。对于这些数据,我们需要进行预处理。数据预处理的主要过程包括:数据集成、数据清洗、数据转换、数据装载等。

数据的预处理结束后,可以通过数据变化找到数据的特征表示,包括规格化、归纳、切换、旋转和投影等操作。其目的是将数据转换成适于挖掘的形式。这里,我们应用云理论来进行数据的变换。

云是用自然语言值表示的某个定性概念与其定量表示之间的不确定性转换模型。云由许多云滴组成,每一个云滴就是这个定性概念在数域空间中的一次具体实现。如果给定符合某一正态云分布规律的一组云滴(xi,μi),即可利用逆向云发生器计算出它们所代表的正态云的三个数字特征(Ex,、En、He),即从实现定量到定性的转换,将一定数量的精确数据有效转换为以恰当的定性语言值{Ex,En,He}表示的概念,从而实现定性评价。

图1 :地下水数据资料

1 计算正态云的三个数字特征(Ex,、En、He)

这里我们将消除噪音以后的随机函数作为云滴,采用刘常昱于2004年提出的一维逆向云发生器新算法来处理地下水的升降概念,具体算法如下:

输出:这N个云滴表示的定性概念的期望Ex、En、He

算法:

2 划分概念区间

概念区间的划分采用五区间方案和三区间方案两种。

(1)五区间方案

利用某一次定量值对定性概念的贡献定义。把En一3He和En + 3He作为熵的上界和下界,将地下水的升降概念划分为 [Ex-3En ,Ex-2En],[Ex-2En ,Ex-En],[Ex-En,Ex+En],[Ex+En, Ex+2En],[Ex+2En, Ex+3En]五个区间。[Ex-3En,Ex-2En]表示异常下降,[Ex-2En ,Ex-En],表示异常下降,[Ex-En,Ex+En]表示稳定,[Ex+En, Ex+2En]表示上升,[Ex+2En,Ex+3En]表示异常上升。

(2)三区间方案

利用某一次定量值对定性概念的贡献定义。把En一3He和En + 3He作为熵的上界和下界,将地下水的升降概念划分为[Ex-3En ,Ex-En], [Ex-En,Ex+En], [Ex+En, Ex+3En]三个区间。[Ex-3En ,Ex-En],表示异常下降,[Ex-En,Ex+En]表示稳定,[Ex+En, Ex+3En]表示上升。

3 建立空间数据库

根据上述两种区间划分方案分别生成新的空间数据库。各方案的转换依据见表1和表2。

表1 基于五区间的概念划分及转换结果数据表

表2 基于三区间的概念划分及转换结果数据表

依据表1和表2系统生成三元表示的空间定性概念数据库。由上表可见新生成的空间数据库中对某一个因素的表达有下降、稳定、上升三种状态的,实现了不确定概念与定性概念的量化转化,注意它不同于数据挖掘中常规的布尔型关系数据库,故不能直接用常规数据挖掘中的关联规则,需要开发新的空间关联规则算法。但不确定概念与定性概念的量化转化模型已经成立。

从上述分析可以看出,云理论的五区间方案和三区间方案最大限度的划分出了主体对象云的主体,而五区间方案中剔除的非主体就是我们所要获取的异常。显然,剔除[Ex-2En ,Ex-En]、[Ex-En,Ex+En]、[Ex+En, Ex+2En],而 保 留 [Ex-3En ,Ex-2En]、[Ex+2En, Ex+3En],即是我们需要的异常(如,表3)。由此也得到了地质数据的异常提取模型。

表3 基于五区间的概念划分及转换结果数据表

最终,我们可以通过处理后的数据建立地质数据残缺数据的补充模型,还可以建立地质学中不确定概念与定性概念的量化转化模型以及建立地质数据的异常提取模型。

[1]张志兵著,《空间数据挖掘及其相关问题研究》[M],华中科技大学出版社,2011年10月。

[2]李德仁,王树良,李德毅著,《空间数据挖掘理论与应用》[M],科学出版社,2006年10月。

猜你喜欢

云滴年段定性
分裂平衡问题的Levitin-Polyak适定性
福建九仙山一次佛光的云滴粒子尺度分析*
对农村小学高年段读写结合教学的思考
农村低年段童话体写话教学探究
把握年段特点 做好班级管理
你不知道的雷雨知识
当归和欧当归的定性与定量鉴别
云微物理特性及云滴有效半径参数化:一次降水层状云的飞机观测资料结果
云滴谱离散度对气溶胶间接效应影响的研究进展
共同认识不明确的“碰瓷”行为的定性