APP下载

贝叶斯网络下的GIS空间数据不确定性管理模型

2012-11-27杨林鸽魏峰远

地理空间信息 2012年2期
关键词:空间数据结点贝叶斯

杨林鸽,魏峰远

(河南理工大学 测绘与国土信息工程学院,河南焦作454000)

贝叶斯网络下的GIS空间数据不确定性管理模型

杨林鸽,魏峰远

(河南理工大学 测绘与国土信息工程学院,河南焦作454000)

通过分析GIS空间数据各种不确定性模型,提出了基于贝叶斯网络的GIS空间数据误差分析模型,论述了贝叶斯网络的基础理论及贝叶斯网络建模方法,为使用GIS空间数据库的用户提供了更可靠、更快捷的分析方法。

贝叶斯网络;GIS空间数据;不确定性管理

GIS产品的质量归根到底是采集到的空间数据的质量。因此,和其他产品一样,缺少数据质量衡量指标的GIS将无法得到用户的信任,GIS用户也无法得到更好的决策支持。现在GIS越来越多地用于决策支持和不同目的的数据集成,如果没有适当的数据质量评价,将给用户带来一定的经济损失,甚至引起国家重大决策的失误。GIS数据质量问题的研究对评价GIS产品质量、确定数据录入的质量标准、改善数据处理方法、减少开发的盲目性、方便用户对数据的选择、实现数据共享和互操作性等都有着深远的影响。

1 GIS空间数据不确定性的产生

点要素是GIS中描述空间要素的最基本的元素,它是构成线和面的基础,在GIS中,一个点元通常是通过野外实地测量,地图数字化手段得到,然后由这些不同来源和不同精度点整合成数据库,形成元数据,再经过GIS空间分析形成最终用户需要的产品,其基本过程如图1所示[1]。

图1 GIS操作和管理不确定性的基本过程

在整个管理过程中,数据生成阶段会产生原始的测量误差;在建立和管理数据库阶段需要整合不同来源和不同精度的数据形成元数据,由元数据组成数据库;在分析阶段,不确定性通过GIS模型传播;同时整合其他类型的地理空间数据,在显示成果阶段,GIS产品的不确定性就被可视化,最后用户就查询和使用这些不确定性信息。

2 贝叶斯网络

2.1 贝叶斯网络的方法

最初人们采用概率推理的方法来解决不确定性问题,但对于许多复杂的实际问题来说,单纯的概率推理是难以处理的。Pearl[2]于1986年提出一种简单而有效的贝叶斯网络(BayesNetwork)来解决这类问题,有时也称为置信网络。它主要研究不确定性知识表达和推理的方法,贝叶斯网络是基于概率分析、图论的一种不确定知识的表达和推理的模型。从直观上讲,贝叶斯网络表现为一个赋值的复杂因果关系网络图,网络中的每一个节点表示一个不确定变量,不确定变量可以是连续的,也可以是离散的,各变量之间的弧表示节点之间的条件概率分布。贝叶斯网络是一种定性判断和定量计算相结合的方法,能有效地进行多变量联合评估[3]。

2.2 贝叶斯网络模型

贝叶斯网络的建模是对所包含的定性知识和定量知识进行结构上的描述,为下一步推理提供依据。从原始数据中构造 Bayes网络模型,实际上是对原始数据进行数据挖掘;先找出最符合原始数据的定性的网络图关系,然后根据网络图中的因果关系,计算节点间的条件概率[4]。

在贝叶斯网络中,节点之间的最基本结构有3种:顺序、分支和汇聚[5],如图2所示。

图2 贝叶斯网络的3种基本结构

顺序结构的概率为:P(A,B,C)=PC(C|A)P(A|B) P(B);分支结构的概率为:P(A,B,C)=P(C|B,A) P(B|A)=P(C|B,A)P(B|A)P(A);汇聚结构的概率为:P(A,B,C)=P(C)P(B)P(A|B,C)。

数据的不确定性可以认为是数据“真实值”不能被肯定的程度,即信息源没有完全表达的程度。应该说,它不但包含了误差的所有要素,还包括了非常复杂并难以观察的要素,由于空间数据对客观世界的描述经过了抽象化、离散化,只是对真实世界的近似和概括,所以数据不确定性和数据误差无时不在。GIS中对空间数据的不确定性讨论是为了消除或弱化不确定性并探讨它们对GIS分析结论的影响。GIS不确定的形式表现为5种[6]:位置不确定性、属性不确定性、现时性、逻辑一致性和完整性。不是所有的不确定性都是这5种形式的单一表现,有的是以5种形式中的几种来表现。

下面以GIS中简单的越野机动性(CCM)为例来说明贝叶斯网络应用于不确定性的管理。基于地形地貌(倾斜度、土壤类型、土壤湿度和植被)数据和CCM算法来预测一个交通工具通过某一地区的速度,现存的CCM算法没有考虑到不确定性的估计,贝叶斯网络模型提供了一个计算与 CCM值有关的不确定性的预测。我们知道测量的地形数据存在一定的误差,那么通过这些数据预测得到的CCM速度也有一定的误差,这个误差取决于地形的误差和GIS模型的误差,有时很小的误差也会导致最后预测出现很大的误差。

正如上面所讨论的,贝叶斯网络是一个带结点和弧的图形,结点代表不确定性变量,这里它们代表地形变量和CCM速度。每一个结点有一个相同的专有的结点,例如,代表植被类型的结点与植被类在数据库中的状态一致,注意到最上面一行不确定变量组成的结点代表着数据库中地面上一个特殊点的信息,这些变量在数据库中是不确定的,第二行变量代表不同的不确定的变量组,实际的地形情况是未知的。结点之间的弧代表着它们之间的联系,并用这些变量之间的条件概率来定义,例如,如果我们知道真实的地形变量的值,那么我们可以得到地形变量在数据库中的值的一些信息,并用数据库变量和实际地形的变量之间的弧代表这种关系。

贝叶斯网络模型,也代表一个数学模型和一个统计模型,一个贝叶斯网络模型代表网络中所有变量的联合概率分布,在这里是:

P(DV,DT,DM,DS,TV,TT,TM,TS,SS,CCM)

在贝叶斯网络中,这个分布定义了一个10个变量的概率,如图3所示。通常这是一个十分复杂的分布。贝叶斯网络定义变量之间的条件独立性,仅考虑与该变量相关的有限变量,从而使复杂的问题变得简单,定义每个结点的父结点的条件概率分布:

2.3 元素概率的计算

图3 CCM不确定性传播模型

3 存在的问题

1)本文只对贝叶斯网络在GIS空间数据不确定性管理模型方面做了定性的分析,还不能用明确的数学公式做定量的分析。

2)由于GIS空间数据管理模型只有和其他GIS模型结合应用才能对该模型做出不确定性估计,因此要想应用,需开发相关的算法和程序。

3)通过贝叶斯网络误差传播算法提供的误差信息,效率也是一个问题,事实上,对于一个大型的复杂的模型,应用贝叶斯模型算法比较昂贵,在GIS应用中,对整个数据库都要进行贝叶斯算法估计,这对于简单的模型来说不是问题,但是对于一些更复杂的模型就比较昂贵且效率低。

4 结语

1)通过贝叶斯网络模型进行不确定性估计,在实际GIS产品中是可用的模块,相对于一些没有进行不确定性评估的GIS应用产品,对加入贝叶斯算法的产品,做出的决策可靠性更高。

2)贝叶斯网络模型并不局限于连续的变量、可导函数或正态分布,对GIS产品中的大部分数据都可以应用。

3)对于以前不完整的或根本没有的信息利用专家意见进行整合,也可以做出更准确地预测,对所有数据都适用。

[1] 龚健雅.地理信息系统基础[M].北京:科学出版社,2001

[2] PEARL.J.Fusion,Propagation and Strutting in Belief Networks [J].Artificial Intelligence,1986,29:241-288

[3] 胡玉胜,涂序彦.基于贝叶斯网络的不确定性知识的推理方法[J].计算机集成制造系统,2001(7):65-68

[4] 张连文,郭海鹏.贝叶斯网络引论[M].北京:科学出版社,2006

[5] Balaram Das,Representing Uncertainties Using Bayesian Networks[z].[s.1.]:DSTO Electronics and Surveillance Research Laboratory,2001

[6] 刘大杰,刘春.GIS空间数据不确定性与质量控制的研究现状[J].测绘工程,2001(10):6-10

[7] 吕文红,吴祈宗,郭银景.基于D-S证据理论的群决策专家意见集结方法[J].运筹与管理,2005(4):10-14

GIS Spatial Data Uncertainty Management Model Based on Bayesian Network

by YANG Linge

By analyzing a variety of GIS spatial data uncertainty model,this paper proposed a GIS spatial data error analysis model based on Bayesian network,discussed the basic theory and modeling method of Bayesian networks.It provided more reliable and efficient methods of analysis for users when we use GIS spatial database.

Bayesian network,GIS spatial data,uncertainty management

2011-05-10

项目来源:河南省自然科学基金资助项目(0811055700)。

P208

B

1672-4623(2012)02-0059-02

杨林鸽,硕士,研究方向为空间数据的不确定性。

猜你喜欢

空间数据结点贝叶斯
基于八数码问题的搜索算法的研究
GIS空间数据与地图制图融合技术
基于贝叶斯估计的轨道占用识别方法
元数据驱动的多中心空间数据同步方法研究
基于互信息的贝叶斯网络结构学习
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计
基于Raspberry PI为结点的天气云测量网络实现
基于文件系统的分布式海量空间数据高效存储与组织研究