APP下载

最新空间数据集成研究综述

2017-09-29徐强

软件导刊 2017年9期
关键词:空间数据

徐强

摘 要:GIS领域空间数据具有多源性、异构性等特点,这些特点给数据共享与集成使用带来不便,因此出现了一个热点领域——空间数据集成领域。针对空间数据所具备的特征,从空间数据集成的3方面(异构方面、属性与空间数据方面、语义集成方面)出发,探索空间数据集成的研究路线,并分析各条路线每种方法的优缺点,同时提出进一步研究的途径,对后续研究有一定的指导意义。

关键词:空间数据;语义集成;空间数据集成;GIS

DOI:10.11907/rjdk.171408

中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2017)009-0212-04

Abstract:Spatial data has the characteristic of multi-source,behaving the heterogeneous feature in the GIS domain. In Convenience these features bring about occurs when we need the data sharing or the integration,so there is a hot area - the field of spatial data integration.We analyzes the advantages and disadvantages of each method and puts forward some research methodswhich has guiding significance from three aspects(isomerism,attribute and spatial data, emantic integration).

Key Words:attribute and spatial data; emantic integration; spatial data integration; GIS

0 引言

作為GIS核心的空间数据,在工程项目中具有核心地位。空间数据具有来源广、格式复杂且相互之间不兼容的特点,人们很难直接使用这些空间数据。空间数据集成的出现旨在解决这一缺陷,使人们能够透明地访问空间数据。

空间数据集成是对数据形式特征(如格式、单位、分辨率、精度等)和内部特征(属性、内容等)作全部或部分调整、转化、合成、分解等操作,旨在提供数据分布式高效使用和数据共享的数据深加工范式[1]。

针对空间数据的多源异构性,GML、Web服务、网格、ETL、无缝集成等空间数据集成解决方案的出现,都旨在屏蔽多异构来源的差异性。应对空间数据所具备的区别于属性数据的存储,AarcGIS推出了针对多关系型数据库的空间数据库扩展版本,都旨在解决属性数据与空间数据的统一存储。针对空间数据集成中所存在的语义集成问题,基于地理本体的方案旨在解决这一问题,但各方案均存在优缺点及适用场景。本文着重分析各方案每种方法的优缺点、适用场景、工程实施难度,以及后续研究路径。

1 空间数据集成相关研究

1.1 空间数据与属性数据集成

由于空间数据区别于普通数据,包含地理空间数据和属性数据两部分,因此许多GIS厂商纷纷推出自己的空间数据库引擎,比如ArcSDE、oracle spatial、postGIS等类似引擎组件。ArcSDE等空间数据引擎的出现,旨在打通关系型数据库管理系统中存储和管理多用户空间数据库的通路。它为了解决DBMS的多样性和复杂性而存在,使得用户可以自由选择DBMS存储空间数据。ArcSDE的优点在于:①鉴于其C/S的架构,引擎提供多用户的编辑支持,直至DBMS的上限;②还具有支持丰富的地理信息数据类型、长工作流、长事务等优点;③省去了空间和属性数据琐碎的链接,空间数据存取速度快,也保证了空间数据和属性数据的完整性[2];④将具体实现细节完全封装,方便用户及专业人士直接使用。

对于空间数据集成引擎组件,类似于国外技术,国内supermap的sdx机制不但能够让程序员自由存取编辑数据库格式空间数据,还能够存取编辑文件型空间数据,比如shp文件,甚至能够无限制调用Web地图服务,很好地体现了无缝集成机制。通过对比分析ArcSDE及supermap sdx机制,supermap在技术和索引方面略优于ArcSDE,但鉴于ESRI在GIS行业的优势及其系统解决方案的完美,ArcSDE的使用依然会成为主流。在技术方面,ArcSDE是基于dbms外的空间数据库访问中间件产品,对客户端空间数据与分析请求需要两层多次运算与信息传输,很容易成为海量空间数据管理在性能与安全方面的瓶颈,数据中转层次过多、效率低,在客户端和数据库之间均增设服务器,安全性能降低,在客户端和数据库之间增设服务器,较难发挥数据库服务器的群集计算能力。并且ArcSDE购买安装复杂,需要复杂的配置和调优,对于用户而言需要成本较高的培训。另外,与ArcSDE相比较,SDX+更加支持Sybase和国产DM关系型数据库。在空间数据索引方面,ArcSDE中采用的空间索引方法单一,通过多层级网格索引模式实现,这种索引模式在数据量密集时比较高效。其算法缺点是建立索引前必须预先知道各地理对象要素外接矩形的长和宽,并按其面积大小排序,若研究区域的范围很大,地理对象比较复杂,则不太适用。索引建立后,查询操作简单高效,但进行插入或删除操作时,涉及的地理对象的外接矩形面积若是不等于原先所有面积的大小,可能需要重新对面积进行排序并建立分区号,效率反而有所下降。SuperMap SDX+则针对不同数据类型提供了多种数据索引方式,包括四叉树索引、R树索引、动态索引(又称为多级格网索引)和图库索引,在使用时有更多选择,使用更加灵活。endprint

对于空间数据属性、数据存储乃至效率方面,潘俊辉[3]通过研究空间数据组织结构,采用一种层次性结构化文件系统,结合文件索引和数据字典技术对空间数据和属性数据进行统一管理,通过将文件分为文件头、实体模板信息、图层索引信息、各图层具体信息、文件结尾信息5层分层分段处理。针对于数字词典,例如实体模板信息,对于同一图层上的同一类实体都是存放在连续的地址空间里,因而可以按定长记录式文件进行读取,通过实体模板信息可以很明确地得到各类实体有多少属性及各属性的类型,进而可知道各属性所占的字节數,这样就可知每个实体的属性数据有多少项,可将各数据项看作是数据库中的一个字段,因而起到了一个数据字典的作用。针对于索引,通过各图层的索引可以很快地定位到各图层上,而通过各类实体的索引及图元索引可以很快地定位到属性数据和空间数据上,这起到了索引的快速定位作用。该方法的优点是对各实体尽量结构化表示,加快了大数据量的存取速度,缺点在于文件存储组织层次结构较复杂,构造结构需要谨慎以免出错。

1.2 多源异构数据集成

地理信息行业,单就市面上几个大公司的数据,如国内的mapGIS、supermap,国际的ArcGIS、mapinfo来看,类型就众多,并且具有异构的特点。开放性地理信息协会提出的GML通用标记语言提供了新思路,GML通过数据模型结构分析、对象读写操作分析、转换关系分析,编写特定模型实现数据转换来完成空间数据的GML存储。GML能够表示地理空间对象的空间数据和非空间属性数据。它旨在提供适用于Internet环境的空间信息编码方式,用于数据传输和存储,为后续的WebGIS开发建立良好的基础。GML优点在于:①GML是OGC提出的开放式标准,是一个非盈利组织,因此GML不受特有的硬件和软件商家所限制;②GML实现了空间和非空间内容及表现形式的分离,也即gml负责集成传输,最终的展示要进行后续操作,这样用户可以专心处理数据的存储和访问;②GML采用XML Schema来定义GML中标签的空间信息含义,这样不仅方便信息集成,而且保证信息的正确性;④GML使用XLink和XPointer技术,具有更强的链接和查询能力[4]。GML的缺点在于不同的空间数据模型,其数据结构也不尽相同,集成过程中分析与GML对象的转换关系就变得复杂,进一步改进模式匹配算法从而简化集成过程也将面临挑战。

针对GML存储方式中数据含有大量的冗余和海量性等特点,李文全[5]提出将GML文档和数据分离,分别采用字典压缩算法和去精度的增量压缩集成这种更高效的集成方案,大大节省了集成时间,提高了集成效率。具体来讲,通过对比分析发现,在一个GML文档中地理实体所采用的标签以及标签的嵌套深度基本相同,存在较大的冗余;另外,在同一标签下的属性名一般是相同的,但属性值间却存在较大差异,不存在相关性。因此对标签数据采用基于词组的字典压缩算法进行压缩,属性数据由于其不规律性,压缩算法不一定会达到压缩目的,直接原始输出。对于坐标数据,由于在GML文档中,表示某个空间对象位置需要多维坐标数据实现,并且同一维相邻坐标之间一般差异很小,长度和精度也相同,故采用去精度的增量压缩方法进行压缩。

WebService的最大优点在于跨平台性,因此将其应用于异构数据集成得到了越来越多的关注。WebService将多源异构数据进行封装,统一为Web服务的形式,从而很好地实现了数据互操作。GIS多源数据集成模型主要分为4个部分:Web子系统层、服务注册层、统一管理层、编码部分。分析整个集成模型,最终Web服务管理数据的格式还是GML格式。就流程来讲,客户端发送请求到应用中间层,通过UDDI查找对应的服务WSDL后进而通过SOAP调用子系统服务返回GML文档,供浏览器解析转换为SVG图像显示。比如,施展等[6]就基于WebService和SVG的电网GIS实现了电网系统的空间数据集成。WebGIS是一个分布式的、扩展性强、全球化的系统,Web Service集成方式就是为解决Internet环境下,使松散耦合的Web Service之间进行互相调用、互相集成而设计的技术框架。然而随着地理信息大数据的盛行,GML冗余多、数据量大等弊端限制了GML文档在Web上的传输速度及效率,是否引入比GML更轻量级的文档格式将成为研究热点,比如json、geojson等。

网格技术的出现为空间数据集成提供了新的方案,陈晓斌[7]基于OGSA-DAI扩展成WSRF-SDAI,从空间数据资源的扩展、功能模块Activity的编写部署、服务表达层的扩展3个方面探索了中间件对空间数据的集成支持,很好地实现了wfs数据服务的集成。但缺点在于:扩展的3步开源参考资源较少、步骤复杂、操作比较困难,该方法只是探索了一种数据服务,其它并未涉及,需作进一步研究。

ETL技术是建立数据仓库的必要步骤,而数据仓库的建立是为了满足大多数遗留下来的异构系统、应用、商务流程以及数据源构成的应用环境需求,以实现“数据集中化、业务综合化、管理扁平化、决策科学化”目的[8]。为此,ETL技术主要应用于商业智能方面,其数据来自于各部门的人文数据、经济数据或业务数据等。刘文军[9]尝试将ETL技术和GIS技术相结合,在对不同来源、尺度、类型、组织方式及软件支撑平台的基础地理空间数的抽取规则和转换规则基础上,通过数据的抽取、清洗、转换,最后装载到框架数据库。该方式能够简单地通过3步成功地将多源异构数据一键抽取形成框架数据,但是内部处理过程只进行了简单的空间数据坐标转换,数据的精度调整、去噪处理、拉伸平移、保密性未作考虑,另外数据抽取和入库的效率未曾考虑。FME作为最好的ETL解决方案,真正体现了ETL的优势,优势如下:FME具有强大的数据转换功能,能够实现200多种空间数据格式的转换,并且在持续增加;具有超强的数据兼容能力,能够独立浏览数据图形、属性信息;采用流式数据处理方式;具有开放的接口,用户可根据需求,实现新数据类型的扩展。FME还支持海量数据的处理[10],但需要根据具体需求制定转换规则。另外,FME转换器众多,如何协调各转换器完成作业流是其难点。endprint

1.3 语义集成问题

以上方案都没有提到语义集成问题,针对这一问题,提出了基于地理本体的空间数据集成方法。该方法采用局部本体向标准本体集成的策略,在构建具有公共内涵属性模板的前提下,通过地理概念语义关系集合运算构建局部本体概念与标准本体概念间的语义映射关系,实现地理本体集成,并以这种语义映射关系与对象类的关联关系为媒介,通过空间数据语义细化和空间对象融合、分割等过程完成空间数据集成。结果能够集成不同语义的空间数据集。例如,赵彦庆[11]等利用支持双向映射的混合本体模式来解决全局本体与各应用本体之间的冲突,实现数据的语义集成。

基于地理本体的语义集成难点有两个:一是建立地理信息领域本体描述,对概念知识进行本体表示;二是建立本体之间、本体与数据源之间的映射,之前有些地方未统一原则,存在一些缺陷。例如在数据层面上,源数据类的实例归属到不同的目标类所引出的语义细化问题,各种案例对此处理方式均不相同。不过在此中间,通过地理本体公理的自动化推理进行细化因其自动化、智能化特征而具有潜在发展优势。另外,鉴于本体的语义集成成为语义集成方面唯一的方法,探索新的领域方法成为必要。

2 分析与总结

综上所述,结合外文官网资料[12-14],从各种集成方法的优缺点、适用场景及GIS数据处理工程师操作难度几个方面总结分析如下:空间数据与属性数据的集成方面,国际空间数据引擎如ArcSDE,其优点在于多用户编辑、长工作流长事务支持,擅长解决空间数据属性数据琐碎链接问题;缺点在于企业需要ArcGIS平台及数据库平台软硬件的购买安装,成本较高,适用场景为大企业的空间属性数据一体化存储,多工作流GIS系统、GIS数据处理,工程师操作难度较低,具体细节封装,且调用简单,仅仅需要设置不同数据源的相关参数调整即可。国内空间数据引擎如supermap sdx,几乎具备ArcSDE的以上优点,亮点在于还具备文件型引擎;缺点是同样需要各平台软硬件的购买,成本较高,即使是学习使用也没有永久免费版。适用场景除了ArcSDE的场景,同样支持多源矢量栅格文件直接存取,进而为Web、移动端开发做数据准备。GIS工程师操作难度与ArcSDE大体相同,文件型数据操作最容易,无需设置任何参数,只需要关注后续数据的纠偏、投影及属性数据编辑等方面的操作。文件索引及数据词典主张实体尽量结构化表示,加大了数据存取速度,缺点在于文件存储组织层次较复杂,构造及理解难度较高,适用于大数据量的空间信息存取速度急需提升的情况。从GIS数据处理工程师角度讲,实体化结构分析困难且复杂,难度较大,不过一旦结构化完成,存取较为容易。

从多源异构数据集成方面讲,基于GML的空间数据集成方法所使用的GML不受硬件软件商家限制,成本低,实现空间和非空间数据内容及表现形式的分离,采用xml schema定义空间信息,保证数据准确性,使用Xlink和Xpointer技术,具有更强的链接和查询能力。缺点在于空间数据结构不尽相同,集成过程中分析与GML对象的转换关系变得复杂,并且转换过程可能存在信息丢失情况。由于GML网络传输的优势,基于GML的空间数据集成适用于频繁的空间数据交换及传输的GIS系统。GIS工程师最核心的处理步骤就是集成过程中分析与GML对象的转换关系,难度中等;GML文档和数据分离集成改进方法采用字典压缩算法和去精度的增量压缩集成,提高了集成速度,缺点在于字典压缩算法实现难度大且不具备普适性,适用于较大的数据量集成,同样适用于压缩算法,适合分析能力强的GIS工作者。基于WebService的空间数据集成具备跨平台的特性,数据被统一成Web服务的形式,方便实现互操作。缺点是存在数据丢失问题,并且大数据量的传送对网络是一种考验,适用于需要互操作的分布式数据集以及需要集成的WebGIS系统,WebService的调用较为简单,数据获取服务注册,统一管理较复杂,难度为一般。以FME为代表的ETL空间数据集成方案,在数据格式转换方面具有强大优势,主要优点在于类型支持多,对流式数据处理方式及各种数据类型可视化编辑和大数据转换提供了支持。但复杂结构数据转换需要定制,并且抽取转换过程中存在信息丢失现象,它适用于数据类型多样需要进行统一格式存取编辑分析的系统。对于GIS工程师而言,图形界面操作、框线勾画实现数据转换较为简单,但是数据转换需要定义一些规则,另外数据转换器较多,需要较多时间去熟悉。以OGSA-DAI扩展为代表的网格空间数据集成方案采用多计算机系统完成了集成任务,无论是从时间还是效率上都得到了提升,缺点在于功能模块Activity的编写部署和服务表达层的扩展以及Activity之间的工作流链接,适用于空间大数据的集成及有多系统条件的企业以及工作者。从GIS工程师角度讲,空间数据资源的扩展编写较为简单,功能模块Activity的编写部署和服务表达层的扩展难度很大。

从语义集成方面讲,实现方案极少,基于地理本体的空间数据集成是代表性的方案,但是方案中本体与数据源的映射之间有些地方未统一原则,该方案适用于需要语义集成的开发者。对于GIS工程师而言,构造本体以及建立本体之间,本体与数据源之间的映射存在规则模糊的情况,难度较大。总体而言,空间数据集成各方法优缺点、适用场景、GIS工程师实现难度如上所述,各方案关键的优缺点如表1所示。

3 结语

本文就目前空间数据集成在空间与属性数据、异构数据、语义集成方法进行了优缺点、适用场景及GIS工程师处理难度方面的分析,并提出了一些前瞻性的后续研究路径,具有一定的借鉴意义。

参考文献:

[1] 李军,费川云.地理空间数据集成研究概况[J].地理科学进展,2000,19(3):203-211.

[2] 李德元,姚文龙,杨二龙,等.基于ArcSDE文件地理数据库存储和设计的应用研究[J].测绘与空间地理信息,2016,39(2):82-84.

[3] 潘俊輝,相生昌.GIS空间数据与属性数据的文件组织结构研究[J].重庆科技学院学报:自然科学版,2014,14(1):128-130.

[4] 占美志,何政伟,李程.基于GML的空间数据集成技术研究[J].地理信息世界,2014,21(2).29-32.

[5] 李文全,戴经国,段琢华,等.异构环境下的GML空间数据高效集成研究[J].计算机应用与软件,2015,32(5):42-45.

[6] 施展,笪惠群,张晓梅,等.基于WebService和SVG的电网GIS研究[J].电力系统及其自动化,2013,35(4):60-62.

[7] 陈晓斌.基于网格中间件的空间数据访问与集成技术[D].郑州:解放军信息工程大学,2012.

[8] 缪嘉嘉,邓苏,刘青宝.ETL综述[J].计算机工程,2004,30(3):4-6.

[9] 刘文军,吴俐民,方源敏.基于ETL的多源异构空间数据集成技术研究[J].城市勘测,2014,2014(2):55-59.

[10] 任俊儒.基于FME的GIS数据处理研究[D].北京:中国地质大学,2015:13-14.

[11] 赵彦庆,肖如林.基于本体的网络地理空间数据集成[J].地理信息科学学报,2012,14(5):584-591.

[12] Xalan XSL transformer user′s guide [EB/OL].http://xalan.apache.org/.

[13] GML geography markup language[EB/OL] .http://www.gdal.org/drv_gm l.html.

[14] Arc SDE10 developer help[EB/OL].http://help.arcGIS.com/en/geodatabase/10.0/sdk/arcsde/welcome.html.

(责任编辑:孙 娟)endprint

猜你喜欢

空间数据
云GIS环境下分布式空间数据集成技术研究
元数据驱动的多中心空间数据同步方法研究
基于文件系统的分布式海量空间数据高效存储与组织研究
嵌入式环境下地理空间数据组织技术研究
客户端空间数据缓存策略
多源空间数据同名实体几何匹配方法研究