APP下载

基于多源异构的城市地质数据集成关键技术研究

2020-03-31付博王文文张诗檬韩征刘钊陶光毅

城市地质 2020年1期
关键词:数据集成

付博 王文文 张诗檬 韩征 刘钊 陶光毅

摘  要:城市地质数据存在“信息孤岛”,打破“信息孤岛”实现数据融合是城市地质大数据建设的必然要求。因此,采用多源异构技术实现数据融合是十分必要的。多源异构数据集成方法是将结构化、空间、非结构化的城市地质数据按照统一的分类方式、统一的ETL标准、统一的存储模式和统一的调度方法在关系型、非关系型数据库中进行有效的存储和管理,其中涉及的关键技术包括用于多来源、多格式、多用途调查监测数据集成的结构化数据集成方法,用于不同介质、不同格式、不同标准成果资料集成的非结构化数据集成方法,以及用于存储多源异构城市地质数据的信息资源管理系统的建设方法。

关键词:多源异构;城市地质;监测预警;数据集成

Research on Key Technologies of Urban Geological Data Integration based on Multi-source Heterogeneity

FU Bo1, WANG Wenwen1, ZHANG Shimeng1, HAN Zheng1, LIU Zhao1, TAO Guangyi2

(1.Information Center of Beijing Institute of Geology, Beijing 100195;

2.Beijing Zhongkeguanggu Languang Technology Co., Beijing100041)

Abstract: Information islands of urban geological data are common. Breaking the information islands and realizing data fusion is an inevitable requirement for urban geological big data construction. Therefore, it is necessary to use multi-source heterogeneous technology to achieve data fusion. Structured, spatial, and unstructured urban geological data are processed according to a unified classification method, a unified ETL standard, a unified storage mode, and a unified scheduling method in relational and non-relational databases, so that data can be effectively managed and stored. The key technologies of multi-source heterogeneity are multi-source structured and unstructured data integration methods and the construction method of information resource management system, which are introduced in this paper.

Keywords: Multi-source heterogeneity; Urban geology; Monitoring and forecast; Data integration

0 前言

大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应用就是利用数据分析的方法,从大数据中挖掘有效信息,为用户提供辅助决策,实现大数据价值的过程(张引等,2013)。就学术界而言,Nature早在2008年就推出了Big Data专刊,Science在2011年2月推出专刊 《Dealing with Data》(孟小峰等,2013),说明大数据对于科学研究的重要性。越来越多的国家将大数据引入到生产生活的各个领域中,如美国6个联邦部门和机构宣布投资2亿美元,共同提高收集、储存、保留、管理、分析和共享海量数据所需核心技术;英国政府发布了对公开数据进行研究的战略决策,建立了有“英国数据银行”之称的data.gov.uk网站,进一步支持和开发大数据技术在科技、商业、农业等领域的发展。而在国内,2015年国务院发布了《促进大数据发展行动纲要》,明确指出了大数据的重要意义,大数据成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径(程学旗等,2016)。

物联网的概念于1999年由麻省理工学院的Auto-ID实验室提出,将书籍、鞋、汽车部件等物体装上微小的识别装置,就可以时刻知道物体的位置、状态等信息(刘强等,2010)。目前,就物联网概念而言,目前较为公认的物联网的定义是:通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络(刘楷华等,2011)。物联网是新一代信息技术的重要组成部分,也是“信息化”时代的重要发展阶段(刘晓峰等,2018),物联网用途广泛,遍及智能交通、环保、公共安全、智能消防、工业监测、卫生医疗、食品、敌情侦查和情报搜集等多个领域(刘浩力等,2011)。而在地质方面,北京市已经建成的“突发地质灾害监测预警系统”已经部署了各類野外传感器一千余台套,实现了对崩塌、滑坡、泥石流及采空塌陷等山区重点突发地质灾害隐患点的监测全覆盖。系统以GPRS和北斗卫星双通道传输模式实现数据传输,通过对其形变数据的自动和人工采集、分析,实现对其变化趋势的中短期预报。

云计算技术的产生,使数据的处理从个人计算机或服务器转移到了因特网,而且实现了超级计算,用户只需要购买或通过因特网租用计算能力,不再需要购买成本昂贵的硬件系统(朴德慧,2015)。云计算通过将各种互联的计算、存储、数据、应用等资源进行有效整合并实现多层次的虚拟化与抽象,有效地将大规模的计算资源以可靠服务的形式提供给用户,从而将用户从复杂的底层硬件逻辑、网络协议、软件架构中解放出来(吴吉义等,2009)。云计算在科研、医学、天文学等各个领域有着广泛的应用前景(陈全等,2009)。而对于地质领域,中国地调局建设的“地质云”采用混合云技术架构,汇聚了大量的异构地质数据。系统完成了数十个国家地质数据库的云端统一注册管理,并实现13万余档地质资料的统一接入。地质调查专业用户可基于“地质云”业务网获取各类共享数据,普通社会用户可基于互联网在线获取地质信息产品。“地质云”开创了全新的工作模式,地质调查用户可以随时随地上传调查结果至云端,实现云端数据处理和储存,也可以实时从云端获取数据。野外作业人员可以通过地质云实现各类背景数据的自动推送,地调业务管理人员可实现云端在线处理项目管理。

城市地质信息化工作主要是以传统的方式建立独立的信息系统,由于各系统的数据库所采用的技术、平台及网络标准不统一,导致了大量的数据资源共通、共享与共用还存在较大的障碍,从而无法将大数据、云计算和物联网技术应用到城市地质的调查和监测过程中,从而没有“大平台”的建设理念。

对此,未来若想要将大数据、云计算、物联网等新一代信息技术应用到地质领域,首先需要解决的问题就是多源异构数据集成的问题,研究不同格式、不同类型、不同分类方法、不同储存方式等多源数据的集成方法。只有打通了数据共享交互的关节,才能打破“业务壁垒”消除“信息孤岛”,实现数据资源的共享互换。

首都地质资源环境承载力监测预警平台将建设成为地质勘查管理与服务的大数据应用平台,总体架构设计分为基础层、数据层、支撑层、服务层、应用层、用户层。平台建成后将提供预警预报、决策支持、技术会商、应急处置等服务,各类专业技术人员提供地质数据综合利用、地质资料查询检索、三维地质结构浏览展示服务,同时,向社会公众展示各类地勘工作成果。

平台涉及到地面沉降、地下水环境、突发地质灾害、矿山地质环境等各专业领域的结构化、非结构化数据,因此需要将涉及到的结构化、半结构化、非结构化数据,使用多源异构数据集成技术进行管理和存储。未来多源异构技术就是首都地质资源环境承载力监测预警平台的“枢轴”和“调度中心”,将使得包含地面沉降、地下水环境在内的八大监测预警系统之间的数据自由流转、信息交换共享成为可能。

1 多源异构数据集成的总体思路

1.1 城市地质数据存储管理中存在的主要问题

北京各类城市地质数据由不同部门进行多头管理,多家单位所存储的不同类型、不同格式的地质数据无法进行数据交互,而对于数据更为深入的综合分析和挖掘更是遥不可及。存在的主要问题包括:

(1)在城市地质数据标准化方面,存在空间数据格式不统一、结构化数据格式不统一和成果资料分类标准不统一的问题。具体表现在:①空间数据具有MapGis(WT/WL/WP)、ArcGis(Shp)、AutoCAD(dwg/dxf/dwt)等格式,上述空间数据格式之间的通用性较差,成果转换难度较大。②结构化数据尚未建立统一的标准,如对于突发地灾的雨量监测数据,有的是以每天的降水总量为监测值,有的是以每分钟的降水增量为监测值,而对于钻孔数据的命名方式各部门标准也不统一,这造成同一岩性的命名截然不同。③成果资料的分类方式千差万别,有的单位按照数据类型分为结构化,空间,非结构化数据;有的单位按照专业领域分为水文地质、工程地质、环境地质类数据;有的则按照汇交格式分为标准格式和非标准格式数据。

(2)在城市地质数据的存储介质和管理工具方面,不同单位的管理方式也是天差地别。①当前城市地质的存储介质包括纸介质、光盘介质、电子介质等,多种介质之间很难进行有效的数据共享。②各个城市地质系统使用独立的数据库系统进行支撑,没有实现集成,独立系统造成“信息孤岛”现象严重。③用于存储城市地质数据的数据库管理工具多种多样。有的采用Oracle、MySQL、PG等数据库管理系统,有采用存储图件的ArcGIS、MapGIS等管理软件,有采用存储档案资料的Trip、MongoDB等管理系统,没有形成统一的存储方式。

1.2 城市地质多源异构数据集成技术的总体框架

城市地质多源异构数据集成技术的总体框架包括地质信息资源管理系统、关系型与非关系型数据库、数据的ETL和多源异构空间数据(图1)。

(1)多源异构城市地质数据的三重分类方法

所谓三重分类就是按照资料类型、所属地质要素、数据格式的三种分类方法将城市地质数据切割为独立的数据立方体的过程。首先将数据按照动态监测类、基础资料类、专业成果类和三维模型类进行分类,此為一级分类。一级分类完成后,将根据数据所属的“专业领域”“地质要素”“地质单元”进行二重分类,最后,将划分好的二级子类数据按照结构化、空间数据,非结构化的数据再次分类,从而形成了相对独立又紧密连接的数据立方体。

(2)关系型数据库的架构体系

关系型数据库主要是通过引用元数据表和地质要素,将包括地面沉降、地下水环境、突发地质灾害等八大监测预警系统中所有结构化表格串联和绑定的方式建立的体系。其物理上采用PG数据库对178张结构化表格进行存储,每一个监测预警体系中均使用统一的“地质要素统一编号表”进行串联,从而将全部178张数据表进行了有机的集成。

(3)空间数据库的架构体系

地质多源空间数据包括地下水环境、地面沉降、地热与浅层地温能、突发地质灾害、土壤地质环境等业务领域,空间数据的主要存储方式是采用ArcSDE+PG的架构体系,因此涉及到ArcGIS类型的数据将采用ArcSDE的方式进行存储和管理,而涉及到MapGis和AutoCAD格式的数据将转换为ArcGIS格式,或采用非结构化数据的管理方式进行管理。而对于全局管理而言,地质多源空间数据集成将采用TRIP非关系型数据库、PostgreSQL关系型数据库和ArcGIS空间数据库共同组成多源异构空间数据库。每个图层及其元数据形成TRIP图层数据库中的一条记录,图层存储在非结构化字段,图层元数据存储在同一条记录的结构化字段。而图层的元数据由TRIP数据库导入PostgreSQL数据库,图层的空间数据导入ArcGIS空间数据库。

(4)Trip非结构化数据库的架构体系

非关系数据库突破了关系型数据库严格的表结构,解决了关系数据库不易表达复杂嵌套数据结构的问题,存储的数据对象包括非结构化数据、半结构化数据和结构化数据。视处理数据对象而言,目前非关系型数据库主要有键值存储、列存储、文档型和图形四大类。

TRIP数据库属于文档型非关系数据库,数据库中文档是处理信息的基本单位。数据库存储每个对象的所有信息,并且每一个被存储的对象可与任一其它对象不同。TRIP数据库由记录组成,记录由字段组成,字段存放数据。TRIP数据库允许创建不同类型的字段,包括字符串、数值、日期、时间、文本、二进制等字段,其中文本字段用于存储文本中的句子和段落和从电子文件中抽取的字符,二进制字段用于存储任何类型的字符,包括ASCII字符,以及图像、视频、音频等二进制数据,能够满足多种类型、多种格式的结构化数据、非结构化数据及元数据存储的需要。同一数据库不同记录的非结构化数据的格式可不同,同一条记录中多个非结构化数据的格式可不同。一个数据库能被分成若干个数据完整的子数据库,若干个子数据库可合成一个数据完整的数据库。TRIP数据库适用于大规模、多种类、多种格式数据的存储、备份和管理。

TRIP数据库能与搜索引擎集成,对结构化数据的文字信息和非结构化数据(电子文件)中抽取的文字信息进行全文索引,包括:对字符串字段每个字、词、词干、整个字段内容进行索引,对文本字段每个字、词、词干进行全文索引。对日期、时间和数值进行索引,检索范围包括结构化数据、非结构化数据(电子文件)中抽取的文字信息及元数据的文字信息。能够对数值、日期、时间、文字信息进行统计分析,借助中文自动分词和专业中文分词词典大幅度提高数据的查准率和检索速度。

(5)地质信息资源管理系统

信息资源管理系统可以管理三个不同类型的数据库,包括空间数据库ArcGIS,关系型数据库PostgreSQL以及TRIP非关系型数据库。数据导入时将原文件、图件图层、XML关联文件 、XML数据地理信息、监测点站井地理信息以及监测数据导入非关系型数据库中,关系型数据库从非关系数据库中获取部分数据以及关联信息,并导入空间数据库。空间数据库通过关系型数据库的导入地理信息以及关联文件,实现空间数据的存储、分析、调取与利用。

(6)元数据表功能和意义

元数据是描述数据的数据(data about data),主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。通过元数据表可以将数据联系起来,如非结构化数据的元数据表可以包含项目编号、资料题名、资料类型、保护期、关键词等信息,这些信息提取出来之后,就可以将元数据汇聚到统一的表格中,从而实现不同类型数据的统计分析。

(7)多源异构标准化规则

制定数据标准化处理的技术方法应当参照国家及行业相关的标准规范,如《地质信息元数据》《成果地质资料电子文件制作与汇交格式》《地质钻孔(井)基本数据文件格式》等,并且应当按照平台规定的空间参考系统;为了保证数据的完整性和一致性,需要建立数据ETL的标准化规则,在地质信息资源管理系统中开发实现用于数据抽取、数据的清洗转换和数据加载的算法。

对于不同类型的数据,需要制定不同的规则(表1)。

(8)城市地质数据仓库的结构

地勘领域空间数据将成为实现“智慧地质”的核心组件。数据仓库将包括关系型数据库中全部数据,通过数据抽取、转化、上传规则的制定,来实现数据流从数据库向数据仓库的定期转移。本次数据仓库的设计将针对城市地质数据仓库的主题、维度和粒度进行划分。首先,仓库中数据的组织主要是以基础比例尺的方式来实现不同比例尺数据的拆解与聚合,其次,确定仓库的主题域,包括业务领域、维度、比例尺、监测预警系统、地质要素等。最后,按照地质单元、图层、时相、地质要素进行维度划分。数据遵循此流程进入数据仓库,就可以实现多地质要素数据的融合。

2 关键技术问题

2.1 地质多源结构化数据集成方法

首都地质资源环境承载力监测预警平台未来将通过物联网技术接入地下水环境、地面沉降、重大线性工程等八大监测预警系统,所涉及的传感器包括GPS、水准点、水位监测井、雨量计、泥位计、分层标、基岩标、摄像头等数十种,数据类型具有ArcGIS、MapGIS、Auto CAD、txt、Excel、遥感影像等多种格式。数据来源也千差万别,数据获取方式也多种多样。同时,为了进行综合分析和预警预报,平台还将接入以非结构化数据为主的历史资料、GIS图件、物化探数据、遥感数据、数字化成果、模型数据。

系统将根据八大监测预警系统各自的业务体系,首先建立起对应的结构化数据框架,从而形成八大结构化数据的框架体系。比如对于地面沉降监测预警系统,首先通过地面沉降监测站统一编号表对地面沉降监测站进行编号,将地面沉降监测站编号作为键值与地面沉降监测站基本信息表对应,将地面沉降监测站基本信息表中监测方法统一要素编号作为键值与多源异构数据统一编号表对应,多源异构数据统一编号表通过监测方法统一要素编号作为键值与地面沉降GPS水准一体化监测点、地面沉降GPS监测点、地面沉降水准监测点等各基本信息表一一对应,监测点原编号或监测井原编号作为键值与各个监测数据表对应。八个监测预警系统的结构化数据库框架建立方法同上。

八個监测预警系统中的结构化数据框架都包含多源异构数据统一编号表,表中包含监测方法要素统一编号、所属地质要素、所属专业领域、所属监测预警系统等字段,地质要素包括地下水水位、地温场环境、地表形变、地层形变等类型,通过所属地质要素为纽带,可以将八大监测预警系统的表格进行有效的横向集成。同时,由于元数据表可以对结构化、空间和非结构化数据进行纵向的集成,从而就形成了整个结构化数据表的集成。

2.2 地质多源非结构化数据集成方法

(1)数据来源与种类

地质多源非结构化数据包括地下水环境、地面沉降监测等领域,其数据类型包括基础资料、三维模型数据、监测数据中的电子文件。基础资料汇交的数据格式一般是ED-Maker,每个XML格式地质资料文件目录关联多个不同格式的电子文件;三维模型的数据格式一般是Creator、ArcGIS、MapGIS、网格天地等;监测数据中的电子文件有pdf格式、excel、word等。

(2)基于异构类型数据库的地质多源非结构化数据集成

地质多源非结构化数据集成采用由TRIP非关系型数据库、PostgreSQL关系型数据库和ArcGIS空间数据库组成的聚合类型数据库,分别对基础资料、三维模型和监测数据中的电子文件进行集成和管理。

(3)基础资料集成

每个XML格式地质资料文件目录中的数据形成TRIP目录数据库中的一条记录,包括地理坐标,全部存储在结构化字段,然后由TRIP目录数据库导入PostgreSQL目录表,其中地理坐标再由PostgreSQL目录表导入ArcGIS数据表。文件目录关联的每个电子文件和相关信息形成TRIP电子文件数据库中的一条记录,电子文件存储在非结构化字段,电子文件相关信息存储在同一条记录的结构化字段,然后将电子文件的相关信息由TRIP电子文件数据库导入PostgreSQL电子文件相关信息表。PostgreSQL目录表与PostgreSQL电子文件相关信息表形成关联。

(4)三维模型数据集成

每个三维模型和相关信息形成TRIP三维模型数据库中的一条记录,三维模型存储在非结构化字段,三维模型相关信息存储在同一条记录的结构化字段,然后将三维模型的相关信息由TRIP三维模型数据库导入PostgreSQL三维模型相关信息表。

(5)监测数据中的电子文件集成

每个电子文件和相关信息形成TRIP监测数据电子文件数据库中的一条记录,电子文件存储在非结构化字段,电子文件相关信息存储在同一条记录的结构化字段,然后将电子文件的相关信息由TRIP监测数据电子文件数据库导入PostgreSQL监测数据电子文件相关信息表。

2.3 地质多源信息资源管理及检索系统

地质信息资源管理系统对于结构化数据多采用关系型数据库,对于非结构化数据的储存,基本上采用数据挂接关系型数据库、离线存址和嵌入型关系型数据库3种方式,但其都具有明显的不足之处,因为这些方式的本质还是采用文件夹的方法对非结构化数据进行管理。因此,引进擅长管理非结构化数据的非关系型数据库管理系统是非常必要的。而关系型数据库和非关系型数据库管理系统各有所长,因此采用关系型数据库和非关系型数据库管理系统共同实现地质信息资源的储存和管理是比较科学的做法(图2)。

(1)系统的组成

地质多源非结构化数据集成采用由TRIP非关系型数据库、PostgreSQL关系型数据库和ArcGIS空间数据库组成的聚合异构类型数据库,能够充分发挥不同类型数据库检索的优势和特点。在本系统中,TRIP非关系数据库的检索基于全文索引、中文自动分词和中文分词词典,对结构化字段、非结构化文本字段进行检索,PostgreSQL关系数据库管理系统可对结构化字段进行检索,ArcGIS空间数据库可对空间信息进行存储,同时可以配合Trip数据库管理系统对空间数据进行检索。

(2)框选的检索方法

框选检索是用鼠标在地图上绘制多边形,利用多边形的坐标获取区域内的非结构化数据、结构化数据、空间数据及相关信息。①非结构化数据框选检索,获取并显示框选区域内文件数量和文件详细信息,包括项目题名、汇交人档号、汇交时间、文件名等,并可在线浏览电子文件。②结构化数据框选检索,获取并显示框选区域内站/点/井信息和监测数据。③空间数据框选检索,获取并显示框选区域内图层的空间数据。

(3)文字的检索方法

文字检索对非结构化數据中的文字、结构化数据中的文字、与空间数据相关的文字信息进行检索。①非结构化数据(电子文件)全文检索,是对从电子文件中抽取的全部文字和电子文件的元数据、以及电子文件相关的结构化数据进行检索,获取并显示命中结果的文件数量和文件详细信息,包括项目题名、汇交人档号、汇交时间、表格名等,并可在线浏览电子表格数据,包括监测站点基本信息、监测数据、调查数据等。②非结构化数据(电子文件)关键词检索,是对电子文件的元数据以及相关的结构化数据进行检索,获取并显示命中结果的文件数量和文件一般信息,包括项目题名、汇交人档号、汇交时间、文件名等,并可在线浏览电子文件。

3 应用实例

本次研究的地质多源结构化、非结构化数据的集成方法以及信息资源管理系统的建设方法已经初步应用到首都地质资源环境承载能力监测预警信息平台,录入了上百条数据,几十张图,上百档非结构化数据,均可以实现关键词检索,画框检索和空间检索,应用效果良好(图3)。

4 结论

本文对基于多源异构的城市地质数据集成总体方案和关键技术进行深入的研究,并对城市地质的数据分类方法、结构化数据的集成方法、结构化数据的集成方法和地质多源信息资源管理及检索系统进行了详细的研讨和论述,未来为地质资源环境承载力监测预警平台的建设提供指导。

但限于大数据、云计算和物联网技术等新一代信息化技术在地质领域的应用刚刚起步,很多地质大数据方面的研究也刚刚开始,对于不同单位、不同领域之间数据共享交换需求也有待明确,因此未来还有很多工作需要开展。如对全市地质资源环境领域传感器格式和通讯规约的研究和制定,以及对多种空间数据格式融合方式的研究都亟于开展,为未来实现城市地质数据的共享和融合奠定基础。

参考文献:

陈全,邓倩妮,2009.云计算及其关键技术[J].计算机应用(9):2562-2567.

程学旗, 靳小龙, 杨婧, 等, 2016.大数据技术进展与发展趋势[J]. 科技导报, 34(14):49-59.

刘强, 崔莉, 陈海明, 2010.物联网关键技术与应用[J].计算机科学(6):7-10+16.

刘楷华, 李雄, 2011.物联网应用现状及发展机遇[J].电脑知识与技术(5):45-46+60.

刘晓峰,李伟渊, 2018.浅谈物联网在信息社会的发展前景与应用[J].广西通信技术(1): 32-34+40.

刘浩力,2011.物联网应用及发展前景浅析[J].中国信息界(8):31-32.

孟小峰, 慈祥, 2013.大数据管理:概念、技术与挑战[J].计算机研究与发展(1):148-171.

朴德慧,2015.云计算控制技术研究[J].数字技术与应用(2):110-110.

吴吉义,平玲娣,潘雪增,等, 2009.云计算:从概念到平台[J].电信科学(12):29-36.

张引,陈敏,廖小飞, 2013.大数据应用的现状与展望[J].计算机研究与发展, 50(S2):216-233.

猜你喜欢

数据集成
造船生产计划管理信息化
基于“三流合一”的云南烟草商业系统供应链的构建
成本与制造数据集成分析
基于Biztalk的异构医疗信息系统数据集成研究
信息系统集成与数据集成策略研究
XML数据交换技术在中医智能化诊断数据集成中的应用
数字图书馆分布式存储设计
高校一表通系统建设探究
浅谈数据集成相关技术
基于数据集成的水上项目国家队数据库网络管理平台的设计与开发