APP下载

数字矿山中多源异构数据融合技术研究

2011-12-06李国清胡乃联陈玉民

中国矿业 2011年4期
关键词:数据仓库数据源异构

李国清,胡乃联,陈玉民

(1.北京科技大学金属矿山高效开采与安全教育部重点实验室,北京100083;2.山东黄金矿业股份有限公司,山东 济南250014)

数字矿山建设的一个重要特征,是通过不同层面上应用系统的集成,形成包括过程控制、地矿工程、安全生产、经营决策等若干层面在内的信息化建设体系。这一特征,一方面实现了数字矿山中各种形式信息的分布式采集和集成化应用;另一方面,则不可避免地出现了大量多源异构数据的集成与共享问题。在网络环境的支持下,数字矿山中所规划的功能各异,而又彼此协同的诸多系统各自产生了大量信息,包括数据、音频、图像、文本等。同时,对这些信息进行智能化加工处理后,形成一系列的知识性信息资源、预警性的信息表述、总结性的信息文档等。这些都使得数字矿山中的信息无论从采集、处理、应用,还是从信息的流转与共享上,都出现显著的多源异构特征。由此可见,解决数字矿山中的多源异构数据融合问题,实现信息资源的高效存储、科学加工和无缝流转,是数字矿山建设的基础性工作,也是其管理协同化和决策智能化的重要保证。

1 数字矿山中数据的多源异构性

数字矿山涉及大量的地质资源空间分布、生产技术与安全、地质测量、财务成本、人力资源、视频监控、设备运转与参数等各个分散系统的时空数据。这些时空数据分散在异构系统中,有着不同的数据格式和规范,采用不同的概念和术语,基于不同的数学模型和分析推理方法。而这些信息,不但对于分系统本身相当重要,同时一些数据也相互共用,在若干个系统中也发挥着作用。

由此可见,数字矿山中需要解决如下的异构数据融合问题:

(1)数据信息具有明显的多源性、多语义性、多时空性、多尺度和获取数据手段多样性等特点,这就决定了数字矿山中数据表达的复杂性,这是多源异构数据融合首要解决的问题。

(2)随着数字矿山建设的深入展开,数据交换的范围逐步扩大,由原来矿山企业内部,扩展到通过广域网与上级管理部门及其他成员单位之间的数据交互,以及通过因特网与业务相关企业间的数据交互,从外部获取并挖掘隐含的、多语义解释的信息。

(3)多源异构数据融合后,需要形成 “绿色数据”,而不是简单的数据堆积和累加所形成的重复、冗余的数据。这要求基于数据的生存周期,以及数据所为之服务的系统,明确定义不同层面应用对于数据的集成性要求。冗杂的数据,不但无法实现信息集成,反而会影响数据的解译性,降低决策效率。

(4)软件升级后的异构数据融合问题。这在数字矿山的建设中会经常出现,但是又通常被忽略。由于异构数据的融合涉及到众多软件系统和数据存储格式,如果出现更新或升级,可能导致原有的数据交换方式无法进行。

(5)软件升级带来的另一个问题,是现有系统如何与历史数据共同使用的问题。历史数据作为数字矿山在建设和运转过程中积累下来的宝贵财富,需要在企业的生产经营决策中发挥重要作用。然而,随着软件的升级与更新,这些历史数据已无法以最新和最优化的形式进行展示。这种当前系统与历史数据之间的数据融合问题,也是数字矿山的信息集成中不可忽视的内容。

2 数字矿山中的多源异构数据融合技术

数字矿山建设中,多源异构数据融合的核心方案,是通过不同的数据融合技术,屏蔽底层数据源的不同,使得用户不必考虑底层数据模型和地理位置不同等问题,直接通过单系统应用,即可实现对授权范围内所有异构数据源的灵活访问。其中的关键技术,是如何以一种统一的数据模式描述各数据源中的数据,屏蔽它们的平台、数据结构等异构性,实现数据的无缝集成。

数字矿山的多源异构数据融合,所采用的方式主要包括三种,即联邦数据库系统、数据仓库和数据访问中间件。

2.1 联邦数据库系统

联邦数据库系统数据融合方案,是针对于计划、生产、安全、地质等管理系统的开发与应用,也称共享式。在这种数据融合方式下,系统中各数据源是独立的,为了实现数据共享,采用数据交换格式对各数据源建立一一映射,且相互提供各自访问接口,从而可以使任一数据源能够访问其他数据源提供的信息。

在具体的规划与实施上,主要表现在网络数据库的应用,以及不同主题数据库的建立。这其中又分为紧耦合式和松散耦合式两种:

(1)紧耦合式:表现在一个主题数据库内部数据表之间的数据融合,以及字段间的映射关系。在数字矿山业务的协同化处理的功能体系,即矿山中的安全和生产管理系统中,就是通过紧耦合式的数据融合,实现业务的无缝流转和数据集成。

(2)松散耦合式:表现在利用一些联邦信息,实现在一个站点访问另一个站点的数据。这些信息中,包含一些类似于全局模式的信息,各站点通过本地的数据访问语言访问其他站点的数据,具有一定的分布性、异构性和自治性的特点。在数字矿山的数据融合过程中,松散耦合主要表现在三维可视化地质资源信息与关联信息之间的数据融合过程。一方面,从地质资源的安全性出发,形成局部的数据存储;另一方面,数字矿山中的设计计划优化、生产与安全等信息,可以以松散耦合的方式与之形成数据融合。

2.2 数据仓库

也称复制式。数据仓库的建设是为了解决软件升级所带来系统更新与历史数据之间的数据融合问题,并形成 “绿色数据”。在数字矿山建设过程中,决策化功能层次上发挥着重要的作用,是数字矿山具备 “智能化”的动力所在。建立数据仓库系统,对进入数据仓库的原始数据完成抽取、转换、过滤、清洗等处理,最终进入数据仓库,以及对数据仓库中存储的数据进行更新、管理、使用、表现等的相关软件和工具进行集合,用以支持数据仓库应用或管理决策。

2.3 数据访问中间件

也称为接口式。即底层数据和上层应用之间建立一个中间层。上层应用和底层数据之间的操作,都要通过中间层进行。这一中间层屏蔽了数据源的异构性和分布性,对应用层提供统一标准接口,这样,使系统对每个不同数据源的操作变为对单一的中间件的操作,而后再由中间件进行操作的分解和结果的合成。

在数字矿山建设中,中间件技术被广泛应用于平台之间的数据交互问题,不仅提供了访问的透明性,也从安全性、灵活性和可扩展性方面,都将提供更好的表现。

3 针对信息资源层次性架构的信息集成

要解决多源异构数据融合问题,首先需要对信息资源的存储与集成进行整体规划。针对数字矿山中信息资源的多源异构性可知,矿山企业的信息资源具有明显的层次性特点。不同层面的信息资源,都有独特的数据存储格式,以及相应的信息处理方案。而各层次之间、层次内容,则呈现复杂的多源异构特征,如图1所示。

图1 数字矿山建设中的层次性信息资源架构

图1表示了一个自底向上逐级集成的信息资源结构,各级别的信息属性及主要内容如下:

(1)PLC现场设备数据。作为数字矿山中最基础的数据产生单元,PLC现场设备主要用于开关量的逻辑控制、模拟量控制、运动控制、过程控制等。PLC都提供了通信及联网功能,包括PLC间的通信及PLC与其他智能设备间的通信。但是,现场设备数据基本上处于功能分散、分别处理的阶段,集成度最低,信息共享的必要性不明显。

(2)HMI人机接口数据。HMI通过采集现场设备的实时运行信息,完成实时的设备运行状况分析,并自动将数据储存至数据库中。作为相对底层的数据存储单元,HMI数据同样具有分散存储的特点,所产生的数据信息分散存储于各自的实时数据库中,形成实时的分散数据存储网络。

(3)工业数据库。是一个集成的工业数据采集与加工平台,实时感知HMI中所产生的数据存储网络,将所产生的所有实时数据存储于统一规划的工业数据库内,在此基础上,为企业的经营管理平台提供实时准确的基础数据。工业数据库是一个重要的数据加工环节,一方面,现场数据量庞大,数据实时属性明显;另一方面,数据的表示能力差,多为流水账式数据,需要经过加工处理、集成后,才能为矿山生产管理系统提供所需的数据。

(4)关系数据库。关系数据库存储着矿山生产经营过程中各业务流程所产生的数据,以及一些外部的、非关系型数据 (如文本、图形等)进行导入加工后,所产生的为企业的生产经营过程提供数据支持的信息内容。它与工业数据库之间最大的区别在于,数据的集成度不同。关系数据基于不同的矿山业务,数据的产生的加工具备一定的周期性和严格的逻辑关系,是实时数据经汇总、集成、规范后,形成的数据集。

(5)数据中心与数据仓库。这是系统具备智能性的数据保证。数据中心通过建立数据字典,统一规划业务数据库的结构、标识、数据加工方式。数据仓库则通过建立元数据库,定义数据的集成方向、抽取方式,并通过建立多维数据集,形成按不同维度集成的多级数据集合。数据仓库内嵌常规的数据挖掘模型,并具备模型与方法的扩展接口,使数字矿山的信息处理方式,不仅包括连机处理系统OLTP,还包括一系列的连机分析系统OLAP,以满足不同业务对于数据集成程度的要求。

4 数字矿山中的多源异构数据融合方案

基于数字矿山中的层次型、逐层集成的信息资源结构特点,所采用的多源异构数据融合技术如图2所示。

基于前文所规划的信息集成方案以及多源异构数据融合方案,需要进一步细化落实,这一工作通过信息资源规划来实现。为了避免信息重复采集、加工、存储,最大限度地消除因名称不一致所造成的误解和分歧,做到使事物名称和术语含义统一化、规范化,并确定信息与事物或概念之间的一一对应关系,可以通过数据的标准化来简化数据交换。同时,泛在信息采集的一个原则,是使人和物都具备感知功能,并通过唯一的标识,将这些感知的信息接入到泛在网络中。这就要求通过对信息进行分类编码,将各个环节进行简化、要素化和标准化,进行信息的相似化处理,以保证信息的可靠性、可比性和适用性,以达到系统的整体最优化。

图2 数字矿山中多源异构数据融合方案

4.1 信息分类编码的集成与规范

矿山企业的信息具有来源广泛、类型复杂、共享性与交互性要求高等特点,因而需要针对不同的信息类别,依据信息的采集、加工、存储、使用等环节在区间跨度上的不同,有针对性地确定信息分类编码的集成与规范。

根据实际生产经营组织形式,设计了统一的矿区编码、机构人员编码,以及统一的采场编号规则、采矿工程编码方案、掘进及其他工程编码方案。

4.2 数据流的规范化修订

对系统中所处理的信息进行深入分析,确定信息的源头,避免信息重复采集、加工、存储,明确每一种数据由一个部门的某个岗位录入系统,其他人只是对系统中的数据进行利用,保证信息的正确、可靠。

4.3 信息存储平台的搭建

数字矿山的实现需要有数据库的支撑,利用数据库进行各种管理和过程数据的统计、分析和存储。随着信息技术的发展,数据库技术日趋成熟,发展到现在的基于网络的分布式结构,使信息的交流更加方便快捷,适应当今信息资源共享的需求。根据现有的技术和需要,数据库系统主要包括关系数据库和实时数据库。

在数字矿山中,涉及到矿山生产经营的各个方面,相关信息如下:

①基础信息数据的定义与一致化;②采集企业各生产设备的实时过程数据,包括过程参数与事件信息等;③各种多媒体信息;④生产进度数据,如井下采掘、提升运输、选矿处理等;⑤生产指标数据;⑥安全信息;⑦动力供应信息;⑧技术指标数据;⑨经营指标数据;⑩生产运行异常数据;⑪生产经营统计分析数据。

4.4 生产过程数据接口的定义与规范

完成生产过程中信息的采集和控制指令下达的功能。生产过程数据接口的信息采集功能,利用多媒体技术、实时数据库技术、计算机网络技术,将生产过程中的物理量,以及对设备的画面监控,实时快速地提供给动态调度模块;生产过程数据接口的控制指令、下达功能,是根据调度指令生成控制指令,下达给生产过程当中的DCS、PLC或具体的操作岗位,从而实现生产的调度、控制。

4.5 生产管理数据接口定义

在数字矿山建设所搭建的平台中,除了自动控制集成平台和业务协同集成平台之间会进行数据交互之外,生产管理系统与其他的集团共享板块及集中规划的系统之间也需要实现信息集成,以达到全矿生产与经营数据的全面集成、无缝流转和实时共享。这些系统包括了股份公司集中规划的物流管理系统、集团公司的财务成本管理系统和人力资源管理系统,以及与其他平台的数据集成,包括地质资源三维可视化系统等。这些系统与生产管理的信息接口定义,如图3所示。

5 结束语

数字矿山建设涉及到多层面的应用,因而所采集、加工与存储的数据呈现明显的异构特征,这对信息集成提出了更高的要求。

针对矿山企业信息的多源异构特征,数字矿山建设过程中的多源异构数据融合,需要从两个层面上进行:

图3 数字矿山中生产管理系统与外部的数据接口定义与规范

(1)针对信息集成的层次性,从PLC所产生的实时监控数据、HMI所记录的实时数据、自动控制集成平台抽取后形成的绿色工业数据、安全生产管理系统所读取的关系数据、决策支持所采用的数据仓库等,分别规划不同层面的数据存储与转换方式。

(2)针对不同的异构特性,分别采用紧密耦合/松散耦合式的联邦数据库、数据仓库、数据访问中间件,来解决多源异构数据的融合问题。

通过不同层面应用系统间的数据共享与交互过程,解决了矿山企业数据的多源、异构及不完整性所带来信息集成问题,不但实现了信息的泛在化采集,而且实现了泛在化的信息服务,可以为数字矿山建设提供安全稳定的基础数据平台。

猜你喜欢

数据仓库数据源异构
试论同课异构之“同”与“异”
基于数据仓库的数据倾斜解决方案研究
基于数据仓库的住房城乡建设信息系统整合研究
吴健:多元异构的数字敦煌
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
异构醇醚在超浓缩洗衣液中的应用探索
探析电力系统调度中数据仓库技术的应用
LTE异构网技术与组网研究
基于数据仓库的数据分析探索与实践