APP下载

基于自标准的多源数据一体化方法研究

2016-05-14王月龙王梅高雅田孙莺萁

网络空间安全 2016年4期
关键词:数据共享一体化大数据

王月龙 王梅 高雅田 孙莺萁

【 摘 要 】 大数据是现代信息技术的重要发展方向之一,实现大数据的共享和分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。但是由于应用数据缺乏解析的标准而无法很好地实现信息共享。论文介绍了通过自标准数据解决数据共享的问题,利用自定义数据标准的方式实现数据的解析和共享,通过建立自标准数据模式、开发自定义标准支撑模型、研究自标准数据的定义过程、为应用端预留的功能来解决数据共享的难题。

【 关键词 】 大数据;自标准;一体化;数据共享

【 中图分类号 】 P208 【 文献标识码 】 A

【 Abstract 】 Big data has been an important development direction of modern information technology. It will bring immeasurable economic value with analyzing and sharing the data, and it also have a huge boost to society.However the data can not be shared very well because of the using of data is a lack of analysable standard.In order to solve the problem of data sharing, we create the model of the sef-standard of data definition and develop the model support of the custom standard of data definition and study the process of the definition about data.Eventually we reserved some functionality for application.

【 Keywords 】 big data; sef-standard;integration; data sharing

1 引言

经过多年的信息化建设,在社会各个领域已经建成十分庞大的数据体系和应用体系,然而由于建设初期往往缺乏长远的数据规划和应用规划,数据和应用的“孤岛问题”日趋严重。现阶段随着大数据、分布式应用的蓬勃发展,已经来临的“智能”时代的主题和重点,将不再是信息系统建设本身,而是“数据”的全面整合升级,更是数据应用质量和效率的大幅提升。重点就是解决数据的共享问题,难点就是整合逻辑上归属于已建各个应用系统的数据。

采用何种方法解决共享问题,进行数据集成,很多学者对多源数据进行分析,如王荣等人提出数字化油田多元数据一体化应用技术,通过集成数据管理实现油田数据的规范和统一性。刘文龙等人基于地理信息系统建设思想对测井数据管理系统进行了设计,实现了对测井多源数据管理。化柏林等提出多源信息融合方法,多源信息融合方法包括统一标识、数据比对、异构加权等一系列过程以及多种分析建模方法。徐为雄和于江等设计并实现了多源空间数据的集成管理平台,解决异构数据的集成问题。袁满等提出“自1标准”思想,通过自标准与标准结合,满足复杂的数据共享需求。同时,受航运物流业务的启示,提出了数据港口的思想,通过自标准数据与数据港口技术架构可以实现对自标准数据的有效交换与共享。给出了自标准数据的定义、产生的背景,并且定义了利用自标准数据与数据港口实现数据共享管理及应用的技术架构,认为自标准数据具有自治性、自描述性、自组织性以及进化性等,它是公共数据交换标准的一个重要补充。

由于信息系统建设初期,统一标准往往没有建立,提供者按照统一标准重新定义数据造成巨大的工作量,并且所描述数据往往又不符合应用者的需求。因此,提出应用元模型技术让提供者按照自己的格式提供数据,还要包含这些数据的格式。这样,这些数据就成为了“自标准数据”。将数据应用实体从传统繁琐的数据标准中解放出来。通过建立一种数据自建标准的机制解决这些数据的顺畅交互问题,也就解决了整个信息巨系统中的孤岛问题。通过自定义数据标准可以很好的解决这个问题。

2 自标准数据模式

自标准数据模式是是业务数据建立的规范和准则,对于自标准数据模式的研究主要涉及自定义标准框架、表达形式、管理方式三个方面。

自定义标准框架中包括数据类型、数据类别、数据表现形式、数据关系以及数据取值类型。数据的存储方式多种多样,可以是数据库类型的存储方式,也可以是数据文件的方式。自标准数据可以描述任何一个行业的数据,不同行业的数据有不同的特点,因此需要根据行业的数据特点来描述数据,不同类型的数据所表现内容的方式不同。数据主体之间的关系具有很大的多样性与复杂性。不同的数据源有各自描述数据取值类型的方式。

数据自定义标准的表达形式的研究主要完成框架中主要建模元素和元素直接的关系的描述问题。首先,需要考虑的是框架内容的形式化表达工作;其次,在形式化表达的基础上,实现能够支持并且方便信息计算的表达模型。现阶段,XML技术成为各种标准的流行定义语言,可以作为框架元素的定义工具。将XML作为基本的工具,建立自标准数据的固有表达体系,研究建模元素和各个元素之间的关系,是表达形式的研究重点。

自标准数据包括数据本身和数据自定义的标准,数据自定义标准的创建、存储、删除、修改等过程是在自定义数据标准基础上的完整操作过程。但为了完成自定义数据标准工作,需要采用计算机技术来解决数据标准的创建和维护。因此,可以采用建立管理元模型的方法来实现自定义标准的管理工作。

3 自定义标准的支撑模型

自定义标准的支撑模型完成自定义标准数据与数据应用方的交互。支撑模型的研究包括自定义标准数据的解析机制、自定义标准数据的交互方式、自定义标准数据适配器的研究、自标准数据的运行边界等几方面。

对于自标准数据的解析工作无非就是完成数据之间的转换,对于任何数据转换操作来说解析机制都可以分为读取数据交换的标准信息、读取源数据、建立目标数据的中间存储结构及由中间存储结构向目标数据转移等四个步骤。

自标准很好的描述了自治数据,但是数据应用方需要了解自标准的设计内容。数据提供方需要对自标准数据提供相应的描述,以契约的方式将数据的信息进行公布,包括数据的自身结构、数据的类型、数据的特点和数据解读的标准等信息。数据应用方通过对数据契约的解读来充分了解数据的特点,从而达到自标准数据对于数据应用方的很好适用。

由于应用数据的多样性,自标准数据为数据的解析预留了应用输出类型的接口,通过不同的数据交换标准信息可以开发不同的数据适配组件,在实现的过程中如果有未考虑到的数据管理技术可以通过后期开发相应的数据适配组件来完成适配。

从数据安全与操作安全角度考虑,在自定义标准数据的解析过程中,不允许应用端直接与自定义标准数据进行交互,即使应用终端与自定义标准数据在同一台机器工作也不可以直接交互。应用终端必须通过数据交换标准信息体现自己对于数据的需求,并且通过数据操作代理访问自定义标准数据,即数据操作代理持有和自定义标准数据相同的数据结构,代理公开的数据结构与自定义标准数据相同,并且可以获知应用需求的数据结构。

4 自标准数据定义的标准过程

为了实现完整、可理解的数据自标准定义,自标准数据的定义必须要遵守标准化过程。在完善自定义标准工作的过程研究基础上,建立过程元模型、表达自定义数据标准的标准过程。自标准数据主要是完成由源数据向目标数据迁移的过程,无论源数据与目标数据有着怎样的差别,最终都可以通过几项规范化的步骤来完成。

(1)定义数据类型(数据库的数据表、数据文件);

(2)定义数据类别(三次采油数据、勘探数据、扫描信息数据);

(3)定义数据描述的内容(生产状况、井壁取芯、岩心图形外表面、三次采油量);

(4)定义数据特征(井号、井别、井字、含油率、含水率);

(5)每个特征赋予其取值类型(数值型、日期型、大字段);

(6)定义源数据与目标数据的标准关系(一对一、一对多)。

自标准数据的最终目标是应用,因此,自标准体系的建立需要为应用段预留一系列协议族,实现支持相应协议的部件可以自动加入自标准数据的应用处理过程。由于对于不同的应用端来说,对于数据的处理要求并不是完全相同的,因此,为不同的应用端预留出相应的功能就变得十分必要了。在实际应用中,预留功能往往是通过预留相应的接口来提供相应特殊功能的使用。

对于自标准数据的最终应用需要通过数据容器来完成,应用方和提供方的交互是通过数据容器来完成的。数据容器中包括四大部分,数据入口、通道管理、数据定位、I/O管理,如图1所示。数据提供着将自标准数据通过数据入口送入数据容器,数据根据相应的信息定位到数据存放的位置,数据应用方通过通道和I/0处理的方式获取数据并根据数据自带的标准信息进行解析和使用。

5 结束语

大数据是现代信息技术的重要发展方向之一,实现大数据的共享和分析将带来不可估量的经济价值,同时也对社会产生巨大的推动作用。在大数据时代,对大数据进行统一表示,实现大数据处理、查询、分析和可视化是亟需解决的关键问题。但是由于数据往往缺乏一种很好的定义和解析的标准使得数据共享变得十分困难,通过自定义数据标准可以很好的解决这种问题。目前,自标准数据还只是一个定义,还没有得到更广泛的应用,技术上可能还需要继续探索。通过本文的介绍可以清晰的认识到自标准数据在应用上的好处,通过这种手段可以很好的解决目前的数据共享上的难题。

参考文献

[1] 王荣,张红.数字化油田中多源数据的一体化应用[J].仪表电信. 2015,34(2):30-31.

[2] 刘文龙,陈园园.石油测井多源数据管理平台设计与系统实现[J]. 测绘,2014,37(2):72-76.

[3] 化柏林,李广建.大数据环境下多源信息融合的理论与应用探讨[J]. 图书情报工作,2015,59(16):5-10

[4] 徐为雄,佘江峰,陈景广.基于元数据的多源空间数据集成平台研究与设计[J].江西农业学报,2012,24(7):136-139

[5] 于江. 多源分布式数据集成一体化更新策略研究[J].科技技术应用.

[6] 袁满,王权,夏艳波,张彦国,黄刚.自标准数据研究及其在数据交换中的应用[J].吉林大学学报,2016,46(1):277-283.

[7] 袁满,王丹丹,翟红翠.基于自标准数据和数据港口架构的数据共享技术[J].东北石油大学学报,2015,39(4):103-109.

基金项目:

黑龙江省大学生创新创业训练计划项目(201510220047)。

作者简介:

王月龙(1990-),男,汉族,黑龙江哈尔滨人,毕业于东北石油大学,本科;主要研究方向和关注领域:数据集成。

王梅(1976-),女,汉族,河北安国人,毕业于天津大学,博士,硕士导师,副教授;主要研究方向和关注领域:机器学习。

高雅田(1979-),女,汉族,黑龙江大庆人,毕业于东北石油大学,博士,讲师;主要研究方向和关注领域:数据挖掘。

孙莺萁(1991-),女,黑龙江大庆人,毕业于东北石油大学,硕士;主要研究方向和关注领域:数据挖掘。

猜你喜欢

数据共享一体化大数据
科学大数据的发展态势及建议
数字化迎新系统宿舍分配模块的设计与实现
贵州大数据产业发展战略理解和实施建议
中高职一体化课程体系建设的探索与实践
基于大数据背景下的智慧城市建设研究
克里米亚完成入俄“一体化”