APP下载

基于自标准数据和数据港口架构的数据共享技术

2015-04-21王丹丹翟红翠

东北石油大学学报 2015年4期
关键词:提供者数据模型港口

袁 满, 王丹丹, 翟红翠



基于自标准数据和数据港口架构的数据共享技术

袁 满1, 王丹丹1, 翟红翠2

(1.东北石油大学 计算机与信息技术学院,黑龙江 大庆 163318;2.华北油田数据中心,河北 任丘 062552 )

为满足复杂数据共享需求、减轻数据提供者负担,分析自标准与数据港口架构理论机器实现技术.将数据模式的概念引入自标准数据模型,根据NIEM原理,构建由公共数据模型、业务领域数据模型及编码表构成的自标准数据模型库;基于MFI-13表单注册标准,根据自标准数据模型对数据集进行注册,为实现软件之间的互操作对应生成元数据,并描述元数据遵循的语法及语义;为实现自标准数据的共享,提出基于数据港口架构的数据共享模型,并构建原型系统,证明其有效性和技术可行性.

数据港口架构; 自标准数据模型; 数据集注册; 数据共享模型

0 引言

数据集成技术研究始于20世纪70年代中期,之后应用范围和作用不断扩大[1].对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择.数据集成是数据组织的重要方法,是实现数据共享的重要途径[2].无论企业应用系统多么复杂,其本质是进行数据处理,实现数据的共享,数据共享包括数据查询和数据交换[3].在企业处理数据过程中,Martin J等认为企业产生数据的种类与数量是有限的,由于用户对数据需求不同,造成数据共享的复杂与多变[4-5].虽然已制定诸多数据共享标准,但是企业标准的制订速度远远不能满足企业对数据共享标准的需求.袁满等提出“自标准”思想[6],通过自标准与标准结合,满足企业对数据共享的需求.夏艳波等受到集装箱采用标准化体系后货物的运输效率提升4~5倍的启发,将“自标准数据”视为信息世界的集装箱及其内装货物,并将自标准与数据港口技术融合在一起解决企业的数据共享问题[7].2011年,Dan Woods提出“数据湖(Data Lake)”概念,主要目的是解决信息孤岛和大数据分析问题,其重点是保存不同数据,忽略如何使用数据,以及为什么要使用数据、监管数据、定义数据和确保数据安全[8].与“数据湖”概念相比,基于自标准数据的数据港口技术架构不仅能够实现对数据的存储,而且还能够实现对数据的管理与共享.

自标准数据和数据港口技术结合形成的数据标准,能够较好地解决企业数据共享问题.文献[6]给出自标准数据和数据港口技术架构,但是对于如何实现共享的自标准数据模型,以及数据集注册等没有给出解决办法.笔者将NIEM(National Information Exchange Model)和MFI(Metamodel Framework for Interoperability)等技术融入到问题解决方案,并设计与实现原型系统,验证研究内容的正确性与有效性.

1 数据港口架构

用航行业务中港口概念类比数据港口,数据港口是用于建立独立于各现有应用系统之外的数据服务机制,是一个逻辑概念.数据港口主要由数据码头、泊位、数据泵及港口航道等重要组件构成.

(1)数据码头.作为存放数据的场所,不同领域的自标准数据对应存储于对应的数据码头,方便数据消费者查询并获取数据.

(2)泊位.即数据提供者和数据消费者为了向数据港口集装或解封数据,临时用于排队停靠的地点,在这里对进港的数据进行解封、分类后,推送给指定的数据码头;出港的数据也在这里集装打包后推送给数据消费者.

(3)数据泵.包括数据抽取泵和数据推送泵,是专门抽取数据的部件,它既可以是集中的,又可以是分散的,可以被看作是传统数据适配器的改进.

(4)港口航道.可提供数据港口与数据港口间链路接口,实现港口与港口之间数据互联和共享.

2 自标准数据

自标准数据由数据模式和数据部分组成.数据模式用于描述数据结构,是数据的概念、组成、结构和相互关系的总称[9].对数据进行自标准时,将数据模式概念融入到自标准数据中定义自标准数据模型.

2.1 模型构建

数据模型是跨领域数据共享和共同遵循的标准,表现为系列的模式文件.自标准数据模式推荐采用XML Schema 模式语言,对各个业务领域共用的实体或领域内部实体及其关系进行抽象描述,根据领域不同对它进行主题分类.借鉴美国国土安全部和司法部提出的国家信息共享模型(NIEM)的原理和方法,实现中国跨领域信息共享.NIEM由核心数据模型、领域数据模型(各专业的业务模型)及各领域涉及到的属性规范值三部分组成.基于NIEM实现原理,抽取自标准数据模型,构建由公用数据模型、业务领域数据模型及编码表构成的自标准模型库.

公用数据模型用于定义在所有领域内具有普遍意义,且具有高度一致性和稳定性的数据,如人员(Person)、机构(Organization)等.公用数据模型的提出可以大幅提高模型重用性,减少数据提供者工作量和系统缓存负担.如定义的Person简单数据类型见表1.

表1 定义的Person简单数据类型Table 1 The definition of Person simple data types

业务领域数据模型定义该领域特有的数据模型,由各业务领域根据自身业务信息共享需求,在公用数据模型基础上扩展而成.如在油田领域,需定义油田(OilfieldType)、警报事件(AlarmEventType)等数据模型.

编码表是将各领域内已有的编码标准引入,体现为一系列模式文件.

油田勘探开发自标准数据模型结构见图1.图1规定油田企业数据应遵守的规则.已有的模型文件称为模板,数据文件与模型文件之间为一对多的关系,如果当前存储的模板不能满足数据提供者的需求,数据提供者可以申请建立新的模型文件,并在建立新的模型文件时将存储时间作为版本标记,保证存放数据的正确性与有效性.

2.2 数据集注册

数据提供者向管理员申请授权并向数据港口分类存放数据的过程即为数据集注册.借鉴MFI-13表单注册标准[10]及MFI-12信息模型注册标准[11],提出数据集注册方法,实现对数据集的有效管理,方便对数据的分类存储和分类快速定位查询等.数据集注册过程包括数据注册和元数据注册.数据提供者得到授权后,下载所需模板得到一个表单,并对应生成元数据.元数据是关于数据的数据(Data About Data)[12],描述数据集内容的简单说明,以及对数据元素所遵循的语法、语义的明确记录,可以实现软件系统之间的互操作.定义元数据元素包括属性:数据中文名称、数据英文名称、定义(概念说明)、数据约束、数据条件、数据类型和备注(补充说明)等.元数据元素与属性之间的关系见图2;表1对应描述的元数据见表2.

图1 油田勘探开发自标准数据模型结构

图2 元数据元素与属性之间的关系Fig.2 The properties of describing the metadata elements

表2 某人员元数据注册流程Table 2 A person metadata registration processes

表单为一个规定约束的、为了细节插入带有空格的文档.通常情况下,表单以标准格式(如HTML、EXCEL或PDF等)呈现,数据提供者将数据填充到表单上.有效数据文件经过压缩打包进行处理,在泊位处等候入港,进行解封并按照领域及业务范围进行分类,经过数据泵将有效数据文件推送到相应数据港口,将模型文件及数据文件上传到相应目录结构,完成数据注册.港口内的数据码头根据数据类型对数据完成封装、存储及管理.数据提供者不必考虑存放到数据港口的数据后期管理和调用,可以减少工作的繁复性与复杂性.数据集注册流程见图3.

3 数据共享

数据提供者将数据存储到数据码头后,须考虑如何实现数据共享问题.在数据港口技术架构中,数据提供者与数据消费者通过规范化流程实现数据共享.自标准数据共享过程分为两个步骤:(1)建立数据共享模型.根据用户需求,对所需数据与存储在数据码头的数据建立映射关系,在引用自标准数据模型基础上,通过裁剪、扩充等方法建立数据共享模型;(2)建立数据共享模式.利用企业服务总线接入WEB服务,实现数据共享.

图3 数据集注册流程示意Fig.3 The process of data set registration

3.1 模型

自标准数据共享时,数据共享模型建立[13]主要分为4个阶段:(1)总体规划.根据项目目标、业务需求等分析需要共享的信息,形成计划.(2)需求分析.对涉及的单位、共享内容进行分析,形成数据共享模型,可以用UML表示.(3)根据数据共享模型,生成数据交换包并对它进行验证,采用安全认证和加密处理等措施,防止数据丢失或被窃取.(4)将形成的所有文件压缩并发布.

3.2 模式

数据共享模型的核心是数据共享模式,分为3个阶段:(1)通过映射关系,将数据共享模型与自标准数据模型库相符的元素抽取出来,形成子集模式.子集模式不仅可以降低信息共享的复杂性,而且可以提高模型的重用性[14].(2)由于在数据共享时并不是所有元素都能找到合适的描述或者不完全匹配,需要将在数据共享模型中出现的、在自标准数据中没有描述的元素进行模型扩展定义,即为扩展模式.如需通过Location描述地点采油量,但是Location中并不包含采油相关信息,可以在Location的基础上增加一个采油量模型,以形成扩展模式.(3)通过子集模式和扩展模式形成能够描述数据共享模型中所有元素的全集.

3.3 实现

数据共享模型是共享双方共同遵守的共享标准[15].数据提供者根据数据共享模型生成共享实例文档,接入WEB服务,将共享实例文档传递给数据消费者;数据消费者在接收到交换实例文档后,根据数据共享模型对交换实例文档进行解析,实现对数据的理解,达成数据共享目的.数据共享实现过程见图4.

图4 数据共享实现过程示意Fig.4 The process of data sharing

4 现场应用

为验证基于自标准数据和数据港口架构的数据共享技术的可行性,以大庆油田实际数据为背景,实现一个具有自标准数据入港、数据出港及港内数据管理基本功能的原型系统,并进行验证.验证所用数据源为大庆油田勘探开发A2数据库,开发环境采用Microsoft Visual Studio 2010.在原型系统中,定义油田开发动态和测井数据码头,采用层级目录方式存储.数据提供者根据需求构建数据模型,并以数据模型为基础将数据存储至数据码头;数据消费者根据自身需求进行资源搜索,并将所需数据打包回传.原型系统部分实现功能见图5,现场应用结果表明原型系统实现设计功能、运行稳定可靠.

图5 原型系统部分功能示意Fig.5 The functions implemented by the prototype system

5 结束语

基于自标准数据与数据港口技术架构的数据共享技术可以有效集成和管理数据,实现领域内部及领域之间的数据共享,满足复杂的数据共享需求.构建基于自标准数据和数据港口技术架构的数据共享技术的原型系统,能够实现数据入港过程中自标准数据模型的定义、数据集注册、数据出港过程中的数据共享及港内数据管理,系统运行稳定、性能达标.

[1] 袁满,武峰林,于春生.基于混合本体和Mediator/Wrapper的语义数据集成模型[J].大庆石油学院学报,2010,34(1):84-88.Yuan Man, Wu Fenglin, Yu Chunsheng.Semantic data integration model based on mixed ontology and mediator/wrapper [J].Journal of Daqing Petroleum Institute, 2010,34(1):84-88.

[2] 龚建华.数据集成技术研究[J].办公自动化,2012,18(10):52-53.Gong Jianhua.Research on data integration technology [J].Office Informatization, 2012,18(10):52-53.

[3] ISO/IEC 11179-1: Information technology-Meta data registries (MDR)-Part 1: Framework for the specification and standardization of data elements: 2nd edition [S].

[4] Martin J, Finkelstein C.Information engineering [M].Prentice-Hall, 1981:10-40.

[5] Martin J.An information systems manifesto [M].Prentice-Hall, 1982:40-55.

[6] 袁满,王权,夏艳波,等.自标准数据研究及其在数据共享中的应用[J/OL].吉林大学学报,(2014-11-18)[2015-05-05].http://www.cnki.net/kcms/detail/22.1341.T.20141118.1119.007.html.Yuan Man, Wang Quan, Xia Yanbo, et al.Research on self-standard data and its application in data exchange [J/OL].Journal of Jilin University, (2014-11-18)[2015-05-05].http://www.cnki.net/kcms/detail/22.1341.T.20141118.1119.007.html.

[7] 夏艳波,王权.信息孤岛解决之道——数据港口架构理论初探[J].中国管理信息化,2015,18(1):70-72.Xia Yanbo, Wang Quan.The solution of information island: Data port structure theory [J].China Management Informationization, 2015,18(1):70-72.

[8] EMC.GE尝试“数据湖”[J].上海国资,2014,16(10):79.EMC.GE try "data lake" [J].Capital Shanghai, 2014,16(10):79.

[9] 中华人民共和国科学技术部,科学数据共享工程技术标准——数据模型描述规则和方法:SDS/T 2133-2004 [S].Ministry of Science and Technology of the People's Republic of China, Scientific data sharing engineering technology standard: Rule and method for description of data schema: SDS/T 2133-2004 [S].

[10] ISO/IEC CD2 19763-13: Information technology-Metamodel framework for interoperability (MFI) Part 13: Metamodel for forms registration [S].

[11] ISO/IEC DIS 19763-12: Information technology-Metamodel framework for interoperability (MFI) Part 12: Metamodel for information model registration [S].

[12] 中华人民共和国科学技术部.科学数据共享工程技术标准——元数据的XML/XSD置标规则:SDS/T 2113-2004[S].Ministry of Science and Technology of the People's Republic of China.Scientific data sharing engineering technology standard: XML/XSD marking rules for metadata: SDS/T 2113-2004 [S].

[13] 戴剑伟,冯勤群.美国国家信息交换模型及其启示[J].军事运筹与系统工程,2013,27(3):15-19.Dai Jianwei, Feng Qinqun.National information exchange model and its enlightenment [J].Military Operations Research and Systems Engineering, 2013,27(3):15-19.

[14] NIEM Program Management Office.Introduction to the National Information Exchange Model [EB/OL].2007-02-12[2014-07-21].http://reference.niem.gov/niem/guidance/introduction/0.3/niem-introduction-0.3.pdf.

[15] NIEM Program Management Office.History about NIEM [EB/OL].[2014-07-21].https://www.niem.gov/aboutniem/Pages/history.aspx.

2015-06-17;编辑:张兆虹

黑龙江省教育厅基金项目(12531059)

袁 满(1965-),男,博士,教授,主要从事信息标准化与信息集成、数据工程理论与技术方面的研究.

TP391

A

2095-4107(2015)04-0103-06

DOI 10.3969/j.issn.2095-4107.2015.04.013

猜你喜欢

提供者数据模型港口
聚焦港口国际化
中国港口,屹立东方
网络交易平台提供者的法律地位与民事责任分析
港口上的笑脸
基于隐私度和稳定度的D2D数据共享伙伴选择机制
面板数据模型截面相关检验方法综述
网络言论自由的行政法规制研究
惠东港口
财政支出效率与产业结构:要素积累与流动——基于DEA 和省级面板数据模型的实证研究
做商用车行业新材料应用解决方案的提供者——访同元集团副总裁赵延东