一种基于T-ETL架构的多源异构数据集成方案

2010-10-10杨学敏

唐山学院学报 2010年6期

关键词：数据仓库数据源异构

马将,杨学敏,2

(1.唐山学院网络教育中心,河北唐山 063000;2.北京科技大学信息学院,北京 100083)

一种基于T-ETL架构的多源异构数据集成方案

马将1,杨学敏1,2

(1.唐山学院网络教育中心,河北唐山 063000;2.北京科技大学信息学院,北京 100083)

在分析主流数据集成方法的基础上,结合我校数字化校园建设过程中的具体实践,提出了一种基于T-ETL的复合式数据集成方案,从而解决了各部门业务系统之间的数据互通问题。研究表明,该方案能保证数据的实时性,降低数据传输开销,消除数据交换中的性能瓶颈和安全隐患,提高了系统的整体性能。

异构数据源;数据联邦;数据集成

随着信息化进程的推进,高校各系部纷纷建立了自己独立的应用系统,这些系统的数据层分散于各个网络节点,并存在于不同的硬件系统、操作系统乃至不同的数据库系统中,系统之间彼此独立,形成了一个个“信息孤岛”。由于没有统一的数据视图,无法实现信息的共享,严重阻碍了校园信息化的进程。

解决这一问题的出路在于实现数据集成。数据集成的核心任务是将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源,并支持不同数据库系统之间的相互操作,其目的在于屏蔽底层不同的数据源,使用户不必考虑底层数据模型、系统环境、数据平台不同等问题,在保证数据完整性、消除数据冗余的同时,能够通过统一的访问接口实现对网络上异构数据源的灵活访问。

1 数据集成的现有技术路线

随着高校数字化的不断发展,校园信息集成要求能够无缝集成来自多个异构数据源的结构化、半结构化和非结构化数据。数据源包括关系型数据库、文件系统、图像及文档资源库之类的数据存储系统,而且必须很好地支持标准元数据交换、模式映射,并且支持标准数据传输格式。这就对信息集成解决方案提出了更高的要求。目前实现信息集成解决方案主流的两种模式是数据仓储和数据联邦。

1.1 数据仓储

这种模式首先从一个或多个数据源中抽取数据,并对数据进行必要的处理,最终将数据存储到目标数据仓库中。最终操作将针对目标数据仓库中的数据进行。这种模式通常包含 ETL(Extraction2Transformation2Loading)和数据仓库技术。另外一种变体就是数据复制,它的基本要求是源数据库和目标数据库要有完全相同的数据结构(包括数据类型也要完全兼容,否则是无法完成复制的)[1]。这种模式的代表产品如IBM webSphere DWE,Data Stage及Replication Server。该模式支持复杂的数据转换,适合频繁查询的“热数据”,性能可预测性较高,但实时性依赖于数据更新周期,数据更新周期越短实时性越高。另外,ETL过程本身存在与数据源数据同步的问题,难以支持数据更改。ETL过程的框架结构图如图1所示。

图1 ETL过程的框架结构

1.2 数据联邦

数据联邦是在维持各异构数据库自治的前提下,在数据层对多源异构的成员数据库进行部分集成,并提供对异构成员数据库的共享和透明访问,而数据仍然保留在它原来的存储位置。联邦技术能够统一地访问以任何模式存储的数字信息,具有透明性、异构性、底层联邦数据源的自治性、可扩展性和开放性等主要特征。采用 EtaMatrix,Wrapper或Aqualogics这样的数据联合器,就不再需要构建集中式数据仓库。数据访问指令进而转换为数据源所支持的SQL,通过数据源的客户端提交执行,然后将结果返回给信息集成服务器处理。联邦数据服务器带有一个标准的数据库系统,用于管理全局数据字典[2]。这种模式的代表产品如 IBM Web-Sphere Federation Server。

数据联邦模式由于没有本地数据存储,缺乏统一的中心数据库实体,故其每次处理用户请求都需要实时从数据源获取数据,这样比较容易保证与数据源的数据同步,从而能容易地支持数据更改,但集成时需要在相关数据源间建立链接,当集成数据源数量众多时,加入新的数据源就需要建立大量的链接,数据传输量大,其可用性不仅依赖于联邦服务器,还依赖于数据源及网络的可用性。再者,数据联邦也无法处理某些数据转换和清洗[3]。

2 高校数据集成平台的任务

高校数字校园的数据集成平台是一个面向应用、安全可靠、操作便捷、技术先进、规范统一、灵活、可扩展的数据库平台,为学校提供高效的共享平台和开放的数字化环境。异构数据集成平台主要解决如下几个技术问题。①屏蔽多源异构数据:建立一个全局的模型,实现透明访问能力。②数据类型匹配:局部数据源对数据类型的描述可能是不同的,那么就要在全局模式下进行区别与识别,并进行统一的匹配与表示。③查询的分解与转换:集成系统应能将全局查询分解成为针对不同数据源的局部查询,并转换成为针对局部数据源的查询语言。

3 基于T-ETL架构的异构数据集成平台框架

3.1 设计思路

鉴于数字校园对数据集成的较高要求,单一的集成方法不能满足实际需求,这就需要将两种模式进行组合,彼此取长补短,从而提供数字校园最佳的信息集成解决方案。

3.1.1 数据标准

数据标准主要包括了数据库开发标准、编码标准以及信息标准。其中数据库开发标准主要指在开发过程中所用到的开发标准,如数据库表的命名约束、存储过程、自定义方法等标准;编码标准是在所有系统中涉及到的数据的编码标准,在编码标准中除了依据国家相关的编码标准命名之外还要结合各个应用定义自己的编码标准;信息标准主要指各种公用数据的命名规范、格式等。

数据的标准化和数字格式表示的一致性是数字化校园建设的重点,更是复合式数据集成方案实施的基础,必须围绕标准实体间的层次隶属关系和元数据信息进行设计和建模。

3.1.2 增量数据的ETL过程

利用数据源的增量数据对数据仓库进行维护,可以有效地提高ETL效率。现有通用 ETL工具在增量抽取方面存在一些问题,如不能抽取多个异构数据源的增量数据以及在处理增量数据时造成数据丢失的异常问题。

当前针对数据仓库增量式刷新的文献中,关于实现增量式维护的方法一般都基于已经获取了的增量数据源。但是,不同的数据源类型和具体的数据仓库环境,其增量数据捕获的方式也有所不同。常用的捕获数据源变化数据方式可分为两类:一是从专门的辅助表中获取,获取完毕后删除该辅助表中的数据,如触发器方式、快照方式等;另外一类是通过某种方式直接从数据源中获取,如时间戳方式、日志方式等。

3.2 框架结构

基于高校的实际需求,可以采用图2的方案。框架中的中心数据库是共享数据中心的核心部分,它通过配套的工具和服务从数据源中抽取共享数据,保存了通过 ETL工具抽取自各数据源的且处理过的全部数据信息,达到拥有统一和全局的数据模式和数据结构。

图2 基于T-ETL架构的异构数据集成平台框架

在该用例中,将数据联邦模式部署在数据仓储模式之前,构成了一种T-ETL的架构,该架构具有能够充分利用数据联邦模式集成异构数据源的能力。图2中所示的ETL工具没有提供数据源3对应的接口,而联邦服务器能够集成该数据源,这样能够扩展数据仓储模式的集成范围,而且通过部署联邦服务器有可能降低ETL的数据传输量。由于数据源数据量庞大,数据仓储模式不一定需要从数据源获取所有数据,故需要对数据进行过滤,只获取必需的数据存储在本地数据仓库中。部署在前端的联邦服务器可以对数据进行初步的过滤,从而降低ETL数据传输量,而且数据联邦模式中有些产品能够实现不同数据源数据的连接操作。如IBM Websphere Federation Server能够支持多个数据源数据的连接。而数据仓储模式中的ETL工具通常只能将连接下推到单个同构的数据源,而无法支持多数据源的连接。正是由于这个原因,ETL产品在执行连接处理之前,需要先从多个数据源提取数据,并将数据装载到一个目标数据仓库中。通过在前端部署联邦服务器能够利用数据联邦模式的这一能力,通过灵活组合使ETL开发人员可以选择最适当的方式来达到数据整合目的。如图2所示,通过联邦服务器可以实现对数据源2和数据源3的连接操作,而不需要将数据源2和数据源3中的数据全部集中到数据仓库中来进行连接操作。

4 基于T-ETL架构的异构数据集成平台实现方案与集成性能分析

本文所采用的ETL工具为 Kettle ETL,它是一款纯Ja-va编写的开源ETL工具。Kettle可以通过网络远程获取数据,并控制其上数据库信息的流动,利用工具本身的缓冲区为双方数据库搭桥。Kettle中的脚本文件transformation完成针对数据的基础转换,job脚本则完成整个工作流的控制[4]。对于简单的清洗,如数据类型、数据长度、精度、刻度等,可以直接将各种输入步骤的列字段的数据类型设置正确,同时在错误处理中忽略错误。“过滤”步骤可以简单的将符合某个条件的数据过滤。对于自定义的清洗需要在各种输入步骤中将所有的字段都设置为String,这样可以读取到所有的数据,再使用javascrip t步骤来写具体的脚本。此外还可以利用正则表达式进行数据匹配,通过“数据库查询”“映射”“流查询”这3步,将不符合规范的数据转换为符合要求的数据[56]。

联邦数据库系统是一个分布式的数据库环境,对于终端用户和应用程序来说可以把它看做一个虚拟数据库。Web-Sphere Federation Server9.0提供了放置、发布、集成、搜索、清除以及访问数据的功能和特性。联邦者想从远程数据库获取数据,它需要关联到该服务器上的数据类型映射和函数映射,如同其它客户机程序那样进行认证。“用户映射(U ser Mapping)”提供了建立数据请求凭证的机制,将本地db2用户标识映射到远程服务器上的用户标识。

研究表明,在域间距离、数据传输量、访问连接次数等参数一致的前提下,基于 T-ETL架构的异构数据集成平台在较大文件的数据访问中能表现出较高的综合性能,额外开销的影响也逐渐减弱,跨域数据传输的性能逐渐逼近域内传输的性能。表1列出了基于T-ETL架构的异构数据集成平台的集成性能分析。与单一的数据集成方案相比性能更加稳定,存取效率高,吞吐量大,安全性好,易于扩展,能够满足集成数据的动态变化,更加符合当前我校数字校园数据集成方面的实际需求。

表1 基于T-ETL架构的异构数据集成平台的集成性能分析

5 结论

数据集成为应用集成提供了重要基础,是实现共享数据中心、构建数字校园的关键环节。本文结合高校数字化建设的特点,借鉴企业主流数据集成方案,设计了这种高性能复合式的集成平台。基于T-ETL架构的异构数据集成平台不是两种集成技术的简单组合,而是在分析高校数据集成需求及现状的基础上,对两种集成技术的整合和最优化配置。今后还应该在数据中心的基础上,研究主题数据库和OLAP数据库的抽取,完成整个共享数据中心数据集成平台的框架设计和实现。

[1] 张宁,贾自艳.数据仓库中 ETL技术的研究[J].计算机工程与应用,2002(24):213-216.

[2] 赵英杰.数据网络中联邦数据服务关键技术的研究与实现[D].国防科学技术大学,2005(11).

[3] 李俊,李勇.联邦式异构数据库应用系统的集成框架和实现技术的研究[J].计算机应用研究,2001,4(4):19-21.

[4] 深圳市神盾信息技术有限公司.Kettle 3.0用户手册[S].2008.

[5] 郭志懋,俞荣华.一个可扩展的数据清洗系统[J].计算机工程,2003(3):95-98.

[6] Ralph Kimball,Margy Ross.The Data warehouse ETL Toolkit:Practical Techniques fo r Extracting,Cleaning, Confo rming,and Delivering Data[J].John Wiley and Sons,2002:238-268.

(责任编校:夏玉玲)

Solution of the Multi-source Heterogeneous Data Integration Platform Based on T-ETL Framework

MA Jiang1,YANGXue2min1,2
(1.Netwo rk Center Tangshan College,Tangshan 063000,China;2.Information College Beijing University of Sci-ence&Technology,Beijing 100083,China)

After analyzing the main way of data integration,a compound solution based on T-ETL architecture is proposed with regard to the process of digital campus construction practice,which resolves the business interoperability issues in different business system s.Research show s that this framework can guarantee real-time property of data transmission,decrease spending,remove performance bottleneck as w ell as potential safety hazard and imp rove the overall performance.

heterogonous data sources;data federate;data integration

TP311.13-

1672-349X(2010)06-0051-03

2010-10-12

唐山市教育科学研究十一五规划立项课题(TSYB065)

马将(1984-),男,助教,硕士,研究方向为数据集成与中间件技术。