APP下载

面向智慧中台的多源数据集成技术研究

2020-02-03马耀家曹扬陈骏曾艺坤陈珊珊

电子技术与软件工程 2020年19期
关键词:中台数据源架构

马耀家 曹扬 陈骏 曾艺坤 陈珊珊

(江苏苏星资产管理有限公司 江苏省南京市 210000)

多源数据集成是指通过运用不同数据工具,将不同来源的数据源集成到所用平台或系统内,成为所用平台或系统能够识别的数据形式[1]。由于数据在采集过程中具有明显的差异,导致数据源形式不一,需对此类多源数据实施集成处理。当前与数据集成相关的体系架构主要包含数据复制及模式集成等。数据复制是通过复制不同数据源,对数据源整体的统一性实施维护实现多源数据集成;模式集成是通过转化各个局部概念模式,实现多源数据集成。但上述方法未能有效解决数据集成的数据源添加与语义等问题。为此,本文运用SOA 构建多源数据集成技术架构,对不同数据源实施集成处理后用于智慧中台内,实施相应的操作与管理等,提升操作与管理的时效性。

1 面向智慧中台的多源数据集成技术

1.1 多源数据集成技术总体架构

运用SOA 体系结构构建包含数据源服务层与应用服务层的多源数据集成技术总体架构,其中数据源服务层主要针对智慧中台的现实数据实施管理,智慧中台的数据源主要为关系数据库与半结构化数据源XML 文件等;应用服务层针对数据源服务层内各个数据源内源数据实施集成处理[2]。ESB 经服务注册、调用及查询等对应用服务层的不同服务实施集中管理,ESB 不但可实现动态管理服务,同时可经数据查询优化模块与数据访问模块等提升智慧中台的性能与安全性。

1.2 语义模块功能

智慧中台运用了全局模糊本体,对通过消息服务模块向语义模块所传递的标准格式源数据实施更正。若用户定义的扩展参数表与模糊本体创建均表明需实施语义查询扩展,即对源数据实施对应的调整,同时基于语义扩展查询,提升查全率与查准率[3]。以查询源数据为依据,创建匹配规则,将本体映射文件生成,通过全局本体库将查询结果部分转化为通用模式,可以有效解决智慧中台的语义问题。

1.3 数据存储

1.3.1 基于MC 算法的防御攻击处理

将执行任务所得结果内不同归档文件的副本冗余数量设为r,当有攻击发生时,运用RS 编码(Reed-solomon codes,RS codes)冗余副本与冗余信息,不能恢复归档文件中不同RS 分组fi的概率上限可表示为:

式中,RS 编码码距以d 表示;码组长度与大规模数据块数量分别以g 和n 表示;RS 分组事件以C 表示;数据块损坏比例以σ表示。

将通过RS 冗余编码扩展之后的不同RS 码组内容设为 (F1,F2,K,Gg),将不同Fi元素视作单独随机变量。Fi可取为1 或0,当Fi为1 时,代表数据块损坏;当Fi为0 时,代表数据块完整,记为E(Fi)=σ。当存在随机变量时,可得到:

图1:数据存储过程图

将不能恢复的第i 个具备错误的RS 分组事件通过Ci表示,已知分组内具备错误的数据块比阈值高,则事件Ci的Chernoff 上界式为:

在归档内不同RS 编码分组为相互独立关系,当归档D 内存在n 块数据块时,在遭受到攻击破坏时,无法恢复的概率式可表示为:

所获得的数据恢复概率式可表示为:

综上所述,当执行任务所得结果内待存储源数据遭受攻击行为时,MC 算法具备的数据纠错能力较高,执行任务所得结果的副本冗余数据、大规模数据块数量以及RS 编码码距均对MC 算法的纠错性能具有决定性作用。

1.3.2 数据存储过程

经MC 算法对执行任务所得结果内源数据实施防御攻击处理后,运用增量捕获工具、Sqoop 及Kafka 等数种技术方式,接入执行任务所得结果安全数据,依据统一数据规范标准化格式储存不同类别数据库[4]。数据存储过程如图1所示。

运用Hadoop 的并行加载机制,对线上与线下的消息实施统一处理,提升数据向Hadoop 集群内存储的便利性[5];同时可将数据通道格式规范化,且准许智慧中台各实施一次数据获取与写入,有效降低数据通道的操作用时与繁琐性。

图2:应用本文技术前后智慧中台语义识别精度对比

图3:应用本文技术前后智慧中台各项操作用时对比

1.4 冗余数据处理

为提升已存储执行任务所得结果内源数据的有效性,应将异常数据剔除掉。其中异常数据重点有重复数据、错误数据及不完整数据等,各种异常数据的清洗处理方式为:

(1)重复数据:导出重复数据的全部字段,选择性地实施剔除;

(2)错误数据:针对与全角字符相似及数据前后存在不可见字符等问题,可采用SQL 语句书写方式找寻出,并在业务系统更正后抽取出;

(3)不完整数据:过滤出此类不完整数据,分别依据缺失内容向各个文件写入,需在设定时间之内全部补全,待补全之后即可向数据库内写入。

通过建立多源数据集成技术架构,采用MC 算法防御攻击处理数据,获得安全存储数据,生成统一的XML 格式集成数据,由此完成多源数据集成。

2 应用结果分析

以江苏苏星资产管理有限公司的智慧中台作为实验对象,将本文技术应用于此智慧中台内,检验本文技术的实际应用效果。

2.1 语义识别精度检测

以人事调度信息、车辆管理信息、餐饮服务信息、工程维护信息以及会务接待信息为例,通过实验公司智慧中台实施语义识别,检测应用本文技术前后智慧中台的语义识别精度,检测结果如图2所示。

通过图2 能够看出,在对不同信息实施语义识别过程中,应用本文技术前智慧中台的语义识别一致度值在54.5%~74.6%之间,而应用本文技术后智慧中台的语义识别一致度值在74.5%~89.6%之间。由此说明,本文技术的语义识别一致度较高,可提升实验公司智慧中台的语义识别精度。

2.2 操作效率检测

记录应用本文技术前后的智慧中台实施操作操作所用时间并对比,结果如图3所示。

分析图3 可得出,应用本文技术后智慧中台实施五项操作的总用时为88.5ms,而应用本文技术前智慧中台实施五项操作的总用时为124.8ms,应用本文技术后智慧中台实施五项操作的总用时比应用本文技术前降低了29.09%。说明本文技术可提升实验公司智慧中台的操作效率,提高了实验公司的服务响应时效性。

3 结论

本文通过构建集成技术整体架构,实现对数据源服务层内多源数据的集成处理,将本文技术应用于智慧中台内,能够有效提升语义识别精度,本文技术应用后更具时效性,并以此提升该公司的服务水平与服务效率。

猜你喜欢

中台数据源架构
基于FPGA的RNN硬件加速架构
中台是媒体转型必经之路吗?
——媒体中台建设的特点和误区
功能架构在电子电气架构开发中的应用和实践
关于零售企业“中台”建设的研究
汽车制造企业质量中台研究
以技术开发中心为中台,数字化转型之见解
Web 大数据系统数据源选择*
LSN DCI EVPN VxLAN组网架构研究及实现
基于不同网络数据源的期刊评价研究
基于真值发现的冲突数据源质量评价算法