APP下载

基于一体机架构的海量数据集中与处理

2015-06-06隋合轼

东北电力技术 2015年9期
关键词:总部信息系统架构

隋合轼

(国网营口供电公司,辽宁 营口 115002)

基于一体机架构的海量数据集中与处理

隋合轼

(国网营口供电公司,辽宁 营口 115002)

通过营销管控信息系统建设实践,针对供电企业各专业系统海量数据集中与处理,提出了基于数据库一体机的解决方案,从业务逻辑、数据架构、物理架构等方面论述实现途径,并以实例验证数据库一体机方案的技术优势。

数据库一体机;海量数据;数据集中;数据处理

1 概述

随着集约化、精益化管理的不断深入推进,电网企业各专业系统亟需针对多级部署的专业系统数据实现横向集成,纵向集中,便于上级机构即时访问、处理、分析。以总部营销管控信息系统建设为例,提出基于数据库一体机架构的海量数据实时处理方案,并以实际运行案例验证取得的实践效果。

建设总部营销管控信息系统,最终形成纵贯总部、省、地市三级营销信息管控系统,支撑营销业务统一策划、统筹部署、全程管控,实现营销关键指标、核心业务、重要业务环节的实时监控、动态评价、持续改进,有利于提升公司总部营销战略决策能力、运营管控能力、风险防范能力、服务监督能力、市场拓展能力。针对这样一个大规模数据处理并要求实时展现的重要业务系统的建设,经过大量的前期论证分析,在比对了多种方案后,确定选择Oracle Exadata数据库一体机方案,并进行了系列开发和验证工作。

2 基于数据库一体机的系统架构

2.1 总体架构

总部营销管控信息系统以27个网省的营销业务应用系统为数据源,通过数据库复制技术将数据从网省复制到总部,数据包括各省的稽查监控业务汇总数据和用户的明细数据。系统采用B/S架构,包括运营动态和稽查监控两大功能。其中,运营动态模块直接使用各网省的上传数据,对电量、电价、电费、服务质量以及设备等信息进行实时展示。这些数据在网省的系统中已经安装统一的结构进行了处理,在总部利用数据库复制技术实现了“多表对一表”的集中,从业务的角度来看,这些数据基本是实时的,即网省的变化会立即同步到总部;稽查监控模块在直接使用这些实时数据的同时,还需要利用存储过程生成不同维度的数据,支撑稽查监控任务的开展。

总部营销管控信息系统建设模式采取总部一级部署应用,总体架构如图1所示。即在总部管理信息大区部署一套软件,横向集成总部运行管控系统与EMS、营销分析与辅助决策、电网GIS空间信息服务平台等系统数据及应用集成。纵向贯通总部运行管控系统与网省营销稽查监控、营销业务应用、用电信息采集、电动汽车、能效管理等系统形成数据交换、流程贯通[1]。

图1 总部营销管控信息系统总体架构

2.2 数据架构

总部营销管控信息系统采用数据复制技术,实现网省用电信息采集的纵向数据上传,为了避免从各个网省复制上来的数据之间的主键、外键冲突等问题,在总部将每个省的上传数据独立存储,既每个网省建立一个schema,同时建立总部schema作为各网省schema的“上级用户”,该用户有权限访问存储在总部的各网省schema内的数据。

总部的数据存储采用27个网省schema加1个总部schema的方式,数据架构如图2所示。网省schema用于存储该网省的基础数据(包括实时数据、明细数据、分析数据等);总部schema存储来自总部运行管控系统产生的基础数据、管理数据和从各网省数据中生成的汇总数据,供前端应用对其进行访问。将网省用电信息采集系统、营销业务应用系统中的数据,按照总部营销管控信息系统的要求归集到数据准备区(为了保障网省用电信息采集系统的正常使用,在网省用电信息采集系统中划分数据应用区和数据准备区)。总部的数据接收区和网省数据准备区数据结构完全一致,去除所有的主、外键关系,降低由于数据校验引起的同步风险。

这里数据传输是指各网省数据从网省准备库传递至总部镜像库的过程。经分析测算,各网省传输至总部的数据量较大,更新数据达10 MB/s,并且实时性要求高,一般要求为min级。数据传输拟采用数据库复制技术,在数据源端进行数据压缩,然后上传至总部,可以节省网络带宽、缩短传输时间。根据总部营销运行管控系统的技术需求,引入目前较为流行的数据库复制软件Oracle Golden Gate(OGG),通过分析数据库重做日志(redolog)和归档日志,形成sql队列,将数据传输至目标库后应用到目标数据库[2]。数据复制技术需要在原库与目标库都部署配制相应的软件,但要求对数据库资源的占用相对较小,实时性较强,数据吞吐量也较大。

图2 总部营销管控信息系统数据架构

2.3 物理架构

根据所使用的数据库服务器不同,总部营销信息管控系统的物理部署架构有两种选择:一种是基于小型机数据库的物理部署架构、另一种是基于数据库一体机的物理部署架构,如图3所示[3]。两种架构的区别在于前者数据库服务器使用小型机双RAC架构,而后者数据库服务器使用数据库一体机。

对前述两种物理部署架构进行了对比分析,结果如表1所示。可以看出,基于数据库一体机的物理部署架构除初始投资较高外,在体系架构、处理能力、扩容投资、智能存储、运维成本、空间占用、电能消耗等方面都具有较明显优势[4]。

表1 两种物理部署架构的对比分析表

2.4 系统负载

图3 基于数据库一体机的物理部署架构图

从业务的角度看,总部营销管控信息系统是一个大数据准实时查询和在线分析为主的混合型应用系统,由于系统处理的是电网公司核心的商业信息和管理,使用人员多为公司高级管理人员,系统可预见未来的并发数不会太高,但对响应时间会非常敏感。同时,尽管系统采用B/S架构,但在应用服务器层更多的是表示层逻辑的处理,而大量的业务逻辑和数据处理的工作在数据库服务器上实现,因此,数据库服务的处理能力将是系统整体性能的关键。从其运行方式上来看,主要的负载主要有3个方面:①通过Oracle Golden Gate从27个网省实时复制上来的数据的处理;②来自应用服务器的数据服务请求处理;③利用存储过程实现的ETL(Extract,Transfer和Load,即提取,转换和装载)功能的处理。

系统负载情况如图4所示。从图中可以看出,总部营销管控信息系统是一个存储I/O密集型的系统,数据从网省上传到最终被应用服务器使用至少要经过多次海量数据的I/O操作,过程可描述为:①OGG将网省数据写入队列文件;②OGG将队列文件内的记录写入Schame OMAC的对应表中;③存储过程从Schame OMAC抽取数据,经过清洗、转换,加载到Schame SGACMS的表中;④应用服务器访问两个Schame中的数据。

图4 总部营销管控信息系统负载

以现有数据范围,系统在线5年估算,系统数据达到PB级。同时,由于电力客户数量众多,明细数据是按日产生的,因此单一的表中记录数最终会在达到百亿条以上,单一表的大小在数百个GB。而这些表一般都是包含电量、电费、电价等重要数据的表,并且业务处理多为多表关联、聚合、分组等大I/O、高CPU资源占用的操作,对数据库服务器系统的性能要求非常高。

3 数据库一体机架构技术优势及实例验证

3.1 技术优势

总部营销管控信息系统属于数据密集型的应用,并对响应时间敏感,并发访问有限,业务逻辑处理多在数据库层进行,因此系统处理能力焦点在数据库服务器。数据库一体机架构的技术优势主要体现如下。

a.系统I/O能力

与传统数据库系统相比,Oracle Exadata突破了制约系统性能和容量的I/O瓶颈。传统的存储系统性能的提升大多靠增加硬盘驱动器的数量取得,而Oracle Exadata的存储服务器可以感知数据,卸载数据库服务器的负载,通过采用大规模并行架构,通过更高的带宽(40 GB/s Infiniband端口带宽、Smart Flash Cache缓存高达5.3 TB)连接加快了并行数据处理并减少了数据移动(EHCC混合列压缩、分区修建、存储索引、Smart Scan智能扫描等)[5]。通过检索SPC-1和SPC-2的测试结果可以发现,当前大部分高端存储的IOPS指标基本在200 000左右,而Exadata做高可达1 500 100。

b.混合负载

Oracle Exadata可在1个平台上很好支持混合负载(OLTP+OLAP),而传统架构由于不能突破性能上的限制,一般采用业务处理系统和查询分析系统分离的设计,这种架构由于需要两个系统间的数据传递,稳定和实时性都大打折扣,并且维护成本和难度都较高。

c.性能优化方式

数据库系统的性能优化一般都首先集中在应用层面,既优化SQL语句,然后在进行系统层面的调整,但优化的难度很大。Oracle Exadata为性能的优化提供了更多的方法和便利条件,降低了系统优化的难度,如混合列压缩、分区修建、智能扫描等。

3.2 实例验证

以上各项技术优势在项目测试中得以验证,仅举几例,列表说明。

例1:以CTAS(Create Table As Select)方式创建不同压缩方式的表,然后从dba_segments查询其大小,并与原始table比较得到压缩率,测试结果见表2。

表2 EHCC数据压缩前后测试结果

例2:使用Exadata的各个技术,依次运行原系统SQL语句,测试结果见表3。

表3 原系统SQL语句加载Exadata的各个技术测试结果

例3:与售电统计相关的5、6个类似的SQL,运行速度极为缓慢,执行大约需要15 min,页面图表无法显示,用户体验极差,须进行优化,测试结果见表4。

表4 原系统SQL语句经优化并加载Exadata的各个技术测试结果

4 结论

通过总部营销管控系统建设过程中逐步探索,及对Exadata数据库一体机在数据压缩能力、I/O性能和数据处理能力的测试,和系统试运行过程中TOP SQL的优化实践,得到如下结论。

a.总部营销管控系统这类由下向上逐级数据集中与处理,对数据实时性、完整性、准确性,以及海量数据即时分析提出了更高要求,需要就总部、网省甚至地市各专业系统建设现状做出通盘考量再选择适合的技术路线。

b.数据库一体机的先进的架构和创新性的功能,在大规模数据处理方面具有传统数据库系统无法比拟的优势;如40 GB的infiniband内存互联、Smart Flash Cache、Smart scan、混合列压缩、存储索引等[6]。

c.数据库一体机具有混合负载,在线OLAP处理能力具有优势,并能够满足不断的业务创新和功能扩展的需求。

[1]王 楠,陈晓光,高明双.建立可控的信息网络安全准入机制[J].东北电力技术,2014,35(5):43-44.

[2]OGG产品介绍及应用场景,应用案例[EB].http://www. oracle.com/technetwork/cn/community/developer⁃day/4⁃ogg⁃app⁃case⁃2002394⁃zhs.pdf.

[3]孟凡博.电力通信传输容灾架构体系研究[J].东北电力技术,2014,35(7):25-27.

[4]Oracle Exadata Technology Portal on OTN[EB].http:∥www.oracle.com/technology/products/bi/db/exadata.

[5]Oracle Exadata white papers[R].http:∥www.oracle.com/technetwork/database/features/availability/xmigration⁃11⁃133466. dbf,http://www.oracle.com/technetwork/middleware/bi⁃foundation/exadata⁃smart⁃flash⁃cache⁃twp⁃v5⁃1⁃128560.pdf.

[6]晓 召.大数据VS数据库一体机[DB].http:∥blog. sina.com.cn/s/blog_7ca5799101013dtb.html.

Massive Data Concentration and Processing Based on Database Machine

SUI He⁃shi
(State Grid Yingkou Electric Power Supply Company,Yingkou,Liaoning 115002,China)

According to concentration and processing of massive data in each professional system of power grid enterprise,this paper proposes the solutions based on the database machine by combining the construction of the power⁃marketing information monitoring sys⁃tem,elucidates implementation approach from the business logic,data architecture,physical architecture etc.Introducing the exam⁃ple,the technology advantage of the solutions are verified.

Database machine;Massive data;Data concentration;Data processing

TM274

A

1004-7913(2015)09-0012-04

隋合轼(1970—),男,硕士,高级工程师,现从事运营监测(控)管理工作。

2015-06-30)

猜你喜欢

总部信息系统架构
基于FPGA的RNN硬件加速架构
企业信息系统安全防护
功能架构在电子电气架构开发中的应用和实践
RAYDATA总部办公室
基于云服务的图书馆IT架构
基于区块链的通航维护信息系统研究
Bloomberg欧洲新总部
Adobe总部改造
信息系统审计中计算机审计的应用
WebGIS架构下的地理信息系统构建研究