APP下载

MPP数据库在中国移动大数据应用中的前景分析

2017-03-27

电信工程技术与标准化 2017年3期
关键词:现网数据量架构

(中国移动通信集团设计院有限公司,北京 100080)

MPP数据库在中国移动大数据应用中的前景分析

田雯,刘倩,孙红恩

(中国移动通信集团设计院有限公司,北京 100080)

随着云计算、大数据应用的迅猛发展,中国移动IT系统的数据量呈现爆炸式的增长,而传统的以小型机架构为主的数据库系统在存储和分析能力等方面开始出现瓶颈,且造价高昂,因此中国移动对MPP数据库的应用需求量大幅增加。本文通过对MPP数据库在中国移动的现网使用情况、产品技术优劣及适用场景的分析,来探讨MPP数据库在中国移动大数据应用中的发展前景。

大数据技术;MPP数据库;share-nothing架构应用

1 前言

由阿里巴巴造出的“去IOE”概念在IT圈已经迅速火热起来,中国移动也跟随浪潮掀起了“去IOE”的运动。“去IOE”即去掉造价高昂的IBM小型机、Oracle数据库和EMC存储设备,代之以廉价的国产化、开源化的软硬件系统,实质就是以“分布式+开源”的架构替换传统的“集中式+封闭”架构,是系统云化的重要组成部分。而实现“去IOE”之路,就必须要借助云计算、大数据等新型技术。

2 大数据定义及大数据技术

研究机构Gartner对于“大数据”(Big Data)给出的定义是“需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”。大数据具有大量(Volume)、高速(Velocity)、多样(Variety)和价值(Value)四大特点,简称“4V”特征。而大数据技术则是对大容量、高周转率、高可变性的信息资产的管理,它要求经济实惠的、创新的信息处理形式以提升洞察力和决策水平。

目前主流的大数据技术主要包括分布式数据库(Massively Parallel Processing大规模并行处理, MPP数据库)、Hadoop平台、NoSQL和NewSQL技术等。

各种大数据技术擅长领域不同,如表1所示,用户需要根据实际的应用场景选取最优匹配的大数据技术。

3 MPP数据库在中国移动现网的应用及适用场景分析

3.1 MPP数据库在中国移动现网的应用情况

随着移动互联网应用的迅猛发展,中国移动IT系统的数据量呈现爆炸式的增长,带来了海量的数据存储、分析和管理需求。而传统的以小型机架构为主的数据库系统,在存储、计算、查询和分析能力等方面均开始出现瓶颈,且造价高昂,因此中国移动对MPP数据库的应用需求量大幅增加。

表1 各类大数据技术的适用领域

2015年最新调研结果显示,中国移动各省约有40个IT系统使用了MPP数据库,总数据量约为8PB。其中,47%用于数据共享平台(多数为企业级或部门级内部共享使用),22%用于经分系统,12%用于详单云,7%用于集中性能管理系统,其余用于深度分析库、信令监测系统、VGOP等系统。

从规模统计情况来看,中国移动MPP现网应用规模主要集中在10~50个节点、50~500 TB数据量之间。同时各省根据系统满足期、使用用户、业务发展等情况对各系统终期将实现的规模进行预测,预测结果显示MPP远期业务发展将可达到100节点、1 000 TB数据量的规模。图1、2为中国移动MPP现网应用规模和远期预测规模分布图。

3.2 MPP数据库适用场景分析

根据上述应用情况可以看出,MPP数据库主要适用于具有以下特性的OLAP类应用(数据仓库/集市、数据分析类系统等):

离线批处理、复杂逻辑的关联分析;

自定义查询、自助取数;

支持结构化数据、少量的非结构化数据;

单集群一般100节点以下;

数据规模在TB~PB级。

MPP数据库针对OLAP类应用场景提供了大量的技术优化,以充分发挥Share-Nothing架构的性能优势和关系数据库的数据关联分析能力。相较于传统的关系型数据库产品,MPP数据库具有高性能处理能力和高数据吞吐能力,适合较大数据量、高计算负载度、低延时要求的关系型数据处理,可提供结构化数据的深度分析挖掘以及多变的自助分析功能:

图1 中国移动MPP现网应用规模

图2 中国移动MPP现网应用远期预测规模

(1)深度分析与挖掘:承担部分主库结构化数据处理任务,执行大量历史信息处理和查询任务,完成海量数据挖掘任务;

(2)即席查询与自助分析:执行非固定信息的分析任务,以及临时、即席、快速变化的分析任务,提供更加开放的分析探索环境。

4 MPP数据库产品介绍及技术前景分析

4.1 MPP技术特点及产品介绍

MPP数据库依然是关系型数据库。典型的MPP系统是通过Share-Nothing(无共享)的方式实现大规模的并行处理,它将任务并行的分散到多个节点上,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过网络互相连接,彼此协同计算,作为整体提供数据库服务。其中,MPP又分为有Master节点和无Master节点两种架构,Master节点承担生产执行计划和任务调度等功能,有专职Master节点的架构不会影响数据节点的效率,但缺陷在于Master节点本身可能会成为性能瓶颈。

MPP数据库与传统的Share-Disk架构的SMP数据库不同,SMP系统的节点之间共享文件存储,特点是高并发、高可用性、数据量较小,适合OLTP类应用场景,而MPP系统具有海量数据、低并发、低可用性的特点,因此更适合于OLAP类应用场景。图3为MPP数据库系统和SMP数据库系统的架构图。

图3 MPP和SMP数据库系统架构图

目前市面上的开源和商用MPP数据库产品多达几十种,而且还有新的产品不断涌出。各种不同架构和特性的MPP数据库产品纷纷加入市场大混战,技术路线很难标准统一化,给用户带来了选型和管理上的困扰。表2为目前市面上主流MPP数据库产品的技术优劣对比情况。

MPP数据库各产品技术存在着较大的差异,产品选型应重点考虑系统的集群规模、部署环境、执行效率和安全性等需求。综合来讲,Greenplum(EMC)、Vertica(HP)和Gbase(南大通用)这三种产品的技术更为成熟优良。其中,南大通用作为国产MPP领域的第一品牌,技术发展水平与国外同类产品相当,甚至在架构设计方面已赶超国外同类产品。

无论选择何种产品,用户在进行产品选型之前,都应先明确具体的应用场景,并针对应用场景对产品进行功能和性能测试,重点比对产品的各项指标数据,从而选择性价比最高的一款产品。

4.2 MPP技术缺陷及改进

MPP架构可以对大数据进行分析处理,可有效支撑PB级别的结构化数据,这是传统数据库架构无法达到的数据量,但MPP也具有一些局限性和技术缺陷:

MPP系统因为要在不同处理单元之间传送信息,针对紧耦合的数据库表访问、较多事务同时处理的情况效率不佳,因此不适用于事务型数据及OLTP场景。

MPP系统的扩展能力有限,目前的技术理论上可实现512节点的互联,但实际上系统处理性能不能随着节

点数的增加呈线性增长趋势,现网中100节点以上规模的应用数量极少。

MPP系统的故障容忍度不高,单节点故障性能损失可高达50%,多节点故障则可能导致整个MPP系统不可用。

各大主流厂商为解决上述问题,对MPP技术做了优化和改进,现今已有多Master节点、行列混合存储、植入内存计算等技术开始尝试使用:

(1)Master节点主要承担访问入口、元数据管理、生成执行计划和任务调度等功能。有专职Master节点的架构不会影响数据节点的效率,但大规模集群下Master节点本身会成为性能短板;而无专职Master节点的架构扩展性能更好,一个节点失效不影响数据库整体状态,但任务调度等主节点工作分布在数据节点执行会降低数据节点的性能。因此, 多Master节点是未来的发展方向,由多个子集群组成联邦集群: Master集群、独立的集群服务集群(比如Zookeeper)和计算集群组,可有效解决大规模集群部署的问题。这样多节点的分层架构提供良好的扩展性和高可用的同时,也能够保证数据节点的对等性。

表2 MPP数据库主流产品技术优劣对比表

(2)按行进行Hash分布是MPP的主要特征,行式存储更新速度快,适合多字段频繁查询;而列式存储则能大幅降低分析负载的磁盘I/O,并且提供更高的数据压缩率。行列混合式存储可吸收两者的优势,互补加成,可以按照应用类型,随需定制分区存储方式,以达到最优化的访问性能,从而提高查询速度和数据压缩率。

(3)内存的数据读写速度比磁盘要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能,适合小数据量的频繁加载/修改。MPP通过植入内存计算技术,在内存中为实时装载数据开辟一块专用存储区域,利用内存的快速读写能力为业务系统提供高并发、低延迟的数据处理能力,可满足OLTP服务需求。

4.3 MPP技术发展前景

目前,中国移动IT系统使用MPP数据库的主流解决方案是与Hadoop平台形成混搭架构来实现海量数据分析,Hadoop可对数据规模在PB级以上的非结构化/半结构化数据进行处理,MPP数据库可以直接加载/卸载数据到Hadoop的HDFS文件系统,提供结构化数据分析功能,同时提供丰富的SQL和事务支持能力,二者属于互补关系。

MPP的技术优势在于对结构化数据的处理、响应性能和外延工具齐全等方面,未来Hadoop系列技术,会随着大数据的发展逐渐成熟,包括Hadoop的SQL技术在性能、容错和安全性上的不断提升,BI工具越来越丰富等。同时,MPP技术发展也在向Hadoop靠拢,各主流厂商纷纷在做的新一代大数据产品,就是把MPP与Hadoop技术融合在一起,并结合一些内存计算、流计算等技术,一方面可为用户提供透明的数据管理平台,另一方面通过技术整合来有效节约投资成本。换句话说,未来不再有混搭架构的概念,MPP数据库和Hadoop生态系统将逐渐融为一体。

5 结束语

综上所述,在大数据技术融合尚未完善的现阶段,MPP数据库依然是大数据环境下不可或缺的一部分,它可提高IT系统的通用性、可扩展性和灵活性,而且成本低廉,独立于硬件的纯软件架构,也符合中国移动集中采购现状。

但是现今MPP技术也存在着扩展节点有限、大规模集群可用性不高和节点故障性能下降严重等问题。在未来的IT系统建设过程中,需要结合大数据的技术发展、现网使用的经验积累等情况,不断加深对MPP数据库的研究,以便其能更好的支撑IT系统建设,顺应大数据的发展。

[1] 魏进武, 靳淑娴, 张基恒, 等. 大数据关键技术及运营商落地建议[J]. 邮电设计技术,2015(5)

[2] 齐磊. 大数据分析场景下分布式数据库技术的应用[J]. 移动通信, 2015,39(12): 58-62.

[3] 孙元浩. 大数据基础技术发展的两大方向和最新进展[R]. 北京:第六届中国数据库技术大会(DTCC),2015.

MPP database’s prospect analysis on big data applicated in China Mobile

TIAN Wen, LIU Qian, SUN Hong-en
(China Mobile Group Design Institute Co., Ltd., Beijing 100080, China)

With the rapid development of cloud computing and big datatechnologies, the amount of data showing that China Mobile IT systems are growing explosively. But,traditionaldatabase systems with minicomputerbasedarchitecture began to appear a bottleneck in aspects of storage and analysis capability,and cost expensive, so China Mobile’s requirement for MPP databaseincreasesubstantial.This paper discusses the future of MPP database in big data applications, by analyzing MPP database used in China Mobile IT systems, differences of software products and applicable scenarios.

big data technologies; MPP database; share-nothing architecture applicated

TN929.5

A

1008-5599(2017)03-0087-05

2016-01-07

猜你喜欢

现网数据量架构
基于FPGA的RNN硬件加速架构
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
功能架构在电子电气架构开发中的应用和实践
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
基于Relay架构的移动核心网方案研究
WebGIS架构下的地理信息系统构建研究
一种基于FPGA+ARM架构的μPMU实现
LTE覆盖的评估、定位和优化