APP下载

浅谈联通大数据平台

2018-06-22刘博

科学与财富 2018年15期
关键词:采集处理大数据

刘博

摘要:本文主要对联通大数据平台的概述、系统架构、系统功能以及河北省大数据的现状进行了介绍。

关键词:大数据、互联网、采集、分析、处理;

河北联通是河北省最大的互联网接入提供商,任何个人、企业的上网的行为都以数据的形式流淌在河北联通的网络里,网络覆盖的广、接入方式丰富是河北联通得天独厚的优势。

运营商大数据的全面性、多维性、中立性、完整性是其它企业很难比拟的,而且通过这些不同维度数据的交叉关联,可以创造更多的新数据和新价值。

一、系统概述

依据河北省业务发展需求及河北联通集成公司集成公司IT系统的实际情况,本期工程建设为新建河北联通集成公司数据开放平台,初步完成大数据支撑平台搭建,具备对各类数据源的采集、分析、处理能力;具备数据聚合和数据标准化能力,具备数据服务和数据管控能力,增强对外服务及支撑水平。

二、系统功能

本次系统平台分采集层、基础平台层、服务层、应用层、系统管控功能五层功能架构,同时包括系统所需的全部系统软件、功能组件。

采集层:主要采集同步河北联通信息化部的大数据平台数据和外部合作数据。

数据基础层:构建分层分域的数据存储及运算体系,实现对海量的结构化、非结构化、流数据的加工和存储。

数据开放层:将系统加工存储的数据通过API、租户等方式向各类应用进行能力开放,实现对应用和业务的统一支撑和管理。提供各类可视化报表加工、模型开发工具。

应用层:本期项目重点支撑对金融和公安行业,为外脑合作、外部应用以租户的方式实现资源共享。

管控功能:实现系统元数据、ETL、数据质量、生命周期、数据安全、数据资产的管理功能。

三、系统架构

3.1 数据基础层

大数据基础平台是稳定、可靠的企业级大数据基础平台产品,满足如下企业级产品的特征:

统一资源管理分配:改进的YARN资源管理框架,可在同一份数据集上运行多种计算框架(Storm, Docker等),动态创建SQL统计、数据挖掘、机器学习、流数据处理等计算集。

多租户业务支持:在组织内部,当多部门使用统一平台统一数据集运行不同业务时,通过租户的方式实现对数据和计算资源管理和分配。各业务在相对独立的环境中运行,实现了数据与资源的逻辑隔离。

五维安全功能方案:当多源异构数据汇入整合时,系统安全风险陡然增加。需要通过安全规则引擎,用户集成认证,权限管理分配,安全操作审计和数据加密保护五个维度来提供大数据基础平台安全整体功能,保护数据在访问和处理过程中的安全。

自动化部署配置:大数据基础平台由数十个组件构成,这些组件相互交织又分工不同,对管理人员要求较高,技术难度较大。通过图形化的界面实现大数据基础平台的自动化安装部署和优化配置,不仅可以减轻管理人员的部署压力,还能保证平台的优化配置。

标准运维服务:针对以往遇到问题只能从网络搜集零散的知识,且陷入缺乏标准解决方案这样的困境,团队提出由驻场,售后和研发三级人员组成的运维体系,使用运维案例中沉淀下来的最佳实践经验,高效解决生产过程中遇到的问题。

开放集成接口:通过一系列Web Service,Java,Thrift等形式的接口将大数据基础平台的管控,资源分配,安全审核等能力开放出来,方便和各类系统进行融合以及在平台上的二次开发。

3.2基礎组件Hadoop

Hadoop是数据操作平台基础核心,其基于Hadoop生态圈系统,支持多种核心功能和组件,主要包括:

分布式文件系统HDFS

资源管理与调度YARN

安全组件及能力Ranger

分布式列数据库Hbase

数据加载处理Sqoop,Flume, Kafka等

服务管理与YARN集成Slider

数据仓库Hive

通过整合先进云计算技术并集成/优化/封装,支持对海量结构化、半结构化和非结构化数据的存储与高速处理,同时完全支持对数据的高并发读写访问以及快速的SQL查询操作,我们对交付版本在服务期内提供高效、全面且专业的技术支持和保障。Hadoop在集成开源发布版本的同时,还从社区中精选出核心且优先级高的Patch集成到Hadoop中,确保产品的健壮性,保障其在商用项目应用时更加稳定、可靠的运行,提升客户体验度和满意度。Hadoop的研发团队中有众多开源社区Contributor,通过对开源组件的不断研究并结合项目实施过程中出现的问题,在开源组件原有基础上进行了重构与优化,使我们的产品具有更强的数据处理、更快的处理速度以及更加便捷的实施优势。

3.3 内存计算Spark

为数据的分析计算提供了基于内存计算的且高效稳定的spark计算框架,需要支持三种模式的处理能力:批处理、流式处理以及基于SQL操作的数据分析查询,分别支撑各种业务场景和客户需求。

3.4 平台管控管理

该模块是在Hadoop之上的一站式界面管理系统,提供如下功能模块,管理员可通过界面的简单操作,完成数据平台的部署,管理,监控告警及日常管理的工作:

导航式部署:以便捷易用的方式实现了大数据基础平台软件的一键式自动安装部署,并且支持用户自定义扩展部署,管理员能够通过配置参数根据部署集群硬件环境自动优化,最大化利用集群资源,帮助用户节省宝贵时间和精力完成集群环境搭建。

图表化监控告警:提供底层硬件健康状态、集群各组件健康状态的全流程多维度监控体系。其中包括主机资源CPU、内存、硬盘、网卡等各项指标监控,还涵盖HDFS、YARN、Hbase、Hive等各组件的多达150项的指标监控;支持指标告警项的配置,系统将在监控集群信息时,捕获告警阈值超出的指标进行记录和展示;支持自定义配置监控指标及图表的展现类型,帮助运维人员直观快速的定位和解决问题,为系统持续健康稳定的运行提供保驾护航。

一站式集群管理:提供界面化的集群管理功能,提升运维的高效性和便易性,让集群管理变成傻瓜式操作。包括服务启停,节点扩容缩容,配置文件修改,机架感知等。

多元化资源管理:提供对集群计算资源、存储资源、数据权限等的统一分配管理功能,从而使集群中数据存储规范化、资源分配高效化、访问权限隔离化,确保数据隐私与资源隔离。

四、结语

大数据平台的建设是为了适应联通行业业务的迅速发展需求而提出的,通过工程建设,将会增加行业业务系统的容量,提高网络的服务质量,有利于联通业务和收入的持续发展。

猜你喜欢

采集处理大数据
市政工程档案采集与管理中存在的问题
血液标本采集对生化检验结果的影响分析
浅析微量物证的采集和包装方法及其注意事项
基于大数据背景下的智慧城市建设研究
浅谈生物公司脐带血采集业务的收入及税金核算方法