APP下载

基于Hadoop的海量电信数据云计算平台分析

2016-03-13中国移动通信集团重庆有限公司

电子世界 2016年15期
关键词:海量账号集群

中国移动通信集团重庆有限公司 胡 圣



基于Hadoop的海量电信数据云计算平台分析

中国移动通信集团重庆有限公司胡圣

随着社会的不断发展,科技的不断进步,对于海量的电信数据,传统的数据分析方法已经不能很好的满足其发展要求。基于此,人们开始对各类云计算平台进行研究。其中,Hadoop作为一个开源框架,能够对大规模分布式计算要求加以实现,并且具有良好的可伸缩性、可靠性、高效性,在云计算领域当中,逐渐得到广泛的应用。基于此,本文对基于Hadoop的海量电信数据云计算平台进行了分析,以期能够提升数据计算分析的效率。

Hadoop;海量电信数据;云计算平台

前言

在当前的通信领域当中,通信技术、通信设备都得到了极大的发展,因而产生的数据量也越来越多。为了让人们能够享受到更好的通信服务,应当对数据分析处理的效率进行有效的提升。而过去的关系型数据管理等方法,对于现代通信的发展来说,已经不能很好的匹配和适应。因此,电信运营商在管理和分析数据的过程中,自然面临着更大的挑战。

1.Hadoop及云计算技术的基本概述

1.1Hadoop技术

Hadoop是一种分布式计算开源框架,通过运用低廉的设备,能够对大计算池进行搭建,从而满足还来那个数据高效、快速分析的要求,能够利用较低的成本,实现云计算解决方案。其对谷歌云计算技术进行模仿与实现,其中融合了ZooKeeper、HBase、MapReduce、HDFS等部分,能够与谷歌成熟商用云计算平台中的Chubby、BigTable、MapReduce、GFS等进行对应。在Hadoop当中,集合了相关的子项目,其中,MapReduce、HDFS、Hadoop Common使其重要的核心,而补充性服务则由其它子项目进行提供。其中,Hadppo Common最为最底层模块,是Hadoop当中的公共部分,将各类工具提供给其它子项目。HDFS作为一个主从结构,其中包含了一个名称节点、若干数据节点,名称节点负责对文件系统元数据进行管理,而数据节点则是对实际数据进行存储。MapReduce作为计算框架、并行编程模型,能够对海量数据进行处理,其中包含的map函数、reduce函数,分别负责对任务进行分解,以及对结果进行汇总[1]。Hive是数据仓库工具,能够对SQL查询功能进行支持。Hbase是基于列存储模型的分布式数据库。ZooKepper是针对分布式系统的协调服务。Chukwa则是分析、收集分布式数据的系统。Avro能够对跨语言、高效的数据序列系统进行提供,并对持久化数据存储进行支持。在Hadoop当中,具有高效、可靠、经济、高容错、可扩展等优势,在云计算当中,能够发挥出很大的作用。

1.2云计算技术

在互联网服务的交付模式、使用模式、增加模式的基础上,通过融合网络计算、分布式计算、并行计算等技术,能够在大量计算机组成的资源池当中,对计算任务进行分布,这样,系统根据实际需求,对相应的信息服务、存储空间、计算能力等进行获取。云计算具有价格低、规模大、扩展性强、可共享、数据安全可靠等优势[2]。根据不同的服务提供,可将云计算划分为软件即服务、平台即服务、基础设施即服务等类型。基于数据中心,云计算在虚拟化、编程模式、并行数据处理等方面,都具有重要的作用。

2.基于Hadoop的海量电信数据云计算平台

2.1平台设计目标原则

在对海量电信数据云计算平台进行设计的过程中,通过对Hadoop的应用,能够是海量的数据处理任务,通过价格低廉的设备加以完成。在Hadoop云计算平台的搭建当中,可以对低端PC服务器进行应用,从而对海量电信数据分析的要求进行满足,使数据的分析效率、分析速度等得到有效的提升,从而能够在业务决策当中,对准确、即时的信息进行提供,在实际应用中具有非常重要的作用和效果。在云计算平台的设计当中,应当遵循安全性原则、高效性原则、经济性原则等设计原则[3]。在平台设计当中,对于平台的信息安全、自身安全等,应当进行充分的考虑,并对相应的措施进行采取,对安全风险进行有效的规避。对于云计算平台的特性,应当进行更为充分的运用,从而使海量电信数据处理的效率和速度得到提升。

2.2平台基本框架结构

在含量电信数据云计算平台当中,可对分层结构、分布式结构进行应用,并划分出应用层、模型层、数据层等部分。在还来那个电信数据当中,主要包括了业务支持域数据、网络域数据等。业务支持域数据主要包括一些客户基本数据,例如客户消费数据、客户业务订购数据、客户信息等。网络域数据则主要包含了WLAN数据、A口数据、Gb口数据等。在数据层当中,利用Hadoop的HDFS对数据进行存储,然后利用相应的管理工具和数据处理工具,通过类SAL语言对统计指标进行定义,对任务进行动态生成,从而完成聚合与计算,高效、快速的处理海量电信数据[4]。在DHFS当中,利用文件的格式存储处理结果,根据相应的要求,可通过特定格式进行导出。在模型层当中,通过应用数据层Hadoop的ETL处理海量电信数据的输出的汇总数据,对分析模型进行建立,例如客户语音行为模型、客户短信行为模型、客户上网行为模型、客户位置模型等,以此来实现客户交往圈、客户离网预警、客户位置的分析。

2.3平台功能模块功能

在基于Hadoop的海量电信数据云计算平台当中,包含了集群管理模块、任务管理模块、数据管理模块、用户管理模块等。其中,集群管理模块主要支持节电管理、任务进度、以及Hadoop集群状态等;任务管理模块主要支持结果反馈、资源申请、任务申请等;数据管理模块主要支持数据的删除、下载、上传等;用户管理模块则主要支持交互控制、权限管理、身份认证、账号开通等。

2.4平台安全机制建立

在Hadoop集群当中,具有相互连通的节点,所以,在操作Hadoop集群节点的时候,具有统一的账号。电信数据通常具有敏感性的特点,而Hadoop自身机制无法满足安全有效控制数据的要求,因此难免会发生一些安全性的问题。基于此,为了对安全事故加以预防,对安全风险进行规避,在数据、平台的安全管理当中,应当对相应的安群机制进行充分的运用。在云计算平台的安全机制的运用中,主要涉及到数据安全管理、账号安全管理、自身安全管理等。在数据安全管理中,由于电信数据具有较高的敏感性特点,所以,对于敏感数据的保密工作进行进行强化。可以利用定期审计、人员数据操作记录、传输加密、分开存放、数据进出记录都能够方式,实现数据的安全管理。在账号安全管理当中,对管理员账号应进行严格控制,并对口令密码进行定期更换。在Hadoop集群中,应当分离数据传输账号与集群操作账号,并对访问权限进行严格控制。此外,应当对各个账号的操作记录进行保存,并定期进行审计。在自身安全管理中,可将Hadoop集群网络置于内部局域网当中,利用防火墙对其进行保护。将名称节点作为位移通信出口,其它节点都要通过名称节点才能访问。这样,就能够有效的确保云计算平台的数据安全。

3.结论

随着信息技术、网络技术的发展与普及,产生的数据量也日益增加。面对海量电信数据,传统的处理方法已经无法应对。因此,可以基于Hadoop,结合云计算技术,对海量电信数据云计算平台进行建立,更加高效、快速的完成数据处理与分析的任务。

[1]孙福权,张达伟,程勖,刘超.基于Hadoop企业私有云存储平台的构建[J].辽宁工程技术大学学报(自然科学版),2011(6):913-916.

[2]宋亚奇,周国亮,朱永利,李莉,王刘旺,王德文.云平台下输变电设备状态监测大数据存储优化与并行处理[J].中国电机工程学报,2015(2):255-267.

猜你喜欢

海量账号集群
一种傅里叶域海量数据高速谱聚类方法
彤彤的聊天账号
施诈计骗走游戏账号
海上小型无人机集群的反制装备需求与应对之策研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
我国社交媒体账号的对外传播之道——以“人民日报”Facebook账号“特朗普访华”议题报道为例
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
勤快又呆萌的集群机器人
一个图形所蕴含的“海量”巧题