APP下载

云计算挖掘民航气象历史归档数据

2017-03-22刘彬卿

电子技术与软件工程 2017年3期
关键词:私有云云计算

刘彬卿

摘 要目前,民航气象中有大量历史归档数据,海量的气象数据具有很高的挖掘价值,数据价值的挖掘需要大量的计算,而云计算为此提供良好的基础。由于各地区空管局气象中心之间网络的联通,为空管局内部建设自己的私有云提供了便利的条件。搭建私有云为各空管局之间数据共享和云计算提供了物理条件。云计算技术使用分布式的计算技术实现了并行计算的计算能力和计算效率,解决了单机服务器计算能力低的问题。本文最后用hadoop搭建了云计算平台作为实验,并用该平台处理了部分历史归档数据。

【关键词】气象数据 云计算 私有云 Hadoop

1 背景

目前气象预报主要使用4种预报处理方法:第一种是经验预报方法,在天气图形势预报的基础上,根据天气系统的未来位置和强度,对未来天气的分布做出预测;第二种是统计预报方法,通过统计某一现象在历史的特定环境条件下出现的概率,从而推测出在未来存在类似环境时出现的可能性;第三种是数值预报方法,利用大气运动方程组,在一定的初值和边值条件下对方程组进行计算,预报未来的天气;还有一种是集成预报方法,即把不同预报方法对同一要素的多种预报结果综合在一起,进而得出一个优于单一预报方法的预报结果。

气象数据独立存在几乎没有价值,但往往配合其他数据,就会产生综效。从海量的气象数据众挖掘与其他商业活动的关联,从而实现精准营销和精确预报具有很重要的意义。目前,空管局气象中心有着海量的气象数据,包括了各类结构化和非结构化的数据,MM5,WRF等气象数值预报模式每天的计算量更是惊人。气象预报的精度也从几百公里、几十公里提高到几公里,大大增加了模式的计算量。这需要配置很高的硬件才能实现,目前信息中心的数值预报每个计算模式是4台linux系统并行运算,该模式对硬盘的可靠性要求高,节点的接入和去除也比较复杂。因此如何高效的从这些海量数据中挖掘气象历史规律,有效地存储、处理气象大数据已经成为急需解决的问题。现在,云计算技术可以为气象大数据服务提供技术支撑。

2 Openstack建设私有云

OpenStack是由美国国家航空航天局和Rackspace合作研发的,以Apache许可证授权,并且是一个自由软件和开放源代码项目,它是一个云平台管理的项目。部署OpenStack主要有三个核心开源项目,Nova(计算)、Swift(对象存储)和Glance(VM存储库)。Nova提供了跨服务器网络的VM实例的管理,它的应用程序编程接口(API)为未知物理硬件和系统管理程序提供了一种计算编排方法。Swift项目可通过配置了普通硬盘的标准服务器提供可伸缩的冗余存储集群,可用于主要是静态数据的长期存储。Glance为Nova能够使用虚拟磁盘映像提供了一个存储库,提供了一个API来注册磁盘映像,还提供了磁盘映像校验和、版本控制(和其他元数据)以及虚拟磁盘验证和审计/调试日志.

目前全国七个空管局的气象中心信息室之间网络连接,数据共享。用于报文和气象产品分发的通信机为类linux系统(AIX或者linux),本文构想七个空管局气象中心用openstack搭建一个私有云。服务器、网络、存储的虚拟化,不但合理使用了各局之间的硬件,而且实现了数据的异地备份,节点的添加和去除也很方便。

该云计算数据中心整合了存储系统、刀片服务器以及小型机等,通过虚拟化、自动化、虚拟存储等技术将气象数据处理业务系统集成统一管理,构建了统一架构的应用服务平台,针对各种应用的维护、管理、升级均在服务器端实现,减少各地区管理员的维护和日常工作任务。云计算数据中心的用户交互接口以Web方式向用户提供。首先是针对物理资源虚拟化,虚拟化机制将具体的物理计算特性加以封装隐藏,对外提供统一逻辑接口,从而屏蔽物理设备多样性带来的差异,实现了服务器虚拟化、存储虚拟化、网络虚拟化.目录服务是用户可以访问的服务清单,监控统计用于监控用户申请资源的运行情况,进行用户使用节点情况的统计。用户端在原有较低资源配置情况下实现远程高强度计算和大存储容量的工作。这种模式可以很好地解决当前空管局气象中心信息室的资源难共享、数据不一致等问题,提升资源的利用率,当然也可以在一个中心单独部署,方便管理和维护所有应用。

3 用Hadoop挖掘气象数据

3.1 MapReduce处理技术

搭建云计算数据中心实现服务器虚拟化、存储虚拟化、网络虚拟化,方便了系统管理,也为hadoop云计算软件的工作提供了基础。Hadoop包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项。

MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性,每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔,主节点记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的不可分割操作以确保不会发生并行线程间的冲突;当文件被改名的时候,系统可能会把他们复制到任务名以外的另一个名字上去。如图1所示。

(1)与传统的计算方法相比,基于mapreduce模型编写整编算法的优越性主要体现在以下几个方面:mapreduce计算模型是分布式的,它充分利用了多个节点的计算能力和 I/O带宽,将原本集中在一台单机上依靠顺序运行的算法改为可以并行运行,使得在较短时间内最大程度利用了现有空闲资源。

(2)map和reduce之间的中间结果不需要程序干预平台,本身会将所有map輸出的结果进行处理,省去用户程序中对大量中间结果的存储和处理,简化用户程序逻辑。

(3)mapreduce 计算模型下任务运行更灵活。由于计算任务本身无需对数据源范围进行框定,所以可在不修改任务界面和程序的情况下,完成对不同时间段历史资料整编值的计算。

3.2 气象数据挖掘

数据挖掘是气象数据处理的重要组成部分,从已知数据集中发现各种模型和概要的过程,其实数据挖掘是一个循环反复的过程,首先利用一些分析工具对数据进行检查,从某一个方面对数据进行分析,可能对数据做一些修改,然后又回到开始,应用其他的分析工具,获得一个不一样的或者更好的结果。尽管如此,数据挖掘不是分析方法的随意应用,而是精心安排和摄入考虑,决定什么才是最有用、最合适的一个过程。数据挖掘的过程可简要归纳为:问题定义、数据清洗与集成、数据选择与转换、数据挖掘算法执行、以及结果的评估与表示。

目前,气象数据挖掘的方法主要有聚类分析、分类分析、时间序列分析、关联规则及孤立点分析、回归分析、依赖关系分析等,目前,有人采用聚类方法对气温数据进行处理,得到了很好的气候区划结果,还有人采用粗糙集方法对台风路径进行预测。

3.3 实例

本文设计了一套测试方案,包括云平台集群构成、系统环境参数、并行任务、数据自身存储结构等。通过修改平台本身各项参数配置以及测试数据存储形式,分析云计算平台中map-reduce计算模型运算时效的各种因子,目前新疆空管局信息中心数值预报系统为4台linux并行,本文模拟该环境,虚拟化出4个系统,每个系统配置相同,系统版本为linux的一个分支CentOS 7,主节点配置IP地址为:192.168.2.1,其他3个分节点配置IP为192.168.2.2,192.168.2.3,192.168.2.4.

测试使用了MM5的计算,根据计算测试,比较和分析传统计算模型与mapreduce模型的计算时效量级。云平台的管理上更便捷,云计算平台的计算能力和运行时效与云平台集群构成、系统环境参数、并行任务、数据自身存储结构以及服务器性能、最大并行任务数、单个任务计算量、平台稳定性等诸多因素有关,在其他参数不变的情况下,任意两参数之间也并不是简单的线性关系。

hadoop在任务调度时,任务初始化时间和寻址时间在任务整体运行时间的比例是决定任务时效能否提高的重要标准。由于基于传统小文件方式运行的任务初始化时间和寻址时间占总体任务的很大一部分,所以可优化空间较大。

4 小结

目前空管局气象中心的数值预报的并行预算,节点管理麻烦,存储管理相对云平台也不可靠,使用openstack搭建空管局气象中心的私有云,在现有基础上将民航气象中心及全国七个地区民航气象中心构成为八个大型航空气象计算和存储中心,该云中心拥有十到百万亿次计算能力和TB到PB级产模式。服务器、存储、网络均虚拟化,不但简便了管理,降低运营成本,减少故障率,更是在此基础上搭建hadoop的云计算,数据挖掘历史数据。MapReduce分布式处理技术可以有助于气象大数据的处理与分析。本文设计的云环境下的气象大数据服务框架为气象行业大数据服务奠定基础,提供了一个技术参照。云环境下气象大数据的服务与应用可以加速气象行业信息化进程、加快各地区空管局气象部门信息共享、完善异地灾难备份方案。云平台的适当应用能解决现有气象业务中一部分科学计算任务面临的问题,所以探索和开展基于云计算平台的通用大数据量科学计算的适用性和可行性是有意义的。

参考文献

[1]彭九慧,丁力,杨庆红.几种降水集成预报方法的对比分析[J].气象科技,2008,36(05):520-523.

[2]朱珠.基于 hadoop 的海量数据处理模型研究和应用[M].北京:北京邮电大学,2008:7-20.

[4]万至臻.基于mapreduce模型的并行计算平台的设计与实现[M].杭州:浙江大学,2008:17-21

[5]张强,熊安元,张金艳等.晴雨(雪)和气温预报评分方法的初步研究[J].应用气象学报,2009,20(06):692-698.

[6]金之雁,颜宏.数值天气预报并行计算模式的设计与可行性讨论[J].应用气象学报,1993,4(01):117-121.

[7]沈文海.从云计算看气象部門未来的信息化趋势[J].气象科技进展,2012,1(02):49-56.

作者单位

民航新疆空中交通管理局气象中心信息室 新疆维吾尔自治区乌鲁木齐市 830001

猜你喜欢

私有云云计算
虚拟网络建设思考与实现
实验云:理论教学与实验教学深度融合的助推器