APP下载

气象综合业务实时监控系统的设计

2018-04-02孙超肖文名陈永涛曾乐张小缨

关键词:运维气象流程

孙超 肖文名 陈永涛 曾乐 张小缨

(1 国家气象信息中心,北京 100081;2 中国气象局预报与网络司,北京 100081)

0 引言

随着气象信息化、集约化、标准化进程的加速推进,建立统一数据环境、整合业务应用系统、建设集约共享的气象云等各项工作都在稳步推进和实施,气象业务信息化正由技术应用走向工作协同。但是,现有各业务系统监控系统仍然呈现信息孤岛现象,上下游监控信息没有共享,导致运维效率低,正制约着气象业务集约化健康发展,需根据业务监控和运维需求实施标准化与集约化整合与集中。因此,急需打通气象综合业务监控流程,实现业务集中监控、有机融合,构建开放的、全流程、一体化、可视化的气象综合业务实时监控系统,提高集约化后的气象业务运行质量与效率。

1 国内外监控系统分析

目前国内气象行业的业务监控系统,主要功能是实现对观测装备、系统资源、数据收集分发、核心业务运行状况的监视和运维,如全国综合气象信息共享系统业务监控系统(CIMISS-MCP)对数据收集、分发、处理、存储和共享进行综合监视和统计分析[1],综合气象观测系统运行监控平台(ASOM)[2]对天气雷达、国家级台站自动气象站、探空系统和风能等观测网的运行进行监控。

国外气象行业的监视系统也是主要围绕着数据传输网络、数据收集生成、数据质量、观测设备状态进行监控,如美国国家海洋和大气管理局(NOAA)建设了观测系统监控中心(OSMC)实时监测全球海洋观测系统的性能[3],欧洲中期天气预报中心(ECMWF)通过常规观测告警系统检测数据可用性和质量问题[4],美国国家环境预报中心(NCEP)的实时数据监测系统(RTDMS)主要监测数据的数量和时效性[5]。

随着气象信息化的快速推进,业务高度集约化的发展趋势对监控系统提出了更高的要求,现有监控系统在监控范围和技术框架上已经出现了明显的瓶颈。

1)没有实现全流程、一体化监控

气象业务现有监视系统都是独立开发和运维,监控系统分散且数量庞大,运行维护人力成本高。各监控系统仅监控全业务流程中的独立环节,无法实现跨业务部门的全业务流程集中监视,监视信息无法上下游共享,存在信息孤岛,无法实现面向全流程的业务监视和分析,造成业务故障定位困难,无法关联分析业务流程问题。

2)数据监控功能不足

现有监控系统普遍侧重于基础平台及应用进程监视,针对业务应用的数据完整性、质量及时效的监控功能缺乏,同时缺少主动运维管控功能。业界先进的信息系统运维普遍采用ITIL运维流程管理模式,通过流程化的运维管理工具进行信息系统的运维工作。

3)监控系统技术架构难以支撑高度集约化业务精细化监控要求

现有监控系统架构存在与业务系统“耦合过紧”的问题,监控系统故障影响业务系统性能的情况时有发生。而且现有监控系统采用传统的集中式技术架构,面对精细化的监控需求,日益增长的海量监视数据,现有技术架构的处理、存储和服务能力严重不足。

在电力等其他行业中,对于一体化监控的研究成为热点和趋势,如赵世龙探讨了电力企业信息系统性能一体化监控管理模式[6];谭军通过对国家电网公司一体化监控系统的设计,实现了对数据中心内各个智能化系统,包括环境监控、安防、消防、BA、电力系统监控、RFID 资产管理、MMT 气流与热场管理等子系统的统一监控管理[7]。

因此,业务监控系统分散运维,正制约着气象业务集约化健康发展,需根据业务监控和运维需求实施标准化与集约化整合与集中。气象综合业务实时监控系统的设计也应面向业务系统、数据、基础设施资源提供一体化的实时运行监视。

2 系统设计

2.1 系统设计思路

德国工业4.0强调企业信息系统的一体化,所追求的就是在整体业务范畴内实现所有环节信息的无缝链接,即所谓“纵横一体化”,是所有智能化的基础[8]。气象综合业务实时监控系统设计定位于对观测、信息、预报预测、公共服务及政务管理的“全流程、一体化、可视化”监控,按照“横向集中、下沉一级、综合监控”的原则,建立横纵一体化的气象综合业务全流程监控,实现“两横两纵”(图1)。横向整合气象核心业务系统运行监控,整合数据从采集、传输、处理、存储到服务的全流程监控;纵向实现对支撑气象业务的基础设施、场地环境全面监控,实现对全国省级数据中心的集中监视。

图1 横纵一体化监控设计Fig. 1 Design of the integrated monitoring

实现气象综合业务横纵一体化监控,需打通气象业务流程、数据流程的各环节,实现信息融合与共享,有助于全面掌握气象综合业务的运行状态,实现故障的快速定位和解决,促进流程优化,并通过海量监视信息的挖掘分析,为气象现代业务发展提供科学依据。

2.2 系统技术架构

气象综合业务实时监控系统软件总体框架由接口层、存储层、处理层、服务层组成(图2)。

监视源:包括观测系统、基础设施资源、数据全流程、业务应用系统、信息安全设施五类被监视源。

接口层:根据规范的接口协议,与外部系统进行对接,采用“推”“拉”两种方式支持各业务系统监视信息的主动推送和被动采集,并实现控制指令的自动推送。

存储层:采用大数据技术,实现监控信息的实时缓存、实时指标的高效存储访问和历史日志的永久在线存储。

处理层:采用流式计算、分布式处理技术,实现指标计算、告警处理、挖掘分析。

服务层:基于生成的监视指标和监视视图,在运维平台、展示大屏幕上实现一体化、多维度、由面到点逐级深入的监视展示,实现告警集中发布及运维管理,提供业务报表及监视信息分析服务,实现精细化的资源和运维服务统计或计费服务。

用户层:包括业务运维人员、业务管理人员、参观来宾等三类用户。

图2 系统技术架构Fig. 2 System technology architecture

3 主要功能

监控系统主要功能围绕监视信息的全生命周期,从监视信息汇聚、分析到可视化监视、集中告警、运维管理、运营服务。监控系统能从不同业务视角综合监控业务的实时运行状态,根据业务监控需求进行指标的多维统计分析、业务影响分析等处理,生成监控系统的多级别、多维度综合性指标、超阈值监测指标和关联分析视图;根据业务决策需求,对实时、历史监视信息进行数据挖掘,提供业务和流程的分析评估管理视图。同时,监控系统具备集中告警和运维管理功能,具备与业务系统对接,并接入省级数据中心监视指标,实现全国集中监视。

1)监视信息汇聚

根据规范的监控信息采集标准协议,采集来自气象数据全流程、观测系统、气象业务应用系统、基础设施资源、场地环境、信息安全系统的运行状态、性能指标、日志、异常等监视信息;对分散的、异构的监视信息进行标准化处理,并存储到监控信息数据库中统一管理。不同形式的监视数据的采集方式如表1所示。

表1 监视信息分类及采集方式Table 1 Collection and classification methods of monitoring information

2)监视信息处理

根据气象业务的监视逻辑对收集的监视信息进行集中处理分析,生成软硬件层面、数据层面、业务运行层面、信息安全层面的监视指标(表2),反映业务系统的运行状态,分析基础设施资源的容量和瓶颈,发现业务和系统的运行问题,对故障进行关联分析。

3)综合监视

利用图形图表、仪表盘、三维立体展示、实时视频等多种可视化技术,通过不同的维度和业务视角,灵活、按需的对国省两级数据中心的监控信息进行综合展示。实时监视综合观测、信息基础设施资源、数据流程、业务应用系统、信息安全各个方面的运行状态,全面展示气象业务流程串接的国家级及各省业务系统的核心监视指标。

对各类资源和业务系统的异常状态进行告警集中发布,实现告警的压缩、归并、显示、提醒和管理,支持页面显示、声音、短信等多种告警通知方式,能实现从告警到运维派单的联动,支持基于手机等移动设备的告警分类发布。

表2 监控指标数据分类Table 2 Classification of monitoring index data

4)在线管控

实现基于数据完整性驱动的自动业务调度管理,实现基于人机交互的业务调度和控制;扩展自动化运维场景,支持脚本或可视化的业务编排管理,支持裸机安装、自动巡检、软件部署、文件清理等业务资源管理。

5)运维管理

基于配置建模、发现、维护,形成统一可信的配置管理数据库,实现对各类资源对象配置信息的生命周期管理;实现运维流程ITIL事件管理、问题管理、变更发布管理、知识库等管理;实现日常运维操作的服务封装,通过业务场景编排建立一定自动化运维能力。

6)统计分析

基于实时和历史监视信息,具备数据挖掘及统计分析功能。根据业务要求,统计分析自动生成各类业务运行报表;根据业务决策需要,提供任意时段、任意维度的监视信息检索、统计分析及可视化展示功能;根据其他业务系统需要,提供监视信息服务接口,实现监视信息实时获取。

7)运营服务

通过统一入口受理用户的服务请求,实现对用户计算资源、存储资源、网络资源的弹性按需分配,实现资源和服务的计费,对运维服务进行多维分析,通过服务清单支持精细化的资源和运维服务。

资源计费的实现需要资源池管理平台提供的计算资源、存储资源、网络资源分配数据、资源所属业务系统和单位的资源配置数据,然后根据计费规则来统计计算;运维服务统计主要基于运维流程工单数据来进行统计分析。

4 关键技术

1)“松耦合”的技术架构

为解决现有监控系统与业务系统“耦合过紧”影响业务系统性能的问题,本系统建设采用“松耦合”的技术架构。监控系统与业务系统的数据库物理分离,不会产生数据库性能的互相影响;监视信息入库通过监控系统提供的接口推送或者主动获取,从而降低业务系统直接向监控系统数据库插入监视信息造成的入库延迟对业务系统的性能影响(图3)。

图3 “松耦合”的技术架构Fig. 3 Loosely coupled technical architecture

2)“开放”的系统框架

为实现与气象综合业务的对接,监控系统须具备开放的系统框架,具备与现有业务系统及新建业务系统的集成对接能力。对接的核心是提供规范化的监视信息采集和控制接口、以及能支撑各种类型监视信息接入、处理、存储及可视化显示的系统框架,以实现系统对接的敏捷扩充(图4)。

图4 “开放”的系统框架Fig. 4 Open system framework

3)采用“大数据”技术的技术平台

现有监控系统采用的是传统的IOE架构(Intel、Oracle、Emc),面临快速增长的海量监控数据和复杂的监控功能,IOE架构已疲于应付。为适应业务高度集约化背景下对系统监控在性能和扩展性方面提出的更高挑战,气象综合业务实时监控系统的建设将采用云计算、大数据等新一代IT技术,具体技术平台及应用设计见表3。

表3 技术平台及应用设计Table 3 Technology platform and application design

5 结语

为落实中国气象局“发展智慧气象”“全面推进气象现代化”的工作部署,国家气象信息中心正在深入打造气象大数据中心。建立集中管理的气象综合业务实时监控系统,将有利于:(1)集中展示气象大数据中心能力,监控其实时运行状态,保障大集中模式下气象业务、服务、管理系统稳定运行;(2)提升智慧气象时代下大数据中心[9]的运维能力,实现从被动运维阶段到主动运维、服务导向阶段的转型;(3)通过一体化监控设计,实现业务信息及业务流程的融合监控,基于海量监控信息挖掘分析业务流程的问题,促进业务流程优化,进一步推动气象业务现代化、综合化、集约化发展。

为实现一体化监控,在气象综合业务实时监控系统的建设过程中,重点是实现与各业务系统的对接,实时采集业务系统运行状态信息,与上下游业务流程实现自动关联,实现业务系统故障或问题的快速定位及解决。同时,逐步实现基于数据完整性驱动的自动业务调度管理、基于作业运行驱动的自动资源调度管理,实现业务在线管控,进一步提高系统运行及运维管理的自动化、智能化水平。

[1]熊安元, 赵芳, 王颖, 等. 全国综合气象信息共享系统的设计与实现. 应用气象学报, 2015, 26(4): 500-512.

[2]李峰, 秦世广, 周薇, 等. 综合气象观测运行监控业务及系统升级设计. 气象科技, 2014, 42(4): 539-544.

[3]Bouchard R, Kern K, Hankin S, et al. Observing system monitoring center. IUGG XXV General Assembly. 2011.

[4]Dahoui M, Isaksen L, Bormann N. Monitoring for conventional observation systems at ECMWF. Observation monitoring meeting, 2013.

[5]Kumar K V, Ballish B, Stoudt, J. Real time data monitoring at NCEP.22nd International Conference on Interactive Information Processing Systems for Meteorology, Oceanography, and Hydrology, 2006.

[6]赵世龙, 李姝文, 胡欣. 探讨电力企业信息系统性能一体化监控管理模式. 信息化建设, 2016(1): 208-211.

[7]谭军, 王文亮. 国家电网数据中心一体化监控系统的部署实施. 电力信息化, 2011(10): 93-97.

[8]沈文海. “智慧气象”内涵及特征分析. 中国信息化, 2015(1):80-91.

[9]沈文海. 向气象数据中心演进. 气象科技进展, 2012, 2(4): 53-57.

猜你喜欢

运维气象流程
气象树
高速公路智能运维平台
吃水果有套“清洗流程”
《内蒙古气象》征稿简则
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
违反流程 致命误判
大国气象
美丽的气象奇观
四川省高考志愿填报流程简图
配电线路的运维管理探讨