APP下载

基于信息技术基础架构库(ITIL)的气象信息业务统一运维体系的建设与发展

2018-04-02贺俊彦刘然刘红梅

关键词:信息中心运维气象

■ 贺俊彦 刘然 刘红梅

长期以来,国内气象IT维护管理缺少统一的规范,多以传统分散运维管理为主。国家气象信息中心参考信息技术基础架构库(ITIL)理论知识,结合气象业务特点,自2014年开始着手于统一运维体系的建设,并于2015年6月起正式在运维工作中启用运维流程管理平台,有力支撑起气象信息业务运维工作。

信息技术基础架构库(Information Technology Infrastructure Library,ITIL),由英国中央计算机与电信管理部门(CCTA)在20世纪80年代末制订,主要适用于IT服务管理,形成一系列基于流程的方法,为IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。ITIL目的在于如何获得高质量、低成本的信息服务,使所交付的服务能够更好地符合组织机构的需求以及用户的利益。受惠于国际上许多大型IT企业和政府部门的不断采用和丰富,ITIL飞速成长,最终发展成为国际公认的流程管理最佳实践。

从1989年正式发布第一版ITIL以来,经历了V1、V2和V3三个主要的版本,第一个版本是原始版,主要基于职能型实践;第二版主要是基于流程型的实践,在V2框架中,服务管理模块处于核心位置,该模块包含了10个核心流程以及一项服务管理职能。

ITIL V3 是2007年发布的,其架构核心是引入了服务生命周期,改变以往各模块之间相互割裂、独立实施的状况(图1)。通过PDCA(plan–do–check–act或者plan–do–check–adjust)模型,可以不断地循环改进,从而保持ITIL的生命活力。通过服务战略、服务设计、服务转换、服务运营、持续服务改进等先后顺序来实施,IT 服务管理的实施过程被有机整合为一个良性循环的整体。

图1 ITIL V3服务生命周期示意图

ITIL V3服务生命周期中服务战略是生命周期运转的轴心,服务设计、服务转换和服务运营是实施阶段,服务持续改进则在于对服务的定位和基于战略目标对有关的服务进行优化改进。

1 现状分析

1.1 国外ITIL应用现状

随着全球IT服务管理市场的快速增长与逐渐成熟,经过20多年的发展、积累,欧美国家、特别是英国、美国和荷兰等国家的IT服务市场已经比较成熟。目前,全球1万多家在各行业处于领先地位的著名企业给我们带来了众多实施ITIL的成功案例。IBM、HP、Microsoft、CA 、BMC、ASG等著名跨国公司作为ITIL的积极倡导者,基于ITIL分别推出了IT服务管理的软件和实施方案,通过实施ITIL大大改进了机构IT服务的质量,促进了IT与业务的融合。

1.2 国内ITIL应用现状

随着近年来我国IT技术的飞速发展,我国政府、企事业单位在网络建设规模和信息化水平方面已经有了质的提高,IT 运维工作也呈现出运维需求多样化、运维对象复杂化、运维模式集中化、运维队伍专业化、运维工作流程化、运维手段系统化几个新特点。

从2002年开始,IT服务管理和ITIL的概念开始被提及,经过几年的市场培育,这些概念逐渐被一些IT管理成熟度较高的机构所接受,并且规模保持着每年22.4%的高速增长。但是我国的各个行业在信息化发展水平方面有着巨大的差距,电信及其运营商、金融、国家部委等机构的信息化程度相对较高,IT运维管理也考虑得较早,已探索出适应自身发展的流程化的运维管理体系来提升管理效率。

1.3 国内气象信息业务运维现状

依附于互联网的高速发展,气象业务信息系统逐渐扩张,需要运行维护的业务系统繁多,各业务系统间缺乏统一的标准是建立集监、管、控为一体的综合运维管理平台的最大障碍。面对新的形势,各级气象信息中心充分认识到传统IT管理的弊端,近年来已有部分省份开始关注ITIL体系,针对运维中面临的日益凸显的风险,急需建立运维管理体系,使运维工作更加科学化、规范化和专业化。因此,如何借鉴国内外成熟的IT服务管理经验,利用信息技术,实现集监、管、控为一体的综合运维管理平台,从而提高气象信息业务的服务质量、降低运维服务成本、提高用户的服务满意度,成为气象运维管理领域新的研究焦点。

1.4 国家气象信息中心运维现状

气象业务信息系统的运维工作是国家气象信息中心的工作重心之一,也是信息中心核心价值的重点体现。气象数据和信息处理的集中给气象信息中心带来了挑战:一方面人员有限,另一方面,统一运维工作的集中又必然增加了成倍的工作量。这两方面形成的矛盾要求信息中心必须进行运维变革。

在气象信息化不断发展的过程中,国家气象信息中心也在不断探索,以业界 IT 服务管理标准为参考,以流程为导向的 IT 服务管理实践,旨在改变目前被动救火、主动服务能力弱的不利局面,力求找到一个较好的途径提高运维工作效率。对应ITIL服务流程,国家气象信息中心运维现状如表1所示。

表1 国家气象信息中心运维现状及问题

“救火员”式运维方式已无法满足迅速膨胀的运维需求。气象业务信息系统运维能力如何满足高实时性的气象业务面临着很多的挑战和困难,主要表现在以下几个方面。

1)高时效性的气象运维需求的挑战

面对高时效性的气象预报要求,迫切需要提供更好的客户服务能力、更快的需求响应故障恢复能力。

2)集约化运维管理的挑战

与气象业务现代化发展同步,提供清晰统一的运维服务目录。集人力、物力、财力进行统一配置,以节俭、约束、高效为价值取向,从而达到降低成本、高效管理,进而使气象信息化发展,获得可持续竞争的优势。

3)IT服务意识和支撑手段的欠缺的挑战

长期以来,气象信息业务运维常处于一个“被动救火”的角色,在主动服务的方面比较欠缺,往往需要等到故障发生后再进行处理。同时,由于气象业务的复杂性,不能主动发现系统中潜在的故障或风险,导致主动服务能力弱。

统一运维体系建设可分为三个阶段。阶段一:可视化,拨云见日,将气象信息系统状态可视化展示;阶段二:自动化,将运维人员从重复的工作中解放出来,将复杂的工作简单化,自动化;阶段三:智能化,实现气象信息系统隐患的预判,主动消除隐患。目前国家气象信息中心正处于向自动化敏捷运维发展的进程中。

2 统一运维体系建设

2.1 引入理念,定位目标

国家气象信息中心2014年开始引入ITIL理念,使信息中心每一个人从思想上发生转变,真正从用户的角度而不再是IT技术提供方的角度去做好运维工作。同时,通过与公司合作,引入专业运维咨询师团队。通过问卷调查、实地访谈和现场调研的方式在国家气象中心、国家气候中心等12家单位及运控室内部调研IT机房设备现状、IT运维常见问题。对信息中心服务模式需求、未来业务发展对IT资源需求等进行详细的分析,并对信息中心运维现状进行梳理和评估。

通过梳理业务现状,借助第三方咨询单位的协助,定位了自身问题,准确评估了国家气象信息中心服务管理现状和问题,为下一步制定切实可行的目标打下基础。

2.2 流程制定,规范先行

从自身业务需要出发,参考ITIL最佳实践,根据气象信息业务运维总体目标,制定规范化的与流程配套的管理制度。先后出台并完善了事件流程管理、变更流程管理等相关使用办法并出台配套《运维管理平台使用管理规定》,有力的支撑起气象信息业务运维工作,保障 IT 服务管理流程可以在生产环境中有效实施。

2.3 工具引入,落地流程

经过一年的酝酿,正式于2015年6月起在运维工作中启用运维流程管理平台,依托此平台相继完成事件流程管理、变更流程管理、问题流程管理、知识库的落地建设。

1)事件管理流程

事件管理流程是运维平台的核心功能,主要职责是管理运维平台的各类事件。

事件管理流程目标是争取在最短的时间内解决事件、恢复IT服务运作,尽量避免或减少事件对客户造成影响,将对气象业务的不利影响降低到最小,从而保证服务水平,提高客户满意度。事件管理流程保留事件的有效记录以便能够权衡并改进处理流程,给其他的服务管理流程提供合适的信息,以及正确报告进展情况。事件管理流程如图2所示。

图2 事件管理流程示意图

2)变更管理流程

变更管理流程模块作用是对IT基础架构实施可控的变更。此流程的目标是确定所需的变更,并决定这些变更如何在对气象信息系统产生最小的不利影响的范围内得以实施。同时变更管理可以确保变更是可追溯的,可记录信息中心各台室内协调过程。

在提交变更请求后,业务人员可以随时跟进监控其状态,与问题管理等流程进行协调。规范各气象信息业务系统变更操作流程。变更管理流程通过标准化的方法及步骤,来处理生产环境的变更,从而消除或最小化变更对系统的影响,同时提高日常的运维效率。变更管理流程如图3所示。

变更管理流程通过标准统一的方法、步骤来管理和控制所有对业务系统有影响的变更。结合国家气象信息中心业务维护管理的特点,规范变更类别定义如下:(1)紧急变更:指为应对紧急情况须快速审批和实施的变更;(2)标准变更:业务系统维护中需经常性、重复性开展,审批、执行过程基本固定的变更。在形成相应的标准变更预案后,标准变更执行过程可按照预案执行,无需审批。标准变更应在变更执行时间开始前2个工作日提出申请并完成审批;(3)非标准变更:除上述两类变更以外的变更为非标准变更。非标准变更应在变更执行时间开始前3个工作日提出申请并完成审批。

3)问题管理流程

对于频繁发生的、或不能解决根源的突发事件,使用问题管理流程来鉴别和解决问题的根源,预防其可能产生的干扰,而不是迅速恢复系统运行。

当问题被发现或提出后,通常需要进行一个业务决策,决定是否采取永久性措施改进系统架构,以预防再次发生新的突发事件。如果需要,提交一个变更请求来实现改进。

问题管理流程的核心是建立一个稳定的信息系统服务环境。主要包括三方面的工作:一是确认问题,从大量的事件报告中找出问题;二是找到导致问题的根源并解决;三是为解决某个问题,可能需要发起变更请求。

问题管理流程是在琐碎的服务请求与事件中发现影响服务质量的问题征兆,分析出问题的最终原因。问题管理流程的目的是使突发事件和问题对业务所造成的影响减少到最小,尽量避免相关错误的重复发生。

图3 变更管理流程示意图

4)知识库管理

知识库管理是日积月累形成的知识财富,可由事件管理流程等的解决方法直接生成入库。利用知识库对用户常见问题进行向导式的自服务式帮助提示,减轻运维人员工作量,提高运维工作效率。

目前知识库支持关键字搜索、组合条件查询、提交知识、审批知识、事件工单自动关联关键字检索知识结果等实用功能。

2016年通过国家级气象业务内网对省局开放了知识库权限,推动了CIMISS国省联动运维。打破“知识孤岛”,把知识变成双向共享,不同来源的知识经过有机的融合、沉淀、梳理、分类,形成知识库平台,提供集中展现、搜索、使用。运维知识的互联互通对提升业务运维效率、提高运维人员技能、建立公平竞争环境等的便利不言而喻。

2.4 搭建CMDB,丰富体系

随着气象信息业务系统的基础架构日趋复杂,引入配置管理库(CMDB)管理各业务系统配置及配置关系成为必然趋势。CMDB支持配置项多种发现和收集手段,可实现灵活的动态建模,根据IT架构分层,自由、灵活的定义和调整配置。由于气象信息业务配置变更较为频繁,在从不同采集源获取到相同的资源数据时,CMDB库将能够识别并合并,并与配置库中标准数据进行比对。若发生冲突,会通知管理员进行审核,避免出现重复或不一致的配置信息。

2017年信息中心首次引入CMDB库,并实现关键业务系统的基础信息录入管理,逐步实现对关键业务系统IT资源管理。并且为下一步实现对基础设施资源、应用系统等资源的配置信息生命周期管理,形成面向数据中心的配置管理库打下坚实基础,为机房管理提供统一、可信的配置数据应用支撑。

2.5 推广实施,持续改进

在流程落地后多次在国家气象信息中心内部对流程执行人员进行操作培训,使受训人员充分掌握流程的运行过程,明确了解在新的流程中如何进行操作,并积极配合流程实施推进工作。

此外,运维流程管理平台由专人负责定期对运行维护岗人员填写的值班日志、事件工单和知识库等信息进行检查,并根据填写情况酌情进行奖惩处理。

为了将体系中的流程设计更具体化,推动流程的落地,在推广流程管理实施的过程中听取各方意见和建议,不断改进流程设计,使流程更贴合气象信息业务。

从最常用和最迫切的事件管理、变更管理、问题管理流程实施入手,建立流程的应用场景、编制各流程场景说明文件。对流程中的活动结合场景进行具体描述,并对流程的异常情况处理进行描述。通过选取特定场景模拟目标流程在实际运行环境中运行,检验其可行性,并搜集相关数据,遵循PDCA戴明环,不断推进运维水平提升,对流程细节进行完善和持续改进。建立健全的运维服务支撑平台,变被动支撑为主动服务。

运维流程管理平台在国家气象信息中心连续运转近两年效果明显,业务系统运维管理效率显著提高。目前已累计通过运维流程管理平台发布23个月运维值班安排,发布业务通知227项,填写电子化交班记录1388次,记录并处理1045项事件管理工单,发起并完成128项变更管理工单,追踪记录问题管理工单5项,发布运维知识183条。

“工欲善其事,必先利其器”,ITIL理念的引入和落地,使国家气象信息中心过去沿用多年的纸质交班记录和业务通知逐步停止使用;使个人运维经验得以在整个运维团队内部共享;使故障处理全流程、业务变更全流程有记录、可追溯;使中心制订的各类运维相关流程规范得以固化和切实推行。国家气象信息中心逐步建立起统一运维体系,推动了运维质量和水平的提升。

3 统一运维体系建设展望

在IT系统生命周期中,系统建设的时间和成本只占相对小的一部分,而系统运行维护阶段占了整个时间和成本的主要部分,可以说信息系统是“三分建设、七分运维”,足见气象信息业务运维的重要性。

3.1 持续深化流程,建立健全标准

国家气象信息中心通过这两年对统一运维体系建设的探索,对IT 服务管理有了更深刻的认识和初步的应用。遵循 ITIL标准进行设计符合国内气象信息服务管理模式的运维管理体系,可以破解运行维护混乱的难题,实现运维服务流程化、运维操作标准化、处理结果知识化、工作效率可量化的目标。

与此同时,国家气象信息中心会持续完善运维服务管理体系相关标准的建立。相关运维流程欠缺或标准不统一,使得监控系统、流程管理平台与业务系统建设呈现分布式、异构性等特性。这直接影响了在构建统一运维体系时的建设。因此,完善标准也将是建立健全统一运维体系的重点工作之一。

3.2 深析运维数据,降低系统故障率

运维平台积累的数据对指导业务系统迭代升级有积极指导意义。从目前运维平台事件管理已积累的数据可分析现有业务系统故障出现频次,从而掌握各故障复现率和出现时间段。

例如,统计2016年6月—2017年10月部门间气象资料共享服务平台(下文简称“部际系统”)相关的事件,该时段与用户A数据传输故障出现30次,占总故障数的13.8%,尤其在5—9月(主汛期)故障出现率明显增多。通过对统计结果的分析发现:与用户A的数据传输积压问题在主汛期出现频率高达每月三次,由此引起大面积数据积压造成系统传输时效降低,影响用户使用情况频发。运维人员主动与用户A沟通解决问题,有效降低部际系统故障率。

分析运维数据也将是国家气象信息中心运维工作的重要方向之一。运维流程管理平台提供的数据,引导运维人员定位频发故障的原因、为系统优化提供依据,有效降低系统故障率,提升系统可靠性。

3.3 积累运维数据,推进智能化运维

国家气象信息中心借助基于大规模云监控的气象业务综合监控系统,将监控平台与运维流程管理平台相结合,实现监控与运维管理的联动。运维监视覆盖气象数据生成、传输、存储、服务和应用各个环节,汇聚各系统的自身状态信息和故障事件信息,自动报警提示;通过数据链质量管理,集成全信息流数据产品质量和运行情况监控与管理。

综合监控系统与CMDB、运维平台的联动,利用IT资源信息与积累的运维数据实现运维自动化、智能化将是国家气象信息中心建立统一运维体系智能化工作的难点。可靠的运维数据可以为监控系统提供处理故障的方案,实现常见故障的智能处理,减轻运维人员工作压力。

深入阅读

常威, 2012. IT服务管理专家ITIL. 现代商业银行, (12): 46-47.

董丽凤, 2005. 业务决定IT,还是IT决定业务? 中国经济和信息化,47: 53.

汤宁, 方斌, 王娟, 2012. 贵州省气象局实时业务管理及监控平台简介. 贵州气象, 36(4): 42-43.

郑国光, 2015. 以信息化推进气象现代化. 浙江气象, 36(2):1-4.

猜你喜欢

信息中心运维气象
气象树
高速公路智能运维平台
《内蒙古气象》征稿简则
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
欢迎订阅2019年《中国记者》
大国气象
世界经济主要指标
美丽的气象奇观
世界经济主要指标
配电线路的运维管理探讨