APP下载

基于ITSM的铁路局级应用监控管理平台研究

2015-07-27梁多姿上海铁路局信息化处

上海铁道增刊 2015年2期
关键词:中间件运维流程

梁多姿 上海铁路局信息化处

随着信息化进程的大幅度加快,铁路的信息化建设取得了前所未有的成就。铁路应用系统不仅涉及铁路运输生产、经营、服务等多个领域,还深入到办公、财务、计划、统计、人事、劳资等各个方面。业务与信息技术的紧密结合,迫使各应用系统由原来的单一独立逐步迈向多元化、层次化,应用系统运维工作亦日益变得复杂,对安全、稳定、高效运行的需求也在大幅提升。

ITSM(即IT服务管理)是IT系统的规划、建设和运行维护业务中涉及的一系列方法、流程和经验的总和,其目标是实现IT服务的规范化、流程化、电子化和自动化,降低IT运维成本,提高客户满意度和服务水平。目前主流的IT服务领域相关标准有 ITIL,ISO 20000,COBIT等,其中应用最为广泛的就是被称为ITSM最佳经验集的ITIL。

目前铁路的ITSM系统仅处于对硬件设施管理的初级阶段,建立基于ITSM理念的自动化、智能化的应用系统监控管理平台对提升应用系统运维管理质量,为铁路局级运输生产核心应用系统群平稳运行和可靠应用提供有效的管理和技术保障。

1 铁路局级应用系统运维现状

1.1 人工运维管理为主,整体效率较低

铁路局级应用系统主要包括:客票发售和预订系统(PMIS)、铁路运输管理信息系统(TMIS)、运输调度信息系统(TDMS)、车号自动识别系统(ATIS)、电子商务系统、办公自动化系统(OMIS)及其他生产、管理信息系统。上述系统涉及了大量的硬件、网络设备以及应用相关的虚拟化系统、操作系统、数据库、中间件、应用软件等。路局信息技术部门在日常的运维管理中以人工方式为主,整体运维效率较低。

铁路局级应用系统架构复杂,且信息技术人员水平参差不齐,对系统业务理解能力各有不同,各种故障难以避免,此外各个系统均存在着各类隐患,采用人工监控的方式存在监控不及时、不到位、反应慢的问题。

1.2 缺乏标准的运维管理服务体系

目前铁路局还没有建立局级应用系统运维标准服务体系,运维质量和水平整体偏低。信息技术人员解决问题时基本依靠个人习惯解决,缺乏依据缺乏协作;现今各业务系统故障处理知识非常分散,很多技术知识和经验的积累基本依赖个人,缺乏一套全面的知识管理体系,运维经验和技术无法在应用系统维护部门中进行有效的流通、共享和传承,一旦出现人员更替或者流失,就很可能影响故障的处理。

2 应用监控管理平台方案

2.1 平台总体架构

应用监控管理系统是基于ITSM最佳实践流程ITIL建立的,具有综合应用监控和管理能力的平台,包括功能模块化和底层数据的互通性两大特征。各个流程模块可以逐步的构建,顶层的访问和底层的数据共享都有平台统一化的服务实现,这样确保流程信息的共享以及使用的一致性。系统架构如图1所示。

图1 系统架构图

整个运维管理平台在逻辑上分为四个层次,分别是:门户(前端用户访问层)、服务平台(ITIL最佳实践流程)、服务基础架构(流程引擎及相关基础设施)和外围接口(与服务台系统相关的所有外围系统和应用)。通过采用这种分层的架构模式,大大降低了各层次间的耦合程度,提供了系统的可用性和可扩展性,为企业实现一种高可用、高稳定性的平台提供了保障。

鉴于铁路局TMIS综合网与客票网物理隔离的现状,在现有的条件下无法解决网络问题,需在两个专网下各建一套系统,系统间通过客票接口网闸(网闸中只提供FTP服务)实现数据传输,最终可在TMIS综合网内展示全系统监控报表等,网络拓扑图如图2所示。

图2 网络拓扑图

2.2 应用监控主要对象

目前主要的铁路局级应用系统主要包括系统软件(虚拟化系统、操作系统等)、数据库软件、中间件、应用软件等。虚拟化系统监控。通过监控平台,可以自动发现当前平台下所有虚拟化主机和对应虚拟机;监控虚拟化集群、资源池、虚拟主机,存储I/O,网络流量等相关重要虚拟化资源的运行情况。

数据库监控。铁路客票系统数据库以SYBASE ASE为主,包含12.5、15.0、15.7三个版本,其他系统以Oracle 9i、Oracle10g、Sql Server为主。监控平台可为这些数据库提供实时且不间断的监控,包括连接数,锁、CPU、内存、I/O等资源使用情况,并可自动发现环境,在监测到潜在的问题或错误时发生警告和警报。

中间件监控。监控平台对现有环境中的主流中间件WebSphere/Jboss/A-pache/MQ等实现监控。中间件管理主要是对中间件的关键运营活动和事件进行监控和管理,保证中间件系统的高可用性。

应用交易监控。监控平台可提供直观有效的方式展现应用系统的运行状况。应用交易监控能完美覆盖客票、调度、货票、电子商务等主要业务系统的业务流程监控,均可采用应用交易监控实现实时直观的监控体验,能帮助应用开发部门第一时间定位到核心问题所在,从而从整体上降低应用程序故障时间。

2.3 应用监控模型

应用监控平台将可以提供“自学习的动态基线和阈值”和“基于趋势的主动报警”以及“仿真核心业务流程监控”三种方式相结合的全方位监控模型。

“自学习的动态基线和阈值”可以通过自学习产生的推荐阈值为手工设定提供参考;支持告警触发自动操作功能,系统可以根据告警的类型和告警级别自动触发脚本级的自动化操作功能,能够实现为现有平台提供高智能和基于策略自动化的监控管理;有数据表明,40%以上的告警可以通过自动化脚本在第一时间自动解决,无需人工介入,更好地提高了整个平台的可用性。

“基于趋势的主动报警”简称趋势报警,系统可自动分析历史运行数据,分析系统资源的使用趋势,在系统资源达到阈值之前主动报警,确保系统管理员有足够的时间调整资源配置,防范问题与未然,该报警方式能对服务级别协议(SLA)产生直接的积极影响。通过有效专业的参数配置,能将资源瓶颈产生的故障报警降低80%以上。

“仿真核心业务流程监控”是应用交易层面的监控,系统将定期执行已录制的模拟访问脚本,通过网络抓包的方式从应用接入点获取并分析数据,以实现面向用户真实会话的性能及可用性监控,从使用者的角度测试系统应用是否运行正常,并能够非常精确地将出错的步骤第一时间反馈给系统管理员。对于提高应用访问的可用性,降低系统排错时间,降低平台故障时间有显著的效果。

2.4 管理平台主要功能

管理平台主要实现应用系统运维事件分析,实时告警管理等功能,该平台将事件分析汇聚监控到的各类信息,并进行整合加工,将需要管理员关注的信息提示出来,并帮助管理员进行相关故障的定位。

事件管理。事件管理流程的主要功能是尽快解决影响应用系统正常运行的事件,通过有效的事件严重级别分类,为不同级别设置不同的响应机制,有效降低平均故障解决事件(MTTR),保持业务支撑系统的稳定性。

问题管理。问题管理流程的根本目的是通过对于常见问题的不断追踪,从系统,应用,网络等各方面不断排查,从根本上消除或减少生产环境中事件发生的数量和严重程度,从而为企业建立一个稳定的IT环境,提高IT服务的可用性。

知识库管理。通过对知识库维护和使用,不仅可以在故障自动处理和人工处理的过程中在知识库中得到相关故障维护的分类和快速定位,而且知识库具有的业务帮助功能,使相关人员可以通过关键字查询业务帮助、产品、市场活动、发生过的处理流程、电子文档等,从而快速定位问题,解决问题,降低故障处理时间。

配置管理。为了使得监控、流程以及自动化操作的运行有序,确保维护人员看到的信息是真实可靠更新的,而不是基于个人经验的,构建统一的配置管理数据库和配置管理系统有助于整个IT系统更加稳健,管理更加有序。

3 效果分析

3.1 自动化和智能化手段提高运维管理效率

通过自动化手段覆盖主流IT环境(系统、数据库、应用、中间件、存储、网络等)IT对象性能及故障事件采集、整合“自学习的动态基线和阈值”和“基于趋势的主动报警”以及“仿真核心业务流程监控”三种监控方式,涵盖阈值的故障报警、事件过滤、事件压缩、事件关联、问题场景自动捕捉,问题根源分析,提供多种报警手段提高运维管理效率。

3.2 引入标准服务体系提供高水平的服务保证

实施应用综合管理监控系统之后,IT支持人员可以管理整个服务流程,从定义和监控依从性到收集并分析性能数据、找出问题区域以及持续改善所提供的服务。通过实时的前瞻性管理,确保满足或超出客户的期望值。因此,通过实施本系统,可以紧密调和所提供的 IT服务与业务要求,并持续改善服务质量。

3.3 通过有效的资源分析和优化减少基础硬件的投资

通过基于趋势的监控方式,通过对于历史信息的智能化动态分析,能通过专业报表的方式将未来一段时间的资源需求呈献给系统管理员参考,为软硬件投资提供坚实的量化的技术参考依据,从而优化基础设施的投资,避免不必要的资源浪费。

4 结束语

应用系统监控管理平台应用系统监控管理平台是基于ITSM最佳经验集ITIL建立的综合监控管理平台,它能够提供丰富的智能化手段跨系统、跨平台的及时发现应用系统问题,提升响应时间;能够从业务优先级出发优先解决对业务影响较大的应用系统故障,降低故障影响;通过自动化的处理脚本,降低人工介入,进一步降低故障处理时间;通过统一的门户平台提升应用系统运维管理的便捷性。由此可见,应用系统监控管理平台的应用对铁路应用系统运维工作质量提升具有很好的实用性。

[1]北京神州泰岳软件股份有限公司.中国IT服务管理指导规范研究[M].北京:北京邮电大学出版社,2008.

[2]胡波,詹瑾.浅析IT服务管理系统的构建[J].广东技术师范学院学报,2007(10).

[3]陆雪峰.基于ITIL的证券公司ITSM系统设计与实现[D];复旦大学,2010.

猜你喜欢

中间件运维流程
吃水果有套“清洗流程”
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
RFID中间件技术及其应用研究
违反流程 致命误判
基于Android 平台的OSGi 架构中间件的研究与应用
杂乱无章的光伏运维 百亿市场如何成长
本刊审稿流程
析OGSA-DAI工作流程
基于ITIL的运维管理创新实践浅析