APP下载

农业应用系统运行监控浅析

2014-04-29田伟张燏

农学学报 2014年8期

田伟 张燏

摘 要:农业信息化建设不断深入,农业系统运维管理迎来新一阶段挑战。通过融入ITIL理念,从提前探知系统运行隐患、预防故障发生的角度对应用系统运维管理新模式进行了初步探索,提出了对IT资源的集中、统一、全面的监控和管理,引入了应用系统运行情况监控平台的建设思路,并介绍了监控平台建设实施的相关经验,为同行业系统运维工作者提供了借鉴和参考。

关键词:ITIL理念;应用系统运维;系统运行监控;监控平台

中图分类号:TP319 文献标志码:A 论文编号:2013-0888

Preliminary Research on the Monitoring Platform of Application Performance

Tian Wei, Zhang Yu

(Information Center of Ministry of Agriculture, Beijng 100125, China)

Abstract: With the deepening construction of agricultural information, agricultural systems operation and maintenance management meet challenge in a new phase. This article incorporated ITIL operation and maintenance management philosophy. From the perspective of ascertaining system operating hidden dangers in advance and preventing failure, it made a brand new operation and maintenance management mode, which complied the centralized, unified, comprehensive monitoring and management to IT resources. This article introduced the building ideas of the monitoring platform and told how to construct it, provided some reference for the system operation and maintenance industry.

Key words: ITIL Service Management; Application System Operation and Maintenance; Application Performance Monitoring; Monitoring Platform

0 引言

近年来,中国高度重视农业信息化发展,面向社会公众提供综合信息服务的国家农业数据中心初步建成,覆盖全国农业各行业的信息系统相继投入运行,农业应用系统规模逐渐庞大,系统复杂性逐步提高,作为应用系统的建设和运维职能部门,如何更合理的保障系统运维的规范性,提升系统运维效率,更有效的降低系统运维成本,这些问题值得深入探究。

1 ITIL运维与系统运行监控

应用系统管理职能部门如何保障系统运维规范性,提升运维效率,更有效的降低运维成本,这些问题值得深入思考。为满足高标准的农业应用系统运维体系建设要求,在充分调研、考察、分析和讨论的基础上,融合国际先进的ITIL标准规范,结合农业应用系统运维现状,提出基于ITIL运维理念的应用监控运维管理模式。

1.1 ITIL介绍

ITIL,Information Technology Infrastructure Library(信息技术基础架构库),是CCTA(英国国家计算机和电信局)于20世纪80年代末开发的一套IT服务管理标准库,它把英国各行业在IT管理方面的最佳实践归纳起来变成规范,旨在提高IT资源的利用率和服务质量[1]。目前已成为业界通用的标准。IT服务管理是ITIL框架的核心,它是一套流程(process),并通过服务级别协议(SLA)来保证IT服务的质量。它融合了系统管理、网络管理、系统开发管理等管理活动和变更管理、资产管理、问题管理等许多流程的理论和实践[2]。ITIL把IT管理活动归纳为7个模块,包括服务支持、服务提供、业务视野、基础设施管理、安全管理、应用管理以及规划实施服务管理[3]。

1.2 ITIL与系统运行监控

应用系统运行监控运维主要是指通过占用率、阀值、响应时间、连通性等技术指标对应用系统赖以运行的网络环境及设备(路由器、交换机、安全产品、服务器与PC等)、数据库资源、中间件等进行实时的监控和管理。应用系统运维管理融入ITIL理念,通过识别、控制、维护,检查应用系统的IT资源,高效控制与管理不断变化的IT基础架构与IT服务,使应用系统运维管理实现流程化、自动化和规范化,并为其他流程,例如事故管理、问题管理、变更管理、发布管理等流程提供准确的配置信息[4]。

采用ITIL运维理念实施,有助于提高运维效率,降低运维风险,逐步降低运维成本。在整个系统管理流程链中,应用运行监控能够更快确定需要改善的IT资源,帮助各IT運维职能部门明确业务需求,有助于各部门之间的良好衔接与理解,迅速解决用户的各种问题及满足业务用户需求,使得IT运维管理部门更主动地以解决方案为本,面向业务用户提供及时高效的系统运维管理服务[5]。

2 系统运行监控的必要性与可行性

2.1 必要性

伴随国家农业信息化发展战略的部署和实施,在农业部及其他有关部门、社会各界的大力支持下,信息化在农业现代化发展中取得显著成效,农业基础设施不断夯实,农业信息资源建设水平明显提高,农业信息服务体系逐步完善,信息技术在农业产业发展中的应用日渐深入[6]。国家金农工程一期建设项目[7]竣工验收,农业应用系统建设水平及规模大幅度提升,农业信息化业务要求逐年提高,系统管理和运维的任务更加艰巨。

电子政务系统运维管理通常由信息办或者信息中心来担任,这些信息化主管部门往往根据机构职能分为网络部、应用部、数据库部、信息安全部等部门,传统的维护模式中没有统一的事件汇总节点,而是根据事件的分类由各部门分别进行处理。这样的组织结构虽然在一定阶段一定程度上提高工作职能清晰度,但是随着电子政务工作的不断深入,各类服务涉及知识点也逐步深入,受到部门之间的沟通协调的牵制,往往会导致缺乏对问题的综合分析,或者由于事件类别不清晰出现推诿的现象。另一方面,根据以往运维管理经验看,往往是到了用户使用系统的这一环节才发现系统故障,但这是最后一道“通牒”,由于用户的工作任务常具有紧迫的时效要求,技术人员就像“救火队员”一般,时常在休息日或者深夜里协调各方面人员匆忙赶到机房,在紧要关头充分发挥技术知识能力甚至想象力,想尽各种措施紧急排查,与时间赛跑,尽力在最短时间里寻找故障根源,再实施处理措施。这种“高压扑救”的局面并不利于业务工作的有序进行以及应用系统的平稳运行,也不能提高技术运维人员的工作效率,反而使得运维工作状态狼狈不堪[8]。这就需要采用一种新的运维管理模式以解决当前运维工作中存在的问题。

2.2 可行性

应用系统的正常运转取决于其所在的服务器、操作系统及网络、数据库、中间件等基础环境的良好运行[9],经过对应用系统历次故障分析,系统不能正常运行多是源于其底层支撑资源(例如应用服务器、操作系统、网络环境、数据库、中间件等)运转出现了问题。如果对于这些支撑应用系统运行的底层资源采取实时监控,一旦发现问题隐患尽可能做到提前预警、及时解决,就有机会在影响业务系统正常运转之前将问题化解,从而改变紧急“扑救”的运维工作模式[10]。

针对应用系统资源环境进行监控管理的平台应具有良好的可扩展性,能够将下层网络和的复杂度有效的通过抽象屏蔽起来,向上层应用和运维流程开放稳定的接口[11]。系统运行监控管理平台从融合、开放的技术理念出发,提出了实时智能基础设施监控平台的建设思路,利用基于统一信息模型的融合抽象建模技术和自动发现技术,实现对全IP网络中各种应用系统基础设施的自动发现和资源化,统一信息模型,生成一个可管理、可重用的实时对象库,并通过实时事件和同步技术,保持与实际管理对象的一致性[12]。由于可以在统一的信息模型定义下针对多软、硬件厂商,多技术的基础设施进行抽象,从而为解决异构基础设施的融合难题奠定了关键的基础,解决了对应用系统基础环境的总体把握和全局了解的问题[13]。

3 系统运行监控实现

监控管理平台用于监控应用系统所在服务器(CPU、硬盘、操作系统等)、数据库、中间件等基础资源。平台服务器基本配置要求为Windows操作系统,8核以上CPU,8 G以上内存,500 G以上硬盘,浏览器IE 8版本。平台服务器与所有被监控设备网络相通,且所有的被管理资源对系统运行监控管理平台服务器开通相应的监控端口[14]。

3.1 服务器资源的监控

3.1.1 监控原理 监控应用系统所在服务器,主要是通过SNMPv1/v2(简单网络管理协议)实现,系统运行监控管理平台的DCS服务通过SNMP协议每5 min轮巡1次,以获取主机的CPU、内存、分区等详细信息,实现这种监测的前提是系统运行监控管理平台服务器与被监控主机的网络畅通,系统运行监控管理平台使用Ping命令每隔1 min自动监测主机的联通,且须主机SNMP协议开启161端口,配置团体字[15]。

3.1.2 监控指标及作用

(1)CPU利用率。服务器的CPU利用率作为服务器的核心必须能完全支撑业务的正常运行,在0%~85%范围内波动为正常,如果过高则CPU可能成为系统的处理瓶颈,系统运行监控管理平台默认的阈值大于75%黄色警告、大于90%红色警告,即CPU利用率大于75%系统会产生黄色告警,大于90%产生红色告警。

(2)内存利用率。内存的大小直接影响系统的运行速度,服务器至少要保持10%的物理剩余可用内存,如果该值一直较小说明服务器总的内存可能不足或某程序没有释放内存;系统运行监控管理平台默认的阈值为80%黄色警告、90%红色严重警告,及时提醒管理员处理以免影响服务器运行。

(3)分区利用率。硬盘的各分区的容量利用率,服务器的长时间运行存取删除数据会产生碎片,会致使利用率过大,造成读取数据变慢,影响系统运行;系统运行监控管理平台默认阈值85%黄色警告、95%红色严重警告,文件系统分区一般取值在85%左右,當利用率超过这个值时,提示管理员及时释放空间。

(4)Ping时延。Ping命令主要用于检测网络通与不通,时延越大说明网络越不通畅,网络优良:丢包率=0并且延迟小于10 ms,正常:丢包率小于2%或者时延<100 ms,不正常:丢包率大于2%或者时延大于100 ms,中断:丢包率为100%,系统运行监控管理平台默认阈值,黄色警告大于500 ms,红色严重大于1000 ms。当该值过大时会影响主机间的通信,提醒管理员及时处理保证设备间的正常通信。

(5)网络接口。网络接口为服务器收发数据的门户,其性能直接影响服务器的通信效率,系统运行监控管理平台主要通过监控带宽利用率(阈值黄色大于80%,红色大于90%)、接收利用率(阈值黄色大于80%,红色大于90%)、发送利用率(阈值黄色大于80%,红色大于90%)、接收速率(黄色大于800000 kbps,红色大于900000 kbps)、发送速率(黄色大于800000 kbps,红色大于900000 kbps)这5个指标来实现对网络接口的监控,每个指标过大就会影响服务器的通信。

3.2 数据库资源的监控

3.2.1 监控原理 对于SQL Server数据库,需在系统运行监控管理平台中配置数据库服务器的IP地址、administrator组用户的账户权限,且数据库主机启动WMI协议(用来取服务器的CPU、内存的值),数据库用户应是具有的服务器管理员权限的角色,保持监听端口可用,系统运行监控管理平台的DCS通过JDBC协议(数据库连接)每5 min轮巡1次,获取SQL Server CPU利用率、SQL Server内存利用率等指标以完成对数据库的监控。对于Oracle数据库,与SQL Server监控方式基本一样,也是通过JDBC协议实现监控,Oracle在UNIX、Linux等类Unix系统部署时使用SSH、Telnet协议监控,Windows平台用WMI协议,需要注意的是,数据库账户不能是sys用户,且数据库用户需要有connect, resource, select_catalog_role角色权限[14]。

3.2.2 监控指标及作用

(1)SQL Server CPU利用率。CPU性能直接影响到数据库的运行,通过对利用率的监控可直观及时了解数据库的运行是否存在CPU过小的瓶颈。系统运行监控管理平台默认的阈值:大于60%黄色警告,大于80%红色严重警告。提醒管理员及时调整物理资源或性能指标,以防影响业务的运转。

(2)SQL Server内存利用率。数据库的利用率关系到数据的存取删除速度,建议一般不超过70%,系统运行监控管理平台默认阈值:大于80%黄色警告,大于90%红色严重警告。

高速缓存命中率,指高速缓存命中次数和查找次数的比率,直接影响数据的存取速率,该指标是指所有Cache的命中率,该指标的值越高越好,如果该指标的值持续低于90%,就需要增加更多的内存。系统运行监控管理平台默认阈值:小于95%黄色警告,小于90%红色严重警告。

(3)PGA命中率。PGA即被一个进程私有使用的缓存区域,主要包含单个服务器进程或单个后台进程的数据和控制信息,命中率越高进程或数据处理的速度就越快,过慢致使进程运行缓慢数据处理缓慢。系统运行监控管理平台默认阈值:小于95%黄色警告,小于90%红色严重警告。

(4)当前会话数。可以理解为连接数据库的用户数,数据库在同一时间内承载的连接数是有限制的,回话过多增加资源消耗,严重会直接致使服务停止。系统运行监控管理平台默认阈值:大于200黄色警告,大于300红色严重警告。及时提醒管理员进行调整,预防服务停止。

(5)连接时间。应用系统连接数据库的时间长,一般在sql2000里面会出现连接超时的问题,建议连接时长不超过500 ms。系统运行监控管理平台默认阈值:大于500 ms黄色警告,大于1000 ms红色严重警告。

(6)阻塞进程数。阻塞进程是指处于等待不处理状态的进程,数量过大会影响数据库的进程数据处理性能。系统运行监控管理平台默认阈值:大于5黄色警告,大于10红色严重警告。

(7)共享池内存使用率。共享池是在多处理器的计算机系统中,可以被不同中央处理器访问的大容量内存区,所以内存池直接影响数据的处理,该指标的值应保持在75%~90%,如果这个值太低,就浪费内存,如果太高,会使共享池外部的组件老化,如果SQL语句被再次执行,则就会发生硬分析。系统运行监控管理平台默认的阈值:大于70%黄色警告,大于80%红色严重警告。

(8)当前打开的游标数。游标是系统为用户开设的一个数据缓冲区,主要是用于循环提取数据的一种机制,数量过多影响数据提取性能。系统运行监控管理平台默认阈值:大于1500黄色警告,大于2000红色严重警告[15]。

3.3 中间件资源的监控

3.3.1 监控原理 以Apusic AS为例,Apusic AS部署在Windows平台上,主机要开启WMI协议,并有administrator组用户的账户权限及金蝶管理权限的账户,系统运行监控管理平台通过内置的插件获取Apusic AS CPU利用率、Apusic AS内存利用率等指标的数据,实现监控。如通过内部插件发起HTTP请求,依据URL响应时间来判断其可用性及性能;通过内部插件查看端口可用性等。

3.3.2 监控指标及作用

(1)Apusic AS CPU利用率。CPU是设备的核心,是设备正常运行的基础。系统运行监控管理平台现配置的阈值:大于90%黄色警告,大于95%红色严重警告。

(2)Apusic AS 内存利用率。当前主机上Apusic AS占用的内存利用率,若占用量过大超过90%,就可能成为系统运行的瓶颈,需要管理员及时调整资源,以避免不必要的损失。系统运行监控管理平台配置的阈值是大于90%黄色警告,大于95%红色严重警告。

(3)JVM内存利用率。JVM为java代码提供运行环境,器内存利用率直接关系到Apusic AS的运行效率,该指标比较重要。目前系统运行监控管理平台配置的阈值为大于90%黄色警告,大于95%红色严重警告。

(4)JDBC连接池。java数据库连接池,处理执行java语句的API,若连接数过多会致使读取数据慢,影响业务运行。系统运行监控管理平台现配置的阈值为活动的连接数大于85%黄色警告,大于90%红色严重警告。

(5)JMS,Java信息服务。消息系统中的Java应用程序进行消息交换,系统运行监控管理平台判断其是否可用,不可用则产生告警。

(6)WEB应用服务。即网页应用服务,系统运行监控管理平台监控其可用性,若不可用产生告警。

(7)响应时间。响应时间决定了打开网页的时间,时间越短越好,若过大会直接影响网页的访问速度。系统运行监控管理平台默认阈值:大于500 ms黄色警告,大于1000 ms红色严重警告。

(8)可用性。通过Ping命令来确认该端口是否可用。

监控平台采用B/S架构,以门户作为统一入口,方便功能扩展,系统的易用性和界面具有直观的展现和操作,包括监控资源的可视化配置和可视化展现。经过近半年时间的部署与配置,目前平台已完成对42台Windows服务器、8个Oracle数据库、2个SQL Server数据库、31个金蝶中间件、11个URL、26个PORT等资源的实时监控,并通过系统运行监控管理平台后台算法对每个节点CPU内存性能、宕机时长等指标进行综合计算,导出所关联业务的健康度繁忙度,实现对整个业务的监控,以保障33个应用业务系统的运维工作。

4 监控管理的初步成效

4.1 提升了运维监控能力

应用系统运行情况的监控管理转变了系统运维管理传统的工作流程,它使應用系统和IT资源的工作状态明确地显示出来,在问题发生时能够快速定位影响业务的资源,提供针对问题的故障分析,使应用系统运维技术支持过程更加标准化、规划化,全新的系统运维管理工作模式提升了运维监控能力。

4.2 全面提升系统运维效率

系统运行情况的监控管理实现了技术、功能、服务3个方面的完整整合,保障了农业信息系统运行的稳定性,提高了农业应用的利用率,极大地增强了系统故障响应和处理能力,全面提升了单位信息技术管理效率和服务水平。

4.3 显著提高科学运维水平

系统运行实时监控获得大量真實数据,通过对数据信息的全面梳理,按照一定的方法进行数据挖掘再利用,有助于发现应用系统IT资源运转规律,向前延伸监控预警范围,进一步强化监控管理在系统运维中的提前预警作用。

5 结语

系统运行监控从根本上改变了运维工作模式,是运维管理工作的一项创新发展。它将应用系统和IT资源的工作状态明确地显示出来,为系统运维工作者提供了直观、准确的监测数据信息,为应用系统的运行管理提供了更完备的管理手段,大幅提升应用运维管理水平,提高系统运维效率。今后,随着系统运维的不断进步,监控管理将成为不可或缺的工作手段。本研究从理论走向实践,为应用系统运行监控的研究者及系统运维工作者规范化、精细化管理及创新发展提供了有力参考。

参考文献

[1] 崔长鸣.开发应用ITIL理念的运维系统[D].成都:电子科技大学,2011.

[2] 郭巍.基于ITIL的电子政务IT运维服务支持流程的设计与实现[D].北京:北京邮电大学,2010.

[3] 林晓群.高校基于ITIL思想的IT服务管理系统的设计与实现[D].广州:华南理工大学,2010.

[4] 悠虎.从案例看ITIL的四个关键点[J].网络与信息,2010(10).

[5] 严波.基于ITIL理论的应用系统运维部门IT环境监控系统的设计与实现[D].北京:北京邮电大学,2011:21-38.

[6] 陈晓华副部长在全国农业信息化工作会议上的讲话[EB/OL].农业部情况通报第33期.农业部网站.2013.

[7] 金农工程一期(农业部本级)项目顺利通过初步验收[EB/OL].农业部网站.2011.

[8] 杨毅.计算机系统运行监控初探[J].华南金融电脑,2007(4).

[9] 王萌,徐毅博.浅谈现代应用系统运维部门信息系统集成应用[J].现代经济信息,2011(10).

[10] 刘锦峰.B/S应用系统运维部门应用系统的运行监控[J].中国传媒科技,2009(6).

[11] 张永欣,.IT资源运行监控管理系统研究与开发[J].济南:山东大学,2012.

[12] 阎伟,刘瑜,郝达睿.应用系统运行状态监管的设计与开发[J].计算机系统应用,2012(5).

[13] 翁凌宇,柳阳,韩志伟.远程软件运行监测的设计与实现[J].舰船电子工程,2008(6).

[14] 石国伟,信息运维系统的设计与实现[J].西安:西安电子科技大学,2010.

[15] 李志清,刘小萍.浅谈信息一体化管理平台[J].探求,2008(7).