APP下载

东华IT综合监控系统应用实践掠影
--一次IT综合监控功能应用讨论会(上)

2015-12-03

网络安全和信息化 2015年10期
关键词:开发人员日志数据中心

IT综合监控系统在企业的运维工作中发挥了越来越重要的作用,小王所在IT运维组的同事们都越来越依赖这一监控工具。为了进一步深化IT综合监控功能应用,同时也为了考察员工们对IT综合监控功能的应用掌握情况,主管大刘召集了一次IT综合监控功能应用探讨会议,让大家都说说利用IT综合监控工具解决了自己哪些问题、还存在什么问题,以下为发言记录。

主机应用管理员小张:

1.MES服务器有一段时间经常死机,原因未明。后来我通过主机性能报表发现在死机前的一段时间里,这台服务器的磁盘繁忙率特别高,我就联系了MES开发人员调整了应用程序不合理的地方,现在死机现象再也没有了。

2.我现在把我所管理的服务器都做了很精细的性能告警定制,确保收到的告警都是有效告警。例如,ERP服务器的cpu性能运行在40%以下属于正常,我就把告警阀值定为40%;LIMS服务器的cpu性能运行在60%以下属于正常,我就把告警阀值定义为60%。这样做的好处就是我收到的告警都是需要我关注的。

3.资金结算应用是我管理的十分重要的应用,我就定制了对这一应用进程的监控,什么时候这个进程出了异常,比如宕了、占用cpu内存高了,IT综合监控系统都能及时通知到我。自从这么做以来,我就再也没接收到投诉了。

4.我还定制了对errpt log、system等日志的监控,什么时候硬件有了异常现象我都能及时发现。

5.我利用主机监控功能还做了些监控脚本,重要的系统文件被改动,重要的日志文件很久没更新(例如,通信接口日志文件如果超过30分钟没更新,这就很可能是接口程序出了异常)我都能及时发现。

6.以前咱们公司的主页,还有OA系统不太稳定,总有不能访问的情况。以前都是投诉电话打来了我才知道,后来我利用IT综合监控系统的业务拨测功能,每隔1—5分钟就探测下这些页面能否正常访问,有了异常我先知道。

7.以前我都是通过手工巡检的方式查看各个服务器的运行状态,有了IT综合监控系统,我的工作模式彻底改变。在做好各项告警定之后,系统有了问题就会发告警给我,我的精力可以解放出来做系统优化更有意义的工作了。

数据库管理员小孙:

1.我管理着所有重要的数据库,以前压力特别大,生怕哪个数据文件满了影响生产,现在我对这些增长比较快的数据文件全都定义了性能阀值,超过70%就会告警,我的工作再也不会手忙脚乱了。

2.有一段时间应用开发人员老是反映数据库访问慢,我通过数据库性能监控报表发现那一时刻有不少的死锁存在,把这一现象告诉了应用开发人员后,他们调整了访问那几张表的频率和时间,现在这种现象已经没有了。

3.数据库的alert日志监控我很关心,里面记录着数据库的各种异常信息。我就把常见的错误关键字做了日志监控,什么时候出现了ora-600之类的错误我都能及时发现。

4.美中不足的是,现在IT综合监控系统还不能告诉我数据库慢的时候是什么sql语句导致的,要是能有这个信息应用开发人员就能更快地调整程序了。

东华IT综合监控系统介绍

IT综合监控管理系统(Integrated Monitor System,IMS)是东华软件ForceView IT运维管理套件的重要组成部分,实现数据中心的IT环境、IT设备、IT应用以及业务的7X24小时自动监控。

通过IMS产品,运维部门能够实现数据中心IT环境、IT设备、IT应用以及业务四个层面的综合监控及管理数据的分析,能够实现不同厂家、不同型号/版本的软硬件设备/应用的综合监控,从根本上根治数据中心IT系统四国八制带来的管理问题,单位领导、业务人员、CIO、运维人员都能够通过IMS系统获得各自感兴趣并能够理解的管理数据:

单位领导可获知IT系统对本单位业务的支持情况以及信息部门的运维水平。

业务人员可获知业务交易的可用性及性能。

CIO可提高数据中心IT系统的运维效率并可评估运维人员的运维工作能力,同时可量化的评估IT系统的使用效率、系统业务容量及升级方案。

运维人员工作效率大幅提高,工作由被动的救火转为主动的管理和优化,故障的发现、定位、修复时间大大缩短。

猜你喜欢

开发人员日志数据中心
酒泉云计算大数据中心
一名老党员的工作日志
浅析数据中心空调节能发展趋势
扶贫日志
关于建立“格萨尔文献数据中心”的初步构想
Semtech发布LoRa Basics 以加速物联网应用
雅皮的心情日志
游学日志
基于云计算的交通运输数据中心实现与应用
后悔了?教你隐藏开发人员选项