APP下载

自动化运维应用实践

2023-05-30李兆康

中国信息化 2023年3期
关键词:日志运维监控

李兆康

本文从运维痛点和需求入手,提出建设运维监控、日志分析、应用性能及RPA自动巡检与处置等,全面实现自动化运维的经验分享。

随着公司信息化建设和数字化转型不断深化,数字科技的投入逐年增加,IT系统架构转型为云化、容器化、微服务化,动态伸缩,关系复杂。当故障出现后,运维团队花费大量精力联合分析处理,不能快速和准确定位问题根源,无法有效诊断和预防故障,需要从网络流量、主机性能、应用性能、日志报文等层面进行精细化的监控预警。

一、信息化和数字化发展趋势

当今世界,科技创新已经成为产业变革的重要动力,在“新基建”政策和数字化转型浪潮的推动下,云计算、大数据、物联网、移动互联网、人工智能等新一代信息技术的快速发展,敏捷开发与运维一体化时代到来,产业应用场景日趋多样,企业的业务架构和网络环境也随之发生了重大的变化,业务系统的逻辑结构正变得越来越复杂,这给企业的运维管理带来了新的挑战。

二、运维管理痛点及需求

(一)设备种类繁多

随着公司业务发展,业务系统越来越多,配套支撑的网络、服务器、存储、主机、中间件、数据库、虚拟化、云平台等基础软硬件规模呈指数增长,IT环境异构,软硬件种类繁多,日常运维工作量巨大,运维监控不全面,无法持续实时监控IT系统。当系统出現故障后,运维团队花费大量精力排查和解决,不能快速、准确定位问题根源,无法有效预防故障,造成故障处理效率偏低。

(二)日志分析量大

现代信息技术带来了IT系统日志数据的爆发式增长,数据量大、多样化、快速化给日志的分析挖掘带来了很大的挑战,实时性要求也对计算性能提出了很高要求:当前各系统产生大量的运行和业务日志,无法跨系统共享,实际问题处理联合分析耗费人力较多、时间长,缺少联动分析预警能力。

(三)系统复杂度高

业务系统之间的关联性逐渐增加,IT系统的规模及架构也会随之变得越来越复杂。导致运维团队对于系统维护难度增加,往往需要投入更多的人力,来保障整个 IT系统的稳定运行,从而避免对业务产生影响。然而更多的人力投入,不但增加了运维的成本,而且对运维管理工作造成影响的风险也随之增加。

(四)新技术管理难

随着敏捷开发与运维一体化时代的发展,越来越多的企业采用容器化部署,庞大的应用分布式服务集群包含了成百上千个实例,且这些实例都是随时进行弹性伸缩,云化和微服务化的高速发展、以及网络接入方式的多样化等趋势,使得运维在面对逐渐流行的容器化或其他高复杂度服务架构等监控时,成为各大企业运营人员关心的问题。

三、自动化运维应用实践

(一)基础软硬件监控。

实现IT系统的基础软硬件性能监控、网络监控、故障分析及定位、资产及配置文件的管理等功能,保障了日常运维工作的顺利开展,提升了运维团队的管控水平。通过SNMP、IPMI、SMI-S等协议添加网络安全、服务器及存储等硬件设备节点,通过WMI、SSH、Telnet添加主机、中间件、数据库等软件资源节点,通过Ping、Port、URL等协议添加应用服务,形成数据中心统一拓扑图,展示节点及链路状态,以及形成业务管理视图,展示业务系统的运行状态、响应速度、网络、计算、数据库、存储容量及整体健康度等。资源监控指标需要重点关注,针对业务和资源情况进行个性化梳理、设置,确保监控的准确性及实用性。例如:专线监控应考虑专线带宽大小、本端业务节点到对端业务节点的连通性情况;数据库监控应考虑业务占用表空间大小的情况。告警管理至关重要,告警阈值设置高了,容易遗漏系统运行故障;告警阈值设置低了,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查的周期设置长短也存在类似的问题。往往运维团队为了不遗漏告警,而提升告警的灵敏度,导致告警重复率很高。传统告警提醒方式为邮件、短信,目前主流产品已经支持与企业微信、钉钉等集成,通过团队协作的方式快速处理问题,极大地提升故障的处理效率。一般系统还支持设备配置备份及巡检功能,针对不同厂商的设备型号,分类批量设置备份或巡检脚本,实现常规任务自动化处理。

(二)日志分析监控。

实现日志跨系统集中存储、索引、分析与归档,可视化展示及全库检索,实时监控、深度分析,加速故障分析、追踪和定位。同时建立指标历史基线,分析变化趋势,及时预警。通过文件、数据库、执行脚本读取等采集方法将日志统一收集到系统集中管理,对日志进行切分、识别时间戳及实时索引和存储,使用解析功能将日志中的字段提取出来,使用SPL对日志进行更多地聚合和关联分析。搜索分析是日志价值探索的核心能力,搜索模块由搜索栏、时间范围、操作选项组成,在搜索框输入搜索分析语句、选择时间范围和操作过滤出对应数据,或者通过划词过滤搜索结果。可视化可以有效且更好地进行分析,以图表形式展示多维度的日志信息,揭示日志模式和趋势,帮助我们更好更容易地理解日志或提取日志信息,提高效率。告警提供从规则配置、事件触发、发送通知、事件分析的一站式管理。系统还可作为日志服务器供应用运维团队使用,不再需要登录应用生产节点获取日志,还提供将采集到的原始日志进行加密以及对敏感日志脱敏;日志保存时间需要满足至少存储180天的要求。

(三)应用性能监控。

实现对应用系统代码执行效率等逐层进行深入分析,对业务调用的全面感知,加速故障分析、追踪、定位和修复,开发测试阶段及时预警,优化迭代,对系统进行量化、可视化和精细化管理。通过探针对应用或进程进行监控,以业务透视IT系统架构,对用户事务请求进行完整地堆栈追踪,对用户级代码进行分析,呈现每一个业务调用、每一个类、每一个方法的执行效率,展示业务在各个环节的性能表现,透析各个节点的调用拓扑,全维度展现业务调用流程。用户的每一次请求到达服务端时,标记特定ID,实现服务端调用全链路的级级透传,实现全链路调用追踪,便于故障的快速定位。以机器学习知识为基础,结合历史数据集,使用异常检测算法,对实时数据进行高密度分类匹配,检测事件异常。

(四)RPA自动巡检处置。

RPA(Robotic Process Automation)是指使用软件自动化来实现原本由用户计算机完成的操作,这些软件机器人自动处理大量重复的、基于规则的工作流程任务,准确快速地完成,减少人为错误,提高效率,大大降低运营成本。通过RPA技术与运维管理工作结合,巡检机器人实时采集巡检目标的运行信息,判断运行状态、是否报错、是否需要进行相应处理,并发送至管理中心,进而能够实时监测巡检目标状况,提高巡检的效率与质量。机器人每天实时模拟运维团队对业务系统及管理节点进行信息采集,对自动任务等进行实时性及关键字进行判断,一旦匹配设置的规则,则会通知运维团队,并触发预置的处置方案,快速恢复系统业务;还可以实现系统更新后的功能模块及业务验证。

通过自动化运维应用实践实现了对业务流程的有效梳理,全局掌握IT资源和资产的详细信息,提高了运维工作效率,有利于故障的快速恢复。近年来,在自动化运维的基础上,提出了AIOps(智能运维),将AI应用于运维领域,基于已有的运维数据(日志、监控信息、应用信息等),加上基于机器学习的大脑,做出分析决策,并执行自动化脚本,从而达到运维管理的整体目标。AIOps是运维的发展趋势,是自动化运维的下一个发展阶段。同时匹配相应的制度流程、组织人员以及资金保障,全面提升运维能力,助力公司高质量发展。

作者单位:中国建材集团财务有限公司

猜你喜欢

日志运维监控
The Great Barrier Reef shows coral comeback
一名老党员的工作日志
扶贫日志
运维技术研发决策中ITSS运维成熟度模型应用初探
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
游学日志
基于ITIL的运维管理创新实践浅析