APP下载

基于Ansible自动化运维的信息系统故障预测技术分析

2021-07-13甘金来丁睿陈浩

南北桥 2021年18期
关键词:信息系统

甘金来 丁睿 陈浩

【摘    要】本文通过管理不合理、系统不标准以及运维模式不统一等相关方面总结出传统运维系统存在的问题,结合Ansible自动化运维系统的特点以及Ansible自动化运维系统结构等相关功能,进一步总结出Ansible自动化运维故障技术体系。

【关键词】Ansible自动化  信息系统  故障预测技术  运维模式

中图分类号:P31      文献标识码:A DOI:10.3969/j.issn.1672-0407.2021.18.065

改革开放以来,我国经济飞速发展,各行各业的信息化建设水平不断提升。各类服务器集群业已成为工业企业主流发展趋势。传统的服务器依靠运维工程师手工或者脚本的方式进行运维,难以适应当前阶段我国大规模服务器集群的各项需求。

一、传统运维系统问题

随着企业运维系统不断增加和完善,大多数企业在运维管理模式以及思维意识上已经完全脱离了传统意义上的管理模式,不同部门和岗位员工同样将处理模式应用在计算机应用程序上。但是在系统运转过程中,主要运维模式仍然需要利用大量传统人工方式介入,长此以往,一旦产生问题和不足,则无法有效完成自动化运维基础需求。

(一)管理不合理

传统系统内部结构中的运维管理主要侧重于系统驱动制度,所以当系统产生问题和故障之后才能与运维技术人员相互沟通,让技术人员能够稳定处理。但是此种运维技术模式从本质上来看属于一种被动的解决模式,而系统运维技术人员在日常维护工作方面需要不断重复相同问题解决方案。

加上传统运维管理方式以及故障预警管理制度不够完善,使得系统运维技术人员在长期解决突发或者紧急问题和情况时无法避免产生疏漏,最终造成整体系统运维效率和质量水平不断降低,基础运维质量明显不高,业务部门对运维部门的管理效果和质量不能达到满意状态。[1]

(二)系统不标准

大多数企业在日常运维管理过程中不能严格按照标准管理模式进行,并且对岗位角色的定义以及岗位工作内容划分不够清晰,导致系统产生问题和不足之后不能精准且快速地明确问题的关键点,无法及时有效寻找出问题相关的岗位负责部门。解决问题缺乏标准化的流程处理机制,没有标准化的解决方案。

(三)运维模式不统一

我国城市化建设水平不断发展和推进,各个行业信息化建设水平同样得到了有效提高,而此种建设现状使信息管理系统的数量不断增加,其内部结构同样趋于复杂化。随着不同设备和系统的区别逐渐增加,系统运维以及日常管理也越来越复杂,特别是针对系统所展现出的突发事件来说,由于系统基础运维技术方式十分混乱,不能有效解决相关问题,最终导致终端业务不能正常开展。由此可见,系统运维模式不统一是造成系统处理效率降低的主要原因之一。

二、Ansible自動化运维系统特点

Ansible自动化运维系统是现阶段全新的系统维护工具,为此需要在Python技术上全面开发,进一步集合大多数系统运维工具的操作特点,有效完成与实现批量系统操作配置、数据批量部署以及系统执行等相关功能。由于Ansible自动化运维系统需要在现有系统基础上开发,所以运行模式上需要进行模块化工作,自身并没有批量结构部署和运转能力[2]。从本质上来看,Ansible自动化运维系统仅仅能够提供外部运转框架,所以该系统无需在系统结构上安装相应的操作程序。由于Ansible自动化运维系统具有明显的优势和长处,并且在日常维护和系统操作环节上十分简单,所以成为吸纳阶段系统维护技术人员必须掌握的专业技能之一。

第一,系统运转过程中,其内部结构部署十分简单便捷,只需要在主要控制系统环境中安装相关程序和软件系统,就可以无需任何技术操作实现系统运转水平和效果。第二,在系统运转环节上,该系统默认使用SSH文件协议,进而针对硬件设备进行全面管理。第三,由于该系统跟自身具有大量系统运维模块,进而实现和完成日常绝大部分系统操作,加上系统基础配置十分简单,并且程序应用功能强大,能够利用Python基础系统进行系统拓展,所以该系统可以利用Playbooks进一步制定科学合理且强大的系统配置,以此保证后续维护可以顺利开展。[3]

三、Ansible自动化运维系统结构

(一)系统框架

Ansible在运转过程中,是一种由各种系统模块构成的外部框架,所以该系统本身并没有基础的执行能力和结构部署能力。该系统的各个运转模块基础执行能力和结构部署能力进一步成就了针对服务器集群的Ansible自动化运维系统批量配置、程序部署以及批量执行命令等相关技术操作。加上现阶段Ansible自动化运维系统自身属于一种方案设计相对简单的自动化系统运维工具,所以该系统的基础开源性不能被替代,并且系统支持多节点在发布任务时还可以进行远程系统执行。

Ansible自动化运维系统在运转过程中普遍具有跨平台的自动化系统运维模式,其中包含系统软件自动化结构部署、自动化程序部署、自动化系统管理以及系统升级等方面。其中Ansible自动化系统常见模块主要包含shell、cron、yum、serviceo等功能,而以上系统运转模块仅仅为Ansible自动化运维系统的常见运转模块,所以该系统在运转环节上还需要根据系统应用实际需求不断增加系统运转模块。

随着Ansible自动化运维系统不断升级和完善,系统部分运转模块已经成为系统常见应用模块,但是由于系统全面提升,致使常用模块被不断整合,所以该系统主要结构框架包含几个方面。[4]第一,系统插件连接需要包含connection plugins等基础功能,有效实现系统监控端口的信息通信基础功能。第二,在系统运转过程中,其主机文件目录主要指的是系统运转环节上制定操作的主机系统在基础配置文件内将需要监控的主机有效控制,并且根据各个系统运转功能模块运转特点,比如service模块、cron模块等功能模块,有效实现系统运转日志等相关功能。

(二)运转流程

想要保证Ansible自动化运维的信息系统运转质量和水平,用户启动或者系统执行相关操作命令时,可以在基础服务器的显示终端设备输入Ad-Hoc命令集。比如系统在运转过程中,系统verbose表示需要需要输出更加详细且全面的系统执行信息和流程,而NAME,module-name=NAME则代表系统执行所使用的信息模块,private-key=PRIVATE_KEY_FILE主要指的是系统密钥文件。

由于在系统运转过程中常见的操作命令相对较多,为此需要技术人员灵活掌握。Ansible自动化运维系统在运转过程中需要根据预先安排好的系统操作规则将Playbooks进行分别拆解,随后根据系统操作命令将paly系統组成Ansible系统可以识别的操作任务,由于此种操作任务在运转过程中需要依靠Ansible自动化运维的信息系统模块和软件插件,并且不同操作模块和系统插件在任务完成过程中更充分发挥出不同的实际作用。为此技术人员根据Inventory系统结构中将已经定义的主要设备控制列表通过SSH文件,将系统任务以临时文件或者系统命令的管理模式传输至系统远程管理端口并且返回系统执行结果。系统运转结果被永久储存时,所产生的结果需要自动保存,如果系统属于临时性文件模式,系统会在任务完成之后针对临时文件进行删除操作[5]。

四、Ansible自动化运维故障技术分析

(一)基础数据

电力企业发展过程中涉及的设备有:电力企业变压设备、发动机以及压缩机等。其设备品牌、设备参数、使用年限、使用时间以及系统参数等相关信息被称为系统的基础数据。以上信息和数据需要电力企业根据自身信息数据方案规划管理和运转,还需要充分利用信息数据服务器中所有的信息和数据同步操作,将信息和数据统一安排在系统调度控制中心,随后根据相关参数进行整理、收集以及相关计算。

由于电力设备在运转过程中会产生大量信息和数据,以上信息数据无论是种类还是应用范围都十分复杂,需要不断进行系统的全面优化和更新,此种设备使用情况对于信息储存空间的要求相对较高。同时在Ansible自动化运维信息系统运转的基础上所产生的信息数据也成为流程数据的核心环节,能够进一步展现出系统批量操作所消耗的时间、频率、种类以及最终效果。以上信息数据所产生的实际价值相对较高,能够为电力系统的故障系统信息预测提供应对策略支撑。

现阶段,我国电力系统的实施参考数据方面相对比较成熟且全面,只需要针对所收集到的信息数据构建出相对稳定的连接端口就可以有效提升系统运转基础准确性,使电力网路企业各个部门日常管理所产生的数据和信息在特殊范围内开展全面共享和信息同步。在日常管理实施过程中,信息分布以及共享需要构建出相互同步的信息平台,以便于各个部门员工可以交流,系统运转所需要的信息数据主要指的是局限于电网企业所产生的运转数据。然而从本质上看,电力系统在运转过程中所得到的信息数据对于企业的发展和稳定具有十分重要的作用,市场经济类数据也可以为城市建设中电力行业的整体规划制定提供比较完整全面的参考依据。

(二)信息预测流程

想要保证Ansible自动化运维的信息系统故障预测准确性,电力系统在站台设置上就需要一个主要站台和多个子站台。其中子站台施工现场需要针对数据和信息进行全面收集并且进行详细分析,通过信息查询以及参数流通等管理制度将已经分析之后的信息传输至主站结构。除此之外,主站以及子站之间想要保证基础的信息通信,则需要使用TCP/IP文字协议,并且结合电话拨号等技术方式针对已经接收的信息进行全面分析和探索,以此作为基础系统平台针对信息数据开展二次技术处理,进一步清除无用数据。

要实现以上相关目标,则需要针对传输的信息和数据进行预先处理,并且将重复且无用的垃圾数据有效清理干净。其中信息数据在预处理过程中,还需要利用信息抽取、系统转化、参数过滤以及系统监控等功能完成对数据进行有效处理。数据过滤完成之后,就可以在Ansible自动化运维的信息系统故障预测的基础条件上,有效处理运维系统的故障检测。发现数据发送异常后,技术人员需要及时检查导致异常变化的原因,并且制定出适合的处理策略和计划方案。

除此之外,技术人员还需要发挥系统对于数据和信息的监督功能,积极开展全新的数据预处理相关工作。针对极易产生故障问题的运行区域和管理模块,企业应该在故障发生后将故障问题以及原因进行记录,并且构成相对稳定的运转模式,最终有效转化为作业脚本系统。[6]

当电网企业将不同脚本增加至Ansible自动化运维信息系统内部结构中,其操作模式需要不断被完善和优化,才能有效减少和降低系统故障出错率。针对此种系统现状,技术人员需要进行预判,通过故障问题详细分析和判断,最大限度减少故障处理时效,让系统运维技术人员深入了解企业设备运维过程中的常见问题,不断积累维护经验。我们通过脚本不断优化Ansible自动化运维的信息系统,为以后的应急处置提供更加全面的工具手段。

五、结束语

为了进一步满足企业针对海量信息服务设备以及内部结构复杂的运维基础需求,本次研究主要在Ansible系统基础上进行方案设计和系统开发,最终实现自动化运维信息系统管理模式,经过一系列技术优化,系统自身具有Hosts管理与业务管理等多项功能和能够满足企业对信息处理业务的核心要求,降低预测成本。

参考文献

[1]李湘林,向全,韦美雁,等.基于Ansible自动化运维系统批量部署LAMP架构的设计与实现[J].大众科技,2021,23(3):4.

[2]赵创业,唐亮亮,郭威,等.基于Ansible和Flume的海量数据自动化采集系统[J].电子设计工程,2020,28(3):5.

[3]范永合,杨澎涛,朱应科,等.基于Ansible实现Zabbix自动部署[J].电脑知识与技术:学术版,2019,15(12Z):2.

[4]朱琳,李姝,李贵强等.关于自动化运维技术在公共安全信息化建设中应用模式的探讨[J].数码世界,2019(1):1.

[5]孙雅妮.基于Ansible的OpenStack私有云平台自动化部署研究与实现[J].电脑知识与技术:学术版,2019,15(10):3.

[6]王亦然,郭晓东,祁滢.基于Jenkins及Ansible的持续集成交付方案设计[J].信息系统工程,2019(11):3.

猜你喜欢

信息系统
高速公路路况信息系统
企业信息系统安全防护
现代管理型会计信息系统的内部控制探究
现代管理型会计信息系统的内部控制探究
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
电磁计算单信息系统研究
企业综合节能信息系统SciMES
高速公路信息系统维护知识库的建立和应用
基于SG-I6000的信息系统运检自动化诊断实践