APP下载

建立应急指挥系统运维服务体系管理方法

2021-10-15李呓瑾

数字通信世界 2021年9期
关键词:技术支持应急状态

刘 秀,李呓瑾,张 敏,陈 超

(云南电网有限责任公司,云南 昆明 650000)

1 研究背景

近年来,互联网发生很大的变化,随着系统的深入和完善,对计算机硬件、软件系统的运行维护,已经成为各行各业普遍关注和不堪重负的问题,大量的网络设备、服务器、中间件、业务系统等让运维人员难以应对,因此,建立信息系统运维服务体系迫在眉睫。

2 运维管理方法

2.1 系统深度巡检

按要求开展巡检工作,检查各功能模块能否正常访问,包括典型操作响应时间、系统病毒定期查杀、口令安全情况、日志审计分析、关键进程及资源消耗分析、队列等,并编制系统运行状态巡视检查记录。

2.1.1 应用系统健康度检查

按要求开展巡检工作;典型操作响应;系统功能健康度检查;后台异常进程检查;系统日志分析;关键进程及资源消耗分析;系统缺陷的发现及报告;编制系统运行状态巡视检查记录。

2.1.2 应用系统安全巡检

按要求开展巡检工作;系统口令安全情况;系统用户权限分配情况;系统漏洞检查;系统病毒查杀;编制系统运行状态巡视检查记录(见表1)。

表1 系统深度巡检

中创应用服务器版本 InforSuite AS 9.1 JDK版本 SUN (build 1.7) 可以升级到最新版内存JVM内存设置 在InforSuite AS控制台检查 建议>=2G安全性密码安全 如果使用默认密码,建议立即修改密码InforSuite AS备份 # zip/tar 建议打包备份服务设置控制台运行状态 在InforSuite AS控制台检查正在运行表示正常,其他不正常server运行状态 在InforSuite AS控制台检查正在运行表示正常,其他不正常JDBC连接池状态 在InforSuite AS控制台检查 能ping通表示正常JDBC连接数 在InforSuite AS控制台检查依业务量而定,建议最小32,最大100 Server的线程数设置 在InforSuite AS控制台检查依业务量而定,建议最小64,最大128 Accept Backlog的设置 在InforSuite AS控制台检查 建议≥256日志保留策略 在logging.propeties文件中检查 建议≤40个文件应用程序运行状态 在InforSuite AS控制台检查应用包处于启用状态表示正常,其他不正常应用检查登录应用系统测试 IP/NWYJ如果应用可以登录,且响应速度正常,则表示应用OK InforSuite AS日志分析 分析系统的nohup日志观察日志中是否有SEVERE、Error、OutOfMemoryError

2.2 系统日常操作

通过对系统进行操作,以满足业务运行的需要而进行的常规的操作动作;也包括在授权和被监控状态下的对系统运行的业务进程和数据进行修改。

2.2.1 常规主动操作

系统自身运行日记的备份,定期清理;定期检查系统(包括系统附带组件)服务状态,并定期启停系统(包括系统附带组件)服务以释放资源;按要求,到指定地点现场解决系统应用问题。

2.2.2 常规响应操作

建立或终止系统会话连接;系统作业提交;简单故障处理;提供系统初步需求、功能分析服务;简单业务流程的调整设计及实施;根据系统管理员提供的数据库脚本提取数据;业务问题、系统优化等系统问题的支持服务;按要求完成指定的周报报表、KPI报表等目前系统前台无法满足需求需人工后台操作的数据处理工作。

2.2.3 跨系统协同工作

(1)安排处理跨系统协同运维工作,如:其他系统发生代码变更、故障、缺陷等影响本系统时,需要服务方提供相关运行分析、代码修改、缺陷排查、故障处理等相关服务。日常协同监控,对协同问题的分析定位并提供相应的分析报告。

(2)按照要求完成业务检查,如用户登录率、工单流转率、各个模块信息录入率、每个模块的工作评分,以及下个阶段的建议。

2.3 系统运行分析

定期统计业务应用系统的故障与告警、日志及各项运行数据,定期提交系统运行分析报告。

收集业务运行指标数据并开展业务运行情况分析;收集系统性能指标数据并开展系统性能情况分析;收集系统日志并开展系统日志情况分析;收集系统接口状态数据并开展系统接口状态分析;收集定期内系统发生故障或存在的缺陷情况并开展系统故障及解决情况分析;系统高风险期预警报告,系统漏洞与安全预警报告。

2.4 应急保障

在“迎峰度假”期间,提供至少1位系统业务支持人员驻场进行值守工作和7×24小时的系统业务电话支持工作,业务支持人员应能够应对系统应急处置、应急报表业务操作的各类业务解决方案的能力,确保业务系统在“迎峰度假”期间稳定运行。

在应急保障时期(特殊时期保供电、防风防汛应急保障或其他应急场景)提供至少1位系统技术支持人员驻场进行值守工作和7×24小时的系统技术电话支持工作,技术支持人员应能够应对系统故障处理,提供处理紧急问题的各类技术解决方案的能力,确保业务系统在应急保障期间稳定运行。

(1)系统重大故障处理技术支持工作。在系统发生故障时应提供技术服务支持,按要求进行及时处理,并保证有至少1名人员到故障现场进行处理,确保应急指挥平台稳定运行,对突发问题及时进行处理。

(2)配合开展系统应急演练工作。按要求提供系统的应急演练的技术协助工作,包括协助搭建应急演练测试环境,编制应急处理预案并定期更新,以保证应急处理符合实际情况需要。

2.5 故障处理(含安全隐患整改)

负责受理用户报障、告警、巡检发现的信息系统故障,开展系统故障定位、原因分析、故障排除,并提交解决方案和优化建议。

服务请求分析、系统告警信息分析、巡视发现的系统故障分析;快速故障恢复;故障定位和初步确定解决方案;按照要求一个工作日内编制故障分析报告,提出系统优化建议;编制系统故障整改技术方案;故障解决(主备切换、集群节点启停等运行方式切换);对系统的安全漏洞进行整改加固。

2.6 系统优化

根据系统运行状态、缺陷和故障解决情况,提出对系统优化的建议,制定实施方案,并加以实施,达到优化应用系统的目的。

一是性能调优设计工作;二是定期对系统运行状态和系统运行存在的风险进行分析并提出优化和整改建议,编制相应系统性能优化和系统风险整改的分析报告,全过程跟踪相应的问题点并处理对系统性能存在的问题,编制系统性能调优技术方案或作业计划;三是对系统性能存在的问题进行分析,编制系统性能调优技术方案或作业计划;四是性能调优测试工作;五是系统性能调优发布和版本管理工作;六是数据库数据优化维护工作;七是中创中间件优化运维工作;八是技术性文档的完善和更新工作。

2.7 系统业务数据维护技术支持

除了数据库的技术维护外,按需开展数据处理及日常工作技术支持、业务数据资源维护、业务数据应用维护管理、业务数据质量维护管理工作。

2.7.1 数据处理及日常工作技术支持

一是开展后台业务数据操作或数据处理的技术支持;二是核查业务数据的问题,包括业务数据模型、业务元数据解释、业务应用模块,提供数据字典;三是为业务系统用户提出的数据状况、数据处理问题提供及时的技术支持。

2.7.2 业务数据资源维护管理

一是检查分析数据资源运行状态,包括用户、库表变更情况、ETL流程调度情况、数据量变化情况等内容;二是开展数据库数据的批量校验、导入;三是编制数据资源维护的实施技术方案、作业计划;四是新数据资源管理数据接口设计调整工作;五是数据资源的抽取、校验及核查实施工作;六是维护业务系统数据字典,包括更新、变更、发布;七是开展业务数据资源的抽取工作,根据技术方案、作业计划进行数据资源抽取。

2.7.3 业务数据应用维护管理

编制业务系统运行、指标简报;维护业务系统内部报表数据及计算逻辑;协助编制系统业务数据应用技术方案、作业计划,提供数据解释、数据现状分析及应用技术方案可行性分析;协助开展业务数据应用需求分析、设计、调整工作;开展系统业务数据应用发布和版本管理工作;实施系统业务数据应用操作作业工作。

2.7.4 组织机构调整的业务数据调整技术支持

在系统运行过程中,需求方因组织部门变更需要调整系统数据,如:业务流程、组织及业务数据等数据的调整。初步分析业务流程、组织及业务数据(历史单据、在途单据)调整需求;编制系统业务流程、组织及业务数据(历史单据、在途单据)调整技术方案或作业计划;业务流程、组织及业务数据(历史单据、在途单据)调整涉及、实施、测试工作;制定版本发布计划和版本管理工作。

3 结束语

对于信息系统,在维护、部署、管理等方面经常发生故障而导致业务终端,严重影响系统的正常运转,只有建立信息系统的运维服务体系,才能根据各项业务进行统筹安排,降低故障发生率减少损失[1]。

猜你喜欢

技术支持应急状态
AR技术支持下部编版教材的教与学
状态联想
情景构建在应急管理中的应用
应急救援要诀“少 快 短”
应急管理部6个“怎么看”
生命的另一种状态
Dijkstra算法在应急救援中的应用
提升技术支持能力, 深化“林肯之道”
博格华纳致力于创造清洁高效的世界, 为汽车驱动系统提供先进的技术支持
坚持是成功前的状态