APP下载

提高医院网络运维工作效率探析

2020-12-31

网络安全技术与应用 2020年2期
关键词:运维管理工作故障

(广州市红十字会医院信息中心 广东 510220)

医院计算机网络作为承载业务和信息系统的基础设施,是保障业务连续性必不可少的一环。医院网络的运维管理工作应站在保障业务连续性的角度出发,紧贴安全标准和规范着力控制三个问题:减少故障出现率、缩短故障恢复时间以及消除安全隐患。

然而在实际工作中常面临故障恢复时间长、故障多等问题的困扰。面对网络故障,从接获报障到业务恢复,整个处理过程的时间远大于期望值,故障恢复速度很难以让人接受。如何提高网络运维工作效率是医院信息中心当下需要解决的问题之一。

1 网络运维效率制约因素

对网络故障的恢复能力和恢复时间可有效地反映一个运维团队的工作效率,任何对这两个方面造成负面影响的都是制约运维工作的因素。

1.1 运维工作缺乏指引

网络运维工作流程指引往往容易被忽略。对故障响应处理,从接报到定位,再到资源调配和故障消除,全凭响应的运维工程师依照经验进行处理。工程师对运维工作的主观影响被放大。在缺乏指引的情况下,团队协作和前期准备更无从谈起。如果团队处于新旧交替状态,那么带来的问题则更为突出。

1.2 综合布线系统缺乏管理

其一,走线混乱,线路交错,标示丢失。每当出现设备故障,除了更换设备之余,临时性的理线、理标工作占用了大量时间。其二,设备间环境不理想、地点设置不合理。如积尘、无通风或温度调节设施、置于公共区域、与其他储物间共用、场地不能满足运维的基本要求。

1.3 缺乏文档管理

缺乏运维工作所必需的线路图纸、标示和设备配置档案等文件的管理。面对线路调整,无档可依;面对线路故障,无图可循,若然遇到相关工作只能重新寻线。当设备配置发生变更时,配置变更也无从说起。

2 网络运维管理误区

2.1 网络运维的标准

标准是为了在一定范围内获得最佳秩序,获得认可的规范性文件[1]。网络运维工作是一项参照标准进行开展的动态活动,实施标准的一个过程,具有持续性。运维工作除了要符合标准外,更重要的是能把标准持续有效地保持下去。为应付检查而抱着某标准开展运维工作是不可取的。

2.2 可观性与可维护性

可观性,可从一个角度很好地反映运维管理工作的细致度,但不能盲目追求。网络运维工作不应脱离了可维护性原则[2]。例如,为完成线路整理工作,在机柜外加装屏蔽间隔。这样做极具观赏性,但却忽视了运维的可维护性,增加了日后维护的难度。可观性只是可维护性的附属产物,当具备高可维护性的情况下,可观性随之实现。

2.3 关于运维外包与管理工作

运维工作外包比较常见,但是并不能代替医院在这方面的管理工作。运维的责任主体就是医院信息中心,对于管理工作并不存在外包之说。运维公司作为经营个体,受自身利益链约束,有着自己的运营目标,在运维工作上追求的是利益均衡状态,它更着重于眼前的工作任务,而对于管理思路、前瞻性建设等方面是贫乏的。

3 改善措施

3.1 构建运维管理体系

运维工作需要有规范的作业指引和流程作为支撑,使运维工作得以量化和标准化,降低不确定因素对运维工作的影响,并根据实际情况细化每个步骤。其中制定信息反馈机制、故障响应流尤为重要。制定信息的反馈机制,规范上下级信息传递,使运维信息能得到有效传达[3]。制定清晰的流程指引,对故障响应流规范化,减少故障恢复时间,降低运维人员因不规范操作带来的风险。

文档化是运维管理体系的一个重要组成部分,是对运维工作经验、知识的沉淀。制度、流程、规范、操作指南、日志、记录、检查表等都是文档化的输出物[4]。因此我们需要有文档配置管理方案,明确配置管理工作的要求,如存于何处、更新那些档案和编目标示规则等等。这些文档能降低日后的维护工作难度,直接影响故障恢复时间。

3.2 培养运维团队协作能力

网络运维是一个团队性的工作,团队中每个角色要落实好具体分工且明确职责。在故障处理时尤其能体现团队协作的重要性。有合理的分工,整体工作联动配合,故障恢复时间自然可以缩短。

3.3 工作应该做在前期的准备上

(1)理线、理标是一项不可忽视的工作,应围绕着可维护性和安全性进行开展,确保各子系统的线路整齐、可管理,标示完整、正确。网络故障恢复的速度很大程度取决于这项工作的完成质量。(2)巡检工作应围绕着消除安全隐患开展,要制定好巡检工作的计划和明确目标,并付诸落实。检查设备运行状态、打扫环境卫生、理线、理标、档案的更新记录管理都应该囊括在内。(3)做好常备物资的管理工作,制定好常备物资的清单与数量,做到能及时配备与补充,减少因调配资源而花费额外的时间。

3.4 解决环境问题

设备间环境是物理与网络通信安全的一环,是保护业务稳定、可靠,确保医院信息系统不会因自然环境、人为等因素导致业务中断的关键。对于设备间选址应首先将安全性放在首位,应根据相关的安全要求对场地的各方面进行详细考虑[5]。部署在高风险场所的设备间很难得到有效安全保障的。其次,空间换取时间的定律在网络运维工作上也适用。假如设备间不具备调整线路的空间,那么故障恢复时间则很难得到改善。

3.5 做好应急演练

应急演练不是跑龙套,也不是做给别人看的工作。应急演练是一种有效检验运维团队协作能力、故障处理能力的手段。通过定期举行应急演练,识别风险点、查找管理漏洞、检验工作效率,制定相应整改计划,落实改进。

4 总结

安全性、稳定性、可维护性、实用性是网络运维工作的基本原则,网络运维工作应遵循着这些原则进行开展。通过构建管理体系,规范业务流,培养团队协作能力,细化前期工作,并配合运维工作的风控分析,使整个网络运维工作有质的提升,从而降低故障恢复所需的时间。

然而控制故障恢复时间始终带有被动色彩,要使医院网络稳定可靠,更重要的是降低故障出现率。任何设备都有生命周期,超期服役的网络设备故障率必然大增。因此对设备的生命周期进行评估分析,结合运维成本等因素的考虑,制定一个可落地的迭代机制,将计划外的维护工作改为计划内进行,避免灾难事件的发生。

猜你喜欢

运维管理工作故障
高速公路智能运维平台
青脆李、脆红李周年管理工作历
建筑施工管理工作探讨
做好初中班级管理工作的几点思考
故障一点通
智能+时代的新运维
——2019(第十届)IT 运维大会特别报道
配电线路的运维管理探讨
奔驰R320车ABS、ESP故障灯异常点亮
故障一点通
江淮车故障3例