APP下载

疫情期间武水集团信息系统运行保障的分析与启示

2020-02-17朱晓鹏

净水技术 2020年9期
关键词:水务协作运维

朱晓鹏,华 扬

(武汉市水务集团有限公司,湖北武汉 430063)

2020年年初,突如其来的新冠肺炎疫情使武汉市全市各行各业进入一致抗“疫”的特殊时期。武水集团除了保障民生供水生产外,同时还要保持自身的经营管理,并提供市民所需的便民服务。经过多年来的努力和不断完善,作为特大型水务企业,武汉市水务集团有限公司(以下简称武水集团)信息化基础设施一定程度上已经满足日常生产经营的需要,拥有2座数据机房,承载繁杂多样的对内和对外服务的信息系统。其中,包括营业收费系统、GIS及管网巡维系统、远传表系统、生产调度系统、96510热线系统等,这些系统使用部门多,覆盖范围广。由于建设年代不同,系统之间没有形成统一标准的基础架构,运行保障工作需要驾驭复杂多样的信息系统,可谓软、硬兼顾。近年“网络安全法”颁布后,水务企业信息系统基本都成为了关键信息基础设施,因此,网络安全也成为了运维保障的重要内容之一,但武水集团当前仍以传统手动为主的运维保障模式没有改变。

随着疫情的发展,为减少人员聚集,公司实体营业厅全部关闭,线下流量转移线上,企业自身经营管理也加大了远程协作的比例,充分利用线上进行办公。上述影响之下,整个系统访问负荷激增,网络安全隐患环节也随之增多。加上疫情发生在春节期间,系统保障人员存在减员和出行交通困难(封闭、管制)的情况,系统运行保障体系和应急响应处置能力在疫情期间面临挑战。本文围绕疫情期间如何应对运行保障压力和挑战的经验展开讨论,通过分析存在的问题,为其他水务企业提供一些建议,特别是对智慧水务建设和运行保障带来一些有益的启示。

1 疫情对运行保障的影响和经验

1.1 影响与挑战

疫情对运行保障带来的影响和挑战主要表现在以下几个方面。

一是按照疫情防控要求关闭实体营业厅,转为以“网上”营业厅、支付宝生活号、微信公众号等为主的线上服务形式,提供足不出户业务办理服务。线下流量转线上,系统访问负荷增加,保障对外服务系统稳定、安全运行成为挑战。

二是疫情期间企业的生产运行和经营管理,既要满足减少员工聚集,又要保证工作效率。因此,各级部门都加大了远程协作办公的比例。在改变之下,如何实现远程协作,对保障支持远程协作运行环境的稳定提出了更高的要求。

三是疫情发生在春节期间,节假日因素使系统保障队伍减员。随着疫情的加重,城市进行封闭管理、交通管制、区域隔离等强制措施,人员得不到补充,应急响应、现场处置的难度加大,故障抢修恢复时间延长。

四是在线服务访问增加和网上远程办公比例增大,以APT攻击、大量以疫情伪装的恶意软件、勒索病毒等为主的攻击手段通过在线服务漏洞和远程办公访问水务企业的关键信息基础设施,网络安全形势严峻。

1.2 应对措施和经验

尽管疫情给武水系统运行保障工作带来了影响,但通过以下的经验和措施,可最大程度解决上述挑战。

(1)疫情造成的访问量激增,通常会导致系统运行资源不足,性能下降。但武水集团“网上”营业厅、支付宝生活号、微信公众号等服务系统均已迁移部署在成熟的云计算基础设施中,因此,通过云计算自有的弹性计算调整功能进行配置,云端服务器可根据访问量高低,自动调整服务器运行计算资源,有效化解了疫情导致的访问流量激增所造成的影响。

(2)保障远程协作办公,要做好两件事。一是协作工具的选取。协作方面部署了基于华为云的Welink协作工具,通过Welink实现高效的视频会议沟通机制。疫情期间,企业管理指令的上传下达通过远程会议的形式顺利开展,通过云端部署的协作工具,性能良好,体验流畅,故障问题少,极大地方便了保障人员,并降低了保障工作的强度。二是对性能和安全性的保证。推广采用SSL VPN接入企业内部网络的方式或通过域名结合SSL证书的方式远程办公,帮助疫情期间各部门通过互联网访问公司业务系统,这种方式既保障了访问的便捷性、灵活可控,又可通过SSL证书的加密,保障通信的安全性,降低保障难度和安全风险。

(3)针对疫情造成的保障人员减员,一是充分动员信息部门自身队伍,成立多个小组,并安排24 h轮流值班,同时围绕系统访问压力激增,制定多个应急预案和现场处置预案。二是为了进一步缩短故障发现的时间,组织运维部门进行远程预防性巡检,根据分工每日汇报巡检监控情况。一旦发现异常,通过Welink视频会议与各系统保障单位进行协作。三是有序调度保障单位,布置可操作的疫情期间保障任务,每天提前安排好故障排查人员调度和现场运维管理计划,对于必须要到机房应急处置的硬件和网络故障,按预案应急响应,既克服了交通管制对出行人员的限制,又可为修复紧急故障赢得宝贵的时间,有效缩短系统故障延时。

(4)网络安全保障,分为两个保障重点:机房等关键基础设施保障,网上营业厅、微信公众号、支付宝互联网入口保障。武水集团已按照关键基础设施等保障要求建立防御体系,从互联网入口到核心机房,部署了多种高性能安全设备,包括防火墙、WAF、行为审计、终端管理和态势感知等。但是,由于外部服务端和VPN客户端会通过加密穿透防火墙到内网访问进行数据交换,防火墙直接防护能力被削弱,并不能确定源头的主机是否已经被病毒攻陷,此时必须加强内部流量过滤和审计来发现恶意攻击行为。疫情期间,对网上营业厅、微信公众号、支付宝生活号等通过互联网域名转发的访问入口增加云端域名防火墙,从源头阻拦对网页的攻击行为。

1.3 系统运行保障效果

总的来看,为保障武水集团推行的“不见面服务”用户体验承诺,智慧水务中心克服了疫情带来的影响和挑战。截至2020年4月中旬,累计处置各类信息系统软、硬件故障110人次,各类软、硬件远程或现场巡检累计770多次;针对疫情期间的网络安全形势,累计有效监测和拦截针对“武水在线”网络攻击700多万次,排查隐患服务器72人次,发现和修复被攻陷主机5台次。疫情期间,武水集团未发生一例重大系统故障和网络安全事件,有力地保障了武水各类系统的稳定运行、机房网络等基础设施生产安全和网络安全。

2 分析与启示

2.1 疫情下运行保障的分析

疫情给武水集团系统运行保障工作带来了较大的影响。数据发现,在70多天的运维保障工作中,人工投入的比例很高,与平时相比,人员投入的比例增加了15%。客观上,由于疫情的影响,系统运行的负荷上升,故障频率增加,不得不增加人员投入。事实上,这样的结果与武水集团信息系统保障模式仍是以手动为主、被动“救火式”传统模式密不可分。传统运维保障模式存在着维护成本高、响应被动等诸多局限[1],在疫情的冲击和影响下,这种局限性更加明显。

另一方面,运行保障工作以传统手动为主,缺少必要的工具支撑。对于运行种类繁多的信息系统来说,因无法及时感知系统故障和收集全局信息,运行保障的效率非常低,是突出的短板,是人工投入比例居高不下的重要原因。这个问题不仅存在于武水集团,当前很多水务企业信息系统运行保障都有这个“软肋”。

系统运行保障除以上问题和短板外,还长期存在运行保障管理精细化不足、系统种类多但架构不统一等弊端。总的来说,这些问题或弊端并不孤立存在[2],它们之间相互影响,共同加剧运维保障工作的复杂性和困难性。在一定程度上,不仅制约了水务企业应对急突发事件的综合能力,还会影响未来智慧水务建设的发展。

2.2 疫情下运行保障的启示

通过对疫情期间系统运行保障情况的分析,传统的系统运行保障模式在应对突发疫情带来的挑战时,会出现较明显的瓶颈和不适。主流的系统运行保障已借助数字化、网络化、智能化的信息技术发展浪潮,提升了企业信息系统运维能力,逐渐减少了人工依赖,向态势感知、持续监控、快速感知、智能分析和自动化排障方向发展。系统运行保障的进步得益于智能化技术,以及在IT运维领域的不断实践,诸如风险防控、应急处置等。大部分运维工作已经实现从“被动到主动”、“从无序到有序”、“从手工到自动”的逐步转变[3]。与此同时,信息系统的自愈能力逐步提升,多数故障已实现不停机、自动隔离、自动恢复,运维逐步走向“无人操作,无人值守”的阶段。随着人工智能、大数据等相关技术的不断突破[4],未来的武水集团运维智能化建设将向着科技创新价值目标迈进,即从运维中更多地挖掘具有业务价值的信息,以指导生产和经营的持续改进,从而提高武水集团经营管理精细化、智能化整体水平,更好地适应未来水务市场变化和自身业务发展。

3 总结

疫情扰乱了武水集团的工作安排,使业务无法正常开展,企业运营面临严峻挑战。围绕武水集团在疫情期间的困难以及经验,着重分析运行保障过程中的短板。首先,从转变认识开始,向管理和服务结合的运维模式转型,完善运维保障体系建设[5],减少异构系统,提升当前的运维手段,引入新型工具实现高效保障。通过以上手段助力正在建设的智慧水务系统,指导和完善运行保障的能力建设,最终提高水务企业对突发事件的处置效率和能力,从而应对类似新冠疫情的突发事件对系统稳定性、可靠性和安全性的挑战。

猜你喜欢

水务协作运维
智慧水务在大港油田水务供水管网漏损控制方面的运用分析
团结协作成功易
运维技术研发决策中ITSS运维成熟度模型应用初探
监督桥 沟通桥 协作桥
狼|团结协作的草原之王
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
协作
配电线路的运维管理探讨
富阳:启动智能水务