APP下载

中国铁路主数据中心基础设施运维风险管理研究

2021-12-14高明星刘忠东李淳李士红刘旭

网络安全技术与应用 2021年11期
关键词:数据中心运维基础设施

◆高明星 刘忠东 李淳 李士红 刘旭

中国铁路主数据中心基础设施运维风险管理研究

◆高明星1刘忠东2李淳3李士红3刘旭3

(1.中国铁路信息科技集团有限公司 北京 100844;2.中国国家铁路集团有限公司 北京 100844;3.中铁信大数据科技有限公司 天津 301700)

本文运用ERM风险管理相关理论,从战略管理目标、风险管理要素、管理层级三个维度,对中国铁路主数据中心的基础设施运维进行全方位风险影响分析,构建持续改进的风险管理机制,保障运维决策的合理性和准确性,不断排除风险隐患,提高运维质量。

数据中心;基础设施;运行维护;风险管理

1 概述

中国铁路主数据中心(以下简称“主数据中心”)是国铁集团业务应用系统生产运行中心,承载着国铁集团和全路集中应用系统部署及数据资源存储的主要功能,肩负着铁路核心业务安全稳定运行的重要使命。本文引入ERM风险管理相关理论,构建主数据中心基础设施风险管理框架模型,根据基础设施运维全生命周期特点,进行风险管理要素分析,挖掘潜在风险点,制定风险应对措施。同时引入质量控制中PDCA相关技术方法,构建持续改进的风险管理机制,确保运维质量的持续改进与高效可靠。

2 研究背景

2.1 主数据中心基础设施运维风险管理的背景

主数据中心基础设施运维管理的核心是通过各项合理的运维决策,使基础设施能够持续实现各自功能,从而为部署在主数据中心的应用系统提供可靠的外部条件。在基础设施协同运行过程中,存在着设备种类繁多、配置复杂、维护保养差异性大等情况,为科学合理地开展运维工作,尤其是在风险面前做出正确决策,提高风险应对能力,风险管理应运而生。精细化的基础设施风险管控策略,能够促进决策科学化,降低决策风险,提升基础设施的安全性、可靠性和稳定性。

2.2 数据中心基础设施运维全生命周期风险特点

数据中心基础设施运维的全生命周期大致分为建设转运维期、运行稳定期和磨损老化期三个阶段。每个运维阶段存在的主要问题不同,所面临的运维风险也不尽相同。

在建设转运维期,风险主要来自:设计、施工质量等造成的工程遗留问题;设备投产后,随着加载过程变化,设备性能参数未能调试到最佳运行模式;图纸、设备手册等资料不完整或与现场不一致;运维管理制度不健全、不系统等。建设转运维期的主要风险整改完成后,会进入运行稳定期。数据中心基础设施长久运行后会不断老化,部分设备设施也会因磨损等原因接近其使用寿命,此阶段的风险主要体现在设备设施的性能和可靠性持续降低。

3 主数据中心基础设施风险管理

3.1 主数据中心基础设施ERM模型

主数据中心基础设施ERM风险管理框架包括战略管理目标、风险管理要素和管理层级三个维度。

主数据中心基础设施的战略管理目标分别是合规、安全、报告、绿色。其中“合规”体现在遵守国家法律法规以及行业相关设计、验收、运维标准要求;“安全”体现在以保障主数据中心基础设施整体安全为根本;“报告”体现在确保风险管理过程可测量可监控;“绿色”体现在以建设绿色节能型数据中心为目标。主数据中心基础设施的管理层级包括政府监管部门、上级单位、公司本身和供应商,各个管理层级在基础设施运维管理过程中持续开展风险管理工作,每个层级都构筑了主数据中心基础设施风险管理的防线。

3.2 主数据中心基础设施风险管理要素分析

主数据中心基础设施风险管理八要素包括内部环境、目标设定、风险识别、风险评估、风险应对、控制活动、信息和交流、监控。这八个要素相互独立、相互联系又相互制约,共同构成了主数据中心基础设施风险管理的有机整体。

3.2.1内部环境

在开展风险管理工作时,必须对主数据中心所处的内部环境进行充分识别和了解,该环境是管理并确保基础设施协同运转、系统稳定高效运行的前提。内部环境包含:战略定位及目标规划、规章制度要求、服务内容输出要求、运维管理组织架构设计及人员配置情况等。

3.2.2目标设定

主数据中心基础设施运维的核心是保证“风、火、水、电”等各项设备设施功能的正常运行,因此按照电气、暖通、消防、弱电、房建五大专业以及综合安全共六个维度对风险管理的目标设定进行分解,对每个专业或维度进一步按其细分子系统分门别类进行风险管理。

3.2.3风险识别

主数据中心基础设施风险识别以行业内外历史事件经验教训、运维过程中发现的问题和内外部相关检查评价报告为风险分析基础,运用定性和定量风险分析相结合的方法,对基础设施安全现状以及各专业系统功能的潜在失效情况,进行系统性分析。

定性风险分析:主数据中心在设计、建造、验收以及运维过程中,要严格遵守国家法律法规、行业规范等相关要求,采用合规性检查的方法,开展内部检查及外部评测等工作,对主数据中心基础设施相关环境、人员、管理等进行定性风险分析。基础设施的现存隐患是合规性检查的结果,输入内容主要包括A级机房测试报告、消防安全评估报告、安全现状评价报告、运维事件资料库、工程遗留问题清单等。

定量风险分析:主数据中心基础设施运行高度自动化,过程变量多来自于设备设施本身,因此定量风险分析的关注点在设备设施上。基于此特点,借鉴运用FEMA分析方法,以各专业系统的关键设备设施为主要分析对象,以其运行逻辑为分析主线,用风险赋值的方式进行风险分析,剖析设备设施功能失效对系统的影响。其主要分析形式是衡量风险权重、计算风险指数、确定风险等级及处置原则。

3.2.4风险评估

根据定性分析结果,确定不符合项和建议整改项。根据定量分析中风险指数情况,按照风险承受能力、经济性等原则,进行风险等级划分,确定应对原则。

本次定性风险评估共分析出252个风险点,主要体现在主数据中心基础设施存在的作业风险、管理风险、自然环境风险、社会环境风险、合规风险、人身安全风险等综合性风险。其中,作业风险共147个风险点,主要是人员作业及巡视存在的问题因素等;管理风险共62个风险点,主要包括运维管理制度不健全、操作流程不规范、标识标签不完善等;合规风险共18个风险点,主要是设计、建设阶段造成的工程遗留问题;人身安全风险共12个风险点,主要是火灾、跌落、触电等;社会环境风险共8个风险点,主要是恐袭、治安、外部停水断电等;自然环境风险共5个风险点,主要是地震、强风、极寒天气等。

本次定量风险评估共分析出759个风险点,其中中等以上风险点88个,主要体现在主数据中心基础设施存在的部分技术和质量风险。电气系统风险主要包括设备自身绝缘、断路器可靠性等;暖通系统风险主要包括各类蝶阀、浮球阀是否正常等;消防系统风险主要包括FAS报警主机或气体灭火控制盘误动作、阀门锈蚀导致无法打开等;弱电系统风险点主要包括DCIM系统不定期掉线、BAS系统自动控制稳定性差等;房建系统风险主要包括防屋面水层破损造成雨水渗入机房、屋面马道或爬梯等锈蚀造成人身伤害等。

依照以上风险评估情况,对主数据中心基础设施运维整体风险情况进行分析汇总,得出风险分布情况如图1所示。

图1 主数据中心基础设施运维整体风险分布情况

3.2.5风险应对

依据风险分析结果,梳理风险应对原则和措施,明确改进问题方向。应对措施主要从管理措施、工程技术措施、个人防护措施和风险转嫁措施等四方面进行制定。基于本次风险分析结果,考虑采取标准化运维、定期维保、日常值班巡检、集中监控、人员培训、搭建运维平台等方式进行优化。

3.2.6控制活动

风险控制活动的核心是建立主数据中心基础设施风险管理体系,明确管理核心及目标,识别风险点,明确责任人及应对措施。同时,将风险管理理念的实施由点到面渗透,培养员工风险意识和行为习惯,重视经验积累,定期评审风险管理情况,建立长期运行机制。

3.2.7信息沟通

通过定期检查、定期召开安全生产例会等形式分析当前运维情况,更新风险识别评价表,跟踪计划执行情况。通过安全教育、技术培训将风险管理工作落实到执行层,确保全员参与。

3.2.8监控

坚持对风险管理工作进行持续性管理审计和风险监控。监控的范围从风险管理制度本身到执行过程,从宏观到局部。改进评估制度的适用性,并进行风险管理经验复盘。

4 效果评价

建设转运维期,通过系统性的风险管理,及早识别并处置工程遗留问题、设备功能调试、图纸资料欠缺、制度流程不完善等问题,促使主数据中心基础设施提早进入稳定运行阶段。稳定运行期,通过对规章制度流程、设备维护保养、人员技能培训、例行巡检等运维过程的风险管理,不断优化完善,持续改进,从而延长主数据中心基础设施运维生命周期。磨损老化期,通过对设备设施运行性能的风险分析,能够提早发现设备设施故障发生前的征兆,进行提前预警,避免突然的运行中断。

5 风险管理机制

风险管理是一个动态变化的过程,外部条件的变化或分析对象自身的变化,都可能需要重新进行风险评估。通过定期评估、触发式评估等方式,对风险管控措施进行紧密跟踪、及时完善、确保落实,形成PDCA的持续改进风险管理机制。

6 总结

根据邓宁-克鲁格效应:“人在能力不足时,作出的判断往往是不周全的结论,但是人又无法正确认识到自身的能力不足,来辨别这种错误的行为,这种现象是一种认知偏差。”因此,随着人员的经验不断积累和技术能力不断提升,对运维风险点的分析也必将是一个周而复始、持续提升的过程。

[1]施卫忠. 铁路数据中心建设与规划研究[J]. 中国铁路,2021(01).

[2]杨阳,李印,孙丽玫,等. 数据中心基础设施认证体系研究综述[J]. 工程建设标准化,2020(01).

[3]周平春. 数据中心基础设施建设的规划阶段管理分析[J]. 工程建设(重庆),2020(06).

[4]朱林,李程贵,侯晓雯. 超大型数据中心基础设施全生命周期维护模式的研究与应用[J]. 信息通信,2019(09).

中国国家铁路集团有限公司科研项目专项基金(N2019S009)

猜你喜欢

数据中心运维基础设施
酒泉云计算大数据中心
农业基础设施建设有望加速
公募基础设施REITs与股票的比较
浅析数据中心空调节能发展趋势
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
振动搅拌,基础设施耐久性的保障
充分挖掘基础设施建设发展潜力