APP下载

云网安全防护运维管控的研究

2022-05-25张晓燕聂智戈

中国新通信 2022年7期
关键词:云网隐患运维

张晓燕 聂智戈

摘要:近年来,全国重大通信事件时有发生,网络问题已上升到国家安全、社会稳定层面。随着网络云化,扁平化、集约化的进程,一个故障的影响范围之大、传播速度之快给维护带来了非常大的压力。由于故障数量呈上升趋势,且跨专业的疑难故障比例不断提升。本文通过对云网故障进行深入剖析,查找故障管控关键点。以重大故障关键管控点为切入,从提升网络安全专项能力入手,探讨如何构建出一套网络安全防护管控体系,保障网络安全、可靠、稳定和可持续演进。

关键字:云网;故障管控;网络安全防护

一、引言

云网融合已经成为云计算领域的发展趋势。随着云计算产业的不断成熟,业务需求和技术创新并行驱动,加速了网络架构正发生深刻变革。云网融合,云特指云计算,网指代通信网络。云计算主要指高速的计算能力,扩充性强的存储能力,高效的管理协同性能;通信网络涵盖了基础接入网,承载网,移动通信网等各大运营商所提供的网络。云网融合已经成为新型信息基础设施的发展方向。云网融合——“云是核心,网是基础,网随云动,云网一体”,成为新型信息基础设施的必然发展方向。运用云技术加速新一代通信网络技术创新,通过网络加快云的应用和发展,与数字产业、实体经济相结合,加速驱动数字产业化和产业数字化进程。

目前各种网络云化程度各不相同。有高度云化的5G核心网,也有正被逐步融入的城域网络。云与网正在高度协同,他们不再各自独立。云计算的业务开展需要有通信网络的支撑才能发挥作用。网络的性能瓶颈同样需要依赖云计算的优势去消除。最终实现云与网彼此按需打通,实现智能化,高效率,深度融合的新生态云网通信网络。

二、云网融合背景下的运维挑战

云技术对于目前传统通信网络运维工程师是一个全新领域。新技术带来的不仅仅是新技术的学习,伴随的是网络架构的变革,新业务的冲击,ICT的融合,新型的网络安全隐患等等,对于云网运维工程师带来的是翻天覆地的变化。云网运维人员肩负着网絡和云平台运维的双重重任,承受着巨大的压力。

三、探索云网防护管控体系的目标

本文以重大故障关键管控点为切入,输出针对性的生产操作优化举措,解决重大故障管控的痛点问题;基于云网基础维护体系,进一步健全和优化基础维护管理体系,指导云网基础维护管理工作开展,实现从生产到管理的提升,为高质量云网维护奠定坚实管理基础。

四、提升云网安全防护能力

为提高云网安全防护和应对能力,我们首先要深入挖掘网络的潜在风险,提升网络整体安全水平。在该维度下我们创建了三项任务:隐患排查整改;日常维护作业计划;应急预案规范化。

(一)隐患排查整改

首先我们需要从以下方面进行隐患的逐级排查,尽可能全面的挖掘隐患。

1. 物理层安全隐患及措施

目前云网的构成设备主要是以路由器、交换机、服务器为主。网络结构主要采用拓扑型结构方式。物理层隐患除了设备自身的隐患外,还包含物理链路的隐患,机房环境等多方面的因素。

云网安全隐患的基本问题很多来自于物理层安全隐患。对此,我们要加强物理层安全隐患的排查与整治。从各个通信专业看,物理层的基础设施主要包括了传输光缆、市内光纤、无线信道等等。首先我们要加强机房管理,包括机房的门禁管理,机房消防设施配备,机房温度,机房巡检记录完备性检查,机房安全规范的张贴宣贯,设备标签管理,防鼠板的设置等等。按照维护规程落实日常预检预修。加强室内、室外设施的巡检制度落实,对电源或电池性能劣化,波分系统光功率越限,传输通道误码,汇聚及核心设备板卡性能劣化、温度过高、CPU/内存利用率过高等问题,日常隐患主动发现。

其次针对物理线路,要确保排线规范整洁,杜绝拉飞线。确保设备接入电源列头柜的双路保障。云网设备的端到端线路至少双路由隐患排查也至关重要。对于云网设备硬件的定期巡检,做到及早发现设备硬件预警。枢纽局(站)及承载汇聚、BBU池等网络业务骨干节点机房电源与空调系统的结构性安全、设备完好性、监控有效性、机房环境安全等维度的运行安全评估;骨干节点机架、设备侧单电源、单回路供电等隐患的定期排查整治。

2.系统性安全隐患及措施

无论是云计算设备还是网络设备都无法避免网络安全风险。网络攻击者会利用云网设备漏洞入侵系统,窃取数据信息。带来的灾难不仅仅是网络的崩溃,还有用户数据信息的泄露。加之云计算系统的融入,使得网络安全得更加错综复杂。所以系统安全问题必须防患于未然。系统要及时的进行补丁操作及其版本更新。

对于网络系统的安全防护,我们要采用多样性的手段,以形成层次化,体系化的安全保护措施。首先是建设异常流量监测系统,大流量对攻击对网络的影响是最直接的,及早的发现异常流量,切断异常源,让影响减少到最小可以最大程度保护用户的网络使用感知。其次对于网络安全部门发布的漏洞病毒要及时进行修补查杀。服务器设备要重视安全软件的使用,外接设备的安全性,最大限度的避免病毒的传播。

3.建立隐患风险值评估模型,量化隐患风险

隐患梳理完成后,需要将隐患进行分级,进而决定隐患的处理时长。那么如何科学的对隐患进行分级显得尤为重要。本文提出了一种基于专家评价和风险矩阵的隐患风险评估模型,如图1。

利用专家评价和二维矩阵法定量计算出受评系统的风险值和平稳运行值,进而计算出平台风险总值与平台平稳运行值。公式如下:

(1)

(2)

通过该模型可以计算出隐患风险评估值,将隐患进行科学理性的分级,量化隐患风险程度。

4.建立电子化隐患库

对于梳理出来的隐患,要有持续性的跟踪与动态管理。避免因为人员更迭造成隐患管理出现断层。对各专业、各等级的网络隐患、业务隐患进行清单式闭环管理。同时打通电子隐患库与故障工单管理系统打通,对需要立即处理的隐患进行派单,跟踪隐患处理状态。

(二)日常维护作业计划的管控

落实日常规程,对各专业的维护作业计划进行统一管理,统一巡检,统一呈现。一直以来日常维护作业是维护工作中最常见的计划之一。但维护作业计划的初衷是对网络的日常检查,发现问题及时处理。但往往维护作业计划的系统是独立于工单管理系统之外的。本文重点解决的是维护作业计划的闭环管控问题。本文将各专业网管通过接口推送作业计划执行汇总结果到日常维护作业计划所在系统,进行汇总及统一展现。对于异常作业计划可转入电子隐患库及派整治工单到相关岗位,从而完成闭环管控。

(三)应急预案规范化管理

应急预案是通过运维经验预估可能发生的故障,并针对故障做出的应对措施方案。应急预案需要定期的进行模拟或实战演练。目的是检验应急预案是否适应当前的网络状况,考察运维人员的处理能力,检查故障处理流程是否顺畅。目前的应急预案管理通常是分散的,各个专业彼此独立,缺乏系统性的管控。但是目前各专业关联性越来越紧密,应急预案的演练等环节需要跨专业协作。那么系统性的规范应急预案的管理非常重要。本文旨在将各大专业关联起来,加强各专业之间的合作。实现对全专业应急预案和演练进行统一管理及展示,应急演练的审批和应急演练留痕实现全流程系统化。

如图2,对于文档型预案的存放,本系统选择使用知识库系统,便于日常查看。由应急预案牵头人制订应急预案演练计划,到设定时间点,会自动触发演练工单。由人工来判定是否需要风险审批。审批完成后,将触发保障系统事件,系统会自动进行相关人员通知进行演练,演练完成后,更新相应的演练概况到计划模板。整个环节可以全面考量紧急状况的现象、诊断方式、应急手段,进而建立完善有效的应急预案。

五、维护人员云网安全意识的培养

加强人员的日常维护和规范管理也尤为重要。维护人员的技术水平和安全意识都直接影响到网络设备与用户信息的安全。首先要将云网安全管理纳入日常维护工作中,制订科学的安全维护计划,使得网络安全工作常态化。其次要配置专业的安全岗位人员,定期进行设备安全巡检,协助并指导设备管理员进行安全防护。同时定期组织开展网络安全教育培训,提高维护人员安全应对能力和处理能力,加强维护人员安全素质的培养,提升安全责任意识,促进网络安全人才交流。

六、结束语

随着云计算的高速发展,通信行业也已步入云网融合时代的快速发展期。通信设备从传统的通信设备逐步向云网型通信设备转型。在新技术引领下,运维人员需要对新型网络进行系统性的,科学的维护与管理。提升用户的用网感知体验,保护网络信息的安全,保障人民安全的网络环境,促进社会文明的发展。

作者单位:张晓燕    中国电信股份有限公司浙江分公司

聂智戈    中国移动智慧家庭运营中心

张晓燕(1980.12-),女,汉族,河北,硕士研究生,中级通信工程师,研究方向:数据维护通信;

聂智戈(1977.04-), 男, 汉族,河南,硕士研究生,高级工程师, 研究方向:大规模互联网业务运维保障;

李伟(1986.12-),   男,汉族,湖北,学士,高级工程师,研究方向:移动网络规划设计。

参  考  文  献

[1]王纯子, 张斌, 李艳. 云网络安全技术研究现状综述[J]. 信息安全与技术, 2015, 6(8).

[2]王全, 方琰崴. 5G电信云网络安全解决方案[J]. 邮电设计技术, 2018,(11):6.

[3]罗晓波. 私有云网络安全风险及安全策略設计[J].数字化用户, 2019,025(021):103-104.

猜你喜欢

云网隐患运维
互联网安全隐患知多少?
助力新基建,赋能企业高质量发展
网上晒娃隐患多
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
Tough Nut to Crack
中国电信:云网通
电子政务甲方运维管理的全生命周期
云网销售排行榜
食品中的隐患等