APP下载

一种面向云网融合业务的一体化运维管理系统

2022-05-09赵飞姚文叶

中国新通信 2022年5期
关键词:系统设计

赵飞 姚文叶

【摘要】    本文主要是提出面向云网融合业务的一种一体化运维管理系统,具体从应用场景、业务需求、监控对象、技术架构、系统功能、硬件估算等多方面进行设计,包括告警和业务监控、报表分析、配置管理、系统管理等。

【关键词】    一体化运维管理系统    云网融合业务     系统设计

引言:

随着新技术不断地突破以及加速落地,比如云计算技术、大数据技术、区块链技术、工业互联网技术、5G技术以及人工一体化技术等,明显推进数字化经济时代发展的进程[1]。对于云计算来说,是目前数字化发展重要的一种基础设施,其已成为人们公认的核心承载平台,许多组织和企业都在处于数字化转型的阶段,而上云是数字化转型重要的一种方式。随着企业上云的速度越来越快,运营商的业务在不断增长,而且技术得到不断的更新,使云、网络规模不断扩大。随着一系列新技术不断地成熟,比如云计算技术、虚拟化技术以及软件定义技术等,包含上述新技术的电信网在架构层面、机制层面、运营层面等不断深入,逐渐融合而呈现出云网一体化的发展趋势,云网相互融合。基于云快速的发展,对网提出了更高的需求,同时网的优质服务也会促进云飞快地发展,云、网有机融合是云网业务的一个发展趋势,同时也是运营商运维云网业务工作的重点。

一、一体化运维管理系统的意义

随数据中心模块化技术以及云计算等不断的发展和成熟,大型数据中心包含很多的系统,可分成动力设施、基础设施、IT基础设施、平台、应用服务等部分。技术发展的同时,促使云应用同云网基础设施松耦合的实现,数据中心逐渐转型成软件定義、多活数据中心,所以数据中心的运维工具、服务以及平台急需转型,结合传统数据中心的设施、云原生、虚拟化、公有云以及私有云等,而形成以数据为核心,集控、维、监、管于一体的运维一体化服务平台,通过统一平台对种资源集中管理以及调度进行无缝支持,比如云网设施、应用、平台、服务以及人员等,提高运维服务的效率和效能,利于行业的数字化转型以及高质量的发展。

目前,我国各大通信运营商均在对云计算业务领域进行持续的拓展,基于云计算业务飞快地发展,带给运营商发展机会,同时也带来了挑战。运营商目前主要面临的问题是:怎样服务好客户,带给客户云网业务良好的服务体验,确保客户的业务质量,提高自身市场竞争力[2]。而且,面对云网一体化的趋势,以往的IT支撑系统(云网分离的)很难满足云网融合一体化运维管理的需求,所以急需包括云、网的面向云网融合业务一体化运维管理系统。

二、监控场景

通过企业上云,企业可选择混合云架构(本地数据中心结合云数据中心)部署数据中心,也可把数据中心全部部署在云上。为确保企业可以更安全的、高质量网络对云上数据中心进行访问,运营商提供给企业多种多样的云专线接入服务,利于企业私有化数据中心的构建。同经过互联网入云方案的比较,云专线等一些专用接入服务显著提高了企业网络服务质量,确保企业可更安全的、更高效的访问云上服务[3]。云网融合一体化运维管理系统主要分成云层面和网络层面来全面监控客户的云产品服务、云专线接入业务,其中,网络层面主要包括网络端到端指标以及网络基础设备,而云层面主要包括云主机、云侧基础设备等云产品。

云资源池运维平台对云测数据进行提供,相应专业网管对网络层面数据进行统一提供,在云网融合一体化网管系统中,是结合了网测数据以及云测数据,按照网络结构以及业务标对网侧以及云侧进行拼接,从而了云网一体化运维管理系统。

(一)网络的运维管理

对于网络基础设备来说,主要是包含网络各类设备和资源、告警、性能,资源类主要包括设备基础信息和网络层面整体拓扑数据;告警类主要包括设备全量告警,也包括一些特别的告警,比如端口DOWN、设备节点DOWN以及协议类等告警;性能类主要包括设备各项指标,比如端口上下行流量、收发光功率、峰值带宽速率,内存利用率,板卡CPU,温度,设备通信状态、管理状态,端口管理状态等。

网络端到端指标主要包括抖动、时延、丢包率等数据,把软探针部署在云资源池上,评测端到端(云资源池到客户接入设备),周期得到端到端网络指标。

(二)云层面的运维管理

对于云侧基础设备主要分成云主机、云内网络设备以及云资源池物理机等,云内网络设备主要包括边缘交换机、防火墙、路由器,主要是配置、性能以及告警等,其中配置数据主要是设备基础信息、设备连接与承载关系数据,对设备运行、电源、告警、端口等状态进行监控,综合纳入到云网融合一体化运维管理系统中进行管理。

(三)云网融合一体化运维管理

在业务层面,云网融合一体化运维管理系统主要是通过拼接云测数据和网络测数据对云网一体化运维进行管理。在网络侧,存在业务相应的A/Z端信息,经A端接入到设备上,按照网络层面拓扑,把A到PE完整的业务网络拓扑数据逐步的串联起来;在云侧,按照业务流向把省落地PE同云PE串联起来,之后按照云侧设备的连接关系,从而得到网络侧A端到云侧VPC端的资源拼接,从而形式一个完整的业务层面资源树。通过业务端到端的资源树,对云网融合一体化的端到端运维进行管理。

三、系统设计

(一)系统功能的设计

在云网融合一体化运维管理系统中,其架构是三层解耦架构,由采集层负责采集配置数据、告警数据、性能数据等;由服务层负责对系统核心数据处理能力进行构建,对实时告警数据流提供的同时,还可提供公共服务能力,对上层应用各场景化能力提供支撑。按照不同业务的需求,应用层可调用服务层能力对各种场景化应用进行构建,充分满足不同运维管理的需求。

1.采集层

在系统中,采集层通过一些基础数据系统对相应配置资源信息、性能数据、告警数据等进行采集,比如综合资源系统、集中性能系统、集中故障系统,而提供给上层应用数据处理服务。针对不同系统,采集层支持多类型接口。而且,采集层还可提供数据共享服务,同外部应用共享资源数据、告警数据、性能数据等。在运维管理系统中,需要采集、适配云网业务端到端数据,从而实现采集网络、云资源池产品的数据,比如业务流程数据,云侧网络资源数据、性能数据和告警数据,网络资源数据、性能数据和告警数据,客户信息数据,业务基本信息,云资源池产品配置数据、性能数据、套餐数据。

2.服务层

在系统中,服务层主要实现告警数据的处理,比如告警解析、告警标准化、资源填充、告警关联、工程告警标识、告警预处理以及告警通知等。服务层在业务监控上可实现业务维度能力逻辑整理,对业务端到端拓扑进行监控,并且可提供业务异常诊断、业务告警生产、业务故障定位、业务故障管理以及业务派单服务等。服务层在配置以及资源数据处理上,实现多重数据的关联整合,可高速的查询检索配置资源数据,服务层在性能数据处理上,可对性能数据进行汇总计算,提供给上层应用性能指标、性能告警等数据。同时,服务层可提供基础数据接口服务,便于其他系统或者上层应用调用业务能力。

3.应用层

在系统中,应用层是人机交互层,实现业务监控、告警监控、监控概览、系统管理、报表分析、配置管理等模块。

业務监控,是在业务维度上,实现端到端的拓扑监控,比如客户接入-本地网-传输网-核心网-骨干网-云资源池,在业务层面上,实现业务故障实时检测以及定位。

告警监控,主要是在告警维度上提供监控功能,能够对云网业务相关所有告警信息进行实时监控,包括云侧、网络侧所有的活动告警以及历史告警,可配置告警的规则,比如告警通知、合并以及预处理等。

监控概览,对云网融合业务的整体情况进行展示,统计监控云网融合业务所有维度指标,比如业务数量、业务分布、业务故障、业务告警以及业务工单等监控。

系统管理,主要包括日志管理以及账号权限管理,其中日志管理为系统操作日志监控提供查询功能;账号权限管理是指对组织机构、账号、岗位、用户组等部分内容的菜单授权、增删改查等操作。

报表分析,根据日常工作的需要,对云网融合业务的分析报表进行定制化开发,周期提供一些报表,包括业务故障统计报表、业务流量统计报表以及工单统计报表等。

配置管理,主要包括网络拓扑、网络设备的基础资源管理、客户信息、业务产品等信息管理功能,同时提供查询基础资源的功能。

(二)系统技术的设计

1.采集模块的技术架构

在系统中,采集模块主要包括采集层、网元层、展现层以及处理层等,对于每层来说使用不同技术对相应的功能进行实现,各层间使用接口进行串联,接口主要是HTTP、JMS、JDBC、DAO等。

对于采集层来说,主要用协议接口适配网元层接口,比如SOCKET、JACOKB、SNMP、FTP、JDBC等协议或者标准。

对于处理层来说,可分成业务层以及持久层,其中业务层主要负责各种业务逻辑的实现,而持久层主要负责对应用持久性数据进行管理、存放。用到的技术组件主要是SPRING、HIBERNATE、EHCACHE、QUARTZ等。

对于展现层来说,主要是关于页面呈现上的技术,比如HIGHCHART、JSP、STRUCT、YFILES、AJAX等。

2.数据处理模块的技术架构

在系统中,数据处理主要是选用先进的、稳定性好的大数据框架或者技术组件帮助系统进行数据的缓存、处理、计算以及检索等。

Redis:其是通过NoSQL技术而建立起来基于Key-Value结构的一种内存数据库,支持易于扩展的、灵活的数据模型,同时支持高可用、高性能能力。在内存中,通过Redis建立告警缓存、资源缓存、资源索引、性能缓存、配置信息以及前台状态缓存等,进而实现大数据量的、高效的条件查询、循环判断、数据聚 合能力,提供给矩阵实时计算以及性能趋势分析等高效的处理能力。

Elasticsearch:此为基于Lucene的一个搜索服务器,可提供分布式多用户能力的一个全文搜索引擎,使用RESTfulwA接口。其是通过Java语言开发的,且当做Apache许可条款下开放源码而发布的,属于比较流行的一种企业级搜索引擎。其在云计算应用中,可实现实时的、稳定的、可靠的、快速的搜索,同时安装、使用比较方便。

Flink:此为是开源流处理计算框架以及分布式处理引擎,可有状态计算无界数据流以及有界数据流。在数据流分布式计算中,其可提供数据分布功能、数据通信功能、容错机制功能等。其以数据并行以及流水线的方式对任意流数据程序进行执行,系统在流水线运行时可执行流处理程序、批处理程序。

Kafka:此为高吞吐量的一种分布式发布订阅消息系统,存在多种特点,比如吞吐量高、延迟低、能扩展、高可靠性以及持久性等。

3.应用模块的技术架构

系统应用层为前端提供可视化交互功能,且可提供系统业务处理数据,应用层提供必要展示业务处理数据以及直接业务处理数据。在技术上,通过SpringCloud的应用,且基于数据处理层,对服务的微服务架构进行实现,使微服务架构的优势得到充分的体现。在可视化上,系统客户端经浏览器加载互动,选择目前流行的一些微服务架构当做核心应用后台。

系统可视层应用Vue技术,Vue.js为一个渐进式框架,可对数据驱动web界面进行构建,其核心为一个响应的数据绑定系统,有多种特点存在,比如简单易学、有轻量级框架、组件化、双向数据绑定、虚拟D0M、数据和结构分离、视图以及运行速度快等。

(三)硬件需求的设计

我国某运营商的管理数据以及业务规模为:三千万个资源数据、每天五百万条告警数据、每天九千万条性能数据、预估每天八千个工程信息。其系统硬件资源配置为:10个32G/256G(CPU/内存,下同)配置2THDD磁盘的虚拟机进行数据处理;8个32G/128G配置8THDD磁盘的虚拟机进行数据库服务;18个16G/64G配置300G磁盘的虚拟机进行应用服务;12个8G/32G配置500G磁盘的虚拟机进行数据采集。

四、结束语

在线上业务快速发以及5G商用等多重作用影响下,各行各业对上云的需求越来越强烈,使云、网打破了界限而相互融合,云网融合是未来发展的必然趋势。随着云网融合的发展,载体-数据中心的规模逐渐增加,越来越多的云应用出现,云网融合下的运维面临着多样化、多种云的行业应用以及超大规模网络,需要有效的、一体化的运维管理。目前,面向云网融合的运维管理平台正在从单一工具集产品需求转变成对完整解决方案的需求,急需新技术变革对目前的困局以及挑战进行解决。

面向云网融合数据中心的运维管理需要向标准化服务、一体化运维的方向发展,进而向智能化演进以及自动化发展,一些自动化运维服务在实际中得到应用,帮助用户处理耗时、耗力等工作,比如环境动力监控系统以及3D可视化管理等。如何从底层云网基础设施到上层应用服务的对多个数据中心整体进行管理以及监控、提升数据中心运行的效率、融合多维数据主动运维、从根源上对故障发生进行控制,确保业务能够稳定的、高效的运行,是目前急需解决的一个难题。而且,云网业务在飞快的发展,导致面向云网融合的一体化运维管理越来越重要,而且也变得越来越繁琐[4]。本文根据某运营商系统目前现状,并且结合云网融合业务的特点,设计出面向云网融合业务全方位的运维管理方案,充分满足一体化运维管理的需求,使云网业务的服务质量提高,同时使客户感知提高,最终使云网业务市场的核心竞争力提高。

参  考  文  献

[1] 宋志刚,林杰,王金超. 基于容器云为云网融合提供全面运维服务的“云网管+”平台[J]. 信息技术与信息化,2021,30(2):118-121.

[2] 徐小辉,柴绪厅,罗洋,等. 基于物联网的实训场所运维管理数据采集系统设计[J]. 现代工业经济和信息化,2021,11(9):39-40.

[3] 吴秋玫,杨鸥. 基于历史运维数据特征的监控系统告警阀值自动设定[J]. 电子元器件与信息技术,2021,5(5):237-239.

[4] 刘吉,孙俊英,陈忠超,等. 基于ElasticSearch全文检索的农业地理信息大数据平台设计与实现[J]. 测绘与空间地理信息,2021,44(6):162-164.

猜你喜欢

系统设计
基于FCR的城市地下供水管网应急处置系统设计
基于移动互联技术的通用评价系统的设计
基于UML技术的高校贫困生管理系统建模分析
一种基于SATA硬盘阵列的数据存储与控制系统设计研究
目标特性测量雷达平台建设构想
信息管理服务平台项目应用系统设计探析
基于工程应用能力培养的智能终端课程改革与实践