APP下载

基于大数据自动学习故障预警及定位分析

2022-03-23黄日新刘沙邱远兴刘信彬

网络安全技术与应用 2022年2期
关键词:网元服务质量关联

◆黄日新 刘沙 邱远兴 刘信彬

基于大数据自动学习故障预警及定位分析

◆黄日新 刘沙 邱远兴 刘信彬

(中国烟草总公司福建省公司 福建 350001)

运用大数据分析技术建立网络及应用性能分析指标集与分析海量告警,结合传统的运维模式,将性能指标与告警通过算法从时间、空间、业务拓扑等多个维度关联起来,对网络及信息化系统服务质量评估、运行状态监测、故障预警、网络安全分析与定位已是目前行业信息化服务质量保障的必然趋势。做好对出入网流量的监测和分析,信息系统服务质量评估,加强数据安全、病毒防范、故障预警与定位等工作,防患于未然。以提升行业信息化建设的实效性,透析信息化系统运行态势,保障系统持久常态化运行,提升服务质量与用户体验。

大数据分析;自动学习;故障预警;定位分析;网络监测;关联分析

近年,行业信息化建设了众多的业务系统,有力地支撑了各项业务应用。同时,信息系统服务繁多、部署拓扑复杂、业务关联多,数据传输共享网络传输链路,存在网络业务服务质量下滑,故障难以诊断和排查等问题。

采用大数据自动学习分析技术优化信息系统业务可用性,通过对业务信息网络数据流的分析梳理,实时检测全网各业务系统服务质量,及时发现业务服务故障,有效诊断各业务故障点,指导业务系统故障的排查,提升对网络中复杂业务问题的快速界定,以及故障处理效率。

1 建立业务信息系统服务质量指标集

运用被动方式对业务应用系统网络通信数据进行实时采集分析,分析物理层、链路层、网络层、传输层、应用层五层网络模型中终端用户访问业务应用的事务过程,通过硬件对事务会话过程中的各个阶段打上时间戳标记,统计记录事务过程中的状态信息,并进行计算。从而建立业务系统服务质量关键指标集,具体包括两级指标,一级指标为基础指标,通过硬件直接对网络业务流采集检测,二级指标是在一级的基础上进行统计和自学习分析提取的。

一级指标具体包括:

网络质量关键指标:初始网络延时(到服务端)、初始网络延时(到客户端)、重传次数、载荷吞吐量、吞吐量收发、乱序、各主机流量占用、网络利用率、传输延迟、服务器与主机之间发送的数据包、丢包率等,并形成对应的趋势图;

应用质量关键指标:数据传输时间、连接建立时间、连接请求数、各个服务器的交易时间、子网组(自定义)响应时间、服务器响应时间、应用响应时间、同一IP连接次数等,并形成对应的趋势图。

二级指标包括业务的故障诊断指标、危险预警指标、安全检查指标。二级指标是在一级指标基础上进行构建的,每种二级指标通过分别对其相对应的一级指标进行聚类,并将聚类后的结果进行关联分析,得出该二级指标是否属于正常基线标准。

故障诊断指标:通过对该指标进行分析能够排查出系统中具体业务出现故障的位置,例如某个业务服务由于载荷过大而停止工作等,针对此类问题通过各类业务服务协议具体分析,建立故障样本表及故障网络模型,形成故障定位规则集指标。该指标相对应的一级指标包括具体业务分类的丢包率、延迟时间、载荷吞吐量,最慢应用、最慢服务器、最慢子网组(自定义)、流量占用最大主机等;

危险预警指标:该指标相对应的一级指标大致为基于某业务分类的网络响应时间、服务器响应时间、应用响应时间、数据传输时间、重传次数、网络利用率、传输延迟、丢包率等;

实时告警指标(也叫安全检查指标):该指标可以监测出系统基于某业务是否受到攻击,例如DDoS攻击、ARP欺骗等,并对部分攻击行为进行预警。该指标项对应的一级指标大致针对某业务的同一IP请求连接系统次数、服务器与主机之间发送的数据包数目,以及各主机流量占用、丢包率、网络利用率等。

2 业务信息系统服务质量分析

2.1 应用原理

根据一级指标集,采用混合流模型来计算分析业务流,建立通信流量的服务特征,以更全面地展示复杂网络中的流量特征和预测网络流量,得到故障诊断指标、危险预警指标、安全检查指标等二级指标集。具体而言,在传统的数据模型基础上,根据网络流量的多个表征,提出多模型聚合形成混合流模型来检测业务流规律,结合多个模型的优点,确保对故障的有效监测。

2.2 大数据故障诊断预警模型

通过采集网络通信数据,自动分析识别或自定义业务应用,并梳理归类,结合指标规则生成指标级数据,采用传统统计学,建立基线与趋势模型。运用大数据分析技术建立传统分析模型与二级指标模型以及专家知识形成混合的故障诊断预警模型,从而排查具体业务出现故障的原因与位置。

2.3 智能告警

传统的关联告警工作分为七个步骤,如图1所示。其中前四个步骤又称为关联规则挖掘阶段,再引入大数据的分析和挖掘,由传统人工分析告警、制定并验证关联规则升级为大数据分析挖掘告警间关联关系并验证,即采用对告警特征值相关矢量的设定,自动在海量告警中将符合关联阈值的告警关联呈现,缩短故障定位时间,实现告警关联的自动化、智能化。

采用大数据分析算法分析告警间的关联性是告警关联工作的重要组成部分,将告警间的关系抽象为“距离”,并通过告警自身特性与参数将“距离”表示出来,即可知晓告警之间的关联性,并将其分类统计。通过某告警与其他同类告警的距离和,可得知其相关性以及同类告警内的根因告警。

图1 关联告警的七步骤

(1)告警关联分类算法

告警自身的特征性参数很多,在众多参数中最能表征告警特性的为“告警时间”与“告警网元”,因此可用“时间”和“网元”两个特征参数来表征告警之间的“距离”。“距离”在一定范围内的告警可归为一类告警。定义告警g1与告警g2之间的距离为d(g1,g2)=∂tdt(t1,t2)+∂nedne(ne1,ne2)。其中,d(g1,g2)为告警g1与告警g2之间的距离,dt(t1,t2)为告警g1和g2之间的间隔时间,dne(ne1,ne2)为告警g1和g2之间的网元距离,∂t与∂ne为关联系数。定义t为告警g1和g2之间的时间差,T为经过优化设定的时间差阈值。当t ≤ T时,dt(t1,t2)=0,当t>T时,dt(t1,t2)=1。由上述公式可知,“时间距离”越小,告警g1和g2之间的相关性越强。同理定义{NE}为一个网元集,在同一网元集内的网元强相关,若ne1和ne2在同一网元集内,则dne(ne1,ne2)=0,否则dne(ne1,ne2)=1。通过上述定义可以得到,两告警发生时间间隔越短、在物理或逻辑拓扑上位置越近,两告警之间的“距离”越近。对于“时间距离”和“网元距离”在阈值外的告警,若经过专家研判确实相关,则可通过调整关联系数∂t与∂ne来提升公式的准确性,并反复验证。

(2)同类告警中根因告警算法

定义一个具有告警相关性的告警集合{g}={g1、g2、g3、……gn}。定义gi该集合内告警与其他告警的距离和为di(gi,g),则d(gi,g)= Σj n =1{d(gi,gj)}。通过专家经验可知在一个告警集合内,若其中一个告警与其他告警的相关性最强,则该告警应为该集合内的根告警,即其他告警应为该告警导致。因此若:告警gθ为告警集合{g}内的根因告警,按照先分类再研判根因的顺序,当新的告警产生后,先判断该告警是否可列入到告警集合{g}内,若符合“告警距离”要求,则再迭代计算该告警的距离和;若不符合其要求,则与其他告警集合进对比,或将其列为一个新的告警集合。

(3)关联结果呈现及自动预处理

告警关联的意义是将同一类故障告警进行汇总并分析根因告警,协助运维人员快速准确地定位故障并处理,关联结果的呈现及第一时间进行故障预处理是重要的一个部分。预处理目的是可用指令修复的告警,对于不能通过指令修复的告警,通过指令查询为运维人员提供第一辅助信息。通过上述算法得到根因告警后,利用告警预处理系统自动预处理。将各专业不同厂家、网元、告警的处理要求编写成脚本,根据不同厂家的告警标题匹配相应的脚本自动预处理,预处理后回传指令执行结果,若需派单可将其展示于工单中。

3 结束语

通过基于大数据的故障诊断模型与智能告警分析方法,形成高效精准的、区分业务的、服务质量指标集的采集及故障诊断预警模型;提高故障预警及定位分析能力。

建立标准体系。通过对承载业务的网络流的梳理和统计分析,建立并标准化行业相关业务服务质量流检测指标体系,为各类业务的运行检测、故障发现及预警提供指导依据。

提升业务服务质量。通过对业务服务可用性的监控,为信息资源管理及服务平台提供保障,同时可以对后继信息系统建设过程中的业务系统合理配置提供指导,对业务系统的创建、使用和退出提供指导,有助于提升服务质量和客户满意度。

提高企业效益。通过对业务服务可用性的提升,可以合理整合网络资源的使用,降低信息系统的建设成本和运营成本,提高设备利用率,减少多业务系统在接口项目建设中重复投资,提高企业效益。

指导以后项目的建设。结合信息系统项目建设,在信息采集、传输、交换、存储、处理和共享等环节中,以业务可用性为指导进行优化配置。

[1]李栋.大数据分析在网络监控中的实现与应用[J].通信管理与技术,2020(04):44-46.

猜你喜欢

网元服务质量关联
门诊服务质量管理的实践研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
虚拟光网络中NFV资源分布式调度设计
SDH传输网管网元脱管案例分析
巨型ECC网络对传输系统环保护的影响研究
新媒体环境下图书馆阅读推广服务质量的提高
论如何提升博物馆人性化公共服务质量
“一带一路”递进,关联民生更紧
基于传感器数据采集的快递服务质量分析
奇趣搭配