APP下载

基于网络拓扑结构的告警事件关联分析算法研究

2017-06-02刘军楚家辉

数字技术与应用 2017年4期
关键词:关联分析

刘军 楚家辉

摘要:网络告警是网络故障定位与解决的关键,而目前告警事件太多,太杂,直接影响了故障的快速定位与解决。通过基于拓扑结构的关联分析算法,实现对告警事件的归并、压缩和关联分析,筛选出关键告警,提高故障发现与解决的效率,保障网络及其相关IT基础架构运行的稳定。

关键词:告警;拓扑关系;关联分析

中图分类号:TP393.01 文献标识码:A 文章编号:1007-9416(2017)04-0144-01

1 前言

随着信息技术的迅猛发展,现代企业对于信息资源的依赖性越来越强,网络规模也越来越庞大。目前,电网公司为了提升管理能力和业务水平,建成了各类型的众多业务系统。所有的系统对于电网公司的正常运转都至关重要,如何保障业务系统的运行,提高业务系统的稳定性和可用性就成为了目前最重要的问题,只有保证网络及其相关IT基础架构的稳定,才能保证业务系统的稳定。

作者通过研究网络事件的关联分析算法,提供一种从大量的网络事件中提取关键、核心事件的算法,以便快速定位网络故障的源头和影响范围,避免关键故障告警被大量“无用”事件淹没,提高故障发现与解决的效率,保障网络及其相关IT基础架构运行的稳定。

2 研究背景

网络事件主要分为两类:一种是根据资源的运行数据,如CPU的使用率,内存的使用率,按照预先配置好的阀值规则而生成的事件。一种是由资源,如网络设备,根据自身系统的设定而生成的事件。这类事件是由设备的厂商按照一定的原则定义,不仅包括故障信息,还包括一些审计信息,如用户的操作行为等。

目前,在网络管理领域,针对网络事件关联分析进行了一系列的研究,但是没有考虑网络拓扑结构对事件关联分析的重要性。

针对现有网络事件关联分析设计的不足和电网公司网络结构的特点,本文提出了一种基于拓扑关系的网络事件关联分析机制,该机制充分考虑了网络拓扑结构在事件关联分析中的重要作用,将两类事件进行统一分析,有效地提高了网络事件关联分析的准确性和实时性,并提供了一定趋势分析能力。

3 关联分析算法设计

由于不同厂商之间事件格式的不统一,在对网络事件进行关联分析之前,需要对事件进行规范化,将格式统一。在对网络事件进行格式统一后,就可以针对网络事件进行关联分析,以分析网络事件的根源、影响范围等。

3.1 聚合算法

网络事件数量庞杂,存在大量重复的事件,因此在对网络事件做进一步分析之前,首先需要对网络事件进行聚合。对网络事件的聚合主要分为两类:

(1) 对于不断重复出现的单条事件,按照时间进行聚合,记录事件发生的次数,并记录第一次和最后一次该事件产生的时间,作为事件的开始时间和结束时间。

(2)对于一组相关联的事件,根据两个事件之间的间隔时间进行聚合,而聚合后的事件还可以按照持续时间进行再一次的聚合,记录其发生的次数。

3.2 影响分析算法

网络事件的影响分析实际就是与规则进行相匹配的过程。影响分析算法的具体步骤为:

首先,根据网络拓扑结构和业务拓扑结构,生成设备与业务的影响关系树。N1设备的告警可能是引起N2,N3,N4等设备的告警。拓扑结构中的每个可能的告警设备,都用一个故障树描述其故障关联。最终,所有的故障都可以汇聚到引起业务系统的故障。在影响关系树上,定义两种关联关系:连接关系和包含关系,连接关系一般指这个设备与另一个设备之间有连接。包含关系一般指一个资源在另一个资源上运行。

其次,针对单个资源,将其网络事件与规则库中定义的各种规则进行匹配,形成该资源的关联关键事件。

最后,根据影响关系树,分析设备的事件可能造成的影响范围和影响程度,完成网络事件的影响分析,并根据其影响范围和影响程度的大小,定义该事件的紧急程度,并将影响范围内与其相关联的事件进行连接、归并。

4 告警模块设计

基于规则库和关联分析算法,本文根据电网公司网络结构的特点,建立了一种分布式的告警模块的系统模型,主要包括以下几个部分:

规则维护:提供对事件规则库中的各类型规则的维护功能。

事件接收器:负责接收网络中各类资源生产的原始事件,并上报。

事件生成/标准化:根据基础采集器上报的运行数据,按照预先配置的阀值规则,生成标准格式的事件;对接收到的原始事件进行规范化,统一格式。

事件關联分析:根据资源库中的拓扑关系和规则库中的规则,对由事件生成/标准化生成的标准事件进行关联分析。

5 结语

网络事件的关联分析是网络管理的一个重要内容,是故障定位的前提。本文根据电网公司网络环境和业务系统的特点,提出了一种基于拓扑结构的网络事件关联规则。基于规则与网络、业务拓扑关系,本文设计了聚合、影响分析等两种种关联分析的算法。最后在规则和算法的基础上,本文提出了一个告警管理模块的系统模型。

猜你喜欢

关联分析
“鹰眼”大数据安全管控平台的技术实现解析
基于随机函数Petri网的系统动力学关联分析模型