APP下载

基于关联规则挖掘算法的规则发现系统的设计和实现

2010-08-07逯晓鹏杨芳南

铁路计算机应用 2010年3期
关键词:网元关联管理系统

逯晓鹏,杨芳南

(北京交通大学网络管理研究中心,北京100044)

电信网多网的融合,促进了综合网络管理系统的发展。综合网络管理系统实现了对传输网、交换网和数字调度网等专网的统一监控和管理。因此告警类型多、数量庞大是综合网络管理[1]系统的告警特点。有效地进行系统的告警故障管理,就需要对告警进行相关性分析。告警相关性分析中规则是其不可缺少的必要条件。目前,市场上提供了很多告警相关性分析的产品,许多都是利用以往总结的规则进行相关性处理。因此,规则的获取成为目前市场上告警相关性分析亟待解决的一个问题。规则的获取一般有两种方式:通过网管方面专家的经验总结获取规则;通过对告警数据的挖掘获取它们之间的关联关系,即挖掘规则信息。但是针对电信网络不断变化的需求,第1种方案很难适应这种需求。因此需要更为精确的手段来获取规则。关联规则挖掘算法提供了一种好的手段来实现对告警数据的规则挖掘。

1 关联规则挖掘算法

1.1 经典Apriori算法

算法的核心思想:(1)通过扫描数据集,产生一个大的候选数据项集,计算每个候选数据项发生的次数。(2)基于预先给定的最小支持度生成一维大数据项集L1,基于L1和数据集中的数据,产生二维大数据项集L2。(3)用同样的方法,直到生成N维大数据项集Ln,其中已不再可能生成满足最小支持度的N+I维大数据项集。(4)从得到的大数据项集中导出满足最小置信度的规则。

1.2 算法挖掘质量改进

在经典的Apriori算法基础上,为了保证算法应用的有效性和挖掘质量的高效性,引入加权和序列模式的思想。其中,序列模式[2]是从时间上约束[3]关联规则挖掘算法,增强告警数据的统计特性。在算法的应用上,我们根据时间跨度将告警数据划分为不同的时间序列,即事务,这样也方便了每种项目集的支持度的计算。关联规则算法挖掘告警数据的结果就是从数据当中挖掘出数据之间存在的统计规律即关联关系,如果告警数据不存在统计规律也就不存在规则而言,我们不会挖一些随机性的规则,那是毫无意义的。因为统计分析是在一定范围内分析数据信息之间存在的规律。序列模式的时间跨度约束了挖掘算法的分析范围。

对告警信息进行加权是因为一般情况对于告警数据进行规则挖掘时,每条告警都是平等对待。但是实际情况下告警之间存在着轻重之分,从告警数据的直观属性(如:告警级别),可以分出轻重。严重告警往往是一些提示告警的根源告警。既然是寻找告警之间的关联关系,因此告警网元之间的拓扑关联关系更能体现它们之间这种告警关联程度。因此分析网元在整个网络的拓扑结构对于区分告警之间轻重关联关系是十分重要的。本文将利用相关研究中提到的层次分析法[4]来确定不同告警项目集的权值。层次分析法可以将定性问题定量化,因此它是一种较科学的确定告警权重的方法。

经过对相关改进方法的深入研究,关联规则挖掘算法在提高挖掘质量上具有可行性。因此,可将其应用到综合网络管理系统的规则发现系统中。

2 算法在综合网络管理中的应用

为了将对经加权[5]和序列模式处理的告警数据进行关联规则的挖掘算法应用到综合网络管理系统中,我们需要分析综合网络管理中的告警数据及其属性,从而进行相应的设计。

2.1 权值的设计

在综合网络管理系统中,对告警数据进行加权处理。首先考虑影响权值的因素,它们是告警级别和告警网元的拓扑关联度数。对于告警级别,一般的综合网络管理系统数据库当中都存放着一张告警级别表,这样可以直接获得级别信息。告警网元之间的连接线一般为复用段、再生段或逻辑连接线,因此可以通过分析数据库中相应的连接线表得到网元的拓扑结构,计算不同网元对应的拓扑关联度数。

综合网络管理系统的局部网元拓扑结构如图1。

图1 网元拓扑图

其中,每个网元的拓扑度数即为与该网元连接的复用段的条数。

图1给出综合网络管理系统中部分网络资源的拓扑图,每个网元之间的连接线数表明了它在整个网络中的关联强度。它们之间的关联性描述为:某一传输网网元产生告警,在专网上会引发另一个与其关联度强的传输网网元产生告警;在综合网上会引发接入网的CT端或RT端产生告警。这就进一步说明了在综合网络管理系统中确定网元的拓扑关联度,对于根告警的确定十分重要的。

根据上面得到的告警属性值,建立层次结构模型,就可以得到相应的权值。

2.2 序列模式分析设计

对于序列模式,可以根据告警的发生时间对挖掘数据进行时间跨度的划分,将它们分成等时间跨度的告警事务集,然后根据挖掘频繁项目集算法挖掘满足支持度的频繁集。

图2 告警时序图

如图2,在时间轴上,有着大量的告警产生。分析发生的告警,告警事件C总在告警事件A与B发生后的△t时间间隔内发生,因此我们会考虑分析告警事件A,B和C之间可能存在明显的关联关系,即{A,B}→{C}。对于事件E,如果按照时间的先后顺序,它也是发生在告警事件的A和B之后,但是没有一个时间范围来约定在多长的时间段内它将会发生。因此对于告警事件A与B来说,告警事件E相对于他们的发生是随机的,既然是随机的也就不存在任何的关联关系。如果不给予时间的约束,可能会同样推出这样的规则关系, 即{A,B}→{E},但是实际上他们之间不存在这样的关联关系,从而影响挖掘结果的准确性。可见将序列模式应用到告警相关性分析的规则挖掘中至关重要。

讨论了序列模式引入的必要性,接下来应该根据具体需求设计序列模式的时间跨度,本文所述系统设计中,将其作为参数,客户可以根据需求设定不同的时间跨度,确定符合自身工程需求的时间跨度。

可以看到,加权[6]和序列模式都是在规则挖掘算法执行之前对告警数据的处理。因此挖掘质量的好坏,关键在于对挖掘数据的处理情况。

2.3 综合网管中的关联规则算法

结合前面介绍的关联规则挖掘算法[7]和本节当中的算法改进设计,给出在综合网络管理中应用的关联规则算法模型。本文中,综合网络管理系统使用的关联规则算法的挖掘对象是告警数据,用于挖掘告警数据中的关联规则。

下面用到的告警分类集是根据告警的属性,即告警级别,告警类型,告警对象类型,告警所属网元和告警原因,为比较对象划分的告警类集合。

设告警分类集为I={i1,i2,…,im};告警分类集中每种告警对应的权值为W={w1,w2,…,wm};用时间跨度将告警数据按时间顺序划分形成的对象告警集为t;Lk项告警频繁项目集即Lk中每个元素是由I中k个不同的告警组成,且Lk的每个元素{ij1,ij2,…,ijk(}1≤ijk≤m),满足最小支持度;Lk中的每个元素{ij1,ij2,…,ijk}存在的告警规则形如{ij1,ij2}→{ij3,…,ijk},且前后两个子集满足条件:{ij1,ij2}∩{ij3,…,ijk}=Φ和{ij1,ij2}∪{ij3,…,ijk}={ij1,ij2,…,ijk}

挖掘综合网络管理中告警数据关联规则的算法步骤如下:

(1)按时间跨度将预处理后的告警数据按时间顺序划分为多个告警集t,去除每个告警集t中的重复告警类。

(2)在划分的所有的告警集t中,寻找1项告警频繁项目集L1。

(3)以(k-1)项告警频繁项目集Lk-1为基础,在划分的所有告警集t中,寻找第k项告警频繁项目集Lk(k≥2),直到得到的Lk为空集为止。

(4)获取告警频繁项目集的集合L,L=L1∪L2∪…∪Ln(1<n<m)。

(5)取告警频繁项目集集合L中的元素Lk,寻找并计算Lk每个元素中存在的满足最小置信度的告警关联规则,直到L中的所有告警频繁项目集元素都处理完毕为止。

(6)将满足要求的告警关联规则放入待处理的规则库,算法执行完毕。

图3 综合网管系统中关联规则挖掘算法流程图

算法的流程如图3。

上述给出了经过加权和时间约束处理的关联规则算法,应用于挖掘综合网络管理系统的告警数据的关联规则[8]。算法模型的建立使规则发现系统的实现成为可能。

3 系统设计

规则发现系统的执行过程大体上分为3个阶段:挖掘数据的预处理阶段,规则的挖掘阶段和挖掘规则的后处理阶段。3个阶段的功能各不相同,对于第1阶段实现对挖掘数据的预处理:去噪音,去重复记录,告警数据降维,赋权值和数据分类操作。这一阶段是保证挖掘质量重要环节。算法中引入的加权和序列模式也在这一阶段完成。第2阶段就是Apriori算法的执行阶段。第3阶段是对挖掘规则的后处理阶段,由于挖掘出来的规则很粗糙,并且有些是冗余的,因此需要对规则进行删减和编辑,使其符合告警相关性分析的格式需求。

3.1 系统框架设计

图4是规则发现系统的框架图。

图4 规则发现系统框架图

其中,规则发现系统作为一个独立的功能进行开发,但实际上在综合网络管理系统中,规则发现功能模块和基于规则引擎的告警相关性分析模块集成作为整个系统的告警相关性分析系统。前者为后者提供告警规则,后者利用告警规则进行告警相关性分析。

3.2 系统流程图设计

系统执行流程如图5。

图5 规则发现系统流程图

4 系统实现

4.1 频繁集发现分析

本文以传输网网管系统5个月的157 610条告警数据进行规则挖掘。

图6给出算法在经过加权处理和没加权处理情况下,不同最小支持度下得到的告警频繁项目集数坐标对照图。

图6 加权和没有加权情况下频繁集数的对照图

可以看到,经过加权处理的挖掘算法的曲线频繁项目集数随着最小支持度的增加,变化得比较缓慢,这是因为权值呈现了不同告警的轻重,从而不会轻易丢掉存在关联的频繁项目集,并且在0.1的支持度附近变化率最小。

4.2 挖掘规则结果分析

选定的规则挖掘结果的时间跨度为10 min,支持度和置信度分别为:0.1和0.95。挖掘规则中的两条规则如下:

挖掘规则1:{ALAR_OBJECT_TYPE=19(端口),ALAR_TYPE=1(通信告警),ALAR_LEVEL=2(主要告警),ALAR_ST_ID=94(光道波长丢失)}⇒{{ALAR_OBJECT_TYPE=19(端口),ALAR_TYPE=1(通信告警),ALAR_LEVEL=2(主要告警),ALAR_ST_ID=1(信号丢失)}:对应的置信度为0.97。

挖掘规则2:{ALAR_OBJECT_TYPE=19(端口),ALAR_TYPE=1(通信告警),ALAR_LEVEL=2(主要告警),ALAR_ST_ID=50(告警指示) →电路信号故障}:对应的置信度为1。

需要说明的是本文的规则发现系统发现的规则一般为上述两种类型:根告警规则和告警关联故障规则。对于规则1而言,当端口发生光道波长丢失的告警时,会引发端口信号丢失的告警。光波是信号的载体,光波的丢失必然会导致信号的丢失,因此他们之间存在一定的关联性。与此同时需要对挖掘的这种规则做执行议程的设计即当检测到实时告警满足条件时,将后上报的引发告警进行根告警定位,过滤掉引发告警。对于规则2,它是对告警数据挖掘后发觉的高频告警,高频告警的产生,需要分析告警产生的原因,一般是故障直接导致,因此可以将该类告警直接转为故障操作。不管是规则1还是规则2,这些规则信息都是告警数据的统计结果,并且规则信息也很粗糙,需要人为的对挖掘规则进行编辑和修改,使其符合相关性系统的需要。

以上规则是做加权处理的挖掘算法的挖掘结果,因此也显示了挖掘结果的可行性和有效性。

4.3 系统应用

本系统已经成功地应用到朔黄铁路综合网络管理系统中,实现了规则的自学习,提供了规则来源,完善了综合网络管理系统中告警相关性分析系统。

5 结束语

本文针对综合网络管理系统中对规则获取的需求,设计和实现了规则发现系统,并将其成功地应用到朔黄铁路通信网综合维护管理系统中,解决了规则获取和来源的问题。通过挖掘获取的规则,实现了适应电信网络动态变化的需求。

[1] 郭军. 网络管理[M] . 北京:北京邮电大学出版社,2006,4.

[2] 姚伟力,王锡禄,宋俊德. 基于序列模式挖掘的告警相关性分析算法[J] . 北京邮电大学学报, 200(510).

[3] 崔立新.约束性关联规则发现方法及算法[J] .计算机学报,2000,23(2):216-220.

[4] 肖海林,李兴明. 层次分析法在通信网告警相关性分析中的应用研究[J] . 电信科学,2006(11).

[5] 李彤岩,肖海林,李兴明. 通信网告警加权关联规则挖掘算法的研究[J] . 电子科技大学学报,2008(6).

[7] Cai C H,Fu W C,Cheng C H. Mining association rules with weighted items[D] . Hong Kong: The Chinese University of Hong Kong,2004.

[8] Malheiros M D.A model for alarm correlation in telecommunication networks[D] .Belo Horizonte: Feberal University of Miuas Gerais, 1997.

猜你喜欢

网元关联管理系统
基于James的院内邮件管理系统的实现
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
一种全网时钟同步管理方法
基于LED联动显示的违停管理系统
奇趣搭配
海盾压载水管理系统
智趣
基于RFID的仓储管理系统实现
S1字节和SDH网络时钟保护倒换原理