APP下载

基于AI的基站及回传网故障定因

2019-12-10叶晓斌姚丽红刘惜吾马丹丹程亚锋中国联通广东分公司广东广州510627

邮电设计技术 2019年11期
关键词:日志运维基站

叶晓斌,姚丽红,刘惜吾,马丹丹,程亚锋(中国联通广东分公司,广东广州 510627)

1 概述

2019年6月6日中国联通获颁5G运营牌照,5G网络的建设和商用进一步提速。广东联通作为5G 的先发城市,到2019 年底预计全省开通10 000 个以上5G站点。

1.1 5G网络运维面临挑战

5G 网络建设的推进,促使网络规模不断扩大、网络复杂度不断提升,2G/3G/4G/5G 四代同堂,故障修复越来越难。与此同时,传统的维护手段和工具,如性能监控、告警类应用通常处理的数据量较小、数据相关性分析不足、故障前瞻性预测不够。对5G网络和业务的运行状况进行持续有效的监控,迅速实现故障恢复是5G业务保障的重要工作。

1.2 AI技术的发展和推广应用

AI 技术诞生于20 世纪中叶,几经沉浮,近年来借助现代计算和数据存储技术的迅猛发展再次复兴,凡是给定场景涉及到了数据的统计、推断、拟合、优化及聚类,AI 均能找到其典型应用。目前,AI 应用已经渗透到语音识别、图片识别、视频识别等技术领域,覆盖行业包括车联网、物联网、互联网等。

AI 技术为5G 网络运维面临的挑战提供了一种超越传统理念与性能的可能,已成为业界重点关注的研究方向,3GPP、ITU 等组织均提出了5G 与AI 相结合的研究项目。AI 取代缓慢易错的人力决策部分,快速给出决策建议或提前规避故障,基于AI的运维创新将大大提升网络运维效率。

2 解决方案

广东联通2018 年底启动“5G+AI 项目组”,选取基站及回传网的主要故障场景进行了详尽的分析,提出了基于AI的基站及回传网故障定因解决方案,方案主要包括三大部分。

a)资源管理:通过移动回传网与基站的资源动态关联,实时感知业务状态。

b)事件推理:基于设备日志的学习及抓取,还原网络中的关联事件,提供最佳抢修建议。

c)根因定位:对关联事件中的关键信息进行学习,由专家进行标注,直达故障根源。

2.1 资源管理

广东联通目前无线基站数量已经超过12万,作为回传网的IPRAN 设备数也已经超过3万,随着5G 网络建设的进一步加快,网元数量会更多。按照传统的资源管理模式,广东联通要安排至少22个专职的工程师进行网络资源数据的管理。

作为整个方案的基础,提出通过基于基站与回传网的信令链监测,实现资源自动关联,同时做到4G/5G基站的自动识别,在故障处理时强化业务感知能力。基站和回传网资源数据的自动识别为AI 算法在事件推理和根因分析中的应用提供必备的基础。

目前IPRAN 网络中对基站的地址管理,网络部署方案采用L2VPN+L3VPN(简称L2+L3)和L3VPN+L3VPN(简称L3+L3)2 种,在不同的网络部署方案中,基站的网关会配置在不同角色的设备上,其中L2+L3组网的基站网关配置在汇聚设备ASG,L3+L3 组网中基站网关配置在CSG上。

L2+L3基站发现流程如图1所示。

a)无线侧:通过FTP 服务器获取无线基站相关信息,包括基站名称、MAC、IP地址、GPS信息等。

b)IPRAN 侧:采集所有基站的MAC 地址、IP 地址,采集ASG 至CSG PW 的连接信息,构建CSG 与基站MAC的关系。

c)无线侧与IPRAN 跨专业关联:通过基站MAC与IP把无线的基站信息与IRPAN的CSG进行关联。

L3+L3基站发现流程如图2所示。

图1 L2+L3基站发现流程

图2 L3+L3基站发现流程

a)无线侧:通过FTP 服务器获取无线基站相关信息,包括基站名称、MAC、IP地址、GPS信息等。

b)IPRAN 侧:采集所有基站的MAC 地址、IP 地址,构建CSG与基站MAC的关联关系。

c)无线侧与IPRAN 跨专业关联:通过基站MAC与IP把无线的基站信息与IRPAN的CSG进行关联。

以广东某地(市)为例,通过上述方式发现的基站占比到达98%,准确度100%。

研究发现,基站如支持新一代发现协议,如LLDP,系统可以通过60 s 刷新的粒度进行监测,满足后续分析的需要。

2.2 事件推理

基于基站及回传网设备的资源信息,系统可以快速收集全量网络日志信息,并通过AI算法实现事件推理,最大程度地还原网络发生的事件,从而给出最佳的抢修建议。事件推理通过离线分析积累故障经验库,通过在线分析推理出故障原因。系统架构如图3 所示。

图3 事件推理技术架构

日志量、模块数异常检测:以5 min 的颗粒度对日志量以及模块数以3σ准则进行异常数量检测,假设当前时刻t6 的日志量和模块数分别为N6 和C6,分别计算出前6 个周期(t0~t5)的日志量和模块数的均值u1、u2和方差σ1、σ2,若(|N6-u1|>3 σ1)and(|C6-u2|>3σ2)则判定此时刻的日志为疑似异常,触发日志异常检测模块。

日志截取:基于日志量、模块数,对疑似异常时间段取前后5 min 日志进行截取分析。对日志以10 s 时间粒度为界限,以滑动窗口方式进行截取,若10 s内出现新的日志窗口继续后延10 s,直至无日志出现。

如将09:30:39 的数据进行合并,10 s 内的日志归并为同一事件所产生的日志,即09:30:39—09:30:43的日志为同一个事件的日志。同理09:31:09—9:31:11的日志共4条为同一事件的日志。

基于日志内容NLP 异常检测:基于历史日志,使用异常检测算法Autoencoder 对截取的日志内容进行异常检测,判断日志内容是否为异常。该方法采用autoencoder 作为编解码器,分别为编码encoder 与解码decoder,其中encoder 和decoder 分别有2 层,其中encoder参数分别为16维、8维,decoder参数分别为8维、16维,输入one-hot编码的文本。

日志分类模型:若检测日志内容为异常,利用离线训练好的分类模型,对日志内容进行类别区分。

故障推理:故障推理是根据故障日志类别与故障经验库进行比较,识别出故障类型,并根据日志中关键信息,提取出故障主体信息,从而绘制出完整的故障事件。

2.3 根因分析

系统通过对日志信息的提取和分析,对关联事件中的关键信息进行学习,并由专家进行标注,直达故障根源。

以日志The physical status of the port changed to Down.(EntPhysicalName=“GigabitEthernet0/5/0”,hw-PortDownReason=“LOS”)为例:

a)提取日志模板:将检测出异常的日志,转换为数字词典的形式,同一类日志对应同一个数字,并提取其中变量,如案例日志提取为:[日志1,“GigabitEthernet0/5/0”,“LOS”]。

b)抽取重要日志:由专家进行标注训练二分类模型,实现抽取性文本摘要功能,抽取出能反映根因的日志,并按照日志手册返回时间、可能原因以及处理意见。

c)工程师注解:光丢失,建议派单至传输专业。

3 现网验证

以广东某地(市)2019 年3 月25 日发生双开故障为例,通过该方法快速感应到故障所在位置,并且快速得出故障根因。

3.1 拓扑及故障还原

通过移动回传网与基站的资源动态关联快速感应到故障所在位置(见图4)。

图4 故障所在环路拓扑图

3.2 异常检测及预警

3.2.1 流量异常告警

环路中的ASG 设备接口GigabitEthernet4/0/4 从2019-03-25T14:15就开始陆续出现流量异常告警。

3.2.2 日志异常告警

系统实时检测环路中的设备,以5 min的颗粒度对日志量以及模块数以3σ准则进行异常数量检测,发现设备10.28.74.14在2019-03-25的14:15和14:50都有日志预警,该设备日志数量环比上升2 266%,日志成分数量环比上升466.6%,超过3σ 准则动态阈值,判定此时刻的日志为异常。此外算法还监控到设备10.28.74.11 在2019-03-25 的14:50、设备10.28.74.19在2019-03-25的15:40均有日志异常。

3.3 事件推理分析

上述算法识别出来的异常事件点的日志进一步模板格式化,为每一条日志打上分类标签,并分配一个离线训练好的模板ID,调用日志内容NLP 异常检测算法Autoencoder,检测到设备10.28.74.14 日志的还原误差是918.2828993、设备10.28.74.22 日志的还原误差是908.7424327、设备10.28.74.11 日志的还原误差是595.5569471,还原误差均超过误差阈值50(经验设定值)。

系统通过算法Autoencoder 分析出<10.28.74.14>、<10.28.74.22>、<10.28.74.11>3 台设备日志有异常。同时,捕捉到<10.28.74.14>设备在2019-03-25T14:17:18 有环口链路中断日志,在2019-03-25T17:07:34有环口链路中断恢复日志;捕捉到<10.28.74.22>设备在2019-03-25T14:49:00 有环口链路中断日志,在2019-03-25T15:38:32 有环路链路恢复日志;算法捕捉到<10.28.74.11>设备在2019-03-25T14:49:00 有环口链路中断日志,在2019-03-25T15:38:32 有环路链路恢复日志。

根据捕捉到的异常日志中的关键信息,结合故障主体信息,从而绘制出完整的故障事件。

与故障经验库进行比较,进一步推理识别出故障类型,分析该故障的根因为链路双开:2019-03-25T04:49,某地(市)AR**环路双开引起大面积断站。

4 结束语

基于研究的成果,先后在广东联通多个地(市)进行测试验证,试点应用情况如下。

2019 年5 月在广东某地(市)开始试用,完成2 次抢修验证,抢修优先级统筹时间由30 min 大幅缩减至3 min,提速90%。

对于故障的定因分析,2019 年5 月开始某地(市)试点,在线监测分析22 个接入环、200 台设备的日志,基于日志对历史故障离线验证5 次,跟工程师验证效果吻合,准确率100%。

综上所述,基于AI 的基站及回传网故障定因方案,可以借助AI 算法和IT 系统的能力,切实解决困扰运维部门的维护难题,为广东联通在5G网络运维提供了高效可行的技术手段,有望在未来的5G网络运维中大幅提升工作效率和降低运营成本。

猜你喜欢

日志运维基站
一名老党员的工作日志
扶贫日志
运维技术研发决策中ITSS运维成熟度模型应用初探
雅皮的心情日志
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
游学日志
基于移动通信基站建设自动化探讨
可恶的“伪基站”
配电线路的运维管理探讨