APP下载

民航TDM 网网管链路检测机制缺陷分析及应对方法

2022-07-21

设备管理与维修 2022年12期
关键词:网管干线中断

黄 河

(中国民用航空珠海进近管制中心,广东珠海 519015)

0 引言

民航TDM 网是一张用于承载空中交通管制甚高频语音、雷达和ADS-B 信号、管制专线电话、民航电报的全国性通信网络,该网络于2018 年建成,经过测试、优化和业务迁移,于2020~2021 年投产运行。在运行过程中发现eSight 网管检测机制存在缺陷,中间有光传输设备的中继干线中断时网管不告警。

1 链路状态检测机制

1.1 现象

民航TDM 网因带宽需求较大,各运行现场核心机房至外台大部分不再使用传统2M 干线,而是使用运营商(或自有光传输设备)的MSTP 以太网干线,当承载MSTP 干线的光传输设备中间链路中断时(例如:光缆被挖断、光传输设备交叉板故障等),民航TDM 网eSight 网管监控上故障的干线仍保持“绿色正常”,既干线中断网管未能有效告警,且不仅不告警,还将故障的干线显示为“正常状态”。因此,该现象不仅无益于故障的及时发现,甚至会误导技术人员的排障工作,是较为严重的安全隐患。

1.2 相关案例

案例1:某单位民航TDM 网在正式投产之前进行台站干线切换测试,当手动将主用的联通4M MSTP 干线中断后,备用干线未能切换成功,造成台站远端节点掉线,相关承载业务如甚高频等全部中断。后经排查,发现备用的电信4M 干线已至少中断7 d 以上。

案例2:某单位民航TDM 网至外台有电信和联通2 条干线,主用为电信,备用为联通。电信来电通知将进行割接,相关链路将中断,因有2 路干线保障传输,因此同意电信实施割接。但割接实施过程中发现台站远端节点整体掉线,相关承载业务全部中断。后经排查,发现备用的联通链路中断,且未知已中断多长时间。

案例3:某两个单位之间进行民航TDM 网干线切换测试,测试时通过断开民航光传输设备中间链路的方式(而不是拔网线的方式)中断主用链路,发现双方民航TDM 网eSight 网管均未产生干线中断告警,且断开的链路显示“绿色正常”。后经人工ping 测试,判断链路确已中断。

1.3 排查思路

前文“案例3”为笔者首次发现该隐患的实际案例,发现该隐患后立即着手进行全面分析,并制定了科学的分析计划,抽丝剥茧,最终找到问题根源,并使用技术手段加以解决,最后进行技术验证和测试。故障排查的整体思路:①研究网管检测机制;②得出网管判定干线故障的变量;③分析变量与实际状态的差距;④使用技术手段解决变量与实际的差距问题;⑤技术验证、实测、上线试运行;⑥推广至其他运行现场进一步测试。

1.4 排查步骤

1.4.1 搭建纯虚拟化模拟实验平台

技术人员使用华为eNSP 模拟配置实操软件(该软件一般用于华为网络工程师培训)搭建模拟测试平台,并将实验平台的虚拟路由器连接eSight 网管软件。在这一过程中,同时解决了如何在一台电脑上搭建“eSight 网管+虚拟路由器”的纯虚拟化民航通信网实验平台(图1、图2)。图中使用了两台HUB 代替光传输设备(光传输设备可以理解为物理层透传设备),两台HUB 中间的链路即为“中间链路”,接下来将模拟该中间链路中断情况,以此模拟光传输设备中间光纤中断的情况。

图1 eNSP 模拟配置实操软件上制作的实验拓扑

图2 虚拟化平台的eSight 网管

在正常状态下,eSight 网管通过“LLDP”协议来发现干线,“LLDP”协议是一种链路发现协议,当两端网络设备均开启了该协议后,可以自动发现LLDP 邻居,路由器即可知晓对端网络设备的详细信息,包括对端端口号、IP 地址、管理地址、设备型号、固件版本、MAC 地址等(图3)。

图3 正常情况下eSight 网管干线发现机制——LLDP 协议

1.4.2 将“中间链路”中断,观察网管告警情况

将“中间链路”中断,网管未产生任何告警,且网管拓扑图页面干线状态仍显示“绿色正常”(图4)。双击“干线”,查看网管识别到的干线状态正常,但人工测试干线状态,确定干线确已中断(图5、图6)。

图4 中间链路中断,网管无告警且显示错误信息

图5 网管“认为”干线正常但人工测试判断干线确已中断

图6 将AR2 删除后重新添加进网管,仍自动“识别”了一条干线

1.4.3 将设备从网管侧删除重新添加,观察是否会产生告警

可以看出,网管仍可识别干线,且干线状态正常。说明网管系统不仅可以通过LLDP自动发现链路,还可以通过其他手段“发现”链路。

进一步查找网管智能识别干线并显示的机制,在eSight网管网页→系统→网络管理参数设置→启用基于30 位掩码IP(SBS)的链路发现,将其取消勾选,再次查看网管拓扑状态,发现无法发现干线(图7、图8)。

图7 30 位掩码IP(SBS)链路发现功能

图8 取消图7 功能勾选后干线消失

1.4.4 进一步测试eSight 网管干线中断告警机制

将AR1 设备的干线端口shutdown,即关闭端口,模拟拔出网线,造成链路物理层中断,此时网管产生告警。但是仅AR1 产生告警,并带动干线链路的状态也变为红色告警,但AR2仍然为“绿色”(图9)。

图9 关闭AR1 干线端口,网管产生告警(仅AR1 有告警)

1.5 小结

(1)默认设置下,eSight 网管可以通过多种手段智能发现干线,根据前文测试结果,手段包括:LLDP 协议自动发现和根据端口掩码地址发现。

(2)eSight 网管产生干线中断告警的机制是:必须端口物理状态Down 才可告警。在实际中,端口物理状态Down 只能通过拔网线或shutdown 端口才能实现。

综上所述,民航TDM 网使用的eSight 网管软件,其干线状态的判断机制存在缺陷,多数情况下无法准确判断干线状态,存在较大隐患。

2 应对方法

2.1 静态BFD 绑定端口状态方案测试

从前文中分析出民航TDM 网使用的eSight 网管软件,其干线状态的判断机制是判断端口状态的Up 或Down,通过深入研究各类检测机制和各种以太网协议,最终发现静态BFD 技术可以判断链路中断,并将对应的干线端口状态自动置为“Down”,在模拟配置实操软件上进行测试,如图10 所示。

图10 静态BFD 实验

将“透传设备”的G0/0/2 端口shutdown,模拟中间链路中断的情况,登录AR1 查看g0/0/0 端口状态(图11)。可以看到g0/0/0 端口的协议状态变为“UP(BFD status down)”。继续测试这一状态是否会被eSight 网管软件识别(图12),即eSight 可以识别该状态,并产生告警,标记链路为红色告警状态。

图11 静态BFD 检测链路中断后将对应端口状态变为“BFD status Down”

图12 eSight 可以识别“BFD status Down”状态

2.2 搭建真机测试平台进行测试

经模拟实验环境测试方案可行后,使用多台AR3260 真机搭建测试平台,包括网管及软件、硬件配置均依据行业配置规范进行配置,在实验平台实际环境测试(图13)。

图13 真机实验平台网管监控

经测试发现,该方案能实现eSight 网管检测到中间链路中断从而产生告警,实测证明方案可行。

2.3 与广州网络中心联合测试

珠海进近管制中心协调广州网络中心联合进行“静态BFD绑定端口状态”方案测试,将我方民航TDM 网NE20-1 至广州区管NE40 核心节点干线两端配置静态BFD 绑定端口状态,配置示例见图14。测试该干线中间链路(光传输设备)出现链路中断,eSight 监控可识别到链路中断并实时产生相应告警,证实方案可行。

图14 测试配置示例

2.4 小结

通过测试发现静态BFD 绑定端口状态可有效解决民航TDM 网eSight 网管链路监控的隐患,目前珠海进近民航TDM网与广州区管、珠海进近内部所有至外台干线均已使用静态BFD 技术,已稳定运行近一年时间,可以及时发现各种情况的干线中断并实时告警。该方案已在民航中南空管局进行全系统推广应用。

3 结束语

民航TDM 网是一套全新建成使用的覆盖全国民航系统各单位的大型网络,是未来较长一段时间内,承载民航雷达、甚高频、ADS-B、转报和管制专线电话等核心业务信号的关键基础设施,积极探索如何更好地对民航TDM 网开展运行维护,强化隐患排查治理,杜绝系统性风险是民航TDM 网一线运维部门和相关管理机构的努力方向。针对发现的问题,通过模拟验证、实验室环境验证以及在实际生产网络中上线试运行等方式,循序渐进,逐步推进,并经过长期的功能性和稳定性检验后投入全系统推广。

猜你喜欢

网管干线中断
基于熵权TOPSIS的高速干线物流卡车司机驾驶行为评价
SDN 网络管理关键技术应用分析与改进思路
“单片机中断概述”微课教学设计
一种考虑GPS信号中断的导航滤波算法
长江干线水上交通事故的灰色分析与预测
Linux中断线程化分析及中断延时测试
跟踪导练(二)(5)
北京市中小学网管教师培训需求研究
乳化沥青厂拌冷再生在干线公路的应用
“五制配套”加强网管