APP下载

长途传输电路主备路由倒换对IP 组网电路闪断的影响分析

2022-07-16陈清睿李琼丽

广东通信技术 2022年6期
关键词:中断路由器端口

[陈清睿 李琼丽]

1 引言

随着数字化进程在全社会不断得到推进和深化,大量的视频流媒体交互以及数字城市、元宇宙、算力网络等新概念在现实世界中得到应用,还有分布式计算和数据上云等新需求,越来越多的二类运营商和OTT 企业对数据跨区传输的需求尤为迫切,有时甚至会直接租用基础运营商的10G 或更大带宽通道自行组网,用于疏导其所承载客户数据的跨区传送需求。

运营商通常利用OTN 传输系统的波道为大带宽业务提供承载,而且由于涉及到跨省甚至跨国通信,为了保障业务不受沿途网络割接活动的影响,往往在开通的时候按SNCP 保护的方式配置电路。

该类大带宽带带保护业务大量交付后,在网维工作中发现客户经常投诉业务存在闪断(flapping/hits)问题,即客户路由器会不定期地出现物理端口关闭或者BGP 中断数秒的现象。经运营商排查传输网管的事件和告警,发现客户申告的故障时间点,往往同时存在传输电路发生保护倒换的情况,两者存在强相关。大部分的传输电路发生保护倒换时,倒换动作从发生到结束基本可以控制在50ms以内完成,如此短时间的电路倒换为什么会影响到路由器端口而且业务受损时间长达数秒,有必要做进一步深入的分析。

2 影响业务的网络事件分析

2.1 路由器端口中断和BGP 中断原因分析

路由器的线路端口出现interface down 的原因,和传输线路状态以及路由器端口的具体参数设置有关[1]。绝大部分高端路由器的高速端口,如果收到线路不稳定的告警,例如LOF、SSF、RDI 和AIS 等,为了避免IP 业务受到影响,路由器往往会自行关闭对应的线路端口,以便流量通过其他正常可用的线路端口进行疏导。

除了上述物理端口中断的故障外,客户投诉的中断现象往往还有BGP 协议中断这种类型,即物理端口并没有中断但却出现BGP 协议中断的问题。众所周知如果线路流量拥塞情况严重,偶尔会出现BGP 协议中断的情况,这种情况属于正常现象。但通过观察发现,承载路由器组网业务的传输电路发生主备用路由倒换时,即使该线路的流量未出现拥塞,有时仍会出现BGP 协议中断的现象。进一步深入分析发现,此类中断往往受路由器BFD 参数设定的影响。有的路由器设置了将BFD 会话与上层的BGP 协议或者物理端口做了关联,如果BFD 会话失败,则会连带关闭该BFD 所关联的上层BGP 协议或者物理端口。

BFD 会话建立流程(如图1 所示)所涉及的BFD 会话有4 种状态:Down、Init、Up 和Admin Down[2]。会话状态的变化通过BFD 报文的State 字段传递,系统根据自己本地的会话状态和接收到的对端BFD 报文来驱动状态的改变。BFD 状态机的建立和拆除都采用握手机制,以确保两端设备能掌握状态的变化。

图1 BFD 会话建立流程图

BFD 故障发现处理流程见上(如图2 所示),如果被检测链路出现故障(1),BFD 快速检测到链路故障后,此时BFD 会话状态变为Down(2)。接着BFD 会通知其关联的BGP 进程BFD 不可达(3),于是BGP 进程中断BGP 协议(4)。同理,如果BFD 协商机制关联的是物理端口,则BFD 会话失败后将触发物理端口的关闭。

图2 BFD 故障发现处理流程图

在日常处理客户投诉和网络故障工作中发现,客户申告的路由器闪断现象,往往可以归类为上述路由器物理端口中断和BGP 协议中断这两种类型,根本原因为路由器收到来自线路侧的告警,或者线路扰动导致BFD 会话机制失败这两种情况。

2.2 传输电路主备路由倒换影响分析

当传输网络运行有问题时,往往会导致告警的产生,告警会一直下插到下游节点设备直至末端的客户路由器[3]。OTN 网络承载的SNCP 电路发生主备用路由保护倒换,相当于线路侧出现了扰动,此时会导致下游OTN 设备收到相应的告警并一路传递到末端的客户路由器[4]。

根据G.808.1–保护倒换时间模型(如图3 所示),当传输电路发生保护倒换时,网络损伤发生和流量恢复正常之间的时间差,即该电路所承载的受保护业务流量恢复时间(Tr)为[5]:

图3 G.808.1–保护倒换时间模型

受OTN 设备计时器设置和采样间隔的随机影响,网络损伤在发生的第一时间未必立刻被探测到,因此即使是同一张网络同一个节点的故障,上述公式定义的业务恢复时间也不尽相同,但大部分的行业标准都主张同一国家内单端倒换完成的时间需要控制在50 ms 之内完成,对于超长距跨境段落的倒换时间则没有硬性规定。

3 测试环境的搭建和分析结论

由上可知,线路侧出现扰动引发SNCP 电路发生保护倒换,此时OTN 网络会产生告警并传递给下游设备直至客户路由器。如果路由器的参数设置比较灵敏,路由器有可能会主动关闭其线路端口。此时就算OTN 网络的电路倒换在几十毫秒内完成,但路由器受设备性能的限制,线路端口从关闭(down)到恢复(up)往往需要长达秒级的时间。

为了克服这种几十毫秒级别的传输网络扰动影响,可以考虑设置路由器端口的hold time(down)参数,如果线路扰动小于设置的hold time(down)值,则路由器不会对该扰动做出连锁反应。但在实际运维工作中发现,个别客户即使设置了路由器的hold time 参数,但还是会出现端口闪断的情况,此时有理由怀疑是传输电路的保护倒换动作完成时间过长,导致业务受损时间(SDT)超出了路由器设定的hold time(down)或者BFD 参数值。

为了定位超长距跨境组网场景下电路保护倒换对业务的影响程度,搭建了测试环境(如图4 所示)来做进一步的研究。该测试环境完全模拟真实使用场景,例如除了配备跨境传输电路和二类运营商/OTT企业自身的路由器外,在一侧配备测试仪模拟客户设备的发包,另一侧配置终端客户的业务路由器。试验中倒换的触发条件包含网管强制倒换、关闭中间站点激光器和长期观测到的自然倒换等。

图4 测试环境示意图

测试过程发现,当传输电路发生保护倒换时,除了检测到误码(Bit Errors)外,还能检测到传输网产生的告警会沿途传递并最后到达客户路由器,例如Local_Fault,Remote_Fault 和LOF 等(如图5 所示),此类告警往往会触发路由器做出自动关闭物理端口的动作。

在城市化建设过程中,政府相关部门应该完善客运枢纽体系,将多种交通方式进行衔接,充分发挥出各自的功能,进而有效地提升枢纽能级。为了实现客运枢纽的可持续性,相关人员应该将功能和规模作为设计的标准,不断优化铁路、轨道交通站点等在城市建设中的服务功能,以构建完整的客运枢纽体系。

图5 传输电路倒换时下插给客户设备的告警

本次测试使用的电路带宽为10 Gbit/s,为避免流量拥塞干扰到分析结果,仪表设定的业务速率为5 Gbit/s,帧长度为512 字节。在图4 所示的HKM 节点挂测试仪表模拟客户设备的发包,在另一侧FRA 节点提供软环回。传输电路发生倒换时,从仪表上读取的STM-64 业务和10GE 业务受损时间分别如表1 所示。

从业务受损时间的测试结果(如表1 所示)来看,相同的网络倒换STM-64 业务和10GE 业务受损时间相差较大,而且观测到一次保护倒换发生时测试仪表会记录到10GE 业务出现多条SDT 数据的情况,初步判断是因为10GE 端口存在缓存,影响到真实的网络倒换数据。

表1 测试仪表直接读取的业务受损时间表

为了规避10GE 端口缓存的影响,考虑直接读取OTN设备端口记录的RMON 收发包数据,并根据仪表的发包速率来换算电路倒换对业务的真实影响。这种方式需要测试仪表保持持续发包状态,不能因为电路倒换触发测试仪端口关闭而影响到分析结果。因此本次测试在源端HKM节点的OTN 设备做了内部交叉,将来自仪表的数据包正常转发给下游节点的同时,将数据流也拷贝并转发回仪表侧,即测试仪不再接收来自远端环回的信号,以保证测试仪表的端口保持持续发包状态。

正常情况下,仪表的发包速率=业务速率/((包长+帧间隙)*8),其中帧间隙按照经验值取值20 字节。根据前述测试仪表设定的参数,可以算出本测试环境的发包速率约等于1 174 812 packet/s。

正常情况下如果网络运行正常,OTN 设备端口读取的收发包数值应该相等,如果发生保护倒换事件,则收发包之差(即丢包数)就是电路倒换造成的实际影响,根据丢包数和前述仪表发包速率可以折算真实的业务受损时间。如表2 所示,测试中发现如果在FRA 末端节点的路由器做环回,统计中间节点ERL 的OTN 设备RMON 数据可以算出业务受损时间在100~125 ms 之间。进一步摒弃末端FRA 节点路由器的10GE 端口影响,直接从FRA节点的OTN 设备提供环回,此时测试得到的结果更接近真实的影响情况,此时记录的业务受损时间在200~235 ms之间(如表2 所示)。

表2 通过RMON 计数计算得到的业务受损时间表

综上所述,从试验网的测试结果来看,传输电路的保护倒换会产生告警并下插给客户路由器,而且在跨国超长距串联组网这种场景下,电路保护倒换造成的业务受损时间远高于常规所认为的50 ms。

4 网络配置优化举措

综合上述设备工作原理分析以及试验网测试结果,可以得出结论,如果想减少传输电路主备路由倒换对业务的影响,需要从传输网运行的稳定性和路由器自身参数调优两方面来解决问题。

首先是尽量减少传输电路的倒换事件及影响,例如:

(1)减少传输网络割接的次数,或者将同路由的割接活动集中在同一时间段进行,通过管理手段减少电路发生保护倒换的频次。

(2)如果主备路由时延相差不大,或者客户业务对时延不敏感,可以考虑将保护倒换方式设置为非返回式,避免恢复返回的倒换对业务再次产生影响。

(3)实际网络运行中做不到完成杜绝电路的保护倒换发生,但可以考虑利用OTN 设备的特性来规避倒换对业务的影响。例如部分厂家的OTN 设备支持设置MAC透传映射的方式实现告警延迟下发功能(适用于10GE LAN 业务)。针对部分对线路扰动比较敏感的IP 组网业务,在业务交付阶段可以考虑启用该功能,避免电路保护倒换发生时下插告警给客户路由器。

除了上述针对传输网方面的优化外,还可以通过修改客户路由器参数配置的方式,进一步降低传输线路扰动对其IP 业务的影响,例如:

(1)客户路由器的hold time(down)参数设置成300 ms,确保传输电路保护倒换产生的毫秒级扰动不影响客户业务。

(2)客户路由器的BFD 参数设置为3×200 ms 甚至3×300 ms,避免传输电路倒换时产生的扰动干扰到路由器的BFD 会话,进而减少影响到其所关联的物理端口或BGP 协议。

5 结束语

针对大带宽业务的闪断投诉,本文通过深入了解客户路由器闪断以及OTN 电路倒换的机理,通过组建超长距试验网来验证分析结果,充分掌握了造成客户路由器闪断的底层根本原因。本文开创性地提出了传输网络和路由器参数配置的优化建议,并在实际工作中应用该配置模板,经过一段时间实际运行的观察,发现上述配置有效降低了客户对于业务闪断方面的投诉,本文提出的多项优化措施达到预期的效果。

猜你喜欢

中断路由器端口
买千兆路由器看接口参数
维持生命
一种有源二端口网络参数计算方法
路由器每天都要关
路由器每天都要关
一种端口故障的解决方案
多按键情况下,单片机端口不足的解决方法
“单片机中断概述”微课教学设计
一种考虑GPS信号中断的导航滤波算法
现有网络架构及迁移方案