APP下载

5G-R核心网容灾组网方案及关键技术研究

2023-11-10李春铎

铁道标准设计 2023年11期
关键词:容灾网元核心网

石 波,蔺 伟,李春铎,胥 昊

(中国铁道科学研究院集团有限公司,北京 100081)

引言

我国铁路5G专网(5G-R)基于3GPP(第三代合作伙伴计划)标准架构,按照将用户层面的需求映射到装备层面,通过增加铁路特定功能相关设备,形成5G-R系统架构[1]。5G-R系统包括核心网、无线接入网、用户设备、应用接入管理设备和运营与支撑系统[2],承载行车指挥及控制、运营维护类业务;旅客服务、工程建造等业务采用公网5G进行承载[3]。

5G-R核心网的特点:(1)采用5GC(公网5G核心网)通用架构,增加5G-IN(智能网)、MC(宽带集群通信)等专用设备以及DNS(域名服务器)、RADIUS(远程验证拨入用户服务),通过应用接入管理设备与应用业务系统互联;(2)承载铁路调度通信和列控、行车指挥、列车和铁路沿线基础设施监测检测等信息传送业务,对实时性、可靠性、安全性要求高;(3)网络架构适应生产组织和维护管理体系,满足列车高速运行条件下,跨局、跨线、跨区段正常通信功能,保持业务连续性;(4)采用NFV(网络功能虚拟化)/SDN(软件定义网络)技术,基于服务化架构[4],网元和接口多,交互方式与传统设备不同;(5)GSM-R与5G-R并存演进,需考虑系统之间互联互通、业务无缝迁移、系统平滑过渡等。以上增加了5G-R系统核心网组网的特殊性、复杂性。

铁路5G-R与公网5G在系统组成、业务功能、冗余组网、系统互操作性等方面存在差异。国际铁路联盟(UIC)目前初步确定将5G作为铁路未来移动通信主体制式,计划2023—2024年开展相关试验[5],与其他国家相比,我国路网规模大,5G-R承载业务多、应用和组网相对复杂。因此,我国铁路需结合实际开展相关研究,为标准制定、设备研发、业务应用、规划建设提供支撑和参考。

1 组网需求分析

1.1 核心网组成和功能

5G-R系统构成如图1所示[6],核心网包括全路共用设备(5G-EIR、5G-IN、SMSC、一级DNS、一级NRF)和局核心网设备(5GC、MC设备、RADIUS、二级DNS、二级NRF)。

图1 5G-R系统构成示意

核心网具有注册管理、移动管理、会话管理、业务控制与处理、用户面管理、安全、边缘计算、网络切片、服务质量(QoS)管理等功能。

1.2 核心网组网需求分析

5G-R核心网组网需求分析如下。

(1)建设需求:适应运输生产组织架构和维护管理需要,路局之间维护责任界面清晰,应急处置高效。减少设备影响范围,维修影响其他局行车。此外,核心网组网应避免后建核心网节点接入既有网络时,引起其他局核心网数据频繁调整。

(2)业务需求:设备采用本地冗余部署、异地容灾备份方式。当核心网任一网元/设备或任一DC(数据中心)或任一节点不可用时(如发生自然灾害、停电等情况),系统能自动倒换,保证业务的安全性、可靠性、可用性和可维护性。

(3)运维需求:高铁、普铁线路维护方式和时间不同,高铁维护天窗点在凌晨,普铁根据情况要点实施维修。因此,核心网设备应冗余设置,当由于设备升级、扩容、处理故障时,高铁、普铁互不影响。此外,按照维规相关规定,核心网网元需按期进行主备单元倒换(如5 min/年)或软件升级(参照以往平均2年1次),在此期间,为不影响业务,需要冗余部署核心网网元。

2 核心网容灾备份组网关键技术

2.1 核心网规划部署方案

核心网规划部署方案如图2所示。

图2 核心网规划部署方案示意

根据需求,5G-R核心网按铁路局为单位进行集中部署,部分设备按需全路集中部署。核心网共用设备采用本地冗余、异地容灾备份的组网方式[7],铁路局核心网设备采用冗余部署、同城异址灾备份组网方式。根据需要,特殊情况下部分控制面(AMF、SMF)、用户面网元(UPF)可适当下沉部署。在靠近业务侧宜设置边缘计算节点设备[8]。

2.2 故障检测和自动倒换机制

故障检测是容灾备份进行自动倒换的判断依据之一,可采用以下4种方式。

(1)方式1:访问端配置主、备用对端设备IP地址。当访问端发送业务处理请求,未收到对端的响应消息,通过多次重发请求消息,在设定的时间内发送失败或一直未收到响应消息,访问端判断对端故障,自动改为访问备用的对端设备。

AMF访问5G-EIR、GRIS访问DNS、SMF访问RADIUS[9]、MC访问5G-IN均采用这种方式,访问端重发次数和时间间隔,可根据需要配置。

(2)方式2:服务化NF(网络功能)与NRF周期性交互心跳信息,NRF维护NF状态,并向相关NF发送该NF状态通知。AMF、SMF、PCF(策略控制功能)、UDM(统一数据管理)/AUSF(认证服务器功能)、NSSF(网络切片选择功能)、SMSF(短消息服务功能)采用此方式[10]。NF上线后,自动向NRF注册,NRF在注册成功响应消息中,向NF发送检测时长。此后,NF周期性向NRF发送心跳信息,NRF收到后,回复心跳响应消息[11]。

若在检测时长内,NRF一直未收到某一NF心跳消息,则NRF判断此NF故障,标识其状态为“不可用”,下次不再选择,并将此NF状态消息发送给订阅此NF状态事件的其他NF。

当NF故障恢复后,NRF再将其设为“可用”,再向订阅事件的相关NF发送状态变更消息,下次业务有请求时,可继续选择该NF提供服务。

NF支持使用缓存选择目的NF。源NF通过NRF选择目的NF,并缓存NRF查询信息。缓存有效期内,源NF可使用本地缓存信息选择目的NF。当NRF故障,且NF本地缓存均失效时,源NF可使用本地配置选择目的NF[12]。

(3)方式3:访问端和对端之间发送点对点心跳消息,当在检测时长内未收到心跳消息,则判断对端设备故障,转为访问备用对端设备。

对于服务化接口,采用方式2、方式3(通过缓存方式选择目的NF情况下)。对于非服务化接口,如SMF和UPF之间的N4接口,按照3GPP规范,可通过NRF发现和选择UPF,但目前各厂家暂不支持,现阶段可采用方式3进行故障检测[13]。

方式2和方式3检测方式如表1所示[14]。

表1 基于周期性心跳的故障检测方式

方式1、2、3的消息重发间隔、次数以及心跳周期、检测时长和缓存时间可根据需要配置,具体应结合列控等应用业务需求,综合考虑减少不必要的系统开销等因素进行确定。

(4)方式4:通过信令网实现到主、备用对端设备的路由自动选择。

例如,短消息MO(终端发起)业务路由UE→AMF→SMSF→SMSC。MT(终端结束)业务路由SMSC→SMSF→AMF→UE,SMSF与SMSC通过信令转接设备(STP)连接,当主用SMSC故障,STP自动将短消息转发给备用SMSC。再如,3GPP在R16中引入了SCP,当NF交互采用模式D时,SCP感知目的NF故障,自动将信令路由到备用目的NF。

2.3 容灾备份方式比选

网元容灾备份方式比选如表2所示。

通过比选可见,AMF、SMF、UPF不存储用户数据(只存用户会话上下文),可采用池组负荷分担方式;冗余网元之间若需实时双向数据同步(如UDM/AUSF),可采用1+1主备方式;其他网元(如NRF等),可采用1+1负荷分担方式。

2.4 网元之间故障检测参数

网元之间的故障检测参数包括心跳周期、最大重传次数,根据需要可以配置。

以AMF和gNB(基站)之间N2口为例,该接口采用SCTP(流控制传输协议),故障检测通过对SCTP偶联状态进行检测,SCTP协议通过HEART BEAT和HEART BEAT ACK消息机制检测对端状态及维护SCTP偶联状态。当以配置间隔(心跳周期)发送HEART BEAT消息而未收到ACK的次数达到最大配置次数后,则判定故障。

AMF心跳间隔可配置,当在1个心跳间隔内,接口上无业务数据传输时,SCTP偶联向对端IP地址发送心跳消息,以检查远端IP地址是否激活。

SCTP最大重传次数可配置,当某个SCTP偶联上连续重传报文次数超过SCTP最大重传次数时,将认为对端SCTP端点不可达。此时,本端将自动关闭该SCTP偶联,通知SCTP用户层(如M3UA等)该SCTP偶联不可用,并上报断链告警。

综上,当SCTP链路上有数据发送时,故障检测最大时间为RTO(恢复时间目标)*SCTP最大重传次数,当无数据发送时,故障检测最大时间为心跳间隔*SCTP最大重传次数。

实际应用中,应结合5G-R承载的业务需要,例如,C3列控系统车地数据传输中断20s[15]采取降级或降速措施,则故障检测最大时间建议小于20s,网元相关参数值设置建议见表3。

3 核心网容灾备份组网方案

3.1 基于消息重发的1+1主备容灾备份组网方案

5G-EIR、5G-IN、DNS、RADIUS、MC设备等采用本方案。以5G-IN为例,全路部署两套5G-IN,采用本地冗余、异地容灾备份组网方式,如图3所示。5G-IN与局核心网MC设备通过承载网互联,数据链路冗余配置并由不同物理路由通道提供。

图3 基于消息重发的1+1主备容灾备份组网方案

异地5G-IN之间通过数据专线互连,传送同步数据,通道冗余设置,按需配置带宽。异地5G-IN采用主备工作方式,MC设备配置主用5G-IN为首选,备用5G-IN为次选,主备选择由MC设备实现。

正常情况下,MC向主用5G-IN发送功能寻址业务请求消息,由主用5G-IN向全网MC设备提供功能号码翻译服务,备用5G-IN热备、不处理业务。

当主用5G-IN发生故障时,MC连续多次(如设为3次)访问主用5G-IN无应答,超时后,MC自动访问备用5G-IN,由备用5G-IN提供服务。

原主用5G-IN故障恢复后,通过人工方式恢复工作状态。

3.2 基于心跳检测的池组负荷分担容灾组网方案

AMF、SMF、UPF宜采用本方案组网。以SMF组网为例,组网如图4所示。

图4 基于心跳检测的池组负荷分担容灾备份组网方案

SMF按铁路局集团公司集中部署,采用同城异址容灾备份组网方式,即在铁路局集团公司同城异址设置双DC,双DC内分别部署SMF,SMF与本局AMF、PCF、UDM等控制面NF和UPF、RADIUS等通过DC内部和DC间承载网互联,与其他铁路局SMF、UDM通过承载网互联。

双DC内的SMF采用池组负荷分担工作方式。所有业务由池组内的SMF共同承担,发起会话管理相关业务请求时,AMF宜优选本址DC内SMF提供服务,也可根据需要,按照负荷分担的原则,选择池组内的一个SMF提供服务;SMF与NRF周期性交互心跳消息,心跳周期、次数、探测时长等根据需求分别设置。

当池组内某个SMF发生故障时,NRF在检测时长内未收到SMF发送的心跳,则判断SMF故障,NRF向订阅SMF状态变更的NF(NF服务交互为模式C)或SCP(NF服务交互为模式D)[12]发送SMF故障通知,对端NF或SCP收到消息后更新所存储的SMF状态信息[16];正在进行的业务,由AMF通知UE重新注册,恢复业务;新发起的业务,由AMF或SCP自动选择SMF池组内其他可用的SMF提供服务。

SMF故障恢复后,避免自动倒回导致业务受损,采用有计划的人工方式恢复工作状态[17]。

需要说明的是:(1)SMF故障时,AMF通过NRF感知故障,通知UE去注册,并在原因值中指示UE重新注册[18];(2)UPF故障时,SMF感知后,释放当前PDU会话[19],通知网络相关实体(PCF、RADIUS、基站)释放PDU会话资源,包括N3/N9、无线接入以及IP地址/前缀,并在原因值中指示UE重新建立PDU会话,恢复业务[20]。基站通过与UPF之间点对点心跳检测机制感知UPF故障,超时后释放资源,避免进程异常。

3.3 基于心跳检测的1+1主备容灾备份组网方案

UDM/AUSF、PCF、NSSF、SMSF等网元采用本方案,以UDM/AUSF为例,UDM/AUSF按铁路局部署,采用同城异地容灾备份组网方式。在各铁路局同城异设置双DC,在双DC内分别部署UDM/AUSF,各DC内的UDM/AUSF冗余配置,UDM/AUSF与本局AMF、SMF、SMSF、位置服务设备,其他局AMF、SMF互联,组网如图5所示,双DC内的UDM/AUSF采用主备工作方式。

图5 基于心跳检测的1+1主备容灾备份组网方案

异地冗余UDM/AUSF之间通过数据专线互联,通道冗余设置,用于静态、动态数据(包括当前服务AMF、SMF等信息)同步以及心跳等数据传送。数据通道的带宽按需配置。

正常情况下,访问端(如AMF、SMF)发送的请求由主用UDM/AUSF处理,备用UDM/AUSF热备、不处理业务。

当主用UDM/AUSF发生故障时,NRF在检测时长内未收到UDM/AUSF发送的心跳信息,则判断UDM/AUSF故障,检测时长、心跳周期和次数根据需要设置。

NRF判断UDM/AUSF故障后,向订阅UDM/AUSF状态变更的NF(NF服务交互为模式C)或SCP(NF服务交互为模式D)发送UDM/AUSF故障通知,对端NF或SCP收到消息后更新所存储的UDM/AUSF状态信息,由对端NF或SCP 自动选择备用UDM/AUSF提供服务。

UDM/AUSF故障恢复后,避免自动倒回导致业务受损,采用有计划的人工方式恢复工作状态。

3.4 基于信令路由选择的1+1主备容灾组网方案

SMSF与SMSC之间信令交互采用此方案。SMSF与SMSC组网方式如图6所示。

图6 基于信令路由选择1+1主备容灾备份组网方案

正常情况下,SMSF之间信令消息由7号信令网IP STP负责转发,IP STP对GT码进行翻译,将消息转发给主用SMSF或SMSC。

若主用SMSF或SMSC故障,7号信令网STP通过MTP3层检测到主用SMSF不可达,自动将信令消息路由到备用SMSF或SMSC。AMF通过NRF检测到SMSF故障,将业务自动选择到备用SMSF。

4 测试验证情况

根据研究编制的测试案例,对网元故障和网络可靠性测试验证,与预期方案一致。当网元故障时,系统能够进行自动倒换,当前进行的业务可通过重建会话恢复业务,后续新发起业务不受影响。

网元故障倒换期间,故障网元无法提供服务。故障倒换时长与设置的网元故障检测时长相关,故障倒换时长包括故障检测、判断时长和执行倒换时长,其中故障检测、判断时间相对较长,执行倒换的时间较短。网元的功能、作用、故障影响范围不同,心跳周期、次数和检测时长设置应有所不同,进而网元故障的倒换时间也不相同。

需要说明的是,各厂家核心网网元包括不同的功能模块/单元,承载同一功能单元的虚拟机应冗余配置,且采用反亲和部署方式,配置在不同的物理主机上,确保产品的可靠性。此外,目前国际标准未对网元容灾备份方案及实现流程做具体规定[21],后续还需按照国铁科技攻关计划,进行环形道动态试验、高速铁路充分试验验证后,持续进行优化完善。

5 结语

5G-R是铁路新一代移动通信系统,基于虚拟化架构,采用IP技术,网元软件化、模块化、微服务化,交互方式与传统通信系统差异大。核心网是关键设备,服务范围广,承载列控、行车调度指挥等关键业务。统筹考虑上述各类业务需求,调研分析铁路实际情况和5G-R技术特点,在此基础上提出了5G-R核心网目标网的规划方案。同时,基于铁路业务高可靠性的需求,重点研究了设备之间故障检测技术,结合网元功能、作用和接口,提出并比选了3种容灾备份方式及适用性。结合5G-R网络规划部署方案,研究提出了4种网元容灾备份组网方案,通过研究试验,验证了故障场景下网元处理机制、倒换时间和对业务的影响,对设备关键参数的设置提出了建议值。

综上所述,5G-R核心网容灾备份组网方案的研究为设备研发、标准制定、规划建设提供参考和技术支撑,随着5G-R发展和应用,将来可进一步优化组网和参数设置,从网元级、DC(数据中心)级、网络级等各方面保证业务的安全性、可靠性、可用性、可维护性。

猜你喜欢

容灾网元核心网
GSM-R核心网升级改造方案
一种全网时钟同步管理方法
5G移动通信核心网关键技术
通信核心网技术的应用探讨
关于建筑企业容灾备份系统方案的探讨
基于中兴软交换的电力通信网络容灾系统建设
基于数据容灾技术在企业信息系统中的应用研究
VoLTE核心网建设方案
Java EE平台在综合网元管理系统中的应用研究
S1字节和SDH网络时钟保护倒换原理