CM-IMS网络中重要网元容灾方案

2010-08-09孙建强吴丽华

电信工程技术与标准化 2010年8期

孙建强吴丽华

（中国移动通信集团设计院有限公司北京 100080）

1 前言

IMS（IP Multimedia Subsystem）即IP多媒体子系统，是一种全新的网络架构和多媒体业务形式，被业界普遍认为是下一代网络的核心控制技术。

经过较长时间的技术论证和网络测试，IMS核心网架构在全业务运营环境下的优势已初现端倪。IMS具有完全的端到端IP特性，保证了其接入的无关性，实现了3G-PS、LAN、WLAN、WiMAX、xDSL等不同制式终端的接入；IMS更加彻底的控制与承载分离、业务与呼叫控制分离的架构保证了其灵活快速的业务引入能力；IMS继承了移动网络的特性，将用户数据与其相关联的业务数据集中放置到HSS中，用户数据的分离集中更加有利于业务的实现和提供；IMS的核心功能实体之间采用SIP协议，扩展性好，网络兼容性强，网络更加标准和统一。

目前国内三大运营商都在积极筹备建设IMS网络。其中中国移动已经明确将CM-IMS作为核心网演进方向，并计划以省或者大区为单位建设CM-IMS核心网络，一个省或者一个大区可能只有一套CM-IMS核心网设备，CM-IMS核心网网元对网络安全和容灾的要求就更加突出。

本文针对CM-IMS网络的网络结构、网元功能以及各网元之间连接关系，简要列出CSCF、HSS、MGCF等重要核心网元的节点设置方式，重点分析CM-IMS网络内几个重要网元的容灾方案。

2 CM-IMS网络架构内网元

CM-IMS标准是中国移动结合自身网络特点，将国际标准IMS进行简化和创新，提出的更加适用于中国移动现网的网络架构，国际标准与现有网络的结合诞生的网络架构更有利于其在现网的部署和在实际应用中发挥作用。

在CM-IMS网络架构组成中，主要有以下功能网元。

CSCF（会话控制）:是IMS系统的呼叫控制核心，它的主要作用是在IP传输平台上实现用户接入及鉴权、会话路由、业务触发等功能。根据功能分工不同分为P-CSCF、I-CSCF、S-CSCF和E-CSCF。

P-CSCF（代理会话控制）提供注册和注销、鉴权和授权、信令压缩、媒体授权、信令路由、数据管理、紧急呼叫、QoS、计费等功能。

I-CSCF（查询会话控制）是IMS归属网络的入口点，在注册过程中，I-CSCF通过查询HSS，为用户选择S-CSCF；在呼叫过程中，去往IMS网络的呼叫首先路由到I-CSCF，由I-CSCF从HSS获取用户所注册的S-SCSCF地址，将消息路由到S-CSCF。

S-CSCF（业务会话控制）在IMS核心网中处于核心的控制地位，负责对终端的注册鉴权和会话控制，执行基本会话路由功能，并进行到AS的业务触发。

E-CSCF负责紧急呼叫的相关处理。

HSS/SLF：HSS作为整个网络的用户数据库，存储IMS用户的鉴权信息、签约信息、业务透明数据等。SLF在域内存在多个HSS时，由SLF选择用户存储的HSS。

MGCF/IM-MGW：是IMS域与CS域和PSTN互通的功能实体，分别负责控制信令和媒体流的互通。

BGCF：功能主要是将用户的会话路由到正确的PLMN/PSTN网络。与本网用户互通，选择路由至被叫网络的MGCF，与其他运营商互通，选择与其他运营商的BGCF互通。

MRF（MRFC和MRFP）：MRF（媒体资源功能）主要提供铃音与录音通知的播放、会议的媒体流处理（混音等）、编解码转换、DTMF信号处理等功能。

ENUM/DNS：系统在CM-IMS网络中主要完成用户E.164号码与Sip uri之间的转换，并且提供用户归属域域名对应IP地址的映射，协助IMS核心网网元完成会话的路由。

SBC（会话边界控制器）：是IMS的接入点，完成用户代理、接入控制、NAT穿越、媒体门控等功能。

3 CM-IMS网元设置与容灾方案

结合目前中国移动及主要设备厂家倡导的CMIMS网元设置方式，分别讨论几类重要网元的容灾方案。

3.1 CSCF容灾方案

CSCF是CM-IMS最核心的控制和处理网元，建议在开通CM-IMS业务的省中心集中设置。P-CSCF可与I-CSCF/S-CSCF合并设置，也可以单独设置，并根据业务需求逐步向用户侧延伸部署。

CSCF的容灾方式总结来说可以描述为“资源池负荷分担模式”，以域内有两套CSCF设备来举例说明，CSCF形成1＋1互助的容灾模式，网络结构如图1所示。

图1 CSCF容灾网络结构示意图

图1中CSCF的容灾实现机制如下。

（1） S/I-CSCF1和S/I-CSCF2以负荷分担的方式设置，可以组成S-CSCF Pool。P-CSCF和MGCF以优选的方式可均衡的选择S-CSCF，域内任何一个S-CSCF故障，其负荷将均衡分担到其它S-CSCF，不影响业务；

（2）业务发起和网络路由过程中，由IMS域内的DNS 将来自两个P-CSCF的注册、路由请求分别解析到两个I-CSCF，实现业务的负荷分担。同时DNS内保留域内I-CSCF的列表，当按照正常路径不能解析出目的I-CSCF时，DNS将按照I-CSCF列表解析到第二优先级的I-CSCF，实现I-CSCF的容灾互助；

（3）正常状态下，通过I-CSCF优选绑定S-CSCF，实现S-CSCF的业务负荷分担。同时在每个I-CSCF中保留一份域内所有S-CSCF的列表，当按照正常程序指定的S-CSCF不可达时，I-CSCF将按照列表中预先设定的优先级将本次业务指派到其它S-CSCF，实现S-CSCF的容灾互助；

（4） P-CSCF的容灾，与S-CSCF的容灾类似，多个P-CSCF组成P-CSCF Pool。SBC以优先级方式可均衡的选择P-CSCF，域内任何一个P-CSCF故障，其负荷将均衡分担到其它P-CSCF，不影响业务。

3.2 HSS容灾备份方案

HSS作为用户和业务数据的数据库，需要频繁与核心控制网元进行数据交互，宜与核心网元一起集中设置在CM-IMS省中心。HSS与现网HLR的功能和网络地位类似，需要采用高级别的网元容灾备份机制，CMIMS建网初期建议采用基于BOSS系统的“N+1”静态数据备份方案。

下面针对HSS设备正常工作、故障倒换、状态恢复的3个过程来讨论HSS的容灾备份机制。以域内有两套HSS设备来举例说明，两套HSS设备之间形成1＋1静态数据备份的容灾模式。

正常状态下工作模式如图2所示。

图2 HSS正常状态工作示意图

与HSS相连的域内对端网元（主要是CSCF、AS等）分别与主用HSS和备用HSS保持有链路连接。在CSCF和AS的Diameter链路数据配置中，至主用HSS的链路优先级高于至备用HSS的链路。在正常状态下，CSCF和AS等对端网元将信令都发往主用HSS。同时，主用HSS和备用HSS之间按照一定的机制进行数据同步。

出现故障时工作模式如图3所示。

当主用HSS出现设备故障，或者对端网元CSCF/AS与主用HSS之间的链路中断时，对端网元可通过SIP Option检测到主用HSS设备的状态异常或链路故障，则将信令都发送到备用HSS。此时网络仍然运行，业务不会中断。

主用HSS的恢复如图4所示。

图3 主用HSS故障后示意图

图4 主用HSS恢复示意图

当主用HSS故障恢复时，按照正常业务流程，对端网元CSCF/AS将会把信令发给主用HSS，此时需要进行干预才能保证业务的正常进行。因为在主用HSS故障或链路中断的过程中，系统数据库中的用户数据和业务数据已经在备用HSS中进行修改，主用HSS内存储的已经不是最新的用户业务数据，需要将备份HSS中的数据完全同步到主用HSS。

在主用HSS故障排除后，可通过手工执行OMU命令，断开主用HSS与CSCF/AS的所有链路。执行从备份HSS到主用HSS的数据同步指令，当数据完全从备份HSS恢复到主用HSS后，再恢复CSCF/AS至主用HSS的链路。对端网元检测到与主用HSS的链路恢复，则将信令都发送到主用HSS。

3.3 MGCF容灾方案

MGCF是与现网CS域和PSTN进行互通的网元，其功能和网络地位与现有网络中的互联互通独立关口局类似，在网元设置方式上建议采用1＋1负荷分担、网元级容灾、不同局址设置。

MGCF设备的容灾采用1＋1负荷分担方式，S-CSCF（BGCF）到MGCF的链路故障是通过启发式Option检测来感知，MGCF到S-CSCF（BGCF）的心跳是通过SIP中继Option心跳检测来感知。

负荷分担情况下S-CSCF（BGCF）上同时配置两个MGCF的局数据信息，正常工作情况下S-CSCF（BGCF）对MGCF进行轮选，将不同的话务按照负荷分担原则发往两个MGCF，当其中一个MGCF故障时，将所有会话发往至另一个MGCF。如图5所示。

假设图中MGCF1故障，在倒回命令执行之前，MGCF1处于双归属非激活态。对于MGCF1侧，CSCF（BGCF）发送的Option检测均回应500响应，因此MGCF1侧的CSCF（BGCF）选路将一直使用第二路由，路由呼叫和监听消息都发送到MGCF2。

按照上述容灾处理机制，当MGCF1故障时，业务将自动倒换至MGCF2。在倒回方式上按照通常的处理可有两种方式：手动倒回和自动倒回。

手动倒回：在MGCF1的业务倒换至MGCF2之后，对MGCF1进行重新启动，当MGCF1设备正常运行后，可以在MGCF2上执行MML命令，将MGCF1的业务全部倒回至MGCF1处理，业务恢复常态。

自动倒回：在MGCF1的业务倒换至MGCF2之后，如果MGCF1重新启动，设备正常运行，则原MGCF1的业务按照程序自动全部倒回。

在实际网络运维中，推荐采用故障时自动倒换、恢复时手动倒回的模式，即在一个MGCF故障时自动将业务倒换至另一个MGCF，但倒回则由手动指令完成，这样可以在最短时间内避免业务中断，也防止在异常时的乒乓倒换，在两个MGCF之间进行循环的倒换和倒回。

3.4 SBC的容灾方案

SBC设置在开放业务的本地网，采用全代理方式。若同本地网内有多套SBC时， SBC可支持UE对SBC的两种负荷分担方式进行容灾：

方式1：公网DNS通过轮询的方式将UE接入本地网内多套SBC中的一套SBC，单套SBC故障时业务将均衡至其它SBC。

方式2：公网DNS通过设置View，每个View对应一套SBC的管辖区域，在SBC管辖区域内的UE向DNS发起SBC域名解析申请时，DNS会将对应的SBC的IP地址返回给UE。

对于上述两种方式，本地网内SBC数量较少时适宜采用方式1，本地网内SBC数量较多时适宜采用方式2。

SBC的故障倒换对用户终端有特殊功能要求，要求DNS向UE返回SBC的列表时，若第一个SBC有故障，UE能自动选第二个SBC发起请求。

3.5 ENUM/DNS的容灾方案

ENUM/DNS服务器应分两级独立设置。全网统一设置根ENUM/DNS服务器，负责网内域间信令路由的查询和解析；省中心设置二级ENUM/DNS服务器，负责域内信令路由的查询和解析。

图5 MGCF容灾示意图

ENUM/DNS的容灾方式总的来说就是分区域主用＋备用的方式。

一级ENUM/DNS分南北区设置两套，互为主备，容灾方式与现网的公网DNS相同。

对于二级ENUM/DNS，若核心网设备P-CSCF、I/S/E-CSCF/BGCF多局址设置，建议在不同局址设置2套ENUM/DNS设备，采用互为主备的负荷分担方式。与ENUM/DNS同局址的核心网元、业务平台可设置同局址的ENUM/DNS为主用，则另一个局址的ENUM/DNS为备用；并在省内对ENUM/DNS分管辖区域，对于与ENUM/DNS不同局址的其它核心网元（如SBC）、业务平台等按管辖区域配置主备ENUM/DNS。

3.6 业务放通的容灾方案

CM-IMS网络中，网元实体和逻辑功能模块更加细化。在CM-IMS网络与现有CS域网络组成的共存网络环境下，并不是所有的业务流程都需要经过CMIMS网络中的每一个网元和功能实体。因此，有部分业务可能实际不需要每一次都通过查询HSS才能实现，单个业务可能只需要与本业务相关的AS参与实现业务逻辑。当部分网元实体出现故障时，网络应保证单次业务最大可能的被实现，此种情况称之为业务放通的容灾。具体举例如图6所示。