APP下载

双园区超融合容灾设计

2019-10-14王端

西部论丛 2019年20期
关键词:容灾交换机站点

王端

摘 要:随着越来越多企业单位的合并或园区数量的增加,虚拟化系统平台需要整合管理,并建立相应的容灾保护,以确保业务系统可提供高稳定性的服务。本文以本单位双园区信息中心融合为蓝本,设计并实现了双活数据中心的超融合容灾体系。在实际运行中得到良好的验证。

一、超融合设计方案

为实两园区所涉及业务对接,统一管理,设计使用超融合组网方式实现两园区的虚拟系统融合,考虑现网中已经部署了融合系统,如果原有系统支持扩容便可以利用原系统实现两地资源整合。如果两地均不支持扩充的情况下,可布署城域双活容災方案实施,在两个园区建立两个数据中心站点,两站点间使用存储的特性,配合云系统的虚拟机HA功能和DRS功能实现的容灾方案。城域双活容灾方案中,两个站点可同时对外提供业务,同时作为对端站点的容灾站点实现自动灾难倒换。

管理层与业务层通过以太交换机堆叠方式实现冗余连接必须主备或多路冗余。两园区均可采用相应的存储平面,采用两台FC汇聚交换机独立部署,形成FC双平面冗余(一般情况下,FC交换机无需进行堆叠。如果FC端口不足,可通过堆叠来扩展FC端口。)两园区存储平面FC汇聚交换机通过专线互联,至少两路FC专线冗余。为保证双活性能,存储双活特性对站点间双活链路的网络要求如下:误码率小于等于10-12e,时延RTT小于等于1ms,无抖动,无丢包,链路带宽大于业务峰值带宽,最低要求2Gbps。为了减少时延和保证性能,主机和存储平面通过光纤连接。主机需要配置FC HBA卡,存储平面交换机需要使用FC交换机。两园区间需要租赁运营商专线,至少两路FC专线冗余。主机与存储采用FC连接,部署在生产站点和容灾站点的FC SAN的型号、配置需要保持一致。

城域双活容灾方案要求,城域双活容灾方案对RPO和RTO要求较高,FC光纤交换机互联端口规则:需要根据传输带宽、传输距离规划FC汇聚交换机站点间互连所需的端口数量。以2Gbit/s带宽,传输距离100km为例,交换机一个站点间互连端口需要使用7个Donor Ports。

二、双活数据中心标准架构:

由于部分厂商的云操作系统支持配置一个网关,所以生产站点和容灾站点中作为网关的汇聚(核心)交换机,需要配置为主备网关模式。主网关优选生产站点侧的交换机。

三、标准架构说明:

主机集群:独立的、可以进行双活容灾的主机系统的集合,在同一个主机集群内,虚拟机可实现HA。在本容灾方案中,需要将同一个主机集群中的主机分别部署在生产站点和容灾站点。

容灾主机:对应云系统 DRS调度规则中的主机组。

容灾虚拟机组:对应云系统 DRS调度规则中的虚拟机组。

云系统 DRS调度规则可指定容灾虚拟机可迁移的主机范围(即主机组)

仲裁服务器:仲裁服务器部署到第三地。系列存储仲裁端口需要通过以太网口连接到第三地仲裁服务器,保证IP可达。

大二层组网:为满足虚拟机迁移等业务,在相隔较远的两地依赖特定的大二层网络技术建立的同属于一个二层网络的系统。

虚拟机容灾:通过大二层组网实现跨站点的主机同集群部署,进而使用云系统的虚拟机HA功能和DRS功能,实现虚拟机的跨站点容灾。

四、容灾原理:

当发生容灾时,虚拟机短时间内不可用(依赖于VRM节点主备倒换的时间和虚拟机HA时间),数据无丢失。系统管理员在云系统可观察到VRM主备间节点心跳故障告警、生产站点主机故障告警,及虚拟机HA的记录。同时,维护人员可观察到网关备升主告警。

容灾后,系统管理员需要停用容灾集群资源调度规则,避免生产站点未完全恢复时虚拟机切回。为了减少容灾站点虚拟机访问存储的时延,需要在存储上切换灾备站点为优先站点。

生产站点修复后,可启用容灾集群资源调度规则,使虚拟机自动迁移回生产站点,也可手工批量迁移虚拟机到生产站点。虚拟机迁移回生产站点后,需要在存储上切换生产站点为优先站点。

五、双活容灾方案的劣势分析:

1、只支持两个数据中心间双活容灾,不支持多个数据中心间同时进行双活容灾。2、不支持发放的虚拟机容灾。3、生产站点与容灾站点间距离要在100公里以内,站点间需要租赁L1专线,两个站点间环回时延≤1ms。4、城域双活容灾方案依赖于云系统的HA和DRS功能,遵循HA和DRS功能的相关约束。5、城域双活容灾方案中,需要启用DRS特性进行虚拟机本地优先启动和HA,因此如果用户配置了其他DRS规则,则不能与容灾DRS规则冲突,否则无法保证虚拟机本地优先启动和HA。6、由于在虚拟机故障时,其部分缓存数据可能未及时写入存储设备上,因此,虚拟机可能会概率性HA失败,即虚拟机可能会概率性容灾失败。7、考虑性能因素,主机与存储采用FC连接,支持存储类型为虚拟化SAN存储的数据存储。8、生产站点和容灾站点的业务均通过主网关提供,规划生产站点和容灾站点的业务网络带宽时需要同时考虑该部分的业务需求。9、部署在生产站点和容灾站点的FC SAN的型号、配置需要保持一致,否则会影响存储访问性能。10、超融合方案数据中心业务负荷分担,业务零中断地调度资源时。站点中部分或全部业务(网络、存储、主机)故障,都需要尽快恢复业务时。所以容灾的两个数据中心必须拥有满足要求的高速、低时延的链路条件。两园区间需要租赁运营商专线,至少两路FC专线冗余。链路带宽大于业务峰值带宽,最低要求2Gbps。两端的网络拓扑、性能、参数要求一致,相当于两个园区要搭建相同环境、网络、存储、服务器主机来实现超融合方案,资金支出较其它方案比较大。

六、总结

双活数据中心解决方案是端到端的双活方案,可实现跨数据中心的数据零丢失,业务零中断。双活数据中心解决方案具有高可靠架构、业务稳定和扩展灵活等特点、可全面实现两园区多业务统一管理、数据安全可靠传输、存储备份。

参考文献

[1] Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J].Communications of the ACM, 2008, 51(1): 107-113.

[2] Chen Y,Alspaugh S, Katz R. Interactive analytical processing in big data systems: Across-industry study of MapReduce workloads[J]. PVLDB, 2012, 5(12): 1802-1813.

猜你喜欢

容灾交换机站点
以“夏季百日攻坚”推进远教工作拓展提升
积极开展远程教育示范站点评比活动
浅谈交换机CAN基本配置
Oracle MAA在汽车行业电子政务平台中的应用
怕被人认出
校园一卡通服务端高可用性改造实施方案
罗克韦尔发布Strat ix 5410分布式交换机
先进站点应与落后站点开展结对帮扶
信息网络中交换机的分类和功能
降低容灾门槛