APP下载

信息系统异地容灾技术探讨

2012-08-15刘跃宋兵

中国传媒科技 2012年23期
关键词:容灾异地备份

文 | 刘跃 宋兵

难以预料的天灾与人祸,如火灾、地震、海啸等造成信息系统出现损坏或数据丢失、无法提供服务等情况,甚至让一个部门或社会局部停止运转,造成严重后果。典型的像美国9.11事件发生一年后,350家曾在世贸大厦内办公的公司中的200余家,由于信息系统破坏,关键数据的丢失,就此关闭了。面对灾难,企业束手无策吗?当然不是。同样在世贸大厦中办公的摩根斯坦利公司由于建立了数据备份和远程容灾系统,在前所未有的9.11灾难中,保护了公司的重要数据,在第二天遍及全球的业务照常运行。

所以,灾难不能预测,但是可以预防,因此建立信息系统的异地容灾对企业,特别是对那些全球覆盖,二十四小时不间断运转,高度信息化的世界性新闻媒体集团来讲是非常重要的。

一、容灾概述

信息系统异地容灾是指在相隔较远的异地,建立两套或多套功能相同的信息系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一套,使得该系统可以继续提供服务,保证业务的连续。

从技术上看,衡量容灾层次的主要有两个指标:RPO(Recovery Point Object)和RTO(Recovery Time Object);RPO即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量;RTO是恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。

异地容灾的备份与恢复国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )规定了信息系统灾难恢复应遵循的基本要求,适用于信息系统灾难恢复的规划、审批、实施和管理。并对灾难恢复能力作了6个等级的划分:第1级 基本支持,第2级 备用场地支持,第3级 电子传输和部分设备支持,第4级 电子传输及完整设备支持,第5级实时数据传输及完整设备支持,第6级数据零丢失和远程集群支持。

二、容灾恢复技术

容灾系统所涉及的恢复技术一般包括三种:数据恢复技术、应用恢复技术和网络恢复技术。下面就这三种技术进行简要分析。

所谓数据恢复技术,是指建立一个异地的数据备份系统,作为本地关键应用数据的一个可用复制。在本地数据或整个应用系统出现灾难时,确保在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制技术。按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式。同步方式是指数据在本地和异地都保存成功后,才会返回应用系统数据成功存储的信息;而异步方式是数据只要在本地存储成功,就返回应用系统成功的信息,而数据存储到异地是在后台异步完成的。

应用容灾恢复技术是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统,也可以是互为备份。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各种资源之间的良好协调。主要的技术包括负载均衡、集群技术。数据容灾是应用容灾的技术,应用容灾是数据容灾的目标。

网络恢复技术一般有:1)4-7层交换机,例如:无中断的网络恢复需要动态网络路由重选,来保证应用能够在不中断最终用户的情况下转入备用数据中心。在SNA环境下通过APPN(Advanced Peer to Peer Networking)来完成,而在IP环境下则通过第4-7层转换来完成。通过标准的基于路由器的技术,可以在通用的IP传输上使用APPN;2)路由,例如:可以通过APPN和/或标准的路由协议来完成 (OSPF/EIGRP/BGP-4)在非GDPS 环境中,APPN应用路由在容灾系统备用路径可用时,自动恢复网络连接。3)2层Reconnect,例如:SNA子网在以太网/SNA中通过ATM/帧中继/DDN链路进行互联,如果发生链路故障,则可以通过手工切换来实现网络恢复。

综上所述,在选择容灾系统的架构时,还要建立多层次的广域网络故障切换机制。在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。

在信息化高速发展的今天,信息系统已经应用到社会的方方面面,随着信息系统数据量以指数方式爆发性增长,数据安全的重要性越来越大,各个组织对信息系统的依赖也越来越严重,成为组织能否成功的关键。

三、异地容灾方案的实施

对于异地容灾系统的建立,建议通过分步实施,逐渐建立一套完善的系统容灾解决方案:

第一步,完善深化本地备份系统

通过相应的备份软件,对目前所有的计算机系统,做好完善的数据备份,特别是做好操作系统备份、文件系统备份、数据库系统文件备份、数据库数据文件备份、相关的核心应用程序备份;建立好完善的备份/恢复机制和远程磁带保管机制;这也是下一步实现远程数据复制容灾的基础,容灾中心与生产中心的数据初始化同步,都是通过备份恢复方式,实现一个同步起点。备份非常重要,可以防止出现一些恶意操作或误操作等造成的数据逻辑错误。

建立备份系统后,再将备份文件在异地也保存一份,保证出现地理上的不可预见灾难时,在异地保存一份完整的数据。异地备份中心地理位置的选择,大的方面需要对政治、军事、科技、人口和地质环境等因素加以考虑,还要从企业或机构的远景规划,业务布局,实施、维护便利性等方面考虑。

第二步,完善存储和应用的整合

存储整合是指通过相关的产品选择,将各服务器的数据、或应用,通过基于一定的管理及后续,实现数据的快照、镜像等技术,迁移到外置基于SAN的阵列库中,通过唯一的管理接口,实现统一管理,屏蔽不同厂商阵列的差异。为后续进行容灾管理奠定基础。

应用整合是指通过相应的应用集群管理软件,管理所有的应用系统状态。对现有的数据库系统Oracle、SQL Server、DB2、中间件等应用,实现双机、多机或是单机集群管理。操作系统平台相同的,可以整合在一起,实现多机集群,不同的数据库实例,只是作为一个“数据库服务组”,运行在多机或双机中的某一台服务器上,为中间件、其他应用建立“应用服务组”,也纳入到集群软件的管理;并且动过集权软件建立“应用服务组”与“数据库服务组”或其他“应用服务组”的依赖关系,实现对应用启动、关闭的有序管理。

如果是Oracle RAC的应用,则需要集权软件支持,因此在选择集权管理软件时要纳入考虑因素,通过RAC的支持使得数据库的 RAC应用也在集群软件的管理之下。

第三步,建立异地数据实时保护

通过第二步的存储和应用整合,使得所有需要容灾的核心系统,全部纳入到一个统一的管理平台之下,我们将规划好应用数据的存放方式、数据文件的存放地点、日志的存放地点,然后统一为这些数据指定一定的存储策略,实现远程数据实时复制。

远程数据实时复制,达到了真正的数据高可用,任何一个节点出现问题时,可以在很短的时间内,将应用切换到另外一个节点,实现业务的连续性。

第四步,建立异地容灾切换演练机制

在数据库复制初始化完成,相关应用复制完成,就可以实现相关应用的“消防演习”了。这是保证容灾系统正常工作的最有效的手段。

第五步,建立远程切换机制

确定外部DNS服务器对本地服务器与容灾中心服务器IP地址的对应关系,确定DNS 更新的内容。切换在某些情况下,也是一个非常复杂的过程,因为涉及切换的内容还是很多的,包括数据库、应用系统、安全系统、中间件等等,所以最好是能够建立一些自动切换的手段,提高切换的效率和可靠。

四、案例分析

笔者以某传媒集团的异地容灾系统建设过程为例,在此简单的介绍和分析容灾系统建设过程,总结实施中的经验。

1.项目背景介绍

该传媒集团业务范围遍布各大洲,主要业务系统数据集中存放在总部数据中心,数据库为Oracle;应用系统为C/S结构,终端分布部署在各分支机构,通过分支的中间层服务器和数据库进行通信。

项目建设之前,该集团已经有非常完善的数据备份恢复机制,能够保证数据的RPO,但是,因为该集团需要一个不间断的业务保证,而且一旦发生一些地理上的自然灾害等导致总部数据出现问题的时候(包括备份数据),该集团的业务将很难恢复。为此,管理层讨论后决策,建设总部数据中心的异地容灾系统,一方面保证数据的安全,另一方面,要保证业务的连续。

2.容灾需求分析

经过对该集团业务特点分析,明确系统的异地容灾需要具有如下能力:

1) 数据能够在“运行节点”和“备份节点”之间达到接近实时的复制,保障数据在上千公里外的异地有一份完全相同的副本,不但要保证数据复制的准确性、一致性等,更重要的是,两个节点之间要能够随时“互换”,也就是说数据可以从“运行节点”复制到“备份节点”,当运行节点出现问题业务切换到“备份节点”时,数据也可以从“备份节点”复制到“运行节点”;

2) “运行节点”和“备份节点”都要做好数据的备份,防止出现恶意操作或误操作造成的数据逻辑错误。因为当“运行节点”和“备份节点”之间数据进行实时复制时,一旦发生前端的误操作,可能会导致数据库中数据的逻辑错误,如果没有数据的定期备份,错误的数据就很难恢复;

3) 当真正发生灾难时,系统的运行环境能够迅速的从“运行节点”切换到“备份节点”,保证业务的连续性。切换涉及到的数据库、中间件、安全、DNS等各种服务,都需要进行平滑、迅速的切换,不能有太多人工干预的操作;

4) 平时运行中,建立“演练切换机制”,定期将系统的运行环境在“运行节点”和“备份节点”之间切换,一方面是使资源的利用率更加合理,另一方面也是不断的对切换流程进行验证完善;

5) 建立并完善“安全系统”等关键支撑平台的高可用。在本方案中,DNS服务器、安全服务器、应用服务器等;

6) 建立网络通道备份机制,防止因为网络出现问题造成系统切换失效。

3.容灾方案设计

1) 在“运行节点”和“备份节点”之间建立两条网络传输通路,其中一条用作备份,而且在选择网络服务提供商时,该集团选择了两家。同时,通过路由技术建立网络的切换机制,保证在一条物理链路出现问题时,能够快速的切换到另外一条,做到了链路冗余,这样保证了两个数据中心之间网络的高可用,为建立系统的异地容灾奠定了坚实的基础;

2) “运行节点”和“备份节点”上的Oracle数据库之间采用Quest公司的SharePlex进行数据的双向异步准实时同步,确保两节点上的数据都处于在线可用状态。

3) 在进行数据同步之初,由于对产品不太熟悉,有些配置不当的地方,造成了数据的少量缺失,后来建立了两节点之间数据的核对机制,发现错误后,及时修正,最终保证了数据的一致。

4) 采用SharePlex进行数据同步时,还需要解决下面的难题:数据库结构的升级,因为数据库结构的变化有很多,比如修改主键、增加字段、修改字段等等,这些都得需要对SharePlex进行同步的配置,而且同时需要对两个节点的数据库都要升级才能满足要求。需要建立方便、可靠的升级机制,保证了数据库结构升级的顺利进行。

5) “运行节点”和“备份节点”的数据库都制定完善的本地备份策略,并严格实施。该项目中,两节点的数据备份时通过两种手段实现:一种是采用硬盘的镜像技术实现的,这样不但速度快,而且稳定可靠,还可以提供一个在线可以使用的数据库,但是容量有限;另一种就是采用磁带备份技术,并定期将磁带运往同城异地,保证备份文件的安全。

6) 在“运行节点”和“备份节点”分别建立CA、SCA和RA服务器,平时只使用运行节点的服务,并做好两节点之间服务器上配置信息的同步,当运行节点出现问题时,切换到备份节点。

4.经验总结与思考

尽管做了充分准备,在该项目实际进行中,依然遇到了很多问题,但都通过各种手段研究解决,这充分说明了实践出真知。通过这个项目,总结一下在实施异地容灾项目时应注意的问题。

1) 技术工具的专业化

异地容灾技术要求高,术业有专攻,需要工具、组件专业化。在选择数据库复制软件时,项目组最先准备采用数据库软件附属的复制工具,但配置复杂,难于操作,还遇到一些意想不到的问题。所以,转向考察一些专业的数据复制工具软件,通过对专业工具软件测试比较发现,这些软件比功能完善,使用方便,提高了数据库复制的可靠性。

2) 做好数据的准确性比对

在项目实施完成,正式开始使用时,一定要注意“运行节点”和“备份节点”之间数据的一致性,最好是提前做好数据对比程序,并由专人负责比对,一旦发现问题,务必及时处理。否则,当时间长了以后,数据误差越积越多,最终造成很严重的数据准确性问题,就会使方案得不偿失了。所以,做好数据基准点工作很重要。

3) 编写必要的切换程序

该项目在实施之初,对提高切换的自动程度缺乏考虑,造成了切换过程需要很多人工干预工作,降低了工作效率,更容易引入人为失误。后来经过分析整理,项目组编写了一个简练高效的切换程序,“一键”完成切换,自动化程度大幅提高。所以,在具体设计切换方案时,最好将切换过程标准化、自动化,提高切换的效率和稳定性。

4) 做好DNS、路由、安全等关键节点的高可用

异地容灾系统中,很多切换都是通过DNS服务器完成重定向的,所以DNS服务器本身的高可用和容灾一定要做好,其他的比如安全服务、路由等也都要做好高可用,保证在系统切换时,这些关键要素要予以充分重视。

5) 成立“异地容灾委员会”

在所有的要素中,人是最重要的。在建设异地容灾项目时,最重要的因素是“人”,一定要建立相应的组织,专门负责异地容灾的管理,包括方案的制定、切换演习等,最好有高层领导统筹,这样整项工作才有条不紊,具有效率。

6) 制定完善的切换预案并定期演练

方案考虑再周全,也要经过实践的验证。所以在该项目建设过程中,每个阶段都进行多次演练,以验证各个环节的可靠性,发现问题,解决问题,提高人员操作的熟练性。

猜你喜欢

容灾异地备份
VSAT卫星通信备份技术研究
创建vSphere 备份任务
高速公路收费中心容灾备份系统建设方案分析
图解跨省异地就医
关于建筑企业容灾备份系统方案的探讨
推进医保异地结算 稳字当先
旧瓶装新酒天宫二号从备份变实验室
基于数据容灾技术在企业信息系统中的应用研究
破除异地结算的地方抵制
基于3G的VPDN技术在高速公路备份链路中的应用