有效实施灾难恢复计划的五大关键步骤

2010-08-15

电脑与电信 2010年10期

特约通讯员伍芳菊

如需执行灾难恢复计划，请务必先了解自己的恢复要求。

在当今的环境下，很多企业需要保持某种形式的业务连续性计划，该计划旨在为企业提供一种面对突发事件（比如发生洪水，地震，或者大范围的停电，导致主站点业务停滞）时可持续进行业务操作的办法。业务连续性计划涉及信息技术基础设施的故障恢复和在远程站点重新启动业务操作需考虑的人身安全和相关物理设施等问题。同时，在偏远地区给工作人员提供合适的工作区域。

IT基础设施恢复，亦称作灾难恢复（DR），针对计算机设备（包括服务器，存储器等）遇到灾难故障如何恢复等问题。DR为业务连续性计划提供了一个必要的基础，但不能取代其本身。本文讨论了创建有效灾难恢复计划的关键因素，适合IT管理者和IT技术工作者阅读。

制定战略

商业信息对于大多数企业来说，就如同王冠上的宝石，虽然大小不一，其意义非同小可。

现今企业高度计算机化，商业信息已被当作一种数据加以维护，大多数企业每天会采取一些措施以保证新数据和存档数据随时更新恢复。从历史上来看，本地数据保护是通过某种基于磁带备份的形式完成的。备份磁带副本被保存在本地磁盘，可以每天对已丢失文件和数据表等资料进行恢复。其中，一部分磁带副本被定期地迁移到偏远站点，可以常年保存。即使发生灾难事故（可能导致重要网站关闭），仍可确保数据恢复。一直以来，传统的DR计划是把备份磁带储存在装置区外。当某个非主要站点需要重新运行业务操作程序时，保存在远程站点磁带上的数据将会被转移到新的“主站点”，然后手动重建应用程序,上面的数据被装载到新的服务器上，这样业务程序就在新的站点得以处理，直到之前的“主站点”重新联机。以上所描述的就是一系列灾难恢复要求。

本文的重点在于让用户了解实施DR计划的具体要求和意义。先不要去关注相关的技术问题，而是弄清楚自己的具体要求，再开始实施一项成本虽低但能满足要求的恢复计划。在这之前，用户需打破“异地的备份磁带等于灾难恢复”这个概念。这样，才能把具体要求和能满足该要求的技术进行匹配，以便对症下药。

步骤一：理解业务优先次序

虽然不同企业有各自的业务流程，但是所有流程必定会有一个主次性关系。一般来说，只要是直接关系到创造收入或客户支持的流程均被视为关键流程。

了解灾难恢复的时间性，它和业务优先次序有何关联，然后集中注意力关注有必要存在恢复计划的那些领域。企业既要判断程序失败对业务的影响，还要判断影响范围有多大。

比如，程序一旦失败是否会直接影响收入？如果是，有没有解决办法？解决办法会不会很复杂，很繁琐？部分重要程序丢失可能给业务带来严重的影响，比如可能导致收入损失或者无法支持客户工作。但是，其它非重要程序即使丢失几天、几周，甚至几个月也不会有什么影响。因此，用户必须对此进行判断，如果可以确定某些程序不重要，完全不用执行任何恢复计划，只需列一个业务程序主次清单，包括所有主要的业务程序区域，然后勾画出一张业务流程图及相关的配套IT基础设施图。最后，只需备一份选项列表，包括应用程序，服务器和能够支持各个业务流程的存储装置。行政管理参与关键业务流程的优先次序的定义对以后的财政预算是非常有用的。为了让公司把正确的恢复计划放对地方，需对业务优先次序、相关流程，以及方案失败对业务产生影响等问题达成一致意见。

步骤二：正确评估恢复要求

主要业务流程一旦被列为优先事项，就意味着需要第一时间处理。首先，要确定所有候选应用程序都具备一定价值，并确保最新的副本作为数据在一个或多个远程位置保存。从商业角度来讲，恢复方案应尽可能减少恢复过程中数据的丢失，提供简单、可靠的恢复办法，同时恢复时间尽可能缩短。恢复效果的衡量指标（即满足恢复要求和评价每个应用环境的指标）主要是指恢复点目标（RPO）和恢复时间目标（RTO）。比如RPO是1个小时，就意味着丢失的数据不能多于1小时内最多的数据量，又如RTO是4个小时，则意味着特定的应用环境重新运行耗时不能超过4小时。

当发生灾难事件时，系统很可能既要恢复应用程序，又要恢复丢失的数据资料。很多企业的服务器和和应用环境采用了手动重建和恢复。与仅自动恢复数据，然后靠管理员手动恢复应用程序的技术相比，提供全方位自动应用恢复的灾难恢复计划的RTO更短、更可靠、操作起来更具预测性，因为无需太多依赖进行实际操作的管理员的技术。

评价你的设备位置可能遇到的灾难类型。如果你所处的位置随时可能让你面临带来大面积影响的灾难事件（如洪水，地震，或大面积的断电），您应该根据DR的最佳指引，也就是将远程恢复站点设在离主站点至少200英里以外的地方。

如果实际情况如上所述，那么进行复制技术操作时所做的每一个决定都会受到影响。复制技术分两种类型：同步复制和异步复制。前者的复制来源和目标在数据状态方面保持一致，如果复制来源和目标相隔30英里以上，由于延迟问题会对生产应用程序产生严重的影响。同步复制有距离限制，所以异步复制使用更广泛，因为后者能很好地解决DR计划长距离问题。

异步复制理论上能使复制来源和目标在任何距离都保持同步，但目标偶尔会滞后几分钟（这取决于存储空间大小和网络延迟的来源）。尽管如此，异步复制提供了一种必要的RPO性能，足以满足灾难恢复计划99.9%的要求。因此，对生产应用程序基本上没有影响。

恢复分级是一种经常用来评估业务流程恢复技术和相关要求的方法。不是针对所有主要业务流程进行评估和单独制定恢复要求，而只是少数恢复等级被严格定义。每个等级都有一套与该等级范围内所有应用环境相关联的恢复性能指标。例如，IT管理者通常定义以下三个等级：

等级1 RPO 5分钟,RTO 1小时

应用环境A,B

等级2 RPO 6小时,RTO 8小时

应用环境C,D,E

等级3 RPO 1天或多于1天,RTO 1 RPO 5分钟,RTO 1小时

所有其它的应用环境

以上数字并不是用于提供业务建议，因为恢复等级因业务内容和调节指令不同而改变。但是，总体思路还是可以适用的：少数关键应用程序要求的RPO和RTO值很低；另外一些非常重要的程序要求非常严格，不过没有等级1严格；其它非重要程序，只需一两天之内完成恢复即可。

一般来说，满足的恢复要求越苛刻，恢复方案的成本越昂贵。如果不用考虑成本因素，大部分终端用户马上会反应：只要恢复速度够快，花多少钱我不在乎。事实上，也许他们根本不需要苛刻的恢复技术就能轻松解决问题。但是，要在满足真正恢复要求和所需成本之间作出权衡，企业有必要对上文提到的步骤1有准确的理解。

步骤三：根据恢复要求制定正确的解决方案

一旦确定RPO/RTO和恢复可靠性等关键指标，只需考虑要满足IT基础设施的类型。第一要考虑的是远程位置：自己是不是已经拥有一个公司网点，该网点能否在一个或更多的首要位置用作DR站点？如果企业不具有这样一个网点，需第一时间想办法解决。

当灾难事件发生时，可以从DR服务提供商那里租用设备，但必须谨慎为之。还可以选择新的管理服务提供商，他们可以在一个大规模的共享基础设施机构（其支持多种租赁服务）提供DR统计或储蓄资源出租。

部分系统资源可能是专用的，如果主站点的停机时间超过数天，实际业务操作就显得没那么灵活。但是，对于没有连接到远程站点的小规模公司而言，选择管理服务供应商是一个不错的选择。而且，如果同时具备一个可以用作远程恢复站点的位置，选择会更多。

恢复工具通常会选用磁盘或磁带。如果每周进行1-2次的额外磁带拷贝，通过地面运输把备份资料输送到远程站点长期储蓄，那么要达到的最佳RPO不能超过数日或一个星期。如果不能满足要求，可考虑使用磁盘备份。跟磁带相比，磁盘更适合用作备份和恢复工具，因为磁盘兼容不同速度的数据，支持随机访问，使用起来更可靠。

使用磁盘时，所有的主要恢复性能指标会获得很大程度上的提高。同时，磁盘还能提供其它技术，尤其是DR同步复制技术和某些恢复进程自动化技术。

这些技术可支持DR计划的实施，几分钟内实现RPOs,并在同样的时间范围内实现RTOs.如果用户打算使用复制技术，需考虑对网络带宽带来的潜在影响：要达到所需恢复点目标(RPO)要求需要多少兆的宽带？还有大量的WAN优化技术减少了发送至远程站点支持恢复计划的数据总量。

优化技术包括TCP优化、压缩和其它存储容量优化技术，以及带宽塑造和其它质量的服务工具。如果确定应用程序环境的输入/输出率是要保护的对象，那么将很容易确定现有的网络是否能满足RPO要求或在增加复制时是否还需额外购买宽带。

另外，用户可能会有这样的疑问：在本地站点和远程站点是不是需要有等效的硬件设备？使用的技术能否支持不同环境？假设今天大多数IT商店有很多不同设备供选择，选择使用支持异种环境的DR方案的成本效益会更高。具备支持异质性特性的DR方案不仅有助于保存现有投资，而且以后购买新的服务器和存储器可以享受最大限度的选择自由。

步骤四：测试灾难恢复计划

现实和理论之间总是存在很大区别。即使已经制定慎密的DR计划，在理论上反复地推敲过，但要确保该计划奏效，还必须不定期地对其进行测试。由于系统、存贮设备和软件不可避免会发生变动，部署的DR配置会随时间逐渐削弱其可预知的执行能力。主站点的生产系统只要发生小变动，就可能会导致远程站点的数据和系统程序无法恢复。最糟糕的是，真正的补救工作刚进行到一半，非常严密的变更管理可能会论及此“削弱问题”，但是这才是真正的风险所在。被复制的配置可能会很复杂，牵涉到不同供应商提供的硬件和软件，这些硬件和软件必须做到同时工作，完美配合，才能顺利达到恢复目标。

虽然大多数DR管理者可能会排除以上风险，但使用手动密集恢复操作的管理者们，如果不考虑到大量的故障标识或故障隔离、以及如何使远程站点重新运行等问题，那么将对自己的灾难恢复执行能力没有太多信心。

许多公司不愿尝试DR计划测试有一个很简单的原因——测试对他们的生产程序环境具有破坏性，且花费很高。尤其当使用某种外包DR服务时，万一失败抑或没能获取数据恢复，还需支付额外的费用。假如运用自己的基础设备部署一个DR解决方案，更新的技术比如服务器和存储虚拟化、持续数据保护（CDP）、异步复制，如果把这些技术跟DR测试自动化结合使用，有助于解决高破坏性和高成本的问题。虚拟化技术降低了对远程站点的硬件要求，减少了DR部署的总成本。像CDP这类技术可以保证执行DR测试时不会对生产操作系统造成任何影响。

自动化技术使人们的进行恢复操作的风险因素减到最小，而且在减少恢复工作对管理员的高端技术依赖方面取得了成功，常规测试还能帮助企业进行微调和提高恢复能力，同时逐步随着恢复要求而不断改善。

步骤五：创建灾难恢复计划书

计划书包括支持系统和网络操作程序的各种流程，对所有IT管理学科都适用，而且经实践证明在IT资源分配和平均恢复前时间（MTTR）方面操作起来更高效。编写DR计划书只是创建可重复程序的步骤之一，该程序的目的是让恢复结果变得可以预知。计划书既包含如何执行IT基础设施恢复操作程序，也包含关于特殊要求和应急处理的描述。用户一旦确定自己的恢复计划要求，可以用文件的形式把要求记录下来，并保存几份同步更新的副本——本地站点和远程站点至少各一份，同时还达到了以下目的：

·确保不管是谁在做这项恢复工作，都是遵循同样的恢复过程。

·为恢复计划随着时间的推移日益改善做准备。

俗话说，有备无患，灾难恢复计划如同企业的日常业务保险，可以让自己在遇到突发灾难事件的时候把损失减少到最低。既然灾难恢复计划意义重大，企业不仅需要拥有一份主要的保险，而且应该是适合自己的保险。因此，在进行灾难恢复计划之前，务必了解清楚自己的要求，然后就可以按照本文的五大步骤执行恢复计划。

参考资料：

1.http://www.inmage.com/

2.http://whitepaper.ctocio.com.cn/