APP下载

基于高校虚拟化平台的业务连续性与数据保护系统分析

2021-11-03顾建荣顾纯

电子技术与软件工程 2021年16期
关键词:数据安全灾难备份

顾建荣 顾纯

(上海工程技术大学信息化办公室 上海市 201620)

随着各高校智慧校园的全面发展与转型,信息化技术在教学、科研和管理中发挥出越来越大的作用,但随之而来的就是信息系统的爆发式增长,如果依然采用传统的系统部署方式将无法满足高校信息化的需要,因此虚拟化技术得到了最广泛的应用[1]。

虚拟化技术是在硬件基础架构(数据存储、网络、CPU、内存)与操作系统之间增加一个虚拟化层,通过虚拟化软件将这些硬件资源进行池化,按需分配给各个操作系统,最大限度的实现资源高效利用。对于业务系统的管理人员而言将不再关心底层硬件的品牌、型号、软硬件兼容性等,只需根据业务的实际需要向云平台申请相应的资源即可。

虚拟化技术为高校带来便利的同时也带来了许多的挑战,包括平台系统架构的全新构建、资源池的合理规划、网络安全以及业务连续性和数据保护等。本文则基于我校的备份一体机项目对数据保护及业务连续性方案设计与实施的应用。

1 当前我校在业务连续性和数据保护上面临的挑战

我校于2013年打造了虚拟化平台,并完成了全业务上虚拟化,共计102 台虚拟机实现P2V(Physical to Virtual)转换,之后每年的虚机数量以20%左右的速度进行高速增长,截止2020年12月共计虚机423 台。

云主机高速增长的同时数据安全却面临极大的风险。业务系统安全策略由各个业务系统负责人自行制定,通常包括数据的本地备份、网盘备份、光盘刻录、虚拟机克隆等;业务连续性包括负载均衡、数据库集群等。核心系统的安全策略是否执行到位难以确认,大量非核心系统根本没有备份机制,一旦发生问题可能导致数据直接丢失。

因此为我校的虚拟化数据中心打造一个统一、全覆盖的数据安全管理平台是非常必要的,但同时会面临五大挑战[2]:

(1)覆盖范围问题:我校的虚拟机操作系统与业务类型繁多,对于数据安全的要求也不尽相同,既然打造一个统一的数据安全平台,那么必然要做到全面覆盖。

(2)备份策略的制定:根据业务的重要性、类型不同需制定不同的备份策略。满足各个业务系统的需求。

(3)备份时间窗口的设定:由于备份时会占用部分系统资源,包括磁盘IO、网络带宽等。为避免备份对学校日常工作造成影响,因此整个备份任务须在23:00 到次日6:00 进行。

(4)备份介质的选择:传统的备份介质有很多,包括磁带库、光盘、数据存储等。按照常见的备份策略(每天增量备份,周末全备,数据保留2 个月),则需准备源数据10 倍的存储空间,且随着业务系统的快速增长,备份介质也随之不断的增长,这会给备份体系带来极大的存储容量的挑战。

(5)备份及业务连续性的灾难恢复演练:对于一个备份或容灾系统来说应急预案和灾难恢复演练是非常重要却容易忽视的两个环节。应急预案制定容易,但定期的灾难恢复演练却难以做到,原因是很多破坏性测试会增加业务系统损坏的风险,给我校带来不必要的损失,因此业务系统管理人员不愿意承担这额外的风险,导致灾难恢复演练难以推进。因此数据安全平台必须要提供一种安全可靠的解决方案,既能测试备份及容灾系统的可用性,又能不对现有业务造成额外风险。

2 数据安全和业务连续性保护的解决方案

我校通过在灾备数据中心部署备份一体机构建了数据安全平台,对全校所有业务系统实现异地数据安全保护,针对部分核心业务系统实现异地业务连续性保护,如图1所示。

图1:备份架构拓扑图

2.1 业务系统策略制定

在制定数据备份策略时,我们需要重点考虑RPO、RTO 这两个指标。

● 恢复点目标(Recovery-Point Objective - RPO)

恢复点目标指在发生灾难的情况下企业可容忍的数据丢失量的衡量标准。

● 恢复时间目标(Recovery-Time Objective - RTO)

恢复时间目标指灾难发生后,企业业务系统恢复运营所需要耗费的时间。

我们对所有业务系统和数据库进行梳理,按照其重要性分为1级、2 级、3 级,并针对不同安全级别制定不同的备份策略,如表1所示。

表1:备份策略

2.2 源端去重技术及窄带备份

传统的备份介质,如磁带库、光盘等,其常规的备份策略需大约原始数据量的10 倍空间保存备份副本[3]。备份一体机采用的备份介质是带去重功能的磁盘备份,根据厂商的数据,去重比最高可达1:50。磁盘备份相比磁带库等其他方式的备份可大大缩短备份副本恢复的时间。源端去重技术结合CBT(changing block tracing 基于快照技术(ROW),将虚拟机快照后变化的数据块进行记录并放到CBT 中;备份:仅需传输当天变化的数据量;恢复:只恢复变更的数据块,提高恢复时间,通过一根万兆裸光纤就可满足备份、恢复传输的需求。

全校所有业务系统按传统的备份方式进行备份,则备份数据量达到近500TB(每天全备,数据保留2 周),通过去重后实际备份容量为13.68TB(包含一些系统文件),去重比为1:39.8。

通过观察最近一个月的数据增量,可发现存储介质使用量基本趋于稳定,保持在55% ~65%之间。未来可根据实际使用情况决定是否进行存储的扩容。

2.3 数据备份方式

数据保护的方式分成两类,第一类是虚拟化映像级备份,第二类是针对数据库实现客户机级别备份(客户机级别备份需要根据不同操作系统、数据库类型安装相应的探针)[4]。

2.3.1 映像级备份

在时间窗口内完成一次整台虚机的全备份,配置改变块跟踪(CBT)备份模式,每天全备份实际仅备份了改变块的数据。

2.3.2 客户机级备份

对于部署了数据库的虚拟机,通过安装相应的探针进行文件级备份。备份一体机兼容Oracle、SQL Server、DB2、Sybase、SAP和SAP HANA 等数据库类型,满足不同业务的需求。

2.4 连续性数据保护

单纯的数据备份只能保障RPO=24Hour,极端情况下可能会丢失24Hour 的数据。针对核心数据库及部分有实时数据更新的虚机需要,通过备份一体机中的RecoverPoint for VMs 实现RPO=0。

简单来说通过Recover Point 的IO 拆分器会拆分写入到某个虚机VMDK/RDM 的IO 写操作,并将发送一份拷贝至生产VMDK 以及灾备的集群中。同时会将写IO 信息发送至复制副本日志,从而使终端用户能在执行恢复操作时恢复到任意时间点。

这样,当生产环境的某台虚机发生故障时,可直接在灾备集群将业务恢复,或者回滚到某一个时间点,确保业务的连续性。

2.5 应急预案建立

针对不同的虚拟机类型及故障场景建立不同的应急预案:

2.5.1 单台虚拟机无法正常使用

使用技术:备份一体机DP 进行恢复

RPO =1Day (可恢复1 天前的备份副本);RTO = 2-3Hour(200G数据需恢复需10Min)。

业务恢复步骤:

选择虚拟机及备份副本,完成虚拟机及业务恢复。

2.5.2 业务系统文件误删除或丢失

使用技术:备份一体机DP 进行恢复

RPO =1Day (可恢复1 天前的文件);RTO = 30Min-2Hour(200G数据需恢复需10Min)。

业务恢复步骤:

选择虚拟机及备份副本,确认丢失文件的路径,选择恢复的目标,完成丢失文件的恢复。

2.5.3 非核心数据库文件损坏或丢失

使用技术:备份一体机DP 进行恢复

RPO =1Day (可恢复1 天前的文件);RTO = 30Min-2Hour(200G数据需恢复需10Min)。

业务恢复步骤:

选择数据库副本文件进行数据恢复,恢复后确保数据完整性及数据库可用性。

2.5.4 核心业务系统发生宕机无法快速恢复

使用技术:通过RP 技术进行恢复

RPO = 30sec ;RTO = 5min。

业务恢复步骤:选择相应的时间点,进行容灾切换,将备机直接开启,并确认业务是否可以使用。

2.6 灾难恢复演练

灾难恢复演练是整个数据安全体系中非常重要的环节,通过灾难恢复演练可以达到训练人员、提高灾难恢复能力、确保备份容灾数据可用性等目的[5]。因此需要根据实际的情况,制定灾难恢复演练计划。

首先,确立组织演练规划小组。然后约定演练范围及周期:前期的演练会尽量降低复杂度,在零风险的前提下进行多次小规模演练,提升管理人员的灾难恢复能力。设计演练场景并制定恢复策略:针对应急预案设立不同的演练场景及相应的恢复策略。最后进行实战演练及总结:监控并记录整个恢复过程,验证灾难恢复流程及备份数据的有效性。

2.6.1 虚拟机备份恢复

将演练计划中需恢复的虚机进行恢复,恢复后将虚机开启,并修改指定IP 地址。由业务负责人确认恢复后的虚机是否可用,数据是否完整。

2.6.2 虚拟机文件恢复

将演练计划中需恢复的虚机文件恢复到指定目录,由业务负责人确认恢复的文件是否数据完整。

2.6.3 容灾切换演练

同业务系统的所有虚机会放置在一个一致性组下,业务恢复时选择test 测试选项。RP 软件会将一致性组下灾备的业务系统全部开启,并允许读写,同时将这些虚机放置在一个孤立的网络下,确保不会对生产环境造成影响。然后由业务人员对灾备的业务系统进行测试,确保灾备业务系统的可用。

3 总结

数据安全平台设计的目标是实现所有业务系统的全面覆盖,满足不同业务级别、类型系统的备份恢复需求,保证数据安全,确保关键业务的连续性,满足学校对数据安全的要求。

方案设计上要充分考虑备份恢复的方式、备份介质的空间及类型、故障恢复的预案等问题。同时通过定期的灾难恢复演练不断提升人员技术能力与系统灾难恢复能力,灾难恢复演练的复杂度逐渐从易到难,最终实现业务的整体切换。

猜你喜欢

数据安全灾难备份
雷击灾难
创建vSphere 备份任务
云计算中基于用户隐私的数据安全保护方法
灾难报道常见问题及反思
建立激励相容机制保护数据安全
大数据云计算环境下的数据安全
旧瓶装新酒天宫二号从备份变实验室
大数据安全搜索与共享
灾难不是“假想敌”
出版原图数据库迁移与备份恢复