APP下载

数据中心统一存储环境的关键指标研究

2011-09-07程志锐张慧琳常晓磊

计算机工程与设计 2011年7期
关键词:存储设备磁盘链路

程志锐, 王 茜, 张慧琳, 常晓磊

(清华大学计算机与信息管理中心,北京100084)

0 引 言

云计算概念的推广促使数据中心逐步向高伸缩、高可用和高度资源共享的方向发展,将单个的分散的硬件设施进行整合、优化,从而形成集成的、按需分配的共享资源池已成为一种趋势。面对新的形势,建立用于评价数据中心建设成效并指导未来工作的数据中心指标体系越来越重要,已成为一个新的研究课题。惠普公司于近年提出了“适应性基础设施成熟度模型(AIMM)”。AIMM旨在帮助企业评估其数据中心现状,并根据企业的业务优先级,就企业如何达到理想的“未来状态”制定一个可验证的实施规划。该模型根据行业准则的标准指标和大量的企业实践,从运行效率、成本、服务质量和变更响应时间等方面来进行评估和衡量,将数据中心的基础设施分为5个成熟阶段,即独立分隔的基础设施、标准化的基础设施、优化的基础设施、面向服务的基础设施和适应性、共享的基础设施。但该模型将数据中心的技术和体系架构作为一个整体进行评估,对作为数据中心核心基础设施的统一存储环境的建设和运行情况却缺乏相应的评估和指导。

NetAPP公司提供一种在NAS服务器上集成了FC、ISCSI等协议的统一存储设备来构建统一存储环境,以期通过一套集中存储来完成多种应用的支撑,EMC、HDS、华赛等厂商通过在FC阵列的基础上增加NAS控制器来构建统一存储环境。这两种架构都有大量的应用案例,都为统一存储环境的建设积累了宝贵的运行经验。

此外,非营利组织SPEC和SPC分别为NAS和FC阵列提供了性能基准测试。SPEC的基准测试为NAS提供了OPS(每秒操作数)-操作时延曲线,期望以这两个参数及其对应关系描述设备的性能情况。相应地SPC为FC阵列提供了IOPS(每秒I/O数)-I/O时延曲线。还有一些机构为存储设备提供了排名,这些尝试都在为建立存储的评估指标提供参考。

在此背景下,本文从统一存储环境的建设实践着手,分析了当前遇到的主要问题,从设备的高可用、高可靠和高性能等方面进行总结,并给予SPC和SPEC的基准测试提出了改进的性能指标,力图为统一存储环境的建设建立一套有指导意义的指标集,同时也为了推动数据中心评估指标体系的研究和建设工作。

1 统一存储环境建设中的问题

本文将以清华数据中心为例,阐述存储系统中存在的一些比较突出的问题。清华自2004年引入了统一存储设备来构建统一存储环境,以满足 FC、NFS、CIFS、ISCSI、FTP 等应用并存的需求,为多变的开发运行环境提供服务保障和快速的响应时间,极大地方便了存储系统的管理和维护。但多年的运行也暴露了该环境在高可用性、磁盘系统可靠性等方面的问题,同时应用的新需求及新技术的出现也对现有的存储环境提出了挑战。

1.1 存储架构不能保证高可用

统一存储采用控制器、磁盘系统双冗余架构,每控制器除了可驱动自身的磁盘系统外,还可通过FC-LOOP链路接管另一控制器的磁盘系统。其结构如图1所示。

图1 双控冗余的统一存储架构

该结构的优点在于控制器和磁盘系统都是独立的两套,既可以互不干扰地独立工作,也可以实现冗余备份功能。

问题在于控制器发生故障时,NAS系统的切换时间较长,导致另一控制器接管时间长达60~180s,对于NFS应用这样的延迟还可以恢复运行,但对于I/O响应时间敏感的Oracle数据库等应用,会因误判存储发生故障而做出事故响应,导致服务中断。

1.2 性能方面存在的问题

统一存储采用FC和NAS混用模式,在应用过程中发生过数据库因I/O不响应宕机的问题。经分析排查,原因有两点。一是因为统一存储设备因将FC与NFS集成在一套设备中,当NFS或FC应用有大量写操作时,会导致控制器CPU和缓存占用过高,从而影响其他应用。数据库宕机是由于其对I/O响应时间敏感,因I/O响应缓慢而误判存储发生故障,从而中断了服务。NFS应用因对操作时延的容忍度较高而表现稍好,往往在系统挂起一段时间后自动恢复,也出现过系统因NFS文件系统挂起而不能恢复工作的状况。二是因为控制器的CPU及缓存配置较低,出现“小马拉大车”现象,导致控制器过载响应缓慢,使得磁盘系统在远没有达到满负荷的情况下控制器因过载而成为性能瓶颈。

1.3 磁盘系统的潜在威胁

存储设备的磁盘大都以磁盘箱为单位,通过FC-LOOP链路与控制器相连,目前常见的保护措施有Raid技术、全局热备技术以及双FC-LOOP链路,可以涵盖绝大部分磁盘系统的故障。但是磁盘箱发生故障时这些措施都将失效。磁盘箱的故障不一定会影响到磁盘的运行,清华数据中心发生的磁盘箱故障就属于这类。但磁盘箱往往附带各种监控设备,其故障将导致控制器无法获取磁盘的状态信息。为恢复磁盘箱,目前只能安排停机更换,对业务连续性影响较大。如果故障导致存储系统崩溃,则不得不采用备用存储或灾备存储。

1.4 不能满足自动分级的需求

早期数据中心存储的重点在于数据集中,但经过多年的积累,数据容量激增的问题日益突出,存储成本越来越高,尤其是历史数据,虽然通过二级存储可以降低维护成本,但带来了管理和数据访问的不方便,同时也增加了设备的维护量和能耗。而且新的应用趋势表明,应用的数据本身也存在不同的访问级别,完全可以分级处理。应用的发展需要更细粒度的分级处理技术支持。

2 统一存储环境关键指标设计

统一存储环境建设的目的是为了提高存储系统可用性、性能和资源共享能力,能根据需要快速响应应用需求,能方便地管理和扩充,具有更大的弹性(伸缩性),而云计算对存储基础环境的要求也恰恰体现了这些特征。为此,本文将重点从以下4方面考虑建立相应的指标,为设备选型和架构设计提供依据。

2.1 高可用指标

(1)控制器高可用指标

首先是存储架构,不管是NAS还是FC阵列,要实现高可用目前主要有3种架构,除图1之外,还有2种架构,这2种架构均采用共享磁盘系统,区别在于控制器是分离的还是集成在一个背板之中。架构如图2所示。

图2 共享磁盘的双控冗余存储架构

从架构上考虑,磁盘及控制器双冗余的架构可靠性最高,关键数据可以实现镜像。共享背板的双控冗余架构风险最高,磁盘及背板都存在单点故障风险,而且背板硬件需特制,提高了成本,优点是结构紧凑,节省了空间。性价比最高的是磁盘共享双控冗余的架构。架构的选择要根据实际情况而定,3种结构各有所长。对于在FC阵列基础上增加NAS控制器构建统一存储环境的情况,要重点考察其FC阵列的架构。

另一个控制器的关键指标是控制器发生故障时的接管时间。由于NAS系统控制器切换时需接管文件系统和服务IP,切换时间较长。如有Oracle数据库等对I/O敏感的FC应用,应避免选用统一存储设备,或者将数据库等高I/O敏感的FC应用单独采用FC阵列提供服务。以OracleRAC为例,其对I/O响应时间要求较高,一般设置在30s左右,根据对主流FC阵列的调研,切换时间基本都控制在10s以内,切换时间指标可设定不超过20s。NAS控制器的切换时间可适当延长,根据主流厂商的调研可设置为不超过120s。

(2)链路高可用指标

存储设备的链路涉及前端链路与后端链路。主流的存储后端采用FC-LOOP实现磁盘与控制器的连接,为保证磁盘链路的可靠性和磁盘箱替换的问题,一般要求双LOOP连接。前端链路FC阵列与NAS略有不同。FC阵列要求提供MultiPath FC链路冗余功能,而NAS的指标是IP链路的聚合或容错。

(3)磁盘系统高可用指标

根据1.3节的描述,磁盘系统的典型指标有Raid技术、热备技术和双FC-LOOP链路。但针对磁盘箱的可靠性,应该要考虑两种情况下的指标。一种是不影响存储运行的情况,另一种是导致存储系统崩溃的情况。针对第一种情况,要求提供可在线替换磁盘箱的技术指标,满足该指标的技术有在线数据迁移技术,可以在不中断服务的情况下将故障磁盘箱内磁盘上的数据迁移至其他磁盘,然后在线替换该磁盘箱。第二种情况将肯定有数据损失,为保证数据可恢复,要求提供备份或灾备设备,其关键是RTO(服务恢复时间)和RPO指标(可恢复数据的时间点)。这两个指标越小越好,但相应的成本也越高,实际操作中要根据数据的重要性、行业标准或国标以及可投资的预算来设定。

2.2 性能指标

SPEC和SPC组织提供主流设备的OPS和IOPS的指标,该组织鼓励厂商提供的测试硬件能发挥出其设备的性能最大值。两个组织的网站上公开的测试报告也可以看出,各厂商送测设备的配置有较大的差别,测试结果不能反映实际应用情况,只能作为性能的参考指标。为此,必须从多个角度综合考虑,找到一套相对适用的性能指标。

1.2 节中描述了控制器的性能瓶颈问题,反映了控制器的两个主要性能指标,即CPU频率和缓存大小。根据这两个指标将厂商新型号与现有型号进行对比,以及与其他厂商同档次设备进行比较,可以大致判断控制器的档次和处理能力。

控制器配置不足会导致性能瓶颈,反过来磁盘配置不足也会导致性能瓶颈。磁盘有I/O访问次数的物理上限,所以磁盘数量对I/O性能有显著的影响。所以存储设备能驱动的最大磁盘数量也是一个重要性能指标。但各厂商的最大磁盘数量不具有可比性,为保证该数据的可信度,本文在SPC和SPEC性能评测基础上建立一个辅助指标,即I/O性能增益。该指标利用OPS/IOPS-时延曲线的数据,计算100%负荷下其IOPS/OPS实测值与理论预估值的比率。该参数可根据式(1)计算

按照SPEC和SPC组织的建议,要最大化地发挥送测设备的性能表现。可以假定100%负荷下存储设备的IOPS达到其磁盘极限。即单盘 IOPS理论值。虽然磁盘本身的缓存对IOPS理论值有一定影响,但在同样转速的情况下基本可以忽略其影响。因此,相比于OPS和IOPS因为测试条件不同导致的不可比性,采用I/O性能增值比率可基本实现不同设备的性能比较。此参数越大,则性能表现越好。

决定磁盘IOPS理论值的参数有磁盘旋转时延、平均寻道时间以及命令的传输及执行时间,其中旋转时延取磁盘旋转一圈的平均值,以15000 RPM(每分钟15000转)的磁盘为例,其旋转时延可根据式(2)获得

平均寻道时间、命令的传输及执行时间均与厂商密切相关,可以从厂商得到其数值。一般这3个参数也可以归并到平均寻道时间中。典型情况下,SAS盘与FC盘的内部机械结构相同,15000转的磁盘为4ms左右,10000转的磁盘为6ms左右,7200转的SATA盘则在8.3ms左右。这样单盘的IOPS理论值可根据式(3)计算

另一个不容忽视的问题是应用间的干扰问题,如1.2节中的FC和NFS应用互相干扰导致的数据库宕机。该问题主要存在于采用集成FC和NFS等协议的设备环境中,如NetAPP的统一存储设备或EMC在FC阵列上增加NAS控制器构建的统一存储环境。针对以上类似应用场景,服务质量控制机制(QoS)是必须具备的指标,以便为高级别的应用提供预留的资源,避免资源竞争而导致服务质量下降或服务失效。

2.3 分级存储指标

随着历史数据的处理要求和应用数据本身分级处理的要求不断增加,支持数据按照使用频率自动分级已成为当前存储环境建设的一大重要指标。自动分级存储已成为当前存储虚拟化领域发展最迅速的技术之一。自动分级存储将大量不经常活动的数据迁移至低速、低成本的磁盘系统上,将直接降低存储的采购成本和能耗。

分级存储的发展经过了3个阶段。第一代产品是提供二级甚至多级存储,将不经常使用的数据迁移至低档次的存储设备上,但此方案以来手工操作,增加了设备采购和维护工作量。第二代产品采用了lun级虚拟化,数据可在位于高速磁盘区的lun和低速磁盘区的lun之间流动,实现了在一套存储系统内提供自动分级存储的能力,减少了设备采购和维护工作量。但是该方案的不足之处是lun的粒度太粗。第三代产品采用块级虚拟化技术,可以在数据块级提供自动分级存储,将不同级别的磁盘组成磁盘池,根据数据本身的使用频率决定其是处于高速磁盘区还是低速磁盘区。数据块级自动分级存储已经得到大量成熟应用,可作为分级存储指标。

2.4 高伸缩性指标

存储的伸缩性主要体现在性能、功能和容量的扩展3方面。性能可通过控制器数量和缓存数量扩展。FC阵列的性能扩展指标是可扩展的控制器数和缓存数。NAS控制器因需要与CPU处理能力匹配,一般缓存是固定的,其扩展指标是可扩展控制器数量。功能扩展指标包括软件和对未来新硬件的支持能力,即存储是否留有扩展板卡的余地。比如一些老存储设备无法支持今天的SSD盘,影响了功能和性能的提升。容量扩展的主要指标是最大可扩展数量。对于FC阵列,很多中低端设备最多只能做到双控制器驱动,限制了其扩展能力,从长远来讲,这可能是统一存储环境建设的一个技术瓶颈。

2.5 兼容性指标

存储设备的兼容性主要是主机与存储间的 FC接口和MultiPath软件的兼容。兼容性问题来自于产品软硬件设计缺陷或测试不全面所致,目前各厂商提供其产品的兼容性列表,但用户方还没有一个规范性的兼容性列表要求,导致选型时工作量极大,甚至在设备安装后遇到难以解决的兼容性问题,将兼容性列表作为指标需要了解不同行业的系统环境,有较大的难度。目前的解决方案是针对行业区别对待。

3 实验与结果分析

根据SPC评测数据计算各厂商FC阵列的I/O性能增益,找到数值比较接近的产品,同时根据本文中的性能相关存储指标,进一步判断厂商所提供的产品是否处于同一档次。根据SPC评测数据得到的结果见表1。

表1 性能指标接近的中端FC阵列

3PAR的F400在国内比较少见,但根据该表很容易地判断其所处档次,从而为设备选型提供参考。

4 结束语

统一存储环境的建设已有不短的时间,但统一存储环境的建设指标却是一个新课题。本文从清华大学数据中心运行维护工作中遇到的问题出发,对统一存储环境建设过程中出现的各类问题进行分析汇总,从存储架构的高可用性、性能需求、分级存储需求、伸缩性和兼容性等方面加以阐述论证,提出了存储架构高可用指标、链路高可用指标、磁盘系统高可用指标、性能指标、分级存储指标、伸缩性指标和兼容性指标,力图为统一存储环境建设建立一套适用的参考指标体系。但限于作者的经验及考察的范围和应用案例,这项工作仍有很大的改进余地,在架构设计、性能评估、高伸缩性、应用集成等方面还有许多工作值得研究。对该课题的持续研究不仅对存储技术的发展有促进作用,也为数据中心的建设模式和思路提供了参考,有助于促进对新一代数据中心建设具有指导意义的指标体系的研究。

[1]朱伟雄.新一代数据中心建设理论与实践[M].北京:人民邮电出版社,2009:188-194.

[2]Assessing storage efficiency within NetApp's data centers[EB/OL].http://media.netapp.com/documents/storage-efficiency-casestudy.pdf,2009:1-10.

[3]王纪奎.存储从入门到精通[M].北京:清华大学出版社,2009:80-85.

[4]曾雷杰,张延园,李战怀,等.一种SAN上的数据迁移算法设计与实现[J].计算机工程,2009,35(4):53-55.

[5]李树全,吴跃,陈志飞.SAN存储虚拟化研究[J].微电子学与计算机,2009,20(1):39-41.

[6]SPECsfs2008 User's Guide[EB/OL].http://www.spec.org/sfs2008/docs/usersguide.pdf,2008.

[7]SPC benchmark 1TM(SPC-1)official specifcation[EB/OL].http://www.storageperformance.org/specs/SPC-1_SPC-1E_v1.12.pdf,2009:53-62.

[8]SPC benchmark-2TM(SPC-2)official specifcation[EB/OL].http://www.storageperformance.org/specs/spc2_v1.3.pdf,2009:41-59.

猜你喜欢

存储设备磁盘链路
叶腊石聚合成型及其旋转磁盘的制作方法
天空地一体化网络多中继链路自适应调度技术
它的好 它的坏 详解动态磁盘
基于星间链路的导航卫星时间自主恢复策略
解决Windows磁盘签名冲突
Windows系统下动态磁盘卷的分析与研究
浅析铁路视频监控存储设备设计
基于3G的VPDN技术在高速公路备份链路中的应用
高速光纤链路通信HSSL的设计与实现
Windows环境下禁用USB存储设备程序设计与实现