APP下载

地理信息中心存储网络运维管理系统研究与应用

2017-10-16邢绪超

地理信息世界 2017年4期
关键词:磁盘阵列存储设备信息中心

刘 津,翟 永,刘 磊,陈 杰,邢绪超

(国家基础地理信息中心,北京 100830)

0 引 言

地理信息数据是国家经济建设、社会发展和国防安全的基础性、战略性信息资源,是国家地理空间信息资源的重要组成部分[1]。随着信息技术的飞速发展和应用的不断深入,地理信息数据量不断增长。以国家基础地理信息中心为例(以下简称中心),据统计,10年前,中心的在线存储数据量为12TB,目前在线数据量达到了2.5PB,数据量增长了214倍。

近年来,地理信息中心为有效地管理和处理地理信息数据,配置了大量的存储设备,构建了存储网络。随着存储设备的不断增加,存储网络的多架构(云存储、SAN、NAS、DAS[2])、多厂商(EMC、HDS、SUN、华为)、多对象(磁盘阵列、磁带库、光纤网络、服务器)的特征愈发凸显,运维管理愈发复杂。究其原因,一方面存储网络管理缺乏统一可遵循的标准化规范,导致不同品牌的存储设备之间缺乏互操作性;另一方面,部分存储厂商从自身利益出发,逐渐形成“一把钥匙开一把锁”的运维管理模式,致使存储网络管理烦琐低效。

为解决这一难题,经过深入调研与分析,基于SNIA[3](Storage Networking Industry Association, 存储网络工业协会)定义的SMI-S[4](Storage Management Initiative specification, 存储管理主动规范)作为主要管理协议,通过结合其他多种管理协议,构造了一套面向存储设备的专用管理网络,研究和开发了存储网络运维管理软件系统,突破了异构管理瓶颈,成功解决不同厂商的磁盘阵列、光纤交换机等设备之间的集中化、自动化监控,提高了存储网络的可管理性和易用性。

1 需求分析

通过走访和调研,10年前地理信息中心存储网络规模较小,仅配置了少量存储设备,可用空间一般不超过数十TB。随着信息化建设的不断推进,地理信息中心的存储网络规模逐步扩大,设备的种类和数量逐步增多。以国家基础地理信息中心为例,该单位目前配置的磁盘阵列达到了13台(EMC VNX系列7台、HDS AMS系列2台、HUS系列1台、SUN 6100系列2台、华为OceanStor系列1台),SAN光纤交换机7台(Brocade 200系列2台、5000系列3台,6000系列2台)以及基于IP网络的云存储设备1台,可用空间超过了3.8 PB。这10年间,地理信息中心的存储网络可用空间越来越大,架构越来越复杂。

在日常运维中,常常面对来自多个厂商的磁盘阵列、光纤交换机等设备,这些异构存储设备之间的互操作性、可管理性不强。运维技术人员需要利用厂商各自的专业管理软件,手工连接至存储设备进行基本的监控和维护。由于专业管理软件技术特点与操作界面各不相同,运维技术人员需要一一掌握,一一收集运维信息,并进行整合汇总,分析并诊断存储网络的整体性能和故障问题,这个过程具有人力成本高、准确度低、效率差等不足,给运维工作带来了较大压力,成为制约存储网络运维管理工作发展的主要瓶颈。因此,如何能够自动化、实时监控存储网络中的设备基本信息、运行状态,如何及时发现存储网络设备故障和隐患,如何提高多厂商、多架构、多对象存储设备的统一管理,是当前地理信息中心存储网络运维管理的主要需求。

根据地理信息中心的实际需求,本文研究和开发的存储网络运维管理软件系统将提供自动化的配置管理、拓扑管理、性能管理、容量管理、告警管理以及统计分析等功能。该软件系统依据UML[5](Unified Modeling Language, 统一建模语言)进行建模,完成了需求用例分析。存储网络运维管理软件系统的主要功能需求如下:

1)配置管理:建立存储网络异构设备资源配置项,针对状态变化进行记录,并确认其是否正确和完整。

2)拓扑管理:拓扑引擎能够提供快速存储网络拓扑信息发现,将组成情况、状态和变化清晰呈现。

3)性能管理:实时监控存储网络中的存储设备,获取性能数据,并提供查询、导出等功能。

4)容量管理:为优化存储空间使用,软件系统能实时获取存储设备容量和变化信息。

5)告警管理:发生故障时,软件系统能够自动检测和定位存储网络中的设备故障,识别空间使用超过安全阈值的设备,并实现主动告警。

6)统计分析:根据其他模块提供的数据进行统计分析,便于运维人员从宏观上掌握整个存储网络的运行情况和资源利用率。

上述功能需求关系如图1所示。

图1 系统各功能需求关系图Fig.1 System function requirements

2 存储管理网络构建

早期的存储管理软件主要采用CMIP[6](Common Management Information Protocol, 通用管理信息协议)等协议进行搭建。CMIP虽然管理功能较为强大,但存在实现复杂、用户操作不便等缺点[7]。

经过调研和分析,本软件系统决定采用SMI-S作为主要管理协议以快速获取存储网络设备的配置信息,即在存储设备和本软件系统之间提供标准化的通信方式,从而使存储管理实现厂商无关性,提高管理效率、降低管理成本[8];通过SNMP[9]协议获取存储设备的告警信息;利用标准的JDBC/ODBC[10](Java Database Connectivity/Open Database Connectivity, Java数据库互联/开放数据库互连)接口与运维信息采集数据库对接,保存运维管理信息。

为通过上述协议获取存储网络运维管理信息,本软件系统基于以太网构造了一套面向存储网络设备的专用存储管理网络,如图2所示。通过该网络,本软件系统SMI-S 代理与磁盘阵列、光纤交换机厂商提供的SMI-S 供应器(SMI-S Provider)对接,获取设备配置信息;同时,通过SNMP协议的Trap机制进行告警事件的统一收集和集中展现[11]。最后,通过标准的数据库接口,管理配置与告警信息等。

图2 专用的存储设备监控网络构建示意图Fig.2 Dedicated network of storage device monitoring

通过构建该网络,成功解决了异构环境下不同厂商磁盘阵列、光纤交换机等设备之间的统一监控管理的问题。

3 软件系统设计

3.1 总体架构

根据目前地理信息中心存储网络的特点和运维管理需求,存储网络运维管理软件系统总体架构可分成数据采集层、设备管理层、运维管理层3个层次,如图3所示。

图3 存储网络运维管理软件系统总体技术架构图Fig.3 Overall technical architecture of storage network operation and maintenance management system

1)数据采集层

数据采集层采用SMI-S、SNMP等主流采集协议,可屏蔽设备差异,支持变化的网络规模环境,能够根据管理对象的多少灵活部署。数据采集层采用分布式采集框架设计,包括:

①数据采集代理:面向存储网络的主要设备,支持多种数据采集协议,屏蔽协议之间的差异性,向上为设备管理层提供统一的数据接口。

②数据管理服务器:负责维护数据采集代理,与数据采集代理进行通信获取格式化后的采集数据,统一保存到数据库服务器中。

③数据库服务器:负责管理和维护采集数据,是整个软件系统的数据中心。

数据采集层结构如图4所示。

图4 数据采集层结构图Fig.4 Data collection layer structure

2)设备管理层

在获得存储设备基本配置的基础上,全面分析存储网络的拓扑结构和磁盘的挂接关系,实现拓扑发现、告警管理、配置管理、性能管理以及容量管理等功能。

3)运维管理层

针对地理信息中心日常运维工作提供统计分析功能,便于运维人员从宏观上掌握整个存储网络的运行和资源利用情况。

3.2 功能设计

本软件系统基于组件化的设计和实现方法,主要由代理管理、配置管理、拓扑管理、性能管理、容量管理、告警管理以及统计分析组件组成,实现存储网络运维管理的数据采集与管理、数据加工以及数据分析等功能。

代理管理组件是数据采集层的核心组件,用于数据采集与管理。代理管理组件作为一个应用程序安装在与被管设备网络连接的主机上。代理管理组件主要由SMI-S代理、SNMP代理以及ODBC代理组成。SMI-S代理通过与磁盘阵列和光纤交换机厂商提供的符合管理标准的SMI-S供应器对接,获取设备的所有配置信息,形成统一、集中的配置管理库;通常同厂商的同类设备对应一个SMI-S代理。SNMP代理通过利用SNMP协议的Trap机制获取来自设备的告警信息。ODBC代理则是通过标准的JDBC/ODBC接口与数据库对接,管理采集的配置信息、告警信息等内容。

配置管理、拓扑管理、性能管理、容量管理以及告警管理组件是设备管理层的主要组件,用于数据加工处理,其中配置管理组件是软件系统的核心组件,其他组件依赖配置组件提供各自的管理功能。

统计分析组件是运维管理层主要组件,用于数据分析,作为高层组件,在其他组件中获取各类数据,以进行全局的统计分析和报表生成。各组件之间的关系如图5所示。

图5 系统组件关系图Fig.5 System components

3.3 数据结构设计

为了自动化、集中化监控存储设备基本信息,本软件系统将代理管理组件获取的配置信息和告警信息,以及配置管理、拓扑管理、性能管理、容量管理以及告警管理组件加工的数据信息,与统计分析组件分析的统计信息均存放于数据库中进行统一管理。本软件系统将上述运维管理数据分为磁盘阵列、光纤交换机以及拓扑链路等三类,其数据结构设计如下:

1)磁盘阵列数据结构主要包括:①磁盘阵列表,用来存放磁盘阵列ID、名称、硬盘数量、卷数量、物理容量、可用存储卷总容量等信息;②存储卷表,用来存放所属磁盘阵列ID、卷ID、卷名称、卷容量、块数量、块大小等信息;③磁盘表,用来存放存储系统磁盘名称、磁盘所在槽位号、可用块数量、块数量、块大小等信息;④前端控制器表,用来存放所属磁盘阵列ID、板卡ID、板卡名称、版本号等信息;⑤前端光纤端口表,用来存放端口ID、所属磁盘阵列标识、所属板卡ID等信息。

2)光纤交换机数据结构主要包括:①交换机表,用来存放交换机、交换机名称、型号、管理IP等信息;②交换机端口表,用来存放端口全局名称(WWN)、端口序号、端口类型等信息。

3)拓扑链路数据结构主要包括:①SAN网络表,用来存放网络ID、磁盘阵列个数、交换机个数等信息;②拓扑节点表,用来存放节点ID、节点类型、节点名称、关联的设备类型、坐标等信息;③拓扑链路表,用来存放链路ID、前端端口ID、后端端口ID等信息。

4 结束语

本文通过分析地理信息中心存储网络运维管理的基本特点与实际需求,结合目前存储网络运维管理流程规范化和接口标准化的发展趋势,主要采用SMI-S和SNMP协议,研究和开发了一套能够解决多厂商、多型号、多架构的存储网络设备集中管理的软件系统,实现了异构存储网络中磁盘阵列、光纤交换机、服务器等资源的自动化集中监控。

目前,该软件系统已于2016年成功部署。该软件系统配置了1台交换机通过以太网连接磁盘阵列、光纤交换机,搭建专用存储管理网络以支持运维信息采集。该软件系统配置了存储网络设备信息收集服务器1台,并虚拟化为多台Windows 服务器,分别安装针对不同存储设备的代理组件等应用程序,基于专用存储管理网络收集EMC、HDS、SUN、华为、Brocade等存储设备运维管理信息。据统计,该软件系统能够自动实现存储设备数据传输率、缓存命中率、IO延迟等2 062个关键监控指标项的采集、统计和分析,降低了存储网络运行的风险,明显提高了运维管理的服务质量。

猜你喜欢

磁盘阵列存储设备信息中心
2019年中国化工信息中心 7大期刊电子版联合订阅:
2019年中国化工信息中心 7大期刊电子版联合订阅:
更换磁盘阵列磁盘
Windows 7下USB存储设备接入痕迹的证据提取
基于Flash芯片的新型存储设备数据恢复技术研究
2016年6月集贸市场仔猪价格
用批处理管理计算机USB设备的使用
电视播出机房磁盘阵列预防性维护
一例EMS磁盘阵列故障分析及改进
存储虚拟化的三个层次