APP下载

中科院科学数据云架构探析

2015-12-01黎建辉虞路清张波刘峰吴章生

中国教育网络 2015年10期
关键词:分中心存储系统分布式

文/黎建辉 虞路清 张波 刘峰 吴章生

中科院科学数据云架构探析

文/黎建辉 虞路清 张波 刘峰 吴章生

随着云计算技术的发展,中科院“十二五”信息化发展规划提出了建设科技云的总体思路,从高速网络、超级计算、科学数据等方面着手,整合集成各类资源和服务,形成信息化服务的云环境,以云服务模式为科研活动与科技创新提供应用服务。

总体架构

科学数据云是“十二五”中科院信息化建设科技云的重要组成内容。科学数据云平台的总体架构如图1所示。

科学数据云平台总体架构自下而上共分为三层:基础设施层、平台层和软件服务层三个层次,并分别对应相关的资源与服务,基础设施即服务(IaaS),数据即服务(DaaS)/平台即服务(PaaS)和软件即服务(SaaS)。

IaaS层在计算机服务器、网络设备、存储设备等硬件环境基础上应用虚拟化技术统一为基础设施资源池,包括计算资源、网络资源和存储资源。依托这些资源,面向科研实际需求构建云存储服务、云灾备服务、云归档服务和云计算服务。

图1 科学数据云平台总体架构

PaaS层是为用户提供一整套开发、运行和运营应用软件的支撑平台,科学数据云的重点是围绕数据处理和数据资源开发数据处理与服务平台(DaaS),例如在数据处理方面搭建了大数据处理和个性化地图数据定制的平台,在数据资源方面提供了科学数据库建库、管理、发现的服务平台。

SaaS层是一种通过互联网软件提供资源的服务模式。重点面向终端用户需求,在基础设施层和平台软件层的基础上,封装成熟的数据服务为核心的应用软件平台,如提供科学数据共享社区(DataPub)、地理空间数据云系统(GSCloud)等。

随着“十二五”中科院信息化专项“科技数据资源整合与共享工程”实施和推进,目前,科学数据云存储设施的总容量从2010年6.42PB扩展到当前的43PB,科学数据库资源支持了13个学科领域数据整合重点库和7个研究所数据整合重点库,以及20个专业数据库,由全院65家单位参与数据整合建设与服务,海量存储设施和科学数据资源取得了重大进展,为推动科学数据云服务奠定了重要的基础。

分布式大规模基础设施环境

面向全院科研活动需求,科学数据存储基础设施分布在中国科学院12个分院,形成统一管理、统一服务的海量数据存储与容灾备份的云服务环境,面向全院提供科学数据中心基础设施服务。

目前,科学数据云的基础设施环境建成总容量43PB,具体包括存储环境12PB,归档环境(磁带库)30PB,灾备环境1PB。形成了布局12个分院、服务辐射全国的中科院分布式海量存储环境系统架构,构建了包括北京、长春、南京、昆明和东莞5个灾备中心的数据灾备服务网络。

分布式海量存储环境由上海、广州、兰州、合肥、昆明、新疆、成都、武汉、长春、南京、无锡和西安12个存储分中心构成,各个存储分中心和北京总中心之间通过高速CNGI宽带互联,提供统一的云存储服务,为海量数据的存储备份、长期保存和数据密集型处理等需求提供支撑。数据灾备环境可提供达到国标5级“同城两中心”及“多地多中心”高等级共享灾备服务。此外,中关村机房部署了100台服务器,全部用于云计算服务。

图2 云存储服务系统框架

中关村存储总中心是整个海量数据环境的中心、数据备份中心和管理中心。北京怀柔数据备份中心是总归档备份中心,主要为数据异地备份提供安全保障。

依托海量存储环境研发了云存储服务系统。云存储系统架构包括北京中关村存储总中心、怀柔数据备份中心和12个区域存储分中心,各区域存储节点通过1Gbit/s高速科技网络互联,面向全院提供统一存储备份服务。

云存储服务在对存储资源虚拟化管理基础上,形成统一的存储资源池,实现用户1分钟内自助启用存储备份。云归档服务支持用户远程数据归档和自主管理,将专业数据库应用开发转变成按需配置的在线服务,实现用户1小时内自助云端建库和数据管理。云处理服务依托分布式海量存储设施和处理节点,构建数据密集型处理环境和可视化分析平台,为高通量、高性能数据处理提供自适应、可扩展的处理资源适配和调度。数据云服务针对可共享的数据资源和汇集归档并到期释放的数据资源,建立统一的科学数据发布与引用系统、科学数据管理与服务运行监控环境,提供用户稳定的数据集成检索、数据成果发布等服务。

云存储技术架构

在存储资源虚拟化技术基础上,云存储将分布于12个分院的存储节点的大量存储设备通过分布式文件系统集合起来协同工作,形成统一的存储资源池,实现用户自助使用存储服务。同时使用应用软件进行业务管理,并通过标准的Web Service应用接口,支持科研应用在线数据存储和业务访问(如图2所示)。

为此,科学数据云在各个分中心部署云存储相关软件,包括分布式存储系统、应用服务器集群、网络和安全支撑平台、云存储业务服务与监控运维管理平台等,同时各软件还支持IPv6协议。

分布式存储系统:分布式存储系统作为云存储环境的基础组成部分,硬件平台由位于多个分中心标准的多盘位存储服务器构建,存储虚拟化平台由全局存储管理系统将把分散部署在多个分中心的分布式存储系统整合为全局可见、可访问的统一存储资源池,实现数据异地高速分发、传输以及广域单一命名空间访问。分布式集群存储系统提供符合POSIX规范的标准接口,任意应用程序无需更改便可直接访问分布式存储系统中的相关数据。

应用服务器集群:作为应用服务的基础平台,考虑到用户的不固定性带来的应用不固定性,服务器集群采用绿色、节能的刀片服务器与具有高可扩展性的机架服务器组合。

网络和安全支撑平台:作为各硬件系统的通信桥梁,网络支撑平台包括网络交换设备和网络安全设备两个部分。基于安全、稳定的前提,网络交换设备采用冗余配置,同时采取应用网络与存储网络分离的架构;为了最大限度地保证部署在多个分中心的安全,同时有效地把多个数据分中心整合为一个虚拟的专用网络,每个数据中心部署防火墙、VPN等相关设备。

云存储服务与管理平台:云存储服务平台是一个IaaS服务平台,主要为院内科研应用提供基础存储服务,主要是以Web Service标准接口为科研应用服务提供使用存储资源的途径,科研应用服务通过二次开发调用Web Service接口实现文件的在线存储。

云存储监控和运维管理平台:为系统运维人员提供云存储资源管理、底层系统管理、用户账号管理、记账管理、充值服务、资源分析等运维支持服务。监控平台主要包括数据采集模块、远程控制模块、用户管理模块、存储管理模块和开放接口等几个部分。利用远程控制模块可以在北京数据中心实现对异地数据中心的设备有效管理,提高异地数据中心设备的可维护度。云存储监控平台提供标准访问接口,可以将其它管理、监控等多种系统无缝接入到该平台中,增强该平台的监管力度和功能。

云存储架构支持在线扩展,在扩展的同时将保障前端应用系统服务的持续性。当扩容完毕,新加入的存储单元自动接受全局化调度和管理。

(作者单位为中国科学院计算机网络信息中心)

猜你喜欢

分中心存储系统分布式
分布式存储系统在企业档案管理中的应用
天河超算存储系统在美创佳绩
国家测绘地理信息局卫星测绘应用中心河南分中心
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
高速公路监控分中心网络配置探析
基于DDS的分布式三维协同仿真研究
高速信号采集及存储系统的信号完整性研究分析
全国首个民族出版产品质检分中心成立
各地分中心 海选现场