APP下载

基于ZStack的私有云建设实践与思考

2021-06-16吴新松裴伦鹏梅磊刘晓敏

电子技术与软件工程 2021年5期
关键词:运维部署服务器

吴新松 裴伦鹏 梅磊 刘晓敏

(1.中国电子技术标准化研究院信息网络管理处 北京市 100007 2.上海云轴信息科技有限公司 上海市 200241)

随着计算机和互联网的飞速发展和广泛应用,以数字化、网络化和智能化为代表的数字时代已悄然来临,我们正跨步迈入数字社会。在数字时代,如何利用云计算、大数据、人工智能等新一代信息技术手段支撑推动企事业单位管理创新和业务发展,实现数字化转型和高质量发展已成为一个热点问题和重大挑战。

云计算作为产业实现数字化转型、智能化升级的技术底座备受重视,经过十几年的发展,以IaaS、PaaS 和SaaS 为代表的全球云计算市场规模已达万亿,已成为数字时代企事业单位信息化建设的必选项。私有云建设作为整个云计算生态中提供底层基础设施的关键,是实现数字化转型和高质量发展首要思考的,也是企事业单位IT 架构里重要一环。对于千人规模的科研事业单位,如何基于自身的业务、技术和组织需求,选择正确的云服务模式,直面上云场景中的真实痛点,形成完整、标准、可复制的落地解决方案,让云计算精准落地,提高信息基础设施的资源利用率和自动化运维水平是一个值得研究的课题。下面结合某科研事业单位的私有云建设情况进行探讨。

1 建设背景

某事业单位在原有的管理模式和传统的IT 架构下,已具备了较为完善的信息化基础环境,信息化部门负责基础网络、机房设施的建设、运维和管理,业务部门围绕科研课题任务涉及的专用系统及配套服务器、存储等的建设、实施与运维,业务系统的部署基本采用独占模式。

1.1 存在的问题

1.1.1 资源综合利用率低,无法动态分配,引起重复建设和资源浪费的问题

在这种模式下,业务系统与物理服务器强耦合,即使业务系统的资源占用较低也会独占一定的服务器资源,空闲的资源无法释放供其他业务系统使用。而对于资源占用较高的业务系统较难实现资源的动态扩展,资源的综合利用率低。

1.1.2 运维成本高,运维效率低

业务系统的独占部署模式会进一步导致运维的成本和复杂度,一是需要配备更多的运维人力,但信息化部门人力资源相对有限,再分散到各业务部门人员的运维能力相对更为薄弱,这便导致运维工作压力越来越大。一方面会占用科研人员的科研时间和精力,另一方面会影响运维的及时性和专业性。

1.1.3 业务服务质量无法保证,应用部署及交付慢

单业务系统较少考虑到存储、备份、业务连续性等的统一规划,出现故障后需要较长时间来进行系统性的恢复或重建;新应用的部署和交付要从基础的接入、上架、基础环境安装配置开始,部署周期长,应用交付慢;尤其是对一些涉及多系统部署的复杂仿真测试平台,测试环境的切换和初始化更是费时费力。

1.2 紧迫的需求

该单位即将启动信息化改造工程,涉及十几个科研办公管理系统的整合提升改造,并为此准备了一批服务器、存储硬件配套资源,但按照独占部署模式已无法支撑相关系统的开发测试及运行需求。同时该单位对数据的安全性有较严格的管控要求,只能部署在私有环境中。

综上,非常有必要将信息基础设施和资源与业务应用剥离,集约建设、统一管理、按需使用,形成公共服务平台支撑各级各类信息化建设和业务创新。

2 建设目标

建设的远景目标是通过对原有IT 基础设施开展云化改造,循序渐进开展私有云平台建设,逐步实现信息化基础设施资源的统一规划、统一建设、按需调配、即需即用、有效共享。在有效降低重复建设投资、节能环保的基础上,提高基础设施资源的利用率,降低运维成本提高运维效率,统一支撑各级各类系统建设运行,支撑单位管理创新和业务高质量发展。

近期建设任务聚焦在以存量的计算、存储、网络资源为基础,初步建设形成弹性可扩展的科研办公基础云平台,满足单位科研办公管理系统测试开发需要。

3 建设规划

云化改造从需求分析开始,结合存量服务器、存储设备和网络设备的品牌和型号,进行私有云平台的技术选型。选型确定后,进行云管平台和相关设备的采购、安装以及调试。完成私有云的部署交付后,开展业务系统的部署调测,经过验收进入运维阶段。

3.1 需求分析

在保障业务系统开发运行的基础上,充分考虑单位的云平台的可持续性发展和后续扩容建设,把握以下原则:

3.1.1 平台轻量化,管理简单化原则

云平台应为轻量级架构设计,管理节点要求低,占用资源少,将有限资源应用于资源池;应安装部署应简单快速、UI 交互界面友好、管理和运维可视化、操作简捷运维。

3.1.2 兼容性与利旧能力

应具备较好的硬件异构和利旧能力,保证现有的各类X86 架构品牌和配置的服务器、SAN/NAS 存储可以被充分利,以满足开发测试、核心业务等多个环境的构建;同时应兼容ARM 架构,具备适配自主可控的服务器的能力。

3.1.3 高可靠性与高性能

必须确保在云平台上运行的各类科研办公业务的稳定性和可访问性,用户体验至关重要,需采用科学、精简、高性能的资源管理与服务提供技术,同时确保云主机不停机、业务不停止、网络不中断。

3.1.4 跨云化、开放性与自主可控

云平台应具备一定的开放性和扩展性。

图1:基础云平台基础部署架构图

(1)能够管理多种公有云、私有云、及多种异构云基础设施,提供统一的一站式多云管理服务。

(2)能够遇到特殊业务场景,可根据需求进行二次开发集成。

(3)应具有自主知识产权,云平台核心代码开源,符合国产化要求。

3.2 技术选型

按照满足现有需求并预留扩展空间的原则,该单位对主流私有云解决方案厂商(华为、浪潮、VMware、电信云、ZStack 等)方案及产品进行了调研与比对。

方案大致分为三类:

(1)硬件厂商方案,存在与厂商自身硬件设备结合较紧密,开放性不够友好,厂家之间互相设置门槛,对存量采购的设备纳管存在问题,异构设备兼容性问题较大,后续扩展限制较多;

(2)运营商由公有云方案瘦身演变而成的方案,架构基于公有云缩减功能来实现,设计及管理方式比较复杂,对硬件的数量和要求比较高,起步门槛较高;

(3)第三方私有云厂商,如今年发展较快的ZStack 云,属于轻量级云平台,对硬件要求相对较低,能适配现有技改服务器及存储设备,能够纳管阿里公有云及VMware 虚拟化,有自主知识产权,并已完成与华为鲲鹏、中科麒麟等国产化产品的适配,核心代码开源后续能够针对单位各类需求做定制化开发,兼容性和扩展性相对较好。综合考虑后该单位采用阿里私有云产品ZStack 私有云产品。

4 项目实施

4.1 实施过程

4.1.1 部署交付

基于存量的服务器及存储资源,拟采用混合存储模式构建该单位的内、外网两套基础云平台。每套云平台使用十余台存量高性能机架式服务器构建计算资源池(管理节点复用)、2 台FC 存储阵列和3 台超融合存储服务器构建存储资源池,并提供弹性扩容、高可用、数据备份、可视化监控等管理手段。分别作为该单位内外计算、网络、存储资源整合基座。

基础云平台基础部署架构图如图1 所示。

(1)计算资源池。共有12 台机架式浪潮服务器,其中两台浪潮服务器管理节点和计算节点复用。当其中任何一个管理节点失联,秒级触发高可用切换,从而保障ZStack 管理节点持续提供服务。其他服务器均作为计算节点。所有服务器均接入FCSAN 存储。使用FCSAN 作为主存储。

(2)存储资源池。2 台存储阵列配置FCSAN 集中式存储,配置存储链路多路径,以支持IO 负载均衡及链路冗余,规划了个14TB LUN,作为主存储使用,主要提供云主机的系统云盘、数据云盘、快照数据及备份数据等。同时复用3 台浪潮x86 服务器,采用超融合方式部署,提供KVM 虚拟化和分布式存储服务。

(3)网络拓扑。管理网络采用双千兆,用于管理云平台相关的硬件资源。IPMI 与管理网络共用,实现对服务器的远程管理。业务网络采用双万兆,对外提供应用服务。

4.1.2 系统迁移

逐步将各类应用系统由物理机迁移至基础云平台,配置高可用、应用自启动及数据定期备份策略;替换下来的服务器视情下架或利旧使用,升级作为计算节点纳入云平台管理。通过第三方迁移工具将业务系统所在服务器操作系统整体迁移上云。

迁移路径:

步骤1:物理机虚拟化。

步骤2:虚拟机迁移上云。

步骤3:配置高可用、应用自启动及数据定期备份策略。

4.2 实施难点

实施过程遇到最多的困难是利旧服务器、存储设备上云的硬件兼容性问题以及由此带来的计算、存储、网络传输性能瓶颈,后续应逐步予以规范化。

系统迁移过程的难点是操作系统跨平台迁移后,因底层虚拟化硬件变化带来的驱动重新安装,引发的各类服务、磁盘挂载异常问题。

5 项目成效

建成并持续优化了2 个基础云平台,能够提供完整的IAAS 服务,实现了对计算、存储资源的整合和调度,在有限资源的基础上实现了对多业务系统稳定可靠运行的有效保障。平均每台物理服务器承载了三个云主机,平均性能负载指标提升到50%以上,大大提高了资源的使用效率,并能够提供高可用和动态扩容,提高了云主机的运行可靠性。具备了业务快速部署和服务交付能力,交付时间从以前的一天缩短到10 分钟以内,具备了一定的数据灾备和恢复能力,能够通过备份快速恢复或者重构业务系统。

该单位在3月份接到了一个应急仿真测试任务,要求搭建涉及几十个大型系统的仿真测试环境,开展攻防演练和测试。使用ZSTACK 云平台,仅用一周时间,就完成了涉及40 台计算节点、5台超融合存储、5 台FC 阵列在内的仿真测试云平台的规划、部署实施及上线运行,交付了100 余台高性能云主机。

6 未来展望

私有云的建设是一个逐步深化整合的过程,上述基础云平台的规划实施只是其中一个阶段性工作,通过实施也及时发现了存在的问题和不足,为下一步的改进提供了参考和依据。

6.1 云平台及资源的标准化和规范化是需要关注的重点

(1)在硬件层面,计算、网络、存储等物理硬件层设备应按照云平台接入要求逐步统一配置和接口,形成云平台接入设备规范;

(2)在应用层面,硬件层面存在的规范化问题,在操作系统、数据库、中间件、开发平台等应用层面同样存在,需要通过PaaS方式进一步整合软件的基础环境。

(3)在管理层面,同单位不同部门所属的基础资源量和对云计算的诉求存在差异,需进一步探讨和建立单位内部资源共建共享的机制和模式。

6.2 云平台的安全防护体系建设要统筹

相比较传统的信息系统安全而言,云计算面临更多的安全挑战,传统信息系统里的漏洞到了云主机环境可能会被无限放大,除了云平台安全,还需考虑云上系统的安全,要全方位构建事前预防、事中响应、事后审计的动态安全保障体系。

7 结束语

上述单位私有云规划、建设、实施落地全过程中存在的需求、问题及难点具有相当的普遍性,技术方案也具有一定的通用性和示范意义,可为千人规模企事业单位私有云建设提供参照。

猜你喜欢

运维部署服务器
一种基于Kubernetes的Web应用部署与配置系统
晋城:安排部署 统防统治
部署
通信控制服务器(CCS)维护终端的设计与实现
运维技术研发决策中ITSS运维成熟度模型应用初探
中国服务器市场份额出炉
得形忘意的服务器标准
部署“萨德”意欲何为?
计算机网络安全服务器入侵与防御
基于ITIL的运维管理创新实践浅析