APP下载

云计算助力科教模式创新

2018-10-15范海巍李雪春张迎冬

数据与计算发展前沿 2018年2期
关键词:计算中心海量桌面

范海巍,李雪春,张迎冬

上海科技大学,上海 201210

1 云计算中心建设背景

上海科技大学是由上海市人民政府与中国科学院共同创办、共同建设,由上海市人民政府主管的全日制普通高校,致力于成为一所小规模、高水平、国际化的创新型大学,秉承“服务国家发展、培养创新创业人才”的办学使命,积极整合中科院的科研人才优势、上海市的高等教育优势和区域新兴产业经济的创新创业优势,努力实现科技与教育的融合、科教与产业的融合、科教与创业的融合,创建一所为国家和区域经济社会发展提供不竭知识源泉、优秀人力资源和开发实践平台的创新型大学。上海科技大学满员运转时预期将有 4000 本科生,6000 研究生,2000 教职员工,200 行政人员。由于行政人员比例较低,科研需求与国际交流又高于一般高校。故此必须通过高水平的信息化系统建设来构建一个精炼、高效的治理管理体系,为各类资源的合理化配置和辅导领导决策提供有力的支撑。

上海科技大学云计算中心建设,基于云计算等虚拟化技术,将 IT 系统基础设施逐步云化部署,并分层实现计算、存储、网络的虚拟化[1],从而达到资源共享、灵活分配、集中调度及智能化管理的目标,以适应上海科技大学快速发展的科研教学需求,并降低IT 资产的总体维护成本。云计算中心建成后,为业务应用系统提供计算、存储、网络等各种IT基础设施资源,是各类信息化应用系统的基础。其上承载了学校在教务管理、教学服务、学生服务等各个方面的应用业务系统。此外,为了提高 IT 资源的稳定性及利用率,全校各院和研究所机构后续将逐步采用集中托管或互联互通的方式将各类 IT 服务器向数据中心的靠拢整合。云计算中心也将是全校各类资源的统一承载平台和资源管理中心,为全校师生提供云服务平台、海量数据存储与分享、日常办公及云实训等IT基础设施服务。

随着高校信息建设的发展。传统的教学及科研模式已发生根本性的变化。翻转式教学模式的出现,鼓励和促进了学生在课堂外完成知识的学习,使得课堂变成了师生或学生间互动的场所。让老师跳出了简单的幻灯模式教学,也极大的促进了学生多途径自主发现、吸收和巩固知识。同过数字化交互式的创新性学习,使得信息化贯穿了课程组织、课堂交流、随堂测试、实训实践、演讲汇报、论文撰写乃至教学质量评估的方方面面,也为学生在校期间的各项主要活动提供了全生命周期的数字化记载。与此同时,科研已逐步进入第四范式即数据密集型科学发现时代。逐步从实验科学、理论科学和计算科学时代,进入了利用各种现代仪器获取或模拟产生海量数据;利用软件处理数据;利用计算机存储和处理信息或知识,逐步出现云计算和大数据科研的数据密集型科研发现模式。如高性能计算,已从遥不可及的大型数据中心走向每一位科研工作者的身边,随之也不可避免的伴生了各个学院及研究课题组烟囱式建设的一些弊端。而通过云计算的资源池化、按需分配共享、对异地异构资源的虚拟化再整合理念,将极大的有助于整合全校乃至周边区域的各类资源,更好的支撑教学及科研模式的创新。

目前上海科技大学的云计算中心,除承载了运行于其上的门户、招生、迎新、选课、学工等教务教辅软件、图书馆各类文献和集成发现系统外,其自身建设的云自服务平台、云盘系统及云桌面实训中心等各类平台系统的搭建和各类新技术服务的落地,也为全校办公、科研、教学活动奠定了较为坚实的基础。

2 云计算中心建设概况

上海科技大学云计算中心以高效、集约、可弹性扩展为建设原则,为用户提供全方位的基础设施虚拟化服务为目标,已建设完成包括云主机、云服务平台、物理主机、云桌面主机、高性能计算集群、结构化存储,云盘存储、非结构化海量存储、综合管理平台等诸多子系统。

云主机系统物理服务器总配置为 20 块刀片服务器。云主机虚拟机初期约可支撑 175 台中载服务虚拟机,其中一半用来部署适合虚拟化的校级核心业务应用,另一部分用来分配给各院所的重要核心应用。

云桌面主机服务器资源池共计拥有 1032 个物理CPU 核。其中有 20 台使用集中云存储作为系统基础存储,另外 13 台使用本地分布式 VSAN 存储,并提供 vGPU 桌面能力,以上两种模式可互为补充。向图书馆多媒体阅览室、云桌面实训中心及教师办公提供1000 个并发用户的桌面交付服务。同时,vGPU 技术在云桌面项目的落地,使得目前流行的GPU计算、人工智能及图形多媒体渲染等技术,可通过统一的环境发布并通过虚拟化技术动态调度资源使用量。如在进行图形渲染制作的课程开始时,可将一块物理 GPU虚拟划分为 8~16 个 vGPU 供教学使用,在课程结束后,又可将此部分资源回收,用于大规模科研计算。

云自服务平台由 12 台四路服务器做为基础资源,部署云管理软件,使用本地存储 (75TB)作为云自服务平台基础存储。使用该云服务平台,用户可以自助申请及管理 150 台以上的虚拟机资源,用于部署非校级核心业务。通过云服务平台,降低了系统管理员人工干预的维护成本。

高性能计算平台由 20 块刀片服务器及 2 台大内存服务器作为计算资源。共提供 25.7TFlops 的计算能力,采用 100G EDR IB 进行计算和数据的网络互连。配置 Gridview 集群管理系统,方便集群统一管理使用。采用非结构化并行存储作为主要数据的存储。

云盘存储由软件及分布式云存储硬件系统所组成,共配置 840TB 的裸存储容量,支持大于 1.5 万个用户,配置 1.5 万个用户授权,满足全校用户的云盘文档数据存储交流需求。

结构化存储,主要用来存放数据库、电子邮件、网站群、云主机云桌面系统盘等结构化数据。分别为云主机、物理主机、云桌面主机提供存储空间。非结构化存储,本次共配置了 3PB 的容量空间,其中约三分之二可用空间预留给科研高性能计算的数据存储,其余空间预留给全校海量文件存储及 Mooc 系统及云主机、云桌面等系统的数据盘空间使用,实现了宝贵存储空间的动态调配利用。

图1 上海科技大学云计算中心系统图Fig.1 Cloud computing center system diagram in ShanghaiTech University

在以上硬件及平台建设的过程中,云计算中心还建成了一套综合监控管理平台,提供了针对云数据中心整体的资源监控和管理功能。把海量运行信息按系统运维管理人员的思路和管理目标整合,用于提供全数据中心的设备与网络管理、异常处理与告警通知以及用户权限管理。

3 云计算中心建设中的技术创新

通过云计算中心的建设,我们不仅仅是技术层面的实现。更通过本次实施,贯彻并摸索了云计算的资源虚拟化、按需分配、异构整合思路。对多个子系统平台层、数据层实现了资源池化融合互通,并打通了物理和虚拟之间的壁垒。也对一些 IT 前沿技术如GPU 虚拟化、深度学习环境搭建、SDN 网络等进行了一定的实施探索。

3.1 虚拟环境的融合

3.1.1 云桌面与云主机

云主机是云计算中心提供的一项主要业务功能,也是全校师生的共同 IT 资源平台,为学校老师、学生提供数据分享与存储、上机实验计算与存储的IT资源服务。云主机业务通过服务器虚拟化技术提供了可伸缩、按需使用的虚拟机。全校老师和学生可根据业务实际情况和需要申请不同配置的虚拟机实例以及相关增值服务特性,并在虚拟机上运行标准或自定义的镜像文件。大大降低了传统模式下课题组需自行采购物理服务器甚至进行机房建设,来支撑网站和应用服务器运行的成本。

云桌面是将个人计算机桌面环境通过云计算模式从物理机器分离出来,成为一种可以对外提供桌面的服务;个人桌面环境所需的计算、存储资源集中与云计算中心内部,以取代客户端的本地计算、存储资源。通过该平台,实现了多终端异地泛在的访问方式。优质的课件可以快速引入系统,并以标准化的方式通过云桌面平台快速创建及分发给学员和讲师。对使用的老师和学生来说,无论在本地还是在远程,都能获得一致而且便捷的使用体验。在欧洲空间局-科技部“龙计划”高级大气遥感国际培训中,我们即使用了该系统。多位外籍教授申请了云桌面访问账号,在下榻宾馆中远程通过云桌面系统对课件及代码进行完善更新,及时引入第一手数据资料,并快速反映到后续的云桌面教学课程中去。解决了传统台式电脑必须人到现场操作,手工更新慢,规模越大越越耗时耗力的问题。

云计算中心的计算和存储资源同时也是共享的、可伸缩的,使得不同个人桌面环境资源按需分配、交付,达到提升资源利用率,降低整体拥有成本的目的。

3.1.2 云桌面与云主机的管理隔离

云桌面和云主机,都具有集中管理和服务器虚拟化的共通性。但在设计规划上,云桌面一般视为客户终端交付,而云主机则负责服务器端能力的交付。两套系统各自有着独立的管理控制台,分别管理着各自的服务器、存储的资源。云桌面和云主机在网络、存储方面都共享着相似的物理设备资源,并通过逻辑上的隔离,平衡着相关设备的利用率。

整个云桌面和云主机的存储需要部署于集中存储上,而根据数据类型的不同,每个虚拟机的磁盘通常可分为系统盘和数据盘两部分。按目前建设规划,其中的系统盘被设计为在高性能存储上,而数据盘被设计为落在海量存储上。云桌面和云主机无论是数据盘还是系统盘,在存储上都是通过不同的文件系统进行交付的,所以在内部数据存储上也是相互隔离的。这种方式也有助于后期的针对性备份归档及删重操作。

3.1.3 云桌面和云主机的应用融合

根据目前调研和使用中发现的实际情况,学校的许多系统对资源的占用有一定的周期性变化特征。以云主机环境中的“选课系统”为例,每学期选课期间会有大量的访问请求,需要多台应用服务器进行负载均衡,而在选课结束后,对资源的使用几乎没有需求。造成了云主机环境物理资源的紧缺。同样的在云桌面环境中,用于教学的云桌面环境在假期期间和选课前后,因为不承担教学任务,不存在资源的大量占用,按常规处理方式则会造成云桌面物理资源的闲置。为更好地应对云主机应用负载的需要,如需要更多的计算或内存资源。在资源调配上,通过两个平台的管理段对下属的物理服务器进行释放/添加的操作,即可完成两个平台之间整体物理资源池配比的调整。

通过以上模式,将有限的物理资源池融合贯通,即实现了云主机和云桌面平台的管理隔离,又达到了底层资源动态调用的效果。云计算中心为科研与教学提供了弹性的、可快速响应的交付平台,为更好的适应科教创新过程中不断变化的信息化需要提供了扎实的基础支撑环境。

3.2 存储资源的融合

3.2.1 科研教学数据存储需求

随着云计算技术的发展,数据创造的方式也越来越多元化。不仅仅由企业、单位或某些组织团体在生成大量的数据,随着互联网+、大数据技术和人工智能技术的深度发展,对数据的获取和储存及处理的需求,也逐渐扩展到个人用户,特别是高端科研用户。而其所产生的绝大部分数据均为图片、影音等非结构化数据;而 OA 办公中更多都实现了以非结构化为主的数字化存档。

就上科大各院所的非结构化数据存储需求来看,多数也要 PB 以上的数据存储需求,与此同时,云盘系统的数据存储以及 Mooc 课程视频点播系统,也需要海量的数据存储资源,通常以 PB 为计量单位,以下是部分院所的存储需求调研情况:

不难看出,在满足海量数据存储的同时,大量科研设备的数据采集 (如电镜、全自动结晶及晶体观察分析系统、自旋和角度分辨光电子能谱仪等)对存储提出了高速率、低延迟的写入要求。除此之外,采集数据后,对数据的筛选、分析及后续处理也势必需要用到高性能计算,由此势必引发对存储高并发读写性能要求。从存储的需求来看,高速率、低延迟的写入、高并发的读取速率和海量的数据存储容量,将成为云计算中心存储的实际需求。而随着上海科技大学未来大科学装置集群及高尖端仪器设备的逐步建成投入使用,此类数据的获取、保存与分发的需求还将面临着爆发式的增长。

表1 部分院所的存储需求调研情况Table 1 Survey of storage needs of some institutions

表2 高性能存储和海量存储特点Table 2 High-performance storage and mass storage features

3.2.2 高性能存储和海量存储的结合

结合云计算中心的业务需要,只有充分发挥高性能存储和分布式存储各自的优势,才能更好的将云计算中心的业务支撑起来。通过下表可以简要了解两种存储的特点:

可以发现,在性能要求下,高性能存储拥有更高的读写效率,较低的延迟;海量存储有着并发读写性能高,PB 级数据拥有成本相对较低的优势,容易横向扩展。针对不同的业务特点,将对数据读写延迟要求高的,如数据采集,数据库服务等,规划在了高性能存储上,而对存储空间要求高的,则规划在海量存储这里;同时,为了应对并发读写较高,且以高带宽读取调用为主的高性能计算,在海量存储及高性能计算之间组建了单独的 EDR (100GB) IB 数据网络,提升了数据筛选、科研计算的数据读写带宽。而高性能存储在拥有高于海量存储的读写性能的同时,在考虑整体拥有成本的情况下,也势必造成了存储空间不足以满足大量数据存放的问题。海量存储提供的空间优势将会为高性能存储的空间劣势提供后备补充。通过海量存储与高性能存储的结合,既能满足科研教学过程中的各类需求,同时也为 Mooc 等新的教学手段提供了充足的数据存储空间和高速传输环境,也为包括基于科研大数据和高通量计算的科学研究等提供了良好的基础环境。

3.2.3 基于软件定义的存储

根据前文所属,学校需要满足 1000 台云桌面的并发承载能力,其中有 500 台规划为教师办公用,这势必造成了相对固定的时间段内,有大量的云桌面启动,我们称之为“启动风暴”。为了克服“启动风暴”,同时考虑今后的扩展性,我们将这部分的云桌面放置在 SDS 环境上 (SDS,Software-Defined Storage)[2]。作为云桌面虚拟化解决方案内直接植入的软件定义存储解决方案,vSAN 可以抽象化和池化来自多个工业标准服务器上的固态存储 (SSD)和传统存储 (HDD),提供出共享存储空间,并通过软件控制层面实现存储空间的交付;是一种基于软件的分布式存储解决方式。其目标就是建立一套基于服务器端的共享分布式对象存储系统,用来取代传统后端的外置高性能存储。在大大简化存储的置备和管理的基础上,可通过增加工业标准服务器,实现计算资源、内存资源和存储的同步扩展,大大降低投入成本。

传统的基于共享存储的虚拟桌面环境 (VDI)解决方案,在进行扩展时,需要增添服务器和存储阵列;而采用 vSAN 作为 VDI 存储,仅需要扩展服务器,依靠服务器内的本地存储来增加虚拟共享存储容量。可以说,VDI 的存储包含在单独的服务器里,纵向可以通过添加磁盘进行扩展,横向可以通过增加服务器节点 (包含 SSD 和 HDD 磁盘)。这样的最大好处是可以根据需要平滑扩展,降低前期投资。信息系统建设者可以快速从应用的验证性测试环境 (Proof of Concept,POC 测试)转化到生产环境,同时免除了对外界存储的设计和容量规划。最重要的是,应用的性能并没有下降,服务器内的 SSD 层把应用的延迟/响应时间降到了毫秒级。

3.3 云计算与高性能计算的融合

3.3.1 科研教学对高性能计算的迫切需求

高性能计算 (High Performance Computing,HPC)已深入科学研究、国民生产活动,其作用和重要性越来越明显,高性能计算需求面逐步扩大、需求量迅速增长。美国、欧洲、日本等发达国家都非常重视高性能计算技术和应用,视为国家实力象征。其在生物、医药、化学、物理、信息系统、工程设计、金融分析等领域都有着广泛的应用。在各个学科的科研和教学领域中,高性能计算技术和应用都受到了广泛的重视;随着诸如“计算生物”、“计算化学”、“计算物理”等高性能相关课程逐步的深入开展,对于高性能计算相关的技术及应用的教学也在实际教学中存在迫切的需求。

高性能计算集群发展至今,其基本架构已经相对成熟,主要结构如图 2。

3.3.2 高性能计算与虚拟化资源的融合

在充分利用好云计算中心海量数据存储资源的同时,为提升云计算中心整体运算资源的利用率,我们除了在虚拟资源池内部进行动态调用 (提供云桌面或云主机服务)外,对如何利用闲置虚拟化资源,进一步提升高性能物理计算集群整体的运算和承载能力也作出了一定的尝试。

服务器虚拟化技术,在运算资源的分割上由于实际使用清楚不同,会存在 CPU 和内存的闲置;并具备 HA 等容错机制,集群内始终保留有一部分闲置的资源应对突发情况。而在日常运行过程中,适当的利用部分闲置资源,搭建 VM-based HPC 环境[3],HPC用户使用云基础设施而不是传统集群,可以享受云好处,例如高可用性 (HA)、操作系统 (OS)定制、较低的等待排队时间,同时也可以降低集群的维护成本[4]。相对的,在高性能计算集群内,适当拥有一部分的虚拟计算节点,也可以提升高性能计算集群的承载能力,分担一部分临时突发的计算任务。在管理上,虚拟计算节点在可控的时间范围内,也可以做到一定的定制化。根据运算规模的需求,从整体虚拟资源池中进行调配分配,真正做到按需分配。 目前在上海科技大学高性能公共服务平台的运行过程中,虚拟化动态计算资源池主要用于计算类课程教学,物理计算资源池主要用于研究组课题研究。同时也具有动态调配的能力,达到了面向科研教学实际需求的平台统筹能力。

3.4 云桌面实训教室

云计算技术不仅应服务于院所业务支撑及 IT 专业从业者,更应该通过一些接地气的实施促进应用技术的落地。云桌面实训教室即是如此一例。通过云桌面实训中心,既可以实现传统的电教功能,又可与科研数据分析或 IT 教学环境紧密结合,在教学课程中贯穿实验上机动手体验。实现环境的快速分发及统一管理。云桌面实训教室通过万兆光纤直接连入核心机房,并采用远程会议及多屏同步技术实现对异地教学及多间教室级联扩展的更好支持,提供更佳的教学互?动体验,推动科研教学新革命。

图2 高性能计算架构图Fig.2 High-performance computing architecture diagram

根据云桌面应用需求的调研,存在 GPU 通用计算虚拟化[5]的需求,需要搭建一个面向集群环境的 GPU 虚拟化[6]环境,可按需通过 GPU 虚拟化技术 (Virtual GPU Technology)为诸如:MAYA,Photoshop,AutoCAD,ESRI ARCGIS 等需要调用GPU 能力较大的应用提供支持。此类调用 GPU 能力的应用通常对数据存在高速读写交互的需求,对于存储的 IO 有一定的压力,同时在云桌面实训环境中可能存在同时并发读写的情况,为了有良好的性能体验,存储势必需要高 IOPS 的读写性能支撑,基于 vSAN 存储框架的存储管理中,可通过定义多个副本的方式满足高 IOPS 的存储能力。通过前面提到的vSAN 和 vGPU (Virtual GPU)的技术,可以实现各类桌面系统环境的分钟级部署,秒级应用分发,提供了泛在的高体验教学实训环境。同时应用云桌面技术,实现一些高值低频软件的错峰共享使用。也可达到进一步整合及节约资源的良好效果。

在16年10月,欧洲空间局与中国科技部的合作项目“龙计划” 高级大气遥感国际培训成功开幕。此次国际培训由中方和欧方的对地观测首席科学家们讲授课程。我们已运用云桌面技术给予了本次会议全面的 IT 技术保障。欧空局和中国的大气遥感顶尖科学家,讲授并亲自演示对于欧空局的 Sentinels 系列卫星、ERS-2 、Envisat、中国碳卫星 TanSAT 和地面观测网的数据处理方法。在培训过程中,穿插了大量的上机实践培训操作。通过云桌面技术,最新的数据和课件可以快速引入系统,并高速复制分发给学员和讲师,实现了良好的基于云桌面的实训交付体验。

图3 “龙计划”高级大气遥感国际云桌面实践培训Fig.3 “Dragon Plan” Advanced Atmospheric Remote Sensing International Cloud Desktop practice training

4 未来展望

通过建设上海科技大学云数据中心,提供了一套高效可靠、绿色弹性的底层支撑云平台,并将大学办学体制和运行机制创新的理念、转化为基于云基础设施之上的信息化管理系统和服务平台,从而为上科大推进高等教育体制机制改革和建设创新型大学发挥坚实的保障和促进作用。上海科技大学图书信息中心在贯彻信息化建设的过程中,也始终不忘将技术服务化、将服务成效化,将成效成果化的思路和理念。高度融合、资源弹性、按需分配的云计算中心及既是小规模高水平办学理念下 IT 建设运维模式上的创新,其中的云桌面实训教室、云自服务平台、云盘、高性能共享服务平台等子系统也为广大师生的科研教学及协同办公带来了诸多模式上的创新,进一步推动了数据密集型科学发现范式的落地实践。下阶段,通过深度挖掘和融合上海科技大学的云资源及服务能力,将大大地促进学校教育科研管理水平的全面提升,促进人才培养模式的创新摸索,促进学校与科研院所、高科技企业的资源共享和协同创新,为上科大服务国家和区域“创新驱动、转型发展”战略发挥更加显著的推动作用。

未来,与上海科技大学有着紧密关联的张江综合性国家科学中心,还将创建一套创新管理体制,在周边重大科学设施的基础上,建设世界级大科学设施集群。积极争取承担新一批国家大科学设施建设任务,形成具有世界领先水平的综合性科学研究试验基地,开展世界前沿性重大科学研究平台。通过上科大云计算中心的建设,和其对教学科研创新模式的支撑摸索,进一步建立融合性的区域云数据中心,将不断融合各类优质资源,向周边科研机构乃至全社会开放共享。通过对云计算的技术研究和运维探索,结合大数据分析、人工智能、物联网技术等 IT 前沿技术将更好的支撑并服务于张江国家科学中心建设世界级大科学设施集群、开展世界前沿性重大科学研究、管理体制创新的目标,从而为推动教育科研创新驱动做出一定的贡献。

猜你喜欢

计算中心海量桌面
中国—东盟人工智能计算中心正式发布
一种傅里叶域海量数据高速谱聚类方法
面向反应堆设计的高性能计算中心建设及应用
腾讯云首个5G边缘计算中心正式对外开放
基于APP在线控制双挤出头FDM桌面3D打印机的研制
桌面云技术在铁路行业中的应用
海量快递垃圾正在“围城”——“绿色快递”势在必行
桌面装忙
一个图形所蕴含的“海量”巧题
一种海量卫星导航轨迹点地图匹配方法