APP下载

超算平台在高校的建设及性能分析

2022-11-03何小波杨庆涛

现代信息科技 2022年17期
关键词:校级院系高性能

何小波,杨庆涛

(重庆医科大学 信息中心,重庆 400016)

0 引 言

高性能计算平台对医科院校的基础医学和生命科学的研究和发展有着非常重要的作用。由于学校学科建设和科研能力不断增强,对高性能运算的需求也不断提高。基于不断增长的科研需求,我校开启了校级高性能计算平台的建设,面向全校科研团队和人员提供高性能计算服务,满足各学科领域对于大规模数据处理和大规模科学计算的需求。通过公共服务平台的建设,也将有助于学校生信领域的科学研究和发展,有利于校内软硬件资源的整合和高效使用,可有效降低科研成本。

1 超算建设的现状分析

高性能平台的使用将有力地支撑学校科研活动的开展,但是由于专业性比较强,真正能完全掌握超算平台的使用和管理人员相对较少。目前,在高校中普遍是院系级的科研人员在进行建设和使用,覆盖的科研领域、范围及使用的人员都比较有限。在前期的工作中,我校也建设有院系级的超算平台,然而使用效果并不理想。但通过对院系级高性能平台的使用,我们取得了一定的收获:首先是在管理上已经了解并掌握了平台的运行机制,为后续校级平台的建设和管理工作奠定了基础;同时在高性能平台的使用中,通过对平台系统和调度软件的学习,以及在使用过程中不同学科方向的学者互相学习,积累了一定的超算平台使用经验。其次,通过不断的沟通和交流,很多专业人员和学生对超算平台能够提供和产生的价值有了非常清晰的认识,为后续校级平台的建设提供了基础和动力。

2 超算平台的搭建

超算平台的建设对机房环境、电力供应、软硬件平台及人才配给都有很高的要求,如果不具备这些条件,进行超算平台建设将变得非常困难。学校超算平台的建设也非一帆风顺,但前期院系超算平台的建设为后续进行校级平台建设提供了很多借鉴,同时也正是基于对前期院系级超算平台的使用和摸索,使学校有信心和有能力进行校级超算平台的建设。在进行超算平台建设前,学校对超算的需求进行了充分的调研,对各个院系的超算资源需求有了充分的认识,对医科类院系日常使用的软件进行了深入的调研和沟通。同时,对目前各个厂家的主流产品和特点及各厂家使用的调度系统也进行了充分的论证。在此基础上,学校完成了整个平台的建设。

整个集群的部署由以下几个部分组成:2 台服务器做管理登录节点,用户通过管理节点进行登录并提交作业;52 台刀片服务器作为计算节点;配备2 台服务器作为GPU 计算节点,每台GPU 服务器配置4 张A100 GPU 加速卡;配备2 台服务器作为大内存计算节点。整个系统采用Infiniband交换机组成高速计算网络,存储采用的是分布式存储,可以有效提高数据的I/0 处理能力。平台采用成熟的商用集群监控管理软件统一管理,作业调度系统采用slurm 调度软件进行统一调度。同时,平台也提供图形化管理及作业提交界面供用户使用,减少使用的难度。在队列的使用和划分上,整个平台共三个队列,其中cyhpc_1 为普通的cpu 队列、hpc_smp 为胖节点队列、hpc_gpu 为GPU 队列,可满足不同用户的使用需求,整个系统拓扑结构如图1所示。

图1 系统拓扑结构

3 超算平台性能分析

HPL(高度并行计算基准测试)是国际上比较通用的用来衡量和测试超算平台性能的标准,该标准可以提供非常详细的基于不同硬件平台的性能测试。使用该标准来进行衡量,并通过对高性能平台的计算过程进行优化,能够反映出硬件平台对求解密集系统的效率,对超算平台的性能优劣具有重要的参考意义。在平台建设完成后,我们对超算平台的性能进行测试分析。

HPL 基准测试程序采用了求解密集线性方程组的方式来测量系统的负载,即求解=,其中和是长度为的向量;是×的矩阵,具有极少或没有零元素。该方法对数组的大小和求解问题的规模都没有限制,可以根据情况进行调节,除基本的算法不变外,可以采用任何有效的方法进行优化,从而对高性能计算的浮点性能进行评判。

在进行HPL 测试时,好的性能参数对超算平台的峰值性能具有良好的参考价值,如果要获得浮点的峰值,需要对3 个参数进行调整:求解问题的规模、进行计算的粒度、处理器的×(即水平和垂直方向处理器的个数)。

3.1 测试方法

本次集群配置有52 个计算节点,为了对集群的性能进行测试,测试分两个方面进行,一个是对单个节点的刀片性能进行测试,另外一个是对整个集群的性能进行测试。

进行单节点测试的目的是保证所有节点正常运行,检查每一个节点的硬件,检验各刀片计算节点的计算效率,衡量各节点性能是否稳定;在进行测试时,每个刀片计算节点会长时间的持续的高负载运行。而整体测试是对整个集群进行测试。在测试中,通过对HPL.dat 文件中的参数进行修改,从而达到优化的目的。本次测试分为对单节点的测试和集群整机的测试两个部分。

3.2 测试过程

进行测试之前,需要确保整个集群环境、调度软件、节点功能正常,且无负载。在测试中,为了达到理想的效果,我们可对相关的参数进行预设:首先是问题的规模和大小,可设置为多组,=1 表示一组,同时需要一个值。其次是值,即分块大小,可取经验值,一般设置Intel CPU 设置为192,新一代平台一般设置为328 或384。最后是和的设置(进程数目的设置),和设置一般为1 组,原则为:×=进程数,≤且和尽量接近。

3.3 测试结果

通过对测试方法和测试过程的分析,我们对测试的参数进行了预设。测试时,我们首先登录刀片服务器的目录文件,在其中一个节点执行HPL 程序,如图2所示。

图2 执行HPL 程序

在测试过程中,对所有单机测试结果进行统计,测试结果如表1所示。完成各单节点测试,按照预设的参考值进行了整机的测试。测试中,对整机测试结果统计,测试结果如表2所示。

表1 单机测试结果

表2 整机测试结果

在超算平台性能测试的工作中,需要解决矩阵的规模、矩阵的分块和进程的映射情况、集群系统的通信和均衡等问题。同时,HPL 在测试过程中会受到多种因素的影响,包括HPC 的架构、内存的大小等,为了得到一个比较稳定的效果,我们需要调整HPL.dat 文件,对其中的参数进行修改,从而达到优化的目的。在上述测试中,进行单机测试时HPL 的最高效率为78.96%,最低为73.8%,集群组成节点的单节点的平均值是77.26%。集群整体的HPL 的效率为70.09%,通过对测试结果的比较,表明整个集群运行稳定,测试效果也非常优异。

4 超算平台的运行情况

通过性能测试,得出平台的稳定可靠。超算中心也于2022年3月初正式上线运行,在试运行初期,由于用户对整个系统架构及调度算法不够了解,平台的使用人数和作业的运行效率并不高。但是在后面的使用过程中,我们加大用户培训的力度,进行操作系统、作业调度、部分软件的培训,使用户很快掌握了系统的使用方法,仅仅3 个月时间,用户的使用数量和作业提交量呈爆发式增长,我们对平台的用户数、作业总数、运行核时等情况进行统计和横向比较,发现高校对超算平台有着巨大需求。详情如表3所示。

表3 超算平台运行情况统计

从表3可以看出,超算平台的运行情况非常良好,但是在使用过程中,也发现了一些问题,主要有几个方面:(1)需要建立专业的运维管理团队,只有通过高效的运维团队,才能解决超算运行中遇到的问题;(2)需要加强推广使用,提高使用效率,不能使资源闲置;(3)需要对安装的软硬件系统进行不断优化,才能最大程度发挥超算平台的作用。

5 结 论

本文介绍了重庆医科大学超算平台的建设情况,对平台的性能进行了分析研究,结合超算平台的具体使用情况,提出了超算平台建设中存在的问题和解决方法,以期通过超算平台的建设更好地助力于科学研究,提高学科建设能力。从整个平台的前期建设和使用情况来看,高校对于超算平台的计算需求非常旺盛,在高校建设超算中心具有重要意义。

猜你喜欢

校级院系高性能
高性能混凝土不同配合比下的性能研究
高性能混凝土开裂成因及控制要点
浅谈SQL Server中Select语句的分组统计功能
让教师爱上校级公开课
例谈校级“三级管理”体育教研方案
中国E级高性能计算机原型系统正式进入研制阶段
Different Students, Different Corrective Feedback
清华院系手机背景图
提高院系办公室管理绩效的对策
浪潮高性能计算用心良苦