APP下载

MITgcm在“神威蓝光”上的运行与加速评测

2014-12-03刘鑫郭猛

科技资讯 2014年26期
关键词:并行计算

刘鑫++郭猛

摘 要:海洋数值模拟有计算密集、IO读写量大、并行扩展性良好的特点,对大规模并行计算有强烈的需求。国家超级计算济南中心的“神威蓝光”超级计算机是第一台全国产的千万亿次超级计算机,在CPU、文件系统、操作系统、编译环境各方面实现了全部国产化。本文主要介绍大气、海洋模式MITgcm在“神威蓝光”上大规模并行的运行情况和加速评测。其结果表明MITgcm在全国产的运行环境下具有良好的扩展性和并行效率,也对“神威蓝光”上的其他应用提供了可借鉴的经验。

关键词:MITgcm 神威蓝光 全国产 并行计算

中图分类号:TP319 文献标识码:A 文章编号:1672-3791(2014)09(b)-0015-02

随着半导体集成电路的快速发展,计算机处理器的性能越来越高,但是解决大规模的科学和工程计算问题,还是依赖计算和存储能力更加强大的超级计算机。近几年来国产处理器取得了长足的发展,尤其值得一提的是,国家超级计算济南中心的“神威蓝光”超级计算机采用的是国产申威-1600多核心通用处理器,并正在稳定地对外提供高性能计算服务。“神威蓝光”的应用涵盖了海洋科学与产业、药物筛选、气候气象、生物信息、物理、化学、材料、工业设计等领域,其中海洋科学是“神威蓝光”重点支持的方向之一。

1 “神威蓝光”概况

“神威蓝光”的建设成功标志着我国已成为继美国、日本后第三个能够采用自主处理器构建千万亿次超级计算机系统的国家[1]。“神威蓝光”超级计算机系统由8704颗申威-1600 CPU组成,每颗CPU有16个核心,计算能力达128GFlps。经国家权威机构测试,其系统峰值性能达到1.07PFlops(PetaFlops,千万亿次浮点运算/秒),持续性能为0.796PFlops,LINPACK效率为74.4%,性能功耗比超过741MFlops/W(百万次浮点运算/秒·瓦),组装密度和性能功耗比居世界先进水平。与国产化硬件配套的软件系统包含了“神威睿思”国产并行操作系统、海量并行文件系统、“神威睿智”并行编译器和并行数学库等。系统综合水平处于当今世界先进行列,完美实现了国家大型关键信息基础设施核心技术的“自主可控”目标。[2]

2 MITgcm运行与加速评测

MITgcm(MIT General Circulation Model)是麻省理工学院开发的一种大气、海洋数值模式。该模式支持在非静力近似条件下进行数值模拟,能够模拟各种不同尺度的海洋、大气过程,目前已在海洋领域获得了广泛的应用,如Ravela等[3]将其用于实验室尺度的数值模拟,A.Khazendar等[4]将其用于Totten冰架的研究,Guo等[5]将其应用于南海内孤立波的数值研究,Parmentier等[6]甚至将该模型用于木星大气的研究。

2.1 模式运行

(1)在MITgcm模式运行前需要按照“神威蓝光”超级计算机的编译系统对模式的编译选项进行相应的设置,将编译器指定为mpiswcc及mpiswf90。

(2)在运行目录下创建以下几个模式运行所必须的子目录:input、code、build和run。

(3)在input目录下,输入模式地形数据、初始条件(如初始温、盐、流速场等)、边界条件及模式运行的相关参数(如运行步数、步长、粘性与扩散系数、模式的水平及垂直空间分辨率等)。[7]

(4)在code目录下,设置模式中经向及纬向网格数,垂向分层数及所需的进程数。[7]

(5)在build目录下编译:首先通过MITgcm模式自带的脚本genmake2自动创建一个生成文件Makefile,之后只需要创建相关信息和编译代码即可。编译完成后,在build目录下会生成一个可执行文件mitgcmuv。[7]

(6)进入run目录,将input目录下的所有文件和build目录下的mitgcmuv文件软链接或复制到该目录下,此时运行mitgcmuv文件即开始模式的计算。

(7)提交任务到“神威蓝光”主机,提交任务命令如下:

bsub-q<队列名称>-n<进程数目>-o<日志文件名>./mitgcmuv,其中进程数应与code目录中设置的进程数一致。[2]

2.2 加速评测

加速比的定义为:(1)

表示用最好的串行算法在一个处理器上求解规模为的问题所需的时间,而表示使用并行算法在P个处理器上求解同样大小的问题所需的时间,当时为理论加速比。[8]

本文基于MITgcm建立了一个南海东北部区域正压潮模型,用于对其进行100、200、400、800、1600、3200、6000、10000核心的并行测试。该模型采用矩形网格,采用静力近似,水平分辨率为250m,沿纬向及经向网格数分别为4000、3000,垂向分5层。

在本算例中加速比根据实际试验情况将公式(1)更改为:(2)

其中是用100核心并行运算花费的时间,以此为基准除以各个大于100并行核心数的运算时间得到各个规模的加速比。

本例中的理论加速比是以100进程数作为基准,则其理论加速比(3)

加速效率(4)

根据实验结果和上述公式得到下表所示结果:

根据表1绘制了下图正压潮测试计算时间和加速比曲线,水平坐标为进程数目,采取以2为底对数坐标;左侧纵坐标为运行时间,单位为秒(s);右侧纵坐标为加速比。

从表1和图1可以看出,算例在总核心数小于6000时,核心数的增加能够带来较好的加速;但受限制于模式规模(6000核时,每个网格只负责约40×50个水平网格),当核心数超过6000后,计算所需时间随着核心数的增加而增加。当通讯等额外开销的增加大于因并行规模增加导致运行时间的减少时就会出现这种情况。对于本算例,6000核心左右的计算规模是实际应用中最大的可选规模。endprint

3 结语

上述实验展示了MITgcm模式在“神威蓝光”超级计算机上万核级别的运行和加速情况,可以看出该模式在6000核心之前有良好的加速,课题扩展性好。但当并行规模继续增大之后,程序并不会一直加速。在加速比图上,这表现为加速比随进程数变化的曲线出现拐点。这个拐点对于并行计算的实际应用有很重要的指导意义:在实际运算中,我们应该根据算例的规模、时间和资源消耗等,在加速比曲线的拐点之前选取合适的并行进程数进行计算,盲目扩大计算规模是不可取的。

此外,模式的加速比曲线会随着网格数及相关参数(如I/O设置)的变化而变化,即使网格数相同的模式,采用不同的参数设置(如非静力近似、求解方程时的迭代次数等)也会影响加速比曲线。对于需要反复运行的任务(如用于业务化预报的模式)及运行时间较长的任务,在正式运行前先通过试运行评估其加速比对提高资源的利用率有显著意义。

4 致谢

感谢中国海洋大学的迟乐泉、龚延昆对试验的大力支持和协助。

参考文献

[1] 赵秋丽,李志臣.“神威蓝光”再显自主创新实力[N].光明日报,2011-10-28(1).

[2] http://www.nsccjn.cn

[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.

[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.

[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.

[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.

[7] http://mitgcm.org.

[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint

3 结语

上述实验展示了MITgcm模式在“神威蓝光”超级计算机上万核级别的运行和加速情况,可以看出该模式在6000核心之前有良好的加速,课题扩展性好。但当并行规模继续增大之后,程序并不会一直加速。在加速比图上,这表现为加速比随进程数变化的曲线出现拐点。这个拐点对于并行计算的实际应用有很重要的指导意义:在实际运算中,我们应该根据算例的规模、时间和资源消耗等,在加速比曲线的拐点之前选取合适的并行进程数进行计算,盲目扩大计算规模是不可取的。

此外,模式的加速比曲线会随着网格数及相关参数(如I/O设置)的变化而变化,即使网格数相同的模式,采用不同的参数设置(如非静力近似、求解方程时的迭代次数等)也会影响加速比曲线。对于需要反复运行的任务(如用于业务化预报的模式)及运行时间较长的任务,在正式运行前先通过试运行评估其加速比对提高资源的利用率有显著意义。

4 致谢

感谢中国海洋大学的迟乐泉、龚延昆对试验的大力支持和协助。

参考文献

[1] 赵秋丽,李志臣.“神威蓝光”再显自主创新实力[N].光明日报,2011-10-28(1).

[2] http://www.nsccjn.cn

[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.

[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.

[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.

[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.

[7] http://mitgcm.org.

[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint

3 结语

上述实验展示了MITgcm模式在“神威蓝光”超级计算机上万核级别的运行和加速情况,可以看出该模式在6000核心之前有良好的加速,课题扩展性好。但当并行规模继续增大之后,程序并不会一直加速。在加速比图上,这表现为加速比随进程数变化的曲线出现拐点。这个拐点对于并行计算的实际应用有很重要的指导意义:在实际运算中,我们应该根据算例的规模、时间和资源消耗等,在加速比曲线的拐点之前选取合适的并行进程数进行计算,盲目扩大计算规模是不可取的。

此外,模式的加速比曲线会随着网格数及相关参数(如I/O设置)的变化而变化,即使网格数相同的模式,采用不同的参数设置(如非静力近似、求解方程时的迭代次数等)也会影响加速比曲线。对于需要反复运行的任务(如用于业务化预报的模式)及运行时间较长的任务,在正式运行前先通过试运行评估其加速比对提高资源的利用率有显著意义。

4 致谢

感谢中国海洋大学的迟乐泉、龚延昆对试验的大力支持和协助。

参考文献

[1] 赵秋丽,李志臣.“神威蓝光”再显自主创新实力[N].光明日报,2011-10-28(1).

[2] http://www.nsccjn.cn

[3 Ravela,S.,J.Marshall,C.Hill,A.Wong and S.Stransky(2009) A Real-time Observatory for Laboratory Simulation of Planetary Flows,Experiments in Fluids,DOI:10.1007/s00348-009-0752-0.

[4] A.Khazendar,M.P.Schodlok,I.Fenty, S.R.M.Ligtenberg,E.Rignot and M.R.van den Broeke(2013),Observed thinning of Totten Glacier is linked to coastal polynya variability,Nature Communications 4,Article number:2857 doi:10.1038/ncomms3857.

[5] Guo,C.,V.Vlasenko,W.Alpers,N. Stashchuk and X.Chen(2012),Evidence of short internal waves trailing strong internal solitary waves in the northern South China Sea from synthetic aperture radar observations, Remote Sensing of Environment,Volume 124,September 2012,Pages 542-550,doi:10.1016/j.rse.2012.06.001.

[6] Parmentier Vivien,Adam P.Showman, Yuan Lian.3D mixing in hot Jupiter atmospheres.I.application to the day/night cold trap in HD 209458b,arXiv:1301.4522v2,2013.

[7] http://mitgcm.org.

[8] Yuefan Deng.APPLIED PARALLEL COMPUTING[M].Singapore:World Scientific,2013.17-18.endprint

猜你喜欢

并行计算
基于Hadoop的民航日志分析系统及应用
基于自适应线程束的GPU并行粒子群优化算法
云计算中MapReduce分布式并行处理框架的研究与搭建
矩阵向量相乘的并行算法分析
并行硬件简介
不可压NS方程的高效并行直接求解
基于GPU的超声场仿真成像平台
基于Matlab的遥感图像IHS小波融合算法的并行化设计
基于枚举的并行排序与选择算法设计
最大匹配问题Tile自组装模型