APP下载

浅谈武汉气象高性能计算机系统的运维管理

2021-03-24尹常红胡雅超袁文波涂明侯静

电脑知识与技术 2021年2期
关键词:集群监控管理

尹常红 胡雅超 袁文波 涂明 侯静

摘要:高性能计算机在气象部门得到了广泛应用,发挥了重要作用,对高性能计算集群的科学高效的运维管理是确保高性能计算机系统正常运行的首要任务。本文结合武汉军运会气象高性能计算机的实际情况,对高性能计算机在业务应用、运行监控与维护管理等方面做了介绍,对业务科研人员和运维管理人员具有一定参考借鉴意义。

关键词:高性能计算;集群;监控;管理

中图分类号:TP311     文献标识码: A

文章编号:1009-3044(2021)02-0204-03

1 引言

随着现代科学技术特别是信息技术的不断发展,高性能计算应用逐步走进科研和服务领域。高性能计算应用不是单一的片面的简单应用,而是一整套科学合理的系统布局。高性能计算应用主要包括高性能计算应用和高性能计算机技术,它们在功能发挥和相互促进方面有着密切的联系。高性能计算机及其相关技术的创新研发,为高性能计算的应用奠定了坚实的基础。同时,高性能计算应用的物质设备来自高性能计算机及相关技术。

高性能计算机近年来发展迅速,已逐渐成为计算机科学的一个分支。高性能计算集群(HPC)是先进的高可用性技术与高性能计算机的有机结合。它在军工军事、物质材料、生物医疗、天气预报等越来越多的科学领域得到应用。

高性能计算集群由多台计算机(称之为节点)共同完成整个系统承担的工作负载,目的是完成超大、超高和超复杂的计算任务,使用并行算法,通过SMP或Cluster架构计算平台,解决CPU、内存、网络和存储的性能瓶颈,实现高并发性能的计算过程。实现了求解规模更大、计算时间更短、计算任务更多的目的。高性能集群是由一个性能良好的管理节点和多台计算节点组成,管理节点对所有计算节点进行统一管理,每个子节点独立运行自己的操作系统,节点与节点之间通过内部高速局域网相互连接。工作流程是,管理节点负责与用户进行人机交互,当它接收到用户根据一定规则一定语法提交的任务请求后,再通过高性能集群的作业管理系统,按照作业任务申请的高性能计算资源,将作业任务分配给计算节点。根据作业调度安排,计算节点通过系统组件完成计算任务,计算结果返回给管理节点,管理节点通过外部网络提供最终用户下载。

高性能计算系统具有超强的计算能力,它不但可以解决大规模计算问题,而且它更容易根据计算能力的要求逐步实现性能扩展。高性能计算机的每个节点独立运行,如果其中一个节点宕机,它运行的程序和连接到它的服务器将被系统自动接管。这样,整个集群就不会受到故障节点的影响,计算服务不会中断。高性能计算集群大多采用 Linux 操作系统,加载相关的编程和编译环境,例如编程环境、编译器、数学库等。

2 武汉气象高性能计算机系统

武汉市气象局在第七届世界军人运动会前面建设了气象高性能计算系统,以满足武汉军运会期间武汉市全境1km分辨率多源资料逐时快速融合分析系统和逐时快速更新循环同化预报系统业务,实现每小时1次的12小时的天气预报,为武汉市提供精细化的气象预报服务。武汉气象高性能计算平台系统整体上由计算子系统、存储子系统、网络子系统、管理区功能节点以及相关软件系统组成。

系统配置了26个计算节点、2个登录节点、1个管理节点、1个后处理节点,6个存储节点,一套风冷排级微模块机柜系统。安装了曙光Gridview集群管理软件、数学库、并行环境以及气象软件包等。理论峰值计算能力为127TFlops,实测效率为66%。系统裸盘存储容量544TB,读写聚合带宽大于8GB/s。采用InfiniBand 100G EDR高速计算网络确保了数据信息高速传输。结构图如如图1。

武汉气象高性能计算机系统主要运行武汉市快速更新循环同化预报业务系统RUC(RapidUpdateCycle),实现逐小时精细化气象预报服务。如图2所示。

3 高性能计算机基本应用

高性能计算机系统最基本的应用主要是系统登录、文件交换以及作业调度。

3.1 系统登录

武汉气象高性能计算机开放普通用户从气象广域网登录,用户可以通过ssh方式登录集群系统,也可以通过 VNC、xmanager 等软件访问桌面图形界面。用户提交作业和软件编译调试建议都在登录节点进行。

采用SSH方式 登录时, Windows 用户可以使用相关客户端软件登录,例如PuTTY、SecureCRT、 xShell、SSH Secure Shell Client,如图3所示。Linux 用户能够直接执行 ssh 命令进行登录:

$ ssh username@IP

3.2 文件上传下载

Windows 用户可以使用客户端软件实现文件的上传下载,例如winscp、SSH Secure Shell Client 等,如图4。

Linux 操作系统直接使用 scp 命令

scp filenametest@ip:/home/test

3.3 作业调度

武汉气象高性能计算机系统采用 Gridview 作业调度系统,该调度系统基于 pbs 作业调度。集群队列设置如下表所示。

同时,可以采用PBS(Portable Batch System)命令行模式来进行作业调度。

用户通过qsub命令向高性能计算机系统提交任务,有两种方式:脚本模式和命令行模式。

在脚本模式下提交作业任务时,用户可以使用简单的文本编辑器編写脚本,预先将要执行的程序或命令写入脚本,同时可以根据需要添加一些必要的或可选的语句,然后使用qsub提交脚本。PBS将根据脚本内容执行工作任务。在PBS系统中,作业脚本由运行程序的用户命令和PBS环境变量的设置组成。注释以“#”开头,PBS命令以“#PBS”开头。语法为:

qsub xxx.pbs

在以命令行模式提交时,不用写脚本,用户可以直接从命令行输入,输入的内容基本上和脚本中输入的相同,其基本格式如下:

qsub           //输入qsub命令后回车

[directives]   //pbs指示语句(以#pbs为前缀)

[tasks]        //任务或命令

ctrl-D         //结束输入,提交任务

与作业调度其他相关命令有(具体使用可以参考有关PBS的说明文档):

查询队列信息:qmgr -c 'p s'

查询节点信息:pestat |more

查询作业运行状态:qstat -an |more

删除作业: qdel 作业号

4 高性能集群运行监控

武汉气象高性能计算系统安装部署了Gridview管理软件,它是一款面向集群管理以及高性能计算的综合管理系统,它拥有较为强大的负载管理平台,实现对曙光HPC安装部署、系统配置、运行状态监控、故障告警以及报表分析等运维管理工作;实现对高性能计算资源的调度分配、作业提交、作业管理、统计记账等。Gridview 通过 Web 浏览器即可轻松地实现监控和管理,采用 Html5、CSS3 等先进技术,对机房、机柜、服务器等信息实现三维视图的方式进行监控,所见即所得,直观地监控到高性能计算机机房的各种设备信息,并且能够准确定位故障点。

登录系统后,默认进入导航页面,如图5所示。每个图标对应于一个功能项,点击可以直接进入对应的功能页面,点击“开始”可以进入系统“首页”。

在对高性能计算集群的运行监控中,管理人员最为关注的就是资源利用情况、故障告警情况以及作业调度情况。Gridview提供了强大的系统监控功能。

其中在集群总览功能页面上,提供了共享存储利用率、最近一小时CPU利用率、最近一小时内存利用率、节点网络可用性、计算能力峰值、已使用核时、已使用核数、集群运行时长、运行作业数、历史作业数统计等功能,这些功能对集群当前工作状态提供了一个总体运行报告,详见图6。在集群负载的功能页面上,提供了本地磁盘利用率、内存平均利用率、共享存储利用率、CPU平均利用率、相对一分钟负载、共享存储概况等实时监测信息,同时在集群告警概况中展现了最近一个月来每一天中对刀片机箱、交换机、服务器、盘阵、机柜和存储系统的告警数量统计值,这对于管理人员有针对性地对集群故障情况定位提供了很好的帮助,如图7。根据这些告警分类,可以在相应的“监控”也没的机房视图、机柜视图、节点视图、分组视图以及热图中查看相关设备的故障情况。

在用户对高性能计算资源的使用中,会有多个用户提交数量不等的作业任务,在Gridview的作业管理中,提供了历史作业、状态视图、作业热图页面的跳转功能以及作业查询和作业控制功能,管理员可以根据情况对作业进行保留、释放、挂起、恢复、重新运行和删除等操作。此外管理员也可以对相关资源进行调度管理,对队列和节点资源进行相应的管理和配置,如图8。

此外,Gridview提供了较为详尽的报表管理功能,用户可以生成指定时间范围内服务器、交换机、刀片机箱、磁盘阵列等的监控指标报表,这对分析高性能集群资源利用分析提供了参考。如图9、图10分别以服务器15分钟负载统计和CPU使用时間统计为例,展示了Gridview的查询统计功能。

5 机房动力环境监控

武汉气象高性能计算机系统对机房动力环境有着严格要求。系统电源电压与PC服务器相同,一般为单相220V,工作频率为50Hz,特别要求做好接地保护,零地电压应小于1V。武汉气象高性能计算机机房配备有3组行间精密空调和除尘除湿设备,确保运行环境温度控制在22℃左右,相对湿度应为60%左右。同时配备防水、防火、报警以及抗电磁干扰等设备实施。

武汉气象高性能计算机系统可以在线对动力环境进行监控,可以对列头柜的电压、电流、频率进行监控,对除尘除湿机的温湿度、风机档位、压差等指标进行监控,对机柜的前后门开关状态、烟雾报警灯进行监控,重点对行间空调的上下回风温度湿度以及室内外机的其他工作参数进行监控,对故障信息提供页面告警和短信告警,提醒运维管理人员及时处置,确保高性能集群系统工作正常。图11和图12分别截取了动力环境监控系统的部分监控页面。

6 小结

高性能计算机的应用范围越来越广,其重要程度也越来越高,气象业务服务对高性能计算机的依赖也越来越强。为确保高性能计算机能够安全、稳定运行,必须做好高性能计算机的运行监控与维护管理工作,这就要求系统管理人员熟练掌握相应的运维管理技术,并不断从实践中总结经验,只有这样,才能使高性能计算机在气象业务科研工作中的作用得以充分发挥,才能让更加优质高效的气象预报产品为经济社会发展和人民生产生活提供更好的服务。

参考文献:

[1] 赵立成,沈文海,肖华东,等.高性能计算技术在气象领域的应用[J].应用气象学报,2016,27(5):550-558.

[2] 王俊超,彭涛,冯光柳.曙光高性能计算机在数值预报模式中的应用[J].计算机技术与发展,2014,24(10):178-181,185.

[3] 秦运龙,许玮,张冰松.华中区域高性能计算机监控管理平台设计与实现[J].电子制作,2016(14):37-38.

[4] 王彬.高性能计算技术在气象部门的应用[J].计算机工程与设计,2014,35(4):1476-1479.

[5] 宗翔,王彬.国家级气象高性能计算机管理与应用网络平台设计[J].应用气象学报,2006,17(5):629-634.

[6] 文洮,金能智,马尧,等.中小型规模高性能计算集群的搭建与维护[J].现代信息科技,2019,3(5):20-24.

【通联编辑:梁书】

猜你喜欢

集群监控管理
枣前期管理再好,后期管不好,前功尽弃
The Great Barrier Reef shows coral comeback
海上小型无人机集群的反制装备需求与应对之策研究
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
PDCA循环法在多重耐药菌感染监控中的应用