APP下载

IBM Flex P460高性能计算机系统及气象应用

2016-05-11张志坚伍光胜孙伟忠

现代计算机 2016年9期

张志坚,伍光胜,孙伟忠,张 静

(1.广州市气象信息网络中心,广州 511430;2.广州市气象台,广州 511430)



IBM Flex P460高性能计算机系统及气象应用

张志坚1,伍光胜1,孙伟忠1,张静2

(1.广州市气象信息网络中心,广州511430;2.广州市气象台,广州511430)

摘要:高性能计算机在气象领域的数值预报、科学研究及大量数据模拟计算等方面发挥重要的作用。以广州市气象局IBM Flex P460高性能计算机集群系统为例,从集群系统建设、硬件系统架构、软件系统架构、气象应用等方面对高性能计算机系统进行阐述,以提高对高性能计算机系统的认识和应用。

关键词:高性能计算机;集群架构;GPFS;LoadLeveler;xCat

0 引言

2013年,中国气象局通过“气候变化应对决策支撑系统工程”引进了IBM高性能计算机系统,总体峰值计算能力达1759TFlops,大大提高了气象数值预报、科学研究及数据模拟计算等的能力和水平,在气象预报、气候预测和气象防灾减灾中发挥重要的作用。该高性能计算机系统分国家局(Uranus)、国家局(Neptune)、广州(国家局:Pluto,区域:Mercury)、沈阳(Venus)、上海(Saturn)、成都(Jupiter)和武汉(Mars)七个子系统。广州市气象局的IBM Flex P460高性能计算机系统作为子系统3,于2013年下半年开始建设,在2014年1月完成,主要承担数值预报模式、华南中尺度天气预报模式等数值模式业务运算以及相关科研的科学计算服务[1-3]。

1 系统概况

IBM Flex P460高性能计算机集群子系统3主要由P460服务器(Power7处理器,芯片:8 Cores,3.55GHz,8 Floating Point/Cycle,227.2GFlops)组成,计算节点数量为427个,总理论峰值达到391.6TFlops,存储物理容量超过400TB,全系统共计有CPU核数13664个,内存总量58000GB。集群配置了计算网络、存储网络、管理网络(以太网)和集群通信网络(千兆以太网)等不同的网络来满足系统的数据传输、集群管理等需求,整个集群系统采用冗余方式进行设计,充分保证集群的高可用性和可靠性[4-5]。

2 系统架构

高性能计算机系统及网络架构分为计算节点、I/O存储部分、前后处理节点、登录节点、管理节点、管理网络、集群通信网络、Infiniband计算网络和存储网络共计九部分构成[5-13]。高性能计算服务器集群系统架构图如图1所示。

图1 高性能计算服务器集群系统架构图

2.1节点类型

IBM Flex P460高性能计算机集群子系统3按节点功能分计算节点、I/O节点、前后处理节点、登录节点和管理节点五类。节点按一定的规则命名,按顺序放置在7953型机柜的刀箱(Chassis),每个机柜配备了4个刀箱,每个刀箱都配置了双刀箱管理模块CMM(Chassis Management Module)用于刀箱内部的节点管理。

计算节点:作为高性能计算机系统的计算核心,主要承担业务应用和科研的计算任务。子系统3的计算节点由404台4GB per Core P460节点和23台8GB per Core P460节点构成,P460节点均使用4口1GB IP网卡1块和2口QDR IB卡1块来进行通讯。

I/O存储节点:作为高性能计算机系统的GPFS服务器和数据服务器,为高性能计算提供快速的I/O访问。子系统3共计8台P740存储节点,均使用4口1GBIP网卡1块、10GB IP网卡2块和2口QDR IB卡4块来进行通讯。

前后处理节点:承担前后处理等任务。子系统3共计有8台8GB per Core P460节点前后处理节点,分布在2台刀箱中,与计算节点共同使用相同的7953机柜,均使用4口1GB IP网卡1块和2口QDR IB卡1块来进行通讯。

登录节点:作为到集群的网关,用于用户远程登录集群。子系统3的登录节点由4台4GB per Core P460节点构成,采用硬件冗余方式,分布在2台刀箱中,均使用4口1GB IP网卡1块和2口QDR IB卡2块来进行通讯。

管理节点:作为管理软件xCat服务器,用于管理和监控节点,子系统3共计2台P750管理节点做为主备模式,均使用4口1GB IP网卡1块, 10GB IP网卡2块,来进行通讯。

2.2管理网络和集群通信网络

IBM Flex P460高性能计算机集群子系统3的内部IP网络配置了管理网络(以太网)和集群通信网络(千兆以太网)。管理网络是由双机热备份EMS管理节点、双机热备份硬件管理控制台HMC(Hardware Management Console)、其他节点以及存储设备构成,主要用于管理节点通过HMC对节点硬件方面的控制,包括创建和维护多分区环境,诊断、报告和保存硬件环境的改动,控制被管理的系统加电和关机以及其他管理功能。集群通信网络是由管理节点、计算节点、I/O存储节点、前后处理节点、登录节点以及存储设备之间的互联构成,主要用于节点之间的通信和集群管理。

2.3 Infiniband计算网络

Infiniband以提供易于使用的消息服务作为原则。消息服务可以用来与其他应用程序、进程或者存储进行通信。Infiniband消息服务是一个非常高效、直接的消息服务,它摒弃了传统网络和应用程序之间消息传递的复杂结构,应用程序不再向操作系统提交访问其他资源的申请,直接使用Infiniband消息服务,其低延迟、高带宽和原生的通道架构更加适合高性能计算系统进程通信的科学运算需求。

计算网络使用的是InfiniBand网络,计算网络用于计算节点在计算时进程的数据交换,主要是在计算节点与IO存储节点、计算节点与计算机之间进行数据交换。IBM Flex P460高性能计算机集群子系统3内部采用无阻塞胖树架构(Fat-Tree)Infiniband网络进行互连,构成系统内部高速数据交换网络。每个计算节点和IO存储节点配置2个InfiniBand端口,分别连接到所在刀箱内置的两个相互独立边缘交换机(Edge IB Switch),再通过2个边缘交换机分别连接到2个核心交换机(Core IB Switch)。单个节点对外通讯的聚合带宽最大可达双向160Gb/s+160Gb/s,计算节点的Infini-Band端口、IB边缘交换机和IB核心交换机均采用基于硬件冗余的方式进行设计,消除单点故障的可能性,充分保证系统数据交换网络的可靠性、高可用性以及足够的节点通信带宽。

2.4存储网络

存储网络由P740IO存储节点、DCS3700存储以及Exp扩展柜构成,用于集群GPFS并行文件系统的通信和数据访问。8个I/O节点通过光纤通道拥有对集群存储的可见性。每四个I/O节点通过光纤通道SAN连接四个DCS3700存储,DCS3700存储通过光纤通道跟Exp扩展柜连接,为集群的提供共享的存储访问,提高系统数据访问效率和高可用性。

3 系统软件组成

集群主要的组成软件有操作系统AIX(Advanced Interactive eXecutive)、集群管理软件xCAT (Extreme Cloud Administration Toolkit)、文件系统GPFS(General Parallel File System)和作业调度器LoadLeveler等[14-19]。高性能计算机系统软件架构如图2所示。

图2 高性能计算机集群系统软件架构图

3.1操作系统AIX和作业调度器LoadLeveler

AIX操作系统是高性能计算机系统完成所有功能的基础。AIX7是目前功能最完善,稳定性和扩展性最好的企业级UNIX操作系统。

作业调度器LoadLeveler具有多个队列和灵活的调度策略,可以根据作业的优先级和资源需求对作业进行调度,管理集群中的资源包括节点、网络、CPU、内存等,具有负载均衡作用,保证高性能计算机系统资源的充分利用,是气象行业最常用的作业调度软件。

3.2管理软件xCat

xCAT作为集群管理和配置工具,允许用户通过一个单点控制和管理一个集群系统,主要功能是硬件管理(电源控制、硬件识别和配置、固件和ASU配置更新等)、软件管理和集群性能和状态监控这三个方面。xCAT是基于C/S架构的应用程序,由管理节点上运行的xCAT Daemon(xcatd)来控制客户端和服务器端之间的通信。当客户端需要管理节点完成某项任务时,输入的任务指令就会被封装成XML格式发送给管理节点,管理节点上的xCat Daemon(xcatd)接收到指令后对指令进行解析,并通过ACL(Access Control Lists)来判定该用户是否有权限执行这些命令,如果ACL判决出该用户有权限发起该任务指令,则该任务就将被放进运行队列中等待执行;xCat执行完该任务指令后会把指令的执行结果返回给客户端。此外,xCAT daemon (xcatd)在安装配置计算节点和各个节点重新启动的时候还会收集各个节点发来的状态和资源信息。子系统3配置了2台EMS管理节点,通过xCAT集群管理软件实现子系统级别的软硬件管理以及系统监控。

3.3通用并行文件系统

GPFS通用并行文件系统是IBM为AIX操作系统开发的,可以使HPCS直接接入全局文件系统。GPFS是一种专门为集群环境系统提供高性能、共享磁盘、分布式文件系统服务的并行文件系统。GPFS可以在集群中的多个节点间实现快速存储,提供统一的文件系统视图。GPFS没有单一故障点,通过配置它可以为所有的磁盘和服务器的故障提供容错机制。这种类型的文件系统可以为用户存储超过249PBytes的数据。每个文件系统所支持的最大文件为2.56亿。GPFS允许通过任意的GPFS客户端节点访问系统内的文件,可以被各种串行和并行作业使用,并且在多个集群的多个存储设备的范围内共享数据。

4 常用管理命令

lsdef+节点名,可以查看特定节点的定义。例如:lsdef gza01n01,可以查看gza01n01这个计算节点的定义信息,如下所示:

Object name: gza01n01

cons=fsp

getmac=blade

groups=all,compute,blade,aixnodes,gza01n,gza01b1n,128G

hcp=192.168.38.1

hwtype=blade

id=1

mac=00:0a:f7:1b:a1:6c

os=AIX

parent=gza01b1cmm

nodels+节点组名,可以查看Xcat中定义群组的所有节点。例如,需要查看第一个机柜的第一个刀箱有定义的节点,可以用:nodels gza01b1n,结果如下所示:

gza01n01gza01n02gza01n03gza01n04gza01n05gza01n06gza 01n07

xdsh+节点组名+uname+-uM,可以查看指定节点组名每个节点的可访问性,如果节点可以访问,则会列出该节点的umane;如果节点应故障不可访问,则会列出该节点的不可访问。例如,查看所有存储节点是否可以访问:xdsh nsd uname–uM,结果如下所示:

gzai06: IBM,8205-E6C IBM,0206B859T

gzai03: IBM,8205-E6C IBM,0206B853T

gzai07: IBM,8205-E6C IBM,0206B856T

gzai01: IBM,8205-E6C IBM,0206B858T

gzai04: IBM,8205-E6C IBM,0206B855T

gzai02: IBM,8205-E6C IBM,0206B857T

gzai05: IBM,8205-E6C IBM,0206B854T

gzai08: IBM,8205-E6C IBM,0206B85AT

mmgetstate-aL-s,可以查看GPFS的状态信息,-a表示查看所有节点,-L表示勒出仲裁数,-s表示添加汇总信息。例如,xdsh gza01n01 mmgetstate–s,返回结果如下所示:

gza01n01: Node number Node name GPFS state

gza01n01: ---------------------

gza01n01: 2 gza01n01 active

gza01n01: Summary information

gza01n01: ---------------------

gza01n01: Number of nodes defined in the cluster: 437

gza01n01: Number of local nodes active in the cluster: 436

gza01n01: Number of remote nodes joined in this cluster: 0

gza01n01: Number of quorum nodes defined in the cluster: 7

gza01n01: Number of quorum nodes active in the cluster: 7

gza01n01: Quorum = 4, Quorum achieved

xdsh+节点名+mmstartup(mmshutdown),xdsh +节点名1,节点名2+mmstartup(mmshutdown),xdsh+节点名+ mmgetstartup(mmshutdown)–a分别可以启动(关闭)单个节点、启动多节点、启动所有节点的GPFS。

llstatus可以查看检查loadleveler状态信息,例如,执行xdsh gza01n01 llstatus,返回的结果如下所示:

gza01n01: Active 423/423

gza01n01: Schedd 2/2 33 job steps

gza01n01: Startd 420/421 2755 running tasks

xdsh+节点名+llctl start,xdsh +节点名1,节点名2+ llctl start,xdsh+节点组名+llctl start分别可以启动单个节点、多节点、所有节点的loadleveler。

rpower+单个节点名或者多个节点名(中间用逗号隔开)或者节点群组名+on(off),可以开启(关闭)节点的电源;rpower+单个节点名或者多个节点名(中间用逗号隔开)或者节点群组名+state可以查看节点的电源状态信息。例如,需要查看存储节点的电源状态信息,执行rpower nsd state,返回的结果如下:

gzai01: Runninggzai02: Runninggzai03: Runninggzai04: Running

gzai05: Runninggzai06: Runninggzai07: Runninggzai08: Running

5 气象应用

高性能计算机在气象领域的数值预报、科学研究及大量数据模拟计算等方面所起的作用越来越重要。中国气象局“气候变化应对决策支撑系统工程”高性能计算机系统子系统3计算资源主要用于运行业务模式,以GRAPES_MESO为核心模块,其中包括中国南海台风模式(TRAMS,0.36)、华南中尺度模式(MARS,0.12)、华南精细数值预报模式(MARS,0.03)、专业模式海洋气象数值预报模式和环境气象数值预报模式。如表1所示,74%的系统计算资源主要用于数值模式业务运算,约26%的系统计算资源用于气象科学研究、科学实验、数据模拟运算以及其他的计算任务。

表1 HPC计算资源使用分布表

6 结语

高性能计算机的引进,对改进和提高天气预报应用模式的分辨率以及时效起到关键性的作用。高性能计算机的高运算能力不仅使得天气预报模式的预报准确性得到提升,还使数值模式计算的时间减短,提供了预报模式的效率;另外,还为气象科研工作提供了强有力的支撑,解决了科研中复杂的科学运算问题。引进高性能计算机将满足气象业务发展和科研工作对高性能计算的需求,这也是提升数值预报能力必不可少的一项任务,也是实现气象现代化的重要举措之一。

参考文献:

[1]中国气象局高性能计算机系统使用简介_v1.pdf.北京:国家气象信息中心,2014.

[2]广州气象局子系统3实施手册2.0.doc.北京:国家气象信息中心,2014.

[3]王彬.高性能计算技术在气象部门的应用[J].计算机工程与设计,2014,35(4):1476-1479.

[4]广州市气象局高性能计算机简介.ppt.广州:广州市气象局,2014.

[5]广州市气象局HPC培训.ppt.北京:国家气象信息中心,2015.

[6]陈晓霞,孙婧.中国气象局的高性能计算机系统[J].科技信息化与应用,2012,3(5):83-90.

[7]沈瑜,孙婧,李娟.中国气象局高性能计算机系统高可靠性设计[J].信息安全与技术,2013,(6)::42-45.

[8]宗翔,王彬.国家级气象高性能计算机管理与应用网络平台设计[J].应用气象学报,2006,17(5):629-634.

[9]谢向辉,彭龙根,吴志兵等.基于InfiniBand的高性能计算机技术研究[J].计算机研究与发展,2005,42(6):905-912.

[10]罗明,卜俊辉.基于InfiniBand的高性能计算机技术研究[EB/OL]. http://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/,2011-05-10/2015-07-18.

[11]金戈. Linux高性能集群-硬件和网络体系结构[EB/OL]. http://www.ibm.com/developerworks/cn/linux/cluster/hpc/part3/,2002-11-20/2015-07-18.

[12]Graham White,Mandie Quartly.安装大型Linux集群,第1部分简介和硬件配置[EB/OL]. http://www.ibm.com/developerworks/cn/ linux/es-linuxclusterintro/,2007-03-13/2015-07-18.

[13]程燕,王磊,孙婧. IBM System p集群节点的快速发现与管理[EB/OL]. http://www.ibm.com/developerworks/cn/aix/library/1003_ chengyan_openslp/#authorN1003B,2010-03-29/2015-07-18.

[14]杨析. GPFS文件系统的原理和模式I/O优化方法[J].气象科技,2006,34(增刊):27-30.

[15]张雨馨. xCAT在IBM高性能计算机集群系统中的应用[J].中国管理信息化,2014,17(21):34-35.

[16]祁晓璐.使用xCAT简化AIX集群的部署和管理[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/1009_qixl_xcataix/,2010-09-01/2015-07-18.

[17]Chris Gibson.在IBM AIX上构建一个双节点的IBM GPFS集群[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/au-aixbuilding-two-node-gpfs-cluster/.2013-10-31/2015-07-18.

[18]李威.使用LoadLeveler实现AIX无盘工作站集群上的作业调度管理[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/ 1103_liwei_loadlevelerforaix/,2011-03-17/2015-07-18.

[19]王荣.构建高可用、高性能的GPFS集群[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/,2007-12-17/ 2015-07-18.

张志坚(1989-),男,广东茂名人,本科,助理工程师,研究方向为高性能计算机应用、气象大数据挖掘

伍光胜(1966-),男,高级工程师,研究方向为探测技术与信息处理

孙伟忠(1986-),男,工程师,研究方向为网络管理和数据库管理

张静(1987-),女,工程师,研究方向为气象预报和气象服务。

IBM Flex P460 High Performance Computer System and Its Meteorological Application

ZHANG Zhi-jian1,WU Guang-sheng1, SUN Wei-zhong1,ZHANG Jing2
(1. Guangzhou Meteorological Information &Network Center, Guangzhou Guangdong 511430;2. Guangzhou Meteorological Observatory, Guangzhou 511430)

Abstract:High performance computer play an important role in the field of meteorological numerical prediction, scientific research, a large number of data simulation calculation and other aspects. introduces the IBM Flex P460 high performance computer of Guangzhou Meteorological Bureau from the construction of cluster, hardware architecture, software architecture and meteorological application, in order to improve the understanding of high performance computer system and its application.

Keywords:High Performance Computer; Cluster Architecture; GPFS; LoadLeveler; xCat

收稿日期:2015-12-31修稿日期:2016-03-03

作者简介:

文章编号:1007-1423(2016)09-0051-05

DOI:10.3969/j.issn.1007-1423.2016.09.013