高性能计算之源起<br/>——科学计算的应用现状及发展思考

高性能计算之源起
——科学计算的应用现状及发展思考

2019-01-28陆忠华李会元迟学斌孙家昶

中国科学院院刊 2019年6期

金钟陆忠华李会元迟学斌* 孙家昶

1 中国科学院计算机网络信息中心北京 100190

2 中国科学院计算科学应用研究中心北京 100190

3 中国科学院软件研究所北京 100190

科学计算是指应用计算机处理科学研究和工程技术中所遇到的数学计算问题。在现代科学研究和工程技术中，常常遇到大量复杂数学计算。其复杂程度往往超越了人脑运算的能力，必须使用计算机进行求解。而计算科学的应用水平已成为衡量国家科技发展水平的重要标志之一；其应用的深入程度则反映出对科学问题探索与理解的深度。2013 年 10月，美国哈佛大学 Martin Karplus 教授、斯坦福大学 Michael Levitt 教授和南加州大学 Arieh Warshel 教授 3 位科学家获得了诺贝尔化学奖，获奖理由是“为复杂化学系统创立了多尺度模型”。评选委员会在声明中指出，对当今的化学家而言，计算机已成为与试管同等重要的工具，计算机对生命现象的模拟已为化学大部分研究成果的取得立下了“汗马功劳”。这无疑会进一步加深各学科对计算模型和计算科学的认识与应用，并将引领学科发展进入下一波浪潮。

1 高性能计算应用需应对高度异构的挑战

自 20 世纪中叶后，高性能计算机的发展取得了长足进步，其计算能力不断地得到提高。特别是进入 21 世纪以来，高性能计算在重大科学发现的前沿基础科学研究领域已逐渐成为不可或缺的重要手段之一。近年来，高度异构和内部网络高速互联是现代高性能计算机体系架构的重要发展方向。而对于若干典型的高性能计算应用，通讯与计算能力不匹配的矛盾较为突出[1,2]。一般说来，现代计算机的处理器和加速部件往往达到几千亿次至几万亿次的浮点运算能力，而目前性能较好的内部互联网络的带宽虽达到了 200 Gb，仍然相对较慢。

超大规模科学计算的显著特征是可计算问题的规模巨大，TOP500①http://www.top500.org.排名前十的超级计算机系统一般拥有千万个以上数量的处理器核心，按照单处理器核心可处理 100 万个未知量来计，这意味着可计算处理具有 1 万亿个自由度的复杂系统。即便如此，当今世界上计算能力最强的这些高性能计算机在那些复杂度更高的科学计算应用对计算能力几乎无止境的需求面前，也显得杯水车薪[3,4]。因此，应用和计算科学家往往不得不采用简化模型、对计算问题进行预条件处理和采用混合精度等手段来降低计算量。从算法的角度来说，美国超算领域的著名数学算法专家 Colella[5]于 2004 年提出了科学计算的 7 种算法模型，即结构性网格、非结构性网格、快速傅立叶变换（FFT）、稠密线性代数（Dense Linear Algebra）、稀疏线性代数（Sparse Linear Algebra）、粒子动力学（Particles）、蒙特卡洛（Monte Carlo），被称为“七个小矮人”。这 7 种算法模型对高性能计算机提出了不同方面和层次的需求，也基本覆盖了常见高性能计算应用。

2 我国高性能计算应用的瞩目成果

2.1 中国科学院科学家联合攻关取得令人瞩目的高性能计算应用成果

高性能计算应用的发展和进步需要数学、计算科学、应用领域等学科的深度交叉融合。20 世纪 90 年代中期[6,7]，中国科学院软件研究所、生物物理研究所、物理研究所以及北京科技大学、国家智能中心的科学家联合攻关，在国产“曙光 1000”并行计算机上，完成了多个应用软件，并在天然 DNA 的整体电子结构理论计算、激光晶体材料（LBO）电子态理论分析及广义本征值并行计算等方面取得了令人瞩目的高水平成果。生物物理学、物理学等应用领域的科学家设计出便于在“曙光 1000”上实现的新方案，并在运维人员的密切配合下，使其付诸实施。而计算科学家则针对“曙光 1000”的特点，提出了“黑匣子并行”的思想和并行方案；同时，在理论上证明了若干收敛性定理，为保证计算结果的正确性及准确预估迭代时间提供了可靠的理论保证。这是中国科学院非常具有代表性的多领域科学家联合攻关，发挥物理模型、算法和高性能计算技术多学科优势和深度交叉的力量，取得高水平成果的成功案例。后来，参与攻关的中国科学院物理研究所王鼎盛与中国科学院生物物理研究所陈润生分别因在计算物理学与计算生物学上的成就而被增选为中国科学院院士。

2.2 中国高性能计算应用取得“戈登 · 贝尔”奖的突破

近年来，我国科学家在高性能计算应用领域又取得了新突破。在大气科学的全球大气动力学的高性能计算研究方面，由中国科学院软件研究所杨超、清华大学薛巍和付昊桓领衔的应用成果——“千万核可扩展全球大气动力学全隐式模拟”[8]在 2016 年 11月美国盐湖城举办的“全球超级计算大会 2016”（SC16）上一举拿下高性能计算应用领域最高奖——“戈登·贝尔”奖②“戈登·贝尔”奖旨在奖励国际前沿的并行计算研究成果，尤其是高性能计算创新应用的杰出成就。其设立于1987年，由美国计算机协会（ACM）于每年11月颁发。该奖项主要注重高性能计算应用水平，是高性能计算应用的最高奖项之一和发展的“风向标”。，实现了我国高性能计算应用在此项大奖上零的突破，成为我国高性能计算应用发展的一个新的里程碑。该课题在应用与算法 2 个层面实现了重大突破：① 应用层面。大气动力过程的模拟速度较美国下一代大气模拟系统 AM3（GFDL 开发）的计算效率提升近 1 个数量级。全隐式求解方法是未来超高分辨率大气模式构建的一种新选择。② 算法层面。实现目前世界上第一个可扩展到千万核，峰值效率超过 6% 的隐式求解器，它将模拟分辨率提升至 500 米以内，并行度和峰值效率较 2015 年“戈登 · 贝尔”奖工作均提升一个数量级。该成果可应用于全球高分辨率气候模拟和高精细数值天气预报，并在航空、地学、工程学等领域的挑战性计算问题中有广阔应用前景。

3 我国典型传统科学计算应用现状与发展

多年来，中国科学院一直走在我国科学计算应用发展的前列。无论是应用水平、计算规模还是成果显示度均取得了长足的进步。除了上述代表性成果，中国科学院的应用成果还有许多。但因篇幅所限，以下仅选取几个中国科学院典型传统科学计算应用领域，从科学家视角，谈谈科学计算应用现状与发展和一些思考，以期窥一斑见全貌，更希望能引发读者更深入的思考与关注。

3.1 大气科学之全球气候海洋模式

3.1.1 现状

全球气候海洋模式是气候系统模式的重要组成部分，也是气候研究、气候预测和预估不可或缺的工具。空间分辨率的持续增加是海洋环流模式发展的重要趋势之一。全球高分辨率海洋模式的发展要追溯到 20 世纪 90 年代初，第一个全球 25 公里的海洋模式使用了美国地球物理流体力学实验室（GFDL）发展的 MOM 模式。21 世纪开始，随着以日本的“地球模拟器”为代表的大型超算平台的发展，国际上有 20 多家模式开发中心开始进行全球涡分辨（10 公里）模式的发展和研究，包括日本的 JAMSTEC，美国的NCAR、NOAA GFDL、FSU，以及德国的 MPI 气象研究所等。

我国国内的高分辨率全球海洋模式多是引进国外的模式，如在气候模式应用的 MOM 和 POP 模式，以及在预报系统中采用的 HYCOM 和 NEMO 模式。中国科学院大气物理研究所在全球海洋模式发展方面进行了长期攻关，所发展的涡分辨率全球海洋环流模式——LASG/IAP 气候系统海洋模式（LASG/IAP Climate System Ocean Model，LICOM）[10]也是我国唯一自主发展的全球海洋环流模式。LICOM 海洋模式的模拟结果参与了历次国际耦合模式比较计划（CMIP）并被政府间气候变化专门委员会（IPCC）引用，其最新版本的模式被国际同行认为是对 ENSO（El Niño-Southern Oscillation）模拟能力最好的模式之一。不仅如此，基于 LICOM 海洋模式成功地研制了水平分辨率为 10 公里的海洋环流模式，可显式地模拟海洋中尺度涡旋。中国科学院计算机网络信息中心王文浩等[11]采用 MIC 并行优化 LICOM，实现了较好的加速效果，加速比达到 2.09。高分辨率的 LICOM 支撑了国家和中国科学院的多项大型专项，也应用在国家海洋局环境预报中心等海洋业务中，为日常经济活动等提供了海洋环境保障。

3.1.2 对领域应用的促进

对历年参加 CMIP 计划模式中海洋分量模式分辨率的分析表明，气候海洋模式最高分辨率的增长基本与计算机发展的摩尔定律相吻合，即模式的分辨率受限于计算能力。随着高性能计算的发展，近期美国国家航空航天局（NASA）采用 MITgcm 海洋模式，进行了全球 2 公里的试验。虽然试验受限于计算量和存储量，仅仅运行了 1 年左右，但其结果第一次实现了对全球次中尺度涡的垂直输送的估算，发现了次中尺度涡在海洋上层热量收支中的重要作用，对于海洋科学和气候变化研究都有重要的意义。与此同时，国内的多家海洋研究单位，也在着手尝试联合进行此方面的研发，有逐步赶超国际的发展趋势。

3.1.3 发展趋势

随着 E 超级计算平台的研发，全球海洋模式的水平分辨率必然也会向公里级、百米级发展，可分辨种类更齐全的海洋运动形式，如次中尺度涡、内波等。在数值模式中分辨更多的海洋运动形式也是海洋科学的重要发展趋势，而国产计算系统的建设是发展我国自主研制超高分辨率海洋模式的绝佳契机。

3.2 大气科学之全球空气质量预报

3.2.1 现状

为了应对大气污染问题，欧盟、美国、日本和中国均建立了依托高性能计算机的空气质量数值预报中心。我国于 2015 年建立了国家空气质量预测预警装置，包括峰值达 130 万亿次的高性能计算机系统、环境空气质量数值预报模式系统、环境空气质量数值预报模式系统并行环境系统、支撑保障系统。这一装置成为我国近年来应对大气重污染事件的核心工具，有效支撑了我国大气污染防治计划的开展。

西班牙 Martn等[12]采用 OpenMP 对 STEM-II（Sulphur Transport Eulerian Model 2）进行了并行化，并在SGI O2000 多处理器、富士通 AP3000 多计算机和 PC 集群上开展了测试，结果表明并行代码的模式程序可以显著减小模式运行所需的 CPU 计算时间。德国 Lieber 和 Wolke[13]发展了一种能有效解决化学传输模式负载不均衡问题的改进耦合方案，有效提高了化学传输模式的并行计算效率。朱云等[14]研究了 CMAQ 模型在 64 位 Linux 操作系统上不同 CPU 核心数目并行计算模拟耗时以及结果的差异情况。研究结果表明，并行计算能大幅缩短 CMAQ 模拟耗时，以 16 个 CPU 核心并行处理为性价比最佳值；多于 16 个核心并行处理时，随核心数量的增加模型性能提升的趋势减缓。王自发等[15]基于高性能计算集群建立了具备多模式集合预报功能的空气质量多模式集成预报业务系统，有效支撑了北京奥运会的空气质量保障，推动了我国空气质量预报预警能力的快速提升。Wang 等[16]针对空气质量模式中计算耗时大的气相化学模块，设计了化学动力学模拟的新框架，以适应下一代处理器中单一指令多数据（SIMD）技术的使用，通过矢量化实现细粒度级并行化，可使空气质量预报模式实现 3 倍以上的加速计算。Wang 等[17]利用“地球系统数值模拟装置”的原型系统“硅立方”首次实现了中国区域 5 公里水平分辨率多年的大气污染高精度模拟。

3.2.2 对领域应用的促进

基于高性能计算的城市、区域和国家空气质量预报虽然已取得了长足的进步并具备了较强的预报预警能力，但全球空气质量的预报预警能力仍然非常有限且不确定性大。一方面，由于空气质量数值模拟与预报涉及非常复杂的多尺度大气物理化学过程以及毫秒级大气化学反应和微物理过程的模拟，计算代价高昂，全球空气质量模拟预报仍停留在较粗的空间分辨率（>25 公里），难以合理表征很多次网格尺度过程（如机动车、电厂等排放过程以及局地环流过程）。目前，尚未有国家实现高分辨率（<10 公里）的全球空气质量预报。另一方面，受计算资源约束，现有全球模式对很多物理化学过程都进行大幅简化处理，同时排放源、气象场等输入数据不确定性大，进一步加大了全球空气质量预报的难度和不确定性。因此，我国空气质量预报能力提升亟待超级计算资源和技术的支撑。

3.2.3 发展趋势

未来，随着我国超算能力的不断增强以及国产计算系统的研发，给我国乃至全球空气质量预报、预警提升提供了巨大的机会。目前，我国在建的国家重大科技基础设施“地球系统数值模拟装置”将研发全国 3 公里、重点地区 1 公里水平分辨率的区域高精度大气污染模式，建成后将大幅提升我国区域大气污染模拟预报能力。此外，依托国产计算系统也正在研制高分辨率全球空气质量智能化网格预报系统，必将大幅提升我国在全球空气质量预报上技术能力和研究水平。

3.3 生命科学之药物设计

3.3.1 现状

自 20 世纪 70 年代以来，基于计算的药物发现与设计（Computational Drug Discovery and Design，CDDD），也称之为计算机辅助药物设计（Computer-Assisted Drug Design，CADD），经历了显著提升。随着分子生物学和结构生物学的快速发展，大量重要疾病相关的生物大分子的三维结构和生物功能得以确定。同时，随着高性能计算机的快速发展，计算方法在药物发现和分子模拟中的应用不断增加。量子力学、分子力学、分子动力学以及这些方法的组合已广泛用于疾病靶点及药物开发研究。

近 10 年，基于国产超级计算机的发展，中国科学家在生物大分子分子动力学模拟研究领域取得了较大进展，尤其是中国科学院上海药物研究所的（以下简称“上海药物所”）药物靶标动态行为研究取得了系列创新成果，阐明了众多药物靶标功能及药物作用机制。目前，基于国产超级计算机，上海药物所研究团队开展了 40 万个原子体系的全原子十微秒尺度的分子动力学模拟，其水平不落后于世界最高水平。但在中小规模（~5 万个原子）的全原子分子动力学模拟中，国外的超级计算机，如 Anton[18]已可以支撑十毫秒级分子动力学模拟，而我国现有超级计算机只能支撑百微秒级分子动力学模拟。

同时，作为药物分子设计重要手段之一的高通量虚拟筛选（High Throughput Virtual Screening，HTVS）技术，亦称为并行分子对接（Parallel Molecular Docking）技术的发展，使得药物分子设计的速度、成功率均得到了大幅提高。但高通量虚拟筛选计算需要消耗大量的高性能计算资源，计算开销非常昂贵。

3.3.2 对领域应用的促进

传统上，在制药行业中上市新药是非常困难的过程。在美国，一种新药的上市往往需花费超过 10 亿美元并耗费 10——17 年的时间。基于生物大分子（如蛋白质和核酸）三维结构的一系列 CDDD 方法，如高通量虚拟筛选方法，极大地提高了药物发现的效率。根据美国政府报告，由于 CDDD 技术应用，每种药物平均开发成本减少了约 1.3 亿美元，研发时间缩短了约 1 年。

目前，国际各大制药企业均开始重视高性能计算在药物研发中的应用，采用自建高性能计算或与高性能计算服务商及超级计算中心合作的方式来解决创新药物研发进程缓慢的问题。特别是 D. E. Shaw Research③对冲基金经理David E. Shaw博士（同时也是一位计算机科学家）设立的私人研究机构，主要从事计算化学/计算生物学方面的高性能计算的研究，特别是分子动力学（MD）模拟。通过招募数百名数学、化学、生物学等专业以及计算机软硬件方面的优秀人才，开发了蛋白质模拟专用机 Anton[18]和 Anton 2[19]，多次获得“戈登 · 贝尔”奖；为其专用机发展的分子动力学模拟 Desmond 程序已经成为药物研发软件 Schrodinger（薛定谔）的核心组件之一，是该软件实现高精度自由能计算 FEP 的主要模块。2016 年，美国 500 强企业吉利德科学公司（Gilead Sciences）投资 1.2 亿美金购买 Nimbus 制药的治疗肝病的药物，该事件成为一时的热点，被美国著名媒体《福布斯》杂志报道。Nimbus 公司是美国薛定谔公司技术参股公司，该药物完全是用 Schrodinger 软件设计，计算机设计加实验验证总耗时仅 1 年时间，时间之短令业界震惊。

“十二五”期间，上海药物所依托我国自主研发的“天河二号”和“神威 · 太湖之光”超级计算机开发了大规模并行的分子动力学模拟软件、虚拟药物筛选方法及软件，实现了最高 156 万核并行，并行效率达 85%；在针对肿瘤、糖尿病、乙肝等重大疾病靶标蛋白的药物研发中获得了显著成果，多个化合物完成技术转让，取得了巨大经济效益。

3.3.3 发展趋势

新发突发大规模感染性疾病和抗感染药物耐药问题严重威胁人类生命与健康。应对新发突发大规模感染性疾病，基本上无现成药物可供选用。因此，快速实现从无到有的突破在应急应对中显得无比重要，而采用超级计算机药物虚拟筛选技术可在短时间内获得候选化合物，提供紧急应对方案。对抗感染药物耐药问题，只有采用新策略和新机制开展新类型抗感染药物研究，方有可能缓解病原微生物对传统抗感染药物的耐受难题。与病菌耐药相关的蛋白以及途径种类繁多，且在结构水平上的耐药机制尚未完全阐明。因此，对细菌蛋白耐药机制进行研究十分必要，而这就需要对生物大分子的结构与功能进行研究。近 2 年内的技术突破使超大复合物的高分辨结构研究成为可能，高分辨冷冻电镜技术的突破则成为重要的推动手段之一。科学家利用各种技术获得蛋白质三维结构后，采用分子动力学模拟进行结构功能研究和自由能微扰方法进行小分子药物设计改造。冷冻电镜三维重构、分子动力学模拟均需要耗费大量的高性能计算机时，而随着国产超级计算系统的应用，将会大幅减少药物设计对实验的依赖并显著提高药物研发效率。

3.4 基础科学之高能物理

3.4.1 现状

高能物理的研究对象是物质世界的基本结构及基本相互作用。量子色动力学（QCD）和电弱统一理论（EW）通称为粒子物理的标准模型，是目前高能物理研究的基本理论体系。高能物理的前沿重要课题有强相互作用中的夸克禁闭、标准模型精确检验和超出标准模型的新物理的寻找；与之相关的重大物理问题有强子结构和强相互作用低能特性、宇宙早期演化、中微子性质和中微子质量起源、暗物质和暗能量等。

高性能计算在高能物理中发挥着日益重要的作用，应用范围包括海量的高能物理实验数据的分析（数据密集型）、对撞机和探测器的计算机模拟辅助设计（计算密集型），以及以格点量子色动力学（格点 QCD）为代表的高能物理理论计算（计算密集型）。随着计算机技术的发展，高能物理中的高性能计算已经成为与传统的高能物理实验、理论研究并列的第三大分支；其中格点 QCD 以其高强度、高可扩展性、高并行效率等特点，长期成为高性能科学计算的主要应用领域之一。曾于 1988 年、1998 年和 2006 年 3 次获得“戈登 · 贝尔”奖，2018 年也入围了该奖项的候选名单。

欧、美、日等发达国家和地区历来十分重视格点QCD 研究并保持在该领域的领先地位。目前，美国格点 QCD 研究每年消耗的计算资源为几百兆 CPU 核小时，预计到 2025 年将达到目前的几十至一百倍。格点 QCD 已被美国列为其未来E级计算机的重点应用之一，并组织研究队伍在物理课题、算法研究和程序开发等方面开展研究。

我国的格点 QCD 研究也有长期积累，目前正在组织相关团队基于国内的超级计算系统调试和开发格点 QCD 的应用软件，期望在未来参与到该领域E计算应用发展中。

3.4.2 对领域应用的促进

格点 QCD 的研究手段是进行大规模的 Monte Carlo数值模拟研究，属于典型的高性能科学计算领域。其对于高能物理中的重大科学问题研究有不可替代的作用，直接服务于未来高能物理的重大物理发现。在标准模型精确检验和超出标准模型新物理寻找方面，格点 QCD 可以提供标准模型基本参数（如夸克质量、强耦合常数等）的最精确的理论结果；可以从第一性原理提供对新物理敏感的强子矩阵元的精确、可靠的理论输入。在夸克禁闭等强相互作用低能特性方面，格点 QCD 可以对新型强子态、强子-强子相互作用以及强子结构等问题给出模型无关的物理结果。

格点 QCD 研究成果的物理意义和国际地位直接决定于对统计误差和各种系统误差的控制水平，而误差大小直接决定于计算规模和计算资源。格点 QCD 的系统误差主要来自四维时空格点体系的物理大小、格点细密程度以及夸克质量参数的选取。目前国际上格点 QCD 研究的最大的格点体系大小为 1283×256，计算规模大约十万或数十万核；如果未来规模提高到2563×512，则计算规模将增大到数百万核，必须使用E级计算。正所谓“计算决定未来”，计算能力和资源对高能物理未来的重要发现和理论突破的意义是不言而喻的。

3.4.3 发展趋势

美国面向格点 QCD 研究的未来E级计算应用早已开始布局，国产高性能计算系统将为我国的格点 QCD研究直接参与国际竞争提供十分重要的计算支撑。北京正负电子对撞机和北京谱仪（BEPCII/BESIII）是国际上工作在粲夸克能区独一无二的高亮度的实验装置。在轻强子性质研究，尤其是在新型强子态（如胶球、混杂态和 XYZ 粒子）研究方面有潜在的重大物理发现，但需要理论研究的支持，其中格点 QCD 的研究必不可少。

我国格点 QCD 研究将基于国产高性能计算系统开展与 BESIII 物理密切相关的研究，为实验研究提供精确可靠的物理判据，以期产生重要物理成果。核子（质子和中子）是宇宙可见物质的主要组成，但我们对其结构并不十分清楚，我国筹建的中国高能电子-离子对撞机（EicC）和美国的高能电子-离子对撞机（EIC）及 JLab 的重要目标之一是研究核子结构。中国的格点 QCD 研究将针对核子质量、自旋核子三维结构以及对新物理敏感的强子矩阵元进行具有原创性的科学研究。同时，通过大规模的科学计算实践，我国科学家可为格点 QCD 研究的计算方案、算法和软件作出贡献。

3.5 计算化学之第一原理计算

3.5.1 现状

第一性原理（First-principles）材料模拟的主要任务即从密度泛函理论（Density Functional Theory，DFT）出发，在无任何经验参数的条件下从头计算分子和固体材料的物理化学性质及其应用。第一性原理电子结构计算软件包括了一些有史以来计算成本最高的科学应用程序，无论是硬件还是软件发展方面，它们（如VASP、Gaussian、NWChem等）总是经常处于对高性能计算能力需求的最前沿。为了通过密度泛函理论数值计算求解具体的物理化学问题，需要采用基组展开等方法将 DFT 方程离散成计算机可以识别和操作的数组和矩阵，从而获得材料中所有原子周围的电子密度，进而计算出材料的电子结构及其他重要特性。第一性原理软件包大致可以分为平面波基组软件、原子轨道线性组合（LCAO）基组软件、混合型平面波和高斯基组软件。如果从计算复杂度（包括计算时间和内存）上区分，第一性原理电子结构计算方法可以分为传统的高标度法和线性标度法。

当今国际上的高性能第一性原理计算软件（包括低标度和高标度）并不多，仅有 LS3D、CP2K、NWChem、BigDFT、DGDFT 和 Qbox 等可实现中等规模高性能并行计算（10 000 个 CPU 核以上），其中 LS3D 和Qbox 曾获得“戈登 · 贝尔”奖。另外，DGDFT 和国内商业软件 PWmat 还采用了图形处理器（Graphics Processing Unit，GPU），GPU 加速大大地提高了计算效率。同时，VASP、Gaussian、NWChem 和 BigDFT 等软件也正在发展 GPU 加速模块。

3.5.2 对领域应用的促进

通过输入的材料结构信息，第一性原理计算可较为准确地预测已知材料的基态结构和基本物理化学性质，并实现原子级别的精准控制。这已成为 21 世纪解决实验理论问题和预测新材料结构性能的强有力工具和标准研究方法。该方法不需要开展真实的实验，极大地节省了成本，缩短了新材料的开发周期，为材料的制备和改性、新材料的开发以及极端环境下材料的性质研究提供了有效的理论指导。然而，由于计算量极大，第一性原理材料模拟领域的科研人员对软件性能和计算资源的需求越来越大。高性能计算的快速发展为第一性原理计算提供了机遇，使其在凝聚态物理学、材料科学、化学和生物学等领域发挥着日渐重要的作用，包括模拟并解释实验新现象，分析其本征物理机制，以及设计新型功能材料并预测新奇性质等，取得了很多重要科研成果。可以说，第一性原理计算体现了量子力学理论与高性能计算之间的高度结合，实现了理论-模拟-实验三位一体的科研模式，并引发了材料科学的革新。

3.5.3 发展趋势

事实上，第一性原理计算现已成为高性能计算中应用最广泛和最活跃的领域。该领域研究的快速发展不仅归功于理论、算法和软件进步，更得益于计算机硬件能力的指数级增长，包括处理器速度和数目的增加、内存容量和速度的增长、大规模并行处理能力的提高等。随着计算机硬件和算法软件的发展，高性能计算机的计算能力飞速提高，第一性原理计算应用领域也将大步前进。更精确、更大体系的第一性原理计算以及更长时间尺度的分子动力学模拟都将成为可能，其计算结果也将更加接近真实体系，从而使第一性原理计算发挥更大作用。

3.6 材料科学之钛合金微观组织演化

3.6.1 现状

由于结构材料的复杂性和应用对性能的多方面需求，一种新材料从设计到应用往往需花费 20 年以上。以航空发动机用钛合金为例，对其强度、模量、韧性、疲劳、蠕变、氧化、腐蚀等方面性能均有很高要求，此外还需长寿命、高可靠、低成本。发达国家在航空航天材料方面有近百年的积累，而我国虽经几十年的研究，也有很多自己的合金牌号，但许多关键材料仍无法自给，其原因之一是基础研究不足。

21 世纪以来，人们逐渐认识到计算模拟对新材料研发的促进作用，美国先后启动了“集成计算材料工程”（ICME）[20,21]和“材料基因组计划”（MGI）[22-24]，希望借助计算加速新材料的研发，同时降低成本。我国 2016 年启动了材料基因工程计划，希望结合计算及实验，促进钛合金等多种关键材料的研发，以满足航空航天及燃气轮机等的需求。

3.6.2 对领域应用的促进

在新材料的研发与优化方面，多尺度模拟在合金化效应计算与合金元素筛选，微观原子变形机制的揭示，不同条件下的微观组织演化以及热加工工艺的优化等方面都起到重要作用，而这些都需要以高性能计算为基础。中国科学院金属研究所在国内率先集成多尺度模拟与实验研究，研发出应用 600℃ 的高温钛合金 Ti60 和应用于人体的低模量钛合金 Ti2448，并对 TiAl 合金叶片的应用等方面起到了重要推动作用，但仍无法满足航空、航天、航海、能源等对新材料的巨大需求。上述对性能的多方面需求，均需以材料的成分和组织为保证。尽管先进的测试手段不断涌现，但仍无法满足合金形变、相变机制及组织演化等的理解。例如，保载疲劳从 20 世纪 70 年代开始，一直制约着钛合金的高效应用。

中国科学院计算机网络信息中心张鉴团队与中国科学院金属研究所合作开展合金微结构演化相场模拟研究，研发了合金微组织演化大模拟并行软件 ScETDPF。它是基于可扩展紧致指数时间差分算法库的相场模拟软件，支持计算材料科学、计算物理学、计算生命科学等学科的计算模拟，实现了国际上最大规模的合金微结构粗化相场模拟，有助于加快我国新型合金的设计和加工工艺优化。团队应用 ScETD-PF 软件在“神威·太湖之光”超级计算机上运行合金微结构粗化过程相场模拟，规模较以往提高近百倍，实现了超过千万核的扩展性能，相场模拟实际性能达到峰值的 40%，远高于普通软件约 5% 的水平。该软件入围了 2016 年“戈登 · 贝尔”奖候选名单[25]。

3.6.3 发展趋势

国产计算系统的研发将改变我国过去以实验和仿制为主的新材料研发模式。通过计算模拟筛选合金成分，揭示形变、裂纹萌生的微观机理，探索不同微观组织的形成机制及其对性能的影响，为材料性能控制指明方向。甚至在材料制备之前即可模拟其在不同应用下的性能，从而大幅度减少实验次数及时间，显著提升创新能力。还可通过模拟，根据新部件设计对材料提出新要求，实现材料的按需设计，最终提升航空航天等系统的水平。

3.7 计算材料学之材料结构预测

3.7.1 现状

材料是国民经济的基石，是实现制造业转型升级的重要基础。随着计算机模拟技术的发展，流体力学、材料和医疗等专业领域也开始使用模型辅助科学研究。由于其问题的复杂性，这些领域的模型参数优化使用单一的优化算法或者适应度计算方法无法有效解决问题，比如某些方法精度高但运行时间长，而某些方法需要苛刻的前置条件。因此，在这些领域通常采用多种方法结合的方式进行参数优化，即由不同步骤组合起来进行问题求解，从而发挥各个方法的优点，更有效率的解决问题。同时，应用领域有很多商业软件，不提供相应 SDK（软件开发工具包），整个流程通常只能采用脚本语言（如 Shell 语言）对各个步骤进行连接。

3.7.2 对领域应用的促进

多步骤参数优化算法的典型场景是材料学领域的晶体结构预测算法。目前常见的结构能量计算方法有分子动力学模拟的方法和基于第一性原理的密度泛函理论（DFT）方法。DFT 方法能够提供更准确的结构能量，但计算成本很高。以 TiO2晶体为例，采用分子动力学软件 LAMMPS 计算其能量，平均耗时为 169 ms（100 次实验的统计结果，下同）；而采用 DFT 软件 VASP 计算其能量，平均耗时为 10 309.27 s，两者相差将近 6 万倍。在 DFT 软件的基础上采用参数优化算法搜索结构晶体状态，其时间成本很可能超出科学家可接受时间上限。由此可见，单纯采用分子动力学方法进行结构能量模拟，很难获得和 DFT 方法同等的模拟精度；而单纯采用 DFT 方法，随着分子结构复杂度上升，其时间成本越来越昂贵。

3.7.3 发展趋势

多步骤参数优化算法较好地解决了这个问题。目前该领域通常是将两种方法结合，在不明显影响系统效率的情况下，有效提升模拟方法的精确度。美国 Ames 国家实验室提出一种 AGA（Adaptive Genetic Algorithm）算法，其采用遗传算法进行给定结构的晶体状态搜索，在 GA 计算个体适应度时，采用分子动力学方法模拟结构能量。同时，创造性地添加了 Adaptive loop 模块，将 GA 生成的数个最优结构交与第一性原理 DFT 方法重新精确计算其结构能量，再采用 Force-Matching 方法基于精确信息对分子动力学方法的势参数进行耦合，从而提升分子动力学方法的精确性。如此组成大循环，直至收敛。

3.8 计算宇宙学之天文N体计算模拟

3.8.1 现状

宇宙学模拟是理解星系形成、暗物质、暗能量等重大科学问题的重要手段，从计算技术方面来讲，宇宙学模拟涉及的物理过程之多、动力学范围之大、计算方法之复杂、计算规模之大，一直是反映国际高性能计算发展水平的典型代表。其中最核心的 N 体问题模拟及其应用先后 9 次获得“戈登 · 贝尔”奖，这充分显示 N 体问题相关算法及其应用的重要性和并行实现的技术难度。

日本东京大学的 Ishiyama 和 Makino 等开发了 N 体问题并行数值模拟软件 GreeM，并在富士通“京”超级计算机上通过各种性能优化技术，在国际上率先实现了万亿粒子规模的宇宙学 N 体模拟。

我国在宇宙学 N 体问题大规模模拟方面近几年取得重要突破。中国科学院国家天文台计算天体物理重点实验室和中国科学院计算机网络信息中心合作，在国际上率先发展了基于 MIC/CPU 混合架构的宇宙学 N 体模拟软件 PhontoNs。该软件在“Intel 并行应用挑战赛 2014”的两个奖项上均获得了亚军。

3.8.2 对领域应用的促进

2015 年北京师范大学张同杰率领的研究团队开发了 Tian-Nu 软件，在“天河二号”上成功进行 3 万亿粒子数的中微子和暗物质的宇宙学 N 体问题模拟，揭示了宇宙大爆炸 1 600 万年后至今的 137 亿年的演化进程[26]。该软件基于 P2P 和 PM 的耦合算法，模拟结果已发表在《自然-天文》（Nature Astronomy）上，获得了国际宇宙学领域的高度关注。

3.8.3 发展趋势

目前国际上成熟的宇宙学模拟软件均基于纯 CPU的传统超级计算机，而大型超级计算机的主流发展方向是深度异构。在异构计算环境下对超大规模粒子体系进行快速模拟需要研究如何提高算法的并行可扩展性，尤其需要解决动态模拟过程中粒子分布不均时的负载均衡问题。另外，还需要研究众核异构平台上的性能优化技术、分布式八叉树周游的计算与通信重叠技术、三维 FFT 大规模可扩展性并行划分与通信。中国科学院计算机网络信息中心正在与中国科学院国家天文台合作，针对国产超级计算机，通过并行异构算法设计以及代码优化，研发能够满足宇宙学超大规模数值模拟需求的引力场 N 体模拟软件。基于国产计算系统的天文 N 体计算模拟软件将实施千亿量级及以上规模的高效率宇宙学模拟，为国际大型星系巡天、暗物质、暗能量大型探测计划，以及我国重大科学工程 500 米口径球面射电望远镜（FAST）和空间站巡天望远镜等大科学装置提供必要的数值模拟支撑。

3.9 计算生物学之基因测序

3.9.1 现状

从管中窥豹的 DNA 分子排列，到暗藏杀机的复杂遗传疾病；从小分子代谢物流转不息，到眼角眉梢的巧笑嫣然；见微知著地贯通微观到宏观是无数遗传学家思考毕生的问题。前瞻性队列研究是流行病学的基本观察性研究设计之一，自 20 世纪 70——80 年代起，世界各国陆续开始建立长期随访的人群队列。新建立的人群队列，如中国法医分子画像样本库、荷兰 Rotterdam 队列、英国双生子队列、英国 ALSPAC 队列、美国波士顿队列、澳大利亚 QIMR 队列、拉丁美洲 CANDELA 队列等，其规模越来越大，且包含较为全面的健康结局信息、环境暴露信息和社会学信息。这些数据具备部分大数据的特征：大型队列的规模已经达到了 50 万种样本以上，且采样精度不断提高，通过整合基因组学、转录组学、表观组学、蛋白组学、代谢组学、免疫组学和影像组学等多维数据，数据量迅速扩大；表型数据包含非结构化图像、音、视频等高度异质性数据，并且存在复杂的关联关系，呈现出多样性和异质性；借助电子健康记录及智能传感设备，数据更新频繁。深入解析这些数据是精准医学和 DNA 表型刻画等多领域的核心目标，在复杂疾病的个性化预防、诊疗和指导公安刑侦破案等方面有重要的应用价值。

3.9.2 对领域应用的促进

随着测序技术不断发展和各国对普惠健康领域投入的增加，新建立的人群队列规模越来越大，且包含较为全面的健康结局信息、环境暴露信息和社会学信息，这些数据具备部分大数据的特征。未来由队列联盟整合的跨国人群队列的样本规模会达到千万级，传统分析手段的处理效率难以适应数据的产生速度。与此同时，借助电子健康记录及智能传感设备的实用，频繁更新的多维表型组学数据形成了高度异质的数据集合。深入解析这些数据需设计高效合理的数据库架构以对多源、异构数据的清洗、标准化和存储，并引入新算法进行处理。

3.9.3 发展趋势

面对样本量和数据维度的爆炸性增加，生物信息学也迎来了技术拐点。科研界和工业界共同发力，许多经典的生物信息学算法和流程通过使用高性能计算资源，提高了生产效率，增强了系统易用性，降低了存储管理难度；而针对高性能计算平台开发的机器学习、深度学习算法，也在解析多维数据复杂因果关系及交互作用网络方面崭露头角。以经典的全基因组关联分析为例，配合高性能运算平台的高算力开发的新统计学习算法，可以极大提高统计效力，从而发现以前未发现的影响人类复杂表型的遗传因子，深入理解其遗传结构。对于复杂疾病来说，这能够提供明确的分子通路和基因靶标，进而完善复杂疾病的个性化预防、诊疗、分子分型、预后等健康管理方案。对于人类复杂外貌表型来说，也可以基于发现的遗传因子建立外貌表型预测模型，推动协助刑事案件侦查、海关检验和移民管理等工作进入主动、精确、智能的新时代。将来，高性能计算将进一步推动面向生命科学研究的机器学习和深度学习的算法开发，助力数据聚类、建模预测、文本挖掘、图像识别等领域开展数据驱动型研究。

4 关于我国科学计算发展的若干建议

历经 30 年，我国的科学计算由起步发展至今，在诸多研究领域取得了长足的进步，但仍需面对E级超算④E级超算是指每秒可进行百亿亿次浮点运算（1018 Flops）的超级计算机，是全世界公认的“超级计算机的下一顶皇冠”。的新挑战。高性能计算机的体系结构越来越复杂，其特征是处理器和加速器部件的复杂深度异构、单处理器内众核、单节点内多处理器、数万计算结点、多级存储系统和超高速内部互联网络，这对应用软件的研制提出了众多挑战。

我国经过多年的努力和投入，超级计算机硬件基础设施能力已达国际先进水平。但由于在科学计算软件方面如基础算法库、并行算法库、高性能计算应用中间件和各学科领域应用软件缺乏稳定投入和长期积累，导致我国科学计算应用各环节均严重依赖国外。特别是使用国外软件占比高达 90% 以上，这已成为制约我国高性能计算进一步发展的“卡脖子”问题。

为了更好地发展我国的科学计算应用和加强研发应用软件，今后应战略性布局和规划我国科学计算的发展路线和实施计划，具体给出 5 点建议。

（1）设立国家级高性能计算软件研发中心，并给予长期稳定支持。针对国产处理器研发若干重要领域的科学计算软件；通过挖掘若干应用领域的科学问题，以应用需求为导向，设立长期稳定的科学目标。围绕该目标，开展长期、持续的软件研发。

（2）大力加强高性能计算应用中间件的开发。近年来，在国家“863”计划和重点研发计划“高性能计算”专项的支持下，我国科研工作者成功研制了三维并行结构自适应软件框架 JASMIN[[27]和三维并行自适应有限元软件平台 PHG[[28]。中国科学院计算机网络信息中心科研人员在计算科学应用研究中心支持下，正研发并行计算框架 SC Tangram。通过框架支撑，并行计算细节可对应用科学计算研究人员屏蔽，使其可集中于物理模型和计算方法创新并加速计算程序与新方法、新模型的融合，最终实现大规模并行计算应用软件的快速开发。

（3）进一步在国家战略层面加强科学计算应用软件的规划和开发。科学计算应用软件是计算科学和应用科学领域交叉融合的产物，涉及面广。仅仅依靠高等院校和科研院所的研究人员凭兴趣自发或是零散的研发应用是远远不够的，应从国家战略层面和科学问题的需要出发，以需求为牵引，以需要解决问题为目标，制定 10 年甚至更长时间的规划并坚定地执行方才能见到成效。

（4）提高科学计算应用的基础研究水平。科学计算能力包括计算机软件硬件、支撑软件以及算法的能力。只有提高科学计算应用的基础研究水平，才能对高性能计算机的软硬件提出更高的需求，从而推动高性能计算应用向着更深层次和更高水平发展。大力发展复杂异构系统上的各种精度的混合计算方法，加强高性能体系结构发展与算法、软件的互动。

（5）大力加强计算科学和应用学科的复合型人才培养。科学计算涉及应用科学、计算机科学、数学等多个学科，必须在高等教育、继续教育以及研究院所等层面开展相关培养工作，加大经费支持，建立适合的评价机制，鼓励研究人员从事计算应用软件的研发，提高待遇，从而形成可持续性发展的局面。

致谢感谢中国科学院大气物理研究所刘海龙和唐晓、中国科学院上海药物研究所于坤千、中国科学院高能物理研究所陈莹、中国科学技术大学胡伟、中国科学院金属研究所徐东生、中国科学院北京基因组研究所刘凡、中国科学院计算机网络信息中心王彦堈和王武提供了相关科学计算应用的文字材料；感谢中国科学院物理研究所王鼎盛院士提供珍藏了 20 多年的、发表在《人民日报》和《中国科学报》上的有关曙光 1000 攻关的报道。