全球超算排名新鲜出炉，El Capitan超算1.742 EFlop/s夺魁！

在高性能计算领域，El Capitan 超级计算机无疑是一颗璀璨的新星。这台由劳伦斯利弗莫尔国家实验室定制的超级计算机，以其卓越的性能和创新的设计理念，引领着CPU-GPU融合计算的新潮流。

El Capitan 的性能指标令人瞩目，它不仅能够与全球超大规模企业和云服务提供商为AI训练而构建的顶尖机器相提并论，而且在新型大型语言模型的GenAI革命中扮演着核心角色。这台超级计算机专为处理最复杂、最密集的模拟和建模任务而生，其性能在众多领域中都展现出了卓越的能力。

得益于Cray设计的“Rosetta” Slingshot 11互连技术和惠普企业销售的EX系列系统的核心组件，El Capitan采用了HPC增强型可扩展以太网，这与超级以太网联盟(Ultra Ethernet Consortium)的技术路线不谋而合。这种技术的应用，使得El Capitan在成本效益上远超其他竞争对手，尤其是对于那些厌倦了为AI集群支付昂贵InfiniBand网络费用的超大规模企业和云构建者来说。

劳伦斯利弗莫尔国家实验室即将拥有的这台HPC/AI超级计算机，其成本远低于当前市场上的超大规模计算公司、云构建商和大型AI初创公司所支付的价格。虽然难以精确计算两者之间的成本差异，但据初步估算，El Capitan每单位FP16性能的成本仅为Microsoft Azure、Meta Platforms、xAI等公司正在构建的大型“Hopper”H100集群的一半。

在国家安全领域，El Capitan的技术突破和创新具有重大意义。它不仅突破了系统设计架构的极限，还在设计混合CPU-GPU计算引擎方面展现了非凡的能力。将超快的HBM内存集成到这些融合设备之间的共享内存空间，这一系列创新都为性能的提升带来了显著的好处。

回顾2019年8月，惠普(Hewlett Packard Enterprise)赢得了价值数亿美元的El Capitan合同，当时已知该机器将采用Slingshot互连技术，预算约为5亿美元，预计提供至少1.5百亿亿次浮点运算的持续性能。而就在几个月前，HPE宣布将以13亿美元收购Cray。

El Capitan的持续性能预计将至少是IBM为实验室构建的“Sierra”混合CPU-GPU系统的10倍，功率范围达到30兆瓦。2020年3月，劳伦斯利弗莫尔宣布与AMD合作开发El Capitan的计算引擎，并指出该系统的峰值理论FP64性能将超过2百亿亿次浮点运算，功耗约为40兆瓦，成本不超过6亿美元。

El Capitan混合CPU-GPU系统已经在劳伦斯利弗莫尔完成安装并接近满负荷运行，被公认为是世界上针对传统模拟和建模工作负载性能最优的系统，甚至超过了中国的“天河三号”（2.05百亿亿次浮点运算）和“海洋之光”（1.5百亿亿次浮点运算）超级计算机的峰值性能。

2022年6月，劳伦斯利弗莫尔和AMD宣布将采用融合的CPU-GPU设备（AMD数十年来一直将其称为加速处理单元或APU）作为El Capitan系统的主要计算引擎。自那以后，人们一直在猜测“Antares”Instinct MI300A设备的时钟速度、设备中GPU计算单元的数量以及其运行时钟速度。事实证明，MI300A的时钟速度更高，因此只需较少的时钟周期即可达到相应性能。劳伦斯利弗莫尔所获得的机器性能比预期更优，因此其性价比甚至超出了预期水平。

劳伦斯利弗莫尔国家实验室利弗莫尔计算部门首席技术官Bronis de Supinski透露，El Capitan系统中总计有87个计算机架，另有数十个额外机架用于容纳其“Rabbit”NVM-Express快速存储阵列。

El Capitan在液冷Cray EX机架中总共拥有11,136个节点，每个节点配备四个MI300A计算引擎，整个系统共有44,544个设备。每个设备都有128GB的HBM3主内存，由CPU和GPU芯片共享，运行频率为5.2GHz，能够为CPU和GPU芯片提供总计5.3TB/秒的总带宽。

根据11月份Top500排行榜的数据，MI300A CPU芯片组的运行频率为1.8 GHz，而AMD规格表显示GPU芯片组的峰值运行频率为2.1 GHz。该芯片组包含三个“Genoa”X86计算复合体，每个复合体具备八个核心，总计24个核心，系采用台积电的5纳米工艺蚀刻而成。MI300A设备上的六个Antares GPU芯片组拥有228个GPU计算单元，总共包含912个矩阵核心和14,592个流处理器。在矢量单元方面，MI300A的峰值FP64性能为61.3万亿次浮点运算，在矩阵单元上，其FP64性能为矢量单元的两倍，即122.6万亿次浮点运算。

每个El Capitan节点的峰值FP64性能可达250.8 teraflops，当将所有节点连接在一起时，FP64总性能可达2,792.9 petaflops，前端配备5.475 PB的HBM3内存。在CPU和GPU计算芯片下方设有四个I/O芯片，用于将这些元件整合并连接至HBM3内存，这些芯片是采用台积电的6纳米工艺蚀刻而成。

值得注意的是，MI300A封装上仍有六个计算芯片（在AMD术语中为XCD），其与六个GPU芯片完美匹配。橡树岭的“Frontier”超级计算机定制的“Trento”CPU XCD（单个芯片中每个节点八个）与四个独立的双芯片“Aldebaran”MI250X GPU的比例亦为一比一。这种一比一的封装形式在多代Cray超级计算机的CPU和加速器之间一直得以延续，这或许并非偶然。从某种意义上讲，MI300A是一个六路X86 CPU服务器，与六路GPU系统板交叉耦合。

以下是一个汇总表，展示了El Capitan系统及其位于劳伦斯利弗莫尔的El Capitan区块的“Toulumne”和“rzAdams”芯片以及位于桑迪亚国家实验室的“El Dorado”系统的相关参数：

El Capitan服务器节点的示意图如下：

如您所见，存在四个Infinity Fabric x16端口，其总带宽达128 GB/秒，以内存一致性方式将四个MI300A设备相互连接。

此外，还有四个端口，这些端口可配置为PCI-Express 5.0 x16插槽或Infinity Fabric x16插槽，在此情形下，它们被设置为前者，以便插入Slingshot 11网络接口卡，这些接口卡实际上通过Slingshot 11架构将整个系统中的APU相互连接。

最后，关于El Capitan系统有一个饶有趣味的观点，从技术层面而言，该系统用于运行对超级计算机进行排名的高性能Linpack基准测试的那部分机器，其性能可达2,746.38千万亿次浮点运算。（若物理机器上总计有44,544个APU，此部分机器激活了43,808个APU，占机器容量的98.3%。）额定性能末尾的46千万亿次浮点运算（性能的第三和第四位有效数字）比2024年11月Top500榜单上除34台机器之外的所有机器都要大。当提及“2.7百亿亿次浮点运算”时所舍弃的那些四舍五入数字，其规模几乎与巴塞罗那超级计算中心的“MareNostrum 5”超级计算机相当。

若劳伦斯利弗莫尔让HPL在系统中的所有APU上运行，El Capitan的性能将再提升1.65%，并且我们认为，计算、内存和互连相互作用的改进可使其性能再提高约5%。倘若劳伦斯利弗莫尔能够将软件和网络调优性能提高7.5%，那么该机器的峰值HPL容量将突破3百亿亿次浮点运算，我们期望实验室能够达成这一目标，毕竟这极具意义。这将是五年前项目启动时El Capitan最初预期性能的两倍——且是按时按预算推进的。