在高性能计算领域,El Capitan 超级计算机无疑是一颗璀璨的新星。这台由劳伦斯利弗莫尔国家实验室定制的超级计算机,以其卓越的性能和创新的设计理念,引领着CPU-GPU融合计算的新潮流。
El Capitan 的性能指标令人瞩目,它不仅能够与全球超大规模企业和云服务提供商为AI训练而构建的顶尖机器相提并论,而且在新型大型语言模型的GenAI革命中扮演着核心角色。这台超级计算机专为处理最复杂、最密集的模拟和建模任务而生,其性能在众多领域中都展现出了卓越的能力。
得益于Cray设计的“Rosetta” Slingshot 11互连技术和惠普企业销售的EX系列系统的核心组件,El Capitan采用了HPC增强型可扩展以太网,这与超级以太网联盟(Ultra Ethernet Consortium)的技术路线不谋而合。这种技术的应用,使得El Capitan在成本效益上远超其他竞争对手,尤其是对于那些厌倦了为AI集群支付昂贵InfiniBand网络费用的超大规模企业和云构建者来说。
劳伦斯利弗莫尔国家实验室即将拥有的这台HPC/AI超级计算机,其成本远低于当前市场上的超大规模计算公司、云构建商和大型AI初创公司所支付的价格。虽然难以精确计算两者之间的成本差异,但据初步估算,El Capitan每单位FP16性能的成本仅为Microsoft Azure、Meta Platforms、xAI等公司正在构建的大型“Hopper”H100集群的一半。
在国家安全领域,El Capitan的技术突破和创新具有重大意义。它不仅突破了系统设计架构的极限,还在设计混合CPU-GPU计算引擎方面展现了非凡的能力。将超快的HBM内存集成到这些融合设备之间的共享内存空间,这一系列创新都为性能的提升带来了显著的好处。
回顾2019年8月,惠普(Hewlett Packard Enterprise)赢得了价值数亿美元的El Capitan合同,当时已知该机器将采用Slingshot互连技术,预算约为5亿美元,预计提供至少1.5百亿亿次浮点运算的持续性能。而就在几个月前,HPE宣布将以13亿美元收购Cray。
El Capitan的持续性能预计将至少是IBM为实验室构建的“Sierra”混合CPU-GPU系统的10倍,功率范围达到30兆瓦。2020年3月,劳伦斯利弗莫尔宣布与AMD合作开发El Capitan的计算引擎,并指出该系统的峰值理论FP64性能将超过2百亿亿次浮点运算,功耗约为40兆瓦,成本不超过6亿美元。
El Capitan混合CPU-GPU系统已经在劳伦斯利弗莫尔完成安装并接近满负荷运行,被公认为是世界上针对传统模拟和建模工作负载性能最优的系统,甚至超过了中国的“天河三号”(2.05百亿亿次浮点运算)和“海洋之光”(1.5百亿亿次浮点运算)超级计算机的峰值性能。
2022年6月,劳伦斯利弗莫尔和AMD宣布将采用融合的CPU-GPU设备(AMD数十年来一直将其称为加速处理单元或APU)作为El Capitan系统的主要计算引擎。自那以后,人们一直在猜测“Antares”Instinct MI300A设备的时钟速度、设备中GPU计算单元的数量以及其运行时钟速度。事实证明,MI300A的时钟速度更高,因此只需较少的时钟周期即可达到相应性能。劳伦斯利弗莫尔所获得的机器性能比预期更优,因此其性价比甚至超出了预期水平。
劳伦斯利弗莫尔国家实验室利弗莫尔计算部门首席技术官Bronis de Supinski透露,El Capitan系统中总计有87个计算机架,另有数十个额外机架用于容纳其“Rabbit”NVM-Express快速存储阵列。
El Capitan在液冷Cray EX机架中总共拥有11,136个节点,每个节点配备四个MI300A计算引擎,整个系统共有44,544个设备。每个设备都有128GB的HBM3主内存,由CPU和GPU芯片共享,运行频率为5.2GHz,能够为CPU和GPU芯片提供总计5.3TB/秒的总带宽。
根据11月份Top500排行榜的数据,MI300A CPU芯片组的运行频率为1.8 GHz,而AMD规格表显示GPU芯片组的峰值运行频率为2.1 GHz。该芯片组包含三个“Genoa”X86计算复合体,每个复合体具备八个核心,总计24个核心,系采用台积电的5纳米工艺蚀刻而成。MI300A设备上的六个Antares GPU芯片组拥有228个GPU计算单元,总共包含912个矩阵核心和14,592个流处理器。在矢量单元方面,MI300A的峰值FP64性能为61.3万亿次浮点运算,在矩阵单元上,其FP64性能为矢量单元的两倍,即122.6万亿次浮点运算。
每个El Capitan节点的峰值FP64性能可达250.8 teraflops,当将所有节点连接在一起时,FP64总性能可达2,792.9 petaflops,前端配备5.475 PB的HBM3内存。在CPU和GPU计算芯片下方设有四个I/O芯片,用于将这些元件整合并连接至HBM3内存,这些芯片是采用台积电的6纳米工艺蚀刻而成。
值得注意的是,MI300A封装上仍有六个计算芯片(在AMD术语中为XCD),其与六个GPU芯片完美匹配。橡树岭的“Frontier”超级计算机定制的“Trento”CPU XCD(单个芯片中每个节点八个)与四个独立的双芯片“Aldebaran”MI250X GPU的比例亦为一比一。这种一比一的封装形式在多代Cray超级计算机的CPU和加速器之间一直得以延续,这或许并非偶然。从某种意义上讲,MI300A是一个六路X86 CPU服务器,与六路GPU系统板交叉耦合。
以下是一个汇总表,展示了El Capitan系统及其位于劳伦斯利弗莫尔的El Capitan区块的“Toulumne”和“rzAdams”芯片以及位于桑迪亚国家实验室的“El Dorado”系统的相关参数:
El Capitan服务器节点的示意图如下:
如您所见,存在四个Infinity Fabric x16端口,其总带宽达128 GB/秒,以内存一致性方式将四个MI300A设备相互连接。
此外,还有四个端口,这些端口可配置为PCI-Express 5.0 x16插槽或Infinity Fabric x16插槽,在此情形下,它们被设置为前者,以便插入Slingshot 11网络接口卡,这些接口卡实际上通过Slingshot 11架构将整个系统中的APU相互连接。
最后,关于El Capitan系统有一个饶有趣味的观点,从技术层面而言,该系统用于运行对超级计算机进行排名的高性能Linpack基准测试的那部分机器,其性能可达2,746.38千万亿次浮点运算。(若物理机器上总计有44,544个APU,此部分机器激活了43,808个APU,占机器容量的98.3%。)额定性能末尾的46千万亿次浮点运算(性能的第三和第四位有效数字)比2024年11月Top500榜单上除34台机器之外的所有机器都要大。当提及“2.7百亿亿次浮点运算”时所舍弃的那些四舍五入数字,其规模几乎与巴塞罗那超级计算中心的“MareNostrum 5”超级计算机相当。
若劳伦斯利弗莫尔让HPL在系统中的所有APU上运行,El Capitan的性能将再提升1.65%,并且我们认为,计算、内存和互连相互作用的改进可使其性能再提高约5%。倘若劳伦斯利弗莫尔能够将软件和网络调优性能提高7.5%,那么该机器的峰值HPL容量将突破3百亿亿次浮点运算,我们期望实验室能够达成这一目标,毕竟这极具意义。这将是五年前项目启动时El Capitan最初预期性能的两倍——且是按时按预算推进的。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。