678CHAT AI资讯 联想问天服务器牛气冲天!单机跑671B大模型,吞吐量飙到6708token/s!

联想问天服务器牛气冲天!单机跑671B大模型,吞吐量飙到6708token/s!

联想在高性能计算领域再次取得重大突破,其首款 AMD AI 大模型训练服务器——联想问天 WA7785a G3在单机部署671B(满血版)DeepSeek大模型时,创下了6708token/s的惊人吞吐量,打破了单台服务器运行超大规模模型性能的行业纪录。

联想问天服务器牛气冲天!单机跑671B大模型,吞吐量飙到6708token/s!插图

此次性能的飞跃,离不开联想万全异构智算平台的强大助力。联想凭借一系列创新技术,包括访存优化、显存优化、创新的 PCIe5.0全互联架构以及从 SGLang 框架中精心挑选的最优算子,对大模型从预训练到推理的全流程进行了深度优化。经过实测,单台部署 DeepSeek671B 大模型的联想问天 WA7785a G3服务器,其最高吞吐量达到了令人瞩目的6708token/s。

图源备注:图片由AI生成,图片授权服务商Midjourney

在模拟问题对话场景(上下文序列长度128/1K)时,该服务器最高可支持158的并发数,TPOT(Time Per Output Token)为93毫秒,TTFT(Time To First Token)为2.01秒;而在模拟代码生成场景(上下文序列长度512/4K)时,并发数可达140,TPOT 为100毫秒,TTFT 为5.53秒。联想方面指出,这一性能表现表明,单台联想问天 WA7785a G3服务器足以满足1500人规模企业的日常使用需求,这标志着联想在单机部署大模型推理性能方面取得了又一次重大进步,此前联想问天 WA7780G3服务器单机部署满血版 DeepSeek 大模型的总吞吐量已突破2500token/s。

联想方面明确表示,此次技术突破是联想中国基础设施业务群、联想研究院 ICI 实验室和 AMD 紧密合作、联合设计、协同调优的结晶。同时,联想与 AMD 并未停下探索的脚步,双方仍在持续挖掘深度调优的新方法,致力于实现更高的性能突破。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/11882.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部