联想问天服务器牛气冲天！单机跑671B大模型，吞吐量飙到6708token/s！

联想在高性能计算领域再次取得重大突破，其首款 AMD AI 大模型训练服务器——联想问天 WA7785a G3在单机部署671B（满血版）DeepSeek大模型时，创下了6708token/s的惊人吞吐量，打破了单台服务器运行超大规模模型性能的行业纪录。

此次性能的飞跃，离不开联想万全异构智算平台的强大助力。联想凭借一系列创新技术，包括访存优化、显存优化、创新的 PCIe5.0全互联架构以及从 SGLang 框架中精心挑选的最优算子，对大模型从预训练到推理的全流程进行了深度优化。经过实测，单台部署 DeepSeek671B 大模型的联想问天 WA7785a G3服务器，其最高吞吐量达到了令人瞩目的6708token/s。

图源备注：图片由AI生成，图片授权服务商Midjourney

在模拟问题对话场景（上下文序列长度128/1K）时，该服务器最高可支持158的并发数，TPOT（Time Per Output Token）为93毫秒，TTFT（Time To First Token）为2.01秒；而在模拟代码生成场景（上下文序列长度512/4K）时，并发数可达140，TPOT 为100毫秒，TTFT 为5.53秒。联想方面指出，这一性能表现表明，单台联想问天 WA7785a G3服务器足以满足1500人规模企业的日常使用需求，这标志着联想在单机部署大模型推理性能方面取得了又一次重大进步，此前联想问天 WA7780G3服务器单机部署满血版 DeepSeek 大模型的总吞吐量已突破2500token/s。

联想方面明确表示，此次技术突破是联想中国基础设施业务群、联想研究院 ICI 实验室和 AMD 紧密合作、联合设计、协同调优的结晶。同时，联想与 AMD 并未停下探索的脚步，双方仍在持续挖掘深度调优的新方法，致力于实现更高的性能突破。

相关文章

Anthropic首席科学家卡普兰：AI可能越变越强，最后反过来控制人类

豆包手机助手澄清误会：用的是系统自带截图功能，银行键盘这些保护内容截不了

马斯克的xAI和萨尔瓦多政府联手，Grok两年内进5000多所公立学校

铜价飙到快1.2万美元一吨，全因供应紧、AI需求旺

GPT-5.2被爆作弊：靠狂刷token偷袭谷歌，结果还不如Gemini 3

AI员工被一句周末好吗整疯了，狂聊200条，烧了30美元停不下来

发表回复 取消回复

发表回复取消回复