科大讯飞和华为联手，率先搞定国产算力大规模跨节点专家并行集群推理

3月11日，国产算力领域传来喜讯，科大讯飞与华为强强联手，在算力集群推理技术上取得重大突破。双方联合团队成功攻克了MoE模型在国产算力集群上的大规模跨节点专家并行集群推理难题，成为继DeepSeek公布其MoE模型训练推理方案后，首个基于国产算力的创新解决方案。

此次合作中，联合团队通过软硬件深度协同创新，在关键技术层面充分挖掘硬件潜力，完成了昇腾集群的验证与部署。在算子融合环节，团队巧妙地在MLA预处理阶段采用Vector与Cube异构计算单元并行流水的方式，并将多个小算子融合重构为原子级计算单元，有效消除了小算子下发的开销。这一创新举措使得MLA前处理时延降低了50%以上，性能得到显著提升。

科大讯飞研究院详细介绍了联合团队在混合并行策略和通信计算并行优化方面的成果。团队构建了TP（张量并行）+EP（专家并行）的混合范式，针对MLA计算层采用机内TP并行，充分发挥机内高速互联的优势，有效降低了跨机通信损耗。此外，团队还创新性地采用MoE专家分层调度，将64卡均衡分配到专家计算节点，并定制了AllToAll通信协议，使得专家数据交换效率提升了40%。通过构建跨机/机内双层通信架构，分层优化进一步降低了跨机流量60%。同时，研发的路由专家负载均衡算法，实现了卡间负载差异小于10%，集群吞吐量提升了30%。

得益于分布式架构创新与算法协同优化，联合团队在国产算力上实现了性能的大幅提升。单卡静态内存占用缩减至双机部署的1/4，效率提升了75%，专家计算密度增加了4倍，推理吞吐量提升了3.2倍，端到端时延降低了50%。

科大讯飞研究院表示，这一突破性的解决方案将应用于讯飞星火深度推理模型的训练加速，预计训练时推理效率将提升200%。同时，基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。

据科大讯飞公告，其深度推理大模型星火X1也已完成升级。尽管模型参数量比业界同行少一个数量级，但星火X1在数学能力上已全面对标DeepSeek R1和OpenAI o1，并在中文数学各项任务中实现了领先。

相关文章

美国政府搞了个聊天机器人，想用 AI 改变公务员工作

Meta要砍650亿美元AI账单！自研芯片出手，要摆脱英伟达卡脖子？

Adobe Stock 新增 AI 定制功能：图片编辑优化一站搞定

Arm 要把 AI 性能优化软件库 Kleidi 用到汽车领域

硅基流动宣布DeepSeek-R1和V3 API支持批量推理，价格狂降75%

高盛说的对？腾讯AI疯涨，元宝流量密码

发表回复 取消回复

发表回复取消回复