小白也能懂DeepSeek：从MoE到MLA，国产AI咋改变世界

DeepSeek在AI领域的创新举措，为整个行业带来了前所未有的变革。

首先，DeepSeek通过MoE架构的创新应用，显著提升了训练效率。

MoE架构并非DeepSeek首创，早在20世纪90年代就已提出，并在1994年由机器学习专家Jordan和Jacobs完善为“分层混合专家”模型。然而，DeepSeek的创新之处在于将这一架构成功应用于AI模型训练，使其效率大幅提升。

其次，DeepSeek创造性地开发了MLA机制，以提高推理效率。
解决了训练效率问题后，DeepSeek将目光转向了推理效率。研究人员灵光一闪，开发出了MLA——多头潜在注意力机制。从技术角度看，MLA通过将注意力头的键和值进行线性变换，压缩到一个共享的低维潜在向量空间，推理时只需操作压缩后的数据，得出结论后再解压输出答案。

用一个简单的比喻来说明：传统多头注意力机制就像一个老图书馆，每本书都有详细的索引卡，AI需要在海量图书中查找目标书籍，效率自然受限。而DeepSeek的MLA则像是对图书馆进行了优化，为书籍按类别归档并建立智能化检索机制，输入书名后，系统直接锁定大致区间，大大节省了无效检索时间。

最后，DeepSeek引入了MTP机制，进一步提升预测能力。
预测机制是AI模型的核心之一，涉及训练效率、推理速度和回答质量。传统AI预测过程较为单一，而DeepSeek的MTP机制（多令牌预测）则像是让AI拥有了多只手，将任务分解并同时处理，最后组合生成答案，从而显著提高了训练和推理效率。

1、FlashMLA：为AI开启“外挂”。
2、DeepEP：MoE模型的通信革命。

3、DeepGEMM：AI训练的“压箱底宝贝”。
DeepGEMM是一个为FP8精度的通用矩阵乘法（GEMM）设计的库，支持普通和混合专家（MoE）分组的GEMM。简单来说，它是一个在FP8精度下训练AI大模型的工具，同时保证训练的准确性。

什么是“精度”？直观地说，数据的准确性越高，精度越高。例如，“小明的身高是1米7”是FP8精度，而“小明的身高是1米72”则是FP16精度。高精度虽然能带来更准确的结果，但也会占用更多算力资源，影响传输速度。因此，尽管FP16精度更高，但实际训练中效率远不如FP8。然而，FP8此前一直存在诸多问题，尚未有AI大模型以FP8精度完成训练。

DeepSeek公布的高效训练背后，关键就在于DeepGEMM。它采用双重验证和智能纠错的方式，让FP8在训练中也能达到高精度训练的准确率，解决了溢出等问题。

DeepGEMM的代码仅有约300行，极致精简且高效，被外国网民评价为“教科书级别的代码”。

DeepSeek的启示：推广“好用的轮子”

DeepSeek将开源精神发挥到极致，从DeepSeek-R1及相关算法的完全开源，到开源周的技术大放送，几乎都采用MIT或类MIT开源协议，允许自由使用、复制、修改等，且不要求项目开源。

从商业角度看，DeepSeek本可凭借技术优势获取利润，却选择开源，推动AI行业进步。其开源技术有望使AI模型推理成本在今年降低50%以上，提升实时交互体验。

DeepSeek的开源也促使更多AI企业加入开源阵营，促进行业交流与学习，让企业从“重复造轮子”的困境中解脱。从这个角度看，DeepSeek的开源是AI发展史上的重要节点。

虽然DeepSeek的创新多是在已有概念基础上的“工业化”成果，但正如詹姆斯·瓦特改进蒸汽机推动工业革命一样，DeepSeek的开源为AI行业带来了“通用蒸汽机”，加速了AI的普及。

对于普通人来说，DeepSeek的意义在于改善了AI模型的质量；对于行业来说，它改变了行业动向，让开源和强化学习机制的潜力得到认可。DeepSeek的创新总结起来就是：更高效、更自主和更开放。

微信扫一扫：分享

相关文章

GPT-4时代终结！4月30日全面切换至「全能王」GPT-4o

欧盟委员会出招啦，要搞个AI大计划，目标是当全球AI的领头羊

钢铁巨人暗藏AI杀手锏：宝信软件年赚22亿的工业密码

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

发表回复取消回复