678CHAT AI资讯 小白也能懂DeepSeek:从MoE到MLA,国产AI咋改变世界

小白也能懂DeepSeek:从MoE到MLA,国产AI咋改变世界

DeepSeek在AI领域的创新举措,为整个行业带来了前所未有的变革。

小白也能懂DeepSeek:从MoE到MLA,国产AI咋改变世界插图

首先,DeepSeek通过MoE架构的创新应用,显著提升了训练效率。

MoE架构并非DeepSeek首创,早在20世纪90年代就已提出,并在1994年由机器学习专家Jordan和Jacobs完善为“分层混合专家”模型。然而,DeepSeek的创新之处在于将这一架构成功应用于AI模型训练,使其效率大幅提升。

其次,DeepSeek创造性地开发了MLA机制,以提高推理效率。

解决了训练效率问题后,DeepSeek将目光转向了推理效率。研究人员灵光一闪,开发出了MLA——多头潜在注意力机制。从技术角度看,MLA通过将注意力头的键和值进行线性变换,压缩到一个共享的低维潜在向量空间,推理时只需操作压缩后的数据,得出结论后再解压输出答案。

用一个简单的比喻来说明:传统多头注意力机制就像一个老图书馆,每本书都有详细的索引卡,AI需要在海量图书中查找目标书籍,效率自然受限。而DeepSeek的MLA则像是对图书馆进行了优化,为书籍按类别归档并建立智能化检索机制,输入书名后,系统直接锁定大致区间,大大节省了无效检索时间。

最后,DeepSeek引入了MTP机制,进一步提升预测能力。

预测机制是AI模型的核心之一,涉及训练效率、推理速度和回答质量。传统AI预测过程较为单一,而DeepSeek的MTP机制(多令牌预测)则像是让AI拥有了多只手,将任务分解并同时处理,最后组合生成答案,从而显著提高了训练和推理效率。

1、FlashMLA:为AI开启“外挂”。

2、DeepEP:MoE模型的通信革命。

3、DeepGEMM:AI训练的“压箱底宝贝”。

DeepGEMM是一个为FP8精度的通用矩阵乘法(GEMM)设计的库,支持普通和混合专家(MoE)分组的GEMM。简单来说,它是一个在FP8精度下训练AI大模型的工具,同时保证训练的准确性。

什么是“精度”?直观地说,数据的准确性越高,精度越高。例如,“小明的身高是1米7”是FP8精度,而“小明的身高是1米72”则是FP16精度。高精度虽然能带来更准确的结果,但也会占用更多算力资源,影响传输速度。因此,尽管FP16精度更高,但实际训练中效率远不如FP8。然而,FP8此前一直存在诸多问题,尚未有AI大模型以FP8精度完成训练。

DeepSeek公布的高效训练背后,关键就在于DeepGEMM。它采用双重验证和智能纠错的方式,让FP8在训练中也能达到高精度训练的准确率,解决了溢出等问题。

DeepGEMM的代码仅有约300行,极致精简且高效,被外国网民评价为“教科书级别的代码”。

DeepSeek的启示:推广“好用的轮子”

DeepSeek将开源精神发挥到极致,从DeepSeek-R1及相关算法的完全开源,到开源周的技术大放送,几乎都采用MIT或类MIT开源协议,允许自由使用、复制、修改等,且不要求项目开源。

从商业角度看,DeepSeek本可凭借技术优势获取利润,却选择开源,推动AI行业进步。其开源技术有望使AI模型推理成本在今年降低50%以上,提升实时交互体验。

DeepSeek的开源也促使更多AI企业加入开源阵营,促进行业交流与学习,让企业从“重复造轮子”的困境中解脱。从这个角度看,DeepSeek的开源是AI发展史上的重要节点。

虽然DeepSeek的创新多是在已有概念基础上的“工业化”成果,但正如詹姆斯·瓦特改进蒸汽机推动工业革命一样,DeepSeek的开源为AI行业带来了“通用蒸汽机”,加速了AI的普及。

对于普通人来说,DeepSeek的意义在于改善了AI模型的质量;对于行业来说,它改变了行业动向,让开源和强化学习机制的潜力得到认可。DeepSeek的创新总结起来就是:更高效、更自主和更开放。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/11245.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注