在2024年的AI领域,MoE架构无疑成为了行业瞩目的焦点。
首先,众多企业纷纷在自家的闭环系统中引入MoE架构,以期在AI技术竞争中占据有利地位。在国际舞台上,诸如OpenAI的GPT-4、Google的Gemini、Mistral AI的Mistral以及xAI的Grok-1等重量级模型均已采用MoE架构。
视线转向国内,我们同样见证了昆仑万维的天工3.0、浪潮信息的源2.0-M32、通义千问团队的Qwen1.5-MoE-A2.7B、MiniMax的abab6以及幻方量化的DeepSeek-MoE 16B等众多MoE模型的诞生。
与此同时,一些企业也积极地将自家的MoE模型开源,以促进技术交流和行业发展。昆仑万维不久前宣布开源了参数量达2000亿的Skywork-MoE模型,而浪潮信息和DeepSeek等公司也紧随其后,纷纷开源了自己的MoE模型。
MoE模型之所以受到如此多厂商的追捧,其背后的原因究竟是什么?开源的背后,MoE模型又是凭借哪些优势,使得众多主流厂商将其视为AI行业变革的利器?
MoE模型的火热背后,是其创新的AI问题解决思路。
MoE模型的工作机制,可以类比于中国古代的“术业有专攻”理念,它将任务细分,然后分配给不同的“专家”进行处理,确保每个任务都能得到最专业的解决方案。
具体来说,MoE模型的工作流程是这样的:数据首先被切分为多个小块(token),然后通过门控网络技术(Gating Network)将这些数据块分配给不同的专家模型(Experts)进行处理。这一过程,本质上是让每个专家在其擅长的领域内发挥最大的效能,最终将所有专家的处理结果汇总,根据它们之间的关联性进行加权,输出最终答案。
当然,这只是一个基本的工作流程。在门控网络的具体位置、模型设计、专家数量以及MoE与Transformer架构的结合方式等方面,不同厂商有着各自的独到见解和创新,这些差异也逐渐成为企业间竞争的关键点——谁的算法更先进,谁就能在MoE模型的性能上占据优势。
以浪潮信息为例,该公司提出了一种基于注意力机制的门控网络(Attention Router),这一算法的创新之处在于,它采用了局部过滤增强的注意力机制(Localized Filtering-based Attention, LFA),这种机制能够先学习词与词之间的局部关联性,再计算全局关联性,从而更准确地理解自然语言的局部和全局特征。这种对自然语言的深入理解,不仅提升了模型对语义关联的匹配能力,也确保了专家模型之间的高效协同,进一步提升了模型的整体精度。