678CHAT AI资讯 微软新出AI模型:Phi-3.5,128K大容量,还有混合专家技术首次亮相!

微软新出AI模型:Phi-3.5,128K大容量,还有混合专家技术首次亮相!

8月21日,科技界迎来了一个重大新闻,微软公司隆重推出了Phi-3.5系列的人工智能模型,其中最引人注目的是系列中首个混合专家模型(MoE)版本——Phi-3.5-MoE的亮相。

微软新出AI模型:Phi-3.5,128K大容量,还有混合专家技术首次亮相!插图

此次微软公司发布的Phi-3.5系列涵盖了三款AI模型:Phi-3.5-MoE、Phi-3.5-vision以及Phi-3.5-mini。这些模型均基于综合数据和经过筛选的公开资源构建而成,具备128K的上下文窗口,并且现已在Hugging Face平台以MIT许可的形式向公众开放。以下是对这些模型的详细介绍:

Phi-3.5-MoE:混合专家技术的突破之作

Phi-3.5-MoE作为Phi系列中首款应用混合专家技术(MoE)的模型,采用了16 x 3.8B MoE架构,仅激活了66亿个参数,并通过512个H100在4.9T标记上完成了训练。

微软的研究团队从基础出发,精心设计了这一模型,旨在实现性能的显著提升。在人工智能的标准基准测试中,Phi-3.5-MoE的表现超越了Llama-3.1 8B、Gemma-2-9B以及Gemini-1.5-Flash等模型,其性能直逼当前业界领先的GPT-4o-mini。

Phi-3.5-vision:图像理解的革新者

Phi-3.5-vision拥有42亿个参数,经过256个A100 GPU在500B标记上的训练,现在能够支持对多帧图像的理解和推理。

在多个性能基准测试中,Phi-3.5-vision均显示出了显著的提升,包括在MMMU(从40.2提升至43.0)、MMBench(从80.5提升至81.9)以及文档理解基准TextVQA(从70.9提升至72.0)上的表现。

Phi-3.5-mini:轻量级却功能强大

Phi-3.5-mini是一个拥有38亿参数的模型,其性能超越了Llama3.1 8B和Mistral 7B,甚至能够与Mistral NeMo 12B相媲美。

该模型在512个H100上进行了3.4T标记的训练。Phi-3.5-mini仅有3.8B的有效参数,但即便与拥有更多有效参数的大型语言模型相比,在多语言任务中依然展现出了极强的竞争力。

更值得一提的是,Phi-3.5-mini现在支持128K的上下文窗口,而其主要竞争对手Gemma-2系列仅支持8K的上下文窗口。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/1763.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部