8月21日,科技界迎来了一个重大新闻,微软公司隆重推出了Phi-3.5系列的人工智能模型,其中最引人注目的是系列中首个混合专家模型(MoE)版本——Phi-3.5-MoE的亮相。
此次微软公司发布的Phi-3.5系列涵盖了三款AI模型:Phi-3.5-MoE、Phi-3.5-vision以及Phi-3.5-mini。这些模型均基于综合数据和经过筛选的公开资源构建而成,具备128K的上下文窗口,并且现已在Hugging Face平台以MIT许可的形式向公众开放。以下是对这些模型的详细介绍:
Phi-3.5-MoE:混合专家技术的突破之作
Phi-3.5-MoE作为Phi系列中首款应用混合专家技术(MoE)的模型,采用了16 x 3.8B MoE架构,仅激活了66亿个参数,并通过512个H100在4.9T标记上完成了训练。
微软的研究团队从基础出发,精心设计了这一模型,旨在实现性能的显著提升。在人工智能的标准基准测试中,Phi-3.5-MoE的表现超越了Llama-3.1 8B、Gemma-2-9B以及Gemini-1.5-Flash等模型,其性能直逼当前业界领先的GPT-4o-mini。
Phi-3.5-vision:图像理解的革新者
Phi-3.5-vision拥有42亿个参数,经过256个A100 GPU在500B标记上的训练,现在能够支持对多帧图像的理解和推理。
在多个性能基准测试中,Phi-3.5-vision均显示出了显著的提升,包括在MMMU(从40.2提升至43.0)、MMBench(从80.5提升至81.9)以及文档理解基准TextVQA(从70.9提升至72.0)上的表现。
Phi-3.5-mini:轻量级却功能强大
Phi-3.5-mini是一个拥有38亿参数的模型,其性能超越了Llama3.1 8B和Mistral 7B,甚至能够与Mistral NeMo 12B相媲美。
该模型在512个H100上进行了3.4T标记的训练。Phi-3.5-mini仅有3.8B的有效参数,但即便与拥有更多有效参数的大型语言模型相比,在多语言任务中依然展现出了极强的竞争力。
更值得一提的是,Phi-3.5-mini现在支持128K的上下文窗口,而其主要竞争对手Gemma-2系列仅支持8K的上下文窗口。