12月14日,DeepSeek团队通过其官方公众号宣布了一个重大突破——DeepSeek-VL2模型的开源,标志着视觉模型技术进入了混合专家模型(Mixture of Experts,简称MoE)的新纪元。
根据官方发布的新闻稿,DeepSeek-VL2模型的亮点包括:
-
数据:相较于前代DeepSeek-VL,DeepSeek-VL2拥有两倍的数据量,并且新增了对梗图的理解、视觉定位和视觉故事生成等先进功能。
-
架构:在视觉处理方面,采用了动态分辨率图像的切图策略,而在语言处理方面,则运用了MoE架构,实现了低成本与高性能的完美结合。
-
训练:DeepSeek-VL2继承了DeepSeek-VL的三阶段训练流程,并针对图像切片数量的不确定性进行了负载均衡适配,同时对图像和文本数据采用了不同的并行处理策略,对MoE语言模型引入了专家并行,极大提升了训练效率。
DeepSeek-VL2模型的动态分辨率支持能力,通过使用一个SigLIP-SO400M作为图像编码器,将图像分割成多个子图和一张全局缩略图,实现了对动态分辨率图像的支持。这种策略使得DeepSeek-VL2能够支持高达1152x1152的分辨率,以及1:9或9:1的极端长宽比,使其能够适应更多的应用场景。
此外,DeepSeek-VL2模型通过学习更多的科研文档数据,具备了轻松理解各种科研图表的能力,并且能够通过Plot2Code技术,根据图像生成相应的Python代码。
目前,该模型及其相关论文已经对外发布:
模型下载链接:[https://huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai)
GitHub项目主页:[https://github.com/deepseek-ai/DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2)