DeepSeek-VL2 AI视觉模型免费分享啦：能搞定动态图像、科研图，还能解读搞笑图哦

12月14日，DeepSeek团队通过其官方公众号宣布了一个重大突破——DeepSeek-VL2模型的开源，标志着视觉模型技术进入了混合专家模型（Mixture of Experts，简称MoE）的新纪元。

根据官方发布的新闻稿，DeepSeek-VL2模型的亮点包括：

数据：相较于前代DeepSeek-VL，DeepSeek-VL2拥有两倍的数据量，并且新增了对梗图的理解、视觉定位和视觉故事生成等先进功能。
架构：在视觉处理方面，采用了动态分辨率图像的切图策略，而在语言处理方面，则运用了MoE架构，实现了低成本与高性能的完美结合。
训练：DeepSeek-VL2继承了DeepSeek-VL的三阶段训练流程，并针对图像切片数量的不确定性进行了负载均衡适配，同时对图像和文本数据采用了不同的并行处理策略，对MoE语言模型引入了专家并行，极大提升了训练效率。

DeepSeek-VL2模型的动态分辨率支持能力，通过使用一个SigLIP-SO400M作为图像编码器，将图像分割成多个子图和一张全局缩略图，实现了对动态分辨率图像的支持。这种策略使得DeepSeek-VL2能够支持高达1152x1152的分辨率，以及1:9或9:1的极端长宽比，使其能够适应更多的应用场景。

此外，DeepSeek-VL2模型通过学习更多的科研文档数据，具备了轻松理解各种科研图表的能力，并且能够通过Plot2Code技术，根据图像生成相应的Python代码。

目前，该模型及其相关论文已经对外发布：

模型下载链接：[https://huggingface.co/deepseek-ai](https://huggingface.co/deepseek-ai)

GitHub项目主页：[https://github.com/deepseek-ai/DeepSeek-VL2](https://github.com/deepseek-ai/DeepSeek-VL2)

微信扫一扫：分享

相关文章

马斯克再掀资本风暴！xAI 450亿鲸吞社交平台X开启AI社交新时代

智驾生死竞速：仅7家坚守自研，新势力如何破局？

中国车机系统革命！蔚来天枢OS硬刚特斯拉 算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型 准确率破91%

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

发表回复 取消回复

中国车机系统革命！蔚来天枢OS硬刚特斯拉算力暴增300%

太阳风暴预警革命！中国首发「金乌」AI大模型准确率破91%

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

发表回复取消回复