阿里达摩院整了个电商多模态大模型Valley 2

在人工智能领域，多模态大型语言模型的发展正不断刷新着我们对智能交互的认知。近期，阿里巴巴达摩院推出了一款名为Valley2的创新模型，它专为电商场景量身定制，通过其可扩展的视觉-语言架构，不仅提升了跨领域的性能，还极大地拓展了在电商和短视频领域的应用潜力。

Valley2模型采用了先进的Qwen2.5作为其语言模型的主干，并搭配了SigLIP-384视觉编码器。这种独特的组合，再辅以MLP层和卷积操作，实现了高效的特征转换。Valley2的创新之处在于其引入的大视觉词汇、卷积适配器（ConvAdapter）和Eagle模块。这些创新不仅增强了模型处理多样化真实世界输入的灵活性，还显著提升了训练和推理的效率。

Valley2的数据集构建同样精妙，它融合了OneVision风格的数据、专门针对电商和短视频领域的数据，以及为复杂问题解决而设计的链式思维（CoT）数据。其训练过程分为四个阶段：文本-视觉对齐、高质量知识学习、指令微调以及链式思维后训练。在一系列公开基准测试中，Valley2的表现令人瞩目，尤其在MMBench、MMStar、MathVista等基准测试中取得了高分，并在Ecom-VQA基准测试中超越了其他同规模的模型。

展望未来，阿里巴巴达摩院有着更为宏大的计划。他们计划发布一个包含文本、图像、视频和音频模态的全能模型，并引入基于Valley的多模态嵌入训练方法，以支持下游的检索和探测应用。这不仅是对现有技术的一次飞跃，也为未来的多模态应用开辟了新的道路。

Valley2的推出无疑是多模态大型语言模型领域的一个重要里程碑。它不仅展示了通过结构改进、数据集构建和训练策略优化来提升模型性能的可能性，还为整个行业提供了一个全新的发展方向。随着技术的不断进步，我们有理由相信，Valley2及其后续模型将在未来的智能交互领域发挥越来越重要的作用。

模型链接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:

https://github.com/bytedance/Valley

论文链接:

https://arxiv.org/abs/2501.05901

微信扫一扫：分享

相关文章

AI军火库战略曝光！联想CTO揭秘三大「智能体梦工厂」作战图

OpenAI宫斗再揭秘：投资人示警未果 阿尔特曼险遭资本驱逐

Wayve祭出驾驶界「五维沙盘」：GAIA-2模型可生成五视角视频，模拟「死神来了」级路况

慢增长时代的突围战：快手的AI「换血」能解估值困局吗？

具身智能战国时代：BATJ华为小米千亿押注，中国军团剑指全球AI王座

教育新基建升级！腾讯混元大模型实战课入选「国家队」 首套AI通识课体系发布

发表回复 取消回复

OpenAI宫斗再揭秘：投资人示警未果阿尔特曼险遭资本驱逐

教育新基建升级！腾讯混元大模型实战课入选「国家队」首套AI通识课体系发布

发表回复取消回复