678CHAT AI资讯 阿里达摩院整了个电商多模态大模型Valley 2

阿里达摩院整了个电商多模态大模型Valley 2

在人工智能领域,多模态大型语言模型的发展正不断刷新着我们对智能交互的认知。近期,阿里巴巴达摩院推出了一款名为Valley2的创新模型,它专为电商场景量身定制,通过其可扩展的视觉-语言架构,不仅提升了跨领域的性能,还极大地拓展了在电商和短视频领域的应用潜力。

阿里达摩院整了个电商多模态大模型Valley 2插图

Valley2模型采用了先进的Qwen2.5作为其语言模型的主干,并搭配了SigLIP-384视觉编码器。这种独特的组合,再辅以MLP层和卷积操作,实现了高效的特征转换。Valley2的创新之处在于其引入的大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块。这些创新不仅增强了模型处理多样化真实世界输入的灵活性,还显著提升了训练和推理的效率。

Valley2的数据集构建同样精妙,它融合了OneVision风格的数据、专门针对电商和短视频领域的数据,以及为复杂问题解决而设计的链式思维(CoT)数据。其训练过程分为四个阶段:文本-视觉对齐、高质量知识学习、指令微调以及链式思维后训练。在一系列公开基准测试中,Valley2的表现令人瞩目,尤其在MMBench、MMStar、MathVista等基准测试中取得了高分,并在Ecom-VQA基准测试中超越了其他同规模的模型。

展望未来,阿里巴巴达摩院有着更为宏大的计划。他们计划发布一个包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游的检索和探测应用。这不仅是对现有技术的一次飞跃,也为未来的多模态应用开辟了新的道路。

Valley2的推出无疑是多模态大型语言模型领域的一个重要里程碑。它不仅展示了通过结构改进、数据集构建和训练策略优化来提升模型性能的可能性,还为整个行业提供了一个全新的发展方向。随着技术的不断进步,我们有理由相信,Valley2及其后续模型将在未来的智能交互领域发挥越来越重要的作用。

模型链接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:

https://github.com/bytedance/Valley

论文链接:

https://arxiv.org/abs/2501.05901

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/8370.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部