阿里巴巴达摩院推出电商场景多模态大模型Valley2

文章来源：放心AI网发布时间：2025-05-08 16:19:02

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型，该模型基于电商场景设计，旨在通过可扩展的视觉-语言架构，提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干，搭配SigLIP-384视觉编码器，结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器（ConvAdapter）和Eagle模块，增强了处理多样化真实世界输入的灵活性及训练推理效率。

Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维（CoT）数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中，Valley2于多个公开基准测试中表现卓越，尤其在MMBench、MMStar、MathVista等基准上得分颇高，在Ecom-VQA基准测试中也超越了其他同规模模型。

未来，阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型，并引入基于Valley的多模态嵌入训练方法，以支持下游检索和探测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展，展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。

模型链接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:

https://github.com/bytedance/Valley

论文链接:

https://arxiv.org/abs/2501.05901