文章来源:放心AI网发布时间:2025-05-08 16:19:02
阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。
Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。
未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。
Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。
模型链接:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
代码链接:
https://github.com/bytedance/Valley
论文链接:
https://arxiv.org/abs/2501.05901
相关攻略 更多
最新资讯 更多
阿里巴巴达摩院推出电商场景多模态大模型Valley2
更新时间:2025-05-08
王报换代表:加强治理确保人工智能健康发展
更新时间:2025-05-08
拜登最新签署!事关人工智能
更新时间:2025-05-08
拜登签署行政命令,加速推进人工智能基础设施建设
更新时间:2025-05-08
王喆委员:以人工智能资源优势,提升助老服务能级
更新时间:2025-05-08
培育新质生产力,这些人工智能实践令人振奋
更新时间:2025-05-08
日本人工智能应用潜力仍存
更新时间:2025-05-08
2024年秋季学期最后一节AI课,80多位复旦同学人手一个机器人|人工智能赋能高等教育
更新时间:2025-05-08
美方在AI领域也搞“三六九等”中国外交部:坚决反对!
更新时间:2025-05-08
与未成年人谈恋爱?AI技术不能越界
更新时间:2025-05-08