文章来源:放心AI网发布时间:2025-04-16 17:15:15
2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。
BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。
在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。
基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。
在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。
此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。
项目主页:
https://github.com/VectorSpaceLab/MegaPairs
模型地址:
https://huggingface.co/BAAI/BGE-VL-MLLM-S1
上一篇: Cohere发布全新多模态AI模型AyaVision,提供32B和8B两个版本
人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。该实验室声称,该模型在行业内处于领先地位。Aya Vision 能够执行多项任务,包括撰写图片说明、回答与照片相关的
下一篇: 特朗普分享“加沙度假胜地”AI视频,创作者称其为政治讽刺
近日,特朗普在其社交平台 Truth Social 上分享了一段名为 “特朗普加沙” 的 AI 生成视频,该视频展示了战火纷飞的加沙地带被描绘成一个类似迪拜的度假天堂。视频中,一家人从废墟中走出,来到一座高楼林立的海滨
相关攻略 更多
最新资讯 更多
OpenAI几周内发布o3-mini,性能略逊于o1-pro
更新时间:2025-05-06
Runway推全新AI图像生成器Frames,打造电影级视觉表现
更新时间:2025-05-06
微软推出WindowsAI搜索功能测试,提升文件查找体验
更新时间:2025-05-06
OpenAI专家:社交媒体上的AI炒作远比你想象的复杂!
更新时间:2025-05-06
AI始祖重生:世界首个聊天机器人ELIZA在60年后重获新生
更新时间:2025-05-06
大型出版公司Dotdash与OpenAI达成合作,裁员百余人
更新时间:2025-05-06
阶跃星辰上线Step-2mini、Step-2文学大师版语言模型
更新时间:2025-05-06
MiniMax海螺语音全球同步上线包含T2A-01-Turbo等模型
更新时间:2025-05-06
MIT、DeepMind研究揭示视觉语言模型无法理解否定表达的原因
更新时间:2025-05-06
商汤日日新融合大模型交互版开放商用实时音视频对话限时免费
更新时间:2025-05-06