中国团队推世界最大多模态数据集“Infinity-MM”和顶尖微型AI模型“Aquila-VL-2B”

文章来源：放心AI网发布时间：2025-06-04 11:02:28

近日，来自多家中国机构的研究团队成功创建了 “Infinity-MM” 数据集，这是目前最大规模的公开多模态 AI 数据集之一，同时训练出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

该数据集主要包含四大类数据:1000万条图像描述、2440万条一般视觉指令数据、600万条精选高质量指令数据，以及300万条由 GPT-4和其他 AI 模型生成的数据。

在生成方面，研究团队利用现有的开源 AI 模型。首先，RAM++ 模型分析图像并提取重要信息，随后生成相关问题和答案。此外，团队还构建了一种特殊的分类系统，确保生成数据的质量和多样性。

这一合成数据生成方法采用了多层次的处理方式，结合了 RAM++ 和 MiniCPM-V 模型，通过图像识别、指令分类和响应生成，为 AI 系统提供了精准的训练数据。

Aquila-VL-2B 模型基于 LLaVA-OneVision 架构，使用 Qwen-2.5作为语言模型，并采用 SigLIP 进行图像处理。模型的训练分为四个阶段，逐步提高复杂性。在第一阶段，模型学习了基本的图像 – 文本关联;后续阶段则包含一般视觉任务、具体指令的执行，以及最终整合合成生成的数据。的图像分辨率也在训练逐渐提升。