苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态AI发展

文章来源：放心AI网发布时间：2025-07-02 11:58:42

在多模态人工智能（AI）领域，苹果公司的工程师们与法国索邦大学的研究团队合作，展开了一项重要研究。近日，科技媒体 marktechpost 发布了相关博文，探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明，从头训练的早期融合模型在计算效率和可扩展性上更具优势。

多模态 AI 的目标是同时处理图像、文本等多种数据类型，然而，整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合（late-fusion）策略，即将预训练的单模态模型(如视觉和语言模型)组合在一起。虽然这种方法操作简单，但在实现真正的多模态理解时，往往受到单模态预训练带来的固有偏差限制，进而影响模型捕捉跨模态关系的能力。

图源备注：图片由AI生成，图片授权服务商Midjourney

随着系统规模的扩大，各个组件的参数、预训练需求及扩展特性差异显著，导致计算资源的分配变得复杂，尤其是在需要深度多模态推理的任务中，性能受到严重影响。在此背景下，苹果与索邦大学的研究团队挑战了传统的架构选择，深入探讨了原生多模态模型（NMMs）的扩展特性。

研究比较了早期融合（early-fusion）与后期融合模型。结果显示，尽管两者在从头训练时性能相当，早期融合模型在较低计算预算下表现更高效，并且更易于扩展。此外，团队还探索了专家混合(MoE)稀疏架构，这一架构能够动态分配参数，针对不同模态进行专项优化。与稠密模型相比，稀疏模型在小规模模型中表现出明显的优势。

研究表明，稀疏模型更倾向于扩展训练数据（training tokens），而非活跃参数(active parameters)，这与稠密模型的扩展方式形成了鲜明对比。通过系统实验，研究团队训练了从0.3亿到40亿活跃参数的多模态模型，验证了早期融合和稀疏架构在多模态处理中的潜力。这些发现不仅挑战了传统的设计理念，也为未来高效多模态 AI 系统的开发提供了新思路。