文章来源:放心AI网发布时间:2025-07-02 11:58:42
在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
多模态 AI 的目标是同时处理图像、文本等多种数据类型,然而,整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后期融合(late-fusion)策略,即将预训练的单模态模型(如视觉和语言模型)组合在一起。虽然这种方法操作简单,但在实现真正的多模态理解时,往往受到单模态预训练带来的固有偏差限制,进而影响模型捕捉跨模态关系的能力。
图源备注:图片由AI生成,图片授权服务商Midjourney
随着系统规模的扩大,各个组件的参数、预训练需求及扩展特性差异显著,导致计算资源的分配变得复杂,尤其是在需要深度多模态推理的任务中,性能受到严重影响。在此背景下,苹果与索邦大学的研究团队挑战了传统的架构选择,深入探讨了原生多模态模型(NMMs)的扩展特性。
研究比较了早期融合(early-fusion)与后期融合模型。结果显示,尽管两者在从头训练时性能相当,早期融合模型在较低计算预算下表现更高效,并且更易于扩展。此外,团队还探索了专家混合(MoE)稀疏架构,这一架构能够动态分配参数,针对不同模态进行专项优化。与稠密模型相比,稀疏模型在小规模模型中表现出明显的优势。
研究表明,稀疏模型更倾向于扩展训练数据(training tokens),而非活跃参数(active parameters),这与稠密模型的扩展方式形成了鲜明对比。通过系统实验,研究团队训练了从0.3亿到40亿活跃参数的多模态模型,验证了早期融合和稀疏架构在多模态处理中的潜力。这些发现不仅挑战了传统的设计理念,也为未来高效多模态 AI 系统的开发提供了新思路。
相关攻略 更多
最新资讯 更多
苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态AI发展
更新时间:2025-07-02
Firecrawl推出FIRE-1:具备网页智能交互能力的AI数据抓取工具
更新时间:2025-07-02
GoogleWhisk新增WhiskAnimate功能,Veo2赋能图像转视频创作
更新时间:2025-07-02
Perplexity竞技场夺冠,Sonar挑战谷歌Gemini的搜索霸主地位
更新时间:2025-07-02
重磅!微信迎来首个AI助手「元宝」,开启聊天新体验
更新时间:2025-07-02
谷歌GeminiLive功能全面开放,安卓用户迎来新体验
更新时间:2025-07-02
OpenAI推出全新推理模型o3,实现图像思考能力
更新时间:2025-07-02
Adobe投资英国AI视频公司Synthesia
更新时间:2025-07-02
OpenAI开源超Agent:CodexCLI,五小时内破5000颗星
更新时间:2025-07-02
通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B
更新时间:2025-07-02