文章来源:放心AI网发布时间:2025-05-23 12:28:58
近日,NVIDIA 推出了新一代开放视觉语言模型 ——NVILA。该旨在优化准确性和效率,凭借出色的性能,成为视觉 AI 领域的佼者。
根据 NVIDIA 的介绍,NVILA 在训练成本上降低了4.5倍微调所需内存减少了3.4倍,并且在预填充和解码的延迟上几乎降低了2倍。这些数据是与另一种大型视觉模型 LLaVa OneVision 进行比较得出的。
在视频基准测试中,NVILA 的表现超过了 GPT4o Mini,并且在与 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比较中也表现出色。此外,NVILA 还在与 Llama3.2的对比中取得了微弱胜利。尽管如此,NVIDIA 表示,目前尚未将该模型发布到 Hugging Face 平台上,他们承诺会很快发布代码和模型,以促进模型的可复现性。
NVIDIA 指出,训练视觉语言模型的成本非常高,训练一个7B 参数的视觉语言模型大约需要400个 GPU 天。同时,微调这样的模型也非常耗费内存,7B 参数的模型需要超过64GB 的 GPU 内存。
因此,NVIDIA 采用了一种名为 “先扩展后压缩” 的技术,旨在平衡模型的准确性与效率。该模型并不通过降低照片和视频的大小来化输入,而是使用高分辨率像和视频中的多个帧,以确保不丢失任何细节。
在压缩过程中,模型通过将视觉信息压缩为更少的 token,来减少输入数据的大小,并将像素进行分组,以保留重要信息。NVIDIA 在论文中提到,双倍分辨率将使视觉 token 数量翻倍,这将使训练和推理成本增加超过2倍。因此,他们通过压缩空间 / 时间 token 降低这部分成本。
NVIDIA 还展示些模型的演示效果,NVILA 能够根据一张图片或一段视频回答多个查询。它的输出结果还与 NVIDIA 之前发布的 VILA1.5模型进行了对比。此外,NVIDIA 还详细介绍了一些其他技术,例如动态 S2扩展、基于 DeltaLoss 的数据集修剪、使用 FP8精度进行量化等。
这些技术均应用于一个8B 参数的模型,具体细节可以在 Arxiv 上查看。
论文入口:https://arxiv.org/pdf/2412.04468
相关攻略 更多
最新资讯 更多
英伟达发布新视觉语言模型NVILA,击败GPT-4oMini和Llama3.2
更新时间:2025-05-23
谷歌DeepMind推出GenCast,气象预测准确率逼近100%
更新时间:2025-05-23
OpenAIGPT-4.5秘密曝光?开发者在代码中发现蛛丝马迹
更新时间:2025-05-23
安永成立全球AI顾问委员会,14亿美元投入AI!
更新时间:2025-05-23
AI评测江湖:ChatbotArena如何改变技术公司的"生存法则"
更新时间:2025-05-23
会员免费试用!OpenAI视频生成模型SoraTurbo上线:最高支持20秒1080P视频
更新时间:2025-05-23
智谱AI上线免费多模态模型GLM-4V-Flash:图像处理精确度提升
更新时间:2025-05-23
可灵AIAPIV1.5模型新增标准std模式、V1.0模型新增运动笔刷
更新时间:2025-05-23
书生·万象多模态大模型InternVL2.5开源性能媲美GPT-4o
更新时间:2025-05-23
“AI”新时代,智能向未来!第三届全国人工智能应用技术技能大赛决赛在青岛闭幕
更新时间:2025-05-23