文章来源:放心AI网发布时间:2025-06-15 15:59:04
科技巨头 Meta 与香港中文大学的研究团队联合推出了 Multi-SpatialMLLM 模型,这一新框架在多模态大语言模型(MLLMs)的发展中取得了显著进展,尤其是在空间理解方面。该模型通过整合深度感知、视觉对应和动态感知三大组件,突破了以往单帧图像分析的限制,为更复杂的视觉任务提供了强有力的支持。
近年来,随着机器人和自动驾驶等领域对空间理解能力的需求不断增长,现有的 MLLMs 面临着诸多挑战。研究发现,现有模型在基础空间推理任务中表现不佳,例如,无法准确区分左右方向。这一现象主要源于缺乏专门的训练数据,且传统的方法往往只能基于静态视角进行分析,缺少对动态信息的处理。
为了解决这一问题,Meta 的 FAIR 团队与香港中文大学共同推出了 MultiSPA 数据集。该数据集覆盖了超过2700万个样本,涵盖多样化的3D 和4D 场景,结合了 Aria Digital Twin 和 Panoptic Studio 等高质量标注数据,并通过 GPT-4o 生成了多种任务模板。
此外,研究团队设计了五个训练任务,包括深度感知、相机移动感知和物体大小感知等,以此来提升 Multi-SpatialMLLM 在多帧空间推理上的能力。经过一系列测试,Multi-SpatialMLLM 在 MultiSPA 基准测试中的表现十分优异,平均提升了36%,在定性任务中的准确率也达到了80-90%,显著超越了基础模型的50%。尤其是在预测相机移动向量等高难度任务上,该模型也取得了18% 的准确率。
在 BLINK 基准测试中,Multi-SpatialMLLM 的准确率接近90%,平均提升了26.4%,超越了多个专有系统。而在标准视觉问答(VQA)测试中,该模型也保持了其原有的性能,显示了其在不依赖过度拟合空间推理任务的情况下,依然具有良好的通用能力。
相关攻略 更多
Meta发布Multi-SpatialMLLM:引领多模态AI的空间理解革命
字节发布图像Agent“小云雀AI”打造一键爆款创作神器
40毫秒生成一个世界!OdysseyAI交互视频引爆Web4.0,免费试玩让你秒变虚拟探险家!
通义实验室、北大发布新技术ZeroSearch让LLM检索能力激活,成本降低88%
字节推出全新AI剪辑应用“剪小映”,轻松记录生活瞬间
全栈智能体LemonAI横空出世:一键解锁多领域复杂任务
全球首款AI代理浏览器OperaNeon发布,智能聊天与自动化任务引领Web4.0时代
正式开源!DeepSeek-R1-0528震撼发布,性能直逼OpenAIo3,免费API已上线
最新资讯 更多
Meta发布Multi-SpatialMLLM:引领多模态AI的空间理解革命
更新时间:2025-06-15
字节发布图像Agent“小云雀AI”打造一键爆款创作神器
更新时间:2025-06-15
40毫秒生成一个世界!OdysseyAI交互视频引爆Web4.0,免费试玩让你秒变虚拟探险家!
更新时间:2025-06-15
通义实验室、北大发布新技术ZeroSearch让LLM检索能力激活,成本降低88%
更新时间:2025-06-15
字节推出全新AI剪辑应用“剪小映”,轻松记录生活瞬间
更新时间:2025-06-15
全栈智能体LemonAI横空出世:一键解锁多领域复杂任务
更新时间:2025-06-15
全球首款AI代理浏览器OperaNeon发布,智能聊天与自动化任务引领Web4.0时代
更新时间:2025-06-15
正式开源!DeepSeek-R1-0528震撼发布,性能直逼OpenAIo3,免费API已上线
更新时间:2025-06-15
AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%
更新时间:2025-06-15
开源+低成本!Paper2Poster让学术论文秒变学术海报
更新时间:2025-06-15